JP3591068B2 - 音声信号の雑音低減方法 - Google Patents
音声信号の雑音低減方法 Download PDFInfo
- Publication number
- JP3591068B2 JP3591068B2 JP18796695A JP18796695A JP3591068B2 JP 3591068 B2 JP3591068 B2 JP 3591068B2 JP 18796695 A JP18796695 A JP 18796695A JP 18796695 A JP18796695 A JP 18796695A JP 3591068 B2 JP3591068 B2 JP 3591068B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- value
- noise
- signal
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 title claims description 107
- 238000000034 method Methods 0.000 title claims description 62
- 230000009467 reduction Effects 0.000 title claims description 50
- 230000001629 suppression Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 description 61
- 238000009432 framing Methods 0.000 description 34
- 238000001228 spectrum Methods 0.000 description 33
- 238000004364 calculation method Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 22
- 238000001514 detection method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000005284 excitation Effects 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 102100033118 Phosphatidate cytidylyltransferase 1 Human genes 0.000 description 2
- 101710178747 Phosphatidate cytidylyltransferase 1 Proteins 0.000 description 2
- 102100033126 Phosphatidate cytidylyltransferase 2 Human genes 0.000 description 2
- 101710178746 Phosphatidate cytidylyltransferase 2 Proteins 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Filters That Use Time-Delay Elements (AREA)
Description
【産業上の利用分野】
本発明は、入力される音声信号の所定の周波数帯域を抑圧するフィルタを有する音声符号化装置に音声信号を供給する音声信号の雑音低減方法に関する。
【0002】
【従来の技術】
携帯用電話機や音声認識等の応用において、収音された音声信号に含まれる環境雑音や背景雑音等の雑音を抑圧し、音声成分を強調することが必要とされている。
【0003】
このような音声強調、あるいは雑音低減の技術として、減衰ファクタの調整のために条件付き確率関数を用いる例が、文献「軟判定雑音抑圧フィルタを用いる音声強調」(Speech Enhancement Using a Soft−Decision Noise Suppression Filter, R.J.McAulay, M.L.Malpass, IEEE Trans. Acoust., Speech, Signal Processing, Vol.28, pp.137−145, April 1980 )や、「移動電話システムにおける周波数領域雑音抑圧研究」(Frequency Domain Noise Suppression Approach in Mobil Telephone Systems, J.Yang, IEEE ICASSP, Vol.II, pp.363−366, April 1993 )等に開示されている。
【0004】
【発明が解決しようとする課題】
しかしながら、これらの雑音抑圧技術においては、不適切な固定のSNR(信号対雑音比)に基づく動作をするため、または不適切な抑圧フィルタにより、音色の不自然さや歪んだ音声を生ずることがある。実際の運用の際に、最適の性能を得るために雑音抑圧装置のパラメータの1つであるSNRを調整することは、ユーザにとって望ましいことではない。さらに、従来の音声信号強調技術は、短時間SNRの大きな変動がある音声信号に対して副作用として発生してしまう歪を持たせずに充分雑音を除去することは困難である。
【0005】
また、このような音声強調、あるいは雑音低減方法においては、雑音区間検出の技術が用いられ、入力レベルやパワー等を所定の閾値で比較することにより、雑音区間判別を行っているが、音声にトラッキングすることを防ぐために閾値の時定数を大きくすると、ノイズレベルが変化するとき、特に増加するときに追従できなくなり、誤判別が生じ易くなる。
【0006】
ここで、本発明人は、上述した問題を解決するために、特願平6−99869号に記載の明細書及び図面において、音声信号の雑音低減方法を提案している。
【0007】
上記音声信号の雑音低減方法は、入力音声信号に基づいて算出された信号レベルと雑音レベルとの比いわゆるSN比及び音声存在確率に基づいて、音声成分を算出するための最尤フィルタを適応的に制御することで雑音抑圧を行う音声信号の雑音低減方法であって、上記音声存在確率の算出に、入力信号のスペクトルから推定雑音スペクトルを減算したものを用いることを特徴とするものである。
【0008】
また、上記音声信号の雑音低減方法によれば、上記最尤フィルタが上記入力音声信号のSN比に応じて最適の抑圧フィルタに調整されるため、上記入力音声信号に対して充分な雑音除去を行うことが可能である。
【0009】
ところが、上記音声存在確率を算出するのに、複雑な演算を有すると共に、膨大な演算量が要求されるため、演算の簡略化が望まれる。
【0010】
また、例えば音声信号符号化装置に雑音低減装置にて処理を施した音声信号を入力する場合を考えると、上記音声信号符号化装置は予め高域通過フィルタを有していたり、高域側をブーストするフィルタを有しているため、上記雑音低減装置で低域側の抑圧が既になされていると上記音声信号符号化装置においてさらに低域側が抑圧され周波数特性が変化し、聴覚上不自然な音声が出力される虞がある。
【0011】
また、従来の雑音低減方法では、雑音低減処理は、入力される音声信号の強さ例えばピッチ強度に基づいてではなく、単に推定される雑音レベルに応じて行われるため、やはり聴覚上不自然な音声が出力される虞がある。
【0012】
そこで、上記ピッチ強度を求めるのに、先ずピッチラグを時間波形のピーク値とピーク値との間で求め、このピッチラグで自己相関値を求める方法が知られているが、この場合高速フーリエ変換処理における自己相関関数を用いており、(NlogN)の項の計算が必要で、さらにNの算出も必要となるため演算が複雑になってしまう。
【0013】
そこで、本発明は、上述した実情に鑑みてなされたものであり、入力信号の雑音抑圧を行うのに演算を簡略化することが可能である音声信号の雑音低減方法を提供することを目的とする。
【0014】
また、本発明は、特に上記入力音声信号のピッチ強度の大きいときに所定の帯域の抑圧を抑えることが可能である音声信号の雑音低減方法を提供することも目的とする。
【0015】
【課題を解決するための手段】
本発明は、上述の課題を解決するために、入力される音声信号の所定の周波数帯域を抑圧するフィルタを有する音声符号化装置に音声信号を供給する音声信号の雑音低減方法において、上記音声符号化装置のフィルタは、上記所定の周波数帯域における雑音抑圧量を小さくするように周波数特性を制御するものであり、上記雑音抑圧量を上記入力される音声信号のピッチ強度に応じて変化させるものである。
【0017】
また、上記所定の周波数帯域は、音声信号の低域側であり、上記雑音抑圧量は、上記入力される音声信号の低域側の雑音抑圧を小さくするように変化することが挙げられる。
【0018】
また、本発明は、上述の問題を解決するために、入力される音声信号の所定の周波数帯域を抑圧するフィルタを有する音声符号化装置に音声信号を供給する音声信号の雑音低減方法において、上記入力される音声信号のピッチ強度に応じて、雑音抑圧を行う際の各周波数帯域毎の信号レベルと雑音レベルとの比に対する雑音抑圧特性を変化させるものである。
【0019】
また、本発明は、上述の問題を解決するために、入力される音声信号の所定の周波数帯域を抑圧するフィルタを有する音声符号化装置に音声信号を供給する音声信号の雑音低減方法において、雑音抑圧の特性を決定する各パラメータをニューラルネットに入力し、上記入力される音声信号の音声区間及び雑音区間の判別が行われるものである。
【0020】
また、本発明は、上述の問題を解決するために、入力される音声信号の所定の周波数帯域を抑圧するフィルタを有する音声符号化装置に音声信号を供給する音声信号の雑音低減方法において、雑音抑圧する際の特性に基づいて処理される最大抑圧量は、dB領域で略線形的に変化するものである。
【0021】
また、本発明は、上述の問題を解決するために、入力される音声信号の所定の周波数帯域を抑圧するフィルタを有する音声符号化装置に音声信号を供給する音声信号の雑音低減方法において、上記入力される音声信号のピッチ強度は、信号レベルのピークを選出して得られるピッチ位置の近傍での自己相関を計算することで求められ、雑音抑圧する際の特性は、上記ピッチ強度に基づいて制御されるものである。
【0022】
また、本発明は、上述の問題を解決するために、入力される音声信号の所定の周波数帯域を抑圧するフィルタを有する音声符号化装置に音声信号を供給する音声信号の雑音低減方法において、上記入力される音声信号のフレーム化処理は、当該音声信号の特徴を示すパラメータの算出用フレームと、算出されたパラメータを用いてスペクトルの修正を行うフレームとでそれぞれ独立して行われるものである。
【0023】
【作用】
本発明の音声信号の雑音低減方法によれば、雑音低減に用いるフィルタの特性を制御し、入力される音声信号の所定の周波数帯域における雑音抑圧量を小さくすることで、入力される音声信号の所定の周波数帯域を抑圧するフィルタを有する音声符号化装置に音声信号を供給する。
【0024】
また、上記音声符号化装置が、音声信号の低域側を抑圧するフィルタを有している場合、入力される音声信号の低域側の雑音抑圧を小さくするように雑音抑圧量を制御する。
【0025】
また、本発明の音声信号の雑音低減方法によれば、入力される音声信号のピッチが検出され、検出されたピッチのピッチ強度が得られる。得られたピッチ強度に応じて、雑音抑圧する際の周波数特性が制御される。
【0026】
また、本発明の音声信号の雑音低減方法によれば、雑音抑圧する際の周波数特性を決定する各パラメータをニューラルネットワークに入力すると、入力される音声信号の音声区間及び雑音区間の判別が行われ、この判別は処理を行う回数が増加する程正確になる。
【0027】
また、本発明の音声信号の雑音低減方法によれば、入力される音声信号のピッチ強度は、例えば1つの位相内で2つのピークを選出し、各ピークにおける自己相関値とピーク間の相互相関値とを算出し、これら自己相関値及び相互相関値に基づいて得られる。また、上記ピッチ強度に応じて、雑音抑圧する際の周波数特性が制御される。
【0028】
また、本発明の音声信号の雑音低減方法によれば、入力される音声信号のフレーム化処理をスペクトルの修正用と、当該音声信号の特徴を示すパラメータの算出用とでそれぞれ独立して行い、例えば上記パラメータの算出用のフレーム化処理を上記スペクトルの修飾用のフレーム化処理よりもサンプル数を多くとるようにする。
【0029】
【実施例】
以下、本発明の音声信号の雑音低減方法について、図面を参照しながら説明する。
【0030】
ここで、雑音低減装置に適用した本発明の音声信号の雑音低減方法の一例を図1に示す。
【0031】
上記雑音低減装置は、雑音抑圧フィルタ特性生成部35において音声信号入力端子13からの入力音声信号の雑音抑圧量を設定し、スペクトラム修正部10にて後述するように、上記雑音抑圧量に基づいて上記入力音声信号中の雑音を低減する。また、音声信号出力端子14から出力される音声信号は、例えば符号励振線形予測符号化のアルゴリズムにより動作する符号化装置に送られる。
【0032】
上記雑音低減装置において、音声信号入力端子13には、音声(Speech)成分と雑音(Noise )成分とを含む入力音声信号y[t]が供給されている。この入力音声信号y[t]は、例えば標本化周波数がFSのディジタル信号である。り、フレーム化処理部21に送られて、フレーム長がFLサンプルのフレームに分割され、以下各フレーム毎に処理が行われる。
【0033】
フレーム化処理部21は、上記入力音声信号のフレーム化処理を、スペクトルの修飾用の処理を行う第1フレーム化処理部22と、当該音声信号の特徴を示すパラメータの算出用の処理を行う第2フレーム化処理部1とでそれぞれ独立して行う部分であり、一方は後述するように雑音抑圧フィルタ特性生成部35に送られ上記入力音声信号の信号特性を示すパラメータを算出するのに用いられ、もう一方は後述するようにスペクトラム修正部10にて上記信号特性を示すパラメータに基づいて得られる雑音抑圧の特性に応じてスペクトルを修正するのに用いられる。
【0034】
ここで、第1フレーム化処理部22は、例えば図2のAに示すように、上記入力音声信号を168サンプル単位すなわち上記フレーム長FLが168サンプルのフレームに分割化するいわゆるフレーム化処理を行っており、k番目のフレームをframe1k として取り出して窓掛け処理部2に出力している。なお、第1フレーム化処理22にて得られる各フレームframe1k は160サンプルを周期として取り出され、前後のフレームとは8サンプルのオーバーラップを有している。
【0035】
また、第2フレーム化処理部1は、例えば図2のBに示すように、上記入力音声信号を200サンプル単位すなわち上記フレーム長FLが200サンプルとなるようにフレーム化処理しており、k番目のフレームをframe2k として取り出して信号特性計算部31とフィルタ処理部8とに出力している。なお、第2フレーム化処理部1にて得られる各フレームframe2k は、160サンプルを周期として取り出され、1つ前のフレームであるframe2k+1 とは8サンプル、また、1つ後のフレームであるframe2k−1 とは40サンプルのオーバーラップを有している。
【0036】
また、上記周波数やサンプル数の具体例を挙げると、標本化周波数FSを8000Hz、すなわち8kHzとすると、上記第1フレーム化処理部22及び第2フレーム化処理部1ともに、フレーム間隔FIが160サンプルであるため、20ms毎にフレーム化処理が行われることになる。
【0037】
図1に戻って、窓かけ処理部2では、次の直交変換である、例えば高速フーリエ変換処理部3での計算に先立って、上記第1フレーム化処理部22より送られる各フレーム化信号y−frame1j,k に対して、窓関数winput による窓かけ処理が施される。なお、各フレーム毎の信号処理の終段での後述する逆高速フーリエ変換処理のあとには、出力信号に対して窓関数woutputによる窓かけ処理が施される。このような各窓関数winput 及びwoutputの一例を、次の(1)式及び(2)式にそれぞれ示す。
【0038】
【数1】
【0039】
次に、高速フーリエ変換処理部3では、窓関数winput による窓かけ処理が施されたフレーム化信号y−frame1j,kに対して、256ポイントの高速フーリエ変換処理が施され、得られた周波数スペクトル振幅値は、バンド分割部4及びスペクトラム修正部10に出力される。
【0040】
また、雑音抑圧フィルタ特性生成部35は、信号特性計算部31、上記adj値計算部32、CE値及びNR値計算部36及びHn計算部7を有して成る部分である。
【0041】
上記雑音抑圧フィルタ特性生成部35において、バンド分割部4は、高速フーリエ変換処理部3から出力される入力音声信号を高速フーリエ変換処理して得られる周波数スペクトルの振幅値を、例えば18バンドに分割して、バンドを識別するバンド番号をwとして、各バンドの振幅Y[w,k]を、信号特性計算部31と雑音スペクトル推定部26と初期フィルタ応答計算部33とに出力する。ここで、バンド分割する際の周波数レンジの一例を次の表に示す。
【0042】
【表1】
【0043】
これらの周波数帯域は、人間の聴覚システムが高域ほど知覚分解能が劣化することに基づいている。各帯域の振幅として、対応する周波数レンジ内の最大FFT(高速フーリエ変換処理における周波数帯域の)振幅を用いる。
【0044】
また、信号特性計算部31は、第2フレーム化処理部1にて出力されるy−frame2j,kとバンド分割部4にて出力されるY[w,k]とからフレーム毎のRMS値であるRMS[k]、フレーム毎の相対エネルギであるdBrel [k]、フレーム毎の推定雑音レベル値であるMinRMS[k]、フレーム毎の最大RMS値であるMaxRMS[k]、フレーム毎の最大SNR値であるMaxSNR[k]を算出する。また、y−frame2j,kから後述するピッチを検出し、このピッチ強度を求める。
【0045】
先ず、上記ピッチの検出とピッチ強度の算出について説明する。
【0046】
ピッチの検出において、例えば図3に示すように、入力音声信号y−frame2j,kの各フレーム中で1番強いピークがピークx[m1]として検出され、ピーク[m1]と同じ位相内で2番目に強いピークがピークx[m2]として検出される。なお、m1及びm2は、各ピークに対応する時間tの値である。また、ピッチpの距離がピークx[m1]及びピークx[m2]間の距離|m1−m2|として得られる。このピッチpの最大ピッチ強度max_Rxx は、(6)式に示すように、(3)式乃至(5)式にて求められるピークx[m1]とピークx[m2]との相互相関値nrg0、ピークx[m1]の自己相関値nrg1及びピークx[m2]の自己相関値nrg2に基づいて得ることができる。
【0047】
【数2】
【0048】
続いて、上記各値の算出方法を説明する。
【0049】
RMS[k]は、第kフレームframe2k のRMS値であって、例えば次式で計算される。
【0050】
【数3】
【0051】
第kフレームframe2k の相対エネルギdBrel [k]は、前フレームframe2k−1 からの減衰エネルギに関連する第kフレームの相対エネルギを示すものであって、このdB表示の相対エネルギdBrel [k]は、例えば次の(8)式により計算され、この(8)式中のエネルギ値E[k]及び減衰エネルギ値Edecay [k] は、それぞれ次の(9)式及び(10)式により求められる。
【0052】
【数4】
【0053】
また、上記(10)式においては、減衰時間(ディケイタイム)を0.65秒とした例を示している。
【0054】
このような、エネルギE[k]及び減衰エネルギEdecay [k]の具体例を、図4に示す。
【0055】
また、第kフレームframe2k の最大RMS値MaxRMS[k]は、後述する各フレームの推定雑音レベル値と最大SN比とを見積もるのに必要な値であって、以下の(11)式にて算出される。(11)式で、θは減衰定数(decay constant)であり、例えば3.2秒で最大RMS値が1/eだけ減衰するような値、すなわちθ=0.993769が用いられる。
【0056】
【数5】
【0057】
第kフレームframe2k の推定雑音レベル値MinRMS[k]は、バックグラウンドノイズ、あるいは背景雑音のレベルを評価するのに好適な最小のRMS値であって、現時点から前に5個の局所極小値(local minimum )、すなわち(12)式を満たす値の内で最小となる値である。
【0058】
【数6】
【0059】
この推定雑音レベル値MinRMS[k]は、音声(Speech)無しの背景雑音、いわゆるバックグラウンドノイズのときに上昇してゆくように設定されている。ノイズレベルが高いときの上昇レートは指数関数的であるが、低いノイズレベルのときには、より大きな上昇を得るために固定の上昇レートが用いられる。
【0060】
これらのRMS値RMS[k]、推定雑音レベル値MinRMS[k]及び最大RMS値MaxRMS[k]の具体例を、図5に示す。
【0061】
第kフレームframe2k の最大SN比MaxSNR[k]は、MaxRMS[k]とMinRMS[k]とに基づいて、以下の(13)式により推定される値である。
【0062】
【数7】
【0063】
また、この最大SN比値MaxSNRからは、相対ノイズレベルを示す0から1までの範囲の正規化パラメータNR_level[k]が算出される。このNR_level[k]には、以下の関数が用いられる。
【0064】
【数8】
【0065】
次に、雑音スペクトル推定部26は、RMS[k]、dBrel [k]、NR_level[k]、MinRMS[k]及びMaxSNR[k]に基づいて、音声(speech)を背景雑音(background noise)から区別する。すなわち、次の条件が正しいとき、第kフレーム中の信号は背景雑音として分類される。こうして分類された背景雑音が示す振幅値は、ノイズスペクトルの時間平均推定値N[w,k]として算出され、初期フィルタ応答計算部33に出力される。
【0066】
【数9】
【0067】
ここで図6は、上記(15)式中のdB表示の相対エネルギdBrel [k]と、最大SN比MaxSNR[k]と、雑音判別の閾値の1つであるdBthresrel[k]との具体例を示している。
【0068】
また図7は、上記(14)式中のMaxSNR[k]の関数としてのNR_level[k]を示している。
【0069】
第kフレームが背景雑音、あるいはノイズとして分類される場合、上記ノイズスペクトルの時間平均推定値N[w,k]は、現在フレームの信号の入力信号スペクトルの振幅Y[w,k]によって、次の(16)式のように更新される。なお、wは上記バンド分割のバンド番号を示すものである。
【0070】
【数10】
【0071】
ここで、第kフレームが音声(speech)として分類された場合、N[w,k]はN[w,k−1]の値をそのまま用いる。
【0072】
次に、adj値計算部32は、RMS[k]、MinRMS[k]及びMaxRMS[k]に基づいて、後述するadj1[k]、adj2[k]及びadj3[w,k]を用いて、(17)式によりadj[w,k]を算出し、CE値及びNR値計算部36に出力する。
【0073】
【数11】
【0074】
ここで、(17)式中のadj1[k]は、全ての帯域において、高いSN比における後述するフィルタ処理による雑音抑圧動作を抑える効果を有する値であり、以下の(18)式にて定義される。
【0075】
【数12】
【0076】
また、(17)式中のadj2[k]は、非常に低いノイズレベルや非常に高いノイズレベルに対して、上記フィルタ処理による雑音抑圧レートを抑える効果を有する値であり、以下の(19)式にて定義される。
【0077】
【数13】
【0078】
また、(17)式中のadj3[w,k]は、図3で示したような入力音声信号のピッチpの強度、特に最大ピッチ強度max_Rxx が大きいときに、低域側と高域側とにおける雑音抑圧量を低減するように制御する値であり、例えばピッチ強度が所定値より大きくかつ入力音声信号レベルが雑音レベルより大きい場合は、図8のAに示すような低域側で所定値をとり高域側で周波数wに対して線形的に変化するとともに他の周波数帯域では0である値であり、また、その他の場合は、図8のBに示すように低域側で所定値をとるとともに他の周波数帯域では0である値である。
【0079】
このadj3[w,k]の定義の一例を、(20)式に示す。
【0080】
【数14】
【0081】
この(20)式において、最大ピッチ強度max_Rxx[t] は、最初の最大ピッチ強度max_Rxx[0] で規格化して用いており、また、入力音声レベルと雑音レベルとの比較は、MinRMS[k]及びMaxRMS[k]を用いて得られる値を用いて行われる。
【0082】
また、CE値及びNR値計算部36は、フィルタ特性を制御するNR値を求めてHn値計算部7に出力する。
【0083】
ここで、例えば上記NR値であるNR[w,k]は、以下の(21)式で定義される。
【0084】
【数15】
【0085】
(21)式のNR´[w,k]は、上記adj値計算部32から送られるadj[w,k]を用いて(22)式にて求められる値である。
【0086】
また、上記CE値及びNR値計算部36は、(21)式で用いるCE[k]の算出も行っている。このCE[k]は、上記入力信号スペクトルの振幅Y[w,k]中に含まれる子音成分をフレーム毎に検出した子音検出結果を表す値である。この子音検出処理の具体例について説明する。
【0087】
上記ピッチ強度が所定値より大きくかつ入力音声信号レベルが雑音レベルより大きい場合、すなわち(20)式の最初に示されている条件が満たされる場合、CE[k]は、例えば0.5をとる。また、上記条件を満たさない場合は、以下の方法で決定されるCE[k]を用いる。
【0088】
先ず、上記Y[w,k]中の連続するサンプル間で符号が、例えば正から負、あるいは負から正というように逆転する箇所、または、逆の符号を有するサンプル間で0という値を有するサンプルが存在する箇所がゼロクロスとして検出される。このゼロクロスの数が、フレーム毎に検出され、この値がゼロクロス数ZC[k]として以下の処理に用いられる。
【0089】
次に、トーン、すなわち上記Y[w,k]の周波数成分の分布を表す値、例えば、図9に示すように、高域における上記入力信号スペクトルの平均レベルt′と低域における上記入力信号スペクトルの平均レベルb′との比t′/b´(=tone[k])が検出される。この値t′及び値b´は、以下の(23)式にて定義される誤差関数ERR(fc,b,t)が最小値をとるような値t及び値bである。(23)式において、NBはバンド数を表し、Ymax [w,k]はバンドwにおけるY[w,k]の最大値を表し、fcは高域と低域とを分離する点を表す。また、図9において、周波数fcにおいて、低域側のY[w,k]の平均値を値bとして、また、高域側のY[w,k]の平均値を値tとしている。
【0090】
【数16】
【0091】
さらに、RMS値及びゼロクロス数に基づいて、有声音声が検出されたフレームの近傍のフレーム、すなわち音声近接フレームが検出され、このフレーム数として音節近接フレーム数spch_prox[k]が、以下の(24)式に基づいて得られ、出力される。
【0092】
【数17】
【0093】
そして、上記ゼロクロス数、上記音声近接フレーム数、上記トーン及びRMS値に基づいて、各フレームのY[w,k]中の子音成分の検出が行われる。この子音検出結果としてCE[k]が、以下の(25)式に基づいて得られる。
【0094】
【数18】
【0095】
また、各シンボルC1、C2、C3、C4.1乃至C4.7は、以下の表にて定義される。
【0096】
【表2】
【0097】
上記表2において、CDS0、CDS1、CDS2、T、Zlow及びZhighの各値は、子音検出の感度を決定する定数であり、例えばCDS0=CDS1=CDS2=1.41、T=20、Zlow=20、Zhigh=75の値をとる。また、(25)式のEは、0から1までの値をとるもので、0に近いほど通常の子音抑圧量に近くなるように後述するフィルタ応答が調整され、また、1に近いほど子音抑圧量が最低量となるように上記フィルタ応答が調整される値であり、例えば0.7が用いられる。
【0098】
また、上記表2によれば、あるフレームにおいて、シンボルC1が成立することは上記フレームの信号レベルが最低ノイズレベルより大きいことを示し、シンボルC2が成立することは上記フレームのゼロクロス数が所定のゼロクロス数Zlow、本実施例では20より大きいことを示し、また、シンボルC3が成立することは上記フレームが有声音声が検出されたフレームよりTフレーム以内、本実施例では20フレーム以内であることを示している。
【0099】
また、シンボルC4.1が成立することは上記フレームにおいて信号レベルが変化することを示し、シンボルC4.2が成立することは上記フレームが音声信号が変化して1フレーム後であって信号レベルが変化するフレームであることを示し、また、シンボルC4.3が成立することは上記フレームが音声信号が変化して2フレーム後であって信号レベルが変化するフレームであることを示している。また、シンボルC4.4が成立することは、上記フレームにおいて、ゼロクロス数が所定のゼロクロス数Zhigh、本実施例では75より大きいことを示している。また、シンボルC4.5が成立することは上記フレームにおいてトーン値が変化することを示し、シンボルC4.6が成立することは上記フレームが音声信号が変化して1フレーム後であってトーン値が変化するフレームであることを示し、シンボルC4.7が成立することは上記フレームが音声信号が変化して2フレーム後であってトーン値が変化するフレームであることを示している。
【0100】
また、(25)式によれば、このフレームが子音成分を含んでいることの条件は、上述のシンボルC1乃至C3の条件を満たすこと、tone[k]が0.6より大きいこと及び上述のC4.1乃至C4.7の条件の内の少なくとも1つが満たされることである。
【0101】
また、初期フィルタ応答計算部33は、雑音スペクトル推定部26から出力される雑音時間平均値N[w,k]と、バンド分割部4から出力されるY[w,k]とをフィルタ抑圧曲線テーブル部34に送り、フィルタ抑圧曲線テーブル部34に収納されるY[w,k]とN[w,k]とに応じたH[w,k]の値を探し出し、このH[w,k]をHn値計算部7に出力する。なお、フィルタ抑圧曲線テーブル部34は、H[w,k]に関する表が格納されている。
【0102】
Hn値計算部7は、バンド分割された入力信号スペクトルの振幅Y[w,k]と、ノイズスペクトルの時間平均推定値N[w,k]と、上記NR[w,k]とから、上記バンド分割された入力信号スペクトルの振幅Y[w,k]から雑音成分を低減するためのプレフィルタである。ここでは、Y[w,k]がN[w,k]に応じてHn[w,k]に変換され、このフィルタ応答Hn[w,k]が出力される。なお、このHn[w,k]値は、以下の(26)式に基づいて算出される。
【0103】
【数19】
【0104】
また、上記(26)式中の値H[w][S/N=r]は、SN比をある値rに固定したとき最適なノイズ抑圧フィルタ特性に当たり、この値は、Y[w,k]/N[w,k]の値に応じてテーブル化されており、上記フィルタ抑圧曲線テーブル部34に格納されている。なお、上記H[w][S/N=r]は、dB領域で直線的に変化する値である。
【0105】
さらに、上記(26)式を(27)式のように変形すると、最大抑圧量の関数である左辺は、NR[w,k]と直線関係にあることが示され、両者の関係を図10のように示すことができる。
【0106】
また、フィルタ処理部8では、上記Hn[w,k]値が周波数軸方向と時間軸方向とについて円滑化するフィルタ処理を行い、得られる信号として円滑化信号Ht_smooth[w,k]が出力される。上記周波数軸方向へのフィルタ処理は、Hn[w,k]の有効インパルス応答長を短くする効果がある。これにより周波数領域での乗算によるフィルタの実現に起因する環状畳み込みによるエリアシングの発生を未然に防いでいる。また、上記時間軸方向へのフィルタ処理は、突発的な雑音を抑えるフィルタの変化の速さを制限する効果がある。
【0107】
先ず、上記周波数軸方向へのフィルタ処理についての説明を行う。上記各バンドのHn[w,k]に、メディアン(中央値)フィルタ処理が施される。次の(28)式及び(29)式にて、この方法を示す。
【0108】
【数20】
【0109】
(28)式の第1段階(Step1 )において、H1[w,k]は、単一の、あるいは孤立した0のバンドを無くしたHn[w,k]であり、(29)式の第2段階(Step2 )において、H2[w,k]は、単一の、あるいは孤立した突出したバンドを無くしたH1[w,k]である。このようにして、上記Hn[w,k]は、H2[w,k]に変換される。
【0110】
次に、上記時間軸方向へのフィルタ処理についての説明を行う。この時間軸方向へのフィルタ処理を施す際において、入力信号には、音声(speech)、バックグラウンドノイズ、そして音声(speech)の立ち上がり部分である過度的状態の3種あることを考慮に入れる。音声の信号Hspeech[w,k]に対しては、次の(30)式に示すように、時間軸での円滑化、あるいはスムージングを行う。
【0111】
【数21】
【0112】
また、背景雑音の信号に対しては、次の(31)式に示すような時間軸での円滑化、あるいはスムージングを行う。
【0113】
また、過度的状態の信号に対しては、この時間軸でのスムージングを行われない。
【0114】
以上のスムージング処理が行われた信号を用いて、(32)式により円滑化出力信号Ht_smooth[w,k]を得る。
【0115】
【数22】
【0116】
ここで、(32)式中のαspは次の(33)式から、αtrは次の(34)式からそれぞれ求められる。
【0117】
続いて、バンド変換部9では、フィルタ処理部8からの、例えば18バンド分の円滑化信号Ht_smooth[w,k]が、例えば128バンド分の信号H128 [w,k]に、補間処理により拡張変換され、この変換された信号H128 [w,k]が出力される。この変換は、例えば2段階で行っており、18バンドから64バンドへの拡張はゼロ次ホールドにより、64バンドから128バンドへの拡張はローパスフィルタ型の補間処理により、それぞれ行っている。
【0118】
次に、スペクトラム修正部10では、高速フーリエ変換処理部3で得られたフレーム化信号y−framej,k の高速フーリエ変換処理にて得られるFFT係数の実部と虚部とに各々上記信号H128 [w,k]を乗じてスペクトラム修正、すなわち雑音成分を低減する処理が行われ、得られた信号が出力される。この結果、スペクトルの振幅は修正されるが位相は変形を受けない。
【0119】
次に逆高速フーリエ変換処理部11では、スペクトラム修正部10にて得られた信号を用いて、逆高速フーリエ変換処理が行われ、得られたIFFT信号が出力される。
【0120】
次に、オーバーラップ加算部12では、各フレーム毎のIFFT信号のフレーム境界部分についての重ね合わせが行われ、得られた出力音声信号が音声信号出力端子14より出力される。
【0121】
さらに、この出力を例えば符号励振線形予測符号化のアルゴリズムに用いた場合を考える。
【0122】
ここで、上記符号励振線形予測符号化のアルゴリズムによる符号化装置を図11に、また、復号化装置を図12にそれぞれ示す。
【0123】
上記符号化装置は、図11に示すように、入力端子61から入力音声信号が入力され、線形予測符号分析またはLPC(linear pridictive coding)分析部62及び減算器64に送られる。
【0124】
LPC分析部62は、上記入力音声信号の線形予測を行いこの予測フィルタ係数を合成フィルタ63に出力する。合成フィルタ63は、2つのコードブックの1つである固定コードブック67からのコードワードに乗算器81の利得を掛けたデータと、ダイナミックコードブック68からのコードワードに乗算器82の利得とを掛けたデータとを加算器69にて加算された出力が、上記LPC分析部62から送られる予測フィルタ係数を持つLPC合成フィルタに入力され、その合成出力が、減算器64に出力する。
【0125】
また、減算器64は、上記入力音声信号と合成フィルタ63からの合成出力との差を取り出し聴覚重み付けフィルタ65に出力する。聴覚重み付けフィルタ65は、周波数帯域毎に入力音声信号のスペクトルに応じた重みを付けて、誤差検出部66に出力する。誤差検出部66は、聴覚重み付けフィルタ65からの出力の重み付き誤差のエネルギを算出して、固定コードブック67及びダイナミックコードブック68のコードブックサーチにおいて、この重み付き誤差エネルギが最小になるような各コードブックのコードワードが取り出される。
【0126】
上記符号化装置からは上記固定コードブック67のコードワードのインデックス、ダイナミックコードブック68のコードワードのインデックス、各乗算器に対応する利得のインデックス、LPC分析部62からフィルタ係数を生成する各パラメータの量子化インデックス等が復号化装置に伝送され、復号化装置にて各インデックスを用いた復号化処理がなされる。
【0127】
そこで、上記復号化装置は、図12に示すように、固定コードブック71は上記符号化装置から送られる上記固定コードブック67のコードワードのインデックスに基づいて、ダイナミックコードブック72は上記ダイナミックコードブック68のコードワードのインデックスに基づいて、各コードワードを固定コードブック71あるいはダイナミックコードブック72より取り出す。また、乗算器83、84は、各対応する利得インデックスに基づいて動作し、合成フィルタ74は、上記量子化インデックス等の各パラメータが送られ、これらパラメータを用いて、2つのコードブックからのコードワードに利得が乗算されたデータを励起信号と合成した合成出力をポストフィルタ75に出力する。ポストフィルタ75では、いわゆるフォルマント強調を行い、信号の谷間と山とをより明確にする操作が行われる。フォルマント強調がなされた音声信号が出力端子76より出力される。
【0128】
また、ここで、例えば聴覚上より好ましい音声信号を得るために、上記アルゴリズムでは、符号化する音声信号の低域側を抑圧したり、高域側をブートするフィルタ処理が含まれており、上記復号化装置からのデコーダ出力信号は、低域側が抑圧された音声信号となっている。
【0129】
従って、上述のように本発明の音声信号の雑音低減方法では、上記フィルタ処理に応じて、adj値計算部32におけるadj3[w,k]の値を、特にピッチが大きい音声信号に対しては低域側で所定値を有し、さらに高域側で周波数に対して線形関係を有するように見積もることで、結果的に低域側の音声信号の抑圧が抑えられるため、上記アルゴリズムの処理によるフォルマント強調がなされた音声信号の低域側は、過度な抑圧を受ける虞がない、すなわち符号化処理等により本来の周波数特性の変化を減少させることができる。
【0130】
なお、ここでは、上記雑音低減装置が、低域側の音声信号を抑圧したり、高域側ブーストするようなフィルタ処理を行う音声符号化装置に出力する例を挙げたが、雑音抑圧する際の高域側の音声信号の抑圧を抑えるようにadj3[w,k]を設定することで、例えば高域側の音声信号を抑圧するような音声符号化装置に出力する場合にも用いることが可能である。
【0131】
また、CE値及びNR値計算部36において、CE値をピッチの大きさに応じて計算方法を変えて、このCE値に応じてNR値を決定するため、ピッチ強度に応じたNR値を得ることが可能であり入力される音声信号に即したNR値により雑音抑圧を行うことが可能になるため、スペクトル量子化誤差を減少させることができる。
【0132】
また、Hn値計算部7において、Hn[w,k]を入力されるNR[w,k]に対して、dB領域で略直線的に変化させることで、Hn値の変化に対するNR値の寄与は常に連続しており、急激にNR値が変化してもHn値の変化はこれに対応する。
【0133】
また、信号特性計算部31にて最大ピッチ強度を算出するのに、例えば高速フーリエ変換処理において用いる(N+logN)といった自己相関関数による複雑な計算を行う必要がなくなり、例えば200サンプルの処理を行った場合、上記自己相関関数では50000回の処理が必要であったのに対して、本発明では3000回の処理で済むため、演算処理の速度を上げることができる。
【0134】
また、図2のAに示したように、第1フレーム化処理部22のフレーム化処理ではフレーム長FLが168サンプル、各フレームは前後のフレームと8サンプルずつオーバーラップ部分を有するようにサンプリングされ、また、図2のBに示したように、第2フレーム化処理部1のフレーム化処理をフレーム長FLが200サンプル、各フレームは1つ手前のフレームとは40サンプル、1つ先のフレームとは8サンプルのオーバーラップ部分を有するようにサンプリングさせて、かつ、第1フレーム化処理部22と第2フレーム化処理部1とで各フレームの開始位置を同じにして、上記第2フレーム化処理部1の方が上記第1フレーム化処理部22よりも32サンプル分だけ後ろにずらすことで、第1フレーム化処理部22及び第2フレーム化処理部1間で、遅延が生じることがなく、信号特性値を算出するためのサンプル数を多くとることができる。
【0135】
また、上記RMS[k]と、上記MinRMS[k]と、上記tone[w,k]と、上記ZC[w,k]と、上記Rxxとを、図13に示すように、例えばバックプロパゲーションタイプのニューラルネットワークの入力として用いて、雑音区間推定を行ってもよい。
【0136】
上記ニューラルネットワークにおいて、上記RMS[k]、上記MinRMS[k]、上記tone[w,k]、上記ZC[w,k]、上記Rxxの各値が入力層の各端子に入力される。
【0137】
入力層の各端子に入力された各値は、中間層に出力されるが、この際にシナプス荷重いわゆる重みが付けられる。すなわち、重みが乗ぜられる。
【0138】
また、中間層では、それぞれに重みが付けられた各値と、バイアス51からバイアス値が入力され、所定の処理が行われた後、処理結果が出力される。この処理結果には重みが付けられる。
【0139】
出力層では、中間層から出力される重みが付けられた処理結果にバイアス52からバイアス値が入力され、所定の処理が行われた後、雑音区間推定の結果が出力される。
【0140】
なお、バイアス51、52から出力される各バイアス値及び各出力に付けられる重みは、いわゆる望ましい変換を実現させるために適応的に決定される。従って、処理されるデータが多ければ多いほど確からしさが向上する。すなわち、処理が行われれば行われる程、音声と雑音との分類において、より入力音声信号に即した推定雑音レベル及びスペクトルが定まり、正確なHn値の算出を行うことができるようになる。
【0141】
【発明の効果】
以上説明したように、本発明の音声信号の雑音低減方法によれば、入力される音声信号のピッチ強度に応じて雑音低減に用いるフィルタの特性を制御し、上記入力される音声信号の所定の周波数帯域、例えば高域側や低域側における雑音抑圧量を小さくすることで、上記雑音抑圧量に基づいて処理された音声信号を音声符号化しても聴覚上不自然な音声となる虞がなくなる、すなわち音質が向上する。
【図面の簡単な説明】
【図1】本発明の音声信号の雑音低減方法を適用した雑音低減装置の要部を示すブロック図である。
【図2】上記雑音低減装置のフレーム化処理部におけるフレーム化処理を説明する図である。
【図3】上記雑音低減装置の信号特性計算部におけるピッチ検出処理を説明する図である。
【図4】上記雑音低減装置におけるエネルギE[k]及び減衰エネルギEdecay[k] の具体例を示す図である。
【図5】上記雑音低減装置におけるRMS値RMS[k]、推定雑音レベル値MinRMS[k]及び最大RMS値MaxRMS[k]の具体例を示す図である。
【図6】上記雑音低減装置におけるdB表示の相対エネルギdBrel[k] 、最大SN比MaxSNR[k]、及び雑音判別の閾値の1つであるdBthresrel[k]の具体例を示す図である。
【図7】上記雑音低減装置における最大SN比MaxSNR[k]に対して定義される関数としてのNR_level[k]を示すグラフである。
【図8】上記雑音低減装置のadj値計算部にて得られるadj3[w,k]と周波数との関係を示すグラフである。
【図9】上記雑音低減装置における入力信号スペクトルの周波数領域の分布を示す値を求める方法を説明する図である。
【図10】上記雑音低減装置のCE値及びNR値計算部にて得られるNR[w,k]と、Hn値計算部にて得られる最大抑圧量との関係を表すグラフである。
【図11】上記雑音低減装置の出力を用いる例としての符号励振線形予測符号化のアルゴリズムによる符号化装置の要部を示すブロック図である。
【図12】上記符号化装置により符号化された音声信号を復号化するための復号化装置の要部を示すブロック図である。
【図13】本発明の音声信号の雑音低減方法において、雑音区間推定を行う実施例を示す図である。
【符号の説明】
1 第2フレーム化処理部
7 Hn値計算部
21 フレーム化処理部
22 第1フレーム化処理部
31 信号特性計算部
32 adj値計算部
36 CE値及びNR値計算部
Claims (3)
- 入力される音声信号の所定の周波数帯域を抑圧するフィルタを有する音声符号化装置に音声信号を供給する音声信号の雑音低減方法において、
上記音声符号化装置のフィルタは、上記所定の周波数帯域における雑音抑圧量を小さくするように周波数特性を制御するものであり、上記雑音抑圧量を上記入力される音声信号のピッチ強度に応じて変化させること
を特徴とする音声信号の雑音低減方法。 - 上記雑音抑圧量は、上記入力される音声信号の高域側の雑音抑圧を小さくするように変化することを特徴とする請求項1記載の音声信号の雑音低減方法。
- 上記所定の周波数帯域は、音声信号の低域側であり、
上記雑音抑圧量は、上記入力される音声信号の低域側の雑音抑圧を小さくするように変化することを特徴とする請求項1記載の音声信号の雑音低減方法。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18796695A JP3591068B2 (ja) | 1995-06-30 | 1995-06-30 | 音声信号の雑音低減方法 |
US08/667,945 US5812970A (en) | 1995-06-30 | 1996-06-24 | Method based on pitch-strength for reducing noise in predetermined subbands of a speech signal |
CA002179871A CA2179871C (en) | 1995-06-30 | 1996-06-25 | Method for reducing noise in speech signal |
EP96304741A EP0751491B1 (en) | 1995-06-30 | 1996-06-27 | Method of reducing noise in speech signal |
DE69627580T DE69627580T2 (de) | 1995-06-30 | 1996-06-27 | Verfahren zur Rauschverminderung in einem Sprachsignal |
MYPI96002672A MY116658A (en) | 1995-06-30 | 1996-06-28 | Method for reducing noise in speech signal |
KR1019960025902A KR970002850A (ko) | 1995-06-30 | 1996-06-29 | 음성신호의 잡음저감방법 |
IDP961873A ID20523A (id) | 1995-06-30 | 1996-07-01 | Tata cara untuk mengurangi bunyi suara pada sinyal bicara |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18796695A JP3591068B2 (ja) | 1995-06-30 | 1995-06-30 | 音声信号の雑音低減方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0916194A JPH0916194A (ja) | 1997-01-17 |
JP3591068B2 true JP3591068B2 (ja) | 2004-11-17 |
Family
ID=16215275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18796695A Expired - Lifetime JP3591068B2 (ja) | 1995-06-30 | 1995-06-30 | 音声信号の雑音低減方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US5812970A (ja) |
EP (1) | EP0751491B1 (ja) |
JP (1) | JP3591068B2 (ja) |
KR (1) | KR970002850A (ja) |
CA (1) | CA2179871C (ja) |
DE (1) | DE69627580T2 (ja) |
ID (1) | ID20523A (ja) |
MY (1) | MY116658A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006123721A1 (ja) * | 2005-05-17 | 2006-11-23 | Yamaha Corporation | 雑音抑圧方法およびその装置 |
JP2007212704A (ja) * | 2006-02-09 | 2007-08-23 | Univ Waseda | 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置 |
US11398242B2 (en) * | 2017-10-23 | 2022-07-26 | Samsung Electronics Co., Ltd | Electronic device for determining noise control parameter on basis of network connection information and operating method thereof |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE505156C2 (sv) * | 1995-01-30 | 1997-07-07 | Ericsson Telefon Ab L M | Förfarande för bullerundertryckning genom spektral subtraktion |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
KR100250561B1 (ko) * | 1996-08-29 | 2000-04-01 | 니시무로 타이죠 | 잡음소거기 및 이 잡음소거기를 사용한 통신장치 |
JP3006677B2 (ja) * | 1996-10-28 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
US6411927B1 (en) * | 1998-09-04 | 2002-06-25 | Matsushita Electric Corporation Of America | Robust preprocessing signal equalization system and method for normalizing to a target environment |
US6453284B1 (en) * | 1999-07-26 | 2002-09-17 | Texas Tech University Health Sciences Center | Multiple voice tracking system and method |
JP3454206B2 (ja) * | 1999-11-10 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
US6366880B1 (en) * | 1999-11-30 | 2002-04-02 | Motorola, Inc. | Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies |
EP1287521A4 (en) * | 2000-03-28 | 2005-11-16 | Tellabs Operations Inc | PERCEPTIVE SPECTRAL WEIGHTING OF FREQUENCY BANDS FOR ADAPTIVE REMOVAL OF NOISE |
JP2001318694A (ja) * | 2000-05-10 | 2001-11-16 | Toshiba Corp | 信号処理装置、信号処理方法および記録媒体 |
US7487083B1 (en) * | 2000-07-13 | 2009-02-03 | Alcatel-Lucent Usa Inc. | Method and apparatus for discriminating speech from voice-band data in a communication network |
US6862567B1 (en) * | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
JP4282227B2 (ja) * | 2000-12-28 | 2009-06-17 | 日本電気株式会社 | ノイズ除去の方法及び装置 |
JP3574123B2 (ja) * | 2001-03-28 | 2004-10-06 | 三菱電機株式会社 | 雑音抑圧装置 |
US7383181B2 (en) * | 2003-07-29 | 2008-06-03 | Microsoft Corporation | Multi-sensory speech detection system |
US20050033571A1 (en) * | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
US7516067B2 (en) * | 2003-08-25 | 2009-04-07 | Microsoft Corporation | Method and apparatus using harmonic-model-based front end for robust speech recognition |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
CN1894742A (zh) * | 2003-12-15 | 2007-01-10 | 松下电器产业株式会社 | 音频压缩解压装置 |
US7725314B2 (en) * | 2004-02-16 | 2010-05-25 | Microsoft Corporation | Method and apparatus for constructing a speech filter using estimates of clean speech and noise |
US7499686B2 (en) * | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
DE102004017486A1 (de) * | 2004-04-08 | 2005-10-27 | Siemens Ag | Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal |
US7574008B2 (en) * | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
KR100657948B1 (ko) * | 2005-02-03 | 2006-12-14 | 삼성전자주식회사 | 음성향상장치 및 방법 |
US7346504B2 (en) * | 2005-06-20 | 2008-03-18 | Microsoft Corporation | Multi-sensory speech enhancement using a clean speech prior |
EP2555190B1 (en) * | 2005-09-02 | 2014-07-02 | NEC Corporation | Method, apparatus and computer program for suppressing noise |
EP1958341B1 (en) * | 2005-12-05 | 2015-01-21 | Telefonaktiebolaget L M Ericsson (PUBL) | Echo detection |
US20090248407A1 (en) * | 2006-03-31 | 2009-10-01 | Panasonic Corporation | Sound encoder, sound decoder, and their methods |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
US20100207689A1 (en) * | 2007-09-19 | 2010-08-19 | Nec Corporation | Noise suppression device, its method, and program |
US20100097178A1 (en) * | 2008-10-17 | 2010-04-22 | Pisz James T | Vehicle biometric systems and methods |
JP2010249940A (ja) * | 2009-04-13 | 2010-11-04 | Sony Corp | ノイズ低減装置、ノイズ低減方法 |
FR2948484B1 (fr) * | 2009-07-23 | 2011-07-29 | Parrot | Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile |
WO2011015237A1 (en) * | 2009-08-04 | 2011-02-10 | Nokia Corporation | Method and apparatus for audio signal classification |
US8666734B2 (en) * | 2009-09-23 | 2014-03-04 | University Of Maryland, College Park | Systems and methods for multiple pitch tracking using a multidimensional function and strength values |
US8423357B2 (en) * | 2010-06-18 | 2013-04-16 | Alon Konchitsky | System and method for biometric acoustic noise reduction |
CN103229236B (zh) | 2010-11-25 | 2016-05-18 | 日本电气株式会社 | 信号处理装置、信号处理方法 |
US8712076B2 (en) * | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
US8725508B2 (en) * | 2012-03-27 | 2014-05-13 | Novospeech | Method and apparatus for element identification in a signal |
JP6371516B2 (ja) * | 2013-11-15 | 2018-08-08 | キヤノン株式会社 | 音響信号処理装置および方法 |
JP6279181B2 (ja) * | 2016-02-15 | 2018-02-14 | 三菱電機株式会社 | 音響信号強調装置 |
CN112053421B (zh) * | 2020-10-14 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 信号降噪处理方法、装置、设备及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
US4630304A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
US4811404A (en) * | 1987-10-01 | 1989-03-07 | Motorola, Inc. | Noise suppression system |
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
GB8801014D0 (en) * | 1988-01-18 | 1988-02-17 | British Telecomm | Noise reduction |
US5097510A (en) * | 1989-11-07 | 1992-03-17 | Gs Systems, Inc. | Artificial intelligence pattern-recognition-based noise reduction system for speech processing |
AU633673B2 (en) * | 1990-01-18 | 1993-02-04 | Matsushita Electric Industrial Co., Ltd. | Signal processing device |
EP0459362B1 (en) * | 1990-05-28 | 1997-01-08 | Matsushita Electric Industrial Co., Ltd. | Voice signal processor |
EP0459364B1 (en) * | 1990-05-28 | 1996-08-14 | Matsushita Electric Industrial Co., Ltd. | Noise signal prediction system |
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
FI92535C (fi) * | 1992-02-14 | 1994-11-25 | Nokia Mobile Phones Ltd | Kohinan vaimennusjärjestelmä puhesignaaleille |
US5432859A (en) * | 1993-02-23 | 1995-07-11 | Novatel Communications Ltd. | Noise-reduction system |
DE69428119T2 (de) * | 1993-07-07 | 2002-03-21 | Picturetel Corp., Peabody | Verringerung des hintergrundrauschens zur sprachverbesserung |
IT1272653B (it) * | 1993-09-20 | 1997-06-26 | Alcatel Italia | Metodo di riduzione del rumore, in particolare per riconoscimento automatico del parlato, e filtro atto ad implementare lo stesso |
JP2739811B2 (ja) * | 1993-11-29 | 1998-04-15 | 日本電気株式会社 | 雑音抑圧方式 |
JPH07334189A (ja) * | 1994-06-14 | 1995-12-22 | Hitachi Ltd | 音声情報分析装置 |
JP3484801B2 (ja) * | 1995-02-17 | 2004-01-06 | ソニー株式会社 | 音声信号の雑音低減方法及び装置 |
-
1995
- 1995-06-30 JP JP18796695A patent/JP3591068B2/ja not_active Expired - Lifetime
-
1996
- 1996-06-24 US US08/667,945 patent/US5812970A/en not_active Expired - Lifetime
- 1996-06-25 CA CA002179871A patent/CA2179871C/en not_active Expired - Fee Related
- 1996-06-27 DE DE69627580T patent/DE69627580T2/de not_active Expired - Lifetime
- 1996-06-27 EP EP96304741A patent/EP0751491B1/en not_active Expired - Lifetime
- 1996-06-28 MY MYPI96002672A patent/MY116658A/en unknown
- 1996-06-29 KR KR1019960025902A patent/KR970002850A/ko not_active Application Discontinuation
- 1996-07-01 ID IDP961873A patent/ID20523A/id unknown
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006123721A1 (ja) * | 2005-05-17 | 2006-11-23 | Yamaha Corporation | 雑音抑圧方法およびその装置 |
US8160732B2 (en) | 2005-05-17 | 2012-04-17 | Yamaha Corporation | Noise suppressing method and noise suppressing apparatus |
JP4958303B2 (ja) * | 2005-05-17 | 2012-06-20 | ヤマハ株式会社 | 雑音抑圧方法およびその装置 |
JP2007212704A (ja) * | 2006-02-09 | 2007-08-23 | Univ Waseda | 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置 |
US11398242B2 (en) * | 2017-10-23 | 2022-07-26 | Samsung Electronics Co., Ltd | Electronic device for determining noise control parameter on basis of network connection information and operating method thereof |
Also Published As
Publication number | Publication date |
---|---|
EP0751491A2 (en) | 1997-01-02 |
MY116658A (en) | 2004-03-31 |
EP0751491B1 (en) | 2003-04-23 |
JPH0916194A (ja) | 1997-01-17 |
EP0751491A3 (en) | 1998-04-08 |
US5812970A (en) | 1998-09-22 |
DE69627580D1 (de) | 2003-05-28 |
KR970002850A (ko) | 1997-01-28 |
CA2179871A1 (en) | 1996-12-31 |
CA2179871C (en) | 2009-11-03 |
ID20523A (id) | 1999-01-07 |
DE69627580T2 (de) | 2004-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3591068B2 (ja) | 音声信号の雑音低減方法 | |
US7286980B2 (en) | Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal | |
RU2329550C2 (ru) | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума | |
KR101266894B1 (ko) | 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 | |
JP4520732B2 (ja) | 雑音低減装置、および低減方法 | |
EP1918910B1 (en) | Model-based enhancement of speech signals | |
JP5127754B2 (ja) | 信号処理装置 | |
US8930184B2 (en) | Signal bandwidth extending apparatus | |
CA2399706C (en) | Background noise reduction in sinusoidal based speech coding systems | |
JP3574123B2 (ja) | 雑音抑圧装置 | |
KR100335162B1 (ko) | 음성신호의잡음저감방법및잡음구간검출방법 | |
JP5153886B2 (ja) | 雑音抑圧装置および音声復号化装置 | |
JP2000347688A (ja) | 雑音抑圧装置 | |
JP3960834B2 (ja) | 音声強調装置及び音声強調方法 | |
JP5443547B2 (ja) | 信号処理装置 | |
EP1619666B1 (en) | Speech decoder, speech decoding method, program, recording medium | |
JP4098271B2 (ja) | 雑音抑圧装置 | |
CN115527550A (zh) | 一种单麦克风子带域降噪方法及系统 | |
JP2003195900A (ja) | 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法 | |
CN116778970A (zh) | 强噪声环境下的语音检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040816 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080903 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090903 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100903 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100903 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110903 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120903 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |