JP2001516902A - How to suppress noise in digital audio signals - Google Patents

How to suppress noise in digital audio signals

Info

Publication number
JP2001516902A
JP2001516902A JP2000512196A JP2000512196A JP2001516902A JP 2001516902 A JP2001516902 A JP 2001516902A JP 2000512196 A JP2000512196 A JP 2000512196A JP 2000512196 A JP2000512196 A JP 2000512196A JP 2001516902 A JP2001516902 A JP 2001516902A
Authority
JP
Japan
Prior art keywords
noise
frame
signal
speech signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000512196A
Other languages
Japanese (ja)
Inventor
フィリプ ロクウド、
ステファン ルビアール、
Original Assignee
マトラ ノーテル コミュニカショーン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マトラ ノーテル コミュニカショーン filed Critical マトラ ノーテル コミュニカショーン
Publication of JP2001516902A publication Critical patent/JP2001516902A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Picture Signal Circuits (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

(57)【要約】 本発明は、各フレームにおいて信号スペクトル成分(Sn,f,Sn,i)を計算することと、スピーチ信号に含まれているノイズのスペクトル成分の最大にされた推定量 【数1】 を計算することと、調波解析を行ってピッチを推定することと、フレームにおけるスピーチ信号の各スペクトル成分(Sn,f)から、スペクトル成分に対応するノイズの最大にされた推定量と推定されたピッチとを含むパラメータに依存する量をそれぞれ差し引くことにあるステップを少なくとも備えるスペクトル差し引きを実行することと、差し引き結果に時間領域へ向かう変換を適用して強められたスピーチ信号(s3)を構成することとを備える、引き続くフレームにより処理されるデジタル中のノイズを抑制する方法に関するものである。 (57) [Summary] The present invention calculates signal spectrum components (S n, f , S n, i ) in each frame and maximizes estimation of noise spectrum components included in a speech signal. Quantity [Equation 1] , Calculating the pitch by performing harmonic analysis, and estimating the maximum amount of noise corresponding to the spectral component from each spectral component (S n, f ) of the speech signal in the frame. Performing a spectral subtraction comprising at least steps of subtracting a parameter-dependent quantity, including the adjusted pitch, and applying a time-domain transform to the subtracted result to enhance the speech signal (s 3 ). And suppressing noise in the digital that is processed by subsequent frames.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】TECHNICAL FIELD OF THE INVENTION

本発明はデジタルスピーチ信号中のノイズを抑制する方法に関するものである
。更に詳しくいえば、それは非直線スペクトル差し引きによるノイズ抑制に関す
るものである。
The present invention relates to a method for suppressing noise in a digital speech signal. More specifically, it relates to noise suppression by non-linear spectral subtraction.

【0002】 新しい形態の通信、特に移動電話、が広く採用されているために、通話はノイ
ズが非常に多い環境内で次第に行われるようになっている。ノイズは、会話に加
えて、スピーチ信号の最適圧縮を阻止することによって通話を妨害し、不自然な
背景ノイズを生ずる。ノイズは話されたメッセージお理解を困難にし、かつ疲れ
させる。
[0002] Due to the widespread adoption of new forms of communication, especially mobile telephones, calls are increasingly being made in very noisy environments. Noise, in addition to speech, disrupts speech by preventing optimal compression of speech signals, resulting in unnatural background noise. The noise makes the spoken message difficult to understand and tires.

【0003】[0003]

【従来の技術】[Prior art]

通話におけるノイズの影響を小さくしようとして多くのアルゴリズムが研究さ
れた。S.F.Bollが(「スペクトル差し引きを用いるスピーチ中のノイズ
の抑制(Suppression of acoustic noise in
speech using spectral subtraction)」
,音響、スピーチおよび信号処理についてのIEEE Trans.(IEEE
Trans.on Acousitics,Speechand Signa
lProcessing),Vol.ASSP−27,No.2 1979年4
月)スペクトル差し引きを基にしたアルゴリズムを提案している。この技術は沈
黙相中のノイズのスペクトルを見積ることと、受けた信号からそれを差し引くこ
ととで構成されている。それは受けたノイズレベルを低下する。それの主な欠陥
は、不自然であるために特にうるさい楽音ノイズ(musical noise
)を生ずることである。
Many algorithms have been studied in an attempt to reduce the effects of noise in calls. S. F. Boll ("Suppression of Acoustic Noise in Speech Using Spectral Subtraction").
speech using spectral subtraction) "
IEEE Trans. For Sound, Speech and Signal Processing. (IEEE
Trans. on Acoustics, Speechand Signa
lProcessing), Vol. ASSP-27, no. 2 1979 4
Mon) Proposing an algorithm based on spectral subtraction. This technique consists of estimating the spectrum of the noise during the silence phase and subtracting it from the received signal. It reduces the noise level received. Its main drawback is musical noise, which is particularly noisy due to its unnatural nature.
).

【0004】 この研究はD.B.Paul(「スペクトル包絡線推定ボコーダ(The s
prctral envelope estimation vocoder)
」、音響、スピーチおよび信号処理についてのIEEE Trans.(IEE
ETrans.on Acousitics,Speechand Signa
l Processing),Vol.ASSP−29,No.4 1981年
8月))、およびP.LockwoodおよびJ.Boudy(「自動車内での
強力なスピーチ認識のための非直線スペクトル減算器と、隠されたマルコフ・モ
デルおよびプロジェクションによる実験(Experiments witha
nonlinear spectral subtractor (NSS)
,Hidden Markov Models and the projec
tion,for robust speech recognition i
n cars)、Speech Communication,vol.11、
1992年6月、215〜228ページ、およびEPO特許出願公開明細書05
34 837)により引き継がれて、改良され、ノイズレベルを大幅に低下させ
、しかもそれの自然の特色を保持している。更に、この寄与は、最初にノイズ抑
制フィルタの計算をマスキングする原理を包含するという利点を持つ。この考え
を基にして、スペクトル差し引きにおいて明示的に計算されたマスキングカーブ
を使用するために、最初の試みがS.NandkumarとJ.H.L.Han
senによって行われた(「聴力を制約するパラメータの新しい集合におけるス
ピーチ強調(Speech enhancement on a new se
tof auditory constrained parameters)
Proc.ICASSP 94、I.1〜I.4ページ)。上記技術の期待はず
れな結果にもかかわらず、この寄与はノイズ抑制中にスピーチ信号を劣化させな
いことの重要性を強調するという利点を持っていた。
[0004] This work is described in B. Paul (“Spectral Envelope Estimation Vocoder (Thes
principal envelope estimation vocoder)
IEEE Trans. For Sound, Speech and Signal Processing. (IEEE
ETrans. on Acoustics, Speechand Signa
l Processing), Vol. ASSP-29, no. 4 August 1981)), and P.S. Lockwood and J.M. Buddy ("Nonlinear Spectral Subtractor for Strong Speech Recognition in Cars, and Experiments with Hidden Markov Models and Projections (Experiments withtha)
nonlinear spectral subtractor (NSS)
, Hidden Markov Models and the project
tion, for robust speech recognition i
n cars), Speech Communication, vol. 11,
June 1992, pages 215-228, and EPO Patent Application Publication 05.
34837), which greatly improves the noise level, while retaining its natural features. Furthermore, this contribution has the advantage that it includes the principle of masking the computation of the noise suppression filter first. Based on this idea, to use explicitly calculated masking curves in spectral subtraction, first attempts were made by S.D. Nandkumar and J.M. H. L. Han
sen ("Speech enhancement on a new sequel"
tof auditory constrained parameters)
Proc. ICASSP 94, I.P. 1 to I. 4 pages). Despite the disappointing results of the above technique, this contribution had the advantage of emphasizing the importance of not degrading the speech signal during noise suppression.

【0005】 スピーチ信号をそれぞれの値に分割すること、したがって、スピーチ信号をよ
り小さいスペースに向けることを基にしたその他の方法が、Bart De M
oore(「単一値分解能およびノイズの多いマトリックスの長いスペースおよ
び短いスペース(The singular value decomposi
tion and long and short spaces of no
isy matrices)」、信号処理についてのIEEE Trans.(
IEEE Trans. on signal processing)、Vo
l.41、No.9、1993年9月、2826〜2838ページ)、およびS
.H.Jensen他(「切り捨てられたQSVDによるスピーチ中の広帯域ノ
イズの減少(Reduction of broad−band noise
in speech by truncated QSVD)」、スピーチおよ
びオーディオ処理についてのIEEE Trans.(IEEE Trans.
on Speech and Audio Processing)、Vol.
3、No.6、1995年11月)によって研究された。上記技術の原理はスピ
ーチ信号とノイズ信号を完全に相関していないものとみなすこと、および限られ
たパラメータ集合を基にしてスピーチ信号が予測されるのに十分な予測可能性を
持っているとみなすことである。この技術は高度な有声信号の許容できるノイズ
抑制を行うが、スピーチ信号の性質を全面的に変えてしまう。車両のタイヤ騒音
またはエンジン音などの比較的コヒーレントなノイズに直面すると、無声スピー
チ信号よりもはるかに容易にノイズを予測できる。そうすると、スピーチ信号を
ノイズのベクトルスペースの一部に投影する傾向がある。この方法はスピーチ信
号を、特に予測可能性が低い無声スピーチ領域、を考慮に入れない。更に、パラ
メータの小さい集合を基にしてスピーチ信号を予測すると、スピーチの固有の豊
富さの全てを考慮に入れることを阻止する。数学的考察およびスピーチの特定の
性質を監視することのみを基にした技術の限界は明らかである。
[0005] Other methods based on splitting the speech signal into respective values, and thus directing the speech signal to a smaller space, are known as Bart De M
oore ("single value resolution and long and short spaces of noisy matrices (The single value decomposi
Tion and long and short spaces of no
isy matrices) ", IEEE Trans. (
IEEE Trans. on signal processing), Vo
l. 41, no. 9, September 1993, pp. 2826-2838), and S
. H. Jensen et al. (Reduction of broad-band noise in speech due to truncated QSVD).
in speech by truncated QSVD), IEEE Trans. for speech and audio processing. (IEEE Trans.
on Speech and Audio Processing), Vol.
3, No. 6, November 1995). The principle of the above technique assumes that the speech signal and the noise signal are not completely correlated, and that they have sufficient predictability to predict the speech signal based on a limited set of parameters. It is to consider. While this technique provides acceptable noise suppression for highly voiced signals, it completely changes the nature of the speech signal. When faced with relatively coherent noise, such as vehicle tire noise or engine noise, the noise can be predicted much more easily than unvoiced speech signals. This tends to project the speech signal onto a portion of the noise vector space. This method does not take into account speech signals, especially unvoiced speech regions, which are less predictable. Furthermore, predicting the speech signal based on a small set of parameters prevents taking into account all of the inherent richness of speech. The limitations of techniques based solely on mathematical considerations and monitoring the specific nature of speech are obvious.

【0006】 最後に、他の技術はコヒーレンスの基準を基にしている。コヒーレンス関数は
J.A.CadzowおよびO.M.Solomonによって特に良く開発され
た(「リニヤモデル化およびコヒーレンス関数(Linear modelli
ng and the coherence function)」音響、スピ
ーチおよび信号処理についてのIEEE Trans.、Vol.ASSP−3
5、No.1、1987年1月、19〜28ページ)。また、ノイズ抑制へのそ
れの応用がR.Le Rouquinにより開発されている(「ノイズが含まれ
ているスピーチ信号の強化:移動無線通信への応用(Enhancement
ofnoisy speech signals:application t
omobile radio communications)」、スピーチ通
信(Speech Communication)、Vol.18、3〜19ペ
ージ)。この方法は、複数の独立チャネルが使用されるならば、スピーチ信号が
ノイズよりもはるかにコヒーレントである、という事実を基にしている。得られ
る結果はかなり勇気づけるもののようである。しかし、この技術は不幸なことに
複数の音声ピックアップ点を必要とする。これは必ずしも常にできるものではな
い。
[0006] Finally, other techniques are based on coherence criteria. The coherence function is described in J. A. Cadzoo and O.M. M. Particularly well developed by Solomon ("Linear modeling and coherence functions"
ng and the coherence function), IEEE Trans. for Sound, Speech and Signal Processing. Vol. ASSP-3
5, no. 1, January 1987, pp. 19-28). Also, its application to noise suppression is described in R.S. Developed by Le Rouquin ("Enhancing speech signals containing noise: Application to mobile radio communications (Enhancement)
of noisy speech signals: application t
mobile radio communications), Speech Communication, Vol. 18, pages 3-19). This method is based on the fact that if multiple independent channels are used, the speech signal is much more coherent than noise. The results obtained seem to be quite encouraging. However, this technique unfortunately requires multiple voice pickup points. This is not always possible.

【0007】 米国特許第5,228,088号が、周波数領域内で動作し、ピッチ検出器が
組み込まれているノイズ抑制装置を記述している。ノイズ抑制係数を調整し、か
つ「音声帯域」を探すために、そのような検出の結果が用いられる。ノイズ抑制
係数は、ノイズの推定量を信号から差し引く前にそれに重み付けするためにスペ
クトル差し引きモジュールによって用いられる。抑制係数を調整するそのモジュ
ールは、ピッチが検出されたか否かを示す情報のみを用いる。しかし、ピッチは
用いられる抑制係数に何の影響も及ぼさない。検出されたピッチの支援によって
決定された「音声帯」は全体的な信号強調を受ける。それは、その代わりに、全
体的な注意が向けられる「ノイズ帯」を決定するために使用できる。スペクトル
の一部、および信号の一部のそのような強調または減衰は、スペクトル差し引き
とは非常に異なるノイズ抑制法である。
US Pat. No. 5,228,088 describes a noise suppression device that operates in the frequency domain and incorporates a pitch detector. The results of such detection are used to adjust the noise suppression factor and look for "voice bands". The noise suppression factor is used by the spectral subtraction module to weight the noise estimator before subtracting it from the signal. The module that adjusts the suppression factor uses only information that indicates whether a pitch has been detected. However, the pitch has no effect on the suppression factor used. "Voice bands" determined with the aid of the detected pitch undergo global signal enhancement. It can instead be used to determine the "noise band" to which global attention is directed. Such emphasis or attenuation of parts of the spectrum, and of parts of the signal, is a very different noise suppression method than spectral subtraction.

【0008】[0008]

【発明が解決しようとする課題】[Problems to be solved by the invention]

本発明の主な目的は、スピーチ発生の特性を考慮に入れて、スピーチの知覚を
劣化することなく効率的なノイズ抑制を可能にする新規なノイズ抑制技術を提供
することである。
A main object of the present invention is to provide a novel noise suppression technique that enables efficient noise suppression without deteriorating speech perception, taking into account the characteristics of speech generation.

【0009】[0009]

【課題を解決するための手段】[Means for Solving the Problems]

したがって、本発明は、 −内部での音声活動を特徴とする各フレーム内のスピーチ信号のピッチ周波数
を推定するためにスピーチ信号の調波解析を行い、 各フレームごとにスピーチ信号のスペクトル成分を計算し、 スピーチ信号に含まれているノイズのスペクトル成分の推定量を各フレームご
とに計算し、 フレーム中のスピーチ信号の各スペクトル成分から、前記フレームについての
ノイズの対応するスペクトル成分の推定量と、推定されたピッチ周波数の値とを
少なくとも含むパラメータに依存するそれぞれの量を差し引く少なくとも1つの
ステップを含めて、スペクトル差し引きを行い、 ノイズが抑制されたスピーチ信号を構成するためにスペクトル差し引きの結果
の時間領域への変換を行う、 引き続くフレームによって処理されるデジタルスピーチ信号中のノイズを抑制す
る方法を提案するものである。
Therefore, the present invention provides:-a harmonic analysis of the speech signal to estimate the pitch frequency of the speech signal in each frame, characterized by internal speech activity, and the calculation of the spectral content of the speech signal for each frame Calculating, for each frame, an estimate of the spectral component of the noise contained in the speech signal, and from each spectral component of the speech signal in the frame, an estimate of the corresponding spectral component of the noise for the frame; Performing a spectral subtraction, including at least one step of subtracting a respective amount that depends on a parameter that includes at least an estimated pitch frequency value, and performing a spectral subtraction of the result of the spectral subtraction to form a noise-suppressed speech signal. Transformed into time domain, processed by successive frames It proposes a method of suppressing noise in digital speech signals.

【0010】 その中で音声活動性を特徴とする各フレームにわたってスピーチ信号のピッチ
周波数を推定するためにスピーチ信号の調波解析が行われる。差し引かれる量が
依存するパラメータはそのようにして推定されたピッチ周波数を含む。
[0010] Harmonic analysis of the speech signal is performed to estimate the pitch frequency of the speech signal over each frame characterized by voice activity. The parameters on which the amount to be subtracted depends include the pitch frequency so estimated.

【0011】 ノイズのスペクトル包絡線を過大に推定することによって得られた過大推定量
がノイズの急激な変化に対して強いように、ノイズのスペクトル包絡線を過大に
推定することが一般に望ましい。しかし、大きすぎる過大な推定はスピーチ信号
を歪ませるという欠点を通常持つ。スピーチ信号が最もエネルギーを有している
のが有声領域であるので、この欠点は電話で非常にやっかいである。ノイズ抑制
においてスピーチ信号のピッチ周波数を考慮に入れると、それらの有声領域内の
信号の調波含有量を保護する。
It is generally desirable to overestimate the spectral envelope of the noise such that the overestimate obtained by overestimating the spectral envelope of the noise is robust to sudden changes in the noise. However, overestimation that is too large usually has the disadvantage of distorting the speech signal. This disadvantage is very troublesome on the phone, since the speech signal has the most energy in the voiced area. Taking into account the pitch frequency of the speech signal in noise suppression protects the harmonic content of the signal in those voiced regions.

【0012】 一般的な規則として、所与のスペクトル成分をスピーチ信号から差し引くため
に、前記スペクトル成分が、保護されている周波数に一致する成分、すなわち、
推定されたピッチ周波数の整数倍に最も近いならば、そのような保護される周波
数のいずれにも前記スペクトル成分が一致しない場合の量よりも少ない量が採用
される。この少ない量は特に零にできる。後者の場合には、スペクトル差し引き
は、推定されたピッチ周波数とそれの調波との少なくとも一方における信号に影
響を及ぼさない。そうするとノイズの過大推定によって導入される非直線性のい
くらか無くされ、それらは有声領域に対しては特に敏感である。それの励振信号
の一層ランダムな性質のために、無声領域はこれに対してより鈍感である。
As a general rule, in order to subtract a given spectral component from the speech signal, the spectral component must match the frequency being protected, ie
If it is closest to an integer multiple of the estimated pitch frequency, then an amount less than the amount when the spectral components do not match any of such protected frequencies is employed. This small amount can in particular be zero. In the latter case, the spectral subtraction does not affect the signal at the estimated pitch frequency and / or its harmonics. This eliminates some of the non-linearities introduced by noise overestimation, and they are particularly sensitive to voiced regions. Due to the more random nature of its excitation signal, unvoiced regions are less sensitive to this.

【0013】 1つの有利な実施態様では、フレーム中のスピーチ信号のピッチ周波数を推定
した後で、そのフレームのスピーチ信号を推定されたピッチ周波数の倍数である
過大標本化周波数で過標本化することにより、そのスピーチ信号は調整され、そ
のフレーム内のスピーチ信号のスペクトル成分が調整された信号を基にして計算
されて、前記量をそれから差し引く。これによって推定されたピッチ周波数に最
も近い周波数の方が他の周波数よりも好都合である。これは、ピッチ周波数の調
波からかなり大きく離れている調波を保護することを避ける。したがって、スピ
ーチ信号の調波の性質は可能な限り保持される。スピーチ信号のスペクトル成分
を計算するために、調整された信号が、周波数領域に変換されるN個の標本のブ
ロックの間に分布させられ、過標本化周波数と推定されたピッチ周波数との間の
比が数Nの因数として選択される。
In one advantageous embodiment, after estimating the pitch frequency of the speech signal in a frame, oversampling the speech signal of the frame with an oversampling frequency that is a multiple of the estimated pitch frequency. , The speech signal is adjusted, and the spectral content of the speech signal in the frame is calculated based on the adjusted signal, and the amount is subtracted therefrom. The frequency closest to the pitch frequency estimated thereby is more favorable than the other frequencies. This avoids protecting harmonics that are far away from the harmonics of the pitch frequency. Thus, the harmonic nature of the speech signal is preserved as much as possible. To calculate the spectral content of the speech signal, the conditioned signal is distributed between blocks of N samples that are transformed into the frequency domain, and the difference between the oversampled frequency and the estimated pitch frequency is calculated. The ratio is selected as a factor of the number N.

【0014】 従来の技術は、下記のやり方、すなわち、 −フレーム中の話者の声門閉鎖に起因できる信号の連続する2つの切れ目の間
の時間間隔を推定する。その推定されたピッチ周波数は前記時間間隔に逆比例す
る、 −そのスピーチ信号を前記時間間隔内に内挿して、その内挿の結果としての調
整された信号が連続する2つの切れ目の間に一定の時間間隔を持つようにする、
でフレームにわたってスピーチ信号のピッチを推定することにより、一層優れた
ものにできる。
The prior art estimates the time interval between two consecutive breaks in the signal that can be attributed to the glottal closure of the speaker during the frame: The estimated pitch frequency is inversely proportional to the time interval;-interpolating the speech signal within the time interval such that the adjusted signal as a result of the interpolation is constant between two successive breaks. To have a time interval of
By estimating the pitch of the speech signal over the frame at, it can be made even better.

【0015】 これは、スピーチ信号が一定の間隔で切れ目を持つような信号フレームを人工
的に構成する。したがって、フレームの持続する間におけるピッチのどのような
変化も考慮に入れられる。
This artificially composes a signal frame in which the speech signal has discontinuities at regular intervals. Therefore, any change in pitch during the duration of the frame is taken into account.

【0016】 他の改良では、各フレームを処理した後で、ノイズが抑制されて、この処理に
より供給されたスピーチ信号の、標本化周波数と推定されたピッチ周波数との間
の比の整数倍に等しいいくつかの標本が保持される。これは、フレームの間の位
相不連続性によってひき起こされる歪み問題を避ける。それは一般に従来の重畳
加え合わせ(overlap−add)技術によって全面的には修正されない。
In another refinement, after processing each frame, the noise is reduced to an integer multiple of the ratio between the sampling frequency and the estimated pitch frequency of the speech signal provided by this processing. Several equal samples are retained. This avoids distortion problems caused by phase discontinuities between frames. It is generally not completely modified by conventional overlap-add techniques.

【0017】 過大標本化技術による信号の調整は、調整された信号を基にして計算されたス
ペクトル成分の自己相関のエントロピーの計算から、フレーム中のスピーチ信号
の有声度の良い測定値を与える。スペクトルが一層乱されると、すなわち、スペ
クトルの有声度が高くなると、エントロピー値が低くなる。スピーチ信号を調整
するとスペクトルの不規則性が強められ、したがって、エントロピーの変化が強
められ、その結果として後者は高い感度の測定を構成する。最高の性能を達成す
るために、自己相関はノイズが抑制された信号を基にして一般に計算される。け
れども、ノイズ抑制の前に調整された信号を基にしてそれらを計算することが可
能である。
The adjustment of the signal by the oversampling technique gives a good measure of the voicedness of the speech signal in the frame from the calculation of the entropy of the autocorrelation of the spectral components calculated on the basis of the adjusted signal. As the spectrum becomes more disturbed, ie, the voicedness of the spectrum increases, the entropy value decreases. Adjusting the speech signal increases the spectral irregularities, and thus the change in entropy, so that the latter constitutes a sensitive measurement. To achieve the best performance, the autocorrelation is generally calculated based on the noise suppressed signal. However, it is possible to calculate them based on the conditioned signals before noise suppression.

【0018】 聴覚モデルを適用することによってマスキングカーブを計算するために、前記
量をスピーチ信号スペクトル成分から差し引くことにより得られる、ノイズが抑
制された信号のスペクトル成分を使用できる。フレーム中のスピーチ信号スペク
トル成分から差し引れる量が依存するパラメータは、ノイズのスペクトル成分の
過大推定と、計算されたマスキングカーブとの間の差を含むことが好ましい。差
し引かれる量は、マスキングカーブより上であるノイズに対応するスペクトル成
分の過大推定の一部に特に限定される。この手法は、可聴ノイズ周波数を抑制す
るために十分であるという観察を基にしている。対照的に、スピーチによりマス
クされないノイズの抑制には有用性はない。
To calculate the masking curve by applying an auditory model, the spectral components of the noise-suppressed signal obtained by subtracting said quantities from the speech signal spectral components can be used. The parameter on which the amount deducted from the speech signal spectral components in the frame depends preferably comprises the difference between the overestimation of the noise spectral components and the calculated masking curve. The amount subtracted is particularly limited to a portion of the overestimation of the spectral components corresponding to noise above the masking curve. This approach is based on the observation that it is sufficient to suppress audible noise frequencies. In contrast, suppression of noise not masked by speech has no utility.

【0019】 有利な実施態様では、スピーチ信号に含まれているノイズの各過大推定量は、
ノイズの前記スペクトル成分の長時間推定量と、ノイズの前記スペクトル成分の
長時間推定量についての可変性の測定値とを組合わせることによって得られる。
これは、長時間ノイズ変動に注意するノイズ推定子(noise estima
tor)と、ノイズの短時間可変性に注意するノイズ推定子の2つの別々のノイ
ズ推定子を組合わせているために、ノイズの変動に特に強いノイズ推定子を生ず
る。
In an advantageous embodiment, each overestimate of the noise contained in the speech signal is
It is obtained by combining a long-term estimator of the spectral component of noise with a measure of variability of the long-term estimator of the spectral component of noise.
This is a noise estimator that pays attention to long-term noise fluctuations.
The combination of two separate noise estimators, tor) and a noise estimator that pays attention to the short-term variability of the noise, results in a noise estimator that is particularly resistant to noise fluctuations.

【0020】[0020]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

本発明のその他の特徴およびその他の利点は、添付図面を参照して与えられる
、本発明の非限定的な実施形態についての以下の説明の中で明らかになるであろ
う。
Other features and other advantages of the present invention will become apparent in the following description of non-limiting embodiments of the present invention, given with reference to the accompanying drawings.

【0021】 図1に示されているノイズ抑制装置はデジタルスピーチ信号sを処理する。ウ
ィンドウ化モジュール10が信号sを引き続くウィンドウすなわちフレームの形
にフォーマット化する。各フレームは数Nのデジタル信号標本で構成されている
。通常のやり方で、それらのフレームは相互に重なり合うことができる。この説
明の残りでは、フレームはN=256個の標本で構成され、標本化周波数Feが 8kHz、各ウィンドウにはハミング重み付けがされ、連続するウィンドウの間
の重なり合いが50%であるとみなすが、これは本発明を限定するものではない
The noise suppression device shown in FIG. 1 processes a digital speech signal s. The windowing module 10 formats the signal s into successive windows or frames. Each frame is composed of a number N of digital signal samples. In the usual way, the frames can overlap each other. For the remainder of this description, it will be assumed that the frame is composed of N = 256 samples, the sampling frequency F e is 8 kHz, each window is hamming weighted, and the overlap between successive windows is 50%. This is not a limitation of the present invention.

【0022】 信号フレームは、信号のスペクトルのモジュラスを計算するために従来の高速
フーリエ変換(FFT)アルゴリズムを用いているモジュール11により、周波
数領域に変換される。その後でモジュール11は、スピーチ信号のN=256個
の周波数成分Sn,fの集合を出力する。ここに、nは現在のフレームの数、fは 個別スペクトルからの周波数である。周波数領域内のデジタル信号の諸特性のた
めに、初めのN/2=128個の標本だけが用いられる。
The signal frame is transformed to the frequency domain by module 11 using a conventional fast Fourier transform (FFT) algorithm to calculate the modulus of the signal's spectrum. After that, the module 11 outputs a set of N = 256 frequency components S n, f of the speech signal. Where n is the number of the current frame and f is the frequency from the individual spectrum. Due to the characteristics of the digital signal in the frequency domain, only the first N / 2 = 128 samples are used.

【0023】 信号sに含まれているノイズの推定量を計算するために、高速フーリエ変換の
下流側で利用できる周波数分解能を使用する代りに、信号の帯域幅[0,Fe/ 2]をカバーする数Iの周波数帯により決定される、より低い分解能が用いられ
る。各帯域i
Instead of using the frequency resolution available on the downstream side of the fast Fourier transform to calculate an estimate of the noise contained in the signal s, the bandwidth of the signal [0, Fe / 2] is used. A lower resolution is used, determined by the number I of frequency bands that are covered. Each band i

【0024】[0024]

【数19】 はより低い周波数f(i−1)からより高い周波数f(i)まで延びる。ここに
、f(0)=0、f(I)=Fe/2である。周波数帯への細分は一様で、(f (i)−f(I−1)=Fe/2I)である。それは一様でなくすることもでき る(たとえば、バルク尺度に従って)。モジュール12は帯域内のスピーチ信号
のスペクトル成分Sn,fのそれぞれの平均を、たとえば、
[Equation 19] Extends from a lower frequency f (i-1) to a higher frequency f (i). Here, f (0) = 0 and f (I) = F e / 2. Subdivision into frequency bands uniform, a (f (i) -f (I -1) = F e / 2I). It can also be non-uniform (eg, according to the bulk scale). The module 12 averages each of the spectral components S n, f of the in-band speech signal, for example,

【0025】[0025]

【数20】 などの一様な重み付けにより計算する。(Equation 20) Calculate with uniform weighting such as

【0026】 この平均化で、帯域内のノイズの寄与を平均化することにより、帯域の間の変
動を減少する。それはノイズ推定子の多様性を減少する。また、この平均化は装
置の複雑さを大幅に減少する。
This averaging reduces the variation between the bands by averaging the contribution of the noise in the bands. It reduces the diversity of the noise estimator. Also, this averaging greatly reduces the complexity of the device.

【0027】 平均化されたスペクトル成分Sn,iは音声活動検出器モジュール15とノイズ 推定子モジュール16へ送られる。2つのモジュール15と16は、モジュール
15により種々の帯域について測定された音声活動度γn,iが、種々の帯域内の ノイズの長時間エネルギーを推定するためにモジュール16により用いられ、一
方、音声活動度γn,iを決定するために種々の帯域内のスピーチ信号中のノイズ の先験的抑制のために長時間推定量
The averaged spectral components S n, i are sent to a voice activity detector module 15 and a noise estimator module 16. Two modules 15 and 16 are used in which the speech activity γ n, i measured by the module 15 for the different bands is used by the module 16 to estimate the long-term energy of the noise in the different bands, Long term estimator for a priori suppression of noise in speech signals in various bands to determine speech activity γ n, i

【0028】[0028]

【数21】 がモジュール15により使用される。(Equation 21) Are used by the module 15.

【0029】 モジュール15と16の動作は図2と図3に示されている流れ図に一致させる
ことができる。
The operation of modules 15 and 16 can be consistent with the flowcharts shown in FIGS.

【0030】 ステップ17ないし20において、モジュール15は信号フレームnに対する
帯域i内のスピーチ信号中のノイズの先験的抑制を行う。この先験的抑制は、1
つまたは複数の先行するフレーム中に含まれているノイズの推定量を基にして従
来の非直線スペクトル差し引きのやり方で行われる。ステップ17では、帯域I
の分解能力を用いて、モジュール15は式
In steps 17 to 20, module 15 performs a priori suppression of noise in the speech signal in band i for signal frame n. This a priori suppression is 1
It is performed in a conventional non-linear spectral subtraction manner based on an estimate of the noise contained in one or more previous frames. In step 17, the band I
Using the decomposition capability of

【0031】[0031]

【数22】 から先験的ノイズ抑制フィルタの周波数応答Hpn,iを計算する。ここに、τ1 およびτ2はフレームの数として表される遅延(Equation 22) From the frequency response Hpn , i of the a priori noise suppression filter. Where τ1 and τ2 are delays expressed as the number of frames

【0032】[0032]

【数23】 、α′n,iは後で説明するようにして決定されるノイズ過大推定係数である。音 声活動度の検出における信頼度が高くなるほど、τ1の値が小さくなる。(Equation 23) , Α ′ n, i are noise excessive estimation coefficients determined as described later. The higher the reliability in detecting the voice activity, the smaller the value of τ1.

【0033】 ステップ18ないし20では、スペクトル成分In steps 18 and 20, the spectral components

【0034】[0034]

【数24】 (Equation 24) But

【0035】[0035]

【数25】 から計算される。ここに、βpiは0に近いフロア係数(floor coef ficient)であって、ノイズが抑制された信号のスペクトルが負の値、ま
たは楽音ノイズを生ずるような過度に小さい値を取ることを阻止するために従来
用いられていたものである。
(Equation 25) Is calculated from Here, to prevent the .beta.p i is a floor coefficient close to 0 (floor coef ficient), takes an excessively small value, such as the spectrum of the signal noise is suppressed produce negative or tone noise, It has been conventionally used for this purpose.

【0036】 したがって、ステップ17ないし20は信号のスペクトルから先験的に推定さ
れたノイズスペクトルの推定量を差し引き、それに係数
Thus, steps 17 to 20 subtract the noise spectrum estimator estimated a priori from the signal spectrum and add a factor

【0037】[0037]

【数26】 により過大重み付けされたものでほぼ構成されている。(Equation 26) , Which are almost overweighted.

【0038】 ステップ21では、モジュール15はフレームnに対する種々の帯域i内の先
験的にノイズが抑制された信号のエネルギー
In step 21, module 15 determines the energy of the a priori noise suppressed signal in various bands i for frame n.

【0039】[0039]

【数27】 を計算する。それは、先験的にノイズが抑制された信号のエネルギーの大域平均
(global average)も、帯域の幅により重み付けられた、各帯域
についてのエネルギーEn,iを加え合わせることによって計算する。インデック スi=0は信号の大域帯域を示すために用いられる。
[Equation 27] Is calculated. It is also calculated by summing the global average of the energies of the a priori noise-suppressed signals with the energy En , i for each band, weighted by the width of the band. Index i = 0 is used to indicate the global bandwidth of the signal.

【0040】 ステップ22と23では、モジュール15は、各帯域iIn steps 22 and 23, the module 15

【0041】[0041]

【数28】 に対して、帯域i内のノイズが抑制された信号のエネルギーにおける短時間変化
を表す大きさΔEn,iと、帯域i内のノイズが抑制された信号のエネルギーの長 時間値
[Equation 28] In contrast, the magnitude ΔE n, i representing a short-term change in the energy of the noise-suppressed signal in band i and the long-term value of the energy of the noise-suppressed signal in band i

【0042】[0042]

【数29】 とを計算する。大きさΔEn,iは簡単にされた式(Equation 29) Is calculated. The magnitude ΔE n, i is a simplified equation

【0043】[0043]

【数30】 から計算できる。長時間エネルギー[Equation 30] Can be calculated from Long time energy

【0044】[0044]

【数31】 については、0<B1<1であるように忘却係数B1を用いて計算できる、すな
わち、
(Equation 31) Can be calculated using the forgetting factor B1 such that 0 <B1 <1; that is,

【0045】[0045]

【数32】 ノイズが抑制された信号のエネルギーEn,iと、それの短時間変化ΔEn,iと、
それの長時間値
(Equation 32) The energy E n, i of the noise-suppressed signal and its short-term change ΔE n, i ;
Its long time value

【0046】[0046]

【数33】 とを図2に示されているやり方で計算した後で、モジュール15は、各帯域[Equation 33] After calculating in the manner shown in FIG. 2, module 15

【0047】[0047]

【数34】 に対して、ノイズが抑制された信号のエネルギーの展開(evolution)
を表す値ρiを計算する。この計算は図3のステップ25ないし36で行われ、 i=0からi=Iまでの各帯域iについて実行される。その計算は長時間ノイズ
包絡線推定子baiと、内部推定子biiと、ノイズを含むフレームカウンタbi とを用いる。
(Equation 34) The evolution of the energy of the signal in which the noise has been suppressed (evolution)
Calculating the value [rho i representing the. This calculation is performed in steps 25 to 36 in FIG. 3 and is performed for each band i from i = 0 to i = I. The calculation and long noise envelope estimator ba i, an internal estimator bi i, and a frame counter b i noisy used.

【0048】 ステップ25では、大きさΔEn,iはしきい値ε1と比較される。そのしきい 値ε1に達していないとすると、ステップ26でカウンタbiが1単位だけ増加 させられる。ステップ27では、長時間推定子baiはなめらかにされたエネル ギー値In step 25, the magnitude ΔE n, i is compared with a threshold value ε1. When not reached its threshold value .epsilon.1, counter b i is allowed incremented by one unit in step 26. In step 27, the long-term estimator ba i is a smoothed energy value

【0049】[0049]

【数35】 と比較される。(Equation 35) Is compared to

【0050】[0050]

【数36】 であれば、推定子baiは、ステップ28において、なめらかにされた値[Equation 36] If, then the estimator ba i is the smoothed value in step 28

【0051】[0051]

【数37】 に等しいものとしてとられ、カウンタbiは零にリセットされる。そうすると、(37) And the counter b i is reset to zero. Then,

【0052】[0052]

【数38】 に等しいものとしてとられている(ステップ36)、大きさρiは1に等しい。(38) (Step 36), the magnitude ρ i is equal to one.

【0053】[0053]

【数39】 であることをステップ27が示したとすると、ステップ29でカウンタbiが限 界値bmaxと比較される。bi>bmaxであれば、信号は音声活動度を支持
するには一定でありすぎると考えられる。フレームがノイズのみを含んでいると
考えるようになる、上記ステップ28がその後で実行される。ステップ29で
[Equation 39] When showing the steps 27 that is, the counter b i is compared with the limit Sakaichi bmax in step 29. If bi> bmax, the signal is considered too constant to support voice activity. Step 28 above is then performed, which causes the frame to be considered to contain only noise. In step 29

【0054】[0054]

【数40】 であれば、内部推定子biiがステップ33で式(Equation 40) If so, the internal estimator bi i is given by the equation

【0055】[0055]

【数41】 から計算される。上の式において、Bmは更新係数を表す。それの値は音声活動
検出器オートーマトンの状態に従って異なる(ステップ30ないし32)。状態
δn-1は先行するフレームの処理中に決定されるものである。オートーマトンが スピーチ検出状態(ステップ30でδn-1=2)にあるとすると、係数Bmは1 に非常に近い値Bmpをとるので、ノイズ推定子はスピーチの存在する中で非常
に僅かに更新される。さもなければ、沈黙相でノイズ推定子のより意味のある更
新を可能にするために、係数Bmはより小さい値Bmsをとる。ステップ34で
、長時間推定子と内部ノイズ推定子との間の差bai−biiがしきい値ε2と比
較される。そのしきい値ε2に達していないとすると、ステップ35において長
時間推定子baiが内部推定子biiの値で更新される。さもなければ、長時間推
定子baiは不変のままである。これはノイズ推定子を更新させるスピーチ信号 に起因する急変を阻止する。
[Equation 41] Is calculated from In the above equation, Bm represents an update coefficient. Its value depends on the state of the speech activity detector automaton (steps 30-32). The state δ n-1 is determined during processing of the preceding frame. Assuming that the automaton is in the speech detection state (δ n-1 = 2 in step 30), the noise estimator is updated very slightly in the presence of speech since the coefficient Bm takes a value Bmp very close to 1. Is done. Otherwise, the coefficient Bm takes on a smaller value Bms to allow a more meaningful update of the noise estimator in the silence phase. In step 34, the difference ba i -bi i between the long time estimator and the internal noise estimator is compared to a threshold ε2. If the threshold value ε2 has not been reached, then in step 35, the long time estimator ba i is updated with the value of the internal estimator bi i . Otherwise, the long term estimator ba i remains unchanged. This prevents sudden changes due to speech signals that cause the noise estimator to update.

【0056】 大きさρiが得られた後で、モジュール15は音声活動判定ステップ37へ進 む。モジュール15は、信号の全ての帯域について計算された大きさρ0に従っ て検出オートマトンの状態を最初に更新する。図4に示すようにオートマトンの
新しい状態δnは先行する状態δn-1とρ0に依存する。
After the magnitude ρ i has been obtained, the module 15 proceeds to the voice activity determination step 37. Module 15 first updates the state of the detected automaton according to the magnitude ρ 0 calculated for all bands of the signal. As shown in FIG. 4, the new state δ n of the automaton depends on the preceding states δ n−1 and ρ 0 .

【0057】 4つの状態が可能である:δ=0は沈黙、すなわちスピーチの不存在、を検出
し、δ=2は音声活動の存在を検出し、状態δ=1とδ=3は中間の立ち上がり
状態と立ち下がり状態である。オートマトンが沈黙状態(δn-1=0)にあると すると、ρ0が最初のしきい値SE1を超えなければそれはそこに留まり、他の 場合には立上がり状態へ行く。立上がり状態(δn-1=1)では、ρ0が最初のし
きい値SE1より小さければそれは沈黙状態に戻り、ρ0がしきい値SE1より 大きい第2のしきい値SE2より大きければスピーチ状態へ行き、
Four states are possible: δ = 0 detects silence, ie absence of speech, δ = 2 detects the presence of voice activity, and states δ = 1 and δ = 3 are intermediate. A rising state and a falling state. Assuming that the automaton is in a silent state (δ n-1 = 0), it will stay there if ρ 0 does not exceed the initial threshold SE1, otherwise it will go to the rising state. In the rising state (δ n-1 = 1), if ρ 0 is smaller than the first threshold value SE1, it returns to the silence state, and if ρ 0 is larger than the second threshold value SE2 which is larger than the threshold value SE1, speech is given. Go to the state,

【0058】[0058]

【数42】 ならば立上がり状態に留まる。オートマトンがスピーチ状態(δn-1=2)にあ るとすると、ρ0がしきい値SE2より小さい第3のしきい値SE3を超えれば それはそこに留まり、他の場合には立下がり状態に入る。立下がり状態(δn-1 =3)では、ρ0がしきい値SE2より大きければオートーマトンはスピーチ状 態へ戻り、ρ0がしきい値SE2より小さい第2のしきい値SE4より小さけれ ば沈黙状態へ戻り、(Equation 42) Then stay in the rising state. If the automaton is in a speech state (δ n-1 = 2), it will stay there if ρ 0 exceeds a third threshold SE3 which is smaller than the threshold SE2, otherwise it will fall to go into. In the falling state (δ n-1 = 3), if ρ 0 is larger than the threshold SE2, the automaton returns to the speech state, and if ρ 0 is smaller than the second threshold SE4 smaller than the threshold SE2. Return to silence,

【0059】[0059]

【数43】 ならば立下がり状態に留まる。[Equation 43] Then, it stays in the falling state.

【0060】 ステップ37では、モジュール15は各帯域In step 37, the module 15

【0061】[0061]

【数44】 において音声活動度γn,iを計算もする。この度γn,iは非2進パラメータである
こと、すなわち、菅巣γn,i=G(ρi)が0から1までの範囲で大きさρiによ り取られる値の関数として連続変化する関数であること、が好ましい。この関数
はたとえば図5に示されている形を持つ。
[Equation 44] Also calculates the voice activity γ n, i . This time, γ n, i is a non-binary parameter, that is, swelling γ n, i = G (ρ i ) ranges from 0 to 1 continuously as a function of the value taken by the magnitude ρ i . Preferably, it is a function that changes. This function has, for example, the form shown in FIG.

【0062】 モジュール16はノイズの推定量を帯域ごとのベースで計算し、それらの推定
量は、成分Sn,iの引き続く値と音声活動度γn,iを用いるノイズ抑制プロセスで
用いられる。これは図3におけるステップ40ないし42に対応する。ステップ
40は音声活動検出器オートマトンが立上がり状態から立下がり状態へ進んだば
かりかどうかを判定する。もしそうであれば、各帯域
The module 16 calculates noise estimators on a band-by-band basis, and these estimators are used in the noise suppression process using the subsequent values of the components S n, i and the voice activity γ n, i . This corresponds to steps 40 to 42 in FIG. Step 40 determines whether the voice activity detector automaton has just advanced from a rising state to a falling state. If so, each band

【0063】[0063]

【数45】 について以前に計算された最後の2つの推定量[Equation 45] The last two estimators previously calculated for

【0064】[0064]

【数46】 [Equation 46] When

【0065】[0065]

【数47】 が先行する推定量[Equation 47] Estimator preceded by

【0066】[0066]

【数48】 に従って修正される。その修正は、立上がり相(δ=1)において、音声活動検
出プロセス(ステップ30ないし33)におけるノイズのエネルギーの長時間推
定が、信号がノイズのみを含んでいる(Bm=Bms)かのように計算され、そ
の結果としてそれらに誤りが生ずる、という事実を許容するために行われる。
[Equation 48] Will be modified according to The modification is that in the rising phase (δ = 1), a long-term estimate of the energy of the noise in the voice activity detection process (steps 30 to 33) is as if the signal contained only noise (Bm = Bms). Calculated and done to allow for the fact that they result in errors.

【0067】 ステップ42では、モジュール16は、式In step 42, module 16 calculates the expression

【0068】[0068]

【数49】 [Equation 49]

【0069】[0069]

【数50】 を用いて帯域ごとのベースでノイズの推定量を更新する。その式でλBは0<λB <1であるような忘却係数を示す。式(6)は非線形音声活動度γn,iが考慮に 入れられることを示す。[Equation 50] Is used to update the amount of noise estimation on a band-by-band basis. In the equation, λ B represents a forgetting factor such that 0 <λ B <1. Equation (6) shows that the nonlinear speech activity γ n, i is taken into account.

【0070】 先に示したように、ノイズの長時間推定量As described above, the long-term estimated amount of noise

【0071】[0071]

【数51】 が、非直線スペクトル差し引きによるノイズ抑制の前にモジュール45(図1)
により過推定される。モジュール45は前記過推定係数α′n,iを、
(Equation 51) But before the noise suppression by nonlinear spectrum subtraction, the module 45 (FIG. 1)
Is overestimated by Module 45 calculates the overestimated coefficient α ′ n, i as

【0072】[0072]

【数52】 にほぼ一致する過推定量(Equation 52) Overestimate that almost matches

【0073】[0073]

【数53】 とともに計算する。(Equation 53) Calculate with

【0074】 図6は過推定モジュール45の構成を示す。推定量FIG. 6 shows the configuration of the over-estimation module 45. Estimator

【0075】[0075]

【数54】 は、長時間推定量(Equation 54) Is the long-term estimator

【0076】[0076]

【数55】 と、それの長時間推定量の周囲の帯域i内のノイズの成分の可変性の測定値ΔB max n,i とを組合わせることによって得られる。ここで考えている例では、その組
合わせは加算器46により行われるほぼ簡単な加算である。それの代わりにそれ
を重み付け加算とすることができる。
[Equation 55]And a measure of the variability ΔB of the component of the noise in band i around its long term estimator max n, i Are obtained by combining In the example considered here,
The alignment is an almost simple addition performed by the adder 46. It instead of it
Can be weighted addition.

【0077】 過推定係数α′n,iは、加算器46により供給される和The overestimated coefficient α ′ n, i is calculated by adding the sum

【0078】[0078]

【数56】 と遅延させられた長時間推定量[Equation 56] And the long-term estimator delayed

【0079】[0079]

【数57】 との間の差に等しく、最高限界値αmax、たとえばαmax=4、を有する(ブロッ
ク48)。遅延τ3は、必要があれば、立上がり相(δ=1)において、図3か
らステップ40と41により長時間推定量が修正される前に、過推定係数α′ n ,i の値を修正するために用いられる(たとえば、τ3=3)。
[Equation 57] And has a maximum limit α max , for example α max = 4 (block 48). If necessary, the delay τ3 corrects the value of the overestimation coefficient α ′ n , i in the rising phase (δ = 1) before the long-term estimator is corrected by steps 40 and 41 from FIG. (For example, τ3 = 3).

【0080】 過推定量Overestimation

【0081】[0081]

【数58】 は最後に[Equation 58] Is finally

【0082】[0082]

【数59】 としてとられる(掛算器49)。[Equation 59] (Multiplier 49).

【0083】 ノイズの可変性の測定値ΔBmax n,iはノイズ推定子の変動を反映する。そこに
おいてはスピーチ信号が帯域i内のどの様な音声活動も特徴としないような、あ
る数の先行するフレームについて計算されたSn,iの値と
The measure of noise variability ΔB max n, i reflects the variation of the noise estimator. There, the value of Sn, i calculated for a certain number of preceding frames, such that the speech signal does not characterize any voice activity in band i,

【0084】[0084]

【数60】 の値との関数としてそれは得られる。それは数Kの沈黙フレームについて計算さ
れた差
[Equation 60] It is obtained as a function of the value of It is the difference calculated for a number K of silence frames

【0085】[0085]

【数61】 の関数である[Equation 61] Is a function of

【0086】[0086]

【数62】 。図示の例では、この関数は単なる最大である(ブロック50)。各フレームn
に対して、音声活動度γn,iがしきい値と比較されて(ブロック51)、52〜 53で計算された差
(Equation 62) . In the example shown, this function is simply the maximum (block 50). Each frame n
, The voice activity γ n, i is compared to a threshold (block 51) and the difference calculated in

【0087】[0087]

【数63】 を、先入れ/先出し(FIFO)モードで構成されている、K個の場所を持つ待
ち行列54にロードしなければならないか、否かを判定する。γn,iがしきい値 (これは関数g()が図5に示されているような形を有するならば0に等しくでき
る)を超えなければ、FIFO54はロードされず、そうでなければそれはロー
ドされる。その後で、FIFO54に含まれている最大値が測定された可変性Δ
max n,iとして供給される。
[Equation 63] Must be loaded into a queue 54 with K locations configured in a first-in, first-out (FIFO) mode. If γ n, i does not exceed a threshold (which can be equal to 0 if the function g () has the form as shown in FIG. 5), the FIFO 54 is not loaded, otherwise It is loaded. Thereafter, the maximum value contained in the FIFO 54 is determined by the measured variability Δ
B max n, i .

【0088】 測定された可変性ΔBmax n,iは、代わりに値Sn,f(Sn,iではない)およびThe measured variability ΔB max n, i is instead replaced by the values S n, f (not S n, i ) and

【0089】[0089]

【数64】 の関数として得ることができる。そうすると、FIFO54が各帯域iに対して[Equation 64] Can be obtained as a function of Then, the FIFO 54 for each band i

【0090】[0090]

【数65】 の代わりに、[Equation 65] Instead of,

【0091】[0091]

【数66】 を含むことを除いて、手順は同じである。[Equation 66] The procedure is the same except that

【0092】 ノイズの長時間変動Long-term fluctuation of noise

【0093】[0093]

【数67】 と短時間可変性ΔBmax n,iの独立した推定のために、過推定子[Equation 67] And the independent estimation of the short-term variability ΔB max n, i

【0094】[0094]

【数68】 はノイズ抑制プロセスを樂音ノイズに対して極めて強くする。[Equation 68] Makes the noise suppression process extremely resistant to musical noise.

【0095】 図1に示されているモジュール55は最初のスペクトル差し引き段階を実行す
る。この段階は、帯域i
The module 55 shown in FIG. 1 performs an initial spectral subtraction step. At this stage, band i

【0096】[0096]

【数69】 の分解で、第1のノイズ抑制フィルタの周波数応答H1 n,iを、成分Sn,iと、Bn ,i と、過推定係数α′n,iとの関数として供給する。この計算は各帯域iに対し て、式[Equation 69] Provides the frequency response H 1 n, i of the first noise suppression filter as a function of the components S n, i , B n , i and the overestimated coefficient α ′ n, i . This calculation is based on the equation for each band i.

【0097】[0097]

【数70】 を用いて実行できる。ここに、τ4は[Equation 70] Can be performed using Where τ4 is

【0098】[0098]

【数71】 である(たとえば、τ4=0)ような整数遅延である。式(7)中の係数β1 i
、式(3)における係数βpiのように、ノイズを抑制された信号の負値または 過度に小さい値を避けるために従来用いられていたフロアを表す。
[Equation 71] (For example, τ4 = 0). Factor beta 1 i in equation (7), as the coefficient .beta.p i in equation (3) represents a floor which has been conventionally used in order to avoid negative values or excessively small value of the signal with suppressed noise .

【0099】 この技術で知られているやり方(EPO特許出願公開公告0534837参照
)で、式(7)の過推定係数α′n,iをα′n,iおよび信号対ノイズ比の推定量(
たとえば、
In a manner known in the art (see EPO Patent Application Publication No. 0534837), the overestimated coefficient α ′ n, i of equation (7) is replaced by α ′ n, i and the estimator of the signal-to-noise ratio (
For example,

【0100】[0100]

【数72】 )の関数に等しい他の係数で置き換えることができる。この関数は信号対ノイズ
比の推定された値の減関数である。そうするとこの関数は、信号対ノイズ比の最
低値に対してα′n,iに等しい。信号にノイズが非常に多く含まれているとする と、過推定係数を小さくすることには明らかに有用性はない。この関数は、信号
/ノイズ比の最高値に対して零へ向かって減少するので有利である。これは、そ
の中でスピーチ信号が最も意味を持つようなスペクトルの最大エネルギー領域を
保護する。量はその時零へ向かっている信号から差し引かれる。
[Equation 72] ) Can be replaced by another coefficient equal to the function of This function is a sub-function of the estimated value of the signal-to-noise ratio. This function is then equal to α ′ n, i for the lowest signal to noise ratio. Assuming the signal is very noisy, reducing the overestimation factor clearly has no value. This function is advantageous because it decreases towards zero for the highest value of the signal / noise ratio. This protects the highest energy region of the spectrum in which the speech signal is most meaningful. The quantity is then subtracted from the signal going to zero.

【0101】 このやり方は、後者が音声活動性を特徴とするものであるならば、スピーチ信
号のピッチ周波数の調波に選択的に適用することによって、洗練できる。
This approach can be refined if the latter is characterized by voice activity, by selectively applying it to harmonics of the pitch frequency of the speech signal.

【0102】 したがって、図1に示されている実施態様では、調波保護モジュール56によ
り第2のノイズ抑制段階が実行される。このモジュールは、フーリエ変換の分解
能で、第2のノイズ抑制フィルタの周波数応答H2 n,fを、パラメータH1 n,i、α
n,i
Thus, in the embodiment shown in FIG. 1, a second noise suppression stage is performed by the harmonic protection module 56. This module converts the frequency response H 2 n, f of the second noise suppression filter, with the resolution of the Fourier transform , to the parameters H 1 n, i , α
N, i ,

【0103】[0103]

【数73】 、δn、Sn,iの関数、および調波解析モジュール57により沈黙段階の外で計算
されたピッチ周波数fp=Fe/Tpの関数として計算する。沈黙段階(δn=0)
では、モジュール56は動作しない。すなわち、帯域iの各周波数fに対してH 2 n,f =H1 n,iである。モジュール57は、フレームのスピーチ信号を解析して、
整数または分数の標本として表現されているピッチ周期Tp'を決定するために、
フレームのスピーチ信号を解析するための任意の従来の方法、たとえば、直線予
測法、を使用できる。
[Equation 73], Δn, Sn, iOut of silence by the function of and the harmonic analysis module 57
Pitch frequency fp= Fe/ TpCalculate as a function of Silence phase (δn= 0)
Then, the module 56 does not operate. That is, for each frequency f in band i, H Two n, f = H1 n, iIt is. Module 57 analyzes the speech signal of the frame,
Pitch period T expressed as an integer or fractional samplep 'In order to determine the,
Any conventional method for analyzing the speech signal of a frame, e.g.
Measurement method can be used.

【0104】 モジュール56により行われる保護は、帯域iに属する各周波数fに対して、The protection provided by module 56 is that for each frequency f belonging to band i,

【0105】[0105]

【数74】 を行うことで構成できる。[Equation 74] Can be configured.

【0106】 Δf=Fe/Nはフーリエ変換のスペクトル分解能を表す。H2 n,f=1である とすると、成分Sn,fから差し引かれる量は零である。この計算では、フロア係 数β2 i(たとえば、β2 i=β1 i)は、ピッチ周波数fpのいくつかの調波をノイ ズでマスクでき、したがってそれらを保護することに有用性がない、という事実
を表す。
Δf = F e / N represents the spectral resolution of the Fourier transform. Assuming that H 2 n, f = 1, the amount subtracted from the component S n, f is zero. In this calculation, the floor - coefficient beta 2 i (e.g., β 2 i = β 1 i ) is the number of harmonics of the pitch frequency f p can be masked by the noise, thus useful to protect them No, represents the fact that.

【0107】 この保護の方策はfpの調波に最も近い周波数のおのおのに、すなわち、任意 の整数ηに、適用することが好ましい。This protection strategy preferably applies to each of the frequencies closest to the harmonic of f p , ie to any integer η.

【0108】 推定されるピッチ周波数fpを解析モジュール57が生ずる際の周波数分解能 をδfpが示すものとすると、すなわち、実際のピッチ周波数がfp−δfp/2 とfp+δfp/2の間にあるものとすると、実際のピッチ周波数のη次調波とそ
れの推定量η×fpとの間の差(条件(9))が±fp×δfp/2まで進むこと ができる。ηの高い値に対しては、その差はフーリエ変換のスペクトル半分解能
より高くできる。この不確実さを考慮に入れるため、および実際のピッチの調波
の良い保護を保証するために、範囲[η×fp−η×δfp/2,η×fp+η× δfp/2]内の各周波数を保護できる、すなわち、上の条件(9)を
[0108] When the frequency resolution in the analysis module 57 of the pitch frequency f p estimated caused shall indicate that delta] f p, i.e., the actual pitch frequency f p -.DELTA.f p / 2 and f p + δf p / 2 assuming that lies between, that the difference between the actual pitch frequency eta following harmonics and its estimator eta × f p (condition (9)) proceeds to ± f p × δf p / 2 it can. For high values of η, the difference can be higher than the spectral half-resolution of the Fourier transform. To add this uncertainty into consideration, and the actual in order to ensure better protection of harmonics of the pitch, the range [η × f p -η × δf p / 2, η × f p + η × δf p / 2 ] Can be protected, that is, the above condition (9)

【0109】[0109]

【数75】 このやり方(9′)は、ηの値を高くできるならば、特にこの装置が広帯域装置
で用いられるならば、特に有利である。
[Equation 75] This approach (9 ') is particularly advantageous if the value of η can be increased, especially if the device is used in a broadband device.

【0110】 保護される各周波数に対して、修正された周波数応答H2 n,fを、上記のように
、1に等しくできる。これは、スペクトル差し引きという面では、零量の差し引
きに対応する、すなわち、問題の周波数の保護を終了することに対応する。より
一般的には、こに修正された周波数応答H2 n,fは、求められる保護の程度に従っ
て、1からH1 n,fまでの値に等しいものとしてとることができる。これは、問題
の周波数が保護されなかったならば差し引かれるであろう量よりも少ない量を差
し引くことに対応する。
For each frequency to be protected, the modified frequency response H 2 n, f can be equal to one, as described above. This corresponds, in terms of spectral subtraction, to zero-subtraction, ie to ending protection of the frequency in question. More generally, the modified frequency response H 2 n, f can be taken to be equal to a value from 1 to H 1 n, f , depending on the degree of protection sought. This corresponds to subtracting an amount less than would be subtracted if the frequency in question had not been protected.

【0111】 ノイズが抑制された信号ののスペクトル成分S2 n,fは掛算器58により計算さ
れる。
The multiplier 58 calculates the spectral component S 2 n, f of the noise-suppressed signal.

【0112】 S2 n,f =H2 n,f・Sn,f この信号S2 n,fは、人の耳の音の知覚するやり方を模した心理音響モデル(p
sychoacoustic model)を適用することにより各フレームの
ためのマスキングカーブを計算するモジュール60に供給される。
S 2 n, f = H 2 n, f · S n, f This signal S 2 n, f is a psychoacoustic model (p.
Applying a sychoacoustic model is provided to a module 60 that calculates a masking curve for each frame.

【0113】 マスキング現象は人の耳の周知の動作原理である。2つの周波数が同時に存在
するものとすると、それらの周波数のうちの1つが聞こえないことが有り得る。
そうするとそれがマスクされたといわれる。
The masking phenomenon is a well-known operating principle of the human ear. Assuming that two frequencies are present at the same time, one of those frequencies may not be audible.
Then it is said that it was masked.

【0114】 マスキングカーブを計算する方法は種々ある。たとえば、J.DJohnst
onにより開発された方法を使用できる(「知覚ノイズ基準を用いるオーディオ
信号の変換符号化(Transform Coding of Audio S
ignals Using Perceptual Noise Criter
ia)」、通信における選択された領域についてのIEEEジャーナル(IEE
EJournal on Selected Areas in Commun
ications)、Vol,6、No.2、1988年2月)。その方法はバ
ルク周波数尺度で動作する。マスキングカーブはバルク領域内の基底膜のスペク
トル拡張関数の、励振信号、この応用では信号S2 n,fによるコンボリューション
として見られる。スペクトル拡張関数は図7に示されているようにしてモデル化
できる。各バルク帯域に対して、基底膜の拡張関数でコンボリュートされたより
低い帯域とより高い帯域の寄与が式から計算される。
There are various methods for calculating a masking curve. For example, in J.I. DJohnst
on "(Transform Coding of Audio S using the perceptual noise criterion).
signals Using Perceptual Noise Criter
ia) ", an IEEE journal on selected areas of communication (IEEE
EJournal on Selected Areas in Commun
ications), Vol. 2, February 1988). The method works on a bulk frequency scale. The masking curve can be seen as a convolution of the spectral extension function of the basilar membrane in the bulk region with the excitation signal, in this application the signal S 2 n, f . The spectral extension function can be modeled as shown in FIG. For each bulk band, the contribution of the lower and higher bands convolved with the basement membrane expansion function is calculated from the equation.

【0115】[0115]

【数76】 この式で指数qとq′はバルク帯域[Equation 76] In this equation, the indices q and q 'are the bulk bands

【0116】[0116]

【数77】 を示し、S2 n,qは、バルク帯域q′に属する個別周波数fに対するノイズが抑制
された励振信号の成分S2 n,fの平均を示す。
[Equation 77] , And S 2 n, q represents the average of the components S 2 n, f of the excitation signal in which noise for the individual frequency f belonging to the bulk band q ′ is suppressed.

【0117】 モジュール60は、式 Mn,q=Cn,q/Rq から各バルク帯域qに対するマスキングしきい値Mn,qを得る。この式でRqは、
信号に比較的多くの、または比較的少ない、有声音が含まれているかどうかに依
存する。この技術で周知のように、Rqの可能な形は 10・log10(Rq)=(A+q)・χ+B・(1−χ) である。 A=14.5、B=5.5である。χは、0(音声なし)から1(有声度が非常
に高い信号)まで変化するスピーチ信号の有声度を示している。パラメータχは
この技術で知られている形
The module 60 obtains a masking threshold M n, q for each bulk band q from the equation M n, q = C n, q / R q . In this equation, R q is
It depends on whether the signal contains more or less voiced sounds. As known in the art, is a form of R q is 10 · log 10 (R q) = (A + q) · χ + B · (1-χ). A = 14.5 and B = 5.5. χ indicates the voicedness of the speech signal that changes from 0 (no voice) to 1 (a signal with a very high voicedness). Parameter χ is the form known in the art.

【0118】[0118]

【数78】 ここにSFMはバルク帯域のエネルギーの算術平均と幾何平均との間の、デシ
ベルで表した、比を表し、SFMmax=−60dBである。
[Equation 78] Here, SFM represents the ratio, expressed in decibels, between the arithmetic mean and the geometric mean of the bulk band energy, where SFM max = −60 dB.

【0119】 ノイズ抑制装置は、ノイズ抑制フィルタの周波数応答を、モジュール60によ
り計算されたマスキングカーブMn,qと、モジュール45により計算された過推 定量
The noise suppression device compares the frequency response of the noise suppression filter with the masking curve M n, q calculated by the module 60 and the over-estimation quantification calculated by the module 45.

【0120】[0120]

【数79】 との関数として修正するモジュール62を更に含む。ノイズ過推定量の包絡線を
、マスキングしきい値Mn,qにより形成された包絡線と比較することにより、信 号中のノイズを過推定量
[Expression 79] And a modification module 62 as a function of The noise in the signal is overestimated by comparing the envelope of the noise overestimator with the envelope formed by the masking threshold Mn, q.

【0121】[0121]

【数80】 がマスキングカーブの上である範囲までのみ抑制するための判定を行う。これは
、スピーチによりマスクされるノイズの不必要な抑制を避ける。
[Equation 80] Is determined only in a range above the masking curve. This avoids unnecessary suppression of noise masked by speech.

【0122】 モジュール12により定められた帯域iとバルク帯域qとに属する周波数fに
対する新しい応答H3 n,fは、ノイズの対応するスペクトル成分の過推定量
The new response H 3 n, f for the frequency f belonging to the band i and the bulk band q defined by the module 12 is an overestimate of the corresponding spectral component of the noise.

【0123】[0123]

【数81】 と、マスキングカーブMn,qとに次のようにして依存する。[Equation 81] And the masking curve M n, q as follows.

【0124】[0124]

【数82】 いいかえると、周波数応答H3 n,fを持つスペクトル差し引きプロセスにおいて
スペクトル成分Sn,fから差し引かれる量は、周波数応答H2 n,fを持つスペクト ル差し引きプロセスにおいてスペクトル成分から差し引かれる量と、マスキング
カーブMn,qをおそらく超えるノイズの対応するスペクトル成分の過推定量
(Equation 82) In other words, the amount subtracted from the spectral components S n, f in the spectral subtraction process with the frequency response H 3 n, f is the amount subtracted from the spectral components in the spectral subtraction process with the frequency response H 2 n, f , Overestimation of the corresponding spectral components of the noise, possibly beyond the masking curve M n, q

【0125】[0125]

【数83】 の部分とのうちの小さい方にほぼ等しい。[Equation 83] Is approximately equal to the smaller of

【0126】 図8は、モジュール62により適用される修正の原理を示す。それは、ノイズ
が抑制された信号のスペクトル成分S2 n,fと、ノイズスペクトルの過推定量
FIG. 8 shows the principle of the modification applied by the module 62. That is, the spectral component S 2 n, f of the noise-suppressed signal and the overestimated amount of the noise spectrum

【0127】[0127]

【数84】 とを基にして計算されたマスキングカーブMn,qの例を概略的な形で示す。成分 Sn,fから最後に差し引かれる量は、陰線を施されている部分により示されてい る、すなわち、それはノイズのスペクトル成分の過推定量[Equation 84] An example of the masking curve M n, q calculated based on the above is shown in a schematic form. The last amount subtracted from the component Sn , f is indicated by the shaded area, ie, it is an overestimate of the noise spectral components.

【0128】[0128]

【数85】 のうち、マスキングカーブより上の部分に限定される。[Equation 85] Are limited to the portion above the masking curve.

【0129】 差し引きは、ノイズ抑制フィルタの周波数応答H3 n,fにスピーチ信号のスペク
トル成分Sn,fを乗ずることによって行われる(掛算器64)。その後で、掛算 器64により供給された周波数S3 n,fの標本に逆高速フーリエ変換(IFFT)
を加えることによって、モジュール65が時間領域内でノイズを抑制された信号
を再構成する。各フレームに対して、モジュール65により発生された信号の初
めのN/2=128個の標本のみが、先行するフレームの後のN/2=128個
の標本での重畳−加算の後で、ノイズを抑制された最後の信号として供給される
(モジュール66)。
The subtraction is performed by multiplying the frequency response H 3 n, f of the noise suppression filter by the spectral component S n, f of the speech signal (multiplier 64). Then, an inverse fast Fourier transform (IFFT) is applied to the sample of frequency S 3 n, f supplied by multiplier 64.
, The module 65 reconstructs the noise-suppressed signal in the time domain. For each frame, only the first N / 2 = 128 samples of the signal generated by module 65 are, after superposition-addition with N / 2 = 128 samples after the preceding frame, Provided as the last signal with noise suppressed (module 66).

【0130】 図9は本発明を用いているノイズ抑制装置の好適な実施形態を示す。この装置
は、図1に示されている装置の対応する部品に類似するいくつかの部品を含んで
いる。それらの部品には同じ参照番号が用いられている。したがって、モジュー
ル10、11、1、15、16、45および55は選択的ノイズ抑制のために用
いられる量Sn,i
FIG. 9 shows a preferred embodiment of a noise suppression device using the present invention. This device includes several components that are similar to the corresponding components of the device shown in FIG. The same reference numbers are used for those parts. Thus, the modules 10, 11, 1, 15, 16, 45 and 55 comprise the quantities S n, i used for selective noise suppression,

【0131】[0131]

【数86】 、α′n,i[Equation 86] , Α ′ n, i ,

【0132】[0132]

【数87】 およびH1 n,fを特に供給する。[Equation 87] And H 1 n, f in particular.

【0133】 高速フーリエ変換11の周波数分解能は図1に示されている装置の制約を構成
する。モジュール55により保護される周波数は必ずしも正確なピッチ周波数f
pではなく、個別スペクトル中でそれに最も近い周波数である。ある場合には、
ピッチ周波数から比較的離れている調波を保護することがある。図9に示されて
いる装置は、スピーチ信号を適切に調整することによってこの欠点を小さくする
The frequency resolution of the fast Fourier transform 11 constitutes a limitation of the device shown in FIG. The frequency protected by module 55 is not necessarily the exact pitch frequency f
It is not p but the frequency closest to it in the individual spectrum. In some cases,
Harmonics that are relatively far from the pitch frequency may be protected. The device shown in FIG. 9 reduces this drawback by properly adjusting the speech signal.

【0134】 この調整は、周期1/fpが調整された信号の整数の標本時間をちょうどカバ ーするように、信号の標本化周波数を修正する。[0134] This adjustment is an integer sample time of a signal period 1 / f p is adjusted just to cover, to correct the sampling frequency of the signal.

【0135】 モジュール57によって使用できる多くの調波解析方法が、初めの標本化周波
数Feでのいくつかの標本として表される、遅延Tp'の分数値を供給できる。そ の後で、推定されたピッチ周波数の整数倍に等しい新しい標本化周波数feが選
択される。すなわち、fe=p・fp=p・Fe/Tp=K・Feここにpは整数で ある。信号標本が失われることを避けるために、feはFeより高くなければなら
ない。特に、調整を容易にするために、feがFeから2Feまでの範囲
Many harmonic analysis methods that can be used by the module 57 can provide a fractional value of the delay T p ′ , represented as a number of samples at the initial sampling frequency F e . Thereafter, a new sampling frequency fe equal to an integer multiple of the estimated pitch frequency is selected. That is, f e = p · f p = p · F e / T p = K · F e where p is an integer. To avoid signal samples is lost, f e must be higher than F e. In particular, in order to facilitate adjustment, range f e is from F e to 2F e

【0136】[0136]

【数88】 になければならないという条件を課することが可能である。[Equation 88] Can be imposed.

【0137】 もちろん、現在のフレームで有声活動が検出されないか(δn≠0)、モジュ ール57により推定された遅延Tpが整数遅延であるならば、信号を調整する必
要はない。
Of course, if no voiced activity is detected in the current frame (δ n ≠ 0), or if the delay Tp estimated by the module 57 is an integer delay, there is no need to adjust the signal.

【0138】 各ピッチ調波を調整された信号の整数の標本に一致させるために、整数pは、
モジュール10により発生された信号窓の寸法Nの係数:N=αp、でなければ
ならない。ここにαは整数である。この寸法Nは、FFTの実現のためには通常
は2の羃でなければならない。ここで考えている例ではそれは256である。
To match each pitch harmonic to an integer sample of the adjusted signal, the integer p is
The factor of the dimension N of the signal window generated by the module 10 must be: N = αp. Here, α is an integer. This dimension N must normally be a power of two for the realization of the FFT. In the example considered here, it is 256.

【0139】 調整された信号の個別フーリエ変換のスペクトル分解能Δfは式Δf=p・f p /N=fp/αにより与えられる。したがって、pを小さくし、αを最小にする
ことが有利であるが、過標本化を行うためには十分委大きくする。Fe=8kH zおよびN=256である、ここで考えている例では、パラメータpとαのため
に選択された値が表1に示されている。
The spectral resolution Δf of the individual Fourier transform of the adjusted signal is given by the following equation: Δf = pf p / N = fp/ Α. Therefore, reduce p and minimize α
It is advantageous, but large enough for oversampling. Fe= 8 kHz and N = 256, in the example considered here for the parameters p and α
Table 1 shows the values selected.

【0140】[0140]

【数89】 調波解析モジュール57により供給された遅延Tpの値に従って選択がモジュ ール70により行われる。モジュール70は標本化周波数の間の比Kを3つの周
波数変化器モジュール71、72、73に供給する。
[Equation 89] Selected according to the value of the delay T p supplied is performed by the module 70 by harmonic analysis module 57. Module 70 supplies the ratio K between the sampling frequencies to the three frequency changer modules 71,72,73.

【0141】 モジュール71は、モジュール12により定められた帯域iに関連する値Sn, iThe module 71 has a value S n, i associated with the band i defined by the module 12,

【0142】[0142]

【数90】 、α′n,i[Equation 90] , Α ′ n, i ,

【0143】[0143]

【数91】 およびH1 n,fを、修正された周波数尺度に変換する(標本化周波数fe)。この 変換は帯域iを係数Kにより単に拡張するだけである。変換された値は調波保護
モジュール56に供給される。
[Equation 91] And H 1 n, f are converted to a modified frequency scale (sampling frequency f e ). This transform simply extends band i by a factor K. The converted value is supplied to the harmonic protection module 56.

【0144】 その後で、後者のモジュールは前と同様に動作してノイズ抑制フィルタの周波
数応答H2 n,fを供給する。この応答H2 n,fは図1におけるものと同様にして(条
件(8)と(9))得られる。ただし、条件(9)では、ピッチ周波数fp=fe /pが、モジュール70により供給される整数遅延pの値に従って定められるこ
とを除く。モジュール70は周波数分解能Δfも供給する。
Thereafter, the latter module operates as before and supplies the frequency response H 2 n, f of the noise suppression filter. This response H 2 n, f is obtained in the same manner as in FIG. 1 (conditions (8) and (9)). However, the condition (9), except that the pitch frequency f p = f e / p is determined according to the value of the integer delay p supplied by the module 70. Module 70 also provides frequency resolution Δf.

【0145】 モジュール72は、ウィンドウ化モジュール10により供給されたN個の標本
のフレームを過標本化する。有理係数K(K=K1/K2)による過標本化は、
最初に整数係数K1により過標本化することと、その後で整数係数K2により過
小標本化することで構成されている。整数係数によるこの過標本化と過小標本化
は、多相フィルタのバンクにより従来のやり方で行うことができる。
Module 72 oversamples the frame of N samples provided by windowing module 10. Oversampling by rational coefficient K (K = K1 / K2)
First, oversampling is performed using the integer coefficient K1, and then undersampling is performed using the integer coefficient K2. This oversampling and undersampling by integer coefficients can be performed in a conventional manner by a bank of polyphase filters.

【0146】 モジュール72により供給された調整された信号フレームs′は周波数feの 標本をKN個含む。それらの標本は、それらの標本のフーリエ変換を計算するモ
ジュール75へ送られる。変換はN=256個の標本の2つのブロックを基にし
て行うことができる。1つのブロックは調整された信号s′の長さKNのフレー
ムの初めのN個の標本により構成され、他のブロックはそのフレームの後のN個
の標本により構成されている。したがって、2つのブロックは(2−K)×10
0%の重畳を有する。2つのブロックのおのおのに対して、フーリエ成分Sn,f のセットが得られる。成分Sn,fは掛算器58に供給される。その掛算器はそれ らの成分にスペクトル応答H2 n,fを乗じて、最初のノイズが抑制された信号のス
ペクトル成分S2 n,fを供給する。
The conditioned signal frame s ′ provided by the module 72 contains KN samples at frequency f e . The samples are sent to a module 75 that calculates the Fourier transform of the samples. The transformation can be performed based on two blocks of N = 256 samples. One block consists of the first N samples of a frame of length KN of the adjusted signal s', and the other block consists of the N samples after the frame. Therefore, the two blocks are (2-K) × 10
It has 0% overlap. A set of Fourier components S n, f is obtained for each of the two blocks. The component Sn , f is supplied to the multiplier 58. The multiplier multiplies those components by the spectral response H 2 n, f to provide the first noise suppressed signal spectral component S 2 n, f .

【0147】 成分S2 n,fは、先に示したやり方でマスキングカーブを計算するモジュール6
0へ送られる。
The component S 2 n, f is a module 6 for calculating a masking curve in the manner described above.
Sent to 0.

【0148】 マスキングカーブを計算すると、スピーチ信号の有声度を示す大きさχ(式(
13))は形χ=1−Hでとられることが好ましい。ここにHはノイズが抑制さ
れた調整された信号のスペクトル成分S2 n,fの自己相関のエントロピーである。
自己相関A(k)は、たとえば、式
When the masking curve is calculated, the magnitude indicating the voicedness of the speech signal χ (formula (
13)) preferably takes the form χ = 1-H. Here, H is the entropy of the autocorrelation of the spectral component S 2 n, f of the adjusted signal in which noise has been suppressed.
The autocorrelation A (k) is, for example,

【0149】[0149]

【数92】 を用いてモジュール76により計算される。(Equation 92) Calculated by the module 76 using

【0150】 その後でモジュール77が正規化されたエントロピーHを計算して、マスキン
グカーブを計算するためのモジュール60にそれを供給する(S.A.McCl
ellan他:「スペクトル・エントロピー:レート割り当てのための代わりの
標識?(Spectral Entropy:an Alternative Indicator for Rate Allocation?)」)、Pr
oc.ICASSP′94、201〜204ページ参照)。
The module 77 then calculates the normalized entropy H and supplies it to the module 60 for calculating the masking curve (SA McCl
Ellan et al .: "Spectral Entropy: An Alternative Indicator for Rate Allocation?", Pr
oc. ICASP'94, pages 201-204).

【0151】[0151]

【数93】 信号の調整と、フィルタH2 n,fによるノイズ抑制とのために、正規化されたエ
ントロピーHは、ノイズとピッチの変化とに対して非常に強い有声化の測定値を
構成する。
[Equation 93] Due to the signal conditioning and the noise suppression by the filter H 2 n, f , the normalized entropy H constitutes a very voicing measure against noise and pitch changes.

【0152】 修正モジュール62は図1に示されている装置と同じようにして動作して、周
波数変化器モジュール71によって再スケールされた過推定されたノイズ
The correction module 62 operates in the same way as the device shown in FIG. 1, and the over-estimated noise rescaled by the frequency changer module 71.

【0153】[0153]

【数94】 を許容する。それは最後のノイズ抑制フィルタ周波数応答H3 n,fを供給する。そ
れに、モジュール64により調整された信号のスペクトル成分Sn,fが乗ぜられ る。その結果の成分S3 n,fがIFFTモジュール65により処理されて時間領域
へ戻される。IFFTモジュール65の出力端子におけるモジュール80が、F
FT75によって供給された重なり会っている2つのブロックの処理の結果とし
ての2つの信号ブロックを、各フレームに対して、組合わせる。この組合わせは
、KN個の標本のノイズが抑制されて調整された信号フレームを形成するために
、標本のハミング重み付けされた和で構成できる。
[Equation 94] Tolerate. It provides the last noise suppression filter frequency response H 3 n, f . It is multiplied by the spectral component S n, f of the signal conditioned by module 64. The resulting component S 3 n, f is processed by the IFFT module 65 and returned to the time domain. The module 80 at the output terminal of the IFFT module 65
The two signal blocks resulting from the processing of the two overlapping blocks supplied by the FT 75 are combined for each frame. This combination can be comprised of a Hamming weighted sum of the samples to form a tuned signal frame with suppressed noise for the KN samples.

【0154】 モジュール73は、モジュール80により供給されたノイズが抑制されて調整
された信号の標本化周波数を変更する。標本化周波数は、モジュール75により
行われる動作とは逆である動作によってFe=fe/Kへ戻される。モジュール7
3はフレームごとにN=256個の標本を供給する。先行するフレームの後のN
/2=128個の標本を用いる重畳加算再構成の後で、現在のフレームの初めの
N/2=128個の標本のみが最後に保持されて、最後のノイズが抑制された信
号s3を形成する(モジュール66)。
The module 73 changes the sampling frequency of the adjusted signal in which the noise supplied by the module 80 is suppressed. The sampling frequency is returned to F e = f e / K by an operation that is the reverse of the operation performed by module 75. Module 7
3 provides N = 256 samples per frame. N after preceding frame
/ 2 = after 128 superimposed addition reconstitution with specimens, only N / 2 = 128 samples at the beginning of the current frame is the last being held, the last signal s 3 which noise is suppressed Form (module 66).

【0155】 好適な実施形態では、モジュール10により形成されて、モジュール66によ
り保持されていたウィンドウをモジュール82が管理して、Tp=Fe/fpの整 数倍に等しい数Mの標本を保持する。これはフレームの間の位相不連続の問題を
避ける。対応するやり方で、現在のフレームと次のフレームとの間の重なり合い
がN−Mに一致するように、管理モジュール82がウィンドウ化モジュール10
を制御する。このN−M個の標本の重なり合いは、次のフレームを処理する時に
モジュール66により行われる重畳加算動作において考慮に入れられる。調波解
析モジュール57により供給されたTpの値からモジュール82は、保持すべき 標本の数M=Tp×E[N/(2Tp)]、E[]は整数部を示す、を計算し、そ
れに従ってモジュール10と66を制御する。
[0155] In a preferred embodiment, is formed by the module 10, the window that has been held by the module 66 and module 82 are managed, the T p = F e / f number equal to an integral multiple of p M samples Hold. This avoids the problem of phase discontinuities between frames. In a corresponding manner, the management module 82 sets the windowing module 10 so that the overlap between the current frame and the next frame corresponds to NM.
Control. This overlap of the NM samples is taken into account in the superposition and addition operation performed by module 66 when processing the next frame. From the value of T p supplied by the harmonic analysis module 57, the module 82 calculates the number of samples to be retained, M = T p × E [N / (2T p )], where E [] indicates the integer part. And controls the modules 10 and 66 accordingly.

【0156】 今説明した実施形態では、ピッチ周波数はフレームにわたる平均として推定さ
れる。ピッチはこの持続時間にわたって僅かに変化できる。人工的な手段により
フレーム中に一定のピッチを得るために、本発明の文脈では、それらの変化を許
容することが可能である。
In the embodiment just described, the pitch frequency is estimated as an average over the frame. The pitch can change slightly over this duration. In order to obtain a constant pitch in the frame by artificial means, it is possible in the context of the present invention to allow those variations.

【0157】 これは、調波解析モジュール57が、フレームの持続時間中に起きる話者の声
紋閉鎖に起因できるスピーチ信号の連続する切れ目の間に時間間隔を供給するこ
とを要求する。そのような短い切れ目を検出するために使用できる方法はスピー
チ信号の調波解析技術において周知である。これに関連して、次の論文を参照で
きる。M.BASSEVILLE他、「デジタル信号のスペクトル特性の急変の
順次検出(Sequential detection of abruptc
hanges in spectral characteristicsof
digital signals)」、情報理論についてのIEEE Tra
ns.、1983、Vpl.IT−29、No.5,708〜723ページ;R
.ANDRE−OBRECHT、「連続スピーチ信号の自動区分化のための新し
い統計的取組み(A new approach for the autom
atic segmentation of continuous spee
ch signals)」、IEEE Trans.on Acous.,Sp
eech ad Sig.Proc.Vol.36、No.January19
88;C.MURGIA他、「スピーチ信号の急変の順次検出を用いる声門閉鎖
時の推定のためのアルゴリズム(An algoloithm for the
estimation of glottal closure insta
nt using the sequential detectionof
abrupt change in speech signals)、Sig
nal Processing VII,1994,1685〜1688ページ
This requires that the harmonic analysis module 57 provide a time interval between successive breaks in the speech signal that can be due to the speaker's voiceprint closure occurring during the duration of the frame. Methods that can be used to detect such short breaks are well known in the art of harmonic analysis of speech signals. In this connection, the following paper can be referenced: M. BASSEVILLE et al., "Sequential detection of abstraction of sudden changes in the spectral characteristics of digital signals."
changes in spectral characteristicsof
digital signals), IEEE Tra about Information Theory
ns. 1983, Vpl. IT-29, No. 5,708-723; R
. ANDRE-OBRECHT, "New statistical approach for automatic segmentation of continuous speech signals (A new approach for the atom)
atic segmentation of continuous speed
ch signals), IEEE Trans. on Acous. , Sp
ech ad Sig. Proc. Vol. 36, no. January 19
88; MURGIA et al., “An algorithm for glottal closure estimation using sequential detection of sudden changes in speech signals (An algorithm for the same).
Estimation of total closure insta
nt using the sequential detectionof
abrupt change in speech signals), Sig
nal Processing VII, 1994, pages 1685-1688.

【0158】 上記方法の原理は短時間モデルと長時間モデルとの間の統計的試験を行うこと
である。両方のモデルは適応直線予測モデルである。統計的試験の値wmはクル
バック発散(Kullback divergence)により修正された、2
つの分布の帰納的可能性比の累積的和である。ガウス統計を持つ剰余の分布のた
めに、値wm
The principle of the above method is to perform a statistical test between the short-term model and the long-term model. Both models are adaptive linear prediction models. Statistical test values wm were corrected by Kullback divergence, 2
It is the cumulative sum of the recursive likelihood ratios of two distributions. For a distribution of residues with Gaussian statistics, the value w m is

【0159】[0159]

【数95】 によって与えられる。ここにe0 mとσ2 0はフレームの標本mおよび長時間モデル
の変化の時に計算された剰余を表し、e1 mとσ2 1は短時間モデルの剰余と変化を
同様に表す。2つのモデルが接近するほど、統計試験値wmは0に近付く。対照 的に、2つのモデルが相互に離れるとすると、値wmは負になる。それは信号中 の切れ目Rを示す。
[Equation 95] Given by Here e 0 m and sigma 2 0 represents the remainder calculated when the change of the sample m and long model frame, e 1 m and sigma 2 1 likewise represents a change remainder short model. The closer the two models are, the closer the statistical test value w m approaches zero. In contrast, the two models is to away from each other, the value w m is negative. It indicates a break R in the signal.

【0160】 したがって、図10は値wmの展開(evolution)の1つの可能な例 を示すものであって、スピーチ信号中の切れ目Rを示すものである。2つの引き
続く切れ目Rの間の時間間隔tr(r=1,2,等)が計算され、スピーチ信号 の標本の例の数として表されている。各間隔trはピッチ周波数fpに逆比例する
。したがって、それは局部的に推定される:r番目の間隔におけるfp=Fe/t r
Accordingly, FIG.mFig. 3 shows one possible example of the evolution of the, and shows a break R in the speech signal. Two pulls
Time interval t between successive breaks Rr(R = 1, 2, etc.) is calculated and expressed as the number of sample samples of the speech signal. Each interval trIs the pitch frequency fpInversely proportional to
. Therefore, it is estimated locally: f at r-th intervalp= Fe/ T r .

【0161】 そうすると、各解析フレームにおいて一定ピッチ周波数を得るために、ピッチ
の時間変化(すなわち、間隔trが所与のフレームにおいて必ずしも全て等しく ないという事実)、を修正できる。この修正は、標本化周波数を各間隔trにわ たって修正することにより行われて、過標本化の後の2つの声門閉鎖の間に一定
の間隔を得る。したがって、2つの切れ目の間の持続時間は、最大の間隔にロッ
クするように、可変比で過標本化することにより修正される。また、過標本化周
波数が推定されたピッチ周波数の倍数であるようにされるような調整制約が満た
される。
[0161] The time variation of the pitch (ie, the fact that the intervals tr are not always all equal in a given frame) can then be corrected in order to obtain a constant pitch frequency in each analysis frame. This modification, the sampling frequency is performed by modifying standing each interval t r yard, obtain a constant distance between two glottal closure after oversampling. Therefore, the duration between two breaks is modified by oversampling at a variable ratio to lock to the maximum interval. Also, adjustment constraints are satisfied such that the oversampling frequency is a multiple of the estimated pitch frequency.

【0162】 図11は後者の場合に信号の調整を行うために用いられる手段を示す。調波解
析モジュール57が上記解析法を用い、モジュール10により発生された信号フ
レームに関連する間隔trを供給する。それらの各間隔に対して、モジュール7 0(図11のブロック90)は過標本化比Kr=pr/trを計算する。ここに、 整数prは、trが表1の第2の欄に示されている値を取るならば、表1の第3の
欄により与えられる。それらの過標本化比Krは、対応する時間間隔trにわたっ
て標本化比Krで補間が行われるように、周波数変化器モジュール72と73に 供給される。
FIG. 11 shows the means used to adjust the signal in the latter case. Supplying interval t r of harmonic analysis module 57 using the above analysis, associated with the signal frame generated by the module 10. For each of those intervals, module 70 (block 90 of FIG. 11) calculates the oversampling ratio K r = p r / t r . Here, the integer p r, if takes a value t r is shown in the second column of Table 1 are given by the third column of Table 1. These oversampling ratio K r, as interpolated by the sampling ratio K r is performed over the corresponding time interval t r, it is supplied to a frequency changer module 72 and 73.

【0163】 フレームに対してモジュール57により供給される時間間隔trの最長の時間 間隔Tpは、表1に示されているように対p、αを得るためにモジュール70に より選択される(図11のブロック91)。そうすると修正された標本化周波数
は前のようにfe=p・Fe/Tpである。調整された信号の個別フーリエ変換の スペクトル分解能ΔfはΔf=Fe/(α・Tp)によりいぜんとして与えられる
。周波数変化器モジュール71に対して、過標本化比KはK=p/Tpにより与 えられる(ブロック92)。ピッチ調波を保護するためのモジュール56は、条
件(9)に対して、ブロック91により供給されたスペクトル分解能Δfと、ブ
ロック91により供給された整数遅延pの値に従って定められたピッチ周波数f p =fe/pとを用いて、前と同じようにして動作する。
The time interval t supplied by the module 57 for the framerLongest time interval TpIs selected by the module 70 to obtain the pair p, α as shown in Table 1 (block 91 in FIG. 11). Then the modified sampling frequency
Is f as beforee= PFe/ TpIt is. The spectral resolution Δf of the individual Fourier transform of the adjusted signal is Δf = Fe/ (Α ・ Tp) Is still given by
. For the frequency changer module 71, the oversampling ratio K is K = p / Tp(Block 92). Module 56 for protecting pitch harmonics is
For case (9), the spectral resolution Δf provided by block 91 and the
Pitch frequency f determined according to the value of integer delay p supplied by lock 91 p = FeIt operates as before using / p.

【0164】 本発明のこの実施形態はウィンドウ管理モジュール82の適用も含むものであ
る。現在のフレームにわたって保持すべき、ノイズが抑制された信号の標本の数
Mはここでは、2つの声門閉鎖の間の引き続く時間間隔trの整数に一致する( ブロック10)。これはフレームの間の位相不連続の諸問題を避け、しかもフレ
ームにわたる時間間隔trの起こり得る変化を許容する。
This embodiment of the present invention also includes the application of the window management module 82. To be held over the current frame, in this case the number M of samples of the signal which the noise is suppressed, subsequent matching integer time interval t r between two glottal closure (block 10). This avoids the phase discontinuity problems between frames, yet allowing the possible changes in the time interval t r over the frame.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明を実現するノイズ抑制装置のブロック図である。FIG. 1 is a block diagram of a noise suppression device that realizes the present invention.

【図2】 図1に示されている装置の有声活動検出器により用いられる手順の流れ図であ
る。
FIG. 2 is a flow chart of a procedure used by the voiced activity detector of the device shown in FIG.

【図3】 図1に示されている装置の有声活動検出器により用いられる手順の流れ図であ
る。
FIG. 3 is a flow chart of a procedure used by the voiced activity detector of the device shown in FIG.

【図4】 有声活動検出オートマトンの状態を表す図である。FIG. 4 is a diagram illustrating a state of a voiced activity detection automaton.

【図5】 有声活動度における変動を示すグラフである。FIG. 5 is a graph showing a change in voiced activity.

【図6】 図1に示されている装置のノイズを過推定するモジュールのブロック図である
FIG. 6 is a block diagram of a module for overestimating noise of the apparatus shown in FIG. 1;

【図7】 マスキングカーブの計算を示すグラフである。FIG. 7 is a graph showing calculation of a masking curve.

【図8】 図1に示されている装置におけるマスキングカーブの使用を示すグラフである
FIG. 8 is a graph showing the use of a masking curve in the device shown in FIG.

【図9】 本発明を実現する他のノイズ抑制装置のブロック図である。FIG. 9 is a block diagram of another noise suppression device which realizes the present invention.

【図10】 本発明の方法で使用できる調波解析法を示すグラフである。FIG. 10 is a graph showing a harmonic analysis method that can be used in the method of the present invention.

【図11】 図9に示されているブロック図の変形の一部を示す。FIG. 11 shows a part of a modification of the block diagram shown in FIG. 9;

【手続補正書】特許協力条約第34条補正の翻訳文提出書[Procedural Amendment] Submission of translation of Article 34 Amendment of the Patent Cooperation Treaty

【提出日】平成12年3月21日(2000.3.21)[Submission date] March 21, 2000 (2000.3.21)

【手続補正1】[Procedure amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】請求項5[Correction target item name] Claim 5

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【手続補正2】[Procedure amendment 2]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】請求項22[Correction target item name] Claim 22

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【数3】 は、前記ノイズの前記スペクトル成分の長時間推定量Is the long term estimator of the spectral component of the noise

【数4】 と、前記ノイズの長時間推定量についての前記ノイズの前記スペクトル成分の可
変性の測定値(ΔBmax n,i)とを組合わせることによって得られる請求項1ない
し21のいずれか1項に記載の方法。
22. A method as claimed in claim 1, obtained by combining ## EQU4 ## with a measure (ΔB max n, i ) of the variability of the spectral component of the noise for a long-term estimate of the noise. Item 2. The method according to item 1.

【手続補正書】[Procedure amendment]

【提出日】平成12年9月13日(2000.9.13)[Submission date] September 13, 2000 (2000.9.13)

【手続補正1】[Procedure amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】請求項1[Correction target item name] Claim 1

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【手続補正2】[Procedure amendment 2]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】請求項21[Correction target item name] Claim 21

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【数1】 と推定されたピッチ周波数(fp)を含むパラメータに依存しているそれぞれの
第1の量を、前記フレーム内の前記スピーチ信号の各スペクトル成分(Sn,f) から差し引いてノイズが抑制された第1の信号のスペクトル成分(S2 n,f )を 得る第1の差し引きステップと、 −ノイズが抑制された前記第1の信号のスペクトル成分(S2 n,f )を基にし て聴覚モデルを適用することによりマスキングカーブ(Mn,q)を計算するステ ップと、 −前記フレームに対するノイズの対応するスペクトル成分の過大推定量
(Equation 1) Each of the first quantities depending on parameters including the estimated pitch frequency (fp) is subtracted from each spectral component (S n, f ) of the speech signal in the frame to reduce noise. A first subtraction step for obtaining a spectral component (S 2 n, f ) of the first signal; and an auditory model based on the spectral component (S 2 n, f ) of the first signal in which noise is suppressed. Calculating the masking curve (M n, q ) by applying the following:-an overestimate of the corresponding spectral component of the noise for the frame

【数2】 を計算された前記マスキングカーブ(Mn,q)と比較するステップと、 −前記対応する第1の量と、前記マスキングカーブの上である前記ノイズの前
記対応するスペクトル成分の前記過大見積もり一部とのいずれか小さい方に等し
いそれぞれの第2の量を、前記スピーチ信号のスペクトル成分(Sn,f)から差 し引いてノイズが抑制された第2の信号のスペクトル成分(S3 n,f)を得る第
2の差し引きステップと、 を含む請求項1ないし20のいずれか1項に記載の方法。
(Equation 2) Comparing with the calculated masking curve (M n, q ); the corresponding first quantity and the overestimated part of the corresponding spectral component of the noise above the masking curve Is subtracted from the spectral component (S n, f ) of the speech signal to obtain the spectral component (S 3 n ) of the noise-suppressed second signal. 21. A method as claimed in any one of claims 1 to 20, comprising: a second subtraction step to obtain f ).

【手続補正3】[Procedure amendment 3]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】請求項22[Correction target item name] Claim 22

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【数3】 は、前記ノイズの前記スペクトル成分の長時間推定量(Equation 3) Is a long-term estimator of the spectral component of the noise

【数4】 と、前記ノイズの長時間推定量についての前記ノイズの前記スペクトル成分の可
変性の測定値(ΔBmax n,i)とを組合わせることによって得られる請求項1ない
し21のいずれか1項に記載の方法。
(Equation 4) 22. A method as claimed in any preceding claim, obtained by combining a measure of the variability of the spectral component of the noise (ΔB max n, i ) for a long term estimator of the noise. the method of.

【手続補正4】[Procedure amendment 4]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】請求項26[Correction target item name] Claim 26

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【数5】 を計算し、かつ前記長時間推定量を、フレームについて計算された前記エネルギ
ーの瞬時推定量(En,i)と比較して周波数帯域i内の前記フレームnについて の前記スピーチ信号の音声活動度(γn,i)を得る請求項24または25記載の 方法。
(Equation 5) And comparing the long-term estimator with the instantaneous estimator of the energy (E n, i ) calculated for the frame, the speech activity of the speech signal for the frame n in frequency band i The method according to claim 24 or 25, wherein (γ n, i ) is obtained.

【手続補正5】[Procedure amendment 5]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】請求項29[Correction target item name] Claim 29

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【手続補正6】[Procedure amendment 6]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】請求項30[Correction target item name] Claim 30

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【手続補正7】[Procedure amendment 7]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0009[Correction target item name] 0009

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0009】[0009]

【課題を解決するための手段】 したがって、本発明は、 −内部での音声活動を特徴とする各フレーム内のスピーチ信号のピッチ周波数
を推定するためにスピーチ信号の調波解析を行い、 各フレームごとにスピーチ信号のスペクトル成分を計算し、 スピーチ信号に含まれているノイズのスペクトル成分の推定量を各フレームご
とに計算し、 フレーム中のスピーチ信号の各スペクトル成分から、前記フレームについての
ノイズの対応するスペクトル成分の推定量と、推定されたピッチ周波数の値とを
少なくとも含むパラメータに依存するそれぞれの量を差し引く少なくとも1つの
ステップを含めて、スペクトル差し引きを行う、 引き続くフレームによって処理されるデジタルスピーチ信号中のノイズを抑制
する方法を提案するものである。 スペクトル差し引きの結果は時間領域へ変換され、ノイズが抑制されたスピー チ信号を構成する。
SUMMARY OF THE INVENTION Accordingly, the present invention provides: a harmonic analysis of a speech signal to estimate a pitch frequency of the speech signal in each frame characterized by internal speech activity; Calculate the spectral component of the speech signal for each frame, calculate the estimated amount of the spectral component of the noise contained in the speech signal for each frame, and calculate the noise component for the frame from each spectral component of the speech signal in the frame the estimated amount of the corresponding spectral component and the value of the estimated pitch frequency, including at least one step subtracting the amount of each depending on at least comprises parameters, cormorants line spectral subtraction, It proposes a method of suppressing noise in digital speech signals processed by successive frames. Results of the spectral subtraction is transformed to the time domain to form a Speech signal noise is suppressed.

───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SZ,UG,ZW),EA(AM ,AZ,BY,KG,KZ,MD,RU,TJ,TM) ,AL,AM,AT,AU,AZ,BA,BB,BG, BR,BY,CA,CH,CN,CU,CZ,DE,D K,EE,ES,FI,GB,GE,GH,GM,HR ,HU,ID,IL,IS,JP,KE,KG,KP, KR,KZ,LC,LK,LR,LS,LT,LU,L V,MD,MG,MK,MN,MW,MX,NO,NZ ,PL,PT,RO,RU,SD,SE,SG,SI, SK,SL,TJ,TM,TR,TT,UA,UG,U S,UZ,VN,YU,ZW Fターム(参考) 5D015 CC03 CC14 EE05 FF03 5K046 AA05 HH11 ──────────────────────────────────────────────────続 き Continuation of front page (81) Designated country EP (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE ), OA (BF, BJ, CF, CG, CI, CM, GA, GN, GW, ML, MR, NE, SN, TD, TG), AP (GH, GM, KE, LS, MW, SD, SZ, UG, ZW), EA (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM), AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, CA, CH, CN, CU, CZ, DE, DK, EE, ES, FI, GB, GE, GH, GM, HR, HU, ID, IL, IS, JP, KE, KG, KP , KR, KZ, LC, LK, LR, LS, LT, LU, LV, MD, MG, MK, MN, MW, MX, NO, NZ, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, UA, UG, US, UZ, VN, YU, ZWF terms (reference) 5D015 CC03 CC14 EE05 FF03 5K046 AA05 HH11

Claims (28)

【特許請求の範囲】[Claims] 【請求項1】 内部での音声活動を特徴とする各フレーム内の前記スピーチ
信号のピッチ周波数(fp)を推定するために前記スピーチ信号の調波解析を行 うステップと、 各フレームごとに前記スピーチ信号のスペクトル成分(Sn,f、Sn,i)を計算
するステップと、 前記スピーチ信号に含まれているノイズのスペクトル成分の計算値を、各フレ
ームごとに、計算するステップと、 前記フレーム(Sn,f)中の前記スピーチ信号の各スペクトル成分から、前記 フレームについてのノイズの対応する前記スペクトル成分の推定量と、推定され
た前記ピッチ周波数の値とを少なくとも含むパラメータに依存するそれぞれの量
を差し引く少なくとも1つのステップを含めたスペクトル差し引きを実行するス
テップと、 前記スペクトル差し引きの結果に時間領域への変換を適用してノイズが抑制さ
れたスピーチ信号(s3)を構成するステップと、 を備える、引き続くフレームによって処理されるデジタルスピーチ信号(s)中
のノイズを抑制する方法。
And 1. A row cormorants step harmonic analysis of the speech signal to estimate a pitch frequency (f p) of the speech signal in each frame, wherein the voice activity inside, for each frame Calculating the spectral components (S n, f , S n, i ) of the speech signal; and calculating, for each frame, the calculated value of the spectral component of the noise included in the speech signal; From each spectral component of the speech signal in the frame (S n, f ), it depends on parameters including at least the estimated amount of the corresponding spectral component of noise for the frame and the estimated value of the pitch frequency. Performing a spectral subtraction that includes at least one step of subtracting the respective amounts to be subtracted; Constructing a noise-suppressed speech signal (s 3 ) by applying a time-domain transformation to the result, comprising: a method for suppressing noise in a digital speech signal (s) processed by a subsequent frame. .
【請求項2】 前記スピーチ信号のスペクトル成分がそのために計算される
ような周波数の集合から保護される周波数を選択するために、推定された前記ピ
ッチ周波数(fp)を用い、前記スピーチ信号の所与のスペクトル成分(Sn,f
からの差し引きのために、前記スペクトル成分が保護される周波数に対応するの
であれば、前記スペクトル成分が保護される周波数に対応しない場合に採用する
量よりも少ない量を採用する請求項1記載の方法。
2. Using the estimated pitch frequency (f p ) to select a frequency to be protected from the set of frequencies for which the spectral components of the speech signal are calculated, Given spectral component (S n, f )
2. The method according to claim 1, wherein if the spectral component corresponds to a protected frequency, a smaller amount is used than the amount used when the spectral component does not correspond to a protected frequency. Method.
【請求項3】 保護される各前記周波数に対応する前記スピーチ信号の前記
スペクトル成分が、ノイズの対応するスペクトル成分の対応する推定量から決定
されたノイズレベルを超えるように、保護される前記周波数を選択する請求項2
記載の方法。
3. The frequency to be protected such that the spectral components of the speech signal corresponding to each of the protected frequencies exceed a noise level determined from a corresponding estimator of a corresponding spectral component of noise. Claim 2 for selecting
The described method.
【請求項4】 それのために前記スピーチ信号のスペクトル成分が計算され
るような周波数の前記集合内で、保護される各周波数は推定された前記ピッチ周
波数(fp)の整数倍に最も近いものである請求項2または3記載の方法。
4. Within the set of frequencies for which the spectral content of the speech signal is calculated, each protected frequency is closest to an integer multiple of the estimated pitch frequency (f p ). A method according to claim 2 or 3, wherein
【請求項5】 それのために前記スピーチ信号のスペクトル成分が計算され
るような周波数の集合内で、保護される各周波数は[η×fp−η×δfp/2、
η×fp+η×δfp/2]の形の範囲の周波数に最も近く、fpは推定された前 記ピッチ周波数の周波数分解能を示し、ηは整数を示し、および 請求項2また
は3記載の方法。
Wherein said speech signal in the set of frequencies as the spectral components are calculated in for it, each frequency to be protected [η × f p -η × δf p / 2,
closest to the frequency of the form in the range of η × f p + η × δf p / 2], f p represents the frequency resolution of the previous SL pitch frequency estimated, eta is an integer, and claim 2 or 3, wherein the method of.
【請求項6】 保護される周波数における前記スピーチ信号の前記スペクト
ル成分(Sn,f)から差し引かれる前記量はほぼ零である請求項2ないし5のい ずれか1項に記載の方法。
6. The method according to claim 2, wherein the amount subtracted from the spectral component (S n, f ) of the speech signal at the protected frequency is substantially zero.
【請求項7】 フレーム内の前記スピーチ信号の前記ピッチ周波数(fp) を推定した後で、前記フレームの前記スピーチ信号を、前記推定された周波数の
倍数であるる過標本化周波数(fe)でそれを過標本化することにより調整し、 前記フレーム内の前記スピーチ信号の前記スペクトル成分(Sn,f)を、前記調 整された信号(s′)を基にして計算して前記量をそれから差し引く請求項1な
いし6のいずれか1項に記載の方法。
7. After estimating the pitch frequency (f p ) of the speech signal in a frame, the speech signal of the frame is converted to an oversampling frequency (f e ) that is a multiple of the estimated frequency. ) By oversampling it and calculating the spectral component (S n, f ) of the speech signal in the frame based on the conditioned signal (s ′) 7. The method according to claim 1, wherein the amount is subtracted therefrom.
【請求項8】 前記調整された信号(s′)を、周波数領域変換されたN個
の標本のブロックに分布させることによって前記スピーチ信号のスペクトル成分
(Sn,f)を計算し、過標本化周波数(fe)と推定されたピッチ周波数との間の
比(p)は数Nの因数である請求項7記載の方法。
8. Spectral components (S n, f ) of the speech signal are calculated by distributing the adjusted signal (s ′) into a block of N samples subjected to frequency domain transformation, and The method according to claim 7, wherein the ratio (p) between the normalized frequency (f e ) and the estimated pitch frequency is a factor of the number N.
【請求項9】 前記スピーチ信号の有声度(χ)を、調整された信号を基に
して計算された前記スペクトル成分の自己相関のエントロピー(H)の計算を基
にして、前記フレームに対して推定する請求項7または8記載の方法。
9. The voicedness (度) of the speech signal is calculated for the frame based on a calculation of the entropy (H) of the autocorrelation of the spectral components calculated based on the adjusted signal. The method according to claim 7 or 8, wherein the estimation is performed.
【請求項10】 それの自己相関(H)が計算される前記スペクトル成分(
2 n,f)を、前記量の差し引きの後の前記調整された信号(s′)を基にして計
算する請求項9記載の方法。
10. The spectral component whose autocorrelation (H) is calculated.
S 2 n, f) the method of claim 9, wherein calculating by the basis of the adjusted signal (s') after the amount of subtraction.
【請求項11】 前記有声度(χ)を、 【数1】 の形の正規化されたエントロピーHを基にして計算し、 ここに、Nは前記調整された信号(s′)を基にして前記スペクトル成分(S n,f )を計算するために用いられる標本の数、A(k)は、 【数2】 により定められる正規化された自己相関、S2 n,fは前記調整された信号を基にし
て計算された階層fの前記スペクトル成分を示す請求項9または10記載の方法
11. The voicing degree (χ) is given by:Where N is the spectral component (S) based on the adjusted signal (s'). n, f ) Is used to calculate the number of samples, A (k),Normalized autocorrelation defined byTwo n, fIs based on the adjusted signal
11. The method according to claim 9 or 10, which shows the spectral components of the hierarchy f calculated by means of:
.
【請求項12】 各フレームの処理の後で、前記処理によって供給されるノ
イズが抑制されたスピーチ信号の標本のうちで、前記標本化周波数(Fe)と推 定された前記ピッチ周波数(fp)との間の比(Tp)の整数倍に等しい標本の数
(M)を保持するステップを備える請求項1ないし11のいずれか1項に記載の
方法。
12. After the processing of each frame, the pitch frequency (f) estimated as the sampling frequency (F e ) among the noise-suppressed speech signal samples supplied by the processing. the method according to any one of claims 1 to 11 comprising the step of holding the number (M) of equal specimen to an integer multiple of the ratio (T p) between p).
【請求項13】 フレーム中のスピーチ信号のピッチ周波数の推定が、 −フレーム中の話者の声門閉鎖に起因できる信号の連続する2つの切れ目(R
)の間の時間間隔(tr)を推定し、それによって前記推定されたピッチ周波数 が前記時間間隔に逆比例するステップと、 −前記スピーチ信号を前記時間間隔内に内挿して、その内挿の結果としての前
記調整された信号(s′)が連続する2つの切れ目の間に一定の時間間隔を持つ
ようにするステップと、 を備える請求項1ないし11のいずれか1項に記載の方法。
13. The estimation of the pitch frequency of the speech signal in a frame comprises:-two consecutive breaks (R) of the signal which can be attributed to the glottal closure of the speaker in the frame.
Estimating the time interval (t r ) during which the estimated pitch frequency is inversely proportional to the time interval; and interpolating the speech signal into the time interval and interpolating the same. 12. A method as claimed in any one of the preceding claims, wherein the adjusted signal (s') as a result of has a fixed time interval between two consecutive breaks. .
【請求項14】 各フレームの処理の後で、前記処理によって供給されるノ
イズが抑制されたスピーチ信号の標本のうちで、推定された時間間隔(tr)に 対応する標本の数(M)を保持するステップを備える請求項13記載の方法。
14. After the processing of each frame, the number (M) of samples of the noise-suppressed speech signal supplied by said processing corresponding to the estimated time interval (t r ) 14. The method of claim 13, comprising the step of:
【請求項15】 各フレーム内の前記スピーチ信号の信号対ノイズ比をスペ
クトル領域内で推定し、差し引きされる前記量が依存する前記パラメータが推定
された前記信号対ノイズ比を含み、前記フレームにわたって前記スピーチ信号の
各スペクトル成分から差し引かれる前記量は対応する推定された前記信号対ノイ
ズ比の減関数である請求項1ないし14のいずれか1項に記載の方法。
15. The signal-to-noise ratio of the speech signal in each frame is estimated in the spectral domain and the parameter on which the amount to be subtracted comprises the estimated signal-to-noise ratio, and over the frame A method according to any one of the preceding claims, wherein the amount subtracted from each spectral component of the speech signal is a corresponding estimated sub-function of the signal-to-noise ratio.
【請求項16】 前記信号対ノイズ比を最高にするために前記関数が零へ向
かって減少する請求項15記載の方法。
16. The method of claim 15, wherein said function decreases toward zero to maximize said signal to noise ratio.
【請求項17】 前記スピーチ信号のスペクトル成分(Sn,f)から前記量 を差し引くことによって得られた、ノイズが抑制された信号のスペクトル成分(
2 n,f)を用いて、聴覚モデルを適用することによってマスキングカーブ(Mn, q )を計算する請求項1ないし16のいずれか1項に記載の方法。
17. The noise-suppressed signal spectral component (S n, f ) obtained by subtracting the quantity from the speech signal spectral component (S n, f ).
With S 2 n, f), the method according to any one of claims 1 to 16 to calculate a masking curve (M n, q) by applying an auditory model.
【請求項18】 マスキングカーブ(Mn,q)の計算が、正規化されたエン トロピーHによって測定された前記有声度(χ)を使用する請求項11および1
7記載の方法。
18. The method according to claim 11 , wherein the calculation of the masking curve (M n, q ) uses the voicedness (度) measured by the normalized entropy H.
7. The method according to 7.
【請求項19】 フレーム内の前記スピーチ信号のスペクトル成分(Sn,f )から前記量を差し引かれる前記量が依存する前記パラメータが、前記ノイズの
前記対応するスペクトル成分の過大推定量 【数3】 と計算された前記マスキングカーブ(Mn,q)との間の差を含む請求項17また は18記載の方法。
19. The parameter on which the amount is subtracted from the spectral component (S n, f ) of the speech signal in a frame is an overestimate of the corresponding spectral component of the noise. ] Method according to claim 17 or 18, including the difference between the calculated masking curve ( Mn, q ).
【請求項20】 フレームに対するノイズの前記スペクトル成分の前記過大
推定量 【数4】 を、計算された前記マスキングカーブ(Mn,q)および前記スピーチ信号のスペ クトル成分(Sn,f)から差し引かれた量と比較して、前記時間領域に変換され る成分(S3 n,f)を得、前記マスキングカーブの上である前記ノイズの対応する
スペクトル成分の過大推定量の一部に制限される請求項19記載の方法。
20. The overestimate of the spectral component of noise for a frame. Is compared with the calculated masking curve (M n, q ) and the amount subtracted from the spectrum component (S n, f ) of the speech signal to calculate the component (S 3 n ) converted into the time domain. 20. The method of claim 19, wherein f ) is obtained and is limited to a portion of an overestimate of a corresponding spectral component of the noise that is above the masking curve.
【請求項21】 スペクトル差し引きは、 −前記フレームに対するノイズの対応するスペクトル成分の過大推定量 【数5】 と推定されたピッチ周波数(fp)を含むパラメータに依存しているそれぞれの
第1の量を、前記フレーム内の前記スピーチ信号の各スペクトル成分(Sn,f) から差し引いてノイズが抑制された第1の信号のスペクトル成分(S2 n,f )を 得る第1の差し引きステップと、 −ノイズが抑制された前記第1の信号のスペクトル成分(S2 n,f )を基にし て聴覚モデルを適用することによりマスキングカーブ(Mn,q)を計算するステ ップと、 −前記フレームに対するノイズの対応するスペクトル成分の過大推定量 【数6】 を計算された前記マスキングカーブ(Mn,q)と比較するステップと、 −前記対応する第1の量と、前記マスキングカーブの上である前記ノイズの前
記対応するスペクトル成分の前記過大見積もり一部とのいずれか小さい方に等し
いそれぞれの第2の量を、前記スピーチ信号のスペクトル成分(Sn,f)から差 し引いて、前記時間領域変換されたノイズが抑制された第2の信号のスペクトル
成分(S3 n,f)を得る第2の差し引きステップと、 を含む請求項1ないし20のいずれか1項に記載の方法。
21. Spectral subtraction: An overestimate of the corresponding spectral component of the noise for said frame. Each of the first quantities depending on parameters including the estimated pitch frequency (fp) is subtracted from each spectral component (S n, f ) of the speech signal in the frame to reduce noise. A first subtraction step for obtaining a spectral component (S 2 n, f ) of the first signal; and an auditory model based on the spectral component (S 2 n, f ) of the first signal in which noise is suppressed. Calculating the masking curve (M n, q ) by applying the following:-an overestimate of the corresponding spectral component of the noise for the frame. Comparing with the calculated masking curve (M n, q ); the corresponding first quantity and the overestimated part of the corresponding spectral component of the noise above the masking curve Is subtracted from the spectral component (S n, f ) of the speech signal to reduce the time domain transformed noise of the second signal. the method according to any one of claims 1 to 20 comprising a second subtraction step of obtaining a spectral component (S 3 n, f), the.
【請求項22】 スペクトル差し引きにおいて考慮に入れられる前記ノイズ
のスペクトル成分の前記推定量のおのおのを過大に推定し、前記スピーチ信号に
含まれている前記ノイズのスペクトル成分の各過大推定量 【数7】 は、前記ノイズの前記スペクトル成分の長時間推定量 【数8】 と、前記ノイズの長時間推定量についての前記ノイズの前記スペクトル成分の可
変性の測定値(ΔBmax n,i)とを組合わせることによって得られる請求項1ない
し21のいずれか1項に記載の方法。
22. An overestimation of each of the estimators of the spectral components of the noise taken into account in the spectral subtraction, and an overestimation of each of the spectral components of the noise contained in the speech signal. ] Is a long term estimator of the spectral component of the noise 22. A method as claimed in any preceding claim, obtained by combining a measure of the variability of the spectral component of the noise (ΔB max n, i ) for a long term estimator of the noise. the method of.
【請求項23】 帯域i内に含まれている周波数に対応する、フレームn内
の前記ノイズのスペクトル成分の長時間推定量 【数9】 を、 【数10】 の形で出力し、 γn,iは前記周波数帯域iに対する前記フレームnについて決定された、前記ス ピーチ信号の非2進音声活動度を示し、Sn,iは帯域i内のフレームnの前記ス ピーチ信号のスペクトルの振幅の平均を示し、λBは忘却係数を示す請求項22 記載の方法。
23. A long-term estimator of a spectral component of the noise in a frame n corresponding to a frequency included in a band i. Is given by Where γ n, i denotes the non-binary speech activity of the speech signal, determined for the frame n for the frequency band i, and S n, i denotes the frame n of frame n in band i. The method of claim 22, wherein the average of the spectrum amplitude of the speech signal is indicated, and λ B is a forgetting factor.
【請求項24】 少なくとも1つの先行するフレーム中に得られた前記ノイ
ズの推定量 【数11】 を基にしてフレームnのスピーチ信号の先験的ノイズ抑制を実行することにより
、かつ、先験的ノイズ抑制信号のエネルギー変化を解析することにより、前記フ
レームnについてのスピーチ活動度γn,iを決定する請求23項記載の方法。
24. An estimate of the noise obtained during at least one preceding frame. By performing a priori noise suppression of the speech signal of frame n on the basis of and by analyzing the energy change of the a priori noise suppression signal, the speech activity γ n, i for said frame n 24. The method of claim 23, wherein is determined.
【請求項25】 周波数帯域iに関連する音声活動度(γn,i)は0から1 までの範囲で連続的に変化する関数である請求項24記載の方法。25. The method of claim 24, wherein the speech activity (γ n, i ) associated with frequency band i is a function that varies continuously from 0 to 1. 【請求項26】 前記先験的いノイズ抑制された信号の前記エネルギーの長
時間推定量 【数12】 を計算し、かつ前記長時間推定量を、フレームについて計算された前記エネルギ
ーの瞬時推定量(En,i)と比較して周波数帯域i内の前記フレームnについて の前記スピーチ信号の音声活動度(γn,i)を得る請求項24または25記載の 方法。
26. A long-term estimator of the energy of the a priori noise-suppressed signal. And comparing the long-term estimator with the instantaneous estimator of the energy (E n, i ) calculated for the frame, the speech activity of the speech signal for the frame n in frequency band i The method according to claim 24 or 25, wherein (γ n, i ) is obtained.
【請求項27】 前記ノイズのフレームに対する長時間推定 【数13】 についての前記ノイズの、帯域iに含まれている周波数に対応する、スペクトル
成分の前記可変性の前記測定値(ΔBmax n,i)が、その中では前記スピーチ信号
が帯域i内のスピーチ活動性を特徴としないような所与の数 【数14】 のフレームについて計算された差 【数15】 の関数である請求項23ないし26のいずれか1項に記載の方法。
27. Long-term estimation of the noise frame For the noise, the measure of the variability of spectral components (ΔB max n, i ) corresponding to the frequencies contained in band i, in which the speech signal is the speech activity in band i A given number that does not feature gender The difference calculated for the frame of A method according to any one of claims 23 to 26, which is a function of
【請求項28】 前記ノイズのフレームに対する長時間推定 【数16】 についての前記ノイズの、帯域iに含まれている周波数に対応する、スペクトル
成分の前記可変性の前記測定値(ΔBmax n,i)が、そこでは前記スピーチ信号が
帯域i内のどのようなスピーチ活動性をも特徴としないような所与の数 【数17】 のフレームについて計算された最大の差 【数18】 の関数であり、Sn-k,f はフレームn−kについての周波数に対応するスペクト
ル成分を示し、周波数範囲[f(i−1),f(i)]は帯域iに対応する請求
項23ないし26のいずれか1項に記載の方法。
28. Long-term estimation of the noise frame The measured value (ΔB max n, i ) of the variability of the spectral components, corresponding to the frequencies contained in band i, of the noise for, where the speech signal is within band i A given number that does not characterize speech activity The largest difference calculated for the frame of S nk, f indicates a spectral component corresponding to a frequency for frame nk, and a frequency range [f (i−1), f (i)] corresponds to band i. 27. The method according to any one of claims 26.
JP2000512196A 1997-09-18 1998-09-16 How to suppress noise in digital audio signals Pending JP2001516902A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR97/11642 1997-09-18
FR9711642A FR2768546B1 (en) 1997-09-18 1997-09-18 METHOD FOR NOISE REDUCTION OF A DIGITAL SPOKEN SIGNAL
PCT/FR1998/001981 WO1999014739A1 (en) 1997-09-18 1998-09-16 Method for suppressing noise in a digital speech signal

Publications (1)

Publication Number Publication Date
JP2001516902A true JP2001516902A (en) 2001-10-02

Family

ID=9511229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000512196A Pending JP2001516902A (en) 1997-09-18 1998-09-16 How to suppress noise in digital audio signals

Country Status (10)

Country Link
EP (1) EP1016073B1 (en)
JP (1) JP2001516902A (en)
CN (1) CN1276896A (en)
AU (1) AU9169098A (en)
BR (1) BR9812655A (en)
CA (1) CA2304015A1 (en)
DE (1) DE69804329T2 (en)
ES (1) ES2174484T3 (en)
FR (1) FR2768546B1 (en)
WO (1) WO1999014739A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009531906A (en) * 2006-03-28 2009-09-03 フランス テレコム A method for binaural synthesis taking into account spatial effects
WO2014206265A1 (en) * 2013-06-26 2014-12-31 华为技术有限公司 Harmonic analysis method and device and inter-harmonic clutter determination method and device

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2379550A (en) * 2001-09-11 2003-03-12 Barrington Dyer Printed code recording and playing system, for music, speech and sounds
ES2349718T3 (en) * 2004-09-16 2011-01-10 France Telecom TREATMENT PROCESS OF NOISE ACOUSTIC SIGNS AND DEVICE FOR THE PERFORMANCE OF THE PROCEDURE.
KR101390433B1 (en) * 2009-03-31 2014-04-29 후아웨이 테크놀러지 컴퍼니 리미티드 Signal de-noising method, signal de-noising apparatus, and audio decoding system
CN101859569B (en) * 2010-05-27 2012-08-15 上海朗谷电子科技有限公司 Method for lowering noise of digital audio-frequency signal
CN113393849B (en) * 2019-01-29 2022-07-12 桂林理工大学南宁分校 Intercom system that bimodulus piece data was handled
CN109817241B (en) * 2019-02-18 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 Audio processing method, device and storage medium
CN116580712B (en) * 2023-07-14 2023-09-15 深圳攀高医疗电子有限公司 Voice processing method, voice processing system and waist therapeutic instrument

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
EP0459362B1 (en) * 1990-05-28 1997-01-08 Matsushita Electric Industrial Co., Ltd. Voice signal processor
US5469087A (en) * 1992-06-25 1995-11-21 Noise Cancellation Technologies, Inc. Control system using harmonic filters
US5555190A (en) * 1995-07-12 1996-09-10 Micro Motion, Inc. Method and apparatus for adaptive line enhancement in Coriolis mass flow meter measurement

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009531906A (en) * 2006-03-28 2009-09-03 フランス テレコム A method for binaural synthesis taking into account spatial effects
US8045718B2 (en) 2006-03-28 2011-10-25 France Telecom Method for binaural synthesis taking into account a room effect
JP4850948B2 (en) * 2006-03-28 2012-01-11 フランス・テレコム A method for binaural synthesis taking into account spatial effects
WO2014206265A1 (en) * 2013-06-26 2014-12-31 华为技术有限公司 Harmonic analysis method and device and inter-harmonic clutter determination method and device

Also Published As

Publication number Publication date
BR9812655A (en) 2000-08-22
DE69804329D1 (en) 2002-04-25
WO1999014739A1 (en) 1999-03-25
EP1016073A1 (en) 2000-07-05
EP1016073B1 (en) 2002-03-20
ES2174484T3 (en) 2002-11-01
AU9169098A (en) 1999-04-05
FR2768546B1 (en) 2000-07-21
CN1276896A (en) 2000-12-13
FR2768546A1 (en) 1999-03-19
DE69804329T2 (en) 2002-11-14
CA2304015A1 (en) 1999-03-25

Similar Documents

Publication Publication Date Title
US6477489B1 (en) Method for suppressing noise in a digital speech signal
US7957965B2 (en) Communication system noise cancellation power signal calculation techniques
US6766292B1 (en) Relative noise ratio weighting techniques for adaptive noise cancellation
US6839666B2 (en) Spectrally interdependent gain adjustment techniques
US6415253B1 (en) Method and apparatus for enhancing noise-corrupted speech
US8374855B2 (en) System for suppressing rain noise
EP2546831B1 (en) Noise suppression device
US8010355B2 (en) Low complexity noise reduction method
EP1806739B1 (en) Noise suppressor
US6671667B1 (en) Speech presence measurement detection techniques
US6658380B1 (en) Method for detecting speech activity
JP2003280696A (en) Apparatus and method for emphasizing voice
JP2001516902A (en) How to suppress noise in digital audio signals
US6775650B1 (en) Method for conditioning a digital speech signal
CA2401672A1 (en) Perceptual spectral weighting of frequency bands for adaptive noise cancellation
Puder Kalman‐filters in subbands for noise reduction with enhanced pitch‐adaptive speech model estimation
JPH113094A (en) Noise eliminating device
Kim et al. Speech enhancement via Mel-scale Wiener filtering with a frequency-wise voice activity detector
JPH07283860A (en) Noise eliminating device
JP2003517761A (en) Method and apparatus for suppressing acoustic background noise in a communication system