JP2008298844A - Noise suppressing device, computer program, and speech recognition system - Google Patents

Noise suppressing device, computer program, and speech recognition system Download PDF

Info

Publication number
JP2008298844A
JP2008298844A JP2007141840A JP2007141840A JP2008298844A JP 2008298844 A JP2008298844 A JP 2008298844A JP 2007141840 A JP2007141840 A JP 2007141840A JP 2007141840 A JP2007141840 A JP 2007141840A JP 2008298844 A JP2008298844 A JP 2008298844A
Authority
JP
Japan
Prior art keywords
noise
frame
unit
estimation
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007141840A
Other languages
Japanese (ja)
Inventor
Shigeki Matsuda
繁樹 松田
Takeo Fukurotani
丈夫 袋谷
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2007141840A priority Critical patent/JP2008298844A/en
Publication of JP2008298844A publication Critical patent/JP2008298844A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To suppress noise in a short period of time by using a limited calculation resource in nonsteady noise environment. <P>SOLUTION: A noise suppressing device includes: a noise probability distribution estimation section 200 for generating an estimation parameter of noise distribution for each frame, from a feature amount extracted from the frame of a predetermined period of an observation signal, by using a particle filter; an observation signal distribution estimation section 202 for adapting a Gaussian Mixture Model (GMM) for clean voice estimation according to the estimated noise probability distribution; a clean voice estimation section 204 for calculating an estimated feature amount of object voice for each frame by a Minimum Mean Square Error (MMSE) estimation method; and a calculation control section 212 for controlling an interval of adaptation so that adaptation of the GMM is performed to a plurality of frames at a time. The estimated feature amount of the object voice is calculated by using the Gaussian Mixture Model of a specified frame, when the adaptation is performed to the frame, while by using the Gaussian Mixture Model which is adapted to the previous frame, when the adaptation is not performed. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、雑音が発生する実環境下での音声認識技術に関し、特に、非定常的な雑音が発生する環境下での音声認識率を改善するための雑音抑圧装置及びそれを使用した音声認識システムに関する。   The present invention relates to a speech recognition technique in a real environment where noise is generated, and more particularly to a noise suppression device for improving a speech recognition rate in an environment where non-stationary noise is generated, and speech recognition using the same. About the system.

人間にとって容易かつ自然なヒューマンマシンインタフェースを実現するための技術として、音声認識技術が研究されている。近年では、大規模な音声・テキストデータベースと統計確率的な音声認識手法とにより、高い認識率での音声認識が実現されるようになった。今日ではさらに、人間と機械とが接する実環境下において、高速にかつ高い認識率で音声認識を実現するための応用技術開発が進められている。   Speech recognition technology has been studied as a technology for realizing a human machine interface that is easy and natural for humans. In recent years, speech recognition at a high recognition rate has been realized by a large-scale speech / text database and statistical stochastic speech recognition techniques. Nowadays, the development of applied technology for realizing speech recognition at high speed and with a high recognition rate in an actual environment where a human and a machine are in contact with each other is underway.

実環境が実験室等の環境と大きく異なる点の一つに、雑音の存在がある。雑音は、無視できない音量で、絶え間なく、かつ不規則に発生し、時間の経過とともに変動する。雑音は、音声認識を行なう際の妨げとなる。雑音が発生する実環境下での音声認識率を改善することは、音声認識の応用技術開発を行なう上で、早急に解決されるべき問題である。   One of the major differences between the actual environment and the laboratory environment is the presence of noise. Noise is generated constantly and irregularly at a volume that cannot be ignored, and fluctuates over time. Noise is a hindrance when performing speech recognition. Improving the speech recognition rate in a real environment where noise is generated is a problem that should be solved as soon as possible in developing an application technology for speech recognition.

雑音が発生する環境下での音声認識率を改善するための技術の一つに、時間の経過に対し定常的な性質を持つ雑音について、音声認識の前処理の段階で雑音を推定し抑圧する技術がある。   One of the technologies for improving the speech recognition rate in an environment where noise is generated is to estimate and suppress the noise at the pre-processing stage of speech recognition for noise that has a stationary property over time. There is technology.

後掲の非特許文献1には、定常的な雑音の一般的な抑圧方法であるスペクトルサブトラクション法が開示されている。この方法では、発話の前の区間において観測された雑音の振幅スペクトルと発話中の区間における雑音の振幅スペクトルとが同じであると仮定する。そしてこの仮定に基づき、発話時に観測された音声信号の振幅スペクトルから、発話直前に観測された雑音の振幅スペクトルを減算して、雑音を抑圧する。   Non-Patent Document 1 described later discloses a spectral subtraction method which is a general method for suppressing stationary noise. In this method, it is assumed that the noise amplitude spectrum observed in the section before the utterance is the same as the noise amplitude spectrum in the section during the utterance. Based on this assumption, the noise is suppressed by subtracting the amplitude spectrum of the noise observed immediately before the utterance from the amplitude spectrum of the speech signal observed during the utterance.

後掲の非特許文献2には、分散型音声認識における雑音抑圧方法が開示されている。この方法では、発話直前に観測された雑音の振幅スペクトルを用いて、ウィナフィルタ理論に基づく雑音の抑圧を行なう。   Non-Patent Document 2 described later discloses a noise suppression method in distributed speech recognition. In this method, noise suppression based on the Wiener filter theory is performed using the noise amplitude spectrum observed immediately before the utterance.

音声認識の前処理の段階において雑音を逐次的に推定し抑圧する技術もある。後掲の非特許文献3には、逐次EM(Expectation Maximization)アルゴリズムを適用して雑音の最尤推定値を逐次的に求める方法が開示されている。逐次EMアルゴリズムを用いて逐次的に雑音を推定する方法では、雑音の時間変動に対処しつつ高精度に雑音の推定及び抑圧を行なうことができる。   There is also a technique for sequentially estimating and suppressing noise in the preprocessing stage of speech recognition. Non-Patent Document 3 described later discloses a method of sequentially obtaining a maximum likelihood estimation value of noise by applying a sequential EM (Expectation Maximization) algorithm. In the method of sequentially estimating noise using the sequential EM algorithm, noise can be estimated and suppressed with high accuracy while coping with temporal fluctuation of noise.

後掲の非特許文献4及び非特許文献5に開示された、カルマンフィルタを用いて雑音の推定値を逐次的に求める方法も一般的に用いられている。この方法では、一期先予測とフィルタリングとを交互に行なうことによって、雑音を逐次的に推定し抑圧する。   Non-patent literature 4 and non-patent literature 5, which will be described later, generally use a method of sequentially obtaining an estimated value of noise using a Kalman filter. In this method, noise is sequentially estimated and suppressed by alternately performing first-term prediction and filtering.

また、雑音環境下での音声認識率を改善するための技術として、雑音を考慮した確率モデルを用いて適応的に音声認識を行なう技術がある。例えば後掲の特許文献1には、パーティクルフィルタと呼ばれる逐次推定法を用いて、雑音パラメータの推定と、HMM(Hidden Markov Model:隠れマルコフモデル)を構成する隠れ状態の時間的成長とを行ない、当該HMMに基づく音声認識を行なう音声認識システムが開示されている。   Further, as a technique for improving the speech recognition rate in a noisy environment, there is a technique for performing adaptive speech recognition using a stochastic model considering noise. For example, in Patent Document 1 described later, noise parameters are estimated using a sequential estimation method called a particle filter, and temporal growth of a hidden state constituting an HMM (Hidden Markov Model) is performed. A speech recognition system that performs speech recognition based on the HMM is disclosed.

S.F.ボル:「スペクトルサブトラクションを用いた、音声内の音響ノイズの抑圧」、IEEE Trans. ASSP、Vol.27、No.2、113−120頁、1979年(S.F.Boll: “Suppression of Acoustic Noise in Speech Using Spectral Subtraction,” IEEE Trans. ASSP, Vol. 27, No. 2, pp. 113-120, 1979)S. F. Bol: “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. ASSP, Vol. 27, no. 2, 113-120, 1979 (S.F. Boll: “Suppression of Acoustic Noise in Speech Using Spectral Subtraction,” IEEE Trans. ASSP, Vol. 27, No. 2, pp. 113-120, 1979) 欧州電気通信標準化機構(ETSI:European Telecommunications Standards Institute)勧告 ES 202 050 V1.1.3 “音声の処理、伝送、及び品質の局面(STQ),分配型音声認識:上級フロントエンド 特徴抽出アルゴリズム;圧縮アルゴリズム”、2003年11月(ETSI ES 202 050 V1.1.3, “Speech Processing, Transmission and Quality Aspects (STQ), Distributed Speech Recognition: Advanced Front-end Feature Extraction Algorithm; Compression Algorithms,” Nov. 2003.)European Telecommunications Standards Institute (ETSI) Recommendation ES 202 050 V1.1.3 “Aspects of Speech Processing, Transmission, and Quality (STQ), Distributed Speech Recognition: Advanced Front End Feature Extraction Algorithm; Compression Algorithm ", November 2003 (ETSI ES 202 050 V1.1.3," Speech Processing, Transmission and Quality Aspects (STQ), Distributed Speech Recognition: Advanced Front-end Feature Extraction Algorithm; Compression Algorithms, "Nov. 2003.) M.アフィフィ、O.シオアン:「ロバスト音声認識のための最適な忘却による逐次推定」、IEEE Trans. SAP、Vol.12、No.1、19−26頁、2004年(M.Afify, O.Siohan: “Sequential Estimation with Optimal Forgetting for Robust Speech Recognition,” IEEE Trans. SAP, Vol. 12, No.1, pp. 19-26, 2004)M.M. Affifi, O. Shioan: “Sequential estimation with optimal forgetting for robust speech recognition”, IEEE Trans. SAP, Vol. 12, no. 1, 19-26, 2004 (M. Afify, O. Siohan: “Sequential Estimation with Optimal Forgetting for Robust Speech Recognition,” IEEE Trans. SAP, Vol. 12, No. 1, pp. 19-26, 2004. ) 有本 卓:「カルマンフィルター」、産業図書Takashi Arimoto: “Kalman Filter”, industrial books 中野 道雄 監修、西山 清 著:「パソコンで解くカルマンフィルタ」、丸善Supervised by Michio Nakano, Kiyoshi Nishiyama: “Kalman filter solved on a personal computer”, Maruzen A.M.ペイナド他、「分散音声認識のための、MMSEによるチャネル誤りの緩和」、ユーロスピーチ2001 スカンジナビア(第7回 音声コミュニケーション及びテクノロジー ヨーロッパ大会)予稿集、pp.2707−2710、2001年(Peinado A M, Sanchez V, Segura J C, Perez-Cordoba J L, "MMSE-Based Channel Error Mitigation for Distributed Speech Recognition," Eurospeech 2001 - Scandinavia (7th European Conference on Speech Communication and Technology), pp.2707-2710, 2001)A. M.M. Paynad et al., “Mitigation of channel errors by MMSE for distributed speech recognition”, Euro Speech 2001 Scandinavia (7th European Conference on Speech Communication and Technology), pp. 2707-2710, 2001 (Peinado AM, Sanchez V, Segura JC, Perez-Cordoba JL, "MMSE-Based Channel Error Mitigation for Distributed Speech Recognition," Eurospeech 2001-Scandinavia (7th European Conference on Speech Communication and Technology), pp .2707-2710, 2001) 特開2007−41499号公報JP 2007-41499 A

非特許文献1及び非特許文献2に記載の技術はいずれも、雑音が定常的なものであるという前提のもとで雑音の推定及び抑圧を行なう技術である。しかし、実環境において雑音の多くは非定常である。すなわち、雑音の音響的特徴は時間の経過に伴い変動する。そのため、非特許文献1及び非特許文献2に記載の技術では、雑音の時間変動に対応できず、高精度に雑音を抑圧することができない。   The techniques described in Non-Patent Document 1 and Non-Patent Document 2 are both techniques for estimating and suppressing noise on the assumption that the noise is stationary. However, most of the noise in the real environment is non-stationary. That is, the acoustic characteristics of noise vary with time. For this reason, the techniques described in Non-Patent Document 1 and Non-Patent Document 2 cannot cope with temporal fluctuations in noise and cannot suppress noise with high accuracy.

非特許文献3に記載の技術では、逐次EMアルゴリズムが用いられている。逐次EMアルゴリズムで雑音を推定する場合、観測された音声信号のフレーム毎に、そのフレームにおけるパラメータが尤度関数の局所最適値に収束するまで反復計算を行なう必要がある。そのため、雑音が変動する度に膨大な量の計算が必要となり、計算に時間を要する。よって、この手法により実時間で雑音を推定し抑圧するのは困難である。   In the technique described in Non-Patent Document 3, a sequential EM algorithm is used. When noise is estimated by the sequential EM algorithm, it is necessary to perform iterative calculation for each frame of the observed speech signal until the parameters in the frame converge to the local optimum value of the likelihood function. Therefore, an enormous amount of calculation is required every time the noise fluctuates, and the calculation takes time. Therefore, it is difficult to estimate and suppress noise in real time by this method.

非特許文献4及び非特許文献5に記載の技術では、カルマンフィルタを用いて雑音を推定する。この推定方法は、一期先予測とフィルタリングとを交互に行なう方法であり、逐次EMアルゴリズムのような反復計算を必要とはしない。しかし、カルマンフィルタを用いた手法は、雑音の事後確率分布が単一正規分布であるものとして確率分布を推定する。真の事後確率分布が混合分布であった場合には、単一正規分布で近似される。そのため、精度が劣化する。   In the techniques described in Non-Patent Document 4 and Non-Patent Document 5, noise is estimated using a Kalman filter. This estimation method is a method of alternately performing first-term prediction and filtering, and does not require iterative calculation like a sequential EM algorithm. However, the method using the Kalman filter estimates the probability distribution assuming that the posterior probability distribution of noise is a single normal distribution. When the true posterior probability distribution is a mixed distribution, it is approximated by a single normal distribution. Therefore, the accuracy is deteriorated.

特許文献1に記載の音声認識システムでは、雑音を考慮したモデルを用いて音声認識を行なうため、音声認識の精度が高くなるという効果が得られている。しかし、パーティクルフィルタを用いているために計算量が大きく、計算資源の限られた装置でこのシステムを高速に動作させるのは困難である。   In the speech recognition system described in Patent Document 1, since speech recognition is performed using a model that takes noise into account, an effect of increasing speech recognition accuracy is obtained. However, since the particle filter is used, the calculation amount is large, and it is difficult to operate the system at high speed with an apparatus having limited calculation resources.

それゆえに、本発明の目的は、非定常雑音が発生する環境下での音声認識率を改善し、かつ限られた計算資源を用いて雑音を短時間で抑圧することができる雑音抑圧装置を提供することである。   SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a noise suppression device that can improve a speech recognition rate in an environment where non-stationary noise occurs and can suppress noise in a short time using limited calculation resources. It is to be.

本発明の他の目的は、非定常雑音が発生する環境下での音声認識率を改善し、かつ計算量を削減しながら雑音を短時間で抑圧することができる雑音抑圧装置を提供することである。   Another object of the present invention is to provide a noise suppression device that can improve a speech recognition rate in an environment where non-stationary noise occurs and can suppress noise in a short time while reducing the amount of calculation. is there.

本発明の第1の局面に係る雑音抑圧装置は、雑音が発生する環境下での目的音声の観測により得られる観測信号における雑音の成分を抑圧するための雑音抑圧装置であって、観測信号について所定周期ごとにフレーム化された所定時間長のフレームよりそれぞれ抽出される特徴量を受け、複数のパーティクルを有するパーティクルフィルタを用いて、予め準備された、複数個の要素分布からなる、クリーン音声推定のための音響モデルに基づき、雑音を表す確率分布の推定パラメータをフレームごとに逐次生成するための雑音推定手段と、雑音推定手段によりパラメータが推定された雑音の確率分布にしたがって、音響モデルを雑音に適応化するための適応化手段と、雑音に適応化された音響モデルと、観測信号の特徴量とを用いて、フレームごとに目的音声の推定特徴量をMMSE(最小平均2乗誤差:Minimum Mean Square Error)推定法により算出するための目的音声推定手段と、適応化手段による、音響モデルの適応化を、複数のフレームごとに行なうように、適応化手段による適応化の間隔を制御するための制御手段とを含む雑音抑圧装置であって、目的音声推定手段は、あるフレームに対して適応化手段による適応化が行なわれたときには、そのフレームに対しては当該適応化されたガウス混合モデルを用いて目的音声の推定特徴量を算出し、あるフレームに対して適応化手段による適応化が行なわれなかったときには、当該フレームに対してはそれより前のフレームに対して適応化手段によって適応化された音響モデルを用いて目的音声の推定特徴量を算出することを特徴とする。   A noise suppression apparatus according to a first aspect of the present invention is a noise suppression apparatus for suppressing a noise component in an observation signal obtained by observation of a target speech in an environment where noise is generated. A clean speech estimation comprising a plurality of element distributions prepared in advance using a particle filter having a plurality of particles, each receiving a feature amount extracted from a frame of a predetermined time length framed at a predetermined period. Based on the acoustic model for the noise, the noise estimation means for sequentially generating the estimation parameter of the probability distribution representing the noise for each frame, and the noise model according to the noise probability distribution whose parameter is estimated by the noise estimation means Using the adaptation means for adapting to the noise, the acoustic model adapted to noise, and the feature quantity of the observed signal. The target speech estimation means for calculating the estimated feature amount of the target speech by the MMSE (Minimum Mean Square Error) estimation method and the adaptation means for adaptation of the acoustic model for each frame And a control unit for controlling the interval of adaptation by the adaptation unit, wherein the target speech estimation unit performs adaptation by the adaptation unit for a certain frame. The estimated feature quantity of the target speech is calculated for the frame using the adapted Gaussian mixture model, and when the adaptation means is not applied to a frame, For the frame, the estimated feature quantity of the target speech is calculated using the acoustic model adapted by the adaptation means for the previous frame. That.

MMSE法の詳細については、非特許文献6に開示されている。   Details of the MMSE method are disclosed in Non-Patent Document 6.

なお、本明細書では、雑音抑圧装置に与えられる音声(観測音声)は、雑音のない目的音声と雑音とが重畳した音と考える。このように考えたときの目的音声を「クリーン音声」と呼ぶ。   In this specification, the voice (observation voice) given to the noise suppression device is considered as a sound in which the target voice without noise and noise are superimposed. The target voice when considered in this way is called “clean voice”.

制御手段は、適応化手段がクリーン音声推定のための音響モデルを雑音に適応化するにあたり、複数のフレームごとにその適応化がされるように適応化の間隔を制御する。あるフレームに対して適応化が行なわれたときには、目的音声推定手段はその音響モデルを用いたMMSE推定法によって目的音声を推定する。あるフレームに対して適応化が行なわれなかったときには、目的音声推定手段は、それより前のフレームに対して適応化された音響モデルを用いたMMSE推定法によって目的音声を推定する。音響モデルの適応化という、計算量の大きな処理を各フレームに対して行なわなくてもよく、計算量が削減される。したがって、目的音声の推定を高速に行なうことができる。   When the adaptation unit adapts the acoustic model for clean speech estimation to noise, the control unit controls the adaptation interval so that the adaptation is performed for each of a plurality of frames. When adaptation is performed for a certain frame, the target speech estimation means estimates the target speech by the MMSE estimation method using the acoustic model. When the adaptation is not performed for a certain frame, the target speech estimation means estimates the target speech by the MMSE estimation method using the acoustic model adapted to the previous frame. A process with a large amount of calculation such as adaptation of the acoustic model need not be performed on each frame, and the amount of calculation is reduced. Therefore, the target speech can be estimated at high speed.

音響モデルは、複数個の要素分布からなるガウス混合分布でもよい。   The acoustic model may be a Gaussian mixture distribution including a plurality of element distributions.

ガウス混合分布を用いると、クリーン音声の特徴量が複雑な分布をしていても、それを統計的にモデル化することが容易になる。   If the Gaussian mixture distribution is used, even if the feature amount of clean speech has a complicated distribution, it becomes easy to model it statistically.

複数個の要素分布のうち、いずれか二つが、互いに異なる分散を持つようにしてもよい。   Any two of the plurality of element distributions may have different variances.

通常、要素分布は音声サンプルに対する学習により統計的に得られるので、その分散は互いに異なることが多い。   In general, since the element distribution is statistically obtained by learning on the speech sample, the variance is often different from each other.

複数個の要素分布が、互いに異なる平均と、互いに等しい分散とを有するようにしてもよい。   The plurality of element distributions may have different averages and equal variances.

このようにすると、雑音推定手段における計算において分布を考慮する必要が事実上なくなり、計算量がさらに削減される。その結果、処理をより早くすることができる。その結果、非定常雑音が発生する環境下での音声認識率を改善することが可能で、かつ限られた計算資源を用いて雑音を短時間で抑圧することができる雑音抑圧装置を提供することができる。   In this way, it is virtually unnecessary to consider the distribution in the calculation in the noise estimation means, and the amount of calculation is further reduced. As a result, processing can be made faster. As a result, it is possible to provide a noise suppression device capable of improving a speech recognition rate in an environment where non-stationary noise occurs and capable of suppressing noise in a short time using limited calculation resources. Can do.

好ましくは、雑音抑圧装置は、適応化手段によってあるフレームについて音響モデルの適応化が行なわれたことに応答して、当該適応化された音響モデルを記憶するための記憶手段をさらに含み、目的音声推定手段は、あるフレームについてクリーン音声推定のための音響モデルの適応化が行なわれたときには、当該適応化された音響モデルを用い、MMSE推定法によって目的音声の推定特徴量を算出し、あるフレームについてクリーン音声推定のための音響モデルの適応化が行なわれないときには、記憶手段に記憶された適応化された音響モデルを用いて、MMSE法によって目的音声の推定特徴量を算出することを特徴とする。   Preferably, the noise suppression device further includes storage means for storing the adapted acoustic model in response to the adaptation of the acoustic model for a frame by the adaptation means, and the target speech When the acoustic model for clean speech estimation is adapted for a certain frame, the estimating means calculates the estimated feature amount of the target speech by using the adapted acoustic model and the MMSE estimation method. When the acoustic model for the clean speech estimation is not adapted for, the estimated feature quantity of the target speech is calculated by the MMSE method using the adapted acoustic model stored in the storage means. To do.

あるフレームについて音響モデルの適応化が行なわれたときには、その音響モデルを記憶手段に記憶する。あるフレームについて音響モデルの適応化が行なわれなかったときには、記憶手段に記憶された音響モデルを用いたMMSE推定法によって目的音声の推定特徴量が算出される。あるフレームについて適応化が行なわれなかったときには、それより前のフレームに対して適応化がされた音響モデルを用いて目的音声の推定特徴量が算出される。この処理は時間的に間をおかずに繰返し行なわれるため、このように、以前のフレームに対して適応化がされた音響モデルを用いても、適応化の間の間隔が充分短ければ、目的音声の推定に対する性能上の影響はほとんど見られない。一方で、適応化のための演算量は大幅に削減できる。その結果、性能を維持しながら目的音声の推定を高速に行なうことができる。   When the acoustic model is adapted for a certain frame, the acoustic model is stored in the storage means. When the acoustic model is not adapted for a certain frame, the estimated feature quantity of the target speech is calculated by the MMSE estimation method using the acoustic model stored in the storage means. When the adaptation is not performed for a certain frame, the estimated feature amount of the target speech is calculated using the acoustic model adapted for the previous frame. Since this process is repeated in a timely manner, even if an acoustic model adapted for the previous frame is used in this way, if the interval between adaptations is sufficiently short, the target speech There is almost no performance impact on the estimation of. On the other hand, the calculation amount for adaptation can be greatly reduced. As a result, the target speech can be estimated at high speed while maintaining the performance.

より好ましくは、制御手段は、予め、クリーン音声推定のための音響モデルを雑音に適応化する処理を行なうフレーム間の間隔を定める情報を記憶するための間隔記憶手段と、直前に適応化手段による適応化が行なわれた後に処理されたフレーム数を記憶するためのフレーム数記憶手段と、処理対象のフレームが雑音抑圧装置に与えられるたびにフレーム数記憶手段の記憶内容に1を加算するための加算手段と、フレーム数記憶手段の記憶内容と間隔記憶手段の記憶内容とが等しいか否かを判定するための判定手段と、判定手段による判定結果にしたがって、適応化手段によるそのフレームに対する適応化を可能化する処理と、適応化手段によるそのフレームに対する適応化を不能化する処理とを行なうための手段と、判定手段により、フレーム数記憶手段の記憶内容と間隔記憶手段の記憶内容とが等しいと判定されたことに応答して、フレーム数記憶手段をゼロにクリアするための手段とを含む。   More preferably, the control means includes an interval storage means for storing information for determining an interval between frames for performing processing for adapting an acoustic model for clean speech estimation to noise in advance, and an adaptation means immediately before Frame number storage means for storing the number of frames processed after adaptation, and for adding 1 to the stored contents of the frame number storage means every time a frame to be processed is given to the noise suppression device An adder, a determination unit for determining whether the stored contents of the frame number storage unit and the stored content of the interval storage unit are equal, and adaptation by the adaptation unit according to the determination result by the determination unit And a means for performing adaptation processing for disabling adaptation to the frame by the adaptation means, and a decision means In response to the stored contents of the memory contents and spacing storage means beam number storage means is determined to be equal, and means for clearing the frame number memory means to zero.

本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの雑音抑圧装置として動作させる。したがって、上記した雑音抑圧装置と同様の効果を得ることができる。   When the computer program according to the second aspect of the present invention is executed by a computer, it causes the computer to operate as any of the noise suppression devices described above. Therefore, the same effect as the above-described noise suppression device can be obtained.

本発明の第3の局面に係る音声認識システムは、上記したいずれかの雑音抑圧装置と、雑音抑圧装置により算出される目的音声の推定特徴量を受けて、上記した音響モデルと、認識対象言語に関する所定の言語モデルとを用いて、目的音声に関する音声認識を行なうための音声認識手段とを含む。   The speech recognition system according to the third aspect of the present invention receives any of the above-described noise suppression device and the estimated feature amount of the target speech calculated by the noise suppression device, and receives the above-described acoustic model and recognition target language. And speech recognition means for performing speech recognition on the target speech using a predetermined language model.

[第1の実施の形態]
以下、図面を参照しつつ、本発明の一実施の形態について説明する。なお、以下の説明に用いる図面では、同一の部品には同一の符号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。以下の説明のテキスト中で使用する記号「^」等は、本来はその直後の文字の直上に記載すべきものであるが、テキスト記法の制限により当該文字の直前に記載する。式中では、これらの記号等は本来の位置に記載してある。また以下の説明のテキスト中では、ベクトル又は行列については多くの場合、例えば「ベクトルXt」、「行列ΣW」等のように直前に「ベクトル」、「行列」等を付した通常のテキストの形で記載するが、式中ではいずれも太字で記載する。
[First Embodiment]
Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In the drawings used for the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated. The symbol “^” or the like used in the text of the following description should be described immediately above the character immediately after it, but it is described immediately before the character due to restrictions on text notation. In the formula, these symbols are written in their original positions. Also, in the text of the following description, in the case of a vector or a matrix, in many cases, for example, a normal text immediately preceded by “vector”, “matrix”, etc. like “vector X t ”, “matrix Σ W ”, etc. In the formula, all are written in bold.

〔構成〕
〈音声認識システム全体の構成〉
図1に、本実施の形態に係る音声認識システム100全体の構成を示す。図1を参照して、この音声認識システム100は、音源102が発生する音122から音声認識に用いる音声の特徴を表す特徴量ベクトル126を抽出するための前処理部104と、前処理部104に接続され、音声の特徴と音素との関係を表す確率モデル(音響モデル)を準備するための前処理用音響モデル部106と、認識対象の言語における単語の連接確率等を表す確率モデル(言語モデル)を準備するための言語モデル部108と、言語モデル部108の言語モデル及び所定の音響モデルを用いて、前処理部104から出力された特徴量に対応する単語等を探索するための探索部110と、探索部110に接続され、探索部110による探索に用いられる音響モデルを準備するための認識用音響モデル部109とを含む。
〔Constitution〕
<Configuration of the entire speech recognition system>
FIG. 1 shows the overall configuration of the speech recognition system 100 according to the present embodiment. With reference to FIG. 1, the speech recognition system 100 includes a preprocessing unit 104 for extracting a feature vector 126 representing a feature of speech used for speech recognition from a sound 122 generated by a sound source 102, and a preprocessing unit 104. And a pre-processing acoustic model unit 106 for preparing a probabilistic model (acoustic model) representing the relationship between speech features and phonemes, and a probabilistic model (language for expressing word connection probabilities in a language to be recognized) A model for preparing a model), and a search for searching for a word or the like corresponding to the feature amount output from the preprocessing unit 104 using the language model of the language model unit 108 and a predetermined acoustic model. And a recognition acoustic model unit 109 for preparing an acoustic model connected to the search unit 110 and used for the search by the search unit 110.

音声認識システム100はさらに、前処理部104による特徴量ベクトル126の抽出に用いられ、後述する状態空間モデルにおける拘束条件を定めるための係数からなる、拘束条件パラメータ138を含む。   The speech recognition system 100 further includes a constraint condition parameter 138 that is used for the extraction of the feature vector 126 by the preprocessing unit 104 and includes a coefficient for determining a constraint condition in a state space model described later.

音源102は、認識されるべき音声(目的音声)120を発話する話者116と、話者116の周囲で雑音121を発生する雑音源118とを含む。音源102が発生し前処理部104により収録される音122は、話者116の発話により発生する雑音のない目的音声120と雑音121とが重畳した音となる。本明細書では、前述したように、雑音を含まない目的音声120を「クリーン音声」と呼ぶ。これに対して、前処理部104に到達し、前処理部104により収録される音122、すなわち、クリーン音声120と雑音121とが重畳した音122を、「雑音重畳音声」と呼ぶ。   The sound source 102 includes a speaker 116 that utters a speech (target speech) 120 to be recognized, and a noise source 118 that generates noise 121 around the speaker 116. The sound 122 generated by the sound source 102 and recorded by the preprocessing unit 104 is a sound in which the target voice 120 without noise and noise 121 generated by the speech of the speaker 116 are superimposed. In this specification, as described above, the target voice 120 that does not include noise is referred to as “clean voice”. On the other hand, the sound 122 that reaches the preprocessing unit 104 and is recorded by the preprocessing unit 104, that is, the sound 122 in which the clean sound 120 and the noise 121 are superimposed is referred to as “noise superimposed sound”.

前処理部104は、雑音重畳音声122を収録し、その結果得られる観測信号に所定の信号処理を施すことにより、観測信号に関する所定の特徴量ベクトル(以下、この特徴量ベクトルを単に「観測信号の特徴量」と呼ぶことがある。)124を抽出するための計測部112と、計測部112により抽出された観測信号の特徴量124に含まれる雑音の成分を、前処理用音響モデル部106により準備される音響モデルと拘束条件パラメータ138とを用いて抑圧するための雑音抑圧部114とを含む。   The pre-processing unit 104 records the noise-superimposed speech 122 and performs predetermined signal processing on the observation signal obtained as a result, thereby obtaining a predetermined feature vector related to the observation signal (hereinafter referred to as “observation signal”). And a noise component included in the feature value 124 of the observation signal extracted by the measurement unit 112 is extracted from the measurement unit 112 for extracting 124 and the preprocessing acoustic model unit 106. And a noise suppression unit 114 for suppression using the acoustic model prepared by the above and the constraint condition parameter 138.

計測部112は、観測信号を、フレーム間隔10ミリ秒、時間長が数10ミリ秒のフレームごとに対数メルフィルタバンク分析し、得られる対数メルスペクトルを要素とするベクトルを観測信号の特徴量124として出力する。   The measurement unit 112 analyzes the logarithmic mel filter bank of the observation signal for each frame having a frame interval of 10 milliseconds and a time length of several tens of milliseconds, and uses the obtained logarithmic mel spectrum as an element as a feature 124 Output as.

雑音抑圧部114は、前処理用音響モデル部106により準備される音響モデルと拘束条件パラメータ138とを用いて、観測信号の特徴量124を基に、クリーン音声120の特徴量ベクトルをフレームごとに逐次推定する機能を持つ。そしてこの逐次推定によって得られる特徴量ベクトルを、音声認識に用いる音声の特徴量ベクトル126として探索部110に出力する。この際、まず雑音121の特徴量ベクトルを推定し、その結果を基にクリーン音声120の特徴量ベクトルを推定する。なお、本明細書では、特徴量ベクトル126によって表される音声を「推定クリーン音声」と呼ぶ。また、特徴量ベクトル126を「推定クリーン音声の特徴量」と呼ぶ。   The noise suppression unit 114 uses the acoustic model prepared by the preprocessing acoustic model unit 106 and the constraint condition parameter 138 to generate the feature vector of the clean speech 120 for each frame based on the feature 124 of the observation signal. Has the ability to estimate sequentially. The feature quantity vector obtained by this successive estimation is output to the search unit 110 as a voice feature quantity vector 126 used for speech recognition. At this time, first, the feature vector of the noise 121 is estimated, and the feature vector of the clean speech 120 is estimated based on the result. In this specification, the voice represented by the feature vector 126 is referred to as “estimated clean voice”. Also, the feature quantity vector 126 is referred to as “estimated clean speech feature quantity”.

探索部110は、推定クリーン音声の特徴量126を用いて、認識用音響モデル部109により準備された音響モデルと、言語モデル部108により準備された言語モデルとを基に、適合する目的言語の単語等を探索し、その結果を認識出力128として出力する。   The search unit 110 uses the feature quantity 126 of the estimated clean speech, and based on the acoustic model prepared by the recognition acoustic model unit 109 and the language model prepared by the language model unit 108, A word or the like is searched, and the result is output as a recognition output 128.

〈前処理用の音響モデル〉
以下に、前処理用音響モデル部106により準備される音響モデルについて説明する。図1に示す前処理用音響モデル部106は、クリーン音声120に対する音響モデルとして、ガウス混合モデル(GMM:Gaussian Mixture Model)130を準備し保持する。前処理用音響モデル部106は、予め用意されたクリーン音声120に関する学習データを記憶するための学習データ記憶部132と、学習データ記憶部132内の学習データを用いてGMM130に対する学習を行なうためのモデル学習部134と、モデル学習部134による学習で得られるGMM130を記憶するためのGMM記憶部136とを含む。
<Acoustic model for pretreatment>
Hereinafter, an acoustic model prepared by the preprocessing acoustic model unit 106 will be described. The pre-processing acoustic model unit 106 shown in FIG. 1 prepares and holds a Gaussian Mixture Model (GMM) 130 as an acoustic model for the clean speech 120. The preprocessing acoustic model unit 106 performs learning for the GMM 130 using the learning data storage unit 132 for storing learning data related to the clean speech 120 prepared in advance and the learning data in the learning data storage unit 132. A model learning unit 134 and a GMM storage unit 136 for storing the GMM 130 obtained by learning by the model learning unit 134 are included.

図2に、GMM130の概念を模式的に示す。図2を参照して、GMM130は、時系列信号を、一つの定常信号源(状態)によりモデル化した確率モデルである。このGMM130においては、クリーン音声120の特徴量ベクトルとして出力される可能性のあるベクトルと、そのベクトルが出力される確率(以下、単に「出力確率」と呼ぶ。)とが定義される。出力確率は混合正規分布140によって表現される。GMM130における混合正規分布140は、複数の要素分布148A,148B,…,148Kを含む。これらの要素分布148A,148B,…,148Kはいずれも単一正規分布である。例えば、混合正規分布140に含まれるある要素分布150をktとする。要素分布ktは、単一正規分布であり、多次元を考えると、分布の平均ベクトルμS,kt(以下単に「平均」と呼ぶ。)と共分散行列ΣS,kt(以下単に「分散」と呼ぶ。)とにより表現される。これらはいずれも予め様々な音声サンプルに基づいて統計的に学習(算出)される。この要素分布kt150にしたがった確率で出力されるパラメータのベクトルをベクトルSkt,tとする。以下の説明では、GMM130から出力されるパラメータベクトルSkt,tを、「(GMM130の)出力パラメータ」と呼ぶ。 FIG. 2 schematically shows the concept of the GMM 130. Referring to FIG. 2, the GMM 130 is a probability model in which a time series signal is modeled by one stationary signal source (state). In GMM 130, a vector that may be output as a feature vector of clean speech 120 and a probability that the vector is output (hereinafter simply referred to as “output probability”) are defined. The output probability is expressed by a mixed normal distribution 140. The mixed normal distribution 140 in the GMM 130 includes a plurality of element distributions 148A, 148B,. These element distributions 148A, 148B, ..., 148K are all single normal distributions. For example, certain elements distribution 150 contained in the mixed normal distribution 140 and k t. The element distribution k t is a single normal distribution, and considering multidimensionality, the distribution average vector μ S, kt (hereinafter simply referred to as “average”) and the covariance matrix Σ S, kt (hereinafter simply referred to as “dispersion”). "). All of these are statistically learned (calculated) based on various voice samples in advance. A vector of parameters output with a probability according to the element distribution k t 150 is set as a vector S kt, t . In the following description, the parameter vector S kt, t output from the GMM 130 is referred to as “output parameter (of the GMM 130)”.

〈状態空間モデル〉
以下に、状態空間モデルについて説明する。状態空間モデルは、観測信号の生成過程を表した観測方程式と、処理の対象の変化する過程(以下、この過程を「状態遷移過程」と呼ぶ。)を表した状態方程式とからなる動的モデルである。図3に状態空間モデル160を模式的に示す。
<State space model>
The state space model will be described below. A state space model is a dynamic model consisting of an observation equation that represents the generation process of an observed signal and a state equation that represents a process that changes the processing target (hereinafter, this process is referred to as a “state transition process”). It is. FIG. 3 schematically shows the state space model 160.

時刻tのフレーム(以下、単に「第tフレーム」と呼ぶ。)における観測信号の特徴量124(図1参照)をXtとする。観測信号の特徴量Xtは、上記のとおり雑音重畳音声122から得られる対数メルスペクトルを要素に持つベクトルである。この観測信号の特徴量Xtは、クリーン音声120と雑音121とが重畳した音の対数メルスペクトルを要素に持つ。ここに、第tフレームにおけるクリーン音声120の対数メルスペクトルを要素に持つベクトルをクリーン音声の特徴量ベクトルStとする。また、雑音121の対数メルスペクトルを要素に持つベクトルを雑音の特徴量ベクトルNtとする。ベクトルXt、St、及びNtの次元数は同一である。なお、以下に説明する処理はこれらベクトル及び行列の要素についてそれぞれ行なわれるが、以下の説明では、簡単のために各要素を特に区別して言及することはしない。 A feature quantity 124 (see FIG. 1) of the observation signal in the frame at time t (hereinafter simply referred to as “tth frame”) is represented by X t . The feature amount X t of the observation signal is a vector having a log mel spectrum obtained from the noise superimposed speech 122 as an element as described above. The feature quantity X t of the observation signal has a logarithmic Mel spectra of clean speech 120 and noise 121 and the sound of superimposed elements. Here, the feature vector S t of the clean speech vector with a logarithmic Mel spectra of clean speech 120 in the t frame element. A vector having the log mel spectrum of the noise 121 as an element is defined as a noise feature vector N t . The dimensions of the vectors X t , S t and N t are the same. Note that the processing described below is performed for each element of the vector and matrix, but in the following description, each element is not particularly distinguished for the sake of simplicity.

まず、状態空間モデル160における観測信号の生成過程について説明する。観測信号の特徴量Xtは、計測によって得られる既知のベクトルである。これに対し、クリーン音声の特徴量ベクトルStと雑音の特徴量ベクトルNtとはいずれも、計測によっては得ることのできない未知のベクトルである。 First, an observation signal generation process in the state space model 160 will be described. Feature quantity X t of the observation signals is a known vector obtained by the measurement. On the other hand, the clean speech feature vector St and the noise feature vector Nt are unknown vectors that cannot be obtained by measurement.

ここで、クリーン音声120の出力過程がGMMでモデル化できるものと仮定する。すなわち、第tフレームにおけるクリーン音声の特徴量ベクトルStが、GMM130内のある要素分布kt150(図2参照)にしたがって出力される出力パラメータベクトルSkt,tにより表現されるものと仮定する。ただし、クリーン音声の特徴量ベクトルStと出力パラメータベクトルSkt,tとの間には誤差が存在する。この誤差もまたベクトルである。この誤差を誤差ベクトルVtとする。誤差ベクトルVtは、次の式に示すように、平均が0で分散がΣS,ktの単一正規分布で表現される確率分布にしたがう値を要素に持つものとする。 Here, it is assumed that the output process of the clean speech 120 can be modeled by GMM. That is, it is assumed feature vector S t of the clean speech in the t frame, the output parameter vector S kt outputted in accordance with the GMM130 element distribution k t 0.99 (see FIG. 2), as represented by t . However, there is an error between the clean speech feature vector St and the output parameter vector Skt, t . This error is also a vector. This error and error vector V t. As shown in the following equation, the error vector V t has a value according to a probability distribution represented by a single normal distribution having an average of 0 and a variance of Σ S, kt as an element.

Figure 2008298844
ただし、この式においてΣS,ktはGMM130内のある要素分布kt150より得られるパラメータの共分散行列を表し、記号「〜」は左辺の値が右辺に示される確率分布にしたがうことを示す。すなわち、左辺の値が右辺に示す確率分布にしたがったサンプリングにより推定できることを示す。また、この式において、「N(μ,Σ)」は、平均がμで分散がΣの単一正規分布を表す。
Figure 2008298844
In this equation, Σ S, kt represents a covariance matrix of parameters obtained from a certain element distribution k t 150 in the GMM 130, and the symbol “˜” indicates that the value on the left side follows the probability distribution shown on the right side. . That is, the value on the left side can be estimated by sampling according to the probability distribution shown on the right side. In this equation, “N (μ, Σ)” represents a single normal distribution with an average of μ and a variance of Σ.

上記の仮定に基づき、観測信号の特徴量Xt124の生成過程は、雑音の特徴量ベクトルNt、GMM130からの出力パラメータベクトルSkt,t、及び誤差ベクトルVtを用いて、次の式(1)に示す観測方程式により表現されるものとする。 Based on the above assumption, the generation process of the observed signal feature quantity X t 124 is performed using the noise feature quantity vector N t , the output parameter vector S kt, t from the GMM 130, and the error vector V t as follows: It shall be expressed by the observation equation shown in (1).

Figure 2008298844
なお、式(1)でIは単位ベクトルを表す。また、ベクトルの対数、ベクトルの指数演算はそれぞれ、ベクトルの各要素について対数をとり、又は指数計算し、その結果を成分とするベクトルを表すものとする。
Figure 2008298844
In Equation (1), I represents a unit vector. In addition, the logarithm of the vector and the exponent operation of the vector respectively represent a vector having a logarithm or exponent calculation for each element of the vector and using the result as a component.

次に、状態空間モデル160における処理対象の状態遷移過程について述べる。状態空間モデル160においては、雑音の特徴量ベクトルNtが処理の対象になる。ここで、雑音の特徴量ベクトルNtがランダムウォーク過程にしたがって変化するものと仮定する。すなわち、第t−1フレームにおける雑音の特徴量ベクトルNt-1が第tフレームにおける雑音の特徴量ベクトルNtとの間に、ランダムな変化が生じるものと仮定する。このランダムな変化を表すベクトルをランダムガウス雑音ベクトルWtとする。ランダムガウス雑音ベクトルWtは、平均が0で分散がΣwの単一正規分布で表現される確率分布にしたがう値を要素に持つランダムガウス雑音であるものとする。 Next, a state transition process to be processed in the state space model 160 will be described. In the state space model 160, the noise of the feature vector N t is the target of processing. Here, it is assumed that the noise feature vector N t changes according to the random walk process. That is, it is assumed feature vector N t-1 noise in the t-1 frame is between the noise feature vector N t in the t frame, as random changes occur. A vector representing this random change is a random Gaussian noise vector W t . Random Gaussian noise vector W t is assumed average is random Gaussian noise with a value according to the probability distribution that is expressed to the element by a single normal distribution variance sigma w 0.

Figure 2008298844
ただし、この式においてΣWは、ランダムガウス雑音ベクトルWtの共分散行列を表す。
Figure 2008298844
In this equation, Σ W represents the covariance matrix of the random Gaussian noise vector W t .

上記の仮定に基づき雑音の特徴量ベクトルNtの状態遷移過程を表現する状態方程式を定義すると、状態方程式は、次の式(2)のようになる。 When a state equation expressing the state transition process of the noise feature vector N t is defined based on the above assumption, the state equation is expressed as the following equation (2).

Figure 2008298844
しかし、ランダムウォーク過程に基づく上記の仮定では、雑音の特徴量ベクトルNtの変化をランダムガウス雑音ベクトルWtで規定している。そのため、式(2)に示す状態方程式では、雑音の特徴量ベクトルNtの時間変化を正確に表現することはできない。そこで、本実施の形態では、図1に示す拘束条件パラメータ138を用いて、雑音の特徴量ベクトルNtの変化に対し、拘束条件を設ける。拘束条件及びそのための拘束条件パラメータ138の詳細については、後述する。
Figure 2008298844
However, the above assumption based on the random walk process, defines a random Gaussian noise vector W t changes in the noise feature vector N t. For this reason, the state equation shown in Expression (2) cannot accurately represent the temporal change of the noise feature vector N t . Therefore, in the present embodiment, a constraint condition is provided for a change in the noise feature quantity vector N t using the constraint condition parameter 138 shown in FIG. Details of the constraint condition and the constraint condition parameter 138 for the constraint condition will be described later.

〈雑音抑圧部114の構成〉
図4に、雑音抑圧部114(図1参照)の構成をブロック図で示す。図4を参照して、雑音抑圧部114は、観測信号の特徴量Xt124、GMM130、及び拘束条件パラメータ138を用いて、雑音の特徴量ベクトルNtの出力される確率を表す確率分布(以下、「雑音確率分布」と呼ぶ。)をフレームごとに逐次的に推定し、雑音確率分布を表すパラメータ(以下、このパラメータを「雑音確率分布の推定パラメータ」と呼ぶ。)205を生成するための雑音確率分布推定部200と、雑音確率分布推定部200により推定された雑音確率分布の推定パラメータ205及びGMM130を基に、観測信号の特徴量Xt124の出力される確率を表す確率分布(以下、「観測信号分布」と呼ぶ。)を推定し、観測信号確率分布を表すパラメータ208(以下、このパラメータを「観測信号分布のパラメータ」と呼ぶ。)を生成するための観測信号分布推定部202とを含む。
<Configuration of Noise Suppression Unit 114>
FIG. 4 is a block diagram showing the configuration of the noise suppression unit 114 (see FIG. 1). Referring to FIG. 4, the noise suppression unit 114, feature quantity of the observation signal X t 124, GMM130, and using a constraint enforcement parameter 138, the probability distribution representing the probability of the output of the noise feature vector N t ( (Hereinafter referred to as “noise probability distribution”) is sequentially estimated for each frame, and a parameter (hereinafter referred to as “estimation parameter of noise probability distribution”) 205 representing the noise probability distribution is generated. Noise probability distribution estimator 200, noise probability distribution estimation parameter 205 estimated by noise probability distribution estimator 200, and GMM 130, a probability distribution that represents the probability of output of observed signal feature quantity X t 124 ( Hereinafter, the parameter 208 representing the observation signal probability distribution (hereinafter referred to as “observation signal distribution parameter”) is estimated. And a monitoring signal distribution estimation unit 202 for generating the called.) And.

雑音抑圧部114はさらに、観測信号分布が推定されるフレーム間隔(「L」とする。)を予め記憶するための間隔記憶部206と、雑音確率分布推定部200により雑音確率分布の推定パラメータ205が推定されたことに応答して、L個目のフレームごとに観測信号分布を推定するように観測信号分布推定部202を制御するための計算制御部212と、計算制御部212が制御の観測信号分布の推定を行なわなかったフレーム数を計数するために使用する回数記憶部218とを含む。   The noise suppression unit 114 further includes an interval storage unit 206 for preliminarily storing a frame interval (“L”) at which the observation signal distribution is estimated, and the noise probability distribution estimation unit 200 to estimate the noise probability distribution estimation parameter 205. , The calculation control unit 212 for controlling the observation signal distribution estimation unit 202 so as to estimate the observation signal distribution every L-th frame, and the calculation control unit 212 controls the observation. And a number storage unit 218 used for counting the number of frames for which the signal distribution has not been estimated.

計算制御部212は、観測信号分布を推定すべきフレームのタイミングであることを示す推定指示信号209を観測信号分布推定部202に与える機能と、観測信号分布推定部202によりあるフレームに対して推定され出力された観測信号分布を記憶すべきタイミングを示す観測信号分布記憶制御信号207を出力する機能と、観測信号分布を推定すべきフレームのタイミングであるときには第1の値を、それ以外のときには第2の値をとる選択指示信号211を出力する機能とを持つ。すなわち、計算制御部212は、1フレームの処理を開始するごとに回数記憶部218に記憶された値Iに1を加算し、その値を間隔記憶部206に記憶された値Lと比較する機能を持つ。計算制御部212は、両者が等しくなったときには観測信号分布記憶制御信号207及び推定指示信号209を出力する。計算制御部212はまた、このときには選択指示信号211の値を第1の値とする。それ以外のときには計算制御部212は選択指示信号211の値を第2の値とする。なお、計算制御部212は、回数記憶部218の値がLと等しくなったときには回数記憶部218の値をゼロにリセットする。 The calculation control unit 212 has a function of providing the observation signal distribution estimation unit 202 with an estimation instruction signal 209 that indicates the timing of a frame for which the observation signal distribution is to be estimated, and the observation signal distribution estimation unit 202 estimates a certain frame. The function of outputting the observation signal distribution storage control signal 207 indicating the timing at which the output observation signal distribution should be stored, and the first value when it is the timing of the frame for which the observation signal distribution is to be estimated, and otherwise And a function of outputting a selection instruction signal 211 having a second value. That is, the calculation control unit 212 adds 1 to the value I L stored in the frequency storage unit 218 each time to start processing of one frame is compared to the value L stored in the distance storage unit 206 the value Has function. The calculation control unit 212 outputs the observation signal distribution storage control signal 207 and the estimation instruction signal 209 when they become equal. At this time, the calculation control unit 212 also sets the value of the selection instruction signal 211 as the first value. In other cases, the calculation control unit 212 sets the value of the selection instruction signal 211 as the second value. The calculation control unit 212 resets the value of the number storage unit 218 to zero when the value of the number storage unit 218 becomes equal to L.

雑音抑圧部114はさらに、計算制御部212からの観測信号分布記憶制御信号207に応答して、観測信号分布推定部202により推定された観測信号分布を記憶し出力するための分布記憶部214と、分布記憶部214の出力及び観測信号分布推定部202の出力にそれぞれ接続された二つの入力を持ち、選択指示信号211が第1の値であるときには観測信号分布のパラメータ208を、それ以外の時には最後に推定された観測信号分布のパラメータ213を、それぞれ選択して観測信号分布のパラメータ217として出力するための選択部216と、観測信号の特徴量124、選択部216の出力する観測信号分布のパラメータ217、及びGMM130を基に、推定クリーン音声の特徴量126を生成するためのクリーン音声推定部204とを含む。   The noise suppression unit 114 further includes a distribution storage unit 214 for storing and outputting the observation signal distribution estimated by the observation signal distribution estimation unit 202 in response to the observation signal distribution storage control signal 207 from the calculation control unit 212. , Having two inputs respectively connected to the output of the distribution storage unit 214 and the output of the observation signal distribution estimation unit 202, and when the selection instruction signal 211 is the first value, the parameter 208 of the observation signal distribution Sometimes the last estimated observation signal distribution parameter 213 is selected and output as the observed signal distribution parameter 217, the observed signal feature 124, and the observed signal distribution output by the selecting unit 216. Clean speech estimation for generating the estimated clean speech feature 126 based on the parameters 217 and the GMM 130 And a 204.

雑音確率分布推定部200は、雑音確率分布をフレームごとに逐次推定し、雑音確率分布の推定パラメータ205を出力する機能を持つ。ここに、観測信号の特徴量X0,…,Xtからなるベクトルの系列を系列X0:t={X0,…,Xt}とし、雑音の特徴量ベクトルN0,…,Ntからなるベクトルの系列を系列N0:t={N0,…,Nt}とする。観測信号ベクトルの系列X0:tが与えられた時の系列N0:tの事後確率分布p(N0:t|X0:t)は、1次マルコフ連鎖を用いて、次の式(3)のように表される。 The noise probability distribution estimation unit 200 has a function of sequentially estimating the noise probability distribution for each frame and outputting an estimation parameter 205 of the noise probability distribution. Here, a series of vectors composed of observed signal feature values X 0 ,..., X t is a sequence X 0: t = {X 0 ,..., X t }, and noise feature vector N 0 ,. A vector sequence consisting of the sequence N 0: t = {N 0 ,..., N t }. The posterior probability distribution p (N 0: t | X 0: t ) of the sequence N 0: t when the observation signal vector sequence X 0: t is given is expressed by the following equation (1) using a first-order Markov chain : It is expressed as 3).

Figure 2008298844
Figure 2008298844

したがって雑音の特徴量ベクトルNtの確率分布を逐次推定する問題は、観測信号ベクトルの系列X0:tが与えられた時の事後確率p(N0:t|X0:t)を最大にするような系列N0:tを推定する問題に帰着する。雑音確率分布推定部200は、観測信号の特徴量Xt124と、GMM130と、状態空間モデル160と、雑音の状態遷移に関する上記の拘束条件パラメータ138とに基づきこの推定を行なう。その際、雑音確率分布推定部200は、パーティクルフィルタと呼ばれる手法を用いる。この推定法は、ある状態空間モデルにより表現される状態空間内に、局限された状態空間(パーティクル)を多数生成して各パーティクルにおいてパラメータの確率分布を推定し、そして各パーティクルを用いて、状態空間内におけるパラメータの確率分布を近似的に表現する手法である。 Therefore, the problem of successively estimating the probability distribution of the noise feature vector N t is to maximize the posterior probability p (N 0: t | X 0: t ) when the observation signal vector sequence X 0: t is given. This results in the problem of estimating the sequence N 0: t . The noise probability distribution estimation unit 200 performs this estimation based on the observed signal feature amount X t 124, the GMM 130, the state space model 160, and the constraint condition parameter 138 regarding the noise state transition. At that time, the noise probability distribution estimation unit 200 uses a technique called a particle filter. This estimation method generates many localized state spaces (particles) in a state space represented by a certain state space model, estimates the probability distribution of parameters for each particle, and uses each particle to This is a technique for approximately expressing the probability distribution of parameters in space.

計算制御部212は、間隔記憶部206に記憶されたフレーム間隔(L個)と、回数記憶部218とを使用して、観測信号分布推定部202による観測信号分布のパラメータの推定を、各フレームに対してではなく、L個のフレームごとに行なうように観測信号分布推定部202を制御する機能を持つ。計算制御部212はさらに、観測信号分布推定部202によって観測信号分布のパラメータ208が推定されたときにはその値を記憶するように分布記憶部214に対して観測信号分布記憶制御信号207を与える機能、観測信号分布推定部202により観測信号分布のパラメータ208の推定が行なわれたフレームに対しては第1の値を、それ以外のフレームに対しては第2の値を、それぞれとる選択指示信号211を選択部216に対して出力する機能を持つ。   The calculation control unit 212 uses the frame interval (L) stored in the interval storage unit 206 and the number-of-times storage unit 218 to estimate the parameters of the observation signal distribution by the observation signal distribution estimation unit 202 for each frame. And has a function of controlling the observation signal distribution estimation unit 202 so as to be performed every L frames. The calculation control unit 212 further provides a function of giving the observation signal distribution storage control signal 207 to the distribution storage unit 214 so as to store the value when the observation signal distribution parameter 208 is estimated by the observation signal distribution estimation unit 202, A selection instruction signal 211 that takes a first value for a frame in which the observation signal distribution parameter 208 is estimated by the observation signal distribution estimation unit 202 and a second value for the other frames. Is output to the selection unit 216.

観測信号分布推定部202は、観測信号分布のパラメータ208として、各パーティクルにおける観測信号分布の平均ベクトル及び共分散行列を算出する機能を持つ。観測信号分布のパラメータ208の算出には、例えば、VTS(Vector Taylor Series)法と呼ばれるHMM合成法が用いられる。   The observation signal distribution estimation unit 202 has a function of calculating an average vector and a covariance matrix of the observation signal distribution in each particle as the observation signal distribution parameter 208. For example, an HMM synthesis method called a VTS (Vector Taylor Series) method is used to calculate the parameter 208 of the observation signal distribution.

分布記憶部214は、計算制御部212から観測信号分布記憶制御信号207が与えられると、そのときに観測信号分布推定部202から出力されている観測信号分布のパラメータ208を記憶する。分布記憶部214の出力は最後に推定された観測信号分布のパラメータ213として選択部216の一方の入力に与えられる。   When the observation signal distribution storage control signal 207 is given from the calculation control unit 212, the distribution storage unit 214 stores the observation signal distribution parameter 208 output from the observation signal distribution estimation unit 202 at that time. The output of the distribution storage unit 214 is given to one input of the selection unit 216 as the parameter 213 of the observed signal distribution estimated last.

選択部216は、計算制御部212から与えられる選択指示信号211が第1の値のときには観測信号分布推定部202からの観測信号分布のパラメータ208を、第2の値のときには分布記憶部214からの最後に推定された観測信号分布のパラメータ213を、それぞれ選択してクリーン音声推定部204に与える。   The selection unit 216 receives the observation signal distribution parameter 208 from the observation signal distribution estimation unit 202 when the selection instruction signal 211 provided from the calculation control unit 212 is the first value, and from the distribution storage unit 214 when the selection instruction signal 211 is the second value. The parameters 213 of the observed signal distribution estimated at the end of each are selected and given to the clean speech estimation unit 204.

クリーン音声推定部204は、フレームごとに、各パーティクルにおけるクリーン音声のパラメータを推定し、推定クリーン音声の特徴量126を、それら推定されたパラメータの重み付き和によって算出する機能を持つ。推定クリーン音声の特徴量126の算出には、例えば、MMSE推定法が用いられる。クリーン音声推定部204はさらに、雑音確率分布推定部200に、次のフレームへの移行に関する要求210を発行する機能を持つ。   The clean speech estimation unit 204 has a function of estimating clean speech parameters for each particle for each frame and calculating a feature amount 126 of the estimated clean speech by a weighted sum of these estimated parameters. For example, the MMSE estimation method is used to calculate the feature amount 126 of the estimated clean speech. The clean speech estimation unit 204 further has a function of issuing a request 210 regarding the transition to the next frame to the noise probability distribution estimation unit 200.

〈パーティクルフィルタ〉
以下に、パーティクルフィルタについて説明する。この手法では、多数のパーティクルにおける初期的なパラメータを、ランダムなサンプリングにより、又は当該パラメータの初期的な状態を表す確率分布からのサンプリングにより決定する。そして、以下の処理をフレームごとに行なう。すなわち、あるフレームに対応して各パーティクルにおいてパラメータが決定されると、まず、各パーティクルのパラメータを当該フレームに後続するフレームに対応するものに更新する。続いて、更新の尤度に応じて各パーティクルに対して重みを付与する。続いて、更新後のパーティクルにおけるパラメータの確率分布にしたがい、当該後続のフレームに対応する各パーティクルのパラメータを再サンプリングする。続いて、再サンプリングされたパラメータを基に、当該後続のフレームに対応する各パーティクルのパラメータを決定する。以上の処理をフレームごとに行なうことにより、逐次的に各パーティクルにおけるパラメータを決定する。
<Particle filter>
Hereinafter, the particle filter will be described. In this method, initial parameters in a large number of particles are determined by random sampling or sampling from a probability distribution representing the initial state of the parameters. Then, the following processing is performed for each frame. That is, when a parameter is determined for each particle corresponding to a certain frame, first, the parameter of each particle is updated to one corresponding to a frame subsequent to the frame. Subsequently, a weight is assigned to each particle according to the likelihood of update. Subsequently, the parameter of each particle corresponding to the subsequent frame is resampled according to the parameter probability distribution in the updated particle. Subsequently, the parameter of each particle corresponding to the subsequent frame is determined based on the resampled parameter. By performing the above processing for each frame, parameters for each particle are sequentially determined.

パーティクルフィルタにおいて、状態空間モデル160におけるパラメータはそれぞれ、パーティクルにおけるパラメータの重み付き和によって近似的に表現される。ここに、パーティクルの数をJ個とし、第tフレームでの、j(1≦j≦J)番目のパーティクルにおける雑音の特徴量ベクトルをベクトルNt (j)とする。さらに、第tフレームにおけるj番目のパーティクルに対する重みをwt (j)とする。式(3)に示す事後確率分布p(N0:t|X0:t)は、次の式(4)に示すモンテカルロサンプリングにより近似的に表現される。 In the particle filter, each parameter in the state space model 160 is approximately expressed by a weighted sum of parameters in the particle. Here, the number of particles is J, and the noise feature vector of the j (1 ≦ j ≦ J) -th particle in the t-th frame is a vector N t (j) . Further, let w t (j) be the weight for the j-th particle in the t-th frame. The posterior probability distribution p (N 0: t | X 0: t ) shown in the equation (3) is approximately expressed by the Monte Carlo sampling shown in the following equation (4).

Figure 2008298844
なお、この式においてδ()は、Dirac-delta関数を表す。
Figure 2008298844
In this equation, δ () represents the Dirac-delta function.

j番目のパーティクルにおける雑音の特徴量ベクトルの系列N0:t (j)を出力する確率分布をq(N0:t (j)|X0:t)とすると、パーティクルに対する重みwt (j)は、次の式(5)により与えられる。 If the probability distribution for outputting the noise feature vector series N 0: t (j) in the j-th particle is q (N 0: t (j) | X 0: t ), the weight w t (j ) Is given by the following equation (5).

Figure 2008298844
確率分布q(N0:t (j)|X0:t)は、次の式(6)に示す連鎖モデルで表現されるものとする。
Figure 2008298844
The probability distribution q (N 0: t (j) | X 0: t ) is assumed to be expressed by a chain model shown in the following equation (6).

Figure 2008298844
また、上記の式(3)の事後確率分布p(N0:t|X0:t)は、ベイズ則により次の式(7)のように表現できる。
Figure 2008298844
Further, the posterior probability distribution p (N 0: t | X 0: t ) of the above equation (3) can be expressed as the following equation (7) by Bayes rule.

Figure 2008298844
したがって、式(5)、式(6)、及び式(7)より、パーティクルに対する重みwt (j)は、式(8)によって与えられることになる。
Figure 2008298844
Therefore, the weight w t (j) for the particles is given by the equation (8) from the equations (5), (6), and (7).

Figure 2008298844
ここで、p(Nt (j)|Nt-1 (j))=q(Nt (j)|N0:t-1 (j),X0:t)と仮定すると、式(8)より、式(9)が得られる。
Figure 2008298844
Assuming that p (N t (j) | N t-1 (j) ) = q (N t (j) | N 0: t-1 (j) , X 0: t ), the equation (8 ), Equation (9) is obtained.

Figure 2008298844
式(9)のp(Xt|Nt (j))は、次の式(10)に示す確率密度関数によりモデル化される。
Figure 2008298844
P (X t | N t (j) ) in the equation (9) is modeled by a probability density function shown in the following equation (10).

Figure 2008298844
Figure 2008298844

雑音確率分布推定部200は、雑音確率分布の推定パラメータ205として、パーティクルj(1≦j≦J)ごとに、パーティクルにおける雑音の特徴量ベクトルNt (j)に関する式(4)における確率密度関数p(N0:t (j)|X0:t)のパラメータと、そのパーティクルに対する重みwt (j)とを、図3に示す状態空間モデル160に基づいて逐次的に算出する。確率密度関数p(N0:t (j)|X0:t)のパラメータは、そのパーティクルにおける雑音の特徴量ベクトルNt (j)の平均ベクトル^Nt (j)と共分散行列ΣNt (j)とを含む。以下、確率密度関数p(N0:t|X0:t)の平均ベクトル^Nt (j)と共分散行列ΣNt (j)とを、「(j番目の)パーティクルにおける雑音のパラメータ」と呼ぶ。 The noise probability distribution estimation unit 200 uses, as the noise probability distribution estimation parameter 205, the probability density function in the equation (4) for the feature vector N t (j) of the noise in the particle for each particle j (1 ≦ j ≦ J). The parameter of p (N 0: t (j) | X 0: t ) and the weight w t (j) for the particle are sequentially calculated based on the state space model 160 shown in FIG. The parameters of the probability density function p (N 0: t (j) | X 0: t ) are the mean vector ^ N t (j) of the noise feature vector N t (j) in the particle and the covariance matrix Σ Nt (j) . Hereinafter, the mean vector ^ N t (j) of the probability density function p (N 0: t | X 0: t ) and the covariance matrix Σ Nt (j) are expressed as “the noise parameter in the (j-th) particle”. Call it.

〈状態遷移過程に対する拘束条件〉
上記のとおり、式(2)に示す状態方程式では、雑音の特徴量ベクトルNtの時間変化を正確に表現することはできない。そこで、本実施の形態では、各パーティクルにおける雑音の特徴量ベクトルNt (j)(1≦j≦J)の変化に対し、次の式(11)に示す状態方程式を導入する。
<Restrictions for state transition process>
As described above, in the state equation shown in equation (2), it is impossible to accurately represent the time variation of noise feature vector N t. Therefore, in the present embodiment, the state equation shown in the following equation (11) is introduced with respect to the change of the noise feature vector N t (j) (1 ≦ j ≦ J) in each particle.

Figure 2008298844
この状態方程式(11)において第1項と第2項とは、第t+1フレームにおけるパーティクルの散らばりを抑制するための拘束条件である。以下この拘束条件を第1の拘束条件と呼ぶ。また、状態方程式(11)において第3項は、j番目のパーティクルにおける雑音の特徴量ベクトルの時間推移に対する拘束条件である。以下、この拘束条件を第2の拘束条件と呼ぶ。
Figure 2008298844
In this state equation (11), the first term and the second term are constraint conditions for suppressing particle scattering in the (t + 1) th frame. Hereinafter, this constraint condition is referred to as a first constraint condition. In the state equation (11), the third term is a constraint condition for the time transition of the noise feature vector in the j-th particle. Hereinafter, this constraint condition is referred to as a second constraint condition.

状態方程式(11)においてαは忘却係数であり、βは第2の拘束条件に対するスケーリング係数である。   In the state equation (11), α is a forgetting factor, and β is a scaling factor for the second constraint condition.

第1の拘束条件において、ベクトル^Ntは、第tフレームの各パーティクルにおける雑音の特徴量ベクトルNt (1),…,Nt (J)の加重平均であり、次の式(12)により与えられる。 In the first constraint, the vector ^ N t is a weighted average of noise feature vectors N t (1) ,..., N t (J) in each particle of the t-th frame, and the following equation (12) Given by.

Figure 2008298844
すなわち、第1の拘束条件により、各パーティクルにおける雑音の特徴量ベクトルは、加重平均ベクトル^Ntに近づくよう補正される。
Figure 2008298844
That is, according to the first constraint condition, the feature vector of noise in each particle is corrected so as to approach the weighted average vector ^ N t .

第2の拘束条件において、ベクトルμNt (j)は、j番目のパーティクルにおける過去Tフレーム分の雑音の特徴量ベクトルNt-T+1 (j),…,Nt (j)の平均(Polyak Average)であり、次の式(13)により与えられる。 In the second constraint condition, the vector μ Nt (j) is an average of noise feature vectors N t−T + 1 (j) ,..., N t (j) for the past T frames in the j-th particle ( Polyak Average), which is given by the following equation (13).

Figure 2008298844
すなわち、第2の拘束条件により、パーティクルにおける雑音の特徴量ベクトルにそれぞれ、そのパーティクルにおけるPolyak AverageベクトルμNt (j)がフィードバックされる。本実施の形態では、式(11)に示す状態方程式の忘却係数α及び第2の拘束条件に対するスケーリング係数βと、式(13)におけるフレーム数Tとが、図1に示す拘束条件パラメータ138として与えられる。
Figure 2008298844
That is, the Polyak Average vector μ Nt (j) of the particle is fed back to the noise feature vector of the particle by the second constraint condition. In the present embodiment, the forgetting factor α of the state equation shown in Equation (11), the scaling factor β for the second constraint condition, and the frame number T in Equation (13) are used as the constraint parameter 138 shown in FIG. Given.

雑音確率分布推定部200は、観測方程式(1)と上記の状態方程式(11)とにより表される状態空間モデルに基づくパーティクルフィルタを用いて、雑音確率分布の逐次推定を行なう。   The noise probability distribution estimation unit 200 sequentially estimates the noise probability distribution using a particle filter based on the state space model represented by the observation equation (1) and the state equation (11).

〈雑音確率分布推定部200の構成〉
図5に、雑音確率分布推定部200の構成をブロック図で示す。図5を参照して、雑音確率分布推定部200は、クリーン音声推定部204からの要求210を受けて、観測信号の特徴量124から処理対象となるフレームを選択し、当該フレームに対応する観測信号の特徴量124をフレームに応じた出力先に与えるためのフレーム選択部220を含む。
<Configuration of Noise Probability Distribution Estimation Unit 200>
FIG. 5 is a block diagram showing the configuration of the noise probability distribution estimation unit 200. Referring to FIG. 5, noise probability distribution estimation section 200 receives request 210 from clean speech estimation section 204, selects a frame to be processed from feature quantity 124 of the observation signal, and performs observation corresponding to the frame. A frame selection unit 220 for providing the signal feature quantity 124 to the output destination corresponding to the frame is included.

雑音確率分布推定部200はさらに、フレーム選択部220から観測信号の特徴量124を受けて、初期的な状態における雑音を表す確率分布(以下、「雑音初期分布」と呼ぶ。)を推定し、多数(J個)のパーティクルについて、t=0のフレーム(以下、このフレームを「初期フレーム」と呼ぶ。)における雑音確率分布の推定パラメータ205を決定するための雑音初期分布推定部222と、フレーム選択部220から観測信号の特徴量124を受け、各パーティクルについて、t(t≧1)番目のフレームにおける雑音確率分布の推定パラメータ205を、逐次的に算出するための逐次計算部224とを含む。   The noise probability distribution estimation unit 200 further receives a feature quantity 124 of the observation signal from the frame selection unit 220, estimates a probability distribution representing noise in an initial state (hereinafter referred to as “noise initial distribution”), and For a large number (J) of particles, a noise initial distribution estimation unit 222 for determining a noise probability distribution estimation parameter 205 in a frame at t = 0 (hereinafter, this frame is referred to as an “initial frame”), a frame A sequential calculation unit 224 for sequentially calculating an estimation parameter 205 of the noise probability distribution in the t (t ≧ 1) -th frame for each particle in response to the feature value 124 of the observation signal from the selection unit 220; .

フレーム選択部220は、要求210が与えられる度に、処理対象のフレームを順次選択する。フレーム選択部220は、処理対象として初期フレームを選択すると、観測信号の特徴量Xt124のうち最初の所定フレーム分(例えば10フレーム分)を、雑音初期分布推定部222に与える。またフレーム選択部220は、処理対象としてその他(t≧1)のフレームを選択すると、そのフレームにおける観測信号の特徴量Xt124を逐次計算部224に与える。 The frame selection unit 220 sequentially selects frames to be processed every time the request 210 is given. When the initial frame is selected as a processing target, the frame selection unit 220 gives the initial predetermined frame (for example, 10 frames) of the observed signal feature amount X t 124 to the noise initial distribution estimation unit 222. In addition, when the other frame (t ≧ 1) is selected as the processing target, the frame selection unit 220 gives the feature amount X t 124 of the observation signal in the frame to the sequential calculation unit 224.

雑音初期分布推定部222は、雑音初期分布のパラメータを、以下のようにして推定する。   The initial noise distribution estimation unit 222 estimates the parameters of the initial noise distribution as follows.

すなわち、雑音初期分布推定部222は、雑音初期分布が、単一正規分布であるものとみなして、雑音初期分布を推定する。雑音の初期値ベクトルをベクトルN0とし、雑音初期分布をp(N0)とする。雑音初期分布p(N0)における平均ベクトルをμNとし、共分散行列を行列ΣNとすると、雑音初期分布p(N0)は次の式(14)のように表される。 That is, the initial noise distribution estimation unit 222 estimates the initial noise distribution by regarding the initial noise distribution as a single normal distribution. An initial value vector of noise is a vector N 0 , and an initial noise distribution is p (N 0 ). When the average vector in the initial noise distribution p (N 0 ) is μ N and the covariance matrix is a matrix Σ N , the initial noise distribution p (N 0 ) is expressed as the following equation (14).

Figure 2008298844
雑音初期分布推定部222は、最初の所定フレーム分の区間の観測信号の特徴量Xt124が雑音121の成分のみからなるものとみなし、式(14)に示す雑音初期分布p(N0)の平均ベクトルμNと共分散行列ΣNとを推定する。例えば、0≦t≦9の10フレーム分の区間が雑音121の成分のみからなる区間に該当する場合、雑音初期分布推定部222は、平均ベクトルμNと共分散行列ΣNとをそれぞれ、次の式(15)と式(16)とによって算出する。ただし、式(16)においてベクトルの右肩に付した「T」は転置を表す。
Figure 2008298844
The initial noise distribution estimation unit 222 considers that the feature amount X t 124 of the observed signal in the first predetermined frame interval is composed only of the noise 121 component, and the initial noise distribution p (N 0 ) shown in Expression (14). Of the mean vector μ N and the covariance matrix Σ N. For example, when a section of 10 frames of 0 ≦ t ≦ 9 corresponds to a section including only the noise 121 component, the noise initial distribution estimation unit 222 applies the average vector μ N and the covariance matrix Σ N to the next (15) and (16). However, “T” attached to the right shoulder of the vector in Expression (16) represents transposition.

Figure 2008298844
そして雑音初期分布推定部222は、初期フレーム(t=0)でのj番目のパーティクルにおける雑音のパラメータであるベクトルN0 (j)と共分散行列ΣN0 (j)とを、それぞれ、式(17)及び式(18)のように設定する。
Figure 2008298844
Then, the initial noise distribution estimation unit 222 obtains a vector N 0 (j) and a covariance matrix Σ N0 (j) , which are noise parameters of the j-th particle in the initial frame (t = 0), by the formula ( 17) and the equation (18).

Figure 2008298844
すなわち、雑音初期分布推定部222は、j番目のパーティクルにおける雑音の特徴量ベクトルN0 (j)を、初期分布p(N0)からのサンプリングによって生成し、共分散行列ΣN0 (j)を、初期分布p(N0)の共分散行列ΣNに設定する。雑音初期分布推定部222は、式(17)と式(18)とに示す設定をパーティクルj(1≦j≦J)ごとに行なう。
Figure 2008298844
That is, the noise initial distribution estimation unit 222 generates a noise feature vector N 0 (j) in the j-th particle by sampling from the initial distribution p (N 0 ), and generates a covariance matrix Σ N0 (j) . , Set to the covariance matrix Σ N of the initial distribution p (N 0 ). The initial noise distribution estimation unit 222 performs the setting shown in Expression (17) and Expression (18) for each particle j (1 ≦ j ≦ J).

逐次計算部224は、GMM130から出力パラメータ240をサンプリングするためのGMMサンプリング部226を含む。逐次計算部224はさらに、観測信号の特徴量124を受けて、各パーティクルにおける雑音のパラメータを更新するための更新部230と、更新後のパーティクルに対する重みを算出するための重み算出部232と、算出された重みに基づき、パーティクルにおける雑音のパラメータを再サンプリングするための再サンプリング部234と、再サンプリングされた各パーティクル及び第t−1フレームにおける各パーティクルに基づき、各パーティクルにおける雑音のパラメータを決定し、雑音確率分布の推定パラメータ205を生成するための推定パラメータ生成部236とを含む。   The sequential calculation unit 224 includes a GMM sampling unit 226 for sampling the output parameter 240 from the GMM 130. The sequential calculation unit 224 further receives the feature quantity 124 of the observation signal and updates the noise parameter of each particle, an update unit 230 for calculating the weight for the updated particle, and a weight calculation unit 232 for calculating the weight for the updated particle. Based on the calculated weight, the re-sampling unit 234 for re-sampling the noise parameter in the particle, and determining the noise parameter in each particle based on each re-sampled particle and each particle in the t-1 frame. And an estimation parameter generation unit 236 for generating an estimation parameter 205 of the noise probability distribution.

GMMサンプリング部226は、パーティクルj(1≦j≦J)ごとに、GMM130(図2参照)内の混合分布140から、パーティクルに対応する要素分布kt (j)を、その混合重みに基づいてサンプリングする。GMMサンプリング部226はさらに、出力パラメータベクトルS(j) kt (j) ,tを、要素分布kt (j)からサンプリングして、更新部230に与える。ここにGMM130における要素分布148A,…,148Kの混合重みをPS,ktとすると、要素分布kt (j)は、混合重みPS,ktを出力確率とする確率分布にしたがう。すなわち、GMM130から次の式(19)に示すサンプリングによって得られる。 For each particle j (1 ≦ j ≦ J), the GMM sampling unit 226 calculates an element distribution k t (j) corresponding to the particle from the mixture distribution 140 in the GMM 130 (see FIG. 2) based on the mixture weight. Sampling. Further, the GMM sampling unit 226 samples the output parameter vector S (j) kt (j) , t from the element distribution k t (j), and supplies it to the update unit 230. Here, if the mixing weights of the element distributions 148A,..., 148K in the GMM 130 are P S, kt , the element distribution k t (j) follows a probability distribution with the mixing weights P S, kt as output probabilities. That is, it is obtained from the GMM 130 by sampling shown in the following equation (19).

Figure 2008298844
要素分布kt (j)の平均ベクトルをベクトルμkt (j)とし、要素分布kt (j)の共分散行列を行列ΣS,kt (j)とすると、j番目のパーティクルにおけるGMM130の出力パラメータベクトルS(j) kt (j) ,tは、要素分布kt (j)から、次の式(20)に示すサンプリングによって得られる。
Figure 2008298844
If the average vector of the element distribution k t (j) is the vector μ kt (j) and the covariance matrix of the element distribution k t (j) is the matrix Σ S, kt (j) , the output of the GMM 130 at the j-th particle The parameter vector S (j) kt (j) , t is obtained from the element distribution k t (j) by sampling shown in the following equation (20).

Figure 2008298844
なお、フレーム選択部220はさらに、GMMサンプリング部226に対し、第tフレームにおけるGMMの出力パラメータのサンプリングを要求する機能を持つ。
Figure 2008298844
The frame selection unit 220 further has a function of requesting the GMM sampling unit 226 to sample the output parameters of the GMM in the t-th frame.

更新部230は、上記の観測方程式(1)及び状態方程式(11)からなる動的モデルを状態空間モデルとする拡張カルマンフィルタによって、第t−1フレームに対応する各パーティクルにおける雑音のパラメータを、第tフレームに対応するものに更新する機能を持つ。この際、拘束条件パラメータ138と、状態空間モデル160(図3)と、GMMサンプリング部226によりサンプリングされた出力パラメータS(j) kt (j) ,tとを基にパラメータの更新を行なう。なお、拡張カルマンフィルタは、観測方程式(1)に示すように非線形項を含む状態空間モデルに対応したカルマンフィルタである。 The updating unit 230 sets the noise parameter in each particle corresponding to the t−1 frame by the extended Kalman filter using the dynamic model composed of the observation equation (1) and the state equation (11) as a state space model. It has a function of updating to the one corresponding to the t frame. At this time, the parameters are updated based on the constraint parameter 138, the state space model 160 (FIG. 3), and the output parameter S (j) kt (j) , t sampled by the GMM sampling unit 226. The extended Kalman filter is a Kalman filter corresponding to a state space model including a nonlinear term as shown in the observation equation (1).

図6に、更新部230の構成をブロック図で示す。図6を参照して、更新部230は、第t−1フレームの雑音確率分布の推定パラメータ205を基に、第t−1フレームについて、状態方程式(11)の上記した第1の拘束条件に係る加重平均ベクトル^Nt-1を上記の式(12)を用いて算出するための加重平均算出部250を含む。 FIG. 6 is a block diagram showing the configuration of the update unit 230. Referring to FIG. 6, the updating unit 230 sets the first constraint condition of the state equation (11) for the t−1 frame based on the estimation parameter 205 of the noise probability distribution of the t−1 frame. A weighted average calculation unit 250 for calculating the weighted average vector ^ N t-1 using the above equation (12) is included.

更新部230はさらに、第t−1フレーム以前の各フレームについて、各パーティクルにおける雑音のパラメータを、パーティクルごとに蓄積するためのバッファメモリ部252と、バッファメモリ部252に蓄積された雑音のパラメータ及び拘束条件パラメータ138により定められるフレーム数Tを基に、各パーティクルについて、第t−1フレームにおける、上記の式(13)に示すTフレーム分のPolyak AverageベクトルμNt-1 (j)を算出するためのPolyak Average算出部254と、Polyak AverageベクトルμNt-1 (j)と第t−1フレームにおける雑音確率分布の推定パラメータ205とを基に、状態方程式(11)の第2の拘束条件におけるフィードバック分に対応するベクトルを算出するための、フィードバック部256とを含む。フィードバック部256は、Polyak AverageベクトルμNt-1 (j)と第t−1フレームにおける平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。 The updating unit 230 further includes a buffer memory unit 252 for storing the noise parameter for each particle for each frame before the t−1th frame, the noise parameter stored in the buffer memory unit 252, and Based on the number of frames T determined by the constraint condition parameter 138, the Polyak average vector μ Nt−1 (j) for the T frames shown in the above equation (13) in the t−1th frame is calculated for each particle. For the second constraint condition of the state equation (11), based on the Polyak Average calculation unit 254, the Polyak Average vector μ Nt-1 (j), and the estimation parameter 205 of the noise probability distribution in the t−1 frame. A feedback unit 256 for calculating a vector corresponding to the feedback component. The feedback unit 256 calculates the difference μ Nt-1 (j) − ^ N t-1 (j ) between the Polyak Average vector μ Nt-1 (j) and the average vector ^ N t-1 (j) in the t−1 frame. ) Is calculated.

更新部230はさらに、観測方程式(1)と状態方程式(11)とからなるモデルを状態空間モデルとする拡張カルマンフィルタを用いて、第t−1フレームに対応するパーティクルにおける雑音のパラメータを、第tフレームに対応するものに更新するための拡張カルマンフィルタ部258とを含む。拡張カルマンフィルタ部258は、j番目のパーティクルにおける雑音のパラメータの更新に、第tフレームにおける観測信号の特徴量Xt124と、j番目のパーティクルにおけるGMM130(図2参照)の出力パラメータベクトルS(j) kt (j) ,tと、拘束条件パラメータ138として与えられる忘却係数α及びスケーリング係数βと、加重平均ベクトル^Nt-1と、差分μNt-1 (j)−^Nt-1 (j)とを用いる。 Further, the updating unit 230 uses the extended Kalman filter whose state space model is the model made up of the observation equation (1) and the state equation (11) to set the noise parameter in the particle corresponding to the t−1 frame to the t And an extended Kalman filter unit 258 for updating to the one corresponding to the frame. The extended Kalman filter unit 258 updates the parameter of the noise in the j-th particle, the observed signal feature amount X t 124 in the t-th frame, and the output parameter vector S (j in the GMM 130 (see FIG. 2) in the j-th particle. ) kt (j) , t , forgetting factor α and scaling factor β given as constraint parameter 138, weighted average vector ^ N t-1 , and difference μ Nt-1 (j) − ^ N t-1 ( j) .

本実施の形態における拡張カルマンフィルタの分布更新式を、以下の式(21)〜式(26)に示す。なお、これらの数式において第t−1フレームに対応するパラメータから予測される第tフレームにおけるパラメータについては添え字として「t|t-1」を付してある。 Expressions (21) to (26) below show the distribution update formulas of the extended Kalman filter in the present embodiment. In these equations, “ t | t−1 ” is attached as a subscript to the parameter in the t-th frame predicted from the parameter corresponding to the t−1 frame.

Figure 2008298844
ただし、行列ΣWは、前述したとおり、第t−1フレームから第tフレームへの状態変化の際に雑音の特徴量ベクトルNtに生じるランダムガウス雑音ベクトルWt-1の共分散行列を表す。
Figure 2008298844
However, as described above, the matrix Σ W represents the covariance matrix of the random Gaussian noise vector W t−1 generated in the noise feature vector N t when the state changes from the t−1 frame to the t frame. .

再び図5を参照して、重み算出部232は、第tフレームでの観測信号の特徴量ベクトルXt124と、第tフレームの各パーティクルにおけるGMM130の出力パラメータベクトルS(j) kt (j) ,tと、当該フレームの当該パーティクルにおける雑音のパラメータである平均ベクトル^Nt (j)及び共分散行列ΣNt (j)と、第t−1フレームのパーティクルに対する重みwt-1 (j)とを基に、上記の式(9)及び式(10)に示す算出方法を用いて、第tフレームのパーティクルに対する重みwt (j)を算出する機能を持つ。なお、重みwt (j)(1≦j≦J)は、Σj=1〜Jt (j)=1となるように正規化される。 Referring to FIG. 5 again, the weight calculation unit 232 includes the feature vector X t 124 of the observation signal in the t-th frame and the output parameter vector S (j) kt (j) of the GMM 130 for each particle in the t-th frame. , t , a mean vector ^ N t (j) and a covariance matrix Σ Nt (j) that are parameters of noise in the particle in the frame, and a weight w t-1 (j) for the particle in the t−1 frame. Based on the above, the weight w t (j) for the particles in the t-th frame is calculated using the calculation methods shown in the above equations (9) and (10). The weights w t (j) (1 ≦ j ≦ J) are normalized so that Σ j = 1 to J w t (j) = 1.

再サンプリング部234は、パラメータが更新されたパーティクルにおける雑音の確率分布にしたがい、第tフレームに対応する各パーティクルにおける雑音のパラメータを再サンプリングする機能を持つ。この際、再サンプリング部234は、微小な重みwt (j)しか与えられていないパーティクルにおける雑音の確率分布からは、雑音のパラメータの再サンプリングを行なわない。一方、大きな重みwt (j)が与えられているパーティクルにおける確率分布からは、重みwt (j)の大きさに応じた回数再サンプリングを行ない、得られた雑音のパラメータをそれぞれ、当該再サンプリングの回数と同数のパーティクルに割当てる。ただし再サンプリングの全回数及びパーティクルの全数は一定(J)である。このようにするのは、各パーティクルに割当てられる重みが、上記の式(9)から分かるように観測信号の特徴量Xt124の尤度に対応しているからである。 The re-sampling unit 234 has a function of re-sampling the noise parameter of each particle corresponding to the t-th frame according to the noise probability distribution of the particle whose parameter is updated. At this time, the resampling unit 234 does not resample the noise parameter from the probability distribution of noise in the particles to which only a minute weight w t (j) is given. On the other hand, from the probability distribution of particles with a large weight w t (j), resampling is performed a number of times according to the size of the weight w t (j) , and the noise parameters obtained are re-sampled. Allocate the same number of particles as the number of samplings. However, the total number of resampling and the total number of particles are constant (J). This is because the weight assigned to each particle corresponds to the likelihood of the feature quantity X t 124 of the observation signal as can be seen from the above equation (9).

推定パラメータ生成部236は、マルコフ連鎖モンテカルロ法のMetropolis-Hastingsアルゴリズムにより、第tフレームに対応するパーティクルを再生成する機能を持つ。図7に、推定パラメータ生成部236の構成をブロック図で示す。図7を参照して、推定パラメータ生成部236は、第t−1フレームに対応する各パーティクルにおける雑音のパラメータを、第tフレームに対応するものに再更新するための再更新部262を含む。再更新部262は、再サンプリング部234による再サンプリングで得られた各パーティクルにおける雑音のパラメータを用いて、状態空間モデル160における雑音確率分布を生成する。そして、当該生成した確率分布と拘束条件パラメータ138とに基づき、図6に示す更新部230と同様の手法を用いて、上記の式(21)〜式(26)に示す分布更新式により表される拡張カルマンフィルタによって、各パーティクルにおける雑音のパラメータの再更新を行なう。   The estimation parameter generation unit 236 has a function of regenerating particles corresponding to the t-th frame by the Metropolis-Hastings algorithm of the Markov chain Monte Carlo method. FIG. 7 is a block diagram showing the configuration of the estimation parameter generation unit 236. Referring to FIG. 7, estimated parameter generation section 236 includes a re-update section 262 for re-updating the noise parameter in each particle corresponding to the (t−1) -th frame to that corresponding to the t-th frame. The re-update unit 262 generates a noise probability distribution in the state space model 160 using the noise parameter of each particle obtained by the re-sampling by the re-sampling unit 234. Then, based on the generated probability distribution and the constraint condition parameter 138, the distribution updating formulas shown in the above formulas (21) to (26) are expressed using the same method as the updating unit 230 shown in FIG. The noise parameter of each particle is updated again by the extended Kalman filter.

推定パラメータ生成部236はさらに、再更新されたパーティクルに対する重み(これを以下「wt *(j)」とする。)を上記の式(9)及び式(10)に示す算出方法を用いて算出するための重み再計算部264を含む。 The estimation parameter generation unit 236 further uses the calculation method shown in the above equations (9) and (10) to calculate the weights for the re-updated particles (hereinafter referred to as “w t * (j) ”). A weight recalculation unit 264 for calculation is included.

推定パラメータ生成部236はさらに、再サンプリングされたパーティクルに対する重みwt (j)及び再更新されたパーティクルに対する重みwt *(j)から、再更新された雑音のパラメータを許容するか否かの判定に用いる許容確率νを算出するための許容確率算出部266と、所定の乱数発生方法により0から1までの閉区間内の乱数uを発生させるための乱数発生部268と、許容確率νと乱数uとに基づき、第tフレームに対応するパーティクルにおけるパラメータとして、再サンプリングされたパーティクルにおける雑音のパラメータと、再更新されたパーティクルにおける雑音のパラメータとの一方を選択するためのパラメータ選択部270とを含む。 The estimation parameter generation unit 236 further determines whether or not to allow a re-updated noise parameter from the weight w t (j) for the re-sampled particle and the weight w t * (j) for the re-updated particle. An allowable probability calculating unit 266 for calculating an allowable probability ν used for the determination, a random number generating unit 268 for generating a random number u within a closed interval from 0 to 1 by a predetermined random number generating method, an allowable probability ν, A parameter selection unit 270 for selecting one of the noise parameter of the resampled particle and the noise parameter of the reupdated particle as the parameter of the particle corresponding to the t-th frame based on the random number u; including.

許容確率算出部266は、重みwt (j)及び重みwt *(j)から次の式(27)にしたがって、許容確率νを算出する機能を持つ。 The allowable probability calculation unit 266 has a function of calculating the allowable probability ν from the weight w t (j) and the weight w t * (j) according to the following equation (27).

Figure 2008298844
パラメータ選択部270は、乱数uが許容確率ν以下であれば、当該パーティクルにおける雑音のパラメータ及びその重みを再更新で得られた新たなパラメータ及びその重みに変更する機能を持つ。
Figure 2008298844
If the random number u is less than or equal to the allowable probability ν, the parameter selection unit 270 has a function of changing the noise parameter and its weight in the particle to a new parameter and its weight obtained by re-update.

〈コンピュータによる実現〉
以下の説明からも明らかなように、図1に示す音声認識システム100の前処理部104、前処理用音響モデル部106、及び探索部110は、いずれもコンピュータハードウェアと、その上で実行されるプログラムと、コンピュータハードウェアに格納されたデータとにより実現可能である。図8に、前処理部104(図1参照)に含まれる雑音抑圧部114が行なう雑音抑圧処理を実現するコンピュータプログラムの制御構造をフローチャートで示す。
<Realization by computer>
As will be apparent from the following description, the preprocessing unit 104, the preprocessing acoustic model unit 106, and the search unit 110 of the speech recognition system 100 shown in FIG. 1 are all executed on computer hardware. And a program stored in computer hardware. FIG. 8 is a flowchart showing a control structure of a computer program that realizes noise suppression processing performed by the noise suppression unit 114 included in the preprocessing unit 104 (see FIG. 1).

図8を参照して、雑音抑圧処理が開始されると、ステップ282において、初期状態における雑音の特徴量N0の各要素の値に対応する初期分布を推定する。すなわち、上記の式(15)及び式(16)に示す算出方法により、式(4)に示す雑音初期分布p(N0)のパラメータである平均ベクトルμN及び共分散行列ΣNを算出する。さらに、式(17)及び式(18)にしたがい雑音初期分布p(N0)からベクトルN0 (j)(j=1,…,J)をサンプリングし、初期フレームの各パーティクルにおける雑音のパラメータを推定する。またステップ282では、変数IにL−1を代入する。すなわち、図4に示す計算制御部212は、回数記憶部218にL−1を記憶させる。 Referring to FIG. 8, when the noise suppression process is started, in step 282, an initial distribution corresponding to the value of each element of noise feature amount N 0 in the initial state is estimated. That is, the average vector μ N and the covariance matrix Σ N that are parameters of the initial noise distribution p (N 0 ) shown in the equation (4) are calculated by the calculation methods shown in the equations (15) and (16). . Further, the vector N 0 (j) (j = 1,..., J) is sampled from the noise initial distribution p (N 0 ) according to the equations (17) and (18), and the noise parameters for each particle in the initial frame are sampled. Is estimated. In addition the step 282, is substituted for L-1 to the variable I L. That is, the calculation control unit 212 illustrated in FIG. 4 stores L−1 in the number storage unit 218.

ステップ284では、雑音抑圧の対象となるフレームを次のフレームに移行させる。以下の説明では、移行後のフレームが第tフレームであるものとする。   In step 284, the frame subject to noise suppression is shifted to the next frame. In the following description, it is assumed that the frame after the transition is the t-th frame.

ステップ285では、パーティクルフィルタを用いて、処理対象のフレームについて、各パーティクルにおける雑音のパラメータを推定する。すなわち、確率密度関数p(N0:t (j)|X0:t)のパラメータである平均ベクトル^Nt (j)及び共分散行列ΣNt (j)を推定し、さらに、各パーティクルに対する重みwt (j)を定めて、雑音確率分布の推定パラメータ205を生成する。このステップでの処理については、図11を用いて後述する。 In step 285, the noise parameter in each particle is estimated for the processing target frame using the particle filter. That is, the mean vector ^ N t (j) and the covariance matrix Σ Nt (j) that are parameters of the probability density function p (N 0: t (j) | X 0: t ) are estimated, and further, for each particle. A weight w t (j) is determined, and an estimation parameter 205 of the noise probability distribution is generated. The processing in this step will be described later with reference to FIG.

ステップ286では、変数Iに1を加算する。 In step 286, 1 is added to the variable I L.

ステップ288では、変数Iの値が定数Lの値と等しいか否かが判定され、その判定結果に応じて制御の流れが分岐される。すなわち、この判定結果がYESであれば制御はこの後のステップ292に進み、それ以外であれば制御は後述するステップ298に進む。 In step 288, the value of the variable I L is determined whether equal to the value of the constant L, control flow depending on the result of the determination is branched. That is, if this determination result is YES, control proceeds to the subsequent step 292, and otherwise, control proceeds to step 298 described later.

ステップ292では、観測信号分布のパラメータ208を推定する。すなわち、ステップ285で定めた各パーティクルの雑音のパラメータ^Nt (j)、及びΣNt (j)を用いて、各パーティクルにおける観測信号の特徴量Xt124の確率分布を推定する。さらに、GMM130を構成する要素分布k(1≦k≦K)ごとに、パーティクルにおける観測信号の特徴量Xt124の確率分布の平均ベクトルμXkt (j) ,tと、共分散行列ΣXk,t (j)とを算出する。 In step 292, the observed signal distribution parameter 208 is estimated. That is, the probability distribution of the feature quantity X t 124 of the observed signal in each particle is estimated using the noise parameters ^ N t (j) and Σ Nt (j) determined in step 285. Further, for each element distribution k (1 ≦ k ≦ K) constituting the GMM 130, the average vector μ Xkt (j) , t of the probability distribution of the observed signal feature quantity X t 124 in the particle and the covariance matrix Σ Xk, t (j) is calculated.

ステップ294では、ステップ292で推定された観測信号の確率分布の平均ベクトル及び共分散行列を分布記憶部214(図4参照)に記憶する。続くステップ296では変数Iの値を0にクリアする。この後、制御はステップ300に進む。 In step 294, the average vector and covariance matrix of the probability distribution of the observed signal estimated in step 292 are stored in the distribution storage unit 214 (see FIG. 4). The value of the subsequent step 296 variable I L is cleared to 0. Thereafter, control proceeds to step 300.

一方、ステップ288における判定結果がNOである場合、制御はステップ298に進む。ステップ298では、ステップ288における判定結果がYESとなったときに分布記憶部214に記憶された平均ベクトル及び共分散行列が分布記憶部214から読出される。ステップ298の後、制御はステップ300に進む。   On the other hand, if the determination result in step 288 is NO, the control proceeds to step 298. In step 298, the average vector and covariance matrix stored in the distribution storage unit 214 when the determination result in step 288 is YES are read from the distribution storage unit 214. After step 298, control proceeds to step 300.

ステップ300では、MMSE推定法により、第tフレームにおける推定クリーン音声の特徴量126を算出する。すなわちまず、ステップ285及びステップ292の処理で得られたパラメータ、又はステップ298で分布記憶部214から読出されたパラメータを用いて、MMSE推定法によって、MMSE推定値ベクトル^Stを算出し、推定クリーン音声の特徴量126(図1参照)として出力する。 In step 300, the feature quantity 126 of the estimated clean speech in the t-th frame is calculated by the MMSE estimation method. That is, first, the MMSE estimation value vector S St is calculated by the MMSE estimation method using the parameters obtained by the processing of step 285 and step 292 or the parameters read from the distribution storage unit 214 in step 298, and the estimation is performed. Output as clean speech feature 126 (see FIG. 1).

Figure 2008298844
この式において、P(k|Xt,(j))は、j番目のパーティクルにおける、GMM130内の要素分布kに対する混合重みを表す。混合重みP(k|Xt,(j))は、特許文献1に記載されたものと同様、次の数式により算出される。
Figure 2008298844
In this equation, P (k | X t , (j)) represents the mixing weight for the element distribution k in the GMM 130 in the j-th particle. The mixing weight P (k | X t , (j)) is calculated by the following equation, as described in Patent Document 1.

Figure 2008298844
ただし、式(28)〜(31)はt=n・L(nはゼロ又は正の整数)のときの式である。t≠n・Lのときには、観測信号分布推定部202で推定されたパラメータではなく、分布記憶部214に記憶されたパラメータを用いるので、この式は次のとおりとなる。
Figure 2008298844
However, Expressions (28) to (31) are expressions when t = n · L (n is zero or a positive integer). When t ≠ n · L, since the parameter stored in the distribution storage unit 214 is used instead of the parameter estimated by the observation signal distribution estimation unit 202, this equation is as follows.

Figure 2008298844
この式(32)で、tは、t=(n−1)・L<t<n・L(nは正の整数)となる条件を満たす値である。
Figure 2008298844
In this equation (32), t L is a value that satisfies the condition of t L = (n−1) · L <t <n · L (n is a positive integer).

この様子を図9を参照して説明する。図9は、L=4としたときの、フレーム時間(t)と、各フレームにおいて混合重みの算出に使用される観測信号分布のパラメータとの関係を示す。図9を参照して、ある時刻t=tで観測信号分布のパラメータが算出されたものとする。この後、4フレーム後のt=tで観測信号分布のパラメータが再度算出されるまでのフレームt=t、t及びtでは、t=tで算出された観測信号分布のパラメータが重み算出に使用される。 This will be described with reference to FIG. FIG. 9 shows the relationship between the frame time (t) when L = 4 and the parameters of the observed signal distribution used for calculating the mixing weight in each frame. Referring to FIG. 9, it is assumed that the parameters of the observation signal distributed at a certain time t = t 0 is calculated. Thereafter, in the frames t = t 1 , t 2, and t 3 until the parameter of the observed signal distribution is calculated again at t = t 4 after 4 frames, the parameter of the observed signal distribution calculated at t = t 0 Is used for weight calculation.

このようにして算出された混合重みを用い、ステップ300において、MMSE推定法によって、式(28)〜式(30)にしたがってMMSE推定値ベクトル^Stを算出し、推定クリーン音声の特徴量126(図1参照)として出力する。 In step 300, the MMSE estimation value vector ^ St is calculated according to the equations (28) to (30) by the MMSE estimation method using the mixture weight calculated in this way, and the estimated clean speech feature 126 is obtained. (See FIG. 1).

続いて、ステップ302では、終了判定を行なう。すなわち第tフレームが最終のフレームであれば雑音抑圧処理を終了する。さもなければステップ284に戻る。   Subsequently, in step 302, end determination is performed. That is, if the t-th frame is the final frame, the noise suppression process is terminated. Otherwise return to step 284.

このように、観測信号分布推定部202における観測信号分布の推定が、Lフレームごとに行なわれるようになり、その間のフレームでは行なわれない。この結果、観測信号分布推定部202における処理時間を短縮することができる。その結果、単純に考えてこの部分の計算量は1/Lとなり、クリーン音声の推定のための計算量が大幅に削減できる。   In this way, the observation signal distribution estimation unit 202 estimates the observation signal distribution every L frames, but not in the frames in between. As a result, the processing time in the observation signal distribution estimation unit 202 can be shortened. As a result, the calculation amount of this part is 1 / L simply considering, and the calculation amount for the estimation of clean speech can be greatly reduced.

図10は、Lの値を1,2,4及び8としたときに、どのフレームで観測信号分布の推定が行なわれるかを示す図である。L=1のときは、全てのフレームに対して推定が行なわれる。それに対し、L=2とすると、図10から明らかなように推定を行なうフレーム数は1/2となる。L=4,L=8のときはそれぞれ1/4、1/8となる。   FIG. 10 is a diagram showing in which frame the observation signal distribution is estimated when the value of L is 1, 2, 4, and 8. In FIG. When L = 1, estimation is performed for all frames. On the other hand, if L = 2, the number of frames to be estimated is ½ as apparent from FIG. When L = 4 and L = 8, they are 1/4 and 1/8, respectively.

図11に、ステップ285(図8参照)において行なわれる雑音確率分布の推定パラメータ205の生成処理を実現するプログラムの制御構造をフローチャートで示す。図11を参照して、雑音確率分布の推定パラメータの生成処理が開始されると、ステップ320において、拡張カルマンフィルタによる更新を行なう際の雑音121の状態遷移過程に対する第1及び第2の拘束条件に係るパラメータベクトルを算出する。すなわち、第t−1フレームのパーティクルでの雑音のパラメータの加重平均ベクトル^Nt-1を式(12)を用いて算出する。そして、パーティクルの各々において、過去Tフレーム分の当該パーティクルにおける雑音のパラメータからPolyak AverageベクトルμNt-1 (j)を算出し、平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。 FIG. 11 is a flowchart showing a control structure of a program that realizes the generation process of the estimation parameter 205 of the noise probability distribution performed in step 285 (see FIG. 8). Referring to FIG. 11, when the generation process of the estimation parameter of the noise probability distribution is started, in step 320, the first and second constraint conditions for the state transition process of noise 121 when updating by the extended Kalman filter are set. Such a parameter vector is calculated. That is, the weighted average vector ^ N t-1 of the noise parameter at the particle of the t−1th frame is calculated using Expression (12). Then, for each particle, a Polyak Average vector μ Nt−1 (j) is calculated from the noise parameters of the particle for the past T frames, and a difference μ Nt−1 from the average vector ^ N t−1 (j) is calculated. (j) − ^ N t−1 (j) is calculated.

ステップ322では、式(21)〜式(26)に示す拡張カルマンフィルタを用いて、第t−1フレームのパーティクルにおける雑音確率分布から、第tフレームの各パーティクルにおける雑音のパラメータを推定する。   In step 322, the noise parameter in each particle in the t-th frame is estimated from the noise probability distribution in the particle in the t-1 frame using the extended Kalman filter expressed by the equations (21) to (26).

ステップ324では、第tフレームの各パーティクルに対する重みwt (j)を、式(9)及び式(10)によって算出する。そして、重みwt (j)を正規化する。ステップ326では、各パーティクルに対する重みwt (j)を基に、各パーティクルからの再サンプリングの回数を決定し、当該パーティクルにおける雑音確率分布に基づいてパラメータを再サンプリングする。ステップ328では、Metropolis-Hastingsアルゴリズムを用いて第tフレームのパーティクルを再生成する。 In step 324, the weight w t (j) for each particle in the t-th frame is calculated by the equations (9) and (10). Then, the weight w t (j) is normalized. In step 326, the number of re-sampling from each particle is determined based on the weight w t (j) for each particle, and the parameter is re-sampled based on the noise probability distribution in the particle. In step 328, the particles of the t-th frame are regenerated using the Metropolis-Hastings algorithm.

図12にステップ328(図11参照)における処理の詳細をフローチャートで示す。図12を参照して、ステップ328における処理が開始されると、ステップ340において、図11に示すステップ320と同様に、加重平均ベクトル^Nt-1を、式(12)に示す算出方法で算出する。そして、パーティクルの各々において、過去Tフレーム分の当該パーティクルにおける雑音のパラメータからPolyak AverageベクトルμNt-1 (j)を算出し、平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。 FIG. 12 is a flowchart showing details of processing in step 328 (see FIG. 11). Referring to FIG. 12, when the processing in step 328 is started, in step 340, as in step 320 shown in FIG. 11, the weighted average vector ^ N t-1 is calculated by the calculation method shown in equation (12). calculate. Then, for each particle, a Polyak Average vector μ Nt−1 (j) is calculated from the noise parameters of the particle for the past T frames, and a difference μ Nt−1 from the average vector ^ N t−1 (j) is calculated. (j) − ^ N t−1 (j) is calculated.

続くステップ342では、ステップ326(図11参照)での再サンプリングで得られた各パーティクルにおける雑音パラメータにより表現される雑音確率分布を用いて、式(21)〜式(26)に示す拡張カルマンフィルタにより、各パーティクルにおける雑音のパラメータの再更新を行なう。すなわち、第tフレームのパーティクルを新たに準備し、ステップ322(図11参照)での処理と同様の処理により、第t−1フレームのパーティクルに対応するパラメータから、第tフレームのパーティクルに対応するパラメータへの再更新を行ない、準備したパーティクルのパラメータに設定する。ステップ344では、ステップ342で準備したパーティクルに対する重みwt *(j)を、図11に示すステップ324の処理と同様の処理で算出し正規化する。 In the subsequent step 342, using the noise probability distribution expressed by the noise parameter in each particle obtained by re-sampling in step 326 (see FIG. 11), the extended Kalman filter shown in equations (21) to (26) is used. The noise parameters in each particle are updated again. In other words, particles at the t-th frame are newly prepared, and corresponding to the particles at the t-th frame from the parameters corresponding to the particles at the (t-1) -th frame by the same process as the process at step 322 (see FIG. 11). Update the parameters again and set the parameters of the prepared particles. In step 344, the weight w t * (j) for the particles prepared in step 342 is calculated and normalized by the same process as the process in step 324 shown in FIG.

ステップ346では、ステップ324の処理で算出された重みwt (j)と、ステップ344で算出された重みwt *(j)との比較により、ステップ342で準備されたパーティクルの許容確率νを定める。ステップ348では、区間[0,1]の値からなる一様な集合U[0,1]の中から任意の値を選択することにより乱数uを発生する。ステップ350では、ステップ348で発生した乱数uの値と、ステップ346で定めた許容確率νの値とを比較する。uが許容確率の値以下であれば、ステップ352へ進む。さもなければステップ354に進む。ステップ352では、ステップ342で準備されたパーティクルを許容する。すなわち、ステップ326での再サンプリングで得られたパラメータを、準備されたパーティクルのパラメータで置換して処理を終了する。ステップ354では、ステップ342で準備されたパーティクルを棄却する。すなわち、準備されたパーティクル及びそのパラメータを棄却し、処理を終了する。 In step 346, the allowable probability ν of the particles prepared in step 342 is determined by comparing the weight w t (j) calculated in step 324 with the weight w t * (j) calculated in step 344. Determine. In step 348, a random number u is generated by selecting an arbitrary value from the uniform set U [0,1] consisting of values in the interval [0,1]. In step 350, the value of the random number u generated in step 348 is compared with the value of the allowable probability ν determined in step 346. If u is less than or equal to the allowable probability, the process proceeds to step 352. Otherwise, go to step 354. In step 352, the particles prepared in step 342 are allowed. That is, the parameter obtained by the resampling in step 326 is replaced with the parameter of the prepared particle, and the process is terminated. In step 354, the particles prepared in step 342 are rejected. That is, the prepared particles and their parameters are rejected, and the process ends.

〔動作〕
本実施の形態に係る音声認識システム100は以下のように動作する。
[Operation]
The speech recognition system 100 according to the present embodiment operates as follows.

まず、図5に示す雑音確率分布推定部200が、初期フレーム(t=0)における雑音確率分布の推定パラメータ205を生成する動作について説明する。図1に示す計測部112が、音源102から雑音重畳音声122を受け、観測信号の特徴量Xt124を抽出する。抽出された特徴量Xt124は、雑音抑圧部114の図5に示す雑音確率分布推定部200に与えられる。 First, an operation in which the noise probability distribution estimation unit 200 shown in FIG. 5 generates the noise probability distribution estimation parameter 205 in the initial frame (t = 0) will be described. The measurement unit 112 illustrated in FIG. 1 receives the noise-superimposed speech 122 from the sound source 102, and extracts the feature amount X t 124 of the observation signal. The extracted feature amount X t 124 is given to the noise probability distribution estimation unit 200 shown in FIG. 5 of the noise suppression unit 114.

図5を参照して、雑音確率分布推定部200のフレーム選択部220は、特徴量Xt124のうち最初の10フレーム分を、雑音初期分布推定部222に与える。雑音初期分布推定部222は、上記の式(14)〜式(16)に示す処理により雑音初期分布p(N0)を推定する。さらに、雑音初期分布p(N0)から、上記の式(17)及び式(18)に示すサンプリングをJ回行なう。このサンプリングによって、各パーティクルにおける雑音の初期的なパラメータであるベクトルN0 (j)及び共分散行列ΣN0 (j)が決定される。雑音確率分布推定部200は、これらのパラメータを、初期フレームにおける雑音確率分布の推定パラメータ205として出力する。 With reference to FIG. 5, the frame selection unit 220 of the noise probability distribution estimation unit 200 gives the first 10 frames of the feature amount X t 124 to the noise initial distribution estimation unit 222. The initial noise distribution estimation unit 222 estimates the initial noise distribution p (N 0 ) by the processing shown in the above equations (14) to (16). Further, sampling shown in the above equations (17) and (18) is performed J times from the initial noise distribution p (N 0 ). By this sampling, a vector N 0 (j) and a covariance matrix Σ N0 (j), which are initial parameters of noise in each particle, are determined. The noise probability distribution estimation unit 200 outputs these parameters as an estimation parameter 205 of the noise probability distribution in the initial frame.

図4に示す間隔記憶部206には値Lが予め設定されており、回数記憶部218には値L−1が記憶される。   A value L is preset in the interval storage unit 206 illustrated in FIG. 4, and a value L−1 is stored in the number storage unit 218.

次に、雑音確率分布推定部200の逐次推定部224が、第tフレーム(t≧1)における雑音確率分布の推定パラメータ205を生成する動作について説明する。図5を参照して、次のフレームの処理の開始要求210に応答して、フレーム選択部220は、GMMサンプリング部226に、第tフレームにおけるGMMの出力パラメータのサンプリングを要求するとともに、観測信号の特徴量Xt124を更新部230に与える。 Next, an operation in which the successive estimation unit 224 of the noise probability distribution estimation unit 200 generates the noise probability distribution estimation parameter 205 in the t-th frame (t ≧ 1) will be described. Referring to FIG. 5, in response to processing start request 210 for the next frame, frame selection unit 220 requests GMM sampling unit 226 to sample the output parameter of GMM in the t-th frame and observe signal It gives the feature quantity X t 124 of the updating section 230.

GMMサンプリング部226は、GMM130から、出力パラメータベクトルS(j) kt (j) ,tのサンプリングを行なう。例えば、j番目のパーティクルにおいて、GMMサンプリング部226が、図2に示すGMM130内の混合正規分布140の中から、混合重みにしたがった確率で要素分布kt (j)のサンプリングを行なう。その結果、要素分布kt (j)として、要素分布150がサンプリングされたものとする。GMMサンプリング部226はさらに、要素分布kt (j)により表される出力確率の分布にしたがい、出力パラメータベクトルS(j) kt (j) ,tをサンプリングする。GMMサンプリング部226は、総数Jの各パーティクルにおける出力パラメータベクトルS(j) kt (j) ,tをそれぞれ、以上の手順でサンプリングし、図5に示す更新部230に与える。 The GMM sampling unit 226 samples the output parameter vector S (j) kt (j) , t from the GMM 130. For example, at the j-th particle, the GMM sampling unit 226 samples the element distribution k t (j) with a probability according to the mixing weight from the mixed normal distribution 140 in the GMM 130 shown in FIG. As a result, the element distribution 150 is sampled as the element distribution k t (j) . The GMM sampling unit 226 further samples the output parameter vector S (j) kt (j) , t according to the output probability distribution represented by the element distribution k t (j) . The GMM sampling unit 226 samples the output parameter vectors S (j) kt (j) and t for the total number J of particles in accordance with the above-described procedure, and supplies the sampled data to the updating unit 230 shown in FIG.

図13に、逐次計算部224によるパラメータの更新、及び再サンプリングの概要を模式的に示す。図13においては、ある雑音のパラメータが左右方向に分布し、時間が上から下に進行する。また、図13においては、パーティクルを白抜きの丸印と黒塗りの丸印とによって模式的に示す。例えば、白抜きの丸印で示すパーティクルが重みwt (j)の値の微小なパーティクルであり、黒塗りの丸印で示すパーティクルが重みwt (j)の値の大きなパーティクルであるものとする。 FIG. 13 schematically shows an outline of parameter updating and re-sampling performed by the sequential calculation unit 224. In FIG. 13, a certain noise parameter is distributed in the left-right direction, and the time advances from top to bottom. Further, in FIG. 13, the particles are schematically shown by white circles and black circles. For example, a particle indicated by a white circle is a minute particle having a value of weight w t (j) , and a particle indicated by a black circle is a particle having a large value of weight w t (j) To do.

図13を参照して、第t−1フレームに対応するパーティクルにより状態空間420が近似的に表現されているものとする。更新部230は、以下のようにして、状態空間420内の各パーティクルにおける雑音のパラメータを、第tフレームに対応する状態空間430内の各パーティクルにおける雑音のパラメータに更新する。   Referring to FIG. 13, it is assumed that state space 420 is approximately represented by particles corresponding to the (t-1) th frame. The updating unit 230 updates the noise parameter of each particle in the state space 420 to the noise parameter of each particle in the state space 430 corresponding to the t-th frame as follows.

まず、図6に示す更新部230の拡張カルマンフィルタ部258は、第t−1フレームの各パーティクルにおける推定確率分布の推定パラメータ205を取得する。取得された推定確率分布の推定パラメータ205は、加重平均算出部250、バッファメモリ252、及びフィードバック部256に与えられる。なお、この時点で、バッファメモリ252には、少なくとも第t−1フレーム以前のTフレーム分について、推定確率分布の推定パラメータ205が格納されている。   First, the extended Kalman filter unit 258 of the updating unit 230 illustrated in FIG. 6 acquires the estimation parameter 205 of the estimated probability distribution of each particle in the t−1 frame. The obtained estimation parameter 205 of the estimated probability distribution is given to the weighted average calculation unit 250, the buffer memory 252, and the feedback unit 256. At this time, the buffer memory 252 stores the estimated parameter 205 of the estimated probability distribution for at least T frames before the (t-1) th frame.

図6に示す加重平均算出部250は、推定確率分布の推定パラメータ205が与えられると、式(12)に示す加重平均ベクトル^Nt-1を算出する。この加重平均ベクトル^Nt-1に基づき、式(11)に示す状態方程式における第1の拘束条件を導入して、雑音の平均ベクトルを補正すると、補正後の雑音確率分布における雑音のパラメータは、補正前の平均ベクトル^Nt-1 (j)より、加重平均ベクトル^Nt-1に近づく。したがって、パーティクルの散らばりが抑制される。 The weighted average calculation unit 250 shown in FIG. 6 calculates the weighted average vector ^ N t-1 shown in Expression (12) when the estimation parameter 205 of the estimated probability distribution is given. When the first constraint condition in the state equation shown in the equation (11) is introduced based on the weighted average vector ^ N t−1 and the noise average vector is corrected, the noise parameter in the corrected noise probability distribution is The weighted average vector ^ N t-1 is closer than the average vector ^ N t-1 (j) before correction. Therefore, scattering of particles is suppressed.

新たな推定確率分布の推定パラメータ205がバッファメモリ部252に蓄積されると、Polyak Average算出部254は、バッファメモリ部252に蓄積されているTフレーム分の推定確率分布の推定パラメータ205を用いて、各パーティクルにおける式(13)に示すPolyak AverageベクトルμNt (j)を算出する。算出したPolyak AverageベクトルμNt-1 (j)は、フィードバック部256に与えられる。フィードバック部256は、各パーティクルにおいて、Polyak AverageベクトルμNt-1 (j)と、平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。なお、バッファメモリ部252に推定確率分布の推定パラメータ205がTフレーム分蓄積されていない場合、Polyak Average算出部254は、バッファメモリ部252に蓄積されているだけのフレーム分の雑音確率分布の推定パラメータ205を用いて、Polyak AverageベクトルμNt (j)を算出する。 When the estimated parameter 205 of the new estimated probability distribution is accumulated in the buffer memory unit 252, the Polyak Average calculating unit 254 uses the estimated parameter 205 of the estimated probability distribution for T frames accumulated in the buffer memory unit 252. Then, the Polyak Average vector μ Nt (j) shown in Expression (13) for each particle is calculated. The calculated Polyak Average vector μ Nt−1 (j) is given to the feedback unit 256. Feedback unit 256, in each particle, and Polyak Average, which vector μ Nt-1 (j), the average vector ^ N t-1 (j) the difference between μ Nt-1 (j) - ^ N t-1 (j) Is calculated. When the estimation parameter 205 of the estimated probability distribution is not accumulated in the buffer memory unit 252 for T frames, the Polyak Average calculation unit 254 estimates the noise probability distribution for only the frames accumulated in the buffer memory unit 252. Using the parameter 205, the Polyak Average vector μ Nt (j) is calculated.

図14に、Polyak Average及びフィードバックの概念を模式的に示す。図14(A)及び(B)はいずれも、j番目のパーティクルにおけるPolyak AverageベクトルμNt (j)とそのパーティクルに対応する雑音の特徴量ベクトルNt-4 (j),…,Nt+1 (j)との関係を表している。なお、図14(A)は、雑音の特徴量ベクトルの時間遷移が緩やかである場合を示し、図14(B)は、時間遷移が激しい場合を示す。これらの図において、時間は左から右に進行し、雑音の特徴量は上下方向に変化する。図14(A)及び図(B)においては、第tフレームにおけるPolyak AverageベクトルμNt (j)を、白抜きの丸印で示す。なお、この図に示すPolyak AverageベクトルμNt (j)においては、T=5フレーム分であるものとする。 FIG. 14 schematically shows the concept of Polyak Average and feedback. 14A and 14B both show the Polyak Average vector μ Nt (j) in the j-th particle and the noise feature vector N t-4 (j) ,..., N t + corresponding to the particle. 1 represents the relationship with (j) . FIG. 14A shows a case where the time transition of the noise feature vector is gentle, and FIG. 14B shows a case where the time transition is intense. In these figures, time progresses from left to right, and the feature amount of noise changes in the vertical direction. In FIGS. 14A and 14B, the Polyak Average vector μ Nt (j) in the t-th frame is indicated by a white circle. In the Polyak Average vector μ Nt (j) shown in this figure, it is assumed that T = 5 frames.

図14(A)を参照して、第t−1フレームにおける雑音の特徴量Nt-1 (j)と、Polyak
AverageベクトルμNt (j)との間には、差分μNt (j)−Nt (j)が生じる。図14(B)に示すような時間遷移の激しい場合においても同様に、雑音の特徴量Nt (j)と、Polyak AverageベクトルμNt (j)との間には、差分μNt (j)−Nt (j)が生じる。図14(A)における雑音の特徴量ベクトルNt-4 (j),…,Nt (j)の変動に比べて、図14(B)における雑音の特徴量ベクトルNt-4 (j),…,Nt (j)の変動は大きい。すなわち図14(A)における雑音の特徴量ベクトルNt-4 (j),…,Nt (j)同士の差異は、図14(B)における当該それらの差異より小さい。
Referring to FIG. 14A, the noise feature amount N t-1 (j) in the ( t−1 ) th frame and the Polyak
A difference μ Nt (j) −N t (j) is generated between the Average vector μ Nt (j) . Similarly, in the case of FIG. 14 (B) intense such time transition as shown, the noise characteristic amount N t (j), between the Polyak Average, which vector mu Nt (j), the difference mu Nt (j) −N t (j) is generated. Figure 14 (A) of noise in the feature vector N t-4 (j), ..., N t as compared with the variation of the (j), FIG. 14 (B) the noise of the feature in the vector N t-4 (j) , ..., N t (j) varies greatly. That is, the difference between the noise feature vectors N t-4 (j) ,..., N t (j) in FIG. 14 (A) is smaller than those differences in FIG.

Polyak AverageベクトルμNt (j)は、Nt-4 (j),…,Nt (j)の平均である。そのため、Polyak AverageベクトルμNt (j)のとり得る範囲は、Nt-4 (j),…,Nt (j)の最小から最大までの範囲である。したがって、図14(A)に示すように、これらの特徴量ベクトル同士の差異が小さければ、その分Polyak AverageベクトルμNt-1 (j)のとり得る範囲は狭くなる。差分μNt-1 (j)−Nt-1 (j)の変動幅は自ずから小さくなる。これに対して、図14(B)に示すように雑音の特徴量ベクトル同士の差異が大きければ、その分Polyak AverageベクトルμNt (j)のとり得る範囲は広くなる。差分μNt (j)−Nt (j)の変動幅も自ずから大きくなる。すなわち、差分μNt (j)−Nt (j)は、過去Tフレーム分の雑音の変化を反映する。この差分に基づき、次のフレームにおける雑音の特徴量ベクトルNt+1 (j)を予測すると、過去Tフレーム分の雑音の変化が反映された特徴量ベクトルが得られる。 The Polyak Average vector μ Nt (j) is the average of N t−4 (j) ,..., N t (j) . Therefore, the possible range of the Polyak Average vector μ Nt (j) is the range from the minimum to the maximum of N t−4 (j) ,..., N t (j) . Therefore, as shown in FIG. 14A, if the difference between these feature quantity vectors is small, the range that the Polyak Average vector μ Nt−1 (j) can take is narrowed accordingly. The fluctuation range of the difference μ Nt−1 (j) −N t−1 (j) is naturally reduced. On the other hand, as shown in FIG. 14B, if the difference between the noise feature vectors is large, the range that the Polyak Average vector μ Nt (j) can take is widened accordingly. The fluctuation range of the difference μ Nt (j) −N t (j) naturally increases. That is, the difference μ Nt (j) −N t (j) reflects the noise change for the past T frames. Based on this difference, when the feature vector N t + 1 (j) of noise in the next frame is predicted, a feature vector reflecting the noise change for the past T frames is obtained.

拡張カルマンフィルタ部258(図6参照)は、加重平均ベクトル^Nt-1と、差分ベクトルμNt-1 (j)−Nt-1 (j)と、拘束条件パラメータ138により定められる忘却係数α及びスケーリング係数βと、観測信号の特徴量Xt124と、出力パラメータ240とを基に、式(21)〜式(26)により示す拡張カルマンフィルタによって各パーティクルの更新を行なう。 The extended Kalman filter unit 258 (see FIG. 6) includes a weighted average vector ^ N t−1 , a difference vector μ Nt−1 (j) −N t−1 (j), and a forgetting factor α determined by a constraint parameter 138. Each particle is updated by the extended Kalman filter expressed by the equations (21) to (26) based on the scaling coefficient β, the observed signal feature amount X t 124, and the output parameter 240.

この更新において、式(21)に示す、雑音の一期先予測パラメータNt|t-1 (j)においては、^Nt-1 (j)の散らばりが抑制される。また、過去Tフレーム分のパラメータの変動がフィードバックされる。すなわち、過去の変動が大きかった場合には、一期先予測パラメータNt|t-1 (j)の変動も大きくなる。反対に過去の変動が小さかった場合には、一期先予測パラメータNt|t-1 (j)の変動も小さくなる。したがって、パラメータの時間推移に対する拘束条件が、過去のパラメータの変動によって強化される。 In this update, the dispersion of ^ N t-1 (j) is suppressed in the one-period ahead prediction parameter N t | t-1 (j) of noise shown in Expression (21). Also, parameter variations for the past T frames are fed back. That is, when the past fluctuation is large, the fluctuation of the one-year ahead prediction parameter N t | t−1 (j) also becomes large. On the other hand, when the past fluctuation is small, the fluctuation of the one-year prediction parameter N t | t−1 (j) is also small. Therefore, the constraint condition for the time transition of the parameter is strengthened by the past parameter variation.

以上のようにして、各パーティクルの更新を行なわれることにより、図13に示す状態空間420内の各パーティクルは更新され、パラメータが更新されたパーティクルにより第tフレームに対応する状態空間430が表現される。   By updating each particle as described above, each particle in the state space 420 shown in FIG. 13 is updated, and the state space 430 corresponding to the t-th frame is expressed by the particle whose parameter is updated. The

これに応答して、重み算出部232が、状態空間430内の各パーティクルに対する重みwt (j)を、式(22)及び式(23)によって算出する。再サンプリング部234は、重みwt (j)に基づき、パーティクルにおける雑音のパラメータを再サンプリングする。この際、再サンプリング部234はまず、状態空間430内の各パーティクルからの再サンプリングの回数を、パーティクルに対する重みwt (j)に応じてパーティクルごとに設定する。白抜きの丸印で表される重みの微小なパーティクルからのサンプリングの回数を0に設定する。また、黒塗りの丸印で表される重みの大きなパーティクルからのサンプリングの回数を、重みの大きさに応じて1〜3に設定する。続いて、状態空間430内のパーティクルにおける雑音確率分布に基づき、設定された回数ずつ、雑音のパラメータの再サンプリングを行なう。このようにして、第tフレームに対応する新たな状態空間440を表現するパーティクルがそれぞれ形成される。 In response to this, the weight calculation unit 232 calculates the weight w t (j) for each particle in the state space 430 by the equations (22) and (23). The re-sampling unit 234 re-samples the noise parameter in the particle based on the weight w t (j) . At this time, the resampling unit 234 first sets the number of resamplings from each particle in the state space 430 for each particle according to the weight w t (j) for the particle. The number of samplings from a minute particle with a weight represented by a white circle is set to zero. In addition, the number of times of sampling from particles with a large weight represented by black circles is set to 1 to 3 according to the magnitude of the weight. Subsequently, based on the noise probability distribution of the particles in the state space 430, the noise parameters are resampled by the set number of times. In this way, particles representing a new state space 440 corresponding to the t-th frame are formed.

再サンプリング部234によるこのような再サンプリングが繰返し行なわれると、あるフレームに対応するパーティクルの多くにおける雑音のパラメータが、それ以前の時点のフレームに対応する少数のパーティクルにおける雑音のパラメータの確率分布からサンプリングされたものとなるおそれがある。そこで、推定パラメータ生成部236は、Metropolis-Hastingsアルゴリズムを用いて、新たに第tフレームに対応するパーティクルにおけるパラメータを生成することにより、このような事態を防止する。図7に示す再更新部262は、状態空間440における雑音確率分布にしたがい、第t−1フレームに対応する状態空間420内のパーティクルにおける雑音のパラメータを再更新する。重み再計算部264は、再更新されたパーティクルに対する重みwt *(j)を算出する。許容確率算出部266は、再更新されたパーティクルに対する重みwt *(j)と、再サンプリングされたパーティクルに対する重みwt (j)とを基に、許容確率νを算出する。パラメータ選択部270は、許容確率νと、乱数発生部268が発生した[0,1]の区間の乱数uとを比較し、乱数uが許容確率ν以下であれば、再サンプリングされたパーティクルにおけるパラメータを、再更新されたパーティクルにおけるパラメータで置換する。さもなければ、再更新されたパーティクルにおけるパラメータを棄却する。 When such re-sampling by the re-sampling unit 234 is repeatedly performed, the noise parameter in many particles corresponding to a certain frame is obtained from the probability distribution of the noise parameter in a small number of particles corresponding to the previous frame. May be sampled. Therefore, the estimated parameter generation unit 236 prevents such a situation by newly generating parameters for the particles corresponding to the t-th frame using the Metropolis-Hastings algorithm. The re-updating unit 262 illustrated in FIG. 7 re-updates the noise parameters of the particles in the state space 420 corresponding to the (t-1) th frame, according to the noise probability distribution in the state space 440. The weight recalculation unit 264 calculates a weight w t * (j) for the re-updated particle. Acceptable probability calculation unit 266, the weight w t * for particles that are re-updated (j), based on the weight w t (j) with respect to the resampled particles, calculates the permission probability [nu. The parameter selection unit 270 compares the allowable probability ν with the random number u in the interval [0, 1] generated by the random number generation unit 268. If the random number u is equal to or less than the allowable probability ν, the parameter selection unit 270 Replace the parameter with the parameter in the re-updated particle. Otherwise, reject the parameter in the re-updated particle.

以上のような動作をフレームごとに繰返すことにより、各フレームに対応して、各パーティクルにおける雑音のパラメータである、平均ベクトル^Nt (j)及び共分散行列ΣNt (j)が推定される。各パーティクルにおける雑音のパラメータである平均ベクトル^Nt (j)及び共分散行列ΣNt (j)と、各パーティクルに対する重みwt (j)とが、雑音確率分布の推定パラメータ205となる。雑音確率分布推定部200は、雑音確率分布の推定パラメータ205と観測信号の特徴量ベクトルXt124とを、フレームごとに、図4に示す計算制御部212及び観測信号分布推定部202に与える。 By repeating the above operation for each frame, the mean vector ^ N t (j) and the covariance matrix Σ Nt (j) , which are noise parameters for each particle, are estimated corresponding to each frame. . The average vector ^ N t (j) and the covariance matrix Σ Nt (j) , which are noise parameters for each particle, and the weight w t (j) for each particle are the estimation parameters 205 of the noise probability distribution. The noise probability distribution estimation unit 200 supplies the noise probability distribution estimation parameter 205 and the observation signal feature vector X t 124 to the calculation control unit 212 and the observation signal distribution estimation unit 202 shown in FIG. 4 for each frame.

図4を参照して、計算制御部212は、回数記憶部218に記憶された値Iに1を加算し、値Iが間隔記憶部206に記憶されたフレーム間隔の値Lと等しいか否かを判定する。 Referring to FIG. 4, the calculation control unit 212 adds 1 to the value stored I L in the frequency storage unit 218, if the value I L is equal to the value L of the stored frame interval to the interval storage unit 206 Determine whether or not.

値Iがフレーム間隔の値Lと等しいときには、計算制御部212は、観測信号分布推定部202に対して推定指示信号209を与え、分布記憶部214に対して観測信号分布記憶制御信号207を与える。1回目の処理では必ず値Iが値Lと等しくなる。したがって、最初のフレームに対しては、観測信号分布推定部202による観測信号分布のパラメータ208が推定され、分布記憶部214に記憶される。 When the value IL is equal to the value L of the frame interval, the calculation control unit 212 gives an estimation instruction signal 209 to the observation signal distribution estimation unit 202, and sends an observation signal distribution storage control signal 207 to the distribution storage unit 214. give. Always value I L is equal to the value L in the first process. Therefore, for the first frame, the observation signal distribution parameter 208 by the observation signal distribution estimation unit 202 is estimated and stored in the distribution storage unit 214.

図4に示す観測信号分布推定部202は、計算制御部212から推定指示信号209が与えられると、雑音確率分布の推定パラメータ205とGMM130とに基づき、観測信号分布のパラメータ208として、VTS法によって、第tフレームに対応する各パーティクルにおける観測信号分布の平均ベクトル及び共分散行列を生成する。これにより、各パーティクルにおいて雑音の確率分布と観測信号の確率分布とが推定されたことになる。これらの値は選択部216と分布記憶部214とに与えられる。   When the estimation instruction signal 209 is given from the calculation control unit 212, the observation signal distribution estimation unit 202 shown in FIG. 4 is based on the noise probability distribution estimation parameter 205 and the GMM 130 as the observation signal distribution parameter 208 by the VTS method. Then, an average vector and a covariance matrix of the observation signal distribution in each particle corresponding to the t-th frame are generated. As a result, the probability distribution of noise and the probability distribution of the observation signal are estimated for each particle. These values are given to the selection unit 216 and the distribution storage unit 214.

分布記憶部214は、観測信号分布記憶制御信号207に応答して、観測信号分布のパラメータ208を記憶する。   The distribution storage unit 214 stores an observation signal distribution parameter 208 in response to the observation signal distribution storage control signal 207.

計算制御部212は、選択指示信号211の値を第1の値とする。選択部216は、選択指示信号211が第1の値であるため、観測信号分布推定部202の出力である観測信号分布のパラメータ208を選択して観測信号分布のパラメータ217としてクリーン音声推定部204に与える。   The calculation control unit 212 sets the value of the selection instruction signal 211 as the first value. Since the selection instruction signal 211 is the first value, the selection unit 216 selects the observation signal distribution parameter 208 that is the output of the observation signal distribution estimation unit 202 and uses the observed signal distribution parameter 217 as the clean speech estimation unit 204. To give.

クリーン音声推定部204は、MMSE推定法により、第tフレームに対応する各パーティクルにおいて、クリーン音声120のMMSE推定値ベクトル^St (j)を算出する。さらに、MMSE推定値ベクトル^St (j)と重みwt (j)とを用いて、第tフレームにおける推定クリーン音声の特徴量ベクトル^St126を算出し、図1に示す探索部110に出力する。 The clean speech estimation unit 204 calculates the MMSE estimated value vector { circumflex over ( S ) } ( t ) of the clean speech 120 for each particle corresponding to the t-th frame by the MMSE estimation method. Further, using the MMSE estimated value vector { circumflex over ( S ) } t (j) and the weight w t (j) , the estimated clean speech feature vector { circumflex over ( t ) } 126 in the t-th frame is calculated, and the search unit 110 shown in FIG. Output to.

値Iがフレーム間隔の値Lと等しくないときには、計算制御部212は、観測信号分布推定部202に対して推定指示信号209を与えない。したがって観測信号分布推定部202は観測信号分布の推定を行なわない。またこのときには計算制御部212は観測信号分布記憶制御信号207を分布記憶部214に与えない。その結果、分布記憶部214は最後に観測信号分布推定部202によって推定された観測信号分布を引続き記憶する。計算制御部212はさらに、選択指示信号211の値を第2の値とする。選択部216は、選択指示信号211が第2の値であるため、分布記憶部214の出力である最後に推定された観測信号分布のパラメータ213を選択し、観測信号分布のパラメータ217としてクリーン音声推定部204に与える。 When the value I L is not equal to the value L of the frame interval, calculation control unit 212 does not give an estimate indication signal 209 with respect to the observed signal distribution estimation unit 202. Therefore, the observation signal distribution estimation unit 202 does not estimate the observation signal distribution. At this time, the calculation control unit 212 does not give the observation signal distribution storage control signal 207 to the distribution storage unit 214. As a result, the distribution storage unit 214 continues to store the observation signal distribution finally estimated by the observation signal distribution estimation unit 202. The calculation control unit 212 further sets the value of the selection instruction signal 211 as the second value. Since the selection instruction signal 211 has the second value, the selection unit 216 selects the parameter 213 of the observation signal distribution estimated last, which is the output of the distribution storage unit 214, and clean speech as the observation signal distribution parameter 217. This is given to the estimation unit 204.

したがって、クリーン音声推定部204は、MMSE推定法により、第tフレームに対応する各パーティクルに対し、第tフレーム(t<t)について算出された観測信号分布のパラメータ208を用いてクリーン音声120のMMSE推定値ベクトル^St (j)を算出する。さらに、MMSE推定値ベクトル^St (j)と重みwt (j)とを用いて、第tフレームにおける推定クリーン音声の特徴量ベクトル^St126を算出し、図1に示す探索部110に出力する。 Therefore, the clean speech estimation unit 204 uses the observed signal distribution parameter 208 calculated for the t L frame (t L <t) for each particle corresponding to the t frame by the MMSE estimation method. 120 MMSE estimated value vectors { circumflex over ( S ) } t (j) are calculated. Further, using the MMSE estimated value vector { circumflex over ( S ) } t (j) and the weight w t (j) , the estimated clean speech feature vector { circumflex over ( t ) } 126 in the t-th frame is calculated, and the search unit 110 shown in FIG. Output to.

図1に示す探索部110は、推定クリーン音声の特徴量ベクトル^St126を用いて、認識用音響モデル部109に保持された音響モデルと、言語モデル部108に保持された言語モデルとを基に、適合する目的言語の単語等を探索し、その結果を認識出力128として出力する。 The search unit 110 shown in FIG. 1 uses the estimated clean speech feature vector ^ St 126 to obtain the acoustic model held in the recognition acoustic model unit 109 and the language model held in the language model unit 108. Based on this, a word or the like of a target language that matches is searched, and the result is output as a recognition output 128.

このように本実施の形態に係る音声認識システム100によれば、Lの値を変更することにより、観測信号分布の推定における計算量を1/Lに削減することができる。パーティクルフィルタによる雑音除去全体の計算量において、この観測信号分布の推定における計算量は全体の約半分を示す。そのため、上記実施の形態におけるように観測信号分布の推定に係る計算量を削減することができれば、雑音除去全体の計算量を大幅に削減でき、その結果、雑音除去を高速化できる。又は、より少ない計算資源を用いて同等の性能の雑音除去を実現できる。   As described above, according to the speech recognition system 100 according to the present embodiment, the amount of calculation in the estimation of the observation signal distribution can be reduced to 1 / L by changing the value of L. In the calculation amount of the entire noise removal by the particle filter, the calculation amount in the estimation of the observed signal distribution is about half of the whole. Therefore, if the calculation amount related to the estimation of the observation signal distribution can be reduced as in the above embodiment, the calculation amount of the entire noise removal can be greatly reduced, and as a result, the noise removal can be speeded up. Alternatively, it is possible to achieve noise removal with equivalent performance using less computational resources.

〔音声認識実験〕
上記実施の形態で示した雑音除去の有効性を評価するために、連続音声認識実験を行なった。評価音声としては、出願人において準備したBTECと呼ばれる発話コーパスのうち、testset−01として抽出された510発話音声を用いた。この発話音声はクリーンな音声であるが、この音声に対し、駅コンコースで収録した雑音と、駅改札付近で収録した雑音とをそれぞれ25,15,10dBの条件で重畳した。評価実験に用いた音響モデルは、出願人において作成したTRA,TRA−BLA,APP−BLA(約17万発話)を用いて学習した。
[Voice recognition experiment]
In order to evaluate the effectiveness of noise removal shown in the above embodiment, a continuous speech recognition experiment was conducted. As the evaluation voice, the 510 utterance voice extracted as testset-01 from the utterance corpus called BTEC prepared by the applicant was used. This uttered voice is a clean voice, but the noise recorded at the station concourse and the noise recorded near the station ticket gate were superimposed on this voice under the conditions of 25, 15, and 10 dB, respectively. The acoustic model used in the evaluation experiment was learned using TRA, TRA-BLA, APP-BLA (about 170,000 utterances) created by the applicant.

実験結果を以下のテーブル1に示す。テーブル1内に示す計算量は、1.2GHzのクロック信号によって動作する、商業的に利用可能な、通常程度の性能のCPU(中央演算処理装置)を有するコンピュータで計算した値である。テーブル1中、例えば「0.64×RT」とあるのは、10秒の雑音重畳音声を処理するのに6.4秒かかることを意味する。   The experimental results are shown in Table 1 below. The amount of calculation shown in Table 1 is a value calculated by a computer having a CPU (Central Processing Unit) having a normal performance and operating commercially with a clock signal of 1.2 GHz. In Table 1, for example, “0.64 × RT” means that it takes 6.4 seconds to process 10-second noise-superimposed speech.

Figure 2008298844
テーブル1の結果から明らかなように、観測信号分布の推定を間引くことにより、推定間隔L=16のときには、従来の推定間隔L=1の場合と比較して、約28%の計算時間が削減されている。しかも、計算時間が大幅に削減されているにもかかわらず、単語正解精度により表される音声認識性能はほとんど同等である。
Figure 2008298844
As is clear from the results of Table 1, the calculation time is reduced by about 28% when the estimation interval L = 16 by thinning out the estimation of the observed signal distribution compared to the conventional estimation interval L = 1. Has been. In addition, the speech recognition performance expressed by the word correct accuracy is almost the same, although the calculation time is greatly reduced.

この実験結果から、本実施の形態によれば、非定常的な雑音の存在する環境下で、計算量を削減しながら音声認識性能を良好に保つことが可能であることが分かる。   From this experimental result, it can be seen that according to the present embodiment, it is possible to maintain good speech recognition performance while reducing the amount of calculation in an environment where non-stationary noise exists.

[変形例]
上記実施の形態では、クリーン音響モデルとして、予めサンプル音声に対する統計処理(学習)により準備したガウス混合分布を用いている。ガウス混合分布は、各次元ごとに複数の要素分布を含む多次元の分布である。事前の学習により、要素分布ごとにその平均と分散とが算出される。したがって多くの場合、要素分布ごとにその平均と分散とは異なっている。そのため、複雑な分布でも統計的にモデル化することができる。この場合、二つの要素分布の平均が一致していたり、二つの要素分布の分散が一致したりしていることはあり得るが、両者が一致することは通常はないと考えられる。
[Modification]
In the above-described embodiment, a Gaussian mixture distribution prepared in advance by statistical processing (learning) for sample speech is used as the clean acoustic model. The Gaussian mixture distribution is a multi-dimensional distribution including a plurality of element distributions for each dimension. The average and variance are calculated for each element distribution by prior learning. Therefore, in many cases, the mean and variance are different for each element distribution. Therefore, even a complex distribution can be statistically modeled. In this case, it is possible that the averages of the two element distributions match or the variances of the two element distributions match, but they do not usually match.

しかし、本発明による雑音抑圧を実現するためには、学習によって得られた要素分布をそのまま使用しなくてもよい。例えば、上記した実施の形態において、要素分布の平均のみを用い、分散は全ての要素分布において等しいものと仮定しても、上記実施の形態と全く同様の仕組みを用いて雑音抑圧を行なうことができる。この場合には、音響モデルとしては各要素分布の平均のみを記憶しておけばよい。   However, in order to realize noise suppression according to the present invention, the element distribution obtained by learning need not be used as it is. For example, in the above-described embodiment, noise suppression can be performed using the same mechanism as in the above-described embodiment even if only the average of the element distribution is used and the variance is assumed to be the same in all element distributions. it can. In this case, only the average of each element distribution may be stored as the acoustic model.

さらに、要素分布の平均の算出にあたって、特徴量を連続的な値として算出してもよいし、特徴量を予め離散的なものに定めておき、計算により得られた特徴量を、最も近い離散的特徴量により置換することで量子化してもよい。   Furthermore, when calculating the average of the element distribution, the feature amount may be calculated as a continuous value, or the feature amount is set to a discrete value in advance, and the feature amount obtained by the calculation is the closest discrete Quantization may be performed by replacing the target feature amount.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.

本発明の一実施の形態に係る音声認識システム100の構成を示す概略図である。It is the schematic which shows the structure of the speech recognition system 100 which concerns on one embodiment of this invention. GMM130の概念を示す概略図である。It is the schematic which shows the concept of GMM130. 観測信号の状態空間モデル160の概念を示す概略図である。It is the schematic which shows the concept of the state space model 160 of an observation signal. 雑音抑圧部114の構成を示すブロック図である。3 is a block diagram illustrating a configuration of a noise suppression unit 114. FIG. 雑音確率分布推定部200の構成を示すブロック図である。3 is a block diagram illustrating a configuration of a noise probability distribution estimation unit 200. FIG. 更新部230の構成を示すブロック図である。3 is a block diagram illustrating a configuration of an update unit 230. FIG. 推定パラメータ生成部236の構成を示すブロック図である。4 is a block diagram illustrating a configuration of an estimation parameter generation unit 236. FIG. 雑音抑圧処理の制御構造を示すフローチャートである。It is a flowchart which shows the control structure of a noise suppression process. L=4のときにMMSE推定において用いられる観測信号分布のパラメータの間の関係を示す模式図である。It is a schematic diagram which shows the relationship between the parameters of the observed signal distribution used in MMSE estimation when L = 4. L=1,2,4,8のときの観測信号分布のパラメータ推定のタイミングを示す模式図である。It is a schematic diagram which shows the timing of parameter estimation of the observation signal distribution when L = 1, 2, 4, 8. 雑音確率分布の推定パラメータ205の生成処理の制御構造を示すフローチャートである。It is a flowchart which shows the control structure of the production | generation process of the estimation parameter 205 of noise probability distribution. Metropolis-Hastingsアルゴリズムによるサンプリング処理の制御構造を示すフローチャートである。It is a flowchart which shows the control structure of the sampling process by a Metropolis-Hastings algorithm. パーティクルフィルタによる処理の概要を示す図である。It is a figure which shows the outline | summary of the process by a particle filter. Polyak Average及びフィードバックの概念を示す模式図である。示す図である。It is a schematic diagram which shows the concept of Polyak Average and feedback. FIG.

符号の説明Explanation of symbols

100 音声認識システム
102 音源
104 前処理部
106 前処理用音響モデル部
108 言語モデル部
109 認識用音響モデル部
110 探索部
112 計測部
114 雑音抑圧部
116 話者
118 雑音源
120 クリーン音声
121 雑音
122 雑音重畳音声
124 観測信号の特徴量
126 推定クリーン音声の特徴量
130 GMM
132 学習データ記憶部
134 モデル学習部
136 GMM記憶部
138 拘束条件パラメータ
160 状態空間モデル
200 雑音確率分布推定部
202 観測信号分布推定部
204 クリーン音声推定部
206 間隔記憶部
208 観測信号分布のパラメータ
214 分布記憶部
216 選択部
218 回数記憶部
220 フレーム選択部
222 雑音初期分布推定部
224 逐次計算部
226 GMMサンプリング部
230 更新部
232 重み算出部
234 再サンプリング部
236 推定パラメータ生成部
240 出力パラメータ
250 加重平均算出部
252 バッファメモリ部
254 Polyak Average算出部
256 フィードバック部
258 拡張カルマンフィルタ部
262 再更新部
264 重み再計算部
266 許容確率算出部
268 乱数発生部
270 パラメータ選択部
DESCRIPTION OF SYMBOLS 100 Speech recognition system 102 Sound source 104 Preprocessing part 106 Preprocessing acoustic model part 108 Language model part 109 Recognition acoustic model part 110 Search part 112 Measurement part 114 Noise suppression part 116 Speaker 118 Noise source 120 Clean voice 121 Noise 122 Noise Superimposed speech 124 Observed signal feature 126 Estimated clean speech feature 130 GMM
132 learning data storage unit 134 model learning unit 136 GMM storage unit 138 constraint parameter 160 state space model 200 noise probability distribution estimation unit 202 observation signal distribution estimation unit 204 clean speech estimation unit 206 interval storage unit 208 observation signal distribution parameter 214 distribution Storage unit 216 Selection unit 218 Number storage unit 220 Frame selection unit 222 Noise initial distribution estimation unit 224 Sequential calculation unit 226 GMM sampling unit 230 Update unit 232 Weight calculation unit 234 Re-sampling unit 236 Estimation parameter generation unit 240 Output parameter 250 Weighted average calculation Unit 252 buffer memory unit 254 Polyak Average calculation unit 256 feedback unit 258 extended Kalman filter unit 262 re-update unit 264 weight recalculation unit 266 allowable probability calculation unit 268 random number generation 270 parameter selection unit

Claims (8)

雑音が発生する環境下での目的音声の観測により得られる観測信号における雑音の成分を抑圧するための雑音抑圧装置であって、
前記観測信号について所定周期ごとにフレーム化された所定時間長のフレームよりそれぞれ抽出される特徴量を受け、複数のパーティクルを有するパーティクルフィルタを用いて、予め準備された、複数個の要素分布からなる、クリーン音声推定のための音響モデルに基づき、前記雑音を表す確率分布の推定パラメータを前記フレームごとに逐次生成するための雑音推定手段と、
前記雑音推定手段によりパラメータが推定された雑音の確率分布にしたがって、前記音響モデルを雑音に適応化するための適応化手段と、
前記音響モデルと、観測信号の特徴量とを用いて、前記フレームごとに前記目的音声の推定特徴量をMMSE推定法により算出するための目的音声推定手段と、
前記適応化手段による、前記音響モデルの適応化を、複数のフレームごとに行なうように、前記適応化手段による適応化の間隔を制御するための制御手段とを含む雑音抑圧装置であって、
前記目的音声推定手段は、あるフレームに対して前記適応化手段による適応化が行なわれたときには、そのフレームに対しては当該適応化された音響モデルを用いて前記目的音声の推定特徴量を算出し、あるフレームに対して前記適応化手段による適応化が行なわれなかったときには、当該フレームに対してはそれより前のフレームに対して前記適応化手段によって適応化された音響モデルを用いて前記目的音声の推定特徴量を算出することを特徴とする、雑音抑圧装置。
A noise suppression device for suppressing a noise component in an observation signal obtained by observation of a target voice in an environment where noise is generated,
The observation signal is made up of a plurality of element distributions prepared in advance using a particle filter having a plurality of particles, each receiving a feature amount extracted from a frame having a predetermined time length framed at predetermined intervals. Noise estimation means for sequentially generating, for each frame, an estimation parameter of a probability distribution representing the noise based on an acoustic model for clean speech estimation;
Adapting means for adapting the acoustic model to noise according to a noise probability distribution whose parameters are estimated by the noise estimating means;
Target speech estimation means for calculating an estimated feature amount of the target speech for each frame by the MMSE estimation method using the acoustic model and the feature amount of the observation signal;
A noise suppression device including control means for controlling an interval of adaptation by the adaptation means so that the adaptation of the acoustic model by the adaptation means is performed for each of a plurality of frames,
The target speech estimation means calculates an estimated feature amount of the target speech for the frame using the adapted acoustic model when the adaptation means performs adaptation on the frame. When adaptation by the adapting means is not performed for a certain frame, the acoustic model adapted for the previous frame by the adapting means is used for the previous frame. A noise suppression device characterized by calculating an estimated feature amount of a target speech.
前記音響モデルは、前記複数個の要素分布からなるガウス混合分布である、請求項1に記載の雑音抑圧装置。 The noise suppression device according to claim 1, wherein the acoustic model is a Gaussian mixture distribution including the plurality of element distributions. 前記複数個の要素分布のうちいずれか二つの要素分布の分散は互いに異なっている、請求項2に記載の雑音抑圧装置。 The noise suppression device according to claim 2, wherein variances of any two of the plurality of element distributions are different from each other. 前記複数個の要素分布は、互いに等しい分散を有する、請求項2に記載の雑音抑圧装置。 The noise suppression device according to claim 2, wherein the plurality of element distributions have equal variances. 前記適応化手段によってあるフレームについて前記クリーン音声推定のための前記音響モデルの適応化が行なわれたことに応答して、当該適応化された音響モデルを記憶するための記憶手段をさらに含み、
前記目的音声推定手段は、あるフレームについて前記クリーン音声推定のための前記音響モデルの適応化が行なわれたときには、当該適応化された音響モデルを用い、前記MMSE推定法によって前記目的音声の推定特徴量を算出し、あるフレームについて前記クリーン音声推定のための前記音響モデルの適応化が行なわれないときには、前記記憶手段に記憶された前記適応化された音響モデルを用いて、前記MMSE法によって前記目的音声の推定特徴量を算出することを特徴とする、請求項1〜請求項4のいずれかに記載の雑音抑圧装置。
And further comprising storage means for storing the adapted acoustic model in response to the adaptation of the acoustic model for the clean speech estimation for a frame by the adaptation means,
When the acoustic model for the clean speech estimation is adapted for a certain frame, the target speech estimation means uses the adapted acoustic model and estimates the target speech by the MMSE estimation method. When the acoustic model is not adapted for the clean speech estimation for a certain frame, the adaptive acoustic model stored in the storage means is used to perform the MMSE method. The noise suppression apparatus according to claim 1, wherein an estimated feature amount of the target speech is calculated.
前記制御手段は、
予め、前記クリーン音声推定のための前記音響モデルを雑音に適応化する処理を行なうフレーム間の間隔を定める情報を記憶するための間隔記憶手段と、
直前に前記適応化手段による適応化が行なわれた後に処理されたフレーム数を記憶するためのフレーム数記憶手段と、
処理対象のフレームが前記雑音抑圧装置に与えられるたびに前記フレーム数記憶手段の記憶内容に1を加算するための加算手段と、
前記フレーム数記憶手段の記憶内容と前記間隔記憶手段の記憶内容とが等しいか否かを判定するための判定手段と、
前記判定手段による判定結果にしたがって、前記適応化手段によるそのフレームに対する適応化を可能化する処理と、前記適応化手段によるそのフレームに対する適応化を不能化する処理とを行なうための手段と、
前記判定手段により、前記フレーム数記憶手段の記憶内容と前記間隔記憶手段の記憶内容とが等しいと判定されたことに応答して、前記フレーム数記憶手段をゼロにクリアするための手段とを含む、請求項1〜請求項5のいずれかに記載の雑音抑圧装置。
The control means includes
Interval storage means for storing in advance information for determining an interval between frames for performing processing for adapting the acoustic model for the clean speech estimation to noise,
Frame number storage means for storing the number of frames processed immediately after the adaptation by the adaptation means is performed immediately before;
Adding means for adding 1 to the stored content of the frame number storage means each time a frame to be processed is given to the noise suppression device;
A determination means for determining whether or not the storage content of the frame number storage means and the storage content of the interval storage means are equal;
Means for performing processing for enabling adaptation to the frame by the adaptation means, and processing for disabling adaptation to the frame by the adaptation means, according to a determination result by the determination means;
Means for clearing the frame number storage means to zero in response to the determination means determining that the storage content of the frame number storage means and the storage content of the interval storage means are equal. The noise suppression device according to any one of claims 1 to 5.
コンピュータにより実行されると、当該コンピュータを請求項1〜請求項6のいずれかに記載の雑音抑圧装置として動作させる、コンピュータプログラム。 A computer program that, when executed by a computer, causes the computer to operate as the noise suppression device according to any one of claims 1 to 6. 請求項1〜請求項6のいずれかに記載の雑音抑圧装置と、
前記雑音抑圧装置により算出される前記目的音声の推定特徴量を受けて、前記音響モデルと、認識対象言語に関する所定の言語モデルとを用いて、前記目的音声に関する音声認識を行なうための音声認識手段とを含む、音声認識システム。
The noise suppression device according to any one of claims 1 to 6,
Voice recognition means for receiving the estimated feature quantity of the target voice calculated by the noise suppression device and performing voice recognition on the target voice using the acoustic model and a predetermined language model on the recognition target language And a voice recognition system.
JP2007141840A 2007-05-29 2007-05-29 Noise suppressing device, computer program, and speech recognition system Pending JP2008298844A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007141840A JP2008298844A (en) 2007-05-29 2007-05-29 Noise suppressing device, computer program, and speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007141840A JP2008298844A (en) 2007-05-29 2007-05-29 Noise suppressing device, computer program, and speech recognition system

Publications (1)

Publication Number Publication Date
JP2008298844A true JP2008298844A (en) 2008-12-11

Family

ID=40172456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007141840A Pending JP2008298844A (en) 2007-05-29 2007-05-29 Noise suppressing device, computer program, and speech recognition system

Country Status (1)

Country Link
JP (1) JP2008298844A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310798A (en) * 2012-03-07 2013-09-18 国际商业机器公司 System and method for noise reduction
US9087513B2 (en) 2012-03-09 2015-07-21 International Business Machines Corporation Noise reduction method, program product, and apparatus
CN111105810A (en) * 2019-12-27 2020-05-05 西安讯飞超脑信息科技有限公司 Noise estimation method, device, equipment and readable storage medium
CN114093379A (en) * 2021-12-15 2022-02-25 荣耀终端有限公司 Noise elimination method and device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08110793A (en) * 1994-07-29 1996-04-30 Microsoft Corp Method and system for improvement of voice recognition by front-end normalization of characteristic vector
JP2006243290A (en) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International Disturbance component suppressing device, computer program, and speech recognition system
JP2007041499A (en) * 2005-07-01 2007-02-15 Advanced Telecommunication Research Institute International Noise suppressing device, computer program, and speech recognition system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08110793A (en) * 1994-07-29 1996-04-30 Microsoft Corp Method and system for improvement of voice recognition by front-end normalization of characteristic vector
JP2006243290A (en) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International Disturbance component suppressing device, computer program, and speech recognition system
JP2007041499A (en) * 2005-07-01 2007-02-15 Advanced Telecommunication Research Institute International Noise suppressing device, computer program, and speech recognition system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310798A (en) * 2012-03-07 2013-09-18 国际商业机器公司 System and method for noise reduction
CN103310798B (en) * 2012-03-07 2015-08-26 国际商业机器公司 Noise-reduction method and device
US9190072B2 (en) 2012-03-07 2015-11-17 International Business Machines Corporation Local peak weighted-minimum mean square error (LPW-MMSE) estimation for robust speech
US9087513B2 (en) 2012-03-09 2015-07-21 International Business Machines Corporation Noise reduction method, program product, and apparatus
CN111105810A (en) * 2019-12-27 2020-05-05 西安讯飞超脑信息科技有限公司 Noise estimation method, device, equipment and readable storage medium
CN111105810B (en) * 2019-12-27 2022-09-06 西安讯飞超脑信息科技有限公司 Noise estimation method, device, equipment and readable storage medium
CN114093379A (en) * 2021-12-15 2022-02-25 荣耀终端有限公司 Noise elimination method and device
CN114093379B (en) * 2021-12-15 2022-06-21 北京荣耀终端有限公司 Noise elimination method and device

Similar Documents

Publication Publication Date Title
US10347241B1 (en) Speaker-invariant training via adversarial learning
JP4586577B2 (en) Disturbance component suppression device, computer program, and speech recognition system
US8738376B1 (en) Sparse maximum a posteriori (MAP) adaptation
JP4617497B2 (en) Noise suppression device, computer program, and speech recognition system
EP1396845A1 (en) Method of iterative noise estimation in a recursive framework
WO2019200744A1 (en) Self-updated anti-fraud method and apparatus, computer device and storage medium
EP1160768A2 (en) Robust features extraction for speech processing
JP4512848B2 (en) Noise suppressor and speech recognition system
KR101217525B1 (en) Viterbi decoder and method for recognizing voice
JP6992709B2 (en) Mask estimation device, mask estimation method and mask estimation program
JP2010078650A (en) Speech recognizer and method thereof
JP5070591B2 (en) Noise suppression device, computer program, and speech recognition system
JP5807921B2 (en) Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program
JP2006349723A (en) Acoustic model creating device, method, and program, speech recognition device, method, and program, and recording medium
JP2008298844A (en) Noise suppressing device, computer program, and speech recognition system
JP5885210B2 (en) Basic frequency model parameter estimation apparatus, method, and program
JP5006888B2 (en) Acoustic model creation device, acoustic model creation method, acoustic model creation program
JP6420198B2 (en) Threshold estimation device, speech synthesizer, method and program thereof
JP2018128500A (en) Formation device, formation method and formation program
JP4577543B2 (en) Model adaptation apparatus and model adaptation method, recording medium, and speech recognition apparatus
JP7368827B2 (en) Encoding and decoding devices, parameter learning devices, and programs
Wu et al. Nonlinear speech coding model based on genetic programming
JP6137479B2 (en) Audio signal analysis apparatus, method, and program
Garcia et al. Parametric nonlinear feature equalization for robust speech recognition
Stouten et al. Joint removal of additive and convolutional noise with model-based feature enhancement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100518

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110628

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111108