JP2007093630A - Speech emphasizing device - Google Patents
Speech emphasizing device Download PDFInfo
- Publication number
- JP2007093630A JP2007093630A JP2005268174A JP2005268174A JP2007093630A JP 2007093630 A JP2007093630 A JP 2007093630A JP 2005268174 A JP2005268174 A JP 2005268174A JP 2005268174 A JP2005268174 A JP 2005268174A JP 2007093630 A JP2007093630 A JP 2007093630A
- Authority
- JP
- Japan
- Prior art keywords
- adaptive
- signal
- noise
- speech
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
この発明は、音声強調装置に関する。 The present invention relates to a speech enhancement device.
近年、ラップトップ・パソコン、ゲーム機、携帯情報端末(PDA)、携帯電話等のモバイル・プラットホームへのマイクロホンアレーの一体化に対し、関心が高まっている。数十年の研究の後でも、特に、急速に増大するインターネット電話や音声制御の用途への需要があるため、このようなプラットホーム上のマイクロホンアレー技術は、未開拓の能力を備えている(文献〔1〕参照) 。 In recent years, there has been increasing interest in integrating microphone arrays into mobile platforms such as laptops, gaming machines, personal digital assistants (PDAs), and mobile phones. Even after decades of research, in particular, there is a demand for rapidly increasing Internet telephony and voice control applications, so such on-platform microphone array technology has unexplored capabilities (references). [Refer to [1].]
文献〔1〕:M.S.Brandstein and D.B.Ward, Eds.,Microphone Arrays: Signal Processing Techniques and Applications, Springer,Berlin, 2001. Reference [1]: M.S.Brandstein and D.B.Ward, Eds., Microphone Arrays: Signal Processing Techniques and Applications, Springer, Berlin, 2001.
このようなプラットホーム上のマイクロホンアレーは、ハンズフリー通信システムにとっては随意と思われるとしても、雑音にロバストな自動音声認識にとっては大変効果的である。しかしながら、このような用途に対する主要な諸問題の1つは、雑音の種類、雑音レベル、残響時間、話者の頭を基準としたモバイル・プラットフォームの動きなどの音響条件の高変動性である。
この発明は、音響条件が変動する環境下においても、目的音声のみを高精度に抽出できる音声強調装置を提供することを目的とする。 An object of the present invention is to provide a speech enhancement device that can extract only a target speech with high accuracy even in an environment where acoustic conditions vary.
請求項1に記載の発明は、複数のマイクロホンを備えたマイクロホンアレーと、マイクロホンアレーによって得られる複数のマイクロホン信号から、目的の音声信号が強調された信号を生成する適応ビームフォーマと、適応ビームフォーマの出力信号上の雑音を抑圧する雑音低減装置とを備えており、適応ビームフォーマとして、固定ビームフォーマ、適応ブロッキング行列および適応外乱キャンセラを備え、固定ビームフォーマおよび適応外乱キャンセラが入力信号のSNRに応じて適応制御されるロバスト一般化サイドローブ・キャンセラが用いられており、雑音低減装置として、GMMに基づくウイナーフィルタを用いて、雑音を抑圧する単一チャンネル雑音低減装置が用いられていることを特徴とする。 According to the first aspect of the present invention, there is provided a microphone array having a plurality of microphones, an adaptive beamformer for generating a signal in which a target audio signal is emphasized from a plurality of microphone signals obtained by the microphone array, and an adaptive beamformer. And a noise reduction device that suppresses noise on the output signal of the input signal. The adaptive beamformer includes a fixed beamformer, an adaptive blocking matrix, and an adaptive disturbance canceller. The fixed beamformer and the adaptive disturbance canceller are used for the SNR of the input signal. A robust generalized sidelobe canceller that is adaptively controlled in response to this is used, and a single-channel noise reduction device that suppresses noise using a winner filter based on GMM is used as the noise reduction device. Features.
請求項2に記載の発明は、請求項1に記載の発明において、雑音低減装置は、適応ビームフォーマから送られてくる入力音声信号に対してフレーム毎にメルフィルタバンク分析を行なうことにより、入力音声信号に対応する対数メルスペクトルを求める第1手段、第1手段によって得られた、入力音声信号に対応する対数メルスペクトルのフレーム番号が所定値以上であるか否かを判別する第2手段、第1手段によって得られた、入力音声信号に対応する対数メルスペクトルのフレーム番号が所定値未満である場合には、第1手段によって得られた、入力音声信号に対応する対数メルスペクトルに基づいて、雑音に対応する対数メルスペクトルを推定するための処理を行なった後、第1手段による次のフレーム処理に移行させる第3手段、第1手段によって得られた、入力音声信号に対応する対数メルスペクトルのフレーム番号が所定値以上である場合には、第3手段によって得られた雑音に対応する対数メルスペクトルとGMMとを用いることにより、GMMの要素分布毎にウイナーフィルタを設計した後、得られた複数のウイナーフィルタを加重平均する第4手段、ならびに第4手段によって得られた、加重平均されたウイナーフィルタをインパルス応答に変換し、得られたインパルス応答を入力音声信号に畳み込むことによって推定クリーン音声信号を得た後、第1手段による次のフレーム処理に移行させる第5手段を備えていることを特徴とする。 According to a second aspect of the present invention, in the first aspect of the present invention, the noise reduction apparatus performs an input by performing a mel filter bank analysis for each frame on the input speech signal transmitted from the adaptive beamformer. First means for obtaining a logarithmic mel spectrum corresponding to the audio signal; second means for determining whether or not the frame number of the logarithmic mel spectrum corresponding to the input audio signal obtained by the first means is greater than or equal to a predetermined value; When the frame number of the log mel spectrum corresponding to the input voice signal obtained by the first means is less than the predetermined value, the log mel spectrum obtained by the first means is based on the log mel spectrum corresponding to the input voice signal. A third means for performing a process for estimating a logarithmic mel spectrum corresponding to noise and then shifting to the next frame processing by the first means; When the frame number of the log mel spectrum corresponding to the input speech signal obtained by the means is greater than or equal to a predetermined value, the log mel spectrum corresponding to the noise obtained by the third means and the GMM are used. After designing a Wiener filter for each element distribution of the GMM, a fourth means for weighted averaging the obtained plurality of winner filters, and a weighted averaged Wiener filter obtained by the fourth means are converted into impulse responses, After obtaining the estimated clean voice signal by convolving the obtained impulse response with the input voice signal, the fifth means for shifting to the next frame processing by the first means is provided.
この発明によれば、音響条件が変動する環境下においても、目的音声のみを高精度に抽出できるようになる。 According to the present invention, only the target voice can be extracted with high accuracy even in an environment where the acoustic conditions fluctuate.
以下、図面を参照して、この発明の実施例について説明する。 Embodiments of the present invention will be described below with reference to the drawings.
〔1〕マイクロホンアレー [1] Microphone array
図1は、携帯情報端末(PDA)にマイクロホンアレーユニットが取り付けられた状態を示している。 FIG. 1 shows a state in which a microphone array unit is attached to a personal digital assistant (PDA).
図1において、1はマイクロホンアレーユニットであり、2は携帯情報端末(小型PC)である。なお、21は、携帯情報端末2の前面に設けられた表示部である。この明細書においては、携帯情報端末2の背面側から前面側に向かう方向を前方ということにする。
In FIG. 1, 1 is a microphone array unit, and 2 is a portable information terminal (small PC).
マイクロホンアレーユニット1は、矩形板上の基部100と、基部100の上端部に前方突出状に設けられた横長の第1マイクロホン保持部101と、基部100の右端部に前方突出状に設けられた縦長の第2マイクロホン保持部102とを備えている。
The
マイクロホンアレーユニット1の基部100上に携帯情報端末2が載置された状態で、携帯端末2にマイクロホンアレーユニット1が取り付けられている。携帯情報端末2にマイクロホンアレーユニット1が取り付けられた状態では、携帯情報端末2の上端面に沿って第1マイクロホン保持部101が配置され、携帯情報端末2の右側面に沿って第2マイクロホン保持部102が配置されている。マイクロホンアレーユニット1と携帯情報端末2とは、USB接続されている。
The
図2は、マイクロホンアレーユニット1におけるマイクロホンの配置形態を示している。
FIG. 2 shows the arrangement of microphones in the
この例では、マイクロホンアレーユニット1には8個のマイクロホンM1〜M8が設けられている。マイクロホンM5は、第1マイクロホン保持部101と第2マイクロホン保持部102の接続部に設けられている。マイクロホンM1〜M4は第1マイクロホン保持部101に設けられ、マイクロホンM6〜M8は第2マイクロホン保持部102に設けられている。
In this example, the
マイクロホンM1〜M5は、等間隔D1をおいて横方向に並んで前向きに配置されている。マイクロホンM5〜M8は、等間隔D2をおいて縦方向に並んで前向きに配置されている。間隔D1はこの例では、2cmに設定されており、間隔D2はこの例では、4cmに設定されている。各マイクロホンM1〜M8としては、無指向性コンデンサマイクロホンが用いられている。 The microphones M1 to M5 are arranged side by side in the horizontal direction with an equal interval D1. The microphones M5 to M8 are arranged in the vertical direction with an equal interval D2 and facing forward. The distance D1 is set to 2 cm in this example, and the distance D2 is set to 4 cm in this example. As each of the microphones M1 to M8, an omnidirectional condenser microphone is used.
〔2〕音声認識システム [2] Voice recognition system
図3は、音声認識システムの構成を示している。 FIG. 3 shows the configuration of the voice recognition system.
音声認識システムは、マイクロホンアレーユニット1が装着された携帯情報端末(PDA)2と、携帯情報端末2と無線LANによって接続される音声認識装置3とからなる。
The voice recognition system includes a personal digital assistant (PDA) 2 to which a
マイクロホンアレーユニット1内には、各マイクロホンM1〜M8によって受音された音声信号をデジタル信号に変換するためのマルチチャンネルA/D変換器11を備えている。マイクロホンアレーユニット1内のマルチチャンネルA/D変換器11によって得られたマルチチャンネル音声信号x1(t)〜x8(t)は、携帯情報端末2を介して、無線LANにより、音声認識装置3に送信される。
The
音声認識装置3は、適応ビームフォーマ31、単一チャンネル雑音低減装置32および音声認識部33を備えている。
The
適応ビームフォーマ31としては、適応ブロッキング行列(文献〔4〕、特許文献2参照)を用いたロバスト一般化サイドローブ・キャンセラ(RGSC:robust generalized sidelobe canceller)(文献〔2〕,〔3〕参照))が用いられている。このGSCは、雑音を高度に抑制しながら話者の動きや残響による信号の削除に対して高いロバスト性が得られるよう設計されている。
As the
文献〔2〕:W.Herbordt,H.Buchner,S.Nakamura, and W.Kellermann,"Application of a double-talk resilient DFT-domain adaptive filter for bin-wise stepsize controls to adaptive beamforming," Proc.IEEE-EURASIP Workshop on Nonlinear Signal and Image Processing, May 2005.
文献〔3〕:W.Herbordt, H.Buchner, S.Nakamura, and W.Kellermann,"Outlier-robust DFT-domain adaptive filtering for bin-wise stepsize controls, and its application to a generalized sidelobe canceller," Proc.Int. Workshop on Acoustic, Echo, and Noise Control, Septemnber 2005.
文献〔4〕:O.Hoshuyama, A. Sugiyama, and A. Hirano, "A robust adaptive beamformer for microphone arrays with a blocking matrix using constrained adaptive filters," IEEE Trans. on Signal Processing , vol. 47, no. 10, pp. 2677-2684, October 1999.
Reference [2]: W. Herbordt, H. Buchner, S. Nakamura, and W. Kellermann, "Application of a double-talk resilient DFT-domain adaptive filter for bin-wise stepsize controls to adaptive beamforming," Proc. IEEE- EURASIP Workshop on Nonlinear Signal and Image Processing, May 2005.
Reference [3]: W. Herbordt, H. Buchner, S. Nakamura, and W. Kellermann, "Outlier-robust DFT-domain adaptive filtering for bin-wise stepsize controls, and its application to a generalized sidelobe canceller," Proc. Int. Workshop on Acoustic, Echo, and Noise Control, Septemnber 2005.
Reference [4]: O. Hoshuyama, A. Sugiyama, and A. Hirano, "A robust adaptive beamformer for microphone arrays with a blocking matrix using constrained adaptive filters," IEEE Trans. On Signal Processing, vol. 47, no. 10 , pp. 2677-2684, October 1999.
単一チャンネル雑音低減装置32は、適応ビームフォーマ31と従続接続され、適応ビームフォーマ31の出力上の残留ノイズを除去する。この雑音低減装置32は、クリーンな音声の混合正規分布モデル(GMM:Gaussian mixture model) (文献〔5〕,〔6〕参照)を用いたメル対数スペクトル・エネルギー係数の最小平均2乗誤差(MMSE: minimum mean-squared error) )推定器を基盤にしている。
The single channel
文献〔5〕:J.C.Segura, A. de la Torre, M.C.Benitez, and A.M. Peinado,"Model-based compensation of the additive noise for continuous speech recognition. experiments using AURORA II database and tasks,"Proc. Eurospeech, vol. l,pp.221-224, September 2001. Reference [5]: JCSegura, A. de la Torre, MC Benitez, and AM Peinado, "Model-based compensation of the additive noise for continuous speech recognition. Experiments using AURORA II database and tasks," Proc. Eurospeech, vol. l, pp.221-224, September 2001.
文献〔6〕:M.Fujimoto and Y. Ariki,"Combination of temporal domain svd based speech enhancement and gmm based speech estimation for ASR in noise-evaluation on the AURORA2 tasks,"Proc. Eurospeech, pp.1781-1784, September 2003. Reference [6]: M. Fujimoto and Y. Ariki, "Combination of temporal domain svd based speech enhancement and gmm based speech estimation for ASR in noise-evaluation on the AURORA2 tasks," Proc. Eurospeech, pp.1781-1784, September 2003.
単一チャンネル雑音低減装置32によって雑音が低減された音声信号は、音声認識部33に送られ、音声認識が行なわれる。音声認識部33としては、例えば、本出願人が開発したバージョン3.3のATRASR大語彙音声認識システムのような公知の音声認識システムが用いられる。
The voice signal whose noise has been reduced by the single channel
本願発明の特徴は、ロバスト一般化サイドローブ・キャンセラからなる適応ビームフォーマ31と、GMMに基づくウイナーフィルタを用いて雑音を抑圧する単一チャンネル雑音低減装置32とを組み合わせた点にある。上記適応ビームフォーマ31では比較的周波数の高い雑音を効果的に除去できるが周波数の低い雑音が残る。上記単一チャンネル雑音低減装置32は、周波数の低い雑音を効果的に除去できる。したがって、これらを組み合わせることにより、広範囲の周波数帯の雑音を除去できる。
The feature of the present invention resides in that an
〔3〕適応ビームフォーマについての説明 [3] Explanation of adaptive beamformer
図4は、適応ビームフォーマ31の構成を示している。
FIG. 4 shows the configuration of the
適応ビームフォーマ31は、固定ビームフォーマ41、適応ブロッキング行列42、適応外乱キャンセラ43および適応制御部44を備えている。
The
〔3−1〕固定ビームフォーマ
固定ビームフォーマ41には、携帯情報端末2から送られてくるマルチチャンネル音声信号(各マイクロホンM1〜M8の信号x1(t)〜x8(t))が入力する。固定ビームフォーマ41は、マルチチャンネル音声信号x1(t)〜x8(t)から、目的の音声信号が強調され、目的音声信号以外の信号が減衰された信号を生成する。
[3-1] Fixed Beamformer Multichannel audio signals (signals x1 (t) to x8 (t) of the microphones M1 to M8) sent from the
固定ビームフォーマ41は、携帯情報端末2から送られてくるマルチチャンネル音声信号x1(t)〜x8(t)に基づいて目的方向を推定し、この推定結果を用いて目的の音声信号を得る。この方向推定処理としては、例えば、特許文献1に開示された方法を使用することができる。特許文献1では、正三角形の頂点に配置された3つのマイクロホンの信号に基づいて方向推定を行なっている。この3つのマイクロホンの信号として、例えば、M3、M5、M6の信号x3(t),x5(t),x6(t)を用いることが可能である。
The fixed
推定された目的方向を用いて目的の音声信号を得る方法としては、例えば、遅延和ビームフォーマ方式が用いられる。つまり、各マイクロホンによって受音された信号それぞれに遅延を付加して目的信号を同相化した後、これらを加算する。各マイクロホンに付加する遅延量は、推定された目的方向に基づいてそれぞれ求められる。 As a method of obtaining a target audio signal using the estimated target direction, for example, a delay sum beamformer method is used. That is, after adding a delay to each signal received by each microphone to make the target signal in-phase, these signals are added. The amount of delay added to each microphone is obtained based on the estimated target direction.
〔3−2〕適応ブロッキング行列
適応ブロッキング行列42は、適応信号処理によって目的の音声信号が減衰され、目的音声信号以外の信号が強調された信号を生成する。
[3-2] Adaptive Blocking Matrix The adaptive blocking matrix 42 generates a signal in which a target speech signal is attenuated by adaptive signal processing and a signal other than the target speech signal is emphasized.
携帯情報端末2から送られてくるマルチチャンネル音声信号x1(t)〜x8(t)は、それぞれ減算器51〜58に送られる。一方、固定ビームフォーマ41の出力信号は、適応フィルタ61〜68に送られる。各適応フィルタ61〜68の出力信号は、対応する減算器51〜58に送られる。各減算器51〜58は、対応するマイクロホンの信号x1(t)〜x8(t)から対応する適応フィルタ61〜68の出力信号を減算する。各減算器51〜58の出力信号は、適応外乱キャンセラ43に送られるとともに、各適応フィルタ61〜68のフィルタ係数更新のために対応する適応フィルタ61〜68に送られる。
Multi-channel audio signals x1 (t) to x8 (t) sent from the
各適応フィルタ61〜68では、対応する減算器51〜58の出力信号電力が最小化されるように、フィルタ係数の更新を行なう。この結果、減算器51〜58の出力信号は、目的信号が減衰された信号となる。なお、後述するように、各適応フィルタ61〜68は適応制御部44によって制御される。
In each of the
〔3−3〕適応外乱キャンセラ
適応外乱キャンセラ43は、固定ビームフォーマ41の出力信号から、適応ブロッキング行列42の出力信号群に相関がある成分を除去する。適応ブロッキング行列42の出力信号は、多チャンネル適応フィルタ71に送られる。多チャンネル適応フィルタ71の出力(多チャンネル適応フィルタを構成する各適応フィルタの出力の総和)は減算器72に送られる。この減算器72には、固定ビームフォーマ41の出力信号が送られている。減算器72は、固定ビームフォーマ41の出力信号から多チャンネル適応フィルタ71の出力信号を減算する。減算器72の出力信号z(t)は、適応ビームフォーマ31の出力信号として単一チャンネル雑音低減装置32に送られるとともに、多チャンネル適応フィルタ71のフィルタ係数更新のために多チャンネル適応フィルタ71に送られる。
[3-3] Adaptive Disturbance Canceller The
多チャンネル適応フィルタ71では、減算器72の出力信号電力が最小化されるように、フィルタ係数の更新を行なう。この結果、減算器72の出力信号は、目的信号以外の信号(干渉信号および雑音信号)が大きく減衰された信号となる。なお、後述するように、多チャンネル適応フィルタ71は適応制御部44によって制御される。
In the multi-channel adaptive filter 71, the filter coefficient is updated so that the output signal power of the
〔3−4〕適応制御部
上記文献〔4〕で指摘されているように、ブロッキング行列42は、SNR(信号対雑音比)が高いときに適応させるべきである。つまり、SNRが高いときにブロッキング行列42内の各適応フィルタ61〜68の係数の更新を行なうべきである。一方、適応外乱キャンセラ43は、SNRが低いときに適応させるべきである。つまり、SNRが低いときに適応外乱キャンセラ43内の多チャンネル適応フィルタ71の係数の更新を行なうべきである。
[3-4] Adaptive Control Unit As pointed out in the above document [4], the blocking matrix 42 should be adapted when the SNR (signal to noise ratio) is high. That is, when the SNR is high, the coefficients of the
そこで、適応制御部44は、音声のみが検出された場合にブロッキング行列42を適応させる。また、雑音のみが検出された場合に適応外乱キャンセラ43を適応させる。いわゆるダブルトーク中は、全ての適応を停止させる。適応制御部44は、それぞれの周波数帯でのDFT領域において、これら3つの状態、”目的音声のみ”、”雑音のみ”および”ダブルトーク”を常時検出する。
Therefore, the
図5は、適応制御部44の構成を示している。
FIG. 5 shows the configuration of the
固定ビームフォーマ201は、上記固定ビームフォーマ41と同様にマルチチャンネル音声信号x1(t)〜x8(t)から、目的の音声信号が強調され、目的の音声信号以外の信号が減衰された信号を生成する。
Similarly to the fixed
固定ビームフォーマ201の出力信号y(t)が目的信号の推定値とみなされるように、固定ビームフォーマ201は雑音と比較して目的信号を高める。マルチチャンネル音声信号x1(t)〜x8(t)は、それぞれ減算器211〜218に送られる。これらの減算器211〜218には、固定ビームフォーマ201の出力信号y(t)が送られる。
The fixed
各減算器211〜218は、対応する音声信号x1(t)〜x8(t)から目的信号の推定値y(t)を減算することにより、雑音の推定値c1(t)〜c8(t)を算出する。
Each of the
固定ビームフォーマ201の出力信号y(t)は、離散フーリエ変換器(DFT:Discrete Fourier Transformer) 220によってDFT領域に変換され、PSD推定器230によってそのパワースペクトラム密度(PSD)が推定される。y(t)のPSDはSYY(n,t)で表される。n=1…Nであり、DFTの周波数帯のインデックスである。tは時間のインデックスである。
The output signal y (t) of the fixed
各雑音の推定値c1(t)〜c8(t)は、それぞれ対応するDFT221〜228によってDFT領域に変換され、PSD推定器231〜238によってそのパワースペクトラム密度(PSDs)が推定される。c1(t)…c8(t)のパワースペクトラム密度(PSDs)は、加算器239において平均化される。平均化されたパワースペクトラム密度はScc(n,t)で表される。
The estimated values c1 (t) to c8 (t) of each noise are converted into DFT regions by corresponding
SYY(n,t)とScc(n,t)とは、それぞれ、目的音声のパワースペクトラム密度の推定値および雑音のパワースペクトラム密度の推定値として、みなすことができる。除算器241では、R(n,t)=SYY(n,t)/Scc(n,t)の演算を行なう。R(n,t)は、マイクロホンのSNRの周波数帯による推定値となる。R(n,t)の最大値は高いSNRに対応し、R(n,t)の最小値は低いSNRに対応している。
SYY (n, t) and Scc (n, t) can be regarded as an estimated value of the power spectrum density of the target speech and an estimated value of the power spectrum density of noise, respectively. The
決定ユニット242では、R(n,t)の最大値と最小値とが検出される。決定ユニット242は、R(n,t)の最大値が検出された場合には、ブロッキング行列42のみを適応させるために、Db(n,t)=1,Di(n,t)=0とする。一方、R(n,t)の最小値が検出された場合には、適応外乱キャンセラ43のみを適応させるために、Db(n,t)=0,Di(n,t)=1とする。その他の場合には、ブロッキング行列42および適応外乱キャンセラ43の適応を停止させるために、Db(n,t)=0,Di(n,t)=0とする。
In the
〔4〕単一チャンネル雑音低減装置についての説明 [4] Description of single channel noise reduction device
単一チャンネル雑音低減装置32は、GMMに基づくWienner filterを用いて雑音を抑圧するものである。以下、GMM に基づくWienner filterの設計法と、雑音抑圧法について説明する。
The single channel
〔4−1〕GMM に基づくWienner filterの設計
まず、クリーンな音声信号をs(t)、雑音をn(t)とすると、雑音が重畳した音声信号z(t)は、次式(1)により表現される。
[4-1] Design of Wienner filter based on GMM First, assuming that a clean speech signal is s (t) and noise is n (t), the speech signal z (t) on which noise is superimposed is expressed by the following equation (1). It is expressed by
次に、上記式(1)に対して離散フーリエ変換(DFT)およびメルフィルタバンク分析を適用することにより、メルスペクトルを求める。メルスペクトル上での雑音重畳音声、クリーン音声、雑音の関係は、次式(2)のように表される。 Next, a mel spectrum is obtained by applying discrete Fourier transform (DFT) and mel filter bank analysis to the above equation (1). The relationship between noise superimposed speech, clean speech, and noise on the mel spectrum is expressed by the following equation (2).
上記式(2)において、Zb lin (i),Sb lin (i),Nb lin (i)は、それぞれ雑音重畳音声、クリーン音声、雑音のメルスペクトルを示しており、bはメルフィルタの番号を、iはフレーム番号を示している。 In the above equation (2), Z b lin (i), S b lin (i), and N b lin (i) indicate noise superimposed speech, clean speech, and noise mel spectrum, respectively, and b is a mel filter. I indicates a frame number.
以上のような定義のもと、Wienner filterにより、Zb lin (i)からSb lin (i)を推定する。Wienner filterによる推定は、次式(3)により行なわれる。 Based on the above definition, S b lin (i) is estimated from Z b lin (i) by the Wienner filter. Estimation by the Wienner filter is performed by the following equation (3).
上記式(3)の右辺第2項がWienner filterであり、Wienner filterのパラメータのうち、雑音のメルスペクトルNb lin (i)は、定常的な信号であり、入力された雑音重畳音声の開始10フレームには雑音信号のみが存在すると仮定して次式(4)により推定する。 The second term on the right side of the above equation (3) is the Wienner filter, and among the Wienner filter parameters, the noise mel spectrum N b lin (i) is a stationary signal, and the start of the input noise superimposed speech Assuming that only a noise signal exists in 10 frames, the estimation is performed by the following equation (4).
次に、Wienner filterのパラメータSb lin (i)は、クリーン音声のメルスペクトルであり、これはフィルタ設計時には未知のパラメータである。よって、事前に正規分布を用いて、クリーン音声の確率モデルを作成しておき、正規分布の平均値μb S,lin をWienner filterのパラメータSb lin (i)として代用する。この結果、上記式(3)は次式(5)で表される。 Next, the parameter S b lin (i) of the Wienner filter is a mel spectrum of clean speech, which is an unknown parameter when designing the filter. Therefore, a probability model of clean speech is created in advance using a normal distribution, and the average value μ b S, lin of the normal distribution is substituted as the parameter S b lin (i) of the Wienner filter. As a result, the above equation (3) is expressed by the following equation (5).
以上はメルスペクトル上の定式化であるが、メルスペクトルは、時間変化量(ダイナミックレンジ)が大きいパラメータであるため、クリーン音声の確率モデルを作成する際のモデリングのパラメータとしては相応しくない。よって、対数関数によりダイナミックレンジを平滑化した対数メルスペクトル上でモデリングを行ない、Wienner filterの設計も同様に対数メルスペクトル上で行なう。これにより、次式(6),(7),(8)が得られる。 The above is the formulation on the mel spectrum, but the mel spectrum is a parameter with a large amount of time change (dynamic range), and is not suitable as a modeling parameter when creating a clean speech probability model. Therefore, modeling is performed on the log mel spectrum whose dynamic range is smoothed by the logarithmic function, and the design of the Wienner filter is also performed on the log mel spectrum. Thereby, following Formula (6), (7), (8) is obtained.
また、クリーン音声の確率モデルに正規分布を用いるが、単一の正規分布ではモデリングの性能が低い。そのため、次式(9)のように、複数の正規分布を有するGMMによりモデリングを行なう。 In addition, the normal distribution is used for the probability model of clean speech, but the modeling performance is low with a single normal distribution. Therefore, modeling is performed by a GMM having a plurality of normal distributions as in the following equation (9).
上記式(9)において、Pk は要素分布kの重みであり、Kは要素分布の総数である。また、S(i)はSb (i)を要素に持つベクトル、μk S は要素分布kにおける平均値μb,k S を要素に持つベクトル、Σk S は要素分布kにおける分散値σb,k S を要素に持つ対角行列である。 In the above equation (9), P k is the weight of the element distribution k, and K is the total number of element distributions. S (i) is a vector having S b (i) as an element, μ k S is a vector having an average value μ b, k S in an element distribution k, and Σ k S is a variance value σ in the element distribution k. It is a diagonal matrix with b and k S as elements.
上記式(9)のGMMを用いることにより、次式(10)で示すように、要素分布kごとにWienner filterを設計することができる。 By using the GMM of the above formula (9), it is possible to design a Wienner filter for each element distribution k as shown by the following formula (10).
最終的に、複数設計されたWienner filterを次式(11)の加重平均により1つのフィルタとしてまとめる。 Finally, a plurality of designed Wienner filters are collected as one filter by the weighted average of the following equation (11).
上記式(11)のPk,i は加重平均に用いる重みであり、これには次式(12)で与えられる雑音重畳音声の雑音重畳音声GMMに対する事後確率を用いる。本手法において事前に用意できるGMMは、クリーン音声のGMMのみであるので、次式(13),(14)を用いて、雑音重畳音声GMMのパラメータを近似的に生成する。 P k, i in the above equation (11) is a weight used for the weighted average, and for this, the posterior probability of the noise superimposed speech given by the following equation (12) with respect to the noise superimposed speech GMM is used. Since the GMM that can be prepared in advance in this method is only a clean speech GMM, the parameters of the noise superimposed speech GMM are approximately generated using the following equations (13) and (14).
上記式(12)において、Pk はクリーン音声GMMのパラメータをそのまま使用する。また、Z(i)はZb (i)を要素に持つベクトル、μk Z は要素分布kにおける平均値μb,k Z を要素に持つベクトル、Σk Z は要素分布kにおける分散値σb,k Z を要素に持つ対角行列である。 In the above equation (12), P k uses the parameters of the clean speech GMM as it is. Z (i) is a vector having Z b (i) as an element, μ k Z is a vector having an average value μ b, k Z in the element distribution k, and Σ k Z is a variance value σ in the element distribution k. It is a diagonal matrix with b and k Z as elements.
本手法では、GMMのパラメータを用いて複数のWienner filterを設計しておき、重み付け平均により最終的なフィルタを得る。重みPk,i は短時間フレーム毎に計算するので、本手法で得られるフィルタは時間方向に対して可変なフィルタとなる。 In this method, a plurality of Wienner filters are designed using GMM parameters, and a final filter is obtained by weighted averaging. Since the weights P k, i are calculated for each short time frame, the filter obtained by this method is a filter that is variable in the time direction.
〔4−2〕Wienner filterの適用
上記式(11)で設計されたWienner filterを雑音重畳音声に対して適用する。まず、得られるフィルタは対数メルスペクトル上で設計されているので、次式(15)にように指数関数を用いてメルスペクトル上のフィルタに変換する。
[4-2] Application of Wienner filter The Wienner filter designed by the above equation (11) is applied to noise superimposed speech. First, since the obtained filter is designed on the log mel spectrum, it is converted into a filter on the mel spectrum using an exponential function as shown in the following equation (15).
次に、^Gb lin (i)に対して逆DCTを適用して、インパルス応答に変換する。ここで、^Gb lin (i)はメル周波数上でのWienner filterであるので、従来の逆DCTでは時間領域のパラメータ(インパルス応答)に変換できない。よって、メル周波数を線形周波数にマッピングして変換を行なうMEL-warped IDCT( 文献〔7〕参照)を用いる。これにより、次式(16)が得られる。 Next, inverse DCT is applied to { circumflex over (G) } b lin (i) to convert it into an impulse response. Here, since {circumflex over (G)} b lin (i) is a Wienner filter on the mel frequency, conventional inverse DCT cannot convert it into a time domain parameter (impulse response). Therefore, MEL-warped IDCT (see reference [7]) that performs conversion by mapping mel frequencies to linear frequencies is used. Thereby, the following equation (16) is obtained.
文献〔7〕:ETSI ES 202 050 V1.1.3," Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Advanced Front-end Feature Extraction Algorithm; Compression Algorithms, " Nov.2003. Reference [7]: ETSI ES 202 050 V1.1.3, "Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Advanced Front-end Feature Extraction Algorithm; Compression Algorithms," Nov.2003.
上記式(16)において、ξb,t はMEL-warped IDCTの係数である。 In the above equation (16), ξ b, t is a coefficient of MEL-warped IDCT.
最終的に、得られたインパルス応答を次式(17)のように雑音重畳音声信号z(t)に畳み込むことにより、推定クリーン音声信号^s(t)を得る。 Finally, an estimated clean speech signal ss (t) is obtained by convolving the obtained impulse response with the noise superimposed speech signal z (t) as shown in the following equation (17).
〔4−3〕単一チャンネル雑音低減装置32の処理手順
図6は、単一チャンネル雑音低減装置32の処理手順を示している。
まず、適応ビームフォーマ31から送られてくる雑音重畳音声信号z(t)に対してメルフィルタバンク分析を行ない、対数メルスペクトルZb (i)を得る(ステップS1)。
[4-3] Processing Procedure of Single Channel
First, mel filter bank analysis is performed on the noise superimposed speech signal z (t) sent from the
そして、iが10以上であるか否かを判別する(ステップS2)。iが10未満であれば(i<10)、上記式(8)に基づいて雑音^Nb の推定を行なう(ステップS3)。そして、iを1だけインクリメントして(ステップS4)、ステップS1に戻り、次のフレーム処理に移行する。 And it is discriminate | determined whether i is 10 or more (step S2). i is less than 10 (i <10), to estimate the noise ^ N b based on the equation (8) (step S3). Then, i is incremented by 1 (step S4), and the process returns to step S1 to shift to the next frame processing.
上記ステップS2において、iが10以上であれば(i≧10)、上記式(10)に基づいて、GMMの要素分布毎にWienner filter Gb,k (μb,k S ,^Nb )を設計する(ステップS5)。次に、上記式(11)〜(14)に基づいて、重みPk,i の計算を行なうとともに、Wienner filter Gb,k (μb,k S ,^Nb )の加重平均を行なう(ステップS6)。次に、上記式(15),(16)に基づいて、加重平均されたWienner filter ^Gb (i)をインパルス応答g(t)に変換する(ステップS7)。そして、上記式(17)に基づいて、インパルス応答g(t)を雑音重畳音声z(t)に畳み込み、推定クリーン音声信号^s(t)を得る(ステップS8)。iを1だけインクリメントして(ステップS4)、ステップS1に戻り、次のフレーム処理に移行する。 In step S2, if i is 10 or more (i ≧ 10), Wienner filter G b, k (μ b, k S , ^ N b ) for each element distribution of GMM based on the above equation (10). Is designed (step S5). Next, the weight P k, i is calculated based on the above equations (11) to (14), and the weighted average of the Wienner filter G b, k (μ b, k S , ^ N b ) is performed ( Step S6). Next, based on the above equations (15) and (16), the weighted average Wienner filter ^ G b (i) is converted into an impulse response g (t) (step S7). Then, based on the above equation (17), the impulse response g (t) is convoluted with the noise-superimposed speech z (t) to obtain an estimated clean speech signal ^ s (t) (step S8). i is incremented by 1 (step S4), and the process returns to step S1 to shift to the next frame processing.
〔5〕システム評価 [5] System evaluation
音声認識部33として、本出願人が開発したバージョン3.3のATRASR大語彙音声認識システムを使用した。特徴ベクトルは、16KHzのサンプルレートで記録されたデータを10msでフレーム・シフトする20msのフレームから抽出した12次元MFCC、12次元ΔMFCCおよびΔ対数パワーからなる。さらにケプストラム平均減算(CMS)を適用した。クリーンな音声の日本語性別依存音響モデルを、本出願人が作成した旅行手配業務の対話音声コーパスから5時間の音声データと、25時間の音素出現バランスが考慮された文章の読み上げ音声とを使って学習した。ここで、MDL−SSSアルゴリズム(文献〔8〕参照)より生成される2086の状態を持つ音素HMMを使用した。
As the
文献〔8〕:T.Jitsuhiro, T.Matsui, and S.Nakamura," Automatic generation of non-uniform HMM topologies based on the MDL criterion," IEICE Trans. on Information and Systems, vol. E87-D, no.8, pp. 2121-2129, August 2004. Reference [8]: T.Jitsuhiro, T.Matsui, and S.Nakamura, "Automatic generation of non-uniform HMM topologies based on the MDL criterion," IEICE Trans. On Information and Systems, vol. E87-D, no. 8, pp. 2121-2129, August 2004.
この音声認識システムは、多重クラス複合バイグラム言語モデル( 文献〔9〕参照)およびリスコアリングのための単語トライグラム言語モデルを使用している。言語モデルは、総計630万語( 文献〔10〕参照)の、自然発話データベース(SDB)、言語データベース(LDB)および口語データベース(SLDB)で学習される。辞書サイズは、5万5千語である。 This speech recognition system uses a multi-class composite bigram language model (see reference [9]) and a word trigram language model for rescoring. The language model is learned in a natural utterance database (SDB), a language database (LDB), and a spoken language database (SLDB) of a total of 6,300,000 words (see document [10]). The dictionary size is 55,000 words.
文献〔9〕:H.Yamamoto, S.Isogai, and Y.Sagisaka," Multi-class composite N-gram language model," Speech Communication, vol. 41, no. 2-3, pp. 369-379, October 2003.
文献〔10〕:T.Takezawa, T.Morimoto, and Y.Sagisaka," Speech and language databases for speech translation research in ATR," Proc. Int. Workshop on East-Asian Language Resources and Evaluation(EALREW), PP. 148-155, May 1998.
Reference [9]: H. Yamamoto, S. Isogai, and Y. Sagisaka, "Multi-class composite N-gram language model," Speech Communication, vol. 41, no. 2-3, pp. 369-379, October 2003.
Reference [10]: T. Takezawa, T. Morimoto, and Y. Sagisaka, "Speech and language databases for speech translation research in ATR," Proc. Int. Workshop on East-Asian Language Resources and Evaluation (EALREW), PP. 148-155, May 1998.
雑音低減システムを試験するために、PDAマイクロホン・アレー(図1のマイクロホンアレーユニット1)と、参考として接話型マイクロホンとを用いて2つの音響環境、すなわち、ATRのデモンストレーション・ルームとカフェテリアで、小型のデータベースを記録した。2名の男性話者と2名の女性話者が各環境において、基本旅行表現コーパス(BTEC)テストセット−01(文献〔11〕参照)から102の発話文を読み上げた。
To test the noise reduction system, a PDA microphone array (
文献〔11〕:T.Takezawa, E.Sumita, F.Sugaya, and H.Yamamoto," Towards a broad-coverage bilingual corpus for speech translation of travel conversations in the real world," Proc. Int. Conference on Language Resources and Evaluation, vol. 1, pp. 147-152, May 2002. Reference [11]: T. Takezawa, E. Sumita, F. Sugaya, and H. Yamamoto, "Towards a broad-coverage bilingual corpus for speech translation of travel conversations in the real world," Proc. Int. Conference on Language Resources and Evaluation, vol. 1, pp. 147-152, May 2002.
全ての発話者の位置は同じである。PDA2は、見台上に置いた。話者は、見台上のPDAの隣に置かれた読み上げ原稿を読むとき、頭を動かすことが許された。デモンストレーション・ルームとカフェテリアの残響時間は、それぞれ約T60=250msとT60=1sである。話者の頭とPDAとの距離は、ほぼ50cmであるので、高い直接音対残響音比が得られる。デモンストレーション・ルームにおいては、数台のパソコンのファンやエアコンの騒音があった。カフェテリアでは、台所ノイズ、話し声、エアコンや冷蔵庫の騒音かあった。デモンストレーション・ルームとカフェテリアでの各話者の平均SNRを、それぞれ表1、表2に示す。 All speaker locations are the same. PDA2 was placed on a lookout. The speaker was allowed to move his head when reading a reading manuscript placed next to the PDA on the platform. The reverberation times of the demonstration room and cafeteria are approximately T 60 = 250 ms and T 60 = 1s, respectively. Since the distance between the speaker's head and the PDA is approximately 50 cm, a high direct sound to reverberation ratio can be obtained. In the demonstration room, there were noises from several PC fans and air conditioners. In the cafeteria, there was kitchen noise, talking voice, air conditioner and refrigerator noise. Tables 1 and 2 show the average SNR of each speaker in the demonstration room and cafeteria, respectively.
表1はデモンストレーション・ルームでの実験結果を示し、表2はカフェテリアでの実験結果を示している。 Table 1 shows the experimental results in the demonstration room, and Table 2 shows the experimental results in the cafeteria.
表1、2において、”F1”、”F2”は女性話者を表し、”M1”、”M2”は、男性話者を表している。話者全員の総平均は、線形領域で計算した。周波数帯域は50Hz〜8kHzの範囲である。 In Tables 1 and 2, “F1” and “F2” represent female speakers, and “M1” and “M2” represent male speakers. The total average of all speakers was calculated in the linear region. The frequency band is in the range of 50 Hz to 8 kHz.
また、表1、2において、”Close-talk" とは、接話型マイクロホンによって得られた音声信号を直接音声認識部に入力させて、音声認識を行なった場合の平均単語正解精度〔%〕を示している。”Baseline" とは、マイクロホンアレーの各マイクロホン毎に、そのマイクロホンによって得られた音声信号を直接音声認識部に入力させて音声認識を行なった場合のマイクロホン全ての平均単語正解精度〔%〕を示している。 In Tables 1 and 2, “Close-talk” means the average word accuracy [%] when speech recognition is performed by directly inputting the speech signal obtained by the close-talking microphone into the speech recognition unit. Is shown. “Baseline” indicates the average word accuracy [%] of all microphones when speech recognition is performed by directly inputting the speech signal obtained by the microphone to the speech recognition unit for each microphone of the microphone array. ing.
"MMSE" とは、マイクロホンアレーの各マイクロホン毎に、そのマイクロホンによって得られた音声信号を、MMSE( 単一チャンネル雑音低減装置32) を介して音声認識部に入力させて音声認識を行なった場合のマイクロホン全ての平均単語正解精度〔%〕を示している。 “MMSE” means that for each microphone of the microphone array, the speech signal obtained by the microphone is input to the speech recognition unit via the MMSE (single channel noise reduction device 32) and speech recognition is performed. The average word accuracy [%] of all the microphones is shown.
"RGSC" とは、マイクロホンアレーによって得られたマルチチャンネル音声信号をRGSC( 適応ビームフォーマ31)によってビームフォーミングした後に、音声認識部によって音声認識を行なった場合の単語正解精度〔%〕を示している。 “RGSC” indicates the correct word accuracy [%] when the speech recognition unit performs speech recognition after beamforming the multi-channel speech signal obtained by the microphone array by the RGSC (adaptive beamformer 31). Yes.
"RGSC+MMSE" とは、マイクロホンアレーによって得られたマルチチャンネル音声信号をRGSC( 適応ビームフォーマ31)によってビームフォーミングするとともにMMSE( 単一チャンネル雑音低減装置32) によって雑音を低減させた後に、音声認識部によって音声認識を行なった場合の単語正解精度〔%〕を示している。SNRは線形領域で平均化される。 “RGSC + MMSE” means that a multi-channel audio signal obtained by a microphone array is beam-formed by RGSC (adaptive beamformer 31) and noise is reduced by MMSE (single channel noise reduction device 32), and then a voice recognition unit Indicates the correct word accuracy [%] when speech recognition is performed. The SNR is averaged in the linear region.
〔5−2〕音声認識性能 [5-2] Speech recognition performance
〔5−2−1〕デモンストレーション・ルーム
表1は、デモンストレーション・ルームでの実験結果を示している。全話者の平均SNRは、24.9dBである。接話型マイクロホンに対する全話者の平均単語正解精度(”Close-talk" の平均単語正解精度)は96.74%である。SNRが高く、残響時間も比較的短いので、”Baseline" の平均単語正解精度は93.25%である。 "MMSE" または "RGSC" は、双方とも”Baseline" に比べて1%の改善を示している。 "RGSC+MMSE" では、単語正解精度が95.57%となり、接話型マイクロホンの性能に近くなっている。
[5-2-1] Demonstration Room Table 1 shows the results of experiments in the demonstration room. The average SNR for all speakers is 24.9 dB. The average word accuracy of all speakers for the close-talking microphone (average word accuracy of “Close-talk”) is 96.74%. Since the SNR is high and the reverberation time is relatively short, the average word accuracy of “Baseline” is 93.25%. “MMSE” or “RGSC” both show a 1% improvement over “Baseline”. In “RGSC + MMSE”, the correct word accuracy is 95.57%, which is close to the performance of a close-talking microphone.
〔5−2−2〕カフェテリア
表2は、カフェテリアでの実験結果を示している。”Baseline" の平均単語正解精度は79.42%であり、カフェテリアでは雑音レベルが高く残響時間が長いため、デモンストレーション・ルームでの結果に比べて著しく低くなっている。 "MMSE" または "RGSC" では、単語正解精度はデモンストレーション・ルームと同様に改善されている。 "RGSC+MMSE" では、接話型マイクロホンの性能に近くなっている。
[5-2-2] Cafeteria Table 2 shows experimental results in the cafeteria. The average word accuracy of “Baseline” is 79.42%, and the noise level is high and the reverberation time is long in the cafeteria, so it is significantly lower than the result in the demonstration room. In "MMSE" or "RGSC", word accuracy is improved as in the demonstration room. “RGSC + MMSE” is close to the performance of a close-talking microphone.
〔5−2−3〕可変SNR
可変SNR用のASRシステムの性能を研究するため、カフェテリアで記録した音声データを使用し、レベルが可変のカフェテリア雑音を追加した。雑音は、音声録音を行なった所と同じ場所で見台に置いたPDAマイクロホン・アレーで別途記録した。結果を表3に示す。括弧内の値は、マイクロホン全ての単語正解精度の標準偏差である。
[5-2-3] Variable SNR
In order to study the performance of the ASR system for variable SNR, voice data recorded in the cafeteria was used and cafeteria noise with variable levels was added. Noise was recorded separately with a PDA microphone array placed on a lookout at the same location where the voice recording was performed. The results are shown in Table 3. The value in parentheses is the standard deviation of the correct word accuracy for all microphones.
"MMSE" の方が、 "RGSC" より僅かに良好であるのがわかる。しかしながら、 "RGSC+MMSE" は、RGSCおよびMMSEが相互に補い合って、それぞれの単独の場合( "MMSE" または "RGSC" )や、”Baseline" の場合よりも、単語正解精度に対して高い改善が得られている。 It can be seen that “MMSE” is slightly better than “RGSC”. However, "RGSC + MMSE" complements RGSC and MMSE, and the word accuracy is improved much more than the case of each alone ("MMSE" or "RGSC") or "Baseline". It has been.
1 マイクロホンアレーユニット
2 携帯情報端末
3 音声認識装置
31 適応ビームフォーマ
32 単一チャンネル雑音低減装置
33 音声認識部
M1〜M8 マイクロホン
DESCRIPTION OF
Claims (2)
適応ビームフォーマとして、固定ビームフォーマ、適応ブロッキング行列および適応外乱キャンセラを備え、固定ビームフォーマおよび適応外乱キャンセラが入力信号のSNRに応じて適応制御されるロバスト一般化サイドローブ・キャンセラが用いられており、
雑音低減装置として、GMMに基づくウイナーフィルタを用いて、雑音を抑圧する単一チャンネル雑音低減装置が用いられていることを特徴とする音声強調装置。 A microphone array having a plurality of microphones, an adaptive beamformer that generates a signal in which the target audio signal is emphasized from a plurality of microphone signals obtained by the microphone array, and noise on the output signal of the adaptive beamformer are suppressed. Noise reduction device,
A robust generalized sidelobe canceller is used as the adaptive beamformer, which includes a fixed beamformer, adaptive blocking matrix, and adaptive disturbance canceller, and the adaptive beamformer and adaptive disturbance canceller are adaptively controlled according to the SNR of the input signal. ,
A speech enhancement apparatus, wherein a single-channel noise reduction apparatus that suppresses noise using a GMM-based Wiener filter is used as the noise reduction apparatus.
適応ビームフォーマから送られてくる入力音声信号に対してフレーム毎にメルフィルタバンク分析を行なうことにより、入力音声信号に対応する対数メルスペクトルを求める第1手段、
第1手段によって得られた、入力音声信号に対応する対数メルスペクトルのフレーム番号が所定値以上であるか否かを判別する第2手段、
第1手段によって得られた、入力音声信号に対応する対数メルスペクトルのフレーム番号が所定値未満である場合には、第1手段によって得られた、入力音声信号に対応する対数メルスペクトルに基づいて、雑音に対応する対数メルスペクトルを推定するための処理を行なった後、第1手段による次のフレーム処理に移行させる第3手段、
第1手段によって得られた、入力音声信号に対応する対数メルスペクトルのフレーム番号が所定値以上である場合には、第3手段によって得られた雑音に対応する対数メルスペクトルとGMMとを用いることにより、GMMの要素分布毎にウイナーフィルタを設計した後、得られた複数のウイナーフィルタを加重平均する第4手段、ならびに
第4手段によって得られた、加重平均されたウイナーフィルタをインパルス応答に変換し、得られたインパルス応答を入力音声信号に畳み込むことによって推定クリーン音声信号を得た後、第1手段による次のフレーム処理に移行させる第5手段、
を備えていることを特徴とする請求項1に記載の音声強調装置。 Noise reduction device
A first means for obtaining a logarithmic mel spectrum corresponding to an input voice signal by performing a mel filter bank analysis for each frame on the input voice signal sent from the adaptive beamformer;
Second means for determining whether or not the log mel spectrum frame number corresponding to the input speech signal obtained by the first means is equal to or greater than a predetermined value;
When the frame number of the log mel spectrum corresponding to the input voice signal obtained by the first means is less than a predetermined value, the log mel spectrum obtained by the first means is based on the log mel spectrum corresponding to the input voice signal. A third means for performing a process for estimating a logarithmic mel spectrum corresponding to noise and then proceeding to a next frame process by the first means;
When the log mel spectrum frame number corresponding to the input speech signal obtained by the first means is greater than or equal to a predetermined value, the log mel spectrum corresponding to the noise obtained by the third means and the GMM are used. After designing a winner filter for each element distribution of GMM, the fourth means for weighted averaging of the obtained plurality of winner filters, and the weighted averaged winner filter obtained by the fourth means are converted into impulse responses And, after obtaining the estimated clean speech signal by convolving the obtained impulse response with the input speech signal, fifth means for shifting to the next frame processing by the first means,
The speech enhancement apparatus according to claim 1, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005268174A JP2007093630A (en) | 2005-09-05 | 2005-09-15 | Speech emphasizing device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005256188 | 2005-09-05 | ||
JP2005268174A JP2007093630A (en) | 2005-09-05 | 2005-09-15 | Speech emphasizing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007093630A true JP2007093630A (en) | 2007-04-12 |
Family
ID=37979495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005268174A Withdrawn JP2007093630A (en) | 2005-09-05 | 2005-09-15 | Speech emphasizing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007093630A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2058797A1 (en) * | 2007-11-12 | 2009-05-13 | Harman Becker Automotive Systems GmbH | Discrimination between foreground speech and background noise |
JP2012123185A (en) * | 2010-12-08 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | Noise suppression device, and method and program thereof |
WO2015049921A1 (en) * | 2013-10-04 | 2015-04-09 | 日本電気株式会社 | Signal processing apparatus, media apparatus, signal processing method, and signal processing program |
WO2020121545A1 (en) * | 2018-12-14 | 2020-06-18 | 日本電信電話株式会社 | Signal processing device, signal processing method, and program |
CN112331226A (en) * | 2020-09-29 | 2021-02-05 | 江苏清微智能科技有限公司 | Voice enhancement system and method for active noise reduction system |
-
2005
- 2005-09-15 JP JP2005268174A patent/JP2007093630A/en not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2058797A1 (en) * | 2007-11-12 | 2009-05-13 | Harman Becker Automotive Systems GmbH | Discrimination between foreground speech and background noise |
US8131544B2 (en) | 2007-11-12 | 2012-03-06 | Nuance Communications, Inc. | System for distinguishing desired audio signals from noise |
JP2012123185A (en) * | 2010-12-08 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | Noise suppression device, and method and program thereof |
WO2015049921A1 (en) * | 2013-10-04 | 2015-04-09 | 日本電気株式会社 | Signal processing apparatus, media apparatus, signal processing method, and signal processing program |
US9905247B2 (en) | 2013-10-04 | 2018-02-27 | Nec Corporation | Signal processing apparatus, medium apparatus, signal processing method, and signal processing program |
WO2020121545A1 (en) * | 2018-12-14 | 2020-06-18 | 日本電信電話株式会社 | Signal processing device, signal processing method, and program |
CN112331226A (en) * | 2020-09-29 | 2021-02-05 | 江苏清微智能科技有限公司 | Voice enhancement system and method for active noise reduction system |
CN112331226B (en) * | 2020-09-29 | 2024-04-12 | 江苏清微智能科技有限公司 | Voice enhancement system and method for active noise reduction system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5550456B2 (en) | Reverberation suppression apparatus and reverberation suppression method | |
Kuklasiński et al. | Maximum likelihood PSD estimation for speech enhancement in reverberation and noise | |
KR101726737B1 (en) | Apparatus for separating multi-channel sound source and method the same | |
JP5738020B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5572445B2 (en) | Reverberation suppression apparatus and reverberation suppression method | |
JP4532576B2 (en) | Processing device, speech recognition device, speech recognition system, speech recognition method, and speech recognition program | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
Yamamoto et al. | Enhanced robot speech recognition based on microphone array source separation and missing feature theory | |
US10283115B2 (en) | Voice processing device, voice processing method, and voice processing program | |
KR20090123921A (en) | Systems, methods, and apparatus for signal separation | |
US8666737B2 (en) | Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method | |
KR101720514B1 (en) | Asr apparatus and method of executing feature enhancement based on dnn using dcica | |
Nakajima et al. | An easily-configurable robot audition system using histogram-based recursive level estimation | |
Schwarz et al. | A two-channel reverberation suppression scheme based on blind signal separation and Wiener filtering | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
Doclo et al. | Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage | |
JP2007093630A (en) | Speech emphasizing device | |
Huang et al. | Multi-microphone adaptive noise cancellation for robust hotword detection | |
Hayashida et al. | Close/distant talker discrimination based on kurtosis of linear prediction residual signals | |
TWI356399B (en) | Speech recognition system and method with cepstral | |
JP2009276365A (en) | Processor, voice recognition device, voice recognition system and voice recognition method | |
Herbordt et al. | Hands-free speech recognition and communication on PDAs using microphone array technology | |
Ishi et al. | Robust speech recognition system for communication robots in real environments | |
Kawase et al. | Automatic parameter switching of noise reduction for speech recognition | |
JP2022544065A (en) | Method and Apparatus for Normalizing Features Extracted from Audio Data for Signal Recognition or Correction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20091209 |