JP2010085733A - 音声強調システム - Google Patents

音声強調システム Download PDF

Info

Publication number
JP2010085733A
JP2010085733A JP2008255039A JP2008255039A JP2010085733A JP 2010085733 A JP2010085733 A JP 2010085733A JP 2008255039 A JP2008255039 A JP 2008255039A JP 2008255039 A JP2008255039 A JP 2008255039A JP 2010085733 A JP2010085733 A JP 2010085733A
Authority
JP
Japan
Prior art keywords
initial value
adaptive vector
vector
adaptive
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008255039A
Other languages
English (en)
Inventor
Kenichi Kumagai
建一 熊谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Equos Research Co Ltd
Original Assignee
Equos Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Equos Research Co Ltd filed Critical Equos Research Co Ltd
Priority to JP2008255039A priority Critical patent/JP2010085733A/ja
Publication of JP2010085733A publication Critical patent/JP2010085733A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】適応ベクトル推定のための初期値を求めることによって、複数のマイクロフォンが取得した音声信号から雑音を効果的に除去することができ、目的音声のみを強調して取り出すことができ、確実性が高く、信頼性が高くなるようにする。
【解決手段】所定の方向から到来した音声信号を強調する静的ベクトルを備える固定ビームフォーミング部と、所定の方向から到来した音声信号を無歪(ひず)みにするブロッキング行列を備えるブロッキング行列部12と、音声信号の分布をスーパーガウシアン分布に近付ける適応ベクトルを備える多入力キャンセラ13と、初期値を求めることによって前記適応ベクトルを推定する適応ベクトル推定ユニット14とを有し、複数のマイクロフォンが取得した複数の音源からの音声信号が入力されると、目的音声の音声信号を強調して出力する。
【選択図】図1

Description

本発明は、目的音声を強調する音声強調システムに関するものであり、特に、自動車のような車両の内部の雑音環境において、雑音を抑圧して音声認識の対象となる音声信号を取得するために好適な音声強調システムに関するものである。
従来、複数の音源が発生した音声信号の中から特定の音声信号、すなわち、目的音声のみを取得するための技術として、複数のマイクロフォンから成るマイクロフォンアレイ等を使用するアレイ信号処理技術が提案されている(例えば、非特許文献1参照。)。
例えば、固定ビームフォーマ、ブロッキング行列及び多入力キャンセラを備えるGSC(Generalized Sidelobe Canceller:一般化サイドローブキャンセラ)型ビームフォーマを使用することができる。この場合、固定ビームフォーマは、Delay−and−sumビームフォーマと呼ばれるタイプのものであり、マイクロフォンアレイにおける各マイクロフォンに到来する音声信号の時間遅れを補償するように構築される。また、ブロッキング行列は、ある方向から来る音声信号に歪(ひず)みを加えないように計算される。さらに、多入力キャンセラは、無歪の制約が課されている状態で、GSC型ビームフォーマ全体の出力信号の分散を最小化するように構築される。
このような方法では、目的信号としての目的音声の方向以外から到来する雑音を効果的に抑圧することはできるが、目的音声と相関の強い音声信号が目的音声の方向以外から到来した場合には、目的音声をも消去してしまうという欠点があった。そして、実際の環境では、例えば、目的音声は、壁のように表面の硬い物質から成る面等によって反射されるので、このような問題、すなわち、目的信号打消し問題(signal cancellation problems)は避けられないものである。
つまり、GSC型ビームフォーマを使用するシステムには目的信号打消し問題があるので、目的音声が存在しているときには、固定ビームフォーマを停止する必要があった。
そこで、目的信号打消し問題を解決するために、ブロッキング行列の出力信号から目的音声と相関のある要素を取り除く技術が提案されている(例えば、特許文献1参照。)。この場合、ブロッキング行列は、その出力信号から固定ビームフォーマの信号成分を取り除くように構築されている。
ただし、このようにブロッキング行列を構築すると、固定ビームフォーマの出力信号に雑音が含まれていた場合には、多入力キャンセラの雑音抑圧性能が著しく劣化してしまう。例えば、音源の位置推定に誤りがあると、固定ビームフォーマの信号成分に雑音が含まれる。また、空間エリアスィング(例えば、非特許文献1参照。)の影響によって、固定ビームフォーマの出力信号に雑音が多く含まれる場合もある。
つまり、特許文献1に記載される技術及び該技術に基づいた技術(例えば、非特許文献2参照。)は、目的信号打消し問題の解決と雑音抑圧性能とがトレードオフの関係となる、という問題を含んでいる。
そこで、目的信号打消し問題と雑音抑圧問題とを同時に解決するために、新しい基準を用いたビームフォーミングの技術が提案されている(例えば、非特許文献3、4及び5参照。)。この場合、GSC型ビームフォーマ全体の出力信号の分散を最小化するのではなく、無歪の制約を課したままGSC型ビームフォーマ全体の出力信号の分布がスーパーガウシアン分布になるように適応ベクトルを推定する。
特許第3001092号公報 H. L. Van Trees, Optimum Array Processing. New York: Wiley-Interscience, 2002. W. Herbordt, W. Kellermann, "Frequency-domain integration of acoustic echo cancellation and a generalized sidelobe canceller with improved robustness", European Trans. on Telecommunications (ETT), vol. 13, no. 2, pp. 123-132, Mar. 2002 Kenichi Kumatani, Tobias Gehrig, Uwe Mayer, Emilian Stoimenov, John McDonough and Matthias Wolfel,"Adaptive Beamforming with a Minimum Mutual Information Criterion", IEEE Trans. Audio, Speech and Language Processing, Vol. 15, pp. 2527-2541, November, 2007 Kenichi Kumatani, John McDonough, Dietrich Klakow, Philip N. Garner, Weifeng Li "Adaptive Beamforming with a Maximum Negentropy Criterion", for The Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA), Trento, Italy, May 2008 Kenichi Kumatani, John McDonough, Barbara Rauch, Philip N. Garner, Weifeng Li, and John Dines,"Maximum kurtosis beamforming with the generalized sidelobe canceller, "in Proc. Interspeech-2008, Brisbane, Australia, Septempber 2008
しかしながら、前記従来の音声強調システムにおいては、無歪の制約を課したままGSC型ビームフォーマ全体の出力信号の分布がスーパーガウシアン分布になるように適応ベクトルを推定すると、勾(こう)配法のような数値最適化アルゴリズムを使用して解を得る必要がある。一般的に、このような数値最適化アルゴリズムによって得られた解が最適解である保証はない。つまり、数値最適化アルゴリズムによって推定された適応ベクトルを使用しても、GSC型ビームフォーマ全体の出力信号の分布がスーパーガウシアン分布に最も近くなるとは限らない。これは、原理的に、適応ベクトルの推定結果が初期値に依存してしまうからである。
本発明は、前記従来の音声強調システムの問題点を解決して、適応ベクトル推定のための初期値を求めることによって、複数のマイクロフォンが取得した音声信号から雑音を効果的に除去することができ、目的音声のみを強調して取り出すことができる確実性が高く、信頼性の高い高性能な音声強調システムを提供することを目的とする。
そのために、本発明の音声強調システムにおいては、所定の方向から到来した音声信号を強調する静的ベクトルを備える固定ビームフォーミング部と、所定の方向から到来する目的信号を無歪に近付けるように制約するブロッキング行列を備えるブロッキング行列部と、音声信号の分布をスーパーガウシアン分布に近付ける適応ベクトルを備える多入力キャンセラと、初期値を求めることによって前記適応ベクトルを推定する適応ベクトル推定ユニットとを有し、複数のマイクロフォンが取得した複数の音源からの音声信号が入力されると、目的音声の音声信号を強調して出力する。
本発明の他の音声強調システムにおいては、さらに、前記適応ベクトル推定ユニットは、前記多入力キャンセラが出力する音声信号に含まれる目的音声の音声信号を検出する目的信号検出部と、該目的信号検出部によって目的音声の音声信号が検出されない場合に適応ベクトルの初期値を推定する初期値適応ベクトル推定部と、該初期値適応ベクトル推定部が推定した初期値を更新し、前記多入力キャンセラが出力する音声信号の分布のスーパーガウシアンの度合いを最大にする適応ベクトルを推定する最終適応ベクトル推定部とを備える。
本発明の更に他の音声強調システムにおいては、さらに、前記初期値適応ベクトル推定部は、各々が適応ベクトルの初期値を推定する複数の初期値推定用ビームフォーミング部を含み、前記最終適応ベクトル推定部は、各初期値を更新して複数の適応ベクトルを推定し、推定した複数の適応ベクトルの中から前記多入力キャンセラが出力する音声信号の分布のスーパーガウシアンの度合いを最大にする適応ベクトルを選択する。
請求項1の構成によれば、複数のマイクロフォンが取得した音声信号から雑音を効果的に除去することができ、目的音声のみを強調して取り出すことができる。
請求項2の構成によれば、適切な初期値を推定することができ、適切な適応ベクトルを推定することができる。
請求項3の構成によれば、推定された複数の適応ベクトルの中から最適なものを選択することができる。
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。
図1は本発明の実施の形態における音声強調システムの構成を示すブロック図、図2は本発明の実施の形態における適応ベクトルと目的関数との関係を説明する図である。
図1において、10は、本実施の形態における音声強調システムであり、複数の音源が発生した音声信号の中から特定の音声信号としての目的音声のみを取得するために使用されるコンピュータシステムである。前記音声強調システム10は、例えば、乗用車、トラック、バス、二輪車等の車両に装着されたナビゲーション装置、空調装置、オーディオ装置、映像装置、エンジン制御装置、サスペンション制御装置等の各種装置が備える音声入力装置において、運転者等が発生する音声を認識する音声認識の対象となる音声信号を雑音環境の下で取得するために使用されるものであるが、いかなる用途に使用されてもよい。また、前記音声強調システム10は、コンピュータシステムであるので、CPU、MPU等の演算手段、磁気ディスク、半導体メモリ等の記憶手段、入出力インターフェイス等を備えるものであるが、物理的には、必ずしも独立したコンピュータシステムである必要はなく、例えば、前記各種装置の備えるコンピュータシステムと一体化されたものであってもよい。
ここで、前記音声強調システム10は、機能の観点から、固定ビームフォーミング部としての固定ビームフォーマ11と、ブロッキング行列によって音声信号を処理するブロッキング行列部12と、多入力キャンセラ13と、適応ベクトル推定ユニット14とを有する。そして、該適応ベクトル推定ユニット14は、目的信号検出部15と、初期値推定用ビームフォーミング部としての初期値適応ベクトル推定部16と、最終ビームフォーミング部としての最終適応ベクトル推定部17とを備える。なお、矢印21は、音声強調システム10の入力信号であって、図示されない複数のマイクロフォンから成るマイクロフォンアレイからのマイクロフォンアレイ信号を示している。該マイクロフォンアレイ信号は、各マイクロフォンが集音した音に応じて出力した音声信号の集合であり、多チャンネル信号である。また、矢印22は、音声強調システム10の出力信号であって、目的音声の音声信号である。
前記音声強調システム10は、GSC型ビームフォーマの一種であり、固定ビームフォーマ11の重みとしての静的ベクトル、ブロッキング行列部12のブロッキング行列、及び、多入力キャンセラ13の適応ベクトルによってマイクロフォンアレイ信号を処理することにより、複数の音源が発生した音声信号の中から目的音声を取得する。そして、適応ベクトル推定ユニット14は、音声強調システム10の出力信号の分布がスーパーガウシアン分布に近くなるように、前記多入力キャンセラ13の適応ベクトルを推定する。
そのため、前記適応ベクトル推定ユニット14において、前記目的信号検出部15は目的信号の有無を判別する。つまり、前記目的信号検出部15は 多入力キャンセラ13が出力する音声信号に含まれる目的音声の音声信号を検出する。また、前記初期値適応ベクトル推定部16は、前記目的信号検出部15が目的信号なしと判断した場合、すなわち、目的音声の音声信号が検出されない場合、目的音声の方向以外から到来した音声信号を抑圧するために、出力信号の分散又はパワーの和を最小化する適応ベクトルの初期値を推定する。さらに、前記最終適応ベクトル推定部17は、初期値適応ベクトル推定部16によって推定された値を初期値とし、最終の出力信号の分布がスーパーガウシアン分布となるように適応ベクトルを求める。前記最終適応ベクトル推定部17は求めた適応ベクトルを出力し、該適応ベクトルは多入力キャンセラ13の適応ベクトルとして用いられる。
なお、前記初期値適応ベクトル推定部16は、その出力信号の分散を最小化する適応ベクトルの最適解又はそれに近い解を、少ない計算量で求めることができる。さらに、前記最終適応ベクトル推定部17が勾配法を用いる場合には、前記初期値適応ベクトル推定部16によって得られた適応ベクトルの結果を初期値として勾配法を開始することにより、その収束を早めることができる。また、前記初期値適応ベクトル推定部16によって得られた初期値は、基本的には最適値に近いので、音声強調システム10の最終の出力信号の分布のスーパーガウシアンの度合いが最大になる解に収束しやすくなる。なお、前記最適解とは、音声強調システム10の出力信号の分布のスーパーガウシアンの度合いを最大にする適応ベクトルの値である。
図2には、音声強調システム10の出力信号の分布のスーパーガウシアンの度合いと、適応ベクトルの値との関係の一例が示されている。なお、図2において、横軸は適応ベクトルの1要素の実数であり、縦軸は音声強調システム10の出力信号の分布のスーパーガウシアンの度合い、すなわち、目的関数の値である。
図2に示されるように、多数の極大値を持っている目的関数の最大値を勾配法によって求める場合、勾配法の最終推定結果は初期値に依存する。例えば、図2に示される例において、初期値1を初期値として勾配法によって解を推定すると、極大値1に収束する可能性が高くなってしまう。しかし、図2から明らかなように、初期値2を初期値として勾配法によって解を推定すると、最大値に収束する確率が高くなる。
なお、図2は、説明の都合上、非常に簡単化された例を示しており、実際には、多複素数の同時推定の問題となる。したがって、実際の目的関数の形状は非常に複雑であり、初期値を示す初期ベクトルの値は非常に重要である。
また、前記初期値適応ベクトル推定部16は、複数の初期値推定用ビームフォーミング部を含むことが望ましい。この場合、複数の初期値推定用ビームフォーミング部によって得られた複数の推定結果の各値を初期値とし、最終の出力信号の分布がスーパーガウシアンになるように複数の適応ベクトルを推定する。そして、最終適応ベクトル推定部17は、前記複数の適応ベクトルの推定結果の中から、出力信号の分布が最もスーパーガウシアン分布に近くになるようなものを選択する。このように、複数の初期値推定用ビームフォーミング部によって複数の良好な初期値を求めることができるので、音声強調システム10の最終の出力信号の分布のスーパーガウシアンの度合いが最大になる解、すなわち、最適解により収束しやすくなる。
さらに、前記複数の初期値推定用ビームフォーミング部の少なくとも1つはGriffiths−Jim型ビームフォーマ(例えば、非特許文献1参照。)であることが望ましい。
さらに、前記初期値推定用ビームフォーミング部の少なくとも1つはGSC型ビームフォーマであって、ブロッキング行列部12の出力信号から固定ビームフォーマ11の出力信号と相関のある成分を取り除くようにブロッキング行列部12のブロッキング行列を適応的に推定し、さらに、全体の出力信号の分散を最小化する適応ベクトルを求めるもの(例えば、特許文献1参照。)であることが望ましい。
さらに、前記初期値推定用ビームフォーミング部の少なくとも1つはGSC型ビームフォーマであって、音源から各マイクロフォンへの伝達関数の推定に基づいて固定ビームフォーマ11の重みを表す静的ベクトルを求め、続いて、該静的ベクトルと直交するようなブロッキング行列を求め、さらに、全体の出力信号の分散を最小化する適応ベクトルを求めるもの(例えば、非特許文献6参照。)であることが望ましい。
S. Gannot and I. Chohen,"Speech enhancement based on the general transfer function GSC and postfiltering ", IEEE Transactions on Speech and Audio Processing, Volume 12, Issue 6, Nov. 2004 Page(s): 561-571。
さらに、前記初期値推定用ビームフォーミング部の少なくとも1つはGSC型ビームフォーマであって、SNR(Signal Noise Ration)最大化に基づいて固定ビームフォーマ11の重みである静的ベクトルを求め、続いて、該静的ベクトルと直交するようなブロッキング行列を求め、さらに、全体の出力信号の分散を最小化する適応ベクトルを求めるもの(例えば、非特許文献7参照。)であることが望ましい。
Ernst Warsitz, Alexander Krueger, and Reinhold Haeb-Umbach, "SPEECH ENHANCEMENT WITH A NEW GENERALIZED EIGENVECTOR BLOCKING MATRIX FOR APPLICATION IN A GENERALIZED SIDELOBE CANCELLER ", in Proc. ICASSP2008。
次に、前記構成の音声強調システム10の動作について説明する。まず、信号処理について説明する。
図3は本発明の実施の形態における音声強調システムの信号処理の流れを示すブロック図である。
図において、24は固定ビームフォーマ11による処理を示し、wq は固定ビームフォーマ11の重みを表す静的ベクトルである。また、25はブロッキング行列部12による処理を示し、Bはブロッキング行列部12のブロッキング行列である。さらに、26は多入力キャンセラ13による処理を示し、wa は多入力キャンセラ13の適応ベクトルである。さらに、Xは音声強調システム10の入力信号であり、Yは音声強調システム10の出力信号である。
前述のように、本実施の形態における音声強調システム10は、GSC型ビームフォーマの一種であり、その出力信号Yは、マイクロフォンアレイからのマイクロフォンアレイ信号である入力信号Xを用い、次の式(1)によって表される。
Y=(wq −Bwa H X ・・・式(1)
ここで、( )H は、( )で示される行列のエルミート行列を表す。
なお、フレームtでマイクロフォンアレイによって取得された入力信号Xt の出力信号Yt は、次の式(2)によって表される。
t =(wq −Bwa H t ・・・式(2)
前記静的ベクトルwq は、ある方向から到来した音声信号を強調する固定ベクトルであって、多チャンネル信号である入力信号Xの各チャンネルの信号の遅延時間差を補償する目的で使用される。特に、そのような遅延時間差を補償するビームフォーマは、Delay−and−sumビームフォーマと呼ばれる。
また、前記ブロッキング行列Bは、ある方向から到来した音声信号を無歪に近付けるように制約するものである、BH q =0の直交条件を満たすように設定される。この直交条件を満たすことによって、ある方向から到来した音声信号に無歪に近付けるように制約を課すことができる。
なお、従来のビームフォーマでは、目的音源の到来方向が既知であると仮定しており、到来方向が不明である場合でも、既存の音源追跡アルゴリズム(例えば、非特許文献8参照。)を用いて音源方向の自動推定が可能である。
A. Quintan and Asano, F."Tracking a varying number of speakers using particle filtering" Proc. ICASSP2008, March 30-April 4 2008。
また、前記適応ベクトルwa は、多入力キャンセラ13によって音声強調システム10の出力信号Yの分布がスーパーガウシアン分布に近くなるように設定される(例えば、非特許文献3及び4参照。)。なお、このような適応ベクトルwa は、前述のような初期値推定用ビームフォーミング部によって求められる。そして、このような適応ベクトルwa を使用することによって、雑音を抑圧することができるだけでなく、残響音の除去又は残響音を用いた目的信号の強調を達成することができる。
なお、前記静的ベクトルwq 、ブロッキング行列B及び適応ベクトルwa の値は、周波数上で求めることもできるし、サブバンド上又は主成分分析等を用いた部分空間上でも求めることができる。
しかし、従来では、適応ベクトルwa の閉形式解(the closed−form solution)が存在しないので、勾配法等の数値最適化アルゴリズムを用いて適応ベクトルwa を推定しなければならなかった(例えば、非特許文献3及び4参照。)。なお、数値最適化アルゴリズムとしては、Numerical Recipesと呼ばれるもの(例えば、非特許文献9参照。)を用いることができる。
William H. Press, Saul A. Teukolsky and William T. Vetterling,"Numerical Recipes ", Cambridge Univ Pr (Sd)。
本実施の形態においては、適応ベクトル推定ユニット14が、出力信号Yの分布のスーパーガウシアンの度合いが最大となる適応ベクトルwa を推定する。ここでは、非特許文献3及び4に記載されているような目的関数の微分関数を使う勾配法を用いて適応ベクトルwa を推定する場合についてのみ説明するが、必ずしも、勾配法に限定されるものではなく、勾配法以外の数値最適化アルゴリズムを用いて適応ベクトルwa を推定することもできる。
なお、勾配法を用いて出力信号Yの分布のスーパーガウシアンの度合いが最大となる適応ベクトルwa を推定した場合、その収束性能及び収束する解は初期値に大きく依存することになる。そこで、本実施の形態においては、収束性能の向上及び収束する解が最適解である確率を増加させる。
次に、前記適応ベクトル推定ユニット14が適応ベクトルwa を推定する動作について詳細に説明する。
図4は本発明の実施の形態における音声強調システムの適応ベクトルを推定する動作を示すフローチャートである。
まず、適応ベクトル推定ユニット14の最終適応ベクトル推定部17は、その出力である適応ベクトルを初期化し、適応ベクトルの初期値をゼロにする(ステップS1)。そして、初期値がゼロの適応ベクトルが多入力キャンセラ13の適応ベクトルwa として設定される。
続いて、目的信号検出部15は、初期値がゼロの適応ベクトルが設定された多入力キャンセラ13の出力信号である音声強調システム10の出力信号Yに含まれる目的音声の音声信号、すなわち、目的信号を検出する。そして、目的信号が含まれていないか否か、すなわち、目的信号なしか否かを判断する(ステップS2)。なお、目的信号の検出は、目的音声を発する発話者が手動操作によって行ってもよいし、既に知られている自動音声区間検出装置(例えば、特許文献2参照。)を用いて目的音声の方向からの音声区間を検出することによって行ってもよい。
特開2008−170789号公報。
そして、目的信号が含まれていない場合、初期値適応ベクトル推定部16に含まれる初期値推定用ビームフォーミング部は、適応ベクトルの推定を行う(ステップS3)。この場合、出力信号Yの分散が最小になるように適応ベクトルの推定が行われる。そして、推定された適応ベクトルは、音声強調システム10の記憶手段に保存される。
続いて、適応ベクトル推定ユニット14は、音声強調システム10の入力信号X、すなわち、受信信号を音声強調システム10の記憶手段に保存する(ステップS4)。なお、受信信号の保存は、目的信号なしか否かに係わらず行われる。
続いて、適応ベクトル推定ユニット14は、十分な量の受信信号が保存されたか否か、すなわち、保存した受信信号が十分になったか否かを判断する(ステップS5)。
そして、保存した受信信号が十分になった場合、例えば、100フレーム以上の受信信号が保存された場合、最終適応ベクトル推定部17は、出力信号Yの分布のスーパーガウシアンの度合いが最大となる適応ベクトルを推定する(ステップS6)。なお、ここで推定された適応ベクトルが最適解であるとは限らない。つまり、推定された値以外の適応ベクトルで、出力信号Yの分布のスーパーガウシアンの度合いをより大きくするようなものが存在する可能性がある。
そこで、最終適応ベクトル推定部17は、初期値適応ベクトル推定部16の初期値推定用ビームフォーミング部がステップS3で推定した適応ベクトルを初期値として、勾配法を用いて適応ベクトルを更新する。これにより、収束する値が最適解である確率を高くすることができる。なお、前記勾配法の数値最適化アルゴリズムには、Numerical Recipesと呼ばれるもの以外にも、多数のものが存在するが、例えば、最急降下法等を用いることもできるし、また、conjugate勾配法を用いることもできる。
ここでは、初期値適応ベクトル推定部16の初期値推定用ビームフォーミング部がGriffiths−Jim型ビームフォーマである場合におけるステップS3での適応ベクトルの推定について説明する。
Griffiths−Jim型ビームフォーマは、GSC型ビームフォーマの一種であり、そのフレームtでの出力信号Yt の分散はΣYYであり、次の式(3)によって表される。
ΣYY=E{Yt t H }=(wq −Bwa H ΣXX(wq −Bwa ) ・・・式(3)
ここで、ΣXXは入力信号Xt の共分散行列であり、次の式(4)で表される。
ΣXX=E{Xt t H } ・・・式(4)
このとき、出力信号Yt の分散ΣYYを最小にする適応ベクトルwa は、次の式(5)のように解くことができる。
a =(BH ΣXXB)-1H ΣXXq ・・・式(5)
ただし、通常は、各フレームでの入力信号Xt を用い、wa は適応的にフレーム毎に更新される。その場合、フレームt+1での適応ベクトルwa,t+1 は、次の式(6)のように求められる。
a,t+1 =wa,t +(μ/Pest )BH t t * ・・・式(6)
ここで、μは、スッテプサイズであり、例えば、0.01である。また、Pest は、正規化変数であり、例えば、入力信号のパワーの平均である。
このように、初期値適応ベクトル推定部16の初期値推定用ビームフォーミング部は、勾配法によって適応ベクトルを推定するが、推定された適応ベクトルの収束性能は、最終適応ベクトル推定部17がステップS6で推定した適応ベクトルの収束性能よりも良好である。そして、前記式(3)又は(6)によって推定した適応ベクトルを初期値として、最終適応ベクトル推定部17は、ステップS6で、出力信号Yの分布のスーパーガウシアンの度合いが最大となる適応ベクトルを推定する。なお、ステップS3で初期値適応ベクトル推定部16の初期値推定用ビームフォーミング部がフレーム毎に適応ベクトルを更新した場合には、最終フレームの適応ベクトルが初期値として用いられる。
なお、ステップS3で適応ベクトルを推定する初期値適応ベクトル推定部16の初期値推定用ビームフォーミング部は、Griffiths−Jim型ビームフォーマに限定されるものではなく、他の手段であってもよい。例えば、特許文献1に記載されたビームフォーマであってもよいし、非特許文献5に記載されたビームフォーマであってもよいし、非特許文献6に記載されたビームフォーマであってもよい。ただし、最終適応ベクトル推定部17がステップS6で用いるスーパーガウシアン最大化基準よりも簡単なアルゴリズムを導く、ビームフォーマの出力信号の分散の最小化基準であることが望ましい。特許文献1、非特許文献5及び6に記載された技術は、いずれも、ビームフォーマの出力信号の分散の最小化基準によって適応ベクトルを推定している。
次に、前記初期値適応ベクトル推定部16に含まれる複数の初期値推定用ビームフォーミング部を使用する場合の適応ベクトルwa を推定する動作について詳細に説明する。
図5は本発明の実施の形態における音声強調システムの複数の初期値推定用ビームフォーミング部を使用して適応ベクトルを推定する動作を示すフローチャートである。
まず、適応ベクトル推定ユニット14の最終適応ベクトル推定部17は、その出力である適応ベクトルを初期化し、適応ベクトルの初期値をゼロにする(ステップS11)。
続いて、目的信号検出部15は、音声強調システム10の出力信号Yに含まれる目的音声の音声信号、すなわち、目的信号を検出する。そして、目的信号が含まれていないか否か、すなわち、目的信号なしか否かを判断する(ステップS12)。
そして、目的信号が含まれていない場合、初期値適応ベクトル推定部16に含まれる複数の初期値推定用ビームフォーミング部、すなわち、1個目〜N個目(Nは任意の自然数)の初期値推定用ビームフォーミング部は、適応ベクトルの推定を行う(ステップS13−1〜13−N)。
例えば、1個目の初期値推定用ビームフォーミング部がGriffiths−Jim型ビームフォーマである場合には、前述のようにして適応ベクトルの推定を行う。そして、適応ベクトルの1個目の初期値を得る。また、2個目の初期値推定用ビームフォーミング部が特許文献1に記載されたビームフォーマである場合も、同様に、適応ベクトルの推定を行って、適応ベクトルの2個目の初期値を得る。さらに、3個目の初期値推定用ビームフォーミング部が非特許文献5に記載されたビームフォーマである場合も、同様に、適応ベクトルの推定を行って、適応ベクトルの3個目の初期値を得る。さらに、4個目の初期値推定用ビームフォーミング部が非特許文献6に記載されたビームフォーマである場合も、同様に、適応ベクトルの推定を行って、適応ベクトルの4個目の初期値を得る。このようにして、適応ベクトルのN個の初期値を得ることができる。
続いて、適応ベクトル推定ユニット14は、音声強調システム10の入力信号X、すなわち、受信信号を音声強調システム10の記憶手段に保存する(ステップS14)。なお、受信信号の保存は、目的信号なしか否かに係わらず行われる。
続いて、適応ベクトル推定ユニット14は、十分な量の受信信号が保存されたか否か、すなわち、保存した受信信号が十分になったか否かを判断する(ステップS15)。
そして、保存した受信信号が十分になった場合、最終適応ベクトル推定部17は、出力信号Yの分布のスーパーガウシアンの度合いが最大となる適応ベクトルを推定する(ステップS16−1〜16−N)。この場合、最終適応ベクトル推定部17は、ステップS13−1〜13−Nで得られた適応ベクトルの1〜N個目の初期値をそれぞれ用いて、出力信号Yの分布のスーパーガウシアンの度合いが最大となる適応ベクトルを推定する。これにより、N個の適応ベクトルの推定結果を得ることができる。
このように、初期値適応ベクトル推定部16に含まれる複数の初期値推定用ビームフォーミング部を使用して適応ベクトルの複数の初期値をそれぞれ求めることによって、複数の良好な初期値を得ることができるので、出力信号Yの分布のスーパーガウシアンの度合いが最大となる解により収束しやすくなる。
最後に、最終適応ベクトル推定部17は、N個の適応ベクトルの推定結果の中から、出力信号Yの分布のスーパーガウシアンの度合いが最大となる適応ベクトルを選択する。すなわち、N個の候補から最終選択を行う(ステップS17)。そして、選択した適応ベクトルは、多入力キャンセラ13の適応ベクトルwa として設定され、該適応ベクトルwa を使用して、音声強調システム10は音声強調を行う。
なお、その他の点については、図4に示されるステップS1〜S6の動作と同様であるので、説明を省略する。
このように、本実施の形態において、音声強調システム10は、固定ビームフォーマ11と、ブロッキング行列部12と、多入力キャンセラ13と、適応ベクトル推定ユニット14とを有する。そして、固定ビームフォーマ11の静的ベクトル、ブロッキング行列部12のブロッキング行列、及び、多入力キャンセラ13の適応ベクトルによってマイクロフォンアレイ信号を処理することにより、複数の音源が発生した音声信号の中から目的音声を取得する。また、適応ベクトル推定ユニット14は、音声強調システム10の出力信号の分布がスーパーガウシアン分布に近くなるように、多入力キャンセラ13の適応ベクトルを推定する。
これにより、音声強調システム10は、マイクロフォンアレイの複数のマイクロフォンが取得した音声信号から雑音を効果的に除去することができるとともに、目的音声のみを強調して取り出すことができる。
また、適応ベクトル推定ユニット14は、目的信号検出部15と、初期値適応ベクトル推定部16と、最終適応ベクトル推定部17とを備える。そして、目的信号検出部15は目的信号の有無を判別し、初期値適応ベクトル推定部16は、目的信号検出部15が目的信号なしと判断した場合には、目的音声の方向以外から到来した音声信号を抑圧するために出力信号の分散又はパワーの和を最小化し、最終適応ベクトル推定部17は、初期値適応ベクトル推定部16によって推定された値を初期値とし、最終の出力信号の分布のスーパーガウシアンの度合いの高い適応ベクトルを求める。
これにより、最終の出力信号の分布がスーパーガウシアン分布に極めて近いものとなるので、目的音声のみを効果的に取り出して音声強調を行うことができる。
なお、本発明は前記実施の形態に限定されるものではなく、本発明の趣旨に基づいて種々変形させることが可能であり、それらを本発明の範囲から排除するものではない。
また、ブロッキング行列Bは、無歪に近づけるように制約すると説明したが、具体的には、静的ベクトルからの出力をヌル(ゼロ)空間に投影するブロッキング行列は、ある所定の方向から到来する目的信号を無歪にすることができる場合と、静的ベクトルからの出力の成分をブロッキング行列の出力から取り除くようにブロッキング行列を求めて、ある所定の方向から到来する目的信号を無歪にすることができない場合があるが、これらを含む概念であり、ブロッキング行列が無歪であれば望ましいがある特定の目的信号をある程度の歪を許して無歪に近いブロッキング行列を求めても良い。
本発明の実施の形態における音声強調システムの構成を示すブロック図である。 本発明の実施の形態における適応ベクトルと目的関数との関係を説明する図である。 本発明の実施の形態における音声強調システムの信号処理の流れを示すブロック図である。 本発明の実施の形態における音声強調システムの適応ベクトルを推定する動作を示すフローチャートである。 本発明の実施の形態における音声強調システムの複数の初期値推定用ビームフォーミング部を使用して適応ベクトルを推定する動作を示すフローチャートである。
符号の説明
10 音声強調システム
11 固定ビームフォーマ
12 ブロッキング行列部
13 多入力キャンセラ
14 適応ベクトル推定ユニット
15 目的信号検出部
16 初期値適応ベクトル推定部
17 最終適応ベクトル推定部

Claims (3)

  1. 所定の方向から到来した音声信号を強調する静的ベクトルを備える固定ビームフォーミング部と、
    所定の方向から到来する目的信号を無歪に近付けるように制約するブロッキング行列を備えるブロッキング行列部と、
    音声信号の分布をスーパーガウシアン分布に近付ける適応ベクトルを備える多入力キャンセラと、
    初期値を求めることによって前記適応ベクトルを推定する適応ベクトル推定ユニットとを有し、
    複数のマイクロフォンが取得した複数の音源からの音声信号が入力されると、目的音声の音声信号を強調して出力することを特徴とする音声強調システム。
  2. 前記適応ベクトル推定ユニットは、前記多入力キャンセラが出力する音声信号に含まれる目的音声の音声信号を検出する目的信号検出部と、該目的信号検出部によって目的音声の音声信号が検出されない場合に適応ベクトルの初期値を推定する初期値適応ベクトル推定部と、該初期値適応ベクトル推定部が推定した初期値を更新し、前記多入力キャンセラが出力する音声信号の分布のスーパーガウシアンの度合いを最大にする適応ベクトルを推定する最終適応ベクトル推定部とを備える請求項1に記載の音声強調システム。
  3. 前記初期値適応ベクトル推定部は、各々が適応ベクトルの初期値を推定する複数の初期値推定用ビームフォーミング部を含み、
    前記最終適応ベクトル推定部は、各初期値を更新して複数の適応ベクトルを推定し、推定した複数の適応ベクトルの中から前記多入力キャンセラが出力する音声信号の分布のスーパーガウシアンの度合いを最大にする適応ベクトルを選択する請求項2に記載の音声強調システム。
JP2008255039A 2008-09-30 2008-09-30 音声強調システム Withdrawn JP2010085733A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008255039A JP2010085733A (ja) 2008-09-30 2008-09-30 音声強調システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008255039A JP2010085733A (ja) 2008-09-30 2008-09-30 音声強調システム

Publications (1)

Publication Number Publication Date
JP2010085733A true JP2010085733A (ja) 2010-04-15

Family

ID=42249747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008255039A Withdrawn JP2010085733A (ja) 2008-09-30 2008-09-30 音声強調システム

Country Status (1)

Country Link
JP (1) JP2010085733A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020504966A (ja) * 2017-01-04 2020-02-13 ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー 遠距離音の捕捉
CN111370014A (zh) * 2018-12-06 2020-07-03 辛纳普蒂克斯公司 多流目标-语音检测和信道融合
WO2023085749A1 (ko) * 2021-11-09 2023-05-19 삼성전자주식회사 빔포밍을 제어하는 전자 장치 및 이의 동작 방법
US11937054B2 (en) 2020-01-10 2024-03-19 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
US12057138B2 (en) 2022-01-10 2024-08-06 Synaptics Incorporated Cascade audio spotting system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020504966A (ja) * 2017-01-04 2020-02-13 ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー 遠距離音の捕捉
CN111370014A (zh) * 2018-12-06 2020-07-03 辛纳普蒂克斯公司 多流目标-语音检测和信道融合
CN111370014B (zh) * 2018-12-06 2024-05-28 辛纳普蒂克斯公司 多流目标-语音检测和信道融合的系统和方法
US11937054B2 (en) 2020-01-10 2024-03-19 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
WO2023085749A1 (ko) * 2021-11-09 2023-05-19 삼성전자주식회사 빔포밍을 제어하는 전자 장치 및 이의 동작 방법
US12057138B2 (en) 2022-01-10 2024-08-06 Synaptics Incorporated Cascade audio spotting system

Similar Documents

Publication Publication Date Title
CN110085248B (zh) 个人通信中降噪和回波消除时的噪声估计
US7386135B2 (en) Cardioid beam with a desired null based acoustic devices, systems and methods
KR101210313B1 (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
JP5678023B2 (ja) 高度に相関する混合のための強調ブラインド信号源分離アルゴリズム
US8504117B2 (en) De-noising method for multi-microphone audio equipment, in particular for a “hands free” telephony system
EP3542547B1 (en) Adaptive beamforming
JP6584930B2 (ja) 情報処理装置、情報処理方法およびプログラム
EP2748817B1 (en) Processing signals
KR101449433B1 (ko) 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
EP2237271B1 (en) Method for determining a signal component for reducing noise in an input signal
KR101103794B1 (ko) 멀티 빔 음향시스템
US9338547B2 (en) Method for denoising an acoustic signal for a multi-microphone audio device operating in a noisy environment
EP1718103B1 (en) Compensation of reverberation and feedback
EP3357256B1 (en) Apparatus using an adaptive blocking matrix for reducing background noise
CN110120217B (zh) 一种音频数据处理方法及装置
KR102352927B1 (ko) 상관 기반 근접장 검출기
EP1370112A2 (en) System and method for adaptive multi-sensor arrays
KR20170063618A (ko) 전자 장치 및 이의 잔향 제거 방법
JP2010085733A (ja) 音声強調システム
JP2010091912A (ja) 音声強調システム
KR20080000478A (ko) 휴대 단말기에서 복수의 마이크들로 입력된 신호들의잡음을 제거하는 방법 및 장치
US9729967B2 (en) Feedback canceling system and method
KR20110021306A (ko) 마이크로폰의 신호 보상 장치 및 그 방법
US11984132B2 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
US12039965B2 (en) Audio processing system and audio processing device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20111206