JP2010091912A - 音声強調システム - Google Patents

音声強調システム Download PDF

Info

Publication number
JP2010091912A
JP2010091912A JP2008263664A JP2008263664A JP2010091912A JP 2010091912 A JP2010091912 A JP 2010091912A JP 2008263664 A JP2008263664 A JP 2008263664A JP 2008263664 A JP2008263664 A JP 2008263664A JP 2010091912 A JP2010091912 A JP 2010091912A
Authority
JP
Japan
Prior art keywords
signal
target
speech
unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008263664A
Other languages
English (en)
Inventor
Kenichi Kumagai
建一 熊谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Equos Research Co Ltd
Original Assignee
Equos Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Equos Research Co Ltd filed Critical Equos Research Co Ltd
Priority to JP2008263664A priority Critical patent/JP2010091912A/ja
Publication of JP2010091912A publication Critical patent/JP2010091912A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】複数のマイクロフォンが取得した音声信号から雑音を効果的に除去することができ、目的音声のみを強調して取り出すことができ、確実性が高く、信頼性が高くなるようにする。
【解決手段】目的音声の音声信号を強調する静的ベクトルを備える固定ビームフォーマと、目的音声の方向から到来した音声信号を抑制するブロッキング行列を備えるブロッキング行列部と、適応ベクトルを備え、適応ベクトル、静的ベクトル及びブロッキング行列を用いて目的音声を強調するように演算した音声信号を出力するとともに、固定ビームフォーマ及びブロッキング行列部からの音声信号を用いて、演算した音声信号の分布をスーパーガウシアンに近付けるように適応ベクトルを最適化する多入力キャンセラと、目的信号検出部を備え、目的音声の音声信号が検出されたか否かに応じて複数のビームフォーマを切換えて機能させるビームフォーミング部切換ユニットとを有する。
【選択図】図1

Description

本発明は、目的音声を強調する音声強調システムに関するものであり、特に、自動車のような車両の内部の雑音環境において、雑音を抑圧して音声認識の対象となる音声信号を取得するために好適な音声強調システムに関するものである。
従来、複数の音源が発生した音声信号の中から特定の音声信号、すなわち、目的音声のみを取得するための技術として、複数のマイクロフォンから成るマイクロフォンアレイ等を使用するアレイ信号処理技術が提案されている(例えば、非特許文献1参照。)。
例えば、固定ビームフォーマ、ブロッキング行列及び多入力キャンセラを備えるGSC(Generalized Sidelobe Canceller:一般化サイドローブキャンセラ)型ビームフォーマを使用することができる。通常、固定ビームフォーマは、Delay−and−sumビームフォーマと呼ばれるタイプのものであり、マイクロフォンアレイにおける各マイクロフォンに到来する音声信号の時間遅れを補償するように構築される。また、ブロッキング行列は、ある方向から来る音声信号に歪(ひず)みを加えないように計算される。さらに、多入力キャンセラは、無歪の制約が課されている状態で、GSC型ビームフォーマ全体の出力信号の分散を最小化するように構築される。
このような方法では、目的信号としての目的音声の方向以外から到来する雑音を効果的に抑圧することはできるが、目的音声と相関の強い音声信号が目的音声の方向以外から到来した場合には、目的音声をも消去してしまうという欠点があった。そして、実際の環境では、例えば、目的音声は、壁のように表面の硬い物質から成る面等によって反射されるので、このような問題、すなわち、目的信号打消し問題(signal cancellation problems)は避けられないものである。
つまり、GSC型ビームフォーマを使用するシステムには目的信号打消し問題があるので、目的音声が存在しているときには、固定ビームフォーマを停止する必要があった。このため、ビームフォーマ自体の性能は音声区間検出の性能に依存してしまっていた。したがって、性能のよいビームフォーマを構築するために、高性能な音声区間検出装置が必要であった。しかしながら、雑音が大きい場合には、音声区間検出装置の性能は劣化してしまう。
そこで、目的信号打消し問題を解決するために、ブロッキング行列の出力信号から目的音声と相関のある要素を取り除く技術が提案されている(例えば、特許文献1参照。)。この場合、ブロッキング行列は、その出力信号から固定ビームフォーマの信号成分を取り除くように構築されている。
ただし、このようにブロッキング行列を構築すると、固定ビームフォーマの出力信号に雑音が含まれていた場合には、多入力キャンセラの雑音抑圧性能が著しく劣化してしまう。例えば、音源の位置推定に誤りがあると、固定ビームフォーマの信号成分に雑音が含まれる。また、空間エリアスィング(例えば、非特許文献1参照。)の影響によって、固定ビームフォーマの出力信号に雑音が多く含まれる場合もある。
つまり、特許文献1に記載される技術及び該技術に基づいた技術(例えば、非特許文献2参照。)は、目的信号打消し問題の解決と雑音抑圧性能とがトレードオフの関係となる、という問題を含んでいる。
そこで、目的信号打消し問題と雑音抑圧問題とを同時に解決するために、新しい基準を用いたビームフォーミングの技術が提案されている(例えば、非特許文献3〜5参照。)。この場合、GSC型ビームフォーマ全体の出力信号の分散を最小化するのではなく、無歪の制約を課したままGSC型ビームフォーマ全体の出力信号の分布がスーパーガウシアン分布になるように適応ベクトルを推定する。
特許第3001092号公報 H. L. Van Trees, Optimum Array Processing. New York: Wiley-Interscience, 2002. W. Herbordt, W. Kellermann, "Frequency-domain integration of acoustic echo cancellation and a generalized sidelobe canceller with improved robustness", European Trans. on Telecommunications (ETT), vol. 13, no. 2, pp. 123-132, Mar. 2002 Kenichi Kumatani, Tobias Gehrig, Uwe Mayer, Emilian Stoimenov, John McDonough and Matthias Wolfel,"Adaptive Beamforming with a Minimum Mutual Information Criterion", IEEE Trans. Audio, Speech and Language Processing, Vol. 15, pp. 2527-2541, November, 2007 Kenichi Kumatani, John McDonough, Dietrich Klakow, Philip N. Garner, Weifeng Li "Adaptive Beamforming with a Maximum Negentropy Criterion", for The Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA), Trento, Italy, May 2008 Kenichi Kumatani, John McDonough, Barbara Rauch, Philip N. Garner, Weifeng Li, and John Dines,"Maximum kurtosis beamforming with the generalized sidelobe canceller, "in Proc. Interspeech-2008, Brisbane, Australia, September 2008
しかしながら、前記従来の音声強調システムにおいては、固定ビームフォーマとしてDelay−and−sum型ビームフォーマが使用されているので、固定ビームフォーマの出力信号に雑音が含まれていた場合に雑音抑圧性能が劣化することがある。
本発明は、前記従来の音声強調システムの問題点を解決して、固定ビームフォーマを第1ビームフォーミング部と第2ビームフォーミング部とに切換えて機能させることによって、複数のマイクロフォンが取得した音声信号から雑音を効果的に除去することができ、目的音声のみを強調して取り出すことができ、確実性が高く、信頼性の高い高性能な音声強調システムを提供することを目的とする。
そのために、本発明の音声強調システムにおいては、少なくとも第1ビームフォーミング部及び第2ビームフォーミング部を備え、所定の方向から到来した音声信号に含まれる目的音声の音声信号を強調する静的ベクトルを備える固定ビームフォーマと、前記目的音声の方向から到来した音声信号を抑制するブロッキング行列を備えるブロッキング行列部と、適応ベクトルを備え、該適応ベクトル、前記静的ベクトル及び前記ブロッキング行列を用いて目的音声を強調するように演算した音声信号を出力するとともに、前記固定ビームフォーマ及び前記ブロッキング行列部からの音声信号を用いて、前記演算した音声信号の分布をスーパーガウシアンに近付けるように前記適応ベクトルを最適化する多入力キャンセラと、所定の方向から到来した音声信号に含まれる目的音声の音声信号を検出する目的信号検出部を備え、前記目的音声の音声信号が検出されたか否かに応じて前記複数のビームフォーマを切換えて機能させるビームフォーミング部切換ユニットとを有する。
本発明の他の音声強調システムにおいては、さらに、前記ビームフォーミング部切換ユニットは、前記目的信号検出部によって目的音声の音声信号が検出されない場合、前記固定ビームフォーマを目的音声の方向以外から到来した音声信号を抑圧する第1ビームフォーミング部として機能させる。
本発明の更に他の音声強調システムにおいては、さらに、前記第1ビームフォーミング部は、前記多入力キャンセラが出力する音声信号の分散を最小化する静的ベクトルを計算する。
本発明の更に他の音声強調システムにおいては、さらに、前記ビームフォーミング部切換ユニットは、前記第1ビームフォーミング部が重みの値を更新した場合には更新された値を前記静的ベクトルとし、前記第1ビームフォーミング部が重みの値を更新しない場合には、前記固定ビームフォーマは複数のマイクロフォンが取得した複数の音源からの音声信号の時間遅れを補償するように静的ベクトルを演算した第2ビームフォーミング部に切換えて機能させる。
本発明の更に他の音声強調システムにおいては、さらに、前記目的信号検出部は、前記多入力キャンセラが出力する音声信号に含まれる目的音声の音声信号から前記所定の方向から到来した音声信号に含まれる目的音声の音声信号を検出する。
請求項1の構成によれば、複数のマイクロフォンが取得した音声信号から雑音を効果的に除去することができ、目的音声のみを強調して取り出すことができる。
請求項2の構成によれば、目的音声の方向以外から到来した音声信号を抑圧することができ、雑音を除去することができる。
請求項3の構成によれば、出力される音声信号の分散を最小化することができ、目的音声を強調することができる。
請求項4及び5の構成によれば、出力される音声信号の分布をスーパーガウシアン分布にすることができる。
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。
図1は本発明の実施の形態における音声強調システムの構成を示すブロック図である。
図1において、10は、本実施の形態における音声強調システムであり、複数の音源が発生した音声信号の中から特定の音声信号としての目的音声のみを取得するために使用されるコンピュータシステムである。前記音声強調システム10は、例えば、乗用車、トラック、バス、二輪車等の車両に装着されたナビゲーション装置、空調装置、オーディオ装置、映像装置、エンジン制御装置、サスペンション制御装置等の各種装置が備える音声入力装置において、運転者等が発生する音声を認識する音声認識の対象となる音声信号を雑音環境の下で取得するために使用されるものであるが、いかなる用途に使用されてもよい。また、前記音声強調システム10は、コンピュータシステムであるので、CPU、MPU等の演算手段、磁気ディスク、半導体メモリ等の記憶手段、入出力インターフェイス等を備えるものであるが、物理的には、必ずしも独立したコンピュータシステムである必要はなく、例えば、前記各種装置の備えるコンピュータシステムと一体化されたものであってもよい。
ここで、前記音声強調システム10は、機能の観点から、第1ビームフォーミング部及び第2ビームフォーミング部として機能する固定ビームフォーマ11と、ブロッキング行列によって音声信号を処理するブロッキング行列部12と、多入力キャンセラ13と、第1ビームフォーミング部及び第2ビームフォーミング部を切換えて機能させる(制御する)ビームフォーミング部切換ユニット14とを有する。そして、該ビームフォーミング部切換ユニット14は、目的信号検出部15を備える。なお、矢印21は、音声強調システム10の入力信号であって、図示されない複数のマイクロフォンから成るマイクロフォンアレイからのマイクロフォンアレイ信号を示している。該マイクロフォンアレイ信号は、各マイクロフォンが集音した音に応じて出力した音声信号の集合であり、多チャンネル信号である。また、矢印22は、音声強調システム10の出力信号であって、目的音声の音声信号である。
前記音声強調システム10は、GSC型ビームフォーマの一種であり、固定ビームフォーマ11の重みとしての静的ベクトル、ブロッキング行列部12のブロッキング行列、及び、多入力キャンセラ13の適応ベクトルによってマイクロフォンアレイ信号を処理することにより、複数の音源が発生した音声信号の中から目的音声を取得する。そして、ビームフォーミング部切換ユニット14は、固定ビームフォーマ11を第1ビームフォーミング部と第2ビームフォーミング部とに切換えて機能させる。
そのため、前記ビームフォーミング部切換ユニット14において、前記目的信号検出部15は目的信号の有無を判別する。つまり、前記目的信号検出部15は 多入力キャンセラ13が出力する音声信号に含まれる目的音声の音声信号を検出する。さらに、前記ビームフォーミング部切換ユニット14は、前記目的信号検出部15が目的信号なしと判断した場合、すなわち、目的音声の音声信号が検出されない場合、目的音声の方向以外から到来した音声信号を抑圧するために、固定ビームフォーマの出力信号の分散又はパワーの和を最小化する静的ベクトルを計算する第1ビームフォーミング部として前記固定ビームフォーマ11を機能させる。前記目的信号検出部15が目的信号ありと判断した場合には、前記ビームフォーミング部切換ユニット14は、固定ビームフォーマ11を第1ビームフォーミング部から第2ビームフォーミング部に切換えて、Delay−and−sum型のビームフォーマの重みを静的ベクトルとする。固定ビームフォーマの静的ベクトルが求められた後、多入力キャンセラ13は最終の出力信号の分布がスーパーガウシアン分布になるように適応ベクトルを求める。
なお、前記固定ビームフォーマ11を第1ビームフォーミング部として機能させることによって、目的音声の方向以外から到来する雑音を抑圧することができる。さらに、多入力キャンセラ13の雑音抑圧性能及び目的信号の強調性能を更に向上させることができる。なお、目的音声の音声信号が検出された場合であっても、非特許文献3〜5に記載された技術と同程度の性能を保つことができる。
また、前記第1ビームフォーミング部は、MVDR(Minimum variance distortionless response)ビームフォーマであることが望ましい。
さらに、前記第1ビームフォーミング部は、等方性の雑音場(isotropic noise field)に最適化されたMVDRビームフォーマ(例えば、非特許文献6参照。)であることが望ましい。この場合、MVDRビームフォーマは特定の環境に適応処理を行う必要がない。
Michael Brandstein and Darren Ward (Editors), "Super Directive Microphone arrays in Microphone Arrays: Signal Processing Techniques and Applications ", Springer
さらに、前記第1ビームフォーミング部は、受信信号の共分散行列の対角成分にある一定の値(Diagonal loading)を加えたMVDRビームフォーマであることが望ましい。
さらに、前記第1ビームフォーミング部は、受信信号の共分散行列の対角成分にある一定の値を調整したMVDRビームフォーマ(例えば、非特許文献7及び8参照。)であることが望ましい。このDiagonal loadingの量を調整することによって目的音源の到来方向の推定を修正することができる。
J. Li, P. Stoica, and Z. Wang,"On Robust Capon Beamforming and Diagonal Loading, "IEEE Transactions on Signal Processing, Vol. 51, No. 7, pp. 1702-1715, July 2003 Aboulnasr Hassanien, Sergiy Vorobyov and Kon Max Wong,"Robust Adaptive Beamforming using Sequential Quadratic Programming, "Proc. ICASSP2008, March 30-April 4 2008.
さらに、後述されるように、Delay−and−sum型ビームフォーマの重みと直交するようにブロッキング行列を計算するので、前記第1ビームフォーミング部が、存在しない雑音源を抑圧するといった誤推定をした場合であっても、前記多入力キャンセラ13がそれを自動訂正することができる。
次に、前記構成の音声強調システム10の動作について説明する。まず、信号処理について説明する。
図2は本発明の実施の形態において用いられるGSC型ビームフォーマの信号処理の流れを示すブロック図である。
図において、24は固定ビームフォーマ11による処理を示し、wq は固定ビームフォーマ11の重みを表す静的ベクトルである。また、25はブロッキング行列部12による処理を示し、Bはブロッキング行列部12のブロッキング行列である。さらに、26は多入力キャンセラ13による処理を示し、wa は多入力キャンセラ13の適応ベクトルである。さらに、Xは音声強調システム10のあるフレームにおける入力信号であり、Yは音声強調システム10の出力信号である。
前述のように、本実施の形態における音声強調システム10は、GSC型ビームフォーマの一種であり、その出力信号Yは、マイクロフォンアレイからのマイクロフォンアレイ信号である入力信号Xを用い、次の式(1)によって表される。
Y=(wq −Bwa H X ・・・式(1)
ここで、( )H は、( )で示される行列のエルミート行列を表す。
従来、前記静的ベクトルwq は、ある方向から到来した音声信号を強調する固定ベクトルであって、多チャンネル信号である入力信号Xの各チャンネルの信号の遅延時間差を補償する目的で使用される。特に、そのような遅延時間差を補償するビームフォーマは、Delay−and−sumビームフォーマと呼ばれる。それに対し、本発明では、ビームフォーミング切換ユニット14がこのwq を求める方法を切換える。
また、前記ブロッキング行列Bは、ある方向から到来した音声信号を無歪にするものであって、BH q =0の直交条件を満たすように設定される。この直交条件を満たすことによって、ある方向から到来した音声信号に無歪の制約を課すことができる。つまり、ブロッキング行列Bは、目的音声の方向から到来した音声信号を抑制するようにすることができるようになる。
なお、従来のビームフォーマでは、目的音源の到来方向が既知であると仮定しており、到来方向が不明である場合でも、既存の音源追跡アルゴリズム(例えば、非特許文献9参照。)を用いて音源方向の自動推定が可能である。
A. Quintan and Asano, F. "Tracking a varying number of speakers using particle filtering"Proc. ICASSP2008, March 30-April 4 2008
また、前記適応ベクトルwa は、多入力キャンセラ13によって音声強調システム10の出力信号Yの分布がスーパーガウシアン分布に近くなるように設定される(例えば、非特許文献3〜5参照。)。そして、このような適応ベクトルwa を使用することによって、雑音を抑圧することができるだけでなく、残響音の除去又は残響音を用いた目的信号の強調を達成することができる。このようにGSC型ビームフォーマの利点である到来方向の信号に対する無歪の制約を保持したまま適応ベクトルを推定するので、従来のマイク位置などの情報を用いないブライド音源分離装置(BSS)にて起こるパーミュテーション(permutation)問題を解決することができる。なお、ある到来方向の信号にある程度の歪を許容してブロッキング行列を求めた場合も、パーミュテーション問題を防ぐことができる。
なお、前記静的ベクトルwq 、ブロッキング行列B及び適応ベクトルwa の値は、周波数上で求めることもできるし、サブバンド上又は主成分分析等を用いた部分空間上でも求めることができる。
しかしながら、固定ビームフォーマ11の出力に雑音が含まれていた場合には、音声強調システム10の雑音抑圧能力が劣化する。そこで、本実施の形態においては、固定ビームフォーマ11を目的信号がない際に受信した信号から適応的に求める。
次に、前記適応ベクトルwa を推定する動作について詳細に説明する。
図3は本発明の実施の形態における音声強調システムの適応ベクトルを推定する動作を示すフローチャートである。
まず、多入力キャンセラ13は適応ベクトルwa をゼロに初期化する(ステップS1)。
次に、ビームフォーミング部切換ユニット14はDelay−and−sumアルゴリズムを実行し、多チャンネル信号である入力信号の各チャンネルの信号の遅延時間差を補償するように固定ビームフォーマ11の静的ベクトルwq を設定する(ステップS2)。
続いて、目的信号検出部15は、多入力キャンセラ13の出力信号である音声強調システム10の出力信号Yに含まれる目的音声の音声信号、すなわち、目的信号を検出する。そして、目的信号が含まれていないか否か、すなわち、目的信号なしか否かを判断する(ステップS3)。なお、目的信号の検出は、目的音声を発する発話者が手動操作によって行ってもよいし、既に知られている自動音声区間検出装置(例えば、特許文献2参照。)を用いて目的方向からの音声区間を検出することによって行ってもよい。従来の技術では非常に高性能な音声区間検出装置が必要であったが、後述するように、本発明では、適応ベクトルを音声強調システム10の出力信号がスーパーガウシアン分布になるように推定するので高精度な音声区間検出装置は特に要求されない。
特開2008−170789号公報
そして、目的信号が含まれていない場合、目的信号検出部15は、音声強調システム10の入力信号X、すなわち、受信信号を音声強調システム10の記憶手段に保存する。この場合、入力信号Xそのものを記憶する必要はなく、例えば、入力信号Xの自己相関行列XXH の和及びそのサンプル数、又は、移動平均を求めて保存しておくだけでよい。なお、目的信号なしという状況は、例えば、車両の中で運転者の音声を目的音声として取得する場合において運転者が音声を発していない状況である。
また、目的信号検出部15は、目的信号が含まれるまで受信信号の保存を連続して行う。そして、目的信号が含まれていると、すなわち、目的信号が検出されると、目的信号が検出される受信信号の保存を連続して行った信号区間が十分に長いか否かを判断する(ステップS4)。つまり、あらかじめ設定された所定時間以上の間、目的音声を連続的に検出することができなかったか否かを判断する。
ここで、目的音声を連続的に検出することができなかった時間が所定時間以上である場合、ビームフォーミング部切換ユニット14は、MVDRに基づいたアルゴリズムによる推定を実行させる(ステップS5)。つまり、固定ビームフォーマ11を第1ビームフォーミング部として機能させる。これにより、目的音声の方向以外から到来する雑音を抑圧することができる。
この場合、第1ビームフォーミング部としての固定ビームフォーマ11の重みを表す静的ベクトルwq は、次の式(2)で表される。
q =ΣXX -1d/dH ΣXX -1d ・・・式(2)
ここで、ΣXX -1は、入力信号Xの自己相関行列XXH の期待値ΣXXの逆行列である。また、dはsteering vectorである。さらに、期待値ΣXXは、次の式(3)で表される。
ΣXX=E{XXH } ・・・式(3)
なお、期待値ΣXXは、移動平均を用いて適応的に計算することもできる。また、前記式(2)は、二次方程式であるので、必ず解が存在する。
このように、静的ベクトルwq が前記式(2)で表わされるビームフォーマは、具体的には、MVDRビームフォーマである。実際には、不安定な解を避けるためにΣXXの対角成分に小さな値を加えた行列の逆行列が、ΣXX -1の代わりに使用される。なお、対角成分に値を加えることは、Diagonal Loadingと呼ばれる。
そして、Diagonal Loadingの量を調整することによって、ある一定の範囲内であれば、音源の位置の誤差を訂正することができる(例えば、非特許文献8参照。)。
なお、車両の内部等の環境においては、音源の存在する範囲がある程度明らかなので、Diagonal Loadingの調整を簡単に行うことができる。
また、Diagonal Loadingの調整は、他の方法で、例えば、特定の指向性雑音を抑圧するのではなく、等方性の雑音場に最適化されたMVDRビームフォーマを使用する方法等で行うこともできる(例えば、非特許文献6及び7参照。)。
そして、前記固定ビームフォーマ11の重みを表す静的ベクトルwq 、すなわち、推定された重みベクトルは、音声強調システム10の記憶手段に保存される。
一方、目的音声を連続的に検出することができなかった時間が所定時間以上でない場合、ビームフォーミング部切換ユニット14は、固定ビームフォーマ11をDelay−and−sum型ビームフォーマとしたままである(第2ビームフォーミング部)。
続いて、ビームフォーミング部切換ユニット14は、十分な量の受信信号が保存されたか否か、すなわち、保存した受信信号が十分になったか否かを判断する(ステップS6)。このための、受信信号の音声強調システム10の記憶手段への保存は、目的信号なしか否かに係わらず行われる。
そして、保存した受信信号が十分になった場合、例えば、100フレーム以上の受信信号が保存された場合、ブロッキング行列部12はブロッキング行列Bを計算する(ステップS7)。ステップS5でMVDRに基づいたアルゴリズムによる推定を実行したか否かに係わらず、ブロッキング行列部12のブロッキング行列Bは、Delay−and−sum型ビームフォーマの重みを表す静的ベクトルwd と直交するように、つまり、BH d =0となるように設定される。
これにより、前記第1ビームフォーミング部が、存在しない雑音源を抑圧するといった誤推定をした場合であっても、前記多入力キャンセラ13がそれを自動訂正するような適応ベクトルwa を得ることができる。
上記に述べたように静的ベクトルとブロッキング行列が求められた後、多入力キャンセラ13は高次統計量(negentropy/kurtosis)を用いて適応ベクトルを更新する(ステップS7)。これにより、出力信号Yの分布のスーパーガウシアンの度合いが最大となる適応ベクトルwa を推定する。スーパーガウシアンの度合いにnegentropyを用いた場合のアルゴリズムは非特許文献3及び4に記述されており、スーパーガウシアンの度合いにkurtosisを用いた場合のアルゴリズムは非特許文献5に記述されている。
このように、本実施の形態においては、固定ビームフォーマ11を第1ビームフォーミング部として、望ましくはMVDRビームフォーマとして、機能させることにより、目的音声の方向以外から到来する雑音を効果的に抑圧することができる。また、多入力キャンセラ13の雑音抑圧性能及び目的信号の強調性能を更に向上させることができる。なお、目的音声の音声信号が検出された場合であっても、固定ビームフォーマ11を第2ビームフォーミング部として、望ましくはDelay−and−sumビームフォーマとして機能させることによって、非特許文献3〜5に記載された技術と同程度の性能を保つことができる。つまり、本実施の形態においては、MVDRビームフォーマの強力な雑音抑圧性能を保ちつつ、非特許文献3〜5に記載された技術の性能を更に向上させることができる。
さらに、本実施の形態では、固定ビームフォーマ11は、第1ビームフォーミング部と第2ビームフォーミング部を備えているとして説明してきたが、例えば、2つ以上のビームフォーミング部を備えていてもよく、目的音声の大小等に応じて切換えて機能させてもよい。また、本実施の形態では、ビームフォーミング部切換ユニット14は、多入力キャンセラ13が出力信号、すなわち、目的音声の音声信号を強調するように演算した音声信号を出力するとし、この出力信号である演算した音声信号に目的音声の音声信号が含まれるか否かによって第1ビームフォーミング部と第2ビームフォーミング部を切換えて機能させる(制御する)としたが、例えば、音声強調システム10の入力信号に目的音声の音声信号が含まれるか否かによって第1ビームフォーミング部と第2ビームフォーミングを切換えて機能させる(制御する)ようにしてもよい。
なお、本発明は前記実施の形態に限定されるものではなく、本発明の趣旨に基づいて種々変形させることが可能であり、それらを本発明の範囲から排除するものではない。
本発明の実施の形態における音声強調システムの構成を示すブロック図である。 本発明の実施の形態において用いられるGSC型ビームフォーマの信号処理の流れを示すブロック図である。 本発明の実施の形態における音声強調システムの適応ベクトルを推定する動作を示すフローチャートである。
符号の説明
10 音声強調システム
11 固定ビームフォーマ
12 ブロッキング行列部
13 多入力キャンセラ
14 ビームフォーミング部切換ユニット
15 目的信号検出部

Claims (5)

  1. 少なくとも第1ビームフォーミング部及び第2ビームフォーミング部を備え、所定の方向から到来した音声信号に含まれる目的音声の音声信号を強調する静的ベクトルを備える固定ビームフォーマと、
    前記目的音声の方向から到来した音声信号を抑制するブロッキング行列を備えるブロッキング行列部と、
    適応ベクトルを備え、該適応ベクトル、前記静的ベクトル及び前記ブロッキング行列を用いて目的音声を強調するように演算した音声信号を出力するとともに、前記固定ビームフォーマ及び前記ブロッキング行列部からの音声信号を用いて、前記演算した音声信号の分布をスーパーガウシアンに近付けるように前記適応ベクトルを最適化する多入力キャンセラと、
    所定の方向から到来した音声信号に含まれる目的音声の音声信号を検出する目的信号検出部を備え、前記目的音声の音声信号が検出されたか否かに応じて前記複数のビームフォーマを切換えて機能させるビームフォーミング部切換ユニットとを有することを
    特徴とする音声強調システム。
  2. 前記ビームフォーミング部切換ユニットは、前記目的信号検出部によって目的音声の音声信号が検出されない場合、前記固定ビームフォーマを目的音声の方向以外から到来した音声信号を抑圧する第1ビームフォーミング部として機能させる請求項1に記載の音声強調システム。
  3. 前記第1ビームフォーミング部は、前記多入力キャンセラが出力する音声信号の分散を最小化する静的ベクトルを計算する請求項2に記載の音声強調システム。
  4. 前記ビームフォーミング部切換ユニットは、前記第1ビームフォーミング部が重みの値を更新した場合には更新された値を前記静的ベクトルとし、前記第1ビームフォーミング部が重みの値を更新しない場合には、前記固定ビームフォーマは複数のマイクロフォンが取得した複数の音源からの音声信号の時間遅れを補償するように静的ベクトルを演算した第2ビームフォーミング部に切換えて機能させる請求項2又は3に記載の音声強調システム。
  5. 前記目的信号検出部は、前記多入力キャンセラが出力する音声信号に含まれる目的音声の音声信号から前記所定の方向から到来した音声信号に含まれる目的音声の音声信号を検出する請求項1〜4のいずれか1項に記載の音声強調システム。
JP2008263664A 2008-10-10 2008-10-10 音声強調システム Withdrawn JP2010091912A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008263664A JP2010091912A (ja) 2008-10-10 2008-10-10 音声強調システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008263664A JP2010091912A (ja) 2008-10-10 2008-10-10 音声強調システム

Publications (1)

Publication Number Publication Date
JP2010091912A true JP2010091912A (ja) 2010-04-22

Family

ID=42254673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008263664A Withdrawn JP2010091912A (ja) 2008-10-10 2008-10-10 音声強調システム

Country Status (1)

Country Link
JP (1) JP2010091912A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013546247A (ja) * 2010-10-29 2013-12-26 マイティワークス マルチビーム音響システム
US8965002B2 (en) 2010-09-17 2015-02-24 Samsung Electronics Co., Ltd. Apparatus and method for enhancing audio quality using non-uniform configuration of microphones
US10034088B2 (en) 2014-11-11 2018-07-24 Sony Corporation Sound processing device and sound processing method
WO2019049276A1 (ja) * 2017-09-07 2019-03-14 三菱電機株式会社 雑音除去装置および雑音除去方法
JP2020003751A (ja) * 2018-07-02 2020-01-09 株式会社東芝 音信号処理装置、音信号処理方法、およびプログラム
WO2020184211A1 (ja) * 2019-03-13 2020-09-17 日本電信電話株式会社 雑音抑圧装置、その方法、およびプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965002B2 (en) 2010-09-17 2015-02-24 Samsung Electronics Co., Ltd. Apparatus and method for enhancing audio quality using non-uniform configuration of microphones
JP2013546247A (ja) * 2010-10-29 2013-12-26 マイティワークス マルチビーム音響システム
US10034088B2 (en) 2014-11-11 2018-07-24 Sony Corporation Sound processing device and sound processing method
WO2019049276A1 (ja) * 2017-09-07 2019-03-14 三菱電機株式会社 雑音除去装置および雑音除去方法
JPWO2019049276A1 (ja) * 2017-09-07 2019-12-26 三菱電機株式会社 雑音除去装置および雑音除去方法
JP2020003751A (ja) * 2018-07-02 2020-01-09 株式会社東芝 音信号処理装置、音信号処理方法、およびプログラム
CN110675890A (zh) * 2018-07-02 2020-01-10 株式会社东芝 声音信号处理装置以及声音信号处理方法
CN110675890B (zh) * 2018-07-02 2023-03-14 株式会社东芝 声音信号处理装置以及声音信号处理方法
WO2020184211A1 (ja) * 2019-03-13 2020-09-17 日本電信電話株式会社 雑音抑圧装置、その方法、およびプログラム
JP2020148899A (ja) * 2019-03-13 2020-09-17 日本電信電話株式会社 雑音抑圧装置、その方法、およびプログラム
JP7222277B2 (ja) 2019-03-13 2023-02-15 日本電信電話株式会社 雑音抑圧装置、その方法、およびプログラム

Similar Documents

Publication Publication Date Title
CN110741434B (zh) 用于具有可变麦克风阵列定向的耳机的双麦克风语音处理
US8504117B2 (en) De-noising method for multi-microphone audio equipment, in particular for a “hands free” telephony system
KR101210313B1 (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
CN109756822B (zh) 使用传递函数估计的有效回波消除
EP2748817B1 (en) Processing signals
KR101103794B1 (ko) 멀티 빔 음향시스템
KR101449433B1 (ko) 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
US8374358B2 (en) Method for determining a noise reference signal for noise compensation and/or noise reduction
EP1855457B1 (en) Multi channel echo compensation using a decorrelation stage
US7386135B2 (en) Cardioid beam with a desired null based acoustic devices, systems and methods
US8165310B2 (en) Dereverberation and feedback compensation system
US8014230B2 (en) Adaptive array control device, method and program, and adaptive array processing device, method and program using the same
US8462962B2 (en) Sound processor, sound processing method and recording medium storing sound processing program
US20120330652A1 (en) Space-time noise reduction system for use in a vehicle and method of forming same
JP2006101499A (ja) 結合されたノイズ低減およびエコー補償による音声信号処理
CN110120217B (zh) 一种音频数据处理方法及装置
JP5738488B2 (ja) ビームフォーミング装置
JP2010091912A (ja) 音声強調システム
JP2007147732A (ja) 雑音低減システム及び雑音低減方法
KR20170063618A (ko) 전자 장치 및 이의 잔향 제거 방법
US9729967B2 (en) Feedback canceling system and method
JP2010085733A (ja) 音声強調システム
KR20090098552A (ko) 위상정보를 이용한 자동 이득 조절 장치 및 방법
JP6854967B1 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
JPH1118193A (ja) 受話状態検出方法およびその装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120110