JP6644197B2

JP6644197B2 - 雑音除去装置および雑音除去方法

Info

Publication number: JP6644197B2
Application number: JP2019540211A
Authority: JP
Inventors: 信秋田中
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-09-07
Filing date: 2017-09-07
Publication date: 2020-02-12
Anticipated expiration: 2037-09-07
Also published as: CN111052766B; DE112017007800T5; JPWO2019049276A1; US20210098014A1; WO2019049276A1; CN111052766A

Description

この発明は、所望の方向から到来する音声以外の雑音を除去する技術に関するものである。

従来より、複数の音響センサ（例えば、マイクロホン）から構成されるセンサアレイを利用し、各センサから得られる観測信号に対して所定の信号処理を施すことにより、所望の方向から到来する音声を強調し、当該音声以外の雑音を除去する雑音除去技術が存在する。
上述した雑音除去技術により、例えば、空調設備などの機器から発生する騒音により聞き取りにくくなっている音声を明瞭化する、または複数の話者が同時に発話している際に所望の話者の音声のみを抽出することが可能となる。このように、雑音除去技術は、音声を人間にとって聞き取りやすくするだけでなく、音声認識処理の前処理として雑音を除去することにより、音声認識処理の雑音に対する頑健性を向上させることができる。

センサアレイを利用して信号処理によって指向性を形成する技術は、従来から種々開示されている。例えば、非特許文献１には、事前に測定または生成された目的音の到来方向を示すステアリングベクトルを利用し、目的音の到来方向から到来する音声の利得を変化させない条件下で、出力信号の平均利得を最小化する線形フィルタ係数を統計的に算出し、これにより線形ビームフォーミングを行うことにより、目的音以外の雑音を除去する技術が開示されている。

しかし、上述した非特許文献１に開示された技術では、雑音を適切に除去するための線形フィルタ係数を算出するため、妨害音の観測信号がある程度の長さ必要となる。これは、事前に妨害音源の位置に関する情報が与えられないため、観測信号から妨害音源の位置を推定する必要があるためである。これにより、非特許文献１に開示された技術では、雑音除去処理を開始した直後に、十分な雑音除去処理性能が得られないといる問題があった。

この問題を解決するため、特許文献１に記載された音信号処理装置では、目的音の到来方向を示すステアリングベクトルを事前に生成し、時間−周波数ごとに観測信号から計算されるセンサ間の位相差と目的音の到来方向のステアリングベクトルから計算されるセンサ間の位相差の類似度を計算し、類似度が高い時間−周波数スペクトルだけを通過させる時間−周波数マスキングを観測信号に適用することで、雑音を除去している。

特開２０１２−２３４１５０号公報

浅野太、「音のアレイ信号処理音源の定位・追跡と分離」、株式会社コロナ社、２０１１年、８６−８８ページ

上述した特許文献１に記載された音信号処理装置は、統計的な計算を用いることなく、出力信号がその瞬間における観測信号のみによって決定されるため、雑音除去処理を開始した直後から安定した雑音除去性能が得られる。
しかし、特許文献１に記載された音信号処理装置は、目的音を抽出するために音源の到来方向に関する情報として目的音の到来方向のみを用いているため、妨害音源が目的音源に対してどのような位置に存在するかが考慮されていない。そのため、特許文献１に記載された音信号処理装置は、目的音の到来方向と妨害音の到来方向が近い場合、またはセンサアレイによって観測される目的音と妨害音の位相差の差異が小さい場合等において、雑音除去性能が低下するという課題があった。
これは、目的音と妨害音の位相差が発生しにくい低周波数領域の時間−周波数マスキングにおいて、妨害音の時間−周波数スペクトルを誤って通過させる可能性が高く、高品質な出力信号を得ることが困難なためである。

この発明は、上記のような課題を解決するためになされたもので、目的音の到来方向と妨害音の到来方向とが近接する場合においても、良好な雑音除去性能を実現し、且つ雑音除去処理を開始した直後から安定した雑音除去性能を実現することを目的とする。

この発明に係る雑音除去装置は、予め取得された、２個以上の音響センサを備えたセンサアレイに対する音の到来方向を示すステアリングベクトルから、目的音の到来方向を示す目的音ステアリングベクトルを選択する目的音ベクトル選択部と、予め取得されたステアリングベクトルから、目的音以外の妨害音の到来方向を示す妨害音ステアリングベクトルを選択する妨害音ベクトル選択部と、センサアレイから得られる２以上の観測信号と、目的音ベクトル選択部が選択した目的音ステアリングベクトルと、妨害音ベクトル選択部が選択した妨害音ステアリングベクトルとに基づいて、妨害音の時間−周波数スペクトルを遮断するマスクを用いた時間−周波数マスキングにより、観測信号から妨害音を除去した信号を取得する信号処理部とを備え、時間−周波数マスキングは、２以上の観測信号から時間−周波数ごとのステアリングベクトルを推定し、当該推定した観測信号のステアリングベクトルと、目的音ステアリングベクトルおよび妨害音ステアリングベクトルとの類似度を算出し、当該算出した類似度が最大となるステアリングベクトルが、目的音ステアリングベクトルである場合に、観測信号の時間−周波数スペクトルを通過させ、算出した類似度が最大となるステアリングベクトルが目的音ステアリングベクトルでない場合に、観測信号の時間−周波数スペクトルを遮断する。

この発明によれば、目的音の到来方向と妨害音の到来方向とが近接する場合にも、良好な雑音除去性能を実現し、且つ雑音除去処理を開始した直後から安定した雑音除去性能を実現することができる。

実施の形態１に係る雑音除去装置の構成を示すブロック図である。図２Ａ、図２Ｂは、実施の形態１に係る雑音除去装置のハードウェア構成例を示す図である。実施の形態１に係る雑音除去装置の信号処理部の動作を示すフローチャートである。実施の形態２に係る雑音除去装置の信号処理部の動作を示すフローチャートである。実施の形態１または実施の形態２に係る雑音除去装置の適用例を示す図である。実施の形態１または実施の形態２に係る雑音除去装置の適用例を示す図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
また、この発明を実施するための形態において、音響センサの具体例として、無指向性のマイクロホンを用いて、センサアレイはマイクロホンアレイを用いて説明する。なお、音響センサは無指向性マイクロホンに限定されるものではなく、例えば、指向性マイクロホンまたは超音波センサも適用可能である。

実施の形態１．
図１は、実施の形態１に係る雑音除去装置１００の構成を示すブロック図である。
雑音除去装置１００は、観測信号取得部１０１、ベクトル記憶部１０２、目的音ベクトル選択部１０３、妨害音ベクトル選択部１０４および信号処理部１０５を備える。
また、雑音除去装置１００には、複数のマイクロホン２００ａ，２００ｂ，２００ｃ，・・・を備えたマイクロホンアレイ２００および外部機器３００が接続されている。
雑音除去装置１００は、マイクロホンアレイ２００によって観測された観測信号と、ベクトル記憶部１０２に記憶されたステアリングベクトルのうち目的音ベクトル選択部１０３および妨害音ベクトル選択部１０４が選択して出力したステアリングベクトルとに基づいて、信号処理部１０５が観測信号から雑音を除去した出力信号を生成し、外部機器３００に出力する。

観測信号取得部１０１は、マイクロホンアレイ２００によって観測された観測信号のＡ／Ｄ変換を行い、デジタル信号に変換する。観測信号取得部１０１は、デジタル信号に変換した観測信号を信号処理部１０５に出力する。
ベクトル記憶部１０２は、予め測定または生成された複数のステアリングベクトルを記憶する記憶領域である。ステアリングベクトルは、マイクロホンアレイ２００から見た音の到来方向に対応したベクトルである。ベクトル記憶部１０２に記憶されるステアリングベクトルは、マイクロホンアレイ２００を用いて事前に測定した、ある方向に対するインパルス応答を離散フーリエ変換し、得られた周波数スペクトルを任意のマイクロホンの周波数スペクトルによって除算し、正規化したスペクトルである。即ち、マイクロホンアレイ２００を構成するマイクロホンの数をＭとするとき、Ｍ個のマイクロホンによって測定されたインパルス応答を離散フーリエ変換して得られる周波数スペクトルＳ_１（ω）〜Ｓ_Ｍ（ω）を用いて構成した、以下の式（１）に示す複素ベクトルａ（ω）をステアリングベクトルとする。式（１）において、ωは離散周波数、Ｔはベクトルの転置を表す。

なお、ステアリングベクトルは必ずしも上述した式（１）と同様の方法で求める必要はない。例えば、上述した式（１）では、Ｍ個のマイクロホンのうち１番目に対応する周波数スペクトルＳ_１（ω）によって正規化を行うが、１番目以外のマイクロホンに対応する周波数スペクトルによって正規化を行ってもよい。また、正規化を行わず、インパルス応答の周波数スペクトルをそのままステアリングベクトルとして利用することも可能である。ただし、以下の説明では、ステアリングベクトルは式（１）に示すように１番目のマイクロホンに対応する周波数スペクトルによって正規化されているものとする。

目的音ベクトル選択部１０３は、ベクトル記憶部１０２に記憶されたステアリングベクトルから、所望の音声が到来する方向を示すステアリングベクトル（以下、目的音ステアリングベクトルという）を選択する。目的音ベクトル選択部１０３は、選択した目的音ステアリングベクトルを、信号処理部１０５に出力する。目的音ベクトル選択部１０３が目的音ステアリングベクトルを選択する方向は、例えば、ユーザの入力に基づいて指定された所望の音声が到来する方向に基づいて設定される。

妨害音ベクトル選択部１０４は、ベクトル記憶部１０２に記憶されたステアリングベクトルから、除去対象となる雑音が到来する方向のステアリングベクトル（以下、妨害音ステアリングベクトルという）を選択する。妨害音ベクトル選択部１０４は、選択した妨害音ステアリングベクトルを、信号処理部１０５に出力する。妨害音ベクトル選択部１０４が妨害音ステアリングベクトルを選択する方向は、例えば、ユーザの入力に基づいて指定された除去対象の雑音が到来する方向に基づいて設定される。

ただし、目的音源と妨害音源との位置関係が変化しない状況下では、目的音ベクトル選択部１０３が単一の目的音の到来方向のステアリングベクトルの出力を継続し、妨害音ベクトル選択部１０４が単一の妨害音の到来方向のステアリングベクトルの出力を継続する構成とすることが可能である。

目的音源と妨害音源とが、それぞれ複数存在する場合、目的音ベクトル選択部１０３が複数の目的音ステアリングベクトルを出力し、妨害音ベクトル選択部１０４が複数の妨害音ステアリングベクトルを出力する構成としてもよい。この場合、目的音源が複数存在するため、雑音除去装置１００が、雑音を除去した複数の目的音を、複数の出力信号として出力してもよい。
ただし、以下では、説明の簡略化のため、目的音ベクトル選択部１０３および妨害音ベクトル選択部１０４は、それぞれ単一の目的音ステアリングベクトルおよび妨害音ステアリングベクトルを選択して出力するものとする。即ち、信号処理部１０５の出力信号は、単一の雑音が除去された目的音の信号とする。また以下では、目的音ベクトル選択部１０３が選択し、出力する目的音ステアリングベクトルを、目的音ステアリングベクトルａ_ｔｒｇ（ω）と記載する。同様に、妨害音ベクトル選択部１０４が選択し、出力する妨害音ステアリングベクトルを、妨害音ステアリングベクトルａ_ｄｓｔ（ω）と記載する。

信号処理部１０５は、観測信号取得部１０１から得られる観測信号と、目的音ベクトル選択部１０３から得られる目的音ステアリングベクトルと、妨害音ベクトル選択部１０４から得られる妨害音ステアリングベクトルとにより、目的音以外の雑音を除去した信号を、出力信号として出力する。ここでは、信号処理部１０５の一例として、線形ビームフォーミングによる実装方法を示す。

以下では、信号処理部１０５は、Ｍ個のマイクロホンによって観測された信号に、離散フーリエ変換を施して、時間−周波数スペクトルＸ_１（ω，τ）〜Ｘ_Ｍ（ω，τ）を取得する。ここで、τは離散フレーム番号を表す。信号処理部１０５は、以下に示す式（２）に基づいて、線形ビームフォーミングによって出力信号の時間−周波数スペクトルＹ（ω，τ）を求める。式（２）におけるｘ（ω，τ）は、式（３）に示すように時間−周波数スペクトルＸ_１（ω，τ）からＸ_Ｍ（ω，τ）を並べた複素ベクトルである。また、式（２）におけるｗ（ω）は線形ビームフォーミングにおける線形フィルタ係数を並べた複素ベクトルである。また、式（２）におけるＨは、ベクトルまたは行列の複素共役転置を表す。
Ｙ（ω，τ）＝ｗ（ω）^Ｈｘ（ω，τ）（２）
ｘ（ω，τ）＝（Ｘ_１（ω，τ），・・・，Ｘ_Ｍ（ω，τ））（３）

信号処理部１０５は、上述した式（２）において、線形フィルタ係数ｗ（ω）が適切に与えられた場合、雑音が除去された時間−周波数スペクトルＹ（ω，τ）を取得する。ここで、線形フィルタ係数ｗ（ω）が満たすべき条件は、目的音の利得を確保し、且つ妨害音の利得を０とする条件である。即ち、当該線形フィルタ係数ｗ（ω）により、目的音の到来方向に指向性を形成した上で、妨害音の到来方向に死角を形成する。これは、当該線形フィルタ係数ｗ（ω）が、以下の式（４）および式（５）を満たすことと等価である。
ｗ（ω）^Ｈａ_ｔｒｇ（ω）＝１（４）
ｗ（ω）^Ｈａ_ｄｓｔ（ω）＝０（５）

上述した式（４）および式（５）は、行列を用いて式（６）のように記載することができる。なお、式（６）におけるＡは以下の式（７）で示す複素行列、式（６）におけるｒは以下の式（８）で示すベクトルである。
Ａ^Ｈｗ（ω）＝ｒ（６）
Ａ＝（ａ_ｔｒｇ（ω）ａ_ｄｓｔ（ω））（７）
ｒ＝（１０）^Ｔ（８）

上述した式（６）を満たす線形フィルタ係数ｗ（ω）は、以下の式（９）を用いて求められる。
ｗ（ω）＝Ａ^＋ｒ（９）
上述した式（９）におけるＡ^＋は、行列ＡのＭｏｏｒｅ−Ｐｅｎｒｏｓｅの擬似逆行列である。信号処理部１０５は、上述した式（９）により求めた線形フィルタ係数ｗ（ω）を用いて、上述した式（２）の計算を行う。これにより、信号処理部１０５は、雑音が除去された時間−周波数スペクトルＹ（ω，τ）を取得する。信号処理部１０５は、取得した時間−周波数スペクトルＹ（ω，τ）を離散逆フーリエ変換し、時間波形を再構成して最終的な出力信号として出力する。

外部機器３００は、例えばスピーカ、ハードディスクまたはメモリなどの記憶媒体で構成され、信号処理部１０５から出力された出力信号を出力する機器である。外部機器３００が、スピーカで構成される場合、当該スピーカから出力信号が音波として出力される。また、外部機器３００が、ハードディスクまたはメモリなどの記憶媒体で構成される場合、当該記憶媒体は出力信号をハードディスクまたはメモリにデジタルデータとして記憶する。

次に、雑音除去装置１００のハードウェア構成例を説明する。
図２Ａおよび図２Ｂは、雑音除去装置１００のハードウェア構成例を示す図である。
雑音除去装置１００におけるベクトル記憶部１０２は、ストレージ１００ａにより実現される。また、雑音除去装置１００における観測信号取得部１０１、目的音ベクトル選択部１０３、妨害音ベクトル選択部１０４および信号処理部１０５の各機能は、処理回路により実現される。即ち、雑音除去装置１００は、上記各機能を実現するための処理回路を備える。当該処理回路は、図２Ａに示すように専用のハードウェアである処理回路１００ｂであってもよいし、図２Ｂに示すようにメモリ１００ｄに格納されているプログラムを実行するプロセッサ１００ｃであってもよい。

図２Ａに示すように、観測信号取得部１０１、目的音ベクトル選択部１０３、妨害音ベクトル選択部１０４および信号処理部１０５が専用のハードウェアである場合、処理回路１００ｂは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-programmable Gate Array）、またはこれらを組み合わせたものが該当する。観測信号取得部１０１、目的音ベクトル選択部１０３、妨害音ベクトル選択部１０４および信号処理部１０５の各部の機能それぞれを処理回路で実現してもよいし、各部の機能をまとめて１つの処理回路で実現してもよい。

図２Ｂに示すように、観測信号取得部１０１、目的音ベクトル選択部１０３、妨害音ベクトル選択部１０４および信号処理部１０５がプロセッサ１００ｃである場合、各部の機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアはプログラムとして記述され、メモリ１００ｄに格納される。プロセッサ１００ｃは、メモリ１００ｄに記憶されたプログラムを読み出して実行することにより、観測信号取得部１０１、目的音ベクトル選択部１０３、妨害音ベクトル選択部１０４および信号処理部１０５の各機能を実現する。即ち、観測信号取得部１０１、目的音ベクトル選択部１０３、妨害音ベクトル選択部１０４および信号処理部１０５は、プロセッサ１００ｃにより実行されるときに、後述する図３に示す各ステップが結果的に実行されることになるプログラムを格納するためのメモリ１００ｄを備える。また、これらのプログラムは、観測信号取得部１０１、目的音ベクトル選択部１０３、妨害音ベクトル選択部１０４および信号処理部１０５の手順または方法をコンピュータに実行させるものであるとも言える。

ここで、プロセッサ１００ｃとは、例えば、ＣＰＵ（Central Processing Unit）、処理装置、演算装置、プロセッサ、マイクロプロセッサ、マイクロコンピュータ、またはＤＳＰ（Digital Signal Processor）などのことである。
メモリ１００ｄは、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable ROM）、ＥＥＰＲＯＭ（Electrically EPROM）等の不揮発性または揮発性の半導体メモリであってもよいし、ハードディスク、フレキシブルディスク等の磁気ディスクであってもよいし、ミニディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等の光ディスクであってもよい。

なお、観測信号取得部１０１、目的音ベクトル選択部１０３、妨害音ベクトル選択部１０４および信号処理部１０５の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。このように、雑音除去装置１００における処理回路１００ｂは、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現することができる。

次に、雑音除去装置１００の動作について説明する。
図３は、実施の形態１に係る雑音除去装置１００の信号処理部１０５の動作を示すフローチャートである。
図３のフローチャートでは、雑音除去装置１００が雑音除去処理を行っている間は、目的音源および雑音源の位置が変化しないものとして説明を行う。即ち、雑音除去処理を行っている間は、目的音ステアリングベクトル、および妨害音ステアリングベクトルが変化しないものとする。
信号処理部１０５は、目的音ベクトル選択部１０３が選択した目的音ステアリングベクトルと、妨害音ベクトル選択部１０４が選択した妨害音ステアリングベクトルとから、線形フィルタ係数ｗ（ω）を求める（ステップＳＴ１）。信号処理部１０５は、観測信号取得部１０１から入力される観測信号を一時格納領域（図示しない）に蓄積する（ステップＳＴ２）。

信号処理部１０５は、所定の長さの観測信号が蓄積されたか否か判定を行う（ステップＳＴ３）。所定の長さの観測信号が蓄積されていない場合（ステップＳＴ３；ＮＯ）、ステップＳＴ２の処理に戻る。一方、所定の長さの観測信号が蓄積されている場合（ステップＳＴ３；ＹＥＳ）、信号処理部１０５は、蓄積された観測信号を離散フーリエ変換し、観測信号ベクトルｘ（ω，τ）を求める（ステップＳＴ４）。

信号処理部１０５は、ステップＳＴ１で求めた線形フィルタ係数ｗ（ω）と、ステップＳＴ４で求めた観測信号ベクトルｘ（ω，τ）とから、時間−周波数スペクトルＹ（ω，τ）を求める（ステップＳＴ５）。信号処理部１０５は、ステップＳＴ５で求めた時間−周波数スペクトルＹ（ω，τ）を離散逆フーリエ変換し、時間波形を求める（ステップＳＴ６）。信号処理部１０５は、ステップＳＴ６で求めた時間波形を、出力信号として外部機器３００に出力し（ステップＳＴ７）、処理を終了する。

以上のように、この実施の形態１によれば、予め取得された、２個以上の音響センサを備えたセンサアレイに対する音の到来方向を示すステアリングベクトルから、目的音の到来方向を示す目的音ステアリングベクトルを選択する目的音ベクトル選択部１０３と、予め取得されたステアリングベクトルから、目的音以外の妨害音の到来方向を示す妨害音ステアリングベクトルを選択する妨害音ベクトル選択部１０４と、マイクロホンアレイ２００から得られる２以上の観測信号と、選択された目的音ステアリングベクトルと、選択された妨害音ステアリングベクトルとに基づいて、観測信号から妨害音を除去した信号を取得する信号処理部１０５とを備えるように構成したので、目的音の到来方向のステアリングベクトルと、妨害音の到来方向のステアリングベクトルの双方を用いて、目的音の到来方向の音声の利得を確保し、且つ妨害音の到来方向の利得を減少させることができる。これにより、目的音の到来方向のステアリングベクトルのみを用いた雑音除去処理と比較して、目的音の到来方向と妨害音の到来方向とが近接している場合における雑音除去性能を向上させることができ、高品質な出力信号を得ることができる。また、目的音の到来方向のステアリングベクトルおよび妨害音の到来方向のステアリングベクトルが与えられることにより、観測信号から音源位置の推定を行う必要がなく、雑音除去処理を開始した直後から安定した雑音除去性能を得ることができる。

また、この実施の形態１によれば、信号処理部１０５は、目的音の到来方向を指向性形成方向とし、妨害音の到来方向を死角形成方向とする線形フィルタ係数を有する線形ビームフォーミングにより、観測信号から妨害音を除去した信号を取得するように構成したので、線形ビームフォーミングによって歪みが小さい出力信号を得ることができ、高品質な出力信号を得ることができる。

実施の形態２．
上述した実施の形態１では、信号処理部１０５を線形ビームフォーミングに基づく方法により実装する構成を示したが、この実施の形態２では信号処理部１０５を非線形処理に基づく方法により実装する構成を示す。ここで、非線形処理とは、例えば時間−周波数マスキングなどである。
実施の形態２に係る雑音除去装置１００の構成を示すブロック図は、実施の形態１と同一であるため記載を省略する。また、実施の形態２に係る雑音除去装置１００の構成要素は、実施の形態１で使用した符号と同一の符号を付して説明する。
以下では、信号処理部１０５が、観測信号取得部１０１から入力された観測信号と、予め測定されたベクトル記憶部１０２に記憶されたステアリングベクトルとの類似度に基づいて、時間−周波数マスキングによる信号処理を行う構成を示す。

具体的には、目的音のみを通過させる時間−周波数マスクをＢ（ω，τ）とするとき、信号処理部１０５は、以下の式（１１）に示すようにステアリングベクトル間の距離に基づいて、時間−周波数マスクＢ（ω，τ）を生成する。

式（１１）によって、時間−周波数マスクＢ（ω、τ）は、目的音の時間−周波数スペクトルのみを通過させ、目的音以外の時間−周波数スペクトルを遮断する。

信号処理部１０５は、当該時間−周波数マスクＢ（ω，τ）を用いて、以下の式（１２）に基づいて出力信号の時間−周波数スペクトルＹ（ω，τ）を求める。
Ｙ（ω，τ）＝Ｂ（ω，τ）Ｘ_１（ω，τ）（１２）
信号処理部１０５は、得られた時間−周波数スペクトルＹ（ω，τ）を離散逆フーリエ変換し、時間波形を再構成し、出力信号を生成する。信号処理部１０５は、生成した出力信号を、外部機器３００に出力する。

図４は、実施の形態２に係る雑音除去装置１００の信号処理部１０５の動作を示すフローチャートである。
図４のフローチャートで示した処理を行う前提として、雑音除去装置１００が、雑音除去処理を行っている間は、目的音ステアリングベクトル、および妨害音ステアリングベクトルが変化しないものとする。
なお、以下では、実施の形態１に係る雑音除去装置１００と同一のステップには図３で使用した符号と同一の符号を付し、説明を省略または簡略化する。

信号処理部１０５は、ステップＳＴ１１で求められた観測信号の時間−周波数スペクトルＸ_１（ω，τ）と、ステップＳＴ１３で生成したマスクとから、出力信号の時間−周波数スペクトルＹ（ω，τ）を求める（ステップＳＴ１４）。信号処理部１０５は、ステップＳＴ１４で求めた時間−周波数スペクトルＹ（ω，τ）を離散逆フーリエ変換し、時間波形を求める（ステップＳＴ６）。信号処理部１０５は、ステップＳＴ６で求めた時間波形を、出力信号として外部機器３００に出力し（ステップＳＴ７）、処理を終了する。

以上のように、この実施の形態２によれば、信号処理部１０５は、妨害音の時間−周波数スペクトルを遮断するマスクを用いた時間−周波数マスキングにより、観測信号から妨害音を除去した信号を取得するように構成したので、同時に抽出または除去対象とするステアリングベクトルの数が、マイクロホンの数以下でなければならないという制約がなく、幅広い状況下で利用可能である。また、線形ビームフォーミングよりも高い雑音除去性能を得ることができる。

また、この実施の形態２によれば、時間−周波数マスキングは、２以上の観測信号から時間−周波数ごとのステアリングベクトルを推定し、当該推定した観測信号のステアリングベクトルと、目的音ステアリングベクトルおよび妨害音ステアリングベクトルとの類似度を算出し、当該算出した類似度が最大となるステアリングベクトルが、目的音ステアリングベクトルである場合に、観測信号の時間−周波数スペクトルを通過させ、算出した類似度が最大となるステアリングベクトルが目的音ステアリングベクトルでない場合に、観測信号の時間−周波数スペクトルを遮断するように構成したので、マイクロホンアレイによって観測される音声の時間差のみでなく、振幅の差も同時に考慮されるため、より高精度な時間−周波数マスクを生成することができる。これにより、高い雑音除去性能を得ることができる。

実施の形態１または実施の形態２で示した雑音除去装置１００は、録音システム、ハンズフリー通話システム、または音声認識システム等に適用可能である。
まず、実施の形態１または実施の形態２で示した雑音除去装置１００を、録音システムに適用した場合について説明する。
図５は、実施の形態１または実施の形態２に係る雑音除去装置１００の適用例を示す図である。図５では、雑音除去装置１００を、例えば会議の音声を録音する録音システムに適用した場合を示している。
図５に示すように、雑音除去装置１００は、会議机４００の上に配置される。会議机４００の周囲に配置された複数の椅子５００に会議参加者が着座する。雑音除去装置１００のベクトル記憶部１０２は、予め、雑音除去装置１００に接続されたマイクロホンアレイ２００から見た各椅子５００の配置方向に対応するステアリングベクトルを測定した結果を記憶しているものとする。

各会議参加者の発話を個別に抽出する場合、目的音ベクトル選択部１０３は、各椅子５００の配置方向に対応したステアリングベクトルを、目的音ステアリングベクトルとして選択する。一方、妨害音ベクトル選択部１０４は、上述した椅子５００以外の方向に対応したステアリングベクトルを妨害音ステアリングベクトルとして選択する。
会議参加者が各椅子５００に着座した会議が開始されると、マイクロホンアレイ２００が各会議参加者の音声を集音し、観測信号として雑音除去装置１００に出力する。雑音除去装置１００の観測信号取得部１０１は、入力された観測信号をデジタル信号に変換して信号処理部１０５に出力する。信号処理部１０５は、観測信号取得部１０１から入力された観測信号と、目的音ベクトル選択部１０３が選択した目的音ステアリングベクトルと、妨害音ベクトル選択部１０４が選択した妨害音ステアリングベクトルとを用いて、会議参加者の個別の発話を抽出する。外部機器３００は、信号処理部１０５が抽出した会議参加者の個別の発話の音声信号を録音する。これにより、録音システムを用いて、例えば議事録の作成を容易に行うことができる。

一方、ある会議参加者の発話のみを抽出する場合、目的音ベクトル選択部１０３は、発話を抽出する対象である会議参加者の椅子５００の配置方向に対応したステアリングベクトルを、目的音ステアリングベクトルとして選択する。一方、妨害音ベクトル選択部１０４は、上述したある会議参加者以外の方向に対応したステアリングベクトルを、妨害音ステアリングベクトルとして選択する。
会議参加者が各椅子５００に着座して会議が開始されると、マイクロホンアレイ２００が会議参加者の音声を集音し、観測信号として雑音除去装置１００に出力する。雑音除去装置１００の観測信号取得部１０１は、入力された観測信号をデジタル信号に変換して信号処理部１０５に出力する。信号処理部１０５は、観測信号取得部１０１から入力された観測信号と、目的音ベクトル選択部１０３が選択した目的音ステアリングベクトルと、妨害音ベクトル選択部１０４が選択した妨害音ステアリングベクトルとを用いて、ある会議参加者の発話のみを抽出する。外部機器３００は、信号処理部１０５が抽出したある会議参加者の発話の音声信号を録音する。

上述のように、発話者が椅子５００に座るという前提において、各椅子５００の方向に対応したステアリングベクトルを予め測定しておくことにより、椅子５００に着座した話者の発話を高精度に抽出または除去することができる。

次に、実施の形態１または実施の形態２で示した雑音除去装置１００を、ハンズフリー通話システムまたは音声認識システムに適用した場合について説明する。
図６は、実施の形態１または実施の形態２に係る雑音除去装置１００の適用例を示す図である。図６では、雑音除去装置１００を車両内のハンズフリー通話システムまたは音声認識システムに適用した場合を示している。雑音除去装置１００は、例えば、車両６００の前方、即ち運転席６０１および助手席６０２に対して車両６００の前方に配置される。

車両６００の運転者６０１ａは運転席６０１に着座する。車両６００のその他の乗員６０２ａ，６０３ａ，６０３ｂは、助手席６０２および後部座席６０３に着座する。雑音除去装置１００は、運転席６０１に着座する運転者６０１ａの発話を集音し、ハンズフリー通話のための雑音除去処理、または音声認識のための雑音除去処理を行う。運転者６０１ａがハンズフリー通話を行うためには、または運転者６０１ａの音声の音声認識を行うためには、運転者６０１ａの発話に混入する種々の雑音を除去する必要がある。例えば、助手席６０２に着座する乗員６０２ａの発話音声は、運転者６０１ａが発話する際に除去すべき雑音となる。

雑音除去装置１００のベクトル記憶部１０２は、予め、雑音除去装置１００に接続されたマイクロホンアレイ２００から見た運転席６０１および助手席６０２の方向に対応するステアリングベクトルを測定した結果を記憶しているものとする。次に、目的音ベクトル選択部１０３は運転席６０１に着座する運転者６０１ａの発話のみを抽出する場合、運転席６０１の方向に対応したステアリングベクトルを、目的音ステアリングベクトルとして選択する。一方、妨害音ベクトル選択部１０４は、助手席６０２の方向に対応したステアリングベクトルを、妨害音ステアリングベクトルとして選択する。

運転者６０１ａおよび乗員６０２ａが発話すると、マイクロホンアレイ２００が運転者６０１ａの音声を集音し、観測信号として雑音除去装置１００に出力する。雑音除去装置１００の観測信号取得部１０１は、入力された観測信号をデジタル信号に変換して信号処理部１０５に出力する。信号処理部１０５は、観測信号取得部１０１から入力された観測信号と、目的音ベクトル選択部１０３が選択した目的音ステアリングベクトルと、妨害音ベクトル選択部１０４が選択した妨害音ステアリングベクトルとを用いて、運転者６０１ａの個別の発話を抽出する。外部機器３００は、信号処理部１０５が抽出した運転者６０１ａの個別の発話の音声信号を蓄積する。ハンズフリー通話システムまたは音声認識システムは、外部機器３００に蓄積された音声信号を用いて、音声通話のための処理、または音声認識処理を実行する。これにより、助手席６０２に着座する乗員６０２ａの発話音声を除去し、運転者６０１ａの発話のみを高精度に抽出し、音声通話のための処理、または音声認識処理を行うことができる。

なお、上記では、運転者６０１ａが発話する際に除去する雑音として、助手席６０２に着座する乗員６０２ａの発話音声を例に説明を行ったが、助手席６０２に加えて後部座席６０３に着座する乗員６０３ａ，６０３ｂの発話音声を雑音として除去する構成としてもよい。

上述のように、車両６００の運転席６０１、助手席６０２および後部座席６０３の方向に対応したステアリングベクトルを予め測定しておくことにより、運転席６０１に着座した運転者６０１ａの発話を高精度に抽出することができる。これにより、ハンズフリー通話システムにおいて、通話音質を向上させることができる。また、音声認識システムにおいて、雑音が存在する状況下においても、高精度に運転手の発話を認識することができる。

上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。

この発明に係る雑音除去装置は、目的音以外の雑音が発生する環境下で用いられる機器であって、目的音のみを集音するための録音装置、通話装置、または音声認識装置等に適用可能である。

１００雑音除去装置、１０１観測信号取得部、１０２ベクトル記憶部、１０３目的音ベクトル選択部、１０４妨害音ベクトル選択部、１０５信号処理部。

Claims

予め取得された、２個以上の音響センサを備えたセンサアレイに対する音の到来方向を示すステアリングベクトルから、目的音の到来方向を示す目的音ステアリングベクトルを選択する目的音ベクトル選択部と、
前記予め取得されたステアリングベクトルから、前記目的音以外の妨害音の到来方向を示す妨害音ステアリングベクトルを選択する妨害音ベクトル選択部と、
前記センサアレイから得られる２以上の観測信号と、前記目的音ベクトル選択部が選択した前記目的音ステアリングベクトルと、前記妨害音ベクトル選択部が選択した前記妨害音ステアリングベクトルとに基づいて、前記妨害音の時間−周波数スペクトルを遮断するマスクを用いた時間−周波数マスキングにより、前記観測信号から前記妨害音を除去した信号を取得する信号処理部とを備え、
前記時間−周波数マスキングは、前記２以上の観測信号から時間−周波数ごとのステアリングベクトルを推定し、当該推定した観測信号のステアリングベクトルと、前記目的音ステアリングベクトルおよび前記妨害音ステアリングベクトルとの類似度を算出し、当該算出した類似度が最大となるステアリングベクトルが、前記目的音ステアリングベクトルである場合に、前記観測信号の時間−周波数スペクトルを通過させ、前記算出した類似度が最大となるステアリングベクトルが前記目的音ステアリングベクトルでない場合に、前記観測信号の時間−周波数スペクトルを遮断することを特徴とする雑音除去装置。
前記予め取得された音の到来方向を示すステアリングベクトルを記憶するベクトル記憶部を備えたことを特徴とする請求項１記載の雑音除去装置。
前記予め取得された音の到来方向を示すステアリングベクトルは、ユーザが着座すると推定された位置から前記センサアレイへの音の到来方向を示すステアリングベクトルであることを特徴とする請求項１記載の雑音除去装置。
前記信号処理部は、前記着座すると推定された位置に着座したユーザの音声を、前記観測信号から抽出または除去することを特徴とする請求項３記載の雑音除去装置。
前記予め取得された音の到来方向を示すステアリングベクトルは、車両内の運転席および助手席から前記センサアレイへの音の到来方向を示すステアリングベクトルであることを特徴とする請求項１記載の雑音除去装置。
前記信号処理部は、前記運転席または前記助手席に着座したユーザの音声を、前記観測信号から抽出または除去することを特徴とする請求項５記載の雑音除去装置。
目的音ベクトル選択部が、予め取得された、２個以上の音響センサを備えたセンサアレイに対する音の到来方向を示すステアリングベクトルから、目的音の到来方向を示す目的音ステアリングベクトルを選択するステップと、
妨害音ベクトル選択部が、前記予め取得されたステアリングベクトルから、前記目的音以外の妨害音の到来方向を示す妨害音ステアリングベクトルを選択するステップと、
信号処理部が、前記センサアレイから得られる２以上の観測信号と、前記選択した前記目的音ステアリングベクトルと、前記選択した前記妨害音ステアリングベクトルとに基づいて、前記妨害音の時間−周波数スペクトルを遮断するマスクを用いた時間−周波数マスキングにより、前記観測信号から前記妨害音を除去した信号を取得するステップとを備え、
前記時間−周波数マスキングは、前記２以上の観測信号から時間−周波数ごとのステアリングベクトルを推定し、当該推定した観測信号のステアリングベクトルと、前記目的音ステアリングベクトルおよび前記妨害音ステアリングベクトルとの類似度を算出し、当該算出した類似度が最大となるステアリングベクトルが、前記目的音ステアリングベクトルである場合に、前記観測信号の時間−周波数スペクトルを通過させ、前記算出した類似度が最大となるステアリングベクトルが前記目的音ステアリングベクトルでない場合に、前記観測信号の時間−周波数スペクトルを遮断することを特徴とする雑音除去方法。