JP3786038B2

JP3786038B2 - 入力信号処理方法および入力信号処理装置

Info

Publication number: JP3786038B2
Application number: JP2002070573A
Authority: JP
Inventors: 充伸神沼; 洋猿渡; 晃伸李
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2002-03-14
Filing date: 2002-03-14
Publication date: 2006-06-14
Anticipated expiration: 2022-03-14
Also published as: JP2003271166A

Description

【０００１】
【発明の属する技術分野】
本発明は、複数の信号源から発せられた各種信号が混在する状態の中から、必要とする信号を抽出する方法とその装置に係る。
【０００２】
【従来の技術】
複数の信号が混在する状態で観測された場合、観測された信号だけを用いて源信号を同定する技術をBlind Source Separation(以下ＢＳＳと記述)と呼ぶ。近年では、独立成分分析(Independent Component Ana1ysis;以下ＩＣＡと記述)に基づく信号分離手法が主流である。
この信号分離手法は、複数のセンサからの複数の時系列入力信号に対して独立性の評価および逆混合行列の最適化を行なうもので、その方法としてはKullback-Leibler divergenceの最小化に基づく教師無し学習アルゴリズムや、２次または高次の相関を無相関化するアルゴリズムが提案されている（「アレー信号処理を用いたブラインド音源分離の基礎」Technica1 report of ＩＥＩＣＥ，ＥＡ２００１‐７)。
【０００３】
ＩＣＡによる信号分離手法は音信号処理だけではなく、例えば、移動体通信などで話が混線して到達した信号を、其々に分離したり、脳の内部の各所で生ずる信号を脳電計や脳磁計、ｆＭＲＩ（Functional Magnetic Resonance Imaging；磁気共鳴機能画像)などを用いて外部から測定した場合に、測定信号の中から目的の信号を分離抽出することなどに用いられている(「独立成分解析とは」Computer Today，ｐ３８−４３，１９９８．９，Ｎｏ．８７、「ｆＭＲＩ画像解析への応用」Computer Today，ｐ６０−６７，２００１．１，Ｎｏ．９５)。
【０００４】
【発明が解決しようとする課題】
以上述べたＩＣＡに基づく目的信号分離の処理における問題点としては、以下の各項が挙げられる。
１）信号源から送出される信号同士の統計的な独立性を利用するが、実環境では信号の伝達特性・背景ノイズ等によりその統計量を精度よく推定することが困難である。よって、分離精度が劣化する。
２）拡散性の信号源は、それを一信号源と見なすことが困難であることにより、分離が非常に困難となる。
３）特に上記のような拡散性の信号源と拡散性でない目的信号源とが混在する場合において、特定の周波数帯域に目的信号源の信号成分が存在せず、拡散性信号源の信号成分だけが存在すると、ＩＣＡによる目的信号分離処理結果である複数の分離された信号全てにおいて上記拡散性信号源の成分が混入する。
このように、特に拡散性の信号源から送出される信号を取り扱う際には、ＩＣＡに基づくマイクロホンアレーにおける目的信号源の信号分離性能が著しく劣化する。すなわち、ＩＣＡを用いても信号の分離が困難であった周波数帯域においては、目的とする信号源から送出される信号以外の成分が混入してしまう問題があった。
本発明においては、以上のような現状の信号分離法の問題点を解決し、拡散性のある音源を含む場合に対しても適用可能な新しい信号分離の手法を提供することを目的とする。
【０００５】
【課題を解決するための手段】
上記目的を達成するために、本発明の請求項１においては複数のセンサによって検知できる複数の波動信号が混在している中から、目的とする少なくとも一つの波動信号である目的信号を放出している信号源の信号を分離する入力信号処理方法において、各センサによって入力信号を電気信号として検知する検知過程と、前記各センサによって検知された検知信号を狭帯域信号に分割する帯域分割過程と、前記周波数帯域毎に分割された前記狭帯域信号に対して短時間フレーム分析を行い、時間−周波数信号系列を形成し、後記の二次減衰過程における減衰特性としての抑圧定数を算出するための識別レベルとなる音源分離された信号それぞれのレベルを求める信号識別過程と、前記信号識別過程において得られた識別レベルをもとに、前記分離された信号間の高次相関値または cosine 距離により相互の独立性を評価し、独立性が高い場合は小さな値を、独立性が低い場合は大きな値をとるコスト関数を定義し、二次減衰過程における減衰特性としての前記抑圧定数の設定を行う修正過程と、前記一次減衰過程出力信号と、前記修正過程出力とを乗算することにより不要帯域を除去し、該不要帯域除去により最終的な信号絃分離処理を行う二次減衰過程と、を有する方法としている。
【０００６】
請求項２においては、請求項１に記載の入力信号処理方法において、前記修正過程は、所定の周波数帯域幅で移動平均をとることにより平滑化されたコスト関数を生成し、かつ、該平滑化されたコスト関数を全周波数帯域に渉り検出し、前記平滑化されたコスト関数が予め定められた閾値に対して大きい場合は不要帯域として抑圧定数を予め定められた小さな値とし、前記平滑化されたコスト関数が前記予め定められた閾値に対して小さい場合は前記目的信号であるから前記抑圧定数には減衰を与えない値とする、入力信号処理方法としている。
【０００７】
請求項３においては、請求項２に記載の入力信号処理方法において、前記平滑化されたコスト関数が、前記目的信号の時間的独立性を定義するものである入力信号処理方法としている。
【０００８】
請求項４においては、請求項２に記載の入力信号処理方法において、前記平滑化されたコスト関数が、前記目的信号の時間的独立性を定義するものである入力信号処理方法としている。
【０００９】
請求項５においては、請求項２に記載の入力信号処理方法において、前記平滑化されたコスト関数が、前記目的信号の周波数的独立性を定義するものである入力信号処理方法としている。
【００１０】
請求項６においては、請求項１乃至請求項４の何れかに記載の入力信号処理方法において、分離信号間のコサイン距離を前記コスト関数として使用する入力信号処理方法としている。
【００１１】
請求項７においては、複数のセンサによって検知できる複数の波動信号が混在している中から、目的とする少なくとも一つの波動信号である目的信号を放出している信号源の信号を分離する入力信号処理装置を基本としている。具体的には前記各センサによって入力信号を電気信号として検知する検知手段と、前記各センサによって検知された検知信号を狭帯域信号に分割する帯域分割手段と、前記周波数帯域毎に分割された前記信号に対して短時間フレーム分析を行い、時間−周波数信号系列を形成し、後記の二次減衰過程における減衰特性としての抑圧定数を算出するための識別レベルとなる音源分離された信号それぞれのレベルを求める信号識別手段と、前記信号識別手段において得られた識別レベルをもとに、前記分離された信号間の高次相関値または cosine 距離により相互の独立性を評価し、独立性が高い場合は小さな値を、独立性が低い場合は大きな値をとるコスト関数を定義し、二次減衰手段における減衰特性としての前記抑圧定数の設定を行う修正手段と、
前記一次減衰手段出力信号と、前記修正手段出力とを乗算することにより不要帯域を除去し、該不要帯域除去により最終的な信号源分離処理を行う前記二次減衰手段と、を有する構成の入力信号処理装置としている。
【００１２】
請求項８においては、請求項７に記載の入力信号処理装置において、前記修正手段は、所定の周波数帯域幅で移動平均をとることにより平滑化されたコスト関数を生成し、かつ、該平滑されたコスト関数を全周波数帯域に渉り検出し、前記平滑化されたコスト関数が予め定められた閾値に対して大きい場合は不要帯域として抑圧定数を予め定められた小さな値とし、前記平滑化されたコスト関数が前記予め定められた閾値に対して小さい場合は前記目的信号であるから前記抑圧定数には減衰を与えない値とする、入力信号処理装置としている。
【００１３】
請求項９においては、請求項７に記載の入力信号処理装置において、前記平滑化されたコスト関数は、前記目的信号の空間的独立性を定義するものである入力信号処理装置としている。
【００１４】
請求項１０においては、請求項７に記載の入力信号処理装置において、前記平滑化されたコスト関数が、前記目的信号の時間的独立性を定義するものである入力信号処理装置としている。
【００１５】
請求項１１においては、請求項７に記載の入力信号処理装置において、
前記平滑化されたコスト関数が、前記目的信号の周波数的独立性を定義するものである入力信号処理装置としている。
請求項１２においては、請求項７乃至請求項１０の何れかに記載の入力信号処理装置において、分離信号間のコサイン距離を前記コスト関数として使用する入力信号処理装置としている。
【００１６】
【発明の実施の形態】
本発明においては、「発明が解決しようとする課題」の項で述べた問題点を解決するため、ＩＣＡによる分離が困難な周波数帯域を、目的信号の再構成の際に不要である帯域（以下、不要帯域と表記する）と見なし、この不要帯域を自動検出し、除去する手法を導入した。
【００１７】
初めに、図１０により従来行なわれてきた手法について説明する。例えば、信号源として、音信号をＫ個のマイクロホン(センサ)で受信することに加え、各音源から到来する、音信号同士が統計的に独立であることを利用することでマイクロホンと同じＫ個もしくはＫ個以下の音源を分離することができる。当初、ＩＣＡを用いた音源分離法は、各音源からの到来音の時間差が考慮されていなかったため、複数のマイクロホンを配列したマイクロホンアレーに適用することは困難であった。しかし近年では、時間差を考慮し、マイクロホンアレーを用いて複数の音信号を観測し、周波数領域にて混合過程の逆変換を求める手法が多数提案されている。
【００１８】
一般に、Ｌ個の複数音源から到来する音信号が線形に混合されてＫ個のマイクロホンにて観測されている場合、観測された音信号は、ある周波数ｆにおいて下記（数１）式のように記述することができる。
【００１９】
【数１】

ここで、添字_ｖｅｃはベクトルを示すものとし、Ｓ_ｖｅｃ(ｆ)は各音源から送出される音信号ベクトル、Ｘ_ｖｅｃ(ｆ)は受音点であるマイクロホンアレーで観測された観測信号ベクトル、Ａ_ｖｅｃ(ｆ)は各音源と受音点との空間的な音響系に関するベクトル表現された混合行列であり、それぞれ以下の（数２）式乃至（数４）式のように記述することができる。
【００２０】
【数２】

【００２１】
【数３】

【００２２】
【数４】

ここで[ ]^Ｔはベクトルの転置を表す。このとき、混合行列Ａ_ｖｅｃ(ｆ)が既知であれば、受音点での観測信号ベクトルＸ_ｖｅｃ(ｆ)を用いて、（数５）式
【００２３】
【数５】

ただし、( )⁻は行列の一般逆行列を表す
のようにＡ_ｖｅｃ(ｆ)の一般逆行列を求めることで音源から送出される音信号Ｓ_ｖｅｃ(ｆ)を計算することができる。しかし一般にＡ_ｖｅｃ(ｆ)は未知であり、Ｘ_ｖｅｃ(ｆ)だけを利用することで音信号Ｓ_ｖｅｃ(ｆ)を求めなければならない。
【００２４】
ＢＳＳ問題を解くためには、音信号Ｓ_ｖｅｃ(ｆ)が確率的に発生し、更に、Ｓ_ｖｅｃ(ｆ)の各成分が全て互いに独立であると仮定する。このとき観測信号Ｘ_ｖｅｃ(ｆ)は混合された信号であるためＸ_ｖｅｃ(ｆ)の各成分の分布は独立ではない。そこで、観測信号Ｘ_ｖｅｃ(ｆ)に含まれる独立な成分をＩＣＡによって探索することを考える。すなわち、観測信号Ｘ_ｖｅｃ(ｆ)を独立な成分に変換する行列Ｗ_ｖｅｃ(ｆ)(以下、逆混合行列)を計算し、観測信号Ｘ_ｖｅｃ(ｆ)に逆混合行列Ｗ_ｖｅｃ(ｆ)を適用することで、音源から送出される音信号Ｓ_ｖｅｃ(ｆ)に対して近似的な信号を求める。
【００２５】
ＩＣＡによる混合過程の逆変換を求める処理を図１０に模式的に示す。最初に、各マイクロホンＭＩＣにて観測された信号を適切な直交変換を用いて短時間フレーム分析を短時間離散フーリエ変換（ｓｔ-ＤＦＴ）により実時間周波数分析装置ＲＦＡを用いて行う。このとき、１つのマイクロホンＭＩＣ入力における特定の周波数ビンでの複素スペクトル値をプロットすることにより、それを時系列として考える。ここで、周波数ビンとは短時間離散フーリエ変換によって周波数変換された信号ベクトルにおける個別の副素成分を示す。同様に、他のマイクロホンＭＩＣ入力に対しても同じ操作を行う。これにより得られた、時間−周波数信号系列は、下記（数６）式のように記述できる。
【００２６】
【数６】

次に、逆混合行列Ｗ_ｖｅｃ(ｆ)を用いて信号分離を行う。この処理は以下の（数７）式のように示される。
【００２７】
【数７】

ここで、逆混合行列Ｗ_ｖｅｃ(ｆ)は、Ｌ個の音源からの時系列出力Ｙ_ｖｅｃ(ｆ，ｔ)が互いに独立になるように最適化される。これらの処理を全ての周波数ビンについて行う。最後に、分離した時系列出力Ｙ_ｖｅｃ(ｆ，ｔ)に逆直交変換を適用して、音源信号時間波形の再構成を行う。
【００２８】
図１は本発明における処理手順を示すフロー図である。以下、「従来の技術」の場合と同様に、複数のマイクロホンによる音源分離問題を例にして図により詳細に説明する。
【００２９】
以上、従来の方法に対し本発明においては、先ず、各マイクロホン１０＿１〜１０＿ｎにて集音され、検知過程２０で電気信号として検知され、帯域分割過程３０で狭帯域信号に分割された信号は、信号識別過程４０で短時間フレーム分析される。これにより得られた時間−周波数信号系列を上記の（数６）式で記述する。次に、ＩＣＡによって最適化された逆混合行列Ｗ_ｖｅｃ(ｆ)及び各帯域における抑圧定数Ｒ(ｆ)を用いて信号分離及び不要帯域除去を行う。この処理は以下の（数８）式のように示される。
【００３０】
【数８】

ここで、Ｙ_ｖｅｃ(ｆ，ｔ)は不要帯域除去が為された分離信号である。このとき、式(８)のＷ_ｖｅｃ(ｆ)は請求項１の一次減衰フィルタ５０に相当し、Ｒ(ｆ)は二次減衰フィルタ６０に対応している。図１において、修正過程７０は信号識別過程４０で得られた識別レベルをもとに二次減衰過程６０のパラメータ設定を行う過程である。
【００３１】
不要帯域の検出方法としては、ＩＣＡによる学習終了後に、分離信号間の独立性を評価するコスト関数を定義し、このコスト関数に基づいて不要帯域の決定を行う。本コスト関数については、例えば、分離信号間の高次相関値やcosine距離などを使用すればよい。ここで、cosine距離は多次元空間において定義される多次元ベクトルが成す角のコサイン値を示す。特にcosine距離は演算量も少なく効率的である。以下の（数９）式では、２音源の場合のcosine距離に基づくコスト関数Ｊ(ｆ)を示す。
【００３２】
【数９】

ここで記号< >_ｔは時間に関する平均をとることを表し、記号＊は複素共役を表す。
【００３３】
実際の応用に際しては、短時間フレーム分析における時間切り出し位置などに上記の値は左右されるため、周波数間において著しい不連続を生じることがある。図２の点線に、コスト関数Ｊ(ｆ)の周波数間不連続現象の例を示す。これを回避するため、一例として、（数９）式に示すコスト関数を、ある周波数帯域幅で移動平均をとることによって得られる平滑化されたコスト関数を使用することが考えられる。これは以下の（数１０）式で書くことができる。
【００３４】
【数１０】

ここでＢは平滑化幅を与えるパラメータである。この場合の例を図２において実線で示す。これにより得られた平滑化されたコスト関数Ｊ_ｓ(ｆ)は、分離された信号が独立なものであれば値は小さくなり、非独立なものであれば値は大きくなる。また、その最大値は１である。
【００３５】
よって、このコスト関数を利用することにより、従来は分離が困難であった不要帯域の検出及び除去を以下のように行うことができる。まず、０以上１以下の適当な閾値Ｊ_Ｔを決め、その閾値を超える平滑化されたコスト関数Ｊ_ｓ(ｆ)を全周波数帯域に渉り検出する。次に、その閾値を超える平滑化されたコスト関数Ｊ_ｓ(ｆ)を有する周波数帯域は不要帯域であると見なせるので、その周波数帯域の抑圧定数Ｒ(ｆ)を１以下の小さな値εに設定する。この抑圧定数Ｒ(ｆ)は以下の（数１１）式で与えられる。
【００３６】
【数１１】

（数１１）式により、事前に音源に関する情報を用いることなく、不要帯域の自動検出および除去が可能となり、従来の音源分離処理では困難であった周波数帯域成分の回復が可能となる。
【００３７】
（数１０）および（数１１）はあくまでも一例であり、本発明におけるコスト関数Ｊ(ｆ)の計算方法および抑圧定数Ｒ(ｆ)に対する決定方法の全てを表したものではない。例えば、（数１０）式では、移動平均の代わりに非線形フィルタを用いる方法や、（数９）式をそのまま用いる場合なども考えられる。また、（数１１）式では、εの値を一意に決定するのではなく、平滑されたコスト関数Ｊ_ｓ(ｆ)によって抽出された帯域を中心周波数とする帯域阻止フィルタを用いて周波数間の不連続現象を避けるなどの手法も考えられる。尚、本発明において提案した帯域抑圧手法を以下ではＳＢＥ（SubBand Elimination）と呼ぶことにする。
【００３８】
以下では、図３および図４を用いて、本発明による手法を用いた装置の構成について説明する。
図３において、センサ群１１０＿１乃至１１０＿ｎおよび検知手段１２０は、信号を受信して検知することに用いられる。これは図４のセンサ群２１０＿１乃至２２０＿ｎ、フィルタ２２０および、Ａ／Ｄ変換器２３０によって実現できる。センサ群１１０＿１乃至１１０＿ｎあるいは２１０＿１乃至２１０＿ｎとしては、光、音、振動、磁気変化、磁場変化、電気、電波のような波動信号を検知し、電気信号に変換する機能を有するものを複数個、空間的に異なる位置に配置して用いる。具体的には、光センサ、音センサ、マイクロホン、振動センサ、磁気センサ、電気センサ、アンテナ等に代表される波動を検知するセンサを単数、あるいは複数個用いる。フィルタ２２０としては、上記センサ群から得られた電気信号に含まれるノイズを除去することに用いられる。これは、其々のセンサによって検知された電気信号に対し、信号源の特性ではありえない成分の信号だけを通過させない帯域通過フィルタを用いればよく、従来から存在する電気的なフィルタ回路を用いることで実現できる。Ａ／Ｄ変換器２３０としては、信号源がもつ帯域の信号を正確に離散化するために十分なサンプリング周波数をもつ装置であれば良く、連続的な電気信号を離散的な情報信号に変換できるＡ／Ｄ変換器回路などを用いることで実現できる。
【００３９】
図３の帯域分割手段１３０では、検知された信号を直交変換系の関数を用いて、数学的に直交する空間に変換する。具体的には、離散フーリェ変換、Ｚ変換、ラプラス変換等の周波数変換関数を用いればよく、図４に示す演算装置２４０によって計算できる。演算装置２４０は一般的なコンピュータのＣＰＵ、ＭＰＵ、ＤＳＰ、ＦＰＧＡなどの主演算回路および回路群と、周辺回路である副演算回路、記憶回路を単数または複数個組み合わせることで構成される。計算された帯域信号の情報は図３の記憶手段１９０に記憶しておく。これは、図４の記憶手段２５０に対応するものであり、具体的には、キャッシュメモリ、メインメモリ、ディスクメモリ、コンパクトディスク、フラッシュメモリ、ＤＶＤ、テープ、フロッピー（登録商標）ディスク、光磁気ディスク、ＭＤ、ＤＡＴに代表される電気信号を記憶できる装置および媒体を用いることで実現できる。
【００４０】
図３の信号識別手段１４０では、各帯域において、分離フィルタと識別レベルを計算し、分割された信号から目的の信号を抽出ための演算を行う。これは図４の演算装置２４０および記憶装置２５０によって実現できる。図３の一次減衰手段１５０および二次減衰手段１６０は、入力された信号から目的の信号を抽出し、不要な信号を減衰させる処理を行う。これは、図４の演算装置２４０および記憶装置２５０によって実現できる。また、図３の修正手段１７０は、信号識別手段１４０において計算された識別レベルをもとに図３の二次減衰手段１６０のパラメータを環境に応じて適応的に更新するものである。これは、図４の演算装置２４０および記憶装置２５０によって実現できる。
【００４１】
以下では図５を用いて、本発明を実施した場合の音源分離処理の手順を説明する。
センサによって検知された観測信号(0bserved Signals；前記Ｘ_ｖｅｃ(ｆ，ｔ))は、図５のステップＳ１００に示されるように、ＩＣＡの処理によって目的の音源が分離される。具体的には、（数７）式で示したように、予め環境に適応して求められた逆混合行列Ｗ_ｖｅｃ(ｆ，ｔ)によって音源に関する分離信号Ｙ_ｖｅｃ(ｆ，ｔ)に変換される。このとき、分離信号Ｙ_ｖｅｃ(ｆ，ｔ)は（数７）式で示したように信号源と同じ数だけの信号を要素としている。これらの処理は、請求項１の一次減衰過程に対応している。この音源に関する分離信号Ｙ_ｖｅｃ(ｆ，ｔ)は図５の乗算部Ｍ１００に送られる。乗算部Ｍ１００は、請求項１の二次減衰過程に対応しており、この音源に関する分離信号Ｙ_ｖｅｃ(ｆ，ｔ)に、後に説明する請求項１の修正過程で計算された抑圧定数Ｒ(ｆ)を乗ずることで、最終的な分離信号を出力する。
【００４２】
図５のステップＳ１１０からステップＳ１３０までは，請求項１の二次減衰過程（図１の６０）を計算するための修正過程（図１の７０）における処理の手順を示している。ステップＳ１１０では、（数９）式を用いて各周波数のコスト関数Ｊ(ｆ)を計算する。更に、ステップＳ１２０では（数１０）式を用いて平滑化したコスト関数Ｊ_ｓ(ｆ)を求める。最後に、コスト関数に従って、ステップ１３０において抑圧定数Ｒ(ｆ)を決定する。
以上述べたように、本発明の手法により、二次減衰過程を環境に応じて動的かつ最適に決定することが出来るようになる。さらに、空間的にも、時間的にも独立性の高い信号を抽出するための二次減衰過程を与えることが出来るのみならず、周波数的に独立性の高い信号を抽出するための二次減衰過程を与えることもすべて適応的に出来るようになる。
【００４３】
以下では、本発明を適用した実施の一形態について例を用いて説明する。
図６は車室内に２本のマイクロホンＭＩＣを取り付け、運転者ＤＲＶの発話するコマンドに応じて機器操作を行う、車室内音声認識による機器操作に本発明を適用した例である。図６では、運転者ＤＲＶによる機器操作命令のための目的音源Ｓ７４０となる音声発話と、車両のエンジンルームで発生し不要音源Ｓ７３０となるエンジン音の２つの音源が存在し、前記２つの音源のうち、運転者の発話音声だけを抽出し、エンジン音は抑圧することを行う。図６のような車室内環境下での機器操作において、運転者の基本操作およびシステムの動作は以下の手順の流れで推移する。
手順１；音声認識装置Ｓ７２０を作動させ、認識語を待ち受ける状態に設定する。これは運転者ＤＲＶが設定する。
手順２；信号入力装置７１で雑音位置を推定し、一次減衰フィルタのフィルタ係数を更新する。
手順３；機器操作のための音声コマンド、すなわち目的音源Ｓ７４０を運転者ＤＲＶが発話する。
手順４；各マイクロホンＭＩＣが受音した信号は不要音源成分も含むため、信号入力装置７１で一次減衰フィルタを用いて目的音源Ｓ７４０が抽出される。
手順５；各マイクロホンＭＩＣの入力信号からコスト関数Ｒ(ｆ)の値が低い周波数ビンを抽出し、この周波数ビンの成分を減衰させる周波数成分減衰フィルタ(前記の二次減衰フィルタ／図３の１６０)を設計する。この動作は信号入力装置７１で行なわれる。
手順６；信号入力装置７１では、手順４で抽出された目的音源Ｓ７４０に手順５で更新した二次減衰フィルタを作用させ、目的音源Ｓ７４０が抽出困難な周波数成分を減衰させる。
手順７；手順６で得られた信号を音声認識装置７２に入力し目的音源Ｓ７２０の音声認識を行う。
手順８；手順７で得られた音声認識結果の内容に対応する機器操作信号を発生し、音声認識装置７２において機器操作の命令を発生する。
以上の手順を経て、車室内で音源を分離する実験を行った。
車室内に２本のマイクロホン構成したマイクロホンアレーＭＡを４ｃｍ間隔で配置し、運転席からの発話と車室内雑音とが混在した信号の中から、運転席からの発話を抽出したときの精度を、マイクロホンの雑音改善率（Noise Reduction Rate：以下ＮＲＲと記述)と、抽出した音声を音声認識に適用した場合の認識精度について計算した。
【００４４】
始めに、運転席および助手席からマイクロホンまでの車室内伝達特性を測定した。同様に、車室内雑音(エンジンのアイドリング音(eng)、３０km/h走行時の走行雑音（r30）を個別に収録した。このときの測定および収録条件は、サンプリング周波数１６ｋＨｚ、信号精度１６ｂｉｔとし、全ての信号には５．５kHzの低域通過フィルタによるフィルタリング処理を行っている。次に、防音室で収録した音響的な伝達歪と環境雑音が極めて少ない音声と、この車室内伝達特性に対し時間領域で畳込み演算を行い、車室内運転席で発話された音声を図７に示した２本のマイクロホンの位置で収音した信号（driver）と、助手席で発話された音声を同じく図７に示した２本のマイクロホンの位置で収音した信号（assist）とを作成した。更に、運転席から発話された雑音と他の車室内雑音が混在した音信号を作成するために、assist（driver+assist）、eng（driver+eng）、r30（driver+r30）の３種類の音信号を作成し、其々に本発明を適用したときの改善性能を評価した。
【００４５】
実験１:
前記３種類の音信号のＮＲＲを計算した。ＮＲＲは、出力側信号対雑音比（以下、出力ＳＮＲ）と入力側信号対雑音比出力ＳＮＲ（以下、入力ＳＮＲ）との差すなわち（出力ＳＮＲ−入力ＳＮＲ）で計算する。ただし、ここで信号対雑音比（ＳＮＲ）はすべてｄＢ表示しているものとする。以下、従来の方法を用いた場合すなわちＢＳＳを用いた場合と、本発明を適用した場合（ＢＳＳ＋ＳＢＥ）の前記３種類の音信号について運転席から発話された音声抽出処理を行った場合との比較を図８に示す。運転席からの発話と助手席からの発話とが混在した信号（assist）は、ＢＳＳだけでも１６dBもの雑音改善率（ＮＲＲ）が得られている。しかし、エンジン音（eng）や、走行雑音（r30）のように拡散性の雑音に関してはＢＳＳによるＮＲＲが２ｄＢ未満であるのに対し、本発明では１６ｄＢ以上の改善がみられる。これらのことから、本発明では従来のＢＳＳによる手法では改善し得なかった拡散性の雑音を、適応的に、大幅に改善できることがわかる。
【００４６】
実験２:
実験１で処理された分離信号を音声認識装置の入力として用い、音声認識の認識精度が改善していることを示す。
始めに、運転者の発話として、男女各２３名による計２００文の新聞記事読上げ音声に対して、実験１と同じ手順で３種類の音信号を作成した。音声認識装置としては、音声認識エンジンＪｕｌｉｕｓ（「日本語ディクテーション基本ソフトウェア（９９年度版）」音響学会誌、Ｖｏｌ．５７，Ｎｏ．３，ｐｐ．２１０−２１４，２００１）を用い、音響モデルとしてクリーン環境で学習した性別依存不特定話者のＰＴＭ（Phonetic Tied-Mixture）モデルを用意し、語彙数は２００００語とした。評価尺度は単語認識精度を用い、予備実験として、雑音を加えない状態で認識実験を行ったところ、８１．１％であった（実験用システムの最大単語認識精度）。本発明を適用後の音声認識率を図９に示す。図９にはassist, eng, r30の信号について、処理を行っていない信号（observed）、従来法を適用した信号（ＢＳＳ）、本発明を適用した信号(r30)の場合を示している。図９の結果からも判るように、いずれの場合においても本発明は従来法を上回っており、音声認識装置に適用しても効果が得られることが判る。
【００４７】
さらに、本発明を車室内で用いることにより従来法では為しえなかった２つの効果が得られる。
【００４８】
第１の効果は、車両の運転者の声質が運転者によって異なることに起因する発話帯域の違いに、本発明が対応できることが挙げられる。例えば、エンジンがアイドリング中で、２００Ｈｚ以下に中心周波数を持つ音成分および２００Ｈｚ以上に存在する前記中心周波数の倍音成分が不要な雑音として存在する車室内音場環境下で、運転者が音声を発生した場合を想定する。このとき、女性話者のようにホルマント周波数が高い音声が運転者の機器操作命令として発話された場合は、音声が発生していない低い周波数帯域において、そもそも存在するはずの２つの音源が一つしか存在せず、更に抽出した音声の成分が存在しないため、音声は抽出されずエンジン音による不要雑音も除去され難い。従来の方法では、このような帯域が含まれている場合、一次減衰フィルタだけで抽出され再構成された音声は、ＳＮＲの低い音声となってしまい、音声認識の精度も著しく低下する。このような、目的とする音源が存在しない周波数帯域においては、前記のコスト関数Ｒ(ｆ)の値は低くなることが知られている。
【００４９】
一方、本発明では二次減衰フィルタ（図３の１６０）が一次減衰フィルタ（図３の１５０）においてコスト関数Ｒ(ｆ)の値が低くなる周波数の帯域を減衰せしめる過程を有しているため、前記のような場合においては、コスト関数Ｒ(ｆ)が低くなる帯域の信号だけを選択的に減衰させることができる。すなわち、前記２つの音源の周波数特性が著しく異なる場合でも、抽出できない帯域を減衰させる最適な二次減衰フィルタを設計し、この二次減衰フィルタを用いて目的の音声を抽出できない帯域の成分を減衰させることができる。本例と全く同様な手法で、車両のエンジン回転数が上がり、エンジン音による雑音の主成分の帯域が高域にシフトしていった場合においても、同様の効果が得られる。
【００５０】
第２の効果は、上記の二次減衰フィルタを設計するコストが著しく小さいことが挙げられる。図６の環境を例にとり、本発明の設計にかかるコストについて説明する。
図６の車室内環境下で音声認識を行うためには、高いＳＮＲで音声を収音することが必要となる。本発明では、二次減衰フィルタを用いることで間題を解決しているが、仮に、従来法で考え得るフィルタ設計では、以下の手順が考えられる。
準備１；考え得る音源の特性を予め分析する。
準備２；音源の特性のデータを保存する。
実行１；任意の環境下で発生する音源の組み合わせに対し、適当なフィルタのデータを呼び出す(ユーザが選択、またはユーザ情報を予め登録する必要有り)。
実行２；呼び出されたデータから、不要な雑音だけ存在する帯域を検索する。
実行３；実行２で検索された帯域を除去するフィルタを設計して所望の二次減衰フィルタとする。
【００５１】
従来の方法では、準備１において独立した音源を分析する必要があり、分析したデータを保存しなければならない。このためには、事前に多くの車室内発生音源を予測しておく必要があるが、この作業の実現は困難である。仮に、実現できたとしても、一次減衰フィルタで信号を抽出した後、不要な雑音だけ存在する帯域を検索し、更に、検索された情報を基に二次減衰フィルタを設計する必要がある。
【００５２】
一方、本発明では、一次減衰フィルタのフィルタ作成に用いたコスト関数Ｒ(ｆ)の値を基に、二次減衰フィルタで減衰させる帯域を判定して二次減衰フィルタを設計している。このため車室内環境が変化し、一次減衰フィルタが更新された際に、その更新情報をそのまま用いて判定を行うことができる。すなわち、従来の方法における、準備１、準備２および実行１、実行２のステップが必要なくなり、従来法で必要となった音源の特性分析の結果を保存する手段も必要なくなる。このように、本発明を用いることにより、極めて低コストで二次減衰フィルタを設計することが可能となる。
【００５３】
尚、上記実施の形態は、本発明による実施の形態の一例を示したに過ぎず、本発明の適用範囲を限定するものではない。
【００５４】
【発明の効果】
以上述べたように、本発明によれば、一次減衰過程と二次減衰過程によって、一次減哀過程だけの手法と比較して高い精度で信号を抽出することができ、更に、二次減衰過程を環境に応じて動的かつ最適に決定することができるようになる。さらに、幾何空間的に独立性の高い信号を抽出し、時間的に独立性の高い信号を抽出し、さらに周波数的に独立性の高い信号を抽出することが出来るようにするための二次減衰過程を適応的に与えることができるようになる。
【００５５】
さらに本発明によれば、極めて簡単な手法で前記二次減衰過程を与えることができ、前記二次減衰過程を修正する修正過程にかかる演算コストを少なくすることができる。更に、事前に二次減衰過程を調整する必要も無いため、調整のためのコストも不要となる効果も得られる。
【図面の簡単な説明】
【図１】本発明における信号処理過程を示すフロー図。
【図２】本発明を適用した二次減衰フィルタのコスト関数の周波数特性図。
【図３】本発明の装置構成を示すブロック図。
【図４】本発明による装置の入力部分を示すブロック図。
【図５】本発明における信号分離処理のフロー図。
【図６】車室内音声認識実験に適用した場合のレイアウト図。
【図７】音源分離実験における音源とマイクロホンアレーの配置図。
【図８】音源分離実験によるＮＲＲ向上の比較図。
【図９】音源分離実験の効果を示す音声認識率の比較図。
【図１０】従来の音源分離法を説明するフロー図。
【符号の説明】
10_1〜10_n、110_1〜110_n、210_1〜210_n：センサアレー
２０：検知過程３０：帯域分割過程
４０：信号識別過程５０：一次減衰過程
６０：二次減衰過程７０：修正過程
７１：信号入力装置７２：音声認識装置
１２０：検知手段１３０：帯域分割手段
１４０：信号識別手段１５０：一次減衰手段
１６０：二次減衰手段１７０：修正手段
１８０：切替手段１９０、２５０：記憶手段
２２０：フィルタ２３０：Ａ／Ｄ変換器
２４０：演算装置ＤＲＶ：運転者
Ｍ１００：乗算器ＭＩＣ：マイクロホン
Ｓ１００：ＩＣＡによる音源分離
Ｓ１１０：コスト関数Ｊ(ｆ)の計算
Ｓ１２０：Ｊ(ｆ)の平滑化Ｓ１３０：抑圧定数Ｒ(ｆ)の計算
Ｓ７３０：不要音源Ｓ７４０：目的音源
ｓｔ−ＤＦＴ：離散フーリエ変換

Claims

複数のセンサによって検知できる複数の波動信号が混在している中から、目的とする少なくとも一つの波動信号である目的信号を放出している信号源の信号を分離する入力信号処理方法において、
前記各センサによって入力信号を電気信号として検知する検知過程と、
前記各センサによって検知された検知信号を狭帯域信号に分割する帯域分割過程と、
前記周波数帯域毎に分割された前記狭帯域信号に対して短時間フレーム分析を行い、時間−周波数信号系列を形成し、後記の二次減衰過程における減衰特性としての抑圧定数を算出するための識別レベルとなる音源分離された信号それぞれのレベルを求める信号識別過程と、
前記信号識別過程において得られた識別レベルをもとに、前記分離された信号間の高次相関値または cosine 距離により相互の独立性を評価し、独立性が高い場合は小さな値を、独立性が低い場合は大きな値をとるコスト関数を定義し、二次減衰過程における減衰特性としての前記抑圧定数の設定を行う修正過程と、
前記一次減衰過程出力信号と、前記修正過程出力とを乗算することにより不要帯域を除去し、該不要帯域除去により最終的な信号源分離処理を行う二次減衰過程と、
を有することを特徴とする入力信号処理方法。
請求項１に記載の入力信号処理方法において、
前記修正過程は、所定の周波数帯域幅で移動平均をとることにより平滑化されたコスト関数を生成し、かつ、該平滑化されたコスト関数を全周波数帯域に渉り検出し、
前記平滑化されたコスト関数が予め定められた閾値に対して大きい場合は不要帯域として抑圧定数を予め定められた小さな値とし、
前記平滑化されたコスト関数が前記予め定められた閾値に対して小さい場合は前記目的信号であるから前記抑圧定数には減衰を与えない値とする、
ことを特徴とする入力信号処理方法。
請求項２に記載の入力信号処理方法において、
前記平滑化されたコスト関数が、前記目的信号の空間的独立性を定義するものであること、を特徴とする入力信号処理方法。
請求項２に記載の入力信号処理方法において、
前記平滑化されたコスト関数が、前記目的信号の時間的独立性を定義するものであること、を特徴とする入力信号処理方法。
請求項２に記載の入力信号処理方法において、
前記平滑化されたコスト関数が、前記目的信号の周波数的独立性を定義するものであること、を特徴とする入力信号処理方法。
請求項１乃至請求項４の何れかに記載の入力信号処理方法において、
分離信号間のコサイン距離を前記コスト関数として使用すること、を特徴とする入力信号処理方法。
複数のセンサによって検知できる複数の波動信号が混在している中から、目的とする少なくとも一つの波動信号である目的信号を放出している信号源の信号を分離する入力信号処理装置において、
前記各センサによって入力信号を電気信号として検知する検知手段と、
前記各センサによって検知された検知信号を狭帯域信号に分割する帯域分割手段と、
前記周波数帯域毎に分割された前記信号に対して短時間フレーム分析を行い、時間−周波数信号系列を形成し、後記の二次減衰過程における減衰特性としての抑圧定数を算出するための識別レベルとなる音源分離された信号それぞれのレベルを求める信号識別手段と、
前記信号識別手段において得られた識別レベルをもとに、前記分離された信号間の高次相関値または cosine 距離により相互の独立性を評価し、独立性が高い場合は小さな値を、独立性が低い場合は大きな値をとるコスト関数を定義し、二次減衰手段における減衰特性としての前記抑圧定数の設定を行う修正手段と、
前記一次減衰手段出力信号と、前記修正手段出力とを乗算することにより不要帯域を除去し、該不要帯域除去により最終的な信号源分離処理を行う前記二次減衰手段と、
を有することを特徴とする入力信号処理装置。
請求項７に記載の入力信号処理装置において、
前記修正手段は、所定の周波数帯域幅で移動平均をとることにより平滑化されたコスト関数を生成し、かつ、該平滑されたコスト関数を全周波数帯域に渉り検出し、
前記平滑化されたコスト関数が予め定められた閾値に対して大きい場合は不要帯域として抑圧定数を予め定められた小さな値とし、
前記平滑化されたコスト関数が前記予め定められた閾値に対して小さい場合は前記目的信号であるから前記抑圧定数には減衰を与えない値とする、
ことを特徴とする入力信号処理装置。
請求項７に記載の入力信号処理装置において、
前記平滑化されたコスト関数は、前記目的信号の空間的独立性を定義するものであること、を特徴とする入力信号処理装置。
請求項７に記載の入力信号処理装置において、
前記平滑化されたコスト関数が、前記目的信号の時間的的独立性を定義するものであること、を特徴とする入力信号処理装置。
請求項７に記載の入力信号処理装置において、
前記平滑化されたコスト関数が、前記目的信号の周波数的独立性を定義するものであること、を特徴とする入力信号処理装置。
請求項７乃至請求項１０の何れかに記載の入力信号処理装置において、
分離信号間のコサイン距離を前記コスト関数として使用すること、を特徴とする入力信号処理装置。