JP3786038B2 - 入力信号処理方法および入力信号処理装置 - Google Patents
入力信号処理方法および入力信号処理装置 Download PDFInfo
- Publication number
- JP3786038B2 JP3786038B2 JP2002070573A JP2002070573A JP3786038B2 JP 3786038 B2 JP3786038 B2 JP 3786038B2 JP 2002070573 A JP2002070573 A JP 2002070573A JP 2002070573 A JP2002070573 A JP 2002070573A JP 3786038 B2 JP3786038 B2 JP 3786038B2
- Authority
- JP
- Japan
- Prior art keywords
- input signal
- signal
- signal processing
- cost function
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
【発明の属する技術分野】
本発明は、複数の信号源から発せられた各種信号が混在する状態の中から、必要とする信号を抽出する方法とその装置に係る。
【0002】
【従来の技術】
複数の信号が混在する状態で観測された場合、観測された信号だけを用いて源信号を同定する技術をBlind Source Separation(以下BSSと記述)と呼ぶ。近年では、独立成分分析(Independent Component Ana1ysis;以下ICAと記述)に基づく信号分離手法が主流である。
この信号分離手法は、複数のセンサからの複数の時系列入力信号に対して独立性の評価および逆混合行列の最適化を行なうもので、その方法としてはKullback-Leibler divergenceの最小化に基づく教師無し学習アルゴリズムや、2次または高次の相関を無相関化するアルゴリズムが提案されている(「アレー信号処理を用いたブラインド音源分離の基礎」Technica1 report of IEICE,EA2001‐7)。
【0003】
ICAによる信号分離手法は音信号処理だけではなく、例えば、移動体通信などで話が混線して到達した信号を、其々に分離したり、脳の内部の各所で生ずる信号を脳電計や脳磁計、fMRI(Functional Magnetic Resonance Imaging;磁気共鳴機能画像)などを用いて外部から測定した場合に、測定信号の中から目的の信号を分離抽出することなどに用いられている(「独立成分解析とは」Computer Today,p38−43,1998.9, No.87、「fMRI画像解析への応用」Computer Today,p60−67,2001.1,No.95)。
【0004】
【発明が解決しようとする課題】
以上述べたICAに基づく目的信号分離の処理における問題点としては、以下の各項が挙げられる。
1)信号源から送出される信号同士の統計的な独立性を利用するが、実環境では信号の伝達特性・背景ノイズ等によりその統計量を精度よく推定することが困難である。よって、分離精度が劣化する。
2)拡散性の信号源は、それを一信号源と見なすことが困難であることにより、分離が非常に困難となる。
3)特に上記のような拡散性の信号源と拡散性でない目的信号源とが混在する場合において、特定の周波数帯域に目的信号源の信号成分が存在せず、拡散性信号源の信号成分だけが存在すると、ICAによる目的信号分離処理結果である複数の分離された信号全てにおいて上記拡散性信号源の成分が混入する。
このように、特に拡散性の信号源から送出される信号を取り扱う際には、ICAに基づくマイクロホンアレーにおける目的信号源の信号分離性能が著しく劣化する。すなわち、ICAを用いても信号の分離が困難であった周波数帯域においては、目的とする信号源から送出される信号以外の成分が混入してしまう問題があった。
本発明においては、以上のような現状の信号分離法の問題点を解決し、拡散性のある音源を含む場合に対しても適用可能な新しい信号分離の手法を提供することを目的とする。
【0005】
【課題を解決するための手段】
上記目的を達成するために、本発明の請求項1においては複数のセンサによって検知できる複数の波動信号が混在している中から、目的とする少なくとも一つの波動信号である目的信号を放出している信号源の信号を分離する入力信号処理方法において、各センサによって入力信号を電気信号として検知する検知過程と、前記各センサによって検知された検知信号を狭帯域信号に分割する帯域分割過程と、前記周波数帯域毎に分割された前記狭帯域信号に対して短時間フレーム分析を行い、時間−周波数信号系列を形成し、後記の二次減衰過程における減衰特性としての抑圧定数を算出するための識別レベルとなる音源分離された信号それぞれのレベルを求める信号識別過程と、前記信号識別過程において得られた識別レベルをもとに、前記分離された信号間の高次相関値または cosine 距離により相互の独立性を評価し、独立性が高い場合は小さな値を、独立性が低い場合は大きな値をとるコスト関数を定義し、二次減衰過程における減衰特性としての前記抑圧定数の設定を行う修正過程と、前記一次減衰過程出力信号と、前記修正過程出力とを乗算することにより不要帯域を除去し、該不要帯域除去により最終的な信号絃分離処理を行う二次減衰過程と、を有する方法としている。
【0006】
請求項2においては、請求項1に記載の入力信号処理方法において、前記修正過程は、所定の周波数帯域幅で移動平均をとることにより平滑化されたコスト関数を生成し、かつ、該平滑化されたコスト関数を全周波数帯域に渉り検出し、前記平滑化されたコスト関数が予め定められた閾値に対して大きい場合は不要帯域として抑圧定数を予め定められた小さな値とし、前記平滑化されたコスト関数が前記予め定められた閾値に対して小さい場合は前記目的信号であるから前記抑圧定数には減衰を与えない値とする、入力信号処理方法としている。
【0007】
請求項3においては、請求項2に記載の入力信号処理方法において、前記平滑化されたコスト関数が、前記目的信号の時間的独立性を定義するものである入力信号処理方法としている。
【0008】
請求項4においては、請求項2に記載の入力信号処理方法において、前記平滑化されたコスト関数が、前記目的信号の時間的独立性を定義するものである入力信号処理方法としている。
【0009】
請求項5においては、請求項2に記載の入力信号処理方法において、前記平滑化されたコスト関数が、前記目的信号の周波数的独立性を定義するものである入力信号処理方法としている。
【0010】
請求項6においては、請求項1乃至請求項4の何れかに記載の入力信号処理方法において、分離信号間のコサイン距離を前記コスト関数として使用する入力信号処理方法としている。
【0011】
請求項7においては、複数のセンサによって検知できる複数の波動信号が混在している中から、目的とする少なくとも一つの波動信号である目的信号を放出している信号源の信号を分離する入力信号処理装置を基本としている。具体的には前記各センサによって入力信号を電気信号として検知する検知手段と、前記各センサによって検知された検知信号を狭帯域信号に分割する帯域分割手段と、前記周波数帯域毎に分割された前記信号に対して短時間フレーム分析を行い、時間−周波数信号系列を形成し、後記の二次減衰過程における減衰特性としての抑圧定数を算出するための識別レベルとなる音源分離された信号それぞれのレベルを求める信号識別手段と、前記信号識別手段において得られた識別レベルをもとに、前記分離された信号間の高次相関値または cosine 距離により相互の独立性を評価し、独立性が高い場合は小さな値を、独立性が低い場合は大きな値をとるコスト関数を定義し、二次減衰手段における減衰特性としての前記抑圧定数の設定を行う修正手段と、
前記一次減衰手段出力信号と、前記修正手段出力とを乗算することにより不要帯域を除去し、該不要帯域除去により最終的な信号源分離処理を行う前記二次減衰手段と、を有する構成の入力信号処理装置としている。
【0012】
請求項8においては、請求項7に記載の入力信号処理装置において、前記修正手段は、所定の周波数帯域幅で移動平均をとることにより平滑化されたコスト関数を生成し、かつ、該平滑されたコスト関数を全周波数帯域に渉り検出し、前記平滑化されたコスト関数が予め定められた閾値に対して大きい場合は不要帯域として抑圧定数を予め定められた小さな値とし、前記平滑化されたコスト関数が前記予め定められた閾値に対して小さい場合は前記目的信号であるから前記抑圧定数には減衰を与えない値とする、入力信号処理装置としている。
【0013】
請求項9においては、請求項7に記載の入力信号処理装置において、前記平滑化されたコスト関数は、前記目的信号の空間的独立性を定義するものである入力信号処理装置としている。
【0014】
請求項10においては、請求項7に記載の入力信号処理装置において、前記平滑化されたコスト関数が、前記目的信号の時間的独立性を定義するものである入力信号処理装置としている。
【0015】
請求項11においては、請求項7に記載の入力信号処理装置において、
前記平滑化されたコスト関数が、前記目的信号の周波数的独立性を定義するものである入力信号処理装置としている。
請求項12においては、請求項7乃至請求項10の何れかに記載の入力信号処理装置において、分離信号間のコサイン距離を前記コスト関数として使用する入力信号処理装置としている。
【0016】
【発明の実施の形態】
本発明においては、「発明が解決しようとする課題」の項で述べた問題点を解決するため、ICAによる分離が困難な周波数帯域を、目的信号の再構成の際に不要である帯域(以下、不要帯域と表記する)と見なし、この不要帯域を自動検出し、除去する手法を導入した。
【0017】
初めに、図10により従来行なわれてきた手法について説明する。例えば、信号源として、音信号をK個のマイクロホン(センサ)で受信することに加え、各音源から到来する、音信号同士が統計的に独立であることを利用することでマイクロホンと同じK個もしくはK個以下の音源を分離することができる。当初、ICAを用いた音源分離法は、各音源からの到来音の時間差が考慮されていなかったため、複数のマイクロホンを配列したマイクロホンアレーに適用することは困難であった。しかし近年では、時間差を考慮し、マイクロホンアレーを用いて複数の音信号を観測し、周波数領域にて混合過程の逆変換を求める手法が多数提案されている。
【0018】
一般に、L個の複数音源から到来する音信号が線形に混合されてK個のマイクロホンにて観測されている場合、観測された音信号は、ある周波数fにおいて下記(数1)式のように記述することができる。
【0019】
【数1】
ここで、添字vecはベクトルを示すものとし、Svec(f)は各音源から送出される音信号ベクトル、Xvec(f)は受音点であるマイクロホンアレーで観測された観測信号ベクトル、Avec(f)は各音源と受音点との空間的な音響系に関するベクトル表現された混合行列であり、それぞれ以下の(数2)式乃至(数4)式のように記述することができる。
【0020】
【数2】
【0021】
【数3】
【0022】
【数4】
ここで[ ]Tはベクトルの転置を表す。このとき、混合行列Avec(f)が既知であれば、受音点での観測信号ベクトルXvec(f)を用いて、(数5)式
【0023】
【数5】
ただし、( )−は行列の一般逆行列を表す
のようにAvec(f)の一般逆行列を求めることで音源から送出される音信号Svec(f)を計算することができる。しかし一般にAvec(f)は未知であり、Xvec(f)だけを利用することで音信号Svec(f)を求めなければならない。
【0024】
BSS問題を解くためには、音信号Svec(f)が確率的に発生し、更に、Svec(f)の各成分が全て互いに独立であると仮定する。このとき観測信号Xvec(f)は混合された信号であるためXvec(f)の各成分の分布は独立ではない。そこで、観測信号Xvec(f)に含まれる独立な成分をICAによって探索することを考える。すなわち、観測信号Xvec(f)を独立な成分に変換する行列Wvec(f)(以下、逆混合行列)を計算し、観測信号Xvec(f)に逆混合行列Wvec(f)を適用することで、音源から送出される音信号Svec(f)に対して近似的な信号を求める。
【0025】
ICAによる混合過程の逆変換を求める処理を図10に模式的に示す。最初に、各マイクロホンMICにて観測された信号を適切な直交変換を用いて短時間フレーム分析を短時間離散フーリエ変換(st-DFT)により実時間周波数分析装置RFAを用いて行う。このとき、1つのマイクロホンMIC入力における特定の周波数ビンでの複素スペクトル値をプロットすることにより、それを時系列として考える。ここで、周波数ビンとは短時間離散フーリエ変換によって周波数変換された信号ベクトルにおける個別の副素成分を示す。同様に、他のマイクロホンMIC入力に対しても同じ操作を行う。これにより得られた、時間−周波数信号系列は、下記(数6)式のように記述できる。
【0026】
【数6】
次に、逆混合行列Wvec(f)を用いて信号分離を行う。この処理は以下の(数7)式のように示される。
【0027】
【数7】
ここで、逆混合行列Wvec(f)は、L個の音源からの時系列出力Yvec(f,t)が互いに独立になるように最適化される。これらの処理を全ての周波数ビンについて行う。最後に、分離した時系列出力Yvec(f,t)に逆直交変換を適用して、音源信号時間波形の再構成を行う。
【0028】
図1は本発明における処理手順を示すフロー図である。以下、「従来の技術」の場合と同様に、複数のマイクロホンによる音源分離問題を例にして図により詳細に説明する。
【0029】
以上、従来の方法に対し本発明においては、先ず、各マイクロホン10_1〜10_nにて集音され、検知過程20で電気信号として検知され、帯域分割過程30で狭帯域信号に分割された信号は、信号識別過程40で短時間フレーム分析される。これにより得られた時間−周波数信号系列を上記の(数6)式で記述する。次に、ICAによって最適化された逆混合行列Wvec(f)及び各帯域における抑圧定数R(f)を用いて信号分離及び不要帯域除去を行う。この処理は以下の(数8)式のように示される。
【0030】
【数8】
ここで、Yvec(f,t)は不要帯域除去が為された分離信号である。このとき、式(8)のWvec(f)は請求項1の一次減衰フィルタ50に相当し、R(f)は二次減衰フィルタ60に対応している。図1において、修正過程70は信号識別過程40で得られた識別レベルをもとに二次減衰過程60のパラメータ設定を行う過程である。
【0031】
不要帯域の検出方法としては、ICAによる学習終了後に、分離信号間の独立性を評価するコスト関数を定義し、このコスト関数に基づいて不要帯域の決定を行う。本コスト関数については、例えば、分離信号間の高次相関値やcosine距離などを使用すればよい。ここで、cosine距離は多次元空間において定義される多次元ベクトルが成す角のコサイン値を示す。特にcosine距離は演算量も少なく効率的である。以下の(数9)式では、2音源の場合のcosine距離に基づくコスト関数J(f)を示す。
【0032】
【数9】
ここで記号< >tは時間に関する平均をとることを表し、記号*は複素共役を表す。
【0033】
実際の応用に際しては、短時間フレーム分析における時間切り出し位置などに上記の値は左右されるため、周波数間において著しい不連続を生じることがある。図2の点線に、コスト関数J(f)の周波数間不連続現象の例を示す。これを回避するため、一例として、(数9)式に示すコスト関数を、ある周波数帯域幅で移動平均をとることによって得られる平滑化されたコスト関数を使用することが考えられる。これは以下の(数10)式で書くことができる。
【0034】
【数10】
ここでBは平滑化幅を与えるパラメータである。この場合の例を図2において実線で示す。これにより得られた平滑化されたコスト関数Js(f)は、分離された信号が独立なものであれば値は小さくなり、非独立なものであれば値は大きくなる。また、その最大値は1である。
【0035】
よって、このコスト関数を利用することにより、従来は分離が困難であった不要帯域の検出及び除去を以下のように行うことができる。まず、0以上1以下の適当な閾値JTを決め、その閾値を超える平滑化されたコスト関数Js(f)を全周波数帯域に渉り検出する。次に、その閾値を超える平滑化されたコスト関数Js(f)を有する周波数帯域は不要帯域であると見なせるので、その周波数帯域の抑圧定数R(f)を1以下の小さな値εに設定する。この抑圧定数R(f)は以下の(数11)式で与えられる。
【0036】
【数11】
(数11)式により、事前に音源に関する情報を用いることなく、不要帯域の自動検出および除去が可能となり、従来の音源分離処理では困難であった周波数帯域成分の回復が可能となる。
【0037】
(数10)および(数11)はあくまでも一例であり、本発明におけるコスト関数J(f)の計算方法および抑圧定数R(f)に対する決定方法の全てを表したものではない。例えば、(数10)式では、移動平均の代わりに非線形フィルタを用いる方法や、(数9)式をそのまま用いる場合なども考えられる。また、(数11)式では、εの値を一意に決定するのではなく、平滑されたコスト関数Js(f)によって抽出された帯域を中心周波数とする帯域阻止フィルタを用いて周波数間の不連続現象を避けるなどの手法も考えられる。尚、本発明において提案した帯域抑圧手法を以下ではSBE(SubBand Elimination)と呼ぶことにする。
【0038】
以下では、図3および図4を用いて、本発明による手法を用いた装置の構成について説明する。
図3において、センサ群110_1乃至110_nおよび検知手段120は、信号を受信して検知することに用いられる。これは図4のセンサ群210_1乃至220_n、フィルタ220および、A/D変換器230によって実現できる。センサ群110_1乃至110_nあるいは210_1乃至210_nとしては、光、音、振動、磁気変化、磁場変化、電気、電波のような波動信号を検知し、電気信号に変換する機能を有するものを複数個、空間的に異なる位置に配置して用いる。具体的には、光センサ、音センサ、マイクロホン、振動センサ、磁気センサ、電気センサ、アンテナ等に代表される波動を検知するセンサを単数、あるいは複数個用いる。フィルタ220としては、上記センサ群から得られた電気信号に含まれるノイズを除去することに用いられる。これは、其々のセンサによって検知された電気信号に対し、信号源の特性ではありえない成分の信号だけを通過させない帯域通過フィルタを用いればよく、従来から存在する電気的なフィルタ回路を用いることで実現できる。A/D変換器230としては、信号源がもつ帯域の信号を正確に離散化するために十分なサンプリング周波数をもつ装置であれば良く、連続的な電気信号を離散的な情報信号に変換できるA/D変換器回路などを用いることで実現できる。
【0039】
図3の帯域分割手段130では、検知された信号を直交変換系の関数を用いて、数学的に直交する空間に変換する。具体的には、離散フーリェ変換、Z変換、ラプラス変換等の周波数変換関数を用いればよく、図4に示す演算装置240によって計算できる。演算装置240は一般的なコンピュータのCPU、MPU、DSP、FPGAなどの主演算回路および回路群と、周辺回路である副演算回路、記憶回路を単数または複数個組み合わせることで構成される。計算された帯域信号の情報は図3の記憶手段190に記憶しておく。これは、図4の記憶手段250に対応するものであり、具体的には、キャッシュメモリ、メインメモリ、ディスクメモリ、コンパクトディスク、フラッシュメモリ、DVD、テープ、フロッピー(登録商標)ディスク、光磁気ディスク、MD、DATに代表される電気信号を記憶できる装置および媒体を用いることで実現できる。
【0040】
図3の信号識別手段140では、各帯域において、分離フィルタと識別レベルを計算し、分割された信号から目的の信号を抽出ための演算を行う。これは図4の演算装置240および記憶装置250によって実現できる。図3の一次減衰手段150および二次減衰手段160は、入力された信号から目的の信号を抽出し、不要な信号を減衰させる処理を行う。これは、図4の演算装置240および記憶装置250によって実現できる。また、図3の修正手段170は、信号識別手段140において計算された識別レベルをもとに図3の二次減衰手段160のパラメータを環境に応じて適応的に更新するものである。これは、図4の演算装置240および記憶装置250によって実現できる。
【0041】
以下では図5を用いて、本発明を実施した場合の音源分離処理の手順を説明する。
センサによって検知された観測信号(0bserved Signals;前記Xvec(f,t))は、図5のステップS100に示されるように、ICAの処理によって目的の音源が分離される。具体的には、(数7)式で示したように、予め環境に適応して求められた逆混合行列Wvec(f,t)によって音源に関する分離信号Yvec(f,t)に変換される。このとき、分離信号Yvec(f,t)は(数7)式で示したように信号源と同じ数だけの信号を要素としている。これらの処理は、請求項1の一次減衰過程に対応している。この音源に関する分離信号Yvec(f,t)は図5の乗算部M100に送られる。乗算部M100は、請求項1の二次減衰過程に対応しており、この音源に関する分離信号Yvec(f,t)に、後に説明する請求項1の修正過程で計算された抑圧定数R(f)を乗ずることで、最終的な分離信号を出力する。
【0042】
図5のステップS110からステップS130までは,請求項1の二次減衰過程(図1の60)を計算するための修正過程(図1の70)における処理の手順を示している。ステップS110では、(数9)式を用いて各周波数のコスト関数J(f)を計算する。更に、ステップS120では(数10)式を用いて平滑化したコスト関数Js(f)を求める。最後に、コスト関数に従って、ステップ130において抑圧定数R(f)を決定する。
以上述べたように、本発明の手法により、二次減衰過程を環境に応じて動的かつ最適に決定することが出来るようになる。さらに、空間的にも、時間的にも独立性の高い信号を抽出するための二次減衰過程を与えることが出来るのみならず、周波数的に独立性の高い信号を抽出するための二次減衰過程を与えることもすべて適応的に出来るようになる。
【0043】
以下では、本発明を適用した実施の一形態について例を用いて説明する。
図6は車室内に2本のマイクロホンMICを取り付け、運転者DRVの発話するコマンドに応じて機器操作を行う、車室内音声認識による機器操作に本発明を適用した例である。図6では、運転者DRVによる機器操作命令のための目的音源S740となる音声発話と、車両のエンジンルームで発生し不要音源S730となるエンジン音の2つの音源が存在し、前記2つの音源のうち、運転者の発話音声だけを抽出し、エンジン音は抑圧することを行う。図6のような車室内環境下での機器操作において、運転者の基本操作およびシステムの動作は以下の手順の流れで推移する。
手順1;音声認識装置S720を作動させ、認識語を待ち受ける状態に設定する。これは運転者DRVが設定する。
手順2;信号入力装置71で雑音位置を推定し、一次減衰フィルタのフィルタ係数を更新する。
手順3;機器操作のための音声コマンド、すなわち目的音源S740を運転者DRVが発話する。
手順4;各マイクロホンMICが受音した信号は不要音源成分も含むため、信号入力装置71で一次減衰フィルタを用いて目的音源S740が抽出される。
手順5;各マイクロホンMICの入力信号からコスト関数R(f)の値が低い周波数ビンを抽出し、この周波数ビンの成分を減衰させる周波数成分減衰フィルタ(前記の二次減衰フィルタ/図3の160)を設計する。この動作は信号入力装置71で行なわれる。
手順6;信号入力装置71では、手順4で抽出された目的音源S740に手順5で更新した二次減衰フィルタを作用させ、目的音源S740が抽出困難な周波数成分を減衰させる。
手順7;手順6で得られた信号を音声認識装置72に入力し目的音源S720の音声認識を行う。
手順8;手順7で得られた音声認識結果の内容に対応する機器操作信号を発生し、音声認識装置72において機器操作の命令を発生する。
以上の手順を経て、車室内で音源を分離する実験を行った。
車室内に2本のマイクロホン構成したマイクロホンアレーMAを4cm間隔で配置し、運転席からの発話と車室内雑音とが混在した信号の中から、運転席からの発話を抽出したときの精度を、マイクロホンの雑音改善率(Noise Reduction Rate:以下NRRと記述)と、抽出した音声を音声認識に適用した場合の認識精度について計算した。
【0044】
始めに、運転席および助手席からマイクロホンまでの車室内伝達特性を測定した。同様に、車室内雑音(エンジンのアイドリング音(eng)、30km/h走行時の走行雑音(r30)を個別に収録した。このときの測定および収録条件は、サンプリング周波数16kHz、信号精度16bitとし、全ての信号には5.5kHzの低域通過フィルタによるフィルタリング処理を行っている。次に、防音室で収録した音響的な伝達歪と環境雑音が極めて少ない音声と、この車室内伝達特性に対し時間領域で畳込み演算を行い、車室内運転席で発話された音声を図7に示した2本のマイクロホンの位置で収音した信号(driver)と、助手席で発話された音声を同じく図7に示した2本のマイクロホンの位置で収音した信号(assist)とを作成した。更に、運転席から発話された雑音と他の車室内雑音が混在した音信号を作成するために、assist(driver+assist)、eng(driver+eng)、r30(driver+r30)の3種類の音信号を作成し、其々に本発明を適用したときの改善性能を評価した。
【0045】
実験1:
前記3種類の音信号のNRRを計算した。NRRは、出力側信号対雑音比(以下、出力SNR)と入力側信号対雑音比出力SNR(以下、入力SNR)との差すなわち(出力SNR−入力SNR)で計算する。ただし、ここで信号対雑音比(SNR)はすべてdB表示しているものとする。以下、従来の方法を用いた場合すなわちBSSを用いた場合と、本発明を適用した場合(BSS+SBE)の前記3種類の音信号について運転席から発話された音声抽出処理を行った場合との比較を図8に示す。運転席からの発話と助手席からの発話とが混在した信号(assist)は、BSSだけでも16dBもの雑音改善率(NRR)が得られている。しかし、エンジン音(eng)や、走行雑音(r30)のように拡散性の雑音に関してはBSSによるNRRが2dB未満であるのに対し、本発明では16dB以上の改善がみられる。これらのことから、本発明では従来のBSSによる手法では改善し得なかった拡散性の雑音を、適応的に、大幅に改善できることがわかる。
【0046】
実験2:
実験1で処理された分離信号を音声認識装置の入力として用い、音声認識の認識精度が改善していることを示す。
始めに、運転者の発話として、男女各23名による計200文の新聞記事読上げ音声に対して、実験1と同じ手順で3種類の音信号を作成した。音声認識装置としては、音声認識エンジンJulius(「日本語ディクテーション基本ソフトウェア(99年度版)」音響学会誌、Vol.57,No.3,pp.210−214,2001)を用い、音響モデルとしてクリーン環境で学習した性別依存不特定話者のPTM(Phonetic Tied-Mixture)モデルを用意し、語彙数は20000語とした。評価尺度は単語認識精度を用い、予備実験として、雑音を加えない状態で認識実験を行ったところ、81.1%であった(実験用システムの最大単語認識精度)。本発明を適用後の音声認識率を図9に示す。図9にはassist, eng, r30の信号について、処理を行っていない信号(observed)、従来法を適用した信号(BSS)、本発明を適用した信号(r30)の場合を示している。図9の結果からも判るように、いずれの場合においても本発明は従来法を上回っており、音声認識装置に適用しても効果が得られることが判る。
【0047】
さらに、本発明を車室内で用いることにより従来法では為しえなかった2つの効果が得られる。
【0048】
第1の効果は、車両の運転者の声質が運転者によって異なることに起因する発話帯域の違いに、本発明が対応できることが挙げられる。例えば、エンジンがアイドリング中で、200Hz以下に中心周波数を持つ音成分および200Hz以上に存在する前記中心周波数の倍音成分が不要な雑音として存在する車室内音場環境下で、運転者が音声を発生した場合を想定する。このとき、女性話者のようにホルマント周波数が高い音声が運転者の機器操作命令として発話された場合は、音声が発生していない低い周波数帯域において、そもそも存在するはずの2つの音源が一つしか存在せず、更に抽出した音声の成分が存在しないため、音声は抽出されずエンジン音による不要雑音も除去され難い。従来の方法では、このような帯域が含まれている場合、一次減衰フィルタだけで抽出され再構成された音声は、SNRの低い音声となってしまい、音声認識の精度も著しく低下する。このような、目的とする音源が存在しない周波数帯域においては、前記のコスト関数R(f)の値は低くなることが知られている。
【0049】
一方、本発明では二次減衰フィルタ(図3の160)が一次減衰フィルタ(図3の150)においてコスト関数R(f)の値が低くなる周波数の帯域を減衰せしめる過程を有しているため、前記のような場合においては、コスト関数R(f)が低くなる帯域の信号だけを選択的に減衰させることができる。すなわち、前記2つの音源の周波数特性が著しく異なる場合でも、抽出できない帯域を減衰させる最適な二次減衰フィルタを設計し、この二次減衰フィルタを用いて目的の音声を抽出できない帯域の成分を減衰させることができる。本例と全く同様な手法で、車両のエンジン回転数が上がり、エンジン音による雑音の主成分の帯域が高域にシフトしていった場合においても、同様の効果が得られる。
【0050】
第2の効果は、上記の二次減衰フィルタを設計するコストが著しく小さいことが挙げられる。図6の環境を例にとり、本発明の設計にかかるコストについて説明する。
図6の車室内環境下で音声認識を行うためには、高いSNRで音声を収音することが必要となる。本発明では、二次減衰フィルタを用いることで間題を解決しているが、仮に、従来法で考え得るフィルタ設計では、以下の手順が考えられる。
準備1;考え得る音源の特性を予め分析する。
準備2;音源の特性のデータを保存する。
実行1;任意の環境下で発生する音源の組み合わせに対し、適当なフィルタのデータを呼び出す(ユーザが選択、またはユーザ情報を予め登録する必要有り)。
実行2;呼び出されたデータから、不要な雑音だけ存在する帯域を検索する。
実行3;実行2で検索された帯域を除去するフィルタを設計して所望の二次減衰フィルタとする。
【0051】
従来の方法では、準備1において独立した音源を分析する必要があり、分析したデータを保存しなければならない。このためには、事前に多くの車室内発生音源を予測しておく必要があるが、この作業の実現は困難である。仮に、実現できたとしても、一次減衰フィルタで信号を抽出した後、不要な雑音だけ存在する帯域を検索し、更に、検索された情報を基に二次減衰フィルタを設計する必要がある。
【0052】
一方、本発明では、一次減衰フィルタのフィルタ作成に用いたコスト関数R(f)の値を基に、二次減衰フィルタで減衰させる帯域を判定して二次減衰フィルタを設計している。このため車室内環境が変化し、一次減衰フィルタが更新された際に、その更新情報をそのまま用いて判定を行うことができる。すなわち、従来の方法における、準備1、準備2および実行1、実行2のステップが必要なくなり、従来法で必要となった音源の特性分析の結果を保存する手段も必要なくなる。このように、本発明を用いることにより、極めて低コストで二次減衰フィルタを設計することが可能となる。
【0053】
尚、上記実施の形態は、本発明による実施の形態の一例を示したに過ぎず、本発明の適用範囲を限定するものではない。
【0054】
【発明の効果】
以上述べたように、本発明によれば、一次減衰過程と二次減衰過程によって、一次減哀過程だけの手法と比較して高い精度で信号を抽出することができ、更に、二次減衰過程を環境に応じて動的かつ最適に決定することができるようになる。さらに、幾何空間的に独立性の高い信号を抽出し、時間的に独立性の高い信号を抽出し、さらに周波数的に独立性の高い信号を抽出することが出来るようにするための二次減衰過程を適応的に与えることができるようになる。
【0055】
さらに本発明によれば、極めて簡単な手法で前記二次減衰過程を与えることができ、前記二次減衰過程を修正する修正過程にかかる演算コストを少なくすることができる。更に、事前に二次減衰過程を調整する必要も無いため、調整のためのコストも不要となる効果も得られる。
【図面の簡単な説明】
【図1】本発明における信号処理過程を示すフロー図。
【図2】本発明を適用した二次減衰フィルタのコスト関数の周波数特性図。
【図3】本発明の装置構成を示すブロック図。
【図4】本発明による装置の入力部分を示すブロック図。
【図5】本発明における信号分離処理のフロー図。
【図6】車室内音声認識実験に適用した場合のレイアウト図。
【図7】音源分離実験における音源とマイクロホンアレーの配置図。
【図8】音源分離実験によるNRR向上の比較図。
【図9】音源分離実験の効果を示す音声認識率の比較図。
【図10】従来の音源分離法を説明するフロー図。
【符号の説明】
10_1〜10_n、110_1〜110_n、210_1〜210_n:センサアレー
20:検知過程 30:帯域分割過程
40:信号識別過程 50:一次減衰過程
60:二次減衰過程 70:修正過程
71:信号入力装置 72:音声認識装置
120:検知手段 130:帯域分割手段
140:信号識別手段 150:一次減衰手段
160:二次減衰手段 170:修正手段
180:切替手段 190、250:記憶手段
220:フィルタ 230:A/D変換器
240:演算装置 DRV:運転者
M100:乗算器 MIC:マイクロホン
S100:ICAによる音源分離
S110:コスト関数J(f)の計算
S120:J(f)の平滑化 S130:抑圧定数R(f)の計算
S730:不要音源 S740:目的音源
st−DFT:離散フーリエ変換
Claims (12)
- 複数のセンサによって検知できる複数の波動信号が混在している中から、目的とする少なくとも一つの波動信号である目的信号を放出している信号源の信号を分離する入力信号処理方法において、
前記各センサによって入力信号を電気信号として検知する検知過程と、
前記各センサによって検知された検知信号を狭帯域信号に分割する帯域分割過程と、
前記周波数帯域毎に分割された前記狭帯域信号に対して短時間フレーム分析を行い、時間−周波数信号系列を形成し、後記の二次減衰過程における減衰特性としての抑圧定数を算出するための識別レベルとなる音源分離された信号それぞれのレベルを求める信号識別過程と、
前記信号識別過程において得られた識別レベルをもとに、前記分離された信号間の高次相関値または cosine 距離により相互の独立性を評価し、独立性が高い場合は小さな値を、独立性が低い場合は大きな値をとるコスト関数を定義し、二次減衰過程における減衰特性としての前記抑圧定数の設定を行う修正過程と、
前記一次減衰過程出力信号と、前記修正過程出力とを乗算することにより不要帯域を除去し、該不要帯域除去により最終的な信号源分離処理を行う二次減衰過程と、
を有することを特徴とする入力信号処理方法。 - 請求項1に記載の入力信号処理方法において、
前記修正過程は、所定の周波数帯域幅で移動平均をとることにより平滑化されたコスト関数を生成し、かつ、該平滑化されたコスト関数を全周波数帯域に渉り検出し、
前記平滑化されたコスト関数が予め定められた閾値に対して大きい場合は不要帯域として抑圧定数を予め定められた小さな値とし、
前記平滑化されたコスト関数が前記予め定められた閾値に対して小さい場合は前記目的信号であるから前記抑圧定数には減衰を与えない値とする、
ことを特徴とする入力信号処理方法。 - 請求項2に記載の入力信号処理方法において、
前記平滑化されたコスト関数が、前記目的信号の空間的独立性を定義するものであること、を特徴とする入力信号処理方法。 - 請求項2に記載の入力信号処理方法において、
前記平滑化されたコスト関数が、前記目的信号の時間的独立性を定義するものであること、を特徴とする入力信号処理方法。 - 請求項2に記載の入力信号処理方法において、
前記平滑化されたコスト関数が、前記目的信号の周波数的独立性を定義するものであること、を特徴とする入力信号処理方法。 - 請求項1乃至請求項4の何れかに記載の入力信号処理方法において、
分離信号間のコサイン距離を前記コスト関数として使用すること、を特徴とする入力信号処理方法。 - 複数のセンサによって検知できる複数の波動信号が混在している中から、目的とする少なくとも一つの波動信号である目的信号を放出している信号源の信号を分離する入力信号処理装置において、
前記各センサによって入力信号を電気信号として検知する検知手段と、
前記各センサによって検知された検知信号を狭帯域信号に分割する帯域分割手段と、
前記周波数帯域毎に分割された前記信号に対して短時間フレーム分析を行い、時間−周波数信号系列を形成し、後記の二次減衰過程における減衰特性としての抑圧定数を算出するための識別レベルとなる音源分離された信号それぞれのレベルを求める信号識別手段と、
前記信号識別手段において得られた識別レベルをもとに、前記分離された信号間の高次相関値または cosine 距離により相互の独立性を評価し、独立性が高い場合は小さな値を、独立性が低い場合は大きな値をとるコスト関数を定義し、二次減衰手段における減衰特性としての前記抑圧定数の設定を行う修正手段と、
前記一次減衰手段出力信号と、前記修正手段出力とを乗算することにより不要帯域を除去し、該不要帯域除去により最終的な信号源分離処理を行う前記二次減衰手段と、
を有することを特徴とする入力信号処理装置。 - 請求項7に記載の入力信号処理装置において、
前記修正手段は、所定の周波数帯域幅で移動平均をとることにより平滑化されたコスト関数を生成し、かつ、該平滑されたコスト関数を全周波数帯域に渉り検出し、
前記平滑化されたコスト関数が予め定められた閾値に対して大きい場合は不要帯域として抑圧定数を予め定められた小さな値とし、
前記平滑化されたコスト関数が前記予め定められた閾値に対して小さい場合は前記目的信号であるから前記抑圧定数には減衰を与えない値とする、
ことを特徴とする入力信号処理装置。 - 請求項7に記載の入力信号処理装置において、
前記平滑化されたコスト関数は、前記目的信号の空間的独立性を定義するものであること、を特徴とする入力信号処理装置。 - 請求項7に記載の入力信号処理装置において、
前記平滑化されたコスト関数が、前記目的信号の時間的的独立性を定義するものであること、を特徴とする入力信号処理装置。 - 請求項7に記載の入力信号処理装置において、
前記平滑化されたコスト関数が、前記目的信号の周波数的独立性を定義するものであること、を特徴とする入力信号処理装置。 - 請求項7乃至請求項10の何れかに記載の入力信号処理装置において、
分離信号間のコサイン距離を前記コスト関数として使用すること、を特徴とする入力信号処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002070573A JP3786038B2 (ja) | 2002-03-14 | 2002-03-14 | 入力信号処理方法および入力信号処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002070573A JP3786038B2 (ja) | 2002-03-14 | 2002-03-14 | 入力信号処理方法および入力信号処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003271166A JP2003271166A (ja) | 2003-09-25 |
JP3786038B2 true JP3786038B2 (ja) | 2006-06-14 |
Family
ID=29201100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002070573A Expired - Fee Related JP3786038B2 (ja) | 2002-03-14 | 2002-03-14 | 入力信号処理方法および入力信号処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3786038B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4274419B2 (ja) * | 2003-12-09 | 2009-06-10 | 独立行政法人産業技術総合研究所 | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム |
JP4274418B2 (ja) * | 2003-12-09 | 2009-06-10 | 独立行政法人産業技術総合研究所 | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム |
JP4272107B2 (ja) * | 2004-05-13 | 2009-06-03 | 株式会社フジテレビジョン | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム |
JP2006084928A (ja) * | 2004-09-17 | 2006-03-30 | Nissan Motor Co Ltd | 音声入力装置 |
JP4529611B2 (ja) * | 2004-09-17 | 2010-08-25 | 日産自動車株式会社 | 音声入力装置 |
JP4534883B2 (ja) * | 2005-07-11 | 2010-09-01 | カシオ計算機株式会社 | 楽音制御装置および楽音制御処理のプログラム |
JP4952979B2 (ja) * | 2006-04-27 | 2012-06-13 | 独立行政法人理化学研究所 | 信号分離装置、信号分離方法、ならびに、プログラム |
EP2560164A3 (en) * | 2007-06-27 | 2013-04-17 | Nec Corporation | Signal control device, its system, method, and program |
WO2012105385A1 (ja) * | 2011-02-01 | 2012-08-09 | 日本電気株式会社 | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム |
JP5994639B2 (ja) * | 2011-02-01 | 2016-09-21 | 日本電気株式会社 | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム |
-
2002
- 2002-03-14 JP JP2002070573A patent/JP3786038B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003271166A (ja) | 2003-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6173258B1 (en) | Method for reducing noise distortions in a speech recognition system | |
JP5528538B2 (ja) | 雑音抑圧装置 | |
JP5127754B2 (ja) | 信号処理装置 | |
US20160284346A1 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
US20200372925A1 (en) | Method and device of denoising voice signal | |
Xiao et al. | Normalization of the speech modulation spectra for robust speech recognition | |
JP2011530091A (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
WO2016010624A1 (en) | Wind noise reduction for audio reception | |
JP3786038B2 (ja) | 入力信号処理方法および入力信号処理装置 | |
KR101581885B1 (ko) | 복소 스펙트럼 잡음 제거 장치 및 방법 | |
CN110556125A (zh) | 基于语音信号的特征提取方法、设备及计算机存储介质 | |
CN110970044B (zh) | 一种面向语音识别的语音增强方法 | |
KR20070050694A (ko) | 멀티채널 음성신호의 잡음제거 방법 및 장치 | |
TWI767696B (zh) | 自我語音抑制裝置及方法 | |
JP5443547B2 (ja) | 信号処理装置 | |
JP2836271B2 (ja) | 雑音除去装置 | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
JP4529611B2 (ja) | 音声入力装置 | |
Flynn et al. | Combined speech enhancement and auditory modelling for robust distributed speech recognition | |
JP4533126B2 (ja) | 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
Miyazaki et al. | Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction | |
EP2063420A1 (en) | Method and assembly to enhance the intelligibility of speech | |
Bolisetty et al. | Speech enhancement using modified wiener filter based MMSE and speech presence probability estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050926 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060313 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090331 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100331 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100331 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110331 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110331 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120331 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130331 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130331 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |