JP2006084928A

JP2006084928A - 音声入力装置

Info

Publication number: JP2006084928A
Application number: JP2004271183A
Authority: JP
Inventors: Mitsunobu Kaminuma; 充伸神沼; Daisuke Saito; 大介斎藤
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-09-17
Filing date: 2004-09-17
Publication date: 2006-03-30

Abstract

【課題】一般的な周波数領域ＩＣＡに適用するＳＢＥと比較して少ない計算量で済み、拡散性の雑音を除去できる音声入力装置を提供すること。
【解決手段】目的音声と非目的音とが混在する音響をマイクロフォン10-1〜10-nで検知することによって目的音声信号と非目的音信号とが混在する音響信号を取得し、該音響信号から少なくとも一つの該目的音声信号を分離する音声信号分離フィルタを学習の繰り返しによって取得する独立成分解析法を実行する音声入力装置において、前記目的音声信号の周波数帯域を通過周波数帯域とする前置フィルタを内容とする減衰過程１(40)を通過した音響信号をフィルタ学習過程50に用いることを特徴とする音声入力装置を構成する。
【選択図】図１

Description

本発明は音声入力装置に関する。

近年、車室内における音声入力系は、音声認識による車載機器操作及びハンドフリー電話などに広く用いられている。これらの技術の実現を阻害する要因として、車室内における、音声入力使用者以外の音源からの音の存在があげられる。音声入力使用者からの音声を他の音源からの音から分離する方法として、複数の音響センサからそれぞれの音信号を取得し、取得した複数の音信号のみを用いて、その音信号から目的とする音声信号を分離するフィルタを学習によって得る方法として、独立成分解析法（Independent Component Analysis、以下ＩＣＡと記す）が開発されている。

特開２００３−２７１１６６号公報「アレー信号処理を用いたブラインド音源分離の基礎」Technical report of IEICE，EA2001-7。「独立成分解析とは」Computer Today，pp.38-43，1998.9，No.87、「fMRI画像解析への応用」Computer Today，pp.60-67，2001.1 No.95。 S.Amari，A.Chichocki，and H.H.Yang，"A new learning algorithm for blind signal separation"，In：D.S．Touretzky，M.C．Mozer and M.E．Hasselmoeds.，Advanced in Neural Information Processing System 8，pp.753-763，MIT Press，Cambridge MA，1996． N.Murata and S.Ikeda，"An on-line algorithm for blind source separation on speech signals"，Proceeding of 1998 International Symposium on Nonlinear Theory and its Application（(NOLTA'98)，vol.3，pp.923-926，Sep.1998． http://www.asahi-kasei.co.jp/vorero/jp/

しかしながら、上記ＩＣＡに基づく目的信号分離の処理における問題点としては、以下が挙げられる。

まず、信号源から送出される信号同士の統計的な独立性を利用するが、実環境では信号の伝達特性・背景ノイズ等によりその統計量を精度よく推定することが困難であり、それによって、分離精度が劣化する。

また、拡散性の信号源は、それを一信号源と見なすことが困難であることより、分離が非常に困難となる。

上記の問題に対し、上記特許文献１においては、ＩＣＡの計算過程で拡散性の信号源の影響を除去する手法が提案されている。この手法においては、ＩＣＡの計算過程において周波数毎に計算されるコスト関数の大きさによって音源分離処理の精度を予測し、音源分離処理の精度が低い周波数ではフィルタの応答を小さくする処理を行う（以下、ＳＢＥ(Sub-Band Eliminate)と記す）。ＳＢＥでは周波数毎に音源分離処理の精度が閾値を超えているか否かの判定処理を行うため、一般的な周波数領域ＩＣＡと比較して、計算量が大きくなる。

本発明の目的は、この点を改良し、一般的な周波数領域ＩＣＡに適用するＳＢＥと比較して少ない計算量で済み、拡散性の雑音を除去できる音声入力装置を提供することである。

目的音声信号と非目的音信号とが混在する音響信号から少なくとも一つの目的音声信号を分離する音声信号分離フィルタを学習の繰り返しによって取得する独立成分解析法を実行する音声入力装置において、前記音響信号を、目的音声信号の周波数帯域を通過周波数帯域とする前置フィルタを通過させた後に、前記学習の繰り返しに用いることを特徴とする音声入力装置を構成する。

本発明の実施により、学習結果が発散する可能性がある周波数帯域における学習が緩やかに進むようにし、一般的な周波数領域ＩＣＡに適用するＳＢＥと比較して少ない計算量で済み、拡散性の雑音を除去できる音声入力装置を提供することが可能となる。

以下に、本発明に係る音声入力装置が特徴とする、フィルタを得るための学習方法を、ＩＣＡの一例に適用した場合を説明する。

例えば、信号源として、音信号をK個のマイクロフォン（センサ）で音を受信することに加え、各音源から到来する、音信号同士が統計的に独立であることを利用することでマイクロフォンと同じK個もしくはK個以下の音源を分離することができる。当初、ＩＣＡを用いた音源分離法は、各音源からの到来音の時間差が考慮されていなかったため、マイクロフォンアレーに適用することは困難であった。しかし近年では、時間差を考慮し、マイクロフォンアレーを用いて複数の音信号を観測し、周波数領域にて混合過程の逆変換を求める手法が多数提案されている。

一般に、L個の複数音源から到来する音信号が線形に混合されてK個のマイクロフォンにて観測されている場合、観測された音信号は、ある周波数fにおいて以下のように書くことができる。

X(f) ＝ A(f)S(f) (1)
ここで、S(f)は各音源から送出される音信号ベクトル、X(f)は受音点であるマイクロフォンアレーで観測された観測信号ベクトル、A(f)は各音源と受音点との空間的な音響系に関する混合行列であり、それぞれ以下のように書くことができる。

S(f) ＝ [S_１(f),...,S_Ｌ(f)]^Ｔ (2)
X(f) ＝ [X_１(f),...,X_Ｌ(f)]^Ｔ (3)

ここで上添字^Ｔはベクトルの転置を表す。このとき、混合行列A(f)が既知であれば、受音点での観測信号ベクトルX(f)を用いて、
S(f) ＝ A(f)⁻X(f) (5)
（ただし、A(f)⁻は行列A(f)の一般逆行列を表す）のようにA(f)の一般逆行列A(f)⁻を計算することで音源から送出される音信号S(f)を計算することができる。しかし一般にA(f)は未知であり、X(f)だけを利用することで音信号S(f)を求めなければならない。

この問題を解くためには、音信号S(f)が確率的に発生し、更に、S(f)の各成分が全て互いに独立であると仮定する。このとき観測信号X(f)は混合された信号であるためX(f)の各成分の分布は独立ではない。そこで、観測信号に含まれる独立な成分をＩＣＡによって探索することを考える。すなわち、観測信号X(f)を独立な成分に変換する行列W(f)(以下、逆混合行列)を計算し、観測信号X(f)に逆混合行列W(f)を適用(行列乗算)することで、音源から送出される音信号S(f)に対して近似的な信号を求める。

ＩＣＡによる混合過程の逆変換を求める処理には時間領域で分析する手法と、周波数領域で分析する手法が提案されている。ここでは周波数領域で計算する手法を例にして説明する。

最初に、各マイクロフォンにて観測された信号を適切な直交変換を用いて短時間フレーム分析を行う。このとき、１つのマイクロフォン入力における、特定の周波数ビンでの複素スペクトル値をプロットすることにより、それを時系列として考える。ここで、周波数ビンとは、例えば、短時間離散フーリエ変換によって周波数変換された信号ベクトルにおける個別の複素成分を示す。同様に、他のマイクロフォン入力に対しても同じ操作を行う。ここで得られた、時間‐周波数信号系列は、
X(f,t) ＝ [X_１(f,t),...,X_Ｋ(f,t)]^Ｔ (6)
と記述できる。次に、逆混合行列W(f)を用いて信号分離を行う。この処理は以下のように示される。

Y(f,t) ＝ [Y_１(f,t),...,Y_Ｌ(f,t)]^Ｔ＝ W(f)X(f,t) (7)
ここで、逆混合行列W(f)は、L個の時系列の出力Y(f,t)が互いに独立になるように最適化される。これらの処理を全ての周波数ビンについて行う。最後に、分離した時系列Y(f,t)に逆直交変換を適用して、音源信号時間波形の再構成を行う。

独立性の評価及び逆混合行列の最適化方法としては、Kullback-Leibler divergenceの最小化に基づく教師無し学習アルゴリズムや、２次または高次の相関を無相関化するアルゴリズムが提案されている（上記非特許文献１参照）。

なお、ＩＣＡは音信号処理だけではなく、例えば、移動体通信などで話が混線して到達した信号を、其々に分離する、或いは脳の内部の各所で生ずる信号を脳電計や脳磁計、fMRI（Functional Magnetic Resonance Imaging；磁気共鳴機能画像）などを用いて外部から測定した場合に、測定信号の中から目的の信号を分離抽出すること等に用いられている（上記非特許文献２参照）。

以下では、複数のマイクロフォンによる音源分離問題を例にとり、音源分離フィルタの学習アルゴリズムに周波数領域ＩＣＡを用いた場合の本発明の原理を説明する。

ＩＣＡを用いても、信号の分離が困難である周波数帯域においては、数十回の学習を経ても分離精度（例えばコサイン距離）の値が改善しない場合が多い。このような帯域における学習のための演算をつづけると、フィルタの分離性能が最適な状態から分離精度を低下させる状態へと移行させてしまう場合がある。このような学習を避けるため、本発明では帯域ごとに学習速度を変化させることを提案する。

はじめに、各マイクロフォンにて集音され短時間フレーム分析された時間‐周波数信号系列を、上式(6)と同じく、X(f,t) ＝ [X_１(f,t),...,X_Ｋ(f,t)]^Ｔと記述する。次に、ＩＣＡによって最適化された逆混合行列を用いて音源分離を行う。この処理は下式のように示される。

Y(f,t) ＝ [Y_１(f,t),...,Y_Ｌ(f,t)]^Ｔ＝ W(f)X(f,t) (7)（再記）
ここで、Y(f,t)はは音源分離が為された分離信号である。ここで、i+1回目に学習される逆混合行列（音源分離フィルタ）W_ｉ＋１(f)は、i回目に学習された逆混合行列W_ｉ(f)から、下記式(8)によって計算することが、Amariらによって提案されている（上記非特許文献３）。

W_ｉ＋１(f) ＝
η(diag(<Φ(Y(f,t))Y^Ｈ(f,t)>)-<Φ(Y(f,t))Y^Ｈ(f,t)>)W_ｉ(f)+W_ｉ(f) (8)
ここで、ηは更新係数、diag( )は対角行列、< >は時間に関する平均、^Ｈはエルミート転置を表す。Φ( )は、一般に音声信号のような非ガウス性の振幅分布に従う信号を扱う場合にはsigmoid関数によって近似する手法が提案されている（上記非特許文献３、４参照）。

ここで、式(8)の第１項において、更新係数ηが固定であれば、式(7)の入力信号X(f,t)の周波数応答のエネルギーが大きいと、一回の学習過程におけるW_ｉ＋１(f)の変動幅は大きくなり、入力信号X(f,t)の周波数応答のエネルギーが小さいとW_ｉ＋１(f)の変動幅は小さくなる。よって、入力信号X(f,t)について、目的信号（すなわち使用者の音声信号）を通過させ、非目的信号を抑圧する帯域通過フィルタH(f)を適用させることで、非目的信号のエネルギーが大きい帯域f_１を抑圧し、W_ｉ＋１(f_１)の学習変動幅を小さくすることでW_ｉ＋１(f)の更新量を小さくし、下式に示したように、学習の進行を遅らせる。

式(9)及び式(10)の手続きにより、非目的信号のエネルギーが大きい帯域（すなわち分離が困難であるため適切な分離フィルタが設計できないと予測される帯域）f_１における分離フィルタW_ｉ＋１(f_１)が初期値から変動しないため、フィルタの分離性能が最適な状態から分離精度を低下させる状態へと移行する現象を避けることができる。

以下に、本発明の構成を、実施の形態例によって説明する。

（実施の形態１）
図１は第１の実施の形態におけるフィルタ更新処理過程のブロック図である。図中、10-1〜10-nは、目的音声と非目的音とが混在する音響を検知し、目的音声信号と非目的音信号とが混在する複数の音響信号として出力する複数の音響センサであるマイクロフォンであり、20は、マイクロフォン10-1〜10-nの出力である音響信号を検知して離散信号に変換する検知過程であり、30は、その離散信号を周波数に分解し、かつ、周波数分割帯域に分割する帯域分割過程である。信号を周波数に分解する変換は、ＦＦＴが一般的であるが、ウェーブレット、Ｚ変換など、直交変換系であればいずれでもよい。また、一定範囲の帯域の代表値でも良い。

40は、本発明に係る音声入力装置が特徴とする減衰過程１であって、この過程において、目的音声信号の周波数帯域を通過周波数帯域とする前置フィルタを用いてフィルタ処理を行う。この前置フィルタは、シンプルなハイパスフィルタ(ＨＰＦ)、バンドパスフィルタ(ＢＰＦ）などでもよいが、使用者の音声帯域と一致する通過特性を有していることが望ましい。音響信号が複数ある場合、いずれの音響信号も同じ通過特性を有する前置フィルタを通過するようにする。それぞれのマイクロフォンから得られた音響信号に対して、異なる前置フィルタ（減衰過程１の内容）を適用してしまうと、マイクロフォンごとに入力される情報（特に位相情報）が変わってしまう。２つ以上のマイクロフォンを使用する場合は、方向性の音を除去することが目的であるため、減衰過程１(40)で位相が変わることは避ける必要がある。同じ通過特性を有する前置フィルタを用いることによって、減衰過程２（図２の55）の分離精度が高まる。

減衰過程１(40)を経た信号、すなわち、上記前置フィルタを通過した音響信号は、目的音声信号を分離する音声信号分離フィルタを取得するための学習の繰り返しであるフィルタ学習過程50における学習の繰り返しに用いられる。

上記のフィルタ学習過程50において、最初に用いられる初期音声信号分離フィルタとして、予め学習によって取得されたものを用いることができる。すなわち、予め学習によって取得しておいたフィルタを環境に応じて徐々に適応させていくことでフィルタの性能向上を図ることができる。適応学習しても効果が無い帯域は、予め環境（例えば車両環境）に適応させておいた初期フィルタを用いることで、学習しない帯域の性能劣化を防ぐことができる。つまり、学習効果がある帯域は学習し、効果が無い帯域は緩やかに学習する。まったく効果が無い帯域は、ほとんど学習されずフィルタ初期値が適用されるようにしてもよい。このような処置によって、減衰過程２（図２の55）の分離精度が高まる。

学習終了後、フィルタ学習過程50によって取得された音声信号分離フィルタは、図２の減衰過程２(55)にけるフィルタとして用いられる。

減衰過程１(40)を設けることによって、フィルタ安定化（減衰過程２(55)が安定する）による性能向上が図れる。すなわち、減衰過程１(40)を用いて、学習の進み方（学習のステップサイズ）に変化をつける。学習を進めたほうが良い帯域と、学習を進めないほうが良い帯域（目的信号の情報が少ない帯域）とを分ける。減衰過程１(40)の通過域に存在する信号は、学習が進み、通過域以外に存在する信号は学習が緩やかに進む。

図２はフィルタ処理過程のブロック図である。マイクロフォン10-1〜10-nの出力である、目的音声信号と非目的音信号とが混在する音響信号は、検知過程20において離散信号に変換され、フィルタ学習過程50で取得された音声信号分離フィルタを内容とする減衰過程２(55)を経て、目的音声信号(信号Ｒ１００）として出力される。減衰過程２(55)は、入力された音響信号から目的音声信号を抽出するか、または、非目的信号を抑圧する。

図３はフィルタ更新システムのブロック図である。マイクロフォン110-1〜110-nとしては、一般的なマイクロフォンが使用できる。検知手段120は、図５におけるフィルタ（アンチエリアシングフィルタ）220、ＡＤ変換器230、演算装置240に対応し、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＦＰＧＡなど、一般的な動作回路を組合わせて構成される。帯域分割手段130は図５における演算装置240及び記憶装置250に対応する。減衰手段１(140)は図５における演算装置240及び記憶装置250に対応する。フィルタ学習手段150は図５における演算装置240及び記憶装置250に対応する。記憶手段180は図５における記憶装置250に対応する。

図４はフィルタ処理システムのブロック図である。マイクロフォン110-1〜110-n及び検知手段120は、図３に示したものと同じである。減衰手段２(155)は図５における演算装置240及び記憶装置250に対応する。記憶手段180は、図５における記憶装置250に対応し、キャッシュメモリ、メインメモリ、ＨＤＤ、ＣＤ、ＭＤ、ＤＶＤ、光ディスク、ＦＤＤなど、一般的な記憶媒体などによって構成されている。

図５はシステム構成の一例を示すブロック図である。マイクロフォン210-1〜210-nの出力である音響信号はフィルタ220を経てＡＤ変換器230に入力され、ＡＤ変換された後、演算装置240に入力され、演算処理される。フィルタ220は、上記音響信号に含まれるノイズを除去することに用いられる。

図６はフィルタ学習手順のフロー図である。Ｓ１００〜Ｓ１５０は個々のステップを表す。

Ｓ１００で、システムの初期化、メモリへの読込作業を行う。

Ｓ１１０で、音入力を検知する。検知したらＳ１２０へ進む。

Ｓ１２０で、入力信号の帯域分割処理を行う。周波数ビンごとの帯域幅は固定でも可変でも良い。

Ｓ１３０で、入力信号に対し、目的信号帯域（使用者の音声帯域）を通過させ、非目的信号帯域を抑圧する前置フィルタを適用し、Ｓ１４０へ送出する。

Ｓ１４０で、Ｓ１３０から得た信号を用いてフィルタを学習（例えば周波数領域ＩＣＡを用いる）する。

Ｓ１５０で、学習が規定回数に達していたら終了。達していなければＳ１３０へ戻る。

上記の規定回数は学習の過程において定まるものであってもよいし、学習の前から決められているものであってもよい。学習の前から決められている場合は、学習の最大繰り返し回数が決定していることになる。学習回数が大きすぎると、性能劣化を防ぐ目的で緩やかに学習している帯域の学習が、性能劣化がおきる学習回数まで進んでしまう。学習回数に規定を設けることによって、学習の性能劣化を回避し、減衰手段２(155)の分離精度を高めることができる。

学習が終了したら、学習後のフィルタを図２の減衰過程２(55)のフィルタとして用いる。

図７はフィルタ処理手順のフロー図である。

Ｓ１８０で、入力信号に対しフィルタ処理を行い結果を送出する。

（実施の形態２）
図８は、本発明に係る音声入力装置における、フィルタ更新システムの一例のブロック図である。この場合、減衰手段２(155)の分離精度を向上させるため、複数のフィルタを予め計算しておき、車室内に発生する雑音に応じて適切なフィルタを選択し、減衰手段１(140)の内容である前置フィルタとする。

図において、マイクロフォン110-1〜110-nとしては、一般的なマイクロフォンが使用できる。検知手段120は、図９におけるフィルタ（アンチエリアシングフィルタ）220、ＡＤ変換器230、演算装置240に対応し、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＦＰＧＡなど、一般的な動作回路を組合わせて構成される。帯域分割手段130は図９における演算装置240及び記憶装置250に対応する。減衰手段１(140)は図９における演算装置240及び記憶装置250に対応する。

選択手段145は図９における演算装置240、記憶装置250及び情報装置260に対応し、車速信号、ワイパON/OFF信号、空調機ON/OFF信号、カメラ映像などから使用環境の変化に関する情報を取得する。選択手段145は、情報装置260から得られた車室内雑音などに関する情報から、減衰手段１(140)の内容として適切な前置フィルタを選択し、減衰手段１(140)の内容とする。

フィルタ学習手段150は図９における演算装置240及び記憶装置250に対応する。記憶手段180は図９における記憶装置250に対応する。

図９は、選択手段を含めたシステム構成の一例を示すブロック図である。マイクロフォン210-1〜210-nの出力である音響信号はフィルタ220を経てＡＤ変換器230に入力され、ＡＤ変換された後、演算装置240に入力され、演算処理される。フィルタ220は、上記音響信号に含まれるノイズを除去することに用いられる。情報装置260は車室内雑音などに関する情報を演算装置240に入力する。

図１０は、前置フィルタを選択する過程の一例を示したものである。図において予め、記憶手段180に記憶された４つのフィルタ（F10、F20、F30、F40）から、車室内雑音に応じた適切なフィルタを選択する。適切なフィルタとは、車室内雑音を除去し、話者の音声を残すことができるものであり、図に示した状態では、車両がアイドリング状態であり、かつ、空調機もワイパも動作していないので、このとき選択手段145では、アイドリングと音声を分離するためのフィルタ(F10)を選択して、減衰手段１(140)の内容である前置フィルタとする。

環境に応じて複数の前置フィルタを用意しておくことで、常に必要な帯域のフィルタ学習は進み、必要の無い帯域のフィルタ学習は緩やかに進む。このようにして、従来法と比較して計算時間が削減できる。

（実施の形態３）
図１１は、本発明に係る音声入力装置におけるフィルタ更新システムの一例のブロック図である。この場合、減衰手段２(155)の分離精度を向上させるため、適応学習を用いて減衰手段１(140)を環境に適応させる。

更新手段147は図９における演算装置240、記憶装置250及び情報装置260に対応し、車速信号、ワイパON/OFF信号、空調機ON/OFF信号、カメラ映像などから使用環境の変化に関する情報を取得する。すなわち、例えば、雑音環境、話者に応じて、減衰手段１(140)で用いる前置フィルタを適応学習して更新する。手続としては、１．情報装置260から得られた車室内雑音に関する情報から減衰手段１(140)を更新するタイミングを決定し、２．減衰手段１(140)のフィルタ学習を行い、３．減衰手段１(140)の内容である前置フィルタを更新する。

上記のような構成を用いることにより、減衰過程１(40)のの内容である前置フィルタを環境に適応させることで、減衰過程２(55)の分離精度が高まる。

図１２に、適応学習により減衰手段１(140)を更新する例を示す。図において、目的信号S1と非目的信号N1を入力とし、適応フィルタのアルゴリズムを用いてフィルタを学習する。適応フィルタの入力信号はS1＋N1、目的信号はS1とする。適応フィルタのアルゴリズムは最小二乗法など、一般的なウィナーフィルタの学習手法を用いればよい。このような手法の参考文献としては、大賀、山崎、金田共著「音響システムとディジタル処理」電子情報通信学会、P.136-144などがある。学習されたフィルタH100を減衰過程１(40)の内容とする。目的信号S1としては、予め適切な信号を記憶しておくか、アイドリング時など、S/Nが高いときに発話された音声を保存しておけばよい。非目的信号N1としては、走行中に観測できる雑音（ただし目的信号が含まれない信号）を収録して保存しておけばよい。学習タイミングとしては、車外騒音環境の変化を更新手段147で検出し、学習を実行すればよい。

以上に説明したように、本発明に係る音声入力装置においては、周波数領域ＩＣＡの学習過程の前段に使用者の音声帯域を通過帯域とする前置フィルタを配置し、周波数領域ＩＣＡに入力する学習のための信号のそれぞれの帯域における情報量を制御することにより、音声通過帯域は学習速度の変更なく、非音声通過帯域は学習が緩やかに進むように、学習速度を自動的に変更せしめる。これによって、学習速度が遅い帯域は、フィルタ初期値からの変更が少ない。このような帯域は、学習することにより発散していく帯域のため、初期値から動かないほうが良い。

本手法では、フィルタ学習する周波数帯域を適応的に判断できるため、すべての帯域においてフィルタ学習行う従来手法（上記特許文献１に記載）と比較して少ない計算量で同様の効果が実現できる。

（効果の検証）
以下に、本発明の効果を、本発明に係る音声入力装置が車両中において構成された場合について検証した結果について説明する。

この場合の目的音声信号は使用者の音声信号であり、非目的音信号は目的信号以外の信号である。この非目的音信号は、ロードノイズ、エンジンノイズ、空調機ノイズ、ワイパ、ウィンカが発する音、他の乗員の発話、車外雑音、オーディオ音、ガイダンス音などである。

本発明に係る音声入力装置においては、前置フィルタである目的信号帯域通過フィルタは目的信号のエネルギーが十分大きい帯域は通過域とし、目的信号より非目的信号のエネルギーが大きい帯域は抑圧するように設計されたフィルタである。例えば、運転者の発話音声を目的信号とし、エンジンノイズ及びロードノイズを非目的信号とした場合、４００Ｈｚ以下をカットオフ周波数とするハイパスフィルタを用いる手法が簡単である。実際に用いる場合は以下の２通りが考えられる。

手法１：使用中に目的信号及び非目的信号に対して適応させる（実施の形態３）。

手法２：予め複数のフィルタを保持しておき、現在の環境に対して最適なフィルタを選択して用いる（実施の形態２）。

手法２は車種ごとに車室内雑音を予め調査しておき、車室内雑音のエネルギーが大きく、音声帯域のエネルギーが小さい帯域（例えば４００Ｈｚ以下など）は抑圧するようなフィルタを用意する。

図１３は、目的信号の帯域と非目的信号の帯域の関係を示す図である。図中、L210（実線）は目的信号の周波数応答の例であり、話者の発話は２００Ｈｚから２０００Ｈｚを中心に大きなエネルギーを有する。L220（点線）は非目的信号の周波数応答の例であり、車室内で観測される走行音は５００Ｈｚ以下の帯域に大きなエネルギーを有する。L230（破線）は目的信号帯域を通過させる前置フィルタの通過特性を示し、３００Ｈｚから２ｋＨｚまでは入力信号の通過域が平坦な特性となっている。

周波数帯域を分割して考えると、図１３中、Ｂ１の帯域には音声信号がほとんど存在せず、雑音のエネルギーが大きいため、Ｂ１はL230では抑圧される帯域となる。Ｂ２の帯域は音声信号と雑音信号とが混在する帯域である。音声信号が大きくなるに従い、L230では信号を通過する帯域となり、一方、雑音信号のエネルギーが大きい帯域では、L230は抑圧される帯域となる。Ｂ３の帯域は、音声信号のエネルギーが大きいため、ほとんど帯域が通過域となる。Ｂ４、Ｂ５の帯域は、音声信号、雑音信号の何れのエネルギーも小さいため、L230はほとんどの帯域において抑圧される帯域となる。

本発明の効果を検証するため、本発明が提案する前置フィルタを用いるシステムを音声認識システムへの前段処理として用いた場合の音源分離性能を、音声認識の正解率によって調べた。実験条件は以下の通りである。

１．実験条件
（比較対象）
比較対象は、（１）原信号、（２）従来手法(周波数領域ＩＣＡ(ＦＤＩＣＡ)とＳＢＥとの組み合わせ、非特許文献３に記載)によって得られる信号、（３）本発明が提案する手法(前置フィルタ(ＳＰＦ)とＦＤＩＣＡとの組み合わせ)によって得られる信号の３つである。

（車室内伝達特性）
収録時のマイクロフォン及びラウドスピーカ（話者口部）の配置を図１４に示す。ラウドスピーカは人体基準寸法(JIS規格)に基づき運転者の口の位置を決定し、HATS（頭・胴体シミュレータ、Head And Torso Simulator）の口部スピーカを配置した。マイクロフォンはルームミラー直上の天井に40mm間隔で部材に固定して配置した。マイクロフォンとラウドスピーカとの角度は60.9度である。以上の条件で、サンプリング周波数48kHz、量子化ビット数16bit、データ長36768点のＴＳＰ信号（実施の形態４に記載）を用いて伝達特性を測定し、11.025kHzにダウンサンプリングして使用した。

（車内雑音）
走行雑音及び空調機等の車両機器雑音を個々に収録し合成した。雑音条件は、晴天走行で、速度0、60、100km/hとした。

（発話）
防音室において話者23人(男性17人、女性5人)から69単語/人を収録した。

（評価用音声）
音声に伝達特性を重畳し、晴天走行速度0km/hにおいて、車室内雑音とのS/Nが10dBとなるように時間領域において調整し、更に先に収録した車室内雑音を加算した。

（周波数領域ＩＣＡ）
周波数領域ＩＣＡ(ＦＤＩＣＡ)の分離フィルタW(f)の学習は、サンプリング周波数11.025kHz、量子化ビット数16bit、分離フィルタ長は2048点、学習データ長は10秒、30回の繰返し学習とし、音声信号分離フィルタ初期値は運転席付近(-60度)とその対称位置(60度)に死角を形成するビームフォーマとした。なお、この分離フィルタ学習処理は、実験条件及び話者毎に、先頭の評価音声について１回だけ行った。音声認識は、ネットワーク文法による69単語同時待受けの孤立単語音声認識とし、デコーダとしてVORERO Ver4.3（実施の形態５に記載）を用いた。

２．実験結果
図１５に実験結果を示す。縦軸は単語正解率、横方向に実験条件ごとの結果を示す。図中、丸で囲んだ１、２、３は、それぞれ、比較対象（１）、（２）、（３）に対応する。棒の高さは平均値（ＡＶＧ）を示し、Ｍａｘは最大値を示し、Ｍｉｎは最小値を示す。丸で囲んだ３に示す本発明における手法は、0km/h（アイドリング環境下）では従来手法である丸で囲んだ１、２と同等の性能を示し、60km/hでは、従来手法である丸で囲んだ１、２より性能は向上しており、100km/h走行環境下では、丸で囲んだ１より向上、丸で囲んだ２と同等の性能を示した。これらの結果からもわかるように、丸で囲んだ３に示す本発明における手法は環境の変化に対しても安定した単語正解率を示していることがわかる。

フィルタ更新処理過程のブロック図である。フィルタ処理過程のブロック図である。フィルタ更新システムのブロック図である。フィルタ処理システムのブロック図である。システム構成の一例を示すブロック図である。フィルタ学習手順のフロー図である。フィルタ処理手順のフロー図である。選択手段を含めたフィルタ更新システムの一例のブロック図である。選択手段を含めたシステム構成の一例を示すブロック図である。前置フィルタを選択する過程の一例を示す図である。フィルタ更新システムの一例のブロック図である。適応学習により減衰手段１を更新する例を示す図である。目的信号の帯域と非目的信号の帯域の関係を示す図である。効果の検証実験における収録時のマイクロフォン及びラウドスピーカ（話者口部）の配置を示す図である。効果の検証実験の結果を示す図である。

符号の説明

10-1〜10-n：マイクロフォン、20：検知過程、30：帯域分割過程、40：減衰過程１、50：フィルタ学習過程、55：減衰過程２、110-1〜110-n：マイクロフォン、120：検知手段、130：帯域分割手段、140：減衰手段１、145：選択手段、147：更新手段、150：フィルタ学習手段、155：減衰手段２、180：記憶手段、210-1〜210-n：マイクロフォン、220：フィルタ、230：ＡＤ変換器、240：演算装置、250：記憶装置、260：情報装置。

Claims

目的音声と非目的音とが混在する音響を音響センサで検知することによって目的音声信号と非目的音信号とが混在する音響信号を取得し、該音響信号から少なくとも一つの該目的音声信号を分離する音声信号分離フィルタを学習の繰り返しによって取得する独立成分解析法を実行する音声入力装置において、
前記目的音声信号の周波数帯域を通過周波数帯域とする前置フィルタが備えられ、前記音響信号は、該前置フィルタを通過した後に、前記学習の繰り返しに用いられることを特徴とする音声入力装置。
前記音響信号が複数ある場合、いずれの該音響信号も同じ通過特性を有する前記前置フィルタを通過することを特徴とする請求項１に記載の音声入力装置。
前記学習の繰り返しの最初に用いられる初期音声信号分離フィルタとして、予め学習によって取得された音声信号分離フィルタを用いることを特徴とする請求項１または２に記載の音声入力装置。
前記学習の繰り返しの最大繰り返し回数が決定していることを特徴とする請求項１、２または３に記載の音声入力装置。
記憶装置に記憶されている複数のフィルタの中から、フィルタを選択して前記前置フィルタとして用いる選択手段を有することを特徴とする請求項１ないし４のいずれかに記載の音声入力装置。
前記前置フィルタを更新する更新手段を有することを特徴とする請求項１ないし５のいずれかに記載の音声入力装置。