JP4649905B2

JP4649905B2 - 音声入力装置

Info

Publication number: JP4649905B2
Application number: JP2004225189A
Authority: JP
Inventors: 大介斎藤; 充伸神沼
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-08-02
Filing date: 2004-08-02
Publication date: 2011-03-16
Anticipated expiration: 2024-08-02
Also published as: JP2006047447A

Description

本発明は音声入力装置に係る。

近年、自動車において、ナビゲーション装置やオーディオ、空調機などの操作入力を音声でも行えるように音声認識装置を備えるものが提供されている。また、車室内で車両操作を行いながら電話を使用するために、ハンドフリー電話装置を備えるものも提供されている。こうした装置は、音声信号を取込むマイクロフォンを備え、ユーザの発話音声を入力・処理するように構成されている。

しかしながら、マイクロフォンには、音声信号のみならず、車両のエンジンや空調機の稼働音、或いは走行によって発生する風音、ロードノイズ、そして、車室内の空調機風、オーディオ音などの雑音が同時に入力される為、音声認識の精度や、通話音声の明瞭性を高めるため、前記音声入力信号からノイズ成分を低減することが必要となってくる。

入力音に含まれるノイズ成分を低減するフィルタリング手法がいくつか提案されている。

例えば、使用者の音声が収録できる位置に設置した音声用マイクロフォンと、該音声に混入する雑音と同じ雑音が観測できる位置に設置した雑音用マイクロフォンロフォンを用い、雑音混じりの音声信号と、雑音のみの信号を取得し、両信号に基づき雑音を抑圧するフィルタを適応的に生成する手法がある。適応的にフィルタを演算・生成する手法(適応アルゴリズム)としては、例えばＬＭＳ(Least Mean Square:最小二乗平均)法等がある。本手法によれば、雑音成分抑圧するフィルタが適応的に生成されるが、十分な雑音抑圧性能を得ることができないという問題がある。また、雑音のみを入力する為のマイクロフォンが必要になるため、システムのコストや小型化といった点で問題があった。

また、複数のマイクロフォンから構成されるマイクロフォンアレーを用い、観測された信号だけを用いて源信号を同定し、分離・抽出する技術としてＢＳＳ(Blind Source Separation：ブラインド音源分離)という手法が知られている。（下記非特許文献１参照）。

しかしながら、本手法は、計算量が多く、音声認識処理や、ハンドフリー電話装置等、リアルタイムの処理が必要な機器と組み合わせて使う場合に、負荷が大きいという問題があった。

特開平０５−２１８８１６号公報「アレー信号処理を用いたブラインド音源分離の基礎」Technica1 report of ＩＥＩＣＥ，ＥＡ２００１−７．「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」、日本音響学会誌、1997、 53、 5、 337-345。

車両の雑音環境を考えた場合、車両が一定速度で走行している状況や、空調機が同じ風量で一定時間動作している状況などが多分に考えられ、この状況下では、雑音成分はある範囲内で変位するものと考えられる。また、使用者音声に関して考えた場合、特定の車両の使用者は数人程度に限定されることが多く、従って音声の成分も特定の範囲内で変位するものと考えられる。したがって、想定される雑音や音声に対して、予め作成したフィルタを適用する構成とし、各種車室内音環境の判定に基づいて必要な時のみフィルタを適応更新することにより、同等の性能を確保することが可能であると考える。

本手法は、上記問題を鑑みてなされたものであり、本発明の目的は、入力される音声信号に含まれる雑音成分を抑圧するようにフィルタを適用する音声入力装置を、省負荷、省コストで実現することにある。

音入力部と、該音入力部から入力された入力音から音環境を監視する音環境監視部と、該音環境監視部から得られた情報に基づいて、音環境に適合する標準フィルタが決定できる場合には、その標準フィルタをフィルタ部の内容とするフィルタ選択手段と、そのような標準フィルタが決定できない場合には、一時フィルタを生成してフィルタ部の内容とする一時フィルタ生成手段と、該一時フィルタを記憶する一時記憶部とを構成要素とする音声入力装置を構成する。

本発明の実施によって、音環境に適合する標準フィルタが決定できる場合には、その標準フィルタをフィルタ部の内容とし、そのような標準フィルタが決定できない場合には、一時フィルタを生成してフィルタ部の内容とすることにより、入力される音声信号に含まれる雑音成分を抑圧するようにフィルタを適用する音声入力装置を、省負荷、省コストで実現することが可能となる。

以下に、本発明を実施するための最良の形態を実施形態例によって説明する。

［第１実施形態］
本実施形態は、本発明の基本的な実施形態である。図１にその基本的な構成例を示す。尚、図１の矢印(a)は入力信号を、矢印(b)は出力信号を示す。

本実施形態は、図１に示したように、音信号を取得する１つ以上の音入力手段を有する音入力部101、音入力部101から取得された入力音から雑音成分を除去するフィルタ部106、音環境監視部102、標準記憶部103、一時記憶部104、フィルタ制御部105から構成される。

＜基本機能と実現手段＞
各部の基本的な機能と具体的な実現手段について、図２を用いて説明する。

音入力部101は使用者の発話音声及び車両に発生する雑音を入力(図１の矢印(a))するものであり、例えばマイクロフォン(図２の201)とＡＤ変換部(図２の202)を組み合わせることで実現される。尚、本実施形態では、マイクロフォンを１つ具備している場合について述べるが、実現手段はこれに限定されるものではない。

音環境監視部102は、音入力部101から得られた入力音から音声区間と非音声区間とを判定する音声区間判定手段1021と、雑音成分に関する情報を含む雑音成分情報を監視し取得する雑音監視手段1022と、使用者が入力した目的信号に関する情報を含む目的信号情報を監視し取得する音声監視手段1023とから構成され、現在の車室内の音環境を判定するものであり、演算装置(図２の203)及び記憶装置(図２の204)を組み合わせることで実現される。

上記目的信号情報及び雑音成分情報は、音入力手段に入力された音から得られる情報と、車速に関する情報と、空調機の動作に関する情報と、窓の開閉に関する情報と、座席の位置に関する情報と、乗員に関する情報と、車両本体に関する情報と、車内外に設置されたセンサ、カメラにより得られる情報と、タイヤに関する情報と、車室内に設置された操作対象機器に関する情報などである。これらの情報は識別コードによって識別される。

標準記憶部103は、予め車両室内で想定する雑音成分及び目的信号に関する情報である標準雑音成分情報及び標準目的信号情報と、該情報によって定義された音環境下で雑音を抑圧するフィルタである標準フィルタを記憶するものであり、記憶装置(図２の204)を組み合わせることで実現される。

標準記憶部103の記憶する標準雑音成分情報とは、例えば、実環境において発生することが予測される雑音成分をＮ個のＭ次元代表点を用いて表現した信号であり、前記標準記憶部の記憶する標準目的信号情報とは、実環境において入力されることが予測される目的信号をＸ個のＹ次元代表点を用いて表現した信号であり、
実環境において発生することが予測される雑音成分をＮ個のＭ次元代表点を用いて表現した信号および該代表点に対応する１つ以上の車両信号の組み合わせである雑音成分の識別コードから構成される情報であり、
前記標準記憶部の記憶する標準目的信号情報とは、例えば、実環境において入力されることが予測される目的信号をＸ個のＹ次元代表点を用いて表現した信号と、該代表点に対応する１つ以上の声質情報の組み合わせである目的信号の識別コードから構成される情報である。

また、標準フィルタ更新手段1053は、例えば、実環境において発生することが予測される雑音成分をＮ個のＭ次元代表点を用いて表現した信号と、前記雑音監視手段から得られた雑音成分の集合との距離が所定の閾値を超えるとき、該距離が小さくなるように、前記雑音監視手段から得られた雑音成分の集合と、１つ以上の該代表点によって表現された信号とを用いて、該代表点と、該代表点によって表現された信号が定義される音環境下で雑音を抑圧するように生成した標準フィルタとのいずれも更新する。上記距離が小さくなることと、標準フィルタの雑音除去率が向上するということとは等価である。

一時記憶部104は、後述のフィルタ制御部105の一時フィルタ生成手段1052にて生成された一時フィルタを、該一時フィルタ生成時の一時音環境情報とともに記憶するものであり、記憶装置(図２の204)を組み合わせることで実現される。一時記憶部は104は、フィルタ制御部105が作成した一時フィルタと、フィルタ作成時に参照した雑音成分情報と、目的信号情報とのうちの少なくとも１つ以上を記憶することが好ましい。

フィルタ制御部105は、音環境監視部102から得られた情報に基づいて、音環境に適合する、標準記憶部103に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択してフィルタ部106の内容とするフィルタ選択手段1051と、音環境監視部102から得られた情報と、標準記憶部103に記憶されている該標準音環境とが適合しない場合に、一時フィルタを作成してフィルタ部106の内容とする一時フィルタ生成手段1052と、音環境監視部102から得られた音環境情報によって構成される情報空間における情報ベクトルの集合と、標準記憶部103に記憶されている該標準音環境によって構成される情報空間における情報ベクトルの重心点との距離が所定の値を超えるとき、該距離が小さくなるように、該標準音環境に対応する該標準フィルタを更新する標準フィルタ更新手段1053とから構成され、現在の車室内音環境に適合するフィルタを選択もしくは生成するものであり、演算装置(図２の203)及び記憶装置(図２の204)を組み合わせることで実現される。この場合にも、上記の距離が小さくなることと、標準フィルタの雑音除去率が向上するということとは等価である。

フィルタ部106は、音環境監視部102の音声区間判定部が音声区間を検出した際に、前記フィルタ制御部が選択もしくは生成したフィルタを適用して、入力音声に対して雑音抑圧処理を行うものであり、演算装置(図２の203)及び記憶装置(図２の204)を組み合わせることで実現される。

上記のように、本発明の実施によって、観測された現在の音環境に適したフィルタを得ることができ、適切に雑音を抑圧した音声信号を得ることができる。

＜各部のより具体的な説明＞
上述の各構成のより具体的な構成を示す。

（本実施形態の前提(標準記憶部の記憶情報及び音環境監視部の監視情報を決定する為の雑音、音声クラスタリング作業)）
本発明は、車室内で想定される音環境を予め収集・分類し、代表となる音環境を決定し、該環境に対応するフィルタを標準フィルタと定義・記憶させて、選択使用することがその基本的な構成となる。従って、該標準フィルタを決定する作業を事前に行うことが前提となる。以下に該作業を具体的に説明する。

＜雑音成分の収集と分類＞
先ず、車室内で想定される雑音成分を収集し、これをその周波数成分等に基づき所定の数に分類する。分類には各種クラスタ分析手法等を用いることができる。この時、分割数は後述する標準記憶部103の記憶容量などに基づき決定されることが好ましい。本実施形態では、分割数を４つと定義する。収集された雑音成分を４つのクラスタに分割した例を図３に示す。各分類中の重心点(セントロイド)すなわち代表となる雑音をN1、N2、N3、N4としている。尚、前記収集雑音成分は、収集時の車両情報と共に収録することが好ましい。これにより、分割後の重心点となる雑音成分に対し、車両情報を分類したものを雑音成分の識別コードとして定義することが可能となる。例えば、該雑音を速度と空調機レベルの組み合わせで収録したものとし、分類された雑音成分と車両信号の対応関係から、下記のような識別コードの対応関係が導ける。
代表雑音成分識別コード
N1： ID-N1 (速度 0〜10km/h、空調機レベル0〜2)
N2： ID-N2 (速度 0〜10km/h、空調機レベル4 OR速度 10〜30km/ h 空調機レベル0〜3)
N3： ID-N3 (速度 10〜30km/h、空調機レベル4 OR速度 30〜60km /h 空調機レベル 0〜4)
N4： ID-N4 (速度 60〜km/、空調機レベル 0〜4)
このように、雑音成分の識別コードとは、車速に関する情報と、空調機の動作に関する情報と、窓の開閉に関する情報と、座席の位置に関する情報と、乗員に関する情報と、車両本体に関する情報と、車内外に設置されたセンサ、カメラにより得られる情報と、タイヤに関する情報と、車室内に設置された操作対象機器に関する情報などに付した識別コードである。

＜音声の収集と分類＞
目的信号についても同様に、車室内で入力が想定される目的信号すなわち音声信号を収集し、所定の数に分類する。雑音成分同様、収集時には、例えば性別・年齢などの各種発話者情報とともに記録することが好ましい。これにより、分類後の目的信号と話者情報の対応関係から、重心となる目的信号に対し、話者情報の分類を目的信号の識別コードとして定義することが可能となる。本実施形態では、目的信号を２つに分割すると設定した。その結果、例えば男性と女性のグループへ分類されたものとする。すると、
代表目的信号識別コード
V1: ID-V1 (男性音声)
V2: ID-V2 (女性音声)
という目的信号の代表と対応する目的信号の識別コードが組み合わせたデータを構築できる。

尚、ここで代表となる目的信号(V1、V2)は、各分類の目的信号群を加算平均した信号としても良い。すなわち上述の例であれば、男性と女性の音声に分割された結果を受け、各グループ(男性グループ、女性グループ)の音声を複数選択しそれを加算平均した信号としてV1、V2を定義する。

こうした人の声を加算平均した信号は、ＨＳＬＮ(Human Speech Like Noise)とも呼ばれ、その性質等については、上記非特許文献２に詳しい。

これらの情報を標準記憶部103に格納することを前提として以降の各部の説明を行う。

（音環境監視部）
音環境監視部102の音声区間判定手段1021は、例えば入力音のパワースペクトルを観測する方法や、ピッチ周波数やスペクトル包絡情報の時系列データをマッチングする方法などを用いることで、入力音中に使用話者の音声が含まれることを検出すると共に、該音声が含まれる区間(音声区間)を抽出する機能を備える。更に、図示しないＰＴＴ(Push to talk)スイッチ手段を追加して音声の開始位置を決定する手法や、撮像手段を用いて乗員の口の動き等を監視し、音声の有無及び音声区間、更には使用話者であるか否かについて決定する手法を取ることもできる。

音環境監視部102の雑音監視手段1022は、車室内の話者の雑音に関する情報を監視するものであり、監視手段としては、たとえば雑音成分や、車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報等とすることができる。

（雑音成分及び他のセンシング情報から雑音環境判定）
具体的な監視手段としては、
・使用話者以外の話者音声
・車両本体情報(エンジン種類、ボディ形状、車室内容量、タイヤ種類等)
・車速
・空調機の動作
・窓の開閉
・座席の位置
・乗員(着座位置や動作等)
・天候や路面状態・路面種類
等が考えられる。尚雑音成分については、前記音声区間監視部が使用話者[N5]の音声を検出していないと判定している区間の入力音を雑音と判定して抽出、監視するのが好ましい。

本実施形態では、入力雑音成分と、車速区分(0〜10km/h、10〜30km/h等)＆空調機レベル(０〜４等)とから導かれる雑音成分の識別コード(ID-N1〜ID-N4)(コードの内訳はクラスタリング時に決定)の組み合わせとして、雑音成分情報を抽出するものとする。

尚、以降では１の信号を現在雑音成分と表記する。

音環境監視部102の音声監視手段1023は、車室内の機器使用話者の音声に関する情報を監視するものであり、監視手段としては、例えば使用者の音声信号や、車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報とすることができる。具体的な監視内容としては、
・入力音声に基づく話者音声の声質に関する情報
・話者の識別に基づく話者音声の声質に関する情報
等が考えられる。ちなみに前者は入力音声そのものに基づき声質情報を抽出することであり、後者は使用者声質と使用者識別情報(映像等)を対応させて保存する構成とし、使用者識別結果に基づいて声質情報を抽出することを意味する。

声質の情報としては、ケプストラムやデルタケプストラム、音声パワー、基本周波数、イントネーション等を分析し、決定することが考えられる。ただし、前記音声区間監視部が使用話者の音声を検出したと判定している区間の入力音を処理対象とすることが好ましい。この場合、使用話者の音声が検出されていない期間に関しては、前回の監視結果を継続する等とする。

こうした処理を行うことで、本実施形態の音声監視手段1023は、本実施形態では、入力雑音成分と、性別分類に対応する目的信号の識別コード(ID-V1:男性、ID-V2；女性)(上記クラスタリング作業にて決定)との組み合わせとして、目的信号情報を抽出するものとする。

尚、以降では１の信号を現在目的信号と表記する。

（標準記憶部）
標準記憶部103は、音環境監視部102の雑音監視手段1022が収集する雑音成分に関する情報を含む１．標準雑音成分情報、及び、音声信号監視手段1023が収集する目的信号に関する情報である２．標準目的信号情報、該標準雑音成分情報及び標準目的信号情報によって定義された音環境下で効率的に雑音を抑圧できる標準フィルタである３．標準フィルタとを予め記憶しておくものである。各データは、想定される音環境に応じて複数組保持することが好ましく、想定する音環境は、上述のクラスタリング処理等の方法によって決定する。このようにすれば、観測された現在の音環境に適したフィルタを選択して適用することができ、適切に雑音を抑圧した音声信号を得ることができる。

１．標準雑音成分情報
雑音監視手段の抽出する雑音成分情報のうち、想定する複数の情報を記憶する。すなわち上述の雑音成分のクラスタリング結果に基づき、重心と決定された雑音成分を標準雑音成分と定義し、記憶する。この時、該クラスタリング作業で導いた各分類に対する雑音成分の識別コードも同時に記憶する。
上述のクラスタリング結果から、標準雑音成分情報の内容は例えば以下のようになる。
標準雑音成分コード( 速度、空調機レベル)
N1(代表雑音) ID-N1(0〜10km/h 、0〜2)
N2 ID-N2(0〜10km/h 、3〜4)
(10〜30km/h 、0〜3)
N3 ID-N3(10〜30km/h 、4)
(30〜60km/h 、0〜4)
N4 ID-N4(60〜km/h 、0〜4)
２．標準目的信号情報
音声監視手段1023の抽出する目的信号情報のうち、想定する複数の情報を標準目的信号情報として記憶する。すなわち上述の目的信号のクラスタリング結果に基づき、重心と決定された目的信号あるいは分類毎の信号群を加算平均した信号(ＨＳＬＮ)を標準目的信号と定義し、記憶する。該クラスタリング作業で導いた各分類に対する目的信号の識別コードも同時に記憶する。すなわち、該標準目的信号と識別コードを合わせて標準目的信号情報とする。

標準目的信号コード(話者分類)
V1(男性ＨＳＬＮ等) ID-V1(男性音声)
V2(女性ＨＳＬＮ等) ID-V2(女性音声)
V0(男女ＨＳＬＮ等) ID-V0(男性女性全般)
尚、上記例には、クラスタ分析で抽出していない目的信号「V0」及び識別コード「ID-V0」が存在する。これは音声監視手段1023が使用話者の発話を判定するまで(すなわち声質が男性・女性どちらに属するか判定するまで)に暫定的にV0に属すると判定させるためのものである。初めて話者音声が検出される以前や、雑音が大きい等で、検出音声から基本周波数が判定できない場合などはV0に属するすなわち識別コードID-V0を目的信号情報として出力する。

３．標準フィルタ
標準フィルタは、前記標準雑音成分情報及び標準目的信号情報の組み合わせから定義される車室内の音環境にて、雑音成分を抑圧し目的信号を強調するフィルタであり、具体的には、前記標準雑音成分及び標準目的信号を用いて車室内該音環境をシミュレートし、該環境で雑音を抑圧するようにフィルタを適応的に生成させる。

従って、標準フィルタは、前記標準雑音成分情報と標準目的信号情報で定義される音環境の全ての組み合わせについて保持することとなる。本実施形態の例であれば、標準雑音情報は4種類、標準目的信号情報は3種類(2種類＋暫定1種類)より、１２通りのフィルタを保持することとなる。

（標準フィルタ生成手順例）
標準フィルタ生成処理の一例についてブロック図４を用いて説明する。尚、本例は１チャネルマイクロフォン構成システムとした時の例であるが、複数チャネルの場合であれば、ＢＳＳ法などにより該音環境に適合する標準フィルタを生成することが可能である。なお、２チャネル以上の場合の詳細は第２実施形態に記載する。

先ず、前記標準目的信号(V0、V1、V2)(図４の(a))および標準雑音成分(N1〜N4)(図４の(b))を用意する。

標準音声信号(a)を目的信号d(k) (k：時刻)として入力し、該標準音声信号(a)と前記標準雑音成分(b)を加算器401にて加算した信号を擬似観測信号x(k)として生成し入力する。この２信号を用いて適応処理を行う。適応処理では入力信号x(k)をフィルタW(k)でフィルタリング処理した出力信号y(k)と、目的信号d(x)とから誤差信号e(k)を生成し(加算器403)、この誤差信号e(k)が小さくなるようにフィルタ係数が自動的に更新されていく。適応処理アルゴリズムとしては、ＬＭＳ(最小平均二乗)法や、ＲＬＳ(再帰最小二乗)法などを用いることができる。この結果、各種音環境に対応した雑音抑圧フィルタが生成される。

また、一時記憶部103は、音入力手段から取得された音信号を分析し、音声信号の大きさに対して雑音の大きさが無視できるとの結果を得た場合に、該音声信号を一時目的信号として記憶し、フィルタ選択手段1051は、音環境監視部102から得られた情報に基づいて、音環境に適合する標準記憶部103に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択してフィルタ部106の内容とし、一時フィルタ生成手段1053は、音環境監視部102から得られた情報と、標準記憶部103に記憶されている標準音環境とが適合しない場合に、一時記憶部104に記憶された前記一時目的信号を目的信号とし、該一時目的信号と現在の雑音成分とから生成した擬似観測信号を観測信号とし、該目的信号と該観測信号とを用いて雑音成分抑圧フィルタを生成し、雑音成分抑圧フィルタをフィルタ部106の内容とし、標準フィルタ更新手段1053は、音環境監視部102から得られた音環境情報によって構成される情報空間における情報ベクトルの集合と、標準記憶部103に記憶されている標準音環境によって構成される情報空間における情報ベクトルの重心点との距離が所定の閾値を超えるとき、該距離が小さくなるように、該標準音環境に対応する該標準フィルタを更新する構成としてもよい。

（標準記憶部の記憶例）
以上1〜３を記憶する標準記憶部103の記憶例を図５に示す。

標準雑音成分Ｎｘ(ｘ=1、2、3、・・・)と、それに対応する識別コード(車速区分、空調機レベル)からなる標準雑音成分情報と、
標準目的信号Ｖｙ(ｙ=0、1、2、・・・)と、それに対応する識別コード(性別区分)からなる標準目的信号情報と、
Nx、Vyに対応する標準フィルタF(x,y)から構成される。この構成により、後述のフィルタ制御部105において、前記雑音監視手段1022と、音声監視手段1023の監視結果に基づき標準フィルタを参照することができる。

（一時記憶部）
一時記憶部104 は、後述のフィルタ制御部105の一時フィルタ生成手段1052にて生成された一時フィルタを、該一時フィルタ生成時の雑音成分及び雑音成分の識別コード、目的信号の識別コード、及び目的信号の識別コードに対応する標準音声信号等を組み合わせて記憶する。本一時記憶部104は、こうしたデータ対を複数記憶できる構成とし、一時フィルタが生成される度に該情報を順次記憶していく。尚、本実施形態では、一時記憶部104に、所定数のデータが記憶されたのを機に後述の標準フィルタ更新手段1053が処理を行うものとし、該標準フィルタ更新処理後には、データをクリア或いは上書きすることで、記憶容量内でデータ対を記憶していく構成とする。

（フィルタ制御部）
フィルタ制御部105の各手段は、以下のような処理を行う。
フィルタ選択手段：
・音環境監視部102から得られた現在の雑音監視結果、および音声監視結果に基づき、適合する標準フィルタを選択する。
・該標準フィルタが、十分な雑音抑圧効果を持ち合わせるかを判定する。(差異の算出)
・判定の結果、標準フィルタで対応可能と判定された場合に、該標準フィルタを選択し、フィルタ部106へ適用する。
一時フィルタ生成手段：
・フィルタ選択手段1051の判定の結果、標準フィルタが十分な雑音抑圧効果が無いと判定された場合に、現在雑音成分と、標準目的信号(V0、V1、V2等)を用いて目標信号及び擬似観測信号を合成し、これらの信号を用いて適応フィルタを生成する。生成されたフィルタを一時フィルタとしてフィルタ部106へ適用する。
・一時記憶部104に該一時フィルタとフィルタ生成時の音環境情報(雑音成分の識別コード及び目的信号の識別コード、目的信号情報の標準目的信号等)を記憶する。
標準フィルタ更新手段：
・フィルタ選択手段1051の差異算出結果の推移、或いは前記一時フィルタ生成手段1052の生成処理の推移(頻度等)の情報に基づき、ある音環境に対する標準フィルタが無効化していないかを判定する。
本実施形態では、一時記憶部104に所定数のデータ対が格納されたのを機に、記憶された雑音成分情報を分析し、特定の音雑音成分に対する一時フィルタ生成の割合が多くなっていないかを判定する。
・特定の標準フィルタが無効化していると判定した場合に、標準フィルタの更新処理を行う。

各手段のより具体的な動きを図６のフローチャートを用いて説明する。
ステップS1001では、音環境監視部102より現在の雑音情報及び音声情報を取得する。例えば、雑音・目的信号情報として、以下の2種類が得られた場合を考える。

観測情報a)
雑音成分情報：現在雑音成分(Na)、識別コード(ID-N2)(車速区分=10−30km/h、空調機レベル=１)、
目的信号情報：現在目的信号(Va)、識別コード(ID-V1)(性別情報=男性)
観測情報b)
雑音成分情報b：現在雑音成分(Nb)、識別コード(ID-N2) (車速区分=10−30km/h、空調機レベル=１)、
目的信号情報b：現在目的信号(Vb)、識別コード(ID-V1)(性別情報=男性)
すなわち、雑音成分の識別コードはa、bとも共通である。(同じ車速と空調機レベルで観測された2つの信号ということになる)
尚、１チャネルマイクロフォンを用いる構成とする場合は、現在音声信号と現在雑音成分を同時に取得できない為、該音声区間判定手段1021が発話区間と判定した区間にて抽出した信号を現在音声信号とし、非発話区間と判定した区間にて抽出した信号を現在雑音成分とする。(つまり「現在雑音成分」「現在目的信号」と明記しているが、１チャネルマイクロフォンの場合は厳密には別時刻の信号ということになる)
ステップS1002では、標準記憶部103を参照し、標準雑音成分情報及び標準目的信号情報を得る。ここでは、前述した図５の内容を標準記憶部103に記憶しているものとする。

ステップS1003では、
現在の雑音成分の識別コードと標準雑音成分の識別コード及び、
現在の目的信号の識別コードと標準目的信号の識別コードをそれぞれ照合し、
現在の音環境に対応する標準記憶部103の標準音環境(標準雑音成分情報と標準目的信号の組み合わせ)を決定する。
すなわち、ステップS1001で得られた情報と標準記憶部103の情報(図5)を照合し、
識別コードID-N2とID-V1の組み合わせから決定されるデータ対を探す。結果インデックス(Index)＝5のデータの組み合わせが現在の音環境と判定する。

ステップS1004では、前記現在雑音成分(NaもしくはNb)と、対応する音環境の標準雑音成分すなわちインデックス(Index)＝5にあたる標準雑音成分(N2)とを比較し、その差異が所定の閾値を超えるか否かを判定する。閾値を超えない場合はフィルタ選択処理を継続しステップS1005へ、超える場合はステップS1006以降の一時フィルタ生成処理へと進む。

（「差異」の意味と算出例）
上述の「差異」は、信号の類似性を判定する指標であり、算出例としては、音信号の音響特徴であるパワースペクトル係数や、線形予測係数、周波数毎のパワー等をベクトル化したものの時系列データを用いて、
・ベクトル同士の距離
・ベクトル同士のなす角度の余弦値
等から算出することができる。

（閾値）
ここで、閾値は、現在雑音と参照雑音との差異をどこまで許容するか、すなわちどの程度類似性がある雑音を既存の標準フィルタで処理させるかを決定付ける値であり、既存フィルタが充分な雑音抑圧性能を維持する範囲を実験等から求めて適用することが望ましい。

図７は、雑音差異と閾値の比較を模式的に示したものである。本図は、前述したクラスタリングの結果(図３)に準ずる。標準雑音成分はN1、N2、N3、N4であり、周囲を囲む曲線が閾値を表す。ここでは閾値としてThが与えられている。

ここで、例えば上記観測情報a)の現在雑音成分(Na)が図７のNaの位置に観測されたとする。この時、Naと雑音成分の識別コード(ID-N2)から決定される標準雑音成分(N2)との差異を比較する。比較の結果、
差異＜閾値(すなわちN2を囲む領域の内側に位置する)
となるため、フィルタ選択処理ステップS1005へ移行する。

一方、観測信号b)の現在雑音成分(Nb)が、図７のNbの位置に観測されたとする。

この場合も、該現在雑音成分NaとN2との差異を比較する。しかし、この場合、
差異＞閾値(すなわちN2を囲む領域の外側に位置する)
となるため、ステップS1006移行の一時フィルタ選択処理へ移行する。

ステップS1005では、ステップS1003で決定された音環境すなわち雑音成分の識別コード(ID-N2)と目的信号の識別コード(ID-V1)に対応する標準フィルタを選択する。この場合、図５中のインデックス(Index)＝５に対応する標準フィルタ(F(2,1))が選択される。

一方、ステップS1006では、現在雑音成分(Nb)とステップS1003で決定された標準目的信号情報、すなわち目的信号の識別コード(ID-V1)に対応する標準目的信号(V1：男性ＨＳＬＮ)とを用いて、適応処理により一時フィルタ(ここではFt(b,1)と記す)を生成する。

（一時フィルタ生成手順、１チャネル適応フィルタの場合）
この時の一時フィルタ生成手段1052の構成例と動作を図８を用いて説明する。
先ず、標準音声信号(図８の(a))(この場合V1:男性ＨＳＬＮ)を標準記憶部103から取得し、目的信号d(k)とする。

一方、現在雑音成分(図８の(b))(この場合Nb)を音入力部101から取得し、これに上記標準音声を加算したものを擬似観測信号x(k)とする。目的信号と、入力信号を用いて、適応処理により一時フィルタＦ_ｔ(b,1)を得る。適応処理の詳細は前述の標準フィルタ生成法と同様である。

（一時フィルタ生成時の初期値を最類似フィルタから用いる）
尚、この一時フィルタ生成時には、該当する標準フィルタ、この場合であればインデックス(Index)＝5の標準フィルタF(2,1)をフィルタ初期値として選択するようにすることが好ましい。これにより、更新に必要な適応処理回数を削減することができ、処理負荷の軽減を計ることができる。

ステップS1007では、生成した一時フィルタを、生成時の標準音声情報及び現在雑音情報と共に一時記憶部104に記憶する(図８ブロック図の矢印(a)、(c)、(d)に相当)。

例えば、以下のような内容を記憶する。
生成時の雑音成分識別コード：ID-N2( 車速区分 10-30km/h、空調機レベル１)
生成時の現在雑音成分(一時雑音成分として記憶)：Nb
生成された一時フィルタ：Ｆ_ｔ(b,1)
生成時の目的信号識別コード：ID-V1(男性)
生成に使用した標準目的信号：V1 (ＨＳＬＮ男性)
上記ステップS1001〜ステップS1007の処理を定期的に、或いは使用話者の入力音声を検出する度に行う。

このフィルタ選択及び生成の動きを時間軸で示した例を図９に示す。

図９は、時間の経過によるフィルタ適用例を示したものであり、横軸が時間の経過を、縦軸に上から、
(A) 目的信号識別コード
(B) 雑音成分識別コード(或いは適合しなかった場合の一時雑音成分(Na、Nb等))
(C) 雑音差異(曲線)と閾値(点線)
(D) 一時フィルタ生成・適用区間
(E) 最終的なフィルタ適用結果を示す。

各タイミングでの時刻をTx(x＝0、1、・・・)と示し、標準フィルタをF(x,y) (x:標準雑音成分情報、y:標準目的信号情報)と示し、一時フィルタをＦ_ｔ(z,y) (ｚ:一時雑音成分情報、ｙ:標準目的信号情報)と示している。

尚、(B)の差異を表す曲線は、現在雑音成分と、対応する標準雑音成分との差異を示している。図によれば、この差異が時刻T1〜T2及びT4〜T5にかけて閾値を超えており、その時の雑音成分情報がそれぞれNa、Nbとして検出される。従って、それぞれの一時雑音成分(Na,Nb)と、該区間での目的信号の識別コードに対応する標準目的信号 (V1,V2)に基づき、一時フィルタが生成される。この例ではFt(a,1)、 Ft(b,2)が生成されている。その他の区間では、該当する標準目的信号情報と標準雑音成分情報に基づく標準フィルタが選択されている。すなわち区間T0〜T1では標準目的信号情報＝V1、標準雑音成分情報＝N1に基づき標準フィルタF(1,1)が、同様にしてT2〜T4にてF(1,4)が、区間T3〜T4にてF(2,4)が、T5〜T6にてF(2,1)が選択される。

一連の処理を続け、所定の記憶容量分データ対が蓄積された時点での一時記憶部104の内容例を図１０に示す。標準フィルタで対応できない雑音成分(Nt1、Nt2、・・・)が観測された際に生成された一時フィルタ (Ft(t1,1)、Ft(t2,1)・・・)とその他音環境情報が記憶されている。

尚、一旦生成されたフィルタを、以降のフィルタ選択処理におけるフィルタ候補に加えることで、類似する雑音が連続して検出されるような場合には該当する一時フィルタを継続して利用することができる。これは、該一時フィルタに対応する一時雑音成分(Nt1、Nt2、・・・)と、観測された現在雑音成分との差異が所定以下であるか否かの判定に基づき該一時フィルタの適用を決定すればよい。

図６のフローチャートに戻って標準フィルタ更新処理について説明する。

ステップS1008では、該一時記憶部104を参照し、所定数の一時フィルタ及び一時雑音成分を含む音環境情報が格納されているかを監視する。所定数蓄積されている場合はステップS1009へ、蓄積されていない場合は一連の処理を終了し、音環境情報取得処理へ戻る。

ステップS1009では、一時記憶部104に記憶されたデータ群における、雑音成分の識別コードを参照し、度数の多い識別コードが存在するかを判定する。特定の識別コードが多く含まれる場合は、該識別コードに係る音環境に対応する標準フィルタが無効化し、一時フィルタが頻繁に生成されていることを意味する。従って、この場合はステップS1010へ移行し、標準フィルタの更新処理を行う。

例えば、図１０に示すような一時記憶部104の記憶結果が得られており、この中で雑音成分の識別コード、ID-N2(車速区分10-30km/h、空調機レベル=1)のデータが大量に含まれている場合を考える。

この時、ステップS1010にて標準フィルタの更新を行う。更新の手法としては、以下のような手法が考えられる。
手法a)
問題の雑音成分情報の識別コード(ID-N2)と共に記憶される一時雑音成分群(Nt2、Nt3、Nt4、Nt6、・・・)を用いて、重心(中央値)となる代表一時雑音成分或いは一時雑音成分群の複数の信号からその信号の特徴を平均的に含む信号を合成した合成一時雑音成分を決定し、これを既存のID-N2に対応する標準雑音成分N2と置き換え、N2'とする。

該新規標準雑音成分(N2')と、標準目的信号(V0、V1、V2)を用いて再度適応処理により標準フィルタ(F'(2,0)'、F'(2,1)、F'(2,2))を再生成し、既存の標準フィルタを更新する。

この手法で標準雑音が更新される様子を模式的に図１１に示した。
一時雑音成分群から新たな標準雑音成分が生成され、対応する雑音の領域が変化していることが分かる。これにより雑音環境(識別コードID-N2)に対応する標準雑音が実際の雑音に近づき、標準フィルタで対応できるようになる。
手法b)
標準記憶部103に記憶された標準雑音全て(N1、N2、N3、N4等)と、一時記憶部104のID-N2と共に記憶される一時雑音成分群(Nt2、Nt3、Nt4、Nt6、・・・)を用いて、該信号群が適切に所望の分割数に分類されるよう、再度クラスタリング処理を行う。或いはID_N2に対応する雑音成分に限らず、一時記憶部104に記憶された一時雑音すべてを用いるようにしてもよい。この場合一回の処理で一時雑音環境に対する完全な適応はできないものの、蓄えられる一時雑音情報に基づき段階的に安定して標準雑音成分が更新されていく為、標準フィルタもそれに合わせて緩やかに適応していくこととなる。

この手法で標準雑音が更新される様子を模式的に図１２に示した。
標準雑音成分群に対し、一時雑音成分群を加えた状態で再度クラスタリング処理が行われ、標準雑音成分が新たに設定されていることが分かる。

尚、再クラスタリング処理では、分割数をクラスタリング前と変更しないものとする。これは、事前にクラスタリングを行う時点で、標準記憶部103の容量を加味して分割数を決めているためである。分割数を同じとすれば、フィルタ数も更新前と同じとなり、標準記憶部103に記憶することができる。記憶容量に予め余裕がある場合は、分割数を増やしても良い。

また、再クラスタリングにより、識別コードの内容が変化することを許す場合(すなわちID-N1：0−10km/h 空調機レベル0−2と設定した元の内訳の変更を可能にする場合)は、一時記憶部104に情報を記憶する際に、識別コードではなく、車両信号(この場合は車両速度と空調機レベル)を記憶するものとし、再クラスタリング処理時に、該車両信号の対応関係も分析し、新たな識別コードの内訳を定義すればよい。クラスタリング後の分割数の変化を許す場合も、この識別コードの再定義が必須となる。

ステップS1011では、ステップS1010で決定された標準雑音成分(N2'等)と、生成された新規フィルタF'(a,1)を、標準記憶部103の該当する標準雑音成分及び標準フィルタの記憶領域へ記憶・更新する。

更新後の標準記憶部103の機億例を図１３に示した。標準雑音成分N2及び対応する標準フィルタ(F'(2,0)'、 F'(2,1)、(F'(2,2)は省略))が更新されている。

図１４は、時間の経過によるフィルタ適用例を示したものであり、横軸が時間の経過を、縦軸に上から
（A）目的信号識別コード
（B）雑音成分識別コード(或いは適合しなかった場合の一時雑音成分(Na、Nb等))
（C）雑音差異(曲線)と閾値(点線)
（D）一時フィルタ生成・適用区間
（E）最終的なフィルタ適用結果
を示す。

図によれば、時刻T1まで、すなわち雑音環境識別コードがID-N1の間は、差異が閾値を超えて一時フィルタが生成されることがあまり無い。
一方、時刻T1以降すなわち雑音環境識別コードがID-N2となってから急激に差異が大きくなり、一時フィルタが頻繁に生成されている。

従って、一時雑音(図中のNa,Nb,・・・)を始めとするデータ対が一時記憶部104に蓄積され、時刻T2で所定数のデータが蓄積されたことで、標準フィルタ更新手段1053が、標準フィルタの更新の必要性を判定する。結果、雑音成分識別コードがID-N2となる時の標準フィルタが無効化していると判定し、対応するフィルタ(F(2,0)、F(2,1)、F(2,2))の更新を開始する。時刻T3において、標準フィルタの更新処理が完了し、雑音成分識別コードがID、2の時に標準フィルタで対応できるようになる。結果として時刻T3以降は一時フィルタの生成頻度が低くなっている。

上述の標準フィルタ更新処理は、フィルタ選択処理や、一時フィルタ生成処理程の即時性を要しないため、演算処理装置の負荷が少ないタイミング等を対象として、十分な学習時間をかけて適応処理を行わせるようにすることが好ましい。これによりより現在の音環境に適合した標準フィルタに更新することができる。

尚、本実施形態では、雑音監視手段1022において雑音自体ではなく雑音成分と車両信号とを対応させた識別コードを用いることで雑音環境を判定する構成とした。別の手法として、雑音成分自体を監視してフィルタを選択、生成する手法も考えられる。この場合は、フィルタ選択時に標準記憶部103に保持する標準雑音成分全てと現在雑音成分との差異を比較し、差異が最小となる標準雑音成分が現在の雑音環境と判定することとなる。従って、識別コードの定義は不要であり、標準フィルタの更新における再クラスタリング処理も、蓄積した一時雑音成分を用いて行えばよい。ただし、フィルタ選択時等即時性を要求される際にも全ての表中雑音との比較が必要となるため、演算処理装置の処理能力が高いことが前提となる。

以上の音環境監視部102の監視処理及びフィルタ部106のフィルタ選択、生成処理の結果を受け、フィルタ部106は、前記音環境監視部102の音声区間判定手段1021が音声を検出した際に、フィルタ制御部105が選択或いは生成した標準フィルタ、一時フィルタ用いて、フィルタリング処理を施す。フィルタ部106によってフィルタリングされた音声信号は、例えば音声認識装置やハンドフリー電話へ送出される(図１の矢印(b))。

上述した一連の処理により、観測される音環境に応じ、対応する標準フィルタが予め用意されている場合には該フィルタを適用でき、フィルタで対処できない場合のみ暫定的に一時フィルタを生成する為、フィルタ演算処理を軽減できる。また、該一時フィルタの生成が局所的に増え、該標準フィルタが無効化していると判定された場合には、標準フィルタの更新処理を行い、現在の音環境に適合するよう序々に変化させていくことで、標準フィルタの適合する音環境を保つことができ、全体として演算付加と雑音抑圧性能のバランスを最適化することが可能となる。

［第２実施形態］
本実施形態では、マイクロフォンを２チャネル以上用いる、マイクロフォンアレーを構成する場合について説明する。

本実施形態の基本的構成は第１実施形態と共通であり、音入力部101、音環境監視部102、標準記憶部103、一時記憶部104、フィルタ制御部105、フィルタ部106から構成される。

各機能も基本的な部分は共通である。以下には、本実施形態の特徴部分について説明する。

音環境監視部102の雑音監視手段1022は、車室内の雑音の到来方向に関する情報を監視するものであり例えば車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報等とすることができる。これら情報を組み合わせることで、現在の雑音がどの方向から到来するものであるかを判定する。或いは例えば定期的に入力音から雑音成分の到来方向を方位推定等の方法を用いても良い。

例えば、
・窓の開閉情報を用いて空いている窓の方向を雑音成分到来方向とする、
・空調機の風量レベルが所定以上の場合、空調機吹き出し口方向を雑音成分到来方向とする。
・ワイパーが動作している場合、ワイパー方向を雑音成分到来方向とする、
・二人以上乗車の際に、撮像手段から発話衝突を検出し、特定の一人の音声以外を雑音とみなし、当該方向を雑音成分到来方向とする
等と判定できる。
尚、発話衝突に関しては、目的音声の決定方法として、常に運転車を優先する、先に発話を開始した話者を優先する、特定のキーワードの発話や、特定の身体動作をした話者を優先する、あるいは予め使用者に優先話者を決定させる等とすればよい。

音環境監視部102の音声監視手段1023は、車室内の目的信号である目的話者音声の到来方向に関する情報を監視するものであり、監視情報としては、例えば車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報等とすることができる。これら情報を組み合わせることで、現在の入力音声がどの方向から到来するものであるかを判定する。或いは入力音から目的信号の到来方向を方位推定する手法をとっても良い。

例えば、撮像手段による口の動きの検出から、運転席及び助手席乗員のうち、どちらが音声入力を行っているかを判定し、当該口位置を目的信号到来方位と判定する。尚、複数話者が同時に発話する場合の対処については上述のとおりである。

標準記憶部103では、音環境監視部102の音声監視手段1023が監視結果として得る情報を想定した１．標準音声情報、及び雑音監視手段1022が監視結果として得る情報を想定した２．標準雑音情報、そしてこの音声環境と雑音環境の組み合わせからなる車室内音環境において、目的音声到来方向を収音方向とし、雑音到来方向雑音を抑圧方向とする音源分離フィルタである３．標準フィルタを予め記憶しておく。１、２、３の各データは、複数保持するようにすることが好ましい。
尚、標準フィルタとしての音源分離フィルタは、上述のような想定する音環境すなわち目的信号と雑音成分が別の方向から到来する環境を実際に再現あるいは計算機上でシミュレートする等して音信号データを取得し、ＢＳＳ(ブラインド音源分離)手法等によって該目的信号と雑音成分を分離するフィルタを生成することが好ましい。本フィルタは予め生成して保存するものであるので、生成時間等を考慮する必要は無い。従って、より精密な音源分離フィルタとして、標準フィルタを生成することができる。

図１５に標準記憶部103の記憶例を示した。この例によれば、標準雑音成分情報すなわち雑音の到来方向として、
N1: 助手席口方向、N2：運転席口方向、N3：運転席窓方向
の３種類を、標準音声情報すなわち目的音の到来方向として、
V1：運転席口方向、V2：助手席口方向の２種類を想定し、計４つの標準フィルタF(1,1)、F(2,2)を記憶している。

フィルタ制御部105は、フィルタ選択手段1051と、一時フィルタ生成手段1052と、標準フィルタ更新手段1053とから構成される。

その処理フローを以下に説明する。

先ずフィルタ選択手段1051にて、前記雑音監視手段1022及び音声監視手段1023から得られる雑音成分情報、目的信号情報と、標準記憶部103に記憶された標準雑音成分情報及び標準目的信号情報とを比較・照合し、適合する到来方向を有する音環境が存在するかを判定する。

適合する音環境がある場合は当該音環境に対応する標準フィルタが選択され、無い場合は、一時フィルタ生成手段1052による一時フィルタ生成処理へと移行し、現在の雑音成分情報、目的信号情報を用いて、雑音成分到来方向を抑圧し、目的信号到来方向に指向性を向けるような音源分離フィルタが生成される。

この時の一時フィルタ生成手法としては、上述のＢＳＳ法等の他、遅延和型、適応型アレーによるビームフォーミング等を利用するようにしても良い。尚ＢＳＳ等、目的信号、雑音成分の到来方向を与えずとも自動的に到来方向を予測し適応できるアルゴリズムであっても、該雑音成分情報および目的信号情報として得られた到来方向に関する情報を基にしたビームフォーマとなるフィルタを初期値として教示するのが好ましい。これにより、安定かつ少ない処理で該到来方向に指向性或いは死角を持ったフィルタを生成することができる。

生成された一時フィルタは、生成時の目的信号情報及び雑音成分情報と共に一時記憶部104へ記憶される。また、一旦一時フィルタが生成されて以降は、該一時フィルタも選択候補に加えることで、同じ環境が継続する場合に該一時フィルタを継続して適用することが可能となる。

こうしたフィルタ選択部及び一時フィルタ生成部の動作を図１６、１７に示す。標準記憶部103には、図１４の4種類のフィルタが記憶されているものとする。図は、車両上面から車室内を見た状況であり、話者を囲む楕円領域がマイクロフォンの収音領域とする。この例では、死角制御型のフィルタを用いた場合を示した。

図１６の(a)は運転者と助手席話者の発話が衝突している場合である。音環境監視部102の音声監視手段1023は、運転者口方向を目的信号到来方向と判定し、これを目的信号情報とする。一方雑音監視手段1022は、助手席話者口方向を雑音成分到来方向と判定しこれを雑音成分情報とする。該目的信号情報及び雑音成分情報と、標準記憶部103の標準目的信号情報及び標準雑音成分情報とを照合し、適合する音環境があるかを判定する。この例の場合、標準記憶部103の標準雑音成分情報N1(助手席口方向)、及び標準目的信号情報V1(運転席口方向)が現在音環境に適合する。したがって上記N1、V1からなる音環境すなわち図１４中のインテックス＝１にあたる標準フィルタF(1,1)が選択される。したがって、助手席話者の雑音が抑圧された入力音を取得することができる。

図１６の(b)は、運転者発話時に運転席の窓が空いている状況である。この場合も同様、音環境監視部102において目的音声到来方向を運転者口方向、雑音到来方向を運転者窓方向と判定され、インデックス(Index)＝３にあたる音環境が現在音環境に合致する為、対応する標準フィルタF(3,1)が選択、適用される。従って、運転席窓方向の雑音が抑圧された信号を取得することができる。

一方、図１７は、運転者発話時に、助手席側後部座席に雑音を発生する話者が検出される状況を示している。音環境監視部102は、目的音声到来方向を運転者口方向、雑音到来方向を後部中央座席乗員口方向と判定する。しかしながら、一時記憶部104にはこの音環境に対応する標準フィルタが存在しない。従って、一時フィルタ生成手段1052における一時フィルタ生成処理に移行し、該音環境に対応する一時フィルタF(a,1)が生成・適用される。この結果、助手席側後部座席の話者方向からの雑音が抑圧された入力音を取得することができる。

本標準フィルタは、予め想定した車室内の音環境に沿って生成、記憶したものであり、一般的な車両使用状況から、発生する雑音の種類、方向等を鑑みて設定される。しかしながら、この一般的な使用状況に当てはまらない音環境が頻繁に発生する使用形態もあり得る。こうした事態に対処する為に、標準フィルタ更新手段1053が作用する。

標準フィルタ更新手段1053は、前記標準フィルタと一時フィルタの適用状況を監視することで、標準フィルタが当該車両において著しく不適合になっていないかを判定し、不適合と判定される場合に該標準フィルタの更新を行う。

標準フィルタを更新する条件としては、例えば、
・目的信号情報および雑音成分情報を所定期間にわたり監視し、その結果標準記憶部103に記憶(想定)されている雑音成分及び目的信号の到来方向以外の各到来方向が頻繁に検出されていると判定される場合等が考えられる。

そして、標準フィルタの更新手段としては、
i) も使われていない標準フィルタを削除し、頻繁に検出される雑音成分情報及び目的信号情報に対応する一時フィルタを標準フィルタとして再登録する。
ii) 繁に検出される雑音成分情報及び目的信号情報に最も類似する音環境に対応する標準フィルタを再適応する等が考えられる。

この標準フィルタ更新手段1053の具体的な動作例を示す。

尚、標準記憶部103には、図１５の4種類のフィルタが記憶されているものとする。

更新手段i)の例
標準フィルタ更新手段1053は、図１７で示したような音環境が、所定の頻度を超えて検出され、一時フィルタF(a,1)が生成されている状況であると判定する。そこで、標準記憶部103の標準フィルタのうち、最も適用頻度の少ないフィルタを決定する。例えば図１８の(a)の、運転席乗員方向を目的信号到来方向とする雑音抑圧フィルタすなわち一時フィルタF(1,1)が選ばれたとする。そこで、標準フィルタ更新手段1053は、図１８の(b)に示すように、該標準フィルタF(1,1)を削除し、該一時フィルタF(a,1)を新たな標準フィルタF'(1,1)とする。この時、対応する標準記憶部103の標準雑音成分情報(到来方向：助手席乗員)も一時フィルタF(a,1)生成時の一時雑音成分情報(到来方向：助手席側後部座席)へと更新する。

更新後の標準記憶部103の内容を図２０に示す。この手法によれば、使われていないフィルタの代わりに最も頻繁に発生する音環境に対応するフィルタを標準フィルタとして得ることができる。

更新手段ii)を適用する例
更新手段i)同様、標準フィルタ更新手段1053は、図１６で示したような音環境が、所定の頻度を超えて検出され、一時フィルタF(a,1)が生成されている状況であると判定する。

標準フィルタ更新手段1053は、この音環境に最も類似する音環境に対応するフィルタを選択する。すなわち、図１４に示す標準記憶部103の標準フィルタのうち、最も近い雑音到来方向を定義した標準フィルタF(1,1)(図１８の(a))を選択する。

そして、該標準フィルタを初期値とし、更に助手席側後部座席乗員方向を雑音到来方向に加えたフィルタを生成する。具体的には、運転席位置を目的信号到来方向、助手席乗員及び助手席側後部座席乗員方向を雑音到来方向と仮定した擬似信号を生成し、これを用いて雑音成分方向を抑圧する音源分離フィルタを再適応する。結果として、図１８の(a)のフィルタが(b)のように再適応される。更新後の標準記憶部103の内容は、前述と同様、図２０のようになる。この手法によれば、元のフィルタの性能をある程度残しつつ、現在の音環境に応じたフィルタを標準フィルタとして得ることができる。

また、例えば上記i)、ii)の更新法を併用し、ある程度の頻度まではii)の手法で、元のフィルタ形状を残しつつ更新を行い、その後の監視結果から予め想定した雑音到来方向から雑音が入力する頻度が著しく低いときにi)の手法で完全にフィルタを切り替える等としてもよい。

上述した一連の処理により、フィルタ制御手段は、観測される雑音に対し、対応できるフィルタが存在する場合は適切なフィルタが選択されるため、フィルタの演算処理を軽減できる。さらに、対応するフィルタが存在しない場合でも、その音環境に適したフィルタを暫定的に生成、適用することができるうえ、該暫定フィルタが頻繁に生成される状況に陥った場合でも、標準フィルタを更新することで該音環境下に適したフィルタへと適応することができるため、雑音抑圧効果を保つことができる。

［第３実施形態］
本実施形態の基本的構成は、第１実施形態と共通であり、音入力部101、音環境監視部102、標準記憶部103、一時記憶部104、フィルタ制御部105、フィルタ部106から構成される。

各機能共、基本的な部分は第１実施形態と共通である。以下には本実施形態の特徴部分について説明する。

音環境監視部102の音声監視手段1023は、車室内の話者の音声に関する情報を監視するものであり、監視情報としては、たとえば話者の音声信号や、車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報等とすることができる。この音声監視情報によって、音声の周波数的特徴等を判定する。更に音声監視手段1023は、上記音声区間判定手段1021と連携し、音声を検出した区間において、Ｓ／Ｎが十分に大きいと判定された場合に、該音声を一時目的信号Vtとして一時記憶部104に記憶する機能も備える。

この時、一時目的信号と共に、目的信号監視結果である識別コード(ID-V1等)も同時に記憶する構成とする。

尚、該一時目的信号は、使用者の音声が属する標準目的信号情報(図５のV1やV2等)に含まれる標準目的信号(男性ＨＳＬＮ、女性ＨＳＬＮ等)を初期値とし、高Ｓ／Ｎ音声が観測される度に、該標準音声に使用者の音声を加算していく構成としてもよい。すなわち、高Ｓ／Ｎ音声Vtの識別コードがID-V1であれば、男性ＨＳＬＮに該音声を加算する等とする。これにより高Ｓ/Ｎの使用者音声を観測するにつれ、より使用者の音声特徴成分に最適化された一時目的信号が形成されていく。或いは、標準目的信号(V0:男女ＨＳＬＮ)等に使用者全員の音声を加算していく構成としても良い。これにより、その車両で音声入力を行う乗員複数名に最適化された一時目的信号が形成されていく。

フィルタ制御部105は、音環境監視部102から得られた現在の音環境情報と、標準記憶部103の標準音環境情報に基づき、標準記憶部103から標準フィルタを選択する処理(フィルタ選択手段1051による)と、現在の音環境に対応する標準フィルタが無い場合に、一時フィルタを生成する処理(一時フィルタ生成手段1052による)とを行う。

フィルタ制御部105は、フィルタ選択手段1051と、一時フィルタ生成手段1052と、標準フィルタ更新手段1053とから構成される。その動作は第１実施形態と同様であり、フィルタ選択手段1051にて、音環境に対応する標準フィルタがある場合はそれを選択し、無い場合には一時フィルタ生成手段1052にて、その時の雑音に対応する暫定的な一時フィルタを生成させる。標準フィルタ更新手段1053は、該標準フィルタが無効化していないかを判定すると共に、無効化している標準フィルタがある場合には、蓄積した一時雑音成分等を用いてこれを更新する。

この一時フィルタの生成及び標準フィルタの更新に際し、前記目的信号監視部で高Ｓ／Ｎ音声を検出し、該音声を一時目的信号として一時記憶部104に記憶済みである場合は、標準目的信号(V0、V1、V2)等を用いる代わりに、該一時目的信号を用いることが本実施形態の特徴である。

フィルタ制御部105の具体的な処理を図２１のフローチャートを用いて説明する。

第１実施形態と共通の処理に関しては簡単に標記する。

ステップS2001では、音環境監視部102より現在の雑音情報及び音声情報を取得する。

ステップS2002では、標準記憶部103を参照し、標準雑音成分情報及び標準目的信号情報を得る。例えば、標準記憶部103は、図４の内容の情報を記憶しているものとする。

ステップS2003では現在の雑音成分の識別コードと標準雑音成分の識別コード及び、現在の目的信号の識別コードと標準目的信号の識別コードをそれぞれ照合し、現在の音環境に対応する標準記憶部103の標準音環境(標準雑音成分情報と標準目的信号の組み合わせ)を決定する。

ステップS2004では、前記現在雑音成分(Na等)と雑音成分の識別コードに対応する標準雑音成分(N2等)との差異を算出し、該差異が所定の閾値を超えない場合はフィルタ選択処理を継続しステップS2005へ、超える場合はステップS2006以降の一時フィルタ生成処理へと進む。

ステップS2005では、ステップS1003で決定された雑音情報の識別コード及び目的信号の識別コードの組み合わせに対応する標準フィルタを選択する。

ステップS2006では、一時記憶部104を参照し、使用者の高Ｓ／Ｎ音声すなわち一時目的信号(Vt)が記録済みであるか否かを判定する。記録済みである場合はステップS2007へ、記録されていない場合はステップS2008へ移行する。

ステップS2007では、一時雑音成分(Na等)と一時記憶部104の一時目的信号(Vt)を用いて、適応処理により一時フィルタ(ここではFt(a,t)と記す)を生成する。ただし、該一時目的信号の識別コード(ID-V1等)と、現在の目的信号の識別コードが異なる場合は、識別コードが一致する標準目的信号(ID-V2等)を用いて一時フィルタを生成する。

ステップS2008では、現在雑音成分(Na)とステップS1003で決定された目的信号の識別コードに対応する標準目的信号(V1等)を用いて、適応処理により一時フィルタ(ここではFt(a,1)と記す)を生成する。

ステップS2009では、生成した一時フィルタを、生成時の標準音声情報及び現在雑音情報と共に一時記憶部104に記憶する。

ステップS2010では、一時記憶部104を参照し、所定数の一時フィルタ及び一時雑音成分を含む音環境情報が格納されているかを監視する。所定数蓄積されている場合はステップS2011へ、蓄積されていない場合は一連の処理を終了し、音環境情報取得処理へ戻る。

ステップS2011では、一時記憶部104に記憶されたデータ群における、雑音成分の識別コードを参照し、度数の多い識別コードが存在するかを判定する。特定の識別コードが多く含まれる場合は、該識別コードに係る音環境に対応する標準フィルタが無効化していると判定し、ステップS2012へ移行する。

ステップS2012では、一時記憶部104を参照し、使用者の高Ｓ/Ｎ音声すなわち一時目的信号(Vt)が記録済みであるか否かを判定する。記録されていない場合はステップS2013へ、記録されている場合はステップS2014へ移行する。

ステップ2013では、蓄積された一時雑音成分群と、該一時目的信号を用いて標準フィルタの更新を行う。更新の手法は第１実施形態と同様である。すなわち、一時雑音成分群から新たな標準雑音成分を生成し更新する。そして元の標準雑音成分に係る標準フィルタは全て更新する。すなわち、更新された標準雑音成分がN1'であるなら、N1'と標準目的信号V0、V1、V2の組み合わせからなる標準フィルタF'(1,0)、F'(1,1)、F'(1,2)を生成し、更新する。更新後の標準記憶部103は例えば図２２のようになる。塗りつぶされた部分が更新されたデータを示している。

これに対し、ステップS2014では、一時雑音成分群から新たな標準雑音成分を生成し更新した後、標準目的信号を一時目的信号で更新する。例えば該一時雑音成分の識別コードがID-V1(男性)である場合は、標準目的信号V1を該一時目的信号で更新する。そして、更新された標準雑音成分(N1')と、標準目的信号(V1')に係る標準フィルタを生成し、該当する標準記憶部103の記憶領域へと記憶する。更新後の標準記憶部103は例えば図２３のようになる。塗りつぶされた部分が更新されたデータを示している。

上述した一連の構成及び処理手段により、第１実施例と同様の効果が得られるのに加え、目標信号となる音声信号が徐々に使用者音声に最適化されていく為、一時フィルタ生成時及び標準フィルタ更新時には、より使用者音声に適合したフィルタを生成することが可能となる。

第１実施形態の基本構成を示したブロック図である。第１実施形態の具体的な実現手段を示したブロック図である。雑音の分類を示した図である。第１実施形態の標準フィルタ生成処理を示したのブロック図である。第１実施形態の標準記憶部の記憶例を示す図である。第１実施形態のフィルタ選択処理を示す図である。第１実施形態(雑音監視手段による最類似雑音の選択(閾値内))を示す図である。第１実施形態の一時フィルタ生成手段の適応処理を示す図である。第１実施形態の差異判定とフィルタ選択を示す図である。第１実施形態の一時記憶部の記憶例を示す図である。標準フィルタの更新を示した模式図である。標準フィルタの更新を示した模式図である。第１実施形態の標準記憶部の記憶例を示す図である。第１実施形態の標準フィルタ更新処理のタイミングを示す図である。標準記憶部(第２実施形態)を示す図である。第２実施形態(標準フィルタで対応する場合)を示す図である。第２実施形態(標準フィルタに対応するものがない場合(一時フィルタ))を示す図である。第２実施形態(標準フィルタ更新法１)を示す図である。第３実施形態(標準フィルタ更新法２)を示す図である。標準記憶部(更新後)を示す図である。第３実施形態のフィルタ選択・更新処理を示す図である。第１実施形態の標準記憶部の記憶例を示す図である。第１実施形態の標準記憶部の記憶例を示す図である。

符号の説明

101…音入力部、102…音環境監視部、103…標準記憶部、、104…一時記憶部、105…フィルタ制御部、106…フィルタ部、201…マイクロフォン、202…ＡＤ変換部、203…演算装置、204…記憶装置、301…加算器、302…フィルタ、303…加算器、401…加算器、402…フィルタ、403…加算器、1021…音声区間判定手段、1022…雑音監視手段、1023…音声監視手段、1051…フィルタ選択手段、1052…一時フィルタ生成手段、1053…標準フィルタ更新手段。

Claims

音信号を取得する１つ以上の音入力手段を有する音入力部と、該音入力部から取得された入力音から雑音成分を除去するフィルタ部とを有する音声入力装置において、
前記入力音から音声区間と非音声区間とを判定する音声区間判定手段と、前記音入力部が取得した入力音から、雑音成分に関する情報を含む雑音成分情報を監視し取得する雑音監視手段と、前記入力音から、使用者が入力した目的信号に関する情報を含む目的信号情報を監視し取得する音声監視手段とから構成される音環境監視部と、
少なくとも１つ以上の標準音環境および該標準音環境に対応する標準フィルタを記憶する標準記憶部と、
前記雑音監視手段が取得した雑音成分情報と、前記音声監視手段が取得した目的信号情報とに基づいて、音環境に適合する、該標準記憶部に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択して前記フィルタ部の内容とするフィルタ選択手段と、該音環境監視部から得られた情報と、該標準記憶部に記憶されている該標準音環境とが適合しない場合に、一時フィルタを作成して前記フィルタ部の内容とする一時フィルタ生成手段と、該一時フィルタの生成が局所的に増え、該標準フィルタが無効化していると判定された場合に、該音環境監視部から得られた音環境情報によって構成される情報空間における情報ベクトルの集合と、該標準記憶部に記憶されている該標準音環境によって構成される情報空間における情報ベクトルの重心点との距離が所定の閾値を超えるとき、前記音環境情報に適応するよう該距離が小さくなるように、前記標準音環境および該標準音環境に対応する該標準フィルタを更新する標準フィルタ更新手段とから構成されるフィルタ制御部と、
前記一時フィルタを記憶する一時記憶部と、
を有することを特徴とする音声入力装置。
前記標準記憶部は、雑音成分に関する情報を含む標準雑音成分情報と、目的信号に関する情報を含む標準目的信号情報と、該標準雑音成分情報及び標準目的信号情報によって定義された音環境下で雑音を抑圧する標準フィルタとを保持することを特徴とする請求項１記載の音声入力装置。
前記標準記憶部の記憶する標準雑音成分情報とは、実環境において発生することが予測される雑音成分をＮ個のＭ次元代表点を用いて表現した信号であり、前記標準記憶部の記憶する標準目的信号情報とは、実環境において入力されることが予測される目的信号をＸ個のＹ次元代表点を用いて表現した信号であり、前記標準記憶部の記憶する標準フィルタとは、該標準雑音成分情報と該標準目的信号情報とから定義される音環境下で雑音を抑圧するように生成したフィルタであることを特徴とする請求項２記載の音声入力装置。
前記標準フィルタ更新手段は、実環境において発生することが予測される雑音成分をＮ個のＭ次元代表点を用いて表現した信号と、前記雑音監視手段から得られた雑音成分の集合との距離が所定の閾値を超えるとき、該距離が小さくなるように、前記雑音監視手段から得られた雑音成分の集合と、１つ以上の該代表点によって表現された信号とを用いて、該代表点と、該代表点によって表現された信号が定義される音環境下で雑音を抑圧するように生成した標準フィルタとのいずれも更新することを特徴とする請求項１記載の音声入力装置。
音信号を取得する二つ以上の音入力手段を有する音入力部と、該音入力部から取得された入力音から雑音成分を除去するフィルタ部とを有する音声入力装置において、
前記入力音から音声区間と非音声区間とを判定する音声区間判定手段と、前記音入力部が取得した入力音から、使用者が入力した目的信号の到来方向に関する情報を含む目的信号情報を監視し取得する音声監視手段と、前記入力音から、雑音成分の到来方向に関する情報を含む雑音成分情報を監視し取得する雑音監視手段とから構成される音環境監視部と、
少なくとも１つ以上の音環境を想定した標準音環境情報および該標準音環境によって定義された音環境下で雑音を抑圧する標準フィルタを記憶する標準記憶部と、
前記雑音監視手段が取得した雑音成分情報と、前記音声監視手段が取得した目的信号情報とに基づいて、音環境に適合する、該標準記憶部に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択するフィルタ選択手段と、該音環境監視部から得られた情報と、該標準記憶部に記憶されている該標準音環境とが適合しない場合に、一時フィルタを作成する一時フィルタ生成手段と、該一時フィルタの生成が局所的に増え、該標準フィルタが無効化していると判定された場合に、該音環境監視部から得られた音環境情報によって構成される情報空間における情報ベクトルの集合と、該標準記憶部に記憶されている該標準音環境によって構成される情報空間における情報ベクトルの重心点との距離が所定の閾値を超えるとき、前記音環境情報に適応するよう該距離が小さくなるように、前記標準音環境および該標準音環境に対応する該標準フィルタを更新する標準フィルタ更新手段とから構成されるフィルタ制御部と、
前記一時フィルタを記憶する一時記憶部と、
を有することを特徴とする音声入力装置。
前記フィルタ選択手段は、前記音環境監視部が取得した雑音成分情報及び目的信号情報に適合する情報が標準記憶部にない場合に、該雑音成分情報及び目的信号情報に近い標準雑音成分情報及び標準目的信号情報を決定し、対応する標準フィルタを参照する機能を有し、
前記一時フィルタ生成手段は、該標準フィルタを初期値として、現在音環境に対応する雑音抑圧フィルタを生成し、一時フィルタとすることを特徴とする請求項１記載の音声入力装置。
前記一時フィルタ生成手段は、前記音環境監視部から得られた情報と、前記標準記憶部に記憶されている標準音環境とが適合しない場合に、前記標準記憶部に記憶された標準目的信号を目的信号とし、該標準目的信号と現在の雑音信号とから生成した信号を擬似観測信号とし、該標準目的信号と該擬似観測信号とを用いてフィルタを生成し、該フィルタを前記フィルタ部の内容とすることを特徴とする請求項１記載の音声入力装置。
前記音環境監視部は、前記音入力手段から取得された音信号を分析し、音声信号の大きさに対して雑音の大きさが無視できるとの結果を得た場合に、該音声信号を一時目的信号として前記一時記憶部に記憶する機能を有し、
前記一時フィルタ生成手段は、前記音環境監視部から得られた情報と、前記標準記憶部に記憶されている標準音環境とが適合しない場合に、前記一時記憶部に記憶された前記一時目的信号を目的信号とし、前記一時目的信号と現在の雑音成分とから生成した擬似観測信号を観測信号とし、該目的信号と該観測信号とを用いて雑音成分抑圧フィルタを生成し、該雑音成分抑圧フィルタを前記フィルタ部の内容とすることを特徴とする請求項１記載の音声入力装置。