JP2006039267A

JP2006039267A - 音声入力装置

Info

Publication number: JP2006039267A
Application number: JP2004219962A
Authority: JP
Inventors: Daisuke Saito; 大介斎藤; Mitsunobu Kaminuma; 充伸神沼
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-07-28
Filing date: 2004-07-28
Publication date: 2006-02-09

Abstract

【課題】車室内の音声を、ノイズが低減された状態で取得することができる音声入力装置を提供すること。
【解決手段】車室内部を撮像する撮像部101と、撮像部101から得られる映像を解析し、ノイズ特徴を判定する解析判定部102と、入力音を取得する音声入力部105と、該入力音に含まれるノイズを低減するフィルタを複数記憶するフィルタバンク104と、解析判定部102により判定されたノイズ特徴に基づいて、該入力音に含まれるノイズ成分を低減し、音声成分を強調して抽出するためのフィルタをフィルタバンク104から少なくとも一つ選択して適用するフィルタ選択部103と、フィルタ選択部103によって選択されたフィルタを用いて入力音をフィルタリングするフィルタ部106とを有することを特徴とする音声入力装置を構成する。
【選択図】図１

Description

本発明は音声入力装置に関し、特に、車室内に設置される音声入力装置に関する。

近年、自動車において、ナビゲーション装置やオーディオ装置、空調装置などの操作入力を音声でも行えるように音声認識装置を備えるものが提供されている。また、車室内で車両操作を行いながら電話を使用するために、ハンドフリー電話装置を備えるものも提供されている。こうした装置は、音声信号を取込むマイクロホンを備え、ユーザの発話音声を入力・処理するように構成されている。

しかしながら、マイクロホンには、音声信号のみならず、車両のエンジンや空調機の稼働音、或いは走行によって発生する風音、ロードノイズ、そして、車室内の空調風、オーディオ音などの雑音が同時に入力される為、音声認識の精度や、通話音声の明瞭性を高めるため、前記音声入力信号からノイズ成分を低減することが必要となってくる。

特開平５−４６５８３号公報特開２００３−１８７２４７号公報論文：S.Boll, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. Acoustics,Speech and Signal Processing, vol. ASSP-27, pp.113-120, 1979．

入力音に含まれるノイズ成分を低減する手法として、従来から幾つかのフィルタリング手法が提案されている。

例えば、上記非特許文献１に記載されているスペクトルサブトラクション法(ＳＳ法)は、無音区間(音声を発していない時間)のノイズ特徴を用いてノイズスペクトルを推定し、ノイズを含む音声信号スペクトルからノイズスペクトルを減算する方法である。しかしながら、この手法は無音区間の音環境が音声入力中も継続していることが前提であるため、音声入力中にノイズ環境が変化する場合などには対処することが困難であった。

本発明は上記問題に鑑みてなされたものであり、本発明が解決しようとする課題は、車室内の音声を、ノイズが低減された状態で取得することができる音声入力装置を提供することである。

上記課題を解決するために、本発明においては、車室内を撮像手段にて撮像することにより、車室内のノイズ源の位置やノイズの種類といったノイズ特徴を判定し、判定結果に基づき、該ノイズを低減するフィルタを選択し、そのフィルタを用いて車室内の音声に対してフィルタリング処理を行い、ノイズが低減された状態で車室内の音声を取得することができる音声入力装置を構成する。

本発明の実施により、車室内を撮像手段にて撮像し、その結果に基づいてノイズを低減するフィルタを選択し、フィルタリング処理を行うことによって、車室内の音声を、ノイズが低減された状態で取得することができる音声入力装置を提供することが可能となる。

以下に、発明を実施するための最良の形態を、実施形態例によって詳細に説明する。

［第１実施形態］
（基本構成と動作）
はじめに本発明の基本構成と動作を、図１、２を用いて説明する。図１は本発明に係る音声入力装置の全体構成を示すブロック図であり、図中の矢印(a)は入力音を、矢印(b)は車両室内の映像を、矢印(c)は出力情報をそれぞれ示す。図２は本発明に係る音声入力装置の概略構成を示した図である。

図１に示したように、本発明に係る音声入力装置は、車室内部を撮像する撮像部101と、撮像部101から得られる映像を解析し、ノイズ特徴を判定する解析判定部102と、入力音を取得する音声入力部105と、該入力音に含まれるノイズを低減するフィルタを複数記憶するフィルタバンク104と、解析判定部102により判定されたノイズ特徴に基づいて、ノイズ低減フィルタをフィルタバンク104から少なくとも一つ選択して適用するフィルタ選択部103と、フィルタ選択部103によって選択されたフィルタを用いて入力音をフィルタリングするフィルタ部106とを有する。

撮像部101は車両内部の映像矢印(b)を撮像するものであり、例えばカメラ(図２の32)とＡＤ変換部(図２の33)を単数、或いは複数個組み合わせることで実現される。

解析判定部102は、撮像部101から得られた車室内画像を解析し、乗員や積載物の動きを検出し、この検出結果から、現在の車室内ノイズ環境を判定するものであり、演算装置(図２の34)と記憶装置(図２の35)を組み合わせることで実現される。

フィルタ選択部103は、解析判定部102から得られたノイズ環境を用いて、該状況でノイズ低減に効果を発揮するフィルタをフィルタバンク104から選択するものであり、演算装置(図２の34)と記憶装置(図２の35)を組み合わせることで実現される。

フィルタバンク104は、あらかじめ複数のノイズ環境に合わせて作成したノイズ低減フィルタを記憶しておくものであり、記憶装置(図２の35)の一部分として実現される。

音声入力部105は、使用者の発話音声(図１の矢印(a))を音声信号に変換するものであり、音声をアナログ電気信号に変換する為のマイクロホン(図２の31、図中、「マイク」で表示)、アナログ信号をデジタル信号に変換するＡ／Ｄ変換部(図２の33)等を単数、或いは複数個組み合わせることで実現される。

フィルタ部106は、フィルタ選択部103がフィルタバンク104から選択したフィルタを用いて、音声入力部105から得られた入力音信号に対してフィルタリング処理を行うものであり、演算装置(図２の34)と記憶装置(図２の35)を組み合わせることで実現される。

フィルタ部106によってフィルタリングされた音声信号は、出力情報(図１の矢印(c))として、音声認識装置やハンドフリー電話へ送出される。

本実施形態の基本動作を図３のフローチャートに示す。尚、このフローチャート上では、ノイズ判定処理(ステップS101〜S106)とフィルタリング処理(ステップS111〜S114)の２処理が独立して動作するものとし、ノイズ判定処理は音声入力の有無に関わらず、新規映像が取得されるたびにノイズ環境の判定を行う。フィルタリング処理は、音声が入力された場合のみ処理を行い、その時点でのノイズ特徴に応じたフィルタを選択してフィルタリングを行うように構成される。

ノイズ判定処理は以下の通りである。
ステップS101では、撮像部101からの映像情報の取得を試み、取得できた段階で(S101:Yes)、解析判定処理に移行する。映像情報の取得ができない場合は(S101:No)再度取得を試みる。
ステップS102では、取得した映像から、車室内に存在する乗員及び積載物を抽出する。
ステップS103では、抽出した各物体を動画像に対し連続抽出及び追跡をすることで、物体の時系列変位情報を得る。
ステップS104では、抽出した変位情報をもとに、物体の動作を認識し、該物体がノイズを発生しているか否か、発生している場合にはそのノイズの種類を判定する。
ステップS105では、ノイズ発生の有無判定でノイズ有りと判定された物体(ノイズ源)の位置、及び該物体が発するノイズの種類を判定する。
ステップS106では、判定されたノイズ源位置とノイズの種類を「ノイズ特徴」として参照し、該ノイズ特徴を反映したノイズ低減フィルタをフィルタバンク104から選択・更新する。

一方、フィルタリング処理は、以下の通りである。
ステップS111では、音声入力の有無を監視する。音声入力の開始を検出した場合(S111:Yes)、ステップS112の処理に移行する。
ステップS112では、解析判定部102及びフィルタ選択部103において処理、選択されたフィルタを読み出す。
ステップS113では、選択されたフィルタを用いて入力信号をフィルタリングする。
ステップS114では、音声終端の有無を検出し、音声終端でない場合(S114：No)すなわち音声が更に継続して入力されている場合は、フィルタ読み出し(S112)からの処理を繰り返し、音声終端を検出した場合(S114:Yes)は、音声入力処理を終了する。

以上の処理により、撮像部101から得られたノイズ環境の判定結果に応じて、入力音に含まれるノイズ成分を低減し、音声成分を強調して抽出するための適切なフィルタがフィルタバンク104より選択され、そのフィルタの適用によって、ノイズ低減された信号を得ることが可能となる。

従来技術においては、ノイズを含む音声信号から、目的音すなわち音声のみの信号を、マイクロホンアレーを用いて分離する手法も提案されている。この手法によれば、音声信号やノイズ信号が複数のマイクロホンに到達する時間差を利用して信号を遅延加算、遅延演算することで、特定の方向の音を強調する、或いは抑圧することが可能である。この手法を用いるためには、音源の方向を推定する必要があり、これを入力音のみから推定する手法としてブラインド音源分離手法が提案されているが、この手法では常に正確な音源方向を推定することは困難であった。また、この手法では、音源の発生する音の種類を判定することはできない。このため、発生する雑音の種類毎に適したフィルタを適用する方法を用いることができないという問題があった。この問題は、上記のように、本発明の実施によって解決される。

（各処理の具体的な動作例）
以下に、各処理のより具体的な実施形態を示すが、本発明はこれに限定されるものではない。

これについても、ノイズ判定処理とフィルタリング処理に分けて説明する。

（ノイズ判定処理）
ノイズ判定処理は、撮像部101、解析判定部102、フィルタ選択部103、フィルタバンク104による処理となる。

撮像部101において、撮像に用いるカメラは、少なくとも、車室内及び車両周辺のノイズ源となり得る物体を撮像する撮像範囲を持つように構成され、該ノイズ源の動作の検出に十分な解像度及びフレームレートを持ち、天候や時間帯による車室内への入射光の変動を自動的に検出・調整する機構を備えることが好ましい。撮像部101が設置される位置は、例えばルームミラーの位置等が考えられ、この場合は、図４のような撮像範囲となる。ここでは図中の枠線aの内側が、撮像される範囲であるとする。この場合に、車室内の乗員、積載物のうちの少なくとも一つの少なくとも一部から映像を取得する。

解析判定部102では、撮像部101で撮像された動画像（被写体が動かない場合を含む）を用いて、車室内のノイズ特徴を判定する。ここで言うノイズ特徴とは、主にノイズ源の位置、ノイズの種類(スペクトル)等を意味することとする。すなわち、解析判定部102は、撮像部101で撮像された動画像から、物体（人物を含む）の有無情報及び変位情報を抽出し、該変位情報から該物体の動作情報を取得し、該物体の有無情報及び動作情報から、ノイズ源の位置及び種類に関するノイズ特徴を判定する。判定されたノイズ特徴から、その特徴を有するノイズを低減するフィルタが選ばれるのであるが、その際、例えば、ノイズ低減フィルタとして、適応フィルタやスペクトルサブトラクションを用いる場合は、ノイズの種類(周波数特徴、スペクトル)が利用され、音源分離フィルタを用いる場合は、ノイズの方向が利用される。

ここで、解析判定部102は、目的音すなわち音声入力を行う話者の位置については、ノイズ判定を行わないものとする。具体的には、音声入力話者の口元画像の解析から発話の有無を判断し、「発話者」の位置を特定(運転席、助手席、後部座席など)、その位置の口元の動きは、以降のノイズ判定には含めないようにすればよい。この場合の判定処理の流れは図５に示したようになる。図に示したように、ステップS505によって、ノイズ発生物体が目的音方向に位置するか否かを判断し、目的音方向に位置する場合にはノイズ方向を取得しない。このようにして、解析判定部102は、撮像部101が取得した映像から複数の音声の発生を検出した場合に、該音声が目的音であるか非目的音であるかを判定し、フィルタ選択部103は、該非目的音と判定された音声を低減するフィルタを前記フィルタバンク104より選択することができる。

尚、発話有無の判断、及び発話者が複数同時に発生した場合については別の実施形態に記載する。本実施形態では、目的音(音声)は乗員のうち一人のみから発せられる場合を示す。

以下に、解析判定部102の具体的な動作を示す。前述の図３のフローチャートにおける車室内物体抽出処理(S102)、物体変位抽出処理(S103)、車室内物体動作認識処理(S104)、ノイズ源位置・種類判定処理(S105)がその主な処理となる。各処理の具体的な内容を以下に示す。

車室内物体抽出処理(S102)では、撮像部101からの画像を観測し、色情報やエッジ情報、或いは車室内に乗員及び積載物が無い状態で撮像した映像との差分情報等を用いたテンプレートマッチングにより、乗員、積載物の有無、乗員か積載物かの区別及び積載物種類の区別、各物体の位置を抽出する。この処理は撮像部101から新規画像を取得する度に行う。

尚、テンプレートマッチングで行う処理としては、例えば、入力可能性のある映像に基づくテンプレートモデル画像を用意し、これを用いて画像を走査しながら、各場所で正規化相関係数などを計算することにより入力画像の局所部分とモデルデータとの類似度分布を算出する周知の方法がある。

尚、上記方法は、撮像した１フレーム内で完了する処理であるが、物体認識の精度を向上させる目的として、以下のような手法も可能である。

複数のフレームを利用した画像解析の場合には、複数のフレームに連続して出現する物体のみを検出する、または、一定サイズ以上のまとまった「動き」を見せる領域を検出し、これと色情報やエッジ情報を統合して物体の特徴を抽出する。撮像部101は車室内の定点に固定されているため、上記テンプレートマッチングや動き検出は比較的容易に実現できる。

映像情報とその他の補完情報との統合を行う場合には、補助情報として、着座センサ情報、ドアの開閉・各ドアのスイッチ操作(ドアロック、ドア開閉ノブ、窓開閉スイッチ等、但し運転席の集中操作パネルを除く)・その他個別操作の可能なスイッチ類(個別室内灯や独立空調機等)の操作履歴情報などを用いることができる。これらの情報を用いれば、例えば車室内において、開閉のあったドアの座席には乗員や積載物が存在する可能性が高い、座席別操作スイッチが操作された場合はそこに乗員が存在する可能性が高い、走行中に乗員や積載物が増減する可能性は低い、という推定ができるため、これらの情報から乗員や積載物の有無や位置を絞り込み、より安定して移動物体の識別、追跡を行うことができる。

あるいは、これら補助情報を統合して用いることを前提とすれば、撮像装置の性能(解像度等)を下げることも可能となる。

例えば、本認識処理によって、乗員、袋、箱等が判別できることが好ましい。また、乗員の場合は部位(腕、頭部等)によって発生するノイズが異なる為、部位ごとに分割して抽出するようにしてもよい。

図６に運転手と荷物が積載されている状態での取得映像例を示す。図６中の領域(b1)にて運転者が検出される。同様に領域(b2)にて後部座席の箱、領域(b3)にて後部座席に掛けられた服が検出される。

物体変位抽出処理は、刻々と出力される物体抽出結果を用いて、各物体の動きを動きベクトル等の形式にして抽出する。これは、連続する２ないしはそれ以上のフレームについて、物体抽出処理結果の差分を解析し、時系列のベクトル情報として抽出するものである。

図７に具体的な動きベクトルの抽出例を示した。図７の(ａ)はある時点での腕部分の画像であり、図７の(ｂ)はその次の取得画像での同部分の画像である。この画像の差異から動きベクトルは図７の(ｃ)のようにして算出され、腕の動きを検出する。

物体動作認識処理では、例えば、上記物体変位情報及びＨＭＭモデルなどを用いることで実現可能である。本手法を用いた公知技術としては、上記特許文献１に記載された技術がある。この技術によれば、動画像を表示する各画面の画像データから抽出した動物体のメッシュ特徴をベクトル量子化によりシンボル化して、動画像系列をシンボル系列に変換し、当該シンボル系列を学習・認識することにより、各物体の各動作を認識することができる。

本発明においては、認識を想定した各物体(乗員、箱、袋等)についての動きベクトル情報をシンボル系列とし、認識するＨＭＭを用意する。これにより、各物体の動作系列を解析し、最も類似度(尤度)の高い動作系列が認識結果として出力される。ＨＭＭの学習には、ノイズ発生源となる様々な物体について、その動作を記録した動画から、動きベクトルを抽出して与える。

表１は、画像認識ＨＭＭ学習に与えるノイズ動作の参照動画及び該動作に伴うノイズデータ(ノイズパターン)の一覧表である。表１の第２列にＨＭＭの学習に用いるデータ群の一例を示す。

尚、動きに伴いノイズが発生する場合と、動きは検出できるがノイズは発生しない場合があるため、後者については、「ノイズ無し」の認識結果が得られることが好ましい。そこで、例えば、各物体の動作認識ＨＭＭに対し、「ガベージモデル」として、ノイズの発生しない動きを学習させたモデルを挿入する。これにより、ガベージモデルに類似度の高い動作系列については、「ノイズ無し」の結果を得ることができる。或いは動きベクトルから各物体の速度や加速度を算出し、この値が所定の閾値を超えない場合はノイズが発生していないものと判定するようにしても良い。これにより、「ノイズの発生する動作」を認識した場合に、それを認識することができる。

このＨＭＭを物体毎に用意し、物体抽出により抽出した各物体について、このＨＭＭへ動作系列を入力することで、類似する動作系列があった場合に、それを認識し、出力することができる。また、この結果から、単純に「物体がノイズを発生しているか否か」も判断することが可能である。

ノイズ源位置・ノイズ種類判定処理では、得られた認識結果を用いて、ノイズ判定処理を行う。ここでは、ノイズ源位置の判定処理と、ノイズ種類の判定処理に分けて説明する。

ノイズ源位置判定処理では、物体毎に用意されたＨＭＭが動作を認識することで、該物体がノイズを発生するか否かを判定することができる。物体の位置は、物体抽出処理により抽出済みであるので、ノイズ発生源と判定された物体の位置を参照することが可能である。

ノイズ種類判定処理では、物体毎のＨＭＭは前述のように、表１のような動作系列のデータを与えて学習しており、認識結果としては、該動作系列のＩＤ(表１の１列目)のような形で得ることができる。

ここで、例えば与えた動作系列に対応するようにノイズパターンデータ(スペクトルのパターン)を記録しテーブルとして保持しておけば(表１の３列目)、動作認識結果として得た動作系列に対応するノイズ種類を参照することができる。つまり、動作認識結果として、表１の第１列、ＩＤ＝１が得られた場合、そのノイズパターンとして、ＩＤ＝１のノイズパターンデータＩＤ＝１を得ることができる。本表で、ノイズパターンＩＤが動作パターンＩＤと一致していないのは、複数の動作に関し、同等のノイズパターンがある場合に、同じパターンＩＤを与えている為である。つまり、幾つかの動作をまとめて、ノイズパターン一つを保持している場合があるため、このようになっている。

尚、ノイズパターンを記憶する以外に、表１の４列目のように、該ノイズを低減するフィルタを直接参照できる形でデータテーブルを構築しても良い。この場合、ノイズ判定処理とフィルタ選択処理が統合された形となり、判定結果として適当なノイズ低減フィルタが得られる。

フィルタ選択部103は、解析判定部102のノイズ判定結果、すなわちノイズ源位置及びノイズ種類に応じて、対応するフィルタをフィルタバンク104から参照する。参照するフィルタは複数であってもよい。例えば、バンドパスフィルタと音源分離フィルタを同時に使用することで、特定のノイズについて、該ノイズの周波数特徴に基づくノイズ低減処理と、方向性に基づくノイズ低減処理を行うことができる。

以下に、フィルタ選択部103の具体的な動作を示す。前述の図３のフローチャートにおける適当フィルタ選択更新処理(S106)がその主な処理となる。ここでも、ノイズ源位置判定結果に基づくフィルタ選択と、ノイズ種類判定結果に基づくフィルタ選択処理に分けて説明する。

ノイズ源位置判定結果に基づくフィルタ選択処理では、ノイズ源の位置情報を用い、ノイズを発生している物体の方向に死角を向けた音源分離フィルタを選択する。

音源分離フィルタとしては、予めノイズを低減する方向を決め、その方向に応じた分離フィルタを複数保持しておけばよい。ここでは、分離フィルタとして特定方向の感度が他の方向よりも相対的に低くなる伝達特性をもつものを用いることとする。より具体的には、２チャネルの入力信号から遅延減算等を施し、特定方向からの信号を抑圧するフィルタである。こうしたフィルタリングを一般的にヌルステアリングと呼ぶ。分離方向の内訳例を図８に示す。図８は、マイクロホン２つ(ｍ１、ｍ２)を用いた例であり、車室内を１〜１６の方向へ区分している。この場合、分離フィルタは１６種類保持され、分離フィルタ１は図８の１の方向に対して感度が弱いフィルタ、フィルタ２は図８中の２の方向に対して感度が弱いフィルタとなり、他の方向についても同様である。

図９は、分離フィルタを用いない初期状態のマイクロホンの指向特性の例を模式的に示した図である。ここでは全ての方向に同程度の感度を持っているものとする。

一方、助手席方向(区分番号１２の方位)に死角(ヌル)を形成したフィルタを適用した場合の例を図１０に示す。例えば、こうした音源分離フィルタを適用することで、助手席方向からの音を低減することができる。

ノイズ種類判定と、判定結果に基づくフィルタ選択では、前述したように、ＨＭＭ学習時に用いた動作系列とその動作系列に伴うノイズを低減するフィルタを組にして登録したデータテーブル(表１)を参照することで、ノイズ種類判定結果(実際には動作判定結果)に基づく適当なフィルタを選択することができる。

従って、フィルタバンク104には、前述のように、予め分離方向を複数定めた音源分離フィルタ、或いは、表１の第３列に記載のノイズパターンそれぞれを低減するように適応させた適応バンドパスフィルタ、或いは、表１の第３列に記載のノイズパターンのスペクトルを用いたスペクトルサブトラクションフィルタ等が保持される。

尚、上記に示した実施形態においては、認識動作系列に係るノイズ特徴(ノイズデータ)群(表１第３列)及び、該ノイズを低減するように適応させたフィルタ群(表１第４列)は予め与えておくもとのしたが、これを学習、更新可能な構成としてもよい。このためには、たとえば「音声発話のない状況」＝(音声以外のノイズのみが存在する状況)で、動作認識処理によってある動作系列が認識された場合に、その状況でのノイズを収録・更新する、或いは更に、該ノイズの周波数特徴を用いた適応フィルタやスペクトルサブトラクションフィルタを更新・生成するようにすればよい。この時、「音声発話のない状況」も、画像情報等も用いて判断できるため、(画像による発話検出は別の実施形態に記載)確実に音声以外のノイズを収録することが可能である。

この学習処理によって、動作系列認識時に、その時点で収録された実際のノイズデータに基づくフィルタが生成できる為、よりノイズ低減効果を期待することができる。

（フィルタリング処理）
フィルタリング処理は、音声入力部(図１の105)、フィルタ部(図１の106)による処理となる。

音声入力部105にて発話を検出すると、フィルタ部106は、フィルタ選択部103へ現在のフィルタ選択結果を問い合わせ、該フィルタをフィルタバンク104から読み込む。そして、音声入力部105から送出された音声信号にフィルタリングを施す。

尚、発話の検出には、ＰＰＴ(Push to Talk)スイッチを用いる方法や、音声エネルギーを監視する方法がある。

また、本発明が撮像装置を用いていることから、上記検出法と併用して、発話者の撮像結果から、発話の有無を判定するようにしてもよい。

上記フィルタリング処理は、常時フィルタ選択部103のフィルタ選択結果を反映しながらフィルタリングを行う為、音声入力中に撮像結果からフィルタ変更された場合に、その変更を反映してフィルタを切り替え、処理を行うことができる。

上記処理を用いたの具体的な実施形態例について説明する。

まず、フィルタ切り替えタイミングに関する説明を行う。

以下に、音声入力中にノイズ環境が変化した場合の処理例を図１１を用いて説明する。

車両には運転者と後部座席の乗員が乗車しており、運転者が音声入力を開始したとする(図１１の(Ａ))。この時、解析判定部102はノイズが発生していないと判断し、フィルタは適用していない。例えば、音源分離フィルタを用いていないため、マイクは無指向となり、図１１の(Ａ)のｄａに示すような指向特性となっている。

ここで、運転者の発話の途中、後部座席の乗員が、姿勢を正す動作等を行ったとする。すると、解析判定部102は、この動作を認識し、結果として、図１１の方向区分１０の方向で、服及び座席生地の摩擦によるノイズが発生しているものと判断する。

フィルタ選択部103はこの結果に基づき、ノイズを低減するフィルタ、すなわち、予め摩擦音を参照して適応・保持させてある適応フィルタ、もしくは図１１の方向区分１０の方向に死角を形成した音源分離フィルタ(図１１の(Ｂ))のｄｂに示すような指向特性)を選択する。

フィルタが選択されると、フィルタ部106は所定のタイミングでフィルタを切り換え、フィルタリングを継続する。

このように、解析判定部102において、音声入力途中からのノイズ発生あるいはノイズ特徴の変化を検出した場合に、再度フィルタを選択肢切り替える構成となっているため、一連の発話中にノイズ環境が変化する場合において、入力音に含まれる雑音を低減した音声信号を得ることができる。

尚、解析判定部102では、認識する動作の時系列情報を用いる構成であるため、ある動作を開始した直後に該動作を認識することは不可能であり、認識までのタイムラグ(遅延)が生じる。これは、ＨＭＭを用いた物体動作認識を考えた場合、該動作が進むに従いスコア(尤度値)が積算され、これが所定の閾値を超えた時に該動作を認識したと判定することからも分かる。従って、該動作を認識した時点では、既にノイズが発生した後と言うことになる。このままでは適切なフィルタ結果が得られない。よって、フィルタ部106では入力信号を一時的に所定データ長分保存し、順次読み出す構成とする。ノイズ発生時刻は認識を開始した時刻、ＨＭＭを用いた場合であれば、最初の状態遷移パスを通過し尤度を算出した時刻と近似できる為、この時刻をタイムスタンプとして記録しておき、入力信号中の該タイムスタンプ情報に基づき、フィルタを適用する。

この時、フィルタ部106がフィルタを切換えるタイミングとして、タイムスタンプに同期させる、タイムスタンプから直前の有音区間開始時刻に遡った時点とする、等が考えられる。前者はノイズの変化時刻すなわちタイムスタンプが音声信号中の無音区間に存在する場合に有効であり、後者は、有音区間中に存在する場合に有効である。

図１２には前者のタイミングを用いた例を示す。図において、(Ａ)に示す波形は、音声入力部105で検出した音声波形、(Ｂ)はノイズ判定部の判定結果、(Ｃ)はフィルタ選択部103のフィルタ選択結果、(Ｄ)はフィルタ部106のフィルタ適用種類、(Ｅ)はフィルタ後の音声波形である。

図１２は、時刻 t0 で音声発話を開始し、発話の途中 t1 にて動作に伴うノイズが発生した場合を示している。この例では、時刻 t1 は無音区間である。

解析判定部102は、時刻 t1 で動作開始を検出、認識を開始し、時刻 t2 で認識結果を出力する(実際には時刻t1からＨＭＭのスコアが累積し始め、時刻 t2 で閾値を超え、認識したと確定する)(図１２の(Ｂ))。従って、ノイズ判定結果としては、時刻 t2 まではノイズ判定＝Ｎa(ノイズ無し)、時刻 t2 以降はノイズ判定＝Ｎbを、それぞれ、出力する(図１２の(Ｂ))。

フィルタ選択部103は、音声信号を検出すると、その時点でのノイズ判定結果に応じたフィルタを選択する。すなわち、時刻 t0 から t2 まではフィルタ＝Ｆa(この例では「フィルタ無し」をＦaと表記)、時刻 t2 以降はフィルタ＝Ｆbが、それぞれ、選択される(図１２の(Ｃ))。

また、この時入力データの時刻 t1 にタイムスタンプＴＳ1を記録する。

フィルタ部106では入力信号を読み込む。そして、フィルタ選択部103の結果とタイムスタンプに基づき、タイムスタンプの時刻からフィルタを切り替える。つまり、時刻 t0 から t1 まではフィルタＦa(フィルタ無し)、時刻 t1 以降はフィルタＦbとして、それぞれ、処理を行う(図１２の(Ｄ))。

最終的に得られる信号は、図１２の(Ｅ)のようになる。

このようにして、解析判定部102において、音声入力途中からのノイズ発生あるいはノイズ特徴の変化を検出した場合に、ノイズ変化を検出した時刻からフィルタ選択部103が再選択したフィルタを適用する構成となっているため、一連の発話中にノイズ環境が変化する場合において、入力音に含まれる雑音を低減した音声信号を得ることができる。

一方、図１３に後者のタイミングを用いた例を示す。図において、(Ａ)〜(Ｅ)は、図１２と同様、各時刻での各処理部の結果を表す。

図１３は、時刻 t0 で音声発話を開始し、発話の途中 t1 にて動作に伴うノイズが発生した場合を示している。図１２の例ではノイズ発生地点 t1 が無音区間であったのに対し、図１３の例では有音区間中にノイズが発生している点が異なる。

解析判定部102は、時刻 t1 で動作の認識を開始し、時刻 t2 で認識を完了する(図１３の(Ｂ))。従って、ノイズ判定結果としては、時刻 t2 まではノイズ判定＝Ｎa(ノイズ無し)、時刻 t2 以降はノイズ判定＝Ｎbを、それぞれ、出力する(図１３の(Ｂ))。

フィルタ選択部103は、音声信号を検出すると、現在のノイズ環境に応じたフィルタを選択する。すなわち、時刻 t0 から t2 まではフィルタ＝Ｆa(フィルタ無し)、時刻 t2 以降はフィルタＦbが、それぞれ、選択される(図１３の(Ｃ))。

ここで、入力データの時刻 t1 にタイムスタンプＴＳ1を記録しようとする。しかし、ここで時刻t1は有音区間であると判定される為、t1からデータを遡り、t1の属する有音区間の先頭時刻すなわち直前の無音区間の終端時刻t1'を補正後のタイムスタンプＴＳ1'とし、記録する。

フィルタ部106では、タイムスタンプＴＳ1'が記録された入力信号を読み込む。そして、フィルタ選択部103の結果とタイムスタンプに基づき、タイムスタンプの時刻からフィルタを切り替える。つまり、時刻 t0 から t1 まではフィルタＦa(フィルタ無し)、時刻 t1 以降はフィルタＦbとして、それぞれ、処理を行う(図１２の(Ｄ))。

最終的に得られる信号は、図１３(Ｅ)のようになる。

このようにして、解析判定部102において、音声入力途中からのノイズ発生あるいはノイズ特徴の変化を検出した場合に、ノイズ変化を検出した時刻の直前最近傍の音声区間開始点まで遡りフィルタ選択部103が再選択したフィルタを適用する構成となっているため、一連の発話中にノイズ環境が変化する場合において、入力音に含まれる雑音を低減した音声信号を得ることができる。

［第２実施形態］
本実施形態は、撮像手段から入力される画像の、窓の部分、すなわち車窓外景観に着目して、車両周辺の移動物体、例えば並走車両や後続車両を識別し、該周辺移動物体が発生するノイズを低減するフィルタを適用するというものである。

基本構成は第１実施形態と共通であり、撮像部(図１の101)、解析判定部(図１の102)、フィルタ選択部(図１の103)、フィルタバンク(図１の104)、音声入力部(図１の105)、フィルタ部(図１の106)、から構成される。その基本的な機能は第１実施形態と共通である為、以降は本実施形態特有の部分のみ記載する。

解析判定部102は、前記撮像部101から得られた車室内画像から、窓部分の画像を車両周辺の後続車両や並走車両等の移動物体を検出し、そのノイズを判定する。ただし、第１実施形態で説明した車室内物体認識処理において、認識した物体が窓領域を遮蔽している場合は、該遮蔽領域を除いた領域を窓領域とする。

図１４は、切り出す窓領域を示している。図において、(ｗ1)、(ｗ2)、(ｗ3)の点線枠が窓領域に当たる。実際には、窓部分を遮蔽するシートの一部分や乗員の頭部等の領域を除いた窓領域が切り出される。切り出された窓領域は、車両周辺移動物体識別処理が施され、併走車両等の有無の判別が行われる。

車両周辺移動物体識別処理は、車両速度との相対速度に基づき識別を行う。車室外の物体が静止物であるとき、該静止物体は、車両停止時には停止して撮像され、走行時には車両速度にて後方へ移動するように撮像される。これに対し、後続、並走車両等は、前記静止物体とは異なる動きとして観測される。従って、車両速度で後方に移動する動きベクトルを基準とし、この動きベクトルからの差分を見ることで、移動物体を抽出できる。

以下に、図１５のフローチャートを用いた車両周辺移動物体識別処理の説明をする。
ステップS1501では、撮像部101から得られた画像について、その窓部分(図１4参照)を切出す。
ステップS1502では、現在の車両速度を車速センサ等から取得する。
ステップS1503では、該車両速度を用いて、窓部分から撮像される静止物体の相対速度を算出し、この速度に基づく動きベクトルを基準ベクトルとする。具体的には、車両後方へ車両速度で移動するベクトル量となる。
ステップS1504では、切出した窓部分を走査する。
ステップS1505では、窓部分の各画素について、動きベクトルを抽出する。具体的には、過去の複数フレームの画像を用い、エッジ情報や色情報から物体を追跡し、ベクトル情報とする。
ステップS1506では、ステップ1505で求めた動きベクトルと基準ベクトルの差異を算出する。基準ベクトルと等しい動きベクトル領域があった場合(S1506:Yes)静止物体と識別し、この領域には移動物体がないと判断する。一方、基準ベクトルと一致しない動きベクトル領域があった場合(S1506:Ｎo)、この領域を移動物体と識別する。
ステップS1507では、ステップS1506で移動物体と識別された領域を抽出する。

上記処理により、移動物体の有無の判別及び物体の方向を識別することが可能である。移動物体を検出した方向に死角を形成する音源分離フィルタを適用することで、移動物体方向からの音を抑圧した音声信号を得ることが可能となる。

図１６には撮像部101の撮像した映像に、並走する２輪車(ｂ)が映っている状況を示す。この映像及び車両速度を用いて、２輪車の領域が検出される。この検出の結果、図１７に示すように、自車両からの２輪車の方向を判別することができ、図１７の方向区分１１の方向へ死角を形成したフィルタを適用することができる。

上記周辺移動物体の抽出において、移動物体と識別された領域をテンプレートマッチングすることで、移動物体の分類、例えば大きさや外形に基づき、２輪車、普通自動車、大型車などの判別を行うようにしてもよい。この場合、例えば各車両の種類及び速度域に関する標準的な走行ノイズを予め収録し、該ノイズを低減するフィルタを生成しフィルタバンク104で保持させておくことで、周辺車両の発するノイズを低減した音声信号を得ることが可能となる。

［第３実施形態］
第１実施形態では、目的音すなわち入力音声は一つ(一人)であり、その他は音声以外のノイズであると検出された場合の処理を示した。これに対し、本実施形態は、目的音候補となる音声が複数観測された場合、すなわち発話衝突時の処理を示したものである。撮像手段から入力される画像について、乗員の口元の動きを検出することで発話の衝突を検出し、そこから、目的音(入力音声)と非目的音(音声ノイズ)を判定、非目的音を抑圧するものである。

撮像部101は、車両内部を撮像するものであるが、本実施形態については、乗員の唇の動きを検出するのに十分な解像度を備えているものとする。

解析判定部102は、前記撮像部101から得られた車室内画像から、発話衝突を検出し、ノイズ音声と特定した乗員方向をノイズ方向と判定する処理を行う。ここで、解析判定部102は、目的音と非目的音の判別処理を行う。

判別手段としては、発話者に予め優先順位をつけ、衝突時には自動的に最優先発話者を目的音、それ以外を非目的音と判定する(例えば運転席話者＞助手席話者＞後部座席話者)、発話履歴を管理することで最後に発話した発話者を最優先発話者とする、発話開始時から同時に衝突を検出した場合には、上記優先順を用い、それ以外では、先に発話を開始した乗員を強制的に目的音とし、それ以降に発話を開始した乗員については、非目的音とする、等が考えられる。

尚、発話衝突時は、目的音声とノイズ成分双方が音声であるため、周波数特性を用いたノイズ低減は困難である。従って、本実施形態では、ノイズ低減フィルタとして、音源分離フィルタを用いる構成とすることが好ましい。以下の実施形態では、音源分離フィルタを用いてノイズ音声抑圧処理を行っている。

具体的な動きを図１８のフローチャートを用いて説明する。
ステップS1801では、撮像部101からの映像を取得する。
ステップS1802では、取得映像から乗員の人数を把握する。乗員が２名以上の場合(S1802:Yes)は以下の発話衝突検出処理を行い、乗員が１名の場合(S1802:Ｎo)には処理を終了する。
ステップS1803では、取得画像の乗員の領域から部分から顔部分を抽出し、ここから更に色情報や、エッジ情報を用いて唇部分を抽出する。

図１９に映像からの唇領域抽出例を示す。この例では運転席及び助手席にそれぞれ乗員Ａ、Ｂが乗車しており、先ず各乗員の領域 a0、b0 が抽出され、続いて、乗員の頭部領域 a1、b1、そして唇領域 a2、b2 が抽出される。抽出された口部分の画像を図２０の(Ａ)に示す。

ステップS1804では、該唇領域の画像から、特徴点を抽出する。例えば、唇の中心点から上下左右４つの特徴点を図２０の(Ｂ)の p1、p2、p3、p4 のようにして取得する。
ステップS1805では、該特徴点を用いた発話有無の検出を行う。

例えば、唇の縦横比(図２０の(Ｂ)の線分 p1p2 と線分 p3p4 の比)等を用い、これを時系列で観測する。

唇部分の時系列縦横比をグラフに示した例を図２１の(Ａ)、(Ｂ)に示す。(Ａ)は無発話状態時、(Ｂ)は発話状態時の観測結果である。

ここで、例えば所定の縦横比を閾値ＴＨとし、閾値と観測地とのクロスカウント値が所定の値を上回った時に発話中と判断する。或いは、図２１の(Ｃ)に示すように、観測地の微分絶対値が所定の閾値ＴＨを上回る回数をカウントするようにしても良い。その他、上記特許文献２に記載の口唇形状特定方法を始めとする公知手法に基づき発話有無を検出するようにしても良い。

この発話検出処理を乗員全員について行う。
ステップS1806では、上記発話検出の結果を受け、複数乗員が同時に発話している状態すなわち発話衝突の有無を判定する。発話衝突が検出された場合(S1806:Yes)、ステップS1807の処理に移行する。乗員1名のみの発話と判定された場合(S1806:No)は処理を終了する。
ステップS1807では、発話衝突の結果を受け、目的音と非目的音の判定を行う。判定結果として、ノイズ音声となる乗員の方向を算出する。

上記処理によって、ノイズ音声を発生している乗員の方向を算出できる。従って、フィルタ選択部103にて、該方向に死角を形成した音源分離フィルタを適用することで、ノイズ音声成分を抑圧することができる。

尚、本実施形態において、発話有無の検出には、時系列情報を用いるため、発話直後にリアルタイムで発話を検出することはできない。従って、第１実施形態同様、音声を一時的にバッファリングする機構を備え、発話開始時刻をタイムスタンプとして記録しておくことで、音源分離フィルタの適用開始位置を決定する構成となっていることが好ましい。

また、上記音源分離フィルタを用いたノイズ低減処理を行うことで、理論的には全乗員の発話を個別に分離抽出することが可能である。しかし、そのためには、マイクの数を増やす、或いは一連の入力音全てを一時保存して、分離フィルタを変更しながら乗員分の処理を施す、或いは複数のフィルタを並列の動作させ、各フィルタ処理の結果を更に統合してフィルタリングするといったことが必要となる為、処理負荷、処理時間共に増大する。

［第４実施形態］
本実施形態においては、ノイズが複数方向に発生している場合の優先順位を用いたフィルタリングが行われる。

本実施形態は、音源分離フィルタを用いる場合に適用する。

通常、複数マイクを用いた音源分離処理を考えた時、一つの音源分離フィルタで分離できる信号はマイク数に等しい。２チャネルマイクによる死角制御フィルタを用いる場合、一つのフィルタで制御できる死角は１方向、つまり１方向のノイズのみ低減できるということになる。もちろん、分離方向の違う分離フィルタ複数を並列動作させ、出力された各フィルタの結果を統合処理することで、より多くの方向に対して同時に分離することも可能であるが、音声認識や、通話音声のように処理時間の短縮が要求される場合には困難となる。マイク数を増大させることでも分離方向を増やせるが、設置できるマイク数には限りがある。

本実施形態は、こうした複数ノイズ発生状況において、全てのノイズを低減することが困難な場合に、ノイズの除去優先度に基づきフィルタを選択するものである。

解析判定部102は、画像を連続的に解析し、その時系列情報から動きベクトルを抽出、これを入力として、ＨＭＭ等により動作を認識、該動作に対応させて記録したノイズ特徴(ノイズ源方向、ノイズ種類等)を出力する構成となっている。

ここで、出力するノイズ情報に、除去優先度、すなわち、ノイズ低減優先度を付随する形とする。優先度の決定には、音声スペクトルとのスペクトル類似度等を用いる。スペクトルの類似度については、認識を想定する「動作に基づくノイズデータ」について、予め標準音声データ等とのスペクトル類似度(ユークリッド距離等)を算出する。近いノイズから順に高い除去優先度を割りつけたノイズラベルをＨＭＭ等に与えることで、認識したノイズについて、同時に除去優先度を取得することができる。また、これに、ノイズ発生動作の動き情報(各動作物体の動作速度、加速度等)と位置情報(マイクロホンからの距離)を考慮し、重み係数をかけるようにしても良い。

ただし、ノイズが音声と判定された場合(発話衝突の場合)には無条件で除去優先度を最大にするものとする。これは、音声成分に最も近く、音声認識や、音声明瞭性に最も悪影響を与えるのが音声ノイズすなわち、目的音声に別の音声が重畳されている状況であるためである。

尚、本実施形態で用いる音源分離フィルタは、所定方向に存在するノイズを全て低減対象とする。従って、ノイズ源が複数検出された場合、そのノイズ方向が同一のものについては、一つのノイズと捉える。例えば各々の除去優先度のうち大きい方を該方向の除去優先度とする。

フィルタ選択部103では、前期解析判定部102が判定したノイズ判定結果に基づき、例えば２音源(目的音１ch ＋ノイズ音１ch、ここで、ch はチャネルを表す)の分離が可能なシステムでは除去優先度の高いものから１つ、３音源(目的音１ch ＋ノイズ音２ch)の分離が可能なシステムの場合は、除去優先度の高いものから２つのノイズについて、その方向を取得し、該方向に死角を制御したフィルタを選択する。

図２２に、具体的な実施形態を記載する。この例では、２チャネルの音源分離が可能であるとする。図において、運転席と助手席に乗員が、後部座席に積載物が存在している。この例では運転席乗員が音声ｓを発話中、積載物が動きに伴うノイズ n1 を発生している。この時、解析判定部102は、この積載物の動きを認識し、ノイズが発生していると判定する。この時ノイズの除去優先度は４(小さいほど優先)と判定されたとする。

フィルタ選択部103では、判定されたノイズについて除去優先度を比較する。この場合は、ノイズ n1 のみを検出したため、フィルタ選択部103は、積載物の方向(図２２の方向区分９)に死角を形成した(図２２の(Ａ)の da のような指向特性の)フィルタをフィルタバンク104より読み出し、フィルタ部106にて適用する。

一方、図２２の(Ｂ)では、運転席乗員が音声発話中、積載物が動きに伴うノイズ n1 を発生しており、更に助手席乗員が動きに伴うノイズ n2 を発生させている。この時、解析判定部102は、この積載物の動き及び助手席乗員の動きを認識し、積載物がノイズ n1 を、助手席乗員がノイズ n2 を発生していると判定する。ノイズ優先度は、ノイズ n1 が４、ノイズ n2が２と判定されたとする。

フィルタ選択部103では、判定されたノイズについて除去優先度を比較する。比較の結果、助手席乗員のノイズの除去優先度が高いため、助手席方向に死角を形成した(図２２の(Ｂ)の db のような指向特性の)フィルタをフィルタバンク104より読み出し、フィルタ部106にて適用する。

以上のような処理により、全ての車室内ノイズを分離低減できない状況において、音声認識精度や明瞭性に影響を与えるノイズ方向から優先してノイズを低減するようにフィルタが適用される。

［第５実施形態］
本実施形態においては、フィルタが一定時間保持され、ノイズ判定履歴を使ったフィルタが可変時間だけ保持される。

すなわち、フィルタ部106は、フィルタ適用保持時間を持ち合わせ、フィルタ選択部103からのフィルタ適用命令が終了してから前記フィルタ適用保持時間の間は選択されたフィルタを適用する構成とする。これによって、断続的にノイズが検出される状況においても、入力音に含まれる雑音を低減した音声信号を得ることができる。

また、解析判定部102は、過去一定時間のノイズ判定結果をノイズ履歴として管理する機能を持ち合わせ、フィルタ部106は、前記ノイズ履歴に基づき、前記フィルタ適用保持時間を決定するという構成とする。これによって、解析判定部102にてノイズが一時的に検出されなくなっても、過去のノイズ状況を反映してフィルタが保持されるので、入力音に含まれる雑音を低減した音声信号を得ることができる。

解析判定部102では、入力映像を用いて常時動作認識、ノイズ判定を行っている。ここで、ノイズ判定が変化する、すなわちある物体の動作が認識されなくなる要因として、その物体のノイズ発生動作が停止(終了)した、その物体のノイズ発生動作は継続しているが認識できなくなった、の２つの場合が考えられる。更に後者の状況となる要因としては、撮像部101が撮像に失敗する、解析判定部102が誤認識を起こす、等が考えられる。

物体のノイズ発生動作が停止した場合は、実際にノイズが発生しなくなっているため、選択フィルタが変更されても問題はない。しかし、ノイズが発生しているにもかかわらず動作を認識できなかった場合、フィルタを変更するとノイズを適切に低減できなくなる。

こうした事態に対処する為、本実施形態では、ノイズ判定が変化してから、所定期間フィルタを選択しつづけることで、一時的なノイズ判定の中断に対応するものである。

フィルタ選択部103では、解析判定部102でのフィルタ選択結果に基づき、フィルタを選択する。さらに、フィルタ選択部103は、図示しないタイマ計測部と履歴記憶部を保持し、フィルタの選択履歴、フィルタ適用保持時間の設定・記録を行う。フィルタ選択履歴としては、例えば該フィルタが最後に選択された時刻と、最長選択時間(最も長く該フィルタが選択されつづけた時間)等を保持する。尚、最後に選択された時刻からの経過時間が所定の期間を過ぎた場合には、該フィルタの選択履歴をクリアする。保持時間は、最長選択時間に比例するように設定される。すなわち、過去に選択された時間が長いほど、保持時間を長くする。また、選択された履歴の無いフィルタ及び履歴がクリアされたフィルタが選択された場合は、新たに履歴に登録すると共に、初期値として短い保持時間を与える。フィルタ選択部103は、現在選択されているフィルタの選択解除を判定してから、タイマ計測を開始し、該保持時間経過した時点で、フィルタ部106に選択解除の命令を送出する。

具体的な実施形態について、図２３を用いて説明する。

図２３は、発話中に動作に伴うノイズＮa 及びＮb が発生した状況を表しており、(Ａ)車室内の動作ノイズの発生状況、(Ｂ)解析判定部102のノイズ判定結果、(Ｃ)フィルタ選択部103のフィルタ選択結果、(Ｄ)フィルタ部106のフィルタ適用結果を時系列で表記したものである。動作に伴うノイズＮa に対しては、フィルタ選択部103にてフィルタＦa が選択され、同様にノイズＮb に対してはフィルタＦb が選択されることとする。

フィルタＦa は以前に長く選択されていた履歴が残っており、これに基づき保持時間Ｔa が設定されている。フィルタＦb はこれまで設定された履歴が無く、呼び出された時点で初期値としてＴb が設定される。図２３の(Ｅ)、(Ｆ)にフィルタＦa、Ｆb の保持時間を示す。

時刻Ｔ＝2301から動作に伴うノイズＮaが発生し始め、解析判定部102は、この動作を検出・認識し、ノイズＮaと判定する。フィルタ選択部103はこの結果を受け、ノイズ低減フィルタＦaを選択する。

動作に伴うノイズは発生し続けるが、解析判定部102は、時刻2302 にて認識を失敗(中断)する。この結果一時的に、ノイズＮa は発生していないと判定される。

フィルタ選択部103はこの結果を受け、フィルタＦa の解除を行う。ただし、保持時間が設定されている為、解除命令からタイマのカウントを開始し、保持時間が経過するまでフィルタを選択しつづける。

時刻2303にて、この保持時間が経過する前に、再度解析判定部102がノイズＮa の発生を判定する。よって、フィルタ選択部103は、タイマのカウントを止め、Ｆa を選択しつづける。同様にして時刻2304から2305のノイズ判定中断期間も、フィルタを選択し続ける。時刻2306で動作に伴うノイズＮa の発生が終了すると、解析判定部102は該動作の認識を終了し、ノイズＮa は発生していないと判定する。フィルタ選択部103は、時刻2306からタイマのカウントを開始し、保持時間が経過した時刻2307にてフィルタ部106にフィルタＦa の解除を命令する。

以上の処理によって、解析判定部102は途中判定を失敗するが、フィルタＦaはノイズＮaの発生期間中適切にフィルタＦaを選択することができる。尚、時刻2308でノイズＮbが判定され、フィルタＦbが適用される。このフィルタＦbは初めて選択されたため、短い保持時間Ｔbが設定されており、ノイズ判定終了時刻2309からから該保持時間分継続し、時刻2310にてフィルタが解除される。

以上の処理の結果、今回の処理でフィルタＦa 及びＦb が適用された継続時間Ｔ(Ｆa)及びＴ(Ｆb)が算出される。これに基づき、それぞれの保持時間Ｔa、Ｔbが更新される。従って、初めての認識時に認識失敗の影響でフィルタが途切れる場合でも、幾度か該フィルタが選択されるに従い、保持時間が延長される為、次第に認識失敗時の影響を低減することができる。

本発明の第１実施形態を示したブロック図である。本発明の第１実施形態の構成例を示したブロック図である。本発明の第１実施形態の処理の流れを示したフローチャートである。撮像装置の撮像映像例を示した図である。解析判定部の判定処理の流れを示したフローチャートである。撮像例(運転者と積載物)を示した図である。動きベクトルの抽出例を示した図である。分離フィルタによる分離方向の内訳を示した図である。分離フィルタを用いない場合のマイクの指向特性を示した図である。ある方向に死角を形成した分離フィルタを適用した場合の指向特性を示した図である。 (Ａ):運転者発話時、ノイズが発生していない状況での指向特性を示した図である。(Ｂ):運転者発話時、後部座席乗員のノイズ発生を検出した状況での指向特性を示した図である。フィルタ部のフィルタ切り替えタイミングの一例を示した図(動作開始時刻が無音区間と判定された場合)である。フィルタ部のフィルタ切り替えタイミングの一例を示した図(動作開始時刻が有音区間と判定された場合)図である。撮像映像から、車両周辺移動物体識別処理のために切出す窓領域を示した図である。第２実施形態の車両周辺移動物体識別処理の流れを示したフローチャート図である。撮像部の撮像映像の一例(２輪車並走時)を示した図である。図１６の映像から車両周辺移動物体の方向を推定した結果を示した図である。第３実施形態の発話衝突検出処理の流れを示したフローチャートである。撮像映像からの乗員頭部及び唇領域の抽出範囲を示した図である。唇領域抽出結果を示した図であり、（Ａ）は抽出画像、（Ｂ）は抽出画像から特徴点を抽出した例である。唇領域の縦横比を時系列で記録した波形例を示した図であり、(Ａ)無発話時の縦横比波形、(Ｂ)発話時の縦横比波形、(Ｃ)発話時の縦横比波形の1次微分絶対値の波形図である。撮像例(運転者と助手席乗員と後部座席積載物が存在)を示した図である。第５実施形態の保持時間を用いたフィルタ選択状況を示した図である。

符号の説明

31…マイクロホン、32…カメラ、33…ＡＤ変換部、34…演算装置、35…記憶装置、101…撮像部、102…解析判定部、103…フィルタ選択部、104…フィルタバンク、105…音声入力部、106…フィルタ部。

Claims

車室内部における発話音声を入力する音声入力装置において、
該車室内部を撮像する撮像部と、
該撮像部から得られる映像を解析し、ノイズ特徴を判定する解析判定部と、
入力音を取得する音声入力部と、
該入力音に含まれるノイズを低減するフィルタを複数記憶するフィルタバンクと、
該解析判定部により判定されたノイズ特徴に基づいて、ノイズ低減フィルタを該フィルタバンクから少なくとも一つ選択して適用するフィルタ選択部と、
該フィルタ選択部によって選択されたフィルタを用いて該入力音をフィルタリングするフィルタ部とを有することを特徴とする音声入力装置。
前記フィルタ選択部は、前記解析判定部が判定したノイズ特徴に基づき、前記入力音に含まれるノイズ成分を低減し、音声成分を強調して抽出するためのフィルタを前記フィルタバンクより選択して適用することを特徴とする請求項１記載の音声入力装置。
前記撮像部は、前記車室内の乗員、積載物、車窓外景観のうちの少なくとも一つの少なくとも一部から映像を取得し、
前記解析判定部は、該映像から、物体の有無情報及び変位情報を抽出し、該変位情報から該物体の動作情報を取得し、該物体の有無情報及び動作情報から、ノイズ源の位置及び種類に関するノイズ特徴を判定することを特徴とする請求項１又は２記載の音声入力装置。
前記解析判定部は、前記撮像部が取得した映像から複数の音声の発生を検出した場合に、該音声が目的音であるか非目的音であるかを判定し、
前記フィルタ選択部は、該非目的音と判定された音声を低減するフィルタを前記フィルタバンクより選択することを特徴とする請求項１記載の音声入力装置。
前記フィルタ部は、フィルタ適用保持時間を持ち合わせ、前記フィルタ選択部からのフィルタ適用命令が終了してから該フィルタ適用保持時間が経過するまでの間は前記フィルタ選択部が選択したフィルタを適用することを特徴とする請求項１、２、３又は４記載の音声入力装置。
前記解析判定部は、過去一定時間のノイズ判定結果をノイズ履歴として管理し、
前記フィルタ部は、該ノイズ履歴に基づき、前記フィルタ適用保持時間を決定することを特徴とする請求項５記載の音声入力装置。
前記解析判定部が、音声入力途中からのノイズ発生あるいはノイズ特徴の変化を検出した場合に、
前記フィルタ選択部は、フィルタを再選択し、
前記フィルタ部は、前記フィルタ選択部にて選択されたフィルタを用いて音声をフィルタリングすることを特徴とする請求項１又は６記載の音声入力装置。
前記解析判定部が、音声入力途中からのノイズ発生あるいはノイズ特徴の変化を検出した場合に、
前記フィルタ選択部はフィルタを再選択し、
前期フィルタ部は、該ノイズ特徴の変化が検出された時刻から該再選択されたフィルタを適用することを特徴とする請求項７記載の音声入力装置。
前記解析判定部が、音声入力途中からのノイズ発生あるいはノイズ特徴の変化を検出した場合に、
前記フィルタ選択部はフィルタを再選択し、
前記フィルタ部は、該ノイズ特徴の変化が検出された時刻の直前最近傍の音声区間から該再選択されたフィルタを適用することを特徴とする請求項７記載の音声入力装置。
前記解析判定部は、前記撮像部が取得した映像を解析し、ノイズ源が複数検出される場合に、該ノイズ源が発するノイズの音声認識に与える影響の大きさに応じて、ノイズ低減優先度を決定し、
前記フィルタ選択部は、該ノイズ低減優先度の高いものから優先して、ノイズを低減するフィルタを選択することを特徴とする請求項１、２、３又は４記載の音声認識装置。