JP2006030880A

JP2006030880A - 車両用音声認識装置及び移動体

Info

Publication number: JP2006030880A
Application number: JP2004213200A
Authority: JP
Inventors: Yoichi Kitano; 陽一北野
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2004-07-21
Filing date: 2004-07-21
Publication date: 2006-02-02

Abstract

【課題】対環境性能を向上させて、より正確な音声認識を行う。
【解決手段】車両用音声認識装置１０は、車速センサ４２、エンジンコントローラ３０、エアコンコントローラ２４、オーディオ２６等に接続されていて、搭乗者が話す音声をマイクから入力して認識する音響パターン認識部５０と、ＣＣＤカメラ２２により搭乗者の口元を撮像した画像に基づいて音声を認識する画像パターン認識部５４とを有する。車両用音声認識装置１０の環境評価部６０は、車速Ｖ、エアコン風量Ｔ、オーディオ音量Ａ等の車両状態に基づき、音響パターン認識部５０の音声認識処理と、画像パターン認識部５４の音声認識処理とを選択的に制御する。
【選択図】図３

Description

本発明は、マイク等の音声入力手段とカメラ等の画像入力手段を用いて話者が話す音声を認識する車両用音声認識装置及び該車両用音声認識装置を搭載した移動体に関する。

近時の車両には多数の電子機器が搭載されるようになり、その機能も一層高度化しつつある。このような中、電子機器の操作の容易化のため音声操作を可能にする音声認識装置が開発されている。

ところで、車両用に限らず、音声認識装置において話者が話す音声を確実に認識するためには、話者の話し方の変化や周囲の騒音等を充分に考慮しなければならない。そのような対策のために、想定される複数の騒音環境に対応した音声モデルを予め設けておき、騒音環境に応じた適当な音声モデルを選択して音声認識を行うシステム（例えば、特許文献１参照）や、話者の心的状態を推定することにより複数の音声認識辞書から適切な辞書を選択して用いる装置（例えば、特許文献２参照）が提案されている。

特開２０００−７５８８９号公報特開２００２−１４９１９１号公報

音声認識装置にはマイク等の音声入力部と、話者の口元を撮像するＣＣＤ(Charge Coupled Device)カメラ等の撮像部とを設けておくとよい。これにより、音声入力部から得られた話者の音声を認識する手段と、撮像部から得られた画像に基づいて音声を認識する手段とを相互補完的に使用することが可能となり、話者の音声を相当に認識することができて好適である。また、音声認識装置を車載用として用いる場合には、想定される音声上のノイズ又は画像ノイズ（以下、環境ノイズと呼ぶ）を含んだ認識辞書を使用することにより、音声認識の対環境性能が向上する。

ところで、車両はその走行状態や走行箇所に応じて温度、湿度、加速度、振動、明るさ及び騒音等が著しく変化するが、前記の認識辞書に含まれる環境ノイズは一定の環境下では有効であっても、異なる環境下では充分に有効でない場合もあり得る。一方、前記の特許文献１及び特許文献２に記載されたシステムでは、このような車両状態に基づく環境変化を考慮した音声認識ができる構成にはなっていない。

また、搭載される車種によっては騒音のレベルや日の当たり方が異なり、所定の認識辞書が全ての車種に対して有効であるとは限らない。従って、搭載される車種毎に認識辞書の調整を行う必要があるがこの作業は煩雑であり、しかも異なるセッティングにすると音声認識装置の車種に対する汎用性が低下する。

本発明はこのような課題を考慮してなされたものであり、対環境性能を向上させて車両状態に基づく環境変化の影響を受けにくくし、より正確な音声認識を行うことを可能にする車両用音声認識装置及び該車両用音声認識装置を搭載した移動体を提供することを目的とする。

本発明に係る車両用音声認識装置は、車両状態を検出する車両状態検出手段と、話者が話す音声を音声入力部から入力して認識する第１音声認識手段と、撮像部により前記話者の口元を撮像した画像を入力し、該画像に基づいて前記音声を認識する第２音声認識手段と、前記車両状態検出手段から取得した前記車両状態に基づき、前記第１音声認識手段における第１音声認識処理及び前記第２音声認識手段における第２音声認識処理を選択的に制御する選択制御手段と、を有することを特徴とする（請求項１記載の発明）。

このような車両用音声認識装置を搭載している移動体では、車載電子機器に対する音声による操作を一層確実に行うことができる（請求項２記載の発明）。

本発明では音声のパターン認識部として対環境性の異なる第１音声認識手段と第２音声認識手段の２つの手段をもち、環境評価部によりその時点の実際の車両状態に応じて切り換え制御をすることより、対環境性能を向上させて車両状態に基づく環境変化の影響を受けにくくすることができ、より正確な音声認識が可能となる。

また、搭載される車種による騒音のレベルや日の当たり方の違いに応じて辞書データ等を車種毎にセッティングする必要がなく、車両用音声認識装置の汎用性を向上させることができる。

以下、本発明に係る車両用音声認識装置及び移動体について実施の形態を挙げ、添付の図１〜図７を参照しながら説明する。

図１に示すように、本実施の形態に係る車両用音声認識装置１０は移動体としての車両１２に搭載されており、搭乗者（話者）１４の声を入力するマイク（音響入力部）２０、口元を撮像するＣＣＤカメラ（撮像部）２２及び車内通信網１８に接続されている。マイク２０及びＣＣＤカメラ２２は、車内におけるルーフとフロントウィンドとの境界部近傍に設けられている。

マイク２０及びＣＣＤカメラ２２は、これ以外の箇所（例えば、ルーフ下面部、インスツルメントパネル部、ヘッドレスト、搭乗者の肩部及びヘッドセット等）に設けられていてもよい。ＣＣＤカメラ２２は搭乗者１４の口元を直接的に撮像するものに限らず、ミラー、プリズム、レンズ等を介して撮像するようにしてもよく、また、ＭＯＳ型カメラを用いてもよい。

車内通信網１８にはエアコンコントローラ２４、オーディオ２６、ナビゲーションシステム２８、エンジンコントローラ３０、パネル操作部３２、サンルーフコントローラ３４及びパワーウィンドコントローラ３６が接続されており、これらの各機器（車両状態検出手段）は車内通信網１８によって相互にデータ通信が可能である。エアコンコントローラ２４には日射センサ３８と図示しない風量調節機構が設けられている。オーディオ２６には図示しない音量調節機構及び音量認識部が設けられている。

ナビゲーションシステム２８にはＧＰＳ（Global Positioning System）４４又はジャイロセンサ等が接続されており、車両１２の位置や座標情報を取得することができる。

エンジンコントローラ３０はエンジン４０の制御を行うものであって、車速センサ４２により車両１２の車速Ｖを検出することができる。また、エンジンコントローラ３０は車速Ｖと図示しない舵角センサの信号とに基づいて車両１２のヨーレートＹを取得することができる。ヨーレートＹは、ジャイロセンサ等の信号を参照しながら算出するようにしてもよい。

パネル操作部３２には、搭乗者１４が操作するスイッチ等が設けられており、例えばワイパ速度Ｗを制御するとともに、このワイパ速度Ｗを車内通信網１８に供給する。パワーウィンドコントローラ３６は操作スイッチの状態に応じてウィンドを昇降させることができ、他の機器からの要求に従ってその時点におけるウィンド開度Ｏを車内通信網１８に供給する。

図２に示すように、車両用音声認識装置１０は、搭乗者１４が話す音声の信号をマイク２０から入力してデジタルデータに変換するＡ／Ｄ変換部４６と、変換されたデジタルデータを周波数分析する第１周波数分析部４８と、音響パターン認識部（第１音声認識手段）５０とを有する。また、車両用音声認識装置１０は、ＣＣＤカメラ２２で撮像された搭乗者１４の口元の画像（動画）を周波数分析する第２周波数分析部５２と、画像パターン認識部（第２音声認識手段）５４とを有する。

第１周波数分析部４８及び第２周波数分析部５２は、入力されたデータを周波数分析し、音響パターン認識部５０及び画像パターン認識部５４の解析用データを得る。

車両用音声認識装置１０は、さらに、所定のデータを入力し又は操作を行うための操作部５６と、該操作部５６の操作を検知する入力検知部５８と、該入力検知部５８から操作データを受けるとともに音響パターン認識部５０と画像パターン認識部５４を選択的に制御する環境評価部（選択制御手段）６０と、認識された音声データが格納される最終結果格納部６２とを有する。

音響パターン認識部５０は、環境評価部６０の評価で用いられる閾値データである車速閾値Ｔｈ１１、エアコン風量閾値Ｔｈ１２、ヨーレート閾値Ｔｈ１３、オーディオ音量閾値Ｔｈ１４及び明るさ閾値Ｔｈ１５を保持し、画像パターン認識部５４は、同様に環境評価部６０に供される車速閾値Ｔｈ２１、エアコン風量閾値Ｔｈ２２、ヨーレート閾値Ｔｈ２３、オーディオ音量閾値Ｔｈ２４及び明るさ閾値Ｔｈ２５を保持する。

なお、Ｔｈ１１、Ｔｈ１２、Ｔｈ１３、Ｔｈ１４、Ｔｈ２１、Ｔｈ２２、Ｔｈ２３及びＴｈ２４は最大値を示す閾値であり、Ｔｈ１５及びＴｈ２５は最小値を示す閾値である。

音響パターン認識部５０は、第１周波数分析部４８から得られた音声の特徴を示すデータとの比較をする対象の音響辞書６４を有し、画像パターン認識部５４は、顔画像から抽出した口元の形状の画像を第２周波数分析部５２を介して得られた口元の動きの特徴を示すデータに基づいた処理を行い、該データを比較する対象である画像辞書６６を有する。

環境評価部６０は、前記の車内通信網１８に接続されており、エアコンコントローラ２４、オーディオ２６、ナビゲーションシステム２８及びエンジンコントローラ３０等を介して車両状態としての車速Ｖ、エアコン風量Ｔ、ヨーレートＹ、オーディオ音量Ａ、位置及び座標情報、ワイパ速度Ｗ、ウィンド開度Ｏ、サンルーフ開度Ｓ及び日射センサ３８による明るさ信号Ｌ等を取得することができる。環境評価部６０は、これらの車両状態を示す信号に基づいて音響パターン認識部５０と画像パターン認識部５４を選択的に制御することができる。選択された一方は音響辞書６４又は画像辞書６６に基づいて認識した音声データを最終結果格納部６２に格納する。車両状態を示す信号としては、これら以外に加速度、振動、ロール、ピッチ等の動的挙動状態の信号、温度、湿度、気圧等の空気状態の信号等の信号を挙げることができる。

環境評価部６０は、図３に示すパターン認識判定表７０を用いて音響パターン認識部５０と画像パターン認識部５４を選択的に制御する。パターン認識判定表７０は、車速Ｖ、エアコン風量Ｔ、ヨーレートＹ、オーディオ音量Ａ及び明るさＬ毎にセンサ値欄７０ａ、音声認識部欄７０ｂ及び画像認識部欄７０ｃが設けられ、このうち音声認識部欄７０ｂは閾値欄と、第１判定欄７０ｄと、該第１判定欄７０ｄの判定結果の合計値を示す第１合計欄７０ｅとを有する。同様に、画像認識部欄７０ｃは、閾値欄と、第２判定欄７０ｆと、該第２判定欄７０ｆの判定結果の合計値を示す第２合計欄７０ｇとを有する。

センサ値欄７０ａには順に、車速Ｖ、エアコン風量Ｔ、ヨーレートＹ、オーディオ音量Ａ及び明るさＬが０〜１００の範囲の計測値として記録される。閾値欄には前記の閾値Ｔｈ１１〜Ｔｈ１５、Ｔｈ２１〜Ｔｈ２５が対応するパラメータに応じて記録される。第１及び第２判定欄７０ｄ、７０ｆには対応する行の閾値とセンサ値との比較に基づいて肯定的な判定結果である「○」又は否定的は判定結果である「×」が記録される。また、音声認識部欄７０ｂにはマイク２０に基づく音声認識処理の優先度が高いことを示す「優先度高」が記録されており、画像認識部欄７０ｃにはＣＣＤカメラ２２に基づく音声認識の優先度が中程度であることを示す「優先度中」が記録されている。これらの優先度は、音響パターン認識部５０及び画像パターン認識部５４の特性を総合的に勘案した上、車両用音声認識装置１０の設計時に予め設定されている。なお、音声認識のための手段が音響パターン認識部５０及び画像パターン認識部５４以外にもある場合で、その手段の優先度が低いときには対応する欄に「優先度低」と記録される。

説明の便宜上、このパターン認識判定表７０は理解しやすいような表形式で示しているが、実際には可能な所定の記憶部において環境評価部６０がアクセス可能なマップ形式等で設けられていればよい。

次に、このように構成される車両用音声認識装置１０を用いて搭乗者１４が話す音声を認識する手順について説明する。

先ず、音響パターン認識部５０では、搭乗者１４が話す音声をマイク２０を介して入力し、Ａ／Ｄ変換部４６及び第１周波数分析部４８で変換されたデータに基づき音響辞書６４を参照して最も相関の高い音声データを選択する。この音声データは、例えば「うらわ」（浦和）というデータに対応するものとする。

一方、画像パターン認識部５４では、搭乗者１４が話す際の口元の動きをＣＣＤカメラ２２で撮像した画像データを第２周波数分析部５２で変換し、この変換されたデータに基づき画像辞書６６を参照して最も相関の高い音声データを選択する。この音声データは、例えば「うらが」（浦賀）というデータに対応するものとする。音響パターン認識部５０と画像パターン認識部５４の処理は同時並列的に行われ、上記のように「うらわ」という音声データと「うらが」という音声データが同時に選択されるような場合があり得る。これは、車両１２の走行状態に基づく環境ノイズにより音響パターン認識部５０か画像パターン認識部５４のいずれか認識が不正確であっためであり、環境評価部６０の処理によって信頼度の高い一方を選択することになる。

なお、音響パターン認識部５０及び画像パターン認識部５４において音響辞書６４又は画像辞書６６から相関の高いデータを選択するための手段としては、例えば、パターンマッチング手法や統計的な手法を用いることができる。統計的手法としては、確率的な有限状態を持つ隠れマルコフモデル（Hidden Markov Model）の手法を挙げることができる。隠れマルコフモデルでは、音声モデルの学習を行うことにより音声を高確率で認識可能である。

次に、環境評価部６０の処理手順について説明する。なお、環境評価部６０における処理の説明に関しては断りのない限り、表記したステップ番号順に処理が実行されるものとする。

図４のステップＳ１において、環境評価部６０は音響パターン認識部５０及び画像パターン認識部５４から車速閾値Ｔｈ１１、Ｔｈ２１、エアコン風量閾値Ｔｈ１２、Ｔｈ２２、ヨーレート閾値Ｔｈ１３、Ｔｈ２３、オーディオ音量閾値Ｔｈ１４、Ｔｈ２４及び明るさ閾値Ｔｈ１５、Ｔｈ２５を読み出す。読み出した各閾値はパターン認識判定表７０における閾値欄に記録する。

ここで、各閾値は図５に示すように、Ｔｈ１１＝６０、Ｔｈ１２＝３０、Ｔｈ１３＝１００、Ｔｈ１４＝２０、Ｔｈ１５＝１００、Ｔｈ２１＝８０、Ｔｈ２２＝１００、Ｔｈ２３＝２０、Ｔｈ２４＝１００、Ｔｈ２５＝５０であるものとする。なお、このステップＳ１は、車両用音声認識装置１０のシステム立ち上がり時の初回のみに行うようにしてもよい。

ステップＳ２において、各種のセンサの信号を読み取るとともに、所定のパラメータの算出を行う。つまり、前記のとおり車速Ｖ、エアコン風量Ｔ、ヨーレートＹ、オーディオ音量Ａ、位置及び座標情報、ワイパ速度Ｗ、ウィンド開度Ｏ、サンルーフ開度Ｓ及び日射センサ３８による明るさ信号Ｌ等の信号を取得する。取得した車速Ｖ、エアコン風量Ｔ、ヨーレートＹ、オーディオ音量Ａ及び明るさＬについては、０〜１００の範囲となるようにスケール調整やリミット処理を行った後にパターン認識判定表７０におけるセンサ値欄７０ａに上の行から順に記録する。各パラメータの値は、図３に示すように、Ｖ＝６５、Ｔ＝０、Ｙ＝５、Ａ＝３０及びＬ＝６０であるものとする。

ステップＳ３において、車速Ｖと車速閾値Ｔｈ１１（＝６０）との比較判定処理を行い、Ｖ≦Ｔｈ１１であれば第１判定欄７０ｄに「○」を記録し、Ｖ＜Ｔｈ１１であれば「×」を記録する。つまり、車両１２が高速走行中で車速Ｖが大きいときには騒音も大きくなるため、マイク２０による音声認識の信頼度が低下してくることとなり、車速閾値Ｔｈ１１以上であるときには否定的な判定結果である「×」を記録する。

ステップＳ４において、車速Ｖと車速閾値Ｔｈ２１（＝８０）との比較判定処理を行い、Ｖ≦Ｔｈ２１であれば第２判定欄７０ｆに「○」を記録し、Ｖ＜Ｔｈ２１であれば「×」を記録する。つまり、ＣＣＤカメラ２２はマイク２０と比較して車速Ｖの影響を受けにくく、前記車速閾値Ｔｈ１１（＝６０）よりも大きいＴｈ２１（＝８０）まで許容される。車速閾値Ｔｈ２１が「１００」となっていないのは、車速Ｖが大きくなると騒音とともに振動も大きくなる傾向があり、無制限に許容することはできないためである。

なお、車両１２の走行時（Ｖ≠０）にはウィンド開度Ｏに応じて風きり騒音レベルが変化するため、ステップＳ３及びＳ４における処理では、車速Ｖをウィンド開度Ｏによって補正してもよい。

ステップＳ５において、エアコン風量Ｔとエアコン風量閾値Ｔｈ１２（＝３０）との比較判定処理を行い、Ｔ≦Ｔｈ１２であれば第１判定欄７０ｄに「○」を記録し、Ｔ＜Ｔｈ１２であれば「×」を記録する。エアコン風量Ｔが大きいときには送風音が大きくなり、マイク２０による音声認識の信頼度が低下するためである。

ステップＳ６において、エアコン風量Ｔとエアコン風量閾値Ｔｈ２２との比較判定処理を行う。この場合、エアコン風量閾値Ｔｈ２１はＴｈ２１＝１００であることから、実際上は比較を行う必要がなく、第２判定欄７０ｆに無条件に「○」を記録する。エアコン風量Ｔによる騒音はＣＣＤカメラ２２に基づく音声認識に影響を与えることがないためである。

ステップＳ７において、ヨーレートＹとヨーレート閾値Ｔｈ１３との比較判定処理を行う。この場合、ヨーレート閾値Ｔｈ１３はＴｈ１３＝１００であることから、実際上は比較を行う必要がなく、第１判定欄７０ｄに無条件に「○」を記録する。マイク２０による音声認識に対してヨーレートＹは影響を与えることがないためである。

ステップＳ８において、ヨーレートＹとヨーレート閾値Ｔｈ２３（＝２０）との比較判定処理を行い、Ｙ≦Ｔｈ２３であれば第２判定欄７０ｆに「○」を記録し、Ｙ＜Ｔｈ２３であれば「×」を記録する。ヨーレートＹが大きいときには振動も大きいことがあり、しかも撮像すべき搭乗者１４の口元が適切な撮像範囲内からずれてしまうおそれもあるためである。

図５のステップＳ９において、オーディオ音量Ａとオーディオ音量閾値Ｔｈ１４（＝２０）との比較判定処理を行い、Ａ≦Ｔｈ１４であれば第１判定欄７０ｄに「○」を記録し、Ａ＜Ｔｈ１４であれば「×」を記録する。オーディオ２６の音はマイク２０にとっては騒音となるためである。

ステップＳ１０において、オーディオ音量Ａとオーディオ音量閾値Ｔｈ２４との比較判定処理を行う。この場合、オーディオ音量閾値Ｔｈ２４はＴｈ２４＝１００であることから、実際上は比較を行う必要がなく、第２判定欄７０ｆに無条件に「○」を記録する。オーディオの音はＣＣＤカメラ２２に基づく音声認識に影響を与えることがないためである。

ステップＳ１１において、明るさＡと明るさ閾値Ｔｈ１５との比較判定処理を行う。この場合、明るさ閾値Ｔｈ１４はＴｈ１４＝１００であることから、実際上は比較を行う必要がなく、第１判定欄７０ｄに無条件に「○」を記録する。マイク２０による音声認識に対して明るさＹは影響を与えることがないためである。

ステップＳ１２において、明るさＬと明るさ閾値Ｔｈ２５（＝５０）との比較判定処理を行い、Ｌ≧Ｔｈ２５であれば第２判定欄７０ｆに「○」を記録し、Ｌ＞Ｔｈ２５であれば「×」を記録する。夜間やトンネル内等の暗い箇所では鮮明な画像が得られないためである。なお、ステップＳ１２において、日中（Ｌ≠０）ではサンルーフ開度Ｓに応じて車内の明るさが変化するため、ステップＳ１２における処理では、明るさＬをサンルーフ開度Ｓによって補正してもよい。

このようにステップＳ３〜Ｓ１２の処理を行うことによって、図３に示すように、第１判定欄７０ｄ及び第２判定欄７０ｆが埋まる。前記ステップＳ２の説明で例示したセンサ値に基づく処理を行った場合、第１判定欄７０ｄは、上の行から順に「×」、「○」、「○」、「×」及び「○」が記録され、第２判定欄７０ｆには全て「○」が記録される。

ステップＳ１３において、判定が「○」であるものの数を調べる。つまり、第１判定欄７０ｄにおいて「○」が記録されている数、「３」をその下の第１合計欄７０ｅに記録し、第２判定欄７０ｆにおいて「○」が記録されている数、「５」をその下の第２合計欄７０ｇに記録する。

ステップＳ１４において、第１合計欄７０ｅに記録された数と第２合計欄７０ｇに記録された数を比較し、第１合計欄７０ｅの方が大きい場合にはステップＳ１５へ移り、第２合計欄７０ｇの方が大きい場合にはステップＳ１６へ移り、等しい場合にはステップＳ１７へ移る。

ステップＳ１５においては、音響パターン認識部５０に対して選択信号を送信し、ステップＳ１６においては画像パターン認識部５４に対して選択信号を送信する。つまり、肯定的な判定結果である「○」の数が多い方がその時点における音声認識の信頼度が高いと考えられるため、信頼度の高い一方を選択することにより対環境性を向上させることができる。

図３に示すように、第１合計欄７０ｅに記録された数が「３」であって、第２合計欄７０ｇに記録された数が「５」である場合には、音響パターン認識部５０に選択信号が送信される。また、図６に示すように、Ｖ＝５５、Ｔ＝４０、Ｙ＝２５、Ａ＝０及びＬ＝３０であるときには、第１合計欄７０ｅには「４」が記録され、第２合計欄７０ｇには「３」が記録されることになり、画像パターン認識部５４に選択信号が送信される。

ステップＳ１７においては、音声認識部欄７０ｂ及び画像認識部欄７０ｃに記録された優先度を比較し、優先度の高い一方、つまり音響パターン認識部５０に対して選択信号を送信する。これにより、環境評価部６０によって判断された信頼度が同程度である場合には、音響パターン認識部５０及び画像パターン認識部５４の特性を総合的に勘案した優先度の高い方を選択することができる。

例えば、図７に示すように、Ｖ＝５５、Ｔ＝４０、Ｙ＝２５、Ａ＝０及びＬ＝７０であるときには、第１合計欄７０ｅ及び第２合計欄７０ｇとも「４」が記録されて、優先度に基づいて音響パターン認識部５０に選択信号が送信される。

この後、音響パターン認識部５０及び画像パターン認識部５４のうち、選択信号を受信した一方は、認識した音声データを最終結果格納部６２に供給する。つまり、前記の例では、音響パターン認識部５０が選択信号を受信したときには「うらわ」（浦和）が、画像パターン認識部５４が選択信号を受信したときには「うらが」（浦賀）が最終結果格納部６２に供給される。また、選択から漏れた方の認識結果についても第２候補として最終結果格納部６２に供給するようにしてもよい。

さらに、最終結果格納部６２は、他の機器からの要求に応じて格納された音声データを車内通信網１８を通じて供給する。これにより、例えば、ナビゲーションシステム２８では搭乗者１４が目的地として指定した場所を示す音声を高い認識率で確認し、ナビゲーションの処理を行うことができる。

また、環境評価部６０の処理は、音響パターン認識部５０において認識した音声データと画像パターン認識部５４において認識した音声データが異なる場合にのみ実行させてもよい。

上述したように、本実施の形態に係る車両用音声認識装置１０は、音声のパターン認識部として対環境性の異なる音響パターン認識部５０と画像パターン認識部５４の２つの音声認識手段をもち、環境評価部６０によりその時点の実際の車両状態に応じて切り換え制御を行っている。これにより、車両状態に基づいて適切な認識手法を選択して認識結果を出力することができ、対環境性能が向上し、車両状態に基づく環境変化の影響を受けにくいパターン認識が可能となる。

また、搭載される車種による騒音のレベルや日の当たり方の違いに応じて音響辞書６４及び画像辞書６６を調整する必要がなく、車両用音声認識装置１０の汎用性が向上する。

次に、前記車両用音声認識装置１０に対する第１の変形例に係る車両用音声認識装置１０ａ及び第２の変形例に係る車両用音声認識装置１０ｂについて説明する。以下の説明では、車両用音声認識装置１０と同じ箇所については同符号を付し、その詳細な説明を省略する。

図８に示すように、第１の変形例に係る車両用音声認識装置１０ａは、前記のマイク２０に相当する第１マイク２０ａの他に、第２マイク２０ｂを備えるとともに、前記の音響パターン認識部５０、音響辞書６４に相当する第１音響パターン認識部５０ａ、第１音響辞書６５ａを備える。また、車両用音声認識装置１０ａは、前記の画像パターン認識部５４、画像辞書６６に代えて、第２音響パターン認識部５０ｂ、第２音響辞書６５ｂを備える。

第１音響パターン認識部５０ａには、車両状態及び第１マイク２０ａに対応した前記閾値Ｔｈ１１〜Ｔｈ１５が保持されており、第２音響パターン認識部５０ｂには、車両状態及び第２マイク２０ｂに対応した車速閾値Ｔｈ３１、エアコン風量閾値Ｔｈ３２、ヨーレート閾値Ｔｈ３３、オーディオ音量閾値Ｔｈ３４及び明るさ閾値Ｔｈ３５が保持されている。

第１音響パターン認識部５０ａ及び第２音響パターン認識部５０ｂは、前記音響パターン認識部５０と同様の作用を奏し、第１及び第２音響辞書６５ａ、６５ｂを参照しながら音声認識処理を行う。環境評価部６０は、閾値Ｔｈ１１〜Ｔｈ１５及び閾値Ｔｈ３１〜Ｔｈ３５を読み出して、取得した車両状態を示す信号との比較を行いながら、第１音響パターン認識部５０ａで得られた認識結果と第２音響パターン認識部５０ｂで得られた認識結果の選択処理を行う。

このように、独立的な第１音響パターン認識部５０ａ及び第２音響パターン認識部５０ｂを設けることにより、第１マイク２０ａ及び第２マイク２０ｂに個別に対応した音声認識を行うことができ、音声認識の認識率を向上させることができる。この場合、第１マイク２０ａと第２マイク２０ｂは、運転席付近と助手席付近というように車両１２内の異なる場所に配置し、運転者の音声と搭乗者の音声とを入力するようにしてもよい。また、車両用音声認識装置１０ａは、音声の入力手段として、第１マイク２０ａや第２マイク２０ｂと比較して高価なＣＣＤカメラ２２を用いることがなく、簡便且つ廉価に構成することができる。

次に、図９に示すように、第２の変形例に係る車両用音声認識装置１０ｂは、前記のＣＣＤカメラ２２に相当する第１ＣＣＤカメラ２２ａの他に、第２ＣＣＤカメラ２２ｂを備えるとともに、前記の画像パターン認識部５４、画像辞書６６に相当する第１画像パターン認識部５４ａ、第１画像辞書６７ａを備える。また、車両用音声認識装置１０ｂは、前記の音響パターン認識部５０、音響辞書６４に代えて、第２画像パターン認識部５４ｂ、第２画像辞書６７ｂを備える。

第１画像パターン認識部５４ａには、車両状態及び第１ＣＣＤカメラ２２ａに対応した前記閾値Ｔｈ２１〜Ｔｈ２５が保持されており、第２画像パターン認識部５４ｂには、車両状態及び第２ＣＣＤカメラ２２ｂに対応した車速閾値Ｔｈ４１、エアコン風量閾値Ｔｈ４２、ヨーレート閾値Ｔｈ４３、オーディオ音量閾値Ｔｈ４４及び明るさ閾値Ｔｈ４５が保持されている。

車両用音声認識装置１０ｂの動作は、前記車両用音声認識装置１０ａにおける音響に対する処理を画像に対する処理に変えたものとして理解されよう。

このような、車両用音声認識装置１０ｂでは、独立的な第１画像パターン認識部５４ａ及び第２画像パターン認識部５４ｂを設けることにより、第１ＣＣＤカメラ２２ａ及び第２ＣＣＤカメラ２２ｂに個別に対応して、画像に基づく音声認識を行うことができ、音声認識の認識率を向上させることができる。この場合、第１ＣＣＤカメラ２２ａと第２ＣＣＤカメラ２２ｂは、異なる位置から（例えば、左右方向から）搭乗者１４の口元を撮像するようにしてもよい。これにより、日の当たり方（例えば、逆光）により一方の画像が不鮮明であっても、他方の画像が鮮明となって、音声認識が適切に行われる可能性が高まる。

このような車両用音声認識装置１０ｂは、音声信号の認識部を用いることがないため、例えば、工事現場等の騒音が極めて大きい場所で使用される特殊車両等に対して好適に適用可能である。

本発明に係る車両用音声認識装置及び移動体は、上述の実施の形態に限らず、本発明の要旨を逸脱することなく、種々の構成を採り得ることはもちろんである。

車両用音声認識装置が搭載された車両のブロック構成図である。本実施の形態に係る車両用音声認識装置のブロック構成図である。画像認識部欄の合計欄の数が音声認識部欄の合計欄の数より大きい場合のパターン認識判定表を示す図である。環境評価部における処理の手順を示すフローチャート（その１）である。環境評価部における処理の手順を示すフローチャート（その２）である。音声認識部欄の合計欄の数が画像認識部欄の合計欄の数より大きい場合のパターン認識判定表を示す図である。画像認識部欄の合計欄の数と音声認識部欄の合計欄の数が等しい場合のパターン認識判定表を示す図である。第１の変形例に係る車両用音声認識装置のブロック構成図である。第２の変形例に係る車両用音声認識装置のブロック構成図である。

符号の説明

１０、１０ａ、１０ｂ…車両用音声認識装置
１２…車両１８…車内通信網
２０、２０ａ、２０ｂ…マイク２２、２２ａ、２２ｂ…ＣＣＤカメラ
２４…エアコンコントローラ２６…オーディオ
２８…ナビゲーションシステム３０…エンジンコントローラ
３２…パネル操作部３４…サンルーフコントローラ
３６…パワーウィンドコントローラ３８…日射センサ
４２…車速センサ４４…ＧＰＳ
４６…Ａ／Ｄ変換部４８、５２…周波数分析部
５０、５０ａ、５０ｂ…音響パターン認識部
５４、５４ａ、５４ｂ…画像パターン認識部
６０…環境評価部６２…最終結果格納部
６４、６５ａ、６５ｂ…音響辞書６６、６７ａ、６７ｂ…画像辞書
７０…パターン認識判定表
Ａ…オーディオ音量Ｌ…信号
Ｏ…ウィンド開度Ｓ…サンルーフ開度
Ｔ…エアコン風量Ｖ…車速
Ｗ…ワイパ速度Ｙ…ヨーレート

Claims

車両状態を検出する車両状態検出手段と、
話者が話す音声を音声入力部から入力して認識する第１音声認識手段と、
撮像部により前記話者の口元を撮像した画像を入力し、該画像に基づいて前記音声を認識する第２音声認識手段と、
前記車両状態検出手段から取得した前記車両状態に基づき、前記第１音声認識手段における第１音声認識処理及び前記第２音声認識手段における第２音声認識処理を選択的に制御する選択制御手段と、
を有することを特徴とする車両用音声認識装置。
請求項１記載の車両用音声認識装置を搭載していることを特徴とする移動体。