JP2006030908A

JP2006030908A - 車両用音声認識装置及び移動体

Info

Publication number: JP2006030908A
Application number: JP2004213508A
Authority: JP
Inventors: Yoichi Kitano; 陽一北野
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2004-07-21
Filing date: 2004-07-21
Publication date: 2006-02-02

Abstract

【課題】対環境性能を向上させて、より正確な音声認識を行う。
【解決手段】車両用音声認識装置１０は、搭乗者が話す音声をマイクから入力して認識する音響パターン認識部５０と、ＣＣＤカメラ２２により搭乗者の口元を撮像した画像に基づいて音声を認識する画像パターン認識部５４とを有する。車両用音声認識装置１０の環境評価部７０は、車両状態検出手段により検出された車両状態に基づいて、音響パターン認識部５０の信頼度を示す第１スコア補正係数と画像パターン認識部５４の信頼度を示す第２スコア補正係数とを求めるる。音響パターン認識部５０により求められた信頼度スコアを第１スコア補正係数で補正するとともに画像パターン認識部５４により求められた信頼度スコアを第２スコア補正係数で補正して補正スコアを求める。同一の結果を示す音声認識結果毎に対応する補正スコアを集計して合計スコアを求める。
【選択図】図２

Description

本発明は、マイク等の音声入力手段とカメラ等の画像入力手段を用いて話者が話す音声を認識する音声認識装置に関し、特に、車載用音声認識装置
と、該車載用音声認識装置が搭載される移動体に関する。

近時の車両には多数の電子機器が搭載されるようになり、その機能も一層高度化しつつある。このような中、電子機器の操作の容易化のため音声操作を可能にする音声認識装置が開発されている。

ところで、車両用に限らず、音声認識装置において話者が話す音声を確実に認識するためには、話者の話し方の変化や周囲の騒音等を充分に考慮しなければならない。そのような対策のために、想定される複数の騒音環境に対応した音声モデルを予め設けておき、騒音環境に応じた適当な音声モデルを選択して音声認識を行うシステム（例えば、特許文献１参照）や、話者の心的状態を推定することにより複数の音声認識辞書から適切な辞書を選択して用いる装置（例えば、特許文献２参照）が提案されている。

特開２０００−７５８８９号公報特開２００２−１４９１９１号公報

音声認識装置にマイク等の音響入力部と、話者の口元を撮像するＣＣＤ(Charge Coupled Device)カメラ等の撮像部とを設けておくことにより、音響入力部から得られた話者の音声を認識する手段と、撮像部から得られた画像に基づいて音声を認識手段とを相互補完的に使用することにより、話者の音声を相当に認識することができて好適である。また、音声認識装置を車載用として用いる場合には、想定される音声上のノイズ又は画像ノイズ（以下、環境ノイズと呼ぶ）を含んだ認識辞書を使用することにより、音声認識の対環境性能が向上する。

ところで、車両はその走行状態や走行箇所に応じて温度、湿度、加速度、振動、明るさ及び騒音等が著しく変化するが、前記の認識辞書に含まれる環境ノイズは一定の環境下では有効であっても、異なる環境下では充分に有効でない場合もあり得る。一方、前記の特許文献１及び特許文献２に記載されたシステムでは、このような車両状態に基づく環境変化を考慮した音声認識ができる構成にはなっていない。

また、搭載される車種によっては騒音のレベルや日の当たり方が異なり、所定の認識辞書が全ての車種に対して有効であるとは限らない。従って、搭載される車種毎に認識辞書の調整を行う必要があるがこの作業は煩雑であり、しかも異なるセッティングにすると音声認識装置の車種に対する汎用性が低下する。

本発明はこのような課題を考慮してなされたものであり、車両状態に基づく環境変化の影響を受けにくく、より正確な音声認識を行うことを可能にする車両用音声認識装置及び該車両用音声認識装置を搭載した移動体を提供することを目的とする。

本発明に係る車両用音声認識装置は、車両状態を検出する車両状態検出手段と、
話者が話す音声を音響入力部から入力し、１以上の音響辞書を参照しながら前記音声を認識して、前記音響辞書毎にそれぞれ１以上の音声認識結果と該音声認識結果に対応する信頼度スコアとを求める第１音声認識手段と、
撮像部により前記話者の口元を撮像した画像を入力し、１以上の画像辞書を参照しながら前記音声を認識して、前記画像辞書毎にそれぞれ１以上の音声認識結果と該音声認識結果に対応する信頼度スコアとを求める第２音声認識手段と、
前記車両状態検出手段により検出された前記車両状態に基づいて、前記第１音声認識手段の信頼度を示す第１スコア補正係数と前記第２音声認識手段の信頼度を示す第２スコア補正係数とを求める信頼度算出手段と、
前記第１音声認識手段により求められた信頼度スコアを前記第１スコア補正係数で補正するとともに前記第２音声認識手段により求められた信頼度スコアを前記第２スコア補正係数で補正して補正スコアを求めるスコア算出手段と、
同一の結果を示す前記音声認識結果毎に対応する前記補正スコアを集計して合計スコアとして求めるとともに、少なくとも前記合計スコアが最も高い値である音声認識結果を出力する結果出力手段と、
を有することを特徴とする（請求項１記載の発明）。

このように、本発明では、音響入力部から入力される信号に基づく第１音声認識手段と、撮像部の画像信号に基づく第２音声認識手段とにより求められた複数の音声認識結果に対する各信頼度スコアを、車両状態に基づく第１スコア補正係数、第２スコア補正係数でそれぞれ補正する。この後、得られた補正スコアを集計した合計スコアを比較することにより、複数の音声認識結果のうち、その時点の車両状態における信頼度の高いものを選択することができる。これにより、車両状態に基づく環境変化の影響を受けにくく、より正確な音声認識を行うことができる。

この場合、前記第１スコア補正係数は、前記音響入力部から入力される信号に対する前記車両状態に基づく音響入力信頼度を含み、前記第２スコア補正係数は、前記撮像部により撮像される前記画像に対する前記車両状態に基づく画像入力信頼度を含むようにしてもよい（請求項２記載の発明）。これにより、その時点における音声入力の手段毎の信頼度を考慮した音声認識を行うことができる。

また、前記音響入力信頼度及び（又は）前記画像入力信頼度に基づき、前記第１音声認識手段及び前記第２音声認識手段による音声認識の実行を制御する第１制御手段をさらに有するようにしてもよい（請求項３記載の発明）。

さらに、前記音響辞書及び前記画像辞書は、ともに異なる車両状態で作成された２以上の辞書であって、前記第１スコア補正係数は、前記音響辞書毎の前記車両状態に基づく音響辞書信頼度を含み、前記第２スコア補正係数は、前記画像辞書毎に前記車両状態の基づく画像辞書信頼度を含むようにしてもよい（請求項４記載の発明）。これにより、その時点における各辞書毎の信頼度を考慮した音声認識を行うことができる。

さらにまた、前記音響辞書信頼度及び（又は）前記画像辞書信頼度に基づき、前記第１音声認識手段及び前記第２音声認識手段による音声認識の実行を制御する第２制御手段をさらに有していてもよい（請求項５記載の発明）。

また、本発明は、車両状態を検出する車両状態検出手段と、
話者が話す音声を第１音響入力部から入力し、１以上の音響辞書を参照しながら前記音声を認識して、前記音響辞書毎にそれぞれ１以上の音声認識結果と該音声認識結果に対応する信頼度スコアとを求める第１音声認識手段と、
前記第１音声認識手段と同様の構成であって、前記音声を第２音響入力部から入力して前記音声を認識する第２音声認識手段と、
前記車両状態検出手段により検出された前記車両状態に基づいて、前記第１音声認識手段の信頼度を示す第１スコア補正係数と前記第２音声認識手段の信頼度を示す第２スコア補正係数とを求める信頼度算出手段と、
前記第１音声認識手段により求められた信頼度スコアを前記第１スコア補正係数で補正するとともに前記第２音声認識手段により求められた信頼度スコアを前記第２スコア補正係数で補正して補正スコアを求めるスコア算出手段と、
同一の結果を示す前記音声認識結果毎に対応する前記補正スコアを集計して合計スコアとして求めるとともに、少なくとも前記合計スコアが最も高い値である音声認識結果を出力する結果出力手段と、
を有することを特徴とする（請求項６記載の発明）。

さらに、本発明は、車両状態を検出する車両状態検出手段と、
第１撮像部により話者の口元を撮像した画像を入力し、１以上の画像辞書を参照しながら前記話者が話す音声を認識して、前記画像辞書毎にそれぞれ１以上の音声認識結果と該音声認識結果に対応する信頼度スコアとを求める第１音声認識手段と、
前記第１音声認識部と同様の構成であって、第２撮像部により前記話者の口元を撮像した画像を入力して前記音声を認識する第２音声認識手段と、
前記車両状態検出手段により検出された前記車両状態に基づいて、前記第１音声認識手段の信頼度を示す第１スコア補正係数と前記第２音声認識手段の信頼度を示す第２スコア補正係数とを求める信頼度算出手段と、
前記第１音声認識手段により求められた信頼度スコアを前記第１スコア補正係数で補正するとともに前記第２音声認識手段により求められた信頼度スコアを前記第２スコア補正係数で補正して補正スコアを求めるスコア算出手段と、
同一の結果を示す前記音声認識結果毎に対応する前記補正スコアを集計して合計スコアとして求めるとともに、少なくとも前記合計スコアが最も高い値である音声認識結果を出力する結果出力手段と、
を有することを特徴とする（請求項７記載の発明）。

このような車両用音声認識装置を搭載している移動体では、車載電子機器に対する音声による操作を一層確実に行うことができる（請求項８記載の発明）。

上述したように、第１音声認識手段と第２音声認識手段で求められた複数の音声認識結果に対する各信頼度スコアを、車両状態に基づく第１スコア補正係数、第２スコア補正係数でそれぞれ補正するとともに、得られた補正スコアを集計した合計スコアを比較することにより、複数の音声認識結果のうち、その時点の車両状態における信頼度の高いものを選択することができる。これにより、対環境性能を向上させて車両状態に基づく環境変化の影響を受けにくくすることができ、より正確な音声認識が可能となる。

また、第１音声認識手段では音響入力部の音声信号に基づく音声認識処理を行う一方、第２音声認識手段では撮像部の画像信号に基づく音声認識処理を行うことにより相互補完的な作用を奏し、一層正確に音声認識を行うことができる。

さらに、車両の設計条件や車両用音声認識装置の利用形態等に応じて、第１音声認識手段及び第２音声認識手段の双方を音響入力部の音声信号に基づく音声認識処理を行うようにしてもよく、逆に双方を画像信号に基づく音声認識処理を行うようにしてもよい。

以下、本発明に係る車両用音声認識装置及び移動体について実施の形態を挙げ、添付の図１〜図１０を参照しながら説明する。

図１に示すように、本実施の形態に係る車両用音声認識装置１０は移動体としての車両１２に搭載されており、搭乗者（話者）１４の声を入力するマイク（音響入力部）２０、口元を撮像するＣＣＤカメラ（撮像部）２２及び車内通信網１８に接続されている。マイク２０及びＣＣＤカメラ２２は、車内におけるルーフとフロントウィンドとの境界部近傍に設けられている。

マイク２０及びＣＣＤカメラ２２は、これ以外の箇所（例えば、ルーフ下面部、インスツルメントパネル部、ヘッドレスト、搭乗者の肩部及びヘッドセット等）に設けられていてもよい。ＣＣＤカメラ２２は搭乗者１４の口元を直接的に撮像するものに限らず、ミラー、プリズム、レンズ等を介して撮像するようにしてもよく、また、ＭＯＳ型カメラを用いてもよい。

車内通信網１８にはエアコンコントローラ２４、オーディオ２６、ナビゲーションシステム２８、エンジンコントローラ３０、パネル操作部３２、サンルーフコントローラ３４及びパワーウィンドコントローラ３６が接続されており、これらの各機器（車両状態検出手段）は車内通信網１８によって相互にデータ通信が可能である。エアコンコントローラ２４には日射センサ３８と図示しない風量調節機構が設けられている。オーディオ２６には図示しない音量調節機構及び音量認識部が設けられている。

ナビゲーションシステム２８にはＧＰＳ（Global Positioning System）４４又はジャイロセンサ等が接続されており、車両１２の位置や座標情報を取得することができる。

エンジンコントローラ３０はエンジン４０の制御を行うものであって、車速センサ４２により車両１２の車速Ｖを検出することができる。また、エンジンコントローラ３０は車速Ｖと図示しない舵角センサの信号とに基づいて車両１２のヨーレートＹを取得することができる。ヨーレートＹは、ジャイロセンサ等の信号を参照しながら算出するようにしてもよい。また、エンジンコントローラ３０は、車速Ｖ及びエンジン回転数等に基づいて平均振動Ｆを算出することができる。

パネル操作部３２は、搭乗者１４が操作するスイッチ等が設けられており、例えばワイパ速度Ｗを制御するとともに、このワイパ速度Ｗを車内通信網１８に供給する。パワーウィンドコントローラ３６は操作スイッチの状態に応じてウィンドを昇降させることができ、他の機器からの要求に従ってその時点におけるウィンド開度Ｏを車内通信網１８に供給する。

図２に示すように、車両用音声認識装置１０は、搭乗者１４が話す音声をマイク２０から入力してデジタルデータに変換するＡ／Ｄ変換部４６と、変換されたデジタルデータを周波数分析する第１周波数分析部４８と、音響パターン認識部（第１音声認識手段）５０とを有する。また、車両用音声認識装置１０は、ＣＣＤカメラ２２で撮像された搭乗者１４の口元の画像（動画）を周波数分析する第２周波数分析部５２と、画像パターン認識部（第２音声認識手段）５４とを有する。

第１周波数分析部４８及び第２周波数分析部５２は、入力されたデータを周波数分析し、音響パターン認識部５０及び画像パターン認識部５４の解析用データを得る。

また、車両用音声認識装置１０は、異なる車両状態で作成された５個の音響辞書５６ａ、５６ｂ、５６ｃ、５６ｄ及び５６ｅが格納される音響辞書格納部５８と、各音響辞書５６に基づいて作成される音響認識テーブル６０と、異なる車両状態で作成された３個の画像辞書６２ａ、６２ｂ及び６２ｃが格納される画像辞書格納部６４と、各画像辞書６２ａ〜６２ｃに基づいて作成される画像認識テーブル６６と、車両状態を判断して車両用音声認識装置１０を統合的に制御する環境評価部７０と、該環境評価部７０からアクセスされる一時記憶部７２と、該一時記憶部７２等を参照しながら最終的な音声認識の候補の順位付けを行う最終結果演算部７４と、順位付けが行われた音声データが最終結果テーブル７６として格納される最終結果格納部７８とを有する。音響辞書及び画像辞書は、５個及び３個に限らず設計条件に基づいて適切な個数が設けられていればよい。

図３に示すように、音響認識テーブル６０は、前記の音響辞書５６ａ、５６ｂ、５６ｃ、５６ｄ及び５６ｅに対応した群からなるテーブルであって、それぞれ辞書環境値欄６０ａ、辞書信頼度欄６０ｂ、認識結果テキスト欄６０ｃ、信頼度スコア欄６０ｄ、及び１次補正スコア欄６０ｅを有する。

辞書環境値欄６０ａには各音響辞書５６ａ〜５６ｅが作成された環境のモデル条件値が記録されており、具体的には、車速モデル値Ｖｍ１、エアコン風量モデル値Ｔｍ１、ワイパ速度モデル値Ｗｍ１、ウィンド開度モデル値Ｏｍ１、及びオーディオ音量モデル値Ａｍ１が記録されている。

辞書信頼度欄６０ｂは、各音響辞書５６ａ〜５６ｅのその時点における音響辞書信頼度（第１スコア補正係数）Ｑｍ１１、Ｑｍ１２、Ｑｍ１３、Ｑｍ１４及びＱｍ１５を車両状態に基づいて求めて記録する欄である。

認識結果テキスト欄６０ｃは、音響パターン認識部５０が各音響辞書５６ａ〜５６ｅを参照しながら認識した音声である認識結果テキスト（音声認識結果）を信頼度スコアの順に３つを上方の行から記録する欄である。設計条件により、認識結果テキストは４つ以上記録できるようにしてもよい。

音響パターン認識部５０が音響辞書５６ａ〜５６ｅから相関の高い認識結果テキストとしてのデータを選択するための手段は、例えば、パターンマッチング手法や統計的な手法を用いることができる。統計的手法としては、確率的な有限状態を持つ隠れマルコフモデル（Hidden Markov Model）の手法を挙げることができる。隠れマルコフモデルでは、音声モデルの学習を行うことにより音声を高確率で認識可能である。この際、各認識結果テキスト毎の信頼度スコアが０〜１００の値として求められ、該信頼度スコアの値が信頼度スコア欄６０ｄに記録される。１次補正スコア欄６０ｅは、各信頼度スコアに対して０〜１の値である音響入力信頼度（第１スコア補正係数）ＴＰ１を積算した２次スコアが記録される欄である。音響入力信頼度ＴＰ１は、マイク２０から入力される音響信号の信頼度を車両状態に基づいて設定する値であり、後述する（１）式で求められる。

なお、各音響辞書５６ａ〜５６毎に適当な認識結果テキストが３つ得られない場合には、対応する認識結果テキスト欄６０ｃには得られなかった数に応じて「候補無」が記録され、信頼度スコア欄６０ｄ及び１次補正スコア欄６０ｅは空欄となる。

図４に示すように、画像認識テーブル６６は図３の音響認識テーブル６０と同じ書式のテーブルであって、前記の画像辞書６２ａ、６２ｂ及び６２ｃに対応した群からなり、それぞれ辞書環境値欄６６ａ、辞書信頼度欄６６ｂ、認識結果テキスト欄６６ｃ、信頼度スコア欄６６ｄ、及び１次補正スコア欄６６ｅを有する。

辞書環境値欄６６ａには各画像辞書６２ａ〜６２ｃが作成された環境のモデル条件値が記録されており、具体的には、対象面平均明度モデル値Ｌｍ１、及び平均振動モデル値Ｆｍ１が記録されている。

辞書信頼度欄６６ｂは、各画像辞書６２ａ〜６２ｃのその時点における画像辞書信頼度（第２スコア補正係数）Ｑｍ２１、Ｑｍ２２、及びＱｍ２３を車両状態に基づいて求めて記録する欄である。

認識結果テキスト欄６６ｃは、画像パターン認識部５４が各画像辞書６２ａ〜６２ｃを参照しながら画像に基づいて認識した音声である認識結果テキストを信頼度スコアの順に３つを上方の行から記録する欄である。画像パターン認識部５４は、音響パターン認識部５０と同様に、前記隠れマルコフモデル等の手法に基づいて音声認識を行うことができる。信頼度スコア欄６６ｄには、前記の信頼度スコア欄６０ｄと同様に、各認識結果テキスト毎の信頼度スコアが０〜１００の値として記録される。１次補正スコア欄６６ｅは、各信頼度スコアに対して０〜１の値である画像入力信頼度（第２スコア補正係数）ＴＰ２を積算した２次スコアが記録される欄である。画像入力信頼度ＴＰ２は、ＣＣＤカメラ２２から入力される画像信号の信頼度を車両状態に基づいて設定する値であり、後述する（２）式で求められる。

図２に戻り、環境評価部７０は、前記の車内通信網１８に接続されており、エアコンコントローラ２４、オーディオ２６、ナビゲーションシステム２８及びエンジンコントローラ３０等を介して車両状態としての車速Ｖ、エアコン風量Ｔ、ヨーレートＹ、オーディオ音量Ａ、位置及び座標情報、ワイパ速度Ｗ、ウィンド開度Ｏ、サンルーフ開度Ｓ、日射センサ３８による明るさ信号Ｌ及び平均振動Ｆ等を取得することができる。車両状態を示す信号としては、これら以外に加速度、ロール、ピッチ等の動的挙動状態の信号、温度、湿度、気圧等の空気状態の信号等の信号を挙げることができる。

一時記憶部７２は、取得した車両状態を示す各信号を記憶する実環境値記憶部８２と、前記の音響入力信頼度ＴＰ１及び画像入力信頼度ＴＰ２を記録するパターン信頼度記録部８４と、音響認識テーブル６０の１次補正スコアに対して音響入力信頼度ＴＰ１を積算した２次補正スコアを記録するための実環境音響認識スコアテーブル８６と、画像認識テーブル６６の１次補正スコアに対して画像入力信頼度ＴＰ２を積算した２次補正スコアを記録するための実環境画像認識スコアテーブル８８とを有する。この２次補正スコアは、車両状態が反映された実環境スコアともいうことができる。

図５及び図６に示すように、実環境音響認識スコアテーブル８６及び実環境画像認識スコアテーブル８８は、図３及び図４の音響認識テーブル６０及び画像認識テーブル６６とほぼ同じ書式のテーブルであって、認識結果テキスト欄８６ａ及び８８ａを有するとともに、前記の信頼度スコア欄６０ｄ及び１次補正スコア欄６０ｅに代わって、各認識結果テキストに対応する２次補正スコアが記録される２次補正スコア欄８６ｂ及び８８ｂが設けられている。

説明の便宜上、音響認識テーブル６０、画像認識テーブル６６、実環境音響認識スコアテーブル８６及び実環境画像認識スコアテーブル８８は理解しやすいような表形式で示しているが、実際には音響パターン認識部５０、画像パターン認識部５４及び環境評価部７０がアクセス可能なマップ形式等で設けられていればよい。

次に、このように構成される車両用音声認識装置１０を用いて搭乗者１４が話す音声を認識する手順について説明する。

図７のステップＳ１において、環境評価部７０は、各種のセンサの信号を読み取るとともに、所定のパラメータの算出を行う。つまり、前記のとおり車速Ｖ、エアコン風量Ｔ、ヨーレートＹ、オーディオ音量Ａ、位置及び座標情報、ワイパ速度Ｗ、ウィンド開度Ｏ、サンルーフ開度Ｓ、日射センサ３８による明るさ信号Ｌ及び平均振動Ｆ等の信号を取得する。取得した車速Ｖ、エアコン風量Ｔ、ワイパ速度Ｗ、ウィンド開度Ｏ、オーディオ音量Ａ、明るさＬ及び平均振動Ｆについては、０〜１００の範囲となるようにスケール調整やリミット処理を行った後に実環境値記憶部８２に記録する。

この時点において、各信号の値はＶ＝５５、Ｔ＝２０、Ｗ＝０、Ｏ＝０、Ａ＝２０、Ｌ＝５５及びＦ＝２０であるものとする。

ステップＳ２において、環境評価部７０は、実環境値記憶部８２に記録された各センサ信号に基づいて音響入力信頼度ＴＰ１及び画像入力信頼度ＴＰ２を次の（１）式及び（２）式に基づいて求める。

ＴＰ１＝１−（Ｖ＋Ｔ＋Ｗ＋Ｏ＋Ａ）／（１００×Ｐａ） …（１）

ＴＰ２＝１−ＴＰ１ …（２）

ここで、パラメータＰａは音響信号に影響を与える信号（つまり、Ｖ、Ｔ、Ｗ、Ｏ及びＡ）の数であり、Ｐａ＝５である。この（１）式及び（２）式に上記の信号の値を代入することにより、ＴＰ１＝０．８１、ＴＰ２＝０．１９を得る。

音響入力信頼度ＴＰ１及び画像入力信頼度ＴＰ２は、０〜１の値をとることは（１）式及び（２）式から明らかである。また、（２）式から、ＴＰ１＋ＴＰ２＝１となり、音響入力信頼度ＴＰ１及び画像入力信頼度ＴＰ２が双方とも著しく低い値となることが防止され、音響パターン認識部５０か画像パターン認識部５４の少なくとも一方を有効に作用させることができる。

また、画像入力信頼度ＴＰ２は、（１）式と類似の方法で、ＴＰ２＝１−（Ｌ＋Ｆ）／（１００×２）として求めてもよい。

ステップＳ３において、環境評価部７０は、実環境値記憶部８２に記録された各センサ信号に基づいて音響辞書信頼度Ｑｍ１１〜Ｑｍ１５及び画像辞書信頼度Ｑｍ２１〜Ｑｍ２３を次の（３）式及び（４）式に基づいて求める。

ここで、添え字Ｎは音響辞書５６ａ〜５６ｅ及び画像辞書６２ａ〜６２ｃを識別する番号であり、（３）式については、Ｎ＝１〜５、（４）式については、Ｎ＝１〜３である。また、パラメータＰｂは画像信号に影響を与える信号（つまり、Ｌ及びＦ）の数であり、Ｐｂ＝２である。パラメータＰａは前記の通り、Ｐａ＝５である。パラメータＣは車両１２に固有の１．０以上の調整値である車両係数であって、ここではＣ＝１．２であるものとする。

（３）式では、各音響辞書５６ａ〜５６ｅが作成された環境のモデル条件値と、その時点の車両状態を示す信号との差の絶対値を各信号毎に求めて加算しており、モデル条件値との一致度が高いほど１．０に近づき、一致度が低いほど０．０に近づくように調整されている。車両状態を示す信号とモデル条件値との一致度が高い場合、それだけその音響辞書が作成された状態に近いこととなり、その音響辞書の信頼度は高い。従って、音響辞書信頼度Ｑｍ１１〜Ｑｍ１５の値が高く、１．０に近いほど、対応する音響辞書５６ａ〜５６ｅの信頼度が高いといえる。また、（４）式についても同様であって、画像辞書信頼度Ｑｍ２１〜Ｑｍ２３の値が１．０に近いほど、対応する画像辞書６２ａ〜６２ｃの信頼度が高い。

さらに、車両係数Ｃの値を調整することにより、異なる車両１２に対しても好適に適用可能となる。

（３）式によれば、上記の各パラメータを代入することにより、Ｑｍ１１＝０．７３、Ｑｍ１２＝０．７４、Ｑｍ１３＝０．７６、Ｑｍ１４＝０．６７、及びＱｍ１５＝０．６８が得られ、これらの値を音響認識テーブル６０の辞書信頼度欄６０ｂに記録する（図３参照）。また、（４）式によれば、Ｑｍ２１＝０．７３、Ｑｍ２２＝０．９０、及びＱｍ２３＝０．９２が得られ、これらの値を画像認識テーブル６６の辞書信頼度欄６６ｂに記録する（図４参照）。

ステップＳ４において、環境評価部７０は、音響パターン認識部５０及び画像パターン認識部５４に対して音声認識の処理を開始するように指示を行う。ただし、音響入力信頼度ＴＰ１が著しく小さい値である場合には、音響パターン認識部５０に対して処理を中止させ、画像入力信頼度ＴＰ２が著しく小さい値である場合には画像パターン認識部５４に対して処理を中止させる（第１制御手段）。このように、音響入力信頼度ＴＰ１及び画像入力信頼度ＴＰ２の値に応じて、信頼度が低い方の処理を中止させることにより演算量の低減を図ることができる。また、前記（２）式の構成から、音響入力信頼度ＴＰ１及び画像入力信頼度ＴＰ２が双方とも著しく低い値となることがなく、音響パターン認識部５０及び画像パターン認識部５４の少なくとも一方は音声認識処理を実行する。さらに、音響入力信頼度ＴＰ１が略１．０である場合には音響パターン認識部５０の信頼度が極めて高いため、この音響パターン認識部５０のみを実行させれば充分である。このとき、（２）式の構成から画像入力信頼度ＴＰ２が略０となり、画像パターン認識部５４の処理を中止させることができる。

環境評価部７０からの音声認識の処理開始指示を受けて、音響パターン認識部５０はステップＳ５及びＳ６の処理を行い、画像パターン認識部５４はこれと同時並列的にステップＳ７及びＳ８の処理を行う。

ステップＳ５において、音響パターン認識部５０は、搭乗者１４が話す音声をマイク２０を介して入力し、Ａ／Ｄ変換部４６及び第１周波数分析部４８で変換されたデータから音声の特徴抽出を行う。

ステップＳ６において、前記の隠れマルコフモデルの手法により、前記ステップＳ５で抽出されたデータと相関の高いデータを各音響辞書５６ａ〜５６ｅから認識結果テキストとして３つずつ選択する。このとき、データの信頼度を示す信頼度スコアを各データ毎に求める。求められた認識結果テキスト及び信頼度スコアは、音響認識テーブル６０の認識結果テキスト欄６０ｃ及び信頼度スコア欄６０ｄにそれぞれ記録する。なお、３つ求めた認識結果テキストのうち信頼度スコアが著しく小さいものは除外して、認識結果テキスト欄６０ｃに「候補無」と記録する。

一方、ステップＳ７において、画像パターン認識部５４は、搭乗者１４が話す際の口元の動きをＣＣＤカメラ２２で撮像した画像データを第２周波数分析部５２で変換し、変換されたデータから音声の特徴抽出を行う。

ステップＳ８においては、前記ステップＳ６と同様に、前記ステップＳ７で抽出されたデータと相関の高いデータを各画像辞書６２ａ〜６２ｃから認識結果テキストとして３つずつ選択するとともに、信頼度スコアを各データ毎に求める。求められた認識結果テキスト及び信頼度スコアは、画像認識テーブル６６の認識結果テキスト欄６６ｃ及び信頼度スコア欄６６ｄにそれぞれ記録する。

このようなステップＳ５、Ｓ６の処理及びステップＳ７、Ｓ８の処理により、音響辞書５６ａに基づいて候補順に「浦賀」、「浦和」、及び「石和」の３つの認識結果テキストが得られ、各信頼度スコアは７０、５９及び３０であって、これらの値が音響認識テーブル６０に記録されるものとする（図３参照）。また、画像辞書６２ａに基づいて、候補順に「浦賀」、「浦和」、及び「浦安」の３つの認識結果テキストが得られ、各信頼度スコアは８０、４２及び１２であって、これらの値が画像認識テーブル６６に記録されるものとする（図４参照）。他の音響辞書５６ｂ〜５６ｅ及び画像辞書６２ｂ、６２ｃについても、図３及び図４に示すように、「浦賀」、「浦和」、「石和」、「柏」、「浦安」及び「上田」が認識結果テキストとして得られ、図示するような信頼度スコアがそれぞれ得られるものとする。

なお、音響パターン認識部５０及び画像パターン認識部５４は、音響辞書信頼度Ｑｍ１１〜Ｑｍ１５及び画像辞書信頼度Ｑｍ２１〜Ｑｍ２３の値を参照して、著しく小さい値のものがある場合には、対応する辞書に対する音声認識処理を省略してもよい（第２制御手段）。

ステップＳ６及びステップＳ８の処理が終了した後、ステップＳ９において、環境評価部７０は、音響認識テーブル６０の信頼度スコア欄６０ｄ（図３参照）に記録された各信頼度スコアに対して音響入力信頼度ＴＰ１をそれぞれ積算して１次補正スコア欄６０ｅに記録する。同様に、画像認識テーブル６６の信頼度スコア欄６６ｄ（図４参照）に記録された各信頼度スコアに対して画像入力信頼度ＴＰ２をそれぞれ積算して１次補正スコア欄６６ｅに記録する。

例えば、図３に示すように、音響辞書５６ａの第１の候補である「浦賀」については、信頼度スコアが「７０」であって、前記のとおり音響入力信頼度ＴＰ１は、ＴＰ１＝０．８１であることから、対応する１次補正スコア欄６０ｅには、「５７」（５７＝７０×０．８１）が記録される。また、図４に示すように、画像辞書６２ａの第１の候補である「浦賀」については、信頼度スコアが「８０」であって、前記のとおり画像入力信頼度ＴＰ２は、ＴＰ２＝０．１９であることから、対応する１次補正スコア欄６６ｅには、「１５」（１５＝８０×０．１９）が記録される。

ステップＳ１０において、環境評価部７０は、音響認識テーブル６０の１次補正スコア欄６０ｅ（図３参照）に記録された各１次補正スコアに対して、対応する音響辞書信頼度Ｑｍ１１〜Ｑｍ１５をそれぞれ積算して、一時記憶部７２における実環境音響認識スコアテーブル８６（図５参照）の２次補正スコア欄８６ｂにそれぞれ記録する。同様に、画像認識テーブル６６の１次補正スコア欄６６ｅ（図４参照）に記録された各１次補正スコアに対して、対応する画像辞書信頼度Ｑｍ２１〜Ｑｍ２３をそれぞれ積算して、実環境画像認識スコアテーブル８８（図５参照）の２次補正スコア欄８８ｂにそれぞれ記録する。

例えば、図３に示すように、音響辞書５６ａの第１の候補である「浦賀」については、１次補正スコアが「５７」であって、前記のとおり音響辞書信頼度Ｑｍ１１は、Ｑｍ１１＝０．７３であることから、対応する２次補正スコア欄８８ｂには、「４２」（４２＝５７×０．７３）が記録される（図５参照）。また、音響辞書５６ｂの第１の候補である「柏」については、１次補正スコアが「４３」であって、音響辞書信頼度Ｑｍ１２は、Ｑｍ１２＝０．７４であることから、対応する２次補正スコア欄８８ｂには、「３２」（３２＝４３×０．７４）が記録される（図５参照）。

ステップＳ１１において、最終結果演算部７４は、一時記憶部７２の実環境音響認識スコアテーブル８６及び実環境画像認識スコアテーブル８８を参照して、認識結果テキスト欄８６ａ及び８８ａに記録されている認識結果テキストを全て抽出するとともに、同一の結果を示す認識結果テキスト毎に対応する２次補正スコアを集計して合計スコアとして求める。抽出及び集計された認識結果テキストは、図８に示すように、最終結果テーブル７６に合計スコアの高い順に記録される。

例えば、「浦和」については、図５及び図６に示すように、音響辞書５６ａ、５６ｃ、５６ｄ及び画像辞書６２ａ、６２ｃに基づいて抽出されており、各２次補正スコアは３５、３４、２０、６及び５である。従って、図８に示すように、「浦和」についての合計スコアはこれらを加算した値である「１０３」であり、これは最高値となることから、最終結果テーブル７６の最上段に記録される。このように、「浦和」は合計スコアが最高値となり信頼度が最も高いこととなる。以下、合計スコアの順に「浦賀」、「浦安」、「柏」、「石和」及び「上田」が記録されることになる。

ところで、音響辞書信頼度Ｑｍ１１〜Ｑｍ１５及び画像辞書信頼度Ｑｍ２１〜Ｑｍ２３のうち、最も値が高いのは画像辞書信頼度Ｑｍ２３の「０．９２」であるが（図４参照）、画像辞書信頼度Ｑｍ２３に対応する画像辞書６２ｃに基づく認識結果テキストでは、最終的に最高値の合計スコアを得た「浦和」は２番目に挙げられた候補に過ぎない。つまり、単に辞書の信頼度のみに基づいて１つの辞書を選択したのでは、「浦和」は１番の候補としては選択されないことが諒解される。また、当初の信頼度スコアが最も高いのは、画像辞書６２ｂに基づいて選択された「浦賀」の「９０」であり（図４参照）、信頼度スコアにのみ基づいた選択を行ったのでは「浦和」は一番の候補としては選択されない。

これに対して、本実施の形態に係る車両用音声認識装置１０では、複数の辞書に基づく複数の認識結果テキストを統合的に判断し、車両状態に基づいて信頼度スコアを補正し、合計することにより、本来の信頼度が最も高いものを一番の候補として選択することができる。

ステップＳ１２において、最終結果格納部７８は、他の機器からの要求に応じて最終結果テーブル７６に格納された認識結果テキストを車内通信網１８を通じて、合計スコアの高い順に供給する。これにより、例えば、ナビゲーションシステム２８では搭乗者１４が目的地として指定した場所を示す音声を高い認識率で確認し、ナビゲーションの処理を行うことができる。また、ナビゲーションシステム２８では、受信した認識結果テキストに対して所定の条件やルールに基づく適性判断を行い、合計スコアを考慮しながら最適な認識結果テキストを選択するようにしてもよい。

上述したように、本実施の形態に係る車両用音声認識装置１０は、音声のパターン認識部として対環境性の異なる音響パターン認識部５０と画像パターン認識部５４の２つのをもち、環境評価部７０及び最終結果演算部７４の処理により、認識結果テキスト毎の信頼度スコアを車両状態に基づく係数で補正するとともに集計する。これにより、対環境性能が向上し、車両状態に基づく環境変化の影響を受けにくく、より正確な音声認識を行うことができる。

また、搭載される車種による騒音のレベルや日の当たり方の違いに応じて音響辞書５６及び画像辞書６２をセッティングする必要がなく、車両用音声認識装置１０の汎用性が向上する。

上記の説明では、当初求められた信頼度スコアに対して、先ず音響入力信頼度ＴＰ１又は画像入力信頼度ＴＰ２を積算して１次スコアを求め、次に音響辞書信頼度Ｑｍ１１〜Ｑｍ１５又は画像辞書信頼度Ｑｍ２１〜Ｑｍ２３を積算して２次補正スコアを求めるものとしたが、この積算の順序は逆であってもよい。また、あらかじめ音響辞書信頼度Ｑｍ１１〜Ｑｍ１５に音響入力信頼度ＴＰ１を積算した第１スコア補正係数と、画像辞書信頼度Ｑｍ２１〜Ｑｍ２３に画像入力信頼度ＴＰ２を積算した第２スコア補正係数とを求めておき、音響パターン認識部５０により求められた信頼度スコアに第１スコア補正係数を積算する一方、画像パターン認識部５４により求められた信頼度スコアに第２スコア補正係数を積算して、それぞれ１回の演算により２次補正スコアを求めるようにしてもよい。

さらに、信頼度スコアから２次補正スコアを求める演算方法は、信頼度スコアに対して第１スコア補正係数又は第２スコア補正係数を単純に積算するという方法に限らず、車両状態が反映されるように補正する演算方法であればよく、例えば、信頼度スコアと第１スコア補正係数又は第２スコア補正係数により２次補正スコアが特定されるマップを参照する方法や、実験式等に代入して求める方法であってもよい。

次に、前記車両用音声認識装置１０に対する第１の変形例に係る車両用音声認識装置１０ａ及び第２の変形例に係る車両用音声認識装置１０ｂについて説明する。以下の説明では、車両用音声認識装置１０と同じ箇所については同符号を付し、その詳細な説明を省略する。

図９に示すように、第１の変形例に係る車両用音声認識装置１０ａは、前記のマイク２０に相当する第１マイク２０ａの他に、第２マイク２０ｂを備えるとともに、前記の音響パターン認識部５０、音響辞書格納部５８及び音響認識テーブル６０に相当する第１音響パターン認識部５０ａ、第１音響辞書格納部５８ａ及び第１音響認識テーブル６１ａを備える。また、車両用音声認識装置１０ａは、前記の画像パターン認識部５４、画像辞書格納部６４及び画像認識テーブル６６に代えて、第２音響パターン認識部５０ｂ、第２音響辞書格納部５８ｂ及び第２音響認識テーブル６１ｂを備える。

第１音響辞書格納部５８ａには、車両状態及び第１マイク２０ａに対応した複数の音響辞書が格納されており、第２音響辞書格納部５８ｂには、車両状態及び第２マイク２０ｂに対応した複数の音響辞書が格納されている。

第１音響パターン認識部５０ａ及び第２音響パターン認識部５０ｂは、前記音響パターン認識部５０と同様の作用を奏し、取得した車両状態に基づいて第１音響辞書格納部５８ａ及び第２音響辞書格納部５８ｂに格納された音響辞書を参照しながら第１音響認識テーブル６１ａ及び第２音響認識テーブル６１ｂを作成する。

環境評価部７０は、第１音響認識テーブル６１ａ及び第２音響認識テーブル６１ｂから２次補正スコアを求めて１つの実環境音響認識スコアテーブル８６を作成する。最終結果演算部７４は、求められた２次補正スコアを集計して最終結果テーブル７６を作成する。

このように、独立的な第１音響パターン認識部５０ａ及び第２音響パターン認識部５０ｂを設けることにより、第１マイク２０ａ及び第２マイク２０ｂに個別に対応した音声認識を行うことができ、音声認識の認識率を向上させることができる。この場合、第１マイク２０ａと第２マイク２０ｂは、運転席付近と助手席付近というように車両１２内の異なる場所に配置し、運転者の音声と搭乗者の音声とを入力するようにしてもよい。また、車両用音声認識装置１０ａは、音声の入力手段として、第１マイク２０ａや第２マイク２０ｂと比較して高価なＣＣＤカメラ２２を用いることがなく、簡便且つ廉価に構成することができる。

次に、図１０に示すように、第２の変形例に係る車両用音声認識装置１０ｂは、前記のＣＣＤカメラ２２に相当する第１ＣＣＤカメラ２２ａの他に、第２ＣＣＤカメラ２２ｂを備えるとともに、前記の画像パターン認識部５４、画像辞書格納部６４及び画像認識テーブル６６に相当する第１画像パターン認識部５４ａ、第１画像辞書格納部６４ａ及び第１画像認識テーブル６７ａを備える。また、車両用音声認識装置１０ｂは、前記の音響パターン認識部５０、音響辞書格納部５８及び音響認識テーブル６０に代えて、第２画像パターン認識部５４ｂ、第２画像辞書格納部６４ｂ及び第２画像認識テーブル６７ｂを備える。

第１画像辞書格納部６４ａには、車両状態及び第１ＣＣＤカメラ２２ａに対応した複数の画像辞書が格納されており、第２画像辞書格納部６４ｂには、車両状態及び第２ＣＣＤカメラ２２ｂに対応した複数の音響辞書が格納されている。車両用音声認識装置１０ｂの動作は、前記車両用音声認識装置１０ａにおける音響に対する処理を画像に対する処理に変えたものとして理解されよう。

このような、車両用音声認識装置１０ｂでは、独立的な第１画像パターン認識部５４ａ及び第２画像パターン認識部５４ｂを設けることにより、第１ＣＣＤカメラ２２ａ及び第２ＣＣＤカメラ２２ｂに個別に対応して、画像に基づく音声認識を行うことができ、音声認識の認識率を向上させることができる。この場合、第１ＣＣＤカメラ２２ａと第２ＣＣＤカメラ２２ｂは、異なる位置から（例えば、左右方向から）搭乗者１４の口元を撮像するようにしてもよい。これにより、日の当たり方（例えば、逆光）により一方の画像が不鮮明であっても、他方の画像が鮮明となって、音声認識が適切に行われる可能性が高まる。

このような車両用音声認識装置１０ｂは、音声信号の認識部を用いることがないため、例えば、工事現場等の騒音が極めて大きい場所で使用される特殊車両等に対して好適に適用可能である。

本発明に係る車両用音声認識装置及び移動体は、上述の実施の形態に限らず、本発明の要旨を逸脱することなく、種々の構成を採り得ることはもちろんである。

車両用音声認識装置が搭載された車両のブロック構成図である。本実施の形態に係る車両用音声認識装置のブロック構成図である。音響辞書に基づいて作成される音響認識テーブルの内容を示す図である。画像辞書に基づいて作成される画像認識テーブルの内容を示す図である。２次補正スコアを記録するための実環境音響認識スコアテーブルの内容を示す図である。２次補正スコアを記録するための実環境画像認識スコアテーブルの内容を示す図である。車両用音声認識装置における処理の手順を示すフローチャートである。最終結果テーブルの内容を示す図である。第１の変形例に係る車両用音声認識装置のブロック構成図である。第２の変形例に係る車両用音声認識装置のブロック構成図である。

符号の説明

１０、１０ａ、１０ｂ…車両用音声認識装置
１２…車両１４…搭乗者
２０、２０ａ、２０ｂ…マイク
２２、２２ａ、２２ｂ…ＣＣＤカメラ
２４…エアコンコントローラ２６…オーディオ
２８…ナビゲーションシステム３０…エンジンコントローラ
３２…パネル操作部３４…サンルーフコントローラ
３６…パワーウィンドコントローラ４２…車速センサ
５０、５０ａ、５０ｂ…音響パターン認識部
５４、５４ａ、５４ｂ…画像パターン認識部
５６ａ〜５６ｅ…音響辞書
６０、６１ａ、６１ｂ…音響認識テーブル
６０ｄ、６６ｄ…信頼度スコア欄６０ｅ、６６ｅ…１次補正スコア欄
６２ａ〜６２ｃ…画像辞書
６６、６７ａ、６７ｂ…画像認識テーブル
７０…環境評価部７４…最終結果演算部
７６…最終結果テーブル８６ｂ、８８ｂ…２次補正スコア欄
Ａ…オーディオ音量Ｆ…平均振動
Ｌ…明るさ信号Ｏ…ウィンド開度
Ｑｍ１１〜Ｑｍ１５…音響辞書信頼度
Ｑｍ２１〜Ｑｍ２３…画像辞書信頼度
Ｓ…サンルーフ開度Ｔ…エアコン風量
ＴＰ１…音響入力信頼度ＴＰ２…画像入力信頼度
Ｖ…車速Ｗ…ワイパ速度
Ｙ…ヨーレート

Claims

車両状態を検出する車両状態検出手段と、
話者が話す音声を音響入力部から入力し、１以上の音響辞書を参照しながら前記音声を認識して、前記音響辞書毎にそれぞれ１以上の音声認識結果と該音声認識結果に対応する信頼度スコアとを求める第１音声認識手段と、
撮像部により前記話者の口元を撮像した画像を入力し、１以上の画像辞書を参照しながら前記音声を認識して、前記画像辞書毎にそれぞれ１以上の音声認識結果と該音声認識結果に対応する信頼度スコアとを求める第２音声認識手段と、
前記車両状態検出手段により検出された前記車両状態に基づいて、前記第１音声認識手段の信頼度を示す第１スコア補正係数と前記第２音声認識手段の信頼度を示す第２スコア補正係数とを求める信頼度算出手段と、
前記第１音声認識手段により求められた信頼度スコアを前記第１スコア補正係数で補正するとともに前記第２音声認識手段により求められた信頼度スコアを前記第２スコア補正係数で補正して補正スコアを求めるスコア算出手段と、
同一の結果を示す前記音声認識結果毎に対応する前記補正スコアを集計して合計スコアとして求めるとともに、少なくとも前記合計スコアが最も高い値である音声認識結果を出力する結果出力手段と、
を有することを特徴とする車両用音声認識装置。
請求項１記載の車両用音声認識装置において、
前記第１スコア補正係数は、前記音響入力部から入力される信号に対する前記車両状態に基づく音響入力信頼度を含み、前記第２スコア補正係数は、前記撮像部により撮像される前記画像に対する前記車両状態に基づく画像入力信頼度を含むことを特徴とする車両用音声認識装置。
請求項２記載の車両用音声認識装置において、
前記音響入力信頼度及び（又は）前記画像入力信頼度に基づき、前記第１音声認識手段及び前記第２音声認識手段による音声認識の実行を制御する第１制御手段をさらに有することを特徴とする車両用音声認識装置。
請求項１〜３のいずれか１項に記載の車両用音声認識装置において、
前記音響辞書及び前記画像辞書は、ともに異なる車両状態で作成された２以上の辞書であって、
前記第１スコア補正係数は、前記音響辞書毎の前記車両状態に基づく音響辞書信頼度を含み、前記第２スコア補正係数は、前記画像辞書毎に前記車両状態の基づく画像辞書信頼度を含むことを特徴とする車両用音声認識装置。
請求項４記載の車両用音声認識装置において、
前記音響辞書信頼度及び（又は）前記画像辞書信頼度に基づき、前記第１音声認識手段及び前記第２音声認識手段による音声認識の実行を制御する第２制御手段をさらに有することを特徴とする車両用音声認識装置。
車両状態を検出する車両状態検出手段と、
話者が話す音声を第１音響入力部から入力し、１以上の音響辞書を参照しながら前記音声を認識して、前記音響辞書毎にそれぞれ１以上の音声認識結果と該音声認識結果に対応する信頼度スコアとを求める第１音声認識手段と、
前記第１音声認識手段と同様の構成であって、前記音声を第２音響入力部から入力して前記音声を認識する第２音声認識手段と、
前記車両状態検出手段により検出された前記車両状態に基づいて、前記第１音声認識手段の信頼度を示す第１スコア補正係数と前記第２音声認識手段の信頼度を示す第２スコア補正係数とを求める信頼度算出手段と、
前記第１音声認識手段により求められた信頼度スコアを前記第１スコア補正係数で補正するとともに前記第２音声認識手段により求められた信頼度スコアを前記第２スコア補正係数で補正して補正スコアを求めるスコア算出手段と、
同一の結果を示す前記音声認識結果毎に対応する前記補正スコアを集計して合計スコアとして求めるとともに、少なくとも前記合計スコアが最も高い値である音声認識結果を出力する結果出力手段と、
を有することを特徴とする車両用音声認識装置。
車両状態を検出する車両状態検出手段と、
第１撮像部により話者の口元を撮像した画像を入力し、１以上の画像辞書を参照しながら前記話者が話す音声を認識して、前記画像辞書毎にそれぞれ１以上の音声認識結果と該音声認識結果に対応する信頼度スコアとを求める第１音声認識手段と、
前記第１音声認識部と同様の構成であって、第２撮像部により前記話者の口元を撮像した画像を入力して前記音声を認識する第２音声認識手段と、
前記車両状態検出手段により検出された前記車両状態に基づいて、前記第１音声認識手段の信頼度を示す第１スコア補正係数と前記第２音声認識手段の信頼度を示す第２スコア補正係数とを求める信頼度算出手段と、
前記第１音声認識手段により求められた信頼度スコアを前記第１スコア補正係数で補正するとともに前記第２音声認識手段により求められた信頼度スコアを前記第２スコア補正係数で補正して補正スコアを求めるスコア算出手段と、
同一の結果を示す前記音声認識結果毎に対応する前記補正スコアを集計して合計スコアとして求めるとともに、少なくとも前記合計スコアが最も高い値である音声認識結果を出力する結果出力手段と、
を有することを特徴とする車両用音声認識装置。
請求項１〜７のいずれか１項に記載の車両用音声認識装置を搭載していることを特徴とする移動体。