JP2006030880A - 車両用音声認識装置及び移動体 - Google Patents
車両用音声認識装置及び移動体 Download PDFInfo
- Publication number
- JP2006030880A JP2006030880A JP2004213200A JP2004213200A JP2006030880A JP 2006030880 A JP2006030880 A JP 2006030880A JP 2004213200 A JP2004213200 A JP 2004213200A JP 2004213200 A JP2004213200 A JP 2004213200A JP 2006030880 A JP2006030880 A JP 2006030880A
- Authority
- JP
- Japan
- Prior art keywords
- vehicle
- voice recognition
- voice
- pattern recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】対環境性能を向上させて、より正確な音声認識を行う。
【解決手段】車両用音声認識装置10は、車速センサ42、エンジンコントローラ30、エアコンコントローラ24、オーディオ26等に接続されていて、搭乗者が話す音声をマイクから入力して認識する音響パターン認識部50と、CCDカメラ22により搭乗者の口元を撮像した画像に基づいて音声を認識する画像パターン認識部54とを有する。車両用音声認識装置10の環境評価部60は、車速V、エアコン風量T、オーディオ音量A等の車両状態に基づき、音響パターン認識部50の音声認識処理と、画像パターン認識部54の音声認識処理とを選択的に制御する。
【選択図】図3
【解決手段】車両用音声認識装置10は、車速センサ42、エンジンコントローラ30、エアコンコントローラ24、オーディオ26等に接続されていて、搭乗者が話す音声をマイクから入力して認識する音響パターン認識部50と、CCDカメラ22により搭乗者の口元を撮像した画像に基づいて音声を認識する画像パターン認識部54とを有する。車両用音声認識装置10の環境評価部60は、車速V、エアコン風量T、オーディオ音量A等の車両状態に基づき、音響パターン認識部50の音声認識処理と、画像パターン認識部54の音声認識処理とを選択的に制御する。
【選択図】図3
Description
本発明は、マイク等の音声入力手段とカメラ等の画像入力手段を用いて話者が話す音声を認識する車両用音声認識装置及び該車両用音声認識装置を搭載した移動体に関する。
近時の車両には多数の電子機器が搭載されるようになり、その機能も一層高度化しつつある。このような中、電子機器の操作の容易化のため音声操作を可能にする音声認識装置が開発されている。
ところで、車両用に限らず、音声認識装置において話者が話す音声を確実に認識するためには、話者の話し方の変化や周囲の騒音等を充分に考慮しなければならない。そのような対策のために、想定される複数の騒音環境に対応した音声モデルを予め設けておき、騒音環境に応じた適当な音声モデルを選択して音声認識を行うシステム(例えば、特許文献1参照)や、話者の心的状態を推定することにより複数の音声認識辞書から適切な辞書を選択して用いる装置(例えば、特許文献2参照)が提案されている。
音声認識装置にはマイク等の音声入力部と、話者の口元を撮像するCCD(Charge Coupled Device)カメラ等の撮像部とを設けておくとよい。これにより、音声入力部から得られた話者の音声を認識する手段と、撮像部から得られた画像に基づいて音声を認識する手段とを相互補完的に使用することが可能となり、話者の音声を相当に認識することができて好適である。また、音声認識装置を車載用として用いる場合には、想定される音声上のノイズ又は画像ノイズ(以下、環境ノイズと呼ぶ)を含んだ認識辞書を使用することにより、音声認識の対環境性能が向上する。
ところで、車両はその走行状態や走行箇所に応じて温度、湿度、加速度、振動、明るさ及び騒音等が著しく変化するが、前記の認識辞書に含まれる環境ノイズは一定の環境下では有効であっても、異なる環境下では充分に有効でない場合もあり得る。一方、前記の特許文献1及び特許文献2に記載されたシステムでは、このような車両状態に基づく環境変化を考慮した音声認識ができる構成にはなっていない。
また、搭載される車種によっては騒音のレベルや日の当たり方が異なり、所定の認識辞書が全ての車種に対して有効であるとは限らない。従って、搭載される車種毎に認識辞書の調整を行う必要があるがこの作業は煩雑であり、しかも異なるセッティングにすると音声認識装置の車種に対する汎用性が低下する。
本発明はこのような課題を考慮してなされたものであり、対環境性能を向上させて車両状態に基づく環境変化の影響を受けにくくし、より正確な音声認識を行うことを可能にする車両用音声認識装置及び該車両用音声認識装置を搭載した移動体を提供することを目的とする。
本発明に係る車両用音声認識装置は、車両状態を検出する車両状態検出手段と、話者が話す音声を音声入力部から入力して認識する第1音声認識手段と、撮像部により前記話者の口元を撮像した画像を入力し、該画像に基づいて前記音声を認識する第2音声認識手段と、前記車両状態検出手段から取得した前記車両状態に基づき、前記第1音声認識手段における第1音声認識処理及び前記第2音声認識手段における第2音声認識処理を選択的に制御する選択制御手段と、を有することを特徴とする(請求項1記載の発明)。
このような車両用音声認識装置を搭載している移動体では、車載電子機器に対する音声による操作を一層確実に行うことができる(請求項2記載の発明)。
本発明では音声のパターン認識部として対環境性の異なる第1音声認識手段と第2音声認識手段の2つの手段をもち、環境評価部によりその時点の実際の車両状態に応じて切り換え制御をすることより、対環境性能を向上させて車両状態に基づく環境変化の影響を受けにくくすることができ、より正確な音声認識が可能となる。
また、搭載される車種による騒音のレベルや日の当たり方の違いに応じて辞書データ等を車種毎にセッティングする必要がなく、車両用音声認識装置の汎用性を向上させることができる。
以下、本発明に係る車両用音声認識装置及び移動体について実施の形態を挙げ、添付の図1〜図7を参照しながら説明する。
図1に示すように、本実施の形態に係る車両用音声認識装置10は移動体としての車両12に搭載されており、搭乗者(話者)14の声を入力するマイク(音響入力部)20、口元を撮像するCCDカメラ(撮像部)22及び車内通信網18に接続されている。マイク20及びCCDカメラ22は、車内におけるルーフとフロントウィンドとの境界部近傍に設けられている。
マイク20及びCCDカメラ22は、これ以外の箇所(例えば、ルーフ下面部、インスツルメントパネル部、ヘッドレスト、搭乗者の肩部及びヘッドセット等)に設けられていてもよい。CCDカメラ22は搭乗者14の口元を直接的に撮像するものに限らず、ミラー、プリズム、レンズ等を介して撮像するようにしてもよく、また、MOS型カメラを用いてもよい。
車内通信網18にはエアコンコントローラ24、オーディオ26、ナビゲーションシステム28、エンジンコントローラ30、パネル操作部32、サンルーフコントローラ34及びパワーウィンドコントローラ36が接続されており、これらの各機器(車両状態検出手段)は車内通信網18によって相互にデータ通信が可能である。エアコンコントローラ24には日射センサ38と図示しない風量調節機構が設けられている。オーディオ26には図示しない音量調節機構及び音量認識部が設けられている。
ナビゲーションシステム28にはGPS(Global Positioning System)44又はジャイロセンサ等が接続されており、車両12の位置や座標情報を取得することができる。
エンジンコントローラ30はエンジン40の制御を行うものであって、車速センサ42により車両12の車速Vを検出することができる。また、エンジンコントローラ30は車速Vと図示しない舵角センサの信号とに基づいて車両12のヨーレートYを取得することができる。ヨーレートYは、ジャイロセンサ等の信号を参照しながら算出するようにしてもよい。
パネル操作部32には、搭乗者14が操作するスイッチ等が設けられており、例えばワイパ速度Wを制御するとともに、このワイパ速度Wを車内通信網18に供給する。パワーウィンドコントローラ36は操作スイッチの状態に応じてウィンドを昇降させることができ、他の機器からの要求に従ってその時点におけるウィンド開度Oを車内通信網18に供給する。
図2に示すように、車両用音声認識装置10は、搭乗者14が話す音声の信号をマイク20から入力してデジタルデータに変換するA/D変換部46と、変換されたデジタルデータを周波数分析する第1周波数分析部48と、音響パターン認識部(第1音声認識手段)50とを有する。また、車両用音声認識装置10は、CCDカメラ22で撮像された搭乗者14の口元の画像(動画)を周波数分析する第2周波数分析部52と、画像パターン認識部(第2音声認識手段)54とを有する。
第1周波数分析部48及び第2周波数分析部52は、入力されたデータを周波数分析し、音響パターン認識部50及び画像パターン認識部54の解析用データを得る。
車両用音声認識装置10は、さらに、所定のデータを入力し又は操作を行うための操作部56と、該操作部56の操作を検知する入力検知部58と、該入力検知部58から操作データを受けるとともに音響パターン認識部50と画像パターン認識部54を選択的に制御する環境評価部(選択制御手段)60と、認識された音声データが格納される最終結果格納部62とを有する。
音響パターン認識部50は、環境評価部60の評価で用いられる閾値データである車速閾値Th11、エアコン風量閾値Th12、ヨーレート閾値Th13、オーディオ音量閾値Th14及び明るさ閾値Th15を保持し、画像パターン認識部54は、同様に環境評価部60に供される車速閾値Th21、エアコン風量閾値Th22、ヨーレート閾値Th23、オーディオ音量閾値Th24及び明るさ閾値Th25を保持する。
なお、Th11、Th12、Th13、Th14、Th21、Th22、Th23及びTh24は最大値を示す閾値であり、Th15及びTh25は最小値を示す閾値である。
音響パターン認識部50は、第1周波数分析部48から得られた音声の特徴を示すデータとの比較をする対象の音響辞書64を有し、画像パターン認識部54は、顔画像から抽出した口元の形状の画像を第2周波数分析部52を介して得られた口元の動きの特徴を示すデータに基づいた処理を行い、該データを比較する対象である画像辞書66を有する。
環境評価部60は、前記の車内通信網18に接続されており、エアコンコントローラ24、オーディオ26、ナビゲーションシステム28及びエンジンコントローラ30等を介して車両状態としての車速V、エアコン風量T、ヨーレートY、オーディオ音量A、位置及び座標情報、ワイパ速度W、ウィンド開度O、サンルーフ開度S及び日射センサ38による明るさ信号L等を取得することができる。環境評価部60は、これらの車両状態を示す信号に基づいて音響パターン認識部50と画像パターン認識部54を選択的に制御することができる。選択された一方は音響辞書64又は画像辞書66に基づいて認識した音声データを最終結果格納部62に格納する。車両状態を示す信号としては、これら以外に加速度、振動、ロール、ピッチ等の動的挙動状態の信号、温度、湿度、気圧等の空気状態の信号等の信号を挙げることができる。
環境評価部60は、図3に示すパターン認識判定表70を用いて音響パターン認識部50と画像パターン認識部54を選択的に制御する。パターン認識判定表70は、車速V、エアコン風量T、ヨーレートY、オーディオ音量A及び明るさL毎にセンサ値欄70a、音声認識部欄70b及び画像認識部欄70cが設けられ、このうち音声認識部欄70bは閾値欄と、第1判定欄70dと、該第1判定欄70dの判定結果の合計値を示す第1合計欄70eとを有する。同様に、画像認識部欄70cは、閾値欄と、第2判定欄70fと、該第2判定欄70fの判定結果の合計値を示す第2合計欄70gとを有する。
センサ値欄70aには順に、車速V、エアコン風量T、ヨーレートY、オーディオ音量A及び明るさLが0〜100の範囲の計測値として記録される。閾値欄には前記の閾値Th11〜Th15、Th21〜Th25が対応するパラメータに応じて記録される。第1及び第2判定欄70d、70fには対応する行の閾値とセンサ値との比較に基づいて肯定的な判定結果である「○」又は否定的は判定結果である「×」が記録される。また、音声認識部欄70bにはマイク20に基づく音声認識処理の優先度が高いことを示す「優先度高」が記録されており、画像認識部欄70cにはCCDカメラ22に基づく音声認識の優先度が中程度であることを示す「優先度中」が記録されている。これらの優先度は、音響パターン認識部50及び画像パターン認識部54の特性を総合的に勘案した上、車両用音声認識装置10の設計時に予め設定されている。なお、音声認識のための手段が音響パターン認識部50及び画像パターン認識部54以外にもある場合で、その手段の優先度が低いときには対応する欄に「優先度低」と記録される。
説明の便宜上、このパターン認識判定表70は理解しやすいような表形式で示しているが、実際には可能な所定の記憶部において環境評価部60がアクセス可能なマップ形式等で設けられていればよい。
次に、このように構成される車両用音声認識装置10を用いて搭乗者14が話す音声を認識する手順について説明する。
先ず、音響パターン認識部50では、搭乗者14が話す音声をマイク20を介して入力し、A/D変換部46及び第1周波数分析部48で変換されたデータに基づき音響辞書64を参照して最も相関の高い音声データを選択する。この音声データは、例えば「うらわ」(浦和)というデータに対応するものとする。
一方、画像パターン認識部54では、搭乗者14が話す際の口元の動きをCCDカメラ22で撮像した画像データを第2周波数分析部52で変換し、この変換されたデータに基づき画像辞書66を参照して最も相関の高い音声データを選択する。この音声データは、例えば「うらが」(浦賀)というデータに対応するものとする。音響パターン認識部50と画像パターン認識部54の処理は同時並列的に行われ、上記のように「うらわ」という音声データと「うらが」という音声データが同時に選択されるような場合があり得る。これは、車両12の走行状態に基づく環境ノイズにより音響パターン認識部50か画像パターン認識部54のいずれか認識が不正確であっためであり、環境評価部60の処理によって信頼度の高い一方を選択することになる。
なお、音響パターン認識部50及び画像パターン認識部54において音響辞書64又は画像辞書66から相関の高いデータを選択するための手段としては、例えば、パターンマッチング手法や統計的な手法を用いることができる。統計的手法としては、確率的な有限状態を持つ隠れマルコフモデル(Hidden Markov Model)の手法を挙げることができる。隠れマルコフモデルでは、音声モデルの学習を行うことにより音声を高確率で認識可能である。
次に、環境評価部60の処理手順について説明する。なお、環境評価部60における処理の説明に関しては断りのない限り、表記したステップ番号順に処理が実行されるものとする。
図4のステップS1において、環境評価部60は音響パターン認識部50及び画像パターン認識部54から車速閾値Th11、Th21、エアコン風量閾値Th12、Th22、ヨーレート閾値Th13、Th23、オーディオ音量閾値Th14、Th24及び明るさ閾値Th15、Th25を読み出す。読み出した各閾値はパターン認識判定表70における閾値欄に記録する。
ここで、各閾値は図5に示すように、Th11=60、Th12=30、Th13=100、Th14=20、Th15=100、Th21=80、Th22=100、Th23=20、Th24=100、Th25=50であるものとする。なお、このステップS1は、車両用音声認識装置10のシステム立ち上がり時の初回のみに行うようにしてもよい。
ステップS2において、各種のセンサの信号を読み取るとともに、所定のパラメータの算出を行う。つまり、前記のとおり車速V、エアコン風量T、ヨーレートY、オーディオ音量A、位置及び座標情報、ワイパ速度W、ウィンド開度O、サンルーフ開度S及び日射センサ38による明るさ信号L等の信号を取得する。取得した車速V、エアコン風量T、ヨーレートY、オーディオ音量A及び明るさLについては、0〜100の範囲となるようにスケール調整やリミット処理を行った後にパターン認識判定表70におけるセンサ値欄70aに上の行から順に記録する。各パラメータの値は、図3に示すように、V=65、T=0、Y=5、A=30及びL=60であるものとする。
ステップS3において、車速Vと車速閾値Th11(=60)との比較判定処理を行い、V≦Th11であれば第1判定欄70dに「○」を記録し、V<Th11であれば「×」を記録する。つまり、車両12が高速走行中で車速Vが大きいときには騒音も大きくなるため、マイク20による音声認識の信頼度が低下してくることとなり、車速閾値Th11以上であるときには否定的な判定結果である「×」を記録する。
ステップS4において、車速Vと車速閾値Th21(=80)との比較判定処理を行い、V≦Th21であれば第2判定欄70fに「○」を記録し、V<Th21であれば「×」を記録する。つまり、CCDカメラ22はマイク20と比較して車速Vの影響を受けにくく、前記車速閾値Th11(=60)よりも大きいTh21(=80)まで許容される。車速閾値Th21が「100」となっていないのは、車速Vが大きくなると騒音とともに振動も大きくなる傾向があり、無制限に許容することはできないためである。
なお、車両12の走行時(V≠0)にはウィンド開度Oに応じて風きり騒音レベルが変化するため、ステップS3及びS4における処理では、車速Vをウィンド開度Oによって補正してもよい。
ステップS5において、エアコン風量Tとエアコン風量閾値Th12(=30)との比較判定処理を行い、T≦Th12であれば第1判定欄70dに「○」を記録し、T<Th12であれば「×」を記録する。エアコン風量Tが大きいときには送風音が大きくなり、マイク20による音声認識の信頼度が低下するためである。
ステップS6において、エアコン風量Tとエアコン風量閾値Th22との比較判定処理を行う。この場合、エアコン風量閾値Th21はTh21=100であることから、実際上は比較を行う必要がなく、第2判定欄70fに無条件に「○」を記録する。エアコン風量Tによる騒音はCCDカメラ22に基づく音声認識に影響を与えることがないためである。
ステップS7において、ヨーレートYとヨーレート閾値Th13との比較判定処理を行う。この場合、ヨーレート閾値Th13はTh13=100であることから、実際上は比較を行う必要がなく、第1判定欄70dに無条件に「○」を記録する。マイク20による音声認識に対してヨーレートYは影響を与えることがないためである。
ステップS8において、ヨーレートYとヨーレート閾値Th23(=20)との比較判定処理を行い、Y≦Th23であれば第2判定欄70fに「○」を記録し、Y<Th23であれば「×」を記録する。ヨーレートYが大きいときには振動も大きいことがあり、しかも撮像すべき搭乗者14の口元が適切な撮像範囲内からずれてしまうおそれもあるためである。
図5のステップS9において、オーディオ音量Aとオーディオ音量閾値Th14(=20)との比較判定処理を行い、A≦Th14であれば第1判定欄70dに「○」を記録し、A<Th14であれば「×」を記録する。オーディオ26の音はマイク20にとっては騒音となるためである。
ステップS10において、オーディオ音量Aとオーディオ音量閾値Th24との比較判定処理を行う。この場合、オーディオ音量閾値Th24はTh24=100であることから、実際上は比較を行う必要がなく、第2判定欄70fに無条件に「○」を記録する。オーディオの音はCCDカメラ22に基づく音声認識に影響を与えることがないためである。
ステップS11において、明るさAと明るさ閾値Th15との比較判定処理を行う。この場合、明るさ閾値Th14はTh14=100であることから、実際上は比較を行う必要がなく、第1判定欄70dに無条件に「○」を記録する。マイク20による音声認識に対して明るさYは影響を与えることがないためである。
ステップS12において、明るさLと明るさ閾値Th25(=50)との比較判定処理を行い、L≧Th25であれば第2判定欄70fに「○」を記録し、L>Th25であれば「×」を記録する。夜間やトンネル内等の暗い箇所では鮮明な画像が得られないためである。なお、ステップS12において、日中(L≠0)ではサンルーフ開度Sに応じて車内の明るさが変化するため、ステップS12における処理では、明るさLをサンルーフ開度Sによって補正してもよい。
このようにステップS3〜S12の処理を行うことによって、図3に示すように、第1判定欄70d及び第2判定欄70fが埋まる。前記ステップS2の説明で例示したセンサ値に基づく処理を行った場合、第1判定欄70dは、上の行から順に「×」、「○」、「○」、「×」及び「○」が記録され、第2判定欄70fには全て「○」が記録される。
ステップS13において、判定が「○」であるものの数を調べる。つまり、第1判定欄70dにおいて「○」が記録されている数、「3」をその下の第1合計欄70eに記録し、第2判定欄70fにおいて「○」が記録されている数、「5」をその下の第2合計欄70gに記録する。
ステップS14において、第1合計欄70eに記録された数と第2合計欄70gに記録された数を比較し、第1合計欄70eの方が大きい場合にはステップS15へ移り、第2合計欄70gの方が大きい場合にはステップS16へ移り、等しい場合にはステップS17へ移る。
ステップS15においては、音響パターン認識部50に対して選択信号を送信し、ステップS16においては画像パターン認識部54に対して選択信号を送信する。つまり、肯定的な判定結果である「○」の数が多い方がその時点における音声認識の信頼度が高いと考えられるため、信頼度の高い一方を選択することにより対環境性を向上させることができる。
図3に示すように、第1合計欄70eに記録された数が「3」であって、第2合計欄70gに記録された数が「5」である場合には、音響パターン認識部50に選択信号が送信される。また、図6に示すように、V=55、T=40、Y=25、A=0及びL=30であるときには、第1合計欄70eには「4」が記録され、第2合計欄70gには「3」が記録されることになり、画像パターン認識部54に選択信号が送信される。
ステップS17においては、音声認識部欄70b及び画像認識部欄70cに記録された優先度を比較し、優先度の高い一方、つまり音響パターン認識部50に対して選択信号を送信する。これにより、環境評価部60によって判断された信頼度が同程度である場合には、音響パターン認識部50及び画像パターン認識部54の特性を総合的に勘案した優先度の高い方を選択することができる。
例えば、図7に示すように、V=55、T=40、Y=25、A=0及びL=70であるときには、第1合計欄70e及び第2合計欄70gとも「4」が記録されて、優先度に基づいて音響パターン認識部50に選択信号が送信される。
この後、音響パターン認識部50及び画像パターン認識部54のうち、選択信号を受信した一方は、認識した音声データを最終結果格納部62に供給する。つまり、前記の例では、音響パターン認識部50が選択信号を受信したときには「うらわ」(浦和)が、画像パターン認識部54が選択信号を受信したときには「うらが」(浦賀)が最終結果格納部62に供給される。また、選択から漏れた方の認識結果についても第2候補として最終結果格納部62に供給するようにしてもよい。
さらに、最終結果格納部62は、他の機器からの要求に応じて格納された音声データを車内通信網18を通じて供給する。これにより、例えば、ナビゲーションシステム28では搭乗者14が目的地として指定した場所を示す音声を高い認識率で確認し、ナビゲーションの処理を行うことができる。
また、環境評価部60の処理は、音響パターン認識部50において認識した音声データと画像パターン認識部54において認識した音声データが異なる場合にのみ実行させてもよい。
上述したように、本実施の形態に係る車両用音声認識装置10は、音声のパターン認識部として対環境性の異なる音響パターン認識部50と画像パターン認識部54の2つの音声認識手段をもち、環境評価部60によりその時点の実際の車両状態に応じて切り換え制御を行っている。これにより、車両状態に基づいて適切な認識手法を選択して認識結果を出力することができ、対環境性能が向上し、車両状態に基づく環境変化の影響を受けにくいパターン認識が可能となる。
また、搭載される車種による騒音のレベルや日の当たり方の違いに応じて音響辞書64及び画像辞書66を調整する必要がなく、車両用音声認識装置10の汎用性が向上する。
次に、前記車両用音声認識装置10に対する第1の変形例に係る車両用音声認識装置10a及び第2の変形例に係る車両用音声認識装置10bについて説明する。以下の説明では、車両用音声認識装置10と同じ箇所については同符号を付し、その詳細な説明を省略する。
図8に示すように、第1の変形例に係る車両用音声認識装置10aは、前記のマイク20に相当する第1マイク20aの他に、第2マイク20bを備えるとともに、前記の音響パターン認識部50、音響辞書64に相当する第1音響パターン認識部50a、第1音響辞書65aを備える。また、車両用音声認識装置10aは、前記の画像パターン認識部54、画像辞書66に代えて、第2音響パターン認識部50b、第2音響辞書65bを備える。
第1音響パターン認識部50aには、車両状態及び第1マイク20aに対応した前記閾値Th11〜Th15が保持されており、第2音響パターン認識部50bには、車両状態及び第2マイク20bに対応した車速閾値Th31、エアコン風量閾値Th32、ヨーレート閾値Th33、オーディオ音量閾値Th34及び明るさ閾値Th35が保持されている。
第1音響パターン認識部50a及び第2音響パターン認識部50bは、前記音響パターン認識部50と同様の作用を奏し、第1及び第2音響辞書65a、65bを参照しながら音声認識処理を行う。環境評価部60は、閾値Th11〜Th15及び閾値Th31〜Th35を読み出して、取得した車両状態を示す信号との比較を行いながら、第1音響パターン認識部50aで得られた認識結果と第2音響パターン認識部50bで得られた認識結果の選択処理を行う。
このように、独立的な第1音響パターン認識部50a及び第2音響パターン認識部50bを設けることにより、第1マイク20a及び第2マイク20bに個別に対応した音声認識を行うことができ、音声認識の認識率を向上させることができる。この場合、第1マイク20aと第2マイク20bは、運転席付近と助手席付近というように車両12内の異なる場所に配置し、運転者の音声と搭乗者の音声とを入力するようにしてもよい。また、車両用音声認識装置10aは、音声の入力手段として、第1マイク20aや第2マイク20bと比較して高価なCCDカメラ22を用いることがなく、簡便且つ廉価に構成することができる。
次に、図9に示すように、第2の変形例に係る車両用音声認識装置10bは、前記のCCDカメラ22に相当する第1CCDカメラ22aの他に、第2CCDカメラ22bを備えるとともに、前記の画像パターン認識部54、画像辞書66に相当する第1画像パターン認識部54a、第1画像辞書67aを備える。また、車両用音声認識装置10bは、前記の音響パターン認識部50、音響辞書64に代えて、第2画像パターン認識部54b、第2画像辞書67bを備える。
第1画像パターン認識部54aには、車両状態及び第1CCDカメラ22aに対応した前記閾値Th21〜Th25が保持されており、第2画像パターン認識部54bには、車両状態及び第2CCDカメラ22bに対応した車速閾値Th41、エアコン風量閾値Th42、ヨーレート閾値Th43、オーディオ音量閾値Th44及び明るさ閾値Th45が保持されている。
車両用音声認識装置10bの動作は、前記車両用音声認識装置10aにおける音響に対する処理を画像に対する処理に変えたものとして理解されよう。
このような、車両用音声認識装置10bでは、独立的な第1画像パターン認識部54a及び第2画像パターン認識部54bを設けることにより、第1CCDカメラ22a及び第2CCDカメラ22bに個別に対応して、画像に基づく音声認識を行うことができ、音声認識の認識率を向上させることができる。この場合、第1CCDカメラ22aと第2CCDカメラ22bは、異なる位置から(例えば、左右方向から)搭乗者14の口元を撮像するようにしてもよい。これにより、日の当たり方(例えば、逆光)により一方の画像が不鮮明であっても、他方の画像が鮮明となって、音声認識が適切に行われる可能性が高まる。
このような車両用音声認識装置10bは、音声信号の認識部を用いることがないため、例えば、工事現場等の騒音が極めて大きい場所で使用される特殊車両等に対して好適に適用可能である。
本発明に係る車両用音声認識装置及び移動体は、上述の実施の形態に限らず、本発明の要旨を逸脱することなく、種々の構成を採り得ることはもちろんである。
10、10a、10b…車両用音声認識装置
12…車両 18…車内通信網
20、20a、20b…マイク 22、22a、22b…CCDカメラ
24…エアコンコントローラ 26…オーディオ
28…ナビゲーションシステム 30…エンジンコントローラ
32…パネル操作部 34…サンルーフコントローラ
36…パワーウィンドコントローラ 38…日射センサ
42…車速センサ 44…GPS
46…A/D変換部 48、52…周波数分析部
50、50a、50b…音響パターン認識部
54、54a、54b…画像パターン認識部
60…環境評価部 62…最終結果格納部
64、65a、65b…音響辞書 66、67a、67b…画像辞書
70…パターン認識判定表
A…オーディオ音量 L…信号
O…ウィンド開度 S…サンルーフ開度
T…エアコン風量 V…車速
W…ワイパ速度 Y…ヨーレート
12…車両 18…車内通信網
20、20a、20b…マイク 22、22a、22b…CCDカメラ
24…エアコンコントローラ 26…オーディオ
28…ナビゲーションシステム 30…エンジンコントローラ
32…パネル操作部 34…サンルーフコントローラ
36…パワーウィンドコントローラ 38…日射センサ
42…車速センサ 44…GPS
46…A/D変換部 48、52…周波数分析部
50、50a、50b…音響パターン認識部
54、54a、54b…画像パターン認識部
60…環境評価部 62…最終結果格納部
64、65a、65b…音響辞書 66、67a、67b…画像辞書
70…パターン認識判定表
A…オーディオ音量 L…信号
O…ウィンド開度 S…サンルーフ開度
T…エアコン風量 V…車速
W…ワイパ速度 Y…ヨーレート
Claims (2)
- 車両状態を検出する車両状態検出手段と、
話者が話す音声を音声入力部から入力して認識する第1音声認識手段と、
撮像部により前記話者の口元を撮像した画像を入力し、該画像に基づいて前記音声を認識する第2音声認識手段と、
前記車両状態検出手段から取得した前記車両状態に基づき、前記第1音声認識手段における第1音声認識処理及び前記第2音声認識手段における第2音声認識処理を選択的に制御する選択制御手段と、
を有することを特徴とする車両用音声認識装置。 - 請求項1記載の車両用音声認識装置を搭載していることを特徴とする移動体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004213200A JP2006030880A (ja) | 2004-07-21 | 2004-07-21 | 車両用音声認識装置及び移動体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004213200A JP2006030880A (ja) | 2004-07-21 | 2004-07-21 | 車両用音声認識装置及び移動体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006030880A true JP2006030880A (ja) | 2006-02-02 |
Family
ID=35897261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004213200A Pending JP2006030880A (ja) | 2004-07-21 | 2004-07-21 | 車両用音声認識装置及び移動体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006030880A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010215000A (ja) * | 2009-03-13 | 2010-09-30 | Omron Corp | 情報処理装置及び方法、並びにプログラム |
US9208781B2 (en) | 2013-04-05 | 2015-12-08 | International Business Machines Corporation | Adapting speech recognition acoustic models with environmental and social cues |
CN111243585A (zh) * | 2020-01-07 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 多人场景下的控制方法、装置、设备及存储介质 |
CN114025327A (zh) * | 2021-10-25 | 2022-02-08 | 天津市普迅电力信息技术有限公司 | 一种基于数据中台的车队管理机器人设计方法 |
-
2004
- 2004-07-21 JP JP2004213200A patent/JP2006030880A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010215000A (ja) * | 2009-03-13 | 2010-09-30 | Omron Corp | 情報処理装置及び方法、並びにプログラム |
US9208781B2 (en) | 2013-04-05 | 2015-12-08 | International Business Machines Corporation | Adapting speech recognition acoustic models with environmental and social cues |
CN111243585A (zh) * | 2020-01-07 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 多人场景下的控制方法、装置、设备及存储介质 |
CN111243585B (zh) * | 2020-01-07 | 2022-11-22 | 百度在线网络技术(北京)有限公司 | 多人场景下的控制方法、装置、设备及存储介质 |
CN114025327A (zh) * | 2021-10-25 | 2022-02-08 | 天津市普迅电力信息技术有限公司 | 一种基于数据中台的车队管理机器人设计方法 |
CN114025327B (zh) * | 2021-10-25 | 2024-03-26 | 天津市普迅电力信息技术有限公司 | 一种基于数据中台的车队管理机器人设计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10170111B2 (en) | Adaptive infotainment system based on vehicle surrounding and driver mood and/or behavior | |
JP4380541B2 (ja) | 車両用エージェント装置 | |
US20080086260A1 (en) | Apparatus and method for recognizing voice in vehicles | |
JP6604151B2 (ja) | 音声認識制御システム | |
JP4973722B2 (ja) | 音声認識装置、音声認識方法、及びナビゲーション装置 | |
US20080188271A1 (en) | Communicating road noise control system, in-vehicle road noise controller, and server | |
US11176948B2 (en) | Agent device, agent presentation method, and storage medium | |
JP2006030447A (ja) | 音声認識システムと該音声認識システムを備える移動体及び車両 | |
US9975505B2 (en) | Vehicle and control method thereof | |
JP2017090611A (ja) | 音声認識制御システム | |
US8885847B2 (en) | Vehicular apparatus | |
JP2022028772A (ja) | オーディオデータおよび画像データに基づいて人の発声を解析する車載装置および発声処理方法、ならびにプログラム | |
JP4405370B2 (ja) | 車両用機器制御装置 | |
KR102529919B1 (ko) | 졸음 운전 관리 장치, 시스템 및 방법 | |
CN110082726B (zh) | 声源定位方法及装置、定位设备及存储介质 | |
CN104603871A (zh) | 用于运行车辆用的语音控制的信息系统的方法和设备 | |
JP2008153743A (ja) | 車内会話補助装置 | |
KR20130046759A (ko) | 차량에서 운전자 명령 인지장치 및 방법 | |
JP2006195302A (ja) | 音声認識システム及びこの音声認識システムを備える車両 | |
US11580958B2 (en) | Method and device for recognizing speech in vehicle | |
JP2006030880A (ja) | 車両用音声認識装置及び移動体 | |
KR101800727B1 (ko) | 블랙박스를 이용한 차량제어 시스템 | |
WO2007145331A1 (ja) | カメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体 | |
JPH11352987A (ja) | 音声認識装置 | |
JP2006030908A (ja) | 車両用音声認識装置及び移動体 |