JP2006126342A

JP2006126342A - 音声認識システム、この音声認識システムを備える移動体及び車両

Info

Publication number: JP2006126342A
Application number: JP2004312381A
Authority: JP
Inventors: Yoichi Kitano; 陽一北野
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2004-10-27
Filing date: 2004-10-27
Publication date: 2006-05-18

Abstract

【課題】雑音環境下で頑健で、より正確な音声認識を可能とし、且つ音声認識処理中の省電力化を図る音声認識システムを提供する。
【解決手段】マイク２０とＣＣＤカメラ２２から入力される音声と画像の各信頼度を車両の状態（エンジンコントローラ３０からの車速Ｖ、エアコンコントローラ２４からのエアコン風量Ｔ等）に基づき算出し、算出した各信頼度に基づき入力音声及び入力画像をディジタル信号に変換する音声符号化部４６と画像符号化部４９の各サンプリングレートを算出する。変換されたディジタル信号と、このサンプリングレートに対応して参照される音声辞書５６ａ〜５６ｃ、画像辞書６２ａ〜６２ｃを比較する。このため、車両の状態に応じた正確な音声認識ができる。また、サンプリングレートを過度に高くすることが回避されることから、省電力化が図れる。
【選択図】図１

Description

この発明は、話者の音声情報を取得するマイク等の音声情報取得手段及び（又は）話者を撮影した画像情報を取得するカメラ等の画像情報取得手段が接続される音声認識システム、この音声認識システムを備える移動体及び車両に関し、一層詳細には、雑音（ノイズ）環境下で頑健に音声認識を行う音声認識システム、この音声認識システムを備える移動体及び車両に関する。

近時の車両には多数の電子機器が搭載されるようになり、その機能も一層高度化しつつある。このような中、車両に搭載されたナビゲーションシステム等の電子機器の操作の容易化のため音声操作を可能にする音声認識システムが開発されている。

ところで、車両用に限らず、音声認識システムにおいて話者が話す音声を確実に認識するためには、話者の話し方の変化や周囲の騒音等音声認識の関連条件を充分に考慮しなければならない。そのような対策のために、例えば、想定される複数の騒音環境に対応した音声モデルを予め設けておき、騒音環境に応じた適当な音声モデルを選択して音声認識を行うシステム（例えば、特許文献１参照）や、話者の心的状態を推定することにより複数の音声認識辞書から適切な辞書を選択して用いる装置（例えば、特許文献２参照）が提案されている。

また、音声認識システムの省電力化のため、音声信号の入力の有無に応じてサンプリングレートを切換え可能な装置（例えば、特許文献３参照）が提案されている。

特開２０００−７５８８９号公報特開２００２−１４９１９１号公報特開２００４−９６５２０号公報

音声認識システムにマイク等の音声入力部と、話者の口元の動き、いわゆる唇動を撮像するＣＣＤ(Charge Coupled Device)カメラ等の撮像部とを設けておくことにより、音声入力部から得られた話者の音声を認識する手段と、撮像部から得られた画像に基づいて音声を認識する手段とを相互補完的に使用することにより、話者の音声をより頑健に認識することができて好適である。また、音声認識システムを車載用として用いる場合には、想定される音声上のノイズ又は画像ノイズ（以下、両ノイズを併せて環境ノイズと呼ぶ。）を含んだ認識辞書を使用することにより音声認識の対環境性が向上する。

ところで、車両はその走行状態や走行箇所に応じて温度、湿度、加速度、振動、明るさ及び騒音等の周辺環境が著しく変化するが、前記の認識辞書に含まれる環境ノイズは一定の環境下では有効であっても、異なる環境下では充分に有効でない場合もあり得る。しかし、前記の特許文献１、２に記載されたシステムでは、このような車両状態に基づく環境変化を考慮した音声認識ができる構成にはなっていない。

また、上記のように音声認識用情報（音声情報、画像情報等）の入力手段を複数設けた場合、それぞれの入力手段の入力の信号対雑音比（Ｓ／Ｎ比）がいずれも音声認識に十分な場合は有効である。しかし、ある入力のＳ／Ｎ比が極端に低い場合では音声認識結果の信頼度が下がってしまう可能性がある。

更に、音声認識システムの活用が進むにつれて、省電力化の要請が一層高まっている。しかし、特許文献３に記載されたシステムでは、音声認識処理中の省電力化は考慮されていない。

この発明はこのような課題を考慮してなされたものであり、雑音環境下で頑健でより正確な音声認識を可能とするとともに、音声認識処理中の省電力化を可能にする音声認識システム、この音声認識システムを備える移動体及び車両を提供することを目的とする。

この発明に係る音声認識システムは、移動体の状態を検出する状態検出手段と、発話時の話者の情報を取得する話者情報取得手段とが接続された音声認識システムであって、前記状態検出手段により検出された前記移動体の状態に基づき前記話者情報取得手段により取得された前記話者情報の信頼度を算出する信頼度算出手段と、前記信頼度算出手段により算出された前記信頼度に基づきサンプリングレートを算出するサンプリングレート算出手段と、前記話者情報取得手段で取得した前記話者情報を、前記サンプリングレートによりディジタル信号に変換する話者情報変換手段とを備えることを特徴とする。

この発明によれば、話者情報取得手段により取得された話者情報の信頼度を移動体の状態に基づき算出し、算出した信頼度に基づき話者情報変換手段でディジタル信号に変換する際のサンプリングレートを算出する。このため、移動体の状態に応じた音声認識が可能となり、音声認識システム全体での音声認識の質を向上させることができる。併せて、サンプリングレートを過度に高くすることを避けることで音声認識処理中の省電力化を図ることができる。すなわち、この発明によれば、雑音環境下で頑健でより正確な音声認識が可能となり、且つ音声認識処理中の省電力化を図ることができる。

ここで、移動体の状態とは、音声認識に関連する移動体の状態、即ち、移動体に搭載された機器、例えばエアコン、オーディオ、エンジン等の状態であり、これらの状態は、状態検出手段としてのエアコンコントローラ、オーディオコントローラ、エンジンコントローラにより検出することができる。

なお、話者情報取得手段は、特に限定されないが、例えば、話者の音声情報を取得するマイク等音声情報取得手段のみ、話者を撮影した画像情報を取得するカメラ等の画像情報取得手段のみ、音声情報取得手段と画像情報取得手段の組合せ、複数の音声情報取得手段の組合せ、複数の画像情報取得手段の組合せ等、種々の構成を採り得ることができる。

また、この発明に係る音声認識システムは、移動体の状態を検出する状態検出手段と、話者の音声情報を取得する音声情報取得手段と、話者を撮影した画像情報を取得する画像情報取得手段とが接続された音声認識システムであって、前記状態検出手段により検出された前記移動体の状態に基づき、前記音声情報取得手段により取得された前記音声情報の信頼度と前記画像情報取得手段により取得された前記画像情報の信頼度を算出する信頼度算出手段と、前記信頼度算出手段により算出された前記音声情報の信頼度及び前記画像情報の信頼度に基づき、それぞれ、音声情報変換用サンプリングレートと画像情報変換用サンプリングレートを算出するサンプリングレート算出手段と、前記音声情報を、前記音声情報変換用サンプリングレートによりディジタル信号に変換する音声情報変換手段と、前記画像情報を、前記画像情報変換用サンプリングレートによりディジタル信号に変換する画像情報変換手段とを備えることを特徴とする。

この発明によれば、音声情報取得手段及び画像情報取得手段により取得された音声情報及び画像情報の各信頼度を移動体の状態に基づき算出し、各信頼度に基づき音声情報変換手段及び画像情報変換手段でディジタル信号に変換する際のサンプリングレートを算出する。このため、移動体の状態に応じた音声認識が可能となり、音声認識システム全体での音声認識の質を向上させることができる。併せて、サンプリングレートを過度に高くすることが回避されることから、音声認識処理中の省電力化を図ることができる。

ここで、前記音声認識システムは、前記音声情報から変換されたディジタル信号に基づき第１次音声認識結果及びその信頼度を算出する音声パターン認識部と、前記画像情報から変換されたディジタル信号に基づき第１次画像認識結果及びその信頼度を算出する画像パターン認識部とを備え、
前記サンプリングレート算出手段は、信頼度が高い前記音声情報及び（又は）前記画像情報について高いサンプリングレートを算出し、信頼度が低い前記音声情報及び（又は）前記画像情報について低いサンプリングレートを算出し、換言すれば、信頼度に比例してサンプリングレートを算出し、
前記第１次音声認識結果及び前記第１次画像認識結果の信頼度は、前記サンプリングレートが高いほど高く重み付けされ、前記サンプリングレートが低いほど低く重み付けされるように構成することができる。

上記の構成では、より信頼度の高い入力手段からの音声認識用情報がより高いサンプリングレートで取得され且つ音声認識の最終結果により大きく反映される。このため、音声認識システム全体での音声認識の質をより向上させることが可能となる。併せて、サンプリングレートを過度に高くすることが正確に回避されることから、音声認識処理中の省電力化を図ることができる。

更に、前記音声認識システムは、前記サンプリングレート算出手段で算出されるサンプリングレートに応じた参照データを備え、前記音声パターン認識部は、前記参照データを用いて前記第１次音声認識結果及びその信頼度を算出し、前記画像パターン認識部は、前記参照データを用いて前記第１次画像認識結果及びその信頼度を算出してもよい。これにより、前記第１次音声認識結果及び前記第１次画像認識結果の信頼度の算出を迅速に行うことができる。

前記移動体は車両、船、水陸両用車、プレジャーボート、ヘリコプタ、飛行機等とすることができる。

また、この発明に係る移動体は、前述の音声認識システムのいずれかを備える。

更に、この発明に係る車両は、前述の音声認識システムのいずれかを備える。

この発明によれば、話者情報取得手段（音声情報取得手段又は画像情報取得手段の少なくとも一方）により取得された情報の信頼度を移動体の状態に基づき算出し、話者情報変換手段（音声情報変換手段又は画像情報変換手段の少なくとも一方）でディジタル信号に変換する際のサンプリングレートをこの信頼度に基づき算出する。このため、移動体の状態に応じた音声認識が可能となり、音声認識システム全体での音声認識の質を向上させることができるとともに、サンプリングレートを過度に高くすることを避けることで音声認識処理中の省電力化を図ることができるという効果が達成される。

すなわち、この発明によれば、雑音環境下で頑健でより正確な音声認識が可能となり、且つ音声認識処理中の省電力化を図れる。

以下、この発明に係る音声認識システム、この音声認識システムを備える移動体及び車両について実施の形態を挙げ、添付の図１〜図１２を参照しながら説明する。

図１に示すように、第１の実施形態に係る音声認識システム１０は車両１２（移動体）に搭載されている。

この音声認識システム１０は、搭乗者（話者）１４の音声を入力するマイク（話者情報取得手段、音声情報取得手段）２０、搭乗者１４の口元の動き、いわゆる唇動を撮像するＣＣＤカメラ（話者情報取得手段、画像情報取得手段）２２及び車内通信網１８に接続されている。マイク２０及びＣＣＤカメラ２２は、車内におけるルーフとウインドシールドガラスとの境界部近傍に設けられている。

マイク２０及びＣＣＤカメラ２２は、これ以外の箇所（例えば、ルーフ下面部、インスツルメントパネル部、ヘッドレスト、搭乗者の肩部及びヘッドセット等）に設けられていてもよい。ＣＣＤカメラ２２は搭乗者１４の口元を直接的に撮像するものに限らず、ミラー、プリズム、レンズ等を介して撮像するようにしてもよく、また、ＭＯＳ型カメラ等別の撮像装置を用いてもよい。

車内通信網１８にはエアコンコントローラ２４、オーディオコントローラを有するオーディオシステム２６、ナビゲーションシステム２８、エンジンコントローラ３０、パネル操作部３２、サンルーフコントローラ３４及びパワーウィンドコントローラ３６が接続されており、これらの各機器（状態検出手段）は車内通信網１８によって相互にデータ通信が可能である。エアコンコントローラ２４には日射センサ３８と図示しない風量調節機構が設けられ、日射センサ３８における対象面平均明度Ｌを検出可能であるとともに、エアコン風量Ｔを設定可能である。オーディオシステム２６には図示しない音量調節機構及び音量認識部が設けられ、オーディオ音量Ａを設定できる。

ナビゲーションシステム２８にはＧＰＳ（Global Positioning System）４４又はジャイロセンサ等が接続されており、車両１２の位置や座標情報を取得することができる。

エンジンコントローラ３０はエンジン４０の制御を行うものであって、車速センサ４２により車両１２の車速Ｖを検出することができる。また、エンジンコントローラ３０は車速Ｖと図示しない舵角センサの信号とに基づいて車両１２のヨーレートＹを取得することができる。ヨーレートＹは、ジャイロセンサ等の信号を参照しながら算出するようにしてもよい。また、エンジンコントローラ３０は、車速Ｖ及びエンジン回転数等に基づいて平均振動Ｆを算出することができる。

パネル操作部３２は、搭乗者１４が操作するスイッチ等が設けられており、例えばワイパ速度Ｗを制御するとともに、このワイパ速度Ｗを車内通信網１８に供給する。サンルーフコントローラ３４は、操作スイッチの状態に応じてサンルーフモータを駆動しサンルーフの開閉を行う。パワーウィンドコントローラ３６は操作スイッチの状態に応じてウィンドを昇降させることができ、他の機器からの要求に従ってその時点におけるウィンド開度Ｏを車内通信網１８に供給する。

図２に示すように、音声認識システム１０は、マイク２０から入力される搭乗者１４の音声を入力しデータ処理する音声処理部６６と、ＣＣＤカメラ２２から入力される搭乗者１４の口元の画像（動画）を入力しデータ処理する画像処理部６８と、車両状態を判断して音声認識システム１０を統合的に制御する環境評価／入力検知部７０と、該環境評価／入力検知部７０からアクセスされる一時記憶部７２と、該一時記憶部７２等を参照しながら最終的な音声認識の候補の順位付けを行う最終結果演算部７４と、順位付けが行われた音声データが最終結果テーブル７６として格納される最終結果格納部７８とを備える。

音声処理部６６は、音声符号化部（話者情報変換手段、音声情報変換手段）４６と、音声周波数分析部４８と、音声パターン認識部５０と、音声辞書５６ａ〜５６ｃを格納する音声辞書格納部５８とを有する。

音声符号化部４６はマイク２０から出力される音声信号をディジタルデータに変換するものである。音声周波数分析部４８は、音声符号化部４６で変換されたディジタルデータを周波数分析し、音声パターン認識部５０の解析用データを得るものである。この周波数分析には、例えば高速フーリエ変換（ＦＦＴ）が用いられる。音声パターン認識部５０は、音声周波数分析部４８で得られた解析用データと、音声辞書５６ａ〜５６ｃいずれかの参照データとを比較して、相関性の高いデータ（第１次音声認識結果）をその認識スコア（認識結果の信頼度）とともに算出する。音声辞書５６ａ、５６ｂ、５６ｃはそれぞれ、音声サンプリングレートＳｒがＳｒ＝２２ｋＨｚ、１６ｋＨｚ、８ｋＨｚで得られた解析用データと比較するための参照データを備える。前記解析用データと比較される音声辞書は、音声符号化部４６におけるデータ変換時のサンプリングレートに応じて決定される。

画像処理部６８は、画像符号化部（話者情報変換手段、画像情報変換手段）４９と、空間周波数分析部５２と、画像パターン認識部５４と、画像辞書６２ａ〜６２ｃを格納する画像辞書格納部６４とを有する。画像符号化部４９はＣＣＤカメラ２２から出力される画像をディジタルデータに変換するものである。空間周波数分析部５２は、画像符号化部４９で変換されたディジタルデータを周波数分析し、画像パターン認識部５４の解析用データを得るものである。この周波数分析には、例えば離散コサイン変換（ＤＣＴ）が用いられる。画像パターン認識部５４は、空間周波数分析部５２で得られた解析用データと、画像辞書６２ａ〜６２ｃいずれかの参照データとを比較して、相関性の高いデータ（第１次画像認識結果）をその認識スコア（認識結果の信頼度）とともに算出する。画像辞書６２ａ、６２ｂ、６２ｃはそれぞれ、画像サンプリングレート（フレームレート）ＶｒがＶｒ＝１２０フレーム毎秒（ｆｐｓ）、６０ｆｐｓ、３０ｆｐｓで得られた解析用データと比較するための参照データを備える。前記解析用データと比較される画像辞書は、画像符号化部４９におけるデータ変換時のサンプリングレートに応じて決定される。

音声辞書及び画像辞書は、１つのサンプリングレートについて１個と限らず、設計条件に基づいて１つのサンプリングレートについて複数個設けてもよい。また、複数のサンプリングレートについて共通の音声辞書及び画像辞書を設けることもできる。

なお、音声パターン認識部５０及び画像パターン認識部５４において音声辞書５６ａ〜５６ｃ及び画像辞書６２ａ〜６２ｃから相関の高いデータを選択するための手段としては、例えば、パターンマッチング手法や統計的な手法を用いることができる。統計的手法としては、確率的な有限状態を持つ隠れマルコフモデル（Hidden Markov Model）の手法を挙げることができる。隠れマルコフモデルでは、音声モデルの学習を行うことにより音声を高確率で認識可能である。

環境評価／入力検知部７０は、エンジンコントローラ３０、エアコンコントローラ２４等の各センサ機器（状態検出手段）と車内通信網１８を介して接続され、この各センサ機器からの車両状態の情報に基づき音声認識システム１０を統合的に管理する。環境評価／入力検知部７０の機能の詳細は後述する。

一時記憶部７２は、音声パターン認識部５０で得られた第１次音声認識結果とその認識スコア、及び、画像パターン認識部５４で得られた第１次画像認識結果とその認識スコアをデータとして一時的に記憶するものである。

最終結果演算部７４は、一時記憶部７２に記憶された第１次音声認識結果、第１次画像認識結果及びそれぞれの認識スコアに基づき最終的な音声認識の候補の順位付けを行う。この順位付けの方法については後述する。順位付けの結果としての音声データは、最終結果格納部７８の最終結果テーブル７６に格納される。

次に、このように構成される音声認識システム１０を用いて搭乗者１４が発声する音声を認識する手順について説明する。

図３のステップＳ１において、環境評価／入力検知部７０は、搭乗者１４からナビゲーションシステム２８への入力を検知すると、各種センサからの信号を読み取り、この読取り値に基づいてマイク２０及びＣＣＤカメラ２２の出力の信頼度ＴＰを計算する。即ち、マイク２０の音声信頼度ＴＰ１については、まず、エンジンコントローラ３０からの車速Ｖ、エアコンコントローラ２４からのエアコン風量Ｔ、パネル操作部３２からのワイパ速度Ｗ、パワーウィンドコントローラ３６からのウィンド開度Ｏ、オーディオシステム２６からのオーディオ音量Ａを、それぞれ０−１００の範囲となるようにスケール調整やリミット処理を行う。次に、エンジンコントローラ３０からのヨーレートＹに応じて、これらの値を下記の式（１）又は（２）に入力する。式（１）及び（２）において、Ｎ１はセンサ値のパラメータの数を表し、今回は５である。

ＴＰ１＝１−｛（Ｖ＋Ｔ＋Ｗ＋Ｏ＋Ａ）／Ｎ１｝／８０（Ｙ≦３０）…（１）
ＴＰ１＝１−｛（Ｖ＋Ｔ＋Ｗ＋Ｏ＋Ａ）／Ｎ１｝／１００（Ｙ＞３０）…（２）

例えば、Ｖ＝５５、Ｔ＝２０、Ｗ＝０、Ｏ＝０、Ａ＝２０、Ｙ＝０の場合、式（１）よりＴＰ１＝０．７６２５となる。

なお、ヨーレートＹの変化により音声入力に与える影響はほとんどないと考えられるが、式（１）と式（２）を比較すると、ヨーレートＹがＹ＝３０を超える場合の式（２）の方が、ヨーレートＹがＹ＝３０以下の場合の式（１）と比べて右辺第２項の分母が大きくなっているので音声信頼度ＴＰ１が大きくなるようになっている。これは、後述するように、ヨーレートＹが大きくなるにつれて画像信頼度ＴＰ２が小さくなるためである。即ち、全体の音声認識性能を維持する目的で、ヨーレートＹが大きくなるにつれて音声信頼度ＴＰ１が大きくなるように設計されている。

また、画像信頼度ＴＰ２については、まず、日射センサ３８からの対象面平均明度Ｌ及びエンジンコントローラ３０からの平均振動Ｆを、それぞれ０−１００の範囲となるようにスケール調整やリミット処理を行う。次に、エンジンコントローラ３０からのヨーレートＹに応じて、これらの値を下記の式（３）〜（５）のいずれかに入力する。式（３）〜（５）において、Ｎ２はセンサ値のパラメータの数を表し、今回は２である。

ＴＰ２＝１−｛（Ｌ＋Ｆ）／Ｎ２｝／１００（Ｙ≦３０） …（３）
ＴＰ２＝１−｛（Ｌ＋Ｆ）／Ｎ２｝／９０（３０＜Ｙ≦６０）…（４）
ＴＰ２＝１−｛（Ｌ＋Ｆ）／Ｎ２｝／８０（Ｙ＞６０） …（５）

例えば、Ｌ＝５５、Ｆ＝２０、Ｙ＝０の場合、式（３）よりＴＰ２＝０．６２５となる。

なお、式（３）〜（５）を比較すると、ヨーレートＹが大きくなるにつれて画像信頼度ＴＰ２が小さくなるようになっている。これは、ヨーレートＹが大きくなることにより、画像を取り込む際の安定性が低下し、音声認識性能に影響を及ぼすと考えられるためである。

続いて、このステップＳ１において、環境評価／入力検知部７０は、上記で求めた信頼度ＴＰ１、ＴＰ２に対応するサンプリングレートを選択する。即ち、図４に基づき、サンプリングレートを選択する。

上記例では、音声信頼度ＴＰ１＝０．７６２５、画像信頼度ＴＰ２＝０．６２５であるので、音声サンプリングレートＳｒ＝１６ｋＨｚ、画像サンプリングレート（フレームレート）Ｖｒ＝６０ｆｐｓとなる。

なお、図４では、信頼度ＴＰが高いほどサンプリングレートを高く設定しているが、後述するように信頼度ＴＰが低いほどサンプリングレートを高く設定することもできる。

ステップＳ２において、環境評価／入力検知部７０は、音声処理部６６を構成する音声符号化部４６、音声パターン認識部５０に対して音声サンプリングレートＳｒを通知するとともに、画像処理部６８を構成する画像符号化部４９、画像パターン認識部５４に対して画像サンプリングレートＶｒを通知し、最終結果演算部７４に対して音声サンプリングレートＳｒ及び画像サンプリングレートＶｒの両方を通知する。

ステップＳ３において、音声符号化部４６は、環境評価／入力検知部７０から通知されたサンプリングレートＳｒ、即ち、１６ｋＨｚでマイク２０からのアナログ信号をディジタル信号であるデータに符号化する。符号化されたデータは、音声周波数分析部４８において周波数分析され、音声パターン認識部５０の解析用データが得られる。

同様に、画像パターン認識部５４は、環境評価／入力検知部７０から通知されたサンプリングレートＶｒ、即ち、６０ｆｐｓでＣＣＤカメラ２２からのアナログ信号をディジタル信号であるデータに符号化する。符号化されたデータは、空間周波数分析部５２において周波数分析され、画像パターン認識部５４の解析用データが得られる。

ステップＳ４において、音声パターン認識部５０は、音声辞書格納部５８に格納された音声辞書５６ａ〜５６ｃのうち、環境評価／入力検知部７０から通知されたサンプリングレートＳｒに対して適切な音声辞書を選択する。上記例ではサンプリングレートＳｒ＝１６ｋＨｚであるため、適切な辞書は音声辞書５６ｂとなる。

同様に、画像パターン認識部５４は、画像辞書格納部６４に格納された画像辞書６２ａ〜６２ｃのうち、環境評価／入力検知部７０から通知されたサンプリングレートＶｒに対して適切な画像辞書を選択する。上記例ではサンプリングレートＶｒ＝６０ｆｐｓであるため、適切な辞書は画像辞書６２ｂとなる。

次いで、ステップＳ５において、音声パターン認識部５０は、ステップＳ４において選択された音声辞書５６ｂを使用して、音声周波数分析部４８から送られてくる解析用データに基づく認識結果（第１次音声認識結果）をこれに対応する音声認識スコア（認識結果の信頼度）とともに一時記憶部７２に出力する。音声認識スコアは、解析用データと参照データとの一致度に応じて０−１００の値として求められる。ここでの認識結果及び認識スコアは、例えば、図５のようなものである。

同様に、画像パターン認識部５４は、ステップＳ４において選択された画像辞書６２ｂを使用して、空間周波数分析部５２から送られてくる解析用データに基づき認識結果（第１次画像認識結果）をこれに対応する画像認識スコア（認識結果の信頼度）とともに一時記憶部７２に出力する。画像認識スコアは、解析用データと参照データとの一致度に応じて０−１００の値として求められる。ここでの認識結果及び認識スコアは、例えば、図６のようなものである。

ステップＳ６において、最終結果演算部７４は、一時記憶部７２に保存された各第１次認識結果及び各認識スコアと、環境評価／入力検知部７０から通知されたサンプリングレートＳｒ、Ｖｒを用いて最終結果Ｆｓを算出する。即ち、音声認識スコアをＳｓ、音声サンプリングレートＳｒの最大値をＳｒ_Max、画像認識スコアをＶｓ、画像サンプリングレートＶｓの最大値をＶｓ_Maxとするとき、例えば、下記の式（６）を用いて最終結果Ｆｓを算出する。

Ｆｓ＝Ｓｓ×Ｓｒ／Ｓｒ_Max＋Ｖｓ×Ｖｒ／Ｖｒ_Max …（６）

上記図５及び図６の例では、Ｓｒ＝１６ｋＨｚ、Ｓｒ_Max＝２２ｋＨｚ、Ｖｒ＝６０ｆｐｓ、Ｖｒ_Max＝１２０ｆｐｓであるため、最終結果Ｆｓは、図７のようになる。

最終結果Ｆｓは、上述した音声信頼度ＴＰ１及び画像信頼度ＴＰ２を用いて、下記の式（７）により算出することもできる。

Ｆｓ＝Ｓｓ×ＴＰ１＋Ｖｓ×ＴＰ２ …（７）

上記図５及び図６の例において、ＴＰ１＝０．６、ＴＰ２＝０．７とした場合、最終結果Ｆｓは、図８のようになる。

最終結果演算部７４は、上記のように算出した最終結果Ｆｓのうち最も高得点のものに対応する認識結果Ｆｓを最終認識結果として最終結果格納部７８の最終結果テーブル７６に記録し、音声認識処理を終了する。

最終結果テーブル７６に記録された最終認識結果は、車内通信網１８を介してナビゲーションシステム２８へと出力される。ナビゲーションシステム２８は、受信した最終認識結果に基づきナビゲーションを行う。

以上説明したように、第１の実施の形態に係る音声認識システム１０によれば、マイク２０とＣＣＤカメラ２２から入力される音声と画像の各信頼度を車両１２の状態（エンジンコントローラ３０からの車速Ｖ、エアコンコントローラ２４からのエアコン風量Ｔ等）に基づき算出し、算出した各信頼度に基づき入力音声及び入力画像をディジタル信号に変換する音声符号化部４６と画像符号化部４９の各サンプリングレートを決定する。このサンプリングレートにより変換された各ディジタル信号と、このサンプリングレートに対応して参照される音声辞書５６ｂ及び画像辞書６２ｂとを比較する。このようにすれば、車両１２の状態に応じた正確な音声認識ができる。また、複数の入力手段の中に信頼度の低いものがある場合、その入力手段のサンプリングレートを低く設定することで音声認識処理中の省電力化を実現できる。即ち、サンプリングレートを過度に高くすることが回避されることから、省電力化が図れる。

また、音声認識システム１０では、最終結果Ｆｓの演算において、サンプリングレートに応じた重み付けが行われる。即ち、サンプリングレートが高いものを高く重み付けし、サンプリングレートが低いものを低く重み付けしている。このため、より信頼度の高い音声認識用データを音声認識結果により大きく反映させることが可能となり、音声認識システム全体での音声認識の質をより向上させることができる。

すなわち、この音声認識システム１０は、雑音環境下で頑健で、より正確な音声認識ができ、且つ音声認識処理中の省電力化を図れる。

更に、音声認識システム１０では、サンプリングレートに応じた参照データが用いられる。このため、認識スコア（認識結果の信頼度）の算出を迅速に行うことができる。

図９は、この発明の第２の実施形態に係る音声認識システム１０ａを示している。上述した音声認識システム１０が、１台のマイク２０及び１台のＣＣＤカメラ２２それぞれから取得した情報を扱う構成であったのに対し、図９の音声認識システム１０ａは、２台のマイク、即ち、第１マイク２０ａ及び第２マイク２０ｂから取得した情報を扱う構成である。以下の説明では、音声認識システム１０と同じ箇所には同一の符号を付し、その詳細な説明を省略する。

この音声認識システム１０ａは、前記のマイク２０に相当する第１マイク２０ａに接続されるとともに、ＣＣＤカメラ２２に代えて、第２マイク２０ｂに接続される。この場合、第１及び第２マイク２０ａ、２０ｂは、例えば運転席の付近と助手席の付近というように車両１２内の異なる場所に配置し、運転者の音声と同乗者の音声とを入力する構成とする。更に、音声認識システム１０ａは、前記の音声処理部６６に相当する第１音声処理部６６ａを有するとともに、前記の画像処理部６８に代えて、第２音声処理部６６ｂを備える。第１及び第２音声処理部６６ａ、６６ｂのそれぞれは、前記音声認識システム１０の音声符号化部４６、音声周波数分析部４８、音声パターン認識部５０、音声辞書５６ａ〜５６ｃ、音声辞書格納部５８に相当する構成要素を備えている。

第１の実施形態に係る音声認識システム１０では、音声情報と画像情報とが音声認識のために用いられていたのに対し、第２の実施形態に係る音声認識システム１０ａでは２系統の音声情報が音声認識に用いられる。音声認識の流れ自体は、音声認識システム１０と同様であり、詳細な説明は省略する。

第２の実施形態に係る音声認識システム１０ａによれば、第１及び第２マイク２０ａ、２０ｂに対応する２系統の音声情報を用いて音声認識を行うことができる。このため、音声認識の認識率を向上させることができる。また、音声認識システム１０ａは、音声の入力手段として、第１及び第２マイク２０ａ及び２０ｂと比較して高価なＣＣＤカメラ２２を用いることがなく、簡便且つ廉価に構成することができる。

図１０は、この発明の第３の実施形態に係る音声認識システム１０ｂを示している。上述した図１の音声認識システム１０が、１台のマイク２０及び１台のＣＣＤカメラ２２それぞれから取得した情報を扱う構成であったのに対し、音声認識システム１０ｂは、２台のＣＣＤカメラ、即ち、第１ＣＣＤカメラ２２ａ及び第２ＣＣＤカメラ２２ｂから取得した情報を扱う構成である。以下の説明では、音声認識システム１０と同じ箇所には同一の符号を付し、その詳細な説明を省略する。

音声認識システム１０ｂは、前記のＣＣＤカメラ２２に相当する第１ＣＣＤカメラ２２ａに接続されるとともに、マイク２０に代えて、第２ＣＣＤカメラ２２ｂに接続される。更に、音声認識システム１０ｂは、前記音声認識システム１０の画像処理部６８に相当する第１画像処理部６８ａを有するとともに、前記の音声処理部６６に代えて、第２画像処理部６８ｂを備える。第１及び第２画像処理部６８ａ、６８ｂのそれぞれは、前記音声認識システム１０の画像符号化部４９、空間周波数分析部５２、画像パターン認識部５４、画像辞書６２ａ〜６２ｃ、画像辞書格納部６４に相当する構成要素を備えている。

第１の実施形態に係る音声認識システム１０では、音声情報と画像情報とが音声認識のために用いられていたのに対し、第３の実施形態に係る音声認識システム１０ｂでは２系統の画像情報が音声認識に用いられる。音声認識の流れ自体は、音声認識システム１０と同様であり、詳細な説明は省略する。

第３の実施形態に係る音声認識システム１０ｂによれば、第１及び第２ＣＣＤカメラ２２ａ、２２ｂに対応する２系統の画像情報を用いて音声認識を行うことができる。このため、音声認識の認識率を向上させることができる。この場合、第１及び第２ＣＣＤカメラ２２ａ、２２ｂは、異なる位置から、例えば、搭乗者１４の左右前方方向から搭乗者１４の口元を撮像する。これにより、日の当たり方（例えば、逆光）により一方の画像が不鮮明であっても、他方の画像が鮮明となって、音声認識がより適切に行われる可能性を高めることができる。

この図１０の音声認識システム１０ｂは、音声信号の認識部を用いることがないため、例えば、工事現場等の騒音が極めて大きい場所で使用される特殊車両等に対して好適に適用可能である。

図１１には、この発明の第４の実施形態に係る音声認識システム１０ｃが示される。上述した音声認識システム１０、１０ａ、１０ｂが、２系統の情報を扱う構成であったのに対し、音声認識システム１０ｃは、１系統の情報のみ、即ち、１台のマイク２０ｃから取得した情報を扱う構成である。以下の説明では、音声認識システム１０と同じ箇所には同一の符号を付し、その詳細な説明を省略する。

音声認識システム１０ｃは、マイク２０ｃに接続されるとともに、前記の音声処理部６６に相当する音声処理部６６ｃを備える。音声処理部６６ｃは、前記音声認識システム１０の音声符号化部４６、音声周波数分析部４８、音声パターン認識部５０、音声辞書５６ａ〜５６ｃ、音声辞書格納部５８に相当する構成要素を備えている。

音声認識システム１０ｃにおける音声認識処理は、例えば、第１の実施形態に係る音声認識システム１０においてマイク２０からの音声データを処理する流れと同様にすることができる。但し、信頼度ＴＰと音声サンプリングレートＳｒとの関係は反比例となることが好ましい。

第４の実施形態に係る音声認識システム１０ｃによれば、車両（移動体）の状態に応じてサンプリングレートを変更させることができる。このため、車両の状態に応じて音声認識の実効速度を上げるとともに、音声認識処理中の省電力化を図ることが可能となる。また、話者の情報を取得する手段がマイク２０ｃのみであるため、簡便且つ廉価に構成することができる。

図１２には、この発明の第５の実施形態に係る音声認識システム１０ｄが示される。上述した音声認識システム１０ｃが、１台のマイク２０ｃからの１系統の情報を扱う構成であったのに対し、音声認識システム１０ｄは、１台のＣＣＤカメラ２２ｃからの１系統の情報を扱う構成である。以下の説明では、音声認識システム１０ｃと同じ箇所には同一の符号を付し、その詳細な説明を省略する。

音声認識システム１０ｄは、ＣＣＤカメラ２２ｃに接続されるとともに、前記音声認識システム１０の画像処理部６８に相当する画像処理部６８ｃを備える。画像処理部６８ｃは、前記音声認識システム１０の画像符号化部４９、空間周波数分析部５２、画像パターン認識部５４、画像辞書６２ａ〜６２ｃ、画像辞書格納部６４に相当する構成要素を備えている。

音声認識システム１０ｄにおける音声認識処理は、例えば、第１の実施形態に係る音声認識システム１０においてＣＣＤカメラ２２からの画像データを処理する流れと同様にすることができる。但し、信頼度ＴＰと画像サンプリングレートＶｒとの関係は反比例となることが好ましい。

第５の実施形態に係る音声認識システム１０ｄによれば、車両（移動体）の状態に応じてサンプリングレートを変更させることができる。このため、車両の状態に応じて音声認識の実効速度を上げるとともに、音声認識処理中の省電力化を図ることが可能となる。また、話者の情報を取得する手段が、ＣＣＤカメラ２２ｃのみであるため、簡便且つ廉価に構成することができる。

なお、この発明は、上記実施形態に限らず、この明細書の記載内容に基づき、種々の構成を採り得ることはもちろんである。

例えば、上記実施形態は、いずれも車両の内部で完結するシステムとしたが、これに限られず、例えば、音声パターン認識部５０、音声辞書格納部５８、画像パターン認識部５４、画像辞書格納部６４を車外の情報センタに配置し、無線通信を利用して音声認識を行うようにすることも可能である。

また、上記実施形態では、マイク２０及びＣＣＤカメラ２２の出力の信頼度ＴＰ１、ＴＰ２が高いほどサンプリングレートを高くする構成としたが、信頼度が高いほどサンプリングレートを低くする構成とすることができる。これにより、省電力を実現しつつ、音声認識の信頼度を高めることが可能となる。この場合、低いサンプリングレートで得られたデータほど高く重み付けすることで、より一層音声認識の信頼度を高めることが可能となる。

更に、マイク２０及びＣＣＤカメラ２２の出力の信頼度ＴＰ１、ＴＰ２を求めるのに、ヨーレートＹ、車速Ｖ、エアコン風量Ｔ、ワイパ速度Ｗ、ウィンド開度Ｏ、オーディオ音量Ａ、対象面平均明度Ｌ、平均振動Ｆを用いたが、必ずしもこれら全てのパラメータを用いなくともよい。加えて、日本語、英語等の言語の相違、サンルーフの開度等他のパラメータを用いることもできる。

この発明に係る音声認識システムが搭載された車両のブロック構成図である。この発明の第１実施形態に係る音声認識システムのブロック構成図である。前記第１実施形態に係る音声認識システムにおける音声認識処理の手順を示すフローチャートである。前記第１実施形態に係る音声認識システムにおける音声サンプリングレートと信頼度及び画像サンプリングレートと信頼度との関係を示す図である。前記第１実施形態に係る音声認識システムにおける第１次的な音声認識結果の一例を示す図である。前記第１実施形態に係る音声認識システムにおける第１次的な音声認識結果の別の例を示す図である。前記第１実施形態に係る音声認識システムにおける最終的な音声認識結果の一例を示す図である。前記第１実施形態に係る音声認識システムにおける最終的な音声認識結果の別の例を示す図である。この発明の第２実施形態に係る音声認識システムのブロック構成図である。この発明の第３実施形態に係る音声認識システムのブロック構成図である。この発明の第４実施形態に係る音声認識システムのブロック構成図である。この発明の第５実施形態に係る音声認識システムのブロック構成図である。

符号の説明

１０、１０ａ〜１０ｄ…音声認識システム
１２…車両（移動体）１４…搭乗者（話者）
２０、２０ａ〜２０ｃ…マイク（話者情報取得手段、音声情報取得手段）
２２、２２ａ〜２２ｃ…ＣＣＤカメラ（話者情報取得手段、画像情報取得手段）
２４…エアコンコントローラ（状態検出手段）
２６…オーディオ（状態検出手段）２８…ナビゲーションシステム
３０…エンジンコントローラ（状態検出手段）
３２…パネル操作部（状態検出手段）３４…サンルーフコントローラ
３６…パワーウィンドコントローラ（状態検出手段）
３８…日射センサ（状態検出手段）４２…車速センサ（状態検出手段）
４６…音声符号化部（話者情報変換手段、音声情報変換手段）
４９…画像符号化部（話者情報変換手段、画像情報変換手段）
５０…音声パターン認識部５４…画像パターン認識部
５６ａ〜５６ｃ…音声辞書６２ａ〜６２ｃ…画像辞書
７０…環境評価／入力検知部（信頼度算出手段及びサンプリングレート算出手段）
７４…最終結果演算部

Claims

移動体の状態を検出する状態検出手段と、発話時の話者の情報を取得する話者情報取得手段とが接続された音声認識システムであって、
前記状態検出手段により検出された前記移動体の状態に基づき前記話者情報取得手段により取得された前記話者情報の信頼度を算出する信頼度算出手段と、
前記信頼度算出手段により算出された前記信頼度に基づきサンプリングレートを算出するサンプリングレート算出手段と、
前記話者情報取得手段で取得した前記話者情報を、前記サンプリングレートによりディジタル信号に変換する話者情報変換手段と
を備えることを特徴とする音声認識システム。
移動体の状態を検出する状態検出手段と、話者の音声情報を取得する音声情報取得手段と、話者を撮影した画像情報を取得する画像情報取得手段とが接続された音声認識システムであって、
前記状態検出手段により検出された前記移動体の状態に基づき、前記音声情報取得手段により取得された前記音声情報の信頼度と前記画像情報取得手段により取得された前記画像情報の信頼度を算出する信頼度算出手段と、
前記信頼度算出手段により算出された前記音声情報の信頼度及び前記画像情報の信頼度に基づき、それぞれ、音声情報変換用サンプリングレートと画像情報変換用サンプリングレートを算出するサンプリングレート算出手段と、
前記音声情報を、前記音声情報変換用サンプリングレートによりディジタル信号に変換する音声情報変換手段と、
前記画像情報を、前記画像情報変換用サンプリングレートによりディジタル信号に変換する画像情報変換手段と
を備えることを特徴とする音声認識システム。
前記移動体が車両である
ことを特徴とする請求項１又は請求項２に記載の音声認識システム。
請求項１又は請求項２に記載の音声認識システムを備える
ことを特徴とする移動体。
請求項３に記載の音声認識システムを備える
ことを特徴とする車両。