JP2006126342A - 音声認識システム、この音声認識システムを備える移動体及び車両 - Google Patents
音声認識システム、この音声認識システムを備える移動体及び車両 Download PDFInfo
- Publication number
- JP2006126342A JP2006126342A JP2004312381A JP2004312381A JP2006126342A JP 2006126342 A JP2006126342 A JP 2006126342A JP 2004312381 A JP2004312381 A JP 2004312381A JP 2004312381 A JP2004312381 A JP 2004312381A JP 2006126342 A JP2006126342 A JP 2006126342A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- image
- recognition system
- reliability
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
【課題】雑音環境下で頑健で、より正確な音声認識を可能とし、且つ音声認識処理中の省電力化を図る音声認識システムを提供する。
【解決手段】マイク20とCCDカメラ22から入力される音声と画像の各信頼度を車両の状態(エンジンコントローラ30からの車速V、エアコンコントローラ24からのエアコン風量T等)に基づき算出し、算出した各信頼度に基づき入力音声及び入力画像をディジタル信号に変換する音声符号化部46と画像符号化部49の各サンプリングレートを算出する。変換されたディジタル信号と、このサンプリングレートに対応して参照される音声辞書56a〜56c、画像辞書62a〜62cを比較する。このため、車両の状態に応じた正確な音声認識ができる。また、サンプリングレートを過度に高くすることが回避されることから、省電力化が図れる。
【選択図】図1
【解決手段】マイク20とCCDカメラ22から入力される音声と画像の各信頼度を車両の状態(エンジンコントローラ30からの車速V、エアコンコントローラ24からのエアコン風量T等)に基づき算出し、算出した各信頼度に基づき入力音声及び入力画像をディジタル信号に変換する音声符号化部46と画像符号化部49の各サンプリングレートを算出する。変換されたディジタル信号と、このサンプリングレートに対応して参照される音声辞書56a〜56c、画像辞書62a〜62cを比較する。このため、車両の状態に応じた正確な音声認識ができる。また、サンプリングレートを過度に高くすることが回避されることから、省電力化が図れる。
【選択図】図1
Description
この発明は、話者の音声情報を取得するマイク等の音声情報取得手段及び(又は)話者を撮影した画像情報を取得するカメラ等の画像情報取得手段が接続される音声認識システム、この音声認識システムを備える移動体及び車両に関し、一層詳細には、雑音(ノイズ)環境下で頑健に音声認識を行う音声認識システム、この音声認識システムを備える移動体及び車両に関する。
近時の車両には多数の電子機器が搭載されるようになり、その機能も一層高度化しつつある。このような中、車両に搭載されたナビゲーションシステム等の電子機器の操作の容易化のため音声操作を可能にする音声認識システムが開発されている。
ところで、車両用に限らず、音声認識システムにおいて話者が話す音声を確実に認識するためには、話者の話し方の変化や周囲の騒音等音声認識の関連条件を充分に考慮しなければならない。そのような対策のために、例えば、想定される複数の騒音環境に対応した音声モデルを予め設けておき、騒音環境に応じた適当な音声モデルを選択して音声認識を行うシステム(例えば、特許文献1参照)や、話者の心的状態を推定することにより複数の音声認識辞書から適切な辞書を選択して用いる装置(例えば、特許文献2参照)が提案されている。
また、音声認識システムの省電力化のため、音声信号の入力の有無に応じてサンプリングレートを切換え可能な装置(例えば、特許文献3参照)が提案されている。
音声認識システムにマイク等の音声入力部と、話者の口元の動き、いわゆる唇動を撮像するCCD(Charge Coupled Device)カメラ等の撮像部とを設けておくことにより、音声入力部から得られた話者の音声を認識する手段と、撮像部から得られた画像に基づいて音声を認識する手段とを相互補完的に使用することにより、話者の音声をより頑健に認識することができて好適である。また、音声認識システムを車載用として用いる場合には、想定される音声上のノイズ又は画像ノイズ(以下、両ノイズを併せて環境ノイズと呼ぶ。)を含んだ認識辞書を使用することにより音声認識の対環境性が向上する。
ところで、車両はその走行状態や走行箇所に応じて温度、湿度、加速度、振動、明るさ及び騒音等の周辺環境が著しく変化するが、前記の認識辞書に含まれる環境ノイズは一定の環境下では有効であっても、異なる環境下では充分に有効でない場合もあり得る。しかし、前記の特許文献1、2に記載されたシステムでは、このような車両状態に基づく環境変化を考慮した音声認識ができる構成にはなっていない。
また、上記のように音声認識用情報(音声情報、画像情報等)の入力手段を複数設けた場合、それぞれの入力手段の入力の信号対雑音比(S/N比)がいずれも音声認識に十分な場合は有効である。しかし、ある入力のS/N比が極端に低い場合では音声認識結果の信頼度が下がってしまう可能性がある。
更に、音声認識システムの活用が進むにつれて、省電力化の要請が一層高まっている。しかし、特許文献3に記載されたシステムでは、音声認識処理中の省電力化は考慮されていない。
この発明はこのような課題を考慮してなされたものであり、雑音環境下で頑健でより正確な音声認識を可能とするとともに、音声認識処理中の省電力化を可能にする音声認識システム、この音声認識システムを備える移動体及び車両を提供することを目的とする。
この発明に係る音声認識システムは、移動体の状態を検出する状態検出手段と、発話時の話者の情報を取得する話者情報取得手段とが接続された音声認識システムであって、前記状態検出手段により検出された前記移動体の状態に基づき前記話者情報取得手段により取得された前記話者情報の信頼度を算出する信頼度算出手段と、前記信頼度算出手段により算出された前記信頼度に基づきサンプリングレートを算出するサンプリングレート算出手段と、前記話者情報取得手段で取得した前記話者情報を、前記サンプリングレートによりディジタル信号に変換する話者情報変換手段とを備えることを特徴とする。
この発明によれば、話者情報取得手段により取得された話者情報の信頼度を移動体の状態に基づき算出し、算出した信頼度に基づき話者情報変換手段でディジタル信号に変換する際のサンプリングレートを算出する。このため、移動体の状態に応じた音声認識が可能となり、音声認識システム全体での音声認識の質を向上させることができる。併せて、サンプリングレートを過度に高くすることを避けることで音声認識処理中の省電力化を図ることができる。すなわち、この発明によれば、雑音環境下で頑健でより正確な音声認識が可能となり、且つ音声認識処理中の省電力化を図ることができる。
ここで、移動体の状態とは、音声認識に関連する移動体の状態、即ち、移動体に搭載された機器、例えばエアコン、オーディオ、エンジン等の状態であり、これらの状態は、状態検出手段としてのエアコンコントローラ、オーディオコントローラ、エンジンコントローラにより検出することができる。
なお、話者情報取得手段は、特に限定されないが、例えば、話者の音声情報を取得するマイク等音声情報取得手段のみ、話者を撮影した画像情報を取得するカメラ等の画像情報取得手段のみ、音声情報取得手段と画像情報取得手段の組合せ、複数の音声情報取得手段の組合せ、複数の画像情報取得手段の組合せ等、種々の構成を採り得ることができる。
また、この発明に係る音声認識システムは、移動体の状態を検出する状態検出手段と、話者の音声情報を取得する音声情報取得手段と、話者を撮影した画像情報を取得する画像情報取得手段とが接続された音声認識システムであって、前記状態検出手段により検出された前記移動体の状態に基づき、前記音声情報取得手段により取得された前記音声情報の信頼度と前記画像情報取得手段により取得された前記画像情報の信頼度を算出する信頼度算出手段と、前記信頼度算出手段により算出された前記音声情報の信頼度及び前記画像情報の信頼度に基づき、それぞれ、音声情報変換用サンプリングレートと画像情報変換用サンプリングレートを算出するサンプリングレート算出手段と、前記音声情報を、前記音声情報変換用サンプリングレートによりディジタル信号に変換する音声情報変換手段と、前記画像情報を、前記画像情報変換用サンプリングレートによりディジタル信号に変換する画像情報変換手段とを備えることを特徴とする。
この発明によれば、音声情報取得手段及び画像情報取得手段により取得された音声情報及び画像情報の各信頼度を移動体の状態に基づき算出し、各信頼度に基づき音声情報変換手段及び画像情報変換手段でディジタル信号に変換する際のサンプリングレートを算出する。このため、移動体の状態に応じた音声認識が可能となり、音声認識システム全体での音声認識の質を向上させることができる。併せて、サンプリングレートを過度に高くすることが回避されることから、音声認識処理中の省電力化を図ることができる。
ここで、前記音声認識システムは、前記音声情報から変換されたディジタル信号に基づき第1次音声認識結果及びその信頼度を算出する音声パターン認識部と、前記画像情報から変換されたディジタル信号に基づき第1次画像認識結果及びその信頼度を算出する画像パターン認識部とを備え、
前記サンプリングレート算出手段は、信頼度が高い前記音声情報及び(又は)前記画像情報について高いサンプリングレートを算出し、信頼度が低い前記音声情報及び(又は)前記画像情報について低いサンプリングレートを算出し、換言すれば、信頼度に比例してサンプリングレートを算出し、
前記第1次音声認識結果及び前記第1次画像認識結果の信頼度は、前記サンプリングレートが高いほど高く重み付けされ、前記サンプリングレートが低いほど低く重み付けされるように構成することができる。
前記サンプリングレート算出手段は、信頼度が高い前記音声情報及び(又は)前記画像情報について高いサンプリングレートを算出し、信頼度が低い前記音声情報及び(又は)前記画像情報について低いサンプリングレートを算出し、換言すれば、信頼度に比例してサンプリングレートを算出し、
前記第1次音声認識結果及び前記第1次画像認識結果の信頼度は、前記サンプリングレートが高いほど高く重み付けされ、前記サンプリングレートが低いほど低く重み付けされるように構成することができる。
上記の構成では、より信頼度の高い入力手段からの音声認識用情報がより高いサンプリングレートで取得され且つ音声認識の最終結果により大きく反映される。このため、音声認識システム全体での音声認識の質をより向上させることが可能となる。併せて、サンプリングレートを過度に高くすることが正確に回避されることから、音声認識処理中の省電力化を図ることができる。
更に、前記音声認識システムは、前記サンプリングレート算出手段で算出されるサンプリングレートに応じた参照データを備え、前記音声パターン認識部は、前記参照データを用いて前記第1次音声認識結果及びその信頼度を算出し、前記画像パターン認識部は、前記参照データを用いて前記第1次画像認識結果及びその信頼度を算出してもよい。これにより、前記第1次音声認識結果及び前記第1次画像認識結果の信頼度の算出を迅速に行うことができる。
前記移動体は車両、船、水陸両用車、プレジャーボート、ヘリコプタ、飛行機等とすることができる。
また、この発明に係る移動体は、前述の音声認識システムのいずれかを備える。
更に、この発明に係る車両は、前述の音声認識システムのいずれかを備える。
この発明によれば、話者情報取得手段(音声情報取得手段又は画像情報取得手段の少なくとも一方)により取得された情報の信頼度を移動体の状態に基づき算出し、話者情報変換手段(音声情報変換手段又は画像情報変換手段の少なくとも一方)でディジタル信号に変換する際のサンプリングレートをこの信頼度に基づき算出する。このため、移動体の状態に応じた音声認識が可能となり、音声認識システム全体での音声認識の質を向上させることができるとともに、サンプリングレートを過度に高くすることを避けることで音声認識処理中の省電力化を図ることができるという効果が達成される。
すなわち、この発明によれば、雑音環境下で頑健でより正確な音声認識が可能となり、且つ音声認識処理中の省電力化を図れる。
以下、この発明に係る音声認識システム、この音声認識システムを備える移動体及び車両について実施の形態を挙げ、添付の図1〜図12を参照しながら説明する。
図1に示すように、第1の実施形態に係る音声認識システム10は車両12(移動体)に搭載されている。
この音声認識システム10は、搭乗者(話者)14の音声を入力するマイク(話者情報取得手段、音声情報取得手段)20、搭乗者14の口元の動き、いわゆる唇動を撮像するCCDカメラ(話者情報取得手段、画像情報取得手段)22及び車内通信網18に接続されている。マイク20及びCCDカメラ22は、車内におけるルーフとウインドシールドガラスとの境界部近傍に設けられている。
マイク20及びCCDカメラ22は、これ以外の箇所(例えば、ルーフ下面部、インスツルメントパネル部、ヘッドレスト、搭乗者の肩部及びヘッドセット等)に設けられていてもよい。CCDカメラ22は搭乗者14の口元を直接的に撮像するものに限らず、ミラー、プリズム、レンズ等を介して撮像するようにしてもよく、また、MOS型カメラ等別の撮像装置を用いてもよい。
車内通信網18にはエアコンコントローラ24、オーディオコントローラを有するオーディオシステム26、ナビゲーションシステム28、エンジンコントローラ30、パネル操作部32、サンルーフコントローラ34及びパワーウィンドコントローラ36が接続されており、これらの各機器(状態検出手段)は車内通信網18によって相互にデータ通信が可能である。エアコンコントローラ24には日射センサ38と図示しない風量調節機構が設けられ、日射センサ38における対象面平均明度Lを検出可能であるとともに、エアコン風量Tを設定可能である。オーディオシステム26には図示しない音量調節機構及び音量認識部が設けられ、オーディオ音量Aを設定できる。
ナビゲーションシステム28にはGPS(Global Positioning System)44又はジャイロセンサ等が接続されており、車両12の位置や座標情報を取得することができる。
エンジンコントローラ30はエンジン40の制御を行うものであって、車速センサ42により車両12の車速Vを検出することができる。また、エンジンコントローラ30は車速Vと図示しない舵角センサの信号とに基づいて車両12のヨーレートYを取得することができる。ヨーレートYは、ジャイロセンサ等の信号を参照しながら算出するようにしてもよい。また、エンジンコントローラ30は、車速V及びエンジン回転数等に基づいて平均振動Fを算出することができる。
パネル操作部32は、搭乗者14が操作するスイッチ等が設けられており、例えばワイパ速度Wを制御するとともに、このワイパ速度Wを車内通信網18に供給する。サンルーフコントローラ34は、操作スイッチの状態に応じてサンルーフモータを駆動しサンルーフの開閉を行う。パワーウィンドコントローラ36は操作スイッチの状態に応じてウィンドを昇降させることができ、他の機器からの要求に従ってその時点におけるウィンド開度Oを車内通信網18に供給する。
図2に示すように、音声認識システム10は、マイク20から入力される搭乗者14の音声を入力しデータ処理する音声処理部66と、CCDカメラ22から入力される搭乗者14の口元の画像(動画)を入力しデータ処理する画像処理部68と、車両状態を判断して音声認識システム10を統合的に制御する環境評価/入力検知部70と、該環境評価/入力検知部70からアクセスされる一時記憶部72と、該一時記憶部72等を参照しながら最終的な音声認識の候補の順位付けを行う最終結果演算部74と、順位付けが行われた音声データが最終結果テーブル76として格納される最終結果格納部78とを備える。
音声処理部66は、音声符号化部(話者情報変換手段、音声情報変換手段)46と、音声周波数分析部48と、音声パターン認識部50と、音声辞書56a〜56cを格納する音声辞書格納部58とを有する。
音声符号化部46はマイク20から出力される音声信号をディジタルデータに変換するものである。音声周波数分析部48は、音声符号化部46で変換されたディジタルデータを周波数分析し、音声パターン認識部50の解析用データを得るものである。この周波数分析には、例えば高速フーリエ変換(FFT)が用いられる。音声パターン認識部50は、音声周波数分析部48で得られた解析用データと、音声辞書56a〜56cいずれかの参照データとを比較して、相関性の高いデータ(第1次音声認識結果)をその認識スコア(認識結果の信頼度)とともに算出する。音声辞書56a、56b、56cはそれぞれ、音声サンプリングレートSrがSr=22kHz、16kHz、8kHzで得られた解析用データと比較するための参照データを備える。前記解析用データと比較される音声辞書は、音声符号化部46におけるデータ変換時のサンプリングレートに応じて決定される。
画像処理部68は、画像符号化部(話者情報変換手段、画像情報変換手段)49と、空間周波数分析部52と、画像パターン認識部54と、画像辞書62a〜62cを格納する画像辞書格納部64とを有する。画像符号化部49はCCDカメラ22から出力される画像をディジタルデータに変換するものである。空間周波数分析部52は、画像符号化部49で変換されたディジタルデータを周波数分析し、画像パターン認識部54の解析用データを得るものである。この周波数分析には、例えば離散コサイン変換(DCT)が用いられる。画像パターン認識部54は、空間周波数分析部52で得られた解析用データと、画像辞書62a〜62cいずれかの参照データとを比較して、相関性の高いデータ(第1次画像認識結果)をその認識スコア(認識結果の信頼度)とともに算出する。画像辞書62a、62b、62cはそれぞれ、画像サンプリングレート(フレームレート)VrがVr=120フレーム毎秒(fps)、60fps、30fpsで得られた解析用データと比較するための参照データを備える。前記解析用データと比較される画像辞書は、画像符号化部49におけるデータ変換時のサンプリングレートに応じて決定される。
音声辞書及び画像辞書は、1つのサンプリングレートについて1個と限らず、設計条件に基づいて1つのサンプリングレートについて複数個設けてもよい。また、複数のサンプリングレートについて共通の音声辞書及び画像辞書を設けることもできる。
なお、音声パターン認識部50及び画像パターン認識部54において音声辞書56a〜56c及び画像辞書62a〜62cから相関の高いデータを選択するための手段としては、例えば、パターンマッチング手法や統計的な手法を用いることができる。統計的手法としては、確率的な有限状態を持つ隠れマルコフモデル(Hidden Markov Model)の手法を挙げることができる。隠れマルコフモデルでは、音声モデルの学習を行うことにより音声を高確率で認識可能である。
環境評価/入力検知部70は、エンジンコントローラ30、エアコンコントローラ24等の各センサ機器(状態検出手段)と車内通信網18を介して接続され、この各センサ機器からの車両状態の情報に基づき音声認識システム10を統合的に管理する。環境評価/入力検知部70の機能の詳細は後述する。
一時記憶部72は、音声パターン認識部50で得られた第1次音声認識結果とその認識スコア、及び、画像パターン認識部54で得られた第1次画像認識結果とその認識スコアをデータとして一時的に記憶するものである。
最終結果演算部74は、一時記憶部72に記憶された第1次音声認識結果、第1次画像認識結果及びそれぞれの認識スコアに基づき最終的な音声認識の候補の順位付けを行う。この順位付けの方法については後述する。順位付けの結果としての音声データは、最終結果格納部78の最終結果テーブル76に格納される。
次に、このように構成される音声認識システム10を用いて搭乗者14が発声する音声を認識する手順について説明する。
図3のステップS1において、環境評価/入力検知部70は、搭乗者14からナビゲーションシステム28への入力を検知すると、各種センサからの信号を読み取り、この読取り値に基づいてマイク20及びCCDカメラ22の出力の信頼度TPを計算する。即ち、マイク20の音声信頼度TP1については、まず、エンジンコントローラ30からの車速V、エアコンコントローラ24からのエアコン風量T、パネル操作部32からのワイパ速度W、パワーウィンドコントローラ36からのウィンド開度O、オーディオシステム26からのオーディオ音量Aを、それぞれ0−100の範囲となるようにスケール調整やリミット処理を行う。次に、エンジンコントローラ30からのヨーレートYに応じて、これらの値を下記の式(1)又は(2)に入力する。式(1)及び(2)において、N1はセンサ値のパラメータの数を表し、今回は5である。
TP1=1−{(V+T+W+O+A)/N1}/80 (Y≦30)…(1)
TP1=1−{(V+T+W+O+A)/N1}/100(Y>30)…(2)
TP1=1−{(V+T+W+O+A)/N1}/100(Y>30)…(2)
例えば、V=55、T=20、W=0、O=0、A=20、Y=0の場合、式(1)よりTP1=0.7625となる。
なお、ヨーレートYの変化により音声入力に与える影響はほとんどないと考えられるが、式(1)と式(2)を比較すると、ヨーレートYがY=30を超える場合の式(2)の方が、ヨーレートYがY=30以下の場合の式(1)と比べて右辺第2項の分母が大きくなっているので音声信頼度TP1が大きくなるようになっている。これは、後述するように、ヨーレートYが大きくなるにつれて画像信頼度TP2が小さくなるためである。即ち、全体の音声認識性能を維持する目的で、ヨーレートYが大きくなるにつれて音声信頼度TP1が大きくなるように設計されている。
また、画像信頼度TP2については、まず、日射センサ38からの対象面平均明度L及びエンジンコントローラ30からの平均振動Fを、それぞれ0−100の範囲となるようにスケール調整やリミット処理を行う。次に、エンジンコントローラ30からのヨーレートYに応じて、これらの値を下記の式(3)〜(5)のいずれかに入力する。式(3)〜(5)において、N2はセンサ値のパラメータの数を表し、今回は2である。
TP2=1−{(L+F)/N2}/100 (Y≦30) …(3)
TP2=1−{(L+F)/N2}/90 (30<Y≦60)…(4)
TP2=1−{(L+F)/N2}/80 (Y>60) …(5)
TP2=1−{(L+F)/N2}/90 (30<Y≦60)…(4)
TP2=1−{(L+F)/N2}/80 (Y>60) …(5)
例えば、L=55、F=20、Y=0の場合、式(3)よりTP2=0.625となる。
なお、式(3)〜(5)を比較すると、ヨーレートYが大きくなるにつれて画像信頼度TP2が小さくなるようになっている。これは、ヨーレートYが大きくなることにより、画像を取り込む際の安定性が低下し、音声認識性能に影響を及ぼすと考えられるためである。
続いて、このステップS1において、環境評価/入力検知部70は、上記で求めた信頼度TP1、TP2に対応するサンプリングレートを選択する。即ち、図4に基づき、サンプリングレートを選択する。
上記例では、音声信頼度TP1=0.7625、画像信頼度TP2=0.625であるので、音声サンプリングレートSr=16kHz、画像サンプリングレート(フレームレート)Vr=60fpsとなる。
なお、図4では、信頼度TPが高いほどサンプリングレートを高く設定しているが、後述するように信頼度TPが低いほどサンプリングレートを高く設定することもできる。
ステップS2において、環境評価/入力検知部70は、音声処理部66を構成する音声符号化部46、音声パターン認識部50に対して音声サンプリングレートSrを通知するとともに、画像処理部68を構成する画像符号化部49、画像パターン認識部54に対して画像サンプリングレートVrを通知し、最終結果演算部74に対して音声サンプリングレートSr及び画像サンプリングレートVrの両方を通知する。
ステップS3において、音声符号化部46は、環境評価/入力検知部70から通知されたサンプリングレートSr、即ち、16kHzでマイク20からのアナログ信号をディジタル信号であるデータに符号化する。符号化されたデータは、音声周波数分析部48において周波数分析され、音声パターン認識部50の解析用データが得られる。
同様に、画像パターン認識部54は、環境評価/入力検知部70から通知されたサンプリングレートVr、即ち、60fpsでCCDカメラ22からのアナログ信号をディジタル信号であるデータに符号化する。符号化されたデータは、空間周波数分析部52において周波数分析され、画像パターン認識部54の解析用データが得られる。
ステップS4において、音声パターン認識部50は、音声辞書格納部58に格納された音声辞書56a〜56cのうち、環境評価/入力検知部70から通知されたサンプリングレートSrに対して適切な音声辞書を選択する。上記例ではサンプリングレートSr=16kHzであるため、適切な辞書は音声辞書56bとなる。
同様に、画像パターン認識部54は、画像辞書格納部64に格納された画像辞書62a〜62cのうち、環境評価/入力検知部70から通知されたサンプリングレートVrに対して適切な画像辞書を選択する。上記例ではサンプリングレートVr=60fpsであるため、適切な辞書は画像辞書62bとなる。
次いで、ステップS5において、音声パターン認識部50は、ステップS4において選択された音声辞書56bを使用して、音声周波数分析部48から送られてくる解析用データに基づく認識結果(第1次音声認識結果)をこれに対応する音声認識スコア(認識結果の信頼度)とともに一時記憶部72に出力する。音声認識スコアは、解析用データと参照データとの一致度に応じて0−100の値として求められる。ここでの認識結果及び認識スコアは、例えば、図5のようなものである。
同様に、画像パターン認識部54は、ステップS4において選択された画像辞書62bを使用して、空間周波数分析部52から送られてくる解析用データに基づき認識結果(第1次画像認識結果)をこれに対応する画像認識スコア(認識結果の信頼度)とともに一時記憶部72に出力する。画像認識スコアは、解析用データと参照データとの一致度に応じて0−100の値として求められる。ここでの認識結果及び認識スコアは、例えば、図6のようなものである。
ステップS6において、最終結果演算部74は、一時記憶部72に保存された各第1次認識結果及び各認識スコアと、環境評価/入力検知部70から通知されたサンプリングレートSr、Vrを用いて最終結果Fsを算出する。即ち、音声認識スコアをSs、音声サンプリングレートSrの最大値をSrMax、画像認識スコアをVs、画像サンプリングレートVsの最大値をVsMaxとするとき、例えば、下記の式(6)を用いて最終結果Fsを算出する。
Fs=Ss×Sr/SrMax+Vs×Vr/VrMax …(6)
上記図5及び図6の例では、Sr=16kHz、SrMax=22kHz、Vr=60fps、VrMax=120fpsであるため、最終結果Fsは、図7のようになる。
最終結果Fsは、上述した音声信頼度TP1及び画像信頼度TP2を用いて、下記の式(7)により算出することもできる。
Fs=Ss×TP1+Vs×TP2 …(7)
上記図5及び図6の例において、TP1=0.6、TP2=0.7とした場合、最終結果Fsは、図8のようになる。
最終結果演算部74は、上記のように算出した最終結果Fsのうち最も高得点のものに対応する認識結果Fsを最終認識結果として最終結果格納部78の最終結果テーブル76に記録し、音声認識処理を終了する。
最終結果テーブル76に記録された最終認識結果は、車内通信網18を介してナビゲーションシステム28へと出力される。ナビゲーションシステム28は、受信した最終認識結果に基づきナビゲーションを行う。
以上説明したように、第1の実施の形態に係る音声認識システム10によれば、マイク20とCCDカメラ22から入力される音声と画像の各信頼度を車両12の状態(エンジンコントローラ30からの車速V、エアコンコントローラ24からのエアコン風量T等)に基づき算出し、算出した各信頼度に基づき入力音声及び入力画像をディジタル信号に変換する音声符号化部46と画像符号化部49の各サンプリングレートを決定する。このサンプリングレートにより変換された各ディジタル信号と、このサンプリングレートに対応して参照される音声辞書56b及び画像辞書62bとを比較する。このようにすれば、車両12の状態に応じた正確な音声認識ができる。また、複数の入力手段の中に信頼度の低いものがある場合、その入力手段のサンプリングレートを低く設定することで音声認識処理中の省電力化を実現できる。即ち、サンプリングレートを過度に高くすることが回避されることから、省電力化が図れる。
また、音声認識システム10では、最終結果Fsの演算において、サンプリングレートに応じた重み付けが行われる。即ち、サンプリングレートが高いものを高く重み付けし、サンプリングレートが低いものを低く重み付けしている。このため、より信頼度の高い音声認識用データを音声認識結果により大きく反映させることが可能となり、音声認識システム全体での音声認識の質をより向上させることができる。
すなわち、この音声認識システム10は、雑音環境下で頑健で、より正確な音声認識ができ、且つ音声認識処理中の省電力化を図れる。
更に、音声認識システム10では、サンプリングレートに応じた参照データが用いられる。このため、認識スコア(認識結果の信頼度)の算出を迅速に行うことができる。
図9は、この発明の第2の実施形態に係る音声認識システム10aを示している。上述した音声認識システム10が、1台のマイク20及び1台のCCDカメラ22それぞれから取得した情報を扱う構成であったのに対し、図9の音声認識システム10aは、2台のマイク、即ち、第1マイク20a及び第2マイク20bから取得した情報を扱う構成である。以下の説明では、音声認識システム10と同じ箇所には同一の符号を付し、その詳細な説明を省略する。
この音声認識システム10aは、前記のマイク20に相当する第1マイク20aに接続されるとともに、CCDカメラ22に代えて、第2マイク20bに接続される。この場合、第1及び第2マイク20a、20bは、例えば運転席の付近と助手席の付近というように車両12内の異なる場所に配置し、運転者の音声と同乗者の音声とを入力する構成とする。更に、音声認識システム10aは、前記の音声処理部66に相当する第1音声処理部66aを有するとともに、前記の画像処理部68に代えて、第2音声処理部66bを備える。第1及び第2音声処理部66a、66bのそれぞれは、前記音声認識システム10の音声符号化部46、音声周波数分析部48、音声パターン認識部50、音声辞書56a〜56c、音声辞書格納部58に相当する構成要素を備えている。
第1の実施形態に係る音声認識システム10では、音声情報と画像情報とが音声認識のために用いられていたのに対し、第2の実施形態に係る音声認識システム10aでは2系統の音声情報が音声認識に用いられる。音声認識の流れ自体は、音声認識システム10と同様であり、詳細な説明は省略する。
第2の実施形態に係る音声認識システム10aによれば、第1及び第2マイク20a、20bに対応する2系統の音声情報を用いて音声認識を行うことができる。このため、音声認識の認識率を向上させることができる。また、音声認識システム10aは、音声の入力手段として、第1及び第2マイク20a及び20bと比較して高価なCCDカメラ22を用いることがなく、簡便且つ廉価に構成することができる。
図10は、この発明の第3の実施形態に係る音声認識システム10bを示している。上述した図1の音声認識システム10が、1台のマイク20及び1台のCCDカメラ22それぞれから取得した情報を扱う構成であったのに対し、音声認識システム10bは、2台のCCDカメラ、即ち、第1CCDカメラ22a及び第2CCDカメラ22bから取得した情報を扱う構成である。以下の説明では、音声認識システム10と同じ箇所には同一の符号を付し、その詳細な説明を省略する。
音声認識システム10bは、前記のCCDカメラ22に相当する第1CCDカメラ22aに接続されるとともに、マイク20に代えて、第2CCDカメラ22bに接続される。更に、音声認識システム10bは、前記音声認識システム10の画像処理部68に相当する第1画像処理部68aを有するとともに、前記の音声処理部66に代えて、第2画像処理部68bを備える。第1及び第2画像処理部68a、68bのそれぞれは、前記音声認識システム10の画像符号化部49、空間周波数分析部52、画像パターン認識部54、画像辞書62a〜62c、画像辞書格納部64に相当する構成要素を備えている。
第1の実施形態に係る音声認識システム10では、音声情報と画像情報とが音声認識のために用いられていたのに対し、第3の実施形態に係る音声認識システム10bでは2系統の画像情報が音声認識に用いられる。音声認識の流れ自体は、音声認識システム10と同様であり、詳細な説明は省略する。
第3の実施形態に係る音声認識システム10bによれば、第1及び第2CCDカメラ22a、22bに対応する2系統の画像情報を用いて音声認識を行うことができる。このため、音声認識の認識率を向上させることができる。この場合、第1及び第2CCDカメラ22a、22bは、異なる位置から、例えば、搭乗者14の左右前方方向から搭乗者14の口元を撮像する。これにより、日の当たり方(例えば、逆光)により一方の画像が不鮮明であっても、他方の画像が鮮明となって、音声認識がより適切に行われる可能性を高めることができる。
この図10の音声認識システム10bは、音声信号の認識部を用いることがないため、例えば、工事現場等の騒音が極めて大きい場所で使用される特殊車両等に対して好適に適用可能である。
図11には、この発明の第4の実施形態に係る音声認識システム10cが示される。上述した音声認識システム10、10a、10bが、2系統の情報を扱う構成であったのに対し、音声認識システム10cは、1系統の情報のみ、即ち、1台のマイク20cから取得した情報を扱う構成である。以下の説明では、音声認識システム10と同じ箇所には同一の符号を付し、その詳細な説明を省略する。
音声認識システム10cは、マイク20cに接続されるとともに、前記の音声処理部66に相当する音声処理部66cを備える。音声処理部66cは、前記音声認識システム10の音声符号化部46、音声周波数分析部48、音声パターン認識部50、音声辞書56a〜56c、音声辞書格納部58に相当する構成要素を備えている。
音声認識システム10cにおける音声認識処理は、例えば、第1の実施形態に係る音声認識システム10においてマイク20からの音声データを処理する流れと同様にすることができる。但し、信頼度TPと音声サンプリングレートSrとの関係は反比例となることが好ましい。
第4の実施形態に係る音声認識システム10cによれば、車両(移動体)の状態に応じてサンプリングレートを変更させることができる。このため、車両の状態に応じて音声認識の実効速度を上げるとともに、音声認識処理中の省電力化を図ることが可能となる。また、話者の情報を取得する手段がマイク20cのみであるため、簡便且つ廉価に構成することができる。
図12には、この発明の第5の実施形態に係る音声認識システム10dが示される。上述した音声認識システム10cが、1台のマイク20cからの1系統の情報を扱う構成であったのに対し、音声認識システム10dは、1台のCCDカメラ22cからの1系統の情報を扱う構成である。以下の説明では、音声認識システム10cと同じ箇所には同一の符号を付し、その詳細な説明を省略する。
音声認識システム10dは、CCDカメラ22cに接続されるとともに、前記音声認識システム10の画像処理部68に相当する画像処理部68cを備える。画像処理部68cは、前記音声認識システム10の画像符号化部49、空間周波数分析部52、画像パターン認識部54、画像辞書62a〜62c、画像辞書格納部64に相当する構成要素を備えている。
音声認識システム10dにおける音声認識処理は、例えば、第1の実施形態に係る音声認識システム10においてCCDカメラ22からの画像データを処理する流れと同様にすることができる。但し、信頼度TPと画像サンプリングレートVrとの関係は反比例となることが好ましい。
第5の実施形態に係る音声認識システム10dによれば、車両(移動体)の状態に応じてサンプリングレートを変更させることができる。このため、車両の状態に応じて音声認識の実効速度を上げるとともに、音声認識処理中の省電力化を図ることが可能となる。また、話者の情報を取得する手段が、CCDカメラ22cのみであるため、簡便且つ廉価に構成することができる。
なお、この発明は、上記実施形態に限らず、この明細書の記載内容に基づき、種々の構成を採り得ることはもちろんである。
例えば、上記実施形態は、いずれも車両の内部で完結するシステムとしたが、これに限られず、例えば、音声パターン認識部50、音声辞書格納部58、画像パターン認識部54、画像辞書格納部64を車外の情報センタに配置し、無線通信を利用して音声認識を行うようにすることも可能である。
また、上記実施形態では、マイク20及びCCDカメラ22の出力の信頼度TP1、TP2が高いほどサンプリングレートを高くする構成としたが、信頼度が高いほどサンプリングレートを低くする構成とすることができる。これにより、省電力を実現しつつ、音声認識の信頼度を高めることが可能となる。この場合、低いサンプリングレートで得られたデータほど高く重み付けすることで、より一層音声認識の信頼度を高めることが可能となる。
更に、マイク20及びCCDカメラ22の出力の信頼度TP1、TP2を求めるのに、ヨーレートY、車速V、エアコン風量T、ワイパ速度W、ウィンド開度O、オーディオ音量A、対象面平均明度L、平均振動Fを用いたが、必ずしもこれら全てのパラメータを用いなくともよい。加えて、日本語、英語等の言語の相違、サンルーフの開度等他のパラメータを用いることもできる。
10、10a〜10d…音声認識システム
12…車両(移動体) 14…搭乗者(話者)
20、20a〜20c…マイク(話者情報取得手段、音声情報取得手段)
22、22a〜22c…CCDカメラ(話者情報取得手段、画像情報取得手段)
24…エアコンコントローラ(状態検出手段)
26…オーディオ(状態検出手段) 28…ナビゲーションシステム
30…エンジンコントローラ(状態検出手段)
32…パネル操作部(状態検出手段) 34…サンルーフコントローラ
36…パワーウィンドコントローラ(状態検出手段)
38…日射センサ(状態検出手段) 42…車速センサ(状態検出手段)
46…音声符号化部(話者情報変換手段、音声情報変換手段)
49…画像符号化部(話者情報変換手段、画像情報変換手段)
50…音声パターン認識部 54…画像パターン認識部
56a〜56c…音声辞書 62a〜62c…画像辞書
70…環境評価/入力検知部(信頼度算出手段及びサンプリングレート算出手段)
74…最終結果演算部
12…車両(移動体) 14…搭乗者(話者)
20、20a〜20c…マイク(話者情報取得手段、音声情報取得手段)
22、22a〜22c…CCDカメラ(話者情報取得手段、画像情報取得手段)
24…エアコンコントローラ(状態検出手段)
26…オーディオ(状態検出手段) 28…ナビゲーションシステム
30…エンジンコントローラ(状態検出手段)
32…パネル操作部(状態検出手段) 34…サンルーフコントローラ
36…パワーウィンドコントローラ(状態検出手段)
38…日射センサ(状態検出手段) 42…車速センサ(状態検出手段)
46…音声符号化部(話者情報変換手段、音声情報変換手段)
49…画像符号化部(話者情報変換手段、画像情報変換手段)
50…音声パターン認識部 54…画像パターン認識部
56a〜56c…音声辞書 62a〜62c…画像辞書
70…環境評価/入力検知部(信頼度算出手段及びサンプリングレート算出手段)
74…最終結果演算部
Claims (5)
- 移動体の状態を検出する状態検出手段と、発話時の話者の情報を取得する話者情報取得手段とが接続された音声認識システムであって、
前記状態検出手段により検出された前記移動体の状態に基づき前記話者情報取得手段により取得された前記話者情報の信頼度を算出する信頼度算出手段と、
前記信頼度算出手段により算出された前記信頼度に基づきサンプリングレートを算出するサンプリングレート算出手段と、
前記話者情報取得手段で取得した前記話者情報を、前記サンプリングレートによりディジタル信号に変換する話者情報変換手段と
を備えることを特徴とする音声認識システム。 - 移動体の状態を検出する状態検出手段と、話者の音声情報を取得する音声情報取得手段と、話者を撮影した画像情報を取得する画像情報取得手段とが接続された音声認識システムであって、
前記状態検出手段により検出された前記移動体の状態に基づき、前記音声情報取得手段により取得された前記音声情報の信頼度と前記画像情報取得手段により取得された前記画像情報の信頼度を算出する信頼度算出手段と、
前記信頼度算出手段により算出された前記音声情報の信頼度及び前記画像情報の信頼度に基づき、それぞれ、音声情報変換用サンプリングレートと画像情報変換用サンプリングレートを算出するサンプリングレート算出手段と、
前記音声情報を、前記音声情報変換用サンプリングレートによりディジタル信号に変換する音声情報変換手段と、
前記画像情報を、前記画像情報変換用サンプリングレートによりディジタル信号に変換する画像情報変換手段と
を備えることを特徴とする音声認識システム。 - 前記移動体が車両である
ことを特徴とする請求項1又は請求項2に記載の音声認識システム。 - 請求項1又は請求項2に記載の音声認識システムを備える
ことを特徴とする移動体。 - 請求項3に記載の音声認識システムを備える
ことを特徴とする車両。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004312381A JP2006126342A (ja) | 2004-10-27 | 2004-10-27 | 音声認識システム、この音声認識システムを備える移動体及び車両 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004312381A JP2006126342A (ja) | 2004-10-27 | 2004-10-27 | 音声認識システム、この音声認識システムを備える移動体及び車両 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006126342A true JP2006126342A (ja) | 2006-05-18 |
Family
ID=36721175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004312381A Pending JP2006126342A (ja) | 2004-10-27 | 2004-10-27 | 音声認識システム、この音声認識システムを備える移動体及び車両 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006126342A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111034222A (zh) * | 2017-08-30 | 2020-04-17 | 松下知识产权经营株式会社 | 拾音装置、拾音方法以及程序 |
WO2021052134A1 (zh) * | 2019-09-17 | 2021-03-25 | 深圳市万普拉斯科技有限公司 | 语音识别方法、装置和移动终端 |
WO2022259564A1 (ja) * | 2021-06-07 | 2022-12-15 | 日本電信電話株式会社 | 情報処理装置、情報処理方法、及びプログラム |
-
2004
- 2004-10-27 JP JP2004312381A patent/JP2006126342A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111034222A (zh) * | 2017-08-30 | 2020-04-17 | 松下知识产权经营株式会社 | 拾音装置、拾音方法以及程序 |
WO2021052134A1 (zh) * | 2019-09-17 | 2021-03-25 | 深圳市万普拉斯科技有限公司 | 语音识别方法、装置和移动终端 |
WO2022259564A1 (ja) * | 2021-06-07 | 2022-12-15 | 日本電信電話株式会社 | 情報処理装置、情報処理方法、及びプログラム |
WO2022259304A1 (ja) * | 2021-06-07 | 2022-12-15 | 日本電信電話株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210065712A1 (en) | Automotive visual speech recognition | |
EP0896319B1 (en) | Recognition apparatus, recognition method, learning apparatus and learning method | |
KR102449007B1 (ko) | 차량 장착 장치, 발언 프로세싱의 방법, 및 프로그램 | |
JP2006030447A (ja) | 音声認識システムと該音声認識システムを備える移動体及び車両 | |
CN107918637B (zh) | 服务提供装置和服务提供方法 | |
US20180033429A1 (en) | Extendable vehicle system | |
EP1400814A2 (en) | Directional setting apparatus, directional setting system, directional setting method and directional setting program | |
US20080188271A1 (en) | Communicating road noise control system, in-vehicle road noise controller, and server | |
US20130339027A1 (en) | Depth based context identification | |
EP1257146B1 (en) | Method and system of sound processing | |
JP2006195302A (ja) | 音声認識システム及びこの音声認識システムを備える車両 | |
KR101800727B1 (ko) | 블랙박스를 이용한 차량제어 시스템 | |
JP2006126342A (ja) | 音声認識システム、この音声認識システムを備える移動体及び車両 | |
JP6785889B2 (ja) | サービス提供装置 | |
JPH11352987A (ja) | 音声認識装置 | |
JP2020157944A (ja) | 車両機器制御装置、車両機器制御方法、およびプログラム | |
JP2019033408A (ja) | 撮像装置およびその制御方法 | |
JP2006030908A (ja) | 車両用音声認識装置及び移動体 | |
JP4190735B2 (ja) | 音声認識方法および装置とナビゲーション装置 | |
JP2006047447A (ja) | 音声入力装置 | |
JP7337965B2 (ja) | 発話者推定装置 | |
WO2023119771A1 (ja) | 音声コマンド受付装置、音声コマンド受付方法およびプログラム | |
JP2009086132A (ja) | 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体 | |
JPH0944183A (ja) | レベル表示装置、音声認識装置およびナビゲーション装置 | |
CN116022077A (zh) | 用于优化驾驶员辅助功能的对3d驾驶员头部位置的基于驾驶员座椅和侧镜的定位 |