JP2006030447A - 音声認識システムと該音声認識システムを備える移動体及び車両 - Google Patents
音声認識システムと該音声認識システムを備える移動体及び車両 Download PDFInfo
- Publication number
- JP2006030447A JP2006030447A JP2004207073A JP2004207073A JP2006030447A JP 2006030447 A JP2006030447 A JP 2006030447A JP 2004207073 A JP2004207073 A JP 2004207073A JP 2004207073 A JP2004207073 A JP 2004207073A JP 2006030447 A JP2006030447 A JP 2006030447A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- feature
- image
- vehicle
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 実環境に対応してより正確に音声認識を実行する音声認識システムと該音声認識システムを備えて利用者の利便性を向上する移動体及び車両を提供する。
【解決手段】 特徴合成部8は、車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14から、車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度を取得する。次に、取得した車速、エアコン風量、オーディオ音量、ヨーレート、車内明度の値と、車両状態を示す対象項目毎に決められた音声及び画像それぞれについてのしきい値とを比較して、入力された利用者の音声及び画像の特徴量を音声認識に利用することが可能か否かを示す信頼度を判定する。そして、特徴合成部8は、利用者の音声の特徴量及び画像の特徴量を信頼度に基づく重み付けにより合成してパターン認識部15へ出力し、パターン認識部15は音声の認識処理を行う。
【選択図】 図1
【解決手段】 特徴合成部8は、車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14から、車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度を取得する。次に、取得した車速、エアコン風量、オーディオ音量、ヨーレート、車内明度の値と、車両状態を示す対象項目毎に決められた音声及び画像それぞれについてのしきい値とを比較して、入力された利用者の音声及び画像の特徴量を音声認識に利用することが可能か否かを示す信頼度を判定する。そして、特徴合成部8は、利用者の音声の特徴量及び画像の特徴量を信頼度に基づく重み付けにより合成してパターン認識部15へ出力し、パターン認識部15は音声の認識処理を行う。
【選択図】 図1
Description
本発明は、利用者の音声を認識するための音声認識システムと該音声認識システムを備える移動体及び車両に関する。
従来、実環境により適した音声認識システムとして、利用者(話者)の音声と該利用者の顔の画像を利用して音声を認識するものがある。具体的には、このシステムでは、音声の信号対雑音電力比(S/N比)が低い状況でも、利用者の発話音声信号から、出力尤度が最大となるように音声隠れマルコフモデル(HMM)を生成する手段と、利用者の唇周辺の画像信号から出力尤度が最大となるように画像隠れマルコフモデル(HMM)を生成する手段と、音声HMMと画像HMMのそれぞれの状態の全ての組み合わせにおいて音声と画像の出力確率の積を計算して、各状態で出力確率の積を含む合成された合成HMMを生成する合成手段と、発話音声信号の特徴量と画像信号の特徴量とを抽出する抽出手段と、抽出された発話音声信号の特徴量及び画像信号の特徴量に基づいて、合成HMMを用いて音声認識を実行する。これにより、音声のみを用いる場合に比較して高い認識性能を得ることができる(例えば、特許文献1参照。)。
特開2002−169586号公報
ところで、車両等の移動体に搭載される車載機器の音声認識システムには、より高い耐ノイズ性が求められる。具体的に説明すると、例えば、従来技術のように利用者の発話音声信号の特徴量及び画像信号の特徴量に基づいて音声認識をする場合でも、移動体において音声認識を実行する場合には、利用者の発話音声に影響を与える移動体自身が発生する音、あるいは装備品の作動音、更には利用者がいる場所の明るさ等、利用者を取り巻く実環境は様々で、移動体の状態にはいろいろな場合があるため、音声認識率を向上させるために、より実環境に応じた音声認識を実行する必要がある。
本発明は、上記課題に鑑みてなされたもので、移動体を取り巻く実環境に対応してより正確に音声認識を実行する音声認識システムと該音声認識システムを備えて利用者の利便性を向上する移動体及び車両を提供することを目的とする。
上記課題を解決するために、請求項1の発明に係る音声認識システムは、移動体の状態を検出する状態検出手段(例えば後述する実施例の車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14)と、話者の音声を含む話者の情報を入力するための情報入力手段(例えば後述する実施例のマイク3、CCDカメラ6)と、前記情報から前記話者に係る特徴量を取得するために複数個用意された特徴取得手段(例えば後述する実施例の音声特徴抽出部5、画像特徴抽出部7)と、前記移動体の状態に基づき前記特徴取得手段により取得された複数の特徴量の各々の信頼度を算出する信頼度算出手段(例えば後述する実施例の特徴合成部8が実行するステップS3の処理)と、前記信頼度に基づき前記複数の特徴量を合成して合成特徴量を算出する合成特徴量算出手段(例えば後述する実施例の特徴合成部8が実行するステップS4の処理)と、前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段(例えば後述する実施例のパターン認識部15)とを備えることを特徴とする。
以上の構成を備えた音声認識システムは、まず、状態検出手段により移動体の状態を検出すると共に、情報入力手段により話者の音声を含む話者に関する情報を取得する。そして、複数個用意された特徴取得手段により話者に関する情報から話者に係る複数の特徴量を取得し、移動体の状態に基づき、信頼度算出手段が特徴取得手段により取得された複数の特徴量の各々の信頼度を算出すると共に、更に該信頼度に基づき合成特徴量算出手段により複数の特徴量を合成して合成特徴量を算出し、音声認識手段が、該合成特徴量に基づき音声の音声認識を行うことで、話者に係る複数の特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
請求項2の発明に係る音声認識システムは、移動体の状態を検出する状態検出手段(例えば後述する実施例の車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14)と、話者の音声を入力するための音声入力手段(例えば後述する実施例のマイク3)と、話者を撮影した画像を入力するための画像入力手段(例えば後述する実施例のCCDカメラ6)と、前記音声から音声特徴量を取得するための音声特徴取得手段(例えば後述する実施例の音声特徴抽出部5)と、前記画像から画像特徴量を取得するための画像特徴取得手段(例えば後述する実施例の画像特徴抽出部7)と、前記移動体の状態に基づき前記音声特徴量及び前記画像特徴量の各々の信頼度を算出する信頼度算出手段(例えば後述する実施例の特徴合成部8が実行するステップS3の処理)と、前記信頼度に基づき前記音声特徴量と前記画像特徴量とを合成して合成特徴量を算出する合成特徴量算出手段(例えば後述する実施例の特徴合成部8が実行するステップS4の処理)と、前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段(例えば後述する実施例のパターン認識部15)とを備えることを特徴とする。
以上の構成を備えた音声認識システムは、まず、状態検出手段により移動体の状態を検出すると共に、音声入力手段により話者の音声を取得し、更に画像入力手段により話者に関する画像を取得する。そして、音声特徴取得手段により話者の音声から音声特徴量を取得し、一方画像特徴取得手段により話者の画像から画像特徴量を取得し、移動体の状態に基づき、信頼度算出手段が音声特徴量及び画像特徴量の各々の信頼度を算出すると共に、更に該信頼度に基づき合成特徴量算出手段により音声特徴量と画像特徴量とを合成して合成特徴量を算出し、音声認識手段が、該合成特徴量に基づき音声の音声認識を行うことで、話者に係る音声特徴量及び画像特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る音声特徴量と画像特徴量との合成方法を変更して適切に音声特徴量と画像特徴量とを合成することができる。
請求項3の発明に係る音声認識システムは、請求項1、または請求項2に記載の音声認識システムにおいて、前記移動体が車両であることを特徴とする。
以上の構成を備えた音声認識システムは、話者に係る特徴量を用いた音声認識を実行する場合に、車両の状態に基づく信頼度を用いて、話者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
請求項4の発明に係る移動体は、請求項1、または請求項2に記載の音声認識システムを備えることを特徴とする。
以上の構成を備えた移動体は、請求項1、または請求項2に記載の音声認識システムを備えることにより、利用者に、例えば移動体に搭載された機器の操作を、音声により正確に実行させることができる。
請求項5の発明に係る車両は、請求項3に記載の音声認識システムを備えることを特徴とする。
以上の構成を備えた車両は、請求項3に記載の音声認識システムを備えることにより、利用者に、例えば車載機器の操作を、音声により正確に実行させることができる。
請求項1に記載の音声認識システムによれば、話者に係る複数の特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
従って、音声認識に利用する話者に係る複数の特徴量を移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
従って、音声認識に利用する話者に係る複数の特徴量を移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
請求項2に記載の音声認識システムによれば、話者に係る音声特徴量及び画像特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る音声特徴量と画像特徴量との合成方法を変更して適切に音声特徴量と画像特徴量とを合成することができる。
従って、音声認識に利用する話者に係る音声特徴量と画像特徴量とを移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
従って、音声認識に利用する話者に係る音声特徴量と画像特徴量とを移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
請求項3に記載の音声認識システムによれば、話者に係る特徴量を用いた音声認識を実行する場合に、車両の状態に基づく信頼度を用いて、話者に係る特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
従って、音声認識に利用する話者に係る複数の特徴量を車両の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
従って、音声認識に利用する話者に係る複数の特徴量を車両の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
請求項4に記載の移動体によれば、利用者に、例えば移動体に搭載された機器の操作を、音声により正確に実行させることができる。
従って、移動体を利用する利用者の利便性を向上することができるという効果が得られる。
従って、移動体を利用する利用者の利便性を向上することができるという効果が得られる。
請求項5に記載の車両によれば、利用者に、例えば車載機器の操作を、音声により正確に実行させることができる。
従って、車両を利用する利用者の利便性を向上することができるという効果が得られる。
従って、車両を利用する利用者の利便性を向上することができるという効果が得られる。
以下、図面を参照して本発明の実施例について説明する。
(装置構成)
図1は、本発明の一実施例の音声認識システムの全体構成を示すブロック図である。本実施例の音声認識システムは、移動体に搭載して利用することが有用であるが、説明の簡単化のために、一例としてここでは音声認識システムが車両に搭載された場合について説明する。
図1において、本実施例の音声認識システムは、音声入力時に利用者により操作される入力開始スイッチ1と、入力開始スイッチ1からの信号を取得して利用者による音声入力が開始されたことを検知する入力検知部2とを備えている。
図1は、本発明の一実施例の音声認識システムの全体構成を示すブロック図である。本実施例の音声認識システムは、移動体に搭載して利用することが有用であるが、説明の簡単化のために、一例としてここでは音声認識システムが車両に搭載された場合について説明する。
図1において、本実施例の音声認識システムは、音声入力時に利用者により操作される入力開始スイッチ1と、入力開始スイッチ1からの信号を取得して利用者による音声入力が開始されたことを検知する入力検知部2とを備えている。
また、本実施例の音声認識システムは、利用者の音声を入力するためのマイク3を備えており、マイク3から入力された利用者のアナログ音声はA/D変換部4を介してデジタル化された後、音声特徴抽出部5に入力される。そして、音声特徴抽出部5では、例えばケプストラム分析が行われ利用者の音声の特徴量が抽出される。
一方、本実施例の音声認識システムは、利用者の顔、特に口元の画像を撮影するためのCCDカメラ6を備えており、CCDカメラ6から入力された利用者の画像は、画像特徴抽出部7に入力される。そして、画像特徴抽出部7では、音声特徴抽出部5と同様に、例えばケプストラム分析が行われ利用者の画像の特徴量が抽出される。
また、入力検知部2と、音声特徴抽出部5と、画像特徴抽出部7は、特徴合成部8に接続されており、入力検知部2が利用者による音声入力が開始されたことを検知すると、音声特徴抽出部5から入力された利用者の音声の特徴量と画像特徴抽出部7から入力された利用者の画像の特徴量とが、本実施例の音声認識システムが搭載された車両の状態に基づいて合成される。
また、入力検知部2と、音声特徴抽出部5と、画像特徴抽出部7は、特徴合成部8に接続されており、入力検知部2が利用者による音声入力が開始されたことを検知すると、音声特徴抽出部5から入力された利用者の音声の特徴量と画像特徴抽出部7から入力された利用者の画像の特徴量とが、本実施例の音声認識システムが搭載された車両の状態に基づいて合成される。
具体的には、しきい値記憶部9に予め記憶されている、例えば音声及び画像それぞれについての車速しきい値、エアコン風量しきい値、オーディオ音量しきい値、ヨーレートしきい値、明度しきい値等、車両状態を示す対象項目毎に決められた音声及び画像についてのしきい値と、例えば車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14からそれぞれ取得した、実際の車両状態を示す車両状態数値である車速、エアコン風量、オーディオ音量、ヨーレート、車内明度とが比較されて利用者の音声の特徴量、あるいは利用者の画像の特徴量の信頼度が判定されると共に、判定された信頼度に基づく重み付けにより、利用者の音声の特徴量と利用者の画像の特徴量とが合成される。なお、利用者の音声の特徴量と利用者の画像の特徴量との合成方法の詳細は後述する。
なお、車速センサ10は、本実施例の音声認識システムが搭載された車両の走行速度を検出するセンサである。また、エアコンECU11は、本実施例の音声認識システムが搭載された車両の車室内の空調装置を制御するECU(Electronic Control Unit )である。同様に、オーディオECU12は、本実施例の音声認識システムが搭載された車両の車室内の音響装置を制御するECUである。更に、ヨーレートセンサ13は、本実施例の音声認識システムが搭載された車両のヨーレートを検出するセンサある。そして、明度センサ14は、本実施例の音声認識システムが搭載された車両の車内明度を検出するセンサである。
また、特徴合成部8において合成された利用者の特徴量は、パターン認識部15に入力される。そして、パターン認識部15では、入力された利用者の特徴量と音響モデルに基づいて入力された音素を決定すると共に、決定された音素から、入力されたディジタル音声信号を認識し、結果は結果格納部16へ格納される。
(音声認識処理)
次に、本実施例の音声認識システムの動作について図面を参照して詳細に説明する。図2は、本実施例の音声認識システムの音声認識処理動作を示すフローチャートである。
図2において、まず入力検知部2が、マイク3から利用者による音声入力が開始されたことを検知すると(ステップS1)、特徴合成部8は、車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14から、実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度を取得する(ステップS2)。
次に、本実施例の音声認識システムの動作について図面を参照して詳細に説明する。図2は、本実施例の音声認識システムの音声認識処理動作を示すフローチャートである。
図2において、まず入力検知部2が、マイク3から利用者による音声入力が開始されたことを検知すると(ステップS1)、特徴合成部8は、車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14から、実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度を取得する(ステップS2)。
次に、特徴合成部8は、内部に設けられた音声認識部及び画像認識部それぞれにおいて、各センサあるいはECUから取得した実際の車両状態を示す車両状態数値である車速、エアコン風量、オーディオ音量、ヨーレート、車内明度と、車両状態を示す対象項目毎に決められた音声及び画像それぞれについてのしきい値とを比較して、入力された利用者の音声の特徴量、及び利用者の画像の特徴量を音声認識に利用することが可能であるか否かを示す信頼度を算出する(ステップS3)。
具体的に、ステップS3では、下記表1、表2に示すように、ステップS1で取得した実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度と、しきい値記憶部9に予め記憶されている、音声及び画像それぞれについての車速しきい値、エアコン風量しきい値、オーディオ音量しきい値、ヨーレートしきい値、明度しきい値とを比較して、入力された利用者の音声の特徴量、及び利用者の画像の特徴量を音声認識に利用することが可能であるか否かを示す信頼度を判定する。なお、下記表1は、利用者の音声の特徴量の信頼度が低い場合の例であって、表2は、利用者の音声の特徴量及び利用者の画像の特徴量共に信頼度が高い場合の例である。
例えば、表1では、音声についての車速のしきい値は最大60であるのに対して、車速センサ10の出力値が65であるので、音声に関する判定は「×」である。一方、画像についての車速のしきい値は最大80であるのに対して、車速センサ10の出力値が65であるので、画像に関する判定は「○」である。そして、表1の例では、音声に関して「×」が2つあるので、利用者の音声の特徴量の信頼度は低いと判定する。
そして、特徴合成部8は、利用者の音声の特徴量と利用者の画像の特徴量とを、判定した信頼度に基づく重み付けにより合成し、パターン認識部15へ出力する(ステップS4)。具体的には、利用者の音声の特徴量をAf、利用者の画像の特徴量をGfとすると、利用者の音声の特徴量Af及び利用者の画像の特徴量Gfの信頼度が共に高い場合、合成特徴量Mfは、下記(1)式により算出する。
Mf=Af+Gf ・・・(1)
また、利用者の音声の特徴量Afの信頼度が低く、利用者の画像の特徴量Gfの信頼度が高い場合、合成特徴量Mfは、下記(2)式により算出する。
Mf=0.5×Af+Gf ・・・(2)
また、利用者の音声の特徴量Afの信頼度が高く、利用者の画像の特徴量Gfの信頼度が低い場合、合成特徴量Mfは、下記(3)式により算出する。
Mf=Af ・・・(3)
例えば、利用者の音声の特徴量Af={4、6、4、2}とし、利用者の画像の特徴量Gf={2、1、3、3}とした場合、(1)式の結果は以下のようになる。
Mf=Af+Gf={4+2、6+1、4+3、2+3}={6、7、7、5}
また、(2)式の結果は以下のようになる。
Mf=0.5×Af+Gf={2+2、3+1、2+3、1+3}={4、4、5、4}
また、(3)式の結果は以下のようになる。
Mf=Af={2、1、3、3}
そして、最後にパターン認識部15が認識処理を行い、結果格納部16に音声の認識結果を格納する(ステップS5)。
なお、本実施例では、音声特徴抽出部5、画像特徴抽出部7、特徴合成部8、及びパターン認識部15のいずれか、あるいは全ては、必ずしも車両に搭載されている必要はなく、車両と無線通信によって接続された情報センタに配置されても良い。すなわち、入力された利用者の音声や画像、あるいは利用者の音声の特徴量、利用者の画像の特徴量、更には車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14が出力する実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度、そして音声の認識結果を、情報センタに配置された構成要素の内容や種類に基づき、必要に応じて無線通信装置により情報センタへ送信したり、情報センタから受信したりして、本実施例で説明した情報の流れを構成することにより、車両側で実行するには車両の電源等の設備に負荷が大きすぎる処理や、音声認識処理自体を短時間で完了させるために高速化する必要がある処理を情報センタ側で実行し、音声認識処理の性能を向上させることができる。
また、本実施例では、説明の簡単化のために、音声認識に利用する利用者(話者)の情報を、利用者の音声と画像の特徴量として説明したが、音声認識に利用する利用者(話者)の情報は、利用者の音声の特徴量と利用者の画像の特徴量のいずれか一方でも良いし、あるいは利用者の特徴を示すその他の特徴量だけでも良いし、あるいは利用者の音声や画像の特徴量と利用者の特徴を示すその他の特徴量との組み合わせでも良い。
また、音声認識に利用する利用者(話者)の情報を1つの情報とする場合は、1つの情報に対して抽出アルゴリズムを変更した複数の特徴量を算出し、これを車両の状態に応じたそれぞれの信頼度に基づいて適切に合成することにより、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させるようにする。
また、音声認識に利用する利用者(話者)の情報を1つの情報とする場合は、1つの情報に対して抽出アルゴリズムを変更した複数の特徴量を算出し、これを車両の状態に応じたそれぞれの信頼度に基づいて適切に合成することにより、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させるようにする。
更に、本実施例では、説明の簡単化のために、本実施例の音声認識システムを搭載する移動体を車両として説明したが、移動体は車両に限らず、船舶や飛行機等、どのような移動体であっても良い。
また、本実施例では、特徴合成部8が、信頼度算出手段と、合成特徴量算出手段とを備えている。具体的には、特徴合成部8が実行するステップS3の処理が信頼度算出手段に相当し、特徴合成部8が実行するステップS4の処理が合成特徴量算出手段に相当する。
以上説明したように、本実施例の音声認識システムによれば、入力検知部2が、マイク3から利用者による音声入力が開始されたことを検知すると、特徴合成部8は、車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14から、実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度を取得する。次に、特徴合成部8は、各センサあるいはECUから取得した車速、エアコン風量、オーディオ音量、ヨーレート、車内明度等の実際の車両状態を示す車両状態数値と、車両状態を示す対象項目毎に決められた音声及び画像それぞれについてのしきい値とを比較して、入力された利用者の音声の特徴量、及び利用者の画像の特徴量を音声認識に利用することが可能であるか否かを示す信頼度を判定する。そして、特徴合成部8は、利用者の音声の特徴量と利用者の画像の特徴量とを、判定した信頼度に基づく重み付けにより合成してパターン認識部15へ出力し、パターン認識部15は認識処理を行い、結果格納部16に音声の認識結果を格納する。
このように、本実施例の音声認識システムは、利用者(話者)に係る複数の特徴量を用いた音声認識を実行する場合に、車両等の移動体の状態に基づく信頼度を用いて、利用者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
従って、音声認識に利用する利用者に係る複数の特徴量を移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
従って、音声認識に利用する利用者に係る複数の特徴量を移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
また、本実施例の音声認識システムを搭載した車両等の移動体では、利用者に、例えば移動体に搭載された機器の操作を、音声により正確に実行させることができるようになり、移動体を利用する利用者の利便性を向上することができるという効果が得られる。
3 マイク(情報入力手段、音声入力手段)
5 音声特徴抽出部(特徴取得手段、音声特徴取得手段)
6 CCDカメラ(情報入力手段、画像入力手段)
7 画像特徴抽出部(特徴取得手段、画像特徴取得手段)
8 特徴合成部
10 車速センサ(状態検出手段)
11 エアコンECU(状態検出手段)
12 オーディオECU(状態検出手段)
13 ヨーレートセンサ(状態検出手段)
14 明度センサ(状態検出手段)
15 パターン認識部(音声認識手段)
S3 信頼度算出手段
S4 合成特徴量算出手段
5 音声特徴抽出部(特徴取得手段、音声特徴取得手段)
6 CCDカメラ(情報入力手段、画像入力手段)
7 画像特徴抽出部(特徴取得手段、画像特徴取得手段)
8 特徴合成部
10 車速センサ(状態検出手段)
11 エアコンECU(状態検出手段)
12 オーディオECU(状態検出手段)
13 ヨーレートセンサ(状態検出手段)
14 明度センサ(状態検出手段)
15 パターン認識部(音声認識手段)
S3 信頼度算出手段
S4 合成特徴量算出手段
Claims (5)
- 移動体の状態を検出する状態検出手段と、
話者の音声を含む話者の情報を入力するための情報入力手段と、
前記情報から前記話者に係る特徴量を取得するために複数個用意された特徴取得手段と、
前記移動体の状態に基づき前記特徴取得手段により取得された複数の特徴量の各々の信頼度を算出する信頼度算出手段と、
前記信頼度に基づき前記複数の特徴量を合成して合成特徴量を算出する合成特徴量算出手段と、
前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段と
を備えることを特徴とする音声認識システム。 - 移動体の状態を検出する状態検出手段と、
話者の音声を入力するための音声入力手段と、
話者を撮影した画像を入力するための画像入力手段と、
前記音声から音声特徴量を取得するための音声特徴取得手段と、
前記画像から画像特徴量を取得するための画像特徴取得手段と、
前記移動体の状態に基づき前記音声特徴量及び前記画像特徴量の各々の信頼度を算出する信頼度算出手段と、
前記信頼度に基づき前記音声特徴量と前記画像特徴量とを合成して合成特徴量を算出する合成特徴量算出手段と、
前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段と
を備えることを特徴とする音声認識システム。 - 前記移動体が車両である
ことを特徴とする請求項1、または請求項2に記載の音声認識システム。 - 請求項1、または請求項2に記載の音声認識システムを備えることを特徴とする移動体。
- 請求項3に記載の音声認識システムを備えることを特徴とする車両。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004207073A JP2006030447A (ja) | 2004-07-14 | 2004-07-14 | 音声認識システムと該音声認識システムを備える移動体及び車両 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004207073A JP2006030447A (ja) | 2004-07-14 | 2004-07-14 | 音声認識システムと該音声認識システムを備える移動体及び車両 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006030447A true JP2006030447A (ja) | 2006-02-02 |
Family
ID=35896903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004207073A Withdrawn JP2006030447A (ja) | 2004-07-14 | 2004-07-14 | 音声認識システムと該音声認識システムを備える移動体及び車両 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006030447A (ja) |
Cited By (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053690A (ja) * | 2009-09-03 | 2011-03-17 | Honda Motor Co Ltd | コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット |
WO2016039992A1 (en) * | 2014-09-12 | 2016-03-17 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN106981201A (zh) * | 2017-05-11 | 2017-07-25 | 南宁市正祥科技有限公司 | 复杂环境下的车辆识别方法 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10373617B2 (en) | 2014-05-30 | 2019-08-06 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
-
2004
- 2004-07-14 JP JP2004207073A patent/JP2006030447A/ja not_active Withdrawn
Cited By (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP2011053690A (ja) * | 2009-09-03 | 2011-03-17 | Honda Motor Co Ltd | コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10373617B2 (en) | 2014-05-30 | 2019-08-06 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
JP2017537361A (ja) * | 2014-09-12 | 2017-12-14 | アップル インコーポレイテッド | 発語トリガを常時リッスンするための動的閾値 |
WO2016039992A1 (en) * | 2014-09-12 | 2016-03-17 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN106981201A (zh) * | 2017-05-11 | 2017-07-25 | 南宁市正祥科技有限公司 | 复杂环境下的车辆识别方法 |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006030447A (ja) | 音声認識システムと該音声認識システムを備える移動体及び車両 | |
JP6466385B2 (ja) | サービス提供装置、サービス提供方法およびサービス提供プログラム | |
CN104011735B (zh) | 基于车辆的对乘员音频和可视输入的确定 | |
KR100578260B1 (ko) | 인식장치및인식방법과,학습장치및학습방법 | |
CN106796786B (zh) | 语音识别系统 | |
US8442820B2 (en) | Combined lip reading and voice recognition multimodal interface system | |
EP1879000A1 (en) | Transmission of text messages by navigation systems | |
US20140129222A1 (en) | Speech recognition system, recognition dictionary registration system, and acoustic model identifier series generation apparatus | |
JP2020091302A (ja) | 感情推定装置、感情推定方法、およびプログラム | |
WO2011122521A1 (ja) | 情報表示システム、情報表示方法及びプログラム | |
JP6214297B2 (ja) | ナビゲーション装置および方法 | |
CN112289325A (zh) | 一种声纹识别方法及装置 | |
CN105810210B (zh) | 声音信号处理装置及其方法与配备有该装置的车辆 | |
CN111556826A (zh) | 声音识别装置、声音识别系统及声音识别方法 | |
CN112585674A (zh) | 信息处理装置、信息处理方法和程序 | |
JP3654045B2 (ja) | 音声認識装置 | |
JP2009258366A (ja) | 音声制御装置 | |
JP4539634B2 (ja) | エンジン音加工装置 | |
JP6785889B2 (ja) | サービス提供装置 | |
JP2005354223A (ja) | 音源情報処理装置、音源情報処理方法、音源情報処理プログラム | |
WO2006025106A1 (ja) | 音声認識システム、音声認識方法およびそのプログラム | |
JP2011180416A (ja) | 音声合成装置、音声合成方法およびカーナビゲーションシステム | |
JP2000010589A (ja) | 車両用音声認識装置 | |
JP2019191477A (ja) | 音声認識装置及び音声認識方法 | |
WO2022239142A1 (ja) | 音声認識装置及び音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071002 |