JP2006030447A - 音声認識システムと該音声認識システムを備える移動体及び車両 - Google Patents

音声認識システムと該音声認識システムを備える移動体及び車両 Download PDF

Info

Publication number
JP2006030447A
JP2006030447A JP2004207073A JP2004207073A JP2006030447A JP 2006030447 A JP2006030447 A JP 2006030447A JP 2004207073 A JP2004207073 A JP 2004207073A JP 2004207073 A JP2004207073 A JP 2004207073A JP 2006030447 A JP2006030447 A JP 2006030447A
Authority
JP
Japan
Prior art keywords
voice
feature
image
vehicle
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004207073A
Other languages
English (en)
Inventor
Yoichi Kitano
陽一 北野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2004207073A priority Critical patent/JP2006030447A/ja
Publication of JP2006030447A publication Critical patent/JP2006030447A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 実環境に対応してより正確に音声認識を実行する音声認識システムと該音声認識システムを備えて利用者の利便性を向上する移動体及び車両を提供する。
【解決手段】 特徴合成部8は、車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14から、車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度を取得する。次に、取得した車速、エアコン風量、オーディオ音量、ヨーレート、車内明度の値と、車両状態を示す対象項目毎に決められた音声及び画像それぞれについてのしきい値とを比較して、入力された利用者の音声及び画像の特徴量を音声認識に利用することが可能か否かを示す信頼度を判定する。そして、特徴合成部8は、利用者の音声の特徴量及び画像の特徴量を信頼度に基づく重み付けにより合成してパターン認識部15へ出力し、パターン認識部15は音声の認識処理を行う。
【選択図】 図1

Description

本発明は、利用者の音声を認識するための音声認識システムと該音声認識システムを備える移動体及び車両に関する。
従来、実環境により適した音声認識システムとして、利用者(話者)の音声と該利用者の顔の画像を利用して音声を認識するものがある。具体的には、このシステムでは、音声の信号対雑音電力比(S/N比)が低い状況でも、利用者の発話音声信号から、出力尤度が最大となるように音声隠れマルコフモデル(HMM)を生成する手段と、利用者の唇周辺の画像信号から出力尤度が最大となるように画像隠れマルコフモデル(HMM)を生成する手段と、音声HMMと画像HMMのそれぞれの状態の全ての組み合わせにおいて音声と画像の出力確率の積を計算して、各状態で出力確率の積を含む合成された合成HMMを生成する合成手段と、発話音声信号の特徴量と画像信号の特徴量とを抽出する抽出手段と、抽出された発話音声信号の特徴量及び画像信号の特徴量に基づいて、合成HMMを用いて音声認識を実行する。これにより、音声のみを用いる場合に比較して高い認識性能を得ることができる(例えば、特許文献1参照。)。
特開2002−169586号公報
ところで、車両等の移動体に搭載される車載機器の音声認識システムには、より高い耐ノイズ性が求められる。具体的に説明すると、例えば、従来技術のように利用者の発話音声信号の特徴量及び画像信号の特徴量に基づいて音声認識をする場合でも、移動体において音声認識を実行する場合には、利用者の発話音声に影響を与える移動体自身が発生する音、あるいは装備品の作動音、更には利用者がいる場所の明るさ等、利用者を取り巻く実環境は様々で、移動体の状態にはいろいろな場合があるため、音声認識率を向上させるために、より実環境に応じた音声認識を実行する必要がある。
本発明は、上記課題に鑑みてなされたもので、移動体を取り巻く実環境に対応してより正確に音声認識を実行する音声認識システムと該音声認識システムを備えて利用者の利便性を向上する移動体及び車両を提供することを目的とする。
上記課題を解決するために、請求項1の発明に係る音声認識システムは、移動体の状態を検出する状態検出手段(例えば後述する実施例の車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14)と、話者の音声を含む話者の情報を入力するための情報入力手段(例えば後述する実施例のマイク3、CCDカメラ6)と、前記情報から前記話者に係る特徴量を取得するために複数個用意された特徴取得手段(例えば後述する実施例の音声特徴抽出部5、画像特徴抽出部7)と、前記移動体の状態に基づき前記特徴取得手段により取得された複数の特徴量の各々の信頼度を算出する信頼度算出手段(例えば後述する実施例の特徴合成部8が実行するステップS3の処理)と、前記信頼度に基づき前記複数の特徴量を合成して合成特徴量を算出する合成特徴量算出手段(例えば後述する実施例の特徴合成部8が実行するステップS4の処理)と、前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段(例えば後述する実施例のパターン認識部15)とを備えることを特徴とする。
以上の構成を備えた音声認識システムは、まず、状態検出手段により移動体の状態を検出すると共に、情報入力手段により話者の音声を含む話者に関する情報を取得する。そして、複数個用意された特徴取得手段により話者に関する情報から話者に係る複数の特徴量を取得し、移動体の状態に基づき、信頼度算出手段が特徴取得手段により取得された複数の特徴量の各々の信頼度を算出すると共に、更に該信頼度に基づき合成特徴量算出手段により複数の特徴量を合成して合成特徴量を算出し、音声認識手段が、該合成特徴量に基づき音声の音声認識を行うことで、話者に係る複数の特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
請求項2の発明に係る音声認識システムは、移動体の状態を検出する状態検出手段(例えば後述する実施例の車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14)と、話者の音声を入力するための音声入力手段(例えば後述する実施例のマイク3)と、話者を撮影した画像を入力するための画像入力手段(例えば後述する実施例のCCDカメラ6)と、前記音声から音声特徴量を取得するための音声特徴取得手段(例えば後述する実施例の音声特徴抽出部5)と、前記画像から画像特徴量を取得するための画像特徴取得手段(例えば後述する実施例の画像特徴抽出部7)と、前記移動体の状態に基づき前記音声特徴量及び前記画像特徴量の各々の信頼度を算出する信頼度算出手段(例えば後述する実施例の特徴合成部8が実行するステップS3の処理)と、前記信頼度に基づき前記音声特徴量と前記画像特徴量とを合成して合成特徴量を算出する合成特徴量算出手段(例えば後述する実施例の特徴合成部8が実行するステップS4の処理)と、前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段(例えば後述する実施例のパターン認識部15)とを備えることを特徴とする。
以上の構成を備えた音声認識システムは、まず、状態検出手段により移動体の状態を検出すると共に、音声入力手段により話者の音声を取得し、更に画像入力手段により話者に関する画像を取得する。そして、音声特徴取得手段により話者の音声から音声特徴量を取得し、一方画像特徴取得手段により話者の画像から画像特徴量を取得し、移動体の状態に基づき、信頼度算出手段が音声特徴量及び画像特徴量の各々の信頼度を算出すると共に、更に該信頼度に基づき合成特徴量算出手段により音声特徴量と画像特徴量とを合成して合成特徴量を算出し、音声認識手段が、該合成特徴量に基づき音声の音声認識を行うことで、話者に係る音声特徴量及び画像特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る音声特徴量と画像特徴量との合成方法を変更して適切に音声特徴量と画像特徴量とを合成することができる。
請求項3の発明に係る音声認識システムは、請求項1、または請求項2に記載の音声認識システムにおいて、前記移動体が車両であることを特徴とする。
以上の構成を備えた音声認識システムは、話者に係る特徴量を用いた音声認識を実行する場合に、車両の状態に基づく信頼度を用いて、話者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
請求項4の発明に係る移動体は、請求項1、または請求項2に記載の音声認識システムを備えることを特徴とする。
以上の構成を備えた移動体は、請求項1、または請求項2に記載の音声認識システムを備えることにより、利用者に、例えば移動体に搭載された機器の操作を、音声により正確に実行させることができる。
請求項5の発明に係る車両は、請求項3に記載の音声認識システムを備えることを特徴とする。
以上の構成を備えた車両は、請求項3に記載の音声認識システムを備えることにより、利用者に、例えば車載機器の操作を、音声により正確に実行させることができる。
請求項1に記載の音声認識システムによれば、話者に係る複数の特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
従って、音声認識に利用する話者に係る複数の特徴量を移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
請求項2に記載の音声認識システムによれば、話者に係る音声特徴量及び画像特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る音声特徴量と画像特徴量との合成方法を変更して適切に音声特徴量と画像特徴量とを合成することができる。
従って、音声認識に利用する話者に係る音声特徴量と画像特徴量とを移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
請求項3に記載の音声認識システムによれば、話者に係る特徴量を用いた音声認識を実行する場合に、車両の状態に基づく信頼度を用いて、話者に係る特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
従って、音声認識に利用する話者に係る複数の特徴量を車両の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
請求項4に記載の移動体によれば、利用者に、例えば移動体に搭載された機器の操作を、音声により正確に実行させることができる。
従って、移動体を利用する利用者の利便性を向上することができるという効果が得られる。
請求項5に記載の車両によれば、利用者に、例えば車載機器の操作を、音声により正確に実行させることができる。
従って、車両を利用する利用者の利便性を向上することができるという効果が得られる。
以下、図面を参照して本発明の実施例について説明する。
(装置構成)
図1は、本発明の一実施例の音声認識システムの全体構成を示すブロック図である。本実施例の音声認識システムは、移動体に搭載して利用することが有用であるが、説明の簡単化のために、一例としてここでは音声認識システムが車両に搭載された場合について説明する。
図1において、本実施例の音声認識システムは、音声入力時に利用者により操作される入力開始スイッチ1と、入力開始スイッチ1からの信号を取得して利用者による音声入力が開始されたことを検知する入力検知部2とを備えている。
また、本実施例の音声認識システムは、利用者の音声を入力するためのマイク3を備えており、マイク3から入力された利用者のアナログ音声はA/D変換部4を介してデジタル化された後、音声特徴抽出部5に入力される。そして、音声特徴抽出部5では、例えばケプストラム分析が行われ利用者の音声の特徴量が抽出される。
一方、本実施例の音声認識システムは、利用者の顔、特に口元の画像を撮影するためのCCDカメラ6を備えており、CCDカメラ6から入力された利用者の画像は、画像特徴抽出部7に入力される。そして、画像特徴抽出部7では、音声特徴抽出部5と同様に、例えばケプストラム分析が行われ利用者の画像の特徴量が抽出される。
また、入力検知部2と、音声特徴抽出部5と、画像特徴抽出部7は、特徴合成部8に接続されており、入力検知部2が利用者による音声入力が開始されたことを検知すると、音声特徴抽出部5から入力された利用者の音声の特徴量と画像特徴抽出部7から入力された利用者の画像の特徴量とが、本実施例の音声認識システムが搭載された車両の状態に基づいて合成される。
具体的には、しきい値記憶部9に予め記憶されている、例えば音声及び画像それぞれについての車速しきい値、エアコン風量しきい値、オーディオ音量しきい値、ヨーレートしきい値、明度しきい値等、車両状態を示す対象項目毎に決められた音声及び画像についてのしきい値と、例えば車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14からそれぞれ取得した、実際の車両状態を示す車両状態数値である車速、エアコン風量、オーディオ音量、ヨーレート、車内明度とが比較されて利用者の音声の特徴量、あるいは利用者の画像の特徴量の信頼度が判定されると共に、判定された信頼度に基づく重み付けにより、利用者の音声の特徴量と利用者の画像の特徴量とが合成される。なお、利用者の音声の特徴量と利用者の画像の特徴量との合成方法の詳細は後述する。
なお、車速センサ10は、本実施例の音声認識システムが搭載された車両の走行速度を検出するセンサである。また、エアコンECU11は、本実施例の音声認識システムが搭載された車両の車室内の空調装置を制御するECU(Electronic Control Unit )である。同様に、オーディオECU12は、本実施例の音声認識システムが搭載された車両の車室内の音響装置を制御するECUである。更に、ヨーレートセンサ13は、本実施例の音声認識システムが搭載された車両のヨーレートを検出するセンサある。そして、明度センサ14は、本実施例の音声認識システムが搭載された車両の車内明度を検出するセンサである。
また、特徴合成部8において合成された利用者の特徴量は、パターン認識部15に入力される。そして、パターン認識部15では、入力された利用者の特徴量と音響モデルに基づいて入力された音素を決定すると共に、決定された音素から、入力されたディジタル音声信号を認識し、結果は結果格納部16へ格納される。
(音声認識処理)
次に、本実施例の音声認識システムの動作について図面を参照して詳細に説明する。図2は、本実施例の音声認識システムの音声認識処理動作を示すフローチャートである。
図2において、まず入力検知部2が、マイク3から利用者による音声入力が開始されたことを検知すると(ステップS1)、特徴合成部8は、車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14から、実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度を取得する(ステップS2)。
次に、特徴合成部8は、内部に設けられた音声認識部及び画像認識部それぞれにおいて、各センサあるいはECUから取得した実際の車両状態を示す車両状態数値である車速、エアコン風量、オーディオ音量、ヨーレート、車内明度と、車両状態を示す対象項目毎に決められた音声及び画像それぞれについてのしきい値とを比較して、入力された利用者の音声の特徴量、及び利用者の画像の特徴量を音声認識に利用することが可能であるか否かを示す信頼度を算出する(ステップS3)。
具体的に、ステップS3では、下記表1、表2に示すように、ステップS1で取得した実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度と、しきい値記憶部9に予め記憶されている、音声及び画像それぞれについての車速しきい値、エアコン風量しきい値、オーディオ音量しきい値、ヨーレートしきい値、明度しきい値とを比較して、入力された利用者の音声の特徴量、及び利用者の画像の特徴量を音声認識に利用することが可能であるか否かを示す信頼度を判定する。なお、下記表1は、利用者の音声の特徴量の信頼度が低い場合の例であって、表2は、利用者の音声の特徴量及び利用者の画像の特徴量共に信頼度が高い場合の例である。
例えば、表1では、音声についての車速のしきい値は最大60であるのに対して、車速センサ10の出力値が65であるので、音声に関する判定は「×」である。一方、画像についての車速のしきい値は最大80であるのに対して、車速センサ10の出力値が65であるので、画像に関する判定は「○」である。そして、表1の例では、音声に関して「×」が2つあるので、利用者の音声の特徴量の信頼度は低いと判定する。
Figure 2006030447
Figure 2006030447
そして、特徴合成部8は、利用者の音声の特徴量と利用者の画像の特徴量とを、判定した信頼度に基づく重み付けにより合成し、パターン認識部15へ出力する(ステップS4)。具体的には、利用者の音声の特徴量をAf、利用者の画像の特徴量をGfとすると、利用者の音声の特徴量Af及び利用者の画像の特徴量Gfの信頼度が共に高い場合、合成特徴量Mfは、下記(1)式により算出する。
Mf=Af+Gf ・・・(1)
また、利用者の音声の特徴量Afの信頼度が低く、利用者の画像の特徴量Gfの信頼度が高い場合、合成特徴量Mfは、下記(2)式により算出する。
Mf=0.5×Af+Gf ・・・(2)
また、利用者の音声の特徴量Afの信頼度が高く、利用者の画像の特徴量Gfの信頼度が低い場合、合成特徴量Mfは、下記(3)式により算出する。
Mf=Af ・・・(3)
例えば、利用者の音声の特徴量Af={4、6、4、2}とし、利用者の画像の特徴量Gf={2、1、3、3}とした場合、(1)式の結果は以下のようになる。
Mf=Af+Gf={4+2、6+1、4+3、2+3}={6、7、7、5}
また、(2)式の結果は以下のようになる。
Mf=0.5×Af+Gf={2+2、3+1、2+3、1+3}={4、4、5、4}
また、(3)式の結果は以下のようになる。
Mf=Af={2、1、3、3}
そして、最後にパターン認識部15が認識処理を行い、結果格納部16に音声の認識結果を格納する(ステップS5)。
なお、本実施例では、音声特徴抽出部5、画像特徴抽出部7、特徴合成部8、及びパターン認識部15のいずれか、あるいは全ては、必ずしも車両に搭載されている必要はなく、車両と無線通信によって接続された情報センタに配置されても良い。すなわち、入力された利用者の音声や画像、あるいは利用者の音声の特徴量、利用者の画像の特徴量、更には車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14が出力する実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度、そして音声の認識結果を、情報センタに配置された構成要素の内容や種類に基づき、必要に応じて無線通信装置により情報センタへ送信したり、情報センタから受信したりして、本実施例で説明した情報の流れを構成することにより、車両側で実行するには車両の電源等の設備に負荷が大きすぎる処理や、音声認識処理自体を短時間で完了させるために高速化する必要がある処理を情報センタ側で実行し、音声認識処理の性能を向上させることができる。
また、本実施例では、説明の簡単化のために、音声認識に利用する利用者(話者)の情報を、利用者の音声と画像の特徴量として説明したが、音声認識に利用する利用者(話者)の情報は、利用者の音声の特徴量と利用者の画像の特徴量のいずれか一方でも良いし、あるいは利用者の特徴を示すその他の特徴量だけでも良いし、あるいは利用者の音声や画像の特徴量と利用者の特徴を示すその他の特徴量との組み合わせでも良い。
また、音声認識に利用する利用者(話者)の情報を1つの情報とする場合は、1つの情報に対して抽出アルゴリズムを変更した複数の特徴量を算出し、これを車両の状態に応じたそれぞれの信頼度に基づいて適切に合成することにより、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させるようにする。
更に、本実施例では、説明の簡単化のために、本実施例の音声認識システムを搭載する移動体を車両として説明したが、移動体は車両に限らず、船舶や飛行機等、どのような移動体であっても良い。
また、本実施例では、特徴合成部8が、信頼度算出手段と、合成特徴量算出手段とを備えている。具体的には、特徴合成部8が実行するステップS3の処理が信頼度算出手段に相当し、特徴合成部8が実行するステップS4の処理が合成特徴量算出手段に相当する。
以上説明したように、本実施例の音声認識システムによれば、入力検知部2が、マイク3から利用者による音声入力が開始されたことを検知すると、特徴合成部8は、車速センサ10、エアコンECU11、オーディオECU12、ヨーレートセンサ13、明度センサ14から、実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度を取得する。次に、特徴合成部8は、各センサあるいはECUから取得した車速、エアコン風量、オーディオ音量、ヨーレート、車内明度等の実際の車両状態を示す車両状態数値と、車両状態を示す対象項目毎に決められた音声及び画像それぞれについてのしきい値とを比較して、入力された利用者の音声の特徴量、及び利用者の画像の特徴量を音声認識に利用することが可能であるか否かを示す信頼度を判定する。そして、特徴合成部8は、利用者の音声の特徴量と利用者の画像の特徴量とを、判定した信頼度に基づく重み付けにより合成してパターン認識部15へ出力し、パターン認識部15は認識処理を行い、結果格納部16に音声の認識結果を格納する。
このように、本実施例の音声認識システムは、利用者(話者)に係る複数の特徴量を用いた音声認識を実行する場合に、車両等の移動体の状態に基づく信頼度を用いて、利用者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
従って、音声認識に利用する利用者に係る複数の特徴量を移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。
また、本実施例の音声認識システムを搭載した車両等の移動体では、利用者に、例えば移動体に搭載された機器の操作を、音声により正確に実行させることができるようになり、移動体を利用する利用者の利便性を向上することができるという効果が得られる。
本発明の一実施例の音声認識システムの全体構成を示すブロック図である。 同実施例の音声認識システムの音声認識処理動作を示すフローチャートである。
符号の説明
3 マイク(情報入力手段、音声入力手段)
5 音声特徴抽出部(特徴取得手段、音声特徴取得手段)
6 CCDカメラ(情報入力手段、画像入力手段)
7 画像特徴抽出部(特徴取得手段、画像特徴取得手段)
8 特徴合成部
10 車速センサ(状態検出手段)
11 エアコンECU(状態検出手段)
12 オーディオECU(状態検出手段)
13 ヨーレートセンサ(状態検出手段)
14 明度センサ(状態検出手段)
15 パターン認識部(音声認識手段)
S3 信頼度算出手段
S4 合成特徴量算出手段



Claims (5)

  1. 移動体の状態を検出する状態検出手段と、
    話者の音声を含む話者の情報を入力するための情報入力手段と、
    前記情報から前記話者に係る特徴量を取得するために複数個用意された特徴取得手段と、
    前記移動体の状態に基づき前記特徴取得手段により取得された複数の特徴量の各々の信頼度を算出する信頼度算出手段と、
    前記信頼度に基づき前記複数の特徴量を合成して合成特徴量を算出する合成特徴量算出手段と、
    前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段と
    を備えることを特徴とする音声認識システム。
  2. 移動体の状態を検出する状態検出手段と、
    話者の音声を入力するための音声入力手段と、
    話者を撮影した画像を入力するための画像入力手段と、
    前記音声から音声特徴量を取得するための音声特徴取得手段と、
    前記画像から画像特徴量を取得するための画像特徴取得手段と、
    前記移動体の状態に基づき前記音声特徴量及び前記画像特徴量の各々の信頼度を算出する信頼度算出手段と、
    前記信頼度に基づき前記音声特徴量と前記画像特徴量とを合成して合成特徴量を算出する合成特徴量算出手段と、
    前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段と
    を備えることを特徴とする音声認識システム。
  3. 前記移動体が車両である
    ことを特徴とする請求項1、または請求項2に記載の音声認識システム。
  4. 請求項1、または請求項2に記載の音声認識システムを備えることを特徴とする移動体。
  5. 請求項3に記載の音声認識システムを備えることを特徴とする車両。

JP2004207073A 2004-07-14 2004-07-14 音声認識システムと該音声認識システムを備える移動体及び車両 Withdrawn JP2006030447A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004207073A JP2006030447A (ja) 2004-07-14 2004-07-14 音声認識システムと該音声認識システムを備える移動体及び車両

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004207073A JP2006030447A (ja) 2004-07-14 2004-07-14 音声認識システムと該音声認識システムを備える移動体及び車両

Publications (1)

Publication Number Publication Date
JP2006030447A true JP2006030447A (ja) 2006-02-02

Family

ID=35896903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004207073A Withdrawn JP2006030447A (ja) 2004-07-14 2004-07-14 音声認識システムと該音声認識システムを備える移動体及び車両

Country Status (1)

Country Link
JP (1) JP2006030447A (ja)

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011053690A (ja) * 2009-09-03 2011-03-17 Honda Motor Co Ltd コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット
WO2016039992A1 (en) * 2014-09-12 2016-03-17 Apple Inc. Dynamic thresholds for always listening speech trigger
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
CN106981201A (zh) * 2017-05-11 2017-07-25 南宁市正祥科技有限公司 复杂环境下的车辆识别方法
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10373617B2 (en) 2014-05-30 2019-08-06 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification

Cited By (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2011053690A (ja) * 2009-09-03 2011-03-17 Honda Motor Co Ltd コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10373617B2 (en) 2014-05-30 2019-08-06 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
JP2017537361A (ja) * 2014-09-12 2017-12-14 アップル インコーポレイテッド 発語トリガを常時リッスンするための動的閾値
WO2016039992A1 (en) * 2014-09-12 2016-03-17 Apple Inc. Dynamic thresholds for always listening speech trigger
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN106981201A (zh) * 2017-05-11 2017-07-25 南宁市正祥科技有限公司 复杂环境下的车辆识别方法
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services

Similar Documents

Publication Publication Date Title
JP2006030447A (ja) 音声認識システムと該音声認識システムを備える移動体及び車両
US6396954B1 (en) Apparatus and method for recognition and apparatus and method for learning
CN104011735B (zh) 基于车辆的对乘员音频和可视输入的确定
CN106796786B (zh) 语音识别系统
JP6466385B2 (ja) サービス提供装置、サービス提供方法およびサービス提供プログラム
US8442820B2 (en) Combined lip reading and voice recognition multimodal interface system
EP1879000A1 (en) Transmission of text messages by navigation systems
US20140129222A1 (en) Speech recognition system, recognition dictionary registration system, and acoustic model identifier series generation apparatus
JP2020091302A (ja) 感情推定装置、感情推定方法、およびプログラム
JP6214297B2 (ja) ナビゲーション装置および方法
CN112289325A (zh) 一种声纹识别方法及装置
WO2011122521A1 (ja) 情報表示システム、情報表示方法及びプログラム
CN105810210B (zh) 声音信号处理装置及其方法与配备有该装置的车辆
CN111556826A (zh) 声音识别装置、声音识别系统及声音识别方法
CN112585674A (zh) 信息处理装置、信息处理方法和程序
JP3654045B2 (ja) 音声認識装置
JP2009258366A (ja) 音声制御装置
JP4539634B2 (ja) エンジン音加工装置
JP6785889B2 (ja) サービス提供装置
JP2005354223A (ja) 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
WO2006025106A1 (ja) 音声認識システム、音声認識方法およびそのプログラム
JPWO2020016927A1 (ja) 音場制御装置および音場制御方法
JP6332072B2 (ja) 対話装置
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
KR101710695B1 (ko) 차량용 음성 인식을 위한 마이크로폰 제어 시스템 및 그 제어 방법

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071002