JP2007226642A - 音声認識機器制御装置 - Google Patents

音声認識機器制御装置 Download PDF

Info

Publication number
JP2007226642A
JP2007226642A JP2006048572A JP2006048572A JP2007226642A JP 2007226642 A JP2007226642 A JP 2007226642A JP 2006048572 A JP2006048572 A JP 2006048572A JP 2006048572 A JP2006048572 A JP 2006048572A JP 2007226642 A JP2007226642 A JP 2007226642A
Authority
JP
Japan
Prior art keywords
utterance
content
controlled
active state
state change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006048572A
Other languages
English (en)
Other versions
JP4131978B2 (ja
Inventor
Hisayuki Nagashima
久幸 長島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2006048572A priority Critical patent/JP4131978B2/ja
Priority to US11/656,943 priority patent/US8484033B2/en
Publication of JP2007226642A publication Critical patent/JP2007226642A/ja
Application granted granted Critical
Publication of JP4131978B2 publication Critical patent/JP4131978B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】使用者の発話から適切に機器を特定して制御を行うことができる音声認識機器制御装置を提供する。
【解決手段】使用者から発話が入力される音声入力手段3と、入力された発話の内容を認識する音声認識手段4と、少なくとも認識された発話の内容に基づいて複数の機器5a〜5cのうちの制御対象となる機器を特定し、該特定した機器の動作を制御する機器制御手段6とを備える。各機器5a〜5cにおける動作の状態変化のうち、少なくとも使用者からの発話により生じた状態変化以外の状態変化を、制御対象となる機器を特定するための第1補助情報として記憶する状態変化記憶手段7を備える。機器制御手段6は、認識された発話の内容に基づいて制御対象となる機器を特定する第1機器特定処理を実行し、第1機器特定処理により該機器を特定できなかった場合には、少なくとも第1補助情報を該機器を特定するために用いる。
【選択図】図1

Description

本発明は、使用者により入力される音声を認識し、認識した結果に基づいて機器を制御するための情報を取得する音声認識機器制御装置に関する。
近年、例えば、使用者が機器の操作等を行うシステムにおいて、使用者により入力される音声を認識して、機器の操作等に必要な情報を取得する音声認識機器制御装置が用いられている。このような音声認識機器制御装置では、使用者により入力される音声(発話)を認識し、認識した結果に基づいて使用者に応答(音声ガイドを出力)して使用者の次の発話を促すことで、使用者との対話が行われる。そして、使用者との対話を認識した結果から、機器の操作等を行うために必要な情報が取得されて機器が制御される。
このような音声認識機器制御装置は、例えば、車両に装備されて、車両に搭載されたオーディオ、ナビゲーションシステム、エアコンディショナ等の機器を制御する。このように、制御される機器の種類が複数の場合には、使用者は、多数ある機器から操作の目的である機器の種類と、その機器についての操作内容(機器の機能の種別、動作内容等の階層的な項目)を指示する必要があり、使用者にとって音声の入力が煩雑となる。このため、使用者から機器の種類、機能、動作等の情報が階層順に音声入力されなくても、不足している情報の入力を使用者に促しながら、対話的に機器の操作等に必要な情報を取得する音声認識機器制御装置が提案されている(例えば、特許文献1を参照)。
特許文献1の音声認識機器制御装置である音声対話装置は、機器の種類、機能、動作の階層項目からなる音声認識対象項目群の各項目を階層順に並べてこれを接続した音声認識用ツリー構成データを備える。前記音声対話装置は、音声認識用ツリー構成データの項目を音声認識手段からの入力信号に対応してツリー構成上不足する項目を得て、不足する項目のうち使用者が意図していると思われる項目を推定して使用者に提示することで、必要な項目の入力を使用者に促す。そして、一連のツリーが形成されたときそのツリーに対応する信号を外部に出力し、この出力信号により使用者への確認応答が行われ機器が制御される。このとき、前記音声対話装置は、音声認識手段からの入力信号により使用者が意図していると思われる項目を推定できなかった場合には、機器の前回作動終了状態を記憶したラストモードに基づき該項目の推定を行う。例えば、「オーディオ」についてのラストモードが「オーディオ」「MD」「1曲目」の場合に、「オーディオ」と入力されると、「オーディオ」で「MD」の「1曲目」を再生することを意図していると推定される。
一方、各機器では、動作が機器により自動的に行われることがある。例えば、車両において、オーディオのシャッフル再生やエアコンディショナのオート制御等が行われる場合に、各曲の再生や風量・設定温度の変更等の各動作は機器により自動的に行われるので、運転者が意図しない動作となる。また、各機器では、複数の使用者からの発話により機器が動作されることもある。例えば、車両において、運転者以外の乗員の発話により機器が動作される場合もあり、この場合にも、その動作は運転者が意図しない動作となる。そして、このように、使用者が意図せずに機器の動作の状態が変化した場合に、該使用者が該動作の停止や変更等を行うことがある。このとき、使用者からの発話は、意図しない動作に対して反射的に行われるものであり、また、例えば、使用者にとっては使用頻度が低い機器で、その機器を操作する発話に不慣れであることも考えられる。このため、使用者からの発話が曖昧になり、発話に含まれる情報が不足する可能性が高くなると想定される。
しかしながら、前記音声対話装置では、使用者はラストモードと同じ動作を行う可能性が高いと想定して、使用者が意図していると思われる項目を推定する。すなわち、同一の使用者の発話により機器が動作される状態のみを前提としている。このため、機器により自動的に行われた動作や他の使用者の発話により行われた動作のような、使用者が意図しない動作に対する該使用者の発話であるときには、操作の目的である機器の種類等を適切に推定できず、使用者への応答や機器の制御が効率の良くないものとなる場合があるという不都合があった。
特開2001−249685号公報
本発明は、かかる不都合を解消して、使用者の発話から適切に機器を特定して制御を行うことができる音声認識機器制御装置を提供することを目的とする。
かかる目的を達成するために、本発明の音声認識機器制御装置は、使用者から発話が入力される音声入力手段と、前記音声入力手段に入力された発話の内容を認識する音声認識手段と、少なくとも前記音声認識手段により認識された発話の内容に基づいて、複数の機器のうちの制御対象となる機器を特定し、該特定した機器の動作を制御する機器制御手段とを備えた音声認識機器制御装置において、前記複数の機器の各機器における動作の状態変化のうち、少なくとも前記使用者からの発話により生じた状態変化以外の状態変化を、前記制御対象となる機器を特定するための第1補助情報として記憶する状態変化記憶手段を備え、前記機器制御手段は、前記音声認識手段により認識された発話の内容に基づいて、前記制御対象となる機器を特定する第1機器特定処理を実行し、該第1機器特定処理により該機器を特定できなかった場合には、少なくとも前記状態変化記憶手段により記憶された前記第1補助情報を、該機器を特定するために用いることを特徴とする。
前記本発明の音声認識機器制御装置によれば、前記機器制御手段は、前記音声認識手段により認識された発話の内容に基づいて、複数の機器のうちの制御対象となる機器を特定し、該機器の動作を制御する際に、該制御対象となる機器を特定する第1機器特定処理を実行する。このとき、前記音声入力手段に入力された使用者の発話に、制御対象となる機器を特定するために必要な情報が不足している場合がある。このような場合には、前記機器制御手段は、前記第1機器特定処理により制御対象となる機器を特定できないこととなる。
ここで、前記複数の機器は、その機能の仕様等によって、前記音声認識手段により認識された使用者の発話の内容に基づいた動作以外の、該使用者が意図しない動作を行う場合がある。そして、このような使用者が意図しない動作に対して、該使用者が発話により該動作の停止や変更等の指示を行うことがある。このとき、使用者の発話は反射的に行われるものであり、また、例えば、使用者にとっては使用頻度が低い機器で、その機器を操作する発話に不慣れであることも多々ある。このため、使用者からの発話が曖昧になり、発話に含まれる情報が不足する可能性が高くなる。
そこで、前記状態変化記憶手段は、前記複数の機器の各機器における動作の状態変化のうち、少なくとも前記使用者からの発話により生じた状態変化以外の状態変化を、前記制御対象となる機器を特定するための第1補助情報として記憶する。そして、前記機器制御手段は、前記第1機器特定処理により前記制御対象となる機器を特定できなかった場合には、少なくとも前記状態変化記憶手段により記憶された前記第1補助情報を、該機器を特定するために用いる。この場合、使用者が意図しない動作により機器の状態が変化して、該使用者が該動作に対する発話を入力した蓋然性が高いので、前記第1補助情報を用いることにより、制御対象となる機器を適切に特定し、該特定した機器を制御することができる。
具体的には、前記本発明の音声認識機器制御装置において、前記状態変化記憶手段は、前記第1補助情報として、前記各機器において自動的に生じた状態変化を記憶することが好ましい。
これによれば、前記各機器において自動的に生じた状態変化は、前記使用者が意図しない機器の動作を示すので、前記第1機器特定処理により制御対象となる機器が特定できなかった場合に、前記状態変化記憶手段により記憶された前記第1補助情報を用いることで、制御対象となる機器を適切に特定し、該特定した機器を制御することができる。
または、前記本発明の音声認識機器制御装置において、前記音声入力手段が、前記使用者と該使用者以外の他者とから発話がそれぞれ入力され、前記音声認識手段が、前記音声入力手段に入力された発話の内容を、前記使用者からの発話の内容と前記他者からの発話の内容とに分別して認識する場合に、前記状態変化記憶手段は、前記第1補助情報として、前記他者の発話により生じた前記各機器における動作の状態変化を記憶することが好ましい。
これによれば、前記他者の発話により生じた前記各機器における動作の状態変化は、前記使用者が意図しない動作を示すので、前記第1機器特定処理により制御対象となる機器が特定できなかった場合に、前記状態変化記憶手段により記憶された前記第1補助情報を用いることで、制御対象となる機器を適切に特定し、該特定した機器を制御することができる。
さらに、前記本発明の音声認識機器制御装置において、前記音声認識手段が、前記音声入力手段に入力された発話の内容を、人の有する感覚のうちの予め定められた複数種類の感覚のいずれかに対応付けて認識する場合に、前記状態変化記憶手段は、前記第1補助情報を、前記複数種類の感覚のいずれかに対応付けて記憶し、前記機器制御手段は、前記第1機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第1補助情報のうちの、前記音声認識手段により認識した前記発話の内容が対応付けられた感覚の種類と同一の種類の感覚に対応する該第1補助情報を、該機器を特定するために用いることが好ましい。
これによれば、前記音声認識手段は、前記音声入力手段に入力された発話の内容を、人の有する感覚(いわゆる五感)のうちの予め定められた複数種類の感覚(例えば、視覚、聴覚、触覚等)のいずれかに対応付けて認識する。一方、例えば、使用者が意図しない動作が複数の機器でそれぞれ行われ、第1補助情報が複数あることが考えられる。このとき、前記状態変化記憶手段は、前記第1補助情報を、前記複数種類の感覚のいずれかに対応付けて記憶するので、第1補助情報と発話の内容との関連が判る。そこで、前記機器制御手段は、前記第1機器特定処理により前記制御対象となる機器を特定できなかった場合に、前記発話の内容が対応付けられた感覚の種類と同一の種類の感覚に対応する前記第1補助情報を該機器を特定するために用いることで、発話の内容に関連する第1補助情報を用いて制御対象となる機器を適切に特定し、該特定した機器を制御することができる。
さらに、前記本発明の音声認識機器制御装置において、前記機器制御手段は、前記第1機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第1補助情報のうちの最新の第1補助情報を、該機器を特定するために用いることが好ましい。
すなわち、例えば、使用者が意図しない動作が複数の機器でそれぞれ行われ、第1補助情報が複数あることが考えられる。このとき、意図しない動作による機器の状態変化に対して、使用者が反射的に発話を入力するものと想定すると、該使用者の発話は、最新の状態変化に対する発話である可能性が高いと考えられる。よって、前記機器制御手段は、前記第1機器特定処理により前記制御対象となる機器を特定できなかった場合に、前記最新の第1補助情報を該機器を特定するために用いることで、発話の内容に関連する第1補助情報を用いて制御対象となる機器を適切に特定し、該特定した機器を制御することができる。
また、前記本発明の音声認識機器制御装置において、前記状態変化記憶手段は、前記第1補助情報に加えて、前記使用者の発話により生じた状態変化を、前記制御対象となる機器を特定するための第2補助情報として記憶し、前記機器制御手段は、前記第1機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第1補助情報を用いて、該機器を特定する第2機器特定処理を実行し、該第2機器特定処理により該機器を特定できなかった場合には、該状態変化記憶手段により記憶された前記第2補助情報を、該機器を特定するために用いることが好ましい。
すなわち、使用者の発話に必要な情報が不足して、前記第1機器特定処理により前記制御対象となる機器を特定できなかった場合において、例えば、使用者が意図しない動作が機器で行われておらず、使用者の発話に関連する第1補助情報がないことが考えられる。このような場合に、前記機器制御手段は、前記第2機器特定処理により制御対象となる機器を特定できないこととなる。
一方、使用者の以前の発話による機器の動作に対して、該使用者が発話により該動作の停止や変更等の指示を行うことがある。このとき、使用者の発話は、機器の意図しない動作に対する反射的な発話より明瞭ではあるが、以前の発話と重複する内容が省略され、発話に含まれる情報が不足する可能性が高くなる。
そこで、前記機器制御手段は、前記第2機器特定処理により制御対象となる機器を特定できなかった場合には、前記第2補助情報を該機器を特定するために用いる。この場合、使用者の以前の発話による動作により機器の状態が変化して、該使用者が該動作に対する発話を入力した蓋然性が高いので、前記第2補助情報を用いることにより、制御対象となる機器を適切に特定し、該特定した機器を制御することができる。
また、前記本発明の音声認識機器制御装置において、前記使用者への応答を出力する応答出力手段と、前記音声認識手段により認識された発話の内容に関連した前記第1補助情報が複数ある場合に、該複数の第1補助情報のうちから前記制御対象となる機器を特定するために用いる第1補助情報が絞り込まれるように、前記応答を制御する応答制御手段とを備えることが好ましい。
すなわち、例えば、使用者が意図しない動作が複数の機器で同時に行われ、使用者の発話に関連する第1補助情報が複数あることが考えられる。このとき、前記応答制御手段は、前記複数の第1補助情報のうちから前記制御対象となる機器を特定するために用いる第1補助情報が絞り込まれるように前記応答を制御することで、前記使用者からの次の発話を適切に促すことができる。よって、本発明によれば、次の発話の内容に基づいて、制御対象となる機器を適切に特定し、該特定した機器を制御することができる。
本発明の一実施形態を添付の図面を参照して説明する。まず、本発明の第1実施形態を図1〜図4を参照して説明する。図1は、本実施形態である音声認識機器制御装置の機能ブロック図であり、図2は、図1の音声認識機器制御装置における音声認識による機器制御処理のフローチャートである。また、図3は、図1の音声認識機器制御装置における機器の動作の状態変化の一例を示すグラフである。
図1を参照して、音声認識機器制御装置2は、マイクロコンピュータ等により構成された電子ユニットであり、その処理機能として、運転者から発話が入力される音声入力手段3と、入力された発話の内容を認識する音声認識手段4と、認識された発話の内容に基づいて複数の機器5a〜5cのうちの制御対象となる機器を特定し、該特定した機器の動作を制御する機器制御手段6とを備え、車両1に搭載されている。さらに、音声認識機器制御装置2は、機器5a〜5cにおける動作の状態変化をアクティブステートとして記憶する状態変化記憶手段7と、運転者への応答を出力する応答出力手段8と、出力する応答を制御する応答制御手段9とを備える。
音声入力手段3は、車両1の運転者の発話が入力されるものであり、マイク等により構成される。
音声認識手段4は、音声入力手段3に入力された発話について、構文解析等の音声認識処理を行い、キーワードを抽出する。なお、音声認識処理の手法としては、特許文献1に記載されているような、一般的な手法を用いることができる。このとき、発話の内容は、予め定められた音声認識用辞書等を参照して、人の有する感覚(いわゆる五感)のうちの所定の複数種類の感覚(視覚、聴覚、触覚等)の少なくともいずれか1つに対応付けられる。本実施形態では、発話の内容は、「視覚」「聴覚」「触覚」の3種類の感覚に対応付けられる。例えば、「うるさい」「静かに」等の発話の内容は、聴覚的な内容であるので、「聴覚」に対応付けられる。また、例えば、「拡大」「縮小」等の発話の内容は、視覚的な内容であるので、「視覚」に対応付けられる。また、例えば、「元に戻す」「キャンセル」等の発話の内容は、いずれの感覚にも関連する可能性があるので、「視覚」「聴覚」「触覚」の全てに対応付けられる。
機器制御手段6は、音声認識手段4により認識された発話の内容に基づいて、機器5a〜5cのうちの制御対象となる機器を特定し、該特定した機器の動作を制御する。このとき、機器制御手段6は、音声認識手段4により抽出されたキーワードに基づいて、キーワードと機器を制御するために必要な項目(制御対象となる機器及び該機器の制御内容を指定するための項目)との対応関係を示す予め定められたテーブル等を参照して、制御対象となる機器を特定する処理(第1機器特定処理)を実行する。
さらに、機器制御手段6は、第1機器特定処理により制御対象となる機器を特定できなかった場合には、状態変化記憶手段7により記憶されたアクティブステートを用いて、制御対象となる機器を特定する処理(第2機器特定処理)を実行する。このとき、状態変化記憶手段7により記憶されたアクティブステートのうちの、音声認識手段4により認識された発話の内容に関連するアクティブステートが、第2機器特定処理で用いられる。
機器5a〜5cは、具体的には、車両1に装備されたオーディオ5a、ナビゲーションシステム5b、エアコンディショナ5cである。各機器5a〜5cには、制御可能な構成要素(デバイス,コンテンツ等)、機能、動作等が予め定められている。そして、各機器5a〜5cの制御内容は、機能の種別や動作の内容等の階層的項目のデータ(各項目の入力値)により指定される。
例えば、オーディオ5aでは、「CD」「MD」「ラジオ」「音量」等の項目がある。さらに、「CD」「MD」の下位項目として「再生」「停止」等の項目があり、「ラジオ」の下位項目として「オン」「オフ」等の項目があり、「音量」の下位項目として「上げる」「下げる」等の項目がある。そして、例えば、機器を制御するために必要な項目のデータが、{オーディオ,音量,上げる}と指定されると、機器制御手段6により、オーディオ5aにおいて音量を上げる制御が実行される。
また、例えば、ナビゲーションシステム5bでは、「画面表示」「音声ガイド」「POI(Point of Interest)検索」等の項目がある。さらに、「画面表示」の下位項目として「変更」「拡大」「縮小」等の項目があり、「変更」の下位項目として「地図」「検索画面」「オーディオ画面」等の項目がある。そして、例えば、機器を制御するために必要な項目のデータが、{ナビゲーションシステム,画面表示,拡大}と指定されると、機器制御手段6により、ナビゲーションシステム5bにおいて画面表示を拡大する制御が実行される。
また、例えば、エアコンディショナ5cでは、「風量」「設定温度」「オン」「オフ」等の項目がある。さらに、「風量」「設定温度」の下位項目として「上げる」「下げる」等の項目がある。そして、例えば、機器を制御するために必要な項目のデータが、{エアコンディショナ,風量,上げる}と指定されると、機器制御手段6により、エアコンディショナ5cにおいて風量を増加させる制御が実行される。
状態変化記憶手段7は、機器5a〜5cの動作の状態変化が更新可能に記憶されている記憶媒体である。ここで、機器5a〜5cの動作の状態変化とは、例えば、エアコンディショナ5cで風量が増加されたり、オーディオ5aでCDが再生される等の、機器5a〜5cにおける不連続な状態変化である。状態変化記憶手段7には、前記状態変化が、該状態変化を生じた時刻knから所定時間Tを経過するまでの間、アクティブステートとして記憶される。本実施形態では、状態変化記憶手段7には、アクティブステートとして、機器5a〜5cにおいて自動的に生じた状態変化(音声認識手段4により認識された発話の内容に基づいて行われる動作以外の、機器の仕様等によって行われる動作により生じた状態変化)が記憶される。前記アクティブステートは、制御対象となる機器を特定するための第1補助情報に相当する。
状態変化記憶手段7には、アクティブステートが、音声認識手段4に認識された発話の内容と同様に、「視覚」「聴覚」「触覚」のいずれかに対応付けられて記憶される。このとき、アクティブステートは、該アクティブステートが影響を及ぼす感覚に対応付けられる。例えば、「視覚」に対応付けられるアクティブステートは、ナビゲーションシステム5bにおける画面表示の変更、画面表示の縮小・拡大等である。また、例えば、「聴覚」に対応付けられるアクティブステートは、オーディオ5aにおけるCDの再生・停止、MDの再生・停止、ラジオのオン・オフや、エアコンディショナ5cにおける風量の変更や、ナビゲーションシステム5bにおける音声ガイドの出力、音声ガイドの音量の変更等である。また、例えば、「触覚」に対応付けられるアクティブステートは、エアコンディショナ5cにおける風量の変更、設定温度の変更等である。
応答出力手段8は、車両1の運転者への応答(音声ガイド)を出力するものであり、スピーカ等により構成される。応答は、例えば、TTS(Text to Speech)等の音声合成処理を用いて音声出力される。
応答制御手段9は、応答出力手段8から出力する応答の内容(運転者の次の発話を促すための質問文や、制御の内容等を使用者に確認したり制御の完了等を使用者に報知するための応答文)を、予め記憶された音声、フレーズ、文章等を合成して生成する。また、応答制御手段9は、応答を出力する際の速度や音量を決定する。このとき、応答制御手段9は、音声認識手段4により認識された発話の内容に関連したアクティブステートの候補が複数ある場合に、該複数のアクティブステートの候補のうちから制御対象となる機器を特定するために用いるアクティブステートが絞り込まれるように(特定されるように)応答を制御する。
次に、本実施形態の音声認識機器制御装置2の全体的な作動(音声認識による機器制御処理)を、図2に示したフローチャートに従って説明する。図2を参照して、まず、STEP001で、音声入力手段3に、車両1の運転者から、発話(機器の制御を開始するための発話)が入力される。次に、STEP002で、音声認識手段4は、音声入力手段3に入力された発話について、構文解析等の音声認識処理を行いキーワードを抽出する。このとき、音声認識手段4により認識された発話の内容は、「視覚」「聴覚」「触覚」の少なくともいずれか1つに対応付けられる。
次に、STEP003で、機器制御手段6は、音声認識手段4により認識された発話の内容を解析して、制御対象となる機器を特定する処理(第1機器特定処理)を実行する。具体的には、機器制御手段6は、キーワードと機器を制御するために必要な項目との対応関係を示す予め定められたテーブル等を参照し、発話から抽出されたキーワードから、各項目に合致するキーワードを選定する。これにより、機器を制御するために必要な項目のデータが特定される。そして、特定された項目のデータは、発話の内容を記憶保持するためのバッファ(発話内容格納バッファ)に格納される。
次に、STEP004で、機器制御手段6は、機器5a〜5cのうちの制御対象となる機器及び該機器の制御内容が特定されているか否かを判断する。STEP004の判断結果がYESの場合には、STEP011に進む。
STEP004の判断結果がNOの場合には、以下のSTEP005〜010の処理が行われる。まず、STEP005で、状態変化記憶手段7からアクティブステートが読み込まれる。次に、STEP006で、読み込まれたアクティブステートのうち、認識された発話の内容に関連するアクティブステートの候補があるか否かが判断される(第2機器特定処理)。ここで、認識された発話の内容に関連するアクティブステートの候補とは、感覚の種類毎の最新のアクティブステートのうちの、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられたアクティブステートであり、且つ、該発話の内容により制御が可能なアクティブステートである。なお、発話の内容によりアクティブステートの制御が可能であるとは、該発話の内容が、例えば、該アクティブステートの停止や変更等の制御を実行させるために発せられた内容である可能性があることを示す。
STEP006で、まず、読み込まれたアクティブステートの、感覚の種類毎の最新のアクティブステートのうちに、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられたアクティブステートがあるか否かが判断される。対応付けられたアクティブステートがない場合には、アクティブステートの候補がないと判断され(STEP006の判断結果がNO)、STEP009に進む。対応付けられたアクティブステートがある場合には、認識された発話の内容により、該対応付けられたアクティブステートに対する制御が可能であるか否かが判断される。制御可能なアクティブステートがない場合には、アクティブステートの候補がないと判断され(STEP006の判断結果がNO)、STEP009に進む。制御可能なアクティブステートがある場合には、該制御可能なアクティブステートが、認識された発話の内容に関連するアクティブステートの候補とされる。
次に、STEP006の判断結果がYESの場合(認識された発話の内容に関連するアクティブステートの候補がある)には、STEP007で、アクティブステートの候補が複数であるか否かが判断される。STEP007の判断結果がNOの場合(アクティブステートの候補が1つ)には、該アクティブステートの候補が、制御対象となる機器を特定するためのアクティブステートとして特定される。そして、このアクティブステートを生じた機器が、制御対象となる機器として特定され、STEP011に進む。STEP007の判断結果がYESの場合(アクティブステートの候補が複数ある)には、STEP008に進む。
STEP008は、アクティブステートの候補が複数あり、制御対象となる機器を特定するためのアクティブステートを特定できないために、アクティブステートを用いて制御対象となる機器を特定できない場合である。この場合に、応答制御手段9は、複数のアクティブステートの候補のうちから、制御対象となる機器を特定するために用いるアクティブステートが絞り込まれるように、運転者への質問文を生成する。そして、STEP010に進む。
また、STEP009は、発話の内容に関連するアクティブステートの候補がないために、アクティブステートを用いて制御対象となる機器を特定できない場合である。この場合に、応答制御手段9は、入力された発話で不足している内容(少なくとも制御対象となる機器を特定するために必要な内容)について、次回の発話で入力を促すように、運転者への質問文を生成する。そして、STEP010に進む。
STEP010では、応答制御手段9により生成された質問文が、応答出力手段8から出力される。STEP010からは、STEP001に戻り、2回目の運転者の発話が入力される。そして、1回目の発話と同様に、STEP001〜010の処理が行われる。但し、2回目の発話(応答出力手段8から出力された質問文に対する発話)においては、STEP003で、発話内容格納バッファから前回の発話の内容を読み込み、2回目の発話の内容を解析する際に用いる。そして、2回目の発話の内容を、前回の発話の内容と合わせて発話内容格納バッファに格納する。さらに、STEP004〜010において、発話の内容として、2回目の発話の内容と前回の発話の内容とを合わせて用いる。
以下、STEP004の判断結果がYES又はSTEP007の判断結果がNOとなり、STEP011に進むまで、上述の2回目の発話に対するSTEP001〜STEP010と同様の処理が繰り返される。
STEP011では、機器制御手段6により、特定した機器の制御が実行される。そして、発話内容格納バッファが初期化(リセット)され、機器制御処理が終了される。以上の処理によって、運転者の発話から制御対象となる機器を適切に特定し、該特定した機器を制御することができる。
次に、上述した作動の具体例について、図3を用いて詳細に説明する。図3には、各機器5a〜5cの状態変化の一例が示されている。図3において、横軸は時間tを示し、上から1段目は、「視覚」に対応付けられる状態変化を示し、2段目は「聴覚」に対応付けられる状態変化を示し、3段目は、「触覚」に対応付けられる状態変化を示している。
図3を参照して、時刻k1に、ナビゲーションシステム5bにおいて、車両1が交差点を走行中であることから、画面表示が交差点の拡大画面に変更される。この状態変化は、視覚に影響を及ぼすので、「視覚」に対応付けられて、アクティブステートS1として、時刻k1〜k1+Tの間、状態変化記憶手段7に記憶される。また、時刻k2に、オーディオ5aにおいて、CDの次の曲が再生される。この状態変化は、聴覚に影響を及ぼすので、「聴覚」に対応付けられて、アクティブステートS2として、時刻k2〜k2+Tの間、状態変化記憶手段7に記憶される。また、時刻k3に、エアコンディショナ5cにおいて、風量が増加される。この状態変化は、風を吹き出すファン等の音が聴覚に影響を及ぼし、吹き出される風が触覚に影響を及ぼすので、「聴覚」「触覚」に対応付けられて、アクティブステートS3として、時刻k3〜k3+Tの間、状態変化記憶手段7に記憶される。また、時刻k4に、ナビゲーションシステム5bにおいて、音声ガイドが出力される。この状態変化は、聴覚に影響を及ぼすので、「聴覚」に対応付けられて、アクティブステートS4として、時刻k4〜k4+Tの間、状態変化記憶手段7に記憶される。
次に、図3に例示したように機器5a〜5cが状態変化している場合に、以下の発話例(a)〜(d)のように運転者から発話が入力されたときの機器制御処理について説明する。まず、発話例(a)について説明する。発話例(a)は、時刻t1(k1<t1<k1+T)に、運転者から「元に戻して」という発話が入力される例である。時刻t1において、状態変化記憶手段7には、アクティブステートS1が記憶されている。
まず、STEP001で、運転者から「元に戻して」という発話が入力される。次に、STEP002で、入力された発話の内容が認識される。このとき、認識された発話の内容は、いずれの感覚にも関連する可能性があるので、「視覚」「聴覚」「触覚」の全てに対応付けられる。次に、STEP003で、認識された発話の内容から、制御対象となる機器を特定する処理が実行される。このとき、「元に戻して」という発話の内容からは、制御対象となる機器を特定できないので、STEP004の判断結果がNOとなり、STEP005に進む。
STEP005で、状態変化記憶手段7に記憶されたアクティブステートS1が読み込まれる。次に、STEP006で、アクティブステートS1が、認識された発話の内容に関連するアクティブステートの候補であるか否かが判断される。このとき、アクティブステートS1は、「視覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」「聴覚」「触覚」に含まれる。さらに、発話の内容によりアクティブステートS1に対する制御が可能であるので、アクティブステートS1は、アクティブステートの候補とされる。次に、STEP007で、アクティブステートの候補が1つであるので、アクティブステートS1が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がナビゲーションシステム5bであり、「元に戻して」という発話の内容が「画面表示を交差点の拡大画面に変更する」という状態変化に対して発せられた発話の内容だと特定される。そして、STEP011に進み、ナビゲーションシステム5bにおいて、画面表示を交差点の拡大画面に変更する前の画面に戻す制御が実行される。このように、運転者の「元に戻して」という発話から、制御対象となるナビゲーションシステム5bを適切に特定して制御することができる。
次に、発話例(b)〜(d)について説明する。発話例(b)〜(d)は、いずれも運転者から「止めて」という発話が入力される例であり、発話が入力される時刻のみが異なる。発話例(b)は、時刻t2(k2<t2<k2+T)に発話が入力される。時刻t2において、状態変化記憶手段7には、アクティブステートS2が記憶されている。発話例(c)は、時刻t3(k3<t3<k3+T)に発話が入力される。時刻t3において、状態変化記憶手段7には、アクティブステートS3が記憶されている。発話例(d)は、時刻t4(k4<t4<k4+T)に発話が入力される。時刻t4において、状態変化記憶手段7には、アクティブステートS4が記憶されている。
まず、STEP001で、運転者から「止めて」という発話が入力される。次に、STEP002で、入力された発話の内容が認識される。このとき、認識された発話の内容は、いずれの感覚にも関連する可能性があるので、「視覚」「聴覚」「触覚」の全てに対応付けられる。次に、STEP003で、認識された発話の内容から、制御対象となる機器を特定する処理が実行される。このとき、「止めて」という発話の内容からは、制御対象となる機器を特定できないので、STEP004の判断結果がNOとなり、STEP005に進む。STEP004までの処理は、発話例(b)〜(d)のいずれにおいても同じである。
このとき、発話例(b)では、STEP005で、状態変化記憶手段7に記憶されたアクティブステートS2が読み込まれる。次に、STEP006で、アクティブステートS2が、認識された発話の内容に関連するアクティブステートの候補であるか否かが判断される。このとき、アクティブステートS2は、「聴覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」「聴覚」「触覚」に含まれる。さらに、発話の内容によりアクティブステートS2に対する制御が可能であるので、アクティブステートS2は、アクティブステートの候補とされる。次に、STEP007で、アクティブステートの候補が1つであるので、アクティブステートS2が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がオーディオ5aであり、「止めて」という発話の内容が「CDの次の曲を再生する」という状態変化に対して発せられた発話の内容だと特定される。そして、STEP011に進み、オーディオ5aにおいて、CDの再生を停止する制御が実行される。このように、運転者の「止めて」という発話から、制御対象となるオーディオ5aを適切に特定して制御することができる。
また、このとき、発話例(c)では、STEP005で、状態変化記憶手段7に記憶されたアクティブステートS3が読み込まれる。次に、STEP006で、アクティブステートS3が、認識された発話の内容に関連するアクティブステートの候補であるか否かが判断される。このとき、アクティブステートS3は、「聴覚」「触覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」「聴覚」「触覚」に含まれる。さらに、発話の内容によりアクティブステートS3に対する制御が可能であるので、アクティブステートS3は、アクティブステートの候補とされる。次に、STEP007で、アクティブステートの候補が1つであるので、アクティブステートS3が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がエアコンディショナ5cであり、「止めて」という発話の内容が「風量を増加する」という状態変化に対して発せられた発話の内容だと特定される。そして、STEP011に進み、エアコンディショナ5cにおいて、風量を増加する前の風量に減少させる制御が実行される。このように、運転者の「止めて」という発話から、制御対象となるエアコンディショナ5cを適切に特定して制御することができる。
また、このとき、発話例(d)では、STEP005で、状態変化記憶手段7に記憶されたアクティブステートS4が読み込まれる。次に、STEP006で、アクティブステートS4が、認識された発話の内容に関連するアクティブステートの候補であるか否かが判断される。このとき、アクティブステートS4は、「聴覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」「聴覚」「触覚」に含まれる。さらに、発話の内容によりアクティブステートS4に対する制御が可能であるので、アクティブステートS4は、アクティブステートの候補とされる。次に、STEP007で、アクティブステートの候補が1つであるので、アクティブステートS4が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がナビゲーションシステム5bであり、「止めて」という発話の内容が「音声ガイドを出力する」という状態変化に対して発せられた発話の内容だと特定される。そして、STEP011に進み、ナビゲーションシステム5bにおいて、音声ガイドの出力を停止する制御が実行される。このように、運転者の「止めて」という発話から、制御対象となるナビゲーションシステム5bを適切に特定して制御することができる。
なお、本実施形態において、STEP011で制御を実行する際に、応答制御手段9により、特定した機器及び該機器の制御内容を運転者に確認するような応答文を生成し、生成された応答文を応答出力手段8から出力するようにしてもよい。
次に、本発明の第2実施形態を、図4〜図7を参照して説明する。図4は、本実施形態の音声認識機器制御装置における全体的作動(音声認識による機器制御処理)のフローチャートである。また、図5〜図7は、本実施形態の音声認識機器制御装置における機器の状態変化の一例を示すグラフである。なお、本実施形態である音声認識機器制御装置の機能ブロック図は図1と同じであるので、以下の説明では、図1を参照して説明する。
図1を参照して、本実施形態において、音声入力手段3は、車両1の運転者及び運転者以外の他の乗員(例えば、助手席の乗員)から発話がそれぞれ入力されるものであり、複数のマイク等で構成される。このとき、音声入力手段3の各マイクは、各マイクの位置関係と音響特性とが予め定められている。また、音声認識手段4は、音声入力手段3に入力された発話の内容を認識する際に、発話者を特定する処理を行う。これにより、発話が運転者と運転者以外の他の乗員とのいずれから入力されたかが特定される。そして、発話の内容が、運転者からの発話の内容と運転者以外の他の乗員からの発話の内容とに分別して認識される。発話者を特定する処理には、例えば、一般的な音源定位手法が用いられる。このとき、音声認識手段4は、各マイクに入力された発話の音声信号の時間差と強度差とから、音源の位置を推定して、発話者を運転者と運転者以外の他の乗員とに区別して特定する。
状態変化記憶手段7は、アクティブステートとして、車両1の運転者以外の他の乗員の発話により生じた各機器5a〜5cにおける動作の状態変化と、車両1の運転者の発話により生じた状態変化とを記憶する。なお、アクティブステートのうち、音声認識手段3により特定された発話者以外の発話により生じたアクティブステートを、第1アクティブステート(制御対象となる機器を特定するための第1補助情報に相当する)とし、音声認識手段3により特定された発話者の発話により生じたアクティブステートを、第2アクティブステート(制御対象となる機器を特定するための第2補助情報に相当する)とする。
機器制御手段6は、第1機器特定処理により制御対象となる機器を特定できなかった場合には、状態変化記憶手段7により記憶された第1アクティブステートを用いて、該機器を特定する処理(第2機器特定処理)を実行する。そして、第2機器特定処理により制御対象となる機器を特定できなかった場合には、状態変化記憶手段7により記憶された第2アクティブステートを用いて、該機器を特定する処理(第3機器特定処理)を実行する。このとき、状態変化記憶手段7により記憶されたアクティブステートのうちの、音声認識手段4により認識された発話の内容に関連するアクティブステートが、第2及び第3機器特定処理で用いられる。以上説明した以外の構成は、第1実施形態と同じである。
次に、本実施形態の音声認識機器制御装置2の全体的な作動(音声認識による機器制御処理)を、図4に示したフローチャートに従って説明する。なお、以下の説明では、車両1の運転者から発話が入力されるものとする。
図4を参照して、まず、STEP101で、音声入力手段3に、発話(機器の制御を開始するための発話)が入力される。次に、STEP102で、音声認識手段4は、入力された発話の発話者を特定する処理を行う。これにより、発話が運転者から入力されたことが特定される。次に、STEP103で、音声認識手段4は、音声入力手段3に入力された発話について、構文解析等の音声認識処理を行いキーワードを抽出する。このとき、音声認識手段4により認識された発話の内容は、「視覚」「聴覚」「触覚」の少なくともいずれか1つに対応付けられる。
次に、STEP104で、機器制御手段6は、音声認識手段4により認識された発話の内容を解析して、制御対象となる機器を特定する処理(第1機器特定処理)を実行する。具体的には、機器制御手段6は、キーワードと機器を制御するために必要な項目との対応関係を示す予め定められたテーブル等を参照し、発話から抽出されたキーワードから、各項目に合致するキーワードを選定する。これにより、機器を制御するために必要な項目のデータが特定される。そして、特定された項目のデータは、発話の内容を記憶保持するためのバッファ(発話内容格納バッファ)に格納される。
次に、STEP105で、機器制御手段6は、機器5a〜5cのうちの制御対象となる機器及び該機器の制御内容が特定されているか否かを判断する。STEP105の判断結果がYESの場合には、STEP115に進む。
STEP105の判断結果がNOの場合には、以下のSTEP106〜114の処理が行われる。まず、STEP106で、状態変化記憶手段7からアクティブステートが読み込まれる。次に、STEP107で、読み込まれたアクティブステートのうち、認識された発話の内容に関連する第1アクティブステートの候補があるか否かが判断される(第2機器特定処理)。ここで、認識された発話の内容に関連する第1アクティブステートの候補とは、第1実施形態のアクティブステートの候補と同様に、感覚の種類毎の最新の第1アクティブステートのうちの、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられた第1アクティブステートであり、且つ、該発話の内容により制御が可能な第1アクティブステートである。
STEP107で、まず、読み込まれた第1アクティブステートの、感覚の種類毎の最新の第1アクティブステートのうちに、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられた第1アクティブステートがあるか否かが判断される。対応付けられた第1アクティブステートがない場合には、第1アクティブステートの候補がないと判断され(STEP107の判断結果がNO)、STEP110に進む。対応付けられた第1アクティブステートがある場合には、認識された発話の内容により、該対応付けられた第1アクティブステートに対する制御が可能であるか否かが判断される。制御可能な第1アクティブステートがない場合には、第1アクティブステートの候補がないと判断され(STEP107の判断結果がNO)、STEP110に進む。制御可能な第1アクティブステートがある場合には、該第1アクティブステートが、認識された発話の内容に関連する第1アクティブステートの候補とされる。
次に、STEP107の判断結果がYESの場合(認識された発話の内容に関連する第1アクティブステートの候補がある)には、STEP108で、第1アクティブステートの候補が複数であるか否かが判断される。STEP108の判断結果がNOの場合(第1アクティブステートの候補が1つ)には、該第1アクティブステートの候補が、制御対象となる機器を特定するためのアクティブステートとして特定される。そして、このアクティブステートを生じた機器が、制御対象となる機器として特定され、STEP115に進む。STEP108の判断結果がYESの場合(第1アクティブステートの候補が複数ある)には、STEP109に進む。
STEP109は、第1アクティブステートの候補が複数あり、制御対象となる機器を特定するためのアクティブステートを特定できないために、アクティブステートを用いて制御対象となる機器を特定できない場合である。この場合に、応答制御手段9は、複数の第1アクティブステートの候補のうちから、制御対象となる機器を特定するために用いるアクティブステートが絞り込まれるように、運転者への質問文を生成する。そして、STEP114に進む。
また、STEP110は、第2機器特定処理により、制御対象となる機器を特定できない場合である。この場合に、STEP110で、読み込まれたアクティブステートのうち、認識された発話の内容に関連する第2アクティブステートの候補があるか否かが判断される(第3機器特定処理)。ここで、認識された発話の内容に関連する第2アクティブステートの候補とは、第1アクティブステートの候補と同様に、感覚の種類毎の最新の第2アクティブステートのうちの、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられた第2アクティブステートであり、且つ、該発話の内容により制御が可能な第2アクティブステートである。
STEP110で、まず、読み込まれた第2アクティブステートの、感覚の種類毎の最新の第2アクティブステートのうちに、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられた第2アクティブステートがあるか否かが判断される。対応付けられた第2アクティブステートがない場合には、第2アクティブステートの候補がないと判断され(STEP110の判断結果がNO)、STEP113に進む。対応付けられた第2アクティブステートがある場合には、認識された発話の内容により、該対応付けられた第2アクティブステートに対する制御が可能であるか否かが判断される。制御可能な第2アクティブステートがない場合には、第2アクティブステートの候補がないと判断され(STEP110の判断結果がNO)、STEP113に進む。制御可能な第2アクティブステートがある場合には、該第2アクティブステートが、認識された発話の内容に関連する第2アクティブステートの候補とされる。
次に、STEP110の判断結果がYESの場合(認識された発話の内容に関連する第2アクティブステートの候補がある)には、STEP111で、第2アクティブステートの候補が複数であるか否かが判断される。STEP111の判断結果がNOの場合(第2アクティブステートの候補が1つ)には、該第2アクティブステートの候補が、制御対象となる機器を特定するためのアクティブステートとして特定される。そして、このアクティブステートを生じた機器が、制御対象となる機器として特定され、STEP115に進む。STEP111の判断結果がYESの場合(第2アクティブステートの候補が複数ある)には、STEP112に進む。
STEP112は、第2アクティブステートの候補が複数あり、制御対象となる機器を特定するためのアクティブステートを特定できないために、アクティブステートを用いて制御対象となる機器を特定できない場合である。この場合に、応答制御手段9は、複数の第2アクティブステートの候補のうちから、制御対象となる機器を特定するために用いるアクティブステートが絞り込まれるように、運転者への質問文を生成する。そして、STEP114に進む。
また、STEP113は、発話の内容に関連する第1及び第2アクティブステートの候補がないために、アクティブステートを用いて制御対象となる機器を特定できない場合である。この場合に、応答制御手段9は、入力された発話で不足している内容(少なくとも制御対象となる機器を特定するために必要な内容)について、次回の発話で入力を促すように、運転者への質問文を生成する。そして、STEP114に進む。
STEP114では、応答制御手段9により生成された質問文が、応答出力手段8から出力される。STEP114からは、STEP101に戻り、2回目の発話が入力される。そして、1回目の発話と同様に、STEP101〜114の処理が行われる。但し、2回目の発話(応答出力手段8から出力された質問文に対する発話)においては、STEP104で、発話内容格納バッファから前回の発話の内容を読み込み、2回目の発話の内容を解析する際に用いる。そして、2回目の発話の内容を、前回の発話の内容と合わせて発話内容格納バッファに格納する。さらに、STEP105〜114において、発話の内容として、2回目の発話の内容と前回の発話の内容とを合わせて用いる。
以下、STEP105の判断結果がYES又はSTEP108の判断結果がNOとなり、STEP115に進むまで、上述の2回目の発話に対するSTEP101〜STEP114と同様の処理が繰り返される。
STEP115では、機器制御手段6により、特定した機器の制御が実行される。このとき、応答制御手段9により、特定した機器及び該機器の制御内容を運転者に確認するような応答文が生成され、生成された応答文が応答出力手段8から出力される。そして、発話内容格納バッファが初期化(リセット)され、機器制御処理が終了される。以上の処理によって、運転者の発話から制御対象となる機器を適切に特定し、該特定した機器を制御することができる。
次に、上述した作動の具体例について、図5〜図7を用いて詳細に説明する。図5〜図7には、各機器5a〜5cの状態変化の一例がそれぞれ示されている。図5〜図7において、横軸は時間tを示し、上から1段目は、「視覚」に対応付けられる状態変化を示し、2段目は「聴覚」に対応付けられる状態変化を示し、3段目は、「触覚」に対応付けられる状態変化を示している。なお、図5〜図7において、第1アクティブステートに相当する部分に斜線を付してある。
まず、図5を参照して説明する。図5の例では、時刻k5に、助手席の乗員から「オーディオ画面にして」という発話が入力され、運転者から「次の曲にして」という発話が入力される。これに対して、音声認識機器制御装置2から「次の曲を再生し、画面をオーディオ画面に変更します」という応答が出力される。そして、助手席の乗員からの発話により、ナビゲーションシステム5bにおいて、画面表示がオーディオ画面に変更される。この状態変化は、視覚に影響を及ぼすので、「視覚」に対応付けられ、アクティブステートS5として、時刻k5〜k5+Tの間、状態変化記憶手段7に記憶される。これと共に、運転者からの発話により、オーディオ5aにおいて、次の曲が再生される。この状態変化は、聴覚に影響を及ぼすので、「聴覚」に対応付けられ、アクティブステートS6として、時刻k5〜k5+Tの間、状態変化記憶手段7に記憶される。
図5に例示したように機器5a〜5cが状態変化している場合に、以下の発話例(e)のように運転者から発話が入力されたときの機器制御処理について説明する。発話例(e)は、時刻t5(k5<t5<k5+T)に、運転者から「キャンセル」という発話が入力される例である。時刻t5において、状態変化記憶手段7には、アクティブステートS5,S6が記憶されている。
まず、STEP101で、「キャンセル」という発話が入力される。次に、STEP102で、発話が運転者から入力されたことが特定される。次に、STEP103で、入力された発話の内容が認識される。このとき、認識された発話の内容は、いずれの感覚にも関連する可能性があるので、「視覚」「聴覚」「触覚」の全てに対応付けられる。次に、STEP104で、認識された発話の内容から、制御対象となる機器を特定する処理が実行される。このとき、「キャンセル」という発話の内容からは、制御対象となる機器を特定できないので、STEP105の判断結果がNOとなり、STEP106に進む。
STEP106で、状態変化記憶手段7に記憶されたアクティブステートS5,S6が読み込まれる。次に、STEP107で、第1アクティブステートS5が、認識された発話の内容に関連する第1アクティブステートの候補であるか否かが判断される。このとき、第1アクティブステートS5は、「視覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」「聴覚」「触覚」に含まれる。さらに、発話の内容により第1アクティブステートS5に対する制御が可能であるので、第1アクティブステートS5は、第1アクティブステートの候補とされる。
次に、STEP108で、第1アクティブステートの候補が1つであるので、第1アクティブステートS5が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がナビゲーションシステム5bであり、「キャンセル」という発話の内容が「画面表示をオーディオ画面に変更する」という状態変化に対して発せられた発話の内容だと特定される。そして、STEP115に進み、応答制御手段9により「画面を元に戻します」という応答文が生成されて応答出力手段8により出力され、ナビゲーションシステム5bにおいて、画面表示をオーディオ画面に変更される前の画面に戻す制御が実行される。このように、運転者の「キャンセル」という発話から、制御対象となるナビゲーションシステム5bを適切に特定して制御することができる。
次に、図6を参照して説明する。図6の例では、時刻k6に、助手席の乗員から「エアコン付けて」という発話が入力され、運転者から「地図を縮小」という発話が入力される。これに対して、音声認識機器制御装置2から「地図を縮小して、エアコンを付けます」という応答が出力される。そして、助手席の乗員からの発話により、エアコンディショナ5cがオン状態にされる。この状態変化は、風を吹き出すファン等の音が聴覚に影響を及ぼし、吹き出される風が触覚に影響を及ぼすので、「聴覚」「触覚」に対応付けられ、アクティブステートS7として、時刻k6〜k6+Tの間、状態変化記憶手段7に記憶される。これと共に、運転者からの発話により、ナビゲーションシステム5bにおいて、地図の画面表示が縮小される。この状態変化は、視覚に影響を及ぼすので、「視覚」に対応付けられ、アクティブステートS8として、時刻k6〜k6+Tの間、状態変化記憶手段7に記憶される。
図6に例示したように機器5a〜5cが状態変化している場合に、以下の発話例(f)のように運転者から発話が入力されたときの機器制御処理について説明する。発話例(f)は、時刻t6(k6<t6<k6+T)に、運転者から「やっぱり拡大」という発話が入力される例である。時刻t6において、状態変化記憶手段7には、アクティブステートS7,S8が記憶されている。
まず、STEP101で、「やっぱり拡大」という発話が入力される。次に、STEP102で、発話が運転者から入力されたことが特定される。次に、STEP103で、入力された発話の内容が認識される。このとき、認識された発話の内容は、視覚的なものであるので、「視覚」に対応付けられる。次に、STEP104で、認識された発話の内容から、制御対象となる機器を特定する処理が実行される。このとき、「やっぱり拡大」という発話の内容からは、制御対象となる機器を特定できないので、STEP105の判断結果がNOとなり、STEP106に進む。
STEP106で、状態変化記憶手段7に記憶されたアクティブステートS7,S8が読み込まれる。次に、STEP107で、第1アクティブステートS7が、認識された発話の内容に関連する第1アクティブステートの候補であるか否かが判断される。このとき、第1アクティブステートS7は、「聴覚」「触覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」と共通でないので、第1アクティブステートの候補がないと判断される。
次に、STEP110で、第2アクティブステートS8が、認識された発話の内容に関連する第2アクティブステートの候補であるか否かが判断される。このとき、第2アクティブステートS8は、「視覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」と共通である。さらに、発話の内容により第2アクティブステートS8に対する制御が可能であるので、第2アクティブステートS8は、第2アクティブステートの候補とされる。
次に、STEP111で、第2アクティブステートの候補が1つであるので、第2アクティブステートS8が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がナビゲーションシステム5bであり、「やっぱり拡大」という発話の内容が「地図の画面表示を縮小する」という状態変化に対して発せられた発話の内容だと特定される。そして、STEP115に進み、応答制御手段9により「画面を元に戻します」という応答文が生成されて応答出力手段8により出力され、機器制御手段6により、ナビゲーションシステム5bにおいて、地図の画面表示のサイズを縮小される前のサイズに戻す制御が実行される。このように、運転者の「やっぱり拡大」という発話から、制御対象となるナビゲーションシステム5bを適切に特定して制御することができる。
次に、図7を参照して説明する。図7の例では、時刻k7に、助手席の乗員から「急速冷房で、近くのレストラン探して」という発話が入力される。これに対して、音声認識機器制御装置2から「設定しました」という応答が出力される。そして、助手席の乗員からの発話により、ナビゲーションシステム5bにおいて、画面表示が検索画面に変更される。この状態変化は、視覚に影響を及ぼすので、「視覚」に対応付けられ、アクティブステートS9として、時刻k7〜k7+Tの間、状態変化記憶手段7に記憶される。これと共に、助手席の乗員からの発話により、エアコンディショナ5cがオン状態にされる。この状態変化は、風を吹き出すファン等の音が聴覚に影響を及ぼし、吹き出される風が触覚に影響を及ぼすので、「聴覚」「触覚」に対応付けられ、アクティブステートS10として、時刻k7〜k7+Tの間、状態変化記憶手段7に記憶される。
図7に例示したように機器5a〜5cが状態変化している場合に、以下の発話例(g)のように運転者から発話が入力されたときの機器制御処理について説明する。発話例(g)は、時刻t7(k7<t7<k7+T)に、運転者から「うるさい」という発話が入力される例である。時刻t7において、状態変化記憶手段7には、アクティブステートS9,S10が記憶されている。
まず、STEP101で、「うるさい」という発話が入力される。次に、STEP102で、発話が運転者から入力されたことが特定される。次に、STEP103で、入力された発話の内容が認識される。このとき、認識された発話の内容は、聴覚的なものであるので、「聴覚」に対応付けられる。次に、STEP104で、認識された発話の内容から、制御対象となる機器を特定する処理が実行される。このとき、「うるさい」という発話の内容からは、制御対象となる機器を特定できないので、STEP105の判断結果がNOとなり、STEP106に進む。
STEP106で、状態変化記憶手段7に記憶されたアクティブステートS9,S10が読み込まれる。次に、STEP107で、第1アクティブステートS9,S10が、認識された発話の内容に関連する第1アクティブステートの候補であるか否かが判断される。このとき、第1アクティブステートS9は、「視覚」に対応付けられており、これは発話の内容が対応付けられている「聴覚」と共通でない。一方、第1アクティブステートS10は、「聴覚」「触覚」に対応付けられており、これは発話の内容が対応付けられている「聴覚」と共通の種類を含む。さらに、発話の内容により第1アクティブステートS10に対する制御が可能であるので、第1アクティブステートS10は、第1アクティブステートの候補とされる。
次に、STEP108で、第1アクティブステートの候補が1つであるので、第1アクティブステートS10が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がエアコンディショナ5cで、「うるさい」という発話の内容が「オン状態にする」という状態変化に対して発せられた発話の内容だと特定される。そして、STEP115に進み、応答制御手段9により「エアコンのファンを弱めます」という応答文が生成されて応答出力手段8により出力され、エアコンディショナ5cの風量を減少する制御が実行される。このように、運転者の「うるさい」という発話から、制御対象となるエアコンディショナ5cを適切に特定して制御することができる。
なお、第1及び第2実施形態においては、音声認識機器制御装置2は、車両1に搭載されるものとしたが、車両以外の移動体や、家庭電化機器や、パーソナルコンピュータ等に搭載されるものとしてもよい。
本発明の第1実施形態である音声認識機器制御装置の機能ブロック図。 図1の音声認識機器制御装置における全体的な作動(音声認識による機器制御処理)を示すフローチャート。 図1の音声認識機器機器制御装置における機器の状態変化の一例を示すグラフ。 本発明の第2実施形態である音声認識機器制御装置における全体的な作動(音声認識による機器制御処理)を示すフローチャート。 本発明の第2実施形態である音声認識機器制御装置における機器の状態変化の一例を示すグラフ。 本発明の第2実施形態である音声認識機器制御装置における機器の状態変化の一例を示すグラフ。 本発明の第2実施形態である音声認識機器制御装置における機器の状態変化の一例を示すグラフ。
符号の説明
1…車両、2…音声認識機器制御装置、3…音声入力手段、4…音声認識手段、5a〜5c…機器、6…機器制御手段、7…状態変化記憶手段、8…応答出力手段、9…応答制御手段。

Claims (7)

  1. 使用者から発話が入力される音声入力手段と、
    前記音声入力手段に入力された発話の内容を認識する音声認識手段と、
    少なくとも前記音声認識手段により認識された発話の内容に基づいて、複数の機器のうちの制御対象となる機器を特定し、該特定した機器の動作を制御する機器制御手段とを備えた音声認識機器制御装置において、
    前記複数の機器の各機器における動作の状態変化のうち、少なくとも前記使用者からの発話により生じた状態変化以外の状態変化を、前記制御対象となる機器を特定するための第1補助情報として記憶する状態変化記憶手段を備え、
    前記機器制御手段は、前記音声認識手段により認識された発話の内容に基づいて、前記制御対象となる機器を特定する第1機器特定処理を実行し、該第1機器特定処理により該機器を特定できなかった場合には、少なくとも前記状態変化記憶手段により記憶された前記第1補助情報を、該機器を特定するために用いることを特徴とする音声認識機器制御装置。
  2. 前記状態変化記憶手段は、前記第1補助情報として、前記各機器において自動的に生じた状態変化を記憶することを特徴とする請求項1記載の音声認識機器制御装置。
  3. 前記音声入力手段は、前記使用者と該使用者以外の他者とから発話がそれぞれ入力され、
    前記音声認識手段は、前記音声入力手段に入力された発話の内容を、前記使用者からの発話の内容と前記他者からの発話の内容とに分別して認識し、
    前記状態変化記憶手段は、前記第1補助情報として、前記他者の発話により生じた前記各機器における動作の状態変化を記憶することを特徴とする請求項1記載の音声認識機器制御装置。
  4. 前記音声認識手段は、前記音声入力手段に入力された発話の内容を、人の有する感覚のうちの予め定められた複数種類の感覚のいずれかに対応付けて認識し、
    前記状態変化記憶手段は、前記第1補助情報を、前記複数種類の感覚のいずれかに対応付けて記憶し、
    前記機器制御手段は、前記第1機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第1補助情報のうちの、前記音声認識手段により認識した前記発話の内容が対応付けられた感覚の種類と同一の種類の感覚に対応する該第1補助情報を、該機器を特定するために用いることを特徴とする請求項1〜請求項3のうちいずれか1項記載の音声認識機器制御装置。
  5. 前記機器制御手段は、前記第1機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第1補助情報のうちの最新の第1補助情報を、該機器を特定するために用いることを特徴とする請求項1〜請求項4のうちいずれか1項記載の音声認識機器制御装置。
  6. 前記状態変化記憶手段は、前記第1補助情報に加えて、前記使用者の発話により生じた状態変化を、前記制御対象となる機器を特定するための第2補助情報として記憶し、
    前記機器制御手段は、前記第1機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第1補助情報を用いて、該機器を特定する第2機器特定処理を実行し、該第2機器特定処理により該機器を特定できなかった場合には、該状態変化記憶手段により記憶された前記第2補助情報を、該機器を特定するために用いることを特徴とする請求項1〜請求項5のうちいずれか1項記載の音声認識機器制御装置。
  7. 前記使用者への応答を出力する応答出力手段と、
    前記音声認識手段により認識された発話の内容に関連した前記第1補助情報が複数ある場合に、該複数の第1補助情報のうちから前記制御対象となる機器を特定するために用いる第1補助情報が絞り込まれるように、前記応答を制御する応答制御手段とを備えることを特徴とする請求項1〜請求項6のうちいずれか1項記載の音声認識機器制御装置。
JP2006048572A 2006-02-24 2006-02-24 音声認識機器制御装置 Expired - Fee Related JP4131978B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006048572A JP4131978B2 (ja) 2006-02-24 2006-02-24 音声認識機器制御装置
US11/656,943 US8484033B2 (en) 2006-02-24 2007-01-24 Speech recognizer control system, speech recognizer control method, and speech recognizer control program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006048572A JP4131978B2 (ja) 2006-02-24 2006-02-24 音声認識機器制御装置

Publications (2)

Publication Number Publication Date
JP2007226642A true JP2007226642A (ja) 2007-09-06
JP4131978B2 JP4131978B2 (ja) 2008-08-13

Family

ID=38445097

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006048572A Expired - Fee Related JP4131978B2 (ja) 2006-02-24 2006-02-24 音声認識機器制御装置

Country Status (2)

Country Link
US (1) US8484033B2 (ja)
JP (1) JP4131978B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015025856A (ja) * 2013-07-24 2015-02-05 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
WO2015098079A1 (ja) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置
JP2016148957A (ja) * 2015-02-10 2016-08-18 ホーチキ株式会社 機器管理装置、機器管理方法、及びプログラム
JP2017503282A (ja) * 2013-10-28 2017-01-26 自立 余 自然表現の処理方法、処理及び応答方法、装置、及びシステム
JP2018533036A (ja) * 2015-08-19 2018-11-08 華為技術有限公司Huawei Technologies Co.,Ltd. 通信方法、サーバー、およびデバイス
WO2018216914A1 (ko) * 2017-05-24 2018-11-29 네이버 주식회사 음성요청에 대응하는 정보 전달 향상을 위한 출력
WO2020144884A1 (ja) * 2019-01-11 2020-07-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 方法、制御装置、及びプログラム
JP2021182051A (ja) * 2020-05-18 2021-11-25 トヨタ自動車株式会社 エージェント連携装置

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
DE602007004620D1 (de) * 2007-10-01 2010-03-18 Harman Becker Automotive Sys Sprachgesteuerte Einstellung von Fahrzeugteilen
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
EP2863385B1 (en) * 2012-06-19 2019-03-06 NTT Docomo, Inc. Function execution instruction system, function execution instruction method, and function execution instruction program
US9293138B2 (en) * 2013-05-14 2016-03-22 Amazon Technologies, Inc. Storing state information from network-based user devices
EP3043348B1 (en) 2013-09-03 2017-10-04 Panasonic Intellectual Property Corporation of America Voice interaction control method
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US9552816B2 (en) 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
KR102596430B1 (ko) * 2016-08-31 2023-10-31 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
US10147423B2 (en) * 2016-09-29 2018-12-04 Intel IP Corporation Context-aware query recognition for electronic devices
KR102392087B1 (ko) * 2017-07-10 2022-04-29 삼성전자주식회사 원격 조정 장치 및 원격 조정 장치의 사용자 음성 수신방법
CN108597508B (zh) * 2018-03-28 2021-01-22 京东方科技集团股份有限公司 用户识别方法、用户识别装置和电子设备
CN112786046B (zh) * 2021-01-15 2022-05-17 宁波方太厨具有限公司 多设备语音控制方法、系统、设备及可读存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
JP3980791B2 (ja) * 1999-05-03 2007-09-26 パイオニア株式会社 音声認識装置を備えたマンマシンシステム
US20020193989A1 (en) * 1999-05-21 2002-12-19 Michael Geilhufe Method and apparatus for identifying voice controlled devices
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
US7010332B1 (en) * 2000-02-21 2006-03-07 Telefonaktiebolaget Lm Ericsson(Publ) Wireless headset with automatic power control
JP3827058B2 (ja) 2000-03-03 2006-09-27 アルパイン株式会社 音声対話装置
US6505161B1 (en) * 2000-05-01 2003-01-07 Sprint Communications Company L.P. Speech recognition that adjusts automatically to input devices
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
US6662137B2 (en) * 2000-12-19 2003-12-09 Hewlett-Packard Development Company, L.P. Device location discovery by sound
US7092886B2 (en) * 2000-12-19 2006-08-15 Hewlett-Packard Development Company, L.P. Controlling the order of output of multiple devices
US20020198714A1 (en) * 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
KR100438838B1 (ko) * 2002-01-29 2004-07-05 삼성전자주식회사 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법
JP4363076B2 (ja) * 2002-06-28 2009-11-11 株式会社デンソー 音声制御装置
WO2005062293A1 (ja) * 2003-12-05 2005-07-07 Kabushikikaisha Kenwood オーディオ機器制御装置、オーディオ機器制御方法及びプログラム
JP2006201749A (ja) * 2004-12-21 2006-08-03 Matsushita Electric Ind Co Ltd 音声による選択装置、及び選択方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015025856A (ja) * 2013-07-24 2015-02-05 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
JP2017503282A (ja) * 2013-10-28 2017-01-26 自立 余 自然表現の処理方法、処理及び応答方法、装置、及びシステム
US9753914B2 (en) 2013-10-28 2017-09-05 Zili Yu Natural expression processing method, processing and response method, device, and system
US9760565B2 (en) 2013-10-28 2017-09-12 Zili Yu Natural expression processing method, processing and response method, device, and system
WO2015098079A1 (ja) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置
JPWO2015098079A1 (ja) * 2013-12-26 2017-03-23 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置
US9905225B2 (en) 2013-12-26 2018-02-27 Panasonic Intellectual Property Management Co., Ltd. Voice recognition processing device, voice recognition processing method, and display device
JP2016148957A (ja) * 2015-02-10 2016-08-18 ホーチキ株式会社 機器管理装置、機器管理方法、及びプログラム
JP2018533036A (ja) * 2015-08-19 2018-11-08 華為技術有限公司Huawei Technologies Co.,Ltd. 通信方法、サーバー、およびデバイス
US11049499B2 (en) 2015-08-19 2021-06-29 Huawei Technologies Co., Ltd. Communication method, server, and device
US12094462B2 (en) 2015-08-19 2024-09-17 Huawei Technologies Co., Ltd. Communication method, server, and device
WO2018216914A1 (ko) * 2017-05-24 2018-11-29 네이버 주식회사 음성요청에 대응하는 정보 전달 향상을 위한 출력
US11341966B2 (en) 2017-05-24 2022-05-24 Naver Corporation Output for improving information delivery corresponding to voice request
WO2020144884A1 (ja) * 2019-01-11 2020-07-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 方法、制御装置、及びプログラム
JP2021182051A (ja) * 2020-05-18 2021-11-25 トヨタ自動車株式会社 エージェント連携装置
US11740865B2 (en) 2020-05-18 2023-08-29 Toyota Jidosha Kabushiki Kaisha Agent coordination device, agent coordination method and recording medium
JP7347324B2 (ja) 2020-05-18 2023-09-20 トヨタ自動車株式会社 エージェント連携装置

Also Published As

Publication number Publication date
US20070203699A1 (en) 2007-08-30
JP4131978B2 (ja) 2008-08-13
US8484033B2 (en) 2013-07-09

Similar Documents

Publication Publication Date Title
JP4131978B2 (ja) 音声認識機器制御装置
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
JP4260788B2 (ja) 音声認識機器制御装置
US10365887B1 (en) Generating commands based on location and wakeword
US10706853B2 (en) Speech dialogue device and speech dialogue method
EP3496098A1 (en) Generating personalized audio content based on mood
EP1450349B1 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
JP2008058409A (ja) 音声認識方法及び音声認識装置
JPWO2017145373A1 (ja) 音声認識装置
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP2004510239A (ja) ディクテーションとコマンドの区別を向上させる方法
US10431221B2 (en) Apparatus for selecting at least one task based on voice command, vehicle including the same, and method thereof
JP2002511154A (ja) ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム
JP2017090612A (ja) 音声認識制御システム
JP3842497B2 (ja) 音声処理装置
JP2009251388A (ja) 母国語発話装置
JP4905522B2 (ja) 機器制御装置、機器制御方法及びプログラム
JP7274404B2 (ja) 情報提供装置、情報提供方法、およびプログラム
KR20220073513A (ko) 대화 시스템, 차량 및 대화 시스템의 제어 방법
JP2007101892A (ja) 音声認識装置
JP2009025411A (ja) 音声認識装置およびプログラム
JP2008157987A (ja) 対話制御装置、対話制御方法及び対話制御プログラム
JP2007286376A (ja) 音声案内システム
JP7175221B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2004029354A (ja) 音声認識装置、音声認識方法及び音声認識プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080527

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080529

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4131978

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130606

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130606

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140606

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees