JP2004234273A - 対話型端末装置及び対話アプリケーション提供方法 - Google Patents

対話型端末装置及び対話アプリケーション提供方法 Download PDF

Info

Publication number
JP2004234273A
JP2004234273A JP2003021298A JP2003021298A JP2004234273A JP 2004234273 A JP2004234273 A JP 2004234273A JP 2003021298 A JP2003021298 A JP 2003021298A JP 2003021298 A JP2003021298 A JP 2003021298A JP 2004234273 A JP2004234273 A JP 2004234273A
Authority
JP
Japan
Prior art keywords
application
voice
input
terminal device
global command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003021298A
Other languages
English (en)
Other versions
JP4107093B2 (ja
Inventor
Toshihiro Kujirai
俊宏 鯨井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003021298A priority Critical patent/JP4107093B2/ja
Priority to US10/765,913 priority patent/US7505910B2/en
Publication of JP2004234273A publication Critical patent/JP2004234273A/ja
Application granted granted Critical
Publication of JP4107093B2 publication Critical patent/JP4107093B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3667Display of a road map
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3679Retrieval, searching and output of POI information, e.g. hotels, restaurants, shops, filling stations, parking facilities
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3691Retrieval, searching and output of information related to real-time traffic, weather, or environmental conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Atmospheric Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Environmental Sciences (AREA)
  • Navigation (AREA)

Abstract

【課題】本発明の課題は、多数のアプリケーションが同時にシステム上に存在するカーナビゲーションシステムにおいて,誤認識率を減らして使いやすいユーザインタフェースを実現することである。
【解決手段】各アプリケーションの状態に応じて,各グローバルコマンドを有効にしたり,無効にしたりする。
【効果】本発明によれば、多数のアプリケーションが同時にシステム上に存在するカーナビゲーションシステムにおいて,各アプリケーションの状態に応じて適切なグローバルコマンドを有効にすることで,誤認識率を減らし,誤動作を防ぎ,一発声で複数のアプリケーションを実行するなど,使いやすいユーザインタフェースを実現できる。
【選択図】 図6

Description

【0001】
【発明の属する技術分野】
本発明は、複数のアプリケーションを同時に実行可能な音声対話装置に関するものである。
【0002】
【従来の技術】
複数のアプリケーションが1つのシステム上に同時に存在する場合,アプリケーション自体を同時に実行することは可能であるが,ユーザの観点から見るとユーザが同時操作可能なアプリケーションの数はごく少なく,たいていの場合一つである。特に,音声による対話によって操作を行う場合は,同時にユーザと対話を行うアプリケーションは1つに限ることが望ましい。一方,ユーザが対話中のアプリケーション以外のアプリケーションを操作することを望んだ場合に,そのアプリケーションに対応づけられたコマンドを発声することで,発声されたコマンドに対応したアプリケーションとの対話にシステム状態を移行したり,特定の機能を実行できれば、いちいちメニューに戻ってからアプリケーションを選択するのではなく,直接アプリケーションを音声で操作できてユーザの満足度の観点から重要である。
【0003】
従来の対話型ユーザインタフェース装置では,ユーザの発声内容が現在実行しているアプリケーション以外に対する発声であることを検知して,現在対話中の音声対話アプリケーションから、発声内容の対象とする音声対話アプリケーションに実行を移すことによって,自然な対話を実現する方法が採られている(例えば、特許文献1参照)。
【0004】
また,従来のカーナビゲーションシステムは,カーナビゲーションシステムの開発メーカが,そのカーナビゲーションシステムで実行されるすべてのプログラムをあらかじめインストールした状態で販売する形式であった。この場合,どのようなシステムの状態においても,正常に対話が実行されるように調整をすることが可能であった。
【特許文献1】特開2001−56694号公報
【発明が解決しようとする課題】
現在の音声認識システムは完全ではなく,認識対象となるコマンドの数が多くなるほど認識率が低下する。
よって、例えばカーナビゲーション等に例示されるように端末の機能が高機能化し,より多くのアプリケーションがインストールされるようになった場合,アプリケーションに応じたコマンドの管理が要求されるためその数が非常に多くなり、上述の様に認識率の低下につながる。
【0005】
また,携帯電話を通じて,インターネットからアプリケーションをダウンロード可能なカーナビゲーションが開発されているが、この様にどのようなアプリケーションがインストールされるか想定できない状態にあっては,システムが取りうる状態をあらかじめ全て数え上げて,それぞれの状態に応じて認識対象となるグローバルコマンドを適切に設定すること、例えば、上記のアプリケーション間の調整を取って管理すべきコマンドの数を減らす等の調整を取ることは不可能である。
【0006】
よって、本願では、上記の様に、多くの音声対話アプリケーションを管理する装置において認識率を向上し、かつユーザとって使いやすい対話型ユーザインタフェース装置を提供することを課題とする。
【0007】
【課題を解決するための手段】
上記課題を解決するために、本願の開示する代表的な発明を概説すれば以下の通りである。
【0008】
本発明の端末装置は,少なくとも,複数のアプリケーションを制御する制御部と、音声入力部と、上記音声入力部を介した入力を音声認識する音声認識エンジンと、ユーザが対話中のアプリケーション以外の上記複数のアプリケーションとの対話を可能とするグローバルコマンドを記録する記録部とから構成される。そして,上記制御部は、上記音声認識結果が上記グローバルコマンドである場合には該グローバルコマンドに対応づけられたアプリケーションを実行し、上記複数の各アプリケーションの状態に応じて上記グローバルコマンドを管理することで,上記の課題を解決する。
【0009】
【発明の実施の形態】
以下、本願の開示する発明について詳細に説明する。尚,本願において記載する。
【0010】
グローバルコマンドとは,複数の音声対話アプリケーションのうちユーザと対話を行っているアプリケーション以外のアプリケーション,及び対話を行っているアプリケーションに何らかの動作をさせるために用いられるコマンドである。ユーザが対話中のアプリケーション以外のアプリケーションを操作することを望んだ場合に,そのアプリケーションに対応づけられたコマンドを発声することで,発声されたコマンドに対応したアプリケーションとの対話にシステム状態を移行したり等の機能を実現できる。又、必要に応じて、そのコマンドの端末装置内や,サーバ内での内部表現を意味することもある。
【0011】
次に、図を用いて、本発明の実施例を説明する。
【0012】
図1は、対話型端末装置の一実施例である。
端末装置10は,音声入力部11と,音声認識エンジン12と,記録部13と,制御部14と,1つないし複数のアプリケーション15a〜cで構成されている。
【0013】
音声入力部11は,例えば車のサンバイザー部に装着したマイクなどが考えられる。音声認識エンジン12は,記録部13に記録されているグローバルコマンドのうち,制御部14が指定したグローバルコマンドと,対話中のアプリケーション15がユーザと行っている対話に必要なコマンドであるローカルコマンドを認識対象とし,音声入力部11によって入力された音声を認識して,どのグローバルコマンドが発声されたかを決定する。
【0014】
制御部14は,この音声認識結果を受け取り,グローバルコマンドに対応づけられたアプリケーション15を実行する。グローバルコマンドとアプリケーション15の対応付け方法としては,各グローバルコマンドにアプリケーション15a〜cのうち対応するアプリケーションを特定するためのID情報を付与する方法が考えられる。制御部14は各アプリケーション15の状態の変化に応じて,各アプリケーションの状態に応じて,音声認識エンジン12が認識対象すべきグローバルコマンドを指定する。アプリケーションの状態監視については各アプリケーションから動作状態が変化した旨の通知を受けて制御部で管理することができる。又図13に示す様に監視部134を設けて,アプリケーション133の動作状態を監視させ、アプリケーション133の動作状態が変化した場合に,監視部から制御部131に通知する構成をとることもできる。このような構成をとることによって,アプリケーション133に制御部14に状態を通知するための仕組みを設けておく必要がなくなるという効果がある。
【0015】
制御部のグローバルコマンド管理については、例えば、図2のようなテーブルを記録部13に持ち,各グローバルコマンドに対応づけて,対応アプリケーションID(対応アプリID),グローバルコマンドが有効になるアプリケーション状態,現在グローバルコマンドが有効になっているかどうかのフラグなどの情報を記録し管理する。各アプリケーション15は,起動されたときや,停止したとき,またユーザとの優先的な対話を行う権利を持ったときなどに,それを制御部14に通知し,制御部14は上記フラグを書き換える。
【0016】
例えば,アプリケーションが停止しているときは,そのアプリケーションを起動させるためにアプリケーションの名前をグローバルコマンドとして有効にしておき,起動された後では,より具体的な操作を可能とするために複数の操作コマンドが有効になり,先に有効となっていたアプリケーションの名前はグローバルコマンドとして無効になるといった使い方が考えられる。
【0017】
尚、各アプリケーションの動作状態を表現する方法はいろいろ考えられるが,例えば、インストールされているが起動はされていない状態,起動されているがユーザと対話は行っていない状態,ユーザと対話を行っている状態のそれぞれでは,必要とされるグローバルコマンドが大きく異なる上に,アプリケーションの種類によらず普遍的な状態であることからこのような動作状態の変化に応じてグローバルコマンドを管理すれば良い。
【0018】
グローバルコマンドは音声認識のための文法として標準的なSRGF(Speech Recognition Grammar Format)で記述することが考えられる。この場合,文法を直接記述する場合や文法を記述したファイル名を記述する。
【0019】
図3に,この端末装置の制御フローを記す。
音声認識が実行(30)された後,認識結果が正常であるかどうかを調べる(31)。認識結果が正常ではなかった場合,エラー処理が行われる(35)。エラー処理としては,ユーザに発声を促すガイダンスを出力して再び処理30に戻るというような処理が考えられる。認識結果が正常であった場合,認識結果が現在対話中のアプリケーションに対する対話コマンドであるローカルコマンドに対応しているかどうかを判定する(32)。ローカルコマンドだった場合,,該ローカルコマンドに対応づけられた現在対話中のアプリケーションの処理を実行する(36)。認識結果がローカルコマンドでなかった場合,それはグローバルコマンドであるとして,グローバルコマンドに対応するすべてのアプリケーションのIDを図2のようなテーブルから参照し取得する(33)。そして,取得したIDに対応したアプリケーションそれぞれに対して,認識されたグローバルコマンドに対応づけられた処理の実行を命令する(34)。
【0020】
このような制御フローにより,ローカルコマンドとグローバルコマンドに同じコマンドがあった場合,ローカルコマンドが優先されて実行される。これによって,対話中のアプリケーションに対する対話コマンドと同じ対話コマンドが他のアプリケーションのグローバルコマンドであった場合に,対話の流れを損なうことなく,対話中のアプリケーションとの対話を続けることができる効果が得られる。
【0021】
ユーザのグローバルコマンド発声に対して実際の処理を行うため,各グローバルコマンドに対応した処理情報が必要となる。グローバルコマンドに対応した機能を表す情報は,記録部13に保持することも考えられるが,アプリケーション15に保持することが望ましい。各アプリケーション15に図14のようなテーブルを付与し,各アプリケーション15の現在の状態と,ユーザが発声したコマンドに対応した機能を表す情報を記録しておくことが考えられる。
【0022】
以上の構成をとることで、制御部は入力されたグローバルコマンドに対応づけられたアプリケーションに実行命令を通知することで、処理が実行される。
【0023】
各アプリケーションの取りうる状態の数は,システム全体が取りうる状態の数に比べて小さいため,各アプリケーションの状態と認識対象となるグローバルコマンドを対応づけて管理することで,効率的な管理が可能になる。このようにアプリケーションの状態に応じて認識対象となるグローバルコマンドを変えることにより,一度に認識対象となるコマンドの数が減るため,処理量を減らすことが出来るだけでなく,状況にそぐわないコマンドが誤認識によって実行されてしまうことも防ぐという効果が得られる。
【0024】
グローバルコマンドとアプリケーション15の対応付けは1対1に限られたものではなく,1つのアプリケーション15が複数のグローバルコマンドを持つことも考えられるし,1つのグローバルコマンドが複数のアプリケーション15に対応づけられており,ユーザの1回の発声で複数のアプリケーション15を同時に実行させることも考えられる。例えば図2に示す例の場合、「しゅうへんじょうほうけんさく」というコマンドはアプリケーションIDが2及び5のアプリケーション15に対応づけられている。
【0025】
更に、上述のように、図14(b)テーブルをアプリケーション15で保持することで,グローバルコマンドに対応づけられたアプリケーション15が複数あった場合でも,それぞれのアプリケーション15が別の機能を実行できるというメリットがある。例えば,「目的地設定」というグローバルコマンドが発声された場合であっても,該コマンドに目的地設定アプリと渋滞情報アプリが対応づけられていた場合、目的地設定アプリはユーザとの対話を開始し、渋滞情報アプリは周辺の渋滞情報を取得して準備するといったことが可能となる。
【0026】
また,異なるアプリケーションが同じグローバルコマンドを持つ場合でも,対話中の状態にそれらのグローバルコマンドを対応づけておくことで,ユーザと対話中のアプリケーション15だけが,ユーザに要求された処理を行うことができる。例えば図4においては、ヘルプというコマンドはアプリケーションID1及び3に対応づけられている。現在対話中の状態にあるのはアプリケーションIDが1のアプリケーション15であり,それに対応したID番号1のグローバルコマンドのフラグだけが有効になっている。従って,ユーザが「ヘルプ」と発声した場合,アプリケーションIDが1のアプリケーション15のヘルプ処理が実行される。
【0027】
本発明の構成においては,対話中のアプリケーションに対してもローカルコマンドとは別にグローバルコマンドも利用することができる。対話中のアプリケーション15は,ユーザにガイダンスを出すなどしてユーザの次の発声を誘導することが望ましく,ローカルコマンドは誘導されたユーザ発声を認識対象として設計することが望ましい。一方,ユーザは上記のような誘導とは関係なく,操作に迷ったときにヘルプを呼び出す可能性がある。ローカルコマンドが対話の流れによって時々刻々と変化していくのに比べて,対話の流れとは無関係なコマンドは変化の頻度が少ない。そこでローカルコマンドとは別にグローバルコマンドとして管理するのが効率的である。
【0028】
以上によって,本発明では,複数のアプリケーションがシステム上に存在する場合に,各アプリケーションの状態に応じて,グローバルコマンドを管理する対話型端末装置を提供することができる。
【0029】
尚、上記の実施例では,グローバルコマンドを記録しておく記録部13と,音声認識エンジン12は,システム中に一つしか存在しなかったが,本発明はこのような構成に限定されるものではなく,図5の端末装置50のように,複数の音声認識エンジン51と記録部53を持ち,各アプリケーション15と対応づけることも考えられる。この場合,制御部52では複数の認識結果を音声認識エンジン51から受け取ることになる。このとき制御部52がどの認識結果を用いるべきかを決定するために,音声認識エンジン51が認識結果にスコア情報を付与することが考えられる。
【0030】
このような構成にすることにより,各認識エンジン51を認識対象とするグローバルコマンドの種別毎に特化し,処理効率を上げると共に認識率を高めることができる。例えば,認識エンジン51aでは連続単語認識を行い,認識エンジン52aでは連続数字認識を行い,認識エンジン53aでは地名認識を行うといった使い方が考えられる。
【0031】
図6は,対話型端末装置の第3の実施例である。
この端末装置60は,音声入力部11と,音声認識エンジン67と,入力部61と,記録部62と,通信部63と,制御部65と,1つないし複数のアプリケーション66で構成されている。
【0032】
図1で記した実施例に対して,図4に記した実施例では,新たに入力部61と通信部63が構成要素として追加されている。通信部63によって,端末装置60は外部のサーバ64にアクセスし,アプリケーション66をダウンロードすることが可能になる。ダウンロードの仕組みは,例えばOSGi(Open Services Gateway Initiative)の仕様に基づいた方式を用いることができる。
【0033】
尚、音声認識エンジン67や,制御部65も端末装置60で実行される実行プログラムとして構成することが考えられる。この場合,これらの実行プログラムの改良版が開発された場合も,通信部63を通じてダウンロードし,従来のものと置き換えることで,端末装置60をアップデートすることも可能である。
【0034】
このような方法によって,ユーザは端末装置を購入した後に作成されたアプリケーション66を利用することができたり,より性能の高い音声認識エンジン67を利用することができるようになる。また,このようなアップデート機能によって,ユーザは端末装置を頻繁に買い換える必要がなくなるというメリットもある。
【0035】
ダウンロードされたアプリケーション66には,グローバルコマンドに関する情報を含めておくことが望ましい。アプリケーション66にグローバルコマンドに関する情報を含めておくことで,ダウンロードされたアプリケーション66に関してもあらかじめインストールされているアプリケーション66と同様に音声対話によって操作が可能になるからである。
【0036】
この場合、例えばグローバルコマンドに関する情報は,図7のように,グローバルコマンドに関する情報を,アプリケーション15の状態に応じて分類して、上記アプリケーションプログラムの情報ヘッダ等に格納しておく。
【0037】
図8に,アプリケーション66がダウンロードされた場合の,端末装置の処理フローの一例を示す。制御部65は,アプリケーション66が通信部63を通じてダウンロードされるのを監視する(80)。ダウンロードは例えば端末装置の入力手段を介したユーザからの要求指示に応じてサーバから送られてきてもよいし、サーバから自動的に送信されてくることもある。アプリケーション66がダウンロードされた場合,そのアプリケーション66が保持しているグローバルコマンドに関する情報を,図2のような管理テーブルに追加する(81)。アプリケーション66が保持しているグローバルコマンドに関する情報には,各グローバルコマンドが有効か無効かに関する情報は含まれていないため,追加したグローバルコマンドが全て無効になるように管理テーブルを書き換える(82)。その後で,インストール時登録に分類されているグローバルコマンドが有効になるように,管理テーブルを書き換える(83)。
【0038】
以上の動作をアプリケーションダウンロード時に行うことによって,起動時登録グローバルコマンドや,対話時登録グローバルコマンドに関しては,記録部62への記録はインストール時に行われるが,実際に認識対象としてのフラグが立てられるのは,アプリケーション66が状態の変化を制御部65に通知した場合となる。
【0039】
図16は,上記実施例を実施する音声対話アプリケーション提供のためのシステム構成の一実施例である。
複数の端末装置160と,サーバ162はネットワーク161を介して接続されている。サーバ162には,音声対話アプリケーション163が例えばHDD装置などによって記録されている。音声対話アプリケーション163は,図5で説明したようにアプリケーションの状態によって分類されたグローバルコマンドと関連づけられており,これらのグローバルコマンドも同様にHDD装置などに記録されている。端末装置160から,音声対話アプリケーション163のダウンロードをネットワーク161を介して要求した場合,サーバ162は,音声対話アプリケーション163とそれに関連づけられたグローバルコマンドを端末装置160に送信する。
【0040】
次にグローバルコマンドの編集について説明する。ユーザによって利用するアプリケーションの機能は異なるため,利用されるコマンドはユーザに依存するのが普通である。起動時登録コマンドの中でも,ユーザがほとんど利用しないコマンドがある場合,ユーザが明示的に認識対象から除外することで,システムの誤動作の可能性を低くすることが可能となる。また,一部のユーザしか頻繁に利用しないと考えられるコマンドを,最初から起動時登録コマンドに分類してしまうと,コマンドの数が多くなってしまい,認識率が低下することが考えられる。このような場合を想定して,図9のように,ユーザカスタマイズグローバルコマンドという分類を設けておくことが考えられる。この分類のコマンドは,デフォルトではアプリケーション66の状態によって認識対象とせず,ユーザが明示的に認識対象として設定することを想定している。ユーザは入力部61によって,記録部62に記録されている図10のような管理テーブルを編集し,各グローバルコマンドを認識対象とするかどうかを決定する。入力部61としては,リモコンやタッチパネルなどを利用することが考えられる。
【0041】
図11に,ユーザがグローバルコマンドを編集する場合の端末装置の表示画面の一例を示す。グローバルコマンドを編集する画面(図11a)から,リモコンの上下ボタンなどによってグローバルコマンドを編集するアプリケーション66を選択し決定ボタンなどを押すと,選択したアプリケーション66に対応したグローバルコマンドのリストが表示される(図11b)。このうち編集可能なグローバルコマンドから、リモコンの上下ボタンなどによって編集対象を選択し,決定ボタンを押すと「設定」の欄が「自動」「ON」「OFF」のように切り替わる。
【0042】
自動に設定した場合,図11の画面の「起動用」「実行中」「対話中」の各状態に対応づけられたON・OFFの情報に従ってグローバルコマンドが有効になるかどうかが決まる。これがデフォルトの状態である。一方,「設定」の欄を「ON」に設定した場合には,アプリケーション66の状態にかかわらず,そのグローバルコマンドは常に有効となる。同様に,「OFF」に設定した場合は常に無効となる。
【0043】
上記の例では,ユーザが「ON」または「OFF」に設定したグローバルコマンドはアプリケーション66の状態にかかわらず,有効かどうかが決まっているが,図12のような画面で各アプリケーション状態に対応したフラグを変更するようにして,図2のような管理テーブルの「状態」の欄を書き換えれば,アプリケーション状態に応じた文法の有効・無効をユーザが決定できるようにすることも可能である。さらに新たにコマンドを追加設定できるようにすることも考えられる。これによりよりユーザの嗜好を反映した使いやすい端末が実現できる。
【0044】
図13は,対話型端末装置の第4の実施例である。
この端末装置130は,図1の端末装置10に加えて入力部132と監視部134が追加された構成となっている。入力部132は,ユーザがシステムとの対話を希望していることを通知するためのものであり,例えばハンドルに取り付けたスイッチなどで実現される。
【0045】
ユーザがシステムと対話を開始するとき,現在の音声技術のレベルでは,なんらかの入力によって対話を開始することをシステムに伝えることが音声認識率向上のためにも有効である。また,ユーザはグローバルコマンドに関する知識を持っていない場合も考えられるので,ユーザからの対話開始を伝える入力があった場合に,システム側からガイダンスを流して対話を誘導することも考えられる。このとき対話を開始するアプリケーションは,状況に応じて1つに決めておくことが望ましく,このアプリケーションを「対話中」の状態であるとする。
制御部131は,入力部132からの入力に応じて,「対話中」の状態にあるアプリケーション、例えば133aにユーザとの対話を開始するように通知する。通知を受けたアプリケーション133aは,ユーザに発声を促すためのガイダンスを出力するなどして,対話を開始する。
【0046】
一方、システムに慣れたユーザはシステム側のガイダンスを遮ってグローバルコマンドを発声することで,速やかな操作性を希望することが考えられる。ガイダンスを遮る方法としては,グローバルコマンドの発声自体を検出する方式も考えられるが,より確実な方法としてガイダンスを遮るための入力をシステムにユーザが与えることで,ガイダンスが停止し,ユーザの音声入力待ちの状態になることで,システムに慣れたユーザの満足度を向上できる。ガイダンスを遮るための入力は,対話を開始することをシステムに伝える図13に記載の入力部132で兼用することが可能であるが,別の入力部を設けても良い。別の入力部としては,ハンドルにスイッチを2つ取り付け,片方を入力部132として利用し,もう片方をこの目的に利用することが考えられる。
例えばカーナビを想定すると走行中の車内など騒音レベルの高い環境では,音声入力は誤動作を引き起こす可能性があるため、本構成により確実な処理を行えるという効果が得られる。
【0047】
ユーザがグローバルコマンドを発声して,対話中のアプリケーション133a以外のアプリケーション133bを操作する場合,常にそのアプリケーション133bに対話を移す必要はなく,ユーザが所望の動作をそのアプリケーション133bが行いさえすれば,対話自体はもとのアプリケーション133aと続けた方がいい場合がある。このような状況に対して,アプリケーション133にコマンドに対応した処理を実行後にユーザとの対話を開始するかどうかを判定するための情報を持たせておくことが考えられる。本発明では,上記のような状況を可能にする情報、つまりコマンド指示を受けた場合にその後の対話を該アプリケーションに移行するかの優先を決定する情報を優先度と呼ぶ。
具体的には,図15のように図14(b)のテーブルに優先度の情報を追加したテーブルを,各アプリケーションに保持しておく。ユーザが発声したグローバルコマンドに対応した機能を実行した後に,この優先度情報に応じて,ユーザとの対話を行うかどうかを決定することができる。
【0048】
例えば、図15に示すコマンドを管理するアプリケーション133bが起動状態にあり、さらに、VOLUMEUPのコマンドがアプリケーション133bのグローバルコマンドとして登録されて有効になっているとする。この状態でVOLUMEUPのコマンドが発声されると、制御部131は,VOLUMEUPコマンドに対応したアプリケーション133bにVOLUMEUPコマンドの実行を命令する。アプリケーション133bは,図15のテーブルを参照して,VOLUMEUPコマンドに対応した,ボリュームを1段階上げるという動作を実行する。この処理に際して,アプリケーション133bは優先度に関する情報も参照し,この場合優先度が低いため,アプリケーション133bの状態は「起動」のまま変化せず,ユーザとの対話は行われない。従って,ユーザが再び入力部132によって対話の開始を通知した場合,もとのアプリケーション133aが対話を開始することになる。
【0049】
一方,上記の状況でSELECTのコマンドが発声された場合,アプリケーション133bは優先度に関する情報を参照し,優先度が高いのでアプリケーションの状態は「対話中」になり,制御部131に状態の変化を通知する。さらにアプリケーション133bはDIALOG(SELECT)という処理を実行する。この例では,曲名の選択を行うためのユーザとの対話を行うことを想定している。
【0050】
この例では,アプリケーション133の状態に関する情報や,優先度に関する情報はテーブルに記録してあり,これを参照するものとして説明したが,どちらの情報も利用者の利用状態に応じて変化する。例えば本端末装置がカーナビで有る場合には、,テーブルから参照するのではなく,必要なときに走行状態の情報などからその場で,どのアプリケーション133が「対話」状態になるべきかを決めたり,コマンドが発声された後で対話を行うかを決めたりすることも考えられる。
【0051】
【発明の効果】
本発明によれば、多数のアプリケーションが同時にシステム上に存在するカーナビゲーションシステムにおいて,各アプリケーションの状態に応じて適切なグローバルコマンドを有効にすることで,誤認識率を減らし,誤動作を防ぎ,一発声で複数のアプリケーションを実行するなど,使いやすいユーザインタフェースを実現できる。
【図面の簡単な説明】
【図1】対話型端末装置の一実施例を説明する構成図。
【図2】グローバルコマンドの管理テーブルの一実施例を説明する図。
【図3】音声認識結果の処理の一実施例を説明する流れ図。
【図4】グローバルコマンドの管理テーブルの一実施例を説明する図
【図5】対話型端末装置の一実施例を説明する構成図。
【図6】対話型端末装置の一実施例を説明する構成図。
【図7】グローバルコマンドの分類の一実施例を説明する図。
【図8】アプリケーションダウンロード時の処理の一実施例を説明する流れ図。
【図9】グローバルコマンドの分類の一実施例を説明する図。
【図10】ユーザカスタマイズ可能なグローバルコマンド管理テーブルの一実施例を説明する図。
【図11】グローバルコマンド編集画面の一実施例を説明する図。
【図12】グローバルコマンド編集画面の一実施例を説明する図。
【図13】対話型端末装置の一実施例を説明する構成図。
【図14】アプリケーションが保持する情報の一実施例を説明する図。
【図15】アプリケーションが保持する情報の一実施例を説明する図。
【図16】音声対話アプリケーション提供方法の一実施例を説明する構成図。
【符号の説明】
10・・・端末装置
11・・・音声入力部
12・・・音声認識エンジン
13・・・記録部
14・・・制御部
15・・・アプリケーション
50・・・端末装置
51・・・音声認識エンジン
52・・・制御部
53・・・記録部
60・・・端末装置
61・・・入力部
62・・・記録部
63・・・通信部
64・・・サーバ
65・・・制御部
66・・・アプリケーション
130・・・端末装置
131・・・制御部
132・・・入力部
133・・・アプリケーション
134・・・監視部
160・・・端末装置
161・・・ネットワーク
162・・・サーバ
163・・・アプリケーション。

Claims (10)

  1. 複数の音声対話アプリケーションを制御する制御部と、
    音声入力部と、
    上記音声入力部を介した入力を音声認識する音声認識エンジンと、
    対話中のアプリケーション及び該対話中のアプリケーション以外の上記複数のアプリケーションとの対話を可能とするグローバルコマンドを記録する記録部とを有し、
    上記制御部は、上記複数の各アプリケーションの動作状態毎に対応づけて上記グローバルコマンドを管理し、上記音声認識結果が上記グローバルコマンドである場合には該グローバルコマンドに対応づけられた処理を実行することを特徴とする端末装置。
  2. 上記制御部は、上記対話中のアプリケーション及び該対話中のアプリケーション以外の複数のアプリケーションの動作状態がインストール状態、起動中、対話中の何れの状態にあるかに応じて異なるグローバルコマンドを管理することを特徴とする請求項1記載の端末装置。
  3. 入力部をさらに有し、
    上記制御部は、上記入力部を介した入力に基づき上記グローバルコマンドを追加、削除又は変更の何れかを行うことを特徴とする請求項1又は2に記載の端末装置。
  4. 外部サーバとネットワークを介して接続される通信部をさらに有し、
    上記制御部は、上記通信部を介して上記アプリケーションを取得した際に該アプリケーションに含まれるグローバルコマンドを上記記録部に読み込むことを特徴とする請求項1乃至3の何れかに記載の端末装置。
  5. 上記制御部は、上記音声認識結果が上記グローバルコマンドでない場合には、上記対話中のアプリケーションへの入力として処理することを特徴とする請求項1乃至4の何れかに記載の端末装置。
  6. 上記アプリケーションは、優先度に関する情報を有し、
    上記制御部は、上記入力部を介して上記グローバルコマンドが入力された場合に、上記優先度に応じて、該アプリケーションとの対話を開始するか判定することを特徴とする請求項1乃至5の何れかに記載の端末装置。
  7. 上記制御部は、入力部からの入力に応じて上記アプリケーション対話を開始することを特徴とする請求項1乃至6の何れかに記載の端末装置。
  8. 上記制御部は、入力部からの入力に応じて、上記アプリケーションの音声処理を停止して、音声入力待ちの状態にすることを特徴とする請求項1乃至7の何れかに記載の端末装置。
  9. 記録手段に記録される複数の音声対話アプリケーションを、接続される複数の端末からの要求に応じて上記音声対話アプリケーションを提供する方法であって、上記音声対話アプリケーションは、上記端末で該アプリケーションが対話中以外の場合にも該端末利用者と該アプリケーションとの対話を可能とするグローバルコマンドを有し、該グローバルコマンドは該アプリケーションの動作状態に応じて分類管理されていることを特徴とする音声対話アプリケーション提供方法。
  10. 複数の音声対話アプリケーションを記録する記録手段と、
    音声入力手段と、
    上記音声入力手段からの音声入力を認識する音声認識手段と、
    対話中のアプリケーション以外の上記アプリケーションとの対話を可能とするグローバルコマンドを記録管理する手段とを有し、
    上記音声認識手段は、アプリケーションの動作状態に応じて異なるグロバールコマンドを認識することを特徴とする端末装置。
JP2003021298A 2003-01-30 2003-01-30 対話型端末装置及び対話アプリケーション提供方法 Expired - Fee Related JP4107093B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003021298A JP4107093B2 (ja) 2003-01-30 2003-01-30 対話型端末装置及び対話アプリケーション提供方法
US10/765,913 US7505910B2 (en) 2003-01-30 2004-01-29 Speech command management dependent upon application software status

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003021298A JP4107093B2 (ja) 2003-01-30 2003-01-30 対話型端末装置及び対話アプリケーション提供方法

Publications (2)

Publication Number Publication Date
JP2004234273A true JP2004234273A (ja) 2004-08-19
JP4107093B2 JP4107093B2 (ja) 2008-06-25

Family

ID=32950671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003021298A Expired - Fee Related JP4107093B2 (ja) 2003-01-30 2003-01-30 対話型端末装置及び対話アプリケーション提供方法

Country Status (2)

Country Link
US (1) US7505910B2 (ja)
JP (1) JP4107093B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146182A (ja) * 2004-11-16 2006-06-08 Microsoft Corp 音声コマンドを明瞭化する集中化された方法およびシステム
JP2007226098A (ja) * 2006-02-27 2007-09-06 Denso Corp 音声認識装置
US8005673B2 (en) 2007-04-17 2011-08-23 Honda Motor Co., Ltd. Voice recognition device, voice recognition method, and voice recognition program
US8041574B2 (en) 2006-09-29 2011-10-18 Kabushiki Kaisha Toshiba Dialog apparatus, dialog method, and computer program
WO2016063621A1 (ja) * 2014-10-24 2016-04-28 株式会社ソニー・コンピュータエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
JP2016099479A (ja) * 2014-11-20 2016-05-30 アイシン・エィ・ダブリュ株式会社 音声制御システム、音声制御方法、及び音声制御プログラム
JP2016541182A (ja) * 2013-11-20 2016-12-28 サウンドリー インコーポレイテッド 低電力音波受信方法及びこれを利用したモバイル機器
US9632650B2 (en) 2006-03-10 2017-04-25 Microsoft Technology Licensing, Llc Command searching enhancements
JP2018506105A (ja) * 2014-12-19 2018-03-01 アマゾン テクノロジーズ インコーポレイテッド 音声ベースシステムにおけるアプリケーションフォーカス
JP2018097369A (ja) * 2017-12-26 2018-06-21 株式会社ユピテル システム及びプログラム
WO2018216914A1 (ko) * 2017-05-24 2018-11-29 네이버 주식회사 음성요청에 대응하는 정보 전달 향상을 위한 출력
US10434412B2 (en) 2014-10-24 2019-10-08 Sony Interactive Entertainment Inc. Control apparatus, control method, program, and information storage medium
CN110415691A (zh) * 2018-04-28 2019-11-05 青岛海尔多媒体有限公司 基于语音识别的控制方法、装置及计算机可读存储介质
KR20200006566A (ko) * 2017-10-03 2020-01-20 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
JP2020134627A (ja) * 2019-02-15 2020-08-31 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、情報処理方法およびプログラム
JP2021505099A (ja) * 2017-11-29 2021-02-15 モティヴ インテリジェンス インコーポレイテッドMOTIV INTELLIGENCE Inc. コンピューティングデバイスにおけるアプリケーションの音波の受信及び処理の方法
JP2021071540A (ja) * 2019-10-29 2021-05-06 キヤノン株式会社 制御装置、制御方法、及びプログラム

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050229185A1 (en) * 2004-02-20 2005-10-13 Stoops Daniel S Method and system for navigating applications
US20060036438A1 (en) * 2004-07-13 2006-02-16 Microsoft Corporation Efficient multimodal method to provide input to a computing device
US7778821B2 (en) * 2004-11-24 2010-08-17 Microsoft Corporation Controlled manipulation of characters
JP2006170769A (ja) * 2004-12-15 2006-06-29 Aisin Aw Co Ltd 案内情報提供方法、案内情報提供システム、ナビゲーション装置及び入出力装置
US9083798B2 (en) 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
KR101073154B1 (ko) * 2005-01-07 2011-10-12 주식회사 현대오토넷 윈도우 환경에서의 음성인식을 이용한 사용자 인터페이스장치 및 그 제어 방법
US20060192775A1 (en) * 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
US7917365B2 (en) 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US20060287858A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US8090584B2 (en) 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8719034B2 (en) 2005-09-13 2014-05-06 Nuance Communications, Inc. Displaying speech command input state information in a multimodal browser
US7620553B2 (en) * 2005-12-20 2009-11-17 Storz Endoskop Produktions Gmbh Simultaneous support of isolated and connected phrase command recognition in automatic speech recognition systems
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US7848314B2 (en) 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US8332218B2 (en) 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US7676371B2 (en) 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US7899673B2 (en) * 2006-08-09 2011-03-01 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8145493B2 (en) 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US7957976B2 (en) * 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8069047B2 (en) 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US8150698B2 (en) 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US7822608B2 (en) 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US8713542B2 (en) 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US7809575B2 (en) 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US7840409B2 (en) 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US9208783B2 (en) 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US8938392B2 (en) 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8670987B2 (en) 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8909532B2 (en) 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8862475B2 (en) 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8725513B2 (en) 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US9794348B2 (en) 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
KR101430467B1 (ko) 2007-12-18 2014-08-18 엘지전자 주식회사 통신 기기 및 이것의 동작 제어 방법
US8229081B2 (en) 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8082148B2 (en) 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US9349367B2 (en) 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8214242B2 (en) 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US20100295782A1 (en) 2009-05-21 2010-11-25 Yehuda Binder System and method for control based on face ore hand gesture detection
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8416714B2 (en) * 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
US9368107B2 (en) * 2011-04-20 2016-06-14 Nuance Communications, Inc. Permitting automated speech command discovery via manual event to command mapping
WO2012169679A1 (ko) * 2011-06-10 2012-12-13 엘지전자 주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템
WO2013022135A1 (en) * 2011-08-11 2013-02-14 Lg Electronics Inc. Electronic device and method of controlling the same
JP5326066B1 (ja) 2011-10-25 2013-10-30 オリンパスメディカルシステムズ株式会社 内視鏡手術システム
KR101944414B1 (ko) * 2012-06-04 2019-01-31 삼성전자주식회사 음성 인식 서비스를 제공하기 위한 방법 및 그 전자 장치
US20140052438A1 (en) * 2012-08-20 2014-02-20 Microsoft Corporation Managing audio capture for audio applications
US20160164976A1 (en) * 2012-09-24 2016-06-09 Suitable Technologies, Inc. Systems and methods for remote presence
US10157618B2 (en) 2013-05-02 2018-12-18 Xappmedia, Inc. Device, system, method, and computer-readable medium for providing interactive advertising
US9997160B2 (en) 2013-07-01 2018-06-12 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for dynamic download of embedded voice components
US10186262B2 (en) * 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
US9495959B2 (en) * 2014-02-27 2016-11-15 Ford Global Technologies, Llc Disambiguation of dynamic commands
WO2015144536A1 (en) * 2014-03-27 2015-10-01 Sony Corporation Electronic device and method for identifying input commands of a user
RU2014111971A (ru) * 2014-03-28 2015-10-10 Юрий Михайлович Буров Способ и система голосового интерфейса
WO2016053276A1 (en) * 2014-09-30 2016-04-07 Nuance Communications, Inc. Methods and apparatus for module arbitration
US9472196B1 (en) * 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US10896671B1 (en) * 2015-08-21 2021-01-19 Soundhound, Inc. User-defined extensions of the command input recognized by a virtual assistant
US9978366B2 (en) 2015-10-09 2018-05-22 Xappmedia, Inc. Event-based speech interactive media player
US9922648B2 (en) * 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US10049670B2 (en) 2016-06-06 2018-08-14 Google Llc Providing voice action discoverability example for trigger term
US20180012595A1 (en) * 2016-07-07 2018-01-11 Intelligently Interactive, Inc. Simple affirmative response operating system
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
US10460728B2 (en) * 2017-06-16 2019-10-29 Amazon Technologies, Inc. Exporting dialog-driven applications to digital communication platforms
CN107564518B (zh) * 2017-08-21 2021-10-22 百度在线网络技术(北京)有限公司 智能设备控制方法、装置及计算机设备
JP2019057123A (ja) * 2017-09-21 2019-04-11 株式会社東芝 対話システム、方法、及びプログラム
CN108538298B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 语音唤醒方法及装置
US11741951B2 (en) * 2019-02-22 2023-08-29 Lenovo (Singapore) Pte. Ltd. Context enabled voice commands
DE102022000387A1 (de) * 2022-02-01 2023-08-03 Mercedes-Benz Group AG Verfahren zur Verarbeitung von Spracheingaben und Bedieneinrichtung zur Steuerung von Fahrzeugfunktionen
DE102022002701A1 (de) 2022-07-26 2024-02-01 Mercedes-Benz Group AG Verfahren zum Betreiben eines Sprachassistenten und Fahrzeug mit einem Sprachassistenten

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5632002A (en) 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
JP3725566B2 (ja) 1992-12-28 2005-12-14 株式会社東芝 音声認識インターフェース
JPH10222337A (ja) 1997-02-13 1998-08-21 Meidensha Corp コンピュータシステム
JP2001056694A (ja) 1999-08-19 2001-02-27 Denso Corp 対話型ユーザインタフェース装置
EP1083545A3 (en) * 1999-09-09 2001-09-26 Xanavi Informatics Corporation Voice recognition of proper names in a navigation apparatus
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
JP2002149181A (ja) 2000-11-15 2002-05-24 Sharp Corp 機器制御システム
JP2002259114A (ja) 2001-03-05 2002-09-13 Nec Corp 音声認識コンピュータシステム
US7117159B1 (en) * 2001-09-26 2006-10-03 Sprint Spectrum L.P. Method and system for dynamic control over modes of operation of voice-processing in a voice command platform
US7139713B2 (en) * 2002-02-04 2006-11-21 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US7188066B2 (en) * 2002-02-04 2007-03-06 Microsoft Corporation Speech controls for use with a speech system
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10748530B2 (en) 2004-11-16 2020-08-18 Microsoft Technology Licensing, Llc Centralized method and system for determining voice commands
JP2006146182A (ja) * 2004-11-16 2006-06-08 Microsoft Corp 音声コマンドを明瞭化する集中化された方法およびシステム
US9972317B2 (en) 2004-11-16 2018-05-15 Microsoft Technology Licensing, Llc Centralized method and system for clarifying voice commands
US8942985B2 (en) 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
JP2007226098A (ja) * 2006-02-27 2007-09-06 Denso Corp 音声認識装置
US9632650B2 (en) 2006-03-10 2017-04-25 Microsoft Technology Licensing, Llc Command searching enhancements
US8041574B2 (en) 2006-09-29 2011-10-18 Kabushiki Kaisha Toshiba Dialog apparatus, dialog method, and computer program
US8005673B2 (en) 2007-04-17 2011-08-23 Honda Motor Co., Ltd. Voice recognition device, voice recognition method, and voice recognition program
JP2016541182A (ja) * 2013-11-20 2016-12-28 サウンドリー インコーポレイテッド 低電力音波受信方法及びこれを利用したモバイル機器
WO2016063621A1 (ja) * 2014-10-24 2016-04-28 株式会社ソニー・コンピュータエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
JPWO2016063621A1 (ja) * 2014-10-24 2017-05-25 株式会社ソニー・インタラクティブエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
US10339928B2 (en) 2014-10-24 2019-07-02 Sony Interactive Entertainment Inc. Control device, control method, program and information storage medium
US10434412B2 (en) 2014-10-24 2019-10-08 Sony Interactive Entertainment Inc. Control apparatus, control method, program, and information storage medium
JP2016099479A (ja) * 2014-11-20 2016-05-30 アイシン・エィ・ダブリュ株式会社 音声制御システム、音声制御方法、及び音声制御プログラム
JP2018506105A (ja) * 2014-12-19 2018-03-01 アマゾン テクノロジーズ インコーポレイテッド 音声ベースシステムにおけるアプリケーションフォーカス
US11341966B2 (en) 2017-05-24 2022-05-24 Naver Corporation Output for improving information delivery corresponding to voice request
WO2018216914A1 (ko) * 2017-05-24 2018-11-29 네이버 주식회사 음성요청에 대응하는 정보 전달 향상을 위한 출력
KR102337820B1 (ko) 2017-10-03 2021-12-09 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
US11276400B2 (en) 2017-10-03 2022-03-15 Google Llc User-programmable automated assistant
US11887595B2 (en) 2017-10-03 2024-01-30 Google Llc User-programmable automated assistant
JP2020535452A (ja) * 2017-10-03 2020-12-03 グーグル エルエルシー ユーザプログラマブル自動アシスタント
KR102625761B1 (ko) 2017-10-03 2024-01-16 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
KR102424261B1 (ko) 2017-10-03 2022-07-25 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
JP2021144228A (ja) * 2017-10-03 2021-09-24 グーグル エルエルシーGoogle LLC ユーザプログラマブル自動アシスタント
KR20220103187A (ko) * 2017-10-03 2022-07-21 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
KR20210150622A (ko) * 2017-10-03 2021-12-10 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
KR20200006566A (ko) * 2017-10-03 2020-01-20 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
JP7015398B2 (ja) 2017-11-29 2022-02-02 モティヴ インテリジェンス インコーポレイテッド コンピューティングデバイスにおけるアプリケーションの音波の受信及び処理の方法
JP2021505099A (ja) * 2017-11-29 2021-02-15 モティヴ インテリジェンス インコーポレイテッドMOTIV INTELLIGENCE Inc. コンピューティングデバイスにおけるアプリケーションの音波の受信及び処理の方法
JP2018097369A (ja) * 2017-12-26 2018-06-21 株式会社ユピテル システム及びプログラム
CN110415691A (zh) * 2018-04-28 2019-11-05 青岛海尔多媒体有限公司 基于语音识别的控制方法、装置及计算机可读存储介质
JP2020134627A (ja) * 2019-02-15 2020-08-31 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、情報処理方法およびプログラム
JP2021071540A (ja) * 2019-10-29 2021-05-06 キヤノン株式会社 制御装置、制御方法、及びプログラム
JP7441028B2 (ja) 2019-10-29 2024-02-29 キヤノン株式会社 制御装置、制御方法、及びプログラム

Also Published As

Publication number Publication date
US20040260562A1 (en) 2004-12-23
US7505910B2 (en) 2009-03-17
JP4107093B2 (ja) 2008-06-25

Similar Documents

Publication Publication Date Title
JP4107093B2 (ja) 対話型端末装置及び対話アプリケーション提供方法
KR102505597B1 (ko) 어시스턴트 애플리케이션을 위한 음성 사용자 인터페이스 단축
US20100138779A1 (en) Method of driving an interactive system and user interface system
US6012030A (en) Management of speech and audio prompts in multimodal interfaces
US9111538B2 (en) Genius button secondary commands
US8134538B2 (en) Touch panel input device and processing execution method
US7881940B2 (en) Control system
US20150095037A1 (en) Vehicular device, server, and information processing method
KR20050077806A (ko) 음성 대화 실행 방법 및 음성 대화 시스템
JP2010033586A (ja) 同時マルチモーダル通信セッションパーシスタンスのためのシステムおよび方法
JPWO2019026313A1 (ja) 情報処理装置、音声認識システム、及び、情報処理方法
CN109144458B (zh) 用于执行与语音输入相对应的操作的电子设备
US11616872B1 (en) Voice application network platform
KR20190021012A (ko) 인공지능 기기에서의 연속 대화 기능
US9771038B2 (en) Notification device
JP2002140189A (ja) 音声制御装置
JP3731499B2 (ja) 音声認識制御装置、及び車載用情報処理装置
JP2019001428A (ja) 車載装置、音声操作システムおよび音声操作方法
KR101450188B1 (ko) 휴대용 단말기의 음성 제어 장치 및 방법
JP2004010268A (ja) エレベータの遠隔予約装置及び方法
US20120284031A1 (en) Method and device for operating technical equipment, in particular a motor vehicle
JPH11184681A (ja) サービス管理方法,サービス管理装置及び記録媒体並びにチャットシステムのクライアント
JP3902959B2 (ja) 情報処理装置及びその制御方法、プログラム
JP2001216131A (ja) 情報処理装置および方法、並びにプログラム格納媒体
JP7396490B2 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050928

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080324

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4107093

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120411

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120411

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130411

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130411

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140411

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees