JP2008090545A - 音声対話装置および音声対話方法 - Google Patents

音声対話装置および音声対話方法 Download PDF

Info

Publication number
JP2008090545A
JP2008090545A JP2006269775A JP2006269775A JP2008090545A JP 2008090545 A JP2008090545 A JP 2008090545A JP 2006269775 A JP2006269775 A JP 2006269775A JP 2006269775 A JP2006269775 A JP 2006269775A JP 2008090545 A JP2008090545 A JP 2008090545A
Authority
JP
Japan
Prior art keywords
user
information
agent
service
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006269775A
Other languages
English (en)
Inventor
Hideki Hirakawa
秀樹 平川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006269775A priority Critical patent/JP2008090545A/ja
Publication of JP2008090545A publication Critical patent/JP2008090545A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明の目的は、複数のエージェント(外部装置)とやり取りを行う際に、ユーザが行うインタラクションを軽減し、ユーザの利便性の良好な音声対話装置を提供することである。
【解決手段】ユーザからの音声情報を入力する手段(201)と、音声言語解析用辞書を記憶する手段(205)と、前記音声言語解析用辞書を用いて前記ユーザからの音声情報を解析することによって、前記ユーザの要求を抽出する手段(203)と、抽出した前記ユーザの要求を満たす外部装置との間で、前記ユーザの要求およびその応答結果の授受を制御する制御手段(207)と、前記応答結果をユーザに出力する出力手段(202)と、を備える音声対話装置。
【選択図】図2

Description

本発明は、音声情報を用いて様々なサービスを利用する場合に有効な音声対話装置および音声対話方法に関する。
インターネットの普及によりコンピュータを始めとするデジタル機器から種々のサービスを利用する機会が増えて来た。ほとんどのサービスはWWWなどのGUIインタフェースを介して利用されているが、利用するサービスの種類、複雑さの増加や複数のサービスの融合利用などにより、コンピュータやインターネットに不慣れなユーザは十分に活用できないという問題が生じている。
また、利用可能なサービスの広がりとともに、例えばTVを見ている時にネットサービスを利用するなどコンピュータ以外のデジタル機器を通してサービス利用を行いたいという要望も増加している。こうした要望に応える手法として、GUI型のインタフェースの代わりに音声対話インタフェースを利用するという技術開発が行われている。
音声対話インタフェースでは、デジタル機器側にユーザからの音声言語入力を受け、ユーザに対して音声言語で応答するプログラム(対話エージェント)を用意し、音声言語対話によりユーザは所望のサービスを受けることができる。音声対話型のインタフェースは、基本的に入力が音声であるという簡便さの特徴に加えて、対話エージェント側のインテリジェンスが高くなることで、種々の質問を受け付けたり、思いついた事柄から情報を伝えたり、言わなくとも推定できる情報を自動的に補完してくれたりすることが可能となり、自由度の高いインタフェースであるという特徴を有する。
音声対話インタフェースを様々なサービス(あるいは機器利用)に利用する場合には、1つの対話エージェントとのみ対話するのではなく、それぞれサービスに応じて用意されたエージェントを利用することが、ユーザ側の認知上からも、また、エージェントを用意する手間からも有効である。例えば、特許文献1では、セクレタリエージェントとして機能するユーザインタフェースとネットワークを介して利用可能なコンサルタントエージェントを用意し、ネットワーク上に別途用意された個人情報サーバの情報に基づいてセクレタリエージェントが適切なコンサルタントエージェントを呼び出し、呼び出されたコンサルタントエージェントがユーザに対してサービスを提供するという構成をとっている。
特開2005−44292公報(第7〜9頁、図1)
しかし、音声対話インタフェースの持つ自由度の高さは、種々のサービス利用においてサービス内容や操作方法に熟知していないユーザにとって、サービスを受ける上での大きな支援になるが、一般に対話のやり取りには一定の手間と時間が必要であり、このトレードオフにより音声対話インタフェースの有用性が大きく左右される。このため、不必要な対話のやり取りを極力少なくすることが音声対話IFにとって非常に重要な課題となっている。特に、複数の音声対話エージェントを相手に音声対話を進める場合には、それぞれのエージェントに対する情報伝達などにより、ユーザとエージェント間のインタラクションが増加し、ユーザにとって本質的に不必要な対話のやり取りが増大するという問題が生じやすい。
特許文献1では、セクレタリエージェントとして機能するユーザインタフェースとネットワークを介して利用可能なコンサルタントエージェント(外部装置)を用意し、ネットワーク上に別途用意された個人情報サーバの情報に基づいてセクレタリエージェントが適切なコンサルタントエージェントを呼び出し、呼び出されたコンサルタントエージェントがユーザに対してサービスを提供するという構成をとっている。個人情報サーバには、ユーザのIDや個人情報などのユーザ特定情報と、医療・資産・嗜好・サイズといった開示可能なユーザ特性情報が蓄積されており、セクレタリエージェントは、これら情報に基づいたりユーザに問い合わせたりして、コンサルタントエージェントを呼び出す。また、この際、セクレタリエージェントが、コンサルタントエージェントが必要とする個人情報サーバ上の情報を提供することにより、ユーザがコンサルタントエージェントに音声対話により提供する手間を省いている。
しかしながら、この方式では、あらかじめ用意された役割別の複数のエージェントを用意し、セクレタリエージェント側から選択利用するサービスを提案することになり、ユーザが解決したい問題を見つけた時にユーザ側から主体的にサービスを利用することが困難である。
また、コンサルタントエージェントに提供可能な情報は個人情報サーバに蓄積された固定的な個人情報のみに限定されており、動的にユーザが発見する問題に対してサービスを提供するコンサルタントエージェントにとって必ずしも十分な情報が提供されない場合が生じる。
また、コンサルタントエージェントの起動後は基本的にコンサルタントエージェントとユーザとの対話になるため、情報の授受はユーザが行わなければならず、ユーザのインタラクションが増大するという問題がある。
さらに、コンサルタントエージェントは1つに限定されているため、ユーザに対して同種のサービスを提供する複数のサービスが存在する場合には、それぞれのサービスを順次受けることになり、ユーザの情報提供などのインタラクションが共有されず、効率的でないという課題がある。
本発明は、このような問題に鑑み、複数のエージェント(外部装置)とやり取りを行う音声対話装置および音声対話方法において、ユーザが行うインタラクションを軽減し、ユーザの利便性を向上することを目的にする。
第1の発明は、ユーザからの音声情報を入力する手段と、音声言語解析用辞書を記憶する手段と、前記音声言語解析用辞書を用いて前記ユーザからの音声情報を解析することによって、前記ユーザの要求を抽出する手段と、抽出した前記ユーザの要求を満たす外部装置との間で、前記ユーザの要求およびその応答結果の授受を制御する制御手段と、前記応答結果をユーザに出力する出力手段と、を備える音声対話装置である。
第2の発明は、前記制御手段は、前記ユーザの要求を満たす外部エージェントを複数見つけた場合、前記抽出したユーザの要求を当該複数の外部エージェント全てに渡すことを特徴とする第1の発明記載の音声対話装置である。
第3の発明は、前記制御手段は、抽出した前記ユーザの要求を渡した複数の外部エージェントからの応答を比較判断し、前記出力手段は、前記比較判断した結果を出力することを特徴とする第2の発明記載の音声対話装置である。
第4の発明は、ユーザからの音声情報を入力し、音声言語解析用辞書を用いて前記ユーザからの音声情報を解析することによって、前記ユーザの要求を抽出し、抽出した前記ユーザの要求を満たす外部装置との間で、前記ユーザの要求およびその応答結果の授受を制御し、前記応答結果をユーザに出力する音声対話方法である。
本発明によれば、複数のエージェント(外部装置)とやり取りを行う際に、ユーザが行うインタラクションを軽減し、ユーザの利便性の良好な音声対話装置および音声対話方法を提供することができる。
すなわち、ユーザがMY音声対話エージェントと対話を行うことで、ユーザの要望を伝達し、MY音声対話エージェントを使って、その要望を満たすようなサービスエージェント(外部装置)を検索し、サービスを受ける場合に、MY音声対話エージェントが記憶している文脈情報(対話履歴や解析結果)をサービスエージェントに伝達することにより、ユーザとサービスエージェントとの間での情報伝達の際に、サービスエージェントに対してユーザが新規に情報を伝達するというインタラクションを省略することができる。
また、ユーザの要望を満たすような複数のサービスエージェントが存在した場合、これら複数のサービスエージェントとMYエージェントを介して同時インタラクションをすることにより、それぞれ個別のサービスエージェントと順次やり取りを行う手間が省け、サービスエージェントに対してユーザが新規に情報を伝達するというインタラクションを省略することができる。
また、外部サービスエージェントは特定個人向けに作成されていないため、特定ユーザの音声を旨く認識する各種ユーザ情報が不足し、音声認識精度が低くなる(不特定話者の認識)が、MYエージェントはユーザ情報を有し音声認識精度が高く(特定話者認識)なり、ユーザからの入力の一元化という効果だけでなく、音声認識精度の向上により、音声認識誤りに起因するインタラクション(発話の訂正など)を軽減することが可能である。
本発明を実施するための最良の形態として、インターネット上での各種サービスを利用する音声対話システムが挙げられる。インターネットのWebサイトでは、多種多様なサービスが様々な企業・組織・個人などから提供されており、ユーザの課題を解決する有望なサービス源となっている。1つの課題に対して、それを解決可能なサービスは、通常、複数存在するため、本実施形態のポイントの1つである複数サービスエージェント(外部装置)とのやり取りも一般的である。また、VOICE XMLのように音声によるWeb操作が可能な技術が研究・開発されており、音声対話システムに発展する1つのベースであると考えられる。また、MYエージェントについては、ユーザが日常使用するネットワークに接続したパソコンやテレビなどで動作する形態を想定している。
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本実施形態に係る音声言語対話装置を適用するネットワークシステムの構成例を示したものであり、インターネットのような様々な機器を接続するネットワーク101、ネットワークに接続された機器で稼動するサービスエージェント群102、ユーザがサービスを受ける機器を繋ぐローカルネットワーク103、ユーザに対してセクレタリのように働くMYエージェント104、テレビ105、パソコン106から構成されている。エージェントとは、サーバやパソコンなど、何らかのデジタル機器上で動作するソフトウェアのことである。
図2は、本実施形態にかかるMYエージェント104がパソコン106上などで動作する場合の機能ブロックを示した図である。少なくとも音声情報(テキスト情報を含んでもよい。以下同様)を入力する入力部201、少なくとも音声情報を出力提示する出力部202、ユーザからの入力情報を解析する解析部203、文脈情報など一時的な情報を記憶する一次記憶部204、知識情報など長期的に利用する情報を記憶する記憶部205、ネットワークを介して他のエージェントや機器と情報通信する通信部206、これらを制御する制御部207を有している。
入力部201からユーザの音声が入力されると、制御部207はこの音声情報を解析部203に渡して解析を行う。解析部203は、ユーザからの入力音声を音声認識技術により音声認識し、音声認識の結果を言語解析する。この処理において、音声認識は従来技術(例えば、「確率モデルによる音声認識」 中川聖一著 電子情報通信学会 ISBN4-88552-072-X)を利用することにより実現する。また、言語解析も、形態素解析・構文解析・意味解析・文脈解析の従来技術(例えば、「音声対話システムの言語・対話処理」AI学会誌 Vol.17,No.3 (2002.5),エージェントアプローチ人工知能(共立出版)(1997.12))を用いることにより、ユーザの入力の内容を表すデータを得ることができる。
一次記憶部204は、ユーザから入力された音声入力データや解析部203の解析結果などを保存する。記憶部205は、ユーザ入力を音声認識したり、言語解析したりするために必要な音声認識用辞書・規則情報および言語解析用辞書・規則情報などの音声言語解析用辞書や、ユーザ情報、ユーザの計画・目的情報、ドメイン知識情報など、長期にわたって利用する情報を保持する。なお、本実施形態では、一次記憶部204と記憶部205は構成上別になっているが、装置として別構成でなければならないなどの制約は特にない。
通信部206は、ネットワークを介した情報のやり取りを行う機能を有する部分であり、図1のローカルネットワーク103やネットワーク101を介して、そこに接続されている機器(例えば、図1のTV105、PC106等)やサービスエージェント102との情報の授受を可能とする。制御部207は、上記各部分を制御しながら、ユーザと音声対話を行うことでユーザの要求を効率良く満足する。
図3に本実施形態に係る音声対話システムによる対話例を示す。この対話例では、ユーザがテレビ番組でサッカーのワールドカップの特集番組を見ている時に、ワールドカップのツアー予約を思いつき、それを本実施形態に係る音声対話システムを用いて実行するという例になっている。
ここで、「0 テレビ番組でサッカーのワールドカップの特集番組を見ていて...」は、会話が始まる前の状況を表す文であり、発話そのものではない。1〜9はユーザあるいはエージェントからの発話を表しており、「U:」はユーザからの発話、「ME:」はマイエージェント104からの発話、「SE:」はサービスエージェント102からの発話を表している。
会話が始まる前の状況において、マイエージェント104は、ユーザが視聴しているTV番組(TV画面に出ている番組)の次のような、ユーザが視聴している情報をローカルネット103を介してTV105より取得している。

[EPGからの情報]
EPGコード : EPJ34345-324587
番組タイトル: 2012 ワールドカップへの道
出演者 : 山田太郎、中野進
局 : DJL
時間 : 2011:11:20,20:00-21:00
分類 : スポーツ→サッカー
キーワード : サッカー,ワールドカップ,日本代表

例えば、ハードディスクドライブを備えたレコーダーなど、TV以外の機器が録画したコンテンツを流しているような場合にも、コンテンツのメタ情報を得ることは可能である。このようなメタ情報は、ユーザの発話の解釈を行う際にマイエージェントにより参照・利用される。
以下で、「1 U:ナンナン(マイエージェントの名称)。ワールドカップのツアーの予約をしておきたいのだけど。」のユーザ発話入力に対して、「2 ME: ツアー予約サービスを探してみますか?」という応答をマイエージェントが生成するまでを例にとり、エージェントの処理の流れを説明する。
図4にMYエージェントの制御部207の処理フローを示す。制御部207はユーザからの音声入力「ナンナン ワールドカップノツアーノヨヤクヲシテオキタイノダケド」を検出する(S401)と、それを音声認識して単語系列「ナンナン[固有名詞] ワールドカップ[名詞]の[格助詞]ツアー[名詞]の[格助詞] 予約[サ変名詞]を[格助詞]し[動詞]ておきたいのだけど[助動詞]」に変換する(S402)。さらに言語解析(S403)を行うことにより,次のような言語解析結果を得る。

言語解析結果:[予約
[target ツアー [no ワールドカップ]]
[modal たいのだけど]]

言語解析は、前述の文献で参照されている文脈自由文法をベースにした構文解析技術ならびに意味解析技術利用することで実現できる。言語解析結果は、入力発話中の語の依存関係を表している。例えば、「ツアー」という語は、"target(対象)"という意味関係で「予約」という語に関係している。また、「たいのだけど」という表現は、"modal"(modality:様相)という関係で「予約」という語に関係しており、「予約」という動作に対してユーザが「たい」という様相を有しているということを表している。
文脈解析処理(S404)では、言語解析により得られた言語解析結果中の各語が、どのような「オブジェクト」をさしているかの同定を行う。「オブジェクト」とは、計算機内部に生成される「もの」や「こと」に相当し、例えば、「ワールドカップ」、「ツアー」などの語が指し示すものに相当する。「オブジェクト」は、通常、現実世界の事物に対応している。オブジェクトは、対話の進展に応じて生成され一次記憶部204に文脈情報として蓄積される。本実施形態では現れていないが、「それ」などの指示代名詞が入力文に現れている場合など、実際に「それ」が指し示すオブジェクトが一次記憶部204に対して検索され、どのオブジェクトを指し示していたかが同定される。このような文脈処理も上記述べたような既存技術で実現することが可能である。
オブジェクトの生成は、次のように行われる。言語解析結果中の各語は、例えば言語解析に用いた辞書などにおいて、その語に対応する「クラス(概念)」の情報を有している。例えば、「ワールドカップ」という語は、"world_cup"というIDで示されるクラスに対応し、種々のワールドカップに対応するクラス(概念)を表している。こうしたクラス(概念)は、概念辞書(例えば、日本電子化辞書研究所編: EDR電子化辞書仕様説明書(第2版), EDR テクニカルレポートTR2- 007, (1995))によりその対応する上位のクラスや下位のクラスが定義されている。例えば、「ワールドカップ」には、「サッカーのワールドカップ」、「バレーボールのワールドカップ」といった複数の下位概念等に関する情報が定義されている。こうした知識情報は、記憶部205に記録されている。オブジェクトは、この概念体系の特定のクラスのインスタンス(通常実世界と対応をもつ具体的な1つの要素)となっている。文脈解析では、言語解析結果中の語により新規の要素が言及された場合には、それに対応する新規のオブジェクトとして特定のクラスのインスタンスを生成し、既に文脈中に存在するオブジェクトが言及された場合には、そのオブジェクトを指し示すものとして解析を行う。
本実施形態では、前記、ユーザが視聴しているTV画面の番組情報の情報を取得し、一次記憶部204にユーザ視聴に関する文脈情報として記憶する。この情報を用いてユーザ情報の補完を行うことができる。例えば、上記会話例では、ユーザの発話は、「ワールドカップ」という表現のみであり、それがどの種類のワールドカップであるかは明示されていないが、文脈処理において「ワールドカップ」の下位概念として「サッカーのワールドカップ(soccer_world_cup)」、「バレーボールのワールドカップ(volleyball_world_cup)」が存在した場合に、文脈情報としてTV番組情報の分類情報から「サッカー」という語が存在することから、この「ワールドカップ」という語が「サッカーのワールドカップ(soccer_world_cup)」というクラス(概念)であると推定することができ、「ワールドカップ」という言語解析結果中の語に対して、"soccer_world_cup" クラス(概念)に対応するオブジェクト"soccer_world_cup[1]"を生成し対応付ける。ここで、"[1]"は、このクラスのインスタンスのIDであり、クラスのインスタンスとしての唯一性を表現している。このように、文脈処理により言語解析結果中の各語の指し示すオブジェクトを同定する。文脈処理により次のような語とオブジェクトとの対応関係が得られる。

語 オブジェクト
予約 : make_reservation[1]
ツアー : tour[1]
ワールドカップ : soccer_world_cup[1]

要求解析処理(S405)では、言語解析処理結果と文脈解析処理結果から、ユーザ発話の要求を抽出する処理、すなわち、対話システムが推論処理や実際の動作オペレーションを行うことが可能となる記号レベルの表現への変換処理を行う。基本的には、ユーザの目的とするプランとそれを実現するためのゴールを基本とした既存の手法(エージェントアプローチ人工知能(共立出版)(1997.12),"Natural Language Processing : A Knowledge-EngineeringApproach", R. E. Cullingford (1986)など)を適用することが可能である。
入力例文に対しては、言語解析結果ならびに語とオブジェクトの対応関係で「予約(make_reservation)」に対して、[modal たいのだけど]が結びついていることから、ユーザの要望が「予約」であることを表す次のデータ構造の生成を行う。
request(goal(make_reservation))
ここで、request(goal))はユーザが、特定の目的(goal)を満足することを要望しているというユーザ意図を表現しており、「たいのだけど」という言語表現にリンクした辞書情報(記憶部205に記録保持されている)をもとに合成される。また、「予約(make_reservation」に対して、[target ツアー(tou) [no ワールドカップ(succor_world_cup)]]が結びついていることから、オブジェクト"make_reservation"(IDは省略)の対象として,"tour"と"soccer_world_cup"が同定され、次の構造が生成される。
make_reservation(tour,succor_world_cup)

これらを統合することにより、要求解析処理の出力として次が得られる。
要求解析結果:request(goal(make_reservation(tour,succor_world_cup)))
以上により、ユーザ発話に対するユーザの要求がシステム内部の記述として得られる。
問題解決処理(S406)は、プランゴールの推論を行うことにより、ユーザの要望を満足するためのプランの作成とそれに必要な処理の実行を行う。プランゴールによる推論処理についても基本的には技術開発が行われており、既存手法(エージェントアプローチ人工知能(共立出版)(1997.12))を適用することが可能である。すなわち、問題解決処理は、要求解析結果のトップレベルが"request"であることから、"goal(make_reservation(tour,succor_world_cup))"のゴールを満足することをユーザが要求していることを認識し、ゴールを実現するためのプラン作成と実行を行う。プラン作成は、記憶部205に記憶されているプランゴールデータベース(ゴールとそのゴールを実現するためのサブゴールならびに処理を定義したデータベース)を検索することにより実行される。ユーザのゴール"make_reservation(tour,succor_world_cup)"に対する検索結果として、次のようなプランゴールが検索される。

[プランゴールDBの検索]
make_reservation(tour) ←
1. search_local(make_reservation(tour)) or
2. use_internet_service(make_reservation(tour))

このプランゴールは、旅行"tour"を予約するというゴールは、"make_reservation(tour)"をローカルに存在する履歴情報DBを検索する(図示しないが、記憶部205に記憶されている)かあるいは"use_internet_service"により実行するかにより解決するかのいずれかを選択実行することを示している。制御部207は、順次これをトライするが、ここでは、旅行の予約(make_reservation(tour))がローカルの履歴に存在しないとし、第2のインターネットサービス利用を選択することをトライする。基本的に外部インターネットサービスの利用は、Webサービスなどのサービスディレクトリにユーザの要望を伝えることにより、それを満たすサービスエージェントのリストを返すなどのサービス発見技術により実現することが可能である。次は、プランゴールDBに格納された"use_internet_service(Goal)"のプランゴールテンプレートの例を示している。

[インターネットサービスのプランゴールテンプレート]
use_internet_service(Goal) ←
search_internet_service(Goal,ServiceAgents),
(not_success ⇒ plan_fail)
select_service(ServiceAgents,Agent),の
(not_success ⇒ plan_fail)
execute_service(Agent,Goal),
(not_success ⇒ plan_fail)

このテンプレートは、"search_internet_service"により特定の"Goal"を満足するインターネットサービスエージェントを検索し、"select_service"により検索されたサービスから1つのサービスを選択し、"execute_service"により、選択されたサービスを実行するというステップを順次実行することを示している。"(not_success ⇒ plan_fail)"は、各処理の実行が失敗した場合には、そのプランの実行が失敗し、それにより全体のゴールの満足ができなくなることを示している。問題解決処理は、"make_reservation"を実現するために、"use_internet_service"を実行しようとする。ここで、"use_internet_service"の実行をユーザとのインタラクションを行うことにより確認する。
サブゴールの実行をユーザに確認するか否かの判定は、プランゴールのテンプレートに直接ユーザへの問い合わせ処理として記述されたり、問題解決処理がサブゴールの実行がある程度処理が複雑であるなどの汎用的な知識により、問い合わせを自動的に行ったりするなどにより実施される。この場合は、"use_internet_service"の処理が他のサービスエージェントの呼び出し実行となり、ユーザにとって大きな処理となることから、ユーザに対して対話的に問い合わせを行うように判断する。すなわち、制御部により、"make_reservation(tour,succor_world_cup)"ゴールが一時記憶部204に「目標ユーザゴール」として設定され、"use_internet_service(make_reservation(tour))"ゴールが提案ゴールとして設定される。

目標ユーザゴール:make_reservation(tour,succor_world_cup)
提案ゴール: use_internet_service(make_reservation(tour))

提案ゴールは、ユーザへの確認ができることにより目標ユーザサブゴールに変換可能であるため、制御部は、提案ゴールをユーザに問い合わせるという処理を行う。ユーザへの問い合わせなどのインタラクションは、応答処理(S407)により行われる。応答処理では、基本的には特定の発話テンプレートに対して、一時記憶部204に記憶された情報などを埋め込むことにより、文を構築し,出力部202を介して、音声合成したり、表示装置に表示したりすることによりユーザへ提示する。この会話例では、"use_internet_service(X)"に対して"提案ゴール"を"目標ゴール" に設定するためのインタラクションは、「Xサービスを探してみますか?」という発話テンプレートが"use_internet_service"に対して定義されている。変数"X"の部分は,"make_reservation(tour)"に対する言語表現を埋め込むことを示しており、"make_reservation"には「予約」、"tour"には「ツアー」という言語表現が対応する。この情報は、言語解析を行った結果得られる「語」と「オブジェクト」の対応関係情報を参照することにより得ることができ、"make_reservation(tour)"に対して「ツアー予約」が生成され、全体として「ツアー予約サービスを探してみますか?」という文が生成・発話される。以上により、
2 ME: ツアー予約サービスを探してみますか?
という発話が生成される。以上により、ユーザの要求発話1に対して、MYエージェントが質問発話2を生成するまでの処理の概要を示した。MYエージェントは、基本的には図4の処理を繰り返し、一時記憶部の情報を更新しながら対話を進める。

以下は、図3の3以降の処理概要を説明する。既に述べたように、図4の一連の処理は、既存の技術を利用することにより実現される。
3 U: うん。日本・フランス戦を予約したい。
に対して、言語解析結果は次のようになる。

言語解析:[うん]
[予約
[target 日本・フランス戦]
[modal want]]

ここで、「うん」は、質問を出している状況ではそれに対する肯定的解釈であるという判定が可能であることから、要求解析処理は、[うん]を"acknowledge"(肯定的解釈)として判断する。

要求解析1:
[うん] : acknowledge.

要求解析の結果が肯定的解釈であることから、提案ゴールを目標ゴールに設定することが了承されたと判断できるため、一時記憶部204のプランゴールの状況が次のように改定される。

目標ユーザゴール:make_reservation(tour,succor_world_cup)
目標ユーザゴール: use_internet_service(make_reservation(tour))

次に、次の言語解析結果、"[予約 [target 日本・フランス戦] [modal want]]"に対する文脈処理と要求解析処理が行われる。ここで、"[modalwant]"は、ユーザが要求を出していると解析される。本発明の内容とは直接関係がないため、詳細な説明は省略するが、この言語解析結果は、「予約」の対象が日本・フランス戦("Japan-French-match")であると認識され、要求解析結果は次のようになる。
要求解析2: request(goal(make_reservation(Japan-French-match)))

問題解決処理では、一時記憶部204のプランゴールの状況と要求解析結果を総合判断することにより、"Japan-French-match"がサッカーのワールドカップ("succor_world_cup"オブジェクト)に対する条件であることが判定され、これらオブジェクト情報によるゴールのアップデートが行われる。
目標ユーザゴール: use_internet_service(make_reservation(tour,succor_world_cup,Japan-French-match)))

さらに、MYエージェントは、この目標ユーザゴールを上記のプランゴールテンプレートを用いて展開し、最初のサブゴール"search_internet_service(X,ServiceAgents)"を実行する。ここでは、3つのサービスエージェント[ABC_Travel,Dream_Travel,World_Travel]が検索できたとする。検索が成功したので、第2のサブゴール"select_service"を実行する。詳細は省略するが、"select_service"は、ユーザに対してサービスの選択を問い合わせて選択する処理であり、応答処理により次の応答動作を生成する。

4 ME: 旅行サービスで次の3つがありました。どこにしますか?
(画面に候補概要を表示)

また、ユーザゴールは、次のようになる。
目標ユーザゴール: select_service([ABC_Travel,Dream_Travel,World_Travel],Agent),

表示とともに、検索結果の3つのサービスエージェントに関する情報(名称、アドレスなど画面表示される情報を含む)が、一時記憶部204に記憶される。
5 U: (画面を見て) ワールドトラベル。

この発話に対する言語解析ならびに要求解析の結果は次のようになる。
言語解析:[ワールドトラベル]
要求解析:simple_utterance(ワールドトラベル)

1つ前のMYエージェントの応答は"select_service"に基づくユーザに対する問い合わせであるため,要求解析結果が選択要求に対する回答であるか否かの判定が行われ、この場合は名称が一致するため"World_Travel"オブジェクト(ワールドトラベル社)を指示した回答であるとMYエージェントが判定でき、"select_service"のゴールが達成され、変数Agentに"World_travel"オブジェクトが設定される。さらに次のサブゴール"execute_service"の問題解決処理が行われる。前述と同様な基準により、次の"execute_service"が提案ゴールとして判定され、ユーザへの問い合わせがなされる。
提案ゴール:execute_service('World_travel',make_reservation(tour,succor_world_cup,Japan-French-match))),

6 ME: 了解。ワールドとラベルにサッカーのワールドカップのツアー予約
でコンタクトします。いいですね?

この問い合わせに対して次のユーザの回答を得る。
7 U: OK。

前述と同様に言語解析、要求解析が行われる。「OK」は、"acknowledge"(肯定的解釈)として判断されるため、提案ゴールが次の目標ゴールとなり、サブゴール"execute_service"が実行される。

言語解析:[OK]
要求解析:simple_utterance(OK)
目標ゴール:execute_service('World_travel',make_reservation(tour,succor_world_cup,Japan-French-match))),

"execute_service"は、MYエージェントが外部のサービスエージェントを呼び出す処理であり、制御部207は、図5に示す接続処理を実行する。サービスエージェントは、ネットワークを介してMYエージェントと通信が可能であり、実施例では'World_travel'オブジェクトが保持するURLなどの情報によりアドレッシングが可能である。S501では、サービスエージェントとの通信回線を確立し、ユーザが実行したい要求(ゴール記述)を伝達する。実施例会話の場合には、「サッカーワールドカップの日本・フランス戦のツアー予約」に対する次のゴール情報が伝達される。
目標ゴール: goal(make_reservation(tour,succor_world_cup,Japan-French-match)))

目標ゴール情報を受け取ったサービスエージェントは、そのエージェントの記憶部に蓄積されたプランゴールデータベースを検索することにより、このゴールを実行可能か否かを判定することができ、実行の可否(あるいは、実行可能である可能性の有無)の情報をサービスを要求したエージェントに通知する。MYエージェントは、S502にてサービスの実行の可否を判定し、実行が不可の場合は、S503にて利用不可の理由情報を要求・受信して接続処理を終了する。実行が可能な場合は、S504にてユーザ情報の伝達を行う。図6は、本実施形態に係る音声言語対話システムにおけるユーザ情報の一例を示している。"user_info"は、サービスを利用しようとするユーザの属性情報などに相当し、"user_name(initial('Y'))"は、MYエージェントが保持しているユーザのイニシャル情報であり、"sex(male)"はユーザの性別情報である。
また、"context_info"は、サービスエージェントを利用するに至った関連コンテキスト情報を示している。例の"reference(tv_program(EPJ34345-324587))"は、ユーザが対話を始めた時に見ていたテレビ番組の情報であり、EPGのIDや時間情報などを表す参照情報である。また、"conversation_context"は、サービスエージェントを利用するまでにMYエージェントとユーザの間で交わされた対話履歴情報である。この例では文字列で表現しているが、MYエージェントにより作成された言語解析結果、要求解析結果、文脈解析結果などの情報も伝達の対象となりうる。こうしたユーザ情報の伝達を行った後に、図5のS505により、ユーザとサービスエージェントの対話のやり取りを可能とする。
本実施形態によれば、ユーザがMYエージェントとの対話を行っている際に、別のサービスエージェントを呼び出したりした場合に、MYエージェントとユーザの間で授受された情報が、別のサービスエージェントとユーザの対話が行われる前にサービスエージェントに伝達されるため、ユーザとサービスエージェントとの間の対話が省略できる。例えば、本実施形態では、次の文のように、ユーザとサービスエージェントとの対話が始まった際に、必要な情報がサービスエージェントに伝達されており、ユーザとの余分なやり取りをしないで済むという利点が生じる。
8 SE: ワールドトラベルの予約サービスです。Y様。
サッカーワールドカップツアーの日本・フランス戦の予約を行いたい
との話ですね。
9 U: そうです。
次に、本実施形態の第2および第3の特徴について説明する。第2の特徴は、複数のサービスエージェントが起動されユーザとの情報のやり取りを行う際に、利用者から入力される音声言語情報に対する解析をMYエージェントが行い、解析より得られる情報をサービスエージェントに伝達することである。
第3の特徴は、複数のサービスエージェントが起動されユーザとの情報のやり取りを行う際に、利用者及び/あるいはMYエージェントからの情報に対して2つ以上のサービスエージェントが返す応答情報を所定の知識情報に応じて比較判断することにより、特定のサービスエージェントの情報を他のエージェントからの情報と弁別できるように利用者に提示することである。
図7にMYエージェントを利用して2つのサービスエージェントとのやり取りを行う際の構成図を示す。701はユーザとのやり取りを行うパネル型の音声入力音声出力機能付きインタフェース、702はMYエージェント、703はMYエージェントと外部サービスエージェントを接続する通信チャネル、704と705はサービスエージェントである。外部サービスエージェントは通信回線を介してインタフェース701をそれぞれの入出力手段として用いることができる。
図8は、本実施形態に係る音声言語対話システムを用いて行われる会話例をしめしている。文番号4までの対話は、図3の対話例と同じであり、処理は前述のように進展する。
文番号5により、ユーザは2つのサービスエージェントとの対話を指示する。この結果、次の提案ゴールが作成され、"World_travel"か"ABC_travel"のいずれかを用いて問題解決を行うという提案(文6)がユーザに対してなされる。提案ゴール:execute_service('World_travel'|'ABC_travel', make_reservation(tour,succor_world_cup,Japan-French-match)))文7でユーザがこの提案を了承し、MYエージェントは、"exevute_service"を実行するが、複数のエージェント対象からサービスを受けると判定できるため、図9に示したフローにより処理を行う。
S901では、各サービスエージェントとの通信回線を確立し、ユーザが実行したい要求(ゴール記述)を伝達する。実施例会話の場合には、「サッカーワールドカップの日本・フランス戦のツアー予約」に対する次のゴール情報が伝達される。 目標ゴール: goal(make_reservation(tour,succor_world_cup,Japan-French-match)))目標ゴール情報を受け取った各サービスエージェントは、そのエージェントの記憶部に蓄積されたプランゴールデータベースを検索することにより、このゴールを実行可能か否かを判定することができ、実行の可否(あるいは、実行可能である可能性の有無)の情報をサービスを要求したMYエージェントに通知する。MYエージェントは、S902にて各エージェントからサービスの実行の可否を判定し、全てのサービスエージェントが実行不可の場合は、S903にてその理由情報を要求・受信して接続処理を終了する。実行が可能なサービスエージェントが存在する場合は、S904にて各サービスエージェントにユーザ情報の伝達を行う。実行が可能なサービスエージェントが1つのみの場合には、その旨をユーザに通知し、図5と同様な処理を行う。
以下の説明では、サービスエージェントが複数存在する場合("World_travel"と"ABC_travel")を想定する。S905では、ユーザからの入力が行われたか否かの判定がなされ、ユーザからの入力が存在する場合にS906において、その入力に対する音声認識、言語解析、文脈解析、要求解析が実施され、ユーザの要求を得る。S907において、S906で得られた音声認識、言語解析、文脈解析、要求解析情報をサービスエージェントに伝達する。S908では、サービスエージェントからの情報インプットがあるか否かを判定し、情報インプットがある場合は、S909のサービスエージェントの入力処理を行う。この処理では、複数のサービスエージェントからの情報をユーザに一覧提示できるよう、各エージェント間のメッセージの調整を行う。例えば、ユーザからの要望に対して、1つのエージェントが回答情報を返したのに対して、別のエージェントが回答情報を得るために必要な追加情報を要求した場合に、このエージェントに対して情報提供を行うことにより、このエージェントからの回答情報を得ることにより、2つのエージェントからの回答情報をそろえて得ることで、ユーザに対して同じレベルの回答を提示することが可能となる。
また、2つのエージェントが同種の情報提供を要求した場合などは、ユーザに対して問い合わせて提供したり、MYエージェントの持つ情報内で提供可能な情報を提供するなどして、ユーザの手間を少なくして、対話を並行して進めることができる。S910では、S909でのエージェントからの情報をまとめてユーザに提示する。S911では、ユーザとエージェントの間の対話が終了したか否かを判断する。これは、ユーザの初期ゴールが得られたり、ゴールの実現が不可能と判定されたり、ユーザからの終了を意図する入力が行われたりしたかを判定することで実現可能である。
図8の会話例をもとに図9の動作を説明する。S901〜S904の処理は、前述と同様に進み、文8に対応する情報がサービスエージェント1、サービスエージェント2から送られてくる。

SE1: inform(greeting(start,"ワールドトラベルの予約サービスです。Y様。")).
SE2: inform(greeting(start,"こんにちは。ABCトラベルです。")).

それぞれの開始の挨拶をユーザに伝達する旨の情報である。MYエージェントは、S909でこれらのメッセージを解釈し、S910でユーザの画面に、それぞれのメッセージがどのサービスエージェントから出されたかが分るように提示する。

8 SE1: ワールドトラベルの予約サービスです。Y様。
SE2: こんにちは。ABCトラベルです。

次にユーザから文9の入力がなされる。
9 U: ツアーは予約できますか。

この入力は、S906において、その入力に対する音声認識、言語解析、文脈解析、要求解析が実施される。前述した処理により、ツアーの予約が可能であるかを問い合わせる内容であると解析される。
要求解析結果:question(possible(make_reservation(tour,succor_world_cup,Japan-French-match)))

S907において、S906で得られた音声認識、言語解析、文脈解析、要求解析情報をサービスエージェントに伝達する。ここで、サービスエージェント1は、ツアーの予約状況のDBを検索し、エコノミーパック(価格20万円)は売り切れであるが、標準パック(価格30万円)は販売中であるという情報を検索する。サービスエージェントは、ツアーの予約が可能であるかのユーザの質問に対する回答とツアーの名称と価格と販売可能性情報を付加情報としてMYエージェントに通知する。一方、サービスエージェント2は、ユーザの質問に対して、予約可能であるとの情報をMYエージェントに通知する。MYエージェントは、サービスエージェント1とサービスエージェント2の情報を比較し、サービスエージェント1とサービスエージェント2の情報を同じ内容になるよう調整を図る。このため、MYエージェントは、サービスエージェント2に対して、ツアーの名称と価格情報の提供を要求し、サービスエージェントは、ツアー名称「日仏パック」と価格情報「23万円」をMYエージェントに通知する。以上の処理により、サービスエージェント1とサービスエージェント2の回答情報項目が一致する。次に図9のS910の処理により、ユーザに対して、図8の文10の音声出力とともに、各サービスエージェントから得られた情報を、ユーザの画面に、それぞれのメッセージがどのサービスエージェントから出されたかが分るように提示する。

10 ME: 両方とも大丈夫です。
(SE1表示 エコノミーパック 20万円 売り切れ、標準パック 30万円 販売中)
(SE2表示 日仏パック 23万円 販売中)

以上のように、複数のサービスエージェントに対するユーザの入力を、MYエージェントが解析して、各サービスエージェントに提供することにより、1つの音声認識結果、言語解析結果、要求解析結果が提供可能となり、各サービスエージェント毎に処理する場合に生じる、解釈の差による各サービスエージェント毎の応答のばらつきを避けることができる。また、ユーザからの入力に対してサービスエージェントが返す情報を比較し、片方のエージェントからの情報に含まれているが別のエージェントからの情報に含まれていない項目を検出し、足りない情報はMYエージェントからサービスエージェントに要求し獲得することにより、整合性のとれた情報提示が可能となる。1つのユーザ入力を複数のサービスエージェントに1回の手数で伝達し、整合性の取れた情報を提示することにより、ユーザとサービスエージェント間の対話のやり取りの数を減らし、効率的な音声言語対話システムを構築することが可能である。
上述した実施の形態は、本発明の好適な具体例であるから、技術的に好ましい種々の限定が付されているが、本発明の趣旨を逸脱しない範囲であれば、適宜組合わせ及び変更することができることはいうまでもない。
本実施形態に係る音声言語対話装置を適用するネットワークシステムの構成図。 MYエージェント104がパソコンなど上で動作する場合の機能ブロック図。 本実施形態に係る音声対話システムによる対話例を示す図。 MYエージェント104の制御部207の処理フロー図。 MYエージェント104の外部サービスエージェント102への接続処理フロー図。 本実施形態に係る音声言語対話システムにおけるユーザ情報の一例を示す図。 MYエージェント104を利用して2つのサービスエージェント102とのやり取りを行う際の構成図。 2つのサービスエージェントと対話する場合の、本実施形態に係る音声対話システムによる対話例を示す図。 MYエージェント104が複数の外部サービスエージェント102を利用する際の処理フロー図。
符号の説明
101 ネットワーク
102、704、705 サービスエージェント
103 ローカルネットワーク
104、702 MYエージェント
105 テレビ
106 パソコン
201 入力部
202 出力部
203 解析部
204 一次記憶部
205 記憶部
206 通信部
207 制御部
701 パネル型の音声入力音声出力機能付きインタフェース
703 通信チャネル

Claims (4)

  1. ユーザからの音声情報を入力する手段と、
    音声言語解析用辞書を記憶する手段と、
    前記音声言語解析用辞書を用いて前記ユーザからの音声情報を解析することによって、前記ユーザの要求を抽出する手段と、
    抽出した前記ユーザの要求を満たす外部装置との間で、前記ユーザの要求およびその応答結果の授受を制御する制御手段と、
    前記応答結果をユーザに出力する出力手段と、を備える音声対話装置。
  2. 前記制御手段は、前記ユーザの要求を満たす外部エージェントを複数見つけた場合、前記抽出したユーザの要求を当該複数の外部エージェント全てに渡すことを特徴とする請求項1記載の音声対話装置。
  3. 前記制御手段は、抽出した前記ユーザの要求を渡した複数の外部エージェントからの応答を比較判断し、
    前記出力手段は、前記比較判断した結果を出力することを特徴とする請求項2記載の音声対話装置。
  4. ユーザからの音声情報を入力し、
    音声言語解析用辞書を用いて前記ユーザからの音声情報を解析することによって、前記ユーザの要求を抽出し、
    抽出した前記ユーザの要求を満たす外部装置との間で、前記ユーザの要求およびその応答結果の授受を制御し、
    前記応答結果をユーザに出力する音声対話方法。
JP2006269775A 2006-09-29 2006-09-29 音声対話装置および音声対話方法 Pending JP2008090545A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006269775A JP2008090545A (ja) 2006-09-29 2006-09-29 音声対話装置および音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006269775A JP2008090545A (ja) 2006-09-29 2006-09-29 音声対話装置および音声対話方法

Publications (1)

Publication Number Publication Date
JP2008090545A true JP2008090545A (ja) 2008-04-17

Family

ID=39374627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006269775A Pending JP2008090545A (ja) 2006-09-29 2006-09-29 音声対話装置および音声対話方法

Country Status (1)

Country Link
JP (1) JP2008090545A (ja)

Cited By (150)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120137434A (ko) * 2010-01-18 2012-12-20 애플 인크. 자동화 디지털 어시스턴트에 의한 결과 및 사용자 요청의 패러프레이징
WO2014203495A1 (ja) 2013-06-19 2014-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び機器
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
JP2017010517A (ja) * 2015-06-25 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 人工知能によるヒューマン・マシン間の知能チャットの方法および装置
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
JP2017517776A (ja) * 2014-10-29 2017-06-29 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 対話処理方法、対話管理システム、およびコンピュータ機器
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
JP2018054850A (ja) * 2016-09-28 2018-04-05 株式会社東芝 情報処理システム、情報処理装置、情報処理方法、及びプログラム
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
JP2018088242A (ja) * 2016-10-21 2018-06-07 富士通株式会社 データ処理装置、方法およびプログラム
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
JP2019057093A (ja) * 2017-09-20 2019-04-11 富士ゼロックス株式会社 情報処理装置及びプログラム
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
WO2019130410A1 (ja) * 2017-12-26 2019-07-04 楽天株式会社 対話制御システム、対話制御方法、及びプログラム
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
JP2019159880A (ja) * 2018-03-14 2019-09-19 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
WO2019225201A1 (ja) * 2018-05-25 2019-11-28 ソニー株式会社 情報処理装置及び情報処理方法、並びに情報処理システム
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
WO2020008881A1 (ja) * 2018-07-03 2020-01-09 ソニー株式会社 情報処理装置および情報処理方法
CN110741362A (zh) * 2018-05-03 2020-01-31 谷歌有限责任公司 音频查询的重叠处理的协调
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
JP2020144274A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
CN111739524A (zh) * 2019-03-25 2020-10-02 本田技研工业株式会社 智能体装置、智能体装置的控制方法及存储介质
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
JP2021192235A (ja) * 2016-12-30 2021-12-16 グーグル エルエルシーGoogle LLC パケット化されたオーディオ信号の認証
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
JP2023505917A (ja) * 2020-11-20 2023-02-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
WO2023112745A1 (ja) * 2021-12-17 2023-06-22 ソニーグループ株式会社 情報処理方法、情報処理装置および情報処理プログラム

Cited By (233)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10475446B2 (en) 2009-06-05 2019-11-12 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
KR20120137434A (ko) * 2010-01-18 2012-12-20 애플 인크. 자동화 디지털 어시스턴트에 의한 결과 및 사용자 요청의 패러프레이징
KR101511833B1 (ko) 2010-01-18 2015-04-14 애플 인크. 지능형 자동화 어시스턴트에 의한 능동적 입력 유도에 기초한 명확화
US9548050B2 (en) 2010-01-18 2017-01-17 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
JP2014222510A (ja) * 2010-01-18 2014-11-27 アップル インコーポレイテッド インテリジェント自動アシスタント
KR101588080B1 (ko) * 2010-01-18 2016-01-25 애플 인크. 자동화 디지털 어시스턴트에 의한 결과 및 사용자 요청의 패러프레이징
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10984326B2 (en) 2010-01-25 2021-04-20 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US11410053B2 (en) 2010-01-25 2022-08-09 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10607141B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10984327B2 (en) 2010-01-25 2021-04-20 New Valuexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
USRE49014E1 (en) 2013-06-19 2022-04-05 Panasonic Intellectual Property Corporation Of America Voice interaction method, and device
US9564129B2 (en) 2013-06-19 2017-02-07 Panasonic Intellectual Property Corporation Of America Voice interaction method, and device
JP2020173477A (ja) * 2013-06-19 2020-10-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び音声対話エージェントサーバ
CN105144285A (zh) * 2013-06-19 2015-12-09 松下电器(美国)知识产权公司 声音对话方法及设备
WO2014203495A1 (ja) 2013-06-19 2014-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び機器
JPWO2014203495A1 (ja) * 2013-06-19 2017-02-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び機器
CN108806690A (zh) * 2013-06-19 2018-11-13 松下电器(美国)知识产权公司 声音对话方法及声音对话代理服务器
JP7072610B2 (ja) 2013-06-19 2022-05-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び音声対話エージェントサーバ
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10714095B2 (en) 2014-05-30 2020-07-14 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
JP2017517776A (ja) * 2014-10-29 2017-06-29 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 対話処理方法、対話管理システム、およびコンピュータ機器
US11556230B2 (en) 2014-12-02 2023-01-17 Apple Inc. Data detection
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
JP2017010517A (ja) * 2015-06-25 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 人工知能によるヒューマン・マシン間の知能チャットの方法および装置
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
JP2018054850A (ja) * 2016-09-28 2018-04-05 株式会社東芝 情報処理システム、情報処理装置、情報処理方法、及びプログラム
JP2018088242A (ja) * 2016-10-21 2018-06-07 富士通株式会社 データ処理装置、方法およびプログラム
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
JP2021192235A (ja) * 2016-12-30 2021-12-16 グーグル エルエルシーGoogle LLC パケット化されたオーディオ信号の認証
JP7386829B2 (ja) 2016-12-30 2023-11-27 グーグル エルエルシー パケット化されたオーディオ信号の認証
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10847142B2 (en) 2017-05-11 2020-11-24 Apple Inc. Maintaining privacy of personal information
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US11336479B2 (en) 2017-09-20 2022-05-17 Fujifilm Business Innovation Corp. Information processing apparatus, information processing method, and non-transitory computer readable medium
JP2019057093A (ja) * 2017-09-20 2019-04-11 富士ゼロックス株式会社 情報処理装置及びプログラム
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US11676588B2 (en) 2017-12-26 2023-06-13 Rakuten Group, Inc. Dialogue control system, dialogue control method, and program
WO2019130410A1 (ja) * 2017-12-26 2019-07-04 楽天株式会社 対話制御システム、対話制御方法、及びプログラム
JP6591128B1 (ja) * 2017-12-26 2019-10-16 楽天株式会社 対話制御システム、対話制御方法、及びプログラム
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
JP7045886B2 (ja) 2018-03-14 2022-04-01 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
JP2019159880A (ja) * 2018-03-14 2019-09-19 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
JP7119218B2 (ja) 2018-05-03 2022-08-16 グーグル エルエルシー オーディオクエリのオーバーラップ処理の協調
JP2021523500A (ja) * 2018-05-03 2021-09-02 グーグル エルエルシーGoogle LLC オーディオクエリのオーバーラップ処理の協調
US11989229B2 (en) 2018-05-03 2024-05-21 Google Llc Coordination of overlapping processing of audio queries
CN110741362B (zh) * 2018-05-03 2024-05-14 谷歌有限责任公司 音频查询的重叠处理的协调
CN110741362A (zh) * 2018-05-03 2020-01-31 谷歌有限责任公司 音频查询的重叠处理的协调
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
WO2019225201A1 (ja) * 2018-05-25 2019-11-28 ソニー株式会社 情報処理装置及び情報処理方法、並びに情報処理システム
JP7342862B2 (ja) 2018-05-25 2023-09-12 ソニーグループ株式会社 情報処理装置及び情報処理方法、並びに情報処理システム
JPWO2019225201A1 (ja) * 2018-05-25 2021-07-08 ソニーグループ株式会社 情報処理装置及び情報処理方法、並びに情報処理システム
US11869496B2 (en) 2018-05-25 2024-01-09 Sony Corporation Information processing device and information processing method, and information processing system
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
WO2020008881A1 (ja) * 2018-07-03 2020-01-09 ソニー株式会社 情報処理装置および情報処理方法
JP2020144274A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
CN111667824A (zh) * 2019-03-07 2020-09-15 本田技研工业株式会社 智能体装置、智能体装置的控制方法及存储介质
CN111739524A (zh) * 2019-03-25 2020-10-02 本田技研工业株式会社 智能体装置、智能体装置的控制方法及存储介质
CN111739524B (zh) * 2019-03-25 2024-03-08 本田技研工业株式会社 智能体装置、智能体装置的控制方法及存储介质
JP2023505917A (ja) * 2020-11-20 2023-02-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体
WO2023112745A1 (ja) * 2021-12-17 2023-06-22 ソニーグループ株式会社 情報処理方法、情報処理装置および情報処理プログラム

Similar Documents

Publication Publication Date Title
JP2008090545A (ja) 音声対話装置および音声対話方法
US20230161799A1 (en) Method for adaptive conversation state management with filtering operators applied dynamically as part of a conversational interface
JP6505903B2 (ja) 会話型相互作用システムの検索入力におけるユーザ意図を推定する方法およびそのためのシステム
EP3491533B1 (en) Providing command bundle suggestions for an automated assistant
US10771406B2 (en) Providing and leveraging implicit signals reflecting user-to-BOT interaction
US9190052B2 (en) Systems and methods for providing information discovery and retrieval
TW200424951A (en) Presentation of data based on user input
US20110161347A1 (en) System and method for an n-best list interface
MX2014004889A (es) Sistema y metodo para el manejo del contenido de audio.
JP2001142481A (ja) 音声/ビデオ装置用の制御システム及び音声/ビデオ構成を制御するための統合アクセスシステム
US20050010422A1 (en) Speech processing apparatus and method
JP2008145769A (ja) 対話シナリオ生成システム,その方法およびプログラム
JP2020101822A (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
Johnston Extensible multimodal annotation for intelligent interactive systems
JP4907635B2 (ja) ウェブページの特性に基づいてテキストを抽出するための方法、システム及びコンピュータ読み取り可能な記録媒体
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
Suciu et al. Search based applications for speech processing
Sunkari InfoKiosk: An information kiosk with text-free user interface
KR20230014680A (ko) 서드파티 디지털 어시스턴트 액션을 위한 비트 벡터 기반 콘텐츠 매칭
CN113903335A (zh) 一种用户意图识别方法、用户意图识别装置和存储介质
JP2007194944A (ja) 情報提供サーバ、視聴端末、情報提供プログラム、及び回答データ取得プログラム