JP6535349B2 - 以前の対話行為を使用する自然言語処理における文脈解釈 - Google Patents

以前の対話行為を使用する自然言語処理における文脈解釈 Download PDF

Info

Publication number
JP6535349B2
JP6535349B2 JP2016567966A JP2016567966A JP6535349B2 JP 6535349 B2 JP6535349 B2 JP 6535349B2 JP 2016567966 A JP2016567966 A JP 2016567966A JP 2016567966 A JP2016567966 A JP 2016567966A JP 6535349 B2 JP6535349 B2 JP 6535349B2
Authority
JP
Japan
Prior art keywords
natural language
language input
semantic representation
user
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016567966A
Other languages
English (en)
Other versions
JP2017516153A (ja
Inventor
ジュゼッペ ディファブリジオ
ジュゼッペ ディファブリジオ
シシル スリドハル バラティ
シシル スリドハル バラティ
イン シ
イン シ
ランバート マティアス
ランバート マティアス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of JP2017516153A publication Critical patent/JP2017516153A/ja
Application granted granted Critical
Publication of JP6535349B2 publication Critical patent/JP6535349B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Description

本発明は、以前の対話行為を使用する自然言語処理における文脈解釈に関する。
音声処理システムは、ユーザからの口語入力を受信し、ユーザが意味したことを判定するための種々のモジュール及び構成要素を含む。いくつかの実施態様では、音声処理システムは、ユーザ発話のオーディオ入力を受信し、発話の1つ以上の有力な音訳を生成する自動音声認識(「ASR」)モジュールを含む。ASRモジュールは、音響モデル及び言語モデルを通常使用する。音響モデルは、発話の音響特性を基に、どのワードまたはサブワードユニット(例えば、音素)が発話に対応するかに関する仮説を生成するために使用される。言語モデルは、発話が話される言語の語彙特性を基に、音響モデルを使用して生成された仮説のうちどれが最も有力な発話の音訳かを判定するために使用される。
音声処理システムは、ユーザ発話の音訳などのテキスト入力を受信し、コンピュータアプリケーションなどが従い得る方法で入力の意味を判定する、自然言語理解(「NLU」)モジュールをさらに含んでも良い。例えば、NLUモジュールは統計言語モデルを使用して、ASRモジュールにより生成されるテキストの意味を判定するために使用されても良い。NLUモジュールは、その後、ASR出力からユーザ意図を判定し、いくつかのダウンストリームプロセスに意図を提供することができ、ダウンストリームプロセスは判定されたユーザ意図に応答して、いくつかのタスク(例えば、通話を開始する、要求された音楽の再生を開始する、要求された情報を提供する等の指示を生成する)を行う。
マルチターン対話インタラクションにおける、ユーザ発話の解釈などの自然言語を処理及び解釈する機能が開示される。ユーザ発話の解釈及びユーザ発話へのシステム応答に関する文脈情報が保持され得る。後続のユーザ発話は、文脈を伴わず解釈されるのではなく、文脈情報を使用して解釈され得る。いくつかの場合では、後続のユーザ発話の解釈は、ルールベースフレームワークを使用して、前のユーザ発話の解釈にマージされ得る。ルールはどの解釈がマージされても良く、どの状況において解釈がマージされても良いかを判定するために規定されても良い。
いくつかの音声処理システムは、ユーザとのマルチターン対話インタラクションを行うように構成される。例えば、ユーザは特定のプロセスまたはタスクを開始することを望むことがあるが、全ての情報を提供しない可能性がある。この場合、音声処理システムは、欠如している必要な情報をユーザに促すことができる。別の例では、ユーザはシステムから情報を受信することを望むことがある。音声処理システムは、要求された情報を提供し、提供された情報を基に、ユーザは後続のプロセスを開始することができる。
以下の図面を参照して種々の発明の機能の実施形態を説明する。図面全体を通して、参照番号は、参照する要素間の対応を示すために繰り返して使用する場合がある。図面は、本明細書に記載の実施形態例を説明するために提供し、本開示の範囲を限定することは意図しない。
以前のターンからの文脈情報を使用する、マルチターン対話発話処理中の音声処理システムのモジュール間の例示的なデータフローのブロック図である。 文脈インタープリタを使用する、発話処理中のクライアントデバイスと音声処理システムとの間の例示的なデータフローのブロック図である。 文脈インタープリタを使用する、発話処理中のクライアントデバイスと音声処理システムとの間の例示的なデータフローのブロック図である。 文脈インタープリタを使用して発話を処理するための例示的なプロセスのフロー図である。 現在の発話解釈が前の発話解釈にマージできるかどうかを判定する例示的なプロセスのフロー図である。
<序論>
本開示は、ユーザとのマルチターン対話インタラクション(例えば、いくつかのタスクを達成するための、複数のユーザ発話及び/または複数のシステム応答を含む、口語の対話セッション)を自然に行い、かつ正確に管理する音声処理システムの能力を向上することに関する。概して記載すると、マルチターン対話インタラクションの音声処理結果の正確性は、少なくとも一部は、以前にユーザが開始した及び/またはシステムが開始した対話インタラクションの文脈におけるユーザ発話により伝えられる意図または情報を判定できることに依存する。音声処理システムがマルチターン対話インタラクションの適切な文脈保持に失敗した場合、またはユーザが脱線したり、予測外の意図に関する発話を行ったり、文の断片を発話したりするなどの場合、音声処理システムはユーザ発話に正確に応答できない場合がある。いくつかのシステムは、特定の応答のみを可能にする制限的な文法または高度に構造化された対話を使用する(例えば、特定の情報を導出するプロンプトは導出された情報のみに応答し、他の全ての応答は拒否される)。しかしながら、係るシステムは、多くのユーザ及びアプリケーション開発者が望む、自然な口語インタラクションを実現しない。他のシステムは、将来のユーザ発話の予測される主題に関する内部「ヒント」または他の情報(例えば、予測される意図または意図に関連する情報)を使用する。次のユーザ発話は予測される主題に対する先入観を伴って処理される可能性があるが、それでも予測外の主題に関する発話を適切に受容し処理することが可能である。しかしながら、係るシステムは、処理中のマルチターン対話インタラクションからの脱線、及びマルチターン対話インタラクションへの復帰を適切に処理できないことがあり、あるいは、マルチターン対話インタラクションの現在の文脈をあまりに頻繁に、またはあまりに急速に失うことがある。
本開示の態様は、マルチターン対話インタラクションのターンの履歴を保持することに関する(本明細書では、便宜上「マルチターンインタラクション」とも呼ぶ)。いくつかの実施形態では、前のユーザ発話の意味論的表現(本明細書では「解釈」とも呼ぶ)及び前のシステム応答及びアクションの意味論的表現(本明細書では「対話行為」とも呼ぶ)を保持することができる。ユーザ及びシステムの両方による前のターンの意味論的表現を保持することにより、システムは、同じマルチターンインタラクションの後のユーザ発話を解釈する際に、それらに戻って参照することができる。例えば、音声処理システムは、マルチターンインタラクションの以前のターン中にユーザが言ったことの解釈に戻って参照し、追加情報を得るか、または現在の発話への応答方法に関する判定を行うことができる。音声処理システムは、さらにマルチターンインタラクションの以前のターン中に、これらのインタラクションに応えてシステム自体が行ったことに戻って参照することができる。このように、音声処理システムはマルチターンインタラクションの前のユーザ発話及びシステム応答の一部または全てに関する現在のユーザ発話を、より正確に解釈することができる。
有利には、マルチターンインタラクション文脈にアクセスする能力により、システムは文の断片(「本明細書では「非文発話」または「NSU」とも呼ぶ」)、脱線、曖昧な意図などを正しく解釈することが可能になり得る。例えば、マルチターンインタラクションは特定の出発位置から特定の目的地位置までの航空便の検索(例えば、「ロサンゼルスからシカゴへの航空便の検索」)を要求することを含んでも良い。マルチターンインタラクションの1つのターンは「金曜の朝」というNSUに対応しても良い。この発話の完全な意味は、マルチターンインタラクション文脈を使用して推測することができる。この意味は「金曜の朝のロサンゼルスからシカゴへの航空便の検索」として解釈できるだろうが、帰りの日付または何か他のものとして解釈される場合もある。マルチターンインタラクション文脈がシステムプロンプト「いつ帰りたいですか?」を含む場合、NSUの適切な解釈は、金曜の朝に帰る往復航空便を検索することであろう。
本明細書に使用される、用語「意味論的表現」はユーザ発話の意味の処理された表現、またはユーザ発話に応えてトリガされた対話行為の意味の曖昧な表現を指す。ユーザ発話の意味論的表現は、単にユーザ発話の音訳または他の語彙表現ではなく、ユーザ発話の意図の解釈となり得る。例えば、ユーザがワード「明日」を話した場合、他のワードまたはフレーズ(例えば、「木曜日」などの曜日、「2014年4月24日」などのカレンダーの日付等)は意味論的には同等であっても良い。文字列「明日」のみが保存される場合、後続の発話または対話行為が特定の日付等に依存する際には有益ではないことがある。例示的には、ユーザ発話の意味論的表現は、ユーザ発話の解釈に関する情報を記憶するために、NLUモジュールまたは音声処理システムの構成要素により生成されるデータ構造またはプログラム可能オブジェクトのインスタンスであっても良く、例えば、解釈のドメイン、解釈により表現される意図、意図に関連する情報(例えば、意図の「スロット」に対する値)等である。
システム対話行為の意味論的表現は、音声処理システムによる実施対象のアクションまたはプロセスのいくつかの内部識別子であっても良い。例えば、音声処理システムがユーザから追加情報を導出する場合(例えば、航空チケット検索要求に応えて旅行日を尋ねる)、対話行為の意味論的表現は、音声処理システムによりユーザが理解可能なプロンプト(例えば、合成された音声または視覚表示)に処理される、コード、名前、署名、または他の識別子(及び関連情報)であっても良い。いくつかの実施形態では、対話行為の意味論的表現は、対話行為に関する情報を記憶するための、対話マネージャまたは音声処理システムのいくつかの他の構成要素により生成されるデータ構造またはプログラム可能オブジェクトであっても良く、例えば、対話行為のドメイン、解釈(例えば、情報の導出、意図の確認等)により表現されるアクション、判定された意図に関連する情報(例えば、「スロット」)等である。
本開示の追加の態様は、マルチターンインタラクションの文脈(前のユーザ及びシステムのターンの意味論的表現)の解釈へのルールベース手法に関する。ルールベース手法は、上記の通り保存された、前の解釈及び対話行為を考慮して、現在のユーザ発話を解釈するフレームワークを提供することにより、自然言語理解の正確性を向上することができる。いくつかの実施形態では、ルールは、現在のマルチターンインタラクションにおいて、以前の発話のどれをユーザが行ったか、及び/またはどの対話行為が以前にトリガされたかを基に、ユーザ発話に応えて、どの対話行為をトリガするかの判断を規定し、あるいは容易にしても良い。例えば、ユーザが航空チケットの検索を開始する場合、ユーザは検索に関連する特定の情報(例えば、旅行日、航空会社、及び出発位置)を提供しても良い。システムは目的地をユーザに促してもよく、ユーザは種々の位置の天気に関して尋ねることにより、脱線しても良い。このシナリオでは、ユーザは航空チケットの検索のために以前に行われた作業(例えば、旅行日、航空会社、及び出発位置の特定)がシステムにより保持されることを予測しても良く、ユーザはシステムによる目的地情報の導出に応答して、目的地を提供するだけでも良い。前の発話及び対話行為の意味論的表現を記憶することにより、例えば、発話を以前に提供された情報にマージして完全形式の意図及び対応するスロット値にすることにより、音声処理システムは目的地を提供するこの発話を巧みに処理することができる。
本開示のさらなる態様は、記憶された文脈情報に基づく音声処理結果(例えば、NLU結果)の再スコア化、または再ランク付けに関する。いくつかの実施形態では、NLUモジュールまたは構成要素は、特定のユーザ発話の上位n解釈(nは負ではない、いくつかの整数)のうちn−bestリストを生成しても良い。最上位スコア解釈のみを処理する、またはルールを満たす1つのみの解釈を選択するために、上記及び以下にさらに詳述するルールを使用することなく、ルールの適用を基に、n−bestリストの解釈をフィルタリングし、再スコア化し、再ランク付けしても良い。例えば、n−bestリストの特定の解釈が前の解釈にマージされる場合、組み合わされたマージ解釈はn−bestリストに挿入されても良く、上位スコア、あるいは、マージされていない意図のみに比べてより関連性を示すスコアを与えられても良い。解釈が低い認識信頼性に関連する場合であっても、再ランク付けは音声処理システムがルールを満たす任意の解釈を使用する機会を減少または防止するのに役立つことができる。代わりに、真の「正しい」結果は結果のn−bestリストに保持され、したがって、正しく認識され得る。
本開示に記載の実施形態の態様は、例示の目的上、ユーザ発話がクライアントデバイスにより受信され、オーディオデータが処理のために単独のネットワークベース音声処理システムに伝達される分散システムに注目するが、当業者は、本明細書に開示する技法が、音声処理を行う任意の数のソフトウェアプロセスまたはアプリケーションに適用され得ることを理解するであろう。例えば、ユーザデバイスは、音声を処理し、文脈を保持するための、モジュール、構成要素または他の機能の一部または全てを含み得る。加えて、本開示中に記載の実施形態の態様は、例示の目的上、ユーザ発話に行われる音声認識に注目するが、本発明はこれに限定されない。いくつかの実施形態では、文脈解釈システム及び技法は、あらゆる種類の自然言語入力に適用され得る。例えば、ユーザ供給テキストまたは他の非言語入力が処理され得る。係る場合、音声処理システムはより一般的な自然言語処理システムに置き換えられるか、またはより一般的な自然言語処理システムに追加される。本開示の種々の態様を、本開示を限定するのではなく例示する意図で、特定の実施例及び実施形態に関して記載する。
文脈インタープリタによる音声処理システムの例
例示的な実施形態を参照すると、図1は本開示の態様を実装しても良い音声処理システムを示す。特に、図1はユーザ発話の受信に応えて、種々の音声と言語処理モジュールとの間のデータフローの例を示す。ユーザ100は、コンピューティングシステムにいくつかのタスクを行うよう口語指示を含む発話などの発話を行っても良い。1つの個別の非制限的な実施例では、ユーザ100は「来週の金曜日にロサンゼルスから出発する航空便を検索しなさい」と言っても良い。ユーザ100は、ユーザにより操作されるいくつかのクライアントデバイスに(またはその前で)発話を話しても良い。
クライアントデバイス(例えば、図2及び図3に示すクライアントデバイス300)は幅広い種類の電子デバイスに対応することができる。いくつかの実施形態では、クライアントデバイスは1つ以上のプロセッサと、プロセッサにより実行されるソフトウェアアプリケーションとを含んでも良いメモリを含むコンピューティングデバイスであっても良い。クライアントデバイスは、マイクロフォン102などの、音声認識が行われる音声入力を受容するための、オーディオ入力構成要素を含んでも良く、またはオーディオ入力構成要素と通信しても良い。クライアントデバイスは、スピーカ104などの、音声処理システム200からの応答または他の情報を提示するための出力構成要素をさらに含んでも良く、または出力構成要素と通信しても良い。クライアントデバイスのソフトウェアは、無線通信ネットワークを介した通信、または他のコンピューティングデバイスとの直接の通信を構築するハードウェア構成要素及び/またはソフトウェアを含んでも良い。例示的には、クライアントデバイスは、携帯電話、パーソナルデジタルアシスタント(「PDA」)、携帯ゲームデバイス、メディアプレイヤー、電子書籍リーダー、タブレットコンピュータ、ラップトップコンピュータなどの携帯デバイスであり得る。いくつかの実施形態では、クライアントデバイスは、実質的には、プログラム実行能力及びネットワーク接続性を伴うテレビ(「スマートTV」)、セットトップボックス、ゲーム機、ホームエンターテイメントシステム、デスクトップコンピュータ、サーバコンピュータなどの固定式デバイスであっても良い。
図1に示す通り、ユーザ発話は音声処理システム200に提供されても良い。音声処理システム200は携帯電話ネットワークまたはインターネットなどの通信ネットワークを介してクライアントデバイスと通信するネットワークアクセス可能システムであり得る。ユーザは、クライアントデバイスまたは音声処理システム200のいずれか上で、クライアントデバイスを使用して発話を送信し、情報を受信し、種々のプロセスを開始しても良い。例えば、ユーザは、上記の航空チケットの検索、タイマの設定、音楽の視聴、通話の開始等のためにクライアントデバイスに口語指示を発行することができる。
音声処理システム200は、ユーザ発話に関するオーディオデータの自動音声認識を行うASRモジュール202と、ASRモジュール202により生成される音訳に自然言語理解を行うNLUモジュール204と、前の解釈及び対話行為を基に、現在のNLU結果に文脈ルールを適用する文脈インタープリタ206と、音声処理システム200とのユーザインタラクションを管理し、種々の対話行為を開始する対話マネージャ208と、特定の対話行為をユーザが理解可能な通信(例えば、テキスト読み上げ、つまり「TTS」構成要素によりユーザに「読み取り」可能なテキスト)に変換する自然言語生成(NLG)モジュールと、以前のユーザ発話及びシステム対話行為の意味論的表現を記憶するための文脈データストア212とを含んでも良い。
音声処理システム200は任意の数のサーバコンピューティングデバイス、デスクトップコンピューティングデバイス、メインフレームコンピュータなどを含んでも良い。それぞれの個々のデバイスは音声処理システム200のモジュールまたは構成要素のうちの1つを実装しても良い。いくつかの実施形態では、音声処理システム200は、音声処理システム200のモジュールまたは構成要素のうちの1つを実装するために、物理的または論理的にグループ化されたいくつかのデバイスを含み得る。例えば、音声処理システム200は、単一のデバイス上で組み合わされた種々のモジュール及び構成要素、単一のモジュールまたは構成要素の複数のインスタンス等を含み得る。1つの個別の非制限的な実施形態では、音声処理システム200は、ASR及び/若しくはNLUモジュール202、204で構成される1つのサーバまたはサーバ群、文脈インタープリタ206及び/若しくは対話マネージャ208で構成される1つのサーバまたはサーバ群等を含んでも良い。マルチデバイスの実施態様では、音声処理システム200の種々のデバイスは、ローカルエリアネットワーク(「LAN」)またはワイドエリアネットワーク「(WAN)」として構成された企業または大学ネットワークなどの、内部通信ネットワークを介して通信しても良い。いくつかの場合には、音声処理システム200のデバイスは、インターネットなどの外部ネットワーク上、または内部ネットワークと外部ネットワークとの組み合わせ上で通信しても良い。
いくつかの実施形態では、音声処理システム200が提供する機能及びサービスは、通信ネットワークを介して消費可能なウェブサービスとして実装されても良い。さらなる実施形態では、音声処理システム200は、ホスト型コンピューティング環境で実装される、もう1つの仮想マシンによって提供される。ホスト型コンピューティング環境は、急速にプロビジョニングされ公開された、1つ以上のコンピューティング資源を含む場合があり、コンピューティング資源は、コンピューティングデバイス、ネットワークデバイス、及び/または記憶デバイスを含み得る。ホスト型コンピューティング環境は、クラウドコンピューティング環境と呼ばれることもある。
いくつかの実施形態では、ネットワーク接続及び1つ以上の単独のコンピューティングシステムが本開示の処理を行う必要がないよう、音声処理システム200の機能はクライアントデバイスに統合されても良い。例えば、単一のクライアントデバイスはマイクロフォン102、ASRモジュール202、NLUモジュール204、対話マネージャ206、スキップリスト208またはそれらのいくつかの組み合わせを含んでも良い。
上記及び詳細には以下にさらに詳述する実施例に戻ると、ユーザは種々の指示、要求などを含んでも良い発話を送信しても良い。マイクロフォン102は発話オーディオを取得し、発話オーディオ(または発話音声から派生するデータ)を音声処理システム200に提供する。ASRモジュール202は、音訳のn−bestリストなど、発話のASR結果を生成しても良い。それぞれの音訳またはその一部は、信頼性スコアまたは音訳またはその一部が正しい尤度などのいくつかのスコアに関連付けられても良い。n−bestリストまたはいくつかの他のタイプの結果は、ユーザ意図が判定されるよう、NLUモジュール204に提供されても良い。解釈のn−bestリスト(例えば、意図)はNLUモジュール204により判定または生成され、文脈インタープリタ206に提供されても良い。文脈インタープリタ206は、以下にさらに詳述する通り、NLU結果を処理し(例えば、個々の解釈の修正、解釈のフィルタリング、解釈の再スコア化または再ランク付け等)、処理された結果を対話マネージャ206に提供することができる。例示的には、文脈インタープリタ206は、文脈解釈ルールの適用を基に、現在のNLU結果を文脈データストア212に記憶された前の結果とマージしても良い。対話マネージャ208は、その後、マージされた結果を基に応答を生成し(例えば、確認)、NLGモジュール210は対話マネージャ208により生成された意味論的応答を人間が可読なテキスト、合成された音声等に変換することができる。対話マネージャ208により生成された意味論的応答は、前の応答の意味論的表現、ユーザ発話などと共に、文脈データストア212に記憶することができる。
文脈インタープリタを使用して処理されるマルチターンインタラクションの例
図2及び図3は、マルチターンインタラクション中のクライアントデバイス300と音声処理システム200との間のインタラクションの例を説明する。マルチターンインタラクション中では、音声処理システム200及びクライアントデバイス300のユーザは、曲を見つける、音楽を購入する、航空便を予約するなどの、いくつかの目的を達成するために、それぞれ交代で1つ以上の発話を交換することができる。上記の通り、それぞれのユーザ発話は解釈(ユーザ発話の意味の意味論的表現またはそのいくつかの部分)により表現することができ、それぞれのシステム通信は対話行為(システムプロンプトの意味の意味論的表現またはそのいくつかの部分)により表現することができる。
特定の対話行為を参照して、例示のみを目的とする図2及び図3に例示する実施例(ならびに本明細書の他の実施例)を記載する。本明細書に記載する対話行為は、音声処理システムにより実装されても良い、あらゆる対話行為を包括するものではない。いくつかの実施形態では、対話行為は4つの主なタイプ、すなわち(1)スロット値または意図の明示的な確認、(2)スロット値または意図の暗示的な確認、(3)スロット値の導出、(4)スロット値または意図の曖昧性排除に分類されても良い。
例えば、システムは自身の解釈の信頼性が低い場合、意図への行為に費用がかかるか、または意図への行為を無効にするのが困難な場合等では、特定のスロット値または特定の意図の正確性を明示的に確認しても良い。システムは、はい/いいえの質問(例えば、「『フライ・ミー・トゥー・ザ・ムーン』という曲を購入したいということですか?」)を作成することができる。ユーザはスロット値(例えば、意図「曲の購入」のスロット「曲のタイトル」に対する値「フライ・ミー・トゥー・ザ・ムーン」)を確認もしくは拒否すること、または意図自体を確認もしくは拒否することができる。
別の実施例では、システムは、ステートメント形式(例えば、「現在、フランク・シナトラの『フライ・ミー・トゥー・ザ・ムーン』を再生しています」)でプロンプトを提示することにより、スロット値または意図の正確性を暗示的に確認しても良い。ユーザは、文の断片(例えば、「ちがう、『マイ・ウェイ』」)を返答することにより、誤って解釈された入力を修正しようとしても良く、文の断片は通常、特定のスロット値を伴うが対応する意図を伴わない、非文発話(「NSU」)として音声処理システムに解釈される。
さらなる実施例として、システムは、特定の意図にアクションを起こすために必要なスロット値が欠如していても良い。システムは明示的な質問(例えば、「どの曲ですか?」)により、欠如したスロット値を導出しても良い。この場合、ユーザが文の断片を発話すると予測され、これは通常、特定のスロット値を伴うNSUとして分類される。
さらに別の実施例として、システムは、2つ以上あるスロットのうちどれに特定の値を配置すべきか、または2つ以上ある意図のうちどれをユーザが指しているかを確実に判定することができなくても良い。システムは明示的な質問(例えば、「アルバムですか、それとも曲ですか?」)によりユーザの曖昧性を導出することができる。この場合、ユーザが文の断片を発話すると予測され、これは通常、特定のスロット名または意図名を伴うNSUとして分類される。
図2を参照して、ユーザの脱線または予測外の意図の実施例を記載する。有利には、マルチターンインタラクションの前のターンの文脈内で現在の発話を解釈することは、マルチターンインタラクションの1つ以上の割り込みターンが以前の対話行為に関係してない場合でも、現在の発話がシステムによる情報の導出などの以前の対話行為に関係するということを音声処理システムが理解することに役立つことができる。このような方法でマルチターン文脈を保持または使用しないシステムでは、係る割り込みユーザ脱線または予測外の意図により、システムは、本来であればユーザによる関連及び応答性のある発話の誤解、または解釈の失敗を引き起こし得る(例えば、システムは、以前の対話行為が生成されたことを「忘れる」可能性がある)。
図2に示す通り、ユーザはマルチターンインタラクションの第1発話を行っても良く、第1発話は[1]においてクライアントデバイス300により音声処理システム200に伝達される。例示的には、発話は「来週の金曜日にロサンゼルスから出発する航空便を検索しなさい」であっても良い。音声処理システム200は上記の通り、ASRモジュール202及びNLUモジュール204を使用して発話を処理することができる。対話マネージャ208は発話の意味論的表現(例えば、「航空便検索の意図(出発日付=2014年4月23日、出発位置=LAX)」)を文脈データストア212に記憶し、発話に応答する対話行為(例えば、「導出情報(目的地位置)」)を生成することができる。NLGモジュール210は対話行為(例えば、「目的地は何ですか?」)を基にユーザプロンプトを生成しても良く、ユーザに提示するために、[2]でプロンプトをクライアントデバイス300に提供しても良い。
導出に応答することなく、ユーザは、脱線を行うか、またはいくつかの予測外もしくは非応答性の発話を行う場合がある。例えば、ユーザは「シカゴの天気は何か?」と言う場合がある。クライアントデバイス300は[3]で音声処理システム200に脱線を提供することができる。音声処理システム200は予備の音声処理結果(例えば、上記の通り、発話の解釈のn−bestリスト)を生成しても良く、予備の結果はコンテンツインタープリタ206に提供されても良い。図4及び図5に関して以下にさらに詳述する通り、文脈インタープリタ206は結果を処理しても良い。例えば、発話の解釈のn−bestリストの1つは、発話がある位置の天気を要求する完全形成の意図であっても良い。文脈データストア212にはその意図に関係する前の対話行為または解釈がないため、文脈インタープリタ206は解釈を修正することができない。別の実施例では、n−bestリストの第2解釈は、発話が「目的地位置」スロットの値を提供するNSUであっても良い。文脈データストア212はその特定のスロット値を導出する、前の対話行為を含むため、欠如したスロット値を提供するために、解釈は「航空便検索の意図(・・・)」の前の解釈(さらに文脈データストア212にある)にマージされても良い。このマージされた解釈はn−bestリストに挿入されても良い。しかしながら、n−bestリストの第1解釈(例えば、天気位置意図の完全形成)はシステム200が、その解釈の正確性において、マージされた解釈よりも高い信頼性を有することを示すスコアに関連付けられても良い。第1解釈は対話マネージャ208(例えば、要求された位置の天気を提供する対話行為を生成する)及びNLGモジュール210が従っても良く、[4]でクライアントデバイス300に応答を提供する。加えて、選択された解釈及び生成された対話行為は文脈データストア212に記憶することができる。
ユーザは、この例示的なマルチターンインタラクションの最初のターンに関係する発話を後続的に行っても良い。例えば、ユーザは[2]でシステム200により、以前に導出された情報を提供することにより、引き続き航空便を検索するように判断しても良い。ユーザは「シカゴ」(または「シカゴに行く」、または「シカゴにしてみよう」、または「目的地シカゴ」等)と言っても良く、クライアントデバイス300は[5]で音声処理システム200にその発話を提供することができる。
音声処理システム200は、現在の発話の予備の音声処理結果を再び生成することができる。最上位スコア結果の1つは、発話が「目的地位置」スロットの値を提供するNSUであるという解釈でも良い。文脈データストア212はその特定のスロット値を導出する、前の対話行為を含むため、「目的地位置」スロットに欠如した値を提供するために、解釈は「航空便検索の意図(・・・)」の前の解釈(さらに文脈データストア212にある)にマージされても良い。今回は、マージされていない上位スコアの解釈がないことを基に、解釈が適当な正しい解釈であることを示すスコアに関連付けられても良い(例えば、発話がNSUであったため、[3]でユーザが天気関連の発話を行った場合と同様、完全形式の意図の上位スコアの解釈がなかった)。対話マネージャ208は完全形式の「航空便検索の意図(・・・)」とマージされた解釈を受信することができ、(例えば、航空便検索を実行するように構成されるアプリケーションモジュールに指示を提供することにより)要求アクションを開始することができる。対話マネージャ208は意図に応答して対話行為を作成することができ、NLGモジュール210は[6]でクライアントデバイス300に送信される応答を生成することができる。例示的には、応答は航空便検索、意図の確認(例えば、「シカゴへの航空便の検索中・・・」)、追加情報の導出(例えば、「いつ帰りたいですか?」)等の結果であっても良い。
クライアントデバイス300と音声処理システム200とのインタラクションは[6]で対話行為番号4の後に続いても良い。例えば、ユーザは、[3]でユーザにより以前に行われた脱線に関係する後続の発話を行っても良い。音声処理システム200は、上記及び以下にさらに詳述する通り、文脈インタープリタ206を使用し、脱線を含む以前の発話及び対話行為を考慮して後続の発話を解釈しても良い。この場合、後続の発話は脱線とマージされ、従われ得る。
図3を参照すると、マルチターンインタラクション文脈を使用して解釈される、潜在的に曖昧な意図の実施例が記載される。有利には、マルチターンインタラクションの前のターンの文脈内で現在の発話を解釈することは、追加のユーザ入力を必要とすることなく曖昧性を解消するのに役立ち、さらにマルチターンインタラクションの全体(またはマルチターンインタラクションのいくつかの部分)の文脈で正確なアクションが判定可能である場合に、単独の発話の解釈を基に不正確なアクションを開始するのを回避することに役立つことができる。
図3に示す通り、ユーザはマルチターンインタラクションの第1発話を行っても良く、第1発話は[1]でクライアントデバイス300により音声処理システム200に伝達される。例示的には、発話は「インターネットラジオを再生しなさい」であっても良い。音声処理システム200は上記の通り、ASRモジュール202及びNLUモジュール204を使用して発話を処理することができる。対話マネージャ208は発話の意味論的表現(例えば、「インターネットラジオ局再生の意図(・・・)」)を文脈データストア212に記憶し、発話に応答する対話行為(例えば、「導出情報(ラジオ局)」)を生成することができる。NLGモジュール210は対話行為(例えば、「どのインターネットラジオ局ですか?」)を基にユーザプロンプトを生成しても良く、ユーザに提示するために、[2]でプロンプトをクライアントデバイス300に提供しても良い。
ユーザは潜在的に曖昧な発話で導出に応答しても良い。例えば、ユーザは「フランク・シナトラを再生しなさい」と言っても良い。単独では、その発話は通常、ユーザが所有するフランク・シナトラの音楽を聞くことをユーザが望むということを示し得る(例えば、意図は「音楽再生の意図(アーティスト=『フランク・シナトラ』)」)と解釈され得る)。しかしながら、本発明の実施例では、ユーザはユーザが所有する音楽ではなく、「フランク・シナトラ」のインターネットラジオ局を聞くことを望む(例えば、適切には「インターネットラジオ再生の意図(局=『フランク・シナトラ』)」)と解釈される)。前のマルチターンインタラクションの文脈にアクセスすることなくユーザ発話を解釈するシステムでは、発話「フランク・シナトラを再生しなさい」は前のユーザ意図に関する情報の導出への応答ではなく、新規のユーザ意図を反映していると判定する場合がある。したがって、係るシステムはユーザが所有する音楽の再生を開始するだろう。対照的に、音声処理システム200の文脈インタープリタ206は、このマルチターンインタラクションに対するユーザ発話の前の解釈及び前の対話行為にアクセスし、発話「フランク・シナトラを再生しなさい」はインターネットラジオ局の名前に対する導出に応えて行われたものであると判定することができる。したがって、文脈インタープリタはユーザ発話の解釈(例えば、NLU結果は、発話が「局」スロットの値を含むNSUであることを示す)を以前に記憶されたインターネットラジオ再生の意図(・・・)に適切にマージすることができる。その後、応答を生成し、[4]でクライアントデバイス300に提供することができる。例示的には、応答は要求されたインターネットラジオ局のストリーム、意図の確認(例えば、「フランク・シナトラ局を再生しています」)、追加情報の導出等であっても良い。
マルチターンインタラクション文脈を使用する発話の解釈プロセス
図4を参照すると、マルチターンインタラクション文脈を使用してユーザ発話を処理するサンプルプロセス400が記載される。有利には、文脈インタープリタ206またはプロセス400を行う音声処理システム200のいくつかの他のモジュールもしくは構成要素は、ユーザ意図の以前の解釈及びこれらの意図に応答して生成される以前の対話行為のルールベースの解析を使用して個々の音声処理結果を修正することができる。係るマルチターンインタラクションの文脈に基づく処理により、音声処理システムとのより自然な通信、及び文脈を失うことのない、より堅固な対話管理が可能になり得る。
プロセス400はブロック402で開始する。プロセス400は、文脈インタープリタ206または音声処理システム200のいくつかの他のモジュールもしくは構成要素による入力データ(例えば、現在のユーザ発話の解釈のn−bestリスト)の受信の際に自動的に開始され得る。プロセス400は、音声処理システム200のコンピューティングシステムの1つ以上のディスクドライブなどのコンピュータ可読媒体上に記憶された実行可能なプログラム命令セットに具現化され得る。プロセス400が開始される際、実行可能なプログラム命令は、RAMなどのメモリにロードされ、コンピューティングシステムの1つ以上のプロセッサにより実行することができる。
ブロック404では、コンテンツインタープリタ206または音声処理システム200のいくつかの他のモジュールもしくは構成要素は、現在のユーザ発話の解釈リストを取得することができる。図3に説明し、かつ上に記載した実施例に戻ると、文脈インタープリタ206は発話番号2である「フランク・シナトラを再生しなさい」の解釈のn−bestリストを受信しても良い。n−bestリストは、ユーザが所有するフランク・シナトラの音楽を再生すること(「音楽再生の意図(アーティスト=『フランク・シナトラ』)」)を意図とする、最上位ランクのユーザ発話の解釈を含んでも良い。n−bestリストは、スロット「ラジオ局」のスロット値「フランク・シナトラ」を伴うNSUとしての下位ランクのユーザ発話の解釈を含んでも良い。
ブロック406では、コンテンツインタープリタ206または音声処理システム200のいくつかの他のモジュールもしくは構成要素は、それぞれのn−best結果(またはそれらのいくつかのサブセット)を繰り返し処理し、特定の結果が修正されたか、あるいは以前の意図とマージされたかを判定することができる。以下に記載の通り、判定は、本発明のマルチターンインタラクションにおいて以前のユーザ発話の解釈及び以前に生成された対話行為に関する文脈情報を使用する、ルールベースの判定であり得る。
判定ブロック408では、コンテンツインタープリタ206または音声処理システム200のいくつかの他のモジュールもしくは構成要素は、特定の解釈が以前に記憶された解釈にマージ可能かどうかを判定することができる。解釈が以前に記憶された解釈にマージできるかどうかを判定するルールベースのプロセスの一例は、図5に説明され、さらに以下に詳細を記載する。解釈がマージされると、プロセス400はブロック410に進み、ここで解釈をマージできる。それ以外の場合、プロセス400は判定ブロック412に進み、ここでは、解析のための現在の発話に対する追加の解釈結果があるかどうかを判定する。
いくつかの実施形態では、現在の発話の単一の解釈は、以前に記憶された複数(例えば、2つ以上)の解釈にマージすることができる。例えば、現在の発話の解釈及び複数の前の解釈のそれぞれが図5に示すルールベースフレームワークを満たす場合、解釈はこれらの前の解釈のそれぞれにマージされ、解釈のn−bestに追加すべき候補結果として使用されても良い。
一旦マルチターンインタラクションの文脈を使用して関連する解釈が処理されると、解釈はブロック414でフィルタリングされ、再スコア化または再ランク付けされ、対話マネージャ208などの解釈のダウンストリーム消費者に提供される。例えば、マージされていない全てのNSUは結果からフィルタリングされても良い。別の実施例として、マージされた解釈は、現在の解釈がマージされた、以前の解釈のスコアに対応するスコアを与えられても良い。いくつかの実施形態では、文脈インタープリタ206は解釈を再スコア化及び/または再ランク付けするために機械学習モデルを利用しても良い。例えば、機械学習モデルにより使用される機能は、現在及び任意の数の前の発話に対するASR結果及び/またはスコア、現在及び任意の数の前の発話に対するNLU結果及び/またはスコア、任意の数の以前の対話行為等を含んでも良い。モデルは、その後、解釈のダウンストリーム消費者に提供される結果のランキングまたはスコアを提供するために使用されても良い。プロセス400はブロック416で終了する。
図5は、ある解釈が以前に記憶された解釈とマージされ得るかどうかを判定するサンプルプロセス500を説明する。プロセス500はブロック502で開始する。いくつかの実施形態では、プロセス500は、上記のプロセス400の判定ブロック408の入力時に自動的に開始しても良い。プロセス500は、1つ以上のディスクドライブなど、音声処理システム200のコンピューティングシステムのコンピュータ可読媒体上に記憶された実行可能なプログラム命令セットに具現化されても良い。プロセス500が開始されるとき、実行可能なプログラム命令は、RAMなどのメモリにロードされ、コンピューティングシステムの1つ以上のプロセッサによって実行することができる。いくつかの実施形態では、プロセス500は単独のプログラム命令セットに具現化された単独のプロセスではなく、プロセス400のサブルーチンであっても良い。
ブロック504では、コンテンツインタープリタ206または音声処理システム200のいくつかの他のモジュールもしくは構成要素は、マルチターンインタラクションのそれぞれの対話行為、またはそれらのいくつかのサブセット(例えば、以前の1つまたは2つの対話行為のみ)を繰り返し処理し、現在考慮されている解釈が修正され得るか、あるいは以前の意図にマージされ得るかを判定することができる。
判定ブロック506では、コンテンツインタープリタ206または音声処理システム200のいくつかの他のモジュールもしくは構成要素は、現在の繰り返しに対する対話行為が情報の導出または確認かどうかを判定することができる。この判定に該当しない場合、プロセス500は判定ブロック518に進み、ここでプロセス500を使用して任意の他の前の対話行為を繰り返し処理するかどうかを判定することができる。しかしながら、現在の繰り返しの対話行為が正に導出または確認の場合、プロセス500は判定ブロック508に進むことができる。上の実施例に戻ると、図2及び図3の両方のターン[2]で導出対話行為が開始された。図2では、導出は航空便検索意図のスロットを埋めるため、目的地名に対して行われた。図3では、導出はインターネットラジオ意図のスロットを埋めるため、ラジオ局名に対して行われた。
判定ブロック508では、コンテンツインタープリタ206または音声処理システム200のいくつかの他のモジュールもしくは構成要素は、現在の繰り返しに対する対話行為が現在考慮されている解釈と同じドメイン内かどうかを判定することができる。概して記載すると、ドメインは特定のトピックもしくは主題、または複数の(例えば、2つ以上の)関連するトピック及び/もしくは主題に対応しても良い。特定のワードまたはフレーズの意味は、ワードまたはフレーズが使用されるドメインに応じて変化しても良い。現在の繰り返しの対話行為が現在考慮されている解釈と同じドメインにある場合、プロセス500は判定ブロック510に進むことができる。
判定ブロック510では、コンテンツインタープリタ206または音声処理システム200のいくつかの他のモジュールもしくは構成要素は、現在の繰り返しに対する対話行為がターゲットスロットに関係するかどうかを判定することができる。上の実施例では、導出対話行為がターゲットスロットの値を導出しているため、導出対話行為はこれらのターゲットスロットに関係している。図2のターン[6]及び図3のターン[4]の対話行為は、これらの対話行為が特定のスロットの値を確認している場合、ターゲットスロットに関係し得る。これらの場合、プロセスは判定ブロック512に進んでも良い。しかしながら、これらの対話行為が意図の確認または要求された情報を提供している場合(例えば、航空便のリスト化、ラジオ局の再生)、対話行為はターゲットスロットに関係していない。これらの場合、プロセス500は判定ブロック514に進み得る。
判定ブロック512では、コンテンツインタープリタ206または音声処理システム200のいくつかの他のモジュールもしくは構成要素は、現在考慮されている解釈がターゲットスロットの受容値、拒否値または交換値を提供するかどうかを判定することができる。この判定に該当する場合、解釈はマルチターンインタラクションの文脈にある以前の解釈、つまり、プロセス500の現在の繰り返しの対話行為が生成された、以前の解釈にマージすることができる。
判定ブロック514では、コンテンツインタープリタ206または音声処理システム200のいくつかの他のモジュールもしくは構成要素は、現在考慮されている解釈が、マルチターンインタラクションの文脈にある以前の解釈、つまり、プロセス500の現在の繰り返しの対話行為が生成された以前の解釈にある値の受容値、拒否値または交換値を提供するかどうかを判定することができる。この判定に該当する場合、解釈はその以前の解釈にマージすることができる。
追加の実施形態
いくつかの実施形態では、上記のルールセットではなく、統計モデルを使用して、解釈が前の解釈にマージ可能かどうかを判定しても良い。例えば、条件付き確率場(「CRF」)、最大エントロピーベース統計分類手法等、またはこれらのいくつかの組み合わせを使用して、マルチターンインタラクション文脈内の特定の解釈が正しい確率を判定することができる。係る確率的方法を使用することの1つの難しさは、モデルをトレーニングするために、注釈付きトレーニングデータのコーパスが必要である点である。係るデータは、単に個別のインタラクションの集合ではなく、インタラクションの順序が重要であるマルチターンインタラクションを伴うため、取得または生成することが困難であり得る。したがって、十分な量のトレーニングデータを取得するために、ブートストラップ手法を使用しても良い。例えば、十分な量のトレーニングデータを取得するまで、上記のルールベース手法を使用してインタラクションデータを収集しても良く、その後、統計モデルを生成してルールフレームワークの代わりに(またはルールフレームワークと組み合わせて)使用しても良い。
<用語>
実施形態により、本明細書に記載した任意のプロセスまたはアルゴリズムの特定の動作、事象、または機能は、異なる順序で行うこと、追加すること、マージすること、または完全に省略すること(例えば、記載した全ての操作または事象がアルゴリズムの実施に必要という訳ではない)ができる。さらに、特定の実施形態では、操作または事象は、例えば、マルチスレッド処理、割り込み処理、複数のプロセッサもしくはプロセッサコアを通して、または他の並列アーキテクチャ上で、連続的ではなく同時に行うことができる。
本明細書に開示の実施形態に関連して記載する種々の例示的な論理ブロック、モジュール、ルーチン、及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組み合わせとして実装することができる。ハードウェアとソフトウェアとのこの互換性を明確に説明するために、種々の例示的な構成要素、ブロック、モジュール、及びステップを、概してそれらの機能性の観点から上で記載した。係る機能性をハードウェアとして実装するか、またはハードウェアで実行するソフトウェアとして実装するかは、特定の適用及びシステム全体上に課される設計制約に依存する。記載の機能性は、各特定の適用に対して様々な方法で実装できるが、係る実装の判断は、本開示の範囲からの逸脱を引きこすと解釈されるべきではない。
さらに、本明細書に開示される実施形態に関連して記載される種々の例示的な論理ブロック及びモジュールは、汎用プロセッサデバイス、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のプログラム可能論理デバイス、個別ゲートもしくはトランジスタ論理、個別ハードウェア構成要素、または本明細書に記載される機能を実行するように設計された任意のそれらの組み合わせなどの機械により実装または実行することができる。汎用プロセッサデバイスは、マイクロプロセッサであっても良いが、代替的には、プロセッサデバイスは、コントローラ、マイクロコントローラ、もしくはステートマシン、またはこれらの組み合わせなどであっても良い。プロセッサデバイスは、コンピュータ実行可能命令を処理するように構成される電気回路を含み得る。別の実施形態では、プロセッサデバイスは、コンピュータ実行可能命令を処理することなく論理動作を行う、FPGAまたは他のプログラム可能デバイスを含む。プロセッサデバイスは、さらに、コンピューティングデバイスの組み合わせ、例えば、DSP及びマイクロプロセッサ、複数のマイクロプロセッサ、DSPコアと連動する1つ以上のマイクロプロセッサ、または任意の他の係る構成の組み合わせとして実装され得る。本明細書はデジタル技術に関して主に記載したが、プロセッサデバイスは、主にアナログ構成要素をさらに含んでも良い。例えば、本明細書に記載の信号処理アルゴリズムの一部または全てはアナログ回路またはアナログ及びデジタル混合回路に実装されても良い。コンピューティング環境は、数例を挙げると、マイクロプロセッサ、メインフレームコンピュータ、デジタル信号プロセッサ、ポータブルコンピューティングデバイス、デバイスコントローラ、または機器内の計算エンジンをベースとする任意の形式のコンピュータシステムを含み得るが、これらに制限されない。
本明細書に開示の実施形態に関連して記載する方法、プロセス、ルーチン、またはアルゴリズムの要素は、直接ハードウェアにおいて、プロセッサデバイスによって実行されるソフトウェアモジュールにおいて、またはその2つの組み合わせにおいて具現化することができる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または任意の他の形式の非一時的なコンピュータ可読記憶媒体内に存在することができる。例示的な記憶媒体は、プロセッサデバイスが記憶媒体から情報を読み出すことができるように、かつ記憶媒体に情報を書き込むことができるようにプロセッサデバイスに連結することができる。代替的には、記憶媒体は、プロセッサデバイスに統合することができる。プロセッサデバイス及び記憶媒体は、ASIC内に存在することができる。ASICは、ユーザ端末内に存在することができる。代替的には、プロセッサデバイス及び記憶媒体は、ユーザ端末内に個別構成要素として存在することができる。
とりわけ、「can」、「could」、「might」、「may」、「e.g.」などの、本明細書に使用する条件付き言語は、他に指示のない限り、あるいは使用される文脈内で理解されない限り、その特定の実施形態が、特定の機能、要素、及び/またはステップを含むが、他の実施形態はそれらを含まないことを伝えることを概して意図する。したがって、係る条件付き言語は、機能、要素、及び/またはステップが、1つ以上の実施形態のために何としても必要とされること、または1つ以上の実施形態が、他の入力またはプロンプトの有無に関わらず、これらの機能、要素、及び/もしくはステップが含まれるか、もしくは任意の特定の実施形態において行われるかどうかを判定するための論理を必ず含むことを意味することを概して意図するわけではない。用語「comprising」、「including」、「having」などは、同義語であり、非制限的な形で包含的に使用され、かつ追加の要素、機能、動作、操作などを除外しない。また、用語「or」は、例えば、要素のリストを繋げるために使用されるときに、用語「or」がリストの要素のうちの1つ、一部、または全てを意味するように、その包含的な意味で(その排他的な意味ではなく)使用される。
フレーズ「at least one of X, Y, Z」などの離接接続語は、別途指示のない限り、項目、用語等が、概して、X、Y、もしくはZのいずれか、またはそれらの組み合わせ(例えば、X、Y、及び/またはZ)であることを提示するために使用される際の文脈で理解されるべきである。したがって、係る離接接続語は、特定の実施形態が、少なくとも1つのX、少なくとも1つのY、または少なくとも1つのZが各々存在することを必要とすることを意味することを概して意図せず、かつ意図すべきではない。
上の詳述により、種々の実施形態に適用される際の新規の機能を示し、記載し、指摘したが、説明したデバイスまたはアルゴリズムの形態及び詳細における種々の省略、置換、及び変更が、本開示の趣旨から逸脱することなく行うことができることが理解され得る。認識され得る通り、本明細書に記載の特定の実施形態は、一部の機能が他の機能から分離して使用または実施され得るため、本明細書に記載の機能及び利益の全てを提供するわけではない形式内で具現化され得る。本明細書に開示される特定の実施形態の範囲は、前述の記載によってではなく、添付の特許請求の範囲によって示される。特許請求の範囲の等価の意味及び範囲内に入る全ての変更は、それらの範囲内に包含されるべきである。
上述の事項は、以下の条項を考慮しても理解され得る。
1.実行可能命令を記憶するコンピュータ可読メモリと、
前記コンピュータ可読メモリと通信する1つ以上のプロセッサであり、前記1つ以上のプロセッサは前記実行可能命令により、少なくとも
ユーザの第1発話に関する第1オーディオデータを取得することと、
前記第1オーディオデータに少なくとも部分的に基づいて、第1音声処理結果を生成することであり、前記第1音声処理結果が前記第1発話の意味論的表現を備え、
前記第1音声処理結果に少なくとも部分的に基づいて、前記ユーザへの提示に対する第1応答を生成することと、
前記第1発話の前記意味論的表現と、前記第1応答の意味論的表現とを備える文脈情報を記憶することと、
前記ユーザの第2発話に関する第2オーディオデータを取得することと、
前記第2オーディオデータ、前記文脈情報、及び文脈解釈ルールを使用して第2音声処理結果を生成することであり、前記文脈解釈ルールは前記第1発話の前記意味論的表現のスロット値または意図のうち少なくとも1つを前記第2発話の意味論的表現のスロット値または意図のうち少なくとも1つに置き換えることに関し、前記文脈ルールは前記第1応答の前記意味論的表現に少なくとも部分的に基づき、
前記第2音声処理結果に少なくとも部分的に基づいて、前記ユーザへの提示に対する第2応答を生成することと、
をプログラムされる前記1つ以上のプロセッサと、
を備えるシステム。
2.前記第1発話の前記意味論的表現は、意図と、前記意図に関連する1つ以上のスロットとを備える、条項1に記載のシステム。
3.前記1つ以上のプロセッサが、前記第1発話に関連する前記文脈情報の記憶の後に、かつ前記第2ユーザ発話に対する前記第2音声処理結果を生成する前に、割り込みユーザ発話に対する割り込み音声処理結果を生成するようさらにプログラムされる、条項1に記載のシステム。
4.特定のコンピュータ実行可能命令で構成される1つ以上のコンピューティングデバイスの制御下において、
第1自然言語入力及び前記第1自然言語入力への第1応答に関連する文脈情報を記憶することであり、前記文脈情報は前記第1自然言語入力の意味論的表現と、前記自然言語入力への前記第1応答の意味論的表現とを備え、
前記文脈情報に少なくとも部分的に基づいて、第2自然言語入力に対する自然言語処理結果を生成することであり、前記自然言語処理結果は前記第1自然言語入力の意味論的表現にマージされる前記第2自然言語入力の意味論的表現の少なくとも1部を備え、
前記自然言語処理結果に少なくとも部分的に基づいて、前記第2自然言語入力への第2応答を生成することと、
を備えるコンピュータ実装方法。
5.前記自然言語入力がテキストまたは音声を備える、条項4に記載のコンピュータ実装方法。
6.前記第2自然言語入力の前記意味論的表現は、前記第1自然言語入力の前記意味論的繰り返しのスロット値を前記第2自然言語入力の前記意味論的表現のスロット値に置き換えることにより、前記第1自然言語入力の前記意味論的表現にマージされる、条項4に記載のコンピュータ実装方法。
7.前記第2自然言語入力の前記意味論的表現は、前記第1自然言語入力の前記意味論的繰り返しの意図を前記第2自然言語入力の前記意味論的表現の意図に置き換えることにより、前記第1自然言語入力の前記意味論的表現にマージされる、条項4に記載のコンピュータ実装方法。
8.前記第2自然言語入力に対する前記自然言語処理結果は文脈解釈ルールに少なくとも部分的に基づいて生成される、条項4に記載のコンピュータ実装方法。
9.前記文脈解釈ルールが前記第1自然言語入力の前記意味論的表現のドメインが前記第2自然言語入力の前記意味論的表現のドメインに等しいかどうかを判定することに関する、条項8に記載のコンピュータ実装方法。
10.前記文脈解釈ルールが前記第1自然言語入力の前記意味論的表現に関連する意図またはスロットの少なくとも1つが前記第2自然言語入力の前記意味論的表現に関連する意図またはスロットの少なくとも1つに等しいかどうかを判定することに関する、条項8に記載のコンピュータ実装方法。
11.前記文脈解釈ルールが前記第1自然言語入力への前記第1応答の前記意味論的表現に関する、条項8に記載のコンピュータ実装方法。
12.前記文脈解釈ルールはさらに、前記第1自然言語入力への前記第1応答の前記意味論的表現が前記第1自然言語入力の前記意味論的表現に関連する情報の導出に対応するかどうかを判定することに関する、条項11に記載のコンピュータ実装方法。
13.前記文脈解釈ルールはさらに、前記第1自然言語入力への前記第1応答の前記意味論的表現が前記第1自然言語入力の前記意味論的表現に関連する情報の確認に対応するかどうかを判定することに関する、条項11に記載のコンピュータ実装方法。
14.前記第2自然言語処理結果の少なくとも1部を再ランク付けすることをさらに備える、条項4に記載のコンピュータ実装方法。
15.前記第2自然言語処理結果の少なくとも1部をフィルタリングすることをさらに備える、条項4に記載のコンピュータ実装方法。
16.実行時に、1つ以上のコンピューティングデバイスに
第1自然言語入力及び前記第1自然言語入力への第1応答に関連する文脈情報を記憶することであり、前記文脈情報は前記第1自然言語入力の意味論的表現と、前記自然言語入力への前記第1応答の意味論的表現とを備え、
前記文脈情報に少なくとも部分的に基づいて、第2自然言語入力に対する自然言語処理結果を生成することであり、前記自然言語処理結果は前記第1自然言語入力の前記意味論的表現にマージされる前記第2自然言語入力の意味論的表現の少なくともの1部を備え、
前記自然言語処理結果に少なくとも部分的に基づいて、前記第2自然言語入力への第2応答を生成することと
を備えるプロセスを行わせる実行可能コードを備える、非一時的なコンピュータ可読記憶装置。
17.前記自然言語入力がテキストまたは音声を備える、条項16に記載の非一時的なコンピュータ可読記憶装置。
18.前記第2自然言語入力の前記意味論的表現は、前記第1自然言語入力の前記意味論的繰り返しのスロット値または意図の少なくとも1つを前記第2自然言語入力の前記意味論的表現のスロット値または意図の少なくとも1つに置き換えることにより、前記第1自然言語入力の前記意味論的表現にマージされる、条項16に記載の非一時的なコンピュータ可読記憶装置。
19.前記プロセスが前記第1自然言語入力の前記意味論的表現のドメインが前記第2自然言語入力の前記意味論的表現のドメインに等しいかどうかを判定することをさらに備える、条項16に記載の非一時的なコンピュータ可読記憶装置。
20.前記プロセスが前記第1自然言語入力の前記意味論的表現に関連する意図またはスロットの少なくとも1つが前記第2自然言語入力の前記意味論的表現に関連する意図またはスロットの少なくとも1つに等しいかどうかを判定することをさらに備える、条項16に記載の非一時的なコンピュータ可読記憶装置。
21.前記プロセスが前記第1自然言語入力への前記第1応答の前記意味論的表現が前記第1自然言語入力の前記意味論的表現に関連する情報の導出に対応するかどうかを判定することをさらに備える、条項16に記載の非一時的なコンピュータ可読記憶装置。
22.前記プロセスが前記第1自然言語入力への前記第1応答の前記意味論的表現が前記第1自然言語入力の前記意味論的表現に関連する情報の確認に対応するかどうかを判定することをさらに備える、条項16に記載の非一時的なコンピュータ可読記憶装置。
23.前記プロセスが前記第2自然言語処理結果の少なくとも1部を再ランク付けまたはフィルタリングすることの1つをさらに備える、条項16に記載の非一時的なコンピュータ可読記憶装置。
24.前記プロセスが前記第1自然言語入力に関連する前記文脈情報の記憶の後に、かつ前記第2自然言語入力に対する前記自然言語処理結果を生成する前に、割り込み自然言語入力に対する割り込み自然言語処理結果を生成することをさらに備える、条項16に記載の非一時的なコンピュータ可読記憶装置。
25.第1自然言語入力及び前記第2自然言語入力が第1意図に関連し、前記割り込み自然言語入力が前記第1意図とは異なる第2意図に関連する、条項24に記載の非一時的なコンピュータ可読記憶装置。

Claims (12)

  1. 実行可能命令を記憶するコンピュータ可読メモリと、
    前記コンピュータ可読メモリと通信する1つ以上のプロセッサであり、前記1つ以上のプロセッサは前記実行可能命令により、少なくとも
    ユーザの第1発話に関する第1オーディオデータを取得することと、
    前記第1オーディオデータに少なくとも部分的に基づき、第1の意図及び前記第1の意図に関連する1または複数のスロット値を含む前記第1発話の意味論的表現を有する、第1音声処理結果を生成することと、
    前記第1音声処理結果に基づいて、前記ユーザへの提示に対する第1応答を生成することと、
    前記第1発話の意味論的表現と、前記第1応答の意味論的表現とを有する文脈情報を記憶することと、
    前記ユーザの第2発話に関する第2オーディオデータを取得することと、
    前記第2オーディオデータを使用し、第2の意図を含む前記第2発話の意味論的表現を有する、第2音声処理結果を生成することと、
    前記第2オーディオデータの取得に続いて、ユーザの第3発話に関する第3オーディオデータを取得することと、
    前記第3オーディオデータに基づき、前記第1の意図に関する前記第3発話の意味論的表現を有する第3音声処理結果を生成することと、
    前記第1発話の前記意味論的表現のスロット値または意図のうち少なくとも1つを前記第3発話の意味論的表現のスロット値または意図のうち少なくとも1つに置き換えることに関する前記文脈情報、および前記第3オーディオデータ及び前記第1応答の前記意味論的表現に基づく文脈解釈ルールを使用し、マージされた音声処理結果を生成することと、
    前記マージされた音声処理結果に基づいて、前記ユーザへの提示に対する第2応答を生成することと、
    を備えるシステム。
  2. 特定のコンピュータ実行可能命令で構成される1つ以上のコンピューティングデバイスの制御下において、
    第1の意図に関連する第1自然言語入力の意味論的表現と、前記自然言語入力に対する第1応答の意味論的表現とを含み、第1自然言語入力及び前記第1自然言語入力への前記第1応答に関連する文脈情報を記憶することと、
    前記第1自然言語入力を受け取った後、第2自然言語入力を受けとることと、
    第2の意図に関連する第2自然言語入力の意味論的表現を生成することと、
    前記第2自然言語入力を受け取った後、第3自然言語入力を受けとることと、
    前記第1の意図に関連する第3自然言語入力の意味論的表現を生成することと、
    前記文脈情報と、第1自然言語入力の意味論的表現と、第3自然言語入力の意味論的表現とを使用し、前記第1自然言語入力の前記意味論的表現のコンテンツのスロット値を前記第3自然言語入力の前記意味論的表現のコンテンツのスロット値に置き換える自然言語処理結果を生成することと、
    前記自然言語処理結果に基づいて、前記第3自然言語入力への第2応答を生成することと、
    を備えるコンピュータ実装方法。
  3. 前記自然言語入力はテキスト入力または音声入力を含む、請求項2に記載のコンピュータ実装方法。
  4. 前記第1自然言語入力の意味論的繰り返しの意図を前記第3自然言語入力の前記意味論的表現の意図に置き換えることをさらに備える、請求項2に記載のコンピュータ実装方法。
  5. 前記自然言語処理結果は文脈解釈ルールに基づいて生成される、請求項2に記載のコンピュータ実装方法。
  6. 前記文脈解釈ルールは、前記第1自然言語入力の前記意味論的表現のドメインが前記第2自然言語入力の前記意味論的表現のドメインに等しいかどうかを判定することに関する、請求項に記載のコンピュータ実装方法。

  7. 前記文脈解釈ルールは、前記第1自然言語入力の前記意味論的表現に関連する意図またはスロットの少なくとも1つが前記第2自然言語入力の前記意味論的表現に関連する意図またはスロットの少なくとも1つに等しいかどうかを判定することに関する、請求項5に記載のコンピュータ実装方法。
  8. 前記文脈解釈ルールは、前記第1自然言語入力への前記第1応答の前記意味論的表現に関する、請求項5に記載のコンピュータ実装方法。
  9. 前記文脈解釈ルールはさらに、前記第1自然言語入力への前記第1応答の前記意味論的表現が前記第1自然言語入力の前記意味論的表現に関連する情報の導出に対応するかどうかを判定することに関する、請求項8に記載のコンピュータ実装方法。
  10. 前記文脈解釈ルールは、さらに、前記第1自然言語入力への前記第1応答の前記意味論的表現が前記第1自然言語入力の前記意味論的表現に関連する情報の確認に対応するかどうかを判定することに関する、請求項8に記載のコンピュータ実装方法。
  11. 前記自然言語処理結果の少なくとも一部を再ランク付けすることをさらに備える、請求項2に記載のコンピュータ実装方法。
  12. 前記自然言語処理結果の少なくとも一部をフィルタリングすることをさらに備える、請求項2に記載のコンピュータ実装方法。
JP2016567966A 2014-05-20 2015-05-20 以前の対話行為を使用する自然言語処理における文脈解釈 Active JP6535349B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/283,017 US10726831B2 (en) 2014-05-20 2014-05-20 Context interpretation in natural language processing using previous dialog acts
US14/283,017 2014-05-20
PCT/US2015/031765 WO2015179510A1 (en) 2014-05-20 2015-05-20 Context interpretation in natural language processing using previous dialog acts

Publications (2)

Publication Number Publication Date
JP2017516153A JP2017516153A (ja) 2017-06-15
JP6535349B2 true JP6535349B2 (ja) 2019-06-26

Family

ID=53284602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016567966A Active JP6535349B2 (ja) 2014-05-20 2015-05-20 以前の対話行為を使用する自然言語処理における文脈解釈

Country Status (5)

Country Link
US (1) US10726831B2 (ja)
EP (1) EP3146523B1 (ja)
JP (1) JP6535349B2 (ja)
CN (1) CN106796787B (ja)
WO (1) WO2015179510A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11756533B2 (en) 2020-05-15 2023-09-12 Google Llc Hot-word free pre-emption of automated assistant response presentation

Families Citing this family (214)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10956485B2 (en) 2011-08-31 2021-03-23 Google Llc Retargeting in a search environment
US10630751B2 (en) * 2016-12-30 2020-04-21 Google Llc Sequence dependent data message consolidation in a voice activated computer network environment
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
JP2016508007A (ja) 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10614153B2 (en) 2013-09-30 2020-04-07 Google Llc Resource size-based content item selection
US9703757B2 (en) 2013-09-30 2017-07-11 Google Inc. Automatically determining a size for a content item for a web page
US10431209B2 (en) 2016-12-30 2019-10-01 Google Llc Feedback controller for data transmissions
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6448950B2 (ja) * 2014-08-20 2019-01-09 シャープ株式会社 音声対話装置及び電子機器
US20160092159A1 (en) * 2014-09-30 2016-03-31 Google Inc. Conversational music agent
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9678947B2 (en) * 2014-11-21 2017-06-13 International Business Machines Corporation Pattern identification and correction of document misinterpretations in a natural language processing system
US9690776B2 (en) * 2014-12-01 2017-06-27 Microsoft Technology Licensing, Llc Contextual language understanding for multi-turn language tasks
US10572810B2 (en) 2015-01-07 2020-02-25 Microsoft Technology Licensing, Llc Managing user interaction for input understanding determinations
US20200143115A1 (en) * 2015-01-23 2020-05-07 Conversica, Inc. Systems and methods for improved automated conversations
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10418032B1 (en) * 2015-04-10 2019-09-17 Soundhound, Inc. System and methods for a virtual assistant to manage and use context in a natural language dialog
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10249297B2 (en) 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
US20170017419A1 (en) * 2015-07-15 2017-01-19 Innovium, Inc. System And Method For Enabling High Read Rates To Data Element Lists
US20170017420A1 (en) 2015-07-15 2017-01-19 Innovium, Inc. System And Method For Enabling High Read Rates To Data Element Lists
US20170017414A1 (en) 2015-07-15 2017-01-19 Innovium, Inc. System And Method For Implementing Hierarchical Distributed-Linked Lists For Network Devices
US20170017567A1 (en) 2015-07-15 2017-01-19 Innovium, Inc. System And Method For Implementing Distributed-Linked Lists For Network Devices
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10331464B2 (en) * 2015-09-17 2019-06-25 Dropbox, Inc. Method and system for an adaptive contextual instruction tool
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10796693B2 (en) * 2015-12-09 2020-10-06 Lenovo (Singapore) Pte. Ltd. Modifying input based on determined characteristics
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
EP3414758B1 (en) * 2016-02-12 2020-09-23 Samsung Electronics Co., Ltd. Method and electronic device for performing voice based actions
JP6481643B2 (ja) * 2016-03-08 2019-03-13 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
WO2017168246A1 (en) * 2016-03-29 2017-10-05 Maluuba Inc. Hierarchical attention for spoken dialogue state tracking
WO2017200078A1 (ja) * 2016-05-20 2017-11-23 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
EP3465463A1 (en) * 2016-06-03 2019-04-10 Maluuba Inc. Natural language generation in a spoken dialogue system
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10490187B2 (en) * 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US9996532B2 (en) 2016-06-17 2018-06-12 Microsoft Technology Licensing, Llc Systems and methods for building state specific multi-turn contextual language understanding systems
CN106057200A (zh) * 2016-06-23 2016-10-26 广州亿程交通信息有限公司 基于语义的交互系统及交互方法
US10606952B2 (en) 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
CN108140383A (zh) * 2016-07-19 2018-06-08 门箱股份有限公司 影像显示设备、话题选择方法、话题选择程序、影像显示方法及影像显示程序
US10446137B2 (en) 2016-09-07 2019-10-15 Microsoft Technology Licensing, Llc Ambiguity resolving conversational understanding system
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
JP2018054790A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
US20180090141A1 (en) * 2016-09-29 2018-03-29 Microsoft Technology Licensing, Llc Conversational interactions using superbots
US10860898B2 (en) 2016-10-16 2020-12-08 Ebay Inc. Image analysis and prediction based visual search
US11004131B2 (en) 2016-10-16 2021-05-11 Ebay Inc. Intelligent online personal assistant with multi-turn dialog based on visual search
US11748978B2 (en) 2016-10-16 2023-09-05 Ebay Inc. Intelligent online personal assistant with offline visual search database
US20180114527A1 (en) * 2016-10-25 2018-04-26 IPsoft Incorporated Methods and systems for virtual agents
US20180114528A1 (en) * 2016-10-26 2018-04-26 IPsoft Incorporated Systems and methods for generic flexible dialogue management
US10970768B2 (en) 2016-11-11 2021-04-06 Ebay Inc. Method, medium, and system for image text localization and comparison
US10600418B2 (en) 2016-12-07 2020-03-24 Google Llc Voice to text conversion based on third-party agent content
US10296586B2 (en) * 2016-12-23 2019-05-21 Soundhound, Inc. Predicting human behavior by machine learning of natural language interpretations
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
JP6842095B2 (ja) * 2017-03-10 2021-03-17 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US10229683B2 (en) 2017-03-10 2019-03-12 Soundhound, Inc. Speech-enabled system with domain disambiguation
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107239450B (zh) * 2017-06-02 2021-11-23 上海对岸信息科技有限公司 基于交互上下文处理自然语言方法
US10873545B2 (en) * 2017-06-12 2020-12-22 Microsoft Technology Licensing, Llc Automatic action responses
CN107291867B (zh) 2017-06-13 2021-07-20 北京百度网讯科技有限公司 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质
CN107195303B (zh) * 2017-06-16 2021-08-20 云知声智能科技股份有限公司 语音处理方法及装置
US10446147B1 (en) * 2017-06-27 2019-10-15 Amazon Technologies, Inc. Contextual voice user interface
WO2019011356A1 (de) * 2017-07-14 2019-01-17 Cognigy Gmbh Verfahren zur dialogführung zwischen mensch und computer
US11556548B2 (en) 2017-08-08 2023-01-17 Microsoft Technology Licensing, Llc Intelligent query system for attachments
US10497370B2 (en) * 2017-08-18 2019-12-03 2236008 Ontario Inc. Recognition module affinity
US10964318B2 (en) 2017-08-18 2021-03-30 Blackberry Limited Dialogue management
US10984788B2 (en) * 2017-08-18 2021-04-20 Blackberry Limited User-guided arbitration of speech processing results
US20190066669A1 (en) * 2017-08-29 2019-02-28 Google Inc. Graphical data selection and presentation of digital content
US10796687B2 (en) 2017-09-06 2020-10-06 Amazon Technologies, Inc. Voice-activated selective memory for voice-capturing devices
US10854191B1 (en) * 2017-09-20 2020-12-01 Amazon Technologies, Inc. Machine learning models for data driven dialog management
CN107680591A (zh) * 2017-09-21 2018-02-09 百度在线网络技术(北京)有限公司 基于车载终端的语音交互方法、装置及其设备
WO2019067878A1 (en) * 2017-09-28 2019-04-04 Oracle International Corporation ACTIVATION OF AUTONOMOUS AGENTS TO DISTINGUISH QUESTIONS AND DEMANDS
WO2019074509A1 (en) * 2017-10-12 2019-04-18 Google Llc DETERMINING THE DIALOGUE STATUS OF AN AUTOMATED ASSISTANT
KR101932263B1 (ko) * 2017-11-03 2018-12-26 주식회사 머니브레인 적시에 실질적 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
US10636424B2 (en) * 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
CN108182943B (zh) * 2017-12-29 2021-03-26 北京奇艺世纪科技有限公司 一种智能设备控制方法、装置及智能设备
EP3598437A4 (en) * 2018-01-16 2020-05-13 SONY Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING PROCESS AND PROGRAM
CN110085219A (zh) * 2018-01-26 2019-08-02 博西华电器(江苏)有限公司 家用电器及通过语音控制该家用电器的方法和系统
US20210065708A1 (en) * 2018-02-08 2021-03-04 Sony Corporation Information processing apparatus, information processing system, information processing method, and program
US11354521B2 (en) 2018-03-07 2022-06-07 Google Llc Facilitating communications with automated assistants in multiple languages
JP6678764B1 (ja) 2018-03-07 2020-04-08 グーグル エルエルシー 多言語での自動化されたアシスタントを用いたエンドツーエンドコミュニケーションの促進
US11264021B2 (en) * 2018-03-08 2022-03-01 Samsung Electronics Co., Ltd. Method for intent-based interactive response and electronic device thereof
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108694942A (zh) * 2018-04-02 2018-10-23 浙江大学 一种基于家居智能服务机器人的智能家居交互问答系统
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
KR20190131741A (ko) * 2018-05-17 2019-11-27 현대자동차주식회사 대화 시스템 및 대화 처리 방법
CN110503947A (zh) * 2018-05-17 2019-11-26 现代自动车株式会社 对话系统、包括其的车辆和对话处理方法
EP3576084B1 (de) * 2018-05-29 2020-09-30 Christoph Neumann Effiziente dialoggestaltung
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
CN110619870B (zh) * 2018-06-04 2022-05-06 佛山市顺德区美的电热电器制造有限公司 一种人机对话方法、装置、家用电器和计算机存储介质
JP2021156907A (ja) * 2018-06-15 2021-10-07 ソニーグループ株式会社 情報処理装置および情報処理方法
WO2019244455A1 (ja) * 2018-06-21 2019-12-26 ソニー株式会社 情報処理装置及び情報処理方法
CN108881466B (zh) * 2018-07-04 2020-06-26 百度在线网络技术(北京)有限公司 交互方法和装置
US10950223B2 (en) 2018-08-20 2021-03-16 Accenture Global Solutions Limited System and method for analyzing partial utterances
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11409961B2 (en) * 2018-10-10 2022-08-09 Verint Americas Inc. System for minimizing repetition in intelligent virtual assistant conversations
KR20200040625A (ko) * 2018-10-10 2020-04-20 삼성전자주식회사 사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11183176B2 (en) 2018-10-31 2021-11-23 Walmart Apollo, Llc Systems and methods for server-less voice applications
US11404058B2 (en) * 2018-10-31 2022-08-02 Walmart Apollo, Llc System and method for handling multi-turn conversations and context management for voice enabled ecommerce transactions
US11195524B2 (en) 2018-10-31 2021-12-07 Walmart Apollo, Llc System and method for contextual search query revision
US11238850B2 (en) 2018-10-31 2022-02-01 Walmart Apollo, Llc Systems and methods for e-commerce API orchestration using natural language interfaces
KR20200052612A (ko) * 2018-11-07 2020-05-15 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
CN109671427B (zh) * 2018-12-10 2021-02-02 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
US11204594B2 (en) * 2018-12-13 2021-12-21 Fisher-Rosemount Systems, Inc. Systems, methods, and apparatus to augment process control with virtual assistant
US11875883B1 (en) 2018-12-21 2024-01-16 Cerner Innovation, Inc. De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources
US11062704B1 (en) 2018-12-21 2021-07-13 Cerner Innovation, Inc. Processing multi-party conversations
US11398232B1 (en) 2018-12-21 2022-07-26 Cerner Innovation, Inc. Natural language understanding of conversational sources
WO2020139865A1 (en) * 2018-12-24 2020-07-02 Conversica, Inc. Systems and methods for improved automated conversations
US11410650B1 (en) 2018-12-26 2022-08-09 Cerner Innovation, Inc. Semantically augmented clinical speech processing
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR20210013607A (ko) * 2019-02-27 2021-02-04 구글 엘엘씨 컴퓨팅 장치를 사용한 지속적인 대화 감지
US11676582B2 (en) 2019-02-27 2023-06-13 Google Llc Detecting conversations with computing devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111831795B (zh) * 2019-04-11 2023-10-27 北京猎户星空科技有限公司 多轮对话处理方法、装置、电子设备及存储介质
US10997968B2 (en) * 2019-04-30 2021-05-04 Microsofttechnology Licensing, Llc Using dialog context to improve language understanding
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11256868B2 (en) * 2019-06-03 2022-02-22 Microsoft Technology Licensing, Llc Architecture for resolving ambiguous user utterance
US11348601B1 (en) * 2019-06-06 2022-05-31 Amazon Technologies, Inc. Natural language understanding using voice characteristics
CN110472029B (zh) * 2019-08-01 2024-03-19 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质
CN112445902A (zh) * 2019-09-04 2021-03-05 深圳Tcl数字技术有限公司 一种多轮对话中用户意图的识别方法及相关设备
US11551665B2 (en) * 2019-09-12 2023-01-10 Oracle International Corporation Dynamic contextual dialog session extension
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
KR20210036169A (ko) * 2019-09-25 2021-04-02 현대자동차주식회사 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법
US11861674B1 (en) 2019-10-18 2024-01-02 Meta Platforms Technologies, Llc Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems
US11567788B1 (en) 2019-10-18 2023-01-31 Meta Platforms, Inc. Generating proactive reminders for assistant systems
CN111177338B (zh) * 2019-12-03 2023-07-21 北京博瑞彤芸科技股份有限公司 一种基于上下文的多轮对话方法
CN111128121B (zh) * 2019-12-20 2021-04-30 贝壳找房(北京)科技有限公司 语音信息生成方法和装置、电子设备和存储介质
US11250128B2 (en) 2020-02-18 2022-02-15 Bank Of America Corporation System and method for detecting source code anomalies
US11176329B2 (en) 2020-02-18 2021-11-16 Bank Of America Corporation Source code compiler using natural language input
CN113362828B (zh) * 2020-03-04 2022-07-05 阿波罗智联(北京)科技有限公司 用于识别语音的方法和装置
US11568153B2 (en) 2020-03-05 2023-01-31 Bank Of America Corporation Narrative evaluator
CN111475616B (zh) * 2020-03-13 2023-08-22 平安科技(深圳)有限公司 基于对话状态预测的多轮对话方法、装置和计算机设备
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11410186B2 (en) * 2020-05-14 2022-08-09 Sap Se Automated support for interpretation of terms
US11610065B2 (en) 2020-06-12 2023-03-21 Apple Inc. Providing personalized responses based on semantic context
US20220012075A1 (en) * 2020-07-08 2022-01-13 International Business Machines Corporation Virtual assistant interaction enhancement
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11906317B2 (en) * 2020-10-17 2024-02-20 Chian Chiu Li Presenting location related information and implementing a task based on gaze, gesture, and voice detection
US11748576B2 (en) 2021-01-21 2023-09-05 International Business Machines Corporation Interpretation of deep neural model based dialogue agents
CN112995419B (zh) * 2021-02-05 2022-05-24 支付宝(杭州)信息技术有限公司 一种语音对话的处理方法和系统
KR20220116949A (ko) * 2021-02-16 2022-08-23 삼성전자주식회사 전자 장치 및 전자 장치의 음성 인식 처리 방법
US11756575B2 (en) 2021-02-16 2023-09-12 Samsung Electronics Co., Ltd. Electronic device and method for speech recognition processing of electronic device
US11955137B2 (en) 2021-03-11 2024-04-09 Apple Inc. Continuous dialog with a digital assistant
US11948566B2 (en) * 2021-03-24 2024-04-02 Adobe Inc. Extensible search, content, and dialog management system with human-in-the-loop curation
US11875798B2 (en) 2021-05-03 2024-01-16 International Business Machines Corporation Profiles for enhanced speech recognition training
US11935529B2 (en) * 2021-06-15 2024-03-19 Motorola Solutions, Inc. System and method for virtual assistant execution of ambiguous command
US20220415311A1 (en) * 2021-06-24 2022-12-29 Amazon Technologies, Inc. Early invocation for contextual data processing
US11776068B1 (en) * 2022-07-29 2023-10-03 Intuit, Inc. Voice enabled content tracker

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07239694A (ja) * 1994-03-02 1995-09-12 Oki Electric Ind Co Ltd 音声対話装置
JPH07282081A (ja) * 1994-04-12 1995-10-27 Matsushita Electric Ind Co Ltd 音声対話型情報検索装置
US5774860A (en) * 1994-06-27 1998-06-30 U S West Technologies, Inc. Adaptive knowledge base of complex information through interactive voice dialogue
US5777614A (en) * 1994-10-14 1998-07-07 Hitachi, Ltd. Editing support system including an interactive interface
US6154465A (en) * 1998-10-06 2000-11-28 Vertical Networks, Inc. Systems and methods for multiple mode voice and data communications using intelligenty bridged TDM and packet buses and methods for performing telephony and data functions using the same
US6496567B1 (en) * 1998-05-07 2002-12-17 Mci Communications Corporation Interactive voice response service node with advanced resource management
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6246981B1 (en) * 1998-11-25 2001-06-12 International Business Machines Corporation Natural language task-oriented dialog manager and method
US6233561B1 (en) 1999-04-12 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method for goal-oriented speech translation in hand-held devices using meaning extraction and dialogue
US6356869B1 (en) * 1999-04-30 2002-03-12 Nortel Networks Limited Method and apparatus for discourse management
US8374875B2 (en) 2000-01-31 2013-02-12 Intel Corporation Providing programming information in response to spoken requests
US20040085162A1 (en) * 2000-11-29 2004-05-06 Rajeev Agarwal Method and apparatus for providing a mixed-initiative dialog between a user and a machine
US6937983B2 (en) * 2000-12-20 2005-08-30 International Business Machines Corporation Method and system for semantic speech recognition
US6751591B1 (en) * 2001-01-22 2004-06-15 At&T Corp. Method and system for predicting understanding errors in a task classification system
US20030061029A1 (en) * 2001-08-29 2003-03-27 Efraim Shaket Device for conducting expectation based mixed initiative natural language dialogs
US7610556B2 (en) * 2001-12-28 2009-10-27 Microsoft Corporation Dialog manager for interactive dialog with computer user
US7386449B2 (en) * 2002-12-11 2008-06-10 Voice Enabling Systems Technology Inc. Knowledge-based flexible natural speech dialogue system
JP4246548B2 (ja) * 2003-05-30 2009-04-02 日本電信電話株式会社 統計情報を用いた対話方法及びその装置と、対話プログラム及びそのプログラムを記録した記録媒体
US7430510B1 (en) * 2004-03-01 2008-09-30 At&T Corp. System and method of using modular spoken-dialog components
US7412393B1 (en) 2004-03-01 2008-08-12 At&T Corp. Method for developing a dialog manager using modular spoken-dialog components
US7228278B2 (en) * 2004-07-06 2007-06-05 Voxify, Inc. Multi-slot dialog systems and methods
US20060036430A1 (en) * 2004-08-12 2006-02-16 Junling Hu System and method for domain-based natural language consultation
US7716056B2 (en) * 2004-09-27 2010-05-11 Robert Bosch Corporation Method and system for interactive conversational dialogue for cognitively overloaded device users
EP1800294B1 (en) 2004-10-05 2010-06-02 Inago Corporation System and methods for improving accuracy of speech recognition
JP4405370B2 (ja) * 2004-11-15 2010-01-27 本田技研工業株式会社 車両用機器制御装置
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP2008083100A (ja) * 2006-09-25 2008-04-10 Toshiba Corp 音声対話装置及びその方法
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
US20090055163A1 (en) * 2007-08-20 2009-02-26 Sandeep Jindal Dynamic Mixed-Initiative Dialog Generation in Speech Recognition
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
PL2346030T3 (pl) * 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
KR101211796B1 (ko) * 2009-12-16 2012-12-13 포항공과대학교 산학협력단 외국어 학습 장치 및 그 제공 방법
US10276170B2 (en) * 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
EP2575128A3 (en) 2011-09-30 2013-08-14 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10417037B2 (en) * 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN104380374A (zh) 2012-06-19 2015-02-25 株式会社Ntt都科摩 功能执行指示系统、功能执行指示方法及功能执行指示程序
US10031968B2 (en) * 2012-10-11 2018-07-24 Veveo, Inc. Method for adaptive conversation state management with filtering operators applied dynamically as part of a conversational interface
US9269354B2 (en) * 2013-03-11 2016-02-23 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
US9875494B2 (en) * 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
CN103474069B (zh) * 2013-09-12 2016-03-30 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
US10181322B2 (en) * 2013-12-20 2019-01-15 Microsoft Technology Licensing, Llc Multi-user, multi-domain dialog system
US20150179170A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Discriminative Policy Training for Dialog Systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11756533B2 (en) 2020-05-15 2023-09-12 Google Llc Hot-word free pre-emption of automated assistant response presentation

Also Published As

Publication number Publication date
EP3146523B1 (en) 2019-10-30
JP2017516153A (ja) 2017-06-15
WO2015179510A1 (en) 2015-11-26
EP3146523A1 (en) 2017-03-29
CN106796787A (zh) 2017-05-31
CN106796787B (zh) 2020-12-22
US20150340033A1 (en) 2015-11-26
US10726831B2 (en) 2020-07-28

Similar Documents

Publication Publication Date Title
JP6535349B2 (ja) 以前の対話行為を使用する自然言語処理における文脈解釈
US11727219B2 (en) System and method for inferring user intent from speech inputs
US11321116B2 (en) Systems and methods for integrating third party services with a digital assistant
AU2022221387B2 (en) Facilitating end-to-end communications with automated assistants in multiple languages
US10490186B2 (en) Parameter collection and automatic dialog generation in dialog systems
EP3032532B1 (en) Disambiguating heteronyms in speech synthesis
ES2751484T3 (es) Interfaz de entrada de voz incremental con retroalimentación en tiempo real
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
US20110153322A1 (en) Dialog management system and method for processing information-seeking dialogue
US20230135179A1 (en) Systems and Methods for Implementing Smart Assistant Systems
US11016968B1 (en) Mutation architecture for contextual data aggregator
US10482876B2 (en) Hierarchical speech recognition decoder
US11817093B2 (en) Method and system for processing user spoken utterance
Basu et al. Commodity price retrieval system in bangla: An ivr based application
US11804225B1 (en) Dialog management system
Thymé-Gobbel et al. Keeping Voice in Mind

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180205

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190531

R150 Certificate of patent or registration of utility model

Ref document number: 6535349

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250