JP2023008913A

JP2023008913A - コンピュータ実装方法、システムおよびコンピュータプログラム（対話システムのための解誘導応答生成）

Info

Publication number: JP2023008913A
Application number: JP2022104203A
Authority: JP
Inventors: チュラカグナセカラ; Gunasekara Chulaka; ジャティンガンホトラ; Ganhotra Jatin; サチンドラジョシ; Joshi Sachindra
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-06-30
Filing date: 2022-06-29
Publication date: 2023-01-19
Also published as: US20230005475A1; US11881217B2; CN115565530A

Abstract

【課題】コストがかからず、大きな労働力が不要で、モデル化がより容易なデータ駆動型対話システムの解が必要である。【解決手段】プロセッサは、誘導対話システムでの会話における第１のユーザ発話に関連付けられた第１の音声データを受信し得る。プロセッサは、第１の音声データから、第１のユーザ発話に関連付けられた一連のトピックの第１のトピックを識別し得る。プロセッサは、第１のトピックに関連付けられた第１の解を識別し得、第１の解は、トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有する。プロセッサは、第１の解の第１の解セグメントおよび第１の音声データに基づいて、第２のユーザのための第１の応答を生成し得る。【選択図】図２

Description

本開示は、一般に、対話システムの分野に関し、より詳細には、対話システムのための応答の解誘導生成に関する。

対話システムは、言語を理解し、ユーザと書面または口頭で会話を行うことができるインテリジェントなマシンである。会話システムを作成する２つの一般的な方法は、内容領域専門家（「ＳＭＥ」）が、ドメイン知識およびデータ駆動型モデリングを使用してダイアログフローを手動で作成するというものである。データ駆動型モデリングには、問題解決がチャットログおよび外部知識の両方から暗黙的に学習されるチャットログからの学習が含まれ、これにより、応答を生成するためのより多くの基礎が提供される。

ＳＭＥベースのモデリングは、多大な時間を必要とし、費用がかかり、人力を要する。さらに、モデルはビジネスロジックだけでなく言語も学習する必要があるため、チャットログからの学習は困難である。いずれの場合も、必要な外部情報を識別し、それを表現することは困難である。したがって、コストがかからず、大きな労働力が不要で、モデル化がより容易なデータ駆動型対話システムの解が必要である。

本開示の実施形態は、対話システムのための応答の解誘導生成のための方法、コンピュータプログラム製品、およびシステムを含む。

いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第１のユーザ発話に関連付けられた第１の音声データを受信し得る。プロセッサは、第１の音声データから、第１のユーザ発話に関連付けられた一連のトピックの第１のトピックを識別し得る。プロセッサは、第１のトピックに関連付けられた第１の解を識別し得、第１の解は、トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有する。プロセッサは、第１の解の第１の解セグメントおよび第１の音声データに基づいて、第２のユーザのための第１の応答を生成し得る。

いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第１のユーザ発話に関連付けられた第１の音声データを受信し得る。プロセッサは、第１の音声データから、第１のユーザ発話に関連付けられた一連のトピックの第１のトピックを識別し得る。プロセッサは、第１のトピックに関連付けられた第１の解を識別し得、第１の解は、トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有する。プロセッサは、第１のトピックに関連付けられたエンティティからのドキュメントコーパスを使用して第１の解を生成し得る。プロセッサは、第１の解の第１の解セグメントおよび第１の音声データに基づいて、第２のユーザのための第１の応答を生成し得る。

いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第１のユーザ発話に関連付けられた第１の音声データを受信し得る。プロセッサは、第１の音声データから、第１のユーザ発話に関連付けられた一連のトピックの第１のトピックを識別し得る。プロセッサは、第１のトピックに関連付けられた第１の解を識別し得、第１の解は、トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有する。プロセッサは、サンプル会話から解を生成するテキスト生成人工知能モデルを使用して、第１の解を生成し得る。プロセッサは、第１の解の第１の解セグメントおよび第１の音声データに基づいて、第２のユーザのための第１の応答を生成し得る。

いくつかの実施形態では、第１の応答は、シーケンスツーシーケンス機械学習モデルを使用して生成され得る。

いくつかの実施形態では、第１のトピックは、テキスト分類モデルを使用して識別され得る。

いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第２のユーザ発話に関連付けられた第２の音声データを受信し得る。プロセッサは、第２のユーザ発話が一連のトピックの別のトピックに関連付けられていないことを確認し得る。プロセッサは、第１の音声データ、第２のユーザの第１の応答、第２の音声データ、および第１の解の第２の解セグメントに基づいて、第２のユーザのための第２の応答を生成し得る。

いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第３のユーザ発話に関連付けられた第３の音声データを受信し得る。プロセッサは、第３のユーザ発話に関連付けられた第２のトピックを識別し得る。プロセッサは、第２のトピックに関連付けられた第２の解を識別し得る。プロセッサは、第１の音声データ、第２のユーザの第１の応答、第２の音声データ、第２のユーザの第２の応答、第３の音声データ、および第２の解の解セグメントに基づいて、第２のユーザのための第３の応答を生成し得る。

上記の概要は、本開示の各例示された実施形態またはすべての実装を説明することを意図するものではない。

本開示に含まれる図面は、本明細書に組み込まれ、本明細書の一部を形成する。それらは、本開示の実施形態を例示し、説明とともに、本開示の原理を説明するのに役立つ。図面は、特定の実施形態を例示するだけであり、本開示を限定するものではない。

本開示の態様による、応答の解誘導生成のための例示的なシステムのブロック図である。

本開示の態様による、応答の解誘導生成のための例示的な方法のフローチャートである。

本開示の態様による、クラウドコンピューティング環境を示す。

本開示の態様による、抽象化モデル層を示す。

本開示の態様による、本明細書に記載の方法、ツールおよびモジュールの１つまたは複数、ならびに任意の関連する機能を実装する際に使用され得る例示的なコンピュータシステムの高レベルのブロック図を示す。

本明細書に記載の実施形態は、様々な修正形態および代替形態を受け入れることができるが、その具体例が例として図面に示されており、詳細に説明される。しかし、記載された特定の実施形態は、限定的な意味で解釈されるべきではないことを理解されたい。それどころか、その意図は、本開示の趣旨および範囲内にあるすべての改変物、等価物、および代替物を網羅することである。

本開示の態様は、一般に、対話システムの分野に関し、より詳細には、対話システムのための応答の解誘導生成に関する。本開示は必ずしもそのような用途に限定されないが、本開示の様々な態様は、この文脈を使用する様々な例の議論を通じて理解され得る。

いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第１のユーザ発話に関連付けられた第１の音声データを受信し得る。いくつかの実施形態では、プロセッサは、第１の音声データから、第１のユーザ発話に関連付けられた一連のトピックの第１のトピックを識別し得る。いくつかの実施形態では、第１のトピックは、テキスト分類モデルを使用して識別され得る。

いくつかの実施形態では、ユーザ発話は、誘導対話システムでの会話を通じて対処、分解、解決、または実行するための要求、課題、懸念事項、または問題に関連し得る。いくつかの実施形態では、会話は、発話者（例えば、第１のユーザ）とエージェント（例えば、第２のユーザ）との間のコミュニケーションであり得、発話者およびエージェントは、交互に話したり、相手に返答したりする。いくつかの実施形態では、第１の音声データは、会話内で話しをする第１のユーザの順番の間の第１のユーザによって話された会話の少なくとも一部のテキストトランスクリプトを含み得る。いくつかの実施形態では、誘導対話システムは、ユーザが多種多様なタスクを実行するのを助けるために仮想アシスタントによって利用され得、それらのタスクを実行するためのエージェントとユーザとの間の会話を含み得る。

いくつかの実施形態では、テキスト分類モデルは、第１のユーザによって話されたテキストを解析し、テキストの文脈に基づいて、一連の事前定義されたタグまたはカテゴリ（例えば、第１のトピック）をテキストに割り当て得る。いくつかの実施形態では、テキスト分類モデルは、感情分析、トピック検出、意図検出、エンティティ識別、および言語検出のために自然言語処理を利用し得る。いくつかの実施形態では、識別されるトピックは、限定されないが、兆候、トピック、アクション、意図、要求、課題、懸念事項、もしくは問題の１つまたは組み合わせ、または、対話システムが動作するサービスまたはシステムに関連してユーザが支援を希望するタスク、要求、課題、懸念事項、または問題に関連付けられた任意の他の識別子を含み得る。

例えば、誘導対話システムは、公共料金の支払いのために期日データを延長するように口頭で要求する発話者によって開始され得る。発話者は、「電気料金の支払いの延長を希望します。」と話すことによって、システムに最初の要求を行い得る。ユーザ発話全体が文字化され、音声データからユーザ発話のトピックを識別する自然言語処理機能を備えた人工知能モデルに提供され得る。ユーザ発話のトピックは、ユーザが問い合わせているトピック、ユーザが支援を希望している問題、発話者が対処を希望している課題または懸念事項、ユーザが実行を希望しているアクションなどに関連し得る。「電気料金の支払いの延長を希望します。」というユーザ発話から、「支払い延長」のトピックが識別され得る。

いくつかの実施形態では、プロセッサは、第１のトピックに関連付けられた第１の解を識別し得る。いくつかの実施形態では、第１の解は、トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有し得る。いくつかの実施形態では、プロセッサは、第１のトピックの識別に基づいて第１の解を識別し得る。いくつかの実施形態では、１つまたは複数の解セグメントは、トピックに関連するタスクを実行し得る一連のステップ、アクション、またはコミュニケーションであり得る。例えば、トピック「支払い延長」の場合、プロセッサは、エージェントが発話者の支払い延長を取得するタスクを実行し得る一連のステップを含む解を識別し得る。発話者の支払い延長を取得するために、解セグメントには、発話者の電話番号を確認する段階と、発話者にＰＩＮ番号を送信し、発話者にＰＩＮ番号をエージェントに提供するように要求する段階と、発話者に支払いの決済を希望する日付を尋ねる段階（例えば、いつまで延長するかを入手する）と、新しい支払い協定に準拠することが重要であり、準拠しない場合は延滞料が発生し得ることを発話者に注意する段階と、支払い延長をデータベースに記録する段階と、支払い延長が実施されたことを発話者に通知する段階と、発話者に参照番号を提供する段階とが含まれ得る。

いくつかの実施形態では、１つまたは複数の解セグメントには、ユーザから様々なタイプの情報を取得することと、アクションを実行した場合の様々な結果を発話者に通知することと、発話者からの関連する背景情報を確認することと（例えば、ユーザのＩＤまたはアカウント情報を確認すること）、実行する必要のあるタスクに関連する情報を取得することと（例えば、ユーザが期日の延長をいつまで希望しているか）を含む、実行する必要のあるサブタスクが含まれ得る。いくつかの実施形態では、サブタスクまたは解セグメントには、コミュニケーション交換、問い合わせ、提供される指示、尋ねられる質問、提供される回答、取得される情報、受信されるユーザ応答などが含まれ得る。いくつかの実施形態では、解および解セグメントは、誘導対話システムを介したユーザとのコミュニケーション交換を通じてタスクを実行する方法についてのロードマップまたは指示であり得る。

いくつかの実施形態では、解は、選択された解を音声データから識別されたトピックに関連付ける人工知能（「ＡＩ」）モデルによって選択され得る。いくつかの実施形態では、ＡＩモデルは、自然言語処理を利用するテキスト分類モデルであり得る。いくつかの実施形態では、解選択モデルは、解およびトピックを２人のユーザ（例えば、発話者およびエージェント）間の会話からのテキストに関連付けるデータセットを使用してトレーニングされ得る。

いくつかの実施形態では、プロセッサは、第１の解の第１の解セグメントおよび第１の音声データに基づいて、第２のユーザのための第１の応答を生成し得る。例えば、第１の音声データ「電気料金の支払いの延長を希望します。」および、第１の解の第１の解セグメント「発話者の電話番号を確認する」に基づいて、エージェント（例えば、第２のユーザ）のための第１の応答は、「延長をお受けすることは可能ですが、最初にお客様のＩＤを確認する必要があります。お客様のアカウントに関連付けられている電話番号を教えていただけますか？」とし得る。いくつかの実施形態では、エージェント（例えば、第２のユーザ）は、応答をユーザ／発話者に中継する自動化されたエージェントである。

いくつかの実施形態では、第１の応答は、シーケンスツーシーケンス機械学習モデルを使用して生成され得る。いくつかの実施形態では、シーケンスツーシーケンスモデルは、テキストを生成する深層学習モデルであり得る。いくつかの実施形態では、シーケンスツーシーケンスモデルは、リカレントニューラルネットワーク（ＲＮＮ）、長短期記憶（ＬＳＴＭ）、またはゲート付き回帰型ユニット（ＧＲＵ）アーキテクチャを使用することによってテキストを生成する深層学習モデルであり得る。いくつかの実施形態では、各項目の文脈は、前のステップからの出力である。いくつかの実施形態では、シーケンスツーシーケンスモデルの主要な構成要素は、エンコーダおよびデコーダネットワークである。いくつかの実施形態では、エンコーダは、各項目を、項目およびその文脈を含む対応する隠れベクトルに変換する。いくつかの実施形態では、デコーダは、前の出力を入力文脈として使用して、ベクトルを出力項目に変えて、プロセスを逆にする。いくつかの実施形態では、シーケンスツーシーケンスモデルは、ＢＡＲＴ、生成型事前トレーニング済みトランスフォーマ２（「ＧＰＴ２」）、生成型事前トレーニング済みトランスフォーマ３（「ＧＰＴ３」）などを含み得る。いくつかの実施形態では、シーケンスツーシーケンスモデルは、会話文脈（例えば、エージェントによるユーザ発話および応答）および識別された解（または解セグメント）の両方を入力として取得するようにトレーニングし得、第２のユーザに出力された生成済み応答をもたらし得る。

いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第２のユーザ発話に関連付けられた第２の音声データを受信し得る。いくつかの実施形態では、プロセッサは、第２のユーザ発話が一連のトピックの別のトピックに関連付けられていないことを確認し得る。いくつかの実施形態では、プロセッサは、第１の音声データ、第２のユーザの第１の応答、第２の音声データ、および第１の解の第２の解セグメントに基づいて、第２のユーザのための第２の応答を生成し得る。

前の例を続けると、第２の音声データは「私の電話番号は１２３３４５６４４３です。」であり得る。プロセッサは、情報が第２のトピックに関連していないことを判定するために、ユーザによって提供されたテキストを解析し得る。次いで、プロセッサは、これまでの会話および第１の解の第２の解セグメントに基づいて第２の応答を生成し得る。プロセッサは、機械学習モデルに、以下のエージェントの第１および第２の音声データおよび第１の応答を入力し得る。

第１のユーザ：「電気料金の支払いの延長を希望します。」

エージェント：「延長をお受けすることは可能ですが、最初にお客様のＩＤを確認する必要があります。お客様のアカウントに関連付けられている電話番号を教えていただけますか？」

第１のユーザ：「私の電話番号は１２３３４５６４４３です。」

プロセッサはまた、機械学習モデルに第１の解の第２の解セグメント「発話者にＰＩＮ番号を送信し、発話者にＰＩＮ番号をエージェントに提供するように要求する」を入力し、第２の応答「弊社のシステムは、テキストメッセージでＰＩＮ番号をお客様の携帯電話に送信します。送られてきた４桁の番号をご連絡ください。」を生成し得る。

いくつかの実施形態では、プロセッサは、誘導対話システムでの会話における第３のユーザ発話に関連付けられた第３の音声データを受信し得る。いくつかの実施形態では、プロセッサは、第３のユーザ発話に関連付けられた第２のトピックを識別し得る。いくつかの実施形態では、プロセッサは、第２のトピックに関連付けられた第２の解を識別し得る。いくつかの実施形態では、プロセッサは、第１の音声データ、第２のユーザの第１の応答、第２の音声データ、第２のユーザの第２の応答、第３の音声データ、および第２の解の解セグメントに基づいて、第２のユーザのための第３の応答を生成し得る。

前の例を続けると、第３のユーザ発話は、「ご連絡いただいたＰＩＮ番号は３４７６です。弊社で、このアカウントに関連付けられているアドレスを更新させていただきます。」とし得る。プロセッサは、第３のユーザ発話において第２のトピック「アカウント情報の更新」を識別し得る。プロセッサは、アカウント情報を更新するための一連のステップを提供する第２の解を識別し得る。次いで、プロセッサは、会話履歴全体（例えば、第１、第２、第３のユーザ発話、および第２のユーザ／エージェントの第１および第２の応答）およびアカウント情報の更新のための解の解セグメントに基づいて、エージェントのための第３の応答を生成し得る。アカウント情報解を更新するための解セグメントは、「更新するアカウント情報のタイプを確認する」とし得る。エージェントに対して生成される第３の応答は、「お客様のアカウントプロファイルのアドレスを更新させていただきます。このアカウントでよろしいでしょうか？」とし得る。第３の応答は、会話履歴およびアカウント情報の更新に関連付けられた解の解セグメントに基づいて生成され得る。

いくつかの実施形態では、第１、第２、および第３の応答のそれぞれは、機械学習モデルによって検出されたパターンに基づいて予測的に生成され得る。

いくつかの実施形態では、解（例えば、第１の解または第２の解）は、内容領域専門家によって識別および準備され得る。いくつかの実施形態では、解に含まれる１つまたは複数のステップ（例えば、解セグメント）は、内容領域専門家によって手動で作成、生成、導出、または準備され得る。いくつかの実施形態では、内容領域専門家は、タスクを実行するために実行され得るプロセス、ステップ、またはアクションに関する内容領域専門家の知識に基づくトピックに関連するタスクを実行するために必要な一連の解セグメントを識別でき得る。

いくつかの実施形態では、内容領域専門家は、ユーザとエージェントとの間のサンプル交換を確認し、ユーザとエージェントとの間のコミュニケーションに基づいて、トピックに関連するタスクを実行するために必要なステップまたはプロセスを識別し得る。いくつかの実施形態では、内容領域専門家は、タスク（例えば、内容領域専門家が実行する必要のあるステップを決定、識別、または分類するのに役立つ情報）を実行する方法に関する情報を提供する他の関連する参考資料（例えば、マニュアル、ウェブサイトへのアクセス方法、手順報告）を確認し得る。使用される内容領域専門家の実施形態に関係なく、内容領域専門家によって提供される情報は、注釈でタグ付けされ、会話中に記憶する、およびその後の使用のために、開示されるシステムに提示される。さらに、内容領域専門家によって提供された情報は、自然言語処理システムによって解析され、トピック／サブトピックごとに記憶／タグ付けされ得る。

いくつかの実施形態では、解（例えば、第１の解または第２の解）は、サンプル会話から解を生成するテキスト生成人工知能モデルを使用して生成され得る。いくつかの実施形態では、テキスト生成人工知能モデルは、利用可能な会話文脈に基づいたトークンによって必要な解トークンを生成し得る。いくつかの実施形態では、テキスト生成人工知能モデルは、ＢＡＲＴ、ＧＰＴ２、およびＧＰＴ３を含み得る。

いくつかの実施形態では、テキスト生成モデルは、内容領域専門家によって注釈が付けられた、発話者とエージェントとの間の会話のトランスクリプトを使用してトレーニングされ得る。いくつかの実施形態では、サンプルトランスクリプトは、解構成要素に関連する会話の部分を識別するために注釈を付けられ得る。いくつかの実施形態では、テキスト生成人工知能モデルは、会話の部分（例えば、発話者またはエージェントによって話される言語）を解構成要素と関連付けるようにトレーニングされ得る。

いくつかの実施形態では、テキスト生成モデルがトレーニングされると、テキスト生成モデルを利用して、テキスト生成モデルを会話のコーパスに適用することによって解を生成し得る。いくつかの実施形態では、入力として提供されるサンプル会話に基づいて、テキスト生成モデルは、会話コーパス内のサンプル会話から追加の解（例えば、一連の解セグメントで作られる解）を出力でき得る。

いくつかの実施形態では、解（例えば、第１の解または第２の解）は、トピック（例えば、それぞれ第１のトピックまたは第２のトピック）に関連するエンティティからのドキュメントコーパスを使用して生成され得る。いくつかの実施形態では、トピックに関連するエンティティは、トピック、トピックに関連付けられた解、もしくはトピックに関連するタスクを実行するための１つまたは複数の解セグメント、またはその組み合わせに関連する情報へのアクセスを有するか、または提供し得る個人、個人のグループ、組織、データベース、ライブラリなどであり得る。

いくつかの実施形態では、解は、ルールベースの方法を使用してドキュメントコーパスを使用して生成され得る。いくつかの実施形態では、ルールベースの方法は、トピック、解、または解セグメントに関連するドキュメントコーパス内のドキュメントの部分を識別し得る。いくつかの実施形態では、ルールは、トピック、解、または解セグメント、およびそれらが関連付けられている（例えば、ユーザ発話からの）会話テキストを識別する方法を説明し得る。

例えば、解は、指定された一連のウェブページ（例えば、組織から購入した製品で頻繁に発生する問題を解決するためのステップバイステップの手順を提供する組織のウェブページ）のドキュメントオブジェクトモデル（「ＤＯＭ」）要素に関連するルールを使用して生成され得る。いくつかの実施形態では、（例えば、ウェブページのＤＯＭ要素に関連する）ルールを使用して生成される解は、内容領域専門家（例えば、ウェブページの作成者）によって確認され得る。いくつかの実施形態では、解に関する内容領域専門家からのフィードバックを使用して、解を生成するルールに基づいてルールを更新し得る。

いくつかの実施形態では、内容領域専門家は、ドキュメントコーパスから特定のドキュメント（例えば、会社の製品用のユーザマニュアル）を確認し、一節から解を生成または下書きし得る。例えば、内容領域専門家は、一節のどの部分が解のどのサブ構成要素に結び付いているかを識別する注釈を提供し得る。いくつかの実施形態では、注釈を使用してテキスト生成モデルをトレーニングし、同様のドキュメントから他の解を生成し得る。いくつかの実施形態では、テキスト生成モデルは、ユーザマニュアルの一節を解セグメントに関連付ける方法を学習し得る。いくつかの実施形態では、次いで、テキスト生成モデルは、入力として受信したユーザマニュアルから新しい解を生成し得る。

ここで図１を参照すると、応答の解誘導生成のためのシステム１００のブロック図が示されている。システム１００は、ユーザデバイス１０２およびシステムデバイス１０４を含む。システムデバイス１０４は、会話文脈データベース１０６、解セレクタ１０８、解１１０、応答ジェネレータ１１２、および応答プロバイダ１１４を含む。ユーザデバイス１０２およびシステムデバイス１０４は、互いに通信するように構成される。ユーザデバイス１０２およびシステムデバイス１０４は、本開示に記載の機能またはステップの１つまたは複数を実行するように構成されるプロセッサを含む任意のデバイスであり得る。

いくつかの実施形態では、システムデバイス１０４は、会話における第１のユーザ発話に関連付けられた第１の音声データをユーザデバイス１０２から受信する。第１の音声データは、会話文脈データベース１０６に格納される。システムデバイス１０４の解セレクタ１０８は、第１の音声データから、第１のユーザ発話に関連付けられた一連のトピックのうちの第１のトピックを識別し、第１のトピックに関連付けられた第１の解１１０を識別する。第１の解１１０は、トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有する。システムデバイス１０４の応答ジェネレータ１１２は、第１の解の第１の解セグメントおよび第１の音声データに基づいて、第２のユーザ（例えば、誘導対話システムのエージェント）のための第１の応答を生成する。いくつかの実施形態では、応答ジェネレータは、シーケンスツーシーケンス機械学習モデルを使用して応答を生成する。第１の応答は、応答プロバイダ１１４を介して第１のユーザ（例えば、ユーザデバイス１０２）に伝達される。

いくつかの実施形態では、第１の応答は、会話文脈データベース１０６に格納され、エージェントのための第２の応答を生成するために使用される。いくつかの実施形態では、システムデバイス１０４は、会話における第２のユーザ発話に関連付けられた第２の音声データを受信する。いくつかの実施形態では、解セレクタ１０８は、第２のユーザ発話が一連のトピックのうちの別のトピックに関連付けられていないことを確認する。いくつかの実施形態では、解セレクタは、テキスト分類モデル１１６を使用して、第２のユーザ発話が一連のトピックのうちの別のトピックに関連付けられていないことを確認し得る。いくつかの実施形態では、応答ジェネレータ１１２は、第１の音声データ、エージェントの第１の応答、第２の音声データ、および第１の解の第２の解セグメントに基づいて、エージェントのための第２の応答を生成する。

いくつかの実施形態では、第１および第２の音声データならびに第１および第２の応答は、会話文脈データベース１０６に格納され、エージェントのための第３の応答を生成するために使用される。いくつかの実施形態では、システムデバイス１０４は、会話における第３のユーザ発話に関連付けられた第３の音声データを受信する。いくつかの実施形態では、解セレクタ１０８は、第３のユーザ発話に関連付けられた第２のトピックを識別する。いくつかの実施形態では、解セレクタ１０８は、第２のトピックに関連付けられた第２の解を識別し得る。いくつかの実施形態では、応答ジェネレータ１１２は、第１の音声データ、エージェントの第１の応答、第２の音声データ、エージェントの第２の応答、第３の音声データ、および第２の解の解セグメントに基づいて、エージェントのための第３の応答を生成する。

ここで図２を参照すると、本開示の実施形態による、応答の解誘導生成のための例示的な方法２００のフローチャートが示されている。いくつかの実施形態では、システムのプロセッサは、方法２００の動作を実行し得る。いくつかの実施形態では、方法２００は、動作２０２で始まる。動作２０２において、プロセッサは、誘導対話システムでの会話における第１のユーザ発話に関連付けられた第１の音声データを受信する。いくつかの実施形態では、方法２００は、動作２０４に進み、プロセッサは、第１の音声データから、第１のユーザ発話に関連付けられた一連のトピックの第１のトピックを識別する。いくつかの実施形態では、方法２００は動作２０６に進む。動作２０６において、プロセッサは、第１のトピックに関連付けられた第１の解を識別し、第１の解は、トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有する。いくつかの実施形態では、方法２００は、動作２０８に進む。動作２０８において、プロセッサは、第１の解の第１の解セグメントおよび第１の音声データに基づいて、第２のユーザのための第１の応答を生成する。

本明細書でより詳細に論じられるように、方法２００の動作の一部または全部は、代替的な順序で実行され得るか、または全く実行され得ないことが企図され、さらに、複数の動作が同時に、またはより大きなプロセスの内部部分として発生し得る。

本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載される教示の実施はクラウドコンピューティング環境に限定されないことを理解されたい。むしろ、本開示の実施形態は、現在知られている、または後に開発される任意の他のタイプのコンピューティング環境と組み合わせて実装できる。

クラウドコンピューティングは、最小限の管理労力またはサービスのプロバイダとの対話で迅速にプロビジョニングおよびリリースできる、構成可能なコンピューティングリソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、サービス）の共有プールへの便利なオンデマンドネットワークアクセスを可能にするサービス提供のモデルである。このクラウドモデルは、少なくとも５つの特徴、少なくとも３つのサービスモデル、および少なくとも４つの展開モデルを含み得る。

特徴は次の通りである。

オンデマンドセルフサービス：クラウド消費者は、サービスプロバイダとの人間の対話を必要とせずに、必要に応じて一方的にサーバタイムおよびネットワークストレージなどのコンピューティング能力を自動的にプロビジョニングできる。

幅広いネットワークアクセス：能力は、ネットワーク経由で利用可能であり、異種のシンクライアントプラットフォームまたはシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、ＰＤＡ）による使用を促進する標準機構を介してアクセスされる。

リソースプーリング：プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者にサービスを提供するためにプールされ、様々な物理リソースおよび仮想リソースが需要に応じて動的に割り当てられ、再割り当てされる。消費者は、一般に、提供されたリソースの正確な部分に関する制御または知識はないが、より高い抽象化のレベル（例えば、国、州、データセンタ）で部分を特定でき得るという点で、部分独立の感覚がある。

迅速な弾力性：能力は、迅速かつ弾力的にプロビジョニングでき、場合によっては、自動的に、速やかにスケールアウトされ、迅速にリリースされて速やかにスケールインされる。消費者には、プロビジョニングに使用できる能力は無制限に見えることが多く、いつでも任意の数量で購入できる。

測定されたサービス：クラウドシステムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、アクティブなユーザアカウント）に適したある程度の抽象化のレベルで計量能力を活用することにより、リソースの使用を自動的に制御および最適化する。リソースの使用状況を監視、制御、および報告して、利用するサービスの、プロバイダと消費者の両方に透明性を提供できる。

サービスモデルは次の通りである。

サービスとしてのソフトウェア（ＳａａＳ）：消費者に提供される能力は、クラウドインフラストラクチャで実行されているプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブブラウザ（例えば、ウェブベースの電子メール）などのシンクライアントインターフェースを介して、様々なクライアントデバイスからアクセスできる。消費者は、限定的なユーザ固有のアプリケーション構成設定を除き得て、ネットワーク、サーバ、オペレーティングシステム、ストレージ、さらには個別のアプリケーション機能を含む基盤となるクラウドインフラストラクチャを管理または制御しない。

サービスとしてのプラットフォーム（ＰａａＳ）：消費者に提供される能力は、プロバイダがサポートするプログラミング言語およびツールを使用して作成された、消費者が作成または取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む基盤となるクラウドインフラストラクチャを管理または制御しないが、展開されたアプリケーションおよび、場合によっては、アプリケーションホスティング環境の構成を制御する。

サービスとしてのインフラストラクチャ（ＩａａＳ）：消費者に提供される能力は、処理、ストレージ、ネットワーク、および消費者が、オペレーティングシステムおよびアプリケーションを含み得る、任意のソフトウェアを展開および実行できるその他の基本的なコンピューティングリソースをプロビジョニングすることである。消費者は、基盤となるクラウドインフラストラクチャを管理または制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御し、場合によっては、選択したネットワーク構成要素（例えば、ホストファイアウォール）の制御を制限する。

展開モデルは次の通りである。

プライベートクラウド：クラウドインフラストラクチャは、組織のためだけに運用される。組織または第三者によって管理され得、オンプレミスまたはオフプレミスに存在し得る。

コミュニティクラウド：クラウドインフラストラクチャは複数の組織によって共有されており、共有された懸念事項（例えば、ミッション、セキュリティ要件、ポリシ、コンプライアンスの考慮事項）を有する特定のコミュニティをサポートしている。組織または第三者によって管理され得、オンプレミスまたはオフプレミスに存在し得る。

パブリッククラウド：クラウドインフラストラクチャは、一般の人々または大規模な業界団体が利用できるようにしたもので、クラウドサービスを販売する組織が所有している。

ハイブリッドクラウド：クラウドインフラストラクチャは、一意のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化された技術または独自の技術（例えば、クラウド間の負荷分散のためのクラウドバースト）によって結合された２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の構成である。

クラウドコンピューティング環境は、ステートレス性、低結合、モジュール性、および意味的相互運用性に重点を置いたサービス指向型である。クラウドコンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。

図３Ａには、クラウドコンピューティング環境３１０が例示的に示されている。示しているように、クラウドコンピューティング環境３１０は、例えば、パーソナルデジタルアシスタント（ＰＤＡ）または携帯電話３００Ａ、デスクトップコンピュータ３００Ｂ、ラップトップコンピュータ３００Ｃ、もしくは自動車コンピュータシステム３００Ｎ、またはその組み合わせなどのクラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る１つまたは複数のクラウドコンピューティングノード３００を含む。ノード３００は、互いに通信し得る。それらは、物理的または仮想的に、前述のプライベートクラウド、コミュニティクラウド、パブリッククラウド、またはハイブリッドクラウド、またはそれらの組み合わせなどの１つまたは複数のネットワークにグループ化（図示せず）され得る。

これにより、クラウドコンピューティング環境３１０は、クラウド消費者がローカルコンピューティングデバイス上でリソースを維持する必要がないサービスとして、インフラストラクチャ、プラットフォーム、もしくはソフトウェア、またはその組み合わせを提供できる。図３Ａに示すコンピューティングデバイス３００Ａ～Ｎのタイプは、例示のみを意図しており、コンピューティングノード３００およびクラウドコンピューティング環境３１０は、任意のタイプのネットワークもしくは（例えば、ウェブブラウザを使用する）ネットワークアドレス可能な接続、またはその組み合わせを介して任意のタイプのコンピュータ化されたデバイスと通信できることが理解されるよう。

示されている図３Ｂは、クラウドコンピューティング環境３１０（図３Ａ）によって提供される機能抽象化層のセットを示す。図３Ｂに示す構成要素、層、および機能は、例示のみを目的としており、本開示の実施形態はそれに限定されないことを事前に理解されたい。以下に示しているように、以下の層および対応する機能が提供される。

ハードウェアおよびソフトウェア層３１５は、ハードウェアおよびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム３０２、ＲＩＳＣ（縮小命令セットコンピュータ）アーキテクチャベースのサーバ３０４、サーバ３０６、ブレードサーバ３０８、ストレージデバイス３１１、およびネットワークおよびネットワーク構成要素３１２を含む。いくつかの実施形態では、ソフトウェア構成要素は、ネットワークアプリケーションサーバソフトウェア３１４およびデータベースソフトウェア３１６を含む。

仮想化層３２０は、仮想エンティティの次の例、すなわち、仮想サーバ３２２、仮想ストレージ３２４、仮想プライベートネットワークを含む仮想ネットワーク３２６、仮想アプリケーションおよびオペレーティングシステム３２８、および仮想クライアント３３０が提供され得る抽象化層を提供する。

一例では、管理層３４０は、以下に説明する機能を提供し得る。リソースプロビジョニング３４２は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を提供する。計量および価格設定３４４は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、およびこれらのリソースの消費に対する課金または請求を提供する。一例では、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウド消費者およびタスクに対する識別検証、ならびにデータおよびその他のリソースに対する保護を提供する。ユーザポータル３４６は、消費者およびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理３４８は、必要なサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当ておよび管理を提供する。サービスレベルアグリーメント（ＳＬＡ）の計画および履行３５０は、ＳＬＡに従って将来の要件が予想されるクラウドコンピューティングリソースの事前準備および調達を提供する。

ワークロード層３６０は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション３６２、ソフトウェア開発およびライフサイクル管理３６４、仮想教室教育配信３６６、データ分析処理３６８、トランザクション処理３７０、および対話システム３７２のための応答の解誘導生成を含む。

図４は、本開示の実施形態による、（例えば、コンピュータの１つまたは複数のプロセッサ回路またはコンピュータプロセッサを使用する）本明細書に記載の方法、ツールおよびモジュールの１つまたは複数、ならびに任意の関連する機能を実装する際に使用され得る例示的なコンピュータシステム４０１の高レベルのブロック図を示す。いくつかの実施形態では、コンピュータシステム４０１の主要な構成要素は、１つまたは複数のＣＰＵ４０２、メモリサブシステム４０４、端末インターフェース４１２、ストレージインターフェース４１６、Ｉ／Ｏ（入力／出力）デバイスインターフェース４１４、およびネットワークインターフェース４１８を有し得、これらすべてが、メモリバス４０３、Ｉ／Ｏバス４０８、およびＩ／Ｏバスインターフェースユニット４１０を介した構成要素間通信のために、直接的または間接的に通信可能に結合され得る。

コンピュータシステム４０１は、本明細書では一般にＣＰＵ４０２と呼ばれる、１つまたは複数の汎用プログラマブル中央処理装置（ＣＰＵ）４０２Ａ、４０２Ｂ、４０２Ｃ、および４０２Ｄを含み得る。いくつかの実施形態では、コンピュータシステム４０１は、比較的大規模なシステムに典型的な複数のプロセッサを備え得るが、他の実施形態では、コンピュータシステム４０１は、代替的に、単一のＣＰＵシステムであり得る。各ＣＰＵ４０２は、メモリサブシステム４０４に記憶された命令を実行し得て、１つまたは複数のレベルのオンボードキャッシュを含み得る。

システムメモリ４０４は、ランダムアクセスメモリ（ＲＡＭ）４２２またはキャッシュメモリ４２４などの揮発性メモリの形態のコンピュータシステム可読媒体を含み得る。コンピュータシステム４０１は、他の取り外し可能／取り外し不可能、揮発性／不揮発性コンピュータシステム記憶媒体をさらに含み得る。単なる例として、ストレージシステム４２６は、「ハードドライブ」などの取り外し不可能な不揮発性磁気媒体との間の読み取りおよび書き込みのために提供できる。図示されていないが、取り外し可能な不揮発性磁気ディスク（例えば、「フロッピディスク」）との間の読み取りおよび書き込み用の磁気ディスクドライブ、またはＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭまたは他の光媒体などの取り外し可能な不揮発性光ディスクとの間の読み取りまたは書き込み用の光ディスクドライブが提供可能である。さらに、メモリ４０４は、フラッシュメモリ、例えば、フラッシュメモリスティックドライブまたはフラッシュドライブを含み得る。メモリデバイスは、１つまたは複数のデータメディアインターフェースによってメモリバス４０３に接続できる。メモリ４０４は、様々な実施形態の機能を実行するように構成されるプログラムモジュール（例えば、少なくとも１つ）のセットを有する少なくとも１つのプログラム製品を含み得る。

プログラムモジュール４３０の少なくとも１つのセットをそれぞれが有する１つまたは複数のプログラム／ユーティリティ４２８は、メモリ４０４に格納され得る。プログラム／ユーティリティ４２８は、ハイパーバイザ（仮想マシンモニタとも呼ばれる）、１つまたは複数のオペレーティングシステム、１つまたは複数のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータを含み得る。オペレーティングシステム、１つまたは複数のアプリケーションプログラム、他のプログラムモジュールのそれぞれ、およびプログラムデータまたはそれらのいくつかの組み合わせは、ネットワーキング環境の実装を含み得る。プログラム４２８もしくはプログラムモジュール４３０、またはその両方は、一般に、様々な実施形態の機能または方法論を実行する。

メモリバス４０３は、ＣＰＵ４０２、メモリサブシステム４０４、およびＩ／Ｏバスインターフェース４１０の間の直接通信パスを提供する単一のバス構造として図４に示されているが、メモリバス４０３は、いくつかの実施形態では、階層構成、スター構成、またはウェブ構成のポイントツーポイントリンク、複数の階層バス、並列および冗長パス、または任意のその他の適切なタイプの構成など、様々な形態のいずれかに配置され得る、複数の異なるバスまたは通信パスを含み得る。さらに、Ｉ／Ｏバスインターフェース４１０およびＩ／Ｏバス４０８は、単一のそれぞれのユニットとして示されているが、コンピュータシステム４０１は、いくつかの実施形態では、複数のＩ／Ｏバスインターフェースユニット４１０、複数のＩ／Ｏバス４０８、またはその両方を含み得る。さらに、Ｉ／Ｏバス４０８を様々なＩ／Ｏデバイスに向かう様々な通信経路から分離する複数のＩ／Ｏインターフェースユニットが示されているが、他の実施形態では、Ｉ／Ｏデバイスの一部または全部が、１つまたは複数のシステムＩ／Ｏバスに直接接続され得る。

いくつかの実施形態では、コンピュータシステム４０１は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、または直接ユーザインターフェースをほとんどまたは全く有していないが、他のコンピュータシステム（クライアント）からの要求を受信するサーバコンピュータまたは同様のデバイスであり得る。さらに、いくつかの実施形態では、コンピュータシステム４０１は、デスクトップコンピュータ、ポータブルコンピュータ、ラップトップまたはノートブックコンピュータ、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、ネットワークスイッチもしくはルータ、または任意の他の適切なタイプの電子デバイスとして実装され得る。

図４は、例示的なコンピュータシステム４０１の代表的な主要構成要素を示すことを意図していることに留意されたい。しかし、いくつかの実施形態では、個々の構成要素は、図４に示すよりも多かれ少なかれ複雑になり得たり、図４に示すもの以外の構成要素またはその構成要素に加えて構成要素が存在し得たり、そのような構成要素の数、タイプ、および構成が変化し得たりする。

本明細書でより詳細に論じられるように、本明細書に記載の方法の実施形態のいくつかの動作の一部または全部は、代替的な順序で実行され得るか、または全く実行され得ないことが企図され、さらに、複数の動作が同時に、またはより大きなプロセスの内部部分として発生し得る。

本開示は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、もしくはコンピュータプログラム製品、またはその組み合わせであり得る。コンピュータプログラム製品は、プロセッサに本開示の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（または複数の媒体）を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶できる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、限定されないが、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、または前述の任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、その上に命令が記録されたパンチカードまたは溝に浮き彫りされた構造などの機械的にエンコードされたデバイス、および前述の任意の適切な組み合わせが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波または他の自由に伝播する電磁波、導波管または他の伝送媒体を通って伝播する電磁波（例えば、光ファイバーケーブルを通過する光パルス）、または電線を通じて伝送される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、またはネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、もしくはワイヤレスネットワーク、またはその組み合わせを介して外部コンピュータまたは外部ストレージデバイスにダウンロードできる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバ、またはその組み合わせを有し得る。各コンピューティング／処理デバイス内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。

本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、または、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語などの手続型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、全部がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、スタンドアロンのソフトウェアパッケージとして、一部がユーザのコンピュータ上で一部がリモートコンピュータ上で、または全部がリモートコンピュータ上でもしくはサーバ上で実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得るか、または、（例えば、インターネットサービスプロバイダを使用してインターネットを介して）外部コンピュータに接続され得る。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本開示の態様を実行するために、電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行し得る。

本開示の態様は、本開示の実施形態による方法、装置（システム）、およびコンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して本明細書に記載されている。フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータのプロセッサ、または他のプログラマブルデータ処理装置に提供され、マシンを生成し得て、その結果、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャートもしくはブロック図またはその両方の１つまたは複数のブロックで指定された機能／動作を実施するための手段を作成する。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラマブルデータ処理装置もしくは他のデバイスまたはその両方に特定の方法で機能するように指示できるコンピュータ可読記憶媒体内に記憶され得て、その結果、その中に記憶された命令を有するコンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方の１つまたは複数のブロックで指定された機能／動作の態様を実施する命令を含む製品を備える。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させて、コンピュータ実装プロセスを生成し得て、その結果、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令が、フローチャートもしくはブロック図またはその両方の１つまたは複数のブロックで指定された機能／動作を実装する。

図中のフローチャートおよびブロック図は、本開示の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図内の各ブロックは、指定された論理機能を実装するための１つまたは複数の実行可能命令を有する、モジュール、セグメント、または命令の一部を表し得る。いくつかの代替的な実装では、ブロックに示される機能は、図に示される順序を外れて生じ得る。例えば、連続して示される２つのブロックは、実際には、１つのステップとして実行され、部分的または全体的に時間的に重複する方法で、同時に、または実質的に同時に実行され得るか、または、関連する機能に応じてブロックが、時に逆の順序で実行され得る。また、ブロック図もしくはフローチャート図、またはその両方の各ブロック、ならびにブロック図もしくはフローチャート図、またはその両方のブロックの組み合わせは、指定された機能または動作を実行する、または特別な目的のハードウェアとコンピュータ命令との組み合わせを実行する特別な目的のハードウェアベースのシステムによって実装できることにも留意されたい。

本開示の様々な実施形態の説明は、例示の目的で提示されているが、網羅的であること、または開示された実施形態に限定することを意図するものではない。多くの修正および変形は、記載する実施形態の範囲および趣旨から逸脱することなく、当業者に明らかになるであろう。本明細書で使用される用語は、実施形態の原理、実際の適用、または市場で見られる技術を超える技術的改善を最適に説明するため、または他の当業者が本明細書に開示される実施形態を理解できるようにするために選択されたものである。

本開示は特定の実施形態に関して説明されてきたが、その変更および修正は当業者に明らかになることが予想される。したがって、以下の特許請求の範囲は、本開示の真の趣旨および範囲内に含まれるすべてのそのような変更および修正を網羅するものとして解釈されることが意図されている。

Claims

コンピュータ実装方法であって、
プロセッサによって、誘導対話システムでの会話における第１のユーザ発話に関連付けられた第１の音声データを受信する段階と、
前記第１の音声データから、前記第１のユーザ発話に関連付けられた一連のトピックの第１のトピックを識別する段階と、
前記第１のトピックに関連付けられた第１の解を識別する段階であって、前記第１の解が、前記トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有する、識別する段階と、
前記第１の解の第１の解セグメントおよび前記第１の音声データに基づいて、第２のユーザのための第１の応答を生成する段階と
を備える、方法。
前記第１の応答が、シーケンスツーシーケンス機械学習モデルを使用して生成される、請求項１に記載の方法。
前記第１のトピックが、テキスト分類モデルを使用して識別される、請求項１または２に記載の方法。
前記誘導対話システムでの前記会話における第２のユーザ発話に関連付けられた第２の音声データを受信する段階と、
前記第２のユーザ発話が、前記一連のトピックの別のトピックに関連付けられていないことを確認する段階と、
前記第１の音声データ、前記第２のユーザの前記第１の応答、前記第２の音声データ、および前記第１の解の第２の解セグメントに基づいて、前記第２のユーザのための第２の応答を生成する段階と
をさらに備える、請求項１または２に記載の方法。
前記誘導対話システムでの前記会話における第３のユーザ発話に関連付けられた第３の音声データを受信する段階と、
前記第３のユーザ発話に関連付けられた第２のトピックを識別する段階と、
前記第２のトピックに関連付けられた第２の解を識別する段階と、
前記第１の音声データ、前記第２のユーザの前記第１の応答、前記第２の音声データ、前記第２のユーザの前記第２の応答、前記第３の音声データ、および前記第２の解の解セグメントに基づいて、前記第２のユーザのための第３の応答を生成する段階と
をさらに備える、請求項４に記載の方法。
コンピュータ実装方法であって、
プロセッサによって、誘導対話システムでの会話における第１のユーザ発話に関連付けられた第１の音声データを受信する段階と、
前記第１の音声データから、前記第１のユーザ発話に関連付けられた一連のトピックの第１のトピックを識別する段階と、
前記第１のトピックに関連付けられた第１の解を識別する段階であって、前記第１の解が、前記トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有し、前記第１の解が、サンプル会話から解を生成するテキスト生成人工知能モデルを使用して生成される、識別する段階と、
前記第１の解の第１の解セグメントおよび前記第１の音声データに基づいて、第２のユーザのための第１の応答を生成する段階と
を備える、方法。
前記第１の応答が、シーケンスツーシーケンス機械学習モデルを使用して生成される、請求項６に記載の方法。
前記第１のトピックが、テキスト分類モデルを使用して識別される、請求項６または７に記載の方法。
前記誘導対話システムでの前記会話における第２のユーザ発話に関連付けられた第２の音声データを受信する段階と、
前記第２のユーザ発話が、前記一連のトピックの別のトピックに関連付けられていないことを確認する段階と、
前記第１の音声データ、前記第２のユーザの前記第１の応答、前記第２の音声データ、および前記第１の解の第２の解セグメントに基づいて、前記第２のユーザのための第２の応答を生成する段階と
をさらに備える、請求項６または７に記載の方法。
前記誘導対話システムでの前記会話における第３のユーザ発話に関連付けられた第３の音声データを受信する段階と、
前記第３のユーザ発話に関連付けられた第２のトピックを識別する段階と、
前記第２のトピックに関連付けられた第２の解を識別する段階と、
前記第１の音声データ、前記第２のユーザの前記第１の応答、前記第２の音声データ、前記第２のユーザの前記第２の応答、前記第３の音声データ、および前記第２の解の解セグメントに基づいて、前記第２のユーザのための第３の応答を生成する段階と
をさらに備える、請求項９に記載の方法。
コンピュータ実装方法であって、
プロセッサによって、誘導対話システムでの会話における第１のユーザ発話に関連付けられた第１の音声データを受信する段階と、
前記第１の音声データから、前記第１のユーザ発話に関連付けられた一連のトピックの第１のトピックを識別する段階と、
前記第１のトピックに関連付けられた第１の解を識別する段階であって、前記第１の解が、前記トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有し、前記第１の解が、前記第１のトピックに関連するエンティティからのドキュメントコーパスを使用して生成される、識別する段階と、
前記第１の解の第１の解セグメントおよび前記第１の音声データに基づいて、第２のユーザのための第１の応答を生成する段階と
を備える、方法。
前記第１の応答が、シーケンスツーシーケンス機械学習モデルを使用して生成される、請求項１１に記載の方法。
前記第１のトピックが、テキスト分類モデルを使用して識別される、請求項１１または１２に記載の方法。
前記誘導対話システムでの前記会話における第２のユーザ発話に関連付けられた第２の音声データを受信する段階と、
前記第２のユーザ発話が、前記一連のトピックの別のトピックに関連付けられていないことを確認する段階と、
前記第１の音声データ、前記第２のユーザの前記第１の応答、前記第２の音声データ、および前記第１の解の第２の解セグメントに基づいて、前記第２のユーザのための第２の応答を生成する段階と
をさらに備える、請求項１１または１２に記載の方法。
前記誘導対話システムでの前記会話における第３のユーザ発話に関連付けられた第３の音声データを受信する段階と、
前記第３のユーザ発話に関連付けられた第２のトピックを識別する段階と、
前記第２のトピックに関連付けられた第２の解を識別する段階と、
前記第１の音声データ、前記第２のユーザの前記第１の応答、前記第２の音声データ、前記第２のユーザの前記第２の応答、前記第３の音声データ、および前記第２の解の解セグメントに基づいて、前記第２のユーザのための第３の応答を生成する段階と
をさらに備える、請求項１４に記載の方法。
システムであって、
メモリと、
前記メモリと通信しているプロセッサであって、前記プロセッサが、
誘導対話システムでの会話における第１のユーザ発話に関連付けられた第１の音声データを受信する手順と、
前記第１の音声データから、前記第１のユーザ発話に関連付けられた一連のトピックの第１のトピックを識別する手順と、
前記第１のトピックに関連付けられた第１の解を識別する手順であって、前記第１の解が、前記トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有する、識別する手順と、
前記第１の解の第１の解セグメントおよび前記第１の音声データに基づいて、第２のユーザのための第１の応答を生成する手順とを有する、動作を実行するように構成されている、プロセッサと
を備える、システム。
前記第１の応答が、シーケンスツーシーケンス機械学習モデルを使用して生成される、請求項１６に記載のシステム。
前記第１のトピックが、テキスト分類モデルを使用して識別される、請求項１６または１７に記載のシステム。
前記プロセッサが、
前記誘導対話システムでの前記会話における第２のユーザ発話に関連付けられた第２の音声データを受信する手順と、
前記第２のユーザ発話が、前記一連のトピックの別のトピックに関連付けられていないことを確認する手順と、
前記第１の音声データ、前記第２のユーザの前記第１の応答、前記第２の音声データ、および前記第１の解の第２の解セグメントに基づいて、前記第２のユーザのための第２の応答を生成する手順とを有する、動作を実行するようにさらに構成されている、請求項１６または１７に記載のシステム。
前記プロセッサが、
前記誘導対話システムでの前記会話における第３のユーザ発話に関連付けられた第３の音声データを受信する手順と、
前記第３のユーザ発話に関連付けられた第２のトピックを識別する手順と、
前記第２のトピックに関連付けられた第２の解を識別する手順と、
前記第１の音声データ、前記第２のユーザの前記第１の応答、前記第２の音声データ、前記第２のユーザの前記第２の応答、前記第３の音声データ、および前記第２の解の解セグメントに基づいて、前記第２のユーザのための第３の応答を生成する手順とを有する、動作を実行するようにさらに構成されている、請求項１９に記載のシステム。
プロセッサに、
誘導対話システムでの会話における第１のユーザ発話に関連付けられた第１の音声データを受信する手順と、
前記第１の音声データから、前記第１のユーザ発話に関連付けられた一連のトピックの第１のトピックを識別する手順と、
前記第１のトピックに関連付けられた第１の解を識別する手順であって、前記第１の解が、前記トピックに関連するタスクを実行するための１つまたは複数の解セグメントを有する、識別する手順と、
前記第１の解の第１の解セグメントおよび前記第１の音声データに基づいて、第２のユーザのための第１の応答を生成する手順と
を実行させるためのコンピュータプログラム。
前記第１の応答が、シーケンスツーシーケンス機械学習モデルを使用して生成される、請求項２１に記載のコンピュータプログラム。
前記第１のトピックが、テキスト分類モデルを使用して識別される、請求項２１または２２に記載のコンピュータプログラム。
前記プロセッサに、
前記誘導対話システムでの前記会話における第２のユーザ発話に関連付けられた第２の音声データを受信する手順と、
前記第２のユーザ発話が、前記一連のトピックの別のトピックに関連付けられていないことを確認する手順と、
前記第１の音声データ、前記第２のユーザの前記第１の応答、前記第２の音声データ、および前記第１の解の第２の解セグメントに基づいて、前記第２のユーザのための第２の応答を生成する手順と実行させる、請求項２１または２２に記載のコンピュータプログラム。
前記プロセッサに、
前記誘導対話システムでの前記会話における第３のユーザ発話に関連付けられた第３の音声データを受信する手順と、
前記第３のユーザ発話に関連付けられた第２のトピックを識別する手順と、
前記第２のトピックに関連付けられた第２の解を識別する手順と、
前記第１の音声データ、前記第２のユーザの前記第１の応答、前記第２の音声データ、前記第２のユーザの前記第２の応答、前記第３の音声データ、および前記第２の解の解セグメントに基づいて、前記第２のユーザのための第３の応答を生成する手順とをさらに実行させる、請求項２４に記載のコンピュータプログラム。