JP2022531994A

JP2022531994A - 人工知能ベースの会話システムの生成および動作

Info

Publication number: JP2022531994A
Application number: JP2022512710A
Authority: JP
Inventors: コリーン、デイビッド; マーヴィット、マクレーン
Original assignee: サピエントエックスインコーポレイテッド
Priority date: 2019-05-02
Filing date: 2020-06-30
Publication date: 2022-07-12
Also published as: US20210407504A1; WO2020223742A2; WO2020223742A3

Abstract

コンピュータプロセスは、ユーザが会話プログラムを用いて、ユーザのデバイスの１または複数においてタスクを遂行するのに後で呼び出すことができる情報およびプロセスで、自動アシスタントを動的にプログラムすることを提供する。会話プログラムは、テキストまたはグラフィックソースから、自動アシスタントを生成してもよい。会話プログラムは、複数の自動アシスタントにアクセスし、ユーザの要求をアドレスするために使用するのにどれが最も適切であるかを決定する。ユーザは、視覚的文脈で表示することができる、人間の感情、顔の表情、および身振りに匹敵する、会話プログラムのためのアバターを生成することができる。結果として得られる自動アシスタントは、ソフトウェアシステム試験に使用することができる。

Description

本開示は、全体として、人工知能会話システムを作成する方法、システム、およびプログラムに関する。
関連出願の相互参照

本出願は、２０１９年５月２日付けの米国仮特許出願第６２／８４２，４２３号の利益を主張し、全ての目的のため参照により本明細書に組み込む。

人工知能（「ＡＩ」）会話プログラムは、情報検索、技術支援（例えば、カスタマーサポート）、デバイスの制御、媒体制御、ゲームプレイ、ストーリーテリング、および人間との一般的な会話を提供するのに使用されることがある。いくつかのＡＩ会話プログラムは、「チャットボット」、「自動アシスタント」、「デジタルアシスタント」、「対話型パーソナルアシスタント」、「インテリジェントパーソナルアシスタント」、「パーソナル音声アシスタント」、「会話エージェント」などと呼ばれることがある。かかるシステムは、オーディオ、テキスト、機械的またはセンサ入力を受け入れ、同じように応答し、ならびに／あるいは記録をデータベースに格納するなど、対話の記録または説明をメモリに格納してもよい。

異なる会話システムが、異なる目的のため、または異なる入力言語に対して作成されてもよい。ユーザが、ユーザの目的または言語に適合しない会話システムと対話している場合、結果は不満足なものであることがある。

会話プログラムが利用する、人間のような音声またはテキスト応答を手動でオーサリングするプロセスは、時間がかかり高価である。例えば、ユーザ要求を聞き、適切に応答する自動対話システムは、プログラマのチームに、可能性がある全てのユーザ要求および適切な応答を入力させることによって、作成されることがある。これは、ユーザが日にちおよび都市を提示し、その日のその都市における予想天気を自動対話システムに応答させることができる、自動対話システムなど、レパートリーが限定されたシステムの場合に実現可能なことがある。しかし、可能性がある対話がはるかに広範囲である場合、かかる自動対話システムをオーサリングするのは非常に時間がかかる場合がある。

自動対話システムのオーサリングは時間がかかるため、オフラインで行われる場合が多く、予期されないユーザ入力に対する新しい応答は生成することができない。準備された応答の大きなコーパスが作成されてもよいが、コーパスは必然的に、予測されるユーザ対話に対する応答のみを提供することになり、その有用性が限定される。限定された予測可能な入力を取るシステムは、一般に「チャットボット」と呼ばれる。システムの可能な応答が限定され、誤った応答を送達することがあるので、システムは人間のユーザを苛立たせる場合がある。いくつかのシステムは、可能性がある回答に関してウェブページおよび他のソースからデータを抽出しようと試みることがあるが、これらのシステムは役に立たない結果を提供する場合がある。統計的な機械学習アプローチを使用する現在のシステムは、通常の会話パターンでユーザに応答できないことがある。自動対話システムを構築する際のダイアログおよび応答作成に対する、自動化されたリアルタイムアプローチが必要とされている。

加えて、ユーザは複数のデバイスと毎日対話し、各デバイスは、対話の嗜好およびモードの自身のセットを有する。これには、ユーザが各デバイスを別個に構成または訓練する必要がある。これらのデバイスそれぞれをどのように使用するかを学習するのにかかる時間は、ユーザにとって苛立たしいものであり得る。

コンピュータ実装方法では、自動対話システムのオーサリングシステムは、自動対話システムの動作を駆動するのに使用される構造化データを生成し、その構造化データは、自然言語入力からの構造化システムによって形成される。自動対話システムとの対話は、自然言語入力、構造化入力などの形態であることができる。

自動対話システムは、発話認識モジュールを使用して入力を取得することがある。自動対話システムは、提供される出力が受信された入力に対する適切および／または有用な応答であろうということを、自動対話システムがどの程度確信しているかを決定する計算を表す、出力に対する信頼値とともに、入力を取り込み、出力を与えることがある。

いくつかの実施形態では、自動対話システムは、企業体などの特定のエンティティによる使用のため、エンティティの顧客またはユーザが自動対話システムに入力を与え、応答出力が返されるであろうとの予想によって、オーサリングされる。具体的な例では、ユーザは顧客であり、テキスト、音声などで自動対話システムに質問し、自動対話システムは、自動対話システムが質問に対する応答とみなすテキスト、音声などを出力する。

自動対話システムは会話システムであってもよい。

自動対話システムは、信頼値をそれぞれ有する複数の可能な応答を計算し、最も高い信頼値に対応する出力を出力してもよい。

自動対話システムは、ユーザ音声入力など、ユーザからの入力を複数の自動発話認識装置で処理して、かかる処理に対して対応する信頼値を決定し、そのユーザとの将来の対話のため、対応する最も高い信頼値に基づいて、複数の自動発話認識装置のうち１つの自動発話認識装置を使用してもよい。

本開示による様々な実施形態について図面を参照して記載する。

例示のコンピュータシステムを示す図である。

インターネット接続を有する、例示の車両、ロボット、または医療用デバイスのシステムを示す図である。

インターネット接続を有さない、例示の電気機器、医療用デバイスまたは、飛行機を示す図である。

インターネット接続を有さない例示の自動販売機システムを示す図である。

インターネット接続を有する例示の自動販売機システムを示す図である。

インターネット接続および補助ロボットを有する例示の自動販売機システムを示す図である。

インターネット接続を有する例示の自動二輪車およびヘルメットのシステムを示す図である。

インターネット接続を有する例示の代替的な自動二輪車およびヘルメットのシステムを示す図である。

インターネット接続を有する例示の携帯電話またはスマートウォッチのシステムを示す図である。

テレフォニー用の例示の対話型音声応答または電話会議のシステムを示す図である。

例示のスマートスピーカーまたはビデオ会議のシステムを示す図である。

例示の会話システムを示す図である。

例示のソーシャルメディアシステムを示す図である。

自動対話システムによって使用可能なデータを構造化システムが生成する、システムを示す図である。

以下の詳細な記載は添付図面とともに、本発明の性質および利点のより良い理解を提供する。

本明細書に記載するシステムを使用して、会話型システムであってもよい改善された自動対話システムは、オンデマンドの情報および娯楽を提供し、電話システムでメニューの選択肢を与え、デバイスの基本制御を提供し、身体障害があるユーザに代替のコンピュータインタフェースを提供し、ならびに／あるいはユーザが話している言語を自動的に検出し、適宜反応することができる。他の入力は、ユーザの感情状態を示すデータを含んでもよく、かかるデータは、かかる状態を決定する心情分析または他の技術を使用して生成されてもよく、それを次に、自動対話システムの出力を調節するのに使用することができる。

図１は、本発明の一実施形態による、ユーザを別のユーザとの会話チャンネルに加入させるために実装されるプロセスのブロック図を示している。プロセスは会話管理サーバで実施される。プロセス１１において、サーバは、ユーザの制御下で、ユーザデバイスが、管理された会話セッションをサポートするように構成されたプロセスを実行していることを示す、探索要求を、第１のネットワークを通じてデバイスから受信する。本明細書に記載されるように管理された会話セッションをサポートするように構成されたプロセスをユーザデバイスが実行していることを示す、ユーザデバイスから発する信号などの探索信号は、ユーザが対話しようとするリモートユーザに関する基準を特徴付けるデータを含むことができる。いくつかの例では、そのリモートユーザは、本明細書に記載するようにオーサリングされた自動対話システムである。

会話セッションには、コンピュータインタフェースと対話する参加者が関与し、入力および出力の１または複数のサイクルで、参加者が何らかの入力を提供し、何らかの出力が返される。対話は、ネットワーク接続を通じてのものであってもよく、入力および／または出力は、テキスト、映像、オーディオ、および／またはデータの形態であってもよい。いくつかの会話セッションでは、２つの参加者が存在し、またいくつかの会話セッションでは、少なくとも１つの参加者が人間であり、少なくとも１つの参加者がコンピュータプロセスである。会話セッションは、会話セッションと関連付けられた論理的または物理的会話チャンネルを有してもよく、参加者は会話サーバに登録されてもよい。いくつかの実施形態では、会話サーバは、誰が会話セッションの参加者であるかに関するデータを維持する。一般的な例では、参加者に対してインタフェースを提供するハードウェア／ソフトウェアは、会話のノードに対応する「シート」とみなされてもよい。

いくつかの例では、会話チャンネルは、特定の企業または組織（会話チャンネルの受益者）によってそのために操作され、会話チャンネルが利用可能であって、会話チャンネルと関連付けられた会話チャンネルの受益者に対してオープンであるか否かを表す「利用可能性ステータス」など、その状態と関連付けられたデータを有する。他の状態データは、会話チャンネルの利用可能性の格付け、会話チャンネルの受益者の応答性の格付け、および会話チャンネルの受益者と関連付けられたルールセットを含んでもよい。特定の実施形態では、利用可能性ステータスは、「離席中」、「不在」、「取込み中」、「オンライン」、および「メッセージは受信できるが直ぐに会話には応答不能」を含む、ステータスのセットから選択されてもよい。会話の関係者は、会話チャンネルをそれらの関係者に対してオープンにするために、必ずしも同時にオンラインである必要はない。

ユーザによっては、会話セッション管理システムにアカウントを有する登録ユーザであってもよく、またユーザによっては、関連付けられた会話チャンネルを有する、要求される企業を有する企業ユーザの被雇用者など、特定の会話チャンネルの受益者と関連付けられてもよい。

会話チャンネルは、コンピュータシステムによって、ユーザと、会話に関与するユーザによって選択された企業のシートとの間の通信路とみなされてもよい。要求される企業は、少なくとも１つ会話チャンネルを有してもよく、また要求される企業は、複数の会話チャンネルを定義してもよく、各会話チャンネルを企業との通信のカテゴリに割り当てることができる。各チャンネルは、ユーザに見えるラベルを備えることができるので、ユーザは、要求される企業の所望のチャンネルを選択し、それを通じて会話に関与することができる。

会話セッションのシートは、個人、コンピュータプロセス、またはインストールされたアプリケーションなどのシートオペレータが配属される会話ノードに対応してもよく、シートオペレータは、会話セッションにおける所与の企業の代表であり、またはそれに対するインタフェースである。ユーザが複数のシートを有する企業と会話しようとする場合、会話管理サーバが、そのユーザを加入させて、ユーザとの会話に現在関与していない（または会話に関与するのに十分な容量を現在有する）企業のシートと会話させてもよい（当然ながら、会話中の企業を表す個人がシートを使っているものと仮定する）。

シートは、シートと関連付けられた多数の同時会話セッションが予め指定された閾値に達した場合、ビジー状態を有してもよい。

会話ホストは、会話をホストする個人アカウントが確立されており、少なくとも１つのシートが割り当てられている、個人またはグループであってもよい。

コンピュータプロセスは、ソフトウェアもしくはファームウェア、またはそれらのいずれかの組み合わせの制御下で動作しているか、あるいは上記のいずれかの制御外で動作していてもよい、コンピュータハードウェア（プロセッサ、フィールドプログラマブルゲートアレイ、もしくは他の電子組み合わせ論理、または類似のデバイス）を使用して、記載される機能をコンピュータで実行してもよい。記載される機能の全てまたは一部は、トランジスタもしくは抵抗器など、能動または受動電子構成要素によって実行されてもよい。コンピュータプロセスは、スケジュール可能なエンティティ、またはコンピュータプログラムもしくはその一部の動作を必ずしも示唆しないが、いくつかの実施形態では、コンピュータプロセスは、かかるスケジュール可能なエンティティ、またはコンピュータプログラムもしくはその一部の動作によって実装されてもよい。プロセスは、１つを超えるプロセッサまたは１つを超える（シングルもしくはマルチプロセッサ）コンピュータを使用して実行されてもよい。

ユーザデバイスは、ユーザによって使用され、デスクトップユニット、ラップトップユニット、タブレット、スマートフォンとして、またはネットワークへのアクセスを有する他の任意のコンピュータとして実装される、コンピュータであってもよい。

以下の記載で、様々な実施形態について記載する。説明目的で、実施形態の徹底的な理解を提供するために、具体的な構成および詳細について説明する。しかしながら、実施形態は具体的な詳細なしで実施されてもよいことも、当業者には明白となるであろう。更に、記載する実施形態が曖昧にならないようにするため、良く知られている特徴は省略または単純化されることがある。

例示のシステムの様々な構成要素は、ユーザがコンピュータ化された対話型システムと対話してもよい、コンピュータ化された対話型システムを形成するため、単独でまたは他の要素との組み合わせで使用されてもよく、コンピュータ化された対話型システムは、そのユーザからの入力を取り込み、何らかの処理および／またはデータルックアップを実行し、次にそのシステム出力をオーディオおよび／または映像の形態で、場合によっては他の出力とともに出力し、それによってユーザは、ユーザに適切に応答できる何らかの知能を有するものとして、コンピュータ化された対話型システムを知覚してもよい。これを遂行するために、コンピュータ化された対話型システムは、いくつかの訓練モードならびに動作モードを有してもよい。例えば、コンピュータ化された対話型システムは、最初に、音声フレーズを出力することができるように、また次に動作モードでそれらの音声フレーズを使用して、訓練されてもよい。

本明細書に記載する技術は、ユーザが会話プログラムを用いて、ユーザのデバイスの１または複数においてタスクを遂行するのに後で呼び出すことができる情報およびプロセスで、自動アシスタントを動的にプログラムすることを可能にすることに関する。別の実装では、会話プログラムは、ウィキペディアなどのテキストまたはグラフィックソースから、自動アシスタントを生成するであろう。更に、会話プログラムは、複数の自動アシスタントにアクセスし、ユーザの要求をアドレスするために使用するのにどれが最も適切であったかを決定することができるであろう。別の実装は、ユーザが、会話プログラムのため、多量の視覚的文脈で表示することができる人間の感情、顔の表情、および身振りに匹敵する、アバターを生成するのを可能にするであろう。結果として得られる自動アシスタントはまた、ソフトウェアシステム試験に使用することができる。
１．信頼値に基づいた自動発話認識エンジンの選択

いくつかの自動会話システムでは、複数のＡＩ会話システムが利用可能であってもよい。ユーザを支援するのに最適なＡＩ会話システムを選ぶことで、改善されたユーザ体験を作成することができる。

一実施形態では、会話システムは、例えば、異なる言語、同じ言語内の異なるアクセント、および同じ言語の方言に関して、複数の自動発話認識エンジン（「ＡＳＲ」）へのアクセスを有してもよい。例えば、システムは、ポルトガル語、スペイン語、アメリカ英語、スコットランド英語、およびスペイン語圏の国出身の非ネイティブ話者が話す英語それぞれに対して、異なる自動発話認識システムを有してもよい。会話システムはまた、子ども用のＡＳＲ、発語障害を持つ人向けのＡＳＲなどを有してもよい。

各ＡＳＲエンジンは、音声入力を受信し、それを出力テキストに翻訳する。ＡＳＲはまた、出力テキストに、例えば０～１の範囲であってもよいが他の範囲が想到される、信頼値をラベリングする。音声入力が会話システムによって受信されると、ＡＳＲのサブセットまたは全てが、それをテキストに翻訳するのに使用されて、各ＡＳＲに対するテキスト出力および信頼値がもたらされてもよい。最上位のＡＳＲからの出力が出力として選択されてもよい。ユーザが更に音声入力を入力した場合、前に選ばれたＡＳＲにより大きい重みが与えられてもよい。別の実施形態では、各音声入力は個別に扱われてもよい。ＡＳＲはまた、査定されてもよく、ＡＳＲが範囲内の信頼値を有する場合、別のＡＳＲの信頼区間が閾値の値分、その信頼値を超えるまで、前に選ばれたＡＳＲが使用されてもよい。

一実施形態では、ＡＳＲは、リモートデータセンタ（「クラウド」）に格納されてもよく、アクティブなＡＳＲのみがローカル使用のためにダウンロードされてもよいが、他の利用可能なＡＳＲの信頼区間を監視するのに、音声入力がリモートデータセンタに送信されてもよく、異なるＡＳＲがアクティブなＡＳＲの信頼区間を（恐らくは閾値分）超えた場合、異なるＡＳＲがダウンロードされ、アクティブなＡＳＲに取って代わるかまたはそれとともに稼働してもよい。ローカルシステムは、１つのＡＳＲが、複数の音声入力にわたって、一連の高信頼区間を達成するかまたは統計的に顕著な高信頼区間を有するまでの期間、２つ以上のＡＳＲを使用してもよい。

別の実施形態では、会話システムが高帯域幅接続を利用可能である場合、複数のＡＳＲがクラウド内で利用可能であってもよい。クラウドシステムは、どのＡＳＲが最も高い信頼値を有するかを追跡し、高帯域幅接続が利用可能な場合、そのＡＳＲをローカル会話システムにダウンロードしてもよい。高帯域幅接続が利用可能でない場合、ローカルＡＳＲが使用され、音声入力がキャッシュされてもよい。高帯域幅接続が再度利用可能になると、コールキャッシュされた対話がクラウドに送信されて評価されてもよく、異なるＡＳＲが前のＡＳＲよりも高い信頼値を有する場合、新しいＡＳＲシステムがローカル会話システムにダウンロードされてもよい。
２．参照コーパスおよびＳＭＥから会話システムを作成するためのＡＩインタビュー

一実施形態は、変換に使用可能なコーパスを生成するＡＩ駆動のインタビューシステムである。この実施形態では、ユーザは、テキストまたは発話のどちらかを介して、オーサリングシステムと対話する。オーサリングシステムは、例えば、新しい会話システムをどのように名付けるか、アバターをどのような見た目にするか、音声はどのような音にするべきか、対話の口語スタイルはどのようなものにするか、および新しい会話システムがどのような専門分野を有するかを含む、一連の質問を尋ねてもよい。可能なアバターは、ユーザがそこから選択してもよい可能なアバターおよびアバターの特徴のアバターデータベースに提供されてもよい。

いくつかの実施形態では、自然言語オーサリング入力は、一部には、動作を自動対話システムに通知してもよい概念、ルール、パターン、および／またはアルゴリズムに対応する、構造化データを生成することによって、自動対話システムをオーサリングするのに使用される。オーサリング入力は、作者に、入力を発声によって生成させ、文、設計ルールを出力させる、特定の命令であってもよく、集計システムを使用して入力を提案してもよい。

システムは、ユーザが異なる音声を選択し聞くことを可能にする、異なる音声特性によってインデックスを付けられた音声のデータベースを有してもよい。オーサリングシステムは、「くだけた」，「学術的」、および「簡潔な」など、利用可能な異なる会話スタイルを有してもよい。オーサリングシステムは、新しい会話システムがどの知識を提供するかをユーザがそこから選択する、既知の知識ベースのメニューを有してもよい。オーサリングシステムは、ユーザの応答をデータベースに格納してもよい。

ユーザが新しい会話システムの性質を定義すると、標準的なグラフィックベースのユーザインタフェースと対話することによって、または音声によって、オーサリングシステムは、例えば情報を入力するようにユーザに求めることによって、更なる情報を知識ベースに追加するようにユーザに促してもよい。この情報は、知識ベースシステムに提供されてもよく、該システムが次に、オンラインソース、例えばウィキペディアから、更なる情報を抽出してもよい。知識ベースシステムは、他の会話システムのための知識ベースシステムと情報を交換してもよい。いくつかの実施形態では、知識ベースシステムは、書籍または技術文献に対するアクセスを有してもよく、知識ベースシステムはそれを使用して、入力情報を拡張し確認してもよい。競合するデータが見つかった場合、ユーザに競合が提示され、どの情報が優先するかを尋ねてもよい。知識ベースシステムはまた、映像ソース、ライダーソースなどから、新しい会話システムの話題に関連するテキストを抽出してもよい。
３．音声オーサリングの構成要素

一実施形態では、オーサリングシステムによる会話システムの作成の一部として、オーサリングシステムは、内容領域専門家（「ＳＭＥ」）にインタビューし、応答を記録するように構成された、自身のＡＩ会話インタビューシステムを有してもよい。インタビューシステムは、ＳＭＥ応答に基づいて、尋ねるべき関連質問を発見する。

インタビューシステムは、対話型音声システムで有用であろう有声フレーズを含む可能性がより高い、ＳＭＥからの応答を促す質問を生成するように構成される。例えば、インタビューシステムは、取得する必要がある有声フレーズの「買い物リスト」を有してもよく、ＳＭＥは、質問に対する回答として話される、それらの有声フレーズに対応する尋ねるべき質問を決定する。

フレーズは、テキスト音声変換データベースに格納し、ならびに知識ベースに追加することができる。オーサリングシステムがＳＭＥにインタビューしている際、出力が知識ベースに格納されてもよく、同時に他の知識ベースと内容を比較して、例えば類似のデータがエントリされているかを検出し、その類似データを使用して、ＳＭＥインタビュー中に焦点を絞った質問を生成してもよい。これらの焦点を絞った質問は、共通のエンドユーザの質問など、以前に作成された会話ＡＩシステムとの過去のユーザ対話に基づいてもよい。

一例のシステムでは、知識ベースは、自動車ユーザに対する命令を生成するのに、発話システムによって使用されてもよい。発話システムは、いくつかの有声フレーズを既に有していることがあるが、知識システムの他の部分に次に必要ないくつかの有声フレーズは有さない。例えば、ユーザが車のシート調節とどのように対話するかを説明するデータベースが既に存在する場合、そのデータは、インタビュー質問において焦点を絞った質問を生成するのに使用されてもよい。
４．マルチモード会話の構成要素

マルチモード会話システムは、デバイスに依存しないユーザ音声インタフェースの個人化をコンパイルし、格納し、調査するのに使用されてもよい。

この実施形態では、ユーザの嗜好が、複数のデバイスからアクセス可能なデータストア、例えばブロックチェーン台帳に格納されてもよい。別の実施形態では、ユーザの嗜好は暗号化形式で、例えば対称鍵暗号または公開／秘密鍵暗号で格納されてもよい。セキュリティを向上するため、２５６ビットの暗号鍵が使用されてもよい。

一実施形態では、ユーザの誕生日、余暇活動、または好きな色などの嗜好情報が格納される。嗜好はデバイスまたはユーザ固有であってもよい。ユーザは、その日のうちに要求するための、ＡＩ会話システムの要求、例えばリマインダを行ってもよい。ＡＩ会話システムは、要求を受信し、それに時間タグをタグ付けして、情報を中央データベースに格納する。指定の時間に、ユーザが、ユーザが要求を行った元のＡＩ会話システムの近くにいないということが起こり得る。システムは、これを認識し、応答のため、要求をユーザの近くのＡＩ会話システムにルーティングする。

別の実施形態では、ユーザはＡＩ会話システムに、例えば自身の好きな色が青であると伝える。色の嗜好は中央データベースに格納される。後で、ユーザが異なるＡＩ会話システムと対話しているとき、ユーザは、ユーザの好きな色に関連する要求（例えば、「会話システム、私のＵＩに合った良い色のテーマを選んで」）を行ってもよい。この第２の会話システムは、中央データベースをポーリングして情報を見つけ、ユーザの好きな色である青に基づいてテーマを選んだというコメントを用いて、システムのためのＵＩを選んでもよい。
５．ユーザの意図の決定、およびユーザの意図に基づいたＡＩバリアントの選択

会話システムは、ユーザの意図を決定し、ユーザの意図に基づいてＡＩバリアントを選択する、プリプロセッサを含んでもよい。異なるＡＩ会話システムが、他のシステムよりも、特定のタイプのユーザ対話に良く適合していることがある。プリプロセッサは、ユーザの意図を決定し、次にユーザの意図を分類してもよい。分類から、プリプロセッサは複数のＡＩ会話システムの中から選択してもよい。ルールベースの前処理システムは、会話の一般的説明を生成してもよい。例えば、説明は、ユーザが技術的質問を尋ねていることを示し、技術文献から回答を抽出するように設計されたシステムを呼び出してもよい。技術的質問に回答するように設計されたシステムの一例は、技術文献に基づいて技術サポートの質問に回答する、スタンフォード大学で開発されたオープンソースの機械学習システムである。多くの異なるタイプのＡＩツールが存在するので、所与のユーザタスクに対して最良のＡＩツールを選択することで、向上したユーザ体験を提供してもよい。ユーザの意図（例えば、技術的質問に対する回答を見つける）の決定は、求められた情報をユーザに提供することに関して、選ばれたＡＩ会話システムの成功を決定することができる。

一実施形態では、プリプロセッサシステムは、いくつかの特化型ＡＩ会話システムから選択して、複数のＡＩ会話システムを備えるメタＡＩ会話システムを作成するであろう。プリプロセッサは以下の段階を行ってもよい。ユーザが、メタＡＩ会話システムに質問する。プリプロセッサが、ユーザの質問の意図を分析し、それをタイプによって分類する。プリプロセッサシステムは、意図タイプを、所与の意図タイプに対する応答精度によってランク付けされた、オンボードまたはオンラインＡＩ会話システムのリストと比較する。

自動対話システムは更には、入力を処理し、複数の「考え方」のうち１または複数と一致する出力を提供してもよく、それにより、出力が特定の考え方と少なくともある程度一致する。

精度は、広範囲の値を取り、一致の信頼度に対応する値を有することができる、可変値であってもよい。この値は、会話システムがユーザの質問に最初に十分一致しているかを決定する、一致の質の推定値として使用することができる。このリストから、プリプロセッサは、質問に回答するのに最良の会話システムを選択する。別の実施形態では、プリプロセッサは複数の会話システムを選択してもよい。質問は、選ばれた特化型会話システムに送信されて処理される。特化型会話システムが回答を生成すると、回答はメタ会話システムのダイアログジェネレータによって話される。複数の会話システムが使用される場合、応答がユーザの質問に一致しているとシステムがどのぐらい確信しているかで、応答を（例えば、整数または浮動小数点のスコアを使用して）採点することができる。このスコアに基づいて、アクティブな会話システムを、前に選ばれた会話システムからより高い信頼スコアを有する会話システムへと変更してもよい。
６．映像に基づいた拡張現実（「ＡＲ」）または仮想現実（「ＶＲ」）のための動的キャラクタの生成

ＡＲおよびＶＲは両方とも３Ｄ技術であるが、ＡＲでは、背景はライブ映像フィードであり、ＶＲでは、背景は、単一のパノラマ画像または予め記録されたビデオ画像であることができる。どちらの場合も、コンピュータ生成されたキャラクタが映像内に存在する。それらのキャラクタは、ストーリーもしくはゲーム内のガイド、アシスタント、またはキャラクタとして行動してもよい、ＡＩ駆動の会話キャラクタであることができる。他の表示デバイスは、コンピュータ画面、投影映像、網膜ディスプレイ、および混合現実（「ＸＲ」）を含んでもよい。

キャラクタ生成システムは、実世界キャラクタ（ライブキャプチャまたは予め記録されたもののどちらか）をＡＲ／ＶＲフィードに追加してもよい。キャラクタ生成システムは、３Ｄレンダリングされた顔を、映像内の実世界キャラクタの上に重畳し、重畳された顔のアニメーションをＡＩシステムで駆動してもよい。

キャラクタ生成システムは、後の映像合成で使用することができるキャラクタを生成するため、マシンビジョンを使用して以下の段階を実行してもよい。最初に、キャラクタ生成システムは、映像シーン内の既存の顔を探してもよい。次に、キャラクタ生成システムは、顔色を分析して色パレット調節層を生成してもよい。次に、顔のシェーディングおよびシャドーイングを分析して、シェーディング調節層を生成してもよい。次に、映像シーン内の各顔の３Ｄモデルを表す既存の３Ｄメッシュを修正して、映像の顔（「標的の顔」）における重要な顔の特徴と位置合わせしてもよい。

これらの段階が実行された後、映像合成システムは次に、映像の顔を、それらのセントロイド、ピッチ、ロール、およびヨーに関して校正してもよい。次に、それらの映像の顔に対するオクルージョンを計算してもよい。次に、エッジぼかしに役立つアルファチャンネルを含む、オクルージョンを説明するアニメーション化した「マスク層」を生成してもよい。映像合成システムは次に、操作されたジェネリック３Ｄ顔モデルを構築してもよく、それを次に、モーフまたは他の標的化アプローチを使用して、標的顔モデルに適合させてもよい。３Ｄ顔モデルを次に、ＡＩ会話システムからの出力によって生成されるアニメーションキューに基づいて、リアルタイムでアニメーション化してもよい。

映像合成システムは、映像の顔の、それらのセントロイド、ピッチ、ロール、およびヨーに関する校正から、ジェネリック顔モデルに対する位置データを受信してもよい。映像合成システムは、顔色の分析から、色情報に基づいたテクスチャマップを受信し、テクスチャマップをジェネリック顔モデルに適用してもよい。映像合成システムはまた、シェーディング情報およびシャドーイング情報の分析からシェーディング情報を受信し、シェーディング情報をテクスチャマップに適用してもよい。映像合成システムはまた、オクルージョンがあればそれを適用してもよい。映像合成システムは、自然言語理解（「ＮＬＵ」）エンジンを使用して顔をアニメーション化して、発話および顔の感情を表示してもよい。映像合成システムは次に、ジェネリック顔モデルをレンダリングし、アルファブレンディングを使用してそれを背景映像の上に合成して、映像のピクセルとブレンドしてもよい。映像合成システムは、準備された（つまり「予め用意された」）応答とは対照的に、レンダリングされたキャラクタが、ＡＩ会話システムの出力と一致する、それ自体の音声でダイアログを話しているように、付随する顔のアニメーションとともに見せてもよい。映像合成システムは、ＡＩによって駆動される完全に動的なキャラクタを提供する。
７．データソースから会話出力を生成するオーサリングの構成要素

オーサリングシステムは、車のマニュアルなどの技術文書を、機械学習を使用してデータベースに変換する方法を含んでもよい。ＡＩ会話システムは、データベースから情報を検索し、それを、ユーザによって尋ねられる音声質問に応答して音声オーディオとして出力することができてもよい。会話システムは、ユーザ質問を、データベースに格納されたものからの、既知の人間の応答アプローチのセットと比較することによって始まる、方法を使用するであろう。会話システムは次に、ユーザの名前を追加する、または人間の会話をシミュレートするようにフォーマット化するなど、個人化を追加するであろう。システムは次に、数字または他の特定のデータを挿入して、既知の人間の応答における変数を記入するであろう。特定のデータは、機械学習によって作成されたデータベースによって供給されてもよい。会話システムは次に、応答が文法的に正しいことを検証してもよい。

機械学習プラットフォームは、回答データの位置を識別することによって、技術的テキストから質問に回答することに焦点が絞られたものであってもよい。会話システムは次に、これを会話としてフォーマット化する。例えば、「Ｖ８はシリンダをいくつ有する？」という質問を尋ねられると、機械学習システムは回答が８であると識別してもよい。会話システムは次に、ユーザの名前を含めて、「Ｖ８はＶ字形に配列された８つのシリンダを有する」という返答を公式化してもよい。システムはまた、より徹底した回答を組み立てるため、相互参照を実行してもよい。

自動車部品組立ての分解組立図などの製図は、分類、セグメント化、およびラベリング技術を使用して分析されてもよい。一例の用途として、車のマニュアルをデータベースに読み込んで、ユーザサポートが提供されてもよい。別の用途は、自動車用の部品カタログであり得る。

オーサリングシステムによって実行される方法は、ＯＣＲ技術を使用して既存のマニュアルをスキャンすることを含んでもよい。マニュアルは、テキスト、グラフィック、およびグラフィックを説明文に相関させるラベルを有してもよい。グラフィックと関連付けられたキャプションテキストまたは他の説明文が、識別され格納されてもよい。オーサリングシステムは、グラフィックをスキャンして、この説明文を見つけ、データベースに格納してもよい。矢印などの識別用マーカーが識別されてもよく、識別マーカーによって示される位置（例えば、矢印の先端）の（ｘ，ｙ）座標が保存されてもよい。オーサリングシステムは次に、保存されたＯＣＲテキストをグラフィックに対応する説明文と比較して、グラフィックの説明文に対する一般的なＯＣＲテキストへの相関があるかを決定してもよい。相関がある場合、その相関はデータベースに保存される。一実施形態では、相関はタグとして格納される。別の実施形態では、相関は、インデックスキーまたは他の相関デバイスを使用して保存されてもよい。オーサリングシステムは次に、作成されたデータベースに基づいて、質問および回答を作成してもよい。別の実施形態では、ユーザが、オーサリングシステムによって作成されたデータベースへのアクセスを有するＡＩ会話システムと対話すると、ＡＩ会話システムは、識別されたユーザ質問に対する回答を作成してもよい。いずれの場合も、ユーザが、データベース自体またはユーザ質問への応答のどちらかに対するアクセスを有するＡＩ会話システムと対話すると、リンク（グラフィックタグもしくはインデックス）を有する言葉または応答が識別された場合、会話システムが返答の音声ダイアログを生成すると、対応するグラフィックが表示されてもよい。グラフィックが大きい場合、識別（タグ付け）された識別用マークの（ｘ，ｙ）座標が拡大されるか、強調されるか、囲まれるか、または別の方法で示されて、ユーザが関連するマーカーを見つけるのを助けてもよい。これはまた、画像分析および領域セグメント化で使用されてもよい。
８．可変の詳細度を有するＡＩ会話の構成要素

心情のキューは、応答の長さを変動させるなど、ＡＩ会話システムの態様を変更するのに使用されてもよい。心情はユーザの応答で変化してもよく、会話システムは、ユーザの心情を周期的に測定し、ユーザの更新された心情にしたがって応答の詳細度を変動させてもよい。会話システムは、言葉ベースの方法から、音声波形分析から、または顔の分析を実行するマシンビジョンから、心情を決定してもよい。

一実施形態では、会話システムは、高、中、および低の詳細度に対する設定を有してもよい。「高」の設定は、システムに「くだけた」応答を作成させてもよく、「中」の設定は、簡潔な直接の応答をさせてもよく、「低」の設定はビープ音またはアイコンの点滅のみで、ユーザの声が聞き取られており、アクションが実行されたことを知らせてもよい。より高度な実装は、動的な可変性またはスライドするスケールを使用して、応答の長さの変動におけるより高い粒度を作成してもよい。

一実施形態では、会話システムは以下の段階を行ってもよい。

１．ユーザの発話を分析して、言葉の使用に基づいてユーザの感情状態を決定する。

２．ユーザの感情状態を採点し、データベースに記録する。

３．ユーザの発話を分析して、分毎に話された言葉、音量、または韻律に基づいてユーザの感情状態を決定する。他の波形または映像分析も採点に使用されてもよい。

４．分毎に話された言葉を、言葉の頻度と相関させた既知の感情状態のデータベースと比較する。

５．ユーザの感情状態を採点し、同じデータベースに記録する。

６．ユーザの発話を分析して、会話システムとの対話によるユーザの満足レベルを示す直接コメントを探す。例えば、会話システムに対して「静かにして」と言うユーザは、会話システムからより低い詳細度を望んでいるサインと取られる場合がある。

７．これを採点し、満足感の変化を記録する。

８．データベースに格納された全てのユーザデータを集約して、複合スコアを達成する。システムはこのスコアを周期的に更新するであろう。

９．スコアがユーザの満足感または特定の心の状態を示す場合、会話システムの応答の詳細度レベルに変化は生じないことがあるが、他の場合は生じることがある。スコアが上下した場合、会話システムはその詳細度を適宜調節するであろう。
９．顔分析の調節を伴うアバターインタフェースの構成要素

この構成要素を使用して、会話システムは、マシンビジョンが導出したユーザの顔の状態の分析に基づいて、アバターの顔の状態を変動させることができる。会話システムは、自然言語理解ソフトウェアを使用して、顔のジェスチャー認識に対するサポートを追加し、自分のアバターにおいて人間のような顔のジェスチャーを生成することによって、アバターの会話能力を向上させてもよい。

人間は、話をする際、話し手の感情状態を伝達する顔のジェスチャーおよび微表情で話し言葉を補足する。例えば、目の瞬きは話し手が話し終わったことを合図することができる。更に、聞き手の顔の表情は、話し手の顔の表情を反映し、それと対話する場合が多い。会話システムは、ユーザの映像をキャプチャし、ユーザの顔の表情を分析し、顔の表情を認識し、それらの顔の表情に対して反応することによって、そのアバターの性能を改善してもよい。

一実施形態では、会話システムは、ビデオカメラおよびマシンビジョンソフトウェアを使用して、ユーザが話す際の顔のパターンをキャプチャし分析してもよい。システムは次に、これらのパターンを既知の感情状態および表情にマッピングしてもよい。これらのパターンの分析は、発声によって表現されたユーザの意図についてのシステムのモデルを高め、それが次いで、人間のようなパターンでアバターの顔をアニメーション化するのに使用されてもよい。

別の実施形態では、会話システムは、当該システムが話し終わったときにアバターの目の瞬きを生成して、会話システムが話し終わったことをユーザに合図してもよい。

別の実施形態では、会話システムは、マシンビジョンを使用して、姿勢、体の位置、および手振りを含むユーザのボディランゲージを分析してもよい。会話システムは次に、これらのパターンを既知の感情状態および表情にマッピングしてもよい。このボディランゲージ情報は、発声によって表現された意図についてのシステムの理解を拡張し、システムによって使用して、アバターの顔および体を人間のようなパターンでアニメーション化することができる。ボディランゲージ情報は、人間のような応答を、アバターの発話応答ならびに顔および体のアニメーションと一致させるのに使用されてもよい。一実施形態では、アバター応答は、それらの「パーソナリティ」を構成する設計因子によって更に調整されるであろう。

会話システムは、アバターの顔の視覚的状態に基づいて、会話システムの出力に句読点を付ける方法を使用してもよい。

一実施形態では、システムは以下の段階を実行してもよい。

１．ビデオカメラおよびマシンビジョンソフトウェアを使用して、ユーザの目の瞬きを検出し分析する。

２．記録された瞬きを、ユーザの発話の文字起こしを含むタイムラインと相互参照する。

３．ソフトウェアを使用して、瞬きを発声概念およびパターンの自然言語理解分析と比較して、句読点が生じる可能性が高い場所を決定することによって、句読点に関連しない目の瞬きを拒絶する。

４．ユーザの目の瞬きをキャプチャし、これらの目の瞬きを分析し分類して、どの瞬きが（ドライアイの瞬きなどとは対照的に）句読点として意図されたかを決定する。

５．句読点としての瞬きの候補を可能性が高い句読点の音声分析と比較して、偽陽性を見つける。

６．文の終わりに相関する目の瞬きを、会話システムが最後のユーザ発話に応答するのをトリガする、会話のハンドオーバ点として分類する。

別の実施形態では、会話システムは、以下の段階で、顔認識と、会話型システムのアバターにおける顔のアニメーションの形態である、ユーザの発話におけるアバターの反応とに焦点を絞ってもよい。

１．ビデオカメラおよびマシンビジョンソフトウェアを使用して、ユーザの顔のジェスチャーを検出し分析する。

２．記録された顔のジェスチャーを、ユーザの発話の文字起こしを含むタイムラインと相互参照する。

３．認識された顔のジェスチャーを、既知の感情状態のデータベースと比較する。

４．この導出された感情状態情報を使用して、信頼、幸福、悲しみなどの変数に基づいて、採点システムに追加投入する。

５．導出されたスコアを、人間の会話で一般的に使用される既知の顔の応答のデータベースと比較する。

これらの顔の応答を使用して、会話システムのアバターの顔を形作るプリセットされたアニメーションをトリガすることができる。

別の実施形態は、顔のアニメーションに手振りを補足するかまたはそれと置き換えてもよい。

別の実施形態は、顔のアニメーションに体の位置付けを補足するかまたはそれと置き換えてもよい。
１０．処理されたユーザ音声ファイルをキャッシュする構成要素

この構成要素を使用して、会話システムは、対話型会話システムの処理されたユーザ音声ファイルを、キャッシュミスに関する低解像度音声ファイルを使用してキャッシュする。高品質の発話を生成するには、低品質の発話を生成するよりもはるかに多くの計算を行うが、場合によっては、例えばリアルタイムシステムでは、高品質の発話を生成するのに十分な時間がない。会話システムは、どの応答であるべきかを決定すると、そのオーディオ応答のバージョンが存在するかを確かめるため、ローカルレポジトリをチェックする。エントリがキャッシュに存在しない場合、システムは、低品質バージョンを生成し、それを再生し、低品質プロセスをキューアップして、ローカルレポジトリに、またはサーバ上に格納される高品質バージョンを生成する。

会話システムは、特定のユーザに同じ応答を繰返し用いて応答してもよいので、より高品質の音声ファイルを生成することで見かけの品質が改善される。しかし、他のユーザは一般の応答の異なるセットを有することがある。会話システムは、集中的な計算要件を有する可能性が高いので、低品質タスクは、システムの応答性に悪影響を及ぼすことなくその計算を行うのに、多くの時間を有するはずである。

一実施形態では、システムは、話される言葉が言葉のＳＨＡハッシュをファイル名に有するＷＡＶファイルとして格納される、レポジトリとしてのファイルシステムを使用してもよい。システムは、応答をハッシュし、次にファイル名としてハッシュを有するファイルが存在するかを確かめるのに目を向けるであろう。

更なる改良は、レポジトリが一杯になったときに、どのエントリを破棄するかを決める最適化された手法であろう。システムが、ファイルが使用されるたびに修正日を変更した場合、ファイルを日にちで仕分け、最も古いものを選ぶことで、「最も長い間使用されていない」エントリを識別することによってそれを破棄できる、単純な手法が提供される。あるいは、選択は使用頻度または使用予測に基づいてもよい。
１１．回帰試験の構成要素

この構成要素を使用して、会話ＡＩエンジンは、試験入力の可変性を扱うことができる。ソフトウェアは、回帰試験と呼ばれるプロセスで試験されてもよい。回帰試験では、既知の入力がデータベースに格納され、不具合を探すのに、試験システムの一部としてのソフトウェアプログラムによって逐次的に使用される。会話システムは、ユーザの書込みまたは音声入力を取り、この入力を処理してユーザの意図を決定し、応答を送達する。会話システムを有効に試験するため、ユーザの意図のできるだけ多くの可能な音声またはテキスト表現を試験することが望ましい。

自然言語理解ソフトウェアエンジンを使用して、言葉および概念を変動させることによって試験入力に可変性を追加することで、会話システムをより堅牢に試験することができる可変入力が作成される。一実施形態では、試験システムは、回帰試験からの入力を取り、新しい試験の形態で可変性および深度を追加する置換を生成する。これらの置換は予め規定された概念定義から生成されるであろう。一例として、「アレックスは釣りが好き？」というユーザ発話は、次の～ｍａｌｅ＿ｎａｍｅｓの概念（アレックス、ボブ、チャーリー、デイブ、アーニー、フランク）および～ｓｐｏｒｔｓの概念（釣り、凧揚げ、ハイキング）によって置換することができる。結果として得られる置換は、よって、「ボブはハイキングが好き？」であってもよい。置換は回帰試験データベースに追加されて、深度および可変性が試験に追加されるであろう。いくつかの実施形態では、システムは、音声入力の韻律、アクセント、または方言を変動させることがある。
例示のハードウェア

上述のシステムは、１または複数のコンピューティングシステム上に実装されてもよい。

一実施形態によれば、本明細書に記載する技術は、ファームウェア、メモリ、他の記憶装置、または組み合わせにおけるプログラム命令に従った技術を実行するようにプログラムされた、１または複数の一般化されたコンピューティングシステムによって実装される。デスクトップコンピュータシステム、ポータブルコンピュータシステム、携帯用デバイス、ネットワーキングデバイス、あるいは技術を実装するハードワイヤードおよび／またはプログラム論理を組み込んだ他の任意のデバイスなど、専用コンピューティングデバイスが使用されてもよい。

例えば、図１は、本発明の一実施形態がその上に実装されてもよい、コンピュータシステム１００を示すブロック図である。コンピュータシステム１００は、情報を通信するバス１０２または他の通信メカニズムと、情報を処理する、バス１０２と結合されたプロセッサ１０４とを含む。プロセッサ１０４は、例えば、汎用マイクロプロセッサであってもよい。

コンピュータシステム１００はまた、情報およびプロセッサ１０４によって実行される命令を格納する、バス１０２に結合された、ランダムアクセスメモリ（ＲＡＭ）または他の動的記憶デバイスなどのメインメモリ１０６を含む。メインメモリ１０６はまた、プロセッサ１０４によって実行される命令の実行中、一時変数または他の中間情報を格納するのに使用されてもよい。かかる命令は、プロセッサ１０４にアクセス可能な非一時的記憶媒体に格納されると、コンピュータシステム１００を、命令で指定された動作を実行するようにカスタマイズされた専用機械にする。

コンピュータシステム１００は更に、プロセッサ１０４のための静的情報および命令を格納する、バス１０２に結合された、読出し専用メモリ（ＲＯＭ）１０８または他の静的記憶デバイスを含む。磁気ディスクまたは光学ディスクなどの記憶デバイス１１０が提供され、情報および命令を格納するため、バス１０２に結合される。

コンピュータシステム１００は、バス１０２を介して、コンピュータユーザに対して情報を表示する、コンピュータモニタなどのディスプレイ１１２に結合されてもよい。英数字キーおよび他のキーを含む入力デバイス１１４は、情報およびコマンド選択をプロセッサ１０４に通信するため、バス１０２に結合される。別のタイプのユーザ入力デバイスは、方向情報およびコマンド選択をプロセッサ１０４に通信するため、ならびにディスプレイ１１２上のカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キーなどのカーソル制御１１６である。この入力デバイスは、一般的に、デバイスが面内の位置を指定するのを可能にする、第１の軸（例えば、ｘ）および第２の軸（例えば、ｙ）の２つの軸で、２つの自由度を有する。

コンピュータシステム１００は、コンピュータシステムとの組み合わせでコンピュータシステム１００を専用機械にさせるかまたはそのようにプログラムする、カスタマイズされたハードワイヤード論理、１もしくは複数のＡＳＩＣまたはＦＰＧＡ、ファームウェアおよび／またはプログラム論理を使用して、本明細書に記載する技術を実装してもよい。一実施形態によれば、本明細書の技術は、プロセッサ１０４が、メインメモリ１０６に収容された１または複数の命令の１もしくは複数のシーケンスを実行するのに応答して、コンピュータシステム１００によって実行されてもよい。かかる命令は、記憶デバイス１１０などの別の記憶媒体から、メインメモリ１０６に読み込まれてもよい。メインメモリ１０６に収容された命令のシーケンスを実行することによって、プロセッサ１０４に、本明細書に記載するプロセス段階を実行させる。代替実施形態では、ソフトウェア命令の代わりに、またはそれとの組み合わせで、ハードワイヤード回路が使用されてもよい。

「記憶媒体」という用語は、本明細書で使用するとき、機械を特定の形式で動作させるデータおよび／または命令を格納する、任意の非一時的媒体を指す。かかる記憶媒体は、不揮発性媒体および／または揮発性媒体を備えてもよい。不揮発性媒体は、例えば、記憶デバイス１１０など、光学または磁気ディスクを含む。揮発性媒体は、メインメモリ１０６などの動的メモリを含む。記憶媒体の一般形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープ、または他の任意の磁気データ記憶媒体、ＣＤ－ＲＯＭ、他の任意の光学データ記憶媒体、穴のパターンを有する任意の物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）－ＥＰＲＯＭ、ＮＶＲＡＭ、他の任意のメモリチップもしくはカートリッジを含む。

記憶媒体は、伝送媒体とは異なるが、それと併せて使用されてもよい。伝送媒体は記憶媒体間での情報の転送に関与する。例えば、伝送媒体は、バス１０２を備えるワイヤを含む、同軸ケーブル、銅ワイヤ、および光ファイバーを含む。伝送媒体はまた、高周波および赤外データ通信の間に生成されるものなど、音波または光波の形態を取ることができる。

様々な形態の媒体が、１または複数の命令の１もしくは複数のシーケンスをプロセッサ１０４に搬送して実行するのに関与してもよい。例えば、命令は最初に、リモートコンピュータの磁気ディスクまたはソリッドステートドライブ上で搬送されてもよい。リモートコンピュータは、命令をその動的メモリにロードし、ネットワーク接続を通じて命令を送信することができる。コンピュータシステム１００に対してローカルのモデムまたはネットワークインタフェースが、データを受信することができる。バス１０２は、データをメインメモリ１０６に搬送し、そこからプロセッサ１０４は、命令を検索し実行する。メインメモリ１０６によって受信された命令は、任意に、プロセッサ１０４による実行の前または後のどちらかで、記憶デバイス１１０に格納されてもよい。

コンピュータシステム１００はまた、バス１０２に結合された通信インタフェース１１８を含む。通信インタフェース１１８は、ローカルネットワーク１２２に接続されたネットワークリンク１２０に結合する、二方向データ通信を提供する。例えば、通信インタフェース１１８は、ケーブルモデム、衛星モデム、または対応するタイプの電話線に対するデータ通信接続を提供するモデムであってもよい。無線リンクも実装されてもよい。任意のかかる実装では、通信インタフェース１１８は、様々なタイプの情報を表すデジタルデータストリームを搬送する、電気、電磁、または光学信号を送信および受信する。

ネットワークリンク１２０は、一般的に、１または複数のネットワークを通して、他のデータデバイスにデータ通信を提供する。例えば、ネットワークリンク１２０は、ローカルネットワーク１２２を通して、ホストコンピュータ１２４に対する、またはインターネットサービスプロバイダ（ＩＳＰ）１２６によって操作されるデータ機器に対する、接続を提供してもよい。ＩＳＰ１２６は次いで、現在は一般に「インターネット」１２８と呼ばれる、ワールドワイドパケットデータ通信ネットワークを通して、データ通信サービスを提供する。ローカルネットワーク１２２およびインターネット１２８は両方とも、デジタルデータストリームを搬送する、電気、電磁、または光学信号を使用する。様々なネットワークを通る信号、およびネットワークリンク１２０上の、通信インタフェース１１８を通る信号は、デジタルデータをコンピュータシステム１００に、またそこから搬送するものであり、伝送媒体の例示の形態である。

コンピュータシステム１００は、ネットワーク、ネットワークリンク１２０、および通信インタフェース１１８を通して、メッセージを送信し、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバ１３０は、インターネット１２８、ＩＳＰ１２６、ローカルネットワーク１２２、および通信インタフェース１１８を通して、アプリケーションプログラムに対して要求されたコードを伝送してもよい。受信したコードは、受信されたままプロセッサ１０４によって実行され、および／または記憶デバイス１１０に、もしくは後の実行のために他の不揮発性記憶装置に格納されてもよい。

本明細書に記載するプロセスの動作は、本明細書における別段の指示、または文脈による明確な矛盾がない限り、任意の好適な順序で実行することができる。本明細書に記載するプロセス（あるいはその変形および／または組み合わせ）は、実行可能命令を用いて構成された、１または複数のコンピュータシステムの制御下で実行されてもよく、ハードウェアもしくはその組み合わせによって、１もしくは複数のプロセッサ上で集合的に実行する、コード（例えば、実行可能命令、１もしくは複数のコンピュータプログラム、または１もしくは複数のアプリケーション）として実装されてもよい。コードは、例えば、１または複数のプロセッサによって実行可能な複数の命令を備えるコンピュータプログラムの形態で、コンピュータ可読記憶媒体に格納されてもよい。コンピュータ可読記憶媒体は非一時的であってもよい。

図２～図１４は、実施形態の他の態様について記載している。

図１５は、自動対話システムによって使用可能なデータを構造化システムが生成する、システムを示している。図示されるように、作者は、自然言語の作者入力を、概念の記録、ルールセット、パターンの説明、およびユーザ入力（音声、テキスト、データなどであってもよい）を取り込み、応答出力を提供する、自動会話システムなどの自動対話システムの動作を形成する実行可能コードなどの、データ構造を構築することができる、オーサリングシステムなどの構造化システムに提供することができる。構造化システムは、作者の側で詳細なプログラミングを要することなく構築することができる、自動対話システムの実装を可能にする。特定の例では、自然言語処理を、特定のドメインまたは使用のための質問・回答システムを構築している、オーサリングシステムで使用することができる。オーサリングシステムは、質問を尋ね、作者の応答を得ること、それらの応答を自然言語の作者入力として処理することなどによって、作者と対話し、それらを構造化形式データとして格納し、その構造化形式データから、自動対話型システムを形成するであろう概念、パターン、ルール、実行可能コード、またはルーチンなどを計算してもよい。ユーザは次に、その自動対話型システムを使用して対話することができる。

本開示の実施形態は、以下の節を考慮して記載することができる。
１．実行可能命令で構成された１または複数のコンピュータシステムの制御下で、
１または複数の知識ドメインのセットから選択された知識ドメインを選択するように、オーサリングユーザに促す段階と、
オーサリングユーザの、選択された知識ドメインの選択を受信する段階と、
オーサリングユーザからオーサリングユーザ入力を受信する段階と、
オーサリングユーザ入力を、オーサリングされた自動統合システムによって使用可能な、構造化された形態の複数のテキスト出力へと変換する段階と
を備える、会話システムを生成するコンピュータ実装方法。
２．オーサリングユーザ入力を複数のテキスト出力へと変換する段階であって、第１のテキスト出力が第１の認識システムの第１の出力であり、第２のテキスト出力が第２の認識システムの第２の出力である、段階と、
選択された知識ドメインのドメイン仕様に基づいて、ドメイン固有の計画を作成する段階と、
ランタイム仕様を取得する段階であって、ランタイム仕様が、選択された知識ドメインに対する、ドメイン固有の計画に基づいて構成された計画タスクフローを有する、段階と、
計画タスクフローを実行する段階と、
ユーザ入力から入力値を生成する段階と、
入力値に基づいて会話システムを改善する段階と、
会話システムの説明をコンピュータ可読メモリに格納する段階と
を更に備える、節１の方法。
３．オーサリングユーザからの入力が音声入力またはテキスト入力を有する、節１または２の方法。
４．第１の認識システムおよび第２の認識システムが、自動発話認識システムまたは画像認識システムの１もしくは複数である、節１～３のいずれかの方法。
５．推論モジュールを使用し、会話システムと対話する対話中のユーザからの入力に基づいて、計画タスクフローを動的に訂正する段階を更に備える、節１～４のいずれかの方法。
６．オーサリングユーザから、１または複数の第１の選択肢の第１のセットの中からの、選択された選択肢の第１のオーサリングユーザ選択を取得する段階と、
第１のオーサリングユーザ選択に基づいて、計画タスクフローを調節する段階と、
データマイニングモジュールを使用して、格納されたドメイン知識レポジトリを作成する段階と
を更に備える、節１～５のいずれかの方法。
７．データマイニングモジュールが、構造化テキスト、非構造化テキスト、および／またはグラフィックのうち１もしくは複数を使用し、データマイニングモジュールの計算が会話システムの出力を変更する、節６の方法。
８．クラウドソーシングによる知識ソースランキングシステムを用いて、自動ドメイン知識ソースモジュールを使用してドメイン固有の計画が生成され、方法が更に、
複数の知識ソースそれぞれに対する採点値を導出する段階と、
自動ドメイン知識ソースモジュールを使用して、採点値に基づいて、複数のソースの中から使用する選択されたソースを動的に決定する段階と、
選択されたソースを会話システムの出力値にマッピングする段階と
を備える、節１～７のいずれかの方法。
９．ユーザ入力に基づいて会話プログラムを動的に改善するシステムであって、
１または複数のプロセッサと、
実行されると１または複数のプロセッサに、
ａ）ユーザ入力に基づいて意図を形成させ、
ｂ）意図に基づいて計画を作成させ、計画が、意図と関連付けられた第１の概念オブジェクトを第２の概念オブジェクトへと変換する第１のアクションオブジェクトを有し、第２の概念オブジェクトを意図の目標と関連付けられた第３の概念オブジェクトへと変換する第２のアクションオブジェクトを有し、第１のアクションオブジェクトおよび第２のアクションオブジェクトが複数のアクションオブジェクトから選択され、第１のアクションオブジェクトが第１の第三者デベロッパによって提供され、第２のアクションオブジェクトが第２の第三者デベロッパによって提供され、
ｃ）計画を実行させ、
ｄ）第３の概念オブジェクトと関連付けられた値を出力させる、
複数の命令を格納する、非一時的コンピュータ可読媒体と
を備える、システム。
１０．第１の概念オブジェクトが第３の第三者デベロッパによって提供され、第２の概念オブジェクトが第４の第三者デベロッパによって提供され、第３の概念オブジェクトが第５の第三者デベロッパによって提供される、節９のシステム。
１１．第１の概念オブジェクトが、第１の概念オブジェクトのインスタンス化を提供する第１のデータを含み、第２の概念オブジェクトが、第２の概念オブジェクトのインスタンス化を提供する第２のデータを含み、第３の概念オブジェクトが、第３の概念オブジェクトのインスタンス化を提供する第３のデータを含む、節９または１０のシステム。
１２．第１のアクションオブジェクトの入力パラメータがウェブサービスパラメータにマッピングされ、ウェブサービス結果が第１のアクションオブジェクトの出力値にマッピングされる、節９～１１のいずれかのシステム。

「Ａ、Ｂ、およびＣの少なくとも１つ」、または「Ａ、ＢおよびＣの少なくとも１つ」の形態の語句など、接続的な文言は、別段の具体的な提示、または文脈による別段の明確な矛盾がない限り、その他の点では、項目、用語などが、ＡもしくはＢもしくはＣのいずれか、またはＡおよびＢおよびＣのセットの任意の空でないサブセットのいずれであってもよいことを提示するのに一般に使用されるような文脈で理解される。例えば、３つの部材を有するセットの具体例では、接続的な語句「Ａ、Ｂ、およびＣの少なくとも１つ」ならびに「Ａ、ＢおよびＣの少なくとも１つ」は、以下のセット｛Ａ｝、｛Ｂ｝、｛Ｃ｝、｛Ａ，Ｂ｝、｛Ａ，Ｃ｝、｛Ｂ，Ｃ｝、｛Ａ，Ｂ，Ｃ｝のいずれかを指す。したがって、かかる接続的な文言は、一般に、特定の実施形態が、Ａの少なくとも１つ、Ｂの少なくとも１つ、およびＣの少なくとも１つがそれぞれ存在するのを要することを示唆しないものとする。

あらゆる例の使用、または本明細書で提供される例示的な文言（例えば、「など」）は単に、本発明の実施形態をより良好に明らかにしようとするものであり、別段の特許請求がされない限り、本発明の範囲に対する限定を課すものではない。本明細書における文言は、いずれかの特許請求されない要素を本発明の実践に必須であるとして示すものとして解釈すべきではない。

上述の明細書では、実装ごとに変動してもよい多数の特定の詳細を参照して、本発明の実施形態について記載してきた。したがって、明細書および図面は、限定的ではなく例示的意味で解釈されるべきである。本発明の範囲の唯一かつ排他的な指標、および本発明の範囲であることが本出願人らによって意図されるものは、本出願に由来する特許請求の範囲のセットの、あらゆる後の補正を含むかかる請求項が由来する特定の形態の、逐語的な等価の範囲である。

更なる実施形態を、本開示を読んだ後に当業者が想起することができる。他の実施形態では、上述の発明の組み合わせまたは下位組み合わせを有利に行うことができる。構成要素の例示の配置は例示の目的で示されており、組み合わせ、追加、再配置などが本発明の代替実施形態で想到されることが理解されるべきである。したがって、例示的実施形態に関して本発明について記載してきたが、当業者であれば、多数の修正が可能であることを認識するであろう。

例えば、本明細書に記載するプロセスは、ハードウェア構成要素、ソフトウェア構成要素、および／またはそれらの任意の組み合わせを使用して実装されてもよい。したがって、明細書および図面は、限定的ではなく例示的意味で解釈されるべきである。しかしながら、それらに対して、特許請求の範囲で説明するような本発明のより広範な趣旨および範囲から逸脱することなく、様々な修正および変更が行われてもよいこと、また本発明は、以下の特許請求の範囲の範囲内の全ての修正および等価物を網羅しようとするものであることが、明白となるであろう。

本明細書に列挙する、出版物、特許出願、および特許を含む全ての参照文献は、各参照文献が参照により組み込まれるものと個別かつ具体的に示され、その全体が本明細書で説明された場合と同じ範囲で、参照によりここに組み込まれる。

Claims

コンピュータ実装方法であって、
実行可能命令で構成された１または複数のコンピュータシステムの制御下で、
１または複数の知識ドメインのセットから選択された知識ドメインを選択するように、オーサリングユーザに促す段階と、
前記オーサリングユーザの、前記選択された知識ドメインの選択を受信する段階と、
前記オーサリングユーザからオーサリングユーザ入力を受信する段階と、
前記オーサリングユーザ入力を、オーサリングされた自動統合システムによって使用可能な、構造化された形態の複数のテキスト出力へと変換する段階と
を備える、会話システムを生成する方法。
前記オーサリングユーザ入力を複数のテキスト出力へと変換する段階であって、第１のテキスト出力が第１の認識システムの第１の出力であり、第２のテキスト出力が第２の認識システムの第２の出力である、段階と、
前記選択された知識ドメインのドメイン仕様に基づいて、ドメイン固有の計画を作成する段階と、
ランタイム仕様を取得する段階であって、前記ランタイム仕様が、前記選択された知識ドメインに対する、前記ドメイン固有の計画に基づいて構成された計画タスクフローを有する、段階と、
前記計画タスクフローを実行する段階と、
前記オーサリングユーザ入力から入力値を生成する段階と、
前記入力値に基づいて前記会話システムを改善する段階と、
前記会話システムの説明をコンピュータ可読メモリに格納する段階と
を更に備える、請求項１に記載の方法。
前記オーサリングユーザからの前記オーサリングユーザ入力が音声入力またはテキスト入力を有する、請求項１または２に記載の方法。
第１の認識システムおよび第２の認識システムが、自動発話認識システムまたは画像認識システムの１もしくは複数である、請求項１から３のいずれか一項に記載の方法。
推論モジュールを使用し、前記会話システムと対話する対話中のユーザからの入力に基づいて、計画タスクフローを動的に訂正する段階を更に備える、請求項１から４のいずれか一項に記載の方法。
前記オーサリングユーザから、１または複数の第１の選択肢の第１のセットの中からの、選択された選択肢の第１のオーサリングユーザ選択を取得する段階と、
前記第１のオーサリングユーザ選択に基づいて、計画タスクフローを調節する段階と、
データマイニングモジュールを使用して、格納されたドメイン知識レポジトリを作成する段階と
を更に備える、請求項１から５のいずれか一項に記載の方法。
前記データマイニングモジュールが、構造化テキスト、非構造化テキスト、および／またはグラフィックのうち１もしくは複数を使用し、前記データマイニングモジュールの計算が前記会話システムの出力を変更する、請求項６に記載の方法。
クラウドソーシングによる知識ソースランキングシステムを用いて、自動ドメイン知識ソースモジュールを使用してドメイン固有の計画が生成され、前記方法が更に、
複数の知識ソースそれぞれに対する採点値を導出する段階と、
前記自動ドメイン知識ソースモジュールを使用して、前記採点値に基づいて、複数のソースの中から使用する選択されたソースを動的に決定する段階と、
前記選択されたソースを前記会話システムの出力値にマッピングする段階と
を備える、請求項１から７のいずれか一項に記載の方法。
ユーザ入力に基づいて会話プログラムを動的に改善するシステムであって、
１または複数のプロセッサと、
実行されると前記１または複数のプロセッサに、
ａ）ユーザ入力に基づいて意図を形成させ、
ｂ）前記意図に基づいて計画を作成させ、前記計画が、前記意図と関連付けられた第１の概念オブジェクトを第２の概念オブジェクトへと変換する第１のアクションオブジェクトを有し、前記第２の概念オブジェクトを前記意図の目標と関連付けられた第３の概念オブジェクトへと変換する第２のアクションオブジェクトを有し、前記第１のアクションオブジェクトおよび前記第２のアクションオブジェクトが複数のアクションオブジェクトから選択され、前記第１のアクションオブジェクトが第１の第三者デベロッパによって提供され、前記第２のアクションオブジェクトが第２の第三者デベロッパによって提供され、
ｃ）前記計画を実行させ、
ｄ）前記第３の概念オブジェクトと関連付けられた値を出力させる、
複数の命令を格納する、非一時的コンピュータ可読媒体と
を備える、システム。
前記第１の概念オブジェクトが第３の第三者デベロッパによって提供され、前記第２の概念オブジェクトが第４の第三者デベロッパによって提供され、前記第３の概念オブジェクトが第５の第三者デベロッパによって提供される、請求項９に記載のシステム。
前記第１の概念オブジェクトが、前記第１の概念オブジェクトのインスタンス化を提供する第１のデータを含み、前記第２の概念オブジェクトが、前記第２の概念オブジェクトのインスタンス化を提供する第２のデータを含み、前記第３の概念オブジェクトが、前記第３の概念オブジェクトのインスタンス化を提供する第３のデータを含む、請求項９または１０に記載のシステム。
前記第１のアクションオブジェクトの入力パラメータがウェブサービスパラメータにマッピングされ、ウェブサービス結果が前記第１のアクションオブジェクトの出力値にマッピングされる、請求項９から１１のいずれか一項に記載のシステム。