JP2022518671A

JP2022518671A - デュアル・ネットワークと共に訓練された主ネットワークを介した多目的タスクの実行

Info

Publication number: JP2022518671A
Application number: JP2021537204A
Authority: JP
Inventors: カンター、アミール; ウジエル、ガイ; アナビー－タヴォール、アテレト
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-02-03
Filing date: 2020-02-03
Publication date: 2022-03-16
Anticipated expiration: 2040-02-03
Also published as: WO2020157731A1; CN113366510A; GB2595123A; JP7361121B2

Abstract

例示的なシステムは、多目的タスク用のデータを受信するためのプロセッサを含む。プロセッサはまた、訓練済みの主ネットワークを介して、受信したデータに対して多目的タスクを実行する。主ネットワークおよびデュアル・ネットワークは、いくつかの目的を表すラグランジュ損失関数を使用して多目的タスク用に訓練される。主ネットワークは、ラグランジュ損失関数を最小化するように訓練され、デュアル・ネットワークは、ラグランジュ損失関数を最大化するように訓練される。

Description

本技術は、人工ニューラル・ネットワークに関する。より詳細には、本技術は、ニューラル・ネットワークを訓練および使用して多目的タスクを実行することに関する。

本明細書に記載の実施形態によれば、システムが、多目的タスク用のデータを受信するためのプロセッサを含む。プロセッサはさらに、訓練済みの主ネットワークを介して、受信したデータに対して多目的タスクを実行することもでき、主ネットワークおよびデュアル・ネットワークが、複数の目的を表すラグランジュ損失関数（Lagrangian loss function）を使用して多目的タスク用に訓練される。主ネットワークはラグランジュ損失関数を最小化するように訓練され、デュアル・ネットワークはラグランジュ損失関数を最大化するように訓練される。

本明細書に記載の別の実施形態によれば、方法が、複数の目的を表すラグランジュ損失関数を使用して、主ネットワークおよびデュアル・ネットワークを多目的タスク用に訓練することを含む。主ネットワークおよびデュアル・ネットワークを訓練することは、ラグランジュ損失関数を最小化するように主ネットワークを訓練すること、およびラグランジュ損失関数を最大化するようにデュアル・ネットワークを訓練することを含む。方法は、多目的タスク用のデータを受信することをさらに含むことができる。方法はまた、訓練済みの主ネットワークを介して、受信したデータに対して多目的タスクを実行することをさらに含むことができる。

一実施形態によれば、前記プログラムがコンピュータ上で実行されると、段落３または段落７の方法を実行するように適合されたプログラム・コード手段を含むコンピュータ・プログラム製品が提供される。

本明細書に記載の別の実施形態によれば、多目的タスクを実行するようにニューラル・ネットワークを訓練するためのコンピュータ・プログラム製品が、プログラム・コードが具現化されたコンピュータ可読記憶媒体を含む。コンピュータ可読記憶媒体は、一過性の信号自体ではない。プログラム・コードは、プロセッサによって実行可能であり、プロセッサに、複数の目的を表すラグランジュ損失関数を使用して主ネットワークおよびデュアル・ネットワークを多目的タスク用に訓練することを行わせる。プログラム・コードは、プロセッサに、ラグランジュ損失関数を最小化するように主ネットワークを訓練し、ラグランジュ損失関数を最大化するようにデュアル・ネットワークを訓練することを行わせることもできる。プログラム・コードは、プロセッサに多目的タスク用のデータを受信することを行わせることもできる。プログラム・コードは、プロセッサに、訓練済みの主ネットワークを介して、受信したデータに対して多目的タスクを実行することを行わせることもできる。

一実施形態によれば、会話の接頭辞およびテキスト入力を受信し、訓練済みの主ネットワークを介して会話の接頭辞およびテキスト入力に基づいて完成応答（completed response）を生成するためのプロセッサを含むシステムであって、主ネットワークが、複数の目的を表すラグランジュ損失関数を最小化するように訓練され、デュアル・ネットワークが、ラグランジュ損失関数を最大化するように訓練される、システムが提供される。

一実施形態によれば、コンピュータ実施方法であって、会話の接頭辞およびテキスト入力を受信することと、訓練済みの主ネットワークを介して会話の接頭辞およびテキスト入力に基づいて完成応答を生成することとを含み、訓練済みの主ネットワークが、複数の目的を表すラグランジュ損失関数を最小化するように訓練され、デュアル・ネットワークが、ラグランジュ損失関数を最大化するように訓練される、コンピュータ実施方法が提供される。

一実施形態によれば、完成応答生成のためのコンピュータ・プログラム製品であって、プログラム・コードが具現化されたコンピュータ可読記憶媒体を含み、コンピュータ可読記憶媒体が、一過性の信号自体ではなく、プログラム・コードが、プロセッサによって実行可能であり、プロセッサに、複数の目的を表すラグランジュ損失関数を最小化するように主ネットワークを訓練し、ラグランジュ損失関数を最大化するようにデュアル・ネットワークを訓練することと、会話の接頭辞およびテキスト入力を受信することと、訓練済みの主ネットワークを介して、会話の接頭辞およびテキスト入力に基づいて完成応答を生成することとを行わせる、コンピュータ・プログラム製品が提供される。

ここで、本発明の好ましい実施形態について、以下の図面を参照して単なる例として説明する。

多目的タスクを実行するように主ネットワークを訓練することができる例示的なミニマックス・ニューラル・ネットワークのブロック図である。訓練済みの主ネットワークを使用して多目的タスクを実行することができる例示的な方法のプロセス・フロー図である。訓練済みの主ネットワークを使用して自動化応答生成を実行することができる例示的な方法のプロセス・フロー図である。多目的タスクを実行するように主ネットワークを訓練するための例示的な方法のプロセス・フロー図である。自動化応答生成を実行する主ネットワークを訓練するための例示的な方法のプロセス・フロー図である。３つの長短期記憶（ＬＳＴＭ：long short-term memory）セルを含む例示的な主ニューラル・ネットワークの図である。（Ａ）は、生成された完成応答のセットを含む例示的なチャット表示の図である。（Ｂ）は、生成された更新済みの完成応答のセットを含む例示的なチャット表示の図である。ミニマックス・ニューラル・ネットワーク・アーキテクチャを使用して訓練された主ネットワークを使用して多目的タスクを実行することができる例示的なコンピューティング・デバイスのブロック図である。ミニマックス・ニューラル・ネットワーク・アーキテクチャを使用して訓練された主ネットワークを使用して自動化応答生成を実行することができる例示的なコンピューティング・デバイスのブロック図である。本明細書に記載の実施形態による例示的なクラウド・コンピューティング環境の図である。本明細書に記載の実施形態による例示的な抽象化モデル層の図である。訓練済みのミニマックス・ニューラル・ネットワークを使用して多目的タスクを実行することができる例示的な有形の非一過性コンピュータ可読媒体のブロック図である。自動化応答生成を実行するように主ネットワークを訓練することができる例示的な有形の非一過性コンピュータ可読媒体のブロック図である。

ニューラル・ネットワークは、訓練データセット上で目的関数または損失関数を使用して、訓練中に目的関数によって表される特定の目的に関連する特定のタスクを実行するように訓練される。一部の実世界のアプリケーションでは、いくつかの目的を同時に実行することが求められる場合がある。いくつかの目的関数を学習アーキテクチャに組み込む１つの方法は、目的に相対的な重みを割り当てることによって、多目的問題を単一目的問題に変換する方法であり得る。しかしながら、異なる単位を有する異なる目的をどのように比較するかが不明確である場合があるので、このような重みを最適化することは困難である場合がある。さらに、学習器がいくつかの目的の閾値を満たす必要がある場合、単一目的手法は適切ではない可能性がある。また、いくつかの目的をある単一のオブジェクトに組み込むために重みを調整すること、および重みを調整することは、計算的に困難である場合がある。

本明細書に記載の技術によれば、システムは、複数の目的を含む多目的タスク用のデータを受信するためのプロセッサを含むことができる。プロセッサは、訓練済みの主ネットワークを介して、受信したデータに対して多目的タスクを実行することができる。主ネットワークおよびデュアル・ネットワークは、複数の目的を表すラグランジュ損失関数を使用して交互に訓練される。一例において、プロセッサは、会話の接頭辞およびテキスト入力を受信することができる。次いで、プロセッサは、訓練済みの主ネットワークを介して、会話の接頭辞およびテキスト入力に基づいて完成応答を生成することができる。したがって、本明細書に記載の技術により、事前定義された相対的な重みを設定することなく、ニューラル・ネットワークを複数の目的を用いて訓練することが可能になる。また、本技術は、複数の目的で訓練されたニューラル・ネットワークを使用して、会話での問合せに対する自動化および半自動化された応答の改善を実現する。さらに、本技術は、テキストの自動化要約、環境との対話を学習する自律マシンなど、様々なアプリケーションで使用することができる。

いくつかのシナリオにおいて、本明細書に記載の技術は、クラウド・コンピューティング環境に実装されてもよい。少なくとも図８～図１３を参照して以下でより詳細に述べるように、多目的タスクを実行するように構成されたコンピューティング・デバイスは、クラウド・コンピューティング環境に実装されてもよい。本開示はクラウド・コンピューティングに関する説明を含み得るが、本明細書に記載された教示の実装はクラウド・コンピューティング環境に限定されないことをあらかじめ理解されたい。むしろ、本発明の実施形態は、現在知られている、または後に開発される他の任意のタイプのコンピューティング環境と組み合わせて実装することが可能である。

クラウド・コンピューティングは、最小限の管理労力、またはサービス・プロバイダとの最小限の対話で迅速にプロビジョニングおよび解放され得る構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共用プールへの簡便かつオンデマンドのネットワーク・アクセスを可能にするためのサービス提供のモデルである。このクラウド・モデルは、少なくとも５つの特徴、少なくとも３つのサービス・モデル、および少なくとも４つの展開モデルを含み得る。

特徴は、以下の通りである。
オンデマンド・セルフサービス：クラウド・コンシューマは、サービス・プロバイダとの間で人間の対話を必要とすることなく、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。
広範なネットワーク・アクセス：機能は、ネットワーク上で利用可能であり、異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム（例えば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準的なメカニズムを介してアクセスされる。
リソースのプール化：プロバイダのコンピューティング・リソースは、マルチテナント・モデルを使用して複数のコンシューマにサービス提供するようにプール化され、異なる物理リソースおよび仮想リソースが、要求に応じて動的に割当ておよび再割当てされる。コンシューマは一般に、提供されるリソースの正確な位置に対して制御も知識も有していないが、より高い抽象化レベルでは位置（例えば、国、州、またはデータセンター）を特定し得るという点で、位置の独立性があるといえる。
迅速な柔軟性：機能を、迅速かつ柔軟に、場合によっては自動的にプロビジョニングして素早くスケール・アウトし、迅速に解放して素早くスケール・インすることができる。コンシューマにとっては、プロビジョニングに利用可能な機能は、しばしば無制限であるように見え、いつでも任意の数量で購入することができる。
サービスの測定：クラウド・システムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント）に適した一定の抽象化レベルでの計量機能を活用することによって、リソースの使用を自動的に制御および最適化する。リソースの使用状況を監視、制御、および報告することができ、利用するサービスのプロバイダとコンシューマの両方に透明性を提供する。

サービス・モデルは、以下の通りである。
ソフト・ウェア・アズ・ア・サービス（ＳａａＳ）：クラウド・インフラストラクチャ上で動作しているプロバイダのアプリケーションを使用するために、コンシューマに提供される機能である。アプリケーションは、ウェブ・ブラウザ（例えば、ウェブ・ベースの電子メール）などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。限定されたユーザ固有のアプリケーション構成設定を想定される例外として、コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能を含む基礎となるクラウド・インフラストラクチャを管理も制御もしない。
プラットフォーム・アズ・ア・サービス（ＰａａＳ）：プロバイダによってサポートされるプログラミング言語およびツールを使用して生成されたコンシューマが生成または取得したアプリケーションをクラウド・インフラストラクチャ上に展開するために、コンシューマに提供される機能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージなどの基礎となるクラウド・インフラストラクチャを管理も制御もしないが、展開されたアプリケーション、および場合によってはアプリケーションをホストする環境構成を制御する。
インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをコンシューマが展開および動作させることができる、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングするために、コンシューマに提供される機能である。コンシューマは、基礎となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションを制御し、場合によっては選択されたネットワーキング・コンポーネント（例えば、ホスト・ファイアウォール）を限定的に制御する。

展開モデルは、以下の通りである。
プライベート・クラウド：クラウド・インフラストラクチャは、ある組織のためだけに運用される。このクラウド・インフラストラクチャは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスで存在してもよい。
コミュニティ・クラウド：クラウド・インフラストラクチャは複数の組織で共有され、関心事項（例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス上の考慮事項）を共有している特定のコミュニティをサポートする。このクラウド・インフラストラクチャは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスで存在してもよい。
パブリック・クラウド：クラウド・インフラストラクチャは、一般公衆または大規模な業界グループにとって利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド：クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性（例えば、クラウド間の負荷分散のためのクラウド・バースティング）を可能にする標準化された技術または専用の技術によって結び付けられる２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の合成である。

クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味的相互運用性に焦点を置くことを重視したサービスである。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。

ここで図１を参照すると、ブロック図は、多目的タスクを実行するように主ネットワークを訓練することができる例示的なミニマックス・ニューラル・ネットワークを示す。図１の例示的なミニマックス・ニューラル・ネットワーク１００は、主ネットワーク１０２およびデュアル・ネットワーク１０４を含む。主ネットワーク１０２およびデュアル・ネットワーク１０４は、ラグランジュ関数１０６に通信可能に結合されている。デュアル・ネットワーク１０４は、１対のラグランジュ乗数１０８を出力するように示されている。主ネットワーク１０２は、ＬＳＴＭセル１１０を含む。デュアル・ネットワーク１０４は、ＬＳＴＭセル１１２を含む。主ネットワークは、値１１４Ａ、１１４Ｂ、１１４Ｃを受信し、値１１６Ａ～１１６Ｄを出力するように示されている。デュアル・ネットワークは、値１１４Ａ、１１４Ｂ、および１１４Ｃを受信するように示されている。

図１の例では、主ネットワーク１０２およびデュアル・ネットワーク１０４は、ラグランジュ関数１０６を使用して互いに交互に訓練される。例えば、デュアル・ネットワーク１０４が一定に保たれている間、主ネットワーク１０２は、ラグランジュ関数１０６を最小化するように訓練されてもよい。同様に、主ネットワーク１０２が一定に保たれている間、デュアル・ネットワーク１０４は、ラグランジュ関数を最大化するように訓練されてもよい。したがって、方策に関する勾配降下法とラグランジュ乗数（Lagrange multiplier）に関する勾配上昇法との交互の反復が実行されてもよい。

図１の例では、主ネットワーク１０２は生成ネットワークである。したがって、値１１４Ａ、１１４Ｂ、および１１４Ｃによって表される単語を含む入力発話が与えられると、主ネットワーク１０２は、値１１６Ａ～１１６Ｄによって表される単語の出力応答を生成する。値１１４Ａ、１１４Ｂ、および１１４Ｃによって表される同じ入力発話が与えられると、デュアル・ネットワーク１０４は、ラグランジュ１０６の一部であるラグランジュ乗数１０８を出力する。

具体的には、意思決定の問題は、有限の状態空間および行動空間を有するマルコフ決定過程（ＭＤＰ：Markov Decision process）とすることができる。一般に、有限ＭＤＰはタプル

で表すことができ、式中、Ｘ＝｛１，…，ｎ，ｘ_Ｔｅｒ｝およびＡ＝｛１，…，ｍ｝はそれぞれ、状態空間および行動空間であり、ｘ_Ｔｅｒは再帰的終了状態である。状態ｘおよび行動ａの場合、Ｒ（ｘ，ａ）を有界な報酬関数とすることができ、Ｄ_１（ｘ，ａ）、…、Ｄｎ（ｘ，ａ）を制約コスト関数とすることができる。

を遷移確率分布とすることができ、Ｐ_０（・）は初期状態分布となる。ＭＤＰの定常方策μ（・｜ｘ）は、現在の状態を条件とする行動全体の確率分布である。方策勾配法では、このような方策を、ｋ次元ベクトルθによってパラメータ化することができ、この表記法を使用して、方策の空間を、

と記述することができる。この設定では、方策μがそのパラメータ・ベクトルθによって一意に定義されるので、方策依存関数を、μまたはθの関数として記述することができ、μ（・｜ｘ；θ）を使用して方策を示し、θを使用して方策（パラメータ）に対する依存関係を示す。多目的ＭＤＰの場合、最適化は次式を使用して表すことができる。

式中、γ_１…γ_ｎはユーザ定義の閾値である。上記の問題を解くために、ラグランジュ緩和手順を使用して、式１を変換することができる。その結果、ラグランジュ関数の形式の制約のない問題、すなわち、

となり、本明細書ではラグランジュとも呼ぶ。式中、λ_ｉはラグランジュ乗数である。多目的の目標を達成するために、主ネットワークは、ミニマックス方策に収束するように訓練されてもよい。具体的には、方策に関する勾配降下法とラムダ乗数に関する勾配上昇法などの交互の方策勾配更新を使用して、最適な方策に収束することができる。さらに、ラグランジュ変数は、状態空間を条件としてもよい。言い換えると、双対変数は、以下の式４に示すように、

であるパラメータζを使用してパラメータ化された異なるデータ依存モデルとして扱われてもよい。

式３と式４の同等性は、拡大された探索空間から得られ、ラムダ変数が一定である場合を含む。

上記の式４の定式化を使用すると、図１に見られるような２つの異なるネットワーク、主ネットワーク１０２およびデュアル・ネットワーク１０４を使用した２つの方策が同時にモデル化される。具体的には、図１の主ネットワーク１０２およびデュアル・ネットワーク１０４は、チャット・ボットまたは任意の他の生成タスクで使用するための異なるパラメータを有する２つのＬＳＴＭモデルとしてモデル化されてもよい。ネットワークの目的関数はラグランジュであり、主ネットワーク１０２はラグランジュ関数を最小化する方策を見出すように構成され、デュアル・ネットワークはラグランジュ関数を最大化する方策を見出すように構成される。

したがって、任意の数の複数の目的が、ラグランジュ乗数によって表され、主ネットワークの訓練に組み込まれてもよい。応答を生成する特定の生成タスクでは、組み込まれ得るいくつかの報酬関数は、冗長性非尤度の目的、意味的非類似度の目的、および意味的一貫性の目的を含むことができる。冗長性非尤度の目的は、対話での回答のしやすさを向上させてもよい。例えば、良好に生成された対話を行うための望ましい特性の１つは、各ターンにおいて、半自動化または自動化されたエージェントが、相手が応答しやすいと感じる応答を生成することであり得る。通常のＳｅｑ２Ｓｅｑモデルを訓練すると、「あなたが何を話しているのか分かりません」、「全く分かりません」などの冗長な回答を得る可能性が高くなる場合がある。これらの回答は、言語モデルのパープレキシティの観点では適切であり、幅広い質問に適している場合があるが、このような回答を受け取った後に対話を継続することは困難である。したがって、エージェントによって生成されたターンへの回答の容易さを測定するために、順方向関数が使用されてもよい。いくつかの例において、この容易さの測定は、その発話に対して冗長な応答によって応答するという負の対数尤度を使用して行われてもよい。この関数を構築するために、いくつかの冗長な応答を演繹的に利用可能にし、それにより、会話のＳＥＱ２ＳＥＱモデルで非常に頻繁に発生し得るこのような応答のセットＳを、手動で構築することができる。このようなすべての応答を手動で見出すことは不可能ではないにせよ非常に困難であり得るが、同様の応答がＳの応答の近くに埋め込まれるものと想定することができる。したがって、リスト内で発話を生成する可能性が低いシステムは、他の単調な応答を生成する可能性も低くなる。冗長性非尤度の目的は、式

を使用して算出されてもよい。式中、Ｎ_ＳはＳの濃度を示し、Ｎ_ｓは応答ｓのトークンの数を示し、

は言語モデルの確率である。

いくつかの例において、情報の流れを改善するために、意味的非類似度の目的を使用することができる。例えば、会話エージェントのもう１つの望ましい特性は、各ターンにおいて対話に新しい情報が追加されることであり得る。長い対話を生成するためには、各エージェントは各ターンで新しい情報を提供しなければならない。言い換えれば、対話はよどみなく進むべきであり、繰り返しのシーケンスは回避されるべきである。したがって、いくつかの例において、同じエージェントからの連続するターン間の意味的類似度にペナルティを課すことができる。形式的に、

、

を、符号器から取得された２つの連続するターンｐｉおよびｐｉ＋１に対する埋め込み表現とすると、次式に示すように、それらの間のコサイン類似度の負の対数によって、報酬を算出することができる。

式中、（・，・）はユークリッド内積であり、｜｜・｜｜はユークリッド・ノルムである。

いくつかの例において、意味的一貫性を改善するために、意味的一貫性の目的を訓練に含めることができる。前の報酬に加えて、別の目的は、生成された応答が確実に、実際に一貫性があり、会話のトピック、より正確には会話の前のターンのトピックに関連するようにすることであり得る。このタイプの要件は、行動ａと以前の履歴ターンとの間の相互情報量を使用して測定することができ、次式を使用して、生成された応答が一貫性があり適切であることを保証することができる。

式中、

は、前の対話発話［ｐ_ｉ，ｑ_ｉ］が与えられた場合に応答を生成する確率を示し、

は、応答ａに基づいて前の対話発話ｑｉを生成する後ろ向き確率を示す。このモデルを訓練するために、同じｓｅｑ２ｓｅｑ（注意を用いたＬＳＴＭモデル）を、ソースとターゲットを交換して訓練することができる。損失をスケーリングするために、この報酬を、発話の長さで除算することができる。

これらの報酬のすべてを一緒に組み込むために、報酬のうちの１つを選択して、閾値によって他の目的によって制約される主要損失にすることができる。したがって、次式を使用して、問題を多目的問題に変換することができる。

図１のブロック図は、ミニマックス・ニューラル・ネットワーク１００が図１に示すコンポーネントのすべてを含むことを示すものではないことを理解されたい。むしろ、ミニマックス・ニューラル・ネットワーク１００は、より少ないコンポーネント、または図１に示されていない追加のコンポーネント（例えば、追加の入力、出力、モデル、ニューラル・ネットワーク、セル、ラグランジュ乗数など）を含むことができる。

図２は、訓練済みの主ネットワークを使用して多目的タスクを実行することができる例示的な方法のプロセス・フロー図である。方法２００は、図８のコンピューティング・デバイス８００などの任意の適切なコンピューティング・デバイスを用いて実施され得る。例えば、方法２００は、図８のコンピューティング・デバイス８００のプロセッサ８０２を使用して、または図１２のプロセッサ１２０２およびコンピュータ可読媒体１２００を使用して実施され得る。

ブロック２０２において、ミニマックス・ニューラル・ネットワークの主ネットワークおよびデュアル・ネットワークは、複数の目的を表すラグランジュ損失関数を使用して多目的タスク用に訓練される。主ネットワークはラグランジュ損失関数を最小化するように訓練され、デュアル・ネットワークはラグランジュ損失関数を最大化するように訓練される。いくつかの例において、多目的タスクは、有限状態空間および有限行動空間を含むマルコフ決定過程である。様々な例において、主ネットワークは、別の設定から学習された一般的な方策を使用して、または訓練中に主ネットワークをランダムに初期化することによって、事前訓練される。いくつかの例において、デュアル・ネットワークは、訓練中にランダムに初期化される。いくつかの例において、主ネットワークとデュアル・ネットワークの勾配は、尤度比に基づいて推定される。様々な例において、主ネットワークおよびデュアル・ネットワークの方策勾配は、主ネットワークおよびデュアル・ネットワークの異なるステップ・サイズに基づいて交互に更新される。いくつかの例において、主ネットワークおよびデュアル・ネットワークは、既存のデータセット、シミュレータ、環境からのフィードバック、またはそれらの任意の組合せを使用して交互に訓練される。例えば、ミニマックス・ニューラル・ネットワークは、図４の方法４００を使用して訓練され得る。

ブロック２０４において、多目的タスク用のデータが受信される。例えば、自動化応答生成の場合、データは、入力テキストからの単語および会話の接頭辞を含んでもよい。

ブロック２０６において、訓練済みの主ネットワークを介して、受信したデータに対して多目的タスクが実行される。例えば、多目的タスクは、自動化応答生成、選択、分類、またはニューラル・ネットワークを使用して実行できる任意の他の多目的タスクとすることができる。

矢印２０８で示すように、いくつかの例において、多目的タスク、および追加のデータに基づいて実行される追加の多目的タスク用に、追加のデータを受信することができる。例えば、追加のデータは、追加の入力テキストおよび会話の追加の接頭辞とすることができる。

図２のプロセス・フロー図は、方法２００の動作が特定の順序で実行されること、または方法２００の動作のすべてがあらゆる事例に含まれることを意図するものではない。さらに、方法２００は、任意の適切な数の追加の動作を含むことができる。

図３は、訓練済みの主ネットワークを使用して自動化応答生成を実行することができる例示的な方法のプロセス・フロー図である。方法３００は、図９のコンピューティング・デバイス９００などの任意の適切なコンピューティング・デバイスを使用して実施され得る。例えば、方法３００は、図９のコンピューティング・デバイス９００のプロセッサ８０２を使用して、または図１３のプロセッサ１３０２およびコンピュータ可読媒体１３００を使用して実施され得る。

ブロック３０２において、会話の接頭辞およびテキスト入力が受信される。例えば、会話の接頭辞は、第１のユーザと第２のユーザとの間の会話の１つまたは複数のターンを含んでもよい。テキスト入力は、第２のユーザからの問合せに応答して第１のユーザによって入力された１つまたは複数の単語を含む。

ブロック３０４において、訓練済みの主ネットワークを介して、会話の接頭辞およびテキスト入力に基づいて完成応答が生成される。訓練済みの主ネットワークは、複数の目的を表すラグランジュ損失関数を最小化するように訓練される。デュアル・ネットワークは、ラグランジュ損失関数を最大化するように訓練される。例えば、主ネットワークとデュアル・ネットワークを交互に訓練して、ラグランジュ損失関数を最小化および最大化することができる。様々な例において、主ネットワークは、会話のターンの第１の制限を使用し、制限を会話のターンの第２の制限まで段階的に増加させて、訓練される。いくつかの例において、主ネットワークは、訓練データセット内のすべてのシーケンス間で冗長な応答を生成する尤度が低いシーケンスを使用して訓練される。いくつかの例において、複数の完成応答が生成され得る。いくつかの例において、テキスト入力で始まる完成応答が、単語単位で反復的に構築され得る。いくつかの例において、いくつかの完成応答を生成するために、ビーム検索が使用される。

ブロック３０６において、完成応答を含む完成応答が、選択用に第１のユーザに提示される。例えば、完成応答は、図７の（Ａ）および（Ｂ）に示すようにリストとして表示されてもよい。

ブロック３０８において、完成応答から選択された応答が受信される。例えば、ユーザは、応答をクリックするか下にスクロールして応答のリストから応答を選択することによって、または完成応答を単語単位で追加することによって、応答を選択してもよい。

ブロック３１０において、選択された応答が第２のユーザに送信される。例えば、選択された応答は、第１のユーザが応答をタイプ入力して応答を送信したかのように、第２のユーザに送信されてもよい。したがって、選択された応答は、通信ツールまたはアプリケーションを介して送信されてもよい。いくつかの例において、第２のユーザから追加の問合せが受信されてもよく、方法が、ブロック３０２で再び開始してもよい。

図３のプロセス・フロー図は、方法３００の動作が特定の順序で実行されること、または方法３００の動作のすべてがあらゆる事例に含まれることを意図するものではない。さらに、方法３００は、任意の適切な数の追加の動作を含むことができる。例えば、方法３００は、追加の受信された会話の接頭辞およびテキスト入力に対して繰り返され得る。いくつかの例において、方法３００は、完成応答の信頼度スコアが閾値スコアを超えたことを検出したことに応答して、完成応答を問合せへの応答として送信することを含むことができる。

図４は、多目的タスクを実行するように主ネットワークを訓練するための例示的な方法のプロセス・フロー図である。方法４００は、図８のコンピューティング・デバイス８００などの任意の適切なコンピューティング・デバイスを用いて実施され得る。例えば、方法４００は、図８のコンピューティング・デバイス８００のプロセッサ８０２を使用して、または図１２のプロセッサ１２０２およびコンピュータ可読媒体１２００を使用して実施され得る。

ブロック４０２において、訓練データセットおよび複数の目的が受信される。訓練データセットは、実行すべき特定の多目的タスクに応じたデータを含んでもよい。例えば、生成テキスト・タスクのデータセットは、図５に関して説明した会話を含んでもよい。目的には、他の可能な目的の中でもとりわけ、関連性、リスクの低減、冗長性の低減、意味的類似度の低減、および意味的一貫性が含まれ得る。いくつかの例において、目的は、損失関数の形式で受信されてもよい。

ブロック４０４において、訓練すべきミニマックス・ニューラル・ネットワークの主ネットワークおよびデュアル・ネットワークが初期化される。例えば、主ネットワークは、完全教師あり設定から学習された一般的な応答方策を使用して事前訓練されるか、ランダムに初期化され得る。デュアル・ネットワークは、ランダムに初期化され得る。

ブロック４０６において、主ネットワークおよびデュアル・ネットワークは、複数の目的を表すラグランジュ損失関数を使用して交互に訓練される。いくつかの例において、多目的タスクは、有限状態空間および有限行動空間を含むマルコフ決定過程とすることができる。主ネットワークは、ラグランジュ損失関数を最小化するように訓練され、デュアル・ネットワークは、ラグランジュ損失関数を最大化するように交互に訓練され得る。

ブロック４０８において、主ネットワークおよびデュアル・ネットワークの方策勾配は、主ネットワークおよびデュアル・ネットワークの異なるステップ・サイズに基づいて更新される。いくつかの例において、主ネットワークおよびデュアル・ネットワークの勾配は、尤度比推定器（likelihood ratioestimator）に基づいて推定される。

判定のひし形４１０において、訓練を使い切ったかどうかに関して判定がなされる。例えば、訓練の前に、検証分割に関する事前設定条件が設定されてもよく、またはいくつかの測定の手動検査が実行される。

ブロック４１２において、訓練は終了する。次いで、主ネットワークを使用して、（図２のように）受信したデータに対して多目的タスクを実行してもよい。

図４のプロセス・フロー図は、方法４００の動作が特定の順序で実行されること、または方法４００の動作のすべてがあらゆる事例に含まれることを意図するものではない。さらに、方法４００は、任意の適切な数の追加の動作を含むことができる。例えば、方法４００に、追加の判定のひし形もしくは条件、またはさらには訓練中に測定される様々な測定基準の手動検査が含まれてもよい。

図５は、自動化応答生成を実行するように主ネットワークを訓練するための例示的な方法のプロセス・フロー図である。方法５００は、図９のコンピューティング・デバイス９００などの任意の適切なコンピューティング・デバイスを用いて実施され得る。例えば、方法５００は、図９のコンピューティング・デバイス９００のプロセッサ８０２を使用して、または図１３のプロセッサ１３０２およびコンピュータ可読媒体１３００を使用して実施され得る。

ブロック５０２において、訓練データセットおよび複数の目的が受信される。例えば、訓練データセットは、映画の会話のＯｐｅｎＳｕｂｔｉｔｌｅｓデータセットとすることができる。ＯｐｅｎＳｕｂｔｉｔｌｅｓデータセットは、映画の登場人物が発した文を含んでいる。例えば、このデータセットでは、各発話を、前の発話に対する応答として、また次の応答のコンテキストとして扱うことができる。したがって、訓練および検証分割は、訓練の例として６２００万個の文（９億２３００万個のトークン）を含む場合があり、テスト・セットは２６００万個の文（３億９５００万個のトークン）を含む場合がある。分割は、１対の文の各文が訓練セットまたはテスト・セットの両方ではなくいずれかに共に表示されるような方法で行われる。映画の範囲が広いことを考慮すると、これは、オープンドメインの会話データセットである。データセット内の各ターンは、ターゲットとして扱われてもよく、前の２つの文の連結は、ソース入力として扱われてもよい。

ブロック５０４において、主ネットワークは、事前選択されたモデルに基づいて事前訓練され、デュアル・ネットは、ランダムに初期化される。例えば、主ネットワークは、シーケンス間（Ｓｅｑ２Ｓｅｑ）言語モデルを用いて初期化されてもよい。いくつかの例において、強化学習（ＲＬ）システムは、完全教師あり設定から学習される一般的な応答生成方策を使用して初期化される。事前訓練用に選択されるモデルは、単純なモデルでもよく、任意の他のモデルと置き換えることができる。生成された文は、Ｓｅｑ２Ｓｅｑ言語モデルによって定義された方策に従って実行される行動と見なすことができる。方策は、

である状態が与えられた場合の行動の確率分布によって定義されてもよい。いくつかの例において、この確率分布はＳｅｑ２ＳｅｑＬＳＴＭモデルを使用してモデル化される。いくつかの例において、ＬＳＴＭモデルを、任意の他の適切な別の言語生成モデルに置き換えることができる。

したがって、行動は、生成された発話とすることができる。方法５００の訓練は対話を含むので、状態空間は、会話の過去のターンについての情報を含む場合がある。例えば、状態は、前の２つの対話ターン［ｐ_ｉ，ｑ_ｉ］を含んでもよい。したがって、状態のベクトル表現は、以前に生成された応答ｐ_ｉと第２のエージェントからの応答ｑ_ｉとの連結によって符号化される。

ブロック５０６において、ミニマックス・ニューラル・ネットワークの主ネットワークおよびデュアル・ネットワークは、複数の目的を表すためのラグランジュ損失関数を使用して訓練データセット上で交互に訓練される。いくつかの例において、ミニマックス・ニューラル・ネットワークは、会話の２つのターンの初期制限を使用して訓練され、制限は会話の５つターンまで段階的に増加される。いくつかの例において、ミニマックス・ニューラル・ネットワークは、訓練データセット内の他のシーケンスよりも冗長な応答を生成する尤度が低いシーケンスを含む所定数のシーケンスを使用して訓練される。いくつかの例において、対話シミュレーションの別の有用なステップとして、ＯｐｅｎＳｕｂｔｉｔｌｅｓデータセットから１０００万個のメッセージのサブセットが取得されてもよく、初期入力に対する応答が容易であることを保証するために、セットから冗長な応答を生成する尤度が最も低い８０万個のシーケンスが抽出されてもよい。

ブロック５０８において、主ネットワークおよびデュアル・ネットの方策勾配が、異なるステップ・サイズに基づいて交互に更新される。例えば、方策勾配を交互に更新するために、異なる時間スケール方法が使用されてもよい。ミニマックス・ネットワーク訓練は２つの異なる（交互の）勾配方策の更新を含むので、主ネットワークおよびデュアル・ネットワークのそれぞれは、異なるステップ・サイズを有することになる。例えば、主ネットワークのステップ・サイズは、訓練中のデュアル・ネットワークのステップ・サイズとは異なる桁数とすることができる。したがって、主ネットワークは、より高い収束率を受信することになり、一方、デュアル・ネットは、より小さいステップ・サイズを受信することになり、したがって収束がより遅くなる。いくつかの例において、方策の勾配を推定するために、尤度比推定器が使用される。尤度比推定器は、統計理論に基づいて勾配を推定することができる。例えば、尤度比推定器は、１９９２年に公開されたＲＥＩＮＦＯＲＣＥトリックを使用することができる。

判定のひし形５１０において、訓練を使い切ったかどうかに関して判定がなされる。例えば、訓練の前に、事前設定された訓練の反復回数を設定することができる。

ブロック５１２において、訓練は終了する。次いで、主ネットワークを使用して、上記の図３で説明したように、受信した問合せに対する自動化応答を生成してもよい。

図５のプロセス・フロー図は、方法５００の動作が特定の順序で実行されること、または方法５００の動作のすべてがあらゆる事例に含まれることを意図するものではない。さらに、方法５００は、任意の適切な数の追加の動作を含むことができる。例えば、方法５００に、追加の判定のひし形もしくは条件、またはさらには訓練中に測定される様々な測定基準の手動検査が含まれてもよい。

図６は、３つの長短期記憶（ＬＳＴＭ）セルを含む例示的な主ニューラル・ネットワークの図である。例示的なニューラル・ネットワーク６００は、方法５００を使用して訓練され、方法３００および図９のコンピューティング・デバイス９００を使用して完成応答を生成することができる。例えば、ニューラル・ネットワーク６００は、注意メカニズムの有無にかかわらず、シーケンス間深層学習アーキテクチャとすることができる。図６は、３つのＬＳＴＭセル６０２、６０４、および６０６を含む。第１のＬＳＴＭセル６０２は、クライアントの問合せに対応する単語６０８Ａ、６０８Ｂ、６０８Ｃ、および６０８Ｄを含む。第２のＬＳＴＭセル６０４は、人間のエージェントからのテキスト入力に対応するテキスト入力６１０Ａおよび６１０Ｂを含む。第３のＬＳＴＭセル６０６は、完成応答の完成部分に対応する単語６１２Ａ、６１２Ｂ、６１２Ｃ、および６１２Ｄを含む。

図６に示すように、第１のＬＳＴＭ６０２は、クライアントの問合せを単語単位で、または会話の完全な接頭辞を受信し、単語を固定長の隠れ状態ベクトルｈＡとして符号化する。第２のＬＳＴＭ６０４は、人間のエージェントからテキスト入力を受信し、テキスト入力を単語単位で符号化することによって、ベクトルｈＡを隠れ状態ベクトルｈＢに変換する。第３のＬＳＴＭ６０６は、ベクトルｈＢを、完成応答の完成部（completion）である出力単語６１２Ａ～６１２Ｄのシーケンスに変換（復号）する。完成応答は、テキスト入力６１０Ａ、６１０Ｂを完成部６１２Ａ～６１２Ｄと連結することによって生成され得る。いくつかの例において、ニューラル・ネットワーク６００は、１つの完成回答を生成する代わりに、いくつかの完成応答を抽出することができる。例えば、いくつかの完成応答は、ビーム検索を使用して抽出され得る。

訓練フェーズでは、すべての履歴会話が、クライアントの問合せ、対応する人間のエージェントの応答の開始、およびエージェントの応答の終了で構成される訓練トリプルに変換される。人間のエージェントの応答は、開始と終了のすべての組合せに分けられる。応答は、異なる訓練例を生成するために各単語で区分されてもよい。ニューラル・ネットワーク６００は、すべての目的を組み込んだラグランジュ損失関数を介して複数の目的を使用して訓練されてもよい。例えば、訓練中に使用される目的には、本明細書に記載の目的の中でもとりわけ、単語単位の確率、エージェントの応答の終了のパープレキシティ、および関連性が含まれ得る。

図７の（Ａ）は、生成された完成応答のセットを含む例示的なチャット表示の図である。例示的なチャット表示７００Ａは、図３の方法３００および図５の方法５００を使用する図９のコンピューティング・デバイス９００を使用して生成され得る。

図７の（Ａ）には、通信チャネルを介した人間の顧客サービス・エージェントのチャット表示７００Ａが示されている。図７の（Ａ）における第１のメッセージ７０２は、企業用に自動的に生成されたものである。第２のメッセージ７０４は、顧客から受信される。画面の下部、横線の上では、人間のエージェントが自分の応答を入力している。プレーン・テキストには、エージェントのテキスト入力７０６Ａ「喜んで（Ｉ’ｌｌｂｅｈａｐｐｙ）」が表示されている。テキスト入力７０６Ａの下に、どのように応答を完了するかに関するエージェントのための３つの提案７０８Ａ、７０８Ｂ、および７０８Ｃが表示されている。例えば、提案７０８Ａ、７０８Ｂ、および７０８Ｃは、本明細書に記載の技術を使用して生成されてもよい。選択された提案７０８Ａは、選択されたテキスト内のテキスト入力に続いて、線の上にも表示される。例示的なチャット表示７００Ａに見られるように、３つの自動化された提案７０８Ａ、７０８Ｂ、および７０８Ｃは、第１のメッセージ７０２および第２のメッセージ７０４を含む会話コンテキストと、エージェントのテキスト入力７０６Ａとの両方に基づいてもよい。

図７の（Ｂ）は、生成された更新済みの完成応答のセットを含む例示的なチャット表示の図である。例示的なチャット表示７００Ａは、図３の方法３００および図５の方法５００を使用する図９のコンピューティング・デバイス９００を使用して生成され得る。

図７の（Ｂ）では、エージェントがタイプ入力を続けると、更新済みのチャット表示７００Ｂ内の更新済みのテキスト入力７０６Ｂの下に、提案応答７０８Ｄ、７０８Ｅ、７０８Ｆの新しいセットが表示される。したがって、エージェントのタイプ入力に応じて、新しい提案応答がリアルタイムで生成されてもよい。例えば、エージェントがテキスト入力７０６Ｂに追加の単語を入力するたびに、提案応答の新しいセットが生成されてもよい。選択された応答７０８Ｅなど、提案応答のうちの１つが正しい場合、エージェントはその応答を選択することができ、応答７０８Ｅがユーザに送信されることになる。

したがって、人間のエージェントと顧客との間のゼロ個以上のテキスト・メッセージを含む会話の接頭辞が与えられ、部分的な応答に対応するエージェントによる最初のテキスト入力が与えられると、アプリケーションは、１つまたは複数の完成応答を提案することができる。完成部は、進行中の会話だけでなく、特定のテキスト入力に対応してもよい。いくつかの例において、テキストに加えて他のタイプのデータおよびメタデータが、会話接頭辞、テキスト入力、またはさらには完成応答の一部として含まれてもよい。例えば、メタデータには、画像、ビデオ、ウェブ・リンクなどが含まれ得る。いくつかの例において、完成応答は、履歴会話から自動的に学習されてもよい。例えば、履歴会話を、完成応答を生成するために使用されるニューラル・ネットワークを訓練するための訓練データとして使用することができる。同様に、履歴会話を使用してニューラル・ネットワークを訓練し、チャット・ボットなどのエンド・ツー・エンドのソリューションを作成することもできる。ニューラル・ネットワークが追加の会話で訓練され得るので、アプリケーションはそれぞれの新しい会話と共に向上し続けることができる。いくつかの例において、エージェントが単一の単語をタイプ入力する前でも高い信頼度で応答が識別される会話の部分では、完成応答は、人間の介入なしに完全に自動化されてもよい。したがって、提案応答を使用すること、または応答を完全にタイプ入力する代わりに信頼度の高い応答を自動的に送信することによって、時間を節約することができる。さらに、タイプミスおよび他のエラーの機会を排除することによって、応答の品質を向上させることができる。

図８は、ミニマックス・ニューラル・ネットワーク・アーキテクチャを使用して訓練された主ネットワークを使用して多目的タスクを実行することができる例示的なコンピューティング・デバイスのブロック図である。コンピューティング・デバイス８００は、例えば、サーバ、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、またはスマートフォンとすることができる。いくつかの例において、コンピューティング・デバイス８００は、クラウド・コンピューティング・ノードとすることができる。コンピューティング・デバイス８００は、コンピュータ・システムによって実行されるプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的なコンテキストで説明することができる。一般に、プログラム・モジュールには、特定のタスクを実行するか、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などが含まれ得る。コンピューティング・デバイス８００は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散型クラウド・コンピューティング環境において実現されてもよい。分散型クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ記憶デバイスを含むローカルとリモートの両方のコンピュータ・システム記憶媒体に配置されてもよい。

コンピューティング・デバイス８００は、格納された命令を実行するプロセッサ８０２と、動作中の前記命令の動作のための一時的なメモリ空間を提供するメモリ・デバイス８０４とを含んでもよい。プロセッサは、シングルコア・プロセッサ、マルチコア・プロセッサ、コンピューティング・クラスタ、または任意の数の他の構成とすることができる。メモリ８０４は、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ、フラッシュ・メモリ、または任意の他の適切なメモリ・システムを含むことができる。

プロセッサ８０２は、システム相互接続８０６（例えば、ＰＣＩ（Ｒ）、ＰＣＩ－Ｅｘｐｒｅｓｓ（Ｒ）など）を介して、コンピューティング・デバイス８００を１つまたは複数のＩ／Ｏデバイス８１０に接続するように適合された入力／出力（Ｉ／Ｏ）デバイス・インターフェース８０８に接続されてもよい。Ｉ／Ｏデバイス８１０には、例えば、キーボードおよびポインティング・デバイスが含まれてもよく、ポインティング・デバイスには、とりわけ、タッチパッドまたはタッチスクリーンが含まれてもよい。Ｉ／Ｏデバイス８１０は、コンピューティング・デバイス８００の内蔵コンポーネントとすることができ、またはコンピューティング・デバイス８００に外部接続されているデバイスとすることができる。

プロセッサ８０２はまた、システム相互接続８０６を介して、コンピューティング・デバイス８００を表示デバイス８１４に接続するように適合された表示インターフェース８１２にリンクされてもよい。表示デバイス８１４は、コンピューティング・デバイス８００の内蔵コンポーネントである表示画面を含んでもよい。表示デバイス８１４はまた、とりわけ、コンピューティング・デバイス８００に外部接続されたコンピュータ・モニタ、テレビ、またはプロジェクタを含んでもよい。さらに、ネットワーク・インターフェース・コントローラ（ＮＩＣ）８１６は、システム相互接続８０６を介してコンピューティング・デバイス８００をネットワーク８１８に接続するように適合されてもよい。いくつかの実施形態において、ＮＩＣ８１６は、とりわけ、インターネット小型コンピュータ・システム・インターフェースなどの任意の適切なインターフェースまたはプロトコルを使用してデータを送信することができる。ネットワーク８１８は、とりわけ、セルラ・ネットワーク、無線ネットワーク、ワイド・エリア・ネットワーク（ＷＡＮ）、ローカル・エリア・ネットワーク（ＬＡＮ）、またはインターネットとすることができる。外部コンピューティング・デバイス８２０は、ネットワーク８１８を介してコンピューティング・デバイス８００に接続してもよい。いくつかの例において、外部コンピューティング・デバイス８２０は、外部ウェブサーバ８２０とすることができる。いくつかの例において、外部コンピューティング・デバイス８２０は、クラウド・コンピューティング・ノードとすることができる。

プロセッサ８０２はまた、システム相互接続８０６を介して、ハードドライブ、光学ドライブ、ＵＳＢフラッシュ・ドライブ、ドライブのアレイ、またはそれらの任意の組合せを含み得る記憶デバイス８２２にリンクされてもよい。いくつかの例において、記憶デバイスは、受信器８２４、主ネットワーク８２６、および訓練ネットワーク８２８を含んでもよい。受信器８２４は、多目的タスク用のデータを受信することができる。例えば、いくつかの目的が、損失関数の形式で受信されてもよい。目的のタスクは、他の可能なタスクの中でも、選択タスク、分類タスク、または生成タスクとすることができる。例えば、多目的タスクは、選択、分類、回帰、推奨、生成、またはその他のタイプの予測タスクを含むことができる。主ネットワーク８２６は、訓練ネットワーク８２８を介して、受信したデータに対して多目的タスクを実行するように訓練され得る。例えば、訓練ネットワーク８２８は、ミニマックス・ニューラル・ネットワークとすることができる。例えば、訓練ネットワーク８２８は、主ネットワークおよびデュアル・ネットワークを含むことができる。訓練ネットワーク８２８は、いくつかの目的を表すラグランジュ損失関数を使用して、主ネットワークおよびデュアル・ネットワークを多目的タスク用に訓練することができる。訓練ネットワーク８２８は、ラグランジュ損失関数を最小化するように主ネットワークを訓練し、ラグランジュ損失関数を最大化するようにデュアル・ネットワークを訓練する。いくつかの例において、多目的タスクは、有限状態空間および有限行動空間を含むマルコフ決定過程である。いくつかの例において、訓練ネットワーク８２８は、別の設定から学習された一般的な方策、またはランダムな初期化を使用して、主ネットワークを事前訓練する。訓練ネットワーク８２８は、訓練中、デュアル・ネットワークをランダムに初期化することができる。いくつかの例において、主ネットワークは、訓練中のデュアル・ネットワークのステップ・サイズよりも小さいステップ・サイズを有する。例えば、主ネットワークのステップ・サイズは、デュアル・ネットワークのステップ・サイズよりも１桁以上小さくてもよい。いくつかの例において、訓練ネットワーク８２８は、尤度比推定に基づいて勾配を推定することができる。例えば、訓練ネットワーク８２８は、図４の方法４００を使用して主ネットワークを訓練することができる。

図８のブロック図は、コンピューティング・デバイス８００が図８に示すコンポーネントのすべてを含むことを示すものではないことを理解されたい。むしろ、コンピューティング・デバイス８００は、より少ないコンポーネント、または図８に示されていない追加のコンポーネント（例えば、追加のメモリ・コンポーネント、組込みコントローラ、モジュール、追加のネットワーク・インターフェースなど）を含むことができる。さらに、受信器８２４、主ネットワーク８２６、および訓練ネットワーク８２８の機能のいずれかは、部分的または全体的に、ハードウェアまたはプロセッサ８０２あるいはその両方に実装されてもよい。例えば、機能は、とりわけ、特定用途向け集積回路、組込みコントローラに実装された論理、またはプロセッサ８０２に実装された論理で実装されてもよい。いくつかの実施形態において、受信器８２４、主ネットワーク８２６、および訓練ネットワーク８２８の機能は、論理で実装することができ、本明細書に記載の論理は、任意の適切なハードウェア（例えば、とりわけ、プロセッサなど）、ソフトウェア（例えば、とりわけ、アプリケーションなど）、ファームウェア、または、ハードウェア、ソフトウェア、およびファームウェアの任意の適切な組合せを含むことができる。

図９は、ミニマックス・ニューラル・ネットワーク・アーキテクチャを使用して訓練された主ネットワークを使用して自動化応答生成を実行することができる例示的なコンピューティング・デバイスのブロック図である。図９のコンピューティング・デバイス９００は、図８の同様に番号付けされた要素を含む。さらに、コンピューティング・デバイス９００は、応答表示器９０２および応答送信器９０４を含む。

例示的なコンピューティング・デバイス９００において、受信器８２４は、会話の接頭辞およびテキスト入力を受信することができる。例えば、会話の接頭辞は、第１のユーザと第２のユーザとの間の対話を含むことができ、テキスト入力は、完成応答の一部を含むことができる。主ネットワーク８２６は、訓練ネットワーク８２８を介して、また既存のデータセットを使用して、会話の接頭辞およびテキスト入力に基づいて完成応答を生成するように訓練される。例えば、訓練ネットワーク８２８は、ミニマックス・ニューラル・ネットワークとすることができる。例えば、訓練ネットワーク８２８は、複数の目的を表すラグランジュ損失関数を使用して訓練された主ネットワークおよびデュアル・ネットワークを含んでもよい。複数の目的には、目的の中でもとりわけ、パープレキシティの目的、関連性の目的、冗長性非尤度の目的、意味的非類似度の目的、意味的一貫性の目的、またはそれらの任意の組合せが含まれ得る。いくつかの例において、主ネットワークおよびデュアル・ネットワークは、異なるパラメータを有する長短期記憶（ＬＳＴＭ）モデルである。いくつかの例において、訓練される主ネットワーク８２６は、完成応答を生成することによってラグランジュ損失関数を最小化するように訓練され得る。デュアル・ネットワークは、ラグランジュ損失関数を最大化するように訓練される。応答表示器９０２は、主ネットワーク８２６によって生成された完成応答を表示することができる。例えば、応答表示器９０２は、完成応答を含む複数の完成応答を選択用にユーザに提示することができる。例えば、完成応答は、図７の（Ａ）および（Ｂ）のように、アプリケーション内にリストとして表示されてもよい。応答送信器９０４は、完成応答から選択された応答を受信し、選択された応答を第２のユーザに送信することができる。

次に図１０を参照すると、例示的なクラウド・コンピューティング環境１０００が示されている。図示のように、クラウド・コンピューティング環境１０００は、例えば、携帯情報端末（ＰＤＡ：personal digital assistant）もしくは携帯電話１００４Ａ、デスクトップ・コンピュータ１００４Ｂ、ラップトップ・コンピュータ１００４Ｃ、または自動車コンピュータ・システム１００４Ｎあるいはその組合せなどのクラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信することができる１つまたは複数のクラウド・コンピューティング・ノード１００２を含む。ノード１００２は、互いに通信してもよい。ノード１００２は、本明細書で上述したようなプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、またはハイブリッド・クラウドなどの１つまたは複数のネットワーク内で物理的にまたは仮想的にグループ化されてもよい（図示せず）。これにより、クラウド・コンピューティング環境１０００は、インフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せを、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを保持する必要のないサービスとして提供することが可能になる。図１０に示すコンピューティング・デバイス１００４Ａ～１００４Ｎのタイプは、例示のみを意図しており、コンピューティング・ノード１００２およびクラウド・コンピューティング環境１０００は、（例えば、ウェブ・ブラウザを使用して）任意のタイプのネットワークまたはネットワーク・アドレス指定可能な接続あるいはその両方を介して任意のタイプのコンピュータ化されたデバイスと通信できることを理解されたい。

次に図１１を参照すると、クラウド・コンピューティング環境１０００（図１０）によって提供される機能抽象化層のセットが示されている。図１１に示すコンポーネント、層、および機能は、例示のみを意図しており、本発明の実施形態はそれらに限定されないことをあらかじめ理解されたい。図示のように、以下の層および対応する機能が提供される。

ハードウェアおよびソフトウェア層１１００は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム、一例ではＩＢＭ（Ｒ）ｚＳｅｒｉｅｓ（Ｒ）システム、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベースのサーバ、一例ではＩＢＭｐＳｅｒｉｅｓ（Ｒ）システム、ＩＢＭｘＳｅｒｉｅｓ（Ｒ）システム、ＩＢＭＢｌａｄｅＣｅｎｔｅｒ（Ｒ）システム、記憶デバイス、ネットワークおよびネットワーキング・コンポーネントが含まれる。ソフトウェア・コンポーネントの例には、ネットワーク・アプリケーション・サーバ・ソフトウェア、一例ではＩＢＭＷｅｂＳｐｈｅｒｅ（Ｒ）アプリケーション・サーバ・ソフトウェア、およびデータベース・ソフトウェア、一例ではＩＢＭＤＢ２（Ｒ）データベース・ソフトウェアが含まれる。（ＩＢＭ、ｚＳｅｒｉｅｓ、ｐＳｅｒｉｅｓ、ｘＳｅｒｉｅｓ、ＢｌａｄｅＣｅｎｔｅｒ、ＷｅｂＳｐｈｅｒｅ、およびＤＢ２は、世界中の多くの法域で登録されたＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎの商標である。）

仮想化層１１０２は、抽象化層を提供し、この層から仮想エンティティの以下の例、すなわち、仮想サーバ、仮想ストレージ、仮想プライベート・ネットワークを含む仮想ネットワーク、仮想アプリケーションおよびオペレーティング・システム、ならびに仮想クライアントが提供され得る。一例では、管理層１１０４は、以下に記載の機能を提供することができる。リソース・プロビジョニングは、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的な調達を提供する。計量および価格決定は、クラウド・コンピューティング環境内でリソースが利用されるときのコスト追跡、およびこれらのリソースの消費に対する課金または請求を提供する。一例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含むことがある。セキュリティは、クラウド・コンシューマおよびタスクのための本人確認、ならびにデータおよび他のリソースのための保護を提供する。ユーザ・ポータルは、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソースの割当ておよび管理を提供する。サービス・レベル・アグリーメント（ＳＬＡ）の計画および履行は、ＳＬＡに従って将来において要求されることが予想されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。

ワークロード層１１０６は、クラウド・コンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例には、マッピングおよびナビゲーション、ソフトウェア開発およびライフサイクル管理、仮想教室教育配信、データ分析処理、トランザクション処理、ならびに多目的タスク処理が含まれる。

本技術は、システム、方法、またはコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実施させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（または複数のコンピュータ可読記憶媒体）を含んでもよい。

コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピ・ディスク、パンチカードまたは命令が記録された溝内の隆起構造などの機械的に符号化されたデバイス、および上記の任意の適切な組合せが含まれる。本明細書で使用する場合、コンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を介して伝播する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、または電線を介して送信される電気信号などの、一過性の信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワークまたはその組合せを介して外部コンピュータもしくは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを含んでもよい。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体での記憶のために転送する。

本技術の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語および「Ｃ」プログラミング言語もしくは同様のプログラム言語などの手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組合せで書かれたコードもしくはオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータ上もしくはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して行われてもよい。いくつかの実施形態では、本技術の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路をパーソナライズすることによって、電子回路がコンピュータ可読プログラム命令を実行してもよい。

本技術の態様は、本技術の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら本明細書で説明されている。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実施され得ることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作を実施するための手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってもよい。また、これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作の態様を実施する命令を含む製造品を含むように、コンピュータ可読媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに対して特定の方式で機能するように指示できるものであってもよい。

また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作を実施するように、コンピュータ実施プロセスを作り出すべくコンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

ここで図１２を参照すると、多目的タスクを実行するように主ネットワークを訓練することができる例示的な有形の非一過性コンピュータ可読媒体１２００のブロック図が示されている。有形の非一過性コンピュータ可読媒体１２００は、コンピュータ相互接続１２０４を介してプロセッサ１２０２によってアクセスされてもよい。さらに、有形の非一過性コンピュータ可読媒体１２００は、プロセッサ１２０２に図２の方法２００および図４の方法４００の動作を実行するように指示するコードを含んでもよい。

図１２に示すように、本明細書に述べる様々なソフトウェア・コンポーネントは、有形の非一過性コンピュータ可読媒体１２００上に記憶されてもよい。例えば、ネットワーク訓練モジュール１２０６は、複数の目的を表すラグランジュ損失関数を使用して主ネットワークおよびデュアル・ネットワークを多目的タスク用に訓練するためのコードを含む。ネットワーク訓練モジュール１２０６はまた、ラグランジュ損失関数を最小化するように主ネットワークを訓練し、ラグランジュ損失関数を最大化するようにデュアル・ネットワークを訓練するためのコードを含む。ネットワーク訓練モジュール１２０６はまた、有限状態空間および有限行動空間を含むマルコフ決定過程として多目的タスクを処理するためのコードも含むことができる。様々な例において、ネットワーク訓練モジュール１２０６は、既存のデータセット、シミュレータ、環境からのフィードバック、またはそれらの任意の組合せを使用して、主ネットワークとデュアル・ネットワークとを交互に訓練するためのコードを含む。いくつかの例において、ネットワーク訓練モジュール１２０６は、別の設定から学習された一般的な方策を使用して、または訓練中に主ネットワークをランダムに初期化することによって主ネットワークを事前訓練するためのコードを含む。様々な例において、ネットワーク訓練モジュール１２０６は、訓練中にデュアル・ネットワークをランダムに初期化するためのコードを含む。いくつかの例において、ネットワーク訓練モジュール１２０６は、尤度比に基づいて主ネットワークおよびデュアル・ネットワークの勾配を推定するためのコードを含む。いくつかの例において、ネットワーク訓練モジュール１２０６は、主ネットワークおよびデュアル・ネットワークの異なるステップ・サイズに基づいて、主ネットワークおよびデュアル・ネットワークの方策勾配を更新するためのコードを含む。受信器モジュール１２０８は、複数の目的を含む多目的タスク用のデータを受信するためのコードを含む。主ニューラル・ネットワーク・モジュール１２１０は、訓練済みの主ネットワークを介して、受信したデータに対して複数の目的を含む多目的タスクを実行するためのコードを含む。有形の非一過性コンピュータ可読媒体１２００内には、特定の用途に応じて、図１２に示されていない任意の数の追加のソフトウェア・コンポーネントが含まれ得ることを理解されたい。

ここで図１３を参照すると、自動化応答生成を実行するように主ネットワークを訓練することができる例示的な有形の非一過性コンピュータ可読媒体１３００のブロック図が示されている。有形の非一過性コンピュータ可読媒体１３００は、コンピュータ相互接続１３０４を介してプロセッサ１３０２によってアクセスされてもよい。さらに、有形の非一過性コンピュータ可読媒体１３００は、プロセッサ１３０２に上記の図３の方法３００および図５の方法５００の動作を実行するように指示するコードを含んでもよい。

図１３に示すように、本明細書に述べる様々なソフトウェア・コンポーネントは、有形の非一過性コンピュータ可読媒体１３００上に記憶されてもよい。例えば、ネットワーク訓練モジュール１３０６は、複数の目的を表すラグランジュ損失関数を最小化するように主ネットワークを訓練し、ラグランジュ損失関数を最大化するようにデュアル・ネットワークを訓練するためのコードを含む。ネットワーク訓練モジュール１３０６はまた、会話のターンの第１の制限を使用してミニマックス・ニューラル・ネットワークを訓練し、制限を会話のターンの第２の制限まで段階的に増加させるためのコードを含むことができる。一例として、第１の制限を、会話の２つのターンとすることができ、第２の制限を、会話の５つのターンとすることができる。受信器モジュール１３０８は、会話の接頭辞およびテキスト入力を受信するためのコードを含む。主ニューラル・ネットワーク・モジュール１３１０は、会話の接頭辞およびテキスト入力に基づいて完成応答を生成するためのコードを含む。例えば、主ニューラル・ネットワーク・モジュール１３１０は、テキスト入力で始まる文を単語単位で反復的に構築するためのコードを含むことができる。主ニューラル・ネットワーク・モジュール１３１０はまた、複数の完成応答を生成するためのコードも含む。例えば、主ニューラル・ネットワーク・モジュール１３１０は、ビーム探索を使用して完成応答を含む複数の完成応答を生成するためのコードを含むことができる。応答表示器モジュール１３１２は、完成応答を含む複数の完成応答を選択用にユーザに提示するためのコードを含む。応答送信器モジュール１３１４は、完成応答から選択された応答を受信し、選択された応答を第２のユーザに送信するためのコードを含む。応答送信器モジュール１３１４は、完成応答の信頼度スコアが閾値スコアを超えたことを検出したことに応答して、完成応答を問合せへの応答として自動的に送信するコードを含むことができる。有形の非一過性コンピュータ可読媒体１３００内には、特定の用途に応じて、図１３に示されていない任意の数の追加のソフトウェア・コンポーネントが含まれ得ることを理解されたい。

図中のフローチャートおよびブロック図は、本技術の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実装するための１つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または一部を表すことがある。いくつかの代替の実装形態では、ブロックに記載された機能は、図に記載された順序とは異なる順序で行われてもよい。例えば、連続して示されている２つのブロックは、実際には、関与する機能に応じて、実質的に同時に実行されてもよく、またはそれらのブロックは、場合によっては逆の順序で実行されてもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定された機能または動作を実行するか、あるいは専用ハードウェアとコンピュータ命令との組合せを実行する専用ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。有形の非一過性コンピュータ可読媒体１２００および１３００内には、特定の用途に応じて、図１２および図１３に示されていない任意の数の追加のソフトウェア・コンポーネントが含まれ得ることが理解されよう。

本技術の様々な実施形態の説明を例示の目的で提示してきたが、網羅的であることも、開示された実施形態に限定されることも意図されていない。当業者には、説明した実施形態の範囲および思想から逸脱することなく多くの変更形態および変形形態が明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の適用例、もしくは市場で見られる技術を超える技術的な改良を最もよく説明するように、または本明細書で開示される実施形態を当業者が理解することが可能になるように選択されたものである。

Claims

プロセッサを含むシステムであって、前記プロセッサが、
多目的タスク用のデータを受信し、
訓練済みの主ネットワークを介して、受信した前記データに対して前記多目的タスクを実行し、前記主ネットワークおよびデュアル・ネットワークが、複数の目的を表すラグランジュ損失関数を使用して多目的タスク用に訓練され、前記主ネットワークが前記ラグランジュ損失関数を最小化するように訓練され、前記デュアル・ネットワークが前記ラグランジュ損失関数を最大化するように訓練される、システム。
前記多目的タスクが、有限状態空間および有限行動空間を含むマルコフ決定過程を含む、請求項１に記載のシステム。
前記主ネットワークが、別の設定から学習された一般的な方策またはランダムな初期化を使用して事前訓練される、請求項１に記載のシステム。
前記デュアル・ネットワークが、訓練中にランダムに初期化される、請求項１に記載のシステム。
前記主ネットワークが、訓練中の前記デュアル・ネットワークのステップ・サイズとは異なるステップ・サイズを含む、請求項１に記載のシステム。
前記プロセッサが、尤度比推定に基づいて勾配を推定するように動作可能である、請求項１に記載のシステム。
前記多目的タスクが、選択、分類、回帰、推奨、生成、または予測タスクを含む、請求項１に記載のシステム。
前記プロセッサが受信するように動作可能である前記データが、会話の接頭辞およびテキスト入力であり、前記プロセッサが、前記訓練済みの主ネットワークを介して前記会話の接頭辞および前記テキスト入力に基づいて完成応答を生成するように動作可能である、請求項１に記載のシステム。
前記プロセッサが、
複数の完成応答を生成し、
前記完成応答を含む前記複数の完成応答を選択用にユーザに提示し、
前記完成応答から選択された応答を受信し、
前記選択された応答を第２のユーザに送信する
ように動作可能である、請求項８に記載のシステム。
前記会話の接頭辞が第１のユーザと第２のユーザとの間の対話を含み、前記テキスト入力が前記完成応答の一部を含む、請求項８に記載のシステム。
前記主ネットワークおよび前記デュアル・ネットワークが、異なるパラメータおよび場合によっては追加のネットワーク要素を有する長短期記憶（ＬＳＴＭ）モデルを含む、請求項８に記載のシステム。
前記複数の目的が、パープレキシティの目的または関連性の目的を含む、請求項８に記載のシステム。
前記複数の目的が、冗長性非尤度の目的または意味的非類似度の目的を含む、請求項８に記載のシステム。
前記複数の目的が、意味的一貫性の目的を含む、請求項１３に記載のシステム。
コンピュータ実施方法であって、
複数の目的を表すラグランジュ損失関数を使用して主ネットワークおよびデュアル・ネットワークを多目的タスク用に訓練することであって、前記主ネットワークおよび前記デュアル・ネットワークを訓練することが、前記ラグランジュ損失関数を最小化するように前記主ネットワークを訓練し、前記ラグランジュ損失関数を最大化するように前記デュアル・ネットワークを訓練することを含む、前記訓練することと、
前記多目的タスク用のデータを受信することと、
前記訓練済みの主ネットワークを介して、受信した前記データに対して前記多目的タスクを実行することと
を含む、コンピュータ実施方法。
前記多目的タスクを、有限状態空間および有限動作空間を含むマルコフ決定過程として含む、請求項１５に記載のコンピュータ実施方法。
別の設定から学習された一般的な方策を使用して、または訓練中に前記主ネットワークをランダムに初期化して、前記主ネットワークを事前訓練することを含む、請求項１５に記載のコンピュータ実施方法。
訓練中に前記デュアル・ネットワークをランダムに初期化することを含む、請求項１５に記載のコンピュータ実施方法。
前記主ネットワークおよび前記デュアル・ネットワークを訓練することが、尤度比に基づいて前記主ネットワークおよび前記デュアル・ネットワークの勾配を推定することを含む、請求項１５に記載のコンピュータ実施方法。
前記主ネットワークおよび前記デュアル・ネットワークの異なるステップ・サイズに基づいて、前記主ネットワークおよび前記デュアル・ネットワークの方策勾配を更新することを含む、請求項１５に記載のコンピュータ実施方法。
前記主ネットワークおよび前記デュアル・ネットワークを訓練することが、前記主ネットワークおよび前記デュアル・ネットワークを交互に訓練することを含む、請求項１５に記載のコンピュータ実施方法。
受信される前記データが、会話の接頭辞およびテキスト入力であり、前記方法が、
前記訓練済みの主ネットワークを介して前記会話の接頭辞および前記テキスト入力に基づいて完成応答を生成すること含む、請求項１５に記載のコンピュータ実施方法。
複数の完成応答を生成することと、
前記完成応答を含む前記複数の完成応答を選択用にユーザに提示することと、
前記完成応答から選択された応答を受信することと、
前記選択された応答を第２のユーザに送信することと
を含む、請求項２２に記載のコンピュータ実施方法。
前記完成応答の信頼度スコアが閾値スコアを超えたことを検出したことに応答して、前記完成応答を問合せへの応答として送信すること
を含む、請求項２２に記載のコンピュータ実施方法。
前記完成応答を生成することが、前記テキスト入力で始まる前記完成応答を単語単位で反復的に構築することを含む、請求項２２に記載のコンピュータ実施方法。
前記完成応答を生成することが、複数の完成応答を生成するためのビーム探索を含む、請求項２２に記載のコンピュータ実施方法。
会話のターンの第１の制限を使用し、前記第１の制限を会話のターンの第２の制限まで段階的に増加させて、主ネットワークを訓練することを含む、請求項２２に記載のコンピュータ実施方法。
訓練データセット内のすべてのシーケンス間で冗長な応答を生成する尤度が低いシーケンスを使用して前記主ネットワークを訓練することを含む、請求項２２に記載のコンピュータ実施方法。
多目的タスクを実行するようにニューラル・ネットワークを訓練するためのコンピュータ・プログラム製品であって、プログラム・コードが具現化されたコンピュータ可読記憶媒体を含み、前記コンピュータ可読記憶媒体が、一過性の信号自体ではなく、前記プログラム・コードが、プロセッサに、
複数の目的を表すラグランジュ損失関数を使用して主ネットワークおよびデュアル・ネットワークを多目的タスク用に訓練することと、
前記ラグランジュ損失関数を最小化するように前記主ネットワークを訓練し、前記ラグランジュ損失関数を最大化するように前記デュアル・ネットワークを訓練することと、
前記多目的タスク用のデータを受信することと、
前記訓練済みの主ネットワークを介して、受信した前記データに対して前記多目的タスクを実行することと
を行わせるように、前記プロセッサによって実行可能である、コンピュータ・プログラム製品。
既存のデータセット、シミュレータ、環境からのフィードバック、またはそれらの任意の組合せを使用して前記主ネットワークおよび前記デュアル・ネットワークを訓練するように、前記プロセッサによって実行可能であるプログラム・コードをさらに含む、請求項２９に記載のコンピュータ・プログラム製品。
別の設定から学習された一般的な方策を使用して、または訓練中に前記主ネットワークをランダムに初期化することによって前記主ネットワークを事前訓練するように、前記プロセッサによって実行可能であるプログラム・コードをさらに含む、請求項２９に記載のコンピュータ・プログラム製品。
尤度比に基づいて前記主ネットワークおよび前記デュアル・ネットワークの勾配を推定するように、前記プロセッサによって実行可能であるプログラム・コードをさらに含む、請求項２９に記載のコンピュータ・プログラム製品。
前記主ネットワークおよび前記デュアル・ネットワークの異なるステップ・サイズに基づいて前記主ネットワークおよび前記デュアル・ネットワークの方策勾配を更新するように、前記プロセッサによって実行可能であるプログラム・コードをさらに含む、請求項２９に記載のコンピュータ・プログラム製品。
訓練中に前記デュアル・ネットワークをランダムに初期化するように、前記プロセッサによって実行可能であるプログラム・コードをさらに含む、請求項２９に記載のコンピュータ・プログラム製品。
受信される前記データが、会話の接頭辞およびテキスト入力であり、前記プログラム・コードが、前記プロセッサに、
前記訓練済みの主ネットワークを介して前記会話の接頭辞および前記テキスト入力に基づいて完成応答を生成することを行わせるように、前記プロセッサによって実行可能である、請求項２９に記載のコンピュータ・プログラム製品。
複数の完成応答を生成し、
前記完成応答を含む前記複数の完成応答を選択用にユーザに提示し、
前記完成応答から選択された応答を受信し、
前記選択された応答を第２のユーザに送信する
ように、前記プロセッサによって実行可能であるプログラム・コードをさらに含む、請求項３５に記載のコンピュータ・プログラム製品。
前記完成応答の信頼度スコアが閾値スコアを超えたことを検出したことに応答して、前記完成応答を問合せへの応答として送信する
ように、前記プロセッサによって実行可能であるプログラム・コードをさらに含む、請求項３５に記載のコンピュータ・プログラム製品。
前記テキスト入力で始まる文を単語単位で反復的に構築するように、前記プロセッサによって実行可能であるプログラム・コードをさらに含む、請求項３５に記載のコンピュータ・プログラム製品。
ビーム探索を使用して前記完成応答を含む複数の完成応答を生成するように、前記プロセッサによって実行可能であるプログラム・コードをさらに含む、請求項３５に記載のコンピュータ・プログラム製品。
会話のターンの第１の制限を使用して前記主ネットワークを訓練し、前記第１の制限を会話のターンの第２の制限まで段階的に増加させるように、前記プロセッサによって実行可能であるプログラム・コードをさらに含む、請求項３５に記載のコンピュータ・プログラム製品。
前記プログラムがコンピュータ上で実行されると、請求項１ないし２８のいずれかに記載の方法を実行するように適合されたプログラム・コード手段を含むコンピュータ・プログラム。