JP7412101B2

JP7412101B2 - 強化学習エージェントを使用して交渉タスクを実行するための方法及びシステム

Info

Publication number: JP7412101B2
Application number: JP2019129229A
Authority: JP
Inventors: サンダービシャル; ビグラブケッシュ; チャタジーアーナブ; シュロフゴータム
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2018-07-13
Filing date: 2019-07-11
Publication date: 2024-01-12
Anticipated expiration: 2039-07-11
Also published as: EP3594891A1; JP2020013568A; BR102019014512A2; CA3049235A1; US11521281B2; US20200020061A1; CA3049235C

Description

本出願は、その全開示内容が全体として参照により本明細書に組み込まれている、２０１８年７月１３日に出願されたインド特許出願第（２０１８２１０２６１９８）号の優先権を主張する。

本開示は、一般に、交渉タスクの自動化に関し、より詳細には、強化学習エージェントを使用して交渉タスクを実行するための方法及びシステムに関する。

交渉は、異なる目標を有するエージェントが契約合意書の共同決定に同意することを試みる、複雑な意思決定プロセスである。一般に、複雑な取り決めは、複数の関係者並びに契約合意に達するための複数の交渉インタラクションを含むことが多い。契約合意書の内容に関する総意に達するためのプロセスは、交渉条件及び交渉関係者に起因して、しばしば費用及び時間のかかるタスクである。伝統的な交渉方法は、人手を必要とする直接交渉を含む。そのような交渉対話は、協力的要素と敵対的要素の両方を含み、人間エージェントが、自身の目標を達成するために、発言を理解し、計画し、及び生み出すために時間を費やす。交渉プロセスにおける完全な自動化は、関心のあるトピックである。

交渉プロセスの自動化を試みる既存のシステムでは、エージェント又は機械エージェントは、相手の交渉履歴を最大限に利用する、強化学習戦略で訓練される。交渉エージェントは、より好ましく、より良い交渉結果を得るために時間内に相手の交渉エージェントの意見を動的に調整し、相手の申し出のタイプの決定を行う。しかしながら、既存のシステムは、契約交渉の１つ又は複数の異なる行動パターンでエージェントを訓練し、それにより、交渉タスクを実行し、スケーラビリティを改善するためにエージェントによって利用される時間を減らすのに限界がある。

別の既存のシステムにおいて、データの利用可能性を有する交渉のためのモデリング・ディープ・エージェントは、強化学習技法を使用して人間を模倣するように訓練され得る。これらのモデルは、異なるドメインにわたる１つ又は複数のリソースから収集された訓練データを必要とする。しかしながら、既存のシステムは、契約交渉のための人間として、異なる行動のパターンで訓練された強化学習エージェントを採用することに限界がある。

本開示の実施例は、従来のシステムにおいて本発明者らによって認識された前述の技術的問題のうちの１つ又は複数に対する解決策としての技術的改善策を提示する。たとえば、１つの実施例では、強化学習を使用して交渉タスクを実行するためのシステムが提供される。本システムは、プロセッサ、入力／出力（Ｉ／Ｏ）インターフェース、及びプロセッサに結合されたメモリを含み、交渉タスクのために事前に定義された１組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で、メモリにおいてプロセッサに記憶されたプログラムされた指示を実行して、プロセッサによって実装された交渉エージェントによって交渉タスクを実行するための要求を受信することができ、ここで、交渉エージェント及び相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを含む。さらに、相手エージェントの複数の行動モデルと交渉エージェントは、複数の中間契約提案に合意するために、１対１で交渉し、ここで、交渉エージェントと相手エージェントとの各々の間の交渉は、交渉訓練手順に従う。さらに、セレクタ・エージェントは、交渉訓練手順に基づいて交渉エージェントと相手エージェントとの間の交渉を実行することによって生成された複数の中間契約提案から最適な契約提案を選択し、ここで、セレクタ・エージェントは、交渉エージェント及び相手エージェントの複数の行動モデルのアンサンブルである。

もう１つの態様では、強化学習エージェントを使用して交渉タスクを実行するための方法が提供される。本方法は、交渉タスクのために事前に定義された１組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で、プロセッサによって実装された交渉エージェントによって交渉タスクを実行するための要求を受信するステップを含み、ここで、交渉エージェント及び相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える。さらに、複数の中間契約提案に合意するために、相手エージェントの複数の行動モデルと交渉エージェントは、１対１で交渉し、ここで、交渉エージェントと相手エージェントとの各々の間の交渉は交渉訓練手順に従う。さらに、セレクタ・エージェントは、交渉訓練手順に基づいて交渉エージェントと相手エージェントとの間の交渉を実行することによって生成された複数の中間契約提案から最適な契約提案を選択し、ここで、セレクタ・エージェントは、交渉エージェント及び相手エージェントの複数の行動モデルのアンサンブルである。

さらに別の態様では、交渉タスクのための予め定義された１組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で、プロセッサによって実装された交渉エージェントによって交渉タスクを実行するための要求を受信するための方法を実行するためのコンピュータ・プログラムがそこに具現化された非一時的コンピュータ可読媒体であり、交渉エージェント及び相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える。さらに、複数の中間契約提案に合意するために、相手エージェントの複数の行動モデルと交渉エージェントは、１対１で交渉し、ここで、交渉エージェントと相手エージェントとの各々の間の交渉は交渉訓練手順に従う。さらに、セレクタ・エージェントは、交渉訓練手順に基づいて交渉エージェントと相手エージェントとの間の交渉を実行することによって生成された複数の中間契約提案から最適な契約提案を選択し、ここで、セレクタ・エージェントは、交渉エージェント及び相手エージェントの複数の行動モデルのアンサンブルである。

前述の一般的説明及び以下の詳細な説明の両方は、単に例示的且つ説明的なものであり、特許請求されているような本発明を限定するものではないことを理解されたい。

本開示に組み込まれ、その一部を構成する、添付の図面は、例示的な実施例を示し、説明とともに、開示されている原理を説明する役割を果たす。

本開示の一実施例による強化学習エージェントを使用して交渉タスクを実行する交渉システムのネットワーキング実装形態を示す図である。本開示の別の実施例による強化学習エージェントを使用して交渉タスクを実行する交渉システムの例示的ブロック図である。本開示の一実施例による、図１の交渉システムの交渉タスク強化学習エージェントを実行するための方法のステップを示すフロー図３００である。本開示の一実施例による、強化学習エージェントの間の交渉タスク交渉インタラクションに関連する１組の条項について強化学習エージェントが互いに交渉する、交渉システムの例示的アーキテクチャを示す図である。本開示の一実施例による、図２の強化学習エージェントを使用して交渉タスクを実行する交渉システムの例示的アーキテクチャを示す図である。本開示の一実施例による、実行される交渉タスクについて取られるアクションのシーケンスの頻度分布に基づく複数の行動モデルに対応する強化学習エージェントのパフォーマンス評価を示す図である。本開示の一実施例による、強化学習エージェントによって実行される交渉タスクのためのセレクタ・エージェントを使用して最適な契約提案を選択するための頻度分布値を示す図である。

例示的な実施例が、添付の図面を参照して説明される。図面において、参照番号の最も左の数字は、その参照番号が最初に現れる図面を識別する。都合によりいつでも、同じ参照番号が、複数の図面を通して、同じ又は類似の部分を参照するために使用される。開示される原理の実例及び特徴が、本明細書において説明されるが、修正形態、適合、及び他の実装形態が、開示される実施例の趣旨及び範囲を逸脱せずに可能である。以下の詳細な説明は単に例示として解釈され、真の範囲及び趣旨は以下の特許請求の範囲によって示されることが、意図されている。

本明細書内の実施例は、強化学習エージェントを使用して交渉タスクを実行するための方法及びシステムを用意する。交渉タスクを実行する強化学習エージェントは、単純な通信プロトコルを使用して交渉のために互いに通信する。本明細書において交渉タスクは、最適な契約提案を得るために２つの強化学習エージェントの間で交渉される必要がある複数の条項を備えた、任意の契約合意書、私文書、ライセンス文書、法律文書及び／又は機密文書を指す。本明細書の強化学習エージェントは、交渉エージェント及び相手エージェントを含み、これらは、受信された交渉タスクを実行するための交渉システムのエージェントのリポジトリ内にある。交渉システムは、交渉モジュール２１２及びエージェントのリポジトリ２１４を備える。交渉モジュール２１２は、交渉エージェント、相手エージェント及びセレクタ・エージェントを含む。１人のユーザが売り手でもよく、他方のユーザが買い手でもよいように、交渉タスクは、交渉に関与する１人又は複数のユーザから取得され得る。交渉システムの交渉エージェント及び相手エージェントは、最初に、ユーザから交渉タスクを受信する。交渉タスクは、交渉タスクのために事前に定義された１組の条項からの複数の条項を含む。交渉エージェント及び相手エージェントの各々は、互いに対する交渉レベルのいくつかのラウンドを行うことによって複数の行動モデルを取得する。複数の行動モデルは、交渉タスクのパフォーマンス中の相手エージェントの行動の態様とペアにされた交渉エージェントの行動の態様を反映する、利己的－利己的（ＳＳ：Ｓｅｌｆｉｓｈ－Ｓｅｌｆｉｓｈ）モデル、利己的－向社会的（ＳＰ：Ｓｅｌｆｉｓｈ－Ｐｒｏｓｏｃｉａｌ）モデル、向社会的－利己的（ＰＳ：Ｐｒｏｓｏｃｉａｌ－Ｓｅｌｆｉｓｈ）モデル及び向社会的－向社会的（ＰＰ：Ｐｒｏｓｏｃｉａｌ－Ｐｒｏｓｏｃｉａｌ）モデルを含む。さらに、複数の行動モデルを有する交渉エージェント及び複数の行動モデルを有する相手エージェントが、エージェントのリポジトリに記憶される。

交渉タスクの実行を目的として、複数の行動モデルを有する交渉エージェントは、最適な契約提案に合意するために、前記条項について相手エージェントの複数の行動モデルで各条項について交渉する。ここで、交渉エージェント及び相手エージェントは、複数の中間契約提案を生成するために交渉訓練手順で訓練される。さらに、交渉システムに関連付けられたセレクタ・エージェントが、複数の中間契約提案の各々によって得られた報酬関数に基づいて複数の中間契約提案から中間契約提案を選択する。ここで、セレクタ・エージェントは、交渉エージェント及び相手エージェントの複数の行動モデルのアンサンブルである。

図面、より具体的には図１から７をここで参照すると、類似の参照文字は、複数の図面を通して一貫して対応する特徴を示し、好ましい実施例が示されており、これらの実施例は、以下の例示的システム及び／又は方法に関連して説明される。

図１は、本開示の一実施例による強化学習エージェントを使用して交渉タスクを実行する交渉システムのネットワーキング実装形態を示す。交渉システム１０２と代替的に呼ばれるシステム１０２は、１人又は複数のユーザから交渉タスクを受信するように構成される。交渉システム１０２は、コンピューティング・デバイス、たとえばコンピューティング・デバイス１０４、において実施され得る。交渉システム１０２はサーバで実装されると考えて、本開示は、説明されるが、交渉システム１０２はまた、ラップトップ・コンピュータ、デスクトップ・コンピュータ、ノートブック、ワークステーション、クラウドベースのコンピューティング環境など、様々なコンピューティング・システムにおいて実装され得ることが理解され得る。一実装形態において、交渉システム１０２は、クラウドベースの環境において実装され得る。交渉システム１０２は、以下でユーザ・デバイス１０４と集合的に呼ばれる、１つ又は複数のユーザ・デバイス１０４－１、１０４－２…１０４－Ｎ、又はユーザ・デバイス１０４にあるアプリケーションを介して複数のユーザによってアクセスされ得ることが理解されよう。ユーザ・デバイス１０４の例は、ポータブル・コンピュータ、携帯情報端末、ハンドヘルド・デバイス、スマートフォン、タブレット・コンピュータ、ワークステーションなどを含み得るが、これらに限定されない。ユーザ・デバイス１０４は、ネットワーク１０６を介してシステム１０２に通信可能なように結合される。

一実施例において、ネットワーク１０６は、ワイヤレス又はワイヤード・ネットワーク、又はその組合せでもよい。一実例において、ネットワーク１０６は、仮想プライベート・ネットワーク（ＶＰＮ：ｖｉｒｔｕａｌｐｒｉｖａｔｅｎｅｔｗｏｒｋ）、イントラネット、ローカル・エリア・ネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ワイド・エリア・ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、インターネットなど、異なるタイプのネットワークのうちの１つとして、コンピュータ・ネットワークとして、実装することができる。ネットワーク１０６は、互いに通信するための、様々なプロトコル、たとえば、ハイパーテキスト転送プロトコル（ＨＴＴＰ：ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）、伝送制御プロトコル／インターネット・プロトコル（ＴＣＰ／ＩＰ：ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ／ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）、及びワイヤレス・アプリケーション・プロトコル（ＷＡＰ：ＷｉｒｅｌｅｓｓＡｐｐｌｉｃａｔｉｏｎＰｒｏｔｏｃｏｌ）、を使用する異なるタイプのネットワークの関連付けを表す、専用ネットワーク又は共用ネットワークのいずれかでもよい。さらに、ネットワーク１０８は、ルータ、ブリッジ、サーバ、コンピューティング・デバイス、記憶デバイスを含む、様々なネットワーク・デバイスを含み得る。ネットワーク１０６内のネットワーク・デバイスは、通信リンクを介して交渉システム１０２と相互作用し得る。前述のように、交渉システム１０２は、ハンドヘルド・デバイス、ラップトップ又は他のポータブル・コンピュータ、タブレット・コンピュータ、携帯電話、ＰＤＡ、スマートフォン、及びデスクトップ・コンピュータなど、コンピューティング・デバイス１０４において実装され得る。交渉システム１０２はまた、ワークステーション、メインフレーム・コンピュータ、サーバ、及びネットワーク・サーバにおいて実装され得る。交渉システム１０２の構成要素及び機能が、図２及び図３を参照して、さらに詳しく説明される。

図２は、本開示の別の実施例で強化学習エージェントを使用して交渉タスクを実行する交渉システムの例示的ブロック図である。例示的な一実施例において、交渉システム１０２は、システム、たとえば交渉システム１０２（図１）、において実施され得る、又はこのシステムと直接通信する。交渉システム２００は、プロセッサ２０２などの１つ又は複数のハードウェア・プロセッサ、メモリ２０４などの少なくとも１つのメモリ、及びＩ／Ｏインターフェース２０６、交渉モジュール２１２及びエージェントのリポジトリ２１４を含む、又はこれらと他の方法で通信する。一実施例において、交渉モジュール２１６は、交渉システム１０２内の独立型ユニットとして実装することができる。別の実施例において、交渉モジュール２１２は、メモリ２０４内のモジュールとして実装することができる。プロセッサ２０２、メモリ２０４、及びＩ／Ｏインターフェース２０６、モジュール２０８は、システム・バス２１０などのシステム・バス又は類似の機構によって、結合され得る。

Ｉ／Ｏインターフェース２０６は、様々なソフトウェア及びハードウェア・インターフェース、たとえば、ウェブ・インターフェース、グラフィカル・ユーザ・インターフェース、などを含み得る。インターフェース２０６は、様々なソフトウェア及びハードウェア・インターフェース、たとえば、キーボード、マウス、外部メモリ、カメラ・デバイス、及びプリンタなど、周辺デバイスのためのインターフェース、を含み得る。さらに、インターフェース２０６は、システム１０２が、ウェブ・サーバ及び外部データベースなど、他のデバイスと通信することを可能にし得る。インターフェース２０６は、ワイヤード・ネットワーク、たとえば、ローカル・エリア・ネットワーク（ＬＡＮ）、ケーブルなど、と、ワイヤレスＬＡＮ（ＷＬＡＮ）、セルラ、又は衛星などのワイヤレスネットワークとを含む、多種多様なネットワーク及びプロトコル・タイプ内の複数の通信を円滑にすることができる。この目的のために、インターフェース２０６は、いくつかのコンピューティング・システムを互いに又は別のサーバ・コンピュータに接続するための１つ又は複数のポートを含み得る。Ｉ／Ｏインターフェース２０６は、いくつかのデバイスを互いに又は別のサーバに接続するための１つ又は複数のポートを含み得る。

ハードウェア・プロセッサ２０２は、１つ又は複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル・シグナル・プロセッサ、中央処理装置、ステート・マシン、論理回路、及び／又は、動作指示に基づいてシグナルを操作する任意のデバイスとして、実装され得る。数ある能力の中でも、ハードウェア・プロセッサ２０２は、メモリ２０４に記憶されたコンピュータ可読指示をフェッチ及び実行するように構成される。メモリ２０４は、たとえば、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）及びダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ：ｄｙｎａｍｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）などの揮発性メモリ、及び／又は読み取り専用メモリ（ＲＯＭ：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、消去可能プログラム可能ＲＯＭ、フラッシュ・メモリ、ハード・ディスク、光ディスク、及び磁気テープなどの不揮発性メモリを含む、当技術分野において知られている任意のコンピュータ可読媒体を含み得る。一実施例において、メモリ２０４は、モジュール２０８のうちの１つ又は複数によって受信及び生成される、複数のモジュール２０８を含む。モジュール２０８は、特定のタスクを実行する又は特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造体などを含み得る。システム２００の交渉モジュール２１２は、訓練された交渉エージェント及び相手エージェントと交渉されることになる１人又は複数のユーザからの契約提案を受信するように構成することができる。

図３は、本開示の一実例による、図１の交渉システムの強化学習エージェントを使用して交渉タスクを実行するための方法のステップを示すフロー図３００である。一実施例において、システム１００は、１つ又は複数のデータ記憶デバイス、或いは、１つ又は複数のプロセッサ１０４に動作可能なように結合されたメモリ１０２を備え、モジュール１０８のうちの様々なモジュールとともに１つ又は複数のプロセッサ（代替的に、プロセッサ（複数可）と呼ばれる）１０４によって方法３００のステップを実行するための指示を記憶するように構成される。本開示の方法３００のステップが、図１に示すようなシステム１００の構成要素又はブロックと、図２から７に示すようなフロー図のステップとを参照して、ここで説明される。プロセスのステップ、方法のステップ、技法などは、順番に記述され得るが、そのようなプロセス、方法及び技法は、代替の順番で作動するように構成され得る。言い換えれば、記述され得るステップの任意のシーケンス又は順序は、ステップがその順序で実行されるという要件を必ずしも示さない。本明細書に記述されたプロセスのステップは、任意の順番で実際には実行され得る。さらに、いくつかのステップは、同時に実行され得る。

方法３００のステップ３０２において、プロセッサ２０４によって実装される交渉モジュール２１２は、交渉エージェントと相手エージェントとの間で交渉タスクを実行するために、交渉エージェントによる要求を受信するように構成される。交渉タスクは、交渉エージェント及び相手エージェントを最適な契約提案に同意させる。契約提案は、交渉タスクのために事前に定義された１組の条項からの複数の条項を含む。さらに、交渉エージェント及び相手エージェントの各々は、報酬関数に基づいてモデル化された、複数の行動モデルを備える。強化学習エージェントは、交渉システム１０２の交渉モジュール２１２に関連付けられた交渉エージェント及び相手エージェントを含む。交渉システム１０２が交渉タスクを１人又は複数のユーザから受信する実例を考える。受信された交渉タスクは、２つの関係者の間で交渉される必要がある契約文書であり、ユーザのうちの一方は売り手でもよく、他方は買い手でもよい。エージェントを使用して交渉タスクを実行すると、強固な通信プロトコルを有することが重要である。ここで、交渉エージェント及び相手エージェントは、解釈可能なシーケンスのビットを使用して談話をするように訓練される。訓練は、強化学習を使用し、行われる。最初に、交渉エージェント及び相手エージェントが、ニューラル・ネットワークとしてモデル化され、次いで、これらの２つのそのようなエージェントは、同時に訓練され、それらは、互いに対していくつかのラウンドの交渉レベルを行い、報酬関数としての成果に基づいて互いに連係することを学習する。交渉エージェント及び相手エージェントの行動は、報酬シグナルを変化させる効果的技法を使用して、モデル化される。このプロアクティブな訓練で、４つの異なる行動モデルを有する２つのエージェントが得られる。この方式で訓練された交渉エージェント及び相手エージェントは、実際に、それらの動きを連係させ、文脈に関連した出力を生み出すことを学習する。

３０４において、方法３００は、複数の中間契約提案に合意するために相手エージェントの複数の行動モデルと交渉エージェントによって、１対１で交渉することを含み、ここで、交渉エージェントと相手エージェントとの各々の間の交渉は交渉訓練手順に従う。交渉エージェントは、時間ステップ「ｔ」において複数の状態入力を取得し、ここで、複数の状態入力は、効用関数、相手の申し出、前の相手の申し出及びエージェントＩＤを含む。
それは、効用関数Ｕ^Ａ
相手Ｂによって与えられる申し出、

それは、前の申し出、

エージェントＩＤ、Ｉ∈｛０，１｝
ここで、受信された入力は、

のように、高密度表現

に変換される。

ここで、ＯｆｆｅｒＭＬＰ（．）２レイヤＭＬＰ及びＡｇｅｎｔＬｏｏｋｕｐ（．）は、エージェント識別のための高密度表現を加える埋め込みであり、ＴｕｒｎＬｏｏｋｕｐ（．）は、時間ステップ「ｔ」における情報をエンコードする別の埋め込みである。
表現

は、

として２レイヤＧＲＵ（ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔ、ゲート付き回帰型ユニット）に渡される。但し、

は、それの前のターンにおいてＡによって生成された隠された状態である。反転されることになるビットの数は、中間契約提案π_Ａからの強化学習エージェント・サンプリングによって取られるアクションに基づいて予測され、

最も高い確率で強化学習エージェントによって実行されるアクションのテスト時間選択中。次の時間ステップ「ｔ＋１」において、エージェントＢはまた、類似の中間契約提案π_Ｂを出力する。各々の強化学習エージェントｉ＝∈｛Ａ，Ｂ｝は、最適化して、以下のオブジェクトを個別に最大化する：

ここで、
「ｘ_ｔ」は、エージェントｔによって取られるアクションであり、
「γ」は、割引係数であり、
「Ｔ」は、交渉が続く合計時間ステップであり、
「ｒ_ｉ（ｘ_１，．．．Ｔ）」は、ｔ＝１からｔ＝Ｔまでにエージェントによって取られるアクション「ｘ_ｔ」のシーケンスの関数である交渉の最後において交渉エージェント及び相手エージェント「ｉ」によって受信される報酬であり、
「ｂ_ｉ」は、分散を減らすために使用される基準値であり、
「Ｈ［π_ｉ］」は、調査を確実にするためのエントロピ正規化項であり、λは、この調査の度合いを制御する。
交渉エージェントＡ及び相手エージェントＢのパラメータは、互いに共用され、これらのパラメータは、各エピソードの後に更新される。各エピソードは、交渉エージェントＡと相手エージェントＢとの間の交渉レベルを指す。ここで、訓練は、各エポックに１０５エピソードを有する５エポックについて実行される。

１つの実施例では、複数の行動モデルからの対応する行動モデルの交渉エージェントは、交渉タスクを実行するために複数の前記状態入力を利用する第１の中間契約提案を生成する。ここで、第１の中間契約提案は、交渉タスクのパフォーマンス中に反転されることになるビットの数を予測する。さらに、相手エージェントは、複数の行動モデルからの対応する行動の次の時間ステップ「ｔ＋１」において、交渉エージェントから取得された第１の中間契約提案に基づく第２の中間契約提案を取得する。ここで、第２の中間契約提案は、交渉タスクを実行するための中間契約提案において申し出を最大化する。さらに、報酬が、実行された交渉タスクに基づいて交渉エージェント及び相手エージェントの中間契約提案の各行動モデルに割り当てられる。生成された中間契約提案が最適である場合には、最大限の報酬が交渉エージェント及び相手エージェントに割り当てられ、そして、生成された中間契約提案が最適でない場合には、最小限の報酬が交渉エージェント及び相手エージェントに割り当てられるように、報酬は割り当てられる。１つの実施例では、交渉システム１０２の交渉エージェント及び相手エージェントの複数の行動モデルは、強化学習エージェントに与えられる報酬がそれの行動を決定する方式を記述する。利己的行動モデルを有する強化学習エージェント、及び向社会的行動エージェントを有するエージェントは、以下の後述されるステップを表す、
１．交渉エージェント及び相手エージェントの複数の行動モデルから向社会的行動モデルを強化するために、取り決めが、交渉タスクに関連する各条項について最適であるとき、報酬が与えられる（交渉の最後に獲得されるポイントの数）。取り決めが最適ではない場合、交渉エージェント及び相手エージェントは、－０．５の報酬を与えられる。これにより、交渉エージェント及び相手エージェントが、その中間契約提案を学習する間にそれ自体の利益／損失を問うだけではなくて、相手の優先度もまた同様に考慮することを確保する。言い換えれば、ここで、報酬は全体的最適性のシグナルを有する。
２．報酬に最適性シグナルがない場合、交渉エージェント／相手エージェントは、それが交渉において何を獲得しようとも、報酬として受け取り、次いで、利己的行動モデルが誘導される。交渉エージェント／相手エージェントは、そのとき、それ自体のスコアを最大化することを学習する。

両方のエージェントの間の意見の不一致で交渉が終わった場合に交渉エージェント及び相手エージェントが－０．５の報酬を受け取るような両方の強化学習エージェント。ここで、交渉エージェント及び相手エージェントの２つのエージェントは、相手が訓練された振る舞いに応じた４つの異なる行動モデルを２つのエージェントに得させることを同時に学習する、
１．向社会的エージェントに対して訓練された向社会的エージェント（ＰＰ）：交渉エージェント及び相手エージェントの両方の強化学習エージェントが、向社会的行動モデルを有するように訓練されたときの行動ＰＰ。
２．利己的エージェントに対して訓練された利己的エージェント（ＳＳ）：交渉エージェント及び相手エージェントの両方のエージェントが、利己的エージェントに対して訓練された利己的エージェントを得るために利己的になるように訓練された場合。
３．向社会的エージェントに対して訓練された利己的エージェント、及びその逆（ＳＰ、ＰＳ）：１つのエージェントが利己的になるように訓練され、その相手が向社会的になるように訓練されたとき、それぞれＳＰ及びＰＳとして表された２つのエージェントを得ること。

３０６において、方法３００は、複数の中間契約提案からの最適な契約提案をセレクタ・エージェントによって選択するステップを含み、ここで、セレクタ・エージェントは、交渉エージェント及び相手エージェントの複数の行動モデルのアンサンブルである。ここで、交渉エージェント及び相手エージェントによって生成される複数の契約提案が、複数の行動モデルからの各行動について取得され、次いで、中間契約提案が、交渉エージェント及び相手エージェントの複数の行動モデルから取得された複数の契約提案と、中間契約提案及び交渉エージェント選択シーケンスの頻度分布の各々によって達成される最大限の報酬とを使用して、決定される。人間行動を模倣するために、セレクタ・エージェントは、動的行動で訓練される。訓練されたセレクタ・エージェントは、交渉状態に基づいて適切な行動を選択するための４つの異なる行動モデリングを有する２つのエージェントのアンサンブルである。さらに、現実世界のシナリオにおける交渉エージェント、パフォーマンスは、人間のプレイヤに対して交渉エージェント及び相手エージェントが行う実験で評価される。交渉エージェント及び相手エージェントは、人間のプレイヤに対しても行動の一貫性を実現する。交渉エージェント及び相手エージェントは、交渉タスクの交渉を実行するための現実の産業のシナリオにおいて配置可能である。セレクタ・エージェントは、動的行動でモデル化される。利己的エージェントは、それの相手より常にパフォーマンスが優れ、より多くスコアを取る。しかしながら、相手もまた、表２の列１に記載されるように、利己的である場合、そのようなエージェントを使用することは、多くの意見の不一致をもたらす。利己的及び向社会的行動は交渉における分離可能なプロセスではないという事実の観測において。ここで、人間は、人間が向社会的行動モデル又は利己的行動モデルのいずれかを採用するという固定のポリシを使用して実際には交渉しない。人間は、交渉プロセスの状態に応じて両方をある程度有する混合の行動に従う傾向がある。本開示は、複数の行動モデルを有するエージェントの混合を使用するすべてのエージェントに対して上手く機能する１つの最適な契約提案をモデル化する。これは、交渉タスクから取得された交渉の所与の状態について最適な契約提案を選択するために４つの異なる行動モデルを有する２つのエージェントのどちらかを選択するためのセレクタ・エージェントとして知られる別の強化学習エージェントを訓練することによって得られる。

図４は、本開示の一実施例による、強化学習エージェント間の交渉タスク交渉インタラクションに関連する１組の条項について強化学習エージェントが互いに交渉する交渉システムの例示的アーキテクチャを示す。代替でタスクとも呼ばれる交渉タスクは、交渉関係者の間で共通の条件に同意するために、複数の条項を含む任意の文書において実行され得る。交渉タスクを実行するためのモデルの設計及び訓練を目的として、本明細書では、エージェントは、交渉モジュールのエージェント・リポジトリ内にあるタスクを実行することに気付くであろう。モデルは、ユーザが複数の中間契約提案から最適な契約提案を取得するように、設計される。一実施例において、交渉システム１０２は、ディープ・ニューラル・ネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）構成要素及びルールベースの構成要素を含む。ディープ・ニューラル・ネットワーク（ＤＮＮ）構成要素は、相手の申し出において反転されることになるビットの数を決定するために使用され、ここで、ディープ・ニューラル・ネットワークは強化学習（ＲＬ）を介して訓練される。ルールベースの構成要素は、最大値をもたらすビットを反転することがスコアを増やすような決定論的方法で、反転されることになる正確なビットを決定する。たとえば、ユーティリティが［２，－６，－２；－４，７，３］である場合、相手の申し出が［１，１，１，０，０，１］であり、そして、反転されることになるビットの数が、第２の、第３の及び第５のビット（ルールベース）を反転する３（ニューラル・ネットワークによって決定される）である。

図５は、本開示の一実施例による、図２の強化学習エージェントを使用する交渉タスクを実行する交渉システムの例示的アーキテクチャである。例示的シナリオにおいて、交渉環境から契約合意書に関連する複数の条項について交渉タスクを実行する。ここで、２つのエージェント交渉エージェント及び相手エージェントは、どの条項が契約合意書に含まれる必要があるか、又は契約合意書から除外される必要があるかに関して共通条件に合意するために、１対１で交渉する。交渉エージェント及び相手エージェントが交渉環境において交渉タスクを実行する契約合意書に６つの条項があると考える。エージェントが条項に与える値は、それらの合計が０になるような－１２と１２との間の６つの整数（０を除く）のベクトルである効用関数によって表される。このベクトルには少なくとも１つの正の値及び１つの負の値が存在するという、そして正数の合計は＋１２であり、負数の合計は－１２であるという、追加の制約がある。このベクトルは、

として表される。ここで、Ｐ＝［ｐ_１，ｐ_２，ｐ_３．．．ｐ_ｋ］及びＮ＝［ｎ_１，ｎ_２，ｎ_３．．．ｎ_６－ｋ］であり、但し、０＜ｋ＜６、

は連結演算子であり、シャッフル（．）は「ランダム・シャッフル」関数である。また、Σ_ｉｐ_ｉ＝１２及びΣ_ｉｐ_ｉ＝－１２という制約に従ってｐ_ｉ∈｛１，．．．，１２｝及びｎ_ｉ∈｛－１２，．．．，－１｝である。リスト内の各要素は、対応する条項にエージェントが与える重要性を表す。あらゆるケースにおいて最も有益な条項（合計で１２になる値）及び最も有害な条項（合計で－１２になる値）の混合が存在するような分布。交渉エージェント及び相手エージェントの各々が、均一にサンプリングされたこの効用関数を受信する。交渉エージェント及び相手エージェントは、６ビットのシーケンスＳ_ｔ∈｛０，６｝である、申し出を与えることによって互いに通信する。ここで、下付き文字ｔは、申し出が生み出された時間ステップを指す。このシーケンス内の各ビットは、対応する条項についてのエージェントの決定である（０は除外を示し、１は包含を示す）。通信は、シーケンシャル構造に従い、最初に行くエージェントは、偏りのないコイン反転によって決定される。この通信は、それが以下を得るまで、交渉エージェントと相手エージェントとの間で続く：
１．合意に達する。これは、交渉エージェント及び相手エージェントが、それが受信した同じ中間契約提案としての申し出を与えるときに、起こる。
２．時間切れ。交渉プロセスが意見の不一致で停止した後に３０個の申し出（各エージェントにつき１５個）の制限を守る。
交渉タスクの終わりに、交渉エージェント及び相手エージェントなどの交渉関係者の各々は、合意されたシーケンスのビットに基づいて報酬を得る。したがって、交渉エージェントＡ及び相手エージェントＢが、それぞれ、ユーティリティＵ^Ａ及びＵ^Ｂを有し、合意されたシーケンスがＳである場合、ＡはＳ．Ｕ^Ａを得て、ＢはＳ．Ｕ^Ｂを得て、（．）はドット積を表す。

図６は、本開示の一実施例による、実行された交渉タスクのために取られるアクションのシーケンスの頻度分布に基づく複数の行動モデルに対応する強化学習エージェントのパフォーマンス評価を示す。各バーで示された分布図は、最適な取り決めを表す。分布は、それらの歪んだ性質によって明らかな、他よりもある特定のシーケンスについてエージェントの間に共同の優先傾向が存在することを示す。複数の行動モデルの分析は、強化学習エージェントが非自明な何かを学習するかどうかをテストされ得、そのパフォーマンスを２つの単純な基準値と比較する：
１．あらゆるステップにおいてランダム（ＲＡＮＤＯＭ）、反転されることになるビットのランダムな数を強化学習エージェントが選択する。
２．共通（ＣＯＭＭＯＮ）エージェント１（最初に行くエージェント）が、その最も利己的な申し出を与え、これに続いて、エージェント２が同じことを行う。第３のステップにおいて、エージェント１が、エージェント２が同意する第１の２つの申し出の共通部分を申し出る。共通部分が存在しない場合、これは意見の不一致である。表１内の結果は、３００００の交渉の別個のテスト集合の平均である。ここで、エージェント１は交渉エージェントでもよく、エージェント２は相手エージェントでもよい。

訓練された交渉エージェントと相手エージェントとの間の調整が、後述するように表１に表されるように示されている。最適性の列において、括弧内の数は、合意された取り決めのパーセンテージである。

実行された交渉タスクについて交渉エージェント及び相手エージェントによって取得された結果は、表１に表されるように、行動の組み合わせの３つの変形形態のすべてが、最適性及び共同報酬に関して基準値よりもよいと示されている。これは、互いに対して訓練されたエージェントは、彼らの強制された行動を維持することとは別に、彼らのスコア並びに最適性を最大化し、彼らの動きに合わせることを学習することを表す。交渉エージェント及び相手エージェントが向社会的であるとき、両方のエージェントが、最適な取り決めを達成するために、彼ら自身の報酬だけではなく彼らの相手の報酬も最大化することに関心をもつので、共同報酬は最大である。

１つの実施例では、交渉エージェント及び相手エージェントによって実行された交渉タスクは、メトリックスの計算に基づいて評価される。メトリック・パラメータは、対話の長さ、合意率、最適率、及び平均スコアを含む。交渉評価メトリックスのための対話の長さは、交渉タスクが続く時間ステップの平均数を記述する。交渉評価メトリックスの合意率は、合意率を表す合意で終了した交渉のパーセンテージを記述する。交渉評価メトリックスの最適率は、最適な取り決めで終了した交渉のパーセンテージを記述する。さらに、取り決めが最適である場合、それが両方ともパレート最適である場合、交渉エージェント及び相手エージェントは正のスコアを受け取る。どちらのエージェントのスコアも他方のスコアを下げることなく改善され得ない場合、解はパレート最適である。交渉評価メトリックスの平均スコアは、交渉エージェント及び相手エージェントの各々によって獲得されるポイントの平均数、最適な取り決めの平均値でエージェントが獲得することができる最大限の共同報酬、を記述する。交渉エージェント及び相手エージェントは、テスト集合内のすべてのサンプルのすべての可能な取り決め（２６＝６４）を検証し、最大限の共同報酬及び最適な取り決めをもたらす１つの中間契約提案を選択する。テスト集合の最大限の共同報酬の平均は、１：４０（各エージェントについて０：７０）である。中間契約提案に対する交渉エージェント及び相手エージェントのパフォーマンスを分析するために、テスト交渉が、訓練中に互いに見たことがなかったエージェントの間で実行される。これらの交渉は、これらの交渉の結果に示されるように表２に表されるような相互作用交渉と我々が呼ぶものである。

１つの実施例では、中間契約提案に対して強化学習エージェントのパフォーマンスを分析する。テスト交渉が、訓練中に互いに会わなかった交渉エージェント及び相手エージェントの各々の間で実行される。これらの交渉は、表２に表されたような相互作用交渉として表される。これらの結果は、３００００交渉のテスト集合の平均値である。交渉エージェントと相手エージェントとの間の相互作用の最適性はあまり高くなく、これは、これらのエージェントが、訓練中に互いに会わず、したがって、彼らの中間契約提案を適切に開発することができなかったためである。さらに、合意率は、向社会的エージェント（ＰＰ対ＰＳ）の間の交渉では最も高く（９７．９６％）、利己的エージェントでは低い（５９．００％）。利己的エージェントは、彼らの対応する行動を確認する向社会的エージェントよりスコアが高い。２つのエージェントが同じ報酬シグナルで訓練されるが異なる相手に対して訓練されるときに得られるスコアは、互いに交渉する。ＳＳは、０．０６ポイントの差でＳＰより高いスコアを取り、同様に、ＰＳは、０．１７ポイントの差でＰＰに勝つ。表２に表されたような相互作用交渉は、いくつかのエージェントが他より利己的な、エージェントにおける利己的／向社会的行動の様々な度合いを観測する。エージェント行動の一貫性を検証するための、表３に表されるようなマトリクスの形のすべての相互作用交渉のスコアの差（プレイヤＡ－プレイヤＢ）。ここで、各エントリは、対応するエージェントが交渉するときのスコアの差である。

差は、あらゆる行に沿って順に増加し、列に沿って減少する。エージェントは、左から右へ、及び上から下へと彼らの利己的行動が減少する順に配列されているので、この種の分布は、彼らの行動の一貫性を確認し、ＡがＢを差ｍで打ち負かし、ＢがＣを打ち負かす場合、そのとき、Ａは、ｍより大きな差でＣを打ち負かすことができるはずである。これらの結果は、３００００交渉のテスト集合の平均値である。セレクタ・エージェントは、４つの異なる行動モデルを有する２つのエージェントのアンサンブルである。セレクタ・エージェントは、文脈Ｕを所与として彼らの複数の行動モデルを有する２つのエージェントのうちの１つの出力申し出を選択するために使用される。このセレクタ・エージェントは、それの状態入力の一部として彼らの関連する複数の行動モデルを有するすべての２つのエージェントの出力もまた取るニューラル・ネットワークとしてモデル化される。セレクタ・エージェントは、アクションがそこからサンプリングされる複数の中間契約提案のうちから最適な契約提案π_Ｓを出力する。このアクションは、複数の行動モデルを有するエージェントのうちの１つによるものとして生み出される申し出である。
セレクタ・エージェントは、以下の目的を最大化する：

但し、ｒ_Ｓ（Ｓ_{１，．．．Ｔ}）は、それが行うアクションＳ_ｔのシーケンスの関数である交渉の終わりにセレクタ・エージェントが得る報酬であり、そして、ｒ_０は相手の報酬である。ここで、共同報酬は、セレクタ・エージェントに割り当てられ、これは、選択する間にそれが１つの特定のエージェントに偏っていないことを確保する単純な方法である。訓練では、４つのエージェントのうちの１つを相手としてランダムに選択し、それにセレクタ・エージェントを有する１００交渉エピソードのバッチをプレイさせる。このプロセスの間、５エポックの１０５エピソードを実行するとき、相手の重みを凍結させる。

図７は、本開示の一実施例による、強化学習エージェントによって実行される交渉タスクのためにセレクタ・エージェントを使用して最適な契約提案を選択するための頻度分布値を示す。記述されている分析は、テスト集合で１つずつ交渉エージェント及び相手エージェントの複数の行動モデルの各々に対してセレクタ・エージェントを交渉させ、結果が表４において報告される。スコアに関して、セレクタ・エージェントは、利己的なエージェントではなくて向社会的エージェントより高いスコアを取ることができる。セレクタ・エージェントは、すべてのエージェントと上手く連係し、最適性によって反映される。また、すべてのケースの共同報酬は、１．２０より大きい。それにも関わらず、それは、表１で報告された結果で一致することはできない。

セレクタ・エージェントは、図７に記載されたような複数の行動モデルを有する２つのエージェントのすべてに対してそれが従うエージェント選択シーケンスの頻度分布の決定木を学習する。ｘ軸における４つの分布は、エージェント選択のシーケンスである。さらに、あらゆるシーケンスは、いくつかの大きなシーケンスのサブシーケンスである。セレクタ・エージェントは、決定木に従うことを学習する。セレクタ・エージェントが決定木を学習するという事実は、以下を示唆する：
１．エージェントは、すべてのエージェントに対して機能するただ１つの中間契約提案（最も単純なもの）を学習する。
２．いくつか動いた後まで相手の行動をエージェントが解読することのアンサンブルの難しさ、故に、任意のステージにおいて上手く機能するただ１つのポリシを学習することには意味がある。

１つの実施例では、人間評価は、交渉エージェント及び相手エージェントが互いに対して交渉することを学習するという事実として、説明され得る。現実世界での配備を別にすると、人間のプレイヤに対する交渉タスクを実行しながらパフォーマンスを評価することは実に重要である。これを目的として、５つのすべての交渉エージェント（ＰＰ、ＳＳ、ＳＰ、ＰＳ及びセレクタ）とのいくつかのラウンドの交渉タスクを人間が行った実験。合計３８人の人間のプレイヤが、すべての５つのエージェントに対する３ラウンドの交渉について交渉した。これは、人間に対する合計１１４の交渉ゲームを各エージェントが行ったことを意味する。人間は、彼らの目標は、彼らのスコアを最大化することであると伝えられている。これは、あらゆるゲームのインセンティブを彼らに提供することによってさらに確実にされ、表５において後述で表されるようにエージェント（報酬）より高いスコアを彼らは取る、

両方の利己的エージェント（ＳＳ及びＳＰ）から得られた結果は、ほとんどの時間で人間より多くスコアを取る。他方の向社会的エージェント（ＰＰ及びＰＳ）は、より多くの場合に多くスコアを取られる。人間のプレイヤの行動は、向社会的行動と利己的行動との間のモデル、セレクタ・エージェントが取得されたときによりパフォーマンスが優れるハイブリッド行動である。セレクタ・エージェントと、人間は、セレクタ・エージェントとほぼ同じ回数、勝利する。本開示は、交渉エージェント及び相手エージェントによって１対１で交渉して実行される最適な契約提案を選択するためのセレクタ・エージェントを介して人間行動を模倣することを行う。

本明細書は、当業者が実施例を構成及び使用することを可能にするために、本明細書の本主題を説明する。本主題の実施例の範囲は、特許請求の範囲によって定義され、当業者に思い浮かぶ他の修正形態を含み得る。そのような他の修正形態が、本請求項の文字通りの言語と異ならない類似の要素を有する場合、又は、それらが、本請求項の文字通りの言語とごくわずかな差を有する同等の要素を含む場合、そのような他の修正形態は、本特許請求の範囲内にあることが意図されている。

本明細書の開示の実施例は、複数の行動モデルで訓練されたエージェントで交渉タスクを実行する未解決の問題に対処する。提案されるシステムは、深層学習モデルと、交渉タスクを交渉するためにエージェントを訓練するための強化学習手順とを説明する。さらに、利己的又は向社会的行動モデルを有する交渉エージェント及び相手エージェントのモデリングは、人間のプレイヤによって適合された行動モデルに基づいてモデル化される。また、エージェントは、観測された行動の変化に基づいて相手エージェントの行動モデルを決定することができ、これらのエージェントは、交渉タスクのパフォーマンス中に取得されたデータに基づいて動的に訓練される。

保護の範囲はそのようなプログラムまで拡張され、その中にメッセージを有するコンピュータ可読手段に加えて、プログラムがサーバ又はモバイル・デバイス又は任意の適切なプログラム可能デバイスで実行するとき、そのようなコンピュータ可読記憶手段は、方法の１つ又は複数のステップを実装するためのプログラム・コード手段を含むことを理解されたい。ハードウェア・デバイスは、たとえば、サーバ又はパーソナル・コンピュータなどのような任意の種類のコンピュータ、又はその任意の組み合わせを含む、プログラムすることができる任意の種類のデバイスでもよい。デバイスはまた、たとえば、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）のようなハードウェア手段、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、又はハードウェア及びソフトウェア手段の組み合わせ、たとえば、ＡＳＩＣ及びＦＰＧＡ、又は少なくとも１つのマイクロプロセッサ及びその中にソフトウェア・モジュールがある少なくとも１つのメモリ、でもよい、手段を含み得る。したがって、手段は、ハードウェア手段及びソフトウェア手段の両方を含み得る。本明細書に記載の方法実施例は、ハードウェア及びソフトウェアにおいて実装され得る。デバイスはまた、ソフトウェア手段を含み得る。別法として、実施例は、たとえば複数のＣＰＵを使用して、異なるハードウェア・デバイスで実装され得る。

本明細書の実施例は、ハードウェア及びソフトウェア要素を含み得る。ソフトウェアにおいて実装される実施例は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されない。本明細書に記載の様々なモジュールによって実行される機能は、他のモジュール又は他のモジュールの組み合わせにおいて実装され得る。本記述を目的として、コンピュータ使用可能又はコンピュータ可読媒体は、指示実行システム、装置、又はデバイスによって又はこれらに関して使用するためのプログラムを含む、記憶する、通信する、伝搬する、又は運ぶことができる任意の装置でもよい。

示されたステップは、示された例示的な実施例を説明するために提示され、進行中の技術的開発は特定の機能が実行される方式を変えることになることが予測されるはずである。これらの実例は、制限ではなくて、例示を目的として本明細書において提示される。さらに、機能の基礎的要素の境界線は、説明に便利なように本明細書において任意に定義されてある。特定された機能及びその関係が適切に実行される限り、代替境界線が定義され得る。代替案（本明細書に記載されたものの同等物、拡張、変形形態、逸脱などを含む）が、本明細書に含まれる教示に基づいて当業者に明らかとなろう。そのような代替案は、開示されている実施例の範囲及び趣旨内にある。また、「備える」、「有する」、「包含する」、及び「含む」並びに他の類似の形の言葉は、意味において等しく、これらの言葉のうちのいずれか１つに続く１つ又は複数の項目が、そのような１つ又は複数の項目の総記であることを意図されておらず、或いは記載された１つ又は複数の項目のみに限定されることを意図されていないという点で無制限であることが意図されている。本明細書及び添付の特許請求の範囲において、単数形の「ある（ａ）」、「１つの（ａｎ）」及び「その（ｔｈｅ）」は、文脈が明らかに他の事を指示しない限り、複数の参照を含むことにも留意されたい。

さらに、１つ又は複数のコンピュータ可読記憶媒体が、本開示と一致する実施例の実装において使用され得る。コンピュータ可読記憶媒体は、プロセッサによって可読の情報又はデータが記憶され得る任意のタイプの物理メモリを指す。したがって、コンピュータ可読記憶媒体は、本明細書に記載の実施例と一致するステップ又はステージをプロセッサに実行させるための指示を含む、１つ又は複数のプロセッサによって実行するための指示を記憶し得る。「コンピュータ可読媒体」という用語は、有形の項目を含み、搬送波及び過渡信号、すなわち、非一時的であること、を除外することを理解されたい。例は、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、揮発性メモリ、不揮発性メモリ、ハード・ドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュ・ドライブ、ディスク、及び他の任意の知られている物理記憶媒体を含む。

本開示及び実例は単に例示として考えられることが意図されており、開示される実施例の真の範囲及び趣旨は、以下の特許請求の範囲によって指示される。

１００システム
１０２交渉システム
１０４ユーザ・デバイス
１０６ネットワーク
１０８ネットワーク
２００交渉システム
２０２プロセッサ
２０４メモリ
２０６Ｉ／Ｏインターフェース
２０８モジュール
２１０システム・バス
２１２交渉モジュール
２１４エージェントのリポジトリ
２１６交渉モジュール

Claims

交渉タスクを実行するためのプロセッサ実装される方法であって、
前記交渉タスクのために事前に定義された１組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で前記交渉タスクを実行するための要求を、前記プロセッサによって実装される交渉エージェントが、受信するステップであり、前記交渉エージェント及び前記相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える、ステップと、
複数の中間契約提案に合意するために、前記相手エージェントの前記複数の行動モデルを用いて、前記交渉エージェントが、１対１で交渉するステップであり、前記交渉エージェントと前記相手エージェントとの各々の間の前記交渉は交渉訓練手順に従い、前記交渉エージェント及び前記相手エージェントは、解釈可能なシーケンスのビットを使用して談話をするように訓練され、前記交渉エージェントは、ニューラル・ネットワークとしてモデル化され、同時に訓練される、ステップと、
交渉の際に反転されることになる解釈可能なシーケンスのビットの数を、ディープ・ニューラル・ネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）構成要素が、決定するステップと、
前記交渉訓練手順に基づいて前記交渉エージェントと前記相手エージェントとの間の交渉を実行することによって生成された前記複数の中間契約提案から前記最適な契約提案を、セレクタ・エージェントが、選択するステップであり、前記セレクタ・エージェントは、前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルのアンサンブルであり、前記交渉エージェントは、観測された行動の変化に基づいて前記相手エージェントの前記複数の行動モデルを決定し、前記交渉エージェント及び前記相手エージェントは、前記交渉タスクのパフォーマンス中に取得されたデータに基づいて動的に訓練される、ステップと、
を含む、方法。
前記複数の行動モデルの各々が、前記相手エージェントの行動の態様と組み合わされた前記交渉エージェントの行動の態様を反映する、利己的－利己的（ＳＳ）モデル、利己的－向社会的（ＳＰ）モデル、向社会的－利己的（ＰＳ）モデル及び向社会的－向社会的（ＰＰ）モデルを含む、請求項１に記載の方法。
前記交渉エージェント及び前記相手エージェントの各々の間で前記交渉タスクを実行するための前記交渉訓練手順が、
複数の入力を時間ステップ「ｔ」において前記交渉エージェントが取得するステップであり、前記複数の入力が、効用関数、相手の申し出、前の相手の申し出及びエージェントＩＤを含む、ステップと、
前記複数の行動モデルからの対応する行動モデルのための前記交渉エージェントが、前記交渉タスクを実行するための前記複数の入力を利用する第１の中間契約提案を生成するステップであり、前記第１の中間契約提案が、前記交渉タスクのパフォーマンス中に反転されることになるビットの数を予測する、ステップと、
前記複数の行動モデルからの前記対応する行動モデルの次の時間ステップ「ｔ＋１」において前記相手エージェントが、前記交渉エージェントから取得された前記第１の中間契約提案に基づく第２の中間契約提案を生成するステップであり、前記第２の中間契約提案が、前記交渉タスクを実行するための前記中間契約提案における前記申し出を最大化する、ステップと、
前記実行された交渉タスクに基づいて前記交渉エージェント及び前記相手エージェントの前記中間契約提案の各行動モデルの報酬を割り当てるステップと
を含む、請求項１に記載の方法。
前記中間契約提案の各行動モデルのための前記報酬を割り当てるステップが、
前記生成された中間契約提案が最適である場合に、最大限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと、
前記生成された中間契約提案が最適ではない場合に、最小限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと
を含む、請求項３に記載の方法。
前記セレクタ・エージェントを使用して前記最適な契約提案を選択するステップが、
前記複数の行動モデルからの各行動について前記交渉エージェント及び前記相手エージェントによって生成される複数の契約提案を取得することと、
前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルから取得された前記複数の契約提案を利用する中間契約提案と、前記中間契約提案及び交渉エージェント選択シーケンスの頻度分布の各々によって達成される前記最大限の報酬とを決定することと
を含む、請求項４に記載の方法。
交渉タスクを実行するためのシステム（１０２）であって、前記システム（１０２）が、
プロセッサ（２０２）と、
入力／出力（Ｉ／Ｏ）インターフェース（２０４）と、
前記プロセッサ（２０２）に結合されたメモリ（２０８）と、
を備え、前記メモリ（２０８）が、
交渉タスクのために事前に定義された１組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で前記交渉タスクを実行するための要求を、前記プロセッサによって実装される前記交渉エージェントが、受信することであり、前記交渉エージェント及び前記相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える、受信することと、
複数の中間契約提案に合意するために、前記相手エージェントの前記複数の行動モデルを用いて、前記交渉エージェントが、１対１で交渉することであり、前記交渉エージェントと前記相手エージェントとの各々の間の前記交渉は交渉訓練手順に従い、前記交渉エージェント及び前記相手エージェントは、解釈可能なシーケンスのビットを使用して談話をするように訓練され、前記交渉エージェント及び前記相手エージェントは、ニューラル・ネットワークとしてモデル化され、同時に訓練される、交渉することと、
交渉の際に反転されることになる解釈可能なシーケンスのビットの数を、ディープ・ニューラル・ネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）構成要素が、決定するステップと、
前記交渉訓練手順に基づいて前記交渉エージェントと前記相手エージェントとの間の交渉を実行することによって生成された前記複数の中間契約提案から前記最適な契約提案を、セレクタ・エージェントが、選択することであり、前記セレクタ・エージェントが、前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルのアンサンブルであり、前記交渉エージェントは、観測された行動の変化に基づいて前記相手エージェントの前記複数の行動モデルを決定し、前記交渉エージェント及び前記相手エージェントは、前記交渉タスクのパフォーマンス中に取得されたデータに基づいて動的に訓練される、選択することと、
を含む、システム（１０２）。
前記複数の行動モデルの各々が、前記相手エージェントの行動の態様と組み合わされた前記交渉エージェントの行動の態様を反映する、利己的－利己的（ＳＳ）モデル、利己的－向社会的（ＳＰ）モデル、向社会的－利己的（ＰＳ）モデル及び向社会的－向社会的（ＰＰ）モデルを含む、請求項６に記載のシステム（１０２）。
前記交渉エージェント及び前記相手エージェントの各々の間の前記交渉タスクを実行するための前記交渉訓練手順が、
複数の入力を時間ステップ「ｔ」において前記交渉エージェントが取得するステップであり、前記複数の入力が、効用関数、相手の申し出、前の相手の申し出及びエージェントＩＤを含む、ステップと、
前記複数の行動モデルからの対応する行動モデルの前記交渉エージェントが、前記交渉タスクを実行するための前記複数の入力を利用する第１の中間契約提案を生成するステップであり、前記第１の中間契約提案が、前記交渉タスクのパフォーマンス中に反転されることになるビットの数を予測する、ステップと、
前記複数の行動モデルからの前記対応する行動モデルの次の時間ステップ「ｔ＋１」において前記相手エージェントが、前記交渉エージェントから取得された前記第１の中間契約提案に基づく第２の中間契約提案を生成するステップであり、前記第２の中間契約提案が、前記交渉タスクを実行するための前記中間契約提案における前記申し出を最大化する、ステップと、
前記実行された交渉タスクに基づいて前記交渉エージェント及び前記相手エージェントの前記中間契約提案の各行動モデルの報酬を割り当てるステップと
を含む、請求項６に記載のシステム（１０２）。
前記中間契約提案の各行動モデルのための前記報酬を割り当てるステップが、
前記生成された中間契約提案が最適である場合に、最大限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと、
前記生成された中間契約提案が最適ではない場合に、最小限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと
を含む、請求項８に記載のシステム（１０２）。
前記セレクタ・エージェントを使用して前記最適な契約提案を選択することが、
前記複数の行動モデルからの各行動について前記交渉エージェント及び前記相手エージェントによって生成される複数の契約提案を取得することと、
前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルから取得された前記複数の契約提案を利用する前記中間契約提案と、前記中間契約提案及び交渉エージェント選択シーケンスの頻度分布の各々によって達成される前記最大限の報酬とを決定することと
を含む、請求項９に記載のシステム（１０２）。
１つ又は複数の指示を備えた、１つ又は複数の非一時的機械可読情報記憶媒体であって、前記指示は、１つ又は複数のハードウェア・プロセッサによって実行されたときに、
交渉タスクのために事前に定義された１組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で前記交渉タスクを実行するための要求を、プロセッサによって実装される前記交渉エージェントが、受信することであり、前記交渉エージェント及び前記相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える、受信することと、
複数の中間契約提案に合意するために、前記相手エージェントの前記複数の行動モデルを用いて、前記交渉エージェントが、１対１で交渉することであり、前記交渉エージェントと前記相手エージェントとの各々の間の前記交渉は交渉訓練手順に従い、前記交渉エージェント及び前記相手エージェントは、解釈可能なシーケンスのビットを使用して談話をするように訓練され、前記交渉エージェントは、ニューラル・ネットワークとしてモデル化され、同時に訓練される、交渉することと、
交渉の際に反転されることになる解釈可能なシーケンスのビットの数を、ディープ・ニューラル・ネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）構成要素が、決定することと、
前記交渉訓練手順に基づいて前記交渉エージェントと前記相手エージェントとの間の交渉を実行することによって生成された前記複数の中間契約提案から前記最適な契約提案を、セレクタ・エージェントが、選択することであり、前記セレクタ・エージェントは、前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルのアンサンブルであり、前記交渉エージェントは、観測された行動の変化に基づいて前記相手エージェントの前記複数の行動モデルを決定し、前記交渉エージェント及び前記相手エージェントは、前記交渉タスクのパフォーマンス中に取得されたデータに基づいて動的に訓練される、選択することと
を含むアクションを実行する、１つ又は複数の非一時的機械可読情報記憶媒体。
前記複数の行動モデルの各々が、前記相手エージェントの行動の態様と組み合わされた前記交渉エージェントの行動の態様を反映する、利己的－利己的（ＳＳ）モデル、利己的－向社会的（ＳＰ）モデル、向社会的－利己的（ＰＳ）モデル及び向社会的－向社会的（ＰＰ）モデルを含む、請求項１１に記載の１つ又は複数の非一時的機械可読情報記憶媒体。
前記交渉エージェント及び前記相手エージェントの各々の間で前記交渉タスクを実行するための前記交渉訓練手順が、
複数の入力を時間ステップ「ｔ」において前記交渉エージェントが取得することであり、前記複数の入力が、効用関数、相手の申し出、前の相手の申し出及びエージェントＩＤを含む、取得することと、
前記複数の行動モデルからの対応する行動モデルのための前記交渉エージェントが、前記交渉タスクを実行するための前記複数の入力を利用する第１の中間契約提案を生成することであり、前記第１の中間契約提案が、前記交渉タスクのパフォーマンス中に反転されることになるビットの数を予測する、生成することと、
前記複数の行動モデルからの前記対応する行動モデルの次の時間ステップ「ｔ＋１」において前記相手エージェントが、前記交渉エージェントから取得された前記第１の中間契約提案に基づく第２の中間契約提案を生成することであり、前記第２の中間契約提案が、前記交渉タスクを実行するための前記中間契約提案における前記申し出を最大化する、生成することと、
前記実行された交渉タスクに基づいて前記交渉エージェント及び前記相手エージェントの前記中間契約提案の各行動モデルの報酬を割り当てることと
を含む、請求項１１に記載の１つ又は複数の非一時的機械可読情報記憶媒体。
前記中間契約提案の各行動モデルのための前記報酬を割り当てることが、
前記生成された中間契約提案が最適である場合に、最大限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと、
前記生成された中間契約提案が最適ではない場合に、最小限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと
を含む、請求項１３に記載の１つ又は複数の非一時的機械可読情報記憶媒体。
前記セレクタ・エージェントを使用して前記最適な契約提案を選択することが、
前記複数の行動モデルからの各行動について前記交渉エージェント及び前記相手エージェントによって生成される複数の契約提案を取得することと、
前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルから取得された前記複数の契約提案を利用する前記中間契約提案と、前記中間契約提案及び交渉エージェント選択シーケンスの頻度分布の各々によって達成される最大限の報酬とを決定することと
を含む、請求項１４に記載の１つ又は複数の非一時的機械可読情報記憶媒体。