JP7412101B2 - 強化学習エージェントを使用して交渉タスクを実行するための方法及びシステム - Google Patents
強化学習エージェントを使用して交渉タスクを実行するための方法及びシステム Download PDFInfo
- Publication number
- JP7412101B2 JP7412101B2 JP2019129229A JP2019129229A JP7412101B2 JP 7412101 B2 JP7412101 B2 JP 7412101B2 JP 2019129229 A JP2019129229 A JP 2019129229A JP 2019129229 A JP2019129229 A JP 2019129229A JP 7412101 B2 JP7412101 B2 JP 7412101B2
- Authority
- JP
- Japan
- Prior art keywords
- agent
- negotiation
- contract
- task
- contract proposal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 59
- 230000002787 reinforcement Effects 0.000 title description 42
- 230000003542 behavioural effect Effects 0.000 claims description 84
- 230000006399 behavior Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 22
- 230000009471 action Effects 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000001537 neural effect Effects 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 349
- 230000003993 interaction Effects 0.000 description 11
- 241000282412 Homo Species 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/188—Electronic negotiation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/043—Distributed expert systems; Blackboards
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Technology Law (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Computer And Data Communications (AREA)
Description
それは、効用関数UA
相手Bによって与えられる申し出、
それは、前の申し出、
エージェントID、I∈{0,1}
ここで、受信された入力は、
のように、高密度表現
に変換される。
表現
は、
として2レイヤGRU(gated recurrent unit、ゲート付き回帰型ユニット)に渡される。但し、
は、それの前のターンにおいてAによって生成された隠された状態である。反転されることになるビットの数は、中間契約提案πAからの強化学習エージェント・サンプリングによって取られるアクションに基づいて予測され、
最も高い確率で強化学習エージェントによって実行されるアクションのテスト時間選択中。次の時間ステップ「t+1」において、エージェントBはまた、類似の中間契約提案πBを出力する。各々の強化学習エージェントi=∈{A,B}は、最適化して、以下のオブジェクトを個別に最大化する:
ここで、
「xt」は、エージェントtによって取られるアクションであり、
「γ」は、割引係数であり、
「T」は、交渉が続く合計時間ステップであり、
「ri(x1,...T)」は、t=1からt=Tまでにエージェントによって取られるアクション「xt」のシーケンスの関数である交渉の最後において交渉エージェント及び相手エージェント「i」によって受信される報酬であり、
「bi」は、分散を減らすために使用される基準値であり、
「H[πi]」は、調査を確実にするためのエントロピ正規化項であり、λは、この調査の度合いを制御する。
交渉エージェントA及び相手エージェントBのパラメータは、互いに共用され、これらのパラメータは、各エピソードの後に更新される。各エピソードは、交渉エージェントAと相手エージェントBとの間の交渉レベルを指す。ここで、訓練は、各エポックに105エピソードを有する5エポックについて実行される。
1.交渉エージェント及び相手エージェントの複数の行動モデルから向社会的行動モデルを強化するために、取り決めが、交渉タスクに関連する各条項について最適であるとき、報酬が与えられる(交渉の最後に獲得されるポイントの数)。取り決めが最適ではない場合、交渉エージェント及び相手エージェントは、-0.5の報酬を与えられる。これにより、交渉エージェント及び相手エージェントが、その中間契約提案を学習する間にそれ自体の利益/損失を問うだけではなくて、相手の優先度もまた同様に考慮することを確保する。言い換えれば、ここで、報酬は全体的最適性のシグナルを有する。
2.報酬に最適性シグナルがない場合、交渉エージェント/相手エージェントは、それが交渉において何を獲得しようとも、報酬として受け取り、次いで、利己的行動モデルが誘導される。交渉エージェント/相手エージェントは、そのとき、それ自体のスコアを最大化することを学習する。
1.向社会的エージェントに対して訓練された向社会的エージェント(PP):交渉エージェント及び相手エージェントの両方の強化学習エージェントが、向社会的行動モデルを有するように訓練されたときの行動PP。
2.利己的エージェントに対して訓練された利己的エージェント(SS):交渉エージェント及び相手エージェントの両方のエージェントが、利己的エージェントに対して訓練された利己的エージェントを得るために利己的になるように訓練された場合。
3.向社会的エージェントに対して訓練された利己的エージェント、及びその逆(SP、PS):1つのエージェントが利己的になるように訓練され、その相手が向社会的になるように訓練されたとき、それぞれSP及びPSとして表された2つのエージェントを得ること。
として表される。ここで、P=[p1,p2,p3...pk]及びN=[n1,n2,n3...n6-k]であり、但し、0<k<6、
は連結演算子であり、シャッフル(.)は「ランダム・シャッフル」関数である。また、Σipi=12及びΣipi=-12という制約に従ってpi∈{1,...,12}及びni∈{-12,...,-1}である。リスト内の各要素は、対応する条項にエージェントが与える重要性を表す。あらゆるケースにおいて最も有益な条項(合計で12になる値)及び最も有害な条項(合計で-12になる値)の混合が存在するような分布。交渉エージェント及び相手エージェントの各々が、均一にサンプリングされたこの効用関数を受信する。交渉エージェント及び相手エージェントは、6ビットのシーケンスSt∈{0,6}である、申し出を与えることによって互いに通信する。ここで、下付き文字tは、申し出が生み出された時間ステップを指す。このシーケンス内の各ビットは、対応する条項についてのエージェントの決定である(0は除外を示し、1は包含を示す)。通信は、シーケンシャル構造に従い、最初に行くエージェントは、偏りのないコイン反転によって決定される。この通信は、それが以下を得るまで、交渉エージェントと相手エージェントとの間で続く:
1.合意に達する。これは、交渉エージェント及び相手エージェントが、それが受信した同じ中間契約提案としての申し出を与えるときに、起こる。
2.時間切れ。交渉プロセスが意見の不一致で停止した後に30個の申し出(各エージェントにつき15個)の制限を守る。
交渉タスクの終わりに、交渉エージェント及び相手エージェントなどの交渉関係者の各々は、合意されたシーケンスのビットに基づいて報酬を得る。したがって、交渉エージェントA及び相手エージェントBが、それぞれ、ユーティリティUA及びUBを有し、合意されたシーケンスがSである場合、AはS.UAを得て、BはS.UBを得て、(.)はドット積を表す。
1.あらゆるステップにおいてランダム(RANDOM)、反転されることになるビットのランダムな数を強化学習エージェントが選択する。
2.共通(COMMON)エージェント1(最初に行くエージェント)が、その最も利己的な申し出を与え、これに続いて、エージェント2が同じことを行う。第3のステップにおいて、エージェント1が、エージェント2が同意する第1の2つの申し出の共通部分を申し出る。共通部分が存在しない場合、これは意見の不一致である。表1内の結果は、30000の交渉の別個のテスト集合の平均である。ここで、エージェント1は交渉エージェントでもよく、エージェント2は相手エージェントでもよい。
セレクタ・エージェントは、以下の目的を最大化する:
但し、rS(S1,...T)は、それが行うアクションStのシーケンスの関数である交渉の終わりにセレクタ・エージェントが得る報酬であり、そして、r0は相手の報酬である。ここで、共同報酬は、セレクタ・エージェントに割り当てられ、これは、選択する間にそれが1つの特定のエージェントに偏っていないことを確保する単純な方法である。訓練では、4つのエージェントのうちの1つを相手としてランダムに選択し、それにセレクタ・エージェントを有する100交渉エピソードのバッチをプレイさせる。このプロセスの間、5エポックの105エピソードを実行するとき、相手の重みを凍結させる。
1.エージェントは、すべてのエージェントに対して機能するただ1つの中間契約提案(最も単純なもの)を学習する。
2.いくつか動いた後まで相手の行動をエージェントが解読することのアンサンブルの難しさ、故に、任意のステージにおいて上手く機能するただ1つのポリシを学習することには意味がある。
102 交渉システム
104 ユーザ・デバイス
106 ネットワーク
108 ネットワーク
200 交渉システム
202 プロセッサ
204 メモリ
206 I/Oインターフェース
208 モジュール
210 システム・バス
212 交渉モジュール
214 エージェントのリポジトリ
216 交渉モジュール
Claims (15)
- 交渉タスクを実行するためのプロセッサ実装される方法であって、
前記交渉タスクのために事前に定義された1組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で前記交渉タスクを実行するための要求を、前記プロセッサによって実装される交渉エージェントが、受信するステップであり、前記交渉エージェント及び前記相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える、ステップと、
複数の中間契約提案に合意するために、前記相手エージェントの前記複数の行動モデルを用いて、前記交渉エージェントが、1対1で交渉するステップであり、前記交渉エージェントと前記相手エージェントとの各々の間の前記交渉は交渉訓練手順に従い、前記交渉エージェント及び前記相手エージェントは、解釈可能なシーケンスのビットを使用して談話をするように訓練され、前記交渉エージェントは、ニューラル・ネットワークとしてモデル化され、同時に訓練される、ステップと、
交渉の際に反転されることになる解釈可能なシーケンスのビットの数を、ディープ・ニューラル・ネットワーク(DNN:deep neural network)構成要素が、決定するステップと、
前記交渉訓練手順に基づいて前記交渉エージェントと前記相手エージェントとの間の交渉を実行することによって生成された前記複数の中間契約提案から前記最適な契約提案を、セレクタ・エージェントが、選択するステップであり、前記セレクタ・エージェントは、前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルのアンサンブルであり、前記交渉エージェントは、観測された行動の変化に基づいて前記相手エージェントの前記複数の行動モデルを決定し、前記交渉エージェント及び前記相手エージェントは、前記交渉タスクのパフォーマンス中に取得されたデータに基づいて動的に訓練される、ステップと、
を含む、方法。 - 前記複数の行動モデルの各々が、前記相手エージェントの行動の態様と組み合わされた前記交渉エージェントの行動の態様を反映する、利己的-利己的(SS)モデル、利己的-向社会的(SP)モデル、向社会的-利己的(PS)モデル及び向社会的-向社会的(PP)モデルを含む、請求項1に記載の方法。
- 前記交渉エージェント及び前記相手エージェントの各々の間で前記交渉タスクを実行するための前記交渉訓練手順が、
複数の入力を時間ステップ「t」において前記交渉エージェントが取得するステップであり、前記複数の入力が、効用関数、相手の申し出、前の相手の申し出及びエージェントIDを含む、ステップと、
前記複数の行動モデルからの対応する行動モデルのための前記交渉エージェントが、前記交渉タスクを実行するための前記複数の入力を利用する第1の中間契約提案を生成するステップであり、前記第1の中間契約提案が、前記交渉タスクのパフォーマンス中に反転されることになるビットの数を予測する、ステップと、
前記複数の行動モデルからの前記対応する行動モデルの次の時間ステップ「t+1」において前記相手エージェントが、前記交渉エージェントから取得された前記第1の中間契約提案に基づく第2の中間契約提案を生成するステップであり、前記第2の中間契約提案が、前記交渉タスクを実行するための前記中間契約提案における前記申し出を最大化する、ステップと、
前記実行された交渉タスクに基づいて前記交渉エージェント及び前記相手エージェントの前記中間契約提案の各行動モデルの報酬を割り当てるステップと
を含む、請求項1に記載の方法。 - 前記中間契約提案の各行動モデルのための前記報酬を割り当てるステップが、
前記生成された中間契約提案が最適である場合に、最大限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと、
前記生成された中間契約提案が最適ではない場合に、最小限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと
を含む、請求項3に記載の方法。 - 前記セレクタ・エージェントを使用して前記最適な契約提案を選択するステップが、
前記複数の行動モデルからの各行動について前記交渉エージェント及び前記相手エージェントによって生成される複数の契約提案を取得することと、
前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルから取得された前記複数の契約提案を利用する中間契約提案と、前記中間契約提案及び交渉エージェント選択シーケンスの頻度分布の各々によって達成される前記最大限の報酬とを決定することと
を含む、請求項4に記載の方法。 - 交渉タスクを実行するためのシステム(102)であって、前記システム(102)が、
プロセッサ(202)と、
入力/出力(I/O)インターフェース(204)と、
前記プロセッサ(202)に結合されたメモリ(208)と、
を備え、前記メモリ(208)が、
交渉タスクのために事前に定義された1組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で前記交渉タスクを実行するための要求を、前記プロセッサによって実装される前記交渉エージェントが、受信することであり、前記交渉エージェント及び前記相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える、受信することと、
複数の中間契約提案に合意するために、前記相手エージェントの前記複数の行動モデルを用いて、前記交渉エージェントが、1対1で交渉することであり、前記交渉エージェントと前記相手エージェントとの各々の間の前記交渉は交渉訓練手順に従い、前記交渉エージェント及び前記相手エージェントは、解釈可能なシーケンスのビットを使用して談話をするように訓練され、前記交渉エージェント及び前記相手エージェントは、ニューラル・ネットワークとしてモデル化され、同時に訓練される、交渉することと、
交渉の際に反転されることになる解釈可能なシーケンスのビットの数を、ディープ・ニューラル・ネットワーク(DNN:deep neural network)構成要素が、決定するステップと、
前記交渉訓練手順に基づいて前記交渉エージェントと前記相手エージェントとの間の交渉を実行することによって生成された前記複数の中間契約提案から前記最適な契約提案を、セレクタ・エージェントが、選択することであり、前記セレクタ・エージェントが、前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルのアンサンブルであり、前記交渉エージェントは、観測された行動の変化に基づいて前記相手エージェントの前記複数の行動モデルを決定し、前記交渉エージェント及び前記相手エージェントは、前記交渉タスクのパフォーマンス中に取得されたデータに基づいて動的に訓練される、選択することと、
を含む、システム(102)。 - 前記複数の行動モデルの各々が、前記相手エージェントの行動の態様と組み合わされた前記交渉エージェントの行動の態様を反映する、利己的-利己的(SS)モデル、利己的-向社会的(SP)モデル、向社会的-利己的(PS)モデル及び向社会的-向社会的(PP)モデルを含む、請求項6に記載のシステム(102)。
- 前記交渉エージェント及び前記相手エージェントの各々の間の前記交渉タスクを実行するための前記交渉訓練手順が、
複数の入力を時間ステップ「t」において前記交渉エージェントが取得するステップであり、前記複数の入力が、効用関数、相手の申し出、前の相手の申し出及びエージェントIDを含む、ステップと、
前記複数の行動モデルからの対応する行動モデルの前記交渉エージェントが、前記交渉タスクを実行するための前記複数の入力を利用する第1の中間契約提案を生成するステップであり、前記第1の中間契約提案が、前記交渉タスクのパフォーマンス中に反転されることになるビットの数を予測する、ステップと、
前記複数の行動モデルからの前記対応する行動モデルの次の時間ステップ「t+1」において前記相手エージェントが、前記交渉エージェントから取得された前記第1の中間契約提案に基づく第2の中間契約提案を生成するステップであり、前記第2の中間契約提案が、前記交渉タスクを実行するための前記中間契約提案における前記申し出を最大化する、ステップと、
前記実行された交渉タスクに基づいて前記交渉エージェント及び前記相手エージェントの前記中間契約提案の各行動モデルの報酬を割り当てるステップと
を含む、請求項6に記載のシステム(102)。 - 前記中間契約提案の各行動モデルのための前記報酬を割り当てるステップが、
前記生成された中間契約提案が最適である場合に、最大限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと、
前記生成された中間契約提案が最適ではない場合に、最小限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと
を含む、請求項8に記載のシステム(102)。 - 前記セレクタ・エージェントを使用して前記最適な契約提案を選択することが、
前記複数の行動モデルからの各行動について前記交渉エージェント及び前記相手エージェントによって生成される複数の契約提案を取得することと、
前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルから取得された前記複数の契約提案を利用する前記中間契約提案と、前記中間契約提案及び交渉エージェント選択シーケンスの頻度分布の各々によって達成される前記最大限の報酬とを決定することと
を含む、請求項9に記載のシステム(102)。 - 1つ又は複数の指示を備えた、1つ又は複数の非一時的機械可読情報記憶媒体であって、前記指示は、1つ又は複数のハードウェア・プロセッサによって実行されたときに、
交渉タスクのために事前に定義された1組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で前記交渉タスクを実行するための要求を、プロセッサによって実装される前記交渉エージェントが、受信することであり、前記交渉エージェント及び前記相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える、受信することと、
複数の中間契約提案に合意するために、前記相手エージェントの前記複数の行動モデルを用いて、前記交渉エージェントが、1対1で交渉することであり、前記交渉エージェントと前記相手エージェントとの各々の間の前記交渉は交渉訓練手順に従い、前記交渉エージェント及び前記相手エージェントは、解釈可能なシーケンスのビットを使用して談話をするように訓練され、前記交渉エージェントは、ニューラル・ネットワークとしてモデル化され、同時に訓練される、交渉することと、
交渉の際に反転されることになる解釈可能なシーケンスのビットの数を、ディープ・ニューラル・ネットワーク(DNN:deep neural network)構成要素が、決定することと、
前記交渉訓練手順に基づいて前記交渉エージェントと前記相手エージェントとの間の交渉を実行することによって生成された前記複数の中間契約提案から前記最適な契約提案を、セレクタ・エージェントが、選択することであり、前記セレクタ・エージェントは、前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルのアンサンブルであり、前記交渉エージェントは、観測された行動の変化に基づいて前記相手エージェントの前記複数の行動モデルを決定し、前記交渉エージェント及び前記相手エージェントは、前記交渉タスクのパフォーマンス中に取得されたデータに基づいて動的に訓練される、選択することと
を含むアクションを実行する、1つ又は複数の非一時的機械可読情報記憶媒体。 - 前記複数の行動モデルの各々が、前記相手エージェントの行動の態様と組み合わされた前記交渉エージェントの行動の態様を反映する、利己的-利己的(SS)モデル、利己的-向社会的(SP)モデル、向社会的-利己的(PS)モデル及び向社会的-向社会的(PP)モデルを含む、請求項11に記載の1つ又は複数の非一時的機械可読情報記憶媒体。
- 前記交渉エージェント及び前記相手エージェントの各々の間で前記交渉タスクを実行するための前記交渉訓練手順が、
複数の入力を時間ステップ「t」において前記交渉エージェントが取得することであり、前記複数の入力が、効用関数、相手の申し出、前の相手の申し出及びエージェントIDを含む、取得することと、
前記複数の行動モデルからの対応する行動モデルのための前記交渉エージェントが、前記交渉タスクを実行するための前記複数の入力を利用する第1の中間契約提案を生成することであり、前記第1の中間契約提案が、前記交渉タスクのパフォーマンス中に反転されることになるビットの数を予測する、生成することと、
前記複数の行動モデルからの前記対応する行動モデルの次の時間ステップ「t+1」において前記相手エージェントが、前記交渉エージェントから取得された前記第1の中間契約提案に基づく第2の中間契約提案を生成することであり、前記第2の中間契約提案が、前記交渉タスクを実行するための前記中間契約提案における前記申し出を最大化する、生成することと、
前記実行された交渉タスクに基づいて前記交渉エージェント及び前記相手エージェントの前記中間契約提案の各行動モデルの報酬を割り当てることと
を含む、請求項11に記載の1つ又は複数の非一時的機械可読情報記憶媒体。 - 前記中間契約提案の各行動モデルのための前記報酬を割り当てることが、
前記生成された中間契約提案が最適である場合に、最大限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと、
前記生成された中間契約提案が最適ではない場合に、最小限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと
を含む、請求項13に記載の1つ又は複数の非一時的機械可読情報記憶媒体。 - 前記セレクタ・エージェントを使用して前記最適な契約提案を選択することが、
前記複数の行動モデルからの各行動について前記交渉エージェント及び前記相手エージェントによって生成される複数の契約提案を取得することと、
前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルから取得された前記複数の契約提案を利用する前記中間契約提案と、前記中間契約提案及び交渉エージェント選択シーケンスの頻度分布の各々によって達成される最大限の報酬とを決定することと
を含む、請求項14に記載の1つ又は複数の非一時的機械可読情報記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201821026198 | 2018-07-13 | ||
IN201821026198 | 2018-07-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020013568A JP2020013568A (ja) | 2020-01-23 |
JP7412101B2 true JP7412101B2 (ja) | 2024-01-12 |
Family
ID=67437652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019129229A Active JP7412101B2 (ja) | 2018-07-13 | 2019-07-11 | 強化学習エージェントを使用して交渉タスクを実行するための方法及びシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11521281B2 (ja) |
EP (1) | EP3594891A1 (ja) |
JP (1) | JP7412101B2 (ja) |
BR (1) | BR102019014512A2 (ja) |
CA (1) | CA3049235C (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018220541A1 (en) * | 2017-05-30 | 2018-12-06 | Entersekt International Limited | Protocol-based system and method for establishing a multi-party contract |
WO2019146044A1 (ja) * | 2018-01-25 | 2019-08-01 | 日本電気株式会社 | 交渉装置、推定方法、プログラム、推定装置 |
US11803925B1 (en) * | 2019-04-16 | 2023-10-31 | Danielle Hutchinson | System and method for selecting a dispute resolution process |
WO2022024280A1 (en) * | 2020-07-29 | 2022-02-03 | Nec Corporation | Policy generation apparatus, control method, and non-transitory computer-readable storage medium |
US20220108412A1 (en) * | 2020-10-07 | 2022-04-07 | Nec Corporation | Adaptive autonomous negotiation method and system of using |
JP2023035039A (ja) * | 2021-08-31 | 2023-03-13 | 日本電気株式会社 | 学習装置、学習システム、提案決定装置、学習方法およびプログラム |
US20230196487A1 (en) * | 2021-12-21 | 2023-06-22 | Nec Corporation | Automated negotiation agent adaptation |
US20230316088A1 (en) * | 2022-04-05 | 2023-10-05 | Royal Bank Of Canada | System and method for multi-objective reinforcement learning |
WO2023217868A1 (en) * | 2022-05-11 | 2023-11-16 | Deepmind Technologies Limited | Negotiating contracts for agent cooperation in multi-agent systems |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000510628A (ja) | 1997-03-21 | 2000-08-15 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 程度の異なるドメイン知識を有する複数のインテリジェント・エージェントを使用してコンピュータ・タスクのパフォーマンスを最適化するための装置および方法 |
US20060085362A1 (en) | 2004-10-15 | 2006-04-20 | June-Ray Lin | Negotiation support systems and methods |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030233305A1 (en) * | 1999-11-01 | 2003-12-18 | Neal Solomon | System, method and apparatus for information collaboration between intelligent agents in a distributed network |
US7103580B1 (en) * | 2000-03-30 | 2006-09-05 | Voxage, Ltd. | Negotiation using intelligent agents |
US7373325B1 (en) * | 2000-10-13 | 2008-05-13 | Nortel Networks Limited | Automated trading for e-markets |
US7171393B2 (en) * | 2003-07-22 | 2007-01-30 | International Business Machines Corporation | Solving constraint satisfaction problems using variable-range hopping |
US20180012227A1 (en) * | 2016-07-05 | 2018-01-11 | NXT-ID, Inc. | Biometric, Behavioral-Metric, Knowledge-Metric, and Electronic-Metric Directed Authentication and Transaction Method and System |
-
2019
- 2019-07-10 EP EP19185537.8A patent/EP3594891A1/en not_active Ceased
- 2019-07-11 JP JP2019129229A patent/JP7412101B2/ja active Active
- 2019-07-12 CA CA3049235A patent/CA3049235C/en active Active
- 2019-07-12 US US16/510,748 patent/US11521281B2/en active Active
- 2019-07-12 BR BR102019014512-9A patent/BR102019014512A2/pt not_active Application Discontinuation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000510628A (ja) | 1997-03-21 | 2000-08-15 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 程度の異なるドメイン知識を有する複数のインテリジェント・エージェントを使用してコンピュータ・タスクのパフォーマンスを最適化するための装置および方法 |
US20060085362A1 (en) | 2004-10-15 | 2006-04-20 | June-Ray Lin | Negotiation support systems and methods |
Also Published As
Publication number | Publication date |
---|---|
EP3594891A1 (en) | 2020-01-15 |
JP2020013568A (ja) | 2020-01-23 |
BR102019014512A2 (pt) | 2020-03-10 |
CA3049235A1 (en) | 2019-09-17 |
US11521281B2 (en) | 2022-12-06 |
US20200020061A1 (en) | 2020-01-16 |
CA3049235C (en) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7412101B2 (ja) | 強化学習エージェントを使用して交渉タスクを実行するための方法及びシステム | |
Nan et al. | Unifying the role of IT in hyperturbulence and competitive advantage via a multilevel perspective of IS strategy | |
Burtch et al. | Referral timing and fundraising success in crowdfunding | |
CN109155005A (zh) | 使用伪计数的增强学习 | |
Desouza et al. | Towards evidence-driven policy design: Complex adaptive systems and computational modeling | |
Ruan et al. | Exploring trust propagation behaviors in online communities | |
Zhan et al. | A model for collective behaviour propagation: a case study of video game industry | |
US11468521B2 (en) | Social media account filtering method and apparatus | |
US20130282445A1 (en) | Method or system to evaluate strategy decisions | |
Mao et al. | Human computation and multiagent systems: an algorithmic perspective | |
Li et al. | Tackling cooperative incompatibility for zero-shot human-ai coordination | |
Brenguier | Robust equilibria in mean-payoff games | |
US20230418871A1 (en) | Systems, methods, computing platforms, and storage media for comparing non-adjacent data subsets | |
Dahi et al. | Metaheuristics on quantum computers: Inspiration, simulation and real execution | |
Desouza et al. | Towards evidence-driven policy design: Complex adaptive systems and computational modeling | |
Haas et al. | Two-Sided Matching for mentor-mentee allocations—Algorithms and manipulation strategies | |
Guttman et al. | Play for Real (ism)-using games to predict human-AI interactions in the real world | |
Crespi et al. | Towards interpretable policies in multi-agent reinforcement learning tasks | |
Ahmed et al. | Open source computer game application: An empirical analysis of quality concerns | |
Palanca et al. | Improving the programming skills of students in multiagent systems master courses | |
CN113111254B (zh) | 推荐模型的训练方法、拟合方法、装置和电子设备 | |
Farenzena et al. | Collaboration emergence in social networks with informational natural selection | |
AlMajali et al. | Vulnerability Exploitation Using Reinforcement Learning | |
Rotich | Methods for Improving Inference in Clinical Outcomes | |
Chen et al. | Using transfer learning to model unknown opponents in automated negotiations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220708 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230921 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7412101 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |