JP7412101B2 - 強化学習エージェントを使用して交渉タスクを実行するための方法及びシステム - Google Patents

強化学習エージェントを使用して交渉タスクを実行するための方法及びシステム Download PDF

Info

Publication number
JP7412101B2
JP7412101B2 JP2019129229A JP2019129229A JP7412101B2 JP 7412101 B2 JP7412101 B2 JP 7412101B2 JP 2019129229 A JP2019129229 A JP 2019129229A JP 2019129229 A JP2019129229 A JP 2019129229A JP 7412101 B2 JP7412101 B2 JP 7412101B2
Authority
JP
Japan
Prior art keywords
agent
negotiation
contract
task
contract proposal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019129229A
Other languages
English (en)
Other versions
JP2020013568A (ja
Inventor
サンダー ビシャル
ビグ ラブケッシュ
チャタジー アーナブ
シュロフ ゴータム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2020013568A publication Critical patent/JP2020013568A/ja
Application granted granted Critical
Publication of JP7412101B2 publication Critical patent/JP7412101B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/188Electronic negotiation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Technology Law (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Computer And Data Communications (AREA)

Description

本出願は、その全開示内容が全体として参照により本明細書に組み込まれている、2018年7月13日に出願されたインド特許出願第(201821026198)号の優先権を主張する。
本開示は、一般に、交渉タスクの自動化に関し、より詳細には、強化学習エージェントを使用して交渉タスクを実行するための方法及びシステムに関する。
交渉は、異なる目標を有するエージェントが契約合意書の共同決定に同意することを試みる、複雑な意思決定プロセスである。一般に、複雑な取り決めは、複数の関係者並びに契約合意に達するための複数の交渉インタラクションを含むことが多い。契約合意書の内容に関する総意に達するためのプロセスは、交渉条件及び交渉関係者に起因して、しばしば費用及び時間のかかるタスクである。伝統的な交渉方法は、人手を必要とする直接交渉を含む。そのような交渉対話は、協力的要素と敵対的要素の両方を含み、人間エージェントが、自身の目標を達成するために、発言を理解し、計画し、及び生み出すために時間を費やす。交渉プロセスにおける完全な自動化は、関心のあるトピックである。
交渉プロセスの自動化を試みる既存のシステムでは、エージェント又は機械エージェントは、相手の交渉履歴を最大限に利用する、強化学習戦略で訓練される。交渉エージェントは、より好ましく、より良い交渉結果を得るために時間内に相手の交渉エージェントの意見を動的に調整し、相手の申し出のタイプの決定を行う。しかしながら、既存のシステムは、契約交渉の1つ又は複数の異なる行動パターンでエージェントを訓練し、それにより、交渉タスクを実行し、スケーラビリティを改善するためにエージェントによって利用される時間を減らすのに限界がある。
別の既存のシステムにおいて、データの利用可能性を有する交渉のためのモデリング・ディープ・エージェントは、強化学習技法を使用して人間を模倣するように訓練され得る。これらのモデルは、異なるドメインにわたる1つ又は複数のリソースから収集された訓練データを必要とする。しかしながら、既存のシステムは、契約交渉のための人間として、異なる行動のパターンで訓練された強化学習エージェントを採用することに限界がある。
本開示の実施例は、従来のシステムにおいて本発明者らによって認識された前述の技術的問題のうちの1つ又は複数に対する解決策としての技術的改善策を提示する。たとえば、1つの実施例では、強化学習を使用して交渉タスクを実行するためのシステムが提供される。本システムは、プロセッサ、入力/出力(I/O)インターフェース、及びプロセッサに結合されたメモリを含み、交渉タスクのために事前に定義された1組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で、メモリにおいてプロセッサに記憶されたプログラムされた指示を実行して、プロセッサによって実装された交渉エージェントによって交渉タスクを実行するための要求を受信することができ、ここで、交渉エージェント及び相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを含む。さらに、相手エージェントの複数の行動モデルと交渉エージェントは、複数の中間契約提案に合意するために、1対1で交渉し、ここで、交渉エージェントと相手エージェントとの各々の間の交渉は、交渉訓練手順に従う。さらに、セレクタ・エージェントは、交渉訓練手順に基づいて交渉エージェントと相手エージェントとの間の交渉を実行することによって生成された複数の中間契約提案から最適な契約提案を選択し、ここで、セレクタ・エージェントは、交渉エージェント及び相手エージェントの複数の行動モデルのアンサンブルである。
もう1つの態様では、強化学習エージェントを使用して交渉タスクを実行するための方法が提供される。本方法は、交渉タスクのために事前に定義された1組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で、プロセッサによって実装された交渉エージェントによって交渉タスクを実行するための要求を受信するステップを含み、ここで、交渉エージェント及び相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える。さらに、複数の中間契約提案に合意するために、相手エージェントの複数の行動モデルと交渉エージェントは、1対1で交渉し、ここで、交渉エージェントと相手エージェントとの各々の間の交渉は交渉訓練手順に従う。さらに、セレクタ・エージェントは、交渉訓練手順に基づいて交渉エージェントと相手エージェントとの間の交渉を実行することによって生成された複数の中間契約提案から最適な契約提案を選択し、ここで、セレクタ・エージェントは、交渉エージェント及び相手エージェントの複数の行動モデルのアンサンブルである。
さらに別の態様では、交渉タスクのための予め定義された1組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で、プロセッサによって実装された交渉エージェントによって交渉タスクを実行するための要求を受信するための方法を実行するためのコンピュータ・プログラムがそこに具現化された非一時的コンピュータ可読媒体であり、交渉エージェント及び相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える。さらに、複数の中間契約提案に合意するために、相手エージェントの複数の行動モデルと交渉エージェントは、1対1で交渉し、ここで、交渉エージェントと相手エージェントとの各々の間の交渉は交渉訓練手順に従う。さらに、セレクタ・エージェントは、交渉訓練手順に基づいて交渉エージェントと相手エージェントとの間の交渉を実行することによって生成された複数の中間契約提案から最適な契約提案を選択し、ここで、セレクタ・エージェントは、交渉エージェント及び相手エージェントの複数の行動モデルのアンサンブルである。
前述の一般的説明及び以下の詳細な説明の両方は、単に例示的且つ説明的なものであり、特許請求されているような本発明を限定するものではないことを理解されたい。
本開示に組み込まれ、その一部を構成する、添付の図面は、例示的な実施例を示し、説明とともに、開示されている原理を説明する役割を果たす。
本開示の一実施例による強化学習エージェントを使用して交渉タスクを実行する交渉システムのネットワーキング実装形態を示す図である。 本開示の別の実施例による強化学習エージェントを使用して交渉タスクを実行する交渉システムの例示的ブロック図である。 本開示の一実施例による、図1の交渉システムの交渉タスク強化学習エージェントを実行するための方法のステップを示すフロー図300である。 本開示の一実施例による、強化学習エージェントの間の交渉タスク交渉インタラクションに関連する1組の条項について強化学習エージェントが互いに交渉する、交渉システムの例示的アーキテクチャを示す図である。 本開示の一実施例による、図2の強化学習エージェントを使用して交渉タスクを実行する交渉システムの例示的アーキテクチャを示す図である。 本開示の一実施例による、実行される交渉タスクについて取られるアクションのシーケンスの頻度分布に基づく複数の行動モデルに対応する強化学習エージェントのパフォーマンス評価を示す図である。 本開示の一実施例による、強化学習エージェントによって実行される交渉タスクのためのセレクタ・エージェントを使用して最適な契約提案を選択するための頻度分布値を示す図である。
例示的な実施例が、添付の図面を参照して説明される。図面において、参照番号の最も左の数字は、その参照番号が最初に現れる図面を識別する。都合によりいつでも、同じ参照番号が、複数の図面を通して、同じ又は類似の部分を参照するために使用される。開示される原理の実例及び特徴が、本明細書において説明されるが、修正形態、適合、及び他の実装形態が、開示される実施例の趣旨及び範囲を逸脱せずに可能である。以下の詳細な説明は単に例示として解釈され、真の範囲及び趣旨は以下の特許請求の範囲によって示されることが、意図されている。
本明細書内の実施例は、強化学習エージェントを使用して交渉タスクを実行するための方法及びシステムを用意する。交渉タスクを実行する強化学習エージェントは、単純な通信プロトコルを使用して交渉のために互いに通信する。本明細書において交渉タスクは、最適な契約提案を得るために2つの強化学習エージェントの間で交渉される必要がある複数の条項を備えた、任意の契約合意書、私文書、ライセンス文書、法律文書及び/又は機密文書を指す。本明細書の強化学習エージェントは、交渉エージェント及び相手エージェントを含み、これらは、受信された交渉タスクを実行するための交渉システムのエージェントのリポジトリ内にある。交渉システムは、交渉モジュール212及びエージェントのリポジトリ214を備える。交渉モジュール212は、交渉エージェント、相手エージェント及びセレクタ・エージェントを含む。1人のユーザが売り手でもよく、他方のユーザが買い手でもよいように、交渉タスクは、交渉に関与する1人又は複数のユーザから取得され得る。交渉システムの交渉エージェント及び相手エージェントは、最初に、ユーザから交渉タスクを受信する。交渉タスクは、交渉タスクのために事前に定義された1組の条項からの複数の条項を含む。交渉エージェント及び相手エージェントの各々は、互いに対する交渉レベルのいくつかのラウンドを行うことによって複数の行動モデルを取得する。複数の行動モデルは、交渉タスクのパフォーマンス中の相手エージェントの行動の態様とペアにされた交渉エージェントの行動の態様を反映する、利己的-利己的(SS:Selfish-Selfish)モデル、利己的-向社会的(SP:Selfish-Prosocial)モデル、向社会的-利己的(PS:Prosocial-Selfish)モデル及び向社会的-向社会的(PP:Prosocial-Prosocial)モデルを含む。さらに、複数の行動モデルを有する交渉エージェント及び複数の行動モデルを有する相手エージェントが、エージェントのリポジトリに記憶される。
交渉タスクの実行を目的として、複数の行動モデルを有する交渉エージェントは、最適な契約提案に合意するために、前記条項について相手エージェントの複数の行動モデルで各条項について交渉する。ここで、交渉エージェント及び相手エージェントは、複数の中間契約提案を生成するために交渉訓練手順で訓練される。さらに、交渉システムに関連付けられたセレクタ・エージェントが、複数の中間契約提案の各々によって得られた報酬関数に基づいて複数の中間契約提案から中間契約提案を選択する。ここで、セレクタ・エージェントは、交渉エージェント及び相手エージェントの複数の行動モデルのアンサンブルである。
図面、より具体的には図1から7をここで参照すると、類似の参照文字は、複数の図面を通して一貫して対応する特徴を示し、好ましい実施例が示されており、これらの実施例は、以下の例示的システム及び/又は方法に関連して説明される。
図1は、本開示の一実施例による強化学習エージェントを使用して交渉タスクを実行する交渉システムのネットワーキング実装形態を示す。交渉システム102と代替的に呼ばれるシステム102は、1人又は複数のユーザから交渉タスクを受信するように構成される。交渉システム102は、コンピューティング・デバイス、たとえばコンピューティング・デバイス104、において実施され得る。交渉システム102はサーバで実装されると考えて、本開示は、説明されるが、交渉システム102はまた、ラップトップ・コンピュータ、デスクトップ・コンピュータ、ノートブック、ワークステーション、クラウドベースのコンピューティング環境など、様々なコンピューティング・システムにおいて実装され得ることが理解され得る。一実装形態において、交渉システム102は、クラウドベースの環境において実装され得る。交渉システム102は、以下でユーザ・デバイス104と集合的に呼ばれる、1つ又は複数のユーザ・デバイス104-1、104-2…104-N、又はユーザ・デバイス104にあるアプリケーションを介して複数のユーザによってアクセスされ得ることが理解されよう。ユーザ・デバイス104の例は、ポータブル・コンピュータ、携帯情報端末、ハンドヘルド・デバイス、スマートフォン、タブレット・コンピュータ、ワークステーションなどを含み得るが、これらに限定されない。ユーザ・デバイス104は、ネットワーク106を介してシステム102に通信可能なように結合される。
一実施例において、ネットワーク106は、ワイヤレス又はワイヤード・ネットワーク、又はその組合せでもよい。一実例において、ネットワーク106は、仮想プライベート・ネットワーク(VPN:virtual private network)、イントラネット、ローカル・エリア・ネットワーク(LAN:local area network)、ワイド・エリア・ネットワーク(WAN:wide area network)、インターネットなど、異なるタイプのネットワークのうちの1つとして、コンピュータ・ネットワークとして、実装することができる。ネットワーク106は、互いに通信するための、様々なプロトコル、たとえば、ハイパーテキスト転送プロトコル(HTTP:Hypertext Transfer Protocol)、伝送制御プロトコル/インターネット・プロトコル(TCP/IP:Transmission Control Protocol/Internet Protocol)、及びワイヤレス・アプリケーション・プロトコル(WAP:Wireless Application Protocol)、を使用する異なるタイプのネットワークの関連付けを表す、専用ネットワーク又は共用ネットワークのいずれかでもよい。さらに、ネットワーク108は、ルータ、ブリッジ、サーバ、コンピューティング・デバイス、記憶デバイスを含む、様々なネットワーク・デバイスを含み得る。ネットワーク106内のネットワーク・デバイスは、通信リンクを介して交渉システム102と相互作用し得る。前述のように、交渉システム102は、ハンドヘルド・デバイス、ラップトップ又は他のポータブル・コンピュータ、タブレット・コンピュータ、携帯電話、PDA、スマートフォン、及びデスクトップ・コンピュータなど、コンピューティング・デバイス104において実装され得る。交渉システム102はまた、ワークステーション、メインフレーム・コンピュータ、サーバ、及びネットワーク・サーバにおいて実装され得る。交渉システム102の構成要素及び機能が、図2及び図3を参照して、さらに詳しく説明される。
図2は、本開示の別の実施例で強化学習エージェントを使用して交渉タスクを実行する交渉システムの例示的ブロック図である。例示的な一実施例において、交渉システム102は、システム、たとえば交渉システム102(図1)、において実施され得る、又はこのシステムと直接通信する。交渉システム200は、プロセッサ202などの1つ又は複数のハードウェア・プロセッサ、メモリ204などの少なくとも1つのメモリ、及びI/Oインターフェース206、交渉モジュール212及びエージェントのリポジトリ214を含む、又はこれらと他の方法で通信する。一実施例において、交渉モジュール216は、交渉システム102内の独立型ユニットとして実装することができる。別の実施例において、交渉モジュール212は、メモリ204内のモジュールとして実装することができる。プロセッサ202、メモリ204、及びI/Oインターフェース206、モジュール208は、システム・バス210などのシステム・バス又は類似の機構によって、結合され得る。
I/Oインターフェース206は、様々なソフトウェア及びハードウェア・インターフェース、たとえば、ウェブ・インターフェース、グラフィカル・ユーザ・インターフェース、などを含み得る。インターフェース206は、様々なソフトウェア及びハードウェア・インターフェース、たとえば、キーボード、マウス、外部メモリ、カメラ・デバイス、及びプリンタなど、周辺デバイスのためのインターフェース、を含み得る。さらに、インターフェース206は、システム102が、ウェブ・サーバ及び外部データベースなど、他のデバイスと通信することを可能にし得る。インターフェース206は、ワイヤード・ネットワーク、たとえば、ローカル・エリア・ネットワーク(LAN)、ケーブルなど、と、ワイヤレスLAN(WLAN)、セルラ、又は衛星などのワイヤレスネットワークとを含む、多種多様なネットワーク及びプロトコル・タイプ内の複数の通信を円滑にすることができる。この目的のために、インターフェース206は、いくつかのコンピューティング・システムを互いに又は別のサーバ・コンピュータに接続するための1つ又は複数のポートを含み得る。I/Oインターフェース206は、いくつかのデバイスを互いに又は別のサーバに接続するための1つ又は複数のポートを含み得る。
ハードウェア・プロセッサ202は、1つ又は複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル・シグナル・プロセッサ、中央処理装置、ステート・マシン、論理回路、及び/又は、動作指示に基づいてシグナルを操作する任意のデバイスとして、実装され得る。数ある能力の中でも、ハードウェア・プロセッサ202は、メモリ204に記憶されたコンピュータ可読指示をフェッチ及び実行するように構成される。メモリ204は、たとえば、スタティック・ランダム・アクセス・メモリ(SRAM:static random access memory)及びダイナミック・ランダム・アクセス・メモリ(DRAM:dynamic random access memory)などの揮発性メモリ、及び/又は読み取り専用メモリ(ROM:read only memory)、消去可能プログラム可能ROM、フラッシュ・メモリ、ハード・ディスク、光ディスク、及び磁気テープなどの不揮発性メモリを含む、当技術分野において知られている任意のコンピュータ可読媒体を含み得る。一実施例において、メモリ204は、モジュール208のうちの1つ又は複数によって受信及び生成される、複数のモジュール208を含む。モジュール208は、特定のタスクを実行する又は特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造体などを含み得る。システム200の交渉モジュール212は、訓練された交渉エージェント及び相手エージェントと交渉されることになる1人又は複数のユーザからの契約提案を受信するように構成することができる。
図3は、本開示の一実例による、図1の交渉システムの強化学習エージェントを使用して交渉タスクを実行するための方法のステップを示すフロー図300である。一実施例において、システム100は、1つ又は複数のデータ記憶デバイス、或いは、1つ又は複数のプロセッサ104に動作可能なように結合されたメモリ102を備え、モジュール108のうちの様々なモジュールとともに1つ又は複数のプロセッサ(代替的に、プロセッサ(複数可)と呼ばれる)104によって方法300のステップを実行するための指示を記憶するように構成される。本開示の方法300のステップが、図1に示すようなシステム100の構成要素又はブロックと、図2から7に示すようなフロー図のステップとを参照して、ここで説明される。プロセスのステップ、方法のステップ、技法などは、順番に記述され得るが、そのようなプロセス、方法及び技法は、代替の順番で作動するように構成され得る。言い換えれば、記述され得るステップの任意のシーケンス又は順序は、ステップがその順序で実行されるという要件を必ずしも示さない。本明細書に記述されたプロセスのステップは、任意の順番で実際には実行され得る。さらに、いくつかのステップは、同時に実行され得る。
方法300のステップ302において、プロセッサ204によって実装される交渉モジュール212は、交渉エージェントと相手エージェントとの間で交渉タスクを実行するために、交渉エージェントによる要求を受信するように構成される。交渉タスクは、交渉エージェント及び相手エージェントを最適な契約提案に同意させる。契約提案は、交渉タスクのために事前に定義された1組の条項からの複数の条項を含む。さらに、交渉エージェント及び相手エージェントの各々は、報酬関数に基づいてモデル化された、複数の行動モデルを備える。強化学習エージェントは、交渉システム102の交渉モジュール212に関連付けられた交渉エージェント及び相手エージェントを含む。交渉システム102が交渉タスクを1人又は複数のユーザから受信する実例を考える。受信された交渉タスクは、2つの関係者の間で交渉される必要がある契約文書であり、ユーザのうちの一方は売り手でもよく、他方は買い手でもよい。エージェントを使用して交渉タスクを実行すると、強固な通信プロトコルを有することが重要である。ここで、交渉エージェント及び相手エージェントは、解釈可能なシーケンスのビットを使用して談話をするように訓練される。訓練は、強化学習を使用し、行われる。最初に、交渉エージェント及び相手エージェントが、ニューラル・ネットワークとしてモデル化され、次いで、これらの2つのそのようなエージェントは、同時に訓練され、それらは、互いに対していくつかのラウンドの交渉レベルを行い、報酬関数としての成果に基づいて互いに連係することを学習する。交渉エージェント及び相手エージェントの行動は、報酬シグナルを変化させる効果的技法を使用して、モデル化される。このプロアクティブな訓練で、4つの異なる行動モデルを有する2つのエージェントが得られる。この方式で訓練された交渉エージェント及び相手エージェントは、実際に、それらの動きを連係させ、文脈に関連した出力を生み出すことを学習する。
304において、方法300は、複数の中間契約提案に合意するために相手エージェントの複数の行動モデルと交渉エージェントによって、1対1で交渉することを含み、ここで、交渉エージェントと相手エージェントとの各々の間の交渉は交渉訓練手順に従う。交渉エージェントは、時間ステップ「t」において複数の状態入力を取得し、ここで、複数の状態入力は、効用関数、相手の申し出、前の相手の申し出及びエージェントIDを含む。
それは、効用関数U
相手Bによって与えられる申し出、

それは、前の申し出、

エージェントID、I∈{0,1}
ここで、受信された入力は、

のように、高密度表現

に変換される。
ここで、OfferMLP(.)2レイヤMLP及びAgentLookup(.)は、エージェント識別のための高密度表現を加える埋め込みであり、TurnLookup(.)は、時間ステップ「t」における情報をエンコードする別の埋め込みである。
表現

は、

として2レイヤGRU(gated recurrent unit、ゲート付き回帰型ユニット)に渡される。但し、

は、それの前のターンにおいてAによって生成された隠された状態である。反転されることになるビットの数は、中間契約提案πからの強化学習エージェント・サンプリングによって取られるアクションに基づいて予測され、

最も高い確率で強化学習エージェントによって実行されるアクションのテスト時間選択中。次の時間ステップ「t+1」において、エージェントBはまた、類似の中間契約提案πを出力する。各々の強化学習エージェントi=∈{A,B}は、最適化して、以下のオブジェクトを個別に最大化する:

ここで、
「x」は、エージェントtによって取られるアクションであり、
「γ」は、割引係数であり、
「T」は、交渉が続く合計時間ステップであり、
「r(x,...T)」は、t=1からt=Tまでにエージェントによって取られるアクション「x」のシーケンスの関数である交渉の最後において交渉エージェント及び相手エージェント「i」によって受信される報酬であり、
「b」は、分散を減らすために使用される基準値であり、
「H[π]」は、調査を確実にするためのエントロピ正規化項であり、λは、この調査の度合いを制御する。
交渉エージェントA及び相手エージェントBのパラメータは、互いに共用され、これらのパラメータは、各エピソードの後に更新される。各エピソードは、交渉エージェントAと相手エージェントBとの間の交渉レベルを指す。ここで、訓練は、各エポックに105エピソードを有する5エポックについて実行される。
1つの実施例では、複数の行動モデルからの対応する行動モデルの交渉エージェントは、交渉タスクを実行するために複数の前記状態入力を利用する第1の中間契約提案を生成する。ここで、第1の中間契約提案は、交渉タスクのパフォーマンス中に反転されることになるビットの数を予測する。さらに、相手エージェントは、複数の行動モデルからの対応する行動の次の時間ステップ「t+1」において、交渉エージェントから取得された第1の中間契約提案に基づく第2の中間契約提案を取得する。ここで、第2の中間契約提案は、交渉タスクを実行するための中間契約提案において申し出を最大化する。さらに、報酬が、実行された交渉タスクに基づいて交渉エージェント及び相手エージェントの中間契約提案の各行動モデルに割り当てられる。生成された中間契約提案が最適である場合には、最大限の報酬が交渉エージェント及び相手エージェントに割り当てられ、そして、生成された中間契約提案が最適でない場合には、最小限の報酬が交渉エージェント及び相手エージェントに割り当てられるように、報酬は割り当てられる。1つの実施例では、交渉システム102の交渉エージェント及び相手エージェントの複数の行動モデルは、強化学習エージェントに与えられる報酬がそれの行動を決定する方式を記述する。利己的行動モデルを有する強化学習エージェント、及び向社会的行動エージェントを有するエージェントは、以下の後述されるステップを表す、
1.交渉エージェント及び相手エージェントの複数の行動モデルから向社会的行動モデルを強化するために、取り決めが、交渉タスクに関連する各条項について最適であるとき、報酬が与えられる(交渉の最後に獲得されるポイントの数)。取り決めが最適ではない場合、交渉エージェント及び相手エージェントは、-0.5の報酬を与えられる。これにより、交渉エージェント及び相手エージェントが、その中間契約提案を学習する間にそれ自体の利益/損失を問うだけではなくて、相手の優先度もまた同様に考慮することを確保する。言い換えれば、ここで、報酬は全体的最適性のシグナルを有する。
2.報酬に最適性シグナルがない場合、交渉エージェント/相手エージェントは、それが交渉において何を獲得しようとも、報酬として受け取り、次いで、利己的行動モデルが誘導される。交渉エージェント/相手エージェントは、そのとき、それ自体のスコアを最大化することを学習する。
両方のエージェントの間の意見の不一致で交渉が終わった場合に交渉エージェント及び相手エージェントが-0.5の報酬を受け取るような両方の強化学習エージェント。ここで、交渉エージェント及び相手エージェントの2つのエージェントは、相手が訓練された振る舞いに応じた4つの異なる行動モデルを2つのエージェントに得させることを同時に学習する、
1.向社会的エージェントに対して訓練された向社会的エージェント(PP):交渉エージェント及び相手エージェントの両方の強化学習エージェントが、向社会的行動モデルを有するように訓練されたときの行動PP。
2.利己的エージェントに対して訓練された利己的エージェント(SS):交渉エージェント及び相手エージェントの両方のエージェントが、利己的エージェントに対して訓練された利己的エージェントを得るために利己的になるように訓練された場合。
3.向社会的エージェントに対して訓練された利己的エージェント、及びその逆(SP、PS):1つのエージェントが利己的になるように訓練され、その相手が向社会的になるように訓練されたとき、それぞれSP及びPSとして表された2つのエージェントを得ること。
306において、方法300は、複数の中間契約提案からの最適な契約提案をセレクタ・エージェントによって選択するステップを含み、ここで、セレクタ・エージェントは、交渉エージェント及び相手エージェントの複数の行動モデルのアンサンブルである。ここで、交渉エージェント及び相手エージェントによって生成される複数の契約提案が、複数の行動モデルからの各行動について取得され、次いで、中間契約提案が、交渉エージェント及び相手エージェントの複数の行動モデルから取得された複数の契約提案と、中間契約提案及び交渉エージェント選択シーケンスの頻度分布の各々によって達成される最大限の報酬とを使用して、決定される。人間行動を模倣するために、セレクタ・エージェントは、動的行動で訓練される。訓練されたセレクタ・エージェントは、交渉状態に基づいて適切な行動を選択するための4つの異なる行動モデリングを有する2つのエージェントのアンサンブルである。さらに、現実世界のシナリオにおける交渉エージェント、パフォーマンスは、人間のプレイヤに対して交渉エージェント及び相手エージェントが行う実験で評価される。交渉エージェント及び相手エージェントは、人間のプレイヤに対しても行動の一貫性を実現する。交渉エージェント及び相手エージェントは、交渉タスクの交渉を実行するための現実の産業のシナリオにおいて配置可能である。セレクタ・エージェントは、動的行動でモデル化される。利己的エージェントは、それの相手より常にパフォーマンスが優れ、より多くスコアを取る。しかしながら、相手もまた、表2の列1に記載されるように、利己的である場合、そのようなエージェントを使用することは、多くの意見の不一致をもたらす。利己的及び向社会的行動は交渉における分離可能なプロセスではないという事実の観測において。ここで、人間は、人間が向社会的行動モデル又は利己的行動モデルのいずれかを採用するという固定のポリシを使用して実際には交渉しない。人間は、交渉プロセスの状態に応じて両方をある程度有する混合の行動に従う傾向がある。本開示は、複数の行動モデルを有するエージェントの混合を使用するすべてのエージェントに対して上手く機能する1つの最適な契約提案をモデル化する。これは、交渉タスクから取得された交渉の所与の状態について最適な契約提案を選択するために4つの異なる行動モデルを有する2つのエージェントのどちらかを選択するためのセレクタ・エージェントとして知られる別の強化学習エージェントを訓練することによって得られる。
図4は、本開示の一実施例による、強化学習エージェント間の交渉タスク交渉インタラクションに関連する1組の条項について強化学習エージェントが互いに交渉する交渉システムの例示的アーキテクチャを示す。代替でタスクとも呼ばれる交渉タスクは、交渉関係者の間で共通の条件に同意するために、複数の条項を含む任意の文書において実行され得る。交渉タスクを実行するためのモデルの設計及び訓練を目的として、本明細書では、エージェントは、交渉モジュールのエージェント・リポジトリ内にあるタスクを実行することに気付くであろう。モデルは、ユーザが複数の中間契約提案から最適な契約提案を取得するように、設計される。一実施例において、交渉システム102は、ディープ・ニューラル・ネットワーク(DNN:deep neural network)構成要素及びルールベースの構成要素を含む。ディープ・ニューラル・ネットワーク(DNN)構成要素は、相手の申し出において反転されることになるビットの数を決定するために使用され、ここで、ディープ・ニューラル・ネットワークは強化学習(RL)を介して訓練される。ルールベースの構成要素は、最大値をもたらすビットを反転することがスコアを増やすような決定論的方法で、反転されることになる正確なビットを決定する。たとえば、ユーティリティが[2,-6,-2;-4,7,3]である場合、相手の申し出が[1,1,1,0,0,1]であり、そして、反転されることになるビットの数が、第2の、第3の及び第5のビット(ルールベース)を反転する3(ニューラル・ネットワークによって決定される)である。
図5は、本開示の一実施例による、図2の強化学習エージェントを使用する交渉タスクを実行する交渉システムの例示的アーキテクチャである。例示的シナリオにおいて、交渉環境から契約合意書に関連する複数の条項について交渉タスクを実行する。ここで、2つのエージェント交渉エージェント及び相手エージェントは、どの条項が契約合意書に含まれる必要があるか、又は契約合意書から除外される必要があるかに関して共通条件に合意するために、1対1で交渉する。交渉エージェント及び相手エージェントが交渉環境において交渉タスクを実行する契約合意書に6つの条項があると考える。エージェントが条項に与える値は、それらの合計が0になるような-12と12との間の6つの整数(0を除く)のベクトルである効用関数によって表される。このベクトルには少なくとも1つの正の値及び1つの負の値が存在するという、そして正数の合計は+12であり、負数の合計は-12であるという、追加の制約がある。このベクトルは、

として表される。ここで、P=[p,p,p...p]及びN=[n,n,n...n6-k]であり、但し、0<k<6、

は連結演算子であり、シャッフル(.)は「ランダム・シャッフル」関数である。また、Σ=12及びΣ=-12という制約に従ってp∈{1,...,12}及びn∈{-12,...,-1}である。リスト内の各要素は、対応する条項にエージェントが与える重要性を表す。あらゆるケースにおいて最も有益な条項(合計で12になる値)及び最も有害な条項(合計で-12になる値)の混合が存在するような分布。交渉エージェント及び相手エージェントの各々が、均一にサンプリングされたこの効用関数を受信する。交渉エージェント及び相手エージェントは、6ビットのシーケンスS∈{0,6}である、申し出を与えることによって互いに通信する。ここで、下付き文字tは、申し出が生み出された時間ステップを指す。このシーケンス内の各ビットは、対応する条項についてのエージェントの決定である(0は除外を示し、1は包含を示す)。通信は、シーケンシャル構造に従い、最初に行くエージェントは、偏りのないコイン反転によって決定される。この通信は、それが以下を得るまで、交渉エージェントと相手エージェントとの間で続く:
1.合意に達する。これは、交渉エージェント及び相手エージェントが、それが受信した同じ中間契約提案としての申し出を与えるときに、起こる。
2.時間切れ。交渉プロセスが意見の不一致で停止した後に30個の申し出(各エージェントにつき15個)の制限を守る。
交渉タスクの終わりに、交渉エージェント及び相手エージェントなどの交渉関係者の各々は、合意されたシーケンスのビットに基づいて報酬を得る。したがって、交渉エージェントA及び相手エージェントBが、それぞれ、ユーティリティU及びUを有し、合意されたシーケンスがSである場合、AはS.Uを得て、BはS.Uを得て、(.)はドット積を表す。
図6は、本開示の一実施例による、実行された交渉タスクのために取られるアクションのシーケンスの頻度分布に基づく複数の行動モデルに対応する強化学習エージェントのパフォーマンス評価を示す。各バーで示された分布図は、最適な取り決めを表す。分布は、それらの歪んだ性質によって明らかな、他よりもある特定のシーケンスについてエージェントの間に共同の優先傾向が存在することを示す。複数の行動モデルの分析は、強化学習エージェントが非自明な何かを学習するかどうかをテストされ得、そのパフォーマンスを2つの単純な基準値と比較する:
1.あらゆるステップにおいてランダム(RANDOM)、反転されることになるビットのランダムな数を強化学習エージェントが選択する。
2.共通(COMMON)エージェント1(最初に行くエージェント)が、その最も利己的な申し出を与え、これに続いて、エージェント2が同じことを行う。第3のステップにおいて、エージェント1が、エージェント2が同意する第1の2つの申し出の共通部分を申し出る。共通部分が存在しない場合、これは意見の不一致である。表1内の結果は、30000の交渉の別個のテスト集合の平均である。ここで、エージェント1は交渉エージェントでもよく、エージェント2は相手エージェントでもよい。
訓練された交渉エージェントと相手エージェントとの間の調整が、後述するように表1に表されるように示されている。最適性の列において、括弧内の数は、合意された取り決めのパーセンテージである。
実行された交渉タスクについて交渉エージェント及び相手エージェントによって取得された結果は、表1に表されるように、行動の組み合わせの3つの変形形態のすべてが、最適性及び共同報酬に関して基準値よりもよいと示されている。これは、互いに対して訓練されたエージェントは、彼らの強制された行動を維持することとは別に、彼らのスコア並びに最適性を最大化し、彼らの動きに合わせることを学習することを表す。交渉エージェント及び相手エージェントが向社会的であるとき、両方のエージェントが、最適な取り決めを達成するために、彼ら自身の報酬だけではなく彼らの相手の報酬も最大化することに関心をもつので、共同報酬は最大である。
1つの実施例では、交渉エージェント及び相手エージェントによって実行された交渉タスクは、メトリックスの計算に基づいて評価される。メトリック・パラメータは、対話の長さ、合意率、最適率、及び平均スコアを含む。交渉評価メトリックスのための対話の長さは、交渉タスクが続く時間ステップの平均数を記述する。交渉評価メトリックスの合意率は、合意率を表す合意で終了した交渉のパーセンテージを記述する。交渉評価メトリックスの最適率は、最適な取り決めで終了した交渉のパーセンテージを記述する。さらに、取り決めが最適である場合、それが両方ともパレート最適である場合、交渉エージェント及び相手エージェントは正のスコアを受け取る。どちらのエージェントのスコアも他方のスコアを下げることなく改善され得ない場合、解はパレート最適である。交渉評価メトリックスの平均スコアは、交渉エージェント及び相手エージェントの各々によって獲得されるポイントの平均数、最適な取り決めの平均値でエージェントが獲得することができる最大限の共同報酬、を記述する。交渉エージェント及び相手エージェントは、テスト集合内のすべてのサンプルのすべての可能な取り決め(26=64)を検証し、最大限の共同報酬及び最適な取り決めをもたらす1つの中間契約提案を選択する。テスト集合の最大限の共同報酬の平均は、1:40(各エージェントについて0:70)である。中間契約提案に対する交渉エージェント及び相手エージェントのパフォーマンスを分析するために、テスト交渉が、訓練中に互いに見たことがなかったエージェントの間で実行される。これらの交渉は、これらの交渉の結果に示されるように表2に表されるような相互作用交渉と我々が呼ぶものである。
1つの実施例では、中間契約提案に対して強化学習エージェントのパフォーマンスを分析する。テスト交渉が、訓練中に互いに会わなかった交渉エージェント及び相手エージェントの各々の間で実行される。これらの交渉は、表2に表されたような相互作用交渉として表される。これらの結果は、30000交渉のテスト集合の平均値である。交渉エージェントと相手エージェントとの間の相互作用の最適性はあまり高くなく、これは、これらのエージェントが、訓練中に互いに会わず、したがって、彼らの中間契約提案を適切に開発することができなかったためである。さらに、合意率は、向社会的エージェント(PP対PS)の間の交渉では最も高く(97.96%)、利己的エージェントでは低い(59.00%)。利己的エージェントは、彼らの対応する行動を確認する向社会的エージェントよりスコアが高い。2つのエージェントが同じ報酬シグナルで訓練されるが異なる相手に対して訓練されるときに得られるスコアは、互いに交渉する。SSは、0.06ポイントの差でSPより高いスコアを取り、同様に、PSは、0.17ポイントの差でPPに勝つ。表2に表されたような相互作用交渉は、いくつかのエージェントが他より利己的な、エージェントにおける利己的/向社会的行動の様々な度合いを観測する。エージェント行動の一貫性を検証するための、表3に表されるようなマトリクスの形のすべての相互作用交渉のスコアの差(プレイヤA-プレイヤB)。ここで、各エントリは、対応するエージェントが交渉するときのスコアの差である。
差は、あらゆる行に沿って順に増加し、列に沿って減少する。エージェントは、左から右へ、及び上から下へと彼らの利己的行動が減少する順に配列されているので、この種の分布は、彼らの行動の一貫性を確認し、AがBを差mで打ち負かし、BがCを打ち負かす場合、そのとき、Aは、mより大きな差でCを打ち負かすことができるはずである。これらの結果は、30000交渉のテスト集合の平均値である。セレクタ・エージェントは、4つの異なる行動モデルを有する2つのエージェントのアンサンブルである。セレクタ・エージェントは、文脈Uを所与として彼らの複数の行動モデルを有する2つのエージェントのうちの1つの出力申し出を選択するために使用される。このセレクタ・エージェントは、それの状態入力の一部として彼らの関連する複数の行動モデルを有するすべての2つのエージェントの出力もまた取るニューラル・ネットワークとしてモデル化される。セレクタ・エージェントは、アクションがそこからサンプリングされる複数の中間契約提案のうちから最適な契約提案πを出力する。このアクションは、複数の行動モデルを有するエージェントのうちの1つによるものとして生み出される申し出である。
セレクタ・エージェントは、以下の目的を最大化する:

但し、r(S1,...T)は、それが行うアクションSのシーケンスの関数である交渉の終わりにセレクタ・エージェントが得る報酬であり、そして、rは相手の報酬である。ここで、共同報酬は、セレクタ・エージェントに割り当てられ、これは、選択する間にそれが1つの特定のエージェントに偏っていないことを確保する単純な方法である。訓練では、4つのエージェントのうちの1つを相手としてランダムに選択し、それにセレクタ・エージェントを有する100交渉エピソードのバッチをプレイさせる。このプロセスの間、5エポックの105エピソードを実行するとき、相手の重みを凍結させる。
図7は、本開示の一実施例による、強化学習エージェントによって実行される交渉タスクのためにセレクタ・エージェントを使用して最適な契約提案を選択するための頻度分布値を示す。記述されている分析は、テスト集合で1つずつ交渉エージェント及び相手エージェントの複数の行動モデルの各々に対してセレクタ・エージェントを交渉させ、結果が表4において報告される。スコアに関して、セレクタ・エージェントは、利己的なエージェントではなくて向社会的エージェントより高いスコアを取ることができる。セレクタ・エージェントは、すべてのエージェントと上手く連係し、最適性によって反映される。また、すべてのケースの共同報酬は、1.20より大きい。それにも関わらず、それは、表1で報告された結果で一致することはできない。
セレクタ・エージェントは、図7に記載されたような複数の行動モデルを有する2つのエージェントのすべてに対してそれが従うエージェント選択シーケンスの頻度分布の決定木を学習する。x軸における4つの分布は、エージェント選択のシーケンスである。さらに、あらゆるシーケンスは、いくつかの大きなシーケンスのサブシーケンスである。セレクタ・エージェントは、決定木に従うことを学習する。セレクタ・エージェントが決定木を学習するという事実は、以下を示唆する:
1.エージェントは、すべてのエージェントに対して機能するただ1つの中間契約提案(最も単純なもの)を学習する。
2.いくつか動いた後まで相手の行動をエージェントが解読することのアンサンブルの難しさ、故に、任意のステージにおいて上手く機能するただ1つのポリシを学習することには意味がある。
1つの実施例では、人間評価は、交渉エージェント及び相手エージェントが互いに対して交渉することを学習するという事実として、説明され得る。現実世界での配備を別にすると、人間のプレイヤに対する交渉タスクを実行しながらパフォーマンスを評価することは実に重要である。これを目的として、5つのすべての交渉エージェント(PP、SS、SP、PS及びセレクタ)とのいくつかのラウンドの交渉タスクを人間が行った実験。合計38人の人間のプレイヤが、すべての5つのエージェントに対する3ラウンドの交渉について交渉した。これは、人間に対する合計114の交渉ゲームを各エージェントが行ったことを意味する。人間は、彼らの目標は、彼らのスコアを最大化することであると伝えられている。これは、あらゆるゲームのインセンティブを彼らに提供することによってさらに確実にされ、表5において後述で表されるようにエージェント(報酬)より高いスコアを彼らは取る、
両方の利己的エージェント(SS及びSP)から得られた結果は、ほとんどの時間で人間より多くスコアを取る。他方の向社会的エージェント(PP及びPS)は、より多くの場合に多くスコアを取られる。人間のプレイヤの行動は、向社会的行動と利己的行動との間のモデル、セレクタ・エージェントが取得されたときによりパフォーマンスが優れるハイブリッド行動である。セレクタ・エージェントと、人間は、セレクタ・エージェントとほぼ同じ回数、勝利する。本開示は、交渉エージェント及び相手エージェントによって1対1で交渉して実行される最適な契約提案を選択するためのセレクタ・エージェントを介して人間行動を模倣することを行う。
本明細書は、当業者が実施例を構成及び使用することを可能にするために、本明細書の本主題を説明する。本主題の実施例の範囲は、特許請求の範囲によって定義され、当業者に思い浮かぶ他の修正形態を含み得る。そのような他の修正形態が、本請求項の文字通りの言語と異ならない類似の要素を有する場合、又は、それらが、本請求項の文字通りの言語とごくわずかな差を有する同等の要素を含む場合、そのような他の修正形態は、本特許請求の範囲内にあることが意図されている。
本明細書の開示の実施例は、複数の行動モデルで訓練されたエージェントで交渉タスクを実行する未解決の問題に対処する。提案されるシステムは、深層学習モデルと、交渉タスクを交渉するためにエージェントを訓練するための強化学習手順とを説明する。さらに、利己的又は向社会的行動モデルを有する交渉エージェント及び相手エージェントのモデリングは、人間のプレイヤによって適合された行動モデルに基づいてモデル化される。また、エージェントは、観測された行動の変化に基づいて相手エージェントの行動モデルを決定することができ、これらのエージェントは、交渉タスクのパフォーマンス中に取得されたデータに基づいて動的に訓練される。
保護の範囲はそのようなプログラムまで拡張され、その中にメッセージを有するコンピュータ可読手段に加えて、プログラムがサーバ又はモバイル・デバイス又は任意の適切なプログラム可能デバイスで実行するとき、そのようなコンピュータ可読記憶手段は、方法の1つ又は複数のステップを実装するためのプログラム・コード手段を含むことを理解されたい。ハードウェア・デバイスは、たとえば、サーバ又はパーソナル・コンピュータなどのような任意の種類のコンピュータ、又はその任意の組み合わせを含む、プログラムすることができる任意の種類のデバイスでもよい。デバイスはまた、たとえば、特定用途向け集積回路(ASIC:application-specific integrated circuit)のようなハードウェア手段、フィールドプログラマブル・ゲート・アレイ(FPGA:field-programmable gate array)、又はハードウェア及びソフトウェア手段の組み合わせ、たとえば、ASIC及びFPGA、又は少なくとも1つのマイクロプロセッサ及びその中にソフトウェア・モジュールがある少なくとも1つのメモリ、でもよい、手段を含み得る。したがって、手段は、ハードウェア手段及びソフトウェア手段の両方を含み得る。本明細書に記載の方法実施例は、ハードウェア及びソフトウェアにおいて実装され得る。デバイスはまた、ソフトウェア手段を含み得る。別法として、実施例は、たとえば複数のCPUを使用して、異なるハードウェア・デバイスで実装され得る。
本明細書の実施例は、ハードウェア及びソフトウェア要素を含み得る。ソフトウェアにおいて実装される実施例は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されない。本明細書に記載の様々なモジュールによって実行される機能は、他のモジュール又は他のモジュールの組み合わせにおいて実装され得る。本記述を目的として、コンピュータ使用可能又はコンピュータ可読媒体は、指示実行システム、装置、又はデバイスによって又はこれらに関して使用するためのプログラムを含む、記憶する、通信する、伝搬する、又は運ぶことができる任意の装置でもよい。
示されたステップは、示された例示的な実施例を説明するために提示され、進行中の技術的開発は特定の機能が実行される方式を変えることになることが予測されるはずである。これらの実例は、制限ではなくて、例示を目的として本明細書において提示される。さらに、機能の基礎的要素の境界線は、説明に便利なように本明細書において任意に定義されてある。特定された機能及びその関係が適切に実行される限り、代替境界線が定義され得る。代替案(本明細書に記載されたものの同等物、拡張、変形形態、逸脱などを含む)が、本明細書に含まれる教示に基づいて当業者に明らかとなろう。そのような代替案は、開示されている実施例の範囲及び趣旨内にある。また、「備える」、「有する」、「包含する」、及び「含む」並びに他の類似の形の言葉は、意味において等しく、これらの言葉のうちのいずれか1つに続く1つ又は複数の項目が、そのような1つ又は複数の項目の総記であることを意図されておらず、或いは記載された1つ又は複数の項目のみに限定されることを意図されていないという点で無制限であることが意図されている。本明細書及び添付の特許請求の範囲において、単数形の「ある(a)」、「1つの(an)」及び「その(the)」は、文脈が明らかに他の事を指示しない限り、複数の参照を含むことにも留意されたい。
さらに、1つ又は複数のコンピュータ可読記憶媒体が、本開示と一致する実施例の実装において使用され得る。コンピュータ可読記憶媒体は、プロセッサによって可読の情報又はデータが記憶され得る任意のタイプの物理メモリを指す。したがって、コンピュータ可読記憶媒体は、本明細書に記載の実施例と一致するステップ又はステージをプロセッサに実行させるための指示を含む、1つ又は複数のプロセッサによって実行するための指示を記憶し得る。「コンピュータ可読媒体」という用語は、有形の項目を含み、搬送波及び過渡信号、すなわち、非一時的であること、を除外することを理解されたい。例は、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハード・ドライブ、CD ROM、DVD、フラッシュ・ドライブ、ディスク、及び他の任意の知られている物理記憶媒体を含む。
本開示及び実例は単に例示として考えられることが意図されており、開示される実施例の真の範囲及び趣旨は、以下の特許請求の範囲によって指示される。
100 システム
102 交渉システム
104 ユーザ・デバイス
106 ネットワーク
108 ネットワーク
200 交渉システム
202 プロセッサ
204 メモリ
206 I/Oインターフェース
208 モジュール
210 システム・バス
212 交渉モジュール
214 エージェントのリポジトリ
216 交渉モジュール

Claims (15)

  1. 交渉タスクを実行するためのプロセッサ実装される方法であって、
    記交渉タスクのために事前に定義された1組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で前記交渉タスクを実行するための要求を、前記プロセッサによって実装される交渉エージェント、受信するステップであり、前記交渉エージェント及び前記相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える、ステップと、
    複数の中間契約提案に合意するために、前記相手エージェントの前記複数の行動モデルを用いて、前記交渉エージェント、1対1で交渉するステップであり、前記交渉エージェントと前記相手エージェントとの各々の間の前記交渉は交渉訓練手順に従い、前記交渉エージェント及び前記相手エージェントは、解釈可能なシーケンスのビットを使用して談話をするように訓練され、前記交渉エージェントは、ニューラル・ネットワークとしてモデル化され、同時に訓練される、ステップと、
    交渉の際に反転されることになる解釈可能なシーケンスのビットの数を、ディープ・ニューラル・ネットワーク(DNN:deep neural network)構成要素が、決定するステップと、
    前記交渉訓練手順に基づいて前記交渉エージェントと前記相手エージェントとの間の交渉を実行することによって生成された前記複数の中間契約提案から前記最適な契約提案を、セレクタ・エージェント、選択するステップであり、前記セレクタ・エージェントは、前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルのアンサンブルであり、前記交渉エージェントは、観測された行動の変化に基づいて前記相手エージェントの前記複数の行動モデルを決定し、前記交渉エージェント及び前記相手エージェントは、前記交渉タスクのパフォーマンス中に取得されたデータに基づいて動的に訓練される、ステップと、
    を含む、方法。
  2. 前記複数の行動モデルの各々が、前記相手エージェントの行動の態様と組み合わされた前記交渉エージェントの行動の態様を反映する、利己的-利己的(SS)モデル、利己的-向社会的(SP)モデル、向社会的-利己的(PS)モデル及び向社会的-向社会的(PP)モデルを含む、請求項1に記載の方法。
  3. 前記交渉エージェント及び前記相手エージェントの各々の間で前記交渉タスクを実行するための前記交渉訓練手順が、
    複数の入力を時間ステップ「t」において前記交渉エージェント取得するステップであり、前記複数の入力が、効用関数、相手の申し出、前の相手の申し出及びエージェントIDを含む、ステップと、
    前記複数の行動モデルからの対応する行動モデルのための前記交渉エージェント、前記交渉タスクを実行するための前記複数の入力を利用する第1の中間契約提案を生成するステップであり、前記第1の中間契約提案が、前記交渉タスクのパフォーマンス中に反転されることになるビットの数を予測する、ステップと、
    前記複数の行動モデルからの前記対応する行動モデルの次の時間ステップ「t+1」において前記相手エージェント、前記交渉エージェントから取得された前記第1の中間契約提案に基づく第2の中間契約提案を生成するステップであり、前記第2の中間契約提案が、前記交渉タスクを実行するための前記中間契約提案における前記申し出を最大化する、ステップと、
    前記実行された交渉タスクに基づいて前記交渉エージェント及び前記相手エージェントの前記中間契約提案の各行動モデルの報酬を割り当てるステップと
    を含む、請求項1に記載の方法。
  4. 前記中間契約提案の各行動モデルのための前記報酬を割り当てるステップが、
    前記生成された中間契約提案が最適である場合に、最大限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと、
    前記生成された中間契約提案が最適ではない場合に、最小限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと
    を含む、請求項に記載の方法。
  5. 前記セレクタ・エージェントを使用して前記最適な契約提案を選択するステップが、
    前記複数の行動モデルからの各行動について前記交渉エージェント及び前記相手エージェントによって生成される複数の契約提案を取得することと、
    前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルから取得された前記複数の契約提案を利用する中間契約提案と、前記中間契約提案及び交渉エージェント選択シーケンスの頻度分布の各々によって達成される前記最大限の報酬とを決定することと
    を含む、請求項に記載の方法。
  6. 交渉タスクを実行するためのシステム(102)であって、前記システム(102)が、
    プロセッサ(202)と、
    入力/出力(I/O)インターフェース(204)と、
    前記プロセッサ(202)に結合されたメモリ(208)と、
    を備え、前記メモリ(208)が、
    交渉タスクのために事前に定義された1組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で前記交渉タスクを実行するための要求を、前記プロセッサによって実装される前記交渉エージェント、受信することであり、前記交渉エージェント及び前記相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える、受信することと、
    複数の中間契約提案に合意するために、前記相手エージェントの前記複数の行動モデルを用いて、前記交渉エージェント、1対1で交渉することであり、前記交渉エージェントと前記相手エージェントとの各々の間の前記交渉は交渉訓練手順に従い、前記交渉エージェント及び前記相手エージェントは、解釈可能なシーケンスのビットを使用して談話をするように訓練され、前記交渉エージェント及び前記相手エージェントは、ニューラル・ネットワークとしてモデル化され、同時に訓練される、交渉することと、
    交渉の際に反転されることになる解釈可能なシーケンスのビットの数を、ディープ・ニューラル・ネットワーク(DNN:deep neural network)構成要素が、決定するステップと、
    前記交渉訓練手順に基づいて前記交渉エージェントと前記相手エージェントとの間の交渉を実行することによって生成された前記複数の中間契約提案から前記最適な契約提案をセレクタ・エージェントが、選択することであり、前記セレクタ・エージェントが、前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルのアンサンブルであり、前記交渉エージェントは、観測された行動の変化に基づいて前記相手エージェントの前記複数の行動モデルを決定し、前記交渉エージェント及び前記相手エージェントは、前記交渉タスクのパフォーマンス中に取得されたデータに基づいて動的に訓練される、選択することと、
    を含む、システム(102)。
  7. 前記複数の行動モデルの各々が、前記相手エージェントの行動の態様と組み合わされた前記交渉エージェントの行動の態様を反映する、利己的-利己的(SS)モデル、利己的-向社会的(SP)モデル、向社会的-利己的(PS)モデル及び向社会的-向社会的(PP)モデルを含む、請求項6に記載のシステム(102)。
  8. 前記交渉エージェント及び前記相手エージェントの各々の間の前記交渉タスクを実行するための前記交渉訓練手順が、
    複数の入力を時間ステップ「t」において前記交渉エージェント取得するステップであり、前記複数の入力が、効用関数、相手の申し出、前の相手の申し出及びエージェントIDを含む、ステップと、
    前記複数の行動モデルからの対応する行動モデルの前記交渉エージェント、前記交渉タスクを実行するための前記複数の入力を利用する第1の中間契約提案を生成するステップであり、前記第1の中間契約提案が、前記交渉タスクのパフォーマンス中に反転されることになるビットの数を予測する、ステップと、
    前記複数の行動モデルからの前記対応する行動モデルの次の時間ステップ「t+1」において前記相手エージェント、前記交渉エージェントから取得された前記第1の中間契約提案に基づく第2の中間契約提案を生成するステップであり、前記第2の中間契約提案が、前記交渉タスクを実行するための前記中間契約提案における前記申し出を最大化する、ステップと、
    前記実行された交渉タスクに基づいて前記交渉エージェント及び前記相手エージェントの前記中間契約提案の各行動モデルの報酬を割り当てるステップと
    を含む、請求項6に記載のシステム(102)。
  9. 前記中間契約提案の各行動モデルのための前記報酬を割り当てるステップが、
    前記生成された中間契約提案が最適である場合に、最大限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと、
    前記生成された中間契約提案が最適ではない場合に、最小限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと
    を含む、請求項に記載のシステム(102)。
  10. 前記セレクタ・エージェントを使用して前記最適な契約提案を選択することが、
    前記複数の行動モデルからの各行動について前記交渉エージェント及び前記相手エージェントによって生成される複数の契約提案を取得することと、
    前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルから取得された前記複数の契約提案を利用する前記中間契約提案と、前記中間契約提案及び交渉エージェント選択シーケンスの頻度分布の各々によって達成される前記最大限の報酬とを決定することと
    を含む、請求項に記載のシステム(102)。
  11. 1つ又は複数の指示を備えた、1つ又は複数の非一時的機械可読情報記憶媒体であって、前記指示は、1つ又は複数のハードウェア・プロセッサによって実行されたときに、
    交渉タスクのために事前に定義された1組の条項からの複数の条項を含む最適な契約提案に合意するために、交渉エージェントと相手エージェントとの間で前記交渉タスクを実行するための要求を、プロセッサによって実装される前記交渉エージェント、受信することであり、前記交渉エージェント及び前記相手エージェントの各々は、報酬関数に基づいてモデル化された複数の行動モデルを備える、受信することと、
    複数の中間契約提案に合意するために、前記相手エージェントの前記複数の行動モデルを用いて、前記交渉エージェント、1対1で交渉することであり、前記交渉エージェントと前記相手エージェントとの各々の間の前記交渉は交渉訓練手順に従い、前記交渉エージェント及び前記相手エージェントは、解釈可能なシーケンスのビットを使用して談話をするように訓練され、前記交渉エージェントは、ニューラル・ネットワークとしてモデル化され、同時に訓練される、交渉することと、
    交渉の際に反転されることになる解釈可能なシーケンスのビットの数を、ディープ・ニューラル・ネットワーク(DNN:deep neural network)構成要素が、決定することと、
    前記交渉訓練手順に基づいて前記交渉エージェントと前記相手エージェントとの間の交渉を実行することによって生成された前記複数の中間契約提案から前記最適な契約提案を、セレクタ・エージェント、選択することであり、前記セレクタ・エージェントは、前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルのアンサンブルであり、前記交渉エージェントは、観測された行動の変化に基づいて前記相手エージェントの前記複数の行動モデルを決定し、前記交渉エージェント及び前記相手エージェントは、前記交渉タスクのパフォーマンス中に取得されたデータに基づいて動的に訓練される、選択することと
    を含むアクションを実行する、1つ又は複数の非一時的機械可読情報記憶媒体。
  12. 前記複数の行動モデルの各々が、前記相手エージェントの行動の態様と組み合わされた前記交渉エージェントの行動の態様を反映する、利己的-利己的(SS)モデル、利己的-向社会的(SP)モデル、向社会的-利己的(PS)モデル及び向社会的-向社会的(PP)モデルを含む、請求項11に記載の1つ又は複数の非一時的機械可読情報記憶媒体。
  13. 前記交渉エージェント及び前記相手エージェントの各々の間で前記交渉タスクを実行するための前記交渉訓練手順が、
    複数の入力を時間ステップ「t」において前記交渉エージェント取得することであり、前記複数の入力が、効用関数、相手の申し出、前の相手の申し出及びエージェントIDを含む、取得することと、
    前記複数の行動モデルからの対応する行動モデルのための前記交渉エージェント、前記交渉タスクを実行するための前記複数の入力を利用する第1の中間契約提案を生成することであり、前記第1の中間契約提案が、前記交渉タスクのパフォーマンス中に反転されることになるビットの数を予測する、生成することと、
    前記複数の行動モデルからの前記対応する行動モデルの次の時間ステップ「t+1」において前記相手エージェント、前記交渉エージェントから取得された前記第1の中間契約提案に基づく第2の中間契約提案を生成することであり、前記第2の中間契約提案が、前記交渉タスクを実行するための前記中間契約提案における前記申し出を最大化する、生成することと、
    前記実行された交渉タスクに基づいて前記交渉エージェント及び前記相手エージェントの前記中間契約提案の各行動モデルの報酬を割り当てることと
    を含む、請求項11に記載の1つ又は複数の非一時的機械可読情報記憶媒体。
  14. 前記中間契約提案の各行動モデルのための前記報酬を割り当てることが、
    前記生成された中間契約提案が最適である場合に、最大限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと、
    前記生成された中間契約提案が最適ではない場合に、最小限の報酬が前記交渉エージェント及び前記相手エージェントに割り当てられることと
    を含む、請求項13に記載の1つ又は複数の非一時的機械可読情報記憶媒体。
  15. 前記セレクタ・エージェントを使用して前記最適な契約提案を選択することが、
    前記複数の行動モデルからの各行動について前記交渉エージェント及び前記相手エージェントによって生成される複数の契約提案を取得することと、
    前記交渉エージェント及び前記相手エージェントの前記複数の行動モデルから取得された前記複数の契約提案を利用する前記中間契約提案と、前記中間契約提案及び交渉エージェント選択シーケンスの頻度分布の各々によって達成される最大限の報酬とを決定することと
    を含む、請求項14に記載の1つ又は複数の非一時的機械可読情報記憶媒体。
JP2019129229A 2018-07-13 2019-07-11 強化学習エージェントを使用して交渉タスクを実行するための方法及びシステム Active JP7412101B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN201821026198 2018-07-13
IN201821026198 2018-07-13

Publications (2)

Publication Number Publication Date
JP2020013568A JP2020013568A (ja) 2020-01-23
JP7412101B2 true JP7412101B2 (ja) 2024-01-12

Family

ID=67437652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019129229A Active JP7412101B2 (ja) 2018-07-13 2019-07-11 強化学習エージェントを使用して交渉タスクを実行するための方法及びシステム

Country Status (5)

Country Link
US (1) US11521281B2 (ja)
EP (1) EP3594891A1 (ja)
JP (1) JP7412101B2 (ja)
BR (1) BR102019014512A2 (ja)
CA (1) CA3049235C (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018220541A1 (en) * 2017-05-30 2018-12-06 Entersekt International Limited Protocol-based system and method for establishing a multi-party contract
WO2019146044A1 (ja) * 2018-01-25 2019-08-01 日本電気株式会社 交渉装置、推定方法、プログラム、推定装置
US11803925B1 (en) * 2019-04-16 2023-10-31 Danielle Hutchinson System and method for selecting a dispute resolution process
WO2022024280A1 (en) * 2020-07-29 2022-02-03 Nec Corporation Policy generation apparatus, control method, and non-transitory computer-readable storage medium
US20220108412A1 (en) * 2020-10-07 2022-04-07 Nec Corporation Adaptive autonomous negotiation method and system of using
JP2023035039A (ja) * 2021-08-31 2023-03-13 日本電気株式会社 学習装置、学習システム、提案決定装置、学習方法およびプログラム
US20230196487A1 (en) * 2021-12-21 2023-06-22 Nec Corporation Automated negotiation agent adaptation
US20230316088A1 (en) * 2022-04-05 2023-10-05 Royal Bank Of Canada System and method for multi-objective reinforcement learning
WO2023217868A1 (en) * 2022-05-11 2023-11-16 Deepmind Technologies Limited Negotiating contracts for agent cooperation in multi-agent systems

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000510628A (ja) 1997-03-21 2000-08-15 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 程度の異なるドメイン知識を有する複数のインテリジェント・エージェントを使用してコンピュータ・タスクのパフォーマンスを最適化するための装置および方法
US20060085362A1 (en) 2004-10-15 2006-04-20 June-Ray Lin Negotiation support systems and methods

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030233305A1 (en) * 1999-11-01 2003-12-18 Neal Solomon System, method and apparatus for information collaboration between intelligent agents in a distributed network
US7103580B1 (en) * 2000-03-30 2006-09-05 Voxage, Ltd. Negotiation using intelligent agents
US7373325B1 (en) * 2000-10-13 2008-05-13 Nortel Networks Limited Automated trading for e-markets
US7171393B2 (en) * 2003-07-22 2007-01-30 International Business Machines Corporation Solving constraint satisfaction problems using variable-range hopping
US20180012227A1 (en) * 2016-07-05 2018-01-11 NXT-ID, Inc. Biometric, Behavioral-Metric, Knowledge-Metric, and Electronic-Metric Directed Authentication and Transaction Method and System

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000510628A (ja) 1997-03-21 2000-08-15 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 程度の異なるドメイン知識を有する複数のインテリジェント・エージェントを使用してコンピュータ・タスクのパフォーマンスを最適化するための装置および方法
US20060085362A1 (en) 2004-10-15 2006-04-20 June-Ray Lin Negotiation support systems and methods

Also Published As

Publication number Publication date
EP3594891A1 (en) 2020-01-15
JP2020013568A (ja) 2020-01-23
BR102019014512A2 (pt) 2020-03-10
CA3049235A1 (en) 2019-09-17
US11521281B2 (en) 2022-12-06
US20200020061A1 (en) 2020-01-16
CA3049235C (en) 2022-12-06

Similar Documents

Publication Publication Date Title
JP7412101B2 (ja) 強化学習エージェントを使用して交渉タスクを実行するための方法及びシステム
Nan et al. Unifying the role of IT in hyperturbulence and competitive advantage via a multilevel perspective of IS strategy
Burtch et al. Referral timing and fundraising success in crowdfunding
CN109155005A (zh) 使用伪计数的增强学习
Desouza et al. Towards evidence-driven policy design: Complex adaptive systems and computational modeling
Ruan et al. Exploring trust propagation behaviors in online communities
Zhan et al. A model for collective behaviour propagation: a case study of video game industry
US11468521B2 (en) Social media account filtering method and apparatus
US20130282445A1 (en) Method or system to evaluate strategy decisions
Mao et al. Human computation and multiagent systems: an algorithmic perspective
Li et al. Tackling cooperative incompatibility for zero-shot human-ai coordination
Brenguier Robust equilibria in mean-payoff games
US20230418871A1 (en) Systems, methods, computing platforms, and storage media for comparing non-adjacent data subsets
Dahi et al. Metaheuristics on quantum computers: Inspiration, simulation and real execution
Desouza et al. Towards evidence-driven policy design: Complex adaptive systems and computational modeling
Haas et al. Two-Sided Matching for mentor-mentee allocations—Algorithms and manipulation strategies
Guttman et al. Play for Real (ism)-using games to predict human-AI interactions in the real world
Crespi et al. Towards interpretable policies in multi-agent reinforcement learning tasks
Ahmed et al. Open source computer game application: An empirical analysis of quality concerns
Palanca et al. Improving the programming skills of students in multiagent systems master courses
CN113111254B (zh) 推荐模型的训练方法、拟合方法、装置和电子设备
Farenzena et al. Collaboration emergence in social networks with informational natural selection
AlMajali et al. Vulnerability Exploitation Using Reinforcement Learning
Rotich Methods for Improving Inference in Clinical Outcomes
Chen et al. Using transfer learning to model unknown opponents in automated negotiations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231226

R150 Certificate of patent or registration of utility model

Ref document number: 7412101

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150