JPH09297690A

JPH09297690A - 複数意思決定主体環境でのタスク依頼とタスク引き受け行動決定方法

Info

Publication number: JPH09297690A
Application number: JP10972496A
Authority: JP
Inventors: Shigeo Matsubara; 繁夫松原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-04-30
Filing date: 1996-04-30
Publication date: 1997-11-18

Abstract

(57)【要約】【課題】利得の変化規則による記述を導入することに
より短時間で意思決定を行うとともに、長期的には得す
る行動の選択が可能となり、長期的に獲得できる利得を
増加し得る複数意思決定主体環境でのタスク依頼とタス
ク引き受け行動決定方法を提供する。【解決手段】行動による利得の変化の仕方を変化規則
を用いて表現し、必要に応じてその変化規則を用いて将
来の状態に対する行動の組合せと利得の関係を計算して
導くことにより問題表現を簡便なものとし、またどの行
動を取ればよいか計算するときに、現時点での行動が引
き起こす将来の利得の変化具合を評価し、その評価を動
作選択の判断基準に組み入れることにより、各意思決定
主体の長期的利得を増加させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、相互接続された計
算機のネットワークシステム上での、タスク依頼とタス
ク引き受けの決定問題に対して、処理すべきタスクを持
つ計算機が他計算機にデータ転送要求やデータベースの
参照要求を行うか自己でタスクを処理するかの行動を決
定し、または他計算機からタスク依頼があるときに、そ
れを引き受けるか引き受けないかの行動を決定する複数
意思決定主体環境でのタスク依頼とタスク引き受け行動
決定方法に関する。

【０００２】

【従来の技術】複数の計算機がネットワークに接続さ
れ、それぞれの計算機がタスクを持ち、タスク処理のた
めに計算機間で情報がやりとりされる環境を考える。こ
れら複数の計算機には全体で１つのタスクが与えられる
のではなく、またお互いに協力的行動を取るように指示
する主計算機もないとする。ここで、例えば計算機Ａの
タスク処理に、計算機Ｂの管理するデータベース内のデ
ータが有効であるとする。ただし、このデータなしでも
タスク処理は可能とする。このとき、計算機Ａは計算機
Ｂにデータ参照を依頼してタスク処理を行うか、依頼せ
ず自己でタスク処理を行うかの選択がある。また、計算
機Ｂは依頼があった場合に、それに応じる応じないの選
択がある。

【０００３】一般には、自己の利益となる行動と相手の
利益となる行動が常に一致するとは限らない。つまり、
自己にとって有利な行動を相手計算機に強制することは
不可能である。そのため、相手計算機が合理的に振る舞
うという仮定のもとで、自己の利益を最大とする行動を
選択しなければならない。このように相手がいる場合の
行動選択問題を扱う方法としてゲーム理論がある。

【０００４】ゲーム理論は（１）複数の意思決定主体が
存在し、（２）意思決定主体がそれぞれ行動の選択肢を
複数持ち、（３）各意思決定主体が行動を選択したと
き、その行動の組合せにより、それぞれの利得が決定
し、（４）他の意思決定主体は全員、効用（利得）を最
大化するように行動するという前提のもとで、どの行動
を選択すればよいか決定する方法を与える。また、効用
の設定の変更が系全体の性質をどう変化させるかを解析
する方法を与えるものである（［鈴木光男、“新ゲーム
理論、”勁草書房、1994］、［西田俊夫、“ゲームの理
論、”日科技連、1973］参照）。

【０００５】行動選択とそれによる利得の獲得の過程を
ゲームと呼び、意味決定主体を参加者と呼ぶ。また、ゲ
ームを構成する個々の段階、すなわち、個々の行動選択
機会を手番と呼ぶ。ここでは、参加者数が２で、非協
力、完全情報のゲームを取り扱う。非協力とは強制力の
ある事前の取り決めが存在しないことをいう。結果とし
て協調行動を取ったように見えるか見えないかは全く関
係がない。また、完全情報とは、すべての参加者がそれ
以前の過程で選択された行動をすべて知っていることを
いう。

【０００６】ゲームを表す方法の１つとして、ゲーム木
による表現がある。ゲーム木によるゲームの表現例を図
９に示す。Ｐ_A，Ｐ_Bはそれぞれゲームの参加者Ａ，Ｂ
の手番を表す。枝は選択可能な行動を表す。この図は、
Ａが最初にａ１かａ２の行動を選択し、それを見てから
Ｂがｂ１かｂ２の行動を選択する過程を表している。参
加者Ａ，Ｂの行動の組合せによりそれぞれの利得が決ま
り、それが端点に示されている。これを利得ベクトルと
呼ぶ。

【０００７】さて、ゲームは双方が１回ずつ行動を選択
して終るだけでなく、図９に示したゲームを部分として
繰り返すような、何段階も手が続くゲームがある。これ
を多段階ゲームという。本明細書では、現時点から双方
が１手ずつ行動を選択して、最初に利得が確定するまで
を１つの単位として現時点のゲームと呼ぶ。

【０００８】さて、手番の総数がＮとなるゲーム木が与
えられたとき、各手番で行動選択する従来の方法を以下
に示す。ここでは、効用＝利得と定義し、Ｎを偶数とす
る。

【０００９】（ゲーム木上での行動選択方法）（１）ｉ←Ｎとする。（２）手番ｉの各分岐点について、効用ベクトルを見
て、この手番の参加者の効用を最大にする行動を各分岐
点での選択行動する。ここでは、効用ベクトルは利得ベ
クトルと同一である。（３）手番ｉ−１の各分岐点について、（２）での選択
行動に対する効用ベクトルの中から、この手番の参加者
の効用を最大にする行動を選んで、各分岐点での選択行
動とする。（４）ｉ＝２であれば、ｉ←（ｉ−１）として（７）へ
行く。（５）ｉ＝２でなければ、分岐点ｉ−２での各行動に対
する効用ベクトルに、それに後続する手番ｉ−１での選
択行動に対する効用ベクトル値を加える。（６）ｉ←（ｉ−２）として、（２）へ行く。（７）手番ｉで選択された分岐点での選択行動をこのゲ
ームでの選択行動とする。手番１では分岐点は１つであ
り、それを選択された分岐点とする。（８）ｉ＝Ｎであれば、終了する。（９）（７）での選択行動に後続する分岐点をその手番
ｉ←（ｉ＋１）での選択分岐点とする。（10）（７）へ行く。

【００１０】完全情報ゲームでは、各参加者はどの分岐
点にいるか知ることができ、また各分岐点で参加者は常
にそれ以降で自己の効用を最大化する行動を選択すると
いう事実から、上の方法の非協力ゲームにおける正当性
が導ける。

【００１１】図９の例を参照すると、手番２（Ｐ_B）で
は、どちらの分岐点でも、Ｂにとって、行動ｂ２の効用
がｂ１よりも大きいので、行動ｂ２が選択される。次
に、手番１（Ｐ_A）では、ａ１（効用ベクトル（０，
８））とａ２（効用ベクトル（２，２））の比較にな
る。Ａにとっては、ａ２の方が効用が大きいのでこちら
が選択される。結局このゲームでは、行動系列ａ２→ｂ
２が現れる。

【００１２】

【発明が解決しようとする課題】さて、利得ベクトルの
入力処理を人間が行い、行動選択の計算を計算機が行う
とする。従来技術を用いて実現する場合の構成図を図１
０に示す。ゲームをゲーム木として表現しようとすると
き、以下の問題が生じる。

【００１３】（ａ）一般には、現時点で取る行動がそれ
以降行うゲームの利得ベクトルを変化させる。そのた
め、その変化を取り扱えることが必要である。大きさの
小さいゲームを１つだけ用意して、それを繰り返し行う
という扱いでは不十分である。

【００１４】（ｂ）手番の数Ｎが大きくなると、ゲーム
木が膨大となるため、予め展開した形に書き下しておく
ことが困難となる。

【００１５】（ｃ）参加者の状態とそこで行われるゲー
ムの利得ベクトルの組を記述しておけば、必要に応じて
ゲーム木を展開することができる。しかし、状態数が増
えれば、状態と利得ベクトルの組の記述量が膨大とな
り、管理が困難となる。

【００１６】また、計算を行う上で、以下の問題が生じ
る。

【００１７】（ｄ）前述の行動選択に関する従来方法は
最後の手番Ｎから、まず後向きに計算が進行する。しか
し、参加者をゲームに参加させ続ける強制力はどの参加
者にもないため、予めどれだけの手番が実行されるか知
ることはできない。そのため、Ｎが与えられない場合、
どこから計算を始めればよいか決定できない。

【００１８】（ｅ）手番の総数Ｎがわかっている場合で
も、Ｎが大きくなると、ゲーム木が膨大になり、計算量
が増加し、行動決定までに時間を要するようになる。

【００１９】（ｆ）最後の手番Ｎからの計算を諦めて、
現時点のゲームに関して行動決定する場合、将来の損得
を計算に含めることができない。そのため、短期的には
損をしても長期的に利得を得る行動の選択が不可能にな
る。

【００２０】本発明は、上記に鑑みてなされたもので、
その目的とするところは、利得の変化規則による記述を
導入することにより短時間で意思決定を行うとともに、
長期的には得する行動の選択が可能となり、長期的に獲
得できる利得を増加し得る複数意思決定主体環境でのタ
スク依頼とタスク引き受け行動決定方法を提供すること
にある。

【００２１】

【課題を解決するための手段】上記目的を達成するた
め、請求項１記載の本発明は、複数の意思決定主体が存
在し、意思決定主体がそれぞれ複数の行動選択肢を持
ち、それぞれの意思決定主体の取った行動の組合せによ
り各自の利得が決定し、その利得が大きくなるように行
動を決定する複数意思決定主体環境でのタスク依頼とタ
スク引き受け行動決定方法において、行動の組合せに対
する利得を記述するときに、意思決定主体の状態すべて
に対して行動の組合せと利得の関係を網羅的に記述する
ことをせずに、行動による利得の変化の仕方を変化規則
を用いて表現し、必要に応じてその変化規則を用いて将
来の状態に対する行動の組合せと利得の関係を計算して
導くことにより問題表現を簡便なものとし、またどの行
動を取ればよいか計算するときに、将来の行動から後向
き推論して行動を決定せず、現時点の短期的な損得だけ
から行動を決定することもせず、現時点での行動が引き
起こす将来の利得の変化具合を評価し、その評価を動作
選択の判断基準に組み入れることにより、各意思決定主
体の長期的利得を増加させることを要旨とする。

【００２２】請求項１記載の本発明にあっては、行動に
よる利得の変化の仕方を変化規則を用いて表現し、必要
に応じてその変化規則を用いて将来の状態に対する行動
の組合せと利得の関係を計算して導くことにより問題表
現を簡便なものとし、またどの行動を取ればよいか計算
するときに、現時点での行動が引き起こす将来の利得の
変化具合を評価し、その評価を動作選択の判断基準に組
み入れることにより、各意思決定主体の長期的利得を増
加させる。

【００２３】また、請求項２記載の本発明は、複数台の
計算機がネットワークを介して接続されたシステムにお
ける複数意思決定主体環境でのタスク依頼とタスク引き
受け行動決定方法において、計算機の記憶装置に格納さ
れた意思決定主体の現時点での行動に対する利得と利得
の変化規則とから現時点より後での行動に対する利得を
計算する工程と、現時点での意思決定主体の行動による
利得とその行動によって引き起こされる将来の利得変化
とから計算される効用が最大となるように意思決定主体
の行動を決定する工程とを有することを要旨とする。

【００２４】請求項２記載の本発明にあっては、意思決
定主体の現時点での行動に対する利得と利得の変化規則
とから現時点より後での行動に対する利得を計算し、現
時点での意思決定主体の行動による利得とその行動によ
って引き起こされる将来の利得変化とから計算される効
用が最大となるように意思決定主体の行動を決定する。

【００２５】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。

【００２６】図１は、本発明の一実施形態に係る複数意
思決定主体環境でのタスク依頼とタスク引き受け行動決
定方法を実施する装置の構成を示すブロック図である。
同図に示す装置は、記憶装置１、入出力装置３、効用計
算を行う演算装置５、相手計算機と通信を行う通信装置
７を有し、記憶装置１には図１０に示した従来の装置に
対して利得ベクトルの変化規則をゲーム木のデータベー
スに加えて新たに追加した点が異なるものである。この
ように利得ベクトルの変化規則を別に記述する方法を新
たに追加することにより、ゲームのゲーム木による表現
を容易にすることができる。これは、現時点のゲームを
行い、ある行動を実行すると、それ以降のゲームで利得
ベクトルがどう変化するかを記述するものである。

【００２７】図２は、図９に対する変化規則の記述例を
示しているものである。図２（ａ）はＡに対する変化規
則であり、図２（ｂ）はＢに対する変化規則である。ま
た、同図のテーブルにおいて、ｘはそれ以前のゲームに
おける利得の値を示す。ａ１，ｂ１という行動が取られ
た場合、テーブルの行ａ１と列ｂ１の交差部を見る。Ａ
については、式ｘ＋１，ｘ＋２，ｘ−１，ｘ＋１とあ
り、それぞれ、次の時点での（ａ１，ｂ１），（ａ１，
ｂ２），（ａ２，ｂ１），（ａ２，ｂ２）の利得の計算
式に対応する。実際に計算すると、以下のように求ま
る。

【００２８】（ａ１，ｂ１）：ｘ＋１＝５＋１＝６（ａ１，ｂ２）：ｘ＋２＝０＋２＝２（ａ２，ｂ１）：ｘ−１＝８−１＝７（ａ２，ｂ２）：ｘ＋１＝２＋１＝３

【００２９】同様に他の行動組やＢに対して計算する
と、図３が得られる。必要に応じて、以降のゲームの利
得ベクトルも計算できる。

【００３０】次に、現時点での行動と以降のゲームの関
係の評価を加えた行動選択方法を提案する。これは、現
時点での行動が、それ以降で、自己にとってより有利な
ゲーム、すなわちより大きな利得を得る可能性のあるゲ
ームに導くか導かないかを評価し、それと現時点でのゲ
ーム上の損得の評価とを合わせて、行動選択を行うもの
である。効用を以下の式で定義する。

【００３１】

【数１】効用＝（現時点でのゲームの利得）＋（期待係数ｗ）×（以降のゲームでの利得変化）（１）ゲームの参加者はこの効用を最大にする行動を選択す
る。期待係数は、参加者毎に異なり、それぞれの持つタ
スクに応じて調整される。

【００３２】提案方法の計算手順を以下に示す。ここ
で、現時点のゲームとは双方が１手ずつ行動を選択し
て、利得が確定するまでのゲームを指すことを注意して
おく。

【００３３】（現時点の行動による以降のゲーム変化の
評価を組み入れた行動選択方法）（１）現時点の手番をｉとする。（２）現時点のゲームの利得から上式（１）の効用を計
算する。（３）手番ｉ＋１の各分岐点について、この手番の参加
者の効用を最大にする行動を各分岐点での選択行動とす
る。（４）手番ｉの各分岐点について、（３）での選択行動
に対する効用ベクトルの中から、この手番の参加者の効
用を最大にする行動を選んで、このゲームでの選択行動
とする。（５）分岐点ｉでの選択行動に後続する分岐点での選択
行動を手番ｉ＋１での選択行動とする。（６）終了。

【００３４】上記の変化規則による表現の導入により、
状態と利得ベクトルの組だけの記述よりも、記述量の削
減が期待できる。必要に応じてゲーム木を展開すること
にすれば、必要記憶容量を削減できる。

【００３５】また、上記の行動による以降のゲーム変化
の評価を組み入れた行動選択方法により以下のことが可
能となる。

【００３６】（ａ）提案手法は従来技術のように厳密な
計算を行わず、将来の利得の増分を推定するため、常に
正しい判断ができるとは限らない。しかし、従来技術の
ようにゲーム木全体を網羅的に計算する必要がなくな
り、計算時間が削減される。これは、物理システムの制
御など時間的制約がある場合特に有効である。

【００３７】（ｂ）手番の総数Ｎが予めわからない場合
でも、現時点の損得だけでの判断ではなくなり、現時点
で損をしても、将来大きな利益を得る可能性がある行動
があれば、それを選択する可能性が生じる。

【００３８】（ｃ）期待係数の操作により、参加者の現
時点での負荷に応じた適切な行動選択が可能となる。例
えば、現時点で余裕があれば、期待度を大きくして、相
手からの負荷の高い依頼に協調的に応じることができ
る。相手も同じ行動選択方法を用いれば、自己の負荷が
高く、相手にタスクを分配したいときに、相手が承諾す
る可能性が高まる。また、余裕がなければ、期待係数を
小さくして相手からの依頼を拒絶し、自己のタスク処理
に専念することができる。

【００３９】次に、具体的な例として、計算機Ａと計算
機Ｂとの間で情報流通問題を考える。ここでの問題設定
を以下に示す。（１）計算機Ａと計算機Ｂは同一ネットワークに接続し
ている。（２）計算機Ａはタスク処理のため、相手計算機ＢにＢ
が管理するデータベースのデータ参照要求を出す。（３）計算機Ａは相手に参照依頼を出すとコスト（負の
利得）が発生する。（４）計算機Ｂは相手計算機のデータベース参照要求に
応じるとコスト（負の利得）が発生する。相手計算機の
要求を拒絶すれば、コストはかからない。（５）計算機Ａは相手からデータを獲得できるとそれが
タスク処理に役立つため正の利得を得ることができる。（６）計算機Ａはタスク処理時にネットワークに不要な
パケットを流すなどして、相手計算機に負荷をもたら
す。負荷の程度は計算機Ａの知識レベルによる。ネット
ワーク上での情報流通に関する知識レベルが高いときに
は、周囲に与える負荷を小さくできる。（７）計算機Ｂが参照要求に応じると、それに付随する
情報流通に関する知識が計算機Ａに蓄積され、Ａの知識
レベルが上がる。（８）計算機間で情報のやりとりがない場合、計算機Ａ
は情報流通に関する知識を得ることができず、知識レベ
ルが下がる。

【００４０】この問題の行動と利得の関係を図４に示
す。質問と回答に関するコストを図４（ａ）に示す。デ
ータ獲得による利得を図４（ｂ）に示す。タスク処理に
付随してＢに生じるコストの初期値を図４（ｃ）に示
す。このゲームを１回行うことによる利得は、（ａ），
（ｂ），（ｃ）の和となる。初期状態でのゲーム木を図
５の５１で示す。図４（ｃ）のコストは、計算機Ａの知
識レベルにより変化する。そのコストの変化規則を図６
に示す。この規則を用いて求めた初期状態の次の状態で
のゲーム木を図５の５３で示す。

【００４１】この前提のもとで、計算機Ａ，Ｂはどのよ
うに振る舞えばよいか決定することが、ここでの問題で
ある。計算の手順を以下に示す。

【００４２】（１）式（１）の（以降のゲームでの利得
変化）を以下のように定義する。

【数２】（以降のゲームでの利得変化）＝（次の時点の
ゲームの利得ベクトル値）−（現時点のゲームの利得ベ
クトル値）（２）期待係数ｗを推定する。この値は、ゲームを繰り
返し行う過程で試行錯誤的に求められる。（３）次の時点のゲームの利得ベクトルを変化規則を用
いて計算する。（４）［行動による以降のゲームの変化の評価を組み入
れた行動選択方法］を用いて行動を決定する。（５）少なくとも一方がゲームを止めることにすれば、
そこで終了する。（６）（３）へ戻る。

【００４３】この手順（２）について、ここでは、計算
機Ａ，Ｂとも期待係数ｗ＝１０が与えられ、お互いが知
っているとする。手順（３）の例は図５の５３で示した
手順（４）において、計算機Ａが行動ａ２を取った場
合、計算機Ｂは何も行動しない。ここでは、何もしない
ダミー行動を行うとして計算を行う。初期状態につい
て、効用を計算した例を、図７に示す。初期状態では、
提案方法は行動ａ１，ｂ１を選択することがわかる。

【００４４】次に、提案方法の評価を行う。ゲーム開始
前に手番の総数Ｎを知ることはできない。そのため、現
時点のゲーム木の利得ベクトルだけから行動選択する方
法を用いて、提案方法を比較する。評価基準は獲得利得
の平均値とする。

【００４５】

【数３】（獲得利得の平均値）＝（これまでの獲得利得
の総和）／（ゲームの繰り返し数）１回のゲームにつき、取られる行動により手番の数が１
〜２の間で変化する。そのため、ここでは手番の数の代
わりにゲームの繰り返し数という用語を用いた。

【００４６】図８にゲームの繰り返し数と獲得利得の関
係を示す。本発明の方法では、行動ａ１，ｂ１が毎回選
択され、従来の方法では、行動ａ２が毎回選択された。
図から以下のことがわかる。従来方法では計算機Ａは全
く利得を得ることができない。それに対し、本発明の方
法では、計算機Ｂが協調行動ｂ１を取るため、Ａの利得
獲得が可能となっている。また、Ｂについても、協調行
動ｂ１を取ることにより、Ａのタスク処理に付随しても
たらされる負荷が小さくなり、繰り返し数が増えると従
来方法よりも利得が大きくなる。図８（ｂ）を見ると、
繰り返し数１１で利得の平均値の逆点が起こっている。
このことから、ゲーム木を最初に繰り返し数１１以上ま
で展開しておけば、式（１）を用いず、効用＝利得とい
う定義を用いても、最後の手番から後向きに厳密に行動
を決定する方法により本発明の方法と同様の結果が導け
ることがわかる。しかし、繰り返し数１１以上のゲーム
木はかなり大きくなり、最初の行動を起こすまでにより
長い計算時間が必要となる。物理システムの制御などの
分野ではこれは大きな短所となり、本発明の方法の優位
性が示される。

【００４７】

【発明の効果】以上説明したように、本発明によれば、
複数の意思決定主体によるタスク依頼とタスク引き受け
行動の決定問題に対し、利得の変化規則による記述を導
入することにより、行動組と利得ベクトルの対応関係の
記述量が削減され、また以降に行うゲームでの利得の変
化具合を評価し、それを行動選択の評価基準に含めるこ
とで、短時間での意思決定と短期的には損をしても長期
的には得をする行動の選択が可能となり、長期的に獲得
できる利得を増加させる効果がある。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る複数意思決定主体環
境でのタスク依頼とタスク引き受け行動決定方法を実施
する装置の構成を示すブロック図である。

【図２】利得ベクトルの変化規則の表現法を示す図であ
る。

【図３】利得ベクトルの変化規則を用いた利得ベクトル
の計算例を示す図である。

【図４】例題における利得ベクトルの構成要素を示す図
である。

【図５】例題の初期状態におけるゲーム木表現と次の状
態でのゲーム木表現を示す図である。

【図６】例題における利得ベクトルの計算例を示す図で
ある。

【図７】例題における効用ベクトルの計算例を示す図で
ある。

【図８】ゲームの繰り返し数に対する獲得利得の変化に
ついての従来方法と本発明の方法の比較を示す図であ
る。

【図９】ゲーム木によるゲームの表現例を示す図であ
る。

【図１０】従来技術による装置の構成を示す図である。

【符号の説明】

１記憶装置３入出力装置５演算装置７通信装置

Claims

【特許請求の範囲】

【請求項１】複数の意思決定主体が存在し、意思決定
主体がそれぞれ複数の行動選択肢を持ち、それぞれの意
思決定主体の取った行動の組合せにより各自の利得が決
定し、その利得が大きくなるように行動を決定する複数
意思決定主体環境でのタスク依頼とタスク引き受け行動
決定方法において、行動の組合せに対する利得を記述す
るときに、意思決定主体の状態すべてに対して行動の組
合せと利得の関係を網羅的に記述することをせずに、行
動による利得の変化の仕方を変化規則を用いて表現し、
必要に応じてその変化規則を用いて将来の状態に対する
行動の組合せと利得の関係を計算して導くことにより問
題表現を簡便なものとし、またどの行動を取ればよいか
計算するときに、将来の行動から後向き推論して行動を
決定せず、現時点の短期的な損得だけから行動を決定す
ることもせず、現時点での行動が引き起こす将来の利得
の変化具合を評価し、その評価を動作選択の判断基準に
組み入れることにより、各意思決定主体の長期的利得を
増加させることを特徴とする複数意思決定主体環境での
タスク依頼とタスク引き受け行動決定方法。
【請求項２】複数台の計算機がネットワークを介して
接続されたシステムにおける複数意思決定主体環境での
タスク依頼とタスク引き受け行動決定方法において、計
算機の記憶装置に格納された意思決定主体の現時点での
行動に対する利得と利得の変化規則とから現時点より後
での行動に対する利得を計算する工程と、現時点での意
思決定主体の行動による利得とその行動によって引き起
こされる将来の利得変化とから計算される効用が最大と
なるように意思決定主体の行動を決定する工程とを有す
ることを特徴とする複数意思決定主体環境でのタスク依
頼とタスク引き受け行動決定方法。