JPH09297690A - 複数意思決定主体環境でのタスク依頼とタスク引き受け行動決定方法 - Google Patents

複数意思決定主体環境でのタスク依頼とタスク引き受け行動決定方法

Info

Publication number
JPH09297690A
JPH09297690A JP10972496A JP10972496A JPH09297690A JP H09297690 A JPH09297690 A JP H09297690A JP 10972496 A JP10972496 A JP 10972496A JP 10972496 A JP10972496 A JP 10972496A JP H09297690 A JPH09297690 A JP H09297690A
Authority
JP
Japan
Prior art keywords
decision
gain
action
actions
gains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10972496A
Other languages
English (en)
Inventor
Shigeo Matsubara
繁夫 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10972496A priority Critical patent/JPH09297690A/ja
Publication of JPH09297690A publication Critical patent/JPH09297690A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 利得の変化規則による記述を導入することに
より短時間で意思決定を行うとともに、長期的には得す
る行動の選択が可能となり、長期的に獲得できる利得を
増加し得る複数意思決定主体環境でのタスク依頼とタス
ク引き受け行動決定方法を提供する。 【解決手段】 行動による利得の変化の仕方を変化規則
を用いて表現し、必要に応じてその変化規則を用いて将
来の状態に対する行動の組合せと利得の関係を計算して
導くことにより問題表現を簡便なものとし、またどの行
動を取ればよいか計算するときに、現時点での行動が引
き起こす将来の利得の変化具合を評価し、その評価を動
作選択の判断基準に組み入れることにより、各意思決定
主体の長期的利得を増加させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、相互接続された計
算機のネットワークシステム上での、タスク依頼とタス
ク引き受けの決定問題に対して、処理すべきタスクを持
つ計算機が他計算機にデータ転送要求やデータベースの
参照要求を行うか自己でタスクを処理するかの行動を決
定し、または他計算機からタスク依頼があるときに、そ
れを引き受けるか引き受けないかの行動を決定する複数
意思決定主体環境でのタスク依頼とタスク引き受け行動
決定方法に関する。
【0002】
【従来の技術】複数の計算機がネットワークに接続さ
れ、それぞれの計算機がタスクを持ち、タスク処理のた
めに計算機間で情報がやりとりされる環境を考える。こ
れら複数の計算機には全体で1つのタスクが与えられる
のではなく、またお互いに協力的行動を取るように指示
する主計算機もないとする。ここで、例えば計算機Aの
タスク処理に、計算機Bの管理するデータベース内のデ
ータが有効であるとする。ただし、このデータなしでも
タスク処理は可能とする。このとき、計算機Aは計算機
Bにデータ参照を依頼してタスク処理を行うか、依頼せ
ず自己でタスク処理を行うかの選択がある。また、計算
機Bは依頼があった場合に、それに応じる応じないの選
択がある。
【0003】一般には、自己の利益となる行動と相手の
利益となる行動が常に一致するとは限らない。つまり、
自己にとって有利な行動を相手計算機に強制することは
不可能である。そのため、相手計算機が合理的に振る舞
うという仮定のもとで、自己の利益を最大とする行動を
選択しなければならない。このように相手がいる場合の
行動選択問題を扱う方法としてゲーム理論がある。
【0004】ゲーム理論は(1)複数の意思決定主体が
存在し、(2)意思決定主体がそれぞれ行動の選択肢を
複数持ち、(3)各意思決定主体が行動を選択したと
き、その行動の組合せにより、それぞれの利得が決定
し、(4)他の意思決定主体は全員、効用(利得)を最
大化するように行動するという前提のもとで、どの行動
を選択すればよいか決定する方法を与える。また、効用
の設定の変更が系全体の性質をどう変化させるかを解析
する方法を与えるものである([鈴木光男、“新ゲーム
理論、”勁草書房、1994]、[西田俊夫、“ゲームの理
論、”日科技連、1973]参照)。
【0005】行動選択とそれによる利得の獲得の過程を
ゲームと呼び、意味決定主体を参加者と呼ぶ。また、ゲ
ームを構成する個々の段階、すなわち、個々の行動選択
機会を手番と呼ぶ。ここでは、参加者数が2で、非協
力、完全情報のゲームを取り扱う。非協力とは強制力の
ある事前の取り決めが存在しないことをいう。結果とし
て協調行動を取ったように見えるか見えないかは全く関
係がない。また、完全情報とは、すべての参加者がそれ
以前の過程で選択された行動をすべて知っていることを
いう。
【0006】ゲームを表す方法の1つとして、ゲーム木
による表現がある。ゲーム木によるゲームの表現例を図
9に示す。PA ,PB はそれぞれゲームの参加者A,B
の手番を表す。枝は選択可能な行動を表す。この図は、
Aが最初にa1かa2の行動を選択し、それを見てから
Bがb1かb2の行動を選択する過程を表している。参
加者A,Bの行動の組合せによりそれぞれの利得が決ま
り、それが端点に示されている。これを利得ベクトルと
呼ぶ。
【0007】さて、ゲームは双方が1回ずつ行動を選択
して終るだけでなく、図9に示したゲームを部分として
繰り返すような、何段階も手が続くゲームがある。これ
を多段階ゲームという。本明細書では、現時点から双方
が1手ずつ行動を選択して、最初に利得が確定するまで
を1つの単位として現時点のゲームと呼ぶ。
【0008】さて、手番の総数がNとなるゲーム木が与
えられたとき、各手番で行動選択する従来の方法を以下
に示す。ここでは、効用=利得と定義し、Nを偶数とす
る。
【0009】(ゲーム木上での行動選択方法) (1)i←Nとする。 (2)手番iの各分岐点について、効用ベクトルを見
て、この手番の参加者の効用を最大にする行動を各分岐
点での選択行動する。ここでは、効用ベクトルは利得ベ
クトルと同一である。 (3)手番i−1の各分岐点について、(2)での選択
行動に対する効用ベクトルの中から、この手番の参加者
の効用を最大にする行動を選んで、各分岐点での選択行
動とする。 (4)i=2であれば、i←(i−1)として(7)へ
行く。 (5)i=2でなければ、分岐点i−2での各行動に対
する効用ベクトルに、それに後続する手番i−1での選
択行動に対する効用ベクトル値を加える。 (6)i←(i−2)として、(2)へ行く。 (7)手番iで選択された分岐点での選択行動をこのゲ
ームでの選択行動とする。手番1では分岐点は1つであ
り、それを選択された分岐点とする。 (8)i=Nであれば、終了する。 (9)(7)での選択行動に後続する分岐点をその手番
i←(i+1)での選択分岐点とする。 (10)(7)へ行く。
【0010】完全情報ゲームでは、各参加者はどの分岐
点にいるか知ることができ、また各分岐点で参加者は常
にそれ以降で自己の効用を最大化する行動を選択すると
いう事実から、上の方法の非協力ゲームにおける正当性
が導ける。
【0011】図9の例を参照すると、手番2(PB )で
は、どちらの分岐点でも、Bにとって、行動b2の効用
がb1よりも大きいので、行動b2が選択される。次
に、手番1(PA )では、a1(効用ベクトル(0,
8))とa2(効用ベクトル(2,2))の比較にな
る。Aにとっては、a2の方が効用が大きいのでこちら
が選択される。結局このゲームでは、行動系列a2→b
2が現れる。
【0012】
【発明が解決しようとする課題】さて、利得ベクトルの
入力処理を人間が行い、行動選択の計算を計算機が行う
とする。従来技術を用いて実現する場合の構成図を図1
0に示す。ゲームをゲーム木として表現しようとすると
き、以下の問題が生じる。
【0013】(a)一般には、現時点で取る行動がそれ
以降行うゲームの利得ベクトルを変化させる。そのた
め、その変化を取り扱えることが必要である。大きさの
小さいゲームを1つだけ用意して、それを繰り返し行う
という扱いでは不十分である。
【0014】(b)手番の数Nが大きくなると、ゲーム
木が膨大となるため、予め展開した形に書き下しておく
ことが困難となる。
【0015】(c)参加者の状態とそこで行われるゲー
ムの利得ベクトルの組を記述しておけば、必要に応じて
ゲーム木を展開することができる。しかし、状態数が増
えれば、状態と利得ベクトルの組の記述量が膨大とな
り、管理が困難となる。
【0016】また、計算を行う上で、以下の問題が生じ
る。
【0017】(d)前述の行動選択に関する従来方法は
最後の手番Nから、まず後向きに計算が進行する。しか
し、参加者をゲームに参加させ続ける強制力はどの参加
者にもないため、予めどれだけの手番が実行されるか知
ることはできない。そのため、Nが与えられない場合、
どこから計算を始めればよいか決定できない。
【0018】(e)手番の総数Nがわかっている場合で
も、Nが大きくなると、ゲーム木が膨大になり、計算量
が増加し、行動決定までに時間を要するようになる。
【0019】(f)最後の手番Nからの計算を諦めて、
現時点のゲームに関して行動決定する場合、将来の損得
を計算に含めることができない。そのため、短期的には
損をしても長期的に利得を得る行動の選択が不可能にな
る。
【0020】本発明は、上記に鑑みてなされたもので、
その目的とするところは、利得の変化規則による記述を
導入することにより短時間で意思決定を行うとともに、
長期的には得する行動の選択が可能となり、長期的に獲
得できる利得を増加し得る複数意思決定主体環境でのタ
スク依頼とタスク引き受け行動決定方法を提供すること
にある。
【0021】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、複数の意思決定主体が存
在し、意思決定主体がそれぞれ複数の行動選択肢を持
ち、それぞれの意思決定主体の取った行動の組合せによ
り各自の利得が決定し、その利得が大きくなるように行
動を決定する複数意思決定主体環境でのタスク依頼とタ
スク引き受け行動決定方法において、行動の組合せに対
する利得を記述するときに、意思決定主体の状態すべて
に対して行動の組合せと利得の関係を網羅的に記述する
ことをせずに、行動による利得の変化の仕方を変化規則
を用いて表現し、必要に応じてその変化規則を用いて将
来の状態に対する行動の組合せと利得の関係を計算して
導くことにより問題表現を簡便なものとし、またどの行
動を取ればよいか計算するときに、将来の行動から後向
き推論して行動を決定せず、現時点の短期的な損得だけ
から行動を決定することもせず、現時点での行動が引き
起こす将来の利得の変化具合を評価し、その評価を動作
選択の判断基準に組み入れることにより、各意思決定主
体の長期的利得を増加させることを要旨とする。
【0022】請求項1記載の本発明にあっては、行動に
よる利得の変化の仕方を変化規則を用いて表現し、必要
に応じてその変化規則を用いて将来の状態に対する行動
の組合せと利得の関係を計算して導くことにより問題表
現を簡便なものとし、またどの行動を取ればよいか計算
するときに、現時点での行動が引き起こす将来の利得の
変化具合を評価し、その評価を動作選択の判断基準に組
み入れることにより、各意思決定主体の長期的利得を増
加させる。
【0023】また、請求項2記載の本発明は、複数台の
計算機がネットワークを介して接続されたシステムにお
ける複数意思決定主体環境でのタスク依頼とタスク引き
受け行動決定方法において、計算機の記憶装置に格納さ
れた意思決定主体の現時点での行動に対する利得と利得
の変化規則とから現時点より後での行動に対する利得を
計算する工程と、現時点での意思決定主体の行動による
利得とその行動によって引き起こされる将来の利得変化
とから計算される効用が最大となるように意思決定主体
の行動を決定する工程とを有することを要旨とする。
【0024】請求項2記載の本発明にあっては、意思決
定主体の現時点での行動に対する利得と利得の変化規則
とから現時点より後での行動に対する利得を計算し、現
時点での意思決定主体の行動による利得とその行動によ
って引き起こされる将来の利得変化とから計算される効
用が最大となるように意思決定主体の行動を決定する。
【0025】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。
【0026】図1は、本発明の一実施形態に係る複数意
思決定主体環境でのタスク依頼とタスク引き受け行動決
定方法を実施する装置の構成を示すブロック図である。
同図に示す装置は、記憶装置1、入出力装置3、効用計
算を行う演算装置5、相手計算機と通信を行う通信装置
7を有し、記憶装置1には図10に示した従来の装置に
対して利得ベクトルの変化規則をゲーム木のデータベー
スに加えて新たに追加した点が異なるものである。この
ように利得ベクトルの変化規則を別に記述する方法を新
たに追加することにより、ゲームのゲーム木による表現
を容易にすることができる。これは、現時点のゲームを
行い、ある行動を実行すると、それ以降のゲームで利得
ベクトルがどう変化するかを記述するものである。
【0027】図2は、図9に対する変化規則の記述例を
示しているものである。図2(a)はAに対する変化規
則であり、図2(b)はBに対する変化規則である。ま
た、同図のテーブルにおいて、xはそれ以前のゲームに
おける利得の値を示す。a1,b1という行動が取られ
た場合、テーブルの行a1と列b1の交差部を見る。A
については、式x+1,x+2,x−1,x+1とあ
り、それぞれ、次の時点での(a1,b1),(a1,
b2),(a2,b1),(a2,b2)の利得の計算
式に対応する。実際に計算すると、以下のように求ま
る。
【0028】(a1,b1): x+1=5+1=6 (a1,b2): x+2=0+2=2 (a2,b1): x−1=8−1=7 (a2,b2): x+1=2+1=3
【0029】同様に他の行動組やBに対して計算する
と、図3が得られる。必要に応じて、以降のゲームの利
得ベクトルも計算できる。
【0030】次に、現時点での行動と以降のゲームの関
係の評価を加えた行動選択方法を提案する。これは、現
時点での行動が、それ以降で、自己にとってより有利な
ゲーム、すなわちより大きな利得を得る可能性のあるゲ
ームに導くか導かないかを評価し、それと現時点でのゲ
ーム上の損得の評価とを合わせて、行動選択を行うもの
である。効用を以下の式で定義する。
【0031】
【数1】 効用=(現時点でのゲームの利得) +(期待係数w)×(以降のゲームでの利得変化) (1) ゲームの参加者はこの効用を最大にする行動を選択す
る。期待係数は、参加者毎に異なり、それぞれの持つタ
スクに応じて調整される。
【0032】提案方法の計算手順を以下に示す。ここ
で、現時点のゲームとは双方が1手ずつ行動を選択し
て、利得が確定するまでのゲームを指すことを注意して
おく。
【0033】(現時点の行動による以降のゲーム変化の
評価を組み入れた行動選択方法) (1)現時点の手番をiとする。 (2)現時点のゲームの利得から上式(1)の効用を計
算する。 (3)手番i+1の各分岐点について、この手番の参加
者の効用を最大にする行動を各分岐点での選択行動とす
る。 (4)手番iの各分岐点について、(3)での選択行動
に対する効用ベクトルの中から、この手番の参加者の効
用を最大にする行動を選んで、このゲームでの選択行動
とする。 (5)分岐点iでの選択行動に後続する分岐点での選択
行動を手番i+1での選択行動とする。 (6)終了。
【0034】上記の変化規則による表現の導入により、
状態と利得ベクトルの組だけの記述よりも、記述量の削
減が期待できる。必要に応じてゲーム木を展開すること
にすれば、必要記憶容量を削減できる。
【0035】また、上記の行動による以降のゲーム変化
の評価を組み入れた行動選択方法により以下のことが可
能となる。
【0036】(a)提案手法は従来技術のように厳密な
計算を行わず、将来の利得の増分を推定するため、常に
正しい判断ができるとは限らない。しかし、従来技術の
ようにゲーム木全体を網羅的に計算する必要がなくな
り、計算時間が削減される。これは、物理システムの制
御など時間的制約がある場合特に有効である。
【0037】(b)手番の総数Nが予めわからない場合
でも、現時点の損得だけでの判断ではなくなり、現時点
で損をしても、将来大きな利益を得る可能性がある行動
があれば、それを選択する可能性が生じる。
【0038】(c)期待係数の操作により、参加者の現
時点での負荷に応じた適切な行動選択が可能となる。例
えば、現時点で余裕があれば、期待度を大きくして、相
手からの負荷の高い依頼に協調的に応じることができ
る。相手も同じ行動選択方法を用いれば、自己の負荷が
高く、相手にタスクを分配したいときに、相手が承諾す
る可能性が高まる。また、余裕がなければ、期待係数を
小さくして相手からの依頼を拒絶し、自己のタスク処理
に専念することができる。
【0039】次に、具体的な例として、計算機Aと計算
機Bとの間で情報流通問題を考える。ここでの問題設定
を以下に示す。 (1)計算機Aと計算機Bは同一ネットワークに接続し
ている。 (2)計算機Aはタスク処理のため、相手計算機BにB
が管理するデータベースのデータ参照要求を出す。 (3)計算機Aは相手に参照依頼を出すとコスト(負の
利得)が発生する。 (4)計算機Bは相手計算機のデータベース参照要求に
応じるとコスト(負の利得)が発生する。相手計算機の
要求を拒絶すれば、コストはかからない。 (5)計算機Aは相手からデータを獲得できるとそれが
タスク処理に役立つため正の利得を得ることができる。 (6)計算機Aはタスク処理時にネットワークに不要な
パケットを流すなどして、相手計算機に負荷をもたら
す。負荷の程度は計算機Aの知識レベルによる。ネット
ワーク上での情報流通に関する知識レベルが高いときに
は、周囲に与える負荷を小さくできる。 (7)計算機Bが参照要求に応じると、それに付随する
情報流通に関する知識が計算機Aに蓄積され、Aの知識
レベルが上がる。 (8)計算機間で情報のやりとりがない場合、計算機A
は情報流通に関する知識を得ることができず、知識レベ
ルが下がる。
【0040】この問題の行動と利得の関係を図4に示
す。質問と回答に関するコストを図4(a)に示す。デ
ータ獲得による利得を図4(b)に示す。タスク処理に
付随してBに生じるコストの初期値を図4(c)に示
す。このゲームを1回行うことによる利得は、(a),
(b),(c)の和となる。初期状態でのゲーム木を図
5の51で示す。図4(c)のコストは、計算機Aの知
識レベルにより変化する。そのコストの変化規則を図6
に示す。この規則を用いて求めた初期状態の次の状態で
のゲーム木を図5の53で示す。
【0041】この前提のもとで、計算機A,Bはどのよ
うに振る舞えばよいか決定することが、ここでの問題で
ある。計算の手順を以下に示す。
【0042】(1)式(1)の(以降のゲームでの利得
変化)を以下のように定義する。
【数2】(以降のゲームでの利得変化)=(次の時点の
ゲームの利得ベクトル値)−(現時点のゲームの利得ベ
クトル値) (2)期待係数wを推定する。この値は、ゲームを繰り
返し行う過程で試行錯誤的に求められる。 (3)次の時点のゲームの利得ベクトルを変化規則を用
いて計算する。 (4)[行動による以降のゲームの変化の評価を組み入
れた行動選択方法]を用いて行動を決定する。 (5)少なくとも一方がゲームを止めることにすれば、
そこで終了する。 (6)(3)へ戻る。
【0043】この手順(2)について、ここでは、計算
機A,Bとも期待係数w=10が与えられ、お互いが知
っているとする。手順(3)の例は図5の53で示した
手順(4)において、計算機Aが行動a2を取った場
合、計算機Bは何も行動しない。ここでは、何もしない
ダミー行動を行うとして計算を行う。初期状態につい
て、効用を計算した例を、図7に示す。初期状態では、
提案方法は行動a1,b1を選択することがわかる。
【0044】次に、提案方法の評価を行う。ゲーム開始
前に手番の総数Nを知ることはできない。そのため、現
時点のゲーム木の利得ベクトルだけから行動選択する方
法を用いて、提案方法を比較する。評価基準は獲得利得
の平均値とする。
【0045】
【数3】(獲得利得の平均値)=(これまでの獲得利得
の総和)/(ゲームの繰り返し数) 1回のゲームにつき、取られる行動により手番の数が1
〜2の間で変化する。そのため、ここでは手番の数の代
わりにゲームの繰り返し数という用語を用いた。
【0046】図8にゲームの繰り返し数と獲得利得の関
係を示す。本発明の方法では、行動a1,b1が毎回選
択され、従来の方法では、行動a2が毎回選択された。
図から以下のことがわかる。従来方法では計算機Aは全
く利得を得ることができない。それに対し、本発明の方
法では、計算機Bが協調行動b1を取るため、Aの利得
獲得が可能となっている。また、Bについても、協調行
動b1を取ることにより、Aのタスク処理に付随しても
たらされる負荷が小さくなり、繰り返し数が増えると従
来方法よりも利得が大きくなる。図8(b)を見ると、
繰り返し数11で利得の平均値の逆点が起こっている。
このことから、ゲーム木を最初に繰り返し数11以上ま
で展開しておけば、式(1)を用いず、効用=利得とい
う定義を用いても、最後の手番から後向きに厳密に行動
を決定する方法により本発明の方法と同様の結果が導け
ることがわかる。しかし、繰り返し数11以上のゲーム
木はかなり大きくなり、最初の行動を起こすまでにより
長い計算時間が必要となる。物理システムの制御などの
分野ではこれは大きな短所となり、本発明の方法の優位
性が示される。
【0047】
【発明の効果】以上説明したように、本発明によれば、
複数の意思決定主体によるタスク依頼とタスク引き受け
行動の決定問題に対し、利得の変化規則による記述を導
入することにより、行動組と利得ベクトルの対応関係の
記述量が削減され、また以降に行うゲームでの利得の変
化具合を評価し、それを行動選択の評価基準に含めるこ
とで、短時間での意思決定と短期的には損をしても長期
的には得をする行動の選択が可能となり、長期的に獲得
できる利得を増加させる効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る複数意思決定主体環
境でのタスク依頼とタスク引き受け行動決定方法を実施
する装置の構成を示すブロック図である。
【図2】利得ベクトルの変化規則の表現法を示す図であ
る。
【図3】利得ベクトルの変化規則を用いた利得ベクトル
の計算例を示す図である。
【図4】例題における利得ベクトルの構成要素を示す図
である。
【図5】例題の初期状態におけるゲーム木表現と次の状
態でのゲーム木表現を示す図である。
【図6】例題における利得ベクトルの計算例を示す図で
ある。
【図7】例題における効用ベクトルの計算例を示す図で
ある。
【図8】ゲームの繰り返し数に対する獲得利得の変化に
ついての従来方法と本発明の方法の比較を示す図であ
る。
【図9】ゲーム木によるゲームの表現例を示す図であ
る。
【図10】従来技術による装置の構成を示す図である。
【符号の説明】
1 記憶装置 3 入出力装置 5 演算装置 7 通信装置

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数の意思決定主体が存在し、意思決定
    主体がそれぞれ複数の行動選択肢を持ち、それぞれの意
    思決定主体の取った行動の組合せにより各自の利得が決
    定し、その利得が大きくなるように行動を決定する複数
    意思決定主体環境でのタスク依頼とタスク引き受け行動
    決定方法において、行動の組合せに対する利得を記述す
    るときに、意思決定主体の状態すべてに対して行動の組
    合せと利得の関係を網羅的に記述することをせずに、行
    動による利得の変化の仕方を変化規則を用いて表現し、
    必要に応じてその変化規則を用いて将来の状態に対する
    行動の組合せと利得の関係を計算して導くことにより問
    題表現を簡便なものとし、またどの行動を取ればよいか
    計算するときに、将来の行動から後向き推論して行動を
    決定せず、現時点の短期的な損得だけから行動を決定す
    ることもせず、現時点での行動が引き起こす将来の利得
    の変化具合を評価し、その評価を動作選択の判断基準に
    組み入れることにより、各意思決定主体の長期的利得を
    増加させることを特徴とする複数意思決定主体環境での
    タスク依頼とタスク引き受け行動決定方法。
  2. 【請求項2】 複数台の計算機がネットワークを介して
    接続されたシステムにおける複数意思決定主体環境での
    タスク依頼とタスク引き受け行動決定方法において、計
    算機の記憶装置に格納された意思決定主体の現時点での
    行動に対する利得と利得の変化規則とから現時点より後
    での行動に対する利得を計算する工程と、現時点での意
    思決定主体の行動による利得とその行動によって引き起
    こされる将来の利得変化とから計算される効用が最大と
    なるように意思決定主体の行動を決定する工程とを有す
    ることを特徴とする複数意思決定主体環境でのタスク依
    頼とタスク引き受け行動決定方法。
JP10972496A 1996-04-30 1996-04-30 複数意思決定主体環境でのタスク依頼とタスク引き受け行動決定方法 Pending JPH09297690A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10972496A JPH09297690A (ja) 1996-04-30 1996-04-30 複数意思決定主体環境でのタスク依頼とタスク引き受け行動決定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10972496A JPH09297690A (ja) 1996-04-30 1996-04-30 複数意思決定主体環境でのタスク依頼とタスク引き受け行動決定方法

Publications (1)

Publication Number Publication Date
JPH09297690A true JPH09297690A (ja) 1997-11-18

Family

ID=14517629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10972496A Pending JPH09297690A (ja) 1996-04-30 1996-04-30 複数意思決定主体環境でのタスク依頼とタスク引き受け行動決定方法

Country Status (1)

Country Link
JP (1) JPH09297690A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004068399A1 (ja) * 2003-01-31 2004-08-12 Matsushita Electric Industrial Co. Ltd. 予測型行動決定装置および行動決定方法
AU2004319192B2 (en) * 2004-04-28 2008-07-31 Fujitsu Limited Source code generation support program and source code generation support method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004068399A1 (ja) * 2003-01-31 2004-08-12 Matsushita Electric Industrial Co. Ltd. 予測型行動決定装置および行動決定方法
US7107107B2 (en) 2003-01-31 2006-09-12 Matsushita Electric Industrial Co., Ltd. Predictive action decision device and action decision method
AU2004319192B2 (en) * 2004-04-28 2008-07-31 Fujitsu Limited Source code generation support program and source code generation support method
US7930679B2 (en) 2004-04-28 2011-04-19 Fujitsu Limited Source-code-generation supporting method and computer product

Similar Documents

Publication Publication Date Title
CN111291890B (zh) 一种博弈策略优化方法、系统及存储介质
US7537523B2 (en) Dynamic player groups for interest management in multi-character virtual environments
CN111632379B (zh) 游戏角色行为控制方法、装置、存储介质及电子设备
CN104778173B (zh) 目标用户确定方法、装置及设备
CN111222029B (zh) 一种网络舆情信息传播中关键节点选择方法
CN107970608A (zh) 关卡游戏的设置方法和装置、存储介质、电子装置
CN110363286A (zh) 神经网络模型的生成方法及装置
CN112215364A (zh) 一种基于强化学习的敌-友深度确定性策略方法及系统
CN112329947A (zh) 一种基于差分进化的联邦学习激励方法和系统
CN111639969B (zh) 用于众包系统的动态激励计算方法、系统、设备及介质
CN110598853A (zh) 一种模型训练的方法、信息处理的方法以及相关装置
CN106953933B (zh) 一种消息推送方法及装置、电子设备
CN111652673B (zh) 智能推荐方法、装置、服务器和存储介质
CN113230650A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN112541570A (zh) 一种多模型训练方法、装置、电子设备及存储介质
JPH09297690A (ja) 複数意思決定主体環境でのタスク依頼とタスク引き受け行動決定方法
CN112870722B (zh) 对战格斗类ai游戏模型的生成方法、装置、设备及介质
CN110772794B (zh) 智能游戏处理方法、装置、设备及存储介质
CN114553869A (zh) 基于联合学习的确定资源贡献度的方法、装置和电子设备
CN114666274A (zh) 异步模式训练的联邦学习方法、设备、系统及可读介质
CN113256128A (zh) 电力物联网中使用强化学习均衡资源使用的任务调度方法
CN107180388A (zh) 企业估值方法、企业众筹方法及装置
Zhou et al. A negotiation protocol with recommendation for multilateral negotiation in trust networks
Yang et al. How Does Humanizing Virtual Assistants Affect the Propensity to Follow Their Advice?”
CN117033250B (zh) 对局应用的测试方法、装置、设备及存储介质