JPH1165639A - 問題解決装置及び方法並びにプログラム記憶媒体 - Google Patents

問題解決装置及び方法並びにプログラム記憶媒体

Info

Publication number
JPH1165639A
JPH1165639A JP21728797A JP21728797A JPH1165639A JP H1165639 A JPH1165639 A JP H1165639A JP 21728797 A JP21728797 A JP 21728797A JP 21728797 A JP21728797 A JP 21728797A JP H1165639 A JPH1165639 A JP H1165639A
Authority
JP
Japan
Prior art keywords
time
plan
execution
environment
execution plan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP21728797A
Other languages
English (en)
Inventor
Mitsuru Oda
充 織田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP21728797A priority Critical patent/JPH1165639A/ja
Publication of JPH1165639A publication Critical patent/JPH1165639A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】本発明は、動的に変化する環境を観測し、その
観測結果に基づいて実行プランを選択して実行すること
を繰り返していくことで、目標を達成する行動を行う問
題解決装置に関し、環境の動的変化への追従と資源管理
の効率化とを同時に実現することを目的とする。 【解決手段】実行プランを選択するときに、環境の変化
率と、実行プランの実行時間の見積もり時間とから、実
行プランによる目標達成行動により得られる利益の時間
変化特性を算出する算出手段13と、算出手段13の算
出する利益の時間変化特性と、実行プランの実行により
消費する価値の時間変化特性とから、実行プランによる
目標達成行動の効用が最大となる時点を特定する特定手
段14と、特定手段14の特定する時点への到達を判断
するときに、実行プランの実行を中断する中断手段15
とを備えるように構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、動的に変化する環
境を観測し、その観測結果に基づいて実行プランを選択
して実行することを繰り返していくことで、目標を達成
する行動を行う問題解決装置及び方法と、その問題解決
装置の実現に用いられるプログラムが記憶されるプログ
ラム記憶媒体とに関し、特に、環境の動的変化への追従
と資源管理の効率化とを同時に実現する問題解決装置及
び方法と、その問題解決装置の実現に用いられるプログ
ラムが記憶されるプログラム記憶媒体とに関する。
【0002】計算機技術の発展により、環境状態の観
測、目標達成行動のプランニング及びプラン実行などの
目標達成行動を自律的に行うロボットやエージェントな
どのような問題解決装置が利用可能となってきた。
【0003】一般的に、問題解決装置が存在する環境
は、事態の成立・不成立が動的に変化する環境(以下、
動的環境と呼ぶ)である。問題解決装置が動的環境にお
いて成立する事態に関する完全な知識を得ることは、現
実の環境規模や問題解決装置の環境の観測能力の有限性
から見て困難であり、これから、問題解決装置は、動的
環境下での目標達成行動を不完全な環境知識を前提に行
う必要がある。
【0004】このため、動的環境下での目標達成行動で
は、環境変化により、プランが前提とする環境の状態
と、プランが実行される時点での環境の状態とが一致し
ない可能性がある。従って、動的環境において目標達成
行動を自律的に行う問題解決装置は、自分自身の実行し
ている目標達成行動の前提としている環境状態が、現時
点においても成立するのか否かを再検討する能力が必要
がある。すなわち、環境状態の再観測を行うか、あるい
は、前提としている環境状態が現時点でも成立すると仮
定して、目標達成行動を続行するかを自分自身で決定す
る能力が必要である。
【0005】一方、問題解決装置に対して、一定量の時
間、エネルギー、課金内において目標を達成しなければ
ならないなど、目標達成行動で消費可能な資源は有限量
である場合が多い。環境において自律的に目標達成行動
を行う問題解決装置は、目標達成行動を与えられた資源
の範囲内で実行するように、自分自身でプランニングす
る必要がある。
【0006】これから、問題解決装置は、環境状態の観
測、目標達成行動のプランニング及びプラン実行から構
成される目標達成行動のサイクルを単純に繰り返すので
はなくて、動的環境の変化を予測、追従しながら、与え
られた資源制約を満たす範囲内において目標達成行動を
実行するようにと、自分自身の目標達成行動に現れる環
境状態の観測や、プラン生成や、選択であるプランニン
グや、プラン実行の開始/中断を、自律的に制御する能
力が求められることになる。
【0007】
【従来の技術】環境の観測、その観測結果に基づくプラ
ン候補の生成、複数の実行プラン候補からの実行プラン
の選択が行われる古典的プランニングでは、複数のプラ
ン候補から、実際に実行するプランを選択するために、
効率的なプランの選択、実行が可能になるという特徴が
ある。
【0008】しかし、古典的プランニングでは、プラン
候補の生成のためにプランニング過程に費やされる時間
が多くなる傾向がある。このため、プランが前提とする
環境の状態と、実際にプランが実行される時点での環境
の状態が異なり、その結果、プランの実行が失敗する可
能性がある。このように、古典的プランニングは、環境
の観測からプラン実行までに生じた環境変化に対する追
従性で問題がある。
【0009】一方、動的な環境における環境変化への追
従性を重視したプランニング手法として、観測結果を直
接に実行の前提条件とする行動ルールを有することで、
環境モデルの生成及びプランニングの段階を省き、環境
変化の追従性を高めた即応的プランニングがある。この
即応的プランニングは、多段の行動ルールの組み合わせ
からなるプランが用いられないため、環境の観測から実
行プランの選択に至る過程が早いという特徴がある。す
なわち、プランニングに用いられる時間が少ないため
に、古典的プランニングに比べて環境変化への追従性は
高い。
【0010】しかし、即応的プランニングでは、多段の
行動ルールの組み合わせからなるプランが用いられない
ために、様々な状態に対して目標達成する有用な行動ル
ールが事前に問題解決装置に与えられていない場合、場
当たり的な行動を行うプランが実行される可能性が高
い。これから、即応的プランニングは、資源消費の多い
プランが実行されたり、目標達成に至るまでに目標達成
行動のサイクルを繰り返す危険性があり、効率的な資源
利用の面で問題がある。
【0011】
【発明が解決しようとする課題】このように、古典的プ
ランニングは、即応的プランニングに比較して、与えら
れた目標の達成のための行動に必要な資源の効率的な利
用に向くが、プランニング中に生ずる環境変化への追従
性が低い。一方、即応的プランニングは、古典的プラン
ニングに比較して、プランニング中に生ずる環境変化へ
の追従性は高いが、効率的な資源の利用の点で劣るとい
う両極な関係にある。これから、それらの良い特徴を相
補的に用いるプランニングが必要となる。
【0012】問題解決装置の実行する目標達成行動は、
環境の観測からプラン実行に至る一連の行動の繰り返し
となる。この環境の観測、プランニング、プラン実行に
至る一連の行動は、目標達成行動の単位サイクルと呼ば
れている。
【0013】プランが前提とする環境の状態は、環境の
動的変化により、時間経過に伴って変化する可能性があ
る。従って、プランを実行しないでいることは、その時
間経過に伴いプランの実行が失敗する危険性が増す。し
かし、その一方で、生成されたプランを実行しないでい
ることにより、より効率的な資源利用が可能となる新た
なプランを生成する可能性が増す。即応的プランニング
と古典的プランニングとに見られるように、目標達成行
動に利用される資源の効率的な利用と、環境の動的変化
への追従は、目標達成行動の単位サイクル当たりで費や
すことのできる時間を介して、トレードオフの関係にあ
る。
【0014】単位サイクルで消費可能な時間に対して閾
値を設定し、かつ、プランニング過程で単位サイクルの
実行に必要となる時間を見積もることで、単位サイクル
の実行に見積もられる時間が閾値を越えたならば、プラ
ンニングを中止し、その時点で最良なプランを実行する
ことや、単位サイクルの実行に見積もられる時間におい
て、実行中の単位サイクルを中断し、次の単位サイクル
すなわち環境の再観測を行うことが考えられる。単位サ
イクルで消費可能な時間に対する閾値を設定する能力を
問題解決装置自身に持たせることで、問題解決装置は、
目標達成行動に含まれる環境の観測、プランニング、プ
ラン実行の開始/終了を自律的に制御することが可能に
なる。
【0015】目標達成行動の単位サイクルで消費される
資源に比べて、残余資源が充分多い状態は、少ない状態
に比較して、目標達成行動の単位サイクルの実行の失敗
により、目標達成を失敗する危険性が少ない。従って、
残余資源が多い場合は、少ない場合に比較して、目標達
成行動の単位サイクルで消費される時間の割り当て量を
多く取ることができる。一方、環境の動的変化が早い状
況では、遅い状況に比べて、プランが前提とする環境の
状態が変化する危険性が高い。これから、上述の閾値
は、残余資源量と環境の動的変化の程度の関係から求め
る必要がある。
【0016】本発明はかかる事情に鑑みてなされたもの
であって、動的環境における目標達成行動のためのプラ
ンニング及びプラン実行を自律的に繰り返し行う構成を
採るときにあって、目標達成行動の単位サイクルで消費
される時間の割り当て量、すなわち、単位サイクルの中
断時点を適切に決定する方法を提供することで、環境の
動的変化への追従と資源管理の効率化とを同時に実現す
る新たな問題解決装置及び方法の提供と、その問題解決
装置の実現に用いられるプログラムが記憶される新たな
プログラム記憶媒体の提供とを目的とする。
【0017】
【課題を解決するための手段】図1に本発明の原理構成
を図示する。図中、1は本発明を具備する問題解決装置
であって、動的に変化する環境を観測し、その観測結果
に基づいて実行プランを選択して実行することを繰り返
していくことで、目標を達成する行動を行うものであ
る。
【0018】本発明の問題解決装置1は、観測手段10
と、選択手段11と、実行手段12と、算出手段13
と、特定手段14と、中断手段15と、時計手段16
と、修正手段17、判断手段18とを備える。
【0019】この観測手段10は、環境の状態を観測す
る。選択手段11は、観測手段10の観測結果に基づい
て実行プランを選択する。実行手段12は、選択手段1
1の選択した実行プランを実行する。
【0020】算出手段13は、選択手段11が実行プラ
ンを選択するときに、環境の変化率と、その実行プラン
の実行時間の見積もり時間とから、その実行プランによ
る目標達成行動により得られる利益の時間変化特性を算
出する。
【0021】特定手段14は、算出手段13の算出する
利益の時間変化特性と、選択手段11の選択した実行プ
ランの実行により消費する価値の時間変化特性とから、
その実行プランによる目標達成行動の効用が最大となる
時点を特定する。
【0022】中断手段15は、実行プランの実行を中断
する。時計手段16は、中断手段15の中断処理に必要
となる時刻情報を生成する。修正手段17は、算出手段
13の用いる環境変化率を修正する。判断手段18は、
環境変化が想定したものよりも変化しているのか否かを
判断する。
【0023】ここで、本発明の問題解決装置1の持つ機
能は具体的にはプログラムで実現されるものであり、こ
のプログラムは、フロッピィディスクなどに記憶され、
それらから問題解決装置1にインストールされてメモリ
上で動作することで、本発明を実現することになる。
【0024】このように構成される本発明の問題解決装
置1では、観測手段10が環境の状態を観測し、選択手
段11が観測手段10の観測結果に基づいて実行プラン
を選択し、実行手段12が選択手段11の選択した実行
プランを実行することを繰り返していくことで、目標を
達成する行動を行うときに、算出手段13は、選択手段
11が実行プランを選択するときに、環境の変化率と、
その実行プランの実行時間の見積もり時間とから、その
実行プランによる目標達成行動により得られる利益の時
間変化特性を算出し、これを受けて、特定手段14は、
算出手段13の算出する利益の時間変化特性と、その実
行プランの実行により消費する価値の時間変化特性とか
ら、その実行プランによる目標達成行動の効用が最大と
なる時点を特定する。
【0025】この特定手段14の特定処理を受けて、中
断手段15は、時計手段16を参照することで、特定手
段14の特定する時点への到達を判断するときに、実行
手段12に対して、実行プランの実行の中断を指示する
ことで実行プランを中断する。
【0026】この構成を採るときに、修正手段17は、
中断手段15による中断処理の前に実行プランが目標達
成を失敗するときには、算出手段13の算出する時点が
早くなるようにと環境変化率を修正する。
【0027】また、判断手段18は、中断手段15が実
行プランの実行を中断するときに、環境変化が想定した
ものよりも変化しているのか否かを判断し、これを受け
て、修正手段17は、判断手段18により環境変化が想
定したものよりも大きく変化していることが判断される
ときには、算出手段13の算出する時点が早くなるよう
にと環境変化率を修正し、小さく変化していることが判
断されるときには、算出手段13の算出する時点が遅く
なるようにと環境変化率を修正する。
【0028】このように、本発明の問題解決装置1で
は、実行されるプランとして選択されたプランに対し
て、そのプランが前提とする環境の状態の観測開始時点
からプランの実行終了時点までに必要な時間量を見積も
り、その時間量と環境の変化率とから、環境の状態が観
測された時点からある時点まで変化しないことを仮定す
ることで得られる期待利益と、プランを実行することで
消費する価値との差分値を、環境の状態が観測された時
点からある時点まで変化しないことを仮定することで得
られる期待効用として求める。そして、その期待効用の
最大値を与える時点を、再観測時点、すなわち、現在実
行している目標達成行動の単位サイクル終了時点とする
ことで、目標達成行動の各単位サイクルで消費される時
間の割り当て量を決定する構成を採る。
【0029】更に、再観測時点において、環境の状態変
化が観測されたならば、環境の変化率の値を大きく修正
し、また、環境の状態変化が観測されなければ、環境の
変化率の値を小さく修正することで、単位時間当たりで
得られる期待利益を増減させて、目標達成行動の単位サ
イクルで消費される時間の割り当て量を増減させる構成
を採る。これにより、再観測時点を調整し、環境変化へ
追従させる。また、残余資源の減少に伴い単位量当たり
の資源の価値を増加させることで、目標達成行動の単位
サイクルで消費される時間の割り当て量を減少、すなわ
ち、再観測時点を早めることにより無駄な資源消費を抑
える。
【0030】このように、本発明の問題解決装置1で
は、動的環境の変化及び残余資源量に従って決定される
目標達成行動の単位サイクルの割り当て時間を介して、
環境の再観測を行う時点を調整し、環境の動的変化への
追従と資源管理とを同時に達成するプランニングを提供
できるようになる。
【0031】
【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。図2に、本発明の問題解決装置1の
一実施例を図示する。
【0032】本発明の問題解決装置1は、例えば、キー
ボードなどの入力器、知覚センサから構成される知覚
器、CPUやメモリなどから構成される制御装置、ロボ
ットアームなどから構成される効果器などから構成され
る。
【0033】この本発明の問題解決装置1は、機能的に
は、図2に示すように、プログラムで構成される目標達
成行動実行部20と、情報記憶部30と、プログラムで
構成される目標達成行動制御部40と、プログラムで構
成される制約入力部50とを備えている。
【0034】ここで、これらのプログラムは、フロッピ
ィディスクなどを介してインストールされることにな
る。そして、目標達成行動実行部20は、環境観測部2
1と、プラン生成部22と、プラン実行部23とを備え
る。また、情報記憶部30は、制約情報記憶部31と、
環境情報記憶部32と、プラン情報記憶部33とを備え
る。また、目標達成行動制御部40は、時間計測部41
と、再観測時間計算部42と、サイクル制御部43とを
備える。
【0035】なお、図中に示す細線モードの破線は、デ
ータの流れを示しており、太線モードの破線は制御信号
を示しており、実線は、実行順序の流れを示している。
本発明の問題解決装置1は、あるプランが与えられたと
きに、そのプランを実行プランとする目標達成行動の単
位サイクルを実行するのに割り当てる時間、すなわち再
観測時点を与える方法を提供するとともに、再観測時点
を用いた目標達成行動の制御方法と、環境の動的変化へ
の追従方法とを提供する。
【0036】この実施例の説明に入る前に、この方法に
ついて説明する。以下、「環境の状態」とは、環境で成
立する事態の集合、「オペレータ」とは、問題解決装置
1が行う環境の状態に対する作用に対応する環境の状態
から状態への関数、「プラン」とは、環境の状態変化を
起こす問題解決装置1が実行可能なオペレータの有限列
〔o1,2,3,・・・on 〕とする。また、時間は量子
化し、整数値として扱う。
【0037】最初に、再観測時点の決定方法について説
明する。 (1)再観測時点の決定方法 初めに、問題解決装置1に対して、事前に問題解決装置
1に与えられる目標達成行動に利用可能な資源(以下、
初期資源)Rinit、目標となる環境の状態(以下、目標
状態)Sgoalが与えられ、目標達成行動が開始される時
点(以下、目標達成行動開始時点)は時点0とする。
【0038】初期資源Rinitが持つ価値は、目標達成が
成功することにより問題解決装置1が得る利益Wに対応
している。初期資源Rinitを目標達成により得られる利
益Wへ対応付ける関数は、少なくとも単調増加関数とな
る。
【0039】ここでは、説明を簡単にするために、問題
解決装置1が利用する資源を1種類とし、初期資源R
initを目標達成により得られる利益Wに対応付ける関数
を、 W=pinit×Rinit で与える。ここで、pinitは、初期資源を利益へ対応さ
せるための定数であり、初期資源単価と呼ぶ。
【0040】いま、時点tstart ( ≧0)に始まるN
(≧1)番目に実行された目標達成行動の単位サイクル
をCで表す。単位サイクルCにおいて、環境の状態変化
を起こす問題解決装置1が実行可能なオペレータの有限
列〔o1,2,・・on 〕であるプランPが、実行プラン
として選択されたと仮定する。但し、単位サイクルC以
前における目標達成行動の単位サイクルで消費された総
資源をRusedとする。
【0041】このとき、時点tstart での残余資源R
rest(=Rinit−Rused)の価値は、時点tstart 以前
で行われた全ての目標達成行動の単位サイクルが失敗し
ていることから、依然としてWである。いま、単位サイ
クルCにおける残余資源の単位量あたりの価値を、単位
サイクルCにおける資源単価と呼びpc で表す。このp
c は、 pc =pinit×〔Rinit/Rrest〕 で与えられる。
【0042】単位サイクルCの開始時点tstart と、そ
のk時間単位後の時点tstart +kとの間で消費される
資源R(k)と、その資源R(k)の持つ価値C(k)
との間には、図3に示すように、 C(k)=pc ×R(k) が成立する。
【0043】プランPが前提とする環境の状態に含まれ
る事態で、その観測時点が最も過去の時点である事態の
観測時点(以下、観測開始時点)をtsee 、プランPの
実行開始時点をtdo、プランPの実行終了時点をtend
とする。但し、プランPが実行プランとして選択された
時点からプランPの実行開始時点間と、プランPに含ま
れるオペレータ実行間の時間差は無視できる時間と仮定
する。すなわち、プランPの選択された時点をプランP
の実行開始時点と同一視し、オペレータoi の実行終了
時点とオペレータoi+1 の実行開始時点を同一視する。
また、現在の時点をtnow とし、tnow がプランPの実
行開始時点tdoであると仮定する。
【0044】単位サイクルCの開始時点tstart から終
了時点(再観測時点となる)tendまでに必要な時間、
すなわち、単位サイクルCで消費される時間は、単位サ
イクルCの開始時点tstart からプランPの実行開始時
点tdoまでの経過時間に、プランPの実行に必要な時間
を加えた時間である。オペレータoi を実行するのに必
要な時間の見積もりT(oi )は既知であると仮定し、
プランPの実行に必要な時間見積Tdoを、プランPに含
まれる各オペレータoi の実行の必要な時間見積T(o
i ) の総和ΣT(oi ) で与えると、単位サイクルCで
消費される見積もり時間Tc は、 Tc =(tdo−tstart )+Tdo 但し、Tdo=ΣT(oi )となる。
【0045】もし、単位サイクルCが成功したならば、
問題解決装置1は、目標達成に成功し利益Wを得る。従
って、単位サイクルCでの単位時間当たりで得られる平
均利益(以下、利益率と呼ぶ)bは、 b=W/Tc で与えられる。
【0046】いま、時点tでの環境の状態をS(t)で
表す。単位サイクルCでの目標達成行動が成功するに
は、プランPが前提とする環境の状態に含まれる事態の
最も過去の観測時点tsee から、プランPに含まれる最
後オペレータon が終了する時点tend までの、各時点
see,see+1,see+2,・・tdo, do+1, ・・tend
における環境の状態は、それぞれプランPで予定されて
いる状態変化と一致する必要がある。この条件が成立す
ることで得られる利益の期待値(以下、期待利益と呼
ぶ)をB(k)で表す。
【0047】ここで、環境変化率γ(0≦γ≦1)を、
単位サイクルCが実行されている任意の時点tにおける
環境の状態S(t)と、単位サイクルCでのプランPで
予定されている状態St とが一致するという仮定下で、
単位時間後の時点t+1においても、環境の状態S(t
+1)とプランPで予定されている状態St+1 とが一致
する事後確率の予測値とする。
【0048】時点tsee より前の時点での環境の状態は
プランPの実行に影響しないことと、時点tsee におけ
る観測された環境の状態S(tsee )と、プランPが時
点t see において前提とする状態Stseeとは一致するた
め、状態S(tsee )とプランPで予定されている状態
tseeが一致する確率は1であることに注意すると、B
(k)は、単位サイクルCでの利益率bと環境変化率γ
とを用い、(i)0≦k≦tsee −tstart のとき B(k)=b×k (ii)tsee −tstart <k≦tend −tstart のとき B(k)=b(tsee −tstart )+Σb×γi 但し、Σは、i=1〜(k−tsee )と表される。
【0049】すなわち、B(k)は、図4に示すよう
に、「0≦k≦tsee −tstart 」の間は直線的に増加
し、「tsee −tstart <k≦tend −tstart 」の間
は、時間経過ととともに、その増加が鈍化する特性を示
すことになる。
【0050】本発明の問題解決装置1では、時点(t
start +k)における単位サイクルCの期待効用U
(k)を、 U(k)=B(k)−C(k) で定義して、この期待効用U(k)が最大値を取る時点
のtmax を、単位サイクルCの打ち切り時点とする構成
を採る。
【0051】すなわち、図5に示すように、単位サイク
ルCの期待効用が最大値を取るkの値をkmax 、また、
このときのtの値をtmax (=tstart +kmax )とす
るならば、このときの時点tmax が、プランPが実行プ
ランとして採用された単位サイクルCでの再観測時点と
なる。
【0052】このように、本発明の問題解決装置1で
は、図6に示すように、単位サイクルを繰り返しつつ目
標達成行動を行うときに、期待効用が最大となる時点
で、単位サイクルCを打ち切っていくように処理するの
である。
【0053】次に、再観測時点を用いた目標達成行動の
制御方法について説明する。 (2)再観測時点を用いた目標達成行動の制御方法 単位サイクルCが開始された時点以後のある時点tまで
に生成されたプランで、プラン実行に伴う資源使用の見
積もり量が最小であるプランを、時点tにおける最良プ
ランと呼び、PBEST(t)で表す。また、PBEST(t)
に対する再観測時点をtmax (t)、実行見積時間をT
do(t)で表す。このとき、時点tにおける目標達成行
動の制御を、時点tにおける単位サイクルCの状況に従
い、以下のように行う。但し、環境の状態が目標状態に
一致するか否か、すなわち、目標達成行動の終了判定
は、単位サイクルにおける環境の状態の観測により判断
するものとする。
【0054】CASE1(t<tmax (t)−T
do(t)の場合) 時点tにおける最良プランを実行するまでに時間的余裕
があるので、プランニングを継続する。
【0055】CASE2(t=tmax (t)−T
do(t)の場合) 時点tにおける最良プランを実行するのに最小限の時間
的余裕しかないことから、プランニングを終了し、プラ
ンPBEST(t)を実行プランとして、その実行を開始す
る。
【0056】CASE3(tmax (t)−Tdo(t)
<t≦tmax (t)の場合) プランPBEST(t)の実行が終了または失敗していない
限り、プランPBEST(t)の実行を継続する。プランP
BEST(t)の実行が終了または失敗していれば、単位サ
イクルCを中断し、次の単位サイクルを実行する。
【0057】CASE4(tmax (t)<tの場合) 現在の単位サイクルCを中断し、次の単位サイクル、す
なわち、環境の状態の再観測を実行する。
【0058】このように、本発明の問題解決装置1で
は、「t=tmax (t)−Tdo(t)」が成立するとき
に、単位サイクルCの実行に入り、「t=t
max (t)」に到達する前に、プランが終了又は失敗す
るときには、単位サイクルCを中断して次の単位サイク
ルに入り、「t=tmax (t)」に到達するときには、
単位サイクルCを中断して次の単位サイクルに入るよう
制御するのである。
【0059】次に、動的環境への追従方法について説明
する。 (3)動的環境への追従方法 環境変化率は、環境の動的変化の程度を表している指標
であるが、初期値として設定される環境変化率自体が実
際の環境の動的変化に合った値を持つという保障はな
い。そこで、各単位サイクルの環境変化率を、その直前
の単位サイクルでの実行結果に従って調整することで、
実際の環境の動的変化に追従させる構成を採る。
【0060】本発明の問題解決装置1に対して、事前
に、初期環境変化率γinit、環境変化率の補正量δ-
びδ+ が与えられているものとする。また、N(≧1)
番目に実行された目標達成行動の単位サイクルをCN
そのCN における環境変化率をγN (但し、γ1 =γ
init)とする。
【0061】各単位サイクルCN+1 の環境変化率γN+1
及び目標達成行動を、その直前の単位サイクルCN での
実行結果に従って、次のように調整、制御する。 CASE1(CN の再観測時点以前において、単位サ
イクルCN のプラン実行が失敗する場合) CN の再観測時点以前において単位サイクルCN が失敗
するということは、単位サイクルCN において予測され
た環境の状態変化とは異なる状態変化が環境で発生した
ことを意味し、従って、環境の変化がγN で見積もられ
た量よりも早いことになる。
【0062】この場合には、次の単位サイクルCN+1
おける環境変化率γN+1 を、補正量δ- の分だけγN
りも減少させることで、単位サイクルCN+1 での再観測
時点を早める。なお、(γN −δ- )<0のときには、
γN+1 =0とする。
【0063】CASE2(CN の再観測時点におい
て、プランPのオペレータoi (1≦i<n)まで実行
が終了し、かつオペレータoi+1 の実行が終了していな
い場合) 再観測時点での環境において、単位サイクル開始時点で
の環境の状態s0 に対してオペレータ〔o1,2,・・o
i 〕を順次適用した結果得られる状態「oi (oi-1(・
・・o2(o1(s0)) ・・))」が成立するならば、環境変
化がγN により見積もられた変化に一致するか、遅いこ
とになる。
【0064】この場合には、次の単位サイクルCN+1
おける環境変化率γN+1 を、補正量δ+ の分だけγN
りも増加させることで、単位サイクルCN+1 での再観測
時点を遅らせる。なお、(γN +δ+ )>1のときに
は、γN+1 =1とする。
【0065】また、再観測時点での環境において、単位
サイクル開始時点での環境の状態s 0 に対してオペレー
タ〔o1,2,・・oi 〕を順次適用した結果得られる状
態「oi (oi-1(・・・o2(o1(s0)) ・・))」が成立
しないならば、環境変化がγ N により見積もられた変化
に一致するか、早いことになる。
【0066】この場合には、次の単位サイクルCN+1
おける環境変化率γN+1 を、補正量δ- の分だけγN
りも減少させることで、単位サイクルCN+1 での再観測
時点を早める。なお、(γN −δ- )<0のときには、
γN+1 =0とする。
【0067】CASE3(CN の再観測時点におい
て、プランPの最初のオペレータo1の実行が終了して
いない場合) 再観測時点の環境において、状態s0 が成立するなら
ば、環境変化がγN により見積もられた変化に一致する
か、遅いことになる。
【0068】この場合には、次の単位サイクルCN+1
おける環境変化率γN+1 を、補正量δ+ の分だけγN
りも増加させることで、単位サイクルCN+1 での再観測
時点を遅らせる。なお、(γN +δ+ )>1のときに
は、γN+1 =1とする。
【0069】また、再観測時点の環境において、状態s
0 が成立しないならば、環境変化がγN により見積もら
れた変化に一致するか、早いことになる。この場合に
は、次の単位サイクルCN+1 における環境変化率γN+1
を、補正量δ- の分だけγN よりも減少させることで、
単位サイクルCN+1 での再観測時点を早める。なお、
(γN −δ- )<0のときには、γN+1 =0とする。
【0070】このように、本発明の問題解決装置1で
は、「t=tmax (t)」に到達する前に、プランが失
敗するときには、環境の変化が想定したものよりも大き
いことを判断して、環境変化率を修正することで、次の
単位サイクルでの再観測時点を早めるように処理する。
【0071】また、「t=tmax (t)」に到達する時
点で、プランを中断するときにあって、その中断時点の
環境の状態がプランの実行で想定したものになっている
ときに、環境の変化が想定したものよりも小さいことを
判断して、環境変化率を修正することで、次の単位サイ
クルでの再観測時点を遅らせ、一方、想定したものにな
っていないときには、環境の変化が想定したものよりも
大きいことを判断して、環境変化率を修正することで、
次の単位サイクルでの再観測時点を早めるように処理す
る。
【0072】以上説明した「(1)再観測時点の決定方
法」、「(2)再観測時点を用いた目標達成行動の制御
方法」及び「(3)動的環境への追従方法」に従って、
本発明の問題解決装置1が行う目標達成行動の各単位サ
イクルCN (N≧1)における再観測時点tmax と、次
の単位サイクルCN+1 での環境変化率γN+1 は、初期資
源Rinit、目標状態Sgoal、初期環境変化率γinit、環
境変化率の補正量δ-及びδ+ から、単位サイクルCN
の実行結果に従い、順次計算されていくことになる。
【0073】次に、図7及び図8に示す処理フローに従
って、以上に説明した本発明の問題解決装置1が行う処
理について説明する。本発明の問題解決装置1は、図7
及び図8の処理フローに示すように、先ず最初に、ステ
ップ1で、初期資源Rinitと目標状態Sgoalを入力す
る。続いて、ステップ2で、環境状態を観測し、続くス
テップ3で、観測した環境が目標状態S goalと一致する
のか否かを判断して、一致することを判断するときに
は、目標達成行動を行うまでもないので、ステップ16
(図8の処理フロー)に進んで、次に目標達成行動を行
うための準備として、環境変化率γを減少させることで
再観測時点を早めてから、続くステップ17で、目標達
成の成功を通知して処理を終了する。
【0074】一方、ステップ3で、観測した環境が目標
状態Sgoalと一致しないことを判断するときには、ステ
ップ4に進んで、実行を中断されたプランが存在するの
か否かをチェックして、実行を中断されたプランが存在
することを判断するときには、ステップ5に進んで、そ
の中断したプランの実行済みのオペレータにより生ずる
状態が環境で成立しているか否かをチェックする。
【0075】このステップ5で、中断したプランの実行
済みのオペレータにより生ずる状態が環境で成立してい
ないことを判断するときには、ステップ6に進んで、環
境変化率γを減少させることで再観測時点を早める。一
方、中断したプランの実行済みのオペレータにより生ず
る状態が環境で成立していることを判断するときには、
ステップ7に進んで、環境変化率γを増加させることで
再観測時点を遅くする。
【0076】そして、ステップ6/ステップ7の処理を
終了し、また、ステップ4で、実行を中断されたプラン
が存在しないことを判断するときには、ステップ8に進
んで、プランニングを実行することで最良プランを選択
し、続くステップ9で、残余時間内に実行可能な最良プ
ランが選択可能か否かをチェックして、選択不可能であ
ることを判断するときには、ステップ15(図8の処理
フロー)に進んで、目標達成の失敗を通知する。
【0077】一方、ステップ9で、残余時間内に実行可
能な最良プランが選択可能であることを判断するときに
は、ステップ10(図8の処理フロー)に進んで、選択
した最良プランに対する再観測時間(tmax )を計算
し、続くステップ11で、その最良プランの実行を開始
する。
【0078】続いて、ステップ12で、実行に入った最
良プランの実行に失敗したか否かをチェックして、失敗
したことを判断するときには、次の単位サイクルに入る
べく、ステップ2(図7の処理フロー)に戻っていく。
一方、失敗していないことを判断するときには、ステッ
プ13に進んで、現在の時刻がステップ10で計算した
再観測時間を越えたか否かをチェックして、越えないこ
とを判断するときには、ステップ12に戻り、越えたこ
とを判断するときには、ステップ14に進んで、実行中
のプランを中断してから、次の単位サイクルに入るべ
く、ステップ2(図7の処理フロー)に戻っていく。こ
のようにして、本発明の問題解決装置1は、目標達成行
動を行っていくのである。
【0079】次に、図2に示した本発明の問題解決装置
1が備える各機能について詳細に説明する。目標達成行
動実行部20の環境観測部21は、環境の状態の観測と
目標状態との比較を行う。目標達成行動実行部20のプ
ラン生成部22は、環境の状態を使って、プラン生成と
実行プランの選択とを行う。目標達成行動実行部20の
プラン実行部23は、実行プランの持つオペレータを実
行する。
【0080】情報記憶部30の制約情報記憶部31は、
制約入力部50に入力されたデータとプランニング制御
に用いるデータとを格納する。情報記憶部30の環境情
報記憶部32は、環境において成立する事態とその観測
時点のデータとを格納する。情報記憶部30のプラン情
報記憶部33は、生成されたプランに関する情報を格納
する。
【0081】目標達成行動制御部40の時間計測部41
は、時間を計時する。目標達成行動制御部40の再観測
時間計算部42は、各単位サイクルで用いられる再観測
時点を計算する。目標達成行動制御部40のサイクル制
御部43は、進行中の単位サイクルを再観測時点におい
て中断させるための制御信号を出力する。
【0082】これらの各機能は、次のように動作する。 STEP1(制約情報の入力及び初期値設定) 制約入力部50を介して、初期資源量Rinit、目標状態
goal、初期環境変化率γinit、環境変化率の補正量δ
+ 及びδ- を入力する。続いて、制約情報記憶部31、
環境情報記憶部32、プラン情報記憶部33に格納され
る全ての情報を消去する。続いて、制約入力部50を介
して入力した入力情報と、その入力情報の入力された時
点を目標達成行動開始時点tstart 、初期資源量Rinit
を残余資源量Rrestとして、制約情報記憶部31に格納
する。その後、STEP2、STEP3及びSTEP7
を実行する。
【0083】STEP2(時間計測) サイクル制御部43から、実行中断の制御信号が送られ
てこない限り、時間計測部41において、現時点の時間
情報の計測を繰り返し、環境観測部21、再観測時間計
算部42及びサイクル制御部43へ、その情報を伝達す
る。
【0084】STEP3(環境の観測) サイクル制御部43から、環境観測部21に対して実行
中断の制御信号が送られてこない限り、環境観測部21
において、環境で成立する事態を観測する。環境観測部
21において観測された環境で成立する事態と、その事
態の観測された時点とを組にして、環境情報記憶部32
に格納する。また、処理中は、環境観測部21での消費
資源量を計測し、その情報を用い、制約情報記憶部31
に格納される残余資源量Rrestを更新する。もし、サイ
クル制御部43から、環境観測部21に対して実行中断
の制御信号が送られてきたならば、環境情報記憶部32
に格納される全ての情報を消去し、再びSTEP3を実
行する。
【0085】STEP4(プラン生成) サイクル制御部43から、中断の制御信号が送られてき
たか、または、新たなプラン生成が不可能ならば、ST
EP4での処理を中断し、STEP6を実行する。そう
でなければ、制約情報記憶部31に格納れた目標状態
と、環境情報記憶部32に格納される環境状態に関する
情報とを用い、プラン情報記憶部33に格納されていな
いプランを生成して、プラン情報記憶部33に格納す
る。新たに生成したプランが既にプラン情報記憶部33
に格納される最良プランに比べ、資源消費量が少ないプ
ランであるならば、新たに生成したプランを最良プラン
とする情報をプラン情報記憶部33に格納する。また、
処理中は、プラン生成部22での消費資源量を計測し、
その情報を用い、制約情報記憶部31に格納される残余
資源量Rrestを更新する。その後、STEP5を実行す
る。
【0086】STEP5(1単位サイクル当たりの時
間見積計算) 再観測時間計算部42において、プラン情報記憶部33
に格納される最良プランPから、上述した方法に従っ
て、その実行見積時間Tdoを計算して、プラン情報記憶
部33に格納する。更に、このプランPの実行見積時間
doと、制約情報記憶部31に格納される目標達成行動
開始時点tstart 、残余資源量Rrest、環境変化率γ及
びその補正量δ+ /δ- と、プラン情報記憶部33に格
納される最良プランと、時間計測部41で計測された現
時点tとから、上述した方法に従って、最良プランPに
関する再観測時点tmax を計算し、プラン情報記憶部3
3に格納する。その後、STEP4を実行する。
【0087】STEP6(プラン実行) プラン実行部23において、サイクル制御部43から実
行中断の制御信号が送られてこない限り、プラン情報記
憶部33に格納されている最良プランを実行する。ま
た、プラン実行中は、プラン実行部23での消費資源量
を計測し、その情報を用い、制約情報記憶部31に格納
される残余資源量Rrestを更新する。もし、プラン実行
が失敗したならば、実行失敗の情報をサイクル制御部4
3へ伝達した後、STEP3を実行する。もし、処理中
において、サイクル制御部43から実行中断の制御信号
が送られてきたならば、処理を中断してSTEP3を実
行する。
【0088】STEP7(目標達成行動の中断判定) サイクル制御部43において、環境情報記憶部32に格
納される環境の状態に関する情報と、制約情報記憶部3
1に格納される目標状態に関する情報とを比較し、もし
環境の状態と目標状態とが一致する、または、制約情報
記憶部31に格納される残余資源量Rrestが0ならば、
目標達成行動全体を終了させる。そうでなければ、プラ
ン情報記憶部33に格納される最良プランの再観測時点
と、最良プランの実行見積時間と、時間計測部41から
伝達される現時点とを使い、上述した方法に従って、単
位サイクルの制御と、制約情報記憶部31に格納される
環境変化率の更新を行う。
【0089】最後に、図9について説明する。この図9
では、本発明の問題解決装置1に対して、初期資源とし
て100単位時間(言い換えれば、100単位時間内に
目標達成を行うという資源制約)、初期環境変化率γと
して0.9、更に、1回目の単位サイクルCの目標達成行
動開始時点と観測開始時点とが一致することを想定し、
更に、環境の観測開始時点からプランニング終了時点ま
でに経過する時間が10単位時間、単位サイクルCでの
実行プランPの実行見積時間Tc を20単位時間、初期
資源単価を1とした場合の、時間経過に伴う期待利益B
(k)、消費資源価値C(k)、期待効用U(k)の変
化を示している。
【0090】但し、tstart は環境の観測開始時点、t
doはプランPのプランニング終了時点、tmax はプラン
Pの期待効用が最大となる時点、LBはプランPの時間
経過に伴う期待利益B(k)、LCはプランPの時間経
過に伴う消費資源価値C(k)、LUはプランPの時間
経過に伴う期待効用U(k)を示している。
【0091】この場合、tmax の具体的な値は、ほぼ1
8単位時間となる。従って、プラン実行開始後8時間単
位経過した時点で、プランが中断され、次の単位サイク
ルに入って環境の再観測が行われる。
【0092】
【発明の効果】以上説明したように、本発明の問題解決
装置によれば、動的環境の変化及び残余資源量に従って
決定される目標達成行動の単位サイクルの割り当て時間
を介して、環境の再観測を行う時点を調整し、環境の動
的変化への追従と資源管理とを同時に達成するプランニ
ングを提供できるようになる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の一実施例である。
【図3】本発明の説明図である。
【図4】本発明の説明図である。
【図5】本発明の説明図である。
【図6】本発明の説明図である。
【図7】本発明の実行する処理フローの一実施例であ
る。
【図8】本発明の実行する処理フローの一実施例であ
る。
【図9】本発明の説明図である。
【符号の説明】
1 問題解決装置 10 観測手段 11 選択手段 12 実行手段 13 算出手段 14 特定手段 15 中断手段 16 時計手段 17 修正手段 18 判断手段

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 動的に変化する環境を観測し、その観測
    結果に基づいて実行プランを選択して実行することを繰
    り返していくことで、目標を達成する行動を行う問題解
    決装置において、 実行プランを選択するときに、環境の変化率と、該実行
    プランの実行時間の見積もり時間とから、該実行プラン
    による目標達成行動により得られる利益の時間変化特性
    を算出する算出手段と、 上記算出手段の算出する利益の時間変化特性と、実行プ
    ランの実行により消費する価値の時間変化特性とから、
    該実行プランによる目標達成行動の効用が最大となる時
    点を特定する特定手段と、 上記特定手段の特定する時点への到達を判断するとき
    に、実行プランの実行を中断する中断手段とを備えるこ
    とを、 特徴とする問題解決装置。
  2. 【請求項2】 請求項1記載の問題解決装置において、 中断手段による中断処理の前に実行プランが目標達成を
    失敗するときに、算出手段の算出する時点が早くなるよ
    うにと環境変化率を修正する修正手段を備えることを、 特徴とする問題解決装置。
  3. 【請求項3】 請求項1記載の問題解決装置において、 中断手段が実行プランの実行を中断するときに、環境変
    化が想定したものよりも変化しているのか否かを判断す
    る判断手段と、 上記判断手段により環境変化が想定したものよりも大き
    く変化していることが判断されるときに、算出手段の算
    出する時点が早くなるようにと環境変化率を修正し、小
    さく変化していることが判断されるときに、算出手段の
    算出する時点が遅くなるようにと環境変化率を修正する
    修正手段とを備えることを、 特徴とする問題解決装置。
  4. 【請求項4】 動的に変化する環境を観測し、その観測
    結果に基づいて実行プランを選択して実行することを繰
    り返していくことで、目標を達成する行動を行う問題解
    決方法において、 実行プランを選択するときに、環境の変化率と、該実行
    プランの実行時間の見積もり時間とから、該実行プラン
    による目標達成行動により得られる利益の時間変化特性
    を算出する第1の処理過程と、 第1の処理過程で算出する利益の時間変化特性と、実行
    プランの実行により消費する価値の時間変化特性とか
    ら、該実行プランによる目標達成行動の効用が最大とな
    る時点を特定する第2の処理過程と、 第2の処理過程で特定する時点への到達を判断するとき
    に、実行プランの実行を中断する第3の処理過程とを備
    えることを、 特徴とする問題解決方法。
  5. 【請求項5】 動的に変化する環境を観測し、その観測
    結果に基づいて実行プランを選択して実行することを繰
    り返していくことで、目標を達成する行動を行う問題解
    決装置の実現に用いられるプログラムが記憶されるプロ
    グラム記憶媒体であって、 実行プランを選択するときに、環境の変化率と、該実行
    プランの実行時間の見積もり時間とから、該実行プラン
    による目標達成行動により得られる利益の時間変化特性
    を算出する算出処理と、 上記算出処理の算出する利益の時間変化特性と、実行プ
    ランの実行により消費する価値の時間変化特性とから、
    該実行プランによる目標達成行動の効用が最大となる時
    点を特定する特定処理と、 上記特定処理の特定する時点への到達を判断するとき
    に、実行プランの実行を中断する中断処理とをコンピュ
    ータに実行させるプログラムが記憶されることを、 特徴とするプログラム記憶媒体。
JP21728797A 1997-08-12 1997-08-12 問題解決装置及び方法並びにプログラム記憶媒体 Withdrawn JPH1165639A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21728797A JPH1165639A (ja) 1997-08-12 1997-08-12 問題解決装置及び方法並びにプログラム記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21728797A JPH1165639A (ja) 1997-08-12 1997-08-12 問題解決装置及び方法並びにプログラム記憶媒体

Publications (1)

Publication Number Publication Date
JPH1165639A true JPH1165639A (ja) 1999-03-09

Family

ID=16701780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21728797A Withdrawn JPH1165639A (ja) 1997-08-12 1997-08-12 問題解決装置及び方法並びにプログラム記憶媒体

Country Status (1)

Country Link
JP (1) JPH1165639A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268812A (ja) * 2005-02-23 2006-10-05 Sony Corp 学習制御装置および学習制御方法、並びに、プログラム
JP2007018490A (ja) * 2005-02-23 2007-01-25 Sony Corp 行動制御装置および行動制御方法、並びに、プログラム
WO2009118900A1 (ja) * 2008-03-28 2009-10-01 富士通株式会社 システム運用管理装置,システム運用管理方法及びシステム運用管理プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268812A (ja) * 2005-02-23 2006-10-05 Sony Corp 学習制御装置および学習制御方法、並びに、プログラム
JP2007018490A (ja) * 2005-02-23 2007-01-25 Sony Corp 行動制御装置および行動制御方法、並びに、プログラム
WO2009118900A1 (ja) * 2008-03-28 2009-10-01 富士通株式会社 システム運用管理装置,システム運用管理方法及びシステム運用管理プログラム
US8341463B2 (en) 2008-03-28 2012-12-25 Fujitsu Limited System operations management apparatus, system operations management method
JP5434908B2 (ja) * 2008-03-28 2014-03-05 富士通株式会社 システム運用管理装置,システム運用管理方法及びシステム運用管理プログラム

Similar Documents

Publication Publication Date Title
US8869158B2 (en) Job scheduling to balance energy consumption and schedule performance
US20210287072A1 (en) Optimizing data center controls using neural networks
CN108958916B (zh) 一种移动边缘环境下工作流卸载优化方法
JP6169547B2 (ja) チップ上のマルチコアシステムの全域チップ電力を管理する方法およびその装置
EP3274827B1 (en) Technologies for offloading and on-loading data for processor/coprocessor arrangements
US8266622B2 (en) Dynamic critical path update facility
US8949642B2 (en) Method for dynamically distributing one or more services in a network comprising of a plurality of computers by deriving a resource capacity required based on a past chronological progression of a resource demand
JP2008165798A (ja) データ処理装置におけるプロセッサの性能管理
CN104239194A (zh) 基于bp神经网络的任务完成时间预测方法
US8776069B2 (en) Energy and performance optimizing job scheduling
JP2002342097A (ja) タスク割当可能時間決定装置及びタスク割当可能時間決定方法
US10437589B2 (en) Distributed processing control system and distributed processing control method
EP3557418B1 (en) Resource management of resource-controlled system
KR101770736B1 (ko) 응용프로그램의 질의 스케쥴링을 이용한 시스템의 소모전력 절감 방법 및 그 방법을 이용하여 소모전력을 절감하는 휴대단말기
US20090235274A1 (en) Apparatus and method for task count control
CN107665425B (zh) 基于作业控制的实时计费方法及系统
JPH07168726A (ja) 電子計算機及びマルチプロセスオペレーティングシステムのスケジューリング方法
JPH1165639A (ja) 問題解決装置及び方法並びにプログラム記憶媒体
US9135564B2 (en) Using cyclic Markov decision process to determine optimum policy
CN109660625B (zh) 一种边缘设备控制方法、边缘设备及计算机可读存储介质
CN113094155A (zh) Hadoop平台下的任务调度方法及装置
US11467546B2 (en) Semiconductor device and prediction method for resource usage in semiconductor device
Soria-Lopez et al. Feedback scheduling of power-aware soft real-time tasks
JP2021189885A (ja) ジョブスケジューリングプログラム、情報処理装置及びジョブスケジューリング方法
JP2020197967A (ja) モデル予測制御システム、情報処理装置、プログラム、及びモデル予測制御方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20041102