JPH1165639A

JPH1165639A - 問題解決装置及び方法並びにプログラム記憶媒体

Info

Publication number: JPH1165639A
Application number: JP21728797A
Authority: JP
Inventors: Mitsuru Oda; 充織田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-08-12
Filing date: 1997-08-12
Publication date: 1999-03-09

Abstract

(57)【要約】【課題】本発明は、動的に変化する環境を観測し、その
観測結果に基づいて実行プランを選択して実行すること
を繰り返していくことで、目標を達成する行動を行う問
題解決装置に関し、環境の動的変化への追従と資源管理
の効率化とを同時に実現することを目的とする。【解決手段】実行プランを選択するときに、環境の変化
率と、実行プランの実行時間の見積もり時間とから、実
行プランによる目標達成行動により得られる利益の時間
変化特性を算出する算出手段１３と、算出手段１３の算
出する利益の時間変化特性と、実行プランの実行により
消費する価値の時間変化特性とから、実行プランによる
目標達成行動の効用が最大となる時点を特定する特定手
段１４と、特定手段１４の特定する時点への到達を判断
するときに、実行プランの実行を中断する中断手段１５
とを備えるように構成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、動的に変化する環
境を観測し、その観測結果に基づいて実行プランを選択
して実行することを繰り返していくことで、目標を達成
する行動を行う問題解決装置及び方法と、その問題解決
装置の実現に用いられるプログラムが記憶されるプログ
ラム記憶媒体とに関し、特に、環境の動的変化への追従
と資源管理の効率化とを同時に実現する問題解決装置及
び方法と、その問題解決装置の実現に用いられるプログ
ラムが記憶されるプログラム記憶媒体とに関する。

【０００２】計算機技術の発展により、環境状態の観
測、目標達成行動のプランニング及びプラン実行などの
目標達成行動を自律的に行うロボットやエージェントな
どのような問題解決装置が利用可能となってきた。

【０００３】一般的に、問題解決装置が存在する環境
は、事態の成立・不成立が動的に変化する環境（以下、
動的環境と呼ぶ）である。問題解決装置が動的環境にお
いて成立する事態に関する完全な知識を得ることは、現
実の環境規模や問題解決装置の環境の観測能力の有限性
から見て困難であり、これから、問題解決装置は、動的
環境下での目標達成行動を不完全な環境知識を前提に行
う必要がある。

【０００４】このため、動的環境下での目標達成行動で
は、環境変化により、プランが前提とする環境の状態
と、プランが実行される時点での環境の状態とが一致し
ない可能性がある。従って、動的環境において目標達成
行動を自律的に行う問題解決装置は、自分自身の実行し
ている目標達成行動の前提としている環境状態が、現時
点においても成立するのか否かを再検討する能力が必要
がある。すなわち、環境状態の再観測を行うか、あるい
は、前提としている環境状態が現時点でも成立すると仮
定して、目標達成行動を続行するかを自分自身で決定す
る能力が必要である。

【０００５】一方、問題解決装置に対して、一定量の時
間、エネルギー、課金内において目標を達成しなければ
ならないなど、目標達成行動で消費可能な資源は有限量
である場合が多い。環境において自律的に目標達成行動
を行う問題解決装置は、目標達成行動を与えられた資源
の範囲内で実行するように、自分自身でプランニングす
る必要がある。

【０００６】これから、問題解決装置は、環境状態の観
測、目標達成行動のプランニング及びプラン実行から構
成される目標達成行動のサイクルを単純に繰り返すので
はなくて、動的環境の変化を予測、追従しながら、与え
られた資源制約を満たす範囲内において目標達成行動を
実行するようにと、自分自身の目標達成行動に現れる環
境状態の観測や、プラン生成や、選択であるプランニン
グや、プラン実行の開始／中断を、自律的に制御する能
力が求められることになる。

【０００７】

【従来の技術】環境の観測、その観測結果に基づくプラ
ン候補の生成、複数の実行プラン候補からの実行プラン
の選択が行われる古典的プランニングでは、複数のプラ
ン候補から、実際に実行するプランを選択するために、
効率的なプランの選択、実行が可能になるという特徴が
ある。

【０００８】しかし、古典的プランニングでは、プラン
候補の生成のためにプランニング過程に費やされる時間
が多くなる傾向がある。このため、プランが前提とする
環境の状態と、実際にプランが実行される時点での環境
の状態が異なり、その結果、プランの実行が失敗する可
能性がある。このように、古典的プランニングは、環境
の観測からプラン実行までに生じた環境変化に対する追
従性で問題がある。

【０００９】一方、動的な環境における環境変化への追
従性を重視したプランニング手法として、観測結果を直
接に実行の前提条件とする行動ルールを有することで、
環境モデルの生成及びプランニングの段階を省き、環境
変化の追従性を高めた即応的プランニングがある。この
即応的プランニングは、多段の行動ルールの組み合わせ
からなるプランが用いられないため、環境の観測から実
行プランの選択に至る過程が早いという特徴がある。す
なわち、プランニングに用いられる時間が少ないため
に、古典的プランニングに比べて環境変化への追従性は
高い。

【００１０】しかし、即応的プランニングでは、多段の
行動ルールの組み合わせからなるプランが用いられない
ために、様々な状態に対して目標達成する有用な行動ル
ールが事前に問題解決装置に与えられていない場合、場
当たり的な行動を行うプランが実行される可能性が高
い。これから、即応的プランニングは、資源消費の多い
プランが実行されたり、目標達成に至るまでに目標達成
行動のサイクルを繰り返す危険性があり、効率的な資源
利用の面で問題がある。

【００１１】

【発明が解決しようとする課題】このように、古典的プ
ランニングは、即応的プランニングに比較して、与えら
れた目標の達成のための行動に必要な資源の効率的な利
用に向くが、プランニング中に生ずる環境変化への追従
性が低い。一方、即応的プランニングは、古典的プラン
ニングに比較して、プランニング中に生ずる環境変化へ
の追従性は高いが、効率的な資源の利用の点で劣るとい
う両極な関係にある。これから、それらの良い特徴を相
補的に用いるプランニングが必要となる。

【００１２】問題解決装置の実行する目標達成行動は、
環境の観測からプラン実行に至る一連の行動の繰り返し
となる。この環境の観測、プランニング、プラン実行に
至る一連の行動は、目標達成行動の単位サイクルと呼ば
れている。

【００１３】プランが前提とする環境の状態は、環境の
動的変化により、時間経過に伴って変化する可能性があ
る。従って、プランを実行しないでいることは、その時
間経過に伴いプランの実行が失敗する危険性が増す。し
かし、その一方で、生成されたプランを実行しないでい
ることにより、より効率的な資源利用が可能となる新た
なプランを生成する可能性が増す。即応的プランニング
と古典的プランニングとに見られるように、目標達成行
動に利用される資源の効率的な利用と、環境の動的変化
への追従は、目標達成行動の単位サイクル当たりで費や
すことのできる時間を介して、トレードオフの関係にあ
る。

【００１４】単位サイクルで消費可能な時間に対して閾
値を設定し、かつ、プランニング過程で単位サイクルの
実行に必要となる時間を見積もることで、単位サイクル
の実行に見積もられる時間が閾値を越えたならば、プラ
ンニングを中止し、その時点で最良なプランを実行する
ことや、単位サイクルの実行に見積もられる時間におい
て、実行中の単位サイクルを中断し、次の単位サイクル
すなわち環境の再観測を行うことが考えられる。単位サ
イクルで消費可能な時間に対する閾値を設定する能力を
問題解決装置自身に持たせることで、問題解決装置は、
目標達成行動に含まれる環境の観測、プランニング、プ
ラン実行の開始／終了を自律的に制御することが可能に
なる。

【００１５】目標達成行動の単位サイクルで消費される
資源に比べて、残余資源が充分多い状態は、少ない状態
に比較して、目標達成行動の単位サイクルの実行の失敗
により、目標達成を失敗する危険性が少ない。従って、
残余資源が多い場合は、少ない場合に比較して、目標達
成行動の単位サイクルで消費される時間の割り当て量を
多く取ることができる。一方、環境の動的変化が早い状
況では、遅い状況に比べて、プランが前提とする環境の
状態が変化する危険性が高い。これから、上述の閾値
は、残余資源量と環境の動的変化の程度の関係から求め
る必要がある。

【００１６】本発明はかかる事情に鑑みてなされたもの
であって、動的環境における目標達成行動のためのプラ
ンニング及びプラン実行を自律的に繰り返し行う構成を
採るときにあって、目標達成行動の単位サイクルで消費
される時間の割り当て量、すなわち、単位サイクルの中
断時点を適切に決定する方法を提供することで、環境の
動的変化への追従と資源管理の効率化とを同時に実現す
る新たな問題解決装置及び方法の提供と、その問題解決
装置の実現に用いられるプログラムが記憶される新たな
プログラム記憶媒体の提供とを目的とする。

【００１７】

【課題を解決するための手段】図１に本発明の原理構成
を図示する。図中、１は本発明を具備する問題解決装置
であって、動的に変化する環境を観測し、その観測結果
に基づいて実行プランを選択して実行することを繰り返
していくことで、目標を達成する行動を行うものであ
る。

【００１８】本発明の問題解決装置１は、観測手段１０
と、選択手段１１と、実行手段１２と、算出手段１３
と、特定手段１４と、中断手段１５と、時計手段１６
と、修正手段１７、判断手段１８とを備える。

【００１９】この観測手段１０は、環境の状態を観測す
る。選択手段１１は、観測手段１０の観測結果に基づい
て実行プランを選択する。実行手段１２は、選択手段１
１の選択した実行プランを実行する。

【００２０】算出手段１３は、選択手段１１が実行プラ
ンを選択するときに、環境の変化率と、その実行プラン
の実行時間の見積もり時間とから、その実行プランによ
る目標達成行動により得られる利益の時間変化特性を算
出する。

【００２１】特定手段１４は、算出手段１３の算出する
利益の時間変化特性と、選択手段１１の選択した実行プ
ランの実行により消費する価値の時間変化特性とから、
その実行プランによる目標達成行動の効用が最大となる
時点を特定する。

【００２２】中断手段１５は、実行プランの実行を中断
する。時計手段１６は、中断手段１５の中断処理に必要
となる時刻情報を生成する。修正手段１７は、算出手段
１３の用いる環境変化率を修正する。判断手段１８は、
環境変化が想定したものよりも変化しているのか否かを
判断する。

【００２３】ここで、本発明の問題解決装置１の持つ機
能は具体的にはプログラムで実現されるものであり、こ
のプログラムは、フロッピィディスクなどに記憶され、
それらから問題解決装置１にインストールされてメモリ
上で動作することで、本発明を実現することになる。

【００２４】このように構成される本発明の問題解決装
置１では、観測手段１０が環境の状態を観測し、選択手
段１１が観測手段１０の観測結果に基づいて実行プラン
を選択し、実行手段１２が選択手段１１の選択した実行
プランを実行することを繰り返していくことで、目標を
達成する行動を行うときに、算出手段１３は、選択手段
１１が実行プランを選択するときに、環境の変化率と、
その実行プランの実行時間の見積もり時間とから、その
実行プランによる目標達成行動により得られる利益の時
間変化特性を算出し、これを受けて、特定手段１４は、
算出手段１３の算出する利益の時間変化特性と、その実
行プランの実行により消費する価値の時間変化特性とか
ら、その実行プランによる目標達成行動の効用が最大と
なる時点を特定する。

【００２５】この特定手段１４の特定処理を受けて、中
断手段１５は、時計手段１６を参照することで、特定手
段１４の特定する時点への到達を判断するときに、実行
手段１２に対して、実行プランの実行の中断を指示する
ことで実行プランを中断する。

【００２６】この構成を採るときに、修正手段１７は、
中断手段１５による中断処理の前に実行プランが目標達
成を失敗するときには、算出手段１３の算出する時点が
早くなるようにと環境変化率を修正する。

【００２７】また、判断手段１８は、中断手段１５が実
行プランの実行を中断するときに、環境変化が想定した
ものよりも変化しているのか否かを判断し、これを受け
て、修正手段１７は、判断手段１８により環境変化が想
定したものよりも大きく変化していることが判断される
ときには、算出手段１３の算出する時点が早くなるよう
にと環境変化率を修正し、小さく変化していることが判
断されるときには、算出手段１３の算出する時点が遅く
なるようにと環境変化率を修正する。

【００２８】このように、本発明の問題解決装置１で
は、実行されるプランとして選択されたプランに対し
て、そのプランが前提とする環境の状態の観測開始時点
からプランの実行終了時点までに必要な時間量を見積も
り、その時間量と環境の変化率とから、環境の状態が観
測された時点からある時点まで変化しないことを仮定す
ることで得られる期待利益と、プランを実行することで
消費する価値との差分値を、環境の状態が観測された時
点からある時点まで変化しないことを仮定することで得
られる期待効用として求める。そして、その期待効用の
最大値を与える時点を、再観測時点、すなわち、現在実
行している目標達成行動の単位サイクル終了時点とする
ことで、目標達成行動の各単位サイクルで消費される時
間の割り当て量を決定する構成を採る。

【００２９】更に、再観測時点において、環境の状態変
化が観測されたならば、環境の変化率の値を大きく修正
し、また、環境の状態変化が観測されなければ、環境の
変化率の値を小さく修正することで、単位時間当たりで
得られる期待利益を増減させて、目標達成行動の単位サ
イクルで消費される時間の割り当て量を増減させる構成
を採る。これにより、再観測時点を調整し、環境変化へ
追従させる。また、残余資源の減少に伴い単位量当たり
の資源の価値を増加させることで、目標達成行動の単位
サイクルで消費される時間の割り当て量を減少、すなわ
ち、再観測時点を早めることにより無駄な資源消費を抑
える。

【００３０】このように、本発明の問題解決装置１で
は、動的環境の変化及び残余資源量に従って決定される
目標達成行動の単位サイクルの割り当て時間を介して、
環境の再観測を行う時点を調整し、環境の動的変化への
追従と資源管理とを同時に達成するプランニングを提供
できるようになる。

【００３１】

【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。図２に、本発明の問題解決装置１の
一実施例を図示する。

【００３２】本発明の問題解決装置１は、例えば、キー
ボードなどの入力器、知覚センサから構成される知覚
器、ＣＰＵやメモリなどから構成される制御装置、ロボ
ットアームなどから構成される効果器などから構成され
る。

【００３３】この本発明の問題解決装置１は、機能的に
は、図２に示すように、プログラムで構成される目標達
成行動実行部２０と、情報記憶部３０と、プログラムで
構成される目標達成行動制御部４０と、プログラムで構
成される制約入力部５０とを備えている。

【００３４】ここで、これらのプログラムは、フロッピ
ィディスクなどを介してインストールされることにな
る。そして、目標達成行動実行部２０は、環境観測部２
１と、プラン生成部２２と、プラン実行部２３とを備え
る。また、情報記憶部３０は、制約情報記憶部３１と、
環境情報記憶部３２と、プラン情報記憶部３３とを備え
る。また、目標達成行動制御部４０は、時間計測部４１
と、再観測時間計算部４２と、サイクル制御部４３とを
備える。

【００３５】なお、図中に示す細線モードの破線は、デ
ータの流れを示しており、太線モードの破線は制御信号
を示しており、実線は、実行順序の流れを示している。
本発明の問題解決装置１は、あるプランが与えられたと
きに、そのプランを実行プランとする目標達成行動の単
位サイクルを実行するのに割り当てる時間、すなわち再
観測時点を与える方法を提供するとともに、再観測時点
を用いた目標達成行動の制御方法と、環境の動的変化へ
の追従方法とを提供する。

【００３６】この実施例の説明に入る前に、この方法に
ついて説明する。以下、「環境の状態」とは、環境で成
立する事態の集合、「オペレータ」とは、問題解決装置
１が行う環境の状態に対する作用に対応する環境の状態
から状態への関数、「プラン」とは、環境の状態変化を
起こす問題解決装置１が実行可能なオペレータの有限列
〔ｏ_1,ｏ_2,ｏ_3,・・・ｏ_n〕とする。また、時間は量子
化し、整数値として扱う。

【００３７】最初に、再観測時点の決定方法について説
明する。（１）再観測時点の決定方法初めに、問題解決装置１に対して、事前に問題解決装置
１に与えられる目標達成行動に利用可能な資源（以下、
初期資源）Ｒ_init、目標となる環境の状態（以下、目標
状態）Ｓ_goalが与えられ、目標達成行動が開始される時
点（以下、目標達成行動開始時点）は時点０とする。

【００３８】初期資源Ｒ_initが持つ価値は、目標達成が
成功することにより問題解決装置１が得る利益Ｗに対応
している。初期資源Ｒ_initを目標達成により得られる利
益Ｗへ対応付ける関数は、少なくとも単調増加関数とな
る。

【００３９】ここでは、説明を簡単にするために、問題
解決装置１が利用する資源を１種類とし、初期資源Ｒ
_initを目標達成により得られる利益Ｗに対応付ける関数
を、Ｗ＝ｐ_init×Ｒ_init で与える。ここで、ｐ_initは、初期資源を利益へ対応さ
せるための定数であり、初期資源単価と呼ぶ。

【００４０】いま、時点ｔ_start( ≧０）に始まるＮ
（≧１）番目に実行された目標達成行動の単位サイクル
をＣで表す。単位サイクルＣにおいて、環境の状態変化
を起こす問題解決装置１が実行可能なオペレータの有限
列〔ｏ_1,ｏ_2,・・ｏ_n〕であるプランＰが、実行プラン
として選択されたと仮定する。但し、単位サイクルＣ以
前における目標達成行動の単位サイクルで消費された総
資源をＲ_usedとする。

【００４１】このとき、時点ｔ_startでの残余資源Ｒ
_rest（＝Ｒ_init−Ｒ_used）の価値は、時点ｔ_start以前
で行われた全ての目標達成行動の単位サイクルが失敗し
ていることから、依然としてＷである。いま、単位サイ
クルＣにおける残余資源の単位量あたりの価値を、単位
サイクルＣにおける資源単価と呼びｐ_cで表す。このｐ
_cは、ｐ_c＝ｐ_init×〔Ｒ_init／Ｒ_rest〕で与えられる。

【００４２】単位サイクルＣの開始時点ｔ_startと、そ
のｋ時間単位後の時点ｔ_start＋ｋとの間で消費される
資源Ｒ（ｋ）と、その資源Ｒ（ｋ）の持つ価値Ｃ（ｋ）
との間には、図３に示すように、Ｃ（ｋ）＝ｐ_c×Ｒ（ｋ）が成立する。

【００４３】プランＰが前提とする環境の状態に含まれ
る事態で、その観測時点が最も過去の時点である事態の
観測時点（以下、観測開始時点）をｔ_see、プランＰの
実行開始時点をｔ_do、プランＰの実行終了時点をｔ_end
とする。但し、プランＰが実行プランとして選択された
時点からプランＰの実行開始時点間と、プランＰに含ま
れるオペレータ実行間の時間差は無視できる時間と仮定
する。すなわち、プランＰの選択された時点をプランＰ
の実行開始時点と同一視し、オペレータｏ_iの実行終了
時点とオペレータｏ_i+1の実行開始時点を同一視する。
また、現在の時点をｔ_nowとし、ｔ_nowがプランＰの実
行開始時点ｔ_doであると仮定する。

【００４４】単位サイクルＣの開始時点ｔ_startから終
了時点（再観測時点となる）ｔ_endまでに必要な時間、
すなわち、単位サイクルＣで消費される時間は、単位サ
イクルＣの開始時点ｔ_startからプランＰの実行開始時
点ｔ_doまでの経過時間に、プランＰの実行に必要な時間
を加えた時間である。オペレータｏ_iを実行するのに必
要な時間の見積もりＴ（ｏ_i）は既知であると仮定し、
プランＰの実行に必要な時間見積Ｔ_doを、プランＰに含
まれる各オペレータｏ_iの実行の必要な時間見積Ｔ（ｏ
_i) の総和ΣＴ（ｏ_i) で与えると、単位サイクルＣで
消費される見積もり時間Ｔ_cは、Ｔ_c＝（ｔ_do−ｔ_start）＋Ｔ_do 但し、Ｔ_do＝ΣＴ（ｏ_i)となる。

【００４５】もし、単位サイクルＣが成功したならば、
問題解決装置１は、目標達成に成功し利益Ｗを得る。従
って、単位サイクルＣでの単位時間当たりで得られる平
均利益（以下、利益率と呼ぶ）ｂは、ｂ＝Ｗ／Ｔ_c で与えられる。

【００４６】いま、時点ｔでの環境の状態をＳ（ｔ）で
表す。単位サイクルＣでの目標達成行動が成功するに
は、プランＰが前提とする環境の状態に含まれる事態の
最も過去の観測時点ｔ_seeから、プランＰに含まれる最
後オペレータｏ_nが終了する時点ｔ_endまでの、各時点
ｔ_see,ｔ_see+1,ｔ_see+2,・・ｔ_do,ｔ_do+1,・・ｔ_end
における環境の状態は、それぞれプランＰで予定されて
いる状態変化と一致する必要がある。この条件が成立す
ることで得られる利益の期待値（以下、期待利益と呼
ぶ）をＢ（ｋ）で表す。

【００４７】ここで、環境変化率γ（０≦γ≦１）を、
単位サイクルＣが実行されている任意の時点ｔにおける
環境の状態Ｓ（ｔ）と、単位サイクルＣでのプランＰで
予定されている状態Ｓ_tとが一致するという仮定下で、
単位時間後の時点ｔ＋１においても、環境の状態Ｓ（ｔ
＋１）とプランＰで予定されている状態Ｓ_t+1とが一致
する事後確率の予測値とする。

【００４８】時点ｔ_seeより前の時点での環境の状態は
プランＰの実行に影響しないことと、時点ｔ_seeにおけ
る観測された環境の状態Ｓ（ｔ_see）と、プランＰが時
点ｔ _seeにおいて前提とする状態Ｓ_tseeとは一致するた
め、状態Ｓ（ｔ_see）とプランＰで予定されている状態
Ｓ_tseeが一致する確率は１であることに注意すると、Ｂ
（ｋ）は、単位サイクルＣでの利益率ｂと環境変化率γ
とを用い、（ｉ）０≦ｋ≦ｔ_see−ｔ_startのときＢ（ｋ）＝ｂ×ｋ（ii）ｔ_see−ｔ_start＜ｋ≦ｔ_end−ｔ_startのときＢ（ｋ）＝ｂ（ｔ_see−ｔ_start）＋Σｂ×γⁱ 但し、Σは、ｉ＝１〜（ｋ−ｔ_see）と表される。

【００４９】すなわち、Ｂ（ｋ）は、図４に示すよう
に、「０≦ｋ≦ｔ_see−ｔ_start」の間は直線的に増加
し、「ｔ_see−ｔ_start＜ｋ≦ｔ_end−ｔ_start」の間
は、時間経過ととともに、その増加が鈍化する特性を示
すことになる。

【００５０】本発明の問題解決装置１では、時点（ｔ
_start＋ｋ）における単位サイクルＣの期待効用Ｕ
（ｋ）を、Ｕ（ｋ）＝Ｂ（ｋ）−Ｃ（ｋ）で定義して、この期待効用Ｕ（ｋ）が最大値を取る時点
のｔ_maxを、単位サイクルＣの打ち切り時点とする構成
を採る。

【００５１】すなわち、図５に示すように、単位サイク
ルＣの期待効用が最大値を取るｋの値をｋ_max、また、
このときのｔの値をｔ_max（＝ｔ_start＋ｋ_max）とす
るならば、このときの時点ｔ_maxが、プランＰが実行プ
ランとして採用された単位サイクルＣでの再観測時点と
なる。

【００５２】このように、本発明の問題解決装置１で
は、図６に示すように、単位サイクルを繰り返しつつ目
標達成行動を行うときに、期待効用が最大となる時点
で、単位サイクルＣを打ち切っていくように処理するの
である。

【００５３】次に、再観測時点を用いた目標達成行動の
制御方法について説明する。（２）再観測時点を用いた目標達成行動の制御方法単位サイクルＣが開始された時点以後のある時点ｔまで
に生成されたプランで、プラン実行に伴う資源使用の見
積もり量が最小であるプランを、時点ｔにおける最良プ
ランと呼び、Ｐ_BEST（ｔ）で表す。また、Ｐ_BEST（ｔ）
に対する再観測時点をｔ_max（ｔ）、実行見積時間をＴ
_do（ｔ）で表す。このとき、時点ｔにおける目標達成行
動の制御を、時点ｔにおける単位サイクルＣの状況に従
い、以下のように行う。但し、環境の状態が目標状態に
一致するか否か、すなわち、目標達成行動の終了判定
は、単位サイクルにおける環境の状態の観測により判断
するものとする。

【００５４】ＣＡＳＥ１（ｔ＜ｔ_max（ｔ）−Ｔ
_do（ｔ）の場合）時点ｔにおける最良プランを実行するまでに時間的余裕
があるので、プランニングを継続する。

【００５５】ＣＡＳＥ２（ｔ＝ｔ_max（ｔ）−Ｔ
_do（ｔ）の場合）時点ｔにおける最良プランを実行するのに最小限の時間
的余裕しかないことから、プランニングを終了し、プラ
ンＰ_BEST（ｔ）を実行プランとして、その実行を開始す
る。

【００５６】ＣＡＳＥ３（ｔ_max（ｔ）−Ｔ_do（ｔ）
＜ｔ≦ｔ_max（ｔ）の場合）プランＰ_BEST（ｔ）の実行が終了または失敗していない
限り、プランＰ_BEST（ｔ）の実行を継続する。プランＰ
_BEST（ｔ）の実行が終了または失敗していれば、単位サ
イクルＣを中断し、次の単位サイクルを実行する。

【００５７】ＣＡＳＥ４（ｔ_max（ｔ）＜ｔの場合）現在の単位サイクルＣを中断し、次の単位サイクル、す
なわち、環境の状態の再観測を実行する。

【００５８】このように、本発明の問題解決装置１で
は、「ｔ＝ｔ_max（ｔ）−Ｔ_do（ｔ）」が成立するとき
に、単位サイクルＣの実行に入り、「ｔ＝ｔ
_max（ｔ）」に到達する前に、プランが終了又は失敗す
るときには、単位サイクルＣを中断して次の単位サイク
ルに入り、「ｔ＝ｔ_max（ｔ）」に到達するときには、
単位サイクルＣを中断して次の単位サイクルに入るよう
制御するのである。

【００５９】次に、動的環境への追従方法について説明
する。（３）動的環境への追従方法環境変化率は、環境の動的変化の程度を表している指標
であるが、初期値として設定される環境変化率自体が実
際の環境の動的変化に合った値を持つという保障はな
い。そこで、各単位サイクルの環境変化率を、その直前
の単位サイクルでの実行結果に従って調整することで、
実際の環境の動的変化に追従させる構成を採る。

【００６０】本発明の問題解決装置１に対して、事前
に、初期環境変化率γ_init、環境変化率の補正量δ^-及
びδ⁺が与えられているものとする。また、Ｎ（≧１）
番目に実行された目標達成行動の単位サイクルをＣ_N、
そのＣ_Nにおける環境変化率をγ_N（但し、γ₁＝γ
_init）とする。

【００６１】各単位サイクルＣ_N+1の環境変化率γ_N+1
及び目標達成行動を、その直前の単位サイクルＣ_Nでの
実行結果に従って、次のように調整、制御する。ＣＡＳＥ１（Ｃ_Nの再観測時点以前において、単位サ
イクルＣ_Nのプラン実行が失敗する場合）Ｃ_Nの再観測時点以前において単位サイクルＣ_Nが失敗
するということは、単位サイクルＣ_Nにおいて予測され
た環境の状態変化とは異なる状態変化が環境で発生した
ことを意味し、従って、環境の変化がγ_Nで見積もられ
た量よりも早いことになる。

【００６２】この場合には、次の単位サイクルＣ_N+1に
おける環境変化率γ_N+1を、補正量δ^-の分だけγ_Nよ
りも減少させることで、単位サイクルＣ_N+1での再観測
時点を早める。なお、（γ_N−δ^-）＜０のときには、
γ_N+1＝０とする。

【００６３】ＣＡＳＥ２（Ｃ_Nの再観測時点におい
て、プランＰのオペレータｏ_i（１≦ｉ＜ｎ）まで実行
が終了し、かつオペレータｏ_i+1の実行が終了していな
い場合）再観測時点での環境において、単位サイクル開始時点で
の環境の状態ｓ₀に対してオペレータ〔ｏ_1,ｏ_2,・・ｏ
_i〕を順次適用した結果得られる状態「ｏ_i（ｏ_i-1(・
・・ｏ₂(ｏ₁(ｓ₀)) ・・))」が成立するならば、環境変
化がγ_Nにより見積もられた変化に一致するか、遅いこ
とになる。

【００６４】この場合には、次の単位サイクルＣ_N+1に
おける環境変化率γ_N+1を、補正量δ⁺の分だけγ_Nよ
りも増加させることで、単位サイクルＣ_N+1での再観測
時点を遅らせる。なお、（γ_N＋δ⁺）＞１のときに
は、γ_N+1＝１とする。

【００６５】また、再観測時点での環境において、単位
サイクル開始時点での環境の状態ｓ ₀に対してオペレー
タ〔ｏ_1,ｏ_2,・・ｏ_i〕を順次適用した結果得られる状
態「ｏ_i（ｏ_i-1(・・・ｏ₂(ｏ₁(ｓ₀)) ・・))」が成立
しないならば、環境変化がγ _Nにより見積もられた変化
に一致するか、早いことになる。

【００６６】この場合には、次の単位サイクルＣ_N+1に
おける環境変化率γ_N+1を、補正量δ^-の分だけγ_Nよ
りも減少させることで、単位サイクルＣ_N+1での再観測
時点を早める。なお、（γ_N−δ^-）＜０のときには、
γ_N+1＝０とする。

【００６７】ＣＡＳＥ３（Ｃ_Nの再観測時点におい
て、プランＰの最初のオペレータｏ₁の実行が終了して
いない場合）再観測時点の環境において、状態ｓ₀が成立するなら
ば、環境変化がγ_Nにより見積もられた変化に一致する
か、遅いことになる。

【００６８】この場合には、次の単位サイクルＣ_N+1に
おける環境変化率γ_N+1を、補正量δ⁺の分だけγ_Nよ
りも増加させることで、単位サイクルＣ_N+1での再観測
時点を遅らせる。なお、（γ_N＋δ⁺）＞１のときに
は、γ_N+1＝１とする。

【００６９】また、再観測時点の環境において、状態ｓ
₀が成立しないならば、環境変化がγ_Nにより見積もら
れた変化に一致するか、早いことになる。この場合に
は、次の単位サイクルＣ_N+1における環境変化率γ_N+1
を、補正量δ^-の分だけγ_Nよりも減少させることで、
単位サイクルＣ_N+1での再観測時点を早める。なお、
（γ_N−δ^-）＜０のときには、γ_N+1＝０とする。

【００７０】このように、本発明の問題解決装置１で
は、「ｔ＝ｔ_max（ｔ）」に到達する前に、プランが失
敗するときには、環境の変化が想定したものよりも大き
いことを判断して、環境変化率を修正することで、次の
単位サイクルでの再観測時点を早めるように処理する。

【００７１】また、「ｔ＝ｔ_max（ｔ）」に到達する時
点で、プランを中断するときにあって、その中断時点の
環境の状態がプランの実行で想定したものになっている
ときに、環境の変化が想定したものよりも小さいことを
判断して、環境変化率を修正することで、次の単位サイ
クルでの再観測時点を遅らせ、一方、想定したものにな
っていないときには、環境の変化が想定したものよりも
大きいことを判断して、環境変化率を修正することで、
次の単位サイクルでの再観測時点を早めるように処理す
る。

【００７２】以上説明した「（１）再観測時点の決定方
法」、「（２）再観測時点を用いた目標達成行動の制御
方法」及び「（３）動的環境への追従方法」に従って、
本発明の問題解決装置１が行う目標達成行動の各単位サ
イクルＣ_N（Ｎ≧１）における再観測時点ｔ_maxと、次
の単位サイクルＣ_N+1での環境変化率γ_N+1は、初期資
源Ｒ_init、目標状態Ｓ_goal、初期環境変化率γ_init、環
境変化率の補正量δ^-及びδ⁺から、単位サイクルＣ_N
の実行結果に従い、順次計算されていくことになる。

【００７３】次に、図７及び図８に示す処理フローに従
って、以上に説明した本発明の問題解決装置１が行う処
理について説明する。本発明の問題解決装置１は、図７
及び図８の処理フローに示すように、先ず最初に、ステ
ップ１で、初期資源Ｒ_initと目標状態Ｓ_goalを入力す
る。続いて、ステップ２で、環境状態を観測し、続くス
テップ３で、観測した環境が目標状態Ｓ _goalと一致する
のか否かを判断して、一致することを判断するときに
は、目標達成行動を行うまでもないので、ステップ１６
（図８の処理フロー）に進んで、次に目標達成行動を行
うための準備として、環境変化率γを減少させることで
再観測時点を早めてから、続くステップ１７で、目標達
成の成功を通知して処理を終了する。

【００７４】一方、ステップ３で、観測した環境が目標
状態Ｓ_goalと一致しないことを判断するときには、ステ
ップ４に進んで、実行を中断されたプランが存在するの
か否かをチェックして、実行を中断されたプランが存在
することを判断するときには、ステップ５に進んで、そ
の中断したプランの実行済みのオペレータにより生ずる
状態が環境で成立しているか否かをチェックする。

【００７５】このステップ５で、中断したプランの実行
済みのオペレータにより生ずる状態が環境で成立してい
ないことを判断するときには、ステップ６に進んで、環
境変化率γを減少させることで再観測時点を早める。一
方、中断したプランの実行済みのオペレータにより生ず
る状態が環境で成立していることを判断するときには、
ステップ７に進んで、環境変化率γを増加させることで
再観測時点を遅くする。

【００７６】そして、ステップ６／ステップ７の処理を
終了し、また、ステップ４で、実行を中断されたプラン
が存在しないことを判断するときには、ステップ８に進
んで、プランニングを実行することで最良プランを選択
し、続くステップ９で、残余時間内に実行可能な最良プ
ランが選択可能か否かをチェックして、選択不可能であ
ることを判断するときには、ステップ１５（図８の処理
フロー）に進んで、目標達成の失敗を通知する。

【００７７】一方、ステップ９で、残余時間内に実行可
能な最良プランが選択可能であることを判断するときに
は、ステップ１０（図８の処理フロー）に進んで、選択
した最良プランに対する再観測時間（ｔ_max）を計算
し、続くステップ１１で、その最良プランの実行を開始
する。

【００７８】続いて、ステップ１２で、実行に入った最
良プランの実行に失敗したか否かをチェックして、失敗
したことを判断するときには、次の単位サイクルに入る
べく、ステップ２（図７の処理フロー）に戻っていく。
一方、失敗していないことを判断するときには、ステッ
プ１３に進んで、現在の時刻がステップ１０で計算した
再観測時間を越えたか否かをチェックして、越えないこ
とを判断するときには、ステップ１２に戻り、越えたこ
とを判断するときには、ステップ１４に進んで、実行中
のプランを中断してから、次の単位サイクルに入るべ
く、ステップ２（図７の処理フロー）に戻っていく。こ
のようにして、本発明の問題解決装置１は、目標達成行
動を行っていくのである。

【００７９】次に、図２に示した本発明の問題解決装置
１が備える各機能について詳細に説明する。目標達成行
動実行部２０の環境観測部２１は、環境の状態の観測と
目標状態との比較を行う。目標達成行動実行部２０のプ
ラン生成部２２は、環境の状態を使って、プラン生成と
実行プランの選択とを行う。目標達成行動実行部２０の
プラン実行部２３は、実行プランの持つオペレータを実
行する。

【００８０】情報記憶部３０の制約情報記憶部３１は、
制約入力部５０に入力されたデータとプランニング制御
に用いるデータとを格納する。情報記憶部３０の環境情
報記憶部３２は、環境において成立する事態とその観測
時点のデータとを格納する。情報記憶部３０のプラン情
報記憶部３３は、生成されたプランに関する情報を格納
する。

【００８１】目標達成行動制御部４０の時間計測部４１
は、時間を計時する。目標達成行動制御部４０の再観測
時間計算部４２は、各単位サイクルで用いられる再観測
時点を計算する。目標達成行動制御部４０のサイクル制
御部４３は、進行中の単位サイクルを再観測時点におい
て中断させるための制御信号を出力する。

【００８２】これらの各機能は、次のように動作する。ＳＴＥＰ１（制約情報の入力及び初期値設定）制約入力部５０を介して、初期資源量Ｒ_init、目標状態
Ｓ_goal、初期環境変化率γ_init、環境変化率の補正量δ
⁺及びδ^-を入力する。続いて、制約情報記憶部３１、
環境情報記憶部３２、プラン情報記憶部３３に格納され
る全ての情報を消去する。続いて、制約入力部５０を介
して入力した入力情報と、その入力情報の入力された時
点を目標達成行動開始時点ｔ_start、初期資源量Ｒ_init
を残余資源量Ｒ_restとして、制約情報記憶部３１に格納
する。その後、ＳＴＥＰ２、ＳＴＥＰ３及びＳＴＥＰ７
を実行する。

【００８３】ＳＴＥＰ２（時間計測）サイクル制御部４３から、実行中断の制御信号が送られ
てこない限り、時間計測部４１において、現時点の時間
情報の計測を繰り返し、環境観測部２１、再観測時間計
算部４２及びサイクル制御部４３へ、その情報を伝達す
る。

【００８４】ＳＴＥＰ３（環境の観測）サイクル制御部４３から、環境観測部２１に対して実行
中断の制御信号が送られてこない限り、環境観測部２１
において、環境で成立する事態を観測する。環境観測部
２１において観測された環境で成立する事態と、その事
態の観測された時点とを組にして、環境情報記憶部３２
に格納する。また、処理中は、環境観測部２１での消費
資源量を計測し、その情報を用い、制約情報記憶部３１
に格納される残余資源量Ｒ_restを更新する。もし、サイ
クル制御部４３から、環境観測部２１に対して実行中断
の制御信号が送られてきたならば、環境情報記憶部３２
に格納される全ての情報を消去し、再びＳＴＥＰ３を実
行する。

【００８５】ＳＴＥＰ４（プラン生成）サイクル制御部４３から、中断の制御信号が送られてき
たか、または、新たなプラン生成が不可能ならば、ＳＴ
ＥＰ４での処理を中断し、ＳＴＥＰ６を実行する。そう
でなければ、制約情報記憶部３１に格納れた目標状態
と、環境情報記憶部３２に格納される環境状態に関する
情報とを用い、プラン情報記憶部３３に格納されていな
いプランを生成して、プラン情報記憶部３３に格納す
る。新たに生成したプランが既にプラン情報記憶部３３
に格納される最良プランに比べ、資源消費量が少ないプ
ランであるならば、新たに生成したプランを最良プラン
とする情報をプラン情報記憶部３３に格納する。また、
処理中は、プラン生成部２２での消費資源量を計測し、
その情報を用い、制約情報記憶部３１に格納される残余
資源量Ｒ_restを更新する。その後、ＳＴＥＰ５を実行す
る。

【００８６】ＳＴＥＰ５（１単位サイクル当たりの時
間見積計算）再観測時間計算部４２において、プラン情報記憶部３３
に格納される最良プランＰから、上述した方法に従っ
て、その実行見積時間Ｔ_doを計算して、プラン情報記憶
部３３に格納する。更に、このプランＰの実行見積時間
Ｔ_doと、制約情報記憶部３１に格納される目標達成行動
開始時点ｔ_start、残余資源量Ｒ_rest、環境変化率γ及
びその補正量δ⁺／δ^-と、プラン情報記憶部３３に格
納される最良プランと、時間計測部４１で計測された現
時点ｔとから、上述した方法に従って、最良プランＰに
関する再観測時点ｔ_maxを計算し、プラン情報記憶部３
３に格納する。その後、ＳＴＥＰ４を実行する。

【００８７】ＳＴＥＰ６（プラン実行）プラン実行部２３において、サイクル制御部４３から実
行中断の制御信号が送られてこない限り、プラン情報記
憶部３３に格納されている最良プランを実行する。ま
た、プラン実行中は、プラン実行部２３での消費資源量
を計測し、その情報を用い、制約情報記憶部３１に格納
される残余資源量Ｒ_restを更新する。もし、プラン実行
が失敗したならば、実行失敗の情報をサイクル制御部４
３へ伝達した後、ＳＴＥＰ３を実行する。もし、処理中
において、サイクル制御部４３から実行中断の制御信号
が送られてきたならば、処理を中断してＳＴＥＰ３を実
行する。

【００８８】ＳＴＥＰ７（目標達成行動の中断判定）サイクル制御部４３において、環境情報記憶部３２に格
納される環境の状態に関する情報と、制約情報記憶部３
１に格納される目標状態に関する情報とを比較し、もし
環境の状態と目標状態とが一致する、または、制約情報
記憶部３１に格納される残余資源量Ｒ_restが０ならば、
目標達成行動全体を終了させる。そうでなければ、プラ
ン情報記憶部３３に格納される最良プランの再観測時点
と、最良プランの実行見積時間と、時間計測部４１から
伝達される現時点とを使い、上述した方法に従って、単
位サイクルの制御と、制約情報記憶部３１に格納される
環境変化率の更新を行う。

【００８９】最後に、図９について説明する。この図９
では、本発明の問題解決装置１に対して、初期資源とし
て１００単位時間（言い換えれば、１００単位時間内に
目標達成を行うという資源制約）、初期環境変化率γと
して０.9、更に、１回目の単位サイクルＣの目標達成行
動開始時点と観測開始時点とが一致することを想定し、
更に、環境の観測開始時点からプランニング終了時点ま
でに経過する時間が１０単位時間、単位サイクルＣでの
実行プランＰの実行見積時間Ｔ_cを２０単位時間、初期
資源単価を１とした場合の、時間経過に伴う期待利益Ｂ
（ｋ）、消費資源価値Ｃ（ｋ）、期待効用Ｕ（ｋ）の変
化を示している。

【００９０】但し、ｔ_startは環境の観測開始時点、ｔ
_doはプランＰのプランニング終了時点、ｔ_maxはプラン
Ｐの期待効用が最大となる時点、ＬＢはプランＰの時間
経過に伴う期待利益Ｂ（ｋ）、ＬＣはプランＰの時間経
過に伴う消費資源価値Ｃ（ｋ）、ＬＵはプランＰの時間
経過に伴う期待効用Ｕ（ｋ）を示している。

【００９１】この場合、ｔ_maxの具体的な値は、ほぼ１
８単位時間となる。従って、プラン実行開始後８時間単
位経過した時点で、プランが中断され、次の単位サイク
ルに入って環境の再観測が行われる。

【００９２】

【発明の効果】以上説明したように、本発明の問題解決
装置によれば、動的環境の変化及び残余資源量に従って
決定される目標達成行動の単位サイクルの割り当て時間
を介して、環境の再観測を行う時点を調整し、環境の動
的変化への追従と資源管理とを同時に達成するプランニ
ングを提供できるようになる。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の一実施例である。

【図３】本発明の説明図である。

【図４】本発明の説明図である。

【図５】本発明の説明図である。

【図６】本発明の説明図である。

【図７】本発明の実行する処理フローの一実施例であ
る。

【図８】本発明の実行する処理フローの一実施例であ
る。

【図９】本発明の説明図である。

【符号の説明】

１問題解決装置１０観測手段１１選択手段１２実行手段１３算出手段１４特定手段１５中断手段１６時計手段１７修正手段１８判断手段

Claims

【特許請求の範囲】

【請求項１】動的に変化する環境を観測し、その観測
結果に基づいて実行プランを選択して実行することを繰
り返していくことで、目標を達成する行動を行う問題解
決装置において、実行プランを選択するときに、環境の変化率と、該実行
プランの実行時間の見積もり時間とから、該実行プラン
による目標達成行動により得られる利益の時間変化特性
を算出する算出手段と、上記算出手段の算出する利益の時間変化特性と、実行プ
ランの実行により消費する価値の時間変化特性とから、
該実行プランによる目標達成行動の効用が最大となる時
点を特定する特定手段と、上記特定手段の特定する時点への到達を判断するとき
に、実行プランの実行を中断する中断手段とを備えるこ
とを、特徴とする問題解決装置。
【請求項２】請求項１記載の問題解決装置において、中断手段による中断処理の前に実行プランが目標達成を
失敗するときに、算出手段の算出する時点が早くなるよ
うにと環境変化率を修正する修正手段を備えることを、特徴とする問題解決装置。
【請求項３】請求項１記載の問題解決装置において、中断手段が実行プランの実行を中断するときに、環境変
化が想定したものよりも変化しているのか否かを判断す
る判断手段と、上記判断手段により環境変化が想定したものよりも大き
く変化していることが判断されるときに、算出手段の算
出する時点が早くなるようにと環境変化率を修正し、小
さく変化していることが判断されるときに、算出手段の
算出する時点が遅くなるようにと環境変化率を修正する
修正手段とを備えることを、特徴とする問題解決装置。
【請求項４】動的に変化する環境を観測し、その観測
結果に基づいて実行プランを選択して実行することを繰
り返していくことで、目標を達成する行動を行う問題解
決方法において、実行プランを選択するときに、環境の変化率と、該実行
プランの実行時間の見積もり時間とから、該実行プラン
による目標達成行動により得られる利益の時間変化特性
を算出する第１の処理過程と、第１の処理過程で算出する利益の時間変化特性と、実行
プランの実行により消費する価値の時間変化特性とか
ら、該実行プランによる目標達成行動の効用が最大とな
る時点を特定する第２の処理過程と、第２の処理過程で特定する時点への到達を判断するとき
に、実行プランの実行を中断する第３の処理過程とを備
えることを、特徴とする問題解決方法。
【請求項５】動的に変化する環境を観測し、その観測
結果に基づいて実行プランを選択して実行することを繰
り返していくことで、目標を達成する行動を行う問題解
決装置の実現に用いられるプログラムが記憶されるプロ
グラム記憶媒体であって、実行プランを選択するときに、環境の変化率と、該実行
プランの実行時間の見積もり時間とから、該実行プラン
による目標達成行動により得られる利益の時間変化特性
を算出する算出処理と、上記算出処理の算出する利益の時間変化特性と、実行プ
ランの実行により消費する価値の時間変化特性とから、
該実行プランによる目標達成行動の効用が最大となる時
点を特定する特定処理と、上記特定処理の特定する時点への到達を判断するとき
に、実行プランの実行を中断する中断処理とをコンピュ
ータに実行させるプログラムが記憶されることを、特徴とするプログラム記憶媒体。