JP7173317B2

JP7173317B2 - 動作規則決定装置、動作規則決定方法およびプログラム

Info

Publication number: JP7173317B2
Application number: JP2021519989A
Authority: JP
Inventors: 拓也平岡; 貴士大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2022-11-16
Anticipated expiration: 2039-05-22
Also published as: JPWO2020235061A1; WO2020235061A1; US20220197230A1

Description

本発明は、動作規則決定装置、動作規則決定方法およびプログラムに関する。

リスクに関する学習について、特許文献１には、自動車等の移動体の外界環境に含まれるリスクを学習的に認識するオンラインリスク学習システムが記載されている。このオンラインリスク学習システムは、外界環境の状態を示す情報と、その状態の危険度に係るリスク情報とを用いて作成されたトレーニング情報を用いて、その状態の危険度を適応的に学習し、外界環境に含まれる危険度を認識する。

日本国特開２０１１－１４０３８号公報

強化学習の場合、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定できることが好ましい。これに対し、特許文献１では、強化学習においてリスクを考慮した動作を決定する方法は開示されていない。

本発明の目的の一例は、上記の問題を解決することができる動作規則決定装置、動作規則決定方法およびプログラムを提供することである。

本発明の第１の態様によれば、動作規則決定装置は、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める環境実行部と、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じるリスク考慮型履歴生成部とを備える。

本発明の第２の態様によれば、動作規則決定方法は、コンピュータが、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める工程と、前記コンピュータが、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる工程とを含む。

本発明の第３の態様によれば、プログラムは、コンピュータに、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める工程と、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる工程とを実行させるためのプログラムである。

上記した動作規則決定装置、動作規則決定方法およびプログラムによれば、強化学習において、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。

第１実施形態に係る動作規則決定装置の機能構成の例を示す概略ブロック図である。第１実施形態に係る動作規則決定装置におけるデータの流れの例を示す図である。第１実施形態に係る動作規則決定装置がプランを決定する処理手順の例を示すフローチャートである。第２実施形態に係る１エピソード目の第１ターンの例を示す図である。第２実施形態に係る第１エピソードの第２ターンの例を示す図である。第２実施形態に係る第１エピソードの第３ターンの例を示す図である。第２実施形態に係る第２エピソードの第１ターンの例を示す図である。第２実施形態に係る第２エピソードの第２ターンの例を示す図である。第２実施形態に係る相互作用履歴情報の例を示す図である。第２実施形態に係るリスク考慮型相互作用履歴情報の例を示す図である。第３実施形態にかかる動作規則決定装置におけるデータの流れを示す図である。第４実施形態に係る動作規則決定装置の構成の例を示す図である。第５実施形態に係る動作規則決定方法における処理の手順の例を示す図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

以下、本発明の実施形態を説明するが、以下の実施形態は請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

＜第１実施形態＞
図１は、第１実施形態に係る動作規則決定装置の機能構成の例を示す概略ブロック図である。図１に示す構成で、動作規則決定装置１００は、通信部１１０と、記憶部１８０と、制御部１９０とを備える。記憶部１８０は、プランナーパラメータ記憶部１８１と、相互作用履歴記憶部１８２と、環境パラメータセット記憶部１８３とを備える。制御部１９０は、プランナー部１９１と、プランナーパラメータ設定部１９２と、リスク考慮型履歴生成部１９３と、パラメトリック環境実行部１９４と、環境パラメータ選択部１９５とを備える。

動作規則決定装置１００は、強化学習によって制御対象の動作（制御、行動）規則を決定する。動作規則決定装置１００は、決定した規則に従い、制御対象を制御してもよい。ここでいう強化学習は、ある環境における制御対象の動作を決定する動作規則を、制御対象の動作と、環境および制御対象について観測される状態と、制御対象の状態の望ましさの程度を表す報酬とに基づいて学習する機械学習である。ここでいう制御対象の状態の望ましさの程度は、状態がどの程度望ましい状態であるかを表す程度である。

制御対象の状態の望ましさの程度は、たとえば、当該程度を表す程度情報によって動作規則決定装置１００に与えられる。言い換えると、程度情報は、制御対象の状態と、その状態の望ましさの程度とが関連付けされた情報である。以降、望ましさの程度を「報酬」と表記する。

動作規則決定装置１００の制御対象は特定のものに限定されない。制御対象は、たとえば、自動車、飛行機、船舶等の移動体であってもよいし、加工工場、または、製造工程などであってもよい。動作規則決定装置１００の制御対象は、その制御対象の動作を強化学習可能であり、強化学習に基づいて決定する動作をその制御対象に行わせることが可能なものとすることができる。

ここで、制御対象の周辺環境を、単に環境とも称する。ここでいう環境は、強化学習でいうところの環境である。例えば、環境が制御対象の動作に影響し得るなど、環境は制御対象に影響を及ぼし得る。また、環境は、制御対象の動作に応じて変化し得る。例えば、制御対象がある場所から別の場所へ移動することで、環境が変化する。
環境または制御対象から取得可能な情報を状態と称する。ここでいう状態は、強化学習でいうところの状態である。状態の例として、センサによる測定値、および、制御対象の位置を挙げることができるが、これらに限定されない。

また、ここでいう動作規則は、状態に応じて制御対象の動作を決定するための規則である。
状態を動作規則に適用して求まる動作を動作プランまたは単にプランとも称する。また、動作を求める処理をプランニングと称する。プランニングを行う主体をプランナーと称する。

動作規則決定装置１００は、パラメータを含む動作規則を予め記憶しており、このパラメータの値を決定することで、動作規則を決定する。したがって、動作規則決定装置１００が、決定したパラメータ値に応じて、制御対象を制御するようにしてもよい。動作規則に含まれるパラメータをプランナーパラメータと称する。

動作規則決定装置１００は、環境に関する情報をシミュレーションにて算出する。このシミュレーションを環境のシミュレーションまたは単にシミュレーションとも称する。
動作規則決定装置１００がシミュレーションに用いるモデルは、状態以外のパラメータを含む。このパラメータを環境パラメータと称する。環境パラメータの値は、制御対象に影響を及ぼし得る。

環境パラメータの例として、静止摩擦係数、動摩擦係数、および、温度センサが設けられていない箇所の温度を挙げることができるが、これらに限定されない。制御対象が床の上を移動する場合に、静止摩擦係数、および、動摩擦係数は、たとえば、実際に制御対象が床の上を移動することよって取得することができる情報である。

環境パラメータが取り得る値の集合を環境パラメータセットと称する。環境パラメータセットは確率分布で与えられるなど、確率的に与えられる。具体的には、環境パラメータセットは、環境パラメータが取り得る値と、環境パラメータがその値を取り得る確率とを示す。環境パラメータは、１種類のパラメータであるとは限らず、複数種類のパラメータであってもよい。

環境パラメータセットは、例えば、動作規則決定装置１００のユーザによって設定されるなど、予め動作規則決定装置１００に与えられる。
動作規則決定装置１００は、環境パラメータセットが示す確率に従って、環境パラメータセットが示す環境パラメータの値をサンプリングし、サンプリングした値をシミュレーションのモデルの環境パラメータに設定し、設定した環境パラメータに従い制御対象の動作等のシミュレーションを行う。動作規則決定装置１００は、該シミュレーションによって、たとえば、動作後の制御対象の状態を取得する。

また、動作規則決定装置１００は、制御対象の動作後の状態を特定し、特定した状態に応じた報酬を、程度情報を用いて決定する。動作規則決定装置１００は、決定した報酬に基づき当該動作によって得られる報酬を算出する。動作規則決定装置１００は、たとえば、当該程度情報を用いて、状態に関連付けされた程度を求める。

動作は、１つのタイミングにおける動作であるとは限らず、複数のタイミングにおける各動作であってもよい。また、状態に応じた報酬を決定する処理は、たとえば、状態と、その状態における報酬とが関連付けされている所与の程度情報に基づき決定する処理だけでなく、後述するように、動作規則決定装置１００が決定した報酬に基づき決定する処理であってもよい。動作によって得られる報酬を算出する方法は、各タイミングにおける報酬の合計値を算出する方法だけでなく、将来のタイミングになる程小さくなる重みを報酬に乗算し、得られた値を合計する方法であってもよい。

報酬の算出方法は、例えば動作規則決定装置１００のユーザによって与えられるなど、予め動作規則決定装置１００に与えられていてもよい。報酬の算出方法が、数式の形式で動作規則決定装置１００に与えられていてもよいが、これに限定されない。動作規則決定装置１００は、状態および動作を報酬の算出方法に適用して報酬を算出する。

動作と状態と報酬との組み合わせの履歴情報を相互作用履歴情報と称する。動作規則決定装置１００は、相互作用履歴情報を生成する。相互作用履歴情報は、動作規則に基づいて状態に応じて決定する動作と、シミュレーションにて動作に応じて算出する状態と、動作および状態に応じて算出する報酬とが組み合わされた履歴情報である。

動作規則に基づいて動作を決定する１回の処理と、シミュレーションにて状態を算出する１回の処理との組み合わせを１ターンと称する。すなわち、１ターンは、1つのタイミングにおける制御対象の動作と、当該動作後の制御対象の状態とを決定する処理を表している。
初期状態から所定の終了条件が成立するまでのターンの繰り返しを１エピソードと称する。すなわち、エピソードは、制御対象に対する一連の動作を表しているということもできる。

動作規則決定装置１００は、相互作用履歴情報に基づいてリスク考慮型履歴情報を生成する。リスク考慮型履歴情報は、相互作用履歴情報に示されるリスクを、報酬に反映させて得られる情報である。
なお、動作規則決定装置１００が、報酬に代えてペナルティを用いて強化学習を行うようにしてもよい。報酬は、たとえば、制御対象の状態が所望状態である場合（または、所望状態に近付いている場合）に、正の値によって表現されていてもよい。また、ペナルティは、制御対象の状態が所望状態でない場合（または、所望状態から遠ざかっている場合）に、負の値によって表現されていてもよい。この場合に、報酬、および、ペナルティは、それぞれ、正、および、負の値を用いて表すことができる。以降の説明では、報酬と、ペナルティとを総称して「報酬」と表現することもある。

通信部１１０は、他の装置と通信を行う。例えば、通信部１１０は、動作規則決定装置１００の実運用において、状態を示す情報をセンサ等から受信する。
動作規則決定装置１００の実運用とは、強化学習の終了後に、強化学習で得られた動作規則に基づいて、制御対象の動作を算出することである。動作規則決定装置１００が、制御対象の動作を直接制御するようにしてもよい。あるいはプラントの運転員など制御対象を制御する担当者がいる場合、動作規則決定装置１００が、算出した動作を制御の担当者に提案するようにしてもよい。または、プラントが自動制御されている場合に、動作規則決定装置１００は、プラントを制御している制御装置に対して、制御対象の動作を指示してもよい。

記憶部１８０は、各種情報を記憶する。記憶部１８０は、動作規則決定装置１００が備える記憶デバイスを用いて構成される。
プランナーパラメータ記憶部１８１は、プランナーパラメータを記憶する。
相互作用履歴記憶部１８２は、相互作用履歴情報を記憶する。
環境パラメータセット記憶部１８３は、環境パラメータセットを記憶する。

制御部１９０は、動作規則決定装置１００の各部を制御して各種処理を実行する。制御部１９０の機能は、動作規則決定装置１００が備えるＣＰＵ（Central Processing Unit、中央処理装置）が、記憶部１８０からプログラムを読み出して実行することで実行される。
プランナー部１９１は、プランニングを行う。すなわち、プランナー部１９１は、制御対象の動作を状態に応じて決定するための動作規則に状態を適用して動作を決定する。

リスク考慮型履歴生成部１９３は、相互作用履歴情報に基づいてリスク考慮型相互作用履歴情報を生成する。
プランナーパラメータ設定部１９２は、リスク考慮型履歴情報に基づいてプランナーパラメータの値を決定する。
パラメトリック環境実行部１９４は、上述したシミュレーションを実行する。
環境パラメータ選択部１９５は、環境パラメータセットから、環境パラメータセットに示される確率に従って、環境パラメータの値をサンプリングする。
パラメトリック環境実行部１９４は、環境実行部の例に該当する。

図２は、動作規則決定装置１００におけるデータの流れの例を示す図である。
図２の例で、環境パラメータセット記憶部１８３は、環境パラメータセットＰを記憶している。環境パラメータセットＰは、環境パラメータｐが取り得る値の確率分布を示す。すなわち、環境パラメータセットＰは、環境パラメータｐが取り得る値と、環境パラメータｐがその値をとり得る確率とを示す。
環境パラメータセットＰは、例えば動作規則決定装置１００のユーザによって与えられるなどにより、予め環境パラメータセット記憶部１８３が記憶しておく。

環境パラメータ選択部１９５は、環境パラメータセットＰから、環境パラメータセットＰに示される確率に従って、環境パラメータｐの値をサンプリングする。環境パラメータ選択部１９５は得られた値をパラメトリック環境実行部１９４へ出力する。
パラメトリック環境実行部１９４は、環境のシミュレーションを行う。パラメトリック環境実行部１９４は、環境パラメータ選択部１９５がサンプリングした環境パラメータｐの値をシミュレーションモデルに適用して、制御対象の動作等についてのシミュレーションを行う。環境パラメータ選択部１９５は、シミュレーションにて、プランナー部１９１が出力する動作ａ_ｔ，ｍに対する状態ｓ_ｔ，ｍと、これら動作ａ_ｔ，ｍおよび状態ｓ_ｔ，ｍに基づく報酬ｒ_ｔ，ｍとを算出する。ｍは、１つのエピソードを表す識別子である。ｔは、1つのタイミングを表す識別子である。また、「ｔ，ｍ」は、第ｍエピソードの第ｔタイミングを表す識別子である。

プランナー部１９１は、動作規則に基づいて状態に応じた動作を決定する。１つのエピソードの最初のターンでは、プランナー部１９１は、初期状態に応じた動作を決定する。ここでいう初期状態は、状態の初期値である。動作規則決定装置１００のユーザが初期状態を与えるようにしてもよい。あるいは、プランナー部１９１が自動的に初期状態を設定するようにしてもよい。１つのエピソードの第２ターン以降では、プランナー部１９１は、パラメトリック環境実行部１９４が前のターンのシミュレーションで算出する状態に応じた動作を決定する。

プランナー部１９１は、１つのターンにおける動作ａ_ｔ，ｍと状態ｓ_ｔ，ｍと報酬ｒ_ｔ，ｍとの組み合わせを１エピソード分纏めた相互作用履歴情報を、エピソード毎に生成する。プランナー部１９１は、エピソード毎の相互作用履歴情報を相互作用履歴記憶部１８２に格納する。すなわち、プランナー部１９１は、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める。プランナー部１９１は、求めた状態と、求めた状態に関する程度とが組み合わされた相互作用履歴情報を生成し、生成した相互作用履歴情報を相互作用履歴記憶部１８２に格納する。

リスク考慮型履歴生成部１９３は、相互作用履歴情報に応じたリスク考慮型履歴情報を生成する。具体的には、リスク考慮型履歴生成部１９３は、相互作用履歴記憶部１８２から相互作用履歴情報を読み出し、読み出した相互作用履歴情報にリスクを反映する。
リスク考慮型履歴生成部１９３は、たとえば、相互作用履歴記憶部１８２から１つのエピソードにおける状態の望ましさの程度を読み取り、読み取った程度を累積した程度を表す累積程度を算出する。リスク考慮型履歴生成部１９３は、累積程度が条件を満たした場合に、その程度情報における一連の動作後における状態に関連付けされた程度を減じる。リスク考慮型履歴生成部１９３は、累積程度が条件を満たした場合に、一連の動作後を表す相互作用履歴情報における状態の望ましさの程度（報酬）を減じる。このような処理によって、リスク考慮型履歴生成部１９３は、読み出した相互作用履歴情報にリスクを反映する。

ここでいう条件は、例えば報酬（状態の望ましさの程度）の値が所定の閾値以下であることで示されていてもよいが、これに限定されない。また、リスク考慮型履歴生成部１９３が、リスクを含むエピソードの報酬から、たとえば、累積程度に応じた量（リスク分）を減算することで相互作用履歴情報にリスクを反映させるようにしてもよいが、これに限定されない。リスク考慮型履歴生成部１９３は、程度情報における、エピソードの最終状態を表す程度から、当該エピソードの累積程度に応じた量（リスク分）を減じる処理を行ってもよい。
リスク考慮型履歴生成部１９３は、生成したリスク考慮型履歴情報をプランナーパラメータ設定部１９２へ出力する。

プランナーパラメータ設定部１９２は、リスク考慮型履歴情報に基づいてプランナーパラメータθの値を決定する。プランナーパラメータ設定部１９２は、全体の報酬（例えば、全てのエピソードの全てのターンにおける報酬の合計）を最大化するなど、報酬を最大化するようにプランナーパラメータθの値を決定する。プランナーパラメータ設定部１９２は、たとえば、累積程度が増大するようにプランナーパラメータθを更新してもよい。

次に、図３を参照して動作規則決定装置１００の動作について説明する。
図３は、動作規則決定装置１００がプランを決定する処理手順の例を示すフローチャートである。
図３の処理で、環境パラメータ選択部１９５は、環境パラメータセット記憶部１８３が記憶する環境パラメータセットから確率的に環境パラメータをサンプリングする（ステップＳ１１）。環境パラメータ選択部１９５は、サンプリングした環境パラメータをパラメトリック環境実行部１９４へ送信する。

次に、プランナー部１９１とパラメトリック環境実行部１９４とが相互作用を行い、相互作用の履歴を相互作用履歴記憶部１８２に蓄積する（ステップＳ１２）。
具体的には、プランナー部１９１が制御対象の動作を決定し、パラメトリック環境実行部１９４は、環境パラメータに応じた環境での動作に対する状態を算出する。パラメトリック環境実行部１９４は、たとえば、パラメータ値に従い制御対象の動作をシミュレーションすることによって、動作後における制御対象の状態を算出してもよい。また、パラメトリック環境実行部１９４は、得られた状態に基づいて報酬を算出する。

プランナー部１９１は、パラメトリック環境実行部１９４が算出した状態に応じて、制御対象の動作を決定する。このように、プランナー部１９１とパラメトリック環境実行部１９４とは、動作の決定、状態の算出、および、報酬の算出を、所定の終了条件が成立するまで繰り返す。
プランナー部１９１は、動作と状態と報酬との組み合わせの履歴を相互作用履歴情報として相互作用履歴記憶部１８２に格納する。

次に、リスク考慮型履歴生成部１９３は、相互作用履歴記憶部１８２が記憶している相互作用履歴情報からリスクを読み取り、相互作用履歴情報にリスクを反映させる（ステップＳ１３）。
そして、動作規則決定装置１００は、所定の終了条件が成立しているかを判定する（ステップＳ１４）。ここでの終了条件は、得られたプランを採用して強化学習を終了するか決定可能なものであればよく、特定のものに限定されない。例えば、ここでの終了条件として、パラメータが収束しているか、プランへのリスクの反映が所定の条件を満たすか、または、プランナー部１９１とパラメトリック環境実行部１９４との相互作用の実行が所定の繰り返し回数に達しているか、あるいはこれらの組み合わせを用いることができるが、これらに限定されない。
終了条件が成立していないと動作規則決定装置１００が判定した場合（ステップＳ１４：ＮＯ）、処理がステップＳ１１へ戻る。一方、終了条件が成立していると判定した場合（ステップＳ１４：ＹＥＳ）、動作規則決定装置１００は、図３の処理を終了する。

以上のように、パラメトリック環境実行部１９４は、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める。リスク考慮型履歴生成部１９３は、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる。
動作規則決定装置１００によれば、リスクが反映されたリスク考慮型相互作用履歴情報を用いて動作規則を決定することで、リスクを考慮した動作規則を得られる。これにより、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。

また、プランナーパラメータ設定部１９２は、前記制御対象の前記動作を示すパラメータ値を、前記累積程度が増大するよう更新する。
これにより、リスクを考慮した動作規則を得られる。これにより、動作規則決定装置１００では、上記のように、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。

また、リスク考慮型履歴生成部１９３は、上記の累積程度を、複数の一連の動作それぞれについて算出し、算出した累積程度の頻度を求め、求めた頻度を用いて条件（報酬）を決定する。
プランナーパラメータ設定部１９２は、リスク考慮型履歴生成部１９３が決定した条件に基づいてプランナーパラメータの値を設定することで、リスクを考慮した動作規則を得られる。

また、プランナー部１９１は、プランナーパラメータ設定部１９２が設定したパラメータ値に応じて、制御対象を制御する。
これにより、プランナー部１９１は、制御対象に対してリスクを考慮した制御を行うことができる。

また、パラメトリック環境実行部１９４は、プランナーパラメータ設定部１９２がパラメータ値に基づき制御対象の動作をシミュレーションする。
これにより、パラメトリック環境実行部１９４は、制御対象に対するリスクを考慮した制御の結果を算出することができる。

また、リスク考慮型履歴生成部１９３は、程度情報における程度から、累積程度に応じた量を減じる。
これにより、リスク考慮型履歴生成部１９３は、リスクを反映させた相互作用履歴情報を生成することができる。プランナーパラメータ設定部１９２が、リスクを反映させた相互作用履歴情報を用いてプランナーパラメータの値を設定することで、リスクを考慮した動作規則を得られる。

また、リスク考慮型履歴生成部１９３は、制御対象の動作と、制御対象または環境について観測される状態と、環境に応じた報酬との組み合わせの履歴情報である相互作用履歴情報から検出されるリスクを、相互作用履歴情報に反映させたリスク考慮型相互作用履歴情報を生成する。プランナーパラメータ設定部１９２は、状態に応じて制御対象に行わせる動作を決定するための動作規則のパラメータであるプランナーパラメータの値を、リスク考慮型相互作用履歴情報に基づいて決定する。プランナー部１９１は、プランナーパラメータ設定部１９２が決定したプランナーパラメータの値が設定された動作規則を用いて制御対象の動作を決定する。プランナー部１９１は、プランナーパラメータの値に応じて、制御対象の動作を制御してもよい。

動作規則決定装置１００によれば、リスクが反映されたリスク考慮型相互作用履歴情報を用いて動作規則のパラメータ値を設定することで、リスクを考慮した動作規則を得られる。これにより、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。

また、環境パラメータ選択部１９５は、環境のシミュレーションモデルに含まれるパラメータである環境パラメータの値を、その環境パラメータが取り得る値とその値の確率分布を示す環境パラメータセットから、確率分布に基づいて選択する。パラメトリック環境実行部１９４は、環境パラメータ選択部１９５が選択した環境パラメータの値が設定されたシミュレーションモデルを用いて環境のシミュレーションを行って、状態を示す情報を算出する。
動作規則決定装置１００によれば、環境パラメータの値によって挙動が異なる環境におけるリスクを、動作規則に反映させることができる。

また、リスク考慮型履歴生成部１９３は、相互作用履歴情報が示す報酬の値が所定の値よりも小さいという条件を満たしている場合に、その相互作用履歴情報が示す報酬の値を減じてリスク考慮型相互作用履歴情報を生成する。
このように、リスク考慮型履歴生成部１９３が、報酬の値が所定の値より小さいことで示されるリスクを報酬に反映させることで、報酬に基づいて動作規則を学習し得る。
また、リスク考慮型履歴生成部１９３は、複数のエピソードについて、累積程度の頻度を求め、求めた頻度を用いて、所定の値を決定してもよい。リスク考慮型履歴生成部１９３は、頻度分布の分位点（たとえば、１％位、５％位、１０％位）にて所定の値を決定してもよい。

＜第２実施形態＞
第２実施形態では、第１実施形態にかかる動作規則決定装置１００の、より具体的な適用例について説明する。第１実施形態の説明は、第２実施形態にも当てはまる。特に、第２実施形態における動作規則決定装置１００の構成および動作は、図１から図３を参照して説明した構成および動作と同様である。
第２実施形態では、動作規則決定装置１００が、Ｈｏｐｐｅｒと呼ばれるロボットの制御のプランニングを行う例について説明する。この例では、動作規則決定装置１００は、Ｈｏｐｐｅｒを転倒させずに素早く前進させるためのＨｏｐｐｅｒにかける一連のトルクの数値をプランニングする。

第２実施形態では、状態として、２次元座標によって表された情報をＨｏｐｐｅｒの位置情報として用いる。また、動作として、Ｈｏｐｐｅｒの動作を制御するトルクの数値を用いる。環境については、パラメトリック環境実行部１９４が、物理シミュレータによってＨｏｐｐｅｒの動作のシミュレーションを行うこととする。環境パラメータとして、シミュレーションにおける地面の摩擦係数を用いる。報酬は、Ｈｏｐｐｅｒの前方向の進行度に応じて与えられるものとする。

図４から図８を参照して、２つのエピソードの例を示す。図４から図６が第１エピソードを示し、図７および図８が第２エピソードを示す。
第２実施形態では、図３のステップＳ１１で、環境パラメータ選択部１９５が、環境パラメータセット記憶部１８３から環境パラメータセットとして、｛Ｐｒｏｂ（Ｈｏｐｐｅｒと地面との摩擦係数＝２．０）＝０．９，Ｐｒｏｂ（Ｈｏｐｐｅｒと地面との摩擦係数＝０．１）＝０．１｝との情報を取得する。Ｈｏｐｐｅｒと地面との摩擦係数を、単に摩擦係数とも称する。

Ｐｒｏｂは、環境パラメータが括弧内に示される値をとる確率を示す。したがって、環境パラメータ選択部１９５は、「摩擦係数は、０．９の確率で２．０であり、０．１の確率で０．１である」との情報を取得する。
環境パラメータ選択部１９５は、得られた環境パラメータセットに示される確率に応じて環境パラメータ値を選択する。

第２実施形態の例では、環境パラメータ選択部１９５がエピソード毎に環境パラメータ値を設定するものとする。環境パラメータ選択部１９５は、第１エピソードについては、「摩擦係数＝２．０」を選択し、第２エピソードについては、「摩擦係数＝０．１」を選択したものとする。

図３のステップＳ１２では、プランナー部１９１とパラメトリック環境実行部１９４とが相互作用を行って、相互作用履歴記憶部１８２に相互作用履歴情報を蓄積する。ここでの相互作用履歴情報は、２次元座標におけるＨｏｐｐｅｒの位置情報と、Ｈｏｐｐｅｒを動作させるトルクの数値と、報酬との組み合わせの履歴である。
第２実施形態の例では、最大ターン数が３回に設定され、プランナー部１９１とパラメトリック環境実行部１９４とが、エピソード毎に、ターン数が最大ターン数に達するか、あるいは、Ｈｏｐｐｅｒが転倒するまで相互作用を繰り返すものとする。

図４は、第１エピソードの第１ターンの例を示す図である。したがって、図４は、第１エピソードにおける初期状態を示している。図４から図８では、Ｈｏｐｐｅｒ８０１と、目標位置８０２とが示されている。目標位置８０２は、Ｈｏｐｐｅｒ８０１の進行目標の位置に配置されている。第２実施形態の例では、目標位置８０２は固定である。したがって、何れのエピソードの何れのターンでも、目標位置８０２は同じ位置に配置されている。
図５は、第１エピソードの第２ターンの例を示す図である。図５の例では、図４に示される第１ターンの場合よりも、Ｈｏｐｐｅｒ８０１が目標位置８０２に近付いている。

図６は、第１エピソードの第３ターンの例を示す図である。図６の例では、図５に示される第２ターンの場合よりも、Ｈｏｐｐｅｒ８０１が目標位置８０２に近付いている。第１エピソードでは、図６の例で最大ターン数の３回に達したため、プランナー部１９１とパラメトリック環境実行部１９４とは相互作用を終了する。そして、プランナー部１９１は、第１エピソードにおける第１ターンから第３ターンまでの、２次元座標におけるＨｏｐｐｅｒ８０１の位置情報と、Ｈｏｐｐｅｒ８０１を動作させるトルクの数値と、報酬との組み合わせの履歴を、相互作用履歴情報として相互作用履歴記憶部１８２に格納する。

図７は、第２エピソードの第１ターンの例を示す図である。したがって、図７は、第２エピソードにおける初期状態を示している。
図８は、第２エピソードの第２ターンの例を示す図である。図８の例では、Ｈｏｐｐｅｒ８０１が転倒している。このため、プランナー部１９１とパラメトリック環境実行部１９４とは相互作用を終了する。そして、プランナー部１９１は、第２エピソードにおける第１ターンから第２ターンまでの、２次元座標におけるＨｏｐｐｅｒ８０１の位置情報と、Ｈｏｐｐｅｒ８０１の動作を制御するトルクの数値と、報酬との組み合わせの履歴を、相互作用履歴情報として相互作用履歴記憶部１８２に格納する。

図９は、相互作用履歴情報の例を示す図である。図９の例では、相互作用履歴情報が表形式で示されており、１つの行が１つのターンにおける相互作用の情報を示す。
図９で、ｍは、エピソードの識別番号を示す。ｔは、ターンの識別番号を示す。動作ａ_ｔ，ｍは、第ｍエピソードの第ｔターンにおける、Ｈｏｐｐｅｒ８０１の動作を制御するトルクの数値を示す。状態ｓ_ｔ，ｍは、第ｍエピソードの第ｔターンにおける、Ｈｏｐｐｅｒ８０１の座標（位置情報）を示す。
報酬ｒ_ｔ，ｍは、第ｍエピソードの第ｔターンにおける、報酬を示す。
第１エピソードの第１ターンおよび第２エピソードの第１ターンでは、いずれもエピソードにおける初期状態のため、報酬は０となっている。第１エピソードの第２ターンおよび第３ターンでは、いずれも、Ｈｏｐｐｅｒ８０１が目標位置８０２に向かって進んだ進み具合に応じて報酬が与えられている。一方、第２エピソードの第２ターンでは、Ｈｏｐｐｅｒ８０１が転倒したため、－１０の報酬が与えられている。

図３のステップＳ１３では、リスク考慮型履歴生成部１９３が、リスクを相互作用履歴情報に反映させてリスク考慮型相互作用履歴情報を生成する。
図１０は、リスク考慮型相互作用履歴情報の例を示す図である。図１０の例で、リスク考慮型履歴生成部１９３は、図９の相互作用履歴情報の状態ｓ_ｔ，ｍがリスク考慮型状態情報ｓ’_ｔ，ｍに置き換えられ、報酬ｒ_ｔ，ｍがリスク考慮型報酬ｒ’_ｔ，ｍに置き換えられたリスク考慮型相互作用履歴情報を生成している。

リスク考慮型履歴生成部１９３は、式（１）に基づいてリスク考慮型状態情報ｓ’_ｔ，ｍを生成する。

ここで、「｜｜」は、ベクトルの要素を結合する演算を示す。すなわち、状態ｓ_ｔ，ｍが（ｘ_ｔ，ｍ,ｙ_ｔ，ｍ）と表されるのに対し、リスク考慮型状態情報ｓ’_ｔ，ｍは、（ｘ_ｔ，ｍ,ｙ_ｔ，ｍ，ｖ，Σ_ｔ＝０ ^Ｔｍ－１－ｒ_ｔ，ｍ）と表される。
ただし、ｘ_ｔ，ｍは、第ｍエピソードの第ｔターンにおけるＨｏｐｐｅｒ８０１の位置のｘ座標を示す。ｙ_ｔ，ｍは、第ｍエピソードの第ｔターンにおけるＨｏｐｐｅｒ８０１の位置のｙ座標を示す。すなわち、ベクトル（ｘ_ｔ，ｍ，ｙ_ｔ，ｍ）は、第ｍエピソードの第ｔターンにおける、２次元座標におけるＨｏｐｐｅｒ８０１の位置情報の例に該当する。

ｖは、報酬に基づいてリスクを評価するための閾値を示す。Ｔ_ｍは、第ｍエピソードにおけるターン数を示す。第２実施形態の例では、Ｔ_１＝３、Ｔ_２＝２である。
「Σ_ｔ＝０ ^Ｔｍ－１－ｒ_ｔ，ｍ」は、第ｍエピソードにおけるタイミング「０」からタイミング「T_ｍ－１」までの間の報酬の合計値に、「－１」を掛け算した値を表す。すなわち、「Σ_ｔ＝０ ^Ｔｍ－１－ｒ_ｔ，ｍ」は、第ｍエピソードにおけるタイミング「０」からタイミング「T_ｍ－１」までの間のペナルティの合計値であるということもできる。

リスク考慮型状態情報ｓ’_ｔ，ｍのｖおよびΣ_ｔ＝０ ^Ｔｍ－１－ｒ_ｔ，ｍは、リスク考慮型報酬ｒ’_ｔ，ｍを算出するために用いられる。ただし、これらの情報をリスク考慮型状態情報ｓ’_ｔ，ｍに含めることは必須ではない。例えば、記憶部１８０が、リスク考慮型状態情報ｓ’_ｔ，ｍとは別に閾値ｖを記憶しておくようにしてもよい。また、リスク考慮型履歴生成部１９３が、リスク考慮型報酬ｒ’_ｔ，ｍを算出する際に、相互作用履歴情報に示される状態の履歴を用いるようにすれば、リスク考慮型状態情報ｓ’_ｔ，ｍに「Σ_ｔ＝０ ^Ｔｍ－１－ｒ_ｔ，ｍ」を含める必要はない。

また、リスク考慮型履歴生成部１９３は、式（２）に基づいてリスク考慮型報酬ｒ’_ｔ，ｍを生成する。

ここで、式（２）の（１／ε）ｍａｘ（０，ｖ＋Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍ）がペナルティを表し、εは、どの程度ペナルティを重要視するかを決める係数である。説明の便宜上、εを実数の定数とする。
式（２）で、報酬ｒ_ｔ，ｍに「－」が付されていることから、第ｍエピソードにおける報酬ｒ_ｔ，ｍの合計が小さいほど、Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍの値は大きくなる。Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍの値が－ｖ以下である場合、式（２）のｍａｘ関数で０が選択され、ペナルティ（１／ε）ｍａｘ（０，ｖ＋Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍ）は０になる。一方、Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍの値が－ｖより大きい場合、式（２）のｍａｘ関数でｖ＋Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍが選ばれ、リスク考慮型履歴生成部１９３は、ペナルティを（１／ε）（ｖ＋Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍ）と算出する。リスク考慮型履歴生成部１９３は、このペナルティを報酬ｒ_ｔ，ｍから減算した値を、リスク考慮型報酬ｒ’_ｔ，ｍとして算出する。

言い換えると、第ｍエピソードに関する累計報酬がｖよりも小さな値の場合には、第ｍエピソードにおける最終状態にペナルティを課す処理（すなわち、当該最終状態における報酬を、所与の報酬から減じる処理）を表しているともいうことができる。このような処理によって、複数エピソードを作成する処理において、当該最終状態が生じる可能性（または、頻度）が低い場合であっても、制御対象の状態が当該最終状態に至るような動作が選択される可能性を低くすることができるという効果を奏する。すなわち、本実施形態において、リスクは、第ｍエピソードに関する累積報酬がｖよりも小さな値の場合であるということもできる。

式（２）により、閾値ｖを導入して、相互作用履歴情報からリスクを抽出することができる。具体的には、累積報酬がその閾値ｖ未満となるエピソードをリスクとみなすことができる。リスク考慮型履歴生成部１９３は、プランナーパラメータ設定部１９２が、プランナーパラメータの値を決定する際に、そのようなエピソードの動作を選択しにくくするために、報酬にペナルティを付与する。リスク考慮型履歴生成部１９３は、累積報酬が、どの程度、閾値ｖを下回ったかに応じて、報酬にペナルティを付与する。

図３のステップＳ１４では、プランナーパラメータ設定部１９２が、リスク考慮型相互作用履歴情報に基づいてプランナーパラメータの値を更新する。プランナーパラメータ設定部１９２が、リスク考慮型相互作用履歴情報に基づいてプランナーパラメータの値を更新する方法として、報酬に基づいて動作規則を生成する公知の方法を用いることができる。
例えば、プランナーパラメータ設定部１９２が、式（３）を用いて方策勾配法によってプランナーパラメータの値を更新するようにしてもよい。

ここで、Ｍは、エピソードの個数を示す。Ｔ_ｍは、第ｍエピソードにおけるターン数を示す。αは、プランナーパラメータθを更新する大きさを調整するための係数である。
π（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）は、状態ｓ’_ｔ，ｍおよびプランナーパラメータθのもとで動作ａ_ｔ，ｍが選ばれる確率を示す。∇_θｌｏｇπ（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）は、θによるｌｏｇπ（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）の微分を示す。∇_θｌｏｇπ（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）が示す傾きの方向にプランナーパラメータθの値が変化することで、状態ｓ’_ｔ，ｍおよびプランナーパラメータθのもとで動作ａ_ｔ，ｍが選ばれる確率が上昇する。

リスク考慮型報酬ｒ’の値が正の場合、プランナーパラメータ設定部１９２は、∇_θｌｏｇπ（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）が示す傾きの方向にプランナーパラメータθの値を更新する。これによって、状態ｓ’_ｔ，ｍおよびプランナーパラメータθのもとで動作ａ_ｔ，ｍが選ばれる確率が上昇する。

一方、リスク考慮型報酬ｒ’の値が負の場合、プランナーパラメータ設定部１９２は、∇_θｌｏｇπ（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）が示す傾きの方向と逆方向にプランナーパラメータθの値を変化させる。これによって、状態ｓ’_ｔ，ｍおよびプランナーパラメータθのもとでプランナー部１９１が動作ａ_ｔ，ｍを選ぶ確率が低下する。

プランナーパラメータ設定部１９２は、式（３）を用いることで、リスク考慮型報酬ｒ’の累積値を最大化するようにプランナーパラメータθの値を更新する。上記のように、リスク考慮型履歴生成部１９３が、リスクを含むエピソードの報酬からペナルティを減算することで、リスクを含むエピソードの動作が選ばれる確率が低下する。

＜第３実施形態＞
第３実施形態では、第１実施形態にかかる動作規則決定装置１００の、より具体的なもう１つの適用例について説明する。第１実施形態の説明は、第３実施形態にも当てはまる。特に、第３実施形態における動作規則決定装置１００の構成および動作は、図１から図３を参照して説明した構成および動作と同様である。

第３実施形態では、動作規則決定装置１００をプラントの制御に用いる場合の例について説明する。ただし、動作規則決定装置１００は、プラントに限らず強化学習を適用可能ないろいろな制御対象に適用可能である。
第３実施形態の例では、パラメトリック環境実行部１９４は、制御対象のプラントのシミュレータを含んで構成される。第３実施形態の例における環境は、このシミュレータによって提供される。

パラメトリック環境実行部１９４が備えるシミュレータのモデルは、環境パラメータとして、プラント周辺の外気温をパラメータに含む。第３実施形態では、環境パラメータセットとして、想定され得るプラント周辺の外気温を用いる。環境パラメータ選択部１９５は、例えば、その外気温を切断正規分布からサンプリングする。

プランナー部１９１とパラメトリック環境実行部１９４との組み合わせにて相互作用履歴情報を生成し、相互作用履歴記憶部１８２に格納する。プランナー部１９１は、状態に応じて動作を決定する。パラメトリック環境実行部１９４は、環境パラメータ選択部１９５が環境パラメータセットから選択した外気温をシミュレータのパラメータに設定し、設定したパラメータに従いプラントのシミュレーションを実行する。パラメトリック環境実行部１９４は、シミュレーションによって、動作後の制御対象の状態を算出する。また、プランナー部１９１は、状態および動作に基づいて報酬を算出する。

第３実施形態の例では、パラメトリック環境実行部１９４は、状態として、例えば圧力センサおよび流量センサなどプラントに設置されたセンサの値のシミュレーション値を算出する。
また、プランナー部１９１は、例えば所定の流量調節弁の開度指令値など、プラントに対する制御指令値を動作として算出する。プランナー部１９１が、プラントに対する制御指令値をＰＩＤ（Proportional Integral Differential）制御値で算出するようにしてもよいが、これに限定されない。
また、プランナー部１９１は、例えば、エチレンの量またはガソリンの量など、パラメトリック環境実行部１９４によるプラントのシミュレーションで算出される成果物の量に応じて報酬を算出する。

図１１は、第３実施形態にかかる動作規則決定装置１００におけるデータの流れを示す図である。図１１では、環境パラメータ選択部１９５が選択した環境パラメータの値として、２８℃および１０℃が示されている点、および、パラメトリック環境実行部１９４が、プラントシミュレータを含んで構成されていることが明示されている点で図２の場合と異なる。それ以外の点では、図１１は図２と同様である。
パラメトリック環境実行部１９４は、環境パラメータ選択部１９５が選択した外気温＝２８℃、１０℃のそれぞれについてエピソードを実行する。

このように、動作規則決定装置１００は、想定され得る外気温の設定においてリスクを考慮した動作規則を決定することで、外気温のリスクを考慮した制御指令値を算出することができる。
これにより、実際のプラントに外気温のセンサが設けられておらず外気温を測定できない状況に、動作規則決定装置１００は、外気温の不確定性に起因するリスクを考慮したプラントの制御プランを、プラントの運転者に提示できる。

あるいは、動作規則決定装置１００が、外気温に加えて、あるいは代えて、想定し得る設備の故障を環境パラメータとして動作規則を決定するようにしてもよい。これにより、動作規則決定装置１００は、設備の故障が生じた場合の不利益が比較的小さくて済むようなプラント制御を、プラントの運転者に提示できる。
あるいは、動作規則決定装置１００が、想定し得る自然災害を環境パラメータとして動作規則を決定するようにしてもよい。これにより、動作規則決定装置１００は、自然災害が生じた場合の不利益が比較的小さくて済むようなプラント制御を、プラントの運転者に提示できる。

＜第４実施形態＞
図１２は、第４実施形態に係る動作規則決定装置の構成の例を示す図である。図１２に示す構成で、動作規則決定装置５００は、環境実行部５０１と、リスク考慮型履歴生成部５０２とを備える。

かかる構成で、環境実行部５０１は、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める。リスク考慮型履歴生成部５０２は、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる。

動作規則決定装置５００によれば、リスクが反映されたリスク考慮型相互作用履歴情報を用いて動作規則を決定することで、リスクを考慮した動作規則を得られる。これにより、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。

＜第５実施形態＞
図１３は、第５実施形態に係る動作規則決定方法における処理の手順の例を示す図である。図１３に示す動作規則決定方法は、ステップＳ５１からステップＳ５２の工程を含む。ステップＳ５１では、コンピュータが、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める。ステップＳ５２では、コンピュータが、求められた程度を一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、程度情報における一連の動作後の状態に関連付けされた程度を減じる。ステップＳ５３では、パラメータ設定部が決定したプランナーパラメータの値が設定された動作規則を用いて制御対象に行わせる動作を決定する。
この動作規則決定方法によれば、リスクが反映されたリスク考慮型相互作用履歴情報を用いて動作規則を決定することで、リスクを考慮した動作規則を得られる。これにより、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。

図１４は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
図１４に示す構成で、コンピュータ７００は、ＣＰＵ７１０と、主記憶装置７２０と、補助記憶装置７３０と、インタフェース７４０とを備える。
上記の動作規則決定装置１００、または、動作規則決定装置５００のうち何れか１つ以上が、コンピュータ７００に実装されてもよい。その場合、上述した各処理部の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。また、ＣＰＵ７１０は、プログラムに従って、上述した各記憶部に対応する記憶領域を主記憶装置７２０に確保する。各装置と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って通信を行うことで実行される。

動作規則決定装置１００がコンピュータ７００に実装される場合、制御部１９０およびその各部の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。
また、ＣＰＵ７１０は、プログラムに従って、記憶部１８０に対応する記憶領域を主記憶装置７２０に確保する。通信部１１０が行う通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って通信を行うことで実行される。

動作規則決定装置５００がコンピュータ７００に実装される場合、環境実行部５０１と、リスク考慮型履歴生成部５０２との各部の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

なお、動作規則決定装置１００、または、動作規則決定装置５００の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。ここでいう「コンピュータシステム」とは、ＯＳ（オペレーティングシステム）や周辺機器等のハードウェアを含む。
「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。

本発明の実施形態は、動作規則決定装置、動作規則決定方法および記録媒体に適用してもよい。

１００、５００動作規則決定装置
１１０通信部
１８０記憶部
１８１プランナーパラメータ記憶部
１８２相互作用履歴記憶部
１８３環境パラメータセット記憶部
１９０制御部
１９１プランナー部
１９２プランナーパラメータ設定部
１９３、５０２リスク考慮型履歴生成部
１９４パラメトリック環境実行部
１９５環境パラメータ選択部
５０１環境実行部

Claims

制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める環境実行部と、
求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じるリスク考慮型履歴生成部と
を備える動作規則決定装置。
前記制御対象の前記動作を示すパラメータ値を、前記累積程度が増大するよう更新するプランナーパラメータ設定部
をさらに備える請求項１に記載の動作規則決定装置。
前記リスク考慮型履歴生成部は、前記累積程度を、複数の前記一連の動作について算出し、算出した前記累積程度の頻度を求め、求めた頻度を用いて前記条件を決定する、
請求項１または請求項２に記載の動作規則決定装置。
前記パラメータ値に応じて前記制御対象を制御するプランナー部
をさらに備える請求項２に記載の動作規則決定装置。
前記環境実行部は、前記パラメータ値に基づき前記制御対象の動作をシミュレーションする、
請求項２に記載の動作規則決定装置。
前記リスク考慮型履歴生成部は、前記程度情報における前記程度から、前記累積程度に応じた量を減じる、
請求項１から５の何れか一項に記載の動作規則決定装置。
コンピュータが、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める工程と、
前記コンピュータが、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる工程と
を含む動作規則決定方法。
コンピュータに、
制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める工程と、
求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる工程と
を実行させるためのプログラム。