JP7173317B2 - 動作規則決定装置、動作規則決定方法およびプログラム - Google Patents

動作規則決定装置、動作規則決定方法およびプログラム Download PDF

Info

Publication number
JP7173317B2
JP7173317B2 JP2021519989A JP2021519989A JP7173317B2 JP 7173317 B2 JP7173317 B2 JP 7173317B2 JP 2021519989 A JP2021519989 A JP 2021519989A JP 2021519989 A JP2021519989 A JP 2021519989A JP 7173317 B2 JP7173317 B2 JP 7173317B2
Authority
JP
Japan
Prior art keywords
degree
state
risk
rule determination
controlled object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021519989A
Other languages
English (en)
Other versions
JPWO2020235061A1 (ja
JPWO2020235061A5 (ja
Inventor
拓也 平岡
貴士 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020235061A1 publication Critical patent/JPWO2020235061A1/ja
Publication of JPWO2020235061A5 publication Critical patent/JPWO2020235061A5/ja
Application granted granted Critical
Publication of JP7173317B2 publication Critical patent/JP7173317B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B31/00Predictive alarm systems characterised by extrapolation or other computation using updated historic data
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems

Description

本発明は、動作規則決定装置、動作規則決定方法およびプログラムに関する。
リスクに関する学習について、特許文献1には、自動車等の移動体の外界環境に含まれるリスクを学習的に認識するオンラインリスク学習システムが記載されている。このオンラインリスク学習システムは、外界環境の状態を示す情報と、その状態の危険度に係るリスク情報とを用いて作成されたトレーニング情報を用いて、その状態の危険度を適応的に学習し、外界環境に含まれる危険度を認識する。
日本国特開2011-14038号公報
強化学習の場合、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定できることが好ましい。これに対し、特許文献1では、強化学習においてリスクを考慮した動作を決定する方法は開示されていない。
本発明の目的の一例は、上記の問題を解決することができる動作規則決定装置、動作規則決定方法およびプログラムを提供することである。
本発明の第1の態様によれば、動作規則決定装置は、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める環境実行部と、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じるリスク考慮型履歴生成部とを備える。
本発明の第2の態様によれば、動作規則決定方法は、コンピュータが、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める工程と、前記コンピュータが、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる工程とを含む。
本発明の第3の態様によれば、プログラムは、コンピュータに、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める工程と、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる工程とを実行させるためのプログラムである。
上記した動作規則決定装置、動作規則決定方法およびプログラムによれば、強化学習において、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。
第1実施形態に係る動作規則決定装置の機能構成の例を示す概略ブロック図である。 第1実施形態に係る動作規則決定装置におけるデータの流れの例を示す図である。 第1実施形態に係る動作規則決定装置がプランを決定する処理手順の例を示すフローチャートである。 第2実施形態に係る1エピソード目の第1ターンの例を示す図である。 第2実施形態に係る第1エピソードの第2ターンの例を示す図である。 第2実施形態に係る第1エピソードの第3ターンの例を示す図である。 第2実施形態に係る第2エピソードの第1ターンの例を示す図である。 第2実施形態に係る第2エピソードの第2ターンの例を示す図である。 第2実施形態に係る相互作用履歴情報の例を示す図である。 第2実施形態に係るリスク考慮型相互作用履歴情報の例を示す図である。 第3実施形態にかかる動作規則決定装置におけるデータの流れを示す図である。 第4実施形態に係る動作規則決定装置の構成の例を示す図である。 第5実施形態に係る動作規則決定方法における処理の手順の例を示す図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
以下、本発明の実施形態を説明するが、以下の実施形態は請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
<第1実施形態>
図1は、第1実施形態に係る動作規則決定装置の機能構成の例を示す概略ブロック図である。図1に示す構成で、動作規則決定装置100は、通信部110と、記憶部180と、制御部190とを備える。記憶部180は、プランナーパラメータ記憶部181と、相互作用履歴記憶部182と、環境パラメータセット記憶部183とを備える。制御部190は、プランナー部191と、プランナーパラメータ設定部192と、リスク考慮型履歴生成部193と、パラメトリック環境実行部194と、環境パラメータ選択部195とを備える。
動作規則決定装置100は、強化学習によって制御対象の動作(制御、行動)規則を決定する。動作規則決定装置100は、決定した規則に従い、制御対象を制御してもよい。ここでいう強化学習は、ある環境における制御対象の動作を決定する動作規則を、制御対象の動作と、環境および制御対象について観測される状態と、制御対象の状態の望ましさの程度を表す報酬とに基づいて学習する機械学習である。ここでいう制御対象の状態の望ましさの程度は、状態がどの程度望ましい状態であるかを表す程度である。
制御対象の状態の望ましさの程度は、たとえば、当該程度を表す程度情報によって動作規則決定装置100に与えられる。言い換えると、程度情報は、制御対象の状態と、その状態の望ましさの程度とが関連付けされた情報である。以降、望ましさの程度を「報酬」と表記する。
動作規則決定装置100の制御対象は特定のものに限定されない。制御対象は、たとえば、自動車、飛行機、船舶等の移動体であってもよいし、加工工場、または、製造工程などであってもよい。動作規則決定装置100の制御対象は、その制御対象の動作を強化学習可能であり、強化学習に基づいて決定する動作をその制御対象に行わせることが可能なものとすることができる。
ここで、制御対象の周辺環境を、単に環境とも称する。ここでいう環境は、強化学習でいうところの環境である。例えば、環境が制御対象の動作に影響し得るなど、環境は制御対象に影響を及ぼし得る。また、環境は、制御対象の動作に応じて変化し得る。例えば、制御対象がある場所から別の場所へ移動することで、環境が変化する。
環境または制御対象から取得可能な情報を状態と称する。ここでいう状態は、強化学習でいうところの状態である。状態の例として、センサによる測定値、および、制御対象の位置を挙げることができるが、これらに限定されない。
また、ここでいう動作規則は、状態に応じて制御対象の動作を決定するための規則である。
状態を動作規則に適用して求まる動作を動作プランまたは単にプランとも称する。また、動作を求める処理をプランニングと称する。プランニングを行う主体をプランナーと称する。
動作規則決定装置100は、パラメータを含む動作規則を予め記憶しており、このパラメータの値を決定することで、動作規則を決定する。したがって、動作規則決定装置100が、決定したパラメータ値に応じて、制御対象を制御するようにしてもよい。動作規則に含まれるパラメータをプランナーパラメータと称する。
動作規則決定装置100は、環境に関する情報をシミュレーションにて算出する。このシミュレーションを環境のシミュレーションまたは単にシミュレーションとも称する。
動作規則決定装置100がシミュレーションに用いるモデルは、状態以外のパラメータを含む。このパラメータを環境パラメータと称する。環境パラメータの値は、制御対象に影響を及ぼし得る。
環境パラメータの例として、静止摩擦係数、動摩擦係数、および、温度センサが設けられていない箇所の温度を挙げることができるが、これらに限定されない。制御対象が床の上を移動する場合に、静止摩擦係数、および、動摩擦係数は、たとえば、実際に制御対象が床の上を移動することよって取得することができる情報である。
環境パラメータが取り得る値の集合を環境パラメータセットと称する。環境パラメータセットは確率分布で与えられるなど、確率的に与えられる。具体的には、環境パラメータセットは、環境パラメータが取り得る値と、環境パラメータがその値を取り得る確率とを示す。環境パラメータは、1種類のパラメータであるとは限らず、複数種類のパラメータであってもよい。
環境パラメータセットは、例えば、動作規則決定装置100のユーザによって設定されるなど、予め動作規則決定装置100に与えられる。
動作規則決定装置100は、環境パラメータセットが示す確率に従って、環境パラメータセットが示す環境パラメータの値をサンプリングし、サンプリングした値をシミュレーションのモデルの環境パラメータに設定し、設定した環境パラメータに従い制御対象の動作等のシミュレーションを行う。動作規則決定装置100は、該シミュレーションによって、たとえば、動作後の制御対象の状態を取得する。
また、動作規則決定装置100は、制御対象の動作後の状態を特定し、特定した状態に応じた報酬を、程度情報を用いて決定する。動作規則決定装置100は、決定した報酬に基づき当該動作によって得られる報酬を算出する。動作規則決定装置100は、たとえば、当該程度情報を用いて、状態に関連付けされた程度を求める。
動作は、1つのタイミングにおける動作であるとは限らず、複数のタイミングにおける各動作であってもよい。また、状態に応じた報酬を決定する処理は、たとえば、状態と、その状態における報酬とが関連付けされている所与の程度情報に基づき決定する処理だけでなく、後述するように、動作規則決定装置100が決定した報酬に基づき決定する処理であってもよい。動作によって得られる報酬を算出する方法は、各タイミングにおける報酬の合計値を算出する方法だけでなく、将来のタイミングになる程小さくなる重みを報酬に乗算し、得られた値を合計する方法であってもよい。
報酬の算出方法は、例えば動作規則決定装置100のユーザによって与えられるなど、予め動作規則決定装置100に与えられていてもよい。報酬の算出方法が、数式の形式で動作規則決定装置100に与えられていてもよいが、これに限定されない。動作規則決定装置100は、状態および動作を報酬の算出方法に適用して報酬を算出する。
動作と状態と報酬との組み合わせの履歴情報を相互作用履歴情報と称する。動作規則決定装置100は、相互作用履歴情報を生成する。相互作用履歴情報は、動作規則に基づいて状態に応じて決定する動作と、シミュレーションにて動作に応じて算出する状態と、動作および状態に応じて算出する報酬とが組み合わされた履歴情報である。
動作規則に基づいて動作を決定する1回の処理と、シミュレーションにて状態を算出する1回の処理との組み合わせを1ターンと称する。すなわち、1ターンは、1つのタイミングにおける制御対象の動作と、当該動作後の制御対象の状態とを決定する処理を表している。
初期状態から所定の終了条件が成立するまでのターンの繰り返しを1エピソードと称する。すなわち、エピソードは、制御対象に対する一連の動作を表しているということもできる。
動作規則決定装置100は、相互作用履歴情報に基づいてリスク考慮型履歴情報を生成する。リスク考慮型履歴情報は、相互作用履歴情報に示されるリスクを、報酬に反映させて得られる情報である。
なお、動作規則決定装置100が、報酬に代えてペナルティを用いて強化学習を行うようにしてもよい。報酬は、たとえば、制御対象の状態が所望状態である場合(または、所望状態に近付いている場合)に、正の値によって表現されていてもよい。また、ペナルティは、制御対象の状態が所望状態でない場合(または、所望状態から遠ざかっている場合)に、負の値によって表現されていてもよい。この場合に、報酬、および、ペナルティは、それぞれ、正、および、負の値を用いて表すことができる。以降の説明では、報酬と、ペナルティとを総称して「報酬」と表現することもある。
通信部110は、他の装置と通信を行う。例えば、通信部110は、動作規則決定装置100の実運用において、状態を示す情報をセンサ等から受信する。
動作規則決定装置100の実運用とは、強化学習の終了後に、強化学習で得られた動作規則に基づいて、制御対象の動作を算出することである。動作規則決定装置100が、制御対象の動作を直接制御するようにしてもよい。あるいはプラントの運転員など制御対象を制御する担当者がいる場合、動作規則決定装置100が、算出した動作を制御の担当者に提案するようにしてもよい。または、プラントが自動制御されている場合に、動作規則決定装置100は、プラントを制御している制御装置に対して、制御対象の動作を指示してもよい。
記憶部180は、各種情報を記憶する。記憶部180は、動作規則決定装置100が備える記憶デバイスを用いて構成される。
プランナーパラメータ記憶部181は、プランナーパラメータを記憶する。
相互作用履歴記憶部182は、相互作用履歴情報を記憶する。
環境パラメータセット記憶部183は、環境パラメータセットを記憶する。
制御部190は、動作規則決定装置100の各部を制御して各種処理を実行する。制御部190の機能は、動作規則決定装置100が備えるCPU(Central Processing Unit、中央処理装置)が、記憶部180からプログラムを読み出して実行することで実行される。
プランナー部191は、プランニングを行う。すなわち、プランナー部191は、制御対象の動作を状態に応じて決定するための動作規則に状態を適用して動作を決定する。
リスク考慮型履歴生成部193は、相互作用履歴情報に基づいてリスク考慮型相互作用履歴情報を生成する。
プランナーパラメータ設定部192は、リスク考慮型履歴情報に基づいてプランナーパラメータの値を決定する。
パラメトリック環境実行部194は、上述したシミュレーションを実行する。
環境パラメータ選択部195は、環境パラメータセットから、環境パラメータセットに示される確率に従って、環境パラメータの値をサンプリングする。
パラメトリック環境実行部194は、環境実行部の例に該当する。
図2は、動作規則決定装置100におけるデータの流れの例を示す図である。
図2の例で、環境パラメータセット記憶部183は、環境パラメータセットPを記憶している。環境パラメータセットPは、環境パラメータpが取り得る値の確率分布を示す。すなわち、環境パラメータセットPは、環境パラメータpが取り得る値と、環境パラメータpがその値をとり得る確率とを示す。
環境パラメータセットPは、例えば動作規則決定装置100のユーザによって与えられるなどにより、予め環境パラメータセット記憶部183が記憶しておく。
環境パラメータ選択部195は、環境パラメータセットPから、環境パラメータセットPに示される確率に従って、環境パラメータpの値をサンプリングする。環境パラメータ選択部195は得られた値をパラメトリック環境実行部194へ出力する。
パラメトリック環境実行部194は、環境のシミュレーションを行う。パラメトリック環境実行部194は、環境パラメータ選択部195がサンプリングした環境パラメータpの値をシミュレーションモデルに適用して、制御対象の動作等についてのシミュレーションを行う。環境パラメータ選択部195は、シミュレーションにて、プランナー部191が出力する動作at,mに対する状態st,mと、これら動作at,mおよび状態st,mに基づく報酬rt,mとを算出する。mは、1つのエピソードを表す識別子である。tは、1つのタイミングを表す識別子である。また、「t,m」は、第mエピソードの第tタイミングを表す識別子である。
プランナー部191は、動作規則に基づいて状態に応じた動作を決定する。1つのエピソードの最初のターンでは、プランナー部191は、初期状態に応じた動作を決定する。ここでいう初期状態は、状態の初期値である。動作規則決定装置100のユーザが初期状態を与えるようにしてもよい。あるいは、プランナー部191が自動的に初期状態を設定するようにしてもよい。1つのエピソードの第2ターン以降では、プランナー部191は、パラメトリック環境実行部194が前のターンのシミュレーションで算出する状態に応じた動作を決定する。
プランナー部191は、1つのターンにおける動作at,mと状態st,mと報酬rt,mとの組み合わせを1エピソード分纏めた相互作用履歴情報を、エピソード毎に生成する。プランナー部191は、エピソード毎の相互作用履歴情報を相互作用履歴記憶部182に格納する。すなわち、プランナー部191は、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める。プランナー部191は、求めた状態と、求めた状態に関する程度とが組み合わされた相互作用履歴情報を生成し、生成した相互作用履歴情報を相互作用履歴記憶部182に格納する。
リスク考慮型履歴生成部193は、相互作用履歴情報に応じたリスク考慮型履歴情報を生成する。具体的には、リスク考慮型履歴生成部193は、相互作用履歴記憶部182から相互作用履歴情報を読み出し、読み出した相互作用履歴情報にリスクを反映する。
リスク考慮型履歴生成部193は、たとえば、相互作用履歴記憶部182から1つのエピソードにおける状態の望ましさの程度を読み取り、読み取った程度を累積した程度を表す累積程度を算出する。リスク考慮型履歴生成部193は、累積程度が条件を満たした場合に、その程度情報における一連の動作後における状態に関連付けされた程度を減じる。リスク考慮型履歴生成部193は、累積程度が条件を満たした場合に、一連の動作後を表す相互作用履歴情報における状態の望ましさの程度(報酬)を減じる。このような処理によって、リスク考慮型履歴生成部193は、読み出した相互作用履歴情報にリスクを反映する。
ここでいう条件は、例えば報酬(状態の望ましさの程度)の値が所定の閾値以下であることで示されていてもよいが、これに限定されない。また、リスク考慮型履歴生成部193が、リスクを含むエピソードの報酬から、たとえば、累積程度に応じた量(リスク分)を減算することで相互作用履歴情報にリスクを反映させるようにしてもよいが、これに限定されない。リスク考慮型履歴生成部193は、程度情報における、エピソードの最終状態を表す程度から、当該エピソードの累積程度に応じた量(リスク分)を減じる処理を行ってもよい。
リスク考慮型履歴生成部193は、生成したリスク考慮型履歴情報をプランナーパラメータ設定部192へ出力する。
プランナーパラメータ設定部192は、リスク考慮型履歴情報に基づいてプランナーパラメータθの値を決定する。プランナーパラメータ設定部192は、全体の報酬(例えば、全てのエピソードの全てのターンにおける報酬の合計)を最大化するなど、報酬を最大化するようにプランナーパラメータθの値を決定する。プランナーパラメータ設定部192は、たとえば、累積程度が増大するようにプランナーパラメータθを更新してもよい。
次に、図3を参照して動作規則決定装置100の動作について説明する。
図3は、動作規則決定装置100がプランを決定する処理手順の例を示すフローチャートである。
図3の処理で、環境パラメータ選択部195は、環境パラメータセット記憶部183が記憶する環境パラメータセットから確率的に環境パラメータをサンプリングする(ステップS11)。環境パラメータ選択部195は、サンプリングした環境パラメータをパラメトリック環境実行部194へ送信する。
次に、プランナー部191とパラメトリック環境実行部194とが相互作用を行い、相互作用の履歴を相互作用履歴記憶部182に蓄積する(ステップS12)。
具体的には、プランナー部191が制御対象の動作を決定し、パラメトリック環境実行部194は、環境パラメータに応じた環境での動作に対する状態を算出する。パラメトリック環境実行部194は、たとえば、パラメータ値に従い制御対象の動作をシミュレーションすることによって、動作後における制御対象の状態を算出してもよい。また、パラメトリック環境実行部194は、得られた状態に基づいて報酬を算出する。
プランナー部191は、パラメトリック環境実行部194が算出した状態に応じて、制御対象の動作を決定する。このように、プランナー部191とパラメトリック環境実行部194とは、動作の決定、状態の算出、および、報酬の算出を、所定の終了条件が成立するまで繰り返す。
プランナー部191は、動作と状態と報酬との組み合わせの履歴を相互作用履歴情報として相互作用履歴記憶部182に格納する。
次に、リスク考慮型履歴生成部193は、相互作用履歴記憶部182が記憶している相互作用履歴情報からリスクを読み取り、相互作用履歴情報にリスクを反映させる(ステップS13)。
そして、動作規則決定装置100は、所定の終了条件が成立しているかを判定する(ステップS14)。ここでの終了条件は、得られたプランを採用して強化学習を終了するか決定可能なものであればよく、特定のものに限定されない。例えば、ここでの終了条件として、パラメータが収束しているか、プランへのリスクの反映が所定の条件を満たすか、または、プランナー部191とパラメトリック環境実行部194との相互作用の実行が所定の繰り返し回数に達しているか、あるいはこれらの組み合わせを用いることができるが、これらに限定されない。
終了条件が成立していないと動作規則決定装置100が判定した場合(ステップS14:NO)、処理がステップS11へ戻る。一方、終了条件が成立していると判定した場合(ステップS14:YES)、動作規則決定装置100は、図3の処理を終了する。
以上のように、パラメトリック環境実行部194は、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める。リスク考慮型履歴生成部193は、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる。
動作規則決定装置100によれば、リスクが反映されたリスク考慮型相互作用履歴情報を用いて動作規則を決定することで、リスクを考慮した動作規則を得られる。これにより、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。
また、プランナーパラメータ設定部192は、前記制御対象の前記動作を示すパラメータ値を、前記累積程度が増大するよう更新する。
これにより、リスクを考慮した動作規則を得られる。これにより、動作規則決定装置100では、上記のように、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。
また、リスク考慮型履歴生成部193は、上記の累積程度を、複数の一連の動作それぞれについて算出し、算出した累積程度の頻度を求め、求めた頻度を用いて条件(報酬)を決定する。
プランナーパラメータ設定部192は、リスク考慮型履歴生成部193が決定した条件に基づいてプランナーパラメータの値を設定することで、リスクを考慮した動作規則を得られる。
また、プランナー部191は、プランナーパラメータ設定部192が設定したパラメータ値に応じて、制御対象を制御する。
これにより、プランナー部191は、制御対象に対してリスクを考慮した制御を行うことができる。
また、パラメトリック環境実行部194は、プランナーパラメータ設定部192がパラメータ値に基づき制御対象の動作をシミュレーションする。
これにより、パラメトリック環境実行部194は、制御対象に対するリスクを考慮した制御の結果を算出することができる。
また、リスク考慮型履歴生成部193は、程度情報における程度から、累積程度に応じた量を減じる。
これにより、リスク考慮型履歴生成部193は、リスクを反映させた相互作用履歴情報を生成することができる。プランナーパラメータ設定部192が、リスクを反映させた相互作用履歴情報を用いてプランナーパラメータの値を設定することで、リスクを考慮した動作規則を得られる。
また、リスク考慮型履歴生成部193は、制御対象の動作と、制御対象または環境について観測される状態と、環境に応じた報酬との組み合わせの履歴情報である相互作用履歴情報から検出されるリスクを、相互作用履歴情報に反映させたリスク考慮型相互作用履歴情報を生成する。プランナーパラメータ設定部192は、状態に応じて制御対象に行わせる動作を決定するための動作規則のパラメータであるプランナーパラメータの値を、リスク考慮型相互作用履歴情報に基づいて決定する。プランナー部191は、プランナーパラメータ設定部192が決定したプランナーパラメータの値が設定された動作規則を用いて制御対象の動作を決定する。プランナー部191は、プランナーパラメータの値に応じて、制御対象の動作を制御してもよい。
動作規則決定装置100によれば、リスクが反映されたリスク考慮型相互作用履歴情報を用いて動作規則のパラメータ値を設定することで、リスクを考慮した動作規則を得られる。これにより、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。
また、環境パラメータ選択部195は、環境のシミュレーションモデルに含まれるパラメータである環境パラメータの値を、その環境パラメータが取り得る値とその値の確率分布を示す環境パラメータセットから、確率分布に基づいて選択する。パラメトリック環境実行部194は、環境パラメータ選択部195が選択した環境パラメータの値が設定されたシミュレーションモデルを用いて環境のシミュレーションを行って、状態を示す情報を算出する。
動作規則決定装置100によれば、環境パラメータの値によって挙動が異なる環境におけるリスクを、動作規則に反映させることができる。
また、リスク考慮型履歴生成部193は、相互作用履歴情報が示す報酬の値が所定の値よりも小さいという条件を満たしている場合に、その相互作用履歴情報が示す報酬の値を減じてリスク考慮型相互作用履歴情報を生成する。
このように、リスク考慮型履歴生成部193が、報酬の値が所定の値より小さいことで示されるリスクを報酬に反映させることで、報酬に基づいて動作規則を学習し得る。
また、リスク考慮型履歴生成部193は、複数のエピソードについて、累積程度の頻度を求め、求めた頻度を用いて、所定の値を決定してもよい。リスク考慮型履歴生成部193は、頻度分布の分位点(たとえば、1%位、5%位、10%位)にて所定の値を決定してもよい。
<第2実施形態>
第2実施形態では、第1実施形態にかかる動作規則決定装置100の、より具体的な適用例について説明する。第1実施形態の説明は、第2実施形態にも当てはまる。特に、第2実施形態における動作規則決定装置100の構成および動作は、図1から図3を参照して説明した構成および動作と同様である。
第2実施形態では、動作規則決定装置100が、Hopperと呼ばれるロボットの制御のプランニングを行う例について説明する。この例では、動作規則決定装置100は、Hopperを転倒させずに素早く前進させるためのHopperにかける一連のトルクの数値をプランニングする。
第2実施形態では、状態として、2次元座標によって表された情報をHopperの位置情報として用いる。また、動作として、Hopperの動作を制御するトルクの数値を用いる。環境については、パラメトリック環境実行部194が、物理シミュレータによってHopperの動作のシミュレーションを行うこととする。環境パラメータとして、シミュレーションにおける地面の摩擦係数を用いる。報酬は、Hopperの前方向の進行度に応じて与えられるものとする。
図4から図8を参照して、2つのエピソードの例を示す。図4から図6が第1エピソードを示し、図7および図8が第2エピソードを示す。
第2実施形態では、図3のステップS11で、環境パラメータ選択部195が、環境パラメータセット記憶部183から環境パラメータセットとして、{Prob(Hopperと地面との摩擦係数=2.0)=0.9,Prob(Hopperと地面との摩擦係数=0.1)=0.1}との情報を取得する。Hopperと地面との摩擦係数を、単に摩擦係数とも称する。
Probは、環境パラメータが括弧内に示される値をとる確率を示す。したがって、環境パラメータ選択部195は、「摩擦係数は、0.9の確率で2.0であり、0.1の確率で0.1である」との情報を取得する。
環境パラメータ選択部195は、得られた環境パラメータセットに示される確率に応じて環境パラメータ値を選択する。
第2実施形態の例では、環境パラメータ選択部195がエピソード毎に環境パラメータ値を設定するものとする。環境パラメータ選択部195は、第1エピソードについては、「摩擦係数=2.0」を選択し、第2エピソードについては、「摩擦係数=0.1」を選択したものとする。
図3のステップS12では、プランナー部191とパラメトリック環境実行部194とが相互作用を行って、相互作用履歴記憶部182に相互作用履歴情報を蓄積する。ここでの相互作用履歴情報は、2次元座標におけるHopperの位置情報と、Hopperを動作させるトルクの数値と、報酬との組み合わせの履歴である。
第2実施形態の例では、最大ターン数が3回に設定され、プランナー部191とパラメトリック環境実行部194とが、エピソード毎に、ターン数が最大ターン数に達するか、あるいは、Hopperが転倒するまで相互作用を繰り返すものとする。
図4は、第1エピソードの第1ターンの例を示す図である。したがって、図4は、第1エピソードにおける初期状態を示している。図4から図8では、Hopper801と、目標位置802とが示されている。目標位置802は、Hopper801の進行目標の位置に配置されている。第2実施形態の例では、目標位置802は固定である。したがって、何れのエピソードの何れのターンでも、目標位置802は同じ位置に配置されている。
図5は、第1エピソードの第2ターンの例を示す図である。図5の例では、図4に示される第1ターンの場合よりも、Hopper801が目標位置802に近付いている。
図6は、第1エピソードの第3ターンの例を示す図である。図6の例では、図5に示される第2ターンの場合よりも、Hopper801が目標位置802に近付いている。第1エピソードでは、図6の例で最大ターン数の3回に達したため、プランナー部191とパラメトリック環境実行部194とは相互作用を終了する。そして、プランナー部191は、第1エピソードにおける第1ターンから第3ターンまでの、2次元座標におけるHopper801の位置情報と、Hopper801を動作させるトルクの数値と、報酬との組み合わせの履歴を、相互作用履歴情報として相互作用履歴記憶部182に格納する。
図7は、第2エピソードの第1ターンの例を示す図である。したがって、図7は、第2エピソードにおける初期状態を示している。
図8は、第2エピソードの第2ターンの例を示す図である。図8の例では、Hopper801が転倒している。このため、プランナー部191とパラメトリック環境実行部194とは相互作用を終了する。そして、プランナー部191は、第2エピソードにおける第1ターンから第2ターンまでの、2次元座標におけるHopper801の位置情報と、Hopper801の動作を制御するトルクの数値と、報酬との組み合わせの履歴を、相互作用履歴情報として相互作用履歴記憶部182に格納する。
図9は、相互作用履歴情報の例を示す図である。図9の例では、相互作用履歴情報が表形式で示されており、1つの行が1つのターンにおける相互作用の情報を示す。
図9で、mは、エピソードの識別番号を示す。tは、ターンの識別番号を示す。動作at,mは、第mエピソードの第tターンにおける、Hopper801の動作を制御するトルクの数値を示す。状態st,mは、第mエピソードの第tターンにおける、Hopper801の座標(位置情報)を示す。
報酬rt,mは、第mエピソードの第tターンにおける、報酬を示す。
第1エピソードの第1ターンおよび第2エピソードの第1ターンでは、いずれもエピソードにおける初期状態のため、報酬は0となっている。第1エピソードの第2ターンおよび第3ターンでは、いずれも、Hopper801が目標位置802に向かって進んだ進み具合に応じて報酬が与えられている。一方、第2エピソードの第2ターンでは、Hopper801が転倒したため、-10の報酬が与えられている。
図3のステップS13では、リスク考慮型履歴生成部193が、リスクを相互作用履歴情報に反映させてリスク考慮型相互作用履歴情報を生成する。
図10は、リスク考慮型相互作用履歴情報の例を示す図である。図10の例で、リスク考慮型履歴生成部193は、図9の相互作用履歴情報の状態st,mがリスク考慮型状態情報s’t,mに置き換えられ、報酬rt,mがリスク考慮型報酬r’t,mに置き換えられたリスク考慮型相互作用履歴情報を生成している。
リスク考慮型履歴生成部193は、式(1)に基づいてリスク考慮型状態情報s’t,mを生成する。
Figure 0007173317000001
ここで、「||」は、ベクトルの要素を結合する演算を示す。すなわち、状態st,mが(xt,m,yt,m)と表されるのに対し、リスク考慮型状態情報s’t,mは、(xt,m,yt,m,v,Σt=0 Tm-1-rt,m)と表される。
ただし、xt,mは、第mエピソードの第tターンにおけるHopper801の位置のx座標を示す。yt,mは、第mエピソードの第tターンにおけるHopper801の位置のy座標を示す。すなわち、ベクトル(xt,m,yt,m)は、第mエピソードの第tターンにおける、2次元座標におけるHopper801の位置情報の例に該当する。
vは、報酬に基づいてリスクを評価するための閾値を示す。Tは、第mエピソードにおけるターン数を示す。第2実施形態の例では、T=3、T=2である。
「Σt=0 Tm-1-rt,m」は、第mエピソードにおけるタイミング「0」からタイミング「Tm-1」までの間の報酬の合計値に、「-1」を掛け算した値を表す。すなわち、「Σt=0 Tm-1-rt,m」は、第mエピソードにおけるタイミング「0」からタイミング「Tm-1」までの間のペナルティの合計値であるということもできる。
リスク考慮型状態情報s’t,mのvおよびΣt=0 Tm-1-rt,mは、リスク考慮型報酬r’t,mを算出するために用いられる。ただし、これらの情報をリスク考慮型状態情報s’t,mに含めることは必須ではない。例えば、記憶部180が、リスク考慮型状態情報s’t,mとは別に閾値vを記憶しておくようにしてもよい。また、リスク考慮型履歴生成部193が、リスク考慮型報酬r’t,mを算出する際に、相互作用履歴情報に示される状態の履歴を用いるようにすれば、リスク考慮型状態情報s’t,mに「Σt=0 Tm-1-rt,m」を含める必要はない。
また、リスク考慮型履歴生成部193は、式(2)に基づいてリスク考慮型報酬r’t,mを生成する。
Figure 0007173317000002
ここで、式(2)の(1/ε)max(0,v+Σt=0 Tm-rt,m)がペナルティを表し、εは、どの程度ペナルティを重要視するかを決める係数である。説明の便宜上、εを実数の定数とする。
式(2)で、報酬rt,mに「-」が付されていることから、第mエピソードにおける報酬rt,mの合計が小さいほど、Σt=0 Tm-rt,mの値は大きくなる。Σt=0 Tm-rt,mの値が-v以下である場合、式(2)のmax関数で0が選択され、ペナルティ(1/ε)max(0,v+Σt=0 Tm-rt,m)は0になる。一方、Σt=0 Tm-rt,mの値が-vより大きい場合、式(2)のmax関数でv+Σt=0 Tm-rt,mが選ばれ、リスク考慮型履歴生成部193は、ペナルティを(1/ε)(v+Σt=0 Tm-rt,m)と算出する。リスク考慮型履歴生成部193は、このペナルティを報酬rt,mから減算した値を、リスク考慮型報酬r’t,mとして算出する。
言い換えると、第mエピソードに関する累計報酬がvよりも小さな値の場合には、第mエピソードにおける最終状態にペナルティを課す処理(すなわち、当該最終状態における報酬を、所与の報酬から減じる処理)を表しているともいうことができる。このような処理によって、複数エピソードを作成する処理において、当該最終状態が生じる可能性(または、頻度)が低い場合であっても、制御対象の状態が当該最終状態に至るような動作が選択される可能性を低くすることができるという効果を奏する。すなわち、本実施形態において、リスクは、第mエピソードに関する累積報酬がvよりも小さな値の場合であるということもできる。
式(2)により、閾値vを導入して、相互作用履歴情報からリスクを抽出することができる。具体的には、累積報酬がその閾値v未満となるエピソードをリスクとみなすことができる。リスク考慮型履歴生成部193は、プランナーパラメータ設定部192が、プランナーパラメータの値を決定する際に、そのようなエピソードの動作を選択しにくくするために、報酬にペナルティを付与する。リスク考慮型履歴生成部193は、累積報酬が、どの程度、閾値vを下回ったかに応じて、報酬にペナルティを付与する。
図3のステップS14では、プランナーパラメータ設定部192が、リスク考慮型相互作用履歴情報に基づいてプランナーパラメータの値を更新する。プランナーパラメータ設定部192が、リスク考慮型相互作用履歴情報に基づいてプランナーパラメータの値を更新する方法として、報酬に基づいて動作規則を生成する公知の方法を用いることができる。
例えば、プランナーパラメータ設定部192が、式(3)を用いて方策勾配法によってプランナーパラメータの値を更新するようにしてもよい。
Figure 0007173317000003
ここで、Mは、エピソードの個数を示す。Tは、第mエピソードにおけるターン数を示す。αは、プランナーパラメータθを更新する大きさを調整するための係数である。
π(at,m|s’t,m,θ)は、状態s’t,mおよびプランナーパラメータθのもとで動作at,mが選ばれる確率を示す。∇θlogπ(at,m|s’t,m,θ)は、θによるlogπ(at,m|s’t,m,θ)の微分を示す。∇θlogπ(at,m|s’t,m,θ)が示す傾きの方向にプランナーパラメータθの値が変化することで、状態s’t,mおよびプランナーパラメータθのもとで動作at,mが選ばれる確率が上昇する。
リスク考慮型報酬r’の値が正の場合、プランナーパラメータ設定部192は、∇θlogπ(at,m|s’t,m,θ)が示す傾きの方向にプランナーパラメータθの値を更新する。これによって、状態s’t,mおよびプランナーパラメータθのもとで動作at,mが選ばれる確率が上昇する。
一方、リスク考慮型報酬r’の値が負の場合、プランナーパラメータ設定部192は、∇θlogπ(at,m|s’t,m,θ)が示す傾きの方向と逆方向にプランナーパラメータθの値を変化させる。これによって、状態s’t,mおよびプランナーパラメータθのもとでプランナー部191が動作at,mを選ぶ確率が低下する。
プランナーパラメータ設定部192は、式(3)を用いることで、リスク考慮型報酬r’の累積値を最大化するようにプランナーパラメータθの値を更新する。上記のように、リスク考慮型履歴生成部193が、リスクを含むエピソードの報酬からペナルティを減算することで、リスクを含むエピソードの動作が選ばれる確率が低下する。
<第3実施形態>
第3実施形態では、第1実施形態にかかる動作規則決定装置100の、より具体的なもう1つの適用例について説明する。第1実施形態の説明は、第3実施形態にも当てはまる。特に、第3実施形態における動作規則決定装置100の構成および動作は、図1から図3を参照して説明した構成および動作と同様である。
第3実施形態では、動作規則決定装置100をプラントの制御に用いる場合の例について説明する。ただし、動作規則決定装置100は、プラントに限らず強化学習を適用可能ないろいろな制御対象に適用可能である。
第3実施形態の例では、パラメトリック環境実行部194は、制御対象のプラントのシミュレータを含んで構成される。第3実施形態の例における環境は、このシミュレータによって提供される。
パラメトリック環境実行部194が備えるシミュレータのモデルは、環境パラメータとして、プラント周辺の外気温をパラメータに含む。第3実施形態では、環境パラメータセットとして、想定され得るプラント周辺の外気温を用いる。環境パラメータ選択部195は、例えば、その外気温を切断正規分布からサンプリングする。
プランナー部191とパラメトリック環境実行部194との組み合わせにて相互作用履歴情報を生成し、相互作用履歴記憶部182に格納する。プランナー部191は、状態に応じて動作を決定する。パラメトリック環境実行部194は、環境パラメータ選択部195が環境パラメータセットから選択した外気温をシミュレータのパラメータに設定し、設定したパラメータに従いプラントのシミュレーションを実行する。パラメトリック環境実行部194は、シミュレーションによって、動作後の制御対象の状態を算出する。また、プランナー部191は、状態および動作に基づいて報酬を算出する。
第3実施形態の例では、パラメトリック環境実行部194は、状態として、例えば圧力センサおよび流量センサなどプラントに設置されたセンサの値のシミュレーション値を算出する。
また、プランナー部191は、例えば所定の流量調節弁の開度指令値など、プラントに対する制御指令値を動作として算出する。プランナー部191が、プラントに対する制御指令値をPID(Proportional Integral Differential)制御値で算出するようにしてもよいが、これに限定されない。
また、プランナー部191は、例えば、エチレンの量またはガソリンの量など、パラメトリック環境実行部194によるプラントのシミュレーションで算出される成果物の量に応じて報酬を算出する。
図11は、第3実施形態にかかる動作規則決定装置100におけるデータの流れを示す図である。図11では、環境パラメータ選択部195が選択した環境パラメータの値として、28℃および10℃が示されている点、および、パラメトリック環境実行部194が、プラントシミュレータを含んで構成されていることが明示されている点で図2の場合と異なる。それ以外の点では、図11は図2と同様である。
パラメトリック環境実行部194は、環境パラメータ選択部195が選択した外気温=28℃、10℃のそれぞれについてエピソードを実行する。
このように、動作規則決定装置100は、想定され得る外気温の設定においてリスクを考慮した動作規則を決定することで、外気温のリスクを考慮した制御指令値を算出することができる。
これにより、実際のプラントに外気温のセンサが設けられておらず外気温を測定できない状況に、動作規則決定装置100は、外気温の不確定性に起因するリスクを考慮したプラントの制御プランを、プラントの運転者に提示できる。
あるいは、動作規則決定装置100が、外気温に加えて、あるいは代えて、想定し得る設備の故障を環境パラメータとして動作規則を決定するようにしてもよい。これにより、動作規則決定装置100は、設備の故障が生じた場合の不利益が比較的小さくて済むようなプラント制御を、プラントの運転者に提示できる。
あるいは、動作規則決定装置100が、想定し得る自然災害を環境パラメータとして動作規則を決定するようにしてもよい。これにより、動作規則決定装置100は、自然災害が生じた場合の不利益が比較的小さくて済むようなプラント制御を、プラントの運転者に提示できる。
<第4実施形態>
図12は、第4実施形態に係る動作規則決定装置の構成の例を示す図である。図12に示す構成で、動作規則決定装置500は、環境実行部501と、リスク考慮型履歴生成部502とを備える。
かかる構成で、環境実行部501は、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める。リスク考慮型履歴生成部502は、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる。
動作規則決定装置500によれば、リスクが反映されたリスク考慮型相互作用履歴情報を用いて動作規則を決定することで、リスクを考慮した動作規則を得られる。これにより、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。
<第5実施形態>
図13は、第5実施形態に係る動作規則決定方法における処理の手順の例を示す図である。図13に示す動作規則決定方法は、ステップS51からステップS52の工程を含む。ステップS51では、コンピュータが、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める。ステップS52では、コンピュータが、求められた程度を一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、程度情報における一連の動作後の状態に関連付けされた程度を減じる。ステップS53では、パラメータ設定部が決定したプランナーパラメータの値が設定された動作規則を用いて制御対象に行わせる動作を決定する。
この動作規則決定方法によれば、リスクが反映されたリスク考慮型相互作用履歴情報を用いて動作規則を決定することで、リスクを考慮した動作規則を得られる。これにより、状態に応じた動作を決定するプランナーが、リスクを考慮した動作を決定することができる。
図14は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
図14に示す構成で、コンピュータ700は、CPU710と、主記憶装置720と、補助記憶装置730と、インタフェース740とを備える。
上記の動作規則決定装置100、または、動作規則決定装置500のうち何れか1つ以上が、コンピュータ700に実装されてもよい。その場合、上述した各処理部の動作は、プログラムの形式で補助記憶装置730に記憶されている。CPU710は、プログラムを補助記憶装置730から読み出して主記憶装置720に展開し、当該プログラムに従って上記処理を実行する。また、CPU710は、プログラムに従って、上述した各記憶部に対応する記憶領域を主記憶装置720に確保する。各装置と他の装置との通信は、インタフェース740が通信機能を有し、CPU710の制御に従って通信を行うことで実行される。
動作規則決定装置100がコンピュータ700に実装される場合、制御部190およびその各部の動作は、プログラムの形式で補助記憶装置730に記憶されている。CPU710は、プログラムを補助記憶装置730から読み出して主記憶装置720に展開し、当該プログラムに従って上記処理を実行する。
また、CPU710は、プログラムに従って、記憶部180に対応する記憶領域を主記憶装置720に確保する。通信部110が行う通信は、インタフェース740が通信機能を有し、CPU710の制御に従って通信を行うことで実行される。
動作規則決定装置500がコンピュータ700に実装される場合、環境実行部501と、リスク考慮型履歴生成部502との各部の動作は、プログラムの形式で補助記憶装置730に記憶されている。CPU710は、プログラムを補助記憶装置730から読み出して主記憶装置720に展開し、当該プログラムに従って上記処理を実行する。
なお、動作規則決定装置100、または、動作規則決定装置500の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。ここでいう「コンピュータシステム」とは、OS(オペレーティングシステム)や周辺機器等のハードウェアを含む。
「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
本発明の実施形態は、動作規則決定装置、動作規則決定方法および記録媒体に適用してもよい。
100、500 動作規則決定装置
110 通信部
180 記憶部
181 プランナーパラメータ記憶部
182 相互作用履歴記憶部
183 環境パラメータセット記憶部
190 制御部
191 プランナー部
192 プランナーパラメータ設定部
193、502 リスク考慮型履歴生成部
194 パラメトリック環境実行部
195 環境パラメータ選択部
501 環境実行部

Claims (8)

  1. 制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める環境実行部と、
    求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じるリスク考慮型履歴生成部と
    を備える動作規則決定装置。
  2. 前記制御対象の前記動作を示すパラメータ値を、前記累積程度が増大するよう更新するプランナーパラメータ設定部
    をさらに備える請求項1に記載の動作規則決定装置。
  3. 前記リスク考慮型履歴生成部は、前記累積程度を、複数の前記一連の動作について算出し、算出した前記累積程度の頻度を求め、求めた頻度を用いて前記条件を決定する、
    請求項1または請求項2に記載の動作規則決定装置。
  4. 前記パラメータ値に応じて前記制御対象を制御するプランナー部
    をさらに備える請求項2に記載の動作規則決定装置。
  5. 前記環境実行部は、前記パラメータ値に基づき前記制御対象の動作をシミュレーションする、
    請求項2に記載の動作規則決定装置。
  6. 前記リスク考慮型履歴生成部は、前記程度情報における前記程度から、前記累積程度に応じた量を減じる、
    請求項1から5の何れか一項に記載の動作規則決定装置。
  7. コンピュータが、制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める工程と、
    前記コンピュータが、求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる工程と
    を含む動作規則決定方法。
  8. コンピュータに、
    制御対象の状態と、その状態の望ましさの程度とが関連付けされた程度情報を用いて、前記制御対象に対する一連の動作について、各動作後の状態と、その状態に関連付けされた程度とを求める工程と、
    求められた程度を前記一連の動作について累積した累積程度を算出し、累積程度が条件を満たしている場合に、前記程度情報における一連の動作後の状態に関連付けされた前記程度を減じる工程と
    を実行させるためのプログラム。
JP2021519989A 2019-05-22 2019-05-22 動作規則決定装置、動作規則決定方法およびプログラム Active JP7173317B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/020324 WO2020235061A1 (ja) 2019-05-22 2019-05-22 動作規則決定装置、動作規則決定方法および記録媒体

Publications (3)

Publication Number Publication Date
JPWO2020235061A1 JPWO2020235061A1 (ja) 2020-11-26
JPWO2020235061A5 JPWO2020235061A5 (ja) 2022-01-14
JP7173317B2 true JP7173317B2 (ja) 2022-11-16

Family

ID=73458170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021519989A Active JP7173317B2 (ja) 2019-05-22 2019-05-22 動作規則決定装置、動作規則決定方法およびプログラム

Country Status (3)

Country Link
US (1) US20220197230A1 (ja)
JP (1) JP7173317B2 (ja)
WO (1) WO2020235061A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645498B2 (en) * 2019-09-25 2023-05-09 International Business Machines Corporation Semi-supervised reinforcement learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013225192A (ja) 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 報酬関数推定装置、報酬関数推定方法、およびプログラム
WO2018181020A1 (ja) 2017-03-29 2018-10-04 三菱重工業株式会社 予兆検知システム及び予兆検知方法
JP2018165693A (ja) 2017-03-28 2018-10-25 パナソニックIpマネジメント株式会社 運転支援方法およびそれを利用した運転支援装置、自動運転制御装置、車両、プログラム、提示システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5572339B2 (ja) * 2009-07-03 2014-08-13 富士重工業株式会社 オンラインリスク認識システム
JP5750657B2 (ja) * 2011-03-30 2015-07-22 株式会社国際電気通信基礎技術研究所 強化学習装置、制御装置、および強化学習方法
CN106101379B (zh) * 2016-05-26 2019-08-06 Oppo广东移动通信有限公司 一种移动终端的防沉迷方法、装置及移动终端
JP6453922B2 (ja) * 2017-02-06 2019-01-16 ファナック株式会社 ワークの取り出し動作を改善するワーク取り出し装置およびワーク取り出し方法
KR20180096113A (ko) * 2017-02-20 2018-08-29 엘지전자 주식회사 설비 기기 제어 시스템
JP6895334B2 (ja) * 2017-07-11 2021-06-30 株式会社東芝 運用ルール抽出装置、運用ルール抽出システムおよび運用ルール抽出方法
JP6939162B2 (ja) * 2017-07-13 2021-09-22 横河電機株式会社 プラント制御支援装置、プラント制御支援方法、プラント制御支援プログラム及び記録媒体
JP7379833B2 (ja) * 2019-03-04 2023-11-15 富士通株式会社 強化学習方法、強化学習プログラム、および強化学習システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013225192A (ja) 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 報酬関数推定装置、報酬関数推定方法、およびプログラム
JP2018165693A (ja) 2017-03-28 2018-10-25 パナソニックIpマネジメント株式会社 運転支援方法およびそれを利用した運転支援装置、自動運転制御装置、車両、プログラム、提示システム
WO2018181020A1 (ja) 2017-03-29 2018-10-04 三菱重工業株式会社 予兆検知システム及び予兆検知方法

Also Published As

Publication number Publication date
JPWO2020235061A1 (ja) 2020-11-26
WO2020235061A1 (ja) 2020-11-26
US20220197230A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
Phan et al. Neural simplex architecture
US20220040852A1 (en) Method for controlling a robot device and robot device controller
JP6840363B2 (ja) ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム
JP2021501433A (ja) ターゲットシステム用制御システムの生成
JP6457382B2 (ja) キャッシュロックを学習する機械学習器,産業機械システム,製造システム,機械学習方法および機械学習プログラム
CN112135717A (zh) 基于像素的模型预测控制的系统和方法
JP7398373B2 (ja) 制御装置、システム、制御方法、及びプログラム
US11790042B1 (en) Mitigating reality gap through modification of simulated state data of robotic simulator
JP7173317B2 (ja) 動作規則決定装置、動作規則決定方法およびプログラム
JP6940831B2 (ja) 決定装置、決定方法、及び、決定プログラム
CN116324818A (zh) 使用增强时间差异学习训练强化学习智能体
JP2008512750A (ja) 規則に基づいた逐次アプローチを利用した人間の姿勢を予測するためのシステムおよび方法
Gutzeit et al. The besman learning platform for automated robot skill learning
JP7180696B2 (ja) 制御装置、制御方法およびプログラム
CN111984000A (zh) 用于自动影响执行器的方法和设备
Abdi et al. Muscle excitation estimation in biomechanical simulation using NAF reinforcement learning
JPWO2019142728A1 (ja) 制御装置、制御方法およびプログラム
WO2023026342A1 (ja) 動作規則決定装置、動作規則決定方法および記録媒体
JP2022100227A (ja) リスク尺度を示すパラメータに基づいて訓練されたモデルを使用して、与えられた状況に対するデバイスの行動を決定する方法およびシステム
WO2021140698A1 (ja) 情報処理装置、方法及びプログラム
CN110147891B (zh) 应用于强化学习训练过程的方法、装置及电子设备
GB2601110A (en) Latency mitigation system and method
Schmidt-Rohr et al. Bridging the gap of abstraction for probabilistic decision making on a multi-modal service robot
WO2023248426A1 (ja) 学習装置、表示装置、学習方法、表示方法および記録媒体
CN112292239A (zh) 用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法和设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211008

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221017

R151 Written notification of patent or utility model registration

Ref document number: 7173317

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151