JP7365967B2 - 行動選択システム及び行動選択方法 - Google Patents

行動選択システム及び行動選択方法 Download PDF

Info

Publication number
JP7365967B2
JP7365967B2 JP2020092616A JP2020092616A JP7365967B2 JP 7365967 B2 JP7365967 B2 JP 7365967B2 JP 2020092616 A JP2020092616 A JP 2020092616A JP 2020092616 A JP2020092616 A JP 2020092616A JP 7365967 B2 JP7365967 B2 JP 7365967B2
Authority
JP
Japan
Prior art keywords
action
state
transition
target system
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020092616A
Other languages
English (en)
Other versions
JP2021189621A (ja
Inventor
隆司 中尾
剛史 山田
亮二 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Industry and Control Solutions Co Ltd
Original Assignee
Hitachi Industry and Control Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Industry and Control Solutions Co Ltd filed Critical Hitachi Industry and Control Solutions Co Ltd
Priority to JP2020092616A priority Critical patent/JP7365967B2/ja
Publication of JP2021189621A publication Critical patent/JP2021189621A/ja
Application granted granted Critical
Publication of JP7365967B2 publication Critical patent/JP7365967B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、行動選択システム及び行動選択方法に関する。
特許文献1~2には、生産ラインやプラントの生産制御の自動化に関する技術が開示されている。また、特許文献3には、ロボットの行動制御の自動行動獲得に関する技術が開示されている。
例えば、特許文献1では、プラントのシミュレータを用いてプラントの運転状態を示すパラメータの最適値を強化学習により求めるが、プラントをセグメント分けすることで従来と比較してより短時間で学習を収束させ易くしている。
また、特許文献2では、プラントのシミュレータを用いてプラントの制御パラメータの最適化を強化学習により求めるが、学習に時間がかかると推定される場合には、学習の探索範囲を絞ることで高速化している。
また、特許文献3では、強化学習アルゴリズムを、未学習、初期化、及び学習のそれぞれの処理に分類することで、特に、学習初期の段階における学習効率を向上させている。
このようにして、従来技術では、生産ラインやプラントの生産制御の自動化、ロボットの行動制御の自動行動獲得などを高速に行っている。
特開2019-20885号公報 特許第6650786号公報 特開2006-309519号公報
しかしながら上述の従来技術は、強化学習を用いるために生産ラインやプラント、ロボットなどの対象システムの挙動を模擬できるシミュレータが必要であり、シミュレータが無い場合は適用できない。また、複雑な生産ラインやプラントのシミュレータを構築するには多大な労力を要する。さらに、従来技術は、強化学習の試行錯誤過程の効率を向上させているものの、それでもなお試行錯誤過程が必要という課題がある。
本発明は、上述の従来技術に鑑みてなされたものであり、生産ラインやプラント、ロボットなどの対象システムの生産制御の自動化、行動制御の自動行動獲得などにおいて、対象システムのシミュレータが無い場合でも適用可能とし、かつ、試行錯誤過程を不要とし、対象システムの制御や行動の規則を自動的に獲得できるようにすることを目的とする。
上記課題を解決するために、本発明の行動選択システムは、対象システムの遷移元状態と、前記対象システムの行動と、該行動により該遷移元状態から遷移した前記対象システムの遷移後状態と、を対応付けた時系列の実績データを前記対象システムから収集するデータ収集部と、前記対象システムの現在の状態を遷移元状態とし、前記実績データから、該現在の状態と、該現在の状態において前記対象システムが取るべき推奨行動と、該推奨行動により前記対象システムが該現在の状態から遷移すると予測される遷移後状態と、を対応付けた行動則を生成する事前行動選択情報生成部とを有することを特徴とする。
本発明によれば、生産ラインやプラント、ロボットなどの対象システムの生産制御の自動化、行動制御の自動行動獲得などにおいて、対象システムのシミュレータが無い場合でも適用可能とし、かつ、試行錯誤過程を不要とし、対象システムの制御や行動の規則を自動的に獲得できる。
実施形態に係る行動選択システムの構成を示すブロック図である。 データ収集部のデータ収集処理を示すフローチャートである。 データ収集部により収集されデータベースに格納されるデータの例を示す図である。 事前行動選択情報生成部の事前行動選択情報生成処理を示すフローチャートである。 事前行動頻度情報生成処理の詳細を示すフローチャートである。 事前行動頻度情報生成処理により作成される事前行動頻度情報の例を示す図である。 事前遷移確率生成処理の詳細を示すフローチャートである。 事前遷移確率生成処理により作成される事前遷移確率情報の例を示す図である。 事前行動則生成処理の詳細を示すフローチャートである。 ネットワーク情報作成処理により作成される事前遷移確率をネットワーク表現したネットワーク情報の例を示す図である。 状態価値探索適用処理の詳細を示すフローチャートである。 対象状態からの状態価値探索適用処理の詳細を示すフローチャートである。 実施形態で説明する迷路の例を示す図である。 実施形態で説明する迷路に状態価値探索適用した結果の例を示す図である。 行動則情報作成処理の詳細を示すフローチャートである。 実施形態で説明する行動則作成の際に作成する初期リストの例を示す図である。 実施形態で説明する獲得した行動則の例を示す図である。 実施形態で説明する迷路の最適ルートの例を示す図である。 事前表示情報生成処理の詳細を示すフローチャートである。 事前表示情報生成処理で生成される状態遷移確率の表示データの表示画面例を示す図である。 事前表示情報生成処理で生成されるネットワーク情報の表示データの表示画面例を示す図である。 事前表示情報生成処理で生成される行動則の表示データの表示画面例を示す図である。 運用時行動選択情報生成指示部の運用時行動選択情報生成指示処理を示すフローチャートである。 運用時状態取得処理の詳細を示すフローチャートである。 運用時行動選択処理の詳細を示すフローチャートである。 運用時表示情報生成処理の詳細を示すフローチャートである。 運用時行動指示処理の詳細を示すフローチャートである。 運用時表示情報生成処理で生成される表示データの表示画面例を示す図である。
以下、本発明の好適な実施形態を説明する。以下において、同一又は類似の要素及び処理に同一の符号を付して差分を説明し、重複説明を省略する。また、後出の実施形態では、既出の実施形態との差分を説明し、重複説明を省略する。
また、以下の説明及び各図で示す構成及び処理は、本発明の理解及び実施に必要な程度で実施形態の概要を例示するものであり、本発明に係る実施の態様を限定することを意図する趣旨ではない。また、各実施形態及び各変形例は、本発明の趣旨を逸脱せず、整合する範囲内で、一部又は全部を組合せることができる。
また、以下の説明では、情報をテーブル形式で示すが、他の形式であってもよい。
以下に説明する実施形態では、対象システムは、生産ラインやプラント、ロボットなどを例として示すが、これに限らず、遷移元状態、遷移後状態、及び、遷移元状態から遷移後状態へ状態遷移を行う際の「行動」を対応付けた実績データが取得可能なシステム、設備、装置、機器などに広く適用できる。なお、本明細書では、「行動」とは、システム、設備、装置、機器などの行動主体の動作や制御、行動を含んだ概念とする。
図1は、実施形態に係る行動選択システムSの構成を示すブロック図である。図1において、対象システム1は、制御の対象となる生産ラインやプラント、ロボットなどであり、自装置の状態遷移を含む稼働の実績データD3(図3)を生成する。
行動選択システムSは、CPUなどのプロセッサ、主記憶装置(メモリ)、補助記憶装置、及び通信インターフェースを有する1以上のコンピュータで構成される。行動選択システムSの各機能構成は、主記憶装置と協働してプログラムを実行するプロセッサを含むハードウェアの協働により実現される。行動選択システムSは、制御部2及び行動選択部3を有する。
制御部2は、行動選択部3の動作を制御する。データ収集部6は、対象システム1が生成するデータを収集しデータベース7に格納する。
事前行動選択情報生成部5は、事前行動頻度情報生成部10、事前遷移確率生成部11、事前行動則生成部12、及び事前表示情報生成部13を有する。
事前行動頻度情報生成部10は、データベース7に蓄積された実績データD3を用いて、対象システム1の事前行動頻度情報D6を生成する。事前遷移確率生成部11は、事前行動頻度情報D6から事前遷移確率情報D8を生成する。事前行動則生成部12は、事前遷移確率情報D8から行動則D16Bを生成する。事前表示情報生成部13は、事前行動頻度情報D6、事前遷移確率情報D8、及び行動則D16Bを表示するための事前表示情報を生成する。
表示指示部4は、ディスプレイなどの表示装置、及び、キーボードや、マウス、タッチパネルなどの入力装置を含む。表示指示部4は、事前表示情報に基づいて各種情報を表示装置に表示し、利用者による表示に基づく入力を、入力装置を介して受け付ける。
運用時行動選択情報生成指示部8は、運用時状態取得部20、運用時行動選択部21、運用時表示情報生成部22、及び運用時行動指示部23を有する。
運用時状態取得部20は、データベース7に蓄積されたデータを用いて、対象システム1の現在の状態を取得する。運用時行動選択部21は、対象システム1の現在の状態と事前行動則生成部12により生成された行動則16Bから、対象システム1の運用時の行動を選択する。運用時表示情報生成部22は、運用時の表示情報を生成する。運用時行動指示部23は、運用時行動選択部21により決定した対象システム1の運用時の行動、あるいは表示指示部4で利用者が選択した行動を対象システム1に指示する。表示指示部4は、運用時の表示情報を表示する。
図2は、データ収集部6のデータ収集処理を示すフローチャートである。データ収集部6は、制御部2の指示によりデータ収集処理を開始し(S101)、対象システム1からデータを収集するデータ収集処理(S102)を行い、データベース7にデータを格納する(S103)。
続いてデータ収集部6は、データ収集処理が終了かの判定を行い(S104)、処理継続ならば(S104NO)、S102に処理を戻し、処理終了ならば(S104YES)、データ収集処理を終了する(S105)。
図3は、データ収集部6により収集されデータベース7に格納される実績データD3の例を示す図である。実績データD3は、データを収集した「年月日時刻」、「遷移元状態」、「遷移後状態」、「遷移前から遷移後の状態に遷移した場合の「行動」のデータ項目を含む。実績データD3は、対象システム1の状態遷移前後と行動の実際のデータとして、例えば図3に示すように、テーブルのレコード毎に格納される。
(事前行動選択情報生成部5の事前行動選択情報生成処理)
図4は、事前行動選択情報生成部5の事前行動選択情報生成処理を示すフローチャートである。事前行動選択情報生成部5は、制御部2の指示により事前行動選択情報生成処理を開始し(S201)、事前行動頻度情報生成部10が事前行動頻度情報生成処理を行い(S202)、事前遷移確率生成部11が事前遷移確率生成処理を行い(S203)、事前行動則生成部12が事前行動則生成処理を行い(S204)、事前表示情報生成部13が事前表示情報生成処理を行い(S205)、事前行動選択情報生成処理を終了する(S206)。
図5は、事前行動頻度情報生成処理S202(図4)の詳細を示すフローチャートである。事前行動頻度情報生成部10は、事前行動頻度情報生成処理を開始し(S301)、実績データD3(図3)の入力の処理を行い(S302)、全ての実績データ(遷移元状態、遷移後状態、行動)の頻度をゼロに初期化する(S303)。
続いて事前行動頻度情報生成部10は、(遷移元状態、遷移後状態、行動)の全てが同一の実績データD3のレコードの発生頻度をそれぞれ加算し(S304)、S302で入力された全ての実績データD3に対して処理が終了か否かを判定する(S305)。事前行動頻度情報生成部10は、全ての実績データD3に対して処理が終了していなければ(S305NO)、S304に処理を戻し、全ての実績データD3に対して処理が終了していれば(S305YES)、事前行動頻度情報生成処理を終了する(S306)。
図6は、事前行動頻度情報生成処理S202により作成される事前行動頻度情報D6の例を示す図である。事前行動頻度情報D6は、実績データD3(図3)の各レコードを、(遷移元状態、遷移後状態、行動)の3つのデータ項目が一致するレコード数を頻度としてカウントした情報である。
図7は、事前遷移確率生成処理S203の詳細を示すフローチャートである。事前遷移確率生成部11は、事前遷移確率生成処理を開始し(S401)、事前行動頻度情報生成処理S202で生成された事前行動頻度情報D6の入力処理を行う(S402)。
続いて事前遷移確率生成部11は、事前行動頻度情報D6のなかで(遷移元状態、遷移後状態)の遷移元状態から各遷移後状態への遷移確率を算出し事前遷移確率情報D8(図8)に格納する(S403)。事前遷移確率生成部11は、全ての遷移後状態の遷移確率を算出し事前遷移確率情報D8に格納したか否かを判定する(S404)。事前遷移確率生成部11は、全ての遷移後状態の遷移確率を算出し事前遷移確率情報D8に格納していなければ(S404No)、S403に処理を戻し、全ての遷移確率を算出し事前遷移確率情報D8に格納していれば事前遷移確率生成処理を終了する(S405)。
図8は、事前遷移確率生成処理S203により作成される事前遷移確率情報D8の例を示す図である。例えば、事前行動頻度情報D6において、遷移元状態s1のレコードは、No.1の(遷移元状態:s1、行動:a1、遷移後状態:s2、頻度:8)と、No.2の(遷移元状態:s1、行動:a2、遷移後状態:s3、頻度:12)である。よって、遷移元状態:s1の全レコード数20(8+12)に対して、遷移後状態:s2への遷移確率は8/20=0.4、遷移後状態:s3への遷移確率は12/20=0.6である。同様にして、全ての遷移確率を算出する。
図9は、事前行動則生成処理S204の詳細を示すフローチャートである。事前行動則生成部12は、事前行動則生成処理を開始し(S501)、事前遷移確率情報D8の入力処理を行い(S502)、事前遷移確率情報D8をもとにネットワーク情報D10(図10)の作成処理を行う(S503)。続いて事前行動則生成部12は、状態価値探索適用処理を行い(S504)、行動則情報作成処理を行い(S505)、事前行動則生成処理を終了する(S506)。
図10は、ネットワーク情報作成処理S503により作成される事前遷移確率情報D8をネットワーク表現したネットワーク情報D10の例を示す図である。図10では、丸は状態、矢印は状態の遷移方向を示しており、各矢印の近傍に行動と遷移確率を示している。例えば図10の例は、s1が遷移元状態の場合、行動a1によって遷移確率0.4で遷移後状態s2へ状態遷移し、行動a2によって遷移確率0.6で遷移後状態s3へ状態遷移することを示す。
図11は、状態価値探索適用処理S504の詳細を示すフローチャートである。事前行動則生成部12は、状態価値探索適用処理を開始し(S601)、ネットワーク情報D10の入力処理を行い(S602)、初期設定処理を行う(S603)。
続いて事前行動則生成部12は、状態価値変化フラグをなしに設定し(S604)、目的状態登録キューにネットワーク情報D10の各状態を登録する目的状態登録処理を行い(S605)、目的状態登録キューから先頭を対象状態として取り出す(S606)。
続いて事前行動則生成部12は、対象状態があるか否かを判定し(S607)、対象状態があれば(S607YES)、対象状態を探索済かつ他の状態を未探索に設定し(S608)、対象状態からの状態価値探索適用処理を行い(S609)、S606に処理を戻す。事前行動則生成部12は、対象状態がなければ(S607NO)、状態価値変化フラグ=ありか否かを判定し(S610)、状態価値変化フラグ=ありの場合(S610YES)にはS604に処理を戻す。事前行動則生成部12は、状態価値変化フラグ=ありでない場合(S610NO)には状態価値探索適用処理を終了する(S611)。
図12は、対象状態からの状態価値探索適用処理S609の詳細を示すフローチャートである。事前行動則生成部12は、対象状態からの状態価値探索適用処理を開始し(S701)、S606(図11)で目的状態登録キューから取り出した対象状態につながり、状態価値が未探索の状態を対象状態キューに登録する(S702)。
続いて事前行動則生成部12は、対象状態キューに登録している状態があるか否かを判定し(S703)、状態がある場合(S703YES)には対象状態キューの先頭を対象状態として取り出す(S704)。続いて事前行動則生成部12は、S704で取り出した対象状態の状態価値算出処理を行い(S705)、対象状態の状態価値は未探索あるいは前回より大きいか否かの判定を行う(S706)。
事前行動則生成部12は、対象状態の状態価値は未探索あるいは前回算出の状態価値より大きい(S706YES)場合には状態変化フラグ=あり、かつ、対象状態=探索済に設定し(S707)、対象状態の状態価値を更新する(S708)。S708に続き事前行動則生成部12は、対象状態がスタート状態か否かの判定を行い(S709)、対象状態はスタート状態の場合(S709YES)にはS703に処理を戻す。
事前行動則生成部12は、対象状態の状態価値は探索済かつ前回算出の状態価値より小さい(S706NO)場合にはS709に処理を移す。
事前行動則生成部12は、対象状態はスタート状態でない場合(S709NO)にはS702に処理を戻す。そして事前行動則生成部12は、S703でキューに登録状態がなければ対象状態からの状態価値探索適用処理を終了する(S710)。
なお、S707では対象状態の状態価値=探索済で前回算出の状態価値と今回算出の状態価値の差が予め定められた値より小さい場合、かつ、現在の状態価値変化フラグ=なしの場合には、状態価値変化フラグ=なしのままとしてもよい。
図11、図12、図13、図14を用いて、図13の迷路の例とした作用を説明する。図13は、実施形態で説明する迷路の例を示す図である。図13にはL=1~4、C=1~4で示される太枠で囲まれた16個のセルがあり、灰色のセルは通ることができないセルを示している。各セルは3×3の小区画で表現し、中央の小区画の上段には状態名としてs1~s12を記載し、s1はスタート状態、s9は目的状態に設定し、下段には状態価値の初期値を示している。小区画の上下左右には事前遷移確率生成処理(S203)で求めた遷移確率を示している。状態価値算出処理(S705)で行う状態価値算出方法の例として、強化学習における公知の価値反復法の式を以下の(1)式に示す。
Figure 0007365967000001
(1)式において、V(s)は状態sにおける状態価値、maxは以降の式の値が最大となる行動aを選択した時の最大値、P(s´|s,a)は状態sで行動aを行い状態s´となる条件付き確率、r(s,a,s´)は状態sから行動aにより状態s´になる場合の報酬、γは割引率と呼ばれる1未満の正定数、V(s´)は状態s´の状態価値である。
ネットワーク情報入力処理(S602)では、図10に例として示したネットワーク情報D10を入力し、図13に示す各セルの連結形態の作成と遷移確率を設定する。初期設定処理(S603)では、予め設定されたスタート状態と目的状態を設定し、r(s,a,s´)は全ての場合における移動コストとして-0.001を設定し、割引率として0.9を設定する。
図13ではs1がスタート状態、s9が目的状態に設定され、目的状態の状態価値を1.0、その他の状態価値を0に設定する。S604では、状態価値変化フラグ=なしに設定し、目的状態登録処理(S605)ではs9を目的状態として目的状態登録キューに登録する。目的状態登録キューから先頭を対象状態として取り出す処理で(S606)、s9を目的状態として取り出す。
対象状態があるか否かの判定(S607)ではs9があるため、対象状態s9を探索済かつ他の状態を未探索に設定し(S608)、対象状態からの状態価値探索適用処理(S609)を行う。S609の詳細処理である図12に示す処理において、対象状態s9につながり、状態価値が未探索の状態はs8であるため、s8を対象状態キューに登録する(S702)。対象状態キューに登録状態があるか否かを判定し(S703)、s8があるため、対象状態キューの先頭のs8を対象状態として取り出し(S704)、状態価値算出処理(S705)を行う。S705では例えば上記(1)式を用いる。
s8からの行動aの選択肢は上下左右あるが、上方向での状態価値の計算値は、0.3×(-0.001+0.9×0)=-0.0003となる。同様の計算により下方向は-0.0003、左方向は0、右方向は0.3596となり、小数点2位までの表記とすると最大値は0.36と求まる。対象状態の状態価値は未探索あるいは前回より大きいか否かを判定し(S706)、未探索で前回の値0より大きいため、状態価値変化フラグ=ありに設定し、s8を探索済に設定し(S707)、s8の状態価値を0.36に更新し(S708)、対象状態はスタート状態か否かを判定し(S709)、s8はスタート状態ではないためS702に戻る。
次にs8につながり状態価値が未探索の状態はs6とs12であるため、s6とs12を対象状態キューに登録し(S702)、対象状態キューに登録状態があるか否かを判定し(S703)、登録状態があるので対象状態キューの先頭のs6を対象状態として取り出し(S704)、状態価値算出処理(S705)を行う。s6での上方向での状態価値の計算値は、0.4×(-0.001+0.9×0)=-0.0004、下方向は、0.6×(-0.001+0.9×0.3596)=0.1936となり、小数点2位までの表記とすると0.19と求まる。同様に左方向は0、右方向は0となり、最大値は0.19となる。以降、図14(実施形態で説明する迷路に状態価値探索適用した結果の例を示す図)に示すように、同様の処理を繰り返すことでs9に連続的につながる全てのセルの状態価値を求めることができる。
次に図15、図16A、図16B、図17を用いて、行動則情報作成処理S505の動作と作用を説明する。図15は、行動則情報作成処理S505の詳細を示すフローチャートである。
事前行動則生成部12は、初期リストD16Aを作成し(S802)、N=状態の総数、変数i=0と初期化し(S803)、iに1を加算し(S804)、i≦Nであるか否かを判定する(S805)。
事前行動則生成部12は、i≦Nの場合(S805YES)の場合にはS806に処理を移し、i>Nの場合(S805NO)の場合にはS808に処理を移して行動則情報作成処理を終了する。
S806では、事前行動則生成部12は、i番目の遷移元状態が目的状態か否かを判定する。事前行動則生成部12は、i番目の遷移元状態が目的状態でない場合(S806NO)には、i番目の遷移状態につながる状態価値が最大の状態を遷移後状態としてその行動を記録し(S807)、S804に処理を戻す。
一方、事前行動則生成部12は、i番目の遷移元状態が目的状態である場合(S806YES)には、S804に処理を戻す。
S802では、例えば、図16Aに示すように、例えば図14に示す全ての状態を遷移元状態として記録した初期リストD16Aを作成し、N=12(状態の総数)、変数i=0に初期化し(S803)、iに1を加算し(S804)、i≦Nであるか否かを判定する(S805)。iは1であり12以下であるため、S805YESとなり、1番目の遷移元状態は目的状態か否かを判定する(S806)。s1は目的状態ではないため、1番目の遷移元状態につながる状態価値が0.06の最大の状態であるs2を遷移後状態とし、その行動は右に進むであることから図16BのNo1の行に「右に進む」の情報を記録し(S807)、S804に戻る。
同様に処理を繰り返し行い、i=9の場合は、S806で9番目の遷移元状態のs9は目的状態であるため記録せずにS804に戻る。同様にi=12の場合まで処理を繰り返すことにより図16Bに示す行動則16Bを作成する。
図17は、スタート状態として遷移元状態s1に対して図16Bに示す行動則を適用して遷移後状態を求め、以降、遷移後状態を次の遷移元状態として、順次遷移後状態を求めることで、矢印で示すように目的状態s9への最適ルートが求まる例を示す。
図18は、事前表示情報生成処理S205の詳細を示すフローチャートである。事前表示情報生成部13は、事前表示情報生成処理を開始し(S901)、遷移元状態、行動、遷移後状態、遷移確率(事前遷移確率情報D8)の表示データ生成処理を行い(S902)、ネットワーク情報D10の表示データ生成処理を行う(S903)。そして、事前表示情報生成部13は、行動則16Bの表示データ生成処理を行い(S904)、事前表示情報生成処理を終了する(S905)。S902~S904の各処理で表示データが生成される情報を、総称して事前表示情報という。
事前表示情報生成部13は、S902、S903、及びS904で生成された表示データをもとに、事前遷移確率情報D8、ネットワーク情報D10、及び、行動則16Bの各事前表示情報を表示指示部4に表示させる。
図19は、事前表示情報生成処理S205で生成される状態遷移確率D8の表示データの表示画面例を示す図である。図20は、事前表示情報生成処理S205で生成されるネットワーク情報D10の表示データの表示画面例を示す図である。図21は、事前表示情報生成処理S205で生成される行動則D16Bの表示データの表示画面例を示す図である。
表示指示部4に表示される事前表示画面4Aにおいて、利用者によって事前表示メニュー4aが選択された際に表示されるプルダウンメニューから状態遷移確率表示メニュー4bが選択された場合に、図19に示す事前表示画面(状態遷移確率)が表示される。
また、事前表示画面4Aにおいて、利用者によって事前表示メニュー4aが選択された際に表示されるプルダウンメニューからネットワーク情報表示メニュー4cが選択された場合に、図20に示す事前表示画面(ネットワーク情報)が表示される。また、事前表示画面4Aにおいて、利用者によって事前表示メニュー4aが選択された際に表示されるプルダウンメニューから行動則表示4dが選択された場合に、図21に示す事前表示画面(行動則)が表示される。
次に図22から図27を参照して、事前行動選択情報生成部5と表示指示部4の動作を説明する。図22は、運用時行動選択情報生成指示部8の運用時行動選択情報生成指示処理を示すフローチャートである。運用時行動選択情報生成指示部8は、制御部2の指示により、運用時行動選択情報生成指示処理を開始し(S1001)、運用時状態取得処理を行い(S1002)、運用時行動選択処理を行い(S1003)、運用時表示情報生成処理を行い(S1004)、運用時行動指示処理を行い(S1005)、運用時行動選択情報生成指示処理を終了する(S1006)。
図23は、運用時状態取得処理S1002の詳細を示すフローチャートである。運用時状態取得部20は、運用時状態取得処理を開始し(S1101)、対象システム1の現在の状態の取得処理を行い(S1102)、運用時状態取得処理を終了する(S1103)。
図24は、運用時行動選択処理S1003の詳細を示すフローチャートである。運用時行動選択部21は、運用時行動選択処理を開始し(S1201)、対象システム1の現在の状態に該当する遷移元状態の行を行動則16Bから選択し(S1202)、選択した行に登録された行動を選択し(S1203)、運用時行動選択処理を終了する(S1204)。
図25は、運用時表示情報生成処理S1004の詳細を示すフローチャートである。運用時表示情報生成部22は、運用時表示情報生成処理を開始し(S1301)、対象システム1の現在の状態、行動後の予想状態、推奨行動の表示データ生成処理を行う(S1302)。対象システム1の現在の状態は、運用時状態取得処理(図23)で取得された情報である。対象システム1の行動後の予想状態は、運用時行動選択処理(図23)で選択された行動が行われた場合に遷移すると予測される対象システム1の遷移後状態であり、行動則16Bから取得される。対象システム1の推奨行動は、運用時行動選択処理(図23)で選択された行動である。
続いて運用時表示情報生成部22は、現在までの状態推移の表示データ生成処理を行い(S1303)、運用時表示情報生成処理を終了する(S1304)。現在までの時系列の状態推移は、過去から現在までに対象システム1が取ってきた状態の時系列情報である。S1302及びS1303の各処理で表示データが生成される情報を、総称して運用時表示情報という。
運用時表示情報生成部22は、S1302及びS1303で生成された表示データをもとに、対象システム1の現在の状態、推奨行動、予測される遷移後状態、及び、対象システム1が現在までに選択した行動の時系列情報の各運用時表示情報を表示指示部4に表示させる。
図26は、運用時行動指示処理S1005の詳細を示すフローチャートである。運用時行動指示部23は、運用時行動指示処理を開始し(S1401)、利用者によって表示指示部4などを介して選択された、あるいは運用時行動選択処理(図24)で自動選択された行動を対象システム1に指示し(S1402)、運用時行動指示処理を終了する(S1404)。
例えば、図13に示す迷路の例で、現在の状態がs6の場合は、S1102でデータベース7から現在の状態がs6であるとの情報が取得されると、S1202で現在の状態s6が遷移元状態の行としてNo6の行が行動則16B(図16B)から選択される。そして、S1203でNo6の行に登録された行動として「下に進む」が選択される。S1302では、現在の状態がs6、「下に進む」場合の行動後の予想状態がs8、推奨行動が「下に進む」の表示データ生成処理が行われる。S1303では、例えば、スタート状態のs1から現在の状態であるs6までの推移(s1→s2→s3→s6)の表示データ生成処理が行われる。
また、S1402では、利用者によって選択された、あるいは運用時行動選択処理(図24)で自動選択された行動が対象システムに指示される。表示指示部4で利用者によって行動が選択された場合は、制御部2により運用時行動指示部23が起動され、選択された行動を対象システム1に指示する。
図27は、運用時表示情報生成処理S1004で生成される運用時表示データD27の表示画面例を示す図である。図27は、利用者によって運用表示メニュー4eが選択され、ガイダンスメニュー4fが選択された場合に、表示指示部4に表示される運用時表示画面4Bの表示例を示している。
選択ボタン4hは、利用者が、運用時表示画面4Bに提示された推奨行動を選択する場合に押下される。行動入力ボタン4iは、利用者が提示された推奨行動を選択せず、上、下、左、右の任意の方向への行動を入力して指示する場合に選択可能としている。なお、「上、下、左、右」は、行動則16B(図16B)に含まれる「上」「下」「左」「右」の4種類の行動にそれぞれ対応する。行動入力ボタン4iによって入力指示可能な行動は、行動則に含まれる各行動に応じて決まる。これにより、利用者は、自らの意思に基づいて対象システム1を制御することもできる。
また、利用者によって自動メニュー4gが選択された場合には、行動選択システムSが提示する推奨行動が自動的に選択され、対象システム1に対して自動的に指示されることで、対象システム1の行動が自動制御される。
状態の推移表示4jは、S1303で生成された表示データに基づいて、スタート状態から現在の状態まで、対象システム1が取った状態の推移を、時間軸とともに示す時系列情報である。これにより、利用者は、対象システム1が各状態を取った時刻や、各状態を取ってからの時間経過を把握することができる。
本実施形態では、生産ラインやプラント、ロボットなどの対象システム1の制御や行動の規則を自動的に獲得する行動選択システムSにおいて、収集した実績データに基づいて事前の行動選択情報を生成する。そして、事前の行動選択情報と運用時のデータに基づいて運用時の行動選択情報を生成する。行動選択システムSは、システムにより自動選択された運用時の行動選択情報の提示、利用者による行動の選択あるいは自動選択された運用時の行動選択情報に基づいて自動的な行動の指示を行う。
よって、本実施形態によれば、対象システム1の挙動を模擬するシミュレータが無い場合でも適用可能とし、かつ、試行錯誤過程を不要とし、対象システム1の制御や行動の規則を獲得し、対象システム1に対して、現在の状態から最適な行動を選択して指示する行動指示を自動的に行うことができる。
また、試行錯誤過程が不要となるため、対象システム1の制御や行動の規則を示す最適パラメータを、メモリ等の計算機資源を圧迫することなく高速処理かつ高精度に求めることができる。また、高精度の最適パラメータに基づいて対象システム1の制御や行動選択を精度よく効率的に行うことができる。
また、行動選択の対象システム1の行動選択を示す最適パラメータを、最適パラメータ算出するセグメントに分割することなく算出できるので、最適パラメータの精度とパラメータ算出処理の高速化との両立を図ることができる。
本発明は上記実施形態に限定されるものではなく、様々な変形例を含む。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、矛盾しない限りにおいて、ある実施形態の構成の一部を他の実施形態の構成で置き換え、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、構成の追加、削除、置換、統合、又は分散をすることが可能である。また実施形態で示した構成及び処理は、処理効率又は実装効率に基づいて適宜分散、統合、又は入れ替えることが可能である。
1…対象システム、2…制御部、3…行動選択部、4…表示指示部、5…事前行動選択情報生成部、6…データ収集部、7…データベース、8…運用時行動選択情報生成指示部、10…事前行動頻度情報生成部、11…事前遷移確率生成部、12…事前行動則生成部、13…事前表示情報生成部、20…運用時状態取得部、21…運用時行動選択部、22…運用時表示情報生成部、23…運用時行動指示部

Claims (12)

  1. 対象システムの遷移元状態と、前記対象システムの行動と、該行動により該遷移元状態から遷移した前記対象システムの遷移後状態と、を対応付けた時系列の実績データを前記対象システムから収集するデータ収集部と、
    前記対象システムの現在の状態を前記遷移元状態とし、前記実績データから、該遷移元状態と、該遷移元状態において前記対象システムが取るべき動と、該動により前記対象システムが該遷移元状態から遷移すると予測される前記遷移後状態と、を対応付けた行動則を生成する事前行動選択情報生成部とを有し、
    前記事前行動選択情報生成部は、
    前記実績データにおいて前記遷移元状態と前記行動と前記遷移後状態の全てが一致するレコード毎に頻度を算出し、該遷移元状態と該行動と該遷移後状態と該頻度とを対応付けた行動頻度情報を生成する行動頻度情報生成部と、
    前記行動頻度情報において異なる前記行動により同一の前記遷移元状態から異なる前記遷移後状態に遷移するそれぞれの遷移確率を各頻度に基づいて算出し、該遷移元状態と該行動と該遷移後状態と該遷移確率とを対応付けた遷移確率情報を生成する遷移確率生成部と、
    前記遷移確率情報に基づいて、前記遷移元状態から該遷移元状態と接続する前記遷移後状態のうちで状態価値が最も高い前記遷移後状態へ遷移する場合の前記行動と該遷移元状態と該遷移後状態とを対応付けた前記行動則を生成する行動則生成部と
    を有することを特徴とする行動選択システム。
  2. 請求項に記載の行動選択システムにおいて、
    前記事前行動選択情報生成部は、
    前記遷移確率情報及び前記行動則を表示するための表示データを生成し、該表示データをもとに前記遷移確率情報及び前記行動則を表示部に表示させる事前表示情報生成部
    をさらに有することを特徴とする行動選択システム。
  3. 請求項に記載の行動選択システムにおいて、
    前記対象システムの現在の状態と前記行動則に基づいて、該現在の状態に対応する前記対象システムが取るべき前記行動を推奨行動として選択する運用時行動選択情報生成部
    をさらに有することを特徴とする行動選択システム。
  4. 請求項に記載の行動選択システムにおいて、
    前記運用時行動選択情報生成部は、
    前記推奨行動を選択する行動選択部と、
    前記行動選択部によって選択された前記推奨行動を前記対象システムに対して指示する行動指示部と
    を有することを特徴とする行動選択システム。
  5. 請求項に記載の行動選択システムにおいて、
    前記運用時行動選択情報生成部は、
    前記対象システムの現在の状態と前記推奨行動と前記予測される遷移後状態を表示するための表示データを生成し、該表示データをもとに、前記対象システムの現在の状態と前記推奨行動と前記予測される遷移後状態を表示部に表示させる運用時表示情報生成部
    をさらに有することを特徴とする行動選択システム。
  6. 請求項に記載の行動選択システムにおいて、
    前記運用時表示情報生成部は、
    前記対象システムの現在の状態から取るべき行動の入力を受け付ける入力手段を前記表示部に表示させるためのデータを含んだ前記表示データを生成し、
    前記行動指示部は、
    前記表示データをもとに前記表示部に表示された前記入力手段を介して前記取るべき行動の入力を受け付けた場合に、前記推奨行動に代えて、該取るべき行動を前記対象システムに対して指示する
    ことを特徴とする行動選択システム。
  7. 請求項に記載の行動選択システムにおいて、
    前記運用時表示情報生成部は、
    前記対象システムが選択した行動の時系列情報を前記表示部に表示させるためのデータを含んだ前記表示データを生成し、前記表示データをもとに、該時系列情報を前記表示部に表示させる
    ことを特徴とする行動選択システム。
  8. 行動選択システムが行う行動選択方法であって、
    対象システムの遷移元状態と、前記対象システムの行動と、該行動により該遷移元状態から遷移した前記対象システムの遷移後状態と、を対応付けた時系列の実績データを前記対象システムから収集するデータ収集ステップと、
    前記対象システムの現在の状態を前記遷移元状態とし、前記実績データから、該遷移元状態と、該遷移元状態において前記対象システムが取るべき動と、該動により前記対象システムが該遷移元状態から遷移すると予測される前記遷移後状態と、を対応付けた行動則を生成する事前行動選択情報生成ステップと
    を有し、
    前記事前行動選択情報生成ステップでは、
    前記実績データにおいて前記遷移元状態と前記行動と前記遷移後状態の全てが一致するレコード毎に頻度を算出し、該遷移元状態と該行動と該遷移後状態と該頻度とを対応付けた行動頻度情報を生成する行動頻度情報生成ステップと、
    前記行動頻度情報において異なる前記行動により同一の前記遷移元状態から異なる前記遷移後状態に遷移するそれぞれの遷移確率を各頻度に基づいて算出し、該遷移元状態と該行動と該遷移後状態と該遷移確率とを対応付けた遷移確率情報を生成する遷移確率生成ステップと、
    前記遷移確率情報に基づいて、前記遷移元状態から該遷移元状態と接続する前記遷移後状態のうちで状態価値が最も高い前記遷移後状態へ遷移する場合の前記行動と該遷移元状態と該遷移後状態とを対応付けた前記行動則を生成する行動則生成ステップと
    を有することを特徴とする行動選択方法。
  9. 請求項に記載の行動選択方法において、
    前記対象システムの現在の状態と前記行動則に基づいて、該現在の状態に対応する前記対象システムが取るべき前記行動を推奨行動として選択する運用時行動選択情報生成ステップ
    をさらに有することを特徴とする行動選択方法。
  10. 請求項に記載の行動選択方法において、
    前記運用時行動選択情報生成ステップは、
    前記推奨行動を選択する行動選択ステップと、
    前記行動選択ステップによって選択された前記推奨行動を前記対象システムに対して指示する行動指示ステップと
    を有することを特徴とする行動選択方法。
  11. 請求項10に記載の行動選択方法において、
    前記運用時行動選択情報生成ステップは、
    前記対象システムの現在の状態と前記推奨行動と前記予測される遷移後状態を表示するための表示データを生成し、該表示データをもとに、前記対象システムの現在の状態と前記推奨行動と前記予測される遷移後状態を表示部に表示させる運用時表示情報生成ステップ
    をさらに有することを特徴とする行動選択方法。
  12. 請求項11に記載の行動選択方法において、
    前記運用時表示情報生成ステップは、
    前記対象システムの現在の状態から取るべき行動の入力を受け付ける入力手段を前記表示部に表示させるためのデータを含んだ前記表示データを生成し、
    前記行動指示ステップは、
    前記表示データをもとに前記表示部に表示された前記入力手段を介して前記取るべき行動の入力を受け付けた場合に、前記推奨行動に代えて、該取るべき行動を前記対象システムに対して指示する
    ことを特徴とする行動選択方法。
JP2020092616A 2020-05-27 2020-05-27 行動選択システム及び行動選択方法 Active JP7365967B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020092616A JP7365967B2 (ja) 2020-05-27 2020-05-27 行動選択システム及び行動選択方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020092616A JP7365967B2 (ja) 2020-05-27 2020-05-27 行動選択システム及び行動選択方法

Publications (2)

Publication Number Publication Date
JP2021189621A JP2021189621A (ja) 2021-12-13
JP7365967B2 true JP7365967B2 (ja) 2023-10-20

Family

ID=78850288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020092616A Active JP7365967B2 (ja) 2020-05-27 2020-05-27 行動選択システム及び行動選択方法

Country Status (1)

Country Link
JP (1) JP7365967B2 (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004102681A (ja) 2002-09-10 2004-04-02 Fujitsu Ltd 行動データ表示方法および行動データ表示装置
JP2011204036A (ja) 2010-03-25 2011-10-13 Institute Of National Colleges Of Technology Japan 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム
JP2013058059A (ja) 2011-09-08 2013-03-28 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
JP2017199267A (ja) 2016-04-28 2017-11-02 富士通株式会社 フロー生成プログラム、フロー生成方法およびフロー生成装置
JP2018126799A (ja) 2017-02-06 2018-08-16 セイコーエプソン株式会社 制御装置、ロボットおよびロボットシステム
JP2018151876A (ja) 2017-03-13 2018-09-27 株式会社日立製作所 機械学習に使用される経験を格納する経験データベースを更新する方法
US20190220744A1 (en) 2018-01-17 2019-07-18 Hengshuai Yao Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations
JP2019139352A (ja) 2018-02-07 2019-08-22 株式会社ロボケン 情報処理装置、情報処理装置の制御方法及びプログラム
US20190385022A1 (en) 2018-06-15 2019-12-19 Google Llc Self-supervised robotic object interaction
JP2020056737A (ja) 2018-10-04 2020-04-09 株式会社明電舎 自動操縦ロボットの制御装置及び制御方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004102681A (ja) 2002-09-10 2004-04-02 Fujitsu Ltd 行動データ表示方法および行動データ表示装置
JP2011204036A (ja) 2010-03-25 2011-10-13 Institute Of National Colleges Of Technology Japan 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム
JP2013058059A (ja) 2011-09-08 2013-03-28 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
JP2017199267A (ja) 2016-04-28 2017-11-02 富士通株式会社 フロー生成プログラム、フロー生成方法およびフロー生成装置
JP2018126799A (ja) 2017-02-06 2018-08-16 セイコーエプソン株式会社 制御装置、ロボットおよびロボットシステム
JP2018151876A (ja) 2017-03-13 2018-09-27 株式会社日立製作所 機械学習に使用される経験を格納する経験データベースを更新する方法
US20190220744A1 (en) 2018-01-17 2019-07-18 Hengshuai Yao Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations
JP2019139352A (ja) 2018-02-07 2019-08-22 株式会社ロボケン 情報処理装置、情報処理装置の制御方法及びプログラム
US20190385022A1 (en) 2018-06-15 2019-12-19 Google Llc Self-supervised robotic object interaction
JP2020056737A (ja) 2018-10-04 2020-04-09 株式会社明電舎 自動操縦ロボットの制御装置及び制御方法

Also Published As

Publication number Publication date
JP2021189621A (ja) 2021-12-13

Similar Documents

Publication Publication Date Title
JP5218109B2 (ja) 可視化データ処理装置、可視化データ処理装置の制御方法、及び可視化データ処理装置の制御プログラム
CN110462644A (zh) 用于系统的自动化和控制的认知工程技术的系统和方法
JP7064356B2 (ja) 将来状態推定装置および将来状態推定方法
JP7365967B2 (ja) 行動選択システム及び行動選択方法
Lipovszki et al. Simulating complex systems and processes in LabVIEW
CN112654943A (zh) 制造系统设计辅助装置
JP3369734B2 (ja) 3次元計算機支援設計装置及び方法
JP6567720B1 (ja) データ前処理装置、データ前処理方法及びデータ前処理プログラム
JP2608085B2 (ja) 生産計画シミュレーション装置
JP7044730B2 (ja) 生産設備運転支援システムおよび生産設備運転支援方法
Shalin The roles of humans and computers in distributed planning for dynamic domains
Hultgren et al. The concept of digital twins in the manufacturing industry: A study untangling the digital twin concept to utilize its benefits
JP6775740B1 (ja) 設計支援装置、設計支援方法及び設計支援プログラム
JP2022045731A (ja) 情報処理装置、情報処理システムおよび情報処理方法
WO2024090367A1 (ja) 情報処理方法、コンピュータプログラム及び情報処理装置
JP2585311B2 (ja) プログラム作成方法
Preiss Future CAD systems
JPH1145176A (ja) 編集装置、編集方法及び記録媒体
JP5208891B2 (ja) ハイブリッドモデルシミュレーション装置および方法
JP3720867B2 (ja) 候補解生成方法および装置
JP7380376B2 (ja) 情報処理装置およびラダープログラムを表示するためのプログラム
JP7259322B2 (ja) 情報処理装置、学習モデル生成プログラム及び学習モデル生成方法
Byrnes et al. Visualizing proof search for theorem prover development
KR20010043870A (ko) 프로그램머블 컨트롤러의 주변장치 및 그 주변장치의모니터 방법
JPH0421229B2 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231010

R150 Certificate of patent or registration of utility model

Ref document number: 7365967

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150