JP7160574B2 - 処理装置、方法、およびプログラム - Google Patents

処理装置、方法、およびプログラム Download PDF

Info

Publication number
JP7160574B2
JP7160574B2 JP2018117639A JP2018117639A JP7160574B2 JP 7160574 B2 JP7160574 B2 JP 7160574B2 JP 2018117639 A JP2018117639 A JP 2018117639A JP 2018117639 A JP2018117639 A JP 2018117639A JP 7160574 B2 JP7160574 B2 JP 7160574B2
Authority
JP
Japan
Prior art keywords
index
action
state
value function
target environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018117639A
Other languages
English (en)
Other versions
JP2019219981A5 (ja
JP2019219981A (ja
Inventor
やえみ 寺本
宇シン 梁
正啓 間瀬
俊宏 鯨井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018117639A priority Critical patent/JP7160574B2/ja
Priority to CN202110147006.1A priority patent/CN112966806A/zh
Priority to CN201910388236.XA priority patent/CN110633802A/zh
Publication of JP2019219981A publication Critical patent/JP2019219981A/ja
Publication of JP2019219981A5 publication Critical patent/JP2019219981A5/ja
Application granted granted Critical
Publication of JP7160574B2 publication Critical patent/JP7160574B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は状況に応じて有効な施策を探索する技術に関する。
様々な分野で機械学習を利用し、状況に応じて有効な施策を探索し、提示する技術が注目されている。特許文献1-4には、強化学習の手法を用い、向上させたい指標(以下「KPI」ともいう)を向上させる有効な施策を学習する技術が開示されている。KPIはKey Performance Indicatorの略である。
特許文献1に開示された技術は、強化学習を行う際の環境モデルとして、すでに経験したイベントと行動の対の集合を用いることで、強化学習の計算コストを低減する方法に関する。
特許文献2に開示された技術は、強化学習で用いる価値関数のニューラルネットワークでの近似において、入力変数が多数であっても高精度かつ低コストにニューラルネットワークの重みを学習する方法に関する。
特許文献3に開示された技術は、自動車の運転時にドライバーをサポートする情報を提示するためのシステムにおいて、強化学習を用いて良い運転の行動指針を作成し、その際に周辺環境の変化に応じて取り得る行動を限定することで効率的に強化学習を進める方法に関する。
特許文献4に開示された技術は、強化学習において、相関分析を用いて次に取るべき行動の候補を絞り込み、効率的にロボット制御測を学習する方法に関する。
特開2010-73200号公報 特開2009-64216号公報 特開2004-348394号公報 特開2018-24036号公報
最適解探索や予測等の技術を用いて、状況に合わせた効果的な行動を人に提示し、人の意思決定を支援する仕組みが提案されている。最適解探索では、基本的には、最適性を表す数値は1つに限定しなくてはならない。ところが、実際には、気にすべきKPIが複数であったり、重視したいKPIがユーザによって異なったり、ということが多い。しかしながら、このようにユーザ毎に嗜好の異なる複数のKPIに対応して効果的な行動を探索する方法はなかった。
本発明の目的は、多様な指標が存在する環境において状況に応じて好適な施策を探索する技術を提供することである。
本発明の1つの態様による施策探索装置は、所定の対象環境における施策を探索する施策探索装置であって、向上すべき第1指標と前記第1指標と異なる第2指標との入力を受け付ける入出力部と、前記対象環境に行動を適用して前記対象環境の状態遷移をシミュレーションし、シミュレーション結果として、遷移後の前記対象環境の状態と、前記第1指標により示される前記適用した行動に対する報酬とを算出するシミュレーション処理部と、前記対象環境の状態に対する行動の価値を表す価値関数に基づいて行動を選択し、前記選択した行動を適用して前記対象環境の状態遷移を前記シミュレーション処理部にシミュレーションさせ、遷移後の前記対象環境の状態と、前記第1指標により示される前記適用した行動に対する報酬とを取得し、前記状態と前記報酬とに基づいて前記価値関数を更新するまでの一連の処理を複数回繰り返すエピソードを実行し、前記第2指標が所定の条件を満たしたエピソードを蓄積し、前記蓄積したエピソードに基づいて前記価値関数を改善し、前記エピソードの実行から前記価値関数の改善までの一連の処理を所定の終了条件が満たされるまで繰り返し、得られた前記価値関数に基づいて定まる施策を提示する施策探索処理部と、を有する。なお、行動の価値を表す価値関数の代わりに、行動そのものや行動の確率を出力する方策関数を用いてもよい。
本発明の1つの態様によれば、向上すべき第1指標とそれと異なる第2指標とを指定し、その第2指標を価値関数の学習にて重視して施策の探索を行うので、多様な指標が存在する環境において状況に応じて好適な施策を探索することができる。
有効施策提示システムのブロック図である。図2は、有効施策提示システムの処理構成図である。 有効施策提示システムの処理構成図である。 強化学習処理のフローチャートである。強化学習処理は、強化学習プログラム110が実行する処理である。 KPI管理処理のフローチャートである。 エピソード終端処理のフローチャートである。 KPI両立可否判断処理のフローチャートである。 シミュレーション処理のフローチャートである。 ユーザ入力画面を示す図である。 有効施策提示画面を示す図である。 価値関数データベースに蓄積された価値関数データの一例を示す図である。 シミュレーション結果データベースに蓄積されたシミュレーション結果の一例を示す図である。 学習結果活用処理のフローチャートである。
有効施策提示システムの実施形態について図面を参照して説明する。有効施策提示システムは、多様な指標が存在する環境を、有効な施策を探索する対象として、ユーザの嗜好などの状況に応じて好適な施策を探索し、ユーザに提示するシステムである。施策は、対象環境を向上させるためにユーザがとるべき行動である。行動は、対象環境に関連する行いであり、対象環境の状態を遷移させることができる。対象環境の状態が遷移すると、対象環境を示す何らかの指標の値が変化する。
図1は、有効施策提示システムのブロック図である。図2は、有効施策提示システムの処理構成図である。
図1を参照すると、有効施策提示システムは、CPU(Central Processing Unit)101と、メモリ102と、通信装置103と、プログラム記憶装置104と、データ記憶装置105とを有している。
プログラム記憶装置104は、書込みおよび読み出しが可能にデータを記憶する装置であり、施策探索モジュール106と、シミュレーションモジュール107と、データ入出力モジュール108とを記憶している。施策探索モジュール106、シミュレーションモジュール107、およびデータ入出力モジュール108はそれぞれソフトウェアモジュールである。ソフトウェアモジュールは、1つ以上のソフトウェアプログラムからなり、あるまとまりのある機能を実現するソフトウェア部品である。
なお、本実施形態に示すソフトウェアモジュールの構成や、ソフトウェアモジュールのソフトウェアプログラムの構成は一例である。装置全体として所望の機能を提供するものであれば、装置内部で、ソフトウェアモジュールおよびソフトウェアプログラムをどのような機能分担で設計してもよい。
施策探索モジュール106は、図2に示す施策探索処理201を実行するソフトウェアモジュールであり、強化学習プログラム110、KPI管理プログラム111、シミュレーション結果選定プログラム112、およびReward計算関数群113を含んでいる。強化学習プログラム110、KPI管理プログラム111、シミュレーション結果選定プログラム112、およびReward計算関数群113はそれぞれソフトウェアプログラムである。ソフトウェアモジュールおよび各ソフトウェアプログラムの処理は後述する。
シミュレーションモジュール107は、図2に示すシミュレーション処理202を実行するソフトウェアモジュールであり、ソフトウェアプログラムであるシミュレーションプログラム115を含んでいる。シミュレーションモジュール107およびシミュレーションプログラム115の処理は後述する。
データ記憶装置105は、書込みおよび読み出し可能にデータを記憶する装置であり、シミュレーション結果データベース116および価値関数データベース117を記憶する。
なお、ここではプログラム記憶装置104とデータ記憶装置105を別個の装置とする例を示したが、この構成に限定されることはない。プログラム記憶装置104とデータ記憶装置105は同一装置が兼ねてもよい。
CPU101は、メインメモリであるメモリ102をワークエリアとして利用し、データ記憶装置105に記憶されたデータを読み出しまた演算過程あるいは演算結果のデータをデータ記憶装置105に書き込みながら、プログラム記憶装置104に記憶している各ソフトウェアを実行するプロセッサである。
通信装置103、CPU101にて処理された情報を有線または無線あるいはそれら両方を含む通信ネットワークを介して送信し、また通信ネットワークを介して受信した情報をCPU101に伝達する。これにより、例えば、有効施策提示装置10を外部の端末から利用可能となる。
上述したように、また図2に示すように、有効施策提示装置10は、1つの最優先指標(以下「最優先KPI」ともいう)と、最優先KPI以外の指標の中で重要な1つ以上の指標(以下「重要KPI」ともいう)とをユーザから指定されると、施策探索処理201とシミュレーション処理202とを連携させることで、重要KPIを考慮しつつ最優先KPIを向上させる施策を探索し、提示する。これにより、多様な指標が存在する状況において状況に応じた好適な施策を探索することが可能となる。
シミュレーション処理202は、シミュレーションモジュール107が実行する処理である。シミュレーション処理202では、CPU101は、対象環境に行動を適用して対象環境の状態遷移をシミュレーションし、シミュレーション結果として、遷移後の対象環境の状態と、最優先KPI(第1指標)により示される適用した行動に対する報酬とを算出する。
施策探索処理201は、施策探索モジュール106が実行する処理であり、一般的な強化学習の手法を用いる。本明細書では、DQN(Deep Q Network)と呼ばれる強化学習の手法を用いた処理によって説明する。DQNでは、対象環境の状態を表す数値ベクトルを入力とし、状態に対する行動の価値(「Q値」ともいう)を出力とする価値関数を、ニューラルネットワークによって構成する。この価値関数のニューラルネットワークのことをDQNと呼ぶ場合もある。本明細書では、この後、価値関数のニューラルネットワークをDQNと呼ぶ。施策探索処理201では、CPU101は、対象環境の状態に対する行動の価値を表すDQNに基づいて行動を選択し、選択した行動を適用して対象環境の状態遷移をシミュレーション処理202によりシミュレーションして、遷移後の対象環境の状態と、適用した行動に対する報酬とを取得し、その状態と報酬とに基づいてDQNを更新するまでの一連の処理を複数回繰り返すエピソードを実行する。更に、CPU101は、重要KPI(第2指標)が所定の条件を満たしたエピソードのデータをシミュレーション結果データベース116に蓄積し、これまでに蓄積したエピソードに基づいてDQNを改善する。学習結果のDQNは価値関数データベース117に格納される。CPU101は、このエピソードの実行からDQNの改善までの一連の処理を所定の終了条件が満たされるまで繰り返し、得られたDQNに基づいて定まる施策を提示する。
図2の中でデータ入出力処理203は、データ入出力モジュール108が実行する処理であり、ユーザが操作する端末装置20と有効施策提示装置10とのデータの入出力を行う処理である。例えば、データ入出力処理203では、CPU101は、対象の環境を疑似するデータの入力を受け付け、シミュレーション処理202を行うシミュレーションモジュール107に渡す。また、CPU101は、最優先KPIおよび重要KPIの指定を受け付け、施策探索モジュール106に渡す。
以上、説明したように、本実施形態によれば、向上すべき第1指標と異なる第2指標とを指定し、その第2指標を価値関数の学習にて重視して施策の探索を行うので、多様な指標が存在する環境において、第1指標および第2指標を指定することで、状況に応じて好適な施策を探索することが可能となる。
以下、各ソフトウェアモジュールおよびソフトウェアプログラムの処理について説明する。
図3は、強化学習処理のフローチャートである。強化学習処理は、強化学習プログラム110が実行する処理である。
図3を参照すると、CPU101は、DQN(価値関数)を初期化する(ステップS301)。DQNが示す価値関数はパラメータΘで特徴づけられる。DQNの初期化は、このパラメータΘを所定のデフォルト値に設定する処理である。
次に、CPU101は、シミュレーションにおいて対象環境を疑似するデータの状態として初期状態を設定する(ステップS302)。
次に、CPU101は、エピソードの1タイムステップ(以下単に「ステップ」ともいう)としてシミュレーションに適用する行動(アクションa)を選択する(ステップS303)。例えば、CPU101は、試行錯誤のために、DQNに基づいて、Q値が最高値の行動を選択したり、Q値が一定値以上の行動を選択したりする。
次に、CPU101は、選択した行動を適用して対象環境の状態を遷移させ、次の状態sと、その行動に対する報酬rを算出する(ステップS304)。これがシミュレーションを1ステップ進めることとなる。
次に、CPU101は、その状態sと報酬rとに基づいてDQNを更新する(ステップS305)。DQNの更新は、高い報酬rが得られた行動aのQ値が上がるようにパラメータΘを更新することにより行う。
次に、CPU101は、エピソードの終端に達したか否か判定する(ステップS306)。例えば、最優先KPIの値が目標値に達した場合や、所定ステップ回数を実行した場合に、エピソードの終端と判断すればよい。エピソードの終端でなければ、CPU101はステップS303に戻り次に適用する行動を選択する。
エピソードの終端であれば、CPU101は、次に、エピソード終端処理を実行する(ステップS307)。エピソード終端処理は、所定の条件を満たしたエピエソードの一連のシミュレーション結果をデータベースに格納する処理である。エピソード終端処理の詳細は後述する。
次に、CPU101は、強化学習処理の終了条件が満たされたか否か判定する(ステップS308)。例えば、エピソード実行回数またはステップ実行回数の上限値に達した場合に、終了と判定してもよい。終了条件が満たされていなければ、CPU101はステップS302に戻り、対象環境の状態を初期状態に戻して次のエピソードを開始する。終了条件が満たされていれば、CPU101は強化学習処理を終了する。
図4は、KPI管理処理のフローチャートである。KPI管理処理は、KPI管理プログラム111により実行される処理であり、ユーザの入力した最優先KPIおよび重要KPIに応じて、DQNの強化学習による施策探索を行い、学習結果を記録する処理である。
図4を参照すると、CPU101は、まず、データ入出力モジュール108から、ユーザの入力した最優先KPIおよび重要KPIを取得する(ステップS401)。
次に、CPU101は、最優先KPIに対応する報酬計算関数を取得する(ステップS402)。最優先KPI(第1指標)から報酬を算出する報酬計算関数を予め定め、関数のデータをReward計算関数群113として格納しておき、データ入出力モジュール108が入力を受け付けた最優先KPIに基づいて、それに対応する報酬計算関数を選択することにすればよい。第1指標から報酬を算出する報酬計算関数を予め定めているので、第1指標が定まると容易に報酬の算出方法を決定することができる。
次に、CPU101は、選択した報酬計算関数と最優先KPIと重要KPIとを指定して、強化学習プログラム110に強化学習処理を実行させる(ステップS403)。強化学習プログラム110からは学習結果としてDQNが得られる。
次に、CPU101は、学習結果のDQNのパラメータを、最優先KPIおよび重要KPIと紐づけて、価値関数データとして、価値関数データベース117に保存する(ステップS404)。図10は、価値関数データベースに蓄積された価値関数データの一例を示す図である。図10を参照すると、価値関数データとして、最優先KPIの識別情報である最優先KPI IDと、重要KPIの識別情報である重要KPI IDと、価値関数を特徴づける価値関数パラメータとが対応づけて記録されている。例えば、最優先KPI IDが1の最優先KPIと、重要KPI IDが3の重要KPIとを用いた強化学習により得られたDQNの価値パラメータがΘ1であることが示されている。また、最優先KPI IDが1の最優先KPIと、重要KPI IDが5の重要KPIとを用いた強化学習により得られたDQNの価値パラメータがΘ2であることが示されている。
図5は、エピソード終端処理のフローチャートである。エピソード終端処理は、シミュレーション結果選定プログラム112により実行される処理であり、図3のステップS307に相当する処理である。
図5を参照すると、CPU101は、まず、終端に達したエピソードのシミュレーション結果のデータを取得する(ステップS501)。このデータからはそのエピソードの最終的な各指標の値を取得することができる。次に、CPU101は、シミュレーション結果のデータから重要KPIの値を取得し、その値が所定の条件を満たしているか否か評価する(ステップS502)。
次に、CPU101は、重要KPIが所定の条件を満たしていれば、そのエピソードのシミュレーション結果をシミュレーション結果データベース116に格納する(ステップS503)。例えば重要KPIが閾値を越えていたら条件が満たされたとすればよい。終端に達したエピソードは、最優先KPIが目標値に達していたり、最優先KPIの向上が収束したりしているので、ここでは重要KPIの方を評価に用いている。最優先KPIのより厳しい条件をエピソード選択の評価に用いてもよい。
図11は、シミュレーション結果データベースに蓄積されたシミュレーション結果の一例を示す図である。図11を参照すると、シミュレーションデータ1001には、エピソードの識別情報であるエピソードIDと、各ステップの識別情報であるタイムステップと、当該ステップの行動前の状態を示す事前状態sと、当該ステップに適用する行動を示すアクションaと、当該アクションに対する報酬を示す報酬rと、当該ステップの行動後の状態を示す事後状態s’とが対応づけて1つのエントリ(図11の1行)として記録されている。1つのエピソードにはステップ毎の複数のエントリが含まれている。
例えば、先頭のエントリには、エピソードID=1のエピソードにおけるタイムステップ=1のステップにおいて、対象環境は、事前状態s=s1の状態から、アクションa=a3の行動により、事後状態s’=s2の状態に遷移し、その行動に対して報酬r=r1の報酬が得られたことが示されている。次のエントリには、エピソードID=1のエピソードにおけるタイムステップ=2のステップにおいて、対象環境は、事前状態s=s2の状態から、アクションa=aの行動により、事後状態s’=s3の状態に遷移し、その行動に対して報酬r=r2の報酬が得られたことが示されている。
本実施形態では、強化学習プログラム110が強化学習処理を実行するのと並行して、KPI両立可否判断プログラム114がKPI両立可否判断処理を実行する。図6は、KPI両立可否判断処理のフローチャートである。
図6を参照すると、CPU101は、まず、実行されたエピソードのシミュレーション結果を取得する(ステップS601)。強化学習処理が並行して行われているので、強化学習が進むにつれてステップS601で取得されるシミュレーション結果は増加する。このKPI両立可否判断プログラム114には、エピソード終端処理で所定の条件を満たしたエピソードのシミュレーション結果だけでなく、所定の条件を満たさなかったエピソードのシミュレーション結果も用いてもよい。
次に、CPU101は、取得したシミュレーション結果の最優先KPIおよび重要KPIを算出し、最重要KPIと重要KPIの組合せのデータを蓄積する(ステップS602)。最優先KPIおよび重要KPIが既に算出されているのであれば、その値を取得すればよい。
次に、CPU101は、蓄積されたデータを用いて、最優先KPIと重要KPIとの相関係数を算出する(ステップS603)。上述したように強化学習が進むにつれてシミュレーション結果が増加するので、それに伴って最優先KPIと重要KPIの相関も顕在化してくることになる。
次に、CPU101は、算出した相関係数が負の値であるか否か判定する(ステップS604)。相関係数が負であれば、CPU101は、最優先KPIと重要KPIが互いに相反する特性を有する指標であることを警告するアラートを出力する(ステップS605)。最優先KPIと重要KPIが互いに相反する特性を有するというのは、一方を改善すると他方が悪化するという関係を意味する。このような最優先KPIと重要KPIの設定は適切でない可能性があるので、その旨をユーザに提示し、見直しの機会を与えるものである。
このように、施策探索モジュール106のKPI両立可否判断プログラム114は、繰り返し実行された複数のエピソードにおける最優先KPIと重要KPIとの相関係数を算出し、その相関係数が負であれば警告を提示する。学習を進める中で最優先KPIを向上させると重要KPIを低下させるという関係が顕在化した場合にその旨を警告により提示し、両立できない指標の組合せの指定の見直し等に役立てることができる。
また、KPI両立可否判断プログラム114は、強化学習プログラム110によるエピソードの実行による強化学習と並行して相関係数を算出し、相関係数が負であると判断した段階で強化学習を終了させることにしてもよい。両立できない最優先KPIと重要KPIの組合せを指定した無駄な学習処理を低減することができる。
図7は、シミュレーション処理のフローチャートである。シミュレーション処理は、シミュレーションモジュール107のシミュレーションプログラム115により実行させる処理である。シミュレーションモジュール107は、強化学習プログラム110からの指示によりシミュレーション処理を実行する。
図7を参照すると、CPU101は、まず、強化学習プログラム110が選択した行動(アクションa)を入力する(ステップS701)。次に、CPU101は、入力された行動を適用して対象環境の1ステップの状態遷移をシミュレーションする(ステップS702)。次に、CPU101は、1ステップのシミュレーションを実行した後の対象環境の状態sと、適用した行動に対する報酬rとの情報を出力する(ステップS703)。ここで出力された状態sと報酬rの情報は、強化学習プログラム110に与えられる。
図8は、ユーザ入力画面を示す図である。ユーザ入力画面80は、ユーザが最優先KPIおよび重要KPIを指定して施策探索を実行するための画面である。
ユーザ入力画面80には、対象環境の各指標の一覧がKPI欄801に表示されている。ユーザ入力画面80には更に、最優先KPIを指定するための最優先選択欄802と、重要KPIを指定するための重要選択欄803と、施策探索を開始するための計画立案ボタン804とが表示されている。
最優先選択欄802では最優先KPIとして指定可能なKPIに対する選択欄がある。重要選択欄803では重要KPIとして指定可能なKPIに対する選択欄がある。図8の例では、「アセットダウン回数」という指標が最優先KPIとして選択されている。また、「保守回数」という指標と、「交換部品費」という指標とが重要KPIとして選択されている。この選択状態で計画立案ボタン804が操作されると、有効施策提示装置10は、最優先KPIを「アセットダウン回数」とし重要KPIを「保守回数」と「交換部品費」とした施策探索を実行する。
図9は、有効施策提示画面を示す図である。有効施策提示画面90は、施策探索の結果をユーザに提示するための画面である。施策探索の結果として有効施策提示画面90には施策901、902が提示される。図9には、図8の選択状態から計画立案ボタン804が操作された場合に表示される有効施策提示画面90の例が示されている。
本実施形態では、複数の重要KPIに重み付けにより軽重を設けて施策を探索することができる。複数の重要KPIのいずれも所定の条件を満たすエピソードを残すように強化学習を進めるとき、重みの小さい重要KPIよりも重みの大きい重要KPIの方を優先してより良好に維持するようなエピソードを選択すればよい。
図8の例では、「保守回数」と「交換部品費」という2つの重要KPIが指定されている。図9の例では、「保守回数」の重みを大きくした施策901と、「交換部品費」の重みを大きくした施策902とが表示されている。
施策901は保守回数を重視した場合の施策例である。施策901のレーダーチャートでは、交換部品費が比較的高くなっている。これは、交換部品に寿命の長い高価な部品を用いることで、保守回数を増やさずにアセットダウン回数を抑える施策を意味する。ユーザは保守回数をあまり増加させないような施策でアセットダウン回数を少なく抑えたいという意図があれば、施策901を採用すればよい。
施策902は交換部品費を重視した場合の施策例である。施策902のレーダーチャートでは、保守回数が比較的高くなっている。これは、保守の頻度を増やすことで、高価な交換部品を用いずにアセットダウン回数を抑える施策を意味する。ユーザは交換部品費をあまり増加させないような施策でアセットダウン回数を少なく抑えたいという意図があれば、施策902を採用すればよい。
なお、本実施形態では、有効施策提示装置10が複数の重要KPIを選択し、それぞれの選択に対して好適な施策を提示するものとしたが、他の構成も可能である。例えば、ユーザが複数の重要KPIに対する軽重を指定し、その指定に応じて好適な施策を提示することも可能である。その場合、データ入出力モジュール108は、更に、複数の重要KPIの重みの入力を受け付ける。施策探索モジュール106は、重みの比較的大きい重要KPIを重みの比較的小さい重要KPIよりも優先的に良好な値に維持するようなエピソードを選択して学習を進めればよい。ユーザは複数の重要KPIに重み付けをして、より嗜好に合った施策を探索することが可能となる。
また、本実施形態では、ユーザが最優先KPIと重要KPIを指定して施策探索を実行したとき、価値関数のパラメータΘを所定のデフォルト値に初期化して処理を開始するものとしたが、他の構成も可能である。施策探索モジュール106は、データ入出力モジュール108にて入力を受け付けた最優先KPIが、過去の施策探索において重要KPIとされた指標であれば、その過去の施策探索にて得られた価値関数を今回の施策探索における価値関数の初期値として用いることにしてもよい。過去の施策探索における学習結果を初期値として活用することにより、価値関数の学習に要する時間の短縮が期待できる。
図12は、学習結果活用処理のフローチャートである。学習結果活用処理は、強化学習プログラム110が強化学習処理のステップS301の代わりに変形例として実行する処理である。
図12を参照すると、CPU101は、まず、最優先KPIが過去に実施された施策探索の強化学習において重要KPIとされたものであるか否か判定する(ステップS121)。最優先KPIが過去の重要KPIであれば、CPU101は、その最優先KPIを重要KPIとした強化学習により得られた価値関数のパラメータΘを、今回の価値関数の初期値として設定する(ステップS122)。最優先KPIが過去の重要KPIでなければ、CPU101は、所定のデフォルト値を、今回の価値関数の初期値として設定する(ステップS123)。
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の範囲を逸脱することなしに、他の様々な態様で本発明を実施することができる。
10…有効施策提示装置、20…端末装置、80…ユーザ入力画面、90…有効施策提示画面、101…CPU、102…メモリ、103…通信装置、104…プログラム記憶装置、105…データ記憶装置、106…施策探索モジュール、107…シミュレーションモジュール、108…データ入出力モジュール、110…強化学習プログラム、111…KPI管理プログラム、112…シミュレーション結果選定プログラム、113…Reward計算関数群、114…KPI両立可否判断プログラム、115…シミュレーションプログラム、116…シミュレーション結果データベース、117…価値関数データベース、201…施策探索処理、202…シミュレーション処理、203…データ入出力処理、801…KPI欄、802…最優先選択欄、803…重要選択欄、804…計画立案ボタン、901…施策、902…施策、1001…シミュレーションデータ

Claims (9)

  1. 行動により状態が遷移し複数の指標が存在する対象環境を疑似するデータを用いて、前記対象環境に所定の行動を適用したときの状態遷移のシミュレーションを行い、状態遷移後の該対象環境の状態と、前記対象環境において向上すべき第1指標を用いて求められる該適用された行動に対する報酬と、を算出する第1処理部と、
    該対象環境の状態に対する行動の価値を示す価値関数に基づいて行動を選択して前記第1処理部に入力し、前記第1処理部にて算出された該状態と該報酬とに基づいて該価値関数を更新することを複数回繰り返すエピソードを複数実行する第2処理部と、を備え、
    前記第2処理部では、複数の前記エピソードの中から、前記第1指標以外で施策の決定において重視するものとして指定された第2指標が所定の条件を満たすエピソードを選定し、選定したエピソードの価値関数に基づいて施策を定めることを特徴とする処理装置。
  2. 前記第2処理部は、第1指標から報酬を算出する報酬計算関数を予め定めておき、入力された第1指標に基づいて、前記第1処理部における報酬の算出に用いる報酬計算関数を選択する、
    請求項1に記載の処理装置。
  3. 前記第2処理部は、前記重視するものとして指定された第2指標に基づいてエピソードを選定する、
    請求項1に記載の処理装置。
  4. 前記第2処理部は、前記第1指標と前記第2指標とに一方を改善すると他方が悪化するという関係があれば警告を提示する、
    請求項1に記載の処理装置。
  5. 前記第2処理部は、前記価値関数に基づいて行動を選択して前記第1処理部に入力し、前記第1処理部にて算出された該状態と該報酬とに基づいて該価値関数を更新することを繰り返す強化学習と並行して前記関係の有無判断し、前記関係があると判断した段階で前記強化学習を終了する、
    請求項4に記載の処理装置。
  6. 前記対象環境に存在する所定個の指標の中から第1指標と第2指標とが指定されるものであり、
    前記第2処理部は、今回の施策探索に入力された第1指標が、過去の施策探索において第2指標とされた指標であれば、前記過去の施策探索時に得られた価値関数を今回の施策探索における価値関数の初期値として用いる、
    請求項1に記載の処理装置。
  7. 前記第1処理部が前記シミュレーションを行って前記状態と前記報酬とを算出し、前記第2処理部が、前記価値関数に基づいて行動を選択して前記第1処理部に入力し、前記第1処理部にて算出された該状態と該報酬とに基づいて該価値関数を更新するまでの一連の処理を複数回繰り返すエピソードを実行し、前記第2指標が所定の条件を満たしたエピソードを蓄積し、前記蓄積したエピソードに基づいて前記価値関数を更新し、前記エピソードの実行から前記価値関数の更新までの一連の処理を所定の終了条件が満たされるまで繰り返し、得られた前記価値関数に基づいて定まる施策を提示する、
    請求項1に記載の処理装置。
  8. コンピュータが、
    行動により状態が遷移し複数の指標が存在する対象環境を疑似するデータを用いて、前記対象環境の状態に対する行動の価値を示す価値関数に基づいて行動を選択して、前記対象環境に所定の行動を適用したときの状態遷移のシミュレーションを行い状態遷移後の該対象環境の状態と前記対象環境において向上すべき第1指標を用いて求められる該適用された行動に対する報酬とを算出する処理への入力とし、前記処理にて算出された該状態と該報酬とに基づいて該価値関数を更新することを複数回繰り返すエピソードを複数実行し、
    複数の前記エピソードの中から、前記第1指標以外で施策の決定において重視するものとして指定された第2指標が所定の条件を満たすエピソードを選定し、選定したエピソードの価値関数に基づいて施策を定める、
    処理を実行する処理方法。
  9. 行動により状態が遷移し複数の指標が存在する対象環境を疑似するデータを用いて、前記対象環境の状態に対する行動の価値を示す価値関数に基づいて行動を選択して、前記対象環境に所定の行動を適用したときの状態遷移のシミュレーションを行い状態遷移後の該対象環境の状態と前記対象環境において向上すべき第1指標を用いて求められる該適用された行動に対する報酬とを算出する処理への入力とし、前記処理にて算出された該状態と該報酬とに基づいて該価値関数を更新することを複数回繰り返すエピソードを複数実行し、
    複数の前記エピソードの中から、前記第1指標以外で施策の決定において重視するものとして指定された第2指標が所定の条件を満たすエピソードを選定し、選定したエピソードの価値関数に基づいて施策を定める、
    ことをコンピュータに実行させるための処理プログラム。
JP2018117639A 2018-06-21 2018-06-21 処理装置、方法、およびプログラム Active JP7160574B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018117639A JP7160574B2 (ja) 2018-06-21 2018-06-21 処理装置、方法、およびプログラム
CN202110147006.1A CN112966806A (zh) 2018-06-21 2019-05-10 处理装置、处理方法及记录介质
CN201910388236.XA CN110633802A (zh) 2018-06-21 2019-05-10 策略搜索装置、方法及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018117639A JP7160574B2 (ja) 2018-06-21 2018-06-21 処理装置、方法、およびプログラム

Publications (3)

Publication Number Publication Date
JP2019219981A JP2019219981A (ja) 2019-12-26
JP2019219981A5 JP2019219981A5 (ja) 2021-08-05
JP7160574B2 true JP7160574B2 (ja) 2022-10-25

Family

ID=68968563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018117639A Active JP7160574B2 (ja) 2018-06-21 2018-06-21 処理装置、方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP7160574B2 (ja)
CN (2) CN112966806A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7466479B2 (ja) 2021-02-22 2024-04-12 株式会社日立製作所 業務改善支援装置、プログラムおよびプログラムを格納した記憶媒体
KR102346900B1 (ko) 2021-08-05 2022-01-04 주식회사 애자일소다 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법
JP2023068265A (ja) * 2021-11-02 2023-05-17 株式会社日立製作所 業務設計支援システム、および業務設計支援方法
JP7449982B2 (ja) 2022-07-05 2024-03-14 株式会社日立製作所 施策策定支援システム、施策策定支援方法、および、施策策定支援プログラム
JP2024061314A (ja) * 2022-10-21 2024-05-07 株式会社日立製作所 業務施策評価装置、および、業務施策評価方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178492A (ja) 2002-11-29 2004-06-24 Mitsubishi Heavy Ind Ltd 強化学習法を用いたプラントシミュレーション方法
JP2012102629A (ja) 2010-11-08 2012-05-31 Honda Motor Co Ltd プラントの制御装置
US20140100777A1 (en) 2008-06-30 2014-04-10 Autonomous Solutions, Inc. Vehicle dispatching method and system
JP2017199074A (ja) 2016-04-25 2017-11-02 ファナック株式会社 製品の異常に関連する変数の判定値を設定する生産システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178492A (ja) 2002-11-29 2004-06-24 Mitsubishi Heavy Ind Ltd 強化学習法を用いたプラントシミュレーション方法
US20140100777A1 (en) 2008-06-30 2014-04-10 Autonomous Solutions, Inc. Vehicle dispatching method and system
JP2012102629A (ja) 2010-11-08 2012-05-31 Honda Motor Co Ltd プラントの制御装置
JP2017199074A (ja) 2016-04-25 2017-11-02 ファナック株式会社 製品の異常に関連する変数の判定値を設定する生産システム

Also Published As

Publication number Publication date
JP2019219981A (ja) 2019-12-26
CN112966806A (zh) 2021-06-15
CN110633802A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
JP7160574B2 (ja) 処理装置、方法、およびプログラム
WO2016152053A1 (ja) 精度推定モデル生成システムおよび精度推定システム
KR101544457B1 (ko) 최적 설계 파라미터 탐색을 위한 최적화 방법
US20210209468A1 (en) Learning device, inference device, method, and program
JP5460426B2 (ja) 生産性評価装置、生産性評価方法およびプログラム
KR102251807B1 (ko) 하이퍼파라미터 최적화 알고리즘 추천 방법 및 최적화 알고리즘 추천 시스템
JP7069029B2 (ja) 自動予測システム、自動予測方法および自動予測プログラム
WO2016151620A1 (ja) シミュレートシステム、シミュレート方法およびシミュレート用プログラム
JPWO2013150686A1 (ja) パラメータ設定装置
JP2015161557A5 (ja)
JP2019505889A (ja) コスト関数設計システム、コスト関数設計方法、およびコスト関数設計プログラム
JP6995717B2 (ja) 施策探索装置、方法およびプログラム
JP2021043561A (ja) 作業訓練システム及び作業訓練支援方法
WO2019103773A1 (en) Automatically identifying alternative functional capabilities of designed artifacts
US20210097884A1 (en) Work support apparatus, work support system, and work support method
JP2020009122A (ja) 制御プログラム、制御方法及びシステム
JP7173741B2 (ja) 作業支援装置
US10698968B2 (en) Information providing apparatus and information providing method
US20220147850A1 (en) Hypothesis verification apparatus, hypothesis verification, and computer-readable recording medium
JP6641456B2 (ja) 計算機システム及びデータの分類方法
WO2022244625A1 (ja) 修理内容予測方法、修理内容予測装置、プログラム、及び、修理内容予測モデルの作成方法
JP7417922B2 (ja) 知識モデル構築システム及び知識モデル構築方法
EP4300347A1 (en) Simulation execution method and program
EP4290426A1 (en) Accuracy calculation program, accuracy calculation method, and information processing device
JP2023116906A (ja) データ処理装置、データ処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221013

R150 Certificate of patent or registration of utility model

Ref document number: 7160574

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150