JP7400064B1

JP7400064B1 - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP7400064B1
Application number: JP2022185038A
Authority: JP
Inventors: 浩二伊藤; 知範泉谷; 大悟藤原
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-12-18
Anticipated expiration: 2042-11-18
Also published as: JP2024074005A

Abstract

【課題】模倣学習においてＪＩＴ法による逐次学習に適する学習データを用い、モデルの精度の向上を図る。【解決手段】処理装置１０は、製品の生産工程における状況を表す説明変数と、生産工程における機器の操作を表す目的変数との組み合わせである第１の履歴を収集する収集部１３１と、第１の履歴に対する除外期間を設定する設定部１３２と、学習開始時刻以降であり、かつ、現時刻よりも除外期間以前の第１の履歴から、少なくとも、説明変数と指定された説明変数との距離に基づいて第２の履歴を取得する取得部１３３と、第２の履歴を用いて、説明変数から目的変数を出力するモデルを更新する更新部１３４と、を有する。【選択図】図２

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。

従来、人間の行動を機械学習モデルに学習させ、当該モデルを用いて人間又はロボット等に動作を教示する模倣学習という技術が知られている。

また、観測されたデータを大量に蓄積しておき、蓄積されたデータの中から要求点の近傍のデータを抽出し、当該抽出したデータを用いて機械学習モデルの逐次学習を行うJust-In-Time（ＪＩＴ）法という技術が知られている（例えば、非特許文献１を参照）。

ここで、例えば化学プラントにおいては、時間の経過に応じて、機器の経年劣化、触媒の劣化、生産ロード計画の変更等の環境の変化が生じる。

これに対し、化学プラントにおけるオペレータによる機器の操作を学習する模倣学習にＪＩＴ法を適用して、機械学習モデルを環境の変化に適応させることが考えられる。

さらに、近年では、運転データ等を入力とするモデルを用いて、操作対象となる設備や工場、プラント等の自動運転を行う技術が知られている。例えば、従来技術として、取得したデータを入力とする機械学習モデルを用いることで、機器の制御において実環境を対象とした最適制御を簡易かつ精度よく実行する技術が知られている（例えば、特許文献１を参照）。

特開２０１９－１８５１９４号公報

山本茂、「Just-In-Time予測制御：蓄積データに基づく予測制御」、計測と制御第52巻第10号 2013年10月号（https://www.jstage.jst.go.jp/article/sicejl/52/10/52_878/_pdf/-char/ja）

オペレータによる実際の機器の操作は、不定期であり、数時間に１回の場合もある。模倣学習として、化学プラントにおけるオペレータによる機器の操作履歴を機械学習モデルに学習させる場合に、実際にはオペレータによる操作が加えられていなかった操作履歴が学習データに多く含まれる場合がある。しかしながら、オペレータによる機器の操作がない場合、プラントの状態に大きな変化はないことが多い。

しかしながら、オペレータによる操作が加わらず、操作対象が一定である過去の履歴を用いて機械学習モデルの学習を行うと、直近の操作をそのままコピーする機械学習モデルが学習される可能性が高く、運転支援には不適切であるという問題があった。特に、毎分推論を行う場合には、機械学習モデルから、１分前の操作を継続するように推奨される可能性が高く、運転支援システムのモデルとしては不適切であった。このため、過去の履歴から、運転支援システムの機械学習モデルの精度向上を図るために、逐次学習に適する学習データを適正に取得することが重要である。

本発明は、上記に鑑みてなされたものであって、模倣学習においてＪＩＴ法による逐次学習に適する学習データを用い、モデルの精度の向上を図ることができる学習装置、学習方法及び学習プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、学習装置は、製品の生産工程における状況を表す説明変数と、前記生産工程における機器の操作を表す目的変数との組み合わせである第１の履歴を収集する収集部と、前記第１の履歴に対する除外期間を設定する設定部と、学習開始時刻以降であり、かつ、現時刻よりも前記除外期間以前の前記第１の履歴から、少なくとも、前記説明変数と指定された説明変数との距離に基づいて第２の履歴を取得する取得部と、前記第２の履歴を用いて、前記説明変数から前記目的変数を出力するモデルを更新する更新部と、を有することを特徴とする。

本発明によれば、模倣学習においてＪＩＴ法による逐次学習に適する学習データを用い、モデルの精度の向上を図ることができる。

図１は、プラント運用システムについて説明する図である。図２は、実施の形態に係る処理装置の構成例を示す図である。図３は、履歴ＤＢの例を示す図である。図４は、処理装置の処理を説明する図である。図５は、実施の形態に係る処理の手順を示すフローチャートの一例を示す図である。図６は、説明変数と目的変数との時系列データの一例を示す図である。図７は、説明変数と目的変数との時系列データの一例を示す図である。図８は、プログラムを実行するコンピュータの一例を示す図である。

以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［実施の形態］
［実施の形態の構成］
まず、図１を用いて、プラント運用システムについて説明する。プラント運用システム１は、プラントにおける製品の生産工程の管理及び制御を行うためのシステムである。例えば、プラントには、化学製品を生産するための化学プラントが含まれる。

図１に示すように、プラント運用システム１は、処理装置１０、端末装置２０及びプラントシステム３０を有する。

処理装置１０は、模倣学習を行うためのモデル（機械学習モデル）に関する処理を行う。処理装置１０は学習装置として機能することができる。

また、処理装置１０及びプラントシステム３０は、ネットワークを介して互いにデータ通信ができるように接続されている。例えば、ネットワークはインターネット及びイントラネットである。

プラントシステム３０は、生産工程で使用される機器及び分散制御システム（ＤＣＳ：Distributed Control System）を含むものであってもよい。例えば、機器は、反応器、冷却器、気液分離器等である。

端末装置２０は、パーソナルコンピュータ、タブレット型端末及びスマートフォン等の情報処理装置、または、プラントの機器を操作するための専用の端末である。

オペレータ（運転員）は、端末装置２０を介してプラントシステム３０に含まれる機器を操作するユーザである。なお、処理装置１０において使用されるモデルは、システム管理者等によって適宜管理される。

図１に基づき、プラント運用システム１の各装置の処理を説明する。

端末装置２０は、オペレータの操作（手動）に応じて、プラントシステム３０の機器を操作する（ステップＳ１）。例えば、端末装置２０は、操作により、機器内の温度、機器内の圧力、生産工程における生産量の目標値、機器に投入する原料の量等を設定する。

プラントシステム３０は、端末装置２０からの操作に従い稼働する（ステップＳ２）。そして、プラントシステム３０は、稼働の履歴を処理装置１０に送信する（ステップＳ３）。処理装置１０は、プラントシステム３０から収集した各履歴（第１の履歴）を履歴データベース（ＤＢ）に登録する。

例えば、履歴には、プラントシステム３０の各所に設置されたセンサのセンサ値、端末装置２０からの操作によって設定された設定値が含まれる。また、履歴は、各レコードに時刻（タイムスタンプ）が付された時系列データであってもよい。

端末装置２０は、オペレータの操作に応じて、オートパイロット条件を処理装置１０に送信する（ステップＳ４）。オートパイロット条件は、モデルの予測値と、実測値との誤差や、プラントシステム３０の各所に設置されたセンサのセンサ値を基に設定される。例えば、オートパイロット条件は、モデルの予測値と実測値との誤差が所定回数にわたって所定の閾値未満であることや、モデルの予測値と実測値との誤差の直近所定回数の平均が所定の閾値未満であること、あるいは特定のセンサのセンサ値が閾値以下であることなどである。オートパイロット条件は、システム管理者等によって設定されたものでもよい。

処理装置１０は、プラントシステム３０から収集した各履歴に対する除外期間Ｔを設定する。続いて、処理装置１０は、モデルの学習（例えば、機械学習）のために使用する学習データ（第２の履歴）を第１の履歴の中から取得し、例えば重みを付与して、モデルの学習を行い、モデルを使った推論を行う（ステップＳ５）。処理装置１０は、学習開始時刻ｔ０から、時刻（ｔ－Ｔ）までの学習対象期間Ｖに収集された第１の履歴から、学習データを取得する。処理装置１０の各処理の詳細については後述する。

さらに、処理装置１０は、推論結果をオペレータの端末装置２０に提供する（ステップＳ６）。例えば、推論結果は、状況から予測される操作内容であり、予測される操作内容を示すガイダンス画面２１が、端末装置２０の画面に表示される。オペレータは、例えば、端末装置２０に表示されたガイダンス画面２１の操作内容に従いプラントシステム３０を操作する（ステップＳ１）。

また、処理装置１０は、オートパイロット条件を用いて、処理装置１０によるオートパイロットの可否を判定してもよい。

この場合、処理装置１０は、推論結果及びオートパイロット実施判定結果を示すガイダンス画面２１をオペレータの端末装置２０に提示する（ステップＳ６）。処理装置１０は、オートパイロット条件を満たす場合には、ガイダンス画面２１に、オートパイロットの開始が可能になったことを表示する。端末装置２０から、処理装置１０にオートパイロット開始が指示されると（ステップＳ７）、処理装置１０は、モデルを用いた、プラントシステム３０のオートパイロット制御を行う（ステップＳ８）。

そして、処理装置１０は、オートパイロットを実施中、オートパイロット条件を満たさない場合には、ガイダンス画面２１に、オートパイロットの停止指示を表示する。端末装置２０から、オートパイロット停止が指示されると（ステップＳ７）、処理装置１０は、プラントシステム３０のオートパイロット制御を停止する。端末装置２０は、オペレータの操作に応じて、プラントシステム３０の機器を操作する（ステップＳ１）。

ここで、推論に使用するモデルは、オペレータの操作内容を模倣学習により学習する。このため、モデルによる推論結果として得られる操作内容に従うことで、他のオペレータが操作を模倣することができる。

［処理装置］
図２を用いて、処理装置１０について詳細に説明する。図２は、実施の形態に係る処理装置１０の構成例を示す図である。

図２に示すように、処理装置１０は、通信部１１、記憶部１２及び制御部１３を有する。

通信部１１は、ネットワークを介して、他の装置との間でデータ通信を行う。例えば、通信部１１はＮＩＣ（Network Interface Card）である。

記憶部１２は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non Volatile Static Random Access Memory）等のデータを書き換え可能な半導体メモリであってもよい。

記憶部１２は、処理装置１０で実行されるＯＳ（Operating System）や各種プログラムを記憶する。記憶部１２は、履歴ＤＢ１２１及びモデル情報１２２を記憶する。

履歴ＤＢ１２１は、プラントシステム３０から提供された第１の履歴を含む情報である。履歴ＤＢ１２１は、操作実施時刻、機器の操作を行ったオペレータ、状況、実施内容等の説明変数リスト、目的変数である設定値を含む。また、履歴ＤＢ１２１は、重みを含んでもよい。

状況は、例えば、プラントシステム３０の各所に設置されたセンサのセンサ値であって、温度、流量、圧力、生産工程で発生する気体の濃度等の項目を含む。

温度、流量、圧力、気体濃度は、モデルの説明変数であって、製品の生産工程における状況を表す説明変数の一例である。各項目には、各センサ値が取得された日時を示すタイムスタンプが対応付けられる。

実施内容は、例えば、プラント制御で良く利用される制御手法であるPID制御のSV値（設定値）、MV値（制御出力）などであり、端末装置２０からの操作によって設定される設定値である。設定値は、実際に設定された値を正規化した値であってもよい。設定値は、モデルの目的変数に相当する。

設定値は、モデルの目的変数であって、生産工程における機器の操作を表す目的変数の一例である。

モデル情報１２２は、モデルを構築するためのパラメータ等の情報である。モデルがニューラルネットワークである場合、モデル情報１２２は、各層の重み及びバイアスであり、モデルがLasso回帰やRidge回帰の場合は重みおよび正則化パラメータである。さらに、モデル情報１２２は、前処理の順番、移動平均処理における窓幅（ウィンドウサイズ）等のパラメータを含む。

制御部１３は、処理装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の電子回路や、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等の集積回路である。

また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、収集部１３１、設定部１３２、取得部１３３、更新部１３４、推論部１３５、表示制御部１３６及びオートパイロット制御部１３７を有する。図３を用いて、処理装置１０の各機能部の処理を説明する。図４は、処理装置１０の処理を説明する図である。

収集部１３１は、プラントシステム３０における稼働の履歴を収集し（図３の（１））、収集した履歴を履歴ＤＢ１２１に追加する（図３の（２））。履歴は、説明変数と目的変数との組み合わせである第１の履歴の一例である。

設定部１３２は、第１の履歴に対する除外期間Ｔを設定する。図４は、除外期間を説明する図である。除外期間Ｔは、モデルの学習データの学習対象期間から除外される期間である。現在の時刻をｔとする、学習対象期間Ｖは、学習開始時刻ｔ０（例えば、６か月前の時刻）から、時刻（ｔ－Ｔ）までの期間となり、学習対象期間Ｖの間に収集された第１の履歴から、学習データが取得される。

設定部１３２は、例えば、現在の時刻から、所定の期間（例えば、１２時間）を除外期間Ｔに設定する。例えば、目的変数である生産工程における機器の操作の履歴を収集し、実際に、どのくらいの期間、操作が行われていないかについて統計を取った結果を基に、除外期間が設定される。

また、設定部１３２は、目的変数の変化の有無に応じて、除外期間Ｔを設定してもよい。この場合、設定部１３２は、目的変数が変化したかを判定する（図３の（３））。例えば、１分ごとにモデル学習が行われる場合には、目的変数の変化の判定も１分ごとに実行する。

そして、設定部１３２は、目的変数が変化していない場合、除外期間Ｔを延長する。（図３の（４））。具体的には、設定部１３２は、現時刻から遡って、現時刻と目的変数が同じ値である期間を、除外期間Ｔとして設定する。例えば、１分ごとにモデル学習が行われ、前回設定された除外期間Ｔが３時間である場合、設定部１３２は、除外期間Ｔを３時間１分に延長する。

一方、設定部１３２は、目的変数が変化した場合、除外期間Ｔを０に設定する（図３の（５））。すなわち、前回学習時から現在の時刻ｔまでの間にオペレータの操作により目的変数が変化した場合には、除外期間Ｔを０とすることで、前回目的変数が変化した時から、1分前までの操作履歴が学習対象期間Ｖの学習データに含まれるようにする。

続いて、取得部１３３は、学習開始時刻ｔ０以降であり、かつ、現時刻よりも除外期間Ｔ以前の、履歴ＤＢ１２１に含まれる第１の履歴の中から、説明変数と指定された説明変数との距離に基づいて、学習データである第２の履歴を取得する。取得部１３３は、履歴ＤＢ１２１に含まれる学習対象期間Ｖの第１の履歴の中から、説明変数と指定された説明変数との距離、及び、重みに基づいて第２の履歴を取得してもよい。

取得部１３３は、履歴検索用キー（説明変数）が指定されると、この履歴検索キーに類似する過去の履歴群であって、学習開始時刻ｔ０から、時刻（ｔ－Ｔ）までの学習対象期間Ｖの過去履歴群を、第２の履歴として、履歴ＤＢ１２１から取得する（図３の（６））。

指定された説明変数を要求点と呼ぶ。例えば、要求点は、所定の時刻における説明変数（履歴ＤＢ１２１の各センサ値に相当）である。なお、要求点における目的変数（設定値）は未知であってもよい。

ここで、ＪＩＴ法では、多次元ベクトルである訓練用のデータ（実施の形態の履歴ＤＢ１２１に相当）と多次元ベクトルである要求点との距離を基に類似履歴が取得される。例えば、取得部１３３は、ＪＩＴ法を用いて、計算されたユークリッド距離が小さいｋ（ｋは整数）個のレコードであるｋ最近傍（k-NN:k Nearest Neighbors）を取得する。なお、訓練用のデータと要求点との距離は、ユークリッド距離に限られず、例えばマハラノビス距離及びコサイン類似度等であってもよい。

また、取得部１３３は、訓練用のデータと要求点との距離だけでなく、履歴ＤＢ１２１の重みを参照してレコードを取得してもよい。ここでは、重みが大きいほど取得対象として望ましいデータである場合、例えば、取得部１３３は、履歴ＤＢ１２１の中から、ｋ最近傍であって、かつ重みが大きいデータを優先して取得する。

更新部１３４は、取得部１３３によって取得された第２の履歴を用いて、説明変数から目的変数を出力するモデルの学習を行い（図３の（７））、モデルを更新する（図３の（８））。

更新部１３４は、モデル情報１２２から構築したモデルに、説明変数を入力することにより計算された目的変数と、取得部１３３によって取得された学習データに含まれる目的変数との差分を表す目的関数を計算し、該目的関数が小さくなるように、学習の終了条件を満たすまでモデルのパラメータ、すなわちモデル情報１２２を繰り返し更新する。なお、学習データに重みが付与されている場合には、付与された重みで学習データを学習する。

推論部１３５は、更新後のモデル情報１２２から構築したモデルに、予測用の説明変数を入力することにより目的変数を計算する。すなわち、推論部１３５は推論処理を行う（図３の（９））。推論された目的変数は、例えば、状況から予測される操作内容である。

表示制御部１３６は、推論された目的変数（例えば、操作内容）を示すガイダンス画面２１を、端末装置２０に表示させることで、推論結果をオペレータに提示する（図３の（１０））。

なお、オートパイロット条件を満たす場合には、表示制御部１３６は、ガイダンス画面２１に、オートパイロットの開始が可能になったことを表示する。そして、端末装置２０から、処理装置１０にオートパイロット開始が指示されると、オートパイロット制御部１３７は、モデルを用いた、プラントシステム３０のオートパイロット制御を行う（図３の（１１））。

［実施の形態の処理］
図５を用いて、実施の形態に係る処理手順を説明する。図５は、実施の形態に係る処理の手順を示すフローチャートの一例を示す図である。

図５に示すように、処理装置１０は、プラントシステム３０における稼働の履歴を収集し（ステップＳ１１）、収集した履歴を履歴ＤＢ１２１に格納する。

処理装置１０は、目的変数が変化したかを判定する（ステップＳ１２）。処理装置１０は、現在の時刻ｔにおいて収集した目的変数が、例えば、前回収集時に収集された履歴の目的変数と比することで、目的変数の変化の有無を判定する。

目的変数が変化していない場合（ステップＳ１２：Ｎｏ）、処理装置１０は、除外期間Ｔを延長する（ステップＳ１３）。目的変数が変化した場合（ステップＳ１２：Ｙｅｓ）、処理装置１０は、除外期間Ｔを０に設定する（ステップＳ１４）。

処理装置１０は、取得部１３３が、学習開始時刻ｔ０以降であり、かつ、時刻（ｔ－Ｔ）までの学習対象期間Ｖの、履歴ＤＢ１２１に含まれる第１の履歴の中から、説明変数と指定された説明変数との距離に基づいて第２の履歴を抽出する。取得部１３３は、履歴検索キー（説明変数）が指定されると、この履歴検索キーに類似する学習対象期間Ｖ過去の履歴群を、第２の履歴として、履歴ＤＢ１２１から取得する（ステップＳ１５）。

処理装置１０は、ステップＳ１５において取得された学習データを用いて、説明変数から目的変数を出力するモデルの学習を行い（ステップＳ１６）、モデルを更新する（ステップＳ１７）。

処理装置１０は、更新後のモデル情報１２２から構築したモデルに、予測用の説明変数（例えば、温度、流量など）を入力することにより目的変数（例えば、操作内容）を推論する（ステップＳ１８）。

続いて、処理装置１０は、オートパイロット条件を用いて、オートパイロットの実施の可否を判定する（ステップＳ１９）。

処理装置１０は、オートパイロットの実施が可能であると判定した場合（ステップＳ１９：Ｙｅｓ）、オートパイロットの実施が可能であることを示す提示内容と、オートパイロットの実施の指示ボタンとを含むガイダンス画面を、端末装置２０に表示させる。そして、処理装置１０は、端末装置２０からオートパイロットの実施を指示された場合には、モデルを用いた、プラントシステム３０のオートパイロット制御を行う（ステップＳ２１）。

処理装置１０は、オートパイロットの実施が不可能であると判定した場合（ステップＳ１９：Ｎｏ）、オートパイロットの停止指示と、オートパイロットの停止ボタンとを含むガイダンス画面を、端末装置２０に表示させる（ステップＳ２０）。処理装置１０は、端末装置２０からオートパイロットの停止を指示された場合には、プラントシステム３０のオートパイロット制御を停止し、オペレータによる手動操作の切り替え、或いは、手動操作を継続する。

また、オートパイロットの判定をオペレータが行う場合には、処理装置１０は、ステップＳ１９の判定処理を省略し、ステップＳ１８において推論された目的変数（例えば、操作内容）を示すガイダンス画面を、端末装置２０に表示させることで、推論結果をオペレータに提示する（ステップＳ２０）。

処理装置１０は、ステップＳ１１～ステップＳ２１の処理を、所定の時間（例えば、１分）ごとに実行する。

［実施の形態の効果］

図６及び図７は、時系列データである説明変数と目的変数の一例を示す図である。オペレータは、プラントの状態（説明変数）を確認しながら、プラントシステム３０の機器（制御対象（目的変数））を不定期に操作する（図６の（１））。一方、期間Ｕ１に例示するように、オペレータが操作しなければ、プラントの状態が急に変化することは少ない。言い換えると、目的変数が直前と同一であれば、直近の時刻と現在の時刻とで説明変数ベクトルに大きな変化はない。

逐次学習を行うＪＩＴ法を用いて模倣学習の場合、期間Ｕ１の履歴をモデルに学習させると、直近の運転（例えば、１分前の操作）を継続するようにモデルが推論を行う可能性が高い。期間Ｕ１の履歴は、現在の時刻の目的変数が、直近の時刻の目的変数と同一であり、説明変数ベクトルに大きな変化がないためである。したがって、現在の時刻の目的変数が、直近の時刻の目的変数と同一であり、説明変数ベクトルに大きな変化がない履歴を用いて模倣学習が実行されたモデルは、常に直前の操作を継続する様に推薦する可能性が高いため、プラントシステム３０の運転を支援するモデルとしては不適切である。

ここで、実施の形態に係る処理装置１０は、第１の履歴に対する除外期間Ｔを設定し、学習開始時刻ｔ０以降であり、かつ、現時刻よりも除外期間Ｔ以前の第１の履歴から、少なくとも、第１の履歴の説明変数と、指定された説明変数との距離に基づいて第２の履歴を取得する。そして、処理装置１０は、第２の履歴を用いて、説明変数から目的変数を出力するモデルを更新する。

すなわち、処理装置１０では、除外期間Ｔの履歴を除外した履歴を、モデルの学習データとして使用する。したがって、処理装置１０は、除外期間Ｔを設定することで、モデルに、直近の運転を模倣させることを回避することができ、逐次学習に適する学習データを適正に取得することができる。このため、処理装置１０によれば、運転支援システムの機械学習モデルの精度向上を図ることができる。

さらに、処理装置１０は、目的変数の変化の有無に応じて、除外期間Ｔを設定することで、さらに、逐次学習に適する学習データを適正に取得することを可能にする。

例えば、図７に示すように、時刻ｔ１１において、処理装置１０のモデルによる推論結果と、オペレータが期待する操作とのずれが発生した場合、オートパイロットから手動操作に切り替え、操作履歴をモデルに再度学習させる必要がある（図７の（１））。例えば、生産量の変更や、生産品目の変更、経年劣化などにより、模倣学習による計算精度が劣化した場合、手動操作に切替え、モデルに操作履歴を学ばせることにより、モデルの精度を回復させる。

ここで、除外期間Ｔが一定（例えば、１２時間）の場合、オートパイロットをオフにしても、オートパイロットオフ後の１２時間はモデルの学習が再開されず、待機する必要がある。このため、モデルが新たに操作を学習し精度が回復するまで時間を要するため、オートパイロットの再開が遅れる。また、オートパイロットオフ後の１２時間の間の操作履歴は学習データから除外されるため、学習すべき操作履歴をモデルが学習できない場合もある。

これに対し、処理装置１０は、目的変数が変化した場合、除外期間Ｔを０に設定する。図７の例では、時刻ｔ１１の直後に手動操作に切り替わると、除外期間Ｔは０となるため、手動操作に切り替えられた時刻ｔ１２の操作履歴もモデルの再学習対象となる（図７の（２））。

このため、処理装置１０は、除外期間Ｔを待つことなく、手動操作に切り替えられる直前までのデータを用いてモデルの再学習が可能となり、学習すべき操作履歴を、適切にモデルに学習させることができる。

そして、模倣学習により、処理装置１０のモデルによる推論結果と、オペレータが期待する操作とのずれが徐々に解消され（図７の（３））、時刻ｔ１３において、ずれが解消されたため、オートパイロットがオンとされる（図７の（４））。

一方、処理装置１０は、目的変数が変化していない場合、現時刻から遡って、現時刻と目的変数が同じ値である期間を、除外期間Ｔとして設定する。すなわち、処理装置１０は、除外期間Ｔを延長する。このため、処理装置１０は、目的変数が直前と同一であり、説明変数ベクトルに大きな変化がない期間の履歴を学習データから除外することで、オペレータによる操作履歴を、適切にモデルに学習させることができる。

したがって、処理装置１０は、学習に適した履歴のみを用いて、モデルを更新することができるため、モデルの推論精度を向上させることができる。特に、処理装置１０は、模倣学習においてＪＩＴ法による逐次学習に適する学習データを用いてモデル更新を行うため、プラントシステム３０の適切な操作と、モデルの精度向上とを並行して実現することができる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central Processing Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、処理装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を処理装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置には、タブレット型端末、スマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、処理装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理に関するサービスを提供するサーバとして実装することもできる。例えば、サーバは、要求点の指定を入力とし、学習済みのモデルを出力とする学習サービスを提供するサーバ装置として実装される。この場合、サーバは、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図８は、プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、処理装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、処理装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１プラント運用システム
１０処理装置
２０端末装置
３０プラントシステム
１１通信部
１２記憶部
１３制御部
１２１履歴ＤＢ
１２２モデル情報
１３１収集部
１３２設定部
１３３取得部
１３４更新部
１３５推論部
１３６表示制御部
１３７オートパイロット制御部

Claims

製品の生産工程における状況を表す説明変数と、前記生産工程における機器の操作を表す目的変数との組み合わせである第１の履歴を収集する収集部と、
前記第１の履歴に対する除外期間を設定する設定部と、
学習開始時刻以降であり、かつ、現時刻よりも前記除外期間以前の前記第１の履歴から、少なくとも、前記説明変数と指定された説明変数との距離に基づいて第２の履歴を取得する取得部と、
前記第２の履歴を用いて、前記説明変数から前記目的変数を出力するモデルを更新する更新部と、
を有することを特徴とする学習装置。
前記設定部は、前記目的変数の変化の有無に応じて、前記除外期間を設定することを特徴とする請求項１に記載の学習装置。
前記設定部は、前記目的変数が変化した場合、前記除外期間を０に設定することを特徴とする請求項２に記載の学習装置。
前記設定部は、前記目的変数が変化していない場合、現時刻から遡って、現時刻と目的変数が同じ値である期間を、前記除外期間として設定することを特徴とする請求項２に記載の学習装置。
学習装置が実行する学習方法であって、
製品の生産工程における状況を表す説明変数と、前記生産工程における機器の操作を表す目的変数との組み合わせである第１の履歴を収集する工程と、
前記第１の履歴に対する除外期間を設定する工程と、
学習開始時刻以降であり、かつ、現時刻よりも前記除外期間以前の前記第１の履歴から、少なくとも、前記説明変数と指定された説明変数との距離に基づいて第２の履歴を取得する工程と、
前記第２の履歴を用いて、前記説明変数から前記目的変数を出力するモデルを更新する工程と、
を含んだことを特徴とする学習方法。
製品の生産工程における状況を表す説明変数と、前記生産工程における機器の操作を表す目的変数との組み合わせである第１の履歴を収集するステップと、
前記第１の履歴に対する除外期間を設定するステップと、
学習開始時刻以降であり、かつ、現時刻よりも前記除外期間以前の前記第１の履歴から、少なくとも、前記説明変数と指定された説明変数との距離に基づいて第２の履歴を取得するステップと、
前記第２の履歴を用いて、前記説明変数から前記目的変数を出力するモデルを更新するステップと、
をコンピュータに実行させるための学習プログラム。