JP7275233B1

JP7275233B1 - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP7275233B1
Application number: JP2021188226A
Authority: JP
Inventors: 浩二伊藤; 健一郎島田; 知範泉谷; 大地木村; 和輝小山; 大悟藤原
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2023-05-17
Anticipated expiration: 2041-11-18
Also published as: JP2023103311A; JP2023100830A; JP2023074986A

Abstract

【課題】模倣学習においてＪＩＴ法による逐次学習を繰り返した場合の、モデルの出力の妥当性の低下を抑止すること。【解決手段】付与部１３４は、説明変数と目的変数との組み合わせである第１のデータのそれぞれに重みを付与する。抽出部１３１は、第１のデータの中から、説明変数と指定された説明変数との距離、及び重みに基づいて第２のデータを抽出する。更新部１３３は、第２のデータを用いて、説明変数から目的変数を出力するモデルを更新する。【選択図】図２

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。

従来、人間の行動を機械学習モデルに学習させ、当該モデルを用いて人間又はロボット等に動作を教示する模倣学習という技術が知られている。

また、観測されたデータを大量に蓄積しておき、蓄積されたデータの中から要求点の近傍のデータを抽出し、当該抽出したデータを用いてモデルの逐次学習を行うJust-In-Time（ＪＩＴ）法という技術が知られている（例えば、非特許文献１を参照）。

ここで、例えば化学プラントにおいては、時間の経過に応じて、機器の経年劣化、触媒の劣化、生産ロード計画の変更等の環境の変化が生じる。

これに対し、化学プラントにおけるオペレータによる機器の操作を学習する模倣学習にＪＩＴ法を適用して、モデルを環境の変化に適応させることが考えられる。

特開２０１９－１８５１９４号公報

山本茂、「Just-In-Time予測制御：蓄積データに基づく予測制御」、計測と制御第 52 巻第 10 号 2013 年 10 月号（https://www.jstage.jst.go.jp/article/sicejl/52/10/52_878/_pdf/-char/ja）

しかしながら、模倣学習にＪＩＴ法を適用した場合、逐次学習を繰り返すうちに、初期の段階でモデルに反映されたオペレータのスキルが失われていき、モデルの出力の妥当性が低下するという問題がある。

例えば、初期の段階でオペレータの操作を学習したモデルの出力に従って機器を操作すれば、未熟なオペレータによる操作であったとしても、機器及び機器が稼働するプラントの運転品質が向上することが期待される。そのため、当該モデルの出力の妥当性は高いということができる。

一方で、時間の経過に従って、オペレータを模倣し実施した履歴が訓練用のデータとして蓄積されていくとともにモデルの学習が逐次行われるため、初期段階で学習したデータの影響は薄くなり、モデルの出力の妥当性が低下することが考えられる。

そして、そのような妥当性が低下した出力に従って機器の操作を行った場合、機器及びプラントの運転品質の低下、及びコストの増加といった問題が生じ得る。

上述した課題を解決し、目的を達成するために、学習装置は、説明変数と目的変数との組み合わせである第１のデータのそれぞれに重みを付与する付与部と、前記第１のデータの中から、前記説明変数と指定された説明変数との距離、及び前記重みに基づいて第２のデータを抽出する抽出部と、前記第２のデータを用いて、前記説明変数から前記目的変数を出力するモデルを更新する更新部と、を有することを特徴とする。

本発明によれば、模倣学習においてＪＩＴ法による逐次学習を繰り返した場合の、モデルの出力の妥当性の低下を抑止することができる。

図１は、プラント運用システムについて説明する図である。図２は、第１の実施形態に係るサーバの構成例を示す図である。図３は、履歴ＤＢの例を示す図である。図４は、予測対象と訓練データの関係を説明する図である。図５は、第１の実施形態に係る学習処理の流れを示すフローチャートである。図６は、分類方法を説明する図である。図７は、第２の実施形態に係る学習処理の流れを示すフローチャートである。図８は、学習プログラムを実行するコンピュータの一例を示す図である。

以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態］
［第１の実施形態の構成］
まず、図１を用いて、プラント運用システムについて説明する。プラント運用システム１は、プラントにおける製品の生産工程の管理及び制御を行うためのシステムである。プラントには、化学製品を生産するための化学プラントが含まれる。

図１に示すように、サーバ１０、端末装置２０、端末装置３０及びプラントシステム４０を有する。

サーバ１０は、模倣学習を行うためのモデルに関する処理を行う。サーバ１０は学習装置として機能することができる。

また、サーバ１０、端末装置２０、端末装置３０及びプラントシステム４０は、ネットワークＮを介して互いにデータ通信ができるように接続されている。例えば、ネットワークＮはインターネット及びイントラネットである。

端末装置２０及び端末装置３０は、パーソナルコンピュータ、タブレット型端末及びスマートフォン等の情報処理装置である。また、端末装置３０は、プラントの機器を操作するための専用の端末であってもよい。

プラントシステム４０は、生産工程で使用される機器及び分散制御システム（ＤＣＳ：Distributed Control System）を含むものであってもよい。例えば、機器は、反応器、冷却器、気液分離器等である。

オペレータは、端末装置３０を介してプラントシステム４０に含まれる機器を操作するユーザである。また、スタッフは、端末装置２０を介して、サーバ１０において使用されるモデルを管理するユーザである。

図１に基づき、プラント運用システム１の各装置の処理を説明する。

まず、端末装置２０は、スタッフの操作に応じてモデルの管理を行う（ステップＳ１）。例えば、端末装置２０は、サーバ１０に対して、モデルの変更や学習処理及び推論処理の実行を指示することができる。また、端末装置２０は、サーバ１０から取得した情報を出力し、スタッフに提示することができる。

端末装置３０は、オペレータの操作に応じて、プラントシステム４０の機器を操作する（ステップＳ２）。例えば、端末装置３０は、操作により、機器内の温度、機器内の圧力、生産工程における生産量の目標値、機器に投入する原料の量等を設定する。

プラントシステム４０は、端末装置３０からの操作に従い稼働する（ステップＳ３）。そして、プラントシステム４０は、稼働の履歴をサーバ１０に提供する（ステップＳ４）。

例えば、履歴には、プラントシステム４０の各所に設置されたセンサのセンサ値、端末装置３０からの操作によって設定された設定値が含まれる。また、履歴は、各レコードに時刻（タイムスタンプ）が付された時系列データであってもよい。

サーバ１０は、モデルの学習、モデルを使った推論及びデータ抽出のための重みの付与を行う（ステップＳ５）。サーバ１０の各処理の詳細については後述する。

さらに、サーバ１０は、推論結果をオペレータに提供する（ステップＳ６）。例えば、推論結果は、状況から予測される操作内容である。オペレータは、提供された操作内容に従いプラントシステム４０を操作する。

モデルは、オペレータの操作内容を模倣学習により学習する。そのため、モデルによる推論結果として得られる操作内容に従うことで、他のオペレータが操作を模倣することができる。

図２を用いて、サーバ１０について詳細に説明する。図２は、第１の実施形態に係るサーバの構成例を示す図である。

図２に示すように、サーバ１０は、通信部１１、記憶部１２及び制御部１３を有する。

通信部１１は、ネットワークを介して、他の装置との間でデータ通信を行う。例えば、通信部１１はＮＩＣ（Network Interface Card）である。

記憶部１２は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non Volatile Static Random Access Memory）等のデータを書き換え可能な半導体メモリであってもよい。

記憶部１２は、サーバ１０で実行されるＯＳ（Operating System）や各種プログラムを記憶する。記憶部１２は、モデル情報１２１及び履歴ＤＢ１２２を記憶する。

モデル情報１２１は、モデルを構築するためのパラメータ等の情報である。例えば、モデルがニューラルネットワークである場合、モデル情報１２１は、各層の重み及びバイアスである。さらに、モデル情報１２１は、前処理の順番、移動平均処理における窓幅（ウィンドウサイズ）等のパラメータを含む。

履歴ＤＢ１２２は、プラントシステム４０から提供された履歴を含む情報である。図３は、履歴ＤＢの例を示す図である。図３に示すように、履歴ＤＢ１２２は、時刻、第１温度、第２温度、第１圧力、第２圧力、流量、設定値、ＣＯ２濃度等の説明変数リスト、目的変数である設定値、及び重みを含む。

第１温度、第２温度、第１圧力、第２圧力及び流量は、それぞれプラントシステム４０の各所に設置されたセンサのセンサ値である。

第１温度、第２温度、第１圧力、第２圧力及び流量は、モデルの説明変数であって、製品の生産工程における状況を表す説明変数の一例である。

また、設定値は、端末装置３０からの操作によって設定される値である。設定値は、実際に設定された値を正規化した値であってもよい。また、設定値は、モデルの目的変数に相当する。

設定値は、モデルの目的変数であって、生産工程における機器の操作を表す目的変数の一例である。

ＣＯ２濃度は、生産工程で発生するＣＯ２の濃度であり、後述する重みを付与する処理において指標として用いられる。

重みは、履歴ＤＢの各レコードに付与される値である。重みを付与する処理及び重みを使ってデータを抽出する処理については後述する。

なお、時刻は、第１温度、第２温度、第１圧力、第２圧力、流量及びＣＯ２濃度が取得された日時を示すタイムスタンプである。

例えば、図３には、時刻「2021/11/5 13:30:01」における第１温度が「４０℃」であり、第２温度が「２４１℃」であり、第１圧力が「５０１ｈＰａ」であり、第２圧力が「１１９ｈＰａ」であり、流量が「１２ｍ３／ｓ」であり、設定値が「０．２」であり、ＣＯ２濃度が「７００ｐｐｍ」であることが示されている。

さらに、図３には、時刻「2021/11/5 13:30:01」のレコードには、重み「１．１１」が付与されたことが示されている。

制御部１３は、サーバ１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の電子回路や、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等の集積回路である。

また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、抽出部１３１、計算部１３２、更新部１３３、付与部１３４及び表示制御部１３５を有する。

抽出部１３１は、履歴ＤＢ１２２に含まれるデータの中から、説明変数と指定された説明変数との距離、及び重みに基づいてデータを抽出する。履歴ＤＢ１２２に含まれるデータは、第１のデータの一例である。また、抽出部１３１によって抽出されるデータは、第２のデータの一例である。

指定された説明変数を要求点と呼ぶ。例えば、要求点は、所定の時刻における説明変数（履歴ＤＢ１２２の各センサ値に相当）である。また、要求点における目的変数（設定値）は未知であってもよい。

ここで、ＪＩＴ法では、多次元ベクトルである訓練用のデータ（本実施形態の履歴ＤＢ１２２に相当）と多次元ベクトルである要求点とのユークリッド距離を基にデータが抽出される。なお、訓練用のデータと要求点との距離は、ユークリッド距離に限られず、例えばマハラノビス距離及びコサイン類似度等であってもよい。

一方で、本実施形態のサーバ１０（学習装置）は、訓練用のデータと要求点との距離だけでなく、重みを使ってデータの抽出を行う。

まず、抽出部１３１は、要求点と履歴ＤＢ１２２の各レコードとの間のユークリッド距離を計算する。なお、要求点及び履歴ＤＢ１２２の各レコードはベクトルで表されるため、抽出部１３１は、非特許文献２に記載の方法によりユークリッドノルムを計算してもよい。

従来のＪＩＴ法では、計算されたユークリッド距離が小さいｋ（ｋは整数）個のレコードであるｋ最近傍（k-NN:k Nearest Neighbors）が抽出される。

一方、抽出部１３１は、計算したユークリッド距離だけでなく、履歴ＤＢ１２２の重みを参照してレコードを抽出する。

ここでは、重みが大きいほど抽出対象として望ましいデータであるものとする。このとき、抽出部１３１は、履歴ＤＢ１２２の中から、距離が大きいほど大きくなり、かつ重みが大きいほど小さくなる値が小さいデータを優先して抽出する。

例えば、抽出部１３１は、ユークリッド距離に重みの逆数を掛けた値が小さい順にｋ（例えば１，０００）個のレコードを履歴ＤＢ１２２から抽出する。

また、例えば、抽出部１３１は、重みが閾値以上である履歴ＤＢ１２２のレコードを、ユークリッド距離が小さい順にｋ個だけ抽出してもよい。

また、例えば、抽出部１３１は、ユークリッド距離が閾値以下である履歴ＤＢ１２２のレコードを、重みが大きい順にｋ個だけ抽出してもよい。

計算部１３２は、モデル情報１２１から構築したモデルに、説明変数を入力することにより目的変数を計算する。すなわち、計算部１３２は推論処理を行う。

更新部１３３は、抽出部１３１によって抽出されたデータを用いて、説明変数から目的変数を出力するモデルを更新する。

例えば、更新部１３３は、計算部１３２によって計算された目的変数と、抽出部１３１によって抽出されたデータに含まれる目的変数との差分を表す目的関数を計算し、当該目的関数が小さくなるように、学習の終了条件を満たすまでモデルのパラメータ、すなわちモデル情報１２１を繰り返し更新する。

図４は、予測対象と訓練データの関係を説明する図である。時刻ｔ－１までのデータである訓練データは、履歴ＤＢ１２２の設定値が登録済みのレコードである。一方、時刻ｔの予測対象のデータは、要求点に相当する。例えば時刻０から時刻ｔ－１までの期間が訓練データを検索する対象期間である。そのため、時間の経過（ｔの増加）に従い、訓練データを検索する対象期間が増加していく。

付与部１３４は、説明変数と目的変数との組み合わせである履歴ＤＢ１２２に含まれるデータのそれぞれに重みを付与する。

例えば、付与部１３４は、履歴ＤＢ１２２に含まれるデータのそれぞれに、指標を目標値に近付けることへの寄与度が大きいほど大きくなる重みを付与する。なお、本実施形態では、重みが大きいほど抽出対象として望ましいデータであるものとする。

このような重みに基づいて抽出したデータに基づいて学習が行われたモデルの出力に従って機器の操作を行うことで、より指標が改善されやすくなると考えられる。

例えば、付与部１３４は、製品の生産工程における状況を表す説明変数と、生産工程における機器の操作を表す目的変数との組み合わせである履歴ＤＢ１２２に含まれるデータのそれぞれに、生産工程において排出される所定の物質の濃度が大きいほど小さくなる重みを付与する。

また、付与部１３４は、第１の時刻に観測された事象に基づく指標の目標値との近さから得られる重みを、履歴ＤＢ１２２に含まれるデータのうち、第１の時刻よりあらかじめ定められた時間だけ過去の第２の時刻に対応付けられたデータに付与する。

さらに、付与部１３４は、指標が正の値であって、小さい方が望ましいとされる値である場合（例えば、目標値が０）、指標の逆数を重みとして付与する。

生産工程において排出される所定の物質は、例えばＣＯ２である。ここでは、温室効果ガス削減の観点から、排出されるＣＯ２の濃度は小さい方が望ましいこととする。

また、本実施形態のプラントシステム４０においては、設定値を設定する操作（設定値）の影響がＣＯ２の濃度に反映されるまでに要する時間が、約２０分であることが知られているものとする。

例えば、付与部１３４は、第１の時刻のレコードにおけるＣＯ２の濃度の逆数を正規化した値である重みを、履歴ＤＢ１２２の第１の時刻より２０分前の時刻のレコードに付与する。ＣＯ２の濃度は常に０以上であるため、ＣＯ２の濃度が目標値である０に近いほどＣＯ２の濃度の逆数は大きくなる。

図３の例では、付与部１３４は、時刻「2021/11/5 14:00:02」のＣＯ２濃度の逆数1/900を正規化した値を、時刻「2021/11/5 13:40:02」の重みに付与（加算）する。

さらに、ここでは、３０分前から設定値のＣＯ２濃度への影響が生じ始めると考え、付与部１３４は、時刻「2021/11/5 14:00:02」のＣＯ２濃度から得られた重みを、時刻「2021/11/5 13:30:02」から「2021/11/5 13:40:02」までの重みに付与（加算）する。

なお、指標は、ＣＯ２濃度に限られず、生産量、歩留まり、稼働時間、消費エネルギー等であってもよい。

また、状態が安定することが望ましいとされる場合、重みは、指標の分散が小さくなるほど大きくなる値であってもよい。

［第１の実施形態の処理］
図５を用いて第１の実施形態の学習処理の流れを説明する。図５は、第１の実施形態に係る学習処理の流れを示すフローチャートである。

図５に示すように、まず、サーバ１０は、評価用変数を基に履歴のレコードに重みを付与する（ステップＳ１０１）。評価用変数は、ＣＯ２濃度のような指標である。評価用変数は、説明変数又は目的変数に含まれているものであってもよい。

次に、サーバ１０は、所定のレコードからの距離及び重みを基に、履歴からレコードを抽出する（ステップＳ１０２）。例えば、サーバ１０は、要求点であるレコードからのユークリッド距離に重みの逆数を掛けた値が小さい順に所定の数のレコードを抽出する。

ここで、サーバ１０は、抽出したレコードを基にモデルを更新する（ステップＳ１０３）。例えば、サーバ１０は、抽出したレコードの各センサ値をモデルに入力して得られる設定値の誤差が最小化されるようにモデルを更新する。

サーバ１０は、Ridge及びLasso等の線形手法、又は深層学習等の非線形手法によりモデルを更新することができる。

［第１の実施形態の効果］
これまで説明してきたように、付与部１３４は、説明変数と目的変数との組み合わせである第１のデータのそれぞれに重みを付与する。抽出部１３１は、第１のデータの中から、説明変数と指定された説明変数との距離、及び重みに基づいて第２のデータを抽出する。更新部１３３は、第２のデータを用いて、説明変数から目的変数を出力するモデルを更新する。

このように、サーバ１０は、単に要求点との距離だけでなく、付与された重みを考慮して学習のためのデータを抽出することができる。その結果、本実施形態によれば、模倣学習においてＪＩＴ法による逐次学習を繰り返した場合の、モデルの出力の妥当性の低下を抑止することができる。

付与部１３４は、第１のデータのそれぞれに、指標を目標値に近付けることへの寄与度が大きいほど大きくなる重みを付与する。抽出部１３１は、第１のデータの中から、距離が大きいほど大きくなり、かつ重みが大きいほど小さくなる値が小さいデータを優先して抽出する。

これにより、要求点との距離と重みの両方を考慮したデータを容易に抽出することができる。

付与部１３４は、第１の時刻に観測された事象に基づく指標の目標値との近さから得られる重みを、第１のデータのうち、第１の時刻よりあらかじめ定められた時間だけ過去の第２の時刻に対応付けられたデータに付与する。

これにより、データが指標に反映されるまでに遅れ（タイムラグ）がある場合であっても、指標を改善するようなデータを精度良く抽出することができる。

付与部１３４は、指標が正の値であって、小さい方が望ましいとされる値である場合、指標の逆数を重みとして付与する。これにより、指標の大小関係を逆転させ、容易に重みとして利用することができる。

付与部１３４は、製品の生産工程における状況を表す説明変数と、生産工程における機器の操作を表す目的変数との組み合わせである第１のデータのそれぞれに、生産工程において排出される所定の物質の濃度が大きいほど小さくなる重みを付与する。

これにより、濃度が小さい方が望ましい物質の排出を抑えることが可能の操作をモデルに学習させることができる。

表示制御部１３５は、モデルの学習処理の実行を指示するための画面、又は履歴ＤＢの内容を閲覧するための画面等を、端末装置２０に表示させる。

［第２の実施形態］
第２の実施形態では、サーバ１０が、データの特性に応じて複数のモデルを使い分ける場合の例を説明する。また、第２の実施形態は、第１の実施形態と同様の構成のサーバ１０により実施される。

第２の実施形態において、抽出部１３１は、説明変数と目的変数とを組み合わせたである履歴ＤＢ１２２を分類した複数のクラスタのうちいずれかに属するデータの中から、要求点と説明変数との距離に基づいてデータを抽出する。

抽出部１３１は、ＪＩＴ法により各クラスタ内の過去のレコードを抽出する。なお、抽出部１３１は、データを抽出する際に、第１の実施形態において付与される重みを考慮してもよいし、考慮しなくてもよい。

また、更新部１３３は、抽出部１３１によって抽出されたデータを用いて、複数のクラスタのそれぞれに対応するモデルのうち、抽出部１３１によってデータが抽出されたクラスタに対応するモデルを更新する。

抽出部１３１は、履歴ＤＢ１２２の各レコードを図６の方法により複数のクラスタに分類するものとする。図６は、分類方法を説明する図である。

抽出部１３１は、統計的なクラスタリング手法により分類を行ってもよいし、ルールベースでの分類を行っても良い。

図６に示すように、抽出部１３１は、履歴ＤＢ１２２のレコードのうち、時刻が所定の期間に含まれるレコード群について、２つの変数間の各ラグ数における相互相関を計算する。

例えば、抽出部１３１は、第１温度と第２温度の相互相関を計算する。また、ラグ数が０の場合の相互相関は、同じ時刻すなわち同一のレコードの第１温度と第２温度の相互相関である。

また、例えば、ラグ数が１０の場合の相互相関は、ある時刻の第１温度と当該時刻の１０秒後の第２温度との相互相関である。

また、ラグ数が－１０の場合の相互相関は、ある時刻の第１温度と当該時刻の１０秒前の第２温度との相互相関である。

そして、抽出部１３１は、相互相関がピークを取るラグ数に応じて、レコード群をクラスタＡ、クラスタＢ、クラスタＣのいずれかに分類する。

例えば、抽出部１３１は、相互相関がピークを取るラグ数が－１０以上０未満である場合、レコード群をクラスタＡに分類する。

例えば、抽出部１３１は、相互相関がピークを取るラグ数が－２０以上－１０未満である場合、レコード群をクラスタＢに分類する。

例えば、抽出部１３１は、相互相関がピークを取るラグ数が－３０以上－２０未満である場合、レコード群をクラスタＣに分類する。

ここで、各クラスタに対応するモデルは、それぞれ学習の方法が異なる。例えば、モデルごとに、使用される説明変数及びハイパーパラメータが異なる。ハイパーパラメータは、例えば、丸め幅、時間幅（ウィンドウサイズ）、予測先、ステップ数、ＤＮＮの層数、ノード数、活性化関数等である。

ウィンドウサイズは、時系列データの学習を行う際の、スライディングウィンドウのサイズである。

クラスタＡに対応するモデルの学習におけるウィンドウサイズは１０分である。また、クラスタＢに対応するモデルの学習におけるウィンドウサイズは２０分である。また、クラスタＣに対応するモデルの学習におけるウィンドウサイズは３０分である。

［第２の実施形態の処理］
図７を用いて第２の実施形態の学習処理の流れを説明する。図７は、第２の実施形態に係る学習処理の流れを示すフローチャートである。

図７に示すように、まず、サーバ１０は、あらかじめ指定された２つの変数間の、各ラグ数における相互相関を計算する（ステップＳ２０１）。

次に、サーバ１０は、相互相関を基にレコードをクラスタリングする（ステップＳ２０２）。例えば、サーバ１０は、相互相関がピークを取るラグ数を基にクラスタリングを行う。

サーバ１０は、クラスタごとに定められた方法によりモデルの学習を実行する（ステップＳ２０３）。モデルの学習は、計算部１３２及び更新部１３３によって行われる。

［第２の実施形態の効果］
これまで説明してきたように、抽出部１３１は、説明変数と目的変数とを組み合わせたである履歴ＤＢ１２２を分類した複数のクラスタのうちいずれかに属するデータの中から、要求点と説明変数との距離に基づいてデータを抽出する。また、更新部１３３は、抽出部１３１によって抽出されたデータを用いて、複数のクラスタのそれぞれに対応するモデルのうち、抽出部１３１によってデータが抽出されたクラスタに対応するモデルを更新する。

このように、学習方法の異なる複数のモデルをあらかじめ用意しておき、ＪＩＴ法と組み合わせることで、モデルの変更を要する大幅な環境（運用条件等）の変化にも対応することができる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central Processing Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、サーバ１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置をサーバ１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置には、タブレット型端末、スマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、サーバ１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理に関するサービスを提供するサーバとして実装することもできる。例えば、サーバは、要求点の指定を入力とし、学習済みのモデルを出力とする学習サービスを提供するサーバ装置として実装される。この場合、サーバは、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図８は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、サーバ１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、サーバ１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１プラント運用システム
１０サーバ
２０、３０端末装置
４０プラントシステム
１１通信部
１２記憶部
１３制御部
１２１モデル情報
１２２履歴ＤＢ
１３１抽出部
１３２計算部
１３３更新部
１３４付与部
１３５表示制御部

Claims

説明変数と目的変数との組み合わせである第１のデータのそれぞれに、指標を目標値に近付けることへの寄与度が大きいほど大きくなる重みを付与する付与部と、
前記第１のデータの中から、前記説明変数と指定された説明変数との距離が大きいほど大きくなり、かつ前記重みが大きいほど小さくなる値が小さいデータを優先して第２のデータとして抽出する抽出部と、
前記第２のデータを用いて、前記説明変数から前記目的変数を出力するモデルを更新する更新部と、
を有し、
前記付与部は、第１の時刻に観測された事象に基づく指標の目標値との近さから得られる重みを、前記第１のデータのうち、前記第１の時刻よりあらかじめ定められた時間だけ過去の第２の時刻に対応付けられたデータに付与することを特徴とする学習装置。
説明変数と目的変数との組み合わせである第１のデータのそれぞれに、指標を目標値に近付けることへの寄与度が大きいほど大きくなる重みを付与する付与部と、
前記第１のデータの中から、前記説明変数と指定された説明変数との距離が大きいほど大きくなり、かつ前記重みが大きいほど小さくなる値が小さいデータを優先して第２のデータとして抽出する抽出部と、
前記第２のデータを用いて、前記説明変数から前記目的変数を出力するモデルを更新する更新部と、
を有し、
前記付与部は、指標が正の値であって、小さい方が望ましいとされる値である場合、前記指標の逆数を重みとして付与することを特徴とする学習装置。
前記付与部は、製品の生産工程における状況を表す前記説明変数と、前記生産工程における機器の操作を表す前記目的変数との組み合わせである前記第１のデータのそれぞれに、前記生産工程において排出される所定の物質の濃度が大きいほど小さくなる重みを付与することを特徴とする請求項１又は２に記載の学習装置。
学習装置によって実行される学習方法であって、
説明変数と目的変数との組み合わせである第１のデータのそれぞれに、指標を目標値に近付けることへの寄与度が大きいほど大きくなる重みを付与する付与工程と、
前記第１のデータの中から、前記説明変数と指定された説明変数との距離が大きいほど大きくなり、かつ前記重みが大きいほど小さくなる値が小さいデータを優先して第２のデータとして抽出する抽出工程と、
前記第２のデータを用いて、前記説明変数から前記目的変数を出力するモデルを更新する更新工程と、
を含み、
前記付与工程は、第１の時刻に観測された事象に基づく指標の目標値との近さから得られる重みを、前記第１のデータのうち、前記第１の時刻よりあらかじめ定められた時間だけ過去の第２の時刻に対応付けられたデータに付与することを特徴とする学習方法。
学習装置によって実行される学習方法であって、
説明変数と目的変数との組み合わせである第１のデータのそれぞれに、指標を目標値に近付けることへの寄与度が大きいほど大きくなる重みを付与する付与工程と、
前記第１のデータの中から、前記説明変数と指定された説明変数との距離が大きいほど大きくなり、かつ前記重みが大きいほど小さくなる値が小さいデータを優先して第２のデータとして抽出する抽出工程と、
前記第２のデータを用いて、前記説明変数から前記目的変数を出力するモデルを更新する更新工程と、
を含み、
前記付与工程は、指標が正の値であって、小さい方が望ましいとされる値である場合、前記指標の逆数を重みとして付与することを特徴とする学習方法。
コンピュータを、請求項１から３のいずれか１項に記載の学習装置として機能させるための学習プログラム。