JP7322918B2

JP7322918B2 - プログラム、情報処理装置、及び学習モデルの生成方法

Info

Publication number: JP7322918B2
Application number: JP2021055855A
Authority: JP
Inventors: 善行神宮
Original assignee: Yokogawa Electric Corp
Current assignee: Yokogawa Electric Corp
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2023-08-08
Anticipated expiration: 2041-03-29
Also published as: EP4080422A1; JP2022152911A; CN115221934A; US20220309406A1

Description

本開示は、プログラム、情報処理装置、及び学習モデルの生成方法に関する。

従来、データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルの生成に関連する技術が知られている。例えば、特許文献１には、分類対象に係る訓練データを入力する訓練データ入力手段と、訓練データに基づき機械学習を行う学習手段と、学習手段での学習時に、訓練データ又は訓練データに関する情報が不足しているか否かを判定する判定手段と、を有する情報処理装置が開示されている。このような情報処理装置は、訓練データ又は訓練データに関する情報が不足していると判定された場合に、訓練データ又は訓練データに関する情報の追加を促すメッセージを通知する通知手段をさらに有する。

特開２０１６－１３３８９５号公報

従来技術では、例えば複数の学習用データを含む学習用データ群において、学習用データに最も多く特徴づけられる第１ラベルの数と学習用データに最も少なく特徴づけられる第２ラベルの数とが不均衡である場合について十分に考慮されていなかった。このような不均衡データに基づいて学習モデルを生成すると、当該学習モデルは過学習状態に陥りやすくなる。

本開示は、不均衡データを用いた場合であっても過学習状態を抑制して、かつ評価指標が高い学習モデルを生成可能なプログラム、情報処理装置、及び学習モデルの生成方法を提供することを目的とする。

幾つかの実施形態に係るプログラムは、データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成するプログラムであって、情報処理装置に、複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第１ラベルの数と前記学習用データに最も少なく特徴づけられる第２ラベルの数とが不均衡であるか否かを判定するステップと、前記第１ラベルの数と前記第２ラベルの数とが不均衡であると判定すると、前記第２ラベルの数と均衡する数の前記第１ラベルの第１学習用データと前記第２ラベルの第２学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第１学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を分割して前記複数のサブセットを生成するステップと、生成された前記複数のサブセットのそれぞれに基づいて複数の第１学習モデルを生成するステップと、生成された前記複数の第１学習モデルに対する第１評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第２学習モデルに対する第２評価指標の値よりも高いと判定すると前記複数の第１学習モデルを保存するステップと、を含む動作を実行させる。

これにより、不均衡データを用いた場合であっても過学習状態を抑制して、かつ評価指標が高い学習モデルを生成可能である。例えば、情報処理装置は、不均衡データとしての学習用データ群を複数のサブセットに分割することで、後述する図５に示すように過学習状態を抑制することが可能である。

情報処理装置は、各サブセットに含まれる第１学習用データの組が互いに異なる複数のサブセットのそれぞれに基づいて複数の第１学習モデルを生成することで、従来のアンダーサンプリングのようなデータの偏りを抑制可能である。結果、偏りが抑制された複数のサブセットに基づいて複数の第１学習モデルが生成されるので、このような第１学習モデル群に対する評価指標の低減が抑制される。

情報処理装置は、元の学習用データ群に含まれている第１学習用データ及び第２学習用データに基づいて各サブセットを生成することで、従来のオーバーサンプリングのように精度の不確かな改変データを擬似的に用いる必要がない。結果、所定のラベルで特徴づけられている真の学習用データに基づいて複数の第１学習モデルが生成されるので、このような第１学習モデル群に対する評価指標の低減が抑制される。

加えて、情報処理装置は、第１評価指標の値が第２評価指標の値よりも高い第１学習モデル群のみを記憶部に格納することで、精度の高い第１学習モデル群のみを記憶可能である。情報処理装置は、このような第１学習モデル群を用いることで、未知の判定用データに対して精度良くラベルを判定することができる。

一実施形態において、前記動作は、前記複数のサブセットを生成するステップの前に、前記学習用データ群を前記複数のサブセットに分割するときの分割数を決定するステップをさらに含んでもよい。これにより、情報処理装置は、決定された当該分割数に基づいて不均衡データに対するサブセットへの分割処理を適切に実行可能である。情報処理装置は、分割数を決定することで、新たな学習用データを取得して不均衡データの不均衡度合いが変化しても再学習可能である。

一実施形態において、前記分割数を決定するステップは、ユーザにより入力された情報に基づいて前記分割数を決定するステップを含んでもよい。これにより、情報処理装置は、ユーザが所望する数のサブセットに学習用データ群を分割可能である。したがって、情報処理装置を用いるユーザの利便性が向上する。

一実施形態において、前記分割数を決定するステップは、初期設定に基づいて自動的に前記分割数を決定するステップを含んでもよい。これにより、情報処理装置は、分割数を決定するためのユーザによる入力作業を省略可能である。したがって、情報処理装置を用いるユーザの利便性が向上する。

一実施形態において、前記動作は、決定された前記分割数を所定範囲内で異なる値に繰り返し更新するステップと、更新された前記分割数のそれぞれに基づいて前記第１評価指標を算出するステップと、前記第１評価指標の値が最も高いときの前記分割数を決定するステップと、をさらに含んでもよい。これにより、情報処理装置は、所定範囲内で生成され得る複数の第１学習モデル群の中で最も精度の高い第１学習モデル群のみを記憶可能である。情報処理装置は、このような第１学習モデル群を用いることで、未知の判定用データに対して精度良くラベルを判定することができる。

一実施形態において、前記動作は、前記複数の第１学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合するステップをさらに含んでもよい。これにより、情報処理装置は、図５及び図６に示すとおり、複数のサブセットを生成しなかったときの第２学習モデルに基づく異常判定領域と比較してより理想に近い異常判定領域を形成可能である。すなわち、情報処理装置は、精度の高い第１学習モデル群を生成可能である。

一実施形態において、前記複数のサブセットを生成するステップは、一の前記サブセットにサンプリングされた前記第１学習用データを除く前記学習用データ群から新たに前記第１学習用データをサンプリングして他の前記サブセットを生成するステップを含んでもよい。これにより、一のサブセットに含まれる第１学習用データの全てが他のサブセットに含まれる第１学習用データの全てと異なる。したがって、情報処理装置は、従来のアンダーサンプリングのようなデータの偏りをさらに抑制可能である。結果、偏りがさらに抑制された複数のサブセットに基づいて複数の第１学習モデルが生成されるので、このような第１学習モデル群に対する評価指標の低減がさらに抑制される。

一実施形態において、前記ラベルの数は２つであり、前記複数の第１学習モデルは二値分類に用いられてもよい。これにより、情報処理装置は、例えばプラントなどを用いた製造業において有効的に利用可能である。例えば、プラントなどを用いた製造業では異常データが正常データに比べて非常に少ないのが一般的であり、情報処理装置は、そのような状況の中であっても過学習状態を抑制した有効的なデータ解析を提供可能である。

幾つかの実施形態に係る情報処理装置は、データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成する情報処理装置であって、制御部と、記憶部と、を備え、前記制御部は、複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第１ラベルの数と前記学習用データに最も少なく特徴づけられる第２ラベルの数とが不均衡であるか否かを判定し、前記第１ラベルの数と前記第２ラベルの数とが不均衡であると判定すると、前記第２ラベルの数と均衡する数の前記第１ラベルの第１学習用データと前記第２ラベルの第２学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第１学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を分割して前記複数のサブセットを生成し、生成された前記複数のサブセットのそれぞれに基づいて複数の第１学習モデルを生成し、生成された前記複数の第１学習モデルに対する第１評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第２学習モデルに対する第２評価指標の値よりも高いと判定すると前記複数の第１学習モデルを前記記憶部に格納する。

幾つかの実施形態に係る学習モデルの生成方法は、データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルの生成方法であって、複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第１ラベルの数と前記学習用データに最も少なく特徴づけられる第２ラベルの数とが不均衡であるか否かを判定するステップと、前記第１ラベルの数と前記第２ラベルの数とが不均衡であると判定すると、前記第２ラベルの数と均衡する数の前記第１ラベルの第１学習用データと前記第２ラベルの第２学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第１学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を分割して前記複数のサブセットを生成するステップと、生成された前記複数のサブセットのそれぞれに基づいて複数の第１学習モデルを生成するステップと、生成された前記複数の第１学習モデルに対する第１評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第２学習モデルに対する第２評価指標の値よりも高いと判定すると前記複数の第１学習モデルを保存するステップと、を含む。

本開示によれば、不均衡データを用いた場合であっても過学習状態を抑制して、かつ評価指標が高い学習モデルを生成可能なプログラム、情報処理装置、及び学習モデルの生成方法を提供可能である。

一実施形態に係る情報処理装置の構成の一例を示す機能ブロック図である。図１の情報処理装置の動作の第１例を示すフローチャートである。図１の情報処理装置の動作の第２例を示すフローチャートである。図１の分割部により実行される処理内容を例示的に説明するための概念図である。図１の評価部により実行される処理内容の第１例を説明するための概念図である。図１の評価部により実行される処理内容の第２例を説明するための概念図である。

従来技術の背景及び問題点についてより詳細に説明する。

教師ありデータを用いた機械学習によりデータを分類する分類問題において、学習に用いるための学習用データは、特徴づけられるラベルごとにデータ数が同程度であることが好ましい。しかしながら、装置の故障検知などを行う場合、正常及び異常という２つのラベルによってそれぞれ特徴づけられる複数のデータを収集して解析が行なわれるが、異常データは正常データに比べて非常に少ないことが通常である。

例えば、プラント及び設備などはほとんどの期間で正常に動作しており、突発的な故障及び経年劣化による故障などが数か月に一度又は数年に一度といった頻度でしか発生しない傾向にある。例えば、任意の製造品の製造においても、１万個の正常品に対して１個の不良品しか発見されないといったように、正常データに比べて異常データが非常に少ないのが通常である。以上のような正常データに対する異常データの割合が非常に少ない場合、すなわち不均衡データを用いる場合であっても、機械学習の任意のアルゴリズムを用いて正常又は異常を判定する学習モデルを生成することが要求される。

例えば、正常及び異常のような２つの特徴量を用いて２次元にデータをプロットした後述の図４の上部に示すような図を考える。加えて、正常データに対して異常データが非常に少ない不均衡データの場合を考える。このとき、機械学習の分類アルゴリズムを用いて、正常又は異常の分類を未知のデータに対して行なうと後述の図５の上の図のように正常及び異常の境界線が引かれる。

異常データを示す白点を囲むように正常データを示す黒点が多数存在しているために、白点のごく近傍のみしか異常判定領域に含まれない。このような状態は、いわゆる過学習状態である。実際には、図５の枠で囲まれた図のように、それぞれの白点の間も異常判定領域に含まれる可能性もある。しかしながら、上記のような不均衡データでは過学習状態に陥りやすく、図５の枠で囲まれた図のような広範な異常判定領域を含む境界線を示す学習モデルを生成することは困難である。

以上のような過学習状態を抑制するために、従来、アンダーサンプリング又はオーバーサンプリングと呼ばれる前処理を実施することが知られている。例えば、アンダーサンプリングは、多数データの中から一部をサンプリングし、多数データのデータ数を少数データに合わせることを含む。例えば、オーバーサンプリングは、少数データに基づいてデータをわずかに改変した改変データを生成し、少数データのデータ数を多数データに合わせることを含む。

しかしながら、アンダーサンプリングでは大量の正常データに対してサンプリングを行ないデータ数の不均衡を解消するために、サンプリングの方法によってはデータの偏りが発生してしまう。結果、このような偏ったデータに基づいて学習モデルを生成してしまうことで、学習モデルに対する評価指標が低くなる可能性があった。また、オーバーサンプリングでは少数の異常データから異常データの値をわずかに改変したデータを作成して異常データとして追加することでデータ数の不均衡を解消する。しかしながら、異常データから値が改変されたデータが真に異常データであるのか否かが不明であるため、生成された学習モデルに対する評価指標が同様に低くなる可能性があった。

以下では、これらの問題点を解決可能なプログラム、情報処理装置、及び学習モデルの生成方法について説明する。本開示の一実施形態について、図面を参照して説明する。

図１は、一実施形態に係る情報処理装置１０の構成の一例を示す機能ブロック図である。図１を参照しながら、一実施形態に係る情報処理装置１０の構成について主に説明する。

情報処理装置１０は、ＰＣ（Personal Computer）、スマートフォン、タブレットＰＣ、及びその他のエッジデバイスなどの任意の汎用の電子機器を含む。これに限定されず、情報処理装置１０は、クラウドシステムに含まれる１つ又は互いに通信可能な複数のサーバ装置であってもよいし、後述する学習モデルの生成に特化した専用の他の電子機器であってもよい。情報処理装置１０は、ＰＩ（Plant Information）システム及びレコーダなどの設備データの記録システムに含まれる任意の装置であってもよい。情報処理装置１０は、データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成する。

情報処理装置１０は、大きな構成要素として、記憶部１１と、入力部１２と、出力部１３と、制御部１４と、を有する。記憶部１１は、データ記憶部１１１と、学習モデル記憶部１１２と、を有する。入力部１２は、データ入力部１２１と、判定用データ入力部１２２と、を有する。制御部１４は、分割部１４１と、機械学習部１４２と、評価部１４３と、判定部１４４と、を有する。

記憶部１１は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）、ＲＯＭ（Read-Only Memory）、及びＲＡＭ（Random Access Memory）などの任意の記憶モジュールを含む。記憶部１１は、情報処理装置１０の動作を実現するために必要となる情報を記憶する。例えば、記憶部１１は、情報処理装置１０の動作を実現するために必要なファームウェアを記憶する。記憶部１１は、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部１１は、情報処理装置１０に内蔵されているものに限定されず、ＵＳＢ（Universal Serial Bus）などのデジタル入出力ポートなどによって接続されている外付け型の記憶モジュールを含んでもよい。

入力部１２は、情報処理装置１０のユーザによる入力操作を受け付けて、ユーザの入力操作に基づく入力情報を取得する任意の入力インタフェースを含む。入力部１２は、例えば、物理キー、静電容量キー、液晶モニタと一体的に設けられたタッチスクリーン、及び音声入力を受け付けるマイクロフォンなどを含んでもよい。入力部１２は、取得した入力情報を、記憶部１１を介して又は記憶部１１を介さずに制御部１４に出力する。

出力部１３は、情報処理装置１０のユーザに対して情報を出力する任意の出力インタフェースを含む。出力部１３は、例えば、ユーザの視覚及び聴覚の少なくとも一方に影響を及ぼす任意の出力インタフェースを含む。出力部１３は、例えば、ユーザの視覚に主に影響を及ぼす任意の画像出力インタフェースを含んでもよい。例えば、出力部１３は、液晶モニタを含んでもよい。出力部１３は、例えば、ユーザの聴覚に主に影響を及ぼす任意の音声出力インタフェースを含んでもよい。

制御部１４は、１つ以上のプロセッサを含む。より具体的には、制御部１４は、汎用のプロセッサ又は特定の処理に特化した専用のプロセッサを含む。制御部１４は、情報処理装置１０を構成する各構成部に接続され、各構成部をはじめとして情報処理装置１０全体を制御及び管理する。

図２は、図１の情報処理装置１０の動作の第１例を示すフローチャートである。図２を参照しながら、情報処理装置１０により実行される学習モデルの生成方法の一例について主に説明する。

ステップＳ１００では、情報処理装置１０の制御部１４は、学習モデルの生成に必要となるデータの入力をデータ入力部１２１により受け付ける。このようなデータは、主にプラント及び設備などに設置されているセンサの測定値及び設定情報、設備の設定情報、並びに設備のソフトウェアが記憶している情報などを含む。加えて、制御部１４は、正常又は異常及びタイプＡ又はタイプＢなど、データを機械学習により分類するうえで必要となるラベルの情報の入力もデータ入力部１２１により受け付ける。

ステップＳ１０１では、制御部１４は、ステップＳ１００において取得されたデータをデータ記憶部１１１に格納する。このとき、制御部１４は、ステップＳ１００において取得されたデータに加えて、当該データのそれぞれに特徴づけられるラベルの情報もデータ記憶部１１１に格納する。すなわち、制御部１４は、ステップＳ１００において取得されたデータごとにラベルを紐付けた状態でこれらのデータをデータ記憶部１１１に格納する。

ステップＳ１０２では、制御部１４の分割部１４１は、ステップＳ１０１においてデータ記憶部１１１に格納されたデータのラベルごとのデータ数をカウントする。

ステップＳ１０３では、制御部１４の分割部１４１は、ステップＳ１０１においてデータ記憶部１１１に格納されたデータを二つに分ける。より具体的には、分割部１４１は、学習用データと、学習用データを用いて生成した学習モデルを評価するための検証用データと、にデータを分ける。

ステップＳ１０４では、制御部１４の分割部１４１は、ステップＳ１０３において分けられた複数の学習用データを含む学習用データ群が不均衡データであるか否かを判定する。例えば、分割部１４１は、当該学習用データ群において、第１ラベルの数と第２ラベルの数とが不均衡であるか否かを判定する。本明細書において、「第１ラベル」は、複数のラベルのうち学習用データに最も多く特徴づけられるラベルを含む。例えば、第１ラベルは、正常データに特徴づけられるラベルを含む。「第２ラベル」は、複数のラベルのうち学習用データに最も少なく特徴づけられるラベルを含む。例えば、第２ラベルは、異常データに特徴づけられるラベルを含む。

例えば、分割部１４１は、第２ラベルの数に対する第１ラベルの数の比が第１閾値よりも大きいか否かを判定することで学習用データ群が不均衡データであるか否かを判定してもよい。例えば、第１閾値は４である。これに限定されず、第１閾値は４よりも大きい任意の値であってもよい。例えば、第１閾値は１０であってもよいし、１００であってもよい。

制御部１４は、ステップＳ１０４において学習用データ群が不均衡データであると判定するとステップＳ１０５の処理を実行する。制御部１４は、ステップＳ１０４において学習用データ群が不均衡データでないと判定するとステップＳ１００の処理を再度実行する。

ステップＳ１０５では、制御部１４の分割部１４１は、学習用データ群を後述する複数のサブセットに分割するときの分割数を決定する。例えば、分割部１４１は、入力部１２を用いてユーザにより入力された情報に基づいて分割数を決定してもよい。これに限定されず、分割部１４１は、初期設定に基づいて所定の演算を行い、自動的に分割数を決定してもよい。

例えば、分割部１４１は、１つのサブセットにおいて、第２ラベルの数に対する第１ラベルの数の比が第２閾値以下となるように分割数を決定する。例えば、第２閾値は１である。これに限定されず、第２閾値は１よりも大きく４以下となる任意の値であってもよい。例えば、第２閾値は４であってもよい。

分割部１４１は、分割数ｎ＝Count（第１ラベル）／（Count（第２ラベル）×ａ)として分割数ｎを算出する。例えば、分割部１４１は、分割数ｎを小数点繰り上げで整数値として算出する。例えば、分割部１４１は、係数ａとして１≦ａ≦４の任意の値を設定してもよい。例えば、分割部１４１は、入力部１２を用いてユーザにより入力された情報に基づいて係数ａを設定してもよい。これに限定されず、分割部１４１は、初期設定に基づいて所定の演算を行い、自動的に係数ａを設定してもよい。

ステップＳ１０６では、制御部１４の分割部１４１は、ステップＳ１０４において第１ラベルの数と第２ラベルの数とが不均衡であると判定すると、複数のサブセットに学習用データ群を分割して複数のサブセットを生成する。分割部１４１は、ステップＳ１０５において決定された分割数のサブセットに学習用データ群を分割する。

本明細書において、「サブセット」は、例えば第２ラベルの数と均衡する数の第１ラベルの第１学習用データと第２ラベルの第２学習用データの全てとを含む。このとき、各サブセットに含まれる第１学習用データの組は互いに異なる。例えば、分割部１４１は、一のサブセットにサンプリングされた第１学習用データを除く学習用データ群から新たに第１学習用データをサンプリングして他のサブセットを生成してもよい。すなわち、一のサブセットに含まれる第１学習用データの全てが他のサブセットに含まれる第１学習用データの全てと異なっていてもよい。学習用データ群に含まれる第１学習用データの各々が１つのサブセットのみに含まれていてもよい。

ステップＳ１０７では、制御部１４の機械学習部１４２は、ステップＳ１０６において生成された複数のサブセットのそれぞれに基づいて複数の第１学習モデルを生成する。例えば、機械学習部１４２は、ｎ個のサブセットに対してそれぞれ機械学習を用いて学習を行ない、ｎ個の第１学習モデルを生成する。

ステップＳ１０８では、制御部１４の評価部１４３は、ステップＳ１０７において生成された複数の第１学習モデルのそれぞれに、ステップＳ１０３において分けられた検証用データを入力する。例えば、評価部１４３は、ステップＳ１０７において生成されたｎ個の第１学習モデルのそれぞれに検証用データを入力する。

ステップＳ１０９では、制御部１４の評価部１４３は、ステップＳ１０７において生成された複数の第１学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合する。より具体的には、制御部１４の評価部１４３は、ステップＳ１０７において生成された複数の第１学習モデルのそれぞれに検証用データを入力したときに各第１学習モデルから出力される予測値の多数決によって、当該検証用データの総合的な予測値を決定する。すなわち、評価部１４３は、ｎ個の第１学習モデルのそれぞれに検証用データを入力し、当該検証用データが第１ラベル及び第２ラベルのいずれによって特徴づけられるかを多数決により予測する。

以下の表１は、ステップＳ１０８及びステップＳ１０９における評価部１４３の処理内容を例示的に説明するための表である。以下の表１において、値１は第１ラベルに対応する。値２は第２ラベルに対応する。

例えば、評価部１４３は、ｎ個の第１学習モデルのそれぞれに真値１を有する検証用データ（１）を入力する。評価部１４３は、ｎ個の第１学習モデルのそれぞれに検証用データ（１）を入力したときの結果の予測値を多数決により統合する。例えば、評価部１４３は、予測値２よりも予測値１を出力した第１学習モデルが多いため、予測値を多数決により１に統合する。評価部１４３は、検証用データ（２）、（３）、（４）、及び（５）についても同様の処理を実行する。例えば、評価部１４３は、ｎが偶数であり多数決によって予測値の統合が不可能である場合、乱数に基づいて総合結果を決定してもよい。

ステップＳ１１０では、制御部１４の評価部１４３は、ステップＳ１０９において取得された、各検証用データに対する総合結果の内容に基づいて、複数の第１学習モデルに対して機械学習の第１評価指標を算出する。より具体的には、制御部１４の評価部１４３は、各検証用データに対する総合結果を、複数の第１学習モデルにより各検証用データに対して特徴づけられたラベルとして、各検証用データの真値と比較しながら第１評価指標を算出する。本明細書において、「第１評価指標」は、例えばＡＵＣ（Area Under Curve）、正答率、及びＦ２スコアなどを含む。

ステップＳ１１１では、制御部１４の評価部１４３は、ステップＳ１１０において算出された第１評価指標の値が複数のサブセットを生成せずに学習用データ群に基づいて生成された第２学習モデルに対する第２評価指標の値よりも高いか否かを判定する。すなわち、評価部１４３は、第１評価指標の値が分割数１のときの第２学習モデルに対する第２評価指標の値よりも高いか否かを判定する。本明細書において、「第２評価指標」は、例えばＡＵＣ（Area Under Curve）、正答率、及びＦ２スコアなどを含む。

評価部１４３は、ステップＳ１１１において第１評価指標の値が第２評価指標の値よりも高いと判定すると、ステップＳ１１２の処理を実行する。評価部１４３は、ステップＳ１１１において第１評価指標の値が第２評価指標の値以下であると判定すると、ステップＳ１００の処理を再度実行する。

ステップＳ１１２では、制御部１４の評価部１４３は、ステップＳ１１１において第１評価指標の値が第２評価指標の値よりも高いと判定すると、ステップＳ１０７において生成された複数の第１学習モデルを記憶部１１の学習モデル記憶部１１２に格納する。

再度図１を参照すると、入力部１２の判定用データ入力部１２２は、判定用データの入力を受け付ける。このような判定用データは、判定用データ入力部１２２による入力時点においてどのようなラベルで特徴づけられるか不明なデータである。

制御部１４の判定部１４４は、図２のステップＳ１１２において学習モデル記憶部１１２に格納された複数の第１学習モデルに基づいて、判定用データ入力部１２２から取得した判定用データを機械学習により新たに分類する。すなわち、判定部１４４は、複数の第１学習モデルに基づいて、判定用データ入力部１２２から取得した判定用データを機械学習により所定のラベルで特徴づける。例えば、判定部１４４は、判定用データを機械学習により正常又は異常に分類する。例えば、判定部１４４は、判定用データを機械学習によりタイプＡ又はタイプＢに分類する。

例えば、判定部１４４は、学習モデル記憶部１１２に格納された複数の第１学習モデルをオンラインシステムに用いる場合、図１のステップＳ１０８及びステップＳ１０９と同様の処理内容を実行することで判定用データを機械学習により新たに分類してもよい。このとき、ステップＳ１０８の検証用データに代えて、ラベルが未知で予測対象となる判定用データが判定用データ入力部１２２を用いて入力される。

出力部１３は、判定部１４４による判定用データの新たな分類結果を情報としてユーザに出力する。例えば、出力部１３は、判定用データを所定のラベルで特徴づける判定部１４４による分類処理の結果を情報としてユーザに出力する。

図３は、図１の情報処理装置１０の動作の第２例を示すフローチャートである。図３を参照しながら、情報処理装置１０により実行される学習モデルの生成方法において上述した分割数を最適化するときの処理の一例について主に説明する。

ステップＳ２００では、制御部１４の分割部１４１は、図２のステップＳ１０５において決定された分割数を、所定範囲内で異なる値に繰り返し更新する。本明細書において、「所定範囲」は、例えば分割数ｎ＝Count（第１ラベル）／（Count（第２ラベル）×ａ)において係数ａとして１≦ａ≦４の任意の値を設定したときに取り得る分割数ｎの整数値を含む。

ステップＳ２０１では、制御部１４は、ステップＳ２００において更新された分割数に基づいて、図２のステップＳ１０６乃至ステップＳ１０９と同様の処理を実行したのち、ステップＳ１１０と同様に第１評価指標を算出する。

ステップＳ２０２では、制御部１４は、分割数の更新が全て完了したか否かを判定する。制御部１４は、分割数の更新が全て完了したと判定すると、ステップＳ２０３の処理を実行する。制御部１４は、分割数の更新が完了していないと判定すると、ステップＳ２００の処理を再度実行する。

ステップＳ２０３では、制御部１４は、ステップＳ２０２において分割数の更新が全て完了したと判定すると、ステップＳ２０１において算出された分割数ごとの複数の第１評価指標の値の中から値が最も高いときの分割数を決定する。その後、制御部１４は、図２のステップＳ１１１及びステップＳ１１２と同様の処理を実行し、決定された分割数における第１評価指標の値が第２評価指標の値よりも高いと判定すると、当該分割数で生成された複数の第１学習モデルを記憶部１１の学習モデル記憶部１１２に格納する。

図４は、図１の分割部１４１により実行される処理内容を例示的に説明するための概念図である。図４を参照しながら、図２のステップＳ１０６において制御部１４の分割部１４１により実行されるサブセットへの分割処理について具体的に説明する。例えば、図４に示す例では、ラベルの数は第１ラベル及び第２ラベルの２つのみであってもよい。すなわち、上述した複数の第１学習モデルは二値分類に用いられてもよい。

図４の上部に示す学習用データ群では、黒点の第１ラベルで特徴づけられる第１学習用データは４２個含まれている。一方で、白点の第２ラベルで特徴づけられる第２学習用データは４個含まれている。

このとき、分割部１４１は、第２ラベルの数に対する第１ラベルの数の比が第１閾値としての４よりも大きいと判定し、学習用データ群が不均衡データであると判定する。分割部１４１は、学習用データ群を複数のサブセットに分割するときの分割数を決定する。例えば、分割部１４１は、係数ａを３．５に設定し、分割数ｎ＝４２／（４×３．５)として分割数３を算出する。

分割部１４１は、学習用データ群を、サブセット１、サブセット２、及びサブセット３の３つのサブセットに分割する。図４に示すとおり、サブセット１、サブセット２、及びサブセット３の各々は、第２ラベルの数と均衡する１４個の第１ラベルの第１学習用データと４個の第２ラベルの第２学習用データの全てとを含む。このとき、一のサブセットに含まれる第１学習用データの全てが他のサブセットに含まれる第１学習用データの全てと異なっている。学習用データ群に含まれる第１学習用データの各々が１つのサブセットのみに含まれている。

図５は、図１の評価部１４３により実行される処理内容の第１例を説明するための概念図である。図５を参照しながら、図２のステップＳ１０８において制御部１４の評価部１４３により実行される予測値の算出処理について具体的に説明する。より詳細には、各サブセットに基づいて生成された第１学習モデルに検証用データを入力したときの結果の予測値を算出する評価部１４３の処理について具体的に説明する。

制御部１４の機械学習部１４２は、分割部１４１により生成されたサブセット１、サブセット２、及びサブセット３の３つのサブセットのそれぞれに基づいて３つの第１学習モデルを生成する。評価部１４３は、このようにして生成された３つの第１学習モデルのそれぞれに検証用データを入力する。

例えば、正常及び異常のような２つの特徴量を用いて２次元にデータをプロットした学習用データ群に対し機械学習の分類アルゴリズムを用いて、正常又は異常の分類を検証用データに対して行なうと図５の上の図の破線のように正常及び異常の境界線が３つの島に分かれて引かれる。異常データを示す白点を囲むように正常データを示す黒点が多数存在しているために、白点のごく近傍のみしか異常判定領域に含まれない。

一方で、評価部１４３は、サブセット１に基づいて生成された第１学習モデルに検証用データを入力すると、例えば図５の下部の左側の図において一点鎖線で示すような正常及び異常の境界線を形成する。異常データを示す白点を囲む黒点の数が減少したために、白点のごく近傍に限定されず隣接する白点同士を連続して含むようなより広範な異常判定領域が形成されている。サブセット２及びサブセット３についても同様に二点鎖線及び三点鎖線でそれぞれの境界線を示す。

図６は、図１の評価部１４３により実行される処理内容の第２例を説明するための概念図である。図６を参照しながら、図２のステップＳ１０９において制御部１４の評価部１４３により実行される予測値の統合処理について具体的に説明する。図６は、図５の下部に示したサブセット１、サブセット２、及びサブセット３のそれぞれに対する境界線の図を重ね合わせた概念図である。

例えば、制御部１４の評価部１４３は、生成された３つの第１学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合する。すなわち、評価部１４３は、図６において各境界線により囲まれる異常判定領域が２つ以上重なる領域を、３つの第１学習モデルを含む第１学習モデル群に基づく最終的な異常判定領域として決定する。

図６においてハッチングにより示す領域は、図５の枠で囲まれた図中に示す破線の領域に近似している。すなわち、情報処理装置１０は、分割処理を実行せずに生成した第２学習モデルに基づく異常判定領域と比較してより理想に近い異常判定領域を形成する第１学習モデル群を生成可能である。

以下では、一実施形態に係る情報処理装置１０の効果について主に説明するが、同様の説明が一実施形態に係るプログラム及び学習モデルの生成方法に対しても当てはまる。

以上のような一実施形態によれば、不均衡データを用いた場合であっても過学習状態を抑制して、かつ評価指標が高い学習モデルを生成可能である。例えば、情報処理装置１０は、不均衡データとしての学習用データ群を複数のサブセットに分割することで、図５に示すように過学習状態を抑制することが可能である。

情報処理装置１０は、各サブセットに含まれる第１学習用データの組が互いに異なる複数のサブセットのそれぞれに基づいて複数の第１学習モデルを生成することで、従来のアンダーサンプリングのようなデータの偏りを抑制可能である。結果、偏りが抑制された複数のサブセットに基づいて複数の第１学習モデルが生成されるので、このような第１学習モデル群に対する評価指標の低減が抑制される。

情報処理装置１０は、元の学習用データ群に含まれている第１学習用データ及び第２学習用データに基づいて各サブセットを生成することで、従来のオーバーサンプリングのように精度の不確かな改変データを擬似的に用いる必要がない。結果、所定のラベルで特徴づけられている真の学習用データに基づいて複数の第１学習モデルが生成されるので、このような第１学習モデル群に対する評価指標の低減が抑制される。

加えて、情報処理装置１０は、第１評価指標の値が第２評価指標の値よりも高い第１学習モデル群のみを記憶部１１に格納することで、精度の高い第１学習モデル群のみを記憶可能である。情報処理装置１０は、このような第１学習モデル群を用いることで、未知の判定用データに対して精度良くラベルを判定することができる。

情報処理装置１０は、学習用データ群を複数のサブセットに分割するときの分割数を決定することで、決定された当該分割数に基づいて不均衡データに対するサブセットへの分割処理を適切に実行可能である。情報処理装置１０は、分割数を決定することで、新たな学習用データを取得して不均衡データの不均衡度合いが変化しても再学習可能である。

情報処理装置１０は、ユーザにより入力された情報に基づいて分割数を決定することで、ユーザが所望する数のサブセットに学習用データ群を分割可能である。これにより、情報処理装置１０を用いるユーザの利便性が向上する。

情報処理装置１０は、初期設定に基づいて自動的に分割数を決定することで、分割数を決定するためのユーザによる入力作業を省略可能である。これにより、情報処理装置１０を用いるユーザの利便性が向上する。

情報処理装置１０は、決定された分割数を所定範囲内で異なる値に繰り返し更新して第１評価指標の値が最も高いときの分割数を決定することで、所定範囲内で生成され得る複数の第１学習モデル群の中で最も精度の高い第１学習モデル群のみを記憶可能である。情報処理装置１０は、このような第１学習モデル群を用いることで、未知の判定用データに対して精度良くラベルを判定することができる。

情報処理装置１０は、複数の第１学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合する。これにより、情報処理装置１０は、図５及び図６に示すとおり、複数のサブセットを生成しなかったときの第２学習モデルに基づく異常判定領域と比較してより理想に近い異常判定領域を形成可能である。すなわち、情報処理装置１０は、精度の高い第１学習モデル群を生成可能である。

情報処理装置１０は、一のサブセットにサンプリングされた第１学習用データを除く学習用データ群から新たに第１学習用データをサンプリングして他のサブセットを生成する。これにより、一のサブセットに含まれる第１学習用データの全てが他のサブセットに含まれる第１学習用データの全てと異なる。したがって、情報処理装置１０は、従来のアンダーサンプリングのようなデータの偏りをさらに抑制可能である。結果、偏りがさらに抑制された複数のサブセットに基づいて複数の第１学習モデルが生成されるので、このような第１学習モデル群に対する評価指標の低減がさらに抑制される。

ラベルの数が２つであり、複数の第１学習モデルが二値分類に用いられることで、情報処理装置１０は、例えばプラントなどを用いた製造業において有効的に利用可能である。例えば、プラントなどを用いた製造業では異常データが正常データに比べて非常に少ないのが一般的であり、情報処理装置１０は、そのような状況の中であっても過学習状態を抑制した有効的なデータ解析を提供可能である。

本開示は、その精神又はその本質的な特徴から離れることなく、上述した実施形態以外の他の所定の形態で実現できることは当業者にとって明白である。したがって、先の記述は例示的であり、これに限定されない。開示の範囲は、先の記述によってではなく、付加した請求項によって定義される。あらゆる変更のうちその均等の範囲内にあるいくつかの変更は、その中に包含されるとする。

例えば、上述した情報処理装置１０の動作における各ステップ及び各ステップに含まれる機能などは、論理的に矛盾しないように再配置可能であり、ステップの順序を変更したり、複数のステップを１つに組み合わせたり、又は分割したりすることが可能である。

例えば、本開示は、上述した情報処理装置１０の各機能を実現する処理内容を記述したプログラム又はプログラムを記録した記憶媒体としても実現し得る。本開示の範囲には、これらも包含されると理解されたい。

上記実施形態では、情報処理装置１０は、決定された分割数を所定範囲内で異なる値に繰り返し更新し、第１評価指標の値が最も高いときの分割数を決定すると説明したが、これに限定されない。情報処理装置１０は、決定された分割数に対するこのような最適化処理を実行しなくてもよい。

上記実施形態では、情報処理装置１０は、複数の第１学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合すると説明したが、これに限定されない。情報処理装置１０は、多数決に代えて任意の方法により結果の予測値を統合してもよい。

上記実施形態では、情報処理装置１０は、学習用データ群に含まれる第１学習用データの各々が１つのサブセットのみに含まれるように分割処理を実行すると説明したが、これに限定されない。情報処理装置１０は、各サブセットに含まれる第１学習用データの組が互いに異なるのであれば、第１学習用データに対して任意の方法で分割処理を実行してもよい。例えば、情報処理装置１０は、所定の第１学習用データが複数のサブセットに含まれるように分割処理を実行してもよい。例えば、情報処理装置１０は、各サブセットに含まれる第１学習用データの数が互いに異なるように分割処理を実行してもよい。例えば、情報処理装置１０は、第１学習用データの一部のみがサブセットに含まれる対象となるように分割処理を実行してもよい。すなわち、情報処理装置１０は、所定の第１学習用データが全てのサブセットのいずれにも含まれないように分割処理を実行してもよい。

上記実施形態では、サブセットは、第２ラベルの数と均衡する数の第１ラベルの第１学習用データと第２ラベルの第２学習用データの全てとを含むと説明したが、これに限定されない。サブセットは、第２ラベルの数と均衡する数の第１ラベルの第１学習用データと第２ラベルの第２学習用データの一部とを含んでもよい。このとき、情報処理装置１０は、各サブセットに含まれる第２学習用データの組が互いに異なるように、第２学習用データに対して任意の方法で分割処理を実行してもよい。逆に、情報処理装置１０は、各サブセットに含まれる第２学習用データの組が互いに同一となるように、第２学習用データに対して任意の方法で分割処理を実行してもよい。

一実施形態に係る情報処理装置１０は、任意の機械学習アルゴリズムに対して適用可能であってもよい。情報処理装置１０は、複数の機械学習アルゴリズムを組み合わせて用いてもよい。

１０情報処理装置
１１記憶部
１１１データ記憶部
１１２学習モデル記憶部
１２入力部
１２１データ入力部
１２２判定用データ入力部
１３出力部
１４制御部
１４１分割部
１４２機械学習部
１４３評価部
１４４判定部

Claims

データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成するプログラムであって、情報処理装置に、
複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第１ラベルの数と前記学習用データに最も少なく特徴づけられる第２ラベルの数とが不均衡であるか否かを判定するステップと、
前記第１ラベルの数と前記第２ラベルの数とが不均衡であると判定すると、前記第２ラベルの数と均衡する数の前記第１ラベルの第１学習用データと前記第２ラベルの第２学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第１学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を、分割数を更新しながら分割して前記複数のサブセットを生成するステップと、
生成された前記複数のサブセットのそれぞれに基づいて複数の第１学習モデルを生成するステップと、
所定の前記分割数で生成された前記複数の第１学習モデルに対する第１評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第２学習モデルに対する第２評価指標の値よりも高いと判定すると前記複数の第１学習モデルを保存するステップと、
を含む動作を実行させる、
プログラム。
前記動作は、前記複数のサブセットを生成するステップの前に、前記学習用データ群を前記複数のサブセットに分割するときの前記分割数を決定するステップをさらに含む、
請求項１に記載のプログラム。
前記分割数を決定するステップは、ユーザにより入力された情報に基づいて前記分割数を決定するステップを含む、
請求項２に記載のプログラム。
前記分割数を決定するステップは、初期設定に基づいて自動的に前記分割数を決定するステップを含む、
請求項２に記載のプログラム。
前記動作は、決定された前記分割数を所定範囲内で異なる値に繰り返し更新するステップと、更新された前記分割数のそれぞれに基づいて前記第１評価指標を算出するステップと、前記第１評価指標の値が最も高いときの前記分割数を決定するステップと、をさらに含む、
請求項２乃至４のいずれか１項に記載のプログラム。
前記動作は、前記複数の第１学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合するステップをさらに含む、
請求項１乃至５のいずれか１項に記載のプログラム。
前記複数のサブセットを生成するステップは、一の前記サブセットにサンプリングされた前記第１学習用データを除く前記学習用データ群から新たに前記第１学習用データをサンプリングして他の前記サブセットを生成するステップを含む、
請求項１乃至６のいずれか１項に記載のプログラム。
前記ラベルの数は２つであり、
前記複数の第１学習モデルは二値分類に用いられる、
請求項１乃至７のいずれか１項に記載のプログラム。
データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成する情報処理装置であって、制御部と、記憶部と、を備え、
前記制御部は、
複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第１ラベルの数と前記学習用データに最も少なく特徴づけられる第２ラベルの数とが不均衡であるか否かを判定し、
前記第１ラベルの数と前記第２ラベルの数とが不均衡であると判定すると、前記第２ラベルの数と均衡する数の前記第１ラベルの第１学習用データと前記第２ラベルの第２学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第１学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を、分割数を更新しながら分割して前記複数のサブセットを生成し、
生成された前記複数のサブセットのそれぞれに基づいて複数の第１学習モデルを生成し、
所定の前記分割数で生成された前記複数の第１学習モデルに対する第１評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第２学習モデルに対する第２評価指標の値よりも高いと判定すると前記複数の第１学習モデルを前記記憶部に格納する、
情報処理装置。
データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルの生成方法であって、情報処理装置が、
複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第１ラベルの数と前記学習用データに最も少なく特徴づけられる第２ラベルの数とが不均衡であるか否かを判定するステップと、
前記第１ラベルの数と前記第２ラベルの数とが不均衡であると判定すると、前記第２ラベルの数と均衡する数の前記第１ラベルの第１学習用データと前記第２ラベルの第２学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第１学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を、分割数を更新しながら分割して前記複数のサブセットを生成するステップと、
生成された前記複数のサブセットのそれぞれに基づいて複数の第１学習モデルを生成するステップと、
所定の前記分割数で生成された前記複数の第１学習モデルに対する第１評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第２学習モデルに対する第２評価指標の値よりも高いと判定すると前記複数の第１学習モデルを保存するステップと、
を含む動作を実行する、
学習モデルの生成方法。