JP7322918B2 - プログラム、情報処理装置、及び学習モデルの生成方法 - Google Patents

プログラム、情報処理装置、及び学習モデルの生成方法 Download PDF

Info

Publication number
JP7322918B2
JP7322918B2 JP2021055855A JP2021055855A JP7322918B2 JP 7322918 B2 JP7322918 B2 JP 7322918B2 JP 2021055855 A JP2021055855 A JP 2021055855A JP 2021055855 A JP2021055855 A JP 2021055855A JP 7322918 B2 JP7322918 B2 JP 7322918B2
Authority
JP
Japan
Prior art keywords
learning
data
labels
learning data
subsets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021055855A
Other languages
English (en)
Other versions
JP2022152911A (ja
Inventor
善行 神宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yokogawa Electric Corp
Original Assignee
Yokogawa Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yokogawa Electric Corp filed Critical Yokogawa Electric Corp
Priority to JP2021055855A priority Critical patent/JP7322918B2/ja
Priority to EP22160893.8A priority patent/EP4080422A1/en
Priority to CN202210240215.5A priority patent/CN115221934A/zh
Priority to US17/654,333 priority patent/US20220309406A1/en
Publication of JP2022152911A publication Critical patent/JP2022152911A/ja
Application granted granted Critical
Publication of JP7322918B2 publication Critical patent/JP7322918B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示は、プログラム、情報処理装置、及び学習モデルの生成方法に関する。
従来、データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルの生成に関連する技術が知られている。例えば、特許文献1には、分類対象に係る訓練データを入力する訓練データ入力手段と、訓練データに基づき機械学習を行う学習手段と、学習手段での学習時に、訓練データ又は訓練データに関する情報が不足しているか否かを判定する判定手段と、を有する情報処理装置が開示されている。このような情報処理装置は、訓練データ又は訓練データに関する情報が不足していると判定された場合に、訓練データ又は訓練データに関する情報の追加を促すメッセージを通知する通知手段をさらに有する。
特開2016-133895号公報
従来技術では、例えば複数の学習用データを含む学習用データ群において、学習用データに最も多く特徴づけられる第1ラベルの数と学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡である場合について十分に考慮されていなかった。このような不均衡データに基づいて学習モデルを生成すると、当該学習モデルは過学習状態に陥りやすくなる。
本開示は、不均衡データを用いた場合であっても過学習状態を抑制して、かつ評価指標が高い学習モデルを生成可能なプログラム、情報処理装置、及び学習モデルの生成方法を提供することを目的とする。
幾つかの実施形態に係るプログラムは、データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成するプログラムであって、情報処理装置に、複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定するステップと、前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を分割して前記複数のサブセットを生成するステップと、生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成するステップと、生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを保存するステップと、を含む動作を実行させる。
これにより、不均衡データを用いた場合であっても過学習状態を抑制して、かつ評価指標が高い学習モデルを生成可能である。例えば、情報処理装置は、不均衡データとしての学習用データ群を複数のサブセットに分割することで、後述する図5に示すように過学習状態を抑制することが可能である。
情報処理装置は、各サブセットに含まれる第1学習用データの組が互いに異なる複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成することで、従来のアンダーサンプリングのようなデータの偏りを抑制可能である。結果、偏りが抑制された複数のサブセットに基づいて複数の第1学習モデルが生成されるので、このような第1学習モデル群に対する評価指標の低減が抑制される。
情報処理装置は、元の学習用データ群に含まれている第1学習用データ及び第2学習用データに基づいて各サブセットを生成することで、従来のオーバーサンプリングのように精度の不確かな改変データを擬似的に用いる必要がない。結果、所定のラベルで特徴づけられている真の学習用データに基づいて複数の第1学習モデルが生成されるので、このような第1学習モデル群に対する評価指標の低減が抑制される。
加えて、情報処理装置は、第1評価指標の値が第2評価指標の値よりも高い第1学習モデル群のみを記憶部に格納することで、精度の高い第1学習モデル群のみを記憶可能である。情報処理装置は、このような第1学習モデル群を用いることで、未知の判定用データに対して精度良くラベルを判定することができる。
一実施形態において、前記動作は、前記複数のサブセットを生成するステップの前に、前記学習用データ群を前記複数のサブセットに分割するときの分割数を決定するステップをさらに含んでもよい。これにより、情報処理装置は、決定された当該分割数に基づいて不均衡データに対するサブセットへの分割処理を適切に実行可能である。情報処理装置は、分割数を決定することで、新たな学習用データを取得して不均衡データの不均衡度合いが変化しても再学習可能である。
一実施形態において、前記分割数を決定するステップは、ユーザにより入力された情報に基づいて前記分割数を決定するステップを含んでもよい。これにより、情報処理装置は、ユーザが所望する数のサブセットに学習用データ群を分割可能である。したがって、情報処理装置を用いるユーザの利便性が向上する。
一実施形態において、前記分割数を決定するステップは、初期設定に基づいて自動的に前記分割数を決定するステップを含んでもよい。これにより、情報処理装置は、分割数を決定するためのユーザによる入力作業を省略可能である。したがって、情報処理装置を用いるユーザの利便性が向上する。
一実施形態において、前記動作は、決定された前記分割数を所定範囲内で異なる値に繰り返し更新するステップと、更新された前記分割数のそれぞれに基づいて前記第1評価指標を算出するステップと、前記第1評価指標の値が最も高いときの前記分割数を決定するステップと、をさらに含んでもよい。これにより、情報処理装置は、所定範囲内で生成され得る複数の第1学習モデル群の中で最も精度の高い第1学習モデル群のみを記憶可能である。情報処理装置は、このような第1学習モデル群を用いることで、未知の判定用データに対して精度良くラベルを判定することができる。
一実施形態において、前記動作は、前記複数の第1学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合するステップをさらに含んでもよい。これにより、情報処理装置は、図5及び図6に示すとおり、複数のサブセットを生成しなかったときの第2学習モデルに基づく異常判定領域と比較してより理想に近い異常判定領域を形成可能である。すなわち、情報処理装置は、精度の高い第1学習モデル群を生成可能である。
一実施形態において、前記複数のサブセットを生成するステップは、一の前記サブセットにサンプリングされた前記第1学習用データを除く前記学習用データ群から新たに前記第1学習用データをサンプリングして他の前記サブセットを生成するステップを含んでもよい。これにより、一のサブセットに含まれる第1学習用データの全てが他のサブセットに含まれる第1学習用データの全てと異なる。したがって、情報処理装置は、従来のアンダーサンプリングのようなデータの偏りをさらに抑制可能である。結果、偏りがさらに抑制された複数のサブセットに基づいて複数の第1学習モデルが生成されるので、このような第1学習モデル群に対する評価指標の低減がさらに抑制される。
一実施形態において、前記ラベルの数は2つであり、前記複数の第1学習モデルは二値分類に用いられてもよい。これにより、情報処理装置は、例えばプラントなどを用いた製造業において有効的に利用可能である。例えば、プラントなどを用いた製造業では異常データが正常データに比べて非常に少ないのが一般的であり、情報処理装置は、そのような状況の中であっても過学習状態を抑制した有効的なデータ解析を提供可能である。
幾つかの実施形態に係る情報処理装置は、データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成する情報処理装置であって、制御部と、記憶部と、を備え、前記制御部は、複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定し、前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を分割して前記複数のサブセットを生成し、生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成し、生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを前記記憶部に格納する。
これにより、不均衡データを用いた場合であっても過学習状態を抑制して、かつ評価指標が高い学習モデルを生成可能である。例えば、情報処理装置は、不均衡データとしての学習用データ群を複数のサブセットに分割することで、後述する図5に示すように過学習状態を抑制することが可能である。
情報処理装置は、各サブセットに含まれる第1学習用データの組が互いに異なる複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成することで、従来のアンダーサンプリングのようなデータの偏りを抑制可能である。結果、偏りが抑制された複数のサブセットに基づいて複数の第1学習モデルが生成されるので、このような第1学習モデル群に対する評価指標の低減が抑制される。
情報処理装置は、元の学習用データ群に含まれている第1学習用データ及び第2学習用データに基づいて各サブセットを生成することで、従来のオーバーサンプリングのように精度の不確かな改変データを擬似的に用いる必要がない。結果、所定のラベルで特徴づけられている真の学習用データに基づいて複数の第1学習モデルが生成されるので、このような第1学習モデル群に対する評価指標の低減が抑制される。
加えて、情報処理装置は、第1評価指標の値が第2評価指標の値よりも高い第1学習モデル群のみを記憶部に格納することで、精度の高い第1学習モデル群のみを記憶可能である。情報処理装置は、このような第1学習モデル群を用いることで、未知の判定用データに対して精度良くラベルを判定することができる。
幾つかの実施形態に係る学習モデルの生成方法は、データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルの生成方法であって、複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定するステップと、前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を分割して前記複数のサブセットを生成するステップと、生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成するステップと、生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを保存するステップと、を含む。
これにより、不均衡データを用いた場合であっても過学習状態を抑制して、かつ評価指標が高い学習モデルを生成可能である。例えば、情報処理装置は、不均衡データとしての学習用データ群を複数のサブセットに分割することで、後述する図5に示すように過学習状態を抑制することが可能である。
情報処理装置は、各サブセットに含まれる第1学習用データの組が互いに異なる複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成することで、従来のアンダーサンプリングのようなデータの偏りを抑制可能である。結果、偏りが抑制された複数のサブセットに基づいて複数の第1学習モデルが生成されるので、このような第1学習モデル群に対する評価指標の低減が抑制される。
情報処理装置は、元の学習用データ群に含まれている第1学習用データ及び第2学習用データに基づいて各サブセットを生成することで、従来のオーバーサンプリングのように精度の不確かな改変データを擬似的に用いる必要がない。結果、所定のラベルで特徴づけられている真の学習用データに基づいて複数の第1学習モデルが生成されるので、このような第1学習モデル群に対する評価指標の低減が抑制される。
加えて、情報処理装置は、第1評価指標の値が第2評価指標の値よりも高い第1学習モデル群のみを記憶部に格納することで、精度の高い第1学習モデル群のみを記憶可能である。情報処理装置は、このような第1学習モデル群を用いることで、未知の判定用データに対して精度良くラベルを判定することができる。
本開示によれば、不均衡データを用いた場合であっても過学習状態を抑制して、かつ評価指標が高い学習モデルを生成可能なプログラム、情報処理装置、及び学習モデルの生成方法を提供可能である。
一実施形態に係る情報処理装置の構成の一例を示す機能ブロック図である。 図1の情報処理装置の動作の第1例を示すフローチャートである。 図1の情報処理装置の動作の第2例を示すフローチャートである。 図1の分割部により実行される処理内容を例示的に説明するための概念図である。 図1の評価部により実行される処理内容の第1例を説明するための概念図である。 図1の評価部により実行される処理内容の第2例を説明するための概念図である。
従来技術の背景及び問題点についてより詳細に説明する。
教師ありデータを用いた機械学習によりデータを分類する分類問題において、学習に用いるための学習用データは、特徴づけられるラベルごとにデータ数が同程度であることが好ましい。しかしながら、装置の故障検知などを行う場合、正常及び異常という2つのラベルによってそれぞれ特徴づけられる複数のデータを収集して解析が行なわれるが、異常データは正常データに比べて非常に少ないことが通常である。
例えば、プラント及び設備などはほとんどの期間で正常に動作しており、突発的な故障及び経年劣化による故障などが数か月に一度又は数年に一度といった頻度でしか発生しない傾向にある。例えば、任意の製造品の製造においても、1万個の正常品に対して1個の不良品しか発見されないといったように、正常データに比べて異常データが非常に少ないのが通常である。以上のような正常データに対する異常データの割合が非常に少ない場合、すなわち不均衡データを用いる場合であっても、機械学習の任意のアルゴリズムを用いて正常又は異常を判定する学習モデルを生成することが要求される。
例えば、正常及び異常のような2つの特徴量を用いて2次元にデータをプロットした後述の図4の上部に示すような図を考える。加えて、正常データに対して異常データが非常に少ない不均衡データの場合を考える。このとき、機械学習の分類アルゴリズムを用いて、正常又は異常の分類を未知のデータに対して行なうと後述の図5の上の図のように正常及び異常の境界線が引かれる。
異常データを示す白点を囲むように正常データを示す黒点が多数存在しているために、白点のごく近傍のみしか異常判定領域に含まれない。このような状態は、いわゆる過学習状態である。実際には、図5の枠で囲まれた図のように、それぞれの白点の間も異常判定領域に含まれる可能性もある。しかしながら、上記のような不均衡データでは過学習状態に陥りやすく、図5の枠で囲まれた図のような広範な異常判定領域を含む境界線を示す学習モデルを生成することは困難である。
以上のような過学習状態を抑制するために、従来、アンダーサンプリング又はオーバーサンプリングと呼ばれる前処理を実施することが知られている。例えば、アンダーサンプリングは、多数データの中から一部をサンプリングし、多数データのデータ数を少数データに合わせることを含む。例えば、オーバーサンプリングは、少数データに基づいてデータをわずかに改変した改変データを生成し、少数データのデータ数を多数データに合わせることを含む。
しかしながら、アンダーサンプリングでは大量の正常データに対してサンプリングを行ないデータ数の不均衡を解消するために、サンプリングの方法によってはデータの偏りが発生してしまう。結果、このような偏ったデータに基づいて学習モデルを生成してしまうことで、学習モデルに対する評価指標が低くなる可能性があった。また、オーバーサンプリングでは少数の異常データから異常データの値をわずかに改変したデータを作成して異常データとして追加することでデータ数の不均衡を解消する。しかしながら、異常データから値が改変されたデータが真に異常データであるのか否かが不明であるため、生成された学習モデルに対する評価指標が同様に低くなる可能性があった。
以下では、これらの問題点を解決可能なプログラム、情報処理装置、及び学習モデルの生成方法について説明する。本開示の一実施形態について、図面を参照して説明する。
図1は、一実施形態に係る情報処理装置10の構成の一例を示す機能ブロック図である。図1を参照しながら、一実施形態に係る情報処理装置10の構成について主に説明する。
情報処理装置10は、PC(Personal Computer)、スマートフォン、タブレットPC、及びその他のエッジデバイスなどの任意の汎用の電子機器を含む。これに限定されず、情報処理装置10は、クラウドシステムに含まれる1つ又は互いに通信可能な複数のサーバ装置であってもよいし、後述する学習モデルの生成に特化した専用の他の電子機器であってもよい。情報処理装置10は、PI(Plant Information)システム及びレコーダなどの設備データの記録システムに含まれる任意の装置であってもよい。情報処理装置10は、データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成する。
情報処理装置10は、大きな構成要素として、記憶部11と、入力部12と、出力部13と、制御部14と、を有する。記憶部11は、データ記憶部111と、学習モデル記憶部112と、を有する。入力部12は、データ入力部121と、判定用データ入力部122と、を有する。制御部14は、分割部141と、機械学習部142と、評価部143と、判定部144と、を有する。
記憶部11は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、ROM(Read-Only Memory)、及びRAM(Random Access Memory)などの任意の記憶モジュールを含む。記憶部11は、情報処理装置10の動作を実現するために必要となる情報を記憶する。例えば、記憶部11は、情報処理装置10の動作を実現するために必要なファームウェアを記憶する。記憶部11は、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部11は、情報処理装置10に内蔵されているものに限定されず、USB(Universal Serial Bus)などのデジタル入出力ポートなどによって接続されている外付け型の記憶モジュールを含んでもよい。
入力部12は、情報処理装置10のユーザによる入力操作を受け付けて、ユーザの入力操作に基づく入力情報を取得する任意の入力インタフェースを含む。入力部12は、例えば、物理キー、静電容量キー、液晶モニタと一体的に設けられたタッチスクリーン、及び音声入力を受け付けるマイクロフォンなどを含んでもよい。入力部12は、取得した入力情報を、記憶部11を介して又は記憶部11を介さずに制御部14に出力する。
出力部13は、情報処理装置10のユーザに対して情報を出力する任意の出力インタフェースを含む。出力部13は、例えば、ユーザの視覚及び聴覚の少なくとも一方に影響を及ぼす任意の出力インタフェースを含む。出力部13は、例えば、ユーザの視覚に主に影響を及ぼす任意の画像出力インタフェースを含んでもよい。例えば、出力部13は、液晶モニタを含んでもよい。出力部13は、例えば、ユーザの聴覚に主に影響を及ぼす任意の音声出力インタフェースを含んでもよい。
制御部14は、1つ以上のプロセッサを含む。より具体的には、制御部14は、汎用のプロセッサ又は特定の処理に特化した専用のプロセッサを含む。制御部14は、情報処理装置10を構成する各構成部に接続され、各構成部をはじめとして情報処理装置10全体を制御及び管理する。
図2は、図1の情報処理装置10の動作の第1例を示すフローチャートである。図2を参照しながら、情報処理装置10により実行される学習モデルの生成方法の一例について主に説明する。
ステップS100では、情報処理装置10の制御部14は、学習モデルの生成に必要となるデータの入力をデータ入力部121により受け付ける。このようなデータは、主にプラント及び設備などに設置されているセンサの測定値及び設定情報、設備の設定情報、並びに設備のソフトウェアが記憶している情報などを含む。加えて、制御部14は、正常又は異常及びタイプA又はタイプBなど、データを機械学習により分類するうえで必要となるラベルの情報の入力もデータ入力部121により受け付ける。
ステップS101では、制御部14は、ステップS100において取得されたデータをデータ記憶部111に格納する。このとき、制御部14は、ステップS100において取得されたデータに加えて、当該データのそれぞれに特徴づけられるラベルの情報もデータ記憶部111に格納する。すなわち、制御部14は、ステップS100において取得されたデータごとにラベルを紐付けた状態でこれらのデータをデータ記憶部111に格納する。
ステップS102では、制御部14の分割部141は、ステップS101においてデータ記憶部111に格納されたデータのラベルごとのデータ数をカウントする。
ステップS103では、制御部14の分割部141は、ステップS101においてデータ記憶部111に格納されたデータを二つに分ける。より具体的には、分割部141は、学習用データと、学習用データを用いて生成した学習モデルを評価するための検証用データと、にデータを分ける。
ステップS104では、制御部14の分割部141は、ステップS103において分けられた複数の学習用データを含む学習用データ群が不均衡データであるか否かを判定する。例えば、分割部141は、当該学習用データ群において、第1ラベルの数と第2ラベルの数とが不均衡であるか否かを判定する。本明細書において、「第1ラベル」は、複数のラベルのうち学習用データに最も多く特徴づけられるラベルを含む。例えば、第1ラベルは、正常データに特徴づけられるラベルを含む。「第2ラベル」は、複数のラベルのうち学習用データに最も少なく特徴づけられるラベルを含む。例えば、第2ラベルは、異常データに特徴づけられるラベルを含む。
例えば、分割部141は、第2ラベルの数に対する第1ラベルの数の比が第1閾値よりも大きいか否かを判定することで学習用データ群が不均衡データであるか否かを判定してもよい。例えば、第1閾値は4である。これに限定されず、第1閾値は4よりも大きい任意の値であってもよい。例えば、第1閾値は10であってもよいし、100であってもよい。
制御部14は、ステップS104において学習用データ群が不均衡データであると判定するとステップS105の処理を実行する。制御部14は、ステップS104において学習用データ群が不均衡データでないと判定するとステップS100の処理を再度実行する。
ステップS105では、制御部14の分割部141は、学習用データ群を後述する複数のサブセットに分割するときの分割数を決定する。例えば、分割部141は、入力部12を用いてユーザにより入力された情報に基づいて分割数を決定してもよい。これに限定されず、分割部141は、初期設定に基づいて所定の演算を行い、自動的に分割数を決定してもよい。
例えば、分割部141は、1つのサブセットにおいて、第2ラベルの数に対する第1ラベルの数の比が第2閾値以下となるように分割数を決定する。例えば、第2閾値は1である。これに限定されず、第2閾値は1よりも大きく4以下となる任意の値であってもよい。例えば、第2閾値は4であってもよい。
分割部141は、分割数n=Count(第1ラベル)/(Count(第2ラベル)×a)として分割数nを算出する。例えば、分割部141は、分割数nを小数点繰り上げで整数値として算出する。例えば、分割部141は、係数aとして1≦a≦4の任意の値を設定してもよい。例えば、分割部141は、入力部12を用いてユーザにより入力された情報に基づいて係数aを設定してもよい。これに限定されず、分割部141は、初期設定に基づいて所定の演算を行い、自動的に係数aを設定してもよい。
ステップS106では、制御部14の分割部141は、ステップS104において第1ラベルの数と第2ラベルの数とが不均衡であると判定すると、複数のサブセットに学習用データ群を分割して複数のサブセットを生成する。分割部141は、ステップS105において決定された分割数のサブセットに学習用データ群を分割する。
本明細書において、「サブセット」は、例えば第2ラベルの数と均衡する数の第1ラベルの第1学習用データと第2ラベルの第2学習用データの全てとを含む。このとき、各サブセットに含まれる第1学習用データの組は互いに異なる。例えば、分割部141は、一のサブセットにサンプリングされた第1学習用データを除く学習用データ群から新たに第1学習用データをサンプリングして他のサブセットを生成してもよい。すなわち、一のサブセットに含まれる第1学習用データの全てが他のサブセットに含まれる第1学習用データの全てと異なっていてもよい。学習用データ群に含まれる第1学習用データの各々が1つのサブセットのみに含まれていてもよい。
ステップS107では、制御部14の機械学習部142は、ステップS106において生成された複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成する。例えば、機械学習部142は、n個のサブセットに対してそれぞれ機械学習を用いて学習を行ない、n個の第1学習モデルを生成する。
ステップS108では、制御部14の評価部143は、ステップS107において生成された複数の第1学習モデルのそれぞれに、ステップS103において分けられた検証用データを入力する。例えば、評価部143は、ステップS107において生成されたn個の第1学習モデルのそれぞれに検証用データを入力する。
ステップS109では、制御部14の評価部143は、ステップS107において生成された複数の第1学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合する。より具体的には、制御部14の評価部143は、ステップS107において生成された複数の第1学習モデルのそれぞれに検証用データを入力したときに各第1学習モデルから出力される予測値の多数決によって、当該検証用データの総合的な予測値を決定する。すなわち、評価部143は、n個の第1学習モデルのそれぞれに検証用データを入力し、当該検証用データが第1ラベル及び第2ラベルのいずれによって特徴づけられるかを多数決により予測する。
以下の表1は、ステップS108及びステップS109における評価部143の処理内容を例示的に説明するための表である。以下の表1において、値1は第1ラベルに対応する。値2は第2ラベルに対応する。
Figure 0007322918000001
例えば、評価部143は、n個の第1学習モデルのそれぞれに真値1を有する検証用データ(1)を入力する。評価部143は、n個の第1学習モデルのそれぞれに検証用データ(1)を入力したときの結果の予測値を多数決により統合する。例えば、評価部143は、予測値2よりも予測値1を出力した第1学習モデルが多いため、予測値を多数決により1に統合する。評価部143は、検証用データ(2)、(3)、(4)、及び(5)についても同様の処理を実行する。例えば、評価部143は、nが偶数であり多数決によって予測値の統合が不可能である場合、乱数に基づいて総合結果を決定してもよい。
ステップS110では、制御部14の評価部143は、ステップS109において取得された、各検証用データに対する総合結果の内容に基づいて、複数の第1学習モデルに対して機械学習の第1評価指標を算出する。より具体的には、制御部14の評価部143は、各検証用データに対する総合結果を、複数の第1学習モデルにより各検証用データに対して特徴づけられたラベルとして、各検証用データの真値と比較しながら第1評価指標を算出する。本明細書において、「第1評価指標」は、例えばAUC(Area Under Curve)、正答率、及びF2スコアなどを含む。
ステップS111では、制御部14の評価部143は、ステップS110において算出された第1評価指標の値が複数のサブセットを生成せずに学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いか否かを判定する。すなわち、評価部143は、第1評価指標の値が分割数1のときの第2学習モデルに対する第2評価指標の値よりも高いか否かを判定する。本明細書において、「第2評価指標」は、例えばAUC(Area Under Curve)、正答率、及びF2スコアなどを含む。
評価部143は、ステップS111において第1評価指標の値が第2評価指標の値よりも高いと判定すると、ステップS112の処理を実行する。評価部143は、ステップS111において第1評価指標の値が第2評価指標の値以下であると判定すると、ステップS100の処理を再度実行する。
ステップS112では、制御部14の評価部143は、ステップS111において第1評価指標の値が第2評価指標の値よりも高いと判定すると、ステップS107において生成された複数の第1学習モデルを記憶部11の学習モデル記憶部112に格納する。
再度図1を参照すると、入力部12の判定用データ入力部122は、判定用データの入力を受け付ける。このような判定用データは、判定用データ入力部122による入力時点においてどのようなラベルで特徴づけられるか不明なデータである。
制御部14の判定部144は、図2のステップS112において学習モデル記憶部112に格納された複数の第1学習モデルに基づいて、判定用データ入力部122から取得した判定用データを機械学習により新たに分類する。すなわち、判定部144は、複数の第1学習モデルに基づいて、判定用データ入力部122から取得した判定用データを機械学習により所定のラベルで特徴づける。例えば、判定部144は、判定用データを機械学習により正常又は異常に分類する。例えば、判定部144は、判定用データを機械学習によりタイプA又はタイプBに分類する。
例えば、判定部144は、学習モデル記憶部112に格納された複数の第1学習モデルをオンラインシステムに用いる場合、図1のステップS108及びステップS109と同様の処理内容を実行することで判定用データを機械学習により新たに分類してもよい。このとき、ステップS108の検証用データに代えて、ラベルが未知で予測対象となる判定用データが判定用データ入力部122を用いて入力される。
出力部13は、判定部144による判定用データの新たな分類結果を情報としてユーザに出力する。例えば、出力部13は、判定用データを所定のラベルで特徴づける判定部144による分類処理の結果を情報としてユーザに出力する。
図3は、図1の情報処理装置10の動作の第2例を示すフローチャートである。図3を参照しながら、情報処理装置10により実行される学習モデルの生成方法において上述した分割数を最適化するときの処理の一例について主に説明する。
ステップS200では、制御部14の分割部141は、図2のステップS105において決定された分割数を、所定範囲内で異なる値に繰り返し更新する。本明細書において、「所定範囲」は、例えば分割数n=Count(第1ラベル)/(Count(第2ラベル)×a)において係数aとして1≦a≦4の任意の値を設定したときに取り得る分割数nの整数値を含む。
ステップS201では、制御部14は、ステップS200において更新された分割数に基づいて、図2のステップS106乃至ステップS109と同様の処理を実行したのち、ステップS110と同様に第1評価指標を算出する。
ステップS202では、制御部14は、分割数の更新が全て完了したか否かを判定する。制御部14は、分割数の更新が全て完了したと判定すると、ステップS203の処理を実行する。制御部14は、分割数の更新が完了していないと判定すると、ステップS200の処理を再度実行する。
ステップS203では、制御部14は、ステップS202において分割数の更新が全て完了したと判定すると、ステップS201において算出された分割数ごとの複数の第1評価指標の値の中から値が最も高いときの分割数を決定する。その後、制御部14は、図2のステップS111及びステップS112と同様の処理を実行し、決定された分割数における第1評価指標の値が第2評価指標の値よりも高いと判定すると、当該分割数で生成された複数の第1学習モデルを記憶部11の学習モデル記憶部112に格納する。
図4は、図1の分割部141により実行される処理内容を例示的に説明するための概念図である。図4を参照しながら、図2のステップS106において制御部14の分割部141により実行されるサブセットへの分割処理について具体的に説明する。例えば、図4に示す例では、ラベルの数は第1ラベル及び第2ラベルの2つのみであってもよい。すなわち、上述した複数の第1学習モデルは二値分類に用いられてもよい。
図4の上部に示す学習用データ群では、黒点の第1ラベルで特徴づけられる第1学習用データは42個含まれている。一方で、白点の第2ラベルで特徴づけられる第2学習用データは4個含まれている。
このとき、分割部141は、第2ラベルの数に対する第1ラベルの数の比が第1閾値としての4よりも大きいと判定し、学習用データ群が不均衡データであると判定する。分割部141は、学習用データ群を複数のサブセットに分割するときの分割数を決定する。例えば、分割部141は、係数aを3.5に設定し、分割数n=42/(4×3.5)として分割数3を算出する。
分割部141は、学習用データ群を、サブセット1、サブセット2、及びサブセット3の3つのサブセットに分割する。図4に示すとおり、サブセット1、サブセット2、及びサブセット3の各々は、第2ラベルの数と均衡する14個の第1ラベルの第1学習用データと4個の第2ラベルの第2学習用データの全てとを含む。このとき、一のサブセットに含まれる第1学習用データの全てが他のサブセットに含まれる第1学習用データの全てと異なっている。学習用データ群に含まれる第1学習用データの各々が1つのサブセットのみに含まれている。
図5は、図1の評価部143により実行される処理内容の第1例を説明するための概念図である。図5を参照しながら、図2のステップS108において制御部14の評価部143により実行される予測値の算出処理について具体的に説明する。より詳細には、各サブセットに基づいて生成された第1学習モデルに検証用データを入力したときの結果の予測値を算出する評価部143の処理について具体的に説明する。
制御部14の機械学習部142は、分割部141により生成されたサブセット1、サブセット2、及びサブセット3の3つのサブセットのそれぞれに基づいて3つの第1学習モデルを生成する。評価部143は、このようにして生成された3つの第1学習モデルのそれぞれに検証用データを入力する。
例えば、正常及び異常のような2つの特徴量を用いて2次元にデータをプロットした学習用データ群に対し機械学習の分類アルゴリズムを用いて、正常又は異常の分類を検証用データに対して行なうと図5の上の図の破線のように正常及び異常の境界線が3つの島に分かれて引かれる。異常データを示す白点を囲むように正常データを示す黒点が多数存在しているために、白点のごく近傍のみしか異常判定領域に含まれない。
一方で、評価部143は、サブセット1に基づいて生成された第1学習モデルに検証用データを入力すると、例えば図5の下部の左側の図において一点鎖線で示すような正常及び異常の境界線を形成する。異常データを示す白点を囲む黒点の数が減少したために、白点のごく近傍に限定されず隣接する白点同士を連続して含むようなより広範な異常判定領域が形成されている。サブセット2及びサブセット3についても同様に二点鎖線及び三点鎖線でそれぞれの境界線を示す。
図6は、図1の評価部143により実行される処理内容の第2例を説明するための概念図である。図6を参照しながら、図2のステップS109において制御部14の評価部143により実行される予測値の統合処理について具体的に説明する。図6は、図5の下部に示したサブセット1、サブセット2、及びサブセット3のそれぞれに対する境界線の図を重ね合わせた概念図である。
例えば、制御部14の評価部143は、生成された3つの第1学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合する。すなわち、評価部143は、図6において各境界線により囲まれる異常判定領域が2つ以上重なる領域を、3つの第1学習モデルを含む第1学習モデル群に基づく最終的な異常判定領域として決定する。
図6においてハッチングにより示す領域は、図5の枠で囲まれた図中に示す破線の領域に近似している。すなわち、情報処理装置10は、分割処理を実行せずに生成した第2学習モデルに基づく異常判定領域と比較してより理想に近い異常判定領域を形成する第1学習モデル群を生成可能である。
以下では、一実施形態に係る情報処理装置10の効果について主に説明するが、同様の説明が一実施形態に係るプログラム及び学習モデルの生成方法に対しても当てはまる。
以上のような一実施形態によれば、不均衡データを用いた場合であっても過学習状態を抑制して、かつ評価指標が高い学習モデルを生成可能である。例えば、情報処理装置10は、不均衡データとしての学習用データ群を複数のサブセットに分割することで、図5に示すように過学習状態を抑制することが可能である。
情報処理装置10は、各サブセットに含まれる第1学習用データの組が互いに異なる複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成することで、従来のアンダーサンプリングのようなデータの偏りを抑制可能である。結果、偏りが抑制された複数のサブセットに基づいて複数の第1学習モデルが生成されるので、このような第1学習モデル群に対する評価指標の低減が抑制される。
情報処理装置10は、元の学習用データ群に含まれている第1学習用データ及び第2学習用データに基づいて各サブセットを生成することで、従来のオーバーサンプリングのように精度の不確かな改変データを擬似的に用いる必要がない。結果、所定のラベルで特徴づけられている真の学習用データに基づいて複数の第1学習モデルが生成されるので、このような第1学習モデル群に対する評価指標の低減が抑制される。
加えて、情報処理装置10は、第1評価指標の値が第2評価指標の値よりも高い第1学習モデル群のみを記憶部11に格納することで、精度の高い第1学習モデル群のみを記憶可能である。情報処理装置10は、このような第1学習モデル群を用いることで、未知の判定用データに対して精度良くラベルを判定することができる。
情報処理装置10は、学習用データ群を複数のサブセットに分割するときの分割数を決定することで、決定された当該分割数に基づいて不均衡データに対するサブセットへの分割処理を適切に実行可能である。情報処理装置10は、分割数を決定することで、新たな学習用データを取得して不均衡データの不均衡度合いが変化しても再学習可能である。
情報処理装置10は、ユーザにより入力された情報に基づいて分割数を決定することで、ユーザが所望する数のサブセットに学習用データ群を分割可能である。これにより、情報処理装置10を用いるユーザの利便性が向上する。
情報処理装置10は、初期設定に基づいて自動的に分割数を決定することで、分割数を決定するためのユーザによる入力作業を省略可能である。これにより、情報処理装置10を用いるユーザの利便性が向上する。
情報処理装置10は、決定された分割数を所定範囲内で異なる値に繰り返し更新して第1評価指標の値が最も高いときの分割数を決定することで、所定範囲内で生成され得る複数の第1学習モデル群の中で最も精度の高い第1学習モデル群のみを記憶可能である。情報処理装置10は、このような第1学習モデル群を用いることで、未知の判定用データに対して精度良くラベルを判定することができる。
情報処理装置10は、複数の第1学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合する。これにより、情報処理装置10は、図5及び図6に示すとおり、複数のサブセットを生成しなかったときの第2学習モデルに基づく異常判定領域と比較してより理想に近い異常判定領域を形成可能である。すなわち、情報処理装置10は、精度の高い第1学習モデル群を生成可能である。
情報処理装置10は、一のサブセットにサンプリングされた第1学習用データを除く学習用データ群から新たに第1学習用データをサンプリングして他のサブセットを生成する。これにより、一のサブセットに含まれる第1学習用データの全てが他のサブセットに含まれる第1学習用データの全てと異なる。したがって、情報処理装置10は、従来のアンダーサンプリングのようなデータの偏りをさらに抑制可能である。結果、偏りがさらに抑制された複数のサブセットに基づいて複数の第1学習モデルが生成されるので、このような第1学習モデル群に対する評価指標の低減がさらに抑制される。
ラベルの数が2つであり、複数の第1学習モデルが二値分類に用いられることで、情報処理装置10は、例えばプラントなどを用いた製造業において有効的に利用可能である。例えば、プラントなどを用いた製造業では異常データが正常データに比べて非常に少ないのが一般的であり、情報処理装置10は、そのような状況の中であっても過学習状態を抑制した有効的なデータ解析を提供可能である。
本開示は、その精神又はその本質的な特徴から離れることなく、上述した実施形態以外の他の所定の形態で実現できることは当業者にとって明白である。したがって、先の記述は例示的であり、これに限定されない。開示の範囲は、先の記述によってではなく、付加した請求項によって定義される。あらゆる変更のうちその均等の範囲内にあるいくつかの変更は、その中に包含されるとする。
例えば、上述した情報処理装置10の動作における各ステップ及び各ステップに含まれる機能などは、論理的に矛盾しないように再配置可能であり、ステップの順序を変更したり、複数のステップを1つに組み合わせたり、又は分割したりすることが可能である。
例えば、本開示は、上述した情報処理装置10の各機能を実現する処理内容を記述したプログラム又はプログラムを記録した記憶媒体としても実現し得る。本開示の範囲には、これらも包含されると理解されたい。
上記実施形態では、情報処理装置10は、決定された分割数を所定範囲内で異なる値に繰り返し更新し、第1評価指標の値が最も高いときの分割数を決定すると説明したが、これに限定されない。情報処理装置10は、決定された分割数に対するこのような最適化処理を実行しなくてもよい。
上記実施形態では、情報処理装置10は、複数の第1学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合すると説明したが、これに限定されない。情報処理装置10は、多数決に代えて任意の方法により結果の予測値を統合してもよい。
上記実施形態では、情報処理装置10は、学習用データ群に含まれる第1学習用データの各々が1つのサブセットのみに含まれるように分割処理を実行すると説明したが、これに限定されない。情報処理装置10は、各サブセットに含まれる第1学習用データの組が互いに異なるのであれば、第1学習用データに対して任意の方法で分割処理を実行してもよい。例えば、情報処理装置10は、所定の第1学習用データが複数のサブセットに含まれるように分割処理を実行してもよい。例えば、情報処理装置10は、各サブセットに含まれる第1学習用データの数が互いに異なるように分割処理を実行してもよい。例えば、情報処理装置10は、第1学習用データの一部のみがサブセットに含まれる対象となるように分割処理を実行してもよい。すなわち、情報処理装置10は、所定の第1学習用データが全てのサブセットのいずれにも含まれないように分割処理を実行してもよい。
上記実施形態では、サブセットは、第2ラベルの数と均衡する数の第1ラベルの第1学習用データと第2ラベルの第2学習用データの全てとを含むと説明したが、これに限定されない。サブセットは、第2ラベルの数と均衡する数の第1ラベルの第1学習用データと第2ラベルの第2学習用データの一部とを含んでもよい。このとき、情報処理装置10は、各サブセットに含まれる第2学習用データの組が互いに異なるように、第2学習用データに対して任意の方法で分割処理を実行してもよい。逆に、情報処理装置10は、各サブセットに含まれる第2学習用データの組が互いに同一となるように、第2学習用データに対して任意の方法で分割処理を実行してもよい。
一実施形態に係る情報処理装置10は、任意の機械学習アルゴリズムに対して適用可能であってもよい。情報処理装置10は、複数の機械学習アルゴリズムを組み合わせて用いてもよい。
10 情報処理装置
11 記憶部
111 データ記憶部
112 学習モデル記憶部
12 入力部
121 データ入力部
122 判定用データ入力部
13 出力部
14 制御部
141 分割部
142 機械学習部
143 評価部
144 判定部

Claims (10)

  1. データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成するプログラムであって、情報処理装置に、
    複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定するステップと、
    前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を、分割数を更新しながら分割して前記複数のサブセットを生成するステップと、
    生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成するステップと、
    所定の前記分割数で生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを保存するステップと、
    を含む動作を実行させる、
    プログラム。
  2. 前記動作は、前記複数のサブセットを生成するステップの前に、前記学習用データ群を前記複数のサブセットに分割するときの前記分割数を決定するステップをさらに含む、
    請求項1に記載のプログラム。
  3. 前記分割数を決定するステップは、ユーザにより入力された情報に基づいて前記分割数を決定するステップを含む、
    請求項2に記載のプログラム。
  4. 前記分割数を決定するステップは、初期設定に基づいて自動的に前記分割数を決定するステップを含む、
    請求項2に記載のプログラム。
  5. 前記動作は、決定された前記分割数を所定範囲内で異なる値に繰り返し更新するステップと、更新された前記分割数のそれぞれに基づいて前記第1評価指標を算出するステップと、前記第1評価指標の値が最も高いときの前記分割数を決定するステップと、をさらに含む、
    請求項2乃至4のいずれか1項に記載のプログラム。
  6. 前記動作は、前記複数の第1学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合するステップをさらに含む、
    請求項1乃至5のいずれか1項に記載のプログラム。
  7. 前記複数のサブセットを生成するステップは、一の前記サブセットにサンプリングされた前記第1学習用データを除く前記学習用データ群から新たに前記第1学習用データをサンプリングして他の前記サブセットを生成するステップを含む、
    請求項1乃至6のいずれか1項に記載のプログラム。
  8. 前記ラベルの数は2つであり、
    前記複数の第1学習モデルは二値分類に用いられる、
    請求項1乃至7のいずれか1項に記載のプログラム。
  9. データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成する情報処理装置であって、制御部と、記憶部と、を備え、
    前記制御部は、
    複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定し、
    前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を、分割数を更新しながら分割して前記複数のサブセットを生成し、
    生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成し、
    所定の前記分割数で生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを前記記憶部に格納する、
    情報処理装置。
  10. データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルの生成方法であって、情報処理装置が、
    複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定するステップと、
    前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を、分割数を更新しながら分割して前記複数のサブセットを生成するステップと、
    生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成するステップと、
    所定の前記分割数で生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを保存するステップと、
    を含む動作を実行する
    学習モデルの生成方法。
JP2021055855A 2021-03-29 2021-03-29 プログラム、情報処理装置、及び学習モデルの生成方法 Active JP7322918B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021055855A JP7322918B2 (ja) 2021-03-29 2021-03-29 プログラム、情報処理装置、及び学習モデルの生成方法
EP22160893.8A EP4080422A1 (en) 2021-03-29 2022-03-08 Non-transitory computer readable medium, information processing apparatus, and method of generating a learning model
CN202210240215.5A CN115221934A (zh) 2021-03-29 2022-03-10 计算机可读介质、信息处理装置和学习模型的生成方法
US17/654,333 US20220309406A1 (en) 2021-03-29 2022-03-10 Non-transitory computer readable medium, information processing apparatus, and method of generating a learning model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021055855A JP7322918B2 (ja) 2021-03-29 2021-03-29 プログラム、情報処理装置、及び学習モデルの生成方法

Publications (2)

Publication Number Publication Date
JP2022152911A JP2022152911A (ja) 2022-10-12
JP7322918B2 true JP7322918B2 (ja) 2023-08-08

Family

ID=80683689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021055855A Active JP7322918B2 (ja) 2021-03-29 2021-03-29 プログラム、情報処理装置、及び学習モデルの生成方法

Country Status (4)

Country Link
US (1) US20220309406A1 (ja)
EP (1) EP4080422A1 (ja)
JP (1) JP7322918B2 (ja)
CN (1) CN115221934A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122851A (ja) 2007-11-13 2009-06-04 Internatl Business Mach Corp <Ibm> データを分類する技術
WO2020055581A1 (en) 2018-09-10 2020-03-19 Google Llc Rejecting biased data using a machine learning model
WO2020112478A1 (en) 2018-11-29 2020-06-04 Somalogic, Inc. Methods for determining disease risk combining downsampling of class-imbalanced sets with survival analysis
WO2020208445A1 (en) 2019-04-11 2020-10-15 International Business Machines Corporation Enhanced ensemble model diversity and learning
US20200380309A1 (en) 2019-05-28 2020-12-03 Microsoft Technology Licensing, Llc Method and System of Correcting Data Imbalance in a Dataset Used in Machine-Learning

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999026164A1 (fr) * 1997-11-19 1999-05-27 Yamatake Corporation Procede pour generer un modele de classification, et support d'enregistrement
US11526701B2 (en) * 2019-05-28 2022-12-13 Microsoft Technology Licensing, Llc Method and system of performing data imbalance detection and correction in training a machine-learning model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122851A (ja) 2007-11-13 2009-06-04 Internatl Business Mach Corp <Ibm> データを分類する技術
WO2020055581A1 (en) 2018-09-10 2020-03-19 Google Llc Rejecting biased data using a machine learning model
WO2020112478A1 (en) 2018-11-29 2020-06-04 Somalogic, Inc. Methods for determining disease risk combining downsampling of class-imbalanced sets with survival analysis
WO2020208445A1 (en) 2019-04-11 2020-10-15 International Business Machines Corporation Enhanced ensemble model diversity and learning
US20200380309A1 (en) 2019-05-28 2020-12-03 Microsoft Technology Licensing, Llc Method and System of Correcting Data Imbalance in a Dataset Used in Machine-Learning

Also Published As

Publication number Publication date
US20220309406A1 (en) 2022-09-29
CN115221934A (zh) 2022-10-21
JP2022152911A (ja) 2022-10-12
EP4080422A1 (en) 2022-10-26

Similar Documents

Publication Publication Date Title
US11720821B2 (en) Automated and customized post-production release review of a model
CN109242135B (zh) 一种模型运营方法、装置、及业务服务器
US10216558B1 (en) Predicting drive failures
WO2020175147A1 (ja) 検知装置及び検知プログラム
US20210406727A1 (en) Managing defects in a model training pipeline using synthetic data sets associated with defect types
JP6869347B2 (ja) リスク制御イベント自動処理の方法および装置
CN109426655B (zh) 数据分析方法、装置、电子设备及计算机可读存储介质
EP3761133A1 (en) Diagnosis device and diagnosis method
CN107357764B (zh) 数据分析方法、电子设备及计算机存储介质
CN112990330A (zh) 用户用能异常数据检测方法及设备
JP2020042757A (ja) 加工装置、加工方法、加工プログラム、及び検査装置
CN114661568A (zh) 异常操作行为检测方法、装置、设备及存储介质
CN114168318A (zh) 存储释放模型的训练方法、存储释放方法及设备
JP7322918B2 (ja) プログラム、情報処理装置、及び学習モデルの生成方法
CN112597435A (zh) 基于设备监理的火电设备质量数据处理方法及装置
JP2007164346A (ja) 決定木変更方法、異常性判定方法およびプログラム
CN110715799B (zh) 断路器机械状态检测方法、装置及终端设备
CN114387089A (zh) 客户信用风险评估方法、装置、设备及存储介质
CN111190800B (zh) 预测主机的批量运行时长的方法、系统、装置及存储介质
CN109284354B (zh) 脚本搜索方法、装置、计算机设备及存储介质
CN113994378A (zh) 检查装置、检查方法及检查程序、以及学习装置、学习方法及学习程序
JP2020205026A (ja) 情報処理装置、情報処理システム、モデルの学習方法
CN110990256A (zh) 开源代码检测方法、装置及计算机可读存储介质
CN112365070B (zh) 一种电力负荷预测方法、装置、设备及可读存储介质
CN116777305B (zh) 电力数据质量提升方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230710

R150 Certificate of patent or registration of utility model

Ref document number: 7322918

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150