JP2018190127A - 判定装置、分析システム、判定方法および判定プログラム - Google Patents

判定装置、分析システム、判定方法および判定プログラム Download PDF

Info

Publication number
JP2018190127A
JP2018190127A JP2017091184A JP2017091184A JP2018190127A JP 2018190127 A JP2018190127 A JP 2018190127A JP 2017091184 A JP2017091184 A JP 2017091184A JP 2017091184 A JP2017091184 A JP 2017091184A JP 2018190127 A JP2018190127 A JP 2018190127A
Authority
JP
Japan
Prior art keywords
data
determination
unit
prediction model
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017091184A
Other languages
English (en)
Other versions
JP6585654B2 (ja
Inventor
哲哉 塩田
Tetsuya Shioda
哲哉 塩田
一樹 及川
Kazuki Oikawa
一樹 及川
拓郎 宇田川
Takuro Udagawa
拓郎 宇田川
雅人 澤田
Masahito Sawada
雅人 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017091184A priority Critical patent/JP6585654B2/ja
Publication of JP2018190127A publication Critical patent/JP2018190127A/ja
Application granted granted Critical
Publication of JP6585654B2 publication Critical patent/JP6585654B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】外れ値を検出するための閾値を容易に設定する判定装置、分析システム、判定方法および判定プログラムを提供する。
【解決手段】算出部15aは、複数のデータを取得して、取得した全てのデータを用いて機械学習により予測モデルを構築し、該予測モデルを用いて、全てのデータについての異常スコアを算出する。また、導出部15bが、異常スコアの平均値と標準偏差とを用いて、閾値を導出する。また、判定部15cが、全データのうち、異常スコアが、導出された閾値を超えるデータを外れ値と判定する。
【選択図】図2

Description

本発明は、判定装置、分析システム、判定方法および判定プログラムに関する。
近年、機械学習を用いたデータ分析の適用事例が増加している。一方、データ分析に不可欠な統計や機械学習の知識の習得には、中長期的な教育が必要となる。そこで、非専門家が、統計や機械学習の知識を習得しなくても容易にデータ分析に従事できるよう、データ分析を支援する技術が開示されている(非特許文献1,2参照)。
また、機械学習を用いて予測モデルを構築する際に、大半のデータの存在する領域から離れたデータすなわち外れ値が存在すると、データ本来の性質とは異なる傾向が学習されてしまうことにより、精度の低い予測モデルが構築されてしまう。そこで、外れ値を正しく検出してデータから消去することにより、機械学習を用いた予測モデルの精度を向上させることができる。
ここで、外れ値を検出するために、LOF(Local Outlier Factor)と呼ばれる技術が開示されている(非特許文献3,4参照)。LOFでは、ある点の近傍に存在する点の数が少ないほど、すなわち、ある点の周りの密度が小さいほど大きな値となる異常スコアが、各点について算出される。
Matthias Feurer,Aaron Klein,Katharina Eggensperger,Jost Tobias Springenberg,Manuel Blum,Frank Hutter,"Efficient and Robust Automated Machine Learning",NIPS'15 Proceedings of the 28th International Conference on Neural Information Processing Systems,2015年12月,PP.2755-2763 Lisha Li,Kevin Jamieson,Giulia DeSalvo,Afshin Rostamizadeh,Ameet Talwalkar,"Hyperband:A Novel Bandit-Based Approach to Hyperparameter Optimization",2016年11月 Michael R.Smith,Tony Martinez,"Improving Classification Accuracy by Identifying and Removing Instances that Should Be Misclassified",Neural Networks (IJCNN),The 2011 International Joint Conference on,2011年 Clemens Reimann,Peter Filzmoser,Robert G.Garrett,"Background and threshold:critical comparison of methods of determination",Science of the Total Environment 346,2005年,pp.1-16
しかしながら、上記のLOFのような異常検出手法を用いて外れ値を検出する場合に、外れ値と判定するための閾値は、異常スコアの算出結果を人手により分析して決定する必要があった。そのため、分析スキルと多大な作業時間とを要していた。
本発明は、上記に鑑みてなされたものであって、外れ値を検出するための閾値を容易に設定することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る判定装置は、複数のデータを取得して、取得した全てのデータを用いて機械学習により予測モデルを構築し、該予測モデルを用いて、前記全てのデータについての異常スコアを算出する算出部と、前記異常スコアの平均値と標準偏差とを用いて、閾値を導出する導出部と、前記全てのデータのうち、前記異常スコアが、導出された前記閾値を超えるデータを外れ値と判定する判定部と、を備えることを特徴とする。
本発明によれば、外れ値を検出するための閾値を容易に設定することができる。
図1は、本発明の一実施形態に係る判定装置を含む分析システムの処理概要を説明するための説明図である。 図2は、本実施形態の判定装置の概略構成を例示する模式図である。 図3は、データの外れ値を説明するための説明図である。 図4は、閾値を説明するための説明図である。 図5は、分析装置の概略構成を例示する模式図である。 図6は、設定情報のデータ構成の一例を示す図である。 図7は、分析システムの処理を説明するための説明図である。 図8は、本実施形態の判定処理手順を示すフローチャートである。 図9は、本実施形態の判定処理の効果を説明するための説明図である。 図10は、判定プログラムを実行するコンピュータを例示する図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[分析システムの処理概要]
まず、図1を参照して、本実施形態に係る判定装置を含む分析システムの処理概要を説明する。図1に示すように、本実施形態において、分析システム1は、機械学習によるデータ分析を支援するためのシステムである。ここで、機械学習によるデータ分析を行う場合、予測モデルを構築する一連の処理であるパイプラインが決定される。例えば、パイプラインの決定は、予測モデルに関する複数の設定項目ごとの設定内容の候補を選択肢として用意しておき、選択肢の中から設定内容を順次決定することで行うことができる。
分析システム1は、予想モデルを構築する際に実行される複数の処理に対応するステップを順次実行することで、各設定項目の設定内容を決定する。例えば、分析システム1は、各ステップにおいて、学習に用いるデータに対する前処理等の前処理の方式と、データの学習からは決まらない予測モデルのハイパーパラメータとを逐次的に決定する。
ここで、前処理には、欠損値補完、正規化、特徴選択、外れ値除外等が挙げられる。欠損値補完とは、データの欠損値補完の方式を意味し、例えば、平均値、中央値、最頻値、あるいは削除等が選択肢となる。また、正規化とは、データの正規化の方式を意味し、例えば、最大値を1、最小値を0とする最大最小方式、標準化、平均値0、標準偏差1の標準正規分布に置き換えるZスコア方式、あるいは無処理等が選択肢となる。特徴選択とは、データの特徴を選択する際の方式を意味し、例えば、決定木、L1正則化、分散分析あるいは無処理等が選択肢となる。外れ値除外については後述する。また、分析システム1は、前処理の方式の探索の後、予測モデルのハイパーパラメータの探索を行う。
図1には、前処理として、前処理1、前処理2、および前処理3の3ステップが例示されており、このうち、例えば、前処理1についての設定内容の候補が、選択肢11、選択肢12、選択肢13および選択肢14となっている。また、図1には、予測モデルのハイパーパラメータ探索として、予測アルゴリズムAのパラメータCを対象とする1ステップが例示され、その設定内容の候補が、0.1,1.0,10および100となっている。
分析システム1は、各ステップにおいて、データの一部を用いて学習し、残りのデータで精度を検証する交差検証を行いながら、選択肢の中から最も精度の高いものを採用する。これにより、分析システム1は、図1に実線矢印で表される採用された選択肢からなるパイプラインに従って、採用された方式で前処理を行う。
次に、分析システム1は、採用されたハイパーパラメータが設定された予測アルゴリズムAを用いて学習を行って、予測モデルを構築する。これにより、分析システム1は、高精度であることが予測される予測モデルを用いて効率よくデータの学習を行って、精度の高い予測モデルを構築できる。
本実施形態において、分析システム1は、分析装置と判定装置とを含む。分析装置は、予測モデルを構築する際に実行される複数の処理に対応するステップを順次実行することにより、各設定項目の設定内容の決定を行う。例えば、分析装置は、各ステップにおいて、前処理の方式、予測モデルのアルゴリズムおよびハイパーパラメータ等を決定する。また、判定装置は、前処理の一つとして、データの外れ値の判定に用いられる閾値を設定し、データから外れ値を除外する処理を実行する。
[判定装置の構成]
次に、図2を参照して、本実施形態に係る判定装置の概略構成を説明する。図2に示すように、本実施形態に係る判定装置10は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部11と出力部12と通信制御部13と、記憶部14と、制御部15とを備える。
入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、後述する判定処理の結果等を操作者に対して出力する。
通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した管理サーバ等の外部の装置と制御部15との通信を制御する。
記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、判定装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
制御部15は、CPU(Central Processing Unit)等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図2に例示するように、算出部15a、導出部15bおよび判定部15cとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。
算出部15aは、取得した全てのデータを用いて機械学習により予測モデルを構築し、該予測モデルを用いて、全てのデータについての異常スコアを算出する。具体的に、算出部15aは、入力部11あるいは通信制御部13を介して複数のデータを取得して、取得した全てのデータについて、異常スコアを算出する。
ここで、図3を参照して、データの外れ値について説明する。算出部15aは、図3(a)に例示するように、複数のデータの分布のうち、大半のデータが存在する領域から離れて存在するいわゆる外れ値を検出する。そこで、算出部15aは、データの異常度を算出するために、全てのデータを用いてAnomaly予測モデルを構築する。また、算出部15aは、構築したAnomaly予測モデルを用いて、各データの異常スコアを算出する。ここで、図3(b)に例示するように、ある点Aの近傍に存在する点が少ない場合、すなわち、この点Aの周りの密度が他の点に比べて小さい場合、算出される異常スコアが大きくなる。
なお、全データを用いてAnomaly予測モデルを構築すると、異常データの異常スコアの値が小さくなる。そこで、算出部15aは、全データからサンプル率を例えば10%としてサンプルデータを抽出してAnomaly予測モデルを構築する。そして、算出部15aは、構築されたAnomaly予測モデルを全データに適用して、全データについての異常スコアを算出する。
図2の説明に戻る。導出部15bは、異常スコアの平均値と標準偏差とを用いて、閾値を導出する。ここで、図4を参照して、閾値について説明する。図4に例示するように、算出された異常スコアが大きいほど外れ値となる。そこで、導出部15bは、外れ値と判定するための閾値を、次式(1)を用いて導出する。
閾値=異常スコアの平均値+異常スコアの標準偏差×倍率 …(1)
ここで、倍率には任意の値を適用できるが、例えば、0.5,1.0,1.5,2.0の所定の各値が適用される。この場合に、導出部15bは、倍率に対応した複数の閾値を導出する。
図2の説明に戻る。判定部15cは、全てのデータのうち、異常スコアが、導出された閾値を超えるデータを外れ値と判定する判定処理を行う。また、判定部15cは、外れ値を全てのデータから除外する。
具体的に、判定部15cは、導出された複数の閾値のそれぞれについて、全てのデータのうち、異常スコアが閾値を超えるデータを、外れ値と判定して全てのデータから除外する処理を行う。
なお、判定装置10は、取得した全てのデータの一部を抽出したサンプルデータを用いて閾値を導出してもよい。すなわち、算出部15aは、取得した全てのデータの一部であるサンプルデータを用いて機械学習により予測モデルを構築し、該予測モデルを用いて全てのデータの異常スコアを算出してもよい。
また、判定装置10による判定処理は、分析システム1の前処理の1つとしての外れ値除外処理に適用される。その場合に、選択肢として、例えば上記式(1)の倍率の各値が設定される。そして、判定部15cが、倍率の各値に対応して導出される各閾値に基づいて、外れ値を除外したデータによる予測モデルの精度が最大となるものを採用する。
[分析装置の構成]
次に、図5を参照して、本実施形態に係る分析装置の概略構成を説明する。図5に示すように、本実施形態に係る分析装置20は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部21と出力部22と通信制御部23と、記憶部24と、制御部25とを備える。
入力部21は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部25に対して各種指示情報を入力する。出力部22は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、データ分析の結果等を操作者に対して出力する。
通信制御部23は、NIC等で実現され、LANやインターネットなどの電気通信回線を介した管理サーバ等の外部の装置と制御部25との通信を制御する。
記憶部24は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部24には、分析装置20を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。記憶部24は、通信制御部23を介して制御部25と通信する構成でもよい。また、記憶部24は、設定情報24aを記憶する。
図6は、設定情報24aのデータ構成の一例を示す図である。設定情報24aは、ステップごとの実行順序、および設定内容候補を含む。設定内容候補は、各ステップに対応する設定項目の設定内容の候補である。本実施形態において、例えば、図1に示したステップ2に対応して、外れ値除外方式探索が行われるものとする。この場合に、図6に例示するように、実行順序2のステップに「外れ値除外方式探索」が設定される。また、設定内容候補として、倍率0.5、1.0、1.5および2.0が設定される。
制御部25は、CPU等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図5に例示するように、選択部25a、計算部25b、決定部25cおよび検証部25dとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。
選択部25aは、予測モデルを構築する際に実行される複数の処理、すなわちパイプラインのそれぞれに対応し、対応する処理の設定内容を順次決定するステップにおいて、設定内容が決定されるたびに、次に実行されるステップを選択する。決定部25cは、各ステップの設定内容を、設定情報24aに含まれる設定内容候補の中から決定する。このとき、選択部25aは、設定情報24aに示される実行順序に従って、設定内容が決定された次のステップを選択する。なお、いずれのステップも未実行である場合、選択部25aは実行順序が最も早いステップを選択する。
計算部25bは、複数の処理のうち、設定内容が決定済みの処理を当該決定済みの設定内容を適用して行う。また、計算部25bは、選択部25aによって選択されたステップに対応する処理を設定内容の候補のそれぞれを適用して行った場合に構築される予測モデルのそれぞれについて予測精度を計算する。その際、計算部25bは、所定数に分割した学習用のデータを用いた交差検証を行うことで予測精度を計算する。また、計算部25bは、予測モデル構築で用いられる予測アルゴリズムが決定されていない場合、複数の予測アルゴリズムの候補のそれぞれを用いて予測精度を計算する。
決定部25cは、計算部25bによって計算された各予測精度を比較し、設定内容の候補のうち予測精度が最も高くなる設定内容の候補を、選択部25aによって選択されたステップに対応する処理の設定内容に決定する。その後、選択部25aは、決定部25cによって設定内容が決定されたステップの次に実行されるステップを選択する。
ここで、図7を参照して、分析システム1の処理について説明する。本実施形態において、例えば、図1に示したステップ2において、図7に例示するように、外れ値除外方式探索が行われる。図7の例では、図1に示したステップ1の前処理1方式探索において決定された方式を用いて前処理が行われた前処理1済みデータが生成されているものとする。
選択部25aは、ステップ2において、設定情報24aを参照して外れ値除外方式探索を選択する。また、計算部25bは、設定内容候補である倍率0.5、1.0、1.5および2.0のそれぞれが適用された場合について、通信制御部23を介して判定装置10に外れ値を判定し除外する判定処理を実行させる。また、計算部25bは、判定装置10による判定処理の結果を受け取って、判定装置10が外れ値と判定したデータを除外したデータを用いて構築される予測モデルのそれぞれについて、交差検証を用いて予測精度を計算する。この結果、図7に示す例では、決定部25cは、予測精度が78%と最も高くなった倍率1.5を、外れ値除外方式として決定する。
検証部25dは、決定部25cによって決定された設定内容が適用された一連の処理、すなわち、決定されたパイプラインに基づいて構築される予測モデルの検証を行う。これにより、本実施形態の分析システム1によれば、容易に外れ値を判定して除外して、高精度な予測モデルを効率よく構築することができる。
[判定処理]
次に、図8を参照して、判定装置10の判定処理について説明する。図8は判定処理手順を例示するフローチャートである。図8のフローチャートは、例えば、判定処理の対象のデータが入力されたタイミングで開始される。
まず、算出部15aが、複数のデータからなるデータセットを取得して、任意のサンプル率で正常データの一部をサンプリングして、学習用データを抽出する(ステップS1)。また、算出部15aは、Anomaly予測アルゴリズムに学習用データを入力して学習することにより、Anomaly予測モデルを構築する(ステップS2)。
そして、算出部15aは、学習されたAnomaly予測モデルにデータセットに含まれる各データを入力して、各データの異常スコアを算出する(ステップS3)。また、導出部15bが、各データの異常スコアを用いて、上記式(1)により閾値を算出する(ステップS4)。
次に、判定部15cが、データセットのi番目のデータについて、異常スコアが閾値を超えているか否かを確認する(ステップS5〜S6)。異常スコアが閾値を超えている場合に(ステップS6,Yes)、データセットからi番目のデータを削除する(ステップS7)。一方、異常スコアが閾値以下の場合には(ステップS6,No)、データセットの(i+1)番目のデータの処理に移行して(ステップS8)、ステップS6〜S8の処理を繰り返す。データセットの全データについての処理が終了した場合に(ステップS9)、判定部15cが、データセットを入力元に返却する(ステップS10)。これにより、一連の判定処理が終了する。
以上、説明したように、本実施形態の判定装置10では、算出部15aが、取得した全てのデータを用いて機械学習により予測モデルを構築し、該予測モデルを用いて、全てのデータについての異常スコアを算出する。また、導出部15bが、異常スコアの平均値と標準偏差とを用いて、閾値を導出する。また、判定部15cが、全データのうち、異常スコアが、導出された閾値を超えるデータを外れ値と判定する。
これにより、本実施形態の判定装置10の判定処理によれば、外れ値を検出するための閾値を自動的に導出することにより、容易に設定することができる。
また、算出部15aは、取得したデータの一部であるサンプルデータを用いて機械学習によりAnomaly予測モデルを構築し、該Anomaly予測モデルを用いて全データについての異常スコアを算出する。また、導出部15bが、異常スコアの平均値と標準偏差とを用いて、閾値を導出する。また、判定部15cが、全てのデータのうち、異常スコアが、導出された閾値を超えるデータを外れ値と判定する。これにより、より効率よく異常スコアを算出して外れ値を検出するための閾値を設定することができる。
また、算出部15aは、取得したデータの一部を抽出したサンプルデータを用いて、各サンプルデータの異常スコアを算出し、導出部15bは、抽出されたサンプルデータの全てについての前記異常スコアの平均値と標準偏差とを用いて、閾値を導出してもよい。これにより、より効率よく閾値を設定することが可能となる。
また、導出部15bは、所定の倍率に対応した複数の閾値を導出する。また、判定部15cが、各閾値に対応して外れ値を判定する。これにより、分析システム1におけるデータの前処理の1つとして、選択肢を設定して予測モデルの精度を比較してより精度の高い予測モデルを採用することができる。したがって、上記式(1)の任意の倍率の設定も予め設定することなく、入力されるデータに応じて柔軟かつ自動的に設定することが可能となる。
また、本実施形態の分析システム1において、分析装置20では、選択部25aが、判定装置10で実行される判定処理を含む、予測モデルを構築する際に実行される複数の処理のそれぞれに対応し、対応する処理の設定内容を順次決定するステップにおいて、設定内容が決定されるたびに、次に実行されるステップを選択する。また、計算部25bが、複数の処理のうち、設定内容が決定済みの処理を当該決定済みの設定内容を適用して行うとともに、選択部25aによって選択されたステップに対応する処理を設定内容の候補のそれぞれを適用して行った場合に構築される予測モデルのそれぞれについて予測精度を計算する。また、決定部25cが、計算部25bによって計算された各予測精度を比較し、設定内容の候補のうち予測精度が最も高くなる設定内容の候補を、選択部25aによって選択されたステップに対応する処理の設定内容に決定する。
また、判定装置10では、算出部15aが、取得した全てのデータを用いて機械学習により予測モデルを構築し、該予測モデルを用いて、全てのデータについての異常スコアを算出する。また、導出部15bが、異常スコアの平均値と標準偏差とを用いて、所定の複数の倍率に対応した複数の閾値を導出する。また、判定部15cが、各閾値に対応して、全てのデータのうち、異常スコアが、導出された閾値を超えるデータを外れ値と判定する。これにより、本実施形態の分析システム1によれば、容易に外れ値を判定して除外して、高精度な予測モデルを効率よく構築することができる。
[実施例]
図9は、本実施形態の判定処理の効果を説明するための説明図である。図9(a)に例示するように、学習に用いられるデータが数値データの場合には、外れ値を除外する処理を行わない無処理の場合に、構築される予測モデルの正解率すなわち精度が21%であった。一方、上記式(1)の倍率が0.5の場合に正解率が29%、倍率が1.0の場合に正解率が61%、倍率が1.5の場合に正解率が46%、倍率が2.0の場合に正解率が61%であり、いずれも有効性が確認された。
同様に、図9(b)に例示するように、学習に用いられるデータがテキストデータの場合、無処理の場合の正解率が90%であった。一方、上記式(1)の倍率が0.5の場合に正解率が92%、倍率が1.0の場合に正解率91%、倍率が1.5の場合に正解率が91%、倍率が2.0の場合に正解率が92%であり、いずれも有効性が確認された。また、無処理の場合の正解率がより低い数値データが入力された場合に、外れ値を除外する処理がより有効であることが確認された。
[プログラム]
上記実施形態に係る判定装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、判定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の判定処理を実行する判定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の判定プログラムを情報処理装置に実行させることにより、情報処理装置を判定装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistants)などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の判定処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、判定装置10は、外れ値検出対象のデータを入力とし、検出した外れ値を出力する判定処理サービスを提供するサーバ装置として実装される。この場合、判定装置10は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の判定処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、判定装置10と同様の機能を実現する判定プログラムを実行するコンピュータの一例を説明する。
図10に示すように、判定プログラムを実行するコンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
ここで、図10に示すように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各テーブルは、例えばハードディスクドライブ1031やメモリ1010に記憶される。
また、判定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した判定装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、判定プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、判定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、判定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
1 分析システム
10 判定装置
11 入力部
12 出力部
13 通信制御部
14 記憶部
15 制御部
15a 算出部
15b 導出部
15c 判定部
20 分析装置
21 入力部
22 出力部
23 通信制御部
24 記憶部
24a 設定情報
25 制御部
25a 選択部
25b 計算部
25c 決定部
25d 検証部

Claims (7)

  1. 複数のデータを取得して、取得した全てのデータを用いて機械学習により予測モデルを構築し、該予測モデルを用いて、前記全てのデータについての異常スコアを算出する算出部と、
    前記異常スコアの平均値と標準偏差とを用いて、閾値を導出する導出部と、
    前記全てのデータのうち、前記異常スコアが、導出された前記閾値を超えるデータを外れ値と判定する判定部と、
    を備えることを特徴とする判定装置。
  2. 複数のデータを取得して、取得した全てのデータの一部であるサンプルデータを用いて機械学習により予測モデルを構築し、該予測モデルを用いて、前記全てのデータについての異常スコアを算出する算出部と、
    前記異常スコアの平均値と標準偏差とを用いて、閾値を導出する導出部と、
    前記全てのデータのうち、前記異常スコアが、導出された前記閾値を超えるデータを外れ値と判定する判定部と、
    を備えることを特徴とする判定装置。
  3. 前記導出部は、所定の複数の値に対応した複数の閾値を導出し、
    前記判定部が、各閾値に対応して前記外れ値を判定することを特徴とする請求項1または2に記載の判定装置。
  4. 前記導出部は、前記異常スコアの平均値と、前記異常スコアの標準偏差に任意の倍率を乗じた値とを加算することにより算出することを特徴とする請求項1〜3のいずれか1項に記載の判定装置。
  5. 分析装置と判定装置とを有する分析システムであって、
    前記分析装置は、
    前記判定装置で実行される判定処理を含む、予測モデルを構築する際に実行される複数の処理のそれぞれに対応し、対応する処理の設定内容を順次決定するステップにおいて、設定内容が決定されるたびに、次に実行されるステップを選択する選択部と、
    前記複数の処理のうち、設定内容が決定済みの処理を当該決定済みの設定内容を適用して行うとともに、前記選択部によって選択されたステップに対応する処理を設定内容の候補のそれぞれを適用して行った場合に構築される予測モデルのそれぞれについて予測精度を計算する計算部と、
    前記計算部によって計算された各予測精度を比較し、前記設定内容の候補のうち予測精度が最も高くなる設定内容の候補を、前記選択部によって選択されたステップに対応する処理の設定内容に決定する決定部と、を備え、
    前記判定装置は、
    複数のデータを取得して、取得した全てのデータまたは取得した全てのデータの一部であるサンプルデータを用いて機械学習により予測モデルを構築し、該予測モデルを用いて、前記全てのデータについての異常スコアを算出する算出部と、
    前記異常スコアの平均値と標準偏差とを用いて、所定の複数の値に対応した複数の閾値を導出する導出部と、
    各閾値に対応して、前記全てのデータのうち、前記異常スコアが、導出された前記閾値を超えるデータを外れ値と判定する判定処理を実行する判定部と、を備える
    ことを特徴とする分析システム。
  6. 判定装置で実行される判定方法であって、
    複数のデータを取得して、取得した全てのデータまたは取得した全てのデータの一部であるサンプルデータを用いて機械学習により予測モデルを構築し、該予測モデルを用いて、前記全てのデータについての異常スコアを算出する算出工程と、
    前記異常スコアの平均値と標準偏差とを用いて、閾値を導出する導出工程と、
    前記全てのデータのうち、前記異常スコアが、導出された前記閾値を超えるデータを外れ値と判定する判定工程と、
    を含んだことを特徴とする判定方法。
  7. 複数のデータを取得して、取得した全てのデータまたは取得した全てのデータの一部であるサンプルデータを用いて機械学習により予測モデルを構築し、該予測モデルを用いて、前記全てのデータについての異常スコアを算出する算出ステップと、
    前記異常スコアの平均値と標準偏差とを用いて、閾値を導出する導出ステップと、
    前記全てのデータのうち、前記異常スコアが、導出された前記閾値を超えるデータを外れ値と判定する判定ステップと、
    をコンピュータに実行させることを特徴とする判定プログラム。
JP2017091184A 2017-05-01 2017-05-01 判定装置、分析システム、判定方法および判定プログラム Active JP6585654B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017091184A JP6585654B2 (ja) 2017-05-01 2017-05-01 判定装置、分析システム、判定方法および判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017091184A JP6585654B2 (ja) 2017-05-01 2017-05-01 判定装置、分析システム、判定方法および判定プログラム

Publications (2)

Publication Number Publication Date
JP2018190127A true JP2018190127A (ja) 2018-11-29
JP6585654B2 JP6585654B2 (ja) 2019-10-02

Family

ID=64480105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017091184A Active JP6585654B2 (ja) 2017-05-01 2017-05-01 判定装置、分析システム、判定方法および判定プログラム

Country Status (1)

Country Link
JP (1) JP6585654B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112240784A (zh) * 2019-07-16 2021-01-19 发那科株式会社 异常判定装置以及异常判定系统
CN112543942A (zh) * 2019-03-14 2021-03-23 欧姆龙株式会社 动作分析装置、动作分析方法及动作分析程序
CN113468151A (zh) * 2020-03-31 2021-10-01 横河电机株式会社 学习数据处理装置、学习数据处理方法和介质
CN113537285A (zh) * 2021-06-08 2021-10-22 内蒙古卫数数据科技有限公司 一种利用患者历史比对数据基于机器学习技术的新型临床错配样本识别方法
WO2022059208A1 (ja) * 2020-09-18 2022-03-24 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
CN114424129A (zh) * 2019-09-24 2022-04-29 大金工业株式会社 控制系统
JP2022139501A (ja) * 2021-03-12 2022-09-26 株式会社豊田中央研究所 劣化判定装置、劣化判定システム、劣化判定方法及びそのプログラム
JP7490924B2 (ja) 2022-08-23 2024-05-28 ワイセイテック カンパニー リミテッド 使用者設定基盤のプラント予知整備装置及び方法
CN118131054A (zh) * 2024-01-12 2024-06-04 东莞市丰晖电子有限公司 一种钠离子电池荷电状态智能监测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016109A1 (fr) * 2006-08-03 2008-02-07 Panasonic Electric Works Co., Ltd. Procédé d'optimisation de jeu de données d'apprentissage pour dispositif d'identification du signal et dispositif d'identification du signal capable d'optimiser le jeu de données d'apprentissage
JP2018124937A (ja) * 2017-02-03 2018-08-09 株式会社東芝 異常検出装置、異常検出方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016109A1 (fr) * 2006-08-03 2008-02-07 Panasonic Electric Works Co., Ltd. Procédé d'optimisation de jeu de données d'apprentissage pour dispositif d'identification du signal et dispositif d'identification du signal capable d'optimiser le jeu de données d'apprentissage
JP2018124937A (ja) * 2017-02-03 2018-08-09 株式会社東芝 異常検出装置、異常検出方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
村川正宏、外3名: "高次局所相関特徴に基づく多チャンネル時系列データからの異常検知 センサ設置箇所での正常パターンの適応", 画像ラボ, vol. 第21巻,第4号, JPN6019026249, 10 April 2010 (2010-04-10), pages 52 - 57, ISSN: 0004072291 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543942A (zh) * 2019-03-14 2021-03-23 欧姆龙株式会社 动作分析装置、动作分析方法及动作分析程序
CN112543942B (zh) * 2019-03-14 2024-08-09 欧姆龙株式会社 动作分析装置、动作分析方法及存储介质
CN112240784A (zh) * 2019-07-16 2021-01-19 发那科株式会社 异常判定装置以及异常判定系统
CN114424129A (zh) * 2019-09-24 2022-04-29 大金工业株式会社 控制系统
CN113468151A (zh) * 2020-03-31 2021-10-01 横河电机株式会社 学习数据处理装置、学习数据处理方法和介质
WO2022059208A1 (ja) * 2020-09-18 2022-03-24 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
JP2022139501A (ja) * 2021-03-12 2022-09-26 株式会社豊田中央研究所 劣化判定装置、劣化判定システム、劣化判定方法及びそのプログラム
CN113537285A (zh) * 2021-06-08 2021-10-22 内蒙古卫数数据科技有限公司 一种利用患者历史比对数据基于机器学习技术的新型临床错配样本识别方法
JP7490924B2 (ja) 2022-08-23 2024-05-28 ワイセイテック カンパニー リミテッド 使用者設定基盤のプラント予知整備装置及び方法
CN118131054A (zh) * 2024-01-12 2024-06-04 东莞市丰晖电子有限公司 一种钠离子电池荷电状态智能监测方法及系统

Also Published As

Publication number Publication date
JP6585654B2 (ja) 2019-10-02

Similar Documents

Publication Publication Date Title
JP6585654B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
JP6954003B2 (ja) データベースのための畳み込みニューラルネットワークモデルの決定装置及び決定方法
JP6588495B2 (ja) 分析システム、設定方法および設定プログラム
US11620474B2 (en) Model reselection for accommodating unsatisfactory training data
CN113868953B (zh) 工业系统中多机组运行优化方法、装置、系统及存储介质
CN113377484A (zh) 弹窗处理方法及装置
JP2018528511A (ja) 生産システムにおける出力効率の最適化
CN111178537A (zh) 一种特征提取模型训练方法及设备
CN114139636A (zh) 异常作业处理方法及装置
JP2018190129A (ja) 判定装置、分析システム、判定方法および判定プログラム
JP6577515B2 (ja) 分析装置、分析方法及び分析プログラム
CN113610225A (zh) 质量评估模型训练方法、装置、电子设备及存储介质
JP6659618B2 (ja) 分析装置、分析方法及び分析プログラム
CN110458383B (zh) 需求处理服务化的实现方法、装置及计算机设备、存储介质
JP7173308B2 (ja) 検知装置、検知方法および検知プログラム
JP6588494B2 (ja) 抽出装置、分析システム、抽出方法及び抽出プログラム
JP7424373B2 (ja) 分析装置、分析方法及び分析プログラム
JP2020086786A (ja) 検出装置及び機械学習方法
JP6611268B2 (ja) 特定装置、分析システム、特定方法及び特定プログラム
CN113010571B (zh) 数据检测方法、装置、电子设备、存储介质和程序产品
CN112784165B (zh) 关联关系预估模型的训练方法以及预估文件热度的方法
WO2012032747A1 (ja) 特徴点選択システム、特徴点選択方法および特徴点選択プログラム
JP7331938B2 (ja) 学習装置、推定装置、学習方法及び学習プログラム
JP2014215761A (ja) 商品カテゴリ間の階層的関係を用いた市場情勢変化分析方法および装置
CN116415548A (zh) 标签预测模型的训练方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180808

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190905

R150 Certificate of patent or registration of utility model

Ref document number: 6585654

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150