JP6805313B2 - 特定装置、特定方法及び特定プログラム - Google Patents

特定装置、特定方法及び特定プログラム Download PDF

Info

Publication number
JP6805313B2
JP6805313B2 JP2019184112A JP2019184112A JP6805313B2 JP 6805313 B2 JP6805313 B2 JP 6805313B2 JP 2019184112 A JP2019184112 A JP 2019184112A JP 2019184112 A JP2019184112 A JP 2019184112A JP 6805313 B2 JP6805313 B2 JP 6805313B2
Authority
JP
Japan
Prior art keywords
label
record
score
feature amount
classification label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019184112A
Other languages
English (en)
Other versions
JP2020009494A (ja
Inventor
哲哉 塩田
哲哉 塩田
一樹 及川
一樹 及川
拓郎 宇田川
拓郎 宇田川
雅人 澤田
雅人 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019184112A priority Critical patent/JP6805313B2/ja
Publication of JP2020009494A publication Critical patent/JP2020009494A/ja
Application granted granted Critical
Publication of JP6805313B2 publication Critical patent/JP6805313B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、特定装置、特定方法及び特定プログラムに関する。
近年、機械学習を用いたデータ分析の適用事例が増加している。一方、データ分析に不可欠な統計や機械学習の知識の習得には、中長期的な教育が必要となる。そこで、非専門家が統計や機械学習の知識の習得を行うことなく、容易にデータ分析に従事できるよう、データ分析を支援する技術が開示されている。
例えば、逐次的最適化手法(SMBO:Sequential model-based optimization)を用いてパイプラインごとに精度の評価を行い、最適なパイプラインを探索する手法が知られている(例えば、非特許文献1及び2を参照)。なお、ここでは、パイプラインとは、予測モデルを構築する一連の処理であり、入力されたデータに対する前処理、ハイパーパラメータに基づくデータの学習等が含まれる。また、あらかじめ専門家が設計した多数のパイプラインの中から、分析対象のデータに適合した少数のパイプラインをユーザに提示する技術が知られている。
Matthias Feurer,Aaron Klein,Katharina Eggensperger,Jost Tobias Springenberg,Manuel Blum,Frank Hutter,"Efficient and Robust Automated Machine Learning",NIPS'15 Proceedings of the 28th International Conference on Neural Information Processing Systems,2015年12月,PP.2755-2763 Lisha Li,Kevin Jamieson,Giulia DeSalvo,Afshin Rostamizadeh,Ameet Talwalkar,"Hyperband:A Novel Bandit-Based Approach to Hyperparameter Optimization",arXiv:1603.06560v3,cs.LG,2016年11月
しかしながら、従来のデータ分析を自動化する技術では、予測モデルによる誤った分析結果の要因を特定することができない場合があった。通常、予測モデルの分析結果には誤りが含まれている場合が多く、予測精度が100%となることは極めてまれである。一方、従来のパイプラインの探索及び提示をする技術では、パイプラインに基づく予測モデルの分析結果に誤りが含まれていた場合に、当該誤りの要因を特定することは困難であった。
本発明の特定装置は、分類器によって計算されたスコアに基づく分類ラベルと、あらかじめ設定された正解ラベルと、が付与されたレコードのそれぞれについて、前記分類ラベルと前記正解ラベルとが一致するか否かを判定する判定部と、前記スコア、及び前記スコアに関する統計量の少なくともいずれかに基づいて、前記レコードから、所定の確度より高い確度で前記分類ラベルが付与されたと推定されるレコードを抽出する抽出部と、前記抽出部によって抽出されたレコードのうち、前記判定部によって前記分類ラベルと前記正解ラベルとが一致しないと判定されたレコードの特徴量に基づいて、前記特徴量ごとに、前記正解ラベルと異なる前記分類ラベルが付与されたことへの影響の大きさを示す値を計算する計算部と、を有することを特徴とする。
本発明によれば、予測モデルによる誤った分析結果の要因を特定することができる。
図1は、第1の実施形態に係る分析システムの構成の一例を示す図である。 図2は、第1の実施形態に係る分析装置の構成の一例を示す図である。 図3は、第1の実施形態に係る分析装置の処理概要を説明するための図である。 図4は、第1の実施形態に係る予測モデルの検証について説明するための図である。 図5は、第1の実施形態に係る特定装置の構成の一例を示す図である。 図6は、第1の実施形態に係る正分類及び誤分類の判定について説明するための図である。 図7は、第1の実施形態に係る抽出条件について説明するための図である。 図8は、第1の実施形態に係る抽出されるレコードについて説明するための図である。 図9は、第1の実施形態に係る抽出されるレコードについて説明するための図である。 図10は、第1の実施形態に係る抽出されるレコードについて説明するための図である。 図11は、第1の実施形態に係る抽出条件について説明するための図である。 図12は、第1の実施形態に係る抽出されるレコードについて説明するための図である。 図13は、第1の実施形態に係る抽出されるレコードについて説明するための図である。 図14は、第1の実施形態に係る抽出されるレコードについて説明するための図である。 図15は、第1の実施形態に係る抽出されるレコードについて説明するための図である。 図16は、第1の実施形態に係る元データについて説明するための図である。 図17は、第1の実施形態に係る重みの一例を示す図である。 図18は、第1の実施形態に係る重み付き特徴量の計算について説明するための図である。 図19は、第1の実施形態に係る重み付き特徴量の一例を示す図である。 図20は、第1の実施形態に係る重み付き特徴量の合計の一例を示す図である。 図21は、第1の実施形態に係る計算結果について説明するための図である。 図22は、第1の実施形態に係る元データについて説明するための図である。 図23は、第1の実施形態に係る重みの一例を示す図である。 図24は、第1の実施形態に係る重み付き特徴量の一例を示す図である。 図25は、第1の実施形態に係る特定装置の処理の流れを示すフローチャートである。 図26は、特定プログラムを実行するコンピュータの一例を示す図である。
以下、図面を参照して、本発明の実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[第1の実施形態の概要]
まず、図1を用いて、第1の実施形態に係る分析システムについて説明する。図1は、第1の実施形態に係る分析システムの構成の一例を示す図である。図1に示すように、分析システム1は、分析装置30及び特定装置50を有する。
分析システム1は、機械学習によるデータ分析を支援するためのシステムである。ここで、機械学習によるデータ分析を行う場合、予測モデルを構築する一連の処理であるパイプラインが決定される場合がある。例えば、パイプラインの決定は、予測モデルに関する複数の設定項目ごとの設定内容の候補を選択肢として用意しておき、選択肢の中から設定内容を順次決定することで行うことができる。
分析装置30は、入力されたデータを分析し設定内容を決定する処理を自動的に行う。また、例えば、分析装置30は、決定されたパイプラインに基づいて構築された予測モデルの予測精度を出力する。このとき、予測モデルの予測精度が100%になることは極めてまれであり、予測モデルは一部のデータについて誤った予測を行う場合が多い。また、誤った予測が行われた原因の特定は、従来人手によって行われていた。
そこで、特定装置50は、予測モデルによる予測結果に含まれる誤りの原因を自動的に特定する。図1に示すように、分析装置30は、学習用データ10を用いて予測モデルを構築する。ここでは、分析装置30は、予測モデルとして、線型分類器を使った予測モデルを構築することとする。そして、分析装置30は、分類結果40として、テスト用データ20の各レコードに対して付された分類ラベルを出力する。そして、特定装置50は、テスト用データ20及び分類結果40を基に、特定した要因60を出力する。特定した要因60には、例えば誤分類に影響を与えた特徴量やレコードが含まれる。
[分析装置の構成]
図2を用いて、分析装置30の構成について説明する。図2は、第1の実施形態に係る分析装置の構成の一例を示す図である。図2に示すように、分析装置30は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部31と、出力部32と、通信制御部33と、記憶部34と、制御部35とを備える。
入力部31は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部35に対して各種指示情報を入力する。出力部32は、液晶ディスプレイ等の表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、データ分析の結果等を操作者に対して出力する。
通信制御部33は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネット等の電気通信回線を介した管理サーバ等の外部の装置と制御部35との通信を制御する。通信制御部33は、例えば特定装置50との通信を制御する。
記憶部34は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部34には、分析装置30を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータ等があらかじめ記憶され、あるいは処理の都度一時的に記憶される。記憶部34は、通信制御部33を介して制御部35と通信する構成でもよい。
制御部35は、CPU(Central Processing Unit)等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図2に例示するように、選択部351、計算部352、決定部353及び検証部354として機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。
選択部351は、予測モデルを構築する際に実行される複数の処理、すなわちパイプラインのそれぞれに対応し、対応する処理の設定内容を順次決定するステップにおいて、設定内容が決定されるたびに、次に実行されるステップを選択する。決定部353は、各ステップの設定内容を、設定内容候補の中から決定する。このとき、選択部351は、所定の実行順序に従って、設定内容が決定された次のステップを選択する。なお、いずれのステップも未実行である場合、選択部351は実行順序が最も前であるステップを選択する。
図3は、第1の実施形態に係る分析装置の処理概要を説明するための図である。例えば、図3に示すように、ステップ「正規化手法探索」の次のステップは「特徴選択手法探索」なので、ステップ「正規化手法探索」の設定内容が決定された場合、選択部351は、次のステップとして「特徴選択手法探索」を選択する。
また、図3のステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」は、それぞれ、学習用及び分析用のデータの前処理である欠損値補完、正規化及び特徴選択の設定内容を決定する前処理決定ステップである。また、ステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」の設定内容候補は、それぞれ、欠損値補完、正規化及び特徴選択で用いられる手法である。また、ステップ「ハイパーパラメータ探索」は、前処理決定ステップより後に実行され、分類器のアルゴリズム及びハイパーパラメータを設定内容として決定する分類器決定ステップである。
計算部352は、複数の処理のうち、設定内容が決定済みの処理を当該決定済みの設定内容を適用して行うとともに、選択部351によって選択されたステップに対応する処理を設定内容の候補のそれぞれを適用して行った場合に構築される予測モデルのそれぞれについて予測精度を計算する。
例えば、選択部351によってステップ「特徴選択手法探索」が選択された場合、ステップ「特徴選択手法探索」よりも実行順序が前であるステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容は決定済みであるため、ステップ「欠損値補完手法探索」及び「正規化手法探索」で決定された設定内容と、ステップ「特徴選択手法探索」の設定内容の候補のそれぞれを適用した予測モデルの構築が可能である。このとき、ステップ「特徴選択手法探索」の設定内容の候補は4つであるため、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容が1つに決定されている場合、少なくとも4通りの予測モデルが構築可能である。
そして、計算部352は、構築可能な予測モデルそれぞれについて予測精度を計算する。なお、このとき、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容は複数通り決定されていてもよい。例えば、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容が2通り決定されている場合、構築可能な予測モデルの数は少なくとも8通りである。
また、例えば、選択部351によってステップ「ハイパーパラメータ探索」が選択された場合、ステップ「ハイパーパラメータ探索」よりも実行順序が前であるステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」の設定内容は決定済みであるため、ステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」で決定された設定内容と、ステップ「ハイパーパラメータ探索」の設定内容の候補のそれぞれを適用した予測モデルの構築が可能である。そして、計算部352は、構築可能な予測モデルそれぞれについて予測精度を計算する。
決定部353は、計算部352によって計算された各予測精度を比較し、設定内容の候補のうち予測精度が最も高くなる設定内容の候補を、選択部351によって選択されたステップに対応する処理の設定内容に決定する。
例えば、図3に示すように、ステップ「正規化手法探索」では、計算部352は、設定内容「最大最小」に対応する予測モデルの予測精度を72%と計算し、設定内容「標準化」に対応する予測モデルの予測精度を78%と計算し、設定内容「Zスコア」に対応する予測モデルの予測精度を72%と計算し、設定内容「無処理」に対応する予測モデルの予測精度を70%と計算した。このとき、ステップ「正規化手法探索」において最も予測精度が高い予測モデルは設定内容「標準化」に対応する予測モデルであるため、決定部353は、ステップ「正規化手法探索」に対応する設定項目の設定内容を「標準化」に決定する。つまり、決定部353は、データの前処理である正規化で用いられる手法を標準化に決定する。
そして、前述の通り、選択部351は、決定部353によって設定内容が決定されたステップの次に実行されるステップを選択する。例えば、決定部353によってステップ「正規化手法探索」における設定内容が決定された場合、選択部351は、ステップ「特徴選択手法探索」を選択する。
検証部354は、決定部353によって決定された設定内容が適用された一連の処理、すなわち、決定されたパイプラインに基づいて構築される予測モデルの検証を行う。図4は、第1の実施形態に係る予測モデルの検証について説明するための図である。図4に示すように、決定部353によって全てのステップの設定内容が決定されると、検証部354は、決定されたパイプラインに基づいて分類器に学習用データ10を学習させ、予測モデルを構築する。そして、検証部354は、学習用データ10とは別のテスト用データ20を用いて、構築した予測モデルの予測精度をテスト精度として測定する。そして、分析装置30は、テスト精度及び分類結果40を出力する。
[特定装置の構成]
図5を用いて、特定装置50の構成について説明する。図5は、第1の実施形態に係る特定装置の構成の一例を示す図である。図5に示すように、特定装置50は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部51と、出力部52と、通信制御部53と、記憶部54と、制御部55とを備える。
入力部51は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部55に対して各種指示情報を入力する。出力部52は、液晶ディスプレイ等の表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、データ分析の結果等を操作者に対して出力する。
通信制御部53は、NIC等で実現され、LANやインターネット等の電気通信回線を介した管理サーバ等の外部の装置と制御部55との通信を制御する。通信制御部53は、例えば分析装置30との通信を制御する。
記憶部54は、RAM、フラッシュメモリ等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部54には、特定装置50を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータ等があらかじめ記憶され、あるいは処理の都度一時的に記憶される。記憶部54は、通信制御部53を介して制御部55と通信する構成でもよい。
制御部55は、CPU等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図5に例示するように、判定部551、抽出部552及び計算部553として機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。
判定部551は、分類器によって計算されたスコアに基づく分類ラベルと、あらかじめ設定された正解ラベルと、が付与されたレコードのそれぞれについて、分類ラベルと正解ラベルとが一致するか否かを判定する。つまり、判定部551は、テスト用データ20の各レコードが正分類レコードであるか誤分類レコードであるかを判定する。図6を用いて、判定部551による正分類及び誤分類の判定について説明する。図6は、第1の実施形態に係る正分類及び誤分類の判定について説明するための図である。
図6に示すように、テスト用データ20の各レコードは、正解ラベル及び特徴量が設定されている。また、分類結果40には、テスト用データ20の各レコードの分類ラベルが含まれる。なお、Col_X及びCol_Yは特徴量の項目の一例である。
例えば、レコードR_1の分類ラベル及び正解ラベルはいずれもAであり、分類ラベルと正解ラベルが同一であるため、判定部551は、レコードR_1を正分類レコードと判定する。また、レコードR_3の分類ラベルはA、正解ラベルはBであり、分類ラベルと正解ラベルが異なるため、判定部551は、レコードR_3を誤分類レコードと判定する。これにより、テスト用データ20の各レコードは、正分類レコード群及び誤分類レコード群に分けられる。また、テスト用データ20の各レコードは、正解ラベルに応じて、正解ラベルAにおける正分類レコード群、正解ラベルBにおける誤分類レコード群等に分けられる。
抽出部552は、テスト用データ20のレコードから、分類器により「自信を持って分類された」レコードを抽出する。ここで、分類器により「自信を持って分類された」レコードとは、分類器によって計算されたスコア、及びスコアに関する統計量の少なくともいずれかに基づいて、所定の確度より高い確度で分類ラベルが付与されたと推定されるレコードである。つまり、抽出部552は、スコア、及びスコアに関する統計量の少なくともいずれかに基づいて、レコードから、所定の確度より高い確度で分類ラベルが付与されたと推定されるレコードを抽出する。
抽出部552は、抽出条件に合致するレコードを、所定の確度より高い確度で分類ラベルが付与されたと推定し抽出する。抽出部552が用いる抽出条件は、分類器による分類ラベルの付与方法によって異なる。分類器によるラベルの付与方法には、例えば、Classifier/Recommender、及びAnomalyがある。
(Classifier/Recommender)
Classifier/Recommenderに基づいて分類ラベルを付与する場合、分類器は、レコードのそれぞれについて、分類ラベルごとにスコアを計算し、分類ラベルのうち対応するスコアが最も高い分類ラベルを付与する。このとき、抽出部552は、スコアのうち、最も高いスコアと、2番目に高いスコアとの差が所定の閾値以上であるレコードを抽出することができる。具体的には、図7に示すように、抽出部552は、1位のスコアと、2位以降のスコアとの関係に基づく抽出条件を用いてレコードの抽出を行う。図7は、第1の実施形態に係る抽出条件について説明するための図である。
図7に示すように、まず、抽出部552は、スコア1位と2位の差が大きいレコードを「自信を持って分類された」レコードとして抽出する。ここで、S_kをk位のスコア、S_max及びS_minをそれぞれ最大及び最小スコア、Lをラベル数、M、N、Pを所定の係数とすると、スコア1位と2位の差が大きいレコードは、下記の抽出条件1−1を用いて抽出される。
(抽出条件1−1)
S_1−S_2≧(S_max−S_min)*M
この状況は、図8のように表すことができる。図8は、第1の実施形態に係る抽出されるレコードについて説明するための図である。図8の縦軸はスコアであり、Aはスコアが1位のラベル、Bはスコアが2位のラベルである。
また、図7に示すように、抽出部552は、スコア1位〜k位までが近いが、スコアk位とk+1位の差が大きいレコードを「自信を持って分類された」レコードとして抽出する。ここで、S_kをk位のスコア、S_max及びS_minをそれぞれ最大及び最小スコア、Lをラベル数、M、N、Pを所定の係数とすると、スコア1位〜k位までが近いが、スコアk位とk+1位の差が大きいレコードは、下記の抽出条件1−2を用いて抽出される。
(抽出条件1−2)
S_1−S_k≦(S_max−S_min)*N
かつ
S_k−S_(k+1)≧(S_max−S_min)*M
かつ
k≦L/P
この状況は、図9のように表すことができる。図9は、第1の実施形態に係る抽出されるレコードについて説明するための図である。図9の縦軸はスコアであり、Aはスコアが1位のラベル、Bはスコアがk位のラベル、Cはスコアがk+1位のラベルである。
また、抽出部552は、抽出条件1−1及び抽出条件1−2のいずれにも合致しないレコードを、「自信がない」分類がされたものとして除外し、抽出しない。この状況は、図10のように表すことができる。図10は、第1の実施形態に係る抽出されるレコードについて説明するための図である。図10の縦軸はスコアであり、Aはスコアが1位のラベルである。
(Anomaly)
一方、Anomalyに基づいて分類ラベルを付与する場合、分類器は、スコアが閾値以上であるか否かによってレコードを分類する。このとき、抽出部552は、レコードから、スコアが第1の閾値以上であるレコード、及び、スコアが第2の閾値以下であるレコードを抽出することができる。第1の閾値及び第2の閾値は、分類器で用いられた閾値を基に計算される値である。具体的には、図11に示すように、抽出部552は、スコアと閾値との関係に基づく抽出条件を用いてレコードの抽出を行う。図11は、第1の実施形態に係る抽出条件について説明するための図である。また、ここでは、分類器は、スコアが閾値以上であるレコードを異常とし、スコアが閾値未満であるレコードを正常として分類するものとする。
図11に示すように、まず、抽出部552は、スコアが閾値よりも十分に大きいレコードを「自信を持って異常として分類された」レコードとして抽出する。ここで、Sをスコア、S_max及びS_minをそれぞれ最大及び最小スコア、Mを所定の係数、thresholdを分類器で用いられた閾値とすると、スコアが閾値よりも十分に大きいレコードは、下記の抽出条件2−1を用いて抽出される。
(抽出条件2−1)
(S_n−threshold)≧(S_max−S_min)*M
この状況は、図12のように表すことができる。図12は、第1の実施形態に係る抽出されるレコードについて説明するための図である。図12の縦軸はスコアであり、S_nは抽出条件による判定対象のレコードのスコアである。
また、図11に示すように、抽出部552は、スコアが閾値よりも十分に小さいレコードを「自信を持って正常として分類された」レコードとして抽出する。ここで、Sをスコア、S_max及びS_minをそれぞれ最大及び最小スコア、Mを所定の係数、thresholdを分類器で用いられた閾値とすると、スコアが閾値よりも十分に小さいレコードは、下記の抽出条件2−2を用いて抽出される。
(抽出条件2−2)
(threshold−S_n)≧(S_max−S_min)*M
この状況は、図13のように表すことができる。図13は、第1の実施形態に係る抽出されるレコードについて説明するための図である。図13の縦軸はスコアであり、S_nは抽出条件による判定対象のレコードのスコアである。
また、抽出部552は、抽出条件2−1及び抽出条件2−2のいずれにも合致しないレコードを、「自信がない」分類がされたものとして除外し、抽出しない。この状況は、図14又は15のように表すことができる。図14及び15は、第1の実施形態に係る抽出されるレコードについて説明するための図である。図14及び15の縦軸はスコアであり、S_nは抽出条件による判定対象のレコードのスコアである。
なお、(抽出条件2−1)及び(抽出条件2−2)は、以下の(抽出条件2−1´)及び(抽出条件2−2´)ように書き換えることができる。
(抽出条件2−1´)
S_n≧(S_max−S_min)*M+threshold
(抽出条件2−2´)
S_n≦−(S_max−S_min)*M+threshold
(抽出条件2−1´)の(S_max−S_min)*M+thresholdは、第1の閾値の一例である。また、(抽出条件2−2´)の−(S_max−S_min)*M+thresholdは、第2の閾値の一例である。
また、計算部553は、抽出部552によって抽出されたレコードのうち、判定部551によって分類ラベルと正解ラベルとが一致しないと判定されたレコードの特徴量に基づいて、特徴量ごと、又はレコードごとに、正解ラベルと異なる分類ラベルが付与されたことへの影響の大きさを示す値を計算する。例えば、計算部553は、特徴量の合計を計算してもよい。
ここで、分類器は、レコードの特徴量に所定の重みを付けた重み付き特徴量を基にスコアを計算するものであってもよい。このとき、計算部553は、抽出部552によって抽出されたレコードのうち、判定部551によって分類ラベルと正解ラベルとが一致しないと判定されたレコードの重み付き特徴量の合計を、特徴量ごと、又はレコードごとに計算することができる。
まず、計算部553は、元データである学習用データ10及び分類器によって各特徴量に付された重みを取得する。図16は、第1の実施形態に係る元データについて説明するための図である。また、図17は、第1の実施形態に係る重みの一例を示す図である。なお、Col_A、Col_B、Col_C及びCol_Dは、特徴量の項目の一例である。
例えば、図16に示すように、元データのレコードR_1の特徴量Col_A、Col_B、Col_C及びCol_Dの値は、それぞれ、1、2、3及び4である。また、図17に示すように、分類器によって特徴量Col_A、Col_B、Col_C及びCol_Dに付された重みは、それぞれ1、2、3及び4である。
次に、図18に示すように、計算部553は、元データ及び重みを基に、重み付き特徴量を計算する。図18は、第1の実施形態に係る重み付き特徴量の計算について説明するための図である。また、重み付後の特徴量を図19に示す。図19は、第1の実施形態に係る重み付き特徴量の一例を示す図である。例えば、レコードR_1の特徴量Col_Aの値は1、重みは1なので、計算部553は、レコードR_1の特徴量Col_Aの重み付き特徴量を1*1=1と計算する。また、例えば、レコードR_2の特徴量Col_Cの値は3.5、重みは3なので、計算部553は、レコードR_2の特徴量Col_Cの重み付き特徴量を3.5*3=10.5と計算する。
次に、図20に示すように、計算部553は、計算した重み付き特徴量の合計を計算する。図20は、第1の実施形態に係る重み付き特徴量の合計の一例を示す図である。また、計算部553は、重み付き特徴量の合計が大きい順に各特徴量をソートし、重み付き特徴量の寄与率、及び寄与率の当該特徴量の順位までの累積率を計算する。なお、寄与率は、特徴量ごとの重み付き特徴量を全て合計した値に占める、各重み付き特徴量の割合である。
例えば、順位が1位である特徴量Col_Dの重み付き特徴量の合計R_Sumは、66である。また、特徴量Col_Dの重み付き特徴量の寄与率は、0.5156である。また、特徴量Col_Dの重み付き特徴量の寄与率の累積率は、0.5156である。
また、順位が最下位である特徴量Col_Aの重み付き特徴量の合計R_Sumは、5.5である。また、特徴量Col_Aの重み付き特徴量の寄与率は、0.0043である。また、特徴量Col_Aの重み付き特徴量の寄与率の累積率は、1である。
そして、出力部52は、計算部553の計算結果に基づいて出力を行う。図21に示すように、出力部52は、計算部553の計算結果をグラフにして出力してもよい。図21は、第1の実施形態に係る計算結果について説明するための図である。
また、出力部52は、累積率が閾値以上である特徴量を出力してもよい。例えば、閾値を0.8とすると、図20及び21より、出力部52は、特徴量Col_D及びCol_Cを出力する。つまり、この場合、特徴量Col_D及びCol_Cが誤分類に特に大きな影響を与えていることが考えられる。
さらに、計算部553は、レコードごとの重み付き特徴量の合計を計算してもよい。例えば、図22及び図23に示す元データ及び重みに基づいて、重み付き特徴量を計算する。図24に、この場合の重み付き特徴量を示す。図22は、第1の実施形態に係る元データについて説明するための図である。また、図23は、第1の実施形態に係る重みの一例を示す図である。図24は、第1の実施形態に係る重み付き特徴量の一例を示す図である。
そして、計算部553は、レコードごとの重み付き特徴量のうち、誤分類への影響が大きい特徴量Col_C及びCol_Dの重み付き特徴量の合計を計算する。さらに、計算部553は、レコードごとの重み付き特徴量の寄与率を計算する。例えば、レコードR_1のCol_C及びCol_Dの重み付き特徴量の合計は25であり、寄与率は0.8333である。
そして、出力部52は、累積率が閾値以上であるレコードを出力する。例えば、閾値を0.8とすると、図24より、出力部52は、レコードR_1及びR_5を出力する。つまり、出力部52は、この場合、誤分類に特に大きな影響を与えていると考えられる特徴量Col_D及びCol_Cの影響が、分類器による分類に大きく影響したと考えられるレコードを出力する。
[第1の実施形態の処理]
図25を用いて、第1の実施形態に係る特定装置50の処理の流れについて説明する。図25は、第1の実施形態に係る特定装置の処理の流れを示すフローチャートである。図25に示すように、判定部551は、レコードごとに正分類であるか誤分類であるかを判定する(ステップS101)。抽出部552は、「自信を持って分類された」レコード、つまり、所定の確度より高い確度で分類ラベルが付与されたと推定されるレコードを抽出する(ステップS102)。
ここで、自信を持って誤分類されたレコードの数が所定数以上でない場合(ステップS103、No)、特定装置50は、要因特定が不可であると判断し、要因特定不可の理由を出力する(ステップS104)。この場合の要因特定不可の理由は、目立った誤分類の要因がないことである。さらに、自信を持って誤分類されたレコード、及び自信を持って正分類されたレコードの数の両方がいずれも所定数以上でない場合、要因特定不可の理由は分類が曖昧であることである。
なお、自信を持って誤分類されたレコードの数が所定数以上であり、自信を持って正分類されたレコードの数が所定数以下である場合、正しく分類するための特徴量が不足していることが考えられるが、誤分類に関しては要因を特定できる可能性があるため、特定装置50は処理を続行する。
一方、自信を持って誤分類されたレコードの数が所定数以上である場合(ステップS103、Yes)、抽出部552は、誤分類への影響が大きい特徴量を抽出する(ステップS105)。ここで、抽出部552によって、誤分類への影響が大きい特徴量が抽出されなかった場合(ステップS106、No)、特定装置50は、要因特定が不可であると判断し、要因特定不可の理由を出力する(ステップS104)。この場合の要因特定不可の理由は、誤分類への影響が大きい特徴量が見つからないことである。
一方、抽出部552によって、誤分類への影響が大きい特徴量が抽出された場合(ステップS106、Yes)、抽出部552は、誤分類への影響が大きいレコードを抽出する(ステップS107)。ここで、抽出部552によって、誤分類への影響が大きいレコードが抽出されなかった場合(ステップS108、No)、特定装置50は、要因特定が不可であると判断し、要因特定不可の理由を出力する(ステップS104)。この場合の要因特定不可の理由は、誤分類への影響が大きいレコードが見つからないことである。
一方、抽出部552によって、誤分類への影響が大きいレコードが抽出された場合(ステップS108、Yes)、特定装置50は、特定した要因を出力する(ステップS109)。ここで、特定装置50は、特定した要因として、特徴量ごと又はレコードごとの誤分類への影響の大きさを示す値の一覧を出力してもよいし、特に誤分類への影響が大きいと考えられる特徴量又はレコードを出力してもよい。
[第1の実施形態の効果]
判定部551は、分類器によって計算されたスコアに基づく分類ラベルと、あらかじめ設定された正解ラベルと、が付与されたレコードのそれぞれについて、分類ラベルと正解ラベルとが一致するか否かを判定する。また、抽出部552は、スコア、及びスコアに関する統計量の少なくともいずれかに基づいて、レコードから、所定の確度より高い確度で分類ラベルが付与されたと推定されるレコードを抽出する。また、計算部553は、抽出部552によって抽出されたレコードのうち、判定部551によって分類ラベルと正解ラベルとが一致しないと判定されたレコードの特徴量に基づいて、特徴量ごと、又はレコードごとに、正解ラベルと異なる分類ラベルが付与されたことへの影響の大きさを示す値を計算する。このように、特徴量又はレコードごとの誤分類への影響を値によって表すことにより、誤分類の要因を特定することが可能となる。
分類器は、レコードのそれぞれについて、分類ラベルごとにスコアを計算し、分類ラベルのうち対応するスコアが最も高い分類ラベルを付与するものであってもよい。このとき、抽出部552は、スコアのうち、最も高いスコアと、2番目に高いスコアとの差が所定の閾値以上であるレコードを抽出することができる。これにより、Classifier/Recommenderに基づいて分類ラベルを付与する分類器について、分類の際の確度が高いと推定されるレコードを抽出することができる。
抽出部552は、レコードから、スコアが第1の閾値以上であるレコード、及び、スコアが第2の閾値以下であるレコードを抽出することができる。これにより、Anomalyに基づいて分類ラベルを付与する分類器について、分類の際の確度が高いと推定されるレコードを抽出することができる。
分類器は、レコードの特徴量に所定の重みを付けた重み付き特徴量を基にスコアを計算するものであってもよい。このとき、計算部553は、抽出部552によって抽出されたレコードのうち、判定部551によって分類ラベルと正解ラベルとが一致しないと判定されたレコードの重み付き特徴量の合計を、特徴量ごと、又はレコードごとに計算することができる。これにより、分類器によって計算された重みを考慮にいれて、誤分類への影響を計算することができる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、特定装置50は、パッケージソフトウェアやオンラインソフトウェアとして上記の要因特定を実行する特定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の特定プログラムを情報処理装置に実行させることにより、情報処理装置を特定装置50として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、特定装置50は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の要因特定に関するサービスを提供する特定サーバ装置として実装することもできる。例えば、特定サーバ装置は、学習用データ及び分類結果を入力とし、特定した要因を出力とする特定サービスを提供するサーバ装置として実装される。この場合、特定サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の要因特定に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図26は、特定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、特定装置50の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、特定装置50における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 学習用データ
20 テスト用データ
30 分析装置
40 分類結果
50 特定装置
60 特定した要因
31、51 入力部
32、52 出力部
33、53 通信制御部
34、54 記憶部
35、55 制御部
351 選択部
352 計算部
353 決定部
354 検証部
551 判定部
552 抽出部
553 計算部

Claims (5)

  1. 分類器によって計算されたスコアに基づく分類ラベルと、あらかじめ設定された正解ラベルと、が付与されたレコードのそれぞれについて、前記分類ラベルと前記正解ラベルとが一致するか否かを判定する判定部と、
    前記スコア、及び前記スコアに関する統計量の少なくともいずれかに基づいて、前記レコードから、所定の確度より高い確度で前記分類ラベルが付与されたと推定されるレコードを抽出する抽出部と、
    前記抽出部によって抽出されたレコードのうち、前記判定部によって前記分類ラベルと前記正解ラベルとが一致しないと判定されたレコードの特徴量に基づいて、前記特徴量ごとに、前記正解ラベルと異なる前記分類ラベルが付与されたことへの影響の大きさを示す値を計算する計算部と、
    を有することを特徴とする特定装置。
  2. 特徴量が設定されたレコードであって、分類器によって前記特徴量を基に計算されたスコアに基づく分類ラベルと、あらかじめ設定された正解ラベルと、が付与されたレコードのそれぞれについて、前記分類ラベルと前記正解ラベルとが一致するか否かを判定する判定部と、
    前記スコア、及び前記スコアに関する統計量の少なくともいずれかに基づいて、前記レコードから、所定の確度より高い確度で前記分類ラベルが付与されたと推定されるレコードを抽出する抽出部と、
    前記抽出部によって抽出されたレコードのうち、前記判定部によって前記分類ラベルと前記正解ラベルとが一致しないと判定されたレコードの特徴量に基づいて、前記特徴量ごと、又は前記レコードごとに、前記正解ラベルと異なる前記分類ラベルが付与されたことへの影響の大きさを示す値を計算する計算部と、
    を有することを特徴とする特定装置。
  3. 特定装置によって実行される特定方法であって、
    分類器によって計算されたスコアに基づく分類ラベルと、あらかじめ設定された正解ラベルと、が付与されたレコードのそれぞれについて、前記分類ラベルと前記正解ラベルとが一致するか否かを判定する判定工程と、
    前記スコア、及び前記スコアに関する統計量の少なくともいずれかに基づいて、前記レコードから、所定の確度より高い確度で前記分類ラベルが付与されたと推定されるレコードを抽出する抽出工程と、
    前記抽出工程によって抽出されたレコードのうち、前記判定工程によって前記分類ラベルと前記正解ラベルとが一致しないと判定されたレコードの特徴量に基づいて、前記特徴量ごとに、前記正解ラベルと異なる前記分類ラベルが付与されたことへの影響の大きさを示す値を計算する計算工程と、
    を含んだことを特徴とする特定方法。
  4. 特定装置によって実行される特定方法であって、
    特徴量が設定されたレコードであって、分類器によって前記特徴量を基に計算されたスコアに基づく分類ラベルと、あらかじめ設定された正解ラベルと、が付与されたレコードのそれぞれについて、前記分類ラベルと前記正解ラベルとが一致するか否かを判定する判定工程と、
    前記スコア、及び前記スコアに関する統計量の少なくともいずれかに基づいて、前記レコードから、所定の確度より高い確度で前記分類ラベルが付与されたと推定されるレコードを抽出する抽出工程と、
    前記抽出工程によって抽出されたレコードのうち、前記判定工程によって前記分類ラベルと前記正解ラベルとが一致しないと判定されたレコードの特徴量に基づいて、前記特徴量ごと、又は前記レコードごとに、前記正解ラベルと異なる前記分類ラベルが付与されたことへの影響の大きさを示す値を計算する計算工程と、
    を含んだことを特徴とする特定方法。
  5. コンピュータを、請求項1又は2に記載の特定装置として機能させるための特定プログラム。
JP2019184112A 2019-10-04 2019-10-04 特定装置、特定方法及び特定プログラム Active JP6805313B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019184112A JP6805313B2 (ja) 2019-10-04 2019-10-04 特定装置、特定方法及び特定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019184112A JP6805313B2 (ja) 2019-10-04 2019-10-04 特定装置、特定方法及び特定プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017091188A Division JP6611268B2 (ja) 2017-05-01 2017-05-01 特定装置、分析システム、特定方法及び特定プログラム

Publications (2)

Publication Number Publication Date
JP2020009494A JP2020009494A (ja) 2020-01-16
JP6805313B2 true JP6805313B2 (ja) 2020-12-23

Family

ID=69152011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019184112A Active JP6805313B2 (ja) 2019-10-04 2019-10-04 特定装置、特定方法及び特定プログラム

Country Status (1)

Country Link
JP (1) JP6805313B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3602084B2 (ja) * 2001-09-28 2004-12-15 株式会社東芝 データベース管理装置
WO2013001893A1 (ja) * 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム

Also Published As

Publication number Publication date
JP2020009494A (ja) 2020-01-16

Similar Documents

Publication Publication Date Title
US10839314B2 (en) Automated system for development and deployment of heterogeneous predictive models
JP6585654B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
US20210103858A1 (en) Method and system for model auto-selection using an ensemble of machine learning models
US20230385333A1 (en) Method and system for building training database using automatic anomaly detection and automatic labeling technology
CN110135505B (zh) 图像分类方法、装置、计算机设备及计算机可读存储介质
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN110909758A (zh) 计算机可读记录介质、学习方法和学习装置
CN113537630A (zh) 业务预测模型的训练方法及装置
CN113377484A (zh) 弹窗处理方法及装置
JP6588495B2 (ja) 分析システム、設定方法および設定プログラム
CN114139636A (zh) 异常作业处理方法及装置
CN114281932A (zh) 工单质检模型的训练方法、装置、设备及存储介质
JP6577516B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
JP6611268B2 (ja) 特定装置、分析システム、特定方法及び特定プログラム
JP6659618B2 (ja) 分析装置、分析方法及び分析プログラム
CN110458383B (zh) 需求处理服务化的实现方法、装置及计算机设备、存储介质
JP6805313B2 (ja) 特定装置、特定方法及び特定プログラム
JP6577515B2 (ja) 分析装置、分析方法及び分析プログラム
JP6588494B2 (ja) 抽出装置、分析システム、抽出方法及び抽出プログラム
US20220230028A1 (en) Determination method, non-transitory computer-readable storage medium, and information processing device
JP7424373B2 (ja) 分析装置、分析方法及び分析プログラム
CN113641823A (zh) 文本分类模型训练、文本分类方法、装置、设备及介质
CN113296836A (zh) 训练模型的方法、测试方法、装置、电子设备及存储介质
US20200265270A1 (en) Mutual neighbors
CN112598118B (zh) 有监督学习的标注异常处理方法、装置、存储介质及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201203

R150 Certificate of patent or registration of utility model

Ref document number: 6805313

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150