JP6588494B2 - 抽出装置、分析システム、抽出方法及び抽出プログラム - Google Patents

抽出装置、分析システム、抽出方法及び抽出プログラム Download PDF

Info

Publication number
JP6588494B2
JP6588494B2 JP2017091182A JP2017091182A JP6588494B2 JP 6588494 B2 JP6588494 B2 JP 6588494B2 JP 2017091182 A JP2017091182 A JP 2017091182A JP 2017091182 A JP2017091182 A JP 2017091182A JP 6588494 B2 JP6588494 B2 JP 6588494B2
Authority
JP
Japan
Prior art keywords
sample data
extraction
unit
label
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017091182A
Other languages
English (en)
Other versions
JP2018190125A (ja
Inventor
哲哉 塩田
哲哉 塩田
一樹 及川
一樹 及川
拓郎 宇田川
拓郎 宇田川
雅人 澤田
雅人 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017091182A priority Critical patent/JP6588494B2/ja
Publication of JP2018190125A publication Critical patent/JP2018190125A/ja
Application granted granted Critical
Publication of JP6588494B2 publication Critical patent/JP6588494B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、抽出装置、分析システム、抽出方法及び抽出プログラムに関する。
近年、機械学習を用いたデータ分析の適用事例が増加している。一方、データ分析に不可欠な統計や機械学習の知識の習得には、中長期的な教育が必要となる。そこで、非専門家が統計や機械学習の知識の習得を行うことなく、容易にデータ分析に従事できるよう、データ分析を支援する技術が開示されている。
例えば、逐次的最適化手法(SMBO:Sequential model-based optimization)を用いてパイプラインごとに精度の評価を行い、最適なパイプラインを探索する手法が知られている(例えば、非特許文献1及び2を参照)。なお、ここでは、パイプラインとは、予測モデルを構築する一連の処理であり、入力されたデータに対する前処理、ハイパーパラメータに基づくデータの学習等が含まれる。また、あらかじめ専門家が設計した多数のパイプラインの中から、分析対象のデータに適合した少数のパイプラインをユーザに提示する技術が知られている。
また、機械学習における予測モデルの構築に要する時間を短縮するため、サンプリングにより学習用のデータを削減する場合がある。サンプリングの手法としては、例えば、Random Samling、Stratified Sampling、Under Sampling Random Samplingが知られている(例えば、非特許文献3を参照)。
Matthias Feurer,Aaron Klein,Katharina Eggensperger,Jost Tobias Springenberg,Manuel Blum,Frank Hutter,"Efficient and Robust Automated Machine Learning",NIPS'15 Proceedings of the 28th International Conference on Neural Information Processing Systems,2015年12月,PP.2755-2763 Lisha Li,Kevin Jamieson,Giulia DeSalvo,Afshin Rostamizadeh,Ameet Talwalkar,"Hyperband:A Novel Bandit-Based Approach to Hyperparameter Optimization",arXiv:1603.06560v3,cs.LG,2016年11月 Z.Reitermanova,"Data Splitting",WDS'10 Proceedings of Contributed Papers, Part I, 31-36, 2010.
しかしながら、サンプリングの手法には、サンプリング結果の評価を効率良く行うことができない場合があるという問題があった。例えば、従来のサンプリングの手法では、サンプリング結果の評価を行うために、サンプリングしたデータを用いて予測モデルの精度検証を行う場合があった。この場合、サンプリングしたデータを用いて予測モデルを構築することになるため、効率が悪くなることがある。
本発明の抽出装置は、ラベルが設定された各レコードを、前記ラベルごとのグループに分類する分類部と、前記ラベルごとのグループのそれぞれを、N個のグループに分割する分割部と、前記ラベルが同一である前記N個のグループからM個のグループを取り出した組合せのそれぞれをサンプルデータの候補とし、前記サンプルデータの候補のそれぞれについて、対応する前記ラベルごとのグループとの合致度合いを計算する計算部と、前記サンプルデータの候補から、前記計算部によって計算された合致度合いが所定値以上であるサンプルデータを抽出する抽出部と、を有することを特徴とする。
本発明によれば、サンプリング結果の評価を効率良く行うことができる。
図1は、第1の実施形態に係る分析システムの構成の一例を示す図である。 図2は、第1の実施形態に係る抽出装置の構成の一例を示す図である。 図3は、第1の実施形態に係るサンプルデータの抽出について説明するための図である。 図4は、第1の実施形態に係る分析装置の構成の一例を示す図である。 図5は、第1の実施形態に係る分析装置の処理概要を説明するための図である。 図6は、第1の実施形態に係る抽出装置の処理の流れを示すフローチャートである。 図7は、第1の実施形態の効果を説明するための図である。 図8は、抽出プログラムを実行するコンピュータの一例を示す図である。
以下、図面を参照して、本発明の実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[第1の実施形態の概要]
まず、図1を用いて、第1の実施形態に係る分析システムについて説明する。図1は、第1の実施形態に係る分析システムの構成の一例を示す図である。図1に示すように、分析システム1は、抽出装置20及び分析装置40を有する。
分析システム1は、機械学習によるデータ分析を支援するためのシステムである。ここで、機械学習によるデータ分析を行う場合、予測モデルを構築する一連の処理であるパイプラインが決定される場合がある。例えば、パイプラインの決定は、予測モデルに関する複数の設定項目ごとの設定内容の候補を選択肢として用意しておき、選択肢の中から設定内容を順次決定することで行うことができる。
分析装置40は、入力されたデータを分析し設定内容を決定する処理を自動的に行う。このとき、分析装置40に入力されるデータのサイズが大きいほど、最終的に構築される予測モデルの予測精度は向上することが考えられる。しかしながら、分析装置40に入力されるデータのサイズが大きいほど分析に要する時間も増加するため、限られた時間での分析が求められる場合等、用意された全てのデータを分析装置40に入力し分析させることが難しい場合がある。
そこで、抽出装置20は、用意された学習用データセット10から、サンプルデータセット30を抽出する。そして、分析装置40には、学習用データセット10と比べてサイズが小さいサンプルデータセット30が入力される。これにより、分析装置40が分析に要する時間を減らすことができる。一方で、サンプルデータセット30が分析装置40に入力される場合、学習用データセット10が分析装置40に入力される場合と比べ、最終的に構築される予測モデルの予測精度は低下する。
そのため、抽出装置20は、予測モデルの予測精度をなるべく低下させないようにサンプルデータセット30の抽出を行う。つまり、抽出装置20は、学習用データセット10のもつ所定の統計的な性質と、サンプルデータセット30のもつ当該性質とが、なるべく近くなるようにサンプルデータセット30を抽出する。
[抽出装置の構成]
次に、図2を用いて、抽出装置20の構成について説明する。図2は、第1の実施形態に係る抽出装置の構成の一例を示す図である。図2に示すように、抽出装置20は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部21と、出力部22と、通信制御部23と、記憶部24と、制御部25とを備える。
入力部21は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部25に対して各種指示情報を入力する。出力部22は、液晶ディスプレイ等の表示装置、プリンター等の印刷装置、情報通信装置等によって実現される。また、出力部22は、サンプルデータセット30を分析装置40に直接出力してもよい。
通信制御部23は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネット等の電気通信回線を介した管理サーバ等の外部の装置と制御部25との通信を制御する。
記憶部24は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部24には、抽出装置20を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータ等があらかじめ記憶され、あるいは処理の都度一時的に記憶される。記憶部24は、通信制御部23を介して制御部25と通信する構成でもよい。
制御部25は、CPU(Central Processing Unit)等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図2に例示するように、分類部251、分割部252、計算部253及び抽出部254として機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。
ここで、図3を用いて、分類部251、分割部252、計算部253及び抽出部254による処理について説明する。図3は、第1の実施形態に係るサンプルデータの抽出について説明するための図である。ここで、学習用データセット10は、レコードの集合である。また、学習用データセット10の各レコードには、所定のラベルが付されている。また、各レコードは1つ以上の特徴量を有する。
ここでは、一例として、学習用データセット10の各レコードには、A、B及びCのうちのいずれかのラベルが付されていることとする。また、一例として、学習用データセット10のレコードのうち、ラベルA、B及びCのそれぞれが付されたレコードの数を、それぞれ1000、3000及び500とする。なお、学習用データセット10の各レコードに付されるラベル、及び各ラベルが付されるレコードの数は、上記のものに限定されず、分析の際に用意されたデータによって異なる。
分類部251は、ラベルが設定された各レコードを、ラベルごとのグループに分類する。図3に示すように、分類部251は、学習用データセット10のレコードのうち、ラベルAが付されたレコードをグループ10Aに分類し、ラベルBが付されたレコードをグループ10Bに分類し、ラベルCが付されたレコードをグループ10Cに分類する。このとき、グループ10A、10B及び10Cのレコードの数は、それぞれ1000、3000及び500である。
分割部252は、ラベルごとのグループのそれぞれを、N個のグループに分割する。Nは、あらかじめ設定された任意の正の整数である。また、例えば、分割部252は、ラベルごとのグループのそれぞれをランダムに分割する。
ここでは、一例として、N=10とする。つまり、図3に示すように、分割部252は、グループ10Aをグループ10A−1〜10A−10の10個のグループに分割する。また、分割部252は、グループ10Bをグループ10B−1〜10B−10の10個のグループに分割する。また、分割部252は、グループ10Cをグループ10C−1〜10C−10の10個のグループに分割する。このとき、グループ10A−1〜10A−10のレコードの数は、いずれも100である。また、グループ10B−1〜10B−10のレコードの数は、いずれも300である。また、グループ10C−1〜10C−10のレコードの数は、いずれも50である。
計算部253は、ラベルが同一であるN個のグループからM個のグループを取り出した組合せのそれぞれをサンプルデータの候補とする。Mは、あらかじめ設定された任意の正の整数である。また、例えば、計算部253は、N個のグループからM個のグループを取り出した組合せの全通りをサンプルデータの候補としてもよいし、一部をサンプルデータの候補としてもよい。
ここでは、一例として、M=2とする。また、計算部253は、取り出し得る全通りの組合せをサンプルデータの候補とすることとする。つまり、図3に示すように、計算部253は、グループ10A−1からグループ10A−10までの10個のグループから、2個のグループを取り出した組合せの全通り、すなわち10=45通りの組合せのそれぞれをサンプルデータの候補とする。このとき、データ11A−1〜11A−45がサンプルデータの候補である。
同様に、計算部253は、グループ10B−1からグループ10B−10までの10個のグループから、2個のグループを取り出した組合せの全通りをサンプルデータの候補とする。このとき、データ11B−1〜11B−45がサンプルデータの候補である。また、計算部253は、グループ10C−1からグループ10C−10までの10個のグループから、2個のグループを取り出した組合せの全通りをサンプルデータの候補とする。このとき、データ11C−1〜11C−45がデータの候補である。
なお、データ11A−1〜11A−45、データ11B−1〜11B−45、及びデータ11C−1〜11C−45は、取り出されたグループのレコードを結合したデータである。例えば、データ11A−1は、グループ10A−1のレコード、及びグループ10A−2のレコードを結合したデータである。
また、計算部253は、サンプルデータの候補のそれぞれについて、対応するラベルごとのグループとの合致度合いを計算する。例えば、計算部253は、データ11A−1と、グループ10Aとの合致度合いを計算する。同様に、計算部253は、データ11A−2〜11A−45のそれぞれと、グループ10Aとの合致度合いを計算する。また、計算部253は、データ11B−1〜11B−45のそれぞれと、グループ10Bとの合致度合いを計算する。また、計算部253は、データ11C−1〜11C−45のそれぞれと、グループ10Cとの合致度合いを計算する。そして、抽出部254は、サンプルデータの候補から、計算部253によって計算された合致度合いが所定値以上であるサンプルデータを抽出する。
例えば、計算部253は、サンプルデータの候補のそれぞれと、対応するラベルごとのグループと、について、特徴量ごとの統計的性質に基づいて、特徴量ごとの合致度合いを計算する。そして、抽出部254は、サンプルデータの候補から、特徴量ごとの合致度合いの合計が最も大きいサンプルデータを抽出する。また、抽出部254は、サンプルデータの候補から、特徴量ごとの合致度合いのうち、所定の閾値以上である合致度合いの合計が最も大きいサンプルデータを抽出してもよい。また、抽出部254は、各ラベルについて抽出したサンプルデータのレコードを結合したデータをサンプルデータセット30とする。
具体的には、計算部253は、二標本コルモゴロフ・スミルノフ検定を用いて特徴量ごとの合致度合いを計算することができる。二標本コルモゴロフ・スミルノフ検定とは、第1のデータ配列及び第2のデータ配列を与えると、各データ配列の確率分布が同一であるか否かを示す検定値pを返却するに標本検定手法である。ここで、pは、[0,1]の値域を取る。例えば、計算部253は、サンプルデータの候補のレコードごとの所定の特徴量を第1のデータ配列とし、グループ10Aのレコードの当該所定の特徴量を第2のデータ配列とすることができる。
例えば、抽出部254は、データ11A−1〜11A−45のそれぞれから、グループ10Aに対する特徴量ごとの検定値pの合計を計算し、当該合計が最も大きいデータをサンプルデータとして抽出する。ただし、抽出部254は、所定の閾値以下である検定値pを除外して合計を計算してもよい。
また、抽出部254は、あるラベルについて抽出したサンプルデータの特徴量のうちのいずれかの検定値pが所定の閾値以下である場合、サンプルデータセット30が学習用データセット10の特徴を保持していないと判断し、サンプルデータセット30を破棄してもよい。この場合、抽出装置20は、例えば、変更されたN及びMの値を用いて、再度サンプルデータセット30の抽出を行うことができる。
なお、N及びMは、それぞれ10及び2に限られず、任意の正の整数とすることができる。また、M÷Nはサンプルデータセット30のサンプル率に等しい。つまり、N及びMを手動又は自動で設定することで、サンプルデータセット30のサンプル率を設定することができる。
[分析装置の構成]
図4を用いて、分析装置40の構成について説明する。図4は、第1の実施形態に係る分析装置の構成の一例を示す図である。図4に示すように、分析装置40は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部41と、出力部42と、通信制御部43と、記憶部44と、制御部45とを備える。
入力部41は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部45に対して各種指示情報を入力する。出力部42は、液晶ディスプレイ等の表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、データ分析の結果等を操作者に対して出力する。
通信制御部43は、NIC等で実現され、LANやインターネット等の電気通信回線を介した管理サーバ等の外部の装置と制御部45との通信を制御する。通信制御部43は、例えば抽出装置20との通信を制御する。
記憶部44は、RAM、フラッシュメモリ等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部44には、分析装置40を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータ等があらかじめ記憶され、あるいは処理の都度一時的に記憶される。記憶部44は、通信制御部43を介して制御部45と通信する構成でもよい。
制御部45は、CPU等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図4に例示するように、選択部451、計算部452、決定部453及び検証部454として機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。
選択部451は、予測モデルを構築する際に実行される複数の処理、すなわちパイプラインのそれぞれに対応し、対応する処理の設定内容を順次決定するステップにおいて、設定内容が決定されるたびに、次に実行されるステップを選択する。決定部453は、各ステップの設定内容を、設定内容候補の中から決定する。このとき、選択部451は、所定の実行順序に従って、設定内容が決定された次のステップを選択する。なお、いずれのステップも未実行である場合、選択部451は実行順序が最も前であるステップを選択する。
図5は、第1の実施形態に係る分析装置の処理概要を説明するための図である。例えば、図5に示すように、ステップ「正規化手法探索」の次のステップは「特徴選択手法探索」なので、ステップ「正規化手法探索」の設定内容が決定された場合、選択部451は、次のステップとして「特徴選択手法探索」を選択する。
また、図5のステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」は、それぞれ、学習用及び分析用のデータの前処理である欠損値補完、正規化及び特徴選択の設定内容を決定する前処理決定ステップである。また、ステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」の設定内容候補は、それぞれ、欠損値補完、正規化及び特徴選択で用いられる手法である。また、ステップ「ハイパーパラメータ探索」は、前処理決定ステップより後に実行され、予測器のアルゴリズム及びハイパーパラメータを設定内容として決定する予測器決定ステップである。
計算部452は、複数の処理のうち、設定内容が決定済みの処理を当該決定済みの設定内容を適用して行うとともに、選択部451によって選択されたステップに対応する処理を設定内容の候補のそれぞれを適用して行った場合にサンプルデータセット30を用いて構築される予測モデルのそれぞれについて予測精度を計算する。
例えば、選択部451によってステップ「特徴選択手法探索」が選択された場合、ステップ「特徴選択手法探索」よりも実行順序が前であるステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容は決定済みであるため、ステップ「欠損値補完手法探索」及び「正規化手法探索」で決定された設定内容と、ステップ「特徴選択手法探索」の設定内容の候補のそれぞれを適用した予測モデルの構築が可能である。このとき、ステップ「特徴選択手法探索」の設定内容の候補は4つであるため、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容が1つに決定されている場合、少なくとも4通りの予測モデルが構築可能である。
そして、計算部452は、構築可能な予測モデルそれぞれについて予測精度を計算する。なお、このとき、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容は複数通り決定されていてもよい。例えば、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容が2通り決定されている場合、構築可能な予測モデルの数は少なくとも8通りである。
また、例えば、選択部451によってステップ「ハイパーパラメータ探索」が選択された場合、ステップ「ハイパーパラメータ探索」よりも実行順序が前であるステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」の設定内容は決定済みであるため、ステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」で決定された設定内容と、ステップ「ハイパーパラメータ探索」の設定内容の候補のそれぞれを適用した予測モデルの構築が可能である。そして、計算部452は、構築可能な予測モデルそれぞれについて予測精度を計算する。
決定部453は、計算部452によって計算された各予測精度を比較し、設定内容の候補のうち予測精度が最も高くなる設定内容の候補を、選択部451によって選択されたステップに対応する処理の設定内容に決定する。
例えば、図5に示すように、ステップ「正規化手法探索」では、計算部452は、設定内容「最大最小」に対応する予測モデルの予測精度を72%と計算し、設定内容「標準化」に対応する予測モデルの予測精度を78%と計算し、設定内容「Zスコア」に対応する予測モデルの予測精度を72%と計算し、設定内容「無処理」に対応する予測モデルの予測精度を70%と計算した。このとき、ステップ「正規化手法探索」において最も予測精度が高い予測モデルは設定内容「標準化」に対応する予測モデルであるため、決定部453は、ステップ「正規化手法探索」に対応する設定項目の設定内容を「標準化」に決定する。つまり、決定部453は、データの前処理である正規化で用いられる手法を標準化に決定する。
そして、前述の通り、選択部451は、決定部453によって設定内容が決定されたステップの次に実行されるステップを選択する。例えば、決定部453によってステップ「正規化手法探索」における設定内容が決定された場合、選択部451は、ステップ「特徴選択手法探索」を選択する。
検証部454は、決定部453によって決定された設定内容が適用された一連の処理、すなわち、決定されたパイプラインに基づいて構築される予測モデルの検証を行う。決定部453によって全てのステップの設定内容が決定されると、検証部454は、決定されたパイプラインに基づいて予測器にサンプルデータセット30を学習させ、予測モデルを構築する。そして、検証部454は、サンプルデータセット30とは別のテスト用データを用いて、構築した予測モデルの予測精度をテスト精度として測定する。例えば、分析装置40は、ここで測定されたテスト精度を最終的な出力としてもよい。また、サンプルデータセット30と異なるテスト用データを用いた検証を行うことで、過学習状態及び未学習状態の確認が可能となる。
[第1の実施形態の処理]
図6を用いて、第1の実施形態に係る抽出装置20の処理の流れについて説明する。図6は、第1の実施形態に係る抽出装置の処理の流れを示すフローチャートである。図6に示すように、まず、分類部251は、学習用データセット10のレコードをラベルごとのグループに分類する(ステップS101)。
次に、分割部252は、ラベルごとのグループをそれぞれN個のグループに分割する(ステップS102)。そして、計算部253は、N個のグループからM個のグループを取り出した組合せをサンプルデータの候補とし(ステップS103)、サンプルデータの候補のそれぞれと、ラベルごとのグループとの合致度合いを計算する(ステップS104)。そして、抽出部254は、サンプルデータの候補のうち、合致度合いが所定値以上であるサンプルデータを抽出する(ステップS105)。
[第1の実施形態の効果]
分類部251は、ラベルが設定された各レコードを、ラベルごとのグループに分類する。また、分割部252は、ラベルごとのグループのそれぞれを、N個のグループに分割する。また、計算部253は、N個のグループからM個のグループを取り出した組合せのそれぞれをサンプルデータの候補とし、サンプルデータの候補のそれぞれについて、対応するラベルごとのグループとの合致度合いを計算する。また、抽出部254は、サンプルデータの候補から、計算部253によって計算された合致度合いが所定値以上であるサンプルデータを抽出する。
従来手法では、予測モデルの構築に用いられるデータのサンプリングを行う場合、サンプリング結果の評価を行うために、サンプルデータを用いて予測モデルを構築し、構築した予測モデルの精度を検証する場合があった。一方、本実施形態によれば、サンプルデータと学習用データセット10との統計的な性質に基づく合致度合いを用いてサンプリング結果の評価を行うことができるため、逐一予測モデルを構築する必要がなくなり、効率良くサンプリング結果の評価を行うことができるようになる。
計算部253は、N個のグループからM個のグループを取り出した組合せの全通りをサンプルデータの候補とすることができる。これにより、全てのレコードを用いたうえで、効率良くサンプリング結果を行うことができる。
計算部253は、サンプルデータの候補のそれぞれと、対応するラベルごとのグループと、について、特徴量ごとの統計的性質に基づいて、特徴量ごとの合致度合いを計算することができる。このとき、抽出部254は、サンプルデータの候補から、特徴量ごとの合致度合いの合計が最も大きいサンプルデータを抽出する。これにより、複数の特徴量の影響を考慮したサンプリング結果の評価を行うことができる。
抽出部254は、サンプルデータの候補から、特徴量ごとの合致度合いのうち、所定の閾値以上である合致度合いの合計が最も大きいサンプルデータを抽出することができる。これにより、学習用データセット10の性質を保持していない特徴量がサンプリング結果の評価に影響を与えないようにすることができる。
計算部253は、二標本コルモゴロフ・スミルノフ検定を用いて特徴量ごとの合致度合いを計算することができる。これにより、サンプルデータが学習用データセット10の統計的な性質を保持しているか否かを、特徴量ごとに判断することができる。
図7に、本実施形態を用いてサンプルデータセット30を抽出した際の抽出結果示す。図7は、第1の実施形態の効果を説明するための図である。図7の各グラフは、特徴量101、102及び103の値を横軸に取った場合のデータごとの度数分布である。図7に示すように、サンプルデータセット30には、学習用データセット10と同様の特徴が現れている。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、抽出装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の抽出を実行する抽出プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の抽出プログラムを情報処理装置に実行させることにより、情報処理装置を抽出装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、抽出装置20は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の抽出に関するサービスを提供する抽出サーバ装置として実装することもできる。例えば、抽出サーバ装置は、学習用データセット10を入力とし、サンプルデータセット30を出力とする抽出サービスを提供するサーバ装置として実装される。この場合、抽出サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の抽出に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図8は、抽出プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、抽出装置20の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、抽出装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 学習用データセット
20 抽出装置
30 サンプルデータセット
40 分析装置
21、41 入力部
22、42 出力部
23、43 通信制御部
24、44 記憶部
25、45 制御部
251 分類部
252 分割部
253 計算部
254 抽出部
451 選択部
452 計算部
453 決定部
454 検証部

Claims (8)

  1. ラベルが設定された各レコードを、前記ラベルごとのグループに分類する分類部と、
    前記ラベルごとのグループのそれぞれを、N個(ただし、Nは2以上かつ前記レコードの数より小さい正の整数)のグループに分割する分割部と、
    前記ラベルが同一である前記N個のグループからM個(ただし、MはNより小さい正の整数)のグループを取り出した組合せのそれぞれをサンプルデータの候補とし、前記サンプルデータの候補のそれぞれについて、対応する前記ラベルごとのグループとの合致度合いを計算する計算部と、
    前記サンプルデータの候補から、前記計算部によって計算された合致度合いが所定値以上であるサンプルデータを抽出する抽出部と、
    を有することを特徴とする抽出装置。
  2. 前記計算部は、前記N個のグループから前記M個のグループを取り出した組合せの全通りをサンプルデータの候補とすることを特徴とする請求項1に記載の抽出装置。
  3. 前記計算部は、前記サンプルデータの候補のそれぞれと、前記対応する前記ラベルごとのグループと、について、特徴量ごとの統計的性質に基づいて、前記特徴量ごとの合致度合いを計算し、
    前記抽出部は、前記サンプルデータの候補から、前記特徴量ごとの合致度合いの合計が最も大きいサンプルデータを抽出することを特徴とする請求項1又は2に記載の抽出装置。
  4. 前記抽出部は、前記サンプルデータの候補から、前記特徴量ごとの合致度合いのうち、所定の閾値以上である合致度合いの合計が最も大きいサンプルデータを抽出することを特徴とする請求項3に記載の抽出装置。
  5. 前記計算部は、二標本コルモゴロフ・スミルノフ検定を用いて前記特徴量ごとの合致度合いを計算することを特徴とする請求項3又は4に記載の抽出装置。
  6. 抽出装置と分析装置とを有する分析システムであって、
    前記抽出装置は、
    ラベルが設定された各レコードを、前記ラベルごとのグループに分類する分類部と、
    前記ラベルごとのグループのそれぞれを、N個(ただし、Nは2以上かつ前記レコードの数より小さい正の整数)のグループに分割する分割部と、
    前記ラベルが同一である前記N個のグループからM個(ただし、MはNより小さい正の整数)のグループを取り出した組合せのそれぞれをサンプルデータの候補とし、前記サンプルデータの候補のそれぞれについて、対応する前記ラベルごとのグループとの合致度合いを計算する計算部と、
    前記サンプルデータの候補から、前記計算部によって計算された合致度合いが所定値以上であるサンプルデータを抽出する抽出部と、を備え、
    前記分析装置は、
    予測モデルを構築する際に実行される複数の処理のそれぞれに対応し、対応する処理の設定内容を順次決定するステップにおいて、設定内容が決定されるたびに、次に実行されるステップを選択する選択部と、
    前記複数の処理のうち、設定内容が決定済みの処理を当該決定済みの設定内容を適用して行うとともに、前記選択部によって選択されたステップに対応する処理を設定内容の候補のそれぞれを適用して行った場合に、前記サンプルデータを結合したデータセットを用いて構築される予測モデルのそれぞれについて予測精度を計算する計算部と、
    前記計算部によって計算された各予測精度を比較し、前記設定内容の候補のうち予測精度が最も高くなる設定内容の候補を、前記選択部によって選択されたステップに対応する処理の設定内容に決定する決定部と、
    を備えることを特徴とする分析システム。
  7. 抽出装置によって実行される抽出方法であって、
    ラベルが設定された各レコードを、前記ラベルごとのグループに分類する分類工程と、
    前記ラベルごとのグループのそれぞれを、N個(ただし、Nは2以上かつ前記レコードの数より小さい正の整数)のグループに分割する分割工程と、
    前記ラベルが同一である前記N個のグループからM個(ただし、MはNより小さい正の整数)のグループを取り出した組合せのそれぞれをサンプルデータの候補とし、前記サンプルデータの候補のそれぞれについて、対応する前記ラベルごとのグループとの合致度合いを計算する計算工程と、
    前記サンプルデータの候補から、前記計算工程によって計算された合致度合いが所定値以上であるサンプルデータを抽出する抽出工程と、
    を含んだことを特徴とする抽出方法。
  8. コンピュータを、請求項1から5のいずれか1項に記載の抽出装置として機能させるための抽出プログラム。
JP2017091182A 2017-05-01 2017-05-01 抽出装置、分析システム、抽出方法及び抽出プログラム Active JP6588494B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017091182A JP6588494B2 (ja) 2017-05-01 2017-05-01 抽出装置、分析システム、抽出方法及び抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017091182A JP6588494B2 (ja) 2017-05-01 2017-05-01 抽出装置、分析システム、抽出方法及び抽出プログラム

Publications (2)

Publication Number Publication Date
JP2018190125A JP2018190125A (ja) 2018-11-29
JP6588494B2 true JP6588494B2 (ja) 2019-10-09

Family

ID=64478596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017091182A Active JP6588494B2 (ja) 2017-05-01 2017-05-01 抽出装置、分析システム、抽出方法及び抽出プログラム

Country Status (1)

Country Link
JP (1) JP6588494B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115427984A (zh) * 2020-05-11 2022-12-02 富士通株式会社 机器学习程序、机器学习方法以及机器学习装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5220202B2 (ja) * 2009-10-26 2013-06-26 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム

Also Published As

Publication number Publication date
JP2018190125A (ja) 2018-11-29

Similar Documents

Publication Publication Date Title
US9684634B2 (en) Method and apparatus for evaluating predictive model
US10839314B2 (en) Automated system for development and deployment of heterogeneous predictive models
JP6585654B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
US11295242B2 (en) Automated data and label creation for supervised machine learning regression testing
US20210103858A1 (en) Method and system for model auto-selection using an ensemble of machine learning models
EP2991003A2 (en) Method and apparatus for classification
CN113010389A (zh) 一种训练方法、故障预测方法、相关装置及设备
US11550707B2 (en) Systems and methods for generating and executing a test case plan for a software product
JP6588495B2 (ja) 分析システム、設定方法および設定プログラム
JP6577516B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
JP6588494B2 (ja) 抽出装置、分析システム、抽出方法及び抽出プログラム
CN114281932A (zh) 工单质检模型的训练方法、装置、设备及存储介质
JP6659618B2 (ja) 分析装置、分析方法及び分析プログラム
JP6611268B2 (ja) 特定装置、分析システム、特定方法及び特定プログラム
CN112905370A (zh) 拓扑图生成方法、异常检测方法、装置、设备及存储介质
JP6577515B2 (ja) 分析装置、分析方法及び分析プログラム
JP6805313B2 (ja) 特定装置、特定方法及び特定プログラム
JP7173308B2 (ja) 検知装置、検知方法および検知プログラム
US20220222544A1 (en) Analysis device, analysis method, and analysis program
CN113127342A (zh) 基于电网信息系统特征选择的缺陷预测方法及装置
JP6518000B2 (ja) 分析装置、分析方法および分析プログラム
CN114037058B (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
WO2022107262A1 (ja) 判定装置、判定方法、および、判定プログラム
US20230342402A1 (en) Data analysis apparatus, data analysis system, and non-transitory computer-readable storage medium
US20230297096A1 (en) Machine learning design for long-term reliability and stress testing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180808

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190912

R150 Certificate of patent or registration of utility model

Ref document number: 6588494

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150