JP7424373B2

JP7424373B2 - 分析装置、分析方法及び分析プログラム

Info

Publication number: JP7424373B2
Application number: JP2021518292A
Authority: JP
Inventors: 哲哉塩田; 美樹境; 方邦石井; 一樹及川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2024-01-30
Anticipated expiration: 2039-05-09
Also published as: WO2020225923A1; JPWO2020225923A1; US20220222544A1

Description

本発明は、分析装置、分析方法及び分析プログラムに関する。

近年、機械学習を用いたデータ分析の適用事例が増加している。一方、データ分析に不可欠な統計や機械学習の知識の習得には、中長期的な教育が必要となる。そこで、非専門家が統計や機械学習の知識の習得を行うことなく、容易にデータ分析に従事できるよう、データ分析を支援する技術が開示されている。

例えば、逐次的最適化手法（ＳＭＢＯ：Sequential model-based optimization）を用いてパイプラインごとに精度の評価を行い、最適なパイプラインを探索する手法が知られている（例えば、非特許文献１及び２を参照）。なお、ここでは、パイプラインとは、予測モデルを構築する一連の処理であり、入力されたデータに対する前処理、ハイパーパラメータに基づくデータの学習等が含まれる。また、あらかじめ専門家が設計した多数のパイプラインの中から、分析対象のデータに適合した少数のパイプラインをユーザに提示する技術が知られている。

Matthias Feurer，Aaron Klein，Katharina Eggensperger，Jost Tobias Springenberg，Manuel Blum，Frank Hutter，"Efficient and Robust Automated Machine Learning"，NIPS'15 Proceedings of the 28th International Conference on Neural Information Processing Systems，2015年12月，PP.2755-2763 Lisha Li，Kevin Jamieson，Giulia DeSalvo，Afshin Rostamizadeh，Ameet Talwalkar，"Hyperband:A Novel Bandit-Based Approach to Hyperparameter Optimization"，arXiv:1603.06560v3，cs.LG，2016年11月

しかしながら、従来のデータ分析を自動化する技術には、予測モデルの精度向上に、正解なしのデータを有効活用することが困難な場合があるという問題があった。ここで、正解ありのデータに比べて収集が容易な正解なしのデータを活用して予測モデルの精度を高める半教師あり学習が知られている。一方で、従来の技術は、正解ありのデータのみを使って予測モデルを構築することを前提とするものであり、半教師あり学習を考慮したものではなかった。

本発明の分析装置は、データからラベルを予測する複数の予測モデルであって、互いに異なる複数の構築手順により構築された予測モデルのそれぞれを用いて、ラベルが付与された第１のデータを基に、ラベルが未付与の第２のデータに対しラベルを付与することで疑似正解ありデータを生成する生成部と、前記第１のデータと、前記疑似正解ありデータとを用いて、前記予測モデルのそれぞれの予測精度を計算する計算部と、前記計算部によって計算された予測精度が所定の基準を満たす予測モデルを決定する決定部と、を有することを特徴とする。

本発明によれば、予測モデルの精度向上に、正解なしのデータを有効活用することができる。

図１は、パイプラインの候補を決定する処理の概要を説明するための図である。図２は、第１の実施形態に係る分析装置の構成の一例を示す図である。図３は、設定情報のデータ構成の一例を示す図である。図４は、予測器情報のデータ構成の一例を示す図である。図５は、交差検証について説明するための図である。図６は、パイプラインの候補の一例を示す図である。図７は、半教師あり学習を行う場合のパイプラインの決定について説明するための図である。図８は、評価値ごとにパイプラインを決定する場合について説明するための図である。図９は、予測モデルの検証について説明するための図である。図１０は、第１の実施形態に係る分析装置の処理の流れを示すフローチャートである。図１１は、パイプラインの候補を決定する処理の流れを示すフローチャートである。図１２は、パイプラインを決定する処理の流れを示すフローチャートである。図１３は、ラベル拡散の流れを示すフローチャートである。図１４は、自己訓練の流れを示すフローチャートである。図１５は、分析プログラムを実行するコンピュータの一例を示す図である。

以下、図面を参照して、本発明の実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［第１の実施形態の概要］
第１の実施形態に係る分析装置は、機械学習によるデータ分析を支援するための装置である。ここで、機械学習によるデータ分析を行う場合、予測モデルを構築する一連の処理であるパイプラインが決定される。

まず、分析装置は、予測モデルに関する複数の設定項目ごとの設定内容の候補を選択肢として用意しておき、選択肢の中から設定内容を順次決定することで、パイプラインの候補を決定する。次に、分析装置は、候補の中から、半教師あり学習に適したパイプラインを決定する。なお、分析装置が最終的に決定するパイプラインは、１つであってもよいし複数であってもよい。

ここで、例えば、パイプラインは予測モデルの構築手順である。また、正解ありのデータは、例えば、ラベルが付与されたデータである。また、正解なしのデータは、例えば、ラベルが未付与のデータである。

［パイプラインの候補を決定する処理］
まず、パイプラインの候補を決定する処理について説明する。図１は、パイプラインの候補を決定する処理の概要を説明するための図である。図１に示すように、分析装置１０は、予測モデルを構築する際に実行される複数の処理に対応するステップを順次実行することで、各設定項目の設定内容の決定を行う。例えば、分析装置１０は、各ステップにおいて、前処理で用いられる手法、予測器のアルゴリズム及びハイパーパラメータ等を決定する。

例えば、分析装置１０は、ステップ１では、前処理の１つである欠損値補完で用いられる手法を、平均値、中央値、最頻値、削除の中から決定する。このとき、分析装置１０は、学習用データ２０の欠損値補完に平均値、中央値、最頻値、削除の各手法を用いた場合のそれぞれについて、構築される予測モデルの予測精度を計算し、予測モデルの予測精度が最も高くなる手法を欠損値補完の手法に決定する。図１の例では、平均値を用いた場合の予測精度が６０％、中央値を用いた場合の予測精度が６５％、最頻値を用いた場合の予測精度が７０％、削除を用いた場合の予測精度が６２％であり、最頻値を用いた場合に最も予測精度が高くなるため、分析装置１０は、欠損値補完の手法を最頻値に決定する。

同様に、分析装置１０は、ステップ２では、前処理の１つである正規化で用いられる手法を、最大最小、標準化、Ｚスコア、無処理の中から決定する。なお、無処理とは、当該前処理を行わないことである。また、分析装置１０は、ステップ３では、前処理の１つである特徴選択で用いられる手法を、決定木、Ｌ１正則化、分散分析、無処理の中から決定する。

また、分析装置１０は、ステップ４では、予測器Ａ、予測器Ｂ及び予測器Ｃのうち、構築される予測モデルの予測精度が最も高くなる予測器Ｂを、予測モデルで用いる予測器に決定する。なお、予測器Ａ、予測器Ｂ及び予測器Ｃのアルゴリズムは、それぞれ異なるものとする。また、分析装置１０は、ステップ４で、さらに予測器ごとのハイパーパラメータを決定する。

この結果、分析装置１０によって決定されるパイプラインは、前処理として、最頻値を用いた欠損値補完、標準化を用いた正規化、分散分析を用いた特徴選択を行い、予測器として予測器Ｂを用いるものとなる。また、分析装置１０は、各ステップにおいて、データの一部を用いて学習し、残りのデータで予測モデルの予測精度を検証する交差検証を行いながら予測精度を計算してもよい。

次に、図２を用いて、分析装置１０の構成について説明する。図２は、第１の実施形態に係る分析装置の構成の一例を示す図である。図２に示すように、分析装置１０は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部１１と、出力部１２と、通信制御部１３と、記憶部１４と、制御部１５とを備える。

入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５に対して各種指示情報を入力する。出力部１２は、液晶ディスプレイ等の表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、データ分析の結果等を操作者に対して出力する。

通信制御部１３は、ＮＩＣ（Network Interface Card）等で実現され、ＬＡＮ（Local Area Network）やインターネット等の電気通信回線を介した管理サーバ等の外部の装置と制御部１５との通信を制御する。

記憶部１４は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４には、分析装置１０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータ等があらかじめ記憶され、あるいは処理の都度一時的に記憶される。記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。また、記憶部１４は、設定情報１４１及び予測器情報１４２を記憶する。

ここで、図３を用いて、設定情報１４１について説明する。図３は、設定情報のデータ構成の一例を示す図である。図３に示すように、設定情報１４１は、ステップごとの実行順序、設定内容候補、及びパラメータ候補を含む。設定内容候補は、各ステップに対応する設定項目の設定内容の候補である。また、パラメータ候補は、選択された設定内容に設定可能なパラメータの候補である。

図３の例では、設定情報１４１は、ステップとして「欠損値補完手法探索」、「正規化手法探索」、「特徴選択手法探索」及び「ハイパーパラメータ探索」があることを示している。なお、これらのステップは、図１のステップ１～４に対応している。

図３の例では、設定情報１４１は、ステップ「特徴選択手法探索」が３番目に実行されるステップであることを示している。また、設定情報１４１は、ステップ「特徴選択手法探索」に対応する設定項目の設定内容の候補として、「決定木」、「Ｌ１正則化」、「分散分析」及び「無処理」があることを示している。なお、図３の例では、ステップ「特徴選択手法探索」に対応する設定項目は、特徴選択で用いられる手法である。また、設定情報１４１は、設定内容候補「決定木」のパラメータである木の数Ｎの候補として、１００及び３００があることを示している。また、パラメータ候補には優先度が設定されている。

次に、図４を用いて、予測器情報１４２について説明する。図４は、予測器情報のデータ構成の一例を示す図である。図４に示すように、予測器情報１４２は、予測器ごとのアルゴリズム及びデフォルトパラメータを含む。アルゴリズムは、各予測器で用いられるアルゴリズムであり、図４に示すように、「Random Forest」、「Logistic Regression」、「K Nearest Neighbors」等がある。また、デフォルトパラメータは、各アルゴリズムのパラメータのデフォルト値である。また、デフォルトパラメータは予測器のハイパーパラメータのデフォルト値を含む。例えば、予測器情報１４２は、予測器Ａのアルゴリズム「Random Forest」のパラメータＮのデフォルト値が１００であることを示している。

制御部１５は、ＣＰＵ（Central Processing Unit）等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図２に例示するように、選択部１５１、計算部１５２、決定部１５３、生成部１５４及び検証部１５５として機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。

選択部１５１は、予測モデルを構築する際に実行される複数の処理、すなわちパイプラインのそれぞれに対応し、対応する処理の設定内容を順次決定するステップにおいて、設定内容が決定されるたびに、次に実行されるステップを選択する。決定部１５３は、各ステップの設定内容を、設定情報１４１に含まれる設定内容候補の中から決定する。このとき、選択部１５１は、設定情報１４１に示される実行順序に従って、設定内容が決定された次のステップを選択する。なお、いずれのステップも未実行である場合、選択部１５１は実行順序が最も前であるステップを選択する。

例えば、図３に示すように、ステップ「正規化手法探索」の次のステップは「特徴選択手法探索」なので、ステップ「正規化手法探索」の設定内容が決定された場合、選択部１５１は、次のステップとして「特徴選択手法探索」を選択する。

また、図３のステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」は、それぞれ、学習用及び分析用のデータの前処理である欠損値補完、正規化及び特徴選択の設定内容を決定する前処理決定ステップである。また、ステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」の設定内容候補は、それぞれ、欠損値補完、正規化及び特徴選択で用いられる手法である。また、ステップ「ハイパーパラメータ探索」は、前処理決定ステップより後に実行され、予測器のアルゴリズム及びハイパーパラメータを設定内容として決定する予測器決定ステップである。

計算部１５２は、複数の処理のうち、設定内容が決定済みの処理を当該決定済みの設定内容を適用して行うとともに、選択部１５１によって選択されたステップに対応する処理を設定内容の候補のそれぞれを適用して行った場合に構築される予測モデルのそれぞれについて予測精度を計算する。

例えば、選択部１５１によってステップ「特徴選択手法探索」が選択された場合、ステップ「特徴選択手法探索」よりも実行順序が前であるステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容は決定済みであるため、ステップ「欠損値補完手法探索」及び「正規化手法探索」で決定された設定内容と、ステップ「特徴選択手法探索」の設定内容の候補のそれぞれを適用した予測モデルの構築が可能である。このとき、ステップ「特徴選択手法探索」の設定内容の候補は４つであるため、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容が１つに決定されている場合、少なくとも４通りの予測モデルが構築可能である。

そして、計算部１５２は、構築可能な予測モデルそれぞれについて予測精度を計算する。なお、このとき、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容は複数通り決定されていてもよい。例えば、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容が２通り決定されている場合、構築可能な予測モデルの数は少なくとも８通りである。

また、例えば、選択部１５１によってステップ「ハイパーパラメータ探索」が選択された場合、ステップ「ハイパーパラメータ探索」よりも実行順序が前であるステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」の設定内容は決定済みであるため、ステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」で決定された設定内容と、ステップ「ハイパーパラメータ探索」の設定内容の候補のそれぞれを適用した予測モデルの構築が可能である。そして、計算部１５２は、構築可能な予測モデルそれぞれについて予測精度を計算する。

また、計算部１５２は、所定数に分割した学習用のデータを用いた交差検証を行うことで予測精度を計算することができる。ここで、図５を用いて交差検証について説明する。図５は、交差検証について説明するための図である。

図５に示すように、まず、計算部１５２は、学習用データ２０を学習用データ２０ａ、２０ｂ、２０ｃ及び２０ｄの４つに分割する。そして、計算部１５２は、１回目の処理として、予測モデルを用いて、学習用データ２０ｂ、２０ｃ及び２０ｄを予測器に学習させ、学習用データ２０ａを用いて学習済みの予測器の精度を測定する。

同様に、計算部１５２は、２回目の処理では、学習用データ２０ａ、２０ｃ及び２０ｄを予測器に学習させ、学習用データ２０ｂを用いて学習済みの予測器の精度を測定する。また、計算部１５２は、３回目の処理では、学習用データ２０ａ、２０ｂ及び２０ｄを予測器に学習させ、学習用データ２０ｃを用いて学習済みの予測器の精度を測定する。また、計算部１５２は、４回目の処理では、学習用データ２０ａ、２０ｂ及び２０ｃを予測器に学習させ、学習用データ２０ｄを用いて学習済みの予測器の精度を測定する。そして、計算部１５２は、４回の処理で測定した精度の平均値である交差検証精度を予測精度とする。なお、交差検証における分割数は４に限定されず、任意の数とすることができる。

また、計算部１５２は、複数の予測器の候補のそれぞれを用いて予測精度を計算することができる。例えば、図３に示すように、ステップ「ハイパーパラメータ探索」より前のステップでは、予測モデルで用いられる予測器は決定されないため、ステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」では、計算部１５２は、予測器Ａ、予測器Ｂ及び予測器Ｃのそれぞれを用いた場合の予測精度を計算する。例えば、選択部１５１によってステップ「特徴選択手法探索」が選択され、かつ、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容が１つに決定されている場合、ステップ「特徴選択手法探索」の設定内容の候補が４つであり、予測器の候補が３つであるため、計算部１５２は、少なくとも１２通りの予測モデルの予測精度を計算する。

決定部１５３は、計算部１５２によって計算された各予測精度を比較し、設定内容の候補のうち予測精度が最も高くなる設定内容の候補を、選択部１５１によって選択されたステップに対応する処理の設定内容に決定する。

例えば、図１に示すように、ステップ「正規化手法探索」では、計算部１５２は、設定内容「最大最小」に対応する予測モデルの予測精度を７２％と計算し、設定内容「標準化」に対応する予測モデルの予測精度を７８％と計算し、設定内容「Ｚスコア」に対応する予測モデルの予測精度を７２％と計算し、設定内容「無処理」に対応する予測モデルの予測精度を７０％と計算した。このとき、ステップ「正規化手法探索」において最も予測精度が高い予測モデルは設定内容「標準化」に対応する予測モデルであるため、決定部１５３は、ステップ「正規化手法探索」に対応する設定項目の設定内容を「標準化」に決定する。つまり、決定部１５３は、データの前処理である正規化で用いられる手法を標準化に決定する。

そして、前述の通り、選択部１５１は、決定部１５３によって設定内容が決定されたステップの次に実行されるステップを選択する。例えば、決定部１５３によってステップ「正規化手法探索」における設定内容が決定された場合、選択部１５１は、ステップ「特徴選択手法探索」を選択する。

最終的に、選択部１５１がステップ「ハイパーパラメータ探索」を選択し、計算部１５２が当該ステップにおける設定内容ごとの予測精度を計算し、決定部１５３が最も予測精度が高い設定内容を決定すると、ステップ１～ステップ４までの予測モデルの構築手順であるパイプラインが決定される。

ここで、分析装置１０は、同様の方法で複数のパイプラインを候補として決定する。例えば、分析装置１０は、最終ステップ（例えばステップ４）における予測精度が高い順に所定数のパイプラインを候補として決定してもよいし、最終ステップにおける予測精度が閾値以上であるパイプラインを全て候補として決定してもよい。また、これまで説明してきたパイプラインの候補の決定方法は一例であり、分析装置１０は上記以外の方法でパイプラインを決定してもよい。

［パイプラインを決定する処理］
パイプラインの候補の中から最終的にパイプラインを決定する処理について説明する。この時点で、図６に示すようにパイプラインの候補が決定されているものとする。図６は、パイプラインの候補の一例を示す図である。

例えば、パイプラインＰＬ１は、最頻値による欠損値補完、標準化による正規化、分散分析による特徴選択、予測器Ｂによるラベルの予測という一連の処理である。また、例えば、パイプラインＰＬ２は、中央値による欠損値補完、標準化による正規化、Ｌ１正則化による特徴選択、予測器Ａによるラベルの予測という一連の処理である。また、例えば、パイプラインＰＬ３は、中央値による欠損値補完、最大最小による正規化、決定木による特徴選択、予測器Ｃによるラベルの予測という一連の処理である。

また、予測器Ａのアルゴリズムは、Logistic Regressionである。また、予測器Ｂのアルゴリズムは、Random Forestである。また、予測器Ｃのアルゴリズムは、K Nearest Neighborsである。これらのアルゴリズムのうち、K Nearest Neighborsは近傍探索のアルゴリズムである。

図８は、半教師あり学習を行う場合のパイプラインの決定について説明するための図である。ここで、学習用データ２０とは別に、正解なしデータが与えられているものとする。なお、学習用データ２０は、正解ありデータである。正解ありデータと正解なしデータを合わせたデータをＴＤとする。また、パイプラインの候補をＰＬとする。

ここで、生成部１５４は、データからラベルを予測する複数の予測モデルであって、互いに異なる複数の構築手順により構築された予測モデルのそれぞれを用いて、ラベルが付与された正解ありデータを基に、ラベルが未付与の正解なしデータに対しラベルを付与することで疑似正解ありデータを生成する。

具体的には、生成部１５４は、パイプラインの候補ＰＬに含まれるパイプラインのそれぞれについて、自己訓練又はラベル拡散（Label Spreading）を行い、正解なしデータにラベルを付与する。予測器のアルゴリズムが近傍探索である場合、生成部１５４はラベル拡散を行う。一方、予測器のアルゴリズムが近傍探索でない場合、生成部１５４は自己訓練を行う。

生成部１５４は、自己訓練を行う場合、パイプラインのそれぞれに対して擬似正解ありデータを生成する。疑似正解ありデータは、予測モデルによって予測されたラベルを正解なしデータに付与したデータである。例えば、図７の例では、生成部１５４は、パイプラインＰＬ１に対して疑似正解ありデータＴＤ１を生成する。また、生成部１５４は、パイプラインＰＬ２に対して疑似正解ありデータＴＤ２を生成する。

自己訓練において、生成部１５４は、正解ありデータを含む構築用データを使って予測モデルを構築する第１の処理と、正解なしデータのうち、第１の処理で構築した予測モデルを使って予測したラベルの確信度が閾値以上であるデータにラベルを付与した上で構築用データに追加する第２の処理と、を繰り返す。第２の処理において構築用データに追加されるデータが疑似正解ありデータである。

生成部１５４は、予測モデルが近傍探索を行うものである場合、複数のパラメータ候補のそれぞれが設定された近傍探索により、正解ありデータを基にした正解なしデータに対するラベル拡散を行う。生成部１５４は、ラベル拡散を行う場合、パイプラインに近傍探索のパラメータ候補を追加する。近傍探索のパラメータ候補は、例えば、K Nearest Neighborsにおけるkの値である。

例えば、図７の例では、生成部１５４は、パイプラインＰＬ３に対してパラメータ候補ＰＲ１、パラメータ候補ＰＲ２及びパラメータ候補ＰＲ３をそれぞれ追加する。パラメータ候補が追加されたパイプラインは、以降の処理では異なるパイプラインとして扱われる。

計算部１５２は、正解ありデータと、疑似正解ありデータとを用いて、予測モデルのそれぞれの予測精度を計算する。ラベル拡散が行われた場合、計算部１５２は、正解ありデータと、ラベル拡散が行われた正解なしデータとを用いて、パラメータ候補のそれぞれについて予測モデルの予測精度を計算する。

そして、図７に示すように、決定部１５３は、計算部１５２によって計算された予測精度が所定の基準を満たす予測モデルを決定する決定処理を行う。図８の例では、決定部１５３は、パイプラインＰＬ１、パイプラインＰＬ２、パイプラインＰＬ３＋ＰＲ１、パイプラインＰＬ３＋ＰＲ２、及びパイプラインＰＬ３＋ＰＲ３のいずれかを、最適なパイプラインＰＬＡに決定する。また、決定処理は交差検証法によって行われてもよい。

また、図９に示すように、計算部１５２は、計算した予測精度を複数の指標で表すことができる。図９の例では、予測精度は、正解率及びＦ値で表されている。このとき、決定部１５３は、構築手順のうち複数の指標のいずれかが最も良くなる予測モデルを決定する。例えば、決定部１５３は、正解率が最も良いパイプラインＰＬ２、及びＦ値が最も良いパイプラインＰＬ３＋ＰＲ１を決定する。

検証部１５５は、決定部１５３によって決定された予測モデル及び対応するパイプラインの検証を行う。図９は、予測モデルの検証について説明するための図である。図９に示すように、決定部１５３によって予測モデルが決定されると、検証部１５５は、パイプラインに基づいて予測器に学習用データ２０を学習させる。そして、検証部１５５は、学習用データ２０とは別のテスト用データ３０を用いて、構築した予測モデルの予測精度をテスト精度として測定する。例えば、分析装置１０は、ここで測定されたテスト精度を最終的な出力としてもよい。また、学習用データ２０と異なるテスト用データ３０を用いた検証を行うことで、過学習状態及び未学習状態の確認が可能となる。また、学習データには、正解ありデータだけでなく、擬似正解ありデータが含まれる。

［第１の実施形態の処理］
図１０を用いて、第１の実施形態に係る分析装置１０の処理の流れについて説明する。図１０は、第１の実施形態に係る分析装置の処理の流れを示すフローチャートである。図１０に示すように、まず、分析装置１０は、学習用データ２０を読み込む（ステップＳ１０１）。次に、分析装置１０は、読み込んだ学習用データ２０を用いて、パイプラインの候補を決定する（ステップＳ１０２）。そして、分析装置１０は、半教師あり学習に適したパイプラインを決定する（ステップＳ１０３）。ここで、分析装置１０の検証部１５５は、決定されたパイプラインに基づいて予測モデルを構築し（ステップＳ１０４）、構築した予測モデルをテスト用データ３０を用いて検証する（ステップＳ１０５）。

次に、図１１を用いて、分析装置１０がパイプラインの候補を決定する処理（図１０のステップＳ１０２）について詳細に説明する。図１１に示すように、選択部１５１は、未選択のステップがある場合（ステップＳ２０１、Ｙｅｓ）、設定情報１４１を参照し、次のステップを選択する（ステップＳ２０２）。なお、次のステップとは、未選択のステップのうち、最も実行順序が早いステップである。一方、未選択のステップがない場合（ステップＳ２０１、Ｎｏ）、分析装置１０はパイプラインを決定する処理を終了する。

選択部１５１によって選択されたステップの設定内容候補のうち、未選択の設定内容がある場合（ステップＳ２０３、Ｙｅｓ）、計算部１５２は、次の設定内容を選択する（ステップＳ２０４）。一方、未選択の設定内容がない場合（ステップＳ２０３、Ｎｏ）、決定部１５３は、計算部１５２によって計算された予測精度が最も高い設定内容を選択部１５１によって選択されたステップの設定内容に決定する（ステップＳ２０６）。

計算部１５２は、設定内容を選択すると、当該選択した設定内容を適用したパイプラインに基づいて構築される予測モデルの予測精度を計算する（ステップＳ２０５）。このとき、計算部１５２は、所定数に分割した学習用データ２０を用いた交差検証によって予測精度の計算を行うことができる。そして、計算部１５２は、未選択の設定内容がなくなるまで、ステップＳ２０３～Ｓ２０５の処理を繰り返す。

図１２を用いて、分析装置１０が半教師あり学習に適したパイプラインを決定する処理について説明する。図１２は、パイプラインを決定する処理の流れを示すフローチャートである。

図１２に示すように、まず、生成部１５４は、未選択のパイプラインを選択し（ステップＳ４０１）、選択したパイプラインに従い各データに前処理を実行する（ステップＳ４０２）。そして、パイプラインに対応する予測モデルのアルゴリズムが近傍探索である場合（ステップＳ４０３、Ｙｅｓ）、生成部１５４はラベル拡散を実施する（ステップＳ４０４）。一方、パイプラインに対応する予測モデルのアルゴリズムが近傍探索でない場合（ステップＳ４０３、Ｎｏ）、生成部１５４は自己訓練を実施する（ステップＳ４０５）。

未選択のパイプラインがある場合（ステップＳ４０６、Ｙｅｓ）、生成部１５４は、ステップＳ４０１へ戻り処理を繰り返す。一方、未選択のパイプラインがない場合（ステップＳ４０６、Ｎｏ）、決定部１５３は、評価指標ごとに最適なパイプラインを決定する（ステップＳ４０７）。そして、検証部１５５は、決定したパイプラインを使って予測モデルを構築する（ステップＳ４０８）。

図１３を用いて、ラベル拡散の流れを説明する。図１３は、ラベル拡散の流れを示すフローチャートである。図１３に示すように、まず、生成部１５４は、近傍探索のパラメータ候補を設定する（ステップＳ４１１）。

次に、生成部１５４は、パラメータ候補ごとにラベル拡散を実行する（ステップＳ４１２）。つまり、生成部１５４は、パラメータ候補ごとに近傍探索を行い、正解ありデータを基に正解なしデータに対してラベルを付与する。生成部１５４は、評価指標ごとに最適なパラメータ候補をパイプラインに追加する（ステップＳ４１３）。

図１４を用いて、自己訓練の流れを説明する。図１４は、自己訓練の流れを示すフローチャートである。図１４に示すように、生成部１５４は、正解ありデータ及び疑似正解ありデータを用いて予測モデルを構築する（ステップＳ４２１）。ただし、処理開始時は疑似正解ありデータは生成されていない場合がある。

次に、生成部１５４は、予測モデルを使って正解なしデータのラベルを予測する（ステップＳ４２２）。ここで、予測したラベルの確信度が閾値を超えているデータがある場合（ステップＳ４２３、Ｙｅｓ）、閾値を超えた正解なしデータにラベルを付与し疑似正解ありデータに追加する（ステップＳ４２４）。

ここで、Ｓ４２１からＳ４２４までのステップの実施回数が既定回数を超えていない場合（ステップＳ４２５、Ｎｏ）、生成部１５４はステップＳ４２１へ戻り処理を繰り返す。一方、Ｓ４２１からＳ４２４までのステップの実施回数が既定回数を超えた場合（ステップＳ４２５、Ｙｅｓ）、生成部１５４はラベル拡散処理を終了する。また、ステップＳ４２３において、予測したラベルの確信度が閾値を超えているデータがない場合（ステップＳ４２３、Ｎｏ）、生成部１５４はその時点でラベル拡散を終了する。

［第１の実施形態の効果］
生成部１５４は、データからラベルを予測する複数の予測モデルであって、互いに異なる複数の構築手順により構築された予測モデルのそれぞれを用いて、ラベルが付与された正解ありデータを基に、ラベルが未付与の正解なしデータに対しラベルを付与することで疑似正解ありデータを生成する。また、計算部１５２は、正解ありデータと、疑似正解ありデータとを用いて、予測モデルのそれぞれの予測精度を計算する。また、決定部１５３は、計算部１５２によって計算された予測精度が所定の基準を満たす予測モデルを決定する。このように、第１の実施形態では、複数のパイプライン（構築手順）のそれぞれについての、半教師あり学習を行ったとした場合の予測精度を基にパイプラインが最終的に決定される。このため、半教師あり学習は正解ありデータと正解なしデータの両方を用いるものであるため、第１の実施形態によれば、予測モデルの精度向上に、正解なしのデータを有効活用することができる。

生成部１５４は、予測モデルが近傍探索を行うものである場合、複数のパラメータ候補のそれぞれが設定された近傍探索により、正解ありデータを基にした正解なしデータに対するラベル拡散を行う。また、計算部１５２は、正解ありデータと、ラベル拡散が行われた正解なしデータとを用いて、パラメータ候補のそれぞれについて予測モデルの予測精度を計算する。このように、第１の実施形態によれば、ラベル拡散のための最適なパラメータを決定することができる。

生成部１５４は、正解ありデータを含む構築用データを使って予測モデルを構築する第１の処理と、正解なしデータのうち、第１の処理で構築した予測モデルを使って予測したラベルの確信度が閾値以上であるデータにラベルを付与した上で構築用データに追加する第２の処理と、を繰り返す。このように、第１の実施形態では、正解なしデータのうち、ラベルの確信度がある程度高いものを選び出し、予測モデルの精度を向上させることができる。

計算部１５２は、計算した予測精度を複数の指標で表す。また、決定部１５３は、構築手順のうち複数の指標のいずれかが最も良くなる予測モデルを決定する。どのような指標を用いて予測モデルの予測精度を表すかは、データの分析結果の利用場面等に応じて異なる場合がある。このため、第１の実施形態では、各指標に対応した複数のパイプラインを得ることができ、様々な利用場面に対応することができる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、分析装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の分析を実行する分析プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の分析プログラムを情報処理装置に実行させることにより、情報処理装置を分析装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、分析装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の分析に関するサービスを提供する分析サーバ装置として実装することもできる。例えば、分析サーバ装置は、学習用データを入力とし、パイプライン又は予測モデルを出力とする分析サービスを提供するサーバ装置として実装される。この場合、分析サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の分析に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図１５は、分析プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、分析装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、分析装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤにより代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０分析装置
１１入力部
１２出力部
１３通信制御部
１４記憶部
１５制御部
１４１設定情報
１４２予測器情報
１５１選択部
１５２計算部
１５３決定部
１５４生成部
１５５検証部

Claims

データからラベルを予測する複数の予測モデルであって、互いに欠損値補完手法、正規化手法、特徴選択手法、予測器のアルゴリズム、及びハイパーパラメータの組み合わせが異なる複数の構築手順により構築された複数の予測モデルであって、近傍探索を行う予測モデルと近傍探索を行わない予測モデルとの両方を含む複数の予測モデルのそれぞれを用いて、ラベルが付与された第１のデータを基に、ラベルが未付与の第２のデータに対しラベルを付与することで疑似正解ありデータを生成する生成部と、
前記第１のデータと、前記疑似正解ありデータとを用いて、前記予測モデルのそれぞれの予測精度を計算する計算部と、
前記計算部によって計算された予測精度が所定の基準を満たす予測モデルを決定する決定部と、
を有し、
前記生成部は、予測モデルが近傍探索を行うものである場合、複数のパラメータ候補のそれぞれが設定された近傍探索により、前記第１のデータを基にした前記第２のデータに対するラベル拡散を行い、予測モデルが近傍探索を行うものでない場合、前記第１のデータを含む構築用データを使って予測モデルを構築する第１の処理と、前記第２のデータのうち、前記第１の処理で構築した予測モデルを使って予測したラベルの確信度が閾値以上であるデータにラベルを付与した上で前記構築用データに追加する第２の処理と、を繰り返す
ことを特徴とする分析装置。
前記計算部は、計算した前記予測精度を複数の指標で表し、
前記決定部は、前記複数の予測モデルのうち前記複数の指標のいずれかが最も良くなる予測モデルを決定することを特徴とする請求項１に記載の分析装置。
分析装置で実行される分析方法であって、
データからラベルを予測する複数の予測モデルであって、互いに欠損値補完手法、正規化手法、特徴選択手法、予測器のアルゴリズム、及びハイパーパラメータの組み合わせが異なる複数の構築手順により構築された複数の予測モデルであって、近傍探索を行う予測モデルと近傍探索を行わない予測モデルとの両方を含む複数の予測モデルのそれぞれを用いて、ラベルが付与された第１のデータを基に、ラベルが未付与の第２のデータに対しラベルを付与することで疑似正解ありデータを生成する生成工程と、
前記第１のデータと、前記疑似正解ありデータとを用いて、前記予測モデルのそれぞれの予測精度を計算する計算工程と、
前記計算工程によって計算された予測精度が所定の基準を満たす予測モデルを決定する決定工程と、
を有し、
前記生成工程は、予測モデルが近傍探索を行うものである場合、複数のパラメータ候補のそれぞれが設定された近傍探索により、前記第１のデータを基にした前記第２のデータに対するラベル拡散を行い、予測モデルが近傍探索を行うものでない場合、前記第１のデータを含む構築用データを使って予測モデルを構築する第１の処理と、前記第２のデータのうち、前記第１の処理で構築した予測モデルを使って予測したラベルの確信度が閾値以上であるデータにラベルを付与した上で前記構築用データに追加する第２の処理と、を繰り返す
ことを特徴とする分析方法。
コンピュータを、請求項１又は２に記載の分析装置として機能させるための分析プログラム。