JP6577516B2 - 判定装置、分析システム、判定方法および判定プログラム - Google Patents

判定装置、分析システム、判定方法および判定プログラム Download PDF

Info

Publication number
JP6577516B2
JP6577516B2 JP2017091186A JP2017091186A JP6577516B2 JP 6577516 B2 JP6577516 B2 JP 6577516B2 JP 2017091186 A JP2017091186 A JP 2017091186A JP 2017091186 A JP2017091186 A JP 2017091186A JP 6577516 B2 JP6577516 B2 JP 6577516B2
Authority
JP
Japan
Prior art keywords
accuracy
determination
learning
predetermined number
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017091186A
Other languages
English (en)
Other versions
JP2018190129A (ja
Inventor
雅人 澤田
雅人 澤田
拓郎 宇田川
拓郎 宇田川
哲哉 塩田
哲哉 塩田
一樹 及川
一樹 及川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017091186A priority Critical patent/JP6577516B2/ja
Publication of JP2018190129A publication Critical patent/JP2018190129A/ja
Application granted granted Critical
Publication of JP6577516B2 publication Critical patent/JP6577516B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、判定装置、分析システム、判定方法および判定プログラムに関する。
近年、機械学習を用いたデータ分析の適用事例が増加している。一方、データ分析に不可欠な統計や機械学習の知識の習得には、中長期的な教育が必要となる。そこで、非専門家が、統計や機械学習の知識を習得しなくても容易にデータ分析に従事できるよう、データ分析を支援する技術が開示されている(非特許文献1,2参照)。
また、オンライン機械学習において、同一のデータを用いて繰り返し学習させることにより、頑健性の高い予測モデルを構築することができる。しかしながら、繰り返し回数が増加すれば学習時間が増加する。そこで、従来、学習の繰り返し回数と予測モデルの予測精度との関係を表す学習曲線を用いて、予測精度が向上しなくなったことを判定して繰り返し回数を制限している。なお、既定の学習曲線を用いて、学習に用いるサンプルデータ数を推定する技術が開示されている(非特許文献3参照)。
Matthias Feurer,Aaron Klein,Katharina Eggensperger,Jost Tobias Springenberg,Manuel Blum,Frank Hutter,"Efficient and Robust Automated Machine Learning",NIPS'15 Proceedings of the 28th International Conference on Neural Information Processing Systems,2015年12月,PP.2755-2763 Lisha Li,Kevin Jamieson,Giulia DeSalvo,Afshin Rostamizadeh,Ameet Talwalkar,"Hyperband:A Novel Bandit-Based Approach to Hyperparameter Optimization",2016年11月 Rosa L Figueroa,Qing Zeng-Treitler,Sasikiran Kandula,Long H Ngo,"Predicting sample size required for classification performance",BMC Medical Informatics and Decision Making,2012年
しかしながら、学習曲線のフィッティングに用いられるフィッティング関数は、学習に用いられる教師データにより異なる。そのため、学習曲線のフィッティング関数と学習の繰り返し回数とは、知識と経験に基づいて人手により決定されており、スキルと多大な作業時間とを要していた。
本発明は、上記に鑑みてなされたものであって、オンライン機械学習における同一のデータによる学習の繰り返し回数を容易に設定することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る判定装置は、教師データの入力を受け付けて、学習の繰り返しの回数ごとに、前記教師データを用いて予測モデルを学習し、該予測モデルの精度を測定する学習部と、前記回数が所定の回数に達した場合に、該所定の回数より1少ない回数までの各回数において測定された前記精度を用いて、測定された前記精度と、予測した精度との誤差が最も小さくなる関数を、予測関数として選択する選択部と、前記所定の回数において測定された前記精度と、選択された前記関数を用いて予測される精度とを比較して、前記精度の向上が収束しているか否かを判定する判定部と、を備えることを特徴とする。
本発明によれば、オンライン機械学習における同一のデータによる学習の繰り返し回数を容易に設定することができる。
図1は、本発明の一実施形態に係る判定装置を含む分析システムの処理概要を説明するための説明図である。 図2は、本実施形態の判定装置の概略構成を例示する模式図である。 図3は、選択部の処理を説明するための説明図である。 図4は、判定部の処理を説明するための説明図である。 図5は、判定部の処理を説明するための説明図である。 図6は、分析装置の概略構成を例示する模式図である。 図7は、設定情報のデータ構成の一例を示す図である。 図8は、分析システムの処理を説明するための説明図である。 図9は、本実施形態の判定処理手順を示すフローチャートである。 図10は、判定プログラムを実行するコンピュータを例示する図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[分析システムの処理概要]
まず、図1を参照して、本実施形態に係る判定装置を含む分析システムの処理概要を説明する。図1に示すように、本実施形態において、分析システム1は、機械学習によるデータ分析を支援するためのシステムである。ここで、機械学習によるデータ分析を行う場合、予測モデルを構築する一連の処理であるパイプラインが決定される。例えば、パイプラインの決定は、予測モデルに関する複数の設定項目ごとの設定内容の候補を選択肢として用意しておき、選択肢の中から設定内容を順次決定することで行うことができる。
分析システム1は、予想モデルを構築する際に実行される複数の処理に対応するステップを順次実行することで、各設定項目の設定内容を決定する。例えば、分析システム1は、各ステップにおいて、学習に用いるデータに対する前処理等の前処理の方式と、データの学習からは決まらない予測モデルのハイパーパラメータとを逐次的に決定する。
ここで、前処理には、欠損値補完、正規化、特徴選択、オンライン機械学習の繰り返し回数等が挙げられる。欠損値補完とは、データの欠損値補完の方式を意味し、例えば、平均値、中央値、最頻値、あるいは削除等が選択肢となる。また、正規化とは、データの正規化の方式を意味し、例えば、最大値を1、最小値を0とする最大最小方式、標準化、平均値0、標準偏差1の標準正規分布に置き換えるZスコア方式、あるいは無処理等が選択肢となる。特徴選択とは、データの特徴を選択する際の方式を意味し、例えば、決定木、L1正則化、分散分析あるいは無処理等が選択肢となる。オンライン機械学習の繰り返し回数については後述する。また、分析システム1は、前処理の後、予測モデルのハイパーパラメータの探索を行う。
図1には、前処理として、前処理1、前処理2、および前処理3の3ステップが例示されており、このうち、例えば、前処理1についての選択肢が、選択肢11、選択肢12、選択肢13および選択肢14となっている。また、図1には、予測モデルのハイパーパラメータ探索として、予測アルゴリズムAのパラメータCを対象とする1ステップが例示され、その選択肢が、0.1,1.0,10および100となっている。
分析システム1は、各ステップにおいて、データの一部を用いて学習し、残りのデータで精度を検証する交差検証を行いながら、選択肢の中から最も精度の高いものを採用する。これにより、分析システム1は、図1に実線矢印で表される採用された選択肢からなるパイプラインに従って、採用された方式で前処理を行う。
次に、分析システム1は、採用されたハイパーパラメータが設定された予測アルゴリズムAを用いて学習を行って、予測モデルを構築する。これにより、分析システム1は、高精度であることが予測される予測モデルを用いて効率よくデータの学習を行って、精度の高い予測モデルを構築できる。
本実施形態において、分析システム1は、分析装置と判定装置とを含む。分析装置は、予測モデルを構築する際に実行される複数の処理に対応するステップを順次実行することにより、各設定項目の設定内容の決定を行う。例えば、分析装置は、各ステップにおいて、前処理の方式、予測モデルのアルゴリズムおよびハイパーパラメータ等を決定する。また、判定装置は、前処理の一つとして、オンライン機械学習の繰り返し回数を決定する処理を実行する。
[判定装置の構成]
次に、図2を参照して、本実施形態に係る判定装置の概略構成を説明する。図2に示すように、本実施形態に係る判定装置10は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部11と出力部12と通信制御部13と、記憶部14と、制御部15とを備える。
入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、後述する判定処理の結果等を操作者に対して出力する。
通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した管理サーバ等の外部の装置と制御部15との通信を制御する。
記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、判定装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
制御部15は、CPU(Central Processing Unit)等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図2に例示するように、学習部15a、選択部15bおよび判定部15cとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。
学習部15aは、教師データの入力を受け付けて、学習の繰り返しの回数ごとに、教師データを用いて予測モデルを学習し、該予測モデルの精度を測定する。具体的に、学習部15aは、入力部11あるいは通信制御部13を介してオンラインで入力された教師データを用いて予測モデルの学習を行うオンライン学習器として機能する。
また、学習部15aは、学習した予測モデルについて、精度を測定する。例えば、学習部15aは、教師データとは異なるテストデータを取得して、予測モデルの精度を測定する。あるいは、学習部15aは、交差検証により、入力された教師データの一部を学習に用い、残りの教師データを用いて予測モデルの精度を測定する。
学習部15aは、同一の教師データを用いて、例えば教師データの順序を並べ替える等して、予測モデルの学習を繰り返し、各回に精度を測定する。
選択部15bは、学習の繰り返しの回数が所定の回数に達した場合に、該所定の回数より1少ない回数までの各回数において測定された予測モデルの精度を用いて、測定された精度と、予測した精度との誤差が最も小さくなる関数を、精度の予測関数として選択する。
具体的に、図3を参照して、選択部15bの処理について説明する。選択部15bは、学習部15aの学習の繰り返しの回数を計数している。この繰り返しの回数が所定の回数Nに達した場合に、選択部15bは、1〜(N−1)回の各回に測定された予測モデルの精度を用いて、横軸を繰り返し回数、縦軸を精度とする座標系に測定値を表す点をプロットする。ここで、所定の回数Nは、例えば、学習に必要な繰り返しの最低回数とする。
次に、選択部15bは、プロットされた点を繰り返し回数順に結んだ学習曲線に近似するフィッティング関数を選択する。例えば、選択部15bは、フィッティング関数として、非同次ポアソン過程を表す関数の中から選択する。具体的に、指数分布、ガンマ分布、パレート分布、切断正規分布、対数正規分布、切断ロジスティック分布、対数ロジスティック分布、切断最大値分布、対数最大値分布、切断最小値分布、対数最小値分布等の選択肢の中から選択される。
選択部15bは、フィッティング関数を選択する際、併せて、プロットされた点との誤差が最小となるように、パラメータを選択する。例えば、選択部15bは、上記の関数の選択肢の全てについて、レーベンバーグ・マーカート(Levenberg-Marquardt)法等の最小二乗法を利用して、フィッティング関数とパラメータとを同時に最適化する。
図3に示す例では、測定値が丸で表され、フィッティング関数が実線で表されている。同一の測定値に対して、図3(a)では、関数Aおよびパラメータxが選択されており、図3(b)では、関数Aおよびパラメータyが選択されており、図3(c)では、パラメータなしの関数Bが選択されている。また、測定値と各関数との誤差が、図3(a)に示す関数Aおよびパラメータxでは5であり、図3(b)に示す関数Aおよびパラメータyでは10であり、図3(c)に示す関数Bでは20であることが示されている。この場合に、選択部15bは、誤差が最小である関数Aおよびパラメータxを選択する。
図2の説明に戻る。判定部15cは、所定の回数Nにおいて測定された精度と、選択された関数を用いて予測される精度とを比較して、精度の向上が収束しているか否かを判定する。
具体的に、図4および図5を参照して、判定部15cの処理を説明する。判定部15cは、学習部15aが測定したN回での精度の測定値と、選択部15bが選択したフィッティング関数を用いて予測されるN回での精度の予測値、または予測される精度の最大値とを比較して、予測モデルの精度の向上が収束しているか否かを判定する。
判定部15cは、例えば、図4に破線の丸で示されるN回での測定値の精度と、実線で示されるフィッティング関数を用いて予測されるN回での予測値の精度とを比較する。ここで、図4(a)に例示するように、N回での精度の測定値が予測値を上回り、その差が例えば、予測値の所定の割合以上に大きい場合には、判定部15cは、予測モデルの精度の向上が収束していないと判定する。
一方、学習曲線は増加関数で表されるため、図4(b)に例示するように、N回での精度の測定値が予測値の所定の割合以下に下回った場合には、判定部15cは、それ以上精度が向上することはないものとして、予測モデルの精度の向上が収束したと判定する。
あるいは、判定部15cは、図5に破線の丸で示されるN(=N,N)回での測定値の精度と、予測される精度の最大値とを比較する。ここで、学習曲線は増加関数で表されるため、予測される精度の最大値は、精度がとり得る最大値以下、かつ最大繰り返し回数以下の繰り返し回数における精度とする。例えば、精度が正解率やF値の場合に、とり得る最大値は1.0となる。図5に示す例では、予測される精度の最大値は、実線で示されるフィッティング関数の極大値である。
そして、図5に示すN回での測定値のように、予測される精度の最大値に対する割合が所定の値未満であれば、判定部15cは、予測モデルの精度の向上が収束していないと判定する。一方、図5に示すN回での測定値のように、予測される精度の最大値に対する割合が所定の値以上であれば、判定部15cは、予測モデルの精度の向上が収束したと判定する。
判定部15cは、予測モデルの精度の向上が収束したと判定した場合の所定の回数Nを、この予測モデルに対する学習の繰り返しの回数と決定する。また判定部15cは、予測モデルの精度をあわせて出力する。
また、判定部15cは、予測モデルの精度の向上が収束していないと判定した場合には、所定の回数Nに任意の自然数を加算し、学習を繰り返す。本実施形態では、判定部15cは「1」を加算する。その場合に、学習部15aが、再度、同一の教師データによる学習の繰り返しと精度の測定とを実行する。そして、選択部15bと判定部15cとが、1〜(N+1)回の各回に測定された精度を用いて、上述した処理を実行する。以上の処理は、判定部15cが予測モデルの精度の向上が収束したと判定するまで繰り返される。これにより、判定部15cが、収束したと判定した場合の所定の回数(≧N+1)を、この予測モデルに対する学習の繰り返しの回数として決定する。
なお、判定装置10による判定処理が分析システム1の前処理の一つとして適用される場合に、選択肢として、例えば、学習に必要な繰り返しの最低回数について、10回、100回、1000回というようにオーダが異なる複数の値が設定される。そして、判定部15cが、各値に対応して決定した繰り返しの回数のうち、収束した予測モデルの精度が最大となるものを採用する。
[分析装置の構成]
次に、図6を参照して、本実施形態に係る分析装置の概略構成を説明する。図6に示すように、本実施形態に係る分析装置20は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部21と出力部22と通信制御部23と、記憶部24と、制御部25とを備える。
入力部21は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部25に対して各種指示情報を入力する。出力部22は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、データ分析の結果等を操作者に対して出力する。
通信制御部23は、NIC等で実現され、LANやインターネットなどの電気通信回線を介した管理サーバ等の外部の装置と制御部25との通信を制御する。
記憶部24は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部24には、分析装置20を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。記憶部24は、通信制御部23を介して制御部25と通信する構成でもよい。また、記憶部24は、設定情報24aを記憶する。
図7は、設定情報24aのデータ構成の一例を示す図である。設定情報24aは、ステップごとの実行順序、および設定内容候補を含む。設定内容候補は、各ステップに対応する設定項目の設定内容の候補である。本実施形態において、例えば、図1に示したステップ2に対応して、学習繰り返し回数探索が行われるものとする。この場合に、図7に例示するように、実行順序2のステップに「学習繰り返し回数探索」が設定される。また、設定内容候補として、最低回数=10,100,1000および10000が設定される。
制御部25は、CPU等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図5に例示するように、選択部25a、計算部25b、決定部25cおよび検証部25dとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。
選択部25aは、予測モデルを構築する際に実行される複数の処理、すなわちパイプラインのそれぞれに対応し、対応する処理の設定内容を順次決定するステップにおいて、設定内容が決定されるたびに、次に実行されるステップを選択する。決定部25cは、各ステップの設定内容を、設定情報24aに含まれる設定内容候補の中から決定する。このとき、選択部25aは、設定情報24aに示される実行順序に従って、設定内容が決定された次のステップを選択する。なお、いずれのステップも未実行である場合、選択部25aは実行順序が最も早いステップを選択する。
計算部25bは、複数の処理のうち、設定内容が決定済みの処理を当該決定済みの設定内容を適用して行う。また、計算部25bは、選択部25aによって選択されたステップに対応する処理を設定内容の候補のそれぞれを適用して行った場合に構築される予測モデルのそれぞれについて予測精度を計算する。その際、計算部25bは、所定数に分割した学習用のデータを用いた交差検証を行うことで予測精度を計算する。また、計算部25bは、予測モデルで用いられる予測器が決定されていない場合、複数のアルゴリズムに対応する予測器の候補のそれぞれを用いて予測精度を計算する。
決定部25cは、計算部25bによって計算された各予測精度を比較し、設定内容の候補のうち予測精度が最も高くなる設定内容の候補を、選択部25aによって選択されたステップに対応する処理の設定内容に決定する。その後、選択部25aは、決定部25cによって設定内容が決定されたステップの次に実行されるステップを選択する。
ここで、図8を参照して、分析システム1の処理について説明する。本実施形態において、例えば、図1に示したステップ2において、図8に例示するように、学習繰り返し回数探索が行われる。図8の例では、図1に示したステップ1の前処理1方式探索において決定された方式を用いてデータの前処理が行われた前処理1済みデータが生成されているものとする。
選択部25aは、ステップ2において、設定情報24aを参照して学習繰り返し回数探索を選択する。また、計算部25bは、設定内容候補である最低回数=10,100,1000および10000のそれぞれが適用された場合について、通信制御部23を介して判定装置10に判定処理を実行させる。判定処理により、各最低回数から学習回数を増やした場合の予測モデルの精度向上の収束を判定することにより、学習の繰り返しの回数が決定する。また、計算部25bは、判定装置10による判定処理の結果を受け取って、判定装置10が決定した学習の繰り返しの回数を用いて構築される予測モデルのそれぞれについて、交差検証を用いて予測精度を計算する。この結果、図8に示す例では、決定部25cは、予測精度が78%と最も高くなった最低回数=1000とした場合に決定された繰り返し回数を、学習の繰り返しの回数として決定する。
検証部25dは、決定部25cによって決定された設定内容が適用された一連の処理、すなわち、決定されたパイプラインに基づいて構築される予測モデルの検証を行う。これにより、本実施形態の分析システム1によれば、容易に学習の繰り返しの回数を決定して、高精度な予測モデルを効率よく構築することができる。
[判定処理]
次に、図9を参照して、判定装置10の判定処理について説明する。図9は判定処理手順を例示するフローチャートである。図9のフローチャートは、例えば、判定処理の対象の教師データが入力されたタイミングで開始される。
まず、学習部15aが、教師データの入力を受け付けて、学習の繰り返しの回数ごとに、教師データを用いて予測モデルの学習を実施する(ステップS1)。また、学習部15aが、交差検証やテストデータを用いることにより、学習した予測モデルの精度を測定する(ステップS2)。
選択部15bは、学習部15aにおける繰り返しの回数を計数し、所定の最低回数N以上の学習が繰り返されたか否かを管理している(ステップS3)。所定の最低回数N以上の繰り返し学習が実施されていない場合には(ステップS3,No)、選択部15bは、ステップS1に処理に戻す。一方、所定の最低回数N以上の繰り返し学習が実施された場合に(ステップS3,Yes)、選択部15bは、ステップS4に処理を移行する。
ステップS4の処理では、選択部15bが、1〜(N−1)回の各回に測定された(繰り返し回数N−1)個の精度の測定結果を用いて、測定結果との誤差が最小となるような回数と精度との関係を表すフィッティング関数・パラメータを選択する。
次に、判定部15cが、回数Nに測定された精度とフィッティング関数を用いて予測される精度とを比較して、精度の向上が収束しているか否かの判定を行う(ステップS5)。収束していないと判定した場合に(ステップS5,No)、判定部15cは、ステップS1に処理を戻し、収束するまで、所定の最低回数Nを増やして上記と同様の処理を行う。一方、収束していると判定した場合に(ステップS5,Yes)、判定部15cは、一連の判定処理を終了させる。
以上、説明したように、本実施形態の判定装置10では、学習部15aが、教師データの入力を受け付けて、学習の繰り返しの回数ごとに、教師データを用いて予測モデルを学習し、該予測モデルの精度を測定する。また、選択部15bが、学習の繰り返しの回数が所定の回数に達した場合に、該所定の回数より1少ない回数までの各回数において測定された予測モデルの精度を用いて、測定された精度と、予測した精度との誤差が最も小さくなるフィッティング関数を、精度の予測関数として選択する。また、判定部15bが、所定の回数Nにおいて測定された精度と、選択されたフィッティング関数を用いて予測される精度とを比較して、精度の向上が収束しているか否かを判定する。
これにより、判定部15cは、収束していると判定した場合の繰り返しの回数すなわち所定の回数Nを学習の繰り返し回数と決定することができる。また、判定部15cは、収束していないと判定した場合にも、所定の回数Nに1を加算して、収束するまで処理を繰り返すことにより、同様に学習の繰り返しの回数を決定することができる。このように、本実施形態の判定装置10の判定処理によれば、オンライン機械学習における同一のデータによる学習の繰り返しの回数を容易に設定することができる。
また、本実施形態の判定装置10による判定処理は、オンライン機械学習の繰り返しの回数の決定に限定されず、例えば、追加学習の教師データの追加量の決定にも適用できる。例えば、教師データが大量にあると、全ての教師データを用いた学習の処理負荷が大きくなる。一方で、教師データの一部を抽出して学習を行っても、予測モデルの精度は十分に高い値を得られる場合が多い。ただし、教師データを増やせば、精度が向上する。オンライン機械学習では、追加したデータのみを用いた追加学習が可能であるため、精度の向上が収束するまで、教師データを追加する。
この場合に、判定装置10は、例えば1000件単位でレコード群の追加を行いながら、横軸をレコード数、縦軸を精度とする学習曲線のフィッティング関数を選択する。これにより、追加学習に適量な教師データの追加量を判定することが可能となる。
また、本実施形態の判定装置10による判定処理は、分析システム1の前処理の1つとしてのオンライン機械学習の繰り返し回数の決定処理に適用される。その場合に、分析装置20では、選択部25aが、判定装置10で実行される判定処理を含む、予測モデルを構築する際に実行される複数の処理のそれぞれに対応し、対応する処理の設定内容を順次決定するステップにおいて、設定内容が決定されるたびに、次に実行されるステップを選択する。また、計算部25bが、複数の処理のうち、設定内容が決定済みの処理を当該決定済みの設定内容を適用して行うとともに、選択部25aによって選択されたステップに対応する処理を設定内容の候補のそれぞれを適用して行った場合に構築される予測モデルのそれぞれについて予測精度を計算する。また、決定部25cが、計算部25bによって計算された各予測精度を比較し、設定内容の候補のうち予測精度が最も高くなる設定内容の候補を、選択部25aによって選択されたステップに対応する処理の設定内容に決定する。
また、判定装置10では、学習部15aが、教師データの入力を受け付けて、学習の繰り返しの回数ごとに、前記教師データを用いて予測モデルを学習し、該予測モデルの精度を測定する。また、選択部15bが、学習の回数が複数の最低回数に対応する複数の所定の回数に達した場合に、該所定の回数のそれぞれについて、該所定の回数より1少ない回数までの各回数において測定された精度を用いて、測定された精度と、予測した精度との誤差が最も小さくなるフィッティング関数を、精度の予測関数として選択する。また、判定部15cが、所定の回数において測定された精度と、選択された関数を用いて予測される精度とを比較して、精度の向上が収束しているか否かを判定する。
このように、複数の最低回数に対応して複数の所定の回数が設定された場合に、それぞれに対応して決定した学習の繰り返しの回数を決定し、決定した繰り返しの回数において測定された精度とともに出力されるので、より高効率に高精度な学習の繰り返しの回数を決定することができる。これにより、本実施形態の分析システム1によれば、容易に学習の繰り返しの回数を決定して、高精度な予測モデルを効率よく構築することができる。
[プログラム]
上記実施形態に係る判定装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、判定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の判定処理を実行する判定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の判定プログラムを情報処理装置に実行させることにより、情報処理装置を判定装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistants)などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の判定処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、判定装置10は、教師データを入力とし、学習の繰り返しの回数を出力する判定処理サービスを提供するサーバ装置として実装される。この場合、判定装置10は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の判定処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、判定装置10と同様の機能を実現する判定プログラムを実行するコンピュータの一例を説明する。
図10に示すように、判定プログラムを実行するコンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
ここで、図10に示すように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各テーブルは、例えばハードディスクドライブ1031やメモリ1010に記憶される。
また、判定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した判定装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、判定プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、判定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、判定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
1 分析システム
10 判定装置
11 入力部
12 出力部
13 通信制御部
14 記憶部
15 制御部
15a 学習部
15b 選択部
15c 判定部
20 分析装置
21 入力部
22 出力部
23 通信制御部
24 記憶部
24a 設定情報
25 制御部
25a 選択部
25b 計算部
25c 決定部
25d 検証部

Claims (7)

  1. 教師データの入力を受け付けて、学習の繰り返しの回数ごとに、前記教師データを用いて予測モデルを学習し、該予測モデルの精度を測定する学習部と、
    前記回数が所定の回数に達した場合に、該所定の回数より1少ない回数までの各回数において測定された前記精度を用いて、測定された前記精度と、予測した精度との誤差が最も小さくなる関数を、予測関数として選択する選択部と、
    前記所定の回数において測定された前記精度と、選択された前記関数を用いて予測される精度とを比較して、前記精度の向上が収束しているか否かを判定する判定部と、
    を備えることを特徴とする判定装置。
  2. 前記判定部は、前記所定の回数において測定された前記精度と、当該所定の回数における前記予測される精度、または、前記予測される精度の最大値とを比較して、精度の向上が収束しているか否かを判定することを特徴とする請求項1に記載の判定装置。
  3. 前記判定部は、精度の向上が収束していないと判定した場合に、前記所定の回数に任意の自然数を加算し、学習を繰り返すことを特徴とする請求項1または2に記載の判定装置。
  4. 前記判定部は、精度の向上が収束していると判定した場合に、前記所定の回数を学習の繰り返しの回数と決定し、該所定の回数において測定された前記精度とともに出力することを特徴とする請求項1〜3のいずれか1項に記載の判定装置。
  5. 分析装置と判定装置とを有する分析システムであって、
    前記分析装置は、
    前記判定装置で実行される判定処理を含む、予測モデルを構築する際に実行される複数の処理のそれぞれに対応し、対応する処理の設定内容を順次決定するステップにおいて、設定内容が決定されるたびに、次に実行されるステップを選択する選択部と、
    前記複数の処理のうち、設定内容が決定済みの処理を当該決定済みの設定内容を適用して行うとともに、前記選択部によって選択されたステップに対応する処理を設定内容の候補のそれぞれを適用して行った場合に構築される予測モデルのそれぞれについて予測精度を計算する計算部と、
    前記計算部によって計算された各予測精度を比較し、前記設定内容の候補のうち予測精度が最も高くなる設定内容の候補を、前記選択部によって選択されたステップに対応する処理の設定内容に決定する決定部と、を備え、
    前記判定装置は、
    教師データの入力を受け付けて、学習の繰り返しの回数ごとに、前記教師データを用いて予測モデルを学習し、該予測モデルの精度を測定する学習部と、
    前記回数が複数の所定の回数に達した場合に、該所定の回数のそれぞれについて、該所定の回数より1少ない回数までの各回数において測定された前記精度を用いて、測定された前記精度と、予測した精度との誤差が最も小さくなる関数を、予測関数として選択する選択部と、
    前記所定の回数において測定された前記精度と、選択された前記関数を用いて予測される精度とを比較して、前記精度の向上が収束しているか否かを判定する判定処理を行う判定部と、を備える
    ことを特徴とする分析システム。
  6. 判定装置で実行される判定方法であって、
    教師データの入力を受け付けて、学習の繰り返しの回数ごとに、前記教師データを用いて予測モデルを学習し、該予測モデルの精度を測定する学習工程と、
    前記回数が所定の回数に達した場合に、該所定の回数より1少ない回数までの各回数において測定された前記精度を用いて、測定された前記精度と、予測した精度との誤差が最も小さくなる関数を、予測関数として選択する選択工程と、
    前記所定の回数において測定された前記精度と、選択された前記関数を用いて予測される精度とを比較して、前記精度の向上が収束しているか否かを判定する判定工程と、
    を含んだことを特徴とする判定方法。
  7. 教師データの入力を受け付けて、学習の繰り返しの回数ごとに、前記教師データを用いて予測モデルを学習し、該予測モデルの精度を測定する学習ステップと、
    前記回数が所定の回数に達した場合に、該所定の回数より1少ない回数までの各回数において測定された前記精度を用いて、測定された前記精度と、予測した精度との誤差が最も小さくなる関数を、予測関数として選択する選択ステップと、
    前記所定の回数において測定された前記精度と、選択された前記関数を用いて予測される精度とを比較して、前記精度の向上が収束しているか否かを判定する判定ステップと、
    をコンピュータに実行させることを特徴とする判定プログラム。
JP2017091186A 2017-05-01 2017-05-01 判定装置、分析システム、判定方法および判定プログラム Active JP6577516B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017091186A JP6577516B2 (ja) 2017-05-01 2017-05-01 判定装置、分析システム、判定方法および判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017091186A JP6577516B2 (ja) 2017-05-01 2017-05-01 判定装置、分析システム、判定方法および判定プログラム

Publications (2)

Publication Number Publication Date
JP2018190129A JP2018190129A (ja) 2018-11-29
JP6577516B2 true JP6577516B2 (ja) 2019-09-18

Family

ID=64480258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017091186A Active JP6577516B2 (ja) 2017-05-01 2017-05-01 判定装置、分析システム、判定方法および判定プログラム

Country Status (1)

Country Link
JP (1) JP6577516B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7417922B2 (ja) 2019-10-30 2024-01-19 株式会社ジェイテクト 知識モデル構築システム及び知識モデル構築方法
JP7413011B2 (ja) 2019-12-27 2024-01-15 キヤノンメディカルシステムズ株式会社 医用情報処理装置
JPWO2022185364A1 (ja) * 2021-03-01 2022-09-09

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6555015B2 (ja) * 2015-08-31 2019-08-07 富士通株式会社 機械学習管理プログラム、機械学習管理装置および機械学習管理方法
JP6536295B2 (ja) * 2015-08-31 2019-07-03 富士通株式会社 予測性能曲線推定プログラム、予測性能曲線推定装置および予測性能曲線推定方法

Also Published As

Publication number Publication date
JP2018190129A (ja) 2018-11-29

Similar Documents

Publication Publication Date Title
US10671933B2 (en) Method and apparatus for evaluating predictive model
US11836576B2 (en) Distributed machine learning at edge nodes
JP6585654B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
JP6182242B1 (ja) データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム
US10839314B2 (en) Automated system for development and deployment of heterogeneous predictive models
WO2022206320A1 (zh) 预测模型训练、数据预测方法、装置和存储介质
US20190251474A1 (en) Smart default threshold values in continuous learning
CN111162934B (zh) 业务服务的测试方法和装置、存储介质、电子装置
WO2018157752A1 (en) Approximate random number generator by empirical cumulative distribution function
JP6577516B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
JP6588495B2 (ja) 分析システム、設定方法および設定プログラム
US11755955B2 (en) Anomaly detection and tuning recommendation system
US11699094B2 (en) Automatic feature selection and model generation for linear models
US11922279B2 (en) Standard error of prediction of performance in artificial intelligence model
JP6659618B2 (ja) 分析装置、分析方法及び分析プログラム
US20230196109A1 (en) Non-transitory computer-readable recording medium for storing model generation program, model generation method, and model generation device
CN117149249A (zh) 模型更新方法、系统、设备和存储介质
JP6577515B2 (ja) 分析装置、分析方法及び分析プログラム
JP7424373B2 (ja) 分析装置、分析方法及び分析プログラム
JP6588494B2 (ja) 抽出装置、分析システム、抽出方法及び抽出プログラム
US20220101186A1 (en) Machine-learning model retraining detection
WO2021075009A1 (ja) 学習装置、推定装置、学習方法及び学習プログラム
JP6611268B2 (ja) 特定装置、分析システム、特定方法及び特定プログラム
JP6805313B2 (ja) 特定装置、特定方法及び特定プログラム
CN115860055B (zh) 性能确定方法、性能优化方法、装置、电子设备以及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180808

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190822

R150 Certificate of patent or registration of utility model

Ref document number: 6577516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150