JP2019003408A - ハイパーパラメータの評価方法、計算機及びプログラム - Google Patents

ハイパーパラメータの評価方法、計算機及びプログラム Download PDF

Info

Publication number
JP2019003408A
JP2019003408A JP2017117620A JP2017117620A JP2019003408A JP 2019003408 A JP2019003408 A JP 2019003408A JP 2017117620 A JP2017117620 A JP 2017117620A JP 2017117620 A JP2017117620 A JP 2017117620A JP 2019003408 A JP2019003408 A JP 2019003408A
Authority
JP
Japan
Prior art keywords
accuracy
hyperparameter
data
secondary feature
expected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017117620A
Other languages
English (en)
Other versions
JP6840627B2 (ja
Inventor
鈴木 麻由美
Mayumi Suzuki
麻由美 鈴木
琢磨 柴原
Takuma Shibahara
琢磨 柴原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017117620A priority Critical patent/JP6840627B2/ja
Publication of JP2019003408A publication Critical patent/JP2019003408A/ja
Application granted granted Critical
Publication of JP6840627B2 publication Critical patent/JP6840627B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】解析対象のデータの特徴から各ハイパーパラメータの組み合わせにおいて期待される予測性能を推定する。【解決手段】プロセッサとメモリを有する計算機が、解析対象データに適用可能なハイパーパラメータを評価するハイパーパラメータの評価方法であって、前記計算機が、予め設定された事前データと複数のハイパーパラメータから2次特徴量生成部と精度予測部を生成する第1のステップと、前記計算機が、前記解析対象データを受け付ける第2のステップと、前記2次特徴量生成部が、前記解析対象データと複数のハイパーパラメータを入力として2次特徴量を算出する第3のステップと、前記精度予測部が、前記2次特徴量を入力としてハイパーパラメータ毎の期待予測精度を算出する第4のステップと、を含む。【選択図】図4

Description

本発明は、機械学習を用いてデータ解析を行う装置に関する。
機械学習技術は、ヘルスケアや金融、産業などのさまざまな分野で蓄積されたデータの解析に対して、新しい社会的価値を創出する技術として注目されている。機械学習には、support vector machineやdeep learningといったアルゴリズムの種類、および各アルゴリズムにおいてモデルを決定するために必要なパラメータがあり、ハイパーパラメータと呼ばれる。
ハイパーパラメータの組み合わせは数万通り以上考えられる。解析したい問題に機械学習を適用する際には、ハイパーパラメータの組み合わせをいくつも試行し、最も精度が高くなる組み合わせを発見する必要がある。加えて、ハイパーパラメータの組み合わせは解析する問題ごとに最適な組み合わせが異なるため、問題やデータが変わるごとに行う必要がある。
また、ハイパーパラメータの探索は各ハイパーパラメータがもたらす効果から探索領域の見当をつけて行うことにより探索時間を短縮可能であるため、専門家がハイパーパラメータの探索を行うことが現実的である。但し、専門家が探索を行った場合においても、最適なハイパーパラメータの発見までに半年程度の時間を要する場合がある。
そのため、目標精度を達成できなかった場合には、探索開始から半年経った後に、目標精度を達成できなかった要因を考察し、問題の設定やデータの質が不適切だったなどの結論を得ることになる。
また、日々蓄積されるデータが増加した都度、データに追加したい場合においても、追加するデータに対応したモデルが完成するのは半年後となる。このように、機械学習を実社会に適用する場合、専門性の高さとハイパーパラメータ探索の複雑さは課題の1つである。
先行技術として、専門家がハイパーパラメータ探索のノウハウをフローとして体系化させたcheat sheetが知られている(非特許文献1)。cheat sheetを活用することでアルゴリズムの種類の決定が可能になると考えられる。また、別の先行技術として、予め用意しておいたハイパーパラメータの組み合わせを自動で網羅的に試行し、最も予測精度が高かったハイパーパラメータを提示するサービスの製品化も行われている(非特許文献2)。
"scikit-learn cheat sheet"、[online]、[平成29年5月 8日検索]、インターネット〈 URL:http://scikit-learn.org/stable/tutorial/machine_learning_map/〉 "Sap predictive analytics whitepaper"、[online]、[平成29年5月 8日検索]、インターネット〈https://www.sap.com/japan/documents/2016/02/c4d70a6c-617c-0010-82c7-eda71af511fa.html〉
解析したい問題に機械学習を適用する際には、ハイパーパラメータの組み合わせをいくつも試行し、最も精度が高くなる組み合わせを発見する必要がある。上記作業には、半年程度の時間と専門家が必要になる。
ハイパーパラメータの組み合わせを自動で網羅的に試行する場合、時間は同様にかかるものの専門家は不要となる。また、解析対象のデータが外部に持ち出せない場合、解析対象データを保管する施設に解析用計算機を搬入する必要がある。従来では機械学習のハイパーパラメータ探索には大規模な解析用計算機の使用が前提となっているが、該当施設に解析用計算機の搬入ができない可能性がある。さらに、既存の計算器を用いた場合に要する時間はさらに長くなる可能性がある。
本発明の目的は、ハイパーパラメータ探索の工程において、専門家および高性能な解析用計算器を必要とせずに、データの特徴から各ハイパーパラメータの組み合わせにおいて期待される予測性能を推定することで、達成可能と見込まれる予測性能およびハイパーパラメータの組み合わせを迅速に提示可能にする計算機を提供することにある。
本発明は、プロセッサとメモリを有する計算機が、解析対象データに適用可能なハイパーパラメータを評価するハイパーパラメータの評価方法であって、前記計算機が、予め設定された事前データと複数のハイパーパラメータから2次特徴量生成部と精度予測部を生成する第1のステップと、前記計算機が、前記解析対象データを受け付ける第2のステップと、前記2次特徴量生成部が、前記解析対象データと複数のハイパーパラメータを入力として2次特徴量を算出する第3のステップと、前記精度予測部が、前記2次特徴量を入力としてハイパーパラメータ毎の期待予測精度を算出する第4のステップと、を含む。
本発明によれば、解析対象データに対し、最高の精度となると予測されたハイパーパラメータの組み合わせおよび前記最高の予測精度を迅速に提示することが可能となる。これにより、機械学習のハイパーパラメータ探索において、半年などの長期間を要することなく、かつ専門家および高性能な解析用の計算機を不要とすることが期待できる。
本発明の実施例1を示し、異常検知装置の構成の一例を示すブロック図である。 本発明の実施例1を示し、ソフトウェアの構成の一例を示すブロック図である。 本発明の実施例1を示し、期待予測精度予測器の処理の一例を示すフローチャートである。 本発明の実施例1を示し、2次特徴量生成器および精度予測器における処理の一例を示す説明図である。 本発明の実施例1を示し、学習器で行われる処理の一例を示すフローチャートである。 本発明の実施例1を示し、結果を保存する処理の一例を示すフローチャートである。 本発明の実施例1を示し、画面表示の一例を示す図である。 本発明の実施例1を示し、2次特徴量生成器および精度予測器の生成の一例を示す説明図である。 本発明の実施例2を示し、異常検知装置の機能の一例を示す説明図である。 本発明の実施例3を示し、処理の一例を示すフローチャートである。 本発明の実施例3を示し、データ解析手法の処理の一例を示すフローチャートである。 本発明の実施例4を示し、異常検知装置の機能の一例を示す説明図である。
本発明の第一の実施形態を、図面を用いて説明する。以下、本発明の実施形態を説明するための全図において、基本的に同一機能を有するものは同一符号を付し、その繰り返しの説明は省略する。
まず、本発明の実施例1の異常検知装置を説明する。本実施例1の異常検知装置100は、データ解析のためのモデルを機械学習により生成し、生成されたモデルによって異常があるデータの検知を行う例を示す。
図1は、本実施形態の異常検知装置100のハードウェア構成の一例を示すブロック図である。本実施例1の異常検知装置100は、CPU102と、メモリ103と、入出力インターフェイス104と、通信装置105と、ドライブ装置106と、を有する。
これらはデータバス101によって相互に接続されている。CPU102は、制御装置と演算装置からなり、異常検知装置100の制御や、演算や情報転送をつかさどる中央処理装置である。メモリ103は、異常検知装置100が処理すべきデジタルデータを一定期間保持することが可能である記憶装置である。
入出力インターフェイス104は、装置の外部に接続する機器との情報の入出力に使用するインターフェイスである。入出力インターフェイス104に、キーボードやマウスなどの入力装置107と、ディスプレイなどの出力装置108を接続することが可能である。
通信装置105は、インターネットなどのネットワークに接続するケーブルを通信装置105に接続することで、インターネットなどのネットワークへの接続を可能にする装置である。ドライブ装置106は、情報が書き込まれているまたは書き込み可能である空のディスクメディアやHDDなどの記憶媒体109を含み、書き込まれている情報の読み出し、および情報の書き込みを行う装置である。
メモリ103には、本実施例1の異常検知装置100の機能を実現させるために必要な、CPU102の演算処理用のプログラム200と各種データが予め格納されている。CPU102が、メモリ103に格納されたプログラム200を実行することによって、異常検知装置100の機能を実現する各種処理が行われる。
なお、CPU102が実行するプログラム200はドライブ装置106に接続された前記記憶媒体109に格納しておき、そのプログラムを読み込んでメモリ103に格納するようにしてもよい。
図2はメモリ103、または前記記憶媒体109格納されている演算処理用のプログラム200の実行により実装される機能の一例を示すブロック図である。期待予測精度予測器210は、2次特徴量生成器211および精度予測器212からなる。なお、2次特徴量生成器211は、2次特徴量生成モジュールとしてもよい。また、精度予測器212は、精度予測モジュールとしてもよい。
2次特徴量生成器211は、解析対象データとハイパーパラメータの組み合わせから構成された1次特徴量を用いて、2次特徴量を生成する機能を含む。精度予測器212は、2次特徴量生成器211において生成した2次特徴量を入力として、ハイパーパラメータの期待予測精度を推定する機能を有する。なお、ハイパーパラメータは、前述したとおり、機械学習のアルゴリズムの種類、および各アルゴリズムにおいてモデルを決定するために必要なパラメータを含む情報である。
期待予測精度は、当該ハイパーパラメータと解析対象データを機械学習に適用し、生成したモデルの精度を評価した場合に、患者と非患者の識別などにおいて正しく識別できた確率などで表現することができる。なお、機械学習のモデルについては、予め設定されたモデルを使用する。
学習器220は、任意のハイパーパラメータの組み合わせによる学習を行い、データ解析のためのモデルを生成する機能を含む。結果表示器230は、ユーザインターフェイスによる操作や期待予測精度予測器210の結果および学習器220の結果を表示する機能を含む。
2次特徴量生成器211と、精度予測器212と、学習器220と、結果表示器230の各機能部はプログラム200としてメモリ103にロードされる。なお、本実施例1では、学習器220をソフトウェアによって実現する例を示すが、ハードウェアによって実現してもよい。
CPU102は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、CPU102は、学習プログラムに従って処理することで学習器220として機能する。他のプログラムについても同様である。さらに、CPU102は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
異常検知装置100の各機能を実現するプログラム、テーブル等の情報は、ドライブ装置106や不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
次に、本実施例1のプログラム200を実行した際の処理の流れを説明する。図3は、本実施例1の異常検知装置100で行われる処理の一例を示すフローチャートである。異常検知装置100は、プログラムの実行により、解析対象データに対し、最高の精度となると予測されたハイパーパラメータの組み合わせおよび前記最高の予測精度を瞬時(または迅速)に提示する。
異常検知装置100は、期待予測精度予測器210を機能させて、ドライブ装置106に接続された記憶媒体109から、メモリ103に解析対象データを読み込む(ステップS301)。なお、異常検知装置100は、入力装置107等から解析対象データの指定を受け付けて、記憶媒体109からメモリ103に読み込む。
続いて、異常検知装置100の期待予測精度予測器210は、解析対象データとハイパーパラメータセットからなる1次特徴量を用いて、2次特徴量生成器211により2次特徴量を生成する(ステップS302)。
ここで、ハイパーパラメータセットとは、ハイパーパラメータの組み合わせを意味する。例えば、解析用のアルゴリズムの種類はdeep learning、層の数は10、ユニット(ニューロン)数は500、といった組み合わせで構成されるハイパーパラメータを含むセットである。
なお、解析対象データに適用可能なハイパーパラメータの予測精度を評価するハイパーパラメータセットは、予め用意された複数のハイパーパラメータで構成される。あるいは、オペレータなどが入力装置107を介して指定した複数のハイパーパラメータを受け付けて、ハイパーパラメータセットを構成するようにしてもよい。
1次特徴量は、解析対象データとハイパーパラメータセットA、解析対象データとハイパーパラメータセットB、というように、予め定めておいた複数個のハイパーパラメータセットが自動的に解析対象データと結合されたデータセットである。本実施例1では1次特徴量は、予め生成されたものとする。
次に、期待予測精度予測器210は、後述するように生成された2次特徴量を用いて、精度予測器212により期待予測精度を予測する(ステップS303)。最後に、結果表示器230は、予測した期待予測精度のうち、前記期待予測精度が高かったもののうち上位数個(予め設定された順位閾値以上)におけるハイパーパラメータセットおよび前記期待予測精度を出力装置108に表示し、処理を終了する(ステップS304)。
図4は、前記ステップS302の、2次特徴量生成および、前記ステップS303の、期待予測精度の予測における処理を説明するための模式図である。1次特徴量は、上述の通り、解析対象データと1つのハイパーパラメータセットの組み合わせとして複数のサンプルが生成される。
ハイパーパラメータセットが、10個あった場合で以下説明を進める。10サンプルの1次特徴量に対して、前記ステップS302の2次特徴量生成により2次特徴量が生成され、前記ステップS303の期待予測精度予測により期待予測精度が予測され、10サンプルそれぞれに対して期待予測精度が1個ずつ提示される。
前記ステップS304で示したように、提示された10個の期待予測精度を高い順に並び替えを行い、期待予測精度の高い順にハイパーパラメータセットおよび前記期待予測精度を表示し終了する。
本実施例1では、予め特徴量に用いるハイパーパラメータセットを定めておいたが、オペレータによりハイパーパラメータセットを追加、決定可能としてもよい。また、期待予測精度のうち、予測精度が高かったもののうち上位数個におけるハイパーパラメータセットおよび予測精度の表示を行って処理の終了としたが、これに限定されるものではない。
例えば、期待予測精度予測器210による結果を結果表示器230が出力装置108にハイパーパラメータセットを表示し、オペレータが表示された中から、ハイパーパラメータセットを1つ選択し、選択したハイパーパラメータセットによる学習を行いデータ解析のためのモデルを生成する機能があってもよい。
また、オペレータが任意のパラメータセットを選択せず、上位1個のみ、または上位5個すべてなどにおいて自動的に学習を行うようにしてもよい。さらに、全ての1次特徴量に対する期待予測精度およびそのハイパーパラメータセットを指定したあるいは特定のメモリ空間へ保存してもよいし、オペレータが指定した特定のデータのみを指定したあるいは特定のメモリ空間へ保存してもよい。
続いて、期待予測精度予測器210が出力したハイパーパラメータセットのうち、オペレータが指定した1つまたは複数個のハイパーパラメータセットによる学習を学習器220によって行いデータ解析のためのモデルを生成する。
図5は学習器220で行われる処理の一例を示すフローチャートである。学習器220は、指定されたハイパーパラメータを用いて学習を行いデータ解析のためのモデルを生成する。この処理は、オペレータからの指示などに基づいて開始される。なお、モデルの生成手法は周知ないし公知の技術を適用することができる。
学習器220は、まず、メモリ103から入力装置107等で指定された解析対象データを読み出す(ステップS501)。続いて、学習器220は、事前にメモリ103に保存したハイパーパラメータを読み出すかどうかを判定する(ステップS502)。
なお、事前にメモリ103に保存されたハイパーパラメータは、例えば、図3のステップS304で期待予測精度が表示されたハイパーパラメータである。
ステップS502の判定は、学習器220が出力装置108にメモリ103内のハイパーパラメータセットを使用するか否かのボタンを表示し、入力装置107から受け付けた応答に基づいて実施する。メモリ103内のハイパーパラメータセットを使用する場合には、ステップS504へ進みそうでない場合にはステップS503へ進む。
ステップS503では、学習器220が出力装置108にユーザインターフェイスを出力し、学習させるハイパーパラメータセットを入力装置107から受け付ける。一方、メモリ103から読み出す場合、学習器220は、学習させるハイパーパラメータセットを選択するために、メモリ103に格納されているハイパーパラメータセットを読み出す(ステップS504)。
学習器220は、ステップS504にて読み出したハイパーパラメータセットの中から、学習させるハイパーパラメータセットを選択する(ステップS505)。この際、選択するハイパーパラメータセットは1つのみでもよいし、複数であってもよい。ハイパーパラメータセットの選択は、学習器220が入力装置107からオペレータの指令を受け付けても良い。
続いて、学習器220は、選択されたハイパーパラメータセットと、ステップS501にて読み出した解析対象データを用いて、所定の学習を行って解析モデルの生成を行う(ステップS506)。
学習器220は、学習に用いるデータは解析対象データのうち、たとえば50%のみを用い、生成したモデルの評価用に残りの50%を用いて、10フォールドクロスバリデーション等による精度の評価などを行う。解析対象データの残りの50%等を利用してクロスバリデーションを実施することで、学習結果の過学習を抑制することが可能となる。
最後に、学習器220は生成したモデルの予測精度を結果として出力装置108に表示し、終了する(ステップS507)。ステップS507では、上述のように予測精度の高い順に学習により生成したモデルまたはハイパーパラメータセットを出力装置108に表示することができる。
本実施例1におけるプログラムの実行により、解析対象データに対し、最高の精度となると予測されたハイパーパラメータセットおよび前記最高の精度を瞬時に提示することが可能となる。
次に、処理結果の保存および、オペレータが指定した1つまたは複数個のハイパーパラメータセットによる学習を行いデータ解析のためのモデルの生成処理における結果の保存について説明する。
図6は、結果を保存する処理の一例を示すフローチャートである。本実施例1の保存処理は、オペレータがユーザインターフェイス等により保存ボタンを押下するなどの信号をCPU102に送信することにより精度予測器212や学習器220で開始される。学習器220の場合を用いて説明する。
まず、学習器220は、保存する対象およびメモリ空間を選択する(ステップS601)。続いて、学習器220は、選択した対象を選択したメモリ空間または特定のメモリ空間へ保存する(ステップS602)。最後に、学習器220は、保存が成功した旨のメッセージを出力装置108に表示し、処理を終了する(ステップS603)。
図7は、以上の処理において出力装置108であるディスプレイ等に表示される画面の一例を示す図である。本実施例1における結果表示器230の実行により出力装置108には表示画面700が表示される。
異常検知装置100のオペレータは、入力装置107を操作してImport fileボタン701を押下することで、ファイル選択画面(図示省略)からファイルを選択することにより、解析対象データを選択することができる。
選択した解析対象データの名前は、Import file name欄705に出力される。その後、オペレータがExpected predictionボタン702を押下することで、解析対象データが期待予測精度予測器210に入力され、図3のフローチャートに代表されるような処理が行われ、結果表示器230によって結果表示領域708に結果が表示される。
結果表示領域708に表示された期待予測精度予測器210の結果は、予測した期待予測精度のうち、予測精度が高かったもの上位数個におけるハイパーパラメータセットおよび前記期待予測精度を、前記期待予測精度が高いものから順に表によりまとめて表示したものなどが考えられる。
オペレータは、結果表示領域708に表示されているラジオボタン709(あるいはチェックボックス等)により、任意のハイパーパラメータセットを選択することが可能である。オペレータは、ハイパーパラメータセットを選択した後、Saveボタン704を押下すると、保存したいメモリ空間を指定可能な画面が表示される。
オペレータは、入力装置107を介してメモリ空間を指定し、実行ボタンを押下すると、指定したメモリ空間に選択した前記期待予測精度およびそのハイパーパラメータセットが保存される。保存した先のメモリ空間は、Export file name706などに出力される。
続いて、オペレータが学習させるハイパーパラメータセットを選択したい際には、Import fileボタン701を押下することで、ファイル選択画面(図示省略)から選択することにより、ハイパーパラメータセットを選択することができる。
Import fileボタン701を押下した際には、まず、選択したいファイルが解析対象データなのか、またはハイパーパラメータセットなのかを選択する機能があってもよい。選択したハイパーパラメータセットの名前は、Import hyper−parameter name707に出力される。
結果表示領域708に、前記ハイパーパラメータセットが表形式などで表示され、学習させるハイパーパラメータセットを、前記表に付随して表示されているラジオボタン709やチェックボックス等により選択可能とすることが考えられる。
続いて、オペレータが、入力装置107を介してTrainingボタン703を押下することで、選択したハイパーパラメータセットと、Import file name欄705に記載されている解析対象データを用いて、図5のフローチャートに代表されるような処理が行われ、結果表示領域708にモデルの評価結果が表示される。
前記モデルの評価結果を保存したい場合、入力装置107を介してSaveボタン704を押下すると、保存したいメモリ空間を指定可能な画面が表示される。オペレータは入力装置107を介してメモリ空間を指定し、実行ボタンを押下すると、指定したメモリ空間に前記モデル評価結果およびそのハイパーパラメータを含むパラメータセットが保存される。保存した先のメモリ空間は、Export file name706などに出力される。
このようにして、2次特徴量生成器211および精度予測器212から構成される期待予測精度予測器210により、半年などの長期間を要さず、かつ専門家および高性能な解析用計算器を不要とし、学習器220で生成したモデルを適用することが可能となる。
異常検知装置100において、上記モデルを適用することで、最新のデータを用いた予測精度の高い異常検知が可能となる。異常検知装置100で検知する異常の例としては、医療用画像診断装置により取得された画像から読影可能な疾病の検知や、遺伝子検査装置により取得された遺伝子発現データ配列を用いた疾病の検知や、生化学検査装置により取得された成分分析結果を用いた疾病の検知や、医薬品開発において行われた実験により取得された薬物の活性値を用いた薬剤候補成分の検知などが考えられる。
また、ヘルスケア関連領域以外においては、機器や人に取り付けられたセンサーより取得されたデータを用いた異常動作の検知や、クレジットカードの審査の際にカード申請者から提出された年収や借金の有無等のデータを用いた例外の検知などが考えられる。
図8は、2次特徴量生成器211および精度予測器212の生成の一例の説明図である。以下では、2次特徴量生成を行う2次特徴量生成器211と、および期待予測精度の予測を行う精度予測器212の生成について図8を用いて説明する。2次特徴量生成器211および精度予測器212は、解析対象データを用いて期待予測精度を提示するより前に、予め生成しておく。
まず、2次特徴量生成器211の生成について説明する。2次特徴量生成器211の入力は1次特徴量であり、出力は2次特徴量である。1次特徴量は、予め設定された事前データとハイパーパラメータセットからなる。
ここで、事前データとは、たとえば、クレジットカードの審査に用いられる年収や借金の有無等のデータや、病院における血糖値を含む血液検査の結果などである。事前データは、オープンデータなどを活用し、大量に収集しておくことが考えられる。
収集しておく事前データは、欠損値を含むデータや、性別のように連続でない値が特徴量に含まれるデータ、など様々なバリエーションに富んでいることが望ましい。
本実施例1では、予め用意した1つの事前データに対して、複数のハイパーパラメータセットで、精度予測を予め行った結果を事前精度予測結果(予測精度)として記憶媒体109等に保持しておく。
つまり、事前データが10個、ハイパーパラメータセットが5個であった場合には、50サンプルの1次特徴量を用意することが可能である。50サンプルの1次特徴量それぞれに対して、事前精度予測結果が存在することになる。
事前精度予測結果は、ハイパーパラメータセットと事前データを機械学習に適用した場合に、例えば患者と非患者の識別であれば正しく2者を識別できた確率などで表現することができる。事前精度予測結果には、ハイパーパラメータセット内に記載のアルゴリズムおよびそのハイパーパラメータを用いた機械学習を行い、10フォールドバリデーションなどを用いた精度評価結果を用いてもよい。
2次特徴量生成器211は、事前精度予測結果を精度予測器212により予測可能となるような2次特徴量を生成可能となるように設計する。
次に、精度予測器212の生成について説明する。精度予測器212の入力は2次特徴量生成器211が出力した2次特徴量であり、精度予測器212の出力は事前精度予測結果である。精度予測器212は、事前精度予測結果を、2次特徴量から正しく予測可能となるように設計する。
2次特徴量生成器211および精度予測器212の設計は、異常検知装置100の学習器220を用いて行ってもよい。期待予測精度予測器210が、学習器220を用いて2次特徴量生成器211および精度予測器212を生成しても良い。
前記2次特徴量生成器211および精度予測器212の設計に、時間を要したとしても、解析対象データへ適用する際には学習を行わないため、上述のように半年などの長期間を要さず、かつ専門家および高性能な解析用計算器を不要とする本発明の効果には影響を及ぼさない。
また、2次特徴量生成器211および精度予測器212の設計を実現する手法は、機械学習に限定しない。さらに、2次特徴量は、2次特徴量生成器211を用いずに、2次特徴量を明示的に与えてもよい。明示的に与える2次特徴量として、事前データおよび解析対象データにおける、サンプル数、特徴量の次元数、欠損値の割合、年齢のような連続値の特徴量の割合、性別のような離散値の特徴量の割合、などが考えられる。
以上のように、異常検知装置100は、予め用意した事前データについて複数のハイパーパラメータセットのそれぞれについて、精度の予測を実施して事前精度予測結果を算出する。そして、異常検知装置100は、ハイパーパラメータセット毎に事前精度予測結果を出力(目標値)として、2次特徴量を入力とする精度予測器212を生成し、事前データとハイパーパラメータセットを入力とし、精度予測器212の入力とした2次特徴量を出力する2次特徴量生成器211を生成する。なお、2次特徴量生成器211および精度予測器212は、異常検知装置100において生成されることに限定しない。予め、高性能な解析用計算機などを用いて生成しておいてもよい。
本実施例1では、予め用意した複数のハイパーパラメータセットについて事前データから事前精度予測結果をハイパーパラメータ毎に算出し、事前データとハイパーパラメータセットを入力すると事前精度予測結果を出力するような2次特徴量生成器211及び精度予測器212を含む期待予測精度予測器210を生成する。
そして、異常検知装置100は、解析対象データと複数のハイパーパラメータセットの組み合わせを入力として期待予測精度予測器210により期待予測精度を算出し、解析対象のデータに対して、最高の精度となると予測されたハイパーパラメータの組み合わせと、最高の精度の値を迅速に評価することが可能となる。
これにより、機械学習のハイパーパラメータ探索において、半年などの長期間を要することなく、かつ専門家および高性能な解析用の計算機を不要とすることが期待できる。なお、期待予測精度は、当該ハイパーパラメータを用いてモデルを生成した場合に達成可能と見込まれる予測精度である。
次に、実施例2の異常検知装置100について説明する。実施例1の装置では、期待予測精度を予測する装置としていた。一方、実施例2の異常検知装置100は、予測した期待予測精度を用いて、解析対象データの予測精度を向上させるために必要なデータ成分を特定する機能を有する例を示す。
図9は、実施例2で実現する機能を説明する概念図である。本実施例2において、具体的な説明を行うため、2次特徴量は2次特徴量生成器211を用いずに、2次特徴量を明示的に与えたものとして説明する。
まず、事前データにおいて、いずれかのハイパーパラメータセットにおいて予測精度が85%以上であったデータ群をグループAとし、70%以下だったデータ群をグループBとする。
各グループの中で、2次特徴量のそれぞれの項目における平均値を算出する。解析対象データを期待予測精度予測器210に適用し、得られた期待予測精度が70%など、所望の値より低かった場合に、グループAの各2次特徴量の差と比較し、差異が大きい項目を選択する。
異常検知装置100は、選択された項目に関して、グループAの値に近づけるために、解析対象データをどう変更するとよいかの提言を提示する。たとえば、サンプル数がグループAの平均値は1万個、解析対象データの値が100個であった場合、サンプル数を増やす旨の指示を提示する、などである。
これにより、異常検知装置100は、予測精度を向上させるために、具体的にデータをどう変更すればよいかを、オペレータに提示することが可能となる。提示する項目数は、予め個数を設定しておいてもよいし、2次特徴量の項目ごとに提示するようにする差異の閾値を設けておいてもよい。
また、予測精度に応じたグループを2つだけではなく、ハイパーパラメータセットによる予測精度の違いの観点から、ハイパーパラメータセットごとにグループAおよびBを設けてもよい。あるいは、2次特徴量の中に、ハイパーパラメータセットを含めてもよい。
さらに、いずれかのハイパーパラメータセットにおいて予測精度が85%以上であったデータ群をグループA、70%以下だったデータ群をグループBとしたが、閾値とする数値は85%を90%や、70%を60%など、任意の値に変更してもよいし、グループを2つだけではなく、3つや4つなど増やしてもよい。
また、上記では、2次特徴量を明示的に与えた場合において説明したが、2次特徴量生成器211を用いて生成した2次特徴量を用いてもよいし、1次特徴量を用いてもよい。また、解析対象データを期待予測精度予測器210に適用し、得られた期待予測精度が70%など、所望の値より低かった場合に、グループAの各2次特徴量の差と比較し、差異が大きい項目を選択したが、異なる手法で予測精度が低い原因と考えられる項目を選択してもよい。
また、2次特徴量の差をグループAおよびBと比較するのではなく、事前データの特徴量または1次特徴量または2次特徴量から、グループAおよびBのどちらであるのかを識別する機械学習モデルを生成し、解析対象データの特徴量または1次特徴量または2次特徴量を入力し、識別されたグループから解析対象データの評価を行ってもよい。また、グループAおよびBのどちらであるのかを識別する方法は、機械学習ではなく、マルコフ連鎖モンテカルロ法などの周知または公知の統計的な手法を用いても良い。
以上のように、本実施例2の異常検知装置100では、期待予測精度が閾値以下の解析対象データについて、期待予測精度が閾値を超える解析対象データの各2次特徴量の差と比較し、差異が大きい項目を選択し、解析対象データを改善する指示を出力することができる。これにより、予測精度を向上させるために必要なデータの成分を特定することが可能となる。
次に、実施例3の異常検知装置100について説明する。実施例1の異常検知装置100では、期待予測精度を予測する装置としていた。実施例3の異常検知装置100は、解析対象データのデータ解析を行う前に、当該解析対象データが解析に値するデータであるか否かを判断する機能を有する例を示す。
機械学習によって高精度な予測が不可能な解析対象データには、重要な特徴量が含まれている割合が少なく、解析を行っても何も得られる情報がない可能性がある。たとえば、現在、糖尿病と診断するために必要な項目とされている早朝空腹時血糖値や随時血糖値などを医学研究により診断に必要な値であることを明らかにしたい場合において、早朝空腹時血糖値や随時血糖値が解析対象データに含まれていない場合、明らかにしたい糖尿病と診断するために必要な項目が含まれていないため、解析対象データの解析を行っても糖尿病と診断するために必要な項目を見つけ出すことは不可能である。
ここで、解析対象データの解析とは、医学研究であれば周知または公知のロジスティック回帰など、各分野においてゴールドスタンダードとして行われてきた解析方法や、特定の目的に沿うように開発された解析方法などを用いた解析である。このように、解析対象データには、解析目標に十分寄与するような重要な特徴量が含まれている必要がある。
しかし、未知の事象の解析を行う場合に、前記重要な特徴量が解析対象データに含まれていることを知ることはできない。そこで、解析を行う前に、前記実施例1の図3のフローチャートで実現されるような期待予測精度予測器210を適用することが考えられる。
機械学習による予測精度においても、前記重要な特徴量の有無が精度を左右する。期待予測精度が所定の閾値を超えて高い場合には、解析対象データに前記重要な特徴量が含まれており、期待予測精度が所定の閾値以下の低い場合には、解析対象データに前記重要な特徴量が含まれていないと判断することが可能である。異常検知装置100は、期待予測精度が閾値以下の場合には、解析を行っても有意な結果が得られないと判定して、データの解析を中止、またはオペレータに提示することができる。
図10は、本実施例3を実現する処理の一例を示すフローチャートである。まず、異常検知装置100は、メモリ103に解析対象データを読み出す(ステップS1001)。続いて、異常検知装置100は、解析対象データとハイパーパラメータセットからなる1次特徴量を参照して、2次特徴量生成器211により2次特徴量を生成する(ステップS1002)。
次に、異常検知装置100は、生成した2次特徴量を用いて、精度予測器212により期待予測精度を予測する(ステップS1003)。続いて、異常検知装置100は、予測した期待予測精度から、データ解析を行うか否かの判定を行う(ステップS1004)。
異常検知装置100は、期待予測精度が所定の閾値以上であればステップS1005へ進み、データ解析を行わないと判断した場合は、終了する。
データ解析を行うと判断した場合、異常検知装置100は、後述するデータ解析を行ってから処理を終了する(ステップS1005)。
ステップS1004における期待予測精度の閾値は任意に設定可能としてもよいし、特定の値にしておいてもよい。また、データ解析手法の1つとして、以下の様な手法を使用してもよい。
図11はデータ解析手法の1例を示すフローチャートである。この処理は、図10のステップS1005で行われる。
まず、異常検知装置100は、メモリ103に解析対象データを読み出す(ステップS1101)。異常検知装置100は、読みだした解析対象データの各特徴量と、後述するサンプルごとに記載されているラベルに相関関係があるかどうかを、非線形相関により算出し、相関係数が所定の閾値を超えたもののうち、上位の特徴量を選択する(ステップS1102)。
ここで、解析対象データの各特徴量とは、クレジットカードの審査に用いられる年収や借金の有無等のデータや、病院における血糖値を含む血液検査の結果などである。また、サンプルごとに記載されているラベルとは、例えば、解析対象データのレコード毎に予め付加されたもので、当該データは患者のデータであるか否か、あるいは機器が故障した状態のデータであるか否か、などの異常を検知した状態とそうでない(異常が検知されていない)状態とを識別する情報である。
また、上記では、相関係数の算出に非線形相関を用いたが、線形相関を用いても良いし、相関係数以外の手法によりラベルと解析対象データの各特徴量間に存在する関係性の高さを評価してもよい。
続いて、異常検知装置100は、ステップS1102により選択した解析対象データの各特徴量の1個ずつに対して、機械学習により精度予測を行う(ステップS1103)。機械学習による精度予測は、前記実施例1で予測した精度が高いハイパーパラメータセットを採用することで、処理を迅速に行うことができる。
さらに、異常検知装置100は、ステップS1102により選択した解析対象データの各特徴量において2個ずつのペアの組み合わせを生成する(ステップS1104)。
異常検知装置100は、上記ステップ1104Sにより生成した組み合わせに対し、機械学習により精度予測を行う(ステップS1105)。この精度予測も、前記実施例1で予測した精度が高いハイパーパラメータセットを採用することで、処理を迅速に行うことができる。
異常検知装置100は、ステップS1003およびステップS1005において、算出した2種類の予測精度および10フォールドクロスバリデーション結果を用いた重要ペア特徴量の選択規則(後述)に従い、重要ペア特徴量を選択する(ステップS1106)。
異常検知装置100は、上記ステップS1106で選択した複数の重要ペア特徴量同士の関係性を選択して処理を終了する(ステップS1107)。
ここで、重要ペア特徴量とは1つの解析対象データの特徴量では予測精度は高くならないものの、解析対象データの特徴量をペアにすることで期待予測精度が向上するような組み合わせとなる特徴量を指す。
重要ペア特徴量選択の規則について説明する。異常検知装置100は、上記ステップS1103において算出した単独の期待予測精度と、ステップS1105において算出したペアの期待予測精度の差が所定の閾値を上回るような解析対象データの特徴量のペアを1次重要特徴量として選択する。
ここで、単独の予測精度はペアとした解析対象データの特徴量の2種類に関して存在するが、値が高い方とペア予測精度の差を算出することで、ペアにすることで予測精度が向上するような組み合わせを選択しやすくなると考えられる。
次に、異常検知装置100は、1次重要特徴量となったペアにおいて、ステップS1103およびステップS1105において算出した10フォールドクロスバリデーションの平均値が閾値(例えば70%)以上であったペアのみを重要特徴量として選択する。
クロスバリデーションは、10でなく5などの数値でもよい。また、クロスバリデーションの平均値の閾値は70%ではなく90%などでもよいし、回帰の場合は実際の数値や決定係数などであってもよい。
異常検知装置100は、クロスバリデーションの値を用いることで、予測精度の確からしさを判断することが可能になる。クロスバリデーションの値を用いずに、実行してもよいが、過学習により単独の予測精度およびペアの予測精度が高く、実際には予測が容易ではないペアを重要ペア特徴量として選択してしまうことの回避に対する難易度は向上することが予想される。
ステップS1106における、選択した複数の重要ペア特徴量同士の関係性について説明する。例えば、選択された重要ペア特徴量が、特徴量Aと特徴量B、特徴量Bと特徴量C、特徴量Cと特徴量Aであった場合を考える。
特徴量A、特徴量Bおよび特徴量Cは、互いに重要特徴量であることから、これら3つの特徴量で精度を予測した場合において、単独で予測した場合より予測精度は向上すると考えられる。さらには、これら3つの特徴量で精度を予測した場合において、ペアで予測した場合より期待予測精度が向上する可能性もある。
このように重要ペア特徴量を抽出することにより、2つの特徴量だけでなく、3つ以上の特徴量において、特徴量を増やすことで予測精度が向上する関係にある特徴量を発見することが可能になる。また、上記ステップ1104Sにより生成した組み合わせである2種の特徴量に対して、非線形相関を実施し、相関が低かったペアをより重要な重要ペア特徴量であると示してもよい。特徴量間に相関がまったくないにも関わらず、図11に示すフローにより重要ペア特徴量であるとされた特徴量は、線形な手法を用いた解析では発見されづらい特徴量と考えることができる。このような解析手法を用いることで、医学研究で用いられることが多い線形の手法では発見できなかった関係性を発見可能となることが期待できる。また、前記データ解析手法は、解析対象データに適用する以外にも、解析対象データを参照して類似するデータを生成する技術によって生成されたデータに対して適用してもよい。
以上のように、本実施例3によれば、解析対象データに前記重要な特徴量が含まれており、期待予測精度が低い場合には、解析対象データに前記重要な特徴量が含まれていないと判断することが可能である。この場合、解析を行っても有意な結果が得られないと判定して、データの解析を中止することができる。
また、本実施例3によれば、2次特徴量をペアにすることで予測精度が向上するような組み合わせを重要ペア特徴量として抽出することが可能となる。
次に、実施例4の異常検知装置100について説明する。実施例1の装置では、期待予測精度を予測する装置として機能する例を示した。本実施例4の異常検知装置100は、解析対象データの精製手法の良し悪しを指標(期待予測精度)に基づいて判定する機能を有する例を示す。
解析対象データは、取得したデータをそのまま使用することも可能であるが、データ精製(クレンジング)により真に重要(あるいは有用)な特徴量を抽出したデータを使用することもある。
たとえば、特徴量の数が10万個を超えるような場合、10万個のすべてが意味のある特徴量ではなく、解析したい問題に対してまったく無関係の特徴量も多く含まれている可能性が高い。
そこで、解析に対して無関係の特徴量が多く含まれる場合には、期待予測精度に悪影響を与える可能性がある。また、特徴量の中に、文字が含まれる場合や、画像と検査数値の様な種類の違う特徴量が含まれる場合などにおいては、同一の特徴量ベクトルとして扱えるように前処理を行う必要がある。
これらの事前処理には様々な手法や、様々な観点における重要特徴量の決定方法が存在しうるため、解析対象データを1パターンだけでなく、ひとつの解析対象データについて異なる種類の事前処理を施したデータを複数パターン生成し、いずれのパターンが最も期待予測精度が高くなるのか試すこととなる。
そこで、本実施例4を用いることで、複数種類の解析対象データを、図2のフローチャートに代表されるような期待予測精度予測器210に適用し、入力した複数種類の解析対象データの中から、期待予測精度が高い順に提示することで、どの解析対象データ生成方法が良好であったかを、瞬時に判断することを可能とする。
図12は本実施例4を説明する図である。ひとつのオリジナルの解析対象データから、たとえば3種類のデータ精製(またはクレンジング)方法である手法A、手法Bおよび手法Cを用いて、3種類の解析対象データとして解析対象データA、解析対象データB、解析対象データCを精製する。
解析対象データA〜Cのそれぞれに対して、前記実施例1の図2に示したフローチャートに示した期待予測精度予測器210を適用し、最も期待予測精度が高かった精度を提示する。3種の解析対象データ(データA〜C)における期待予測精度を比較し、最も期待予測精度が高かった解析対象データを精製した手法が3つのデータ精製手法の中で最も良い手法であると考えられる。
本実施例4の異常検知装置100は、最も期待予測精度が高かった精製方法(データクレンジング)を、解析対象データの前処理として採用することができる。
この知見を活かし、新たなデータ精製手法Dなどを実施して、同様の手順により他のデータ精製手法と比較することができる。期待予測精度予測器210を用いることで、複数のデータ精製手法の中からもっともよいデータ精製の手法を選択し、データ解析を行いたい場合においても、半年などの長期間を要さず、かつ専門家および高性能な解析用計算器を不要とすることが可能となる。
<まとめ>
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。
また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
100 異常検知装置
101 データバス
102 CPU
103 メモリ
104 入出力インターフェイス
105 通信装置
106 ドライブ装置
107 入力装置
108 出力装置
109 記憶媒体
210 期待予測精度予測器
211 2次特徴量生成器
212 精度予測器
220 学習器
230 結果表示器

Claims (15)

  1. プロセッサとメモリを有する計算機が、解析対象データに適用可能なハイパーパラメータを評価するハイパーパラメータの評価方法であって、
    前記計算機が、予め設定された事前データと複数のハイパーパラメータから2次特徴量生成部と精度予測部を生成する第1のステップと、
    前記計算機が、前記解析対象データを受け付ける第2のステップと、
    前記2次特徴量生成部が、前記解析対象データと複数のハイパーパラメータを入力として2次特徴量を算出する第3のステップと、
    前記精度予測部が、前記2次特徴量を入力としてハイパーパラメータ毎の期待予測精度を算出する第4のステップと、
    を含むことを特徴とするハイパーパラメータの評価方法。
  2. 請求項1に記載のハイパーパラメータの評価方法であって、
    前記第3のステップは、
    前記解析対象データと複数のハイパーパラメータを1次特徴量として入力して2次特徴量を算出することを特徴とするハイパーパラメータの評価方法。
  3. 請求項1に記載のハイパーパラメータの評価方法であって、
    前記第4のステップは、
    前記2次特徴量を入力として、前記ハイパーパラメータ毎に達成可能と見込まれる期待予測精度を算出することを特徴とするハイパーパラメータの評価方法。
  4. 請求項1に記載のハイパーパラメータの評価方法であって、
    前記計算機が、前記算出された期待予測精度を前記ハイパーパラメータ毎に出力する第5のステップと、
    前記計算機が、前記出力されたハイパーパラメータのうち、選択されたハイパーパラメータを受け付ける第6のステップと、
    前記計算機が、前記選択されたハイパーパラメータに基づいて前記解析対象データを解析するためのモデルを生成する第7のステップと、
    をさらに含むことを特徴とするハイパーパラメータの評価方法。
  5. 請求項1に記載のハイパーパラメータの評価方法であって、
    前記計算機が、複数の解析対象データの前記2次特徴量と期待予測精度を取得して、前記期待予測精度が閾値以下の解析対象データについて、前記期待予測精度が閾値を超える解析対象データの各2次特徴量の差と比較し、差異が大きい項目を選択する第8のステップと、
    をさらに含むことを特徴とするハイパーパラメータの評価方法。
  6. 請求項1に記載のハイパーパラメータの評価方法であって、
    前記計算機が、前記期待予測精度が所定の閾値以下の場合には、当該解析対象データでデータ解析を行っても有意な結果が得られないと判定する第9のステップと、
    をさらに含むことを特徴とするハイパーパラメータの評価方法。
  7. 請求項1に記載のハイパーパラメータの評価方法であって、
    前記第2のステップは、
    前記受け付けた解析対象データに対してデータクレンジングを実施するステップを含み、
    前記計算機が、前記解析対象データに対して複数のデータクレンジングを実施した後の期待予測精度を取得して、最も期待予測精度の高いデータクレンジングを選択する第10のステップを、
    をさらに含むことを特徴とするハイパーパラメータの評価方法。
  8. 請求項1に記載のハイパーパラメータの評価方法であって、
    前記第1のステップは、複数のハイパーパラメータのそれぞれについて、前記事前データの解析に適用した場合の精度の予測を実施して事前精度予測結果を算出するステップと、
    前記ハイパーパラメータ毎に前記事前精度予測結果を出力として、2次特徴量を入力とする精度予測部を生成するステップと、
    前記事前データと複数のハイパーパラメータを入力とし、前記精度予測部の入力とした2次特徴量を出力する2次特徴量生成部を生成するステップと、
    を含むことを特徴とするハイパーパラメータの評価方法。
  9. 請求項4に記載のハイパーパラメータの評価方法であって、
    前記計算機が、前記算出された期待予測精度の順位で、前記ハイパーパラメータと前記生成されたモデルとを出力する第11のステップを、
    をさらに含むことを特徴とするハイパーパラメータの評価方法。
  10. プロセッサとメモリを含んで、解析対象データに適用可能なハイパーパラメータを評価する計算機であって、
    予め設定された事前データと複数のハイパーパラメータから生成された2次特徴量生成部と、予め設定された事前データと複数のハイパーパラメータから生成された精度予測部とを含む期待予測精度予測部を有し、
    前記期待予測精度予測部が、前記解析対象データを受け付けて、
    前記2次特徴量生成部が、前記解析対象データと複数のハイパーパラメータを入力として2次特徴量を算出し、
    前記精度予測部が、前記2次特徴量を入力としてハイパーパラメータ毎の期待予測精度を算出することを特徴とする計算機。
  11. 請求項10に記載の計算機であって、
    前記2次特徴量生成部が、前記解析対象データと複数のハイパーパラメータを1次特徴量として入力して2次特徴量を算出することを特徴とする計算機。
  12. 請求項10に記載の計算機であって、
    前記精度予測部が、前記2次特徴量を入力として、前記ハイパーパラメータ毎に達成可能と見込まれる期待予測精度を算出することを特徴とする計算機。
  13. 請求項10に記載の計算機であって、
    前記精度予測部が、前記算出された期待予測精度を前記ハイパーパラメータ毎に出力し、
    前記出力されたハイパーパラメータのうち、選択されたハイパーパラメータを受け付けて、前記選択されたハイパーパラメータに基づいて前記解析対象データを解析するためのモデルを生成する学習部と、をさらに有することを特徴とする計算機。
  14. 請求項10に記載の計算機であって、
    前記期待予測精度予測部が、複数の解析対象データの前記2次特徴量と期待予測精度を取得して、前記期待予測精度が閾値以下の解析対象データについて、前記期待予測精度が閾値を超える解析対象データの各2次特徴量の差と比較し、差異が大きい項目を選択することを特徴とする計算機。
  15. プロセッサとメモリを有する計算機を制御させるためのプログラムであって、
    予め設定された事前データと複数のハイパーパラメータから2次特徴量生成部と精度予測部を生成する第1のステップと、
    解析対象データを受け付ける第2のステップと、
    前記解析対象データと複数のハイパーパラメータを前記2次特徴量生成部へ入力して2次特徴量を算出する第3のステップと、
    前記2次特徴量を前記精度予測部へ入力してハイパーパラメータ毎の期待予測精度を算出する第4のステップと、
    を前記計算機に実行させるためのプログラム。
JP2017117620A 2017-06-15 2017-06-15 ハイパーパラメータの評価方法、計算機及びプログラム Active JP6840627B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017117620A JP6840627B2 (ja) 2017-06-15 2017-06-15 ハイパーパラメータの評価方法、計算機及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017117620A JP6840627B2 (ja) 2017-06-15 2017-06-15 ハイパーパラメータの評価方法、計算機及びプログラム

Publications (2)

Publication Number Publication Date
JP2019003408A true JP2019003408A (ja) 2019-01-10
JP6840627B2 JP6840627B2 (ja) 2021-03-10

Family

ID=65006168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017117620A Active JP6840627B2 (ja) 2017-06-15 2017-06-15 ハイパーパラメータの評価方法、計算機及びプログラム

Country Status (1)

Country Link
JP (1) JP6840627B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140226A (ja) * 2019-02-26 2020-09-03 三菱Ufj信託銀行株式会社 汎用人工知能装置及び汎用人工知能プログラム
WO2020250843A1 (ja) * 2019-06-12 2020-12-17 株式会社Preferred Networks ハイパーパラメタチューニング方法、プログラム試行システム及びコンピュータプログラム
JP7199115B1 (ja) 2021-12-17 2023-01-05 望 窪田 機械学習における分散学習

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218869A (ja) * 2015-05-22 2016-12-22 富士通株式会社 設定方法、設定プログラム、及び設定装置
JP2017062713A (ja) * 2015-09-25 2017-03-30 キヤノン株式会社 識別器作成装置、識別器作成方法、およびプログラム
JP2017102906A (ja) * 2015-11-25 2017-06-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218869A (ja) * 2015-05-22 2016-12-22 富士通株式会社 設定方法、設定プログラム、及び設定装置
JP2017062713A (ja) * 2015-09-25 2017-03-30 キヤノン株式会社 識別器作成装置、識別器作成方法、およびプログラム
JP2017102906A (ja) * 2015-11-25 2017-06-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140226A (ja) * 2019-02-26 2020-09-03 三菱Ufj信託銀行株式会社 汎用人工知能装置及び汎用人工知能プログラム
WO2020250843A1 (ja) * 2019-06-12 2020-12-17 株式会社Preferred Networks ハイパーパラメタチューニング方法、プログラム試行システム及びコンピュータプログラム
JPWO2020250843A1 (ja) * 2019-06-12 2020-12-17
JP7303299B2 (ja) 2019-06-12 2023-07-04 株式会社Preferred Networks ハイパーパラメタチューニング方法、プログラム試行システム及びコンピュータプログラム
JP7199115B1 (ja) 2021-12-17 2023-01-05 望 窪田 機械学習における分散学習
JP2023090055A (ja) * 2021-12-17 2023-06-29 望 窪田 機械学習における分散学習

Also Published As

Publication number Publication date
JP6840627B2 (ja) 2021-03-10

Similar Documents

Publication Publication Date Title
JP6691401B2 (ja) 個別化予測モデルを用いた、個人レベルのリスク・ファクタの識別およびランク付け
CN109313939B (zh) 健康状况预测装置,健康状况预测方法和计算机可读记录介质
WO2019244646A1 (ja) 疾病リスク予測装置、疾病リスク予測方法および疾病リスク予測プログラム
JP2017537365A (ja) 患者データに基づく健康診断および治療のためのベイジアン因果関係ネットワークモデル
Kwon et al. Nurses “seeing forest for the trees” in the age of machine learning: using nursing knowledge to improve relevance and performance
US20220084639A1 (en) Electronic Phenotyping Technique for Diagnosing Chronic Kidney Disease
US20140136225A1 (en) Discharge readiness index
Celi et al. Optimal data systems: the future of clinical predictions and decision support
WO2020172607A1 (en) Systems and methods for using deep learning to generate acuity scores for critically ill or injured patients
JP6840627B2 (ja) ハイパーパラメータの評価方法、計算機及びプログラム
CN111095232A (zh) 发掘用于机器学习技术中的基因组
Al-Ageel et al. Human factors in the design and evaluation of bioinformatics tools
Casarett et al. The art versus science of predicting prognosis: can a prognostic index predict short-term mortality better than experienced nurses do?
Ahrens et al. Improving requirements specification use by transferring attention with eye tracking data
KR101595784B1 (ko) 패혈증 고위험군 예측 방법 및 시스템
CN113096756A (zh) 病情演变分类方法、装置、电子设备和存储介质
US20190034595A1 (en) Generating robust symptom onset indicators
CN113990512A (zh) 异常数据检测方法及装置、电子设备和存储介质
US20220230193A1 (en) Information processing apparatus, information processing method, and program
Liebeskind et al. Data considerations in ischemic stroke trials
Crowe et al. A letter from the editors: Pearls and pitfalls for writing a methods section
JP2006268080A (ja) 特許データ解析方法、装置、プログラムおよび記録媒体
JP2020135489A (ja) ヘルスケアデータ分析装置及びヘルスケアデータ分析方法
SCHREIER Predictive Modelling and ts Visualization for Telehealth Data–Concept and Implementation of an Interactive Viewer
JP7266357B1 (ja) プログラム、情報処理装置、方法及びシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210217

R150 Certificate of patent or registration of utility model

Ref document number: 6840627

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150