JP7409495B2

JP7409495B2 - 機械学習プログラム，機械学習方法および機械学習装置

Info

Publication number: JP7409495B2
Application number: JP2022522091A
Authority: JP
Inventors: 達松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2024-01-09
Anticipated expiration: 2040-05-11
Also published as: EP4152222A1; CN115427984A; WO2021229630A1; EP4152222A4; JPWO2021229630A1; US20230021674A1

Description

本発明は、機械学習技術に関する。

機械学習の手法の一つとして、入力データと出力データとを備える教師データ（正解付きデータ）を用いて入出力関係を学習させる教師あり学習が知られている。

また、一般的に、教師あり機械学習においては、複数の教師データのうちの一部をモデル作成用データ（訓練データ）として使用することでモデル（機械学習モデル）を作成し、複数の教師データのうち残りの一部をモデル検証用データ（評価データ）として使用することで過学習の判断を行なうことが知られている。

ここで、過学習（overfitting）とは、モデルが訓練データだけに最適化されてしまい汎用性がない状態に陥ることをいい、モデル作成用データについては高精度に予測できるが、それ以外のデータについては予測が低精度となる。

上述した教師データの一部をモデル検証用データとして用いた過学習の判断手法においては、作成したモデルを用いてモデル作成用データを予測した時の予測精度とモデル検証用データを予測した時の予測精度が大幅に異なる場合に過学習の状態と判断される。

特開２０１９－６６９９３号公報

しかしながら、教師データ取得時に偏りがある場合、入力データ空間全体で見たときに、例外的なクラスタが存在する可能性がある。

なお、ここでいう「偏り」とは、入力に関するものであり、偶然では起こりえないほど入力が類似したデータ群（クラスタ）が教師データに含まれている状況を指す。取得可能な教師データに制限がある等の事情により、このような偏りが生じ得る。

このような例外的なクラスタのデータまで正しく予測するモデルを作成すると過学習になりやすいが、上述の通りモデル作成／検証用データのいずれも高精度に予測できてしまうため、過学習となったことが検出されない場合がある。

１つの側面では、過学習を抑制することを目的とする。

このため、この機械学習プログラムは、複数のデータをクラスタリングすることで生成された複数のクラスタ単位で、前記複数のデータをモデル作成用データまたはモデル検証用データに分類し、前記モデル作成用データを用いた機械学習によってモデルを生成し、前記モデル検証用データを用いて、生成された前記モデルの出力精度を検証する、処理をコンピュータに実行させる。

一実施形態によれば、過学習を抑制することができる。

実施形態の一例としての計算機システムのハードウェア構成を例示する図である。実施形態の一例としての計算機システムの機能構成を例示する図である。ニューラルネットワークの概要を示す図である。実施形態の一例としての計算機システムのクラスタリング処理部によるクラスタリング手法を説明するための図である。実施形態の一例としての計算機システムのデータ作成部による処理を説明するための図である。実施形態の一例としての計算機システムのモデル作成部による処理を説明するための図である。実施形態の一例としての計算機システムの予測処理部による処理を説明するための図である。実施形態の一例としての計算機システムの検証部による処理を説明するための図である。実施形態の一例としての計算機システムにおける処理を説明するためのフローチャートである。実施形態の一例としての計算機システムの学習処理部により行なわれる二値分類を説明するための図である。図１０におけるモデル作成用クラスタを抽出して示す図である。図１０におけるモデル検証用クラスタを抽出して示す図である。機械学習方法における過学習について説明するための図である。

図１３は機械学習方法における過学習について説明するための図であり、入力データ空間に配置された教師データを例示する。この図１３においては、多数の微小点が配置された入力データ空間を例示している。微小点のそれぞれは教師データを表しており、それぞれ入力データに応じた位置にプロットされている。

また、この入力データ空間においては、複数の教師データ（微小点）が局所的に集まることで複数の小規模のクラスタ（データ群）が形成されている。図１３中においては、教師データの集合によるクラスタに符号ａまたは符号ｂが付されている。

これらの符号ａまたは符号ｂは教師データの出力を表しており、符号ａが付されたクラスタを構成する教師データの出力はそれぞれａであり、符号ｂが付されたクラスタを構成する教師データの出力はそれぞれｂである。すなわち、図１３に示す例においては、ａまたはｂを予測する二値分類を表している。

この図１３に示す例において、太破線は、モデル作成用データを用いて全て正解できる高精度なモデルを作成した場合の予測の境界を示す。当該モデルにおいては、この太破線の左側に位置する教師データの出力をｂと予測し、この太破線の右側に位置する教師データの出力をａと予測する。

ここで、この図１３に例示する入力データ空間上の教師データには、モデル作成用のデータとモデル検証用のデータとが混在しており、各クラスタを構成する教師データにも、モデル作成用のデータとモデル検証用のデータとが混在している。その場合、図１３における太破線を境界として予測するモデルはモデル作成用データおよびモデル検証用データのいずれに対しても高精度に予測できる。

このような例外的なクラスタのデータまで正しく予測するモデルを作成すると過学習になりやすいが、上述の通りモデル作成／検証用データのいずれも高精度に予測できてしまうため、過学習となったことが検出されない場合がある。例えば、図１３中において、符号Ｐ１を付して示す四角点線で囲んだクラスタが例外的なクラスタであった場合、図１３に示す入力空間においては、太破線を境界として予測するモデルは過学習の状態にあり、同図中に一点鎖線を境界として予測するモデルの方が望ましい。機械学習においては、このような過学習を抑制することが望まれている。

以下、図面を参照して本機械学習プログラム，機械学習方法および機械学習装置にかかる実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形（実施形態および各変形例を組み合わせる等）して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

図１は実施形態の一例としての計算機システム１のハードウェア構成を例示する図である。計算機システム１は、機械学習装置であって、例えば、ニューラルネットワークを実現する。計算機システム１は、図１に示すように、ＣＰＵ（Central Processing Unit）１０，メモリ１１およびアクセラレータ１２を備える。これらのＣＰＵ１０，メモリ１１およびアクセラレータ１２は、通信バス１３を介して相互に通信可能に接続されている。通信バス１３は、本計算機システム１内のデータ通信を行なう。

メモリ１１は、ＲＯＭ（Read Only Memory）およびＲＡＭ（Random Access Memory）を含む記憶メモリである。メモリ１１のＲＯＭには、後述するＣＰＵ１０によって実行されるプログラムやこのプログラム用のデータ類が書き込まれている。メモリ１１上のソフトウェアプログラムは、ＣＰＵ１０に適宜読み込まれて実行される。また、メモリ１１のＲＡＭは、一次記憶メモリあるいはワーキングメモリとして利用される。メモリ１１のＲＡＭには、教師データ（モデル作成用データ，モデル検証用データ）やモデルを構成する情報およびモデルを用いた予測結果等も格納される。アクセラレータ１２は、例えば、行列演算などのニューラルネットワークの計算に必要な演算処理を実行する。

ＣＰＵ１０は、種々の制御や演算を行なう処理装置（プロセッサ）であり、実装されたプログラムに基づき、計算機システム１全体を制御する。そして、このＣＰＵ１０がメモリ１１等に格納された機械学習プログラム（図示省略）を実行することで、後述する学習処理部１００（図２参照）としての機能を実現する。計算機システム１は、機械学習プログラムを実行することにより機械学習装置として機能する。

なお、学習処理部１００としての機能を実現するためのプログラム（機械学習プログラム）は、例えばフレキシブルディスク，ＣＤ（ＣＤ－ＲＯＭ，ＣＤ－Ｒ，ＣＤ－ＲＷ等），ＤＶＤ（ＤＶＤ－ＲＯＭ，ＤＶＤ－ＲＡＭ，ＤＶＤ－Ｒ，ＤＶＤ＋Ｒ，ＤＶＤ－ＲＷ，ＤＶＤ＋ＲＷ，ＨＤＤＶＤ等），ブルーレイディスク，磁気ディスク，光ディスク，光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータ（計算機システム１）はその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。また、そのプログラムを、例えば磁気ディスク，光ディスク，光磁気ディスク等の記憶装置（記録媒体）に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。

学習処理部１００としての機能を実現する際には、内部記憶装置（本実施形態ではメモリ１１のＲＡＭやＲＯＭ）に格納されたプログラムがコンピュータのマイクロプロセッサ（本実施形態ではＣＰＵ１０）によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行するようにしてもよい。

図２は実施形態の一例としての計算機システム１の機能構成を例示する図である。計算機システム１は、図２に示すように、学習処理部１００としての機能を備える。学習処理部１００は、例えば、ニューラルネットワークにおける深層学習を実施する。

ニューラルネットワークは、ハードウェア回路であってもよいし、ＣＰＵ１０等によりコンピュータプログラム上で仮想的に構築される階層間を接続するソフトウェアによる仮想的なネットワークであってもよい。

図３にニューラルネットワークの概要を示す。図３に示すニューラルネットワークは、入力層と出力層との間に複数の隠れ層を含むディープニューラルネットワークである。隠れ層は、例えば、畳み込み層、プーリング層または全結合層等である。図３中において、各層に示す丸印は、所定の計算をそれぞれ実行するノードを示す。

ニューラルネットワークは、入力データを入力層に入力し、畳み込み層やプーリング層などで構成される隠れ層にて所定の計算を順次実行することで、演算により得られる情報を入力側から出力側に順次伝えるフォーワッド方向の処理（順伝播処理）を実行する。フォーワッド方向の処理の実行後、出力層から出力される出力データと正解データとから得られる誤差関数の値を小さくするために、フォーワッド方向の処理で使用するパラメータを決定するバックワード方向の処理（逆伝播処理）を実行する。そして、逆伝播処理の結果に基づいて重み等の変数を更新する更新処理が実行される。

図２に示すように、学習処理部１００は、クラスタリング処理部１０１，データ作成部１０２，モデル作成部１０３，予測処理部１０４および検証部１０５を備える。

クラスタリング処理部１０１は、複数の教師データに対して、偏りが認識できるようにクラスタリングを行なうことで、複数のクラスタ（データ群）を作成する。教師データは、予め図示しない記憶装置に格納されてもよく、本計算機システム１の外部から入力されてもよい。クラスタリング処理部１０１は、複数の教師データに対して階層型クラスタリングを行なう。

図４は実施形態の一例としての計算機システム１のクラスタリング処理部１０１によるクラスタリング手法を説明するための図である。この図４においては、階層型クラスタリングにおけるデンドログラム（樹形図）を例示している。

階層型クラスタリングにおいては、複数の入力データに対して、データ間の距離に応じて結合（グルーピング，マージ）することを繰り返し行なうことでクラスタリングを実現する。

本計算機システム１において、クラスタリング処理部１０１は、最遠隣法により、クラスタリングを実現する。なお、最遠隣法におけるデータ間の距離は、例えば、ユーグリッド距離を用いてもよく、適宜変更して実施することができる。

また、階層型クラスタリングにおいては、例えば、システム管理者等が、同一クラスタとするためのデータ間の距離を閾値として設定することができる。この閾値を設定することで、クラスタリング処理部１０１は、データ間の距離が閾値未満となるデータどうしを同一のクラスタとなるようにクラスタリングする。閾値は、クラスタのマージ停止条件に相当し、例えば、システム管理者等が任意に設定してもよい。図４においては、符号Ｄ０～Ｄ９で表されるデータに対して階層型クラスタリングを行なう例を示しており、閾値=５が設定されている。

隣接する入力データ間の距離が近いものから順に結合（グルーピング，マージ）することで、例えば、データＤ３，Ｄ４が一つのクラスタＣ１を形成している。同様に、データＤ８，Ｄ５，Ｄ７がクラスタＣ２を、データＤ２，Ｄ１，Ｄ６がクラスタＣ５をそれぞれ形成している。データＤ０，Ｄ９はいずれも他のデータからの距離が遠いものであるので、それぞれ単独で独立したクラスタＣ３，Ｃ４を形成する。

これらのクラスタＣ１～Ｃ５は、各クラスタ内におけるデータ間の距離が閾値（図４に示す例では５）未満であることが保証されており、データ空間内におけるデータの偏りを実現する。
クラスタリング処理部１０１は、このような階層型クラスタリング手法を用いて教師データに偏りが認識されるクラスタリングを実現する。

また、クラスタのマージ停止条件（閾値）は、教師データ取得時の偏りによるとみなせる入力データ間の距離とすることが望ましい。この閾値は、例えば、対象データに対するドメイン知識を持つ人がデータの素性に基づいて任意に設定してもよい。

データ作成部１０２は、モデル作成用データ（教師データ）およびモデル検証用データを作成する。モデル作成用データは、後述するモデル作成部１０３が機械学習のモデルを作成するために用いる教師データである。モデル検証用データは、後述する検証部１０５が作成されたモデルの検証を行なうために用いる教師データである。

以下、モデル学習用データを用いてモデル作成を行なう過程を学習フェーズ（第１フェーズ）という場合があり、モデル作成用データを用いてモデルの検証を行なう過程を検証フェーズ（第２フェーズ）という場合がある。図５は実施形態の一例としての計算機システム１のデータ作成部１０２による処理を説明するための図である。

データ作成部１０２は、クラスタリング処理部１０１により作成された複数のクラスタを、モデル作成用クラスタとモデル検証用クラスタとに分類する。なお、モデル作成用クラスタおよびモデル検証用クラスタの各数は、適宜変更して実施することができる。例えば、複数のクラスタをモデル作成用クラスタまたはモデル検証用クラスタへランダムに振り分けることで分類してもよく、適宜変更して分類を実施することができる。なお、複数のクラスタのモデル作成用クラスタまたはモデル検証用クラスタへの分類は、クラスタリング処理部１０１が行なってもよく、適宜変更して実施することができる。

本計算機システム１においては、異なるクラスタのデータを使用して機械学習と検証とを実行する。すなわち、複数のクラスタのうち第１のクラスタ（第１のグループ）のデータを用いて機械学習のモデルを作成し、第２のクラスタ（第２のグループ）のデータを用いてモデルの出力精度の検証を行なう。
モデル作成用クラスタは、機械学習によってモデルを生成するために用いられるデータによる第１のグループであってもよい。また、モデル検証用クラスタは、生成されたモデルの出力精度を検証するために用いられるデータによる第２のグループであってもよい。

データ作成部１０２は、複数のモデル作成用クラスタからデータを均等にサンプリング（抽出）して、モデル作成用データを作成する。複数のモデル作成用クラスタからデータを均等にサンプリングする理由は、複数のモデル作成用クラスタ間においてデータ数の偏りがある恐れがあるからである。データ作成部１０２は、複数のモデル作成用クラスタから異なるサンプリングを行なうことで、複数のモデル作成用データを作成する。

同様に、データ作成部１０２は、複数のモデル検証用クラスタからデータを均等にサンプリング（抽出）して、モデル検証用データを作成する。複数のモデル検証用クラスタからデータを均等にサンプリングする理由は、複数のモデル検証用クラスタ間においてもデータ数の偏りがあるおそれがあるからである。データ作成部１０２は、複数のモデル検証用クラスタから異なるサンプリングを行なうことで、複数のモデル検証用データを作成する。

複数のモデル作成用クラスタ，複数のモデル検証用クラスタ，複数のモデル作成用データおよび複数のモデル検証用データは、それぞれメモリ１１の所定の記憶領域に格納してもよく、また、図示しない記憶装置に格納してもよい。

モデル作成部１０３は、モデル作成用データ（教師データ）を用いた機械学習によってモデル（学習モデル）を作成する。モデルは、入力値を受け取り、何かしらの評価・判定をして出力値を出力する。モデルの出力を予測結果といってもよい。なお、モデルの作成は既知の手法を用いて実現することができ、モデル作成部１０３によるモデル作成手法の説明は省略する。また、モデル作成部１０３は、機械学習に複数のモデル検証用データを用いることで、これらのモデル作成用データに応じた複数のモデルを作成する。モデル検証用データは、クラスタリングで第３のグループに分類されたデータに相当する。図６は実施形態の一例としての計算機システム１のモデル作成部１０３による処理を説明するための図である。

図６に示す例においては、２つのモデル作成用データ＃１，＃２が示されている。モデル作成部１０３は、モデル作成用データ＃１を用いて教師あり学習（機械学習）を行なうことでモデル＃１を作成し、モデル作成用データ＃２を用いて教師あり学習（機械学習）を行なうことでモデル＃２を作成する。作成されたモデル＃１，＃２には、モデル作成用データやモデル検証用データが入力される。モデル作成用データ＃１は、第１のグループに分類されたデータのうちの第１のデータに相当する。モデル作成用データ＃２は、第１のグループに分類されたデータのうちの第２のデータに相当する。

予測処理部１０４は、モデル作成部１０３が作成した複数のモデルを用いて、予測対象データをこれらのモデルに入力した場合の出力の予測を行なう。予測処理部１０４は、予測対象データをモデル作成部１０３が作成した複数のモデルのそれぞれに入力し、各モデルの出力（予測結果）をアンサンブル（統合，集計）する。予測処理部１０４は、このアンサンブル結果を最終的な出力（予測結果）とする。予測処理部１０４は、複数のモデルの各出力を統合（アンサンブル）して一の出力を生成するアンサンブル処理部に相当する。
予測対象データには、第１フェーズにおいてはモデル作成用データが用いられ、第２フェーズにおいてはモデル検証用データが用いられる。すなわち、予測処理部１０４は、第１フェーズにおいては、モデル作成用データを複数のモデルのそれぞれに入力し、各モデルの出力をアンサンブルした結果を最終的な出力（予測結果）とする。

また、予測処理部１０４は、第２フェーズにおいては、モデル検証用データを複数のモデルのそれぞれに入力し、各モデルの出力をアンサンブルした結果を最終的な出力（予測結果）とする。
図７は実施形態の一例としての計算機システム１の予測処理部１０４による処理を説明するための図である。この図７に示す例においては、２つのモデル＃１，＃２に予測対象データ、すなわち、モデル作成用データもしくはモデル検証用データが入力されている。各モデル＃１，＃２からそれぞれ出力される予測結果がアンサンブルされ、予測結果（予測対象データの予測結果）が出力される。

この図７に示す例において、予測対象データが第２のグループに分類されたデータに含まれる第３のデータに相当する。予測処理部１０４は、予測対象データ（第３のデータ）のモデル＃１への入力に応じて当該モデル＃１が出力した第１の結果と、予測対象データ（第３のデータ）のモデル＃２への入力に応じて当該モデル＃２が出力した第２の結果とに基づいて、第１の出力精度を算出する。

なお、複数のモデル出力のアンサンブルは平均値の演算等の既知の手法を用いて実現することができ、予測処理部１０４によるモデル出力のアンサンブル手法の説明は省略する。

検証部１０５は、データ作成部１０２によって作成されたモデル検証用データを用いて、モデル作成部１０３が作成したモデルの検証を行なう。図８は実施形態の一例としての計算機システム１の検証部１０５による処理を説明するための図である。検証部１０５は、データ作成部１０２によって作成されたモデル検証用データを用いて、モデル作成部１０３が作成したモデルの検証を行なう。

検証部１０５は、データ作成部１０２によって作成された複数のモデル検証用データを、モデル作成部１０３によって作成された複数のモデルのそれぞれに入力させる。検証部１０５は、例えば、予測処理部１０４の機能を用いて、モデル検証用データ（予測対象データ）をモデル作成部１０３が作成した複数のモデルのそれぞれに入力し、各モデルの出力（予測結果）をアンサンブル（集計）する。予測処理部１０４は、このアンサンブル結果を最終的な出力（予測結果）とする。

図８に示す例においては、モデル検証用データ＃１がモデル＃１，＃２にそれぞれ入力され、各モデル＃１，＃２からそれぞれ出力される予測結果がアンサンブルされ、予測結果（モデル検証用データの予測結果）＃１が出力されている。また、モデル検証用データ＃２がモデル＃１，＃２にそれぞれ入力され、各モデル＃１，＃２からそれぞれ出力される予測結果がアンサンブルされ、予測結果（モデル検証用データの予測結果）＃２が出力されている。

検証部１０５は、予測結果＃１を、モデル検証用データ＃１の出力データと比較することで正答率（精度）を算出する。また、検証部１０５は、予測結果＃２を、モデル検証用データ＃２の出力データと比較することで正答率（精度）を算出する。検証部１０５は、これらの精度（正答率）の平均を算出することで、モデル検証用クラスタの精度を決定する。

すなわち、検証部１０５は、各モデル検証用データに対する予測精度の平均を算出して、モデル検証用クラスタについての最終的（全体的）な予測精度を取得する。

例えば、検証部１０５は、モデル検証用データに基づいて出力された予測結果の精度と、モデル作成用データに基づいて出力された予測結果の精度との差が許容閾値内であるかを判断してもよい。すなわち、検証部１０５は、モデル検証用データに基づいて出力された予測結果の精度と、モデル作成用データに基づいて出力された予測結果の精度とが同レベルの精度であるかを判断してもよい。また、検証部１０５は、モデル検証用データに基づいて出力された予測結果の精度が所定の閾値以上であるかを判断してもよい。

図８に示す例において、モデル検証用データ＃１は、第２のグループに分類されたデータに含まれる第３のデータに相当する。モデル検証用データ＃２は、第２のグループに分類されたデータに含まれる第４のデータに相当する。

検証部１０５は、モデル検証用データ（第３のデータ）＃１のモデル＃１への入力に応じて当該モデル＃１が出力した第１の結果と、モデル検証用データ（第３のデータ）＃１のモデル＃２への入力に応じて当該モデル＃２が出力した第２の結果とに基づいて予測結果＃１（第１の出力精度）を算出する。

また、検証部１０５は、モデル検証用データ（第４のデータ）＃２のモデル＃１への入力に応じて当該モデル＃１が出力した第３の結果と、モデル検証用データ（第４のデータ）＃２のモデル＃２への入力に応じて当該モデル＃２が出力した第４の結果とに基づいて予測結果＃２（第２の出力精度）を算出する。検証部１０５は、これらの予測結果＃１（第１の出力精度）と予測結果＃２（第２の出力精度）とに基づいて予測精度の検証を行なう。

上述の如く構成された実施形態の一例としての計算機システム１における処理を、図９に示すフローチャート（ステップＳ１～Ｓ４）に従って説明する。

ステップＳ１において、クラスタリング処理部１０１が、予め用意された教師データに対して階層型クラスタリングを行なうことで、偏りが認識できる複数のクラスタを作成する。データ作成部１０２は、クラスタリング処理部１０１が作成した複数のクラスタを、モデル作成用クラスタとモデル検証用クラスタとに分ける。

そして、データ作成部１０２は、複数のモデル作成用クラスタからデータを均等にサンプリングしてモデル作成用データを作成する。この際、データ作成部１０２は、複数のモデル作成用クラスタから異なるサンプリングを複数行なうことで、複数のモデル作成用データを作成する。

また、データ作成部１０２は、複数のモデル検証用クラスタからデータを均等にサンプリングしてモデル検証用データを作成する。この際、データ作成部１０２は、複数のモデル検証用クラスタから異なるサンプリングを複数行なうことで、複数のモデル検証用データを作成する。
ステップＳ２において、モデル作成部１０３は、機械学習にモデル作成用データ（教師データ）を用いてモデルを作成する。

ステップＳ３において、予測処理部１０４は、モデル作成部１０３が作成した複数のモデルを用いて、予測対象データをこれらのモデルに入力した場合の出力の予測を行なう。

ステップＳ４において、検証部１０５は、データ作成部１０２によって作成されたモデル検証用データを用いて、モデル作成部１０３が作成したモデルの検証を行なう。

このように、実施形態の一例としての計算機システム１によれば、クラスタリング処理部１０１が作成した一のクラスタを、データ作成部１０２がモデル作成用データもしくはモデル検証用データのいずれかに割り当てる。これにより、入力データ空間全体で見たときに例外的なクラスタが存在していても、同一クラスタ内のデータはモデル作成データとモデル検証用データとのいずれか一方にしか含まれない。そのため、モデル作成データの予測精度とモデル検証用データの予測精度とが同時に高くなることはない。このように、同一クラスタ内のデータがモデル作成データとモデル検証用データとに分かれることがないため、過学習を回避することができる。

図１０は実施形態の一例としての計算機システム１の学習処理部１００により行なわれる二値分類を説明するための図であり、入力データ空間に配置された教師データを例示する。この図１０においては、多数の微小点が配置された入力データ空間を例示している。微小点のそれぞれは教師データを表しており、それぞれ入力データに応じた位置にプロットされている。

また、この入力データ空間においては、破線の丸で囲まれた教師データの集合はモデル作成用クラスタを示し、実線の丸で囲まれた教師データの集合はモデル検証用クラスタを示す。

また、この図１０においては、各クラスタに符号ａまたは符号ｂが付されている。これらの符号ａまたは符号ｂは教師データの出力を表しており、符号ａが付されたクラスタを構成する教師データの出力はそれぞれａであり、符号ｂが付されたクラスタを構成する教師データの出力はそれぞれｂである。すなわち、図１０に示す例においては、ａまたはｂを予測する二値分類を表している。

この図１０に示す例において、モデル作成用クラスタからサンプリングしたデータで高精度なモデルを作成すると、符号αを付した太破線を境界として予測するモデルとなる。

図１１は図１０におけるモデル作成用クラスタを抽出して示す図である。この図１１に示すように、モデル作成用クラスタに関しては、符号αを付した太破線の左側には全ての出力ｂが配置され、その右側には全ての出力ａが配置されている。すなわち、モデル作成用クラスタからサンプリングしたデータに対する予測精度が高いことがわかる。

図１２は図１０におけるモデル検証用クラスタを抽出して示す図である。この図１２に示すように、モデル検証用クラスタに関しては、符号αを付した太破線の左側には出力ｂとともに出力ａも配置されており、図１１に示したモデル作成用クラスタからサンプリングしたデータに比べて予測精度が低いことがわかる。すなわち、過学習していると判断できる。図１０に示す例においては、符号βを付した一点鎖線を境界として予測するモデルが過学習のない好適なモデルとなる。

クラスタリング処理部１０１が階層型クラスタリングを行なうことで、複数の教師データに対して偏りが認識できるようにクラスタリングを行なうことができる。

モデル作成部１０３が、機械学習に、モデル作成用クラスタに備えられる複数のクラスタデータ群のそれぞれから抽出（サンプリング）して生成したデータ（モデル作成用データ）を用いる。複数のクラスタから均等にサンプリングすることで取得したモデル作成用データを用いることで、モデルの出力精度を向上させることができる。

検証部１０５が、複数のモデル検証用データをそれぞれモデルに適用することで、複数のクラスタの各データを検証に反映させることができ、検出精度を向上させることができる。

開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

例えば、上述した実施形態においては、第１フェーズにおいて、データ作成部１０２が複数のモデル作成用データを作成し、モデル作成部１０３がこれらの複数のモデル作成用データを用いて複数のモデルを作成しているが、これに限定されるものではない。モデル作成部１０３は、全てのモデル作成用クラスタのデータを用いて一つのモデルを作成してもよい。

なおこの場合、第２フェーズにおいては、上述した実施形態と同様に、複数のモデル検証用データを作成し、これらの複数のモデル検証用データをモデルにそれぞれ適用することが望ましい。そして、予測処理部１０４は、これらの複数の入力データに基づいて出力された複数の予測結果を用いて精度を求めることが望ましい。

検証を行なう際に、複数のクラスタのデータを一つにまとめた場合には、データ数が多いクラスタの精度が優先されてしまい検出精度が低下するおそれがある。そこで、複数のモデル検証用データをそれぞれモデルに適用することで、複数のクラスタの各データを検証に反映させることができ、検出精度を向上させることができる。

上述した実施形態においては、機械学習をニューラルネットワークに適用した例を示しているが、これに限定されるものではなく、種々変形して実施することができる。また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。

１計算機システム
１０ＣＰＵ
１１メモリ
１２アクセラレータ
１３通信バス
１００学習処理部
１０１クラスタリング処理部
１０２データ作成部
１０３モデル作成部
１０４予測処理部
１０５検証部

Claims

複数のデータをクラスタリングすることで生成された複数のクラスタ単位で、前記複数のデータをモデル作成用データまたはモデル検証用データに分類し、
前記モデル作成用データを用いた機械学習によってモデルを生成し、
前記モデル検証用データを用いて、生成された前記モデルの出力精度を検証する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
前記クラスタリングは、階層型クラスタリングである、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記モデル作成用データに分類された前記クラスタは複数あり、
前記モデル検証用データに分類された前記クラスタは複数ある、
ことを特徴とする請求項１または２に記載の機械学習プログラム。
前記モデルは、前記モデル作成用データのうち第１のデータを用いた機械学習により生成され、
前記モデル作成用データのうち第２のデータを用いた機械学習により他のモデルを生成する、
処理を前記コンピュータに実行させることを特徴とする請求項１乃至３のいずれか１項に記載の機械学習プログラム。
前記検証する処理は、前記モデル検証用データに含まれる第３のデータの前記モデルへの入力に応じて前記モデルが出力した第１の結果と、前記第３のデータの前記他のモデルへの入力に応じて前記他のモデルが出力した第２の結果とに基づいて、第１の出力精度を算出する処理を含む、
ことを特徴とする請求項４に記載の機械学習プログラム。
前記検証する処理は、前記モデル検証用データに含まれる第４のデータの前記モデルへの入力に応じて前記モデルが出力した第３の結果と、前記第４のデータの前記他のモデルへの入力に応じて前記他のモデルが出力した第４の結果とに基づいて算出された第２の出力精度と、前記第１の出力精度とに基づいて実行される、
ことを特徴とする請求項５項に記載の機械学習プログラム。
複数のデータをクラスタリングすることで生成された複数のクラスタ単位で、前記複数のデータをモデル作成用データまたはモデル検証用データに分類する処理と、
前記モデル作成用データを用いた機械学習によってモデルを生成する処理と、
前記モデル検証用データを用いて、生成された前記モデルの出力精度を検証する処理と、
を行なうことを特徴とする機械学習方法。
複数のデータをクラスタリングすることで生成された複数のクラスタ単位で、前記複数のデータをモデル作成用データまたはモデル検証用データに分類し、
前記モデル作成用データを用いた機械学習によってモデルを生成し、
前記モデル検証用データを用いて、生成された前記モデルの出力精度を検証する、
処理部を有することを特徴とする機械学習装置。