JP7026922B1

JP7026922B1 - 情報処理装置、方法、プログラム及びシステム

Info

Publication number: JP7026922B1
Application number: JP2021574916A
Authority: JP
Inventors: 志門菅原; 純一出澤
Original assignee: AISing Ltd
Current assignee: AISing Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2022-03-01
Anticipated expiration: 2041-09-22
Also published as: JP2023046206A; WO2023047484A1; EP4407525A1; JPWO2023047484A1

Abstract

第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた木構造学習済モデルを読み出す、読出部と、前記木構造学習済モデルに対して、第２のデータセットを入力して、前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定部と、前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を生成する、比率情報生成部と、を備えた、情報処理装置が提供される。【選択図】図５

Description

この発明は、機械学習等に用いられるデータセットの評価技術に関する。

複数のデータセット間において、互いのデータ分布領域を一致させ又は同程度とすることが望ましい場合がある。

例えば、機械学習を行う場合、学習済モデルを生成するための学習用データセットと、学習済モデルの検証を行うための検証用データセットが使用される。このとき、学習用データセットと検証用データセットとは、互いにそのデータ分布領域が可能な限り一致していることが望ましい。

これは、学習用データセットのデータ分布領域の全体を検証用データセットの分布領域がカバーしていなければ、学習されたデータ領域を評価用データセットにより正しく評価することができないおそれがあるためである

また、それとは逆に、検証用データセットのデータ分布領域の全体を学習用データセットの分布領域がカバーしていなければ、未学習領域を検証することとなり、やはり適切な評価を行うことができないおそれがあるためである。

従前、この種のデータセット間の一致性を検証する手法として、特許文献１に例示される交差検証手法が知られていた。この種の交差検証手法においては、学習済モデルの出力に係るＲＭＳＥ（平均二乗誤差平方根）の一致度合いから、データ分布領域の一致性が間接的に評価されていた。

CHRISTOPHER M. BISHOP著、「PATTERN RECOGNITION and MACHINE LEARNING」Springer Science+Business Media, LLC出版、2006年、p.32-33

しかしながら、ＲＭＳＥ等を用いた評価では、各データセット間のデータ分布領域の一致性に関する直接的な評価を行うことが出来なかった。

本発明は、上述の技術的背景の下になされたものであり、その目的とするところは、複数のデータセット間での分布領域の一致性を直接的に評価することにある。

本発明のさらに他の目的並びに作用効果については、明細書の以下の記述を参照することにより、当業者であれば容易に理解されるであろう。

上述の技術的課題は、以下の構成を有する情報処理装置等により解決することができる。

すなわち、本発明に係る情報処理装置は、第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた木構造学習済モデルを読み出す、読出部と、前記木構造学習済モデルに対して、第２のデータセットを入力して、前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定部と、前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を生成する、比率情報生成部と、を備えている。

このような構成によれば、第１のデータセットにより生成された木構造学習済モデルの全葉ノードに対する第１の葉ノード又は第２の葉ノードの比率を介して、第１のデータセットの分布領域に対する第２のデータセットの分布領域の一致性を評価することができる。すなわち、このような構成によれば、各データセット間での分布領域の一致性を直接的に評価することができる。

前記木構造学習済モデルの葉ノードのうち前記第２の葉ノードに対応する分岐条件を出力する、条件出力部を、さらに、備えてもよい。

このような構成によれば、どのようなデータを追加することで、第２のデータセットのデータ分布領域と、第１のデータセットのデータ分布領域を近付けることが出来るかを、容易に把握することができる。

前記第２の葉ノードに対応する分岐条件を満たすデータセットを所定のデータベースから検索する、データ検索部を、さらに、備えてもよい。

このような構成によれば、第１のデータセットと第２のデータセットのデータ分布領域が近付くよう第２のデータセットを改善することができる。

前記分岐条件は、前記木構造学習済モデルの根ノードから前記第２の葉ノードへと至る一連の分岐条件であってもよい。

このような構成によれば、追加すべきデータの条件を客観的に特定することができる。

前記木構造学習済モデルの葉ノードのそれぞれについて、前記第２のデータセットが対応付けられた回数を記憶する、回数記憶部を、さらに、備える、ものであってもよい。

このような構成によれば、葉ノード毎に記憶された回数から、第１のデータセットの分布領域に対する第２のデータセットのデータ分布領域の十分性が評価できると共に、検証が足りない分岐条件を特定することができるので、容易に第２のデータセットを改善することができる。

前記第１の葉ノードのうち、前記回数が所定回数以下の葉ノードに対応する分岐条件を出力する、第２条件出力部を、さらに、備える、ものであってもよい。

このような構成によれば、第２のデータセットが分布していない領域に係る分岐条件を特定することができるので、容易に第２のデータセットを改善することができる。

前記木構造学習済モデルの葉ノードのそれぞれについて、前記葉ノードに基づく出力と正解値との推論誤差を生成する、誤差生成部を、さらに、備える、ものであってもよい。

このような構成によれば、推論誤差から、木構造学習済モデルの葉ノード単位での推論精度を評価することができる。

前記第１のデータセットは、学習用データセットであり、前記第２のデータセットは評価用データセットであってもよい。

このような構成によれば、学習用データセットに対する評価用データセットの分布領域の一致性を評価することができる。

前記第１のデータセットは、評価用データセットであり、前記第２のデータセットは学習用データセットであってもよい。

このような構成によれば、評価用データセットに対する学習用データセットの分布領域の一致性を評価することができる。

前記第１のデータセットと前記第２のデータセットは、同一のデータセットに由来する、ものであってもよい。

このような構成によれば、同一のデータセットに由来する２つのデータセット間の分布領域の一致性を評価することができる。

別の側面から見た本発明は、情報処理システムであって、第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた木構造学習済モデルを読み出す、読出部と、前記木構造学習済モデルに対して、第２のデータセットを入力して、前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定部と、前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を生成する、比率情報生成部と、を備えている。

別の側面から見た本発明は、情報処理方法であって、第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた木構造学習済モデルを読み出す、読出ステップと、前記木構造学習済モデルに対して、第２のデータセットを入力して、前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定ステップと、前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を生成する、比率情報生成ステップと、を備えている。

別の側面から見た本発明は、情報処理プログラムであって、第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた木構造学習済モデルを読み出す、読出ステップと、前記木構造学習済モデルに対して、第２のデータセットを入力して、前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定ステップと、前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を生成する、比率情報生成ステップと、を備えている。

別の側面から見た本発明は、情報処理装置であって、第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた複数の木構造学習済モデルを読み出す、読出部と、各前記木構造学習済モデルに対して、第２のデータセットを入力して、各前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定部と、各前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を、各木構造学習済モデルについて生成する、比率情報生成部と、を備えている。

前記複数の木構造学習済モデルは、アンサンブル学習により得られる、ものであってもよい。

前記アンサンブル学習は、バギング学習又はブースティング学習を含む、ものであってもよい。

前記バギング学習は、ランダムフォレストを含む、ものであってもよい。

別の側面から見た本発明は、情報処理システムであって、第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた複数の木構造学習済モデルを読み出す、読出部と、各前記木構造学習済モデルに対して、第２のデータセットを入力して、各前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定部と、各前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を、各木構造学習済モデルについて生成する、比率情報生成部と、を備えている。

別の側面から見た本発明は、情報処理方法であって、第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた複数の木構造学習済モデルを読み出す、読出ステップと、各前記木構造学習済モデルに対して、第２のデータセットを入力して、各前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定ステップと、各前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を、各木構造学習済モデルについて生成する、比率情報生成ステップと、を備えている。

別の側面から見た本発明は、情報処理プログラムであって、第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた複数の木構造学習済モデルを読み出す、読出ステップと、各前記木構造学習済モデルに対して、第２のデータセットを入力して、各前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定ステップと、各前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を、各木構造学習済モデルについて生成する、比率情報生成ステップと、を備えている。

本発明によれば、複数のデータセット間での分布領域の一致性を直接的に評価することができる。

図１は、情報処理装置の機能ブロック図である。図２は、機械学習処理に関する動作フローチャートである。図３は、評価処理に関するゼネラルフローチャートである。図４は、条件特定処理の詳細フローチャートである。図５は、評価処理の概念図である。図６は、機械学習処理に関する動作フローチャートである（第３の実施形態）。図７は、評価処理に関するゼネラルフローチャートである（第３の実施形態）。図８は、評価処理に関するゼネラルフローチャートである（変形例）。図９は、カウントと誤差を出力する変形例に係る概念図である。

以下、本発明の実施の一形態を、添付の図面を参照しつつ、詳細に説明する。

（１．第１の実施形態）
図１～図５を参照しつ、第１の実施形態について説明する。第１の実施形態においては、本発明を情報処理装置へと適用した例について説明する。ここで、情報処理装置は、後述の通り、ＣＰＵ等を含む演算ユニットとメモリを備えたコンピュータであり、例えば、ＰＣ、マイコン等が含まれる。なお、情報処理装置に相当する機能をＦＰＧＡ等のＩＣにより回路的に実現してもよい。

（１．１構成）
図１は、本実施形態に係る情報処理装置１の機能ブロック図である。同図から明らかな通り、情報処理装置１は、記憶部１１、データ読出部１２、機械学習処理部１３、記憶処理部１５、データ評価部１６及びデータ出力部１７を備えている。

記憶部１１は、ＲＯＭ／ＲＡＭ、フラッシュメモリ、ハードディスク等の記憶装置である。データ読出部１２は、記憶部１１から所定のデータを読み出して、機械学習処理部１３又はデータ評価部１６へと提供する。

機械学習処理部１３は、所定のデータに基づいて、所定の学習モデルを用いた機械学習処理を行い学習済モデルを生成する。本実施形態においては、機械学習処理は、決定木アルゴリズムである。生成された木構造学習済モデルは、記憶処理部１５を介して記憶部１１へと記憶され、又は、データ出力部１７へと出力される。

記憶処理部１５は、機械学習処理部１３又はデータ評価部１６において生成されるデータを記憶部１１へと記憶する処理を行う。

データ評価部１６は、記憶部１１から学習済モデル及び評価用データセットを読み出して、評価用データセットの評価処理を行い、評価結果を記憶処理部１５又はデータ出力部１７へと提供する。

データ出力部１７は、提供されたデータを出力する処理を行う。本実施形態においては、出力は、図示しないディスプレイ等の表示部への視覚的な出力であるが、他の出力態様であってもよい。例えば、図示しないスピーカ等を通じた聴覚的な出力であってもよい。

なお、情報処理装置１は、ハードウェアとして、ＣＰＵやＧＰＵ等の制御部、ＲＯＭ、ＲＡＭ、ハードディスク及び／又はフラッシュメモリ等から成る記憶部、通信ユニット等から成る通信部、入力部、ディスプレイ等と接続された表示制御部、Ｉ／Ｏ部等を備えている。上記の各機能、すなわち、データ読出部１２、機械学習処理部１３、記憶処理部１５、データ評価部１６及びデータ出力部１７は、制御部においてプログラムを実行することにより実現される。

また、本発明に係るハードウェア構成は、本実施形態に示したものに限定されない。従って、単一の装置ではなく複数の装置から成るシステムとして構成してもよい。また、装置や機能間をネットワークを介して結合してもよい。

（１．２動作）
次に、情報処理装置１の動作について説明する。情報処理装置１の動作は、学習済モデルの生成のための機械学習処理と、生成された学習済モデルを利用した評価用データセットの評価処理を含む。

（機械学習処理）
図２は、機械学習処理に関する動作フローチャートである。同図から明らかな通り、処理が開始すると、データ読出部１２は、記憶部１１から所定のデータセットを読み出す。機械学習処理部１３は、この読み出されたデータセットから重複を許して無作為に所定数のデータを取り出すことにより、学習用データセット（トレーニングセットと呼んでもよい）と評価用データセット（バリデーションセット又はテストセットと呼んでもよい）をそれぞれ生成する（Ｓ１１）。生成された学習用データセットと評価用データセットは、それぞれ、記憶処理部１５により記憶部１１へと記憶される。

なお、本実施形態においては一のデータセットから学習用データセットと評価用データセットを生成することとしたが、そのような構成に限定されない。従って、例えば、異なるデータセットから学習用データセットと評価用データセットをそれぞれ生成してもよい。

また、本実施形態において、データセットとは、各変数データを１つずつ含む単位データの集合から成るデータベーステーブルを意味する。各単位データには、少なくとも、入力に用いられる１又は複数種類の変数データが含まれる。なお、この他に、正解出力に相当する１又は複数種類の変数データ等を含んでもよい。

次に、機械学習処理部１３は、生成された学習用データセットと各種のパラメータを記憶部１１から読み出す処理を行う（Ｓ１２）。パラメータは、例えば、最大深さ等の木構造モデルの構造に関するパラメータを含むものである。読み出された学習用データセットは、基端となる根ノードへと紐付けられる（Ｓ１３）。

学習用データセットを根ノードに紐付けた後、機械学習処理部１３は、根ノードを参照ノードとする処理を行う（Ｓ１５）。その後、参照ノードが分岐終了条件を満たすか否かを判定する（Ｓ１６）。なお、本実施形態においては、分岐終了条件は、参照ノードが木構造の最大深さノード、すなわち、葉ノードとなることである。

参照ノードが分岐終了条件を満たさない場合（Ｓ１６ＮＯ）、機械学習処理部１３は、参照ノードについて分割基準決定処理を行う（Ｓ１８）。分割基準決定処理は、公知のいずれの手法も採用可能であるが、本実施形態においては、任意に選択された複数の分割基準候補に基づいて分割を行い、分割結果が良好な分割基準候補を最終的な分割基準とする処理である。なお、分割結果の良否は、例えば、情報利得の大きさにより評価してもよい。

分割基準の決定処理後、機械学習処理部１３は、当該分割基準を適用して、参照ノードに紐づけられているデータセットを参照ノードの左右の子ノードへと分割しそれぞれ子ノードへと紐づける処理を行う（Ｓ１９）。

分割処理の後、機械学習処理部１３は、参照ノードをその子ノードへと変更する処理を行う（Ｓ２１）。その後、再び分岐終了条件の判定処理（Ｓ１６）へと戻り、以後、この処理は、分岐終了条件を満たすまで繰り返される（Ｓ１６ＮＯ）。

一方、参照ノードについて分岐終了条件を満たす場合（Ｓ１６ＹＥＳ）、機械学習処理部１３は、得られた木構造の学習済モデルを、記憶処理部１５と協働して、記憶部１１へと記憶させる処理を行う（Ｓ２２）。その後、機械学習処理は終了する。

すなわち、本実施形態においては、以上の処理により、学習用データセットに基づいて決定木アルゴリズムに基づく木構造の学習済モデルが生成される。

（評価処理）
次に、学習用データセットに基づいて生成された学習済モデルを用いた評価用データセットの評価処理について説明する。

図３は、評価処理に関するゼネラルフローチャートである。同図から明らかな通り、処理が開始すると、データ読出部１２は、木構造の学習済モデルを記憶部１１から読み出してデータ評価部１６へと提供する処理を行う（Ｓ３１）。また、データ読出部は、評価用データセットを読み出してデータ評価部１６へと提供する処理を行う（Ｓ３２）。

データ読出処理後、データ評価部１６は、変数iと、葉ノードにそれぞれ対応付けられたフラグを初期化する処理を行う（Ｓ３３）。具体的には、変数iを０とし、flagを偽(False)
とする処理を行う。

初期化処理後、データセットのうちi番目のデータを用いて、木構造の学習済モデルにおける推論処理を行う（Ｓ３５）。より具体的には、i番目のレコードのうちの入力に相当する１又は複数の変数を用いて、木構造の学習済モデルを根ノードから順に辿り、末端にある葉ノードを特定し、葉ノードに対応する出力を算出する処理を行う。なお、本実施形態においては、葉ノードに対応する出力を算出する処理を行うものとしたものの、本発明はこのような構成に限定されず、単に葉ノードを特定するのみであってもよい。

また、推論の語は、学習済モデルにおいて出力を生成することを意味し、例えば、予測、推定等といった言葉と置換してもよい。

推論処理の後、データ評価部１６は、到達した葉ノードに対応付けられたフラグを「真（True）」へと変更する処理を行う（Ｓ３６）。

データ評価部１６は、変数ｉを１だけ増加させるインクリメント処理を行いつつ（Ｓ３９）、変数ｉが所定の最大値（ｉ_max）となるまで（Ｓ３７ＮＯ）、学習済モデルによる推論処理（Ｓ３５）とフラグ処理（Ｓ３６）を繰り返す。

変数ｉが最大値（ｉ_max）と等しくなった場合（Ｓ３７）、データ評価部１６は、比率情報（ｒ）の生成処理を行う。比率情報とは、本実施形態においては、フラグが真となった葉ノードの個数を、全葉ノードの個数で除した値又はその値に１００を乗じた値（パーセント表示）である（Ｓ４０）。

比率情報の生成処理の後、データ評価部１６は、比率情報が１又は１００％と等しいか否かを判定する（Ｓ４１）。比率情報が１又はパーセント表示で１００％と等しい場合、データ評価部１７は、データ出力部１７に対して、１又は１００％である比率情報を出力する処理を行う（Ｓ４５）。

この場合、データ出力部１７は、図示しない表示部等に比率情報が１又は１００％であること、すなわち、評価用データセットを用いることで木構造学習済モデルのすべての葉ノードが使用されたことを表示する。

一方、比率情報が１又は１００％に満たない場合（Ｓ４１ＮＯ）、データ評価部１６は、条件特定処理（Ｓ４２）を行う。

図４は、条件特定処理（Ｓ４２）の詳細フローチャートである。同図から明らかな通り、処理が開始すると、データ評価部１６は、葉ノードを順に参照するための変数ｊの初期化処理を行う（Ｓ４２１）。具体的には、本実施形態においては、変数ｊを０とする処理を行う。

その後、データ評価部１６は、ｊ番目の葉ノードのフラグが真となっているかを判定する処理を行う（４２２Ｓ）。ｊ番目の葉ノードのフラグが真でない、すなわち偽である場合（Ｓ４２２ＮＯ）、当該葉ノードから根ノードへと至る経路に係る分岐条件を記憶する処理を行う（Ｓ４２３）。この記憶処理の後、変数ｊが最大値ｊ_maxと等しいかを判定する処理が行われる（Ｓ４２５）。

一方、ｊ番目の葉ノードのフラグが真である場合（Ｓ４２２ＹＥＳ）、データ評価部１６は、記憶処理（Ｓ４２３）を経ずに、変数ｊが最大値ｊ_maxと等しいかを判定する処理を行う（Ｓ４２５）。

変数ｊが最大値ｊ_maxと等しい場合（Ｓ４２５ＹＥＳ）、条件特定処理は終了する。一方、変数ｊが最大値ｊ_maxより小さい場合、変数ｊを１だけインクリメントする処理が行われ（Ｓ４２６）、再び、一連の処理（S４２２～S４２５）が実行される。

図５は、評価処理の概念図である。同図においては、最上段の根ノードから最下段の葉ノードまで各ノードが２つに分岐して配置されている。また、同図の例にあっては、評価用データセットを用いて木構造学習済モデルにおいて推論処理を行った結果、最下段の左から２番目の葉ノードから右のすべての葉ノード、すなわち、破線の四角で囲まれた葉ノードにおいてフラグが真となっているものとする（Ｓ３１～Ｓ４１）。すなわち、比率情報（ｒ）は、０．８７５又は８７．５％（＝７÷８×１００）である。

このとき、条件特定処理（Ｓ４２）が実行されると、同図最下段１番左の葉ノードに関するフラグのみが真ではないので、当該葉ノードから根ノードへと至る経路に係る分岐条件の記憶処理が実行される（Ｓ４２１～Ｓ４２６）。具体的には、同図の例にあっては、「ｘ_２＜ｔ_ｃ（＜ｔ_ｂ）」及び「ｘ_１＜ｔ_ａ」を分岐条件として記憶する処理を行う。

図３に戻り、条件特定処理（Ｓ４２）が終了すると、データ評価部１６は、データ検索処理を実行する（Ｓ４３）。本実施形態においては、データ評価部１６は、条件特定処理により記憶された分岐条件に合致するデータを前述の所定のデータセットから検索する処理を行う。

その後、データ評価部１６は、比率情報と、フラグが偽となる葉ノードから根ノードへと至る経路に係る分岐条件、及び、データセットにおいて検索された追加データの候補を、データ出力部１７に対して出力する処理を実行する（Ｓ４５）。

この場合、データ出力部１７は、図示しない表示部等に比率情報、フラグが偽となる葉ノードから根ノードへと至る経路に係る分岐条件、及び、追加データの候補を表示する。例えば、図５の例であれば、比率情報として８７．５％、分岐条件として「ｘ_２＜ｔ_ｃ（＜ｔ_ｂ）」及び「ｘ_１＜ｔ_ａ」、及び、左記条件を満たす追加候補データが表示される。すなわち、評価用データセットを用いても木構造学習済モデルの一部の葉ノードが使用されなかったこと、不足するデータ条件、及び、追加データ候補が表示される。

なお、表示態様はこのような態様に限定されない。従って、例えば、文字だけでなく、図やグラフ等と共に表示してもよい。

また、本実施形態においては、検索されたデータを追加データ候補としてデータ出力する構成としたが、本発明はそのような構成に限定されない。従って、追加データ候補をそのまま評価用データセットに対して追加してもよい。

このような構成によれば、学習用データセットにより生成された木構造学習済モデルの全葉ノードに対する評価用データセットに対応する葉ノードの比率を介して、学習用データセットの分布領域に対する評価用データセットの分布領域の一致性を評価することができる。すなわち、このような構成によれば、各データセット間での分布領域の一致性を直接的に評価することができる。

また、このような構成によれば、どのようなデータを追加することで、評価用データセットのデータ分布領域と、学習用データセットのデータ分布領域を近付けることが出来るかを、容易に把握することができる。

さらに、このような構成によれば、データ検索を行って提示等行われるので、学習用データセットと評価用データセットのデータ分布領域が近付くよう評価用データセットを改善することができる。

（２．第２の実施形態）
第１の実施形態においては、学習用データセットに基づいて生成された学習済モデルを用いて、評価用データセットの評価処理を行った。本実施形態においては、評価用データセットに基づいて生成された学習済モデルを用いて、学習用データセットの評価処理を行う。

（２．１構成）
本実施形態に係るハードウェア構成は第１の実施形態と略同一であるので詳細な説明は省略する。

（２．２動作）
本実施形態に係る動作は、第一の実施形態において学習用データセットを用いた場面で評価用データセットを用い、評価用データセットを用いた場面で学習用データセットを用いる点において相違するのみである。すなわち、評価用データセットに基づいて生成された学習済モデルを用いて、学習用データセットの評価処理を行うものである。そのため、詳細な説明は省略する。

このような構成によれば、評価用データセットにより生成された木構造学習済モデルの全葉ノードに対する学習用データセットに対応する葉ノードの比率を介して、評価用データセットの分布領域に対する学習用データセットの分布領域の一致性を評価することができる。すなわち、このような構成によれば、各データセット間での分布領域の一致性を直接的に評価することができる。

また、このような構成によれば、どのようなデータを追加することで、学習用データセットのデータ分布領域と、評価用データセットのデータ分布領域を近付けることが出来るかを、容易に把握することができる。

さらに、このような構成によれば、データ検索を行って提示等行われるので、評価用データセットと学習用データセットのデータ分布領域が近付くよう学習用データセットを改善することができる。

（３．第３の実施形態）
本発明は、複数の木構造学習済モデルを得るアンサンブル学習アルゴリズムにより得られた各学習済モデルに対しても適用することができる。従って、本実施形態においては、本発明をバギング学習、例として、ランダムフォレストアルゴリズムにより得られる学習済モデルに対して適用した例について説明する。なお、アンサンブル学習には、複数の木構造モデルを含む、バギング学習とブースティング学習が含まれる。

（３．１構成）
本実施形態に係るハードウェア構成と第１の実施形態に係るハードウェア構成とは略同一であるため、詳細な説明は省略する。

ただし、本実施形態において、機械学習処理部１３は、後述の通り、複数の決定木を生成するランダムフォレストアルゴリズムにより機械学習処理を行う。また、データ評価部１６は、後述の通り、ランダムフォレストを構成する複数の決定木を評価するための評価用データセットを評価する処理を行う。

（３．２動作）

本実施形態においても、第１の実施形態と同様、情報処理装置１の動作は、学習済モデルの生成のための機械学習処理と、生成された学習済モデルを利用した評価用データセットの評価処理を含む。

（機械学習処理）

図６は、本実施形態に係る機械学習処理に関する動作フローチャートである。同図から明らかな通り、機械学習処理のおよその流れは第１の実施形態と略同一である。しかしながら、本実施形態は、以下の点において第１の実施形態と相違する。

すなわち、本実施形態においては、学習用データセットと評価用データセットの生成処理の後（Ｓ５１）、学習用データセットからサブデータセット群を生成する処理が行われる（Ｓ５２）。このサブデータセット群は、学習用データセットから重複を許して所定個数のデータを選択、抽出することにより構成される。

その後、機械学習処理部１３は、ｋ番目のサブデータセットと各種のパラメータを読み出す（Ｓ５５）。その後、機械学習処理部１３は、第１の実施形態と同様に（Ｓ１３～Ｓ２２）、ｋ番目のサブデータセットに基づいて、学習済モデルを生成、記憶する処理を行う（Ｓ５６～Ｓ６３）。

機械学習処理部１３は、このような学習済モデルの生成、記憶処理を、サブデータセットの個数分だけ（Ｓ６４ＮＯ）、変数ｋを１ずつインクリメントしつつ（Ｓ６５）、繰り返し行う。また、サブデータセットの個数分だけ学習済モデルの生成、記憶処理を行ったものと判定された場合（Ｓ６４ＹＥＳ）、機械学習処理は終了する。

すなわち、このような構成によれば、学習用データセットから生成された所定個数のサブデータセットのそれぞれに対して、ランダムフォレストを構成する木構造学習済モデル（学習済決定木）が生成される。

（評価処理）
図７は、本実施形態に係る評価処理に関するゼネラルフローチャートである。同図から明らかな通り、評価処理のおよその流れは、第１の実施形態と略同一である。しかしながら、本実施形態は、以下の点において第１の実施形態と相違する。

データ評価部１６は、生成した複数の木構造学習済モデルの読み出し処理を行う（Ｓ７１）。この読出処理の後、データ評価部１６は、評価用データセットを読み出す処理を行う（Ｓ７２）。その後、データ評価部１６は、変数ｋの初期化処理、すなわちｋを０とする処理を行う（Ｓ７３）。

この初期化処理の後、第１の実施形態と同様に、ｋ番目の学習済モデルに対して評価用データセットに係るデータを入力して推論処理を行い、到達した葉ノードにおいてフラグを真とする処理を行う（Ｓ７５～Ｓ７８）。

その後、データ評価部１６は、比率情報の生成処理を行う（Ｓ８０）。この比率情報が１又は１００％でない場合（Ｓ８１ＮＯ）、条件特定処理、及び、データ検索処理が行われる（Ｓ８２～Ｓ８３）。一方、比率情報が１又は１００％な場合（Ｓ８１ＹＥＳ）、ｋ番目の学習済モデルに対する処理を終了する。

データ評価部１６は、これら一連の処理（Ｓ７５～Ｓ８３）を、サブデータセットの個数分だけ（Ｓ８５ＮＯ）、変数ｋを１ずつインクリメントしつつ（Ｓ８６）、繰り返す。また、サブデータセットの個数分一連の処理を行ったものと判定された場合（Ｓ８５ＹＥＳ）、出力処理を実行し（Ｓ８７）、処理は終了する。

より詳細には、出力処理において、データ評価部１６は、すべての学習済木構造について、比率情報、フラグが偽となる葉ノードから根ノードへと至る経路に係る分岐条件、及び、データセットにおいて検索された追加データの候補を、データ出力部１７に対して出力する処理を実行する。

この場合、データ出力部１７は、図示しない表示部等に、各木構造学習済モデルに関して、比率情報、フラグが偽となる葉ノードが存在する場合には、フラグが偽となる葉ノードから根ノードへと至る経路に係る分岐条件、及び、追加データの候補を表示する。このとき、重複する分岐条件や追加データ等については適宜にまとめて表示してもよい。すなわち、評価用データセットを用いることで各木構造学習済モデルの葉ノードがどれだけ使用されたか、不足するデータ条件、及び、追加データ候補を表示することができる。

このような構成によれば、複数の木構造学習済モデルを含む構成にあっても、学習用データセットにより生成された木構造学習済モデルの全葉ノードに対する評価用データセットに対応する葉ノードの比率を介して、学習用データセットの分布領域に対する評価用データセットの分布領域の一致性を評価することができる。すなわち、このような構成によれば、各データセット間での分布領域の一致性を直接的に評価することができる。

なお、当業者には明らかなように、本実施形態の手法は、複数の木構造学習済モデルを利用する学習手法に対して適用可能である。従って、他のアンサンブル学習手法にも適用することができる。

（４．変形例）
本発明は、上述の実施形態に限定されず、様々に変形して実施することができる。

上述の実施形態の評価処理において、データ評価部１６は、推論用データセットを入力したときに到達する葉ノードのフラグを真とする処理（Ｓ３３～Ｓ３７、Ｓ７５～Ｓ７９）のみを行ったが、本発明はこのような構成に限定されない。従って、例えば、さらなる詳細な分析を可能とすべく、追加的な処理、例えば、葉ノードへの到達回数とそのときの推論誤差を記憶、提示するような処理を加えてもよい。

図８は、変形例に係る評価処理に関するゼネラルフローチャートである。同図から明らかな通り、評価処理のおよその流れは、第１の実施形態と略同一である。しかしながら、本変形例に係るフローチャートは、以下の点において第１の実施形態と相違する。

本変形例においては、変数として、i、フラグの他、各葉ノードに対応して、葉ノードへの到達回数を表す変数countと、当該葉ノードに基づく出力と正解値との推論誤差Ｅを含む。従って、評価用データセットの読出処理の後に、変数ｉ、フラグに追加して、カウントと推論誤差の初期化処理が行われる。例えば、カウントを０に、誤差を０とする処理が行われる。

その後、第１の実施形態と同様に、学習済モデルにおける推論処理（Ｓ９５）と、到達した葉ノードにおけるフラグ処理（Ｓ９６）を行った後、到達した葉ノードのカウントを１だけ加算する処理を行う（Ｓ９６）。

また、カウントの加算処理の後、到達した葉ノードにおける推論誤差の算出を行い、当該葉ノードに関する推論誤差へと加算する処理を行う（Ｓ９８）。推論誤差は、分岐により到達した葉ノードに関連付けられたデータから算出される出力値と、評価用データセットの対応する正解データとの差分として計算される。例として、本実施形態において、出力値は、分岐により到達した葉ノードに関連付けられたデータの相加平均として算出される。

その後、データ評価部１６は、第１の実施形態と同様に、評価用データセットのすべてのデータについて一連の処理を実行し（Ｓ９５～Ｓ９９）、その完了後に、比率情報の生成処理を行う（Ｓ１０１）。

比率情報が１又は１００％である場合（Ｓ１０２ＹＥＳ）、又は、比率情報が1又は１００％より小さい場合（Ｓ１０２ＮＯ、Ｓ１０３～Ｓ１０５）、いずれの場合も、第１の実施形態と同様の出力を行うものの、本実施形態においては、さらに、カウントの値と推論誤差を出力する（Ｓ１０６）。

すなわち、データ出力部１７は、上述の実施形態の出力に加えて、各葉ノードについて、いくつのデータが当該葉ノードに到達したか、及び、各葉ノードの推論誤差を表示部等に出力する。

図９は、評価処理においてカウントと推論誤差を併せて出力する変形例に係る概念図である。同図においては、最上段の根ノードから最下段の葉ノードまで、各ノードが２つに分岐して配置されている。また、木構造の下には、各葉ノードに対応して、当該葉ノードに到達した回数を表すカウントと推論誤差を含む表が配置されている。カウントの値から、評価用データセットにより、どの葉ノードがどの程度使用されたかを把握することができる。また、推論誤差の累積値より、葉ノード単位で推論誤差又は推論精度を把握することができる。

例えば、最下段の１番左の葉ノードのカウントは１、推論誤差は０．０５である。これらの値を見て、ユーザ等は、他の葉ノードの推論誤差と比べて当該葉ノードの推論誤差は小さいもののその検証回数が小さいことを把握することができる。従って、当該葉ノードに相当する分岐条件を確認して、取得すべきデータを特定することができる。

また、別の例では、最下段の左から３番目の葉ノードのカウントは１２、推論誤差は０．５２である。これらの値より、ユーザ等は、当該葉ノードは、検証回数が多いものの、推論誤差の値が大きいため、当該葉ノードに関する学習用データセット又は評価用データセットのいずれかに異常値等が含まれていないかを確認すること等ができる。

すなわち、このような構成によれば、評価用データセットのデータ分布範囲を学習用データセットのデータ分布範囲へと近付けるための客観的な評価指標を提供することができる。

また、このような構成によれば、葉ノード毎に記憶された回数から、学習用データセットのデータ分布範囲に対する評価用データセットのデータ分布範囲の一致性が評価できると共に、検証が足りない分岐条件を特定することができるので、容易に検証用データセットを改善することができる。

さらに、このような構成によれば、推論誤差から、木構造学習済モデルの葉ノード単位での推論精度を評価することができる。

なお、本変形例においては、例えば、回数が所定回数以下となる葉ノードについての分岐条件を併せて出力するような構成としてもよい。このような構成によれば、検証用データセットを改善するためのデータに関する分岐条件を容易に特定することができる。

第１の実施形態においては、学習用データセットにより生成された学習済モデルを用いて検証用データセットの評価処理を行い、第２の実施形態においては、評価用データセットにより生成された学習済モデルを用いて学習用データセットの評価処理を行う構成について説明したものの、本発明はこのような構成に限定されない。従って、例えば、第１の実施形態に係る処理と第２の実施形態に係る処理を交互に繰り返すことで、各データセットに足りないデータを追加してもよい。

このような構成によれば、学習用データセットと評価用データセットのデータ分布領域を近付けることができる。

以上、本発明の実施形態について説明したが、上記実施形態は本発明の適用例の一部を示したに過ぎず、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。また、上記の実施形態は、矛盾が生じない範囲で適宜組み合わせ可能である。

本発明は、機械学習技術を利用する種々の産業等にて利用可能である。

１情報処理装置
１１記憶部
１２データ読出部
１３機械学習処理部
１５記憶処理部
１６データ評価部
１７データ出力部

Claims

第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた木構造学習済モデルを読み出す、読出部と、
前記木構造学習済モデルに対して、第２のデータセットを入力して、前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定部と、
前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を生成する、比率情報生成部と、を備えた、情報処理装置。
前記木構造学習済モデルの葉ノードのうち前記第２の葉ノードに対応する分岐条件を出力する、条件出力部を、さらに、備えた、請求項１に記載の情報処理装置。
前記第２の葉ノードに対応する分岐条件を満たすデータセットを所定のデータベースから検索する、データ検索部を、さらに、備えた、請求項２に記載の情報処理装置。
前記分岐条件は、前記木構造学習済モデルの根ノードから前記第２の葉ノードへと至る一連の分岐条件である、請求項２又は３に記載の情報処理装置。
前記木構造学習済モデルの葉ノードのそれぞれについて、前記第２のデータセットが対応付けられた回数を記憶する、回数記憶部を、さらに、備える、請求項１～４のいずれか１項に記載の情報処理装置。
前記第１の葉ノードのうち、前記回数が所定回数以下の葉ノードに対応する分岐条件を出力する、第２条件出力部を、さらに、備える、請求項５に記載の情報処理装置。
前記木構造学習済モデルの葉ノードのそれぞれについて、前記葉ノードに基づく出力と正解値との推論誤差を生成する、誤差生成部を、さらに、備える、請求項１～６のいずれか１項に記載の情報処理装置。
前記第１のデータセットは、学習用データセットであり、前記第２のデータセットは評価用データセットである、請求項１～７のいずれか1項に記載の情報処理装置。
前記第１のデータセットは、評価用データセットであり、前記第２のデータセットは学習用データセットである、請求項１～７のいずれか1項に記載の情報処理装置。
前記第１のデータセットと前記第２のデータセットは、同一のデータセットに由来する、請求項１～９のいずれか１項に記載の情報処理装置。
第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた木構造学習済モデルを読み出す、読出部と、
前記木構造学習済モデルに対して、第２のデータセットを入力して、前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定部と、
前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を生成する、比率情報生成部と、を備えた、情報処理システム。
第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた木構造学習済モデルを読み出す、読出ステップと、
前記木構造学習済モデルに対して、第２のデータセットを入力して、前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定ステップと、
前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を生成する、比率情報生成ステップと、を備えた、情報処理方法。
第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた木構造学習済モデルを読み出す、読出ステップと、
前記木構造学習済モデルに対して、第２のデータセットを入力して、前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定ステップと、
前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を生成する、比率情報生成ステップと、を備えた、情報処理プログラム。
第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた複数の木構造学習済モデルを読み出す、読出部と、
各前記木構造学習済モデルに対して、第２のデータセットを入力して、各前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定部と、
各前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を、各木構造学習済モデルについて生成する、比率情報生成部と、を備えた、情報処理装置。
前記複数の木構造学習済モデルは、アンサンブル学習により得られる、請求項１４に記載の情報処理装置。
前記アンサンブル学習は、バギング学習又はブースティング学習を含む、請求項１５に記載の情報処理装置。
前記バギング学習は、ランダムフォレストを含む、請求項１６に記載の情報処理装置。
第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた複数の木構造学習済モデルを読み出す、読出部と、
各前記木構造学習済モデルに対して、第２のデータセットを入力して、各前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定部と、
各前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を、各木構造学習済モデルについて生成する、比率情報生成部と、を備えた、情報処理システム。
第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた複数の木構造学習済モデルを読み出す、読出ステップと、
各前記木構造学習済モデルに対して、第２のデータセットを入力して、各前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定ステップと、
各前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を、各木構造学習済モデルについて生成する、比率情報生成ステップと、を備えた、情報処理方法。
第１のデータセットを用いて木構造モデルに対して学習処理を行うことにより得られた複数の木構造学習済モデルを読み出す、読出ステップと、
各前記木構造学習済モデルに対して、第２のデータセットを入力して、各前記木構造学習済モデルにおいて、前記第２のデータセットに対応する葉ノードである第１の葉ノードを特定する、葉ノード特定ステップと、
各前記木構造学習済モデルの全ての葉ノードの個数と、前記第１の葉ノードの個数又は前記木構造学習済モデルの葉ノードのうち前記第１の葉ノードに該当しない葉ノードである第２の葉ノードの個数との比率に関する情報を、各木構造学習済モデルについて生成する、比率情報生成ステップと、を備えた、情報処理プログラム。