JP6918397B1

JP6918397B1 - 情報処理装置、方法、プログラム及びシステム

Info

Publication number: JP6918397B1
Application number: JP2021517713A
Authority: JP
Inventors: 純一出澤; 志門菅原
Original assignee: AISing Ltd
Current assignee: AISing Ltd
Priority date: 2020-02-10
Filing date: 2020-11-12
Publication date: 2021-08-11
Anticipated expiration: 2040-11-12
Also published as: EP4105844A4; US20220358413A1; JPWO2021161603A1; EP4105844A1

Abstract

【課題】機械学習に利用される木構造の生成において学習対象データ群を分割する分割基準を高速かつ適切に決定すること。【解決手段】分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理装置であって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの１つをデータ分割基準として決定する、分割基準決定部と、を備える情報処理装置が提供される。【選択図】図６

Description

この発明は、機械学習を行う情報処理装置等、特に、木構造を利用した機械学習を行う情報処理装置等に関する。

近年、決定木やランダムフォレスト等といった木構造を利用した機械学習技術が注目されつつある。

この種の機械学習技術において、学習済の木構造は、所定のアルゴリズムに基づいて学習対象となるデータ群を分割していくことにより形成される。すなわち、木構造は、学習対象となるデータ群を所定の分割基準決定方法に従って複数の分割基準で分割し、そのうち、所定の条件、例えば、情報利得が最大となるといった条件を満たす分割基準を選択することにより形成されていた。

図１０は、従前の決定木における学習対象データ群の分割基準の決定方法に関する説明図である。同図（ａ）は、学習対象データ群の各データ間の中点を分割基準候補として網羅的に探索する手法、同図（ｂ）は、学習対象データ群を１点おきに分割基準候補として網羅的に探索する手法について示している。

同図（ａ）の例にあっては、各データ間の中点を分割基準候補として分割しその結果をそれぞれ評価し、最終的に評価結果の最も良好な分割基準候補が分割基準として決定される。一方、同図（ｂ）の例にあっては、１点おきに分割基準候補として分割しその結果をそれぞれ評価し、最終的に評価結果の最も良好な分割基準候補が分割基準として決定される。

このように、従前の決定木においては、所定の手法で網羅的に多数回分割を行い、最適な分割基準を決定することが行われていた。

一方、多数の木構造を利用するアンサンブル学習手法においても様々な手法で個々の木構造の分割基準が決定されていた。例えば、アンサンブル学習手法の１つであるランダムフォレストにおいては、従前、分割対象データのうちから任意（ランダム）に選択された１つのデータを基準に試行的に複数回分割を行ってその結果をそれぞれ評価し、最終的に評価結果の最も良好な分割基準候補を分割基準として決定する手法が用いられることがあった（例として、非特許文献１）。

また、分割対象データをすべて読み出して最大・最小のデータを特定して正規化し、それらに基づき、分割基準を決定する手法が用いられることもあった。さらに、分割対象データをヒストグラム化してその代表値を分割基準として決定する手法が用いられることもあった。

ＨｅｍａｎｔＩｓｈｗａｒａｎ、"ＴｈｅＥｆｆｅｃｔｏｆＳｐｌｉｔｔｉｎｇｏｎＲａｎｄｏｍＦｏｒｅｓｔｓ"、［ｏｎｌｉｎｅ］、平成２６年７月２日発行、［令和２年１月２０日］、インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ｌｉｎｋ．ｓｐｒｉｎｇｅｒ．ｃｏｍ／ａｒｔｉｃｌｅ／１０．１００７／ｓ１０９９４−０１４−５４５１−２＞

しかしながら、木構造生成のための分割基準決定アルゴリズムのうち、分割対象データ群を網羅的に参照して分割基準を探索するアルゴリズム（例として図１０）や、正規化・ヒストグラム化を伴うアルゴリズムの場合等にあっては、分割対象データ群のすべて又は少なくともその大部分を参照する必要があった。そのため、その参照に伴う処理負荷から分割基準決定に時間を要し、学習速度の低下を招くおそれがあった。

分割対象データ群のうちから任意（ランダム）に選択された１つのデータを基準に分割を行う手法によればすべてのデータの参照の必要がないことから学習負荷は小さいものの、選択されるデータへの依存性が高くなり情報利得等が小さい不適切な分割を行ってしまうおそれがあった。また、学習対象データの個数が少ない場合等にあっては、分割基準候補の多様性が失われてしまうおそれがあった。

本発明は、上述の技術的背景の下になされたものであり、その目的とするところは、機械学習に利用される木構造の生成において学習対象データ群を分割する分割基準を高速かつ適切に決定することにある。

本発明のさらに他の目的並びに作用効果については、明細書の以下の記述を参照することにより、当業者であれば容易に理解されるであろう。

上述の技術的課題は、以下の構成を有する情報処理装置、方法、プログラム又はシステム等により解決することができる。

すなわち、本発明に係る情報処理装置は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理装置であって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの１つをデータ分割基準として決定する、分割基準決定部と、を備えている。

このような構成によれば、分割対象データ群から任意に選択された複数のデータから分割基準候補を生成してデータ分割を行うので、分割対象データ群のすべてについて値を参照する必要がないので計算負荷が小さく、また、選択するデータへの依存性が低く適切な位置で分割することができる。すなわち、機械学習に利用される木構造の生成において学習対象データを適切に分割する分割基準を高速かつ適切に決定することができる。

前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値であってもよい。

前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値であってもよい。

前記情報処理装置は、さらに、前記分割対象データ群のデータ数が所定数以上である場合に、前記データ分割基準候補の生成アルゴリズムを切り替える切替信号を生成する、切替部を備える、ものであってもよい。

前記機械学習の手法は決定木であってもよい。

前記機械学習の手法は、複数の木構造を利用するアンサンブル学習であってもよい。

前記アンサンブル学習の手法は、木構造を利用したバギング又はブースティングのいずれか１つ若しくはその組み合わせであってもよい。

前記アンサンブル学習の手法は、ランダムフォレストであってもよい。

また、別の側面から見た本発明は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理方法であって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの１つをデータ分割基準として決定する、分割基準決定ステップと、を備えている。

さらに、別の側面から見た本発明は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理プログラムであって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの１つをデータ分割基準として決定する、分割基準決定ステップと、を備えている。

別の側面から視た本発明は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理システムであって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの１つをデータ分割基準として決定する、分割基準決定部と、を備えている。

本発明によれば、機械学習に利用される木構造の生成において学習対象データ群を分割する分割基準を高速かつ適切に決定することができる。

図１は、ハードウェア構成図である。図２は、機械学習装置として機能する場合の情報処理装置の機能ブロック図である。図３は、推論装置として機能する場合の情報処理装置の機能ブロック図である。図４は、木構造の生成処理に関するゼネラルフローチャートである。図５は、分割基準決定処理の詳細フローチャートである。図６は、分割基準の算定方法に関する説明図である。図７は、様々な分割対象データの分割に関する説明図である。図８は、本実施形態に係る分割手法と他の分割手法との比較表である。図９は、変形例に係る情報処理装置の機能ブロック図である。図１０は、従前の決定木における学習対象データ群の分割基準の決定方法に関する説明図である。

以下、本発明の実施の一形態を、添付の図面を参照しつつ、詳細に説明する。

（１．第１の実施形態）
（１．１構成）
図１乃至図３を参照しつつ、本実施形態のハードウェア構成について説明する。

図１は、本実施形態に係る情報処理装置１００のハードウェア構成図である。同図から明らかな通り、制御部１、記憶部２、通信部３、入力部４、表示制御部５、音声出力部６及びＩ／Ｏ部７を備え、それらはバスを介して接続されている。

制御部１は、ＣＰＵ及びＧＰＵ等の制御装置であり、後述する様々な動作を実現するプログラムの実行処理を行う。例えば、情報処理装置１００の全体制御や機械学習処理又は推定処理等を行う。記憶部２は、ＲＯＭ、ＲＡＭ等の揮発性又は不揮発性の記憶装置であり、学習対象となる訓練用データ群である学習対象データ群、機械学習プログラム、推定処理プログラム等を格納している。通信部３は、インターネットやＬＡＮ等を通じて外部機器と通信を行う通信チップ等である。入力部４は、キーボード、タッチパネル、ボタン等の入力部を介して入力された信号を処理するものである。表示制御部５は、ディスプレイ等と接続されて表示制御を行い、ディスプレイ等を介してユーザにＧＵＩ等を提供する。音声出力部６は、スピーカ等と接続されて音声を出力する。Ｉ／Ｏ部７は、外部装置との情報の入出力処理を行う装置である。

図２は、機械学習装置として機能する場合の情報処理装置１００の機能ブロック図である。同図から明らかな通り、この場合、情報処理装置１００は、記憶部２、学習対象データ取得部１１、決定木生成処理部１２及び記憶処理部１３とを備えている。学習対象データ取得部１１は、記憶部２に記憶された学習対象データ群を読み出して取得する処理を行う。決定木生成処理部１２は、機械学習に必要なパラメータ等の情報と取得した学習対象データ群に基づいて、決定木を生成する処理を行う。記憶処理部１３は、生成された決定木を記憶部２へと記憶する処理を行う。

図３は、推論装置として機能する場合の情報処理装置１００の機能ブロック図である。同図から明らかな通り、この場合、情報処理装置１００は、記憶部２、入力データ取得部１５、推論処理部１６及びデータ出力部１７を備えている。入力データ取得部１５は、外部から入力される、又は記憶部２から読み出される入力データを取得する。推論処理部１６は、学習済の木構造及び推論に必要な情報を記憶部２から読み出し、入力データに対応する推論結果を生成する。データ出力部１７は、推論結果に対応するデータを出力する処理を行う。

なお、ハードウェア構成は本実施形態に係る構成に限定されるものではない。従って、例えば、構成や機能の一部又は全体を分散又は統合してもよい。また、例えば、複数台の情報処理装置１００により分散的に処理を行っても良いし、大容量記憶装置をさらに外部に設けて情報処理装置１００と接続する等してもよい。さらに、ＩＣ、特に、ＡＳＩＣやＦＰＧＡ等を用いて回路的に実装してもよい。

また、本実施形態は、情報処理装置１００は、パーソナルコンピュータ等の装置に限定されず、例えば、工作機械といった種々の特定の機能を有する装置、複合的な機能を有する装置であってもよい。

（１．２動作）
次に、図４乃至図８を参照しつつ、情報処理装置１００の動作について説明する。

図４は、機械学習処理、すなわち木構造の生成処理に関するゼネラルフローチャートである。同図から明らかな通り、処理が開始すると、学習対象データ取得部１１により学習対象データ群を取得する処理が行われる（Ｓ１）。取得された学習対象データ群は、決定木生成処理部１７により、木構造生成処理部木構造の基端となるノード、すなわち根ノードへと紐づけられる（Ｓ２）。

その後、決定木生成処理部１７は、根ノードを参照ノードへと設定する処理を行う（Ｓ３）。その後、参照ノードが分割対象条件を満たすか否かに関する判定がなされる（Ｓ５）。なお、分割対象条件とは、例えば、木構造の深さが所定の深さとなっているか否かである。参照ノードが分割対象ノードを含む場合（Ｓ５ＮＯ）、分割対象ノードについて後述の一連の処理が行われる（Ｓ６〜Ｓ９）。参照ノードに分割対象ノードが含まれている場合、まず、分割対象となる参照ノードについて分割基準を決定する処理が行われる（Ｓ６）。

図５は、分割基準決定処理（Ｓ６）の詳細フローチャートである。同図から明らかな通り、処理が開始すると、所定の分割基準を設定する処理が行われる（Ｓ６１）。本実施形態においては、所定の分割基準として分割対象データ群から任意に選択された複数のデータの平均値が採用される。

図６は、本実施形態に係る分割基準の算定方法に関する説明図である。同図から明らかな通り、本実施形態においては、分割対象データのうちから任意（ランダム）に選択された３点のデータの平均値を分割基準としている。

このような構成によれば、すべての分割対象データを参照する必要がなく、そのため、その参照に伴う処理負荷が小さい。そのため、学習速度を高速なものとすることができる。また、分割対象データ群から複数点を選択して平均値をとることから、選択されるデータへの依存性が低くなる。さらに、参照データは任意に選択されるので分割対象データ群の分布に応じて選択され、すなわち、分割対象データ群の分布を考慮した分割を行うことができる。

その後、設定した分割基準に基づいて学習対象データ群を分割する処理が行われる（Ｓ６２）。分割処理が完了すると、分割基準の評価処理が行われる（Ｓ６３）。この分割基準の評価処理は、既知の種々の手法により行うことが出来る。本実施形態では、例として、情報利得が大きいほど良好な分割基準であるとして評価を行う。

この評価処理の後、過去の評価結果より良かったか、すなわち最良であったか否かが判定される（Ｓ６５）。分割基準の評価が最良であった場合（Ｓ６５ＹＥＳ）、分割基準の更新処理を行い、所定の終了条件の判定処理が行われる（Ｓ６８）。これに対して、分割基準の評価が最良でなかった場合、評価結果の更新を行わず、所定の終了条件の判定処理を行う（Ｓ６８）。

本実施形態において、所定の終了条件は既定の試行回数を満たしたか否かである。すなわち、試行回数が１０回であれば、１０個の分割基準を試行することとなる。所定の終了条件を満たした場合、最良と判断された最新の分割基準を最終的な分割基準として決定する（Ｓ６９）。一方、未だ所定の終了条件を満たしていないと判断される場合（Ｓ６８ＮＯ）、異なる分割基準、すなわち、再度任意に選択された３つのデータの平均値を設定する処理が行われ（Ｓ７０）、再び、一連の処理が繰り返される（Ｓ６２〜Ｓ６８）。

図４に戻り、分割基準の決定処理（Ｓ６）が完了すると、設定した分割基準に基づいて、参照ノードを左右の子ノードへと分割する処理が行われる（Ｓ８）。この分割処理の後、当該子ノードをさらに参照ノードとして設定する処理が行われて（Ｓ９）、再び、参照ノードが分割対象か否かを判定する処理が行われる（Ｓ５）。このような処理が、参照ノードが分割対象ノードを含まなくなるまで（Ｓ５ＹＥＳ）、すなわち、参照ノードが木構造の末端へと至るまで行われて、処理は終了する。

図７は、様々な分割対象データの分割に関する説明図である。同図（ａ）に示されるような一様分布の場合、任意の複数点の平均値をとる本実施形態に係る手法によれば、およそ中央付近で分割することができる可能性が高い。また、同図（ｂ）に示される通り、分割対象に偏りがある場合であっても、点分布の特に密度が大きい部分にある点が選択されやすいため、複数点をとって平均をとっても点密度の大きい部分付近を分割することができる。さらに、同図（ｃ）のように左右に２つの峰が存在するような分布の場合には、複数点の平均値をとると点密度の小さい中央付近を分割する可能性が高いものの、その後のステップでは結局同図（ｂ）と同じような偏りを有する分布となるため、結局、適切に分割することができる。

図８は、本実施形態に係る分割手法（同図（Ｄ））と他の分割手法（（Ａ）〜（Ｃ））との比較表である。分割手法（Ａ）は、分割対象データ群からランダムに１つのデータを選択して分割基準として決定する手法、分割手法（Ｂ）は、分割対象データ群の全体を参照してその最小値と最大値を検出して正規化を行いその間の任意の値を分割基準として決定する手法、分割対象手法（Ｃ）は、分割対象データ群に基づいてヒストグラムを生成して分割基準を決定する手法である。

同図から明らかな通り、分割点基準決定の速度、すなわち、計算負荷の小ささにおいては、分割対象データの全部を予め参照する必要のない、分割手法（Ａ）と分割手法（Ｄ）が有利である。また、データの分布については、正規化を伴う分割手法（Ｂ）を除いてはすべて考慮することができる。さらに、分割対象データ以外の選択については、分割対象データのうちから選択を行う分割手法（Ａ）と（Ｃ）を除いては、その可能性が認められる。このように学習対象データ以外を選択できることにより、分割基準候補とされる値の柔軟性・多様性が増大し、結果として決定木の多様性が増大する。これは特にデータ数が少ない場合に顕著である。その結果、例えば、ランダムフォレスト等のような複数の決定木を利用するアルゴリズムに好適となる。

すなわち、本実施形態に係る手法によれば、分割対象データの分布を考慮して高速に分割基準を決定することができる。また、さらにデータ点以外の値も分割基準として考慮することができるので柔軟で多様な分割基準の生成を実現することができる。

また、分割対象データ群から任意に選択された複数のデータの平均値を分割基準候補とするので、選択されるデータへの異存性を低下させつつ、適切な分割基準を決定することができる。

（２．変形例）
上述の実施形態においては、学習対象データ数に拘らず、一定の分割手法を使用したが、本発明はそのような構成に限定されない。従って、例えば、学習対象データの数に応じて分割手法を切り替えてもよい。

図９は、変形例に係る情報処理装置２００の機能ブロック図である。情報処理装置２００は、第１の実施形態と略同一の機能を有する記憶部２、学習対象データ取得部２１、決定木生成処理部２２及び記憶出力部２３に加え、さらに、切替処理部２８を備えている。本変形例において、切替処理部２８は、記憶部２から読み出された分割対象データの数に応じて木構造生成に使用する分割手法を切り替える。

分割対象データの数が所定の個数以下の場合には、データ分布が必ずしも信頼することができない可能性が高いためデータ分布の影響を受けにくい分割手法が好適である。そのため、切替処理部２８は、データ分布の影響を受けにくい、上述の正規化を伴う分割手法（Ｂ）を使用して木構造を生成するよう設定する。一方、分割対象データの数が所定の個数以上の場合には、データ分布が信頼できる可能性が高いためデータ分布の影響を受ける分割手法が好適である。そのため、切替処理部２８は、データ分布も考慮可能な上述の分割手法（Ｄ）等を使用して木構造を生成するよう設定する。

上述の実施形態においては、分割基準候補の生成にあたっては分割対象データ群から任意に選択された複数のデータの平均値を計算したが、本発明はこのような構成に限定されない。従って、分割基準候補の生成にあたっては分割対象データ群から任意に選択された複数のデータに対して他の分割処理を適用してもよい。

例えば、任意に選択された複数のデータに対して、さらに、上述の実施形態において言及した分割手法（Ｂ）（正規化を伴う分割基準の決定方法）又は分割手法（Ｄ）（ヒストグラムを利用した分割基準の決定方法）を適用してもよい。このような手法によれば、選択された限定的な個数のデータに対して処理を行うので計算負荷は比較的に高いもののデータ分布の考慮等が可能な分割手法を適用することができる。すなわち、分割基準決定の速度と適切な分割とを両立することができる。

上述の実施形態においては、単一の木構造（決定木）の生成処理及びその利用について言及したが、本発明はそのような構成に限定されない。従って、木構造の生成処理は、複数の木構造を利用したアンサンブル学習にも適用可能である。このアンサンブル学習には、例えば、木構造を利用したバギング、ブースティング等が含まれる。

ここで、木構造を利用したバギングとは、木構造を並列的に配置し、そのすべての木構造の推論値の平均や多数決をとる手法である（例として、ランダムフォレスト等）。また、木構造を利用したブースティングとは、木構造を直列的に配置し、直前の木構造で表現しきれなかった残差を学習する手法である。なお、アンサンブル学習を行う場合、これらいくつかの手法を組み合わせてもよい。例えば、バギングの一種であるランダムフォレストを階層的に配置し、ブースティングにより残差学習させる等してもよい。

本発明は、木構造を利用した機械学習技術を利用する種々の産業にて利用可能である。

１制御部
２記憶部
３通信部
４入力部
５表示制御部
６音声出力部
７Ｉ／Ｏ部
１１学習対象データ取得部
１２決定木生成処理部
１３記憶処理部
１５入力データ取得部
１６推論処理部
１７データ出力部
２１学習対象データ取得部
２２決定木生成処理部
２３記憶出力部
２８切替処理部
１００情報処理装置
２００情報処理装置（変形例）

Claims

分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理装置であって、
前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、
前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、
各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、
各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの１つをデータ分割基準として決定する、分割基準決定部と、を備え、
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理装置。
前記情報処理装置は、さらに、
前記分割対象データ群のデータ数が所定数以上である場合に、前記データ分割基準候補の生成アルゴリズムを切り替える切替信号を生成する、切替部を備える、請求項１に記載の情報処理装置。
前記機械学習の手法は決定木である、請求項１に記載の情報処理装置。
前記機械学習の手法は、複数の木構造を利用するアンサンブル学習である、請求項１に記載の情報処理装置。
前記アンサンブル学習の手法は、木構造を利用したバギング又はブースティングのいずれか１つ若しくはその組み合わせである、請求項４に記載の情報処理装置。
前記アンサンブル学習の手法は、ランダムフォレストである、請求項４に記載の情報処理装置。
分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理方法であって、
前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、
前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、
各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、
各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの１つをデータ分割基準として決定する、分割基準決定ステップと、を備え、
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理方法。
分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理プログラムであって、
前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、
前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、
各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、
各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの１つをデータ分割基準として決定する、分割基準決定ステップと、を備え、
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理プログラム。
分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理システムであって、
前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、
前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、
各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、
各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの１つをデータ分割基準として決定する、分割基準決定部と、を備え、
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理システム。