JP6918397B1 - 情報処理装置、方法、プログラム及びシステム - Google Patents

情報処理装置、方法、プログラム及びシステム Download PDF

Info

Publication number
JP6918397B1
JP6918397B1 JP2021517713A JP2021517713A JP6918397B1 JP 6918397 B1 JP6918397 B1 JP 6918397B1 JP 2021517713 A JP2021517713 A JP 2021517713A JP 2021517713 A JP2021517713 A JP 2021517713A JP 6918397 B1 JP6918397 B1 JP 6918397B1
Authority
JP
Japan
Prior art keywords
data
division
information processing
group
data division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021517713A
Other languages
English (en)
Other versions
JPWO2021161603A1 (ja
Inventor
純一 出澤
純一 出澤
志門 菅原
志門 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AISing Ltd
Original Assignee
AISing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AISing Ltd filed Critical AISing Ltd
Priority claimed from PCT/JP2020/042292 external-priority patent/WO2021161603A1/ja
Application granted granted Critical
Publication of JP6918397B1 publication Critical patent/JP6918397B1/ja
Publication of JPWO2021161603A1 publication Critical patent/JPWO2021161603A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 機械学習に利用される木構造の生成において学習対象データ群を分割する分割基準を高速かつ適切に決定すること。【解決手段】 分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理装置であって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定部と、を備える情報処理装置が提供される。【選択図】図6

Description

この発明は、機械学習を行う情報処理装置等、特に、木構造を利用した機械学習を行う情報処理装置等に関する。
近年、決定木やランダムフォレスト等といった木構造を利用した機械学習技術が注目されつつある。
この種の機械学習技術において、学習済の木構造は、所定のアルゴリズムに基づいて学習対象となるデータ群を分割していくことにより形成される。すなわち、木構造は、学習対象となるデータ群を所定の分割基準決定方法に従って複数の分割基準で分割し、そのうち、所定の条件、例えば、情報利得が最大となるといった条件を満たす分割基準を選択することにより形成されていた。
図10は、従前の決定木における学習対象データ群の分割基準の決定方法に関する説明図である。同図(a)は、学習対象データ群の各データ間の中点を分割基準候補として網羅的に探索する手法、同図(b)は、学習対象データ群を1点おきに分割基準候補として網羅的に探索する手法について示している。
同図(a)の例にあっては、各データ間の中点を分割基準候補として分割しその結果をそれぞれ評価し、最終的に評価結果の最も良好な分割基準候補が分割基準として決定される。一方、同図(b)の例にあっては、1点おきに分割基準候補として分割しその結果をそれぞれ評価し、最終的に評価結果の最も良好な分割基準候補が分割基準として決定される。
このように、従前の決定木においては、所定の手法で網羅的に多数回分割を行い、最適な分割基準を決定することが行われていた。
一方、多数の木構造を利用するアンサンブル学習手法においても様々な手法で個々の木構造の分割基準が決定されていた。例えば、アンサンブル学習手法の1つであるランダムフォレストにおいては、従前、分割対象データのうちから任意(ランダム)に選択された1つのデータを基準に試行的に複数回分割を行ってその結果をそれぞれ評価し、最終的に評価結果の最も良好な分割基準候補を分割基準として決定する手法が用いられることがあった(例として、非特許文献1)。
また、分割対象データをすべて読み出して最大・最小のデータを特定して正規化し、それらに基づき、分割基準を決定する手法が用いられることもあった。さらに、分割対象データをヒストグラム化してその代表値を分割基準として決定する手法が用いられることもあった。
Hemant Ishwaran、"The Effect of Splitting on Random Forests"、[online]、平成26年7月2日発行、[令和2年1月20日]、インターネット<URL:https://link.springer.com/article/10.1007/s10994−014−5451−2>
しかしながら、木構造生成のための分割基準決定アルゴリズムのうち、分割対象データ群を網羅的に参照して分割基準を探索するアルゴリズム(例として図10)や、正規化・ヒストグラム化を伴うアルゴリズムの場合等にあっては、分割対象データ群のすべて又は少なくともその大部分を参照する必要があった。そのため、その参照に伴う処理負荷から分割基準決定に時間を要し、学習速度の低下を招くおそれがあった。
分割対象データ群のうちから任意(ランダム)に選択された1つのデータを基準に分割を行う手法によればすべてのデータの参照の必要がないことから学習負荷は小さいものの、選択されるデータへの依存性が高くなり情報利得等が小さい不適切な分割を行ってしまうおそれがあった。また、学習対象データの個数が少ない場合等にあっては、分割基準候補の多様性が失われてしまうおそれがあった。
本発明は、上述の技術的背景の下になされたものであり、その目的とするところは、機械学習に利用される木構造の生成において学習対象データ群を分割する分割基準を高速かつ適切に決定することにある。
本発明のさらに他の目的並びに作用効果については、明細書の以下の記述を参照することにより、当業者であれば容易に理解されるであろう。
上述の技術的課題は、以下の構成を有する情報処理装置、方法、プログラム又はシステム等により解決することができる。
すなわち、本発明に係る情報処理装置は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理装置であって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定部と、を備えている。
このような構成によれば、分割対象データ群から任意に選択された複数のデータから分割基準候補を生成してデータ分割を行うので、分割対象データ群のすべてについて値を参照する必要がないので計算負荷が小さく、また、選択するデータへの依存性が低く適切な位置で分割することができる。すなわち、機械学習に利用される木構造の生成において学習対象データを適切に分割する分割基準を高速かつ適切に決定することができる。
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値であってもよい。
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値であってもよい。
前記情報処理装置は、さらに、前記分割対象データ群のデータ数が所定数以上である場合に、前記データ分割基準候補の生成アルゴリズムを切り替える切替信号を生成する、切替部を備える、ものであってもよい。
前記機械学習の手法は決定木であってもよい。
前記機械学習の手法は、複数の木構造を利用するアンサンブル学習であってもよい。
前記アンサンブル学習の手法は、木構造を利用したバギング又はブースティングのいずれか1つ若しくはその組み合わせであってもよい。
前記アンサンブル学習の手法は、ランダムフォレストであってもよい。
また、別の側面から見た本発明は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理方法であって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定ステップと、を備えている。
さらに、別の側面から見た本発明は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理プログラムであって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定ステップと、を備えている。
別の側面から視た本発明は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理システムであって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定部と、を備えている。
本発明によれば、機械学習に利用される木構造の生成において学習対象データ群を分割する分割基準を高速かつ適切に決定することができる。
図1は、ハードウェア構成図である。 図2は、機械学習装置として機能する場合の情報処理装置の機能ブロック図である。 図3は、推論装置として機能する場合の情報処理装置の機能ブロック図である。 図4は、木構造の生成処理に関するゼネラルフローチャートである。 図5は、分割基準決定処理の詳細フローチャートである。 図6は、分割基準の算定方法に関する説明図である。 図7は、様々な分割対象データの分割に関する説明図である。 図8は、本実施形態に係る分割手法と他の分割手法との比較表である。 図9は、変形例に係る情報処理装置の機能ブロック図である。 図10は、従前の決定木における学習対象データ群の分割基準の決定方法に関する説明図である。
以下、本発明の実施の一形態を、添付の図面を参照しつつ、詳細に説明する。
(1.第1の実施形態)
(1.1 構成)
図1乃至図3を参照しつつ、本実施形態のハードウェア構成について説明する。
図1は、本実施形態に係る情報処理装置100のハードウェア構成図である。同図から明らかな通り、制御部1、記憶部2、通信部3、入力部4、表示制御部5、音声出力部6及びI/O部7を備え、それらはバスを介して接続されている。
制御部1は、CPU及びGPU等の制御装置であり、後述する様々な動作を実現するプログラムの実行処理を行う。例えば、情報処理装置100の全体制御や機械学習処理又は推定処理等を行う。記憶部2は、ROM、RAM等の揮発性又は不揮発性の記憶装置であり、学習対象となる訓練用データ群である学習対象データ群、機械学習プログラム、推定処理プログラム等を格納している。通信部3は、インターネットやLAN等を通じて外部機器と通信を行う通信チップ等である。入力部4は、キーボード、タッチパネル、ボタン等の入力部を介して入力された信号を処理するものである。表示制御部5は、ディスプレイ等と接続されて表示制御を行い、ディスプレイ等を介してユーザにGUI等を提供する。音声出力部6は、スピーカ等と接続されて音声を出力する。I/O部7は、外部装置との情報の入出力処理を行う装置である。
図2は、機械学習装置として機能する場合の情報処理装置100の機能ブロック図である。同図から明らかな通り、この場合、情報処理装置100は、記憶部2、学習対象データ取得部11、決定木生成処理部12及び記憶処理部13とを備えている。学習対象データ取得部11は、記憶部2に記憶された学習対象データ群を読み出して取得する処理を行う。決定木生成処理部12は、機械学習に必要なパラメータ等の情報と取得した学習対象データ群に基づいて、決定木を生成する処理を行う。記憶処理部13は、生成された決定木を記憶部2へと記憶する処理を行う。
図3は、推論装置として機能する場合の情報処理装置100の機能ブロック図である。同図から明らかな通り、この場合、情報処理装置100は、記憶部2、入力データ取得部15、推論処理部16及びデータ出力部17を備えている。入力データ取得部15は、外部から入力される、又は記憶部2から読み出される入力データを取得する。推論処理部16は、学習済の木構造及び推論に必要な情報を記憶部2から読み出し、入力データに対応する推論結果を生成する。データ出力部17は、推論結果に対応するデータを出力する処理を行う。
なお、ハードウェア構成は本実施形態に係る構成に限定されるものではない。従って、例えば、構成や機能の一部又は全体を分散又は統合してもよい。また、例えば、複数台の情報処理装置100により分散的に処理を行っても良いし、大容量記憶装置をさらに外部に設けて情報処理装置100と接続する等してもよい。さらに、IC、特に、ASICやFPGA等を用いて回路的に実装してもよい。
また、本実施形態は、情報処理装置100は、パーソナルコンピュータ等の装置に限定されず、例えば、工作機械といった種々の特定の機能を有する装置、複合的な機能を有する装置であってもよい。
(1.2 動作)
次に、図4乃至図8を参照しつつ、情報処理装置100の動作について説明する。
図4は、機械学習処理、すなわち木構造の生成処理に関するゼネラルフローチャートである。同図から明らかな通り、処理が開始すると、学習対象データ取得部11により学習対象データ群を取得する処理が行われる(S1)。取得された学習対象データ群は、決定木生成処理部17により、木構造生成処理部木構造の基端となるノード、すなわち根ノードへと紐づけられる(S2)。
その後、決定木生成処理部17は、根ノードを参照ノードへと設定する処理を行う(S3)。その後、参照ノードが分割対象条件を満たすか否かに関する判定がなされる(S5)。なお、分割対象条件とは、例えば、木構造の深さが所定の深さとなっているか否かである。参照ノードが分割対象ノードを含む場合(S5NO)、分割対象ノードについて後述の一連の処理が行われる(S6〜S9)。参照ノードに分割対象ノードが含まれている場合、まず、分割対象となる参照ノードについて分割基準を決定する処理が行われる(S6)。
図5は、分割基準決定処理(S6)の詳細フローチャートである。同図から明らかな通り、処理が開始すると、所定の分割基準を設定する処理が行われる(S61)。本実施形態においては、所定の分割基準として分割対象データ群から任意に選択された複数のデータの平均値が採用される。
図6は、本実施形態に係る分割基準の算定方法に関する説明図である。同図から明らかな通り、本実施形態においては、分割対象データのうちから任意(ランダム)に選択された3点のデータの平均値を分割基準としている。
このような構成によれば、すべての分割対象データを参照する必要がなく、そのため、その参照に伴う処理負荷が小さい。そのため、学習速度を高速なものとすることができる。また、分割対象データ群から複数点を選択して平均値をとることから、選択されるデータへの依存性が低くなる。さらに、参照データは任意に選択されるので分割対象データ群の分布に応じて選択され、すなわち、分割対象データ群の分布を考慮した分割を行うことができる。
その後、設定した分割基準に基づいて学習対象データ群を分割する処理が行われる(S62)。分割処理が完了すると、分割基準の評価処理が行われる(S63)。この分割基準の評価処理は、既知の種々の手法により行うことが出来る。本実施形態では、例として、情報利得が大きいほど良好な分割基準であるとして評価を行う。
この評価処理の後、過去の評価結果より良かったか、すなわち最良であったか否かが判定される(S65)。分割基準の評価が最良であった場合(S65YES)、分割基準の更新処理を行い、所定の終了条件の判定処理が行われる(S68)。これに対して、分割基準の評価が最良でなかった場合、評価結果の更新を行わず、所定の終了条件の判定処理を行う(S68)。
本実施形態において、所定の終了条件は既定の試行回数を満たしたか否かである。すなわち、試行回数が10回であれば、10個の分割基準を試行することとなる。所定の終了条件を満たした場合、最良と判断された最新の分割基準を最終的な分割基準として決定する(S69)。一方、未だ所定の終了条件を満たしていないと判断される場合(S68NO)、異なる分割基準、すなわち、再度任意に選択された3つのデータの平均値を設定する処理が行われ(S70)、再び、一連の処理が繰り返される(S62〜S68)。
図4に戻り、分割基準の決定処理(S6)が完了すると、設定した分割基準に基づいて、参照ノードを左右の子ノードへと分割する処理が行われる(S8)。この分割処理の後、当該子ノードをさらに参照ノードとして設定する処理が行われて(S9)、再び、参照ノードが分割対象か否かを判定する処理が行われる(S5)。このような処理が、参照ノードが分割対象ノードを含まなくなるまで(S5YES)、すなわち、参照ノードが木構造の末端へと至るまで行われて、処理は終了する。
図7は、様々な分割対象データの分割に関する説明図である。同図(a)に示されるような一様分布の場合、任意の複数点の平均値をとる本実施形態に係る手法によれば、およそ中央付近で分割することができる可能性が高い。また、同図(b)に示される通り、分割対象に偏りがある場合であっても、点分布の特に密度が大きい部分にある点が選択されやすいため、複数点をとって平均をとっても点密度の大きい部分付近を分割することができる。さらに、同図(c)のように左右に2つの峰が存在するような分布の場合には、複数点の平均値をとると点密度の小さい中央付近を分割する可能性が高いものの、その後のステップでは結局同図(b)と同じような偏りを有する分布となるため、結局、適切に分割することができる。
図8は、本実施形態に係る分割手法(同図(D))と他の分割手法((A)〜(C))との比較表である。分割手法(A)は、分割対象データ群からランダムに1つのデータを選択して分割基準として決定する手法、分割手法(B)は、分割対象データ群の全体を参照してその最小値と最大値を検出して正規化を行いその間の任意の値を分割基準として決定する手法、分割対象手法(C)は、分割対象データ群に基づいてヒストグラムを生成して分割基準を決定する手法である。
同図から明らかな通り、分割点基準決定の速度、すなわち、計算負荷の小ささにおいては、分割対象データの全部を予め参照する必要のない、分割手法(A)と分割手法(D)が有利である。また、データの分布については、正規化を伴う分割手法(B)を除いてはすべて考慮することができる。さらに、分割対象データ以外の選択については、分割対象データのうちから選択を行う分割手法(A)と(C)を除いては、その可能性が認められる。このように学習対象データ以外を選択できることにより、分割基準候補とされる値の柔軟性・多様性が増大し、結果として決定木の多様性が増大する。これは特にデータ数が少ない場合に顕著である。その結果、例えば、ランダムフォレスト等のような複数の決定木を利用するアルゴリズムに好適となる。
すなわち、本実施形態に係る手法によれば、分割対象データの分布を考慮して高速に分割基準を決定することができる。また、さらにデータ点以外の値も分割基準として考慮することができるので柔軟で多様な分割基準の生成を実現することができる。
このような構成によれば、分割対象データ群から任意に選択された複数のデータから分割基準候補を生成してデータ分割を行うので、分割対象データ群のすべてについて値を参照する必要がないので計算負荷が小さく、また、選択するデータへの依存性が低く適切な位置で分割することができる。すなわち、機械学習に利用される木構造の生成において学習対象データを適切に分割する分割基準を高速かつ適切に決定することができる。
また、分割対象データ群から任意に選択された複数のデータの平均値を分割基準候補とするので、選択されるデータへの異存性を低下させつつ、適切な分割基準を決定することができる。
(2.変形例)
上述の実施形態においては、学習対象データ数に拘らず、一定の分割手法を使用したが、本発明はそのような構成に限定されない。従って、例えば、学習対象データの数に応じて分割手法を切り替えてもよい。
図9は、変形例に係る情報処理装置200の機能ブロック図である。情報処理装置200は、第1の実施形態と略同一の機能を有する記憶部2、学習対象データ取得部21、決定木生成処理部22及び記憶出力部23に加え、さらに、切替処理部28を備えている。本変形例において、切替処理部28は、記憶部2から読み出された分割対象データの数に応じて木構造生成に使用する分割手法を切り替える。
分割対象データの数が所定の個数以下の場合には、データ分布が必ずしも信頼することができない可能性が高いためデータ分布の影響を受けにくい分割手法が好適である。そのため、切替処理部28は、データ分布の影響を受けにくい、上述の正規化を伴う分割手法(B)を使用して木構造を生成するよう設定する。一方、分割対象データの数が所定の個数以上の場合には、データ分布が信頼できる可能性が高いためデータ分布の影響を受ける分割手法が好適である。そのため、切替処理部28は、データ分布も考慮可能な上述の分割手法(D)等を使用して木構造を生成するよう設定する。
上述の実施形態においては、分割基準候補の生成にあたっては分割対象データ群から任意に選択された複数のデータの平均値を計算したが、本発明はこのような構成に限定されない。従って、分割基準候補の生成にあたっては分割対象データ群から任意に選択された複数のデータに対して他の分割処理を適用してもよい。
例えば、任意に選択された複数のデータに対して、さらに、上述の実施形態において言及した分割手法(B)(正規化を伴う分割基準の決定方法)又は分割手法(D)(ヒストグラムを利用した分割基準の決定方法)を適用してもよい。このような手法によれば、選択された限定的な個数のデータに対して処理を行うので計算負荷は比較的に高いもののデータ分布の考慮等が可能な分割手法を適用することができる。すなわち、分割基準決定の速度と適切な分割とを両立することができる。
上述の実施形態においては、単一の木構造(決定木)の生成処理及びその利用について言及したが、本発明はそのような構成に限定されない。従って、木構造の生成処理は、複数の木構造を利用したアンサンブル学習にも適用可能である。このアンサンブル学習には、例えば、木構造を利用したバギング、ブースティング等が含まれる。
ここで、木構造を利用したバギングとは、木構造を並列的に配置し、そのすべての木構造の推論値の平均や多数決をとる手法である(例として、ランダムフォレスト等)。また、木構造を利用したブースティングとは、木構造を直列的に配置し、直前の木構造で表現しきれなかった残差を学習する手法である。なお、アンサンブル学習を行う場合、これらいくつかの手法を組み合わせてもよい。例えば、バギングの一種であるランダムフォレストを階層的に配置し、ブースティングにより残差学習させる等してもよい。
本発明は、木構造を利用した機械学習技術を利用する種々の産業にて利用可能である。
1 制御部
2 記憶部
3 通信部
4 入力部
5 表示制御部
6 音声出力部
7 I/O部
11 学習対象データ取得部
12 決定木生成処理部
13 記憶処理部
15 入力データ取得部
16 推論処理部
17 データ出力部
21 学習対象データ取得部
22 決定木生成処理部
23 記憶出力部
28 切替処理部
100 情報処理装置
200 情報処理装置(変形例)

Claims (9)

  1. 分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理装置であって、
    前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、
    前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、
    各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、
    各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定部と、を備え
    前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理装置。
  2. 前記情報処理装置は、さらに、
    前記分割対象データ群のデータ数が所定数以上である場合に、前記データ分割基準候補の生成アルゴリズムを切り替える切替信号を生成する、切替部を備える、請求項1に記載の情報処理装置。
  3. 前記機械学習の手法は決定木である、請求項1に記載の情報処理装置。
  4. 前記機械学習の手法は、複数の木構造を利用するアンサンブル学習である、請求項1に記載の情報処理装置。
  5. 前記アンサンブル学習の手法は、木構造を利用したバギング又はブースティングのいずれか1つ若しくはその組み合わせである、請求項に記載の情報処理装置。
  6. 前記アンサンブル学習の手法は、ランダムフォレストである、請求項に記載の情報処理装置。
  7. 分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理方法であって、
    前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、
    前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、
    各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、
    各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定ステップと、を備え
    前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理方法。
  8. 分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理プログラムであって、
    前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、
    前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、
    各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、
    各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定ステップと、を備え
    前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理プログラム。
  9. 分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理システムであって、
    前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、
    前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、
    各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、
    各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定部と、を備え
    前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理システム。
JP2021517713A 2020-02-10 2020-11-12 情報処理装置、方法、プログラム及びシステム Active JP6918397B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020020833 2020-02-10
JP2020020833 2020-02-10
PCT/JP2020/042292 WO2021161603A1 (ja) 2020-02-10 2020-11-12 情報処理装置、方法、プログラム及びシステム

Publications (2)

Publication Number Publication Date
JP6918397B1 true JP6918397B1 (ja) 2021-08-11
JPWO2021161603A1 JPWO2021161603A1 (ja) 2021-08-19

Family

ID=77172758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021517713A Active JP6918397B1 (ja) 2020-02-10 2020-11-12 情報処理装置、方法、プログラム及びシステム

Country Status (3)

Country Link
US (1) US20220358413A1 (ja)
EP (1) EP4105844A4 (ja)
JP (1) JP6918397B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7437545B2 (ja) 2022-03-04 2024-02-22 株式会社日立製作所 供給元自動ランク付け方法、供給元自動ランク付け装置及び供給元自動ランク付けプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063959A (ja) * 2010-09-15 2012-03-29 Ricoh Co Ltd 索引方法、検索方法、及びその記憶媒体
JP2016091166A (ja) * 2014-10-31 2016-05-23 カシオ計算機株式会社 機械学習装置、機械学習方法、分類装置、分類方法、プログラム
JP2017010436A (ja) * 2015-06-25 2017-01-12 富士電機株式会社 誤差幅推定装置、誤差幅推定システム、誤差幅推定方法及びプログラム
WO2020008919A1 (ja) * 2018-07-04 2020-01-09 株式会社エイシング 機械学習装置及び方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5675214B2 (ja) * 2010-08-18 2015-02-25 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
US10417575B2 (en) * 2012-12-14 2019-09-17 Microsoft Technology Licensing, Llc Resource allocation for machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063959A (ja) * 2010-09-15 2012-03-29 Ricoh Co Ltd 索引方法、検索方法、及びその記憶媒体
JP2016091166A (ja) * 2014-10-31 2016-05-23 カシオ計算機株式会社 機械学習装置、機械学習方法、分類装置、分類方法、プログラム
JP2017010436A (ja) * 2015-06-25 2017-01-12 富士電機株式会社 誤差幅推定装置、誤差幅推定システム、誤差幅推定方法及びプログラム
WO2020008919A1 (ja) * 2018-07-04 2020-01-09 株式会社エイシング 機械学習装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7437545B2 (ja) 2022-03-04 2024-02-22 株式会社日立製作所 供給元自動ランク付け方法、供給元自動ランク付け装置及び供給元自動ランク付けプログラム

Also Published As

Publication number Publication date
EP4105844A4 (en) 2024-04-03
US20220358413A1 (en) 2022-11-10
JPWO2021161603A1 (ja) 2021-08-19
EP4105844A1 (en) 2022-12-21

Similar Documents

Publication Publication Date Title
Singh et al. A new optimal feature selection scheme for classification of power quality disturbances based on ant colony framework
KR102654884B1 (ko) 대화형 정보 제공 서비스 방법 및 이를 위한 장치
JP2006276854A (ja) オーディオデータ分類方法
JP6918397B1 (ja) 情報処理装置、方法、プログラム及びシステム
JP2010511243A (ja) ファイルのコンテンツ識別子を比較するシステム
JP2019185244A (ja) 学習プログラム及び学習方法
WO2021161603A1 (ja) 情報処理装置、方法、プログラム及びシステム
CN110782020A (zh) 网络结构的确定方法、装置和电子系统
CN110704535A (zh) 数据分箱方法、装置、设备及计算机可读存储介质
Esmaeili et al. Feature selection as an improving step for decision tree construction
CN110489131A (zh) 一种灰度用户选取方法及装置
Maini et al. Optimal feature selection using elitist genetic algorithm
Paul et al. Robust incremental logistic regression for detection of anomaly using big data
Dasgupta et al. On the use of informed initialization and extreme solutions sub-population in multi-objective evolutionary algorithms
EP4091078A1 (en) Cluster update accelerator circuit
JP2009301557A (ja) 学習システム
Khoshgoftaar et al. A novel feature selection technique for highly imbalanced data
Collera Harvesting in delayed food web model with omnivory
Gwee Two Sub-Optimal Algorithms for an NP-Hard Dance Choreography Problem: Comparison of Genetic and Greedy Process Implementations
Covões et al. Low and high level classification using stacking
Gwee Two Sub-Optimal Algorithms for an NP-Hard Dance Choreography Problem
WO2003075182A1 (en) Apparatus and method for selecting an optimal decision tree for data mining
JP2019008640A (ja) 類似度計算装置及び類似度計算方法
EP4418171A1 (en) Information processing device, method, program, and system
CN116228484B (zh) 基于量子聚类算法的课程组合方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210329

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210329

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210329

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210714

R150 Certificate of patent or registration of utility model

Ref document number: 6918397

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250