JP7093527B2 - 情報処理装置、方法、プログラム及びシステム - Google Patents

情報処理装置、方法、プログラム及びシステム Download PDF

Info

Publication number
JP7093527B2
JP7093527B2 JP2020193712A JP2020193712A JP7093527B2 JP 7093527 B2 JP7093527 B2 JP 7093527B2 JP 2020193712 A JP2020193712 A JP 2020193712A JP 2020193712 A JP2020193712 A JP 2020193712A JP 7093527 B2 JP7093527 B2 JP 7093527B2
Authority
JP
Japan
Prior art keywords
inference
data
learning
output data
correct answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020193712A
Other languages
English (en)
Other versions
JP2022082254A (ja
Inventor
純一 出澤
志門 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AISing Ltd
Original Assignee
AISing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AISing Ltd filed Critical AISing Ltd
Priority to JP2020193712A priority Critical patent/JP7093527B2/ja
Priority to US18/034,981 priority patent/US20240020581A1/en
Priority to EP21894283.7A priority patent/EP4250191A1/en
Priority to PCT/JP2021/031189 priority patent/WO2022107408A1/ja
Priority to JP2022087606A priority patent/JP2022118026A/ja
Publication of JP2022082254A publication Critical patent/JP2022082254A/ja
Application granted granted Critical
Publication of JP7093527B2 publication Critical patent/JP7093527B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Description

この発明は、機械学習、特にアンサンブル学習を行う情報処理装置等に関する。
機械学習の手法として、複数の学習器、特に複数の弱学習器を利用してより精度の高い学習器を実現するアンサンブル学習が知られている。このアンサンブル学習には、大別して、ブースティング学習とバギング学習がある。
ブースティング学習には様々なバリエーションが存在するものの、代表的な手法として、例えば、勾配ブースティングがある(例えば、特許文献1)。
図20は、勾配ブースティングにおける学習器構成の概念図である。同図の例にあっては、学習器として決定木が採用され、決定木がTreeNum個、直列的に配置されている。このような構成を前提として、機械学習処理及び推論処理が行われる。なお、本明細書においては、機械学習を行った学習済の学習器を推論器と称することがある。
図21は、勾配ブースティングにより各学習器に対して行われる学習処理の概念図である。同図において、入力データはX、学習対象となる正解データはyとして示されている。
同図から明らかな通り、n = 1番目の学習器に対しては、入力Xと、yに学習率ηを乗じた勾配値ηyに基づいて、教師あり学習(フィッティング)が行われる(この操作を関数Fit(X,y)として示す)。また、n = 2番目の学習器に対しては、入力Xと、学習後の1番目の学習器の推論出力(pred1)とyとの差分に学習率ηを乗じた勾配値に基づいて、教師あり学習が行われる(Fit(X,y - pred1))。さらに、n = 3番目の学習器に対しては、入力Xと、学習後の1番目の学習器の推論出力(pred1)と学習後の2番目の学習器の推論出力(pred2)をyから減算した値に学習率ηを乗じた勾配値に基づいて、教師あり学習が行われる(Fit(X,y - pred1 - pred2))。このような学習処理がn = TreeNumに至るまで逐次的に行われる。すなわち、各学習器において、より上位の学習器の推論誤差を減少させるように逐次的に学習が行われる。
一方、対応する推論処理として、まず、推論の基礎となる所定の入力データが各学習器へと提供される。その後、入力データに対応する各学習器からの推論出力、例えば、入力データに対応する決定木の出力ノードに対応付けられた出力値が演算され又は読み出される。最後に、各学習器からの推論出力を加算等することにより、最終的なブースティングの推論出力が生成される。
一方、バギング学習にも様々な態様が存在するものの、代表的な手法として、例えば、ランダムフォレストがある。
図22は、ランダムフォレストにおける学習器構成の概念図である。同図から明らかな通り、ランダムフォレストにおいては、まず、同一の学習対象データ群から、ブートストラップ法等により複数のデータが選択され、複数のデータ群が生成される。その後、各データ群に基づいて、それぞれ決定木を生成することにより学習が行われる。
また、対応する推論処理として、所定の入力データに対する各決定木の推論出力に基づいて、最終的なランダムフォレストとしての推論出力が生成される。例えば、決定木が回帰木である場合には、推論の基礎となる入力データに対応する各決定木の出力ノードに対応する出力yiの相加平均を算出することにより推論出力y_hatが生成される。
特開2019-212171号
ところで、近年、運用後の学習対象モデルの変化(コンセプトドリフト)に適応させること等を目的として、運用後に得られたデータに基づいて、学習済モデルへと追加的に学習を行うことが行われている。
しかしながら、そもそも、上述のようなアンサンブル型学習器において、追加学習を行うことは一般的ではなく、その手法は未だ十分に確立されていない。特に、アンサンブル型学習器は、複数の学習器から構成されるため、各学習器の学習が必要となるが、そのような学習構成において各学習器に対して更新量をどのように分配するかについて適切な方法論が提案されていなかった。この分配が歪となれば、アンサンブル型学習器全体として適切な更新ができず、その結果、種々の不都合が生じるおそれがあった。
例えば、上述の通り、ブースティング学習器を構成する各学習器は、上位学習器の推論出力の積算値と正解値との誤差を学習する構成を有している。しかしながら、同構成を基本として単に追加学習を行おうとすれば、各学習器の学習対象は上位推論器の推論出力に依存することから、各学習器の更新量やその符号はまちまちとなる。その結果、ブースティング型学習器全体として見た場合に更新量が歪となり、その結果、収束安定性が良好でない等の不都合が生じ得た。
本発明は、上述の技術的背景の下になされたものであり、その目的とするところは、複数の学習器から成るアンサンブル型学習器において、各学習器へと分配される更新量を最適化することを可能とする追加学習手法及びそれを実行する情報処理装置等を提供することにある。
本発明のさらに他の目的並びに作用効果については、明細書の以下の記述を参照することにより、当業者であれば容易に理解されるであろう。
上述の技術的課題は、以下の構成を有する情報処理装置等により解決することができる。
すなわち、本発明に係る情報処理装置は、入力データと前記入力データに対応する正解データを取得する、データ取得部と、複数の推論器の各推論結果に基づいて推論を行うアンサンブル学習型推論器へと、前記入力データを入力することにより、前記アンサンブル学習型推論器の推論出力データを生成する、推論出力データ生成部と、前記推論出力データと前記正解データに基づく更新量を用いて、前記アンサンブル学習型推論器を構成する各前記推論器の一部又は全部に対して追加学習処理を行う、追加学習処理部と、を備えている。
このような構成によれば、アンサンブル学習型推論器の最終的な出力である推論出力データと正解データに基づく更新量を用いて各推論器に対して追加学習を行うので、複数の学習器から成るアンサンブル型学習器において、各学習器へと分配される更新量を最適化することができる。
前記アンサンブル学習型推論器は、各前記推論器がより上位の推論器群による推論誤差を減少させるように逐次的に学習されて成る複数の推論器で構成されるブースティング学習型推論器であってもよい。
このような構成によれば、ブースティング学習型推論器の最終的な出力である推論出力データと正解データに基づく更新量を用いて各推論器に対して追加学習を行うので、学習を並列化することが可能となり、追加学習に係る時間を低減することができる。また、ブースティング推論器を構成する各推論器に対して同一の更新量が適用されると共にその符号が同一となるので、鍛造的な学習が可能となり、収束安定性を向上させることができる。
前記アンサンブル学習型推論器は、同一の学習対象データ群から抽出された複数のデータ群に基づいてそれぞれ学習されて成る複数の推論器の各推論結果に基づいて推論を行うバギング学習型推論器であってもよい。
このような構成によれば、バギング学習型推論器の最終的な出力である推論出力データと正解データに基づく更新量を用いて各推論器に対して追加学習を行うので、全体最適的な更新を行うことができる。
前記更新量は、前記推論出力データと前記正解データの差分に基づく値であってもよい。
このような構成によれば、アンサンブル学習型推論器の最終的な出力である推論出力データと正解データの差分に基づく更新量を用いて、各推論器に対して追加学習を行うことができる。
前記更新量は、前記推論出力データと前記正解データの差分に学習率を乗じた値に基づく値であってもよい。
このような構成によれば、アンサンブル学習型推論器の最終的な出力である推論出力データと正解データの差分に基づく更新量を用いて、各推論器に対して追加学習を行うことができる。また、学習率によりその更新の程度を調整することができる。
前記更新量は、前記推論出力データと前記正解データの差分に学習率を乗じた値を前記アンサンブル学習型推論器を構成する推論器の個数で除した値であってもよい。
このような構成によれば、アンサンブル学習型推論器の最終的な出力である推論出力データと正解データの差分に基づく更新量を用いて、各推論器に対して追加学習を行うことができる。また、学習率によりその更新の程度を調整することができる。さらに、ブースティング推論器のサイズに合わせて、各推論器へと更新量を分配することができる。
前記推論器は、学習済みの決定木であってもよい。
このような構成によれば、決定木を利用して推論及び追加学習処理を行うことができる。
前記追加学習処理は、各前記推論器を構成する決定木の推論出力に対して前記更新量を積算する処理であってもよい。
このような構成によれば、決定木において計算コストが小さい追加学習処理を行うことができ、高速に追加学習を行うことができる。
前記推論器は、学習済みのニューラルネットワークであってもよい。
このような構成によれば、ニューラルネットワークを利用して推論及び追加学習処理を行うことができる。
前記追加学習処理は、各前記推論器を構成するニューラルネットワークに対して、前記更新量を逆伝播して前記ニューラルネットワークのパラメータを更新する処理であってもよい。
このような構成によれば、ニューラルネットワークに対して誤差を逆伝播させることにより追加学習を行うことができる。なお、逆伝播は必ずしも逐次的に行う必要はなく、ミニバッチ的に行ってもよい。
前記ブースティング学習型推論器は、さらに、訓練用入力データと前記訓練用入力データに対応する訓練用正解データに基づいて生成された第1の近似関数へと、前記入力データを入力して第1の出力データを生成する、第1出力データ生成部と、前記訓練用入力データと、前記訓練用入力データを前記第1の近似関数へと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより生成された第2の学習済モデルへと、前記入力データを入力して第2の出力データを生成する、第2出力データ生成部と、前記第1の出力データと前記第2の出力データとに基づいて最終出力データを生成する、最終出力データ生成部と、を備える第1の推論器を含み、前記追加学習処理は、前記正解データと前記第1の出力データの差分データと、前記推論出力データに基づく更新量を用いて、前記第2の学習済モデルを更新する処理であってもよい。
このような構成によれば、第1の近似関数の出力と正解データとの差分を学習した第2の学習済モデルのみを更新するので、一定の出力精度を担保しつつもモデルの特性変化に適応可能となる。
前記ブースティング学習型推論器において、所定の推論器以下の推論器のみが前記第1の推論器として構成されている、ものであってもよい。
このような構成によれば、出力への寄与が相対的に小さい下位推論器のみを学習により更新させるので、微調整を行うことができる。
前記第1の近似関数は、前記訓練用入力データと前記訓練用正解データに基づいて機械学習を行うことにより生成された第1の学習済モデルであってもよい。
このような構成によれば、機械学習により第1の近似関数を生成することができる。
前記第1の近似関数は、前記訓練用入力データと前記訓練用正解データとの関係を定式化した関数であってもよい。
このような構成によれば、第1の近似関数を訓練データの定式化により生成することができる。
前記正解データがラベルである場合、前記ラベルを数値へと変換する変換処理部、をさらに備える、ものであってもよい。
このような構成によれば、分類問題を回帰問題として扱うことができる。
前記追加学習処理は、オンライン学習であってもよい。
このような構成によれば、オンライン学習により入力されるデータを逐次的に都度学習するので、学習対象の特性変化に対して柔軟に対応することができる。
本発明は方法として観念することもできる。すなわち、本発明に係る方法は、入力データと前記入力データに対応する正解データを取得する、データ取得ステップと、複数の推論器の各推論結果に基づいて推論を行うアンサンブル学習型推論器へと、前記入力データを入力することにより、前記アンサンブル学習型推論器の推論出力データを生成する、推論出力データ生成ステップと、前記推論出力データと前記正解データに基づく更新量を用いて、前記アンサンブル学習型推論器を構成する各前記推論器の一部又は全部に対して追加学習処理を行う、追加学習処理ステップと、を備えている。
本発明はプログラムとして観念することもできる。すなわち、本発明に係るプログラムは、入力データと前記入力データに対応する正解データを取得する、データ取得ステップと、複数の推論器の各推論結果に基づいて推論を行うアンサンブル学習型推論器へと、前記入力データを入力することにより、前記アンサンブル学習型推論器の推論出力データを生成する、推論出力データ生成ステップと、前記推論出力データと前記正解データに基づく更新量を用いて、前記アンサンブル学習型推論器を構成する各前記推論器の一部又は全部に対して追加学習処理を行う、追加学習処理ステップと、を備えている。
本発明はシステムとして観念することもできる。すなわち、本発明に係るシステムは、入力データと前記入力データに対応する正解データを取得する、データ取得部と、複数の推論器の各推論結果に基づいて推論を行うアンサンブル学習型推論器へと、前記入力データを入力することにより、前記アンサンブル学習型推論器の推論出力データを生成する、推論出力データ生成部と、前記推論出力データと前記正解データに基づく更新量を用いて、前記アンサンブル学習型推論器を構成する各前記推論器の一部又は全部に対して追加学習処理を行う、追加学習処理部と、を備えている。
本発明は制御装置として観念することもできる。すなわち、本発明に係る制御装置は、対象装置を制御するための制御装置であって、前記対象装置から、入力データと前記入力データに対応する正解データを取得する、データ取得部と、複数の推論器の各推論結果に基づいて推論を行うアンサンブル学習型推論器へと、前記入力データを入力することにより、前記アンサンブル学習型推論器の推論出力データを生成する、推論出力データ生成部と、前記推論出力データと前記正解データに基づく更新量を用いて、前記アンサンブル学習型推論器を構成する各前記推論器の一部又は全部に対して追加学習処理を行う、追加学習処理部と、を備えている。
本発明によれば、複数の学習器から成るアンサンブル型学習器において、各学習器へと分配される更新量を最適化することができる追加学習手法及びそれを実行する情報処理装置等を提供することができる。
図1は、初期学習を行う情報処理装置の機能ブロック図である。 図2は、制御装置の機能ブロック図である。 図3は、第1の実施形態に係るゼネラルフローチャートである。 図4は、制御装置において実行される処理の詳細フローチャートである。 図5は、推論処理に基づく制御処理の詳細フローチャートである。 図6は、追加学習処理の詳細フローチャートである。 図7は、第1の実施形態に係る更新処理の概念図である。 図8は、第1の実施形態に係る追加学習における更新量の概念図である。 図9は、鍛造的な更新に関する説明図である。 図10は、追加学習の作用に関する説明図である。 図11は、ブースティング推論器の推論精度に関する比較実験例である。 図12は、第2の実施形態に係るゼネラルフローチャートである。 図13は、初期学習時のブースティング推論器を構成する各学習モデルの概念図である。 図14は、稼働処理の詳細フローチャートである。 図15は、ブースティング推論器を構成する各推論器における推論処理の概念図である。 図16は、ブースティング推論器を構成する各推論器において行われるオンラインによる追加学習の概念図である。 図17は、第3の実施形態に係る更新処理の概念図である。 図18は、回帰木を利用して分類問題を解く手法の概要について示す説明図である。 図19は、回帰木を利用して分類問題を解く手法において追加学習が行う場合の説明図である。 図20は、勾配ブースティングにおける学習器構成の概念図である。 図21は、勾配ブースティングにより各学習器に対して行われる学習処理の概念図である。 図22は、ランダムフォレストにおける学習器構成の概念図である。
以下、本発明の実施の一形態を、添付の図面を参照しつつ、詳細に説明する。
(1.第1の実施形態)
図1~図11を参照しつつ、本発明の第1の実施形態について説明する。本実施形態においては、所定の情報処理装置100上で初期学習を行って学習済モデルを生成した後に、当該学習済モデルを所定の制御対象装置を制御する制御装置200へと搭載し、その後、制御を行うことにより制御対象装置から得られるデータを元に、制御装置200において追加学習を行う例について説明する。
なお、本実施形態において、制御対象装置は特に限定されない。従って、例えば工場内の作業機械であってもよいし乗用車等の車両であってもよい。また、制御対象装置に機械的要素が含まれている必要もなく、例えば、情報処理装置上での情報の操作であってもよい。
(1.1 構成)
図1は、初期学習を行う情報処理装置100の機能ブロック図である。同図から明らかな通り、情報処理装置100は、記憶部2、学習対象データ取得部11、ブースティング推論器生成処理部12及び記憶処理部13を備えている。
なお、情報処理装置100は、本実施形態においてはPC(パーソナル・コンピュータ)であるが、情報処理機能を有する装置であれば他の装置でもよい。本実施形態においては、ブースティング学習により得られた学習済モデル又は推論器をブースティング推論器、ブースティング学習型推論器等と称することがある。なお、推論の語は、学習済モデルの出力を意味し、例えば、予測、推定等といった言葉と置換してもよい。
図1は、情報処理装置100の機能ブロック図であり、情報処理装置100は、ハードウェアとして、CPUやGPU等の制御部、ROM、RAM、ハードディスク及び/又はフラッシュメモリ等から成る記憶部、通信ユニット等から成る通信部、入力部、表示制御部、I/O部等を備えている。上記の各機能は、主に制御部において実現される。
記憶部2は、機械学習による学習の対象となるデータを記憶している。学習対象データは、所謂訓練データ乃至教師データであり、例えば、予め制御対象装置から取得されたデータやシミュレーションで得られたデータ等である。
図2は、制御対象装置へと組み込まれる組込システムである制御装置200の機能ブロック図である。制御装置200は、推論処理と追加学習処理を行う。同図から明らかな通り、制御装置200は、入力データ取得部21、推論処理部22、データ出力部24、記憶部26及び追加学習処理部28を備えている。
なお、図2は、制御装置200の機能ブロック図であり、制御装置200は、ハードウェアとして、CPU等の制御部、ROM、RAM及び/又はフラッシュメモリ等のメモリから成る記憶部、I/O部等を備えている。上記の各機能は、主に制御部において実現される。
なお、ハードウェア構成は上述の構成に限定されない。従って、例えば、複数の装置から成るシステム等として構成してもよい。
(1.2 動作)
次に、図3~図11を参照しつつ、本実施形態に係る発明の動作について説明する。
図3は、第1の実施形態に係るゼネラルフローチャートであり、より詳細には、初期学習を行ってから制御装置200を稼働させ追加学習を行うまでの手順に関するフローチャートである。
同図から明らかな通り、まず、初期学習処理が行われる(S1)。初期学習処理においては、予め制御対象装置から取得された訓練データ等を用いて、情報処理装置100上でブースティング学習が行われ、制御対象装置の制御に最適な学習済モデル、特に、ブースティング推論器が生成される。なお、本実施形態において使用する学習器は決定木であり、特に、連続的な数値を出力可能な回帰木である。
より詳細には、図20及び図21で示したように、各学習器において、上位の学習器の推論誤差を減少させるように逐次的に学習を行う。すなわち、学習対象データ取得部11は、所定の入力データと正解データとの組合せを読み出す。その後、ブースティング推論器生成処理部12が、入力データと正解データの組み合わせに基づいて推論器として機能する一連の学習済モデルを生成する。
より詳細には、ブースティング推論器生成処理部12は、入力データと正解データの組み合わせに基づいて、まず、最上位の決定木において教師あり学習を行う。その後、ブースティング推論器生成処理部12は、下位の決定木に対して、入力データと、学習後の最上位決定木の入力データに対応する出力と正解データの差分データに基づいて、教師あり学習を行う。このような処理を最下位の学習器まで逐次的に繰り返すことにより、ブースティング推論器が生成される。
なお、決定木の教師あり学習の手法として、既知の種々の方法を採用することが出来る。例えば、当業者にはよく知られるように、学習用データから情報利得が最大となるデータ分割基準を決定し、当該基準に沿ってデータを分割することを繰り返することにより学習を行ってもよい。また、推論段階においては、入力データを学習により得られた分割基準に基づいて分類して出力ノードを特定し、当該出力ノードに対応付けられたデータの相加平均を算出する等して推論出力データを得てもよい。なお、このとき、推論出力データは、予め出力ノードに対応付けられていてもよいし、都度新たに演算してもよい。
また、初期学習の手法は本実施形態の手法に限定されない。例えば、最上位の学習器においては学習を行わず、単に、最上位学習器の推論値と正解データの平均値を出力するものとしてもよい。
その後、記憶処理部13は、生成されたブースティング推論器を記憶部2へと記憶して、初期学習処理は終了する。
図3に戻り、初期学習処理(S1)が完了すると、次に初期学習を行うことにより生成された学習済モデルであるブースティング推論器を制御装置200へと搭載する処理が行われる(S3)。
本実施形態において、ブースティング推論器の制御装置200への搭載処理は、情報処理装置100と制御装置200とを有線又は無線により接続して転送することにより行われる。このとき、LANやインターネット等を介してもよい。なお、ブースティング推論器の搭載処理は、制御装置200上においてブースティング推論器による推論処理が可能とするような構成であればいずれの形態でもよく、本実施形態の構成に限定されない。例えば、ブースティング推論器を情報処理装置100からインターネット等のネットワークを介して送信し、制御装置200へと記憶させる処理としてもよいし、ブースティング推論器として機能する回路として制御装置200へと搭載してもよい。なお、本実施形態においては、情報処理装置100上で初期学習を行う構成としたが、制御装置200上で初期学習も行われる構成としてもよい。
制御装置200へのブースティング推論器の搭載処理終了後、制御装置200をさらに制御対象装置へと搭載し又は接続し、制御対象装置を稼働する処理が行われる(S5)。
図4は、制御対象装置の稼働中において制御装置200において実行される処理の詳細フローチャートである。同図から明らかな通り、処理が開始すると、推論処理に基づく制御対象装置の制御処理が行われる(S51)。
図5は、推論処理に基づく制御処理(S51)の詳細フローチャートである。同図から明らかな通り、処理が開始すると、入力データ取得部21は、制御対象装置から入力データを取得する処理を行う(S511)。
入力データは、制御対象装置から得られ、推論の基礎となる種々のデータである。例えば、制御対象装置が車両であって、ブレーキ直前の車両速度を入力として制動距離を推論するような場合には、入力データはブレーキ直前の車両速度である。
次に、推論処理部22は、最新のブースティング推論器を記憶部26から読み出す処理を行う(S513)。
その後、推論処理部22は、読み出したブースティング推論器に対して入力データを入力して推論処理を行い、出力データを生成する(S514)。すなわち、ブースティング推論器を構成する学習済決定木である各推論器に対して入力データが入力されることで、各ノードに対応付けられた分岐条件に応じて分類が行われ出力ノードが特定される。その後、各推論器において特定された出力ノードに対応付けられた出力データを加算することで、最終的なブースティング推論器の出力データが生成される。なお、この出力データは、上述の例で言えば制動距離に相当する。
この後、生成された出力データは、データ出力部24によって制御装置200から出力される(S516)。この出力データは図示しない制御対象装置へと提供されて、装置制御に利用される。その後、処理は終了する。
図4に戻り、推論処理に基づく制御処理が完了すると、次に、追加学習処理が行われる(S52)。
図6は、追加学習処理(S52)の詳細フローチャートである。同図から明らかな通り、処理が開始すると、追加学習処理部28は、記憶部26から最新の学習済モデル、すなわち、ブースティング推論器を読み出す処理を行う(S521)。
さらに、追加学習処理部28は、記憶部26から入力データを取得し、制御対象装置から入力データに対応する実際のデータである正解データを取得する処理を行う(S522)。例えば、制御対象装置が車両であって、ブレーキ直前の車両速度を入力として制動距離を推論するような場合には、正解データは車両から取得された実際の制動距離である。
その後、追加学習処理部28は、入力データと正解データとを利用してブースティング推論器に対して追加学習処理を行う(S524)。
より詳細には、追加学習処理部28は、まず、推論処理(S514)で得られたブースティング推論器の最終的な推論出力データy_hatと正解データyとの差分に学習率ηを乗じて、下記の数式の通り、勾配(ngrad)を計算する。
Figure 0007093527000001
なお、推論出力データy_hatと正解データyとの差分は、損失関数として二乗誤差を採用したことに由来するものであり、勾配の計算方法はこのような手法に限定されない。従って、例えば絶対値誤差などの他の損失関数に基づいて勾配を計算してもよい。
次に、この勾配をブースティング推論器を構成する各推論器に対して配分するようにして、各推論器の出力値ynを更新する。より詳細には、下記式の通り、各推論器の出力ノード(末端ノード)に対応する出力値ynに対して、勾配(ngrad)をブースティング推論器を構成する決定木の数(TreeNum)で除した値を足し合わせることにより更新する。
Figure 0007093527000002
なお、上記の式において、等号は、右辺の値の左辺の値への代入を表している。また、出力ノードに対応する出力値の更新方法は、このような方法に限定されず、様々な変形が可能である。例えば、更新量と更新前の出力値とで相加平均や加重平均をとる等してもよい。
このように、決定木の構造を変化させることなく、単に出力データに足し合わせる方法により決定木を更新することによれば、追加学習にあたって、深さ等の決定木の構造に関する変化も生じず、分岐条件の計算等の比較的に大きな演算量を要する演算も不要となる。そのため、追加学習の計算コストが小さく、追加学習を行っても推論時間に変化もなく、さらに、追加の記憶容量等も必要としない、決定木の追加学習手法を提供することができる。これにより、例えば、限られたハードウェア資源下で決定木についてオンライン追加学習を行う場合等であっても、制御の信頼性・安全性を担保できる制御装置を提供することができる。
図7は、本実施形態に係る更新処理の概念図である。同図から明らかな通り、本実施形態においては、ブースティング推論器の最終的な推論結果である推論出力データy_hatと正解データyとの差分に学習率ηを乗じた値を決定木の数で除した値に基づいて、ブースティング推論器を構成する各推論器の出力ノードに対応付けられた出力データが更新されている。
このような構成によれば、上位学習器からの逐次的な学習を行う必要がないので学習を並列化することが可能となり、追加学習に係る時間を低減することができる。これにより制御対象装置を動作させて得られたデータで都度追加学習を行う所謂オンライン学習等が容易となる。
また、学習率ηによりその更新の程度を調整することができる。また、決定木の数に基づいて調整を行うので、ブースティング推論器のサイズに合わせて、各推論器へと適切な更新量を分配することができる。
さらに、ブースティング推論器を構成する各推論器に対して同一の更新量が適用されると共にその符号が同一となるので、鍛造的な学習が可能となり、学習の収束安定性を向上させることができる。
加えて、各推論器の出力ノードを等しい更新量を以て更新することとなるので、下位推論器ほど更新量が小さくなるという傾向を有するブースティング学習においても、適切な更新を行うことができる。
すなわち、複数の学習器から成るアンサンブル型学習器において、各学習器へと分配される更新量を最適化することができる追加学習手法及びそれを実行する情報処理装置等を提供することができる。
図8は、本実施形態に係る追加学習における更新量の概念図である。同図(a)は、従来のブースティング推論器における更新量の概念図、同図(b)は、本実施形態に係るブースティング推論器における更新量の概念図である。また、同図(a)及び同図(b)のいずれにおいても、上段には、例として3つの決定木の各分割空間における更新量が長方形で示され、また、矢印を挟んで、同図下段には、各決定木の更新量を積算したブースティング推論器全体における更新量が長方形で示されている。
同図(a)の状態において、図示される位置に相当する学習データが新たに入力されたものとする。このとき、この学習データに基づいて、決定木1では左から3番目の区間において正の更新量、決定木2では左から2番目の区間において負の更新量、決定木3では左から4番目の区間において正の更新量が生成される。このすべてを積算したものがブースティング推論器全体における更新量である。
同図の例から明らかな通り、積算した更新量は、区間を跨ぐ度に大小の落差をもって変動している。
これに対して、同図(b)の状態において、図示される位置に相当する学習データが新たに入力されたものとする。このとき、この学習データに基づいて、決定木1では左から3番目の区間において正の更新量、決定木2では左から2番目の区間において正の更新量、決定木3では左から4番目の区間において正の更新量が生成される。このとき、すべての更新量及びその符号は同一となる。このすべてを積算したものがブースティング推論器全体における更新量である。
同図の例から明らかな通り、本実施形態に係るブースティング推論器によれば、積算した更新量は、追加学習点を中心としたなだらかな更新量となっている。これにより、追加学習時の収束安定性の向上等が実現される。
図9は、鍛造的な更新に関する説明図である。図9(a)は、出力を増大させる方向の更新、図9(b)は、出力を減少させる方向の更新を表している。なお、横軸は決定木の番号を表し、木番号が増大する程、下位の決定木を表している。また、縦軸は出力を表している。さらに、グラフ中の実線は更新前の出力を表し、破線は更新後の出力を表している。
同図から明らかな通り、本実施形態に係る更新では、出力に対して、勾配を決定木の数で除した値を等しく足し合わせるので、すべての決定木出力を同一の符号の更新量で更新することができる。これにより、出力全体を押し上げたり押し下げたりするような学習が可能となる。このような作用は、機械学習の収束安定性に寄与する。
図10は、本実施形態に係る追加学習の作用について別の角度から説明する図である。同図左側には、ブースティング推論器を構成する各決定木が学習対象とする状態空間の概念図が、縦に3つ配置されている。また、同図右側には、それらの状態空間を重ね合わせた状態空間の概念図が配置されている。
同図左側の一番上の例にあっては、分割された各状態空間に、左上から時計回りでV、V、V、Vの記号が付されている。真ん中の例にあっては、分割された各状態空間に、左上から時計回りでV、V、V、Vの記号が付されている。一番下の例にあっては、分割された各状態空間に、左上から時計回りでV、V10、V12、V11の記号が付されている。
このような状態において、図において×で示される学習データが提供されると、同図においてドットによる網掛けがなされた領域、すなわち、V、V、Vの領域の出力が更新される。これらの更新される領域を重ね合わせると、同図右側の概念図の通り、学習点を中心としてその周辺領域を同一方向でなだらかに更新する構成となる。すなわち、学習点の周辺領域もなだらかに更新する鍛造的な学習が可能となっている。
図6に戻り、追加学習処理の完了後、追加学習処理部28は、追加学習されたブースティング推論器を記憶部26へと記憶する処理を行い(S526)、追加学習処理(S52)は終了する。
図4に戻り、再び推論処理に基づく制御処理(S51)が行われ、以降、処理は繰り返される。このような繰り返し処理は、図示しない終了信号の割り込み処理等があるまで繰り返される。
なお、本実施形態においては、出力データの更新を数式2を用いて行うものとしたが、本発明はこのような構成に限定されない。すなわち、ブースティング推論器の最終出力データと正解データに基づく更新量を用いた更新であれば他の手法であってもよい。
(1.3 実験例)
次に、図20乃至図21に係る従来のブースティング推論器と、本実施形態に係るブースティング推論器の推論精度に関する比較実験例について説明する。
図11(a)は、従来のブースティング推論器を用いた場合の学習回数と推論誤差(RMSE:二乗平均平方根誤差)との関係について示す図であり、図11(b)は、本実施形態に係る推論器を用いた場合の学習回数と推論誤差(RMSE:二乗平均平方根誤差)との関係について示す図である。
なお、いずれの図においても、新規学習としてブースティング推論器に対して正弦波(サイン波)を学習させた後、追加学習として、正弦波の位相を10度ずらした値を追加学習させている。また、ブースティング推論器を構成する推論器の個数は同一である。さらに、図において、0.01_ランダムは、学習率が0.01で正弦波の任意の点をランダムに学習させた場合を表し、0.01_シーケンスは、学習率が0.01で正弦波を構成する点を順に学習させた場合を表す。同様に、0.1_ランダムは、学習率が0.1で正弦波の任意の点をランダムに学習させた場合を表し、0.1_シーケンスは、学習率が0.1で正弦波を構成する点を順に学習させた場合を表す。
同図から明らかな通り、従来のブースティング推論器においては学習率によってはRMSEが振動しているのに対して、本実施形態に係るブースティング推論器においては、RMSEは学習率を変えても振動することなく安定して減少している。すなわち、本実施形態に係るブースティング推論器は、従来のブースティング推論器よりも収束安定性が良好であり、また、学習パラメータの調整が容易であることが把握される。
なお、本実施形態においては、ブースティング推論器を構成するすべての推論器(学習済モデル)をオンライン学習の対象として説明したが、このような構成に限定されない。従って、例えば、出力への寄与が一般に小さい所定の推論器より下位の推論器のみを本実施形態に係るオンライン学習がなされる学習器とし、所定の推論器以上の推論器を追加学習を行わない決定木として構成してもよい。
(2.第2の実施形態)
続いて、図12~図16を参照しつつ、本発明の第2の実施形態について説明する。本実施形態においては、ブースティング推論器を構成する各推論器を、オフライン学習がなされるモデルとオンライン学習がなされるモデルの2つのモデルを含む構成とする例について説明する。なお、装置構成等は、第1の実施形態と略同一であるので説明を省略し、以下では、対応する構成及び符号については、第2の実施形態において新たに定義されるものを除き、第1の実施形態と同様とする。
図12は、第2の実施形態に係るゼネラルフローチャートである。図12から明らかな通り、第2の実施形態においても、第1の実施形態と同様に、ブースティング推論器を生成するための初期学習処理(S7)、生成された学習済のブースティング推論器の搭載処理(S8)及び、追加学習を伴う制御対象装置の稼働処理(S9)が行われる。
初期学習処理(S7)が開始すると、まず、ブースティング推論器、すなわち、ブースティング推論器を構成する各推論器について上位から順に学習処理が行われる(図20及び図21も参照)。
図13は、初期学習時のブースティング推論器を構成する各学習モデルの概念図である。同図において、上段にはオフライン学習用モデルの学習処理が概念的に示されており、中段には、差分データの生成処理が概念的に示されており、下段には、オンライン学習用モデルの学習処理が概念的に示されている。同図を参照しつつ、以下説明する。
初期学習が開始すると、第1の実施形態と同様に訓練用入力データ31と訓練用正解データ32とから成る訓練用データのデータ群が読み出される。その後、各推論器においては、まず、オフライン学習用モデルに関して教師あり学習が行われる。すなわち、図13の上段から明らかな通り、訓練用入力データ31と訓練用正解データ32に基づいて、オフライン学習用モデルについて教師あり学習が行われる。なお、訓練用正解データ32は、最上位推論器においては、訓練用正解データ32であるが、それより下位の推論器においては、学習後の上位推論器の訓練用入力データ31に対応する推論出力データの積算値と正解データの差分である。
なお、本実施形態において、オフライン学習用モデルとして、既知の種々の学習モデルやその組み合わせを採用可能であるが、本実施形態においては決定木(回帰木)が採用される。なお、オフライン学習用モデルに代えて、学習を伴わない定式化モデルを採用してもよい。以下では、機械学習により得られた学習済モデルと、定式化に基づくモデルとを総称して単にモデルと呼ぶことがある。
その後、各推論器において、学習済のオフライン学習用モデルに対して差分データの生成処理が行われる。図13中段から明らかな通り、ブースティング推論器生成処理部12は、生成されたオフライン用学習済モデルに対して訓練用入力データ31を入力してその出力データ33(推論結果)を算出し、当該出力データ33と訓練用正解データ32との差分を算出することにより差分データ34を生成する処理を行う。
この差分データ34を生成した後、この差分データ34を正解データとしてオンライン学習用モデルについて学習処理を行う。図13下段から明らかな通り、ブースティング推論器生成処理部12は、訓練用入力データ31と差分データ34とを用いてオンライン学習用モデルについて機械学習を行い、オンライン学習用の学習済モデルを生成する処理を行う。なお、本実施形態において、この学習モデルも同様に回帰出力可能な決定木(回帰木)である。
すなわち、ブースティング推論器生成処理部12は、このような学習処理を、各学習データに対して、それぞれ上位推論器から下端の推論器に至るまで順に行い、学習済のブースティング推論器を生成する。
初期学習処理(S7)が完了すると、次に、第1の実施形態と同様に、生成されたブースティング推論器を制御装置200へと搭載する処理が行われ(S8)、制御対象装置の稼働処理(S9)が行われる。
図14は、稼働処理(S9)の詳細フローチャートである。同図から明らかな通り、第1の実施形態と同様に、ブースティング推論器の推論を利用して行われる制御対象装置の制御処理(S91)と、制御対象装置から得られた実際のデータ、すなわち、正解データに基づく追加学習処理(S92)が繰り返し行われる。
図15は、ブースティング推論器を構成する各推論器における推論処理の概念図である。同図から明らかな通り、入力データ取得部21により制御対象装置から得られた入力データ41が取得されると、推論処理部22は、当該入力データ41を、学習済のオフライン学習用モデルとオンライン学習用モデルへと入力する。オフライン学習用モデルとオンライン学習用モデルは、それぞれ推論処理を行い、オフライン学習用モデルの出力データである第1の出力データ42と、オンライン学習用モデルの出力データである第2の出力データ43をそれぞれ生成する。
推論処理部22は、その後、第1の出力データ42と第2の出力データ43を加算し、出力データ44を生成する。その後、推論処理部22は、各推論器から得られる出力データ44をすべて加算してブースティング推論器の推論出力データを生成し、データ出力部24を介して制御装置から出力する。この推論出力データは、制御対象装置へと提供されて制御に利用される。
推論処理に基づく制御対象装置の制御処理(S91)が完了すると、次に、追加学習処理(S92)が行われる。本実施形態において、追加学習処理はオンライン学習用モデルについてのみ行われる。
図16は、ブースティング推論器を構成する各推論器において行われるオンラインによる追加学習の概念図である。同図から明らかな通り、追加学習処理が開始すると、追加学習処理部28は、記憶部26から最新のブースティング推論器と、直近の入力データ41と正解データ51とを読み出す。
その後、追加学習処理部28は、ブースティング推論器を構成する各推論器において、制御対象装置から取得された入力データ41を、オフライン学習用の学習済モデルへと入力し、その推論結果である出力データ42を生成する。そして、この出力データ42と、入力データ41に対応して制御対象装置から取得された正解データ51との差分から、差分データ52を生成する。
追加学習処理部28は、この差分データ52と入力データ41とに基づいて、各推論器のオンライン学習用モデルを更新して、追加学習する処理を行う。
より詳細には、以下の通り追加学習する処理を行う。まず、差分データ52をE、正解データ51をy、オフライン学習用モデルの出力データ42をypredoffとすると、以下の通り表される。
Figure 0007093527000003
追加学習処理部28は、この差分データ52を学習するため、差分データ52とオンライン学習用モデルの推論出力ypredonとの差分に学習率ηを乗じて、下記数式の通り、勾配ngradを計算する。
Figure 0007093527000004
そして、追加学習処理部28は、この勾配をブースティング推論器を構成する各推論器に対して配分するようにして、各推論器のオンライン用学習用モデルの出力値を更新する。より詳細には、下記数式の通り、各推論器のオンライン学習用モデルの出力ノード(末端ノード)に対応する出力値yonに対して、勾配(ngrad)をブースティング推論器を構成する推論器の個数、すなわち、決定木の数(TreeNum)で除した値を足し合わせることにより更新を行う。
Figure 0007093527000005
なお、上記の式において、等号は、右辺の値の左辺の値への代入を表している。また、出力ノードに対応する出力値の更新方法は、このような方法に限定されず、様々な変形が可能である。例えば、更新量と更新前の出力値とで相加平均や加重平均をとる等してもよい。
この追加学習処理完了後、追加学習処理部28は、決定木を記憶部26へと記憶する処理を行い、追加学習処理は終了する。
以降、推論処理に基づく制御対象装置の制御処理(S91)と追加学習処理(S92)を繰り返すことで、制御対象装置の稼働処理が行われる。
このような構成によれば、決定木の構造を変化させることなく、単に更新量を出力データに足し合わせる方法により決定木を更新するので、追加学習にあたって、深さ等の決定木の構造に関する変化も生じず、分岐条件の計算等の比較的に大きな演算量を要する演算も不要となる。そのため、追加学習の計算コストが小さく、追加学習を行っても推論時間に変化もなく、さらに、追加の記憶容量等も必要としない、決定木の追加学習手法を提供することができる。これにより、例えば、限られたハードウェア資源下で決定木についてオンライン追加学習を行う場合等であっても、制御の信頼性・安全性を担保できる制御装置を提供することができる。
本実施形態に係る構成によれば、上位学習器からの逐次的な学習を行う必要がないので学習を並列化することが可能となり、追加学習に係る時間を低減することができる。これにより制御対象装置を動作させる度に得られたデータで追加学習を行う所謂オンライン学習等が容易となる。
本実施形態に係る構成によれば、学習率ηによりその更新の程度を調整することができる。また、決定木の数に基づいて調整を行うので、ブースティング推論器のサイズに合わせて、各推論器へと適切な更新量を分配することができる。
本実施形態に係る構成によれば、ブースティング推論器を構成する各推論器に対して同一の更新量が適用されると共にその符号が同一となるので、鍛造的な学習が可能となり、学習の収束安定性を向上させることができる。
本実施形態に係る構成によれば、ブースティング推論器を構成する各推論器において、オフライン学習により事前に獲得された近似関数により一定の出力精度を担保しつつ、コンセプトドリフト等の対象の特性変化に対してオンライン学習により適応的な機械学習を行うことができる。すなわち、出力精度について一定の担保をしつつも対象の特性変化やモデル変化等に対して適応可能な機械学習技術を提供することができる。
すなわち、複数の学習器から成るアンサンブル型学習器において、各学習器へと分配される更新量を最適化することができる追加学習手法及びそれを実行する情報処理装置等を提供することができる。
なお、本実施形態においては、ブースティング推論器を構成するすべての推論器(学習済モデル)をオンライン学習用モデルとオフライン学習用モデルとから成るものとして説明したが、このような構成に限定されない。従って、例えば、出力への寄与が一般に小さい所定の推論器より下位の推論器のみを本実施形態に係るオンライン学習用モデルとオフライン学習用モデルとから成る学習器とし、所定の推論器以上の推論器を追加学習を行わない決定木として構成してもよい。
また、勾配等の計算は、ブースティングの最終出力データと正解データを利用するものであれば、本実施形態に係るものに限定されない。従って、様々な変形を行うことができる。例えば、下記の通り、学習データの個数DataNumを考慮して以下の通り勾配ngradを計算してもよい。なお、下記の式において、等号は、右辺の値の左辺の値への代入を表している。
Figure 0007093527000006
このような構成によれば、学習データ数が大きくなるに連れて更新量が小さくなるような更新を行うことができる。なお、これは第1の実施形態においても同様である。
(3.第3の実施形態)
続いて、図17を参照しつつ、本発明の第3の実施形態について説明する。本実施形態においては、アンサンブル学習の一類型として、バギング学習、特にランダムフォレストに対して追加学習を行う例について説明する。
なお、装置構成等は、第1の実施形態と略同一であるので説明を省略する。また、ブースティング推論器に代えてバギング推論器を利用する点を除いては、第1の実施形態と同様の動作を行うため、動作に関する説明を適宜省略する。なお、本実施形態において、バギング推論器の語は、バギング学習により生成された学習済モデルを指すものとし、他にバギング学習型推論器等と呼ぶことがある。
初期学習(S7)においては、情報処理装置100上で、図22で説明したランダムフォレスト、すなわちバギング推論器を生成する処理が行われる。生成されたバギング推論器は、制御装置200へと搭載される。その後、運用後に得られたデータに基づいて、バギング推論器に対して追加学習が行われる。
すなわち、追加学習処理(S52)において、処理が開始すると、追加学習処理部28は、記憶部26から最新の学習済モデル、すなわち、バギング推論器を読み出す処理を行う(S521)。
さらに、追加学習処理部28は、記憶部26から入力データを取得し、制御対象装置から入力データに対応する実際のデータである正解データを取得する処理を行う(S522)。
その後、追加学習処理部28は、入力データと正解データとを利用してバギング推論器に対して追加学習処理を行う(S524)。
より詳細には、追加学習処理部28は、まず、推論処理(S514)で得られたバギング推論器の最終的な推論出力データy_hatと正解データyとの差分に学習率ηを乗じて、勾配ngradを計算する。なお、推論出力データy_hatは、以下の数式により、TreeNum本の決定木の出力yiの相加平均をとることにより算出される。
Figure 0007093527000007
また、勾配ngradは、以下の通り、表される。
Figure 0007093527000008
なお、推論出力データy_hatと正解データyとの差分は、損失関数として二乗誤差を採用したことに由来するものであり、勾配の計算方法はこのような手法に限定されない。従って、例えば絶対値誤差などの他の損失関数に基づいて勾配を計算してもよい。
次に、この勾配をバギング推論器を構成する各推論器に対して配分するようにして、各推論器の出力値yを更新する。より詳細には、下記式の通り、各推論器の出力ノード(末端ノード)に対応する出力値yに対して、勾配(ngrad)を足し合わせることにより更新する。
Figure 0007093527000009
なお、上記の式において、等号は、右辺の値の左辺の値への代入を表している。また、出力ノードに対応する出力値の更新方法は、このような方法に限定されず、様々な変形が可能である。例えば、更新量と更新前の出力値とで相加平均や加重平均をとる等してもよい。
このように、決定木の構造を変化させることなく、単に出力データに足し合わせる方法により決定木を更新することによれば、追加学習にあたって、深さ等の決定木の構造に関する変化も生じず、分岐条件の計算等の比較的に大きな演算量を要する演算も不要となる。そのため、追加学習の計算コストが小さく、追加学習を行っても推論時間に変化もなく、さらに、追加の記憶容量等も必要としない、決定木の追加学習手法を提供することができる。これにより、例えば、限られたハードウェア資源下で決定木についてオンライン追加学習を行う場合等であっても、制御の信頼性・安全性を担保できる制御装置を提供することができる。
図17は、第3の実施形態に係る更新処理の概念図である。同図から明らかな通り、本実施形態においては、バギング推論器の最終的な推論結果である推論出力データy_hatと正解データyとの差分に学習率ηを乗じた値に基づいて、バギング推論器を構成する各推論器の出力ノードに対応付けられた出力データが更新されている。
このような構成によれば、学習率ηによりその更新の程度を調整することができる。
また、バギング推論器を構成する各推論器に対して同一の更新量が適用されると共にその符号が同一となるので、鍛造的な学習が可能となり、学習の収束安定性を向上させることができる。
すなわち、複数の学習器から成るアンサンブル型学習器において、各学習器へと分配される更新量を最適化することができる追加学習手法及びそれを実行する情報処理装置等を提供することができる。
(4.変形例)
本発明は、上述の実施形態に限定されず、様々に変形して実施することができる。
上述の実施形態においては、決定木のうち、特に、回帰木を利用して回帰問題を解く例について説明したが、本発明はそのような構成に限定されない。従って、上述の構成を利用して、分類問題を解くこともできる。
図18は、回帰木を利用して分類問題を解く手法の概要について示す説明図である。同図左側には、動物に関する3つのデータを、それぞれ高さ(Height)、重さ(Weight)、動物の種類(Animal)に着目してまとめた表が描かれている。この状態において、新たな商品の高さと重さに基づいて、動物の種類を推論する状況を検討する。
ここで、動物の種類は、同例にあっては「Cat(ネコ)」、「Dog(イヌ)」、及び「Rat(ネズミ)」であり、これらはラベルであるのでこのままでは回帰木で取り扱うことはできない。そこで所謂ワン・ホット・エンコーディング(One-Hot Encoding)を利用する。ワン・ホット・エンコーディングとは、変数を0と1のダミー変数を持つ新しい特徴量で置換する処理である。
同図右側には、ワン・ホット・エンコーディング処理後の各変数の状態を表した表が示されている。同図から明らかな通り、「動物の種類」の項目は、「Cat(ネコ)」、「Dog(イヌ)」、及び「Rat(ネズミ)」の3つの項目と置換され、対応する動物の種類について「1」、対応しない動物の種類について「0」が配置されている。このように、出力次元を1次元から3次元とするような変換処理を行うことで、分類問題を回帰問題として取り扱うことができる。
さらに、図19を参照しつつ、追加学習を行った場合について説明する。図19は、回帰木を利用して分類問題を解く手法において追加学習が行う場合の説明図である。同図左側の表にある通り、同表にさらに新たな入力データとして、高さ「75」、重さ「3」の「イヌ」のデータが追加されたとする。このとき、動物の種類の項目の値は、合計が1となる確率値として扱われ、高さ「75」、重さ「3」の動物の種類は、ネコ又は犬である確率がそれぞれ0.5(=50%)であるものとして算出される。すなわち、同図右表の通り更新される。
以上の構成をブースティング推論器を構成する各決定木に採用すれば、回帰木を利用して分類問題を解くことができる。ブースティング推論器の最終出力を得るには、例えば、各推論器の分類結果の多数決又は重み付きの多数決等としてもよい。
なお、上述のワン・ホット・エンコーディングを利用した例にあっては、各ラベルに対する値を直接確率値として取り扱う構成としたが、このような構成に限定されない。従って、例えば、各ラベルに対する値を下記のソフトマックス関数により確率値に変換することにより、回帰的に取り扱ってもよい。
Figure 0007093527000010
上述の実施形態においては、ブースティング推論器を構成する各機械学習モデルとして決定木を利用する例について説明したが、本発明はそのような構成に限定されない。従って、例えば、ニューラルネットワーク等他の機械学習モデルを採用してもよい。この場合、例えば、勾配と誤差逆伝播法等を用いて機械学習モデルを構成するパラメータの更新が行われる。
以上、本発明の実施形態について説明したが、上記実施形態は本発明の適用例の一部を示したに過ぎず、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。また、上記の実施形態は、矛盾が生じない範囲で適宜組み合わせ可能である。
本発明は、機械学習技術を利用する種々の産業等にて利用可能である。
2 記憶部
11 学習対象データ取得部
12 決定木生成処理部
13 記憶処理部
21 入力データ取得部
22 推論処理部
24 データ出力部
26 記憶部
28 追加学習処理部
100 情報処理装置
200 制御装置

Claims (20)

  1. 入力データと前記入力データに対応する正解データを取得する、データ取得部と、
    複数の推論器の各推論結果に基づいて推論を行うアンサンブル学習型推論器へと、前記入力データを入力することにより、前記アンサンブル学習型推論器の推論出力データを生成する、推論出力データ生成部と、
    前記推論出力データと前記正解データに基づく更新量を用いて、前記アンサンブル学習型推論器を構成する各前記推論器の一部又は全部に対して追加学習処理を行う、追加学習処理部と、
    を備える、情報処理装置。
  2. 前記アンサンブル学習型推論器は、各前記推論器がより上位の推論器群による推論誤差を減少させるように逐次的に学習されて成る複数の推論器で構成されるブースティング学習型推論器である、請求項1に記載の情報処理装置。
  3. 前記アンサンブル学習型推論器は、同一の学習対象データ群から抽出された複数のデータ群に基づいてそれぞれ学習されて成る複数の推論器の各推論結果に基づいて推論を行うバギング学習型推論器である、請求項1に記載の情報処理装置。
  4. 前記更新量は、前記推論出力データと前記正解データの差分に基づく値である、請求項1に記載の情報処理装置。
  5. 前記更新量は、前記推論出力データと前記正解データの差分に学習率を乗じた値に基づく値である、請求項1に記載の情報処理装置。
  6. 前記更新量は、前記推論出力データと前記正解データの差分に学習率を乗じた値を前記アンサンブル学習型推論器を構成する推論器の個数で除した値である、請求項1に記載の情報処理装置。
  7. 前記推論器は、学習済みの決定木である、請求項1に記載の情報処理装置。
  8. 前記追加学習処理は、各前記推論器を構成する決定木の推論出力に対して前記更新量を積算する処理である、請求項7に記載の情報処理装置。
  9. 前記推論器は、学習済みのニューラルネットワークである、請求項1に記載の情報処理装置
  10. 前記追加学習処理は、各前記推論器を構成するニューラルネットワークに対して、前記更新量を逆伝播して前記ニューラルネットワークのパラメータを更新する処理である、請求項9に記載の情報処理装置。
  11. 前記ブースティング学習型推論器は、さらに、
    訓練用入力データと前記訓練用入力データに対応する訓練用正解データに基づいて生成された近似関数へと、前記入力データを入力して第1の出力データを生成する、第1出力データ生成部と、
    前記訓練用入力データと、前記訓練用入力データを前記近似関数へと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより生成された学習済モデルへと、前記入力データを入力して第2の出力データを生成する、第2出力データ生成部と、
    前記第1の出力データと前記第2の出力データとに基づいて最終出力データを生成する、最終出力データ生成部と、を備える第1の推論器を含み、
    前記追加学習処理は、前記正解データと前記第1の出力データの差分データと、前記推論出力データに基づく更新量を用いて、前記学習済モデルを更新する処理である、請求項2に記載の情報処理装置。
  12. 前記ブースティング学習型推論器において、所定の推論器以下の推論器のみが前記第1の推論器として構成されている、請求項11に記載の情報処理装置。
  13. 記近似関数は、前記訓練用入力データと前記訓練用正解データに基づいて機械学習を行うことにより生成された第の学習済モデルである、請求項11に記載の情報処理装置。
  14. 記近似関数は、前記訓練用入力データと前記訓練用正解データとの関係を定式化した関数である、請求項11に記載の情報処理装置。
  15. 前記正解データがラベルである場合、前記ラベルを数値へと変換する変換処理部、をさらに備える、請求項1に記載の情報処理装置。
  16. 前記追加学習処理は、オンライン学習である、請求項1に記載の情報処理装置。
  17. 入力データと前記入力データに対応する正解データを取得する、データ取得ステップと、
    複数の推論器の各推論結果に基づいて推論を行うアンサンブル学習型推論器へと、前記入力データを入力することにより、前記アンサンブル学習型推論器の推論出力データを生成する、推論出力データ生成ステップと、
    前記推論出力データと前記正解データに基づく更新量を用いて、前記アンサンブル学習型推論器を構成する各前記推論器の一部又は全部に対して追加学習処理を行う、追加学習処理ステップと、
    を備える、情報処理方法。
  18. 入力データと前記入力データに対応する正解データを取得する、データ取得ステップと、
    複数の推論器の各推論結果に基づいて推論を行うアンサンブル学習型推論器へと、前記入力データを入力することにより、前記アンサンブル学習型推論器の推論出力データを生成する、推論出力データ生成ステップと、
    前記推論出力データと前記正解データに基づく更新量を用いて、前記アンサンブル学習型推論器を構成する各前記推論器の一部又は全部に対して追加学習処理を行う、追加学習処理ステップと、
    を備える、情報処理プログラム。
  19. 入力データと前記入力データに対応する正解データを取得する、データ取得部と、
    複数の推論器の各推論結果に基づいて推論を行うアンサンブル学習型推論器へと、前記入力データを入力することにより、前記アンサンブル学習型推論器の推論出力データを生成する、推論出力データ生成部と、
    前記推論出力データと前記正解データに基づく更新量を用いて、前記アンサンブル学習型推論器を構成する各前記推論器の一部又は全部に対して追加学習処理を行う、追加学習処理部と、
    を備える、情報処理システム。
  20. 対象装置を制御するための制御装置であって、
    前記対象装置から、入力データと前記入力データに対応する正解データを取得する、データ取得部と、
    複数の推論器の各推論結果に基づいて推論を行うアンサンブル学習型推論器へと、前記入力データを入力することにより、前記アンサンブル学習型推論器の推論出力データを生成する、推論出力データ生成部と、
    前記推論出力データと前記正解データに基づく更新量を用いて、前記アンサンブル学習型推論器を構成する各前記推論器の一部又は全部に対して追加学習処理を行う、追加学習処理部と、
    を備える、制御装置。
JP2020193712A 2020-11-20 2020-11-20 情報処理装置、方法、プログラム及びシステム Active JP7093527B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2020193712A JP7093527B2 (ja) 2020-11-20 2020-11-20 情報処理装置、方法、プログラム及びシステム
US18/034,981 US20240020581A1 (en) 2020-11-20 2021-08-25 Information processing apparatus, method, program, and system
EP21894283.7A EP4250191A1 (en) 2020-11-20 2021-08-25 Information processing device, method, program, and system
PCT/JP2021/031189 WO2022107408A1 (ja) 2020-11-20 2021-08-25 情報処理装置、方法、プログラム及びシステム
JP2022087606A JP2022118026A (ja) 2020-11-20 2022-05-30 情報処理装置、方法、プログラム及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020193712A JP7093527B2 (ja) 2020-11-20 2020-11-20 情報処理装置、方法、プログラム及びシステム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022087606A Division JP2022118026A (ja) 2020-11-20 2022-05-30 情報処理装置、方法、プログラム及びシステム

Publications (2)

Publication Number Publication Date
JP2022082254A JP2022082254A (ja) 2022-06-01
JP7093527B2 true JP7093527B2 (ja) 2022-06-30

Family

ID=81708755

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020193712A Active JP7093527B2 (ja) 2020-11-20 2020-11-20 情報処理装置、方法、プログラム及びシステム
JP2022087606A Pending JP2022118026A (ja) 2020-11-20 2022-05-30 情報処理装置、方法、プログラム及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022087606A Pending JP2022118026A (ja) 2020-11-20 2022-05-30 情報処理装置、方法、プログラム及びシステム

Country Status (4)

Country Link
US (1) US20240020581A1 (ja)
EP (1) EP4250191A1 (ja)
JP (2) JP7093527B2 (ja)
WO (1) WO2022107408A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020008919A1 (ja) 2018-07-04 2020-01-09 株式会社エイシング 機械学習装置及び方法
WO2020189565A1 (ja) 2019-03-15 2020-09-24 ダイキン工業株式会社 機械学習装置、及び、磁気軸受装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
JP6787861B2 (ja) * 2017-09-20 2020-11-18 日本電信電話株式会社 分類装置
JP7087695B2 (ja) 2018-06-07 2022-06-21 株式会社リコー 学習装置および学習方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020008919A1 (ja) 2018-07-04 2020-01-09 株式会社エイシング 機械学習装置及び方法
WO2020189565A1 (ja) 2019-03-15 2020-09-24 ダイキン工業株式会社 機械学習装置、及び、磁気軸受装置

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
@woodyZootopia,「Kaggle Masterが勾配ブースティングを解説する」,Qiita,[online],2019年09月12日,[令和3年10月16日検索], インターネット, <URL: https://qiita.com/woodyZootopia/items/232e982094cd3c80b3ee>.
Aurelien Geron 著,下田 倫大 監訳,「scikit-learnとTensorFlowによる実践機械学習」,初版,日本,株式会社オライリー・ジャパン,2018年04月25日,第15~17,191~199頁,ISBN: 978-4-87311-834-5.
Sheng Shen, et al.,"Deep Convolutional Neural Networks with Ensemble Learning and Transfer Learning for Capacity Estimation of Lithium-ion Batteries",Applied Energy,[online], Elsevier,2019年12月16日,Volume 260,Pages 1-26,[令和4年3月29日検索],インターネット,<URL: https://doi.org/10.1016/j.apenergy.2019.114296> and <URL: https://www.sciencedirect.com/science/article/pii/S030626191931983X>.
三品 陽平(外4名),「Random Forestを用いた事例型追加学習」,第20回画像センシングシンポジウム ダイジェスト集, [CD-ROM],日本,画像センシング技術研究会,2014年06月12日,第IS1-16-1~IS1-16-7頁,Session-id: IS1-16.
小林 正宜(外2名),「長期記憶を導入した階層型ニューラルネットの追加学習アルゴリズム」,計測自動制御学会論文集,日本,社団法人 計測自動制御学会,2002年09月30日,Vol.38, No.9,第792~799頁,ISSN: 0453-4654.
山口 達輝(外1名),「図解即戦力 機械学習&ディープラーニングののしくみと技術がこれ1冊でしっかりわかる教科書」,初版,日本,株式会社技術評論社,2019年09月14日,第116~123頁,ISBN: 978-4-297-10640-9.
木寺 卓也(外2名),「ブースティング識別器の追加学習に関する研究」,第50回システム制御情報学会研究発表講演会論文集,日本,システム制御情報学会,2006年05月10日,第357~358頁,Session-id: 5F3-4.
菅原 優(外1名),「非定常データストリームにおける適応的決定木を用いたアンサンブル学習」,第109回人工知能基本問題研究会資料(SIG-FPAI-B803),日本,一般社団法人 人工知能学会,2019年03月05日,第56~61頁.
長橋 賢吾,「Rではじめる機械学習」,初版,日本,株式会社インプレス,2017年09月11日,第233,234,240~246頁,ISBN: 978-4-295-00205-5.

Also Published As

Publication number Publication date
WO2022107408A1 (ja) 2022-05-27
EP4250191A1 (en) 2023-09-27
JP2022082254A (ja) 2022-06-01
US20240020581A1 (en) 2024-01-18
JP2022118026A (ja) 2022-08-12

Similar Documents

Publication Publication Date Title
US20220363259A1 (en) Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device
US9853592B2 (en) Method and device for controlling an energy-generating system which can be operated with a renewable energy source
US11568327B2 (en) Method for generating universal learned model
CN108564326B (zh) 订单的预测方法及装置、计算机可读介质、物流系统
JP2020052513A (ja) モデルパラメータ学習装置、制御装置及びモデルパラメータ学習方法
JP2001236337A (ja) ニューラルネットワークによる予測装置
CN113614743A (zh) 用于操控机器人的方法和设备
JP7093527B2 (ja) 情報処理装置、方法、プログラム及びシステム
CN110717537B (zh) 训练用户分类模型、执行用户分类预测的方法及装置
JP7095467B2 (ja) 訓練データ評価装置、訓練データ評価方法、およびプログラム
CN110889316B (zh) 一种目标对象识别方法、装置及存储介质
WO2021256135A1 (ja) 制御装置、方法及びプログラム
JP6985997B2 (ja) 機械学習システムおよびボルツマンマシンの計算方法
EP3614314A1 (en) Method and apparatus for generating chemical structure using neural network
US20190156182A1 (en) Data inference apparatus, data inference method and non-transitory computer readable medium
KR102072757B1 (ko) 딥 러닝을 이용한 이종 센서 정보 융합 장치 및 방법
JP2021047797A (ja) 機械学習装置、機械学習方法、及びプログラム
KR20190118766A (ko) 추론을 위한 제한된 볼츠만 머신 구축 방법 및 추론을 위한 제한된 볼츠만 머신을 탑재한 컴퓨터 장치
US11475371B2 (en) Learned model integration method, apparatus, program, IC chip, and system
JP6940830B2 (ja) パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラム
US20200311516A1 (en) Learning-based data processing system and model update method
JP2021082014A (ja) 推定装置、訓練装置、推定方法、訓練方法、プログラム及び非一時的コンピュータ可読媒体
KR102168882B1 (ko) 뉴럴 네트워크 하드웨어
KR102176695B1 (ko) 뉴럴 네트워크 하드웨어
CN116935102B (zh) 一种轻量化模型训练方法、装置、设备和介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20201124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220317

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220608

R150 Certificate of patent or registration of utility model

Ref document number: 7093527

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150