JP2019074890A

JP2019074890A - 関数学習装置、関数計算装置、関数学習方法、関数計算方法、及びプログラム

Info

Publication number: JP2019074890A
Application number: JP2017199891A
Authority: JP
Inventors: 允裕中野; Masahiro Nakano; 柏野　邦夫; Kunio Kashino; 邦夫柏野; 松井　知子; Tomoko Matsui; 知子松井; 大地持橋; Daichi Mochihashi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2019-05-16
Anticipated expiration: 2037-10-13
Also published as: JP6799519B2

Abstract

【課題】連続的でない関数であっても、所望の精度で近似することができるようにする。【解決手段】入力データと出力データとの組を複数含む観測データに基づいて、当該ニューラルネットワークの入力層と隠れ層との間の重みを求めるための重み関数であって、当該重みのインデックスが連続的である重み関数を学習する関数学習部２１０が、入力データの範囲を表す領域を階層的に分割したことを表す二分木構造であって、各リーフが階層的に分割された領域を表す一般化ポリア木について、各リーフに割り当てられる実数を表すポリア木パラメータと、階層分割とを、階層的に分割された領域の各々では、当該領域に属する入力データがガウス過程でモデル化され、当該重み関数により求められる、入力データに適用される重みが、当該入力データが属する各階層の領域を表す各リーフに割り当てられたポリア木パラメータの乗算を用いて定められるように学習する。【選択図】図１

Description

本発明は、関数学習装置、関数計算装置、関数学習方法、関数計算方法、及びプログラムに関し、特に、ニューラルネットワークを用いた関数を計算するための関数学習装置、関数計算装置、関数学習方法、関数計算方法、及びプログラムに関する。

機械学習における関数近似問題の分野では、観測データ

は何でも良いが、典型的にはベクトルデータ）が与えられたときに、それぞれに対応する

は何でも良いが、典型的には整数スカラー）が与えられ、下記の式（１）を満たす関数ｆ（典型的には

）を学習する問題を扱っている。

ｙ_ｉの与え方によって分類問題、識別問題、回帰問題などの様々な機械学習課題に用いることができ、ｘ_ｉの与え方によって、音声・言語・動画・画像等の様々なメディアに適用することができる（ｘ_ｉはそれらのメディアの特徴ベクトルを用いられることが多い）。

＜多重解像度ガウス過程＞
ガウス過程は平均と共分散で支配される関数への確率的生成モデルとして利用することができ、特に機械学習分野では関数近似問題への定番の道具として広く定着している。

ガウス過程の肝はその共分散を司るカーネルの設計にあり、その選び方によってなめらかさや周期性などの所望の性質を対象に埋め込むことが出来る。

しかし、実用的な意味においては、観測データ近傍や周期構造に対しては非常に精密なモデル化を達成することが出来るものの、広範囲のデータに共通する性質の埋め込みは苦手としている。

非特許文献１では、関数の定義域を階層分割によって木構造に細分化し、その性質が木構造の根から末端まで継承されていく形の多重解像度のガウス過程を与える方法を提案している。

これによって、データ近傍や周期構造のみならず、広範囲に渡す性質を関数の中に埋め込むことに成功した。

＜深層学習の連続版＞
また、近年機械学習分野において著しい活躍を示している深層学習のうち、非特許文献２では簡単のため一層のニューラルネットワークモデルを例として取り上げられている。

今定義域

が与えられたもとで、

を近似する問題を考える。

隠れ因子の数をｈとし活性化関数をｇ（例えばシグモイド関数）、Ｖを入力から隠れ層への重み行列、ａ_１，・・・，ａ_ｈを隠れ層から出力への重みを定数バイアスとすると、このニューラルネットワークの入出力関係は以下のように表せる。

ただし、Ｖ_ｉは行列Ｖのｉ番目の列ベクトルとする。

ニューラルネットワークの能力を端的に表すのがＨｏｒｎｉｋらによって示されたＵｎｉｖｅｒｓａｌａｐｐｒｏｘｉｍａｔｉｏｎｔｈｅｏｒｅｍであり、その主張の概要は、活性化関数をシグモイド関数とする一層のニューラルネットワークは、任意の連続関数を所望の精度で近似できるというものである。

非特許文献２では、離散的なインデックスｉ＝１，２，・・・，ｈを連続的に拡張する方法を示しており、ａｆｆｉｎｅパラメータ化と呼ばれる方法とガウス過程への帰着の二通りの実現方法を与えた。

Emily Fox and David Dunson, Multiresolution Gaussian Processes. In Advances in Neural Information Processing Systems, 2013. Nicolas Le Roux and Yoshua Bengio, Continuous Neural Networks, Artificial Intelligence and Statistics, 2008.

本発明は、標準的なニューラルネットワーク（より具体的には可算個の隠れユニットによって構成されるニューラルネットワーク）の抱える課題を解決することを目指したものである。

すなわち、ニューラルネットワークに対するＵｎｉｖｅｒｓａｌａｐｐｒｏｘｉｍａｔｉｏｎｔｈｅｏｒｅｍの主張（一層のニューラルネットワークは任意の連続関数を所望の精度で近似できる）は応用実用上非常に強力ではあるが、一方で離散的な関数への近似に用いることが出来ない、という問題がある。

例えば、下記の式（３）のような関数は、一層のシグモイド関数の線形結合では所望の精度で近似することは出来ない。

そして、ニューラルネットワークを深層にすることでは、この問題の本質的な解決には繋がらない。

本発明は、この課題を鑑みてなされたものであり、元の関数が連続的でない場合に対しても、所望の精度で近似した関数を学習することができる関数学習装置、関数学習方法、及びプログラムを提供することを目的とする。

また、元の関数が連続的でない場合に対しても、所望の精度で近似した関数を計算することができる関数計算装置、関数計算方法、及びプログラムを提供することを目的とする。

本発明に係る関数学習装置は、ニューラルネットワークを用いた入出力関係を表す関数を学習する関数学習装置であって、入力データと出力データとの組を複数含む観測データに基づいて、前記ニューラルネットワークの入力層と隠れ層との間の重みを求めるための重み関数であって、前記重みのインデックスが連続的である重み関数を学習する関数学習部を含んで構成され、前記関数学習部は、入力データの範囲を表す領域を階層的に分割したことを表す二分木構造であって、各リーフが階層的に分割された領域を表す一般化ポリア木について、各リーフに割り当てられる実数を表すポリア木パラメータと、階層分割とを、階層的に分割された領域の各々では、前記領域に属する入力データがガウス過程でモデル化され、前記重み関数により求められる、入力データに適用される重みが、前記入力データが属する各階層の領域を表す各リーフに割り当てられたポリア木パラメータの乗算を用いて定められるように学習する。

また、本発明に係る関数学習方法は、ニューラルネットワークを用いた入出力関係を表す関数を学習する関数学習装置における関数学習方法であって、関数学習部が、入力データと出力データとの組を複数含む観測データに基づいて、前記ニューラルネットワークの入力層と隠れ層との間の重みを求めるための重み関数であって、前記重みのインデックスが連続的である重み関数を学習するステップを含み、前記関数学習部が学習するステップについては、入力データの範囲を表す領域を階層的に分割したことを表す二分木構造であって、各リーフが階層的に分割された領域を表す一般化ポリア木について、各リーフに割り当てられる実数を表すポリア木パラメータと、階層分割とを、階層的に分割された領域の各々では、前記領域に属する入力データがガウス過程でモデル化され、前記重み関数により求められる、入力データに適用される重みが、前記入力データが属する各階層の領域を表す各リーフに割り当てられたポリア木パラメータの乗算を用いて定められるように学習する。

本発明に係る関数学習装置及び関数学習方法によれば、関数学習部が、入力データと出力データとの組を複数含む観測データに基づいて、ニューラルネットワークの入力層と隠れ層との間の重みを求めるための重み関数であって、重みのインデックスが連続的である重み関数を学習する。

そして、関数学習部は、入力データの範囲を表す領域を階層的に分割したことを表す二分木構造であって、各リーフが階層的に分割された領域を表す一般化ポリア木について、各リーフに割り当てられる実数を表すポリア木パラメータと、階層分割とを、階層的に分割された領域の各々では、前記領域に属する入力データがガウス過程でモデル化され、前記重み関数により求められる、入力データに適用される重みが、前記入力データが属する各階層の領域を表す各リーフに割り当てられたポリア木パラメータの乗算を用いて定められるように学習する。

このように、ポリア木パラメータと、階層分割とを、階層的に分割された領域の各々では、当該領域に属する入力データがガウス過程でモデル化され、入力データに適用される重みが、入力データが属する各階層の領域を表す各リーフに割り当てられたポリア木パラメータの乗算を用いて定められるように学習ことにより、元の関数が連続的でない場合に対しても、所望の精度で近似した関数を学習することができる。

また、本発明に係る関数学習装置は、前記関数学習部が、各リーフのポリア木パラメータと前記階層分割とを初期化する初期化部と、前記観測データと、前記階層分割とに基づいて、前記観測データ、前記階層分割、及び前記ポリア木パラメータを用いて予め定められた目的関数を最適化するように、各リーフのポリア木パラメータを更新するポリア木パラメータ更新部と、前記観測データと、各リーフのポリア木パラメータとに基づいて、前記目的関数を最適化するように、前記階層分割を更新する階層分割更新部と、予め定められた反復終了条件を満たすまで、前記ポリア木パラメータ更新部による更新と、前記階層分割更新部による更新とを繰り返させる反復判定部と、を含むことができる。

また、本発明に係る関数学習方法は、前記関数学習部が学習するステップが、初期化部が、各リーフのポリア木パラメータと前記階層分割とを初期化するステップと、ポリア木パラメータ更新部が、前記観測データと、前記階層分割とに基づいて、前記観測データ、前記階層分割、及び前記ポリア木パラメータを用いて予め定められた目的関数を最適化するように、各リーフのポリア木パラメータを更新するステップと、階層分割更新部が、前記観測データと、各リーフのポリア木パラメータとに基づいて、前記目的関数を最適化するように、前記階層分割を更新するステップと、反復判定部が、予め定められた反復終了条件を満たすまで、前記ポリア木パラメータ更新部による更新と、前記階層分割更新部による更新とを繰り返させるステップと、を含むことができる。

本発明に係る関数学習装置及び関数学習方法によれば、初期化部が、各リーフのポリア木パラメータと前記階層分割とを初期化し、ポリア木パラメータ更新部が、前記観測データと、前記階層分割とに基づいて、前記観測データ、前記階層分割、及び前記ポリア木パラメータを用いて予め定められた目的関数を最適化するように、各リーフのポリア木パラメータを更新する。

そして、階層分割更新部が、前記観測データと、各リーフのポリア木パラメータとに基づいて、前記目的関数を最適化するように、前記階層分割を更新し、反復判定部が、予め定められた反復終了条件を満たすまで、前記ポリア木パラメータ更新部による更新と、前記階層分割更新部による更新とを繰り返させる。

このように、観測データ、階層分割、及びポリア木パラメータを用いて予め定められた目的関数を最適化するように、各リーフのポリア木パラメータを更新し、観測データと、各リーフのポリア木パラメータとに基づいて、目的関数を最適化するように、階層分割を更新し、反復終了条件を満たすまでこれらの更新を繰り返させることにより、元の関数が連続的でない場合に対しても、必要なパラメータの数を無制限に増やすことが出来れば原理的には所望の精度で近似した関数を学習することができる。

本発明に係る関数計算装置は、ニューラルネットワークを用いた入出力関係を表す関数を計算する関数計算装置であって、上記の関数学習装置によって学習された重み関数を用いた前記ニューラルネットワークの関数により、入力データに対する出力データを計算する関数計算部を含んで構成される。

また、本発明に係る関数計算方法は、ニューラルネットワークを用いた入出力関係を表す関数を計算する関数計算方法であって、関数計算部が、上記の関数学習方法によって学習された重み関数を用いた前記ニューラルネットワークの関数により、入力データに対する出力データを計算するステップを含む。

本発明に係る関数計算装置及び関数計算方法によれば、関数計算部が、上記の関数学習装置によって学習された重み関数を用いた前記ニューラルネットワークの関数により、入力データに対する出力データを計算することにより、元の関数が連続的でない場合に対しても、所望の精度で近似した関数を計算することができる。

本発明に係るプログラムは、上記の関数学習装置又は関数計算装置の各部として機能させるためのプログラムである。

本発明の関数学習装置、関数学習方法、及びプログラムによれば、元の関数が連続的でない場合に対しても、所望の精度で近似した関数を学習することができる。

また、本発明の関数計算装置、関数計算方法、及びプログラムによれば、元の関数が連続的でない場合に対しても、所望の精度で近似した関数を計算することができる。

本発明の実施の形態に係る関数学習装置の構成を示す概略図である。抽出されたリーフが終端だった場合の追加候補の生成の例を示す図である。抽出されたリーフが終端だった場合の修正候補の生成の例を示す図である。抽出されたリーフが終端だった場合の融合候補の生成の例を示す図である。抽出されたリーフが終端でない場合の修正候補の生成の例を示す図である。本発明の実施の形態に係る関数学習装置における関数学習のためのアルゴリズムの例を示す図である。本発明の実施の形態に係る関数学習装置の関数学習処理フローを示すフローチャートである。本発明の実施の形態に係る関数学習装置のポリア木パラメータの更新処理フローを示すフローチャートである。本発明の実施の形態に係る関数学習装置の階層分割の更新処理フローを示すフローチャートである。本発明の実施の形態に係る関数計算装置の構成を示す概略図である。本発明の実施の形態に係る関数計算装置の関数計算処理フローを示すフローチャートである。

以下、本発明の実施の形態について図面を用いて説明する。

＜本発明の実施の形態に係る関数学習装置の原理＞
＜＜一般化ポリア木とガウス過程の融合によるニューラルネットワークモデルの拡張＞＞
まず、本発明の実施の形態に係る関数学習装置の原理について説明する。

ニューラルネットワークの表現能力を上げるべく、深層にする以外のもう一つの有力な方法として、ＬｅＲｏｕｘらによって提案された隠れ層の連続拡張が挙げられる（非特許文献２）。

具体的には、前述のニューラルネットワークモデルにおける隠れユニットのインデックスを連続にすることによって実現することができる。

ただし、

は隠れ層から出力への重み関数、

は入力から隠れ層への重み関数である。

また、２つのユークリッド空間の次元ｍ、ｄは自由に定めることができる。特に、ｕの取りうる集合Ｅを

にとると、すなわち、ｕをスカラーとすると、下記の式（５）に書き直すことができる。

さらに、ａの逆関数をＡとし、ｔ＝Ａ（ｕ）の変数変換を導入し、Ｖ_Ａ（ｔ）：＝Ｖ（Ａ^−１（ｔ））と書き直すと、下記の式（６）が得られる。

より分かりやすく積分範囲を［０，１］に制限すると、すなわち、ｚ＝（ｔ−ｔ_０）／αなる変数を導入し、αはＥの長さ、ｔ_０＝ｉｎｆ（Ａ^−１（Ｅ））とすると、下記の式（７）が得られる。

この拡張は、通常の可算個の隠れユニットを持つニューラルネットワークモデルを包含している。具体的には、Ｖ（ｚ）＝Ｖｉ（ｐ_ｉ−１≦ｚ＜ｐ_ｚ）のようなステップ関数を選ぶことによって、通常のニューラルネットワークに帰着することができる。

また、この拡張のもとでも標準的なＵｎｉｖｅｒｓａｌａｐｐｒｏｘｉｍａｔｉｏｎｔｈｅｏｒｅｍの主張する能力は継承される。つまり、任意の連続関数を所望の精度で近似することが可能である。この拡張により離散的な関数への近似も可能になったかは不明である。

ＬｅＲｏｕｘらの深層学習の連続拡張は、当該分野に大いなる期待を与えたものの、発案からその後１０年経った現在、その拡張方法は定着していない。その一番の原因が実際の表現方法の限界にある。

ＬｅＲｏｕｘらは２つの表現方法を提案している。１つはＶへのａｆｆｉｎｅ近似、もう１つは、カーネル法を用いたガウス過程化である。

特に、ガウス過程としての解釈は、ＬｅＲｏｕｘらの仕事よりも以前から見出されており、その意味で深層学習の連続学習はその表現方法がネックとなって当該分野への貢献に繋がらなかった。

本発明の実施の形態は、上記Ｖへの表現法としてポリア木と呼ばれるディリクレ過程を包含する広いクラスの確率過程をさらに一般化したものを適用する。

ｅ＝（ｅ_１，・・・，ｅ_ｍ）をバイナリ系列、

を［０，１］の入れ子状の階層分割、Ａ＝｛α，α_ｅ＞０｝を正の実数の集合として、一般化ポリア木を下記式（８）〜（１０）のような確率生成モデルとする。

一般化ポリア木はＡの与え方によってＶを連続的にも離散的にも支配することができる。仮に、α_ｅ＝α_ｅ０＋α_ｅ１とした場合、これはインド料理店過程を用いた可算無限ニューラルネットワークモデルと密接な関係を与えることができる。

上記の一般化ポリア木に基づく非可算無限ニューラルネットワークモデルは、モデル構成としては期待通りの性質を持っている一方で、応用実用上の問題が残る。

すなわち、従来、ポリア木を用いた確率モデルへの推論は難問であることが知られており、既存の近似推論アルゴリズムの多くは、ポリア木が本来持っている連続関数への表現能力を捨てることに相当している。

実際、連続関数へのフィッティングを行う場合においては、推論すべきパラメータが非可算無限存在することとなり、現在の計算機における素朴な方法でこれを実現する方法は無い。

そこで、連続関数への表現能力を失うことなくデータへのフィッティング推論が可能な表現が必要となる。本発明の実施の形態は、一般化ポリア木とカーネル法の融合によって、連続関数への表現能力を失うことなくデータへのフィッティング推論が可能な表現を実現する。

カーネル法に基づくニューラルネットワークは、下記の式（１１）の関数表現からなるガウス過程と捉えることができる。ただし、ｇ_ｘ（ｕ）＝ｇ（ｘ・ｕ）とする。

これを一般化ポリア木を用いた非可算無限ニューラルネットワークの観点から見た際には、入れ子構造を持つ階層分割が深さ０となっている状況と捉えることができる。このことに注目すると、上記カーネル法に基づく深層学習表現と、一般化ポリア木に基づく非可算無限ニューラルネットワークとの融合として、下記の式（１２）に示すモデル化にたどり着く。

すなわち、関数ｆがａとｇによる内積の形で表示できる。ここで、

は、

の時のみ機能している。すなわち、下記の式（１３）であることを意味している。

これによって、

は、平均を一般化ポリア木によって与えられるＶ（Ｂ_ｅ）、共分散を

においてのみ非零となったガウス過程に従うものとしてモデル化することができる。

本モデルは素朴なマルコフ連鎖モンテカルロ法による推論が可能となっている。すなわち、階層分割を更新するステップと、階層分割における末端での局所的なガウス過程フィッティングを行うステップを交互に繰り返していくことで、事後分布へ漸近していくようなマルコフ連鎖を構成することができる。

さらに、この推論法において、本来の我々の理想であるＶに関する連続的な関数・離散的な関数どちらともへの近似能力を失うことはない。

有限の観測データにフィッティングを行う状況において、推論できる解消度が離散的な関数に限定されることが標準的な振る舞いではあるが、モデルとしては連続的な関数への候補を考慮した上での学習を行うことができる。

＜＜確率的生成モデル＞＞
関数

が単一のガウス過程から生成されたものだとすると、すなわち、一般化ポリア木の深さが０であった場合は、平均関数

と、共分散関数

とを用いて、下記の式（１４）のように表現する。

ガウス過程の象徴的な性質は、任意の

に対して、常に下記の式（１５）が成り立つことである。

ここで、Ｇａｕｓｓｉａｎ（μ，Ｋ）は、平均μ、共分散行列Ｋとする多変量ガウス分布を表し、μ＝［ｑ（ｘ_１），・・・，ｑ（ｘ_ｎ）］，［Ｋ］_ｉ，ｊ＝ｃ（ｘ_ｉ，ｘ_ｊ）である。

一般化ポリア木が深さｍであった場合は、下記の式（１６）のように表現することができる。

ただし、ｃ_ｅは

に対して与えられた共分散関数である。典型的には、この共分散関数ｃ_ｅは、人手で設計するのが一般的であり、例えばガウスカーネルを選ぶことができる。

このように、一般化ポリア木とガウス過程の融合によるニューラルネットワークモデルを拡張し、これを確率的生成モデルの形で記述することで、本発明の実施の形態に係る関数学習装置によって、元の関数が連続的でない場合に対しても、所望の精度で近似することができるようにする。

＜本発明の実施の形態に係る関数学習装置の構成＞
次に、本発明の実施の形態に係る関数学習装置の構成について説明する。図１は、本発明の実施の形態に係る関数学習装置の構成を示す概略図である。

本発明の実施の形態に係る関数学習装置１０は、ニューラルネットワークを用いた入出力関係を表す関数を学習する装置である。この関数学習装置１０は、ＣＰＵと、ＲＡＭと、後述する関数学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

図１に示すように、関数学習装置１０は、入力データと出力データとの組を複数含む観測データを入力する入力部１００と、入力部１００に入力された観測データから、ニューラルネットワークを用いた入出力関係を表す関数を学習する演算部２００と、演算部２００によって学習された関数を出力する出力部３００とを備えて構成される。

入力部１００は、既知のキーボード、記憶装置などの入力器により実現される。また、入力部１００は、インターネット等のネットワークを介して観測データを入力するネットワークインターフェースでも良い。

出力部３００は、ディスプレイ、プリンタ、磁気ディスクなどで実装される。

演算部２００は、ニューラルネットワークの入力層と隠れ層との間の重みを求めるための重み関数であって、当該重みのインデックスが連続的である重み関数を学習する関数学習部２１０を備えて構成される。

関数学習部２１０は、入力データの範囲を表す領域を階層的に分割したことを表す二分木構造であって、各リーフが階層的に分割された領域を表す一般化ポリア木について、各リーフに割り当てられる実数を表すポリア木パラメータと、階層分割Πとを、階層的に分割された領域の各々では、当該領域に属する入力データがガウス過程でモデル化され、当該重み関数により求められる、入力データに適用される重みが、当該入力データが属する各階層の領域を表す各リーフに割り当てられたポリア木パラメータの乗算を用いて定められるように学習する。

本実施形態では、関数学習部２１０は、提案モデルを観測データにフィッティングさせる方法として、マルコフ連鎖モンテカルロ法による推論手法の例によって、関数の学習を行う。

具体的には、関数学習部２１０は、反復的に、入力データｘと出力データｙとの組を複数含む観測データ（ｘ_１，ｙ_１），・・・，（ｘ_ｎ，ｙ_ｎ）が与えられたもとで、ポリア木パラメータ｛Ｙ_ｅ｝（バイナリ木構造の全リーフに１つずつ実数を持つパラメータ）、

の階層分割

を逐次的に更新する。

なお、Ａ＝｛α，α_ｅ＞０｝、共分散関数ｃ_ｅ、及び反復回数については、あらかじめ与えられているものとする。

ここで、当該推論手法は、推論すべき各パラメータの更新候補を確率的に生成し、その更新を受理・棄却する操作を確率的に行う。その受理・棄却の操作のためには、下記の式（１７）で表す目的関数Ｌを用いる。

ただし、Ｌ_１及びＬ_２は、下記の式（１８）で表される。

より具体的には、関数学習部２１０は、初期化部２１２と、ポリア木パラメータ更新部２１４と、階層分割更新部２１６と、反復判定部２１８とを含んで構成される。

初期化部２１２は、各リーフのポリア木パラメータと前記階層分割とを初期化する。

具体的には、初期化部２１２は、まず、一般化ポリア木について、各リーフに割り当てられる実数を表すポリア木パラメータ｛Ｙ_ｅ｝に対して、その確率的生成モデル（事前分布）から乱数を生成し、生成した乱数をポリア木パラメータ｛Ｙ_ｅ｝の初期値とする。

次に、初期化部２１２は、階層分割Πに対して、その確率的生成モデル（事前分布）から乱数を生成し、生成した乱数を階層分割Πの初期値とする。

そして、初期化部２１２は、ポリア木パラメータ｛Ｙ_ｅ｝の初期値、及び階層分割Πの初期値を、ポリア木パラメータ更新部２１４に渡す。

ポリア木パラメータ更新部２１４は、観測データと、階層分割とに基づいて、観測データ、階層分割、及びポリア木パラメータを用いて予め定められた目的関数Ｌを最適化するように、各リーフのポリア木パラメータを更新する。

具体的には、ポリア木パラメータ更新部２１４は、各パラメータＹ_ｅが、Ｂｅｔａ（ａ_ｅ０，ａ_ｅ１）の事前分布に従うことを利用して、当該Ｙ_ｅの更新先の候補を決定し、目的関数Ｌに基づいた確率に従って、当該Ｙ_ｅを更新する。

まず、ポリア木パラメータ更新部２１４は、現在の更新前のパラメータのもとで、目的関数Ｌを計算し、その値をＬ_ｏｌｄとしておく。

次に、Ｂｅｔａ（ａ_ｅ０，ａ_ｅ１）に従う乱数を生成し、これをＹ_ｅの更新先の候補とする。そして、候補のＹ_ｅを用いて目的関数Ｌを計算し、その値をＬ_ｎｅｗとする。

新しいＹ_ｅの更新先の候補に関して、以下の式（１９）に基づいて確率を計算し、その確率に基づいてその候補を受理するか否かを判断する。

受理された場合、候補のＹ_ｅを新しいＹ_ｅとして更新し、受理されなかった場合、現在のＹ_ｅを維持する。

そして、ポリア木パラメータ更新部２１４は、更新後のポリア木パラメータ｛Ｙ_ｅ｝を階層分割更新部２１６に渡す。

階層分割更新部２１６は、観測データと、各リーフのポリア木パラメータとに基づいて、目的関数Ｌを最適化するように、階層分割を更新する。

具体的には、階層分割更新部２１６は、まず、バイナリ系列ｅ＝｛ｅ_１，・・・，ｅ_ｍ）が表す二分木の全てのリーフの中から一様分布に基づいて、１つのリーフＢ_ｅを抽出する。

次に、抽出したリーフＢ_ｅが、終端であるか否かを判断し、（１）抽出したリーフＢ_ｅが終端である場合、（２）抽出したリーフＢ_ｅが終端でない場合のそれぞれについて、下記のように階層分割Πを更新する。

（１）抽出したリーフＢ_ｅが終端である場合、一様分布の確率に従って、以下の追加、修正、融合の３つの操作のうち１つを実行する。

＜＜追加＞＞
追加では、抽出したリーフＢ_ｅに対して、一様な線形分割を乱数により生成し、更新先の候補を生成する。

そして、現在の分割により計算される目的関数Ｌの値をＬ_ｏｌｄ、更新先の候補を用いて計算される目的関数Ｌの値をＬ_ｎｅｗとして、下記の式（２０）による確率を求める。

求めた確率に基づいて、新しい候補を更新先として受理するか否かを決定し、受理された場合に、新しい候補を更新先として採用する。受理されない場合は、現在の分割を維持する。

図２は、抽出されたリーフが終端だった場合の追加候補の生成の例を示す図である。

図２に示すように、抽出したリーフＢ_ｅが、終端である場合（図２の左図）、抽出したリーフＢ_ｅに対して追加候補が生成される（図２の右図）。

＜＜修正＞＞
修正では、抽出したリーフＢ_ｅの親リーフ（これをＢ_ｅ’と書くことにする）に対して、一様な線形分割を乱数により生成し、更新先の候補を生成する。

そして、現在の分割により計算される目的関数Ｌの値をＬ_ｏｌｄ、更新先の候補を用いて計算される目的関数Ｌの値をＬ_ｎｅｗとして、下記の式（２１）による確率を求める。

図３は、抽出されたリーフが終端だった場合の修正候補の生成の例を示す図である。

図３に示すように、抽出したリーフＢ_ｅが、終端である場合（図３の左図）、抽出したリーフＢ_ｅの親リーフＢ_ｅ’に対して修正候補が生成される（図３の右図）。

＜＜融合＞＞
融合では、抽出したリーフＢ_ｅの親リーフＢ_ｅ’に対して、その子ノードにあたる分割を削除し融合を更新先の候補とする。

そして、現在の分割により計算される目的関数Ｌの値をＬ_ｏｌｄ、更新先の候補を用いて計算される目的関数Ｌの値をＬ_ｎｅｗとして、下記の式（２２）による確率を求める。

図４は、抽出されたリーフが終端だった場合の融合候補の生成の例を示す図である。

図４に示すように、抽出したリーフＢ_ｅが、終端である場合（図４の左図）、抽出したリーフＢ_ｅの親リーフＢ_ｅ’の子ノードが削除され、融合候補が生成される（図４の右図）。

（２）抽出したリーフＢ_ｅが終端でない場合、一様分布によって以下の修正の操作を実行する。

この場合の修正では、抽出したリーフＢ_ｅの親リーフＢ_ｅ’に対して、子ノードの分割への矛盾の無い範囲で、一様な線形分割を乱数により生成し、更新先の候補を生成する。

そして、現在の分割により計算される目的関数Ｌの値をＬ_ｏｌｄ、更新先の候補を用いて計算される目的関数Ｌの値をＬ_ｎｅｗとして、下記の式（２３）による確率を求める。

図５は、抽出されたリーフが終端でない場合の修正候補の生成の例を示す図である。

図５に示すように、抽出したリーフＢ_ｅが、終端でない場合（図５の左図）、抽出したリーフＢ_ｅの親リーフＢ_ｅ’に対して、子ノードの分割への矛盾の無い範囲で、修正候補が生成される（図５の右図）。

そして、階層分割更新部２１６は、ポリア木パラメータ｛Ｙ_ｅ｝、及び更新した階層分割Πを、反復判定部２１８に渡す。

反復判定部２１８は、予め定められた反復終了条件を満たすまで、ポリア木パラメータ更新部２１４による更新と、階層分割更新部２１６による更新とを繰り返させる。

具体的には、反復判定部２１８は、ポリア木パラメータ更新部２１４による更新、及び階層分割更新部２１６による更新の回数が、あらかじめ指定された反復回数に到達しているか否かを判断する。

反復回数に達していない場合、反復判定部２１８は、ポリア木パラメータ｛Ｙ_ｅ｝、及び階層分割Πを、ポリア木パラメータ更新部２１４に渡し、ポリア木パラメータ更新部２１４による更新と、階層分割更新部２１６による更新とを繰り返させる。

一方、反復回数に達している場合、反復判定部２１８は、ポリア木パラメータ｛Ｙ_ｅ｝、及び階層分割Πを、出力部３００に渡す。

出力部３００は、反復判定部２１８から受け取ったポリア木パラメータ｛Ｙ_ｅ｝、及び階層分割Πを、出力する。

具体的には、出力部３００は、ポリア木パラメータ｛Ｙ_ｅ｝、及び階層分割Πを記憶媒体に保存しておく。

＜本発明の実施の形態に係る関数学習装置の作用＞
図６は、本発明の実施の形態に係る関数学習装置における関数学習のための推論アルゴリズムの例を示す図である。

Ａｌｇｏｒｉｔｈｍ１の説明のため、図７において、本発明の実施の形態に係る関数学習処理フローを示すフローチャートを示す。

入力部１００に観測データが入力されると、演算部２００において、図７に示す関数学習処理フローが実行される。

まず、ステップＳ１００において、初期化部２１２が、入力部１００に入力された入力データと出力データとの組（ｘ_ｉ，ｙ_ｉ）を複数含む観測データを受け取る。

なお、共分散関数ｃ_ｅ、及び反復回数は予め定められていても良いし、入力部１００に入力されても良い。

ステップＳ１１０において、初期化部２１２は、ポリア木の深さｍと、各リーフのポリア木パラメータ｛Ｙ_ｅ｝と、階層分割Πとを、それぞれの事前分布から生成される乱数を用いて初期化して、ポリア木パラメータ更新部２１４へ渡す。

ステップＳ１２０において、反復判定部２１８は、反復回数をカウントするための変数ｉに１を設定しておく。

ステップＳ１３０において、ポリア木パラメータ更新部２１４は、観測データと、階層分割Πとに基づいて、観測データ、階層分割Π、及びポリア木パラメータ｛Ｙ_ｅ｝を用いて予め定められた目的関数Ｌを最適化するように、各リーフのポリア木パラメータ｛Ｙ_ｅ｝を更新する処理を行う。

ステップＳ１４０において、階層分割更新部２１６は、観測データと、各リーフのポリア木パラメータ｛Ｙ_ｅ｝とに基づいて、目的関数Ｌを最適化するように、階層分割Πを更新する処理を行う。

ステップＳ１５０において、反復判定部２１８は、ｉが反復回数（例えば、１０００）より小さいか否かを判定する。

ｉが反復回数より小さい場合（ステップＳ１５０のＹＥＳ）、ステップＳ１６０において、反復判定部２１８は、ｉに１を加算し、ステップＳ１３０へ戻る。そして、ポリア木パラメータ｛Ｙ_ｅ｝の更新処理と、階層分割Πの更新処理を、ｉが反復回数に達するまで繰り返す。

一方、ｉが反復回数以上である場合（ステップＳ１５０のＮＯ）、ステップＳ１７０において、出力部３００は、最終的なポリア木パラメータ｛Ｙ_ｅ｝と、階層分割Πとを出力する。

ここで、ステップＳ１３０におけるポリア木パラメータ｛Ｙ_ｅ｝の更新処理について、図８を用いて説明する。図８は、ポリア木パラメータの更新処理フローを示すフローチャートである。

ステップＳ２００において、ポリア木パラメータ更新部２１４は、長さｍ以下の全てのバイナリ系列ｅから、１番目のバイナリ系列ｅを選択する。

ステップＳ２１０において、ポリア木パラメータ更新部２１４は、Ｙ_ｅの現在の値から、式（１７）に従ってＬ_ｏｌｄを算出する。

ステップＳ２２０において、ポリア木パラメータ更新部２１４は、Ｙ_ｅの新しい候補をＢｅｔａ（ａ_ｅ０，ａ_ｅ１）から生成し、式（１７）に従ってＬ_ｎｅｗを算出する。

ステップＳ２３０において、ポリア木パラメータ更新部２１４は、式（１９）に従って確率を計算し、当該確率に従ってＹ_ｅの新しい候補を受理するか否かを判定する。

Ｙ_ｅの新しい候補を受理する場合（ステップＳ２３０のＹＥＳ）、ステップＳ２４０において、ポリア木パラメータ更新部２１４は、Ｙ_ｅの新しい候補をＹ_ｅとして更新する。

一方、Ｙ_ｅの新しい候補を受理しない場合（ステップＳ２３０のＮＯ）、Ｙ_ｅの新しい候補をＹ_ｅとして更新せずに、ステップＳ２５０に進む。

ステップＳ２５０において、長さｍ以下の全てのバイナリ系列ｅのうち、未処理のバイナリ系列ｅが存在するか否かを判定する。

未処理のバイナリ系列ｅが存在する場合（ステップＳ２５０のＹＥＳ）、ステップＳ２６０において、次のバイナリ系列ｅを選択し、ステップＳ２１０〜ステップＳ２４０を繰り返す。

一方、未処理のバイナリ系列ｅが存在しない場合（ステップＳ２５０のＮＯ）、リターンする。

次に、ステップＳ１４０における階層分割Πの更新処理について、図９を用いて説明する。図９は、階層分割の更新処理フローを示すフローチャートである。

ステップＳ３００において、階層分割更新部２１６は、長さｍ以下の全てのバイナリ系列ｅのうち、１番目のバイナリ系列ｅを選択する。

ステップＳ３１０において、階層分割更新部２１６は、選択されたバイナリ系列ｅに対応するリーフＢ_ｅが終端であるか否かを判定する。

Ｂ_ｅが終端である場合（ステップＳ３１０のＹＥＳ）、ステップＳ３２０において、実行する操作を、一様分布に従って、追加、修正、融合のうちの何れかを選択する。

当該選択することについては、例えば、一様分布Ｕｎｉｆｏｒｍ（１／３，１／３，１／３）に従って追加、修正、融合のうち何れかを選択する。

ステップＳ３３０において、階層分割更新部２１６は、選択した操作が追加か否かを判定する。

選択した操作が追加である場合（ステップＳ３３０のＹＥＳ）、ステップＳ３４０において、選択されたバイナリ系列ｅに対応するリーフＢ_ｅに対して、一様な線形分割を乱数により生成したものを、更新先の候補として生成する。その後、ステップＳ３９０に進む。

一方、選択した操作が追加でない場合（ステップＳ３３０のＮＯ）、ステップＳ３５０において、選択した操作が修正であるか否かを判定する。

選択した操作が修正である場合（ステップＳ３５０のＹＥＳ）、ステップＳ３６０において、選択されたバイナリ系列ｅに対応するリーフＢ_ｅの親リーフＢ_ｅ’に対して、一様な線形分割を乱数により生成し、更新先の候補を生成する。その後ステップＳ３９０に進む。

一方、選択した操作が修正でない場合（ステップＳ３５０のＮＯ）、選択された操作は融合であるため、ステップＳ３７０において、選択されたバイナリ系列ｅに対応するリーフＢ_ｅの親リーフＢ_ｅ’に対して、その子ノードにあたる分割を削除し、融合を更新先の候補とする。

一方、Ｂ_ｅが終端でない場合（ステップＳ３１０のＮＯ）、ステップＳ３８０において、選択されたバイナリ系列ｅに対応するリーフＢ_ｅの親リーフＢ_ｅ’に対して、子ノードの分割への矛盾の無い範囲で、一様な線形分割を乱数により生成し、更新先の候補を生成する。

ステップＳ３９０において、現在の分割により計算される目的関数Ｌの値をＬ_ｏｌｄとして算出する。

ステップＳ４００において、更新先の候補を用いて計算される目的関数Ｌの値をＬ_ｎｅｗとして算出する。

ステップＳ４１０において、階層分割更新部２１６は、操作に応じて式（２０）〜式（２３）に従って確率を計算し、当該確率に従って新しい候補を更新先として受理するか否かを判定する。

新しい候補を更新先として受理する場合（ステップＳ４１０のＹＥＳ）、ステップＳ４２０において、新しい候補を更新先として階層分割Πを更新する。

新しい候補を更新先として受理しない場合（ステップＳ４２０のＮＯ）、階層分割Πを更新せずに、ステップＳ４３０に進む。

ステップＳ４３０において、未処理のバイナリ系列ｅが存在するか否かを判定する。

未処理のバイナリ系列ｅが存在する場合（ステップＳ４３０のＹＥＳ）、ステップＳ４４０において、次のバイナリ系列ｅを選択し、ステップＳ３１０〜ステップＳ４２０を繰り返す。

一方、未処理のバイナリ系列ｅが存在しない場合（ステップＳ４３０のＮＯ）、リターンする。

以上説明したように、本発明の実施の形態に係る関数学習装置、関数学習方法、及びプログラムによれば、ポリア木パラメータと、階層分割とを、階層的に分割された領域の各々では、当該領域に属する入力データがガウス過程でモデル化され、入力データに適用される重みが、入力データが属する各階層の領域を表す各リーフに割り当てられたポリア木パラメータの乗算を用いて定められるように学習ことにより、元の関数が連続的でない場合に対しても、所望の精度で近似した関数を学習することができる。

＜本発明の実施の形態に係る関数計算装置の構成＞
次に、本発明の実施の形態に係る関数計算装置の構成について説明する。図１０は、本発明の実施の形態に係る関数計算装置の構成を示す概略図である。

本発明の実施の形態に係る関数計算装置２０は、ニューラルネットワークを用いた入出力関係を表す関数を計算する装置である。この関数計算装置２０は、ＣＰＵと、ＲＡＭと、後述する関数計算処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

図１０に示すように、関数計算装置２０は、入力データを入力する入力部４００と、入力部４００に入力された入力データについて、ニューラルネットワークを用いた入出力関係を表す関数を計算する演算部５００と、演算部５００によって計算された結果を出力する出力部６００とを備えて構成される。

入力部４００は、既知のキーボード、記憶装置などの入力器により実現される。また、入力部４００は、インターネット等のネットワークを介して観測データを入力するネットワークインターフェースでも良い。

出力部６００は、ディスプレイ、プリンタ、磁気ディスクなどで実装される。

演算部５００は、記憶部５２０と、関数計算部５３０とを含んで構成される。

記憶部５２０は、上記の関数学習装置１０によって学習された重み関数が記憶されている。

具体的には、記憶部５２０は、共分散関数ｃ_ｅと、上記の関数学習装置１０の出力部３００が出力した、ポリア木パラメータ｛Ｙ_ｅ｝、及び階層分割Πとが記憶されている。

関数計算部５３０は、記憶部５２０によって記憶されている上記の関数学習装置１０によって学習された重み関数を用いたニューラルネットワークの関数により、入力部４００から入力された入力データｘに対する出力データｙを計算する。

具体的には、上記式（１６）を用いてｙ（＝ｆ（Ｂ_ｅ））を計算する。ただし、

である。これは、式（１６）が、式（１２）と等価な能力を実現できることが、従来の結果から導かれるためである。なお、式（１２）は関数ｆ（ｘ）がａとｇによる内積の形で表示できることを表している。

ここで、上記式（１６）を計算する際には、Ｂ_ｅに入力データｘを代入することにより計算する。

ここで、Ｂ_ｅに入力データｘを代入した上記式（１６）の計算結果は、決定的に１つの値を持つ訳ではない。式（１６）の右辺が表すように、出力データｙはガウス過程に従うことを意味しているからである。

すなわち、上記式（１６）の計算結果は、出力データｙがある値である確率が、どの程度あるか、を表す。

なお、出力データｙを１つの値に定めるようにしてもよい。

出力データｙを１つに定める典型的な方法としては、例えば、ガウス過程の平均値を用いる方法、つまり、Ｖ(ｘ)をそのまま用いてしまう方法がある。この場合には、式（１０）により、ｘが属するリーフのうちもっとも深いリーフｅに対応するＶ_ｅの値を算出すればよい。

そして、関数計算部５３０は、出力データｙを、出力部６００に渡す。

出力部６００は、関数計算部５３０から受け取った出力データｙを出力する。

＜本発明の実施の形態に係る関数計算装置の作用＞
図１１は、本発明の実施の形態に係る関数計算処理フローを示すフローチャートを示す。

入力部４００に入力データｘが入力されると、演算部５００において、図１１に示す関数計算処理フローが実行される。

まず、ステップＳ５００において、関数計算部５３０が、入力部４００に入力された入力データｘを受け取る。

ステップＳ５１０において、関数計算部５３０は、記憶部５２０から、共分散関数ｃ_ｅと、上記の関数学習装置１０によって学習されたポリア木パラメータ｛Ｙ_ｅ｝、及び階層分割Πとを読み込む。

ステップＳ５２０において、関数計算部５３０は、ポリア木パラメータ｛Ｙ_ｅ｝、階層分割Π、及び共分散関数ｃ_ｅを用いたニューラルネットワークの関数により、入力データｘに対する出力データｙを計算する。

ステップＳ５３０において、出力部６００は、出力データｙを出力する。

以上説明したように、本発明の実施の形態に係る関数計算装置、関数計算方法、及びプログラムによれば、関数計算部が、上記の関数学習装置によって学習された重み関数を用いたニューラルネットワークの関数により、入力データに対する出力データを計算することにより、元の関数が連続的でない場合に対しても、所望の精度で近似した関数を計算することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０関数学習装置
２０関数計算装置
１００入力部
２００演算部
２１０点群データ取得部
２１０関数学習部
２１２初期化部
２１４ポリア木パラメータ更新部
２１６階層分割更新部
２１８反復判定部
３００出力部
４００入力部
５００演算部
５２０記憶部
５３０関数計算部
６００出力部

Claims

ニューラルネットワークを用いた入出力関係を表す関数を学習する関数学習装置であって、
入力データと出力データとの組を複数含む観測データに基づいて、
前記ニューラルネットワークの入力層と隠れ層との間の重みを求めるための重み関数であって、前記重みのインデックスが連続的である重み関数を学習する関数学習部を含み、
前記関数学習部は、入力データの範囲を表す領域を階層的に分割したことを表す二分木構造であって、各リーフが階層的に分割された領域を表す一般化ポリア木について、各リーフに割り当てられる実数を表すポリア木パラメータと、階層分割とを、
階層的に分割された領域の各々では、前記領域に属する入力データがガウス過程でモデル化され、
前記重み関数により求められる、入力データに適用される重みが、前記入力データが属する各階層の領域を表す各リーフに割り当てられたポリア木パラメータの乗算を用いて定められるように学習する
関数学習装置。
前記関数学習部は、
各リーフのポリア木パラメータと前記階層分割とを初期化する初期化部と、
前記観測データと、前記階層分割とに基づいて、前記観測データ、前記階層分割、及び前記ポリア木パラメータを用いて予め定められた目的関数を最適化するように、各リーフのポリア木パラメータを更新するポリア木パラメータ更新部と、
前記観測データと、各リーフのポリア木パラメータとに基づいて、前記目的関数を最適化するように、前記階層分割を更新する階層分割更新部と、
予め定められた反復終了条件を満たすまで、前記ポリア木パラメータ更新部による更新と、前記階層分割更新部による更新とを繰り返させる反復判定部と、
を含む請求項１記載の関数学習装置。
ニューラルネットワークを用いた入出力関係を表す関数を計算する関数計算装置であって、
請求項１または２記載の関数学習装置によって学習された重み関数を用いた前記ニューラルネットワークの関数により、入力データに対する出力データを計算する関数計算部
を含む関数計算装置。
ニューラルネットワークを用いた入出力関係を表す関数を学習する関数学習装置における関数学習方法であって、
関数学習部が、入力データと出力データとの組を複数含む観測データに基づいて、前記ニューラルネットワークの入力層と隠れ層との間の重みを求めるための重み関数であって、前記重みのインデックスが連続的である重み関数を学習するステップを含み、
前記関数学習部が学習するステップについては、入力データの範囲を表す領域を階層的に分割したことを表す二分木構造であって、各リーフが階層的に分割された領域を表す一般化ポリア木について、各リーフに割り当てられる実数を表すポリア木パラメータと、階層分割とを、
階層的に分割された領域の各々では、前記領域に属する入力データがガウス過程でモデル化され、
前記重み関数により求められる、入力データに適用される重みが、前記入力データが属する各階層の領域を表す各リーフに割り当てられたポリア木パラメータの乗算を用いて定められるように学習する
関数学習方法。
前記関数学習部が学習するステップは、
初期化部が、各リーフのポリア木パラメータと前記階層分割とを初期化するステップと、
ポリア木パラメータ更新部が、前記観測データと、前記階層分割とに基づいて、前記観測データ、前記階層分割、及び前記ポリア木パラメータを用いて予め定められた目的関数を最適化するように、各リーフのポリア木パラメータを更新するステップと、
階層分割更新部が、前記観測データと、各リーフのポリア木パラメータとに基づいて、前記目的関数を最適化するように、前記階層分割を更新するステップと、
反復判定部が、予め定められた反復終了条件を満たすまで、前記ポリア木パラメータ更新部による更新と、前記階層分割更新部による更新とを繰り返させるステップと、
を含む請求項４記載の関数学習方法。
ニューラルネットワークを用いた入出力関係を表す関数を計算する関数計算方法であって、
関数計算部が、請求項４または５記載の関数学習方法によって学習された重み関数を用いた前記ニューラルネットワークの関数により、入力データに対する出力データを計算するステップを含む関数計算方法。
コンピュータを、請求項１若しくは請求項２記載の関数学習装置、又は、請求項３記載の関数計算装置の各部として機能させるためのプログラム。