JP2019082847A

JP2019082847A - データ推定装置、データ推定方法及びプログラム

Info

Publication number: JP2019082847A
Application number: JP2017209674A
Authority: JP
Inventors: 田新一前; Shinichi Maeda; 山雅典小; Masanori Koyama
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2019-05-30
Also published as: US20190156182A1

Abstract

【課題】ビッグデータに対してスケールする学習を行うことが可能な学習装置を提供する。【解決手段】データ推定装置は、推定の対象となる対象データを受け付ける、対象データ受付部と、教師付データの集合から、前記対象データに類似する類似データの集合である類似データ群を抽出する、類似データ群抽出部と、前記類似データ群を用いて、局所的かつ正則化させる学習を行い、局所的モデルを生成する、学習部と、前記局所的モデルを用いて前記対象データについて推定する、推定部と、推定した結果を出力する、出力部と、を備える。【選択図】図２

Description

本発明は、データ推定装置、データ推定方法及びプログラムに関する。

ディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）は、ビッグデータを用いて学習することにより様々な方面でこれまでなしえなかった成果を上げている。しかしながら、巨大なＤＮＮの学習には莫大な時間が掛かり、ＲｅｓＮｅｔのように構造を工夫したりＡｄａｍやバッチ規格化のように学習アルゴリズムを工夫したりしないと最適化が困難である。特に、追加されていくデータに対して構造を最適化し直すのは困難である。また、ＤＮＮはパラメータをもつ非線形関数であり、パラメータを変化させることで様々な関数を表現できるものの、任意の非線形関数を表現できるわけではないため、データ数が無限に増えていっても真の分布への漸近的な接近を保証することはできない。その一方で、多くの問題では局所的に単純なモデルで記述が可能である。そこで、推定したい対象データが与えられるたびに、類似したデータ群のみを用いて局所的に単純なモデル（典型的には線形モデル）を学習して、推論を行う手法が存在する。しかし、それらは少数の類似したデータ群のみを用いて学習をおこなうため過学習を行う危険性が存在する。

William S. Cleveland, et.al, "Locally Weighted Regression: An Approach to Regression Analysis by Local Fitting," Jounal of the American Statistical Association, 1988, 83(403), p.596−p.610 R. Tibshirani, et.al, "Local likelihood estimation," Journal of the American Statistical Association, 1987, 82(398), p.559−p.567

そこで、本発明は、ビッグデータに対してスケールする学習を行うことが可能でかつ、過学習を抑えた学習装置を提供する。

一実施形態に係るデータ推定装置は、推定の対象となる対象データを受け付ける、対象データ受付部と、教師付データの集合から、前記対象データに類似するデータの集合である類似データ群を抽出する、類似データ群抽出部と、前記類似データ群を用いて、局所的かつ正則化させる学習を行い、局所的モデルを生成する、学習部と、前記局所的モデルを用いて前記対象データについて推定する、推定部と、推定した結果を出力する、出力部と、を備える。

学習を行う際に、ビッグデータに対してスケールすることが可能でかつ、過学習を抑えることができる。

一実施形態に係るデータ推定の概略を模式的に示す図。一実施形態に係るデータ推定装置の機能を示すブロック図。一実施形態に係るデータ推定装置の処理を示すフローチャート。一実施形態に係るデータ推定装置のデータ入出力例。

本実施形態においては、事前に生成された学習モデルを用いて推定をするのではなく、推定を行う対象となるデータに基づいて、オンデマンドで学習モデルを生成し、生成された学習モデルを用いて推定をしようとするものである。以下図面を用いて本実施形態に係る学習装置について詳しく説明する。

図１は、本実施形態に係る学習、推定モデルの概略を示す図である。データ空間１内には、多くの教師付データが格納されている。データ空間１は、例えば、所謂ビッグデータと呼ばれるものであり、１のサーバ機に備えられているものであってもよいし、インターネット回線等を介して様々な場所に散らばって存在するデータの集合であってもよい。

一例として、８×８ピクセルの対象データを入力した場合に、３２×３２の高解像度画像を出力する、超解像画像を推定する場合について説明する。対象データ２Ａが入力されると、データ空間１内において、対象データ２Ａと類似する入力を有するデータを抽出し、抽出された複数の画像を類似データ群１Ａとして取得する。すなわち、類似データ群１Ａに属するデータは、データ空間１の集合に属するデータの一部の集合である。

本実施形態に係る学習装置は、この類似データ群１Ａから、局所的な推定モデル３Ａを学習により取得する。そして、推定モデル３Ａに対象データ２Ａを入力することにより、対象データ２Ａの超解像画像を推定し、出力する。このように、データの入力がされた後に、学習を行い、当該入力されたデータについての推定を行い出力すると言ったオンデマンドな学習と推定を行う。

例えば、別の対象データ２Ｂが入力されると、データ空間１から、別の類似データ群１Ｂが抽出され、推定モデル３Ａとは別の推定モデル３Ｂが学習により取得される。そして、対象データ２Ａを当該推定モデル３Ｂの入力とすることにより、対象データ２Ｂの超解像画像を得ることが可能となる。

類似データ群１Ａ、１Ｂが異なるデータ群に属していることから、取得される推定モデル３Ａ、３Ｂも異なるモデルとなる。このように、対象データごとに異なる推定モデルをオンデマンドな学習により取得して、対象データに対する推定が行われる。

図２は、本実施形態に係るデータ推定装置１０の機能を示すブロック図である。データ推定装置１０は、対象データ受付部１００と、類似データ群抽出部１０２と、教師付データ格納部１０４と、初期値生成部１０６と、学習部１０８と、推定部１１０と、出力部１１２と、を備える。

対象データ受付部１００は、推定の対象となるデータである対象データを受け付けるインターフェースである。この対象データ受付部１００は、受け付けた対象データを類似データ群抽出部１０２へと出力する。

類似データ群抽出部１０２は、入力された対象データに基づいて、類似データを抽出する。類似データは、教師付データ格納部１０４内に存在する教師付データのうち、対象データと類似するデータである。類似データ群抽出部１０２は、所定の条件にしたがい、複数の対象データを教師付データ格納部１０４から抽出する。

教師付データ格納部１０４は、複数の教師付データを格納している。この教師付データ格納部１０４は、図１におけるデータ空間１に対応するものである。上述したように、このデータは、１のサーバにまとめて格納されていてもよいし、インターネット等を介して複数の場所に分散して格納されていてもよい。

対象となるデータの種類によって、類似データ群抽出部１０２は、別のデータ空間１を参照する。例えば、超解像を行う場合には、超解像の教師付データが格納されているデータ空間１を参照し、文字認識、音声認識といった別のデータの推定を行う場合には、当該別の種類のデータが格納されているデータ空間１を参照する。もちろん、対象となるデータの種類のうち、複数の種類を包含するデータ空間１があってもよい。

初期値生成部１０６は、訓練データを用いて学習を行う前に、ネットワークの初期値を生成する。初期値の生成は、例えば、学習部１０８が学習を実行する学習モデルと比較して、単純なモデルにより実行される。典型的には線形モデルを学習モデルとして、その初期値を生成する。超解像の場合であれば、一例として、対象データ２Ａに類似した類似データ群１Ａに含まれる高解像度画像に対する主成分分析により、基底ベクトルとその重みの初期値を生成する。

学習部１０８は、抽出又は生成された類似データ群から推定モデルを学習により取得する。局所的な推定モデルである局所的モデルを取得できればよいので、学習部１０８にて構築される推定モデルは、オーバーフィッティングしないようにしつつも単純な方法で学習するものであってもよい。

推定部１１０は、学習部１０８が学習により生成した推定モデルに基づいて、対象データ受付部１００が受け付けた対象データから推定値を取得する。

出力部１１２は、推定部１１０が推定した推定値を出力する。出力は、画面等に表示するようにしてもよいし、印刷機により印刷するようにしてもよいし、音声データであれば、スピーカ等から音声を出力してもよい。

図３は、本実施形態におけるデータ推定装置の処理の流れを示すフローチャートである。以下、一例として、上述したように８×８ピクセルの画像から、３２×３２ピクセルの超解像画像を推定する処理について、フローチャートを用いて説明する。

まず、対象データ受付部１００は、推論対象データを受け付ける（ステップＳ１００）。例えば、ユーザがコンピュータのインターフェースを用いて入力した画像を、対象データ受付部１００が受け付ける。

次に、類似データ群抽出部１０２は、教師付データ格納部１０４から、対象データと類似している類似データ群を抽出する（ステップＳ１０２）。対象データをｘ^＊、教師付データ格納部１０４に格納されているデータにおける８×８ピクセルの入力データをｘ_ｋとした場合に、例えば、以下の式を満たすような集合Ｄを抽出する。
ここで、ｄ（ｘ^＊，ｘ_ｋ）は、ｘ^＊とｘ_ｋの距離を表し、例えば、Ｌ^２ノルムであり、εは、近傍の大きさを示す指標である。距離は、Ｌ^２ノルムには限られず、他の評価を行う関数であってもよい。別の例として、以下の式を用いてもよい。
一例として、所定数とは、１００程度であるが、これには限られず、例えば、２００、５０といったこれより大きい値でも、小さい値でも構わない。この所定数は、データの密度又はデータのサイズ、種類等により変更されるものであってもよい。

また、上述した式には限られず、他の手法を用いて近傍画像を抽出し、類似データとしてもよい。

抽出された類似データ群に属するそれぞれのデータは、８×８ピクセルの入力データｘ_ｎと、当該入力データの高解像度画像である３２×３２ピクセルの出力データｙ_ｎの組（ｘ_ｎ，ｙ_ｎ）として取得される。

次に、初期値生成部１０６は、抽出された類似データ群から、学習モデルの初期値を生成する（ステップＳ１０４）。８×８ピクセルの入力データを３２×３２ピクセルの超解像を行った出力データとする場合においては、高解像度の３２×３２ピクセルの画像が単純モデルで記述されるとして、その初期値を求める。一例として、以下のように表わされる。なお、以下の数式は、線形モデルで記載しているが、上記の単純モデルは、線型モデルには限られるものではない。
ここで、ｙ_ｎは、抽出された類似データ群の中のｎ番目の３２×３２ピクセルの高解像度画像を１０２４次元のベクトル、ｘ_ｎは、当該ｙ_ｎに対応する８×８ピクセルの低解像度を６４次元のベクトルで表現したものであり、ｆは、ｘ_ｎからｙ_ｎへの変換を表し、Ｖはそのパラメータを表わす。ε_ｎは、その線形モデルと当該ｙ_ｎの間の誤差を表わすベクトルである。別の例として、［数３］においては、ｘ_ｎ、ｙ_ｎは、ベクトル表現でもなく、行列で表現されていてもよい。類似データ群において、このような関係を満たすｆの初期値を生成する。

また、用いるアルゴリズムによっては、［数３］のような関係ではなく、他の関係、例えば、後述する［数４］等を用いて初期値を生成してもよい。すなわち、ここで言う初期値は、ｘ_ｎ及びｙ_ｎの関係性を示す初期値のみならず、変換系の学習において用いるパラメータ等の初期値を生成することであってもよい。このステップＳ１０４及び次のステップＳ１０６の具体例については、後述する。

次に、学習部１０８は、ステップＳ１０４で生成された初期値を用いて、類似データ群において［数３］を満たすようなｆを学習により洗練する（ステップＳ１０６）。モデルの初期値は、比較的少数の対象データの類似データ群から求めたものとなるため、オーバーフィットの問題が生じやすい。そこで、学習部１０８は、オーバーフィットを回避したモデルとなるように、初期値で与えられたモデルを学習により洗練する。このような条件を満たすものとして、例えば、局所的には線形となるモデルであり、かつ、正則化されるような学習アルゴリズムを用いる

次に、推定部１１０は、学習部１０８が学習した局所的モデルに対象データｘ^＊を当てはめることにより、超解像画像である出力データｙ^＊を推定する（ステップＳ１０８）。出力部１１２は、上記の一連の処理により推定された出力データｙ^＊を適切に出力する。

（初期化例）
ステップＳ１０４の初期化処理の一例について説明する。ｙ_ｎを、基底ベクトルを用いて以下のように表す。
ここで、ｙ_ｎは抽出された類似データ群のなかのｎ番目の３２×３２の高解像度画像を１０２４次元のベクトルで表現したもの、Ｖは１０２４×Ｋの行列、ａ_ｎは、Ｋ次元ベクトル、ε_ｎは１０２４次元ベクトルである。Ｋは、基底ベクトルの数を表し、Ｖは高解像度画像を表わす基底ベクトルがＫ個ならんだもの、ａ_ｎはそれぞれの基底ベクトルの重みを表わす。ε_ｎはモデルからのズレを表わす誤差ベクトルであり、平均ゼロ、分散σ^２のガウス分布に従うと仮定される。

初期値生成部１０６は、この変換行列Ｖと重みベクトルａ_ｎと分散σ^２の初期値を生成する。変換行列Ｖと重みベクトルａ_ｎの初期値は、例えば、抽出された類似データ群のうち高解像度画像に対してＰＣＡ（主成分分析：Principal Component Analysis）を行って求められたものであってもよい。分散σ^２の推定値は、誤差の２乗（ｙ_ｎ−Ｖ・ａ_ｎ）^２の平均によって求めてもよい。基底の数Ｋは、予め定めた数、もしくは、ＰＣＡにおける寄与率がある一定以上のものとして求めてもよい。

（学習例１）
次に、ステップＳ１０６の学習処理の一例について説明する。この学習の一例として、近似ベイズ推定を適用してもよい。例えば、超解像画像を推定するための局所的モデルにおいて変換行列Ｖや重みベクトルａ_ｎに事前分布をおき、その事後分布を変分ベイズ法によって推定してもよい。これに限らず、初期モデルのパラメータにガウスノイズを付加し、複数のパラメータを生成してそれらのアンサンブルで推定してもよい。より複雑なモデルとして中間層が１層のニューラルネットワーク等を用いることもできるが、複雑なモデルの学習は時間がかかるため、学習時間と精度を考慮して適切なモデルを選択する。初期値として求める単純な線形モデルでは、オーバーフィットを引き起こす可能性があるため、それを防ぐため、一例として、近似ベイズ推定をオンデマンドな学習に含める。

パラメータθにおける変換行列Ｖによるｘ_ｎの変換をｆ（ｘ_ｎ，θ）、この場合の損失関数を、Ｅ（ｆ（ｘ_ｎ；θ），ｙ_ｎ）とそれぞれ表す。学習部１０８は、Ｅ（・）をより小さくするようなθを求めることにより実行される。すなわち、類似データ群に属するデータの個数をＮとする場合に、以下の式のパラメータθを求めることにより学習を行う。

一例として、ベイズ推定によれば、モデルｐ（ｘ，ｙ｜θ）及びｐ（θ）が与えられた下で、以下の式における確率分布にしたがうように学習が行われる。入力データｘ_ｎ、集合Ｄにおける出力データｙ_ｎの予測分布は、尤度関数ｐ（ｙ｜ｘ，θ）をモデリングすることにより表される。
事前分布ｐ（θ）を設定し、［数７］から、パラメータθの事後分布ｐ（θ｜ｘ，Ｄ）を、適切な手法により算出し、［数６］の式に代入することにより、出力データｙの予測分布を求めることが可能となる。適切な手法には、例えば、ギブスサンプリングを行う手法がある。別の例としては、基底となるベクトルを算出する方法もあるが、これらには限られず、正則化できるのであれば、どのような手法であってもよい。そして、求められた［数６］の予測分布に基づいて、ｙの期待値Ｅ［ｙ｜ｘ，Ｄ］を算出する。

なお、［数７］は、類似データ群の抽出のステップを含めて表すと、以下のようになり、教師付データ格納部１０４に格納されているデータのうち、近傍のデータのみを使用して学習を行っていることが分かる。
ただし、Ｋ（ｘ_ｎ，ｘ^＊）は、対象データｘ^＊の近傍にある場合に１、それ以外では０となるカーネル関数である。

多数のパラメータ候補を事後分布ｐ（θ｜ｘ，Ｄ）で表現し、その事後分布による出力の平均を算出し、予測分布の期待値において予測を行う。このようにすることにより、少数のデータからパラメータを定める過学習を抑制することが可能となる。期待値Ｅ［ｙ｜ｘ，Ｄ］は、以下のようにアンサンブルによる推定とすることもできる。
ｙ_θは、パラメータθの下での出力の推定値であり、それらの出力の事後分布による平均が求める出力となる。

（学習例２）
前述の学習例１においては、全てのパラメータをベイズ推定で学習するものとしたが、これには限られず、パラメータθを、１以上の要素を備えるパラメータξと、１以上の要素を備えるパラメータηの組に分け、パラメータξに関してはベイズ推定を行い、パラメータηに関しては最尤推定に基づく点推定を行ってもよい。このようにパラメータθを２つのパラメータに分割した場合、すなわち、θ＝（ξ，η）とした場合、期待値Ｅ［・］は、以下のように表すことができる。
ただし、［数１０］に代えて以下の式が適用される。
ここで、パラメータηハットと事後分布ｐ（ξ｜ｘ，Ｄ，ηハット）は、［数５］、［数８］及び［数１１］の代わりに、以下の式に基づいて求めることができる。

このようにパラメータごとに別のアルゴリズムを利用することにより、計算量と過学習の平仄をとることが可能となる。

以上のように、本実施形態によれば、ビッグデータ等の莫大な量についての学習において、全てのデータを用いて推定モデルを学習するのではなく、対象データの近傍のデータを用いることにより、ビッグデータを用いているにもかかわらず、オンデマンドなデータ推定を行うことができる。さらに、ビッグデータ中から近傍のデータを抽出しつつも近似ベイズ推定を用いることにより、汎化性を持たせ、対象データに対する精度の高いデータ推定を行うこともできる。対象データが入力されてから近傍のデータから局所的モデルを学習により生成することにより、上記の効果を達成することが可能となる。

以下に、本実施形態に係るデータ推定装置１０による超解像の結果を例として示す。図４は、本実施形態に係る低解像度画像から高解像度画像を推定する超解像モデルを生成し、推定した結果を示す図である。

ｙを高解像度画像、ｘを低解像度画像とし、いずれも２次元画像を１次元に並べたベクトルとする。モデルとして、低解像度画像ｘは、高解像度画像ｙから線形変換によって生成されたものとする。このようにモデリングすると、ｘとｙの関係は以下の数式のように表すことができる。
ここで、Ｗは劣化過程を表す線形変換、ｍは、平均０、分散σ^２のガウス分布であるとする。例えば、高解像度画像中の３×３ピクセルの画素を、１つの低解像度画素とする場合には、３×３の高解像度が祖の画素値の平均又は重み付け平均を低解像度がその画素値とする。この他、線形変換では、レンズのぼけや、ダウンサンプリングが表現可能であるため、実際の劣化過程に応じて適切な関数を選択することが可能である。

一方で、生成する高解像度画像ｙは、任意の画像ではなく、空間的な滑らかさ等の特定の性質を持った自然画像であると考え、局所的に低ランクのベクトル空間で、以下の数式のように表現できるものとする。
ここで、ｖ_ｋ、ａ_ｋは、それぞれｋ番目の基底ベクトル及び当該基底ベクトルに対応する係数であるとする。ｎは、Ｋ次元ベクトル空間で表示しきれない残差ベクトルであり、平均０、分散Σのガウス分布にしたがうものとする。

このようにすると、パラメータθは、θ＝（Ｗ，σ^２，｛ａ_ｋ，ｖ_ｋ｜ｋ＝１，・・・，Ｋ｝，Σ）となる。このパラメータにおいて、［数１８］及び［数１９］の下で、それぞれ確率モデルｐ（ｘ｜ｙ，θ）と、ｐ（ｙ｜θ）を定義する。これらから、例えば、ｐ（ｘ，ｙ｜θ）＝ｐ（ｘ｜ｙ，θ）ｐ（ｙ｜θ）として定まる。

図４（ａ）は、対象データ、図４（ｂ）は、本実施形態に係るデータ推定装置１０により推定された高解像度画像、図４（ｃ）は、正解のデータである。このように、図４（ａ）の低解像度画像に対し、精度のよい高解像度画像を推定できていることが分かる。図４（ｄ）乃至図４（ｆ）も同様であり、図４（ｄ）が対象データ、図４（ｅ）が推定データ、図４（ｆ）が正解データである。

なお、この図４のデータ推定を行う際には、単純に８×８ピクセルの低解像度画像を用いるのではなく、８×８ピクセルの画像に対し、６×６ピクセルのパッチを当て、１枚の対象画像データから９枚の対象画像データを生成している。

同様に、教師付データ格納部１０４に格納されている各データに対しても、６×６ピクセルの低解像度画像と、対応する範囲の２４×２４ピクセルの高解像度画像とを生成している。このようにパッチを当てることにより、近傍画像をデータオーグメンテーションに近い効果により増強させることが可能となる。さらに、左右反転させて画像を教師付データ格納部１０４に格納しておいてもよい。

対象データの各パッチに対して、上述したデータ推定装置１０により、学習と推定をオンデマンドで行う。その上で、各パッチから推定された高解像度のパッチ画像を合成することにより高解像度画像を取得している。

上述した例とは別の例としては、例えば、変分ベイズの手法を用いてもよい。パラメータθのうち、ベイズ推定を行うパラメータξ＝｛ａ_ｋ｜ｋ＝１，・・・，Ｋ｝と、点推定するパラメータη＝（Ｗ，σ^２，｛ｖ_ｋ｜ｋ＝１，・・・，Ｋ｝，Σ）に分けて、ｐ（ξ）を成分ごとに独立なガウス分布とし、当該ガウス分布の分散がガンマ分布にしたがうものとしてもよい。ｐ（ξ｜ｘ，Ｄ，η）と、ηハット（η＾）は、変分ベイズの手法で近似的に算出する。

さらに別の例としては、サンプリングを用いた近似的な局所的にベイズ推定による学習を行ってもよい。サンプリングを用いた手法では、パラメータθのうち、ベイズ推定を行うパラメータξ＝｛ｖ_ｋ｜ｋ＝１，・・・，Ｋ｝と、点推定するパラメータη＝（Ｗ，σ^２，｛ａ_ｋ｜ｋ＝１，・・・，Ｋ｝，Σ）とに分けて学習を行う。ηハットは、例えば、主成分分析によって定める。同じく主成分分析で、基底｛ｖ_ｋ｝も点推定することができる。

推定の不確実性を表現した事後分布ｐ（ξ｜ｘ，Ｄ，ηハット）、すなわち、基底｛ｖ_ｋ｝の事後分布を近似的に求めるために、主成分分析で点推定された｛ｖハット_ｋ｝にガウスノイズを付加して推定の不確かさを表現してもよい。このガウスノイズは、例えば、バリデーションデータに基づいて定められる。

単純にガウスノイズの平均を算出すると、元の主成分分析の基底が得られることになるが、有限この平均を算出した場合には、必ずしも元の主成分分析の基底とは一致しない。さらに、例えば、上述のようにパッチを当てて高解像画像を推定する場合には、パッチごとに推定が行われ、パッチ巻に重なりがあるため、重なりのある領域では単純なノイズとは異なる結果を生じさせる。

以上のように、本実施形態に係るデータ推定装置１０では、対象データの近傍にあるデータのオーグメンテーションも容易に行うことが可能であり、近傍データについてのデータオーグメンテーションを行うことにより、より汎化性を持たせ、より精度の高いデータ推定を可能としている。

なお、一例として、低解像度画像の超解像についてのデータ推定を記載したが、本実施形態の応用例はこれには限られない。すなわち、回帰問題や識別問題（Ｈｉｇｇｓ粒子の識別、文字識別、音声認識、文書解析）等にも応用可能である。回帰問題又は識別問題においても、典型的には局所的には線形な単純なモデルを仮定する。上記は、一例を挙げたものであり、他の局所的に単純なモデル、たとえば中間層が一層のニューラルネットワークにも応用することが可能である。

また、学習法としては、ベイズ推定を挙げたがこれには限られず、他の一般的な局所的なモデルを求めるものであり、かつ、オーバーフィットを抑制できるような機械学習方法で学習することも可能である。また、上述したデータ推定の種類により、学習のアルゴリズムを変えることも可能である。

上記の全ての記載において、データ推定装置１０の少なくとも一部はハードウェアで構成されていてもよいし、ソフトウェアで構成され、ソフトウェアの情報処理によりＣＰＵ等が実施をしてもよい。ソフトウェアで構成される場合には、データ推定装置１０及びその少なくとも一部の機能を実現するプログラムをフレキシブルディスクやＣＤ−ＲＯＭ等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。すなわち、ソフトウェアによる情報処理がハードウェア資源を用いて具体的に実装されるものであってもよい。さらに、ソフトウェアによる処理は、ＦＰＧＡ等の回路に実装され、ハードウェアが実行するものであってもよい。学習モデルの生成や、学習モデルに入力をした後の処理は、例えば、ＧＰＵ等のアクセラレータを使用して行ってもよい。

また、本実施形態に係るデータ推定モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとして利用することが可能である。すなわち、コンピュータのＣＰＵが格納部に格納されているモデルに基づいて、演算を行い、結果を出力するように動作する。

上記の全ての記載に基づいて、本発明の追加、効果又は種々の変形を当業者であれば想到できるかもしれないが、本発明の態様は、上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更及び部分的削除が可能である。

１０：データ推定装置、１００：対象データ受付部、１０２：類似データ群抽出部、１０４：教師付データ格納部、１０６：初期値生成部、１０８：学習部、１１０：推定部、１１２：出力部

Claims

推定の対象となる対象データを受け付ける、対象データ受付部と、
教師付データの集合から、前記対象データに類似する類似データの集合である類似データ群を抽出する、類似データ群抽出部と、
前記類似データ群を用いて、局所的かつ正則化させる学習を行い、局所的モデルを生成する、学習部と、
前記局所的モデルを用いて前記対象データについて推定する、推定部と、
推定した結果を出力する、出力部と、
を備えるデータ推定装置。
学習を行う前に、前記類似データ群から初期データを生成する、初期データ生成部を備える請求項１に記載のデータ推定装置。
前記初期データ生成部は、前記局所的モデルを生成する学習により前記初期データを生成する、請求項２に記載のデータ推定装置。
前記学習部は、ベイズ推定により学習を行う、請求項１乃至請求項３のいずれかに記載のデータ推定装置。
推定の対象となる対象データを受け付けるステップと、
教師付データの集合から、前記対象データに類似する類似データの集合である類似データ群を抽出するステップと、
前記類似データ群を用いて学習を行い、局所的かつ正則化させる学習を行い、局所的モデルを生成するステップと、
前記局所的モデルを用いて前記対象データについて推定するステップと、
推定した結果を出力するステップと、
を備えるデータ推定方法。
コンピュータを、
推定の対象となる対象データを受け付ける手段、
教師付データの集合から、前記対象データに類似する類似データの集合である類似データ群を抽出する手段、
前記類似データ群を用いて学習を行い、局所的かつ正則化させる学習を行い、局所的モデルを生成する手段、
前記局所的モデルを用いて前記対象データについて推定する手段、
推定した結果を出力する手段、
として機能させるプログラム。