JP6704341B2 - 情報推定装置及び情報推定方法 - Google Patents

情報推定装置及び情報推定方法 Download PDF

Info

Publication number
JP6704341B2
JP6704341B2 JP2016252813A JP2016252813A JP6704341B2 JP 6704341 B2 JP6704341 B2 JP 6704341B2 JP 2016252813 A JP2016252813 A JP 2016252813A JP 2016252813 A JP2016252813 A JP 2016252813A JP 6704341 B2 JP6704341 B2 JP 6704341B2
Authority
JP
Japan
Prior art keywords
distribution
data
terms
peak
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016252813A
Other languages
English (en)
Other versions
JP2018106463A (ja
Inventor
仁吾 安達
仁吾 安達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2016252813A priority Critical patent/JP6704341B2/ja
Priority to US15/812,118 priority patent/US20180181865A1/en
Priority to EP17203449.8A priority patent/EP3343456B1/en
Priority to CN201711444324.4A priority patent/CN108241888B/zh
Publication of JP2018106463A publication Critical patent/JP2018106463A/ja
Application granted granted Critical
Publication of JP6704341B2 publication Critical patent/JP6704341B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/50Adding; Subtracting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Complex Calculations (AREA)

Description

本発明は、ニューラルネットワークを用いた推定処理を行う情報推定装置及び情報推定方法に関する。特に、本発明は、ニューラルネットワークにドロップアウト層を設けることによって、推定結果に対する信頼区間を表す分散値を求める情報推定装置及び情報推定方法に関する。
ニューラルネットワーク(NN: Neural Network)を用いた推定器は、他の推定器と比べ、画像やセンサー信号データなど、大量の情報を入力データとして処理し、推定を行うことができることから様々な分野への応用に期待されている。
ニューラルネットワークはデータを処理する層が配列された構造になっており、各層ではデータが入力されて、その層に設定された計算が行われた後に、処理後のデータが出力されるよう構成されている。具体的には、観測物からの入力データは、まずニューラルネットワークの入力層に入力されて処理が行われた後に出力され、その後、それぞれの層(中間層)に順番に入力データとして入力されて処理が行われた後に出力されながら、各層における処理が繰り返されて、ニューラルネットワーク内をデータが伝搬していく。そして、最後の層である出力層からデータが出力され、それが推定結果となる。なお、観測物からの入力データは、推定したい観測対象のn次元のベクトルデータであり、例えば、縦横10ピクセルの白黒カメラ画像であれば、各ピクセルに対応した要素を持つ10×10=100次元(すなわち、n=100)のベクトルデータとなる。
ニューラルネットワークの各層では、入力されるベクトルデータの次元数と、出力されるベクトルデータの次元数とが異なるように設定可能である。すなわち、ベクトルデータは各層を通るたびに、その次元数が増えたり減ったりする。また、出力層から出力されるベクトルデータの次元数は、設計者の推定させたい内容によって異なる。例えば、「速度」や「点数」という値を推定させたい場合は、出力層からの出力はn=1次元のスカラーデータとなる。あるいは、入力画像から、その入力画像が「歩行者」、「自動車」、「自転車」のいずれであるかを分類させたい場合(すなわち、3クラスの分類をさせたい場合)には、出力層からの出力は、上記3クラスのうちのいずれに該当するのかを表す「点数」を格納する、n=3次元のベクトルデータとなる。
また、ニューラルネットワークを用いて推定処理を行う推定器で実行される処理として、学習フェーズと推定フェーズとが存在する。
学習フェーズでは、設計者は、学習データを使い、特定のパターンを持つ入力データに対し望むような特定の出力を出すよう、ニューラルネットワーク内のニューロンの重みを計算して学習させる。
推定フェーズでは、見たことのない新しいデータ、つまりテストデータを、学習フェーズで学習されたルールを持つニューラルネットワークに入力して推定させ、上手く学習ができていれば、学習した概念に従って推定結果を出す。
ニューラルネットワークを使用した従来の推定器が他のベイズ推定などの確率的手法を使った推定器と大きく異なる点としては、ニューラルネットワークでは推定結果が「値」として出力されるのみであり、いわば推定結果に対する、信頼区間を表す分散値が計算できないことが挙げられる。
ニューラルネットワークでは、信頼区間を表す分散値が計算できないため、閾値を設定してあるレベル以上の信頼できる推定結果のみを採用するなどの設定を行うことが困難であり、誤判定の可能性を多く含んでしまう可能性がある。例えば、自動車の周囲の状況を推定するなどのような、高い安全性が求められる環境下でニューラルネットワークを使用場合、その推定結果に誤判定が含まれている場合には、重大な事故につながってしまうおそれがある。
これに対し、下記の非特許文献1には、ニューラルネットワークにおいて、出力値とその分散値とを計算する方法が提案されている。以下、非特許文献1に開示されている計算方法について説明する。
非特許文献1における分散値の計算方法は、本来は学習時に過学習を防ぐために用いられるドロップアウト(dropout)を推定時にも使用することで、推定結果の分散を計算するものである。ドロップアウトとは、例えば下記の特許文献1に開示されているように、ニューラルネットワークの層の中にドロップアウト層を設け、そのドロップアウト層に入力されるベクトルデータの各要素に対して独立に、設計者が事前に決めたある確率pdropでゼロにする手法である。
例えば、入力ベクトルデータが100次元、すなわち100個の要素からなる場合には、それぞれの要素に含まれる値に対して独立に、確率pdropでゼロにするかしないか(ゼロにしない場合には元の要素に含まれる値は変更されない)をそれぞれ判断する。結果的に、統計的には100個の要素のうちの100×pdropの個数の要素がゼロの値となる。すなわち、ドロップアウトでは、確率pdropに対応した個数の要素が欠損(ゼロに設定)した状態で計算処理を行う。
学習時には、確率pdropで要素が欠損した状態で計算された出力結果が、希望する正解データに対して差分が最小となるように重みを計算する。また、学習時には、この計算を何度も繰り返す。すなわち、ドロップアウト層に入力される別のベクトルデータの各要素に対して独立に、確率pdropでゼロにするかしないかを新たに判断し、別のベクトルデータに関し、確率pdropに対応した個数の要素が欠損した状態で計算処理を行って、希望する正解データに対して差分が最小となるように重みを計算する。このように入力されるベクトルデータに対してドロップアウトを使用した学習を繰り返すことによって、ベクトルデータのいかなる要素が欠損していても、同一の正解データを推定結果として出力できるように学習が行われる。
このドロップアウトを使用した計算方法は、従来、学習時のみに適用されていた。すなわち、従来は、学習時にはドロップアウトを使用することがあったが、推定時にはドロップアウトを使用することはなかった。
ところが、非特許文献1では、あえて、推定計算の場合にも、同一の対象物からの入力ベクトルデータに対し、ドロップアウトをさせたまま推定計算を何度も繰り返し行うことで、出力値とともに、その分散値を計算する手法が導入されている。非特許文献1では、このドロップアウトを使用した推定は、モンテカルロ(MC:Monte Carlo)ドロップアウトと呼ばれる。ドロップアウト層で確率pdropでゼロとなる入力ベクトルデータの要素群のパターンは、欠損により毎回推定計算するごとに異なるため、その後の層を通った最終的な推定結果も毎回異なる。なお、本明細書では、ベクトルデータが入力されるたびに、出力される推定結果が異なることを、推定結果が「揺れる」と表現することがある。
1回の計算で得られた出力値の様子を図1(a)に示し、何度も計算を繰り返して得られた出力値に関して分布が生じる様子を図1(a)に示す。図1(a)には、1回の計算によって得られた出力値が、グラフ(横軸は値を表す)上にプロットされた様子が示されている。また、図1(b)には、複数回(ここでは10回)の計算によって得られた出力値が、グラフ(横軸は値を表し、縦軸は模式的に度数を表す)上にプロットされた様子が示されている。
さらに、図1(b)に示されている出力値の分布を値ごとに度数としてカウントし、ヒストグラムによって表現した様子を図1(c)に示す。図1(c)には、図1(b)で表されている分布の様子が、出力値の大きさ(横軸)とその度数(縦軸)の関係を示すヒストグラムで表現されている。このように何度の試行を繰り返すことで、出力値の分布を得ることができ、図1(c)には、統計処理によって得られる、推定値の確率密度分布のグラフ(図1(c)中の点線で描かれたグラフ)、平均値、推定分散値も示されている。なお、本明細書では、このように何度も試行を繰り返して確率密度分布を得ることを、「モンテカルロ的に計算する」と表現することがある。
非特許文献1では、MC回計算を繰り返し、毎回変化する最終出力ベクトルデータの値をMC個(〜200個ほど)集め、以下の式によって、それらの値の分散値を計算している。この式によって得られる分散値は、入力データに対する不確からしさとして定義される。
上記の式において、xが入力、yが出力、Tが計算回数(すなわち、T=MC)であり、左辺が出力yの分散値である。上記の式のように、左辺(分散値)は、初期分散に関する定数項τ−1(右辺第1項)と、出力yの分散値(右辺第2項)から出力yの平均の2乗(右辺第3項)を引いた値の和で表される。
この計算を直感的な表現で言えば、同一対象物に対するニューラルネットワークの推定値を何度も計算し、そのたびにドロップアウト層の入力ベクトルデータの値をランダムにゼロにして、ベクトルデータの要素群にランダムな欠損を作ることで、ドロップアウト層からの出力データを意図的に揺らすようにしている。このようにドロップアウト層からの出力データを意図的に揺らした場合であっても、出力層から出力される最終的な推定結果が揺れない場合、すなわち分散が小さい場合には、ニューラルネットワークはその推定値に対して信頼性が高いと考えることができる。一方、逆に出力層から出力される最終的な推定結果が大きく揺れる場合、すなわち分散が大きい場合には、ニューラルネットワークはその推定値に対して信頼性が低いと考えることができる。
国際公開公報WO2014105866A1
"Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning", Yarin Gal, Zoubin Ghahramani:2015年6月6日(https://arxiv.org/pdf/1506.02142v1.pdfから取得可能) "ON THE VARIANCE OF THE SAMPLE MEAN FROM FINITE POPULATION", Syed Shakir Ali Ghazali, Journal of Scientific Research, Volume XXXIV No. 2:2005年10月
しかしながら、上述のように、ある1つの観測対象に対して分散値を得るためには、ニューラルネットワークのドロップアウト層以降の計算を繰り返し何度も行わなければならない。例えば、この計算回数はMC回(〜200回)ほど必要となる。計算回数を少なくした場合には、出力値の確率密度分布に関して滑らかな分布形状が得られず、正確に分散値を見積もることが困難である。一方、計算回数を多くするとより正確な分散値を見積もることが可能となるが、膨大な計算回数は、計算処理に時間及び手間がかかるため、実用上計算処理にとって大きな負担となるという課題がある。
上記の課題を解決するため、本発明は、膨大な回数の計算処理を行うことなく、推定結果に対する信頼区間である分散値を安定した状態で、かつ高速に計算することが可能な、ニューラルネットワークを用いて推定処理を行う情報推定装置及び情報推定方法を提供することを目的とする。
上記の目的を達成するため、本発明によれば、入力データの一部を欠損させるドロップアウト層と、重みの計算を行うFC層との組み合わせからなる一体化層を持つよう構成されたニューラルネットワークを用いて推定処理を行う情報推定装置であって、
多変量分布からなる前記一体化層への入力データの各ベクトル要素と前記重みとの積からなる項の数値分布に基づいて、多変量分布からなる前記一体化層からの出力データの各ベクトル要素のデータタイプを判断するデータ解析部と、
前記データ解析部で判断された前記データタイプに対応付けられている近似計算方法を前記一体化層における計算に適用し、前記一体化層への入力データに基づいて、前記一体化層からの出力データの各ベクトル要素の分散値を解析的に計算する推定信頼区間計算部とを、
有する情報推定装置が提供される。
また、上記の目的を達成するため、本発明によれば、入力データの一部を欠損させるドロップアウト層と、重みの計算を行うFC層との組み合わせからなる一体化層を持つよう構成されたニューラルネットワークを用いて推定処理を行う情報推定方法であって、
多変量分布からなる前記一体化層への入力データの各ベクトル要素と前記重みとの積からなる項の数値分布に基づいて、多変量分布からなる前記一体化層からの出力データの各ベクトル要素のデータタイプを判断するデータ解析ステップと、
前記データ解析ステップで判断された前記データタイプに対応付けられている近似計算方法を前記一体化層における計算に適用し、前記一体化層への入力データに基づいて、前記一体化層からの出力データの各ベクトル要素の分散値を解析的に計算する推定信頼区間計算ステップとを、
有する情報推定方法が提供される。
本発明は、ニューラルネットワークによる推定技術に関し、推定結果に対する信頼区間である分散値を安定した状態で、かつ高速に計算できるようになるという効果を有し、ニューラルネットワークによる推定結果に対する信頼性が迅速かつ容易に判断可能となる。また、信頼性に応じて推定結果を採用するか否かの判断や、他のベイズ推定などによる推定結果との融合を行うか否かの判断などが可能となり、ニューラルネットワークの適用範囲を大きく広げることができる。
ニューラルネットワークを使用した従来の推定器から得られる出力値を示すグラフであり、(a)は、1回の計算で得られた出力値の様子を示すグラフであり、(b)は、複数回の計算で得られた出力値の様子を示すグラフであり、複数回の計算で得られた出力値のヒストグラムを示すグラフである。 本発明の実施の形態における情報推定装置の構成の一例を示すブロック図である。 (a)は、「タイプ2」の場合における、xinDF i,j項の値をインデックスjごとにプロットして表現した一例を示す棒グラフであり、(b)は、(a)に示す傾向を持つxinDF i,j項の値から得られるxoutDF の値が何度も計算された場合のxoutDF の一例を示すヒストグラムである。 (a)は、「タイプ1」の場合(ピーク項が1個)における、xinDF i,j項の値をインデックスjごとにプロットして表現した一例を示す棒グラフであり、(b)は、(a)に示す傾向を持つxinDF i,j項の値から得られるxoutDF の値が何度も計算された場合のxoutDF の一例を示すヒストグラムである。 (a)は、「混合タイプ」の場合(ピーク項が1個)における、xinDF i,j項の値をインデックスjごとにプロットして表現した一例を示す棒グラフであり、(b)は、(a)に示す傾向を持つxinDF i,j項の値から得られるxoutDF の値が何度も計算された場合のxoutDF の一例を示すヒストグラムである。 (a)は、「タイプ1」の場合(ピーク項が2個)における、xinDF i,j項の値をインデックスjごとにプロットして表現した一例を示す棒グラフであり、(b)は、(a)に示す傾向を持つxinDF i,j項の値から得られるxoutDF の値が何度も計算された場合のxoutDF の一例を示すヒストグラムである。 (a)は、「混合タイプ」の場合(ピーク項が2個)における、xinDF i,j項の値をインデックスjごとにプロットして表現した一例を示す棒グラフであり、(b)は、(a)に示す傾向を持つxinDF i,j項の値から得られるxoutDF の値が何度も計算された場合のxoutDF の一例を示すヒストグラムである。 本発明の実施の形態における情報推定装置の処理の手順の一例を示すフローチャートである。 図8AのステップS14におけるデータ解析及び計算処理の手順の一例を示すフローチャートである。 図8BのステップS143におけるタイプ判断及び計算処理の手順の一例を示すフローチャートである。 本発明の実施の形態に関連した実験に使ったニューラルネットワークの構造の一例を示す図である。 (a)は、この実験結果及び従来の手法によって得られる結果を示すものであり、ニューラルネットワークによる関数を示すグラフの一例であり、(b)は、この実験結果及び従来の手法によって得られる結果を示すものであり、一体化層の出力値xoutDF を何度も試行した場合の値を示すグラフである。
以下、図面を参照しながら、本発明の実施の形態について説明する。初めに、本発明の実施の形態を説明するために必要となる、ニューラルネットワークの各層における処理及び表記について説明する。
ニューラルネットワークは複数の層から構成される。各層においては、各層に入力される入力データに関し、各層に規定された計算処理を行い、その処理結果を出力データとして出力する。出力データは、次の層に供給されて次の層における入力データとなり、次の層においても同様に、その層に規定された計算処理を行って、その処理結果を出力データとして出力する。このように順次、各層における入力、計算処理、出力を繰り返すことで、ニューラルネットワーク内でデータが伝搬され、最終的に出力層から推定結果が出力される。
本明細書では、ニューラルネットワークの、ある層lに関して、層lへの入力データをnXin 次元の確率変数ベクトルXin、層lからの出力データをnXout 次元の確率変数ベクトルXoutとし、以下の式のように表記する。なお、明細書中の表記nXin は、nの下付き添字がXinであることを表し、明細書中の表記nXout は、nの下付き添字がXoutであることを表す。
これらの確率変数ベクトルXinやXoutは、任意の複雑な形状を持つ多変量分布の確率密度関数HinやHoutに従い、以下の式のように表される。
例えば、確率密度関数HinやHoutがガウス分布であれば、以下の式のように表すことができる。
μXin は平均を表すnXin 次元ベクトルであり、ΣXin はnXin ×nXin サイズの分散共分散行列となる。また、μXout は平均を表すnXout 次元ベクトルであり、ΣXout はnXout ×nXout サイズの分散共分散行列となる。なお、明細書中の表記μXin はμの下付き添字がXinであることを表し、明細書中の表記ΣXin はΣの下付き添字がXinであることを表し、明細書中の表記μXout はμの下付き添字がXoutであることを表し、明細書中の表記ΣXout はΣの下付き添字がXoutであることを表す。
さらに本発明では、全確率の法則(Law of total probability)を使い、以下の式のように、確率密度をM個の条件付き確率密度分布の混合で表現する。
なお、全ての条件の確率の和は当然1となり、以下の式のように表される。
一例として、多変量分布HinやHoutが、条件付き多変量ガウス分布Gaussの混合であれば、以下の式のように記述される。
なお、ここで言う「多変量分布に従う確率変数」のデータXinやXoutとは、あくまでも、「一般形で表されると」という意味である。すなわち、それは、データが『単』変量分布の場合は、nXin =1、nXout =1の1次元の変数にもなり得、また、分散共分散ΣXin 、ΣXout がゼロであれば、データは確率変数ではなく、固定値にもなり得るという意味を含む。
次に、この多変量分布のデータが、どのようにニューラルネットワークの各層で計算されるかについて簡単に説明する。以下、各層の処理について個別に説明する。
<ドロップアウト層Dでの計算処理>
ドロップアウト層Dでの計算処理について説明する。このドロップアウト層Dへの入力データをnXin 次元の確率変数ベクトルXin、このドロップアウト層Dからの出力データをnXout 次元の確率変数ベクトルXoutとする。なお、明細書中の表記nXin は、nの下付き添字がXinであることを表し、明細書中の表記nXout は、nの下付き添字がXoutであることを表す。
ドロップアウトに関しては、指示関数z={0,1}を使って表現する。zは以下のようにベルヌーイ分布に従う確率変数であり、ドロップアウトされる確率pdropでz=0、ドロップアウトされない確率(1−pdrop)でz=1となる。zは、入力データXinのそれぞれのnXin 個の要素のそれぞれに積算され、それぞれ独立にz=0又はz=1に設定される。ドロップアウトされると全体の値の和が落ちるため、ある定数cをかけて、全体の値のスケールを上げる。
<FC層(Fully Connected Layer)Fでの計算処理>
FC層(Fully Connected Layer)Fでの計算処理について説明する。このFC層Fへの入力データをnXin 次元の確率変数ベクトルXin、このFC層Fからの出力データをnXout 次元の確率変数ベクトルXoutとする。なお、明細書中の表記nXin は、nの下付き添字がXinであることを表し、明細書中の表記nXout は、nの下付き添字がXoutであることを表す。
また、FC層Fのパラメータを以下のように定義する。W(サイズnXout ×nXin )は重みを表す行列であり、b(サイズnXout ×1)はバイアスを表すベクトルである。これらは、学習フェーズで既に最適な値が獲得されているとする。
このFC層Fにおいて、Xinの入力データからXoutの出力データを計算する処理は、以下の式を用いて行われる。
<活性化層Aでの計算処理>
活性化層Aでの計算処理について説明する。この活性化層Aへの入力データをnXin 次元の確率変数ベクトルXin、この活性化層Aからの出力データをnXout 次元の確率変数ベクトルXoutとする。また、FC層Fのパラメータを以下のように定義する。なお、明細書中の表記nXin は、nの下付き添字がXinであることを表し、明細書中の表記nXout は、nの下付き添字がXoutであることを表す。
活性化関数は、シグモイド関数やRectified Linear Unit(ReLU)関数などであり、活性化関数を関数fとすると、活性化層Aにおいて、Xinの入力データからXoutの出力データを計算する処理は、以下の式を用いて行われる。
<ドロップアウト層D→FC層Fでの計算処理>
多変量分布に従う確率変数である入力データが、前述したドロップアウト層Dを通り、あるFC層Fに入り、最後に活性化層Aを通る場合に、後述するように、本発明に特徴的な処理が行われる。以下、ドロップアウト層DとFC層Fとが一体となった層(ドロップアウトを備えたFC層F)を一体型層DFとして考え、一体型層DFにおける処理について説明する。
以下の式のように、一体型層DFへの入力データをnXin DF次元の確率変数ベクトルXinDF、この一体型層DFからの出力データをnXout DF次元の確率変数ベクトルXoutDFとする。なお、明細書中の表記nXin DFは、nの下付き添字がXinDFであることを表し、明細書中の表記nXout DFは、nの下付き添字がXoutDFであることを表す。
この一体型層DFでは、XinDFの入力データからXoutDFの出力データを計算する処理において、一体型層DFのドロップアウト層Dの部分における計算と、一体型層DFのFC層Fの部分における計算が行われる。すなわち、一体型層DFでは、以下の式に従った計算が行われる。
なお、簡略のため、ドロップアウトでのスケール調整において積算されるある定数Cは重みWDFの中に組み込まれているとしても差し支えない。
とりわけ、XoutDFの中のi番目の要素xoutDF (1≦i≦nXout DF)は、以下の式によって表される。
それは、xinDF i,jの項のリストの総和(1≦j≦nXin DF)と最後にバイアス項bを含んだ総和となる。そこには、2種類の確率変数xinDF とzとが含まれており、残りは固定値である。
確率変数xinDF は入力データであり、この一体型層DF以前の層でのドロップアウトのベルヌーイ分布が変換されてきたものに由来し、前層の構造に応じて任意の分布を取る。一方、確率変数zは、まさにこの一体型層DFでのドロップアウトによるものであり、z={0,1}の確率pdropでz=0となるベルヌーイ分布である。したがって、これらの2種類の確率変数は独立したものとなる。
xoutDF の値を計算しようとすると、nXin DF個のxinDF i,j項(1≦j≦nXin DF)があり、それぞれの項にあるzが前述のように独立にz=0か、z=1を取り得る、すなわち、個々のnXin DF個のxinDF i,j項が総和に寄与するかしないかには膨大な数の分岐が存在するため、それらの項の和であるxoutDF が取り得る値は、最大、2^nXin DF個(2のnXin DF乗個)のバリエーションがある。ドロップアウトをさせたまま、なんどもxoutDF を計算させると、2^nXin DF種類の値を離散的にとびとびに飛んで揺れる分布になる。
一般的なニューラルネットワークでは、ニューロン数はnXin DF=1024個程度とするため、21024通りの総和を計算する必要があるが、この計算は処理が膨大すぎて実用的な時間内に行うことが不可能である。
これに対し、本発明は、このような膨大な回数の計算処理を行うことなく、解析的な手法を用いて計算処理を行うことで、従来では膨大な回数の計算処理によって得られていた分散値を、1回の計算処理で計算する技術を提案する。本発明では、ドロップアウトによって計算のたびに揺らぐ出力データの値を「確率変数」と捉え、その確率変数を生み出す元の「確率密度分布」を定めることで、その確率密度分布の分布形状が各層での計算処理でどう変化するのかを直接求めることが可能となる。そして出力層から出力されたデータの確率密度分布の分布形状を求めて、その分散を計算することで、推定結果に対する信頼区間、すなわち分散値を求めることが可能となる。
<情報推定装置10の構成>
以下、図2を参照しながら、本発明の実施の形態における情報推定装置(ニューラルネットワークを用いて推定処理を行う推定器)の構成について説明する。図2は、本発明の実施の形態における情報推定装置の構成の一例を示すブロック図である。図2に示す情報推定装置10は、推定信頼区間計算部20、データ解析部30を有する。情報推定装置10は、ドロップアウト層を持つニューラルネットワークによる推定器であり、推定結果の値だけでなく、推定の値が取り得る分散値も求めることができる処理機能を有する。
なお、本発明の実施の形態において、装置構成の説明に用いられているブロック図は、本発明に関連した機能を表しているにすぎず、実際の実装では、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせによって実現されてもよい。ソフトウェアで実装される機能は、1つ又は複数の命令若しくはコードとして任意のコンピュータ可読媒体に記憶され、これらの命令又はコードは、CPU(Central Processing Unit:中央処理ユニット)などのハードウェアベースの処理ユニットによって実行可能である。また、本発明に関連した機能は、IC(Integrated Circuit:集積回路)やICチップセットなどを含む様々なデバイスによって実現されてもよい。
推定信頼区間計算部20は、従来のニューラルネットワークと同様に、各層において入力データの計算処理を行って推定結果を出力することに加えて、入力データがドロップアウトにより、どのような分布を持って各層を伝搬し出力されるのかについて、分布の形状を計算し、最終的な出力層から出力される分散値を信頼区間として計算するよう構成されている。最終的な出力層から出力される推定結果の分散が大きければ、その推定結果は大きく揺れる、つまり信頼性が低いとみなすことができ、一方、分散が小さければ、その推定結果の信頼性は高いとみなすことができる。推定信頼区間計算部20は、特に、データ解析部30により決定された近似計算方法に対応する近似計算(例えば、後述する「タイプ1」、「タイプ2」、「混合タイプ」のいずれかに対応する近似計算)を行い、データの分布形状を計算する機能を有する。
例えば、推定信頼区間計算部20は、データ解析部30で判断されたデータタイプに対応付けられている近似計算方法を一体化層DFにおける計算に適用し、一体化層DFへの入力データに基づいて、一体化層DFからの出力データの各ベクトル要素の分散値を解析的に計算する処理を行うことが可能である。
データ解析部30は、ニューラルネットワークの各層において計算処理が行われて出力されるデータに対し、その出力データがどのような特性を持っているのかを解析し、その分布を計算するための最適な近似計算方法を判断して(データタイプの判断)、推定信頼区間計算部20へ伝えるよう構成されている。データ解析部30は、特に、ニューラルネットワークのドロップアウト層DとFC層Fとの組み合わせからなる一体型層DFへの入力データを解析して、その入力データに最適な近似計算方法(例えば、後述する「タイプ1」、「タイプ2」、「混合タイプ」のいずれか)を推定信頼区間計算部20へ通知する機能を有する。
例えば、データ解析部30は、多変量分布からなる一体化層DFへの入力データの各ベクトル要素と重みとの積からなる項の数値分布に基づいて、多変量分布からなる一体化層からの出力データの各ベクトル要素のデータタイプを判断する処理を行うことが可能である。
以下、推定信頼区間計算部20及びデータ解析部30における処理の詳細について説明する。
<データ解析部30における処理>
まず、データ解析部30における処理について説明する。上述のとおり、一体型層DFでは、入力データであるXinDFに基づいて、出力データであるXoutDFを計算する処理が行われ、XoutDFの中のi番目の要素xoutDF (1≦i≦nXout DF)は、以下の式によって表される。
データ解析部30は、XoutDFの中のi番目の要素xoutDF に含まれるnXin DF個のxinDF i,jの項のうち、zを除いたxinDF i,jの項(1≦j≦nXin DF)の性質を解析する。
以下、図3〜図7を参照しながら、XoutDFの中のi番目の要素xoutDF に含まれるxinDF i,j項(1≦j≦nXin DF)の性質について説明する。なお、図3〜図7のいずれにおいても、上側の棒グラフ(a)には、xinDF i,j項の値をインデックスjごとにプロットして表現した状態が示されている。また、下側のヒストグラム(b)には、(a)に示す傾向を持つxinDF i,j項の値から得られるxoutDF の値が何度も計算された場合に、確率変数z={0,1}の変動によって揺れるxoutDF の値の分布状態が示されている。すなわち、下側のヒストグラム(b)は、xoutDF の計算を何度もモンテカルロ的に行った場合、どういう値が頻繁に出るのかを度数で表しており、このヒストグラムが、xoutDF の取り得る確率密度分布を表している。なお、図3〜図7のいずれにおいても、上側の棒グラフ(a)の横軸はインデックスj、縦軸はxinDF i,j項の値を表し、下側のヒストグラム(b)の横軸はxoutDF の値、縦軸は度数を表している。
実際にはxinDF も別に独立した確率変数であるが、例えば、xinDF をその平均値μxin DF で置き換え、xinDF i,j項の値をμxin DF i,jという固定値として取り扱うことも可能である。なお、明細書中の表記μxin DF は、μの下付き添字がxinDF であることを表す。
データ解析部30では、それぞれのnXin DF個のxinDF i,j項(1≦j≦nXin DF)の絶対値|xinDF i,j|を解析し、ある項の絶対値が他の項の絶対値より逸脱して大きな項がある場合、それを本発明ではピーク項と呼び、それ以外を非ピーク項と呼ぶ。例えば、データ解析部30は、nXin DF個全てのxinDF i,j項(1≦j≦nXin DF)の標準偏差σμWを計算し、そのσμWに設計者が事前に設定した所定の数(比率Dratio)を積算した値σμWratio以上のxinDF i,j項を、逸脱したピーク項とみなす。例えば、xinDF i,j項の値をμxin DF i,jという固定値として取り扱った場合、逸脱したピーク項であるとみなされる条件は、以下の式によって表される。
Xin DF個のμxin DF i,j項(1≦j≦nXin DF)の値のうち、この条件を満たすピーク項を全て計算する。そして、その中でも逸脱の大きいものを、事前に設計者が決めた所定の個数(例えば、数個あるいは5個)分だけをピークリストとして保存する。なお、所定の個数は、ピークリストとして保存されるピーク項の最大個数を表している。ピーク項は、多数存在する場合もあり、あるいは、ピーク項が少数又は存在しない場合もある。例えば、ピーク項の数が所定の個数よりも少ない場合には、所定の個数よりも少ない個数がピークリストとして保存され、ピーク項の数が所定の個数よりも多い場合には、逸脱の大きいものから順に所定の個数分だけを取り出して、ピークリストとして保存される。なお、以下では、ピークリストとして保存されたピーク項の個数をnpeak(npeak≪nXin DF)とする。npeakは、所定の個数(ピークリストとして保存されるピーク項の最大個数)以下の値を取る。また、ピーク項が存在しない場合には、後述のように「タイプ2」と判断され、ピークリストが保存される必要はない。
<「タイプ1」と判断>
データ解析部30は、前述のピーク項が少数個(npeak個)あり、残りの他の(nXin DF−npeak)個の項の値はゼロとみなせるほど小さい場合を「タイプ1」と判断する。xinDF i,j項の値のうちの少数個(npeak個)がδ関数のピークのように突き出しており、残りの他の(nXin DF−npeak)個の項は何も無いような分布である。
この場合のxinDF i,j項の値の状態を図4(a)及び図6(a)に示す。図4(a)では、xinDF i,j項のうちの1項(1個のピーク項)が大きな値を持ち、その他の項の値はゼロとみなせるほど小さい状態が示されている。また、図6(a)では、xinDF i,j項のうちの2項(2個のピーク項)が大きな値を持ち、その他の項の値はゼロとみなせるほど小さい状態が示されている。
xoutDF が「タイプ1」と判断された場合には、推定信頼区間計算部20は、これらの逸脱したピーク項(すなわち、npeak個のxinDF i,j項)のみを考慮し、残りの項はゼロと近似することで、2^nXin DF個の全ての分岐を考えず、これらのピーク項の2^npeak個のみの組み合わせ分岐を考えて、xoutDF の分布を計算することができる。推定信頼区間計算部20による「タイプ1」の場合の分布計算方法については後述する。
なお、残りの(nXin DF−npeak)個の項がゼロとみなせるほど小さい状態か否かを判断する方法については様々な方法が存在し、特に限定されるものではない。一例としては、npeak個のピーク項を除く残りの(nXin DF−npeak)個の項の分布に関する平均値及び分散値を求め、平均値が第1の所定値よりも低く(ゼロに近い状態)、かつ、分散値が第2の所定値よりも小さい(ばらつきが小さい状態)という条件を満たす場合に、ピーク項以外の残りの(nXin DF−npeak)個の項がゼロとみなせるほど小さい状態であると判断することができる。また、この条件を満たさない場合には、ピーク項以外の残りの他の(nXin DF−npeak)個の項はゼロとみなせるほど小さくない状態であると判断することができる。
<「タイプ2」と判断>
データ解析部30は、前述のピーク項が無い場合を「タイプ2」と判断する。単純に言えば、全てのxinDF i,jの値が、それほど逸脱した値の無い同じような値を全体として連ねている場合(一様分布、ガウス分布など)である。
この場合のxinDF i,j項の値の状態を図3(a)に示す。xoutDF が「タイプ2」と判断された場合には、中心極限定理が成り立つ。推測信頼区間計算部20は、2^nXin DF個の分岐を考えなくても、統計的に全体としてその総和の分布はガウス分布として扱うことで、xoutDF の分布を計算することができる。推定信頼区間計算部20による「タイプ2」の場合の分布計算方法については後述する。
<「混合タイプ」と判断>
実際には、図5(a)及び図7(a)に示すxinDF i,j項の値の状態のように、上述した「タイプ1」の性質と「タイプ2」の性質が混ざっている場合が多い。すなわち、ピーク項のような逸脱した項があり、かつ、ピーク項以外の残りの他の(nXin DF−npeak)個の項はゼロとみなせるほど小さくない場合である。
図5(a)では、xinDF i,j項のうちの1項(1個のピーク項)が大きな値を持ち、その他の項の値はゼロとみなせるほど小さくはない状態が示されている。また、図6(a)では、xinDF i,j項のうちの2項(2個のピーク項)が大きな値を持ち、その他の項の値はゼロとみなせるほど小さくはない状態が示されている。
この場合、データ解析部30は、「タイプ1」と「タイプ2」とが混ざった「混合タイプ」と判断する。「混合タイプ」の場合には、推測信頼区間計算部20は、まず「タイプ1」として捉えて得られるピーク項を取得し、それらの値を確率変数でなく、条件付き下での固定値(例えば、μxin DF i,j)として取り扱い、ピーク項以外の残りの他の(nXin DF−npeak)個の項に関しては、条件付き「タイプ2」として計算することができる。推定信頼区間計算部20による「混合タイプ」の場合の分布計算方法については後述する。
次に、推定信頼区間計算部20における処理について説明する。データ解析部30での判断による「タイプ1」、「タイプ2」、「混合タイプ」のそれぞれの場合について、推定信頼区間計算部20による分布計算方法について詳細を述べる。
<「タイプ1」の場合の分布計算方法>
まず、「タイプ1」の場合の分布計算方法について説明する。データ解析部30において、一体型層DFで計算されるXoutDFの中のi番目の要素xoutDF に含まれるxinDF i,j項の性質が「タイプ1」と判断された場合には、推定信頼区間計算部20は、ピークリストとして保存されたnpeak個のピーク項のみを使用して、xoutDF の分布の計算を行う。
具体的にまず最も簡単な場合、つまり、ピーク項がnpeak=1個のみの場合を考える。この場合、xinDF i,j項の値は、例えば図4(a)に示す状態となっている。
xoutDF の中のj=peak番目の項(1≦peak≦nXinDF)が逸脱しているとし、そのピーク項をxinDF peakipeakii,peakiと表すと、xoutDF は以下の式のように表される。なお、明細書中の表記xinDF peakiは、xinDFの下付き添字がpeakであることを表し、明細書中の表記zpeakiは、zの下付き添字がpeakであることを表し、明細書中の表記Wi,peakiは、Wの下付き添字がi,peakであることを表す。
これらの項のうち、zを除いたxinDF i,j項について、例えば図4(a)に示すように、xinDF i,j項のうちの1項(j=peak番目の項)が大きな値を持ち、その他の項の値はゼロとみなせるほど小さい場合には、xoutDF は以下の式によって表される。
確率変数zpeaki={0,1}であることから、xoutDF は、以下の式のような2通りの分岐からなる値になる。
上記の式で表されるxoutDF が従う確率密度関数は、δ関数を用い、さらにX=xoutDF と簡略表記をした場合、以下の式によって表される。
この確率密度関数の形状は、図4(b)に示すようになる。これは、実際にモンテカルロ的にxoutDF を何度も計算した結果の値のヒストグラムと同じ形状となる。
なお、ピーク項が2個以上存在する場合も同様に、δ関数を用いて表すことが可能である。例えば図6(a)に示すように、xinDF i,j項のうちの2項(2個のピーク項)が大きな値を持ち、その他の項の値はゼロとみなせるほど小さい場合においては、xoutDF の確率密度関数の形状は、図6(b)に示すようになる。この場合には、ピーク項が2個存在し、2個のピーク項のそれぞれが選択された場合/選択されなかった場合の2通りが考えられる。したがって、図6(b)に示すように、xoutDF の確率密度関数は、2=4個のδ関数として計算され、これも、実際にモンテカルロ的にxoutDF を何度も計算した結果の値のヒストグラムと同じ形状となる。
<「タイプ2」の場合の分布計算方法>
次に、「タイプ2」の場合の分布計算方法について説明する。上述の場合と同様に、入力XinDFに対する出力XoutDFに関して、i番目の要素xoutDF は以下の式のように表される。
「タイプ2」の場合、上記のxoutDF の項のうち、zを除いたxinDF i,j項は、xinDF i,j項の値の状態は、図3(a)に示す状態となっている。「タイプ2」では、xinDF i,jがどれも似たような値のため、中心極限定理から、出力データのベクトルxoutDFの各要素xoutDF (1≦i≦nXout DF)の値が、確率変数z={0,1}で揺れることで、ガウス分布が生じるとみなすことができる。これは、統計における「標本和の誤差の揺れ」として計算することができる。以下、「標本和の誤差の揺れ」とみなせることについて説明する。
仮に、xinDF を確率変数ではなくただの固定値μXin DF iとする。zはベルヌーイ分布の確率変数で、前述のように確率pdropでz=0、それ以外でz=1となるということは、xoutDF の中のxinDF i,j項の和の部分とは「N=nxin DF個のxinDF i,j(1≦j≦nXin DF)項の集まりである母集団から、平均M=N×(1−pdrop)個のxinDF i,j項をサンプリングしたときのそれらの和」という標本和として考えることができる。
したがって、xoutDF は、その和にバイアス項bを足した値となる。このサンプリングを何度も行うたびに、異なるxinDF i,jがM個選ばれ、その和であるxoutDF の値がある分布関数をなしながら毎度変わる。それが「標本和の誤差の揺れ」である。
そして、「タイプ2」の場合は、それぞれのnXin DF個のxinDF i,j(1≦j≦nXin DF)項の中に逸脱したピーク項が無いということは、母集団であるnXin DF個のxinDF i,j(1≦j≦nXin DF)項の値の分布の尖度、歪度が弱く、リャプノフの定理により中心極限定理が成り立つ。したがって、サンプリングするたびに揺れる和の値xoutDF は、ガウス分布とすることができ、図3(b)に示すようになる。
xoutDF の分布をガウス分布とみなせることが分かったので、その平均値E[xoutDF ]と分散値Var(xoutDF )が分かれば、分布形状を特定できる。
中心極限定理が成り立つ場合、一般的に、分散値は「標本和の誤差の分散」と呼ばれ、非特許文献2にあるように、以下の式によって解析的に計算することができる。
ここでVarpopulationは、母集団nXin DF個のz=1としたxinDF i,j(1≦j≦nXin DF)項の分散値となる。
また、平均値μDF は、単純に以下のように求められる。
そして、xinDF は固定値μXin DF としているので、平均値μDF は、以下の式によって計算することができる。
一般的には、xinDF は、μXin DF ではなく、多変量分布の確率変数であるから、非特許文献2に記載されている式を更に拡張し、母集団の値も多変量分布に従う確率変数の場合での和の分散を以下の式のように表す。なお、この式の証明は、本明細書の末尾に添付する補足1にて説明する。また、共分散値の計算方法についても補足2にて説明する。
この分散はガウス分布となっているので、データ出力値xoutDF の確率密度関数は、以下の式のように表される。
本発明の実施の形態では、この中心極限定理が成り立つ場合が「タイプ2」であり、成り立たない場合を「タイプ1」と分けている。なお、「タイプ2」は、主にニューラルネットワークの最後の出力層に近くに位置する一体化層DFへの入力データに見られる。
<「混合タイプ」の場合の分布計算方法>
次に、「タイプ1」と「タイプ2」とが混ざった「混合タイプ」の場合の分布計算方法について説明する。
実際には「タイプ1」と「タイプ2」が混ざった状態、つまり、zを除いたxinDF i,j項のうち、その絶対値が他の値より逸脱して大きな値が少数個、すなわちnpeak個(npeak≪nxin DF)あり、かつ、残りの他の(nXin DF−npeak)個の項はゼロとみなせない場合がある。そのままでは、「タイプ1」のように2^nXin DF個から少数個だけを考えるわけにはいかず、「タイプ2」のようにxinDF i,j項の和を、ガウス分布として包括的に捉えるわけにもいかない。
この場合、本発明の実施の形態では、まず「タイプ1」として捉えてピーク項を抽出し、ピーク項の組み合わせに関して分岐で分け、それぞれの分岐の元で、条件付き「タイプ2」として計算する。以下、この計算について説明する。
具体的にまず最も簡単な場合、つまり、ピーク項がnpeak=1個のみの場合を考える。前述と同様に、以下のような出力データのベクトルxoutDFのi番目の要素xoutDF について考える。xoutDF は、以下の式によって表される。
ここで、「タイプ1」の場合のように、xoutDF の中のj=peak番目の項(1≦peak≦nXin DF)のみが逸脱しているとし、その項をxinDF peakipeakii,peakiとする。これらの項の、zを除いたxinDF i,j項の値は、例えば図5(a)に示す状態となっている。
もし、このピーク項xinDF peakipeakii,peakiが確率変数でなく固定値ならば、残りの項xinDF i,j(1≦j,j≠peak≦nXin DF)に関しては、「タイプ2」のように逸脱した値は無いとみなせる。
それ故、逸脱したピーク項xinDF peakipeakii,peakiに関して、「タイプ1」のときと同様、選ばれた場合(zpeaki=1)と選ばれなかった場合(zpeaki=0)に分けて考える。そして、それぞれの場合の下で、条件付き「タイプ2」を計算する。
改めてxoutDF の式について、以下の式のように、2つの部分に分けて書き直す。
xWDF は、ピーク項を除く、z={0,1}によって変動する(nxin DF−1)個のxinDF i,j項の和の部分であり、確率変数である。一方、biasDF はピーク項とバイアス項であり、固定値である。
peaki=1のとき、つまり、ピーク項xinDF peakipeakii,peakiが選ばれた場合、p(zpeaki=1)=1−pdropとなり、上記の2つの部分は以下の式のようになる。
これらは、前述の「タイプ2」と同様に、ある有限個のxWDF項の母集団からサンプリングしてそれらの和を計算するというものである。この場合の母集団は、N=(nxin DF−1)個のxinDF i,j項(1≦j,j≠peak,j≦nxin DF−1)であり、その分散値をvarpopulationとする。そこから、平均M=N(1−pdrop)−1個をサンプルする計算とみなせる。
前述のように、その和の値xoutDF は、サンプリングするごとに、以下の式に示すように平均μ1DF 、分散共分散Σ1DF のガウス分布をなしながら値が揺れていく。
peaki=0のとき、つまりピーク項xinDF peakipeakii,peakiが選ばれなかった場合、p(zpeaki=0)=pdropとなり、上記の2つの部分は以下の式のようになる。
同様に母集団は、N=(nXin DF−1)個の、xinDF i,j項 (1≦j,j≠peak,j≦nXin DF−1)であり、その分散値をVarpopulationとする。そこから平均M=N(1−pdrop)個のサンプリング計算とみなせ、その和の値xoutDF は、サンプリングするごとに以下の式に示すように平均μ0DF 、分散共分散Σ0DF のガウス分布をなしながら値が揺れていく。
以上、これら2つの場合、zpeaki=1のときもzpeaki=0のときも、xWDF の部分はガウス分布であり、バイアス項biasDF が異なる。結果的には、xoutDF の値の確率密度関数は、X=xoutDF と簡略に表記すると、以下の式のようになる。
このガウス混合分布は、図5(b)に示す状態となっている。
なお、ピーク項が2個以上存在する場合も同様に計算でき、zを除いたxinDF i,j項の値の状態を図7(a)に示し、この場合のxoutDF の確率密度分布を図7(b)に示す。
以上のように、「タイプ1」と「タイプ2」とが混ざった「混合タイプ」の場合は、出力データの確率密度分布は、2の(ピーク項の数)乗個のガウス混合分布で表現される。
改めて一般形で書くと、データxoutDF にピーク項xinDF peakii,peakiがnpeak個(npeak≪nxin DF)ある場合、それぞれがドロップアウトされる(zpeaki=0)かドロップアウトされない(zpeaki=1)かの2通りに分かれるため、2^npeak個通りの分岐条件con(1≦k≦2^npeak個)がある。
その結果、データX=xoutDF は、以下の式のような条件付きのガウス混合分布による確率密度関数で表される。なお、明細書中の表記Xconkは、Xの下付き添字がconであることを表す。
当然、多層構造を持つニューラルネットワークの中で、データXは、出力データが伝搬される後の各層で、これらそれぞれの条件別に分けた関数に対して、個別に処理が行わなければならない。さらに、一体化層FCがあるたびに、これらの条件付きはさらに分岐して、個別に計算しなければならない関数は増えていく。ただ、ニューラルネットワークのドロップアウト層Dの個数は、1つのニューラルネットワーク内に3層以下であることがほとんどなので、本発明の実施の形態に記載した提案手法によって、実用的な計算処理が実現できると考えられる。
<活性化層Aでの計算>
また、活性化層Aでは、入力データXinが、活性化関数fを通り、どのような出力データXoutになるかを計算する。すなわち、活性化層Aにおける処理では、以下の式による計算が行われる。
入力データは多変量分布に従う確率変数であるが、活性化層Aに供給された場合、非線形活性化関数fで歪んだ多変量分布になって出力される。通常、任意の複雑な関数が歪んでどのような関数になるのか計算するのは困難であるが、入力する関数がガウス分布やデルタ関数などの知られた関数であれば、数学的にある程度近似して求めることができる。そのためにも、本発明の実施の形態では、前述した、複数の「条件付き」の確率密度関数PDF(Xconk|con)の混合による表現にしておき、それぞれが、計算方法が既知であるガウス分布やデルタ関数で表現された状態にしておくことで、活性化関数fでの変形計算を行うことができるようになる。
したがって、活性化層Aでは、以下の式のように、それぞれの条件付きの確率密度関数で活性化関数fによる変換後のf(PDF(Xconk|con))さえ計算すればよい。
もし、一体化層DFの後の層に前述のような活性化層Aが無く、単純な線形変換処理の層だけであるなら、混合分布を1つの2次モーメントまでの分布に近似することで、後の層で処理を行えるようにしてもよい。あるいは、混合ガウスのうちの一部のガウス関数同士が重なった場合(例えば、個々の分布が似ている場合)についても、1つのガウス関数にまとめるなどの高速化処理を行ってもよい。
具体的には、多変量ガウスの混合分布が、以下の式のように表されるとする。
k1番目のガウス関数Gauss(Xconk1|conk1)と、k2番目のガウス関数Gauss(Xconk2|conk2)に関して、それぞれの平均と分散の値が近い場合には、例えば、以下の式に示すように、1つのガウス関数Gauss(Xconk_1_2|conk_1_2)に融合させることで、混合分布の混合数を減らし、計算処理を軽くすることができる。なお、明細書中の表記Xconk1は、Xの下付き添字がconk1であることを表し、明細書中の表記Xconk2は、Xの下付き添字がconk2であることを表し、明細書中の表記Xconk_1_2は、Xの下付き添字がconk_1_2であることを表す。
2つのガウス関数の融合は、例えば、以下のような計算処理で可能となる。融合前のガウス関数Gauss(Xconk1|conk1)の平均をμk1、偏差をσk1とし、ガウス関数Gauss(Xconk2|conk2)の平均をμk2、偏差をσk2とすると、融合後のガウス関数Gauss(Xconk_1_2|conk_1_2)の平均をμk_1_2、偏差をσk_1_2は、以下の式のように計算することができる。
いずれにせよ、最終的には、ニューラルネットワークの出力層から出力されるデータの混合多変量分布を、1つの分布関数に2次モーメントまで近似し、その分散値を計算し、最終的な推定出力結果の信頼区間とすることができる。
<情報推定装置10における処理フロー>
以下、図8A〜図8Cを参照しながら、上述した情報推定装置10における処理の手順について説明する。基本的な処理の流れは、以下のとおりである。推定信頼区間計算部20が入力データを受け取り、ニューラルネットワークの各層で計算を行うとともに、データが供給された層がドロップアウトを備えたFC層(一体化層DF)である場合には、データ解析部30において、入力データがどのタイプに分類できるかを解析する。そして、データ解析部30によって判断されたタイプに応じた計算処理を行い、データを条件付き多変量分布として、推定結果とともに信頼区間を表す分散値を求める。
図8Aは、本発明の実施の形態における情報推定装置の処理の手順の一例を示すフローチャートである。
ニューラルネットワークへの入力データは、情報推定装置10の推定信頼区間計算部20に入力される(ステップS11)。推定信頼区間計算部20は、ニューラルネットワークを構成する複数の層順に処理を行うよう構成されており、入力データは、ニューラルネットワークにおける処理を開始するために、最初の層である入力層に入力される(ステップS12)。
入力データが供給された層がドロップアウトを備えたFC層(一体化層DF)である場合には、推定信頼区間計算部20が、データ解析部30と協働してデータ解析及び計算処理を行う(ステップS14)。なお、このステップS14における処理については、図8B及び図8Cを参照して後述する。一方、データが入力された層がドロップアウトを備えたFC層ではない場合には、推定信頼区間計算部20は、その層に定められた計算処理を行う(ステップS15)。
ステップS14又はステップS15における計算処理が完了すると、計算処理後の出力データは次の層へ供給され、次の層における入力データとして扱われる(ステップS16)。次の層が最後の出力層である場合(ステップS17で「はい」)には、条件付きに分けられた多変量分布の分散を1つにまとめた分散として計算し、出力層から出力される(ステップS18)。一方、次の層が最後の出力層ではない場合(ステップS17で「いいえ」)には、上述のステップS13に戻り、次の層において計算処理を再び行う。
次に、図8Bを参照しながら、図8AのステップS14におけるデータ解析及び計算処理について説明する。図8Bは、図8AのステップS14におけるデータ解析及び計算処理の手順の一例を示すフローチャートである。
図8Bに示すデータ解析及び計算処理は、入力データがドロップアウトを備えたFC層に供給された場合に実行される。推定信頼区間計算部20は、まず、一体化層DFへの入力データXinDFを取得する(ステップS141)。なお、ここでは、一体化層DFにおいて、重みWDF、バイアスbDFが設定されているとする。
そして、推定信頼区間計算部20及びデータ解析部30は、上述したように入力データXinDF、重みWDF、バイアスbDFを用いて計算される出力データのベクトルXoutDFのi番目の要素xoutDF に関して、i=1からi=nXout DFまでの各要素(すなわち、1行目からnXout DF行目までのすべての行)に関して、タイプ判断及び計算処理を行う。すなわち、推定信頼区間計算部20及びデータ解析部30は、まずi=1に設定して(ステップS142)、nXout DF個のうちのi番目の出力データxoutDF のタイプ判断及び計算処理を行う(ステップS143)。なお、このステップS143におけるタイプ判断及び計算処理については、図8Cを参照して後述する。
ステップS143におけるタイプ判断及び計算処理が完了すると、処理対象のxoutDF が最終行(すなわち、i=nXout DF番目)の場合(ステップS144で「はい」)の場合には、データ解析及び計算処理は終了となる。一方、処理対象のxoutDF が最終行(すなわち、i=nXout DF番目)ではない場合(ステップS144で「いいえ」)には、iをインクリメント(すなわち、i=i+1)して(ステップS145)、上述のステップS143に戻り、次の行のxoutDF に関して、タイプ判断及び計算処理を再び行う。
次に、図8Cを参照しながら、図8BのステップS143におけるタイプ判断及び計算処理について説明する。図8Cは、図8BのステップS143におけるタイプ判断及び計算処理の手順の一例を示すフローチャートである。図8Cでは、特定のi番目の要素xoutDF に対する計算処理が行われる。
図8Cにおいて、データ解析部30は、まずnXout DF個のうちのi番目の出力データxoutDF を計算する(ステップS1431)。nXin DF個のxinDF i,j項に関して、例えば確率変数xinDF をその平均値μxin DF として考え、μxin DF i,jを計算する(ステップS1432)。さらに、nXin DF個のxinDF i,j項の標準偏差σμWを計算する(ステップS1433)。そして、nXin DF個のμxin DF i,j項のうち、絶対値|μxin DF i,j|≧σμWratioを満たす全ての項を取り出し、その絶対値|μxin DF i,j|を大きい順に並べる(ステップS1434)。
このとき、|μxin DF i,j|≧σμWratioを満たす項が存在しない場合(ステップS1435で「いいえ」)には、データ解析部30は、このi番目の要素xoutDF を上述の「タイプ2」と判断し、推定信頼区間計算部20は、「タイプ2」の場合の分布計算方法を適用して計算処理を行う(ステップS1436)。ステップS1436における「タイプ2」の計算処理は、上述のとおりであり、nXin DF個全てのxinDF i,j項に関して、多変量標本誤差和の計算が行われる。
一方、|μxin DF i,j|≧σμWratioを満たす項が存在する場合(ステップS1435で「はい」)には、|μxin DF i,j|を大きいものから順に所定の個数(npeak個)取り出してピークリストとして保存する(ステップS1437)。そして、データ解析部30は、ピークリストとして保存されたピーク項以外の残りの項がゼロとみなせるほど小さいか否かを判断する(ステップS1438)。
残りの項がゼロとみなせるほど小さい場合には、(ステップS1438で「はい」)には、データ解析部30は、このi番目の要素xoutDF を上述の「タイプ1」と判断し、推定信頼区間計算部20は、「タイプ1」の場合の分布計算方法を適用して計算処理を行う(ステップS1439)。ステップS1439における「タイプ1」の計算処理は、上述のとおりであり、例えばピークリストとして保存されている最大npeak個のμXin DF i,j項のそれぞれに対し、ドロップアウトで選択された場合/選択されなかった場合の最大2^npeakとおり全ての場合を考慮した計算が行われる。
一方、残りの項がゼロとみなせるほど小さくはない場合には、(ステップS1438で「いいえ」)には、データ解析部30は、このi番目の要素xoutDF を上述の「混合タイプ」と判断し、推定信頼区間計算部20は、「混合タイプ」の場合の分布計算方法を適用して計算処理を行う(ステップS1440)。ステップS1440における「混合タイプ」の計算処理は、上述のとおりであり、例えばピークリストとして保存されている最大npeak個のμXin DF i,j項のそれぞれに対し、ドロップアウトで選択された場合/選択されなかった場合の最大2^npeakとおり全ての場合を考慮した計算が行われ、さらに、残りの全てのxinDF i,j項に関して、多変量標本誤差和の計算が行われる。
<実験結果>
次に、上述した本発明の実施の形態における提案手法を用いて実施された実験について説明する。図9に、実験に使ったニューラルネットワークの構造を示す。このニューラルネットワークは、スカラーの値xを入力とし、出力層においてもスカラーの値yを出力するという単純なある関数y=G(x)を学習する回帰問題である。このニューラルネットワークは、複数のFC層F(ReLU関数による計算処理を含む)と、ドロップアウト層D(pdrop=0.4に設定)及びFC層Fにより構成されており、FC層のニューロン数を2^10=1024個としている。
また、図10には、本発明の実施の形態における提案手法を用いて実施された実験の結果を示す。図10(a)は、この実験結果及び従来の手法によって得られる結果を示すものであり、ニューラルネットワークによる関数を示すグラフの一例である。図10(a)には、ある範囲のxに対して、その関数G(x)の出力値yの推定結果を示し、さらに、非特許文献1に開示されている従来例の手法(試行回数MC=40回)で計算した推定値の分散値の平方根(標準偏差σ)を帯のようにして示す。また、図10(b)は、この実験結果及び従来の手法によって得られる結果を示すものであり、一体化層の出力値xoutDF を何度も試行した場合の値を示すグラフである。図10(b)には、同一の範囲のxに対して、図10(a)に示した分散値の平方根と、本発明の実施の形態における提案手法により計算した分散値の平方根を示す。
従来例の手法では、すべての入力xごとに、それぞれMC回の推定計算を実施して算出したyの値の揺れを分散値として出すため、分散値が不安定である。一方、本発明の実施の形態における提案手法では、この分散を解析的に求めているため、安定した滑らかな分散値を得ることができる。
<補足1:母集団が確率変数である場合の、標本平均誤差の分散値の計算>
母集団y(1≦i≦N)が、以下の式に示すように、N次元の多変量ガウス分布に従う確率変数とする。なお、μは平均値を意味するN次元ベクトル、ΣはN×Nの分散共分散行列である。
その中からn個標本した場合の標本平均誤差の分散を求める。
とa(i≠j)は相関あり(Nが大きい場合は独立としてもかまわない)。
とy(i≠j)は相関あり。
とyは独立。
標本平均誤差の分散は、以下の式のように表される。
は確率変数なので分散Var、共分散Covの外には出せない。aとyは独立であるから、以下の式が成り立つ。
よって、確率変数となったyは、期待値Eで表現される。先ほどと同様に、以下の式を使用する。
標本平均誤差の分散の1つ目の項の一部は、以下の式のように表される。
また、以下の関係式が成り立つ。
この関係式を用いて、標本平均誤差の分散の2つ目の項の一部は、以下の式のように表される。
確率変数となったyの平均はE(y)である。これはインデックスiに関する値であり、全てのインデックスに関しての平均、すなわち、平均の平均は以下の式のようになる。
上記の2つの部分を合わせて、標本平均誤差の分散は、以下の式のように表すことができる。
標本集団の和の分散は、yの期待値Eを使い、以下の数式1となる。
以上、これで構わないが、数式1は母集団データy(1≦i≦N)の期待値Eで表されているので使いにくく、確率変数となった母集団データ個々の値yの分散Var(y)、共分散Cov(y,y)で表したい。さらに、母集団データyは確率変数であるが、仮にそれが固定値だったとした場合(平均値E(y)を採用する)、以下の式で表される、それらの全体としての分散値Varpopulation(y)も利用したい。
そこで、標本集団の和の分散を、これらの要望を考え、Varpopulation(y)と、確率変数である母集団データの分散Var(y)、共分散Cov(y,y)で表現する。それは、以下の式となり、これが、数式1と同等であることを今から証明する。
まず、以下の式を用いて変形する。
次に、以下の式を用いて変形する。
さらに、以下の式を用いて変形する。
上記の式の第1項及び第2項の係数は、以下のようになる。
以上を使うと、以下の式のように変形される。
この式は、先ほど計算した数式1の標本集団の和の分散であり、以下の関係が成り立つ。
結論として再度まとめると、N個の有限母集団データy(1≦i≦N)があり、かつ、これらのデータyは固定値ではなく、以下のように、N次元の多変量ガウス分布に従う確率変数であるとする。なお、μは平均値を意味するN次元ベクトル、ΣはN×Nの分散共分散行列である。
このとき、これらN個の確率変数の母集団からn個をサンプリングする場合の標本和の誤差の分散値は、以下の式のようになる。
ただし、分散Var(y)、共分散Cov(y,y)は、分散共分散行列から得られる、確率変数の母集団の分散共分散である。また、分散値Varpopulation(y)は、それぞれの母集団が確率変数でなかった場合(値は平均値E(y)とする)の標本和の誤差の分散値とし、以下の式のように表される。
<補足2:標本平均誤差の共分散値の計算>
共分散は、分散値と同様に計算することができる。2つの母集団Y1とY2が、以下の式のようにN次元の多変量ガウス分布に従う確率変数とする。なお、μ1、μ2は平均値を意味するN次元ベクトル、Σ1、Σ2はN×Nの分散共分散行列である。
その中からインデックスiが、Y1とY2で連動した状態で(すなわちy1が標本された場合、y2も標本される)、n個標本した場合の標本平均誤差の共分散cov(Y1,Y2)を求める。
共分散は、以下の公式を使い、分散で表現できる。
Var(Y1)、Var(Y2)は、それぞれ母集団Y1、Y2に対する前述の標本平均誤差の分散値であるため計算できる。
Var(Y1+Y2)は、母集団Y1、Y2のそれぞれの項が足し合わされた、以下に表現される新たな母集団Y1+Y2からの標本平均誤差の分散値である。
この母集団からの平均誤差分散も、それぞれの項を、y_1_2=y1+y2のように1つの項y_1_2とみなせば、前述の方法で分散値は計算できる。
本発明は、ニューラルネットワークを使った推定装置において、その推定結果に対する信頼区間である分散値を安定した状態で、かつ高速に計算することが可能であり、ニューラルネットワークにかかる技術全般に適用可能である。さらに、本発明は、ニューラルネットワークの適用範囲を大きく広げることが可能であり、例えば、自動車や歩行者などの移動体に係る推定など、高速で信頼のできる処理が必要とされる環境で大いにその機能が発揮することが可能である。
10 情報推定装置
20 推定信頼区間計算部
30 データ解析部

Claims (16)

  1. 入力データの一部を欠損させるドロップアウト層と、重みの計算を行うFC層との組み合わせからなる一体化層を持つよう構成されたニューラルネットワークを用いて推定処理を行う情報推定装置であって、
    多変量分布からなる前記一体化層への入力データの各ベクトル要素と前記重みとの積からなる項の数値分布に基づいて、多変量分布からなる前記一体化層からの出力データの各ベクトル要素のデータタイプを判断するデータ解析部と、
    前記データ解析部で判断された前記データタイプに対応付けられている近似計算方法を前記一体化層における計算に適用し、前記一体化層への入力データに基づいて、前記一体化層からの出力データの各ベクトル要素の分散値を解析的に計算する推定信頼区間計算部とを、
    有する情報推定装置。
  2. 前記データ解析部は、前記一体化層への入力データの各ベクトル要素と前記重みとの積からなる項に関して、他の項よりも逸脱して大きいピーク項が存在するか否かを判断した結果に基づいて、前記データタイプを判断するよう構成されている請求項1に記載の情報推定装置。
  3. 前記データ解析部は、前記一体化層への入力データの各ベクトル要素と前記重みとの積からなるすべての項の標準偏差に対して所定の数を積算して得られる値を閾値とし、前記閾値よりも大きい項を前記ピーク項として判断するよう構成されている請求項2に記載の情報推定装置。
  4. 前記ピーク項が存在しないデータタイプであると判断された場合、前記推定信頼区間計算部は、前記一体化層への入力データの各ベクトル要素と前記重みとの積からなるすべての項の和を標本和として、前記一体化層からの出力データの各ベクトル要素の分布を計算するよう構成されている請求項2又は3に記載の情報推定装置。
  5. 前記データ解析部は、前記他の項よりも逸脱して大きいピーク項が存在する場合には、所定の個数以下の前記ピーク項を抽出して、抽出されなかった残りの項がゼロとみなせるほど小さいか否かを更に判断した結果に基づいて、前記タイプを判断するよう構成されている請求項2又は3に記載の情報推定装置。
  6. 前記ピーク項が存在し、かつ、前記抽出されなかった残りの項がゼロとみなせるほど小さいデータタイプであると判断された場合、前記推定信頼区間計算部は、前記ピーク項のみを使用して、前記一体化層からの出力データの各ベクトル要素の分布を計算するよう構成されている請求項5に記載の情報推定装置。
  7. 前記ピーク項が存在し、かつ、前記抽出されなかった残りの項がゼロとみなせるほど小さくはないデータタイプであると判断された場合、前記推定信頼区間計算部は、前記ピーク項のみを使用した第1の分布を計算するとともに、前記ピーク項を除く残りの項の和を標本和とした第2の分布を計算し、前記第1の分布及び前記第2の分布の両方を組み合わせることで、前記一体化層からの出力データの各ベクトル要素の分布を計算するよう構成されている請求項5に記載の情報推定装置。
  8. 前記一体化層からの出力データに含まれる多変量の混合分布において、前記多変量の混合分布に含まれる個々の分布に似ているものがある場合には、前記推定信頼区間計算部は、前記似ている分布同士を融合して1つの分布として処理するよう構成されている請求項1から7のいずれか1つに記載の情報推定装置。
  9. 入力データの一部を欠損させるドロップアウト層と、重みの計算を行うFC層との組み合わせからなる一体化層を持つよう構成されたニューラルネットワークを用いて推定処理を行う情報推定方法であって、
    多変量分布からなる前記一体化層への入力データの各ベクトル要素と前記重みとの積からなる項の数値分布に基づいて、多変量分布からなる前記一体化層からの出力データの各ベクトル要素のデータタイプを判断するデータ解析ステップと、
    前記データ解析ステップで判断された前記データタイプに対応付けられている近似計算方法を前記一体化層における計算に適用し、前記一体化層への入力データに基づいて、前記一体化層からの出力データの各ベクトル要素の分散値を解析的に計算する推定信頼区間計算ステップとを、
    有する情報推定方法。
  10. 前記データ解析ステップにおいて、は、前記一体化層への入力データの各ベクトル要素と前記重みとの積からなる項に関して、他の項よりも逸脱して大きいピーク項が存在するか否かを判断した結果に基づいて、前記データタイプを判断する請求項9に記載の情報推定方法。
  11. 前記データ解析ステップにおいて、前記一体化層への入力データの各ベクトル要素と前記重みとの積からなるすべての項の標準偏差に対して所定の数を積算して得られる値を閾値とし、前記閾値よりも大きい項を前記ピーク項として判断する請求項10に記載の情報推定方法。
  12. 前記ピーク項が存在しないデータタイプであると判断された場合、前記推定信頼区間計算ステップにおいて、前記一体化層への入力データの各ベクトル要素と前記重みとの積からなるすべての項の和を標本和として、前記一体化層からの出力データの各ベクトル要素の分布を計算する請求項10又は11に記載の情報推定方法。
  13. 前記データ解析ステップにおいて、前記他の項よりも逸脱して大きいピーク項が存在する場合には、所定の個数以下の前記ピーク項を抽出して、抽出されなかった残りの項がゼロとみなせるほど小さいか否かを更に判断した結果に基づいて、前記タイプを判断する請求項10又は11に記載の情報推定方法。
  14. 前記ピーク項が存在し、かつ、前記抽出されなかった残りの項がゼロとみなせるほど小さいデータタイプであると判断された場合、前記推定信頼区間計算ステップにおいて、前記ピーク項のみを使用して、前記一体化層からの出力データの各ベクトル要素の分布を計算する請求項13に記載の情報推定方法。
  15. 前記ピーク項が存在し、かつ、前記抽出されなかった残りの項がゼロとみなせるほど小さくはないデータタイプであると判断された場合、前記推定信頼区間計算ステップにおいて、前記ピーク項のみを使用した第1の分布を計算するとともに、前記ピーク項を除く残りの項の和を標本和とした第2の分布を計算し、前記第1の分布及び前記第2の分布の両方を組み合わせることで、前記一体化層からの出力データの各ベクトル要素の分布を計算する請求項13に記載の情報推定方法。
  16. 前記一体化層からの出力データに含まれる多変量の混合分布において、前記多変量の混合分布に含まれる個々の分布に似ているものがある場合には、前記推定信頼区間計算ステップは、前記似ている分布同士を融合して1つの分布として処理する請求項9から15のいずれか1つに記載の情報推定方法。
JP2016252813A 2016-12-27 2016-12-27 情報推定装置及び情報推定方法 Active JP6704341B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016252813A JP6704341B2 (ja) 2016-12-27 2016-12-27 情報推定装置及び情報推定方法
US15/812,118 US20180181865A1 (en) 2016-12-27 2017-11-14 Information estimation apparatus and information estimation method
EP17203449.8A EP3343456B1 (en) 2016-12-27 2017-11-24 Information estimation apparatus and information estimation method
CN201711444324.4A CN108241888B (zh) 2016-12-27 2017-12-27 信息估计装置和信息估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016252813A JP6704341B2 (ja) 2016-12-27 2016-12-27 情報推定装置及び情報推定方法

Publications (2)

Publication Number Publication Date
JP2018106463A JP2018106463A (ja) 2018-07-05
JP6704341B2 true JP6704341B2 (ja) 2020-06-03

Family

ID=60569593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016252813A Active JP6704341B2 (ja) 2016-12-27 2016-12-27 情報推定装置及び情報推定方法

Country Status (4)

Country Link
US (1) US20180181865A1 (ja)
EP (1) EP3343456B1 (ja)
JP (1) JP6704341B2 (ja)
CN (1) CN108241888B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6855360B2 (ja) * 2017-10-10 2021-04-07 株式会社デンソーアイティーラボラトリ 情報推定装置及び情報推定方法
WO2019114842A1 (zh) * 2017-12-14 2019-06-20 北京中科寒武纪科技有限公司 一种集成电路芯片装置
EP3605404B1 (de) * 2018-08-03 2023-10-04 Siemens Healthcare Diagnostics, Inc. Verfahren und vorrichtung zum trainieren einer maschinellen lernroutine zum steuern eines technischen systems
JP7046768B2 (ja) * 2018-09-20 2022-04-04 株式会社デンソーアイティーラボラトリ 情報推定装置及び情報推定方法
US10761841B2 (en) * 2018-10-17 2020-09-01 Denso International America, Inc. Systems and methods for identifying source code from binaries using machine learning
WO2020094523A1 (en) * 2018-11-09 2020-05-14 Curious Ai Oy Solution for controlling a target system
WO2020094525A1 (en) 2018-11-09 2020-05-14 Curious Ai Oy Solution for machine learning system
JP7209835B2 (ja) * 2018-11-30 2023-01-20 エーエスエムエル ネザーランズ ビー.ブイ. 機械学習モデル予測における不確実性を減少させる方法
EP3660744A1 (en) * 2018-11-30 2020-06-03 ASML Netherlands B.V. Method for decreasing uncertainty in machine learning model predictions
US12014505B2 (en) 2019-01-31 2024-06-18 Samsung Electronics Co., Ltd. Method and apparatus with convolution neural network processing using shared operand
JP7148445B2 (ja) * 2019-03-19 2022-10-05 株式会社デンソーアイティーラボラトリ 情報推定装置及び情報推定方法
CN113597622A (zh) 2019-03-26 2021-11-02 三菱电机株式会社 可靠性评价装置及可靠性评价方法
JP7188237B2 (ja) * 2019-03-29 2022-12-13 富士通株式会社 情報処理装置、情報処理方法、情報処理プログラム
US12020166B2 (en) 2020-05-29 2024-06-25 Robert Bosch Gmbh Meta-learned, evolution strategy black box optimization classifiers
KR20220081208A (ko) * 2020-12-08 2022-06-15 현대자동차주식회사 차량 속도 예측 장치 및 차량 속도 예측 방법
US20240062124A1 (en) * 2022-08-17 2024-02-22 Schlumberger Technology Corporation Field equipment data system

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09311847A (ja) * 1996-05-23 1997-12-02 Ricoh Co Ltd ニューラルネットワークおよび記憶媒体
US6119112A (en) * 1997-11-19 2000-09-12 International Business Machines Corporation Optimum cessation of training in neural networks
US5995989A (en) * 1998-04-24 1999-11-30 Eg&G Instruments, Inc. Method and apparatus for compression and filtering of data associated with spectrometry
US6553355B1 (en) * 1998-05-29 2003-04-22 Indranet Technologies Limited Autopoietic network system endowed with distributed artificial intelligence for the supply of high volume high-speed multimedia telesthesia telemetry, telekinesis, telepresence, telemanagement, telecommunications, and data processing services
US6269351B1 (en) * 1999-03-31 2001-07-31 Dryken Technologies, Inc. Method and system for training an artificial neural network
US6847976B1 (en) * 2000-06-15 2005-01-25 Terrence B. Peace Method and apparatus for significance testing and confidence interval construction based on user-specified distribution
JP2002358502A (ja) * 2001-05-31 2002-12-13 Canon Inc 並列パルス信号処理装置、パルス出力素子、及びパターン認識装置
JP2005352900A (ja) * 2004-06-11 2005-12-22 Canon Inc 情報処理装置、情報処理方法、パターン認識装置、及びパターン認識方法
US7395251B2 (en) * 2005-07-01 2008-07-01 International Business Machines Corporation Neural networks for prediction and control
CN101814158A (zh) * 2009-02-20 2010-08-25 北京联合大学生物化学工程学院 基于人工神经网络的实验数据分析处理方法
US20110031982A1 (en) * 2009-08-06 2011-02-10 Irvine Sensors Corporation Tamper-resistant electronic circuit and module incorporating electrically conductive nano-structures
US9406017B2 (en) 2012-12-24 2016-08-02 Google Inc. System and method for addressing overfitting in a neural network
WO2016145379A1 (en) * 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
WO2016145516A1 (en) * 2015-03-13 2016-09-22 Deep Genomics Incorporated System and method for training neural networks

Also Published As

Publication number Publication date
US20180181865A1 (en) 2018-06-28
CN108241888A (zh) 2018-07-03
EP3343456B1 (en) 2023-10-18
CN108241888B (zh) 2022-12-30
JP2018106463A (ja) 2018-07-05
EP3343456A1 (en) 2018-07-04

Similar Documents

Publication Publication Date Title
JP6704341B2 (ja) 情報推定装置及び情報推定方法
Gawlikowski et al. A survey of uncertainty in deep neural networks
Kaheman et al. Automatic differentiation to simultaneously identify nonlinear dynamics and extract noise probability distributions from data
Hrasko et al. Time series prediction using restricted boltzmann machines and backpropagation
VanDerHorn et al. Bayesian model updating with summarized statistical and reliability data
Fonseca-Delgado et al. An assessment of ten-fold and Monte Carlo cross validations for time series forecasting
Naik et al. Credit card fraud detection based on machine learning algorithms
WO2019229931A1 (ja) 情報処理装置、制御方法、及びプログラム
Pomponi et al. Bayesian neural networks with maximum mean discrepancy regularization
Jordanova et al. Measuring heavy-tailedness of distributions
Epifano et al. Revisiting the fragility of influence functions
Moscu et al. Online graph topology inference with kernels for brain connectivity estimation
Liu et al. An improved mixture robust probabilistic linear discriminant analyzer for fault classification
US9864834B2 (en) High-resolution melt curve classification using neural networks
Derennes et al. Nonparametric importance sampling techniques for sensitivity analysis and reliability assessment of a launcher stage fallout
JP7148445B2 (ja) 情報推定装置及び情報推定方法
Deb et al. Using information theoretic learning techniques to train neural networks
Xu et al. Evidential logistic regression for binary SVM classifier calibration
Rivero et al. Bayesian enhanced ensemble approach (BEEA) for time series forecasting
Marchenko et al. Towards a computationally tractable maximum entropy principle for nonstationary financial time series
Cui et al. Topology Inference of Directed Graphs by Gaussian Processes With Sparsity Constraints
Kouritzin et al. Marcinkiewicz law of large numbers for outer products of heavy-tailed, long-range dependent data
Harshavardhanan et al. Capturing and modeling uncertainty in prognostics and health management using machine learning
Le Caillec et al. Fusion of hypothesis testing for nonlinearity detection in small time series
Kalinina et al. Construction of forecast models based on bayesian structural time series

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200512

R150 Certificate of patent or registration of utility model

Ref document number: 6704341

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250