JP6980263B2 - 異種データ深層学習装置、異種データ深層学習方法、および異種データ深層学習プログラム - Google Patents

異種データ深層学習装置、異種データ深層学習方法、および異種データ深層学習プログラム Download PDF

Info

Publication number
JP6980263B2
JP6980263B2 JP2017200830A JP2017200830A JP6980263B2 JP 6980263 B2 JP6980263 B2 JP 6980263B2 JP 2017200830 A JP2017200830 A JP 2017200830A JP 2017200830 A JP2017200830 A JP 2017200830A JP 6980263 B2 JP6980263 B2 JP 6980263B2
Authority
JP
Japan
Prior art keywords
learning
type
data
candidate block
neurons
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017200830A
Other languages
English (en)
Other versions
JP2019074946A (ja
Inventor
村 匠 市
田 真 鎌
Original Assignee
広島県公立大学法人
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 広島県公立大学法人 filed Critical 広島県公立大学法人
Priority to JP2017200830A priority Critical patent/JP6980263B2/ja
Publication of JP2019074946A publication Critical patent/JP2019074946A/ja
Application granted granted Critical
Publication of JP6980263B2 publication Critical patent/JP6980263B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、異種データ深層学習装置、異種データ深層学習方法、および異種データ深層学習プログラムに関し、より詳しくは、異種データの深層学習を比較的短時間で実行することが可能な異種データ深層学習装置、異種データ深層学習方法、および異種データ深層学習プログラムに関する。
従来、深層学習が取り扱う主なデータは画像データであったが、数値、テキスト、シンタックスなどの異なる種類のデータを同時に一つの情報として処理することが求められている。すなわち、異なる種類のデータを含むデータを学習データとして深層学習を行うことが求められている。異種データとして、例えば医療検診データが挙げられる。医療検診データは、X線撮影の画像データと血液検査データのように、異なる種類のデータを含む。
一般に、ビッグデータの深層学習(Deep learning)には長時間の計算が必要である。リアルタイム性が求められる分野(IOT機器の制御、リアルタイム予測システム等)への応用などに向けて、より短時間で学習を終了することが望まれている。
なお、深層学習については、下記の非特許文献の技術が知られている。
非特許文献1には、制限付きボルツマンマシン(Restricted Boltzmann Machine:RBM)(以下、単に「RBM」ともいう。)について記載されている。RBMは、可視層と隠れ層の2層から構成されるネットワーク構造を持っており、確率分布に基づいて入力データに含まれる特徴を隠れニューロン上で学習可能な学習モデルである。RBMでは、同じ層のニューロン間の結合が無いため、計算量を削減できるとともに、隠れ層のニューロンごとに独立した確率分布を学習することが可能である。
非特許文献2には、コントラスティブダイバージェンス(Contrastive Divergence:CD)法について記載されている。このCD法により、RBMのパラメタを比較的少ない計算量で更新することが可能になる。
非特許文献3には、ディープビリーフネットワーク(Deep Brief Network:DBN)について記載されている。DBNは、深層学習の一つの手法であり、学習済みのRBMを複数積み重ねて層数を増やすことで、入力データの特徴を階層的に学習することが可能である。
非特許文献4および5には、RBMにおけるニューロン生成・消滅アルゴリズムが記載されている。RBMのパラメタ(具体的には、重みとバイアスc)の変化をモニタリングすることによって、隠れニューロンの生成や消滅が行われる。
非特許文献6には、重みの変分ベクトルを用いて隠れニューロンの数を適応的に変更する手法が記載されている。また、学習中における重みの変分ベクトルの変化量をWalking Distance(WD)と定義することが記載されている。
非特許文献7には、DBNにおける階層化条件などが記載されている。非特許文献8および9には、Recurrent Temporal RBM(RTRBM)について記載されている。非特許文献10には、RTRBMを改良したRNN−RBMが記載されている。
G.E.Hinton, A Practical Guide to Training Restricted Boltzmann Machines, Neural Networks, Tricks of the Trade, Lecture notes in Computer Science, vol.7700, pp.599-619, 2012. G.E.Hinton, Training products of experts by minimizing contrastive divergence, Neural Computation, vol.14, pp.1771-1800, 2002. G.E.Hinton, S.Osindero and Y.Teh, A fast learning algorithm for deep belief nets, Neural Computation, vol.18, no.7, pp.1527-1554, 2006. S.Kamada and T.Ichimura, An Adaptive Learning Method of Restricted Boltzmann Machine by Neuron Generation and Annihilation Algorithm, Proc. of IEEE SMC 2016, pp.1273-1278, 2016. S.Kamada and T.Ichimura, A Structural Learning Method of Restricted Boltzmann Machine by Neuron Generation and Annihilation Algorithm, Neural Information Processing, vol.9950 of the series Lecture notes in Computer Science, pp.372-380, 2016. T.Ichimura and K.Yoshida Eds., Knowledge-Based Intelligent Systems for Health Care, Advanced Knowledge International, ISBN 0-9751004-4-0, 2004. S.Kamada and T.Ichimura, An Adaptive Learning Method of Deep Belief Network by Layer Generation Algorithm, Proc. of IEEE TENCON 2016, pp.2971-2974, 2016. T.Ichimura, S.Kamada, Adaptive Learning Method of Recurrent Temporal Deep Belief Network to Analyze Time Series Data, Proc. of IEEE IJCNN 2017, pp.2346-2353, 2017. I.Sutskever, G.E.Hinton, and G.Taylor, The Recurrent Temporal Restricted Boltzmann Machine, Advances in Neural Information Processing Systems, Vol.21 (NIPS 2008), pp.1601-1608, 2008. N.Boulanger-Lewandowski, Y.Bengio, and P.Vincent, Modeling Temporal Dependencies in High-Dimensional Sequences: Application to Polyphonic Music Generation and Transcription, Proc. of the 29th International Conference on Machine Learning (ICML2012), pp.1159-1166, 2012.
従来、異種データの深層学習を行う場合、各データの深層学習を個別に行い、その後、データごとの学習結果を統合するという多段的な学習方法が採られている。その他、異種データが構成する複素空間を幾何的な特徴により表現する方法が提案されている。しかしながら、いずれの方法も学習時間を短縮することが難しいという課題がある。
本発明は、上記の認識に基づいてなされたものであり、深層学習による異種データの学習時間を短縮することができる異種データ深層学習装置、異種データ深層学習方法、および異種データ深層学習プログラムを提供することを目的とする。
本発明に係る異種データ深層学習装置は、
可視層と隠れ層から構成される制限付きボルツマンマシンを用いて、異種データの深層学習を行う異種データ深層学習装置であって、
第1種類のデータを構成する複数の第1種類ブロックと、第2種類のデータを構成する複数の第2種類ブロックとを所定の配置ルールに従って配置することにより初期データを生成する初期データ生成部と、
前記制限付きボルツマンマシンのパラメタを初期化するパラメタ初期化部と、
前記可視層に前記初期データをセットし学習を行うことによって前記隠れ層を構成する隠れニューロンの出力値を求め、前記出力値に基づいてCD法による学習を行うことによって前記初期データに対する誤差を求めるRBM学習実行部と、
前記誤差を用いて前記パラメタを更新するパラメタ更新部と、
前記更新されたパラメタに基づいて、少なくとも、前記制限付きボルツマンマシンのバイアスbに関する学習中振動および前記隠れニューロンの状態変数hに関する学習中振動を算出するWD算出部と、
前記隠れ層の隠れニューロンから、発火しており且つ前記状態変数hに関する学習中振動が所定の閾値以下である安定特徴ニューロンを抽出する安定特徴ニューロン抽出部と、
前記抽出された安定特徴ニューロンの一つからCD法により、前記可視層を構成する可視ニューロンの出力値を求める可視ニューロン値算出部と、
前記複数の第1種類ブロックから、発火した可視ニューロンが所定の比率以上を占める第1種類ブロックを第1種類候補ブロックとして抽出し、前記複数の第2種類ブロックから、発火した可視ニューロンが所定の比率以上を占める第2種類ブロックを第2種類候補ブロックとして抽出する候補ブロック抽出部と、
まだ位置変更されていない前記第2種類候補ブロックの中でバイアスbに関する学習中振動が最も高い第2種類候補ブロックが所定の第1種類候補ブロックから第1の距離範囲内にない場合、当該第2種類候補ブロックの位置を前記第1の距離範囲よりも短い第2の距離範囲内の位置に変更する候補ブロック位置変更部と、
を備えることを特徴とする。
また、前記異種データ深層学習装置において、
前記第1種類のデータは、複数の画像ブロックからなる画像データであり、前記第2種類のデータは、複数のCSVブロックからなるCSVデータであってもよい
また、前記異種データ深層学習装置において、
前記各CSVブロックは、複数の検査項目を含む検査の各項目にそれぞれ対応していてもよい。
また、前記異種データ深層学習装置において、
前記画像データは、複数の前記画像ブロックを含む複数のイメージラインから構成されており、
前記初期データ生成部は、前記各イメージラインの前または後に前記CSVブロックを配置することにより前記初期データを生成してもよい。
また、前記異種データ深層学習装置において、
前記候補ブロック位置変更部は、前記バイアスbに関する学習中振動が最も高い第2種類候補ブロックの位置を、当該所定の第1種類候補ブロックの隣の位置に変更してもよい。
また、前記異種データ深層学習装置において、
前記候補ブロック位置変更部は、前記バイアスbに関する学習中振動が二番目に高い第2種類候補ブロックの位置を、前記第2の距離範囲内の位置に変更してもよい。
また、前記異種データ深層学習装置において、
前記候補ブロック位置変更部は、前記バイアスbに関する学習中振動が二番目に高い第2種類候補ブロックの位置を、前記バイアスbに関する学習中振動が最も高い第2種類候補ブロックの隣の位置に変更してもよい。
また、前記異種データ深層学習装置において、
前記WD算出部は、前記制限付きボルツマンマシンの重みWに関する学習中振動およびバイアスcに関する学習中振動を算出し、
前記隠れニューロンが前記重みWに関する学習中振動および前記バイアスcに関する学習中振動に基づく生成条件を満たす場合、前記制限付きボルツマンマシンの隠れニューロンを生成し、前記隠れニューロンが所定の消滅条件を満たす場合、当該隠れニューロンを消滅させるニューロン生成消滅部をさらに備えてもよい。
また、前記異種データ深層学習装置において、
前記候補ブロック位置変更部による前記第2種類候補ブロックの位置変更結果に基づいて、前記第2種類ブロックの位置を変更するための位置変更情報を格納したルックアップテーブルを更新するルックアップテーブル更新部をさらに備えてもよい。
また、前記異種データ深層学習装置において、
前記ルックアップテーブルに基づいて学習用の入力データの配置を変更し、前記変更された入力データを学習済みのニューラルネットワークに与え、推論を行う推論部をさらに備えてもよい。
本発明によれば、深層学習による異種データの学習時間を短縮することができる。
本発明の実施形態に係る異種データ深層学習装置1の概略的な機能ブロック図である。 異種データ深層学習装置1に設けられる制御部10の概略的な機能ブロック図である。 第1種類のデータとしての画像データのデータ構造を示す図である。 第2種類のデータとしてのCSVデータのデータ構造を示す図である。 (a)は複数の画像ブロックの並びとして表された画像データを示す図であり、(b)は複数のCSVブロックの並びとして表されたCSVデータを示す図である。 画像データを構成する複数のイメージラインと、CSVデータを構成する複数のCSVブロックとの配置関係の一例を示す図である。 初期データの一例を示す図である。 制限付きボルツマンマシンの構造を示す図である。 異種データ深層学習に係る処理フロー(全体)を示すフローチャートである。 CD法による学習アルゴリズムに係る処理フローを示すフローチャートである。 ニューロン生成・消滅に係る処理フローを示すフローチャートである。 異種データ学習アルゴリズムに係る処理フローを示すフローチャートである。 安定特徴ニューロンから可視層の可視ニューロンの出力値を算出するステップを説明するための図である。 画像候補ブロックおよびCSV候補ブロックを抽出するステップを説明するための図である。 CSV候補ブロックを移動させるか否かを判定するステップを説明するための図である。 CSV候補ブロックの位置を変更するステップを説明するための図である。 位置変更結果に基づいて更新されたルックアップテーブルの一例を示す図である。 学習後のニューラルネットワークを用いた推論に係る処理フローを示すフローチャートである。 推論に用いる画像データとCSVデータの一例を示す図である。 ルックアップテーブルの一例を示す図である。 ルックアップテーブルを用いてCSVブロックの位置を変更した後の状態を示す図である。
以下、本発明に係る実施形態について図面を参照しながら説明する。
まず、図1を参照して、本発明の実施形態に係る異種データ深層学習装置1について説明する。
異種データ深層学習装置1は、制限付きボルツマンマシン(RBM)を用いて、異種データの深層学習を行うための情報処理装置である。異種データ深層学習装置1は、パソコン、タブレット端末またはスマートフォン等の情報処理端末として構成される。なお、異種データ深層学習装置1は、クライアント側の端末ないし機器から学習用データを受信し、学習完了後、学習結果を返すサーバ装置として構成されてもよい。
異種データ深層学習装置1は、図1に示すように、制御部10と、通信部30と、操作入力部40と、表示部50と、記憶部60と、を備えている。なお、異種データ深層学習装置1は、学習データを入力するために、光学ドライブやメモリカードスロットなどの情報取込部(図示せず)を備えてもよい。
制御部10は、異種データ深層学習装置1の動作を制御するものであり、ハードウェアとしてはCPU(中央処理装置)等のプロセッサにより構成される。本実施形態では、制御部10は、異種データ深層学習装置1内のプロセッサが所定のプログラムを実行することにより実現される。なお、制御部10の少なくとも一部がASIC等のハードウェアにより構成されてもよい。制御部10の詳細については後ほど詳しく説明する。
通信部30は、異種データ深層学習装置1と外部の情報処理装置(図示せず)との間で情報を送受信する。例えば、通信部30は、外部の情報処理装置から、学習用データ(後述の画像データやCSVデータなど)を受信する。なお、通信部30は、インターネット経由で通信接続されたIOT機器から直接、データを受信してもよい。なお、通信部30による通信は、有線・無線の別を問わず、また通信プロトコルも限定されない。
操作入力部40は、ユーザが異種データ深層学習装置1に情報を入力するためのインターフェースであり、例えば、キーボード、マウス、タッチパネル、ボタン等である。
表示部50は、ユーザへ各種情報(例えば学習結果、推定結果など)を出力するインターフェースである。この表示部50は、例えば、映像を表示するディスプレイ(液晶ディスプレイ、有機ELディスプレイ等)である。
記憶部60は、ハードディスクまたは半導体メモリなどから構成される記憶装置である。この記憶部60には、制御部10による情報処理に必要なデータ(学習用データなど)が記憶されるとともに、制御部10により生成された情報(学習結果など)が記憶される。なお、制御部10により実行されるプログラムが記憶部60に記憶されていてもよい。
次に、図2を参照して、制御部10について詳しく説明する。
制御部10は、図2に示すように、初期データ生成部11と、パラメタ初期化部12と、RBM学習実行部13と、パラメタ更新部14と、WD算出部15と、ニューロン生成消滅部16と、安定特徴ニューロン抽出部17と、可視ニューロン値算出部18と、候補ブロック抽出部19と、候補ブロック位置変更部20と、ルックアップテーブル更新部21と、推論部22と、を備えている。
なお、符号11〜符号22で示される各機能部は、通信接続された複数の情報処理装置に分散して設けられ、これら複数の情報処理装置が協働することにより制御部10の機能が実現されてもよい。また、推論部22は、それ単体で別の情報処理装置(推論実行装置)に設けられてもよい。
制御部10の各機能部について詳しく説明する。
初期データ生成部11は、第1種類のデータを構成する複数の第1種類ブロックと、第2種類のデータを構成する複数の第2種類ブロックとを所定の配置ルールに従って配置することにより初期データを生成する。
本実施形態では、第1種類のデータは画像データであり、第2種類のデータはCSVデータ(CSV:Comma−Sepatated Values)である。画像データは、例えば、医療画像データ(X線、CT、MRI、PET、超音波等)である。CSVデータは、数値、テキストおよびシンタックスのうち少なくともいずれか一つを含むデータである。CSVデータは、例えば、血液検査などの数値データ、IOTセンサーデバイスからの計測データ、問診結果などの文字データである。なお、音声や動画のような時系列データを学習データとしても用いてもよい。本発明では、任意の異なる種類のデータを深層学習の学習用データとしてもよい。
第1種ブロックおよび第2種類ブロックの配置ルールは、特に限定されないが、本実施形態における配置方法(初期データの生成方法)について、図3〜図7を参照して説明する。
図3は、画像データのデータ構造を示している。縦横Xピクセルの画像データが、画像ブロックIB11,IB12,・・・,IBNNにより構成されている。各画像ブロックには、1または複数のピクセルのデータが含まれる。本実施形態では、各ピクセルは、1ビットのデータ(すなわち、白または黒)を有する。なお、各画像ブロックの大きさは、本実施形態では同じ(例えば3ビット)であるが、互いに異なってもよい。また、ピクセルが複数ビットのデータを有する場合、当該ピクセルを複数の白黒ピクセルの並びとみなす。例えば、“101”の情報を有するピクセルの場合、3個の白黒ピクセル(“1”,“0”,“1”)の並びとみなす。
図3に示すように、画像データは、N個のイメージラインIL,IL,・・・,ILにより構成されている。例えば、イメージラインILは、N個の画像ブロックIB11,IB12,・・・,IB1Nを含んでいる。このように画像データは、複数の画像ブロックを含む複数のイメージラインから構成されている。図5(a)は、N個のイメージラインで表された画像データを示している。
図4は、CSVデータのデータ構造を示している。Mビットのデータが、Q個のCSVブロックCB,CB,・・・,CBにより構成されている。図4に示すように、CSVブロックCBは3ビットであり、CSVブロックCBは2ビットである。このように、各CSVブロックの大きさは異なっている。なお、各CSVブロックの大きさは同じであってもよい。図5(b)は、Q個のCSVブロックで表されたCSVデータを示している。
本実施形態では、各CSVブロックは、複数の検査項目を含む検査の各項目にそれぞれ対応している。図4の例では、Q個のCSVブロックがそれぞれ別の検査項目の結果に関する情報を有している。CSVデータが血液検査の結果を示す場合、各CSVブロックは、検査項目ごとの血液検査結果を含んでいる。例えば、CSVブロックCBは、ある項目についての検査結果(例えばγ−GTP)が正常値、異常値(下)または異常値(上)を示す、3ビットのone−hotベクトルである。この場合、CSVブロックCBの値は、検査値が基準範囲内であれば“100”であり、基準範囲より下であれば“010”であり、基準範囲より上であれば“001”である。
初期データ生成部11は、各イメージラインの前または後にCSVブロックを少なくとも一つ配置することにより初期データを生成する。例えば、初期データ生成部11は、図6に示すように、イメージラインILの後にCSVブロックCB(k=1,2,・・・,N)を配置する。Q>Nの場合はCSVブロックが余ることになるが、余ったCSVブロックは例えば図6に示すように、CSVブロックCBの後に配置する。図7は、このような配置ルールにより生成された初期データを示している。
なお、初期データ生成部11は、各イメージラインの後に複数のCSVブロックを配置してもよい。例えば、イメージラインILの後にCSVブロックCBとCSVブロックCBを配置してもよい。
初期データ生成部11による初期データの生成方法は上記に限られない。例えば、より単純な形態として、N個のイメージラインIL,IL,・・・,ILの後に、Q個のCSVブロックCB,CB,・・・,CBを配置してもよい。あるいは、画像ブロックとCSVブロックを交互に配置することにより初期データを生成してもよい。このように初期データ生成部11による初期データの生成方法は、特に限定されない。
ここで、制限付きボルツマンマシン(RBM)の構造について説明する。RBMは、図8に示すように、可視層と隠れ層から構成される。可視層はI個の可視ニューロンv,v,・・・,vからなり、隠れ層はJ個の隠れニューロンh,h,・・・,hからなる。図3〜図7で説明した例の場合、可視層には、X+M個の可視ニューロンが必要である。隠れ層には、分類に必要な十分な数の隠れニューロンがあればよい。隠れニューロンの数は、例えば、学習前に予め決定された値を用いる。
RBMの可視層は、式(1)に示すベクトルvで表され、RBMの隠れ層は、式(2)に示すベクトルhで表される。ベクトルv,hの各成分は、0または1の値をとる。
Figure 0006980263
Figure 0006980263
パラメタ初期化部12は、制限付きボルツマンマシンのパラメタ(ベクトルθ)を初期化する。ベクトルθは、式(3)に示すように、ベクトルb、ベクトルcおよびベクトルWを含む。
Figure 0006980263
Figure 0006980263
Figure 0006980263
Figure 0006980263
ベクトルbの成分bは可視ニューロンvのバイアスであり、ベクトルcの成分cは隠れニューロンhのバイアスである。ベクトルWの成分Wijは可視ニューロンvと隠れニューロンhの間の結合加重を示す重みである。
RBM学習実行部13は、制限付きボルツマンマシンの可視層に、初期データ生成部11により生成された初期データ(ベクトルv)をセットし、学習を行うことによって、隠れ層を構成する隠れニューロンの出力値を求める。具体的には、セットされた初期データに対する隠れニューロンの発火確率を式(7)により計算する。RBM学習実行部13は、計算された発火確率により隠れニューロンの出力値(0または1)を求める。
なお、DBNを適用する場合、RBM学習実行部13は、第l層(l>1)RBMの可視層に、第l−1層RBMの出力データをセットし、学習を行うことによって、第l層RBMの隠れ層を構成する隠れニューロンの出力値を求める。
Figure 0006980263
式(7)の左辺は、入力データ(ベクトルv)が与えられた場合にj番目の隠れニューロン(h)の出力値が1になる(すなわち発火する)確率を示している。なお、式(7)の右辺の関数sigmはシグモイド関数である。なお、出力関数は、シグモイド関数以外の関数(ランプ関数など)であってもよい。
すべての隠れニューロンの出力値が求められた後、RBM学習実行部13は、求められた出力値に基づいて、コントラスティブダイバージェンス法(CD法)による学習を行うことによって初期データに対する誤差を求める。具体的には、まず、RBM学習実行部13は、隠れニューロンの出力値に対する可視ニューロンの発火確率を式(8)により計算する。
Figure 0006980263
式(8)の左辺は、隠れニューロンの出力データ(ベクトルh)が与えられた場合における、i番目の可視ニューロン(v)の出力値が1になる(すなわち発火する)確率である。RBM学習実行部13は、計算された確率により可視ニューロンの出力値(0または1)を求める。なお、CD法として、例えばCD−1法を用いる。
RBM学習実行部13は、入力データ(ベクトルv)と、求められた可視ニューロンのデータ(ベクトルv’)とを用いて誤差を計算する。誤差として、例えば、ベクトルvとベクトルv’の二乗和誤差を求める。
パラメタ更新部14は、RBM学習実行部13により求められた誤差を用いてパラメタ(ベクトルθ)を更新する。より具体的には、パラメタ更新部14は、誤差が最小になるようにパラメタ(ベクトルθ)を更新する。
WD算出部15は、制限付きボルツマンマシンの変数に関する学習中振動を算出する。「学習中振動」とは、対象の変数が学習中にどれくらい振動しているのかを測るための指標である。以下の説明では、学習中振動を単にWD(Walking Distance)とも呼ぶ。変数には、制限付きボルツマンマシンのパラメタb,c,Wおよび隠れニューロンの状態変数hがある。
WD算出部15は、パラメタ更新部14により更新されたパラメタ(ベクトルθ)に基づいて、制限付きボルツマンマシンのパラメタb,c,Wに関する学習中振動と、制限付きボルツマンマシンの隠れニューロンの状態変数hに関する学習中振動を算出する。具体的には、WD算出部15は、式(9)、(10)、(11)、(12)を用いて変数W,c,b,hに関するWDをそれぞれ、各j(=1,2,...,J)について算出する。
なお、ニューロンの生成消滅を行わない場合は、パラメタc,Wに関する学習中振動を算出する必要はない。よって、WD算出部15は、少なくとも、制限付きボルツマンマシンのパラメタbに関する学習中振動と、制限付きボルツマンマシンの隠れニューロンの状態変数hに関する学習中振動を算出する。
Figure 0006980263
Figure 0006980263
Figure 0006980263
Figure 0006980263
上記の式(9)〜式(12)から分かるように、学習中振動WDは、T−1回目までの学習による対象変数のWDと、T回目の学習による対象変数の変化量との和を計算することにより得られる。
式(9)のγは、右辺第一項と右辺第二項の影響度を調整するパラメタであり、0より大きく、1より小さい値をとる。式(10)のγ、式(11)のγ、式(12)のγについても同様である。
式(9)の変分ベクトルW[T]は、T回目の学習における、j番目の隠れニューロンに関連する重みの変化量を示す変分ベクトルである。式(10)のc[T]、式(10)のb[T]、式(11)のh[T]についても同様である。なお、W[0],c[0],b[0]は、パラメタ初期化部12により初期化された値をとり、h[0]は、すべてのjについて零である。
式(9)〜式(12)の関数Metは、ベクトル間の距離を計算するための距離関数であり、本実施形態では、引数のベクトル間のユークリッド距離を返す関数である。
ニューロン生成消滅部16は、制限付きボルツマンマシンに対して、隠れニューロンの生成消滅アルゴリズムを実行する。より詳しくは、ニューロン生成消滅部16は、制限付きボルツマンマシンの隠れニューロンが所定の生成条件を満たす場合、隠れニューロンを生成する。例えば、生成条件を満たす隠れニューロンの隣に新たな隠れニューロンを追加する。一方、隠れニューロンが所定の消滅条件を満たす場合、ニューロン生成消滅部16は、その隠れニューロンを消滅させる。なお、隠れニューロンの生成・消滅は、例えば、安定特徴ニューロン抽出部17が安定特徴ニューロン(後述)を抽出する前に行われる。
ここで、隠れニューロンの生成・消滅について、より詳しく説明する。
ニューロン生成消滅部16は、j番目の隠れニューロンが式(13)の生成条件を満たす場合、新しい隠れニューロンを生成し、j+1番目の隠れニューロンとして隠れ層に挿入する。
Figure 0006980263
ここで、αはdcに対するパラメタの定数であり、正の値をとる。dcはバイアスcに関するWDである。αはdWに対するパラメタの定数であり、正の値をとる。dWは重みWに関するWDである。θはニューロン生成に関わる閾値であり、正の値をとる。式(13)から分かるように、隠れニューロンの生成条件は、重みWに関する学習中振動およびバイアスcに関する学習中振動に基づく。
一方、ニューロン生成消滅部16は、j番目の隠れニューロンが式(14)の消滅条件を満たす場合、その隠れニューロンを除去する。
Figure 0006980263
ここで、Nは入力データのサンプル数(ベクトルvのサンプル数)であり、θはニューロン消滅に関わる閾値であり、0より大きく、1より小さい値をとる。
なお、ニューロン生成消滅部16は、必須の構成ではない。後述の異種データ学習アルゴリズムを実行するために、ある程度の数の隠れニューロンが得られれば、隠れニューロンの生成・消滅を行なわくてもよい。あるいは、他の手法(例えば、手動による試行錯誤により隠れニューロン数の最適値を見つける等)により、必要な数の隠れニューロンを確保してもよい。
安定特徴ニューロン抽出部17は、隠れ層の隠れニューロンから、安定特徴ニューロンを抽出する。本願において、安定特徴ニューロンとは、発火しており(すなわち、出力値“1”)、且つ状態変数hに関する学習中振動(WD)が所定の閾値以下である隠れニューロンをいう。つまり、安定特徴ニューロンは、特徴有りとの出力を行っている隠れニューロンのうち、学習中の振動が比較的小さく、安定している隠れニューロンのことである。安定特徴ニューロン抽出部17は、隠れ層を構成する複数の隠れニューロンから、1または複数の安定特徴ニューロンを抽出する。
可視ニューロン値算出部18は、安定特徴ニューロン抽出部17により抽出された安定特徴ニューロンの一つからCD法により、可視層を構成する可視ニューロンの出力値を求める。具体的には、可視ニューロン値算出部18は、式(15)を用いて可視ニューロンの出力値を算出する。式(15)は、抽出されたP個の安定特徴ニューロンの中のp番目の安定特徴ニューロンから可視ニューロンv(i=1,2,・・・,I)の出力値を求めるための計算式である。
Figure 0006980263
候補ブロック抽出部19は、可視層にセットされた初期データ(より一般には入力データ)における複数の画像ブロックから、発火した可視ニューロンが所定の比率以上を占める画像ブロックを画像候補ブロック(IB_Cand)として少なくとも1つ抽出する。所定の比率は、例えば50%である。
また、候補ブロック抽出部19は、可視層にセットされた初期データ(より一般には入力データ)における複数のCSVブロックから、発火した可視ニューロンが所定の比率以上を占めるCSVブロックをCSV候補ブロック(CB_Cand)として抽出する。所定の比率は、例えば50%である。
候補ブロック位置変更部20は、学習中振動が高いCSV候補ブロックを所定の画像候補ブロックの近傍に移動させる。これにより、CSV候補ブロックに含まれる可視ニューロンの出力値(可視ニューロン値算出部18により算出された値)は画像候補ブロックの近傍に移動される。すなわち、CSV候補ブロックの移動により、移動前の状態においてCSV候補ブロックに包含される可視ニューロンの出力値が、移動後のCSV候補ブロックに包含される可視ニューロンの値となる。
より詳しくは、候補ブロック位置変更部20は、まだ位置変更されていないCSV候補ブロックの中でバイアスbに関する学習中振動が最も高いCSV候補ブロックが、所定の画像候補ブロックから第1の距離範囲内にない場合、当該CSV候補ブロックの位置を第1の距離範囲よりも短い第2の距離範囲内の位置に変更する。第1の距離範囲は、例えば、画像候補ブロックから±50ブロックの範囲である。第2の距離範囲は、例えば、画像候補ブロックから±10ブロックの範囲である。
複数のCSV候補ブロック間で、バイアスbに関する学習中振動の値を比較するために、候補ブロック位置変更部20は、“CSV候補ブロックの”バイアスbに関する学習中振動を算出する。例えば、CSV候補ブロックが可視層に占める位置に含まれる可視ニューロンの、バイアスbに関する学習中振動の平均値を計算し、その平均値を当該CSV候補ブロックの、バイアスbに関する学習中振動とする。例えば、CSV候補ブロックが可視層に占める位置に、2個の可視ニューロンが含まれ、一方の可視ニューロンの、バイアスbに関する学習中振動の値がxであり、他方の可視ニューロンの、バイアスbに関する学習中振動の値がyである場合、そのCSV候補ブロックの、バイアスbに関する学習中振動は、(x+y)/2となる。なお、その他の計算手法を用いて、CSV候補ブロックの学習中振動の値を計算してもよい。
ルックアップテーブル更新部21は、候補ブロック位置変更部20によるCSV候補ブロックの位置変更結果に基づいて、ルックアップテーブルを更新する。このルックアップテーブルは、CSVブロックの位置を変更するための位置変更情報を格納したテーブルである。
推論部22は、学習後のニューラルネットワークを用いた推論を行う。この推論部22は、ルックアップテーブル更新部21により作成されたルックアップテーブルに基づいて学習用の入力データの配置を変更し、変更された入力データを学習済みのニューラルネットワークに与え、推論を行う。
以上説明したように、異種データ深層学習装置1では、異種データを構成するブロック(第1種ブロック、第2種類ブロック)を所定の配置ルールに従って組み合わせることにより初期データを生成する。これにより、異種データを一連の入力データとして取り扱うことができる。例えば、様々なIOTデバイスから収集された異種データを1つのデータとして処理することができる。また、1つの学習プロセスにより学習を進めることができるようになるので、従来の多段的な学習方法に比べて学習速度の向上を図ることができる。
そして、異種データ深層学習装置1では、学習中振動が比較的高い(すなわち、学習がそれほど進んでいない)第2種類候補ブロックを、関連性の高い第1種類候補ブロックの近傍に位置変更する。これにより、異種データの深層学習に要する時間を短縮することができる。すなわち、第1種類のデータと第2種類のデータ間でデータの分布が均一でないために深層学習が収束しにくいところ、本実施形態では、特徴を有し且つ学習の進んだ安定特徴ニューロンに着目し、安定特徴ニューロンを基点としたCD法による計算結果に基づいて、特徴が類似する異種のブロック(第1種類候補ブロック、第2種類候補ブロック)を抽出し、抽出された異種ブロックを近接配置する。これにより、本実施形態によれば、深層学習の収束速度が向上し、異種データの学習時間を短縮することができる。また、第2種類候補ブロックの中でも比較的学習の進んでいないブロックから優先して第1種類候補ブロックの近傍に位置変更することで、深層学習の収束速度をさらに向上させている。
また、本実施形態によれば、深層学習を行う際のニューラルネットワークの設計や、パラメタの設定を容易に行うこともできる。
なお、候補ブロック位置変更部20は、バイアスbに関する学習中振動が最も高いCSV候補ブロックの位置を、所定の画像候補ブロックの隣の位置に変更することが好ましい。つまり、第2の距離範囲を1としてもよい。これにより、学習効率が向上し、計算時間をさらに短縮することができる。
また、候補ブロック位置変更部20は、バイアスbに関する学習中振動が二番目に高いCSV候補ブロックの位置を第2の距離範囲内の位置に変更してもよい。これにより、学習効率が向上し、計算時間をさらに短縮することができる。
また、候補ブロック位置変更部20は、バイアスbに関する学習中振動が二番目に高いCSV候補ブロックの位置を、バイアスbに関する学習中振動が最も高いCSV候補ブロックの隣の位置に変更してもよい。
一般的に言えば、候補ブロック位置変更部20は、バイアスbに関する学習中振動がx番目(xは2以上の整数)に高い複数のCSV候補ブロックの位置を第2の距離範囲内の位置に変更してもよい。これにより、適切な数の隠れニューロンが存在する条件下においては、学習精度を向上させ、計算時間をさらに短縮することができる。
また、異種データ深層学習装置1は、一つの情報処理装置ではなく、互いに通信接続された複数の情報処理装置から構成されてもよい。例えば、ニューロン生成・消滅アルゴリズム、CD法による学習アルゴリズム、異種データ学習アルゴリズム等の各種アルゴリズムをそれぞれ別の情報処理装置が実行するようにしてもよい。
<異種データ深層学習方法>
上記の異種データ深層学習装置1による異種データ深層学習方法について、図9〜図12のフローチャートに沿って説明する。図9は、異種データ深層学習に係る処理フローの全体を示す。図10は、図9のステップS4(CD法による学習アルゴリズム)に係る処理フローを示す。図11は、図9のステップS6(ニューロン生成・消滅アルゴリズム)に係る処理フローを示す。図12は、図9のステップS8(異種データ学習アルゴリズム)に係る処理フローを示す。
まず、初期データ生成部11は、異なる2つのデータ(第1種類のデータと第2種類のデータ)に基づいて、学習用の初期データを生成する(ステップS1)。本実施形態では、画像データとCSVデータを所定の配置ルールに従って配置することにより初期データを生成する。
次に、制御部10は、DBNの層数を示す変数(l)を初期化する(ステップS2)。具体的には、変数lに1を代入する。
次に、パラメタ初期化部12は、第l層RBMのパラメタ(ベクトルθ)を初期化する(ステップS3)。具体的には、パラメタを構成する、2つのバイアス(ベクトルbおよびベクトルc)と重み(ベクトルW)の各成分の初期値を与える。なお、l=1の場合、初期値はランダム値でもよいし、固定値(例えば零)でもよい。l>1の場合、前回の学習で得られたパラメタ値を初期値とする。
次に、RBM学習実行部13は、CD法による学習アルゴリズムを実行する(ステップS4)。本アルゴリズムの詳細について、図10を参照して説明する。
まず、RBM学習実行部13は、第l層RBMの可視層(ベクトルv)に入力データをセットする(ステップS41)。l=1の場合は、入力データとして、初期データ生成部11により生成された初期データをセットする。l>1の場合は、前回の学習で得られた、l−1層RBMの隠れ層のデータを初期値とする。
次に、RBM学習実行部13は、第l層RBMの可視層(ベクトルv)から隠れ層(ベクトルh)を求める(ステップS42)。具体的には、隠れ層を構成するすべての隠れニューロンについて、可視層にセットされた入力データに対する発火確率を前述の式(7)により計算する。これにより、隠れニューロンの状態変数の値(0または1)が求められる。
次に、RBM学習実行部13は、ステップS42で求められた隠れ層から、可視層(ベクトルv’)を求める(ステップS43)。具体的には、可視層を構成するすべての可視ニューロンについて、ステップS42で求められた隠れ層(ベクトルh)に対する発火確率を前述の式(8)により計算する。これにより、可視ニューロンの状態変数の値(0または1)が求められる。
次に、RBM学習実行部13は、元の入力データ(ベクトルv)と、ステップS43で得られたデータ(ベクトルv’)から誤差を求める(ステップS44)。誤差は、例えば、ベクトルvとベクトルv’の二乗和誤差を計算することにより得られる。
図9に戻って、ステップS5以降の説明を続ける。
パラメタ更新部14は、ステップS4で得られた誤差を用いて第l層RBMのパラメタを更新する(ステップS5)。例えば、パラメタ更新部14は、誤差が最小になるようにパラメタ(ベクトルθ)を更新する。
次に、WD算出部15は、第l層RBMのパラメタおよび隠れニューロンの状態変数(h)に関する学習中振動(WD)を算出する(ステップS6)。本実施形態では、WD算出部15は、前述の式(9),(10),(11),(12)を用いて変数W,c,b,hに関するWDを、各j(=1,2,...,J)について算出する。
次に、ニューロン生成消滅部16は、ニューロン生成・消滅アルゴリズムを実行する(ステップS7)。本アルゴリズムの詳細について、図11を参照して説明する。
まず、ニューロン生成消滅部16は、隠れニューロンの番号を示す変数(j)を初期化する(ステップS71)。次に、ニューロン生成消滅部16は、変数jが隠れニューロンの総数Jよりも大きいか否かを判定する(ステップS72)。そして、変数jが総数Jよりも大きい場合(S72:Yes)、ニューロン生成・消滅アルゴリズムを終了し、図9の全体フローに戻る。一方、変数jが総数J以下である場合(S72:No)、ニューロン生成消滅部16は、j番目の隠れニューロンがニューロン生成条件を満たすか否かを判定する(ステップS73)。生成条件を満たすか否かは、前述の式(13)を用いて判定される。この判定を行う際に、ステップS6で算出されたバイアスcおよび重みWに関する学習中振動(dc,dW)が用いられる。
j番目の隠れニューロンがニューロン生成条件を満たす場合(S73:Yes)、ニューロン生成消滅部16は、隠れニューロンを生成する(ステップS74)。本ステップで生成された隠れニューロンは、j+1番目の隠れニューロンとして第l層RBMの隠れ層に挿入される。
一方、j番目の隠れニューロンがニューロン生成条件を満たさない場合(S73:No)、ニューロン生成消滅部16は、j番目の隠れニューロンがニューロン消滅条件を満たすか否かを判定する(ステップS75)。消滅条件を満たすか否かは、前述の式(14)を用いて判定される。
j番目の隠れニューロンがニューロン消滅条件を満たす場合(S75:Yes)、ニューロン生成消滅部16は、j番目の隠れニューロンを除去する(ステップS76)。一方、j番目の隠れニューロンがニューロン消滅条件を満たさない場合(S75:No)、変数jの値を一つ増やし(ステップS77)、ステップS72に戻る。
図9に戻って、ステップS8以降の説明を続ける。
制御部10は、異種データ学習アルゴリズムを実行する(ステップS8)。本アルゴリズムの詳細について、図12を参照して説明する。
まず、安定特徴ニューロン抽出部17は、第l層RBMの隠れ層の隠れニューロンから、前述の安定特徴ニューロンを抽出する(ステップS81)。ここでは、P個の安定特徴ニューロンが抽出されたとする。
次に、制御部10は、安定特徴ニューロンの番号を示す変数(p)を初期化する(ステップS82)。そして、制御部10は、変数pが安定特徴ニューロンの総数Pよりも大きいか否かを判定する(ステップS83)。そして、変数pが総数Pよりも大きい場合(S83:Yes)、異種データ学習アルゴリズムを終了し、図9の全体フローに戻る。一方、変数pが総数P以下である場合(S83:No)、可視ニューロン値算出部18は、p番目の安定特徴ニューロンからCD法により、可視層の可視ニューロンの値を求める(ステップS84)。具体的には、可視ニューロン値算出部18は、前述の式(15)を用いて、可視層を構成する可視ニューロンの出力値をすべて計算する。図13は、p番目の安定特徴ニューロン(h )から可視層の各可視ニューロンの値を求める様子を示している。
次に、候補ブロック抽出部19は、l層RBMの可視層にセットされた入力データにおける複数の画像ブロックから、発火した可視ニューロンが所定の比率以上を占める画像ブロックを画像候補ブロック(IB_Cand)として抽出する(ステップS85)。ここでは、K個の画像候補ブロックが抽出されたとする。この抽出方法について、図14を参照して説明する。なお、図14において、内部に斜線が施された円は、発火したニューロンを示している。
図14では、画像ブロックは3ビット(3つの可視ニューロン)からなり、CSVブロックは2ビット(2つの可視ニューロン)からなる。ここでは、所定の比率は50%とする。図14に示すように、左から2つ目の画像ブロックは、発火した可視ニューロンが2個あり、半分以上の可視ニューロンが発火したため、画像候補ブロックとして抽出される。一方、左から3つ目の画像候補ブロックは、発火した可視ニューロンが1個なので、画像候補ブロックとして抽出されない。また、右から2つ目のCSVブロックは、発火した可視ニューロンが1個であり、半分の可視ニューロンが発火したため、CSV候補ブロックとして抽出される。
次に、制御部10は、ステップS85で抽出された画像候補ブロックの番号を示す変数(k)を初期化する(ステップS86)。そして、制御部10は、変数kが画像候補ブロックの総数Kよりも大きいか否かを判定する(ステップS87)。そして、変数kが総数Kよりも大きい場合(S87:Yes)、変数pの値を一つ増やし(ステップS88)、ステップS83に戻る。
一方、変数kが総数K以下である場合(S87:No)、候補ブロック位置変更部20は、ステップS85で抽出されたCSV候補ブロックのうち、まだ位置変更されていないCSV候補ブロックの中でバイアスbに関する学習中振動(WD)が最も高いCSV候補ブロックが、k番目の画像候補ブロックの近傍にあるか否かを判定する(ステップS89)。そして、当該CSV候補ブロックがk番目の画像候補ブロックの近傍にある場合(S89:Yes)、変数kの値を一つ増やし(ステップS92)、ステップS87に戻る。
一方、バイアスbに関する学習中振動が最も高いCSV候補ブロックがk番目の画像候補ブロックの近傍にない場合(S89:No)、候補ブロック位置変更部20は、当該CSV候補ブロックの位置をk番目の画像候補ブロックの近傍に変更する(ステップS90)。より一般的には、前述のように、当該CSV候補ブロックがk番目の画像候補ブロックから第1の距離範囲内にない場合、当該CSV候補ブロックの位置を第1の距離範囲よりも短い第2の距離範囲内の位置に変更する。ステップS90の処理の後、変数kの値を一つ増やし(ステップS92)、ステップS87に戻る。
CSV候補ブロックの位置変更とは、移動前の状態においてCSV候補ブロックに包含される可視ニューロンの出力値を移動後のCSV候補ブロックに包含される可視ニューロンの値とすることである。
CSV候補ブロックの位置変更について、図15を参照して説明する。なお、図15において、内部に斜線が施された円は、発火したニューロンを示している。
図15では、符号IB_Candで示されるブロックがk番目の画像候補ブロックであり、符号CB_Candで示されるブロックがi番目のCSV候補ブロックである。ここでは、第1の距離範囲を±10とする。画像候補ブロックIB_Candから距離10の範囲には、3つのCSV候補ブロック(CB_Cand,CB_Candi+1,CB_Candi+2)が含まれる。CSV候補ブロックCB_Candは既に位置変更済みであり、CSV候補ブロックCB_Candi+1のバイアスbに関する学習中振動がCB_Candi+2のそれよりも低い場合、CSV候補ブロックCB_Candi+2が位置変更すべきブロックとなる。よって、候補ブロック位置変更部20は、CSV候補ブロックCB_Candi+2の位置を第2の距離範囲内の位置に変更する。例えば、CSV候補ブロックCB_Candi+2を画像候補ブロックIB_Candの隣に移動する。図16は、CSV候補ブロックCB_Candi+2を画像候補ブロックIB_Candの隣に移動した状態を示している。図16に示すように、CSV候補ブロックCB_Candi+2の移動によって、移動前の状態においてCSV候補ブロックCB_Candi+2に包含される可視ニューロンの出力値が移動後のCSV候補ブロックCB_Candi+2に包含される可視ニューロンの値となっている。
なお、上の例では、画像候補ブロックIB_Candの右側(正の方向)のみを見たが、左側(負の方向)にあるCSV候補ブロックを位置変更対象としてもよい。また、上の例では、CSV候補ブロックに含まれる可視ニューロンのうち一つでも第1の距離範囲内にあれば、位置変更対象のブロックとしたが、CSV候補ブロックに含まれる可視ニューロンの全てが第1の距離範囲内にあるブロックを位置変更対象のブロックとしてもよい。
次に、ルックアップテーブル更新部21は、ステップS90におけるCSV候補ブロックの位置変更結果に基づいて、ルックアップテーブルを更新する(ステップS91)。図17は、ルックアップテーブル更新部21により更新されたルックアップテーブルの一例を示している。このルックアップテーブルは、CSVブロックCB22が画像ブロックIB101の隣に位置変更されることを示している。図16との関係で言えば、画像ブロックIB101は画像候補ブロックIB_Candであり、CSVブロックCB22はCSV候補ブロックCB_Candi+2である。
なお、ステップ90として説明したCSVブロックの位置を変更する処理は、ステップS92を経た後、ステップS87とステップS89の間で行ってもよい。すなわち、k+1番目の画像候補ブロックに関する処理フローにおいて、CSV候補ブロックを移動させてもよい。この場合、例えば、k番目の画像候補ブロックに関する処理フローのステップS91で更新されたルックアップテーブルを参照してCSV候補ブロックの移動を行う。
図9に戻って、ステップS9以降の説明を続ける。
制御部10は、第l層RBMの終了条件を満たすか否かを判定する(ステップS9)。終了条件として、例えば、(A)ステップS4で求められた誤差が所定の値以下になる、(B)ステップS4〜ステップS8の処理が所定の回数(最大訓練回数)行われた、(C)ステップS7においてニューロンの生成・消滅が所定の反復回数のあいだ行われていない、(D)ステップS8においてCSVブロックの位置変更が所定の反復回数のあいだ行われていない、などが挙げられる。条件(C)は最適な隠れニューロンの数が決まったことを示し、条件(D)は最適な入力データの並びが決まったことを示す。
上記の条件(A)〜(D)を論理和や論理積で結んだものを終了条件としてよい。本実施形態では、{条件(A)and条件(C)and条件(D)}or条件(B)を終了条件とする。
次に、制御部10は、変数lが最大層数L未満であり、かつ層の生成条件が満たされるか否かを判定する(ステップS10)。最大層数Lは、事前に決められた定数である。制御部10は、式(16)と式(17)の両方が満たされる場合に、層の生成条件を満たすと判定する。
Figure 0006980263
ここで、αWDはスケールを調整するためのパラメタであり、WDは第l層RBMにおける学習中振動(すなわち、パラメタの変化量)である。WDは式(13)の左辺により計算される。θL1は閾値である。
Figure 0006980263
ここで、αはスケールを調整するためのパラメタであり、Eは第l層RBMにおけるエネルギー関数であり、式(18)により計算される。θL2は閾値である。
Figure 0006980263
変数lが最大層数L未満であり、かつ層の生成条件が満たされる場合(S10:Yes)、制御部10は、l+1層を生成する(ステップS11)。そして、変数lの値を一つ増やし(ステップS12)、ステップS3に戻る。なお、l+1層のRBMのパラメタ(ベクトルθ)の初期値は、第l層のRBMから承継される。一方、変数lが最大層数Lに達したか、または層の生成条件が満たされない場合(S10:No)、異種データ深層学習を終了する。
上記の異種データ深層学習方法では、異種データを構成するブロック(第1種ブロック、第2種類ブロック)を所定の配置ルールに従って組み合わせることにより初期データを生成した後、パラメタの初期化、CD法による学習アルゴリズムの実行、パラメタの更新、学習中振動の算出などを行う。その後、異種データ学習アルゴリズムの実行において、学習中振動が比較的高い(すなわち、学習がそれほど進んでいない)第2種類候補ブロックを、ステップS85において当該第2種類候補ブロックとともに抽出された(すなわち、関連性の高い)第1種類候補ブロックの近傍に位置変更する。これにより、異種データの深層学習に要する時間を短縮することができる。
また、本実施形態に係る異種データ深層学習方法では、DBNによる層数の最適化、および隠れニューロンを学習状態に応じて増減する手法も組み込まれている。
<学習後のニューラルネットワークを用いた推論>
上記の異種データ深層学習により構成されたニューラルネットワークによる推論について、図18〜図21を参照して説明する。図18は、学習後のニューラルネットワークを用いた推論に係る処理フローを示すフローチャートを示す。図19は、学習用のデータ(画像データとCSVデータ)の一例を示している。図20は、ルックアップテーブルの一例を示している。図21は、ルックアップテーブルを用いてCSVブロックの位置を変更した後の状態を示している。
本例では、画像データは、図19に示すように、6個の画像ブロックIB〜IBにより構成され、CSVデータは6個のCSVブロックCB〜CBにより構成されている。CSVブロックCBは、画像ブロックIBとIBからなるイメージラインの後ろに配置されている。同様に、CSVブロックCBは、画像ブロックIBとIBからなるイメージラインの後ろに配置され、CSVブロックCBは、画像ブロックIBとIBからなるイメージラインの後ろに配置されている。CSVブロックCB〜CBは、CSVブロックCBの後ろに配置されている。すなわち、学習済みニューラルネットワークに与えられる学習用データのブロックの並びは、{IB,IB,CB,IB,IB,CB,IB,IB,CB,CB,CB,CB}である。
推論部22は、この学習用データ(初期データ)のCSVブロックの位置を、ルックアップテーブルを参照して変更する。図20に示すルックアップテーブルの場合、9番目のCSVブロックCBを画像ブロックIBの後ろに移動する。すなわち、図21に示すように、位置変更後における学習用データのブロックの並びは、{IB,IB,CB,IB,CB,IB,CB,IB,IB,CB,CB,CB}となる。この位置変更後のデータが学習済みニューラルネットワークの入力層に与えられ、推論が行われる。
上記の記載に基づいて、当業者であれば、本発明の追加の効果や種々の変形を想到できるかもしれないが、本発明の態様は、上述した個々の実施形態に限定されるものではない。異なる実施形態にわたる構成要素を適宜組み合わせてもよい。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更及び部分的削除が可能である。
上述した実施形態で説明した異種データ深層学習装置の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、異種データ深層学習装置の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD−ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
また、異種データ深層学習装置の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
1 異種データ深層学習装置
10 制御部
11 初期データ生成部
12 パラメタ初期化部
13 RBM学習実行部
14 パラメタ更新部
15 WD算出部
16 ニューロン生成消滅部
17 安定特徴ニューロン抽出部
18 可視ニューロン値算出部
19 候補ブロック抽出部
20 候補ブロック位置変更部
21 ルックアップテーブル更新部
22 推論部
30 通信部
40 操作入力部
50 表示部
60 記憶部
CB CSVブロック
CB_Cand CSV候補ブロック
IB 画像ブロック
IB_Cand 画像候補ブロック
IL イメージライン
安定特徴ニューロン

Claims (12)

  1. 可視層と隠れ層から構成される制限付きボルツマンマシンを用いて、異種データの深層学習を行う異種データ深層学習装置であって、
    第1種類のデータを構成する複数の第1種類ブロックと、第2種類のデータを構成する複数の第2種類ブロックとを所定の配置ルールに従って配置することにより初期データを生成する初期データ生成部と、
    前記制限付きボルツマンマシンのパラメタを初期化するパラメタ初期化部と、
    前記可視層に前記初期データをセットし学習を行うことによって前記隠れ層を構成する隠れニューロンの出力値を求め、前記出力値に基づいてCD法による学習を行うことによって前記初期データに対する誤差を求めるRBM学習実行部と、
    前記誤差を用いて前記パラメタを更新するパラメタ更新部と、
    前記更新されたパラメタに基づいて、少なくとも、前記制限付きボルツマンマシンのバイアスbに関する学習中振動および前記隠れニューロンの状態変数hに関する学習中振動を算出するWD算出部と、
    前記隠れ層の隠れニューロンから、発火しており且つ前記状態変数hに関する学習中振動が所定の閾値以下である安定特徴ニューロンを抽出する安定特徴ニューロン抽出部と、
    前記抽出された安定特徴ニューロンの一つからCD法により、前記可視層を構成する可視ニューロンの出力値を求める可視ニューロン値算出部と、
    前記複数の第1種類ブロックから、発火した可視ニューロンが所定の比率以上を占める第1種類ブロックを第1種類候補ブロックとして抽出し、前記複数の第2種類ブロックから、発火した可視ニューロンが所定の比率以上を占める第2種類ブロックを第2種類候補ブロックとして抽出する候補ブロック抽出部と、
    まだ位置変更されていない前記第2種類候補ブロックの中でバイアスbに関する学習中振動が最も高い第2種類候補ブロックが所定の第1種類候補ブロックから第1の距離範囲内にない場合、当該第2種類候補ブロックの位置を前記第1の距離範囲よりも短い第2の距離範囲内の位置に変更する候補ブロック位置変更部と、
    を備えることを特徴とする異種データ深層学習装置。
  2. 前記第1種類のデータは、複数の画像ブロックからなる画像データであり、前記第2種類のデータは、複数のCSVブロックからなるCSVデータであることを特徴とする請求項1に記載の異種データ深層学習装置。
  3. 前記各CSVブロックは、複数の検査項目を含む検査の各項目にそれぞれ対応していることを特徴とする請求項2に記載の異種データ深層学習装置。
  4. 前記画像データは、複数の前記画像ブロックを含む複数のイメージラインから構成されており、
    前記初期データ生成部は、前記各イメージラインの前または後に前記CSVブロックを配置することにより前記初期データを生成することを特徴とする請求項2または3に記載の異種データ深層学習装置。
  5. 前記候補ブロック位置変更部は、前記バイアスbに関する学習中振動が最も高い第2種類候補ブロックの位置を、当該所定の第1種類候補ブロックの隣の位置に変更することを特徴とする請求項1〜4のいずれかに記載の異種データ深層学習装置。
  6. 前記候補ブロック位置変更部は、前記バイアスbに関する学習中振動が二番目に高い第2種類候補ブロックの位置を、前記第2の距離範囲内の位置に変更することを特徴とする請求項1〜5のいずれかに記載の異種データ深層学習装置。
  7. 前記候補ブロック位置変更部は、前記バイアスbに関する学習中振動が二番目に高い第2種類候補ブロックの位置を、前記バイアスbに関する学習中振動が最も高い第2種類候補ブロックの隣の位置に変更することを特徴とする請求項6に記載の異種データ深層学習装置。
  8. 前記WD算出部は、前記制限付きボルツマンマシンの重みWに関する学習中振動およびバイアスcに関する学習中振動を算出し、
    前記隠れニューロンが前記重みWに関する学習中振動および前記バイアスcに関する学習中振動に基づく生成条件を満たす場合、前記制限付きボルツマンマシンの隠れニューロンを生成し、前記隠れニューロンが所定の消滅条件を満たす場合、当該隠れニューロンを消滅させるニューロン生成消滅部をさらに備えることを特徴とする請求項1〜7のいずれかに記載の異種データ深層学習装置。
  9. 前記候補ブロック位置変更部による前記第2種類候補ブロックの位置変更結果に基づいて、前記第2種類ブロックの位置を変更するための位置変更情報を格納したルックアップテーブルを更新するルックアップテーブル更新部をさらに備えることを特徴とする請求項1〜8のいずれかに記載の異種データ深層学習装置。
  10. 前記ルックアップテーブルに基づいて学習用の入力データの配置を変更し、前記変更された入力データを学習済みのニューラルネットワークに与え、推論を行う推論部をさらに備えることを特徴とする請求項9に記載の異種データ深層学習装置。
  11. 可視層と隠れ層から構成される制限付きボルツマンマシンを用いて、異種データの深層学習を行う異種データ深層学習方法であって、
    第1種類のデータを構成する複数の第1種類ブロックと、第2種類のデータを構成する複数の第2種類ブロックとを所定の配置ルールに従って配置することにより初期データを生成するステップと、
    前記制限付きボルツマンマシンのパラメタを初期化するステップと、
    前記可視層に前記初期データをセットし学習を行うことによって前記隠れ層を構成する隠れニューロンの出力値を求め、前記出力値に基づいてCD法による学習を行うことによって前記初期データに対する誤差を求めるステップと、
    前記誤差を用いて前記パラメタを更新するステップと、
    前記更新されたパラメタに基づいて、前記制限付きボルツマンマシンのバイアスbに関する学習中振動および前記隠れニューロンの状態変数hに関する学習中振動を算出するステップと、
    前記隠れ層の隠れニューロンから、発火しており且つ前記状態変数hに関する学習中振動が所定の閾値以下である安定特徴ニューロンを抽出するステップと、
    前記抽出された安定特徴ニューロンの一つからCD法により、前記可視層を構成する可視ニューロンの出力値を求めるステップと、
    前記複数の第1種類ブロックから、発火した可視ニューロンが所定の比率以上を占める第1種類ブロックを第1種類候補ブロックとして抽出し、前記複数の第2種類ブロックから、発火した可視ニューロンが所定の比率以上を占める第2種類ブロックを第2種類候補ブロックとして抽出するステップと、
    まだ位置変更されていない前記第2種類候補ブロックの中でバイアスbに関する学習中振動が最も高い第2種類候補ブロックが所定の第1種類候補ブロックから第1の距離範囲内にない場合、当該第2種類候補ブロックの位置を前記第1の距離範囲よりも短い第2の距離範囲内の位置に変更するステップと、
    を備えることを特徴とする異種データ深層学習方法。
  12. 可視層と隠れ層から構成される制限付きボルツマンマシンを用いて、異種データの深層学習を行うための異種データ深層学習プログラムであって、
    第1種類のデータを構成する複数の第1種類ブロックと、第2種類のデータを構成する複数の第2種類ブロックとを所定の配置ルールに従って配置することにより初期データを生成するステップと、
    前記制限付きボルツマンマシンのパラメタを初期化するステップと、
    前記可視層に前記初期データをセットし学習を行うことによって前記隠れ層を構成する隠れニューロンの出力値を求め、前記出力値に基づいてCD法による学習を行うことによって前記初期データに対する誤差を求めるステップと、
    前記誤差を用いて前記パラメタを更新するステップと、
    前記更新されたパラメタに基づいて、少なくとも、前記制限付きボルツマンマシンのバイアスbに関する学習中振動および前記隠れニューロンの状態変数hに関する学習中振動を算出するステップと、
    前記隠れ層の隠れニューロンから、発火しており且つ前記状態変数hに関する学習中振動が所定の閾値以下である安定特徴ニューロンを抽出するステップと、
    前記抽出された安定特徴ニューロンの一つからCD法により、前記可視層を構成する可視ニューロンの出力値を求めるステップと、
    前記複数の第1種類ブロックから、発火した可視ニューロンが所定の比率以上を占める第1種類ブロックを第1種類候補ブロックとして抽出し、前記複数の第2種類ブロックから、発火した可視ニューロンが所定の比率以上を占める第2種類ブロックを第2種類候補ブロックとして抽出するステップと、
    まだ位置変更されていない前記第2種類候補ブロックの中でバイアスbに関する学習中振動が最も高い第2種類候補ブロックが所定の第1種類候補ブロックから第1の距離範囲内にない場合、当該第2種類候補ブロックの位置を前記第1の距離範囲よりも短い第2の距離範囲内の位置に変更するステップと、
    をコンピュータに実行させる異種データ深層学習プログラム。
JP2017200830A 2017-10-17 2017-10-17 異種データ深層学習装置、異種データ深層学習方法、および異種データ深層学習プログラム Active JP6980263B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017200830A JP6980263B2 (ja) 2017-10-17 2017-10-17 異種データ深層学習装置、異種データ深層学習方法、および異種データ深層学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017200830A JP6980263B2 (ja) 2017-10-17 2017-10-17 異種データ深層学習装置、異種データ深層学習方法、および異種データ深層学習プログラム

Publications (2)

Publication Number Publication Date
JP2019074946A JP2019074946A (ja) 2019-05-16
JP6980263B2 true JP6980263B2 (ja) 2021-12-15

Family

ID=66544197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017200830A Active JP6980263B2 (ja) 2017-10-17 2017-10-17 異種データ深層学習装置、異種データ深層学習方法、および異種データ深層学習プログラム

Country Status (1)

Country Link
JP (1) JP6980263B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7359380B2 (ja) * 2019-08-05 2023-10-11 広島県公立大学法人 検出パラメタ生成装置、検出パラメタ生成方法、検出パラメタ生成プログラム、オブジェクト検出装置、オブジェクト検出方法、およびオブジェクト検出プログラム

Also Published As

Publication number Publication date
JP2019074946A (ja) 2019-05-16

Similar Documents

Publication Publication Date Title
Ye Particle swarm optimization-based automatic parameter selection for deep neural networks and its applications in large-scale and high-dimensional data
US11023806B2 (en) Learning apparatus, identifying apparatus, learning and identifying system, and recording medium
WO2022212921A1 (en) Continually learning audio feedback engine
Davoudi et al. Evolving convolutional neural network parameters through the genetic algorithm for the breast cancer classification problem
CN109754078A (zh) 用于优化神经网络的方法
WO2021138083A1 (en) Neural architecture search based on synaptic connectivity graphs
Alkım et al. A fast and adaptive automated disease diagnosis method with an innovative neural network model
WO2021138091A1 (en) Reservoir computing neural networks based on synaptic connectivity graphs
WO2021138092A1 (en) Artificial neural network architectures based on synaptic connectivity graphs
WO2021138082A1 (en) Training artificial neural networks based on synaptic connectivity graphs
Bibaeva Using metaheuristics for hyper-parameter optimization of convolutional neural networks
WO2021138085A1 (en) Predicting neuron types based on synaptic connectivity graphs
WO2020226751A1 (en) Interpretable neural network
WO2021238279A1 (zh) 数据分类方法、分类器训练方法及系统
Gayathri et al. Exploring the potential of vgg-16 architecture for accurate brain tumor detection using deep learning
Singh et al. Object classification to analyze medical imaging data using deep learning
WO2022125181A1 (en) Recurrent neural network architectures based on synaptic connectivity graphs
US12026873B2 (en) Bone age assessment method for bone image
Bakasa et al. Stacked ensemble deep learning for pancreas cancer classification using extreme gradient boosting
JP2023044336A (ja) 学習装置、学習方法およびプログラム
Rahman et al. Deep learning-based left ventricular ejection fraction estimation from echocardiographic videos
JP6980263B2 (ja) 異種データ深層学習装置、異種データ深層学習方法、および異種データ深層学習プログラム
Ingle et al. Generate Adversarial Attack on Graph Neural Network using K-Means Clustering and Class Activation Mapping.
Rajendiran et al. Detection of alzheimer's disease in mri images using different transfer learning models and improving the classification accuracy
Ikram A benchmark for evaluating Deep Learning based Image Analytics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211110

R150 Certificate of patent or registration of utility model

Ref document number: 6980263

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150