JP6865889B2 - 学習装置、方法及びプログラム - Google Patents

学習装置、方法及びプログラム Download PDF

Info

Publication number
JP6865889B2
JP6865889B2 JP2020503389A JP2020503389A JP6865889B2 JP 6865889 B2 JP6865889 B2 JP 6865889B2 JP 2020503389 A JP2020503389 A JP 2020503389A JP 2020503389 A JP2020503389 A JP 2020503389A JP 6865889 B2 JP6865889 B2 JP 6865889B2
Authority
JP
Japan
Prior art keywords
layer
learning
skip
neural network
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020503389A
Other languages
English (en)
Other versions
JPWO2019167665A1 (ja
Inventor
喬俊 狩野
喬俊 狩野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JPWO2019167665A1 publication Critical patent/JPWO2019167665A1/ja
Application granted granted Critical
Publication of JP6865889B2 publication Critical patent/JP6865889B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Description

本発明は学習装置、方法及びプログラムに係り、特に深層学習を利用した学習装置、方法及びプログラムに関する。
近年、画像中の対象物の認識において、深層学習(Deep Learning)、特に、ニューラルネットワーク(Neural Network:NN)又は畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)を利用することが提案されている。深層学習では、層を深くするほど、認識精度が向上すると考えられている。
ニューラルネットワークにおける学習では、誤差逆伝播法が用いられる。誤差逆伝播法では、各層の出力と正解との誤差を出力層側から入力層側に向かって逆伝播させ、この誤差から勾配を計算することにより、各層における重みが更新される。深層学習において、単純に層を深くすると、層が深いほど、入力層側に誤差が伝わりづらくなる。このため、勾配が0又は0に近い小さな値となって、各層における重みが更新されなくなるという勾配消失問題が発生し、ニューラルネットワークの性能が悪化する。
そこで、ニューラルネットワークにおいて、第1の層からその次の第2の層への出力を分岐させて第2の層をショートカットして、第1の層からの出力を第2の層よりも下流にある第3の層に結合するスキップコネクション(skip connection)を持つモデルが提案されている(非特許文献1及び2)。
非特許文献1は、Residual Network(ResNet)に関する文献である。ResNetでは、スキップコネクションを用いて前層の出力を下流側に加算することにより、残差(Residual)を学習するようになっている。
非特許文献2は、Dense Convolutional Network(DenseNet)に関する文献である。DenseNetでは、スキップコネクションを用いて前層の出力を下流側に結合させるようになっている。
非特許文献1及び2によれば、スキップコネクションを用いて前層の出力を下流側に結合させることにより、層が深くなることによる勾配消失問題を改善することができると考えられる。
ところで、ニューラルネットワークにおいて、層が深くなりパラメータの数が増えて、ニューラルネットワークの構造が複雑化すると、学習済みのデータに対しては正解が得られるものの、学習済みのデータ以外の未知のデータに対して適合できない過学習という状態になる場合がある。非特許文献1及び2に記載の発明では、過学習による汎化性能の低下の問題に対応することはできない。
この過学習に関する問題に対して、特許文献1及び非特許文献3には、ニューラルネットワークにおける汎化性能を向上させる技術が開示されている。
特許文献1には、DROPOUTという手法が開示されている。特許文献1では、学習を行うときに、ランダム(確率的)に特徴検出器(feature detector)を選択して無効にすることにより、汎化性能を上げるアンサンブル学習を行うようになっている。なお、特許文献1における特徴検出器は、ニューラルネットワークにおけるノード、畳み込みニューラルネットワークにおけるフィルタに相当する。
非特許文献3では、学習を行うときに、ResNetのResidual Block(ResBlock)における各層から次の層に至る結合をランダムに除去(remove)して、スキップコネクションを維持するようになっている。
米国特許第9406017号明細書
He, K. et al.,"Deep Residual Learning for Image Recognition", 2016, Proceedings of IEEE conference on Computer Vision and Pattern Recognition (CVPR) Huang, G. et al.,"Densely connected convolutional networks", [online], 2016, arXiv,[平成30年2月26日検索],インターネット<URL:https://arxiv.org/abs/1608.06993> Huang, G. et al.,"Deep Networks with Stochastic Depth", 2016, European Conference on Computer Vision (ECCV), Springer International Publishing
特許文献1及び非特許文献3では、スキップコネクションではなく、各層からその次の層に至る結合であるメインストリーム(main stream)が無効化又は除去されるようになっている。アンサンブル学習を行うときに、メインストリームの結合が無効化されると、無効化されたメインストリームに結合する層における学習が行われなくなるため、収束性能が低下するという問題がある。
本発明はこのような事情に鑑みてなされたもので、学習における収束性能の低下を抑えながら、過学習を防止して汎化性能を向上させることが可能な学習装置、方法及びプログラムを提供することを目的とする。
上記課題を解決するために、本発明の第1の態様に係る学習装置は、複数の層を備えるニューラルネットワークであって、第1の層から第1の層の次の層である第2の層への出力を分岐させ、第2の層をスキップして第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う学習部と、学習を行うときに、スキップコネクションのうちの少なくとも1つを無効にする結合無効部と、結合無効部により無効にするスキップコネクションを変えて、学習部に学習を行わせる学習制御部とを備える。
本発明の第2の態様に係る学習装置は、第1の態様において、ニューラルネットワークにおいて、スキップコネクションは中間層に設けられるようにしたものである。
本発明の第3の態様に係る学習装置は、第1又は第2の態様において、結合無効部は、無効にするスキップコネクションをランダムに選択するようにしたものである。
本発明の第4の態様に係る学習装置は、第1から第3の態様のいずれかにおいて、結合無効部は、あらかじめ設定された確率に基づいて、無効にするスキップコネクションを選択するようにしたものである。
本発明の第5の態様に係る学習装置は、第1から第4の態様のいずれかにおいて、結合無効部は、スキップコネクションを介して順伝播する出力を0にすることにより、スキップコネクションを無効にするようにしたものである。
本発明の第6の態様に係る学習装置は、第1から第5の態様のいずれかにおいて、結合無効部は、スキップコネクションを介した逆伝播を遮断することにより、スキップコネクションを無効にするようにしたものである。
本発明の第7の態様に係る学習方法は、複数の層を備えるニューラルネットワークであって、第1の層から第1の層の次の層である第2の層への出力を分岐させ、第2の層をスキップして第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う学習部により学習を行うときに、スキップコネクションのうちの少なくとも1つを無効にする結合無効ステップと、結合無効ステップにおいて無効にするスキップコネクションを変えて、学習部に学習を行わせる学習制御ステップとを備える。
本発明の第8の態様に係る学習プログラムは、複数の層を備えるニューラルネットワークであって、第1の層から第1の層の次の層である第2の層への出力を分岐させ、第2の層をスキップして第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う機能と、学習を行うときに、スキップコネクションのうちの少なくとも1つを無効にする機能と、無効にするスキップコネクションを変えて、学習を行う機能とをコンピュータに実現させる。また、本発明の他の対応に係る学習装置は、プロセッサが、複数の層を備えるニューラルネットワークであって、第1の層から第1の層の次の層である第2の層への出力を分岐させ、第2の層をスキップして第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行い、学習を行うときに、スキップコネクションのうちの少なくとも1つを無効にし、無効にするスキップコネクションを変えて、学習を行う学習装置である。
本発明によれば、無効にするスキップコネクションを変えて学習を行うことにより、各層の結合の仕方が異なるニューラルネットワークを用いた学習を繰り返し行うことができる。これにより、アンサンブル学習を実現することができるので、ニューラルネットワークの汎化性能を向上させることができる。さらに、本発明によれば、無効化対象をスキップコネクションのみにすることにより、メインストリームの結合は維持されるので、学習の収束性能の低下を抑えることが可能になる。
図1は、本発明の一実施形態に係る学習装置を示すブロック図である。 図2は、スキップコネクションについて説明するための図である。 図3は、本発明の一実施形態に係る判別器におけるニューラルネットワークの構成例を示すブロック図である。 図4は、本発明の一実施形態に係る学習方法を示すフローチャートである。 図5は、本発明の一実施形態に係る学習装置を備えた画像認識システムを示すブロック図である。 図6は、実施例1において用いられる判別器におけるニューラルネットワークの構成例を示すブロック図である。 図7は、実施例2において用いられる判別器におけるニューラルネットワークの構成例を示すブロック図である。
以下、添付図面に従って本発明に係る学習装置、方法及びプログラムの実施の形態について説明する。
[学習装置]
図1は、本発明の一実施形態に係る学習装置を示すブロック図である。
図1に示すように、本実施形態に係る学習装置10は、制御部12、操作部14、メモリ16、記録部18、表示部20、データ取得部22、学習部24及び通信インターフェース(通信I/F)26を備える。
制御部12は、学習装置10の各部の動作を制御するCPU(Central Processing Unit)を含んでいる。制御部12は、CPUに加えて、又はCPUの代わりに、GPU(Graphics Processing Unit)を備えていてもよい。制御部12は、バスを介して、学習装置10の各部との間で制御信号及びデータの送受信が可能となっている。制御部12は、操作部14を介してオペレータからの操作入力を受け付け、バスを介してこの操作入力に応じた制御信号を学習装置10の各部に送信して各部の動作を制御する。
操作部14は、オペレータからの操作入力を受け付ける入力装置であり、文字入力等のためのキーボード、表示部20に表示されるポインタ及びアイコン等を操作するためのポインティングデバイス(例えば、マウス、トラックボール等)を含んでいる。なお、操作部14としては、キーボード及びポインティングデバイスに代えて、又は、キーボード及びポインティングデバイスに加えて、表示部20の表面にタッチパネルを設けてもよい。
メモリ16は、制御部12等により行われる各種演算のための作業領域として使用されるRAM(Random Access Memory)、及び表示部20に出力される画像データを一時記憶するため領域として使用されるVRAM(Video Random Access Memory)を含んでいる。
記録部18は、制御部12が使用する制御プログラム、及び学習装置10から受信したデータ等を格納するストレージデバイスである。記録部18としては、例えば、HDD(Hard Disk Drive)等の磁気ディスクを含む装置、eMMC(embedded Multi Media Card)、SSD(Solid State Drive)等のフラッシュメモリを含む装置等を用いることができる。
表示部20は、画像を表示するための装置である。表示部20としては、例えば、液晶モニタを用いることができる。
通信I/F26は、ネットワークを介して、ほかの装置との間で通信を行うための手段であり、通信の方法に応じて送受信するデータの変換処理を行う。学習装置10とほかの装置との間のデータの送受信方法としては、有線通信又は無線通信(例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット接続等)を用いることができる。
データ取得部22は、通信I/F26を介して、学習用データセットTD1を取得する。
学習部24は、データ取得部22により取得した学習用データセットTD1を用いて判別器30に学習を行わせる。ここで、判別器30が画像中の被写体を認識するための画像認識エンジンの場合には、学習用データセットTD1は、例えば、画像を入力とし、画像に写っている被写体の名称、種類又は性質を出力(正解データ)とする教師あり学習用のデータセットを用いることができる。
判別器30は、例えば、畳み込みニューラルネットワークを用いて構成されており、この畳み込みニューラルネットワークには、スキップコネクションが含まれている。図2は、スキップコネクションについて説明するための図である。
図2に示すニューラルネットワークでは、上流側から下流側に向かって、層L1からL5が順番に示されている。各層L1からL5に対する入力をそれぞれx0からx4とする。
スキップコネクションSCとは、第1の層から第1の層の次の層である第2の層への出力を分岐させ、第2の層をスキップして第2の層よりも下流にある第3の層の入力に結合する結合、すなわち、1つ以上先の層への結合をいう。
以下の説明では、各層間の結合のうち、スキップコネクション以外の結合MSをメインストリームと呼ぶこととする。
図3は、本発明の一実施形態に係る判別器におけるニューラルネットワークの構成例を示すブロック図である。
図3は、本発明をDense Convolutional Network(DenseNet)に適用した例を示している。DenseNetは、スキップコネクションを有し、結合箇所でデータの結合(連結)を行う。
図3では、判別器30は、画像を入力とし、その画像に写っている被写体が何であるかを認識し、予測として出力する画像認識エンジンである。
図3に示す例では、白丸1つ、黒丸4つのセットをデンスブロック(Dense Block)として定義する。図3には、Dense Blockが3つ示されている。
図3における白丸はDense Blockの入力層を示しており、黒丸はバッチ正規化処理(Batch Normalization)→活性化関数(rectified linear unit:ReLU)→畳み込み(Convolution)の一連の処理を行う層を示している。以下の説明では、黒丸をDense Unitと呼ぶこととする。
ここで、バッチ正規化処理とは、勾配消失を防止するための処理であり、バッチ学習におけるバッチの各要素の値を、バッチ内における平均及び分散を用いて正規化する処理である。バッチ正規化処理については、例えば、Ioffe, S. et al.,“Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, 2015, International Conference on Machine Learning(ICML)に記載されている。
また、ReLUは、入力信号の総和がどのように活性化するかを決定する役割を持ち、次の層に渡す値を整える。ReLUについては、Glorot, X. et al.,“Deep Sparse Rectifier Neural Networks”, 2011, Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics(AISTATS)に記載されている。
図3における各矢印は、各層間の結合(コネクション)を表す。曲線矢印は、スキップコネクションを示している。図3に示すように、本実施形態では、スキップコネクションは、入力層及び出力層以外の層である中間層に設けられている。なお、本実施形態では、各層(白丸及び黒丸)から伸びるスキップコネクションが黒丸間のメインストリームの結合のすべてに結合するように構成されているが、本実施形態はこれに限定されるものではない。例えば、スキップコネクションが結合しないメインストリームがあってもよい。
Dense Unitに向かう矢印が複数の場合(スキップコネクションの入力がある場合)、メインストリームからの入力と、スキップコネクションから入力されるデータが結合される。本実施形態では、データの結合の方法としては、例えば、メインストリームからの入力とスキップコネクションからの入力を演算(例えば、加算)により結合するようにしてもよい。また、深層学習フレームワークテンソルフロー(TensorFlow(登録商標))において、Channel, Height, Widthの順に並んだ数値データの末尾に、これと同じ順に並んだデータを連結させる方法を採用してもよい。なお、データの連結の順序及び方法については、上記に限定されるものではない。データの連結の順序及び方法については、学習時と推論時に固定されていれば、どのような方法を採用してもよい。
[学習方法]
以下に、ニューラルネットワークの学習を行うときの動作について、図4を参照して説明する。以下の動作は、バッチごとに行われる。図4は、本発明の一実施形態に係る学習方法を示すフローチャートである。
まず、学習部24の結合無効部32は、無効化対象のスキップコネクションを選択し(ステップS10)、選択したスキップコネクションを無効化する(ステップS12)。ステップS10及びS12を結合無効ステップという。
次に、学習制御部34は、スキップコネクションを無効化した状態で、判別器30におけるニューラルネットワークの学習を行う(ステップS14)。そして、学習制御部34は、無効化対象のスキップコネクションを変えて、判別器30に繰り返し学習を行わせる(ステップS16のNo:学習制御ステップ)。ステップS14及びS16を学習制御ステップという。
ステップS10では、ニューラルネットワークに含まれるDense Unitごとに(1)及び(2)の処理を行う。
(1)まず、スキップコネクションをそれぞれあらかじめ定められた確率(例えば、20%の確率)で選択する。
(2)次に、(1)で選択されたスキップコネクションがある場合に、選択されたスキップコネクションの中から無効化対象のスキップコネクションを1つ選択する。(2)では、スキップした層の数が多いスキップコネクション、又はスキップした層の数が少ないスキップコネクションを優先して選択するようにしてもよい。すなわち、スキップした層の数が多いスキップコネクション、又はスキップした層の数が少ないスキップコネクションほど、無効化対象として選択される確率が高くなるようにしてもよい。例えば、深い層であるほど、勾配消失が起こりやすいことを考慮して、深い層であるほど、スキップした層の数が多いスキップコネクションが無効化対象として選択される確率を低くして、スキップした層の数が多いスキップコネクションを学習時に残すようにしてもよい。また、無効化対象のスキップコネクションをランダムに、同じ確率で選択してもよい。
これらの処理により、各Dense Unitにおいて、無効化対象のスキップコネクションが0又は1つ選択される。
本実施形態では、各学習のときに、少なくとも1つのスキップコネクションを無効化する。なお、繰り返し学習のうちの1回の学習については、スキップコネクションの無効化を行わずに、学習を行うようにしてもよい。
ステップS12におけるスキップコネクションの無効化処理は、(A)及び(B)により行われる。
(A)損失を計算するための順伝播を行うときには、無効化対象のスキップコネクションを介して伝播してきたデータの値を全て0として結合させる。
(B)誤差逆伝播時には、無効化対象のスキップコネクションに対しては誤差を伝播しないか、あるいは勾配0を伝播する。これにより、無効化対象として選択されたスキップコネクションを介したデータの伝播が遮断されて、スキップコネクションが無効化される。
ステップS16では、スキップコネクションの無効化のパターンを変えて、判別器30の学習が繰り返し行われる。そして、所定の無効化のパターンのすべてについて、学習が終了すると(ステップS16のYes)、判別器30のニューラルネットワークのすべてが有効化された学習済みのニューラルネットワークを含んだ判別器30を得ることができる。なお、本実施形態に係る学習方法では、すべてのスキップコネクションが必ず1回は無効化されるようにしてもよいし、無効化されないスキップコネクションが生じてもよい。
本実施形態によれば、無効にするスキップコネクションを変えて学習を行うことにより、各層の結合の仕方が異なるニューラルネットワークを用いた学習を繰り返し行うことができる。これにより、アンサンブル学習を実現することができるので、ニューラルネットワークの汎化性能を向上させることができる。さらに、本実施形態では、無効化対象がスキップコネクションのみにすることにより、メインストリームの結合は維持される。これにより、学習の収束性能の低下を抑えることが可能になる。
[実施例1:画像分類(Classification)への適用例]
次に、本実施形態の判別器30を画像認識エンジンに適用した例について説明する。
図5は、本発明の一実施形態に係る学習装置を備えた画像認識システムを示すブロック図である。図6は、実施例1において用いられる判別器におけるニューラルネットワークの構成例を示すブロック図である。
図5に示すように、本実施形態に係る画像認識システム1は、画像認識装置100及び撮像装置150を備えている。
撮像装置150は、被写体を撮像するための装置であり、静止画又は動画を撮像する装置である。撮像装置150によって撮像された画像データは、画像認識装置100に入力される。
画像認識装置100は、学習装置10において学習が行われた画像認識エンジンである判別器30を用いて、画像に写っている被写体の認識を行う装置である。そして、画像認識装置100は、認識した被写体を基準として画像の分類を行う。
画像認識装置100の判別器30は、学習装置10によって学習が行われた最新の判別器30と置き換えられることにより、更新することが可能となっている。
実施例1では、画像分類に関するデータセット(例えば、ImageNet等)を用いて、画像内に写っている被写体を基準として画像を分類する。実施例1では、入力を画像データ、出力(正解ラベル)を1−of−K表現で表現された被写体とする学習用データセットを用いて、判別器30の学習を行う。ここで、1−of−K表現とは、ある要素だけが1で、それ以外が0となるベクトル形式の表現であり、one-hot表現と呼ばれる場合もある。
図6に示すように、実施例1に係るニューラルネットワークは、4つのDense Blockが3つのトランジションレイヤー(Transition Layer)でつながれた構造を有している。そして、Dense Block 4からの出力が分類層(Classification)に入力された後、分類層から被写体の名称又は種類を示す予測が出力されるようになっている。
実施例1では、図6に示すニューラルネットワークの各Dense Blockについて、上記の実施形態と同様の学習方法を実行することにより、収束性能の低下を抑えながら、汎化性能の高い、一例で1000クラスの画像分類を行うための画像認識エンジンを作成することが可能になる。
[実施例2:病変セグメンテーションへの適用例]
実施例2は、内視鏡により撮像した動画を対象とした病変セグメンテーションに、本実施形態に係る学習方法を適用するものである。実施例2では、撮像装置150は、内視鏡に設けられる。
図7は、実施例2において用いられる判別器におけるニューラルネットワークの構成例を示すブロック図である。
図7に示すように、実施例2に係るニューラルネットワークは、図6と同様に、4つのDense Blockを3つのTransition Layerでつないだ構造を有している。そして、Dense Block 4からの出力が畳み込み層及び活性化関数(Softmax関数)に順次伝播して、予測が出力されるようになっている。
実施例2では、まず、内視鏡により撮像した動画データに含まれるフレームを静止画データとして取り出し、ニューラルネットワークの入力とする。実施例1では、入力を内視鏡により撮像した動画のフレームである静止画データとし、出力のうちの一方は、入力の静止画データに病変が存在する確率を表すスコアマップ、出力のもう一方は、入力の静止画データに病変が存在しない確率を表すスコアマップとする学習用のデータセットを用いて判別器30の学習を行う。ここで、入力の静止画データに病変が存在する確率としては、例えば、0から1の範囲の数値であって、1に近いほど、病変の存在確率が高い値を用いることができる。入力の静止画データに病変が存在しない確率としては、例えば、0から1の範囲の数値であって、1に近いほど、病変の存在確率が低い値を用いることができる。
実施例2では、図7に示すニューラルネットワークの各Dense Blockについて、上記の実施形態と同様の学習方法を実行することにより、収束性能の低下を抑えながら、汎化性能の高い、病変のセグメンテーションのための画像認識エンジンを作成することが可能になる。
[実施例3]
実施例3は、3次元画像(例えば、医療画像)を対象とした画像認識に、本実施形態に係る学習方法を適用するものである。実施例3では、撮像装置150は、例えば、3次元画像データを撮像するための装置に設けられる。ここで、3次元画像には、CT(Computed Tomography)又はMRI(Magnetic Resonance Imaging)等の装置により撮像された被写体の断面画像データであって、その断面に垂直な方向の画像データ群が含まれる。
実施例3においても、図3、図6又は図7に示したようなスキップコネクションを有するニューラルネットワークを使用することが可能である。
例えば、3次元画像データに含まれる被写体(例えば、病変)を基準として画像データの分類を行う場合には、入力を3次元のCT画像とし、出力を病変の有無又は病変の種類とする学習用のデータセットを用いて判別器30の学習を行う。
また、セグメンテーションを行う場合には、入力を3次元のCT画像とし、出力をCT画像に含まれる被写体が特定の臓器(例えば、肺領域)である確率を表すスコアマップとする学習用のデータセットを用いて判別器30の学習を行う。
これにより、3次元画像データに対しても、上記の実施形態と同様の学習方法を実行することにより、収束性能の低下を抑えながら、汎化性能の高い画像認識エンジンを作成することが可能になる。
なお、本実施形態では、2次元及び3次元の画像データにおける画像認識について説明したが、本発明はこれらに限定されるものではなく、スキップコネクションを有するN次元(Nは自然数)のデータの畳み込みを行うための畳み込みニューラルネットワークに適用することが可能である。
また、本実施形態では、判別器30を画像認識に適用する例について説明したが、本発明はこれに限定されない。例えば、音声認識エンジンに本発明を適用することも可能である。
[プログラムの発明について]
本発明は、コンピュータに上記の処理を実現させるプログラム(学習プログラム)、又は、このようなプログラムを格納した非一時的な記録媒体又はプログラムプロダクトとして実現することも可能である。このようなプログラムをコンピュータに適用することにより、コンピュータの演算手段、記録手段等に、本実施形態に係る学習方法の各ステップに対応する機能を実現させることが可能になる。
各実施形態において、各種の処理を実行する処理部(processing unit)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)として実現することが可能である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(PLD:Programmable Logic Device)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種または異種の2つ以上のプロセッサ(例えば、複数のFPGA、CPUとGPUの組み合わせ、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(SoC:System On Chip)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
10 学習装置
12 制御部
14 操作部
16 メモリ
18 記録部
20 表示部
22 データ取得部
24 学習部
26 通信I/F
30 判別器
32 結合無効部
34 学習制御部
1 画像認識システム
100 画像認識装置
150 撮像装置
S10〜S16 学習方法の各ステップ

Claims (8)

  1. 複数の層を備えるニューラルネットワークであって、第1の層から前記第1の層の次の層である第2の層への出力を分岐させ、前記第2の層をスキップして前記第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う学習部と、
    前記学習を行うときに、前記スキップコネクションのうちの少なくとも1つを無効にする結合無効部と、
    前記結合無効部により無効にするスキップコネクションを変えて、前記学習部に学習を行わせる学習制御部と、
    を備える学習装置。
  2. 前記ニューラルネットワークにおいて、前記スキップコネクションは中間層に設けられる、請求項1記載の学習装置。
  3. 前記結合無効部は、無効にするスキップコネクションをランダムに選択する、請求項1又は2記載の学習装置。
  4. 前記結合無効部は、あらかじめ設定された確率に基づいて、無効にするスキップコネクションを選択する、請求項1から3のいずれか1項記載の学習装置。
  5. 前記結合無効部は、前記スキップコネクションを介して順伝播する出力を0にすることにより、前記スキップコネクションを無効にする、請求項1から4のいずれか1項記載の学習装置。
  6. 前記結合無効部は、前記スキップコネクションを介した逆伝播を遮断することにより、前記スキップコネクションを無効にする、請求項1から5のいずれか1項記載の学習装置。
  7. 複数の層を備えるニューラルネットワークであって、第1の層から前記第1の層の次の層である第2の層への出力を分岐させ、前記第2の層をスキップして前記第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う学習部により学習を行うときに、前記スキップコネクションのうちの少なくとも1つを無効にする結合無効ステップと、
    前記結合無効ステップにおいて無効にするスキップコネクションを変えて、前記学習部に学習を行わせる学習制御ステップと、
    を備える学習方法。
  8. 複数の層を備えるニューラルネットワークであって、第1の層から前記第1の層の次の層である第2の層への出力を分岐させ、前記第2の層をスキップして前記第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う機能と、
    前記学習を行うときに、前記スキップコネクションのうちの少なくとも1つを無効にする機能と、
    無効にするスキップコネクションを変えて、前記学習を行う機能と、
    をコンピュータに実現させる学習プログラム。
JP2020503389A 2018-02-28 2019-02-15 学習装置、方法及びプログラム Active JP6865889B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018035356 2018-02-28
JP2018035356 2018-02-28
PCT/JP2019/005533 WO2019167665A1 (ja) 2018-02-28 2019-02-15 学習装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2019167665A1 JPWO2019167665A1 (ja) 2021-02-04
JP6865889B2 true JP6865889B2 (ja) 2021-04-28

Family

ID=67806150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020503389A Active JP6865889B2 (ja) 2018-02-28 2019-02-15 学習装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20200380365A1 (ja)
JP (1) JP6865889B2 (ja)
WO (1) WO2019167665A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533158B (zh) * 2018-05-25 2023-10-13 宏达国际电子股份有限公司 模型建构方法、系统及非易失性电脑可读取记录介质
WO2019232099A1 (en) * 2018-05-29 2019-12-05 Google Llc Neural architecture search for dense image prediction tasks
US10496899B1 (en) * 2019-01-25 2019-12-03 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
US11537436B2 (en) * 2019-10-02 2022-12-27 Qualcomm Incorporated Method of configuring a memory block allocation of a machine learning network
JP2022075295A (ja) 2020-11-06 2022-05-18 富士通株式会社 機械学習プログラム、機械学習方法および情報処理装置
JP2022174422A (ja) 2021-05-11 2022-11-24 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
US20220366237A1 (en) * 2021-05-17 2022-11-17 Humana Inc. Neural network based prediction of events associated with users
KR102646762B1 (ko) * 2023-03-13 2024-03-12 (주)빛과 수학 3차원 유저 인터페이스를 이용한 기계학습 모델 설계 방법 및 이를 이용하는 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10650286B2 (en) * 2017-09-07 2020-05-12 International Business Machines Corporation Classifying medical images using deep convolution neural network (CNN) architecture

Also Published As

Publication number Publication date
WO2019167665A1 (ja) 2019-09-06
JPWO2019167665A1 (ja) 2021-02-04
US20200380365A1 (en) 2020-12-03

Similar Documents

Publication Publication Date Title
JP6865889B2 (ja) 学習装置、方法及びプログラム
Man et al. Deep Q learning driven CT pancreas segmentation with geometry-aware U-Net
Rahim et al. A deep convolutional neural network for the detection of polyps in colonoscopy images
US20200364570A1 (en) Machine learning method and apparatus, program, learned model, and discrimination apparatus
US11669729B2 (en) Model training method and apparatus
Abd Elaziz et al. Medical Image Classification Utilizing Ensemble Learning and Levy Flight‐Based Honey Badger Algorithm on 6G‐Enabled Internet of Things
US11816185B1 (en) Multi-view image analysis using neural networks
Tang et al. An end-to-end framework for integrated pulmonary nodule detection and false positive reduction
CN110852987B (zh) 基于深形态学的血管斑块检测方法、设备及存储介质
Hassan et al. A quantum convolutional network and ResNet (50)-based classification architecture for the MNIST medical dataset
Cheng et al. DDU-Net: A dual dense U-structure network for medical image segmentation
JP2022536732A (ja) 敵対的生成ネットワークを使用してoct画像から雑音及び/又はアーチファクトを除去するためのシステム及び方法
Sarica et al. A dense residual U-net for multiple sclerosis lesions segmentation from multi-sequence 3D MR images
Sangeetha et al. Diagnosis of pneumonia using image recognition techniques
JP7073171B2 (ja) 学習装置、学習方法及びプログラム
US10643092B2 (en) Segmenting irregular shapes in images using deep region growing with an image pyramid
CN112750110A (zh) 基于神经网络对肺部病灶区进行评估的评估系统和相关产品
JP2021527859A (ja) 深層領域拡張を使用した画像内の不規則形状のセグメント化
US10776923B2 (en) Segmenting irregular shapes in images using deep region growing
Konz et al. Reverse engineering breast mris: Predicting acquisition parameters directly from images
WO2022210473A1 (ja) 予後予測装置、予後予測方法及びプログラム
Lakshmi et al. A novel LT-LBP based prediction model for COVID-CT images with Machine Learning
Fan et al. EGFNet: Efficient guided feature fusion network for skin cancer lesion segmentation
de Vente et al. Automated COVID-19 grading with convolutional neural networks in computed tomography scans: A systematic comparison
JP7519821B2 (ja) 医用システム及び医用情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210406

R150 Certificate of patent or registration of utility model

Ref document number: 6865889

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250