JP7274071B2 - 学習装置 - Google Patents

学習装置 Download PDF

Info

Publication number
JP7274071B2
JP7274071B2 JP2023509940A JP2023509940A JP7274071B2 JP 7274071 B2 JP7274071 B2 JP 7274071B2 JP 2023509940 A JP2023509940 A JP 2023509940A JP 2023509940 A JP2023509940 A JP 2023509940A JP 7274071 B2 JP7274071 B2 JP 7274071B2
Authority
JP
Japan
Prior art keywords
learning
domain
cnn
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023509940A
Other languages
English (en)
Other versions
JPWO2022208632A1 (ja
JPWO2022208632A5 (ja
Inventor
友哉 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2022208632A1 publication Critical patent/JPWO2022208632A1/ja
Publication of JPWO2022208632A5 publication Critical patent/JPWO2022208632A5/ja
Application granted granted Critical
Publication of JP7274071B2 publication Critical patent/JP7274071B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Description

本開示技術は、推論装置、推論方法、学習装置、学習方法、及びプログラムに関する。
あらかじめ学習した情報を使用して、カメラによって撮像された撮像画像に対して推論を行い、各種の識別を行う識別装置に関する技術が知られている。この推論を行う識別装置は、ニューラルネットワークを利用したものが開示されており、ディープラーニングなどの機械学習によって強化されている。
また、識別装置に関する従来技術には、CNN(Convolutional Neural Network)を用いて撮影画像が撮影されたときの天候など外的要因に対してロバストな推論を行う技術が開示されている(例えば特許文献1)。
特開2019-175107号公報
特許文献1に例示された先行技術は、天候などの外的要因による画像の変化レベルに対しては、たしかにロバストである。しかし、ドメインが異なる画像を扱おうとした場合、画像の変化レベルが大きすぎるため、先行技術では正しく学習と推論とが行えない。ここでドメインとは画像の種類を意味し、例えば、実写のRGB画像、赤外線カメラによるThermal Infrared画像(以下「TIR画像」という)、イラスト画像、CGシミュレータが生成する画像、などがあげられる。ドメインが異なる画像を扱う必要が生じる場面は、赤外線画像を用いた監視カメラによる人物認識において、学習用の実写のRGB画像が潤沢にあるが、本来学習したいTIR画像が潤沢にない、といったものである。
本開示技術は上記課題を解決し、ドメインが異なる画像に対しても正しく学習と推論とが行える推論装置、推論方法、学習装置、学習方法、及びプログラムを提供することを目的とする。
本開示技術に係る学習装置は、機械学習可能な結合数理モデルを備え、教師用のオリジナルドメインのデータセットからターゲットドメインのデータセットを学習する学習装置であって、結合数理モデルの前段部は、入力された画像データから複数の低レベル特徴マップを生成し、画像データのうちオリジナルドメインとターゲットドメインについて同じ種類の学習対象に属するデータセットのレベル特徴マップを比較し、ドメイン共有特徴量を算出し、ドメイン共有特徴量のうち、(1)色、(2)輝度、(3)低周波成分、及び(4)高周波成分のそれぞれの空間についてドメイン緩和学習情報を算出し、ドメイン緩和学習情報を用いて入力されたターゲットドメインの特徴マップを重み付けし新たな重付け特徴マップを生成する高次元特徴量付与部と、算出されたドメイン緩和学習情報のうち、推論装置のメイン学習のEpochに応じて強調するドメイン共有特徴量の切換えを行う学習情報補正部と、を備える、というものである
本開示技術に係る学習装置は、獲得特徴量の順序という学習の本質をうまく利用している。どのような本質かというと、CNNに代表される数理モデルは、学習において「色」に代表される単純な特徴量ほど早く学習を完了させている、というものである。その結果、本開示技術に係る学習装置は、学習においてドメインが異なる画像を扱うことができる。また、本開示技術に係る学習装置が学習した情報を用いれば、推論においてドメインが異なる画像を扱うことができる。
図1は、実施の形態1に係る学習装置と推論装置とを備えたシステムの構成例を示すシステムブロック図である。 図2は、実施の形態1に係るシステムの処理フローを示すフローチャートである。図2Aは、オリジナルドメインの画像を学習し推論するフローを示している。図2Bは、ターゲットドメイン画像を処理する準備のためのフィルタ学習のフローを示している。図2Cは、ターゲットドメインの画像を学習し推論するときのフローを示している。 図3は、実施の形態2に係る学習装置と推論装置とを備えたシステムの構成例を示すシステムブロック図である。 図4は、本開示技術の考え方を示した模式図である。 図5は、本開示技術の考え方を補足した説明図その1である。 図6は、本開示技術の考え方を補足した説明図その2である。
本開示技術は、以下の実施の形態ごとに図面に沿った説明により明らかにされる。本開示技術は、あらかじめ学習した情報を使用してカメラによって撮像された撮像画像に対して推論を行う各種の識別装置に用いられる。本開示技術は、例えば赤外線画像を用いた監視カメラ、人物検知カメラを備えた未来型ルームエアコン、等にも使用できる。より具体的に本開示技術は、教師用のオリジナルドメインのデータセットからターゲットドメインのデータセットを学習し、推論することに関する。
本開示技術は、ドメインが異なる画像を扱う必要が生じる場面で効果を発揮する。例えば赤外線画像を用いた監視カメラによる人物認識において、学習用のデータセットである実写のRGB画像が潤沢にあるが、本来学習したいTIR画像が潤沢にない、といった場面である。ここで、実写のRGB画像のように学習用に潤沢に準備できる画像の種類は「オリジナルドメイン」と呼ばれ、TIR画像のように本来学習したい画像の種類は「ターゲットドメイン」と呼ばれる。
本開示技術はCNNを基礎とした技術であるため、CNNの簡単な概要とCNNで用いられる用語の簡単な説明についてここで触れておく。CNNは畳込みニューラルネットワークとも呼ばれ、大局的な位置不変性と回転不変性といった性質を備える。CNNは、畳込み層(Convolution Layer)と、プーリング層(Pooling Layer)と、全結合層(Fully Connected Layer)と、を組み合わせた多層パーセプトロンの一種である。
本開示技術が扱う画像及びCNNの各層は、それぞれ特徴マップの空間解像度とチャネルとで表現することができる。画像の次元数は、横方向の画素数と縦方向の画素数とチャネル数とで決まる。ここでチャネル数とはRGB画像であれば3、TIR画像であれば1、となる横と縦とは別次元の値である。つまり画像の総次元数は、横方向画素数×縦方向画素数×チャネルで表すことができる。
CNNにおける畳込み層は、二次元畳込みと呼ばれる操作を行う。一般的な画像処理における畳込み操作を行うものには、ぼかし操作を行うガウシアンフィルタなどが有名である。畳込み操作を行うフィルタは、畳込みフィルタと呼ばれる。畳込みフィルタによる処理は、例えば、3x3などの小さな画像パッチとみなせるカーネルを入力画像の各画素に置き、入力画像とカーネルとの内積を各画素に出力するものである。CNNにおける畳込み層は、通常畳込みフィルタを複数備えた多段層を持ち、ディープラーニングでは活性化関数(Activation)とバッチ正規化(Batch Normalization)を畳込み層の前後に取り入れることで、勾配消失を起こさずかつ学習データの局所性に対する過学習を防ぐ効果を備える。
活性化関数は、例えばReLU(Rectified Linear Unit)やSigmoid、Softmaxなどの非線形関数が用いられ、線形空間から逃れることで誤差逆伝播法(Back Propagation)による畳込み層への勾配伝播の際に、線形空間で微分できなくなる勾配消失問題を避けることができる。
畳込み層は、入力がMチャネルであり出力がNチャネルである、といった任意の次元操作が可能である。畳込み層が有する畳込みフィルタの枚数は、チャネルと表現する。畳込み層のサイズは、出力層のチャネル数×フィーチャーマップの縦サイズ×フィーチャーマップの横サイズで表すことができる。畳込み層の出力は、空間情報を備えるものでありフィーチャーマップ(Feature Map)又は特徴量マップと呼ばれる。
CNNにおけるプーリング層は、サブサンプリングともよばれる画像の解像度を下げる操作を行い、特徴を残しながらサイズを小さくすることで特徴の位置感度を低下させ、大局的な位置不変性と回転不変性を獲得させる。画像分類のためのCNNは最終的にはベクトルを出力するため、段階的に解像度を下げることを行う。プーリング層にはいくつかの方法が考えられるが、最大値プーリングがよく使われている。最大値プーリングは、フィーチャーマップごとの最大値を出力するリサイズを行うものである。畳込み層とプーリング層とは、画像の構造を活用した層であり、空間情報を持つ。
CNNでは、全結合層をネットワークの最後に配置することがある。全結合層は、畳込み層及びプーリング層とは異なり、横×縦×チャネルといった構造を持たず、ベクトルとして量子化された特徴が記述される。全結合層は次元削減や拡張に用いられることがあり、フィーチャーマップの各画素を近傍領域だけでなく全領域に渡って結合することで、より概念的な高次元の意味特徴(semantics)を獲得することが可能となる。
実施の形態1.
図1は、実施の形態1に係る学習装置1と推論装置2とを備えたシステムの構成例を示すシステムブロック図である。図1が示すとおり本開示技術に係るシステムは、学習装置1と、推論装置2と、学習装置1と推論装置2とが情報を共有できる共有記憶装置3と、学習装置1がアクセスする外部記憶装置4と、から構成される。
図1が示すとおり学習装置1は、画像入力部10と、浅層特徴量抽出部11と、共通特徴量算出部12と、ドメイン緩和学習情報算出部13と、高次元特徴量付与部14と、学習情報補正部15と、を備える。また、図1が示すとおり推論装置2は、深層特徴量抽出部20と、属性回帰部21と、を備える。
図2は、実施の形態1に係るシステムの処理フローを示すフローチャートである。図2Aは、オリジナルドメインの画像を学習し推論するフローを示している。図2Bは、ターゲットドメイン画像を処理する準備のためのフィルタ学習のフローを示している。図2Cは、ターゲットドメインの画像を学習し推論するときのフローを示している。ここで、オリジナルドメインの画像の学習もターゲットドメインの画像の学習も、いずれも教師あり学習に分類される。図2B及び図2Cにおいて模様のついている部分は、後述する浅層CNN100が実施するステップを示している。
オリジナルドメインの画像の学習は、ディープラーニングの代表的手法であるCNNにより画像認識を行う機械学習モデルを構築して行ってよい。この機械学習モデルを構築する処理は、図2Aが示すとおり画像を入力するステップST1と、特徴量を抽出するステップST2と、物体位置又は属性を算出するステップST3と、推論結果を出力するステップST4と、を有する。
機械学習は、機械学習モデルが使われる場面によってその目的が異なる。例えば物体認識装置に機械学習モデルを使う場合、その目的はどこに何があるのかを推定することである。例えば、画像に写っているものが車である場合、画像内のどの位置にどんな属性の車があるかを推論することが目的となる。あらかじめカテゴライズされた教師画像に対して、その画像の特徴量を抽出し、特徴量空間でのプロットから機械学習モデルを構築する手法が知られている。この特徴量空間での各カテゴリーの境界を求める方法には、SVM(サポートベクターマシン)などが知られている。特徴量は通常複数次元であるため、特徴量空間は高次元特徴量空間とも呼ばれる。なお「同じカテゴリーに属する」という表現は、より広くは「同じ種類の学習対象に属する」と読み替えることができる。
この画像の属性を分類(Classification)させる処理、又は物体の位置を回帰(Regression)する処理は、図2Aの中の物体位置又は属性を算出するステップST3が該当する。
ターゲットドメインの画像の学習は、オリジナルドメインの画像の学習が完了した段階で行われる。ターゲットドメインの画像の学習は、2段階の学習で行われる。2段階の学習とは、浅層特徴量抽出部11、共通特徴量算出部12、及びドメイン緩和学習情報算出部13における学習(以下、「フィルタ学習」と呼ぶ)と、深層特徴量抽出部20における学習(以下、「メイン学習」と呼ぶ)と、である。ターゲットドメインの画像データは、まず画像入力部10を介して学習装置1へ入力される。画像入力部10を介して入力された画像データは、浅層特徴量抽出部11へ出力される。フィルタ学習における処理のフローは図2Bに、メイン学習における処理のフローは図2Cに、それぞれ示されている。
浅層特徴量抽出部11は、入力された画像データから複数の低レベル特徴(Low-level Feature)マップを出力する複数の画像フィルタから構成されているものである。浅層特徴量抽出部11は複数の画像フィルタであるから、CNNの畳込み層で構成することが考えられる。実施の形態1に係る学習装置1は、浅層特徴量抽出部11、共通特徴量算出部12、及びドメイン緩和学習情報算出部13を浅い層のCNN(以下、「浅層CNN100」と呼ぶ)で構成する。
Shallow CNNである浅層CNN100は、オリジナルドメインの画像データの特徴量とターゲットドメインの画像データの特徴量とを、それぞれ高次元特徴量空間でプロットしたときに、共通する特徴量(英語ではDomain Shared Featuresであり、以下「ドメイン共有特徴量」と呼ぶ)を抽出するように設計する。そこで浅層特徴量抽出部11には、オリジナルドメインの画像データとターゲットドメインの画像データとが教師データとして入力される。フィルタ学習の初期段階では高次元特徴量空間へのプロットはランダムのように映るが、次第に画像のカテゴリーごとに、分布に一定の法則が見られるようになる。
図5は、本開示技術の考え方を補足した説明図その1である。図5が示すように本開示技術は、学習のEpochに応じて低レベル特徴(Low-level Feature)である(1)色、(2)輝度、(3)低周波成分、及び(4)高周波成分を強度に教師する。具体的には浅層特徴量抽出部11が出力する特徴マップは、(1)色、(2)輝度、(3)低周波成分、及び(4)高周波成分のそれぞれの低レベル特徴(Low-level Feature)となるように設計する。(3)低周波成分は、画像中のボケ情報と言い換えてもよい。また(4)高周波成分は、エッジとテクスチャと言い換えてもよい。浅層特徴量抽出部11は、低レベル特徴量を抽出するステップST12を実施する。
共通特徴量算出部12で抽出した低レベル特徴量のうちドメイン共有特徴量は、ターゲットドメインの画像のメイン学習が進む度合に応じて、ドメイン共有特徴量を強度に教師する。
浅層CNN100において、ドメイン共有特徴量が強調された特徴マップ(以下、「重付け特徴マップ」と呼ぶ)を得る方法には、Attentionと呼ばれる方法を用いる。簡単に言えばAttentionとは、CNNが出力した特徴マップのどの領域に注目すればいいのかを自動的に学習する方法である。別の言い方をすれば、Attentionは注目すべき領域の重み付けである。特徴マップには横×縦の空間的な次元とチャネルの次元とがあるように、Attentionを用いた教師方法にも空間方向のAttentionとチャネル方向のAttentionとが存在する。チャネル方向のAttentionには、SEブロックと呼ばれる技術が開示されている(例えば、非特許文献1)。
非特許文献1:
Hu, Jie, Li Shen, and Gang Sun. ”Squeeze-and-excitation networks.” Proceedings of the IEEE conference on computer vision and pattern recognition.2018.
図6は、本開示技術の考え方を補足した説明図その2である。図6が示すように浅層CNN100の共通特徴量算出部12は、2つのドメインについて同じカテゴリーに属するデータセットの特徴マップを比較する。高次元特徴量空間におけるプロットの比較は、図6の右側のグラフに例示した。図6は、オリジナルドメインを写真、ターゲットドメインをイラストとし、「ヘアドライヤーで髪を乾かす」というカテゴリーのデータセットの比較を例示している。以下は、別のプロットの比較の具体例である。例えばカテゴリーは10代の男性とし、2つのドメインはRGB画像というオリジナルドメインとTIR画像というターゲットドメインとする。それぞれの教師画像は浅層特徴量抽出部11へ入力され、それぞれの特徴マップが出力される。共通特徴量算出部12は特徴マップをチャネルごとに比較し、ドメイン共有特徴量が存在するチャネルに対しては大きな重みを付与する。
より具体的に共通特徴量算出部12は、共通特徴量算出部12より算出されたオリジナルドメインとターゲットドメインのそれぞれのフィーチャーマップを空間的に比較し、最も類似するフィーチャーマップ間の距離を、例えば画像相関やピクセル単位での類似性、SSIM(Structure Similarity)などで算出し、重みとしてもよい。
また、より簡易的に共通特徴量算出部12は、Global Average Pooling(GAP)をフィーチャーマップに適用して代表値を算出し、最も類似するフィーチャーマップの代表値間の距離を、例えば画像相関やピクセル単位での類似性、SSIM(Structure Similarity)などで算出し、重みとしてもよい。
このようにして共通特徴量算出部12は、注目すべきチャネルを強調した特徴マップを算出する(ドメイン共有特徴量を算出するステップST13)。前記の重みは、「ドメイン緩和重み」と呼ぶ。ドメイン共有特徴量が強調された特徴マップは、「ドメイン緩和教師信号」と呼ぶ。前記の重みと教師信号とは、まとめて「ドメイン緩和学習情報」と呼ぶ。浅層CNN100の共通特徴量算出部12は、ドメイン緩和重みを算出するステップST14を実施する。
ここではチャネル方向のAttentionを用いた実施の形態を説明したが、本開示技術はチャネル方向のAttentionと空間方向のAttentionとを適宜組み合わせてもよい。
ドメイン緩和学習情報は、後述するメイン学習の教師信号として用いる。ドメイン共有特徴量は、(1)色、(2)輝度、(3)低周波成分、及び(4)高周波成分に分類することができる。浅層CNN100のドメイン緩和学習情報算出部13は、(1)色、(2)輝度、(3)低周波成分、及び(4)高周波成分のそれぞれについて、ドメイン緩和学習情報を算出する(ドメイン緩和学習情報を算出するステップST24)。
浅層CNN100を備える効果は、浅層CNN100を備えない場合の従来のシステムと比較することにより明らかにされる。まずターゲットドメインのデータセットは潤沢にないため、ターゲットドメインのデータセットのみでは機械学習モデルを十分に学習させることはできない。そこで、データセットが潤沢な他のドメインの画像で機械学習モデルを構築し、ターゲットドメインの画像で再学習しようといった試みも考えられる。すなわち、オリジナルドメインのデータセットを使ってPre-Trainingをし、ターゲットドメインへの転移学習とFine-Tuningするといった試みが考え得る。ところがこれを実際に行うと、ドメイン間であまりにも画像の特徴が違いすぎて事前の学習結果を破壊してしまう、ということが生じる。浅層CNN100を備える効果は、事前の学習結果を破壊させないことで、ターゲットドメインの学習データが少ない場合でも効率的にドメイン間での特徴量の違いを緩和できるという効果を奏する。
浅層CNN100におけるフィルタ学習が終了すれば、いよいよメイン学習を実施することができる。推論装置2の深層特徴量抽出部20と属性回帰部21とは、浅層CNN100とは別の深い層からなるCNN(以下、「深層CNN110」と呼ぶ)で構成することが考えられる。メイン学習は、潤沢に存在するオリジナルドメインの画像のデータセットを用いて初期的な学習を行う。オリジナルドメインの画像のデータセットは、大きく2通りの使い方が考えられる。オリジナルドメインの画像のデータセットをそのまま使う方法と、前述の浅層CNN100を通してドメイン共有特徴量が強調された特徴マップを使う方法と、が考えられる。本開示技術に係る学習装置1は、いずれの方法でオリジナルドメインの画像のデータセットを使ってもよい。
メイン学習の初期的な学習が終了すると、深層CNN110の初期状態が決まり、いよいよメイン学習の本格的な学習を実施することができる(図2Cに示したフロー参照)。図4は、本開示技術の考え方を示した模式図である。図4が示すとおり、メイン学習の本格的な学習の教師データは、浅層CNN100を通過したターゲットドメインの画像のデータセットである。フィルタ学習が完了している浅層CNN100を通過しているため、ターゲットドメインの画像はドメイン共有特徴量が強調される。
図2Cは、ターゲットドメインの画像を学習し推論するときの処理フローを示している。図2Cが示すとおり、本処理には、ターゲットドメイン画像を入力するステップST21と、低レベル特徴マップを算出するステップST22と、ドメイン緩和重みを乗算するステップST23と、ドメイン緩和学習情報を算出するステップST24と、ドメイン緩和学習情報を入力するステップST25と、高次特徴マップを算出するステップST26と、物体位置又は属性を算出するステップST27と、推論結果を出力するステップST28と、を有する。フィルタ学習が完了している浅層CNN100は、低レベル特徴マップを算出するステップST22と、ドメイン緩和重みを乗算するステップST23と、ドメイン緩和学習情報を算出するステップST24と、を実施する。また、深層CNN110は、高次特徴マップを算出するステップST26と、物体位置又は属性を算出するステップST27と、を実施する。
本開示技術に係る学習装置1の最大の特徴は、メイン学習の本格的な学習のEpochに応じて、(1)色、(2)輝度、(3)低周波成分、(4)高周波成分の順番で強調するドメイン共有特徴量を変えることである。この強調するドメイン共有特徴量の切換えは、学習装置1の学習情報補正部15が行う。Epochとは、ひとやまのデータセットをニューラルネットワークに順伝搬と逆伝搬と1回通す単位のことである。1つのEpochはコンピュータが1度に扱う量としては大きいため、通常いくつかのBatchに分けられる。Iterationは、1つのEpochを完了するために必要なBatchの数である。例えば、教師画像が2000枚のデータセットがあるとする。この2000枚の画像は、500枚ずつのBatchに分けたとする。この例では1つのEpochを完了するため、Iterationが4必要となる。
本開示技術においてこのような順番で強調する特徴量を変える理由は、CNNが獲得する特徴量の順序も(1)色、(2)輝度、(3)低周波成分、(4)高周波成分の順番であるというCNNの特質に由来している。
どれぐらいのEpochでどの特徴量を用いるかの判断は、ケースバイケースである。或る使用態様においては、Epochが1前後のときの(1)色と(2)輝度とを用い、Epochが20のときに(3)低周波成分を用い、Epochが60のときに(4)高周波成分を用い、効果的であった。ただしこれは例示に過ぎず、これに限定したものではない。
メイン学習の評価は、ターゲットドメインの画像を用いて行う。ターゲットドメインの画像を直接加工なしで深層CNN110へ入力しても所望の正答率で推論が行えた場合、推論装置2はこのメイン学習が完了した深層CNN110をそのまま使えばよい。所望の正答率で推論が行えなかった場合、ターゲットドメインの画像は学習装置1の高次元特徴量付与部14において、加工なし画像と学習済みの浅層CNN100が算出したドメイン緩和重みとを乗算して加工画像を生成し(ドメイン緩和重みを乗算するステップST23)、深層CNN110へ入力する。最初に述べたケースは、深層CNN110のみで推論装置2を構成するものであり、次に述べたケースは浅層CNN100と深層CNN110との組合せで推論装置2を構成するものである。
メイン学習の評価が完了すれば、推論装置2はターゲットドメインの画像についての推論を行うことができる。推論装置2の処理フローは、以下の図2Cに基づいた説明により明らかにされる。ここでの説明は、浅層CNN100と深層CNN110との組合せで推論装置2を構成することを前提とする。
推論対象であるターゲットドメインの画像は、まず画像入力部10へ入力される(ターゲットドメイン画像を入力するステップST21)。入力された画像は、浅層CNN100の浅層特徴量抽出部11において低レベル特徴マップが作成される(低レベル特徴マップを算出するステップST22)。作成された低レベル特徴マップは、高次元特徴量付与部14においてドメイン緩和重みが乗算され(ドメイン緩和重みを乗算するステップST23)、深層CNN110への入力画像が生成される。深層CNN110は、属性回帰部21において入力された画像についての物体位置又は属性を算出し(物体位置又は属性を算出するステップST27)、推論結果を出力する(推論結果を出力するステップST28)。
オリジナルドメインのデータセットとターゲットドメインのデータセットとがともに潤沢であれば、それぞれのドメインごとに学習を行えばよく問題とはならない。また、それぞれのドメインでの学習結果から、それぞれドメインについての高次元特徴量空間でのカテゴリーごとの分布を対応づけることも考えられる。本開示技術に係る学習装置1及び推論装置2は、ターゲットドメインのデータセットのデータ量が少ない場合でも認識率が低下しないように学習が進むという効果を奏する。
実施の形態2.
実施の形態1に係る学習装置1と推論装置2とを備えたシステムは、潤沢にはないにせよ学習用に一定量のターゲットドメインのデータセットがあることを前提とした。実施の形態2に係る学習装置1と推論装置2とを備えたシステムは、学習段階において全くターゲットドメインのデータセットがない場合に対応できるものである。一般に、学習段階において推論すべき教師データがないクラスを学習する問題は、Zero-Shot Learning問題と呼ばれている。以降の実施の形態2についての説明において、実施の形態1と共通する構成要素は同じ符号を用い、重複する説明については適宜省略する。
図3は、実施の形態2に係る学習装置1と推論装置2とを備えたシステムの構成例を示すシステムブロック図である。図3と図1との比較が示すとおり、実施の形態2に係る学習装置1は、高次元特徴量付与部14と学習情報補正部15との代わりに学習情報更新部14Bを備える。
実施の形態2に係る学習装置1と推論装置2とを備えたシステムの場合においても、課題を解決するコアの考え方は実施の形態1の場合と同じである。すなわち実施の形態2におけるシステムは、初めに与えられた1枚のターゲットドメイン画像から、フィルタ学習とメイン学習とを同時に実施することで、課題の解決を試みる。具体的に学習情報更新部14Bは、高次元特徴量付与部14が行うドメイン緩和重みを乗算するステップST23と、学習情報補正部15が行う強調するドメイン共有特徴量の切換えを、同時に行う。
実施の形態2に係る推論装置2の深層CNN110は、オリジナルドメインの画像用に準備した推論装置2のニューラルネットワークと同じものを用いる(図2A参照)。また、深層CNN110の初期状態は、オリジナルドメインの大規模画像データセットで十分に学習が完了したニューラルネットワークの初期状態を用いればよい。
以上のように実施の形態2に係る学習装置1と推論装置2とを備えたシステムは上記の構成を備えるため、ターゲットドメインのデータセットがまったく得られないZero-Shot Learning問題の場合においても、一定の正答率で推論を行えるという効果を奏する。
実施の形態3.
実施の形態1と実施の形態2とにおいて、コアとなる構成要素である浅層CNN100と深層CNN110とは、ともにCNNを採用した「2つの独立したCNN」として描写がなされた。しかし、本開示技術に係る浅層CNN100と深層CNN110とに該当する構成要素は、2つの独立したCNNである必要はないしそもそもCNNである必要もない。実施の形態3は、「2つの独立したCNN」以外の構成例を採用した本開示技術を明らかにするものである。
まず1つ目の構成例は、浅層CNN100と深層CNN110とを、1つの大きな結合CNN120として実現し、学習装置1と推論装置2とで共有するものである。結合CNN120は、多層のニューラルネットワークの一種であるから、前段層121と後段層122とに分けることができる。結合CNN120の前段層121が浅層CNN100の役割を果たし、結合CNN120の後段層122が深層CNN110の役割を果たすようにすればよい。すなわち結合CNN120は、入力された画像に対して高次元特徴量を抽出する機能を備える。
結合CNN120を共有する方法は、クラウド上に実現して共有してもよいし、オンラインでつないでもよい。
2つ目の構成例は、結合CNN120をCNNではないニューラルネットワークで実現するものである。結合CNN120をCNNではないニューラルネットワークで実現した構成要素は、結合NN130と名付ける。結合NN130は、結合NN前段層131と結合NN後段層132とに分ける。結合NN前段層131が浅層CNN100の役割を果たし、結合NN後段層132が深層CNN110の役割を果たすようにすればよい。すなわち結合NN130は、入力された画像に対して高次元特徴量を抽出する機能を備える。
なお結合NN130は多層のニューラルネットワークであるから、その学習方法は深層学習であると言える。
結合NN130を共有する方法も、クラウド上に実現して共有してもよいし、オンラインでつないでもよい。
3つ目の構成例は、結合CNN120をニューラルネットワーク以外の数理モデルで実現するものである。結合CNN120をニューラルネットワーク以外の数理モデルで実現した構成要素は、結合数理モデル140と名付ける。結合数理モデル140は、結合数理モデル前段部141と結合数理モデル後段部142とを備える。結合数理モデル前段部141が浅層CNN100の役割を果たし、結合数理モデル後段部142が深層CNN110の役割を果たすようにすればよい。すなわち結合数理モデル140は、入力された画像に対して高次元特徴量を抽出する機能を備える。
結合数理モデル140は、結合CNN120と同様に、入力部と、可変なパラメータによって入力から出力を計算する計算部と、出力部と、を備えなければならない。また、結合数理モデル140は、出力を評価する評価関数に基づいて、可変なパラメータを変更し、機械学習が可能でなければならない。このような結合数理モデル140は、ここでは「学習自在である」と形容する。
結合数理モデル140を共有する方法も、クラウド上に実現して共有してもよいし、オンラインでつないでもよい。
結合NN130を用いる場合でも結合数理モデル140を用いる場合でも、本開示技術はメイン学習の本格的な学習のEpochに応じて、(1)色、(2)輝度、(3)低周波成分、(4)高周波成分の順番で強調するドメイン共有特徴量を変える。これは、画像認識等における機械学習において、「色」に代表される単純な特徴であればあるほど学習の初期の段階において学習が完了する、という性質を利用している。
以上のように実施の形態3に係る学習装置1と推論装置2とは上記の構成を備えるため、2つの独立したCNNを採用せずとも、ドメインが異なる画像に対しても正しく学習と推論とが行える。
本開示技術に係る推論装置2、推論方法、学習装置1、学習方法、及びプログラムは、撮像画像に対して各種の識別を行う識別装置に利用でき、産業上の利用可能性がある。
1 学習装置、 2 推論装置、 3 共有記憶装置、 4 外部記憶装置、 10 画像入力部、 11 浅層特徴量抽出部、 12 共通特徴量算出部、 13 ドメイン緩和学習情報算出部、 14 高次元特徴量付与部、 14B 学習情報更新部、 15 学習情報補正部、 20 深層特徴量抽出部、 21 属性回帰部、 100 浅層CNN、 110 深層CNN、 120 結合CNN、 121 前段層、 122 後段層、 130 結合NN、 131 結合NN前段層、 132 結合NN後段層、 140 結合数理モデル、 141 結合数理モデル前段部、 142 結合数理モデル後段部。

Claims (1)

  1. 機械学習可能な結合数理モデルを備え、教師用のオリジナルドメインのデータセットからターゲットドメインのデータセットを学習する学習装置であって、
    前記結合数理モデルの前段部は、
    入力された画像データから複数の低レベル特徴マップを生成し、
    前記画像データのうち前記オリジナルドメインと前記ターゲットドメインについて同じ種類の学習対象に属するデータセットの前記低レベル特徴マップを比較し、ドメイン共有特徴量を算出し、
    前記ドメイン共有特徴量のうち、(1)色、(2)輝度、(3)低周波成分、及び(4)高周波成分のそれぞれの空間についてドメイン緩和学習情報を算出し、
    前記ドメイン緩和学習情報を用いて入力された前記ターゲットドメインの特徴マップを重み付けし新たな重付け特徴マップを生成する高次元特徴量付与部と、
    算出された前記ドメイン緩和学習情報のうち、推論装置のメイン学習のEpochに応じて強調するドメイン共有特徴量の切換えを行う学習情報補正部と、を備える
    学習装置。
JP2023509940A 2021-03-29 2021-03-29 学習装置 Active JP7274071B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/013407 WO2022208632A1 (ja) 2021-03-29 2021-03-29 推論装置、推論方法、学習装置、学習方法、及びプログラム

Publications (3)

Publication Number Publication Date
JPWO2022208632A1 JPWO2022208632A1 (ja) 2022-10-06
JPWO2022208632A5 JPWO2022208632A5 (ja) 2023-04-28
JP7274071B2 true JP7274071B2 (ja) 2023-05-15

Family

ID=83455707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023509940A Active JP7274071B2 (ja) 2021-03-29 2021-03-29 学習装置

Country Status (6)

Country Link
US (1) US20230394807A1 (ja)
EP (1) EP4296939A4 (ja)
JP (1) JP7274071B2 (ja)
KR (1) KR102658990B1 (ja)
CN (1) CN117099127A (ja)
WO (1) WO2022208632A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020031851A1 (ja) 2018-08-08 2020-02-13 富士フイルム株式会社 画像処理方法及び画像処理装置
CN111191690A (zh) 2019-12-16 2020-05-22 上海航天控制技术研究所 基于迁移学习的空间目标自主识别方法、电子设备和存储介质
JP2020126468A (ja) 2019-02-05 2020-08-20 富士通株式会社 学習方法、学習プログラムおよび学習装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7119493B2 (ja) 2018-03-28 2022-08-17 沖電気工業株式会社 認識装置、認識方法およびプログラム
US20200380369A1 (en) 2019-05-31 2020-12-03 Nvidia Corporation Training a neural network using selective weight updates
US20230072400A1 (en) 2021-09-07 2023-03-09 Arizona Board Of Regents On Behalf Of Arizona State University SYSTEMS, METHODS, AND APPARATUSES FOR GENERATING PRE-TRAINED MODELS FOR nnU-Net THROUGH THE USE OF IMPROVED TRANSFER LEARNING TECHNIQUES
KR20230139257A (ko) * 2022-03-25 2023-10-05 재단법인 아산사회복지재단 기계 학습 모델 기반의 ct 영상을 분류 및 분할하기 위한 방법 및 장치
WO2023230748A1 (en) 2022-05-30 2023-12-07 Nvidia Corporation Dynamic class weighting for training one or more neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020031851A1 (ja) 2018-08-08 2020-02-13 富士フイルム株式会社 画像処理方法及び画像処理装置
JP2020126468A (ja) 2019-02-05 2020-08-20 富士通株式会社 学習方法、学習プログラムおよび学習装置
CN111191690A (zh) 2019-12-16 2020-05-22 上海航天控制技术研究所 基于迁移学习的空间目标自主识别方法、电子设备和存储介质

Also Published As

Publication number Publication date
EP4296939A4 (en) 2024-05-01
EP4296939A1 (en) 2023-12-27
JPWO2022208632A1 (ja) 2022-10-06
US20230394807A1 (en) 2023-12-07
CN117099127A (zh) 2023-11-21
KR20230144087A (ko) 2023-10-13
WO2022208632A1 (ja) 2022-10-06
KR102658990B1 (ko) 2024-04-18

Similar Documents

Publication Publication Date Title
Ding et al. Semi-supervised locality preserving dense graph neural network with ARMA filters and context-aware learning for hyperspectral image classification
WO2020216227A9 (zh) 图像分类方法、数据处理方法和装置
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN110378381B (zh) 物体检测方法、装置和计算机存储介质
CN113705769B (zh) 一种神经网络训练方法以及装置
EP3065085B1 (en) Digital image processing using convolutional neural networks
CN110443286B (zh) 神经网络模型的训练方法、图像识别方法以及装置
CN109949255A (zh) 图像重建方法及设备
KR102338372B1 (ko) 영상으로부터 객체를 분할하는 방법 및 장치
CN111583263A (zh) 一种基于联合动态图卷积的点云分割方法
CN110826458A (zh) 一种基于深度学习的多光谱遥感图像变化检测方法及系统
JP7405198B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
Verma et al. Computational cost reduction of convolution neural networks by insignificant filter removal
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
Yifei et al. Flower image classification based on improved convolutional neural network
Bailly et al. Boosting feature selection for neural network based regression
CN110569852B (zh) 基于卷积神经网络的图像识别方法
JP7274071B2 (ja) 学習装置
US20230073175A1 (en) Method and system for processing image based on weighted multiple kernels
Shahbaz et al. Moving object detection based on deep atrous spatial features for moving camera
Halder et al. Color image segmentation using semi-supervised self-organization feature map
Hu et al. Learning to detect saliency with deep structure
CN113222867A (zh) 基于多模板图像的图像数据增强方法及系统
Jiu et al. Deep context networks for image annotation
Lin et al. Using Fully Convolutional Networks for Floor Area Detection.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230309

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230309

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230428

R150 Certificate of patent or registration of utility model

Ref document number: 7274071

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150