JP7462168B2 - 処理方法およびそれを利用した処理装置 - Google Patents

処理方法およびそれを利用した処理装置 Download PDF

Info

Publication number
JP7462168B2
JP7462168B2 JP2022555266A JP2022555266A JP7462168B2 JP 7462168 B2 JP7462168 B2 JP 7462168B2 JP 2022555266 A JP2022555266 A JP 2022555266A JP 2022555266 A JP2022555266 A JP 2022555266A JP 7462168 B2 JP7462168 B2 JP 7462168B2
Authority
JP
Japan
Prior art keywords
feature map
processing
image
learning
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022555266A
Other languages
English (en)
Other versions
JPWO2022074877A1 (ja
Inventor
俊嗣 堀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2022074877A1 publication Critical patent/JPWO2022074877A1/ja
Application granted granted Critical
Publication of JP7462168B2 publication Critical patent/JP7462168B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Description

本開示は、処理技術、特に入力された情報に対する処理を実行する処理方法およびそれを利用した処理装置に関する。
画像認識処理には、例えば、Deep Learningが使用される。Deep Learningは、多層のニューラルネットワークを使った機械学習の方法論として知られ、多層ニューラルネットワークには例えば畳み込みニューラルネットワークが使用される。畳み込みニューラルネットワークは、局所領域の畳み込み(Convolution)とプーリング(Pooling)とを繰り返す多層のニューラルネットワークによって形成される。さらに、畳み込みニューラルネットワークを構成する全結合層を畳み込み層にする完全畳み込みニューラルネットワークの構造が提案されている(例えば、特許文献1参照)。
国際公開第19/159419号
完全畳み込みニューラルネットワークは局所領域の処理の積み重ねであるので、処理対象となる画像内の要素の位置関係が特定されない。ニューラルネットワークにおける画像認識の精度を向上させるためには、画像内の要素の位置関係を特定できる方が好ましい。
本開示はこうした状況に鑑みなされたものであり、その目的は、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上する技術を提供することにある。
上記課題を解決するために、本開示のある態様の処理装置は、処理対象となる対象画像に対して第1ニューラルネットワークの処理を実行することによって、対象画像の(1/m)×(1/n)倍のサイズとなる第1特徴マップを生成する第1処理部と、第1処理部において生成した第1特徴マップをn倍拡大する拡大部と、対象画像に対して第2ニューラルネットワークの処理を実行することによって、対象画像の(1/m)倍のサイズとなる第2特徴マップを生成する第2処理部と、拡大部においてn倍拡大した第1特徴マップと、第2処理部において生成した第2特徴マップとを組み合わせる組合せ部とを備える。第1処理部の第1ニューラルネットワークと第2処理部の第2ニューラルネットワークは全結合層を含まず、学習時において、第1処理部の第1ニューラルネットワークには第1学習用画像が入力され、学習時において、第2処理部の第2ニューラルネットワークには、抽出部により抽出された第1学習用画像の中心部分であり、かつ第1学習用画像の(1/n)倍のサイズとなる第2学習用画像が入力され、学習時において、組合せ部は、拡大部を介さずに第1処理部に接続されるとともに、第2処理部に接続される。
本開示の別の態様は、処理方法である。この方法は、処理対象となる対象画像に対して第1ニューラルネットワークの処理を実行することによって、対象画像の(1/m)×(1/n)倍のサイズとなる第1特徴マップを生成するステップと、生成した第1特徴マップをn倍拡大するステップと、対象画像に対して第2ニューラルネットワークの処理を実行することによって、対象画像の(1/m)倍のサイズとなる第2特徴マップを生成するステップと、n倍拡大した第1特徴マップと、生成した第2特徴マップとを組み合わせるステップとを備える。第1ニューラルネットワークと第2ニューラルネットワークは全結合層を含まず、学習時において、第1ニューラルネットワークには第1学習用画像が入力され、学習時において、第2ニューラルネットワークには、第1学習用画像から抽出された第1学習用画像の中心部分であり、かつ第1学習用画像の(1/n)倍のサイズとなる第2学習用画像が入力され、学習時において、n倍の拡大がなされずに、組合せがなされる。
なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、またはコンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本開示の態様として有効である。
本開示によれば、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上できる。
図1(a)-(b)は、本実施例の比較対象となる処理装置の構成を示す図である。 図1(a)-(b)のデンスブロックの構成を示す図である。 図3(a)-(b)は、本実施例に係る処理装置の構成を示す図である。 図4(a)-(c)は、図3(a)-(b)の組合せ部における処理概要を示す図である。 図5(a)-(b)は、図3(b)の拡大部における処理概要を示す図である。 図3(a)-(b)の処理装置による処理手順を示すシーケンス図である。
本開示の実施例を具体的に説明する前に、本実施例の概要を説明する。実施例は、処理対象となる画像(以下、「対象画像」という)に対して画像認識処理を実行することによって、対象画像内の要素を特定する処理装置に関する。画像認識処理のために、全結合層を含まない完全畳み込みニューラルネットワークの使用が可能である。完全畳み込みニューラルネットワークでは、畳み込み層とプーリング層の処理が繰り返され、含まれる物体に対して色塗りによるセグメンテーションがなされた画像(以下、「セグメンテーション画像」あるいは「特徴マップ」という)が出力される。
しかしながら、前述のごとく、完全畳み込みニューラルネットワークは局所領域の処理の積み重ねであるので、対象画像内の要素の位置関係が特定されない。対象画像内の要素の位置関係を利用することによって、画像認識の精度が向上するので、対象画像内の要素の位置関係を特定することが望まれる。一方、対象画像内の要素の位置関係を特定するためには、完全畳み込みニューラルネットワークの認識対象となる領域を広げる必要があるが、領域を広げることによって、領域内の画像認識の精度自体が低下してしまう。そのため、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立が求められる。
本実施例に係る処理装置は、広域を認識対象とするネットワーク(以下、「第1ネットワーク」という)と、狭域を認識対象とするネットワーク(以下、「第2ネットワーク」という)とを備え、処理画像を第1ネットワークと第2ネットワークとに入力する。また、処理装置は、第1ネットワークにより生成される特徴マップ(以下、「第1特徴マップ」という)と、第2ネットワークにより生成される特徴マップ(以下、「第2特徴マップ」という)とを組み合わせることによって、最終的な特徴マップを生成する。
図1(a)-(b)は、比較対象となる処理装置10の構成を示す。特に、図1(a)は、学習処理のための構成を示し、図1(b)は、認識処理ための構成を示す。図1(a)における処理装置10と図1(b)における処理装置10とは、同一の装置であってもよいし、別の装置であってもよい。
処理装置10は、図1(a)に示すように学習処理のための構成として、畳み込み層20、バッチノーマライゼーション層22、デンスブロック24、デンスブロック26、マックスプーリング層28、デンスブロック30、デンスブロック32、アベレージプーリング層34を含む。学習処理では、学習用画像40が使用される。学習用画像40は、画像認識の結果が教師データとして予め用意されている画像である。学習用画像40は、例えば、「28×28」のサイズを有する。これは、例えば、「1024×1024」のサイズを有する画像のうちの一部分の画像、つまり細部の画像であるといえる。学習用画像40は、畳み込み層20に入力される。
畳み込み層20は、入力される画像、例えば学習用画像40のサイズよりも小さいサイズの空間フィルタをずらしながら空間フィルタリングを実行する。畳み込み層20において、空間フィルタのサイズが「5×5」と規定され、空間フィルタをずらす幅であるストライドが「2」と規定される。空間フィルタリングは公知の技術であるので、ここでは説明を省略するが、この空間フィルタリングが畳み込み処理に相当し、畳み込み処理によって画像の特徴量が抽出される。畳み込み層20においてパディング等が実行されてもよい。さらに、畳み込み層20は、画像に対して、複数の空間フィルタを並列に使用して、複数の空間フィルタリングを並列して実行してもよい。このような複数の空間フィルタの並列使用によって、画像が増加する。畳み込み層20において並列に使用される空間フィルタの数は、チャンネル数と呼ばれる。バッチノーマライゼーション層22には公知の技術が使用されればよい。中間情報42とは、畳み込み層20、バッチノーマライゼーション層22による処理がなされた結果であり、処理の途中の情報を示す。中間情報42は「14×14」のサイズを有する。
デンスブロック24は、図2のように示される。図2は、デンスブロックの構成を示す。図示のごとく、中間情報60、畳み込み層62、組合せ層64、中間情報66、畳み込み層68、中間情報70、バッチノーマライゼーション層72を含む。中間情報60、中間情報66、中間情報70は、中間情報42と同様に、処理の途中の情報を示す。例えば、中間情報60は32チャンネルを有し、中間情報66は64チャンネルを有し、中間情報70は32チャンネルを有する。畳み込み層62、畳み込み層68は、畳み込み層20と同様である。畳み込み層62の空間フィルタのサイズは「3×3」と規定され、畳み込み層68の空間フィルタのサイズは「1×1」と規定される。組合せ層64は、中間情報60と、畳み込み層62の処理結果とを組み合わせることによって、中間情報66を生成する。中間情報60と、畳み込み層62の処理結果とは、別のチャンネルとして組み合わされる。バッチノーマライゼーション層72はバッチノーマライゼーション層22と同様である。図1(a)に戻る。
デンスブロック26、デンスブロック30、デンスブロック32は、デンスブロック24と同様に構成される。デンスブロック24、デンスブロック26、デンスブロック30、デンスブロック32は、図2の構成に限定されず、畳み込み層等の組合せが異なっていてもよい。また、デンスブロック24、デンスブロック26、デンスブロック30、デンスブロック32の構成が互いに異なっていてもよい。
マックスプーリング層28は畳み込み層20と同様に構成される。マックスプーリング層28は、画像内の任意の領域に含まれた複数の画素を1つの画素にまとめることによって、画像のサイズを小さくする。マックスプーリング層28は、複数の画素を1つの画素にまとめるために、領域内の複数の画素値の平均値を1つの画素に対して使用する。プーリング処理は、着目領域における平均値の並進移動に対してロバスト性を強化するためになされる。マックスプーリング層28において領域をずらす幅であるストライドが「2」と規定される。
アベレージプーリング層34は、マックスプーリング層28と同様にプーリング処理を実行する。アベレージプーリング層34は、複数の画素を1つの画素にまとめるために、領域内の複数の画素値のうちの最大値を1つの画素に対して使用する。プーリング処理は、着目領域における代表値の並進移動に対してロバスト性を強化するためになされる。アベレージプーリング層34における領域のサイズが「7×7」と規定される。
学習処理では、学習用画像40と教師データとをもとに、畳み込み層20と、デンスブロック24とデンスブロック26とデンスブロック30とデンスブロック32に含まれる畳み込み層の空間フィルタの係数が学習される。学習用画像40と教師データを使用する状況下における空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。
処理装置10は、図1(b)に示すように認識処理のための構成として、畳み込み層20からアベレージプーリング層34を含む。この構成は図1(a)と同じである。ここで、図1(a)における学習処理によって導出された空間フィルタの係数が、畳み込み層20と、デンスブロック24とデンスブロック26とデンスブロック30とデンスブロック32に含まれる畳み込み層に設定される。対象画像50は、処理装置10における認識処理の対象となる画像であり、例えば、「1024×1024」のサイズを有する。対象画像50は、畳み込み層20に入力される。
畳み込み層20からアベレージプーリング層34は、これまでと同様の処理を実行するので、ここでは説明を省略する。また、認証処理において、中間情報52、中間情報54が生成される。中間情報52は、「512×512」のサイズを有し、中間情報54は、「256×256」のサイズを有する。認証処理の結果はアベレージプーリング層34から出力される。
学習用画像40は「28×28」のサイズを有し、対象画像50は「1024×1024」のサイズを有するので、学習用画像40を使用する学習処理は、狭域に対してなされているといえる。そのため、処理装置10は、狭域における要素を詳細に認識可能である。ここで、異なった要素が狭域において類似する場合に、処理装置10では、それらの要素の区別が困難になる。一方、それらの要素が画像全体のうちの異なった位置に配置されていれば、それらの要素が配置された相対的な位置関係をもとに、それらの要素の区別が可能になる。そのためには、学習処理が広域に対してなされる必要がある。しかしながら、学習処理が広域に対してなされた場合、処理装置10は、狭域における要素を詳細に認識できなくなる。そのため、狭域における要素の詳細な認識と、広域における要素の位置の認識との両立が求められる。
図3(a)-(b)は、処理装置1000の構成を示す。特に、図3(a)は、学習処理のための構成を示し、図3(b)は、認識処理ための構成を示す。図3(a)における処理装置1000と図3(b)における処理装置1000とは、同一の装置であってもよいし、別の装置であってもよい。図3(a)-(b)に示される処理装置1000は、第1処理部100、第2処理部300、組合せ部500、畳み込み層510を共通して含む。一方、図3(a)に示される処理装置1000だけが抽出部200を含み、図3(b)に示される処理装置1000だけが拡大部400を含む。
第1処理部100は、バッチノーマライゼーション層110、畳み込み層112、デンスブロック114、マックスプーリング層118、デンスブロック120、デンスブロック122、アベレージプーリング層124を含む。第2処理部300は、バッチノーマライゼーション層310、畳み込み層312、デンスブロック314、デンスブロック316、マックスプーリング層318、デンスブロック320、デンスブロック322、アベレージプーリング層324を含む。第1処理部100、第2処理部300には、全結合層が含まれない。ここでは、(1)学習処理、(2)認識処理の順に説明する。
(1)学習処理
図3(a)に示される学習処理では、第1学習用画像600が使用される。第1学習用画像600は、画像認識の結果が教師データとして予め用意されている画像である。第1学習用画像600は、例えば、「112×112」のサイズを有する。第1学習用画像600は、第1処理部100と抽出部200に入力される。
第1処理部100におけるバッチノーマライゼーション層110、畳み込み層112、デンスブロック114、マックスプーリング層118、デンスブロック120、デンスブロック122、アベレージプーリング層124は、第1ニューラルネットワークに含まれる。図3(a)においてデンスブロック114とマックスプーリング層118との間の構成は省略される。これらは、図1(a)-(b)、図2と同様の処理を実行する。畳み込み層112の空間フィルタのサイズが「5×5」と規定され、ストライドが「2」と規定される。マックスプーリング層118のストライドが「2」と規定され、アベレージプーリング層124における領域のサイズが「7×7」と規定される。
第1処理部100では、中間情報602、中間情報604が生成される。中間情報602は、「56×56」のサイズを有し、中間情報604は、「7×7」のサイズを有する。アベレージプーリング層124において生成される中間情報も「7×7」のサイズを有する。そのため、第1処理部100は、「112×112」のサイズを「7×7」のサイズに変換しており、これは、(1/m)×(1/n)倍の変換といえる。ここで、m=4、n=4である。
抽出部200は、第1学習用画像600の一部、例えば中心部分を抽出することによって、第2学習用画像610を生成する。第2学習用画像610は、「28×28」のサイズを有するので、第1学習用画像600の(1/n)倍のサイズを有する。第2学習用画像610は、第2処理部300に入力される。
第2処理部300におけるバッチノーマライゼーション層310、畳み込み層312、デンスブロック314、デンスブロック316、マックスプーリング層318、デンスブロック320、デンスブロック322、アベレージプーリング層324は、第2ニューラルネットワークに含まれる。これらは、図1(a)-(b)、図2と同様の処理を実行する。畳み込み層312の空間フィルタのサイズが「5×5」と規定され、ストライドが「2」と規定される。マックスプーリング層318のストライドが「2」と規定され、アベレージプーリング層324における領域のサイズが「7×7」と規定される。
第2処理部300では、中間情報612、中間情報614が生成される。中間情報612は、「14×14」のサイズを有し、中間情報614は、「7×7」のサイズを有する。アベレージプーリング層324において生成される中間情報も「7×7」のサイズを有する。そのため、第2処理部300は、「28×28」のサイズを「7×7」のサイズに変換しており、これは、(1/m)倍の変換といえる。
学習のために、第1処理部100では第1学習用画像600が使用され、第2処理部300では第2学習用画像610が使用される。第1学習用画像600のサイズは第2学習用画像610のサイズよりも大きいので、第1処理部100の第1ネットワークは広域を認識対象とし、第2処理部300の第2ネットワークは狭域を認識対象とする。
第1処理部100では、(1/m)×(1/n)倍の変換がなされ、第2処理部300では、(1/m)倍の変換がなされているので、第1処理部100と第2処理部300とでは変換の倍率が異なる。しかしながら、第2学習用画像610のサイズが第1学習用画像600のサイズの(1/n)倍であるので、第1処理部100から出力される中間情報と、第2処理部300から出力される中間情報は同一のサイズを有する。
組合せ部500は、アベレージプーリング層124からの中間情報と、アベレージプーリング層324からの中間情報とを組み合わせる。図4(a)-(c)は、組合せ部500における処理概要を示す。第1入力情報800a、第2入力情報800bは、組合せ部500に入力される2つの情報であり、中間情報を含む。図4(a)では、第1入力情報800aと第2入力情報800bとが別のチャンネルとして合併される。図4(b)では、第1入力情報800a、第2入力情報800bが、横方向に並べることによって1つのチャンネルの情報にされる。図4(c)では、第1入力情報800a、第2入力情報800bが、縦軸方向に並べることによって1つのチャンネルの情報にされる。図3(a)に戻る。組合せ部500は、2つの入力を画素毎に加算、減算等の四則演算して組み合わせてもよい。畳み込み層510は、これまでと同様になされる。畳み込み層510の空間フィルタのサイズが「1×1」と規定される。
学習処理では、第1学習用画像600と教師データとをもとに、畳み込み層の空間フィルタの係数が学習される。その際、第2処理部300では第2学習用画像610が使用される。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。
(2)認識処理
図3(a)における学習処理によって導出された空間フィルタの係数が、図3(b)における各畳み込み層に設定される。図3(b)に示される認証処理では、対象画像700が使用される。対象画像700は、処理装置1000における認識処理の対象となる画像であり、例えば、「1024×1024」のサイズを有する。対象画像700は、第1処理部100と第2処理部300に入力される。認証処理において抽出部200は使用されない。
バッチノーマライゼーション層110からアベレージプーリング層124、バッチノーマライゼーション層310からアベレージプーリング層324は、これまでと同様の処理を実行するので、ここでは説明を省略する。また、認証処理において、中間情報702、中間情報704、中間情報712、中間情報714が生成される。中間情報702と中間情報712は「512×512」のサイズを有し、中間情報704は「64×64」のサイズを有し、中間情報714は「256×256」のサイズを有する。
第1処理部100は、対象画像700に対して第1ニューラルネットワークの処理を実行することによって、第1特徴マップを生成する。第1処理部100では、対象画像700に対して(1/m)×(1/n)倍の変換がなされるので、第1特徴マップは、対象画像700の(1/16)×(1/16)倍のサイズを有する。対象画像700は「1024×1024」のサイズを有するので、第1特徴マップは「64×64」のサイズを有する。
一方、第2処理部300は、対象画像700に対して第2ニューラルネットワークの処理を実行することによって、第2特徴マップ716を生成する。第2処理部300では、対象画像700に対して(1/m)倍の変換がなされるので、第2特徴マップ716は、対象画像700の(1/16)倍のサイズを有する。対象画像700は「1024×1024」のサイズを有するので、第2特徴マップ716は「256×256」のサイズを有する。
第1処理部100において生成された第1特徴マップと、第2処理部300において生成された第2特徴マップ716とではサイズが異なるので、第1特徴マップと第2特徴マップ716とを組み合わせることができない。そこで、第1処理部100には拡大部400が接続され、拡大部400が組合せ部500に接続される。拡大部400は、第1処理部100において生成した第1特徴マップをn倍拡大することによって、第1特徴マップ706を生成する。ここではn=4であるので、第1特徴マップ706は、第2特徴マップ716と同一の「256×256」のサイズを有する。
図5(a)-(b)は、拡大部400における処理概要を示す。図5(a)は、拡大部400における処理の一例を示す。画素850と総称される第1画素850aから第8画素850hは、第1処理部100において生成した第1特徴マップを構成する画素である。隣接する画素850の間に追加画素852が追加される。例えば、第1画素850a、第3画素850c、第4画素850d、第5画素850eの間に第3追加画素852cが追加される。第1追加画素852a、第4追加画素852d、第5追加画素852e、第7追加画素852g、第8追加画素852hも同様である。このように画素850に追加画素852を追加することによって、第1特徴マップがn倍拡大される。拡大部400は、画素850の値を、隣接の追加画素852に複製する。例えば、第3画素850cの値は、第3追加画素852cに複製される。
図5(b)は、拡大部400における処理の別の一例を示す。画素850と追加画素852は図5(a)と同一である。拡大部400は、追加画素852を囲む複数の画素850の値を補間した値を、追加画素852に使用する。例えば、第1画素850aの値、第3画素850cの値、第4画素850dの値、第5画素850eの値を保管した値が、第3追加画素852cに使用される。補間には公知の技術が使用されればよいので、ここでは説明を省略する。図3(b)に戻る。
組合せ部500は、拡大部400においてn倍拡大した第1特徴マップ706と、第2処理部300において生成した第2特徴マップ716とを組み合わせる。組合せ部500および畳み込み層510では、これまで同様の処理がなされる。
前述のごとく、第1処理部100における変換の倍率と、第2処理部300における変換の倍率とは異なる。一方、第1処理部100からの出力と、第2処理部300からの出力とを組合せ部500において組み合わせるために、両方の出力のサイズは同一でなければならない。これらの条件を満たすために、学習処理において抽出部200により第1学習用画像600と第2学習用画像610とのサイズを変え、認証処理において拡大部400により第1特徴マップ706と第2特徴マップ716とのサイズが合わされる。
本開示における装置、システム、または方法の主体は、コンピュータを備えている。このコンピュータがプログラムを実行することによって、本開示における装置、システム、または方法の主体の機能が実現される。コンピュータは、プログラムにしたがって動作するプロセッサを主なハードウェア構成として備える。プロセッサは、プログラムを実行することによって機能を実現することができれば、その種類は問わない。プロセッサは、半導体集積回路(IC)、またはLSI(Large Scale Integration)を含む1つまたは複数の電子回路で構成される。複数の電子回路は、1つのチップに集積されてもよいし、複数のチップに設けられてもよい。複数のチップは1つの装置に集約されていてもよいし、複数の装置に備えられていてもよい。プログラムは、コンピュータが読み取り可能なROM、光ディスク、ハードディスクドライブなどの非一時的記録媒体に記録される。プログラムは、記録媒体に予め格納されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。
以上の構成による処理装置1000の動作を説明する。図6は、処理装置1000による処理手順を示すシーケンス図である。学習処理である場合(S10のY)、抽出部200は、第1学習用画像600から第2学習用画像610を抽出する(S12)。処理装置1000は、第1学習用画像600を第1処理部100に入力し、第2学習用画像610を第2処理部300に入力して学習を実行する(S14)。学習処理でない場合(S10のN)、処理装置1000は、対象画像700を第1処理部100と第2処理部300に入力する(S16)。拡大部400は第1特徴マップを拡大する(S18)。組合せ部500は、第1特徴マップ706と第2特徴マップ716との組合せを実行する(S20)。
本実施例によれば、学習時において、第1処理部100に第1学習用画像600が入力され、第2処理部300に第2学習用画像610が入力されるので、広域な認識対象のネットワークと狭域な認識対象のネットワークとを共存できる。また、広域な認識対象のネットワークと狭域な認識対象のネットワークとが共存されるので、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立を実現できる。また、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立が実現されるので、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上できる。また、拡大部400により第1特徴マップのサイズを変更するので、第1処理部100での変換の倍率と第2処理部300での変換の倍率とを独立して設定できる。また、第1処理部100での変換の倍率と第2処理部300での変換の倍率とが独立して設定されるので、第1処理部100と第2処理部300のそれぞれに適した処理を実行できる。また、第1処理部100と第2処理部300のそれぞれに適した処理が実行されるので、認識精度を向上できる。
また、第2学習用画像610は第1学習用画像600の中心部分であるので、広域の認証対象の一部に狭域の認証対象を配置できる。また、第1特徴マップに含まれる画素の値を、追加する画素に複製することによって、第1特徴マップをn倍拡大するので、拡大を容易に実行できる。また、第1特徴マップにおいて隣接した第1画素と第2画素の間に第3画素を追加し、第1画素の値と第2画素の値とを補間した値を第3画素に使用することによって、第1特徴マップをn倍拡大するので、第1特徴マップの品質を維持しながら拡大できる。また、2つの入力を別のチャンネルとして合併するので、組合せを容易に実行できる。また、2つの入力を画素毎に四則演算して組み合わせるので、組合せを容易に実行できる。
本開示の一態様の概要は、次の通りである。上記課題を解決するために、本開示のある態様の処理装置(1000)は、処理対象となる対象画像(700)に対して第1ニューラルネットワークの処理を実行することによって、対象画像(700)の(1/m)×(1/n)倍のサイズとなる第1特徴マップを生成する第1処理部(100)と、第1処理部(100)において生成した第1特徴マップをn倍拡大する拡大部(400)と、対象画像(700)に対して第2ニューラルネットワークの処理を実行することによって、対象画像(700)の(1/m)倍のサイズとなる第2特徴マップ(716)を生成する第2処理部(300)と、拡大部(400)においてn倍拡大した第1特徴マップと、第2処理部(300)において生成した第2特徴マップ(716)とを組み合わせる組合せ部(500)とを備える。第1処理部(100)の第1ニューラルネットワークと第2処理部(300)の第2ニューラルネットワークは全結合層を含まず、学習時において、第1処理部(100)の第1ニューラルネットワークには第1学習用画像(600)が入力され、学習時において、第2処理部(300)の第2ニューラルネットワークには、第1学習用画像(600)の一部であり、かつ第1学習用画像(600)の(1/n)倍のサイズとなる第2学習用画像(610)が入力され、学習時において、組合せ部(500)は、拡大部(400)を介さずに第1処理部(100)に接続されるとともに、第2処理部(300)に接続される。
第2学習用画像(610)は、第1学習用画像(600)の中心部分であってもよい。
拡大部(400)は、第1特徴マップに含まれる画素の値を、追加する画素に複製することによって、第1特徴マップをn倍拡大してもよい。
拡大部(400)は、第1特徴マップにおいて隣接した第1画素と第2画素の間に第3画素を追加し、第1画素の値と第2画素の値とを補間した値を第3画素に使用することによって、第1特徴マップをn倍拡大してもよい。
組合せ部(500)は、2つの入力を別のチャンネルとして合併してもよい。
組合せ部(500)は、2つの入力を画素毎に四則演算して組み合わせる。
本開示の別の態様は、処理方法である。この方法は、処理対象となる対象画像(700)に対して第1ニューラルネットワークの処理を実行することによって、対象画像(700)の(1/m)×(1/n)倍のサイズとなる第1特徴マップを生成するステップと、生成した第1特徴マップをn倍拡大するステップと、対象画像(700)に対して第2ニューラルネットワークの処理を実行することによって、対象画像(700)の(1/m)倍のサイズとなる第2特徴マップ(716)を生成するステップと、n倍拡大した第1特徴マップと、生成した第2特徴マップ(716)とを組み合わせるステップとを備える。第1ニューラルネットワークと第2ニューラルネットワークは全結合層を含まず、学習時において、第1ニューラルネットワークには第1学習用画像(600)が入力され、学習時において、第2ニューラルネットワークには、第1学習用画像(600)の一部であり、かつ第1学習用画像(600)の(1/n)倍のサイズとなる第2学習用画像(610)が入力され、学習時において、n倍の拡大がなされずに、組合せがなされる。
以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。
本実施例における処理装置1000は、第1処理部100のアベレージプーリング層124と、第2処理部300のアベレージプーリング層324とを組合せ部500に接続する。しかしながらこれに限らず例えば、第1処理部100と第2処理部300の別の構成が組合せ部500に接続されてもよい。例えば、第1処理部100のマックスプーリング層118と第2処理部300のマックスプーリング層318とが組合せ部500に接続されてもよい。その際、マックスプーリング層118は拡大部400を介して組合せ部500に接続される。本変形例によれば、構成の自由度を向上できる。
本開示によれば、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上できる。
10 処理装置、 20 畳み込み層、 22 バッチノーマライゼーション層、 24,26 デンスブロック、 28 マックスプーリング層、 30,32 デンスブロック、 34 アベレージプーリング層、 62 畳み込み層、 64 組合せ層、 68 畳み込み層、 72 バッチノーマライゼーション層、 100 第1処理部、 110 バッチノーマライゼーション層、 112 畳み込み層、 114 デンスブロック、 118 マックスプーリング層、 120,122 デンスブロック、 124 アベレージプーリング層、 200 抽出部、 300 第2処理部、 310 バッチノーマライゼーション層、 312 畳み込み層、 314,316 デンスブロック、 318 マックスプーリング層、 320,322 デンスブロック、 324 アベレージプーリング層、 400 拡大部、 500 組合せ部、 510 畳み込み層、 1000 処理装置。

Claims (6)

  1. 処理対象となる対象画像に対して第1ニューラルネットワークの処理を実行することによって、前記対象画像の(1/m)×(1/n)倍のサイズとなる第1特徴マップを生成する第1処理部と、
    前記第1処理部において生成した前記第1特徴マップをn倍拡大する拡大部と、
    前記対象画像に対して第2ニューラルネットワークの処理を実行することによって、前記対象画像の(1/m)倍のサイズとなる第2特徴マップを生成する第2処理部と、
    前記拡大部においてn倍拡大した前記第1特徴マップと、前記第2処理部において生成した前記第2特徴マップとを組み合わせる組合せ部とを備え、
    前記第1処理部の前記第1ニューラルネットワークと前記第2処理部の前記第2ニューラルネットワークは全結合層を含まず、
    学習時において、前記第1処理部の前記第1ニューラルネットワークには第1学習用画像が入力され、
    学習時において、前記第2処理部の前記第2ニューラルネットワークには、抽出部により抽出された前記第1学習用画像の中心部分であり、かつ前記第1学習用画像の(1/n)倍のサイズとなる第2学習用画像が入力され、
    学習時において、前記組合せ部は、前記拡大部を介さずに前記第1処理部に接続されるとともに、前記第2処理部に接続される処理装置。
  2. 前記拡大部は、前記第1特徴マップに含まれる画素の値を、追加する画素に複製することによって、前記第1特徴マップをn倍拡大する請求項1に記載の処理装置。
  3. 前記拡大部は、前記第1特徴マップにおいて隣接した第1画素と第2画素の間に第3画素を追加し、前記第1画素の値と前記第2画素の値とを補間した値を前記第3画素に使用することによって、前記第1特徴マップをn倍拡大する請求項1に記載の処理装置。
  4. 前記組合せ部は、2つの入力を別のチャンネルとして合併する請求項1からのいずれか1項に記載の処理装置。
  5. 前記組合せ部は、2つの入力を画素毎に四則演算して組み合わせる請求項1からのいずれか1項に記載の処理装置。
  6. 処理対象となる対象画像に対して第1ニューラルネットワークの処理を実行することによって、前記対象画像の(1/m)×(1/n)倍のサイズとなる第1特徴マップを生成するステップと、
    生成した前記第1特徴マップをn倍拡大するステップと、
    前記対象画像に対して第2ニューラルネットワークの処理を実行することによって、前記対象画像の(1/m)倍のサイズとなる第2特徴マップを生成するステップと、
    n倍拡大した前記第1特徴マップと、生成した前記第2特徴マップとを組み合わせるステップとを備え、
    前記第1ニューラルネットワークと前記第2ニューラルネットワークは全結合層を含まず、
    学習時において、前記第1ニューラルネットワークには第1学習用画像が入力され、
    学習時において、前記第2ニューラルネットワークには、前記第1学習用画像から抽出された前記第1学習用画像の中心部分であり、かつ前記第1学習用画像の(1/n)倍のサイズとなる第2学習用画像が入力され、
    学習時において、n倍の拡大がなされずに、組合せがなされる処理方法。
JP2022555266A 2020-10-08 2021-06-25 処理方法およびそれを利用した処理装置 Active JP7462168B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020170751 2020-10-08
JP2020170751 2020-10-08
PCT/JP2021/024224 WO2022074877A1 (ja) 2020-10-08 2021-06-25 処理方法およびそれを利用した処理装置

Publications (2)

Publication Number Publication Date
JPWO2022074877A1 JPWO2022074877A1 (ja) 2022-04-14
JP7462168B2 true JP7462168B2 (ja) 2024-04-05

Family

ID=81125793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022555266A Active JP7462168B2 (ja) 2020-10-08 2021-06-25 処理方法およびそれを利用した処理装置

Country Status (5)

Country Link
US (1) US20240119717A1 (ja)
EP (1) EP4227892A4 (ja)
JP (1) JP7462168B2 (ja)
CN (1) CN116368517A (ja)
WO (1) WO2022074877A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019102796A1 (ja) 2017-11-21 2019-05-31 富士フイルム株式会社 認識装置、認識方法及びプログラム
WO2019194044A1 (ja) 2018-04-04 2019-10-10 パナソニックIpマネジメント株式会社 画像処理装置および画像処理方法
WO2020064715A1 (en) 2018-09-28 2020-04-02 Varian Medical Systems International Ag Methods and systems for radiotherapy treatment planning using deep learning engines
CN111476793A (zh) 2020-03-10 2020-07-31 西北大学 动态增强磁共振成像处理方法、系统、存储介质、终端
WO2020183799A1 (ja) 2019-03-11 2020-09-17 キヤノン株式会社 医用画像処理装置、医用画像処理方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019159324A1 (ja) 2018-02-16 2019-08-22 パナソニックIpマネジメント株式会社 処理方法およびそれを利用した処理装置
WO2020028382A1 (en) * 2018-07-30 2020-02-06 Memorial Sloan Kettering Cancer Center Multi-modal, multi-resolution deep learning neural networks for segmentation, outcomes prediction and longitudinal response monitoring to immunotherapy and radiotherapy
US10769744B2 (en) * 2018-10-31 2020-09-08 Kabushiki Kaisha Toshiba Computer vision system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019102796A1 (ja) 2017-11-21 2019-05-31 富士フイルム株式会社 認識装置、認識方法及びプログラム
WO2019194044A1 (ja) 2018-04-04 2019-10-10 パナソニックIpマネジメント株式会社 画像処理装置および画像処理方法
WO2020064715A1 (en) 2018-09-28 2020-04-02 Varian Medical Systems International Ag Methods and systems for radiotherapy treatment planning using deep learning engines
WO2020183799A1 (ja) 2019-03-11 2020-09-17 キヤノン株式会社 医用画像処理装置、医用画像処理方法及びプログラム
CN111476793A (zh) 2020-03-10 2020-07-31 西北大学 动态增强磁共振成像处理方法、系统、存储介质、终端

Also Published As

Publication number Publication date
WO2022074877A1 (ja) 2022-04-14
JPWO2022074877A1 (ja) 2022-04-14
EP4227892A1 (en) 2023-08-16
US20240119717A1 (en) 2024-04-11
CN116368517A (zh) 2023-06-30
EP4227892A4 (en) 2024-04-03

Similar Documents

Publication Publication Date Title
US11315235B2 (en) Processing method for performing process on image and processing device using the processing method
JP4074062B2 (ja) ベクトル画像シーケンスにおける意味対象物の追跡
JP5555706B2 (ja) 高解像度映像獲得装置およびその方法
JP4966893B2 (ja) 一致度計算装置及び方法、プログラム
Liu et al. A new multi-focus image fusion algorithm and its efficient implementation
EP3067858A1 (en) Image noise reduction
EP3067863A1 (en) Image noise reduction
Ma et al. Dual refinement feature pyramid networks for object detection
JP7407407B2 (ja) 処理方法およびそれを利用した処理装置
JP7462168B2 (ja) 処理方法およびそれを利用した処理装置
Jang et al. Self-supervised image denoising with downsampled invariance loss and conditional blind-spot network
JPWO2019189026A1 (ja) 処理方法およびそれを利用した処理装置
WO2022133874A1 (zh) 图像处理方法及设备、计算机可读存储介质
CN112233021B (zh) 基于降质分类和定向数据增广的鲁棒人脸超分辨处理方法
US11232323B2 (en) Method of merging images and data processing device
JP7277855B2 (ja) 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム
JP7210380B2 (ja) 画像学習プログラム、画像学習方法、及び画像認識装置
CN116503294B (zh) 基于人工智能的文物图像复原方法、装置及设备
JP2009069902A (ja) 画像処理方法およびプログラム
Okamoto et al. A Hierarchical Type Segmentation Algorithm based on Support Vector Machine for Colorectal Endoscopic Images with NBI Magnification
Sappa et al. Edge point linking by means of global and local schemes
CA3237536A1 (en) Machine learning system and method for object-specific recognition
Wang et al. UFC-Net: Unrolling Fixed-point Continuous Network for Deep Compressive Sensing
Cheung et al. TransformMix: Learning Transformation and Mixing Strategies from Data
Smolka et al. Application of the self-avoiding random walk noise reduction algorithm in the colour image segmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240311

R150 Certificate of patent or registration of utility model

Ref document number: 7462168

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150