JP2020038664A - コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network} - Google Patents
コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network} Download PDFInfo
- Publication number
- JP2020038664A JP2020038664A JP2019160238A JP2019160238A JP2020038664A JP 2020038664 A JP2020038664 A JP 2020038664A JP 2019160238 A JP2019160238 A JP 2019160238A JP 2019160238 A JP2019160238 A JP 2019160238A JP 2020038664 A JP2020038664 A JP 2020038664A
- Authority
- JP
- Japan
- Prior art keywords
- test
- learning
- feature map
- feature maps
- inverse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 118
- 230000006870 function Effects 0.000 claims abstract description 127
- 238000012360 testing method Methods 0.000 claims description 119
- 230000009466 transformation Effects 0.000 claims description 87
- 230000008569 process Effects 0.000 claims description 80
- 230000011218 segmentation Effects 0.000 claims description 76
- 230000001131 transforming effect Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 238000010998 test method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 241000282472 Canis lupus familiaris Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
このような方法の一つとして、セグメンテーションを行う際、CNNを複数利用してセグメンテーションの精度を高め得る。即ち、同一の入力データに対して複数のCNN装置へ入力した後、複数のCNN装置それぞれの出力を合わせて利用するが、その場合、複数のCNN装置のパラメータの初期値も毎回ランダムに設定し、一つのセグメンテーション結果値を得るために複数のCNN装置を個別に学習させなければならないという問題点が存在する。
本発明の他の目的は、CNN装置の数を一つだけ利用しながらも、一つの入力イメージから多様な情報を得ることができるので、セグメンテーション性能を向上させ得る方法を提供することを目的とする。
一例として、前記複数の学習用逆変換特徴マップ及び前記複数のテスト用逆変換特徴マップの各ピクセルごとにそれぞれのセグメンテーションスコアを有し、前記(iv)プロセスで、前記CNN装置は、前記複数の学習用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記複数の学習用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記学習用統合された特徴マップを取得し、前記(e)段階で、前記テスト装置は、前記テスト用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記テスト用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記テスト用統合特徴マップを取得することを特徴とする方法が提供される。
また、本発明によれば、一つの入力イメージから多くの多様な結果を得てこれを統合することでセグメンテーションの性能に優れたCNN装置、学習装置、あるいはテスト装置を実装できる効果がある。
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
Claims (24)
- コンボリューションニューラルネットワーク(Convolutional Neural Network)から複数の出力のアンサンブル(ensemble)を利用して統合された特徴マップを提供するための方法において、
(a)CNN装置が、入力イメージを受信し、前記入力イメージを変形させる複数の変形関数を適用して、複数の変形入力イメージを生成する段階;
(b)前記CNN装置が、前記変形した入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形した入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階;
(c)前記CNN装置が、前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階;及び
(d)前記CNN装置が、前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得する段階;
を含むことを特徴とする方法。 - 前記変形関数(Ti)は、前記入力イメージ(I)をn個の変形入力イメージ(Ti(I))に変形させる関数であり、
前記iは、1ないしnの自然数であり、
前記変形関数(Ti)は、逆変換関数(T−1 i(Ti(I))=I)が存在する関数であることを特徴とする請求項1に記載の方法。 - 前記変形関数(Ti)は、アフィン変換アルゴリズム(affine transform algorithm)及び薄板スプラインアルゴリズム(thin−plate spline algorithm)の中から少なくとも一つを利用して前記入力イメージ(I)を変形することを特徴とする請求項2に記載の方法。
- 前記それぞれの変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする請求項2に記載の方法。
- 前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記(d)段階で、
前記CNN装置は、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得することを特徴とする請求項1に記載の方法。 - 前記(d)段階で、
前記CNN装置は、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネルに対応するラベル(label)を該当ピクセルに付与することでセグメンテーション出力イメージを獲得することを特徴とする請求項5に記載の方法。 - 前記(c)段階で、
前記CNN装置は、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成することを特徴とする請求項6に記載の方法。 - (e)前記CNN装置が、(i)前記統合された特徴マップを参照して取得された出力値とGT(Ground Truth)値との差を基にロスを算出し、(ii)前記ロスを最小化するようバックプロパゲーションを遂行することにより前記CNN装置の少なくとも一つのパラメータを最適化する段階;
をさらに含むことを特徴とする請求項1に記載の方法。 - 入力イメージとしてのテストイメージに対するCNNテスト方法において、
(a)CNN装置を利用して(i)トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して複数の学習用変形入力イメージを生成するプロセス;(ii)前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス;(iii)前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;(iv)前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス;及び(v)前記学習用統合特徴マップを参照して取得された学習用出力値とGT値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより上記CNN装置のパラメータを最適化するプロセス;を経て学習された上記CNN装置のパラメータが獲得された状態で、上記学習された上記CNN装置の最適化されたパラメータを含むテスト装置が上記テスト用入力イメージを獲得する段階;
(b)前記テスト装置が、前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して複数のテスト用変形入力イメージを生成する段階;
(c)前記テスト装置が、前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得する段階;
(d)前記テスト装置が、前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応するテスト用逆変換特徴マップそれぞれを生成する段階;及び
(e)前記テスト装置が、前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合された特徴マップを取得する段階;
を含む方法。 - 前記変形関数(Ti)は、前記入力イメージ(I)をn個の変形入力イメージ(Ti(I))に変形させる関数であり、前記iは、1ないしnの自然数であり、前記変形関数(Ti)は、逆変換関数(T−1 i(Ti(I))=I)が存在する関数であることを特徴とする請求項9に記載の方法。
- 前記変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする請求項10に記載の方法。
- 前記複数の学習用逆変換特徴マップ及び前記複数のテスト用逆変換特徴マップの各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記(iv)プロセスで、
前記CNN装置は、前記複数の学習用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記複数の学習用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記学習用統合された特徴マップを取得し、
前記(e)段階で、
前記テスト装置は、前記テスト用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記テスト用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記テスト用統合特徴マップを取得することを特徴とする請求項9に記載の方法。 - コンボリューションニューラルネットワーク(Convolutional Neural Network)から複数の出力のアンサンブル(ensemble)を利用して統合された特徴マップを提供するための装置において、
トレーニングイメージとしての入力イメージを受信する通信部;及び
(1)前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス;(2)前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス;(3)前記変形した特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;及び(4)前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得するプロセス;を遂行するプロセッサ;
を含むことを特徴とするCNN装置。 - 前記変形関数(Ti)は、前記入力イメージ(I)をn個の変形入力イメージ(Ti(I))に変形させる関数であり、前記iは、1ないしnの自然数であり、前記変形関数(Ti)は、逆変換関数(T−1 i(Ti(I))=I)が存在する関数であることを特徴とする請求項13に記載のCNN装置。
- 前記変形関数(Ti)は、アフィン変換アルゴリズム(affine transform algorithm)及び薄板スプラインアルゴリズム(thin−plate spline algorithm)の中から少なくとも一つを利用して前記入力イメージ(I)を変形することを特徴とする請求項14に記載のCNN装置。
- 前記変形関数(Ti)は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする請求項14に記載のCNN装置。
- 前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記(4)プロセスで、
前記プロセッサは、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得することを特徴とする請求項13に記載のCNN装置。 - 前記(4)プロセスで、
前記プロセッサは、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネル値に対応するラベル(label)を該当ピクセルに付与することでセグメンテーション出力イメージを獲得することを特徴とする請求項17に記載のCNN装置。 - 前記(3)プロセスで、
前記プロセッサは、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成することを特徴とする請求項18に記載のCNN装置。 - 前記プロセッサは、(5)前記統合された特徴マップを参照して取得された出力値とGT値との差をもとにロスを算出し、前記ロスを最小化するようバックプロパゲーションを遂行することにより、前記CNN装置の少なくとも一つのパラメータを最適化するプロセス;
をさらに遂行することを特徴とする請求項13に記載のCNN装置。 - 入力イメージとしてのテストイメージに対するCNNテスト装置において、
CNN装置を利用して(i)トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して、複数の学習用変形入力イメージを生成するプロセス;(ii)前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス;(iii)前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;(iv)前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス;及び(v)前記学習用統合特徴マップを参照して取得された学習用出力値とGT値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより、上記CNN装置のパラメータを最適化するプロセス;を経て学習された上記CNN装置のパラメータが獲得された状態で、上記学習された上記CNN装置の最適化されたパラメータを含むテスト装置が、上記テスト用入力イメージを受信する通信部;及び
(1)前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して、複数のテスト用変形入力イメージを生成するプロセス;(2)前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得するプロセス;(3)前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;及び(4)前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合特徴マップを取得するプロセス;を遂行するプロセッサ;
を含むテスト装置。 - 前記変形関数(Ti)は、前記入力イメージ(I)をn個の変形入力イメージ(Ti(I))に変形させる関数であり、前記iは、1ないしnの自然数であり、前記変形関数(Ti)は、逆変換関数(T−1 i(Ti(I))=I)が存在する関数であることを特徴とする請求項21に記載のテスト装置。
- 前記変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする請求項22に記載のテスト装置。
- 前記複数の学習用逆変換の特徴マップ及び前記複数のテスト用逆変換特徴マップの各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記(iv)プロセスで、
前記CNN装置は、前記複数の学習用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記複数の学習用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記学習用統合された特徴マップを取得し、
前記(4)プロセスで、
前記テスト装置は、前記テスト用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記テスト用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記テスト用統合特徴マップを取得することを特徴とする請求項21に記載のテスト装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/121,031 | 2018-09-04 | ||
US16/121,031 US10311337B1 (en) | 2018-09-04 | 2018-09-04 | Method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020038664A true JP2020038664A (ja) | 2020-03-12 |
JP6863619B2 JP6863619B2 (ja) | 2021-04-21 |
Family
ID=66673551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019160238A Active JP6863619B2 (ja) | 2018-09-04 | 2019-09-03 | コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network} |
Country Status (5)
Country | Link |
---|---|
US (1) | US10311337B1 (ja) |
EP (1) | EP3620987A1 (ja) |
JP (1) | JP6863619B2 (ja) |
KR (1) | KR102313133B1 (ja) |
CN (1) | CN110874563B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11908128B2 (en) | 2019-07-10 | 2024-02-20 | L'oreal | Systems and methods to process images for skin analysis and to visualize skin analysis |
WO2024057543A1 (ja) * | 2022-09-16 | 2024-03-21 | 日本電信電話株式会社 | 画像データ生成装置、画像データ生成方法、および、画像データ生成プログラム |
JP7561379B2 (ja) | 2021-06-08 | 2024-10-04 | 日本電信電話株式会社 | 学習装置、学習方法及びプログラム |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110324664B (zh) * | 2019-07-11 | 2021-06-04 | 南开大学 | 一种基于神经网络的视频补帧方法及其模型的训练方法 |
US11631163B2 (en) | 2020-02-11 | 2023-04-18 | Samsung Electronics Co., Ltd. | Mobile data augmentation engine for personalized on-device deep learning system |
US11501107B2 (en) * | 2020-05-07 | 2022-11-15 | Adobe Inc. | Key-value memory network for predicting time-series metrics of target entities |
US11823353B2 (en) | 2020-07-28 | 2023-11-21 | Samsung Electronics Co., Ltd. | System and method for generating bokeh image for DSLR quality depth-of-field rendering and refinement and training method for the same |
US11330196B2 (en) * | 2020-10-12 | 2022-05-10 | Microsoft Technology Licensing, Llc | Estimating illumination in an environment based on an image of a reference object |
US11449968B2 (en) | 2020-12-31 | 2022-09-20 | Samsung Electronics Co., Ltd. | System and method for synthetic depth-of-field effect rendering for videos |
US20220383037A1 (en) * | 2021-05-27 | 2022-12-01 | Adobe Inc. | Extracting attributes from arbitrary digital images utilizing a multi-attribute contrastive classification neural network |
KR20220163635A (ko) * | 2021-06-03 | 2022-12-12 | 삼성전자주식회사 | 뉴럴 네트워크의 양자화 방법 및 이를 수행하는 장치 |
CN113393468A (zh) * | 2021-06-28 | 2021-09-14 | 北京百度网讯科技有限公司 | 图像处理方法、模型训练方法、装置和电子设备 |
US20230077353A1 (en) * | 2021-08-31 | 2023-03-16 | University Of South Florida | Systems and Methods for Classifying Mosquitoes Based on Extracted Masks of Anatomical Components from Images |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017004350A (ja) * | 2015-06-12 | 2017-01-05 | 株式会社リコー | 画像処理装置、画像処理方法、及びプログラム |
US20170124433A1 (en) * | 2015-11-04 | 2017-05-04 | Nec Laboratories America, Inc. | Unsupervised matching in fine-grained datasets for single-view object reconstruction |
US20180061059A1 (en) * | 2016-08-26 | 2018-03-01 | Elekta, Inc. | System and methods for image segmentation using convolutional neural network |
JP2018120591A (ja) * | 2017-01-24 | 2018-08-02 | 富士通株式会社 | 文書の向きの認識方法、認識装置及びニューラルネットワーク |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102130162B1 (ko) * | 2015-03-20 | 2020-07-06 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 인공 신경망들에 대한 관련성 스코어 할당 |
CN108475415B (zh) * | 2015-12-21 | 2022-05-27 | 商汤集团有限公司 | 用于图像处理的方法和系统 |
US10303977B2 (en) * | 2016-06-28 | 2019-05-28 | Conduent Business Services, Llc | System and method for expanding and training convolutional neural networks for large size input images |
CN106339753A (zh) * | 2016-08-17 | 2017-01-18 | 中国科学技术大学 | 一种有效提升卷积神经网络稳健性的方法 |
JP6929047B2 (ja) * | 2016-11-24 | 2021-09-01 | キヤノン株式会社 | 画像処理装置、情報処理方法及びプログラム |
JP2018092610A (ja) * | 2016-11-28 | 2018-06-14 | キヤノン株式会社 | 画像認識装置、画像認識方法及びプログラム |
KR20180065498A (ko) * | 2016-12-08 | 2018-06-18 | 한국항공대학교산학협력단 | 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법 |
US10147019B2 (en) * | 2017-03-20 | 2018-12-04 | Sap Se | Small object detection |
CN108416318A (zh) * | 2018-03-22 | 2018-08-17 | 电子科技大学 | 基于数据增强的合成孔径雷达图像目标深度模型识别方法 |
-
2018
- 2018-09-04 US US16/121,031 patent/US10311337B1/en active Active
-
2019
- 2019-07-03 EP EP19184054.5A patent/EP3620987A1/en active Pending
- 2019-08-27 KR KR1020190105472A patent/KR102313133B1/ko active IP Right Grant
- 2019-08-29 CN CN201910806630.0A patent/CN110874563B/zh active Active
- 2019-09-03 JP JP2019160238A patent/JP6863619B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017004350A (ja) * | 2015-06-12 | 2017-01-05 | 株式会社リコー | 画像処理装置、画像処理方法、及びプログラム |
US20170124433A1 (en) * | 2015-11-04 | 2017-05-04 | Nec Laboratories America, Inc. | Unsupervised matching in fine-grained datasets for single-view object reconstruction |
US20180061059A1 (en) * | 2016-08-26 | 2018-03-01 | Elekta, Inc. | System and methods for image segmentation using convolutional neural network |
JP2018120591A (ja) * | 2017-01-24 | 2018-08-02 | 富士通株式会社 | 文書の向きの認識方法、認識装置及びニューラルネットワーク |
Non-Patent Citations (3)
Title |
---|
LIANG-CHIEH CHEN, 外4名: ""Attention to Scale: Scale-aware Semantic Image Segmentation"", 2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN6020043999, 30 June 2016 (2016-06-30), US, pages 3640 - 3649, XP033021548, ISSN: 0004388846, DOI: 10.1109/CVPR.2016.396 * |
大賀隆裕, 外2名: ""Data and Test Time Augmentationによるアンサンブル学習の効果検証"", 電子情報通信学会技術研究報告, vol. 第117巻, 第392号, JPN6020043996, 11 January 2018 (2018-01-11), JP, pages 135 - 140, ISSN: 0004388847 * |
片山隼多, 外6名: ""画像検査システムの評価のための模擬検査画像生成の検討"", 第23回画像センシングシンポジウム, JPN6020043998, 31 December 2017 (2017-12-31), JP, pages 3 - 3, ISSN: 0004388848 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11908128B2 (en) | 2019-07-10 | 2024-02-20 | L'oreal | Systems and methods to process images for skin analysis and to visualize skin analysis |
JP7561379B2 (ja) | 2021-06-08 | 2024-10-04 | 日本電信電話株式会社 | 学習装置、学習方法及びプログラム |
WO2024057543A1 (ja) * | 2022-09-16 | 2024-03-21 | 日本電信電話株式会社 | 画像データ生成装置、画像データ生成方法、および、画像データ生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3620987A1 (en) | 2020-03-11 |
CN110874563B (zh) | 2023-10-17 |
CN110874563A (zh) | 2020-03-10 |
JP6863619B2 (ja) | 2021-04-21 |
KR102313133B1 (ko) | 2021-10-18 |
KR20200027426A (ko) | 2020-03-12 |
US10311337B1 (en) | 2019-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020038664A (ja) | コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network} | |
JP6908946B2 (ja) | 距離予測が可能なレーダを通じて取得される情報とカメラを通じて取得される情報とを統合するセンサ融合を遂行することによって、自律走行を支援するニューラルネットワークを向上させる学習方法及び学習装置、そしてこれを使用したテスト方法及びテスト装置 | |
JP6847464B2 (ja) | 車線候補ピクセルを分類して車線を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane through classifying lane candidate pixels and test method, test device using the same} | |
JP6856851B2 (ja) | イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置 | |
JP6865363B2 (ja) | ラプラシアンピラミッドネットワークを利用して自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物検出におけるセグメンテーション性能向上のための学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置 | |
JP6793411B2 (ja) | 自律走行状況で障害物検出のための学習用データセットの生成方法及びこれを利用したコンピューティング装置、学習方法及び学習装置 | |
KR102337376B1 (ko) | 레인 마스크(Lane Mask)를 사용하여 후처리 없이 입력 이미지에 포함된 하나 이상의 차선을 검출하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
JP6957050B2 (ja) | モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same} | |
JP6856952B2 (ja) | 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
CN111507927A (zh) | 在神经网络中统合图像及点云图的方法及装置 | |
EP3686795B1 (en) | Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same | |
KR102313119B1 (ko) | 자율주행 자동차의 레벨 4를 충족시키기 위해 요구되는 hd 맵 업데이트에 이용될 적어도 하나의 어댑티브 로스 가중치 맵을 이용한 어텐션 드리븐 이미지 세그먼테이션 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치 | |
JP6847463B2 (ja) | CNN(Convolutional Neural Network)を利用して車線を検出するための学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE FOR DETECTING LANE USING CNN AND TEST METHOD, TEST DEVICE USING THE SAME} | |
KR20200047307A (ko) | 유용한 학습 데이터를 취사 선별하기 위한 cnn 기반 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
US10496899B1 (en) | Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same | |
JP6935939B2 (ja) | マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置 | |
JP2020119518A (ja) | ハードウェア最適化を通じてモバイル装置または高精度の小型ネットワークに使用されるcnnパラメータ量子化を最適化するためにcnnレイヤを変換する方法及び装置 | |
JP6916548B2 (ja) | 自律走行自動車のレベル4を満たすために必要なhdマップとのコラボレーションを支援するエンベディングロス及びソフトマックスロスを利用して少なくとも一つの車線を有するイメージをセグメンテーションする学習方法及び学習装置、並びにそれを利用したテスト方法及びテスト装置 | |
JP2020038661A (ja) | 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same} | |
JP6916549B2 (ja) | 軍事的目的、ドローンまたはロボットに利用されるために一つ以上の以前のバッチをさらに参照してモバイル装置またはiot装置に適用可能なオンラインバッチ正規化、オンデバイス学習、及び連続学習を遂行する方法と装置、並びにそれを利用したテスト方法及びテスト装置 | |
US11461653B2 (en) | Learning method and learning device for CNN using 1xK or Kx1 convolution to be used for hardware optimization, and testing method and testing device using the same | |
US10402686B1 (en) | Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same | |
CN113159236A (zh) | 基于多尺度变换的多聚焦图像融合方法及装置 | |
EP3690718A1 (en) | Learning method and learning device for allowing cnn having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same | |
US10373004B1 (en) | Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190903 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6863619 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |