JP6863619B2 - コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network} - Google Patents

コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network} Download PDF

Info

Publication number
JP6863619B2
JP6863619B2 JP2019160238A JP2019160238A JP6863619B2 JP 6863619 B2 JP6863619 B2 JP 6863619B2 JP 2019160238 A JP2019160238 A JP 2019160238A JP 2019160238 A JP2019160238 A JP 2019160238A JP 6863619 B2 JP6863619 B2 JP 6863619B2
Authority
JP
Japan
Prior art keywords
transformation
feature map
test
pixel
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019160238A
Other languages
English (en)
Other versions
JP2020038664A (ja
Inventor
キム、ケヒョン
キム、ヨンジョン
キム、インス
キム、ハキョン
ナム、ウンヒュン
ボ、シュクフン
スン、ミュンチュル
ヨー、ドンフン
リュウ、ウージュ
ジャン、テウォン
ジョン、キュンジョン
ジェ、ホンモ
チョ、ホジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020038664A publication Critical patent/JP2020038664A/ja
Application granted granted Critical
Publication of JP6863619B2 publication Critical patent/JP6863619B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、コンボリューションニューラルネットワーク(Convolutional Neural Network)から複数の出力のアンサンブル(ensemble)を利用して統合された特徴マップを提供するための方法及び装置に関する。より詳しくは、(a)CNN装置が、入力イメージを受信し、前記入力イメージを変形させる複数の変形関数を適用して、複数の変形入力イメージを生成する段階;(b)前記CNN装置が、前記変形した入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形した入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階;(c)前記CNN装置が、前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階;及び(d)前記CNN装置が、前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得する段階;を含むことを特徴とする方法及びこれを利用した装置に関する。
ディープラーニング(Deep Learning)は、モノやデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけでは犬と猫を区別することができない。しかし、人はとても簡単に区別できる。このため「機械学習(Machine Learning)」という方法が考案された。多くのデータをコンピュータに入力し、類似したものを分類するようにする技術である。保存されている犬の写真と似たような写真が入力されると、これを犬の写真だとコンピュータが分類するようにしたのである。
データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場している。「決定木」や「ベイジアンネットワーク」「サポートベクターマシン(SVM)」「人工神経網」などが代表的である。このうち、ディープラーニングは人工神経網の後裔である。
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;DeepCNNs)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNsは、文字の認識問題を解くために90年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげである。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習分野で非常に有用なツールとなった。一方、イメージセグメンテーションは、入力としてイメージ(トレーニングイメージまたはテストイメージ)を受けて出力としてラベルイメージを生成する方法である。最近はディープラーニング(Deep learning)技術が脚光を浴び、セグメンテーションを遂行する際もディープラーニングを多く利用する傾向にある。
一方、このようなセグメンテーション性能向上のための様々な方法が提示されている。
このような方法の一つとして、セグメンテーションを行う際、CNNを複数利用してセグメンテーションの精度を高め得る。即ち、同一の入力データに対して複数のCNN装置へ入力した後、複数のCNN装置それぞれの出力を合わせて利用するが、その場合、複数のCNN装置のパラメータの初期値も毎回ランダムに設定し、一つのセグメンテーション結果値を得るために複数のCNN装置を個別に学習させなければならないという問題点が存在する。
本発明は、前述した全ての問題点を解決することを目的とする。
本発明の他の目的は、CNN装置の数を一つだけ利用しながらも、一つの入力イメージから多様な情報を得ることができるので、セグメンテーション性能を向上させ得る方法を提供することを目的とする。
本発明の一態様によれば、コンボリューションニューラルネットワーク(Convolutional Neural Network)から複数の出力のアンサンブル(ensemble)を利用して統合された特徴マップを提供するための方法において、(a)CNN装置が、入力イメージを受信し、前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成する段階;(b)前記CNN装置が、前記変形した入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形した入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階;(c)前記CNN装置が、前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階;及び(d)前記CNN装置が、前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得する段階;を含むことを特徴とする方法が提供される。
一例として、前記変形関数(T)は、前記入力イメージ(I)をn個の変形入力イメージ(T(I))に変形させる関数であり、前記iは、1ないしnの自然数であり、前記変形関数(T)は、逆変換関数(T−1 (T(I))=I)が存在する関数であることを特徴とする方法が提供される。
一例として、前記変形関数(T)は、アフィン変換アルゴリズム(affine transform algorithm)及び薄板スプラインアルゴリズム(thin−plate spline algorithm)の中から少なくとも一つを利用して前記入力イメージ(I)を変形することを特徴とする方法が提供される。
一例として、前記それぞれの変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする方法が提供される。
一例として、前記複数の逆変換特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、前記(d)段階で、前記CNN装置は、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得することを特徴とする方法が提供される。
一例として、前記(d)段階で、前記CNN装置は、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネルに対応するラベル(label)を該当ピクセルに付与することでセグメンテーション出力イメージを獲得することを特徴とする方法が提供される。
一例として、前記(c)段階で、前記CNN装置は、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成することを特徴とする方法が提供される。
一例として、(e)前記CNN装置が、(i)前記統合された特徴マップを参照して取得された出力値とGT(Ground Truth)値との差を基にロスを算出し、(ii)前記ロスを最小化するようバックプロパゲーションを遂行することにより、前記CNN装置の少なくとも一つのパラメータを最適化する段階;をさらに含むことを特徴とする方法が提供される。
本発明のまたの態様によれば、入力イメージとしてのテストイメージに対するCNNテスト方法において、(a)CNN装置を利用して(i)トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して、複数の学習用変形入力イメージを生成するプロセス;(ii)前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス;(iii)前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;(iv)前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス;及び(v)前記学習用統合特徴マップを参照して取得された学習用出力値とGT値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより、上記CNN装置のパラメータを最適化するプロセス;を経て学習された上記CNN装置のパラメータが獲得された状態で、上記学習された上記CNN装置の最適化されたパラメータを含むテスト装置が、上記テスト用入力イメージを獲得する段階;(b)前記テスト装置が、前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して複数のテスト用変形入力イメージを生成する段階;(c)前記テスト装置が、前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得する段階;(d)前記テスト装置が、前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応するテスト用逆変換特徴マップそれぞれを生成する段階;及び(e)前記テスト装置が、前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合された特徴マップを取得する段階;を含む方法が提供される。
一例として、前記変形関数(T)は、前記入力イメージ(I)をn個の変形入力イメージ(T(I))に変形させる関数であり、前記iは、1ないしnの自然数であり、前記変形関数(T)は、逆変換関数(T−1 (T(I))=I)が存在する関数であることを特徴とする方法が提供される。
一例として、前記変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする方法が提供される。
一例として、前記複数の学習用逆変換特徴マップ及び前記複数のテスト用逆変換特徴マップの各ピクセルごとにそれぞれのセグメンテーションスコアを有し、前記(iv)プロセスで、前記CNN装置は、前記複数の学習用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記複数の学習用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記学習用統合された特徴マップを取得し、前記(e)段階で、前記テスト装置は、前記テスト用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記テスト用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記テスト用統合特徴マップを取得することを特徴とする方法が提供される。
本発明のまた他の態様によれば、コンボリューションニューラルネットワーク(Convolutional Neural Network)から複数の出力のアンサンブル(ensemble)を利用して統合された特徴マップを提供するための装置において、トレーニングイメージとしての入力イメージを受信する通信部;及び(1)前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス;(2)前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス;(3)前記変形した特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;及び(4)前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得するプロセス;を遂行するプロセッサ;を含むことを特徴とするCNN装置が提供される。
一例として、前記変形関数(T)は、前記入力イメージ(I)をn個の変形入力イメージ(T(I))に変形させる関数であり、前記iは、1ないしnの自然数であり、前記変形関数(T)は、逆変換関数(T−1 (T(I))=I)が存在する関数であることを特徴とするCNN装置が提供される。
一例として、前記変形関数(T)は、アフィン変換アルゴリズム(affine transform algorithm)及び薄板スプラインアルゴリズム(thin−plate spline algorithm)の中から少なくとも一つを利用して前記入力イメージ(I)を変形することを特徴とするCNN装置が提供される。
一例として、前記変形関数(T)は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とするCNN装置が提供される。
一例として、前記複数の逆変換特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、前記(4)プロセスで、前記プロセッサは、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得することを特徴とするCNN装置が提供される。
一例として、前記(4)プロセスで、前記プロセッサは、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネル値に対応するラベル(label)を該当ピクセルに付与することでセグメンテーション出力イメージを獲得することを特徴とするCNN装置が提供される。
一例として、前記(3)プロセスで、前記プロセッサは、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成することを特徴とするCNN装置が提供される。
一例として、前記プロセッサは、(5)前記統合された特徴マップを参照して取得された出力値とGT値との差をもとにロスを算出し、前記ロスを最小化するようバックプロパゲーションを遂行することにより、前記CNN装置の少なくとも一つのパラメータを最適化するプロセス;をさらに遂行することを特徴とするCNN装置が提供される。
本発明のまた他の態様によれば、入力イメージとしてのテストイメージに対するCNNテスト装置において、CNN装置を利用して(i)トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して、複数の学習用変形入力イメージを生成するプロセス;(ii)前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス;(iii)前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;(iv)前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス;及び(v)前記学習用統合特徴マップを参照して取得された学習用出力値とGT値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより、上記CNN装置のパラメータを最適化するプロセス;を経て学習された上記CNN装置のパラメータが獲得された状態で、上記学習された上記CNN装置の最適化されたパラメータを含むテスト装置が、上記テスト用入力イメージを受信する通信部;及び(1)前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して、複数のテスト用変形入力イメージを生成するプロセス;(2)前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得するプロセス;(3)前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;及び(4)前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合特徴マップを取得するプロセス;を遂行するプロセッサ;を含むテスト装置が提供される。
一例として、前記変形関数(T)は、前記入力イメージ(I)をn個の変形入力イメージ(T(I))に変形させる関数であり、前記iは、1ないしnの自然数であり、前記変形関数(T)は、逆変換関数(T−1 (T(I))=I)が存在する関数であることを特徴とするテスト装置が提供される。
一例として、前記変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とするテスト装置が提供される。
一例として、前記複数の学習用逆変換の特徴マップ及び前記複数のテスト用逆変換特徴マップの各ピクセルごとにそれぞれのセグメンテーションスコアを有し、前記(iv)プロセスで、前記CNN装置は、前記複数の学習用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記複数の学習用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記学習用統合された特徴マップを取得し、前記(4)プロセスで、前記テスト装置は、前記テスト用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記テスト用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記テスト用統合特徴マップを取得することを特徴とするテスト装置が提供される。
本発明によれば、CNN装置、学習装置、またはテスト装置を1つだけ利用しながらも、一つの入力イメージから複数の他の特徴マップを取得する効果がある。
また、本発明によれば、一つの入力イメージから多くの多様な結果を得てこれを統合することでセグメンテーションの性能に優れたCNN装置、学習装置、あるいはテスト装置を実装できる効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野において、通常の知識を有する者(以下「通常の技術者」)は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
図1は、本発明に係る入力イメージの変形によって取得された多数のイメージセットを利用して学習を遂行する方法を示すフローチャートである。 図2は、本発明に係る入力イメージの変形によって取得された多数のイメージセットを利用してセグメンテーションを遂行する過程を示す図面である。 図3は、図2に図示したセグメンテーションの過程を各段階別に示した図面である。 図4は、図2に図示したセグメンテーションの過程を各段階別に示した図面である。 図5は、図2に図示したセグメンテーションの過程を各段階別に示した図面である。 図6は、図2に図示したセグメンテーションの過程を各段階別に示した図面である。 図7は、本発明に係るCNNの全体演算の過程を示す図面である。
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は、本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面において類似する参照符号は、いくつかの側面にわたって同一であるか、類似する機能を指す。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得るし、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得り、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本明細書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は、実例として提供され、本発明を限定することを意図したものではない。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。
図1は、本発明に係る入力イメージの変形を通じて取得された多数のイメージセットを利用して学習を遂行する方法を示すフローチャートであり、図2は、本発明による、入力イメージの変形によって取得された多数のイメージセットを利用してセグメンテーションを遂行する過程を示した図面であり、図3ないし図6は、図2に示したセグメンテーションの過程を各段階別に示した図面であり、図7は本発明に係るCNNの全体演算の過程を示した図面である。
図1を参照すれば、本発明に係るCNN学習方法は、(i)入力イメージを受信し、入力イメージを変形させる複数の変形関数を適用して複数の変形入力のイメージを生成する段階S01、(ii)変形された入力のイメージそれぞれに対してコンボリューション演算を適用して変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階S02、(iii)変形された特徴マップそれぞれに対して変形関数それぞれに対応する逆変換関数をそれぞれ適用して変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階S03、(iv)逆変換の特徴マップのうち少なくとも一部を統合して統合された特徴マップを取得する段階S04、(v)統合された特徴マップを参照してセグメンテーションの結果を取得する段階S05及び(vi)出力値、つまり、セグメンテーション結果値とGT値との間の差に基づいてロスを算出し、CNNを学習する段階S06を含む。ここで、段階S06は必須ではなく、段階S01から段階S05まで遂行してセグメンテーションの結果を得る過程も本発明の重要な特徴と言えるであろう。
このようなプロセスはCNN装置において遂行され得る。このCNN装置の通信部では入力イメージを受信し、CNN装置のプロセッサでは(1)前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス;(2)前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス;(3)前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換の特徴マップそれぞれを生成するプロセス;及び(4)前記逆変換の特徴マップのうち、少なくとも一部を統合して、統合された特徴マップを取得するプロセスを遂行する。
もちろん、このようなCNNを学習する学習装置(未図示)のプロセッサは、(1)トレーニングイメージとしての入力イメージを受信し、入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス;(2)前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス;(3)前記変形された特徴マップそれぞれに対して前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換の特徴マップそれぞれを生成するプロセス;及び(4)前記逆変換の特徴マップのうち少なくとも一部を統合して、統合された特徴マップを生成してセグメンテーション結果(出力値)を取得するプロセスを遂行した後、セグメンテーションの結果(出力値)とGT値との差を基にロスを算出し、ロスを最小化するためにバックプロパゲーションを遂行することで、CNN装置の少なくとも一つのパラメータを最適化するプロセスを遂行することを特徴とする。
一方、本発明に係るCNNテスト方法では、前記学習過程によって最適化された少なくとも一つのパラメータを有するCNN装置を利用し、前記で言及した段階S01で段階S05を遂行し得る。
具体的には、本発明に係るCNNテスト方法は、ロスを減らすようにバックプロパゲーションを遂行することにより、CNN装置の少なくとも一つのパラメータを最適化するプロセスを経て学習された前記CNN装置のパラメータが取得された状態で、学習されたCNN装置の最適化されたパラメータを含むテスト装置が、テスト用入力イメージを取得すると、(i)取得されたテスト用入力イメージを変形させる複数の変形関数を適用して複数のテスト用変形入力イメージを生成し、(ii)テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用してテスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得した後、(iii)テスト用変形特徴マップそれぞれに対して、変形関数それぞれに対応する逆変換関数をそれぞれ適用して、テスト用変形特徴マップそれぞれに対応するテスト用逆変換特徴マップそれぞれを生成する。
そして、テスト用の逆変換特徴マップのうち少なくとも一部を統合してテスト用の統合特徴マップを取得し、セグメンテーション結果を取得することになる。これらの装置はテスト装置によって遂行され得るし、テスト装置の通信部は、テスト用入力イメージを受信する機能をし、テスト装置のプロセッサは前述の各段階に該当するプロセスを遂行する。
以下、図2ないし図7を参照して、本発明に係るCNNを利用したセグメンテーションの過程及びこれを利用した学習過程及びテスト過程をもう少し具体的に説明する。もちろん、本発明はセグメンテーションに用いられることに限られるものではなく、前記統合特徴マップが多様な場合に適用され得ることは勿論であろう。
図2及び図3に図示されているように、段階S01で、CNN装置が一つの入力イメージを取得すれば(またはテスト装置がテストイメージを取得)、この入力イメージ(I)を変形させる複数の変形関数(T)を適用して複数の変形入力イメージ(T(I))を生成する。例えば、図3を参照すれば、変形関数(T)が4つの方法で入力イメージ(I)を変形させ、4つの変形入力イメージ(T(I))を生成していることがわかる。一般化すると、前記変形関数(T)は、入力イメージ(I)をn個の変形入力イメージ(T(I))に変形させる関数であり、ここでiは1ないしnの自然数であり、前記変形関数(T)はこれと対応する逆変換関数(T−1 )を有している。つまり、T−1 (T(I))=Iである。
この際、変形関数(T)は、スケーリング関数(scaling function)やトランジション関数(transition function)でもあり得るし、アフィン変換アルゴリズム(affine transform algorithm)及び薄板スプライン補間アルゴリズム(thin−plate spline interpolation algorithm)など様々なアルゴリズムが利用され得る。また、それぞれの変形関数(T)は様々なアルゴリズムを利用し得るが、一つのアルゴリズムを適用するが、これに適用される細部パラメータは差異のある関数でもあり得る。
このように、変形関数(T)によって生成される変形入力イメージ(T(I))を比較すると、セグメンテーションしようするそれぞれの物体の位置や大きさが微妙に異なることが分かる。
そして図4に図示されているように、段階S02で、CNN装置が、変形された入力イメージそれぞれ(T(I))に対してコンボリューション演算を適用して変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれ(S =CNN(T(I))を取得する。
図7は、CNN演算によって特徴マップを生成する過程を例示的に図示する。
図7を参照して、CNN演算によって変形された特徴マップ(S)を生成する段階S02を具体的に説明すると、複数の変形入力イメージ(T(I))をCNN装置に入力し、コンボリューションレイヤに含まれている複数のコンボリューションフィルタで複数のコンボリューション演算を遂行してコンボリューションKレイヤの出力をそれぞれ取得する。それから生成されたコンボリューションKレイヤの出力それぞれを再びデコンボリューションレイヤに含まれた複数のデコンボリューションフィルタで数回のデコンボリューション演算を遂行して、デコンボリューション1レイヤの出力をそれぞれ取得する。すなわち、変形された特徴マップ(S)それぞれを取得する。そして追加演算によって変形された特徴マップ(S)それぞれからセグメンテーション結果を得る。ここで、追加演算はすでに公知の技術として当業者に知られているものなので、具体的に説明しない。一方、図7では便宜上、一つの変形された入力のイメージを図示したが、複数の変形された入力イメージそれぞれに適用できるであろう。
次に、本発明においてセグメンテーションの過程は段階S03及び段階S04以降に行われる。ここで、少なくとも一つのコンボリューション演算でイメージをエンコードして特徴マップを取得し、特徴マップをデコードして再びセグメンテーションイメージを取得する仕組みをインコーディング・ディコーディングネットワーク、またはU−Netという。エンコード過程で、各コンボリューション演算を遂行するたびに入力イメージの大きさが、例えば1/2に小さくなるのだが、これはイメージのサイズを縮小して演算量を減らすためである。また、エンコードの過程でコンボリューションフィルタによって入力されたイメージのチャネル数は増加するが、これは減少した演算量の利得を活用しながらも増えたチャンネルを通じて複雑なパターンを得るためである。たとえば、エンコード過程でそれぞれのコンボリューションフィルタを経るたびにイメージサイズは1/2に縮小されてチャネル数は2倍に増える場合、このように縮小された特徴マップは高周波領域が多く除去され、低周波領域中心の情報を有することになるのだが、このような低周波領域は、イメージの意味のある(meaningful)部分、すなわち、空、道路、建物、自動車などの有意義な部分を意味する。デコンボリューション演算、すなわちデコード演算によって出力された特徴マップにより、このような意味のある部分に対するセグメンテーション結果を取得することになる。
次に、図5に図示されているように、段階S03で、CNN装置が、変形された特徴マップ(S)それぞれに対応する逆変換関数(T−1 )をそれぞれ適用して変形された特徴マップそれぞれに対応する逆変換特徴マップ(T−1 (S))それぞれを生成する。この際、逆変換特徴マップ(T−1 (S))それぞれは、各ピクセルごとにセグメンテーションスコアを有する。この段階は、逆変換関数を利用して、複数の変形入力イメージ(T(I))のセグメンテーション結果である変形された各特徴マップ(S)の各ピクセルを入力イメージ(I)のセグメンテーション結果での各対応する位置に移動させることで、複数の逆変換特徴マップ(T−1 (S))を生成する過程である。つまり、入力イメージにおいて、ある物体のピクセル位置が(x,y)であったが、この位置に変形関数(T)が適用されることにより(x’,y’)に変更されたなら、変形された特徴マップ(S)での前記ピクセルの対応位置も(x’,y’)に対応する位置に存在することになる。この位置にCNN装置が逆変換関数(T−1 )を適用し、そのピクセルの位置を(x,y)に対応する位置へ再び移動させる。
段階S04で、図6に図示されているように、逆変換特徴マップ(T−1 (S))の中から少なくとも一部を統合して統合された特徴マップを取得する。例えば、この段階は逆変換の特徴マップ(T−1 (S))それぞれの各ピクセルの各スコアを合わせた演算を遂行し、下記のような数式で表される。
Figure 0006863619
また、この段階は、逆変換特徴マップ(T−1 (S))それぞれの各ピクセルごとの各スコアの平均値を求めることもでき、各ピクセルごと各スコアの中央値を求めて得ることも、各ピクセルごとの各スコアの最大値を求めて得ることもできるであろう。ここで、中央値は、n個の中で(n/2)番目の値が有する値を意味する。
この過程によってCNN装置は、逆変換の特徴マップの各ピクセルの相対的な位置を参照して逆変換特徴マップそれぞれに対応する各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合特徴マップを取得し得る。
ここで、統合された特徴マップにおいて、ピクセルごとのチャネル値の中で最も高いチャネル値に対応するラベル(label)を該当ピクセルに付与することでセグメンテーションラベルが得られる。つまり、段階S04で、特徴マップを統合して、各イメージごとにセグメンテーションスコアマップを取得し、このセグメンテーションスコアマップは、得ようとしているクラスに対応するチャネル(例えば、クラスがN個であれば、それぞれ一つのクラスに対応するN個のチャネルと背景(background)に対応するチャネル1つを合わせたN+1個のチャネル)で構成されていて、各ピクセルごとのN+1個のチャネル値の中から最も高い値を有するチャネルに対応するラベルを該当ピクセルに付与してセグメンテーション出力イメージを生成する。また、セグメンテーションの出力イメージを求めるのに必要な様々な線形あるいは非線形演算を更に遂行することも可能であろう。
そして、段階S06で、CNN装置が、統合特徴マップを参照して取得した出力値(つまり、セグメンテーション結果)とGT値との差を基にロスを算出し、前記ロスを最小化するようにバックプロパゲーションを遂行することにより、CNN装置の少なくとも一つのパラメータを最適化する。これを、図7を参照して説明すると、CNN装置は、学習する過程で、入力イメージをトレーニングイメージとして取得し、算出されたセグメンテーションイメージとGTイメージとの差であるロスを計算する。そして、セグメンテーションイメージを求める過程と反対方向に遡るバックプロパゲーション過程によって、上記CNN装置のパラメータを最適化する学習を行うことになる。
本発明によれば、CNN装置を一つだけ学習して、一つの入力イメージを複数の変形された入力イメージに変えた後、これら複数の変形された入力イメージから得られた結果を合わせると、一つの入力イメージから多くの特徴マップを取得し、併せて様々な結果が得られ得る。これにより、セグメンテーションを含むCNN装置の性能が向上され得る。つまり、aイメージを入れた場合はセグメンテーション結果が良好でも、aから少し変形したイメージであるa’イメージを入れるとセグメンテーション結果が悪くなるなど、入力イメージが少しずつ異なるとセグメンテーションの結果も異なることがあるが、これらの少しずつ異なる変形イメージを考慮して統合された特徴マップを取得すれば、より正確なセグメンテーションの結果が得られる。
このような過程は、CNN学習過程を経て得られた実際のテスト過程でも同様に適用され得るであろう。すなわち、前述のとおり、テスト装置が、(i)テスト用入力イメージを変形させる複数の変形関数を適用して複数のテスト用変形入力イメージを生成し、(ii)テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用してテスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得した後、(iii)テスト用変形特徴マップそれぞれに対して変形関数それぞれに対応する逆変換関数をそれぞれ適用して、テスト用変形特徴マップそれぞれに対応するテスト用逆変換特徴マップそれぞれを生成し、(iv)テスト用逆変換特徴マップの少なくとも一部を統合してテスト用統合特徴マップを取得する。ここで、統合特徴マップを取得してからセグメンテーションの結果を得れば、より正確なセグメンテーションの結果を得ることができる。
本発明の技術分野の通常の技術者に理解され、(i)前記で説明されたイメージ、例えばトレーニングイメージ、テストイメージのようなイメージデータの送受信がCNN装置、学習装置及びテスト装置の各通信部によって行われ得るし、(ii)特徴マップと演算を遂行するためのデータが、CNN装置、学習装置及びテスト装置のプロセッサ(及び/またはメモリ)によって保有/維持でき得るし、(iii)コンボリューション演算、デコンボリューション演算、ロス値の演算過程が主にCNN装置、学習装置及びテスト装置のプロセッサにより遂行され得るが、本発明はこれに限定されるものではない。
以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−opticalmedia)、およびROM、RAM、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得るし、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
以下に、本願の当初の特許請求の範囲に記載された発明を付記する。
[1]
コンボリューションニューラルネットワーク(Convolutional Neural Network)から複数の出力のアンサンブル(ensemble)を利用して統合された特徴マップを提供するための方法において、
(a)CNN装置が、入力イメージを受信し、前記入力イメージを変形させる複数の変形関数を適用して、複数の変形入力イメージを生成する段階;
(b)前記CNN装置が、前記変形した入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形した入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階;
(c)前記CNN装置が、前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階;及び
(d)前記CNN装置が、前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得する段階;
を含むことを特徴とする方法。
[2]
前記変形関数(T )は、前記入力イメージ(I)をn個の変形入力イメージ(T (I))に変形させる関数であり、
前記iは、1ないしnの自然数であり、
前記変形関数(T )は、逆変換関数(T −1 (T (I))=I)が存在する関数であることを特徴とする[1]に記載の方法。
[3]
前記変形関数(T )は、アフィン変換アルゴリズム(affine transform algorithm)及び薄板スプラインアルゴリズム(thin−plate spline algorithm)の中から少なくとも一つを利用して前記入力イメージ(I)を変形することを特徴とする[2]に記載の方法。
[4]
前記それぞれの変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする[2]に記載の方法。
[5]
前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記(d)段階で、
前記CNN装置は、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得することを特徴とする[1]に記載の方法。
[6]
前記(d)段階で、
前記CNN装置は、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネルに対応するラベル(label)を該当ピクセルに付与することでセグメンテーション出力イメージを獲得することを特徴とする[5]に記載の方法。
[7]
前記(c)段階で、
前記CNN装置は、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成することを特徴とする[6]に記載の方法。
[8]
(e)前記CNN装置が、(i)前記統合された特徴マップを参照して取得された出力値とGT(Ground Truth)値との差を基にロスを算出し、(ii)前記ロスを最小化するようバックプロパゲーションを遂行することにより前記CNN装置の少なくとも一つのパラメータを最適化する段階;
をさらに含むことを特徴とする[1]に記載の方法。
[9]
入力イメージとしてのテストイメージに対するCNNテスト方法において、
(a)CNN装置を利用して(i)トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して複数の学習用変形入力イメージを生成するプロセス;(ii)前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス;(iii)前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;(iv)前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス;及び(v)前記学習用統合特徴マップを参照して取得された学習用出力値とGT値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより上記CNN装置のパラメータを最適化するプロセス;を経て学習された上記CNN装置のパラメータが獲得された状態で、上記学習された上記CNN装置の最適化されたパラメータを含むテスト装置が上記テスト用入力イメージを獲得する段階;
(b)前記テスト装置が、前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して複数のテスト用変形入力イメージを生成する段階;
(c)前記テスト装置が、前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得する段階;
(d)前記テスト装置が、前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応するテスト用逆変換特徴マップそれぞれを生成する段階;及び
(e)前記テスト装置が、前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合された特徴マップを取得する段階;
を含む方法。
[10]
前記変形関数(T )は、前記入力イメージ(I)をn個の変形入力イメージ(T (I))に変形させる関数であり、前記iは、1ないしnの自然数であり、前記変形関数(T )は、逆変換関数(T −1 (T (I))=I)が存在する関数であることを特徴とする[9]に記載の方法。
[11]
前記変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする[10]に記載の方法。
[12]
前記複数の学習用逆変換特徴マップ及び前記複数のテスト用逆変換特徴マップの各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記(iv)プロセスで、
前記CNN装置は、前記複数の学習用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記複数の学習用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記学習用統合された特徴マップを取得し、
前記(e)段階で、
前記テスト装置は、前記テスト用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記テスト用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記テスト用統合特徴マップを取得することを特徴とする[9]に記載の方法。
[13]
コンボリューションニューラルネットワーク(Convolutional Neural Network)から複数の出力のアンサンブル(ensemble)を利用して統合された特徴マップを提供するための装置において、
トレーニングイメージとしての入力イメージを受信する通信部;及び
(1)前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス;(2)前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス;(3)前記変形した特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;及び(4)前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得するプロセス;を遂行するプロセッサ;
を含むことを特徴とするCNN装置。
[14]
前記変形関数(T )は、前記入力イメージ(I)をn個の変形入力イメージ(T (I))に変形させる関数であり、前記iは、1ないしnの自然数であり、前記変形関数(T )は、逆変換関数(T −1 (T (I))=I)が存在する関数であることを特徴とする[13]に記載のCNN装置。
[15]
前記変形関数(T )は、アフィン変換アルゴリズム(affine transform algorithm)及び薄板スプラインアルゴリズム(thin−plate spline algorithm)の中から少なくとも一つを利用して前記入力イメージ(I)を変形することを特徴とする[14]に記載のCNN装置。
[16]
前記変形関数(T )は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする[14]に記載のCNN装置。
[17]
前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記(4)プロセスで、
前記プロセッサは、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得することを特徴とする[13]に記載のCNN装置。
[18]
前記(4)プロセスで、
前記プロセッサは、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネル値に対応するラベル(label)を該当ピクセルに付与することでセグメンテーション出力イメージを獲得することを特徴とする[17]に記載のCNN装置。
[19]
前記(3)プロセスで、
前記プロセッサは、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成することを特徴とする[18]に記載のCNN装置。
[20]
前記プロセッサは、(5)前記統合された特徴マップを参照して取得された出力値とGT値との差をもとにロスを算出し、前記ロスを最小化するようバックプロパゲーションを遂行することにより、前記CNN装置の少なくとも一つのパラメータを最適化するプロセス;
をさらに遂行することを特徴とする[13]に記載のCNN装置。
[21]
入力イメージとしてのテストイメージに対するCNNテスト装置において、
CNN装置を利用して(i)トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して、複数の学習用変形入力イメージを生成するプロセス;(ii)前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス;(iii)前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;(iv)前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス;及び(v)前記学習用統合特徴マップを参照して取得された学習用出力値とGT値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより、上記CNN装置のパラメータを最適化するプロセス;を経て学習された上記CNN装置のパラメータが獲得された状態で、上記学習された上記CNN装置の最適化されたパラメータを含むテスト装置が、上記テスト用入力イメージを受信する通信部;及び
(1)前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して、複数のテスト用変形入力イメージを生成するプロセス;(2)前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得するプロセス;(3)前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;及び(4)前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合特徴マップを取得するプロセス;を遂行するプロセッサ;
を含むテスト装置。
[22]
前記変形関数(T )は、前記入力イメージ(I)をn個の変形入力イメージ(T (I))に変形させる関数であり、前記iは、1ないしnの自然数であり、前記変形関数(T )は、逆変換関数(T −1 (T (I))=I)が存在する関数であることを特徴とする[21]に記載のテスト装置。
[23]
前記変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする[22]に記載のテスト装置。
[24]
前記複数の学習用逆変換の特徴マップ及び前記複数のテスト用逆変換特徴マップの各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記(iv)プロセスで、
前記CNN装置は、前記複数の学習用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記複数の学習用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記学習用統合された特徴マップを取得し、
前記(4)プロセスで、
前記テスト装置は、前記テスト用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記テスト用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記テスト用統合特徴マップを取得することを特徴とする[21]に記載のテスト装置。

Claims (6)

  1. コンボリューションニューラルネットワーク(Convolutional Neural Network)から複数の出力のアンサンブル(ensemble)を利用して統合された特徴マップを提供するための方法において、
    (a)CNN装置が、入力イメージを受信し、前記入力イメージを変形させる複数の変形関数を適用して、複数の変形入力イメージを生成する段階;
    (b)前記CNN装置が、前記変形した入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形した入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階;
    (c)前記CNN装置が、前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階;及び
    (d)前記CNN装置が、前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得する段階;を含み、
    前記変形関数(T )は、前記入力イメージ(I)をn個の変形入力イメージ(T (I))に変形させる関数であり、逆変換関数(T −1 (T (I))=I)が存在する関数であり、アフィン変換アルゴリズム(affine transform algorithm)及び薄板スプラインアルゴリズム(thin−plate spline algorithm)の中から少なくとも一つを利用して前記入力イメージ(I)を変形し、前記iは、1ないしnの自然数であること
    特徴とする方法。
  2. コンボリューションニューラルネットワーク(Convolutional Neural Network)から複数の出力のアンサンブル(ensemble)を利用して統合された特徴マップを提供するための方法において、
    (a)CNN装置が、入力イメージを受信し、前記入力イメージを変形させる複数の変形関数を適用して、複数の変形入力イメージを生成する段階;
    (b)前記CNN装置が、前記変形した入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形した入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階;
    (c)前記CNN装置が、前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階;及び
    (d)前記CNN装置が、前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得する段階;を含み、
    前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
    前記(d)段階で、前記CNN装置は、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得し、
    前記(d)段階で、前記CNN装置は、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネルに対応するラベル(label)を該当ピクセルに付与することでセグメンテーション出力イメージを獲得し、
    前記(c)段階で、前記CNN装置は、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成すること
    を特徴とする方法。
  3. 入力イメージとしてのテストイメージに対するCNNテスト方法において、
    (a)CNN装置を利用して(i)トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して複数の学習用変形入力イメージを生成するプロセス;(ii)前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス;(iii)前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;(iv)前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス;及び(v)前記学習用統合特徴マップを参照して取得された学習用出力値とGT値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより上記CNN装置のパラメータを最適化するプロセス;を経て学習された上記CNN装置のパラメータが獲得された状態で、上記学習された上記CNN装置の最適化されたパラメータを含むテスト装置が上記テスト用入力イメージを獲得する段階;
    (b)前記テスト装置が、前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して複数のテスト用変形入力イメージを生成する段階;
    (c)前記テスト装置が、前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得する段階;
    (d)前記テスト装置が、前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応するテスト用逆変換特徴マップそれぞれを生成する段階;及び
    (e)前記テスト装置が、前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合された特徴マップを取得する段階;を含み、
    前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
    前記(d)段階で、前記CNN装置は、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得し、
    前記(d)段階で、前記CNN装置は、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネルに対応するラベル(label)を該当ピクセルに付与することでセグメンテーション出力イメージを獲得し、
    前記(c)段階で、前記CNN装置は、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成すること
    を特徴とする方法。
  4. コンボリューションニューラルネットワーク(Convolutional Neural Network)から複数の出力のアンサンブル(ensemble)を利用して統合された特徴マップを提供するための装置において、
    トレーニングイメージとしての入力イメージを受信する通信部;及び
    (1)前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス;(2)前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス;(3)前記変形した特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;及び(4)前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得するプロセス;を遂行するプロセッサ;を含み、
    前記変形関数(T )は、前記入力イメージ(I)をn個の変形入力イメージ(T (I))に変形させる関数であり、逆変換関数(T −1 (T (I))=I)が存在する関数であり、アフィン変換アルゴリズム(affine transform algorithm)及び薄板スプラインアルゴリズム(thin−plate spline algorithm)の中から少なくとも一つを利用して前記入力イメージ(I)を変形し、前記iは、1ないしnの自然数であること
    特徴とするCNN装置。
  5. コンボリューションニューラルネットワーク(Convolutional Neural Network)から複数の出力のアンサンブル(ensemble)を利用して統合された特徴マップを提供するための装置において、
    トレーニングイメージとしての入力イメージを受信する通信部;及び
    (1)前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス;(2)前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス;(3)前記変形した特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;及び(4)前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得するプロセス;を遂行するプロセッサ;を含み、
    前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
    前記(4)プロセスで、前記プロセッサは、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得し、
    前記(4)プロセスで、前記プロセッサは、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネル値に対応するラベル(label)を該当ピクセルに付与することでセグメンテーション出力イメージを獲得し、
    前記(3)プロセスで、前記プロセッサは、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成すること
    を特徴とするCNN装置。
  6. 入力イメージとしてのテストイメージに対するCNNテスト装置において、
    CNN装置を利用して(i)トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して、複数の学習用変形入力イメージを生成するプロセス;(ii)前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス;(iii)前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;(iv)前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス;及び(v)前記学習用統合特徴マップを参照して取得された学習用出力値とGT値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより、上記CNN装置のパラメータを最適化するプロセス;を経て学習された上記CNN装置のパラメータが獲得された状態で、上記学習された上記CNN装置の最適化されたパラメータを含むテスト装置が、上記テスト用入力イメージを受信する通信部;及び
    (1)前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して、複数のテスト用変形入力イメージを生成するプロセス;(2)前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得するプロセス;(3)前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス;及び(4)前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合特徴マップを取得するプロセス;を遂行するプロセッサ;を含み、
    前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
    前記(4)プロセスで、前記プロセッサは、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得し、
    前記(4)プロセスで、前記プロセッサは、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネル値に対応するラベル(label)を該当ピクセルに付与することでセグメンテーション出力イメージを獲得し、
    前記(3)プロセスで、前記プロセッサは、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成すること
    を特徴とするテスト装置。
JP2019160238A 2018-09-04 2019-09-03 コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network} Active JP6863619B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/121,031 2018-09-04
US16/121,031 US10311337B1 (en) 2018-09-04 2018-09-04 Method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network

Publications (2)

Publication Number Publication Date
JP2020038664A JP2020038664A (ja) 2020-03-12
JP6863619B2 true JP6863619B2 (ja) 2021-04-21

Family

ID=66673551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019160238A Active JP6863619B2 (ja) 2018-09-04 2019-09-03 コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network}

Country Status (5)

Country Link
US (1) US10311337B1 (ja)
EP (1) EP3620987A1 (ja)
JP (1) JP6863619B2 (ja)
KR (1) KR102313133B1 (ja)
CN (1) CN110874563B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220158218A (ko) 2019-07-10 2022-11-30 루오웨이 지앙 피부 분석을 위한 이미지들을 프로세싱하고 피부 분석을 시각화하기 위한 시스템들 및 방법들
CN110324664B (zh) * 2019-07-11 2021-06-04 南开大学 一种基于神经网络的视频补帧方法及其模型的训练方法
US11631163B2 (en) 2020-02-11 2023-04-18 Samsung Electronics Co., Ltd. Mobile data augmentation engine for personalized on-device deep learning system
US11501107B2 (en) * 2020-05-07 2022-11-15 Adobe Inc. Key-value memory network for predicting time-series metrics of target entities
US11823353B2 (en) 2020-07-28 2023-11-21 Samsung Electronics Co., Ltd. System and method for generating bokeh image for DSLR quality depth-of-field rendering and refinement and training method for the same
US11330196B2 (en) * 2020-10-12 2022-05-10 Microsoft Technology Licensing, Llc Estimating illumination in an environment based on an image of a reference object
US11449968B2 (en) 2020-12-31 2022-09-20 Samsung Electronics Co., Ltd. System and method for synthetic depth-of-field effect rendering for videos
CN113393468A (zh) * 2021-06-28 2021-09-14 北京百度网讯科技有限公司 图像处理方法、模型训练方法、装置和电子设备
WO2024057543A1 (ja) * 2022-09-16 2024-03-21 日本電信電話株式会社 画像データ生成装置、画像データ生成方法、および、画像データ生成プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6725547B2 (ja) * 2015-03-20 2020-07-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 人工ニューラルネットワークの関連性スコア割当て
JP2017004350A (ja) * 2015-06-12 2017-01-05 株式会社リコー 画像処理装置、画像処理方法、及びプログラム
US10204299B2 (en) * 2015-11-04 2019-02-12 Nec Corporation Unsupervised matching in fine-grained datasets for single-view object reconstruction
CN108475415B (zh) * 2015-12-21 2022-05-27 商汤集团有限公司 用于图像处理的方法和系统
US10303977B2 (en) * 2016-06-28 2019-05-28 Conduent Business Services, Llc System and method for expanding and training convolutional neural networks for large size input images
CN106339753A (zh) * 2016-08-17 2017-01-18 中国科学技术大学 一种有效提升卷积神经网络稳健性的方法
US9965863B2 (en) * 2016-08-26 2018-05-08 Elekta, Inc. System and methods for image segmentation using convolutional neural network
JP6929047B2 (ja) * 2016-11-24 2021-09-01 キヤノン株式会社 画像処理装置、情報処理方法及びプログラム
JP2018092610A (ja) * 2016-11-28 2018-06-14 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
KR20180065498A (ko) * 2016-12-08 2018-06-18 한국항공대학교산학협력단 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법
CN108345827B (zh) * 2017-01-24 2021-11-30 富士通株式会社 识别文档方向的方法、系统和神经网络
US10147019B2 (en) * 2017-03-20 2018-12-04 Sap Se Small object detection
CN108416318A (zh) * 2018-03-22 2018-08-17 电子科技大学 基于数据增强的合成孔径雷达图像目标深度模型识别方法

Also Published As

Publication number Publication date
JP2020038664A (ja) 2020-03-12
US10311337B1 (en) 2019-06-04
CN110874563A (zh) 2020-03-10
CN110874563B (zh) 2023-10-17
KR20200027426A (ko) 2020-03-12
KR102313133B1 (ko) 2021-10-18
EP3620987A1 (en) 2020-03-11

Similar Documents

Publication Publication Date Title
JP6863619B2 (ja) コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network}
JP6847464B2 (ja) 車線候補ピクセルを分類して車線を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane through classifying lane candidate pixels and test method, test device using the same}
JP6908946B2 (ja) 距離予測が可能なレーダを通じて取得される情報とカメラを通じて取得される情報とを統合するセンサ融合を遂行することによって、自律走行を支援するニューラルネットワークを向上させる学習方法及び学習装置、そしてこれを使用したテスト方法及びテスト装置
JP6853560B2 (ja) 高精度イメージを分析するディープラーニングネットワークの学習に利用するためのトレーニングイメージをオートラベリングするための方法、及びこれを利用したオートラベリング装置{method for auto−labeling training images for use in deep learning network to analyze images with high precision, and auto−labeling device using the same}
JP6856851B2 (ja) イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置
JP6793411B2 (ja) 自律走行状況で障害物検出のための学習用データセットの生成方法及びこれを利用したコンピューティング装置、学習方法及び学習装置
JP6912835B2 (ja) 自律走行自動車のレベル4を満たすために要求されるhdマップアップデートに利用される、少なくとも一つのアダプティブロス重み付け値マップを利用したアテンションドリブン・イメージセグメンテーション学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置
JP6865363B2 (ja) ラプラシアンピラミッドネットワークを利用して自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物検出におけるセグメンテーション性能向上のための学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置
KR102337376B1 (ko) 레인 마스크(Lane Mask)를 사용하여 후처리 없이 입력 이미지에 포함된 하나 이상의 차선을 검출하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP6957050B2 (ja) モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same}
JP6856952B2 (ja) 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
JP6847463B2 (ja) CNN(Convolutional Neural Network)を利用して車線を検出するための学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE FOR DETECTING LANE USING CNN AND TEST METHOD, TEST DEVICE USING THE SAME}
JP6869565B2 (ja) 危険要素検出に利用される学習用イメージデータセットの生成方法及びコンピューティング装置、そしてこれを利用した学習方法及び学習装置{method and computing device for generating image data set to be used for hazard detection and learning method and learning device using the same}
EP3686795B1 (en) Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
JP6980289B2 (ja) 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same}
CN111476341A (zh) 转换cnn的卷积层的方法及装置
JP7252120B2 (ja) 核心性能指数を満たすことができるハードウェア最適化が行われるように、cnnで複数のブロック内の入力イメージから特徴を抽出する学習方法及び学習装置、それを利用したテスト方法及びテスト装置
JP6916548B2 (ja) 自律走行自動車のレベル4を満たすために必要なhdマップとのコラボレーションを支援するエンベディングロス及びソフトマックスロスを利用して少なくとも一つの車線を有するイメージをセグメンテーションする学習方法及び学習装置、並びにそれを利用したテスト方法及びテスト装置
US11461653B2 (en) Learning method and learning device for CNN using 1xK or Kx1 convolution to be used for hardware optimization, and testing method and testing device using the same
JP6935939B2 (ja) マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置
JP6916549B2 (ja) 軍事的目的、ドローンまたはロボットに利用されるために一つ以上の以前のバッチをさらに参照してモバイル装置またはiot装置に適用可能なオンラインバッチ正規化、オンデバイス学習、及び連続学習を遂行する方法と装置、並びにそれを利用したテスト方法及びテスト装置
CN111507983A (zh) 利用周边汽车的图像自动标注基础汽车的图像的方法及装置
US10402686B1 (en) Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
CN113159236A (zh) 基于多尺度变换的多聚焦图像融合方法及装置
JP6856957B2 (ja) 写真スタイル変換を使用してランタイム入力の変換によりリアル世界で使用されるバーチャル世界で学習されたcnnを許容するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210325

R150 Certificate of patent or registration of utility model

Ref document number: 6863619

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250