JP6935939B2 - マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置 - Google Patents

マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置 Download PDF

Info

Publication number
JP6935939B2
JP6935939B2 JP2019163897A JP2019163897A JP6935939B2 JP 6935939 B2 JP6935939 B2 JP 6935939B2 JP 2019163897 A JP2019163897 A JP 2019163897A JP 2019163897 A JP2019163897 A JP 2019163897A JP 6935939 B2 JP6935939 B2 JP 6935939B2
Authority
JP
Japan
Prior art keywords
feature map
convolution
test
main feature
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019163897A
Other languages
English (en)
Other versions
JP2020047270A (ja
Inventor
桂賢 金
桂賢 金
鎔重 金
鎔重 金
寅洙 金
寅洙 金
鶴京 金
鶴京 金
雲鉉 南
雲鉉 南
碩▲ふん▼ 夫
碩▲ふん▼ 夫
明哲 成
明哲 成
東勳 呂
東勳 呂
宇宙 柳
宇宙 柳
泰雄 張
泰雄 張
景中 鄭
景中 鄭
泓模 諸
泓模 諸
浩辰 趙
浩辰 趙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020047270A publication Critical patent/JP2020047270A/ja
Application granted granted Critical
Publication of JP6935939B2 publication Critical patent/JP6935939B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

本発明は、マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置に関する。具体的には、マルチフィーディングレイヤを使用して、少なくとも一つのトレーニングイメージをエンコードすることができるCNN(Convolutional Neural Network)の学習方法において、前記CNNは、前記トレーニングイメージについて少なくとも一回以上のコンボリューション演算を適用して第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、(a)学習装置が、前記トレーニングイメージを取得する段階;及び(b)前記学習装置が、前記それぞれのコンボリューションレイヤをもって、前記トレーニングイメージ、または以前のコンボリューションレイヤで取得されたメイン特徴マップに前記コンボリューション演算を適用して、前記第1乃至第nメイン特徴マップそれぞれを生成するものの、前記学習装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選ばれる)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記第(k−1)メイン特徴マップの大きさに合わせてリサイズされた第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記第(k−1)メイン特徴マップを統合して第(k−1)統合特徴マップを生成し、(iii)前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して第kメイン特徴マップを生成する段階;を含む学習方法及び学習装置並びにこれに基づいたテスト方法及びテスト装置に関する。
ディープラーニングは、物やデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけで犬と猫を区別することができない。しかし、人はとても簡単に区別できる。このため「機械学習(Machine Learning)」という方法が考案された。多くのデータをコンピュータに入力し、類似したもの同士を分類するようにする技術である。格納されている犬の写真と似たような写真が入力されると、これを犬の写真であるとコンピュータが分類するようにしたのである。
データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「意思決定木」や「ベイジアンネットワーク」「サポートベクターマシン(SVM)」「人工神経網」などが代表的である。このうち、ディープラーニングは人工神経網の後裔である。
ディープ・コンボリューション・ニューラル・ネットワーク(Deep Convolution Neural Networks;DeepCNN)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNは、文字の認識問題を解決するために90年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果の賜物である。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習(Machine Learning)分野で非常に有用なツールとなった。
図1は、CNNを使用して入力イメージの一般的なフィーディングを簡略的に示した図面である。
図1を参照すると、従来のCNN演算の過程でCNNは、入力イメージ(101)が一度入力される。例えば、CNNは、入力イメージが入力されて、複数個のコンボリューションレイヤで数回のコンボリューション演算とReLUなどの非線形演算を遂行して特徴マップ(102、103及び104)を順次に生成する。そして、最終特徴マップ(104)または特徴マップのうち少なくとも一部は物体の検出に利用されたり、セグメンテーションの結果を得るのに利用される。
このような従来のCNNの演算過程は、入力イメージが一度フィーディングされると、多数のコンボリューションレイヤを介して特徴マップが生成されながら入力イメージの細部情報の多くが消えるという問題があった。
本発明は、前述した問題点を全て解決することを目的とする。
本発明の他の目的は、CNN装置において連続したコンボリューション演算が適用されるとしても、入力イメージの詳細情報を格納できる方法を提供することを目的とする。
本発明の一態様によると、マルチフィーディングレイヤを使用して少なくとも一つのトレーニングイメージをエンコードすることができるCNNの学習方法において、前記CNNは、前記トレーニングイメージについて少なくとも一回以上のコンボリューション演算を適用して第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、(a)学習装置が、前記トレーニングイメージを取得する段階;及び(b)前記学習装置が、前記それぞれのコンボリューションレイヤをもって、前記トレーニングイメージ、または以前のコンボリューションレイヤで取得されたメイン特徴マップに前記コンボリューション演算を適用して前記第1乃至第nメイン特徴マップそれぞれを生成するものの、前記学習装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選ばれる)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記第(k−1)メイン特徴マップの大きさに合わせてリサイズされた第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記第(k−1)メイン特徴マップを統合して第(k−1)統合特徴マップを生成し、(iii)前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して第kメイン特徴マップを生成する段階;を含むことを特徴とする方法が提供される。
一実施例において、前記(b)段階で、(b−1)前記学習装置が、前記第mフィーディングレイヤをもって、前記第(k−1)メイン特徴マップの前記大きさに合うように前記トレーニングイメージをリサイジングしてリサイズされた第mトレーニングイメージを生成するようにする段階;(b−2)前記学習装置が、前記第mフィーディングレイヤをもって、前記リサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して前記第mサブ特徴マップを生成するようにする段階;(b−3)前記学習装置が、前記第kコンボリューションレイヤをもって、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップを統合して前記第(k−1)統合特徴マップを生成するようにする段階;及び (b−4)前記学習装置が、前記第kコンボリューションレイヤをもって、前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して、前記第kメイン特徴マップを生成するようにする段階;を含むことを特徴とする方法が提供される。
一実施例において、前記(b−3)段階で、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップをピクセルごとに加え、前記第(k−1)統合特徴マップを生成することを特徴とする方法が提供される。
一実施例において、前記(b−3)段階で、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップをコンカチネートして前記第(k−1)統合特徴マップを生成することを特徴とする方法が提供される。
一実施例において、前記(b−2)段階で、前記第mサブ特徴マップのチャンネル数が前記第(k−1)メイン特徴マップのチャンネル数に対応するように、前記リサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して、前記第mサブ特徴マップを生成することを特徴とする方法が提供される。
一実施例において、前記(b)段階で、(b−1)前記学習装置が、前記第mフィーディングレイヤをもって、前記リサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して、前記第mサブ特徴マップを前記第(k−1)メイン特徴マップの大きさに対応する大きさを有するように生成させるプロセス;(b−2)前記学習装置が、前記第kコンボリューションレイヤをもって、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップを統合して前記第(k−1)統合特徴マップを生成するようにする段階;及び(b−3)前記学習装置が、前記第kコンボリューションレイヤをもって、前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して、前記第kメイン特徴マップを生成させる段階;を含むことを特徴とする方法が提供される。
一実施例において、前記(b−1)段階で、前記第mサブ特徴マップのサイズ及びチャンネルの数が前記第(k−1)メイン特徴マップの前記サイズ及び前記チャンネルの数に対応するように前記第mサブ特徴マップを生成することを特徴とする方法が提供される。
一実施例において、(c)前記学習装置が、少なくとも一つのFC(Fully Connected)レイヤをもって、前記第nメイン特徴マップに少なくとも一つのFC演算を適用して、前記トレーニングイメージ内の少なくとも一つの物体に対するディテクション結果を生成する段階;及び(d)前記学習装置が、前記ディテクション結果及びそれに対応する原本正解(Ground Truth)を参照して、一つ以上のロス値を出力し、前記ロス値をバックプロパゲーションして前記CNNの一つ以上のパラメータを学習する段階;をさらに含むことを特徴とする方法が提供される。
一実施例において、(c)前記学習装置が、デコードレイヤをもって前記第nメイン特徴マップを前記デコードレイヤに入力してセグメンテーション結果を生成する段階;及び(d)前記学習装置が、前記セグメンテーション結果及びそれに対応する原本正解を参照して一つ以上のロス値を出力し、前記ロス値をバックプロパゲーションして前記CNNの一つ以上のパラメータを学習する段階;をさらに含むことを特徴とする方法が提供される。
本発明の他の態様によると、マルチフィーディングレイヤを使用して少なくとも一つのテストイメージをエンコードすることができるCNNのテスト方法において、前記CNNは前記テストイメージについて少なくとも一回以上のコンボリューション演算を適用して、テスト用第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、(a)学習装置が、(1)前記それぞれのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ、または以前のコンボリューションレイヤで取得された学習用メイン特徴マップに前記コンボリューション演算を適用して前記学習用第1乃至第nメイン特徴マップそれぞれを生成するものの、前記学習装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される(のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された学習用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記学習用第(k−1)メイン特徴マップの大きさに合わせてリサイズされた学習用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記学習用第(k−1)メイン特徴マップを統合して学習用第(k−1)統合特徴マップを生成し、(iii)前記学習用第(k−1)統合特徴マップに前記コンボリューション演算を適用して学習用第kメイン特徴マップを生成するプロセス;及び(2)前記CNNの一つ以上のパラメータを学習するプロセス;を遂行した状態で、テスト装置が前記テストイメージを取得する段階;(b)前記テスト装置が、前記それぞれのコンボリューションレイヤをもって、前記テストイメージ、または以前のコンボリューションレイヤで取得されたテスト用メイン特徴マップに前記コンボリューション演算を適用して前記テスト用第1乃至第nメイン特徴マップを生成するものの、前記テスト装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得されたテスト用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記テストイメージが前記テスト用第(k−1)メイン特徴マップの大きさに合わせてリサイズされたテスト用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記テスト用第(k−1)メイン特徴マップを統合してテスト用第(k−1)統合特徴マップを生成し、(iii)前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用してテスト用第kメイン特徴マップを生成する段階;を含むことを特徴とする方法が提供される。
一実施例において、前記(b)段階で、(b−1)前記テスト装置が、前記第mフィーディングレイヤをもって、前記テスト用第(k−1)メイン特徴マップの前記大きさに合うように前記テストイメージをリサイジングしてリサイズされた第mテストイメージを生成するようにする段階;(b−2)前記テスト装置が、前記第mフィーディングレイヤをもって、前記リサイズされた第mテストイメージに前記コンボリューション演算を適用して前記テスト用第mサブ特徴マップを生成するようにする段階;(b−3)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップを統合して前記テスト用第(k−1)統合特徴マップを生成するようにする段階;及び(b−4)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して前記テスト用第kメイン特徴マップを生成するようにする段階;を含むことを特徴とする方法が提供される。
一実施例において、前記(b−3)段階で、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップをピクセルごとに加えて前記テスト用第(k−1)統合特徴マップを生成することを特徴とする方法が提供される。
一実施例において、前記(b−3)段階で、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップをコンカチネートして前記テスト用第(k−1)統合特徴マップを生成することを特徴とする方法が提供される。
一実施例において、前記(b)段階で、(b−1)前記テスト装置が、前記第mフィーディングレイヤをもって、前記リサイズされた第mテストイメージに前記コンボリューション演算を適用して前記テスト用第mサブ特徴マップを前記テスト用第(k−1)メイン特徴マップの大きさに対応する大きさを有するように生成させるプロセス;(b−2)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップを統合して前記テスト用第(k−1)統合特徴マップを生成するようにする段階;及び(b−3)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して、前記テスト用第kメイン特徴マップを生成するようにする段階;を含むことを特徴とする方法が提供される。
一実施例において、前記(b−1)段階で、前記第mサブ特徴マップのサイズ及びチャンネルの数が前記テスト用第(k−1)メイン特徴マップの前記サイズ及び前記チャンネルの数に対応するように前記テスト用第mサブ特徴マップを生成することを特徴とする方法が提供される。
本発明のまた別の態様によると、マルチフィーディングレイヤを使用して、少なくとも一つのトレーニングイメージをエンコードすることができるCNNの学習装置において、前記CNNは、前記トレーニングイメージについて少なくとも一回以上のコンボリューション演算を適用して第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、前記トレーニングイメージを取得する通信部;及び(I)前記それぞれのコンボリューションレイヤをもって、前記トレーニングイメージ、または以前のコンボリューションレイヤで取得されたメイン特徴マップに前記コンボリューション演算を適用して、前記第1乃至第nメイン特徴マップそれぞれを生成するものの、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記第(k−1)メイン特徴マップの大きさに合わせてリサイズされた第mサブ特徴マップを取得し、(ii)第mサブ特徴マップ及び前記第(k−1)メイン特徴マップを統合して第(k−1)統合特徴マップを生成し、(iii)前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して第kメイン特徴マップを生成するプロセスを遂行するプロセッサ;を含むことを特徴とする装置が提供される。
一実施例において、前記(I)プロセスにおいて、前記プロセッサは、(I−1)前記第mフィーディングレイヤをもって、前記第(k−1)メイン特徴マップの前記大きさに合うように前記トレーニングイメージをリサイジングしてリサイズされた第mトレーニングイメージを生成するようにするプロセス;(I−2)前記第mフィーディングレイヤをもって、前記リサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して、前記第mサブ特徴マップを生成するようにするプロセス;(I−3)前記第kコンボリューションレイヤをもって、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップを統合して、前記第(k−1)統合特徴マップを生成するようにするプロセス;及び(I−4)前記第kコンボリューションレイヤをもって、前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して、前記第kメイン特徴マップを生成するようにするプロセス;を遂行することを特徴とする装置が提供される。
一実施例において、前記(I−3)プロセスにおいて、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップをピクセルごとに加え、前記第(k−1)統合特徴マップを生成することを特徴とする装置が提供される。
一実施例において、前記(I−3)プロセスにおいて、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップをコンカチネートして第(k−1)統合特徴マップを生成することを特徴とする装置が提供される。
一実施例において、前記(I−2)プロセスにおいて、前記第mサブ特徴マップのチャンネル数が前記第(k−1)メイン特徴マップのチャンネル数に対応するように、前記リサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して、前記第mサブ特徴マップを生成することを特徴とする装置が提供される。
一実施例において、前記(I)プロセスにおいて、前記プロセッサは、(I−1)前記第mフィーディングレイヤをもって、前記リサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して、前記第mサブ特徴マップを前記第(k−1)メイン特徴マップの大きさに対応する大きさを有するように生成させるプロセス;(I−2)前記第kコンボリューションレイヤをもって、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップを統合して前記第(k−1)統合特徴マップを生成するようにするプロセス;及び(I−3)前記第kコンボリューションレイヤをもって、前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して、前記第kメイン特徴マップを生成するようにするプロセス;を含むことを特徴とする装置が提供される。
一実施例において、前記(I−1)プロセスにおいて、前記第mサブ特徴マップのサイズ及びチャンネルの数が前記第(k−1)メイン特徴マップの前記サイズ及び前記チャンネルの数に対応するように前記第mサブ特徴マップを生成することを特徴とする装置が提供される。
一実施例において、前記プロセッサは、(II)少なくとも一つのFCレイヤをもって、前記第nメイン特徴マップに少なくとも一つのFC演算を適用して、前記トレーニングイメージ内の少なくとも一つの物体に対するディテクション結果を生成するプロセス;及び(III)前記ディテクション結果及びそれに対応する原本正解(Ground Truth)を参照して一つ以上のロス値を出力し、前記ロス値をバックプロパゲーションして前記CNNの一つ以上のパラメータを学習するプロセス;をさらに遂行することを特徴とする装置が提供される。
一実施例において、前記プロセッサは、(II)デコードレイヤをもって、前記第nメイン特徴マップを前記デコードレイヤに入力してセグメンテーション結果を生成するプロセス;及び(III)前記セグメンテーション結果及びそれに対応する原本正解(Ground Truth)を参照して一つ以上のロス値を出力し、前記ロス値をバックプロパゲーションして、前記CNNの一つ以上のパラメータを学習するプロセス;をさらに遂行することを特徴とする装置が提供される。
一実施例において、前記プロセッサは、(II)デコードレイヤをもって、前記第nメイン特徴マップを前記デコードレイヤに入力してセグメンテーション結果を生成するプロセス;及び(III)前記セグメンテーション結果及びそれに対応する原本正解を参照して一つ以上のロス値を出力し、前記ロス値をバックプロパゲーションして前記CNNの一つ以上のパラメータを学習するプロセス;をさらに遂行することを特徴とする装置が提供される。
本発明のまた別の態様によると、マルチフィーディングレイヤを使用して、少なくとも一つのテストイメージをエンコードすることができるCNNのテスト装置において、前記CNNは前記テストイメージについて少なくとも一回以上のコンボリューション演算を適用して、テスト用第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちhのコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、学習装置が(1)前記それぞれのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ、または以前のコンボリューションレイヤで取得された学習用メイン特徴マップに前記コンボリューション演算を適用して、前記学習用第1乃至第nメイン特徴マップそれぞれを生成するものの、前記学習装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された学習用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記学習用第(k−1)メイン特徴マップの大きさに合わせてリサイズされた学習用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記学習用第(k−1)メイン特徴マップを統合して学習用第(k−1)統合特徴マップを生成し、(iii)前記学習用第の(k−1)統合特徴マップに前記コンボリューション演算を適用して学習用第kメイン特徴マップを生成するプロセス;及び(2)前記CNNの一つ以上のパラメータを学習するプロセス;を遂行した状態で、前記テストイメージを取得する通信部;及び(I)前記それぞれのコンボリューションレイヤをもって、前記テストイメージ、または以前のコンボリューションレイヤで取得されたテスト用メイン特徴マップに前記コンボリューション演算を適用して前記テスト用第1乃至第nメイン特徴マップを生成するものの、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得されたテスト用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記テストイメージが前記テスト用第(k−1)メイン特徴マップの大きさに合わせてリサイズされたテスト用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記テスト用第(k−1)メイン特徴マップを統合してテスト用第(k−1)統合特徴マップを生成し、(iii)前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用してテスト用第kメイン特徴マップを生成するプロセス;を遂行するプロセッサを含むことを特徴とする装置が提供される。
一実施例において、前記プロセッサは、(I−1)前記第mフィーディングレイヤをもって、前記テスト用第(k−1)メイン特徴マップの前記大きさに合うように前記テストイメージをリサイジングしてリサイズされた第mテストイメージを生成するようにするプロセス;(I−2)前記第mフィーディングレイヤをもって、前記リサイズされた第mテストイメージに前記コンボリューション演算を適用して前記テスト用第mサブ特徴マップを生成するようにするプロセス;(I−3)前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップを統合して前記テスト用第(k−1)統合特徴マップを生成するようにするプロセス;及び(I−4)前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して前記テスト用第kメイン特徴マップを生成するようにするプロセス;を遂行することを特徴とする装置が提供される。
一実施例において、前記(I−3)プロセスで、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップをピクセルごとに加えて前記テスト用第(k−1)統合特徴マップを生成することを特徴とする装置が提供される。
一実施例において、前記(I−3)プロセスで、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップをコンカチネートして前記テスト用第(k−1)統合特徴マップを生成することを特徴とする装置が提供される。
一実施例において、前記プロセッサは、(I−1)前記第mフィーディングレイヤをもって、前記リサイズされた前記第mテストイメージに前記コンボリューション演算を適用して前記テスト用第mサブ特徴マップを前記テスト用第(k−1)メイン特徴マップの大きさに対応する大きさを有するように生成させるプロセス;(I−2)前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップを統合して前記テスト用第(k−1)統合特徴マップを生成するようにするプロセス;及び(I−3)前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して前記テスト用第kメイン特徴マップを生成するようにするプロセス;を遂行することを特徴とする装置が提供される。
一実施例において、前記プロセッサは、(I−1)プロセスにおいて、前記第mサブ特徴マップのサイズ及びチャンネルの数が前記テスト用第(k−1)メイン特徴マップの前記サイズ及び前記チャンネルの数に対応するように前記テスト用第mサブ特徴マップを生成することを特徴とする装置が提供される。
本発明によると、CNNの第一のコンボリューションレイヤだけでなく、CNNの他のコンボリューションレイヤでも入力イメージの情報をそのまま利用することができるので、CNNを通じた連続的なコンボリューション演算によっても入力イメージの詳細情報をより効率的に格納することができる。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者(以下「通常の技術者」)は、発明的作業が行われずにこの図面に基づいて他の図面が得られ得る。
従来の一般的なCNNを利用して入力イメージのフィーディング過程を簡略的に示す図面である。 本発明によるCNNのマルチフィーディング構成を簡略的に示す図面である。 本発明による入力イメージにマルチフィーディングを適用して、特徴マップを生成する過程を例示的に示す図面である。
後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。本発明の様々な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又はプロセスを除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は、実例として提供され、本発明を限定することを意図したものではない。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。
図2は、本発明によるCNNのマルチフィーディングの構成を簡略的に示す図面である。
図2を参照すると、本発明によるCNNは多数のコンボリューションレイヤからメイン特徴マップ(201、202、203)が順次生成されるとき、コンボリューションレイヤをもって、少なくとも一つの入力イメージ(101)のリサイズされた情報を利用する構成を有する。
つまり、図2に示されているように、学習装置で使用されるCNNまたはテスト装置で使用されるCNNは、入力イメージ(101)を取得して第1コンボリューションレイヤをもって第1メイン特徴マップ(201)を生成することができる。また、CNNは、第2コンボリューションレイヤをもって第2メイン特徴マップ(202)を生成するようにするものの、入力イメージ(101)を参照して生成された第1サブ特徴マップ(211)及び第1メイン特徴マップを統合した第1統合特徴マップを第2コンボリューションレイヤに入力して第2メイン特徴マップ(202)を生成することができる。この際、第1サブ特徴マップ(211)は、入力イメージ(101)を第1メイン特徴マップ(201)の大きさに調節してリサイズされた第1入力イメージ(111)を生成した後、リサイズされた第1入力イメージ(111)に一つ以上のコンボリューション演算を適用して生成することができる。また、CNNは、第3コンボリューションレイヤをもって第3メイン特徴マップ(203)を生成するようにするが、入力イメージ(101)を参照して生成された第2サブ特徴マップ(212)及び第2メイン特徴マップを統合した第2統合特徴マップを第3コンボリューションレイヤに入力して第3メイン特徴マップ(203)を生成することができる。この際、第2サブ特徴マップ(212)は、入力イメージ(101)を第2メイン特徴マップ(202)の大きさに調節してリサイズされた第2入力イメージ(112)を生成した後、リサイズされた第2入力イメージ(112)にコンボリューション演算を適用して生成することができる。
一方、特定のメイン特徴マップと特定のサブ特徴マップを統合する際、2つの特徴マップをピクセルごとに加えて生成することができる。この場合、特定のサブ特徴マップは、特定のメイン特徴マップ(201)とチャンネル数が同一でなければならないために、リサイズされた特定の入力イメージにコンボリューション演算を適用するとき、チャンネル数を特定のメイン特徴マップのチャンネル数に合わせるように1×1コンボリューション演算を適用することができる。他の例において、特定のメイン特徴マップと特定のサブ特徴マップを統合する際に2つの特徴マップをコンカチネートして生成することもできる。この場合は、特定のメイン特徴マップと特定のサブ特徴マップのチャンネル数が同一である必要はないであろう。
本発明によるCNNは、各コンボリューションレイヤにおいて特徴マップを生成する際に、それぞれ入力イメージをリサイジングして、全てのコンボリューションレイヤにフィーディングすることもできるが、コンボリューションレイヤのうち一部のコンボリューションレイヤにのみ入力イメージをフィーディングする構成を使用することもできるであろう。
図3は、本発明による入力イメージにマルチフィーディングを適用して特徴マップを生成する過程を例示的に示す図面である。
本発明によるCNN(例えば、CNN学習装置)は、第1乃至第nコンボリューションレイヤを含んで、少なくとも一つのトレーニングイメージについてコンボリューション演算を適用して第1乃至第nメイン特徴マップをそれぞれ生成することができる。一方、本発明によるCNNは、n個のコンボリューションレイヤのうちh(hは1乃至(n−1)の任意の整数)個のコンボリューションレイヤと連動する第1乃至第hフィーディングレイヤをさらに含むことができる。もちろん、第1コンボリューションレイヤ(第1コンボリューションレイヤは、トレーニングイメージが直ちにフィーディングされることに連動するフィーディングレイヤがない)を除いた残り(n−1)個のコンボリューションレイヤに全て連動するように、(n−1)個のフィーディングレイヤを含むこともあるが、演算量を減らすために、(n−1)個、すなわち第2乃至第nコンボリューションレイヤのうち一部のコンボリューションレイヤに連動するように、h個のコンボリューションレイヤそれぞれにのみ連動するh個のフィーディングレーターのみを含むこともできるであろう。
図3を参照すると、CNNのn個のコンボリューションレイヤは、入力されるトレーニングイメージ、または以前のコンボリューションレイヤで取得されたメイン特徴マップに少なくとも一つのコンボリューション演算を適用して、それぞれ第1乃至第nメイン特徴マップを生成するが、この際、第2乃至第nコンボリューションレイヤのうち第1乃至第hフィーディングレイヤに対応するh個のコンボリューションレイヤは、以下のような特徴マップ生成過程を遂行する。
h個のコンボリューションレイヤのうち任意の特定コンボリューションレイヤがn個のコンボリューションレイヤのうちk番目のコンボリューションレイヤと仮定すると、kコンボリューションレイヤ(320)はkコンボリューションレイヤ(320)の以前の第(k−1)コンボリューションレイヤ(310)から取得された第(k−1)メイン特徴マップ(312)及び第kコンボリューションレイヤ(320)に対応する第mフィーディングレイヤ(410)からトレーニングイメージ(101)が第(k−1)メイン特徴マップ(312)の大きさに合わせてリサイズされた第mサブ特徴マップ(412)を取得することができる。そして、第kコンボリューションレイヤ(320)は、取得した第mサブ特徴マップ(412)を第(k−1)メイン特徴マップ(312)に統合して、第(k−1)統合特徴マップ(321)を生成し、第(k−1)統合特徴マップ(321)に少なくとも一つのコンボリューション演算を適用して第kメイン特徴マップ(322)を生成することができる。
この過程を図3を参照して具体的に説明すると次のとおりである。
まず、第kコンボリューションレイヤ(320)に対応する第mフィーディングレイヤ(410)が第(k−1)コンボリューションレイヤ(310)で生成された第(k−1)メイン特徴マップ(312)の大きさに合うようにトレーニングイメージ(100)の大きさを調節したリサイズされた第mトレーニングイメージ(411)を生成し、リサイズされた第mトレーニングイメージ(411)にコンボリューション演算を適用して第mサブ特徴マップ(412)を生成することができる。第(k−1)メイン特徴マップ(312)との統合のためにリサイズされた第mトレーニングイメージ(411)にコンボリューション演算を適用して、第mサブ特徴マップを生成することができる。併せて、ピクセルごとに加えて統合するためにはコンボリューション演算を適用して第mサブ特徴マップ(412)のチャンネル数を第(k−1)メイン特徴マップ(312)のチャンネル数と同じようにすることができる。その後、第kコンボリューションレイヤ(320)は、第(k−1)メイン特徴マップ(312)と第mサブ特徴マップ(412)を統合して第(k−1)統合特徴マップ(321)を生成することができる。そして、第kコンボリューションレイヤ(320)は、第(k−1)統合特徴マップ(321)についてコンボリューション演算を適用して第kメイン特徴マップ(322)を生成することができる。上述したように、第kコンボリューションレイヤ(320)は、第(k−1)メイン特徴マップ(312)と第mサブ特徴マップ(412)をピクセルごとに加えて第(k−1)統合特徴マップ(321)を生成することもでき、第(k−1)メイン特徴マップ(312)と第mサブ特徴マップ(412)をコンカチネートして第(k−1)統合特徴マップ(321)を生成することもできる。
同様に、第(k+1)コンボリューションレイヤ(330)に対応する第(m+1)フィーディングレイヤ(420)が第kコンボリューションレイヤ(320)で生成された第kメイン特徴マップ(322)の大きさに合うようにトレーニングイメージ(101)の大きさを調節したリサイズされた第(m+1)トレーニングイメージ(421)を生成することができ、リサイズされた第(m+1)トレーニングイメージ(421)にコンボリューション演算を適用して、第(m+1)サブ特徴マップ(422)を生成することができる。その後、第(k+1)コンボリューションレイヤ(330)は第kメイン特徴マップ(322)と第(m+1)サブ特徴マップ(422)を統合して第k統合特徴マップ(331)を生成することができる。そして、第(k+1)コンボリューションレイヤ(330)は第k統合特徴マップ(331)にコンボリューション演算を適用して、第(k+1)メイン特徴マップ(332)を生成することができる。
一方、図3に示されなかったが、本発明の他の実施例では、トレーニングイメージ(101)のリサイズの過程なしにコンボリューション演算を適用してトレーニングイメージ(101)の大きさとチャンネル数を変更してそれぞれのサブ特徴マップを生成することもできる。この場合、第mフィーディングレイヤ(410)は、第(k−1)コンボリューションレイヤ(310)から出力された第(k−1)メイン特徴マップ(312)の大きさに合うようにトレーニングイメージ(101)にコンボリューション演算を適用して第mサブ特徴マップ(412)を生成し、第kコンボリューションレイヤ(320)は、第(k−1)メイン特徴マップ(312)と第mサブ特徴マップ(412)を統合して第(k−1)統合特徴マップ(321)を生成することができる。同様に、第(m+1)フィーディングレイヤ(420)は第kコンボリューションレイヤ(320)から出力された第kメイン特徴マップ(322)の大きさに合うようにトレーニングイメージ(101)にコンボリューション演算を適用して、第(m+1)サブ特徴マップ(422)を生成し、第(k+1)コンボリューションレイヤ(330)は第kメイン特徴マップ(322)と第(m+1)サブ特徴マップ(422)を統合して第k統合特徴マップ(331)を生成することができる。
このような過程を通じて第nメイン特徴マップが生成されると、CNNはCNNの目的に合うさらなる演算を行うこともできる。たとえば、もしCNNが少なくとも一つの特定物体の検出学習のための学習装置であるならば、第nメイン特徴マップに少なくとも一つのFC演算を遂行してトレーニングイメージ(101)内の特定の物体に対するディテクション結果を取得し、ディテクション結果と原本正解値を利用してロスを算出した後、ロスをバックプロパゲーションしてCNNの少なくとも一つのパラメータを学習する。もし、CNNがセグメンテーション結果を学習するための学習装置であるならば、学習装置はデコードレイヤをもって第nメイン特徴マップをデコードレイヤに入力してセグメンテーション結果を取得し、セグメンテーション結果と原本正解値を利用してロスを算出した後、ロスをバックプロパゲーションしてCNNのパラメータを学習する。
CNNがテスト装置である場合にも、上記で説明された過程がテスト方法に適用して、少なくとも一つのテスト用CNN出力を得る。
この場合、学習装置を通じて前記ような過程を経てCNNのパラメータを学習した状態で、テスト装置は少なくとも一つのテストイメージをテストするためにCNN出力を生成することもできる。つまり、テスト装置がそれぞれのコンボリューションレイヤをもって、テストイメージ、または以前のコンボリューションレイヤで取得されたテスト用メイン特徴マップにコンボリューション演算を適用して、テスト用第1乃至第nメイン特徴マップを生成するものの、第2乃至第nコンボリューションレイヤのうち第1乃至第hフィーディングレイヤに対応するh個のコンボリューションレイヤのうち、少なくとも第kコンボリューションレイヤ(ここでkは2乃至nの間の自然数であり、h個のコンボリューションレイヤの一つ)によって、第kコンボリューションレイヤの以前の第(k−1)コンボリューションレイヤから取得されたテスト用第(k−1)メイン特徴マップ及びkコンボリューションレイヤに対応する第mフィーディングレイヤからテストイメージがテスト用第(k−1)メイン特徴マップの大きさに合わせてリサイズされたテスト用第mサブ特徴マップを取得し、第mサブ特徴マップ及びテスト用第(k−1)メイン特徴マップを統合してテスト用第(k−1)統合特徴マップを生成し、テスト用第(k−1)統合特徴マップにコンボリューション演算を適用してテスト用第kメイン特徴マップを生成するようになる。その後、第nメイン特徴マップにFC演算を適用して、テストイメージ内の少なくとも一つの特定の物体に対するディテクション結果を取得したり、テスト用第nメイン特徴マップをデコードレイヤに入力してテスト用セグメンテーション結果を取得する。
このような本発明による入力イメージにマルチフィーディングレイヤを適用したCNNは、第一のコンボリューションレイヤだけでなく、第二以上のコンボリューションレイヤにも入力イメージの詳細情報をそのまま提供することができるため、多数のコンボリューションの演算で消えた入力イメージの詳細情報を維持させることができる。
本発明の技術分野における通常の技術者に理解され得るところであって、前記で説明されたイメージ、例えばトレーニングイメージ、テストイメージのようなイメージデータの送受信が学習装置及びテスト装置の通信部によって行われ得るのであり、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ(及び/又はメモリー)によって保有/維持され得、コンボリューション演算、デコンボリューション演算、ロス値の演算過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明がこれに限定されはしないであろう。
以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を介して遂行することができるプログラム命令語の形態で具現されて、コンピュータ判読可能な記録媒体に記録され得る。前記コンピュータ判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ判読可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカル・ディスク(floptical disk)のような磁気−光メディア(magneto−optical media)、及びROM、RAM、フラッシュメモリーなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (26)

  1. マルチフィーディングレイヤを使用して、少なくとも一つのトレーニングイメージをエンコードすることができるCNNの学習方法において、前記CNNは、前記トレーニングイメージについて少なくとも一回以上のコンボリューション演算を適用して第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、
    (a)学習装置が、前記トレーニングイメージを取得する段階;及び
    (b)前記学習装置が、前記それぞれのコンボリューションレイヤをもって、前記トレーニングイメージ、または以前のコンボリューションレイヤで取得されたメイン特徴マップに前記コンボリューション演算を適用して、前記第1乃至第nメイン特徴マップそれぞれを生成するものの、前記学習装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選ばれる)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記第(k−1)メイン特徴マップの大きさに合わせてリサイズされた第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記第(k−1)メイン特徴マップを統合して第(k−1)統合特徴マップを生成し、(iii)前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して第kメイン特徴マップを生成する段階;
    を含み、前記(b)段階で、
    (b−1)前記学習装置が、前記第mフィーディングレイヤをもって、前記第(k−1)メイン特徴マップの前記大きさに合うように前記トレーニングイメージをリサイジングしてリサイズされた第mトレーニングイメージを生成するようにする段階;
    (b−2)前記学習装置が、前記第mフィーディングレイヤをもって、前記リサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して前記第mサブ特徴マップを生成するようにする段階;
    (b−3)前記学習装置が、前記第kコンボリューションレイヤをもって、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップを統合して前記第(k−1)統合特徴マップを生成するようにする段階;及び
    (b−4)前記学習装置が、前記第kコンボリューションレイヤをもって、前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して、前記第kメイン特徴マップを生成するようにする段階;
    を含むことを特徴とする方法。
  2. 前記(b−3)段階で、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップをピクセルごとに加えて、前記第(k−1)統合特徴マップを生成することを特徴とする請求項1に記載の方法。
  3. 前記(b−3)段階で、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップをコンカチネートして前記第(k−1)統合特徴マップを生成することを特徴とする請求項1に記載の方法。
  4. 前記(b−2)段階で、前記第mサブ特徴マップのチャンネル数が前記第(k−1)メイン特徴マップのチャンネル数に対応するように、前記リサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して、前記第mサブ特徴マップを生成することを特徴とする請求項1に記載の方法。
  5. (c)前記学習装置が、少なくとも一つのFCレイヤをもって、前記第nメイン特徴マップに少なくとも一つのFC演算を適用して、前記トレーニングイメージ内の少なくとも一つの物体に対するディテクション結果を生成する段階;及び
    (d)前記学習装置が、前記ディテクション結果及びそれに対応する原本正解(Ground Truth)を参照して一つ以上のロス値を出力し、前記ロス値をバックプロパゲーションして、前記CNNの一つ以上のパラメータを学習する段階;
    をさらに含むことを特徴とする請求項1に記載の方法。
  6. (c)前記学習装置が、デコードレイヤをもって、前記第nメイン特徴マップを前記デコードレイヤに入力してセグメンテーション結果を生成する段階;及び、
    (d)前記学習装置が、前記セグメンテーション結果及びそれに対応する原本正解を参照して一つ以上のロス値を出力し、前記ロス値をバックプロパゲーションして前記CNNの一つ以上のパラメータを学習する段階;
    をさらに含むことを特徴とする請求項1に記載の方法。
  7. マルチフィーディングレイヤを使用して、少なくとも一つのトレーニングイメージをエンコードすることができるCNN(Convolutional Neural Network)の学習方法において、前記CNNは、前記トレーニングイメージについて少なくとも一回以上のコンボリューション演算を適用して第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、
    (a)学習装置が、前記トレーニングイメージを取得する段階;及び
    (b)前記学習装置が、前記それぞれのコンボリューションレイヤをもって、前記トレーニングイメージ、または以前のコンボリューションレイヤで取得されたメイン特徴マップに前記コンボリューション演算を適用して、前記第1乃至第nメイン特徴マップそれぞれを生成するものの、前記学習装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選ばれる)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記第(k−1)メイン特徴マップの大きさに合わせてリサイズされた第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記第(k−1)メイン特徴マップを統合して第(k−1)統合特徴マップを生成し、(iii)前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して第kメイン特徴マップを生成する段階;
    を含み、前記(b)段階で、
    (b−1)前記学習装置が、前記第mフィーディングレイヤをもって、
    前記トレーニングイメージをリサイズして取得されたリサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して、前記第mサブ特徴マップを前記第(k−1)メイン特徴マップの大きさに対応する大きさを有するように生成させる段階;
    (b−2)前記学習装置が、前記第kコンボリューションレイヤをもって、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップを統合して、前記第(k−1)統合特徴マップを生成するようにする段階;及び
    (b−3)前記学習装置が、前記第kコンボリューションレイヤをもって、前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して、前記第kメイン特徴マップを生成するようにする段階;
    を含むことを特徴とする方法。
  8. 前記(b−1)段階で、前記第mサブ特徴マップのサイズ及びチャンネルの数が前記第(k−1)メイン特徴マップの前記サイズ及び前記チャンネルの数に対応するように前記第mサブ特徴マップを生成することを特徴とする請求項7に記載の方法。
  9. マルチフィーディングレイヤを使用して、少なくとも一つのテストイメージをエンコードすることができるCNNのテスト方法において、前記CNNは前記テストイメージについて少なくとも一回以上のコンボリューション演算を適用して、テスト用第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、
    (a)学習装置が、(1)前記それぞれのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ、または以前のコンボリューションレイヤで取得された学習用メイン特徴マップに前記コンボリューション演算を適用して、前記学習用第1乃至第nメイン特徴マップそれぞれを生成するものの、前記学習装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された学習用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記学習用第(k−1)メイン特徴マップの大きさに合わせてリサイズされた学習用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記学習用第(k−1)メイン特徴マップを統合して学習用第(k−1)統合特徴マップを生成し、(iii)前記学習用第(k−1)統合特徴マップに前記コンボリューション演算を適用して学習用第kメイン特徴マップを生成するプロセス;及び(2)前記CNNの一つ以上のパラメータを学習するプロセス;を遂行した状態で、テスト装置が前記テストイメージを取得する段階;
    (b)前記テスト装置が、前記それぞれのコンボリューションレイヤをもって、前記テストイメージ、または以前のコンボリューションレイヤから取得されたテスト用メイン特徴マップに前記コンボリューション演算を適用して前記テスト用第1乃至第nメイン特徴マップを生成するものの、前記テスト装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得されたテスト用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記テストイメージが前記テスト用第(k−1)メイン特徴マップの大きさに合わせてリサイズされたテスト用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記テスト用第(k−1)メイン特徴マップを統合してテスト用第(k−1)統合特徴マップを生成し、(iii)前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して、テスト用第kメイン特徴マップを生成する段階;
    を含み、前記(b)段階で、
    (b−1)前記テスト装置が、前記第mフィーディングレイヤをもって、前記テスト用第(k−1)メイン特徴マップの前記大きさに合うように前記テストイメージをリサイジングしてリサイズされた第mテストイメージを生成するようにする段階;
    (b−2)前記テスト装置が、前記第mフィーディングレイヤをもって、前記リサイズされた第mテストイメージに前記コンボリューション演算を適用して前記テスト用第mサブ特徴マップを生成するようにする段階;
    (b−3)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップを統合して前記テスト用第(k−1)統合特徴マップを生成するようにする段階;及び
    (b−4)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して前記テスト用第kメイン特徴マップを生成するようにする段階;
    を含むことを特徴とする方法。
  10. 前記(b−3)段階で、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップをピクセルごとに加えて前記テスト用第(k−1)統合特徴マップを生成することを特徴とする請求項9に記載の方法。
  11. 前記(b−3)段階で、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップをコンカチネートして前記テスト用第(k−1)統合特徴マップを生成することを特徴とする請求項9に記載の方法。
  12. マルチフィーディングレイヤを使用して、少なくとも一つのテストイメージをエンコードすることができるCNNのテスト方法において、前記CNNは前記テストイメージについて少なくとも一回以上のコンボリューション演算を適用して、テスト用第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、
    (a)学習装置が、(1)前記それぞれのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ、または以前のコンボリューションレイヤで取得された学習用メイン特徴マップに前記コンボリューション演算を適用して、前記学習用第1乃至第nメイン特徴マップそれぞれを生成するものの、前記学習装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された学習用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記学習用第(k−1)メイン特徴マップの大きさに合わせてリサイズされた学習用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記学習用第(k−1)メイン特徴マップを統合して学習用第(k−1)統合特徴マップを生成し、(iii)前記学習用第(k−1)統合特徴マップに前記コンボリューション演算を適用して学習用第kメイン特徴マップを生成するプロセス;及び(2)前記CNNの一つ以上のパラメータを学習するプロセス;を遂行した状態で、テスト装置が前記テストイメージを取得する段階;
    (b)前記テスト装置が、前記それぞれのコンボリューションレイヤをもって、前記テストイメージ、または以前のコンボリューションレイヤから取得されたテスト用メイン特徴マップに前記コンボリューション演算を適用して前記テスト用第1乃至第nメイン特徴マップを生成するものの、前記テスト装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得されたテスト用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記テストイメージが前記テスト用第(k−1)メイン特徴マップの大きさに合わせてリサイズされたテスト用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記テスト用第(k−1)メイン特徴マップを統合してテスト用第(k−1)統合特徴マップを生成し、(iii)前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して、テスト用第kメイン特徴マップを生成する段階;
    を含み、前記(b)段階において、
    (b−1)前記テスト装置が、前記第mフィーディングレイヤをもって、前記テストイメージをリサイズして取得されたリサイズされた第mテストイメージに前記コンボリューション演算を適用して、前記テスト用第mサブ特徴マップを前記テスト用第(k−1)メイン特徴マップの大きさに対応する大きさを有するように生成させる段階;
    (b−2)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップを統合して前記テスト用第(k−1)統合特徴マップを生成するようにする段階;及び
    (b−3)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して前記テスト用第kメイン特徴マップを生成するようにする段階;
    を含むことを特徴とする請求項9に記載の方法。
  13. 前記(b−1)段階で、前記第mサブ特徴マップのサイズ及びチャンネルの数が前記テスト用第(k−1)メイン特徴マップの前記サイズ及び前記チャンネルの数に対応するように前記テスト用第mサブ特徴マップを生成することを特徴とする請求項12に記載の方法。
  14. マルチフィーディングレイヤを使用して、少なくとも一つのトレーニングイメージをエンコードすることができるCNNの学習装置において、前記CNNは、前記トレーニングイメージについて少なくとも一回以上のコンボリューション演算を適用して第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、
    前記トレーニングイメージを取得する通信部;及び
    (I)前記それぞれのコンボリューションレイヤをもって、前記トレーニングイメージ、または以前のコンボリューションレイヤで取得されたメイン特徴マップに前記コンボリューション演算を適用して、前記第1乃至第nメイン特徴マップそれぞれを生成するものの、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記第(k−1)メイン特徴マップの大きさに合わせてリサイズされた第mサブ特徴マップを取得し、(ii)第mサブ特徴マップ及び前記第(k−1)メイン特徴マップを統合して第(k−1)統合特徴マップを生成し、(iii)前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して第kメイン特徴マップを生成するプロセスを遂行するプロセッサ;
    を含み、前記(I)プロセスにおいて前記プロセッサは、
    (I−1)前記第mフィーディングレイヤをもって、前記第(k−1)メイン特徴マップの前記大きさに合うように前記トレーニングイメージをリサイジングしてリサイズされた第mトレーニングイメージを生成するようにするプロセス;
    (I−2)前記第mフィーディングレイヤをもって、前記リサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して、前記第mサブ特徴マップを生成するようにするプロセス;
    (I−3)前記第kコンボリューションレイヤをもって、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップを統合して、前記第(k−1)統合特徴マップを生成するようにするプロセス;及び
    (I−4)前記第kコンボリューションレイヤをもって、前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して、前記第kメイン特徴マップを生成するようにするプロセス;
    を遂行することを特徴とする装置。
  15. 前記(I−3)プロセスにおいて、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップをピクセルごとに加え、前記第(k−1)統合特徴マップを生成することを特徴とする請求項14に記載の装置。
  16. 前記(I−3)プロセスにおいて、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップをコンカチネートして第(k−1)統合特徴マップを生成することを特徴とする請求項14に記載の装置。
  17. 前記(I−2)プロセスにおいて、前記第mサブ特徴マップのチャンネル数が前記第(k−1)メイン特徴マップのチャンネル数に対応するように、前記リサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して、前記第mサブ特徴マップを生成することを特徴とする請求項14に記載の装置。
  18. 前記プロセッサは、
    (II)少なくとも一つのFCレイヤをもって、前記第nメイン特徴マップに少なくとも一つのFC演算を適用して、前記トレーニングイメージ内の少なくとも一つの物体に対するディテクション結果を生成するプロセス;及び、
    (III)前記ディテクション結果及びそれに対応する原本正解(Ground Truth)を参照して一つ以上のロス値を出力し、前記ロス値をバックプロパゲーションして、前記CNNの一つ以上のパラメータを学習するプロセス;
    をさらに遂行することを特徴とする請求項14に記載の装置。
  19. 前記プロセッサは、
    (II)デコードレイヤをもって、前記第nメイン特徴マップを前記デコードレイヤに入力してセグメンテーション結果を生成するプロセス;及び
    (III)前記セグメンテーション結果及びそれに対応する原本正解を参照して一つ以上のロス値を出力し、前記ロス値をバックプロパゲーションして、前記CNNの一つ以上のパラメータを学習するプロセス;
    をさらに遂行することを特徴とする請求項14に記載の装置。
  20. マルチフィーディングレイヤを使用して、少なくとも一つのトレーニングイメージをエンコードすることができるCNNの学習装置において、前記CNNは、前記トレーニングイメージについて少なくとも一回以上のコンボリューション演算を適用して第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、
    前記トレーニングイメージを取得する通信部;及び
    (I)前記それぞれのコンボリューションレイヤをもって、前記トレーニングイメージ、または以前のコンボリューションレイヤで取得されたメイン特徴マップに前記コンボリューション演算を適用して、前記第1乃至第nメイン特徴マップそれぞれを生成するものの、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記第(k−1)メイン特徴マップの大きさに合わせてリサイズされた第mサブ特徴マップを取得し、(ii)第mサブ特徴マップ及び前記第(k−1)メイン特徴マップを統合して第(k−1)統合特徴マップを生成し、(iii)前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して第kメイン特徴マップを生成するプロセスを遂行するプロセッサ;
    を含み、前記(I)プロセスにおいて前記プロセッサは、
    (I−1)前記第mフィーディングレイヤをもって、前記トレーニングイメージをリサイズして取得されたリサイズされた第mトレーニングイメージに前記コンボリューション演算を適用して、前記第mサブ特徴マップを前記第(k−1)メイン特徴マップの大きさに対応する大きさを有するように生成させるプロセス;
    (I−2)前記第kコンボリューションレイヤをもって、前記第(k−1)メイン特徴マップ及び前記第mサブ特徴マップを統合して、前記第(k−1)統合特徴マップを生成するようにするプロセス;及び
    (I−3)前記第kコンボリューションレイヤをもって、前記第(k−1)統合特徴マップに前記コンボリューション演算を適用して、前記第kメイン特徴マップを生成するようにするプロセス;
    を含むことを特徴とする装置。
  21. 前記(I−1)プロセスにおいて、前記第mサブ特徴マップのサイズ及びチャンネルの数が前記第(k−1)メイン特徴マップの前記サイズ及び前記チャンネルの数に対応するように前記第mサブ特徴マップを生成することを特徴とする請求項20に記載の装置。
  22. マルチフィーディングレイヤを使用して、少なくとも一つのテストイメージをエンコードすることができるCNNのテスト装置において、前記CNNは前記テストイメージについて少なくとも一回以上のコンボリューション演算を適用して、テスト用第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、
    学習装置が(1)前記それぞれのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ、または以前のコンボリューションレイヤで取得された学習用メイン特徴マップに前記コンボリューション演算を適用して、前記学習用第1乃至第nメイン特徴マップそれぞれを生成するものの、前記学習装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された学習用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記学習用第(k−1)メイン特徴マップの大きさに合わせてリサイズされた学習用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記学習用第(k−1)メイン特徴マップを統合して学習用第(k−1)統合特徴マップを生成し、(iii)前記学習用第(k−1)統合特徴マップに前記コンボリューション演算を適用して学習用第kメイン特徴マップを生成するプロセス;及び(2)前記CNNの一つ以上のパラメータを学習するプロセス;を遂行した状態で、前記テストイメージを取得する通信部;及び
    (I)前記それぞれのコンボリューションレイヤをもって、前記テストイメージ、または以前のコンボリューションレイヤで取得されたテスト用メイン特徴マップに前記コンボリューション演算を適用して前記テスト用第1乃至第nメイン特徴マップを生成するものの、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得されたテスト用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記テストイメージが前記テスト用第(k−1)メイン特徴マップの大きさに合わせてリサイズされたテスト用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記テスト用第(k−1)メイン特徴マップを統合してテスト用第(k−1)統合特徴マップを生成し、(iii)前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して、テスト用第kメイン特徴マップを生成するプロセス;を遂行するプロセッサ
    を含み、前記プロセッサは、
    (I−1)前記第mフィーディングレイヤをもって、前記テスト用第(k−1)メイン特徴マップの前記大きさに合うように前記テストイメージをリサイジングしてリサイズされた第mテストイメージを生成するようにするプロセス;
    (I−2)前記第mフィーディングレイヤをもって、前記リサイズされた第mテストイメージに前記コンボリューション演算を適用して前記テスト用第mサブ特徴マップを生成するようにするプロセス;
    (I−3)前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップを統合して前記テスト用第(k−1)統合特徴マップを生成するようにするプロセス;及び
    (I−4)前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して前記テスト用第kメイン特徴マップを生成するようにするプロセス;
    を遂行することを特徴とする装置。
  23. 前記(I−3)プロセスにおいて、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップをピクセルごとに加えて前記テスト用第(k−1)統合特徴マップを生成することを特徴とする請求項22に記載の装置。
  24. 前記(I−3)プロセスにおいて、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップをコンカチネートして前記テスト用第(k−1)統合特徴マップを生成することを特徴とする請求項22に記載の装置。
  25. マルチフィーディングレイヤを使用して、少なくとも一つのテストイメージをエンコードすることができるCNNのテスト装置において、前記CNNは前記テストイメージについて少なくとも一回以上のコンボリューション演算を適用して、テスト用第1乃至第nメイン特徴マップをそれぞれ生成する第1乃至第nコンボリューションレイヤを含み、前記n個のコンボリューションレイヤのうちh個のコンボリューションレイヤそれぞれに対応する第1乃至第hフィーディングレイヤを含み、前記hは1乃至(n−1)の整数であることを特徴とし、
    学習装置が(1)前記それぞれのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージ、または以前のコンボリューションレイヤで取得された学習用メイン特徴マップに前記コンボリューション演算を適用して、前記学習用第1乃至第nメイン特徴マップそれぞれを生成するものの、前記学習装置が、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得された学習用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記トレーニングイメージが前記学習用第(k−1)メイン特徴マップの大きさに合わせてリサイズされた学習用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記学習用第(k−1)メイン特徴マップを統合して学習用第(k−1)統合特徴マップを生成し、(iii)前記学習用第(k−1)統合特徴マップに前記コンボリューション演算を適用して学習用第kメイン特徴マップを生成するプロセス;及び(2)前記CNNの一つ以上のパラメータを学習するプロセス;を遂行した状態で、前記テストイメージを取得する通信部;及び
    (I)前記それぞれのコンボリューションレイヤをもって、前記テストイメージ、または以前のコンボリューションレイヤで取得されたテスト用メイン特徴マップに前記コンボリューション演算を適用して前記テスト用第1乃至第nメイン特徴マップを生成するものの、前記第1乃至第hフィーディングレイヤにそれぞれ対応する前記h個のコンボリューションレイヤ(前記h個のコンボリューションレイヤは前記第2乃至第nコンボリューションレイヤで選択される)のうちの一つである第kコンボリューションレイヤをもって、(i)第(k−1)コンボリューションレイヤから取得されたテスト用第(k−1)メイン特徴マップ及び前記第kコンボリューションレイヤに対応する第mフィーディングレイヤから前記テストイメージが前記テスト用第(k−1)メイン特徴マップの大きさに合わせてリサイズされたテスト用第mサブ特徴マップを取得し、(ii)前記第mサブ特徴マップ及び前記テスト用第(k−1)メイン特徴マップを統合してテスト用第(k−1)統合特徴マップを生成し、(iii)前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して、テスト用第kメイン特徴マップを生成するプロセス;を遂行するプロセッサ
    を含み、前記プロセッサは、
    (I−1)前記第mフィーディングレイヤをもって、前記テストイメージをリサイズして取得されたリサイズされた第mテストイメージに前記コンボリューション演算を適用して前記テスト用第mサブ特徴マップを前記テスト用第(k−1)メイン特徴マップの大きさに対応する大きさを有するように生成させるプロセス;
    (I−2)前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)メイン特徴マップ及び前記テスト用第mサブ特徴マップを統合して前記テスト用第(k−1)統合特徴マップを生成するようにするプロセス;及び
    (I−3)前記第kコンボリューションレイヤをもって、前記テスト用第(k−1)統合特徴マップに前記コンボリューション演算を適用して前記テスト用第kメイン特徴マップを生成するようにするプロセス;
    を遂行することを特徴とする装置。
  26. 前記プロセッサは、
    (I−1)プロセスにおいて、前記第mサブ特徴マップのサイズ及びチャンネルの数が前記テスト用第(k−1)メイン特徴マップの前記サイズ及び前記チャンネルの数に対応するように前記テスト用第mサブ特徴マップを生成することを特徴とする請求項25に記載の装置。
JP2019163897A 2018-09-17 2019-09-09 マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置 Active JP6935939B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/132,479 US10579924B1 (en) 2018-09-17 2018-09-17 Learning method, learning device with multi-feeding layers and testing method, testing device using the same
US16/132,479 2018-09-17

Publications (2)

Publication Number Publication Date
JP2020047270A JP2020047270A (ja) 2020-03-26
JP6935939B2 true JP6935939B2 (ja) 2021-09-15

Family

ID=66439913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019163897A Active JP6935939B2 (ja) 2018-09-17 2019-09-09 マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置

Country Status (5)

Country Link
US (1) US10579924B1 (ja)
EP (1) EP3624015A1 (ja)
JP (1) JP6935939B2 (ja)
KR (1) KR102313604B1 (ja)
CN (1) CN110909748B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180027887A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법
TWI717655B (zh) * 2018-11-09 2021-02-01 財團法人資訊工業策進會 適應多物件尺寸之特徵決定裝置及方法
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
US11657279B2 (en) * 2020-06-16 2023-05-23 National Taiwan University Of Science And Technology Electronic device and method for document segmentation
CN116686001A (zh) * 2020-12-25 2023-09-01 三菱电机株式会社 物体检测装置、监视装置、学习装置以及模型生成方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101976048B1 (ko) * 2011-08-25 2019-05-09 코넬 유니버시티 머신 비전용 망막 인코더
CN106462940A (zh) * 2014-10-09 2017-02-22 微软技术许可有限责任公司 图像中通用对象检测
US10762894B2 (en) * 2015-03-27 2020-09-01 Google Llc Convolutional neural networks
KR102592076B1 (ko) * 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
JP6729046B2 (ja) * 2016-06-20 2020-07-22 大日本印刷株式会社 配線基板およびその製造方法、ならびに半導体装置の製造方法
CN106651887A (zh) * 2017-01-13 2017-05-10 深圳市唯特视科技有限公司 一种基于卷积神经网络的图像像素分类方法
JP6740920B2 (ja) * 2017-02-01 2020-08-19 株式会社デンソー 演算処理装置
US9947103B1 (en) * 2017-10-03 2018-04-17 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
US10043113B1 (en) * 2017-10-04 2018-08-07 StradVision, Inc. Method and device for generating feature maps by using feature upsampling networks
CN107944443A (zh) * 2017-11-16 2018-04-20 深圳市唯特视科技有限公司 一种基于端到端深度学习进行对象一致性检测方法
JP6830742B2 (ja) * 2017-11-29 2021-02-17 Kddi株式会社 画素に基づく画像セグメンテーション用のプログラム
CN108021923B (zh) * 2017-12-07 2020-10-23 上海为森车载传感技术有限公司 一种用于深度神经网络的图像特征提取方法
CN107958246A (zh) * 2018-01-17 2018-04-24 深圳市唯特视科技有限公司 一种基于新型端到端人脸超分辨率网络的图像对齐方法
CN108346145B (zh) 2018-01-31 2020-08-04 浙江大学 一种病理切片中非常规细胞的识别方法

Also Published As

Publication number Publication date
US20200090047A1 (en) 2020-03-19
CN110909748B (zh) 2023-09-19
JP2020047270A (ja) 2020-03-26
EP3624015A1 (en) 2020-03-18
CN110909748A (zh) 2020-03-24
KR102313604B1 (ko) 2021-10-19
US10579924B1 (en) 2020-03-03
KR20200031992A (ko) 2020-03-25

Similar Documents

Publication Publication Date Title
JP6935939B2 (ja) マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置
JP6856851B2 (ja) イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置
JP6847464B2 (ja) 車線候補ピクセルを分類して車線を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane through classifying lane candidate pixels and test method, test device using the same}
JP6865363B2 (ja) ラプラシアンピラミッドネットワークを利用して自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物検出におけるセグメンテーション性能向上のための学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置
US10496899B1 (en) Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
JP6875021B2 (ja) 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
EP3686795B1 (en) Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
JP6857370B2 (ja) ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6908939B2 (ja) 障害物の下段ラインを基準にroiを検出する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting roi on the basis of bottom lines of obstacles and testing method,testing device using the same}
JP6869559B2 (ja) 障害物を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting obstacles and testing method, testing device using the same}
JP6869565B2 (ja) 危険要素検出に利用される学習用イメージデータセットの生成方法及びコンピューティング装置、そしてこれを利用した学習方法及び学習装置{method and computing device for generating image data set to be used for hazard detection and learning method and learning device using the same}
JP6868298B2 (ja) R−cnn基盤の物体検出器を学習する方法及びテストする方法、それを利用した学習装置及びテスト装置
JP6867054B2 (ja) マルチカメラシステム内のダブルエンベディング構成を利用して、道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置。{learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi−camera system and testing method and testing device using the same}
JP6957050B2 (ja) モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same}
JP6856952B2 (ja) 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
JP2020038664A (ja) コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network}
US10872297B2 (en) Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same
US11461653B2 (en) Learning method and learning device for CNN using 1xK or Kx1 convolution to be used for hardware optimization, and testing method and testing device using the same
KR20200092847A (ko) 핵심 성능 지수를 만족시킬 수 있는 하드웨어 최적화가 이루어지도록, cnn에서 복수의 블록 내의 입력 이미지로부터 특징을 추출하는 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
US10635938B1 (en) Learning method and learning device for allowing CNN having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same
JP2020068015A (ja) リグレッションロス(Regression loss)を利用した学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE USING REGRESSION LOSS AND TESTING METHOD, TESTING DEVICE USING THE SAME}

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210819

R150 Certificate of patent or registration of utility model

Ref document number: 6935939

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150