JP6856851B2 - イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置 - Google Patents

イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置 Download PDF

Info

Publication number
JP6856851B2
JP6856851B2 JP2019163898A JP2019163898A JP6856851B2 JP 6856851 B2 JP6856851 B2 JP 6856851B2 JP 2019163898 A JP2019163898 A JP 2019163898A JP 2019163898 A JP2019163898 A JP 2019163898A JP 6856851 B2 JP6856851 B2 JP 6856851B2
Authority
JP
Japan
Prior art keywords
test
feature map
group
convolution
inception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019163898A
Other languages
English (en)
Other versions
JP2020047271A (ja
Inventor
桂賢 金
桂賢 金
鎔重 金
鎔重 金
寅洙 金
寅洙 金
鶴京 金
鶴京 金
雲鉉 南
雲鉉 南
碩▲ふん▼ 夫
碩▲ふん▼ 夫
明哲 成
明哲 成
東勳 呂
東勳 呂
宇宙 柳
宇宙 柳
泰雄 張
泰雄 張
景中 鄭
景中 鄭
泓模 諸
泓模 諸
浩辰 趙
浩辰 趙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020047271A publication Critical patent/JP2020047271A/ja
Application granted granted Critical
Publication of JP6856851B2 publication Critical patent/JP6856851B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、CNN基盤イメージエンコーディング方法に関し、具体的には;前記CNN基盤イメージエンコーディング方法において、(a)第1ないし第nコンボリューションレイヤを含む学習装置が、少なくとも一つの入力イメージを獲得する段階;(b)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算(Transposed Convolution Operation)を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)異なるストライド(Stride)と異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用して、少なくとも一つのインセプション(Inception)特徴マップを第1グループとして生成する段階;及び(c)前記学習装置が、前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算(Element−Wise Adding)をして、これに対応する出力特徴マップを生成する段階;を含むことを特徴とする学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置に関する。
ディープラーニング(Deep Learning)は、モノやデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけで犬と猫を区別することができない。しかし、人はとても簡単に区別できる。このため「機械学習(Machine Learning)」という方法が考案された。多くのデータをコンピュータに入力し、類似したものを分類するようにする技術である。保存されている犬の写真と似たような写真が入力されると、これを犬の写真だとコンピュータが分類するようにしたのである。
データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「決定木」や「ベイジアンネットワーク」「サポートベクターマシン(SVM)」「人工神経網」などが代表的だ。このうち、ディープラーニングは人工神経網の後裔だ。
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;DeepCNN)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNは、文字の認識問題を解くために90年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげだ。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習分野で非常に有用なツールとなった。
図1は、一般的なCNNセグメンテーションプロセスを簡略的に示した図面である。
図1を参照すれば、従来の車線検出方法では、学習装置が、入力イメージの入力を受けて、複数のコンボリューションレイヤでコンボリューション演算やReLUなどの非線形演算を複数回遂行してエンコード済み特徴マップを獲得し、最後の特徴マップに対して、複数のデコンボリューションレイヤでデコンボリューション演算とソフトマックス演算を複数回遂行してセグメンテーション結果を得る。
図2a及び図2bは、従来のインセプション方法でイメージをエンコーディングするためのコンボリューションレイヤの多様な構成を各々示す。
図2aに示した従来のインセプション方法は、多様なカーネルサイズ、例えば、1×1、3×3、5×5又はこれらの組合のカーネルサイズを有するコンボリューションユニットを通じて以前レイヤから送られた入力特徴マップに対してコンボリューション演算を遂行した上で、コンボリューション演算がされた様々な特徴マップをコンカチネートする。このような方法で、一つのスケール(Scale)から様々なレセプティブフィールド(Receptive Field)を考慮する中間(Intermediate)特徴マップ、すなわちインセプション特徴マップを得ることができた。
図2bに示した従来のインセプション方法は、演算量を減らすために1×1コンボリューションフィルタを利用してチャネル数を減らすプロセスを追加した。
前記のようなインセプション概念を利用した従来のイメージエンコーディング方法は、特徴マップをコンボリューション演算する際、様々なカーネルサイズで様々なレセプティブフィールドを考慮し得るが、従来の方法では、1×1以上のカーネルサイズのみを考慮し得るという問題があったため、イメージの多様な特徴をすべて考慮することができなかった。従って、より多様なカーネルサイズを考慮して、より多様な特性を有する特徴を抽出し得る新しい方法の提示が求められている。
本発明は、前述した問題点を全て解決することを目的とする。
本発明は、入力特徴マップに対して適用される1×1より小さなカーネルサイズを考慮できる新しいイメージのエンコーディング方法を提供することを他の目的とする。
本発明は、入力特徴マップにおいて従来の方法よりも多様な特性が得られる新しいイメージエンコーディング方法を提供することをまた他の目的とする。
本発明の一態様によれば、CNN基盤イメージエンコーディング方法において、(a)第1ないし第nコンボリューションレイヤを含む学習装置が、少なくとも一つの入力イメージを獲得する段階;(b)前記学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用して、少なくとも一つのインセプション特徴マップを第1グループとして生成する段階;及び(c)前記学習装置が、前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する出力特徴マップを生成する段階;を含むことを特徴とする。
一例として、前記第1グループに含まれた前記インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする。
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(b)段階は、(b−1)前記学習装置が、前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤで獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成する段階;(b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;(b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;を含むことを特徴とする。
一例として、前記(b)段階で、前記学習装置は、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップを第2グループとして生成し、前記(c)段階で、前記学習装置は、前記第1グループの前記インセプション特徴マップ及び前記第2グループの前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする。
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(b)段階は、(b−1)前記学習装置が、前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤから獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成する段階;(b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対し、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;及び(b−3)前記学習装置が、前記入力イメージまたは前記第k−1コンボリューションレイヤから獲得した前記第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、第m+1ないし第m+nインセプション特徴マップを前記第2グループとして生成する段階;を含むことを特徴とする。
一例として、前記(b)段階で、前記学習装置は、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのマックスプーリング特徴マップを第3グループとして生成し、前記(c)段階で、前記学習装置は、前記第1グループの前記インセプション特徴マップ、前記第2グループの前記インセプション特徴マップ及び前記第3グループの前記マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする。
一例として、前記(b)段階で、前記学習装置は、前記第1コンボリューションレイヤをもって(i)前記入力イメージに対して転置コンボリューション演算を少なくとも一度適用し、各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用し、少なくとも一つのインセプション特徴マップを前記第1グループとして生成することを特徴とする。
一例として、前記方法は、(d)前記学習装置が、前記第nコンボリューションレイヤから出力された前記出力特徴マップを基にCNN出力を獲得し、前記CNN出力とこれに対応する原本正解(Ground truth)を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行する段階;をさらに含むことを特徴とする。
本発明の他の態様によれば、CNN基盤イメージエンコーディング方法において、(a)(i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの学習用転置特徴マップを生成するプロセス、(ii)前記学習装置が、前記学習用転置特徴マップに対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも一つの学習用インセプション特徴マップを学習用第1グループとして生成するプロセス、(iii)前記学習装置が、前記学習用第1グループに含まれた前記学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成するプロセス及び(iv)前記学習装置が、前記学習用出力特徴マップを基に学習用CNN出力を獲得し、前記学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーション(Backpropagation)を遂行するプロセスを遂行した状態で、テスト装置が、少なくとも一つのテストイメージを獲得する段階;(b)前記テスト装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記テストイメージまたは以前コンボリューションレイヤから獲得されたテスト用入力特徴マップに対して、前記転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとの一つのテスト用インセプション特徴マップをテスト用第1グループとして生成する段階;及び(c)前記テスト装置が、前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成する段階;を含むことを特徴とする。
一例として、前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする。
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(b)段階は、(b−1)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤで獲得したテスト第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有するテスト用第1ないし第m転置特徴マップを生成する段階;(b−2)前記テスト装置が、(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成する段階;を含むことを特徴とする。
一例として、前記(b)段階で、前記テスト装置は、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップをテスト用第2グループとして生成し、前記(c)段階で、前記テスト装置は、前記テスト用第1グループの前記テスト用インセプション特徴マップ及び前記テスト用第2グループの前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする。
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(b)段階は、(b−1)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤから獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有するテスト用第1ないしテスト用第m転置特徴マップを生成する段階;(b−2)前記テスト装置が、(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成する段階;及び(b−3)前記テスト装置が、前記テストイメージまたは前記第k−1コンボリューションレイヤから獲得した前記テスト用第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、テスト用第m+1ないしテスト用第m+nインセプション特徴マップを前記テスト用第2グループとして生成する段階;を含むことを特徴とする。
一例として、前記(b)段階で、前記テスト装置は、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのテスト用マックスプーリング特徴マップをテスト用第3グループとして生成し、前記(c)段階で、前記テスト装置は、前記テスト用第1グループの前記テスト用インセプション特徴マップ、前記テスト用第2グループの前記テスト用インセプション特徴マップ及び前記テスト用第3グループの前記テスト用マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする。
本発明のまた他の態様によれば、第1ないし第nコンボリューションレイヤを含む、CNN基盤イメージエンコーディングのための学習装置において、少なくとも一つのトレーニングイメージを入力イメージとして獲得するための通信部;及び(I)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応する各々の転置特徴マップに少なくとも一度適用して、少なくとも一つのインセプション特徴マップを第1グループとして生成するプロセス、及び、(II)前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する出力特徴マップを生成するプロセスを遂行するプロセッサ;を含むことを特徴とする。
一例として、前記第1グループに含まれた前記インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする。
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(I)プロセスは、(I−1)前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤで獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成するプロセス;(I−2)(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成するプロセス;を含むことを特徴とする。
一例として、前記(I)プロセスで、前記プロセッサは、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップを第2グループとして生成し、前記(II)プロセスで、前記プロセッサは、前記第1グループの前記インセプション特徴マップ及び前記第2グループの前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする。
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(I)プロセスは、(I−1)前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤから獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成するプロセス;(I−2)(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成するプロセス;及び(I−3)前記入力イメージまたは前記第k−1コンボリューションレイヤから獲得した前記第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、第m+1ないし第m+nインセプション特徴マップを前記第2グループとして生成するプロセス;を含むことを特徴とする。
一例として、前記(I)プロセスで、前記プロセッサは、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのマックスプーリング特徴マップを第3グループとして生成して、前記(II)プロセスで、前記プロセッサは、前記第1グループの前記インセプション特徴マップ、前記第2グループの前記インセプション特徴マップ及び前記第3グループの前記マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする。
一例として、前記(I)プロセスで、前記プロセッサは、前記第1コンボリューションレイヤをもって(i)前記入力イメージに対して転置コンボリューション演算を少なくとも一度適用し、各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)前記転置特徴マップに対し、異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも一つのインセプション特徴マップを前記第1グループとして生成することを特徴とする。
一例として、前記プロセッサは、(III)前記第nコンボリューションレイヤから出力された前記出力特徴マップを基にCNN出力を獲得し、前記CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセス;をさらに遂行することを特徴とする。
本発明のまた他の態様によれば、CNN基盤イメージエンコーディングのためのテスト装置において、(i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの学習用転置特徴マップを生成するプロセス、(ii)前記学習装置が、異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応する前記学習用転置特徴マップに対して少なくとも一度適用して、少なくとも一つの学習用インセプション特徴マップ(Inception Feature Maps For Training)を学習用第1グループとして生成するプロセス、(iii)前記学習装置が、前記学習用第1グループに含まれた前記学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成するプロセス及び(iv)前記学習装置が、前記学習用出力特徴マップを基に学習用CNN出力を獲得し、前記学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセスを遂行した状態で、少なくとも一つのテストイメージを獲得する通信部;及び(I)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記テストイメージまたは以前コンボリューションレイヤから獲得された前記テスト用入力特徴マップに対して、前記転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとの一つのテスト用インセプション特徴マップ(Inception Feature Maps)をテスト用第1グループとして生成するプロセス;及び(II)前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成するプロセス;を遂行するプロセッサ;を含むことを特徴とする。
一例として、前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする。
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(I)プロセスは、(I−1)前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤで獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有するテスト用第1ないし第m転置特徴マップを生成するプロセス;(I−2)(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成するプロセス;を含むことを特徴とする。
一例として、前記(I)プロセスで、前記プロセッサは、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのテスト用インセプション特徴マップを第2グループとして生成し、前記(II)プロセスで、前記プロセッサは、前記テスト用第1グループの前記テスト用インセプション特徴マップ及び前記テスト用第2グループの前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする。
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(II)プロセスは、(II−1)前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤから獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有するテスト用第1ないしテスト用第m転置特徴マップを生成するプロセス;(II−2)(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成するプロセス;及び(II−3)前記テストイメージまたは前記第k−1コンボリューションレイヤから獲得した前記テスト用第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、テスト用第m+1ないしテスト用第m+nインセプション特徴マップを前記テスト用第2グループとして生成するプロセス;を含むことを特徴とする。
一例として、前記(I)プロセスで、前記プロセッサは、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのテスト用マックスプーリング特徴マップをテスト用第3グループとして生成して、前記(II)プロセスで、前記プロセッサは、前記テスト用第1グループの前記テスト用インセプション特徴マップ、前記テスト用第2グループの前記テスト用インセプション特徴マップ及び前記テスト用第3グループの前記テスト用マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする。
本発明によれば、入力イメージまたは以前コンボリューションレイヤで獲得した入力特徴マップに対して、多様なサイズの転置コンボリューションを適用して特徴マップのサイズを拡大し、これに対応するストライドを有するコンボリューション演算を適用してカーネルサイズを整数から実数範囲に広げ得る効果がある。
本発明によれば、以前コンボリューションレイヤで獲得された入力特徴マップから考慮し得るレセプティブフィールド(Receptive Field)が多様になり、多様な特徴を有する特徴を得られるまたの特徴がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者(以下「通常の技術者」)は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
一般的なCNNセグメンテーションプロセスを簡略的に示した図面である。 従来のインセプション方法を利用してイメージをエンコーディングするためのコンボリューションレイヤの多様な構成を各々示した図面である。 従来のインセプション方法を利用してイメージをエンコーディングするためのコンボリューションレイヤの多様な構成を各々示した図面である。 本発明の一例に係るイメージエンコーディング方法を示した図面である。 本発明の他の一例に係るイメージエンコーディング方法を示した図面である。 本発明のまた他の一例に係るイメージエンコーディング方法を示した図面である。
後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は、実例として提供され、本発明を限定することを意図したものではない。
さらに、本発明は本明細書に表示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は、本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面において類似する参照符号は、いくつかの側面にわたって同一であるか、類似する機能を指す。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。
図3は、本発明の一例に係るイメージエンコーディング方法を示した図面である。
CNN(Convolutional Neural Network)基盤学習装置またはテスト装置において、第1ないし第nコンボリューションレイヤ各々は、入力イメージまたは以前コンボリューションレイヤで獲得した入力特徴マップに対してコンボリューション演算を少なくとも一度適用して第1ないし第n特徴マップを生成する。
この際、図3に示した第1ないし第nコンボリューションレイヤの中から少なくとも一つのコンボリューションレイヤ各々は、以前コンボリューションレイヤから獲得された入力特徴マップ301(または入力イメージ)に対して一つ以上の転置コンボリューション演算310、320を適用して各々サイズが異なるように拡大された一つ以上の転置特徴マップを生成する。ここで、前記転置コンボリューション演算310、320は、デコンボリューションレイヤを利用して特徴マップのサイズを拡張するコンボリューション演算を意味し得るが、補間法(Interpolation)やリサイズ(例えば、最近隣法(Nearest Neighbor)、直線補間(Linear Interpolation)なども含み得る。入力特徴マップ301(または入力イメージ)に対して、前記一つ以上の転置コンボリューション演算310、320を適用すれば、一つ以上の転置特徴マップ311、321が生成される。図3の例で、第1転置コンボリューション演算310は、入力特徴マップ301のサイズを2倍に拡大し、第1転置特徴マップ311のサイズは入力特徴マップ301サイズの2倍になり、第2転置コンボリューション演算320は、入力特徴マップ301のサイズを4倍拡大し、第2転置特徴マップ321のサイズは、入力特徴マップ301サイズの4倍になる。もちろん、このようなサイズの拡大程度は例示的なものであり、本発明の範囲はこれに限られない。
その後、前記一つ以上の転置特徴マップ311、321に対してそれに対応して一つ以上のコンボリューション演算330、340を随行する。より詳細には、コンボリューション演算330、340は、前記転置特徴マップに対して、それに対応して各々異なるストライド及び異なるカーネルサイズが適用されるもので、これに対応する一つ以上のインセプション特徴マップを第1グループ302として生成する。例えば、第1コンボリューション演算330のストライドの値が2であり、第2コンボリューション演算340のストライドの値が4である状況で、(i)第1転置特徴マップ311のサイズが入力特徴マップ301に比べて2倍になったので、ストライドが2である第1コンボリューション演算330を適用して、第1転置特徴マップ311のサイズを入力特徴マップ301のサイズと同様に変形させて、(ii)同様に、第2転置特徴マップ321のサイズが入力特徴マップ301に比べて4倍になったので、ストライドが4である第2コンボリューション演算340を通じて、第2転置特徴マップ321のサイズを入力特徴マップ301のサイズと同様に変形させる。これによって、第1グループ302内のインセプション特徴マップ331、341のサイズは同一に形成される。
併せて、第1コンボリューション演算330及び第2コンボリューション演算340に適用されるカーネルサイズは、各々e×fとg×hのように互いに異なるように決定できる。これによって、入力特徴マップ301対して多様なレセプティブフィールド(Receptive Field)を考慮し得る。特に、入力特徴マップ301のサイズを多様に変形させた後も様々なレセプティブフィールドを適用するため、各々の特定倍数に縮小されたカーネルサイズが適用される効果が得られるが、前記各々の特定倍数は、転置コンボリューション演算によって、これに対応してサイズが増加した倍数である。例えば、図3で入力特徴マップ301に対して、第1転置コンボリューション演算310を適用して生成された第1転置コンボリューション特徴マップ311にe×fのカーネルサイズを適用すれば、第1転置コンボリューション特徴マップ311に対してはe×fサイズのレセプティブフィールドが提供されるが、入力特徴マップ301に対してはe/2×f/2のレセプティブフィールドが提供され得る。
図3の例で、第1コンボリューション演算330のストライドが2で3×3のカーネルサイズを有すれば、第1グループ302の第1インセプション特徴マップ331は、入力特徴マップ301に対して3/2×3/2サイズのレセプティブフィールドを考慮して生成されたと見ることができ、第2コンボリューション演算340のストライドが4で5×5のカーネルサイズを有すれば、第1グループ302の第2インセプション特徴マップ341は、入力特徴マップ301に対して5/4×5/4サイズのレセプティブフィールドを考慮して生成されたと見ることができる。
この際、第1グループ302のインセプション特徴マップ331、341は、同一サイズを有するが、多様なレセプティブフィールドを考慮して生成された様々な特性を有する。
そしてこのように生成された第1グループ302に含まれたインセプション特徴マップ331、341をコンカチネート(Concatenate)するか、要素ごとの加算をして、一つの出力特徴マップ303に統合される。そして出力特徴マップ303は、これに対応するコンボリューションレイヤの出力でもあり得、出力特徴マップ303から生成された修正済み特徴マップは、これに対応するコンボリューションレイヤの出力でもあり得る。例えば、第kコンボリューションレイヤに入力される入力特徴マップ301がn個のコンボリューションレイヤのうち第(k−1)コンボリューションレイヤから出力された第(k−1)特徴マップなら、図3に示した演算は、第kコンボリューションレイヤで遂行されるもので、出力特徴マップ303は、前記第kコンボリューションレイヤから出力された第k特徴マップでもあり得る。他の例として、チャネルとサイズを変更するために前記出力特徴マップ303に対して追加コンボリューション演算及びReLUのような非線形演算を適用して生成された修正済み特徴マップが、前記第kコンボリューションレイヤから出力された第k特徴マップでもあり得る。
一方、本発明のエンコーディング方法で、第1コンボリューションレイヤは、以前コンボリューションレイヤがないため入力特徴マップではない入力イメージを利用して図3に示した出力特徴マップを生成するプロセスを遂行する。つまり、学習装置は、第1コンボリューションレイヤをもって(i)入力イメージに対して転置コンボリューションを少なくとも一度適用し、各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)前記少なくとも一つの転置特徴マップ各々にコンボリューション演算を遂行にあたって、前記転置特徴マップに対して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を適用して、少なくとも一つのインセプション特徴マップを第1グループとして生成する。
図4は、本発明の他の一例に係るイメージエンコーディング方法を示した図面である。
図4に示した本発明の他の実施例によれば、図3に示された方法に加えて第1グループ302の他に、第2グループ402のインセプション特徴マップを追加的に生成し、第1グループ302のインセプション特徴マップ及び第2グループ402のインセプション特徴マップをコンカチネートするか、要素ごとの加算をして出力特徴マップ303に統合する。
具体的に、入力特徴マップ301に対して少なくとも一つ以上のカーネルでコンボリューション演算410、420を適用して、少なくとも一つのインセプション特徴マップ411、421を第2グループ402として生成する。
例えば、入力特徴マップ301につ対してa×bサイズのカーネルを有する第3コンボリューション演算410を適用して第2グループ402内の第3インセプション特徴マップ411を生成し、入力特徴マップ301に対してc×dサイズのカーネルを有する第4コンボリューション演算420を適用して第2グループ402内の第4インセプション特徴マップ421を生成する。第3インセプション特徴マップ411は、入力特徴マップ301に対してa×bのサイズのレセプティブフィールドを考慮して生成され、第4インセプション特徴マップ421は、入力特徴マップ301に対してc×dサイズのレセプティブフィールドを考慮して生成された。
その後、学習装置は、第1グループ302のインセプション特徴マップ331、341及び第2グループ402のインセプション特徴マップ411、421をコンカチネートするか、要素ごとの加算をして出力特徴マップ303に統合する。
図5は、本発明のまた他の一例に係るイメージエンコーディング方法を示した図面である。
図5に示した本発明のもう一つの実施例によれば、図3または図4に示した方法に加えて、第3グループ502内のインセプション特徴マップを追加的に生成する。例えば、学習装置は、第3グループ502内のインセプション特徴マップ及び第1グループ302内のインセプション特徴マップをコンカチネートまたは要素ごとの加算するか、第1グループ302内のインセプション特徴マップ、第2グループ402のインセプション特徴マップ及び第3グループ502のインセプション特徴マップをコンカチネートまたは要素ごとの加算をして出力特徴マップ303に統合する方法を利用する。
具体的に、入力特徴マップ301に対して互いに異なるサイズのマックスプーリング(Max Pooling)演算(例えば、図5に示した3×3マックスプーリング)を適用してマックスプーリング特徴マップ511を第3グループ502として生成する。このマックスプーリング演算は、入力特徴マップ301からコンボリューション演算なしに最大値だけを抽出して、マックスプーリング特徴マップ511を生成する役割を果たす。
その後、学習装置は、第1グループ302のインセプション特徴マップ331、341、第3グループ502のインセプション特徴マップ511をコンカチネートまたは要素ごとの加算するか、第1グループ302のインセプション特徴マップ331、341、第2グループ402のインセプション特徴マップ411、421、第3グループ502のインセプション特徴マップ511をコンカチネートまたは要素ごとの加算をして出力特徴マップ303として統合する。
一方、本発明によれば、演算量を減らすために、チャネル数を減らすための1×1コンボリューション演算も、第1グループないし第3グループの特徴マップを生成する中間に利用され得る。
学習装置は、獲得された特徴マップを基にCNN出力を獲得し、CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスをバックプロパゲーションする。
そして、図3ないし図5に図示されたイメージエンコーディング方法は、テスト装置にも適用され得る。
つまり、(i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの学習用転置特徴マップを生成し、(ii)学習装置が、学習用転置特徴マップに対してこれに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも一つの学習用インセプション特徴マップを学習用第1グループとして生成し、(iii)学習装置が、学習用第1グループに含まれた学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成し、(iv)学習装置が、学習用出力特徴マップを基に学習用CNN出力を獲得し、学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行した状態で、テスト装置がテストイメージを獲得し得る。
そして、テスト装置がコンボリューションレイヤの少なくとも一部各々をもって、(i)テストイメージまたは以前コンボリューションレイヤから獲得されたテスト用入力特徴マップに対して転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとの一つのテスト用インセプション特徴マップをテスト用第1グループとして生成し得る。
その後、テスト装置が、テスト用第1グループに含まれたテスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成し得る。
本発明の技術分野における通常の技術者に理解され得るところであって、前記で説明されたイメージ、例えばトレーニングイメージ、テストイメージのようなイメージデータの送受信が学習装置及びテスト装置の通信部によって行われ得るのであり、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサー(及び/又はメモリー)によって保有/維持され得、コンボリューション演算、デコンボリューション演算、ロス値の演算過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明がこれに限定されはしないであろう。
以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を介して遂行することができるプログラム命令語の形態で具現されて、コンピュータ判読可能な記録媒体に記録され得る。前記コンピュータ判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ判読可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカル・ディスク(floptical disk)のような磁気−光メディア(magneto−optical media)、及びROM、RAM、フラッシュメモリーなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (28)

  1. CNN基盤イメージエンコーディング方法において、
    (a)第1ないし第nコンボリューションレイヤを含む学習装置が、少なくとも一つの入力イメージを獲得する段階;
    (b)前記学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算を少なくとも度適用して各々異なるサイズを有する少なくともつの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用して、少なくともつのインセプション特徴マップを第1グループとして生成する段階;及び
    (c)前記学習装置が、前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する出力特徴マップを生成する段階;
    を含むことを特徴とする方法。
  2. 前記第1グループに含まれた前記インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項1に記載の方法。
  3. 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
    前記(b)段階は、
    (b−1)前記学習装置が、前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤで獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成する段階;
    (b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;
    を含むことを特徴とする請求項1に記載の方法。
  4. 前記(b)段階で、
    前記学習装置は、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップを第2グループとして生成し、
    前記(c)段階で、
    前記学習装置は、前記第1グループの前記インセプション特徴マップ及び前記第2グループの前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項1に記載の方法。
  5. 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
    前記(b)段階は、
    (b−1)前記学習装置が、前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤから獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成する段階;
    (b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対し、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;及び
    (b−3)前記学習装置が、前記入力イメージまたは前記第k−1コンボリューションレイヤから獲得した前記第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、第m+1ないし第m+nインセプション特徴マップを前記第2グループとして生成する段階;
    を含むことを特徴とする請求項4に記載の方法。
  6. 前記(b)段階で、
    前記学習装置は、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのマックスプーリング特徴マップを第3グループとして生成し、
    前記(c)段階で、
    前記学習装置は、前記第1グループの前記インセプション特徴マップ、前記第2グループの前記インセプション特徴マップ及び前記第3グループの前記マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項4に記載の方法。
  7. 前記(b)段階で、
    前記学習装置は、前記第1コンボリューションレイヤをもって(i)前記入力イメージに対して転置コンボリューション演算を少なくとも度適用し、各々異なるサイズを有する少なくともつの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用し、少なくともつのインセプション特徴マップを前記第1グループとして生成することを特徴とする請求項1に記載の方法。
  8. 前記方法は、
    (d)前記学習装置が、前記第nコンボリューションレイヤから出力された前記出力特徴マップを基にCNN出力を獲得し、前記CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行する段階;
    をさらに含むことを特徴とする請求項1に記載の方法。
  9. CNN基盤イメージエンコーディング方法において、
    (a)(i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも度適用して各々異なるサイズを有する少なくともつの学習用転置特徴マップを生成するプロセス、(ii)前記学習装置が、前記学習用転置特徴マップに対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくともつの学習用インセプション特徴マップを学習用第1グループとして生成するプロセス、(iii)前記学習装置が、前記学習用第1グループに含まれた前記学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成するプロセス及び(iv)前記学習装置が、前記学習用出力特徴マップを基に学習用CNN出力を獲得し、前記学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセスを遂行した状態で、テスト装置が、少なくとも一つのテストイメージを獲得する段階;
    (b)前記テスト装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記テストイメージまたは以前コンボリューションレイヤから獲得されたテスト用入力特徴マップに対して、前記転置コンボリューション演算を少なくとも度適用して各々異なるサイズを有する少なくともつのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとのつのテスト用インセプション特徴マップをテスト用第1グループとして生成する段階;及び
    (c)前記テスト装置が、前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成する段階;
    を含むことを特徴とする方法。
  10. 前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項9に記載の方法。
  11. 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
    前記(b)段階は、
    (b−1)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤで獲得したテスト第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有するテスト用第1ないし第m転置特徴マップを生成する段階;
    (b−2)前記テスト装置が、(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成する段階;
    を含むことを特徴とする請求項9に記載の方法。
  12. 前記(b)段階で、
    前記テスト装置は、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップをテスト用第2グループとして生成し、
    前記(c)段階で、
    前記テスト装置は、前記テスト用第1グループの前記テスト用インセプション特徴マップ及び前記テスト用第2グループの前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項9に記載の方法。
  13. 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
    前記(b)段階は、
    (b−1)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤから獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有するテスト用第1ないしテスト用第m転置特徴マップを生成する段階;
    (b−2)前記テスト装置が、(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成する段階;及び
    (b−3)前記テスト装置が、前記テストイメージまたは前記第k−1コンボリューションレイヤから獲得した前記テスト用第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、テスト用第m+1ないしテスト用第m+nインセプション特徴マップを前記テスト用第2グループとして生成する段階;
    を含むことを特徴とする請求項12に記載の方法。
  14. 前記(b)段階で、
    前記テスト装置は、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのテスト用マックスプーリング特徴マップをテスト用第3グループとして生成し、
    前記(c)段階で、
    前記テスト装置は、前記テスト用第1グループの前記テスト用インセプション特徴マップ、前記テスト用第2グループの前記テスト用インセプション特徴マップ及び前記テスト用第3グループの前記テスト用マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項12に記載の方法。
  15. 第1ないし第nコンボリューションレイヤを含む、CNN基盤イメージエンコーディングのための学習装置において、
    少なくとも一つのトレーニングイメージを入力イメージとして獲得するための通信部;及び
    (I)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算を少なくとも度適用して各々異なるサイズを有する少なくともつの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応する各々の転置特徴マップに少なくとも一度適用して、少なくともつのインセプション特徴マップを第1グループとして生成するプロセス、及び、(II)前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する出力特徴マップを生成するプロセスを遂行するプロセッサ;
    を含むことを特徴とする装置。
  16. 前記第1グループに含まれた前記インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項15に記載の装置。
  17. 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
    前記(I)プロセスは、
    (I−1)前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤで獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成するプロセス;
    (I−2)(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成するプロセス;
    を含むことを特徴とする請求項15に記載の装置。
  18. 前記(I)プロセスで、
    前記プロセッサは、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップを第2グループとして生成し、
    前記(II)プロセスで、
    前記プロセッサは、前記第1グループの前記インセプション特徴マップ及び前記第2グループの前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項15に記載の装置。
  19. 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
    前記(I)プロセスは、
    (I−1)前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤから獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成するプロセス;
    (I−2)(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成するプロセス;及び
    (I−3)前記入力イメージまたは前記第k−1コンボリューションレイヤから獲得した前記第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、第m+1ないし第m+nインセプション特徴マップを前記第2グループとして生成するプロセス;
    を含むことを特徴とする請求項18に記載の装置。
  20. 前記(I)プロセスで、
    前記プロセッサは、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのマックスプーリング特徴マップを第3グループとして生成して、
    前記(II)プロセスで、
    前記プロセッサは、前記第1グループの前記インセプション特徴マップ、前記第2グループの前記インセプション特徴マップ及び前記第3グループの前記マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項18に記載の装置。
  21. 前記(I)プロセスで、
    前記プロセッサは、前記第1コンボリューションレイヤをもって(i)前記入力イメージに対して転置コンボリューション演算を少なくとも度適用し、各々異なるサイズを有する少なくともつの転置特徴マップを生成し、(ii)前記転置特徴マップに対し、異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくともつのインセプション特徴マップを前記第1グループとして生成することを特徴とする請求項15に記載の装置。
  22. 前記プロセッサは、
    (III)前記第nコンボリューションレイヤから出力された前記出力特徴マップを基にCNN出力を獲得し、前記CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセス;
    をさらに遂行することを特徴とする請求項15に記載の装置。
  23. CNN基盤イメージエンコーディングのためのテスト装置において、
    (i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも度適用して各々異なるサイズを有する少なくともつの学習用転置特徴マップを生成するプロセス、(ii)前記学習装置が、異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応する前記学習用転置特徴マップに対して少なくとも一度適用して、少なくともつの学習用インセプション特徴マップ(Inception Feature Maps For Training)を学習用第1グループとして生成するプロセス、(iii)前記学習装置が、前記学習用第1グループに含まれた前記学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成するプロセス及び(iv)前記学習装置が、前記学習用出力特徴マップを基に学習用CNN出力を獲得し、前記学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセスを遂行した状態で、少なくとも一つのテストイメージを獲得する通信部;及び
    (I)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記テストイメージまたは以前コンボリューションレイヤから獲得された前記テスト用入力特徴マップに対して、前記転置コンボリューション演算を少なくとも度適用して各々異なるサイズを有する少なくともつのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも二つのテスト用インセプション特徴マップ(Inception Feature Maps)をテスト用第1グループとして生成するプロセス;及び(II)前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成するプロセス;を遂行するプロセッサ;
    を含むことを特徴とする装置。
  24. 前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項23に記載の装置
  25. 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
    前記(I)プロセスは、
    (I−1)前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤで獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有するテスト用第1ないし第m転置特徴マップを生成するプロセス;
    (I−2)(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成するプロセス;
    を含むことを特徴とする請求項23に記載の装置
  26. 前記(I)プロセスで、
    前記プロセッサは、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのテスト用インセプション特徴マップを第2グループとして生成し、
    前記(II)プロセスで、
    前記プロセッサは、前記テスト用第1グループの前記テスト用インセプション特徴マップ及び前記テスト用第2グループの前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項23に記載の装置
  27. 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
    前記(II)プロセスは、
    (II−1)前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤから獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有するテスト用第1ないしテスト用第m転置特徴マップを生成するプロセス;
    (II−2)(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成するプロセス;及び
    (II−3)前記テストイメージまたは前記第k−1コンボリューションレイヤから獲得した前記テスト用第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、テスト用第m+1ないしテスト用第m+nインセプション特徴マップを前記テスト用第2グループとして生成するプロセス;
    を含むことを特徴とする請求項26に記載の装置
  28. 前記(I)プロセスで、
    前記プロセッサは、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのテスト用マックスプーリング特徴マップをテスト用第3グループとして生成して、
    前記(II)プロセスで、
    前記プロセッサは、前記テスト用第1グループの前記テスト用インセプション特徴マップ、前記テスト用第2グループの前記テスト用インセプション特徴マップ及び前記テスト用第3グループの前記テスト用マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項26に記載の装置
JP2019163898A 2018-09-17 2019-09-09 イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置 Active JP6856851B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/132,475 US10282864B1 (en) 2018-09-17 2018-09-17 Method and device for encoding image and testing method and testing device using the same
US16/132,475 2018-09-17

Publications (2)

Publication Number Publication Date
JP2020047271A JP2020047271A (ja) 2020-03-26
JP6856851B2 true JP6856851B2 (ja) 2021-04-14

Family

ID=66333963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019163898A Active JP6856851B2 (ja) 2018-09-17 2019-09-09 イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置

Country Status (5)

Country Link
US (1) US10282864B1 (ja)
EP (1) EP3624016A1 (ja)
JP (1) JP6856851B2 (ja)
KR (1) KR102309702B1 (ja)
CN (1) CN110910395B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200053886A (ko) * 2018-11-09 2020-05-19 삼성전자주식회사 뉴럴 프로세싱 유닛, 뉴럴 프로세싱 시스템, 및 어플리케이션 시스템
US11556778B2 (en) * 2018-12-07 2023-01-17 Microsoft Technology Licensing, Llc Automated generation of machine learning models
US10733511B1 (en) * 2019-01-30 2020-08-04 StradVision, Inc. Learning method and learning device for updating HD map by reconstructing 3D space by using depth estimation information and class information on each object, which have been acquired through V2X information integration technique, and testing method and testing device using the same
KR102420104B1 (ko) * 2019-05-16 2022-07-12 삼성전자주식회사 영상 처리 장치 및 그 동작방법
US20220245927A1 (en) * 2019-06-17 2022-08-04 Nippon Telegraph And Telephone Corporation Identification result explanation device, identification result explanation method, and identification result explanation program
CN110415171B (zh) * 2019-07-08 2021-06-25 北京三快在线科技有限公司 图像处理方法、装置及存储介质、电子设备
CN111179283A (zh) * 2019-12-30 2020-05-19 深圳市商汤科技有限公司 图像语义分割方法及装置、存储介质
US20220226994A1 (en) * 2020-07-20 2022-07-21 Georgia Tech Research Corporation Heterogeneous graph attention networks for scalable multi-robot scheduling
KR20220030084A (ko) * 2020-09-02 2022-03-10 삼성전자주식회사 영상 처리 방법 및 장치
CN116648716A (zh) * 2020-12-24 2023-08-25 华为技术有限公司 通过指示特征图数据进行解码
US11823490B2 (en) * 2021-06-08 2023-11-21 Adobe, Inc. Non-linear latent to latent model for multi-attribute face editing

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8872869B2 (en) * 2004-11-23 2014-10-28 Hewlett-Packard Development Company, L.P. System and method for correcting defective pixels of a display device
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
US9785919B2 (en) * 2015-12-10 2017-10-10 General Electric Company Automatic classification of aircraft component distress
EP3471623B1 (en) * 2016-06-20 2023-01-25 Butterfly Network, Inc. Automated image acquisition for assisting a user to operate an ultrasound device
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
EP3523751A4 (en) * 2016-10-04 2020-05-06 Magic Leap, Inc. EFFICIENT DATA ARRANGEMENTS FOR CONVOLUTIONAL NEURAL NETWORKS
KR101879207B1 (ko) * 2016-11-22 2018-07-17 주식회사 루닛 약한 지도 학습 방식의 객체 인식 방법 및 장치
JP6929047B2 (ja) * 2016-11-24 2021-09-01 キヤノン株式会社 画像処理装置、情報処理方法及びプログラム
US20180225554A1 (en) * 2017-02-06 2018-08-09 Honda Motor Co., Ltd. Systems and methods of a computational framework for a driver's visual attention using a fully convolutional architecture
US10019788B1 (en) * 2017-02-14 2018-07-10 Cogniac, Corp. Machine-learning measurements of quantitative feature attributes
US10685429B2 (en) * 2017-02-22 2020-06-16 Siemens Healthcare Gmbh Denoising medical images by learning sparse image representations with a deep unfolding approach
US10580131B2 (en) * 2017-02-23 2020-03-03 Zebra Medical Vision Ltd. Convolutional neural network for segmentation of medical anatomical images
US10713540B2 (en) * 2017-03-07 2020-07-14 Board Of Trustees Of Michigan State University Deep learning system for recognizing pills in images
CN108509978B (zh) * 2018-02-28 2022-06-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型

Also Published As

Publication number Publication date
US10282864B1 (en) 2019-05-07
KR20200031993A (ko) 2020-03-25
CN110910395A (zh) 2020-03-24
CN110910395B (zh) 2023-07-28
EP3624016A1 (en) 2020-03-18
KR102309702B1 (ko) 2021-10-08
JP2020047271A (ja) 2020-03-26

Similar Documents

Publication Publication Date Title
JP6856851B2 (ja) イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置
JP6865363B2 (ja) ラプラシアンピラミッドネットワークを利用して自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物検出におけるセグメンテーション性能向上のための学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置
JP6865364B2 (ja) エッジロスを利用して歩行者イベント、自動車イベント、フォーリングイベント、フォールンイベントを含むイベントを検出するにおいて利用されるセグメンテーション性能向上のための学習方法及び学習装置、並びにそれを利用したテスト方法及びテスト装置
JP6957050B2 (ja) モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same}
JP6863619B2 (ja) コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network}
JP6869565B2 (ja) 危険要素検出に利用される学習用イメージデータセットの生成方法及びコンピューティング装置、そしてこれを利用した学習方法及び学習装置{method and computing device for generating image data set to be used for hazard detection and learning method and learning device using the same}
JP6924517B2 (ja) ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法
JP6869559B2 (ja) 障害物を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting obstacles and testing method, testing device using the same}
JP6935939B2 (ja) マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置
US10496899B1 (en) Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
JP6857369B2 (ja) Cnnを学習する方法及び学習装置、それを利用したテスト方法及びテスト装置
CN111476341A (zh) 转换cnn的卷积层的方法及装置
JP6793411B2 (ja) 自律走行状況で障害物検出のための学習用データセットの生成方法及びこれを利用したコンピューティング装置、学習方法及び学習装置
JP7252120B2 (ja) 核心性能指数を満たすことができるハードウェア最適化が行われるように、cnnで複数のブロック内の入力イメージから特徴を抽出する学習方法及び学習装置、それを利用したテスト方法及びテスト装置
CN111476262B (zh) 利用1xH卷积的基于CNN的对象检测方法及装置
JP6857368B2 (ja) Cnn学習方法及び学習装置、これを利用したテスト方法及びテスト装置
JP6916549B2 (ja) 軍事的目的、ドローンまたはロボットに利用されるために一つ以上の以前のバッチをさらに参照してモバイル装置またはiot装置に適用可能なオンラインバッチ正規化、オンデバイス学習、及び連続学習を遂行する方法と装置、並びにそれを利用したテスト方法及びテスト装置
EP3690718A1 (en) Learning method and learning device for allowing cnn having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same
JP6970461B2 (ja) スマートフォン、ドローン、船舶または軍事的目的のための、トレーニングイメージの最適化サンプリングにより入力データを分析するニューラルネットワークのオンデバイス継続学習方法及び装置、そして、これを利用したテスト方法及び装置
JP6856852B2 (ja) 横フィルタマスクを利用して自律走行車の走行経路を計画するために車線要素を検出する方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210218

R150 Certificate of patent or registration of utility model

Ref document number: 6856851

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250