JP2019067406A - Funを用いて特徴マップを生成するための方法及び装置 - Google Patents

Funを用いて特徴マップを生成するための方法及び装置 Download PDF

Info

Publication number
JP2019067406A
JP2019067406A JP2018188345A JP2018188345A JP2019067406A JP 2019067406 A JP2019067406 A JP 2019067406A JP 2018188345 A JP2018188345 A JP 2018188345A JP 2018188345 A JP2018188345 A JP 2018188345A JP 2019067406 A JP2019067406 A JP 2019067406A
Authority
JP
Japan
Prior art keywords
feature map
block
filter
upsampling
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018188345A
Other languages
English (en)
Other versions
JP6679688B2 (ja
Inventor
キム、ヨンジョン
Yongjoong Kim
ナム、ウンユン
Woonhyun Nam
ボ、シュクフン
Sukhoon Boo
シュン、ミュンチュル
Myungchul Sung
エオ、ドンフン
Donghun Yeo
リュウ、ウージュ
Wooju Ryu
ジャン、タエウォン
Taewoong Jang
ジョン、キュンジョン
Kyungjoong Jeong
ジェ、ホンモ
Hong Mo Je
チョ、ホジン
Hojin Cho
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2019067406A publication Critical patent/JP2019067406A/ja
Application granted granted Critical
Publication of JP6679688B2 publication Critical patent/JP6679688B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20164Salient point detection; Corner detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】アップ−サンプリングネットワーク(FUN)を含むCNNを適用した装置で特徴マップを生成する方法を提供する。【解決手段】入力イメージが獲得されると、ダウン−サンプリングブロックをもって入力イメージに所定の演算を適用してダウン−サンプリングイメージを獲得、ダウン−サンプリングイメージが獲得されると、第1−1ないし第1−Kフィルタブロックをもってダウン−サンプリングイメージに一つ以上のコンボリューション演算を適用して第1−1、1−2、…、1−K特徴マップを各々獲得し、各々のアップ−サンプリングブロックをもって、対応するフィルタブロックから特徴マップを受信、以前のアップ−サンプリングブロックから特徴マップを受信し、一つの特徴マップを他の特徴マップとサイズが同一になるようリスケーリングした後、両特徴マップに所定の演算を適用して第2−Kないし第2−1特徴マップを生成する。【選択図】図4

Description

本発明はフィーチャーアップサンプリングネットワークを用いた特徴マップ生成方法及び装置に関する。より詳細には、(i)入力イメージのサイズを減らすダウンサンプリングブロック、(ii)少なくとも一回のコンボリューション演算を遂行して各々の第1−1ないし第1−K特徴マップを各々獲得する各々の第1−1ないし第1−Kフィルタブロック;及び(iii)前記各々の第1−1ないし第1−Kフィルタブロックと各々連動する各々の第2−Kないし2−1アップサンプリングブロックを含む、特徴アップサンプリングネットワーク(FUN)を含むCNN装置を用いた特徴マップ生成方法において、(a)前記CNN装置は、前記入力イメージが入力されると、前記ダウンサンプリングブロックをもって前記入力されたイメージに所定の演算を遂行して前記入力されたイメージのサイズを減らしたダウンサンプリングイメージを獲得するようにする段階;(b)前記CNN装置は、前記ダウンサンプリングイメージが獲得されると、前記各々の第1−1ないし第1−Kフィルタブロックをもって前記ダウンサンプリングイメージに対して前記少なくとも一回のコンボリューション演算を遂行して前記各々の第1−1ないし1−K特徴マップを順次獲得する段階;及び(c)前記CNN装置は、(I)第2−1アップサンプリングブロックをもって(i)前記ダウンサンプリングブロックから前記ダウンサンプリングイメージを受信して(ii)前記第2−2アップサンプリングブロックから前記第2−2特徴マップを受信した後、前記2−2特徴マップのサイズを前記ダウンサンプリングイメージと同一にリスケーリングし、(iii)ダウンサンプリングイメージと第2−2リスケーリング済み特徴マップに所定の演算を遂行して、前記第2−1特徴マップを獲得し、(II)Mが1より大きいか同じ整数である場合、前記第(2−(M+1))アップサンプリングブロックをもって、(i)前記第1−Mフィルタブロックから出力された前記第1−M特徴マップを受信し、(ii)前記第2−(M+2)アップサンプリングブロックから出力された前記第2−(M+2)特徴マップを受信した後、前記2−(M+2)特徴マップのサイズを前記第1−M特徴マップと同一にリスケーリングし、(iii)前記第(1−M)特徴マップと前記(2−(M+2))リスケーリング済み特徴マップに所定の演算を遂行して、前記(2−(M+1))特徴マップを生成することで、前記第2−Kないし第2−2特徴マップを獲得する段階;を含む特徴マップ生成方法及び装置に関する。
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;ディープCNN)はディープラーニング分野で起きた驚くべき発展の核心である。CNNは文字認識問題を解くために90年代に既に使用されていたが、現在のように広く使用されるようになったのは最近の研究結果のおかげである。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そうして、コンボリューションニューラルネットワークはMachine Learning分野で非常に有用なツールとなった。
図1は一般的なCNNモデルの学習装置を示す。
図1を参照すれば、CNNモデル学習装置100はフィーチャーコンピュテーションブロック101、アプリケーションブロック102及びアプリケーションロスブロック103から構成される。
フィーチャーコンピュテーションブロック101はイメージが入力された時、コンボリューションブロック及びその他の多様なブロック、例えばCReLUなどのアクティベーションレイヤ、FPN(Feature Pyramid Networks)ブロックなどの組み合わせを通じて入力イメージから多様な特徴マップを生成する機能をする。
アプリケーションブロック102は生成された特徴マップを利用して当該アプリケーションに合った所望の出力を生成する機能をする。例えば、アプリケーションがイメージセグメンテーションのためのものである場合、イメージの各画素毎にその種類(例えば、人、自動車、背景、前景などの区分)を出力するようになり、アプリケーションがオブジェクトディテクションである場合、イメージ内での物体の種類と位置、サイズ情報を出力する機能をする。そして、アプリケーションロスブロック103はアプリケーションブロック102から出力された結果値とGT(Ground Truth)を比較してロスを計算する機能をする。そして、学習装置は計算されたロスを利用したバックプロパゲーションプロセスを通じて最適のパラメータを求める。
そして、学習装置100は最適のパラメータが定められてから、アプリケーションロスブロック103を除去して実際のイメージテスト装置として使用される。
図2Aは入力イメージのサイズと演算量の関係を示したグラフであり、図2Bは入力イメージのサイズと検出正確度の関係を示したグラフである。
図2A及び図2Bに示されたとおり、学習装置やテスト装置に含まれるCNNモジュールの演算量は入力イメージサイズと比例し、イメージ検出の正確度も入力イメージサイズに比例する。
この時、CNN演算装置でCNN演算を速くする方法は入力イメージを減らすことだが、入力イメージを減らすようになれば、演算量が減ってCNN演算が速くなる長所はあるが、図2Bに示されたとおり、オブジェクトディテクション正確度は低下する問題点が発生する。併せて、他のアプリケーションブロック利用時にも入力イメージが減るようになれば、アプリケーション結果値の正確度が落ちる問題点が発生する。
図3は従来技術にかかるFPN(Feature Pyramid Networks)の構成を備えた従来のCNNを利用した特徴マップ生成過程を示したフローチャートである。
図3を参照すれば、従来のCNNモデルのフィーチャーコンピュテーションブロック101はコンボリューション演算のため多数のコンボリューションブロック、即ち、第1−1フィルタブロック、第1−2フィルタブロック、第1−3フィルタブロック、…、第1−Kフィルタブロックを含む。そして、図3に示されたとおり、第1−1ないし第1−Kフィルタブロックは多数のコンボリューションレイヤとReLUレイヤなどのアクティベーションレイヤが交互に任意の数だけ反復される構造からなっており、コンボリューション演算と非線形演算を反復して遂行する。
そして、第1−1フィルタブロックは入力イメージから第1−1特徴マップを生成し、第1−2フィルタブロックは第1−1特徴マップから第1−2特徴マップを生成して、第1−3フィルタブロックは第1−2特徴マップから第1−3特徴マップを生成し、第1−4フィルタブロックは第1−3特徴マップから第1−4特徴マップを生成する方式で多数のフィルタブロックが順次特徴マップを生成する。
各第1−1フィルタブロックないし第1−Kフィルタブロックは入力されたイメージのサイズを減らしてチャネルを増加させるため、第1−1フィルタブロックにサイズがW×H×3(各々横サイズ、縦サイズ、チャネルサイズを意味する)であるイメージが入力されると、第1−1特徴マップはW/2×H/2×Cのサイズを有し、第1−2特徴マップはW/4×H/4×2C、第1−3特徴マップはW/8×H/8×4C、第1−4特徴マップはW/16×H/16×8C、…、のサイズを有する。かかるコンボリューションブロック(第1−1フィルタブロックないし第1−Kフィルタブロック)は多様なサイズの特徴マップを作り出す。この時、1番目の因子、例えば、W、W/2、W/4は入力イメージのwidth(幅)を示し、2番目の因子、例えば、H、H/2、H/4は入力イメージのheight(高さ)を示し、3番目の因子、例えば、3、C、2Cはそのチャネル数を示す。
再び図3を参照すれば、そして多数のFPN(Feature Pyramid Networks)ブロック(第1FPNないし第(K−1)FPN)がコンボリューションブロック(第1−1フィルタブロックないし第1−Kフィルタブロック)の演算方向と反対方向に連結される。各FPNブロックはその対応する各フィルタブロックから伝達された特徴マップのチャネルを変更するための1×1コンボリューションフィルタ、隣接する以前のFPNブロックから伝達された特徴マップのサイズを2倍増加させるためのアップサンプリング部、そして1×1コンボリューションフィルタの出力とアップサンプリング部の出力を合算して出力する合算部を含む。前記アップサンプリング部は以前のFPNブロックから伝達された特徴マップのサイズを対応するフィルタブロックから伝達された特徴マップのサイズに合わせるようにサイズを増加させる機能をする。
図3で第4FPNはW/16×H/16×8Cサイズの第1−4特徴マップを第1−4フィルタブロックから伝達されてそのサイズを変化させずに第1−4特徴マップのチャネル数を8CからDに変換する。また、第4FPNはW/32×H/32×Dサイズの第P−5特徴マップを第5FPNブロックから伝達されて第P−5特徴マップをW/16×H/16×Dにサイズ変換する。それから、これらを結合してW/16×H/16×Dの第P−4特徴マップを生成して第3FPNに出力する。第3FPNはW/8×H/8×4Cサイズの第1−3特徴マップを第1−3フィルタブロックから伝達されてW/8×H/8×Dにチャネル変換し、W/16×H/16×Dサイズの第P−4特徴マップを第4FPNから伝達されてW/8×H/8×Dにサイズ変換した後、これらを結合してW/8×H/8×Dの第P−3特徴マップを生成して第2FPNに出力する。第2FPNはW/4×H/4×2Cサイズの第1−2特徴マップを第1−2フィルタブロックから伝達されてW/4×H/4×Dにチャネル変換し、W/8×H/8×Dサイズの第P−3特徴マップを第3FPNから伝達されてW/4×H/4×Dにサイズ変換した後、これらを結合してW/4×H/4×Dの第P−2特徴マップを生成して第1FPNに出力する。第1FPNはW/2×H/2×Cサイズの第1−1特徴マップを第1−1フィルタブロックから伝達されてW/2×H/2×Dにチャネル変換し、W/4×H/4×Dサイズの第P−2特徴マップを第2FPNから伝達されてW/2×H/2×Dにサイズ変換した後、これらを結合してW/2×H/2×Dの第P−1特徴マップを生成して出力する。しかし、かかるFPN方式は演算量が相当なので、多様なアプリケーションブロック102に適用し難い点があった。
従って、本発明ではCNN演算速度も増加させながらオブジェクトディテクション正確度などアプリケーション結果物の正確度は維持させることができる新しい特徴マップ生成方法を提供しようとする。
本発明はCNN装置で演算速度を増加させることができる方法を提供することを目的とする。
また、本発明はCNN装置で演算速度増加と共にアプリケーション結果物の正確度が低下しない方法を提供することを目的とする。
本発明の一態様によれば、(i)入力イメージのサイズを減らすダウンサンプリングブロック、(ii)少なくとも一回のコンボリューション演算を遂行して各々の第1−1ないし第1−K特徴マップを各々獲得する各々の第1−1ないし第1−Kフィルタブロック;及び(iii)前記各々の第1−1ないし第1−Kフィルタブロックと各々連動する各々の第2−Kないし2−1アップサンプリングブロックを含む、特徴アップサンプリングネットワーク(FUN)を含むCNN装置を用いた特徴マップ生成方法は、(a)前記CNN装置は、前記入力イメージが入力されると、前記ダウンサンプリングブロックをもって前記入力されたイメージに所定の演算を遂行して前記入力されたイメージのサイズを減らしたダウンサンプリングイメージを獲得するようにする段階;(b)前記CNN装置は、前記ダウンサンプリングイメージが獲得されると、前記各々の第1−1ないし第1−Kフィルタブロックをもって前記ダウンサンプリングイメージに対して前記少なくとも一回のコンボリューション演算を遂行して前記各々の第1−1ないし1−K特徴マップを順次獲得する段階;及び(c)前記CNN装置は、(I)第2−1アップサンプリングブロックをもって(i)前記ダウンサンプリングブロックから前記ダウンサンプリングイメージを受信して(ii)前記第2−2アップサンプリングブロックから前記第2−2特徴マップを受信した後、前記2−2特徴マップのサイズを前記ダウンサンプリングイメージと同一にリスケーリングし、(iii)ダウンサンプリングイメージと第2−2リスケーリング済み特徴マップに所定の演算を遂行して、前記第2−1特徴マップを獲得し、(II)Mが1より大きいか同じ整数である場合、前記第(2−(M+1))アップサンプリングブロックをもって、(i)前記第1−Mフィルタブロックから出力された前記第1−M特徴マップを受信し、(ii)前記第2−(M+2)アップサンプリングブロックから出力された前記第2−(M+2)特徴マップを受信した後、前記2−(M+2)特徴マップのサイズを前記第1−M特徴マップと同一にリスケーリングし、(iii)前記第(1−M)特徴マップと前記(2−(M+2))リスケーリング済み特徴マップに所定の演算を遂行して、前記(2−(M+1))特徴マップを生成することで、前記第2−Kないし第2−2特徴マップを獲得する段階;を含むことを特徴とする方法が提供される。
一例として、前記(c)段階で、前記CNN装置は、Mが1以上(K−2)以下の整数である場合、前記(2−(M+1))アップサンプリングブロックをもって(i)前記第1−M特徴マップに対して前記第2−(M+1)アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算を遂行してチャネルが変更された第1−M調整特徴マップを求めるプロセス、(ii)前記第2−(M+2)アップサンプリングブロックから伝達された前記第2−(M+2)特徴マップに対して前記第2−(M+1)アップサンプリングブロック内の第2フィルタを用いたコンボリューション演算を遂行してチャネルが変更された第2−(M+2)調整特徴マップを獲得した後、前記第2−(M+2)調整特徴マップに対してアップサンプリング演算を遂行して前記第2−(M+2)リスケーリング済み特徴マップを獲得し、(iii)前記第1−M調整特徴マップと前記第2−(M+2)リスケーリング済み特徴マップを演算して、前記第2−(M+1)特徴マップを生成し、(iv)第2−(M+1)アップサンプリングブロックから獲得した第2−(M+1)特徴マップを第2−Mアップサンプリングブロックに伝達するプロセスを遂行することで、前記第2−(K−1)ないし前記第2−2特徴マップを獲得するようにすることを特徴とする方法が提供される。
一例として、前記(c)段階で、前記CNN装置は、(i)前記ダウンサンプリングイメージに対して前記第2−1アップサンプリングブロック内の前記第1フィルタを用いたコンボリューション演算を遂行して前記ダウンサンプリングイメージのチャネル数が変更された調整特徴マップを求め、(ii)前記第(2−2)特徴マップに対して前記第2−1アップサンプリングブロック内の第2フィルタを用いたコンボリューション演算を遂行してチャネル数が変更された第2−2調整特徴マップを求めた後、前記第2−2調整特徴マップに対してサイズを増やすアップサンプリング演算を遂行して第2−2リスケーリング済み特徴マップを求め、(iii)前記ダウンサンプリングイメージの調整特徴マップと前記第2−2リスケーリング済み特徴マップを演算して、前記第(2−1)特徴マップを生成することで、前記第2−1特徴マップを第2−1アップサンプリングブロックから獲得することを特徴とする方法が提供される。
一例として、前記(c)段階で、前記CNN装置は、前記第(2−K)アップサンプリングブロックをもって(i)前記第1−(K−1)特徴マップに対して前記第2−Kアップサンプリングブロック内の第1フィルタを用いたコンボリューション演算を遂行してチャネル数が変更された第1−(K−1)調整特徴マップを求め、(ii)前記第1−K特徴マップに対してアップサンプリング演算を遂行して第1−Kリスケーリング済み特徴マップを求め、(iii)前記第1−(K−1)調整特徴マップと前記第1−Kリスケーリング済み特徴マップを演算して前記(2−K)特徴マップを生成し、(iv)第2−Kアップサンプリングブロックから獲得した前記(2−K)特徴マップを第2−(K−1)アップサンプリングブロックに伝達するプロセスを遂行することで、前記2−K特徴マップを獲得するようにすることを特徴とする方法が提供される。
一例として、前記第2−(M+1)アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算は前記第1−M特徴マップのチャネル数を前記第2−(M+2)調整特徴マップのチャネル数と同一に調整するための演算であり、前記第2−1アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算は前記ダウンサンプリングイメージのチャネル数を前記第2−2調整特徴マップのチャネル数と同一に変更するための演算であることを特徴とする方法が提供される。
一例として、前記(b)段階で、前記CNN装置は、前記ダウンサンプリングブロックから獲得した前記ダウンサンプリングイメージにコンボリューション演算を遂行して生成された第1−1特徴マップを前記第1−1フィルタブロックから獲得した後、第1−Mフィルタブロックから獲得した第1−M特徴マップにコンボリューション演算を遂行して生成された第1−(M+1)特徴マップを第1−(M+1)フィルタブロックから獲得するが、Mは2から(K−1)までの整数であることを特徴とする方法が提供される。
本発明の他の態様によれば、(i)入力イメージのサイズを減らすダウンサンプリングブロック、(ii)コンボリューション演算を少なくとも一回遂行して各々の第1−1ないし第1−K特徴マップを獲得する各々の第1−1ないし第1−Kフィルタブロック;(iii)前記各々の第1−1ないし第1−Kフィルタブロックと各々連動する第2−Kないし2−1アップサンプリングブロック;を含む、特徴マップを生成するための特徴アップサンプリングネットワーク(FUN)を含むCNNを適用した装置は、入力イメージを受信する通信部;及び(1)入力イメージを獲得するとダウンサンプリングブロックをもって入力イメージに所定の演算を加えることで前記入力されたイメージのサイズを減らしたダウンサンプリングイメージを獲得するようにするプロセス;(2)前記ダウンサンプリングイメージが獲得されると、前記第1−1ないし前記第1−Kフィルタブロック各々をもって前記ダウンサンプリングイメージに一つ以上のコンボリューション演算を適用して各々前記第1−1ないし前記第1−K特徴マップを獲得するようにするプロセス及び(3)(I)前記第2−1アップサンプリングブロックをもって(i)前記ダウンサンプリングブロックから前記ダウンサンプリングイメージを受信するようにし、(ii)前記第2−2アップサンプリングブロックから前記第2−2特徴マップを受信して、前記第2−2特徴マップのサイズを前記ダウンサンプリングイメージのサイズと同一にリスケーリングするようにし、(iii)前記ダウンサンプリングイメージと第2−2リスケーリング済み特徴マップに所定の演算を遂行して、前記第2−1特徴マップを獲得し、(II)Mが1より大きいか同じ整数である場合、前記第(2−(M+1))アップサンプリングブロックをもって、(i)前記第1−Mフィルタブロックから出力された前記第1−M特徴マップを受信し、(ii)前記第2−(M+2)アップサンプリングブロックから出力された前記第2−(M+2)特徴マップを受信した後、前記2−(M+2)特徴マップのサイズを前記第1−M特徴マップと同一にリスケーリングし、(iii)前記第(1−M)特徴マップと前記(2−(M+2))リスケーリング済み特徴マップに所定の演算を遂行して、前記(2−(M+1))特徴マップを生成することで、前記第2−Kないし第2−2特徴マップを獲得するプロセス;を遂行するプロセッサを含むことを特徴とする装置が提供される。
一例として、前記(3)プロセスにおいて、前記プロセッサは、Mが1以上(K−2)以下の整数である場合、前記(2−(M+1))アップサンプリングブロックをもって(i)前記第1−M特徴マップに対して前記第2−(M+1)アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算を遂行してチャネルが変更された第1−M調整特徴マップを求めるプロセス、(ii)前記第2−(M+2)アップサンプリングブロックから伝達された前記第2−(M+2)特徴マップに対して前記第2−(M+1)アップサンプリングブロック内の第2フィルタを用いたコンボリューション演算を遂行してチャネルが変更された第2−(M+2)調整特徴マップを獲得した後、前記第2−(M+2)調整特徴マップに対してアップサンプリング演算を遂行して前記第2−(M+2)リスケーリング済み特徴マップを獲得し、(iii)前記第1−M調整特徴マップと前記第2−(M+2)リスケーリング済み特徴マップを演算して、前記第2−(M+1)特徴マップを生成し、(iv)第2−(M+1)アップサンプリングブロックから獲得した第2−(M+1)特徴マップを第2−Mアップサンプリングブロックに伝達するプロセスを遂行することで、前記第2−(K−1)ないし前記第2−2特徴マップを獲得するようにすることを特徴とする装置が提供される。
一例として、前記(3)プロセスにおいて、前記プロセッサは、(i)前記ダウンサンプリングイメージに対して前記第2−1アップサンプリングブロック内の前記第1フィルタを用いたコンボリューション演算を遂行して前記ダウンサンプリングイメージのチャネル数が変更された調整特徴マップを求め、(ii)前記第(2−2)特徴マップに対して前記第2−1アップサンプリングブロック内の第2フィルタを用いたコンボリューション演算を遂行してチャネル数が変更された第2−2調整特徴マップを求めた後、前記第2−2調整特徴マップに対してサイズを増やすアップサンプリング演算を遂行して第2−2リスケーリング済み特徴マップを求め、(iii)前記ダウンサンプリングイメージの調整特徴マップと前記第2−2リスケーリング済み特徴マップを演算して、前記第(2−1)特徴マップを生成することで、前記第2−1特徴マップを第2−1アップサンプリングブロックから獲得することを特徴とする装置が提供される。
一例として、前記(3)プロセスで、前記プロセッサは、前記第(2−K)アップサンプリングブロックをもって(i)前記第1−(K−1)特徴マップに対して前記第2−Kアップサンプリングブロック内の第1フィルタを用いたコンボリューション演算を遂行してチャネル数が変更された第1−(K−1)調整特徴マップを求め、(ii)前記第1−K特徴マップに対してアップサンプリング演算を遂行して第1−Kリスケーリング済み特徴マップを求め、(iii)前記第1−(K−1)調整特徴マップと前記第1−Kリスケーリング済み特徴マップを演算して前記(2−K)特徴マップを生成し、(iv)第2−Kアップサンプリングブロックから獲得した前記(2−K)特徴マップを第2−(K−1)アップサンプリングブロックに伝達するようにするプロセスを遂行することで、前記2−K特徴マップを獲得するようにすることを特徴とする装置が提供される。
一例として、前記第2−(M+1)アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算は前記第1−M特徴マップのチャネル数を前記第2−(M+2)調整特徴マップのチャネル数と同一に調整するための演算であり、前記第2−1アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算は前記ダウンサンプリングイメージのチャネル数を前記第2−2調整特徴マップのチャネル数と同一に変更するための演算であることを特徴とする装置が提供される。
一例として、前記(2)プロセスで、前記プロセッサは、前記ダウンサンプリングブロックから獲得した前記ダウンサンプリングイメージにコンボリューション演算を遂行して生成された第1−1特徴マップを前記第1−1フィルタブロックから獲得した後、第1−Mフィルタブロックから獲得した第1−M特徴マップにコンボリューション演算を遂行して生成された第1−(M+1)特徴マップを第1−(M+1)フィルタブロックから獲得するが、Mは2から(K−1)までの整数であることを特徴とする装置が提供される。
本発明によれば、入力イメージのサイズをダウンサンプリングした後、コンボリューション演算過程を遂行してイメージのサイズが小さくなるにつれてCNN演算量が減る効果がある。
また、本発明はアプリケーションブロックの結果物の正確度が下落することなくCNN演算速度が速くなる効果がある。
また、本発明によればアップサンプリングブロックで演算される特徴マップのチャネル数が既存に比べて顕著に減るにつれてCNN演算量が減ってCNN演算速度が増加する。
また、本発明によればアプリケーションロスブロックで求めたロスとリグレッションロスブロックで求めた追加的なリグレッションロスを通じて学習を遂行するため、さらに効率的な学習が可能である。
図1は、一般的なCNNモデルの学習装置を示す。 図2Aは、入力イメージのサイズと演算量の関係を示したグラフである。 図2Bは、入力イメージのサイズと検出正確度の関係を示したグラフである。 図3は、従来技術にかかるFPN(Feature Pyramid Networks)の構成を備えた従来のCNNを利用した特徴マップ生成過程を示したフローチャートである。 図4は、本発明の一実施例にかかるFUNを含む構成を備えたCNNを利用して特徴マップを生成する過程を示したフローチャートである。 図5は、本発明の一実施例にかかるアップサンプリングブロックとこれの例示的な演算方法を示す。 図6Aは、本発明の一実施例にかかるFUNを含むように構成されたCNNを適用した学習装置の構成図を示す。 図6Bは、本発明の一実施例にかかるFUNを含むように構成されたCNNを適用した学習装置の構成図を示す。 図7は、本発明の一実施例にかかる物体を検出するための装置の構成図を示す。
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。
図4は本発明の一実施例にかかるFUNを含む構成を備えたCNNを利用して特徴マップを生成する過程を示したフローチャートである。
本発明にかかるFUN(Feature Upsampling Networks)を利用したCNN装置のフィーチャーコンピュテーションブロック400は図3に示されたFPNを利用したCNN装置と異なり入力イメージを多数個のフィルタブロック、即ちコンボリューションフィルタに入力する前にイメージのサイズを減らすダウンサンプリングブロック401を含む。
前記ダウンサンプリングブロック401は入力イメージのサイズを減らしたダウンサンプリングイメージを生成する機能を遂行する。万一入力イメージがW×H×3のサイズを有するなら、ダウンサンプリングブロック401から出力されたダウンサンプリングイメージ(D_IMAGE)はW/2×H/2×3のサイズを有し得る。図4ではダウンサンプリングブロック401が入力イメージのサイズを縦横各々1/2ずつ減らす例を示したが、ダウンサンプリングブロック401で減らす比率は多様であり得る。
一方、本発明にかかるCNNモデルも層毎に連結された多数のコンボリューションブロック、即ち、第1−1フィルタブロック(410_1)、第1−2フィルタブロック(410_2)、第1−3フィルタブロック(410_3)、…、第1−Kフィルタブロック(410_K)を含む。
具体的に、第1−1ないし第1−Kフィルタブロック各々は多数のコンボリューションレイヤとReLUレイヤなどのアクティベーションレイヤが交互に任意の数だけ反復される構造からなっており、コンボリューション演算と非線形演算を反復して遂行され得る。
図4を参照すれば、第1−1フィルタブロック(410_1)は入力イメージから第1−1特徴マップ(1−1FEAT)を形成し、第1−2フィルタブロック(410_2)は第1−1特徴マップから第1−2特徴マップ(1−2FEAT)を形成して、第1−3フィルタブロック(410_3)は第1−2特徴マップから第1−3特徴マップ(1−3FEAT)を形成する。かかる過程は最後のフィルタブロックまで続き、図4の例では、最後のフィルタブロック、即ち、第1−4フィルタブロック(410_4)が第1−3特徴マップから第1−4特徴マップ(1−4FEAT)を形成する。
しかし、各第1−1フィルタブロックないし第1−Kフィルタブロックは既に一回ダウンサンプリングされたイメージを入力されてこれを順次コンボリューション演算して入力されたイメージのサイズを減らしてチャネルを増加させて特徴マップを生成するため、第1−1フィルタブロック(410_1)にはサイズがW×H×3である入力イメージの代わりに、サイズがW/2×H/2×3であるダウンサンプリングイメージが入力される。これに伴い、第1−1フィルタブロック(410_1)はサイズがW/2×H/2×3ダウンサンプリングイメージを入力されてサイズがW/4×H/4×Cである第1−1特徴マップを生成して出力して、第1−2フィルタブロック(410_2)はサイズがW/4×H/4×Cである第1−1特徴マップを入力されてサイズがW/8×H/8×2Cである第1−2特徴マップを生成して出力する。かかる過程は残りの各々のフィルタブロックで継続して遂行されて特徴マップのうち最小のサイズと最大のチャネル数を有する最終特徴マップが生成されるまで続く。即ち、第1−3フィルタブロック(410_3)はサイズがW/8×H/8×2Cである第1−2特徴マップを入力されてサイズがW/16×H/16×4Cである第1−3特徴マップを生成して出力して、第1−4フィルタブロック(410_4)はサイズがW/16×H/16×4Cである第1−3特徴マップを入力されてサイズがW/32×H/32×8Cである第1−4特徴マップを生成して出力して、かかる方式で第1−5フィルタブロック(410_5)ないし第1−Kフィルタブロック(410_K)は第1−5特徴マップないし第1−K特徴マップを形成して出力する。
図3に示されたフィーチャーコンピュテーションブロック101と比較して図4に示された本発明にかかるフィーチャーコンピュテーションブロック400は同一のイメージが入力された時、サイズが減った特徴マップに対して演算を遂行するため、演算量を大きく減らし得る。即ち、各々のフィルタブロック、即ち、第1−1ないし第1−kフィルタブロックが図3に示されたフィルタブロックと比較してサイズが半分である特徴マップにコンボリューション演算を遂行するため、全体コンボリューションブロックに必要な演算量が減り、これに伴い全体コンボリューションブロックの性能が向上され得る。
再び図4を参照すれば、本発明にかかるフィーチャーコンピュテーションブロック400はFUN(Feature Upsampling Networks)というブロック(以下、アップサンプリングブロックという)を利用して各々の特徴マップを各々の該当される本来のサイズに戻し得る。
具体的に、図4では第1FUNブロック(または、第2−1アップサンプリングブロック;420_1)ないし第K FUNブロック(または、第2−Kアップサンプリングブロック;420_K)各々は第1−1フィルタブロックないし第1−Kフィルタブロックのうち対応するフィルタブロックと連動されて前記第1−1フィルタブロック(410_1)から始まり第1−Kフィルタブロック(410_K)に進行される演算方向と反対方向への演算、即ち、第K FUNブロック(420_K)から第1FUNブロック(420_1)への方向に演算を遂行する。
各々のアップサンプリングブロック、即ち、第2−1アップサンプリングブロック(420_1)ないし第2−Kアップサンプリングブロック(420_K)は各々第1入力特徴マップのチャネルを変更するための第1フィルタ(420_1_A)、即ち、1×1コンボリューションフィルタを含み、第2入力特徴マップのチャネルを変更するための第2フィルタ(420_1_B)、即ち、1×1コンボリューションフィルタを含み、そして第2フィルタ(420_1_B)の出力のサイズをアップサンプリングするためのスケール−アップブロック(420_1_C)、そして第1フィルタ(420_1_A)の出力とスケール−アップブロック(420_1_C)の出力を結合して出力する合算ブロック(420_1_D)を含む。
例えば、第2−1アップサンプリングブロック(420_1)内の第1フィルタ(420_1_A)はダウンサンプリングイメージ(D_Image)に対してコンボリューション演算を遂行してダウンサンプリングイメージのチャネル変更特徴マップ(または、調整特徴マップ)(D_Image_A)を求めるプロセスを遂行して、第2−1アップサンプリングブロック内の第2フィルタ(420_1_B)は第2−2アップサンプリングブロック(420_2)から伝達された第2−2特徴マップ(2−2FEAT)に対してコンボリューション演算を遂行して第2−2チャネル変更特徴マップ(調整特徴マップ)(2−2FEAT_A)を求めるプロセスを遂行し、第2−1アップサンプリングブロック内のスケール−アップブロック(420_1_C)は前記第2−2チャネル変更特徴マップ(2−2FEAT_A)に対してサイズを増やすアップサンプリング演算を遂行して第2−2リスケーリング済み特徴マップ(2−2FEAT_B)を求めるプロセスを遂行し、第2−アップサンプリングブロック内の合算ブロック(420_1_D)は前記ダウンサンプリングイメージのチャネル変更特徴マップ(調整特徴マップ)(D_Image_A)と前記第2−2リスケーリング済み特徴マップ(2−2FEAT_B)を演算して第2−1特徴マップ(2−1FEAT)を生成して出力するプロセスを遂行する。
この時、第2−1アップサンプリングブロック内のスケール−アップブロック(420_1_C)はダウンサンプリングブロック401のダウンサンプリング比率を参照して前記第2−2チャネル変更特徴マップ(以下‘調整特徴マップ’と指称する)(2−2FEAT_A)に対するアップサンプリング比率を定め、定められたアップサンプリング比率に応じて第2−2リスケーリング済み特徴マップ(2−2FEAT_B)を生成し得る。
そして、Mが1以上K−2以下の整数である場合、第2−(M+1)アップサンプリングブロック(420_(M+1))内の第1フィルタ(420_(M+1)_A)は第1−Mフィルタブロックから伝達された第1−M特徴マップ(1−MFEAT)に対してコンボリューション演算を遂行して第1−M特徴マップのチャネル変更特徴マップ(第1−M調整特徴マップ;1−M FEAT_A)を求めるプロセスを遂行して、第2−(M+1)アップサンプリングブロック(420_(M+1))内の第2フィルタ(420_(M+1)_B)は第2−(M+2)アップサンプリングブロック(420_(M+2))から伝達された第2−(M+2)特徴マップ(2−(M+2)FEAT)に対してコンボリューション演算を遂行して第2−(M+2)調整特徴マップ(2−(M+2)FEAT_A)を求めるプロセスを遂行する。それから、第2−(M+1)アップサンプリングブロック(420_(M+1))内のスケール−アップブロック(420_(M+1)_C)は前記第2−(M+2)調整特徴マップ(2−(M+2)FEAT_A)に対してサイズを前記第1−M調整特徴マップ(1−M FEAT_A)のサイズに合うように増やすアップサンプリング演算を遂行して第2−(M+2)リスケーリング済み特徴マップ(2−(M+2)FEAT_B)を求めるプロセスを遂行する。そして、第2−(M+1)アップサンプリングブロック内の合算ブロック(420_(M+1)_D)は前記第1−M調整特徴マップ(1−M FEAT_A)と前記第2−(M+2)リスケーリング済み特徴マップ(2−(M+2)FEAT_B)に所定の演算、即ち合算(summing−up)演算を遂行して第2−(M+1)特徴マップ(2−(M+1)FEAT)を生成して出力するプロセスを遂行する。かかる方式で各々の第2−Kないし第2−2特徴マップを獲得する。
そして、上述した境界条件の一つとして、第2−1アップサンプリングブロック(420_1)は前記ダウン−サンプリングブロック401からダウン−サンプリングイメージ(D_IMAGE)が伝達され、第2−2アップサンプリングブロック(420_2)から第2−2特徴マップ(2−2FEAT)が伝達されて、第2−2調整特徴マップ(2−2FEAT_A)のサイズをダウン−サンプリングイメージ(D_IMAGE_A)の調整特徴マップのサイズと合うようにリスケーリングし、両特徴マップ、即ち2−2FEAT_A及びD_IAMGE_Aに所定の演算を適用して第2−1特徴マップ(2−1FEAT)を生成する。
他の境界条件として、第2−Kアップサンプリングブロック(420_K)内の第1フィルタ(420_K_A)は第1−(K−1)フィルタブロックから伝達された第1−(K−1)特徴マップ(1−(K−1)FEAT)に対してコンボリューション演算を遂行して第1−(K−1)特徴マップのチャネル変更特徴マップ(第1−(K−1)調整特徴マップ;1−(K−1)FEAT_A)を求めるプロセスを遂行する。第2−Kアップサンプリングブロック(420_K)内の第2フィルタ(420_K_B)は第1−Kフィルタブロック(410_K)から伝達された第1−K特徴マップ(1−K FEAT)に対してコンボリューション演算を遂行して第1−K調整特徴マップ(1−K FEAT_A)を求めるプロセスを遂行する。それから、第2−Kアップサンプリングブロック(420_K)内のスケール−アップブロック(420_K_C)は前記第1−K調整特徴マップ(1−K FEAT_A)に対してサイズを増やすアップサンプリング演算を遂行して第1−Kリスケーリング済み特徴マップ(1−K FEAT_B)を求めるプロセスを遂行する。そして、第2−Kアップサンプリングブロック内の合算ブロック(420_K_D)は前記第1−(K−1)調整特徴マップ(1−(K−1)FEAT_A)と前記第1−Kリスケーリング済み特徴マップ(1−K FEAT_B)を演算して第2−K特徴マップ(2−K FEAT)を生成して出力するプロセスを遂行する。
一方、第1−(K−1)特徴マップ(1−(K−1)FEAT)と第1−K特徴マップ(1−K FEAT)のチャネル数が2倍差であれば、第2−Kアップサンプリングブロック(420_K)内の第2フィルタ(420_K_B)の演算は省略され得る。この場合には、第2−Kアップサンプリングブロック(420_K)は第1−K特徴マップ(1−K FEAT)に対するチャネル変更のため第2フィルタ(420_K_B)を含まず、第2−Kアップサンプリングブロック(420_K)内のスケール−アップブロック(420_K_C)が前記第1−K特徴マップ(1−K FEAT)に対して直ちにサイズを増やすアップサンプリング演算を直接遂行して第1−Kリスケーリング済み特徴マップ(1−K FEAT_B)を求めるプロセスを遂行する。そして、第2−Kアップサンプリングブロック内の合算ブロック(420_K_D)は前記第1−(K−1)調整特徴マップ(1−(K−1)FEAT_A)と前記第1−Kリスケーリング済み特徴マップ(1−K FEAT_B)に所定の演算、即ち、合算(summing−up)演算を遂行して第2−K特徴マップ(2−K FEAT)を生成して出力するプロセスを遂行する。
図5は本発明の一実施例にかかるアップサンプリングブロックとこれの例示的な演算方法を示す。
図5のアップサンプリングブロックは第2−(M+1)アップサンプリングブロックの例を示す。図5を参照すれば、1−M特徴マップ(1−M FEAT)が第2−(M+1)アップサンプリングブロック(420_(M+1))内の第1フィルタ(420_(M+1)_A)を通過すると、1−M特徴マップ(1−M FEAT)のチャネルは2倍増加して1−M特徴マップ(1−M FEAT)とサイズは同一だが、チャネルは2倍である第1−M調整特徴マップ(1−M FEAT_A)が生成される。
そして、第2−(M+2)特徴マップ(2−(M+2)FEAT)が第2−(M+1)アップサンプリングブロック(420_(M+1))内の第2フィルタ(420_(M+1)_B)を通過すると、チャネルは1/2倍減少して第2−(M+2)特徴マップ(2−(M+2)FEAT)とサイズは同一だが、チャネルは1/2倍である第2−(M+2)調整特徴マップ(2−(M+2)FEAT_A)が生成される。
また、第2−(M+2)調整特徴マップ(2−(M+2)FEAT_A)が第2−(M+1)アップサンプリングブロック(420_(M+1))内のスケール−アップブロック(420_(M+1)_C)を通過すると、サイズが2倍増加して第2−(M+2)調整特徴マップ(2−(M+2)FEAT_A)とチャネルは同一だが、サイズは2倍である第2−(M+2)リスケーリング済み特徴マップ(2−(M+2)FEAT_B)が形成される。
そして、第1−M調整特徴マップ(1−M FEAT_A)と第2−(M+2)リスケーリング済み特徴マップ(2−(M+2)FEAT_B)はサイズとチャネルが同一であるため、第2−(M+1)アップサンプリングブロック内の合算ブロック(420_(M+1)_D)で所定の演算、即ち合算され得る。このように所定の演算(即ち、合算)された結果は第2−(M+1)特徴マップ(2−(M+1)FEAT)となる。
即ち、前記第2−(M+1)アップサンプリングブロック内の第1フィルタ(420_(M+1)_A)を用いたコンボリューション演算と第2−(M+1)アップサンプリングブロック(420_(M+1))内の第2フィルタ(420_(M+1)_B)を用いたコンボリューション演算は第1−M特徴マップ(1−M FEAT)のチャネル数と第2−(M+2)特徴マップ(2−(M+2)FEAT)のチャネル数を同一に変更するためのものである。一例として、図5に示された第2−(M+1)アップサンプリングブロック内の第1フィルタ(420_(M+1)_A)は第1−M特徴マップ(1−M FEAT)のチャネル数は2倍増加させ、図5に示された第2−(M+1)アップサンプリングブロック内の第2フィルタ(420_(M+1)_B)は第2−(M+2)特徴マップ(2−(M+2)FEAT)のチャネル数は1/2倍減少させて互いに同一のチャネル数にする。
そして、第2−(M+1)アップサンプリングブロック(420_(M+1))内のスケール−アップブロック(420_(M+1)_C)は第1−M特徴マップ(1−M FEAT)のサイズと第2−(M+2)特徴マップ(2−(M+2)FEAT)のサイズを同一に変更するためのものである。一例として、前記スケール−アップブロックは第2−(M+2)調整特徴マップ(2−(M+2)FEAT_A)のサイズを第1−M特徴マップ(1−M FEAT)のサイズと同一にするため2倍増加させる役割を遂行する。しかし、増加比率はこれに限定されない。これはダウンサンプリングイメージ(D_Image)が入力される第2−1アップサンプリングブロック(420_1)と1−K特徴マップ(1−K FEAT)が入力される第2−Kアップサンプリングブロック(420_K)にも同一に適用される。
図4に示された一実施例で、第2−4アップサンプリングブロック(FUN4;420_4)はサイズとチャネル数がW/16×H/16×4Cである第1−3特徴マップが伝達されてサイズとチャネル数がW/16×H/16×8Cに変換して第1−3特徴マップのサイズは維持したままチャネル数を4Cから8Cに変換する。また、第2−4アップサンプリングブロック(FUN4;420_4)はサイズとチャネル数がW/32×H/32×16Cである第2−5特徴マップ(2−5FEAT)が伝達されてW/16×H/16×8Cにチャネルとサイズを変換した後、第2−5リスケーリング済み特徴マップと第1−3調整特徴マップを結合してW/16×H/16×8Cの第2−4特徴マップ(2−4FEAT)を生成して出力する。同様に、第2−3アップサンプリングブロック(FUN3;420_3)及び第2−2アップサンプリングブロック(FUN2;420_2)も上で説明した同一の過程を遂行して、第2−2特徴マップまで生成してこれを第2−1アップサンプリングブロック(FUN1;420_1)に伝達する。第2−1アップサンプリングブロック(FUN1;420_1)はサイズとチャネル数がW/2×H/2×3であるダウンサンプリングイメージ(D_Image)が伝達されてサイズは維持したままチャネル数を3からCに変更したW/2×H/2×Cに変換する。
そして、第2−1アップサンプリングブロック(FUN1;420_1)はサイズとチャネル数がW/4×H/4×2Cである第2−2特徴マップ(2−2FEAT)が伝達されてW/2×H/2×Cにチャネルとサイズを変換する。それから、第2−1アップサンプリングブロック(FUN1;420_1)は前記第2−2リスケーリング済み特徴マップと前記ダウン−サンプリングイメージの調整特徴マップに所定の演算、即ち、合算(summing−up)演算をしてサイズとチャネル数がW/2×H/2×Cである第2−1特徴マップ(2−1FEAT)を生成して出力する。
一方、図3に示された従来のFPNブロックを含むCNN装置ではFPNブロックが各々のFPNブロックによって生成された特徴マップ各々のチャネル数を維持して最終特徴マップまでチャネル数が同一に維持される(未図示)。即ち、各々の第1FPNないし第(K−1)FPNに入力される2個の特徴マップのうち直前のFPNから入力される特徴マップのチャネル数は、最もチャネル数が多い特徴マップ(1−K特徴マップ)のチャネル数と同一のD個であり、各々の第1FPNないし第(K−1)FPNで生成して出力する特徴マップのチャネル数もD個であることを確認することができる。
これに比べて、図4に示されたFUN(アップサンプリングブロック)を含んだCNN装置では、FUNブロックが各FUNブロックによって生成された特徴マップ各々のチャネル数をこれらに対応する入力特徴マップのチャネル数の半分に減らす。サイズに対しては、各々のFPNブロックによって生成された各特徴マップは各々のFUNブロックによって生成された特徴マップと同一のサイズを有する。例えば、各第2−Kアップサンプリングブロックないし第2−1アップサンプリングブロックに入力される各特徴マップのチャネル数は、最もチャネル数が多い特徴マップ(1−K特徴マップ)のチャネル数であるDよりも1/2倍ずつ漸次小さくなる。例えば、第2−2アップサンプリングブロック(420_2)に入力される2個特徴マップのチャネル数は各々C、4Cであり、第2−2アップサンプリングブロック(420_2)で生成される特徴マップのチャネル数は2Cであり、第2−1アップサンプリングブロック(420_1)に入力される2個特徴マップのチャネル数は各々3、2Cであり、第2−1アップサンプリングブロック(420_1)で生成される特徴マップのチャネル数はCになるなど、図3のFPNで処理される特徴マップのチャネル数に比べて相当小さい差異点がある。
従って、本発明にかかるCNN装置は演算される特徴マップのチャネル数の減少でCNN演算量が減るようになり、これに伴い、CNN演算速度が増加することができる。また、FUNブロックを含むように構成されたCNNを利用した装置が、CNNによって遂行される演算量を減らしても、FUNブロックによって生成された各特徴マップのサイズ(dimension)は前記FPNブロックから出力された各特徴マップのサイズと同一である。従って、FUNブロックの構成を備えたCNNとFPNブロックの構成を備えた従来のCNNとの間では物体検出のようなアプリケーションや他のアプリケーションによって生成された結果の正確度に対してはほぼ差がなくなる。具体的に、図4の本発明にかかるCNNモデルで各アップサンプリングブロック(第2−1アップサンプリングブロックないし第2−Kアップサンプリングブロック)から出力される特徴マップ(2−1特徴マップないし第2−K特徴マップ)のサイズは図3の既存のCNNモデルで各FPNから出力される特徴マップのサイズと同一である。例えば、図3及び図4で入力されるイメージのサイズがW×H×3であれば、第1FPNの出力(P−1FEAT)のサイズはW/2×H/2×Dであり、第2−1アップサンプリングブロックの出力(2−1FEAT)のサイズはW/2×H/2×Cで互いにサイズが同一であり、第2FPNの出力(P−2FEAT)のサイズはW/4×H/4×Dであり、第2−2アップサンプリングブロックの出力(2−2FEAT)のサイズはW/4×H/4×2Cで互いにサイズが同一であり、以下、M番目FPNの出力と第2−Mアップサンプリングブロックの出力も互いにサイズが同一であることが分かる。即ち、本発明にかかるCNN装置ではCNN演算量を減らしながらもFUNで生成される特徴マップのサイズは既存のCNN装置のFPNで生成される特徴マップのサイズと同一であるため、オブジェクトディテクション正確度または他のアプリケーション結果物の正確度は既存のCNNモデルとほぼ差がない。
図6A及び図6Bは本発明の一実施例にかかるFUNを含むように構成されたCNNを適用した学習装置の構成図を示す。
図6Aを参照すれば、本発明にかかるCNN学習装置600はスチューデントフィーチャーコンピュテーションブロック601、アプリケーションブロック602、アプリケーションロスブロック603、ティーチャーフィーチャーコンピュテーションブロック604及びリグレッションロスブロック605を含む。
スチューデントフィーチャーコンピュテーションブロック601はダウンサンプリングブロック401とFUNブロック(第2−1アップサンプリングブロック(420_1)ないし第2−Kアップサンプリングブロック(420_K))が含まれて演算量を減らした軽い構造を有している。スチューデントフィーチャーコンピュテーションブロック601は入力イメージが入力された時にダウンサンプリングブロック、コンボリューションブロック及びFUN(アップサンプリングブロック)などの組み合わせで前記入力イメージから特徴マップを獲得する機能をする。アプリケーションブロック602とアプリケーションロスブロック603は図1のアプリケーションブロック102とアプリケーションロスブロック103と同一であり、その重複される内容の説明は省略する。
ティーチャーフィーチャーコンピュテーションブロック(またはティーチャーエンコーディングレイヤと指称され得る;604)は前記入力イメージ(スチューデントフィーチャーコンピュテーションブロック601に印加された入力イメージと同一である)に対応される特徴マップに対してダウンサンプリングブロックを経ずにコンボリューション演算を複数回遂行するが、前記第2−1特徴マップ、第2−2特徴マップ、…、第2−K特徴マップのサイズに対応されるサイズを有するT−1、T−2、…、T−K特徴マップを各々形成する機能をする。ここで、スチューデントフィーチャーコンピュテーションブロック601はティーチャーコンピュテーションブロック604と同一の入力イメージが入力される。
リグレッションロスブロック605はティーチャーフィーチャーコンピュテーションブロック604で生成される特徴マップ(T−1特徴マップ、T−2特徴マップ、…、T−K特徴マップ)各々とスチューデントフィーチャーコンピュテーションブロック601で生成された特徴マップ(第2−1特徴マップ、第2−2特徴マップ、…、第2−K特徴マップ)各々を比較してリグレッションロス値を獲得し、前記リグレッションロス値を利用した第2バックプロパゲーション過程を通じて前記第1−1ないし前記第1−Kフィルタブロック及び前記2−1ないし前記2−Kアップサンプリングブロックのパラメータを調整する機能をする。
具体的に、装置600は前記第1及び第2バックプロパゲーション過程の間前記リグレッションロスを通じてアプリケーション−特定ロスを減らす方向に学習過程を進行することができる。アプリケーション−特定ロスはアプリケーションロスブロック603を通じて獲得され、リグレッションロスはリグレッションロスブロック605を通じて獲得される。学習過程はアプリケーションロスブロック603でアプリケーション−特定ロスのみを減らすのではなく、スチューデントフィーチャーコンピュテーションブロック601のFUNブロックが作り出す特徴マップがティーチャーフィーチャーコンピュテーションブロック604が作り出す特徴マップと類似するようにリグレッションロスも共に減らす方向に学習を進行する。これに伴い、リグレッションロスも共に減るように学習される。
言い換えると、アプリケーションロスブロック603を通じた第1バックプロパゲーションプロセスはスチューデントフィーチャーコンピュテーションブロック601とアプリケーションブロック602のパラメータを調節する機能をして、リグレッションロスブロック605を通じた第2バックプロパゲーションプロセスはスチューデントフィーチャーコンピュテーションブロック601のパラメータを調節する機能をする。これに伴い、スチューデントフィーチャーコンピュテーションブロック601内の各フィルタブロック(第1−1フィルタブロックないし第1−Kフィルタブロック)とFUNブロック(第2−1アップサンプリングブロックないし2−Kアップサンプリングブロック)のパラメータはアプリケーションロスブロック603で求めたアプリケーション−特定ロスとリグレッションロスブロック605で求めた追加的なリグレッションロスを通じて調整される。これに伴い、装置600の性能学習はさらに効率的な学習が可能である。
図6Bは図6Aでスチューデントフィーチャーコンピュテーションブロック601が図4の特徴マップ生成過程が示されるようにし、併せてティーチャーフィーチャーコンピュテーションブロック604及びリグレッションロスブロック605を具体的に示した図面である。
図6Bを参照すれば、ティーチャーフィーチャーコンピュテーションブロック604は多数個のフィルタブロック(610_1、610_2、610_3、…、610_K)を含む。この時、上述したとおり、ティーチャーフィーチャーコンピュテーションブロック604はスチューデントフィーチャーコンピュテーションブロック601に入力されるイメージと同一のイメージが入力されてコンボリューション演算を複数回遂行するが、ティーチャーフィーチャーコンピュテーションブロック604はスチューデントフィーチャーコンピュテーションブロック601と異なりダウン−サンプリングブロックを含まずにダウンサンプリングブロックを経ないでコンボリューション演算を複数回遂行する。
具体的に、第T−1フィルタブロック(610_1)はサイズとチャネル数がW×H×3である入力イメージに対してコンボリューション演算してサイズとチャネル数がW/2×H/2×Cである第T−1特徴マップ(T−1Feat)を出力する。そして、第T−2フィルタブロック(610_2)はサイズとチャネル数がW/2×H/2×Cである第T−1特徴マップ(T−1Feat)に対してコンボリューション演算してサイズとチャネル数がW/4×H/4×2Cである第T−2特徴マップ(T−2Feat)を出力する。同様に、第T−3フィルタブロック(610_3)はサイズとチャネル数がW/4×H/4×2Cである第T−2特徴マップ(T−2Feat)に対してコンボリューション演算してサイズとチャネル数がW/8×H/8×4Cである第T−3特徴マップ(T−3Feat)を出力する。これに伴い、順に第T−1特徴マップないし第T−K特徴マップが生成される。
すると図6Bに示されたとおりリグレッションロスブロック605はサイズとチャネル数がW/2×H/2×Cで同一の第2−1特徴マップ(2−1Feat)と第T−1特徴マップ(T−1Feat)を比較して第1リグレッションロスを算出する。同様に、リグレッションロスブロック605はサイズとチャネル数がW/4×H/4×2Cで同一の第2−2特徴マップ(2−2Feat)と第T−2特徴マップ(T−2Feat)を比較して第2リグレッションロスを算出し、サイズとチャネル数がW/8×H/8×4Cで同一の第2−3特徴マップ(2−3Feat)と第T−3特徴マップ(T−3Feat)を比較して第3リグレッションロスを算出する方式で各第2−1特徴マップないし第2−K特徴マップに対するリグレッションロスを算出する。そして、装置600はこのように算出されたリグレッションロスを利用した第2バックプロパゲーション過程を通じて第1−1ないし第1−Kフィルタブロック及び2−1ないし2−Kアップサンプリングブロックのパラメータを調整する。この時、ティーチャーフィーチャーコンピュテーションブロックの第T−1、第T−2、…、T−Kフィルタブロック(610_1、610_2、…、610_K)は事前学習を通じて得た固定されたパラメータを利用して学習を進行する。そして、図6Aの装置600は各パラメータに対する学習が完了するとスチューデントフィーチャーコンピュテーションブロック601とアプリケーションブロック602のみを利用してtest過程を遂行し得る。
図7は本発明の一実施例にかかる物体を検出するための装置の構成図を示す。図7に示された例ではアプリケーションブロック602がオブジェクトディテクションブロック(物体検出ブロック、700)である場合を示す。図7を参照すれば、フィーチャーコンピュテーションブロック400で生成された特徴マップ(2−1 FEAT、2−2 FEAT、…、2−K FEAT)がオブジェクトディテクションブロック700に伝達され、オブジェクトディテクションブロック700ではフィーチャーコンピュテーションブロック400から特徴マップのうち少なくとも一部が伝達され得る。具体的に、オブジェクトディテクションブロック700内のFCレイヤは伝達された特徴マップに特定の演算、例えば、FC演算、リグレッション演算、またはクラシフィケーション演算を遂行して中間産物を獲得し、これらをマージレイヤに伝達してアプリケーション−特定出力を生成する。ここで、アプリケーション−特定出力は物体を検出した結果である。
図7を再び参照すれば、本発明にかかるフィーチャーコンピュテーションブロック400は演算量が減って演算速度が増加したが、検出正確度はそのまま維持し得る。ここで、アプリケーションブロック602の例は図7に示されたセマンティックセグメンテーションブロックまたはオブジェクトディテクションブロック700であり得る。
本発明技術分野の通常の技術者に理解され得ることとして、上で説明されたイメージ、例えば入力イメージ、トレーニングイメージ、テストイメージのようなイメージデータの送受信が学習装置及びテスト装置の通信部によってなされ得て、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ(及び/または、メモリ)によって保有/維持され得て、コンボリューション演算、デコンボリューション演算、エラー値演算過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明がこれに限定されるものではない。
以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。

Claims (12)

  1. (i)入力イメージのサイズを減らすダウンサンプリングブロック、(ii)少なくとも一回のコンボリューション演算を遂行して各々の第1−1ないし第1−K特徴マップを各々獲得する各々の第1−1ないし第1−Kフィルタブロック;及び(iii)前記各々の第1−1ないし第1−Kフィルタブロックと各々連動する各々の第2−Kないし2−1アップサンプリングブロックを含む、特徴アップサンプリングネットワーク(FUN)を含むCNN装置を用いた特徴マップ生成方法において、
    (a)前記CNN装置は、前記入力イメージが入力されると、前記ダウンサンプリングブロックをもって前記入力されたイメージに所定の演算を遂行して前記入力されたイメージのサイズを減らしたダウンサンプリングイメージを獲得するようにする段階;
    (b)前記CNN装置は、前記ダウンサンプリングイメージが獲得されると、前記各々の第1−1ないし第1−Kフィルタブロックをもって前記ダウンサンプリングイメージに対して前記少なくとも一回のコンボリューション演算を遂行して前記各々の第1−1ないし1−K特徴マップを順次獲得する段階;及び
    (c)前記CNN装置は、(I)第2−1アップサンプリングブロックをもって(i)前記ダウンサンプリングブロックから前記ダウンサンプリングイメージを受信して(ii)前記第2−2アップサンプリングブロックから前記第2−2特徴マップを受信した後、前記2−2特徴マップのサイズを前記ダウンサンプリングイメージと同一にリスケーリングし、(iii)ダウンサンプリングイメージと第2−2リスケーリング済み特徴マップに所定の演算を遂行して、前記第2−1特徴マップを獲得し、(II)Mが1より大きいか同じ整数である場合、前記第(2−(M+1))アップサンプリングブロックをもって、(i)前記第1−Mフィルタブロックから出力された前記第1−M特徴マップを受信し、(ii)前記第2−(M+2)アップサンプリングブロックから出力された前記第2−(M+2)特徴マップを受信した後、前記2−(M+2)特徴マップのサイズを前記第1−M特徴マップと同一にリスケーリングし、(iii)前記第(1−M)特徴マップと前記(2−(M+2))リスケーリング済み特徴マップに所定の演算を遂行して、前記(2−(M+1))特徴マップを生成することで、前記第2−Kないし第2−2特徴マップを獲得する段階;
    を含むことを特徴とする方法。
  2. 前記(c)段階で、
    前記CNN装置は、Mが1以上(K−2)以下の整数である場合、前記(2−(M+1))アップサンプリングブロックをもって(i)前記第1−M特徴マップに対して前記第2−(M+1)アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算を遂行してチャネルが変更された第1−M調整特徴マップを求めるプロセス、(ii)前記第2−(M+2)アップサンプリングブロックから伝達された前記第2−(M+2)特徴マップに対して前記第2−(M+1)アップサンプリングブロック内の第2フィルタを用いたコンボリューション演算を遂行してチャネルが変更された第2−(M+2)調整特徴マップを獲得した後、前記第2−(M+2)調整特徴マップに対してアップサンプリング演算を遂行して前記第2−(M+2)リスケーリング済み特徴マップを獲得し、(iii)前記第1−M調整特徴マップと前記第2−(M+2)リスケーリング済み特徴マップを演算して、前記第2−(M+1)特徴マップを生成し、(iv)第2−(M+1)アップサンプリングブロックから獲得した第2−(M+1)特徴マップを第2−Mアップサンプリングブロックに伝達するプロセスを遂行することで、前記第2−(K−1)ないし前記第2−2特徴マップを獲得するようにすることを特徴とする請求項1に記載の方法。
  3. 前記(c)段階で、
    前記CNN装置は、(i)前記ダウンサンプリングイメージに対して前記第2−1アップサンプリングブロック内の前記第1フィルタを用いたコンボリューション演算を遂行して前記ダウンサンプリングイメージのチャネル数が変更された調整特徴マップを求め、(ii)前記第(2−2)特徴マップに対して前記第2−1アップサンプリングブロック内の第2フィルタを用いたコンボリューション演算を遂行してチャネル数が変更された第2−2調整特徴マップを求めた後、前記第2−2調整特徴マップに対してサイズを増やすアップサンプリング演算を遂行して第2−2リスケーリング済み特徴マップを求め、(iii)前記ダウンサンプリングイメージの調整特徴マップと前記第2−2リスケーリング済み特徴マップを演算して、前記第(2−1)特徴マップを生成することで、前記第2−1特徴マップを第2−1アップサンプリングブロックから獲得することを特徴とする請求項2に記載の方法。
  4. 前記(c)段階で、
    前記CNN装置は、前記第(2−K)アップサンプリングブロックをもって(i)前記第1−(K−1)特徴マップに対して前記第2−Kアップサンプリングブロック内の第1フィルタを用いたコンボリューション演算を遂行してチャネル数が変更された第1−(K−1)調整特徴マップを求め、(ii)前記第1−K特徴マップに対してアップサンプリング演算を遂行して第1−Kリスケーリング済み特徴マップを求め、(iii)前記第1−(K−1)調整特徴マップと前記第1−Kリスケーリング済み特徴マップを演算して前記(2−K)特徴マップを生成し、(iv)第2−Kアップサンプリングブロックから獲得した前記(2−K)特徴マップを第2−(K−1)アップサンプリングブロックに伝達するプロセスを遂行することで、前記2−K特徴マップを獲得するようにすることを特徴とする請求項2に記載の方法。
  5. 前記第2−(M+1)アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算は前記第1−M特徴マップのチャネル数を前記第2−(M+2)調整特徴マップのチャネル数と同一に調整するための演算であり、
    前記第2−1アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算は前記ダウンサンプリングイメージのチャネル数を前記第2−2調整特徴マップのチャネル数と同一に変更するための演算であることを特徴とする請求項2に記載の方法。
  6. 前記(b)段階で、
    前記CNN装置は、前記ダウンサンプリングブロックから獲得した前記ダウンサンプリングイメージにコンボリューション演算を遂行して生成された第1−1特徴マップを前記第1−1フィルタブロックから獲得した後、第1−Mフィルタブロックから獲得した第1−M特徴マップにコンボリューション演算を遂行して生成された第1−(M+1)特徴マップを第1−(M+1)フィルタブロックから獲得するが、Mは2から(K−1)までの整数であることを特徴とする請求項1に記載の方法。
  7. (i)入力イメージのサイズを減らすダウンサンプリングブロック、(ii)コンボリューション演算を少なくとも一回遂行して各々の第1−1ないし第1−K特徴マップを獲得する各々の第1−1ないし第1−Kフィルタブロック;(iii)前記各々の第1−1ないし第1−Kフィルタブロックと各々連動する第2−Kないし2−1アップサンプリングブロック;を含む、特徴マップを生成するための特徴アップサンプリングネットワーク(FUN)を含むCNNを適用した装置において、
    入力イメージを受信する通信部;及び
    (1)入力イメージを獲得するとダウンサンプリングブロックをもって入力イメージに所定の演算を加えることで前記入力されたイメージのサイズを減らしたダウンサンプリングイメージを獲得するようにするプロセス;(2)前記ダウンサンプリングイメージが獲得されると、前記第1−1ないし前記第1−Kフィルタブロック各々をもって前記ダウンサンプリングイメージに一つ以上のコンボリューション演算を適用して各々前記第1−1ないし前記第1−K特徴マップを獲得するようにするプロセス及び(3)(I)前記第2−1アップサンプリングブロックをもって(i)前記ダウンサンプリングブロックから前記ダウンサンプリングイメージを受信するようにし、(ii)前記第2−2アップサンプリングブロックから前記第2−2特徴マップを受信して、前記第2−2特徴マップのサイズを前記ダウンサンプリングイメージのサイズと同一にリスケーリングするようにし、(iii)前記ダウンサンプリングイメージと第2−2リスケーリング済み特徴マップに所定の演算を遂行して、前記第2−1特徴マップを獲得し、(II)Mが1より大きいか同じ整数である場合、前記第(2−(M+1))アップサンプリングブロックをもって、(i)前記第1−Mフィルタブロックから出力された前記第1−M特徴マップを受信し、(ii)前記第2−(M+2)アップサンプリングブロックから出力された前記第2−(M+2)特徴マップを受信した後、前記2−(M+2)特徴マップのサイズを前記第1−M特徴マップと同一にリスケーリングし、(iii)前記第(1−M)特徴マップと前記(2−(M+2))リスケーリング済み特徴マップに所定の演算を遂行して、前記(2−(M+1))特徴マップを生成することで、前記第2−Kないし第2−2特徴マップを獲得するプロセス;を遂行するプロセッサ
    を含むことを特徴とする装置。
  8. 前記(3)プロセスにおいて、
    前記プロセッサは、Mが1以上(K−2)以下の整数である場合、前記(2−(M+1))アップサンプリングブロックをもって(i)前記第1−M特徴マップに対して前記第2−(M+1)アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算を遂行してチャネルが変更された第1−M調整特徴マップを求めるプロセス、(ii)前記第2−(M+2)アップサンプリングブロックから伝達された前記第2−(M+2)特徴マップに対して前記第2−(M+1)アップサンプリングブロック内の第2フィルタを用いたコンボリューション演算を遂行してチャネルが変更された第2−(M+2)調整特徴マップを獲得した後、前記第2−(M+2)調整特徴マップに対してアップサンプリング演算を遂行して前記第2−(M+2)リスケーリング済み特徴マップを獲得し、(iii)前記第1−M調整特徴マップと前記第2−(M+2)リスケーリング済み特徴マップを演算して、前記第2−(M+1)特徴マップを生成し、(iv)第2−(M+1)アップサンプリングブロックから獲得した第2−(M+1)特徴マップを第2−Mアップサンプリングブロックに伝達するプロセスを遂行することで、前記第2−(K−1)ないし前記第2−2特徴マップを獲得するようにすることを特徴とする請求項7に記載の装置。
  9. 前記(3)プロセスにおいて、
    前記プロセッサは、(i)前記ダウンサンプリングイメージに対して前記第2−1アップサンプリングブロック内の前記第1フィルタを用いたコンボリューション演算を遂行して前記ダウンサンプリングイメージのチャネル数が変更された調整特徴マップを求め、(ii)前記第(2−2)特徴マップに対して前記第2−1アップサンプリングブロック内の第2フィルタを用いたコンボリューション演算を遂行してチャネル数が変更された第2−2調整特徴マップを求めた後、前記第2−2調整特徴マップに対してサイズを増やすアップサンプリング演算を遂行して第2−2リスケーリング済み特徴マップを求め、(iii)前記ダウンサンプリングイメージの調整特徴マップと前記第2−2リスケーリング済み特徴マップを演算して、前記第(2−1)特徴マップを生成することで、前記第2−1特徴マップを第2−1アップサンプリングブロックから獲得することを特徴とする請求項8に記載の装置。
  10. 前記(3)プロセスで、
    前記プロセッサは、前記第(2−K)アップサンプリングブロックをもって(i)前記第1−(K−1)特徴マップに対して前記第2−Kアップサンプリングブロック内の第1フィルタを用いたコンボリューション演算を遂行してチャネル数が変更された第1−(K−1)調整特徴マップを求め、(ii)前記第1−K特徴マップに対してアップサンプリング演算を遂行して第1−Kリスケーリング済み特徴マップを求め、(iii)前記第1−(K−1)調整特徴マップと前記第1−Kリスケーリング済み特徴マップを演算して前記(2−K)特徴マップを生成し、(iv)第2−Kアップサンプリングブロックから獲得した前記(2−K)特徴マップを第2−(K−1)アップサンプリングブロックに伝達するようにするプロセスを遂行することで、前記2−K特徴マップを獲得するようにすることを特徴とする請求項8に記載の装置。
  11. 前記第2−(M+1)アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算は前記第1−M特徴マップのチャネル数を前記第2−(M+2)調整特徴マップのチャネル数と同一に調整するための演算であり、
    前記第2−1アップサンプリングブロック内の第1フィルタを用いたコンボリューション演算は前記ダウンサンプリングイメージのチャネル数を前記第2−2調整特徴マップのチャネル数と同一に変更するための演算であることを特徴とする請求項8に記載の装置。
  12. 前記(2)プロセスで、
    前記プロセッサは、前記ダウンサンプリングブロックから獲得した前記ダウンサンプリングイメージにコンボリューション演算を遂行して生成された第1−1特徴マップを前記第1−1フィルタブロックから獲得した後、第1−Mフィルタブロックから獲得した第1−M特徴マップにコンボリューション演算を遂行して生成された第1−(M+1)特徴マップを第1−(M+1)フィルタブロックから獲得するが、Mは2から(K−1)までの整数であることを特徴とする請求項7に記載の装置。
JP2018188345A 2017-10-04 2018-10-03 Funを用いて特徴マップを生成するための方法及び装置 Active JP6679688B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/724,588 2017-10-04
US15/724,588 US10043113B1 (en) 2017-10-04 2017-10-04 Method and device for generating feature maps by using feature upsampling networks

Publications (2)

Publication Number Publication Date
JP2019067406A true JP2019067406A (ja) 2019-04-25
JP6679688B2 JP6679688B2 (ja) 2020-04-15

Family

ID=63014093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018188345A Active JP6679688B2 (ja) 2017-10-04 2018-10-03 Funを用いて特徴マップを生成するための方法及び装置

Country Status (5)

Country Link
US (1) US10043113B1 (ja)
EP (1) EP3467721B1 (ja)
JP (1) JP6679688B2 (ja)
KR (1) KR102192850B1 (ja)
CN (1) CN109635817B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020261324A1 (ja) * 2019-06-24 2020-12-30 日本電信電話株式会社 物体検出認識装置、物体検出認識方法、及び物体検出認識プログラム
CN113490948A (zh) * 2019-05-14 2021-10-08 维奥赖特有限公司 轮胎侧壁成像方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020046041A1 (en) 2018-08-31 2020-03-05 Samsung Electronics Co., Ltd. Electronic device for high-speed compression processing of feature map of cnn utilizing system and controlling method thereof
US10579924B1 (en) * 2018-09-17 2020-03-03 StradVision, Inc. Learning method, learning device with multi-feeding layers and testing method, testing device using the same
CN109544553B (zh) * 2018-09-27 2023-06-02 天津大学 以空间水平和垂直方向为通道方向的神经网络上采样方法
US10304009B1 (en) * 2018-10-08 2019-05-28 StradVision, Inc. Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
US10803594B2 (en) 2018-12-31 2020-10-13 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system of annotation densification for semantic segmentation
US10467500B1 (en) 2018-12-31 2019-11-05 Didi Research America, Llc Method and system for semantic segmentation involving multi-task convolutional neural network
CN109672885B (zh) * 2019-01-08 2020-08-04 中国矿业大学(北京) 一种用于矿井智能监控的视频图像编解码方法
US10509987B1 (en) 2019-01-22 2019-12-17 StradVision, Inc. Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
CN113592004A (zh) * 2019-02-25 2021-11-02 深圳市商汤科技有限公司 分配方法及装置、电子设备和存储介质
CN110378976B (zh) * 2019-07-18 2020-11-13 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110568445A (zh) * 2019-08-30 2019-12-13 浙江大学 一种轻量化卷积神经网络的激光雷达与视觉融合感知方法
CN110910329B (zh) * 2019-11-27 2022-09-02 中国科学技术大学 一种以需求为导向的图像去噪方法
CN111210443B (zh) * 2020-01-03 2022-09-13 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111310805B (zh) * 2020-01-22 2023-05-30 中能国际高新科技研究院有限公司 一种对图像中的目标进行密度预测的方法、装置及介质
CN111369582B (zh) * 2020-03-06 2023-04-07 腾讯科技(深圳)有限公司 图像分割方法、背景替换方法、装置、设备及存储介质
WO2022047783A1 (en) * 2020-09-07 2022-03-10 Intel Corporation Poly-scale kernel-wise convolution for high-performance visual recognition applications
CN112950703B (zh) * 2021-03-11 2024-01-19 无锡禹空间智能科技有限公司 小目标的检测方法、装置、存储介质及设备
US11475240B2 (en) * 2021-03-19 2022-10-18 Apple Inc. Configurable keypoint descriptor generation
WO2023128421A1 (ko) * 2021-12-29 2023-07-06 삼성전자 주식회사 컨볼루션 신경망을 이용한 이미지 처리 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017091833A1 (en) * 2015-11-29 2017-06-01 Arterys Inc. Automated cardiac volume segmentation
JP2017157138A (ja) * 2016-03-04 2017-09-07 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100963006B1 (ko) 2007-11-16 2010-06-09 경희대학교 산학협력단 변환 영역에서 영상 이미지의 크기를 변환하는 방법 및 그장치
DK177154B1 (da) * 2010-12-17 2012-03-05 Concurrent Vision Aps Method and device for parallel processing of images
WO2015078017A1 (en) 2013-11-30 2015-06-04 Xiaoou Tang Method and system for exacting face features from data of face images
US10719939B2 (en) * 2014-10-31 2020-07-21 Fyusion, Inc. Real-time mobile device capture and generation of AR/VR content
KR101649317B1 (ko) * 2014-12-31 2016-08-18 인천대학교 산학협력단 화질 개선 및 소형 적외선 이미지에 대한 확대 알고리즘
EP3259911B1 (en) * 2015-02-19 2021-04-07 Magic Pony Technology Limited Enhancing visual data using updated neural networks
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
US9286524B1 (en) * 2015-04-15 2016-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-task deep convolutional neural networks for efficient and robust traffic lane detection
US10417555B2 (en) * 2015-05-29 2019-09-17 Samsung Electronics Co., Ltd. Data-optimized neural network traversal
WO2016197303A1 (en) * 2015-06-08 2016-12-15 Microsoft Technology Licensing, Llc. Image semantic segmentation
KR20160144660A (ko) * 2015-06-09 2016-12-19 김태경 컨볼루션 신경망을 위한 개선된 분류 층
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
CN105184779B (zh) * 2015-08-26 2018-04-06 电子科技大学 一种基于快速特征金字塔的车辆多尺度跟踪方法
CN106548127B (zh) * 2015-09-18 2022-11-04 松下电器(美国)知识产权公司 图像识别方法
KR102592076B1 (ko) * 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
US10140522B2 (en) * 2015-12-16 2018-11-27 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
GB2545661A (en) * 2015-12-21 2017-06-28 Nokia Technologies Oy A method for analysing media content
US20170262996A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network
US9779492B1 (en) * 2016-03-15 2017-10-03 International Business Machines Corporation Retinal image quality assessment, error identification and automatic quality correction
US10095957B2 (en) * 2016-03-15 2018-10-09 Tata Consultancy Services Limited Method and system for unsupervised word image clustering
US9864912B2 (en) * 2016-03-30 2018-01-09 Nec Corporation Large margin high-order deep learning with auxiliary tasks for video-based anomaly detection
US9830529B2 (en) * 2016-04-26 2017-11-28 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
US10176425B2 (en) * 2016-07-14 2019-01-08 University Of Dayton Analog neuromorphic circuits for dot-product operation implementing resistive memories
CN106503729A (zh) * 2016-09-29 2017-03-15 天津大学 一种基于顶层权值的图像卷积特征的生成方法
US10401866B2 (en) * 2017-05-03 2019-09-03 GM Global Technology Operations LLC Methods and systems for lidar point cloud anomalies
CN107145908B (zh) * 2017-05-08 2019-09-03 江南大学 一种基于r-fcn的小目标检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017091833A1 (en) * 2015-11-29 2017-06-01 Arterys Inc. Automated cardiac volume segmentation
JP2017157138A (ja) * 2016-03-04 2017-09-07 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113490948A (zh) * 2019-05-14 2021-10-08 维奥赖特有限公司 轮胎侧壁成像方法
JP2022533952A (ja) * 2019-05-14 2022-07-27 ホイールライト・リミテッド タイヤサイドウォールの画像化方法
JP7534331B2 (ja) 2019-05-14 2024-08-14 ホイールライト・リミテッド タイヤサイドウォールの画像化方法
WO2020261324A1 (ja) * 2019-06-24 2020-12-30 日本電信電話株式会社 物体検出認識装置、物体検出認識方法、及び物体検出認識プログラム

Also Published As

Publication number Publication date
JP6679688B2 (ja) 2020-04-15
CN109635817B (zh) 2023-04-28
KR20190039458A (ko) 2019-04-12
CN109635817A (zh) 2019-04-16
KR102192850B1 (ko) 2020-12-18
US10043113B1 (en) 2018-08-07
EP3467721B1 (en) 2023-08-23
EP3467721C0 (en) 2023-08-23
EP3467721A1 (en) 2019-04-10

Similar Documents

Publication Publication Date Title
JP2019067406A (ja) Funを用いて特徴マップを生成するための方法及び装置
JP2019067407A (ja) Funを用いてcnnの性能を向上させるための学習方法及び学習装置、そしてこれを利用した、テスト方法及びテスト装置
JP6720264B2 (ja) イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
CN109905624B (zh) 一种视频帧插值方法、装置及设备
US11462034B2 (en) Generating images using neural networks
CN106991646B (zh) 一种基于密集连接网络的图像超分辨率方法
US10019642B1 (en) Image upsampling system, training method thereof and image upsampling method
US20210358082A1 (en) Computer-implemented method using convolutional neural network, apparatus for generating composite image, and computer-program product
JP6676722B2 (ja) アクティベーション演算とコンボリューション演算を同時に遂行するための方法及び装置、そしてこのための学習方法及び学習装置
JP2019067408A (ja) イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
CN110569851B (zh) 门控多层融合的实时语义分割方法
EP3483793A1 (en) Method and device for performing activation and convolution operation at the same time and learning method and learning device for the same
JP2023548468A (ja) 深層学習ベースの音声強調
KR20200027425A (ko) 자율 주행 상황에서 장애물 검출을 위한 학습용 이미지 데이터 세트의 생성 방법 및 이를 이용한 컴퓨팅 장치, 학습 방법 및 학습 장치
US20200389182A1 (en) Data conversion method and apparatus
US20230267307A1 (en) Systems and Methods for Generation of Machine-Learned Multitask Models
WO2021111633A1 (ja) パラメータ最適化装置、パラメータ最適化方法、およびパラメータ最適化プログラム
CN112633260B (zh) 视频动作分类方法、装置、可读存储介质及设备
JP2023527228A (ja) 情報処理装置、情報処理方法及びプログラム
CN111210439A (zh) 通过抑制非感兴趣信息的语义分割方法、设备及存储设备
US12106487B2 (en) Feature prediction for efficient video processing
US20230262259A1 (en) Unified Space-Time Interpolation of Video Information
WO2020129716A1 (ja) モデル学習装置、モデル学習方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200318

R150 Certificate of patent or registration of utility model

Ref document number: 6679688

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250