JP2022539659A - アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習及びテストする方法及び装置 - Google Patents

アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習及びテストする方法及び装置 Download PDF

Info

Publication number
JP2022539659A
JP2022539659A JP2021570541A JP2021570541A JP2022539659A JP 2022539659 A JP2022539659 A JP 2022539659A JP 2021570541 A JP2021570541 A JP 2021570541A JP 2021570541 A JP2021570541 A JP 2021570541A JP 2022539659 A JP2022539659 A JP 2022539659A
Authority
JP
Japan
Prior art keywords
learning
feature map
map
current
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021570541A
Other languages
English (en)
Other versions
JP7233571B2 (ja
Inventor
宇宙 柳
泓模 諸
鳳男 康
鎔重 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2022539659A publication Critical patent/JP2022539659A/ja
Application granted granted Critical
Publication of JP7233571B2 publication Critical patent/JP7233571B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2133Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる方法が示される。即ち、(a)学習装置が、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させる段階;(b)前記学習装置が、前記学習用アテンショナル特徴マップをRPN(region proposal network)に入力することで前記RPNをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させる段階;及び(c)前記学習装置が、(i)前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、(ii)前記学習用候補ボックスとRPN原本正解とを参照して生成されたRPNロスを利用して前記RPNを学習させるプロセス、及び(iii)前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行する段階を含む方法が示される。【選択図】図2

Description

本発明は、物体検出ネットワークを学習及びテストする方法に関し、より詳細には、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習及びテストする方法、そして、これを利用した学習装置及びテスト装置に関する。
一般的に自律走行車両は、マシンラーニング基盤に走行環境を分析して自律走行が可能となるようにするものであり、事前に走行環境に対応する様々な学習データを利用して学習されたラーニングネットワークを利用して自律走行をしている。
しかし、事前に学習されたラーニングネットワークを利用して自動車が走行する様々な走行環境を全てカバーすることは、事実上不可能である。
そして、デバイスから収集した情報をクラウドサーバに伝送して分析し、再びデバイスに伝送して、デバイスに設けられたラーニングネットワークを学習させることによって様々な走行環境に対応する方法などが提案されているが、クラウド通信に制約のある状況では学習が困難であるという問題点がある。
したがって、最近では、ラーニングネットワークが様々な走行環境をカバーすることができるようにして、クラウド通信に制約のある状況でも学習が可能なオンデバイスラーニング方法が提案されている。
即ち、オンデバイスラーニングは、クラウドサーバを介すことなく、デバイスが自主的に情報を収集し、収集した情報を利用してラーニングネットワークを学習させる方法である。
しかし、オンデバイスラーニングの場合、知識の蒸留を行うことができる教師ネットワークを使用することができないため、ポジティブ/ネガティブサンプリングをすることが困難であり、自律走行車両などのようなデバイスのエンベディッドシステム(embedded system)の限定されたコンピューティングパワーによってエンドツーエンドバックプロパゲーションをすることが困難であるという限界がある。
したがって、オンデバイスラーニングの限界を克服することができ、ラーニングネットワークの性能を向上させることができる新しい技術が要求される実情である。
本発明は、上述した問題点を全て解決することをその目的とする。
また、本発明は、別途の学習動作を行うことなく物体検出ネットワークの性能を向上させることを他の目的とする。
また、本発明は、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークの性能を向上させることを他の目的とする。
また、本発明は、クロス-蒸留ロスレイヤ(cross-distilled loss layer)を利用してカタストロフィック忘却の発生を防止することを他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は以下のとおりである。
本発明の一態様によると、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる方法において、(a)学習装置が、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させる段階;(b)前記学習装置が、前記学習用アテンショナル特徴マップをRPN(region proposal network)に入力することで前記RPNをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させる段階;及び(c)前記学習装置が、(i)前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、(ii)前記学習用候補ボックスとRPN原本正解とを参照して生成されたRPNロスを利用して前記RPNを学習させるプロセス、及び(iii)前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行する段階を含む方法が示される。
一例として、前記(a)段階で、前記学習装置は、前記アテンションネットワークをもって、前記学習用特徴マップを少なくとも一回コンボリューション演算して学習用第1サブ特徴マップを生成させ、前記学習用第1サブ特徴マップを1x1コンボリューション演算して前記学習用特徴マップと同一のチャンネルを有する学習用第2サブ特徴マップを生成させ、前記学習用第2サブ特徴マップにシグモイド関数を適用して前記学習用アテンションマップを生成させ、前記学習用第2サブ特徴マップにReLU関数を適用した後、1x1コンボリューション演算して1個のチャンネルを有する学習用第3サブ特徴マップを生成させ、前記学習用第3サブ特徴マップにシグモイド関数を適用して前記学習用予測マップを生成させる方法が示される。
一例として、前記(a)段階で、前記学習装置は、前記コンカチネーションレイヤをもって、前記学習用特徴マップと前記学習用アテンションマップとの要素ごとの積を計算して学習用インターミディエイトアテンションマップを生成させ、前記学習用特徴マップと前記インターミディエイトアテンションマップとの要素ごとの和を計算して前記学習用アテンショナル特徴マップを生成させる方法が示される。
一例として、前記学習装置は、前記学習用候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記学習用候補ボックスをバイナリ化した後、前記学習用特徴マップのサイズにリサイズして前記学習用バイナリマップを生成させる方法が示される。
本発明の他の態様によると、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストする方法において、(a)学習装置により、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させ、前記学習用アテンショナル特徴マップをRPN(region proposal network)に入力することで前記RPNをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させ、前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、前記学習用候補ボックスとRPN原本正解とを参照して生成されたRPNロスを利用して前記RPNを学習させるプロセス、及び前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行した状態で、テスト映像が獲得されると、テスト装置が、前記テスト映像における現在のフレームに対応する現在のイメージを前記特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記現在のイメージを少なくとも一回コンボリューション演算して現在の特徴マップを出力させ、前記現在の特徴マップをメモリに格納する段階;(b)前記テスト装置が、前記メモリに格納された前記テスト映像における以前のフレームに対応する以前のイメージの以前の特徴マップと、前記現在の特徴マップとを前記アテンションネットワークに入力することで前記アテンションネットワークをもって前記以前の特徴マップに対応する現在-以前のソフト予測マップ、前記現在の特徴マップに対応する現在のソフト予測マップ及び現在の予測マップ、及び前記現在の特徴マップの現在の物体の密度に対応する現在のアテンションマップを出力させ、前記現在のソフト予測マップを前記メモリに格納し、前記現在の特徴マップと前記現在のアテンションマップとを前記コンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記現在の特徴マップと前記現在のアテンションマップとをコンカチネートして現在のアテンショナル特徴マップを出力させ、前記現在のアテンショナル特徴マップを前記RPN(region proposal network)に入力することで前記RPNをもって前記現在のアテンショナル特徴マップ上の現在の物体に対応する現在の候補ボックスを出力させ、前記現在のアテンショナル特徴マップと前記現在の候補ボックスとを前記ROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記現在のアテンショナル特徴マップ上で前記現在の候補ボックスのそれぞれに対応する領域をプーリングして現在のプーリング済み特徴マップを生成させ、前記現在のプーリング済み特徴マップを前記検出ネットワークに入力することで前記検出ネットワークをもって前記現在のプーリング済み特徴マップをラーニング演算して前記現在の候補ボックスのそれぞれに対応する現在の物体検出情報を生成させる段階;及び(c)前記テスト装置が、前記現在の予測マップと前記現在の候補ボックスとをバイナリ化した現在のバイナリマップを参照して生成された現在のクロスエントロピーロスと、前記メモリに格納された前記テスト映像における前記以前のフレームに対応する前記以前のイメージの以前のソフト予測マップ及び前記現在-以前のソフト予測マップを参照して生成された蒸留ロスと、を利用して前記アテンションネットワークを学習させる段階を含む方法が示される。
一例として、前記(b)段階で、前記テスト装置は、前記アテンションネットワークをもって、前記以前の特徴マップと前記現在の特徴マップとのそれぞれを少なくとも一回コンボリューション演算して以前の第1サブ特徴マップと現在の第1サブ特徴マップとをそれぞれ生成させ、前記以前の第1サブ特徴マップと前記現在の第1サブ特徴マップとのそれぞれを1x1コンボリューション演算して前記現在の特徴マップと同一の個数のチャンネルを有する以前の第2特徴マップと現在の第2サブ特徴マップとをそれぞれ生成させ、前記現在の第2サブ特徴マップにシグモイド関数を適用して前記現在のアテンションマップを生成させ、前記以前の第2サブ特徴マップと現在の第2サブ特徴マップとのそれぞれにReLU関数を適用した後、1x1コンボリューション演算して1個のチャンネルを有する以前の第3サブ特徴マップと現在の第3サブ特徴マップとをそれぞれ生成させ、前記現在の第3サブ特徴マップにシグモイド関数を適用して前記現在の予測マップを生成させ、前記以前の第3サブ特徴マップと前記現在の第3サブ特徴マップとのそれぞれにソフトシグモイド関数を適用して前記現在-以前のソフト特徴マップと前記現在のソフト予測マップとを生成させる方法が示される。
一例として、前記ソフトシグモイド関数は、入力値を予め設定されたハイパーパラメータで割った値を前記シグモイド関数に入力するアクティベーション関数である方法が示される。
一例として、前記(b)段階で、前記テスト装置は、前記コンカチネーションレイヤをもって、前記現在の特徴マップと前記現在のアテンションマップとの要素ごとの積を計算して現在のインターミディエイトアテンションマップを生成させ、前記現在の特徴マップと前記現在のインターミディエイトアテンションマップとの要素ごとの和を計算して前記現在のアテンショナル特徴マップを生成させる方法が示される。
一例として、前記テスト装置は、前記現在の候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記現在の候補ボックスをバイナリ化した後、前記現在の特徴マップのサイズにリサイズして前記現在のバイナリマップを生成させる方法が示される。
本発明の他の態様によると、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる学習装置において、インストラクションを格納する一つ以上のメモリ;及び前記インストラクションを遂行するように設定された一つ以上のプロセッサを含み、(I)前記プロセッサが、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させるプロセス;(II)前記プロセッサが、前記学習用アテンショナル特徴マップをRPN(region proposal network)に入力することで前記RPNをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させるプロセス;及び(III)前記プロセッサが、(i)前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、(ii)前記学習用候補ボックスとRPN原本正解とを参照して生成されたRPNロスを利用して前記RPNを学習させるプロセス、及び(iii)前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行するプロセスを遂行する学習装置が示される。
一例として、前記(I)プロセスで、前記プロセッサが、前記アテンションネットワークをもって、前記学習用特徴マップを少なくとも一回コンボリューション演算して学習用第1サブ特徴マップを生成させ、前記学習用第1サブ特徴マップを1x1コンボリューション演算して前記学習用特徴マップと同一のチャンネルを有する学習用第2サブ特徴マップを生成させ、前記学習用第2サブ特徴マップにシグモイド関数を適用して前記学習用アテンションマップを生成させ、前記学習用第2サブ特徴マップにReLU関数を適用した後、1x1コンボリューション演算して1個のチャンネルを有する学習用第3サブ特徴マップを生成させ、前記学習用第3サブ特徴マップにシグモイド関数を適用して前記学習用予測マップを生成させる学習装置が示される。
一例として、前記(I)プロセスで、前記プロセッサが、前記コンカチネーションレイヤをもって、前記学習用特徴マップと前記学習用アテンションマップとの要素ごとの積を計算して学習用インターミディエイトアテンションマップを生成させ、前記学習用特徴マップと前記インターミディエイトアテンションマップとの要素ごとの和を計算して前記学習用アテンショナル特徴マップを生成させる学習装置が示される。
一例として、前記プロセッサが、前記学習用候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記学習用候補ボックスをバイナリ化した後、前記学習用特徴マップのサイズにリサイズして前記学習用バイナリマップを生成させる学習装置が示される。
本発明の他の態様によると、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストするテスト装置において、インストラクションを格納する一つ以上のメモリ;及び前記インストラクションを遂行するように設定された一つ以上のプロセッサを含み、(I)学習装置により、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させ、前記学習用アテンショナル特徴マップをRPN(region proposal network)に入力することで前記RPNをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させ、前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、前記学習用候補ボックスとRPN原本正解とを参照して生成されたRPNロスを利用して前記RPNを学習させるプロセス、及び前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行した状態で、テスト映像が獲得されると、前記プロセッサが、前記テスト映像における現在のフレームに対応する現在のイメージを前記特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記現在のイメージを少なくとも一回コンボリューション演算して現在の特徴マップを出力させ、前記現在の特徴マップをメモリに格納するプロセス;(II)前記プロセッサが、前記メモリに格納された前記テスト映像における以前のフレームに対応する以前のイメージの以前の特徴マップと、前記現在の特徴マップとを前記アテンションネットワークに入力することで前記アテンションネットワークをもって前記以前の特徴マップに対応する現在-以前のソフト予測マップ、前記現在の特徴マップに対応する現在のソフト予測マップ及び現在の予測マップ、及び前記現在の特徴マップの現在の物体の密度に対応する現在のアテンションマップを出力させ、前記現在のソフト予測マップを前記メモリに格納し、前記現在の特徴マップと前記現在のアテンションマップとを前記コンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記現在の特徴マップと前記現在のアテンションマップとをコンカチネートして現在のアテンショナル特徴マップを出力させ、前記現在のアテンショナル特徴マップを前記RPN(region proposal network)に入力することで前記RPNをもって前記現在のアテンショナル特徴マップ上の現在の物体に対応する現在の候補ボックスを出力させ、前記現在のアテンショナル特徴マップと前記現在の候補ボックスとを前記ROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記現在のアテンショナル特徴マップ上で前記現在の候補ボックスのそれぞれに対応する領域をプーリングして現在のプーリング済み特徴マップを生成させ、前記現在のプーリング済み特徴マップを前記検出ネットワークに入力することで前記検出ネットワークをもって前記現在のプーリング済み特徴マップをラーニング演算して前記現在の候補ボックスのそれぞれに対応する現在の物体検出情報を生成させるプロセス;及び(III)前記プロセッサが、前記現在の予測マップと前記現在の候補ボックスとをバイナリ化した現在のバイナリマップを参照して生成された現在のクロスエントロピーロスと、前記メモリに格納された前記テスト映像における前記以前のフレームに対応する前記以前のイメージの以前のソフト予測マップ及び前記現在-以前のソフト予測マップを参照して生成された蒸留ロスと、を利用して前記アテンションネットワークを学習させるプロセスを遂行するテスト装置が示される。
一例として、前記(II)プロセスで、前記プロセッサが、前記アテンションネットワークをもって、前記以前の特徴マップと前記現在の特徴マップとのそれぞれを少なくとも一回コンボリューション演算して以前の第1サブ特徴マップと現在の第1サブ特徴マップとをそれぞれ生成させ、前記以前の第1サブ特徴マップと前記現在の第1サブ特徴マップとのそれぞれを1x1コンボリューション演算して前記現在の特徴マップと同一の個数のチャンネルを有する以前の第2特徴マップと現在の第2サブ特徴マップとをそれぞれ生成させ、前記現在の第2サブ特徴マップにシグモイド関数を適用して前記現在のアテンションマップを生成させ、前記以前の第2サブ特徴マップと現在の第2サブ特徴マップとのそれぞれにReLU関数を適用した後、1x1コンボリューション演算して1個のチャンネルを有する以前の第3サブ特徴マップと現在の第3サブ特徴マップとをそれぞれ生成させ、前記現在の第3サブ特徴マップにシグモイド関数を適用して前記現在の予測マップを生成させ、前記以前の第3サブ特徴マップと前記現在の第3サブ特徴マップとのそれぞれにソフトシグモイド関数を適用して前記現在-以前のソフト特徴マップと前記現在のソフト予測マップとを生成させるテスト装置が示される。
一例として、前記ソフトシグモイド関数は、入力値を予め設定されたハイパーパラメータで割った値を前記シグモイド関数に入力するアクティベーション関数であるテスト装置が示される。
一例として、前記(II)プロセスで、前記プロセッサが、前記コンカチネーションレイヤをもって、前記現在の特徴マップと前記現在のアテンションマップとの要素ごとの積を計算して現在のインターミディエイトアテンションマップを生成させ、前記現在の特徴マップと前記現在のインターミディエイトアテンションマップとの要素ごとの和を計算して前記現在のアテンショナル特徴マップを生成させるテスト装置が示される。
一例として、前記プロセッサが、前記現在の候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記現在の候補ボックスをバイナリ化した後、前記現在の特徴マップのサイズにリサイズして前記現在のバイナリマップを生成させるテスト装置が示される。
本発明は、別途の学習動作を行うことなく物体検出ネットワークの性能を向上させる方法を提供することができる効果がある。
また、本発明はアテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークの性能を向上させる方法を提供することができる効果がある。
また、本発明はクロス-蒸留ロスレイヤを利用してカタストロフィック忘却の発生を防止する方法を提供することができる効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
図1は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる学習装置を簡略に示した図面である。 図2は、本発明の一実施例において、アテンションマップを利用して学習イメージ上の物体を検出する物体検出ネットワークを学習させる方法を簡略に示した図面である。 図3は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習する過程でアテンションマップとクロスエントロピーロスとを生成する過程を簡略に示した図面であり、 図4は、本発明の一実施例において、特徴マップとアテンションマップとを利用してアテンショナル特徴マップを生成する過程を簡略に示した図面である。 図5は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストするテスト装置を簡略に示した図面である。 図6は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストする方法を簡略に示した図面である。 図7は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストする過程でアテンションネットワークを連続学習させる過程を簡略に示した図面である。
後述する本発明に対する詳細な説明は、本発明の目的、技術的解決法及び利点を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
さらに本発明は本明細書に表示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、類似する機能を指す。
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。
図1は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる学習装置を簡略に示した図面であり、図1を参照すると、学習装置1000は、アテンションネットワークを利用してイメージ上の物体を検出する物体検出ネットワークを学習させるための各インストラクションが格納されたメモリ1100と、メモリ1100に格納された各インストラクションによってアテンションネットワークを利用してイメージ上の物体を検出する物体検出ネットワークを学習させるための動作を遂行するプロセッサ1200とを含むことができる。
具体的には、学習装置1000は典型的にコンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)及びコンピュータソフトウェア(即ち、コンピューティング装置をもって特定の方式で機能させる各インストラクション)の組合せを利用して所望のシステム性能を達成するものであり得る。
また、コンピューティング装置のプロセッサはMPU(Micro Processing Unit)またはCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェア構成を含むことができる。また、コンピューティング装置はオペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むことができる。
しかし、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。
このように構成された本発明の一実施例において、学習装置1000によって、アテンションマップを利用して学習イメージ上の物体を検出する物体検出ネットワークを学習させる方法を図2を参照して説明すると次の通りである。
まず、学習イメージが獲得されると、学習装置1000が、学習イメージを特徴抽出ネットワーク1210に入力することで特徴抽出ネットワーク1210をもって前記学習イメージをコンボリューション演算して学習用特徴マップを出力させることができる。
この際、特徴抽出ネットワーク1210は少なくとも一つのコンボリューションレイヤを含むことができ、前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを生成することができる。そして、学習用特徴マップのボリュームはK×H×Wであり得、Hは学習用特徴マップの高さ(height)、Wは学習用特徴マップの幅(width)、Kは学習用特徴マップのチャンネルの個数であり得る。
それから、学習装置1000は、前記学習用特徴マップをアテンションネットワーク1220に入力することで、アテンションネットワーク1220をもって前記学習用特徴マップに対応する学習用予測マップと学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップとを出力させることができる。
この際、図3を参照すると、アテンションネットワーク1220は少なくとも一つのコンボリューションレイヤ1221を通じて前記学習用特徴マップを少なくとも一回コンボリューション演算して学習用第1サブ特徴マップを生成し、第1の1x1コンボリューションレイヤ1222を通じて前記学習用第1サブ特徴マップを1x1コンボリューション演算して学習用第2サブ特徴マップを生成する。この際、第1の1x1コンボリューションレイヤ1222はk個のカーネルを利用して前記学習用第1サブ特徴マップを1x1コンボリューション演算することで前記学習用第2サブ特徴マップがk個のチャンネルを有するようにすることができ、kを前記学習用特徴マップのチャンネルの個数と同一にすることで前記学習用第2サブ特徴マップのチャンネルの個数が前記学習用特徴マップのチャンネルの個数と同一となるようにすることができる。即ち、学習用第2サブ特徴マップのボリュームはK×H×Wとなり得る。
そして、アテンションネットワーク1220は、前記学習用第2サブ特徴マップにシグモイド関数を適用して前記学習用第2サブ特徴マップに対応する学習用アテンションマップを出力することができる。
この際、前記学習用アテンションマップは、前記学習イメージ上に位置する前記学習用物体の密度を示すマップであり得、前記学習イメージ上において情報量の多い特定の領域をフォーカシングしたものであり得る。
また、アテンションネットワーク1220はReLU(rectified linear unit)1223を通じて前記学習用第2サブ特徴マップにReLU関数を適用することによって特徴化した学習用第2サブ特徴マップを生成し、第2の1x1コンボリューションレイヤ1224を通じて前記特徴化した学習用第2サブ特徴マップを1x1コンボリューション演算して学習用第3サブ特徴マップを生成することができる。
この際、第2の1x1コンボリューションレイヤ1224は一つのカーネルを利用して前記学習用第2サブ特徴マップを1x1コンボリューション演算することで前記学習用第3サブ特徴マップが1個のチャンネルを有するようにすることができる。即ち、学習用第3サブ特徴マップのボリュームは1×H×Wとなり得る。
それから、アテンションネットワーク1220は、前記学習用第3サブ特徴マップにシグモイド関数を適用して前記学習用特徴マップに対応する学習用予測マップを生成することができる。
また、図2を参照すると、学習装置1000は、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤ1230に入力することでコンカチネーションレイヤ1230をもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させることができる。
この際、図4を参照すると、コンカチネーションレイヤ1230は、前記学習用アテンションマップと前記学習用特徴マップとの要素ごとの積を計算1231して学習用インターミディエイトアテンションマップを生成した後、前記学習用インターミディエイトアテンションマップと前記学習用特徴マップとの要素ごとの和を計算1232して前記学習用アテンショナル特徴マップを生成することができる。この際、前記学習用アテンショナル特徴マップは、前記学習用アテンションマップを参照して前記学習用特徴マップ上において情報量の多い特定の領域をフォーカシングしたものであるため、後続物体検出の性能を向上させることができる。
次に、学習装置1000は、前記学習用アテンショナル特徴マップをRPN1240に入力することで、RPN1240をもって前記学習用アテンショナル特徴マップ上における学習用物体候補に対する学習用候補ボックスを出力させることができる。
この際、RPN1240は、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして前記学習用特徴マップ上において情報量の多い特定の領域が前記フォーカシングされた学習用アテンショナル特徴マップを利用して前記学習用候補ボックスを生成するため、単に前記学習用特徴マップのみを利用する場合に比べて正確な候補ボックスを生成することができる。
そして、学習装置1000は、前記学習用候補ボックスをバイナリコンバータ1270に入力することでバイナリコンバータ1270をもって前記学習用候補ボックスをバイナリ化することで、前記学習用バイナリマップに変換させることができる。この際、学習装置1000は、前記学習用バイナリマップのサイズを前記学習用特徴マップのサイズにリサイズすることで、前記学習用バイナリマップがアテンションネットワーク1220の学習のための目標値として使用され得るようにすることができる。
また、学習装置1000は、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをROI(region of interest)プーリングレイヤ1250に入力することで、ROIプーリングレイヤ1250をもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワーク1260に入力することで、前記検出ネットワーク1260をもって学習用プーリング済み特徴マップをラーニング演算、一例として、FC(Fully Connected)演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させることができる。
この際、検出ネットワーク1260は、前記学習用特徴マップ上において情報量の多い特定の領域が前記フォーカシングされた学習用アテンショナル特徴マップを利用して生成された前記学習用プーリング済み特徴マップを利用して物体検出を遂行するため、単に前記学習用特徴マップのみを利用する場合に比べて向上した性能の物体検出を遂行することができる。
次に、学習装置1000は、前記物体検出情報とこれに対応する物体検出原本正解とを物体ロスレイヤ1261に入力することで物体ロスレイヤ1261をもって物体検出ロスを獲得させ、前記学習用候補ボックスとこれに対応するRPN原本正解とをRPNロスレイヤ1241に入力することでRPNロスレイヤ1241をもってRPNロスを獲得させ、前記学習用予測マップと前記学習用バイナリマップとをクロス-蒸留ロスレイヤ1280に入力することでクロス-蒸留ロスレイヤ1280をもって学習用クロスエントロピーロスを獲得させることができる。それから、学習装置1000は、前記物体検出ロスを利用したバックプロパゲーションを通じて特徴抽出ネットワーク1210及び検出ネットワーク1260のうち少なくとも一つを学習させるプロセス、前記RPNロスを利用したバックプロパゲーションを通じてRPN1240を学習させるプロセス、及び前記学習用クロスエントロピーロスを利用したバックプロパゲーションを通じてアテンションネットワーク1220を学習させるプロセスのうち少なくとも一部を遂行することができる。
この際、クロスエントロピーロスは次の数式のように示され得る。
クロスエントロピーロス=Lce(σ(Zc),Yc
前記で、σ(Zc)は、前記学習用第3サブ特徴マップにシグモイド関数を適用した前記学習用予測マップを示し、Ycは、前記学習用バイナリマップを示すことができる。
図5は、前記のような方法により学習されたアテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを、本発明の一実施例によってテストするテスト装置を簡略に示した図面であり、図5を参照すると、テスト装置2000はアテンションネットワークを利用してイメージ上の物体を検出する物体検出ネットワークをテストするための各インストラクションが格納されたメモリ2100と、メモリ2100に格納された各インストラクションによってアテンションネットワークを利用してイメージ上の物体を検出する物体検出ネットワークをテストするための動作を遂行するプロセッサ2200とを含むことができる。この際、メモリ2100はオンデバイスストアデバイス(on-device store device)であり得るが、これに限定されるわけではない。
具体的には、テスト装置2000は、典型的にコンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)及びコンピュータソフトウェア(即ち、コンピューティング装置をもって特定の方式で機能させる各インストラクション)の組合せを利用して所望のシステム性能を達成するものであり得る。
また、コンピューティング装置のプロセッサはMPU(Micro Processing Unit)またはCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェア構成を含むことができる。また、コンピューティング装置はオペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むことができる。
しかし、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。
このように構成された本発明の一実施例において、テスト装置2000によって、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストする方法を図6を参照して説明すると次の通りである。
以下の説明では、図2乃至図3を参照した説明から容易に理解可能な部分に対しては詳細な説明を省略する。
また、以下で説明されるテスト装置及び物体検出ネットワークは、自律走行自動車、自律運行飛行体、自律動作ロボットなどのように物体検出を遂行するデバイスにオンボードされ得、デバイス内でオンデバイスラーニングするように構成され得る。
まず、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークは、前記図2及び図3を参照して説明した学習方法により学習された状態であり得る。
即ち、学習装置1000によって前記学習イメージが特徴抽出ネットワーク1210に入力されることにより、特徴抽出ネットワーク1210によって前記学習イメージがコンボリューション演算されて前記学習用特徴マップが出力され、前記学習用特徴マップがアテンションネットワーク1220に入力されることにより、アテンションネットワーク1220によって前記学習用特徴マップに対応する前記学習用予測マップと、前記学習用特徴マップにおける前記学習用物体の密度に対応する前記学習用アテンションマップと、が出力され、前記学習用特徴マップと前記学習用アテンションマップとがコンカチネーションレイヤ1230に入力されることにより、コンカチネーションレイヤ1230によって前記学習用特徴マップと前記学習用アテンションマップとがコンカチネートされて前記学習用アテンショナル特徴マップが出力され、前記学習用アテンショナル特徴マップがRPN(region proposal network)1240に入力されることにより、RPN1240によって前記学習用アテンショナル特徴マップ上における前記学習用物体候補に対する前記学習用候補ボックスが出力され、前記学習用候補ボックスがバイナリコンバータ1270に入力されることにより、バイナリコンバータ1270によって前記学習用候補ボックスが前記学習用バイナリマップに変換され、前記学習用候補ボックスと前記学習用アテンショナル特徴マップとがROIプーリングレイヤ1250に入力されることにより、ROIプーリングレイヤ1250によって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域がプーリングされて前記学習用プーリング済み特徴マップが生成され、前記学習用プーリング済み特徴マップが検出ネットワーク1260に入力されることにより、検出ネットワーク1260によって前記学習用プーリング済み特徴マップがラーニング演算されて前記学習用候補ボックスのそれぞれに対応する前記学習用物体検出情報が生成され、前記学習用物体検出情報とこれに対応する物体の原本正解とを参照して生成された前記物体ロスを利用したバックプロパゲーションを通じて特徴抽出ネットワーク1210及び検出ネットワーク1260のうち少なくとも一つを学習させるプロセス、前記学習用候補ボックスとこれに対応するRPN原本正解とを参照して生成された前記RPNロスを利用したバックプロパゲーションを通じてRPN1240を学習させるプロセス、前記学習用バイナリマップと前記学習用予測マップとを参照して生成された前記学習用クロスエントロピーロスを利用したバックプロパゲーションを通じてアテンションネットワーク1220を学習させるプロセスのうち少なくとも一部を遂行した状態であり得る。
このような方法によりアテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークが学習された状態で、テスト映像が獲得されると、テスト装置2000はテスト映像のうち現在のフレームに対応する現在のイメージを特徴抽出ネットワーク1210に入力することで特徴抽出ネットワーク1210をもって現在のイメージを少なくとも一回コンボリューション演算して現在の特徴マップを出力させることができる。この際、前記現在の特徴マップのボリュームはK×H×Wであり得、Kは、前記現在の特徴マップのチャンネルの個数、Hは、前記現在の特徴マップの高さ(height)、Wは、前記現在の特徴マップの幅(width)であり得る。
それから、テスト装置2000は、前記テスト映像のうちネクストフレームに関するアテンショナルネットワーク1220の連続学習のために前記現在の特徴マップをメモリ2100に格納し、前記現在のフレームに関するアテンショナルネットワーク1220の連続学習のために前記メモリ2100に格納しておいた以前のフレームに対応する以前の特徴マップと、前記現在の特徴マップをアテンションネットワーク1220に入力することでアテンションネットワーク1220をもって前記以前の特徴マップに対応する現在-以前のソフト予測マップと、前記現在の特徴マップに対応する現在の予測マップ及び現在のソフト予測マップ、そして前記現在の特徴マップにおける現在の物体の密度に対応する現在のアテンションマップと、を出力させることができ、前記ネクストフレームに関するアテンショナルネットワーク1220の連続学習のために前記現在のソフト予測マップを前記メモリ2100に格納することができる。
この際、図7を参照すると、アテンションネットワーク1220は少なくとも一つのコンボリューションレイヤ1221を通じて前記以前の特徴マップと前記現在の特徴マップとのそれぞれを少なくとも一回コンボリューション演算して以前の第1サブ特徴マップと現在の第1サブ特徴マップとをそれぞれ生成し、第1の1x1コンボリューションレイヤ1222を通じて前記以前の第1サブ特徴マップと前記現在の第1サブ特徴マップとをそれぞれ1x1コンボリューション演算して以前の第2サブ特徴マップと現在の第2サブ特徴マップとをそれぞれ生成する。この際、第1の1x1コンボリューションレイヤ1222はk個のカーネルを利用して前記以前の第1サブ特徴マップと前記現在の第1サブ特徴マップとをそれぞれ1x1コンボリューション演算することで前記以前の第2サブ特徴マップと前記現在の第2サブ特徴マップとのそれぞれがk個のチャンネルを有するようにすることができ、kを前記以前の特徴マップ及び前記現在の特徴マップのチャンネルの個数と同一にすることで前記以前の第2サブ特徴マップと前記現在の第2サブ特徴マップのチャンネルの個数が前記以前の特徴マップ及び前記現在の特徴マップのチャンネルの個数と同一となるようにすることができる。即ち、前記以前の第2サブ特徴マップと前記現在の第2サブ特徴マップとのボリュームはK×H×Wとなり得る。
そして、アテンションネットワーク1220は、前記現在の第2サブ特徴マップにシグモイド関数を適用して前記現在の第2サブ特徴マップに対応する前記現在のアテンションマップを出力することができる。
この際、前記現在のアテンションマップは、前記現在のイメージ上に位置する前記現在の物体の密度を示すマップであり得、前記現在のイメージ上において情報量の多い特定の領域をフォーカシングしたものであり得る。
また、アテンションネットワーク1220はReLU(rectified linear unit)1223を通じて前記以前の第2サブ特徴マップと前記現在の第2サブ特徴マップとにそれぞれReLU関数を適用することによって特徴化した以前の第2サブ特徴マップと特徴化した現在の第2サブ特徴マップとをそれぞれ生成し、第2の1x1コンボリューションレイヤ1224を通じて前記特徴化した以前の第2サブ特徴マップと前記特徴化した現在の第2サブ特徴マップとをそれぞれ1x1コンボリューション演算して以前の第3サブ特徴マップと現在の第3サブ特徴マップとをそれぞれ生成することができる。この際、第2の1x1コンボリューションレイヤ1224は一つのカーネルを利用して前記以前の第2サブ特徴マップと前記現在の第2サブ特徴マップとをそれぞれ1x1コンボリューション演算することで前記以前の第3サブ特徴マップと前記現在の第3サブ特徴マップとのそれぞれが1個のチャンネルを有するようにすることができる。即ち、前記以前の第3サブ特徴マップ、前記現在の第3サブ特徴マップ、前記現在の第3サブ特徴マップのボリュームは1×H×Wとなり得る。
それから、アテンションネットワーク1220は、前記以前の第3サブ特徴マップにソフトシグモイド関数を適用して前記現在-以前のソフト予測マップを生成することができ、前記現在の第3サブ特徴マップにシグモイド関数を適用して前記現在の予測マップを生成することができ、前記現在の第3サブ特徴マップにソフトシグモイド関数を適用して前記現在のソフト予測マップを生成してメモリ2100に格納することができる。
この際、ソフトシグモイド関数は次の数式のように示され得る。
Figure 2022539659000002
前記で、σ(Z)は、シグモイド関数であり、Zは入力値であり、Tは温度ハイパーパラメータ(temperature hyper paramete)であり得る。そして、温度ハイパーパラメータは、タスクの分類における予測コンフィデンスをキャリブレーションすることに使用され得、分布外(out-of-distribution)の検出の問題に適用すると、分布内のサンプルと分布外のサンプルとのクラススコアにさらに差を付け、分布外のサンプルの区別が容易になるように補助する役割りをすることができる。
次に、再び図6を参照すると、テスト装置2000は、前記現在の特徴マップと前記現在のアテンションマップとをコンカチネーションレイヤ1230に入力することでコンカチネーションレイヤ1230をもって前記現在の特徴マップと前記現在のアテンションマップとをコンカチネートして現在のアテンショナル特徴マップを出力させることができる。
それから、テスト装置2000は、前記現在のアテンショナル特徴マップをRPN1240に入力することで、RPN1240をもって前記現在のアテンショナル特徴マップ上における現在の物体候補に対する現在の候補ボックスを出力させることができる。
そして、テスト装置2000は、前記現在の候補ボックスをバイナリコンバータ1270に入力することで、バイナリコンバータ1270をもって前記現在の候補ボックスを現在のバイナリマップに変換させることができる。
また、テスト装置2000は、前記現在のアテンショナル特徴マップと現在の候補ボックスとをROI(region of interest)プーリングレイヤ1250に入力することで、ROIプーリングレイヤ1250をもって前記現在のアテンショナル特徴マップ上で前記現在の候補ボックスのそれぞれに対応する領域をプーリングして現在のプーリング済み特徴マップを生成させることができ、前記現在のプーリング済み特徴マップを検出ネットワーク1260に入力することで、検出ネットワーク1260をもって前記現在のプーリング済み特徴マップをラーニング演算、一例として、FC演算して前記現在の候補ボックスのそれぞれに対応する現在の物体検出情報を生成させることができる。
次に、図7を参照すると、テスト装置2000は、前記現在の予測マップと、前記現在のバイナリマップとをクロス-蒸留ロスレイヤ1280に入力することでクロス-蒸留ロスレイヤ1280をもって現在のクロスエントロピーロスを獲得させ、前記現在のフレームに関するアテンショナルネットワーク1220の連続学習のために前記メモリ2100に格納しておいた以前のフレームに対応する以前のソフト予測マップと前記現在-以前のソフト予測マップとをクロス-蒸留ロスレイヤ1280に入力することで前記クロス-蒸留ロスレイヤ1280をもって蒸留ロスを獲得させ、前記現在のクロスエントロピーロスと前記蒸留ロスとを利用したバックプロパゲーションを通じて前記アテンションネットワーク1220の連続学習を遂行することができる。
この際、アテンションネットワーク1220の連続学習を遂行するためのトータルロスは次の数式のように示され得る。
Figure 2022539659000003
前記で、σ(Zc)は、現在の予測マップを示し、
Figure 2022539659000004

は、現在-以前のソフト予測マップを示し、Ycは、現在のバイナリマップを示し、Ypは、以前のソフト予測マップを示し、Lce(σ(Zc),Yc)は、クロスエントロピーロスを示し、
Figure 2022539659000005

は、蒸留ロスを示すことができる。
この際、前記蒸留ロスはアテンションネットワーク1220のオンデバイス連続学習の際、カタストロフィック忘却を防止することに使用され得る。
一方、このような方法により学習された物体検出ネットワークを利用してイメージ上の物体を検出する場合、アテンションネットワーク1220は物体検出とオンデバイス連続学習とを並行して遂行することによってテスト映像のフレームごとにアップデートされ得る。
このような方法によってアテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習及びテストすると、自律走行車両などのようなエンベディッドシステムの限定されたコンピューティングパワーで自律走行車両などが主に接する走行環境に対して集中的に学習させて検出ネットワークの性能を改善することに加え、カタストロフィック忘却の発生を防止することができる。
また、以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスク(Floptical Disk)のような磁気-光メディア(Magneto-Optical Media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは、本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。
したがって、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (18)

  1. アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる方法において、
    (a)学習装置が、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させる段階;
    (b)前記学習装置が、前記学習用アテンショナル特徴マップをRPN(region proposal network)に入力することで前記RPNをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させる段階;及び
    (c)前記学習装置が、(i)前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、(ii)前記学習用候補ボックスとRPN原本正解とを参照して生成されたRPNロスを利用して前記RPNを学習させるプロセス、及び(iii)前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行する段階;
    を含む方法。
  2. 前記(a)段階で、
    前記学習装置は、前記アテンションネットワークをもって、前記学習用特徴マップを少なくとも一回コンボリューション演算して学習用第1サブ特徴マップを生成させ、前記学習用第1サブ特徴マップを1x1コンボリューション演算して前記学習用特徴マップと同一のチャンネルを有する学習用第2サブ特徴マップを生成させ、前記学習用第2サブ特徴マップにシグモイド関数を適用して前記学習用アテンションマップを生成させ、前記学習用第2サブ特徴マップにReLU関数を適用した後、1x1コンボリューション演算して1個のチャンネルを有する学習用第3サブ特徴マップを生成させ、前記学習用第3サブ特徴マップにシグモイド関数を適用して前記学習用予測マップを生成させる、請求項1に記載の方法。
  3. 前記(a)段階で、
    前記学習装置は、前記コンカチネーションレイヤをもって、前記学習用特徴マップと前記学習用アテンションマップとの要素ごとの積を計算して学習用インターミディエイトアテンションマップを生成させ、前記学習用特徴マップと前記インターミディエイトアテンションマップとの要素ごとの和を計算して前記学習用アテンショナル特徴マップを生成させる、請求項1に記載の方法。
  4. 前記学習装置は、前記学習用候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記学習用候補ボックスをバイナリ化した後、前記学習用特徴マップのサイズにリサイズして前記学習用バイナリマップを生成させる、請求項1に記載の方法。
  5. アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストする方法において、
    (a)学習装置により、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させ、前記学習用アテンショナル特徴マップをRPN(region proposal network)に入力することで前記RPNをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させ、前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、前記学習用候補ボックスとRPN原本正解とを参照して生成されたRPNロスを利用して前記RPNを学習させるプロセス、及び前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行した状態で、テスト映像が獲得されると、テスト装置が、前記テスト映像における現在のフレームに対応する現在のイメージを前記特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記現在のイメージを少なくとも一回コンボリューション演算して現在の特徴マップを出力させ、前記現在の特徴マップをメモリに格納する段階;
    (b)前記テスト装置が、前記メモリに格納された前記テスト映像における以前のフレームに対応する以前のイメージの以前の特徴マップと、前記現在の特徴マップとを前記アテンションネットワークに入力することで前記アテンションネットワークをもって前記以前の特徴マップに対応する現在-以前のソフト予測マップ、前記現在の特徴マップに対応する現在のソフト予測マップ及び現在の予測マップ、及び前記現在の特徴マップの現在の物体の密度に対応する現在のアテンションマップを出力させ、前記現在のソフト予測マップを前記メモリに格納し、前記現在の特徴マップと前記現在のアテンションマップとを前記コンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記現在の特徴マップと前記現在のアテンションマップとをコンカチネートして現在のアテンショナル特徴マップを出力させ、前記現在のアテンショナル特徴マップを前記RPN(region proposal network)に入力することで前記RPNをもって前記現在のアテンショナル特徴マップ上の現在の物体に対応する現在の候補ボックスを出力させ、前記現在のアテンショナル特徴マップと前記現在の候補ボックスとを前記ROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記現在のアテンショナル特徴マップ上で前記現在の候補ボックスのそれぞれに対応する領域をプーリングして現在のプーリング済み特徴マップを生成させ、前記現在のプーリング済み特徴マップを前記検出ネットワークに入力することで前記検出ネットワークをもって前記現在のプーリング済み特徴マップをラーニング演算して前記現在の候補ボックスのそれぞれに対応する現在の物体検出情報を生成させる段階;及び
    (c)前記テスト装置が、前記現在の予測マップと前記現在の候補ボックスとをバイナリ化した現在のバイナリマップを参照して生成された現在のクロスエントロピーロスと、前記メモリに格納された前記テスト映像における前記以前のフレームに対応する前記以前のイメージの以前のソフト予測マップ及び前記現在-以前のソフト予測マップを参照して生成された蒸留ロスとを利用して前記アテンションネットワークを学習させる段階;
    を含む方法。
  6. 前記(b)段階で、
    前記テスト装置は、前記アテンションネットワークをもって、前記以前の特徴マップと前記現在の特徴マップとのそれぞれを少なくとも一回コンボリューション演算して以前の第1サブ特徴マップと現在の第1サブ特徴マップとをそれぞれ生成させ、前記以前の第1サブ特徴マップと前記現在の第1サブ特徴マップとのそれぞれを1x1コンボリューション演算して前記現在の特徴マップと同一の個数のチャンネルを有する以前の第2特徴マップと現在の第2サブ特徴マップとをそれぞれ生成させ、前記現在の第2サブ特徴マップにシグモイド関数を適用して前記現在のアテンションマップを生成させ、前記以前の第2サブ特徴マップと現在の第2サブ特徴マップとのそれぞれにReLU関数を適用した後、1x1コンボリューション演算して1個のチャンネルを有する以前の第3サブ特徴マップと現在の第3サブ特徴マップとをそれぞれ生成させ、前記現在の第3サブ特徴マップにシグモイド関数を適用して前記現在の予測マップを生成させ、前記以前の第3サブ特徴マップと前記現在の第3サブ特徴マップとのそれぞれにソフトシグモイド関数を適用して前記現在-以前のソフト特徴マップと前記現在のソフト予測マップとを生成させる、請求項5に記載の方法。
  7. 前記ソフトシグモイド関数は、入力値を予め設定されたハイパーパラメータで割った値を前記シグモイド関数に入力するアクティベーション関数である、請求項6に記載の方法。
  8. 前記(b)段階で、
    前記テスト装置は、前記コンカチネーションレイヤをもって、前記現在の特徴マップと前記現在のアテンションマップとの要素ごとの積を計算して現在のインターミディエイトアテンションマップを生成させ、前記現在の特徴マップと前記現在のインターミディエイトアテンションマップとの要素ごとの和を計算して前記現在のアテンショナル特徴マップを生成させる、請求項5に記載の方法。
  9. 前記テスト装置は、前記現在の候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記現在の候補ボックスをバイナリ化した後、前記現在の特徴マップのサイズにリサイズして前記現在のバイナリマップを生成させる、請求項5に記載の方法。
  10. アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる学習装置において、
    インストラクションを格納する一つ以上のメモリ;及び
    前記インストラクションを遂行するように設定された一つ以上のプロセッサを含み、
    (I)前記プロセッサが、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させるプロセス;(II)前記プロセッサが、前記学習用アテンショナル特徴マップをRPN(region proposal network)に入力することで前記RPNをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させるプロセス;及び(III)前記プロセッサが、(i)前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、(ii)前記学習用候補ボックスとRPN原本正解とを参照して生成されたRPNロスを利用して前記RPNを学習させるプロセス、及び(iii)前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行するプロセスを遂行する、学習装置。
  11. 前記(I)プロセスで、
    前記プロセッサが、前記アテンションネットワークをもって、前記学習用特徴マップを少なくとも一回コンボリューション演算して学習用第1サブ特徴マップを生成させ、前記学習用第1サブ特徴マップを1x1コンボリューション演算して前記学習用特徴マップと同一のチャンネルを有する学習用第2サブ特徴マップを生成させ、前記学習用第2サブ特徴マップにシグモイド関数を適用して前記学習用アテンションマップを生成させ、前記学習用第2サブ特徴マップにReLU関数を適用した後、1x1コンボリューション演算して1個のチャンネルを有する学習用第3サブ特徴マップを生成させ、前記学習用第3サブ特徴マップにシグモイド関数を適用して前記学習用予測マップを生成させる、請求項10に記載の学習装置。
  12. 前記(I)プロセスで、
    前記プロセッサが、前記コンカチネーションレイヤをもって、前記学習用特徴マップと前記学習用アテンションマップとの要素ごとの積を計算して学習用インターミディエイトアテンションマップを生成させ、前記学習用特徴マップと前記インターミディエイトアテンションマップとの要素ごとの和を計算して前記学習用アテンショナル特徴マップを生成させる、請求項10に記載の学習装置。
  13. 前記プロセッサが、前記学習用候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記学習用候補ボックスをバイナリ化した後、前記学習用特徴マップのサイズにリサイズして前記学習用バイナリマップを生成させる、請求項10に記載の学習装置。
  14. アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストするテスト装置において、
    インストラクションを格納する一つ以上のメモリ;及び
    前記インストラクションを遂行するように設定された一つ以上のプロセッサを含み、
    (I)学習装置により、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させ、前記学習用アテンショナル特徴マップをRPN(region proposal network)に入力することで前記RPNをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させ、前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、前記学習用候補ボックスとRPN原本正解とを参照して生成されたRPNロスを利用して前記RPNを学習させるプロセス、及び前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行した状態で、テスト映像が獲得されると、前記プロセッサが、前記テスト映像における現在のフレームに対応する現在のイメージを前記特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記現在のイメージを少なくとも一回コンボリューション演算して現在の特徴マップを出力させ、前記現在の特徴マップをメモリに格納するプロセス;(II)前記プロセッサが、前記メモリに格納された前記テスト映像における以前のフレームに対応する以前のイメージの以前の特徴マップと、前記現在の特徴マップとを前記アテンションネットワークに入力することで前記アテンションネットワークをもって前記以前の特徴マップに対応する現在-以前のソフト予測マップ、前記現在の特徴マップに対応する現在のソフト予測マップ及び現在の予測マップ、及び前記現在の特徴マップの現在の物体の密度に対応する現在のアテンションマップを出力させ、前記現在のソフト予測マップを前記メモリに格納し、前記現在の特徴マップと前記現在のアテンションマップとを前記コンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記現在の特徴マップと前記現在のアテンションマップとをコンカチネートして現在のアテンショナル特徴マップを出力させ、前記現在のアテンショナル特徴マップを前記RPN(region proposal network)に入力することで前記RPNをもって前記現在のアテンショナル特徴マップ上の現在の物体に対応する現在の候補ボックスを出力させ、前記現在のアテンショナル特徴マップと前記現在の候補ボックスとを前記ROI(region of interest)プーリングレイヤに入力することで前記ROIプーリングレイヤをもって前記現在のアテンショナル特徴マップ上で前記現在の候補ボックスのそれぞれに対応する領域をプーリングして現在のプーリング済み特徴マップを生成させ、前記現在のプーリング済み特徴マップを前記検出ネットワークに入力することで前記検出ネットワークをもって前記現在のプーリング済み特徴マップをラーニング演算して前記現在の候補ボックスのそれぞれに対応する現在の物体検出情報を生成させるプロセス;及び(III)前記プロセッサが、前記現在の予測マップと前記現在の候補ボックスとをバイナリ化した現在のバイナリマップを参照して生成された現在のクロスエントロピーロスと、前記メモリに格納された前記テスト映像における前記以前のフレームに対応する前記以前のイメージの以前のソフト予測マップ及び前記現在-以前のソフト予測マップを参照して生成された蒸留ロスと、を利用して前記アテンションネットワークを学習させるプロセスを遂行するテスト装置。
  15. 前記(II)プロセスで、前記プロセッサが、前記アテンションネットワークをもって、前記以前の特徴マップと前記現在の特徴マップとのそれぞれを少なくとも一回コンボリューション演算して以前の第1サブ特徴マップと現在の第1サブ特徴マップとをそれぞれ生成させ、前記以前の第1サブ特徴マップと前記現在の第1サブ特徴マップとのそれぞれを1x1コンボリューション演算して前記現在の特徴マップと同一の個数のチャンネルを有する以前の第2特徴マップと現在の第2サブ特徴マップとをそれぞれ生成させ、前記現在の第2サブ特徴マップにシグモイド関数を適用して前記現在のアテンションマップを生成させ、前記以前の第2サブ特徴マップと現在の第2サブ特徴マップとのそれぞれにReLU関数を適用した後、1x1コンボリューション演算して1個のチャンネルを有する以前の第3サブ特徴マップと現在の第3サブ特徴マップとをそれぞれ生成させ、前記現在の第3サブ特徴マップにシグモイド関数を適用して前記現在の予測マップを生成させ、前記以前の第3サブ特徴マップと前記現在の第3サブ特徴マップとのそれぞれにソフトシグモイド関数を適用して前記現在-以前のソフト特徴マップと前記現在のソフト予測マップとを生成させる、請求項14に記載のテスト装置。
  16. 前記ソフトシグモイド関数は、入力値を予め設定されたハイパーパラメータで割った値を前記シグモイド関数に入力するアクティベーション関数である、請求項15に記載のテスト装置。
  17. 前記(II)プロセスで、
    前記プロセッサが、前記コンカチネーションレイヤをもって、前記現在の特徴マップと前記現在のアテンションマップとの要素ごとの積を計算して現在のインターミディエイトアテンションマップを生成させ、前記現在の特徴マップと前記現在のインターミディエイトアテンションマップとの要素ごとの和を計算して前記現在のアテンショナル特徴マップを生成させる、請求項14に記載のテスト装置。
  18. 前記プロセッサが、前記現在の候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記現在の候補ボックスをバイナリ化した後、前記現在の特徴マップのサイズにリサイズして前記現在のバイナリマップを生成させる、請求項14に記載のテスト装置。
JP2021570541A 2020-05-13 2020-12-24 アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習及びテストする方法及び装置 Active JP7233571B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063024018P 2020-05-13 2020-05-13
US63/024,018 2020-05-13
US17/112,413 US10970598B1 (en) 2020-05-13 2020-12-04 Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
US17/112,413 2020-12-04
PCT/KR2020/019160 WO2021230457A1 (en) 2020-05-13 2020-12-24 Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
JP2022539659A true JP2022539659A (ja) 2022-09-13
JP7233571B2 JP7233571B2 (ja) 2023-03-06

Family

ID=75275483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021570541A Active JP7233571B2 (ja) 2020-05-13 2020-12-24 アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習及びテストする方法及び装置

Country Status (6)

Country Link
US (1) US10970598B1 (ja)
EP (1) EP3910532B1 (ja)
JP (1) JP7233571B2 (ja)
KR (1) KR20210143948A (ja)
CN (1) CN115769229A (ja)
WO (1) WO2021230457A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598840B (zh) * 2018-06-13 2023-04-18 富士通株式会社 知识迁移方法、信息处理设备以及存储介质
CN113379674B (zh) * 2021-04-28 2022-05-13 北京医准智能科技有限公司 一种医学图像的检测方法及装置
CN113592007B (zh) * 2021-08-05 2022-05-31 哈尔滨理工大学 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质
US11983240B2 (en) * 2021-11-16 2024-05-14 Huawei Technologies Co., Ltd. Meta few-shot class incremental learning
US11954837B2 (en) * 2021-12-08 2024-04-09 Black Sesame Technologies Inc. Image enhancement system based on nonlocal features
US11869212B1 (en) * 2023-02-07 2024-01-09 Deeping Source Inc. Method for training video object detection model using training dataset and learning device using the same

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019067405A (ja) * 2017-10-04 2019-04-25 株式会社ストラドビジョン 自動車のブラインドスポットモニタリング方法及びこれを利用したブラインドスポットモニタ{method for monotoring blind spot of vehicle and blind spot monitor using the same}
CN110059672A (zh) * 2019-04-30 2019-07-26 福州大学 一种利用增量学习对显微镜细胞图像检测模型进行增类学习的方法
JP2019192207A (ja) * 2018-04-25 2019-10-31 富士通株式会社 アプリケーションプログラム生成のための深層ニューラルネットワーク訓練

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202144B2 (en) * 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
KR102463175B1 (ko) * 2017-09-04 2022-11-04 삼성전자주식회사 객체 인식 방법 및 장치
CN107861938B (zh) * 2017-09-21 2020-09-25 北京三快在线科技有限公司 一种poi文案生成方法及装置,电子设备
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images
US10755099B2 (en) * 2018-11-13 2020-08-25 Adobe Inc. Object detection in images
US10395140B1 (en) * 2019-01-23 2019-08-27 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×1 convolution to be used for hardware optimization, and testing method and testing device using the same
US10410120B1 (en) * 2019-01-25 2019-09-10 StradVision, Inc. Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
CN110751212B (zh) * 2019-10-21 2023-08-22 南京大学 一种移动设备上高效的细粒度图像识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019067405A (ja) * 2017-10-04 2019-04-25 株式会社ストラドビジョン 自動車のブラインドスポットモニタリング方法及びこれを利用したブラインドスポットモニタ{method for monotoring blind spot of vehicle and blind spot monitor using the same}
JP2019192207A (ja) * 2018-04-25 2019-10-31 富士通株式会社 アプリケーションプログラム生成のための深層ニューラルネットワーク訓練
CN110059672A (zh) * 2019-04-30 2019-07-26 福州大学 一种利用增量学习对显微镜细胞图像检测模型进行增类学习的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GIACOMO SPIGLER: "Meta-Iearnt priors slow down catastrophic forgetting in neural networks", ARXIV, vol. 1909.04170v2, JPN6023004711, 9 February 2020 (2020-02-09), ISSN: 0004991647 *

Also Published As

Publication number Publication date
EP3910532C0 (en) 2023-11-08
EP3910532B1 (en) 2023-11-08
US10970598B1 (en) 2021-04-06
WO2021230457A1 (en) 2021-11-18
JP7233571B2 (ja) 2023-03-06
EP3910532A1 (en) 2021-11-17
CN115769229A (zh) 2023-03-07
KR20210143948A (ko) 2021-11-29

Similar Documents

Publication Publication Date Title
JP7233571B2 (ja) アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習及びテストする方法及び装置
Kong et al. Sound event detection of weakly labelled data with cnn-transformer and automatic threshold optimization
EP3690742A1 (en) Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same
CN109117848B (zh) 一种文本行字符识别方法、装置、介质和电子设备
JP6351689B2 (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
WO2021218899A1 (zh) 人脸识别模型训练方法、人脸识别方法及装置
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN104200237A (zh) 一种基于核化相关滤波高速自动多目标跟踪方法
US20180260735A1 (en) Training a hidden markov model
JP6833620B2 (ja) 画像解析装置、ニューラルネットワーク装置、学習装置、画像解析方法およびプログラム
CN111488873B (zh) 一种基于弱监督学习的字符级场景文字检测方法和装置
CN111008576B (zh) 行人检测及其模型训练、更新方法、设备及可读存储介质
CN116311214B (zh) 车牌识别方法和装置
CN112348028A (zh) 一种场景文本检测方法、批改方法、装置、电子设备及介质
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
JP2022539498A (ja) エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法及び装置
KR20220122455A (ko) 영상 데이터에 포함된 객체 분할 방법 및 이를 수행하는 장치
US20220207866A1 (en) Method, device, and computer readable storage medium for image processing
Niu et al. Boundary-aware RGBD salient object detection with cross-modal feature sampling
US10282595B2 (en) Facial recognition encode analysis
CN117671800A (zh) 面向遮挡的人体姿态估计方法、装置及电子设备
JP2022035033A (ja) 情報処理システム、情報処理方法、プログラムおよび車両制御システム
US11587345B2 (en) Image identification device, method for performing semantic segmentation, and storage medium
Inbaraj et al. Mask-GradCAM: object identification and localization of visual presentation for deep convolutional network
EP3557476B1 (en) Device for determining a caption for an unknown traffic sign

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230221

R150 Certificate of patent or registration of utility model

Ref document number: 7233571

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150