JP6875021B2 - 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 - Google Patents

有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 Download PDF

Info

Publication number
JP6875021B2
JP6875021B2 JP2019185244A JP2019185244A JP6875021B2 JP 6875021 B2 JP6875021 B2 JP 6875021B2 JP 2019185244 A JP2019185244 A JP 2019185244A JP 2019185244 A JP2019185244 A JP 2019185244A JP 6875021 B2 JP6875021 B2 JP 6875021B2
Authority
JP
Japan
Prior art keywords
feature map
learning
cnn module
loss
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019185244A
Other languages
English (en)
Other versions
JP2020068028A (ja
Inventor
ゲヒョン キム
ゲヒョン キム
ヨンジュン キム
ヨンジュン キム
インス キム
インス キム
ハクギョン キム
ハクギョン キム
ウンヒョン ナム
ウンヒョン ナム
ソクフン ブ
ソクフン ブ
ミョンチョル ソン
ミョンチョル ソン
ドンフン ヨ
ドンフン ヨ
ウジュ リュ
ウジュ リュ
テウン ジャン
テウン ジャン
ギョンジュン ジョン
ギョンジュン ジョン
ホンモ ジェ
ホンモ ジェ
ホジン ジョ
ホジン ジョ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020068028A publication Critical patent/JP2020068028A/ja
Application granted granted Critical
Publication of JP6875021B2 publication Critical patent/JP6875021B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は、有用な学習データを取捨選別するためのCNN基盤の学習方法に関し;より詳しくは、前記有用な学習データを取捨選別するための前記CNN基盤の学習方法において、(a)学習装置が、少なくとも一つの入力イメージが獲得されれば、(i)前記入力イメージ内の特定の物体の識別情報や位置情報を獲得するための第1CNNモジュールをもって、前記入力イメージに対して少なくとも一度コンボリューション演算を適用するようにして第1特徴マップを生成するプロセス、及び(ii)前記第1CNNモジュールの学習プロセスに利用される有用な学習データを自動選別(Auto−Screening)し得る第2CNNモジュールをもって前記入力イメージに対して少なくとも一度コンボリューション演算を適用するようにして第2特徴マップを生成するプロセスを遂行する段階;(b)前記学習装置が、前記第1CNNモジュールをもって前記第1特徴マップを利用して前記特定の物体の前記識別情報や前記位置情報を示す第1出力を生成するようにし、前記第1出力とこれに該当する原本正解イメージとを参照して第1ロスを算出するようにする段階;(c)前記学習装置が、前記第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記第1特徴マップと前記第2特徴マップの大きさを同一に変更した後、前記第1特徴マップと前記第2特徴マップとを統合して、第3特徴マップを生成する段階;(d)前記学習装置が、前記第2CNNモジュールをもって、前記第3特徴マップに少なくとも一度コンボリューション演算を適用して第4特徴マップを生成し、前記第4特徴マップを利用して前記第1ロスの予測値に該当する第2ロスを算出するようにする段階;(e)前記学習装置が、前記第1ロスと前記第2ロスとを参照して自動選別機のロス(Auto−Screener’s Loss)を算出する段階;及び(f)前記学習装置が、前記自動選別機のロスを利用してバックプロパゲーション(Backpropagation)を随行し、前記第2CNNモジュールの少なくとも一つのパラメータを最適化する段階;を含むことを特徴とする方法、学習装置とこれを利用した方法とテスト装置に関する。
ディープラーニング(Deep Learning)は、モノやデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけで犬と猫を区別することができない。しかし、人はとても簡単に区別できる。このため「機械学習(Machine Learning)」という方法が考案された。多くのデータをコンピュータに入力し、類似したものを分類するようにする技術である。保存されている犬の写真と似たような写真が入力されると、これを犬の写真だとコンピュータが分類するようにしたのである。
データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「決定木」や「ベイジアンネットワーク」「サポートベクターマシン(SVM)」「人工神経網」などが代表的である。このうち、ディープラーニングは人工神経網の後裔である。
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;DeepCNN)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNは、文字の認識問題を解くために90年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげである。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習分野で非常に有用なツールとなった。
図1は従来技術でディープCNNを利用し、写真から獲得しようとする多様な出力の例を示す。
分類(Classification)は、写真から識別しようとするクラス(Class)の種類、例えば、図1に示されているように、獲得された物体が人か、羊か、犬かを識別する検出方法であり、検出(Detection)はすべての物体を探し、探した物体をバウンディングボックス(Bounding Box)に囲まれた形態で表示する方法であり、セグメンテーション(Segmentation)は、写真で特定の物体の領域を他の物体と区分する方法である。最近、ディープラーニング(Deep learning)技術が脚光を浴び、分類、検出、セグメンテーションもディープラーニングを多く利用する傾向にある。
図2はCNNを利用した検出方法を簡略的に示した図面である。
図2を参照すれば、学習装置は、入力イメージの入力を受けて、複数のコンボリューションフィルタ(またはコンボリューションレイヤ)によって入力イメージにコンボリューション演算を数回適用し、少なくとも一つの特徴マップを生成する。次に、学習装置は、特徴マップを検出レイヤ(detection layer)に通過させ、少なくとも一つのバウンディングボックスを生成させた後、バウンディングボックスをフィルタリングレイヤ(filtering layer)に通過させて最終検出結果を生成する。その後、検出結果とそれに対応する原本正解(Ground Truth)値とを参照し、獲得されたロス値を利用してバックプロパゲーション(backpropagation)を遂行するものの、これに対応する原本正解値は、事前に人がアノテーションを付けた値で、検出器(学習装置)をもって検出結果値が原本正解値にますます近付くように学習される。
この際、学習された検出器の性能は、学習用データベースの大きさにある程度比例し得る。
一方で、従来の技術によって、学習用イメージデータベースを作成する際には、図3に示したように、イメージデータベース内のトレーニングイメージ各々に人が一つ一つ原本正解ボックスを描いたり、クラスに対するアノテーションを付けて原本正解イメージを生成する。
しかし、学習用イメージデータベースに含まれるトレーニングイメージの個数が学習装置(例えば、前記検出器)の性能と正比例しない問題点が存在する。なぜなら、検出器が正確に検出する確率の低い物体を少なくとも一つ含むトレーニングイメージが多い場合にのみ学習プロセスが効果的に行われるからである。一般的に、学習プロセス中に検出器の性能が良くなればなるほど、追加的にトレーニングイメージを用いて検出器の性能を改善することが難しくなる。
例えば、検出器の性能が学習プロセスによって95%になったとしたら、学習用イメージデータベースに1万枚のイメージがある場合、検出器の性能改善に寄与する有用なイメージはたったの5%で、1万枚のイメージのうち500枚だけである。これに学習用データベース内のトレーニングイメージの数を10倍に増やす場合、9万枚のイメージに対して人が一つ一つ原本正解イメージを手作業で生成しなければならないため、かなりのデータベース構築費用がかかるが、検出器の性能を向上させるのに有用なデータはたったの4,500枚増加するだけである。また、有用なイメージ4,500枚を利用する学習プロセスによって検出器の性能が98%まで上がると、検出器の性能を向上させるために必要なデータベース構築費用はさらに大きくなる。この場合、有用なイメージ4,500枚を追加で確保するためには、原本正解イメージは200万枚以上準備しなければならない。
本発明は、前述した問題点を全て解決することを目的とする。
また、本発明は、CNN基盤学習装置の弱点を分析し、前記学習装置の性能向上に必要な適切な学習データを自動的に選択できる方法を提供することを他の目的とする。
また、本発明は、前記学習装置の性能向上に利用される学習用データベースの構築費用を削減することをまた他の目的とする。
本発明の一態様によれば、有用な学習データを取捨選別するためのCNN基盤の学習方法において、(a)学習装置が、少なくとも一つの入力イメージが獲得されれば、(i)前記入力イメージ内の特定の物体の識別情報や位置情報を獲得するための第1CNNモジュールをもって、前記入力イメージに対して少なくとも一度コンボリューション演算を適用するようにして第1特徴マップを生成するプロセス、及び(ii)前記第1CNNモジュールの学習プロセスに利用される有用な学習データを自動選別(Auto−Screening)し得る第2CNNモジュールをもって前記入力イメージに対して少なくとも一度コンボリューション演算を適用するようにして第2特徴マップを生成するプロセスを遂行する段階;(b)前記学習装置が、前記第1CNNモジュールをもって、前記第1特徴マップを利用して前記特定の物体の前記識別情報や前記位置情報を示す第1出力を生成するようにし、前記第1出力とこれに該当する原本正解イメージとを参照して第1ロスを算出するようにする段階;(c)前記学習装置が、前記第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記第1特徴マップと前記第2特徴マップの大きさを同一に変更した後、前記第1特徴マップと前記第2特徴マップとを統合して、第3特徴マップを生成する段階;(d)前記学習装置が、前記第2CNNモジュールをもって、前記第3特徴マップに少なくとも一度コンボリューション演算を適用して第4特徴マップを生成し、前記第4特徴マップを利用して前記第1ロスの予測値に該当する第2ロスを算出するようにする段階;(e)前記学習装置が、前記第1ロスと前記第2ロスとを参照して自動選別機のロス(Auto−Screener’s Loss)を算出する段階;及び(f)前記学習装置が、前記自動選別機のロスを利用してバックプロパゲーション(Backpropagation)を随行し、前記第2CNNモジュールの少なくとも一つのパラメータを最適化する段階;を含むことを特徴とする。
一例として、前記(f)段階で、前記学習装置が、前記第1ロスを利用してバックプロパゲーションを遂行して前記第1CNNモジュールの少なくとも一つのパラメータを最適化することを特徴とする。
一例として、前記第1CNNモジュールは、前記特定の物体の大きさや位置を検出するための物体検出システム(Object Detection System)、前記特定の物体の種類を識別するための分類システム(Classification System)及び前記特定の物体の領域を他の領域と区分するためのセグメンテーションシステム(Segmentation System)のいずれかに含まれ、前記第2CNNモジュールは少なくとも一つの特定の入力イメージを自動的に選別するための自動選別システム(Auto−Screening System)に含まれるものの、前記特定の入力イメージは、前記第1CNNモジュールに入力される複数の入力イメージの中に含まれ、前記特定の入力のイメージに対応して正確に検出される確率の低い特定の物体各々を含み、前記第1出力は、前記物体検出システムの出力、前記分類システムの出力及び前記セグメンテーションシステムの出力の一つを示し、確率が所定の閾値未満であるか否かに対する情報を参照して前記正確に検出される確率が低いかどうかが決定されることを特徴とする。
一例として、前記第2特徴マップの大きさは、前記第1特徴マップよりも大きく、前記(c)段階で、前記学習装置は前記第2CNNモジュールをもって、前記第1特徴マップの大きさを前記第2特徴マップの大きさに合うように大きくすることを特徴とする。
一例として、前記(c)段階で、前記学習装置は、前記第2CNNモジュールをもって、前記第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記第1特徴マップの大きさを前記第2特徴マップの大きさと同じように変更させることを特徴とする。
一例として、前記(c)段階で、前記学習装置は、前記第2CNNモジュールをもって、前記第1特徴マップと前記第2特徴マップとをコンカチネートして、前記第3特徴マップを生成するようにすることを特徴とする。
一例として、前記(d)段階で、前記学習装置は、前記第2CNNモジュールをもって、前記第4特徴マップがプーリングレイヤ(Pooling Layer)及びFCレイヤ(Fully−Connected Layer)のうち少なくとも一つを通過させて前記第2ロスを算出することを特徴とする。
一例として、前記プーリングレイヤは前記第4特徴マップの高さ及び幅を1にすることを特徴とする。
一例として、前記(f)段階で、前記学習装置は、前記自動選別機のロスを最小化する方向でバックプロパゲーションを遂行することを特徴とする。
本発明の他の態様によれば、CNN基盤で有用な学習データを取捨選別するための方法において、(a)(I)学習装置が、(i)トレーニングイメージ内の特定の物体の識別情報や位置情報を獲得するための第1CNNモジュールをもって、前記トレーニングイメージに対して少なくとも一度コンボリューション演算を適用するようにして学習用第1特徴マップを生成し、(ii)前記第1CNNモジュールの学習プロセスに利用される有用な学習データを自動選別(Auto−Screening)するための第2CNNモジュールをもって、前記トレーニングイメージに対して少なくとも一度コンボリューション演算を適用するようにして学習用第2特徴マップを生成するプロセス、(II)前記学習装置が、前記第1CNNモジュールをもって前記学習用第1特徴マップを利用して前記特定の物体の前記識別情報や前記位置情報を示す学習用第1出力を生成するようにし、前記学習用第1出力とこれに対応する原本正解イメージとを参照して第1ロスを算出するようにするプロセス、(III)前記学習装置が、前記学習用第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記学習用第1特徴マップと前記学習用第2特徴マップの大きさを同一に変更した後、前記学習用第1特徴マップと前記学習用第2特徴マップとを統合して、学習用第3特徴マップを生成するプロセス、(IV)前記学習装置が、前記第2CNNモジュールをもって、前記学習用第3特徴マップに少なくとも一度コンボリューション演算を適用して学習用第4特徴マップを生成し、前記学習用第4特徴マップを利用して前記第1ロスの予測値に該当する第2ロスを算出するようにするプロセス、(V)前記学習装置が、前記第1ロスと前記第2ロスとを参照して自動選別機のロス(Auto−Screener’s Loss)を算出するプロセス、及び(VI)前記学習装置が、前記自動選別機のロスを利用してバックプロパゲーション(Backpropagation)を随行し、前記第2CNNモジュールの少なくとも一つのパラメータを最適化するプロセスを遂行した状態で、テスト装置が、各々のイメージ候補を各々のテストイメージとして獲得する段階;(b)前記テスト装置が、(i)前記第1CNNモジュールをもって、前記テストイメージに対してコンボリューション演算を少なくとも一度適用するようにして、テスト用第1特徴マップを生成するプロセス、及び(ii)前記第2CNNモジュールをもって、前記テストイメージに対して少なくとも一度コンボリューション演算を適用するようにしてテスト用第2特徴マップを生成するプロセスを遂行する段階;(c)前記テスト装置が、前記テスト用第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記テスト用第1特徴マップと前記テスト用第2特徴マップの大きさを同一に変更した後、前記テスト用第1特徴マップと前記テスト用第2特徴マップとを統合して、テスト用第3特徴マップを生成する段階;(d)前記テスト装置が、前記第2CNNモジュールをもって、前記テスト用第3特徴マップに少なくとも一度コンボリューション演算を適用してテスト用第4特徴マップを生成し、前記テスト用第4特徴マップを利用して前記ロス予測値を算出するようにする段階;及び(e)前記テスト装置が、前記入力イメージ候補の中から前記ロス予測値が所定の閾値以上の値を有する少なくとも一つのイメージを前記第1CNNモジュールの学習プロセスに利用されるトレーニングイメージとして選別する段階;を含むことを特徴とする。
一例として、前記第1CNNモジュールは、前記特定の物体の大きさや位置を検出するための物体検出システム、前記特定の物体の種類を識別するための分類システム及び前記特定の物体の領域を他の領域と区分するためのセグメンテーションシステムのいずれかに含まれ、前記第2CNNモジュールは、トレーニングイメージを自動的に選別するための自動選別システム(Auto−Screening System)に含まれるものの、前記トレーニングイメージは、前記第1CNNモジュールに入力される複数のトレーニングイメージの中に含まれ、前記特定の物体に対応して正確に検出される確率の低い特定の物体各々を含み、前記学習用第1出力は、前記物体検出システムの出力、前記分類システムの出力及び前記セグメンテーションシステムの出力の一つを示し、確率が所定の閾値未満であるか否かに対する情報を参照して前記正確に検出される確率が低いかどうかが決定されることを特徴とする。
一例として、前記学習用第2特徴マップの大きさは、前記学習用第1特徴マップよりも大きく、前記(III)プロセスで、前記学習装置は、前記第2CNNモジュールをもって、前記学習用第1特徴マップの大きさを前記学習用第2特徴マップの大きさに合うように大きくし、前記テスト用第2特徴マップの大きさは、前記テスト用第1特徴マップよりも大きく、前記(c)段階で、前記テスト装置は、前記第2CNNモジュールをもって、前記テスト用第1特徴マップの大きさを前記テスト用第2特徴マップの大きさに合うように大きくすることを特徴とする。
一例として、前記(III)プロセスで、前記学習装置は、前記第2CNNモジュールをもって、前記学習用第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記学習用第1特徴マップの大きさを前記学習用第2特徴マップの大きさと同じように変更させ、前記(c)段階で、前記テスト装置は、前記第2CNNモジュールをもって、前記テスト用第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記テスト用第1特徴マップの大きさを前記テスト用第2特徴マップの大きさと同じように変更させることを特徴とする。
一例として、前記(III)プロセスで、前記学習装置は、前記第2CNNモジュールをもって、前記学習用第1特徴マップと前記学習用第2特徴マップとをコンカチネートして、前記学習用第3特徴マップを生成するようにし、前記(c)段階で、前記テスト習装置は、前記第2CNNモジュールをもって、前記テスト用第1特徴マップと前記テスト用第2特徴マップとをコンカチネートして、前記テスト第3特徴マップを生成するようにすることを特徴とする。
一例として、前記(IV)プロセスで、前記学習装置は、前記第2CNNモジュールをもって、前記学習用第4特徴マップがプーリングレイヤ及びFCレイヤのうち少なくとも一つを通過させて前記第2ロスを算出し、前記(d)段階で、前記テスト装置は、前記第2CNNモジュールをもって、前記テスト用第4特徴マップがプーリングレイヤ及びFCレイヤのうち少なくとも一つを通過させて前記ロス予測値を算出することを特徴とする。
本発明のまた他の態様によれば、有用な学習データを取捨選別するためのCNN基盤の学習装置において、少なくとも一つの入力イメージを獲得するための通信部;及び(I)(I−1)前記入力イメージ内の特定の物体の識別情報や位置情報を獲得するための第1CNNモジュールをもって、前記入力イメージに対して少なくとも一度コンボリューション演算を適用するようにして第1特徴マップを生成し、(I−2)前記第1CNNモジュールの学習プロセスに利用される有用な学習データを自動選別(Auto−Screening)するための第2CNNモジュールをもって前記入力イメージに対して少なくとも一度コンボリューション演算を遂行するようにして第2特徴マップを生成するプロセス、(II)前記第1CNNモジュールをもって、前記第1特徴マップを利用して前記特定の物体の前記識別情報や前記位置情報を示す第1出力を生成するようにし、前記第1出力とこれに該当する原本正解イメージとを参照して第1ロスを算出するようにするプロセス、(III)前記第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記第1特徴マップと前記第2特徴マップの大きさを同一に変更した後、前記第1特徴マップと前記第2特徴マップとを統合して、第3特徴マップを生成するプロセス、(IV)前記第2CNNモジュールをもって、前記第3特徴マップに少なくとも一度コンボリューション演算を適用して第4特徴マップを生成し、前記第4特徴マップを利用して前記第1ロスの予測値に該当する第2ロスを算出するようにするプロセス、(V)前記第1ロスと前記第2ロスとを参照して自動選別機のロス(Auto−Screener’s Loss)を算出するプロセス、及び(VI)前記自動選別機のロスを利用してバックプロパゲーション(Backpropagation)を随行し、前記第2CNNモジュールの少なくとも一つのパラメータを最適化するプロセスを遂行するプロセッサ;を含むことを特徴とする。
一例として、前記(VI)プロセスで、前記プロセッサが、前記第1ロスを利用してバックプロパゲーションを遂行して前記第1CNNモジュールの少なくとも一つのパラメータを最適化するプロセスを遂行することを特徴とする。
一例として、前記第1CNNモジュールは、前記特定の物体の大きさや位置を検出するための物体検出システム(Object Detection System)、前記特定の物体の種類を識別するための分類システム(Classification System)及び前記特定の物体の領域を他の領域と区分するためのセグメンテーションシステム(Segmentation System)のいずれかに含まれ、前記第2CNNモジュールは少なくとも一つの特定の入力イメージを自動的に選別するための自動選別システム(Auto−Screening System)に含まれるものの、前記特定の入力イメージは、前記第1CNNモジュールに入力される複数の入力イメージの中に含まれ、前記特定の入力のイメージに対応して正確に検出される確率が低い特定の物体各々を含み、前記第1出力は、前記物体検出システムの出力、前記分類システムの出力及び前記セグメンテーションシステムの出力の一つを示し、確率が所定の閾値未満であるか否かに対する情報を参照して前記正確に検出される確率が低いかどうかが決定されることを特徴とする。
一例として、前記第2特徴マップの大きさは、前記第1特徴マップよりも大きく、前記(III)プロセスで、前記学習装置は前記第2CNNモジュールをもって、前記第1特徴マップの大きさを前記第2特徴マップの大きさに合うように大きくすることを特徴とする。
一例として、前記(III)プロセスで、前記プロセッサは、前記第2CNNモジュールをもって、前記第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記第1特徴マップの大きさを前記第2特徴マップの大きさと同じように変更させることを特徴とする。
一例として、前記(III)プロセスで、前記プロセッサは、前記第2CNNモジュールをもって、前記第1特徴マップと前記第2特徴マップとをコンカチネートして、前記第3特徴マップを生成するようにすることを特徴とする。
一例として、前記(IV)プロセスで、前記プロセッサは、前記第2CNNモジュールをもって、前記第4特徴マップがプーリングレイヤ(Pooling Layer)及びFCレイヤ(Fully−Connected Layer)のうち少なくとも一つを通過させて前記第2ロスを算出することを特徴とする。
一例として、前記プーリングレイヤは前記第4特徴マップの高さ及び幅を1にすることを特徴とする。
一例として、前記(IV)プロセスで、前記プロセッサは、前記自動選別機のロスを最小化する方向でバックプロパゲーションを遂行することを特徴とする。
本発明のさらに他の態様によれば、CNN基盤で有用な学習データを取捨選別するためのテスト装置において、(i)学習装置が、(i−1)トレーニングイメージ内の特定の物体の識別情報や位置情報を獲得するための第1CNNモジュールをもって、前記トレーニングイメージに対して少なくとも一度コンボリューション演算を適用するようにして学習用第1特徴マップを生成し、(i−2)前記第1CNNモジュールの学習プロセスに利用される有用な学習データを自動選別(Auto−Screening)するための第2CNNモジュールをもって、前記トレーニングイメージに対して少なくとも一度コンボリューション演算を適用するようにして学習用第2特徴マップを生成するプロセス、及び(ii)前記学習装置が、前記第1CNNモジュールをもって前記学習用第1特徴マップを利用して前記特定の物体の前記識別情報や前記位置情報を示す学習用第1出力を生成するようにし、前記学習用第1出力とこれに対応する原本正解イメージとを参照して第1ロスを算出するようにするプロセス、(iii)前記学習装置が、前記学習用第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記学習用第1特徴マップと前記学習用第2特徴マップの大きさを同一に変更した後、前記学習用第1特徴マップと前記学習用第2特徴マップとを統合して、学習用第3特徴マップを生成するプロセス、(iv)前記学習装置が、前記第2CNNモジュールをもって、前記学習用第3特徴マップに少なくとも一度コンボリューション演算を適用して学習用第4特徴マップを生成し、前記学習用第4特徴マップを利用して前記第1ロスの予測値に該当する第2ロスを算出するようにするプロセス、(v)前記学習装置が、前記第1ロスと前記第2ロスとを参照して自動選別機のロス(Auto−Screener’s Loss)を算出するプロセス、及び(vi)前記学習装置が、前記自動選別機のロスを利用してバックプロパゲーションを随行し、前記第2CNNモジュールの少なくとも一つのパラメータを最適化するプロセスを遂行した状態で、各々のイメージ候補を各々のテストイメージとして獲得するための通信部;及び(I)(I−1)第1CNNモジュールをもって、前記テストイメージに対して少なくとも一度コンボリューション演算を適用するようにして、テスト用第1特徴マップを生成し、(I−2)前記第2CNNモジュールをもって、前記テストイメージに対して少なくとも一度コンボリューション演算を適用するようにしてテスト用第2特徴マップを生成するプロセス;(II)前記テスト用第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記テスト用第1特徴マップと前記テスト用第2特徴マップの大きさを同一に変更した後、前記テスト用第1特徴マップと前記テスト用第2特徴マップとを統合して、テスト用第3特徴マップを生成するプロセス;(III)前記第2CNNモジュールをもって、前記テスト用第3特徴マップに少なくとも一度コンボリューション演算を適用してテスト用第4特徴マップを生成し、前記テスト用第4特徴マップを利用してロス予測値を算出するようにするプロセス;及び(IV)前記入力イメージ候補の中から前記ロス予測値が所定の閾値以上の値を有する少なくとも一つのイメージを前記第1CNNモジュールの学習プロセスに利用されるトレーニングイメージとして選別するプロセスを遂行するプロセッサ;を含むことを特徴とする。
一例として、前記第1CNNモジュールは、前記特定の物体の大きさや位置を検出するための物体検出システム、前記特定の物体の種類を識別するための分類システム及び前記特定の物体の領域を他の領域と区分するためのセグメンテーションシステムのいずれかに含まれ、前記第2CNNモジュールは、トレーニングイメージを自動的に選別するための自動選別システム(Auto−Screening System)に含まれるものの、前記トレーニングイメージは、前記第1CNNモジュールに入力される複数のトレーニングイメージの中に含まれ、前記特定の物体に対応して正確に検出される確率の低い特定の物体各々を含み、前記学習用第1出力は、前記物体検出システムの出力、前記分類システムの出力及び前記セグメンテーションシステムの出力の一つを示し、確率が所定の閾値未満であるか否かに対する情報を参照して前記正確に検出される確率が低いかどうかが決定されることを特徴とする。
一例として、前記学習用第2特徴マップの大きさは、前記学習用第1特徴マップよりも大きく、前記(iii)プロセスで、前記学習装置は前記第2CNNモジュールをもって、前記学習用第1特徴マップの大きさを前記学習用第2特徴マップの大きさに合うように大きくし、前記テスト用第2特徴マップの大きさは、前記テスト用第1特徴マップよりも大きく、前記(II)プロセスで、前記プロセッサは、前記第2CNNモジュールをもって、前記テスト用第1特徴マップの大きさを前記テスト用第2特徴マップの大きさに合うように大きくすることを特徴とする。
一例として、前記(iii)プロセスで、前記学習装置は、前記第2CNNモジュールをもって、前記学習用第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記学習用第1特徴マップの大きさを前記学習用第2特徴マップの大きさと同じように変更させ、前記(II)段階で、前記プロセッサは、前記第2CNNモジュールをもって、前記テスト用第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記テスト用第1特徴マップの大きさを前記テスト用第2特徴マップの大きさと同じように変更させることを特徴とする。
一例として、前記(iii)プロセスで、前記学習装置は、前記第2CNNモジュールをもって、前記学習用第1特徴マップと前記学習用第2特徴マップとをコンカチネートして、前記学習用第3特徴マップを生成するようにし、前記(II)プロセスで、前記プロセッサは、前記第2CNNモジュールをもって、前記テスト用第1特徴マップと前記テスト用第2特徴マップとをコンカチネートして、前記テスト第3特徴マップを生成するようにすることを特徴とする。
一例として、前記(iv)プロセスで、前記学習装置は、前記第2CNNモジュールをもって、前記学習用第4特徴マップがプーリングレイヤ及びFCレイヤのうち少なくとも一つを通過させて前記第2ロスを算出し、前記(c)プロセスで、前記プロセッサは、前記第2CNNモジュールをもって、前記テスト用第4特徴マップがプーリングレイヤ及びFCレイヤのうち少なくとも一つを通過させて前記ロス予測値を算出することを特徴とする。
本発明は、学習装置の弱点を予め予測し、前記弱点を補える有用なトレーニングイメージを選別し得る効果がある。
また、本発明は、少ない費用で効果的で有用な学習用イメージデータベースを構築し得る他の効果がある。
また、本発明は、実際に有用な学習用イメージデータを選別して前記学習装置の性能を容易に向上し得る他の効果がある。
また、本発明は、すでにアノテーションされたデータベースが利用される際、自動選別システム(auto−screening system)が検出器の性能向上に役立たない95%のデータを排除できるので、学習時間と学習費用(電気料金など)を大幅に削減し得る他の効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例の中の一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者(以下「通常の技術者」)は、発明的作業がなされることなくこれらの図面に基づいて他の図面が得られ得る。
図1は、従来の技術による、CNNによってイメージから獲得された多様な出力の例を示す図面である。 図2は、従来の技術によってCNNを利用した検出方法を簡略的に示す図面である。 図3は、従来の技術によって学習用イメージデータベースを構築する方法を簡略的に示す図面である。 図4は、本発明に係る学習データに利用される有用なイメージを選別するための自動選別システム(Auto−Screening System)を学習する方法を示す図面である。 図5は、本発明に係る前記自動選別システムによって実行される具体的な演算過程を示す図面である。 図6は、本発明に係る前記自動選別システムによって学習用イメージデータベースを構築する方法を示す図面である。
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の各技術的特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者に本発明の他の各目的、長所及び各特性が、一部は本明細書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は、実例として提供され、本発明を限定することを意図したものではない。
本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例に係る本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得り、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得り、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。
図4は、本発明に係る有用な学習用イメージを選別するための自動選別システム(Auto−Screening System)を学習する方法を示した図面であり、図5は、本発明に係る前記自動選別システムによって遂行される特定の演算過程を示した図面である。
図4及び図5を参照して、本発明に係る有用な学習データを取捨選別するためのCNN基盤学習方法を説明すると次のとおりである。
前記学習装置400は、入力イメージ内の特定の物体の識別情報や位置情報を獲得するための第1CNNモジュール410及び前記第1CNNモジュール410の学習プロセスに利用される有用な学習データを自動選別(Auto−Screening)するための第2CNNモジュール420を含む。ここで、前記第1CNNモジュール410は、実際のイメージから物体を検出する能力を向上させるための実際の学習対象となるモジュールであり、前記第2CNNモジュール420は、前記第1CNNモジュール410を学習するのに利用される有用なトレーニングイメージを自動的に選別する。前記第2CNNモジュール420は、自動選別システム(auto−screening system)と呼ばれ得る。
本発明の一例で、前記第1CNNモジュール410は、特定の物体の大きさや位置を検出するための物体検出システム(Object Detection System)、前記特定の物体の種類を識別するための分類システム(Classification System)及び前記特定の物体の領域を他の領域と区分するためのセグメンテーションシステム(Segmentation System)のいずれかに含まれる。図4及び図5では、前記物体検出システムを例として挙げた。前記第2CNNモジュール420は、正確に検出される確率が低い少なくとも一つの物体を含む入力イメージを自動で選別するための前記自動検出システムである。確率が所定の閾値未満であるか否かに対する情報を参照にし、入力イメージが正確に検出される確率が低いかどうかが決定される。
つまり、本発明では、前記第1CNNモジュール410の前記学習プロセスを遂行する前に、まず前記第2CNNモジュール420の前記学習プロセスによってすべてのトレーニングイメージ候補の中から前記第1CNNモジュール410の前記学習プロセスに利用される有用なイメージを選別できるように前記第2CNNモジュール420の少なくとも一つのパラメータを最適化する。その後、前記第2CNNモジュール420の前記パラメータが最適化されれば、図6のテスト装置600は、前記最適化された第2CNNモジュール420と前記第1CNNモジュール410とを利用して前記第1CNNモジュール410の前記学習プロセスに利用される有用なデータを選択する。この際、前記トレーニングイメージ候補にはこれに該当する原本正解イメージがない。前記トレーニングイメージ候補の中から前記有用なイメージを選択後、前記第1CNNモジュール410の前記学習プロセスに利用される前記有用なイメージに対してのみ原本正解イメージが生成される。つまり、前記有用なイメージに対してのみ少なくとも1人の人が直接前記原本正解イメージを生成し、学習用イメージデータベースを構築する。すると、前記学習用イメージデータベース内に保存された前記有用なイメージを利用して前記第1CNNモジュール410、つまりCNN検出器の前記学習プロセスが遂行される。
前記学習装置400の前記学習プロセスが遂行されている間、前記第2CNNモジュール420だけの前記学習プロセスを遂行することもでき、前記第2CNNモジュール420と前記第1CNNモジュール410の前記学習プロセスを同時進行することもできる。前記第2CNNモジュール420の前記学習プロセスが完了した後に、(i)前記第1CNNモジュールの前記学習プロセスに利用される有用なイメージが選別され、(ii)前記選別された有用なイメージで前記イメージデータベースが構築され、(iii)前記構築されたイメージデータベースを利用して前記第1CNNモジュールの前記学習プロセスが遂行される。
前記第2CNNモジュール420は、現在前記学習プロセスを遂行する前記第1CNNモジュールの弱点を予測する機能を果たす。つまり、前記第2CNNモジュール420は、前記原本正解イメージ生成作業をしていない前記トレーニングイメージ候補の中から前記第1CNNモジュール410の前記弱点を補うのに適した写真を予測する機能を果たす。例えば、前記検出器(前記第1CNNモジュール410)の性能が95%で、前記原本正解イメージ生成作業がされていない写真が9万枚あれば、前記第2CNNモジュール420の性能(前記第2CNNモジュール420が、前記トレーニングイメージ候補各々が有用なイメージであるかを正しく判断する確率)が50%程度だとしても、9,000枚に対してアノテーション作業(原本正解イメージ生成作業)をして、前記学習用イメージデータベースが構築されれば、前記9,000枚の写真の中から4,500枚は前記第1CNNモジュール410の前記学習プロセスに利用される前記有用なイメージになる。つまり、この場合、従来の方法で前記有用な写真4,500枚を含む前記イメージデータベースを構築するためには、少なくとも1人の人が9万枚の写真に前記アノテーションする必要があったが、本発明に係る前記第2CNNモジュール420を利用すれば、前記9,000枚だけ前記アノテーションしても前記4,500個の有用な写真を含む前記イメージデータベースを構築し得るようになる。つまり、原本正解イメージ生成費用(前記イメージデータベース構築費用)が1/10に減少する。また、既にアノテーションされたデータベースが提供される場合も、前記自動選別システムを利用できる。この場合、前記自動選別システムが前記検出器の性能向上に役立たない全体95%のデータ(前記すべてのトレーニングイメージ候補の95%)を学習から排除できるため、前記学習時間と前記学習費用(電気料金など)を大幅に削減し得る。
次に、図4を参照して前記学習プロセスについて説明すると、まず、前記自動選別システム(auto−screening system;前記第2CNNモジュール420)を学習するために、少なくとも一つの有用なイメージに対して原本正解イメージが存在する前記イメージデータベースから前記イメージを任意に選択して前記学習装置400に入れる。詳細には、入力イメージ(前記有用なトレーニングイメージ中の一つ)は、前記第1CNNモジュール410及び前記第2CNNモジュール420へ各々入力される。前記第1CNNモジュール410が、図4に示された例のような前記検出器なら、前記第1CNNモジュール410は、前記入力イメージに少なくとも一度所定のコンボリューション演算を適用して第1特徴マップを生成する。前記特徴マップは、イメージ検出のために前記第1CNNモジュール410で少なくとも一度のコンボリューション演算または少なくとも一度のReLUなどの非線形演算などの過程によって生成される。例えば、図5の例で、前記学習装置400に入力された前記入力イメージが3×h×w(ここで3は、前記イメージのチャネル数、hは、前記イメージの高さ、wは、前記イメージの幅を意味する)の大きさを有する場合、前記第1特徴マップは、c×(h/16)×(w/16)の前記大きさになり、高さ及び前記幅が1/16に減少し、チャネル数はcチャネルに増加し得る。
また、前記第1CNNモジュール410は、前記第1特徴マップを基にデコンボリューション演算またはFC演算によって、特定の物体の識別情報や位置情報を示す第1出力値を算出する。この際、前記第1出力値は、物体検出値、分類値及びセグメンテーション値のうちのいずれかの値になり得るが、本発明では、前記物体検出値であるとして例を挙げた。
そして、前記第1CNNモジュール410は、前記第1出力値と、これに対応する原本正解値とを参照して、第1ロス(実際ロス(etrue))を算出する。例えば、前記第1ロスは、前記第1CNNモジュール410が検出した特定の物体の前記結果(前記第1出力値)と前記原本正解値とを参照にして算出される。
一方、前記第2CNNモジュール420は、前記第1CNNモジュール410に入力される前記入力イメージに対して少なくとも一度所定のコンボリューション演算を適用して第2特徴マップを生成する。前記第2CNNモジュール420に入力される前記入力イメージは、前記第1CNNモジュール410に入力される前記入力イメージと同一のイメージである。前記第2CNNモジュール420が随行する前記コンボリューション演算過程は、前記第1CNNモジュール410が随行する前記コンボリューション演算過程と類似し得るが、コンボリューションレイヤ各々やその他の演算レイヤのパラメータは相異し得る。図5の例で、前記学習装置400に入力された前記入力イメージが3×h×wの大きさを有する場合、前記第2特徴マップはc×(h/8)×(w/8)の大きさになり、前記高さ及び前記幅は1/8に減少し、チャネルはcチャネルに増加し得る。
その後、前記第2CNNモジュール420は、前記第1CNNモジュール410で生成された前記第1特徴マップと前記第2CNNモジュール420で生成された前記第2特徴マップとを統合する。図5の例で、前記第1特徴マップの大きさがc×(h/16)×(w/16)であり、前記第2特徴マップの大きさがc×(h/8)×(w/8)なので、前記第1特徴マップの大きさを前記第2特徴マップの大きさと同一に変換した後、前記大きさの変更された第1特徴マップは、前記第2特徴マップと同じ大きさに変換された後、前記大きさの変更された第1特徴マップは前記第2特徴マップと統合され、第3特徴マップを生成する。この場合、前記第2特徴マップの大きさが前記第1特徴マップの大きさよりも大きいため、前記学習装置400は、前記第2CNNモジュール420をもって前記第1特徴マップの大きさ((h/16)×(w/16))を、前記第2特徴マップの大きさ(h/8)×(w/8))に拡大する。この際、前記学習装置400は、前記第2CNNモジュール420をもって前記第1特徴マップに所定回数のコンボリューション演算(またはデコンボリューション演算)を適用するようにして、前記第1特徴マップの大きさを変更する。図5の例で、前記第2CNNモジュール420に入力されたc×(h/16)×(w/16)の大きさを有する前記第1特徴マップが所定のコンボリューション演算によってc2×(h/8)×(w/8)に変更された様子を示した。そして、前記第2CNNモジュール420は、前記大きさの変更された第1特徴マップと前記第2特徴マップとをコンカチネートして前記第3特徴マップを生成する。前記第3特徴マップのチャネル数は(c+c)になり、前記高さはh/8、前記幅はw/8になる。
その後、前記第2CNNモジュール420は、前記第3特徴マップに少なくとも一度所定のコンボリューション演算を適用して第4特徴マップを生成し、前記第4特徴マップに少なくとも一度演算を適用して前記第1ロスの予測値に対応される第2ロス(検出器ロス予測値(epred))を生成する。例えば、図5に示されているように、(c+c)×(h/8)×(w/8)の大きさを有する前記第3特徴マップに対して前記コンボリューション演算を適用してc×(h/8)×(w/8)の大きさを有する前記第4特徴マップが生成され、ここに平均プーリング演算(Average Pooling Operation)を経て、c×1×1の大きさを有する特定の特徴マップが生成された後、前記特定の特徴マップを前記FC(Fully Connected)ネットワークに2度通過させて前記第2ロス(検出器の前記ロス予測値(epred))が生成される。
それから図4を参照すれば、前記学習装置400は、前記第1ロス前記実際ロス(etrue)と前記第2ロス(検出器の前記ロス予測値(epred))とを比較して、自動選別機ロス(Auto−Screener’s Loss)を算出する。前記自動選別機ロス(Auto−Screener’s Loss)は(etrue− epredから求められる。
前記学習装置400は、前記計算された自動選別機ロス(Auto−Screener’s Loss)を利用してバックプロパゲーションを遂行して前記第2CNNモジュール420の前記パラメータを最適化する。この際、前記学習装置400は、前記第1CNNモジュール410で算出した前記第1ロスを利用してバックプロパゲーションを遂行して前記第1CNNモジュール410の前記パラメータを最適化し得る。
前述のとおり、前記自動選別機ロス(Auto−Screener’s Loss)は、(i)前記入力イメージと前記原本正解値内の前記特定の物体を検出した結果とを参照して算出された前記第1ロスと(ii)前記第1ロスに対応される前記第2ロスの間の前記差異とを参照して算出されるため、前記学習装置400が、前記自動選別機ロスを最小化する方向へ前記バックプロパゲーションを遂行すれば、前記第2ロスが前記第1ロスと類似した値を出力するように第2CNNモジュール420が学習される。そうすると、前記第2CNNモジュール420で出力された前記第2ロスは前記第1ロスを正確に予測していると言える。つまり、特定イメージが前記第2CNNモジュールに入力された際、これに対応する第2ロスが大きければ、前記特定イメージが前記第1CNNモジュール410に入力された際に前記第1CNNモジュール410が正しく前記特定イメージ内の物体を検出できず、よって前記第1ロスが大きく出てくるであろう。一方、他の特定イメージが前記第2CNNモジュール420に入力された際、これに対応する第2ロスが小さければ、前記他の特定イメージが前記第1CNNモジュール410に入力された際、前記第1CNNモジュール410が前記他の特定イメージ内の物体を正確に検出した可能性が高く、よって前記第1ロスが小さく出てくるであろう。ここで、前記第2CNNモジュール420が前記トレーニングイメージ候補の中から第2ロスが大きい特定イメージを選別すれば、前記特定イメージ内の物体は、前記特定イメージが前記第1CNNモジュール410に入力される際に正確に検出される可能性が低く、前記特定イメージは、前記第1CNNモジュール410の前記学習プロセスに提供される有用なイメージとして選別されるようになる。
つまり、前記検出器(前記第1CNNモジュール410)は、前記検出器そのものが出力した前記検出結果とこれに対応して人が作成した原本正解イメージとを比較して学習プロセスを遂行し、前記自動選別システム(Auto−ScreeningSystem)は、前記自動選別システムそのものが予測した前記データが前記検出器の前記学習プロセスに実際にどれだけ役立ったかについての情報を用いて学習する。これによって、前記検出器の前記検出結果がこれに対応する原本正解イメージと大きく異なるほど前記自動選別システムはより良く予測したのである。すなわち、本発明は、前記検出器と前記自動選別システムが相互競争して前記学習プロセスを遂行する敵対的学習(Adversarial Training)を利用する。
図6は、本発明に係る前記自動選別システムによって学習用イメージデータベースを構築する方法を示す図面である。
図6を参照すれば、図4及び図5の前記学習プロセスを通じて前記第2CNNモジュールの前記学習プロセスが完了した状態で、前記第1CNNモジュール410と前記第2CNNモジュール420のパラメータを利用するテスト装置600がラベリングされていないイメージ(テスト用イメージ)を前記第1CNNモジュール410及び前記第2CNNモジュール420に入力すると、前記学習装置400が前記第1CNNモジュール410をもって前記テストイメージに対して少なくとも一度所定のコンボリューション演算を適用するようにしてテスト用第1特徴マップを獲得するようにし、前記第2CNNモジュール420をもって前記テストイメージに対して少なくとも一度所定のコンボリューション演算を適用するようにしてテスト用第2特徴マップを獲得するようにする。そして、前記テスト装置600は、前記テスト用第1特徴マップを前記第2CNNモジュールにまた他の入力として伝達し、前記第2CNNモジュールをもって前記テスト用第1特徴マップと前記テスト用第2特徴マップの大きさを同一に変更するようにした後、前記テスト用第1特徴マップと前記テスト用第2特徴マップとを統合して、テスト用第3特徴マップを生成する。そして、前記テスト装置600は、前記第2CNNモジュールをもって、前記テスト用第3特徴マップに少なくとも一度所定のコンボリューション演算を適用するようにしてテスト用第4特徴マップを生成し、前記テスト用第4特徴マップに少なくとも一度所定の演算を適用してロス予測値を算出する。
こうして多くのテスト用イメージの入力を受けこれに対応するロス予測値(Predicted loss)が算出されれば、前記テスト装置600は、前記テスト用イメージの中から前記ロス予測値が所定の閾値以上の値を有する一部のイメージを前記有用なイメージ(前記第1CNNモジュールの学習プロセスのためのトレーニングイメージ)として選別する。つまり、ロス予測値が前記所定の閾値以上なら、物体に対応するテスト用入力イメージ内の前記物体は、前記テスト用入力イメージが前記第1CNNジュール410に入力された際に正確に検出される可能性が低く、これは前記第1CNNモジュール410の前記学習プロセスに利用される有用なデータとしての前記テスト用入力イメージを決定する。
このように選別された有用なイメージに対しては、少なくとも一人がアノテーション作業などを遂行して(前記イメージにすでにアノテーション処理されているなら単に選別によって)、前記第1CNNモジュール410の前記学習プロセスに利用されるラベリング済みイメージになる。
併せて、前記検出器の前記学習プロセスによって前記検出器の前記パラメータが最適化されれば、前記検出器の前記最適化されたパラメータを利用した前記テスト装置内の前記第1CNNモジュールを利用して実際入力されるテストイメージから物体を検出することになる。例えば、道路走行のイメージから少なくとも一つの物体に対する分類と検出が行われ得る。
本発明の技術分野の通常の技術者に理解されるものとして、前記で説明されたイメージ、例えば前記トレーニングイメージ、前記テストイメージ及び前記入力イメージなどといったイメージデータの送受信が学習装置及びテスト装置の各通信部によって行われ得り、特徴マップと演算を遂行するためのデータが前記学習装置及び前記テスト装置のプロセッサ(及び/またはメモリ)によって保有/維持でき得り、コンボリューション演算、デコンボリューション演算、ロス値の演算過程が学習装置及びテスト装置のプロセッサにより遂行され得るが、本発明はこれに限定されるものではない。
以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。 前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、 CD−ROM、DVDのような光記録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−opticalmedia)、およびROM、RAM、フラッシュメモリなどといったプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得り、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (30)

  1. 有用な学習データを取捨選別するためのCNN基盤の学習方法において、
    (a)学習装置が、少なくとも一つの入力イメージが獲得されれば、(i)前記入力イメージ内の特定の物体の識別情報や位置情報を獲得するための第1CNNモジュールをもって、前記入力イメージに対して少なくとも一度コンボリューション演算を適用するようにして第1特徴マップを生成するプロセス、及び(ii)前記第1CNNモジュールの学習プロセスに利用される有用な学習データを自動選別(Auto−Screening)し得る第2CNNモジュールをもって前記入力イメージに対して少なくとも一度コンボリューション演算を適用するようにして第2特徴マップを生成するプロセスを遂行する段階;
    (b)前記学習装置が、前記第1CNNモジュールをもって、前記第1特徴マップを利用して前記特定の物体の前記識別情報や前記位置情報を示す第1出力を生成するようにし、前記第1出力とこれに該当する原本正解イメージとを参照して第1ロスを算出するようにする段階;
    (c)前記学習装置が、前記第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記第1特徴マップと前記第2特徴マップの大きさを同一に変更した後、前記第1特徴マップと前記第2特徴マップとを統合して、第3特徴マップを生成する段階;
    (d)前記学習装置が、前記第2CNNモジュールをもって、前記第3特徴マップに少なくとも一度コンボリューション演算を適用して第4特徴マップを生成し、前記第4特徴マップを利用して前記第1ロスの予測値に該当する第2ロスを算出するようにする段階;
    (e)前記学習装置が、前記第1ロスと前記第2ロスとを参照して自動選別機のロス(Auto−Screener’s Loss)を算出する段階;及び
    (f)前記学習装置が、前記自動選別機のロスを利用してバックプロパゲーション(Backpropagation)を随行し、前記第2CNNモジュールの少なくとも一つのパラメータを最適化する段階;
    を含むことを特徴とする方法。
  2. 前記(f)段階で、
    前記学習装置が、前記第1ロスを利用してバックプロパゲーションを遂行して前記第1CNNモジュールの少なくとも一つのパラメータを最適化することを特徴とする第1項に記載の方法。
  3. 前記第1CNNモジュールは、前記特定の物体の大きさや位置を検出するための物体検出システム(Object Detection System)、前記特定の物体の種類を識別するための分類システム(Classification System)及び前記特定の物体の領域を他の領域と区分するためのセグメンテーションシステム(Segmentation System)のいずれかに含まれ、
    前記第2CNNモジュールは少なくとも一つの特定の入力イメージを自動的に選別するための自動選別システム(Auto−Screening System)に含まれるものの、前記特定の入力イメージは、前記第1CNNモジュールに入力される複数の入力イメージの中に含まれ、前記特定の入力のイメージに対応して正確に検出される確率の低い特定の物体各々を含み、
    前記第1出力は、前記物体検出システムの出力、前記分類システムの出力及び前記セグメンテーションシステムの出力の一つを示し、
    確率が所定の閾値未満であるか否かに対する情報を参照して前記正確に検出される確率が低いかどうかが決定されることを特徴とする第1項記載の方法。
  4. 前記第2特徴マップの大きさは、前記第1特徴マップよりも大きく、
    前記(c)段階で、
    前記学習装置は前記第2CNNモジュールをもって、前記第1特徴マップの大きさを前記第2特徴マップの大きさに合うように大きくすることを特徴とする第1項に記載の方法。
  5. 前記(c)段階で、
    前記学習装置は、前記第2CNNモジュールをもって、前記第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記第1特徴マップの大きさを前記第2特徴マップの大きさと同じように変更させることを特徴とする第4項に記載の方法。
  6. 前記(c)段階で、
    前記学習装置は、前記第2CNNモジュールをもって、前記第1特徴マップと前記第2特徴マップとをコンカチネートして、前記第3特徴マップを生成するようにすることを特徴とする第1項に記載の方法。
  7. 前記(d)段階で、
    前記学習装置は、前記第2CNNモジュールをもって、前記第4特徴マップがプーリングレイヤ(Pooling Layer)及びFCレイヤ(Fully−Connected Layer)のうち少なくとも一つを通過させて前記第2ロスを算出することを特徴とする第1項に記載の方法。
  8. 前記プーリングレイヤは前記第4特徴マップの高さ及び幅を1にすることを特徴とする第7項に記載の方法。
  9. 前記(f)段階で、
    前記学習装置は、前記自動選別機のロスを最小化する方向でバックプロパゲーションを遂行することを特徴とする第1項に記載の方法。
  10. CNNを基盤に有用な学習データを取捨選別するための方法において、
    (a)(I)学習装置が、(i)トレーニングイメージ内の特定の物体の識別情報や位置情報を獲得するための第1CNNモジュールをもって、前記トレーニングイメージに対して少なくとも一度コンボリューション演算を適用するようにして学習用第1特徴マップを生成し、(ii)前記第1CNNモジュールの学習プロセスに利用される有用な学習データを自動選別(Auto−Screening)するための第2CNNモジュールをもって、前記トレーニングイメージに対して少なくとも一度コンボリューション演算を適用するようにして学習用第2特徴マップを生成するプロセス、(II)前記学習装置が、前記第1CNNモジュールをもって前記学習用第1特徴マップを利用して前記特定の物体の前記識別情報や前記位置情報を示す学習用第1出力を生成するようにし、前記学習用第1出力とこれに対応する原本正解イメージとを参照して第1ロスを算出するようにするプロセス、(III)前記学習装置が、前記学習用第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記学習用第1特徴マップと前記学習用第2特徴マップの大きさを同一に変更した後、前記学習用第1特徴マップと前記学習用第2特徴マップとを統合して、学習用第3特徴マップを生成するプロセス、(IV)前記学習装置が、前記第2CNNモジュールをもって、前記学習用第3特徴マップに少なくとも一度コンボリューション演算を適用して学習用第4特徴マップを生成し、前記学習用第4特徴マップを利用して前記第1ロスの予測値に該当する第2ロスを算出するようにするプロセス、(V)前記学習装置が、前記第1ロスと前記第2ロスとを参照して自動選別機のロス(Auto−Screener’s Loss)を算出するプロセス、及び(VI)前記学習装置が、前記自動選別機のロスを利用してバックプロパゲーション(Backpropagation)を随行し、前記第2CNNモジュールの少なくとも一つのパラメータを最適化するプロセスを遂行した状態で、テスト装置が、各々のイメージ候補を各々のテストイメージとして獲得する段階;
    (b)前記テスト装置が、(i)前記第1CNNモジュールをもって、前記テストイメージに対してコンボリューション演算を少なくとも一度適用するようにして、テスト用第1特徴マップを生成するプロセス、及び(ii)前記第2CNNモジュールをもって、前記テストイメージに対して少なくとも一度コンボリューション演算を適用するようにしてテスト用第2特徴マップを生成するプロセスを遂行する段階;
    (c)前記テスト装置が、前記テスト用第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記テスト用第1特徴マップと前記テスト用第2特徴マップの大きさを同一に変更した後、前記テスト用第1特徴マップと前記テスト用第2特徴マップとを統合して、テスト用第3特徴マップを生成する段階;
    (d)前記テスト装置が、前記第2CNNモジュールをもって、前記テスト用第3特徴マップに少なくとも一度コンボリューション演算を適用してテスト用第4特徴マップを生成し、前記テスト用第4特徴マップを利用してロス予測値を算出するようにする段階;及び
    (e)前記テスト装置が、前記入力イメージ候補の中から前記ロス予測値が所定の閾値以上の値を有する少なくとも一つのイメージを前記第1CNNモジュールの学習プロセスに利用されるトレーニングイメージとして選別する段階;
    を含むことを特徴とする方法。
  11. 前記第1CNNモジュールは、前記特定の物体の大きさや位置を検出するための物体検出システム、前記特定の物体の種類を識別するための分類システム及び前記特定の物体の領域を他の領域と区分するためのセグメンテーションシステムのいずれかに含まれ、
    前記第2CNNモジュールは、トレーニングイメージを自動的に選別するための自動選別システム(Auto−Screening System)に含まれるものの、前記トレーニングイメージは、前記第1CNNモジュールに入力される複数のトレーニングイメージの中に含まれ、前記特定の物体に対応して正確に検出される確率の低い特定の物体各々を含み、
    前記学習用第1出力は、前記物体検出システムの出力、前記分類システムの出力及び前記セグメンテーションシステムの出力の一つを示し、
    確率が所定の閾値未満であるか否かに対する情報を参照して前記正確に検出される確率が低いかどうかが決定されることを特徴とする第10項に記載の方法。
  12. 前記学習用第2特徴マップの大きさは、前記学習用第1特徴マップよりも大きく、
    前記(III)プロセスで、
    前記学習装置は、前記第2CNNモジュールをもって、前記学習用第1特徴マップの大きさを前記学習用第2特徴マップの大きさに合うように大きくし、
    前記テスト用第2特徴マップの大きさは、前記テスト用第1特徴マップよりも大きく、
    前記(c)段階で、
    前記テスト装置は、前記第2CNNモジュールをもって、前記テスト用第1特徴マップの大きさを前記テスト用第2特徴マップの大きさに合うように大きくすることを特徴とする第10項に記載の方法。
  13. 前記(III)プロセスで、
    前記学習装置は、前記第2CNNモジュールをもって、前記学習用第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記学習用第1特徴マップの大きさを前記学習用第2特徴マップの大きさと同じように変更させ、
    前記(c)段階で、
    前記テスト装置は、前記第2CNNモジュールをもって、前記テスト用第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記テスト用第1特徴マップの大きさを前記テスト用第2特徴マップの大きさと同じように変更させることを特徴とする第12項に記載の方法。
  14. 前記(III)プロセスで、
    前記学習装置は、前記第2CNNモジュールをもって、前記学習用第1特徴マップと前記学習用第2特徴マップとをコンカチネートして、前記学習用第3特徴マップを生成するようにし、
    前記(c)段階で、
    前記テスト習装置は、前記第2CNNモジュールをもって、前記テスト用第1特徴マップと前記テスト用第2特徴マップとをコンカチネートして、前記テスト第3特徴マップを生成するようにすることを特徴とする第10項に記載の方法。
  15. 前記(IV)プロセスで、
    前記学習装置は、前記第2CNNモジュールをもって、前記学習用第4特徴マップがプーリングレイヤ及びFCレイヤのうち少なくとも一つを通過させて前記第2ロスを算出し、
    前記(d)段階で、
    前記テスト装置は、前記第2CNNモジュールをもって、前記テスト用第4特徴マップがプーリングレイヤ及びFCレイヤのうち少なくとも一つを通過させて前記ロス予測値を算出することを特徴とする第10項に記載の方法。
  16. 有用な学習データを取捨選別するためのCNN基盤の学習装置において、
    少なくとも一つの入力イメージを獲得するための通信部;及び
    (I)(I−1)前記入力イメージ内の特定の物体の識別情報や位置情報を獲得するための第1CNNモジュールをもって、前記入力イメージに対して少なくとも一度コンボリューション演算を適用するようにして第1特徴マップを生成し、(I−2)前記第1CNNモジュールの学習プロセスに利用される有用な学習データを自動選別(Auto−Screening)するための第2CNNモジュールをもって前記入力イメージに対して少なくとも一度コンボリューション演算を遂行するようにして第2特徴マップを生成するプロセス、(II)前記第1CNNモジュールをもって、前記第1特徴マップを利用して前記特定の物体の前記識別情報や前記位置情報を示す第1出力を生成するようにし、前記第1出力とこれに該当する原本正解イメージとを参照して第1ロスを算出するようにするプロセス、(III)前記第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記第1特徴マップと前記第2特徴マップの大きさを同一に変更した後、前記第1特徴マップと前記第2特徴マップとを統合して、第3特徴マップを生成するプロセス、(IV)前記第2CNNモジュールをもって、前記第3特徴マップに少なくとも一度コンボリューション演算を適用して第4特徴マップを生成し、前記第4特徴マップを利用して前記第1ロスの予測値に該当する第2ロスを算出するようにするプロセス、(V)前記第1ロスと前記第2ロスとを参照して自動選別機のロス(Auto−Screener’s Loss)を算出するプロセス、及び(VI)前記自動選別機のロスを利用してバックプロパゲーション(Backpropagation)を随行し、前記第2CNNモジュールの少なくとも一つのパラメータを最適化するプロセスを遂行するプロセッサ;
    を含むことを特徴とする装置。
  17. 前記(VI)プロセスで、
    前記プロセッサが、前記第1ロスを利用してバックプロパゲーションを遂行して前記第1CNNモジュールの少なくとも一つのパラメータを最適化するプロセスを遂行することを特徴とする第16項に記載の装置。
  18. 前記第1CNNモジュールは、前記特定の物体の大きさや位置を検出するための物体検出システム(Object Detection System)、前記特定の物体の種類を識別するための分類システム(Classification System)及び前記特定の物体の領域を他の領域と区分するためのセグメンテーションシステム(Segmentation System)のいずれかに含まれ、
    前記第2CNNモジュールは少なくとも一つの特定の入力イメージを自動的に選別するための自動選別システム(Auto−Screening System)に含まれるものの、前記特定の入力イメージは、前記第1CNNモジュールに入力される複数の入力イメージの中に含まれ、前記特定の入力のイメージに対応して正確に検出される確率が低い特定の物体各々を含み、
    前記第1出力は、前記物体検出システムの出力、前記分類システムの出力及び前記セグメンテーションシステムの出力の一つを示し、
    確率が所定の閾値未満であるか否かに対する情報を参照して前記正確に検出される確率が低いかどうかが決定されることを特徴とする第16項に記載の装置。
  19. 前記第2特徴マップの大きさは、前記第1特徴マップよりも大きく、
    前記(III)プロセスで、
    前記プロセッサは前記第2CNNモジュールをもって、前記第1特徴マップの大きさを前記第2特徴マップの大きさに合うように大きくすることを特徴とする第16項に記載の装置。
  20. 前記(III)プロセスで、
    前記プロセッサは、前記第2CNNモジュールをもって、前記第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記第1特徴マップの大きさを前記第2特徴マップの大きさと同じように変更させることを特徴とする第19項に記載の装置。
  21. 前記(III)プロセスで、
    前記プロセッサは、前記第2CNNモジュールをもって、前記第1特徴マップと前記第2特徴マップとをコンカチネートして、前記第3特徴マップを生成するようにすることを特徴とする第16項に記載の装置。
  22. 前記(IV)プロセスで、
    前記プロセッサは、前記第2CNNモジュールをもって、前記第4特徴マップがプーリングレイヤ(Pooling Layer)及びFCレイヤ(Fully−Connected Layer)のうち少なくとも一つを通過させて前記第2ロスを算出することを特徴とする第16項に記載の装置。
  23. 前記プーリングレイヤは前記第4特徴マップの高さ及び幅を1にすることを特徴とする第22項に記載の装置。
  24. 前記(IV)プロセスで、
    前記プロセッサは、前記自動選別機のロスを最小化する方向でバックプロパゲーションを遂行することを特徴とする第16項に記載の装置。
  25. CNNを基盤に有用な学習データを取捨選別するためのテスト装置において、
    (i)学習装置が、(i−1)トレーニングイメージ内の特定の物体の識別情報や位置情報を獲得するための第1CNNモジュールをもって、前記トレーニングイメージに対して少なくとも一度コンボリューション演算を適用するようにして学習用第1特徴マップを生成し、(i−2)前記第1CNNモジュールの学習プロセスに利用される有用な学習データを自動選別(Auto−Screening)するための第2CNNモジュールをもって、前記トレーニングイメージに対して少なくとも一度コンボリューション演算を適用するようにして学習用第2特徴マップを生成するプロセス、及び(ii)前記学習装置が、前記第1CNNモジュールをもって前記学習用第1特徴マップを利用して前記特定の物体の前記識別情報や前記位置情報を示す学習用第1出力を生成するようにし、前記学習用第1出力とこれに対応する原本正解イメージとを参照して第1ロスを算出するようにするプロセス、(iii)前記学習装置が、前記学習用第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記学習用第1特徴マップと前記学習用第2特徴マップの大きさを同一に変更した後、前記学習用第1特徴マップと前記学習用第2特徴マップとを統合して、学習用第3特徴マップを生成するプロセス、(iv)前記学習装置が、前記第2CNNモジュールをもって、前記学習用第3特徴マップに少なくとも一度コンボリューション演算を適用して学習用第4特徴マップを生成し、前記学習用第4特徴マップを利用して前記第1ロスの予測値に該当する第2ロスを算出するようにするプロセス、(v)前記学習装置が、前記第1ロスと前記第2ロスとを参照して自動選別機のロス(Auto−Screener’s Loss)を算出するプロセス、及び(vi)前記学習装置が、前記自動選別機のロスを利用してバックプロパゲーションを随行し、前記第2CNNモジュールの少なくとも一つのパラメータを最適化するプロセスを遂行した状態で、各々のイメージ候補を各々のテストイメージとして獲得するための通信部;及び
    (I)(I−1)第1CNNモジュールをもって、前記テストイメージに対して少なくとも一度コンボリューション演算を適用するようにして、テスト用第1特徴マップを生成し、(I−2)前記第2CNNモジュールをもって、前記テストイメージに対して少なくとも一度コンボリューション演算を適用するようにしてテスト用第2特徴マップを生成するプロセス;(II)前記テスト用第1特徴マップを前記第2CNNモジュールに入力して、前記第2CNNモジュールをもって、前記テスト用第1特徴マップと前記テスト用第2特徴マップの大きさを同一に変更した後、前記テスト用第1特徴マップと前記テスト用第2特徴マップとを統合して、テスト用第3特徴マップを生成するプロセス;(III)前記第2CNNモジュールをもって、前記テスト用第3特徴マップに少なくとも一度コンボリューション演算を適用してテスト用第4特徴マップを生成し、前記テスト用第4特徴マップを利用してロス予測値を算出するようにするプロセス;及び(IV)前記入力イメージ候補の中から前記ロス予測値が所定の閾値以上の値を有する少なくとも一つのイメージを前記第1CNNモジュールの学習プロセスに利用されるトレーニングイメージとして選別するプロセスを遂行するプロセッサ;
    を含むことを特徴とする方法。
  26. 前記第1CNNモジュールは、前記特定の物体の大きさや位置を検出するための物体検出システム、前記特定の物体の種類を識別するための分類システム及び前記特定の物体の領域を他の領域と区分するためのセグメンテーションシステムのいずれかに含まれ、
    前記第2CNNモジュールは、トレーニングイメージを自動的に選別するための自動選別システム(Auto−Screening System)に含まれるものの、前記トレーニングイメージは、前記第1CNNモジュールに入力される複数のトレーニングイメージの中に含まれ、前記特定の物体に対応して正確に検出される確率の低い特定の物体各々を含み、
    前記学習用第1出力は、前記物体検出システムの出力、前記分類システムの出力及び前記セグメンテーションシステムの出力の一つを示し、
    確率が所定の閾値未満であるか否かに対する情報を参照して前記正確に検出される確率が低いかどうかが決定されることを特徴とする第25項に記載の装置。
  27. 前記学習用第2特徴マップの大きさは、前記学習用第1特徴マップよりも大きく、
    前記(iii)プロセスで、
    前記学習装置は前記第2CNNモジュールをもって、前記学習用第1特徴マップの大きさを前記学習用第2特徴マップの大きさに合うように大きくし、
    前記テスト用第2特徴マップの大きさは、前記テスト用第1特徴マップよりも大きく、
    前記(II)プロセスで、
    前記プロセッサは、前記第2CNNモジュールをもって、前記テスト用第1特徴マップの大きさを前記テスト用第2特徴マップの大きさに合うように大きくすることを特徴とする第25項に記載の装置。
  28. 前記(iii)プロセスで、
    前記学習装置は、前記第2CNNモジュールをもって、前記学習用第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記学習用第1特徴マップの大きさを前記学習用第2特徴マップの大きさと同じように変更させ、
    前記(II)段階で、
    前記プロセッサは、前記第2CNNモジュールをもって、前記テスト用第1特徴マップに所定回数のコンボリューション演算を適用するようにして、前記テスト用第1特徴マップの大きさを前記テスト用第2特徴マップの大きさと同じように変更させることを特徴とする第27項に記載の装置。
  29. 前記(iii)プロセスで、
    前記学習装置は、前記第2CNNモジュールをもって、前記学習用第1特徴マップと前記学習用第2特徴マップとをコンカチネートして、前記学習用第3特徴マップを生成するようにし、
    前記(II)プロセスで、
    前記プロセッサは、前記第2CNNモジュールをもって、前記テスト用第1特徴マップと前記テスト用第2特徴マップとをコンカチネートして、前記テスト第3特徴マップを生成するようにすることを特徴とする第25項に記載の装置。
  30. 前記(iv)プロセスで、
    前記学習装置は、前記第2CNNモジュールをもって、前記学習用第4特徴マップがプーリングレイヤ及びFCレイヤのうち少なくとも一つを通過させて前記第2ロスを算出し、
    前記(c)プロセスで、
    前記プロセッサは、前記第2CNNモジュールをもって、前記テスト用第4特徴マップがプーリングレイヤ及びFCレイヤのうち少なくとも一つを通過させて前記ロス予測値を算出することを特徴とする第25項に記載の装置。
JP2019185244A 2018-10-26 2019-10-08 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 Active JP6875021B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/171,755 2018-10-26
US16/171,755 US10504027B1 (en) 2018-10-26 2018-10-26 CNN-based learning method, learning device for selecting useful training data and test method, test device using the same

Publications (2)

Publication Number Publication Date
JP2020068028A JP2020068028A (ja) 2020-04-30
JP6875021B2 true JP6875021B2 (ja) 2021-05-19

Family

ID=67211567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019185244A Active JP6875021B2 (ja) 2018-10-26 2019-10-08 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置

Country Status (5)

Country Link
US (1) US10504027B1 (ja)
EP (1) EP3644236B1 (ja)
JP (1) JP6875021B2 (ja)
KR (1) KR102309711B1 (ja)
CN (1) CN111105011B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180027887A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법
US10783634B2 (en) 2017-11-22 2020-09-22 General Electric Company Systems and methods to deliver point of care alerts for radiological findings
US10799189B2 (en) 2017-11-22 2020-10-13 General Electric Company Systems and methods to deliver point of care alerts for radiological findings
JP7096361B2 (ja) * 2018-12-14 2022-07-05 富士フイルム株式会社 ミニバッチ学習装置とその作動プログラム、作動方法、および画像処理装置
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
JP2022536731A (ja) * 2019-06-12 2022-08-18 カーネギー メロン ユニバーシティ 画像処理のための深層学習モデル
KR20190087351A (ko) * 2019-07-05 2019-07-24 엘지전자 주식회사 머신 러닝 시스템, 방법 및 장치
US10943353B1 (en) 2019-09-11 2021-03-09 International Business Machines Corporation Handling untrainable conditions in a network architecture search
US11023783B2 (en) * 2019-09-11 2021-06-01 International Business Machines Corporation Network architecture search with global optimization
US11334987B2 (en) * 2019-10-09 2022-05-17 Siemens Medical Solutions Usa, Inc. Physics-constrained network and training thereof
WO2021084590A1 (ja) * 2019-10-28 2021-05-06 富士通株式会社 学習方法、学習プログラム、および学習装置
KR20210061146A (ko) * 2019-11-19 2021-05-27 삼성전자주식회사 전자 장치 및 그 제어 방법
US11157813B1 (en) * 2020-04-24 2021-10-26 StradVision, Inc. Method and device for on-vehicle active learning to be used for training perception network of autonomous vehicle
JP7486349B2 (ja) * 2020-05-28 2024-05-17 キヤノン株式会社 ニューラルネットワーク、ニューラルネットワークの学習方法、プログラム、画像処理装置
EP4116871A1 (en) * 2021-07-08 2023-01-11 Argo AI GmbH Method and processing unit for processing sensor data of several different sensors with an artificial neural network in a vehicle
KR20230050127A (ko) * 2021-10-07 2023-04-14 삼성전자주식회사 디스플레이 장치 및 그 동작방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9928410B2 (en) * 2014-11-24 2018-03-27 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognizer
CN108475415B (zh) * 2015-12-21 2022-05-27 商汤集团有限公司 用于图像处理的方法和系统
US9665799B1 (en) * 2016-01-29 2017-05-30 Fotonation Limited Convolutional neural network
US9471836B1 (en) * 2016-04-01 2016-10-18 Stradvision Korea, Inc. Method for learning rejector by forming classification tree in use of training images and detecting object in test images, and rejector using the same
WO2018035805A1 (en) * 2016-08-25 2018-03-01 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US9965863B2 (en) * 2016-08-26 2018-05-08 Elekta, Inc. System and methods for image segmentation using convolutional neural network
EP3549063A4 (en) * 2016-12-05 2020-06-24 Avigilon Corporation APPEARANCE SEARCH SYSTEM AND METHOD
JP6567488B2 (ja) * 2016-12-22 2019-08-28 日本電信電話株式会社 学習データ生成装置、開発データ生成装置、モデル学習装置、それらの方法、及びプログラム
CN108460464A (zh) * 2017-02-22 2018-08-28 中兴通讯股份有限公司 深度学习训练方法及装置
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
WO2018173800A1 (ja) * 2017-03-21 2018-09-27 日本電気株式会社 画像処理装置、画像処理方法及び記録媒体
US10572963B1 (en) * 2017-07-14 2020-02-25 Synapse Technology Corporation Detection of items
CN108596184B (zh) * 2018-04-25 2021-01-12 清华大学深圳研究生院 图像语义分割模型的训练方法、可读存储介质及电子设备
US10796200B2 (en) * 2018-04-27 2020-10-06 Intel Corporation Training image signal processors using intermediate loss functions

Also Published As

Publication number Publication date
CN111105011A (zh) 2020-05-05
EP3644236C0 (en) 2024-03-13
CN111105011B (zh) 2023-10-20
EP3644236B1 (en) 2024-03-13
EP3644236A1 (en) 2020-04-29
KR20200047307A (ko) 2020-05-07
KR102309711B1 (ko) 2021-10-08
US10504027B1 (en) 2019-12-10
JP2020068028A (ja) 2020-04-30

Similar Documents

Publication Publication Date Title
JP6875021B2 (ja) 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
JP6847464B2 (ja) 車線候補ピクセルを分類して車線を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane through classifying lane candidate pixels and test method, test device using the same}
JP6820030B2 (ja) 異なるラベルセットを有する複数のラベリングされたデータベースを用いて学習する方法及び装置、そしてこれを利用したテスト方法及び装置{learning method and learning device using multiple labeled databases with different label sets and testing method and testing device using the same}
JP6847463B2 (ja) CNN(Convolutional Neural Network)を利用して車線を検出するための学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE FOR DETECTING LANE USING CNN AND TEST METHOD, TEST DEVICE USING THE SAME}
JP6980289B2 (ja) 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same}
JP6855091B2 (ja) ニューラルネットワーク学習に利用されるオートラベリングされたイメージのうちでラベル検収のためのサンプルイメージを取得する方法、及びそれを利用したサンプルイメージ取得装置
JP6857370B2 (ja) ターゲット物体予測ネットワーク及びターゲット物体統合ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に係る最適化のための再構成可能なネットワーク基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6908944B2 (ja) 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なcnn基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6869565B2 (ja) 危険要素検出に利用される学習用イメージデータセットの生成方法及びコンピューティング装置、そしてこれを利用した学習方法及び学習装置{method and computing device for generating image data set to be used for hazard detection and learning method and learning device using the same}
JP6932395B2 (ja) イメージを分析するために、ディープラーニングネットワークに利用するためのトレーニングイメージに対するラベルリング信頼度を自動的に評価するための方法、及びこれを利用した信頼度評価装置
JP6908943B2 (ja) イメージコンカチネーションと、ターゲット物体予測ネットワークとを利用して、多重カメラ又はサラウンドビューモニタリングに利用される物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
JP6867054B2 (ja) マルチカメラシステム内のダブルエンベディング構成を利用して、道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置。{learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi−camera system and testing method and testing device using the same}
JP6856952B2 (ja) 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
JP6846069B2 (ja) 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}
KR20200095387A (ko) 협업 주행을 수행하는 자동차들로부터 획득된 주행 이미지들을 통합하는 방법 및 이를 이용한 주행 이미지 통합 장치
JP6865342B2 (ja) Cnn基盤車線検出のための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
KR20200071808A (ko) 객체 검출기의 학습 방법, 이를 수행하기 위한 기록매체 및 장치
KR20230149255A (ko) 경계선 지정을 통한 어노테이션 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210415

R150 Certificate of patent or registration of utility model

Ref document number: 6875021

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250