JP7303392B2 - オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス - Google Patents

オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス Download PDF

Info

Publication number
JP7303392B2
JP7303392B2 JP2022549370A JP2022549370A JP7303392B2 JP 7303392 B2 JP7303392 B2 JP 7303392B2 JP 2022549370 A JP2022549370 A JP 2022549370A JP 2022549370 A JP2022549370 A JP 2022549370A JP 7303392 B2 JP7303392 B2 JP 7303392B2
Authority
JP
Japan
Prior art keywords
resized
image
learning
test
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022549370A
Other languages
English (en)
Other versions
JP2023514294A (ja
Inventor
金桂賢
權成顔
金鎔重
康鳳男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2023514294A publication Critical patent/JP2023514294A/ja
Application granted granted Critical
Publication of JP7303392B2 publication Critical patent/JP7303392B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

本出願は、2020年5月8日に米国特許庁に出願された米国特許出願第63/021,809号及び2020年12月28日に米国特許庁に出願された米国特許出願第17/135,033号に基づいて出願され、これに対して優先権を主張し、その全体内容が参照として本明細書に含まれる。
本発明は、オブジェクトディテクションのためのアクティブラーニング(active leaning)方法及びそれを利用したアクティブラーニング装置に関し、より詳細には、イメージ上に特定の類型のオブジェクトが登場するか否か及びイメージのシーン(scene)特性を反映し、アクティブラーニングによってイメージを選択した理由を知ることができるようにし、これによって特定の類型のイメージをサンプリングすることができるようにするオブジェクトディテクタのためのベイシアンデュアルオートエンコーダ(Bayesian dual autoencoder)を利用したエクスプレイナブル(explainable)アクティブラーニング方法及びそれを利用したアクティブラーニングデバイスに関する。
最近、マシンラーニング(machine learning)を利用して物体の識別などを遂行する方法に対する研究が行われている。
このようなマシンラーニングのうちの一つとして、インプットレイヤ(input layer)とアウトプットレイヤ(output layer)との間に複数のヒドゥンレイヤ(hidden layer)を有する神経網を利用したマシンラーニング(machine learning)であるディープラーニング(deep learning)は、高い識別性能を有している。
そして、ディープラーニングを利用するニューラルネットワーク(neural network)は、一般的にロス(loss)を利用したバックプロパゲーション(backpropagation)を通じて学習をする。
このようなディープラーニングネットワークの学習のために、従来は、データ収集政策に従ってロー(raw)データを収集し、ヒューマンラベラーが収集されたローデータをアノテーション(annotation)することで新しいトレーニングデータを生成する。以後、新しいトレーニングデータと既存のトレーニングデータとを利用してディープラーニングネットワークを学習させた後、ヒューマンエンジニアが性能を分析した結果を参照することで、ディープラーニングネットワークの学習のための学習アルゴリズムを修正及び改善する。また、分析した結果を参照することで、データ収集政策を変更し、誤ったアノテーションがあるか否かを再検査し、修正する。
しかし、ディープラーニングネットワークの性能が良くなる程、学習に有用なハードエグザンプル(hard example)は希少となるため、新しいトレーニングデータによるディープラーニングネットワークの性能向上効果が減少するだけでなく、ラベルされたイメージに対するデータベースが大きくなる程、ディープラーニングネットワークの性能向上効果が減少し、それに応じて、ヒューマンラベラーによるデータアノテーションの投資収益が減少する。
一方、このような問題点を解決するために、従来は、収集されたすべてのアンラベルされた(unlabeled)イメージをラベリングする代わりに、ラベルされたイメージを格納するデータベースのサイズ及び学習させようとするモデル性能などの、現在の状況で効果が大きいと予想されるアンラベルされたイメージのみを選び、ラベリングするアクティブラーニング技術が利用されている。
このような従来のアクティブラーニング技術においては、データ分布の観点からまれに獲得可能なデータを重要に取り扱っており、このために様々なサブスペース(subspaces)またはパーティション(partitions)からのクエリング(querying)、探索(exploration)と利用(exploitation)との間のバランス(balance)などが利用されている。
様々なサブスペースまたはパーティションからのクエリングでは、オリジナルフィーチャー(feature)スペースのオーバーラッピングされないか、最小限にオーバーラッピングされるパーティションからアンラベルされたデータを選択する。そして、探索と利用との間のバランスでは、エグザンプルの選択は、データスペースの表現(represent)に対する探索と利用との間のジレンマと見なされる。各ラウンド(round)で、この接近方式はプール(pool)にサンプリング分布を割り当て、この分布から一地点をサンプリングする。
また、従来のアクティブラーニング技術においては、イメージを認識するためのニューラルネットワークモデルの観点から難しいデータ、即ち、データの種類がレア(rare)であるため、ニューラルネットワークモデルにおける学習が不十分だったデータであるか、本来からニューラルネットワークモデルで認識し難いデータを重要に取り扱っており、このためにコミッティ(committee)によるクエリ、アンサーティンティ(uncertainty)サンプリングなどが利用されている。
コミッティによるクエリでは、様々なモデル(コミッティ)が出力に対して投票し、最も同意しないアンラベルされたデータを選択する。
そして、アンサーティンティサンプリングでは、正しい出力が何であるかに対して現在モデルが一例として、クラシフィケーションのためのソフトマックス(softmax)出力スコアの側面で、最も確実でないアンラベルされたデータを選択する。
しかし、従来のアクティブラーニング技術は、クラシフィケーションの問題に限定されている。
即ち、従来のアクティブラーニング技術は、クラシフィケーションの問題では、与えられたH×Wの大きさのイメージ全体をフィーチャースペースにマッピングすることで、全体的に類似したシーン同士が同一のサブスペースに属するようにしている。
しかし、従来のアクティブラーニング技術は、オブジェクトディテクションの問題では、レアイメージを判別することが困難である。
一例として、類似した距離シーンで、歩行者の有無によって互いに異なるサブスペースにマッピングしなければならないが、従来のアクティブラーニング技術は、同一のサブスペースに分類するという問題点がある。
また、従来のアクティブラーニング技術は、ストップサイン(stop sign)が登場するイメージの場合、全体のイメージ内で極めて小さい領域のみで他のサブスペースにマッピングすることができないという短所がある。
即ち、1920×1080の大きさのイメージ内でストップサインが存在する領域は、50×50の大きさ、100×100の大きさなど、極めて小さい領域に属し、仮りに、ストップサインが登場するイメージを選ぶとすると、該当領域を除いた他の部分は全て無視しなければならないが、従来のアクティブラーニング技術ではこれを具現することができないという短所がある。
特に、従来のアクティブラーニングは、データ分布の観点から、まれだといって必らず性能が悪いものではなく、小さいオブジェクト、暗い環境などのように頻繁に登場するが難しい場合もあり得る。また、ハードサブスペースである場合、イージー(easy)サブスペースよりも多く選択しなければならないが、どのくらい多く選択するかに対する最適なバランスを見つけることが容易ではない。
そして、アンサーティンティサンプリングにおいて、主にモデルがオーバーフィッティング(overfitting)された場合、100%に近い確信を持って誤答を下す場合も多いが、このようなハードエグザンプルは全く選び出せないという問題点がある。
一方、コミッティによるクエリでは、特定のサブスペースで複数のモデルが全部オーバーフィッティングまたはアンダーフィッティング(underfitting)された可能性は低いため、ハードエグザンプルをもう少しよく見つけ出せるという長所があるが、我々が学習しようとするニューラルネットワークモデルは通常1個であるのに対し、コミッティによるクエリは、複数のモデルの間の出力ミスマッチ(mismatch)を通じて一般的なハードエグザンプルを見つけるため、ターゲットモデル固有の現在の弱点、一例として、オーバーフィッティングまたはアンダーフィッティングサブスペースを見つけることができないという問題点がある。
本発明は、上述した問題点を全て解決することをその目的とする。
本発明は、アクティブラーニングにおいて、オブジェクトの類型によるレアサンプルを容易に獲得することを他の目的とする。
本発明は、アクティブラーニングにおいて、特定の類型のオブジェクトが登場するか否か及び全体のシーンの特性を反映したレアサンプルを獲得することをさらに他の目的とする。
本発明は、アクティブラーニングにおいて、レアサンプルを選択した理由を容易に確認可能にすることをさらに他の目的とする。
本発明は、アクティブラーニングにおいて、獲得されたレアサンプルから特定の類型のアンラベルされたイメージのみを容易に選択することをさらに他の目的とする。
本発明は、アクティブラーニングにおいて、データ分布の観点からのレアサンプルとモデルの観点からのハードサンプルとを容易に獲得することをさらに他の目的とする。
本発明の一実施例によると、オブジェクトディテクタのためのベイジアンデュアルエンコーダ(Bayesian dual encoder)を利用したエクスプレイナブル(explainable)アクティブラーニング方法において、(a)テストイメージが獲得されると、アクティブラーニングデバイスが、前記テストイメージをオブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれにおけるテスト用オブジェクトを検出して前記テスト用オブジェクトに対応するテスト用バウンディングボックスを出力させ、前記テストイメージのそれぞれから前記テスト用バウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたイメージ乃至テスト用第n(前記nは1以上の整数である)クロップされたイメージを生成し、前記テストイメージ及び前記テストイメージのそれぞれに対応する前記テスト用第1クロップされたイメージ乃至前記テスト用第nクロップされたイメージを同一のサイズにリサイズしてテスト用第1リサイズされたイメージ乃至テスト用第n+1リサイズされたイメージを生成し、前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをデータエンコーダに入力することで、前記データエンコーダをもって前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをエンコーディングして前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージに対応するテスト用第1データコード乃至テスト用第n+1データコードを出力させる段階;(b)前記アクティブラーニングデバイスが、(i)前記テストイメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれをm(前記mは2以上の整数である)回モンテカルロドロップアウトを遂行して前記テストイメージのそれぞれに対応するテスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングしてテスト用アクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップのそれぞれから前記テスト用バウンディングボックスのうちオブジェクトとして判別されたテスト用特定のバウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第o(前記oはn以下の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップ及び前記テスト用アクティベーションエントロピーマップに対応する前記テスト用第1クロップされたアクティベーションエントロピーマップ乃至前記テスト用第oクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズしてテスト用第1リサイズされたアクティベーションエントロピーマップ乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージのうちオブジェクトとして判別されたテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成し、前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをモデルエンコーダに入力することで、前記モデルエンコーダをもって前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップに対応するテスト用第1モデルコード乃至テスト用第o+1モデルコードを出力させる段階;及び(c)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの以前の学習に使用された以前の学習イメージによって生成されたデータコードブック(前記データコードブックは、前記以前の学習用イメージにおけるデータコード別リサイズされたイメージの個数を整理したものである)を参照することで、カウンタスレッショルド以下であるリサイズされたイメージの個数に対応するリファレンスデータコードを確認し、前記第1データコード乃至前記第n+1データコードのうち前記リファレンスデータコードにマッチングする第1特定のデータコードを抽出し、前記第1特定のデータコードに対応する第1特定のテストイメージを前記オブジェクトディテクタの再学習のためのレアサンプルに選定し、前記レアサンプルに対応する第2特定のデータコードを参照することで前記データコードブックをアップデートし、(ii)前記オブジェクトディテクタの再学習の以前に検証イメージによって生成されたモデルコードブック(前記モデルコードブックは、前記検証イメージにおけるモデルコード別リサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を整理したものである)を参照することで、エントロピースレッショルド以上であるアベレージエントロピー値に対応するリファレンスモデルコードを確認し、前記第1モデルコード乃至前記第o+1モデルコードのうち前記リファレンスモデルコードにマッチングする特定のモデルコードを抽出し、前記特定のモデルコードに対応する第2特定のテストイメージを前記オブジェクトディテクタの再学習のためのハードサンプルに選定する段階;を含む方法が提供される。
(d)前記アクティブラーニングデバイスは、前記以前の学習用イメージ、前記レアサンプル、及び前記ハードサンプルを利用して前記オブジェクトディテクタを再学習させる段階;をさらに含む。
前記(b)段階で、前記アクティブラーニングデバイスは、(i)前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをバイナリ変換してテスト用第1バイナリフィーチャーマップ乃至テスト用第mバイナリフィーチャーマップを生成し、前記テスト用第1バイナリフィーチャーマップ乃至前記テスト用第mバイナリフィーチャーマップをコンカチネートしてテスト用アクティベーションプロバビリティマップを生成し、前記テスト用アクティベーションプロバビリティマップを参照することで前記テスト用アクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップをバイナリ変換して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップを生成し、前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1バイナリオブジェクトフィーチャーマップ乃至前記テスト用第mバイナリオブジェクトフィーチャーマップをコンカチネートして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを生成し、テスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを参照することで前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成する。
前記(a)段階で、前記アクティブラーニングデバイスは、前記テスト用バウンディングボックスのうち誤検出されたテスト用バウンディングボックスは、バックグラウンドデータコードにマッピングする。
前記(c)段階で、前記カウンタスレッショルドは、予め設定されたリサイズされたイメージの個数であるか、前記データコードブックでリサイズされたイメージの個数が高い順からq(前記qは1以上の整数である)番目に該当するスレッショルドデータコードに対応するリサイズされたイメージの個数であり、前記エントロピースレッショルドは、予め設定されたアベレージエントロピー値であるか、前記モデルコードブックでアベレージエントロピー値が高い順からs(前記sは1以上の整数である)番目に該当するスレッショルドモデルコードに対応するアベレージエントロピー値である。
前記(a)段階以前に、(a1)前記アクティブラーニングデバイスが、前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージのそれぞれからオブジェクト領域をクロップして学習用第1クロップされたオブジェクトイメージ乃至学習用第t(前記tは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記学習イメージのそれぞれからバックグラウンド領域をクロップして学習用第1クロップされたバックグラウンドイメージ乃至学習用第u(前記uは1以上の整数である)クロップされたバックグラウンドイメージを生成し、前記学習イメージ及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたオブジェクトイメージ乃至前記学習用第tクロップされたオブジェクトイメージ、及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたバックグラウンドイメージ乃至前記学習用第uクロップされたバックグラウンドイメージを同一のサイズにリサイズして学習用第1リサイズされたオブジェクトイメージ乃至学習用第t+1リサイズされたオブジェクトイメージ、及び学習用第1リサイズされたバックグラウンドイメージ乃至学習用第uリサイズされたバックグラウンドイメージを生成し、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをデータオートエンコーダの前記データエンコーダに入力することで、前記データエンコーダをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをエンコーディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージに対応する学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコード及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージに対応する学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを出力させ、前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードを前記データオートエンコーダのデータデコーダに入力することで、前記データデコーダをもって前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードをデコーディングして学習用第1リコンストラクト済みイメージ乃至第t+1リコンストラクト済みイメージを出力させ、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リコンストラクト済みイメージ乃至前記学習用第t+1リコンストラクト済みイメージを参照した第1オブジェクトロス乃至第t+1オブジェクトロスを利用して前記データデコーダと前記データエンコーダとを学習させ、前記学習用第1バックグラウンドデータコード乃至前記学習用第uバックグラウンドデータコードを参照したバックグラウンドロスを利用して前記データエンコーダを学習させる段階;をさらに含む。
(a2)前記アクティブラーニングデバイスが、前記学習イメージデータベースからサンプリングした検証イメージのそれぞれからオブジェクト領域をクロップして検証用第1クロップされたオブジェクトイメージ乃至検証用第v(前記vは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記検証イメージ及び前記検証イメージのそれぞれに対応する前記検証用第1クロップされたオブジェクトイメージ乃至前記検証用第vクロップされたオブジェクトイメージを同一のサイズにリサイズして検証用第1リサイズされたオブジェクトイメージ乃至検証用第v+1リサイズされたオブジェクトイメージを生成し、前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージを前記データエンコーダに入力することで、前記データエンコーダをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージをエンコーディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージに対応する検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードを出力させ、前記検証用第1オブジェクトデータコード乃至前記検証用第v+1オブジェクトデータコードをデータコード別に分類し、それぞれのデータコードに対応するリサイズされたイメージの個数をカウンティングして前記データコードブックを生成する段階;をさらに含む。
前記(a)段階以前に、(a3)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習イメージのそれぞれに対応する学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップを生成させ、前記学習用第1フィーチャーマップ乃至前記学習用第mフィーチャーマップをベイジアン出力エンベディングして学習用アクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第x(前記xは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップ及び前記学習用アクティベーションエントロピーマップに対応する前記学習用第1クロップされたアクティベーションエントロピーマップ乃至前記学習用第xクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして学習用第1リサイズされたアクティベーションエントロピーマップ乃至学習用第x+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記学習イメージ及び前記学習イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップを生成させ、前記学習用第1オブジェクトフィーチャーマップ乃至前記学習用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップを生成し、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップに対応する学習用第1モデルコード乃至学習用第x+1モデルコードを出力させ、前記学習用第1モデルコード乃至前記学習用第x+1モデルコードを前記モデルオートエンコーダのモデルデコーダに入力することで、前記モデルデコーダをもって前記学習用第1モデルコード乃至前記学習用第x+1モデルコードをデコーディングして学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップを出力させ、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップ及び前記学習用第1リコンストラクト済みエントロピーマップ乃至前記学習用第x+1リコンストラクト済みエントロピーマップを参照した第1エントロピーロス乃至第x+1エントロピーロスを利用して前記モデルデコーダと前記モデルエンコーダとを学習させる段階;をさらに含む。
(a4)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした検証イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証イメージのそれぞれに対応する検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップを生成させ、前記検証用第1フィーチャーマップ乃至前記検証用第mフィーチャーマップをベイジアン出力エンベディングして検証用アクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第y(前記yは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップ及び前記検証用アクティベーションエントロピーマップに対応する前記検証用第1クロップされたアクティベーションエントロピーマップ乃至前記検証用第yクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして検証用第1リサイズされたアクティベーションエントロピーマップ乃至検証用第y+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記検証イメージ及び前記検証イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップを生成させ、前記検証用第1オブジェクトフィーチャーマップ乃至前記検証用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップを生成し、前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップに対応する検証用第1モデルコード乃至検証用第y+1モデルコードを出力させ、前記検証用第1モデルコード乃至前記検証用第y+1モデルコードをモデルコード別に分類し、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を参照することで前記モデルコードブックを生成する段階;をさらに含む。
前記アクティブラーニングデバイスは、前記オブジェクトディテクタの学習及び再学習が行われる度に、前記モデルエンコーダを学習させ、前記モデルコードブックを生成する。
また、本発明の他の実施例によると、オブジェクトディテクタのためのベイジアンデュアルエンコーダ(Bayesian dual encoder)を利用したエクスプレイナブル(explainable)アクティブラーニングを遂行するアクティブラーニングデバイスにおいて、オブジェクトディテクタのためのベイジアンデュアルエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するためのインストラクションが格納されたメモリ;及び前記メモリに格納されたインストラクションによってオブジェクトディテクタのためのベイジアンデュアルエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するプロセッサ;を含み、前記プロセッサは、(I)テストイメージが獲得されると、前記テストイメージをオブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれにおけるテスト用オブジェクトを検出して前記テスト用オブジェクトに対応するテスト用バウンディングボックスを出力させ、前記テストイメージのそれぞれから前記テスト用バウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたイメージ乃至テスト用第n(前記nは1以上の整数である)クロップされたイメージを生成し、前記テストイメージ及び前記テストイメージのそれぞれに対応する前記テスト用第1クロップされたイメージ乃至前記テスト用第nクロップされたイメージを同一のサイズにリサイズしてテスト用第1リサイズされたイメージ乃至テスト用第n+1リサイズされたイメージを生成し、前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをデータエンコーダに入力することで、前記データエンコーダをもって前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをエンコーディングして前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージに対応するテスト用第1データコード乃至テスト用第n+1データコードを出力させるプロセス、(II)(i)前記テストイメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれをm(前記mは2以上の整数である)回モンテカルロドロップアウトを遂行して前記テストイメージのそれぞれに対応するテスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングしてテスト用アクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップのそれぞれから前記テスト用バウンディングボックスのうちオブジェクトとして判別されたテスト用特定のバウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第o(前記oはn以下の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップ及び前記テスト用アクティベーションエントロピーマップに対応する前記テスト用第1クロップされたアクティベーションエントロピーマップ乃至前記テスト用第oクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズしてテスト用第1リサイズされたアクティベーションエントロピーマップ乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージのうちオブジェクトとして判別されたテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成し、前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをモデルエンコーダに入力することで、前記モデルエンコーダをもって前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップに対応するテスト用第1モデルコード乃至テスト用第o+1モデルコードを出力させるプロセス、及び(III)(i)前記オブジェクトディテクタの以前の学習に使用された以前の学習イメージによって生成されたデータコードブック(前記データコードブックは、前記以前の学習用イメージにおけるデータコード別リサイズされたイメージの個数を整理したものである)を参照することで、カウンタスレッショルド以下であるリサイズされたイメージの個数に対応するリファレンスデータコードを確認し、前記第1データコード乃至前記第n+1データコードのうち前記リファレンスデータコードにマッチングする第1特定のデータコードを抽出し、前記第1特定のデータコードに対応する第1特定のテストイメージを前記オブジェクトディテクタの再学習のためのレアサンプルに選定し、前記レアサンプルに対応する第2特定のデータコードを参照することで前記データコードブックをアップデートし、(ii)前記オブジェクトディテクタの再学習の以前に検証イメージによって生成されたモデルコードブック(前記モデルコードブックは、前記検証イメージにおけるモデルコード別リサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を整理したものである)を参照することで、エントロピースレッショルド以上であるアベレージエントロピー値に対応するリファレンスモデルコードを確認し、前記第1モデルコード乃至前記第o+1モデルコードのうち前記リファレンスモデルコードにマッチングする特定のモデルコードを抽出し、前記特定のモデルコードに対応する第2特定のテストイメージを前記オブジェクトディテクタの再学習のためのハードサンプルに選定するプロセスを遂行する、アクティブラーニングデバイスが提供される。
前記プロセッサは、(IV)以前の学習用イメージ、前記レアサンプル、及び前記ハードサンプルを利用して前記オブジェクトディテクタを再学習させるプロセスをさらに遂行する。
前記プロセッサは、前記(II)プロセスで、(i)前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをバイナリ変換してテスト用第1バイナリフィーチャーマップ乃至テスト用第mバイナリフィーチャーマップを生成し、前記テスト用第1バイナリフィーチャーマップ乃至前記テスト用第mバイナリフィーチャーマップをコンカチネートしてテスト用アクティベーションプロバビリティマップを生成し、前記テスト用アクティベーションプロバビリティマップを参照することで前記テスト用アクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップをバイナリ変換して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップを生成し、前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1バイナリオブジェクトフィーチャーマップ乃至前記テスト用第mバイナリオブジェクトフィーチャーマップをコンカチネートして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを生成し、テスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを参照することで前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成する。
前記プロセッサは、前記(I)プロセスで、前記テスト用バウンディングボックスのうち誤検出されたテスト用バウンディングボックスは、バックグラウンドデータコードにマッピングする。
前記カウンタスレッショルドは、予め設定されたリサイズされたイメージの個数であるか、前記データコードブックでリサイズされたイメージの個数が高い順からq(前記qは1以上の整数である)番目に該当するスレッショルドデータコードに対応するリサイズされたイメージの個数であり、前記エントロピースレッショルドは、予め設定されたアベレージエントロピー値であるか、前記モデルコードブックでアベレージエントロピー値が高い順からs(前記sは1以上の整数である)番目に該当するスレッショルドモデルコードに対応するアベレージエントロピー値である。
前記プロセッサは、前記(I)プロセス以前に、(I01)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージのそれぞれからオブジェクト領域をクロップして学習用第1クロップされたオブジェクトイメージ乃至学習用第t(前記tは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記学習イメージのそれぞれからバックグラウンド領域をクロップして学習用第1クロップされたバックグラウンドイメージ乃至学習用第u(前記uは1以上の整数である)クロップされたバックグラウンドイメージを生成し、前記学習イメージ及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたオブジェクトイメージ乃至前記学習用第tクロップされたオブジェクトイメージ、及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたバックグラウンドイメージ乃至前記学習用第uクロップされたバックグラウンドイメージを同一のサイズにリサイズして学習用第1リサイズされたオブジェクトイメージ乃至学習用第t+1リサイズされたオブジェクトイメージ、及び学習用第1リサイズされたバックグラウンドイメージ乃至学習用第uリサイズされたバックグラウンドイメージを生成し、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをデータオートエンコーダの前記データエンコーダに入力することで、前記データエンコーダをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをエンコーディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージに対応する学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコード及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージに対応する学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを出力させ、前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードを前記データオートエンコーダのデータデコーダに入力することで、前記データデコーダをもって前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードをデコーディングして学習用第1リコンストラクト済みイメージ乃至第t+1リコンストラクト済みイメージを出力させ、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リコンストラクト済みイメージ乃至前記学習用第t+1リコンストラクト済みイメージを参照した第1オブジェクトロス乃至第t+1オブジェクトロスを利用して前記データデコーダと前記データエンコーダとを学習させ、前記学習用第1バックグラウンドデータコード乃至前記学習用第uバックグラウンドデータコードを参照したバックグラウンドロスを利用して前記データエンコーダを学習させるプロセスをさらに遂行する。
前記プロセッサは、(I02)前記学習イメージデータベースからサンプリングした検証イメージのそれぞれからオブジェクト領域をクロップして検証用第1クロップされたオブジェクトイメージ乃至検証用第v(前記vは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記検証イメージ及び前記検証イメージのそれぞれに対応する前記検証用第1クロップされたオブジェクトイメージ乃至前記検証用第vクロップされたオブジェクトイメージを同一のサイズにリサイズして検証用第1リサイズされたオブジェクトイメージ乃至検証用第v+1リサイズされたオブジェクトイメージを生成し、前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージを前記データエンコーダに入力することで、前記データエンコーダをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージをエンコーディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージに対応する検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードを出力させ、前記検証用第1オブジェクトデータコード乃至前記検証用第v+1オブジェクトデータコードをデータコード別に分類し、それぞれのデータコードに対応するリサイズされたイメージの個数をカウンティングして前記データコードブックを生成するプロセスをさらに遂行する。
前記プロセッサは、前記(I)プロセス以前に、(I03)(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習イメージのそれぞれに対応する学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップを生成させ、前記学習用第1フィーチャーマップ乃至前記学習用第mフィーチャーマップをベイジアン出力エンベディングして学習用アクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第x(前記xは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップ及び前記学習用アクティベーションエントロピーマップに対応する前記学習用第1クロップされたアクティベーションエントロピーマップ乃至前記学習用第xクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして学習用第1リサイズされたアクティベーションエントロピーマップ乃至学習用第x+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記学習イメージ及び前記学習イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップを生成させ、前記学習用第1オブジェクトフィーチャーマップ乃至前記学習用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップを生成し、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップに対応する学習用第1モデルコード乃至学習用第x+1モデルコードを出力させ、前記学習用第1モデルコード乃至前記学習用第x+1モデルコードを前記モデルオートエンコーダのモデルデコーダに入力することで、前記モデルデコーダをもって前記学習用第1モデルコード乃至前記学習用第x+1モデルコードをデコーディングして学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップを出力させ、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップ及び前記学習用第1リコンストラクト済みエントロピーマップ乃至前記学習用第x+1リコンストラクト済みエントロピーマップを参照した第1エントロピーロス乃至第x+1エントロピーロスを利用して前記モデルデコーダと前記モデルエンコーダとを学習させるプロセスをさらに遂行する。
前記プロセスは、(I04)(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした検証イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証イメージのそれぞれに対応する検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップを生成させ、前記検証用第1フィーチャーマップ乃至前記検証用第mフィーチャーマップをベイジアン出力エンベディングして検証用アクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第y(前記yは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップ及び前記検証用アクティベーションエントロピーマップに対応する前記検証用第1クロップされたアクティベーションエントロピーマップ乃至前記検証用第yクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして検証用第1リサイズされたアクティベーションエントロピーマップ乃至検証用第y+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記検証イメージ及び前記検証イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップを生成させ、前記検証用第1オブジェクトフィーチャーマップ乃至前記検証用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップを生成し、前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップに対応する検証用第1モデルコード乃至検証用第y+1モデルコードを出力させ、前記検証用第1モデルコード乃至前記検証用第y+1モデルコードをモデルコード別に分類し、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を参照することで前記モデルコードブックを生成するプロセスをさらに遂行する。
前記プロセッサは、前記オブジェクトディテクタの学習及び再学習が行われる度に、前記モデルエンコーダを学習させ、前記モデルコードブックを生成する。
本発明は、アクティブラーニングにおいて、オブジェクトディテクタとベイジアンデュアルオートエンコーダとを共に利用してフィーチャースペースをマッピングすることでオブジェクトの類型によるレアサンプルを容易に獲得することができる。
本発明は、アクティブラーニングにおいて、オブジェクトディテクタとベイジアンデュアルオートエンコーダとを共に利用してフィーチャースペースをマッピングすることで特定の類型のオブジェクトが登場するか否か及び全体のシーンの特性を反映したレアサンプルを獲得することができる。
本発明は、アクティブラーニングにおいて、オブジェクトディテクタとベイジアンデュアルオートエンコーダとを共に利用してフィーチャースペースをマッピングし、コード化することによってレアサンプルを選択した理由を容易に確認可能になる。
本発明は、アクティブラーニングにおいて、オブジェクトディテクタとベイジアンデュアルオートエンコーダとを共に利用してフィーチャースペースをマッピングし、コード化することによって特定の類型のイメージサンプルのみを容易に選択することができる。
本発明は、アクティブラーニングにおいて、データ分布の観点からのレアサンプルとモデルの観点からのハードサンプルとを容易に獲得することができる。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
図1は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するアクティブラーニングデバイスを簡略に示した図面である。 図2は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法を簡略に示した図面である。 図3は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でアクティベーションエントロピーマップ(activation entropy map)を生成する過程を簡略に示した図面である。 図4は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でコードブック(codebook)を利用してオブジェクトディテクタの学習のためのサンプルイメージを選定する過程を簡略に示した図面である。 図5は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でコードブックに応じた学習イメージの選択理由を説明する状態を簡略に示した図面である。 図6は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でデータエンコーダを学習する過程を簡略に示した図面である。 図7は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でデータコードブックを生成する過程を簡略に示した図面である。 図8は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でモデルエンコーダを学習する過程を簡略に示した図面である。 図9は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でモデルコードブックを生成する過程を簡略に示した図面である。
後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴若しくは各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本明細書から、また一部は、本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取られるものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な態様にわたって同一であるか、又は類似の機能を指す。
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。
図1は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するアクティブラーニングデバイスを簡略に示した図面であり、図1を参照すると、アクティブラーニングデバイス1000は、オブジェクトディテクタの学習に使用するための学習イメージをサンプリングするためにベイジアンデュアルオートエンコーダを利用してエクスプレイナブルアクティブラーニングを遂行するためのインストラクションが格納されたメモリ1001と、メモリ1001に格納されたインストラクションによってオブジェクトディテクタの学習に使用するための学習イメージをサンプリングするためにベイジアンデュアルオートエンコーダを利用してエクスプレイナブルアクティブラーニングを遂行するプロセッサ1002とを含むことができる。
具体的に、アクティブラーニングデバイス1000は、コンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)及びコンピュータソフトウェア(即ち、コンピューティング装置をもって特定の方式で機能させる各インストラクション)の組合せを利用して所望のシステム性能を達成するものであり得る。
また、コンピューティング装置のプロセッサはMPU(Micro Processing Unit)またはCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェア構成を含むことができる。また、コンピューティング装置はオペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むことができる。
しかし、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。
このように構成されたアクティブラーニングデバイス1000を利用してオブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法について図2を参照して説明すると以下の通りである。
まず、テストイメージが獲得されると、アクティブラーニングデバイス1000が、前記テストイメージをオブジェクトディテクタ200に入力することで、前記オブジェクトディテクタ200をもって前記テストイメージのそれぞれにおけるテスト用オブジェクトを検出して前記テスト用オブジェクトに対応するテスト用バウンディングボックスを出力させることができる。また、オブジェクトディテクタ200は、テスト用オブジェクトに対応するテスト用クラス情報及びテスト用オブジェクトに関する様々なディテクション情報を出力することができる。
この際、オブジェクトディテクタ200は、ディテクションスレッショルド(threshold)を低く設定することで、テストイメージにおけるフォアグラウンド(foreground)クラススコアが低いバウンディングボックスも含めてできるだけ多くのテスト用バウンディングボックスを検出することができるようにする。これにより、実際には登場するオブジェクトを登場しないものと誤って判断する場合をできるだけ防止することができ、特に、検出し難い類型のオブジェクトを検出することができるようになる。
そして、オブジェクトディテクタ200は、入力されるイメージ上に位置するオブジェクトを検出するように予め学習された状態であり得る。
また、テストイメージは、オブジェクトディテクタ200がインストールされた装置と連係したイメージキャプチャ(capture)装置から獲得されたイメージであるか、オブジェクトディテクタ200が遂行しようとするタスク(task)に関して収集されたイメージであり得、学習イメージに利用するためのラベリングが遂行されていないアンラベルされたイメージであり得る。
一例として、テストイメージは、自動車の走行中のカメラ、ライダ、レーダなどを通じて獲得された走行イメージであり得る。
次に、アクティブラーニングデバイス1000は、テストイメージのそれぞれからテスト用バウンディングボックスに対応する領域をクロップ(crop)したテスト用第1クロップされたイメージ乃至テスト用第nクロップされたイメージを生成し、テストイメージ及びテストイメージのそれぞれに対応するテスト用第1クロップされたイメージ乃至テスト用第nクロップされたイメージを同一のサイズにリサイズ(resize)してテスト用第1リサイズされた(resized)イメージ210_1乃至テスト用第n+1リサイズされたイメージ210_(n+1)を生成することができる。前記nは1以上の整数であり得る。
次に、アクティブラーニングデバイス1000は、テスト用第1リサイズされたイメージ210_1乃至テスト用第n+1リサイズされたイメージ210_(n+1)をデータエンコーダ310に入力することで、データエンコーダ310をもってテスト用第1リサイズされたイメージ210_1乃至テスト用第n+1リサイズされたイメージ210_(n+1)をエンコーディングしてテスト用第1リサイズされたイメージ210_1乃至テスト用第n+1リサイズされたイメージ210_(n+1)に対応するテスト用第1データコード乃至テスト用第n+1データコードを出力させることができる。
この際、アクティブラーニングデバイス1000は、データエンコーダ310の出力にシグモイド(sigmoid)などのようなアクティベーション関数(activation function)を適用してテスト用第1データコード乃至テスト用第n+1データコードを獲得することもできる。
そして、データコードはd-ディメンションの[0,1]レンジ(range)で表現され得、それぞれのリサイズされたイメージに対するサブスペースとなり得る。そして、バックグラウンド(background)領域に対応するデータコードはall zero(オールゼロ)で表現され得る。また、誤検出されたテスト用バウンディングボックスに対応するリサイズされたイメージに対するデータコードは、バックグラウンドコード、即ち、all zeroにマッピングされ得る。
次に、アクティブラーニングデバイス1000は、テストイメージをオブジェクトディテクタ200に入力することで、オブジェクトディテクタ200をもってテストイメージのそれぞれについてm回モンテカルロドロップアウト(Monte Carlo dropout)を遂行してテストイメージのそれぞれに対応するテスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップを生成させ、テスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップをベイジアンアウトプットエンベディング(embedding)してテスト用アクティベーションエントロピーマップを生成することができる。前記mは2以上の整数であり得る。
即ち、図3を参照すると、アクティブラーニングデバイス1000は、テストイメージをオブジェクトディテクタ200に入力することで、オブジェクトディテクタ200がテストイメージに対するインファレンス(inference)を遂行するようにし、オブジェクトディテクタ200における特定のレイヤ(layer)に対してドロップアウトを遂行することができる。より好ましくは、オブジェクトディテクタ200のコンボリューションブロックにおける特定のレイヤに対してドロップアウトを遂行することができる。
この際、それぞれの特定のレイヤにおけるドロップアウトは、一例として、モンテカルロドロップアウトを利用することができ、次の数式のように示され得る。
Figure 0007303392000001
前記数式でiは、テストイメージの高さ(height)方向のピクセル位置を示し、jは、テストイメージの幅(width)方向のピクセル位置を示し、kは、テストイメージのチャンネルを示すものであり得る。
一方、オブジェクトディテクタ200がドロップアウトを含めて学習されていない場合には、ドロップアウト確率を十分に低く、一例として、0.01乃至0.1に設定することができる。
従って、アクティブラーニングデバイス1000は、オブジェクトディテクタ200にm回のドロップアウトを遂行してテストイメージのそれぞれに対応するテスト用第1フィーチャーマップF乃至テスト用第mフィーチャーマップFmを出力させた後、テスト用第1フィーチャーマップF乃至テスト用第mフィーチャーマップFmに対応するテスト用アクティベーションプロバビリティ(probability)マップを生成し、テスト用アクティベーションプロバビリティマップにおけるエントロピーを計算することによってテスト用アクティベーションエントロピーマップを生成することができる。
即ち、アクティブラーニングデバイス1000は、テスト用第1フィーチャーマップF乃至テスト用第mフィーチャーマップFmをバイナリ(binary)変換してテスト用第1バイナリフィーチャーマップB1乃至テスト用第mバイナリフィーチャーマップBmを生成し、テスト用第1バイナリフィーチャーマップB1乃至テスト用第mバイナリフィーチャーマップBmをコンカチネート(concatenate)してテスト用アクティベーションプロバビリティマップを生成し、テスト用アクティベーションプロバビリティマップを参照してテスト用アクティベーションエントロピーマップを生成することができる。
これをさらに詳細に説明すると、アクティブラーニングデバイス1000は、テスト用第1フィーチャーマップF乃至テスト用第mフィーチャーマップFmのそれぞれに次の数式のようなバイナリ関数を適用することで、テスト用第1バイナリフィーチャーマップB1乃至テスト用第mバイナリフィーチャーマップBmを生成する。
Figure 0007303392000002
そして、アクティブラーニングデバイス1000は、テスト用第1バイナリフィーチャーマップB1乃至テスト用第mバイナリフィーチャーマップBmのプロバビリティを参照することで、次の数式によりテストイメージに対応するテスト用アクティベーションプロバビリティマップを生成する。
Figure 0007303392000003
以後、アクティブラーニングデバイス1000は、テスト用アクティベーションプロバビリティマップにおいて次の数式によるエントロピーを演算することで、テスト用アクティベーションエントロピーマップを生成することができる。
Figure 0007303392000004
即ち、アクティブラーニングデバイス1000は、テストイメージに対してドロップアウトをm回遂行した後、フィーチャーマップのエントロピーを計算することができる。
この際、エントロピーは、フィーチャーがアクティベーションされているか否かを2クラスに計算することができる。これは、一般的にアクティベーション値の大きさの違いよりは、アクティベーションがされているか否かがオブジェクトディテクタ200の最終出力により大きい影響を与えるためである。
そして、オブジェクトディテクタ200自体にパータベーション(perturbation)を適用することで、ターゲットモデルのアンステーブル(unstable)なサブスペースを効果的に感知することができるようになる。この際、オブジェクトディテクタ200自体にパータベーションを適用することによって、オブジェクトディテクタ200から一部の出力への連結を強制的に切断する効果があり得る。
即ち、一般的にサブスペースがステーブルに学習された場合には、若干のコネクション(connection)切断ではフィーチャーに有意味な影響を与えない。
しかし、サブスペースがアンステーブルな状況、一例として、オーバーフィッティングまたはアンダーフィッティングな場合には、若干のパータベーションもフィーチャーに大きい影響を与え得る。
従って、インプットを多様に変換する(transform)する方法、一例として、データオーグメンテーション(augmentation)を使用する場合、サブスペース自体が変わり得るため、本発明では、オブジェクトディテクタ200にパータベーションを与えるベイジアン方法(Bayesian method)を使用してサブスペース自体が変わることを防止することができるようになる。
再び図2を参照すると、アクティブラーニングデバイス1000は、テスト用アクティベーションエントロピーマップのそれぞれからテスト用バウンディングボックスのうちオブジェクトとして判別されたテスト用特定のバウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第oクロップされたアクティベーションエントロピーマップを生成し、テスト用アクティベーションエントロピーマップ及びテスト用アクティベーションエントロピーマップに対応するテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第oクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズしてテスト用第1リサイズされたアクティベーションエントロピーマップ220_1乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップ220_(o+1)を生成することができる。前記oはn以下の整数であり得る。
この際、アクティベーションエントロピーマップは、テストイメージよりも大きさが小さいため、リサイズされたアクティベーションエントロピーマップの大きさをリサイズされたイメージよりも大きくすることができる。
一方、前記では、テスト用アクティベーションエントロピーマップを生成した後にオブジェクト領域をクロップしたが、これとは異なり、オブジェクト領域をクロップした後にクロップされたイメージをアクティベーションエントロピーマップとして生成することもできる。
即ち、アクティブラーニングデバイス1000は、テスト用第1リサイズされたイメージ乃至テスト用第n+1リサイズされたイメージのうちオブジェクトとして判別されたテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれをオブジェクトディテクタ200に入力することで、オブジェクトディテクタ200をもってテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれについてm回モンテカルロドロップアウトを遂行してテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップを生成させることができる。そして、アクティブラーニングデバイス1000は、テスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップをベイジアン出力エンベディングしてテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1リサイズされたアクティベーションエントロピーマップ220_1乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップ220_(o+1)を生成することができる。
これをさらに詳細に説明すると、アクティブラーニングデバイス1000は、テスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップをバイナリ変換してテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップを生成することができる。そして、アクティブラーニングデバイス1000は、テスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップをコンカチネートしてテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを生成し、テスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを参照することで、テスト用第1リサイズされたアクティベーションエントロピーマップ乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成することができる。
次に、アクティブラーニングデバイス1000は、テスト用第1リサイズされたアクティベーションエントロピーマップ220_1乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップ220_(o+1)をモデルエンコーダ410に入力することで、モデルエンコーダ410をもってテスト用第1リサイズされたアクティベーションエントロピーマップ210_1乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップ210_(o+1)をエンコーディングしてテスト用第1リサイズされたアクティベーションエントロピーマップ210_1乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップ210_(o+1)に対応するテスト用第1モデルコード乃至テスト用第o+1モデルコードを出力させることができる。
この際、モデルコードは、d-ディメンションの[0,1]レンジで表現され得、それぞれのモデルコードは、オブジェクトディテクタ200のスタビリティ(stability)の類型を示すものであり得る。
次に、図4を参照すると、アクティブラーニングデバイス1000は、オブジェクトディテクタ200の以前の学習に使用された以前の学習用イメージによって生成されたデータコードブック510を参照することで、カウンタスレッショルド以下であるリサイズされたイメージの個数に対応するリファレンス(reference)データコードを確認し、第1データコード乃至第n+1データコードのうちリファレンスデータコードにマッチングする第1特定のデータコードを抽出し、第1特定のデータコードに対応する第1特定のテストイメージをオブジェクトディテクタ200の再学習のためのレアサンプルに選定し、レアサンプルに対応する第2特定のデータコードを参照することで、データコードブック510をアップデートすることができる。前記データコードブック510を生成する過程については、以下に説明する。
この際、カウンタスレッショルドは、予め設定されたリサイズされたイメージの個数であるか、データコードブック510においてリサイズされたイメージの個数が高い順からq番目に該当するスレッショルドデータコードに対応するリサイズされたイメージの個数であり得る。前記qは1以上の整数であり得る。
即ち、データコードであるサブスペースに対応するイメージ数の個数が少ないほど、オブジェクトディテクタ200の以前の学習で十分に学習されていないレアサブスペースと判断することができ、それによってデータコードブックを利用してオブジェクトディテクタ200の以前の学習で十分に学習されていない第1特定のデータコードに対応するテストイメージをレアサンプル、即ち、レアイメージにサンプリングすることができ、サンプリングされた特定のテストイメージに対応する第2特定のデータコードを利用してデータコードブック510をアップデートすることによって、オブジェクトディテクタ200の再学習以後、新しいテストイメージから新しいレアイメージをサンプリングするための基準として使用することができる。
そして、データコードブック510は、オブジェクトディテクタ200の再学習が行われる度にアップデートし続けることができる。
また、アクティブラーニングデバイス1000は、オブジェクトディテクタ200の再学習の以前に検証(evaluation)イメージによって生成されたモデルコードブック520を参照することで、エントロピースレッショルド以上であるアベレージ(average)エントロピー値に対応するリファレンスモデルコードを確認し、第1モデルコード乃至第o+1モデルコードのうちリファレンスモデルコードにマッチングする特定のモデルコードを抽出し、特定のモデルコードに対応する第2特定のテストイメージをオブジェクトディテクタの再学習のためのハードサンプルに選定することができる。前記モデルコードブック520を生成する過程については、以下に説明する。
この際、エントロピースレッショルドは、予め設定されたアベレージエントロピー値であるか、モデルコードブック520においてアベレージエントロピー値が高い順からs番目に該当するスレッショルドモデルコードに対応するアベレージエントロピー値であり得る。前記sは1以上の整数であり得る。
即ち、モデルコードであるスタビリティの類型に対応するアベレージエントロピーが大きいほど、現在の学習された状態のオブジェクトディテクタ200にとって難しい類型であるため、それによってモデルコードブック520を利用してオブジェクトディテクタ200にとって難しい類型に対応するモデルコードを含むテストイメージをハードサンプルと判断することができる。
一方、オブジェクトディテクタ200の再学習によってアップデートされるデータコードブック510とは異なり、モデルコードブック520は、オブジェクトディテクタ200の再学習を遂行する以前に新たに生成することができる。
即ち、オブジェクトディテクタ200が再学習されると、以前には難しかった類型に対して性能が良くなるか、類型自体が異なって分類され得る。即ち、容易な類型はより大きいカテゴリーにまとめられ、難しい類型はさらに細分化され得る。従って、オブジェクトディテクタ200の再学習以後、モデルコードブック520を新たに生成することによって、現在の学習されたオブジェクトディテクタ200の状態を反映することができる。
次に、図5を参照すると、前記のような方法によって生成されたデータコードブックを通じて特定のテストイメージがレアサンプルに選択された理由を確認することができる。
即ち、データコードブックを通じてテストイメージをシーンレベルとオブジェクトレベルとに説明することができ、シーンレベルとオブジェクトレベルとを通じてレアサンプルに選択された理由を確認することができる。
一例として、自動車がday road(日中の道路)を走行する状態、即ち、テストイメージのシーンがday roadである状態でストップサインはレアに現れることが分かる。
また、heavy rain(大雨)であるシーンから検出される自動車は、同一の自動車でも雨の影響で染みや滲みが激しい形態であるため、day highway(日中の高速道路)であるシーンから検出される自動車よりもオブジェクトレベルにおいてレアであることが分かる。
次に、アクティブラーニングデバイスは、以前の学習用イメージ、レアサンプル、及びハードサンプルを利用してオブジェクトディテクタ200を再学習させることができる。
一方、データエンコーダとモデルエンコーダとを学習させる方法、及びデータコードブックとモデルコードブックとを生成する過程を説明すると以下の通りである。
まず、図6を参照してデータエンコーダ310を学習させる方法を説明すると以下の通りである。
アクティブラーニングデバイス1000は、ターゲットモデル、即ち、オブジェクトディテクタの学習のための学習イメージを格納している学習イメージデータベースからデータエンコーダ310の学習に利用するための学習イメージをサンプリングすることができる。
そして、アクティブラーニングデバイス1000は、オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージのそれぞれからオブジェクト領域をクロップして学習用第1クロップされたオブジェクトイメージ乃至学習用第tクロップされたオブジェクトイメージを生成し、学習イメージのそれぞれからバックグラウンド領域をクロップして学習用第1クロップされたバックグラウンドイメージ乃至学習用第uクロップされたバックグラウンドイメージを生成することができる。前記tとuとは1以上の整数であり得る。
この際、クロップされたバックグラウンドイメージの個数がクロップされたオブジェクトイメージの個数に比べて1倍乃至3倍となるようにバックグラウンド領域をランダムクロップすることができる。
以後、アクティブラーニングデバイス1000は、学習イメージ及び学習イメージのそれぞれに対応する学習用第1クロップされたオブジェクトイメージ乃至学習用第tクロップされたオブジェクトイメージ及び学習イメージのそれぞれに対応する学習用第1クロップされたバックグラウンドイメージ乃至学習用第uクロップされたバックグラウンドイメージを同一のサイズにリサイズして学習用第1リサイズされたオブジェクトイメージ20_1乃至学習用第t+1リサイズされたオブジェクトイメージ20_(t+1)、及び学習用第1リサイズされたバックグラウンドイメージ30_1乃至学習用第uリサイズされたバックグラウンドイメージ30_uを生成することができる。
そして、アクティブラーニングデバイス1000は、学習用第1リサイズされたオブジェクトイメージ20_1乃至学習用第t+1リサイズされたオブジェクトイメージ20_(t+1)及び学習用第1リサイズされたバックグラウンドイメージ30_1乃至学習用第uリサイズされたバックグラウンドイメージ30_uをデータオートエンコーダのデータエンコーダ310に入力することで、データエンコーダ310をもって学習用第1リサイズされたオブジェクトイメージ20_1乃至学習用第t+1リサイズされたオブジェクトイメージ20_(t+1)及び学習用第1リサイズされたバックグラウンドイメージ30_1乃至学習用第uリサイズされたバックグラウンドイメージ30_uをエンコーディングして学習用第1リサイズされたオブジェクトイメージ20_1乃至学習用第t+1リサイズされたオブジェクトイメージ30_(t+1)に対応する学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコード及び学習用第1リサイズされたバックグラウンドイメージ30_1乃至学習用第uリサイズされたバックグラウンドイメージ30_uに対応する学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを出力させることができる。
以後、アクティブラーニングデバイス1000は、学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコードを前記データオートエンコーダのデータデコーダ320に入力することで、データデコーダ320をもって学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコードをデコーディングして学習用第1リコンストラクト済み(reconstructed)イメージ乃至第t+1リコンストラクト済みイメージを出力させることができる。
そして、アクティブラーニングデバイス1000は、学習用第1リサイズされたオブジェクトイメージ乃至学習用第t+1リサイズされたオブジェクトイメージと学習用第1リコンストラクト済みイメージ乃至学習用第t+1リコンストラクト済みイメージとを参照した第1オブジェクトロス乃至第t+1オブジェクトロスを利用してデータデコーダ320とデータエンコーダ310とを学習させ、学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを参照したバックグラウンドロスを利用してデータエンコーダ310を学習させることができる。
この際、オブジェクトロス(object loss)は、次の通り示され得る。
Figure 0007303392000005
また、バックグラウンドロス(background loss)は、次の通り示され得る。
Figure 0007303392000006
即ち、アクティブラーニングデバイス1000は、全体のイメージ10とオブジェクトとはリコンストラクトション(reconstruction)ロスに反映してデータデコーダ320とデータエンコーダ310との学習に利用し、バックグラウンドはリコンストラクトションロスには反映せず、データコードがall zeroとなるようにデータコードにのみロスを反映してデータエンコーダ310の学習に利用することができる。
一方、前記では、アクティブラーニングデバイス1000がデータエンコーダ310を学習させたが、これとは異なり、別途の学習装置を通じてデータエンコーダ310を学習させることもできる。
次に、図7を参照してデータコードブックを生成する方法を説明すると以下の通りである。
アクティブラーニングデバイス1000は、ターゲットモデル、即ち、オブジェクトディテクタの学習のための学習イメージを格納している学習イメージデータベースからデータコードブックの生成に利用するための検証(evaluation)イメージをサンプリングすることができる。
この際、アクティブラーニングデバイス1000は、学習イメージデータベースから学習イメージをサンプリングし、サンプリングされた学習イメージをデータエンコーダ310の学習に利用するための学習イメージとデータコードブックの生成のための検証イメージとに分割することができる。そして、学習イメージと検証イメージとの分割は、ユニフォーム(uniform)ランダムサンプリングを利用して遂行することができ、これを通じて学習イメージと検証イメージとの分布特性、即ち、サブスペースのレアネス(rareness)が互いに異ならないようにすることができる。
そして、アクティブラーニングデバイス1000は、学習イメージデータベースからサンプリングした検証イメージのそれぞれからオブジェクト領域をクロップして検証用第1クロップされたオブジェクトイメージ乃至検証用第vクロップされたオブジェクトイメージを生成し、検証イメージ及び検証イメージのそれぞれに対応する検証用第1クロップされたオブジェクトイメージ乃至検証用第vクロップされたオブジェクトイメージを同一のサイズにリサイズして検証用第1リサイズされたオブジェクトイメージ40_1乃至検証用第v+1リサイズされたオブジェクトイメージ40_(v+1)を生成することができる。
以後、アクティブラーニングデバイス1000は、検証用第1リサイズされたオブジェクトイメージ40_1乃至検証用第v+1リサイズされたオブジェクトイメージ40_(v+1)をデータエンコーダ310に入力することで、データエンコーダ310をもって検証用第1リサイズされたオブジェクトイメージ40_1乃至検証用第v+1リサイズされたオブジェクトイメージ40_(v+1)をエンコーディングして検証用第1リサイズされたオブジェクトイメージ40_1乃至検証用第v+1リサイズされたオブジェクトイメージ40_(v+1)に対応する検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードを出力させることができる。
そして、アクティブラーニングデバイス1000は、検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードをデータコード別に分類(sort)し、それぞれのデータコードに対応するリサイズされたイメージの個数をカウンティングしてデータコードブック510を生成することができる。即ち、データコード別リサイズされたイメージの個数をそれぞれのデータコードにマッピングしてデータコードブック510を生成することができる。この際、データコードブック510には、イメージIDが追加的にマッピングされ得る。
一方、前記ではアクティブラーニングデバイス1000がデータコードブック510を生成したが、これとは異なり、別途の学習装置やデータコードブックの生成装置を通じてデータコードブック510を生成することもできる。
次に、図8を参照してモデルエンコーダ410を学習させる方法を説明すると以下の通りである。
アクティブラーニングデバイス1000は、ターゲットモデル、即ち、オブジェクトディテクタの学習のための学習イメージを格納している学習イメージデータベースからデータエンコーダ310の学習に利用するための学習イメージをサンプリングすることができる。
そして、アクティブラーニングデバイス1000は、オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージをオブジェクトディテクタに入力することで、オブジェクトディテクタをもって学習用イメージのそれぞれについいてm回モンテカルロドロップアウトを遂行して学習用イメージのそれぞれに対応する学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップを生成させ、学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップをベイジアン出力エンベディングして学習用アクティベーションエントロピーマップを生成することができる。
この際、モデルエンコーダ410の学習では、データエンコーダ310の学習とは異なり、バックグラウンド領域は使用しない。これは、バックグラウンド領域はアクティベーションエントロピーを通じて判別するよりは、データエンコーダでイメージ基盤に判別した方がより正確であるためであり得る。
以後、アクティブラーニングデバイス1000は、学習用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第xクロップされたアクティベーションエントロピーマップを生成し、学習用アクティベーションエントロピーマップ及び学習用アクティベーションエントロピーマップに対応する学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第xクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして学習用第1リサイズされたアクティベーションエントロピーマップ50_1乃至学習用第x+1リサイズされたアクティベーションエントロピーマップ50_(x+1)を生成することができる。前記xは1以上の整数であり得る。
一方、前記では、学習用アクティベーションエントロピーマップを生成した後にオブジェクト領域をクロップしたが、これとは異なり、オブジェクト領域をクロップした後にクロップされたイメージをアクティベーションエントロピーマップとして生成することもできる。
即ち、アクティブラーニングデバイス1000は、学習用イメージ及び学習用イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれをオブジェクトディテクタに入力することで、オブジェクトディテクタをもって学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップを生成させることができる。そして、アクティブラーニングデバイス1000は、学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1リサイズされたアクティベーションエントロピーマップ50_1乃至学習用第x+1リサイズされたアクティベーションエントロピーマップ50_(x+1)を生成することができる。
そして、アクティブラーニングデバイス1000は、学習用第1リサイズされたアクティベーションエントロピーマップ50_1乃至学習用第x+1リサイズされたアクティベーションエントロピーマップ50_(x+1)をモデルオートエンコーダのモデルエンコーダ410に入力することで、モデルエンコーダ410をもって学習用第1リサイズされたアクティベーションエントロピーマップ50_1乃至学習用第x+1リサイズされたアクティベーションエントロピーマップ50_(x+1)をエンコーディングして学習用第1リサイズされたアクティベーションエントロピーマップ50_1乃至学習用第x+1リサイズされたアクティベーションエントロピーマップ50_(x+1)に対応する学習用第1モデルコード乃至学習用第x+1モデルコードを出力させることができる。
以後、アクティブラーニングデバイス1000は、学習用第1モデルコード乃至学習用第x+1モデルコードをモデルオートエンコーダのモデルデコーダ420に入力することで、モデルデコーダ420をもって学習用第1モデルコード乃至学習用第x+1モデルコードをデコーディングして学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップを出力させることができる。
以後、アクティブラーニングデバイス1000は、学習用第1リサイズされたアクティベーションエントロピーマップ乃至学習用第x+1リサイズされたアクティベーションエントロピーマップと学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップとを参照した第1エントロピーロス乃至第x+1エントロピーロスを利用してモデルデコーダ420とモデルエンコーダ410とを学習させることができる。
この際、エントロピーロス(entropy loss)は次の通り示され得る。
Figure 0007303392000007
一方、アクティベーションエントロピーマップは、学習イメージよりも大きさが小さいため、全体のイメージ及びクロップされたイメージを同一のサイズとなるようにリサイズする場合、データエンコーダ310の学習でより大きいサイズを有するようにリサイズすることができる。
この際、モデルエンコーダ410の学習は、オブジェクトディテクタの学習及び再学習が行われる度に遂行され得る。
また、アクティブラーニングデバイス1000がモデルエンコーダ410を学習させるものとして説明したが、これとは異なり、別途の学習装置を通じてモデルエンコーダ410を学習させることもできる。
次に、図9を参照してモデルコードブックを生成する方法を説明すると以下の通りである。
アクティブラーニングデバイス1000は、ターゲットモデル、即ち、オブジェクトディテクタの学習のための学習イメージを格納している学習イメージデータベースからモデルコードブックの生成に利用するための検証イメージをサンプリングすることができる。
この際、アクティブラーニングデバイス1000は、学習用イメージデータベースから学習イメージをサンプリングし、サンプリングされた学習イメージを、モデルエンコーダ410の学習に利用するための学習イメージとモデルコードブックの生成のための検証イメージとに分割することができる。そして、学習イメージと検証イメージとの分割は、ユニフォームランダムサンプリングを利用して遂行することができる。
そして、アクティブラーニングデバイス1000は、オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした検証イメージをオブジェクトディテクタに入力することで、オブジェクトディテクタをもって検証イメージのそれぞれをm回モンテカルロドロップアウトを遂行して検証イメージのそれぞれに対応する検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップを生成させ、検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップをベイジアン出力エンベディングして検証用アクティベーションエントロピーマップを生成することができる。
以後、アクティブラーニングデバイス1000は、検証用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第yクロップされたアクティベーションエントロピーマップを生成し、検証用アクティベーションエントロピーマップ及び検証用アクティベーションエントロピーマップに対応する検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第yクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして検証用第1リサイズされたアクティベーションエントロピーマップ60_1乃至検証用第y+1リサイズされたアクティベーションエントロピーマップ60_(y+1)を生成することができる。前記yは1以上の整数であり得る。
一方、前記では、検証用アクティベーションエントロピーマップを生成した後にオブジェクト領域をクロップしたが、これとは異なり、オブジェクト領域をクロップした後にクロップされたイメージに対応するアクティベーションエントロピーマップを生成することもできる。
即ち、アクティブラーニングデバイス1000は、検証イメージ及び検証イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれをオブジェクトディテクタに入力することで、オブジェクトディテクタをもって検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップを生成させることができる。そして、アクティブラーニングデバイス1000は、検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1リサイズされたアクティベーションエントロピーマップ60_1乃至検証用第y+1リサイズされたアクティベーションエントロピーマップ60_(y+1)を生成することができる。
そして、アクティブラーニングデバイス1000は、検証用第1リサイズされたアクティベーションエントロピーマップ60_1乃至検証用第y+1リサイズされたアクティベーションエントロピーマップ60_(y+1)をモデルオートエンコーダのモデルエンコーダ410に入力することで、モデルエンコーダ410をもって検証用第1リサイズされたアクティベーションエントロピーマップ60_1乃至検証用第y+1リサイズされたアクティベーションエントロピーマップ60_(y+1)をエンコーディングして検証用第1リサイズされたアクティベーションエントロピーマップ60_1乃至検証用第y+1リサイズされたアクティベーションエントロピーマップ60_(y+1)に対応する検証用第1モデルコード乃至検証用第y+1モデルコードを出力させることができる。
以後、アクティブラーニングデバイス1000は、検証用第1モデルコード乃至検証用第y+1モデルコードをモデルコード別に分類し、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を参照することで、モデルコードブック520を生成することができる。
即ち、アクティブラーニングデバイス1000は、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのエントロピー値を平均してアベレージエントロピー値を生成し、アベレージエントロピー値をコード別にマッチングしてモデルコードブック520を生成することができる。この際、モデルコードブック520にはイメージIDが追加的にマッピングされ得る。
そして、前記ではアクティブラーニングデバイス1000がモデルコードブック520を生成したが、これとは異なり、別途の学習装置やモデルコードブックの生成装置を通じてモデルコードブック520を生成することもできる。
また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フレキシブルディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカル・ディスク(Floptical Disk)のような磁気-光メディア(Magneto-Optical Media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは、本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (20)

  1. オブジェクトディテクタのためのベイジアンデュアルエンコーダ(Bayesian dual encoder)を利用したエクスプレイナブル(explainable)アクティブラーニング方法において、
    (a)テストイメージが獲得されると、アクティブラーニングデバイスが、前記テストイメージをオブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれにおけるテスト用オブジェクトを検出して前記テスト用オブジェクトに対応するテスト用バウンディングボックスを出力させ、前記テストイメージのそれぞれから前記テスト用バウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたイメージ乃至テスト用第n(前記nは1以上の整数である)クロップされたイメージを生成し、前記テストイメージ及び前記テストイメージのそれぞれに対応する前記テスト用第1クロップされたイメージ乃至前記テスト用第nクロップされたイメージを同一のサイズにリサイズしてテスト用第1リサイズされたイメージ乃至テスト用第n+1リサイズされたイメージを生成し、前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをデータエンコーダに入力することで、前記データエンコーダをもって前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをエンコーディングして前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージに対応するテスト用第1データコード乃至テスト用第n+1データコードを出力させる段階;
    (b)前記アクティブラーニングデバイスが、(i)前記テストイメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれをm(前記mは2以上の整数である)回モンテカルロドロップアウトを遂行して前記テストイメージのそれぞれに対応するテスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングしてテスト用アクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップのそれぞれから前記テスト用バウンディングボックスのうちオブジェクトとして判別されたテスト用特定のバウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第o(前記oはn以下の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップ及び前記テスト用アクティベーションエントロピーマップに対応する前記テスト用第1クロップされたアクティベーションエントロピーマップ乃至前記テスト用第oクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズしてテスト用第1リサイズされたアクティベーションエントロピーマップ乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージのうちオブジェクトとして判別されたテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成し、前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをモデルエンコーダに入力することで、前記モデルエンコーダをもって前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップに対応するテスト用第1モデルコード乃至テスト用第o+1モデルコードを出力させる段階;及び
    (c)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの以前の学習に使用された以前の学習イメージによって生成されたデータコードブック(前記データコードブックは、前記以前の学習用イメージにおけるデータコード別リサイズされたイメージの個数を整理したものである)を参照することで、カウンタスレッショルド以下であるリサイズされたイメージの個数に対応するリファレンスデータコードを確認し、前記第1データコード乃至前記第n+1データコードのうち前記リファレンスデータコードにマッチングする第1特定のデータコードを抽出し、前記第1特定のデータコードに対応する第1特定のテストイメージを前記オブジェクトディテクタの再学習のためのレアサンプルに選定し、前記レアサンプルに対応する第2特定のデータコードを参照することで前記データコードブックをアップデートし、(ii)前記オブジェクトディテクタの再学習の以前に検証イメージによって生成されたモデルコードブック(前記モデルコードブックは、前記検証イメージにおけるモデルコード別リサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を整理したものである)を参照することで、エントロピースレッショルド以上であるアベレージエントロピー値に対応するリファレンスモデルコードを確認し、前記第1モデルコード乃至前記第o+1モデルコードのうち前記リファレンスモデルコードにマッチングする特定のモデルコードを抽出し、前記特定のモデルコードに対応する第2特定のテストイメージを前記オブジェクトディテクタの再学習のためのハードサンプルに選定する段階;
    を含む方法。
  2. (d)前記アクティブラーニングデバイスは、前記以前の学習用イメージ、前記レアサンプル、及び前記ハードサンプルを利用して前記オブジェクトディテクタを再学習させる段階;
    をさらに含む、請求項1に記載の方法。
  3. 前記(b)段階で、
    前記アクティブラーニングデバイスは、(i)前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをバイナリ変換してテスト用第1バイナリフィーチャーマップ乃至テスト用第mバイナリフィーチャーマップを生成し、前記テスト用第1バイナリフィーチャーマップ乃至前記テスト用第mバイナリフィーチャーマップをコンカチネートしてテスト用アクティベーションプロバビリティマップを生成し、前記テスト用アクティベーションプロバビリティマップを参照することで前記テスト用アクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップをバイナリ変換して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップを生成し、前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1バイナリオブジェクトフィーチャーマップ乃至前記テスト用第mバイナリオブジェクトフィーチャーマップをコンカチネートして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを生成し、テスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを参照することで前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成する、請求項1に記載の方法。
  4. 前記(a)段階で、
    前記アクティブラーニングデバイスは、前記テスト用バウンディングボックスのうち誤検出されたテスト用バウンディングボックスは、バックグラウンドデータコードにマッピングする、請求項1に記載の方法。
  5. 前記(c)段階で、
    前記カウンタスレッショルドは、予め設定されたリサイズされたイメージの個数であるか、前記データコードブックでリサイズされたイメージの個数が高い順からq(前記qは1以上の整数である)番目に該当するスレッショルドデータコードに対応するリサイズされたイメージの個数であり、
    前記エントロピースレッショルドは、予め設定されたアベレージエントロピー値であるか、前記モデルコードブックでアベレージエントロピー値が高い順からs(前記sは1以上の整数である)番目に該当するスレッショルドモデルコードに対応するアベレージエントロピー値である、請求項1に記載の方法。
  6. 前記(a)段階以前に、
    (a1)前記アクティブラーニングデバイスが、前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージのそれぞれからオブジェクト領域をクロップして学習用第1クロップされたオブジェクトイメージ乃至学習用第t(前記tは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記学習イメージのそれぞれからバックグラウンド領域をクロップして学習用第1クロップされたバックグラウンドイメージ乃至学習用第u(前記uは1以上の整数である)クロップされたバックグラウンドイメージを生成し、前記学習イメージ及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたオブジェクトイメージ乃至前記学習用第tクロップされたオブジェクトイメージ、及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたバックグラウンドイメージ乃至前記学習用第uクロップされたバックグラウンドイメージを同一のサイズにリサイズして学習用第1リサイズされたオブジェクトイメージ乃至学習用第t+1リサイズされたオブジェクトイメージ、及び学習用第1リサイズされたバックグラウンドイメージ乃至学習用第uリサイズされたバックグラウンドイメージを生成し、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをデータオートエンコーダの前記データエンコーダに入力することで、前記データエンコーダをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをエンコーディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージに対応する学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコード及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージに対応する学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを出力させ、前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードを前記データオートエンコーダのデータデコーダに入力することで、前記データデコーダをもって前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードをデコーディングして学習用第1リコンストラクト済みイメージ乃至第t+1リコンストラクト済みイメージを出力させ、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リコンストラクト済みイメージ乃至前記学習用第t+1リコンストラクト済みイメージを参照した第1オブジェクトロス乃至第t+1オブジェクトロスを利用して前記データデコーダと前記データエンコーダとを学習させ、前記学習用第1バックグラウンドデータコード乃至前記学習用第uバックグラウンドデータコードを参照したバックグラウンドロスを利用して前記データエンコーダを学習させる段階;
    をさらに含む、請求項1に記載の方法。
  7. (a2)前記アクティブラーニングデバイスが、前記学習イメージデータベースからサンプリングした検証イメージのそれぞれからオブジェクト領域をクロップして検証用第1クロップされたオブジェクトイメージ乃至検証用第v(前記vは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記検証イメージ及び前記検証イメージのそれぞれに対応する前記検証用第1クロップされたオブジェクトイメージ乃至前記検証用第vクロップされたオブジェクトイメージを同一のサイズにリサイズして検証用第1リサイズされたオブジェクトイメージ乃至検証用第v+1リサイズされたオブジェクトイメージを生成し、前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージを前記データエンコーダに入力することで、前記データエンコーダをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージをエンコーディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージに対応する検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードを出力させ、前記検証用第1オブジェクトデータコード乃至前記検証用第v+1オブジェクトデータコードをデータコード別に分類し、それぞれのデータコードに対応するリサイズされたイメージの個数をカウンティングして前記データコードブックを生成する段階;
    をさらに含む、請求項6に記載の方法。
  8. 前記(a)段階以前に、
    (a3)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習イメージのそれぞれに対応する学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップを生成させ、前記学習用第1フィーチャーマップ乃至前記学習用第mフィーチャーマップをベイジアン出力エンベディングして学習用アクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第x(前記xは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップ及び前記学習用アクティベーションエントロピーマップに対応する前記学習用第1クロップされたアクティベーションエントロピーマップ乃至前記学習用第xクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして学習用第1リサイズされたアクティベーションエントロピーマップ乃至学習用第x+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記学習イメージ及び前記学習イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップを生成させ、前記学習用第1オブジェクトフィーチャーマップ乃至前記学習用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップを生成し、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップに対応する学習用第1モデルコード乃至学習用第x+1モデルコードを出力させ、前記学習用第1モデルコード乃至前記学習用第x+1モデルコードを前記モデルオートエンコーダのモデルデコーダに入力することで、前記モデルデコーダをもって前記学習用第1モデルコード乃至前記学習用第x+1モデルコードをデコーディングして学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップを出力させ、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップ及び前記学習用第1リコンストラクト済みエントロピーマップ乃至前記学習用第x+1リコンストラクト済みエントロピーマップを参照した第1エントロピーロス乃至第x+1エントロピーロスを利用して前記モデルデコーダと前記モデルエンコーダとを学習させる段階;
    をさらに含む、請求項1に記載の方法。
  9. (a4)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした検証イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証イメージのそれぞれに対応する検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップを生成させ、前記検証用第1フィーチャーマップ乃至前記検証用第mフィーチャーマップをベイジアン出力エンベディングして検証用アクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第y(前記yは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップ及び前記検証用アクティベーションエントロピーマップに対応する前記検証用第1クロップされたアクティベーションエントロピーマップ乃至前記検証用第yクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして検証用第1リサイズされたアクティベーションエントロピーマップ乃至検証用第y+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記検証イメージ及び前記検証イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップを生成させ、前記検証用第1オブジェクトフィーチャーマップ乃至前記検証用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップを生成し、前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップに対応する検証用第1モデルコード乃至検証用第y+1モデルコードを出力させ、前記検証用第1モデルコード乃至前記検証用第y+1モデルコードをモデルコード別に分類し、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を参照することで前記モデルコードブックを生成する段階;
    をさらに含む、請求項8に記載の方法。
  10. 前記アクティブラーニングデバイスは、前記オブジェクトディテクタの学習及び再学習が行われる度に、前記モデルエンコーダを学習させ、前記モデルコードブックを生成する、請求項9に記載の方法。
  11. オブジェクトディテクタのためのベイジアンデュアルエンコーダ(Bayesian dual encoder)を利用したエクスプレイナブル(explainable)アクティブラーニングを遂行するアクティブラーニングデバイスにおいて、
    オブジェクトディテクタのためのベイジアンデュアルエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するためのインストラクションが格納されたメモリ;及び
    前記メモリに格納されたインストラクションによってオブジェクトディテクタのためのベイジアンデュアルエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するプロセッサ;
    を含み、
    前記プロセッサは、(I)テストイメージが獲得されると、前記テストイメージをオブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれにおけるテスト用オブジェクトを検出して前記テスト用オブジェクトに対応するテスト用バウンディングボックスを出力させ、前記テストイメージのそれぞれから前記テスト用バウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたイメージ乃至テスト用第n(前記nは1以上の整数である)クロップされたイメージを生成し、前記テストイメージ及び前記テストイメージのそれぞれに対応する前記テスト用第1クロップされたイメージ乃至前記テスト用第nクロップされたイメージを同一のサイズにリサイズしてテスト用第1リサイズされたイメージ乃至テスト用第n+1リサイズされたイメージを生成し、前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをデータエンコーダに入力することで、前記データエンコーダをもって前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをエンコーディングして前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージに対応するテスト用第1データコード乃至テスト用第n+1データコードを出力させるプロセス、(II)(i)前記テストイメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれをm(前記mは2以上の整数である)回モンテカルロドロップアウトを遂行して前記テストイメージのそれぞれに対応するテスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングしてテスト用アクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップのそれぞれから前記テスト用バウンディングボックスのうちオブジェクトとして判別されたテスト用特定のバウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第o(前記oはn以下の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップ及び前記テスト用アクティベーションエントロピーマップに対応する前記テスト用第1クロップされたアクティベーションエントロピーマップ乃至前記テスト用第oクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズしてテスト用第1リサイズされたアクティベーションエントロピーマップ乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージのうちオブジェクトとして判別されたテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成し、前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをモデルエンコーダに入力することで、前記モデルエンコーダをもって前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップに対応するテスト用第1モデルコード乃至テスト用第o+1モデルコードを出力させるプロセス、及び(III)(i)前記オブジェクトディテクタの以前の学習に使用された以前の学習イメージによって生成されたデータコードブック(前記データコードブックは、前記以前の学習用イメージにおけるデータコード別リサイズされたイメージの個数を整理したものである)を参照することで、カウンタスレッショルド以下であるリサイズされたイメージの個数に対応するリファレンスデータコードを確認し、前記第1データコード乃至前記第n+1データコードのうち前記リファレンスデータコードにマッチングする第1特定のデータコードを抽出し、前記第1特定のデータコードに対応する第1特定のテストイメージを前記オブジェクトディテクタの再学習のためのレアサンプルに選定し、前記レアサンプルに対応する第2特定のデータコードを参照することで前記データコードブックをアップデートし、(ii)前記オブジェクトディテクタの再学習の以前に検証イメージによって生成されたモデルコードブック(前記モデルコードブックは、前記検証イメージにおけるモデルコード別リサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を整理したものである)を参照することで、エントロピースレッショルド以上であるアベレージエントロピー値に対応するリファレンスモデルコードを確認し、前記第1モデルコード乃至前記第o+1モデルコードのうち前記リファレンスモデルコードにマッチングする特定のモデルコードを抽出し、前記特定のモデルコードに対応する第2特定のテストイメージを前記オブジェクトディテクタの再学習のためのハードサンプルに選定するプロセスを遂行する、アクティブラーニングデバイス。
  12. 前記プロセッサは、(IV)以前の学習用イメージ、前記レアサンプル、及び前記ハードサンプルを利用して前記オブジェクトディテクタを再学習させるプロセスをさらに遂行する、請求項11に記載のアクティブラーニングデバイス。
  13. 前記プロセッサは、前記(II)プロセスで、(i)前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをバイナリ変換してテスト用第1バイナリフィーチャーマップ乃至テスト用第mバイナリフィーチャーマップを生成し、前記テスト用第1バイナリフィーチャーマップ乃至前記テスト用第mバイナリフィーチャーマップをコンカチネートしてテスト用アクティベーションプロバビリティマップを生成し、前記テスト用アクティベーションプロバビリティマップを参照することで前記テスト用アクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップをバイナリ変換して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップを生成し、前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1バイナリオブジェクトフィーチャーマップ乃至前記テスト用第mバイナリオブジェクトフィーチャーマップをコンカチネートして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを生成し、テスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを参照することで前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成する、請求項11に記載のアクティブラーニングデバイス。
  14. 前記プロセッサは、前記(I)プロセスで、前記テスト用バウンディングボックスのうち誤検出されたテスト用バウンディングボックスは、バックグラウンドデータコードにマッピングする、請求項11に記載のアクティブラーニングデバイス。
  15. 前記カウンタスレッショルドは、予め設定されたリサイズされたイメージの個数であるか、前記データコードブックでリサイズされたイメージの個数が高い順からq(前記qは1以上の整数である)番目に該当するスレッショルドデータコードに対応するリサイズされたイメージの個数であり、
    前記エントロピースレッショルドは、予め設定されたアベレージエントロピー値であるか、前記モデルコードブックでアベレージエントロピー値が高い順からs(前記sは1以上の整数である)番目に該当するスレッショルドモデルコードに対応するアベレージエントロピー値である、請求項1に記載のアクティブラーニングデバイス。
  16. 前記プロセッサは、前記(I)プロセス以前に、(I01)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージのそれぞれからオブジェクト領域をクロップして学習用第1クロップされたオブジェクトイメージ乃至学習用第t(前記tは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記学習イメージのそれぞれからバックグラウンド領域をクロップして学習用第1クロップされたバックグラウンドイメージ乃至学習用第u(前記uは1以上の整数である)クロップされたバックグラウンドイメージを生成し、前記学習イメージ及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたオブジェクトイメージ乃至前記学習用第tクロップされたオブジェクトイメージ、及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたバックグラウンドイメージ乃至前記学習用第uクロップされたバックグラウンドイメージを同一のサイズにリサイズして学習用第1リサイズされたオブジェクトイメージ乃至学習用第t+1リサイズされたオブジェクトイメージ、及び学習用第1リサイズされたバックグラウンドイメージ乃至学習用第uリサイズされたバックグラウンドイメージを生成し、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをデータオートエンコーダの前記データエンコーダに入力することで、前記データエンコーダをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをエンコーディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージに対応する学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコード及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージに対応する学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを出力させ、前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードを前記データオートエンコーダのデータデコーダに入力することで、前記データデコーダをもって前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードをデコーディングして学習用第1リコンストラクト済みイメージ乃至第t+1リコンストラクト済みイメージを出力させ、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リコンストラクト済みイメージ乃至前記学習用第t+1リコンストラクト済みイメージを参照した第1オブジェクトロス乃至第t+1オブジェクトロスを利用して前記データデコーダと前記データエンコーダとを学習させ、前記学習用第1バックグラウンドデータコード乃至前記学習用第uバックグラウンドデータコードを参照したバックグラウンドロスを利用して前記データエンコーダを学習させるプロセスをさらに遂行する、請求項11に記載のアクティブラーニングデバイス。
  17. 前記プロセッサは、(I02)前記学習イメージデータベースからサンプリングした検証イメージのそれぞれからオブジェクト領域をクロップして検証用第1クロップされたオブジェクトイメージ乃至検証用第v(前記vは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記検証イメージ及び前記検証イメージのそれぞれに対応する前記検証用第1クロップされたオブジェクトイメージ乃至前記検証用第vクロップされたオブジェクトイメージを同一のサイズにリサイズして検証用第1リサイズされたオブジェクトイメージ乃至検証用第v+1リサイズされたオブジェクトイメージを生成し、前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージを前記データエンコーダに入力することで、前記データエンコーダをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージをエンコーディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージに対応する検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードを出力させ、前記検証用第1オブジェクトデータコード乃至前記検証用第v+1オブジェクトデータコードをデータコード別に分類し、それぞれのデータコードに対応するリサイズされたイメージの個数をカウンティングして前記データコードブックを生成するプロセスをさらに遂行する、請求項16に記載のアクティブラーニングデバイス。
  18. 前記プロセッサは、前記(I)プロセス以前に、(I03)(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習イメージのそれぞれに対応する学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップを生成させ、前記学習用第1フィーチャーマップ乃至前記学習用第mフィーチャーマップをベイジアン出力エンベディングして学習用アクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第x(前記xは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップ及び前記学習用アクティベーションエントロピーマップに対応する前記学習用第1クロップされたアクティベーションエントロピーマップ乃至前記学習用第xクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして学習用第1リサイズされたアクティベーションエントロピーマップ乃至学習用第x+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記学習イメージ及び前記学習イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップを生成させ、前記学習用第1オブジェクトフィーチャーマップ乃至前記学習用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップを生成し、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップに対応する学習用第1モデルコード乃至学習用第x+1モデルコードを出力させ、前記学習用第1モデルコード乃至前記学習用第x+1モデルコードを前記モデルオートエンコーダのモデルデコーダに入力することで、前記モデルデコーダをもって前記学習用第1モデルコード乃至前記学習用第x+1モデルコードをデコーディングして学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップを出力させ、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップ及び前記学習用第1リコンストラクト済みエントロピーマップ乃至前記学習用第x+1リコンストラクト済みエントロピーマップを参照した第1エントロピーロス乃至第x+1エントロピーロスを利用して前記モデルデコーダと前記モデルエンコーダとを学習させるプロセスをさらに遂行する、請求項11に記載のアクティブラーニングデバイス。
  19. 前記プロセスは、(I04)(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした検証イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証イメージのそれぞれに対応する検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップを生成させ、前記検証用第1フィーチャーマップ乃至前記検証用第mフィーチャーマップをベイジアン出力エンベディングして検証用アクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第y(前記yは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップ及び前記検証用アクティベーションエントロピーマップに対応する前記検証用第1クロップされたアクティベーションエントロピーマップ乃至前記検証用第yクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして検証用第1リサイズされたアクティベーションエントロピーマップ乃至検証用第y+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記検証イメージ及び前記検証イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップを生成させ、前記検証用第1オブジェクトフィーチャーマップ乃至前記検証用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップを生成し、前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップに対応する検証用第1モデルコード乃至検証用第y+1モデルコードを出力させ、前記検証用第1モデルコード乃至前記検証用第y+1モデルコードをモデルコード別に分類し、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を参照することで前記モデルコードブックを生成するプロセスをさらに遂行する、請求項18に記載のアクティブラーニングデバイス。
  20. 前記プロセッサは、前記オブジェクトディテクタの学習及び再学習が行われる度に、前記モデルエンコーダを学習させ、前記モデルコードブックを生成する、請求項19に記載のアクティブラーニングデバイス。
JP2022549370A 2020-05-08 2021-03-29 オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス Active JP7303392B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063021809P 2020-05-08 2020-05-08
US63/021,809 2020-05-08
US17/135,033 2020-12-28
US17/135,033 US10970645B1 (en) 2020-05-08 2020-12-28 Method for explainable active learning, to be used for object detector, by using Bayesian dual autoencoder and active learning device using the same
PCT/KR2021/003824 WO2021225279A1 (en) 2020-05-08 2021-03-29 Method for explainable active learning, to be used for object detector, by using bayesian dual autoencoder and active learning device using the same

Publications (2)

Publication Number Publication Date
JP2023514294A JP2023514294A (ja) 2023-04-05
JP7303392B2 true JP7303392B2 (ja) 2023-07-04

Family

ID=75275537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022549370A Active JP7303392B2 (ja) 2020-05-08 2021-03-29 オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス

Country Status (6)

Country Link
US (1) US10970645B1 (ja)
EP (1) EP3907654A1 (ja)
JP (1) JP7303392B2 (ja)
KR (1) KR102638370B1 (ja)
CN (1) CN115443471A (ja)
WO (1) WO2021225279A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11132607B1 (en) * 2020-05-05 2021-09-28 StradVision, Inc. Method for explainable active learning, to be used for object detector, by using deep encoder and active learning device using the same
US11404055B2 (en) * 2020-10-16 2022-08-02 Agora Lab, Inc. Simultaneous dereverberation and denoising via low latency deep learning
KR20230042994A (ko) 2021-09-23 2023-03-30 연세대학교 산학협력단 Cam 기반의 약한 지도학습 물체탐지 장치 및 방법
WO2024049670A1 (en) * 2022-08-29 2024-03-07 NetraDyne, Inc. Real-time object detection from decompressed images
US20240119706A1 (en) * 2022-09-30 2024-04-11 Samsung Electronics Co., Ltd. Generating images with small objects for training a pruned super-resolution network

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720257B2 (en) * 2005-06-16 2010-05-18 Honeywell International Inc. Object tracking system
US10019657B2 (en) * 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image
WO2019023324A1 (en) * 2017-07-26 2019-01-31 Via Transportation, Inc. SYSTEMS AND METHODS FOR MANAGING AND ROUTING COOPERATING VEHICLES
US10438371B2 (en) * 2017-09-22 2019-10-08 Zoox, Inc. Three-dimensional bounding box from two-dimensional image and point cloud data
WO2019074545A1 (en) * 2017-10-13 2019-04-18 iHealthScreen Inc. IMAGE-BASED SCREENING SYSTEM FOR PREDICTING AN INDIVIDUAL TO HAVE THE RISK OF AGE-RELATED MACULAR DEGENERATION (AMD)
CN110276362A (zh) * 2018-03-13 2019-09-24 富士通株式会社 训练图像模型的方法和装置以及分类预测方法和装置
US11532073B2 (en) * 2018-03-29 2022-12-20 Pixar Temporal techniques of denoising Monte Carlo renderings using neural networks
US10713769B2 (en) * 2018-06-05 2020-07-14 Kla-Tencor Corp. Active learning for defect classifier training
KR102615196B1 (ko) * 2018-08-21 2023-12-18 삼성전자주식회사 객체 검출 모델 트레이닝 장치 및 방법
KR20200040550A (ko) * 2018-10-10 2020-04-20 삼성전자주식회사 뉴럴 네트워크 연산을 수행하는 장치 및 이의 동작 방법
US10783632B2 (en) * 2018-12-14 2020-09-22 Spectral Md, Inc. Machine learning systems and method for assessment, healing prediction, and treatment of wounds
US10423860B1 (en) * 2019-01-22 2019-09-24 StradVision, Inc. Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
US10905337B2 (en) * 2019-02-26 2021-02-02 Bao Tran Hearing and monitoring system
US11436506B2 (en) * 2019-03-06 2022-09-06 Carl Zeiss Smt Gmbh Method and devices for determining metrology sites
CN110097611B (zh) * 2019-04-28 2023-09-22 上海联影智能医疗科技有限公司 图像重建方法、装置、设备及存储介质
US11386671B2 (en) * 2019-06-25 2022-07-12 Zoox, Inc. Refining depth from an image
US11983625B2 (en) * 2020-06-24 2024-05-14 Intel Corporation Robust multimodal sensor fusion for autonomous driving vehicles

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Riashat Islam et al.,Active Learning for High Dimensional Inputs using Bayesian Convolutional Neural Networks,[online],2016年,https://www.semanticscholar.org/paper/Active-Learning-for-High-Dimensional-Inputs-using-Islam/49267bd31f713f17dadd891761efd5f17b1d71ba

Also Published As

Publication number Publication date
KR102638370B1 (ko) 2024-02-21
KR20220000946A (ko) 2022-01-04
WO2021225279A1 (en) 2021-11-11
US10970645B1 (en) 2021-04-06
JP2023514294A (ja) 2023-04-05
CN115443471A (zh) 2022-12-06
EP3907654A1 (en) 2021-11-10

Similar Documents

Publication Publication Date Title
JP7303392B2 (ja) オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス
Serna et al. Classification of traffic signs: The european dataset
JP6849932B2 (ja) 高精密度のイメージを分析するためのディープラーニングネットワークを使用するためにトレーニングイメージをオートラベリングするオートラベルリング装置のハイパーパラメータを最適化する方法、及びこれを利用した最適化装置
JP7282250B2 (ja) オブジェクトデテクターのためのディープエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びこれを利用したアクティブラーニングデバイス
CN115937655B (zh) 多阶特征交互的目标检测模型及其构建方法、装置及应用
CN112990065B (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN114841972A (zh) 基于显著性图和语义嵌入特征金字塔的输电线路缺陷识别方法
CN111738055A (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN111860823B (zh) 神经网络训练、图像处理方法及装置、设备及存储介质
CN111488879A (zh) 利用双嵌入构成的用于提高分割性能的方法及装置
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
Seeger et al. Towards road type classification with occupancy grids
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
Sharma et al. Deep convolutional neural network with ResNet-50 learning algorithm for copy-move forgery detection
CN111898570A (zh) 基于双向特征金字塔网络的图像中文本识别方法
CN117441196A (zh) 用于确定图像描述符的方法、编码流水线、以及视觉地点识别方法
Wang et al. Extraction of main urban roads from high resolution satellite images by machine learning
CN114202765A (zh) 一种图像文本识别方法和存储介质
Ranjbar et al. Scene novelty prediction from unsupervised discriminative feature learning
Li et al. Infrared Small Target Detection Algorithm Based on ISTD-CenterNet.
Pandya et al. A novel approach for vehicle detection and classification
CN117830874B (zh) 一种多尺度模糊边界条件下的遥感目标检测方法
Sujee et al. Natural Scene Classification
Bhugwan et al. A comparison between fully connected and deconvolutional layers for road segmentation from satellite imagery
Tee License Plate Recognition Using Convolutional recurrent Neural Network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230622

R150 Certificate of patent or registration of utility model

Ref document number: 7303392

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150