JP7128022B2 - 完全教師あり学習用のデータセットの形成 - Google Patents

完全教師あり学習用のデータセットの形成 Download PDF

Info

Publication number
JP7128022B2
JP7128022B2 JP2018088031A JP2018088031A JP7128022B2 JP 7128022 B2 JP7128022 B2 JP 7128022B2 JP 2018088031 A JP2018088031 A JP 2018088031A JP 2018088031 A JP2018088031 A JP 2018088031A JP 7128022 B2 JP7128022 B2 JP 7128022B2
Authority
JP
Japan
Prior art keywords
localization
image
annotation
object category
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018088031A
Other languages
English (en)
Other versions
JP2018200685A (ja
Inventor
デュポン・ド・ディネシャン ルイ
レジェブ・スファールスファール アスマ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dassault Systemes SE
Original Assignee
Dassault Systemes SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dassault Systemes SE filed Critical Dassault Systemes SE
Publication of JP2018200685A publication Critical patent/JP2018200685A/ja
Application granted granted Critical
Publication of JP7128022B2 publication Critical patent/JP7128022B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は、コンピュータプログラムおよびシステムの分野に関し、より具体的には、信号処理に関連する方法、装置、データ構造、およびプログラムに関する。
オブジェクトの設計、エンジニアリング、製造のため、多数のシステムおよびプログラムが市場に提供されている。CADは、コンピュータ支援設計(Computer-Aided Design)の略語であり、例えば、オブジェクトを設計するためのソフトウェア・ソリューションに関する。CAEは、コンピュータ支援エンジニアリング(Computer-Aided Engineering)の略語であり、例えば、将来の製品の物理的挙動をシミュレーションするためのソフトウェア・ソリューションに関する。CAMは、コンピュータ支援製造(Computer-Aided Manufacturing)の略語であり、例えば、製造工程および動作を定義するためのソフトウェア・ソリューションに関する。このようなコンピュータ支援設計システムにおいて、グラフィカル・ユーザ・インターフェースは、技術の効率に関して、重要な役割を果たす。これらの技術は、製品ライフサイクル管理(Product Lifecycle Management: PLM)システムに組み込むことができる。PLMとは、企業が、拡張エンタープライズの概念全体にわたって、製品データを共有し、共通の工程を適用し、構想に始まり製品寿命の終わりに至る製品開発のための企業知識を活用するのを支援するビジネス戦略を指す。ダッソー・システムズが提供するPLMソリューション(製品名CATIA、ENOVIA、DELMIA)は、製品エンジニアリング知識を体系化するエンジニアリング・ハブ、製造エンジニアリング知識を管理する製造ハブ、およびエンジニアリング・ハブと製造ハブの両方に対するエンタープライズ統合と接続を可能にするエンタープライズ・ハブを提供する。全てのシステムは、製品、工程、リソースを結ぶオープンなオブジェクトモデルを提供し、最適化された製品定義、製造準備、生産およびサービスを推進する、動的な知識ベースの製品作成および意思決定支援を可能にする。
こうした背景において、シーン理解がより重要視されるようになってきている。シーン理解は、特に、複数物体検出アルゴリズムのような物体検出ソリューションに関する。例えば、画像が与えられた場合、複数物体検出アルゴリズムは、複数の物体のすべてのインスタンスの位置の特定と認識を同時に行うことを含んでいてもよい。物体検出は、自動走行車または盲目または弱視の人のための身体装着型カメラなど、多くの用途において有用であり得る。
以下の論文がこの分野に関連しており、以降で言及している。
[1]Y.Lecun et al."Backpropagation applied to handwritten zip code recognition",Neural Comput,1989 [2]S.Ren,et al.,"Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks",NIPS 2015 [3]J.Dai et al.,"R-FCN: Object Detection via Region-based Fully Convolutional Networks",NIPS 2016 [4]K.Kim et al.,"PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection",NIPS 2016 [5]O.Russakovy et al.,"ImageNet Large Scale Visual Recognition Challenge",IJCV 2015 [6]The paper published at the following URL at the priority date of the present application: http://host.robots.ox.ac.uk/pascal/VOC/voc2012/ [7]V.Kantorov et al."ContextLocNet: Context-Aware Deep Network Models for Weakly Supervised Localization",ECCV 2016 [8]H.Bilen and A.Vedaldi "Weakly Supervised Deep Detection Networks",CVPR 2016 [9]D.Li et al,"Weakly Supervised Object Localization with Progressive Domain Adaptation",CVPR 2016 [10]Dim P.Papadopoulos et al,"We don’t need no bounding-boxes: Training object class detectors using only human verification",CVPR 2016 [11]J.Hoffman et al."LSDA: Large Scale Detection trough Adaptation",NIPS 2014 [12]H.Bilen et al."Weakly supervised object detection with convex clustering",CVPR 2015 [13]P.M; Long et al."Pac learning axis-aligned rectangles with respect to product distributions from multiple-instance examples",Machine Learning 30(1) 1998 [14]B.Babenko "Multiple Instance Learning: Algorithms and Applications" Technical Report,University of California,San Diego 2004 [15]R.G.Cinbis,et al."Weakly supervised object localization with multi-fold multiple instance learning",arXiv 2015 [16]T.Deselaers et al."Localizing objects while learning their appearance" ECCV 2010 [17]R.Girshick,"Fast R-CNN",ICCV 2015 [18]R.Girshick et al."Rich feature hierarchies for accurate object detection and semantic segmentation" CVPR 2014 [19]Koen E.A.van de Sande et al."Segmentation as Selective Search for Object Recognition",ICCV 2011 [20]Rumelhart et al."Learning internal representations by error backpropagation",1986 [21]Everingham et al."The PASCAL Visual Object Classes (VOC) Challenge"
近年、シーン理解のための複数物体検出に関して、多くの研究が行われている。このような方法は、典型的には、物体を認識し、すべてのインスタンスを画像内の境界ボックスの形で局所化することを試みる。そこでは、視点および構成の異なる複数の物体が、雑然とした背景に現れる。現在の最先端の方法は、畳み込みニューラルネットワーク(CNN)[1]に基づいて、ディープラーニングを採用している。そのようなモデルを訓練するために、異なるレベルの教師(supervision)が考えられる。複数物体検出処理において最も一般的なものは、完全教師と、弱教師とも呼ばれる画像レベル教師である。
完全教師あり学習法[2,3,4]は、標準ベンチマーク[5,6]で最高の精度を達成するが、コストが非常に高い訓練用データセットを必要とする。実際、この場合、各訓練画像は、異なる物体位置(例えば、境界ボックス)およびカテゴリ(例えば、「人」、「自動車」、「建物」など)によりラベル付けされる。
物体検出器を学習するための事前のアノテーションにかかる時間/コストの削減のため、近年の研究では、画像レベルのラベルを用いる弱教師ありの設定でモデルを訓練することに焦点を当てている[7,8,9,10,11]。この場合、訓練中に利用できる唯一の情報は、画像内に存在する物体カテゴリの集合であり、局所化や発生回数についての情報はない。
ディープラーニングのパラダイムによる進歩にもかかわらず、物体検出のための画像レベルの教師は、依然として非常に困難な課題である。弱教師ありの設定の最先端のものでも、その性能は、完全教師ありのものと比較すると、かなり低い(半減する)。
いくつかの既存の弱教師あり学習法[10,11,12]は、複数インスタンス学習(Multiple Instance Learning:MIL)として定式化されているか、あるいはそれに密接に関連している[13,14]。この定式化では、画像は領域のバッグ(bag of regions)として解釈される。画像がポジティブとラベル付けされている場合、領域の1つが注目物体を密に含むものとみなされる。画像がネガティブとラベル付けされている場合、物体を含む領域は存在しない。学習は、物体の外観のモデルを推定することと、ポジティブであるバッグのどの領域が物体に対応するかを外観モデルを用いて選択することとを、交互に行う。MILの手法は、非凸最適化問題に帰結する。実際には、ソルバは、解の品質が初期化に強く依存し、局所的な最適値に嵌まり込む傾向がある[15,16]。
また、CNNが分類や検出を含む多くの視覚処理において驚くほど効果的であることが判明したため、最近の最先端の弱教師ありのアプローチもまた、CNNアーキテクチャ、あるいはCNN機能に基づいている。例えば、[8]において、著者は領域ベースのCNNアーキテクチャ[17]を修正し、2つのストリーム、すなわち、認識に焦点を当てたストリームと、領域の選択と、画像レベルのラベルからのエンドツーエンドの訓練による分類とを同時に行う局所化に焦点を当てたストリームを有するCNNを提案している。これらのアプローチは有望な結果を示しているが、依然としていくつかの欠点がある。典型的には、これらは外部アルゴリズムから抽出された領域候補の品質に依存する[19]。そのような候補には通常、ノイズが多く含まれ過ぎているため、正しい物体の提案を選択するのが困難になる。一般に、数千件の提案のうち、実際の物体のインスタンスは、ほんのわずかに過ぎない。
こうした背景において、物体検出の分野における改善された解決策が依然として必要とされている。
したがって、コンピュータによって実施される信号処理の方法が提供される。本方法は、複数の画像を提供することを含む。本方法はまた、前記複数の画像のうちの少なくとも1つの部分集合のうちのそれぞれ1つについて、弱教師ありで学習された関数を適用し、弱教師ありで学習された関数の出力に基づいて、1つまたは複数のアノテーションを決定する。弱教師ありで学習された関数は、複数の組を出力する。各組は、それぞれ局所化、および1つまたは複数の信頼スコアを含む。各信頼スコアは、各局所化における物体カテゴリのインスタンス化の確率を表す。各アノテーションは、局所化とラベルを含む。ラベルは、当該局所化における物体カテゴリのインスタンス化を表す。本方法はまた、データセットを形成することを含む。データセットは複数のデータを含む。各データは、前記部分集合における画像と、各画像について決定された1つまたは複数のアノテーションのうちの少なくとも一部とを含む。
本方法は、関数の完全教師あり学習用に構成されたデータセットを形成することを可能にする。データセットが、画像内でインスタンス化された物体カテゴリに関する情報だけでなく、インスタンス化の局所化についての情報も含むことにより、完全教師あり学習が達成可能である。本方法によって決定されたアノテーションは、これらのアノテーションが従来技術の強アノテーション(strong annotations)、すなわち、ユーザが画像内の物体を手動で局所化することによるアノテーションと同じくらい多くの情報を提供するという意味で、「擬似強アノテーション(pseudo strong annotation)」と呼ばれる。このように、本方法はさらに、そのような完全教師あり学習を含んでいてもよい。
弱教師ありで学習された関数同様、完全教師ありで学習された関数は、画像に適用され、複数の組を出力する。出力された各組は、それぞれ局所化、および1つまたは複数の信頼スコアを含む。各信頼スコアは、当該局所化における物体カテゴリのインスタンス化の確率を表す。弱教師ありで学習された関数同様、完全教師ありで学習された関数は、それにより画像内の物体カテゴリのインスタンスを検出するように構成され、よって、シーンの理解を可能にする。このように、本方法は、完全教師ありで学習された関数を提供することと、1つまたは複数の画像、例えば、少なくともその一部が最初に提供された画像に含まれていない画像に、完全教師ありで学習された関数を適用することとを含み得る検出工程に対する供給を行ってもよい。
ここで、本方法は、ユーザが手動で物体の局所化に関する情報を識別する必要がある従来技術よりも簡単な方法でデータセットを形成する。実際、本方法は、弱教師ありで学習された関数を適用することを含み、これは、前段階で、複数の初期データを含む初期データセットが利用可能であることを意味する。各初期データは、それぞれの画像と、それぞれのアノテーションとを含む。この場合、アノテーションは、それぞれラベルの集合から成り、各ラベルは、それぞれの画像内における物体カテゴリのインスタンス化を表す。初期データセットの各画像と共に提供され、弱教師あり学習を実行するために必要なこのような情報は、従来技術では「弱アノテーション」と呼ばれている。初期データセットの弱アノテーションは、任意の局所化情報を除外することができ、したがって、完全教師あり学習、すなわち強アノテーションに必要な情報よりも軽く、よって、より簡単に手動で作成できる。
本方法は、完全教師あり学習用に構成されたデータセットを手動で提供するのと比較して、手動で実施されたとしても比較的簡単な、このような初期データセットを提供することを含む工程に含まれていてもよい。当該工程は、また、初期データセットに基づいて弱教師ありで学習された関数を学習することを含んでいてもよい。次いで、当該工程は、初期データセットの画像の一部または全体からなるか、あるいはそれを含み得る、かつ/あるいは、初期データセットには含まれていない画像からなるか、あるいはそれを含み得る、提供された画像に基づき、完全教師あり学習用に構成されたデータセットを形成することを含んでいてもよい。
そのようなフレームワークは、あらゆるユーザについて、少なくとも一から画像内の物体を手動で局所化する作業を排除できる。実際、本方法は、弱教師ありで学習された関数を単純に適用することと、次いで、弱教師ありで学習された関数の出力に基づいてアノテーションを決定することとを含み、ここで、局所化情報は既に利用可能であり、それに基づくことができる。したがって、局所化情報は、一から手動で示す必要がない。例において、弱教師ありで学習された関数を適用することと、アノテーションを決定することと、データセットを形成することとは、場合によりユーザが本方法を起動した後に、完全に自動的に実行されてもよい。
本方法は、以下のうちの1つまたは複数を含んでいてもよい。
・各アノテーションの局所化は、前記弱教師ありで学習された関数によって出力された1つまたは複数の局所化に対応する。
・各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、厳密にゼロより大きい信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである。
・各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、最も高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである。
・各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、厳密に正の閾値より高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである。
・前記閾値は、前記複数の画像内の物体の平均数に依存する値を有する。
・前記部分集合の少なくとも一部の画像のそれぞれについて、当該画像に初期ラベルが与えられており、各初期ラベルは、それぞれの画像内の各物体カテゴリのインスタンス化を表し、当該画像のアノテーションのラベルは、その画像の初期ラベルに対応する各物体カテゴリのインスタンス化を表す。かつ/あるいは、
・各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化は、クラスタ化アルゴリズムにより識別される。
さらに、本方法によって形成可能なデータセットが提供される。言い換えれば、データセットは複数のデータを含み、各データは、画像と、前記複数の画像の少なくとも一部について、局所化、および当該局所化における物体カテゴリのインスタンス化を表すラベルを含む、1つまたは複数のアノテーションとを含む。
さらには、上記の例における本方法によって学習可能な関数がさらに提供され、それは、前記形成されたデータセットに基づく完全教師あり学習を含む。言い換えれば、前記関数は、入力を出力に変換するスキームを構成し、当該スキームは、本方法によって取得可能である。前記関数は、画像内の物体を検出するための、コンピュータによって実施される工程において用いられてもよい。
さらには、前記方法、および/または、前記工程を実行するための命令を含むコンピュータプログラムが提供される。
さらには、前記データセット、前記関数、および/または、前記プログラムを含むデータ構造が提供される。
さらには、前記データ構造を記録したコンピュータ読み取り可能な記憶媒体が提供される。
さらには、前記データ構造を記録したデータ記憶媒体を備える装置が提供される。前記装置は、非一時的コンピュータ読み取り可能媒体を構成してもよい。あるいは、前記装置は、前記データ記憶媒体に接続されたプロセッサを備えていてもよい。前記装置は、そのようにシステムを構成してもよい。前記システムはさらに、前記プロセッサに接続されたグラフィカル・ユーザ・インターフェースを備えていてもよい。
以下、非限定的な例として、本発明の実施の形態を添付の図面を参照しつつ説明する。
本システムの一例を示す。 本方法の例を示す。 本方法の例を示す。 本方法の例を示す。 本方法の例を示す。 本方法の例を示す。 本方法の例を示す。 本方法の例を示す。 本方法の例を示す。 本方法の例を示す。
「コンピュータにより実施される」とは、すなわち、ステップ(あるいは略全てのステップ)が少なくとも1つのコンピュータ、または類似の任意のシステムによって実行されることを意味する。よってステップは、コンピュータにより、完全に自動的に、あるいは半自動的に実行される可能性がある。例えば、少なくともいくつかのステップは、ユーザとコンピュータの対話を通じて始動されてもよい。求められるユーザとコンピュータの対話レベルは、想定される自動性のレベルに応じたものであって、ユーザの要望を実装する必要性との間でバランスをとるものとしてもよい。例えば、このレベルは、ユーザが設定し、かつ/あるいは、予め定義されていてもよい。
方法のコンピュータによる実施の典型的な例は、この目的に適したシステムを用いて本方法を実行することである。当該システムは、本方法を実行するための命令を含むコンピュータプログラムを記録したメモリに接続されたプロセッサ、および、グラフィカル・ユーザ・インターフェース(GUI)を備えていてもよい。メモリは、データベースを記憶していてもよい。メモリは、そのような記憶に適した任意のハードウェアであり、場合により、物理的に区別可能ないくつかの部分(例えば、プログラム用に1つ、場合によりデータベース用に1つ)を含む。
図1は、本システムの一例を示すものであって、当該システムは、クライアントコンピュータシステム、例えばユーザのワークステーションである。
本例のクライアントコンピュータは、内部通信バス1000に接続された中央演算処理装置(CPU)1010、および同じくバスに接続されたランダムアクセスメモリ(RAM)1070とを備える。クライアントコンピュータは、さらに、バスに接続されたビデオランダムアクセスメモリ1100と関連付けられたグラフィックス処理装置(GPU)1110を備える。ビデオRAM1100は、当該技術分野において、フレームバッファとしても知られる。大容量記憶装置コントローラ1020は、ハードドライブ1030などの大容量記憶装置へのアクセスを管理する。コンピュータプログラムの命令及びデータを具体的に実現するのに適した大容量メモリ装置は、例として、EPROM、EEPROM及びフラッシュメモリ装置のような半導体メモリ装置、内蔵ハードディスクやリムーバブルディスクなどの磁気ディスク、光磁気ディスク、およびCD-ROMディスク1040を含む、全ての形式の不揮発性メモリを含む。前述のいずれも、特別に設計されたASIC(特定用途向け集積回路)によって補完されてもよいし、組み入れられてもよい。ネットワークアダプタ1050は、ネットワーク1060へのアクセスを管理する。クライアントコンピュータはまた、カーソル制御装置、キーボードなどの触覚装置1090を含んでいてもよい。カーソル制御装置は、ユーザがディスプレイ1080上の任意の所望の位置にカーソルを選択的に位置させることを可能にするために、クライアントコンピュータ内で使用される。さらに、カーソル制御装置は、ユーザが様々なコマンドを選択し、制御信号を入力することを可能にする。カーソル制御装置は、システムに制御信号を入力するための多数の信号生成装置を含む。典型的には、カーソル制御装置はマウスであってもよく、マウスのボタンは信号を生成するために使用される。あるいは、または追加的に、クライアントコンピュータシステムは、感知パッドおよび/または感知スクリーンを備えてもよい。
コンピュータプログラムは、コンピュータによって実行可能な命令を含んでいてもよく、命令は、上記システムに本方法を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体に記録可能であってもよい。プログラムは、例えば、デジタル電子回路、またはコンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。プログラムは、例えばプログラマブルプロセッサによる実行のための機械読み取り可能な記憶装置に具体的に実現された製品のような装置として実装されてもよい。方法ステップは、プログラム可能なプロセッサが命令のプログラムを実行し、入力データを操作して出力を生成することによって方法の機能を実行することによって実行されてもよい。したがって、プロセッサは、データ記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、また、それらにデータおよび命令を送信するようにプログラム可能であってもよく、またそのように接続されていてもよい。アプリケーションプログラムは、高水準の手続き型またはオブジェクト指向のプログラミング言語で、または必要に応じてアセンブリ言語または機械語で実装されていてもよい。いずれの場合も、言語はコンパイラ型言語またはインタープリタ型言語であってもよい。プログラムは、フルインストールプログラムまたは更新プログラムであってもよい。いずれの場合も、プログラムをシステムに適用すると、本方法を実行するための命令が得られる。
ここで、画像における物体検出の分野においてそれ自体知られている異なる概念について議論する。
画像は、例えばシーン上の、物理的信号の空間分布を表すデータ構造である。空間分布は、任意の次元のものであってよく、例えば2Dあるいは3Dである。空間分布は、例えばグリッドを形成し、それによってピクセルを定義するなど、任意の形状であってもよく、グリッドは場合により非規則的または規則的である。物理的信号は、画像がRGB画像またはグレースケール画像または深度画像となるような、例えば色やグレーレベルや深度など、任意の信号であってもよい。画像は合成画像であってもよいし、あるいは写真のような自然画像であってもよい。提供され、かつ/あるいは、完全教師ありで学習された関数が適用される画像は、例えばすべてが矩形の2DのRGB画像、あるいはグレースケール画像、あるいは深度画像であるなど、すべて同じタイプであってもよい。あるいは、異なる画像タイプの集合を考えてもよい。
「物体カテゴリ」という表現は、画像内でインスタンス化および局所化が可能なエンティティ(すなわち物体)の任意のクラスを指定し、当該エンティティは、弱教師ありで学習された関数のような物体検出器により、少なくともある程度まで、同じクラスに属していると認識できる。物体カテゴリの、あるバージョン、言い換えれば、当該カテゴリの物体が、各局所化において表される場合、物体カテゴリは、画像の当該局所化でインスタンス化されていると言う。
同じ物体カテゴリの異なるインスタンス、つまり同じカテゴリの異なる物体は、異なる特性を示してもよい。例えば、同じ画像内に表される自動車の異なるモデルは、すべて同じ物体カテゴリ、例えば「自動車」のカテゴリのインスタンスとみなされてもよい。
弱教師ありで学習された関数は、画像内の物体カテゴリのインスタンスを検出するように構成されており、本方法によって企図された物体カテゴリは、例えば、弱教師ありで学習された関数によって検出可能な全てのカテゴリに対応する、物体カテゴリの所定の集合を構成してもよい。したがって、当該所定の物体の集合は、弱教師ありで学習された関数の構成または能力によって定義されていてもよい。
カテゴリ間の差別化の度合いは、当該所定の集合によって表される詳細の度合いに依存していてもよい。言い換えれば、弱教師ありで学習された関数の差別化能力に応じて、自動車とトラックは、同じ物体カテゴリ(例えば「車両」)、または異なるカテゴリ(「自動車」と「トラック」)に属するものとみなされてもよい。
「局所化」という用語は、画像に関する任意の位置情報を指す。局所化は、例えば、画像の下位部分を定義してもよい。当該下位部分は、コネックス(connex)状、かつ/あるいは、凸状であってもよい。本方法によって企図される局所化は、例えば、内部に画像の下位部分を定義する矩形である境界ボックスに限定されていてもよい。別の例において、弱教師ありで学習された関数、および/または完全教師ありで学習された関数は、入力画像の区画化によって定義される局所化、言い換えれば、各画素が区画に関連付けられ、それにより各区画が局所化されたフォーマットを出力してもよい。
画像、あるいは画像内の各局所化は、ラベル付けによって提供されてもよい。各ラベルは、各物体カテゴリのインスタンス化を表す。言い換えると、各ラベルは、画像内にそれぞれの物体カテゴリの少なくとも1つのインスタンス(すなわち、それぞれのカテゴリの物体)が存在するという事実、あるいは、その局所化において、その物体カテゴリのインスタンスが1つだけ存在するという事実を表すデータである。ラベルは画像レベルで存在してもよく、その場合、ラベルは、画像の弱アノテーションを形成し、すなわち弱教師あり学習のみを可能にするラベルであり、または局所化レベルで存在してもよく、その場合、ラベルは、さらに完全教師あり学習を可能にする。
「画像内の物体の検出」という表現は、画像内における物体カテゴリのインスタンス化の自動認識に関する任意の工程を指す。弱教師ありで学習された関数、および完全教師ありで学習された関数は、そのような検出を実行するように構成される。特に、「弱教師ありで学習された関数」と「完全教師ありで学習された関数」は、それぞれ画像を入力とし、入力画像に対して、複数の組を出力するように構成されている。出力された各組は、局所化、および1つまたは複数の信頼スコアを含むデータを構成する。各信頼スコアは、各局所化における物体カテゴリのインスタンス化の確率を表す。このような出力情報は、任意の具体的なシーン理解アプリケーション用に、任意の方法で後処理してもよい。
弱教師ありで学習された関数と完全教師ありで学習された関数とは、学習のされ方が互いに異なる。しかし、完全教師あり学習用に構成された同じデータセットに対しては(よって弱教師あり学習用に対してはなおさら)、一般に、完全教師ありで学習された関数のほうが、弱教師ありで学習された関数よりも、より高い精度で物体検出を行うという意味で、優れている。実際、弱教師あり学習には、データセットのラベルに対応する物体の位置をどのように特定するかについての学習が含まれていなければならない。なぜなら、そのような情報はアノテーション内には提供されていないからである。一方、完全教師あり学習の場合は、局所化情報が既にアノテーションによって提供され、設定されているため、物体カテゴリ自体の認識に集中することができる。本方法で企図される、弱教師ありで学習された関数、および完全教師ありで学習された関数は、それらのフォーマットの任意の関数であってもよい。例については後述する。
本方法のフレームワークは、[18]のような従来技術の物体検出器同様、ディープラーニングのモデルに基づいていてもよい。ここで、物体検出に適用され、本方法によって実施可能な、ディープラーニングの分野で知られている異なる概念について論じる。
ディープラーニングのモデルは、手作業では値を設定することができない何百万という数のパラメータによって特徴付けられる。したがって、これらのパラメータは、学習アルゴリズムのおかげで設定されるものである。学習アルゴリズムがモデルパラメータを更新するとき、モデルは「訓練モード」にあると言われる。これは、各入力に関連付けられたアノテーションにより、各入力に対するモデルの出力に応じてモデルを連続的に「修正」することからなる。アノテーションは、モデルの出力が真か偽かを評価することを可能にする特定の入力と関連付けられたデータの集合である。例えば、猫と犬の画像を区別するように訓練された物体分類器は、猫と犬のアノテーション付き画像のデータセットに基づいて実行することができ、各アノテーションは「猫」または「犬」である。このように、その訓練モードにおいて、入力された猫の画像について物体分類器が「犬」を出力する場合、学習アルゴリズムは、そのパラメータを更新することによってモデルを修正する。このような、アノテーション付きデータセットによりモデルの訓練を監督する方法を「教師あり学習」と呼ぶ。
モデルが訓練されると、そのパラメータの更新を停止する。次いで、モデルは、新しい入力(すなわち、訓練モード中には見えない入力)を処理して検出結果を返すためにのみ用いられ、このようなモデルは「テストモード」にあると言われる。
「検出」処理は、認識(または分類)処理と局所化処理とを一緒に実行することを意味し得るため、物体検出器は、2つの異なる出力を返してもよい。
1.局所化出力:境界ボックスのおかげで物体の局所化を行うことができる。境界ボックスは、軸が画像の辺に平行な矩形のボックスである。それは4つの座標によって特徴づけられる。理想的には、物体検出器は、各物体に対して、物体を中心とする境界ボックスを適切な比率および縮尺で返すことができる。
2.分類出力:各境界ボックスの信頼スコアに関連付けられたカテゴリラベルのおかげで、物体分類を行うことができる。信頼スコアは、0と1との間の実数であってもよい。スコアが1に近ければ近いほど、物体検出器は、対応する境界ボックスに関連付けられたカテゴリラベルについて、より信頼性が高い。
そのようなモデルに対して、2つのパラダイムを区別することができる。
・完全教師あり物体検出:このパラダイムでは、アノテーションはラベル付けされた境界ボックスであってもよい。それらを「強アノテーション」と呼ぶ。このパラダイムでは、アノテーションによって前述の2つの異なる出力を個別に修正することができる。
・弱教師あり物体検出:このパラダイムでは、アノテーションは画像レベルラベルのみであってもよい。すなわち、各画像には、画像に現れた物体カテゴリのリストによってアノテーションが付される。それらを「弱アノテーション」と呼ぶ。物体の局所化に関する情報は提供されず、また場合により、物体カテゴリごとの発生数について情報も提供されない。したがって、画像レベルのラベルによって局所化出力を直接修正することはできない。しかしながら、弱教師あり物体検出器は、この種の教師によって訓練され、完全教師あり物体検出器と同じ種類の出力を返すように設計されている。
本方法は、弱教師あり物体検出のパラダイムを実施する。このパラダイムにおいて、モデルは、弱アノテーションを付された画像のデータセットで訓練される。
従来技術では、弱教師あり物体検出器は、弱アノテーション(すなわち、画像レベルのラベルのみ)で直接訓練され、各物体カテゴリの信頼スコアに関連付けられた境界ボックスの形で検出結果を返す。
本方法では、局所化情報なしの画像レベルのカテゴリラベルのみで物体検出器を訓練する可能性を提供する。このように、本方法は、完全教師あり物体検出器の高性能と弱教師あり物体検出器の安いアノテーションコストとを活用することができる、新規な弱教師あり物体検出フレームワークからなっていてもよい。
図2は本方法の一例のフローチャートを示す。
図2の本方法は、画像を提供すること(S10)を含む。S10で提供された各画像には、それぞれ初期ラベルが与えられている。したがって、S10で提供されたデータは、弱教師ありで学習された任意の関数の学習のために構成されたデータセット、例えば、S20に含まれるものを形成する。したがって、図2の方法は、S10の後かつS20の前に、そのような弱教師あり学習を含んでいてもよい。
初期ラベルはまた、S50で、形成されたデータセットを改善する特定のフィルタリングの実行を可能にする。これは、部分集合の画像にのみそれぞれの初期ラベルが与えられている場合にも当てはまる。ここで、以下の説明は、S50が破棄された場合(言い換えれば、S40の出力がS60に直接入力された場合)に、S10で初期ラベルが全く与えられない場合にも当てはまり、その場合、S50に関する説明は破棄される。
この例の方法は、S10で提供された画像のうちの少なくとも1つの部分集合における各画像に対して、特定のスキームS20~S80を実行することを含む。処理全体における任意の時点で、S10で提供される画像を任意の理由で破棄してもよい(例えば、画像が壊れていたり、他の画像と重複していたりして、役に立たないことが判明した場合など)。また、与えられた画像に対して、S20~S80のいずれかの出力が無効となってもよい。そのような場合、与えられた画像について本スキームを終了させることができる。無効な結果が後の学習(S100)に有益な情報を構成することがあり得るため、与えられた画像はそのとき廃棄されてもよいし、S90にそのまま提供されてもよい。このような状況は、明瞭化のために図には示されていない。上述の「部分集合」は、あらゆる場合において、S10で提供される画像の集合の一部であり、それよりS20~S80が正常に実行される。
本スキームは、弱教師ありで学習された関数を適用すること(S20)を含む。弱教師あり関数は、S20に入力された各画像について同じ所定のものであってもよい。他の例では、S20において、弱教師ありで学習された異なる関数が入力された画像に応じて適用されてもよい。
弱教師ありで学習された関数は、各画像境界ボックス、および出力された各境界ボックスについて、信頼スコアの集合を出力する。各信頼スコアは、弱教師ありで学習された関数によって検出可能なそれぞれの物体カテゴリに関連付けられ、境界ボックス内における物体カテゴリのインスタンス化の確率を(弱教師ありで学習された関数に従って)表す。言い換えれば、弱教師あり関数は、(例えば、前回の弱教師あり学習により)所定の物体カテゴリの集合を知っており、S20で入力された各画像について、弱教師あり関数は、物体を含むと想定される境界ボックスと、物体が所定のカテゴリのそれぞれに属する確率を出力する。以下の説明は、S60~S70を除いて、境界ボックス以外のタイプの局所化にも当てはまる。
この時点で、図2の方法は、最終的に形成されるデータセットに関して、S20の出力を処理するためのオプションを実施する。これらのオプションは、後の完全教師あり学習(S100)のためにS20に入力された画像について、S80において、関連するアノテーションを形成することに関与する。S80で形成されるアノテーションは、インスタンス(すなわち、カテゴリの物体)が境界ボックス内の画像によって表されると想定される物体カテゴリを示すラベルにそれぞれ関連付けられた境界ボックスを含む。ここで、オプションは、S80でアノテーションに含める各境界ボックスと、S20で出力される1つまたは複数の境界ボックスとの、対応関係を決定することを目的とする。これについてここで説明する。
本方法は、まず、S20によって出力されたすべての境界ボックスについてループすることと、最も高い信頼スコアではない信頼スコアをすべて除外すること(S30)とを含む。言い換えれば、本方法は、各境界ボックスについて、最も高い信頼スコアを選択し、その他すべての信頼スコアに関する情報(関連付けられた物体カテゴリを含む)を破棄する。この時点で、残りの情報は複数のデータからなり、各データは、S20によって出力された境界ボックスのうちのそれぞれの境界ボックス、境界ボックスごとに1つのカテゴリ、および各境界ボックスにおけるそれぞれの物体カテゴリのインスタンス化の信頼スコアを含む。
本方法の残りの部分は、S80でアノテーションに含まれるべき境界ボックスと、同一物体カテゴリに関連付けられた残りの情報内の1つまたは複数の境界ボックスとの対応関係を決定することである。したがって、上記の同一物体カテゴリは、厳密にゼロより大きいだけでなく、(対応する境界ボックスのそれぞれの)最も高い信頼スコアである信頼スコアによって表されるインスタンス化の確率を有するものである。これにより、関連するデータセットがS90で最終的に形成されることを確実にするフィルタリングが可能となる。
ここで、図2の方法は、フィルタリングを改善するために他のオプションを実施する。
この例の方法は特に、厳密に正である所定の閾値より(例えば、厳密に、または厳密にではなく)低い信頼スコアに関連付けられた、S30によって出力されたすべての境界ボックスを除外すること(S40)を含む。これにより、(低すぎる確率により)無関係な情報の量を減らすことが可能になる。
例えば、閾値は、S20が実行される画像内の物体の平均数に依存する値を有していてもよい(すなわち、画像ごとに任意の物体カテゴリのインスタンスの平均。そのような場合、同じカテゴリの2つのインスタンスが2回カウントされる)。そのような平均数は、任意の方法で、かつ/あるいは、事前の任意の時点で、(例えば、S20またはS30の出力に基づいて)あらかじめ提供されてもよいし、計算されてもよいし、近似されてもよい。
閾値の値は、S60に入力される画像ごとの境界ボックスの平均数が、S20に入力される画像ごとの物体の平均数よりも、例えば厳密に、大きくなるような値であってもよい。本方法は、例えば、後の任意のフィルタリング(この例ではS50など)を考慮して、S60に入力される画像ごとの境界ボックスの最小平均数を考えてもよく、当該最小平均数は、S20に入力される画像ごとの物体の平均数よりも(例えば、厳密に)大きく、上記閾値は、この最小平均数に達することを確実にする、任意の値である。本方法は、そのような閾値を任意の方法で明示的に決定してもよいし、あるいは、S60に入力された境界ボックスの数が最小平均数に達するまで、信頼スコアの、より高い値から始めて低い値まで境界ボックスのフィルタリングを繰り返し行ってもよい。
この例の本方法は、与えられた画像について、S10で当該与えられた画像に対して提供された初期ラベル中ではなく、物体カテゴリに対応する信頼スコアに関連付けられた、S40によって出力されたすべての境界ボックス(すなわち、前の2つのフィルタS30およびS40の後に残っているすべての境界ボックス)を除外すること(S50)をさらに含む。このように除外すること(S50)は、初期ラベルが、S10で提供された画像内でどの物体カテゴリがインスタンス化されたかを略完全に示していると想定し、それによりS50でこの想定と矛盾する結果が取り除かれる。これは、初期ラベルが、初期データセットを作成するためにユーザが画像に弱アノテーションを追加したことに由来するものである場合に特に当てはまる。
次いで、この例の本方法は、各入力画像に対して、カテゴリごとに実行されるクラスタ化アルゴリズムを実行する。各物体カテゴリについて、クラスタ化アルゴリズムは、互いに近接して局所化され、同じ物体を表すと想定される境界ボックスのグループ(またはクラスタ)を見つける。弱教師ありで学習された関数の適用(S20)は、実際、1とは異なる信頼スコア値によって表される物体カテゴリだけでなく、単一の物体インスタンスに対応するこれら複数の境界ボックスによって表される正確な局所化そのものについても、ある程度の不確実性を含む。
任意の局所化距離に基づく任意のクラスタ化アルゴリズムを実施することができる。例において、本方法は、対応する数のクラスタを生成するために、階層的クラスタ化、すなわち、任意の所与の深さで切断することができる樹状図を出力するクラスタ化を実施する。当該所与の深さは、S20が実行される画像内の物体の平均数に等しい数のクラスタに対応するように選択されてもよい。
次いで、この例の本方法は、各クラスタについて、当該クラスタを表す、対応する単一の境界ボックスを決定すること(S70)を含む。これは、例えばクラスタのすべての境界ボックス座標を平均化するなど、任意の方法で実行できる。あるいは、クラスタ化(S60)は、それ自体、本ケースにおいてはS70で決定された境界ボックスでありうる境界ボックスに対応する、各クラスタの重心の座標を出力してもよい。S70で決定されたこの境界ボックスは、クラスタに対応する物体カテゴリに関連付けられ、このような情報は、S80で、現在の入力画像のアノテーションとなる。
最終的に、本方法は、S90において、部分集合の画像および前記アノテーションを有するデータセットを形成し、この例の本方法はまた、当該データセットに基づいて、物体検出関数を学習すること(S100)(または訓練すること)を含む。あるいは、データセットは、学習のために、第三者に送られる可能性がある。
本方法は、これにより、以下を含む利点を有する弱教師あり物体検出フレームワークを提供してもよい。
・現在の最先端の弱教師あり物体検出器よりも高い精度。精度は、「mAP」([21]に記載)と呼ばれる指標によるテストで評価した。この指標が大きいほど、モデルの精度が高い。精度はパーセンテージで表される。本方法のテストでは、mAPが約35%から約40%へと改善を示した。
・本方法で提案される物体検出器は、時間がかかり正確ではない外部領域提案アルゴリズムに依存しない統合モデルを形成する。
・また、本方法のアプローチは、最先端の弱教師ありアプローチよりも高速であってもよい。
ここで、本方法の実施例について説明する。これらの実施例では、本方法は以下のコンポーネントの入力に基づいて実行される。
・モデル1:訓練されていない弱教師あり物体検出器。このような検出器は、画像レベルのラベルのみで訓練され、画像/シーンを入力とし、完全教師あり物体検出器と同じ出力、すなわち、ラベルおよび信頼スコアにそれぞれ関連付けられた境界ボックスの集合を返す。
・モデル2:訓練されていない完全教師あり物体検出器。このタイプの物体検出器は、強アノテーションを必要とし、弱教師あり物体検出器よりもはるかに効果的である。
・弱アノテーション付きの画像のデータセット。したがって、データセットの各画像は、当該画像内に現れる物体カテゴリのリストに関連付けられる。
これらの実施例では、本方法は、2つの連続した段階からなるフレームワークを提供する。
1.オフライン段階:この段階は、4つのステップでモデル2を訓練することを目的とする。この段階は、ユーザに対し透過的である。
1)まず、本方法は、図3に示すように、弱アノテーションを用いて画像のデータセットに基づきモデル1を訓練することを含んでいてもよい。訓練が行われると、本方法はこのモデルをテストモードで渡す。
2)次いで、本方法は、図4に示すように、データセットの全ての画像を処理するためにモデル1を用いることを含んでいてもよい。このとき、各画像は、弱アノテーションと、モデル1によって提供される検出結果に関連付けられている。モデル1によって提供される検出結果は、カテゴリラベルおよび信頼スコアを有する境界ボックスのリストから構成される。
3)本方法は、図5に示すように、「疑似強アノテーション」を形成するために、これらの結果をフィルタリングすることを含んでいてもよい。このフィルタリングは、2つのステップからなっていてもよい。
i.第1に、本方法は、閾値を超える信頼スコアの境界ボックスを維持するために、信頼スコア閾値を固定してもよい。
ii.第2に、本方法は、各画像について、ラベルが初期弱アノテーションに現れた境界ボックスのみを維持してもよい。
このとき、データセットの画像は、擬似強アノテーションに関連付けられている。
4)本方法は、図6に示すように、ステップ3で提供されたアノテーション、すなわち、擬似強アノテーションを用いて、データセットに基づきモデル2を訓練することを含んでいてもよい。
2.オンライン段階:モデル2は、図7に示すように、任意の見えない入力画像上で物体検出を実行するために、テストモードで渡してもよい。
この弱教師ありフレームワークにより、モデル1とモデル2の間のパフォーマンスが向上する。
図8は、オフラインおよびオンライン段階のそのような技術的ワークフローを示す。
ここで、モデル1の検出結果に適用されるフィルタリングの実施の詳細の例を説明する。
モデル1が訓練されると、本方法は、データセット2の各画像について、テストモードのモデル1によって提供される検出結果を得る。このように、本方法は、各カテゴリについて境界ボックス内の画像が当該カテゴリに属する確率を示す確率ベクトルと関連付けられた、境界ボックスのリストを、各画像について得る。
境界ボックスのフィルタリングの工程は、図9に示すように、S30~S40、S50、およびS60~S70の例にそれぞれ対応する3つの連続するステップに分解することができる。
第1のステップは、ラベル関連付けおよび信頼閾値に基づくフィルタリングを含む。ここで例について説明する。
本方法は、まず、各境界ボックスを単一のラベルおよび確率ベクトルにおける対応する値に関連付けてもよい。選択されたラベルは、確率ベクトルの中で最も大きい値を有するものに対応していてもよい。この値は、境界ボックスの信頼スコアと呼ばれる。次いで、信頼閾値により第1のフィルタリングを実行してもよい:信頼閾値より低い信頼スコアを有するすべての境界ボックスが除去される。この信頼閾値の値は、0と1の間の数値であり、データセット2の特性に依存してもよい。例えば、本方法は、データセット2の画像ごとの物体の平均数に基づいていてもよい。この平均数が予め知られていない場合、平均の近似値を決定してもよい。この情報が与えられると、信頼閾値の値を、クラスタ化ステップの入力における境界ボックスの画像ごとの平均数が画像ごとの物体の平均数よりも大きくなるように設定してもよい。したがって、信頼閾値は区間[0,b[に属し、ここでbは2つの平均値が等しくなるような限界値である。
第2のステップは、ラベルフィルタリングを含む。ここで例について説明する。
第1のステップの後に、データセット2に弱アノテーションが付与されている場合、すなわち、各画像が、当該画像内に現れる(および現れない)物体カテゴリのリストを示すアノテーションに関連付けられている場合、第2のフィルタリングを実行してもよい。このフィルタリングは、単に、ラベルがアノテーションに現れる境界ボックスを保持することだけからなっていてもよい。
第3のステップはクラスタ化を含む。ここで例について説明する。
直前のフィルタリングステップによって返された境界ボックスは、クラスタ化アルゴリズムによってフィルタリングされてもよい。このアルゴリズムの目的は、境界ボックスの局所化ノイズを低減することである。このアルゴリズムは、各画像について、検出された各カテゴリの境界ボックスの集合に、独立して適用される。1つの画像および少なくとも1つの検出された境界ボックスを有するカテゴリが与えられると、本方法は、4Dベクトルである境界ボックス座標の集合にクラスタ化アルゴリズムを適用してもよい。クラスタの数は未知であってもよい。Xmeansや階層的クラスタ化(Xu R、Wunsch Dによる論文「Survey of Clustering Algorithms」の特に650~651頁に記載)のような、個数が未知であるクラスタについてのクラスタ化問題を解決する任意のアルゴリズムが実施されてもよい。テストで成功し検出精度が改善した実施例において、本方法は、階層的クラスタ化アルゴリズムを実施してもよい。本方法は、適切な指標とリンク基準に基づいてクラスタの階層を構築することからなっていてもよい。このアルゴリズムは、ユークリッド距離と「単一リンククラスタ化」を用いてテストしてもよい。他の指標およびリンク基準を用いてもよい。このアルゴリズムは樹状図を構築する。ある高さが与えられると、本方法は樹状図を切断し、この高さに定義されたクラスタを得ることができる。この高さは入念に選択することができる。フィルタリングの例では、この高さは、クラスタ化の出力におけるフィルタリングされた境界ボックスの平均数がデータセット2内の画像ごとの平均物体数に等しくなるように設定してもよい。
ここで、2つのモデルの実施の詳細の例について説明する。
本方法の主な目的は、局所化情報なしの画像レベルのカテゴリラベルのみで物体検出器を訓練することであってもよい。本方法は、完全教師あり物体検出器の高性能と弱教師あり物体検出器の安いアノテーションコストとを活用することができる、新規な弱教師あり物体検出フレームワークからなっていてもよい。
本方法は、ディープニューラルネットワーク(DNN)、具体的には領域ベースのディープニューラルネットワーク(領域ベースDNN)の能力を利用することによって、この課題に対処してもよい。
ディープニューラルネットワークは、コンピュータが観測データから学習することを可能にする、生物学に着想を得たプログラミングパラダイムであるニューラルネットワーク([20]に記載)における学習のための強力な技術の集合である。
物体の分類において、DNNの成功は、他の画像分類法(SVM、Boosting、Random Forestなど)で用いられる手作業による低レベルの特徴(HOG、Bag-of-Words、SIFTなど)とは対照的に、豊かな中間レベルの2D画像表現を学習する能力を有するおかげである。より具体的には、DNNは、未処理のデータに基づくエンドツーエンドの学習に焦点を当てている。言い換えれば、図10に示すように、未処理の特徴から始まりラベルで終わるエンドツーエンドの最適化を達成することによって、特徴量エンジニアリングから可能な限り遠く離れる。
物体の分類とは異なり、検出は、分類(すなわち認識)に加えて、画像内で(多くの場合たくさんの)物体を局所化する必要がある。領域ベースのディープニューラルネットワークは、「領域を用いた認識」のパラダイム([18]に記載)の範囲内で、局所化の課題を解決してもよい。大まかに言って、ネットワークはオフライン段階において領域の提案を認識することを学習してもよい。領域の提案は、外部アルゴリズムによって提供されてもよいし(例えば、[17])、ネットワークを訓練する間に学習されてもよい(例えば、[2])。
本方法は、オフライン段階の間に、完全教師ありの方法または弱教師ありの方法のいずれかの任意の方法で領域ベースのディープニューラルネットワークの訓練を行ってもよい。
本方法は、2つの段階に分解される。オフライン段階として表すことができる第1の段階は、領域ベースのディープニューラルネットワークに大きく依存し、本方法が2つのモデルを訓練する可能性のある段階に対応する:
I.モデル1:弱教師ありニューラルネットワーク検出器に対応する。本方法は、例えば、最先端の領域ベースの弱教師ありニューラルネットワークであるWSDDN([8]に記載)を用いてもよい。
II.モデル2:完全教師あり物体検出器に対応する。本方法は、例えば、最先端の領域ベースの完全教師ありニューラルネットワークであるFaster R-CNN([2]に記載)を用いてもよい。
以下の表Iは、本方法の実施の代替案を示す。
Figure 0007128022000001
表I-本方法で実施可能なニューラルネットワークの例
R-CNNは[18]に記載されている。
Fast R-CNNは[17]に記載されている。
PVANETは[4]に記載されている。
ContextLocNetは[7、8]に記載されている。
表Iに示すように、本方法は、真ん中の列に示される構成でテストした。ここで、得られた結果について説明する。
結果として、モデル1からモデル2へ、相対的に48%の性能向上が観察された。物体検出器の性能は、「mean average precision」と呼ばれる指標([21])により評価した。この指標はパーセンテージに対応し、この値が大きいほど検出器の精度が高い。モデル1の実施例のスコアは27%mAP、モデル2の実施例のスコアは40%mAPであった。

Claims (13)

  1. 複数の画像を提供するステップ(S10)と、
    前記複数の画像のうちの少なくとも1つの部分集合のうちのそれぞれ1つについて、
    弱教師ありで学習された関数を適用するステップであって、前記弱教師ありで学習された関数は、各々が局所化および1つまたは複数の信頼スコアを含む、複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ(S20)と、
    前記弱教師ありで学習された関数の前記出力に基づき1つまたは複数のアノテーションを決定するステップであって、各アノテーションは、局所化、および当該局所化における物体カテゴリのインスタンス化を表すラベルを含む、ステップ(S30~S80)と、
    複数のデータを含み、関数の完全教師ありの学習用に構成された訓練用データセットを完全に自動的に形成するステップであって、各データは、前記部分集合におけるそれぞれの画像と、各画像について決定された前記1つまたは複数のアノテーションのうちの少なくとも一部とを含み、前記完全教師ありで学習された関数は、複数の画像に適用され、各々が局所化および1つまたは複数の信頼スコアを含む複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ(S90)と
    を有することを特徴とする、コンピュータにより実施される信号処理方法。
  2. 各アノテーションの局所化は、前記弱教師ありで学習された関数によって出力された1つまたは複数の局所化に対応する
    ことを特徴とする、請求項1に記載の方法。
  3. 各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、厳密にゼロより大きい信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである
    ことを特徴とする請求項2に記載の方法。
  4. 各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、最も高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである
    ことを特徴とする請求項3に記載の方法。
  5. 各アノテーションについての物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、厳密に正の閾値より高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである
    ことを特徴とする請求項3または4に記載の方法。
  6. 前記閾値は、前記複数の画像内の物体の平均数に依存する値を有する
    ことを特徴とする請求項5に記載の方法。
  7. 前記部分集合の少なくとも一部の画像のそれぞれについて、
    当該画像に初期ラベルが与えられており、各初期ラベルは、それぞれの画像内の各物体カテゴリのインスタンス化を表し、
    当該画像のアノテーションのラベルは、その画像の初期ラベルに対応する各物体カテゴリのインスタンス化を表す、
    ことを特徴とする請求項3~6のいずれか1つに記載の方法。
  8. 各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化は、クラスタ化アルゴリズムにより識別される
    ことを特徴とする請求項2~7のいずれか1つに記載の方法。
  9. 前記弱教師ありで学習された関数は初期データセットに基づき学習され、前記初期データセットは複数の初期データを含み、各初期データは、それぞれの画像と、それぞれのアノテーションとを含み、前記アノテーションはラベルの集合からなり、各ラベルは、その画像内における物体カテゴリのインスタンス化を表す
    ことを特徴とする請求項1~8のいずれか1つに記載の方法。
  10. 前記局所化はバウンディングボックスであり、
    前記方法は、同一のオブジェクトカテゴリを表す1つまたは複数の近接するバウンディングボックスをグループ化するステップを更に含む
    請求項1~9のいずれか1つに記載の方法。
  11. コンピュータに、
    複数の画像を提供するステップ(S10)と、
    前記複数の画像のうちの少なくとも1つの部分集合のうちのそれぞれ1つについて、
    弱教師ありで学習された関数を適用するステップであって、前記弱教師ありで学習された関数は、各々が局所化および1つまたは複数の信頼スコアを含む、複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ(S20)と、
    前記弱教師ありで学習された関数の前記出力に基づき1つまたは複数のアノテーションを決定するステップであって、各アノテーションは、局所化、および当該局所化における物体カテゴリのインスタンス化を表すラベルを含む、ステップ(S30~S80)と、
    複数のデータを含み、関数の完全教師ありの学習用に構成された訓練用データセットを完全に自動的に形成するステップであって、各データは、前記部分集合におけるそれぞれの画像と、各画像について決定された前記1つまたは複数のアノテーションのうちの少なくとも一部とを含み、前記完全教師ありで学習された関数は、複数の画像に適用され、各々が局所化および1つまたは複数の信頼スコアを含む複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ(S90)と
    を実行させるためのプログラム。
  12. 請求項11に記載のプログラムをコンピュータ読み取り可能に記憶した記憶媒体。
  13. 前記記憶媒体に接続されたプロセッサをさらに備える
    ことを特徴とする請求項12に記載の装置。
JP2018088031A 2017-05-05 2018-05-01 完全教師あり学習用のデータセットの形成 Active JP7128022B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17305519.5 2017-05-05
EP17305519.5A EP3399465A1 (en) 2017-05-05 2017-05-05 Forming a dataset for fully-supervised learning

Publications (2)

Publication Number Publication Date
JP2018200685A JP2018200685A (ja) 2018-12-20
JP7128022B2 true JP7128022B2 (ja) 2022-08-30

Family

ID=59506211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018088031A Active JP7128022B2 (ja) 2017-05-05 2018-05-01 完全教師あり学習用のデータセットの形成

Country Status (4)

Country Link
US (2) US10929721B2 (ja)
EP (1) EP3399465A1 (ja)
JP (1) JP7128022B2 (ja)
CN (1) CN108805170B (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102541560B1 (ko) * 2017-09-14 2023-06-08 삼성전자주식회사 객체 인식 방법 및 장치
CN108230296B (zh) * 2017-11-30 2023-04-07 腾讯科技(深圳)有限公司 图像特征的识别方法和装置、存储介质、电子装置
US11430312B2 (en) * 2018-07-05 2022-08-30 Movidius Limited Video surveillance with neural networks
WO2020068868A1 (en) * 2018-09-24 2020-04-02 Chad Steelberg Object detection machine learning
JP7127785B2 (ja) 2018-11-30 2022-08-30 オリンパス株式会社 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法
US20200194108A1 (en) * 2018-12-13 2020-06-18 Rutgers, The State University Of New Jersey Object detection in medical image
EP3675061A1 (en) * 2018-12-29 2020-07-01 Dassault Systèmes Forming a dataset for inference of editable feature trees
US11100371B2 (en) * 2019-01-02 2021-08-24 Cognata Ltd. System and method for generating large simulation data sets for testing an autonomous driver
US11521010B2 (en) 2019-01-23 2022-12-06 Motional Ad Llc Automatically choosing data samples for annotation
CN109993065B (zh) * 2019-03-06 2022-08-23 开易(北京)科技有限公司 基于深度学习的驾驶员行为检测方法和系统
CN109961051B (zh) * 2019-03-28 2022-11-15 湖北工业大学 一种基于聚类和分块特征提取的行人重识别方法
CN110443366B (zh) * 2019-07-30 2022-08-30 上海商汤智能科技有限公司 神经网络的优化方法及装置、目标检测方法及装置
JP6916849B2 (ja) * 2019-09-13 2021-08-11 株式会社クレスコ 情報処理装置、情報処理方法および情報処理プログラム
CN112529024A (zh) * 2019-09-17 2021-03-19 株式会社理光 一种样本数据的生成方法、装置及计算机可读存储介质
US11636385B2 (en) 2019-11-04 2023-04-25 International Business Machines Corporation Training an object detector using raw and unlabeled videos and extracted speech
US11416757B2 (en) 2019-11-04 2022-08-16 International Business Machines Corporation Classifier training using noisy samples
US11288515B2 (en) * 2019-11-11 2022-03-29 Samsung Electronics Co., Ltd. Methods and systems for real-time data reduction
US11462023B2 (en) 2019-11-14 2022-10-04 Toyota Research Institute, Inc. Systems and methods for 3D object detection
US11461989B2 (en) * 2020-12-04 2022-10-04 Himax Technologies Limited Monitor method and monitor system thereof wherein mask is used to cover image for detecting object
WO2022195763A1 (ja) * 2021-03-17 2022-09-22 日本電気株式会社 学習装置、学習方法、及び、記録媒体
CN113033679B (zh) * 2021-03-31 2022-05-31 清华大学深圳国际研究生院 一种用于监控视频车辆检测的半监督带噪声学习方法
US20230186637A1 (en) * 2021-12-10 2023-06-15 Ford Global Technologies, Llc Systems and methods for detecting deep neural network inference quality using image/data manipulation without ground truth information
US20230252311A1 (en) * 2022-02-10 2023-08-10 Clarifai, Inc. Systems and methods for transductive out-of-domain learning
CN114638322B (zh) * 2022-05-20 2022-09-13 南京大学 开放场景下基于给定描述的全自动目标检测系统和方法
CN116310293B (zh) * 2023-02-13 2023-09-12 中国矿业大学(北京) 一种基于弱监督学习的生成高质量候选框目标检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234627A (ja) 2007-02-19 2008-10-02 Seiko Epson Corp カテゴリー識別装置、及び、カテゴリー識別方法
JP2017510792A (ja) 2014-01-28 2017-04-13 ベンタナ メディカル システムズ, インコーポレイテッド 全スライド組織セグメント化のための適応分類

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263208B1 (en) * 2003-08-04 2007-08-28 United States Of America As Represented By The Secretary Of The Navy Automated threshold selection for a tractable alarm rate
US8761510B2 (en) * 2011-11-19 2014-06-24 Nec Laboratories America, Inc. Object-centric spatial pooling for image classification
FI20125276L (fi) * 2012-03-14 2013-09-15 Mirasys Business Analytics Oy Menetelmä, laite ja tietokoneohjelma objektin paikan ennustamiseksi kuvassa
CN103268607B (zh) * 2013-05-15 2016-10-12 电子科技大学 一种弱监督条件下的共同对象检测方法
CN103810500B (zh) * 2014-02-25 2017-04-05 北京工业大学 一种基于有监督学习概率主题模型的地点图像识别方法
CN104463249B (zh) * 2014-12-09 2018-02-02 西北工业大学 一种基于弱监督学习框架的遥感图像机场检测方法
KR102130162B1 (ko) * 2015-03-20 2020-07-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인공 신경망들에 대한 관련성 스코어 할당
US20220263860A1 (en) * 2015-10-28 2022-08-18 Qomplx, Inc. Advanced cybersecurity threat hunting using behavioral and deep analytics
WO2017079341A2 (en) * 2015-11-04 2017-05-11 Zoox, Inc. Automated extraction of semantic information to enhance incremental mapping modifications for robotic vehicles
GB2550858A (en) * 2016-05-26 2017-12-06 Nokia Technologies Oy A method, an apparatus and a computer program product for video object segmentation
WO2018005489A1 (en) * 2016-06-27 2018-01-04 Purepredictive, Inc. Data quality detection and compensation for machine learning
CN106326938B (zh) * 2016-09-12 2019-03-08 西安电子科技大学 基于弱监督学习的sar图像目标鉴别方法
GB2554641A (en) * 2016-09-29 2018-04-11 King S College London Image processing
US11308350B2 (en) * 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
CN106555788B (zh) * 2016-11-11 2018-02-06 河北工业大学 基于模糊处理的深度学习在液压装备故障诊断中的应用
US10127659B2 (en) * 2016-11-23 2018-11-13 General Electric Company Deep learning medical systems and methods for image acquisition
CN107690659B (zh) * 2016-12-27 2021-08-10 达闼机器人有限公司 一种图像识别系统及图像识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234627A (ja) 2007-02-19 2008-10-02 Seiko Epson Corp カテゴリー識別装置、及び、カテゴリー識別方法
JP2017510792A (ja) 2014-01-28 2017-04-13 ベンタナ メディカル システムズ, インコーポレイテッド 全スライド組織セグメント化のための適応分類

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bolei Zhou et. al.,Learning Deep Features for Discriminative Localization,2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),米国,IEEE,2016年06月30日,P.2921 - 2929,https://ieeexplore.ieee.org/document/7780688
Yunchao Wei et. al.,STC: A Simple to Complex Framework for Weakly-Supervised Semantic Segmentation,arXiv,米国,IEEE,2016年12月07日,P.1-8,https://arxiv.org/abs/1509.03150
下田 和,完全教師あり学習手法を用いた弱教師あり領域分割におけるシード領域生成方法の改良,電子情報通信学会技術研究報告 Vol.117 No.211 IEICE Technical Report,Vol.2017-CVIM-208 No.23,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2017年09月08日,P.143~149

Also Published As

Publication number Publication date
US20210049420A1 (en) 2021-02-18
CN108805170A (zh) 2018-11-13
US10929721B2 (en) 2021-02-23
CN108805170B (zh) 2024-04-09
EP3399465A1 (en) 2018-11-07
US20180322371A1 (en) 2018-11-08
JP2018200685A (ja) 2018-12-20
US11763550B2 (en) 2023-09-19

Similar Documents

Publication Publication Date Title
JP7128022B2 (ja) 完全教師あり学習用のデータセットの形成
Rafique et al. Statistical multi-objects segmentation for indoor/outdoor scene detection and classification via depth images
US11853903B2 (en) SGCNN: structural graph convolutional neural network
US10318848B2 (en) Methods for object localization and image classification
US10824862B2 (en) Three-dimensional object detection for autonomous robotic systems using image proposals
Li et al. Deep supervision with intermediate concepts
US10860837B2 (en) Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
US20190243928A1 (en) Semantic segmentation of 2d floor plans with a pixel-wise classifier
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
US10262214B1 (en) Learning method, learning device for detecting lane by using CNN and testing method, testing device using the same
KR102252439B1 (ko) 이미지에서 오브젝트 검출 및 표현
US10275667B1 (en) Learning method, learning device for detecting lane through lane model and testing method, testing device using the same
JP2015533434A (ja) 教師あり形状ランク付けに基づく生物学的単位の識別
Liu et al. 3D Point cloud analysis
Sun et al. Weakly-supervised DCNN for RGB-D object recognition in real-world applications which lack large-scale annotated training data
CN108875456A (zh) 目标检测方法、目标检测装置和计算机可读存储介质
Ma et al. Location-aware box reasoning for anchor-based single-shot object detection
Le et al. Co-localization with category-consistent features and geodesic distance propagation
Kaskman et al. 6 dof pose estimation of textureless objects from multiple rgb frames
US20230244998A1 (en) Machine learning based function testing
Tang et al. Two-stage filtering method to improve the performance of object detection trained by synthetic dataset in heavily cluttered industry scenes
Chen et al. Overall Understanding of Indoor Scenes by Fusing Multiframe Local RGB-D Data Based on Conditional Random Fields
Gouizi et al. Nested-Net: a deep nested network for background subtraction
Kvak Leveraging Computer Vision Application in Visual Arts: A Case Study on the Use of Residual Neural Network to Classify and Analyze Baroque Paintings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220818

R150 Certificate of patent or registration of utility model

Ref document number: 7128022

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150