JP2020528623A - 能動学習のシステム及び方法 - Google Patents

能動学習のシステム及び方法 Download PDF

Info

Publication number
JP2020528623A
JP2020528623A JP2020503837A JP2020503837A JP2020528623A JP 2020528623 A JP2020528623 A JP 2020528623A JP 2020503837 A JP2020503837 A JP 2020503837A JP 2020503837 A JP2020503837 A JP 2020503837A JP 2020528623 A JP2020528623 A JP 2020528623A
Authority
JP
Japan
Prior art keywords
image
active learning
boundary box
object detector
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020503837A
Other languages
English (en)
Other versions
JP2020528623A5 (ja
JP6837597B2 (ja
Inventor
リー、テン−ヨク
カオ、チー−チ
セン、プラディープ
リウ、ミン−ユ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2020528623A publication Critical patent/JP2020528623A/ja
Publication of JP2020528623A5 publication Critical patent/JP2020528623A5/ja
Application granted granted Critical
Publication of JP6837597B2 publication Critical patent/JP6837597B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Abstract

センサを備える能動学習システムのためのシステム及び方法が、シーンから、物体を有する1組の画像を含む、データを取得する。メモリは、画像内の物体を検出するためにトレーニングされた物体検出器を含む能動学習データを記憶する。メモリと通信するプロセッサが、物体検出器を用いて、1組の画像から選択された画像内の少なくとも1つの物体の意味クラス及び場所を検出し、画像内の物体の意味クラス(分類)についての物体検出器の不確実度と、画像内の物体の場所(位置特定)についての物体検出器の不確実度との組み合わせとして検出指標を生成するように構成される。このシステムでは、検出指標が閾値を超えるときに、プロセッサと通信する、出力インターフェース又はディスプレイタイプデバイスを用いて、人間がラベル付けするための画像を表示する。

Description

本開示は、包括的には、コンピュータビジョンのためのシステム及び方法に関し、より詳細には、画像内の物体の位置特定及び分類の両方を考慮する物体検出器を用いて物体検出のために能動学習を適用することに関する。
従来のビジョン検出手法は、大量の注釈付きデータを用いて、畳み込みニューラルネットワーク(CNN)をトレーニングして、種々の視覚認識作業に関して人間を超えた性能を達成できることが示されてきた。しかしながら、これらの従来のビジョン検出方法は、データ注釈付けが不可欠であり、費用がかかるので、データ注釈付けのための実効的な手法の研究ができていなかった。例えば、データ注釈付けは、物体検出作業に関して特に費用がかかる。多肢選択問題を介して行うことができる、画像クラスに注釈付けすることと比べて、物体の場所に注釈付けすることは、人間の注釈者に、物体に関する境界ボックスを指定するように要求する。物体を取り囲むために隙間のない境界ボックスを単にドラッグするだけでも、多肢選択問題に答えるより10倍以上のコストがかかる可能性がある。結果として、物体検出作業のために画像に注釈付けするのに、人間のラベラーに、より高い報酬が支払われなければならない。コストに加えて、監視及び制御するのがより難しいのが、注釈品質である。
したがって、数ある中でも、少ない注釈付けプロセスで、それゆえ、少ない注釈付けバジェットで、より良好な性能を達成することが必要とされている。
本開示の実施形態は、画像内の物体の位置特定及び分類の両方を考慮する物体検出器を用いて、物体検出のために能動学習を適用するシステム及び方法を提供することに関する。
本開示は、シーンの画像内の物体の特徴の不確実度指標を使用する能動学習が、画像分類及び画像位置特定作業のためにデータに注釈付けするための実効的な手法になり得るという認識に基づく。具体的には、その認識は、画像内の物体の意味クラス(分類)についての物体検出器の不確実度と、画像内の物体の場所(位置特定)についての物体検出器の不確実度との組み合わせを含む、物体検出器のために能動学習に関する検出指標を使用することに基づく。しかしながら、これを実現するに至るには、何が物体の位置特定に関する不確実度の指標としての役割を果たすことができるかに関して、実験を通して更に理解を深める必要があった。
具体的には、実験を通して、能動学習は、本開示の態様に特有の目標性能を達成するために必要とされる注釈付きデータの量を削減するのに有用な機械学習手順であることが能動学習を使用してわかった。その能動学習は、物体分類及び活動認識を含む、種々のコンピュータビジョン問題に適用することができる。さらに、能動学習は、小さいラベル付きデータセットを伴うベースラインモデル(分類器)のための初期トレーニングのために使用することができ、その分類器を未ラベル付けデータに適用することができる。その場合、未ラベル付けサンプルごとに、能動学習は、このサンプルが、ベースラインモデルによって学習されていない重要な情報を含むか否かを推定することができる。したがって、最も重要な情報をもたらすとともに、人間の注釈者によってラベル付けされたサンプルを識別すると、それらのサンプルは、モデルを再トレーニングするために、初期トレーニングデータセットに追加することができる。本発明の方法(複数の場合もある)を、未ラベル付けデータセットからサンプルをランダムに選択するいくつかの従来の受動学習法と比べるとき、本発明の能動学習は、数は少ないが、情報量の多いラベル付きサンプルを用いて、いくつかの従来の受動学習法と同じ精度を達成でき、それらのサンプルが本開示の数多くの態様に関して有益であることがわかった。
さらに、本発明の実験によって、何が物体の位置特定に関する不確実度の指標としての役割を果たすかを理解した。本開示のアルゴリズム(複数の場合もある)は、位置特定不確実度の2つの定量的測定値に基づくことができることがわかった。位置特定不確実度の第1の定量的測定値は、検出された境界ボックスが真の物体をいかに隙間なく取り囲むことができるかを推定することができる位置特定合致度(LT:Localization Tightness)指標を含む。例えば、境界ボックスの合致度が高いほど、位置特定がより確実になる。位置特定合致度は、物体検出器による、例えば、領域提案ネットワーク(RPN:region proposal network)によって提案される初期境界ボックスの適合量に基づいて推定することができる。位置特定不確実度の第2の定量的測定値は、検出された境界ボックスが入力画像の変化に影響を受けやすいか否かに基づく、位置特定安定度(LS:Localization Stability)指標を含む。位置特定安定度を評価するために、本開示のアルゴリズムは、画像のピクセル値に異なる量のガウス雑音を付加し、検出された領域が雑音に対していかに変化するかを測定する。本開示の少なくとも1つの態様は、画像を与えられると、雑音を付加することによって画像を操作することができ、境界ボックスがいかに変化するかを測定できることがわかったことであることに留意されたい。その場合に、この指標は、全ての種類の物体検出器に、特に、明示的な提案段階を有しない物体検出器に適用することができる。また、この指標は、ビデオ監視解析、障害物検出、及び自律運転のための経路計画等に適用することができる。
言い換えると、本開示は、複数の公開ベンチマーク及び異なる物体検出器に関する測定値を解析することができる。それは独自であり、革新的な態様を有し、物体検出器の位置特定不確実度を定量的に評価するために異なる測定値を提示できることを含む。さらに、本発明の測定値は、物体の場所に関するグラウンドトゥルースが未知であっても、物体検出の異なる態様を考慮し、本発明の測定値を能動学習に適したものにする。別の独自で、革新的な態様は、物体検出のために能動学習を適用するために、情報を与える画像をサンプリングするときに、検出器の位置特定及び分類の両方が考慮されるべきであることを実証することを含む。例えば、本開示のシステム及び方法は、非限定的な例として、PASCAL2012ベンチマークに関して検出器をトレーニングすることができ、それは従来の受動学習手法と同じ性能を達成するが、注釈付きデータが著しく少ない。これらの性能レベルは、非限定的な例として、数ある中でも、それぞれ位置特定合致度(LT)及び位置特定安定度(LS)を伴う分類に役に立つようにその方法を拡張することによって、達成することができる。言い換えると、物体検出器モデルが境界ボックスの大きさ及び場所の調整を伴う場合には、合致度を更に推定することができる。
本開示の能動学習システム及び方法をよりわかりやすく説明するために、少なくとも1つの方法に関するいくつかのプロセスフローステップを与える。例えば、その方法は、物体検出器が最初に入力として画像を取り込むことを含み、1組の長方形の境界ボックスを出力する。各境界ボックスは自ら(境界ボックス)の形状の場所及び縮尺と、全てのクラスの確率質量関数とを有する。ベースライン物体検出器をトレーニングするために、注釈付き画像の小さいトレーニングセットを用いて、少なくとも1つのトレーニングプロセスステップが最初に開始される。より多くの画像を用いてトレーニングすることによって物体検出器を改善するために、その方法は、注釈付けすべきより多くの画像を収集し続ける。新たに収集された全ての画像に注釈付けすることとともに、現在の検出器の異なる特性に基づいて、人間の注釈者がラベル付けするための画像のサブセットも選択する。注釈付けされると、これらの選択された画像は、後の時点において新たな検出器をトレーニングするために、トレーニングセットに追加することができる。プロセス全体が、より多くの画像を収集し、新たな検出器に対するサブセットを選択し、選択されたサブセットに人間が注釈付けし、検出器を再トレーニングする等を継続することができる。データ収集、選択、注釈付け及びトレーニングのそのようなサイクルが一巡と呼ばれる。
数ある重要な構成要素の中でも、本開示の少なくとも1つの重要な構成要素は、1組の情報を与える画像を選択する選択ステップにある。画像の情報性は、検出器が、物体のクラス及び場所を含む、そのラベルに対していかに不確実であるかを指定する、不確実度スコアとして定量化される。画像内の物体は境界ボックスとして指定される。物体境界ボックスが高い不確実度スコアを有する場合には、その画像は選択されるべきである。スコアを計算することに関して、分類及び位置特定の両方に関する不確実度を考慮する。境界ボックスの分類不確実度は、クラスの確率質量関数に基づく、能動学習手法に類似とすることができる。例えば、単一のクラスに関する確率が1.0に近く、すなわち、他のクラスに関する確率が低いことを意味する場合には、検出器は、そのクラスについて高い確実性を有する。対照的に、複数のクラスが類似の確率を有するとき、全てのクラスの確率の和は1でなければならないので、各確率は低くなるであろう。したがって、分類不確実度として、1からクラスの確率質量関数の最大値を減算した値を使用することができる。
さらに、画像を与えられると、位置特定と分類との間の不一致度、又は検出された物体の場所の安定度に基づいて、スコアが割り当てられる。その後、物体及び対応する物体クラスを含むボックスを選択するために、最も高いスコアを有する未ラベル付け画像を人間のラベラーに送信することができる。自らのラベルを有するこれらの画像を用いて、初期物体検出器をトレーニングし、その性能を改善することができる。このプロセスは、物体検出器の性能が満たされるまで繰り返すことができる。
本開示の一実施形態によれば、センサからシーンの1組の画像を受信するための入力インターフェースを備える能動学習システムが開示される。例えば、センサ(複数の場合もある)は、1組の画像を含む、シーンからのデータを取得する、ビデオカメラ又はカメラ等のデバイスとすることができる。また、データは、温度等の環境条件等の環境データを含むことができる。さらに、メモリを利用して、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶することができる。入力インターフェース及びメモリと通信するプロセッサ(複数の場合もある)は、物体検出器を用いて、1組の画像から選択された画像内の少なくとも1つの物体の意味クラス及び場所を検出し、画像内の物体の意味クラス(分類)についての物体検出器の不確実度及び画像内の物体の場所(位置特定)についての物体検出器の不確実度との組み合わせとして検出指標を生成するように構成することができる。最終的に、能動学習システムは、検出指標が閾値を超えると、プロセッサと通信する出力インターフェース、すなわち、ディスプレイタイプデバイスを用いて、人間がラベル付けするための画像を表示する。
本開示の別の実施形態によれば、撮像データを受信するメモリを備える能動学習システムが開示される。撮像データは、入力インターフェースを介してのセンサからのシーンの画像の複数の組を含む。さらに、メモリは、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶している記憶デバイスを備える。プロセッサが、メモリ、入力インターフェース及び出力インターフェースに接続するように構成される。プロセッサは、物体検出器を用いて、検出指標を生成するための命令を実行する。物体検出器は、物体検出器を用いて、画像の複数の組のうちの少なくとも1組の画像から選択された画像内の少なくとも1つの物体の意味クラス及び場所を検出し、画像内の物体の意味クラスについての物体検出器の不確実度及び画像内の物体の場所についての物体検出器の不確実度の組み合わせとして検出指標を生成するステップを実行する。能動学習システムは、検出指標が閾値を超えると、人間がラベル付けするための撮像デバイス上の画像を表示するために、出力インターフェースを用いて、撮像デバイスに接続される撮像インターフェースに画像を出力する。
本開示の別の実施形態によれば、画像内の物体の位置特定及び分類の両方を考慮する物体検出器を使用する物体検出のための能動学習法が開示される。その方法は、入力インターフェースを介してセンサからシーンの画像の組を含む撮像データを受信することと、撮像データをメモリに記憶することとを含む。メモリは、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶している記憶デバイスを備える。この能動学習法では、入力インターフェース及びメモリと通信するプロセッサを使用する。プロセッサは、物体検出器を用いて検出指標を生成するための命令を実行するように構成される。物体検出器は、物体検出器を用いて、画像の複数の組のうちの少なくとも1組の画像から選択された画像内の少なくとも1つの物体の意味クラス及び場所を検出し、画像内の物体の意味クラスについての物体検出器の不確実度及び画像内の物体の場所についての物体検出器の不確実度の組み合わせとして検出指標を生成するステップを実行する。この能動学習法では、検出測定基準が閾値を超えると、人間がラベル付けするための画像を表示するために、出力インターフェースを介して撮像デバイスに画像を出力する。プロセッサは、出力インターフェース及び撮像デバイスと通信する。
ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施形態の原理を示すことに強調が置かれている。
能動学習システムを示すブロック図である。 能動学習システムのために使用されるいくつかの構成要素を更に含む、図1Aの能動学習システムを示すブロック図である。 図1Aの能動学習システムを示し、特に、物体検出ステップ中に行われるステップを示すブロック図である。 ニューラルネットワークをトレーニングするための能動学習システムのデータフローのブロック図である。 ニューラルネットワークをトレーニングするための能動学習システムのフローチャートである。 図2A及び図2Bの未ラベル付け画像の分類不確実度及び重要度をランク付けするための能動的方法のブロック図である。 未ラベル付け画像に注釈付けするための能動学習システムのブロック図である。 ラベル付けインターフェースを示すブロック図である。 代替のコンピュータ又はプロセッサを用いて実施することができる、図1Aの能動学習法を示すブロック図である。
以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は1つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。本開示の添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。
以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。
さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサ(複数の場合もある)が、それらの必要なタスクを実行することができる。
概説
本開示の実施形態は、画像内の物体の位置特定及び分類の両方を考慮する物体検出器を用いて、物体検出のために能動学習を適用するシステム及び方法に関する。
本開示は、シーンの画像内の物体の特徴の不確実度指標を使用する能動学習が、画像分類及び画像位置特定作業のためにデータに注釈付けするための実効的な手法になり得るという認識に基づく。具体的には、その認識は、画像内の物体の意味クラス(分類)についての物体検出器の不確実度と、画像内の物体の場所(位置特定)についての物体検出器の不確実度との組み合わせを含む、物体検出器のために能動学習に関する検出指標を使用することに基づく。しかしながら、これを実現するに至るには、何が物体の位置特定に関する不確実度の指標としての役割を果たすことができるかに関して、実験を通して更に理解を深める必要があった。
具体的には、能動学習は、小さいラベル付きデータセットを伴うベースラインモデル(分類器)のための初期トレーニングのために使用することができ、その分類器を未ラベル付けデータに適用することができることが実験を通してわかっている。その場合、未ラベル付けサンプルごとに、能動学習は、このサンプルが、ベースラインモデルによって学習されていない重要な情報を含むか否かを推定することができる。したがって、最も重要な情報をもたらすとともに、人間の注釈者によってラベル付けされたサンプルを識別すると、それらのサンプルは、モデルを再トレーニングするために、初期トレーニングデータセットに追加することができる。
さらに、本開示の能動学習機構は、他のアプリケーションとともに、自律運転アプリケーションとの関連において高速推論法のための視覚的特徴記述に関する現在の技術的なアプリケーションの要求を満たすように要求される技術的需要に対処する。具体的には、本開示は、従来の自律運転アプリケーション/手法のデータを克服することができる。運転のシナリオは複雑であるので、運転のために収集されるデータは、理想的には、十分な量を有し、広範な運転シナリオを網羅すべきである。しかしながら、全ての運転画像に注釈付けするのは、極めて費用がかかる可能性がある。能動学習を介して、ラベル付けすべき画像の数を削減することができ、それは非常に大量のラベル付き画像を必要とするアプリケーションにとって極めて重大である。
実験を通して、何が物体の位置特定に関する不確実度の指標としての役割を果たすか、そして、本開示のアルゴリズム(複数の場合もある)は、位置特定不確実度の2つの定量的測定値に基づくことができることがわかった。位置特定不確実度の第1の定量的測定値は、検出された境界ボックスが真の物体をいかに隙間なく取り囲むことができるかを推定することができる位置特定合致度(LT)指標を含む。例えば、境界ボックスの合致度が高いほど、位置特定がより確実になる。位置特定合致度は、物体検出器による、例えば、領域提案ネットワーク(RPN)によって提案される初期境界ボックスの適合量に基づいて推定することができる。位置特定不確実度の第2の定量的測定値は、検出された境界ボックスが入力画像の変化に影響を受けやすいか否かに基づく、位置特定安定度(LS)指標を含む。位置特定安定度を評価するために、本開示のアルゴリズムは、画像のピクセル値に異なる量のガウス雑音を付加し、検出された領域が雑音に対していかに変化するかを測定する。その場合に、この指標は、全ての種類の物体検出器に、特に、明示的な提案段階を有しない物体検出器に適用することができる。また、この指標は、ビデオ監視解析、障害物検出、及び自律運転のための経路計画等に適用することができる。
言い換えると、本開示は、複数の公開ベンチマーク及び異なる物体検出器に関する測定値を解析することができる。それは独自であり、革新的な態様を有し、物体検出器の位置特定不確実度を定量的に評価するために異なる測定値を提示できることを含む。さらに、本発明の測定値は、物体の場所に関するグラウンドトゥルースが未知であっても、物体検出の異なる態様を考慮し、本発明の測定値を能動学習に適したものにする。別の独自で、革新的な態様は、物体検出のために能動学習を適用するために、情報を与える画像をサンプリングするときに、検出器の位置特定及び分類の両方が考慮されるべきであることを実証することを含む。例えば、本開示のシステム及び方法は、非限定的な例として、PASCAL2012ベンチマークに関して検出器をトレーニングすることができ、それは従来の受動学習手法と同じ性能を達成するが、注釈付きデータが著しく少なく、すなわち、注釈付きデータが約15%〜約20%、及び約20%〜約25%だけ少ない。これらの性能レベルは、非限定的な例として、数ある中でも、それぞれ位置特定合致度(LT)及び位置特定安定度(LS)を伴う分類に役に立つようにその方法を拡張することによって、達成することができる。
本開示のいくつかの実施形態に関する能動学習システムは、ヒューマンマシンインターフェースと、ニューラルネットワークを含む記憶デバイスと、メモリと、システムの外部にあるネットワークと接続可能なネットワークインターフェースコントローラーとを備えることができる。能動学習システムは、撮像デバイスと接続可能な撮像インターフェースと、ヒューマンマシンインターフェース、記憶デバイス、メモリ、ネットワークインターフェースコントローラー及び撮像インターフェースに接続するように構成されるプロセッサとを更に備えることができ、プロセッサは、記憶デバイス内に記憶される物体検出器を用いて、検出指標を生成するための命令を実行することができる。物体検出器は、画像の複数の組のうちの少なくとも1組の画像から選択される画像内の少なくとも1つの物体の意味クラス及び場所を検出することを少なくとも含むステップを実行することができる。さらに、物体検出器は、物体検出器を用いて、画像内の物体の意味クラスについての物体検出器の不確実度と、画像内の物体の場所についての物体検出器の不確実度との組み合わせとして検出指標を生成するステップを実行する。さらに、物体検出器は、検出指標が閾値を超えると、人間がラベル付けするための画像を表示するために、画像を撮像デバイスに出力するステップを実行する。
本開示の能動学習システム及び方法をよりわかりやすく説明するために、少なくとも1つの方法に関するいくつかのプロセスフローステップを与える。例えば、その方法は、物体検出器が最初に入力として画像を取り込むことを含み、1組の長方形の境界ボックスを出力する。各境界ボックスは自ら(境界ボックス)の形状の場所及び縮尺と、全てのクラスの確率質量関数とを有する。ベースライン物体検出器をトレーニングするために、注釈付き画像の小さいトレーニングセットを用いて、少なくとも1つのトレーニングプロセスステップが最初に開始される。より多くの画像を用いてトレーニングすることによって物体検出器を改善するために、その方法は、注釈付けすべきより多くの画像を収集し続ける。新たに収集された全ての画像に注釈付けすることとともに、現在の検出器の異なる特性に基づいて、人間の注釈者がラベル付けするための画像のサブセットも選択する。注釈付けされると、これらの選択された画像は、後の時点において新たな検出器をトレーニングするために、トレーニングセットに追加することができる。プロセス全体が、より多くの画像を収集し、新たな検出器に対するサブセットを選択し、選択されたサブセットに人間が注釈付けし、検出器を再トレーニングする等を継続することができる。データ収集、選択、注釈付け及びトレーニングのそのようなサイクルが一巡と呼ばれる。
数ある重要な構成要素の中でも、本開示の少なくとも1つの重要な構成要素は、1組の情報を与える画像を選択する選択ステップにある。画像の情報性は、検出器が、物体のクラス及び場所を含む、そのラベルに対していかに不確実であるかを指定する、不確実度スコアとして定量化される。画像内の物体は境界ボックスとして指定される。物体境界ボックスが高い不確実度スコアを有する場合には、その画像は選択されるべきである。スコアを計算することに関して、分類及び位置特定の両方に関する不確実度を考慮する。境界ボックスの分類不確実度は、クラスの確率質量関数に基づく、能動学習手法に類似とすることができる。例えば、単一のクラスに関する確率が1.0に近く、すなわち、他のクラスに関する確率が低いことを意味する場合には、検出器は、そのクラスについて高い確実性を有する。対照的に、複数のクラスが類似の確率を有するとき、全てのクラスの確率の和は1でなければならないので、各確率は低くなるであろう。したがって、分類不確実度として、1からクラスの確率質量関数の最大値を減算した値を使用することができる。
図1Aは、本開示の一実施形態による、能動学習システムを示すブロック図である。最初に、能動学習システム100は、プロセッサによって、入力インターフェースを介してセンサからシーンの1組の画像を取得するステップ120を含み、1組の画像は物体を含む。次のステップは、プロセッサを用いて、取得された1組の画像を、メモリに記憶された物体検出器に入力すること125を含む。物体検出器ステップ130は、1組の画像から選択された画像内の少なくとも1つの物体の意味クラス及び場所を検出する。画像ごとに、ステップ130は、画像内の物体の意味クラスについての物体検出器の不確実度と、画像内の物体の場所についての物体検出器の不確実度との組み合わせとして指標を計算する。次のステップ135は、検出指標が閾値を超えると、出力インターフェースを用いて、人間がラベル付けするための画像を表示することを含む。
図1Bは、本開示のいくつかの実施形態による、能動学習システムのために使用されるいくつかの構成要素を更に含む、図1Aの能動学習システムを示すブロック図である。能動学習システム100は、センサデバイス112によって取得される(正:obtained)入力画像を与えるシーン110を含む。例えば、センサ(複数の場合もある)112は、1組の画像114を取得するためにシーン110からデータを取得する、ビデオカメラ又はカメラ等のデバイスとすることができる。また、データは、温度等の環境条件等の環境データを含むことができる。シーン110からの入力画像は、入力インターフェース116によって取得され、プロセッサ140によって処理される1組の画像114を含む。1組の画像114は、メモリ145に記憶することができ、その後、プロセッサ140によって後に処理できることが考えられる。さらに、入力インターフェース116及びメモリ145は、コンピュータ150と通信することができる。さらに、プロセッサ140は、メモリ145に記憶することができる物体検出器142を用いて1組の画像114を処理する。
物体検出器142を画像内の少なくとも1つの物体の意味クラス及び場所を検出するように構成できるように、物体検出器142は、プロセッサ(複数の場合もある)140によって処理される。画像ごとに、物体検出器は、検出された物体のクラス及び場所に基づいて、検出指標を計算する。ステップ144は、閾値より高い検出指標を有する画像を選択する。最後に、プロセッサ145と通信する出力インターフェース195、すなわち、ディスプレイタイプデバイスを利用して、選択された画像とともに画像を表示することができる。
図1Cは、本開示のいくつかの実施形態による、図1Aの能動学習システムを示し、特に、図1Aの物体検出ステップ130及び図1Bの物体検出ステップ142中に行われるいくつかのステップを示すブロック図である。画像161を与えられると、この画像は、分類不確実度を測定する165ために、最初に物体検出器163に適用される。この物体検出器が初期境界ボックスについての情報も含む場合には、ブロック164は、合致度167を測定するために、初期境界ボックスと最終境界ボックスとを比較する。位置特定安定度を測定するために、画像161に雑音162を付加し、同じ物体検出器(160、それは163と同一である)を適用する。ステップ166は、元の画像に基づく、検出器163によって生成された被検出ボックスと、同じ検出器アルゴリズムを使用するが、画像に雑音が付加されている、検出器160からの被検出ボックスとを比較する。ステップ166は、位置特定安定度を出力し、それは、ブロック165からの分類不確実度、167の位置特定合致度(存在する場合)と組み合わせられ、入力画像161に関する最終的な不確実度測定値が形成される。
例えば、物体検出器は、畳み込みニューラルネットワーク、サポートベクトルマシン等の数多くの機械学習アルゴリズムに基づいて、画像内の少なくとも1つの物体の意味クラスを検出することができる(分類)。分類アルゴリズムを与えられると、この分類アルゴリズムは画像物体に適用され、この物体が所定のクラスのうちの各クラスである確率が計算される。その場合に、画像内の物体の意味クラスについての物体検出器の不確実度は、全ての所定のクラスのこれらの確率の関数とすることができる。例えば、高い確率を有するクラスが多いほど、分類されるクラスを推定する確実度が低い。
さらに、物体検出器は、画像内の少なくとも1つの物体の場所を検出することができる(位置特定)。物体を検出するために、画像上に、異なる縮尺及びアスペクト比の複数のボックスが生成される。ボックスごとに、対象物(例えば、車両、歩行者、トラック等)のあらかじめ収集されたパターン内の画像ピクセルからの類似度が測定される。可能な限りパターンを適合させるように、ボックスを更に調整することができる。いくつかのボックスが同じ物体に重なることができるので、この物体と重なるボックスの中でも最も高い類似度を有するボックスを更にフィルタリングすることができる。物体検出器は初期ボックスを調整して、最も近く、最も可能性が高い物体に適合させることができるが、ボックスは依然として合致していない可能性がある。その結果、画像内の物体の場所についての物体検出器の不確実度は、物体の周りの境界ボックスの合致度の関数である。検出指標は、物体の意味クラスについての物体検出器の確実度と、物体の場所の合致度の物体検出器の確実度との間の不一致度に比例するものとすることができる。さらに、物体の周りの境界ボックスの合致度の関数は、初期境界ボックス及び最終境界ボックスの共通部分と、初期境界ボックス及び最終境界ボックスの和集合との比を用いて確定することができる。物体検出器は、物体を包囲する初期境界ボックスを推定し、初期境界ボックスを調整して、最終境界ボックスを生成できることが可能である。さらに、初期境界ボックスは、領域提案ネットワークによって提案することができることが考えられる。物体検出器は、画像内の異なる場所に複数の初期境界ボックスを配置し、確定の意味クラスの物体を最大限に包含する初期境界ボックスを選択する。
物体の場所についての物体検出器の不確実度は、物体の周りの境界ボックスの安定度の関数とすることができることに留意されたい。プロセッサは、雑音で変更された画像内の物体を検出することができ、画像に関して確定された境界ボックスと、雑音で変更された画像に関して確定された境界ボックスとの間の差に基づいて、境界ボックスの安定度を確定する。さらに、検出指標は、境界ボックス内の物体のクラスについてのニューラルネットワークの不確実度の加重和とすることができ、境界ボックスの安定度は、付加雑音に対してその場所及び大きさがどの程度変化するかに基づく。異なる程度の雑音下でその場所及び大きさが近似し得る場合には、境界ボックスは安定していると言われる。
本開示のいくつかの実施形態によれば、能動学習システムは、ヒューマンマシンインターフェースと、ニューラルネットワークを含む記憶デバイスと、メモリと、システムの外部にあるネットワークと接続可能なネットワークインターフェースコントローラーとを備える。能動学習システムは、撮像デバイスと接続可能な撮像インターフェースと、ヒューマンマシンインターフェース、記憶デバイス、メモリ、ネットワークインターフェースコントローラー及び撮像インターフェースに接続するように構成されるプロセッサとを更に備え、プロセッサは、記憶デバイスに記憶されたニューラルネットワークを用いて画像内の物体を分類するための命令を実行し、ニューラルネットワークは、ニューロンネットワークを用いて信号の特徴を確定するステップと、信号を分類するために特徴の不確実度指標を確定するステップと、デコーダーニューロンネットワークを用いて特徴から信号を再構成し、再構成済み信号を生成するステップと、再構成済み信号を信号と比較し、再構成誤差を生成するステップと、不確実度指標を再構成誤差と合成し、手作業によるラベル付けのために必要とされる信号のランクを生成するステップと、ランクに従って信号にラベル付けし、ラベル付き信号を生成するステップと、ラベル付き信号を用いて、ニューロンネットワーク及びデコーダーニューロンネットワークをトレーニングするステップとを実行する。
図2Aは、本開示のいくつかの実施形態による、ニューラルネットワークをトレーニングするための能動学習システムのデータフローのブロック図である。例えば、能動学習システム200の初期設定は、ランダムパラメータで初期化されるニューラルネットワーク210、初期の1組のラベル付きトレーニング画像201、トレーナー202、1組の未ラベル付け画像203を含む。この場合、ニューラルネットワーク210は、ユーザ定義ニューラルネットワークである。
能動学習システム200は、図2Aに示される基本ワークフローを通して注釈付けを実行するために未ラベル付け画像を効率的に照会しようと試みる。ランダムに初期化されたパラメータを有するニューラルネットワーク(NN)210に基づいて、トレーナー202は、NN210を画像の初期のラベル付きトレーニングデータセット201に適合させることによって、ネットワークパラメータを更新する。結果として、更新されたネットワークパラメータを有するトレーニングされたNN220を用いて、未ラベル付けデータセット203内の画像の重要度がランク付けされる。未ラベル付け画像203は、トレーニングされたNN220によって実行されるランク付け結果から取得される重要度スコア204に従って並べ替えられる。上位K個の重要な画像205が、ラベル付けインターフェース206に関連付けられるメモリ(図2Aには示されない)内のラベル付け記憶域内に記憶される。作業者(又は注釈者)によって行われるデータ入力に応答して、ラベル付けインターフェース206は、グラウンドトゥルースラベルを有する注釈付き画像207を生成する。これらの注釈付き画像207は、その後、初期のラベル付きトレーニングデータセット201に追加され、新たなトレーニングデータセット208が形成される。その後、トレーナー202は、画像の新たなトレーニングデータセット208を適合させることによってネットワーク220を再トレーニングし、更新されたニューラルネットワークパラメータ230を取得する。この手順が繰り返される。更新されたニューラルネットワークパラメータ230を用いて、未ラベル付け画像203の残りの画像の重要度がランク付けされ、上位K個の重要な画像205がラベル付けインターフェース206に送信される。通常、この手順は、所定の好ましい性能が達成されるか、又は注釈付けに関するバジェットが空になるまで何度か繰り返される。
さらに、引き続き図2Aを参照すると、特徴を確定することは、エンコーダニューラルネットワークを使用することによって実行することができる。この場合、エンコーダニューラルネットワークは、所与の信号の特徴解析を実行することができる。場合によっては、信号は脳波図(EEG)又は心電図(ECG)とすることができる。ニューラルネットワークは、画像信号の代わりに、生体信号を使用することができる。したがって、本開示のいくつかの実施形態を適用して、医師の診断を支援するための確定の信号を与えることができる。
図2Bは、本開示のいくつかの実施形態による、ニューラルネットワークをトレーニングするための能動学習システムのフローチャートである。例えば、能動学習システム200は、図示されるプロセスフローを通して注釈付けのための未ラベル付け画像を効率的に照会しようと試みる。図2Bのプロセスフローは、以下のステージを含むことができる。
S1−初期ラベル付きトレーニングデータセットが与えられ、データセットを使用することによってニューラルネットワークがトレーニングされる。
S2−ステップS1において取得されたトレーニングされたNNを使用することによって、未ラベル付けデータセット内の各画像が評価され、各画像にスコアが割り当てられる。
S3−ステップS2において取得されたスコアを与えられると、注釈付けデバイスによってラベル付けするために、上位K個の高いスコアを有する画像が選択される。
S4−新たに注釈付けされたラベルを有する選択された画像が現在の(最新の)ラベル付きトレーニングセットに追加され、新たなトレーニングデータセットが取得される。
S5−新たなトレーニングデータセットに基づいて、ネットワークが精緻化又は再トレーニングされる。
図2Bは、能動学習システム200の能動学習アルゴリズムが画像にラベル付けするために画像を効率的に照会しようと試みることを示す。初期の小さいラベル付きトレーニングセットに関して初期化モデルがトレーニングされる。直前にトレーニングされたモデルである現在のモデルに基づいて、能動学習システム200は、注釈付けされることになる情報量が多い上位の未ラベル付け画像を見つけようと試みる。情報量の多い画像のサブセットがラベルを付けられ、次回のトレーニングのためにトレーニングセットに追加される。このトレーニングプロセスは繰り返し実行され、能動学習システム200は、テストデータセットに関するモデルの精度性能を徐々に高めるために、より多くのラベル付き画像を注意深く追加する。標準的な手法はラベル付けのためのサンプルをランダムに選択するだけなので、能動学習システム200のアルゴリズムは通常、その本質によって、トレーニングのための標準的な手法よりはるかに良好に機能する。
本明細書において「画像」という用語が使用されるが、能動学習システム200において、別の「信号」を使用することができる。例えば、能動学習システム200は、脳波図(EEG)又は心電図(ECG)等の他の信号を処理することができる。画像の代わりに、能動学習システム200においてEEG又はECG信号をトレーニングすることができる。その後、トレーニングされた能動学習システム200を適用して、入力信号に関する異常を確定又は判断することができ、それは関連する症状の医学的診断に関する有用な支援になり得る。
図3は、本開示のいくつかの実施形態による、図2A及び図2Bの能動学習システムにおいて未ラベル付け画像の重要度をランク付けするためのプロセスステップのブロック図を示す。図2Aの1組の未ラベル付け画像203からの入力画像が、ステップ302において、図2AのNN220のフロントエンドに与えられるとき、トレーニングされたNN220が、特徴303を生成し、ソフトマックス出力層304を介して分類結果を出力する。分類結果は、レニーエントロピー(Renyi entropy)に基づいて、不確実度指標305を通して、入力信号の重要度スコア204を計算するために使用される。
図2AのトレーニングされたNN220は、未ラベル付けデータセット203内の画像ごとに特徴303を抽出するために、また、ソフトマックス出力層304によって分類を計算するために使用される。ソフトマックス出力層304によって取得される分類結果は、次元Dの確率ベクトルであり、ただし、次元Dは物体クラスの数である。入力画像をxによって表し、確率ベクトルを示す、ソフトマックス出力層304によって計算される分類結果をpによって表すとき、確率ベクトルpの各次元は、入力画像203が確定のクラスに属する確率を表す。pの成分の和は1に等しい。入力画像のクラスの不確実度は、その後、エントロピー関数H(x)によって、不確実度指標305のステップにおいて測定することができる。エントロピーH(x)がシャノンエントロピーに基づいて計算されるとき、入力画像のクラスの不確実度は、
Figure 2020528623
によって与えられる。
引き続き図3を参照すると、不確実度方法において、不確実度指標を未ラベル付け画像の重要度スコア204として使用することができる。さらに、レニーエントロピーカテゴリにおいて定義される他のエントロピー指標を不確実度計算のために使用することができる。例えば、エントロピー関数H(x)は、衝突エントロピー(Collision entropy)
Figure 2020528623
又は最小エントロピー(Min-entropy)
Figure 2020528623
とすることができる。
さらに、不確実度の推定値を取得するためのエントロピーに基づく方法を
Figure 2020528623
によって定義することができ、実験結果が図5に示される。
引き続き図3を参照すると、不確実度方法は汎用の能動学習法であるので、各入力画像からクラス確率を表すベクトルを導出できる限り、種々の分類器(SVM、ガウス過程、又はニューラルネットワーク)とともに使用することができる。この場合、不確実度方法は、分類器の特性を利用せず、準最適な性能に達する。
図4は、本開示のいくつかの実施形態による、能動学習システム400のブロック図を示す。能動学習システム400は、キーボード411及びポインティングデバイス/媒体412と接続可能なヒューマンマシンインターフェース(HMI)410と、プロセッサ420と、記憶装置430と、メモリ440と、ローカルエリアネットワーク及びインターネットネットワークを含むネットワーク490と接続可能なネットワークインターフェースコントローラー450(NIC)と、ディスプレイインターフェース460と、撮像デバイス475と接続可能な撮像インターフェース470と、印刷デバイス485と接続可能なプリンタインターフェース480とを備えることができる。プロセッサ420は、1つ以上の中央処理ユニット(CPU)を備えることができる。能動学習システム400は、NIC450に接続されるネットワーク490を介して、電子テキスト/撮像ドキュメント495を受信することができる。能動学習システム400は、HMI410を介して、注釈付けデバイス413から注釈付けデータを受信することができる。さらに、注釈付けデバイス413は表示画面を備えることができ、注釈付けデバイス413の表示画面は、図2Aのラベル付けインターフェース206を表示するように構成することができ、そのインターフェースによれば、所定の注釈付けボックス及び選択されることになる所定のラベル付け候補を有する選択エリア502を備える表示領域501内に未ラベル付け画像を表示することにより、作業者が、メモリ440内に記憶される未ラベル付け画像のラベル付けプロセスを実行できるようになる。
記憶デバイス430は、元の画像431と、フィルターシステムモジュール432と、ニューラルネットワーク400とを備える。例えば、プロセッサ420は、記憶装置430内のニューラルネットワーク400のコードをメモリ440にロードし、能動学習を実施するためのコードの命令を実行する。さらに、ポインティングデバイス/媒体412は、コンピュータ可読記録媒体上に記憶されたプログラムを読み出すモジュールを備えることができる。
図4及び図5を参照すると、図5は、本開示のいくつかの実施形態による、図2Aのラベル付けインターフェース206の一例を示す。図5において、図2Aのラベル付けインターフェース206は、表示領域501と、選択エリア502とを含む。図2Aのラベル付けインターフェース206は、図4の注釈付けデバイス413内にインストールすることができ、注釈付けデバイスは、図4の注釈付けデバイス413のディスプレイ上に図2Aのラベル付けインターフェース206を示す。場合によっては、図2Aのラベル付けインターフェース206は、図4のネットワーク490を介して、図4のヒューマンマシンインターフェース(HMI)410に接続可能な入力/出力インターフェース(図5には示されない)によってインストールすることができる。図2Aのラベル付けインターフェース206が、図2AのステップS6において上位K個の重要な未ラベル付け画像205のうちの未ラベル付け画像を受信すると、図2Aのラベル付けインターフェース206は、図5の表示領域501上にその未ラベル付け画像を表示する。図5の選択エリア502は、表示領域501上に表示された未ラベル付け画像をラベル付けするための所定の候補を示す。図2Aのラベル付けインターフェース206によって、作業者が、表示領域501内に表示された未ラベル付け画像に対して選択エリア502内に示される選択可能な注釈のうちの1つを割り当てることができるようになる。図5において、選択エリア502は、所定のラベル付け候補、すなわち犬、猫、車及び飛行機を伴う選択ボックスを与える。一例として、図5は、表示領域501内に表示された猫画像503を示す未ラベル付け画像を示す。この場合、選択エリア502内に表示された猫画像に応答して、猫の注釈ボックスが作業者(注釈者)によってチェックされる。カテゴリに加えて、ラベラーは、物体を隙間なく包囲することができる境界ボックスも描画すべきである。この例では、ボックス504は、猫を包囲する隙間のない境界ボックスである。図2Aのラベル付けインターフェース206は、作業者による操作に従って、ラベル付け記憶域内に記憶される未ラベル付け画像をメモリにロードし、表示するように構成される。図2Aのラベル付けインターフェース206によってラベル付けされる画像は、図2Aに示されるように、新たにラベル付けされたトレーニング画像207として、ステップS3においてメモリ内の新規トレーニング画像記憶エリアの中に記憶される。
特徴
物体検出器は、少なくとも、1組の画像に関して各画像上に異なる縮尺及びアスペクト比の複数のボックスを生成することによって、画像内の少なくとも1つの物体の場所を検出することができる。ボックスごとに、ボックス内の各画像内のピクセルをメモリ内の能動学習データの対象物の記憶されたパターンと比較して、複数のボックスのボックスごとの類似度の測定値を確定する。1つ以上のボックスが同じ記憶された物体パターンと重なる場合には、少なくとも1つの記憶された物体パターンを適合させるように、各ボックスの場所を調整する。重なっている確定された測定類似度量を有する他のボックスから、所定の重なり閾値を超える、確定された類似度測定量を有するボックスのいくつかをフィルタリングする。
物体検出器は、複数のボックスのボックスごとの類似度の測定値を確定するために、ボックスごとに、少なくとも、ボックス内の各画像内の確定されたパターンを能動学習データの異なる意味クラスの記憶された画像パターンと比較することによって、画像内の少なくとも1つの物体の意味クラスを検出できることが可能である。ボックス内の画像内の確定されたパターンは、1組の画像から選択される画像内の異なる縮尺/色/テクスチャの規定された画像特徴である、より小さい画像パターンから構成される。正規化された類似度の和が1に等しく、各クラスへの正規化された類似度がクラス確率になるように、全てのクラスへの確定された被測定類似度に基づいて、全てのクラスを正規化する。
さらに、画像内の物体の場所についての物体検出器の不確実度は、物体の周りの境界ボックスの合致度の関数とすることができることが可能である。少なくとも1つの態様は、検出指標が、物体の意味クラスについての物体検出器の確実度と、物体の場所の合致度の物体検出器の確実度との間の不一致度に比例するものとすることができることを含むことができる。少なくとも別の態様は、物体の周りの境界ボックスの合致度の関数が、初期境界ボックス及び最終境界ボックスの共通部分と、初期境界ボックス及び最終境界ボックスの和集合との比を用いて確定されることを含むことができる。物体検出器は、物体を包囲する初期境界ボックスを推定し、初期境界ボックスを調整して、最終境界ボックスを生成する。初期境界ボックスはユーザによって指定されるか、又は領域提案ネットワークを介して精緻化され、物体検出器は、画像内の異なる場所に複数の初期境界ボックスを配置し、確定の意味クラスの物体を最大限に包含する初期境界ボックスを選択する。
物体の場所についての物体検出器の不確実度は、物体の周りの境界ボックスの安定度の関数とすることができることが考えられる。プロセッサは、雑音で変更された画像内の物体を検出し、画像に関して確定された境界ボックスと、雑音で変更された画像に関して確定された境界ボックスとの間の差に基づいて、境界ボックスの安定度を確定する。検出指標は境界ボックス内の物体のクラスについてのニューラルネットワークの不確実度の加重和であり、境界ボックスの安定度は、雑音下で境界ボックスがいかに影響を受けやすいかに基づき、異なる程度の雑音下で物体の境界ボックスの場所及び大きさが近似し得る場合には、この境界ボックスは安定している。さらに、出力インターフェースは表示デバイスとすることができる。
物体検出器のための能動学習法が、画像内の物体の位置特定及び分類の両方を考慮する物体検出器を使用することが考えられる。不一致度(すなわち、検出指標が、物体の意味クラスについての物体検出器の確実度と物体の場所の合致度についての物体検出器の確実度との間の不一致度に比例する)、又はボックスの安定度(すなわち、物体の場所についての物体検出器の不確実度が物体の周りの境界ボックスの安定度の関数であり、プロセッサが雑音で変更された画像内の物体を検出し、画像に関して確定された境界ボックスと、雑音で変更された画像に関して確定された境界ボックスとの間の差に基づいて、境界ボックスの安定度を確定する)が、画像ごとのスコアとして計算されると、最も高い不一致度又は最も小さい安定度を有する未ラベル付け画像を選択することができる。選択された画像は、物体及び対応するクラスを含むボックスを選択するために、注釈付けする人間のラベラーに送信される。自らのラベルを有するこれらの画像を用いて、初期物体検出器がトレーニングされ、その性能が改善される。このプロセスは、物体検出器の性能が満たされるまで繰り返すことができる。
図6は、本開示の実施形態による、代替のコンピュータ又はプロセッサを用いて実施することができる、図1Aの方法を示すブロック図である。コンピュータ611は、プロセッサ640と、コンピュータ可読メモリ612と、記憶装置658と、ディスプレイ652及びキーボード651を備えるユーザインターフェース649とを備え、それらはバス656を通して接続される。例えば、プロセッサ640及びコンピュータ可読メモリ612と通信するユーザインターフェース649は、ユーザによるユーザインターフェース657の表面、キーボード表面からの入力を受信すると、測定データを取得し、コンピュータ可読メモリ612内に記憶する。
メモリ612が、プロセッサによって実行可能である命令、履歴データ及び本開示の方法及びシステムによって利用することができる任意のデータを記憶できることが考えられる。プロセッサ640は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成とすることができる。プロセッサ640は、バス656を通して1つ以上の入力及び出力デバイスに接続することができる。メモリ612は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ又は任意の他の適切なメモリシステムを含むことができる。
引き続き図6を参照すると、記憶デバイス658は、プロセッサによって使用される補足データ及び/又はソフトウェアモジュールを記憶するように構成することができる。例えば、記憶デバイス658は、履歴デバイスデータ、及びデバイスに関するマニュアル等の他の関連デバイスデータを記憶することができ、デバイスは、本開示に関して上記で言及されたような被測定データを取得することができる検知デバイスである。それに加えて、又はその代わりに、記憶デバイス658は、測定データに類似の履歴データを記憶することができる。記憶デバイス658は、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ、又は任意のその組み合わせを含むことができる。
システムは、バス656を通して、任意選択で、システムを表示デバイス(図示せず)に接続するように構成されるディスプレイインターフェース(図示せず)にリンクすることができ、表示デバイスは、数ある中でも、コンピュータモニタ、カメラ、テレビ、プロジェクタ又はモバイルデバイスを含むことができる。
コンピュータ611は、電源654を備えることができ、アプリケーションに応じて、電源654は、任意選択で、コンピュータ611の外部に位置することができる。また、プリンタインターフェース659もバス656を通して接続することができ、印刷デバイス632に接続するように構成することができ、印刷デバイス632は、数ある中でも、液体インクジェットプリンタ、固体インクプリンタ、大規模商用プリンタ、サーマルプリンタ、UVプリンタ、昇華型プリンタを含むことができる。ネットワークインターフェースコントローラー(NIC)634が、バス656を通してネットワーク636に接続するように構成され、数ある中でも、測定データ又は他のデータを、コンピュータ611の外部にある第三者表示デバイス、第三者撮像デバイス、及び/又は第三者印刷デバイス上に表示することができる。
引き続き図6を参照すると、数ある中でも、測定データ又は他のデータは、ネットワーク636の通信チャネルを介して送信することができ、及び/又は記憶及び/又は更なる処理のために記憶システム658内に記憶することができる。さらに、測定データ又は他のデータは受信機646(又は外部受信機638)からワイヤレスで、又は有線で受信することができるか、送信機647(又は外部送信機639)を介してワイヤレスで、又は有線で送信することができ、受信機646及び送信機647はいずれもバス656を通して接続される。コンピュータ611は、入力インターフェース608を介して、外部検知デバイス644及び外部入力/出力デバイス641に接続することができる。コンピュータ611は、他の外部コンピュータ642及び外部検知デバイス644に接続することができる。出力インターフェース609を用いて、プロセッサ640から、処理済みのデータを出力することができる。さらに、センサ604は、シーン602から1組の画像を取得することができる。
上述した本開示の実施形態は、数多くの方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。請求項の要素を修飾する、特許請求の範囲における「第1」、「第2」等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る確定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。
本開示の一実施形態によれば、センサからシーンの1組の画像を受信するための入力インターフェースを備える能動学習システムが開示される。例えば、センサ(複数の場合もある)は、1組の画像を含む、シーンからのデータを取得する、ビデオカメラ又はカメラ等のデバイスとすることができる。また、データは、温度等の環境条件等の環境データを含むことができる。さらに、メモリを利用して、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶することができる。入力インターフェース及びメモリと通信するプロセッサ(複数の場合もある)は、物体検出器を用いて、1組の画像から選択された画像内の少なくとも1つの物体の意味クラス及び場所を検出し、画像内の物体の意味クラス(分類)についての物体検出器の不確実度及び画像内の物体の場所(位置特定)についての物体検出器の不確実度との組み合わせとして検出指標を生成するように構成することができる。最終的に、能動学習システムは、検出指標が閾値を超えると、プロセッサと通信する出力インターフェース、すなわち、ディスプレイタイプデバイスを用いて、人間がラベル付けするための画像を表示する。ここで、物体の場所についての物体検出器の不確実度は、物体の周りの境界ボックスの安定度の関数である。プロセッサは、雑音で変更された画像内の物体を検出し、画像に関して確定された境界ボックスと、雑音で変更された画像に関して確定された境界ボックスとの間の差に基づいて、境界ボックスの安定度を決定する。検出指標は、境界ボックス内の物体の意味クラスについてのニューラルネットワークの不確実度の加重和であり、境界ボックスの安定度は、境界ボックスが雑音下でいかに影響を受けやすいかに基づき、異なる程度の雑音下で物体の境界ボックスの場所及び大きさが近似し得る場合には、この境界ボックスは安定している。

Claims (20)

  1. センサからシーンの1組の画像を受信する入力インターフェースと、
    画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶するメモリと、
    前記入力インターフェース及び前記メモリと通信するプロセッサであって、
    前記物体検出器を用いて前記1組の画像から選択された画像内の少なくとも1つの物体の意味クラス及び場所を検出し、前記画像内の前記物体の前記意味クラスについての前記物体検出器の不確実度と、前記画像内の前記物体の前記場所についての前記物体検出器の不確実度との組み合わせとして検出指標を生成するように構成される、プロセッサと、
    前記プロセッサと通信し、前記検出指標が閾値を超えると、人間がラベル付けするために前記画像を表示する出力インターフェースとを備える、能動学習システム。
  2. 前記1組の画像に関して各画像上に異なる縮尺及びアスペクト比の複数のボックスを生成することと、
    ボックスごとに、前記ボックス内の各画像内のピクセルを、メモリ内の前記能動学習データの対象物の記憶されたパターンと比較し、前記複数のボックスのボックスごとの類似度の測定値を確定することと、
    1つ以上のボックスが同じ記憶された物体パターンに重なる場合には、少なくとも1つの記憶された物体パターンを適合させるように、各ボックスの場所を調整することと、
    重なっている前記確定された測定類似度量を有する他のボックスから、所定の重なり閾値を超える前記確定された類似度測定量を有する前記ボックスのうちのいくつかをフィルタリングすることと、
    によって、前記物体検出器は、前記画像内の前記少なくとも1つの物体の前記場所を検出する、請求項1に記載の能動学習システム。
  3. ボックスごとに、前記ボックス内の各画像内の確定されたパターンを、前記能動学習データの異なる意味クラスの記憶された画像パターンと比較し、前記複数のボックスのボックスごとの類似度の測定値を確定することであって、前記ボックス内の前記画像内の前記確定されたパターンは、前記1組の画像から選択された前記画像内の異なる縮尺/色/テクスチャの規定された画像特徴である、より小さい画像パターンから構成される、確定することと、
    正規化された類似度の和が1に等しく、各クラスに対する前記正規化された類似度がクラス確率になるように、全てのクラスに対する前記確定された被測定類似度に基づいて、全てのクラスを正規化することと、
    によって、前記物体検出器は、前記画像内の前記少なくとも1つの物体の前記意味クラスを検出する、請求項2に記載の能動学習システム。
  4. 前記画像内の前記物体の前記場所についての前記物体検出器の不確実度は、前記物体の周りの境界ボックスの合致度の関数である、請求項1に記載の能動学習システム。
  5. 前記検出指標は、前記物体の前記意味クラスについての前記物体検出器の確実度と、前記物体の前記場所の合致度の前記物体検出器の確実度との間の不一致度に比例する、請求項4に記載の能動学習システム。
  6. 前記物体の周りの前記境界ボックスの前記合致度の前記関数は、初期境界ボックス及び最終境界ボックスの共通部分と、前記初期境界ボックス及び前記最終境界ボックスの和集合との比を用いて確定される、請求項4に記載の能動学習システム。
  7. 前記物体検出器は、前記物体を包囲する初期境界ボックスを推定し、前記初期境界ボックスを調整して、前記最終境界ボックスを生成する、請求項6に記載の能動学習システム。
  8. 前記初期境界ボックスはユーザによって指定されるか、又は領域提案ネットワークを介して精緻化される、請求項7に記載の能動学習システム。
  9. 前記物体検出器は、前記画像内の異なる場所に複数の初期境界ボックスを配置し、確定の意味クラスの物体を最大限に包含する前記初期境界ボックスを選択する、請求項8に記載の能動学習システム。
  10. 前記物体の前記場所についての前記物体検出器の前記不確実度は、前記物体の周りの境界ボックスの安定度の関数である、請求項1に記載の能動学習システム。
  11. 前記プロセッサは、雑音で変更された前記画像内の前記物体を検出し、前記画像に関して確定された前記境界ボックスと、雑音で変更された前記画像に関して確定された前記境界ボックスとの間の差に基づいて、前記境界ボックスの安定度を確定する、請求項10に記載の能動学習システム。
  12. 前記検出指標は前記境界ボックス内の前記物体の前記クラスについての前記ニューラルネットワークの前記不確実度の加重和であり、前記境界ボックスの前記安定度は、雑音下で前記境界ボックスがいかに影響を受けやすいかに基づき、異なる程度の雑音下で物体の境界ボックスの前記場所及び大きさが近似し得る場合には、この境界ボックスは安定している、請求項11に記載の能動学習システム。
  13. 前記出力インターフェースは表示デバイスである、請求項1に記載の能動学習システム。
  14. 入力インターフェースを介してセンサからシーンの画像の複数の組を含む撮像データを受信するメモリであって、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶している記憶デバイスを含む、メモリと、
    出力インターフェースと、
    前記メモリ、前記入力インターフェース及び前記出力インターフェースに接続するように構成されたプロセッサであって、前記物体検出器を用いて検出指標を生成するための命令を実行する、プロセッサと、を備え、
    前記物体検出器は、
    前記物体検出器を用いて前記画像の複数の組のうちの少なくとも1組の画像から選択された画像内の少なくとも1つの物体の意味クラス及び場所を検出し、前記画像内の前記物体の前記意味クラスについての前記物体検出器の不確実度と、前記画像内の前記物体の前記場所についての前記物体検出器の不確実度との組み合わせとして検出指標を生成するステップと、
    前記検出指標が閾値を超えるときに、人間がラベル付けするための前記画像を撮像デバイス上に表示するために、前記出力インターフェースを用いて、前記撮像デバイスに接続される撮像インターフェースに前記画像を出力するステップと、
    を実行する、能動学習法。
  15. 前記画像内の前記物体の前記場所についての前記物体検出器の前記不確実度は、前記物体の周りの境界ボックスの合致度の関数である、請求項14に記載の能動学習法。
  16. 前記検出指標は、前記物体の前記意味クラスについての前記物体検出器の確実度と、前記物体の前記場所の前記合致度についての前記物体検出器の確実度との間の不一致度に比例する、請求項15に記載の能動学習法。
  17. 前記物体の周りの前記境界ボックスの前記合致度の前記関数は、初期境界ボックス及び最終境界ボックスの共通部分と、前記初期境界ボックス及び前記最終境界ボックスの和集合との比を用いて確定される、請求項16に記載の能動学習法。
  18. 前記物体検出器は、前記物体を包囲する初期境界ボックスを推定し、前記初期境界ボックスを調整して、前記最終境界ボックスを生成する、請求項17に記載の能動学習法。
  19. 画像内の物体の位置特定及び分類の両方を考慮する物体検出器を使用する、物体検出のための能動学習法であって、
    入力インターフェースを介してセンサからシーンの画像の複数の組を含む撮像データを受信し、前記撮像データをメモリに記憶することであって、前記メモリは、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶している記憶デバイスを含むことと、
    前記入力インターフェース及び前記メモリと通信するプロセッサを使用することと、
    を含み、前記プロセッサは、前記物体検出器を用いて検出指標を生成するための命令を実行するように構成され、前記物体検出器は、
    前記物体検出器を用いて前記画像の複数の組のうちの少なくとも1組の画像から選択された画像内の少なくとも1つの物体の意味クラス及び場所を検出し、前記画像内の前記物体の前記意味クラスについての前記物体検出器の不確実度と、前記画像内の前記物体の前記場所についての前記物体検出器の不確実度との組み合わせとして検出指標を生成するステップと、
    前記検出指標が閾値を超えるときに、人間がラベル付けするための前記画像を表示するために、出力インターフェースを介して撮像デバイスに前記画像を出力するステップと、を実行し、前記プロセッサは、前記出力インターフェース及び撮像デバイスと通信する、能動学習法。
  20. 前記画像内の前記物体の前記場所についての前記物体検出器の前記不確実度は、前記物体の周りの境界ボックスの合致度の関数であり、
    前記検出指標は、前記物体の前記意味クラスについての前記物体検出器の確実度と、前記物体の前記場所の前記合致度についての前記物体検出器の確実度との間の不一致度に比例するか、又は、
    前記物体の周りの前記境界ボックスの前記合致度の前記関数は、初期境界ボックス及び最終境界ボックスの共通部分と、前記初期境界ボックス及び前記最終境界ボックスの和集合との比を用いて確定され、
    前記物体検出器は、前記物体を包囲する初期境界ボックスを推定し、前記初期境界ボックスがユーザによって指定されるか、又は領域提案ネットワークを介して精緻化されるように、前記初期境界ボックスを調整して、前記最終境界ボックスを生成する、請求項19に記載の能動学習法。
JP2020503837A 2017-08-31 2018-02-06 能動学習のシステム及び方法 Active JP6837597B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/691,911 US10769500B2 (en) 2017-08-31 2017-08-31 Localization-aware active learning for object detection
US15/691,911 2017-08-31
PCT/JP2018/004760 WO2019043988A1 (en) 2017-08-31 2018-02-06 ACTIVE LEARNING SYSTEM AND METHOD

Publications (3)

Publication Number Publication Date
JP2020528623A true JP2020528623A (ja) 2020-09-24
JP2020528623A5 JP2020528623A5 (ja) 2020-11-12
JP6837597B2 JP6837597B2 (ja) 2021-03-03

Family

ID=61563448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020503837A Active JP6837597B2 (ja) 2017-08-31 2018-02-06 能動学習のシステム及び方法

Country Status (5)

Country Link
US (1) US10769500B2 (ja)
EP (1) EP3475881B1 (ja)
JP (1) JP6837597B2 (ja)
CN (1) CN111052146B (ja)
WO (1) WO2019043988A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022168274A1 (ja) * 2021-02-05 2022-08-11 三菱電機株式会社 情報処理装置、選択出力方法、及び選択出力プログラム

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885531B2 (en) * 2018-01-29 2021-01-05 Accenture Global Solutions Limited Artificial intelligence counterfeit detection
US10794609B2 (en) * 2018-02-05 2020-10-06 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for personalized heating, ventilation, and air conditioning
US10825132B2 (en) * 2018-02-20 2020-11-03 Element Ai Inc. Training method for convolutional neural networks for use in artistic style transfers for video
TW201937452A (zh) * 2018-03-01 2019-09-16 緯創資通股份有限公司 定位系統及方法及電腦可讀取儲存媒體
US10956785B2 (en) * 2018-04-27 2021-03-23 Arizona Board Of Regents On Behalf Of Arizona State University Methods, systems, and media for selecting candidates for annotation for use in training classifiers
CN110930350A (zh) * 2018-09-19 2020-03-27 鸿富锦精密电子(天津)有限公司 机器学习方法及应用机器学习方法的自动光学检测设备
US11960984B2 (en) 2018-09-24 2024-04-16 Schlumberger Technology Corporation Active learning framework for machine-assisted tasks
US10943099B2 (en) * 2019-03-19 2021-03-09 Booz Allen Hamilton Inc. Method and system for classifying an input data set using multiple data representation source modes
US10867215B2 (en) * 2019-04-11 2020-12-15 Black Sesame International Holding Limited Mixed intelligence data labeling system for machine learning
CN110135263A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 人像属性模型构建方法、装置、计算机设备和存储介质
CN110443141A (zh) * 2019-07-08 2019-11-12 深圳中兴网信科技有限公司 数据集处理方法、数据集处理装置及存储介质
US20220262104A1 (en) * 2019-07-10 2022-08-18 Schlumberger Technology Corporation Active learning for inspection tool
CN112307826A (zh) * 2019-07-30 2021-02-02 华为技术有限公司 行人检测方法、装置、计算机可读存储介质和芯片
CN114467146A (zh) * 2019-09-26 2022-05-10 株式会社润医 用于对部署机构中的人工智能模型进行专业化的训练方法以及用于对人工智能模型进行训练的装置
RU2742602C1 (ru) * 2020-04-06 2021-02-09 Самсунг Электроникс Ко., Лтд. Распознавание событий на фотографиях с автоматическим выделением альбомов
CN111209946B (zh) * 2019-12-31 2024-04-30 上海联影智能医疗科技有限公司 三维图像处理方法、图像处理模型训练方法及介质
CN111259784B (zh) * 2020-01-14 2023-02-07 西安理工大学 基于迁移学习和主动学习的sar图像变化检测方法
CN111259961A (zh) * 2020-01-17 2020-06-09 南京大学 一种基于主动学习的面向对象分类方法
JP7395396B2 (ja) * 2020-03-23 2023-12-11 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN115398455A (zh) * 2020-04-17 2022-11-25 西门子股份公司 利用多个处理单元来对可编程逻辑控制器进行分布式提升的神经网络系统
CN111724441A (zh) * 2020-05-28 2020-09-29 上海商汤智能科技有限公司 图像标注方法及装置、电子设备及存储介质
EP4182843A1 (en) * 2020-07-28 2023-05-24 Mobius Labs GmbH Method and system for generating a training dataset
EP4252203A1 (en) * 2021-01-12 2023-10-04 Samsung Electronics Co., Ltd. Action localization method, device, electronic equipment, and computer-readable storage medium
CA3222713A1 (en) * 2021-06-16 2022-12-22 Mihaela VLASEA Method and system for active learning using adaptive weighted uncertainty sampling (awus)
US20230138798A1 (en) * 2021-11-01 2023-05-04 Western Digital Technologies, Inc. Data Collection and Retraining in Edge Video Devices
CN114092743B (zh) * 2021-11-24 2022-07-26 开普云信息科技股份有限公司 敏感图片的合规性检测方法、装置、存储介质及设备
US11967137B2 (en) * 2021-12-02 2024-04-23 International Business Machines Corporation Object detection considering tendency of object location

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071800A (ja) * 2014-10-01 2016-05-09 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US20170124415A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection
JP2017515189A (ja) * 2014-03-07 2017-06-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated 写真管理

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324532B1 (en) 1997-02-07 2001-11-27 Sarnoff Corporation Method and apparatus for training a neural network to detect objects in an image
GB0607143D0 (en) * 2006-04-08 2006-05-17 Univ Manchester Method of locating features of an object
GB2471036B (en) * 2008-03-03 2012-08-22 Videoiq Inc Object matching for tracking, indexing, and search
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
EP2657857A1 (en) * 2012-04-27 2013-10-30 ATG Advanced Swiss Technology Group AG Method for binary classification of a query image
EP2672396A1 (en) 2012-06-08 2013-12-11 ETH Zürich Method for annotating images
US9256807B1 (en) * 2012-09-27 2016-02-09 Google Inc. Generating labeled images
US9275308B2 (en) * 2013-05-31 2016-03-01 Google Inc. Object detection using deep neural networks
WO2014205231A1 (en) 2013-06-19 2014-12-24 The Regents Of The University Of Michigan Deep learning framework for generic object detection
US9129191B2 (en) * 2013-12-16 2015-09-08 Adobe Systems Incorporated Semantic object selection
CN106688011B (zh) * 2014-09-10 2018-12-28 北京市商汤科技开发有限公司 用于多类别物体检测的方法和系统
WO2016207875A1 (en) * 2015-06-22 2016-12-29 Photomyne Ltd. System and method for detecting objects in an image
US9589210B1 (en) 2015-08-26 2017-03-07 Digitalglobe, Inc. Broad area geospatial object detection using autogenerated deep learning models
US9767381B2 (en) * 2015-09-22 2017-09-19 Xerox Corporation Similarity-based detection of prominent objects using deep CNN pooling layers as features
WO2017088050A1 (en) * 2015-11-26 2017-06-01 Sportlogiq Inc. Systems and methods for object tracking and localization in videos with adaptive image representation
KR102592076B1 (ko) * 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
US10318848B2 (en) * 2015-12-15 2019-06-11 Qualcomm Incorporated Methods for object localization and image classification
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
US11176423B2 (en) * 2016-10-24 2021-11-16 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
CN106951830B (zh) * 2017-02-23 2020-12-18 北京联合大学 一种基于先验条件约束的图像场景多对象标记方法
US20180260759A1 (en) * 2017-03-07 2018-09-13 Mighty AI, Inc. Segmentation of Images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017515189A (ja) * 2014-03-07 2017-06-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated 写真管理
JP2016071800A (ja) * 2014-10-01 2016-05-09 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US20170124415A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
今川 和幸: "カメラを用いた手話認識における見えの違いを考慮した手話の局所特徴認識", 映像情報メディア学会誌 第54巻 第6号, vol. 54, no. 6, JPN6020051393, 20 June 2000 (2000-06-20), JP, pages 848 - 857, ISSN: 0004421909 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022168274A1 (ja) * 2021-02-05 2022-08-11 三菱電機株式会社 情報処理装置、選択出力方法、及び選択出力プログラム

Also Published As

Publication number Publication date
US20190065908A1 (en) 2019-02-28
EP3475881B1 (en) 2020-04-22
JP6837597B2 (ja) 2021-03-03
EP3475881A1 (en) 2019-05-01
WO2019043988A1 (en) 2019-03-07
CN111052146A (zh) 2020-04-21
CN111052146B (zh) 2023-05-12
US10769500B2 (en) 2020-09-08

Similar Documents

Publication Publication Date Title
JP6837597B2 (ja) 能動学習のシステム及び方法
US10748035B2 (en) Visually aided active learning for training object detector
JP7058373B2 (ja) 医療画像に対する病変の検出及び位置決め方法、装置、デバイス、及び記憶媒体
US20230316702A1 (en) Explainable artificial intelligence (ai) based image analytic, automatic damage detection and estimation system
JP7341310B2 (ja) 皮膚分析のための画像処理、皮膚分析を視覚化するためのシステム及び方法
CN111860565A (zh) 用于训练用于测量技术中的质量检查的分类器的工作流程
US11417007B2 (en) Electronic apparatus and method for controlling thereof
KR102356465B1 (ko) 사용자 얼굴 피부 분석 방법 및 서버
CN113052295B (zh) 一种神经网络的训练方法、物体检测方法、装置及设备
US20220366244A1 (en) Modeling Human Behavior in Work Environment Using Neural Networks
CN112446275A (zh) 物体数量推定装置、物体数量推定方法以及存储介质
JP7400449B2 (ja) 解析装置、解析方法、及び解析プログラム
CN112613425B (zh) 一种面向小样本水下图像的目标识别系统
CN112634255B (zh) 脑部病灶检测模型的建立方法、装置以及计算机设备
US20220319707A1 (en) System, Method and Computer Readable Medium for Video-Based Facial Weakness Analysis for Detecting Neurological Deficits
US11978199B2 (en) Optical imaging system and related apparatus, method and computer program
CN117574098B (zh) 一种学习专注度分析方法以及相关装置
EP4016388A1 (en) Automatic inspection using artificial intelligence models
US20240019931A1 (en) Methods and systems for eye-gaze location detection and accurate collection of eye-gaze data
EP4270309A1 (en) Image processing device and method
WO2021003574A1 (en) Systems and methods to process images for skin analysis and to visualize skin analysis
CN116226712A (zh) 一种线上学习者专注度监视方法、系统及可读存储介质
CN117242528A (zh) 处理图像以进行皮肤分析和可视化皮肤分析的系统和方法
CN117173676A (zh) 一种驾驶员的变道意图识别方法、装置、设备及介质
CN116402760A (zh) 眼底图像预测方法、眼底图像预测系统、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200123

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210209

R150 Certificate of patent or registration of utility model

Ref document number: 6837597

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250