JP2020528623A

JP2020528623A - 能動学習のシステム及び方法

Info

Publication number: JP2020528623A
Application number: JP2020503837A
Authority: JP
Inventors: リー、テン−ヨク; カオ、チー−チ; セン、プラディープ; リウ、ミン−ユ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-08-31
Filing date: 2018-02-06
Publication date: 2020-09-24
Anticipated expiration: 2038-02-06
Also published as: US10769500B2; EP3475881B1; CN111052146A; EP3475881A1; US20190065908A1; JP6837597B2; CN111052146B; WO2019043988A1

Abstract

センサを備える能動学習システムのためのシステム及び方法が、シーンから、物体を有する１組の画像を含む、データを取得する。メモリは、画像内の物体を検出するためにトレーニングされた物体検出器を含む能動学習データを記憶する。メモリと通信するプロセッサが、物体検出器を用いて、１組の画像から選択された画像内の少なくとも１つの物体の意味クラス及び場所を検出し、画像内の物体の意味クラス（分類）についての物体検出器の不確実度と、画像内の物体の場所（位置特定）についての物体検出器の不確実度との組み合わせとして検出指標を生成するように構成される。このシステムでは、検出指標が閾値を超えるときに、プロセッサと通信する、出力インターフェース又はディスプレイタイプデバイスを用いて、人間がラベル付けするための画像を表示する。

Description

本開示は、包括的には、コンピュータビジョンのためのシステム及び方法に関し、より詳細には、画像内の物体の位置特定及び分類の両方を考慮する物体検出器を用いて物体検出のために能動学習を適用することに関する。

従来のビジョン検出手法は、大量の注釈付きデータを用いて、畳み込みニューラルネットワーク（ＣＮＮ）をトレーニングして、種々の視覚認識作業に関して人間を超えた性能を達成できることが示されてきた。しかしながら、これらの従来のビジョン検出方法は、データ注釈付けが不可欠であり、費用がかかるので、データ注釈付けのための実効的な手法の研究ができていなかった。例えば、データ注釈付けは、物体検出作業に関して特に費用がかかる。多肢選択問題を介して行うことができる、画像クラスに注釈付けすることと比べて、物体の場所に注釈付けすることは、人間の注釈者に、物体に関する境界ボックスを指定するように要求する。物体を取り囲むために隙間のない境界ボックスを単にドラッグするだけでも、多肢選択問題に答えるより１０倍以上のコストがかかる可能性がある。結果として、物体検出作業のために画像に注釈付けするのに、人間のラベラーに、より高い報酬が支払われなければならない。コストに加えて、監視及び制御するのがより難しいのが、注釈品質である。

したがって、数ある中でも、少ない注釈付けプロセスで、それゆえ、少ない注釈付けバジェットで、より良好な性能を達成することが必要とされている。

本開示の実施形態は、画像内の物体の位置特定及び分類の両方を考慮する物体検出器を用いて、物体検出のために能動学習を適用するシステム及び方法を提供することに関する。

本開示は、シーンの画像内の物体の特徴の不確実度指標を使用する能動学習が、画像分類及び画像位置特定作業のためにデータに注釈付けするための実効的な手法になり得るという認識に基づく。具体的には、その認識は、画像内の物体の意味クラス（分類）についての物体検出器の不確実度と、画像内の物体の場所（位置特定）についての物体検出器の不確実度との組み合わせを含む、物体検出器のために能動学習に関する検出指標を使用することに基づく。しかしながら、これを実現するに至るには、何が物体の位置特定に関する不確実度の指標としての役割を果たすことができるかに関して、実験を通して更に理解を深める必要があった。

具体的には、実験を通して、能動学習は、本開示の態様に特有の目標性能を達成するために必要とされる注釈付きデータの量を削減するのに有用な機械学習手順であることが能動学習を使用してわかった。その能動学習は、物体分類及び活動認識を含む、種々のコンピュータビジョン問題に適用することができる。さらに、能動学習は、小さいラベル付きデータセットを伴うベースラインモデル（分類器）のための初期トレーニングのために使用することができ、その分類器を未ラベル付けデータに適用することができる。その場合、未ラベル付けサンプルごとに、能動学習は、このサンプルが、ベースラインモデルによって学習されていない重要な情報を含むか否かを推定することができる。したがって、最も重要な情報をもたらすとともに、人間の注釈者によってラベル付けされたサンプルを識別すると、それらのサンプルは、モデルを再トレーニングするために、初期トレーニングデータセットに追加することができる。本発明の方法（複数の場合もある）を、未ラベル付けデータセットからサンプルをランダムに選択するいくつかの従来の受動学習法と比べるとき、本発明の能動学習は、数は少ないが、情報量の多いラベル付きサンプルを用いて、いくつかの従来の受動学習法と同じ精度を達成でき、それらのサンプルが本開示の数多くの態様に関して有益であることがわかった。

さらに、本発明の実験によって、何が物体の位置特定に関する不確実度の指標としての役割を果たすかを理解した。本開示のアルゴリズム（複数の場合もある）は、位置特定不確実度の２つの定量的測定値に基づくことができることがわかった。位置特定不確実度の第１の定量的測定値は、検出された境界ボックスが真の物体をいかに隙間なく取り囲むことができるかを推定することができる位置特定合致度（ＬＴ：Localization Tightness）指標を含む。例えば、境界ボックスの合致度が高いほど、位置特定がより確実になる。位置特定合致度は、物体検出器による、例えば、領域提案ネットワーク（ＲＰＮ：region proposal network）によって提案される初期境界ボックスの適合量に基づいて推定することができる。位置特定不確実度の第２の定量的測定値は、検出された境界ボックスが入力画像の変化に影響を受けやすいか否かに基づく、位置特定安定度（ＬＳ：Localization Stability）指標を含む。位置特定安定度を評価するために、本開示のアルゴリズムは、画像のピクセル値に異なる量のガウス雑音を付加し、検出された領域が雑音に対していかに変化するかを測定する。本開示の少なくとも１つの態様は、画像を与えられると、雑音を付加することによって画像を操作することができ、境界ボックスがいかに変化するかを測定できることがわかったことであることに留意されたい。その場合に、この指標は、全ての種類の物体検出器に、特に、明示的な提案段階を有しない物体検出器に適用することができる。また、この指標は、ビデオ監視解析、障害物検出、及び自律運転のための経路計画等に適用することができる。

言い換えると、本開示は、複数の公開ベンチマーク及び異なる物体検出器に関する測定値を解析することができる。それは独自であり、革新的な態様を有し、物体検出器の位置特定不確実度を定量的に評価するために異なる測定値を提示できることを含む。さらに、本発明の測定値は、物体の場所に関するグラウンドトゥルースが未知であっても、物体検出の異なる態様を考慮し、本発明の測定値を能動学習に適したものにする。別の独自で、革新的な態様は、物体検出のために能動学習を適用するために、情報を与える画像をサンプリングするときに、検出器の位置特定及び分類の両方が考慮されるべきであることを実証することを含む。例えば、本開示のシステム及び方法は、非限定的な例として、ＰＡＳＣＡＬ２０１２ベンチマークに関して検出器をトレーニングすることができ、それは従来の受動学習手法と同じ性能を達成するが、注釈付きデータが著しく少ない。これらの性能レベルは、非限定的な例として、数ある中でも、それぞれ位置特定合致度（ＬＴ）及び位置特定安定度（ＬＳ）を伴う分類に役に立つようにその方法を拡張することによって、達成することができる。言い換えると、物体検出器モデルが境界ボックスの大きさ及び場所の調整を伴う場合には、合致度を更に推定することができる。

本開示の能動学習システム及び方法をよりわかりやすく説明するために、少なくとも１つの方法に関するいくつかのプロセスフローステップを与える。例えば、その方法は、物体検出器が最初に入力として画像を取り込むことを含み、１組の長方形の境界ボックスを出力する。各境界ボックスは自ら（境界ボックス）の形状の場所及び縮尺と、全てのクラスの確率質量関数とを有する。ベースライン物体検出器をトレーニングするために、注釈付き画像の小さいトレーニングセットを用いて、少なくとも１つのトレーニングプロセスステップが最初に開始される。より多くの画像を用いてトレーニングすることによって物体検出器を改善するために、その方法は、注釈付けすべきより多くの画像を収集し続ける。新たに収集された全ての画像に注釈付けすることとともに、現在の検出器の異なる特性に基づいて、人間の注釈者がラベル付けするための画像のサブセットも選択する。注釈付けされると、これらの選択された画像は、後の時点において新たな検出器をトレーニングするために、トレーニングセットに追加することができる。プロセス全体が、より多くの画像を収集し、新たな検出器に対するサブセットを選択し、選択されたサブセットに人間が注釈付けし、検出器を再トレーニングする等を継続することができる。データ収集、選択、注釈付け及びトレーニングのそのようなサイクルが一巡と呼ばれる。

数ある重要な構成要素の中でも、本開示の少なくとも１つの重要な構成要素は、１組の情報を与える画像を選択する選択ステップにある。画像の情報性は、検出器が、物体のクラス及び場所を含む、そのラベルに対していかに不確実であるかを指定する、不確実度スコアとして定量化される。画像内の物体は境界ボックスとして指定される。物体境界ボックスが高い不確実度スコアを有する場合には、その画像は選択されるべきである。スコアを計算することに関して、分類及び位置特定の両方に関する不確実度を考慮する。境界ボックスの分類不確実度は、クラスの確率質量関数に基づく、能動学習手法に類似とすることができる。例えば、単一のクラスに関する確率が１．０に近く、すなわち、他のクラスに関する確率が低いことを意味する場合には、検出器は、そのクラスについて高い確実性を有する。対照的に、複数のクラスが類似の確率を有するとき、全てのクラスの確率の和は１でなければならないので、各確率は低くなるであろう。したがって、分類不確実度として、１からクラスの確率質量関数の最大値を減算した値を使用することができる。

さらに、画像を与えられると、位置特定と分類との間の不一致度、又は検出された物体の場所の安定度に基づいて、スコアが割り当てられる。その後、物体及び対応する物体クラスを含むボックスを選択するために、最も高いスコアを有する未ラベル付け画像を人間のラベラーに送信することができる。自らのラベルを有するこれらの画像を用いて、初期物体検出器をトレーニングし、その性能を改善することができる。このプロセスは、物体検出器の性能が満たされるまで繰り返すことができる。

本開示の一実施形態によれば、センサからシーンの１組の画像を受信するための入力インターフェースを備える能動学習システムが開示される。例えば、センサ（複数の場合もある）は、１組の画像を含む、シーンからのデータを取得する、ビデオカメラ又はカメラ等のデバイスとすることができる。また、データは、温度等の環境条件等の環境データを含むことができる。さらに、メモリを利用して、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶することができる。入力インターフェース及びメモリと通信するプロセッサ（複数の場合もある）は、物体検出器を用いて、１組の画像から選択された画像内の少なくとも１つの物体の意味クラス及び場所を検出し、画像内の物体の意味クラス（分類）についての物体検出器の不確実度及び画像内の物体の場所（位置特定）についての物体検出器の不確実度との組み合わせとして検出指標を生成するように構成することができる。最終的に、能動学習システムは、検出指標が閾値を超えると、プロセッサと通信する出力インターフェース、すなわち、ディスプレイタイプデバイスを用いて、人間がラベル付けするための画像を表示する。

本開示の別の実施形態によれば、撮像データを受信するメモリを備える能動学習システムが開示される。撮像データは、入力インターフェースを介してのセンサからのシーンの画像の複数の組を含む。さらに、メモリは、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶している記憶デバイスを備える。プロセッサが、メモリ、入力インターフェース及び出力インターフェースに接続するように構成される。プロセッサは、物体検出器を用いて、検出指標を生成するための命令を実行する。物体検出器は、物体検出器を用いて、画像の複数の組のうちの少なくとも１組の画像から選択された画像内の少なくとも１つの物体の意味クラス及び場所を検出し、画像内の物体の意味クラスについての物体検出器の不確実度及び画像内の物体の場所についての物体検出器の不確実度の組み合わせとして検出指標を生成するステップを実行する。能動学習システムは、検出指標が閾値を超えると、人間がラベル付けするための撮像デバイス上の画像を表示するために、出力インターフェースを用いて、撮像デバイスに接続される撮像インターフェースに画像を出力する。

本開示の別の実施形態によれば、画像内の物体の位置特定及び分類の両方を考慮する物体検出器を使用する物体検出のための能動学習法が開示される。その方法は、入力インターフェースを介してセンサからシーンの画像の組を含む撮像データを受信することと、撮像データをメモリに記憶することとを含む。メモリは、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶している記憶デバイスを備える。この能動学習法では、入力インターフェース及びメモリと通信するプロセッサを使用する。プロセッサは、物体検出器を用いて検出指標を生成するための命令を実行するように構成される。物体検出器は、物体検出器を用いて、画像の複数の組のうちの少なくとも１組の画像から選択された画像内の少なくとも１つの物体の意味クラス及び場所を検出し、画像内の物体の意味クラスについての物体検出器の不確実度及び画像内の物体の場所についての物体検出器の不確実度の組み合わせとして検出指標を生成するステップを実行する。この能動学習法では、検出測定基準が閾値を超えると、人間がラベル付けするための画像を表示するために、出力インターフェースを介して撮像デバイスに画像を出力する。プロセッサは、出力インターフェース及び撮像デバイスと通信する。

ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施形態の原理を示すことに強調が置かれている。

能動学習システムを示すブロック図である。能動学習システムのために使用されるいくつかの構成要素を更に含む、図１Ａの能動学習システムを示すブロック図である。図１Ａの能動学習システムを示し、特に、物体検出ステップ中に行われるステップを示すブロック図である。ニューラルネットワークをトレーニングするための能動学習システムのデータフローのブロック図である。ニューラルネットワークをトレーニングするための能動学習システムのフローチャートである。図２Ａ及び図２Ｂの未ラベル付け画像の分類不確実度及び重要度をランク付けするための能動的方法のブロック図である。未ラベル付け画像に注釈付けするための能動学習システムのブロック図である。ラベル付けインターフェースを示すブロック図である。代替のコンピュータ又はプロセッサを用いて実施することができる、図１Ａの能動学習法を示すブロック図である。

以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は１つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。本開示の添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。

以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。

さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサ（複数の場合もある）が、それらの必要なタスクを実行することができる。

概説
本開示の実施形態は、画像内の物体の位置特定及び分類の両方を考慮する物体検出器を用いて、物体検出のために能動学習を適用するシステム及び方法に関する。

具体的には、能動学習は、小さいラベル付きデータセットを伴うベースラインモデル（分類器）のための初期トレーニングのために使用することができ、その分類器を未ラベル付けデータに適用することができることが実験を通してわかっている。その場合、未ラベル付けサンプルごとに、能動学習は、このサンプルが、ベースラインモデルによって学習されていない重要な情報を含むか否かを推定することができる。したがって、最も重要な情報をもたらすとともに、人間の注釈者によってラベル付けされたサンプルを識別すると、それらのサンプルは、モデルを再トレーニングするために、初期トレーニングデータセットに追加することができる。

さらに、本開示の能動学習機構は、他のアプリケーションとともに、自律運転アプリケーションとの関連において高速推論法のための視覚的特徴記述に関する現在の技術的なアプリケーションの要求を満たすように要求される技術的需要に対処する。具体的には、本開示は、従来の自律運転アプリケーション／手法のデータを克服することができる。運転のシナリオは複雑であるので、運転のために収集されるデータは、理想的には、十分な量を有し、広範な運転シナリオを網羅すべきである。しかしながら、全ての運転画像に注釈付けするのは、極めて費用がかかる可能性がある。能動学習を介して、ラベル付けすべき画像の数を削減することができ、それは非常に大量のラベル付き画像を必要とするアプリケーションにとって極めて重大である。

実験を通して、何が物体の位置特定に関する不確実度の指標としての役割を果たすか、そして、本開示のアルゴリズム（複数の場合もある）は、位置特定不確実度の２つの定量的測定値に基づくことができることがわかった。位置特定不確実度の第１の定量的測定値は、検出された境界ボックスが真の物体をいかに隙間なく取り囲むことができるかを推定することができる位置特定合致度（ＬＴ）指標を含む。例えば、境界ボックスの合致度が高いほど、位置特定がより確実になる。位置特定合致度は、物体検出器による、例えば、領域提案ネットワーク（ＲＰＮ）によって提案される初期境界ボックスの適合量に基づいて推定することができる。位置特定不確実度の第２の定量的測定値は、検出された境界ボックスが入力画像の変化に影響を受けやすいか否かに基づく、位置特定安定度（ＬＳ）指標を含む。位置特定安定度を評価するために、本開示のアルゴリズムは、画像のピクセル値に異なる量のガウス雑音を付加し、検出された領域が雑音に対していかに変化するかを測定する。その場合に、この指標は、全ての種類の物体検出器に、特に、明示的な提案段階を有しない物体検出器に適用することができる。また、この指標は、ビデオ監視解析、障害物検出、及び自律運転のための経路計画等に適用することができる。

言い換えると、本開示は、複数の公開ベンチマーク及び異なる物体検出器に関する測定値を解析することができる。それは独自であり、革新的な態様を有し、物体検出器の位置特定不確実度を定量的に評価するために異なる測定値を提示できることを含む。さらに、本発明の測定値は、物体の場所に関するグラウンドトゥルースが未知であっても、物体検出の異なる態様を考慮し、本発明の測定値を能動学習に適したものにする。別の独自で、革新的な態様は、物体検出のために能動学習を適用するために、情報を与える画像をサンプリングするときに、検出器の位置特定及び分類の両方が考慮されるべきであることを実証することを含む。例えば、本開示のシステム及び方法は、非限定的な例として、ＰＡＳＣＡＬ２０１２ベンチマークに関して検出器をトレーニングすることができ、それは従来の受動学習手法と同じ性能を達成するが、注釈付きデータが著しく少なく、すなわち、注釈付きデータが約１５％〜約２０％、及び約２０％〜約２５％だけ少ない。これらの性能レベルは、非限定的な例として、数ある中でも、それぞれ位置特定合致度（ＬＴ）及び位置特定安定度（ＬＳ）を伴う分類に役に立つようにその方法を拡張することによって、達成することができる。

本開示のいくつかの実施形態に関する能動学習システムは、ヒューマンマシンインターフェースと、ニューラルネットワークを含む記憶デバイスと、メモリと、システムの外部にあるネットワークと接続可能なネットワークインターフェースコントローラーとを備えることができる。能動学習システムは、撮像デバイスと接続可能な撮像インターフェースと、ヒューマンマシンインターフェース、記憶デバイス、メモリ、ネットワークインターフェースコントローラー及び撮像インターフェースに接続するように構成されるプロセッサとを更に備えることができ、プロセッサは、記憶デバイス内に記憶される物体検出器を用いて、検出指標を生成するための命令を実行することができる。物体検出器は、画像の複数の組のうちの少なくとも１組の画像から選択される画像内の少なくとも１つの物体の意味クラス及び場所を検出することを少なくとも含むステップを実行することができる。さらに、物体検出器は、物体検出器を用いて、画像内の物体の意味クラスについての物体検出器の不確実度と、画像内の物体の場所についての物体検出器の不確実度との組み合わせとして検出指標を生成するステップを実行する。さらに、物体検出器は、検出指標が閾値を超えると、人間がラベル付けするための画像を表示するために、画像を撮像デバイスに出力するステップを実行する。

図１Ａは、本開示の一実施形態による、能動学習システムを示すブロック図である。最初に、能動学習システム１００は、プロセッサによって、入力インターフェースを介してセンサからシーンの１組の画像を取得するステップ１２０を含み、１組の画像は物体を含む。次のステップは、プロセッサを用いて、取得された１組の画像を、メモリに記憶された物体検出器に入力すること１２５を含む。物体検出器ステップ１３０は、１組の画像から選択された画像内の少なくとも１つの物体の意味クラス及び場所を検出する。画像ごとに、ステップ１３０は、画像内の物体の意味クラスについての物体検出器の不確実度と、画像内の物体の場所についての物体検出器の不確実度との組み合わせとして指標を計算する。次のステップ１３５は、検出指標が閾値を超えると、出力インターフェースを用いて、人間がラベル付けするための画像を表示することを含む。

図１Ｂは、本開示のいくつかの実施形態による、能動学習システムのために使用されるいくつかの構成要素を更に含む、図１Ａの能動学習システムを示すブロック図である。能動学習システム１００は、センサデバイス１１２によって取得される（正：obtained）入力画像を与えるシーン１１０を含む。例えば、センサ（複数の場合もある）１１２は、１組の画像１１４を取得するためにシーン１１０からデータを取得する、ビデオカメラ又はカメラ等のデバイスとすることができる。また、データは、温度等の環境条件等の環境データを含むことができる。シーン１１０からの入力画像は、入力インターフェース１１６によって取得され、プロセッサ１４０によって処理される１組の画像１１４を含む。１組の画像１１４は、メモリ１４５に記憶することができ、その後、プロセッサ１４０によって後に処理できることが考えられる。さらに、入力インターフェース１１６及びメモリ１４５は、コンピュータ１５０と通信することができる。さらに、プロセッサ１４０は、メモリ１４５に記憶することができる物体検出器１４２を用いて１組の画像１１４を処理する。

物体検出器１４２を画像内の少なくとも１つの物体の意味クラス及び場所を検出するように構成できるように、物体検出器１４２は、プロセッサ（複数の場合もある）１４０によって処理される。画像ごとに、物体検出器は、検出された物体のクラス及び場所に基づいて、検出指標を計算する。ステップ１４４は、閾値より高い検出指標を有する画像を選択する。最後に、プロセッサ１４５と通信する出力インターフェース１９５、すなわち、ディスプレイタイプデバイスを利用して、選択された画像とともに画像を表示することができる。

図１Ｃは、本開示のいくつかの実施形態による、図１Ａの能動学習システムを示し、特に、図１Ａの物体検出ステップ１３０及び図１Ｂの物体検出ステップ１４２中に行われるいくつかのステップを示すブロック図である。画像１６１を与えられると、この画像は、分類不確実度を測定する１６５ために、最初に物体検出器１６３に適用される。この物体検出器が初期境界ボックスについての情報も含む場合には、ブロック１６４は、合致度１６７を測定するために、初期境界ボックスと最終境界ボックスとを比較する。位置特定安定度を測定するために、画像１６１に雑音１６２を付加し、同じ物体検出器（１６０、それは１６３と同一である）を適用する。ステップ１６６は、元の画像に基づく、検出器１６３によって生成された被検出ボックスと、同じ検出器アルゴリズムを使用するが、画像に雑音が付加されている、検出器１６０からの被検出ボックスとを比較する。ステップ１６６は、位置特定安定度を出力し、それは、ブロック１６５からの分類不確実度、１６７の位置特定合致度（存在する場合）と組み合わせられ、入力画像１６１に関する最終的な不確実度測定値が形成される。

例えば、物体検出器は、畳み込みニューラルネットワーク、サポートベクトルマシン等の数多くの機械学習アルゴリズムに基づいて、画像内の少なくとも１つの物体の意味クラスを検出することができる（分類）。分類アルゴリズムを与えられると、この分類アルゴリズムは画像物体に適用され、この物体が所定のクラスのうちの各クラスである確率が計算される。その場合に、画像内の物体の意味クラスについての物体検出器の不確実度は、全ての所定のクラスのこれらの確率の関数とすることができる。例えば、高い確率を有するクラスが多いほど、分類されるクラスを推定する確実度が低い。

さらに、物体検出器は、画像内の少なくとも１つの物体の場所を検出することができる（位置特定）。物体を検出するために、画像上に、異なる縮尺及びアスペクト比の複数のボックスが生成される。ボックスごとに、対象物（例えば、車両、歩行者、トラック等）のあらかじめ収集されたパターン内の画像ピクセルからの類似度が測定される。可能な限りパターンを適合させるように、ボックスを更に調整することができる。いくつかのボックスが同じ物体に重なることができるので、この物体と重なるボックスの中でも最も高い類似度を有するボックスを更にフィルタリングすることができる。物体検出器は初期ボックスを調整して、最も近く、最も可能性が高い物体に適合させることができるが、ボックスは依然として合致していない可能性がある。その結果、画像内の物体の場所についての物体検出器の不確実度は、物体の周りの境界ボックスの合致度の関数である。検出指標は、物体の意味クラスについての物体検出器の確実度と、物体の場所の合致度の物体検出器の確実度との間の不一致度に比例するものとすることができる。さらに、物体の周りの境界ボックスの合致度の関数は、初期境界ボックス及び最終境界ボックスの共通部分と、初期境界ボックス及び最終境界ボックスの和集合との比を用いて確定することができる。物体検出器は、物体を包囲する初期境界ボックスを推定し、初期境界ボックスを調整して、最終境界ボックスを生成できることが可能である。さらに、初期境界ボックスは、領域提案ネットワークによって提案することができることが考えられる。物体検出器は、画像内の異なる場所に複数の初期境界ボックスを配置し、確定の意味クラスの物体を最大限に包含する初期境界ボックスを選択する。

物体の場所についての物体検出器の不確実度は、物体の周りの境界ボックスの安定度の関数とすることができることに留意されたい。プロセッサは、雑音で変更された画像内の物体を検出することができ、画像に関して確定された境界ボックスと、雑音で変更された画像に関して確定された境界ボックスとの間の差に基づいて、境界ボックスの安定度を確定する。さらに、検出指標は、境界ボックス内の物体のクラスについてのニューラルネットワークの不確実度の加重和とすることができ、境界ボックスの安定度は、付加雑音に対してその場所及び大きさがどの程度変化するかに基づく。異なる程度の雑音下でその場所及び大きさが近似し得る場合には、境界ボックスは安定していると言われる。

本開示のいくつかの実施形態によれば、能動学習システムは、ヒューマンマシンインターフェースと、ニューラルネットワークを含む記憶デバイスと、メモリと、システムの外部にあるネットワークと接続可能なネットワークインターフェースコントローラーとを備える。能動学習システムは、撮像デバイスと接続可能な撮像インターフェースと、ヒューマンマシンインターフェース、記憶デバイス、メモリ、ネットワークインターフェースコントローラー及び撮像インターフェースに接続するように構成されるプロセッサとを更に備え、プロセッサは、記憶デバイスに記憶されたニューラルネットワークを用いて画像内の物体を分類するための命令を実行し、ニューラルネットワークは、ニューロンネットワークを用いて信号の特徴を確定するステップと、信号を分類するために特徴の不確実度指標を確定するステップと、デコーダーニューロンネットワークを用いて特徴から信号を再構成し、再構成済み信号を生成するステップと、再構成済み信号を信号と比較し、再構成誤差を生成するステップと、不確実度指標を再構成誤差と合成し、手作業によるラベル付けのために必要とされる信号のランクを生成するステップと、ランクに従って信号にラベル付けし、ラベル付き信号を生成するステップと、ラベル付き信号を用いて、ニューロンネットワーク及びデコーダーニューロンネットワークをトレーニングするステップとを実行する。

図２Ａは、本開示のいくつかの実施形態による、ニューラルネットワークをトレーニングするための能動学習システムのデータフローのブロック図である。例えば、能動学習システム２００の初期設定は、ランダムパラメータで初期化されるニューラルネットワーク２１０、初期の１組のラベル付きトレーニング画像２０１、トレーナー２０２、１組の未ラベル付け画像２０３を含む。この場合、ニューラルネットワーク２１０は、ユーザ定義ニューラルネットワークである。

能動学習システム２００は、図２Ａに示される基本ワークフローを通して注釈付けを実行するために未ラベル付け画像を効率的に照会しようと試みる。ランダムに初期化されたパラメータを有するニューラルネットワーク（ＮＮ）２１０に基づいて、トレーナー２０２は、ＮＮ２１０を画像の初期のラベル付きトレーニングデータセット２０１に適合させることによって、ネットワークパラメータを更新する。結果として、更新されたネットワークパラメータを有するトレーニングされたＮＮ２２０を用いて、未ラベル付けデータセット２０３内の画像の重要度がランク付けされる。未ラベル付け画像２０３は、トレーニングされたＮＮ２２０によって実行されるランク付け結果から取得される重要度スコア２０４に従って並べ替えられる。上位Ｋ個の重要な画像２０５が、ラベル付けインターフェース２０６に関連付けられるメモリ（図２Ａには示されない）内のラベル付け記憶域内に記憶される。作業者（又は注釈者）によって行われるデータ入力に応答して、ラベル付けインターフェース２０６は、グラウンドトゥルースラベルを有する注釈付き画像２０７を生成する。これらの注釈付き画像２０７は、その後、初期のラベル付きトレーニングデータセット２０１に追加され、新たなトレーニングデータセット２０８が形成される。その後、トレーナー２０２は、画像の新たなトレーニングデータセット２０８を適合させることによってネットワーク２２０を再トレーニングし、更新されたニューラルネットワークパラメータ２３０を取得する。この手順が繰り返される。更新されたニューラルネットワークパラメータ２３０を用いて、未ラベル付け画像２０３の残りの画像の重要度がランク付けされ、上位Ｋ個の重要な画像２０５がラベル付けインターフェース２０６に送信される。通常、この手順は、所定の好ましい性能が達成されるか、又は注釈付けに関するバジェットが空になるまで何度か繰り返される。

さらに、引き続き図２Ａを参照すると、特徴を確定することは、エンコーダニューラルネットワークを使用することによって実行することができる。この場合、エンコーダニューラルネットワークは、所与の信号の特徴解析を実行することができる。場合によっては、信号は脳波図（ＥＥＧ）又は心電図（ＥＣＧ）とすることができる。ニューラルネットワークは、画像信号の代わりに、生体信号を使用することができる。したがって、本開示のいくつかの実施形態を適用して、医師の診断を支援するための確定の信号を与えることができる。

図２Ｂは、本開示のいくつかの実施形態による、ニューラルネットワークをトレーニングするための能動学習システムのフローチャートである。例えば、能動学習システム２００は、図示されるプロセスフローを通して注釈付けのための未ラベル付け画像を効率的に照会しようと試みる。図２Ｂのプロセスフローは、以下のステージを含むことができる。

Ｓ１−初期ラベル付きトレーニングデータセットが与えられ、データセットを使用することによってニューラルネットワークがトレーニングされる。

Ｓ２−ステップＳ１において取得されたトレーニングされたＮＮを使用することによって、未ラベル付けデータセット内の各画像が評価され、各画像にスコアが割り当てられる。

Ｓ３−ステップＳ２において取得されたスコアを与えられると、注釈付けデバイスによってラベル付けするために、上位Ｋ個の高いスコアを有する画像が選択される。

Ｓ４−新たに注釈付けされたラベルを有する選択された画像が現在の（最新の）ラベル付きトレーニングセットに追加され、新たなトレーニングデータセットが取得される。

Ｓ５−新たなトレーニングデータセットに基づいて、ネットワークが精緻化又は再トレーニングされる。

図２Ｂは、能動学習システム２００の能動学習アルゴリズムが画像にラベル付けするために画像を効率的に照会しようと試みることを示す。初期の小さいラベル付きトレーニングセットに関して初期化モデルがトレーニングされる。直前にトレーニングされたモデルである現在のモデルに基づいて、能動学習システム２００は、注釈付けされることになる情報量が多い上位の未ラベル付け画像を見つけようと試みる。情報量の多い画像のサブセットがラベルを付けられ、次回のトレーニングのためにトレーニングセットに追加される。このトレーニングプロセスは繰り返し実行され、能動学習システム２００は、テストデータセットに関するモデルの精度性能を徐々に高めるために、より多くのラベル付き画像を注意深く追加する。標準的な手法はラベル付けのためのサンプルをランダムに選択するだけなので、能動学習システム２００のアルゴリズムは通常、その本質によって、トレーニングのための標準的な手法よりはるかに良好に機能する。

本明細書において「画像」という用語が使用されるが、能動学習システム２００において、別の「信号」を使用することができる。例えば、能動学習システム２００は、脳波図（ＥＥＧ）又は心電図（ＥＣＧ）等の他の信号を処理することができる。画像の代わりに、能動学習システム２００においてＥＥＧ又はＥＣＧ信号をトレーニングすることができる。その後、トレーニングされた能動学習システム２００を適用して、入力信号に関する異常を確定又は判断することができ、それは関連する症状の医学的診断に関する有用な支援になり得る。

図３は、本開示のいくつかの実施形態による、図２Ａ及び図２Ｂの能動学習システムにおいて未ラベル付け画像の重要度をランク付けするためのプロセスステップのブロック図を示す。図２Ａの１組の未ラベル付け画像２０３からの入力画像が、ステップ３０２において、図２ＡのＮＮ２２０のフロントエンドに与えられるとき、トレーニングされたＮＮ２２０が、特徴３０３を生成し、ソフトマックス出力層３０４を介して分類結果を出力する。分類結果は、レニーエントロピー（Renyi entropy）に基づいて、不確実度指標３０５を通して、入力信号の重要度スコア２０４を計算するために使用される。

図２ＡのトレーニングされたＮＮ２２０は、未ラベル付けデータセット２０３内の画像ごとに特徴３０３を抽出するために、また、ソフトマックス出力層３０４によって分類を計算するために使用される。ソフトマックス出力層３０４によって取得される分類結果は、次元Ｄの確率ベクトルであり、ただし、次元Ｄは物体クラスの数である。入力画像をｘによって表し、確率ベクトルを示す、ソフトマックス出力層３０４によって計算される分類結果をｐによって表すとき、確率ベクトルｐの各次元は、入力画像２０３が確定のクラスに属する確率を表す。ｐの成分の和は１に等しい。入力画像のクラスの不確実度は、その後、エントロピー関数Ｈ（ｘ）によって、不確実度指標３０５のステップにおいて測定することができる。エントロピーＨ（ｘ）がシャノンエントロピーに基づいて計算されるとき、入力画像のクラスの不確実度は、

によって与えられる。

引き続き図３を参照すると、不確実度方法において、不確実度指標を未ラベル付け画像の重要度スコア２０４として使用することができる。さらに、レニーエントロピーカテゴリにおいて定義される他のエントロピー指標を不確実度計算のために使用することができる。例えば、エントロピー関数Ｈ（ｘ）は、衝突エントロピー（Collision entropy）

又は最小エントロピー（Min-entropy）

とすることができる。

さらに、不確実度の推定値を取得するためのエントロピーに基づく方法を

によって定義することができ、実験結果が図５に示される。

引き続き図３を参照すると、不確実度方法は汎用の能動学習法であるので、各入力画像からクラス確率を表すベクトルを導出できる限り、種々の分類器（ＳＶＭ、ガウス過程、又はニューラルネットワーク）とともに使用することができる。この場合、不確実度方法は、分類器の特性を利用せず、準最適な性能に達する。

図４は、本開示のいくつかの実施形態による、能動学習システム４００のブロック図を示す。能動学習システム４００は、キーボード４１１及びポインティングデバイス／媒体４１２と接続可能なヒューマンマシンインターフェース（ＨＭＩ）４１０と、プロセッサ４２０と、記憶装置４３０と、メモリ４４０と、ローカルエリアネットワーク及びインターネットネットワークを含むネットワーク４９０と接続可能なネットワークインターフェースコントローラー４５０（ＮＩＣ）と、ディスプレイインターフェース４６０と、撮像デバイス４７５と接続可能な撮像インターフェース４７０と、印刷デバイス４８５と接続可能なプリンタインターフェース４８０とを備えることができる。プロセッサ４２０は、１つ以上の中央処理ユニット（ＣＰＵ）を備えることができる。能動学習システム４００は、ＮＩＣ４５０に接続されるネットワーク４９０を介して、電子テキスト／撮像ドキュメント４９５を受信することができる。能動学習システム４００は、ＨＭＩ４１０を介して、注釈付けデバイス４１３から注釈付けデータを受信することができる。さらに、注釈付けデバイス４１３は表示画面を備えることができ、注釈付けデバイス４１３の表示画面は、図２Ａのラベル付けインターフェース２０６を表示するように構成することができ、そのインターフェースによれば、所定の注釈付けボックス及び選択されることになる所定のラベル付け候補を有する選択エリア５０２を備える表示領域５０１内に未ラベル付け画像を表示することにより、作業者が、メモリ４４０内に記憶される未ラベル付け画像のラベル付けプロセスを実行できるようになる。

記憶デバイス４３０は、元の画像４３１と、フィルターシステムモジュール４３２と、ニューラルネットワーク４００とを備える。例えば、プロセッサ４２０は、記憶装置４３０内のニューラルネットワーク４００のコードをメモリ４４０にロードし、能動学習を実施するためのコードの命令を実行する。さらに、ポインティングデバイス／媒体４１２は、コンピュータ可読記録媒体上に記憶されたプログラムを読み出すモジュールを備えることができる。

図４及び図５を参照すると、図５は、本開示のいくつかの実施形態による、図２Ａのラベル付けインターフェース２０６の一例を示す。図５において、図２Ａのラベル付けインターフェース２０６は、表示領域５０１と、選択エリア５０２とを含む。図２Ａのラベル付けインターフェース２０６は、図４の注釈付けデバイス４１３内にインストールすることができ、注釈付けデバイスは、図４の注釈付けデバイス４１３のディスプレイ上に図２Ａのラベル付けインターフェース２０６を示す。場合によっては、図２Ａのラベル付けインターフェース２０６は、図４のネットワーク４９０を介して、図４のヒューマンマシンインターフェース（ＨＭＩ）４１０に接続可能な入力／出力インターフェース（図５には示されない）によってインストールすることができる。図２Ａのラベル付けインターフェース２０６が、図２ＡのステップＳ６において上位Ｋ個の重要な未ラベル付け画像２０５のうちの未ラベル付け画像を受信すると、図２Ａのラベル付けインターフェース２０６は、図５の表示領域５０１上にその未ラベル付け画像を表示する。図５の選択エリア５０２は、表示領域５０１上に表示された未ラベル付け画像をラベル付けするための所定の候補を示す。図２Ａのラベル付けインターフェース２０６によって、作業者が、表示領域５０１内に表示された未ラベル付け画像に対して選択エリア５０２内に示される選択可能な注釈のうちの１つを割り当てることができるようになる。図５において、選択エリア５０２は、所定のラベル付け候補、すなわち犬、猫、車及び飛行機を伴う選択ボックスを与える。一例として、図５は、表示領域５０１内に表示された猫画像５０３を示す未ラベル付け画像を示す。この場合、選択エリア５０２内に表示された猫画像に応答して、猫の注釈ボックスが作業者（注釈者）によってチェックされる。カテゴリに加えて、ラベラーは、物体を隙間なく包囲することができる境界ボックスも描画すべきである。この例では、ボックス５０４は、猫を包囲する隙間のない境界ボックスである。図２Ａのラベル付けインターフェース２０６は、作業者による操作に従って、ラベル付け記憶域内に記憶される未ラベル付け画像をメモリにロードし、表示するように構成される。図２Ａのラベル付けインターフェース２０６によってラベル付けされる画像は、図２Ａに示されるように、新たにラベル付けされたトレーニング画像２０７として、ステップＳ３においてメモリ内の新規トレーニング画像記憶エリアの中に記憶される。

特徴
物体検出器は、少なくとも、１組の画像に関して各画像上に異なる縮尺及びアスペクト比の複数のボックスを生成することによって、画像内の少なくとも１つの物体の場所を検出することができる。ボックスごとに、ボックス内の各画像内のピクセルをメモリ内の能動学習データの対象物の記憶されたパターンと比較して、複数のボックスのボックスごとの類似度の測定値を確定する。１つ以上のボックスが同じ記憶された物体パターンと重なる場合には、少なくとも１つの記憶された物体パターンを適合させるように、各ボックスの場所を調整する。重なっている確定された測定類似度量を有する他のボックスから、所定の重なり閾値を超える、確定された類似度測定量を有するボックスのいくつかをフィルタリングする。

物体検出器は、複数のボックスのボックスごとの類似度の測定値を確定するために、ボックスごとに、少なくとも、ボックス内の各画像内の確定されたパターンを能動学習データの異なる意味クラスの記憶された画像パターンと比較することによって、画像内の少なくとも１つの物体の意味クラスを検出できることが可能である。ボックス内の画像内の確定されたパターンは、１組の画像から選択される画像内の異なる縮尺／色／テクスチャの規定された画像特徴である、より小さい画像パターンから構成される。正規化された類似度の和が１に等しく、各クラスへの正規化された類似度がクラス確率になるように、全てのクラスへの確定された被測定類似度に基づいて、全てのクラスを正規化する。

さらに、画像内の物体の場所についての物体検出器の不確実度は、物体の周りの境界ボックスの合致度の関数とすることができることが可能である。少なくとも１つの態様は、検出指標が、物体の意味クラスについての物体検出器の確実度と、物体の場所の合致度の物体検出器の確実度との間の不一致度に比例するものとすることができることを含むことができる。少なくとも別の態様は、物体の周りの境界ボックスの合致度の関数が、初期境界ボックス及び最終境界ボックスの共通部分と、初期境界ボックス及び最終境界ボックスの和集合との比を用いて確定されることを含むことができる。物体検出器は、物体を包囲する初期境界ボックスを推定し、初期境界ボックスを調整して、最終境界ボックスを生成する。初期境界ボックスはユーザによって指定されるか、又は領域提案ネットワークを介して精緻化され、物体検出器は、画像内の異なる場所に複数の初期境界ボックスを配置し、確定の意味クラスの物体を最大限に包含する初期境界ボックスを選択する。

物体の場所についての物体検出器の不確実度は、物体の周りの境界ボックスの安定度の関数とすることができることが考えられる。プロセッサは、雑音で変更された画像内の物体を検出し、画像に関して確定された境界ボックスと、雑音で変更された画像に関して確定された境界ボックスとの間の差に基づいて、境界ボックスの安定度を確定する。検出指標は境界ボックス内の物体のクラスについてのニューラルネットワークの不確実度の加重和であり、境界ボックスの安定度は、雑音下で境界ボックスがいかに影響を受けやすいかに基づき、異なる程度の雑音下で物体の境界ボックスの場所及び大きさが近似し得る場合には、この境界ボックスは安定している。さらに、出力インターフェースは表示デバイスとすることができる。

物体検出器のための能動学習法が、画像内の物体の位置特定及び分類の両方を考慮する物体検出器を使用することが考えられる。不一致度（すなわち、検出指標が、物体の意味クラスについての物体検出器の確実度と物体の場所の合致度についての物体検出器の確実度との間の不一致度に比例する）、又はボックスの安定度（すなわち、物体の場所についての物体検出器の不確実度が物体の周りの境界ボックスの安定度の関数であり、プロセッサが雑音で変更された画像内の物体を検出し、画像に関して確定された境界ボックスと、雑音で変更された画像に関して確定された境界ボックスとの間の差に基づいて、境界ボックスの安定度を確定する）が、画像ごとのスコアとして計算されると、最も高い不一致度又は最も小さい安定度を有する未ラベル付け画像を選択することができる。選択された画像は、物体及び対応するクラスを含むボックスを選択するために、注釈付けする人間のラベラーに送信される。自らのラベルを有するこれらの画像を用いて、初期物体検出器がトレーニングされ、その性能が改善される。このプロセスは、物体検出器の性能が満たされるまで繰り返すことができる。

図６は、本開示の実施形態による、代替のコンピュータ又はプロセッサを用いて実施することができる、図１Ａの方法を示すブロック図である。コンピュータ６１１は、プロセッサ６４０と、コンピュータ可読メモリ６１２と、記憶装置６５８と、ディスプレイ６５２及びキーボード６５１を備えるユーザインターフェース６４９とを備え、それらはバス６５６を通して接続される。例えば、プロセッサ６４０及びコンピュータ可読メモリ６１２と通信するユーザインターフェース６４９は、ユーザによるユーザインターフェース６５７の表面、キーボード表面からの入力を受信すると、測定データを取得し、コンピュータ可読メモリ６１２内に記憶する。

メモリ６１２が、プロセッサによって実行可能である命令、履歴データ及び本開示の方法及びシステムによって利用することができる任意のデータを記憶できることが考えられる。プロセッサ６４０は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成とすることができる。プロセッサ６４０は、バス６５６を通して１つ以上の入力及び出力デバイスに接続することができる。メモリ６１２は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フラッシュメモリ又は任意の他の適切なメモリシステムを含むことができる。

引き続き図６を参照すると、記憶デバイス６５８は、プロセッサによって使用される補足データ及び／又はソフトウェアモジュールを記憶するように構成することができる。例えば、記憶デバイス６５８は、履歴デバイスデータ、及びデバイスに関するマニュアル等の他の関連デバイスデータを記憶することができ、デバイスは、本開示に関して上記で言及されたような被測定データを取得することができる検知デバイスである。それに加えて、又はその代わりに、記憶デバイス６５８は、測定データに類似の履歴データを記憶することができる。記憶デバイス６５８は、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ、又は任意のその組み合わせを含むことができる。

システムは、バス６５６を通して、任意選択で、システムを表示デバイス（図示せず）に接続するように構成されるディスプレイインターフェース（図示せず）にリンクすることができ、表示デバイスは、数ある中でも、コンピュータモニタ、カメラ、テレビ、プロジェクタ又はモバイルデバイスを含むことができる。

コンピュータ６１１は、電源６５４を備えることができ、アプリケーションに応じて、電源６５４は、任意選択で、コンピュータ６１１の外部に位置することができる。また、プリンタインターフェース６５９もバス６５６を通して接続することができ、印刷デバイス６３２に接続するように構成することができ、印刷デバイス６３２は、数ある中でも、液体インクジェットプリンタ、固体インクプリンタ、大規模商用プリンタ、サーマルプリンタ、ＵＶプリンタ、昇華型プリンタを含むことができる。ネットワークインターフェースコントローラー（ＮＩＣ）６３４が、バス６５６を通してネットワーク６３６に接続するように構成され、数ある中でも、測定データ又は他のデータを、コンピュータ６１１の外部にある第三者表示デバイス、第三者撮像デバイス、及び／又は第三者印刷デバイス上に表示することができる。

引き続き図６を参照すると、数ある中でも、測定データ又は他のデータは、ネットワーク６３６の通信チャネルを介して送信することができ、及び／又は記憶及び／又は更なる処理のために記憶システム６５８内に記憶することができる。さらに、測定データ又は他のデータは受信機６４６（又は外部受信機６３８）からワイヤレスで、又は有線で受信することができるか、送信機６４７（又は外部送信機６３９）を介してワイヤレスで、又は有線で送信することができ、受信機６４６及び送信機６４７はいずれもバス６５６を通して接続される。コンピュータ６１１は、入力インターフェース６０８を介して、外部検知デバイス６４４及び外部入力／出力デバイス６４１に接続することができる。コンピュータ６１１は、他の外部コンピュータ６４２及び外部検知デバイス６４４に接続することができる。出力インターフェース６０９を用いて、プロセッサ６４０から、処理済みのデータを出力することができる。さらに、センサ６０４は、シーン６０２から１組の画像を取得することができる。

上述した本開示の実施形態は、数多くの方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。請求項の要素を修飾する、特許請求の範囲における「第１」、「第２」等の序数の使用は、それ自体で、１つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る確定の名称を有する１つの請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

本開示の一実施形態によれば、センサからシーンの１組の画像を受信するための入力インターフェースを備える能動学習システムが開示される。例えば、センサ（複数の場合もある）は、１組の画像を含む、シーンからのデータを取得する、ビデオカメラ又はカメラ等のデバイスとすることができる。また、データは、温度等の環境条件等の環境データを含むことができる。さらに、メモリを利用して、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶することができる。入力インターフェース及びメモリと通信するプロセッサ（複数の場合もある）は、物体検出器を用いて、１組の画像から選択された画像内の少なくとも１つの物体の意味クラス及び場所を検出し、画像内の物体の意味クラス（分類）についての物体検出器の不確実度及び画像内の物体の場所（位置特定）についての物体検出器の不確実度との組み合わせとして検出指標を生成するように構成することができる。最終的に、能動学習システムは、検出指標が閾値を超えると、プロセッサと通信する出力インターフェース、すなわち、ディスプレイタイプデバイスを用いて、人間がラベル付けするための画像を表示する。ここで、物体の場所についての物体検出器の不確実度は、物体の周りの境界ボックスの安定度の関数である。プロセッサは、雑音で変更された画像内の物体を検出し、画像に関して確定された境界ボックスと、雑音で変更された画像に関して確定された境界ボックスとの間の差に基づいて、境界ボックスの安定度を決定する。検出指標は、境界ボックス内の物体の意味クラスについてのニューラルネットワークの不確実度の加重和であり、境界ボックスの安定度は、境界ボックスが雑音下でいかに影響を受けやすいかに基づき、異なる程度の雑音下で物体の境界ボックスの場所及び大きさが近似し得る場合には、この境界ボックスは安定している。

Claims

センサからシーンの１組の画像を受信する入力インターフェースと、
画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶するメモリと、
前記入力インターフェース及び前記メモリと通信するプロセッサであって、
前記物体検出器を用いて前記１組の画像から選択された画像内の少なくとも１つの物体の意味クラス及び場所を検出し、前記画像内の前記物体の前記意味クラスについての前記物体検出器の不確実度と、前記画像内の前記物体の前記場所についての前記物体検出器の不確実度との組み合わせとして検出指標を生成するように構成される、プロセッサと、
前記プロセッサと通信し、前記検出指標が閾値を超えると、人間がラベル付けするために前記画像を表示する出力インターフェースとを備える、能動学習システム。
前記１組の画像に関して各画像上に異なる縮尺及びアスペクト比の複数のボックスを生成することと、
ボックスごとに、前記ボックス内の各画像内のピクセルを、メモリ内の前記能動学習データの対象物の記憶されたパターンと比較し、前記複数のボックスのボックスごとの類似度の測定値を確定することと、
１つ以上のボックスが同じ記憶された物体パターンに重なる場合には、少なくとも１つの記憶された物体パターンを適合させるように、各ボックスの場所を調整することと、
重なっている前記確定された測定類似度量を有する他のボックスから、所定の重なり閾値を超える前記確定された類似度測定量を有する前記ボックスのうちのいくつかをフィルタリングすることと、
によって、前記物体検出器は、前記画像内の前記少なくとも１つの物体の前記場所を検出する、請求項１に記載の能動学習システム。
ボックスごとに、前記ボックス内の各画像内の確定されたパターンを、前記能動学習データの異なる意味クラスの記憶された画像パターンと比較し、前記複数のボックスのボックスごとの類似度の測定値を確定することであって、前記ボックス内の前記画像内の前記確定されたパターンは、前記１組の画像から選択された前記画像内の異なる縮尺／色／テクスチャの規定された画像特徴である、より小さい画像パターンから構成される、確定することと、
正規化された類似度の和が１に等しく、各クラスに対する前記正規化された類似度がクラス確率になるように、全てのクラスに対する前記確定された被測定類似度に基づいて、全てのクラスを正規化することと、
によって、前記物体検出器は、前記画像内の前記少なくとも１つの物体の前記意味クラスを検出する、請求項２に記載の能動学習システム。
前記画像内の前記物体の前記場所についての前記物体検出器の不確実度は、前記物体の周りの境界ボックスの合致度の関数である、請求項１に記載の能動学習システム。
前記検出指標は、前記物体の前記意味クラスについての前記物体検出器の確実度と、前記物体の前記場所の合致度の前記物体検出器の確実度との間の不一致度に比例する、請求項４に記載の能動学習システム。
前記物体の周りの前記境界ボックスの前記合致度の前記関数は、初期境界ボックス及び最終境界ボックスの共通部分と、前記初期境界ボックス及び前記最終境界ボックスの和集合との比を用いて確定される、請求項４に記載の能動学習システム。
前記物体検出器は、前記物体を包囲する初期境界ボックスを推定し、前記初期境界ボックスを調整して、前記最終境界ボックスを生成する、請求項６に記載の能動学習システム。
前記初期境界ボックスはユーザによって指定されるか、又は領域提案ネットワークを介して精緻化される、請求項７に記載の能動学習システム。
前記物体検出器は、前記画像内の異なる場所に複数の初期境界ボックスを配置し、確定の意味クラスの物体を最大限に包含する前記初期境界ボックスを選択する、請求項８に記載の能動学習システム。
前記物体の前記場所についての前記物体検出器の前記不確実度は、前記物体の周りの境界ボックスの安定度の関数である、請求項１に記載の能動学習システム。
前記プロセッサは、雑音で変更された前記画像内の前記物体を検出し、前記画像に関して確定された前記境界ボックスと、雑音で変更された前記画像に関して確定された前記境界ボックスとの間の差に基づいて、前記境界ボックスの安定度を確定する、請求項１０に記載の能動学習システム。
前記検出指標は前記境界ボックス内の前記物体の前記クラスについての前記ニューラルネットワークの前記不確実度の加重和であり、前記境界ボックスの前記安定度は、雑音下で前記境界ボックスがいかに影響を受けやすいかに基づき、異なる程度の雑音下で物体の境界ボックスの前記場所及び大きさが近似し得る場合には、この境界ボックスは安定している、請求項１１に記載の能動学習システム。
前記出力インターフェースは表示デバイスである、請求項１に記載の能動学習システム。
入力インターフェースを介してセンサからシーンの画像の複数の組を含む撮像データを受信するメモリであって、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶している記憶デバイスを含む、メモリと、
出力インターフェースと、
前記メモリ、前記入力インターフェース及び前記出力インターフェースに接続するように構成されたプロセッサであって、前記物体検出器を用いて検出指標を生成するための命令を実行する、プロセッサと、を備え、
前記物体検出器は、
前記物体検出器を用いて前記画像の複数の組のうちの少なくとも１組の画像から選択された画像内の少なくとも１つの物体の意味クラス及び場所を検出し、前記画像内の前記物体の前記意味クラスについての前記物体検出器の不確実度と、前記画像内の前記物体の前記場所についての前記物体検出器の不確実度との組み合わせとして検出指標を生成するステップと、
前記検出指標が閾値を超えるときに、人間がラベル付けするための前記画像を撮像デバイス上に表示するために、前記出力インターフェースを用いて、前記撮像デバイスに接続される撮像インターフェースに前記画像を出力するステップと、
を実行する、能動学習法。
前記画像内の前記物体の前記場所についての前記物体検出器の前記不確実度は、前記物体の周りの境界ボックスの合致度の関数である、請求項１４に記載の能動学習法。
前記検出指標は、前記物体の前記意味クラスについての前記物体検出器の確実度と、前記物体の前記場所の前記合致度についての前記物体検出器の確実度との間の不一致度に比例する、請求項１５に記載の能動学習法。
前記物体の周りの前記境界ボックスの前記合致度の前記関数は、初期境界ボックス及び最終境界ボックスの共通部分と、前記初期境界ボックス及び前記最終境界ボックスの和集合との比を用いて確定される、請求項１６に記載の能動学習法。
前記物体検出器は、前記物体を包囲する初期境界ボックスを推定し、前記初期境界ボックスを調整して、前記最終境界ボックスを生成する、請求項１７に記載の能動学習法。
画像内の物体の位置特定及び分類の両方を考慮する物体検出器を使用する、物体検出のための能動学習法であって、
入力インターフェースを介してセンサからシーンの画像の複数の組を含む撮像データを受信し、前記撮像データをメモリに記憶することであって、前記メモリは、画像内の物体を検出するためにトレーニングされる物体検出器を含む能動学習データを記憶している記憶デバイスを含むことと、
前記入力インターフェース及び前記メモリと通信するプロセッサを使用することと、
を含み、前記プロセッサは、前記物体検出器を用いて検出指標を生成するための命令を実行するように構成され、前記物体検出器は、
前記物体検出器を用いて前記画像の複数の組のうちの少なくとも１組の画像から選択された画像内の少なくとも１つの物体の意味クラス及び場所を検出し、前記画像内の前記物体の前記意味クラスについての前記物体検出器の不確実度と、前記画像内の前記物体の前記場所についての前記物体検出器の不確実度との組み合わせとして検出指標を生成するステップと、
前記検出指標が閾値を超えるときに、人間がラベル付けするための前記画像を表示するために、出力インターフェースを介して撮像デバイスに前記画像を出力するステップと、を実行し、前記プロセッサは、前記出力インターフェース及び撮像デバイスと通信する、能動学習法。
前記画像内の前記物体の前記場所についての前記物体検出器の前記不確実度は、前記物体の周りの境界ボックスの合致度の関数であり、
前記検出指標は、前記物体の前記意味クラスについての前記物体検出器の確実度と、前記物体の前記場所の前記合致度についての前記物体検出器の確実度との間の不一致度に比例するか、又は、
前記物体の周りの前記境界ボックスの前記合致度の前記関数は、初期境界ボックス及び最終境界ボックスの共通部分と、前記初期境界ボックス及び前記最終境界ボックスの和集合との比を用いて確定され、
前記物体検出器は、前記物体を包囲する初期境界ボックスを推定し、前記初期境界ボックスがユーザによって指定されるか、又は領域提案ネットワークを介して精緻化されるように、前記初期境界ボックスを調整して、前記最終境界ボックスを生成する、請求項１９に記載の能動学習法。