JP2022545030A

JP2022545030A - 複数のデータセットからの訓練による物体検出

Info

Publication number: JP2022545030A
Application number: JP2022512357A
Authority: JP
Inventors: サミュエルシュルター、; ガウラヴシャルマ、; イ－シューアンツァイ、; マンモハンチャンドラカー、; シアンギュンザオ、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-11-14
Filing date: 2020-11-12
Publication date: 2022-10-24
Anticipated expiration: 2040-11-12
Also published as: JP7257587B2; US20210150275A1; US11222238B2; DE112020005663T5; WO2021097048A1

Abstract

物体検出のための方法およびシステムは、データセット固有物体検出器を、それぞれの注釈付きデータセットを使用して訓練すること（２０４）を含み、前記注釈付きデータセットのそれぞれは、１つまたは複数の物体クラスのそれぞれのセットに対する注釈を含む。前記注釈付きデータセットは、前記データセット固有物体検出器を使用して相互注釈付けされる（２０６）。統一物体検出器は、前記注釈付きデータセットの物体クラスのすべてを検出するように、前記相互注釈付きのデータセットを使用して訓練される（２０８）。物体は、前記統一物体検出器を使用して入力画像内で検出される（２１０）。

Description

関連出願情報
本出願は２０１９年１１月１４日に出願された米国特許出願第６２／９３５，１０３号、および２０２０年１１月１０日に出願された米国特許出願第１７／０９４，２６１号の優先権を主張し、それぞれ、参照により全体が本明細書に組み込まれる。

技術分野
本発明は、画像分類に関し、より詳細には、不均一なラベル空間を有する複数のデータセットを使用した画像内の物体の検出に関する。
関連技術の説明

物体検出は、所与の画像内の物体の位置を特定し、カテゴリ化する。訓練データは、検出される物体のカテゴリごとに必要である。しかしながら、多くの物体検出システムは、単一の物体クラスのみ、または固定数の特定の物体クラスの検出に限定される。

物体検出のための方法は、データセット固有物体検出器を、それぞれの注釈付きデータセットを使用して訓練することを含み、注釈付きデータセットのそれぞれは、１つまたは複数の物体クラスのそれぞれのセットに対する注釈を含む。注釈付きデータセットは、データセット固有物体検出器を使用して相互注釈付けされる。統一物体検出器は、相互注釈付きのデータセットを使用して、注釈付きデータセットの物体クラスのすべてを検出するように訓練される。物体は、統一物体検出器を使用して入力画像内で検出される。

物体検出のためのシステムは、ハードウェアプロセッサとメモリとを含む。メモリは、ハードウェアプロセッサによって実行され、複数のデータセット固有物体検出器を実装する機械学習コードと、統一物体検出器を実装する機械学習コードと、データセット固有の訓練コードと、統一訓練コードと、物体検出コードとを含むコンピュータプログラムコードを格納するように構成される。複数のデータセット固有物体検出器はそれぞれ、それぞれの注釈付きデータセットによる訓練に従って、入力画像内の物体を検出し、注釈を付ける。各注釈付きデータセットには、１つ以上の物体クラスのそれぞれのセットの注釈が含まれる。データセット固有物体検出器は、注釈付きデータセットに相互注釈を付ける。統一物体検出器は、複数のデータセットによる訓練に従って入力画像内の物体を検出し、注釈を付ける。データセット固有の訓練コードは、それぞれの注釈付きデータセットを使用して、複数のデータセット固有物体検出器を訓練する。統一訓練コードは、相互注釈付きのデータセットを使用して、注釈付きデータセットの物体クラスのすべてを検出するように統一物体検出器を訓練する。物体検出コードは、統一物体検出器を使用して入力画像内の物体を検出する。

これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるのであろう。

本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。

本発明の一実施形態による、各データセットからの画像が他のデータセット内で注釈付けされた注釈なし物体を含む注釈付きデータセットを示す図である。

本発明の一実施形態による、複数の注釈付きデータセットを使用してマルチクラス検出器を訓練するための方法のブロック／フロー図である。

本発明の一実施形態による、データセット固有物体検出器の異なる実装の図である。

本発明の一実施形態による、マルチデータセット物体検出システムのブロック図である。

本発明の一実施形態による高レベルニューラルネットワークの図である。

本発明の一実施形態による、例示的なニューラルネットワークアーキテクチャの図である。

物体検出は、自動運転（例えば、画像中の人と車両を識別する）や、追跡、姿勢推定、および姿勢認識のようなコンピュータビジョンタスクのような種々の目的のために使用され得る。画像物体の異なるそれぞれのクラスを識別するデータセットを組み合わせて、異なるクラスのすべてについて画像検出分類器を訓練することができる。関連するクラスの物体が各画像内で識別される訓練データセットを組み合わせる際の課題は、これらの異種データセットがそれぞれ、他のクラスからの物体を示す画像を含む可能性があることである。したがって、データセットＡが画像内の物体Ａの位置を特定するために使用され、データセットＢが画像内の物体Ｂの位置を特定するために使用される場合に、いくつかの物体ＢがデータセットＡの画像内に存在し、いくつかの物体ＡがデータセットＢの画像内に存在することがあるので、２つのデータセットを単純に組み合わせることは、結果として得られる分類器の精度を低下させることがある。

すべてのデータセットに、他のクラスのそれぞれについて物体指定を用いて手作業で注釈を付けるのではなく（例えば、データセットＡから画像内の物体Ｂを手作業で識別するのではなく）、それぞれの単一クラス分類器を用いて、他のデータセット内の物体を自動的に見つけることができる。したがって、物体Ａを検出するようにデータセットＡ上で訓練された分類器Ａを、データセットＢ上で実行して、物体Ａの存在を示す注釈をデータセットＢの画像内に提供することができる。これらの自動的に注釈付けされたデータセットを組み合わせて使用して、入力画像内の物体クラスのいずれかを特定することができる合成分類器を訓練することができる。

次に、同一の数字が同一または類似の要素を表す図を参照する。最初に図１を参照すると、２つの訓練データセットが示されている。Ａとラベル付けされた第１のデータセットには人が注釈付けされ、Ｂとラベル付けされた第２のデータセットには、自動車が注釈付けされている。各データセットは、複数の画像１００を含み、各画像は、関連クラスのゼロ、１、または複数の物体を含み得る。

例えば、データセットＡは、境界ボックス１０２を備えた人物の存在を示す。データセットＢは、境界ボックス１０４を備えた自動車の存在を示す。しかしながら、各データセットは、他のデータセットのクラスからの物体を有する画像１００を含む。したがって、例えば、データセットＢからの画像１００は、境界ボックスで注釈が付けられていない人物１０６を含むことができる。データセットＢからの画像１００が、人物を識別する分類器のための訓練データセットに含まれる場合、画像の背景の一部として人物を含む合成データセット内に少なくともいくつかの画像１００が存在する可能性がある。これは、いくつかの物体が注釈付けされ、いくつかの物体が注釈付けされない、一貫性のない訓練データを生成する。

複数の画像クラスを認識するために分類器を適切に訓練するデータセットを生成する１つのアプローチは、初期訓練データセットに手動で注釈を付け、マルチクラス物体検出システムを訓練し、検証画像のセットを使用してシステムを評価することである。そして、分類器が、任意の物体クラスに対して適切な性能を提供できない場合、その物体クラスに特有である追加の訓練データを取得することができる。しかしながら、このような場合、新たな訓練データがこれらの分類の有効性を損なわないように、分類器において十分な性能を有するクラスであっても、追加の訓練データは、他のクラスの全てについて再注釈をつける必要がある。

そして、分類器がすでに訓練されていると、新しいクラスの物体を追加することは、同様の課題を提起する。このような場合、元の訓練データセットのすべての画像は、元のクラスのそれぞれで新しいデータセットに注釈を付けるだけでなく、新しいクラスの物体を識別するために再注釈を付ける必要がある。

これらの課題に対処するために、それぞれの注釈付きデータセット上で訓練された単一クラス分類器を使用して、他の訓練データセット内のそのクラスに関係する物体を識別することができる。したがって、上記の例に従うと、人物を識別するためにデータセットＡ上で訓練された分類器Ａは、そのデータセット内の人物を識別するために、データセットＢ上で使用され得る。これにより、データセットを手動で再注釈付けするために必要な時間とコストを回避できる。

次に図２を参照すると、複数の異なる物体クラスに対して統一データセットを使用する物体検出方法が示されている。ブロック２０２は、複数のデータセットのラベル空間を統一し、ここで、用語「ラベル空間」は、所与のデータセット内で注釈付けされる物体クラスのセットを参照するために使用され得る。これには、データセットによって定義された物体クラスを統一することを含む。例えば、２つのデータセットは、１つまたは複数の物体クラスの意味的複製（semantic duplicates）を含むことができ、両方のデータセットは同じクラスの物体（例えば、自動車）を表す。これらの意味的複製（semantic duplicates）は、併合されてもよい。多くの場合、異なるデータセットのラベル空間は異なっていてもよいが、複数のデータセットが単一のラベルス空間を共有してもよく、その場合、ラベル空間はブロック２０２において統一される必要はない。

データセットは、画像内の物体の位置を識別する、適切な境界ボックスまたは他の境界を用いて画像内の物体の存在を示すことがある。各注釈は、例えば、物体を密接に囲む画像空間内の座標（境界ボックスの角を識別する)と、境界ボックス内の物体を識別するクラスラベルとを含むことができる。境界ボックスは、例えば、識別された物体が画像内で重なり合う場合に、重なり合ってもよい。

背景の定義がデータセットごとに異なることがあるが、異なるデータセットの背景のカテゴリも併合されてもよい。この併合における曖昧さは、損失関数および擬似グラウンドトゥルースを使用して解決することができる。

一つの表現では、Ｎ個のデータセットはＤ₁, ...,Ｄ_Nとして表現されることがあり、対応するラベル空間Ｌ₁, ...,Ｌ_Nをもち、各々のラベル空間Ｌ_iはデータセットＤ_iにおいて注釈付けされるカテゴリの集合である。ラベル空間は、等しくする必要はなく、それらの間で共通のカテゴリが許可される。例えば、多くの異なる物体検出データセットは、人のような頻繁に現れる特徴に対して注釈付けされる。データセットＤ_iの背景ｂ_iは、データセットごとに異なり、データセット

の完全なラベル空間になる。異なるデータセットのデータセット固有背景の併合については、以下で詳しく説明する。

データセットＤ_iは、Ｍ_iの画像Ｉ_i,jを含むことができ、ここで、ｊ＝１，．．．，Ｍである。画像Ｉ_i,jのための真のグラウンドトゥルース注釈は、画像I_i,j中の物体ｋに対応し、かつ、画像空間における境界ボックス座標

とカテゴリラベル

とを含む、各グラウンドトゥルース注釈

を用いて、

として表現することができる。Ｇ_i,jの境界ボックスで覆われていない画像Ｉ_i,jの領域は、背景ｂ_iにあると考えられる。ラベル空間を統一すると、新しいラベル空間

が生成され、

上で訓練された物体検出器がすべての物体クラスから物体を検出するようになる。

ブロック２０４は、データセット固有検出器を訓練する。個々のデータセット上で訓練される検出器には背景カテゴリの曖昧さがないので、これらのそれぞれの検出器を使用して、各検出器の訓練データセットの注釈に従って、様々なデータセットから画像内の物体を識別し、注釈を付けることができる。教師なしドメイン適応は、他のデータセットに適用される場合に、データセット固有検出器の性能を改善するために使用されてもよい。

任意の適切な検出器フレームワークを使用することができるが、ニューラルネットワークの使用が特に企図される。例えば、畳み込みニューラルネットワーク特徴（Ｒ－ＣＮＮ）システムを有する領域は、物体検出器として特徴ピラミッドネットワーク（ＦＰＮ）と共に使用することができる。入力画像を提供することができ、畳み込み特徴を「バックボーン」ネットワークで抽出することができる。次に、領域候補ネットワーク（ＲＰＮ）を使用して、カテゴリに依存しない方式で潜在的な物体を記述する境界ボックスのセットを予測することができる。次いで、領域分類ネットワークは、各候補を定義されたラベル空間に分類することができ、位置特定を改善することができる。

次いで、ブロック２０６は、データセット固有検出器を使用して、他の物体クラスのためのデータセットに相互注釈付けし、様々な物体クラスの欠落した注釈のための擬似グラウンドトゥルースを提供する。これは、様々なデータセットからの画像における背景カテゴリの曖昧さを軽減するのに役立つ。データセット固有検出器はそれぞれ、他のデータセットの画像の各々における全ての潜在的な物体を分類しようと試み、各データセットの元の注釈の真のグラウンドトゥルースに加える擬似グラウンドトゥルースを確立する。

次いで、ブロック２０８は、注釈付きデータセットの結合を使用して、統一されたラベル空間を有する検出器を訓練する。物体検出器は、例えば、適用された訓練データに基づいて調整されるパラメータを有するディープニューラルネットワークとして実装されてもよい。損失関数を用いて、グラウンドトゥルースと訓練データの与えられた画像に対する現在の検出モデルの予測との間の差を測定することができる。モデルのパラメータは、損失関数に関して微分可能であってもよい。確率的勾配降下法のような最適化を用いてパラメータを更新することができる。

したがって、ラベル空間Ｌ_iから注釈Ｇ_{i, j}を有する画像Ｉ_i,jに対して、統一ラベル空間

上で訓練された物体検出器は、一組の検出

を出力する。ブロック２０８は、

と

との間のＩＯＵ（intersection-over-union）類似度

を計算することができる。任意の物体ｋについて、

を有する全ての予測ボックス

は、対応する

のグラウンドトゥルースラベルと比較される。曖昧な一致は、背景ｂ_iの一部と見なすか、無視するかを決定するためにさらに処理される。

次いで、ブロック２１０は、訓練された検出器を使用して、新しい入力画像内の物体クラスのいずれかまたはすべてを識別することができる。所与の画像について、ブロック２１０は、各々がそれぞれの検出された物体を表す境界ボックスのセットを返すことができる。各新たな検出は、境界ボックスを決定するための座標のセットと、検出された物体のための対応するラベルと、スコアとを含むことができる。スコア、例えば、０と１との間の数は、検出された物体のラベルに対する信頼度を示す。

ブロック２１０の訓練は、例えば、ブロック２０６で生成された擬似ラベルを活用して擬似グラウンドトゥルースを生成することによって、部分的に注釈付けされたデータを考慮に入れる損失関数を使用することができる。したがって、擬似グラウンドトゥルースは、人間の手動注釈によって生成される真のグラウンドトゥルースの雑音の多い推定値とすることができる。

損失関数は、予測ボックスをグラウンドトゥルースボックスに割り当てるマッチングストラテジと、それらの間の誤差を測定するための関数とを含み得る。訓練データセットからの画像が与えられると、検出モデルは、最初に、所与のグラウンドトゥルース（例えば、元のデータセットにおいて提供される真のグラウンドトゥルース）と一致する、画像内の物体位置を予測する。これらの一致した予測は、分類（例えば、クロスエントロピー）および位置特定（例えば、ｌ₁またはｌ₂距離）のための損失関数に入れることができる。不一致の検出は、ブロック２０６によって生成された擬似グラウンドトゥルースに対してさらにチェックされてもよい。

曖昧な物体検出

について、これらのカテゴリはすでに注釈されているので、与えられた画像I_i,jにおける曖昧な検出の真のラベルは、Ｌ_iにおけるいかなるラベルにも属さない可能性があるという制約があるかもしれない。統一されたラベル空間

および背景上の予測境界ボックスの確率分布は、

を用いて

として表すことができる。予測境界ボックスが、ラベル

を有するＧ_i,jにおけるグラウンドトゥルースボックスのいずれかに割り当てられている場合、それはエントロピー損失項

に寄与する。ここで、

は、ラベルａのone-hot-vectorエンコーディングである。例えば、ｉ＝ａの場合は

であり、それ以外の場合はゼロになる。

予測ボックスが

に属する場合、基礎となるグラウンドトゥルースカテゴリは

のいずれかに属することができ、ここで、

は、異なるデータセットからの統一された背景である。したがって、以下の損失関数を使用することができる。

これは、曖昧なカテゴリの合計でのクロスエントロピー損失に似ており、すべての曖昧さを１つのカテゴリに併合するものと解釈することができる。選択性を促進し、多くのカテゴリにわたる確率質量の広がりを防止するために、最小エントロピー正則化を追加することができる。

ここで、λはハイパーパラメータである。別の損失関数は、

と表すことができる。これは、曖昧なカテゴリにわたる最大値で

の合計を置き換えることができ、したがって、エントロピー項を必要とせずに、単一のカテゴリを直接選択することを奨励する。

しかしながら、これらの損失関数のいずれも、ラベル空間の曖昧さを解決しない。それらは

における曖昧なカテゴリが正しいかもしれないことを符号化するが、それらはカテゴリに関するいかなる事前分布も使用しない。したがって、擬似ラベリングを使用して、欠落した注釈を推定することによって、データセット固有検出器を活用して、そのような事前分布を提供することができる。

上述したように、ブロック２０４において、データセット固有検出器は、個々のそれぞれのデータセットを用いて訓練される。Ｎ個のそのような検出器を、それぞれのデータセットに１つずつ使用することができる。各データセット固有検出器は、問題の訓練データセットに適した異なる方法で訓練されてもよい。データセット固有検出器は、それぞれが別個の特徴抽出バックボーンを有するように、独立して訓練されてもよい。データセット固有デトラクタは、共有バックボーンと、それに続くＮ個の別個の検出器ヘッドとを使用して訓練されてもよい。

データセット固有検出器は、第１のデータセットＤ_j上で訓練されるが、注釈を増強するために別のデータセットＤ_jに適用されるため、データセット間のドメインギャップが考慮される場合がある。共同訓練（joint training）は、ネットワークの一部をドメイン間で共有することができるので、より良好な結果をもたらすことができる。データセット固有検出器を訓練するための別の選択肢は、ドメイン適応を活用して、１つのデータセット上で訓練された検出器を他のすべてのデータセットにドメイン適応させることを可能にすることである。

統一検出器を訓練する場合、ブロック２０８において、個々のデータセットからのデータのミニバッチが、効率的な勾配計算を提供するために使用され得る。本来データセットＤ_iからの画像ではラベル空間Ｌ_iを使用し、Ｌ_iのカテゴリのグラウンドトゥルースを使用できるが、

のカテゴリは使用できない。これを改善するために、データセット固有検出器のすべてをデータセットのすべてにわたって実行して、画像jのラベル空間

の境界ボックス

のセットを決定することができる。これらの境界ボックスは、擬似グラウンドトゥルースである。各擬似グラウンドトゥルースボックス

は、それに関連する検出スコア

を有する。

統一物体検出器のための損失関数は、ラベル空間曖昧さを解決する事前分布として擬似グラウンドトゥルースを利用することがある。擬似グラウンドトゥルースは、データセットとデータセット固有検出器の出力に現れる可能性のある誤差との間のドメインギャップのために、ノイズを含んでいる。したがって、不一致検出

のセットおよびすべての擬似グラウンドトゥルースボックス

が与えられると、

と

との間のＩＯＵ類似度

をすべてのｌおよびｋについて計算することができる。十分に高いＩＯＵ類似度（例えば、

）を有するすべての擬似グラウンドトゥルースボックスが保持される。擬似グラウンドトゥルースとの複数の一致を維持することは、擬似ラベリングの不確実性に対抗し、潜在的なノイズを平均化する。

Ｇ_i,jに一致しない各ボックス

について、一致した擬似グランドトゥルースボックスのセットを

と決定することができ、ここで

は検出スコアであり、

は検出の最小スコアを擬似グランドトゥルースクラスとして定義する閾値であり、閾値を下回るものは背景として考慮されるものとする。

が空である場合、

のグラウンドトゥルースラベルは「背景」に設定されてもよく、クロスエントロピー損失が使用されてもよい。そうでない場合、

の予測クラス分布

に対して以下の損失関数を使用することができる。

ここで、

は、グラウンドトゥルースの重要度関数（importance function）である。損失は、重要度にわたって重み付けされ、

によって正規化された、一致した擬似グラウンドトゥルースボックスにわたる合計であり、ここで、

はすべての

が０に重み付けされている場合に、ゼロによる除算を防止する小さな定数である。重み関数は、任意の適切な方法で定義することができる。例えば、スコア自体による重み付けである

は、１つの単純なアプローチである。別の可能性は、１の重みを有する閾値より上のスコアと、０の重みを有する閾値より下のスコアとを有する、ハード閾値を確立する。

疑似グラウンドトゥルースと一致するボックスについて、第１の閾値（例えば、約０．６）を超える信頼度で、別の分類を実行することができる。予測が第１の閾値未満であるが第２の閾値（例えば、約０．１）を超える擬似グラウンドルールと一致する場合、その予測は、損失計算において完全に無視されてもよい。予測が第２の閾値未満（例えば、約０．１未満）の信頼スコアと一致するか、またはグラウンドトゥルースと一致しない場合、その予測は、分類のための背景として扱われてもよい。したがって、曖昧な結果は無視することができる。第１の閾値および第２の閾値の特定の値は、最良の性能をもたらす任意の適切な値に設定することができる。

ここで図３を参照すると、データセット固有物体検出器のための例示的なニューラルネットワーク構造が示されている。第１の構造３１０では、各データセット固有検出器は、例えばＲ－ＣＮＮネットワークを用いて実装され得る別個のバックボーン３０２を用いて訓練される。検出器３０４は、物体の境界ボックスを予測するためのＲＰＮとして実装されてもよい。次いで、分類器３０６は、予測された境界ボックスのそれぞれについて１つまたは複数のラベルを決定する。次いで、各データセット固有検出器は、それぞれが入力画像３００を別々に処理する、別個のバックボーン３０２、検出器３０４、および分類器３０６を含む。

第２の構造３２０では、データセット固有検出器はすべて、単一のバックボーン３０２を共有する。この共有バックボーン３０２は、別々の検出器３０４および分類器３０６がその上で動作する前に、入力画像３００を処理する。バックボーン３０２は、物体検出のための特徴抽出器として解釈されてもよい。それは、生の画像情報を入力として取り込み、中間特徴を生成することができる。これらの特徴は、ニューラルネットワークの検出特定部分によって入力として取り込まれてもよい。

ニューラルネットワークを最適化するとき、情報は、検出特有部分を通って特徴抽出器に戻る。そのため、共有された方法で（例えば、構造３２０において）バックボーン３０２を訓練する際には、ニューラルネットワークのこの部分は、全てのデータセットから逆伝播された情報を受信する。対照的に、検出特有部分は、それらのそれぞれのデータセットから更新を得るだけである。これは、統一検出器の全ての部分が全てのデータセットから情報を受信する統一検出器の訓練とは異なる。

本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、またはハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明がファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されないソフトウェアで実施される。

実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、または転送する任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム（または装置またはデバイス）、または伝搬媒体とすることができる。媒体は、半導体または固体メモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。

各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置（例えば、プログラムメモリまたは磁気ディスク）に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。

プログラムコードを記憶および／または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも１つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に使用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力／出力またはＩ／Ｏ装置（キーボード、ディスプレイ、ポインティングデバイスなどを含むが、これらに限定されない）は、直接または介在するＩ／Ｏコントローラを介してシステムに結合され得る。

介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネットカードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。

本明細書で使用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、１つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェア、またはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムが１つまたは複数のデータ処理要素（例えば、論理回路、処理回路、命令実行デバイスなど）を含むことができる。１つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置、および／または別個のプロセッサまたはコンピューティング要素ベースのコントローラ（たとえば、論理ゲートなど）に含めることができる。ハードウェアプロセッササブシステムは、１つ以上のオンボードメモリ（例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど）を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムが、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム（例えば、ＲＯＭ、ＲＡＭ、基本入出力システム（ＢＩＯＳ）など）によって使用するために専用にすることができる１つ以上のメモリを含むことができる。

ある実施形態では、ハードウェアプロセッササブシステムは、１つ以上のソフトウェア要素を含むことができ、実行することができる。１つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび／または１つ以上のアプリケーションおよび／または特定のコードを含むことができる。

他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために１つまたは複数の電子処理機能を実行する専用の特殊回路網を含むことができる。そのような回路は、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／またはプログラマブルロジックアレイ（ＰＬＡ）を含むことができる。

ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。

本明細書では、本発明の「一つ実施形態」または「一実施形態」、ならびにその他の変形形態に言及し、実施形態に関連して説明した特定の特徴、構成、特性などは、本発明の少なくとも１つの実施形態に含まれることを意味する。したがって、「一つの実施形態において」または「一実施形態において」という語句の出現、ならびに本明細書全体を通して様々な個所に出現する任意の他の変形形態は、必ずしもすべてが同じ実施形態を参照しているわけではない。しかしながら、本明細書で提供される本発明の教示を前提として、１つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。

例えば、「Ａ／Ｂ」、「Ａおよび／またはＢ」、および「Ａおよび／またはＢの少なくとも１つ」の場合における、以下の「／」、「および／または」および「少なくとも１つ」のいずれかの使用は、第１のリストされたオプション（Ａ）のみの選択、または第２のリストされたオプション（Ｂ）のみの選択、または両方のオプション（ＡおよびＢ）の選択を包含することが意図されることを理解されたい。さらなる例として、「Ａ、Ｂ、および／またはＣ」および「Ａ、Ｂ、およびＣの少なくとも１つ」の場合において、このような句は、第１のリストされたオプション（Ａ）のみの選択、または第２のリストされたオプション（Ｂ）のみの選択、または第３のリストされたオプション（Ｃ）のみの選択、または第１および第２のリストされたオプション（ＡおよびＢ）のみの選択、または第１および第３のリストされたオプション（ＡおよびＣ）のみの選択、または第２および第３のリストされたオプション（ＢおよびＣ）のみの選択、または３つすべてのオプション（ＡおよびＢおよびＣ）の選択を包含することが意図される。これは、リストされたアイテムの数だけ拡張することができる。

ここで図４を参照すると、マルチデータセット物体検出システム４００が示されている。システム４００は、ハードウェアプロセッサ４０２とメモリ４０４とを含む。画像入力４０５は、関心のある１つまたは複数の物体を含むことができる、カメラまたはユーザ入力などの画像データのソースを表すことができる。例えば、画像入力４０５は、セキュリティビデオカメラからのストリームを表すことができ、危険なまたは安全でない状態を識別するのに、ビデオストリームの画像内の人物の検出が必要となる場合がある。

モデルトレーナ４１０は、統一物体検出器４０８を訓練して、画像入力４０５内の複数のクラスの物体を検出する。これらの複数クラスの物体は、複数の元の訓練データセット４０７において注釈が付けられ、訓練データセット４０７の各々は、訓練データセット４０７の残りの部分で提供されていない１つ以上の物体クラス注釈であってもよい。したがって、モデルトレーナ４１０は、統一物体検出器４０８を訓練して、訓練データセット４０７内のすべての物体を検出する。

モデルトレーナ４１０は、複数のデータセット固有物体検出器４０６を訓練し、例えば、訓練データセット４０７のそれぞれのデータセットごとに別個のデータセット固有物体検出器４０６を訓練する。モデルトレーナ４１０は、これらのデータセット固有物体検出器４０６を使用して、訓練データセット４０７を相互注釈付けし、複数の訓練データセット４０７内のすべての画像にわたって、すべての物体クラスについて「擬似グラウンドトゥルース」を識別する。相互注釈によって表されるこれらの擬似グラウンドトゥルースは、元の注釈によって表される真のグラウンドトゥルースと組み合わせて使用され、統一物体検出器４０８を訓練する。

データセット固有物体検出器４０６および統一物体検出器４０８はすべて、上述のように、例えば共有「バックボーン」または別個のバックボーンを使用して、人工ニューラルネットワーク（ＡＮＮ）として実装することができる。ＡＮＮは、脳などの生体神経系から発送を得た情報処理システムである。ＡＮＮの重要な要素は、情報処理システムの構造であり、この情報処理システムは、特定の問題を解決するために並列に動作する多数の高度に相互接続された処理要素（「ニューロン」と呼ばれる）を含む。ＡＮＮはさらに、ニューロン間に存在する重みの調整を含む学習を用いて、使用中に訓練される。ＡＮＮは、そのような学習プロセスを介して、パターン認識またはデータ分類などの特定の適用向けに構成される。

ここで図５を参照すると、ニューラルネットワークの一般化された図が示されている。ＡＮＮは、複雑または不正確なデータから意味を導出する能力を示し、パターンを抽出し、人間または他のコンピュータベースのシステムによって検出するには複雑すぎる傾向を検出するために使用することができる。ニューラルネットワークの構造は一般に、１つまたは複数の「隠れ」ニューロン５０４に情報を提供する入力ニューロン５０２を有することが知られている。入力ニューロン５０２と隠れニューロン５０４との間の接続５０８は重み付けされ、次に、これらの重み付けされた入力は、層間の重み付けされた接続５０８と共に、隠れニューロン５０４内の何らかの関数に従って隠れニューロン５０４によって処理される。隠れニューロン５０４、ならびに異なる機能を実行するニューロンの任意の数の層が存在し得る。畳み込みニューラルネットワーク、ｍａｘｏｕｔネットワーク等のような異なるニューラルネットワーク構造も存在する。最後に、出力ニューロン５０６のセットは、隠れニューロン５０４の最後のセットからの重み付けされた入力を受け付けて処理する。

これは、情報が入力ニューロン５０２から出力ニューロン５０６に伝播する「フィードフォワード」計算を表す。フィードフォワード計算が完了すると、出力は、訓練データから利用可能な所望の出力と比較される。訓練データに対する誤差は、「フィードバック」計算で処理され、隠れニューロン５０４および入力ニューロン５０２は出力ニューロン５０６から後方に伝播する誤差に関する情報を受け取る。一旦、誤差逆伝播が完了すると、重み付け更新が実行され、重み付けされた接続５０８が受信された誤差を考慮するように更新される。これは、単に１つの種類のＡＮＮを表す。

図６を参照すると、ＡＮＮアーキテクチャ６００が示されている。本アーキテクチャは純粋に例示的なものであり、代わりに他のアーキテクチャまたはタイプのニューラルネットワークを使用することができることを理解されたい。本明細書で説明されるＡＮＮ実施形態は、高レベルの一般性でニューラルネットワーク計算の一般原理を示すことを意図して含まれており、いかなる形でも限定するものと解釈されるべきではない。

さらに、以下に記載されるニューロンの層およびそれらを接続する重みは、一般的な様式で記載され、任意の適切な程度またはタイプの相互接続性を有する任意のタイプのニューラルネットワーク層によって置き換えられ得る。例えば、層（layers）は、畳み込み層、プーリング層、全結合層、ｓｏｆｔｍａｘ層、または任意の他の適切なタイプのニューラルネットワーク層を含むことができる。さらに、必要に応じて層を追加または除去することができ、相互接続のより複雑な構成に関して重みを省略することができる。

フィードフォワード動作の間、入力ニューロン６０２のセットは、各々、重み６０４のそれぞれの行に並列に入力信号を提供する。重み６０４はそれぞれ、重み出力が重み６０４からそれぞれの隠れニューロン６０６に渡され、隠れニューロン６０６への重み付き入力を表すように、それぞれの設定可能な値を有する。ソフトウェアの実施形態では、重み６０４は、単に、関連する信号に対して乗算される係数値として表すことができる。各重みからの信号は、列ごとに加算され、隠れニューロン６０６に流れる。

隠れニューロン６０６は、重み６０４のアレイからの信号を使用して、何らかの計算を実行する。次に、隠れニューロン６０６は、それ自体の信号を重み６０４の別のアレイに出力する。このアレイは、同じ方法で、重み６０４の列がそれぞれの隠れニューロン６０６から信号を受け取り、行方向に加算し、出力ニューロン６０８に供給される重み付けされた信号出力を生成する。

アレイと隠れたニューロン６０６の追加の層を介在させることにより、これらの段の任意の数が実装され得ることを理解すべきである。また、いくつかのニューロンは、アレイに一定の出力を提供する定常ニューロン６０９であってもよいことに注意すべきである。定常ニューロン６０９は、入力ニューロン６０２および／または隠れニューロン６０６の間に存在することができ、フィードフォワード動作中にのみ使用される。

バックプロパゲーションの間、出力ニューロン６０８は、重み６０４のアレイを横切って戻る信号を提供する。出力層は、生成されたネットワーク応答を訓練データと比較し、誤差を計算する。誤差信号は、誤差値に比例させることができる。この実施例では、重み６０４の行がそれぞれの出力ニューロン６０８から並列に信号を受け取り、列ごとに加算して隠れニューロン６０６に入力を提供する出力を生成する。隠れニューロン６０６は、重み付けされたフィードバック信号をそのフィードフォワード計算の導関数と結合し、フィードバック信号を重み６０４のそれぞれの列に出力する前に、誤差値を記憶する。このバックプロパゲーションは、すべての隠れニューロン６０６および入力ニューロン６０２が誤差値を記憶するまで、ネットワーク６００全体を通って進行する。

重み更新中、記憶された誤差値は、重み６０４の設定可能な値を更新するために使用される。このようにして、重み６０４は、ニューラルネットワーク６００をその処理における誤差に適応させるように訓練され得る。フィードフォワード、バックプロパゲーション、および重み更新の３つの動作モードは、互いに重複しないことに留意されたい。

上記はあらゆる点で例示的かつ典型的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許証によって保護される、請求され、望まれるものは、添付の特許請求の範囲に記載されている。

Claims

複数のデータセット固有物体検出器を、それぞれの注釈付きデータセットを使用して訓練し（２０４）、前記注釈付きデータセットのそれぞれが、１つまたは複数の物体クラスのそれぞれのセットに対する注釈を含むことと、
前記データセット固有物体検出器を使用して前記注釈付きデータセットに相互注釈をつける（２０６）ことと、
前記相互注釈付きのデータセットを使用して、前記注釈付きデータセットの前記物体クラスの全てを検出するように統一物体検出器を訓練する（２０８）ことと、
前記統一物体検出器を用いて入力画像中の物体を検出する（２１０）ことと、を含む、物体検出の方法。
前記統一物体検出器を訓練することは、真のグラウンドトゥルースとして前記注釈付きデータセットの注釈を使用し、擬似グラウンドトゥルースとして前記データセット固有物体検出器による相互注釈を使用する、請求項１に記載の方法。
前記注釈はそれぞれ、物体についての境界ボックスと物体クラスとを含む、請求項１に記載の方法。
前記複数のデータセット固有物体検出器は、共有バックボーンを使用して訓練される、請求項１に記載の方法。
前記複数のデータセット固有物体検出器は、別々のそれぞれのバックボーンを使用して訓練される、請求項１に記載の方法。
前記注釈付きデータセットの各々は、他の注釈付きデータセットのいずれにおいても注釈付けされていない少なくとも１つの物体クラスに対する注釈を含む、請求項１に記載の方法。
前記注釈付きデータセットに相互注釈を付けることは、第２の注釈付きデータセット上で訓練されたデータセット固有物体検出器を使用して第１の注釈付きデータセット上で物体検出を行って、前記第２の注釈付きデータセットの前記１つまたは複数の物体クラスに属する１つまたは複数の仮対象物を検出することを含む、請求項１に記載の方法。
前記注釈付きデータセットに相互注釈を付けすることは、前記１つまたは複数の検出された仮対象物のそれぞれについて信頼スコアを決定することと、
前記１つまたは複数の検出された仮対象物のそれぞれの前記信頼スコアを、第１の閾値および第２の閾値と比較することと、
前記比較に従って前記１つまたは複数の検出された仮対象物に注釈を付けることと、をさらに含む、請求項７に記載の方法。
前記１つまたは複数の検出された仮対象物に注釈を付けることは、前記１つまたは複数の検出された仮対象物のうちの少なくとも１つの信頼スコアが前記第１の閾値と前記第２の閾値との間にあるという判定に応答して、前記１つまたは複数の検出された仮対象物のうちの前記少なくとも１つを廃棄することを含む、請求項８に記載の方法。
前記検出された物体を使用してコンピュータビジョンタスクを実行することを、さらに含む、請求項１に記載の方法。
ハードウェアプロセッサ（４０２）と、
前記ハードウェアプロセッサによって実行されるコンピュータプログラムコードを記憶するように構成されたメモリ（４０４）と、を含み、前記コンピュータプログラムコードは、
複数のデータセット固有物体検出器を実装する機械学習コード（４０６）であって、各データセット固有物体検出器が、それぞれの注釈付きデータセットによる訓練に従って入力画像内の物体を検出および注釈付けし、前記注釈付きデータセットの各々が、１つまたは複数の物体クラスのそれぞれのセットに対する注釈を含み、前記複数のデータセット固有物体検出器が、前記注釈付きデータセットに相互注釈をつける、機械学習コードと、
複数のデータセットによる訓練に従って入力画像内の物体を検出し、注釈を付ける統一物体検出器を実装する機械学習コード（４０８）と、
それぞれの注釈付きデータセットを使用して前記複数のデータセット固有物体検出器を訓練するデータセット固有訓練コード（４０７）と、
前記相互注釈付きのデータセットを使用して、前記注釈付きデータセットのすべての物体クラスを検出するように前記統一物体検出器を訓練する統一訓練コード（４０７）と、
前記統一物体検出器を使用して入力画像内の物体を検出する物体検出コード（４０８）と、を含む、物体検出のシステム。
前記統一物体検出器は、真のグラウンドトゥルースとして前記注釈付きデータセットの注釈を使用し、擬似グラウンドトゥルースとして前記データセット固有物体検出器による相互注釈を使用する、請求項１１に記載のシステム。
前記注釈はそれぞれ、物体についての境界ボックスおよび物体クラスを含む、請求項１１に記載のシステム。
前記データセット固有訓練コードは、共有バックボーンを使用して前記複数のデータセット固有物体検出器を訓練する、請求項１１に記載のシステム。
前記データセット固有訓練コードは、別個のそれぞれのバックボーンを使用して前記複数のデータセット固有物体検出器を訓練する、請求項１１に記載のシステム。
前記注釈付きデータセットの各々は、他の注釈付きデータセットのいずれにおいても注釈付けされていない少なくとも１つの物体クラスに対する注釈を含む、請求項１１に記載のシステム。
前記複数のデータセット固有物体検出器の各々は、それぞれの第２の注釈付きデータセット上で訓練され、第１の注釈付きデータセットのセットにおいて画像上で物体検出を実行して、前記第２の注釈付きデータセットの１つまたは複数の物体クラスに属する１つまたは複数の仮対象物を検出する、請求項１１に記載のシステム。
前記複数のデータセット固有物体検出器の各々は、前記画像の各々における前記１つまたは複数の検出された仮対象物の各々に対する信頼スコアを更に決定し、前記１つまたは複数の検出された仮対象物の各々に対する前記信頼スコアを第１の閾値および第２の閾値と比較し、前記比較に従って前記画像に注釈を付ける、請求項１７に記載のシステム。
前記複数のデータセット固有物体検出器の各々は、前記１つまたは複数の検出された仮対象物のうちの少なくとも１つについての前記信頼スコアが前記第１の閾値と前記第２の閾値との間にあるという判定に応答して、前記１つまたは複数の検出された仮対象物のうちの前記少なくとも１つをさらに廃棄する、請求項１８に記載のシステム。
前記コンピュータプログラムコードは、前記検出された物体を用いてコンピュータビジョンタスクを実行するセキュリティコードをさらに含む、請求項１１に記載のシステム。