JP2020518076A

JP2020518076A - デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法

Info

Publication number: JP2020518076A
Application number: JP2019558478A
Authority: JP
Inventors: オルメダレイノダニエル; シーレベルント; ヘンドリックホサングヤン; ベネンゾンロドリゴ
Original assignee: トヨタモーターヨーロッパ; マックス−プランク−ゲゼルシャフトツアフェルデルンクデアヴィッセンシャフテンエー．ファウ．
Priority date: 2017-04-28
Filing date: 2017-04-28
Publication date: 2020-06-18
Anticipated expiration: 2037-04-28
Also published as: US11715281B2; DE112017007492T5; US20200193225A1; JP6889279B2; US20220129701A1; WO2018197019A1

Abstract

【課題】本発明は、デジタル画像内の物体を検出するためのシステムに関する。【解決手段】システムは、物体の場所を標示する候補ウインドウを生成し、各候補ウインドウについて、検出信頼性を表わすスコアを生成するように構成されているニューラルネットワークを含む。スコアを生成するステップは、各候補ウインドウについての潜在的表現を生成するステップと、隣接する候補ウインドウの潜在的表現に基づいて各候補ウインドウの潜在的表現を更新するステップと、更新された潜在的表現に基づいて各候補ウインドウについてのスコアを生成するステップと、を含む。本発明はさらに、デジタル画像内の物体検出を再スコアリングするためのシステムおよび、物体を検出し物体を再スコアリングする方法にも関する。【選択図】図３

Description

本開示は、デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法に関する。

近代的物体検出器は、次の３つのステップレシピ、すなわち（提案を用いるスパーサまたはスライディングウィンドウによる網羅的な）ウィンドウサーチ空間を提供するステップ、（２）分類子／リグレッサを用いてウインドウをスコアリング／リファイニングするステップ、および（３）同じ物体に属する可能性のあるウインドウをマージングするステップに従う。この最後の段階は、一般に「非最大抑制」（ＮＭＳ）と呼ばれている。例えば、以下の文献を参照のこと：
Ｒ．Ｇｉｒｓｈｉｃｋ．ＦａｓｔＲ−ＣＮＮ．ＩｎＩＣＣＶ、２０１５、
Ｐ．Ｆｅｌｚｅｎｓｚｗａｌｂ、Ｒ．Ｇｉｒｓｈｉｃｋ、Ｄ．ＭｃＡｌｌｅｓｔｅｒ、およびＤ．Ｒａｍａｎａｎ．Ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｄｉｓｃｒｉｍｉｎａｔｉｖｅｌｙｔｒａｉｎｅｄｐａｒｔ−ｂａｓｅｄｍｏｄｅｌｓ．ＰＡＭＩ、２０１０、および
Ｗ．Ｌｉｕ、Ｄ．Ａｎｇｕｅｌｏｖ、Ｄ．Ｅｒｈａｎ、Ｃ．Ｓｚｅｇｅｄｙ、およびＳ．Ｒｅｅｄ．Ｓｓｄ：Ｓｉｎｇｌｅｓｈｏｔｍｕｌｔｉｂｏｘｄｅｔｅｃｔｏｒ．ＩｎＥＣＣＶ、２０１６、
Ｌ．Ｗａｎ、Ｄ．Ｅｉｇｅｎ、およびＲ．Ｆｅｒｇｕｓ．Ｅｎｄ−ｔｏ−ｅｎｄｉｎｔｅｇｒａｔｉｏｎｏｆａｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋ、ｄｅｆｏｒｍａｂｌｅｐａｒｔｓｍｏｄｅｌａｎｄｎｏｎ−ｍａｘｉｍｕｍｓｕｐｐｒｅｓｓｉｏｎ．ＩｎＣＶＰＲ、２０１５、
Ｐ．ＨｅｎｄｅｒｓｏｎおよびＶ．Ｆｅｒｒａｒｉ．Ｅｎｄ−ｔｏ−ｅｎｄｔｒａｉｎｉｎｇｏｆｏｂｊｅｃｔｃｌａｓｓｄｅｔｅｃｔｏｒｓｆｏｒｍｅａｎａｖｅｒａｇｅｐｒｅｃｉｓｉｏｎ．ＩｎＡＣＣＶ、２０１６。

このような従来のＮＭＳについての事実上の業界標準は、単純ハンドクラフト試験時間後処理である。アルゴリズムは、貪欲法により高スコアリング検出を選択し、同じ物体をカバーする確率が高いことを理由として直近の比較的信頼性の低い隣接検出を消去する。このアルゴリズムは、提案されている代替案に比べ、単純で高速かつ競争力がある。

一般的物体検出における最も注目に値する最近の性能上の飛躍的進歩は、Ｒ−ＣＮＮによるものであり、これは、実際上、特徴抽出および分類子をニューラルネットワークで置換し、ＰａｓｃａｌＶＯＣでの性能を倍増させた。以下参照：
Ｒ．Ｇｉｒｓｈｉｃｋ、Ｊ．Ｄｏｎａｈｕｅ、Ｔ．Ｄａｒｒｅｌｌ、およびＪ．Ｍａｌｉｋ．Ｒｉｃｈｆｅａｔｕｒｅｈｉｅｒａｒｃｈｉｅｓｆｏｒａｃｃｕｒａｔｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ．ＩｎＣＶＰＲ、２０１４。

別の顕著な改善は、ネットワーク内に物体提案の生成を吸収させることにあった。例えば以下参照：
Ｓ．Ｒｅｎ、Ｋ．Ｈｅ、Ｒ．Ｇｉｒｓｈｉｃｋ、およびＪ．Ｓｕｎ．ＦａｓｔｅｒＲＣＮＮ：Ｔｏｗａｒｄｓｒｅａｌ−ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋｓ．ＩｎＮＩＰＳ、２０１５。

その間、他の研究作業では、提案が全て回避され、速度と品質の改善が導かれた。例えば以下参照：
Ｊ．Ｒｅｄｍｏｎ、Ｓ．Ｄｉｖｖａｌａ、Ｒ．Ｇｉｒｓｈｉｃｋ、およびＡ．Ｆａｒｈａｄｉ．Ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ：Ｕｎｉｆｉｅｄ、ｒｅａｌ−ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ．ＩｎＣＶＰＲ、２０１６。

エンド・ツー・エンド学習に向かう一般的傾向が存在し、検出器の完全なエンド・ツー・エンドトレーニングを行なうことによりさらなる改善を期待することが妥当であると思われる。ＮＭＳは、大部分がエンド・ツー・エンド学習のパラダイムをうまく切り抜けたパイプライン内の１ステップである。上述の検出器は全て、ＮＭＳ問題が存在するという事実を無視し、その後、連結解除された後処理として従来のＮＭＳを実行するプロシージャにおいて分類子をトレーニングする。

有意な概念的欠陥に起因して、従来のＮＭＳを克服する必要性が存在する。従来のＮＭＳは、検出を消去することにより困難な決定を下し、抑制がいかに広いかを制御する１つの固定パラメータにこの決定の基礎を置いている。広い抑制は、精度を損なう誤検出である確率の高い直近の高スコアリング検出を除去すると考えられる。一方、物体が近い場合（例えば混雑したシーン内）、直近の検出は真正検出であり得、この場合、抑制は、再現率を改善するために狭いものであるべきである。物体が直近である場合、従来のＮＭＳは、そのパラメータとは独立して精度または再現率を犠牲にするものと運命づけられている。

さらに、従来のＮＭＳの決定と異なる重複閾値とを組合せて、ネットワークが局所的に従来のＮＭＳオペレーティングポイントを選択できるようにするアプローチも存在してきた。以下参照のこと：
ＪＨｏｓａｎｇ、Ｒ．Ｂｅｎｅｎｓｏｎ、およびＢ．Ｓｃｈｉｅｌｅ．Ａｃｏｎｖｅｎｔｆｏｒｎｏｎ−ｍａｘｉｍｕｍｓｕｐｐｒｅｓｓｉｏｎ．ＩｎＧＣＰＲ、２０１６。

現在、従来のＮＭＳ後処理を不要にするニューラルネットワークを含むシステム、再スコアリングシステムおよび方法を提供することが、なおも所望されている。

したがって、本開示の実施形態によると、デジタル画像内の物体を検出するためのシステムが提供されている。該システムは、物体の場所を標示する候補ウインドウを生成し、各候補ウインドウについて、検出信頼性を表わすスコアを生成するように構成されているニューラルネットワークを含む。スコア（すなわち各候補ウインドウについてのスコア）を生成するステップは、
− 各候補ウインドウについての潜在的表現を生成するステップと、
− 隣接する候補ウインドウの潜在的表現に基づいて各候補ウインドウの潜在的表現を更新するステップと、
− 更新された潜在的表現に基づいて各候補ウインドウについてのスコアを生成するステップと、
を含む。

前記、隣接する候補ウインドウは、望ましくは、潜在的表現が更新される候補ウインドウに隣接するウインドウを意味している。

したがって、再スコアリングシステムは望ましくは、各々の物体検出を処理すること（すなわち、各候補ウインドウの潜在的表現を生成すること）と共に、隣接する検出を処理すること（すなわち各候補ウインドウの表現を更新し、それにより現在更新対象の候補ウインドウに隣接する候補ウインドウの潜在的表現を考慮すること）によって、多重検出を認識するように構成されている。その結果、同じ物体の多重検出であるものとして認識されている物体検出は、望ましくは、１つの物体検出のみが残る（すなわちその隣接する候補ウインドウとの関係において高いスコアを有する）ような形で抑制される。

このようなシステムを提供することによって、ニューラルネットワークがＮＭＳを学習して、従来のＮＭＳ後処理ステップの制約条件を克服することが可能になる。ニューラルネットワークに基づくＮＭＳアプローチは、データ分散に適応し、従来のＮＭＳのトレードオフを克服することを学習でき、重要なことに、検出器内に内蔵することができる。

潜在的表現は、多次元特徴ベクトルであり得る。例えば、潜在的表現は、候補ウインドウそして特に候補ウインドウ内の画像コンテンツに基づいて決定され得る。一例を挙げると、ウインドウ内の画像コンテンツを取り、それをニューラルネットワークの少なくとも１つ（または例えば３つ）の層によって処理して、潜在的表現／特徴ベクトルを得ることがあると考えられる。１つの具体的例においては、少なくとも１つの層は、畳み込み、プーリングおよび／またはＦＣ（完全連結）層のうちの少なくとも１つからなる。

潜在的表現は、結果として得られる候補ウインドウのスコアが変更されるような形で更新され得る。

望ましくは、この変更は、検出された物体の１つの候補ウインドウがそのスコアを増大させ、一方同じ物体上の他の候補ウインドウは全てそのスコアを減少させるようなものである。増大および／または減少の量は、例えば潜在的表現から演繹される学習された量であり得る。

候補ウインドウの潜在的表現を更新するステップは、隣接する候補ウインドウの対を考慮することによって行なわれ得る。隣接する候補ウインドウ対は、前記候補ウインドウおよびその隣接する候補ウインドウのうちの１つを含んでいてよい。

隣接する候補ウインドウは、潜在的表現が更新された候補ウインドウと既定の程度まで重複する全てのウインドウを含み得る。

ニューラルネットワークは、隣接する候補ウインドウの潜在的表現に基づいて各候補ウインドウの潜在的表現を更新するための反復構造を含み得る。

候補ウインドウの潜在的表現を更新するステップは、その隣接する候補ウインドウの各々と一対の検出を形成するステップを含み得る。検出対は前記候補ウインドウおよび前記隣接するウインドウの潜在的表現を含み得る。検出対は、対特徴ベクトルであってよい。

前記対特徴ベクトルは、潜在的表現の特徴ベクトルと等しいまたは異なる次元を有し得る。概して、各ＦＣ層の後に、次元は自由に選択可能である。

候補ウインドウの潜在的表現を更新するステップは、２つの候補ウインドウに基づいた検出対特徴、例えば候補ウインドウの幾何形状を決定するステップをさらに含み得る。

候補ウインドウ対の検出対特徴は、対特徴ベクトルに対して連接され得る。

検出対特徴が連接される対特徴ベクトルは、完全に連結された層を通して独立してマッピングされ得る。

隣接する候補ウインドウの可変的数に対応する対特徴ベクトルの数は、プーリングによって固定サイズの表現まで削減され得る。例えば、対特徴ベクトルは、要素毎のオペレーションにより１つのｎ次元プーリング特徴ベクトルまで削減され得る。

前記プーリング特徴ベクトルは、潜在的表現の特徴ベクトルおよび／または対特徴ベクトルと等しいまたは異なる次元を有し得る。

望ましくは、ｎ次元の多数（ｋ）の対特徴ベクトルは、１つのｎ次元プーリング特徴ベクトルまで削減される。

候補ウインドウの潜在的表現の次元性は、対特徴ベクトルへ組合わされる前に削減され得る。

したがってメモリの使用および／または計算コストを削減することが可能である。

代替的または付加的に、プーリングオペレーション後に、次元性を候補ウインドウの潜在的表現のサイズとマッチングするように増大させることができる。

候補ウインドウは、検出された物体の矩形フレームおよび／または画素様マスクを含み得る。

ニューラルネットワークは、複数の物体および物体の実際の場所を表示するそれぞれの物体アノテーションを有するグラウンドトウルースとして少なくとも１つのデジタルトレーニング画像を使用することによってトレーニングされ得る。このトレーニングは、
− 物体の場所を標示する候補ウインドウを生成するステップと、
− 各候補ウインドウについて、検出信頼性を表わすスコアを生成するステップと、
− 候補ウインドウのスコアおよび各物体アノテーションと候補ウインドウの間の重複に基づいて、各物体アノテーションを最良マッチング候補ウインドウに関連付け、各候補ウインドウが最大限で１つの物体アノテーションに関連付けられ、各物体アノテーションが最大限で１つの候補ウインドウに関連付けられるようにするステップと、
を含み得る。

したがって、物体アノテーションおよび候補ウインドウの一意的カップル間のマッチング（関連付け）を決定して、物体アノテーションまたは候補ウインドウのいずれも２度マッチング（関連付け）されることがないようにすることができる。

このマッチングは、例えば、
− 信頼性によって降順にソートされる候補ウインドウを含むリストを形成すること、
− リスト内の候補ウインドウのうちの最初の候補ウインドウと最大重複を有する（すなわちリスト内で最高の信頼性を有する）マッチングされていない物体アノテーションを識別すること、
− リストから前記候補ウインドウを除去すること、および
− 重複が既定の閾値を超えた場合、前記候補ウインドウを前記物体アノテーションに対してマッチングさせること、
によって得ることができる。

ニューラルネットワークは、正のトレーニング例としてマッチングに成功した検出を使用し、負のトレーニング例としてマッチングされていない検出を使用することによってトレーニングされ得る。

本発明はさらに、デジタル画像内の物体検出を再スコアリングするためのシステムに関する。物体検出は、物体の場所を標示する候補ウインドウおよび検出信頼性を表わすスコアを含む。該システムは、
− 各物体検出について潜在的表現を生成し、
− 隣接する物体検出の潜在的表現に基づいて、各物体検出の潜在的表現を更新し、
− 更新された潜在的表現に基づいて、各物体検出について新規スコアを生成する、
ように構成されているニューラルネットワークを含む。

このようなシステムを提供することによって、ニューラルネットワークがＮＭＳを学習して従来のＮＭＳ後処理ステップの制約条件を克服することが可能となる。ニューラルネットワークに基づくＮＭＳアプローチは、データ分散に適応することを学習し、従来のＮＭＳのトレードオフを克服することができる。

さらに、このようなシステムを提供することにより、本開示は、別のアルゴリズムの決定に対するアクセスまたは画像コンテンツ無く、非最大抑制タスクを行なうことのできる「純粋ＮＭＳネットワーク」を提供する。

物体検出を再スコアリングするための前記システムは、上述の通りのデジタル画像内の物体を検出するためのシステムの一部（またはサブシステム）であり得る。換言すると、物体を検出するためのシステムは、物体検出を再スコアリングするためのシステムを含み得る。

例えば、デジタル画像内の物体を検出するためのシステムは、物体の場所を標示する候補ウインドウを生成し、各候補ウインドウについて検出信頼性を表わすスコアを生成するように構成されているニューラルネットワークを含むことができ、ここで前記ニューラルシステムはさらに、上述の通りの物体検出を再スコアリングするための前記システムを含み得る。

代替的には、物体を検出するためのシステムは、物体の場所を標示する候補ウインドウを生成し各候補ウインドウについて検出信頼性を表わすスコアを生成するように構成された第１のニューラルネットワークを含み得る。さらに、物体を検出するためのシステムは、物体検出を再スコアリングするためのシステムを構成する第２のニューラルネットワークを含むことができる。

望ましくは、この変更は、検出された物体の１つの候補ウインドウがそのスコアを増大させ、一方、同じ物体上の他の全ての候補ウインドウはそのスコアを減少させるようなものである。増大および／または減少の量は、例えば、潜在的表現から演繹される学習された量であり得る。

候補ウインドウの潜在的表現を更新するステップは、隣接する候補ウインドウの対を考慮することによって行なわれ得る。隣接する候補ウインドウ対は、前記候補ウインドウおよびその隣接する候補ウインドウのうちの１つを含み得る。

候補ウインドウの潜在的表現を更新するステップは、その隣接する候補ウインドウの各々と一対の検出を形成するステップを含み得る。検出対は前記候補ウインドウおよび前記隣接するウインドウの潜在的表現を含み得る。検出対は、対特徴ベクトルである。

候補ウインドウ対の検出対特徴は、対特徴ベクトルに対して連接されている。

代替的にまたは付加的に、プーリングオペレーション後に、次元性を候補ウインドウの潜在的表現のサイズとマッチングするように増大させることができる。

ニューラルネットワークは、複数の物体および物体の実際の場所を表示するそれぞれの物体アノテーションを有するグラウンドトウルースとして少なくとも１つのデジタルトレーニング画像を使用することによってトレーニングされ得る。このトレーニングは、
− 物体の場所を標示する候補ウインドウを生成するステップと、
− 各候補ウインドウについて、検出信頼性を表わすスコアを生成するステップと、
− 候補ウインドウのスコアおよび各物体アノテーションと候補ウインドウの間の重複に基づいて、各物体アノテーションを最良マッチング候補ウインドウに関連付けし、各候補ウインドウが最大限で１つの物体アノテーションに間付けされるようにするステップと、
を含み得る。

本開示はさらに、デジタル画像内の物体を検出する方法に関する。該方法において、ニューラルネットワークは、
− 物体の場所を標示する候補ウインドウを生成するステップと、
− 各候補ウインドウについて、検出信頼性を表わすスコアを生成するステップと、
を行う。

スコアを生成するステップは、
− 各候補ウインドウについての潜在的表現を生成するステップと、
− 隣接する候補ウインドウの潜在的表現に基づいて各候補ウインドウの潜在的表現を更新するステップと、
更新された潜在的表現に基づいて各候補ウインドウについてのスコアを生成するステップと、
を含む。

本開示はさらに、デジタル画像内の物体検出を再スコアリングする方法に関する。物体検出は、物体の場所を標示する候補ウインドウおよび検出信頼性を表わすスコアを含む。該方法においてニューラルネットワークは、
− 各物体検出について潜在的表現を生成するステップと、
− 隣接する物体検出の潜在的表現に基づいて、各物体検出の潜在的表現を更新するステップと、
− 更新された潜在的表現に基づいて、各物体検出について新規スコアを生成するステップと、
を行う。

該方法は、上述の通りのデジタル画像内の物体検出を再スコアリングするためのシステムの機能に対応するさらなる方法ステップを含み得る。さらなる望ましい方法ステップについて、以下で説明する。

本開示はさらに、プログラムがコンピュータによって実行された場合に、デジタル画像内の物体を検出する方法のステップを実行するための命令を含むコンピュータプログラムに関する。

最後に、本開示はさらに、プログラムがコンピュータによって実行された場合に、デジタル画像内の物体検出を再スコアリングする方法のステップを実行するための命令を含むコンピュータプログラムに関する。

矛盾する場合を除き、上述の要素および明細書中の要素を組合せ得ることが意図されている。

以上の一般的説明および以下の詳細な説明は両方共、例示的かつ説明的なものにすぎず、請求されている開示を限定するものではないということを理解すべきである。

本明細書中に組込まれその一部を成す添付図面は、開示の実施形態を示し、明細書と合わせてその原理を説明するのに役立つものである。

本開示の実施形態に係る、検出器および再スコアリングシステムを伴うシステムのブロック図を示す。検出特徴を本開示の実施形態に係るペアワイズコンテキストの形にどのようにして組合せるかについての概略図を示す。本開示の実施形態に係る再スコアリングシステム、詳細には再スコアリングプロシージャのためのニューラルネットワークのオペレーションを例示する概略的流れ図を示す。本開示の実施形態に係るニューラルネットワークのトレーニングアーキテクチャを例示する概略的流れ図を示す。本開示の実施形態に係るニューラルネットワークのテストアーキテクチャを例示する概略的流れ図を示す。

ここで、添付図面中に実施例が示されている本開示の例示的実施形態について詳細に言及する。可能な場合には常に、同じまたは類似の部分に言及するため図面全体を通して同じ参照番号が使用されるものとする。

図１は、本開示の実施形態に係る物体検出器１および再スコアリングシステム２（すなわち、物体検出を再スコアリングするためのシステム）を伴うシステム１０のブロック図を示す。このシステムは、さまざまなさらなる機能を有することができ、例えば、ロボットシステムまたはカメラシステムであり得る。これはさらに、車両内に統合されてもよい。

システム１０は、電子回路、プロセッサ（共用、専用またはグループプロセッサ）、組合せ論理回路、１つ以上のソフトウェアプログラムを実行するメモリ、および／または説明された機能性を提供する他の好適な構成要素を含み得る。換言すると、システム１０は、コンピュータデバイスであり得る。システムは、データ、例えば実行された場合本開示に係る方法を実施するコンピュータプログラムを記憶することのできるメモリに接続可能である。詳細には、システムまたはメモリは、本開示に係るニューラルネットワークを含むソフトウェアを記憶し得る。

システム１０、詳細には検出器１は、デジタル画像またはデジタル画像ストリームを受信するための入力端を有する。詳細には、システム１０、特に検出器１は、光学センサ３、詳細にはデジタルカメラに接続され得る。デジタルカメラ３は、シーンを記録する、詳細にはシステム１０特に検出器１に対してデジタルデータを出力することができるような形で構成されている。

検出器１は、システム１０上で実行するソフトウェアとしてかまたはシステム１０のハードウェア要素として実装され得る。検出器１は、検知されたシーン内の物体の存在および場所を検出するためにコンピュータビジョンアルゴリズムを実施する。例えば、車両、人物および他の物体が検出され得る。検出器は、物体の場所を標示する候補ウインドウを出力し、各候補ウインドウについて、検出信頼性を表わすスコアを生成する。

さらに、再スコアリングシステム２も同様に、システム１０上で実行するソフトウェアとしてかまたはシステム１０のハードウェア要素として実装することができる。詳細には、システムは、検出器および再スコアリングシステムの両方を含むニューラルネットワークを含み得る。代替的には、再スコアリングシステムを（特に検出器を含むニューラルネットワーク以外の）独立したニューラルネットワークとして実現することができる。

再スコアリングシステム２は、検出器からの入力として検出結果を受信する。詳細には、再スコアリングシステムは、１つ以上の物体検出に関する情報を受信する。各々の物体検出は、物体の場所を標示する候補ウインドウおよび検出信頼性を表わすスコアを含む。再スコアリングシステムは、２重検出が抑制されるような形で、これらの物体検出を再スコアリングする。詳細には、再スコアリングシステムは、各候補ウインドウについて潜在的表現を生成する。各候補ウインドウの潜在的表現は、その後、隣接する候補ウインドウの潜在的表現に基づいて更新される。次に、各候補ウインドウについての（このように再評価された）スコアが、その更新された潜在的表現に基づいて生成される。

これによって、再スコアリングシステムは、各物体検出をその隣接する検出と共に処理することにより２重検出を認識するように構成される。同じ物体の多重検出であると認識される物体検出は、唯一つの物体検出のみが残るような形で抑制される。

以下では、本開示に係るニューラルネットワークのオペレーションについて、図２〜４ｂを参照しながらより詳細に説明する。

今日の検出器は、スコアリングされた全ての検出を戻さず、その代りに、冗長な検出を除去するための後処理ステップとしてＮＭＳを使用する。真のエンド・ツー・エンド学習済み検出器を有する目的で、本開示は、いかなる後処理も無い検出器に関するものである。なぜＮＭＳが必要であるかを理解するためには、検出タスクについてそしてそれがどのように評価されるかについて考察することが有用である。

物体検出タスクは、１つの画像を１組のボックス（すなわち候補ウインドウ）、すなわち各々に密に１つの物体が入っている、画像内の問題の物体１つあたり１つのボックスへと、画像をマッピングすることにある。これはすなわち、検出器が、物体１つにつき正確に１つの検出を戻さなければならないことを意味している。検出プロセスにとって不確実性は固有の部分であることから、評価により検出を信頼性と結び付けることができる。信頼性ある誤った検出は、信頼性がより低い検出以上に不利である。特に、最低の信頼性をもつ正しい検出よりも信頼性の低い誤りは、全く不利ではない。

検出の問題は、１つの画像内の考えられる全ての検出について物体クラスが存在する確率を推定する分類の問題として解釈され得る。この観点から、検出の探索空間（例えばスライディングウィンドウ、提案）を構築し、各検出について独立してクラス確率を推定する「仮説設定とスコアリング」検出器が生れる。その結果、同じ物体をカバーする２つの強く重複するウインドウが、ほぼ同一の画像コンテンツに注目していることを理由として、共に高スコアをもたらすことになる。概して、物体１つあたり１つの検出の代りに、各々の物体は、検出ウインドウが物体をいかに正しくカバーしているかに応じて、さまざまな信頼性の複数の検出をトリガさせる。

実際の最終目標は、１つの物体あたり正確に１つの検出（または正確に１つの高信頼性検出）を生成することにあるため、一般的な実践法（少なくとも１９９４年以降の）は、重複度の極めて高い検出が同じ物体に属するものと仮定し、これらの検出を１つの検出へと折り畳むことにある。最も良く用いられるアルゴリズム（従来のＮＭＳ）は、最高のスコアリング検出を受容し、次に、一定の閾値を超えて重複する全ての検出を拒絶し、残った検出でプロシージャを反復し、すなわち局所的最大値を貪欲法により受容しその隣接値を捨てることから、それが名前の由来となっている。このアルゴリズムは、最終的に誤った検出も受容するが、これらの検出の信頼性が正しい検出の信頼性よりも低い場合、このことが問題となることは全くない。

この従来のＮＭＳアルゴリズムは、（１）抑制が、同じ物体によってトリガされた高スコアリング検出をつねに抑制するのに充分なほどに広く、（２）抑制が、次の最も近い物体の高スコアリング検出を決して抑制しないほど充分に狭い場合に、正しく機能する。物体が遠く離れている場合には、条件（２）は容易に満たされ、広い抑制が正しく機能する。物体間の閉塞性が高い混雑したシーンにおいては、広抑制と狭抑制の間にテンションが存在する。換言すると、一画像あたり１つの物体では、ＮＭＳは自明であるが、閉塞性の高い物体には、より優れたＮＭＳアルゴリズムが必要とされる。

本開示は、ＮＭＳアルゴリズムに対するこれらの必要条件に基づくものであるが、ＮＭＳが「純粋ＮＭＳネットワーク」である、特にＮＭＳを検出器内に組込むことのできるソリューションを提案する。

画像ウインドウの独立した処理は、類似のスコアを与える重複する検出を導き、これは機能がロバストであるための一要件である。すなわち類似の入力が類似の出力を導く。したがって、１物体あたり１つの高スコアリング検出を出力する検出器は同様に、他の検出についても条件付けされなければならない。すなわち、同じ物体上の多数の検出は、合同で処理されなければならず、したがって、検出器は、反復検出が存在すると告げることができ、それらのうちの１つのみが高いスコアを受けなければならない。

検出器の典型的な推論は、１つの物体を含む画像コンテンツと含まない画像コンテンツを区別する分類子からなる。この検出器のための正および負のトレーニング例は、通常、物体と境界ボックスの間の重複の一部の測度によって定義される。類似のボックスは、いずれにせよ類似の信頼性を生み出すことから、物体の場所のわずかな摂動は、同じく正の例としてみなすことができる。この技術は、トレーニングデータを拡張し、よりロバストな検出器を導く。このタイプの分類子を使用すると、トレーニングは１物体あたり１つの高スコアリング検出をリウォードせず、代りに、１物体あたり多数の高スコアリング検出を意図的に促進する。

この分析から、検出器が正確に１物体あたり１つの検出を生成する目的で、本開示のシステムのための以下の２つの重要な要因が結果としてもたらされる。

１．精確に１物体あたり１つの検出が求められていることから、検出器に教示すべき２重検出に不利に働くロス

２．１つの物体が多数回検出されたか否かを告げるために必要な情報を検出器が有するようにする、隣接する検出の合同処理。

本開示に係るニューラルネットワーク設計は、両方の要因に対応する。ニューラルネットワーク設計は、困難な決定を回避し、より小さい検出セットを生み出すために検出を破棄させることはない。その代り、すでに検出された物体をカバーする検出スコアを減少させるようにする再スコアリングタスクとして、ＮＭＳが再編成される。再スコアリングの後、検出セットを削減するために、単純な閾値化を行なうことができる。評価のためには、再スコアリングされた検出の完全なセットを、いかなる後処理も無く評価スクリプトへと移行させることができる。

ロス：
検出器は、１物体あたり正確に１つの高スコアリング検出を出力するものと想定される。このような検出器のロスは、これらの検出がいかに近接したものであるかとは無関係に、同じ物体を多数回検出することを阻止しなければならない。

検出器は、それ自体どの検出が正しいかまたは誤っているかを決定するためのマッチング戦略を定義するベンチマークの評価基準により判断され得る。これは、トレーニング時に使用されるべきマッチングである。典型的に、ベンチマークは、信頼性により降順で検出を選別し、この順序で物体に対し検出をマッチングさせ、最も重複している物体を選好する。すでにマッチングされた物体は再びマッチングされ得ないことから、余剰の検出は、検出器の精度を低減させる誤検出として計数される。

マッチングの結果は、分類子のためのラベルとして使用され得る：すなわち、マッチングが成功した検出は、正のトレーニング例であり、一方マッチングされていない検出は、標準的バイナリロスについて負のトレーニング例である。典型的に、分類子のトレーニングに使用される全ての検出は、これらの検出がネットワーク内にフィードされるにつれて関連付けされたラベルを有する。この場合、ネットワークは、検出および物体アノテーションにアクセスでき、マッチング層は、ネットワークの予測に応じたラベルを生成する。このクラス割当ては、達成が望まれる再スコアリング挙動を直接促進する。

ｄｉが検出を表わし、ｙｉ（[−１、１]の要素として）が、１物体に対するマッチングにｄｉが成功したか否かを標示し、ｆが１つの画像上の全ての検出を合同でスコアリングするスコアリング関数を表わすものとする。

それは、重み付けされたロスを用いてトレーニングされる。

ここで１検出あたりのロスは、ｙｉを生成するマッチングを通して他の検出に結合される。検出タスクの極度のクラス不均衡に対抗するために、重み付けｗｙｉを使用する。重みは、１つの例の予想されるクラスの条件付き重みが以下のパラメータと等しくなるように、選択され得る。

マルチクラス設定に一般化する場合、検出は、信頼性およびクラスの両方に関連付けされる。検出のみが再スコアリングされることから、検出を「スイッチ・オフ」することは可能であるものの、そのクラスを変更することはできない。その結果、検出のみが同じクラスの物体にマッチングされるものの、分類の問題はバイナリにとどまり、上述のロスはなおも該当する。検出スコアを表現する場合、ワンホットエンコーディング、すなわち、クラスに対応するベクトル内の場所にのみスコアを含むゼロベクトル、を使用することができる。ｍＡＰ計算はサイズによってクラスを重み付けしないことから、予想されるクラスの条件付き重みが均等に分布するような形でインスタンス重みを割当てることができる。

合同処理
上述のロスを有効に最小化するためには、ニューラルネットワークが検出を合同処理することが必要である。この目的で、ニューラルネットワークは、（図３に示されている）「ブロック」と呼ばれる反復構造を伴って設計されている。１ブロックは、各検出がその隣接する検出の表現にアクセスできるようにし、その後自らの表現を更新する。多数のブロックのスタッキングは、全ての検出がその隣接する検出に対し「トーク」できるようにすることと、自らの表現を更新することの間で、ネットワークが交番することを意味する。換言すると、検出はその隣接する検出に対し、その表現を更新するようにトークする。

ここでは、重要である２つの非標準オペレーションが存在する。第１のオペレーションは、図２に示されている通りの、検出対のために表現を構築する層である。これは、各検出について隣接検出数が不規則であるという重要な問題を導く。離散化スキームを回避することが望まれることから、この問題は、検出横断プーリング（第２のキー）を用いて解決することが望ましい。

検出特徴：
ニューラルネットワークのブロックは、入力として各検出の検出特徴ベクトルを取り、更新されたベクトルを出力する（図４ａ、４ｂ中のハイレベル図を参照のこと）。１ブロックからの出力は、次のブロックに入力される。このｃ＝１２８次元の特徴ベクトルの内部の値は、トレーニング中に暗示的に学習される。最後のブロックの出力は、各検出についての新しい検出スコアを生成するために使用される。

第１のブロックは、入力としてオールゼロベクトルを取る。検出の情報は、以下で説明する通り、図３の「ペアワイズ計算」区分内でネットワーク内にフィードされる。このゼロ入力は、潜在的に画像特徴で置換可能である。

ペアワイズ検出コンテキスト：
第１は、図２に示されている通りの、検出対のための表現を構築する層である。図２は、本開示の実施形態にしたがって検出特徴をいかにしてペアワイズコンテキストへと組合せられるかについての概略図を示す。各々の中実ブロックは、対応するパターン（例えば異なる破線）の検出の特徴ベクトルである。ハッチングが掛かったブロックは、２つのパターンに対応する２つの検出によって定義される「検出対特徴」である。

各々のミニバッチは、各々ｃ次元の特徴ベクトルによって表現される、１つの画像上のｎ個の検出全てで構成され、したがって、データはｎ×ｃのサイズを有し、別の検出の表現へのアクセスは、バッチ要素の内部でオペレーションすることを意味する。全ての検出ｄｉについて、ｄｊがｄｉと充分に重複する全ての検出対（ｄｉ；ｄｊ）を生成する検出コンテキスト層が使用される（ＩｏＵ＞０．２）。検出対の表現は、検出表現およびｇ次元検出対特徴（以下参照）の両方の連接で構成され、これは、１＝２ｃ＋ｇ次元の特徴を生み出す。各々の検出対を独立して処理するために、特徴はバッチの次元に沿って全ての検出対で配設される。すなわち、検出ｄｉが、サイズＫ×１のバッチを生み出すｋｉの隣接する検出を有する場合、対（ｄｉ；ｄｉ）も含まれることから、
である。隣接する検出の数ｋｉ（対の数）は、１つのミニバッチ内でさえ、検出毎に異なる。可変サイズの隣接検出を固定サイズの表現へと削減するために、本開示のアーキテクチャは、同じ検出に属する全ての検出対全体にわたる包括的マックスプーリングを使用し（Ｋ×１→ｎ×１）、その後で、正規の完全に連結された層を用いて、検出表現を更新することができる（図３を参照のこと）。

検出対特徴：
検出コンテキスト内で使用される各検出対についての特徴は、１検出対の複数の特性からなる：（１）共用体（ＩｏＵ）上の交差点、（２〜４）ｘおよびｙ方向での正規化された距離および正規化されたＩ２距離（検出の幅および高さの平均による正規化）、（４〜５）幅および高さのスケール差（例えばｌｏｇ（ｗｉ＝ｗｊ））、（６）アスペクト比の差ｌｏｇ（ａｉ＝ａｊ）、（７〜８）両方の検出の検出スコア。マルチクラスセットアップにおいては、各検出は、スカラーの代りにスコアベクトルを提供し、こうして対特徴の数を増大させる。これらの生特徴は全て、各ブロック内で使用されるｇ個の検出対特徴を学習するため、３つの完全に連結された層内にフィードされる。

ブロック：
ブロックは、図３に示されているように検出がそのそれぞれの隣接する検出を考察できるようにし自らの表現を更新する１回の反復を行なう。図３は、再スコアリングシステム、詳細には本開示の実施形態に係る更新プロシージャのためのニューラルネットワークのオペレーションを例示する概略的流れ図を示す。本開示のニューラルネットワークの１ブロックが、ここでは１つの検出について示されている。各検出の表現は削減され、その後隣接する検出対へと組合わされ、検出対特徴と連接される（ハッチングの掛ったボックス、対応する特徴および検出は同じパターンを有する）。検出対の特徴は、完全に連結された層を通して独立してマッピングされる。対の可変的な数は、マックスプーリングにより、固定サイズの表現に削減される。各検出について独立して、ペアワイズ計算が行なわれる。

詳細には、ニューラルネットワークは、次元性の削減、ペアワイズ検出コンテキスト層、各対に独立して適用された２つの完全に連結された層、検出横断プーリング、および２つの完全に連結された層で構成され、ここで最後のものは、再び次元性を増大させる。ブロックの入力端および出力端が、Ｒｅｓｎｅｔアーキテクチャの場合と同様に付加される。以下を参照のこと。
Ｋ．Ｈｅ、Ｘ．Ｚｈａｎｇ、Ｓ．Ｒｅｎ、およびＪ．Ｓｕｎ．Ｉｄｅｎｔｉｔｙｍａｐｐｉｎｇｓｉｎｄｅｅｐｒｅｓｉｄｕａｌｎｅｔｗｏｒｋｓ．ＩｎＥＣＣＶ、２０１６。

最初のブロックは、入力としてゼロ特徴を受信し、したがって決定を行なうために使用される全ての情報は、検出対特徴からブートストラップされる。最後のブロックの出力は、各検出についての新しいスコアを独立して予測するため、３つの完全に連結された層によって使用される（図４ａ、４ｂを参照のこと）。

図４ａは、本開示の実施形態に係るニューラルネットワークのトレーニングアーキテクチャを例示する概略的流れ図を示し；図４ｂは、本開示の実施形態に係るニューラルネットワークのテストアーキテクチャを例示する概略的流れ図を示す。図４ａおよび４ｂは、本開示のハイレベル図であるものとして理解される。図４ａのトレーニングアーキテクチャにおいて、ブロックは、図３で描かれている通りである。「ＦＣ」は、完全に連結された層を意味する。この図の中で全ての特徴は、１２８の次元（入力ベクトルおよび層／ブロック間の特徴）を有し得る。出力はスカラーである。

パラメータ：
ニューラルネットワークは１６のブロックを有し得る。検出特徴のための特徴次元は１２８であり得、ペアワイズ検出コンテキストを構築する前に３２まで削減され得る。検出対特徴も同様に、３２次元を有することができる。最後のブロックの後の完全に連結された層は、１２８の次元特徴を出力し得る。特徴次元が変更された場合、各層内の特徴の数の間の比率は恒常に保たれ、こうして、検出特徴次元が充分であることを標示する。

メッセージパッシング：
複数のスタッキングされたブロック上の順方向の受渡しは、メッセージパッシングとして解釈され得る。全ての検出は、どの検出に物体が割当てられるかおよびどの検出がそのスコアを減少させるべきかを交渉する目的で、その隣接する検出の全てに対してメッセージを送る。メッセージパッシングアルゴリズムおよびそのルールをハンドクラフトする代りに、ネットワークは、受渡しされつつあるメッセージを潜在的に学習するように構成されている。

クレームを含めた本明細書全体を通して、「ｃｏｍｐｒｉｓｉｎｇａ（〜を含む）」なる用語は、別段の記載のないかぎり、「ｃｏｍｐｒｉｓｉｎｇａｔｌｅａｓｔｏｎｅ（少なくとも１つの〜を含む）」と同義であるものとして理解されるべきである。さらに、クレームを含め本明細書中に明記されている範囲は全て、別段の記載のないかぎり、その終端値を含むものとして理解されるべきである。説明された要素についての特定の値は、当業者にとって公知の一般に認められた製造または業界の許容誤差の範囲内に入るものとして理解されるべきものであり、「ｓｕｂｓｔａｎｔｉａｌｌｙ（実質的に）」および／または「ａｐｐｒｏｘｉｍａｔｅｌｙ（おおよそ）」および／または「ｇｅｎｅｒａｌｌｙ（概して）」なる用語の使用は全て、このような一般に認められた許容誤差の範囲内に入ることを意味するものと理解されるべきである。

本明細書中で本開示は、特定の実施形態に関連して説明されてきたが、これらの実施形態は本開示の原理および利用分野を単に例示するものにすぎないことを理解すべきである。

本明細書および実施例は、単に例示的なものとみなされるように意図されており、本開示の真の範囲は、以下のクレームによって標示されている。

Claims

デジタル画像内の物体を検出するためのシステムにおいて、
前記システムは、
物体の場所を標示する候補ウインドウを生成し、
各候補ウインドウについて、検出信頼性を表わすスコアを生成するように構成されているニューラルネットワークを含み、
前記スコアを生成することは、
− 各候補ウインドウについての潜在的表現を生成し、
− 隣接する候補ウインドウの前記潜在的表現に基づいて各候補ウインドウの前記潜在的表現を更新し、
− 更新された潜在的表現に基づいて各候補ウインドウについての前記スコアを生成すること、
を含む、システム。
前記潜在的表現は、前記候補ウインドウの前記結果としてのスコアが変更されるような形で更新される、請求項１に記載のシステム。
候補ウインドウの前記潜在的表現を更新することは、隣接する候補ウインドウの対を考慮することによって行なわれ、隣接する候補ウインドウ対が前記候補ウインドウおよびその隣接する候補ウインドウのうちの１つを含んでいる、請求項１または２に記載のシステム。
前記隣接する候補ウインドウが、前記潜在的表現が更新された前記候補ウインドウと既定の程度まで重複する全てのウインドウを含む、請求項１ないし３のいずれか一項に記載のシステム。
前記ニューラルネットワークが、隣接する候補ウインドウの前記潜在的表現に基づいて各候補ウインドウの前記潜在的表現を更新するための反復構造を含む、請求項１ないし４のいずれか一項に記載のシステム。
候補ウインドウの前記潜在的表現を更新することは、その隣接する候補ウインドウの各々と一対の検出を形成することを含み、
前記検出対が前記候補ウインドウおよび前記隣接するウインドウの前記潜在的表現を含み、
前記検出対が、対特徴ベクトルである、請求項１ないし５のいずれか一項に記載のシステム。
候補ウインドウの前記潜在的表現を更新することは、前記２つの候補ウインドウに基づいて検出対特徴、詳細には前記候補ウインドウの幾何形状を決定することをさらに含み、
前記候補ウインドウ対の前記検出対特徴が、前記対特徴ベクトルに対して連接されている、請求項６に記載のシステム。
前記検出対特徴が連接される前記対特徴ベクトルが、完全に連結された層を通して独立してマッピングされる、請求項６または７に記載のシステム。
隣接する候補ウインドウの可変的数に対応する対特徴ベクトルの数が、プーリングによって固定サイズの表現まで削減され、前記対特徴ベクトルが、要素毎のオペレーションにより１つのｎ次元プーリング特徴ベクトルまで削減される、請求項６ないし８のいずれか一項に記載のシステム。
候補ウインドウの前記潜在的表現の次元性が、前記対特徴ベクトルへ組合わされる前に削減され、および／または
前記プーリングオペレーション後に、前記次元性が、候補ウインドウの前記潜在的表現のサイズとマッチングするように増大させられる、請求項９に記載のシステム。
候補ウインドウが、検出された物体の矩形フレームおよび／または画素様マスクを含む、請求項１ないし１０のいずれか一項に記載のシステム。
前記ニューラルネットワークが、複数の物体および前記物体の実際の場所を表示するそれぞれの物体アノテーションを有するグラウンドトウルースとして少なくとも１つのデジタルトレーニング画像を使用することによってトレーニングされ、
前記トレーニングは、
物体の場所を標示する候補ウインドウを生成し、
各候補ウインドウについて、前記検出信頼性を表わすスコアを生成し、
前記候補ウインドウの前記スコアおよび各物体アノテーションと前記候補ウインドウの間の重複に基づいて、前記各物体アノテーションを最良マッチング候補ウインドウに関連付け、各候補ウインドウが最大限で１つの物体アノテーションに関連付けられ、各物体アノテーションが最大限で１つの候補ウインドウに関連付けられるようにすること、
を含む、請求項１ないし１１のいずれか一項に記載のシステム。
前記ニューラルネットワークが、正のトレーニング例としてマッチングに成功した検出を使用し、負のトレーニング例としてマッチングされていない検出を使用することによってトレーニングされる、請求項１２に記載のシステム。
デジタル画像内の物体検出を再スコアリングするためのシステムにおいて、物体検出が、前記物体の場所を標示する候補ウインドウおよび前記検出信頼性を表わすスコアを含み、
前記システムは、
− 各物体検出について潜在的表現を生成し、
− 隣接する物体検出の前記潜在的表現に基づいて、各物体検出の前記潜在的表現を更新し、
− 更新された潜在的表現に基づいて、各物体検出について前記新規スコアを生成する、
ように構成されているニューラルネットワークを含む、システム。
デジタル画像内の物体を検出する方法において、
ニューラルネットワークが、
物体の場所を標示する候補ウインドウを生成するステップと、
各候補ウインドウについて、検出信頼性を表わすスコアを生成するステップと、
を行い、
前記スコアを生成する前記ステップは、
− 各候補ウインドウについての潜在的表現を生成するステップと、
− 隣接する候補ウインドウの前記潜在的表現に基づいて各候補ウインドウの前記潜在的表現を更新するステップと、
更新された潜在的表現に基づいて各候補ウインドウについての前記スコアを生成するステップと、
を含む、方法。
デジタル画像内の物体検出を再スコアリングする方法において、物体検出が、前記物体の場所を標示する候補ウインドウおよび前記検出信頼性を表わすスコアを含み、
ニューラルネットワークが、
− 各物体検出について潜在的表現を生成するステップと、
− 隣接する物体検出の前記潜在的表現に基づいて、各物体検出の前記潜在的表現を更新するステップと、
− 更新された潜在的表現に基づいて、各物体検出について前記新規スコアを生成するステップと、
を行う、方法。
プログラムがコンピュータによって実行された場合に、請求項１５または１６のいずれか一項に記載の方法の前記ステップを実行するための命令を含むコンピュータプログラム。