JP2020518076A - デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法 - Google Patents

デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法 Download PDF

Info

Publication number
JP2020518076A
JP2020518076A JP2019558478A JP2019558478A JP2020518076A JP 2020518076 A JP2020518076 A JP 2020518076A JP 2019558478 A JP2019558478 A JP 2019558478A JP 2019558478 A JP2019558478 A JP 2019558478A JP 2020518076 A JP2020518076 A JP 2020518076A
Authority
JP
Japan
Prior art keywords
detection
candidate window
candidate
representation
potential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019558478A
Other languages
English (en)
Other versions
JP6889279B2 (ja
Inventor
オルメダ レイノ ダニエル
オルメダ レイノ ダニエル
シーレ ベルント
シーレ ベルント
ヘンドリック ホサング ヤン
ヘンドリック ホサング ヤン
ベネンゾン ロドリゴ
ベネンゾン ロドリゴ
Original Assignee
トヨタ モーター ヨーロッパ
トヨタ モーター ヨーロッパ
マックス−プランク−ゲゼルシャフト ツア フェルデルンク デア ヴィッセンシャフテン エー.ファウ.
マックス−プランク−ゲゼルシャフト ツア フェルデルンク デア ヴィッセンシャフテン エー.ファウ.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トヨタ モーター ヨーロッパ, トヨタ モーター ヨーロッパ, マックス−プランク−ゲゼルシャフト ツア フェルデルンク デア ヴィッセンシャフテン エー.ファウ., マックス−プランク−ゲゼルシャフト ツア フェルデルンク デア ヴィッセンシャフテン エー.ファウ. filed Critical トヨタ モーター ヨーロッパ
Publication of JP2020518076A publication Critical patent/JP2020518076A/ja
Application granted granted Critical
Publication of JP6889279B2 publication Critical patent/JP6889279B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

【課題】本発明は、デジタル画像内の物体を検出するためのシステムに関する。【解決手段】システムは、物体の場所を標示する候補ウインドウを生成し、各候補ウインドウについて、検出信頼性を表わすスコアを生成するように構成されているニューラルネットワークを含む。スコアを生成するステップは、各候補ウインドウについての潜在的表現を生成するステップと、隣接する候補ウインドウの潜在的表現に基づいて各候補ウインドウの潜在的表現を更新するステップと、更新された潜在的表現に基づいて各候補ウインドウについてのスコアを生成するステップと、を含む。本発明はさらに、デジタル画像内の物体検出を再スコアリングするためのシステムおよび、物体を検出し物体を再スコアリングする方法にも関する。【選択図】図3

Description

本開示は、デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法に関する。
近代的物体検出器は、次の3つのステップレシピ、すなわち(提案を用いるスパーサまたはスライディングウィンドウによる網羅的な)ウィンドウサーチ空間を提供するステップ、(2)分類子/リグレッサを用いてウインドウをスコアリング/リファイニングするステップ、および(3)同じ物体に属する可能性のあるウインドウをマージングするステップに従う。この最後の段階は、一般に「非最大抑制」(NMS)と呼ばれている。例えば、以下の文献を参照のこと:
R.Girshick.Fast R−CNN.In ICCV、2015、
P.Felzenszwalb、R.Girshick、D.McAllester、およびD.Ramanan.Object detection with discriminatively trained part−based models.PAMI、2010、および
W.Liu、D.Anguelov、D.Erhan、C.Szegedy、およびS.Reed.Ssd:Single shot multibox detector.In ECCV、2016、
L.Wan、D.Eigen、およびR.Fergus.End−to−end integration of a convolutional network、deformable parts model and non−maximum suppression.In CVPR、2015、
P.HendersonおよびV.Ferrari.End−to−end training of object class detectors for mean average precision.In ACCV、2016。
このような従来のNMSについての事実上の業界標準は、単純ハンドクラフト試験時間後処理である。アルゴリズムは、貪欲法により高スコアリング検出を選択し、同じ物体をカバーする確率が高いことを理由として直近の比較的信頼性の低い隣接検出を消去する。このアルゴリズムは、提案されている代替案に比べ、単純で高速かつ競争力がある。
一般的物体検出における最も注目に値する最近の性能上の飛躍的進歩は、R−CNNによるものであり、これは、実際上、特徴抽出および分類子をニューラルネットワークで置換し、Pascal VOCでの性能を倍増させた。以下参照:
R.Girshick、J.Donahue、T.Darrell、およびJ.Malik.Rich feature hierarchies for accurate object detection and semantic segmentation.In CVPR、2014。
別の顕著な改善は、ネットワーク内に物体提案の生成を吸収させることにあった。例えば以下参照:
S.Ren、K.He、R.Girshick、およびJ.Sun.Faster RCNN:Towards real−time object detection with region proposal networks.In NIPS、2015。
その間、他の研究作業では、提案が全て回避され、速度と品質の改善が導かれた。例えば以下参照:
J.Redmon、S.Divvala、R.Girshick、およびA.Farhadi.You only look once: Unified、real−time object detection.In CVPR、2016。
エンド・ツー・エンド学習に向かう一般的傾向が存在し、検出器の完全なエンド・ツー・エンドトレーニングを行なうことによりさらなる改善を期待することが妥当であると思われる。NMSは、大部分がエンド・ツー・エンド学習のパラダイムをうまく切り抜けたパイプライン内の1ステップである。上述の検出器は全て、NMS問題が存在するという事実を無視し、その後、連結解除された後処理として従来のNMSを実行するプロシージャにおいて分類子をトレーニングする。
有意な概念的欠陥に起因して、従来のNMSを克服する必要性が存在する。従来のNMSは、検出を消去することにより困難な決定を下し、抑制がいかに広いかを制御する1つの固定パラメータにこの決定の基礎を置いている。広い抑制は、精度を損なう誤検出である確率の高い直近の高スコアリング検出を除去すると考えられる。一方、物体が近い場合(例えば混雑したシーン内)、直近の検出は真正検出であり得、この場合、抑制は、再現率を改善するために狭いものであるべきである。物体が直近である場合、従来のNMSは、そのパラメータとは独立して精度または再現率を犠牲にするものと運命づけられている。
さらに、従来のNMSの決定と異なる重複閾値とを組合せて、ネットワークが局所的に従来のNMSオペレーティングポイントを選択できるようにするアプローチも存在してきた。以下参照のこと:
J Hosang、R.Benenson、およびB.Schiele.A convent for non−maximum suppression.In GCPR、2016。
現在、従来のNMS後処理を不要にするニューラルネットワークを含むシステム、再スコアリングシステムおよび方法を提供することが、なおも所望されている。
したがって、本開示の実施形態によると、デジタル画像内の物体を検出するためのシステムが提供されている。該システムは、物体の場所を標示する候補ウインドウを生成し、各候補ウインドウについて、検出信頼性を表わすスコアを生成するように構成されているニューラルネットワークを含む。スコア(すなわち各候補ウインドウについてのスコア)を生成するステップは、
− 各候補ウインドウについての潜在的表現を生成するステップと、
− 隣接する候補ウインドウの潜在的表現に基づいて各候補ウインドウの潜在的表現を更新するステップと、
− 更新された潜在的表現に基づいて各候補ウインドウについてのスコアを生成するステップと、
を含む。
前記、隣接する候補ウインドウは、望ましくは、潜在的表現が更新される候補ウインドウに隣接するウインドウを意味している。
したがって、再スコアリングシステムは望ましくは、各々の物体検出を処理すること(すなわち、各候補ウインドウの潜在的表現を生成すること)と共に、隣接する検出を処理すること(すなわち各候補ウインドウの表現を更新し、それにより現在更新対象の候補ウインドウに隣接する候補ウインドウの潜在的表現を考慮すること)によって、多重検出を認識するように構成されている。その結果、同じ物体の多重検出であるものとして認識されている物体検出は、望ましくは、1つの物体検出のみが残る(すなわちその隣接する候補ウインドウとの関係において高いスコアを有する)ような形で抑制される。
このようなシステムを提供することによって、ニューラルネットワークがNMSを学習して、従来のNMS後処理ステップの制約条件を克服することが可能になる。ニューラルネットワークに基づくNMSアプローチは、データ分散に適応し、従来のNMSのトレードオフを克服することを学習でき、重要なことに、検出器内に内蔵することができる。
潜在的表現は、多次元特徴ベクトルであり得る。例えば、潜在的表現は、候補ウインドウそして特に候補ウインドウ内の画像コンテンツに基づいて決定され得る。一例を挙げると、ウインドウ内の画像コンテンツを取り、それをニューラルネットワークの少なくとも1つ(または例えば3つ)の層によって処理して、潜在的表現/特徴ベクトルを得ることがあると考えられる。1つの具体的例においては、少なくとも1つの層は、畳み込み、プーリングおよび/またはFC(完全連結)層のうちの少なくとも1つからなる。
潜在的表現は、結果として得られる候補ウインドウのスコアが変更されるような形で更新され得る。
望ましくは、この変更は、検出された物体の1つの候補ウインドウがそのスコアを増大させ、一方同じ物体上の他の候補ウインドウは全てそのスコアを減少させるようなものである。増大および/または減少の量は、例えば潜在的表現から演繹される学習された量であり得る。
候補ウインドウの潜在的表現を更新するステップは、隣接する候補ウインドウの対を考慮することによって行なわれ得る。隣接する候補ウインドウ対は、前記候補ウインドウおよびその隣接する候補ウインドウのうちの1つを含んでいてよい。
隣接する候補ウインドウは、潜在的表現が更新された候補ウインドウと既定の程度まで重複する全てのウインドウを含み得る。
ニューラルネットワークは、隣接する候補ウインドウの潜在的表現に基づいて各候補ウインドウの潜在的表現を更新するための反復構造を含み得る。
候補ウインドウの潜在的表現を更新するステップは、その隣接する候補ウインドウの各々と一対の検出を形成するステップを含み得る。検出対は前記候補ウインドウおよび前記隣接するウインドウの潜在的表現を含み得る。検出対は、対特徴ベクトルであってよい。
前記対特徴ベクトルは、潜在的表現の特徴ベクトルと等しいまたは異なる次元を有し得る。概して、各FC層の後に、次元は自由に選択可能である。
候補ウインドウの潜在的表現を更新するステップは、2つの候補ウインドウに基づいた検出対特徴、例えば候補ウインドウの幾何形状を決定するステップをさらに含み得る。
候補ウインドウ対の検出対特徴は、対特徴ベクトルに対して連接され得る。
検出対特徴が連接される対特徴ベクトルは、完全に連結された層を通して独立してマッピングされ得る。
隣接する候補ウインドウの可変的数に対応する対特徴ベクトルの数は、プーリングによって固定サイズの表現まで削減され得る。例えば、対特徴ベクトルは、要素毎のオペレーションにより1つのn次元プーリング特徴ベクトルまで削減され得る。
前記プーリング特徴ベクトルは、潜在的表現の特徴ベクトルおよび/または対特徴ベクトルと等しいまたは異なる次元を有し得る。
望ましくは、n次元の多数(k)の対特徴ベクトルは、1つのn次元プーリング特徴ベクトルまで削減される。
候補ウインドウの潜在的表現の次元性は、対特徴ベクトルへ組合わされる前に削減され得る。
したがってメモリの使用および/または計算コストを削減することが可能である。
代替的または付加的に、プーリングオペレーション後に、次元性を候補ウインドウの潜在的表現のサイズとマッチングするように増大させることができる。
候補ウインドウは、検出された物体の矩形フレームおよび/または画素様マスクを含み得る。
ニューラルネットワークは、複数の物体および物体の実際の場所を表示するそれぞれの物体アノテーションを有するグラウンドトウルースとして少なくとも1つのデジタルトレーニング画像を使用することによってトレーニングされ得る。このトレーニングは、
− 物体の場所を標示する候補ウインドウを生成するステップと、
− 各候補ウインドウについて、検出信頼性を表わすスコアを生成するステップと、
− 候補ウインドウのスコアおよび各物体アノテーションと候補ウインドウの間の重複に基づいて、各物体アノテーションを最良マッチング候補ウインドウに関連付け、各候補ウインドウが最大限で1つの物体アノテーションに関連付けられ、各物体アノテーションが最大限で1つの候補ウインドウに関連付けられるようにするステップと、
を含み得る。
したがって、物体アノテーションおよび候補ウインドウの一意的カップル間のマッチング(関連付け)を決定して、物体アノテーションまたは候補ウインドウのいずれも2度マッチング(関連付け)されることがないようにすることができる。
このマッチングは、例えば、
− 信頼性によって降順にソートされる候補ウインドウを含むリストを形成すること、
− リスト内の候補ウインドウのうちの最初の候補ウインドウと最大重複を有する(すなわちリスト内で最高の信頼性を有する)マッチングされていない物体アノテーションを識別すること、
− リストから前記候補ウインドウを除去すること、および
− 重複が既定の閾値を超えた場合、前記候補ウインドウを前記物体アノテーションに対してマッチングさせること、
によって得ることができる。
ニューラルネットワークは、正のトレーニング例としてマッチングに成功した検出を使用し、負のトレーニング例としてマッチングされていない検出を使用することによってトレーニングされ得る。
本発明はさらに、デジタル画像内の物体検出を再スコアリングするためのシステムに関する。物体検出は、物体の場所を標示する候補ウインドウおよび検出信頼性を表わすスコアを含む。該システムは、
− 各物体検出について潜在的表現を生成し、
− 隣接する物体検出の潜在的表現に基づいて、各物体検出の潜在的表現を更新し、
− 更新された潜在的表現に基づいて、各物体検出について新規スコアを生成する、
ように構成されているニューラルネットワークを含む。
このようなシステムを提供することによって、ニューラルネットワークがNMSを学習して従来のNMS後処理ステップの制約条件を克服することが可能となる。ニューラルネットワークに基づくNMSアプローチは、データ分散に適応することを学習し、従来のNMSのトレードオフを克服することができる。
さらに、このようなシステムを提供することにより、本開示は、別のアルゴリズムの決定に対するアクセスまたは画像コンテンツ無く、非最大抑制タスクを行なうことのできる「純粋NMSネットワーク」を提供する。
物体検出を再スコアリングするための前記システムは、上述の通りのデジタル画像内の物体を検出するためのシステムの一部(またはサブシステム)であり得る。換言すると、物体を検出するためのシステムは、物体検出を再スコアリングするためのシステムを含み得る。
例えば、デジタル画像内の物体を検出するためのシステムは、物体の場所を標示する候補ウインドウを生成し、各候補ウインドウについて検出信頼性を表わすスコアを生成するように構成されているニューラルネットワークを含むことができ、ここで前記ニューラルシステムはさらに、上述の通りの物体検出を再スコアリングするための前記システムを含み得る。
代替的には、物体を検出するためのシステムは、物体の場所を標示する候補ウインドウを生成し各候補ウインドウについて検出信頼性を表わすスコアを生成するように構成された第1のニューラルネットワークを含み得る。さらに、物体を検出するためのシステムは、物体検出を再スコアリングするためのシステムを構成する第2のニューラルネットワークを含むことができる。
望ましくは、この変更は、検出された物体の1つの候補ウインドウがそのスコアを増大させ、一方、同じ物体上の他の全ての候補ウインドウはそのスコアを減少させるようなものである。増大および/または減少の量は、例えば、潜在的表現から演繹される学習された量であり得る。
候補ウインドウの潜在的表現を更新するステップは、隣接する候補ウインドウの対を考慮することによって行なわれ得る。隣接する候補ウインドウ対は、前記候補ウインドウおよびその隣接する候補ウインドウのうちの1つを含み得る。
隣接する候補ウインドウは、潜在的表現が更新された候補ウインドウと既定の程度まで重複する全てのウインドウを含み得る。
ニューラルネットワークは、隣接する候補ウインドウの潜在的表現に基づいて各候補ウインドウの潜在的表現を更新するための反復構造を含み得る。
候補ウインドウの潜在的表現を更新するステップは、その隣接する候補ウインドウの各々と一対の検出を形成するステップを含み得る。検出対は前記候補ウインドウおよび前記隣接するウインドウの潜在的表現を含み得る。検出対は、対特徴ベクトルである。
候補ウインドウの潜在的表現を更新するステップは、2つの候補ウインドウに基づいた検出対特徴、例えば候補ウインドウの幾何形状を決定するステップをさらに含み得る。
候補ウインドウ対の検出対特徴は、対特徴ベクトルに対して連接されている。
検出対特徴が連接される対特徴ベクトルは、完全に連結された層を通して独立してマッピングされ得る。
隣接する候補ウインドウの可変的数に対応する対特徴ベクトルの数は、プーリングによって固定サイズの表現まで削減され得る。例えば、対特徴ベクトルは、要素毎のオペレーションにより1つのn次元プーリング特徴ベクトルまで削減され得る。
候補ウインドウの潜在的表現の次元性は、対特徴ベクトルへ組合わされる前に削減され得る。
代替的にまたは付加的に、プーリングオペレーション後に、次元性を候補ウインドウの潜在的表現のサイズとマッチングするように増大させることができる。
候補ウインドウは、検出された物体の矩形フレームおよび/または画素様マスクを含み得る。
ニューラルネットワークは、複数の物体および物体の実際の場所を表示するそれぞれの物体アノテーションを有するグラウンドトウルースとして少なくとも1つのデジタルトレーニング画像を使用することによってトレーニングされ得る。このトレーニングは、
− 物体の場所を標示する候補ウインドウを生成するステップと、
− 各候補ウインドウについて、検出信頼性を表わすスコアを生成するステップと、
− 候補ウインドウのスコアおよび各物体アノテーションと候補ウインドウの間の重複に基づいて、各物体アノテーションを最良マッチング候補ウインドウに関連付けし、各候補ウインドウが最大限で1つの物体アノテーションに間付けされるようにするステップと、
を含み得る。
ニューラルネットワークは、正のトレーニング例としてマッチングに成功した検出を使用し、負のトレーニング例としてマッチングされていない検出を使用することによってトレーニングされ得る。
本開示はさらに、デジタル画像内の物体を検出する方法に関する。該方法において、ニューラルネットワークは、
− 物体の場所を標示する候補ウインドウを生成するステップと、
− 各候補ウインドウについて、検出信頼性を表わすスコアを生成するステップと、
を行う。
スコアを生成するステップは、
− 各候補ウインドウについての潜在的表現を生成するステップと、
− 隣接する候補ウインドウの潜在的表現に基づいて各候補ウインドウの潜在的表現を更新するステップと、
更新された潜在的表現に基づいて各候補ウインドウについてのスコアを生成するステップと、
を含む。
本開示はさらに、デジタル画像内の物体検出を再スコアリングする方法に関する。物体検出は、物体の場所を標示する候補ウインドウおよび検出信頼性を表わすスコアを含む。該方法においてニューラルネットワークは、
− 各物体検出について潜在的表現を生成するステップと、
− 隣接する物体検出の潜在的表現に基づいて、各物体検出の潜在的表現を更新するステップと、
− 更新された潜在的表現に基づいて、各物体検出について新規スコアを生成するステップと、
を行う。
該方法は、上述の通りのデジタル画像内の物体検出を再スコアリングするためのシステムの機能に対応するさらなる方法ステップを含み得る。さらなる望ましい方法ステップについて、以下で説明する。
本開示はさらに、プログラムがコンピュータによって実行された場合に、デジタル画像内の物体を検出する方法のステップを実行するための命令を含むコンピュータプログラムに関する。
最後に、本開示はさらに、プログラムがコンピュータによって実行された場合に、デジタル画像内の物体検出を再スコアリングする方法のステップを実行するための命令を含むコンピュータプログラムに関する。
矛盾する場合を除き、上述の要素および明細書中の要素を組合せ得ることが意図されている。
以上の一般的説明および以下の詳細な説明は両方共、例示的かつ説明的なものにすぎず、請求されている開示を限定するものではないということを理解すべきである。
本明細書中に組込まれその一部を成す添付図面は、開示の実施形態を示し、明細書と合わせてその原理を説明するのに役立つものである。
本開示の実施形態に係る、検出器および再スコアリングシステムを伴うシステムのブロック図を示す。 検出特徴を本開示の実施形態に係るペアワイズコンテキストの形にどのようにして組合せるかについての概略図を示す。 本開示の実施形態に係る再スコアリングシステム、詳細には再スコアリングプロシージャのためのニューラルネットワークのオペレーションを例示する概略的流れ図を示す。 本開示の実施形態に係るニューラルネットワークのトレーニングアーキテクチャを例示する概略的流れ図を示す。 本開示の実施形態に係るニューラルネットワークのテストアーキテクチャを例示する概略的流れ図を示す。
ここで、添付図面中に実施例が示されている本開示の例示的実施形態について詳細に言及する。可能な場合には常に、同じまたは類似の部分に言及するため図面全体を通して同じ参照番号が使用されるものとする。
図1は、本開示の実施形態に係る物体検出器1および再スコアリングシステム2(すなわち、物体検出を再スコアリングするためのシステム)を伴うシステム10のブロック図を示す。このシステムは、さまざまなさらなる機能を有することができ、例えば、ロボットシステムまたはカメラシステムであり得る。これはさらに、車両内に統合されてもよい。
システム10は、電子回路、プロセッサ(共用、専用またはグループプロセッサ)、組合せ論理回路、1つ以上のソフトウェアプログラムを実行するメモリ、および/または説明された機能性を提供する他の好適な構成要素を含み得る。換言すると、システム10は、コンピュータデバイスであり得る。システムは、データ、例えば実行された場合本開示に係る方法を実施するコンピュータプログラムを記憶することのできるメモリに接続可能である。詳細には、システムまたはメモリは、本開示に係るニューラルネットワークを含むソフトウェアを記憶し得る。
システム10、詳細には検出器1は、デジタル画像またはデジタル画像ストリームを受信するための入力端を有する。詳細には、システム10、特に検出器1は、光学センサ3、詳細にはデジタルカメラに接続され得る。デジタルカメラ3は、シーンを記録する、詳細にはシステム10特に検出器1に対してデジタルデータを出力することができるような形で構成されている。
検出器1は、システム10上で実行するソフトウェアとしてかまたはシステム10のハードウェア要素として実装され得る。検出器1は、検知されたシーン内の物体の存在および場所を検出するためにコンピュータビジョンアルゴリズムを実施する。例えば、車両、人物および他の物体が検出され得る。検出器は、物体の場所を標示する候補ウインドウを出力し、各候補ウインドウについて、検出信頼性を表わすスコアを生成する。
さらに、再スコアリングシステム2も同様に、システム10上で実行するソフトウェアとしてかまたはシステム10のハードウェア要素として実装することができる。詳細には、システムは、検出器および再スコアリングシステムの両方を含むニューラルネットワークを含み得る。代替的には、再スコアリングシステムを(特に検出器を含むニューラルネットワーク以外の)独立したニューラルネットワークとして実現することができる。
再スコアリングシステム2は、検出器からの入力として検出結果を受信する。詳細には、再スコアリングシステムは、1つ以上の物体検出に関する情報を受信する。各々の物体検出は、物体の場所を標示する候補ウインドウおよび検出信頼性を表わすスコアを含む。再スコアリングシステムは、2重検出が抑制されるような形で、これらの物体検出を再スコアリングする。詳細には、再スコアリングシステムは、各候補ウインドウについて潜在的表現を生成する。各候補ウインドウの潜在的表現は、その後、隣接する候補ウインドウの潜在的表現に基づいて更新される。次に、各候補ウインドウについての(このように再評価された)スコアが、その更新された潜在的表現に基づいて生成される。
これによって、再スコアリングシステムは、各物体検出をその隣接する検出と共に処理することにより2重検出を認識するように構成される。同じ物体の多重検出であると認識される物体検出は、唯一つの物体検出のみが残るような形で抑制される。
以下では、本開示に係るニューラルネットワークのオペレーションについて、図2〜4bを参照しながらより詳細に説明する。
今日の検出器は、スコアリングされた全ての検出を戻さず、その代りに、冗長な検出を除去するための後処理ステップとしてNMSを使用する。真のエンド・ツー・エンド学習済み検出器を有する目的で、本開示は、いかなる後処理も無い検出器に関するものである。なぜNMSが必要であるかを理解するためには、検出タスクについてそしてそれがどのように評価されるかについて考察することが有用である。
物体検出タスクは、1つの画像を1組のボックス(すなわち候補ウインドウ)、すなわち各々に密に1つの物体が入っている、画像内の問題の物体1つあたり1つのボックスへと、画像をマッピングすることにある。これはすなわち、検出器が、物体1つにつき正確に1つの検出を戻さなければならないことを意味している。検出プロセスにとって不確実性は固有の部分であることから、評価により検出を信頼性と結び付けることができる。信頼性ある誤った検出は、信頼性がより低い検出以上に不利である。特に、最低の信頼性をもつ正しい検出よりも信頼性の低い誤りは、全く不利ではない。
検出の問題は、1つの画像内の考えられる全ての検出について物体クラスが存在する確率を推定する分類の問題として解釈され得る。この観点から、検出の探索空間(例えばスライディングウィンドウ、提案)を構築し、各検出について独立してクラス確率を推定する「仮説設定とスコアリング」検出器が生れる。その結果、同じ物体をカバーする2つの強く重複するウインドウが、ほぼ同一の画像コンテンツに注目していることを理由として、共に高スコアをもたらすことになる。概して、物体1つあたり1つの検出の代りに、各々の物体は、検出ウインドウが物体をいかに正しくカバーしているかに応じて、さまざまな信頼性の複数の検出をトリガさせる。
実際の最終目標は、1つの物体あたり正確に1つの検出(または正確に1つの高信頼性検出)を生成することにあるため、一般的な実践法(少なくとも1994年以降の)は、重複度の極めて高い検出が同じ物体に属するものと仮定し、これらの検出を1つの検出へと折り畳むことにある。最も良く用いられるアルゴリズム(従来のNMS)は、最高のスコアリング検出を受容し、次に、一定の閾値を超えて重複する全ての検出を拒絶し、残った検出でプロシージャを反復し、すなわち局所的最大値を貪欲法により受容しその隣接値を捨てることから、それが名前の由来となっている。このアルゴリズムは、最終的に誤った検出も受容するが、これらの検出の信頼性が正しい検出の信頼性よりも低い場合、このことが問題となることは全くない。
この従来のNMSアルゴリズムは、(1)抑制が、同じ物体によってトリガされた高スコアリング検出をつねに抑制するのに充分なほどに広く、(2)抑制が、次の最も近い物体の高スコアリング検出を決して抑制しないほど充分に狭い場合に、正しく機能する。物体が遠く離れている場合には、条件(2)は容易に満たされ、広い抑制が正しく機能する。物体間の閉塞性が高い混雑したシーンにおいては、広抑制と狭抑制の間にテンションが存在する。換言すると、一画像あたり1つの物体では、NMSは自明であるが、閉塞性の高い物体には、より優れたNMSアルゴリズムが必要とされる。
本開示は、NMSアルゴリズムに対するこれらの必要条件に基づくものであるが、NMSが「純粋NMSネットワーク」である、特にNMSを検出器内に組込むことのできるソリューションを提案する。
画像ウインドウの独立した処理は、類似のスコアを与える重複する検出を導き、これは機能がロバストであるための一要件である。すなわち類似の入力が類似の出力を導く。したがって、1物体あたり1つの高スコアリング検出を出力する検出器は同様に、他の検出についても条件付けされなければならない。すなわち、同じ物体上の多数の検出は、合同で処理されなければならず、したがって、検出器は、反復検出が存在すると告げることができ、それらのうちの1つのみが高いスコアを受けなければならない。
検出器の典型的な推論は、1つの物体を含む画像コンテンツと含まない画像コンテンツを区別する分類子からなる。この検出器のための正および負のトレーニング例は、通常、物体と境界ボックスの間の重複の一部の測度によって定義される。類似のボックスは、いずれにせよ類似の信頼性を生み出すことから、物体の場所のわずかな摂動は、同じく正の例としてみなすことができる。この技術は、トレーニングデータを拡張し、よりロバストな検出器を導く。このタイプの分類子を使用すると、トレーニングは1物体あたり1つの高スコアリング検出をリウォードせず、代りに、1物体あたり多数の高スコアリング検出を意図的に促進する。
この分析から、検出器が正確に1物体あたり1つの検出を生成する目的で、本開示のシステムのための以下の2つの重要な要因が結果としてもたらされる。
1. 精確に1物体あたり1つの検出が求められていることから、検出器に教示すべき2重検出に不利に働くロス
2. 1つの物体が多数回検出されたか否かを告げるために必要な情報を検出器が有するようにする、隣接する検出の合同処理。
本開示に係るニューラルネットワーク設計は、両方の要因に対応する。ニューラルネットワーク設計は、困難な決定を回避し、より小さい検出セットを生み出すために検出を破棄させることはない。その代り、すでに検出された物体をカバーする検出スコアを減少させるようにする再スコアリングタスクとして、NMSが再編成される。再スコアリングの後、検出セットを削減するために、単純な閾値化を行なうことができる。評価のためには、再スコアリングされた検出の完全なセットを、いかなる後処理も無く評価スクリプトへと移行させることができる。
ロス:
検出器は、1物体あたり正確に1つの高スコアリング検出を出力するものと想定される。このような検出器のロスは、これらの検出がいかに近接したものであるかとは無関係に、同じ物体を多数回検出することを阻止しなければならない。
検出器は、それ自体どの検出が正しいかまたは誤っているかを決定するためのマッチング戦略を定義するベンチマークの評価基準により判断され得る。これは、トレーニング時に使用されるべきマッチングである。典型的に、ベンチマークは、信頼性により降順で検出を選別し、この順序で物体に対し検出をマッチングさせ、最も重複している物体を選好する。すでにマッチングされた物体は再びマッチングされ得ないことから、余剰の検出は、検出器の精度を低減させる誤検出として計数される。
マッチングの結果は、分類子のためのラベルとして使用され得る:すなわち、マッチングが成功した検出は、正のトレーニング例であり、一方マッチングされていない検出は、標準的バイナリロスについて負のトレーニング例である。典型的に、分類子のトレーニングに使用される全ての検出は、これらの検出がネットワーク内にフィードされるにつれて関連付けされたラベルを有する。この場合、ネットワークは、検出および物体アノテーションにアクセスでき、マッチング層は、ネットワークの予測に応じたラベルを生成する。このクラス割当ては、達成が望まれる再スコアリング挙動を直接促進する。
diが検出を表わし、yi([−1、1]の要素として)が、1物体に対するマッチングにdiが成功したか否かを標示し、fが1つの画像上の全ての検出を合同でスコアリングするスコアリング関数を表わすものとする。
それは、重み付けされたロスを用いてトレーニングされる。
ここで1検出あたりのロスは、yiを生成するマッチングを通して他の検出に結合される。検出タスクの極度のクラス不均衡に対抗するために、重み付けwyiを使用する。重みは、1つの例の予想されるクラスの条件付き重みが以下のパラメータと等しくなるように、選択され得る。
マルチクラス設定に一般化する場合、検出は、信頼性およびクラスの両方に関連付けされる。検出のみが再スコアリングされることから、検出を「スイッチ・オフ」することは可能であるものの、そのクラスを変更することはできない。その結果、検出のみが同じクラスの物体にマッチングされるものの、分類の問題はバイナリにとどまり、上述のロスはなおも該当する。検出スコアを表現する場合、ワンホットエンコーディング、すなわち、クラスに対応するベクトル内の場所にのみスコアを含むゼロベクトル、を使用することができる。mAP計算はサイズによってクラスを重み付けしないことから、予想されるクラスの条件付き重みが均等に分布するような形でインスタンス重みを割当てることができる。
合同処理
上述のロスを有効に最小化するためには、ニューラルネットワークが検出を合同処理することが必要である。この目的で、ニューラルネットワークは、(図3に示されている)「ブロック」と呼ばれる反復構造を伴って設計されている。1ブロックは、各検出がその隣接する検出の表現にアクセスできるようにし、その後自らの表現を更新する。多数のブロックのスタッキングは、全ての検出がその隣接する検出に対し「トーク」できるようにすることと、自らの表現を更新することの間で、ネットワークが交番することを意味する。換言すると、検出はその隣接する検出に対し、その表現を更新するようにトークする。
ここでは、重要である2つの非標準オペレーションが存在する。第1のオペレーションは、図2に示されている通りの、検出対のために表現を構築する層である。これは、各検出について隣接検出数が不規則であるという重要な問題を導く。離散化スキームを回避することが望まれることから、この問題は、検出横断プーリング(第2のキー)を用いて解決することが望ましい。
検出特徴:
ニューラルネットワークのブロックは、入力として各検出の検出特徴ベクトルを取り、更新されたベクトルを出力する(図4a、4b中のハイレベル図を参照のこと)。1ブロックからの出力は、次のブロックに入力される。このc=128次元の特徴ベクトルの内部の値は、トレーニング中に暗示的に学習される。最後のブロックの出力は、各検出についての新しい検出スコアを生成するために使用される。
第1のブロックは、入力としてオールゼロベクトルを取る。検出の情報は、以下で説明する通り、図3の「ペアワイズ計算」区分内でネットワーク内にフィードされる。このゼロ入力は、潜在的に画像特徴で置換可能である。
ペアワイズ検出コンテキスト:
第1は、図2に示されている通りの、検出対のための表現を構築する層である。図2は、本開示の実施形態にしたがって検出特徴をいかにしてペアワイズコンテキストへと組合せられるかについての概略図を示す。各々の中実ブロックは、対応するパターン(例えば異なる破線)の検出の特徴ベクトルである。ハッチングが掛かったブロックは、2つのパターンに対応する2つの検出によって定義される「検出対特徴」である。
各々のミニバッチは、各々c次元の特徴ベクトルによって表現される、1つの画像上のn個の検出全てで構成され、したがって、データはn×cのサイズを有し、別の検出の表現へのアクセスは、バッチ要素の内部でオペレーションすることを意味する。全ての検出diについて、djがdiと充分に重複する全ての検出対(di;dj)を生成する検出コンテキスト層が使用される(IoU>0.2)。検出対の表現は、検出表現およびg次元検出対特徴(以下参照)の両方の連接で構成され、これは、1=2c+g次元の特徴を生み出す。各々の検出対を独立して処理するために、特徴はバッチの次元に沿って全ての検出対で配設される。すなわち、検出diが、サイズK×1のバッチを生み出すkiの隣接する検出を有する場合、対(di;di)も含まれることから、
である。隣接する検出の数ki(対の数)は、1つのミニバッチ内でさえ、検出毎に異なる。可変サイズの隣接検出を固定サイズの表現へと削減するために、本開示のアーキテクチャは、同じ検出に属する全ての検出対全体にわたる包括的マックスプーリングを使用し(K×1→n×1)、その後で、正規の完全に連結された層を用いて、検出表現を更新することができる(図3を参照のこと)。
検出対特徴:
検出コンテキスト内で使用される各検出対についての特徴は、1検出対の複数の特性からなる:(1)共用体(IoU)上の交差点、(2〜4)xおよびy方向での正規化された距離および正規化されたI2距離(検出の幅および高さの平均による正規化)、(4〜5)幅および高さのスケール差(例えばlog(wi=wj))、(6)アスペクト比の差log(ai=aj)、(7〜8)両方の検出の検出スコア。マルチクラスセットアップにおいては、各検出は、スカラーの代りにスコアベクトルを提供し、こうして対特徴の数を増大させる。これらの生特徴は全て、各ブロック内で使用されるg個の検出対特徴を学習するため、3つの完全に連結された層内にフィードされる。
ブロック:
ブロックは、図3に示されているように検出がそのそれぞれの隣接する検出を考察できるようにし自らの表現を更新する1回の反復を行なう。図3は、再スコアリングシステム、詳細には本開示の実施形態に係る更新プロシージャのためのニューラルネットワークのオペレーションを例示する概略的流れ図を示す。本開示のニューラルネットワークの1ブロックが、ここでは1つの検出について示されている。各検出の表現は削減され、その後隣接する検出対へと組合わされ、検出対特徴と連接される(ハッチングの掛ったボックス、対応する特徴および検出は同じパターンを有する)。検出対の特徴は、完全に連結された層を通して独立してマッピングされる。対の可変的な数は、マックスプーリングにより、固定サイズの表現に削減される。各検出について独立して、ペアワイズ計算が行なわれる。
詳細には、ニューラルネットワークは、次元性の削減、ペアワイズ検出コンテキスト層、各対に独立して適用された2つの完全に連結された層、検出横断プーリング、および2つの完全に連結された層で構成され、ここで最後のものは、再び次元性を増大させる。ブロックの入力端および出力端が、Resnetアーキテクチャの場合と同様に付加される。以下を参照のこと。
K.He、X.Zhang、S.Ren、およびJ.Sun. Identity mappings in deep residual networks.In ECCV、2016。
最初のブロックは、入力としてゼロ特徴を受信し、したがって決定を行なうために使用される全ての情報は、検出対特徴からブートストラップされる。最後のブロックの出力は、各検出についての新しいスコアを独立して予測するため、3つの完全に連結された層によって使用される(図4a、4bを参照のこと)。
図4aは、本開示の実施形態に係るニューラルネットワークのトレーニングアーキテクチャを例示する概略的流れ図を示し;図4bは、本開示の実施形態に係るニューラルネットワークのテストアーキテクチャを例示する概略的流れ図を示す。図4aおよび4bは、本開示のハイレベル図であるものとして理解される。図4aのトレーニングアーキテクチャにおいて、ブロックは、図3で描かれている通りである。「FC」は、完全に連結された層を意味する。この図の中で全ての特徴は、128の次元(入力ベクトルおよび層/ブロック間の特徴)を有し得る。出力はスカラーである。
パラメータ:
ニューラルネットワークは16のブロックを有し得る。検出特徴のための特徴次元は128であり得、ペアワイズ検出コンテキストを構築する前に32まで削減され得る。検出対特徴も同様に、32次元を有することができる。最後のブロックの後の完全に連結された層は、128の次元特徴を出力し得る。特徴次元が変更された場合、各層内の特徴の数の間の比率は恒常に保たれ、こうして、検出特徴次元が充分であることを標示する。
メッセージパッシング:
複数のスタッキングされたブロック上の順方向の受渡しは、メッセージパッシングとして解釈され得る。全ての検出は、どの検出に物体が割当てられるかおよびどの検出がそのスコアを減少させるべきかを交渉する目的で、その隣接する検出の全てに対してメッセージを送る。メッセージパッシングアルゴリズムおよびそのルールをハンドクラフトする代りに、ネットワークは、受渡しされつつあるメッセージを潜在的に学習するように構成されている。
クレームを含めた本明細書全体を通して、「comprising a(〜を含む)」なる用語は、別段の記載のないかぎり、「comprising at least one(少なくとも1つの〜を含む)」と同義であるものとして理解されるべきである。さらに、クレームを含め本明細書中に明記されている範囲は全て、別段の記載のないかぎり、その終端値を含むものとして理解されるべきである。説明された要素についての特定の値は、当業者にとって公知の一般に認められた製造または業界の許容誤差の範囲内に入るものとして理解されるべきものであり、「substantially(実質的に)」および/または「approximately(おおよそ)」および/または「generally(概して)」なる用語の使用は全て、このような一般に認められた許容誤差の範囲内に入ることを意味するものと理解されるべきである。
本明細書中で本開示は、特定の実施形態に関連して説明されてきたが、これらの実施形態は本開示の原理および利用分野を単に例示するものにすぎないことを理解すべきである。
本明細書および実施例は、単に例示的なものとみなされるように意図されており、本開示の真の範囲は、以下のクレームによって標示されている。

Claims (17)

  1. デジタル画像内の物体を検出するためのシステムにおいて、
    前記システムは、
    物体の場所を標示する候補ウインドウを生成し、
    各候補ウインドウについて、検出信頼性を表わすスコアを生成するように構成されているニューラルネットワークを含み、
    前記スコアを生成することは、
    − 各候補ウインドウについての潜在的表現を生成し、
    − 隣接する候補ウインドウの前記潜在的表現に基づいて各候補ウインドウの前記潜在的表現を更新し、
    − 更新された潜在的表現に基づいて各候補ウインドウについての前記スコアを生成すること、
    を含む、システム。
  2. 前記潜在的表現は、前記候補ウインドウの前記結果としてのスコアが変更されるような形で更新される、請求項1に記載のシステム。
  3. 候補ウインドウの前記潜在的表現を更新することは、隣接する候補ウインドウの対を考慮することによって行なわれ、隣接する候補ウインドウ対が前記候補ウインドウおよびその隣接する候補ウインドウのうちの1つを含んでいる、請求項1または2に記載のシステム。
  4. 前記隣接する候補ウインドウが、前記潜在的表現が更新された前記候補ウインドウと既定の程度まで重複する全てのウインドウを含む、請求項1ないし3のいずれか一項に記載のシステム。
  5. 前記ニューラルネットワークが、隣接する候補ウインドウの前記潜在的表現に基づいて各候補ウインドウの前記潜在的表現を更新するための反復構造を含む、請求項1ないし4のいずれか一項に記載のシステム。
  6. 候補ウインドウの前記潜在的表現を更新することは、その隣接する候補ウインドウの各々と一対の検出を形成することを含み、
    前記検出対が前記候補ウインドウおよび前記隣接するウインドウの前記潜在的表現を含み、
    前記検出対が、対特徴ベクトルである、請求項1ないし5のいずれか一項に記載のシステム。
  7. 候補ウインドウの前記潜在的表現を更新することは、前記2つの候補ウインドウに基づいて検出対特徴、詳細には前記候補ウインドウの幾何形状を決定することをさらに含み、
    前記候補ウインドウ対の前記検出対特徴が、前記対特徴ベクトルに対して連接されている、請求項6に記載のシステム。
  8. 前記検出対特徴が連接される前記対特徴ベクトルが、完全に連結された層を通して独立してマッピングされる、請求項6または7に記載のシステム。
  9. 隣接する候補ウインドウの可変的数に対応する対特徴ベクトルの数が、プーリングによって固定サイズの表現まで削減され、前記対特徴ベクトルが、要素毎のオペレーションにより1つのn次元プーリング特徴ベクトルまで削減される、請求項6ないし8のいずれか一項に記載のシステム。
  10. 候補ウインドウの前記潜在的表現の次元性が、前記対特徴ベクトルへ組合わされる前に削減され、および/または
    前記プーリングオペレーション後に、前記次元性が、候補ウインドウの前記潜在的表現のサイズとマッチングするように増大させられる、請求項9に記載のシステム。
  11. 候補ウインドウが、検出された物体の矩形フレームおよび/または画素様マスクを含む、請求項1ないし10のいずれか一項に記載のシステム。
  12. 前記ニューラルネットワークが、複数の物体および前記物体の実際の場所を表示するそれぞれの物体アノテーションを有するグラウンドトウルースとして少なくとも1つのデジタルトレーニング画像を使用することによってトレーニングされ、
    前記トレーニングは、
    物体の場所を標示する候補ウインドウを生成し、
    各候補ウインドウについて、前記検出信頼性を表わすスコアを生成し、
    前記候補ウインドウの前記スコアおよび各物体アノテーションと前記候補ウインドウの間の重複に基づいて、前記各物体アノテーションを最良マッチング候補ウインドウに関連付け、各候補ウインドウが最大限で1つの物体アノテーションに関連付けられ、各物体アノテーションが最大限で1つの候補ウインドウに関連付けられるようにすること、
    を含む、請求項1ないし11のいずれか一項に記載のシステム。
  13. 前記ニューラルネットワークが、正のトレーニング例としてマッチングに成功した検出を使用し、負のトレーニング例としてマッチングされていない検出を使用することによってトレーニングされる、請求項12に記載のシステム。
  14. デジタル画像内の物体検出を再スコアリングするためのシステムにおいて、物体検出が、前記物体の場所を標示する候補ウインドウおよび前記検出信頼性を表わすスコアを含み、
    前記システムは、
    − 各物体検出について潜在的表現を生成し、
    − 隣接する物体検出の前記潜在的表現に基づいて、各物体検出の前記潜在的表現を更新し、
    − 更新された潜在的表現に基づいて、各物体検出について前記新規スコアを生成する、
    ように構成されているニューラルネットワークを含む、システム。
  15. デジタル画像内の物体を検出する方法において、
    ニューラルネットワークが、
    物体の場所を標示する候補ウインドウを生成するステップと、
    各候補ウインドウについて、検出信頼性を表わすスコアを生成するステップと、
    を行い、
    前記スコアを生成する前記ステップは、
    − 各候補ウインドウについての潜在的表現を生成するステップと、
    − 隣接する候補ウインドウの前記潜在的表現に基づいて各候補ウインドウの前記潜在的表現を更新するステップと、
    更新された潜在的表現に基づいて各候補ウインドウについての前記スコアを生成するステップと、
    を含む、方法。
  16. デジタル画像内の物体検出を再スコアリングする方法において、物体検出が、前記物体の場所を標示する候補ウインドウおよび前記検出信頼性を表わすスコアを含み、
    ニューラルネットワークが、
    − 各物体検出について潜在的表現を生成するステップと、
    − 隣接する物体検出の前記潜在的表現に基づいて、各物体検出の前記潜在的表現を更新するステップと、
    − 更新された潜在的表現に基づいて、各物体検出について前記新規スコアを生成するステップと、
    を行う、方法。
  17. プログラムがコンピュータによって実行された場合に、請求項15または16のいずれか一項に記載の方法の前記ステップを実行するための命令を含むコンピュータプログラム。
JP2019558478A 2017-04-28 2017-04-28 デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法 Active JP6889279B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2017/060273 WO2018197019A1 (en) 2017-04-28 2017-04-28 System and method for detecting objects in a digital image, and system and method for rescoring object detections.

Publications (2)

Publication Number Publication Date
JP2020518076A true JP2020518076A (ja) 2020-06-18
JP6889279B2 JP6889279B2 (ja) 2021-06-18

Family

ID=58671627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019558478A Active JP6889279B2 (ja) 2017-04-28 2017-04-28 デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法

Country Status (4)

Country Link
US (2) US20200193225A1 (ja)
JP (1) JP6889279B2 (ja)
DE (1) DE112017007492T5 (ja)
WO (1) WO2018197019A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522254B (zh) * 2017-10-30 2022-04-12 上海寒武纪信息科技有限公司 运算装置及方法
JP7253872B2 (ja) * 2017-12-01 2023-04-07 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
CN110826572B (zh) * 2018-08-09 2023-04-21 京东方科技集团股份有限公司 多目标检测的非极大值抑制方法、装置及设备
CN109540138B (zh) * 2018-11-12 2021-05-25 中南大学 基于视觉神经网络的室内导航方法、系统及可读存储器
KR20200063329A (ko) * 2018-11-21 2020-06-05 삼성전자주식회사 영상 처리 장치 및 그 제어방법
CN111415461B (zh) 2019-01-08 2021-09-28 虹软科技股份有限公司 物品识别方法及系统、电子设备
US11080884B2 (en) * 2019-05-15 2021-08-03 Matterport, Inc. Point tracking using a trained network
EP3832491A1 (en) * 2019-12-06 2021-06-09 Idemia Identity & Security France Methods for processing a plurality of candidate annotations of a given instance of an image, and for learning parameters of a computational model
US10998006B1 (en) * 2020-12-08 2021-05-04 Turku University of Applied Sciences Ltd Method and system for producing binaural immersive audio for audio-visual content
US11967137B2 (en) 2021-12-02 2024-04-23 International Business Machines Corporation Object detection considering tendency of object location

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006010652A (ja) * 2004-06-29 2006-01-12 Toyota Motor Corp 物体検出装置
JP2017049891A (ja) * 2015-09-03 2017-03-09 日本電信電話株式会社 物体領域特定方法、装置、及びプログラム
JP2017059207A (ja) * 2015-09-18 2017-03-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像認識方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9019538D0 (en) 1990-09-07 1990-10-24 Philips Electronic Associated Tracking a moving object
US5214744A (en) 1990-12-14 1993-05-25 Westinghouse Electric Corp. Method and apparatus for automatically identifying targets in sonar images
US6298143B1 (en) * 1997-04-03 2001-10-02 Kabushiki Kaisha Toshiba Moving target detecting system and moving target detecting method
JP2001511374A (ja) 1997-07-25 2001-08-14 アーチ・デベロップメント・コーポレーション 側面胸部放射線像の肺領域を分割する方法とシステム
US6647139B1 (en) 1999-02-18 2003-11-11 Matsushita Electric Industrial Co., Ltd. Method of object recognition, apparatus of the same and recording medium therefor
US6549646B1 (en) 2000-02-15 2003-04-15 Deus Technologies, Llc Divide-and-conquer method and system for the detection of lung nodule in radiological images
JP4228641B2 (ja) * 2002-09-20 2009-02-25 セイコーエプソン株式会社 出力対象画像データ選択
JP4111198B2 (ja) * 2004-06-29 2008-07-02 セイコーエプソン株式会社 画像検索システム、画像検索プログラムおよび記憶媒体、並びに画像検索方法
US7844590B1 (en) 2005-06-16 2010-11-30 Eightfold Logic, Inc. Collection and organization of actual search results data for particular destinations
US9305088B1 (en) 2006-11-30 2016-04-05 Google Inc. Personalized search results
US7925072B2 (en) 2007-03-08 2011-04-12 Kla-Tencor Technologies Corp. Methods for identifying array areas in dies formed on a wafer and methods for setting up such methods
US8340435B2 (en) 2009-06-11 2012-12-25 California Institute Of Technology Method and system for object recognition search
JP5685031B2 (ja) * 2010-09-15 2015-03-18 キヤノン株式会社 画像処理装置および画像形成システムおよび画像形成方法
US9753949B1 (en) 2016-03-14 2017-09-05 Shutterstock, Inc. Region-specific image download probability modeling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006010652A (ja) * 2004-06-29 2006-01-12 Toyota Motor Corp 物体検出装置
JP2017049891A (ja) * 2015-09-03 2017-03-09 日本電信電話株式会社 物体領域特定方法、装置、及びプログラム
JP2017059207A (ja) * 2015-09-18 2017-03-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像認識方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HOSANG JAN: "A CONVNET FOR NON-MAXIMUM SUPPRESSION", ARXIV:1511.06437V3, vol. VOL:9796 CHAP.16,, JPN5020005796, 27 August 2016 (2016-08-27), pages 1 - 14, ISSN: 0004398473 *

Also Published As

Publication number Publication date
US11715281B2 (en) 2023-08-01
DE112017007492T5 (de) 2020-02-13
US20200193225A1 (en) 2020-06-18
JP6889279B2 (ja) 2021-06-18
US20220129701A1 (en) 2022-04-28
WO2018197019A1 (en) 2018-11-01

Similar Documents

Publication Publication Date Title
JP2020518076A (ja) デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法
Hosang et al. Learning non-maximum suppression
KR102424803B1 (ko) 터치 분류
CN106846355B (zh) 基于提升直觉模糊树的目标跟踪方法及装置
US10013636B2 (en) Image object category recognition method and device
JP2006350645A (ja) 対象物検出装置及びその学習装置
EP3349152A1 (en) Classifying data
Poppinga et al. JET-Net: real-time object detection for mobile robots
Cardoso et al. A bounded neural network for open set recognition
Misra et al. Development of a hierarchical dynamic keyboard character recognition system using trajectory features and scale-invariant holistic modeling of characters
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
CN113870254B (zh) 目标对象的检测方法、装置、电子设备及存储介质
Avola et al. A shape comparison reinforcement method based on feature extractors and f1-score
JP4802176B2 (ja) パターン認識装置、パターン認識プログラム及びパターン認識方法
WO2022077907A1 (zh) 对抗攻击的检测方法、系统、设备、计算机可读存储介质
Lee et al. Reinforced adaboost learning for object detection with local pattern representations
CN113255752A (zh) 基于特征聚类的固体材料一致性分选方法
Toh Fingerprint and speaker verification decisions fusion
CN114254686A (zh) 对抗样本的识别方法及装置
CN109657577B (zh) 一种基于熵和运动偏移量的动物检测方法
CN110942089B (zh) 一种基于多级决策的击键识别方法
JP7348945B2 (ja) 情報処理方法、および、情報処理システム
CN113793371A (zh) 目标分割追踪方法、装置、电子设备和存储介质
CN113139549A (zh) 一种基于多任务学习的参数自适应全景分割方法
Bhuyan et al. Structure‐aware multiple salient region detection and localization for autonomous robotic manipulation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201201

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210520

R150 Certificate of patent or registration of utility model

Ref document number: 6889279

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117