JP7192109B2 - コンテキスト埋め込みおよび領域ベースの物体検出のための方法および装置 - Google Patents

コンテキスト埋め込みおよび領域ベースの物体検出のための方法および装置 Download PDF

Info

Publication number
JP7192109B2
JP7192109B2 JP2021520139A JP2021520139A JP7192109B2 JP 7192109 B2 JP7192109 B2 JP 7192109B2 JP 2021520139 A JP2021520139 A JP 2021520139A JP 2021520139 A JP2021520139 A JP 2021520139A JP 7192109 B2 JP7192109 B2 JP 7192109B2
Authority
JP
Japan
Prior art keywords
roi
context
final feature
feature map
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021520139A
Other languages
English (en)
Other versions
JP2022504774A (ja
Inventor
ニエ,ジン
Original Assignee
ノキア テクノロジーズ オサケユイチア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オサケユイチア filed Critical ノキア テクノロジーズ オサケユイチア
Publication of JP2022504774A publication Critical patent/JP2022504774A/ja
Application granted granted Critical
Publication of JP7192109B2 publication Critical patent/JP7192109B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Description

様々な実施形態は、一般に、領域ベースの物体検出を実行するための方法および装置に関する。
物体検出はコンピュータビジョンの分野における課題であり、バウンディングボックスを使用したオブジェクトインスタンスのローカライズと認識を目的としている。畳み込みニューラルネットワーク(CNN)に基づく物体検出は、視覚的監視、先進運転支援システム(ADAS)およびヒューマンマシンインタラクション(HMI)の分野で利用できる。
現在の物体検出フレームワークは、2つの主要な流れにグループ化することができ、領域ベースの方法と領域フリーの方法である。領域ベースの検出器の例は、例えば、Y.S.Cao, X.Niu, Y.Douの「Region-based convolutional neural networks for object detection in very high resolution remote sensing images」 In International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery, 2016、 R.Girshickの「Fast r-cnn」 Computer Science, 2015、およびS.Ren, K.He, R.GirshickおよびJ.Sunの「Fast r-cnn: towards real-time object detection with region proposal networks」 in International Conference on Neural Information Processing Systems, 2015, pp.91-99において議論されている。一般に、領域ベースの方法は、物体検出を2つのステップに分割する。第1段階では、領域提案ネットワーク(RPN)が高品質提案を生成する。次に、第2段階では、提案をさらに分類し、領域別サブネットによって回帰させる。一般的に、領域フリーの方法では、位置、スケール、およびアスペクト比での規則的かつ高密度のサンプリングによって物体を検出する。
少なくともいくつかの例示的な実施形態によれば、畳み込みニューラルネットワーク(CNN)を用いて画像内の物体を検出する方法は、CNNによって、画像に基づく複数の参照特徴マップを生成するステップと、それぞれが複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、提案関心領域(ROI)を取得するステップと、少なくとも提案ROIに基づく第1のコンテキストROIを生成するステップであって、第1のコンテキストROIの領域は、提案ROIの領域よりも大きいステップと、提案ROIを複数の最終特徴マップの中から第1の最終特徴マップに割り当てるステップと、第1のコンテキストROIを複数の最終特徴マップの中から第2の最終特徴マップに割り当てるステップであって、第1の最終特徴マップのサイズは、第2の最終特徴マップのサイズと異なるステップと、提案ROIを用いた第1の最終特徴マップのROIプーリング演算を実行することによって第1の最終特徴マップから特徴の第1のセットを抽出するステップと、前記第1のコンテキストROIを用いた前記第2の最終特徴マップのROIプーリング演算を実行することによって前記第2の最終特徴マップから特徴の第2のセットを抽出するステップと、抽出された特徴の第1および第2のセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも1つを決定するステップとを含む。
特徴ピラミッドは、特徴ピラミッドネットワーク(FPN)アーキテクチャに従って複数の参照特徴マップに基づいて生成され得る。
第1のコンテキストROIの領域は、提案ROIの領域の2倍であり得る。
方法は、抽出された特徴の第1および第2のセットを連結するステップをさらに含む場合があり、決定するステップは、抽出された特徴の連結されたセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも1つを決定するステップを含み得る。
方法は、抽出された特徴の連結されたセットをsqueeze―and―excitationブロック(SEB)に適用するステップをさらに含む場合があり、画像に対する物体の位置と物体のクラスとの少なくとも1つは、SEBの出力に基づいて決定される。
方法は、提案ROIに基づく第2のコンテキストROIを生成するステップであって、第2のコンテキストROIの領域は、第1のコンテキストROIの領域よりも大きいステップと、第2のコンテキストROIを複数の最終特徴マップの中から第3の最終特徴マップに割り当てるステップであって、第3の最終特徴マップのサイズは、第1および第2の最終特徴マップのサイズと異なるステップと、第2のコンテキストROIを用いた第1の最終特徴マップのROIプーリングを実行することによって第1の最終特徴マップから第3の特徴のセットを抽出するステップとをさらに含む場合があり、決定するステップは、抽出された特徴の第1、第2および第3のセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも1つを決定するステップを含む。
特徴ピラミッドは、特徴ピラミッドネットワーク(FPN)アーキテクチャに従って複数の参照特徴マップに基づいて生成され得る。
第1のコンテキストROIの領域は、提案ROIの領域の2倍であり、第2のコンテキストROIの領域は、提案ROIの領域の4倍であり得る。
方法は、抽出された特徴の第1、第2および第3のセットを連結するステップをさらに含む場合があり、決定するステップは、抽出された特徴の連結されたセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも1つを決定するステップを含む。
方法は、抽出された特徴の連結されたセットをsqueeze―and―excitationブロック(SEB)に適用するステップをさらに含む場合があり、画像に対する物体の位置と物体のクラスとの少なくとも1つは、SEBの出力に基づいて決定される。
少なくともいくつかの例示的な実施形態によれば、コンピュータ可読媒体は、少なくとも、畳み込みニューラルネットワーク(CNN)によって、物体を含む画像に基づく複数の参照特徴マップを生成するステップと、それぞれが複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、提案関心領域(ROI)を取得するステップと、少なくとも提案ROIに基づく第1のコンテキストROIを生成するステップであって、第1のコンテキストROIの領域は、提案ROIの領域よりも大きいステップと、提案ROIを複数の最終特徴マップの中から第1の最終特徴マップに割り当てるステップと、第1のコンテキストROIを複数の最終特徴マップの中から第2の最終特徴マップに割り当てるステップであって、第1の最終特徴マップのサイズは、第2の最終特徴マップのサイズと異なるステップと、提案ROIを用いた第1の最終特徴マップのROIプーリング演算を実行することによって第1の最終特徴マップから特徴の第1のセットを抽出するステップと、第1のコンテキストROIを用いた第2の最終特徴マップのROIプーリング演算を実行することによって第2の最終特徴マップから特徴の第2のセットを抽出するステップと、抽出された特徴の第1および第2のセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも1つを決定するステップとを装置に実行させるプログラム命令を含む。
特徴ピラミッドは、特徴ピラミッドネットワーク(FPN)アーキテクチャに従って複数の参照特徴マップに基づいて生成され得る。
第1のコンテキストROIの領域は、提案ROIの領域の2倍であり得る。
コンピュータ可読媒体は、少なくとも抽出された特徴の第1および第2のセットを連結するステップを装置にさせるプログラム命令をさらに含む場合があり、決定するステップは、抽出された特徴の連結されたセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも1つを決定するステップを含む。
請求項14のコンピュータ可読媒体は、少なくとも抽出された特徴の連結されたセットをsqueeze―and―excitationブロック(SEB)に適用するステップを装置にさせるプログラム命令をさらに含む場合があり、画像に対する物体の位置と物体のクラスとの少なくとも1つは、SEBの出力に基づいて決定される。
少なくともいくつかの例示的な実施形態によれば、装置は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを含み、少なくとも1つのメモリとコンピュータプログラムコードは、少なくとも1つのプロセッサとともに少なくとも、畳み込みニューラルネットワーク(CNN)によって、物体を含む画像に基づく複数の参照特徴マップを生成するステップと、それぞれが複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、提案関心領域(ROI)を取得するステップと、少なくとも提案ROIに基づく第1のコンテキストROIを生成するステップであって、第1のコンテキストROIの領域は、提案ROIの領域よりも大きいステップと、提案ROIを複数の最終特徴マップの中から第1の最終特徴マップに割り当てるステップと、第1のコンテキストROIを複数の最終特徴マップの中から第2の最終特徴マップに割り当てるステップであって、第1の最終特徴マップのサイズは、第2の最終特徴マップのサイズと異なるステップと、提案ROIを用いた第1の最終特徴マップのROIプーリング演算を実行することによって第1の最終特徴マップから特徴の第1のセットを抽出するステップと、第1のコンテキストROIを用いた第2の最終特徴マップのROIプーリング演算を実行することによって第2の最終特徴マップから特徴の第2のセットを抽出するステップと、抽出された特徴の第1および第2のセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも1つを決定するステップとを装置に実行させる。
特徴ピラミッドは、特徴ピラミッドネットワーク(FPN)アーキテクチャに従って複数の参照特徴マップに基づいて生成され得る。
第1のコンテキストROIの領域は、提案ROIの領域の2倍であり得る。
少なくとも1つのメモリとコンピュータプログラムコードは、少なくとも1つのプロセッサとともに、少なくとも抽出された特徴の第1および第2のセットを連結するステップを装置にさらにさせ、決定するステップは、抽出された特徴の連結されたセットに基づいて、画像に対する物体の位置と物体のクラスとの少なくとも1つを決定するステップを含む。
少なくとも1つのメモリとコンピュータプログラムコードは、少なくとも1つのプロセッサとともに、少なくとも抽出された特徴の連結されたセットをsqueeze―and―excitationブロック(SEB)に適用するステップを装置にさらにさせ、画像に対する物体の位置と物体のクラスとの少なくとも1つは、SEBの出力に基づいて決定される。
少なくともいくつかの例示的な実施形態は、以下に提供される詳細な説明および添付の図面からより完全に理解され、同様の要素は、同様の参照番号によって表され、これは例示としてのみ与えられ、したがって、例示的な実施形態を限定するものではない。
少なくともいくつかの例示的な実施形態に係る監視ネットワーク10の図である。 少なくともいくつかの例示的な実施形態に係る物体検出デバイスの構造例を示す図である。 マルチスケール畳み込みニューラルネットワーク(MS―CNN)検出器の物体検出サブネットワークを示す図である。 少なくともいくつかの実施形態に係るバックボーン畳み込みニューラルネットワーク(CNN)の部分を示す図である。 少なくともいくつかの例示的な実施形態に係る特徴ピラミッドネットワーク(FPN)を示す。 少なくともいくつかの例示的な実施形態に係るコンテキスト埋め込み領域ベース物体検出ネットワーク600の一部の図を示す。 少なくともいくつかの例示的な実施形態に係るコンテキスト埋め込み領域ベース物体検出方法を実行するための例示的なアルゴリズムを示すフローチャートである。
いくつかの例示的な実施形態が示されている添付の図面を参照して、様々な例示的な実施形態をより詳細に説明する。
詳細な例示的実施形態が本明細書に開示される。しかしながら、本明細書に開示される特定の構造的および機能的詳細は、少なくともいくつかの例示的な実施形態を説明する目的のための単なる代表的なものである。しかしながら、例示的な実施形態は、多くの代替形態で実施することができ、本明細書に記載される実施形態のみに限定されるものと解釈されるべきではない。
したがって、例示的な実施形態は、様々な修正および代替の形態が可能であるが、その実施形態は、図における例示として示され、本明細書において詳細に説明される。しかしながら、例示的な実施形態を開示された特定の形態に限定する意図はなく、反対に、例示的な実施形態は、例示的な実施形態の範囲内に入るすべての改変、均等物、および代替物をカバーするものであることを理解されたい。同様の番号は、図の説明全体を通して同様の要素を指す。本明細書で使用される場合、「および/または」という用語は、1つまたは複数の関連する列挙された項目の任意の組み合わせおよびすべての組み合わせを含む。
要素が別の要素に対して「接続された」または「結合された」として参照される場合、それは、他の要素に直接接続または結合され得るか、または介在する要素が存在し得ることが理解される。対照的に、ある要素が別の要素に対して「直接接続される」または「直接結合される」として参照される場合、介在する要素は存在しない。要素間の関係を説明するために使用される他の語も同様に解釈されるべきである(例えば、「間に」に対する「間に直接」、「隣接する」に対する「直接隣接する」等)。
本明細書で使用される用語は、特定の実施形態を説明することのみを目的とし、例示的実施形態を制限することを意図しない。本明細書で使用される場合、単数形は、文脈が他のことを明確に示さない限り、複数形も含むように意図される。「構成する」、「構成している」、「含む」および/または「含んでいる」という用語は、本明細書で使用される場合、説明された特徴、整数、ステップ、操作、要素、および/または構成要素の存在を特定するが、1つまたは複数の他の特徴、整数、ステップ、操作、要素、構成要素、および/またはそれらのグループの存在または追加を排除しないことがさらに理解される。
また、いくつかの代替的な実施において、注目される機能/動作は、図に示される順序でなく起こり得ることに留意されたい。例えば、連続して示される2つの図は、実際には、実質的に同時に実行されてもよく、または、関連する機能/動作に応じて、逆の順序で実行されてもよい。
例示的な実施形態は、適切なコンピューティング環境で実施されるものとして本明細書で議論される。必須ではないが、例示的な実施形態は、1つまたは複数のコンピュータプロセッサまたはCPUによって実行される、プログラムモジュールまたは機能プロセス等のコンピュータ実行可能命令(例えば、プログラムコード)の一般的な文脈で説明される。一般に、プログラムモジュールまたは機能プロセスは、特定のタスクを実行する、または特定の抽象データタイプを実施するルーチン、プログラム、物体、構成要素、データ構造などを含む。
以下の説明において、例示的な実施形態は、特に断らない限り、1つまたは複数のプロセッサによって実行される動作および操作の記号表現(例えば、フローチャートの形式で)を参照して説明される。したがって、このような動作および操作は、コンピュータによって実行されるものと参照されることもあるが、構造化された形式でデータを表す電気信号のプロセッサによる操作を含むことが理解されよう。この操作は、データを変換するか、またはコンピュータのメモリシステム内の位置にデータを維持し、当業者によく理解されるように、コンピュータの動作を再構成または変更する。
1.概要
以下でより詳細に説明するように、少なくともいくつかの実施形態に係るコンテキスト埋め込み領域ベースの物体検出方法は、領域ベース物体検出方法に基づいており、豊富なコンテキスト情報を得るためにコンテキストブランチを埋め込むことを含み、それによって改善された物体検出をもたらす。少なくともいくつかの例示的な実施形態によれば、コンテキスト情報は、小さい物体、ぼやけた物体、および遮断された物体を検出するために有益である。さらに、以下にさらに詳細に説明するように、少なくともいくつかの実施形態に係るコンテキスト埋め込み領域ベースの物体検出方法は、ノイズ情報を低減するか、または代替的に回避するために、コンテキストブランチに関連してスクイーズアンドエクサイテーションブロックを採用する。少なくともいくつかの実施形態によるコンテキスト埋め込み領域ベース物体検出方法は、例えば、視覚監視を含むいくつかの異なる方法で適用することができる。
少なくともいくつかの例示的な実施形態による、コンテキスト埋め込み領域ベース物体検出方法を利用することができる監視ネットワークおよび物体検出デバイス100の例示的な構造は、本開示のセクション2で後述される。次に、物体検出を実行するために特徴ピラミッドおよびコンテキスト埋め込みを使用する例が、本開示のセクション3で議論される。次に、少なくともいくつかの実施形態による、コンテキスト埋め込み領域ベース物体検出方法を実行するための畳み込みニューラルネットワーク(CNN)アーキテクチャおよびアルゴリズムの例を、本開示のセクション4で議論される。さらに、CNNアーキテクチャをトレーニングする方法は、本開示のセクション5で議論される。
2.少なくともいくつかの実施形態に係るコンテキスト埋め込み領域ベース物体検出方法を実装するための構造例
例えば、図1は、少なくともいくつかの例示的な実施形態による監視ネットワーク10の図を示す。図1に示すように、監視ネットワーク10は、物体検出デバイス100および監視システム150を含むことができる。
監視システム150は、各々がカメラの位置の近傍のシーンを表す画像データを取り込む1つまたは複数のカメラを含むことができる。例えば、図1に示すように、監視システム150は、監視シーン154を取り込むカメラ152を含む。カメラ152は、例えば、監視シーン154の複数の時間的に隣接する画像を連続的に取り込むこと(すなわち、ビデオまたは動画データの取り込み)によって、監視シーン154を取り込むことができる。少なくともいくつかの例示的な実施形態によれば、カメラ152は、取り込まれた監視シーン154に対応する画像データ120を物体検出デバイス100に送信する。次に、物体検出デバイス100の構成例について、図2を参照してより詳細に説明する。
図2は、少なくともいくつかの実施形態に係る物体検出デバイス100の構成例を示す図である。
図2において、物体検出デバイス100は、例えば、データバス259、送信部252、受信部254、記憶部256、処理部258を備えてもよい。
送信部252、受信部254、記憶部256、処理部258は、データバス259を用いて互いにデータを送受信してもよい。
送信部252は、ハードウェアと、例えば、制御信号またはデータ信号を含む信号を、1つまたは複数の有線および/または無線接続を介して、無線通信ネットワーク内の1つまたは複数の他のネットワーク要素に送信するために必要な任意のソフトウェアとを含むデバイスである。
受信部254は、ハードウェアと、例えば、無線通信ネットワーク内の1つまたは複数の他のネットワーク要素への1つまたは複数の有線および/または無線接続を介して制御信号またはデータ信号を含む無線信号を受信するために必要な任意のソフトウェアとを含むデバイスである。
記憶部256は、磁気記憶装置、フラッシュ記憶装置などを含むデータを記憶することができる任意のデバイスであってよく、さらに、図示されていないが、記憶部256は、ポート、ドック、ドライブ(例えば、光学ドライブ)、または取り外し可能な記憶媒体(例えば、USBフラッシュドライブ、SDカード、内蔵マルチメディアカード(eMMC)、CD、DVD、およびブルーレイディスクのうちの1つまたは複数)を受け取りおよび/または取り付けるための開口部のうちの1つまたは複数をさらに含んでもよい。
処理部258は、例えばプロセッサを含むデータを処理することができる任意のデバイスであってもよい。
少なくとも1つの例示的な実施形態によれば、物体検出デバイスによって実行されるものとして、図1~図7を参照して本明細書に記載される任意の動作は、図2に示される物体検出デバイス100の構造を有する電子デバイスによって実行されてもよい。例えば、少なくとも1つの例示的な実施形態によれば、物体検出デバイス100は、ソフトウェアおよび/またはハードウェアに関して、物体検出デバイスによって実行されるものとして本明細書に記載される機能のいずれかまたはすべてを実行するようにプログラムされてもよい。したがって、物体検出デバイス100は、ソフトウェアおよび/またはハードウェアプログラミングを介して専用コンピュータとして具体化することができる。
物体検出デバイスによって実行されるものとして、本明細書に記載された機能のいずれかまたはすべてを実行するように、ソフトウェアに関してプログラムされる物体検出デバイス100の例を以下に説明する。例えば、記憶部256は、物体検出デバイスによって実行されるものとして本明細書に記載される操作のいずれかまたはすべてに対応する実行可能命令(例えば、プログラムコード)を含むプログラムを記憶することができる。少なくとも例示的な一実施形態によれば、記憶部256に記憶されることに加えてまたは代替的に、実行可能命令(例えば、プログラムコード)は、例えば光ディスク、フラッシュドライブ、SDカード等を含むコンピュータ可読媒体に記憶されてもよく、物体検出デバイス100は、コンピュータ可読媒体に記憶されたデータを読み取るためのハードウェアを含んでもよい。また、処理部258は、例えば、記憶部256に記憶された実行可能命令(例えば、プログラムコード)と、物体検出デバイス100に含まれるハードウェアにロードされたコンピュータ可読記憶媒体との少なくとも一方を読み出して実行し、コンピュータ可読媒体を読み出すことによって、物体検出デバイスによって実行されるものとして、図1~図4を参照して本明細書で説明した動作のいずれかまたは全てを実行するように構成されたプロセッサであってもよい。
物体検出デバイスによって実行されるものとして本明細書に記載された機能のいずれかまたはすべてを実行するようにハードウェアに関してプログラムされている物体検出デバイス100の例を以下に説明する。上述するように記憶部またはコンピュータ可読媒体によって記憶される物体検出デバイスによって実行されるものとして図1~図7を参照して説明された機能に対応する実行可能命令(例えば、プログラムコード)に加えて、または代替的に、処理部258は、物体検出デバイスによって実行されるように、図1~図6を参照して本明細書に記載される動作のいずれかまたは全てを実行するために専用の構造設計を有する回路(例えば、集積回路)を含んでもよい。例えば、処理部258に含まれる上述した回路は、特定の回路設計を通じて物理的にプログラムされたFPGAまたはASICであってもよく、物体検出デバイスによって実行されるように、図1~図7を参照して説明した動作のいずれかまたは全てを実行する。
少なくともいくつかの例示的な実施形態によれば、物体検出デバイス100は、コンテキスト埋め込みを使用して領域ベース物体検出を実行し、その結果、他の物体検出方法を参照して、小さい物体、ぼやけた物体、および遮蔽された物体に関する物体検出性能を向上させるとともに、複数のスケールで物体を検出することも可能である。いくつかの他の物体検出方法によって使用される2つの特徴、特徴ピラミッドおよび埋め込みコンテキストは、以下のセクション3でより詳細に議論される。
3.特徴ピラミッドおよび埋め込みコンテキスト
例えば、いくつかの物体検出方法は、複数のレベル(すなわち、複数のスケール)の特徴マップを含む特徴ピラミッドを利用する。例えば、領域ベース検出器すなわちマルチスケールCNN(MS―CNN)は、異なるスケールの領域提案を生成するために、異なる空間分解能の畳み込み層を使用する。しかし、MS―CNN検出器の異なる層は矛盾した意味をもつ場合がある。MS―CNNの例は、例えば、Z. Cai, Q. Fan, R.S.Feris, and N.Vasconcelos「A unified multi-scale deep convolutional neural network for fast object detection」 European Conference on Computer Vision Springer, Cham, 2016で論じられている。
さらに、領域提案を生成するために特徴ピラミッドを使用することに加えて、MS―CNN検出器は、コンテキスト埋め込みを利用する物体検出サブネットワークも含む。図3は、MS―CNN検出器の物体検出サブネットワーク300を示す。図3に示すように、MS―CNN物体検出サブネットワーク300は、トランクCNN層310と、conv4―3畳み込み層に対応する第1特徴マップ320と、第1特徴マップ320に対して逆畳み込み演算を実行した結果得られるconv4―3―2x畳み込み層に対応する第2特徴マップ330とを含み、第2特徴マップ330は、第1特徴マップ320の拡大版である。図3に示す例では、第1特徴マップ320は、ディメンションH/8×W/8×512を有し、第2特徴マップ330は、ディメンションH/4×W/4×512を有する、ここで、Hは、MS―CNN検出器に最初に入力された入力画像の高さであり、Wは、入力画像の幅である。
図3に示すように、第2特徴マップ330内には、第1領域334A(すなわち、第2特徴マップ330内に図示された最も内側の立方体)および第2領域332A(すなわち、第1領域334Aを取り囲むように第2特徴マップ330内に示される立方体)が存在する。第2領域332Aは、第1領域334Aを拡大したものであり、第1領域334Aの1.5倍の大きさである。さらに、図3にも示されるように、第1領域334Aに対応する第2特徴マップ330の特徴は、ROIプーリングによって、7×7×512のディメンションを有する第1固定ディメンション特徴マップ334Bに縮小される。さらに、第2領域332Aに対応する第2特徴マップ330の特徴は、ROIプーリングによって、同じくディメンション7×7×512を有する第2固定ディメンション特徴マップ332Bに縮小される。図3に示されるように、MS―CNN物体検出サブネットワーク300は、第1および第2固定ディメンション特徴マップ334Bおよび332Bを連結し、得られた特徴マップを、ディメンション5×5×512を有する第3固定ディメンション特徴マップ340Bに縮小し、第3固定ディメンション特徴マップ340Bの特徴を、クラス確率370およびバウンディングボックス360を決定するために、全結合層350に供給する。拡大された第2領域332Aを第1領域334Aとともに使用することによって、MS―CNN検出器は、MS―CNN検出器に含まれる特徴ピラミッドの高レベルのコンテキスト情報を埋め込もうとする。しかしながら、拡大された第2領域332Aおよび第1領域334Aは両方とも特徴ピラミッドの同じレベル(すなわち、conv4―3―2x層)にマッピングされるので、拡大された第2領域332Aに対応するコンテキスト情報の豊富さは制限され得る。
対照的に、図4~図6を参照して以下に説明されるように、本明細書に開示される少なくともいくつかの実施形態に係るコンテキスト組み込み領域ベース物体検出方法は、コンテキストブランチを埋め込むことを含み、提案関心領域(RoI)に対応する特徴および1つまたは複数の拡大されたRoIに対応するコンテキスト情報が特徴ピラミッドの複数のレベルから抽出される。したがって、抽出されたコンテキスト情報の豊富さは、MS―CNN検出器のコンテキスト情報に対して改善され、したがって、少なくともいくつかの例示的な実施形態によるコンテキスト埋め込み領域ベース物体検出方法の物体検出性能も改善され得る。
少なくともいくつかの例示的な実施形態による、コンテキスト埋め込み領域ベース物体検出方法を実行するための畳み込みニューラルネットワーク(CNN)アーキテクチャおよびアルゴリズムの例を、本開示のセクション4で説明する。
4.少なくともいくつかの実施形態に係るコンテキスト埋め込み領域ベースの物体検出方法を実装するためのCNNアーキテクチャおよびアルゴリズム例
少なくともいくつかの例示的な実施形態によれば、図4~図7を参照して後述するCNN構造およびアルゴリズムは、図1および図2を参照して上述した物体検出デバイス100によって実施することができる。したがって、図4~図7を参照して後述するいずれかまたはすべての動作が、物体検出デバイス100(すなわち、処理部258)によって実行または制御されてもよい。
少なくともいくつかの例示的な実施形態によれば、コンテキスト埋め込み領域ベース物体検出方法を実施するためのCNNアーキテクチャは、領域提案ネットワーク(RPN)およびコンテキスト埋め込み領域ベース物体検出ネットワークの一方または両方を実施するために共に使用され得る、バックボーンCNNおよび特徴ピラミッドネットワーク(FPN)を含むことができる。
例えば、図4は、少なくともいくつかの実施例によるバックボーンCNN400の一部を示す。さらに、バックボーンCNN400として機能し得るCNNの一タイプは、残余ネットワークCNN(すなわち、ResNet)であり、その例(ResNet36およびResNet50を含む)は、例えば、K He, X Zhang, S Ren, J Sun, 「Deep Residual Learning for Image Recognition」 Proc. IEEE Computer Vision and Pattern Recognition, 2016に記載されている。簡略化のために、図4に示すバックボーンCNN400の構造は、ResNet36CNNの構造である。しかしながら、少なくともいくつかの実施例によれば、バックボーンCNN400は、ResNet50CNNによって実施される。さらに、バックボーンCNN400は、ResNet36CNNおよびResNet50CNNに限定されない。少なくともいくつかの例示的な実施例によれば、バックボーンCNN400は、異なるスケールを有する複数の特徴マップを生成する任意のCNNによって実施することができる。
図4に示すように、バックボーンCNN400をResNetで実施する場合、バックボーンCNN400は、複数の参照特徴マップをそれぞれ出力する複数の畳み込み層を含んでもよい。例えば、図4に示すバックボーンCNN400は、第1畳み込み層conv1_x(不図示)と、第2参照特徴マップC2を出力する第2畳み込み層conv2_xと、第3参照特徴マップC3を出力する第3畳み込み層conv3_xと、第4参照特徴マップC4を出力する第4畳み込み層conv4_xと、第5参照特徴マップC5を出力する第5畳み込み層conv5_xとを含む。以下で詳細に説明するように図5を参照すると、参照特徴マップC2、C3、C4およびC5は、FPNの基礎を形成することができる。
図5は、少なくともいくつかの例示的な実施形態によるFPN500を示す。FPN500は、バックボーンCNN400の参照特徴マップ(例えば、第2から第5の参照特徴マップC2~C5)に基づいて構成することができる。例えば、FPNの例は、T. Lin、P. Dollar, R. Girshick, K. He, B. Hariharan and S. Belongie 「Feature Pyramid Networks for Object Detection」 Proc. IEEE Computer Vision and Pattern Recognition, 2017、T. Kong, F. Sun, A. Yao, H Liu, M. Lu, and Y. Chen, 「Ron: Reverse connection with objectness prior networks for object detection」 Proc. IEEE Computer Vision and Pattern Recognition, 2017およびLin T Y, Goyal P, Girshick R, et al.,「Focal Loss for Dense Object Detection」 Proc. IEEE Computer Vision and Pattern Recognitionにおいて議論されている。図4を参照して上述したMS―CNN検出器のマルチスケール特徴マップとは対照的に、FPN500はトップダウンアーキテクチャを採用して、あらゆるスケールで高レベルの意味特徴マップを含む特徴ピラミッドを作成する。例えば、FPN500は、参照特徴マップCk0+2、Ck0+1、Ck0、Ck0-1、Ck0-2にそれぞれ対応する最終特徴マップPk0+2、Pk0+1、Pk0、Pk0-1、Pk0-2を作成し、ここでk0は定数であり、その値は、例えば、物体検出デバイス100の設計者および/またはユーザの好みに従って設定することができる。定数k0については、式1と図6および図7を参照して以下により詳細に説明する。さらに、図6および図7を参照して以下により詳細に説明するように、FPN500によって生成された最終特徴マップPは、領域提案およびコンテキスト埋め込み領域ベース物体検出の一方または両方に使用することができる。
図6は、少なくともいくつかの例示的な実施形態による、コンテキスト埋め込み領域ベース物体検出ネットワーク600の一部の図を示す。図7は、少なくともいくつかの実施形態によるコンテキスト埋め込み領域ベース物体検出方法を実行するための例示的なアルゴリズムを示すフローチャートである。少なくともいくつかの例示的な実施形態による、コンテキスト埋め込み領域ベース物体検出方法を実行するための例示的なアルゴリズムを、物体検出デバイス100によって実行され、物体検出デバイス100がバックボーンCNN400、FPN500、および物体検出ネットワーク600を実施する(すなわち具体化する)例示的なシナリオに関して、図4から図7を参照して説明する。したがって、図4~図7に関してバックボーンCNN400、FPN500、または物体検出ネットワーク600、またはその要素によって実行されるように説明された動作は、物体検出デバイス100によって実行されてもよい(例えば、物体検出デバイス100の処理部258が、バックボーンCNN400、FPN500、および物体検出ネットワーク600の動作に対応するコンピュータ可読プログラムコードを実行することによって)。
また、説明を簡略化かつ容易にするために、図7では、入力画像に含まれる単一物体の検出について説明する。しかしながら、少なくともいくつかの実施形態に係るコンテキスト埋め込み領域ベース物体検出方法を実行するためのアルゴリズムは、1つの物体のみを含む画像を受信することに限定されず、1つの物体のみを検出することにも限定されない。入力画像はいくつかの物体を含むことができ、このアルゴリズムは様々なクラス、位置およびスケールのいくつかの物体を同時に検出することができる。
図7を参照して、ステップS710において、物体検出デバイス100は、物体を含む入力画像を受信する。本発明の概念の少なくとも例示的な一実施形態によれば、物体検出デバイス100は、図1を参照して上述したように、監視システム150から受信された画像データ120の一部として入力画像を受信することができる。物体検出デバイス100は、入力画像を受信した後、受信画像をバックボーンCNN400への入力として適用することができる。ステップS710の後、物体検出デバイス100は、ステップS720に進む。
ステップS720において、物体検出デバイス100は、参照特徴マップを生成してもよい。例えば、物体検出デバイス100は、バックボーンCNN400を用いて、ステップS710で受信した入力画像に基づいて、複数の参照特徴マップを生成してもよい。
例えば、ステップS720において、バックボーンCNN400の第2畳み込み層から第5畳み込み層(conv2_x、conv3_x、conv4_x、conv5_x)は、それぞれ第2参照特徴マップから第5参照特徴マップ(C2、C3、C4、C5)を生成することができる。参照特徴マップ(C2、C3、C4、C5)はそれぞれ、第2参照特徴マップC2から第5参照特徴マップC5まで減少する異なるサイズ/スケールを有することができる。ステップS720の後、物体検出デバイス100は、ステップS730に進む。
ステップS730において、物体検出デバイス100は、FPNを使用して、最終特徴マップを含む特徴ピラミッドを生成することができる。例えば、物体検出デバイス100は、ステップS720で生成された複数の参照特徴マップにそれぞれ対応する複数の最終特徴マップを含む特徴ピラミッドを生成してもよい。
例えば、図5に示されたFPN500を参照して上述したように、ステップS720において、FPN500は、第1から第5の最終特徴マップ、およびオプションとして、追加の第6の最終特徴マップ(P2、P3、P4、P5、P6)を生成することができる。第1から第5最終特徴マップ(P2、P3、P4、P5)は、それぞれ、ステップS720において生成された第1から第5の参照特徴マップ(C2、C3、C4、C5)に対応する。第6の最終特徴マップP6は、例えば、T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, 「Feature Pyramid Networks for Object Detection」Proc. IEEE Computer Vision and Pattern Recognition, 2017において説明されているように、例えば、第5最終特徴マップP5のストライド2サブサンプリングを実行することによって、第5最終特徴マップP5に基づいてFPN500によって生成することができる。最終特徴マップ(P2、P3、P4、P5、P6)は、それぞれ、第2最終特徴マップP2から第6最終特徴マップP6まで減少する異なるサイズ/スケールを有することができ。ステップS730の後、物体検出デバイス100は、ステップS740に進む。
ステップS740において、物体検出デバイス100は、提案関心領域(RoIまたはROI)を取得し、1つまたは複数のコンテキストRoIを生成する。
例えば、少なくともいくつかの例示的な実施形態によれば、物体検出デバイス100は、提案RoIを外部ソースから取得することができる。あるいは、物体検出デバイス100は、FPN500に基づいて領域提案ネットワーク(RPN)を実施し、FPNベースRPNを使用して提案RoIを生成することによって、提案RoIを取得してもよい。
例えば、少なくともいくつかの例示的な実施形態によれば、図5に示されるようなFPN500によって生成される最終特徴マップPk0+2、Pk0+1、Pk0、Pk0-1、Pk0―2を使用して、FPNベースRPNを実施することができる。当業者であれば、FPNベースRPNを実施する例示的な方法が、T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie、「Feature Pyramid Networks for Object Detection」 Proc. IEEE Computer Vision and Pattern Recognition, 2017に記載されていることを理解するであろう。例えば、k0=4の場合、FPN500は、第2から第6最終特徴マップP2、P3、P4、P5およびP6を生成する。第6最終特徴マップP6は、第5最終特徴マップP5に基づいて、ステップS730を参照して上述したのと同じ方法で生成することができる。さらに、領域提案を生成するために、FPNベースRPNは、5つの異なる最終特徴マップ(P2、P3、P4、P5、P6)で使用されるアンカーがそれぞれ5つの異なる領域(32、64、128、256、512)を有するように、第2から第6最終特徴マップP2~P6の各々に対して3つの異なるアスペクト比(1:2、1:1、2:1)のアンカーを使用することができる。
したがって、ステップS740において、物体検出デバイス100は、提案RoIを受信するか、提案RoIを生成するかの一方によって、提案RoIを取得できる。
さらに、ステップS740において、取得された提案RoIに基づいて、物体検出デバイス100は、提案RoIを拡大することにより、1つまたは複数のコンテキストRoIを取得してもよい。例えば、図6は、入力画像605、提案RoI610、および第1および第2コンテキストRoI615Aおよび615Bを示す。本発明の概念の少なくともいくつかの例示的な実施形態によれば、物体検出ネットワーク600は、提案RoI610の領域(すなわち、w×h)を係数s1だけ拡大することによって第1コンテキストRoI615Aを生成し、物体検出ネットワーク600は、提案RoI610の領域(すなわち、w×h)を係数s2だけ拡大することによって第2コンテキストRoI615Bを生成する。ここで、「w」は入力画像605の幅であり、「h」は入力画像605の高さであり、s1およびs2は両方とも1より大きい正の数である。図6に示す例では、s1=2、s2=4である。さらに、少なくともいくつかの例示的な実施形態によれば、物体検出ネットワーク600は、コンテキストRoIが提案RoIと同心円状であるように、提案RoIを拡大することによって生成されるコンテキストRoIの座標を決定することができる。
さらに、ステップS740は、説明を簡略化かつ容易にするために、「1つの提案RoI」を得るものとして説明される。しかしながら、少なくともいくつかの例示的な実施形態に係るコンテキスト埋め込み領域ベース物体検出方法を実行するためのアルゴリズムは、一度に1つのRoIだけ、または1つのRoIだけを取得することに限定されない。例えば、物体検出デバイス100は、ステップS740において、位置、スケールおよびアスペクト比が変化する複数のRoIを同時に取得することができる。
さらに、ステップS740は、2つのコンテキストRoI(すなわち、提案RoI610の2つの拡大版)が生成される例示的なシナリオを参照して上述されているが、少なくともいくつかの例示的な実施形態によれば、任意の数のコンテキストRoI(例えば、1、3、5等)が、提案RoI610を拡大することによって生成されてもよい。ステップS740の後、物体検出デバイス100は、ステップS750に進む。
ステップS750において、物体検出デバイス100は、提案RoIおよび1つまたは複数のコンテキストRoIを最終特徴マップに割り当てる。例えば、ステップS750において、物体検出デバイスは、提案RoI610、第1コンテキストRoI615A、および第2コンテキストRoI615Bを最終特徴マップ、例えば、ステップS730において生成された最終特徴マップ(P2、P3、P4、P5、P6)の中からの最終特徴マップに割り当てることができる。
例えば、上記参照の割り当てを実行するために、物体検出デバイス100は、以下の式を使用することができる。
Figure 0007192109000001
式1において、「w」は幅を表し、「h」は高さを表し、k0は定数であり、その値は、例えば、物体検出デバイス100の設計者および/またはユーザの好みに従って設定することができる。k0を設定するための追加の詳細はドキュメント(6)で議論されている。図6に示す例のシナリオでは、k0=4である。これは、k0が224の領域(すなわちw*h=224)に相当することを意味する。式1は、例えば、T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, 「Feature Pyramid Networks for Object Detection」 Proc. IEEE Computer Vision and Pattern Recognition, 2017において議論されている。
提案RoI610、第1コンテキストRoI615Aおよび第2コンテキストRoI615Bのそれぞれについて、物体検出デバイス100は、上記の式1にRoIの幅「w」および高さ「h」を適用して出力kを手に入れ、RoIをk番目の最終特徴マップPkに割り当てることができる。例えば、図6に示すシナリオ例では、提案RoI610の幅wおよび高さhが式1に適用される場合、k=3である。したがって、物体検出ネットワーク600は、図6に示すように、提案RoI610を第3最終特徴マップP3に割り当てる。同様に、第1および第2コンテキストRoI615Aおよび615Bの幅wおよび高さhが式1に適用される場合、それぞれk=4および5である。したがって、物体検出ネットワーク600は、図6に示すように、第1および第2のコンテキストRoI615Aおよび615Bを、それぞれ第4および第5最終特徴マップP4およびP5に割り当てる。ステップS750の後、物体検出デバイス100は、ステップS760に進む。
ステップS760において、物体検出デバイス100は、RoIプーリングを用いて、RoIが割り当てられた各最終特徴マップから特徴のセットを抽出する。例えば、ステップS760において、物体検出デバイス100によって具現化された物体検出ネットワーク600は、提案RoI610および提案RoI610が割り当てられた最終特徴マップに関してRoIプーリングを実行することができる。具体的には、提案RoI610に対して、物体検出ネットワーク600は、提案RoI610が割り当てられた最終特徴マップ(すなわち、第3最終特徴マップP3)で、提案RoI610に含まれる第3最終特徴マップP3の特徴をRoIプーリング演算によってプールし、固定サイズの元の特徴マップ620を生成する。したがって、固定サイズの元の特徴マップ620は、最初に提案された提案RoI610に基づいて第3最終特徴マップP3から抽出された特徴のセットである。
さらに、ステップS760において、物体検出ネットワーク600は、第1コンテキストRoI615Aおよび第2コンテキストRoI615Bに対してRoIプーリングを実行することによってコンテキストブランチ630を形成し、第1コンテキストRoI615Aおよび第2コンテキストRoI615Bが割り当てられた最終特徴マップを生成する。具体的には、物体検出ネットワーク600は、第1および第2コンテキストRoI615A、615Bに関してそれぞれ第1および第2コンテキストRoI615A、615Bが割り当てられた最終特徴マップ(すなわち第4および第5最終特徴マップP4およびP5)に対して、第1コンテキストRoI615Aに該当する第4最終特徴マップP4の特徴をRoIプーリング演算によってプールして第1固定サイズのコンテキスト特徴マップ632を生成し、第2コンテキストRoI615Bに該当する第5最終特徴マップP5の特徴をRoIプーリング演算によってプールして第2固定サイズのコンテキスト特徴マップ634を生成する。したがって、第1固定サイズコンテキスト特徴マップ632は、第1コンテキストRoI615Aに基づいて第4最終特徴マップP4から抽出された特徴のセットであり、第2固定サイズコンテキスト特徴マップ634は、第2コンテキストRoI615Bに基づいて第5最終特徴マップP5から抽出された特徴のセットである。
少なくともいくつかの例示的な実施形態によれば、ステップS750を参照して上述したRoIプーリング演算は、R. Girshick, 「Fast r-cnn」 Computer Science, 2015の文書において論じられているRoIプーリング層の演算を用いることによって実行され得る。あるいは、少なくともいくつかの例示的な実施形態によれば、ステップS750を参照して上述したRoIプーリング演算は、RoIアライン層の動作を使用して実行することができる。RoIアライン層の例は、例えば、K. He, G. Gkioxari, P. Dollar, R. Girshick, 「Mask R-CNN」 In ICCV 2018に記載されている。ステップS760の後、物体検出デバイス100は、ステップS770に進む。
物体検出デバイス100は、ステップS770において、画像に含まれる物体のクラスおよび/または位置を決定する。例えば、ステップS770において、物体検出ネットワーク600は、図6に示すように、第1および第2固定サイズコンテキスト特徴マップ632および634を固定サイズの元の特徴マップ620に連結して、連結された特徴マップ625を形成することにより、コンテキスト埋め込みを行うことができる。
さらに、図3に関して上述したMS―CNN物体検出サブネットワーク300とは対照的に、物体検出ネットワーク600は、連結された特徴マップ625に含まれる特徴の全てが、同じ畳み込み層または特徴ピラミッド(P2、P3、P4、P5、P6)の同じ層から抽出されたものではないので、より豊富なコンテキスト特徴および改善された物体検出結果を得ることができる。
図6にも示されているように、物体検出ネットワーク600は、スクイーズアンドエクサイテーション(SE)ブロック640を含み、例えばチャネル毎の特徴応答を再較正することによって、ノイズ情報を低減または代替的に除去するために、連結された特徴マップ625をSEブロック640に適用することができる。SEブロック640は、スクイーズアンドエクサイテーションの2つのステップを含む。第1のステップは、グローバル空間情報をチャネル記述子にスクイーズすることである。これは、グローバル平均プーリングを使用してチャネル単位の統計情報を生成することで実現される。第2のステップは適応再較正である。例えば、SEブロック640は、全結合層fc1と、それに続く整流された線形ユニット(ReLU)とを含むことができ、その出力は、1×1×C´のディメンションを有する。さらに、SEブロック640は、別の全結合層fc2の後にシグモイドを含む場合があり、その出力は1×1×C(ここで、通常はC´=C/16)のディメンションを有し、図6に示されるように、例えば、チャネルごとの乗算を介して、連結された特徴マップ625の初期特徴を再スケールするために使用される。SEブロックを構築および使用するための例示的な構造および方法は、例えば、Hu, Jie, Li Shen, and Gang Sun, 「squeeze-and-excitation networks」 arXiv:1709.01507, 2017に記載されている。
次に、SEブロック640の出力を用いて、入力画像605に含まれる物体のクラスおよびバウンディングボックス(すなわち、位置)が決定され、クラス確率値660およびバウンディングボックス値670が生成される。例えば、SEブロック640の出力は、クラス確率値(または、クラスラベル)660およびバウンディングボックス値670を生成するために、別の全結合層650に適用され得る。
物体検出では、バウンディングボックスを使用してどこに物体があるかを正確に特定し、物体に正しいクラスラベルを割り当てる。ステップS710において、画像パッチまたはビデオのフレームが入力画像として使用される場合、クラス確率値660およびバウンディングボックス値670は、図4~図7を参照して上述したコンテキスト埋め込み領域ベースの物体検出方法の物体検出結果である。
図1に関して上述したように、図4~図7を参照して上述したコンテキスト埋め込み領域ベースの物体検出方法の少なくともいくつかの実施形態は、自律運転システムおよびビデオ監視を含む広範な機能に適用することができる。例えば、図1を参照すると、監視ネットワーク10のカメラ152が地下鉄駅の入口に配置されている場合、図4~図7を参照して上述したコンテキスト埋め込み領域ベース物体検出方法を実施する物体検出デバイス100は、地下鉄を通る歩行者の流れをカウントするのに役立つ。加えて、監視ネットワーク10のカメラ152が市場に配置される場合、少なくともいくつかの実施形態によるコンテキスト埋め込み領域ベース物体検出方法を実施する物体検出デバイス100は、市場における顧客の数をカウントするのに役立ち、これにより、例えば、安全上の理由から、市場の所有者または運営者が多数の顧客を管理することが可能になる。
さらに、少なくともいくつかの実施形態によるコンテキスト埋め込み領域ベース物体検出方法は、拡大されたRoI(例えば、第1および第2コンテキストRoI615Aおよび615B)を用いてより多くのコンテキスト情報を得るために、元のRoI(例えば、提案RoI610)のサイズを拡大することを含む。さらに、拡大されたRoIは、元のRoIとは異なる特徴マップにマッピングされ、それによって、拡大されたRoIを介して得られるコンテキスト情報の表現力が高められる。このように、得られたコンテキスト情報は、入力画像中の小さくて隠れた物体を検出するタスクに有益である。
図4~図7を参照して上述したコンテキスト埋め込み領域ベース物体検出方法を実行するためにCNNアーキテクチャをトレーニングする方法の例を、以下のセクション5で説明する。
5.トレーニング方法例
図4~図7を参照して上述したコンテキスト埋め込み領域ベース物体検出方法を実行するためのCNNアーキテクチャは、例えば、様々な畳み込み層(例えば、図4に示すバックボーンCNN400の第1から第5畳み込み層conv1_x~conv5_xのフィルタ等)において使用されるフィルタの様々な値を設定するために、公知のCNNトレーニング技術に従ってトレーニングすることができる。
トレーニング段階を開始するために、適切な損失関数が設計される。物体検出のタスクには、マルチタスク損失関数を使用することができる。マルチタスク損失関数の例は、例えば、Lin T Y, Goyal P, Girshick R, et al., 「Focal Loss for Dense Object Detection」 Proc. IEEE Computer Vision and Pattern Recognition, 2017において議論されている。さらに、少なくともいくつかの例示的な実施形態によれば、トレーニングは、コンテキスト内共通オブジェクト(COCO)トレインおよびval―minus―minivalデータセットを訓練データとして使用することによって実行されてもよい。逆伝搬法を用いて、上記参照フィルタのパラメータは、確率的勾配降下(SGD)アルゴリズムによって収束するまで繰り返し更新される。
このように説明される例示的な実施形態は、実施形態が多くの点で異なることが明らかである。そのような変形は、例示的な実施形態からの逸脱とみなされるべきではなく、そのような修正はすべて、例示的な実施形態の範囲内に含まれることが意図される。

Claims (15)

  1. 畳み込みニューラルネットワーク(CNN)を用いて画像内の物体を検出する方法であって、
    前記CNNによって、前記画像に基づく複数の参照特徴マップを生成するステップと、
    それぞれが前記複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、
    提案関心領域(ROI)を取得するステップと、
    少なくとも前記提案ROIに基づく第1のコンテキストROIおよび第2のコンテキストROIを生成するステップであって、前記第1のコンテキストROIの領域は、前記提案ROIの領域よりも大きく、前記第2のコンテキストROIの領域は、前記第1のコンテキストROIの前記領域よりも大きいステップと、
    前記提案ROIを前記複数の最終特徴マップの中から第1の最終特徴マップに割り当てるステップと、
    前記第1のコンテキストROIを前記複数の最終特徴マップの中から第2の最終特徴マップに割り当て、前記第2のコンテキストROIを前記複数の最終特徴マップの中から第3の最終特徴マップに割り当てるステップであって、前記第1の最終特徴マップのサイズと、前記第2の最終特徴マップのサイズと、前記第3の最終特徴マップのサイズとは、互いに異なるステップと、
    前記提案ROIを用いた前記第1の最終特徴マップのROIプーリング演算を実行することによって前記第1の最終特徴マップから特徴の第1のセットを抽出するステップと、
    前記第1のコンテキストROIを用いた前記第2の最終特徴マップのROIプーリング演算を実行することによって前記第2の最終特徴マップから特徴の第2のセットを抽出するステップと、
    前記第2のコンテキストROIを用いた前記第3の最終特徴マップのROIプーリング演算を実行することによって前記第3の最終特徴マップから特徴の第3のセットを抽出するステップと、
    抽出された特徴の前記第1のセットと、前記第2のセットと、前記第3のセットとに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも1つを決定するステップとを含む方法。
  2. 前記特徴ピラミッドは、特徴ピラミッドネットワーク(FPN)アーキテクチャに従って前記複数の参照特徴マップに基づいて生成されることを特徴とする請求項1に記載の方法。
  3. 前記第1のコンテキストROIの前記領域は、前記提案ROIの前記領域の2倍であり、前記第2のコンテキストROIの前記領域は、前記提案ROIの前記領域の4 倍であることを特徴とする請求項1に記載の方法。
  4. 抽出された特徴の前記第1のセットと、第2のセットと、前記第3のセットとを連結するステップをさらに含み、
    前記決定するステップは、抽出された特徴の前記連結されたセットに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも1つを決定するステップを含むことを特徴とする請求項1に記載の方法。
  5. 抽出された特徴の前記連結されたセットをスクイーズアンドエクサイテーションブロック(SEB)に適用するステップをさらに含み、
    前記画像に対する前記物体の位置と前記物体のクラスとの前記少なくとも1つは、前記SEBの出力に基づいて決定されることを特徴とする請求項4に記載の方法。
  6. 少なくとも、
    畳み込みニューラルネットワーク(CNN)によって、物体を含む画像に基づく複数の参照特徴マップを生成するステップと、
    それぞれが前記複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、
    提案関心領域(ROI)を取得するステップと、
    少なくとも前記提案ROIに基づく第1のコンテキストROIおよび第2のコンテキストROIを生成するステップであって、前記第1のコンテキストROIの領域は、前記提案ROIの領域よりも大きく、前記第2のコンテキストROIの領域は、前記第1のコンテキストROIの前記領域よりも大きいステップと、
    前記提案ROIを前記複数の最終特徴マップの中から第1の最終特徴マップに割り当てるステップと、
    前記第1のコンテキストROIを前記複数の最終特徴マップの中から第2の最終特徴マップに割り当て、前記第2のコンテキストROIを前記複数の最終特徴マップの中から第3の最終特徴マップに割り当てるステップであって、前記第1の最終特徴マップのサイズと、前記第2の最終特徴マップのサイズと、前記第3の最終特徴マップのサイズとは、互いに異なるステップと、
    前記提案ROIを用いた前記第1の最終特徴マップのROIプーリング演算を実行することによって前記第1の最終特徴マップから特徴の第1のセットを抽出するステップと、
    前記第1のコンテキストROIを用いた第2の最終特徴マップのROIプーリング演算を実行することによって前記第2の最終特徴マップから特徴の第2のセットを抽出するステップと、
    前記第2のコンテキストROIを用いた前記第3の最終特徴マップのROIプーリング演算を実行することによって前記第3の最終特徴マップから特徴の第3のセットを抽出するステップと、
    抽出された特徴の前記第1のセットと、前記第2のセットと、前記第3のセットとに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも1つを決定するステップとを装置に実行させるプログラム命令を含むコンピュータ可読媒体。
  7. 前記特徴ピラミッドは、特徴ピラミッドネットワーク(FPN)アーキテクチャに従って前記複数の参照特徴マップに基づいて生成されることを特徴とする請求項に記載のコンピュータ可読媒体。
  8. 前記第1のコンテキストROIの前記領域は、前記提案ROIの前記領域の2倍であり、前記第2のコンテキストROIの前記領域は、前記提案ROIの前記領域の4 倍であることを特徴とする請求項に記載のコンピュータ可読媒体。
  9. 少なくとも抽出された特徴の前記第1のセットと、第2のセットと、前記第3のセットとを連結するステップを装置にさせるプログラム命令をさらに含み、
    前記決定するステップは、抽出された特徴の前記連結されたセットに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも1つを決定するステップを含むことを特徴とする請求項に記載のコンピュータ可読媒体。
  10. 少なくとも抽出された特徴の前記連結されたセットをスクイーズアンドエクサイテーションブロック(SEB)に適用するステップを装置にさせるプログラム命令をさらに含み、
    前記画像に対する前記物体の位置と前記物体のクラスとの前記少なくとも1つは、前記SEBの出力に基づいて決定されることを特徴とする請求項に記載のコンピュータ可読媒体。
  11. 少なくとも1つのプロセッサと、
    コンピュータプログラムコードを含む少なくとも1つのメモリとを含む装置であって、前記少なくとも1つのメモリと前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに
    少なくとも
    畳み込みニューラルネットワーク(CNN)によって、物体を含む画像に基づく複数の参照特徴マップを生成するステップと、
    それぞれが前記複数の参照特徴マップに対応する複数の最終特徴マップを含む特徴ピラミッドを生成するステップと、
    提案関心領域(ROI)を取得するステップと、
    少なくとも前記提案ROIに基づく第1のコンテキストROIおよび第2のコンテキストROIを生成するステップであって、前記第1のコンテキストROIの領域は、前記提案ROIの領域よりも大きく、前記第2のコンテキストROIの領域は、前記第1のコンテキストROIの前記領域よりも大きいステップと、
    前記提案ROIを前記複数の最終特徴マップの中から第1の最終特徴マップに割り当てるステップと、
    前記第1のコンテキストROIを前記複数の最終特徴マップの中から第2の最終特徴マップに割り当て、前記第2のコンテキストROIを前記複数の最終特徴マップの中から第3の最終特徴マップに割り当てるステップであって、前記第1の最終特徴マップのサイズと、前記第2の最終特徴マップのサイズと、前記第3の最終特徴マップのサイズとは、互いに異なるステップと、
    前記提案ROIを用いた前記第1の最終特徴マップのROIプーリング演算を実行することによって前記第1の最終特徴マップから特徴の第1のセットを抽出するステップと、
    前記第1のコンテキストROIを用いた前記第2の最終特徴マップのROIプーリング演算を実行することによって前記第2の最終特徴マップから特徴の第2のセットを抽出するステップと、
    前記第2のコンテキストROIを用いた前記第3の最終特徴マップのROIプーリング演算を実行することによって前記第3の最終特徴マップから特徴の第3のセットを抽出するステップと、
    抽出された特徴の前記第1のセットと、第2のセットと、前記第3のセットとに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも1つを決定するステップとを前記装置に実行させることを特徴とする装置。
  12. 前記特徴ピラミッドは、特徴ピラミッドネットワーク(FPN)アーキテクチャに従って前記複数の参照特徴マップに基づいて生成されることを特徴とする請求項11に記載の装置。
  13. 前記第1のコンテキストROIの前記領域は、前記提案ROIの前記領域の 倍であり、前記第2のコンテキストROIの前記領域は、前記提案ROIの前記領域の4 倍であることを特徴とする請求項11に記載の装置。
  14. 前記少なくとも1つのメモリと前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、
    少なくとも抽出された特徴の前記第1のセットと、第2のセットと、前記第3のセットとを連結するステップを前記装置にさらにさせ、
    前記決定するステップは、抽出された特徴の前記連結されたセットに基づいて、前記画像に対する前記物体の位置と前記物体のクラスとの少なくとも1つを決定するステップを含むことを特徴とする請求項11に記載の装置。
  15. 前記少なくとも1つのメモリと前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、
    少なくとも抽出された特徴の前記連結されたセットをスクイーズアンドエクサイテーションブロック(SEB)に適用するステップを前記装置にさらにさせ、
    前記画像に対する前記物体の位置と前記物体のクラスとの前記少なくとも1つは、前記SEBの出力に基づいて決定されることを特徴とする請求項14に記載の装置。
JP2021520139A 2018-10-12 2018-10-12 コンテキスト埋め込みおよび領域ベースの物体検出のための方法および装置 Active JP7192109B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/110023 WO2020073310A1 (en) 2018-10-12 2018-10-12 Method and apparatus for context-embedding and region-based object detection

Publications (2)

Publication Number Publication Date
JP2022504774A JP2022504774A (ja) 2022-01-13
JP7192109B2 true JP7192109B2 (ja) 2022-12-19

Family

ID=70164352

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021520139A Active JP7192109B2 (ja) 2018-10-12 2018-10-12 コンテキスト埋め込みおよび領域ベースの物体検出のための方法および装置

Country Status (5)

Country Link
US (1) US11908160B2 (ja)
EP (1) EP3864621A4 (ja)
JP (1) JP7192109B2 (ja)
CN (1) CN113168705A (ja)
WO (1) WO2020073310A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494616B2 (en) * 2019-05-09 2022-11-08 Shenzhen Malong Technologies Co., Ltd. Decoupling category-wise independence and relevance with self-attention for multi-label image classification
FR3103938B1 (fr) * 2019-12-03 2021-11-12 Idemia Identity & Security France Procédé de détection d’au moins un élément d’intérêt visible dans une image d’entrée au moyen d’un réseau de neurones à convolution
JP6800453B1 (ja) * 2020-05-07 2020-12-16 株式会社 情報システムエンジニアリング 情報処理装置及び情報処理方法
CN111950612B (zh) * 2020-07-30 2021-06-01 中国科学院大学 基于fpn的融合因子的弱小目标检测方法
CN112419227B (zh) * 2020-10-14 2024-02-20 北京大学深圳研究生院 基于小目标搜索缩放技术的水下目标检测方法和系统
CN112150462B (zh) * 2020-10-22 2023-12-22 北京百度网讯科技有限公司 确定目标锚点的方法、装置、设备以及存储介质
CN112446327B (zh) * 2020-11-27 2022-06-07 中国地质大学(武汉) 一种基于无锚框的遥感图像目标检测方法
CN112491891B (zh) * 2020-11-27 2022-05-17 杭州电子科技大学 物联网环境下基于混合深度学习的网络攻击检测方法
KR20240076572A (ko) * 2022-11-22 2024-05-30 주식회사 슈퍼브에이아이 저 프레임 속도 영상 상의 객체를 추적하는 방법 및 이를 이용한 객체 추적 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017079522A1 (en) 2015-11-04 2017-05-11 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection
JP2018022484A (ja) 2016-08-02 2018-02-08 三菱電機株式会社 画像内の物体を検出する方法及び物体検出システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017015947A1 (en) * 2015-07-30 2017-02-02 Xiaogang Wang A system and a method for object tracking
CN106203432B (zh) * 2016-07-14 2020-01-17 杭州健培科技有限公司 一种基于卷积神经网显著性图谱的感兴趣区域的定位系统
CN106339680B (zh) * 2016-08-25 2019-07-23 北京小米移动软件有限公司 人脸关键点定位方法及装置
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
TWI607387B (zh) * 2016-11-25 2017-12-01 財團法人工業技術研究院 字符辨識系統及其字符辨識方法
CN107463892A (zh) * 2017-07-27 2017-12-12 北京大学深圳研究生院 一种结合上下文信息和多级特征的图像中行人检测方法
CN107871126A (zh) * 2017-11-22 2018-04-03 西安翔迅科技有限责任公司 基于深层神经网络的车型识别方法和系统
EP3729377A4 (en) * 2017-12-18 2020-12-23 Shanghai United Imaging Healthcare Co., Ltd. SYSTEMS AND METHODS FOR DETERMINING THE SCANNING PARAMETER IN IMAGING

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017079522A1 (en) 2015-11-04 2017-05-11 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection
JP2018022484A (ja) 2016-08-02 2018-02-08 三菱電機株式会社 画像内の物体を検出する方法及び物体検出システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jing Liu et al.,Teaching Squeeze-and-Excitation PyramidNet for Imbalanced Image Classification with GAN-based Curriculum Learning,2018 24th International Conference on Pattern Recognition (ICPR),米国,IEEE,2018年08月20日,pp.2444-2449,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8546037
Tsung-Yi Lin et al.,Feature Pyramid Networks for Object Detection,2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),米国,IEEE,2017年07月21日,pp.936-944,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8099589

Also Published As

Publication number Publication date
JP2022504774A (ja) 2022-01-13
US11908160B2 (en) 2024-02-20
US20210383166A1 (en) 2021-12-09
CN113168705A (zh) 2021-07-23
EP3864621A1 (en) 2021-08-18
WO2020073310A1 (en) 2020-04-16
EP3864621A4 (en) 2022-05-04

Similar Documents

Publication Publication Date Title
JP7192109B2 (ja) コンテキスト埋め込みおよび領域ベースの物体検出のための方法および装置
US11790272B2 (en) System and method for end-to-end-differentiable joint image refinement and perception
CN109815843B (zh) 图像处理方法及相关产品
US20160171852A1 (en) Real-time video analysis for security surveillance
KR20210089166A (ko) 신경망을 사용한 밝은 반점 제거
US8942509B2 (en) Apparatus and method creating ghost-free high dynamic range image using filtering
CN111401215B (zh) 一种多类别目标检测的方法及系统
US20230127009A1 (en) Joint objects image signal processing in temporal domain
Hasinoff Saturation (imaging)
KR20200102961A (ko) 병변 진단 시스템 및 방법
Tan Specularity, specular reflectance
Fisher Subpixel estimation
US20160044295A1 (en) Three-dimensional shape measurement device, three-dimensional shape measurement method, and three-dimensional shape measurement program
US9392146B2 (en) Apparatus and method for extracting object
CN109242900B (zh) 焦平面定位方法、处理装置、焦平面定位系统及存储介质
KR101806066B1 (ko) 주차유도 기능이 구비된 카메라 모듈
Faraji et al. Simplified active calibration
CN115829890A (zh) 一种图像融合方法、装置、设备、存储介质及产品
CN109934045B (zh) 行人检测方法和装置
Schneider Shape from silhouette
KR101737619B1 (ko) 얼굴 인식 장치 및 방법
TWI819219B (zh) 動態場景補償的拍照方法及攝像裝置
Lee et al. Spatiotemporal outdoor lighting aggregation on image sequences
Shotton et al. Semantic image segmentation: Traditional approach
Dickinson et al. Shock graph

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221207

R150 Certificate of patent or registration of utility model

Ref document number: 7192109

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150