JP7096365B2 - 目標検出および目標検出ネットワークのトレーニング - Google Patents

目標検出および目標検出ネットワークのトレーニング Download PDF

Info

Publication number
JP7096365B2
JP7096365B2 JP2020561707A JP2020561707A JP7096365B2 JP 7096365 B2 JP7096365 B2 JP 7096365B2 JP 2020561707 A JP2020561707 A JP 2020561707A JP 2020561707 A JP2020561707 A JP 2020561707A JP 7096365 B2 JP7096365 B2 JP 7096365B2
Authority
JP
Japan
Prior art keywords
bounding box
target
foreground
network
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020561707A
Other languages
English (en)
Other versions
JP2021532435A (ja
Inventor
ツォン リー
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2021532435A publication Critical patent/JP2021532435A/ja
Application granted granted Critical
Publication of JP7096365B2 publication Critical patent/JP7096365B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Remote Sensing (AREA)
  • Astronomy & Astrophysics (AREA)
  • Image Analysis (AREA)

Description

本開示は、画像処理技術分野に関し、特に、目標検出および目標検出ネットワークのトレーニング方法、装置および機器に関する。
目標検出は、コンピュータビジョン分野、特に、飛行機や軍艦などの軍事目標検出において重要な課題であるが、それらは、画像のサイズが大きく、目標のサイズが小さいという特徴を有するため、検出の難易度が高くなる。さらに、密集して配列された状態である軍艦などの目標において、検出の精度は比較的に低い。
本開示の実施例は、目標検出および目標検出ネットワークのトレーニング方法、装置および機器を提供する。
第1態様によれば、目標検出方法を提供し、前記方法は、
入力画像の特徴データを取得することと、前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定することと、前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得することであって、前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含むことと、前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得することとを含む。
本開示で提供されるいずれか1つの実施形態を参照すると、前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得することは、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも1つの目標バウンディングボックスを選択することと、前記少なくとも1つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得することとを含む。
本開示で提供されるいずれか1つの実施形態を参照すると、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも1つの目標バウンディングボックスを選択することは、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、前記候補バウンディングボックスと、対応する前景画像領域との間の重複領域の、前記候補バウンディングボックスに占める比率が第1閾値より大きい場合、前記候補バウンディングボックスを前記目標バウンディングボックスとして使用することを含む。
本開示で提供されるいずれか1つの実施形態を参照すると、前記少なくとも1つの目標バウンディングボックスは、第1バウンディングボックスおよび第2バウンディングボックスを含み、前記少なくとも1つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得することは、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度に基づいて、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータを決定することと、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータに基づいて、前記第1バウンディングボックスおよび前記第2バウンディングボックスに対応する目標対象位置を決定することとを含む。
本開示で提供されるいずれか1つの実施形態を参照すると、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度に基づいて、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータを決定することは、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度に従って、角度係数を取得することと、前記第1バウンディングボックスと前記第2バウンディングボックスの間の交差比および前記角度係数に従って、前記重複パラメータを取得することとを含む。
本開示で提供されるいずれか1つの実施形態を参照すると、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータは、前記交差比と前記角度係数の積であり、ここで、前記角度係数は、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度の増加に伴い増加する。
本開示で提供されるいずれか1つの実施形態を参照すると、前記交差比が一定に維持される条件では、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータは、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度の増加に伴い増加する。
本開示で提供されるいずれか1つの実施形態を参照すると、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータに基づいて、前記第1バウンディングボックスおよび前記第2バウンディングボックスに対応する目標対象位置を決定することは、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータが第2閾値より大きい場合、前記第1バウンディングボックスおよび前記第2バウンディングボックスのうちの1つのバウンディングボックスを前記目標対象位置として使用することを含む。
本開示で提供されるいずれか1つの実施形態を参照すると、前記第1バウンディングボックスおよび前記第2バウンディングボックスのうちの1つのバウンディングボックスを前記目標対象位置として使用することは、前記第1バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域の間の重複パラメータ、および前記第2バウンディングボックスと前記前景画像領域の間の重複パラメータを決定することと、前記第1バウンディングボックスおよび前記第2バウンディングボックスのうち、前記前景画像領域との間の重複パラメータがより大きいバウンディングボックスを前記目標対象位置として使用することとを含む。
本開示で提供されるいずれか1つの実施形態を参照すると、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータに基づいて、前記第1バウンディングボックスおよび前記第2バウンディングボックスに対応する目標対象位置を決定することは、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータが第2閾値より小さいか等しい場合、前記第1バウンディングボックスおよび前記第2バウンディングボックスを両方とも前記目標対象位置として使用することを含む。
本開示で提供されるいずれか1つの実施形態を参照すると、前記入力画像内の検出される目標対象のアスペクト比は特定の値より大きい。
第2態様によれば、目標検出ネットワークのトレーニング方法を提供し、前記目標検出ネットワークは、特徴抽出ネットワーク、目標予測ネットワークおよび前景セグメンテーションネットワークを含み、前記方法は、
前記特徴抽出ネットワークを介してサンプル画像に対して特徴抽出処理を実行して、前記サンプル画像の特徴データを取得することと、前記特徴データに従って、前記目標予測ネットワークを介して複数のサンプル候補バウンディングボックスを取得する;前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得することであって、前記サンプル前景セグメンテーション結果は、前記サンプル画像の複数の画素点における各画素点が前景に属するかどうかを指示する指示情報を含むことと、前記複数のサンプル候補バウンディングボックス、前記サンプル前景セグメンテーション結果および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定することと、前記ネットワーク損失値に基づいて、前記目標検出ネットワークのネットワークパラメータを調整することとを含む。
本開示で提供されるいずれか1つの実施形態を参照すると、前記注釈情報は、前記サンプル画像に含まれる少なくとも1つの目標対象の真のバウンディングボックスを含み、前記複数のサンプル候補バウンディングボックス、前記サンプル前景画像領域および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定することは、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、前記候補バウンディングボックスと、前記サンプル画像によって注釈された少なくとも1つの真の目標バウンディングボックスにおける各真の目標バウンディングボックスの間の交差比を決定することと、決定された前記複数の候補バウンディングボックスにおける各候補バウンディングボックスの前記交差比に従って、第1ネットワーク損失値を決定することとを含む。
本開示で提供されるいずれか1つの実施形態を参照すると、前記候補バウンディングボックスと前記真の目標バウンディングボックスの間の交差比は、前記候補バウンディングボックスおよび前記真の目標バウンディングボックスを含む外接円に基づいて取得される。
本開示で提供されるいずれか1つの実施形態を参照すると、前記ネットワーク損失値を決定するプロセスにおいて、前記候補バウンディングボックスの幅に対応する重みは、前記候補バウンディングボックスの長さに対応する重みより高い。
本開示で提供されるいずれか1つの実施形態を参照すると、前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得することは、前記特徴データに対してアップサンプリング処理を実行して、処理後の前記特徴データの大きさをサンプル画像の大きさと同じにすることと、前記処理後の前記特徴データに基づいて画素セグメンテーションを実行して、前記サンプル画像のサンプル前景セグメンテーション結果を取得することとを含む。
本開示で提供されるいずれか1つの実施形態を参照すると、前記サンプル画像に含まれる目標対象のアスペクト比は、設定された値より高い。
第3態様によれば、目標検出装置を提供し、前記装置は、
入力画像の特徴データを取得するように構成される特徴抽出ユニットと、前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定するように構成される目標予測ユニットと、前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得するように構成される前景セグメンテーションユニットであって、前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含む前景セグメンテーションユニットと、前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得するように構成される目標決定ユニットとを備える。
第4態様によれば、目標検出ネットワークのトレーニング装置を提供し、前記目標検出ネットワークは、特徴抽出ネットワーク、目標予測ネットワークおよび前景セグメンテーションネットワークを含み、前記装置は、
前記特徴抽出ネットワークを介してサンプル画像に対して特徴抽出処理を実行して、前記サンプル画像の特徴データを取得するように構成される特徴抽出ユニットと、前記特徴データに従って、前記目標予測ネットワークを介して複数のサンプル候補バウンディングボックスを取得するように構成される目標予測ユニットと、前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得するように構成される前景セグメンテーションユニットであって、前記サンプル前景セグメンテーション結果は、前記サンプル画像の複数の画素点における各画素点が前景に属するかどうかを指示する指示情報を含む前景セグメンテーションユニットと、前記複数のサンプル候補バウンディングボックス、前記サンプル前景セグメンテーション結果および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定するように構成される損失値決定ユニットと、前記ネットワーク損失値に基づいて、前記目標検出ネットワークのネットワークパラメータを調整するように構成されるパラメータ調整ユニットとを備える。
第5態様によれば、目標検出機器を提供し、前記機器は、メモリおよびプロセッサを備え、前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、以上に記載の目標検出方法を実行するように構成される。
第6態様によれば、目標検出ネットワークのトレーニング機器を提供し、前記機器は、メモリおよびプロセッサを備え、前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、以上に記載の目標検出ネットワークのトレーニング方法を実現するように構成される。
第7態様によれば、コンピュータプログラムが記憶された不揮発性コンピュータ読み取り可能な記憶媒体を提供し、前記プログラムがプロセッサによって実行されると、前記プロセッサが以上に記載の目標検出方法を実現し、および/または、以上に記載の目標検出ネットワークのトレーニング方法を実現するようにする。
本開示の1つまたは複数の実施例の目標検出および目標検出ネットワークのトレーニング方法、装置および機器によれば、入力画像の特徴データに従って複数の候補バウンディングボックスを決定し、前記特徴データに従って前景セグメンテーション結果を取得し、前記複数の候補バウンディングボックスおよび前景セグメンテーション結果を組み合わせることにより、検出する目標対象をより正確に決定することができる。
上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本開示を限定するものではないことを理解されたい。
ここでの図面は、本明細書に組み込まれてその一部を構成し、本明細書と一致する実施例を示し、明細書とともに本明細書の原理を説明するために使用される。
本出願の実施例によって示された目標検出方法のフロチャートである。 本出願の実施例によって示された目標検出方法の概略図である。 本出願の例示的な実施例によって示された軍艦検出結果図である。 本出願の例示的な実施例によって示された軍艦検出結果図である。 関連技術における目標バウンディングボックスの概略図である。 本出願の例示的な実施例によって示された重複パラメータ計算方法の概略図である。 本出願の例示的な実施例によって示された重複パラメータ計算方法の概略図である。 本出願の実施例によって示された目標検出ネットワークのトレーニング方法のフロチャートである。 本出願の実施例によって示された交差比計算方法の概略図である。 本出願の実施例によって示された目標検出ネットワークのネットワーク構造図である。 本出願の実施例によって示された目標検出ネットワークのトレーニング方法の概略図である。 本出願の実施例によって示された予測候補バウンディングボックス方法のフロチャートである。 本出願の実施例によって示されたアンカーボックスの概略図である。 本出願の一例示的な実施例によって示された予測前景画像領域方法のフロチャートである。 本出願の一例示的な実施例によって示された目標検出装置の例示的な構造図である。 本出願の一例示的な実施例によって示された目標検出ネットワークのトレーニング装置の例示的な構造図である。 本出願の一例示的な実施例によって示された目標検出機器の構造図である。 本出願の一例示的な実施例によって示された目標検出ネットワークのトレーニング機器の構造図である。
ここで、例示的な実施例について詳細に説明し、その例は図面に示す。特に明記しない限り、以下の説明が添付の図面に関する場合、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本開示と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されたように、本開示の特定の態様と一致する装置および方法の例である。
本開示の実施例で提供される技術的解決策は、主に、画像内の細なく且つ小さい目標検出に適用されるが、本開示の実施例は、これらに対して限定しないことを理解されたい。
図1は、目標検出方法を示し、当該方法は、次のステップを含み得る。
ステップ101において、入力画像の特徴データ(例えば、特徴マップ(feature map)など)を取得する。
いくつかの実施例において、入力画像はリモートセンシング画像であってもよい。リモートセンシング画像は、人工衛星や航空写真機などに搭載されたセンサによって測定された地上の対象物の電磁放射特徴信号などによって取得された画像であり得る。当業者は、入力画像が他のタイプの画像であってもよく、リモートセンシング画像に限定されないことを理解するはずである。
一例において、畳み込みニューラルネットワークなどの特徴抽出ネットワークを介してサンプル画像の特徴データを抽出することができ、本開示の実施例は、特徴抽出ネットワークの具体的な構造を限定しない。抽出された特徴データは、マルチチャネル特徴データであり、特徴データの大きさおよびチャネルの数は、特徴抽出ネットワークの具体的な構造によって決定される。
別の例において、端末によって送信された特徴データを受信するなど、入力画像の特徴データを他の機器から取得することができ、本開示の実施例はこれらに限定されない。
ステップ102において、前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定する。
このステップにおいて、関心領域(ROI:Region Of Interest)などの技術を利用して候補バウンディングボックスを予測して取得することは、候補バウンディングボックスのパラメータ情報を取得することを含み、パラメータは、候補バウンディングボックスの長さ、幅、中心点座標および角度などの1つまたは任意の組み合わせを含み得る。
ステップ103において、前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得し、ここで、前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含む。
特徴データに基づいて取得した前景セグメンテーション結果は、前記入力画像の複数の画素のうち、各画素が前景および/または背景に属する確率を含み、前景セグメンテーション結果は、画素レベルの予測結果を与える。
ステップ104において、前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得する。
いくつかの実施例において、入力画像の特徴データに従って決定された複数の候補バウンディングボックス、および前記特徴データによって取得された前景セグメンテーション結果は、対応関係を有する。複数の候補バウンディングボックスを前景セグメンテーション結果にマッピングし、目標対象の輪郭とよく適合する候補バウンディングボックスほど、前景セグメンテーション結果に対応する前景画像領域と重複に近くなる。したがって、決定された複数の候補バウンディングボックスおよび決定された前景セグメンテーション結果を参照して、検出する目標対象をより正確に決定することができる。いくつかの実施例において、目標検出結果は、入力画像に含まれた目標対象の位置や数などの情報を含み得る。
一例において、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域の間の重複領域に従って、複数の候補バウンディングボックスから少なくとも1つの目標バウンディングボックスを選択し、前記少なくとも1つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得することができる。
前記複数の候補バウンディングボックスにおいて、前景画像領域との間の重複領域が大きいほど、即ち、候補バウンディングボックスと前景画像領域が重複に近いほど、当該候補バウンディングボックスが目標対象の輪郭により適合することを表し、当該候補バウンディングボックスの予測結果がより正確であることも表す。したがって、候補バウンディングボックスと前景画像の間の重複領域に従って、前記複数の候補バウンディングボックスから少なくとも1つの候補バウンディングボックスを目標バウンディングボックスとして選択し、取得された目標バウンディングボックスのうち、検出された目標対象として、前記入力画像の目標検出結果を取得することができる。
例えば、前記複数の候補バウンディングボックスのうち、候補バウンディングボックス全体における、前記前景画像領域との間の重複領域の比率が第1閾値より大きい候補バウンディングボックスを前記目標バウンディングボックスとして使用することができる。候補バウンディングボックス全体における重複領域の比率が高いほど、当該候補バウンディングボックスと前景画像領域の重複度が高いことを表す。当業者は、本開示が第1閾値の具体的な値を限定せず、当該値は、実際のニーズに従って決定されることができることを理解するはずである。
本開示の実施例の目標検出方法は、飛行機、軍艦および車両などの軍事目標などの、スペクト比が大きい、検出される目標対象に適用される。一例において、アスペクト比が大きいとは、アスペクト比が、5より大きいなど、特定の値より大きいことを指す。当業者は、当該特定の値が、検出目標に応じて具体的に決定されることができることを理解するはずである。一例において、目標対象は軍艦であってもよい。
以下では、入力画像がリモートセンシング画像であり、且つ検出目標が軍艦であることを例として、目標検出のプロセスを説明する。当業者は、他の目標対象において、当該目標検出方法も適用されることができることを理解するはずである。図2に示された目標検出方法の概略図を参照すると、次の通りである。
まず、当該リモートセンシング画像(即ち、図2の入力画像210である)のマルチチャネル特徴データ(即ち、図2の特徴マップ220である)を取得する。
上記した特徴データを第1ブランチ(図2の上部ブランチ230)および第2ブランチ(図2の下部ブランチ240)にそれぞれ入力し、次の処理をそれぞれ実行する。
第1ブランチにおいて
各アンカー(anchor)ボックスに対して1つの信頼度評点を生成する。当該信頼度評点は、アンカーボックスが前景または背景である確率に関し、例えば、アンカーボックスが前景である確率が高いほど、信頼度評点は高くなる。
いくつかの実施例において、アンカーボックスは、演繹的知識に基づく長方形ボックスである。アンカーボックスの具体的な実現方法は、後続の目標検出ネットワークのトレーニングに対する説明を参照することができ、ここでは暫く詳細に説明しない。アンカーボックスが前景または背景に属する確率を計算するために、1つの全体としてアンカーボックスを予測することができ、即ち、当該アンカーボックス内に物体または特定の目標が含まれているかどうかを予測することができ、ここで、アンカーボックスに物体または特定の目標が含まれている場合、当該アンカーボックスが前景であると判断する。
いくつかの実施例において、信頼度評点に応じて、最高評点を有しまたは特定の閾値を超えるいくつかのアンカーボックスを前景アンカーボックスとして選択することができ、前景アンカーボックスから候補バウンディングボックスへのオフセットを予測することにより、前景アンカーボックスをオフセットして候補バウンディングボックスを取得することができ、当該オフセットに基づいて、候補バウンディングボックスのパラメータを取得することができる。
一例において、検出される目標対象を覆うために、アンカーボックスは方向情報を含み得、複数のアスペクト比を設定することができる。具体的な方向の数およびアスペクト比の値を実際のニーズに従って設定することができる。図11に示されたように、構築されたアンカーボックスは6つの方向に対応し、ここで、
Figure 0007096365000001
はアンカーボックスの幅を示し、
Figure 0007096365000002
はアンカーボックスの長さを示し、
Figure 0007096365000003
はアンカーボックスの角度(水平に対するアンカーボックスの回転角度)を示し、
Figure 0007096365000004
はアンカーボックスの中心点の座標を示す。方向に均一に分布する6つのアンカーボックスに対応し、
Figure 0007096365000005
は、それぞれ、
Figure 0007096365000006
である。
一例において、候補バウンディングボックスを生成した後に、さらに、非最大抑制方法(NMS:Non-Maximum Suppression)を通じて重複する検出框を除去することができる。例えば、先ず、すべての候補バウンディングボックスをトラバースし、信頼度評点の最も高い候補バウンディングボックスを選択し、他の候補バウンディングボックスをトラバースすることができ、現在最高点のバウンディングボックスの交差比(Intersection over Union、IoU)が特定の閾値より大きい場合、当該バウンディングボックスを削除する。その後、未処理の候補バウンディングボックスから最も高い評点を選択し続け、上述のプロセスを繰り返す。複数の反復の後、抑制されていないものは、決定された候補バウンディングボックスとして最終的に保持される。図2を例とすると、NMS処理の後、候補バウンディングボックス図231内の表記番号が1、2、3である3つの候補バウンディングボックスを取得する。
第2ブランチにおいて
前記特徴データに従って、入力画像における各画素において、前記画素が前景や背景である確率を予測し、前景確率が、設定された値より高い画素を前景画素として使用することにより、画素レベルの前景セグメンテーション結果241を生成する。
第1ブランチおよび第2ブランチによって出力された結果のサイズが一致するため、候補バウンディングボックスを画素セグメンテーション結果にマッピングし、候補バウンディングボックスと前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、目標バウンディングボックスを決定することができる。例えば、候補バウンディングボックス全体における重複領域の比率が第1閾値より大きい候補バウンディングボックスを前記目標バウンディングボックスとして使用することができる。
図2を例とすると、表記番号が1、2、3である3つの候補バウンディングボックスを前景セグメンテーション結果にマッピングし、候補バウンディングボックス全体における、各候補バウンディングボックスと前景画像領域の重複領域の比率を計算することができ、例えば、候補バウンディングボックス1に対して、当該比率は92%であり、候補バウンディングボックス2に対して、当該比率は86%であり、候補バウンディングボックス3に対して、当該比率は65%である。第1閾値が70%である場合、候補バウンディングボックス3が目標バウンディングボックスである可能性を排除し、最終的に検出された出力結果図250において、目標バウンディングボックスは候補バウンディングボックス1および候補バウンディングボックス2である。
上記した方法を通じて検出して、出力された目標バウンディングボックスでも重複する可能性がある。例えば、NMS処理を実行する場合、設定された閾値が高過ぎると、重複する候補バウンディングボックスが抑制されない可能性がある。候補バウンディングボックス全体における、候補バウンディングボックスと前景画像領域の重複領域の比率が両方とも第1閾値を超えた場合、最終的に出力される目標バウンディングボックスに、重複するバウンディングボックスがまだ含まれる可能性がある。
選択された少なくとも1つの目標バウンディングボックスは、第1バウンディングボックスおよび第2バウンディングボックスを含む場合、本開示の実施例は、次の方法を通じて最終の目標対象を決定することができる。当業者は、当該方法が、2つの重複するバウンディングボックスを処理することに限定されず、先ず2つを処理し、次に、残りの1つおよび他のバウンディングボックスを処理する方法を通じて、複数の重複するバウンディングボックスを処理することもできることを理解するはずである。
いくつかの実施例において、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度に基づいて、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータを決定し、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータに基づいて、前記第1バウンディングボックスおよび前記第2バウンディングボックスに対応する目標対象位置を決定する。
2つの検出される目標対象が近接して配列された場合、両者の目標バウンディングボックス(第1バウンディングボックスおよび第2バウンディングボックス)は、重複する可能性がある。しかし、この場合、第1バウンディングボックスおよび第2バウンディングボックスの交差比は、通常、比較的に小さい。したがって、本開示は、第1バウンディングボックスおよび第2バウンディングボックスの重複パラメータを設定することにより、2つのバウンディングボックス内の検出物体の全てが目標対象であるかどうかを決定する。
いくつかの実施例において、前記重複パラメータが第2閾値より大きい場合、第1バウンディングボックスおよび第2バウンディングボックス内に、1つのみの目標対象がある可能性があることを示し、したがって、その中の1つのバウンディングボックスを目標対象位置として決定する。前景セグメンテーション結果が画素レベルの前景画像領域を含むため、当該前景画像領域を使用して、目標対象のバウンディングボックスとして、どのバウンディングボックスを保持するかを決定することができる。例えば、第1バウンディングボックスと、対応する前景画像領域の第1重複パラメータおよび第2バウンディングボックスと、対応する前景画像領域の第2重複パラメータをそれぞれ計算し、第1重複パラメータおよび第2重複パラメータのうちのより大きい値に対応する目標バウンディングボックスを目標対象として決定し、より小さい値に対応する目標バウンディングボックスを削除する。上記した方法を通じて、1つの目標対象の重複する2つまたは複数のバウンディングボックスを削除する。
いくつかの実施例において、前記重複パラメータが第2閾値より小さいか等しい場合、前記第1バウンディングボックスおよび前記第2バウンディングボックスを両社とも目標対象位置として使用する。
以下では、最終の目標対象を決定するプロセスを例示的に説明する。
一実施例において、図3Aに示されたように、バウンディングボックスA、Bは軍艦検出結果であり、ここで、バウンディングボックスAとバウンディングボックスBは重複し、両者の重複パラメータが0.1であることを計算して取得する。第2閾値が0.3である場合、バウンディングボックスAおよびバウンディングボックスBが2つ異なる軍艦の検出であることを決定する。バウンディングボックスを画素セグメンテーション結果にマッピングすることから、バウンディングボックスAおよびバウンディングボックスBが、それぞれ、異なる軍艦に対応することを分かる。2つバウンディングボックスの重複パラメータが第2閾値より小さいことを判断した場合、バウンディングボックスを画素セグメンテーション結果にマッピングする追加のプロセスは必要なく、以上は検証のみを目的とする。
別の実施例において、図3Bに示されたように、バウンディングボックスC、Dは、別の軍艦検出結果であり、ここで、バウンディングボックスCとバウンディングボックスDは重複し、両者の重複パラメータが0.8であり、即ち、第2閾値0.3より大きいことを計算して取得する。当該重複パラメータ計算結果に基づいて、バウンディングボックスCおよびバウンディングボックスDが、実際には、同じ軍艦のバウンディングボックスであることを決定することができる。この場合、バウンディングボックスCおよびバウンディングボックスDを画素セグメンテーション結果にマッピングすることにより、対応する前景画像領域を使用して最終の目標対象をさらに決定することができる。バウンディングボックスCと前景画像領域の第1重複パラメータ、および計算バウンディングボックスDと前景画像領域の第2重複パラメータを計算する。例えば、第1重複パラメータは0.9であり、第2重複パラメータは0.8である場合、値が大きい方の第1重複パラメータに対応するバウンディングボックスCが軍艦を含むことを決定し、同時に、第2重複パラメータに対応するバウンディングボックスDを削除し、最終的に、バウンディングボックスCを軍艦の目標バウンディングボックスとして出力する。
いくつかの実施例において、画素セグメンテーション結果に対応する前景画像領域を使用してバウンディングボックスを重複する目標対象を補助して決定し、画素レベルの前景画像領域が画素セグメンテーション結果に対応し、空間の精度が高いため、重複するバウンディングボックスと前景画像領域の重複パラメータを介して目標対象を含む目標バウンディングボックスをさらに決定して、目標検出の精度を向上させる。
関連技術では、使用されるアンカーボックスは、通常、角度パラメータを含まない長方形ボックスであるため、軍艦などのアスペクト比が大きい目標対象において、目標対象が傾斜状態である場合、当該アンカーボックスを使用して決定された目標バウンディングボックスは、目標対象の外接長方形ボックスであり、当該ボックスの面積と目標対象の実際の面積の差は非常に大きい。近接して配列された2つ目標対象において、図4に示されたように、ここで、目標対象401に対応する目標バウンディングボックス403は、その外接長方形ボックスであり、目標対象402に対応する目標バウンディングボックス404もその外接長方形ボックスであり、これらの2つ目標対象の目標バウンディングボックス間の重複パラメータは、即ち、2つ外接長方形ボックス間の交差比IoUである。目標バウンディングボックスと目標対象の差により、計算して取得された交差比の誤差は非常に大きくなるため、目標テストの再現率(recall)が低下する。
したがって、以上に記載されたように、いくつかの実施例において、本開示のアンカーボックスは、アンカーボックスの角度パラメータを導入して、交差比の計算精度を向上させることができる。アンカーボックスを介して計算して取得された異なる目標バウンディングボックスの角度も互いに異なる場合がある。
これらに基づき、本開示は、次のように、重複パラメータを計算する方法を提案する。前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度に従って、角度係数を取得し、前記第1バウンディングボックスと前記第2バウンディングボックスの間の交差比および前記角度係数に従って、前記重複パラメータを取得する。
一例において、前記重複パラメータは、前記交差比と前記角度係数の積であり、ここで、前記角度係数は、第1バウンディングボックスと第2バウンディングボックスとの間の角度に従って取得することができ、当該角度係数の値は1であり、第1バウンディングボックスと第2バウンディングボックスの間の角度増加に伴い増加する。
例えば、当該角度係数は、式(1)で示されることができる。
式(1):
Figure 0007096365000007
ここで、
Figure 0007096365000008
は、第1バウンディングボックスと第2バウンディングボックスの間の角度である。
別の例において、前記交差比が一定に維持される条件では、前記重複パラメータは、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度の増加に伴い増加する。
以下では、図5Aおよび図5Bを例として、上記した重複パラメータ計算方法が目標検出に与える影響について説明する。
図5Aのバウンディングボックス501およびバウンディングボックス502において、両者の面積の交差比は
Figure 0007096365000009
であり、両者間の角度は
Figure 0007096365000010
である。図5Bのバウンディングボックス503およびバウンディングボックス504において、両者の面積の交差比は
Figure 0007096365000011
であり、両者間の角度は
Figure 0007096365000012
である。ここで、
Figure 0007096365000013

Figure 0007096365000014
である。
上述の重複パラメータ計算方法を使用して、角度係数
Figure 0007096365000015
を増加させて重複パラメータの計算を実行する。例えば、2つバウンディングボックス面積の交差比の値と角度係数の値を掛け算することにより、重複パラメータを取得する。
例えば、バウンディングボックス501とバウンディングボックス502の重複パラメータ
Figure 0007096365000016
は、式(2)を使用して計算することができる。
式(2):
Figure 0007096365000017
バウンディングボックス503とバウンディングボックス504の重複パラメータ は、式(3)を使用して計算することができる。
式(3):
Figure 0007096365000018
計算して、
Figure 0007096365000019
を取得することができる。
角度係数を追加した後に、図5Aおよび図5Bの重複パラメータ計算結果は、面積交差比の計算結果と大きさの関係では逆になる。図5Aでは、2つバウンディングボックス間の角度がより大きいため、角度係数の値も大きくなり、したがって、取得された重複パラメータは大きくなる。対応的に、図5Bでは、2つバウンディングボックス間の角度がより小さいため、角度係数の値も小さくなり、したがって、取得された重複パラメータは小さくなる。
近接して配列された2つ目標対象において、両者間の角度は非常に小さい場合がある。しかし、それらの配列が近接するため、検出して取得されたバウンディングボックスの両者間、面積が重複する部分は大きい場合があり、面積のみで交差比を計算すると、交差比結果が大きくなる可能性があり、2つバウンディングボックスに同じ目標対象が含まれたと誤って判断しやすくなる。本開示の実施例によって提案された重複パラメータ計算方法は、角度係数を導入することにより、近接して配列された目標対象間の重複パラメータ計算結果が小さくなることにより、目標対象を正確に検出し、近接して配列された目標の再現率を向上させるのに有益である。
当業者は、上記した重複パラメータ計算方法は、目標バウンディングボックス間の重複パラメータを計算することに限定されず、候補バウンディングボックス、前景アンカーボックス、真のバウンディングボックス、アンカーボックスなどの角度パラメータを有するボックス間の重複パラメータの計算に使用されることもできることを理解するはずである。さらに、他の方式を採用して重複パラメータを計算することもでき、本開示の実施例は、これらに限定されない。
いくつかの例において、上述の目標検出方法は、トレーニング後の目標検出ネットワークを介して実現されることができ、当該目標検出ネットワークはニューラルネットワークであってもよい。目標検出ネットワークを使用する前に、最適化されたパラメータ値を取得するを取得するために、当該目標検出ネットワークをトレーニングする必要がある。
以下では、依然として、軍艦検出目標を例として、目標検出ネットワークのトレーニングプロセスを説明する。前記目標検出ネットワークは、特徴抽出ネットワーク、目標予測ネットワークおよび前景セグメンテーションネットワークを含み得る。図6に示されたトレーニング方法の実施例のフロチャートを参照すると、次のステップを含み得る。
ステップ601において、前記特徴抽出ネットワークを介してサンプル画像に対して特徴抽出処理を実行して、前記サンプル画像の特徴データを取得する。
このステップにおいて、記載のサンプル画像はリモートセンシング画像であってもよい。リモートセンシング画像は、人工衛星、航空写真機などに搭載されたセンサによって測定された地上の対象物の電磁放射特徴信号によって取得された画像である。サンプル画像は、他のタイプの画像であってもよく、リモートセンシング画像に限定されない。さらに、前記サンプル画像は、事前に注釈された目標対象の注釈情報を含む。当該注釈情報は、校正された目標対象の真のバウンディングボックス(ground truth)を含み得、一例において、当該注釈情報は、校正された真のバウンディングボックスの4つの頂点の座標であってもよい。特徴抽出ネットワークは、畳み込みニューラルネットワークであってもよく、本開示の実施例は、特徴抽出ネットワークの具体的な構造に限定されない。
ステップ602において、前記特徴データに従って、前記目標予測ネットワークを介して複数のサンプル候補バウンディングボックスを取得する。
このステップにおいて、前記サンプル画像の特徴データに従って、目標対象の複数の候補バウンディングボックスを予測して生成する。前記候補バウンディングボックスに含まれた情報は、当該バウンディングボックスが前景、背景である確率、当該バウンディングボックスのサイズ、角度、位置などの当該バウンディングボックスのパラメータを含み得る。
ステップ603において、前記特徴データに従って、前記サンプル画像の前景セグメンテーション結果を取得する。
このステップにおいて、前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得する。ここで、前記サンプル前景セグメンテーション結果は、前記サンプル画像の複数の画素点における各画素点が前景に属するかどうかを指示する指示情報を含む。即ち、前景セグメンテーション結果は、対応する前景画像領域を取得することができることにより、当該前景画像領域は、前景であると予測される全ての画素を含み得る。
ステップ604において、前記複数のサンプル候補バウンディングボックス、前記サンプル前景セグメンテーション結果および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定する。
前記ネットワーク損失値は、前記目標予測ネットワークに対応する第1ネットワーク損失値、および前記前景セグメンテーションネットワークに対応する第2ネットワーク損失値を含み得る。
いくつかの例において、前記第1ネットワーク損失値は、サンプル画像内の注釈情報および前記サンプル候補バウンディングボックスの情報に従って取得される。一例において、目標対象の注釈情報は、目標対象の真のバウンディングボックスの4つの頂点の座標であってもよく、予測して取得されたサンプル候補バウンディングボックスの予測パラメータは、候補バウンディングボックスの長さ、幅、水平に対する回転角度、中心点の座標であってもよい。真のバウンディングボックスの4つの頂点の座標に基づいて、真のバウンディングボックスの長さ、幅、相水平に対する回転角度、中心点の座標を対応的に計算することができる。したがって、サンプル候補バウンディングボックスの予測パラメータおよび真のバウンディングボックスの実際のパラメータに基づいて、注釈情報と予測情報の間の差を具現する第1ネットワーク損失値を取得することができる。
いくつかの例において、前記第2ネットワーク損失値は、サンプル前景セグメンテーション結果および真の前景画像領域に従って取得する。事前に注釈された目標対象の真のバウンディングボックスに基づいて、元のサンプル画像で注釈された、目標対象を含む領域、当該領域中に含まれた画素は、真の前景画素であり、真の前景画像領域である。したがって、サンプル前景セグメンテーション結果および注釈情報に基づいて、即ち、予測した前景画像領域と真の前景画像領域との比較を介して、第2ネットワーク損失値を取得することができる。
ステップ605において、前記ネットワーク損失値に基づいて、前記目標検出ネットワークのネットワークパラメータを調整する。
一例において、勾配逆伝播方法を通じて上述のネットワークパラメータを調整することができる。
候補バウンディングボックスの予測および前景画像領域の予測は、特徴抽出ネットワーク抽出された特徴データを共有するため、2つブランチの予測結果と注釈された真の目標対象の間の差を介して各个ネットワークのパラメータを共に調整することにより、対象レベルの監視情報および画素レベルの監視情報を同時に提供して、特徴抽出ネットワークによって抽出された特徴の品質が高まることができるようにする。さらに、本開示の実施例は、候補バウンディングボックスおよび前景画像を予測するためのネットワークの全てはone-stage検出器であるため、高い検出効率を実現することができる。
一例において、前記複数のサンプル候補バウンディングボックスと前記サンプル画像によって注釈された少なくとも1つの真の目標バウンディングボックスとの交差比に基づいて、第1ネットワーク損失値を決定することができる。
一例において、交差比の計算結果を使用して、複数のアンカーボックスから正のサンプルおよび/または負のサンプルを選択することができる。例えば、真のバウンディングボックスとの交差比が0.5などの特定の値より大きいアンカーボックスを、前景を含む候補バウンディングボックスであると見なされることができ、当該前景を含む候補バウンディングボックスを正のサンプルとして目標検出ネットワークをトレーニングし、さらに、真のバウンディングボックスとの交差比が0.1などの特定の値より小さいアンカーボックスを、負のサンプルとしてネットワークをトレーニングすることができる。選択した正のサンプルおよび/または負のサンプルに基づいて、第1ネットワーク損失値を決定する。
第1ネットワーク損失値を計算するプロセスにおいて、目標対象のアスペクト比が大きいため、関連技術では、計算して取得されたアンカーボックスと真のバウンディングボックスの交差比の値が小さい可能性があり、選択された、損失値計算を実行するための正のサンプルが少なくなることを容易にし、それにより、トレーニング精度に影響を与える。さらに、本開示の実施例は、方向パラメータを有するアンカーボックスを採用し、当該アンカーボックスに適用し、交差比計算の精度を向上させるために、本開示は、交差比計算方法を提案し、当該方法は、アンカーボックスと真のバウンディングボックスの交差比計算に使用されてもよく、候補バウンディングボックスと真のバウンディングボックスの間の交差比計算に使用されてもよい。
当該方法において、アンカーボックスと真のバウンディングボックスの外接円面積の交差と連合の比率を交差比として使用することができる。以下、図7を例として説明する。
バウンディングボックス701とバウンディングボックス702はアスペクト比の差が大きく、且つ角度パラメータを有する長方形ボックスであり、両者のアスペクト比率は5などである。バウンディングボックス701の外接円は703であり、バウンディングボックス702の外接円は704であり、外接円703と外接円704面積の交集(図では、網掛け部分であり)と連合の比率を、交差比として使用することができる。
アンカーボックスと真のバウンディングボックスの交差比計算に対して、他の方式を採用してもよく、本開示の実施例は、これらに限定されない。
以上、実施例で提案された交差比を計算する方法は、方向情報の制約により、形は類似するが方向上では差があるより多くのサンプルを保留して、選択された正のサンプルの数および比率を向上させ、したがって、方向情報に対する監督および学習を強化して、方向予測の精度を向上させる。
以下の説明では、目標検出ネットワークのトレーニング方法をより詳しく説明する。ここで、以下では、検出された目標対象が軍艦であることを例として当該トレーニング方法を説明する。本開示で検出された目標対象は軍艦に限定されず、アスペクト比が大きい他の対象であってもよいことを理解されたい。
サンプリングの準備
ニューラルネットワークをトレーニングする前に、先ず、サンプルセットを先に準備することができ、当該サンプルセットは、目標検出ネットワークをトレーニングするための複数のトレーニングサンプルを含み得る。
例えば、以下の方式を通じてトレーニングサンプルを取得することができる。
サンプル画像として使用されるリモートセンシング画像では、軍艦の真のバウンディングボックスを注釈する。当該リモートセンシング画像には、複数の軍艦が含まれる可能性があるため、各軍艦の真のバウンディングボックスを注釈する必要がある。同時に、当該バウンディングボックスの4つの頂点の座標などの、各真のバウンディングボックスのパラメータ情報を注釈する必要がある。
軍艦の真のバウンディングボックスを注釈する同時に、当該真のバウンディングボックスにおける画素を真の前景画素として決定することができ、即ち、軍艦の真のバウンディングボックスを注釈する同時に軍艦の真の前景画像を取得することもできる。当業者は、真のバウンディングボックスにおける画素も、真のバウンディングボックス本体に含まれた画素を含むことを理解するはずである。
目標検出ネットワーク構造の決定
本開示の一実施例では、目標検出ネットワークは、特徴抽出ネットワーク、並びに当該特徴抽出ネットワークとそれぞれカスケード接続された目標予測ネットワークおよび前景セグメンテーションネットワークを含み得る。
ここで、特徴抽出ネットワークは、サンプル画像の特徴を抽出するために使用され、当該特徴抽出ネットワークは、畳み込みニューラルネットワークであってもよく、例えば、既存のVGG(Visual Geometry Group)ネットワーク、ResNet、DenseNetなどを採用してもよく、他の畳み込みニューラルネットワーク構造を採用してもよい。本出願は、特徴抽出ネットワークの具体的な構造に対して制限せず、一例示的な実施形態において、特徴抽出ネットワークは、畳み込み層、励起層、プーリング層などのネットワークユニットを含み得、上述のネットワークユニットが特定の方式に応じてスタックされる。
目標予測ネットワークは、目標対象のバウンディングボックスを予測し、即ち、候補バウンディングボックスの予測情報を予測して生成するために使用される。本出願は、目標予測ネットワークの具体的な構造に対して限定せず、一例示的な実施形態において、目標予測ネットワークは、畳み込み層、分類層、回帰層などのネットワークユニットを含み得、上述のネットワークユニットが特定の方式に応じてスタックされる。
前景セグメンテーションネットワークは、サンプル画像内の前景画像を予測し、即ち、目標対象を含む画素領域を予測するために使用される。本出願は、前景セグメンテーションネットワークの具体的な構造に対して限定せず、一例示的な実施形態において、前景セグメンテーションネットワークは、アップサンプリング層、マスク(mask)層を含み得、上述のネットワークユニットが特定の方式に応じてスタックされる。
図8は、本開示の実施例が適用可能な目標検出ネットワークのネットワーク構造を示し、図8は、目標検出ネットワークを例示的に示すだけであり、実際の実施では、これらに限定されないことに留意されたい。
図8に示されたように、目標抽出ネットワークは、特徴抽出ネットワーク810、並びに特徴抽出ネットワーク810とカスケード接続された目標予測ネットワーク820および前景セグメンテーションネットワーク830を含む。
ここで、特徴抽出ネットワーク810は、順次に接続された第1畳み込み層(C1)811、第1プーリング層(P1)812、第2畳み込み層(C2)813、第2プーリング層(P2)814および第3畳み込み層(C3)815を含み、即ち、特徴抽出ネットワーク810において、畳み込み層およびプーリング層は交互に接続される。畳み込み層は、複数の畳み込みカーネルを介して画像内の異なる特徴をそれぞれ抽出して、複数の特徴マップを取得し、プーリング層は、畳み込み層の後に位置し、特徴マップのデータに対してローカル平均化およびダウンサンプリングの操作を実行して、特徴データの解像度を下げることができる。畳み込み層およびプーリング層の数の増加に伴い、特徴マップの数は徐々に増加し、さらに、特徴マップの解像度が徐々に低下する。
特徴抽出ネットワーク810によって出力されたマルチチャネル特徴データを目標予測ネットワーク820および前景セグメンテーションネットワーク830にそれぞれ入力する。
目標予測ネットワーク820は、第4畳み込み層(C4)821、分類層822および回帰層823を含む。ここで、分類層822および回帰層823は、第4畳み込み層821とそれぞれカスケード接続する。
第4畳み込み層821は、スライドウィンドウ(例えば、3*3)を使用して入力された特徴データを畳み込み、各ウィンドウは、複数のアンカーボックスに対応し、各ウィンドウは、分類層823および回帰層824に全結合されるためのベクトルを生成する。ここでは、2つまたは複数の畳み込み層を使用して、入力された特徴データを畳み込むこともできる。
分類層822は、アンカーボックスによって生成されたバウンディングボックス内が前景か背景かを判断するために使用され、回帰層823は、候補バウンディングボックスのおおよその位置を取得するために使用され、分類層822および回帰層823の出力結果に基づいて、目標対象を含む候補バウンディングボックスを予測し、当該候補バウンディングボックス内が前景、背景である確率および当該候補バウンディングボックスのパラメータを出力することができる。
前景セグメンテーションネットワーク830は、アップサンプリング層831およびマスク層832を含む。アップサンプリング層831は、入力された特徴データを元のサンプル画像サイズに変換するために使用され、マスク層832は、前景のバイナリマスクを生成するために使用され、即ち、前景画素に対して1を出力し、背景画素に対して0を出力する。
さらに、候補バウンディングボックスと前景画像領域の重複領域を計算する場合、第4畳み込み層821およびマスク層832が画像サイズの変換を実行することにより、特徴位置が対応するようにし、即ち、目標予測ネットワーク820および前景セグメンテーションネットワーク830の出力は、画像上の同じ位置の情報を予測することができるため、重複領域を計算する。
当該目標検出ネットワークをトレーニングする前に、特徴抽出ネットワーク810における各畳み込み層および目標予測ネットワークにおける畳み込み層に使用される畳み込みカーネルの数を設定することができ、畳み込みカーネルのサイズを設定することもできるなど、いくつかのネットワークパラメータを設定することができる。畳み込みカーネルの値や他の層の重みなどのパラメータ値において、反復トレーニングを通じて自己学習を実行することができる。
トレーニングサンプルを準備し、および目標検出ネットワーク構造を初期化した基で、目標検出ネットワークのトレーニングを実行し始めることができる。以下、目標検出ネットワークの具体的なトレーニング方法に例を挙げる。
最初の目標検出ネットワークのトレーニング
いくつかの実施例において、目標検出ネットワークの構造は図8を参照することができる。
図9の例を参照すると、目標検出ネットワークを入力するサンプル画像は、軍艦画像を含むリモートセンシング画像であり得る。当該サンプル画像において、含まれた軍艦の真のバウンディングボックスを注釈し、注釈情報は、当該バウンディングボックスの4つの頂点の座標などの真のバウンディングボックスのパラメータ情報であってもよい。
入力されたサンプル画像は、先ず、特徴抽出ネットワークを介して、サンプル画像の特徴を抽出し、当該サンプル画像のマルチチャネル特徴データを出力する。特徴データの大きさおよびチャネルの数を出力することは、特徴抽出ネットワークの畳み込み層構造およびプーリング層構造によって決定される。
当該マルチチャネル特徴データは、一方では、目標予測ネットワークに入力され、目標予測ネットワークは、現在のネットワークパラメータに基づいて設定され、入力された特徴データに基づいて、軍艦を含む候補バウンディングボックスを予測し、当該候補バウンディングボックスの予測情報を生成する。当該予測情報は、当該バウンディングボックスが前景、背景である確率、および当該バウンディングボックスのサイズ、位置、角度などの当該バウンディングボックスのパラメータ情報を含み得る。事前に注釈された目標対象の注釈情報および予測して取得された候補バウンディングボックスの予測情報に基づいて、第1ネットワーク損失関数の値
Figure 0007096365000020
、即ち、第1ネットワーク損失値を取得することができる。当該第1ネットワーク損失関数の値は、注釈情報と予測情報の間の差を具現する。
もう一方では、当該マルチチャネル特徴データは、前景セグメンテーションネットワークに入力され、前景セグメンテーションネットワークは、現在のネットワークパラメータに基づいて設定され、サンプル画像に軍艦の前景画像領域が含まれると予測する。例えば、特徴データにおける各画素が前景、背景である確率を介して、前景である確率が、設定された値より大きい画素の全てが前景画素として使用されることにより、画素セグメンテーションを実行し、予測した前景画像領域を取得することができる。
サンプル画像において、既に、軍艦の真のバウンディングボックスを事前に注釈し、4つの頂点の座標などの当該真のバウンディングボックスのパラメータを介して、サンプル画像における、前景である画素を取得することができるため、サンプル画像における真の前景画像を知ることができる。予測した前景画像および注釈情報を介して取得された真の前景画像に基づいて、第2ネットワーク損失関数の値
Figure 0007096365000021
、即ち、第2ネットワーク損失値を取得することができる。当該第2ネットワーク損失関数の値は、予測した前景画像と注釈情報の間の差を具現する。
畳み込みカーネルの値、他の層の重みを調整するなど、ネットワークパラメータの値を調整するために、第1ネットワーク損失関数の値および第2ネットワーク損失関数の値に基づいて共同に決定された総損失値を目標検出ネットワークに逆にバックホールすることができる。一例において、第1ネットワーク損失関数と第2ネットワーク損失関数の和を総損失関数として決定し、総損失関数を使用してパラメータ調整を実行することができる。
目標検出ネットワークをトレーニングする場合、トレーニングサンプルセットを複数の画像サブセット(batch)に分けることができ、各画像サブセットは、1つまたは複数のトレーニングサンプルを含む。反復トレーニングを毎回実行する時に、1つの画像サブセットをネットワークに順次に入力し、当該画像サブセットに含まれたトレーニングサンプルにおける各サンプル予測結果の損失値を組み合わせてネットワークパラメータの調整を実行する。今回反復トレーニングの完了後、次の反復トレーニングを実行するために、次の画像サブセットをネットワークに入力する。異なる画像サブセットに含まれるトレーニングサンプルは、少なくとも一部が異なる。所定の終了条件に達する場合、目標検出ネットワークのトレーニングを完了することができる。前記所定のトレーニング終了条件は、例えば、総損失値(LOSS値)が特定の閾値に低下し、または所定の目標検出ネットワークの反復回数に達することであってもよい。
本実施の目標検出ネットワークトレーニング方法は、目標予測ネットワークに対象レベルの監視情報を提供することにより、画素セグメンテーションネットワークに画素レベルの監視情報を提供することにより、2つの異なる層の監視情報により、特徴抽出ネットワークによって抽出された特徴の品質を向上させ、さらに、one-stageの目標予測ネットワークおよび画素セグメンテーションネットワークを使用して検出して、検出效率を向上させる。
2番目の目標検出ネットワークのトレーニング
いくつかの実施例において、目標予測ネットワークは、次の方式により、目標対象の候補バウンディングボックスを予測して取得する。目標予測ネットワーク的構造は図8を参照することができる。
図10は、候補バウンディングボックスを予測する方法のフロチャートであり、図10に示されたように、当該プロセスは、次のステップを含み得る。
ステップ1001において、前記特徴データの各ポイントをアンカーとして使用して、各アンカーを中心として複数のアンカーボックスを作成する。
例えば、サイズが[H×W]である特徴層において、合計H×W×k個のアンカーボックスを作成し、ここで、kは、各アンカーによって生成されたアンカーボックスの数である。ここで、検出される目標対象を覆うことができるように、1つのアンカーで作成された複数のアンカーボックスに異なるアスペクト比を設定する。先ず、ほとんどの目標のサイズ分布の統計などの演繹的知識に基づいて、ハイパーパラメータ設定を介してアプリオリアンカーボックスを直接に生成することができ、その後、特徴を介してアンカーボックスを予測することができる。
ステップ1002において、前記アンカーを前記サンプル画像にマッピングして、前記サンプル画像上の各アンカーボックスに含まれる領域を取得する。
このステップにおいて、全てのアンカーをサンプル画像にマッピングし、即ち、特徴データをサンプル画像にマッピングして、アンカーを中心として生成された、サンプル画像においてアンカーボックスによってフレーム化された領域を取得することができる。アプリオリアンカーボックス、予測値および当前の特徴の解像度を組み合わせて共に計算することにより、アンカーボックスをサンプル画像の位置およびサイズにマッピングして、サンプル画像の各アンカーボックスに含まれる領域を取得することができる。
上記したプロセスは、1つの畳み込みカーネル(スライドウィンドウ)を使用して入力された特徴データでスライディング操作を実行することに相当し、畳み込みカーネルが特徴データの特定の位置にスライディングされると、現在のスライドウィンドウ中心を中心としてサンプル画像の1つの領域にマッピングし、サンプル画像上のこの領域の中心を、対応するアンカーとし、また、アンカーを中心としてアンカーボックスをフレーム化する。即ち、アンカーは、特徴データに基づいて定義されるが、最終的に、当該アンカーは、元のサンプル画像に対応する。
図8に示された目標予測ネットワーク構造において、第4畳み込み層821を介して特徴を抽出するプロセスを実現することができ、例えば、第4畳み込み層821の畳み込みカーネルは、3×3の大きさであり得る。
ステップ1003において、サンプル画像にマッピングされたアンカーボックスと真のバウンディングボックスの交差比に基づいて、前景アンカーボックスを決定し、前記前景アンカーボックスが前景、背景である確率を取得する。
このステップにおいて、前記サンプル画像のアンカーボックスに含まれる領域と真のバウンディングボックスの重複状態を比較することにより、どれらのアンカーボックスが前景であり、どれらのアンカーボックスが背景であるか決定し、即ち、各アンカーボックスの全てに、前景または背景のラベル(label)を付け、前景ラベルを有するアンカーボックスは、前景アンカーボックスであり、背景ラベルを有するアンカーボックスは、背景アンカーボックスである。
一例において、真のバウンディングボックスの交差比が0.5などの第1設定された値より大きいアンカーボックスは、前景を含む候補バウンディングボックスと見なされることができる。さらに、アンカーボックスを2つのカテゴリに分類することにより、アンカーボックスが前景、背景である確率を決定することもできる。
前景アンカーボックスを使用して目標検出ネットワークをトレーニングすることができ、例えば、これを正のサンプルとしてネットワークをトレーニングし、これらの前景アンカーボックスが損失関数の計算に参与するようにし、この一部の損失は、通常、分類損失と称され、この損失は、前景アンカーボックスの2クラス確率および前景アンカーボックスのラベルに基づいて比較して取得される。
1つの画像サブセットにおいて、当該画像サブセットは、一枚のサンプル画像からランダムに抽出されたラベルが前景である256個などの複数のアンカーボックスを含むようにすることができ、正のサンプルとしてトレーニングに使用される。
一例において、正のサンプルの数が足りない場合、負のサンプルを使用して目標検出ネットワークをトレーニングすることもできる。負のサンプル、例えば、真のバウンディングボックスとの交差比が0.1などの第2設定された値より小さいアンカーボックスであってもよい。
この例において、1つの画像サブセットが、一枚のサンプル画像からランダムに抽出された256個のアンカーボックスを含むようにすることができ、ここで、128個のラベルは前景のアンカーボックスであり、正のサンプルとして使用され、他の128個のラベルは、真のバウンディングボックスとの交差比が、0.1などの第2設定された値より小さいアンカーボックスであり、負のサンプルとして使用され、正および負のサンプルの比率が1:1であるようにする。1つの画像における正のサンプルの数が128より小さい場合、256個のアンカーボックスをトレーニングに使用することを満たすために、より多くの負のサンプルを使用することができる。
ステップ1004において、前記前景アンカーボックスに対してバウンディングボックス回帰を実行して、候補バウンディングボックスを取得し、前記候補バウンディングボックスのパラメータを取得する。
このステップにおいて、前景アンカーボックス、候補バウンディングボックスのパラメータタイプは、アンカーボックスのパラメータタイプと一致し、即ち、作成されたアンカーボックスはどのパラメータを含み、生成された候補バウンディングボックスもどのパラメータを含む。
ステップ1003で取得された前景アンカーボックスは、アスペクト比がサンプル画像内の軍艦のアスペクトと差がある可能性があり、また、前景アンカーボックスの位置、角度でもサンプル軍艦と差がある可能性があるため、前景アンカーボックスと、当該前景アンカーボックスに対応する真のバウンディングボックスとの間のオフセットを使用して回帰トレーニングを実行して、目標予測ネットワークが前景アンカーボックスを介して候補バウンディングボックスへのオフセットを予測する能力を備えるようにする必要があり、それにより、候補バウンディングボックスのパラメータを取得する。
ステップ1003およびステップ1004を通じて、候補バウンディングボックスが前景、背景である確率、および候補バウンディングボックスのパラメータなどの、候補バウンディングボックスの情報を取得することができる。上述の候補バウンディングボックスの情報、およびサンプル画像内の注釈情報(目標対象に対応する真のバウンディングボックス)に基づいて、第1ネットワーク損失を取得することができる。
本開示の実施例において、目標予測ネットワークはone stageネットワークであり、候補バウンディングボックスを最初に予測して取得した後に、候補バウンディングボックスの予測結果を出力して、ネットワークの検出効率を向上させる。
3番目の目標検出ネットワークのトレーニング
関連技術では、各アンカーに対応するアンカーボックスのパラメータは、通常、長さ、幅および中心点の座標を含む。本具現例において、回転アンカーボックスの設定方法を提案する。
一例において、検出される目標対象を覆うために、各アンカーを中心として複数の方向のアンカーボックスを作成し、複数のアスペクト比を設定することができる。具体的な方向の数およびアスペクト比の値を実際のニーズに従って設定することができる。図11に示されたように、構築されたアンカーボックスは6つの方向に対応し、ここで、wはアンカーボックスの幅を示し、lはアンカーボックスの長さを示し、θはアンカーボックスの角度(水平に対するアンカーボックスの回転角度)を示し、
Figure 0007096365000022
はアンカーボックスの中心点の座標を示す。方向に均一に分布する6つのアンカーボックスに対応して、
Figure 0007096365000023
は、それぞれ、
Figure 0007096365000024
である。対応的に、この例において、アンカーボックスのパラメータは
Figure 0007096365000025
で示される。ここで、アスペクト比率は、1、3、5として設定されてもよく、検出する目標対象に対して他の値に設定されてもよい。
いくつかの実施例において、候補バウンディングボックスのパラメータも同様に
Figure 0007096365000026
で示されることができ、当該パラメータは、図8の回帰層823を使用して回帰計算を実行することができる。回帰計算の方法は、次の通りである。
先ず、前景アンカーボックスから真のバウンディングボックスへのオフセットを計算して取得する。
例えば、前景アンカーボックスのパラメータ値は
Figure 0007096365000027
であり、ここで、
Figure 0007096365000028
は、それぞれ、前景アンカーボックスの中心点x座標、中心点y座標、幅、長さ、角度を示し、真のバウンディングボックスに対応する5つの値は
Figure 0007096365000029
であり、ここで、
Figure 0007096365000030
は、それぞれ、真のバウンディングボックスの中心点x座標、中心点y座標、幅、長さ、角度を示す。
前景アンカーボックスのパラメータ値および真のバウンディングボックスの値に基づいて、前景アンカーボックスと真のバウンディングボックスの間のオフセット
Figure 0007096365000031
を決定することができ、ここで、
Figure 0007096365000032
は、それぞれ、中心点x座標、中心点y座標、幅、長さ、角度のオフセットを示す。各オフセットは、例えば、それぞれ、式(4)~(8)を介して計算することができる。
式(4):
Figure 0007096365000033
式(5):
Figure 0007096365000034
式(6):
Figure 0007096365000035
式(7):
Figure 0007096365000036
式(8):
Figure 0007096365000037
ここで、式(6)および式(7)では、差が大きい場合に迅速に収束することができるようにするために、長さと幅のオフセットを対数で示す。
一例において、入力されたマルチチャネル特徴データが複数の真のバウンディングボックスを有する場合、各前景アンカーボックスは、それらと最も高い重複度を有する真のバウンディングボックスを選択してオフセットを計算する。
次に、前景アンカーボックスから候補バウンディングボックスへのオフセットを取得する。
ここでは、アンカーボックスと真のバウンディングボックスの関係を確率するための式を見つけるプロセスは、回帰を使用して実現することができる。図8のネットワーク構造を例とすると、上述のオフセットトレーニング回帰層823を使用することができる。トレーニング完了後、目標予測ネットワークは、各アンカーボックス到と之に対応する最適な候補バウンディングボックスのオフセット
Figure 0007096365000038
を識別する能力を備え、即ち、アンカーボックスのパラメータ値に基づいて、中心点x座標、中心点y座標、幅、長さ、角度を含む、候補バウンディングボックスのパラメータ値を決定することができる。トレーニングする時は、回帰層を使用して前景アンカーボックスから候補バウンディングボックスへのオフセットを先に計算することができる。トレーニングする時のネットワークパラメータの最適化が完了していないため、当該オフセットと実際のオフセット
Figure 0007096365000039
の差が比較的に大きい可能性がある。
最後に、前記オフセットに基づいて、前記前景アンカーボックスをオフセットして、前記候補バウンディングボックスを取得し、前記候補バウンディングボックスのパラメータを取得する。
第1ネットワーク損失関数の値を計算する場合、前景アンカーボックスから候補バウンディングボックスへのオフセット
Figure 0007096365000040
、およびトレーニングする時の前景アンカーボックスと真のバウンディングボックスのオフセット
Figure 0007096365000041
を使用して回帰損失を計算することができる。
前述の予測した前景アンカーボックスが前景、背景である確率は、当該前景アンカーボックスを回帰して候補バウンディングボックスを取得した後に、当該確率は、即ち、候補バウンディングボックスが前景、背景である確率であり、当該確率に基づいて、候補バウンディングボックスが前景、背景であることを予測する分類損失を決定することができる。当該分類損失と候補バウンディングボックスのパラメータを予測する回帰損失の和は、第1ネットワーク損失関数の値を構成する。1つの画像サブセットにおいて、全ての候補バウンディングボックスの第1ネットワーク損失関数の値に基づいて、ネットワークパラメータの調整を実行することができる。
方向のあるアンカーボックスを設定することにより、目標対象ポーズにより適合する外接長方形バウンディングボックスを生成することができ、バウンディングボックス間の重複部分の計算がより厳密且つ正確になる。
4番目の目標検出ネットワークのトレーニング
標準情報及び候補バウンディングボックスの情報に基づいて第1ネットワーク損失関数の値を取得する場合、アンカーボックスの各パラメータの重みの比率を設定して、幅の重みの比率が他のパラメータの重みの比率より高くなり、設定された重みの比率に従って、第1ネットワーク損失関数の値を計算するようにすることができる。
重みの比率が高いパラメータほど、最終的に計算して取得された損失関数値の寄与が大くなり、ネットワークパラメータ調整を実行する時は、調整の結果が当該パラメータ値に及ぼす影響により注意が払われ、それにより、当該パラメータの計算の精度は他のパラメータより高くなる。軍艦などのアスペクト比が大きい目標対象において、当該目標対象の幅は、長さに比べて非常に小さいため、幅の重みを他のパラメータの重みよりも高く設定し、幅の予測精度を向上させることができる。
5番目の目標検出ネットワークのトレーニング
いくつかの実施例において、次の方式によりサンプル画像内の前景画像領域を予測して取得することができる前景セグメンテーションネットワークの構造は、図8を参照することができる。
図12は、前景画像領域方法を予測する実施例のフロチャートであり、図12に示されたように、当該プロセスは、次のステップを含み得る。
ステップ1201において、前記特徴データに対してアップサンプリング処理を実行して、処理後の特徴データの大きさをサンプル画像の大きさと同じにする。
例えば、逆畳み込み層、またはバイリニア補間を介して特徴データに対してアップサンプリング処理を実行して、特徴データをサンプル画像サイズに拡大することができる。画素セグメンテーションネットワークを入力するものはマルチチャネル特徴データであるため、アップサンプリング処理後、チャネルの数に対応する特徴データ、サンプル画像サイズと一致する特徴データを取得する。特徴データ上の各位置のそれぞれは、元の画像位置と一対一で対応する。
ステップ1202において、前記処理後の前記特徴データに基づいて画素セグメンテーションを実行して、前記サンプル画像のサンプル前景セグメンテーション結果を取得する。
特徴データの各画素において、前記画素が前景、背景に属する確率を判断することができる。閾値を設定することにより、前景に属する確率が、設定された閾値より大きい画素を前景画素として決定することができ、各画素に対してマスク情報を生成することができ、通常、0、1で示され、ここで、0は背景を示し、1は前景を示すことができる。当該マスク情報に基づいて、前景である画素を決定することができ、それにより、画素レベルの前景セグメンテーション結果を取得する。特徴データ上の各画素のそれぞれは、サンプル画像上の領域に対応し、サンプル画像には既に目標対象の真のバウンディングボックスが注釈されたため、注釈情報に従って、各画素の分類結果と真のバウンディングボックスの差を決定して、分類損失を取得する。
当該画素セグメンテーションネットワークはバウンディングボックスの位置の決定に関しないため、当該画素セグメンテーションネットワークに対応する第2ネットワーク損失関数の値を、各画素の分類損失の和によって決定することができる。ネットワークパラメータを継続的に調整して、第2ネットワーク損失値を最小限に抑えることにより、各画素の分類をより正確にし、それにより、目標対象の前景画像をより正確に決定することができる。
いくつかの実施例において、特徴データに対してアップサンプリング処理を実行し、および各画素に対してマスク情報を生成することにより、画素レベルの前景画像領域を取得して、目標検出の精度を向上させることができる。
図13は、目標検出装置を提供し、図13に示されたように、当該装置は、特徴抽出ユニット1301、目標予測ユニット1302、前景セグメンテーションユニット1303および目標決定ユニット1304を備えることができる。
特徴抽出ユニット1301は、入力画像の特徴データを取得するように構成される。
目標予測ユニット1302は、前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定するように構成される。
前景セグメンテーションユニット1303は、前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得するように構成され、ここで、前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含む。
目標決定ユニット1304は、前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得するように構成される。
別の実施例において、前記目標決定ユニット1304は、具体的に、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも1つの目標バウンディングボックスを選択し、前記少なくとも1つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得するように構成される。
別の実施例において、前記目標決定ユニット1304は、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも1つの目標バウンディングボックスを選択するように構成される場合、具体的に、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、前記候補バウンディングボックスと、対応する前景画像領域との間の重複領域の、前記候補バウンディングボックスに占める比率が第1閾値より大きい場合、前記候補バウンディングボックスを前記目標バウンディングボックスとして使用するように構成される。
別の実施例において、前記少なくとも1つの目標バウンディングボックスは、第1バウンディングボックスおよび第2バウンディングボックスを含み、前記目標決定ユニット1304前記少なくとも1つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得するように構成される場合、具体的に、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度に基づいて、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータを決定し、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータに基づいて、前記第1バウンディングボックスおよび前記第2バウンディングボックスに対応する目標対象位置を決定するように構成される。
別の実施例において、前記目標決定ユニット1304は、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度に基づいて、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータを決定するように構成される場合、具体的に、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度に従って、角度係数を取得し、前記第1バウンディングボックスと前記第2バウンディングボックスの間の交差比および前記角度係数に従って、前記重複パラメータを取得するように構成される。
別の実施例において、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータは、前記交差比と前記角度係数の積であり、ここで、前記角度係数は、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度の増加に伴い増加する。
別の実施例において、前記交差比が一定に維持される条件では、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータは、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度の増加に伴い増加する。
別の実施例において、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータに基づいて、前記第1バウンディングボックスおよび前記第2バウンディングボックスに対応する目標対象位置を決定することは、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータが第2閾値より大きい場合、前記第1バウンディングボックスおよび前記第2バウンディングボックスのうちの1つのバウンディングボックスを目標対象位置として使用することを含む。
別の実施例において、第1バウンディングボックスおよび前記第2バウンディングボックスのうちの1つのバウンディングボックスを目標対象位置として使用することは、前記第1バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域の間の重複パラメータ、および前記第2バウンディングボックスと前記前景画像領域の間の重複パラメータを決定することと、前記第1バウンディングボックスおよび前記第2バウンディングボックスのうち、前記前景画像領域との間の重複パラメータがより大きいバウンディングボックスを目標対象位置として使用することとを含む。
別の実施例において、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータに基づいて、前記第1バウンディングボックスおよび前記第2バウンディングボックスに対応する目標対象位置を決定することは、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータが第2閾値より小さいか等しい場合、前記第1バウンディングボックスおよび第2バウンディングボックスを両方とも目標対象位置として使用することを含む。
別の実施例において、前記入力画像内の検出される目標対象のアスペクト比は特定の値より大きい。
図14は、目標検出ネットワークのトレーニング装置を提供し、前記目標検出ネットワークは、特徴抽出ネットワーク、目標予測ネットワークおよび前景セグメンテーションネットワークを含む。図14に示されたように、当該装置は、特徴抽出ユニット1401、目標予測ユニット1402、前景セグメンテーションユニット1403、損失値決定ユニット1404およびパラメータ調整ユニット1405を備えることができる。
特徴抽出ユニット1401は、前記特徴抽出ネットワークを介してサンプル画像に対して特徴抽出処理を実行して、前記サンプル画像の特徴データを取得するように構成される。
目標予測ユニット1402は、前記特徴データに従って、前記目標予測ネットワークを介して複数のサンプル候補バウンディングボックスを取得するように構成される。
前景セグメンテーションユニット1403は、前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得するように構成され、ここで、前記サンプル前景セグメンテーション結果は、前記サンプル画像の複数の画素点における各画素点が前景に属するかどうかを指示する指示情報を含む。
損失値決定ユニット1404は、前記複数のサンプル候補バウンディングボックス、前記サンプル前景セグメンテーション結果および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定するように構成される。
パラメータ調整ユニット1405は、前記ネットワーク損失値に基づいて、前記目標検出ネットワークのネットワークパラメータを調整するように構成される。
別の実施例において、前記注釈情報は、前記サンプル画像に含まれる少なくとも1つの目標対象の真のバウンディングボックスを含み、前記損失値決定ユニット1404は、具体的に、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、当該候補バウンディングボックスと、前記サンプル画像によって注釈された少なくとも1つの真の目標バウンディングボックスにおける各真の目標バウンディングボックスの間の交差比を決定し、決定された前記複数の候補バウンディングボックスにおける各候補バウンディングボックスの前記交差比に従って、第1ネットワーク損失値を決定するように構成される。
別の実施例において、前記候補バウンディングボックスと前記真の目標バウンディングボックスの間の交差比は、前記候補バウンディングボックスおよび前記真の目標バウンディングボックスを含む外接円に基づいて取得される。
別の実施例において、前記ネットワーク損失値を決定するプロセスにおいて、前記候補バウンディングボックスの幅に対応する重みは、前記候補バウンディングボックスの長さに対応する重みより高い。
別の実施例において、前記前景セグメンテーションユニット1403は、具体的に、前記特徴データに対してアップサンプリング処理を実行して、処理後の前記特徴データの大きさをサンプル画像の大きさと同じにし、前記処理後の前記特徴データに基づいて画素セグメンテーションを実行して、前記サンプル画像のサンプル前景セグメンテーション結果を取得するように構成される。
別の実施例において、前記サンプル画像に含まれる目標対象のアスペクト比は、設定された値より高い。
図15は、本開示の少なくとも1つの実施例で提供された目標検出機器であり、前記機器は、メモリ1501およびプロセッサ1502を備え、前記メモリは、プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、本明細書のいずれか1つの実施例に記載の目標検出方法を実現するように構成される。前記機器は、ネットワークインターフェース1503および内部バス1504を備えることができる。メモリ1501、プロセッサ1502およびネットワークインターフェース1503は、内部バス1504を介して相互通信を行う。
図16は、本開示の少なくとも1つの実施例で提供された目標検出ネットワークのトレーニング機器であり、前記機器は、メモリ1601およびプロセッサ1602を備え、前記メモリは、プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、本明細書のいずれか1つの実施例に記載の目標検出ネットワークのトレーニング方法を実現するように構成される。前記機器は、ネットワークインターフェース1603および内部バス1604を備えることができる。メモリ1601、プロセッサ1602およびネットワークインターフェース1603は、内部バス1604を介して相互通信を行う。
本明細書の少なくとも1つの実施例は、コンピュータプログラムが記憶された不揮発性コンピュータ読み取り可能な記憶媒体をさらに提供し、前記プログラムがプロセッサによって実行されると、本明細書のいずれか1つの実施例に記載の目標検出方法を実現し、および/または、本明細書のいずれか1つの実施例に記載の目標検出ネットワークのトレーニング方法を実現する。
本出願の実施例において、コンピュータ読み取り可能な記憶媒体は様々な形であってもよく、例えば、様々な例において、前記機械読み取り可能な記憶媒体は、不揮発性メモリ、フラッシュメモリ、ストレージドライブ(ハードディスクドライブなど)、ソリッドステートハードディスク、任意のタイプのストレージディスク(光ディスク、DVDなど)、または類似の記憶媒体、またはそれらの組み合わせであってもよい。特に、前記コンピュータ読み取り可能な媒体は、紙またはプログラムを印刷することができる他の適切な媒体であってもよい。これらの媒体を使用し、これらのプログラムは、電気的手段(例えば、光学スキャニングなど)で取得され、適切な方式でコンパイル、解釈および処理されることができ、その後、コンピュータ媒体に記憶されることができる。
上記は、本出願の好ましい実施例に過ぎず、本出願を限定することを意図するものではなく、本出願の精神および原則内で行われるあらゆる修正、同等の置換、改善などは、本願の保護範囲に含まれるべきである。

Claims (14)

  1. 目標検出方法であって、
    入力画像の特徴データを取得することと、
    前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定することと、
    前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得することであって、前記前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含むことと、
    前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも1つの目標バウンディングボックスを選択することと、
    前記少なくとも1つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得することとを含み、
    前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも1つの目標バウンディングボックスを選択することは、
    前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、前記候補バウンディングボックスと、対応する前景画像領域との間の重複領域の、前記候補バウンディングボックスに占める比率が第1閾値より大きい場合、前記候補バウンディングボックスを前記目標バウンディングボックスとして使用することを含むことを特徴とする、前記目標検出方法。
  2. 前記少なくとも1つの目標バウンディングボックスは、第1バウンディングボックスおよび第2バウンディングボックスを含み、前記少なくとも1つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得することは、
    前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度に基づいて、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータを決定することと、
    前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータに基づいて、前記第1バウンディングボックスおよび前記第2バウンディングボックスに対応する目標対象位置を決定することとを含むことを特徴とする、
    請求項に記載の目標検出方法。
  3. 前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度に基づいて、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータを決定することは、
    前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度に従って、角度係数を取得することと、
    前記第1バウンディングボックスと前記第2バウンディングボックスの間の交差比および前記角度係数に従って、前記重複パラメータを取得することとを含むことを特徴とする、
    請求項に記載の目標検出方法。
  4. 前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータは、前記交差比と前記角度係数の積であり、前記角度係数は、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度の増加に伴い増加し、または
    前記交差比が一定に維持される条件では、前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータは、前記第1バウンディングボックスと前記第2バウンディングボックスの間の角度の増加に伴い増加することを特徴とする、
    請求項に記載の目標検出方法。
  5. 前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータに基づいて、前記第1バウンディングボックスおよび前記第2バウンディングボックスに対応する目標対象位置を決定することは、
    前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータが第2閾値より大きい場合、前記第1バウンディングボックスおよび前記第2バウンディングボックスのうちの1つのバウンディングボックスを前記目標対象位置として使用し、および/または
    前記第1バウンディングボックスと前記第2バウンディングボックスの重複パラメータが第2閾値より小さいか等しい場合、前記第1バウンディングボックスおよび前記第2バウンディングボックスを両方とも前記目標対象位置として使用することを含むことを特徴とする、
    請求項2ないし4のいずれか一項に記載の目標検出方法。
  6. 前記第1バウンディングボックスおよび前記第2バウンディングボックスのうちの1つのバウンディングボックスを前記目標対象位置として使用することは、
    前記第1バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域の間の重複パラメータ、および前記第2バウンディングボックスと前記前景画像領域の間の重複パラメータを決定することと、
    前記第1バウンディングボックスおよび前記第2バウンディングボックスのうち、前記前景画像領域との間の重複パラメータがより大きいバウンディングボックスを前記目標対象位置として使用することとを含むことを特徴とする、
    請求項に記載の目標検出方法。
  7. 目標検出ネットワークのトレーニング方法であって、
    前記目標検出ネットワークは、特徴抽出ネットワーク、目標予測ネットワークおよび前景セグメンテーションネットワークを含み、前記方法は、
    前記特徴抽出ネットワークを介してサンプル画像に対して特徴抽出処理を実行して、前記サンプル画像の特徴データを取得することと、
    前記特徴データに従って、前記目標予測ネットワークを介して複数のサンプル候補バウンディングボックスを取得することと、
    前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得することであって、前記サンプル前景セグメンテーション結果は、前記サンプル画像の複数の画素点における各画素点が前景に属するかどうかを指示する指示情報を含むことと、
    前記複数のサンプル候補バウンディングボックスにおける各サンプル候補バウンディングボックスと、前記サンプル前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数のサンプル候補バウンディングボックスから少なくとも1つの目標バウンディングボックスを選択することと、
    前記少なくとも1つの目標バウンディングボックスおよび前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定することと、
    前記ネットワーク損失値に基づいて、前記目標検出ネットワークのネットワークパラメータを調整することとを含み、
    前記複数のサンプル候補バウンディングボックスにおける各サンプル候補バウンディングボックスと、前記サンプル前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数のサンプル候補バウンディングボックスから少なくとも1つの目標バウンディングボックスを選択することは、
    前記複数のサンプル候補バウンディングボックスにおける各サンプル候補バウンディングボックスにおいて、前記サンプル候補バウンディングボックスと、対応する前景画像領域との間の重複領域の、前記サンプル候補バウンディングボックスに占める比率が第1閾値より大きい場合、前記サンプル候補バウンディングボックスを前記目標バウンディングボックスとして使用することを含む、ことを特徴とする、前記目標検出ネットワークのトレーニング方法。
  8. 前記注釈情報は、前記サンプル画像に含まれる少なくとも1つの目標対象の真のバウンディングボックスを含み、前記少なくとも1つの目標バウンディングボックスおよび前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定することは、
    前記少なくとも1つの目標バウンディングボックスにおける各目標バウンディングボックスにおいて、前記目標バウンディングボックスと、前記サンプル画像によって注釈された少なくとも1つの真の目標バウンディングボックスにおける各真の目標バウンディングボックスの間の交差比を決定することと、
    決定された前記少なくとも1つの目標バウンディングボックスにおける各目標バウンディングボックスの前記交差比に従って、第1ネットワーク損失値を決定することとを含むことを特徴とする、
    請求項に記載の目標検出ネットワークのトレーニング方法。
  9. 前記目標バウンディングボックスと前記真の目標バウンディングボックスの間の交差比は、前記目標バウンディングボックスおよび前記真の目標バウンディングボックスを含む外接円に基づいて取得されることを特徴とする、
    請求項に記載の目標検出ネットワークのトレーニング方法。
  10. 前記ネットワーク損失値を決定するプロセスにおいて、前記候補バウンディングボックスの幅に対応する重みは、前記候補バウンディングボックスの長さに対応する重みより高いことを特徴とする、
    請求項7ないし9のいずれか一項に記載の目標検出ネットワークのトレーニング方法。
  11. 目標検出機器であって、
    メモリおよびプロセッサを備え、前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、請求項1ないしのいずれか一項に記載の方法を実現するように構成されることを特徴とする、前記目標検出機器。
  12. 目標検出ネットワークのトレーニング機器であって、
    メモリおよびプロセッサを備え、前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、請求項7ないし10のいずれか一項に記載の方法を実現するように構成されることを特徴とする、前記目標検出ネットワークのトレーニング機器。
  13. コンピュータプログラムが記憶された不揮発性コンピュータ読み取り可能な記憶媒体であって、
    前記プログラムがプロセッサによって実行されると、前記プロセッサが請求項1ないしのいずれか一項に記載の方法を実現し、または請求項7ないし10のいずれか一項に記載の方法を実現するようにすることを特徴とする、前記不揮発性コンピュータ読み取り可能な記憶媒体。
  14. コンピュータ読み取り可能な記憶媒体に記憶され、コンピュータ読み取り可能なコードを含むコンピュータプログラム製品であって、
    前記コンピュータ読み取り可能なコードがデバイス上で実行される時に、前記デバイス中のプロセッサは、請求項1ないしのいずれか一項に記載の方法、または請求項7ないし10のいずれか一項に記載の方法を実現するための命令を実行することを特徴とする、前記コンピュータプログラム製品。
JP2020561707A 2019-06-26 2019-12-25 目標検出および目標検出ネットワークのトレーニング Active JP7096365B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910563005.8 2019-06-26
CN201910563005.8A CN110298298B (zh) 2019-06-26 2019-06-26 目标检测及目标检测网络的训练方法、装置及设备
PCT/CN2019/128383 WO2020258793A1 (zh) 2019-06-26 2019-12-25 目标检测及目标检测网络的训练

Publications (2)

Publication Number Publication Date
JP2021532435A JP2021532435A (ja) 2021-11-25
JP7096365B2 true JP7096365B2 (ja) 2022-07-05

Family

ID=68028948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020561707A Active JP7096365B2 (ja) 2019-06-26 2019-12-25 目標検出および目標検出ネットワークのトレーニング

Country Status (7)

Country Link
US (1) US20210056708A1 (ja)
JP (1) JP7096365B2 (ja)
KR (1) KR102414452B1 (ja)
CN (1) CN110298298B (ja)
SG (1) SG11202010475SA (ja)
TW (1) TWI762860B (ja)
WO (1) WO2020258793A1 (ja)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298298B (zh) * 2019-06-26 2022-03-08 北京市商汤科技开发有限公司 目标检测及目标检测网络的训练方法、装置及设备
CN110781819A (zh) * 2019-10-25 2020-02-11 浪潮电子信息产业股份有限公司 一种图像目标检测方法、系统、电子设备及存储介质
CN110866928B (zh) * 2019-10-28 2021-07-16 中科智云科技有限公司 基于神经网络的目标边界分割及背景噪声抑制方法及设备
CN112784638B (zh) * 2019-11-07 2023-12-08 北京京东乾石科技有限公司 训练样本获取方法和装置、行人检测方法和装置
CN110930420B (zh) * 2019-11-11 2022-09-30 中科智云科技有限公司 基于神经网络的稠密目标背景噪声抑制方法及设备
CN110880182B (zh) * 2019-11-18 2022-08-26 东声(苏州)智能科技有限公司 图像分割模型训练方法、图像分割方法、装置及电子设备
US11200455B2 (en) * 2019-11-22 2021-12-14 International Business Machines Corporation Generating training data for object detection
CN111027602B (zh) * 2019-11-25 2023-04-07 清华大学深圳国际研究生院 一种多级结构目标检测方法及系统
CN112886996A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 信号接收方法、用户设备、电子设备及计算机存储介质
CN111079638A (zh) * 2019-12-13 2020-04-28 河北爱尔工业互联网科技有限公司 基于卷积神经网络的目标检测模型训练方法、设备和介质
CN111179300A (zh) * 2019-12-16 2020-05-19 新奇点企业管理集团有限公司 障碍物检测的方法、装置、系统、设备以及存储介质
CN113051969A (zh) * 2019-12-26 2021-06-29 深圳市超捷通讯有限公司 物件识别模型训练方法及车载装置
CN111105411B (zh) * 2019-12-30 2023-06-23 创新奇智(青岛)科技有限公司 一种磁瓦表面缺陷检测方法
SG10201913754XA (en) * 2019-12-30 2020-12-30 Sensetime Int Pte Ltd Image processing method and apparatus, electronic device, and storage medium
CN111241947B (zh) * 2019-12-31 2023-07-18 深圳奇迹智慧网络有限公司 目标检测模型的训练方法、装置、存储介质和计算机设备
CN111079707B (zh) * 2019-12-31 2023-06-13 深圳云天励飞技术有限公司 人脸检测方法及相关装置
CN111260666B (zh) * 2020-01-19 2022-05-24 上海商汤临港智能科技有限公司 图像处理方法及装置、电子设备、计算机可读存储介质
CN111508019A (zh) * 2020-03-11 2020-08-07 上海商汤智能科技有限公司 目标检测方法及其模型的训练方法及相关装置、设备
CN111353464B (zh) * 2020-03-12 2023-07-21 北京迈格威科技有限公司 一种物体检测模型训练、物体检测方法及装置
US11847771B2 (en) * 2020-05-01 2023-12-19 Samsung Electronics Co., Ltd. Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation
CN111582265A (zh) * 2020-05-14 2020-08-25 上海商汤智能科技有限公司 一种文本检测方法及装置、电子设备和存储介质
CN111738112B (zh) * 2020-06-10 2023-07-07 杭州电子科技大学 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法
CN111797704B (zh) * 2020-06-11 2023-05-02 同济大学 一种基于相关物体感知的动作识别方法
CN111797993B (zh) * 2020-06-16 2024-02-27 东软睿驰汽车技术(沈阳)有限公司 深度学习模型的评价方法、装置、电子设备及存储介质
CN112001247A (zh) * 2020-07-17 2020-11-27 浙江大华技术股份有限公司 多目标检测方法、设备及存储装置
CN111967595B (zh) * 2020-08-17 2023-06-06 成都数之联科技股份有限公司 候选框标注方法及系统及模型训练方法及目标检测方法
US11657373B2 (en) * 2020-08-21 2023-05-23 Accenture Global Solutions Limited System and method for identifying structural asset features and damage
CN112508848B (zh) * 2020-11-06 2024-03-26 上海亨临光电科技有限公司 一种基于深度学习多任务端到端的遥感图像船舶旋转目标检测方法
KR20220068357A (ko) * 2020-11-19 2022-05-26 한국전자기술연구원 딥러닝 객체 검출 처리 장치
CN112597837B (zh) * 2020-12-11 2024-05-28 北京百度网讯科技有限公司 图像检测方法、装置、设备、存储介质和计算机程序产品
CN112906732B (zh) * 2020-12-31 2023-12-15 杭州旷云金智科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112862761B (zh) * 2021-01-20 2023-01-17 清华大学深圳国际研究生院 一种基于深度神经网络的脑瘤mri图像分割方法及系统
KR102378887B1 (ko) * 2021-02-15 2022-03-25 인하대학교 산학협력단 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치
CN112966587B (zh) * 2021-03-02 2022-12-20 北京百度网讯科技有限公司 目标检测模型的训练方法、目标检测方法及相关设备
CN112967322B (zh) * 2021-04-07 2023-04-18 深圳创维-Rgb电子有限公司 运动目标检测模型建立方法和运动目标检测方法
CN113095257A (zh) * 2021-04-20 2021-07-09 上海商汤智能科技有限公司 异常行为检测方法、装置、设备及存储介质
CN113160201B (zh) * 2021-04-30 2024-04-12 聚时科技(上海)有限公司 基于极坐标的环状边界框的目标检测方法
CN112990204B (zh) * 2021-05-11 2021-08-24 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113706450A (zh) * 2021-05-18 2021-11-26 腾讯科技(深圳)有限公司 图像配准方法、装置、设备及可读存储介质
CN113313697B (zh) * 2021-06-08 2023-04-07 青岛商汤科技有限公司 图像分割和分类方法及其模型训练方法、相关装置及介质
CN113284185B (zh) * 2021-06-16 2022-03-15 河北工业大学 用于遥感目标检测的旋转目标检测方法
CN113536986B (zh) * 2021-06-29 2024-06-14 南京逸智网络空间技术创新研究院有限公司 一种基于代表特征的遥感图像中的密集目标检测方法
CN113627421A (zh) * 2021-06-30 2021-11-09 华为技术有限公司 一种图像处理方法、模型的训练方法以及相关设备
CN113505256B (zh) * 2021-07-02 2022-09-02 北京达佳互联信息技术有限公司 特征提取网络训练方法、图像处理方法及装置
CN113610764A (zh) * 2021-07-12 2021-11-05 深圳市银星智能科技股份有限公司 地毯识别方法、装置、智能设备及存储介质
CN113361662B (zh) * 2021-07-22 2023-08-29 全图通位置网络有限公司 一种城市轨道交通遥感图像数据的处理系统及方法
CN113657482A (zh) * 2021-08-14 2021-11-16 北京百度网讯科技有限公司 模型训练方法、目标检测方法、装置、设备以及存储介质
CN113658199B (zh) * 2021-09-02 2023-11-03 中国矿业大学 基于回归修正的染色体实例分割网络
CN113469302A (zh) * 2021-09-06 2021-10-01 南昌工学院 一种视频图像的多圆形目标识别方法和系统
US11900643B2 (en) * 2021-09-17 2024-02-13 Himax Technologies Limited Object detection method and object detection system
CN113850783B (zh) * 2021-09-27 2022-08-30 清华大学深圳国际研究生院 一种海面船舶检测方法及系统
CN114037865B (zh) * 2021-11-02 2023-08-22 北京百度网讯科技有限公司 图像处理方法、装置、设备、存储介质和程序产品
WO2023128323A1 (ko) * 2021-12-28 2023-07-06 삼성전자 주식회사 목표 객체를 검출하는 전자 장치 및 방법
CN114359561A (zh) * 2022-01-10 2022-04-15 北京百度网讯科技有限公司 一种目标检测方法及目标检测模型的训练方法、装置
WO2023178542A1 (en) * 2022-03-23 2023-09-28 Robert Bosch Gmbh Image processing apparatus and method
CN114492210B (zh) * 2022-04-13 2022-07-19 潍坊绘圆地理信息有限公司 一种高光谱卫星星载数据智能解译系统及其实现方法
CN114463603B (zh) * 2022-04-14 2022-08-23 浙江啄云智能科技有限公司 图像检测模型的训练方法、装置、电子设备及存储介质
CN114842510A (zh) * 2022-05-27 2022-08-02 澜途集思生态科技集团有限公司 基于ScratchDet算法的生态生物识别方法
CN117036670B (zh) * 2022-10-20 2024-06-07 腾讯科技(深圳)有限公司 质量检测模型的训练方法、装置、设备、介质及程序产品
CN115496917B (zh) * 2022-11-01 2023-09-26 中南大学 一种GPR B-Scan图像中的多目标检测方法及装置
CN116152487A (zh) * 2023-04-17 2023-05-23 广东广物互联网科技有限公司 一种基于深度IoU网络的目标检测方法、装置、设备及介质
CN116721093B (zh) * 2023-08-03 2023-10-31 克伦斯(天津)轨道交通技术有限公司 基于神经网络的地铁轨道障碍物检测方法和系统
CN117854211B (zh) * 2024-03-07 2024-05-28 南京奥看信息科技有限公司 一种基于智能视觉的目标对象识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089505A1 (en) 2016-09-23 2018-03-29 Samsung Electronics Co., Ltd. System and method for deep network fusion for fast and robust object detection
JP2019061505A (ja) 2017-09-27 2019-04-18 株式会社デンソー 情報処理システム、制御システム、及び学習方法
JP2019067404A (ja) 2017-10-03 2019-04-25 株式会社ストラドビジョン マルコフ連鎖を用いてイメージ上の対象客体を追跡、分割する方法及び装置
CN110298298A (zh) 2019-06-26 2019-10-01 北京市商汤科技开发有限公司 目标检测及目标检测网络的训练方法、装置及设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9665767B2 (en) * 2011-02-28 2017-05-30 Aic Innovations Group, Inc. Method and apparatus for pattern tracking
KR20140134505A (ko) * 2013-05-14 2014-11-24 경성대학교 산학협력단 영상 객체 추적 방법
CN103530613B (zh) * 2013-10-15 2017-02-01 易视腾科技股份有限公司 一种基于单目视频序列的目标人手势交互方法
CN105046721B (zh) * 2015-08-03 2018-08-17 南昌大学 基于Grabcut及LBP跟踪质心矫正模型的Camshift算法
CN107872644B (zh) * 2016-09-23 2020-10-09 亿阳信通股份有限公司 视频监控方法及装置
CN106898005B (zh) * 2017-01-04 2020-07-17 努比亚技术有限公司 一种实现交互式图像分割的方法、装置及终端
KR20180107988A (ko) * 2017-03-23 2018-10-04 한국전자통신연구원 객체 탐지 장치 및 방법
KR101837482B1 (ko) * 2017-03-28 2018-03-13 (주)이더블유비엠 영상처리방법 및 장치, 그리고 이를 이용한 제스처 인식 인터페이스 방법 및 장치
CN107369158B (zh) * 2017-06-13 2020-11-13 南京邮电大学 基于rgb-d图像的室内场景布局估计及目标区域提取方法
CN107862262A (zh) * 2017-10-27 2018-03-30 中国航空无线电电子研究所 一种适用于高空侦察的快速可见光图像舰船检测方法
CN108513131B (zh) * 2018-03-28 2020-10-20 浙江工业大学 一种自由视点视频深度图感兴趣区域编码方法
CN108717693A (zh) * 2018-04-24 2018-10-30 浙江工业大学 一种基于rpn的视盘定位方法
CN109214353B (zh) * 2018-09-27 2021-11-23 云南大学 一种基于剪枝模型的人脸图像快速检测训练方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089505A1 (en) 2016-09-23 2018-03-29 Samsung Electronics Co., Ltd. System and method for deep network fusion for fast and robust object detection
JP2019061505A (ja) 2017-09-27 2019-04-18 株式会社デンソー 情報処理システム、制御システム、及び学習方法
JP2019067404A (ja) 2017-10-03 2019-04-25 株式会社ストラドビジョン マルコフ連鎖を用いてイメージ上の対象客体を追跡、分割する方法及び装置
CN110298298A (zh) 2019-06-26 2019-10-01 北京市商汤科技开发有限公司 目标检测及目标检测网络的训练方法、装置及设备

Also Published As

Publication number Publication date
TWI762860B (zh) 2022-05-01
KR20210002104A (ko) 2021-01-06
SG11202010475SA (en) 2021-01-28
US20210056708A1 (en) 2021-02-25
WO2020258793A1 (zh) 2020-12-30
JP2021532435A (ja) 2021-11-25
CN110298298A (zh) 2019-10-01
TW202101377A (zh) 2021-01-01
CN110298298B (zh) 2022-03-08
KR102414452B1 (ko) 2022-06-29

Similar Documents

Publication Publication Date Title
JP7096365B2 (ja) 目標検出および目標検出ネットワークのトレーニング
Lin et al. IENet: Interacting embranchment one stage anchor free detector for orientation aerial object detection
CN109902677B (zh) 一种基于深度学习的车辆检测方法
CN111222395B (zh) 目标检测方法、装置与电子设备
CN111259758B (zh) 一种针对密集区域的两阶段遥感图像目标检测方法
US10509987B1 (en) Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
CN104599258B (zh) 一种基于各向异性特征描述符的图像拼接方法
CN112233181A (zh) 6d位姿识别的方法、装置及计算机存储介质
CN109712071B (zh) 基于航迹约束的无人机图像拼接与定位方法
CN109858547A (zh) 一种基于bssd的目标检测方法与装置
CN113743417B (zh) 语义分割方法和语义分割装置
CN111815665A (zh) 基于深度信息与尺度感知信息的单张图像人群计数方法
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
CN114926747A (zh) 一种基于多特征聚合与交互的遥感图像定向目标检测方法
CN114119610B (zh) 基于旋转目标检测的缺陷检测方法
CN113658257B (zh) 一种无人设备定位方法、装置、设备及存储介质
CN108010065A (zh) 低空目标快速检测方法及装置、存储介质及电子终端
CN114332633B (zh) 雷达图像目标检测识别方法、设备和存储介质
CN103733225B (zh) 特征点对等系统、特征点对等方法、以及记录介质
Kim et al. Rotational multipyramid network with bounding‐box transformation for object detection
CN115100616A (zh) 点云目标检测方法、装置、电子设备及存储介质
CN113850761A (zh) 一种基于多角度检测框的遥感图像目标检测方法
CN116953702A (zh) 基于演绎范式的旋转目标检测方法及装置
CN106778822B (zh) 基于漏斗变换的图像直线检测方法
CN116310837B (zh) 一种sar舰船目标旋转检测方法及系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220623

R150 Certificate of patent or registration of utility model

Ref document number: 7096365

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150