JP2021532435A

JP2021532435A - 目標検出および目標検出ネットワークのトレーニング

Info

Publication number: JP2021532435A
Application number: JP2020561707A
Authority: JP
Inventors: ツォンリー
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2019-06-26
Filing date: 2019-12-25
Publication date: 2021-11-25
Anticipated expiration: 2039-12-25
Also published as: US20210056708A1; TWI762860B; KR20210002104A; SG11202010475SA; TW202101377A; CN110298298A; WO2020258793A1; CN110298298B; KR102414452B1; JP7096365B2

Abstract

目標検出および目標検出ネットワークのトレーニング方法、装置および機器を開示する。当該目標検出方法は、入力画像の特徴データを取得することと、前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定することと、前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得することであって、前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含むことと、前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得することとを含む。

Description

本開示は、画像処理技術分野に関し、特に、目標検出および目標検出ネットワークのトレーニング方法、装置および機器に関する。

目標検出は、コンピュータビジョン分野、特に、飛行機や軍艦などの軍事目標検出において重要な課題であるが、それらは、画像のサイズが大きく、目標のサイズが小さいという特徴を有するため、検出の難易度が高くなる。さらに、密集して配列された状態である軍艦などの目標において、検出の精度は比較的に低い。

本開示の実施例は、目標検出および目標検出ネットワークのトレーニング方法、装置および機器を提供する。

第１態様によれば、目標検出方法を提供し、前記方法は、
入力画像の特徴データを取得することと、前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定することと、前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得することであって、前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含むことと、前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得することとを含む。

本開示で提供されるいずれか１つの実施形態を参照すると、前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得することは、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも１つの目標バウンディングボックスを選択することと、前記少なくとも１つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得することとを含む。

本開示で提供されるいずれか１つの実施形態を参照すると、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも１つの目標バウンディングボックスを選択することは、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、前記候補バウンディングボックスと、対応する前景画像領域との間の重複領域の、前記候補バウンディングボックスに占める比率が第１閾値より大きい場合、前記候補バウンディングボックスを前記目標バウンディングボックスとして使用することを含む。

本開示で提供されるいずれか１つの実施形態を参照すると、前記少なくとも１つの目標バウンディングボックスは、第１バウンディングボックスおよび第２バウンディングボックスを含み、前記少なくとも１つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得することは、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に基づいて、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータを決定することと、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定することとを含む。

本開示で提供されるいずれか１つの実施形態を参照すると、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に基づいて、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータを決定することは、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に従って、角度係数を取得することと、前記第１バウンディングボックスと前記第２バウンディングボックスの間の交差比および前記角度係数に従って、前記重複パラメータを取得することとを含む。

本開示で提供されるいずれか１つの実施形態を参照すると、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータは、前記交差比と前記角度係数の積であり、ここで、前記角度係数は、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度の増加に伴い増加する。

本開示で提供されるいずれか１つの実施形態を参照すると、前記交差比が一定に維持される条件では、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータは、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度の増加に伴い増加する。

本開示で提供されるいずれか１つの実施形態を参照すると、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定することは、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータが第２閾値より大きい場合、前記第１バウンディングボックスおよび前記第２バウンディングボックスのうちの１つのバウンディングボックスを前記目標対象位置として使用することを含む。

本開示で提供されるいずれか１つの実施形態を参照すると、前記第１バウンディングボックスおよび前記第２バウンディングボックスのうちの１つのバウンディングボックスを前記目標対象位置として使用することは、前記第１バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域の間の重複パラメータ、および前記第２バウンディングボックスと前記前景画像領域の間の重複パラメータを決定することと、前記第１バウンディングボックスおよび前記第２バウンディングボックスのうち、前記前景画像領域との間の重複パラメータがより大きいバウンディングボックスを前記目標対象位置として使用することとを含む。

本開示で提供されるいずれか１つの実施形態を参照すると、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定することは、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータが第２閾値より小さいか等しい場合、前記第１バウンディングボックスおよび前記第２バウンディングボックスを両方とも前記目標対象位置として使用することを含む。

本開示で提供されるいずれか１つの実施形態を参照すると、前記入力画像内の検出される目標対象のアスペクト比は特定の値より大きい。

第２態様によれば、目標検出ネットワークのトレーニング方法を提供し、前記目標検出ネットワークは、特徴抽出ネットワーク、目標予測ネットワークおよび前景セグメンテーションネットワークを含み、前記方法は、
前記特徴抽出ネットワークを介してサンプル画像に対して特徴抽出処理を実行して、前記サンプル画像の特徴データを取得することと、前記特徴データに従って、前記目標予測ネットワークを介して複数のサンプル候補バウンディングボックスを取得する；前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得することであって、前記サンプル前景セグメンテーション結果は、前記サンプル画像の複数の画素点における各画素点が前景に属するかどうかを指示する指示情報を含むことと、前記複数のサンプル候補バウンディングボックス、前記サンプル前景セグメンテーション結果および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定することと、前記ネットワーク損失値に基づいて、前記目標検出ネットワークのネットワークパラメータを調整することとを含む。

本開示で提供されるいずれか１つの実施形態を参照すると、前記注釈情報は、前記サンプル画像に含まれる少なくとも１つの目標対象の真のバウンディングボックスを含み、前記複数のサンプル候補バウンディングボックス、前記サンプル前景画像領域および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定することは、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、前記候補バウンディングボックスと、前記サンプル画像によって注釈された少なくとも１つの真の目標バウンディングボックスにおける各真の目標バウンディングボックスの間の交差比を決定することと、決定された前記複数の候補バウンディングボックスにおける各候補バウンディングボックスの前記交差比に従って、第１ネットワーク損失値を決定することとを含む。

本開示で提供されるいずれか１つの実施形態を参照すると、前記候補バウンディングボックスと前記真の目標バウンディングボックスの間の交差比は、前記候補バウンディングボックスおよび前記真の目標バウンディングボックスを含む外接円に基づいて取得される。

本開示で提供されるいずれか１つの実施形態を参照すると、前記ネットワーク損失値を決定するプロセスにおいて、前記候補バウンディングボックスの幅に対応する重みは、前記候補バウンディングボックスの長さに対応する重みより高い。

本開示で提供されるいずれか１つの実施形態を参照すると、前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得することは、前記特徴データに対してアップサンプリング処理を実行して、処理後の前記特徴データの大きさをサンプル画像の大きさと同じにすることと、前記処理後の前記特徴データに基づいて画素セグメンテーションを実行して、前記サンプル画像のサンプル前景セグメンテーション結果を取得することとを含む。

本開示で提供されるいずれか１つの実施形態を参照すると、前記サンプル画像に含まれる目標対象のアスペクト比は、設定された値より高い。

第３態様によれば、目標検出装置を提供し、前記装置は、
入力画像の特徴データを取得するように構成される特徴抽出ユニットと、前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定するように構成される目標予測ユニットと、前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得するように構成される前景セグメンテーションユニットであって、前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含む前景セグメンテーションユニットと、前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得するように構成される目標決定ユニットとを備える。

第４態様によれば、目標検出ネットワークのトレーニング装置を提供し、前記目標検出ネットワークは、特徴抽出ネットワーク、目標予測ネットワークおよび前景セグメンテーションネットワークを含み、前記装置は、
前記特徴抽出ネットワークを介してサンプル画像に対して特徴抽出処理を実行して、前記サンプル画像の特徴データを取得するように構成される特徴抽出ユニットと、前記特徴データに従って、前記目標予測ネットワークを介して複数のサンプル候補バウンディングボックスを取得するように構成される目標予測ユニットと、前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得するように構成される前景セグメンテーションユニットであって、前記サンプル前景セグメンテーション結果は、前記サンプル画像の複数の画素点における各画素点が前景に属するかどうかを指示する指示情報を含む前景セグメンテーションユニットと、前記複数のサンプル候補バウンディングボックス、前記サンプル前景セグメンテーション結果および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定するように構成される損失値決定ユニットと、前記ネットワーク損失値に基づいて、前記目標検出ネットワークのネットワークパラメータを調整するように構成されるパラメータ調整ユニットとを備える。

第５態様によれば、目標検出機器を提供し、前記機器は、メモリおよびプロセッサを備え、前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、以上に記載の目標検出方法を実行するように構成される。

第６態様によれば、目標検出ネットワークのトレーニング機器を提供し、前記機器は、メモリおよびプロセッサを備え、前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、以上に記載の目標検出ネットワークのトレーニング方法を実現するように構成される。

第７態様によれば、コンピュータプログラムが記憶された不揮発性コンピュータ読み取り可能な記憶媒体を提供し、前記プログラムがプロセッサによって実行されると、前記プロセッサが以上に記載の目標検出方法を実現し、および／または、以上に記載の目標検出ネットワークのトレーニング方法を実現するようにする。

本開示の１つまたは複数の実施例の目標検出および目標検出ネットワークのトレーニング方法、装置および機器によれば、入力画像の特徴データに従って複数の候補バウンディングボックスを決定し、前記特徴データに従って前景セグメンテーション結果を取得し、前記複数の候補バウンディングボックスおよび前景セグメンテーション結果を組み合わせることにより、検出する目標対象をより正確に決定することができる。

上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本開示を限定するものではないことを理解されたい。

ここでの図面は、本明細書に組み込まれてその一部を構成し、本明細書と一致する実施例を示し、明細書とともに本明細書の原理を説明するために使用される。
本出願の実施例によって示された目標検出方法のフロチャートである。本出願の実施例によって示された目標検出方法の概略図である。本出願の例示的な実施例によって示された軍艦検出結果図である。本出願の例示的な実施例によって示された軍艦検出結果図である。関連技術における目標バウンディングボックスの概略図である。本出願の例示的な実施例によって示された重複パラメータ計算方法の概略図である。本出願の例示的な実施例によって示された重複パラメータ計算方法の概略図である。本出願の実施例によって示された目標検出ネットワークのトレーニング方法のフロチャートである。本出願の実施例によって示された交差比計算方法の概略図である。本出願の実施例によって示された目標検出ネットワークのネットワーク構造図である。本出願の実施例によって示された目標検出ネットワークのトレーニング方法の概略図である。本出願の実施例によって示された予測候補バウンディングボックス方法のフロチャートである。本出願の実施例によって示されたアンカーボックスの概略図である。本出願の一例示的な実施例によって示された予測前景画像領域方法のフロチャートである。本出願の一例示的な実施例によって示された目標検出装置の例示的な構造図である。本出願の一例示的な実施例によって示された目標検出ネットワークのトレーニング装置の例示的な構造図である。本出願の一例示的な実施例によって示された目標検出機器の構造図である。本出願の一例示的な実施例によって示された目標検出ネットワークのトレーニング機器の構造図である。

ここで、例示的な実施例について詳細に説明し、その例は図面に示す。特に明記しない限り、以下の説明が添付の図面に関する場合、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本開示と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されたように、本開示の特定の態様と一致する装置および方法の例である。

本開示の実施例で提供される技術的解決策は、主に、画像内の細なく且つ小さい目標検出に適用されるが、本開示の実施例は、これらに対して限定しないことを理解されたい。

図１は、目標検出方法を示し、当該方法は、次のステップを含み得る。

ステップ１０１において、入力画像の特徴データ（例えば、特徴マップ（ｆｅａｔｕｒｅｍａｐ）など）を取得する。

いくつかの実施例において、入力画像はリモートセンシング画像であってもよい。リモートセンシング画像は、人工衛星や航空写真機などに搭載されたセンサによって測定された地上の対象物の電磁放射特徴信号などによって取得された画像であり得る。当業者は、入力画像が他のタイプの画像であってもよく、リモートセンシング画像に限定されないことを理解するはずである。

一例において、畳み込みニューラルネットワークなどの特徴抽出ネットワークを介してサンプル画像の特徴データを抽出することができ、本開示の実施例は、特徴抽出ネットワークの具体的な構造を限定しない。抽出された特徴データは、マルチチャネル特徴データであり、特徴データの大きさおよびチャネルの数は、特徴抽出ネットワークの具体的な構造によって決定される。

別の例において、端末によって送信された特徴データを受信するなど、入力画像の特徴データを他の機器から取得することができ、本開示の実施例はこれらに限定されない。

ステップ１０２において、前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定する。

このステップにおいて、関心領域（ＲＯＩ：ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）などの技術を利用して候補バウンディングボックスを予測して取得することは、候補バウンディングボックスのパラメータ情報を取得することを含み、パラメータは、候補バウンディングボックスの長さ、幅、中心点座標および角度などの１つまたは任意の組み合わせを含み得る。

ステップ１０３において、前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得し、ここで、前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含む。

特徴データに基づいて取得した前景セグメンテーション結果は、前記入力画像の複数の画素のうち、各画素が前景および／または背景に属する確率を含み、前景セグメンテーション結果は、画素レベルの予測結果を与える。

ステップ１０４において、前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得する。

いくつかの実施例において、入力画像の特徴データに従って決定された複数の候補バウンディングボックス、および前記特徴データによって取得された前景セグメンテーション結果は、対応関係を有する。複数の候補バウンディングボックスを前景セグメンテーション結果にマッピングし、目標対象の輪郭とよく適合する候補バウンディングボックスほど、前景セグメンテーション結果に対応する前景画像領域と重複に近くなる。したがって、決定された複数の候補バウンディングボックスおよび決定された前景セグメンテーション結果を参照して、検出する目標対象をより正確に決定することができる。いくつかの実施例において、目標検出結果は、入力画像に含まれた目標対象の位置や数などの情報を含み得る。

一例において、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域の間の重複領域に従って、複数の候補バウンディングボックスから少なくとも１つの目標バウンディングボックスを選択し、前記少なくとも１つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得することができる。

前記複数の候補バウンディングボックスにおいて、前景画像領域との間の重複領域が大きいほど、即ち、候補バウンディングボックスと前景画像領域が重複に近いほど、当該候補バウンディングボックスが目標対象の輪郭により適合することを表し、当該候補バウンディングボックスの予測結果がより正確であることも表す。したがって、候補バウンディングボックスと前景画像の間の重複領域に従って、前記複数の候補バウンディングボックスから少なくとも１つの候補バウンディングボックスを目標バウンディングボックスとして選択し、取得された目標バウンディングボックスのうち、検出された目標対象として、前記入力画像の目標検出結果を取得することができる。

例えば、前記複数の候補バウンディングボックスのうち、候補バウンディングボックス全体における、前記前景画像領域との間の重複領域の比率が第１閾値より大きい候補バウンディングボックスを前記目標バウンディングボックスとして使用することができる。候補バウンディングボックス全体における重複領域の比率が高いほど、当該候補バウンディングボックスと前景画像領域の重複度が高いことを表す。当業者は、本開示が第１閾値の具体的な値を限定せず、当該値は、実際のニーズに従って決定されることができることを理解するはずである。

本開示の実施例の目標検出方法は、飛行機、軍艦および車両などの軍事目標などの、スペクト比が大きい、検出される目標対象に適用される。一例において、アスペクト比が大きいとは、アスペクト比が、５より大きいなど、特定の値より大きいことを指す。当業者は、当該特定の値が、検出目標に応じて具体的に決定されることができることを理解するはずである。一例において、目標対象は軍艦であってもよい。

以下では、入力画像がリモートセンシング画像であり、且つ検出目標が軍艦であることを例として、目標検出のプロセスを説明する。当業者は、他の目標対象において、当該目標検出方法も適用されることができることを理解するはずである。図２に示された目標検出方法の概略図を参照すると、次の通りである。

まず、当該リモートセンシング画像（即ち、図２の入力画像２１０である）のマルチチャネル特徴データ（即ち、図２の特徴マップ２２０である）を取得する。

上記した特徴データを第１ブランチ（図２の上部ブランチ２３０）および第２ブランチ（図２の下部ブランチ２４０）にそれぞれ入力し、次の処理をそれぞれ実行する。

第１ブランチにおいて
各アンカー（ａｎｃｈｏｒ）ボックスに対して１つの信頼度評点を生成する。当該信頼度評点は、アンカーボックスが前景または背景である確率に関し、例えば、アンカーボックスが前景である確率が高いほど、信頼度評点は高くなる。

いくつかの実施例において、アンカーボックスは、演繹的知識に基づく長方形ボックスである。アンカーボックスの具体的な実現方法は、後続の目標検出ネットワークのトレーニングに対する説明を参照することができ、ここでは暫く詳細に説明しない。アンカーボックスが前景または背景に属する確率を計算するために、１つの全体としてアンカーボックスを予測することができ、即ち、当該アンカーボックス内に物体または特定の目標が含まれているかどうかを予測することができ、ここで、アンカーボックスに物体または特定の目標が含まれている場合、当該アンカーボックスが前景であると判断する。

いくつかの実施例において、信頼度評点に応じて、最高評点を有しまたは特定の閾値を超えるいくつかのアンカーボックスを前景アンカーボックスとして選択することができ、前景アンカーボックスから候補バウンディングボックスへのオフセットを予測することにより、前景アンカーボックスをオフセットして候補バウンディングボックスを取得することができ、当該オフセットに基づいて、候補バウンディングボックスのパラメータを取得することができる。

一例において、検出される目標対象を覆うために、アンカーボックスは方向情報を含み得、複数のアスペクト比を設定することができる。具体的な方向の数およびアスペクト比の値を実際のニーズに従って設定することができる。図１１に示されたように、構築されたアンカーボックスは６つの方向に対応し、ここで、

はアンカーボックスの幅を示し、

はアンカーボックスの長さを示し、

はアンカーボックスの角度（水平に対するアンカーボックスの回転角度）を示し、

はアンカーボックスの中心点の座標を示す。方向に均一に分布する６つのアンカーボックスに対応し、

は、それぞれ、

である。

一例において、候補バウンディングボックスを生成した後に、さらに、非最大抑制方法（ＮＭＳ：Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）を通じて重複する検出框を除去することができる。例えば、先ず、すべての候補バウンディングボックスをトラバースし、信頼度評点の最も高い候補バウンディングボックスを選択し、他の候補バウンディングボックスをトラバースすることができ、現在最高点のバウンディングボックスの交差比（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ、ＩｏＵ）が特定の閾値より大きい場合、当該バウンディングボックスを削除する。その後、未処理の候補バウンディングボックスから最も高い評点を選択し続け、上述のプロセスを繰り返す。複数の反復の後、抑制されていないものは、決定された候補バウンディングボックスとして最終的に保持される。図２を例とすると、ＮＭＳ処理の後、候補バウンディングボックス図２３１内の表記番号が１、２、３である３つの候補バウンディングボックスを取得する。

第２ブランチにおいて
前記特徴データに従って、入力画像における各画素において、前記画素が前景や背景である確率を予測し、前景確率が、設定された値より高い画素を前景画素として使用することにより、画素レベルの前景セグメンテーション結果２４１を生成する。

第１ブランチおよび第２ブランチによって出力された結果のサイズが一致するため、候補バウンディングボックスを画素セグメンテーション結果にマッピングし、候補バウンディングボックスと前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、目標バウンディングボックスを決定することができる。例えば、候補バウンディングボックス全体における重複領域の比率が第１閾値より大きい候補バウンディングボックスを前記目標バウンディングボックスとして使用することができる。

図２を例とすると、表記番号が１、２、３である３つの候補バウンディングボックスを前景セグメンテーション結果にマッピングし、候補バウンディングボックス全体における、各候補バウンディングボックスと前景画像領域の重複領域の比率を計算することができ、例えば、候補バウンディングボックス１に対して、当該比率は９２％であり、候補バウンディングボックス２に対して、当該比率は８６％であり、候補バウンディングボックス３に対して、当該比率は６５％である。第１閾値が７０％である場合、候補バウンディングボックス３が目標バウンディングボックスである可能性を排除し、最終的に検出された出力結果図２５０において、目標バウンディングボックスは候補バウンディングボックス１および候補バウンディングボックス２である。

上記した方法を通じて検出して、出力された目標バウンディングボックスでも重複する可能性がある。例えば、ＮＭＳ処理を実行する場合、設定された閾値が高過ぎると、重複する候補バウンディングボックスが抑制されない可能性がある。候補バウンディングボックス全体における、候補バウンディングボックスと前景画像領域の重複領域の比率が両方とも第１閾値を超えた場合、最終的に出力される目標バウンディングボックスに、重複するバウンディングボックスがまだ含まれる可能性がある。

選択された少なくとも１つの目標バウンディングボックスは、第１バウンディングボックスおよび第２バウンディングボックスを含む場合、本開示の実施例は、次の方法を通じて最終の目標対象を決定することができる。当業者は、当該方法が、２つの重複するバウンディングボックスを処理することに限定されず、先ず２つを処理し、次に、残りの１つおよび他のバウンディングボックスを処理する方法を通じて、複数の重複するバウンディングボックスを処理することもできることを理解するはずである。

いくつかの実施例において、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に基づいて、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータを決定し、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定する。

２つの検出される目標対象が近接して配列された場合、両者の目標バウンディングボックス（第１バウンディングボックスおよび第２バウンディングボックス）は、重複する可能性がある。しかし、この場合、第１バウンディングボックスおよび第２バウンディングボックスの交差比は、通常、比較的に小さい。したがって、本開示は、第１バウンディングボックスおよび第２バウンディングボックスの重複パラメータを設定することにより、２つのバウンディングボックス内の検出物体の全てが目標対象であるかどうかを決定する。

いくつかの実施例において、前記重複パラメータが第２閾値より大きい場合、第１バウンディングボックスおよび第２バウンディングボックス内に、１つのみの目標対象がある可能性があることを示し、したがって、その中の１つのバウンディングボックスを目標対象位置として決定する。前景セグメンテーション結果が画素レベルの前景画像領域を含むため、当該前景画像領域を使用して、目標対象のバウンディングボックスとして、どのバウンディングボックスを保持するかを決定することができる。例えば、第１バウンディングボックスと、対応する前景画像領域の第１重複パラメータおよび第２バウンディングボックスと、対応する前景画像領域の第２重複パラメータをそれぞれ計算し、第１重複パラメータおよび第２重複パラメータのうちのより大きい値に対応する目標バウンディングボックスを目標対象として決定し、より小さい値に対応する目標バウンディングボックスを削除する。上記した方法を通じて、１つの目標対象の重複する２つまたは複数のバウンディングボックスを削除する。

いくつかの実施例において、前記重複パラメータが第２閾値より小さいか等しい場合、前記第１バウンディングボックスおよび前記第２バウンディングボックスを両社とも目標対象位置として使用する。

以下では、最終の目標対象を決定するプロセスを例示的に説明する。

一実施例において、図３Ａに示されたように、バウンディングボックスＡ、Ｂは軍艦検出結果であり、ここで、バウンディングボックスＡとバウンディングボックスＢは重複し、両者の重複パラメータが０．１であることを計算して取得する。第２閾値が０．３である場合、バウンディングボックスＡおよびバウンディングボックスＢが２つ異なる軍艦の検出であることを決定する。バウンディングボックスを画素セグメンテーション結果にマッピングすることから、バウンディングボックスＡおよびバウンディングボックスＢが、それぞれ、異なる軍艦に対応することを分かる。２つバウンディングボックスの重複パラメータが第２閾値より小さいことを判断した場合、バウンディングボックスを画素セグメンテーション結果にマッピングする追加のプロセスは必要なく、以上は検証のみを目的とする。

別の実施例において、図３Ｂに示されたように、バウンディングボックスＣ、Ｄは、別の軍艦検出結果であり、ここで、バウンディングボックスＣとバウンディングボックスＤは重複し、両者の重複パラメータが０．８であり、即ち、第２閾値０．３より大きいことを計算して取得する。当該重複パラメータ計算結果に基づいて、バウンディングボックスＣおよびバウンディングボックスＤが、実際には、同じ軍艦のバウンディングボックスであることを決定することができる。この場合、バウンディングボックスＣおよびバウンディングボックスＤを画素セグメンテーション結果にマッピングすることにより、対応する前景画像領域を使用して最終の目標対象をさらに決定することができる。バウンディングボックスＣと前景画像領域の第１重複パラメータ、および計算バウンディングボックスＤと前景画像領域の第２重複パラメータを計算する。例えば、第１重複パラメータは０．９であり、第２重複パラメータは０．８である場合、値が大きい方の第１重複パラメータに対応するバウンディングボックスＣが軍艦を含むことを決定し、同時に、第２重複パラメータに対応するバウンディングボックスＤを削除し、最終的に、バウンディングボックスＣを軍艦の目標バウンディングボックスとして出力する。

いくつかの実施例において、画素セグメンテーション結果に対応する前景画像領域を使用してバウンディングボックスを重複する目標対象を補助して決定し、画素レベルの前景画像領域が画素セグメンテーション結果に対応し、空間の精度が高いため、重複するバウンディングボックスと前景画像領域の重複パラメータを介して目標対象を含む目標バウンディングボックスをさらに決定して、目標検出の精度を向上させる。

関連技術では、使用されるアンカーボックスは、通常、角度パラメータを含まない長方形ボックスであるため、軍艦などのアスペクト比が大きい目標対象において、目標対象が傾斜状態である場合、当該アンカーボックスを使用して決定された目標バウンディングボックスは、目標対象の外接長方形ボックスであり、当該ボックスの面積と目標対象の実際の面積の差は非常に大きい。近接して配列された２つ目標対象において、図４に示されたように、ここで、目標対象４０１に対応する目標バウンディングボックス４０３は、その外接長方形ボックスであり、目標対象４０２に対応する目標バウンディングボックス４０４もその外接長方形ボックスであり、これらの２つ目標対象の目標バウンディングボックス間の重複パラメータは、即ち、２つ外接長方形ボックス間の交差比ＩｏＵである。目標バウンディングボックスと目標対象の差により、計算して取得された交差比の誤差は非常に大きくなるため、目標テストの再現率（ｒｅｃａｌｌ）が低下する。

したがって、以上に記載されたように、いくつかの実施例において、本開示のアンカーボックスは、アンカーボックスの角度パラメータを導入して、交差比の計算精度を向上させることができる。アンカーボックスを介して計算して取得された異なる目標バウンディングボックスの角度も互いに異なる場合がある。

これらに基づき、本開示は、次のように、重複パラメータを計算する方法を提案する。前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に従って、角度係数を取得し、前記第１バウンディングボックスと前記第２バウンディングボックスの間の交差比および前記角度係数に従って、前記重複パラメータを取得する。

一例において、前記重複パラメータは、前記交差比と前記角度係数の積であり、ここで、前記角度係数は、第１バウンディングボックスと第２バウンディングボックスとの間の角度に従って取得することができ、当該角度係数の値は１であり、第１バウンディングボックスと第２バウンディングボックスの間の角度増加に伴い増加する。

例えば、当該角度係数は、式（１）で示されることができる。
式（１）：

ここで、

は、第１バウンディングボックスと第２バウンディングボックスの間の角度である。

別の例において、前記交差比が一定に維持される条件では、前記重複パラメータは、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度の増加に伴い増加する。

以下では、図５Ａおよび図５Ｂを例として、上記した重複パラメータ計算方法が目標検出に与える影響について説明する。

図５Ａのバウンディングボックス５０１およびバウンディングボックス５０２において、両者の面積の交差比は

であり、両者間の角度は

である。図５Ｂのバウンディングボックス５０３およびバウンディングボックス５０４において、両者の面積の交差比は

であり、両者間の角度は

である。ここで、

＜

である。

上述の重複パラメータ計算方法を使用して、角度係数

を増加させて重複パラメータの計算を実行する。例えば、２つバウンディングボックス面積の交差比の値と角度係数の値を掛け算することにより、重複パラメータを取得する。

例えば、バウンディングボックス５０１とバウンディングボックス５０２の重複パラメータ

は、式（２）を使用して計算することができる。
式（２）：

バウンディングボックス５０３とバウンディングボックス５０４の重複パラメータは、式（３）を使用して計算することができる。
式（３）：

計算して、

を取得することができる。

角度係数を追加した後に、図５Ａおよび図５Ｂの重複パラメータ計算結果は、面積交差比の計算結果と大きさの関係では逆になる。図５Ａでは、２つバウンディングボックス間の角度がより大きいため、角度係数の値も大きくなり、したがって、取得された重複パラメータは大きくなる。対応的に、図５Ｂでは、２つバウンディングボックス間の角度がより小さいため、角度係数の値も小さくなり、したがって、取得された重複パラメータは小さくなる。

近接して配列された２つ目標対象において、両者間の角度は非常に小さい場合がある。しかし、それらの配列が近接するため、検出して取得されたバウンディングボックスの両者間、面積が重複する部分は大きい場合があり、面積のみで交差比を計算すると、交差比結果が大きくなる可能性があり、２つバウンディングボックスに同じ目標対象が含まれたと誤って判断しやすくなる。本開示の実施例によって提案された重複パラメータ計算方法は、角度係数を導入することにより、近接して配列された目標対象間の重複パラメータ計算結果が小さくなることにより、目標対象を正確に検出し、近接して配列された目標の再現率を向上させるのに有益である。

当業者は、上記した重複パラメータ計算方法は、目標バウンディングボックス間の重複パラメータを計算することに限定されず、候補バウンディングボックス、前景アンカーボックス、真のバウンディングボックス、アンカーボックスなどの角度パラメータを有するボックス間の重複パラメータの計算に使用されることもできることを理解するはずである。さらに、他の方式を採用して重複パラメータを計算することもでき、本開示の実施例は、これらに限定されない。

いくつかの例において、上述の目標検出方法は、トレーニング後の目標検出ネットワークを介して実現されることができ、当該目標検出ネットワークはニューラルネットワークであってもよい。目標検出ネットワークを使用する前に、最適化されたパラメータ値を取得するを取得するために、当該目標検出ネットワークをトレーニングする必要がある。

以下では、依然として、軍艦検出目標を例として、目標検出ネットワークのトレーニングプロセスを説明する。前記目標検出ネットワークは、特徴抽出ネットワーク、目標予測ネットワークおよび前景セグメンテーションネットワークを含み得る。図６に示されたトレーニング方法の実施例のフロチャートを参照すると、次のステップを含み得る。

ステップ６０１において、前記特徴抽出ネットワークを介してサンプル画像に対して特徴抽出処理を実行して、前記サンプル画像の特徴データを取得する。

このステップにおいて、記載のサンプル画像はリモートセンシング画像であってもよい。リモートセンシング画像は、人工衛星、航空写真機などに搭載されたセンサによって測定された地上の対象物の電磁放射特徴信号によって取得された画像である。サンプル画像は、他のタイプの画像であってもよく、リモートセンシング画像に限定されない。さらに、前記サンプル画像は、事前に注釈された目標対象の注釈情報を含む。当該注釈情報は、校正された目標対象の真のバウンディングボックス（ｇｒｏｕｎｄｔｒｕｔｈ）を含み得、一例において、当該注釈情報は、校正された真のバウンディングボックスの４つの頂点の座標であってもよい。特徴抽出ネットワークは、畳み込みニューラルネットワークであってもよく、本開示の実施例は、特徴抽出ネットワークの具体的な構造に限定されない。

ステップ６０２において、前記特徴データに従って、前記目標予測ネットワークを介して複数のサンプル候補バウンディングボックスを取得する。

このステップにおいて、前記サンプル画像の特徴データに従って、目標対象の複数の候補バウンディングボックスを予測して生成する。前記候補バウンディングボックスに含まれた情報は、当該バウンディングボックスが前景、背景である確率、当該バウンディングボックスのサイズ、角度、位置などの当該バウンディングボックスのパラメータを含み得る。

ステップ６０３において、前記特徴データに従って、前記サンプル画像の前景セグメンテーション結果を取得する。

このステップにおいて、前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得する。ここで、前記サンプル前景セグメンテーション結果は、前記サンプル画像の複数の画素点における各画素点が前景に属するかどうかを指示する指示情報を含む。即ち、前景セグメンテーション結果は、対応する前景画像領域を取得することができることにより、当該前景画像領域は、前景であると予測される全ての画素を含み得る。

ステップ６０４において、前記複数のサンプル候補バウンディングボックス、前記サンプル前景セグメンテーション結果および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定する。

前記ネットワーク損失値は、前記目標予測ネットワークに対応する第１ネットワーク損失値、および前記前景セグメンテーションネットワークに対応する第２ネットワーク損失値を含み得る。

いくつかの例において、前記第１ネットワーク損失値は、サンプル画像内の注釈情報および前記サンプル候補バウンディングボックスの情報に従って取得される。一例において、目標対象の注釈情報は、目標対象の真のバウンディングボックスの４つの頂点の座標であってもよく、予測して取得されたサンプル候補バウンディングボックスの予測パラメータは、候補バウンディングボックスの長さ、幅、水平に対する回転角度、中心点の座標であってもよい。真のバウンディングボックスの４つの頂点の座標に基づいて、真のバウンディングボックスの長さ、幅、相水平に対する回転角度、中心点の座標を対応的に計算することができる。したがって、サンプル候補バウンディングボックスの予測パラメータおよび真のバウンディングボックスの実際のパラメータに基づいて、注釈情報と予測情報の間の差を具現する第１ネットワーク損失値を取得することができる。

いくつかの例において、前記第２ネットワーク損失値は、サンプル前景セグメンテーション結果および真の前景画像領域に従って取得する。事前に注釈された目標対象の真のバウンディングボックスに基づいて、元のサンプル画像で注釈された、目標対象を含む領域、当該領域中に含まれた画素は、真の前景画素であり、真の前景画像領域である。したがって、サンプル前景セグメンテーション結果および注釈情報に基づいて、即ち、予測した前景画像領域と真の前景画像領域との比較を介して、第２ネットワーク損失値を取得することができる。

ステップ６０５において、前記ネットワーク損失値に基づいて、前記目標検出ネットワークのネットワークパラメータを調整する。

一例において、勾配逆伝播方法を通じて上述のネットワークパラメータを調整することができる。

候補バウンディングボックスの予測および前景画像領域の予測は、特徴抽出ネットワーク抽出された特徴データを共有するため、２つブランチの予測結果と注釈された真の目標対象の間の差を介して各个ネットワークのパラメータを共に調整することにより、対象レベルの監視情報および画素レベルの監視情報を同時に提供して、特徴抽出ネットワークによって抽出された特徴の品質が高まることができるようにする。さらに、本開示の実施例は、候補バウンディングボックスおよび前景画像を予測するためのネットワークの全てはｏｎｅ−ｓｔａｇｅ検出器であるため、高い検出効率を実現することができる。

一例において、前記複数のサンプル候補バウンディングボックスと前記サンプル画像によって注釈された少なくとも１つの真の目標バウンディングボックスとの交差比に基づいて、第１ネットワーク損失値を決定することができる。

一例において、交差比の計算結果を使用して、複数のアンカーボックスから正のサンプルおよび／または負のサンプルを選択することができる。例えば、真のバウンディングボックスとの交差比が０．５などの特定の値より大きいアンカーボックスを、前景を含む候補バウンディングボックスであると見なされることができ、当該前景を含む候補バウンディングボックスを正のサンプルとして目標検出ネットワークをトレーニングし、さらに、真のバウンディングボックスとの交差比が０．１などの特定の値より小さいアンカーボックスを、負のサンプルとしてネットワークをトレーニングすることができる。選択した正のサンプルおよび／または負のサンプルに基づいて、第１ネットワーク損失値を決定する。

第１ネットワーク損失値を計算するプロセスにおいて、目標対象のアスペクト比が大きいため、関連技術では、計算して取得されたアンカーボックスと真のバウンディングボックスの交差比の値が小さい可能性があり、選択された、損失値計算を実行するための正のサンプルが少なくなることを容易にし、それにより、トレーニング精度に影響を与える。さらに、本開示の実施例は、方向パラメータを有するアンカーボックスを採用し、当該アンカーボックスに適用し、交差比計算の精度を向上させるために、本開示は、交差比計算方法を提案し、当該方法は、アンカーボックスと真のバウンディングボックスの交差比計算に使用されてもよく、候補バウンディングボックスと真のバウンディングボックスの間の交差比計算に使用されてもよい。

当該方法において、アンカーボックスと真のバウンディングボックスの外接円面積の交差と連合の比率を交差比として使用することができる。以下、図７を例として説明する。

バウンディングボックス７０１とバウンディングボックス７０２はアスペクト比の差が大きく、且つ角度パラメータを有する長方形ボックスであり、両者のアスペクト比率は５などである。バウンディングボックス７０１の外接円は７０３であり、バウンディングボックス７０２の外接円は７０４であり、外接円７０３と外接円７０４面積の交集（図では、網掛け部分であり）と連合の比率を、交差比として使用することができる。

アンカーボックスと真のバウンディングボックスの交差比計算に対して、他の方式を採用してもよく、本開示の実施例は、これらに限定されない。

以上、実施例で提案された交差比を計算する方法は、方向情報の制約により、形は類似するが方向上では差があるより多くのサンプルを保留して、選択された正のサンプルの数および比率を向上させ、したがって、方向情報に対する監督および学習を強化して、方向予測の精度を向上させる。

以下の説明では、目標検出ネットワークのトレーニング方法をより詳しく説明する。ここで、以下では、検出された目標対象が軍艦であることを例として当該トレーニング方法を説明する。本開示で検出された目標対象は軍艦に限定されず、アスペクト比が大きい他の対象であってもよいことを理解されたい。

サンプリングの準備
ニューラルネットワークをトレーニングする前に、先ず、サンプルセットを先に準備することができ、当該サンプルセットは、目標検出ネットワークをトレーニングするための複数のトレーニングサンプルを含み得る。

例えば、以下の方式を通じてトレーニングサンプルを取得することができる。

サンプル画像として使用されるリモートセンシング画像では、軍艦の真のバウンディングボックスを注釈する。当該リモートセンシング画像には、複数の軍艦が含まれる可能性があるため、各軍艦の真のバウンディングボックスを注釈する必要がある。同時に、当該バウンディングボックスの４つの頂点の座標などの、各真のバウンディングボックスのパラメータ情報を注釈する必要がある。

軍艦の真のバウンディングボックスを注釈する同時に、当該真のバウンディングボックスにおける画素を真の前景画素として決定することができ、即ち、軍艦の真のバウンディングボックスを注釈する同時に軍艦の真の前景画像を取得することもできる。当業者は、真のバウンディングボックスにおける画素も、真のバウンディングボックス本体に含まれた画素を含むことを理解するはずである。

目標検出ネットワーク構造の決定
本開示の一実施例では、目標検出ネットワークは、特徴抽出ネットワーク、並びに当該特徴抽出ネットワークとそれぞれカスケード接続された目標予測ネットワークおよび前景セグメンテーションネットワークを含み得る。

ここで、特徴抽出ネットワークは、サンプル画像の特徴を抽出するために使用され、当該特徴抽出ネットワークは、畳み込みニューラルネットワークであってもよく、例えば、既存のＶＧＧ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ）ネットワーク、ＲｅｓＮｅｔ、ＤｅｎｓｅＮｅｔなどを採用してもよく、他の畳み込みニューラルネットワーク構造を採用してもよい。本出願は、特徴抽出ネットワークの具体的な構造に対して制限せず、一例示的な実施形態において、特徴抽出ネットワークは、畳み込み層、励起層、プーリング層などのネットワークユニットを含み得、上述のネットワークユニットが特定の方式に応じてスタックされる。

目標予測ネットワークは、目標対象のバウンディングボックスを予測し、即ち、候補バウンディングボックスの予測情報を予測して生成するために使用される。本出願は、目標予測ネットワークの具体的な構造に対して限定せず、一例示的な実施形態において、目標予測ネットワークは、畳み込み層、分類層、回帰層などのネットワークユニットを含み得、上述のネットワークユニットが特定の方式に応じてスタックされる。

前景セグメンテーションネットワークは、サンプル画像内の前景画像を予測し、即ち、目標対象を含む画素領域を予測するために使用される。本出願は、前景セグメンテーションネットワークの具体的な構造に対して限定せず、一例示的な実施形態において、前景セグメンテーションネットワークは、アップサンプリング層、マスク（ｍａｓｋ）層を含み得、上述のネットワークユニットが特定の方式に応じてスタックされる。

図８は、本開示の実施例が適用可能な目標検出ネットワークのネットワーク構造を示し、図８は、目標検出ネットワークを例示的に示すだけであり、実際の実施では、これらに限定されないことに留意されたい。

図８に示されたように、目標抽出ネットワークは、特徴抽出ネットワーク８１０、並びに特徴抽出ネットワーク８１０とカスケード接続された目標予測ネットワーク８２０および前景セグメンテーションネットワーク８３０を含む。

ここで、特徴抽出ネットワーク８１０は、順次に接続された第１畳み込み層（Ｃ１）８１１、第１プーリング層（Ｐ１）８１２、第２畳み込み層（Ｃ２）８１３、第２プーリング層（Ｐ２）８１４および第３畳み込み層（Ｃ３）８１５を含み、即ち、特徴抽出ネットワーク８１０において、畳み込み層およびプーリング層は交互に接続される。畳み込み層は、複数の畳み込みカーネルを介して画像内の異なる特徴をそれぞれ抽出して、複数の特徴マップを取得し、プーリング層は、畳み込み層の後に位置し、特徴マップのデータに対してローカル平均化およびダウンサンプリングの操作を実行して、特徴データの解像度を下げることができる。畳み込み層およびプーリング層の数の増加に伴い、特徴マップの数は徐々に増加し、さらに、特徴マップの解像度が徐々に低下する。

特徴抽出ネットワーク８１０によって出力されたマルチチャネル特徴データを目標予測ネットワーク８２０および前景セグメンテーションネットワーク８３０にそれぞれ入力する。

目標予測ネットワーク８２０は、第４畳み込み層（Ｃ４）８２１、分類層８２２および回帰層８２３を含む。ここで、分類層８２２および回帰層８２３は、第４畳み込み層８２１とそれぞれカスケード接続する。

第４畳み込み層８２１は、スライドウィンドウ（例えば、３＊３）を使用して入力された特徴データを畳み込み、各ウィンドウは、複数のアンカーボックスに対応し、各ウィンドウは、分類層８２３および回帰層８２４に全結合されるためのベクトルを生成する。ここでは、２つまたは複数の畳み込み層を使用して、入力された特徴データを畳み込むこともできる。

分類層８２２は、アンカーボックスによって生成されたバウンディングボックス内が前景か背景かを判断するために使用され、回帰層８２３は、候補バウンディングボックスのおおよその位置を取得するために使用され、分類層８２２および回帰層８２３の出力結果に基づいて、目標対象を含む候補バウンディングボックスを予測し、当該候補バウンディングボックス内が前景、背景である確率および当該候補バウンディングボックスのパラメータを出力することができる。

前景セグメンテーションネットワーク８３０は、アップサンプリング層８３１およびマスク層８３２を含む。アップサンプリング層８３１は、入力された特徴データを元のサンプル画像サイズに変換するために使用され、マスク層８３２は、前景のバイナリマスクを生成するために使用され、即ち、前景画素に対して１を出力し、背景画素に対して０を出力する。

さらに、候補バウンディングボックスと前景画像領域の重複領域を計算する場合、第４畳み込み層８２１およびマスク層８３２が画像サイズの変換を実行することにより、特徴位置が対応するようにし、即ち、目標予測ネットワーク８２０および前景セグメンテーションネットワーク８３０の出力は、画像上の同じ位置の情報を予測することができるため、重複領域を計算する。

当該目標検出ネットワークをトレーニングする前に、特徴抽出ネットワーク８１０における各畳み込み層および目標予測ネットワークにおける畳み込み層に使用される畳み込みカーネルの数を設定することができ、畳み込みカーネルのサイズを設定することもできるなど、いくつかのネットワークパラメータを設定することができる。畳み込みカーネルの値や他の層の重みなどのパラメータ値において、反復トレーニングを通じて自己学習を実行することができる。

トレーニングサンプルを準備し、および目標検出ネットワーク構造を初期化した基で、目標検出ネットワークのトレーニングを実行し始めることができる。以下、目標検出ネットワークの具体的なトレーニング方法に例を挙げる。

最初の目標検出ネットワークのトレーニング
いくつかの実施例において、目標検出ネットワークの構造は図８を参照することができる。

図９の例を参照すると、目標検出ネットワークを入力するサンプル画像は、軍艦画像を含むリモートセンシング画像であり得る。当該サンプル画像において、含まれた軍艦の真のバウンディングボックスを注釈し、注釈情報は、当該バウンディングボックスの４つの頂点の座標などの真のバウンディングボックスのパラメータ情報であってもよい。

入力されたサンプル画像は、先ず、特徴抽出ネットワークを介して、サンプル画像の特徴を抽出し、当該サンプル画像のマルチチャネル特徴データを出力する。特徴データの大きさおよびチャネルの数を出力することは、特徴抽出ネットワークの畳み込み層構造およびプーリング層構造によって決定される。

当該マルチチャネル特徴データは、一方では、目標予測ネットワークに入力され、目標予測ネットワークは、現在のネットワークパラメータに基づいて設定され、入力された特徴データに基づいて、軍艦を含む候補バウンディングボックスを予測し、当該候補バウンディングボックスの予測情報を生成する。当該予測情報は、当該バウンディングボックスが前景、背景である確率、および当該バウンディングボックスのサイズ、位置、角度などの当該バウンディングボックスのパラメータ情報を含み得る。事前に注釈された目標対象の注釈情報および予測して取得された候補バウンディングボックスの予測情報に基づいて、第１ネットワーク損失関数の値

、即ち、第１ネットワーク損失値を取得することができる。当該第１ネットワーク損失関数の値は、注釈情報と予測情報の間の差を具現する。

もう一方では、当該マルチチャネル特徴データは、前景セグメンテーションネットワークに入力され、前景セグメンテーションネットワークは、現在のネットワークパラメータに基づいて設定され、サンプル画像に軍艦の前景画像領域が含まれると予測する。例えば、特徴データにおける各画素が前景、背景である確率を介して、前景である確率が、設定された値より大きい画素の全てが前景画素として使用されることにより、画素セグメンテーションを実行し、予測した前景画像領域を取得することができる。

サンプル画像において、既に、軍艦の真のバウンディングボックスを事前に注釈し、４つの頂点の座標などの当該真のバウンディングボックスのパラメータを介して、サンプル画像における、前景である画素を取得することができるため、サンプル画像における真の前景画像を知ることができる。予測した前景画像および注釈情報を介して取得された真の前景画像に基づいて、第２ネットワーク損失関数の値

、即ち、第２ネットワーク損失値を取得することができる。当該第２ネットワーク損失関数の値は、予測した前景画像と注釈情報の間の差を具現する。

畳み込みカーネルの値、他の層の重みを調整するなど、ネットワークパラメータの値を調整するために、第１ネットワーク損失関数の値および第２ネットワーク損失関数の値に基づいて共同に決定された総損失値を目標検出ネットワークに逆にバックホールすることができる。一例において、第１ネットワーク損失関数と第２ネットワーク損失関数の和を総損失関数として決定し、総損失関数を使用してパラメータ調整を実行することができる。

目標検出ネットワークをトレーニングする場合、トレーニングサンプルセットを複数の画像サブセット（ｂａｔｃｈ）に分けることができ、各画像サブセットは、１つまたは複数のトレーニングサンプルを含む。反復トレーニングを毎回実行する時に、１つの画像サブセットをネットワークに順次に入力し、当該画像サブセットに含まれたトレーニングサンプルにおける各サンプル予測結果の損失値を組み合わせてネットワークパラメータの調整を実行する。今回反復トレーニングの完了後、次の反復トレーニングを実行するために、次の画像サブセットをネットワークに入力する。異なる画像サブセットに含まれるトレーニングサンプルは、少なくとも一部が異なる。所定の終了条件に達する場合、目標検出ネットワークのトレーニングを完了することができる。前記所定のトレーニング終了条件は、例えば、総損失値（ＬＯＳＳ値）が特定の閾値に低下し、または所定の目標検出ネットワークの反復回数に達することであってもよい。

本実施の目標検出ネットワークトレーニング方法は、目標予測ネットワークに対象レベルの監視情報を提供することにより、画素セグメンテーションネットワークに画素レベルの監視情報を提供することにより、２つの異なる層の監視情報により、特徴抽出ネットワークによって抽出された特徴の品質を向上させ、さらに、ｏｎｅ−ｓｔａｇｅの目標予測ネットワークおよび画素セグメンテーションネットワークを使用して検出して、検出效率を向上させる。

２番目の目標検出ネットワークのトレーニング
いくつかの実施例において、目標予測ネットワークは、次の方式により、目標対象の候補バウンディングボックスを予測して取得する。目標予測ネットワーク的構造は図８を参照することができる。

図１０は、候補バウンディングボックスを予測する方法のフロチャートであり、図１０に示されたように、当該プロセスは、次のステップを含み得る。

ステップ１００１において、前記特徴データの各ポイントをアンカーとして使用して、各アンカーを中心として複数のアンカーボックスを作成する。

例えば、サイズが［Ｈ×Ｗ］である特徴層において、合計Ｈ×Ｗ×ｋ個のアンカーボックスを作成し、ここで、ｋは、各アンカーによって生成されたアンカーボックスの数である。ここで、検出される目標対象を覆うことができるように、１つのアンカーで作成された複数のアンカーボックスに異なるアスペクト比を設定する。先ず、ほとんどの目標のサイズ分布の統計などの演繹的知識に基づいて、ハイパーパラメータ設定を介してアプリオリアンカーボックスを直接に生成することができ、その後、特徴を介してアンカーボックスを予測することができる。

ステップ１００２において、前記アンカーを前記サンプル画像にマッピングして、前記サンプル画像上の各アンカーボックスに含まれる領域を取得する。

このステップにおいて、全てのアンカーをサンプル画像にマッピングし、即ち、特徴データをサンプル画像にマッピングして、アンカーを中心として生成された、サンプル画像においてアンカーボックスによってフレーム化された領域を取得することができる。アプリオリアンカーボックス、予測値および当前の特徴の解像度を組み合わせて共に計算することにより、アンカーボックスをサンプル画像の位置およびサイズにマッピングして、サンプル画像の各アンカーボックスに含まれる領域を取得することができる。

上記したプロセスは、１つの畳み込みカーネル（スライドウィンドウ）を使用して入力された特徴データでスライディング操作を実行することに相当し、畳み込みカーネルが特徴データの特定の位置にスライディングされると、現在のスライドウィンドウ中心を中心としてサンプル画像の１つの領域にマッピングし、サンプル画像上のこの領域の中心を、対応するアンカーとし、また、アンカーを中心としてアンカーボックスをフレーム化する。即ち、アンカーは、特徴データに基づいて定義されるが、最終的に、当該アンカーは、元のサンプル画像に対応する。

図８に示された目標予測ネットワーク構造において、第４畳み込み層８２１を介して特徴を抽出するプロセスを実現することができ、例えば、第４畳み込み層８２１の畳み込みカーネルは、３×３の大きさであり得る。

ステップ１００３において、サンプル画像にマッピングされたアンカーボックスと真のバウンディングボックスの交差比に基づいて、前景アンカーボックスを決定し、前記前景アンカーボックスが前景、背景である確率を取得する。

このステップにおいて、前記サンプル画像のアンカーボックスに含まれる領域と真のバウンディングボックスの重複状態を比較することにより、どれらのアンカーボックスが前景であり、どれらのアンカーボックスが背景であるか決定し、即ち、各アンカーボックスの全てに、前景または背景のラベル（ｌａｂｅｌ）を付け、前景ラベルを有するアンカーボックスは、前景アンカーボックスであり、背景ラベルを有するアンカーボックスは、背景アンカーボックスである。

一例において、真のバウンディングボックスの交差比が０．５などの第１設定された値より大きいアンカーボックスは、前景を含む候補バウンディングボックスと見なされることができる。さらに、アンカーボックスを２つのカテゴリに分類することにより、アンカーボックスが前景、背景である確率を決定することもできる。

前景アンカーボックスを使用して目標検出ネットワークをトレーニングすることができ、例えば、これを正のサンプルとしてネットワークをトレーニングし、これらの前景アンカーボックスが損失関数の計算に参与するようにし、この一部の損失は、通常、分類損失と称され、この損失は、前景アンカーボックスの２クラス確率および前景アンカーボックスのラベルに基づいて比較して取得される。

１つの画像サブセットにおいて、当該画像サブセットは、一枚のサンプル画像からランダムに抽出されたラベルが前景である２５６個などの複数のアンカーボックスを含むようにすることができ、正のサンプルとしてトレーニングに使用される。

一例において、正のサンプルの数が足りない場合、負のサンプルを使用して目標検出ネットワークをトレーニングすることもできる。負のサンプル、例えば、真のバウンディングボックスとの交差比が０．１などの第２設定された値より小さいアンカーボックスであってもよい。

この例において、１つの画像サブセットが、一枚のサンプル画像からランダムに抽出された２５６個のアンカーボックスを含むようにすることができ、ここで、１２８個のラベルは前景のアンカーボックスであり、正のサンプルとして使用され、他の１２８個のラベルは、真のバウンディングボックスとの交差比が、０．１などの第２設定された値より小さいアンカーボックスであり、負のサンプルとして使用され、正および負のサンプルの比率が１：１であるようにする。１つの画像における正のサンプルの数が１２８より小さい場合、２５６個のアンカーボックスをトレーニングに使用することを満たすために、より多くの負のサンプルを使用することができる。

ステップ１００４において、前記前景アンカーボックスに対してバウンディングボックス回帰を実行して、候補バウンディングボックスを取得し、前記候補バウンディングボックスのパラメータを取得する。

このステップにおいて、前景アンカーボックス、候補バウンディングボックスのパラメータタイプは、アンカーボックスのパラメータタイプと一致し、即ち、作成されたアンカーボックスはどのパラメータを含み、生成された候補バウンディングボックスもどのパラメータを含む。

ステップ１００３で取得された前景アンカーボックスは、アスペクト比がサンプル画像内の軍艦のアスペクトと差がある可能性があり、また、前景アンカーボックスの位置、角度でもサンプル軍艦と差がある可能性があるため、前景アンカーボックスと、当該前景アンカーボックスに対応する真のバウンディングボックスとの間のオフセットを使用して回帰トレーニングを実行して、目標予測ネットワークが前景アンカーボックスを介して候補バウンディングボックスへのオフセットを予測する能力を備えるようにする必要があり、それにより、候補バウンディングボックスのパラメータを取得する。

ステップ１００３およびステップ１００４を通じて、候補バウンディングボックスが前景、背景である確率、および候補バウンディングボックスのパラメータなどの、候補バウンディングボックスの情報を取得することができる。上述の候補バウンディングボックスの情報、およびサンプル画像内の注釈情報（目標対象に対応する真のバウンディングボックス）に基づいて、第１ネットワーク損失を取得することができる。

本開示の実施例において、目標予測ネットワークはｏｎｅｓｔａｇｅネットワークであり、候補バウンディングボックスを最初に予測して取得した後に、候補バウンディングボックスの予測結果を出力して、ネットワークの検出効率を向上させる。

３番目の目標検出ネットワークのトレーニング
関連技術では、各アンカーに対応するアンカーボックスのパラメータは、通常、長さ、幅および中心点の座標を含む。本具現例において、回転アンカーボックスの設定方法を提案する。

一例において、検出される目標対象を覆うために、各アンカーを中心として複数の方向のアンカーボックスを作成し、複数のアスペクト比を設定することができる。具体的な方向の数およびアスペクト比の値を実際のニーズに従って設定することができる。図１１に示されたように、構築されたアンカーボックスは６つの方向に対応し、ここで、ｗはアンカーボックスの幅を示し、ｌはアンカーボックスの長さを示し、θはアンカーボックスの角度（水平に対するアンカーボックスの回転角度）を示し、

はアンカーボックスの中心点の座標を示す。方向に均一に分布する６つのアンカーボックスに対応して、

は、それぞれ、

である。対応的に、この例において、アンカーボックスのパラメータは

で示される。ここで、アスペクト比率は、１、３、５として設定されてもよく、検出する目標対象に対して他の値に設定されてもよい。

いくつかの実施例において、候補バウンディングボックスのパラメータも同様に

で示されることができ、当該パラメータは、図８の回帰層８２３を使用して回帰計算を実行することができる。回帰計算の方法は、次の通りである。

先ず、前景アンカーボックスから真のバウンディングボックスへのオフセットを計算して取得する。

例えば、前景アンカーボックスのパラメータ値は

であり、ここで、

は、それぞれ、前景アンカーボックスの中心点ｘ座標、中心点ｙ座標、幅、長さ、角度を示し、真のバウンディングボックスに対応する５つの値は

であり、ここで、

は、それぞれ、真のバウンディングボックスの中心点ｘ座標、中心点ｙ座標、幅、長さ、角度を示す。

前景アンカーボックスのパラメータ値および真のバウンディングボックスの値に基づいて、前景アンカーボックスと真のバウンディングボックスの間のオフセット

を決定することができ、ここで、

は、それぞれ、中心点ｘ座標、中心点ｙ座標、幅、長さ、角度のオフセットを示す。各オフセットは、例えば、それぞれ、式（４）〜（８）を介して計算することができる。

式（４）：

式（５）：

式（６）：

式（７）：

式（８）：

ここで、式（６）および式（７）では、差が大きい場合に迅速に収束することができるようにするために、長さと幅のオフセットを対数で示す。

一例において、入力されたマルチチャネル特徴データが複数の真のバウンディングボックスを有する場合、各前景アンカーボックスは、それらと最も高い重複度を有する真のバウンディングボックスを選択してオフセットを計算する。

次に、前景アンカーボックスから候補バウンディングボックスへのオフセットを取得する。

ここでは、アンカーボックスと真のバウンディングボックスの関係を確率するための式を見つけるプロセスは、回帰を使用して実現することができる。図８のネットワーク構造を例とすると、上述のオフセットトレーニング回帰層８２３を使用することができる。トレーニング完了後、目標予測ネットワークは、各アンカーボックス到と之に対応する最適な候補バウンディングボックスのオフセット

を識別する能力を備え、即ち、アンカーボックスのパラメータ値に基づいて、中心点ｘ座標、中心点ｙ座標、幅、長さ、角度を含む、候補バウンディングボックスのパラメータ値を決定することができる。トレーニングする時は、回帰層を使用して前景アンカーボックスから候補バウンディングボックスへのオフセットを先に計算することができる。トレーニングする時のネットワークパラメータの最適化が完了していないため、当該オフセットと実際のオフセット

の差が比較的に大きい可能性がある。

最後に、前記オフセットに基づいて、前記前景アンカーボックスをオフセットして、前記候補バウンディングボックスを取得し、前記候補バウンディングボックスのパラメータを取得する。

第１ネットワーク損失関数の値を計算する場合、前景アンカーボックスから候補バウンディングボックスへのオフセット

、およびトレーニングする時の前景アンカーボックスと真のバウンディングボックスのオフセット

を使用して回帰損失を計算することができる。

前述の予測した前景アンカーボックスが前景、背景である確率は、当該前景アンカーボックスを回帰して候補バウンディングボックスを取得した後に、当該確率は、即ち、候補バウンディングボックスが前景、背景である確率であり、当該確率に基づいて、候補バウンディングボックスが前景、背景であることを予測する分類損失を決定することができる。当該分類損失と候補バウンディングボックスのパラメータを予測する回帰損失の和は、第１ネットワーク損失関数の値を構成する。１つの画像サブセットにおいて、全ての候補バウンディングボックスの第１ネットワーク損失関数の値に基づいて、ネットワークパラメータの調整を実行することができる。

方向のあるアンカーボックスを設定することにより、目標対象ポーズにより適合する外接長方形バウンディングボックスを生成することができ、バウンディングボックス間の重複部分の計算がより厳密且つ正確になる。

４番目の目標検出ネットワークのトレーニング
標準情報及び候補バウンディングボックスの情報に基づいて第１ネットワーク損失関数の値を取得する場合、アンカーボックスの各パラメータの重みの比率を設定して、幅の重みの比率が他のパラメータの重みの比率より高くなり、設定された重みの比率に従って、第１ネットワーク損失関数の値を計算するようにすることができる。

重みの比率が高いパラメータほど、最終的に計算して取得された損失関数値の寄与が大くなり、ネットワークパラメータ調整を実行する時は、調整の結果が当該パラメータ値に及ぼす影響により注意が払われ、それにより、当該パラメータの計算の精度は他のパラメータより高くなる。軍艦などのアスペクト比が大きい目標対象において、当該目標対象の幅は、長さに比べて非常に小さいため、幅の重みを他のパラメータの重みよりも高く設定し、幅の予測精度を向上させることができる。

５番目の目標検出ネットワークのトレーニング
いくつかの実施例において、次の方式によりサンプル画像内の前景画像領域を予測して取得することができる前景セグメンテーションネットワークの構造は、図８を参照することができる。

図１２は、前景画像領域方法を予測する実施例のフロチャートであり、図１２に示されたように、当該プロセスは、次のステップを含み得る。

ステップ１２０１において、前記特徴データに対してアップサンプリング処理を実行して、処理後の特徴データの大きさをサンプル画像の大きさと同じにする。

例えば、逆畳み込み層、またはバイリニア補間を介して特徴データに対してアップサンプリング処理を実行して、特徴データをサンプル画像サイズに拡大することができる。画素セグメンテーションネットワークを入力するものはマルチチャネル特徴データであるため、アップサンプリング処理後、チャネルの数に対応する特徴データ、サンプル画像サイズと一致する特徴データを取得する。特徴データ上の各位置のそれぞれは、元の画像位置と一対一で対応する。

ステップ１２０２において、前記処理後の前記特徴データに基づいて画素セグメンテーションを実行して、前記サンプル画像のサンプル前景セグメンテーション結果を取得する。

特徴データの各画素において、前記画素が前景、背景に属する確率を判断することができる。閾値を設定することにより、前景に属する確率が、設定された閾値より大きい画素を前景画素として決定することができ、各画素に対してマスク情報を生成することができ、通常、０、１で示され、ここで、０は背景を示し、１は前景を示すことができる。当該マスク情報に基づいて、前景である画素を決定することができ、それにより、画素レベルの前景セグメンテーション結果を取得する。特徴データ上の各画素のそれぞれは、サンプル画像上の領域に対応し、サンプル画像には既に目標対象の真のバウンディングボックスが注釈されたため、注釈情報に従って、各画素の分類結果と真のバウンディングボックスの差を決定して、分類損失を取得する。

当該画素セグメンテーションネットワークはバウンディングボックスの位置の決定に関しないため、当該画素セグメンテーションネットワークに対応する第２ネットワーク損失関数の値を、各画素の分類損失の和によって決定することができる。ネットワークパラメータを継続的に調整して、第２ネットワーク損失値を最小限に抑えることにより、各画素の分類をより正確にし、それにより、目標対象の前景画像をより正確に決定することができる。

いくつかの実施例において、特徴データに対してアップサンプリング処理を実行し、および各画素に対してマスク情報を生成することにより、画素レベルの前景画像領域を取得して、目標検出の精度を向上させることができる。

図１３は、目標検出装置を提供し、図１３に示されたように、当該装置は、特徴抽出ユニット１３０１、目標予測ユニット１３０２、前景セグメンテーションユニット１３０３および目標決定ユニット１３０４を備えることができる。

特徴抽出ユニット１３０１は、入力画像の特徴データを取得するように構成される。

目標予測ユニット１３０２は、前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定するように構成される。

前景セグメンテーションユニット１３０３は、前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得するように構成され、ここで、前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含む。

目標決定ユニット１３０４は、前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得するように構成される。

別の実施例において、前記目標決定ユニット１３０４は、具体的に、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも１つの目標バウンディングボックスを選択し、前記少なくとも１つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得するように構成される。

別の実施例において、前記目標決定ユニット１３０４は、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも１つの目標バウンディングボックスを選択するように構成される場合、具体的に、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、前記候補バウンディングボックスと、対応する前景画像領域との間の重複領域の、前記候補バウンディングボックスに占める比率が第１閾値より大きい場合、前記候補バウンディングボックスを前記目標バウンディングボックスとして使用するように構成される。

別の実施例において、前記少なくとも１つの目標バウンディングボックスは、第１バウンディングボックスおよび第２バウンディングボックスを含み、前記目標決定ユニット１３０４前記少なくとも１つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得するように構成される場合、具体的に、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に基づいて、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータを決定し、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定するように構成される。

別の実施例において、前記目標決定ユニット１３０４は、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に基づいて、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータを決定するように構成される場合、具体的に、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に従って、角度係数を取得し、前記第１バウンディングボックスと前記第２バウンディングボックスの間の交差比および前記角度係数に従って、前記重複パラメータを取得するように構成される。

別の実施例において、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータは、前記交差比と前記角度係数の積であり、ここで、前記角度係数は、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度の増加に伴い増加する。

別の実施例において、前記交差比が一定に維持される条件では、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータは、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度の増加に伴い増加する。

別の実施例において、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定することは、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータが第２閾値より大きい場合、前記第１バウンディングボックスおよび前記第２バウンディングボックスのうちの１つのバウンディングボックスを目標対象位置として使用することを含む。

別の実施例において、第１バウンディングボックスおよび前記第２バウンディングボックスのうちの１つのバウンディングボックスを目標対象位置として使用することは、前記第１バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域の間の重複パラメータ、および前記第２バウンディングボックスと前記前景画像領域の間の重複パラメータを決定することと、前記第１バウンディングボックスおよび前記第２バウンディングボックスのうち、前記前景画像領域との間の重複パラメータがより大きいバウンディングボックスを目標対象位置として使用することとを含む。

別の実施例において、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定することは、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータが第２閾値より小さいか等しい場合、前記第１バウンディングボックスおよび第２バウンディングボックスを両方とも目標対象位置として使用することを含む。

別の実施例において、前記入力画像内の検出される目標対象のアスペクト比は特定の値より大きい。

図１４は、目標検出ネットワークのトレーニング装置を提供し、前記目標検出ネットワークは、特徴抽出ネットワーク、目標予測ネットワークおよび前景セグメンテーションネットワークを含む。図１４に示されたように、当該装置は、特徴抽出ユニット１４０１、目標予測ユニット１４０２、前景セグメンテーションユニット１４０３、損失値決定ユニット１４０４およびパラメータ調整ユニット１４０５を備えることができる。

特徴抽出ユニット１４０１は、前記特徴抽出ネットワークを介してサンプル画像に対して特徴抽出処理を実行して、前記サンプル画像の特徴データを取得するように構成される。

目標予測ユニット１４０２は、前記特徴データに従って、前記目標予測ネットワークを介して複数のサンプル候補バウンディングボックスを取得するように構成される。

前景セグメンテーションユニット１４０３は、前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得するように構成され、ここで、前記サンプル前景セグメンテーション結果は、前記サンプル画像の複数の画素点における各画素点が前景に属するかどうかを指示する指示情報を含む。

損失値決定ユニット１４０４は、前記複数のサンプル候補バウンディングボックス、前記サンプル前景セグメンテーション結果および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定するように構成される。

パラメータ調整ユニット１４０５は、前記ネットワーク損失値に基づいて、前記目標検出ネットワークのネットワークパラメータを調整するように構成される。

別の実施例において、前記注釈情報は、前記サンプル画像に含まれる少なくとも１つの目標対象の真のバウンディングボックスを含み、前記損失値決定ユニット１４０４は、具体的に、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、当該候補バウンディングボックスと、前記サンプル画像によって注釈された少なくとも１つの真の目標バウンディングボックスにおける各真の目標バウンディングボックスの間の交差比を決定し、決定された前記複数の候補バウンディングボックスにおける各候補バウンディングボックスの前記交差比に従って、第１ネットワーク損失値を決定するように構成される。

別の実施例において、前記候補バウンディングボックスと前記真の目標バウンディングボックスの間の交差比は、前記候補バウンディングボックスおよび前記真の目標バウンディングボックスを含む外接円に基づいて取得される。

別の実施例において、前記ネットワーク損失値を決定するプロセスにおいて、前記候補バウンディングボックスの幅に対応する重みは、前記候補バウンディングボックスの長さに対応する重みより高い。

別の実施例において、前記前景セグメンテーションユニット１４０３は、具体的に、前記特徴データに対してアップサンプリング処理を実行して、処理後の前記特徴データの大きさをサンプル画像の大きさと同じにし、前記処理後の前記特徴データに基づいて画素セグメンテーションを実行して、前記サンプル画像のサンプル前景セグメンテーション結果を取得するように構成される。

別の実施例において、前記サンプル画像に含まれる目標対象のアスペクト比は、設定された値より高い。

図１５は、本開示の少なくとも１つの実施例で提供された目標検出機器であり、前記機器は、メモリ１５０１およびプロセッサ１５０２を備え、前記メモリは、プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、本明細書のいずれか１つの実施例に記載の目標検出方法を実現するように構成される。前記機器は、ネットワークインターフェース１５０３および内部バス１５０４を備えることができる。メモリ１５０１、プロセッサ１５０２およびネットワークインターフェース１５０３は、内部バス１５０４を介して相互通信を行う。

図１６は、本開示の少なくとも１つの実施例で提供された目標検出ネットワークのトレーニング機器であり、前記機器は、メモリ１６０１およびプロセッサ１６０２を備え、前記メモリは、プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、本明細書のいずれか１つの実施例に記載の目標検出ネットワークのトレーニング方法を実現するように構成される。前記機器は、ネットワークインターフェース１６０３および内部バス１６０４を備えることができる。メモリ１６０１、プロセッサ１６０２およびネットワークインターフェース１６０３は、内部バス１６０４を介して相互通信を行う。

本明細書の少なくとも１つの実施例は、コンピュータプログラムが記憶された不揮発性コンピュータ読み取り可能な記憶媒体をさらに提供し、前記プログラムがプロセッサによって実行されると、本明細書のいずれか１つの実施例に記載の目標検出方法を実現し、および／または、本明細書のいずれか１つの実施例に記載の目標検出ネットワークのトレーニング方法を実現する。

本出願の実施例において、コンピュータ読み取り可能な記憶媒体は様々な形であってもよく、例えば、様々な例において、前記機械読み取り可能な記憶媒体は、不揮発性メモリ、フラッシュメモリ、ストレージドライブ（ハードディスクドライブなど）、ソリッドステートハードディスク、任意のタイプのストレージディスク（光ディスク、ＤＶＤなど）、または類似の記憶媒体、またはそれらの組み合わせであってもよい。特に、前記コンピュータ読み取り可能な媒体は、紙またはプログラムを印刷することができる他の適切な媒体であってもよい。これらの媒体を使用し、これらのプログラムは、電気的手段（例えば、光学スキャニングなど）で取得され、適切な方式でコンパイル、解釈および処理されることができ、その後、コンピュータ媒体に記憶されることができる。

上記は、本出願の好ましい実施例に過ぎず、本出願を限定することを意図するものではなく、本出願の精神および原則内で行われるあらゆる修正、同等の置換、改善などは、本願の保護範囲に含まれるべきである。

Claims

目標検出方法であって、
入力画像の特徴データを取得することと、
前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定することと、
前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得することであって、前記前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含むことと、
前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得することとを含むことを特徴とする、前記目標検出方法。
前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得することは、
前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも１つの目標バウンディングボックスを選択することと、
前記少なくとも１つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得することとを含むことを特徴とする、
請求項１に記載の目標検出方法。
前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも１つの目標バウンディングボックスを選択することは、
前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、前記候補バウンディングボックスと、対応する前景画像領域との間の重複領域の、前記候補バウンディングボックスに占める比率が第１閾値より大きい場合、前記候補バウンディングボックスを前記目標バウンディングボックスとして使用することを含むことを特徴とする、
請求項２に記載の目標検出方法。
前記少なくとも１つの目標バウンディングボックスは、第１バウンディングボックスおよび第２バウンディングボックスを含み、前記少なくとも１つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得することは、
前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に基づいて、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータを決定することと、
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定することとを含むことを特徴とする、
請求項２または３に記載の目標検出方法。
前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に基づいて、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータを決定することは、
前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に従って、角度係数を取得することと、
前記第１バウンディングボックスと前記第２バウンディングボックスの間の交差比および前記角度係数に従って、前記重複パラメータを取得することとを含むことを特徴とする、
請求項４に記載の目標検出方法。
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータは、前記交差比と前記角度係数の積であり、前記角度係数は、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度の増加に伴い増加することを特徴とする、
請求項５に記載の目標検出方法。
前記交差比が一定に維持される条件では、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータは、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度の増加に伴い増加することを特徴とする、
請求項５または６に記載の目標検出方法。
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定することは、
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータが第２閾値より大きい場合、前記第１バウンディングボックスおよび前記第２バウンディングボックスのうちの１つのバウンディングボックスを前記目標対象位置として使用することを含むことを特徴とする、
請求項４ないし７のいずれか一項に記載の目標検出方法。
前記第１バウンディングボックスおよび前記第２バウンディングボックスのうちの１つのバウンディングボックスを前記目標対象位置として使用することは、
前記第１バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域の間の重複パラメータ、および前記第２バウンディングボックスと前記前景画像領域の間の重複パラメータを決定することと、
前記第１バウンディングボックスおよび前記第２バウンディングボックスのうち、前記前景画像領域との間の重複パラメータがより大きいバウンディングボックスを前記目標対象位置として使用することとを含むことを特徴とする、
請求項８に記載の目標検出方法。
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定することは、
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータが第２閾値より小さいか等しい場合、前記第１バウンディングボックスおよび前記第２バウンディングボックスを両方とも前記目標対象位置として使用することを含むことを特徴とする、
請求項４ないし９のいずれか一項に記載の目標検出方法。
前記入力画像内の検出される目標対象のアスペクト比は特定の値より大きいことを特徴とする、
請求項１ないし１０のいずれか一項に記載の目標検出方法。
目標検出ネットワークのトレーニング方法であって、
前記目標検出ネットワークは、特徴抽出ネットワーク、目標予測ネットワークおよび前景セグメンテーションネットワークを含み、前記方法は、
前記特徴抽出ネットワークを介してサンプル画像に対して特徴抽出処理を実行して、前記サンプル画像の特徴データを取得することと、
前記特徴データに従って、前記目標予測ネットワークを介して複数のサンプル候補バウンディングボックスを取得することと、
前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得することであって、前記サンプル前景セグメンテーション結果は、前記サンプル画像の複数の画素点における各画素点が前景に属するかどうかを指示する指示情報を含むことと、
前記複数のサンプル候補バウンディングボックス、前記サンプル前景セグメンテーション結果および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定することと、
前記ネットワーク損失値に基づいて、前記目標検出ネットワークのネットワークパラメータを調整することとを含むことを特徴とする、前記目標検出ネットワークのトレーニング方法。
前記注釈情報は、前記サンプル画像に含まれる少なくとも１つの目標対象の真のバウンディングボックスを含み、前記複数のサンプル候補バウンディングボックス、前記サンプル前景画像領域および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定することは、
前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、前記候補バウンディングボックスと、前記サンプル画像によって注釈された少なくとも１つの真の目標バウンディングボックスにおける各真の目標バウンディングボックスの間の交差比を決定することと、
決定された前記複数の候補バウンディングボックスにおける各候補バウンディングボックスの前記交差比に従って、第１ネットワーク損失値を決定することとを含むことを特徴とする、
請求項１２に記載の目標検出ネットワークのトレーニング方法。
前記候補バウンディングボックスと前記真の目標バウンディングボックスの間の交差比は、前記候補バウンディングボックスおよび前記真の目標バウンディングボックスを含む外接円に基づいて取得されることを特徴とする、
請求項１３に記載の目標検出ネットワークのトレーニング方法。
前記ネットワーク損失値を決定するプロセスにおいて、前記候補バウンディングボックスの幅に対応する重みは、前記候補バウンディングボックスの長さに対応する重みより高いことを特徴とする、
請求項１２ないし１４のいずれか一項に記載の目標検出ネットワークのトレーニング方法。
前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得することは、
前記特徴データに対してアップサンプリング処理を実行して、処理後の前記特徴データの大きさをサンプル画像の大きさと同じにすることと、
前記処理後の前記特徴データに基づいて画素セグメンテーションを実行して、前記サンプル画像のサンプル前景セグメンテーション結果を取得することとを含むことを特徴とする、
請求項１２ないし１５のいずれか一項に記載の目標検出ネットワークのトレーニング方法。
前記サンプル画像に含まれる目標対象のアスペクト比は、設定された値より高いことを特徴とする、
請求項１２ないし１６のいずれか一項に記載の目標検出ネットワークのトレーニング方法。
目標検出装置であって、
入力画像の特徴データを取得するように構成される特徴抽出ユニットと、
前記特徴データに従って、前記入力画像の複数の候補バウンディングボックスを決定するように構成される目標予測ユニットと、
前記特徴データに従って、前記入力画像の前景セグメンテーション結果を取得するように構成される前景セグメンテーションユニットであって、前景セグメンテーション結果は、前記入力画像の複数の画素における各画素が前景に属するかどうかを指示する指示情報を含む前景セグメンテーションユニットと、
前記複数の候補バウンディングボックスおよび前記前景セグメンテーション結果に従って、前記入力画像の目標検出結果を取得するように構成される目標決定ユニットとを備えることを特徴とする、前記目標検出装置。
前記目標決定ユニットは、具体的に、
前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも１つの目標バウンディングボックスを選択し、
前記少なくとも１つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得するように構成されることを特徴とする、
請求項１８に記載の目標検出装置。
前記目標決定ユニットは、前記複数の候補バウンディングボックスにおける各候補バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域との間の重複領域に従って、複数の候補バウンディングボックスから少なくとも１つの目標バウンディングボックスを選択するように構成される場合、具体的に、
前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、前記候補バウンディングボックスと、対応する前景画像領域との間の重複領域の、前記候補バウンディングボックスに占める比率が第１閾値より大きい場合、前記候補バウンディングボックスを前記目標バウンディングボックスとして使用するように構成されることを特徴とする、
請求項１９に記載の目標検出装置。
前記少なくとも１つの目標バウンディングボックスは、第１バウンディングボックスおよび第２バウンディングボックスを含み、前記目標決定ユニットは、前記少なくとも１つの目標バウンディングボックスに基づいて、前記入力画像の目標検出結果を取得するように構成される場合、具体的に、
前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に基づいて、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータを決定し、
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定するように構成されることを特徴とする、
請求項１９または２０に記載の目標検出装置。
前記目標決定ユニットは、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に基づいて、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータを決定するように構成される場合、具体的に、
前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度に従って、角度係数を取得し、
前記第１バウンディングボックスと前記第２バウンディングボックスの間の交差比および前記角度係数に従って、前記重複パラメータを取得するように構成されることを特徴とする、
請求項２１に記載の目標検出装置。
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータは、前記交差比と前記角度係数の積であり、前記角度係数は、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度の増加に伴い増加することを特徴とする、
請求項２２に記載の目標検出装置。
前記交差比が一定に維持される条件では、前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータは、前記第１バウンディングボックスと前記第２バウンディングボックスの間の角度の増加に伴い増加することを特徴とする、
請求項２２または２３に記載の目標検出装置。
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定することは、
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータが第２閾値より大きい場合、前記第１バウンディングボックスおよび前記第２バウンディングボックスのうちの１つのバウンディングボックスを前記目標対象位置として使用することを含むことを特徴とする、
請求項２１ないし２４のいずれか一項に記載の目標検出装置。
前記第１バウンディングボックスおよび前記第２バウンディングボックスのうちの１つのバウンディングボックスを前記目標対象位置として使用することは、
前記第１バウンディングボックスと、前記前景セグメンテーション結果に対応する前景画像領域の間の重複パラメータ、および前記第２バウンディングボックスと前記前景画像領域の間の重複パラメータを決定することと、
前記第１バウンディングボックスおよび前記第２バウンディングボックスのうち、前記前景画像領域との間の重複パラメータがより大きいバウンディングボックスを前記目標対象位置として使用することとを含むことを特徴とする、
請求項２５に記載の目標検出装置。
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータに基づいて、前記第１バウンディングボックスおよび前記第２バウンディングボックスに対応する目標対象位置を決定することは、
前記第１バウンディングボックスと前記第２バウンディングボックスの重複パラメータが第２閾値より小さいか等しい場合、前記第１バウンディングボックスおよび前記第２バウンディングボックスを両方とも前記目標対象位置として使用することを含むことを特徴とする、
請求項２１ないし２６のいずれか一項に記載の目標検出装置。
前記入力画像内の検出される目標対象のアスペクト比は特定の値より大きいことを特徴とする、
請求項１８ないし２７のいずれか一項に記載の目標検出装置。
目標検出ネットワークのトレーニング装置であって、
前記目標検出ネットワークは、特徴抽出ネットワーク、目標予測ネットワークおよび前景セグメンテーションネットワークを含み、前記装置は、
前記特徴抽出ネットワークを介してサンプル画像に対して特徴抽出処理を実行して、前記サンプル画像の特徴データを取得するように構成される特徴抽出ユニットと、
前記特徴データに従って、前記目標予測ネットワークを介して複数のサンプル候補バウンディングボックスを取得するように構成される目標予測ユニットと、
前記特徴データに従って、前記前景セグメンテーションネットワークを介して前記サンプル画像のサンプル前景セグメンテーション結果を取得するように構成される前景セグメンテーションユニットであって、前記サンプル前景セグメンテーション結果は、前記サンプル画像の複数の画素点における各画素点が前景に属するかどうかを指示する指示情報を含む前景セグメンテーションユニットと、
前記複数のサンプル候補バウンディングボックス、前記サンプル前景セグメンテーション結果および前記サンプル画像の注釈情報に従って、ネットワーク損失値を決定するように構成される損失値決定ユニットと、
前記ネットワーク損失値に基づいて、前記目標検出ネットワークのネットワークパラメータを調整するように構成されるパラメータ調整ユニットとを備えることを特徴とする、前記目標検出ネットワークのトレーニング装置。
前記注釈情報は、前記サンプル画像に含まれる少なくとも１つの目標対象の真のバウンディングボックスを含み、前記損失値決定ユニットは、具体的に、
前記複数の候補バウンディングボックスにおける各候補バウンディングボックスにおいて、前記候補バウンディングボックスと、前記サンプル画像によって注釈された少なくとも１つの真の目標バウンディングボックスにおける各真の目標バウンディングボックスの間の交差比を決定し、
決定された前記複数の候補バウンディングボックスにおける各候補バウンディングボックスの前記交差比に従って、第１ネットワーク損失値を決定するように構成されることを特徴とする、
請求項２９に記載の目標検出ネットワークのトレーニング装置。
前記候補バウンディングボックスと前記真の目標バウンディングボックスの間の交差比は、前記候補バウンディングボックスおよび前記真の目標バウンディングボックスを含む外接円に基づいて取得されることを特徴とする、
請求項３０に記載の目標検出ネットワークのトレーニング装置。
前記ネットワーク損失値を決定するプロセスにおいて、前記候補バウンディングボックスの幅に対応する重みは、前記候補バウンディングボックスの長さに対応する重みより高いことを特徴とする、
請求項２９ないし３１のいずれか一項に記載の目標検出ネットワークのトレーニング装置。
前記前景セグメンテーションユニットは、具体的に、
前記特徴データに対してアップサンプリング処理を実行して、処理後の前記特徴データの大きさをサンプル画像の大きさと同じにし、
前記処理後の前記特徴データに基づいて画素セグメンテーションを実行して、前記サンプル画像のサンプル前景セグメンテーション結果を取得するように構成されることを特徴とする、
請求項２９ないし３２のいずれか一項に記載の目標検出ネットワークのトレーニング装置。
前記サンプル画像に含まれる目標対象のアスペクト比は、設定された値より高いことを特徴とする、
請求項２９ないし３３のいずれか一項に記載の目標検出ネットワークのトレーニング装置。
目標検出機器であって、
メモリおよびプロセッサを備え、前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、請求項１ないし１１のいずれか一項に記載の方法を実現するように構成されることを特徴とする、前記目標検出機器。
目標検出ネットワークのトレーニング機器であって、
メモリおよびプロセッサを備え、前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行する時に、請求項１２ないし１７のいずれか一項に記載の方法を実現するように構成されることを特徴とする、前記目標検出ネットワークのトレーニング機器。
コンピュータプログラムが記憶された不揮発性コンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサによって実行されると、前記プロセッサが請求項１ないし１１のいずれか一項に記載の方法を実現し、または請求項１２ないし１７のいずれか一項に記載の方法を実現するようにすることを特徴とする、前記不揮発性コンピュータ読み取り可能な記憶媒体。