JP2023029236A - オブジェクト検出モデルを訓練するための方法及びオブジェクト検出方法 - Google Patents
オブジェクト検出モデルを訓練するための方法及びオブジェクト検出方法 Download PDFInfo
- Publication number
- JP2023029236A JP2023029236A JP2022111473A JP2022111473A JP2023029236A JP 2023029236 A JP2023029236 A JP 2023029236A JP 2022111473 A JP2022111473 A JP 2022111473A JP 2022111473 A JP2022111473 A JP 2022111473A JP 2023029236 A JP2023029236 A JP 2023029236A
- Authority
- JP
- Japan
- Prior art keywords
- class
- feature set
- classification feature
- domain
- object detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】本発明は、オブジェクト検出モデルを訓練するための方法及びオブジェクト検出方法を提供する。【解決手段】モデル訓練用の方法は反復の方式でオブジェクト検出モデルを訓練することを含み、現在の訓練用反復ループはソースドメインデータサブセット及びターゲットドメインデータサブセットを取得し;ソースドメインデータサブセットについての検出損失、及びソースドメイン実例分類特徴集合を確定し;ターゲットドメイン実例分類特徴集合を確定し;ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び、検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化することを含む。【選択図】図1
Description
本発明は、画像処理の技術分野に関し、特に、オブジェクト(対象)検出モデルを訓練するための方法及びオブジェクト検出方法に関する。
近年、ニューラルネットワーク技術の発達に伴い、ニューラルネットワークに基づく画像処理モデルが様々な分野、例えば、顔認識、オブジェクト分類、オブジェクト検出(object detection)、自動運転、ビヘイビア(behavior)認識などの分野で応用されている。
通常、ニューラルネットワークに基づくオブジェクト検出モデルはオブジェクト検出を行う前に、大量の注釈された(ラベル付けされた)サンプル画像を用いて訓練を行うことで、オブジェクト検出モデルを最適化する必要があり、これによって、モデルは満足のいく検出パフォーマンスを有するようになる。訓練が完了した後に、オブジェクト検出モデルに検出待ち画像を入力し、オブジェクト検出モデルによって検出待ち画像に対して各種の処理(例えば、特徴抽出)が行われた後に、オブジェクト検出モデルは該検出待ち画像に含まれる各オブジェクト実例(インスタンス(instance))の位置及び類型(カテゴリ/クラス)を出力できる。
本発明の目的は、オブジェクト検出モデルを訓練するための方法及びオブジェクト検出方法を提供することにある。
本発明の1つの側面によれば、オブジェクト検出モデルを訓練するための、コンピュータにより実現される方法が提供され、該方法は反復(iteration)の方式でオブジェクト検出モデルを訓練することを含み、かつオブジェクト検出モデルはニューラルネットワークに基づいている。訓練の期間で、現在の訓練用反復ループは、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り(取得し);
オブジェクト検出モデルにより、少なくとも1つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;
オブジェクト検出モデルにより、少なくとも1つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;
ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び
検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する操作(ステップ)を含む。
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り(取得し);
オブジェクト検出モデルにより、少なくとも1つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;
オブジェクト検出モデルにより、少なくとも1つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;
ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び
検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する操作(ステップ)を含む。
本発明のもう1つの側面によれば、オブジェクト検出方法が提供される。該方法は、上述のモデル訓練方法を用いてオブジェクト検出モデルを訓練し;及び、訓練後のオブジェクト検出モデルを用いて検出待ち画像におけるオブジェクトの位置及び類別を確定するステップを含む。
本発明のまたもう1つの側面によれば、オブジェクト検出モデルを訓練するための装置が提供される。該装置は、命令が記憶されている記憶器;及び、1つ又は複数の処理器を含み、1つ又は複数の処理器は記憶器と通信可能であり、また、記憶器から読み取った命令を実行可能であり、該命令は1つ又は複数の処理器に、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り;
オブジェクト検出モデルにより、少なくとも1つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;
オブジェクト検出モデルにより、少なくとも1つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;
ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び
検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する操作(ステップ)を実行させる。
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り;
オブジェクト検出モデルにより、少なくとも1つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;
オブジェクト検出モデルにより、少なくとも1つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;
ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び
検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する操作(ステップ)を実行させる。
本発明の他の側面によれば、プログラムが記憶されているコンピュータ可読記憶媒体が提供される。該プログラムは該プログラムを実行するコンピュータに、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り;
オブジェクト検出モデルにより少なくとも1つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;
オブジェクト検出モデルにより少なくとも1つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;
ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び
検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する操作(ステップ)を実行させる。
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り;
オブジェクト検出モデルにより少なくとも1つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;
オブジェクト検出モデルにより少なくとも1つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;
ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び
検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する操作(ステップ)を実行させる。
本発明の有利な効果は、ラベルノイズに対してロバスト性を有し、クラスのアンバランスを克服でき、実例レベルのアライメントを改善でき、及び検出精度を向上させることができるということのうちの少なくとも1つを有する。
以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、このような実施例は例示に過ぎず、本発明を限定するものではない。
本発明の実施例の各側面の操作を実行するためのコンピュータプログラムコードは1つ又は複数のプログラム設計言語の任意の組み合わせで書くことができ、これらのプログラム設計言語はオブジェクト指向プログラム設計語言、例えば、Java、Smalltalk、C++のようなものを含んでも良く、また、通常の手続き型プログラム設計語言、例えば、Cプログラム設計語言又は類似したプログラム設計語言をさらに含んでも良い。
本発明による方法は対応する機能を有する回路により実現され得る。このような回路は処理器に用いる回路を含む。
本発明の1つの側面においてオブジェクト検出モデルMを訓練するための、コンピュータにより実現される方法が提供される。オブジェクト検出モデルMはニューラルネットワークに基づいている。反復の方式でオブジェクト検出モデルMを訓練する。各々の訓練用反復ループで、注釈された複数の訓練サンプル画像及び注釈データが入力され得る。以下、図1を参照しながら1つの例示的な訓練用反復ループに含まれる操作(ステップ)について例示的な説明を行う。
図1は本発明の1つの実施例においてオブジェクト検出モデルを訓練するための方法(“モデル訓練方法”と略称する)における1つの訓練用反復ループIter[j]に含まれる操作の例示的なフローチャートであり、そのうち、jは訓練用反復ループの番号(順番号)を表す。なお、説明の便宜のため、第j訓練用反復ループが“現在の訓練用反復ループ”と称されても良い。
ステップS101において、それぞれ、比較的大量のラベルを有するソースドメインデータ集合
(外1)
及び比較的少量のラベルを有するターゲットドメインデータ集合
(外2)
から、現在の訓練用反復ループのための、少なくとも1つの完全に注釈されたソースドメイン画像に対応するソースドメインデータサブセット
及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応するターゲットドメインデータサブセット
を読み取り、nsは読み込まれるソースドメイン画像の数を示し、ntは読み込まれるターゲットドメイン画像の数を示す。Xi
sはソースドメインの1つのサンプル画像を表し、Xi
tはターゲットドメインの1つのサンプル画像を表す。Yi
sはXi
sにおける注釈済みオブジェクトの境界枠の注釈情報を示す。Yi
tはXi
tにおける注釈済みオブジェクトの境界枠の注釈情報を示す。xi
s及びxi
tはそれぞれ、ソースドメイン及びターゲットドメインの1つの入力サンプル画像を表す。yi
sはxi
sにおける注釈済みオブジェクトの境界枠の注釈情報を示す。yi
tはxi
tにおける注釈済みオブジェクトの境界枠の注釈情報を示す。境界枠の注釈情報は画像内の或る種類の関心のあるオブジェクトの実例の境界枠の位置及び実例の類型(“類別”と称される場合もある)を含む。ここで疎らな注釈及び完全な注釈は2つの相対する概念である。例えば、複数のオブジェクト実例(例えば、10個のオブジェクト実例)を含む同じ画像について、比較的多い実例(例えば、全部の実例又は大部分の実例、例えば、8つの実例)が注釈された注釈画像に対して、比較的少ない実例(例えば、4つの実例)が注釈された注釈画像は疎らに注釈された(loosely annotated)画像と称されても良く、前者は完全に注釈された(fully annotated)画像と称されても良い。疎らに注釈された画像は画像における少数の幾つかの実例が注釈された画像であっても良い。1つのより具体的な例は次のとおりであり、即ち、完全に注釈された画像においてほとんどの関心のある類型の実例が注釈されており、疎らに注釈された画像においてすべての関心のある類型の実例のうちの少数の幾つかの実例が注釈されている。即ち、疎らに注釈された画像では、幾つかの元々関心のある類型の実例であるはずの前景領域が見逃されているため、見逃されたこれらの実例は背景と見なされており、さらには背景類型(クラス)の実例と注釈された可能性がある。Nsはソースドメインデータ集合全体に含まれる訓練画像の数である。Ntはターゲットドメインデータ集合全体に含まれる訓練画像の数である。各々の訓練用反復ループにおいて、例えば、1つのソースドメイン画像及び1つのターゲットドメイン画像を含む1対の訓練画像を入力できる。Nt<<Nsであり、即ち、ソースドメイン画像の数はターゲットドメイン画像の数よりも遥かに大きく、例えば、Nt/Nsは10以上であり、又は、100以上であり、さらには1000以上である。各々の訓練用反復ループにおいて、ソースドメイン画像のラベルの総数はターゲットドメインラベルの総数よりも大きい。各々の訓練用反復ループにおいて、その前の訓練用反復ループに使用された画像を繰り返して使用できる。
(外1)
及び比較的少量のラベルを有するターゲットドメインデータ集合
(外2)
から、現在の訓練用反復ループのための、少なくとも1つの完全に注釈されたソースドメイン画像に対応するソースドメインデータサブセット
なお、訓練用サンプル画像について、画像中の関心のある類型の実例(即ち、前景)が注釈されず、かつオブジェクト検出モデルに使用されるオブジェクト類別集合(オブジェクトクラス集合ともいう)が背景クラスを含む場合、注釈されない実例は背景クラスと注釈される可能性がある。これはラベルノイズを来す恐れがある。疎らに注釈されたターゲットドメイン画像もラベルノイズを招くことがある。また、完全に注釈されたソースドメイン画像及び疎らに注釈されたターゲットドメイン画像について、過大のIoU(Intersection over Union)により、背景実例の境界枠に一部の前景実例を含めることができるため、ラベルノイズを引き起こすこともできる。ラベルノイズはサンプル点(実例分類特徴)の不アライメントにつながる可能性があり、オブジェクト検出モデルのパフォーマンスに悪影響を与える場合がある。
ステップS103において、オブジェクト検出モデルMにより、少なくとも1つの完全に注釈されたソースドメイン画像xi
s(iはサブセットSsbによって確定される)に対して処理を行うことで、ソースドメインデータサブセットについての検出損失Ldet、及び少なくとも1つの完全に注釈されたソースドメイン画像xi
s(サブセットSsbに由来する)についてのソースドメイン実例分類特徴集合Osを確定する。ソースドメインデータサブセットSsbについての検出損失Ldetは、オブジェクト検出モデルMが少なくとも1つの完全に注釈されたソースドメイン画像xi
sに対してオブジェクト検出を行うときに出力した検出結果の、注釈情報に対する統計的正確度を示し、それは分類損失及び境界枠の回帰損失(即ち、位置決め損失)からなる。ソースドメイン実例分類特徴集合Osは、オブジェクト検出モデルMにより与えられた、現在の訓練用反復ループに読み込まれるすべてのソースドメイン画像xi
sの分類用の特徴からなる。
ステップS105において、オブジェクト検出モデルMにより少なくとも1つの疎らに注釈されたターゲットドメイン画像xi
t(サブセットStbに由来する)に対して処理を行うことで、少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合Otを確定する。ターゲットドメイン実例分類特徴集合Otは、オブジェクト検出モデルMにより与えられた、現在の訓練用反復ループに読み込まれるすべてのターゲットドメイン画像xi
tの分類用の特徴からなる。
ステップS107において、ソースドメイン実例分類特徴集合Ot及びターゲットドメイン実例分類特徴集合Otに基づいて、実例特徴アライメントに関する実例レベルのアライメント損失Linsを確定する。
ステップS109において、検出損失Ldet及び実例レベルのアライメント損失Linsに関する総損失Ltotalに基づいて、オブジェクト検出モデルMのパラメータを調整することで、オブジェクト検出モデルを最適化する。総損失Ltotalは例えば、検出損失Ldet及び実例レベルのアライメント損失Linsの線形組み合わせである。
本発明のモデル訓練方法は、訓練が終了したかの判断を含んでも良い。以下、図2を参照しながら本発明のオブジェクト検出モデルを訓練するための、コンピュータにより実現される方法についてさらに説明し、そのうち、訓練終了の判断のステップが示されている。
図2は本発明の1つの実施例においてオブジェクト検出モデルMを訓練するための方法200の例示的なフローチャートである。方法200は、コンピュータにより実現される、オブジェクト検出モデルを訓練するための方法であり、それは、反復の方式でオブジェクト検出モデルMを訓練することを含む。方法200は図1に基づいて説明された訓練用反復ループIter[j]に含まれるステップS101、S103、S105及びS107を含む。
ステップS209-1において、所定の訓練終了条件が満足されたかを確定する。確定結果が“はい”の場合、訓練を終了し;確定結果が“いいえ”の場合、ステップS209-2を実行する。所定の訓練終了条件は次のような条件のうちの1つであっても良く、即ち、総損失が所定閾値よりも小さいこと、及び、総損失が収斂(収束)していることである。総損失が収斂しているとは、例えば、現在の訓練用反復ループの総損失の、1つ前の訓練用反復ループの総損失に対する変化が所定閾値よりも小さいことを指す。
ステップS209-2において、総損失に基づいて、オブジェクト検出モデルMのパラメータを調整することで、オブジェクト検出モデルMを最適化する。その後、ステップS101に戻り、次の1つの訓練用反復ループに進む。
図1におけるステップS109は図2におけるステップS209-1とステップS209-2にさらに分けることができる。
ステップS109のもう1つの選択可能な実現方式として、次のようなサブステップを含んでも良く、即ち、総損失に基づいて、オブジェクト検出モデルMのパラメータを調整することで、オブジェクト検出モデルMを最適化し;及び、訓練用反復ループの数が所定の計数(所定の数)に達しているかを確定することである。確定結果が“はい”の場合、訓練を終了し;確定結果が“いいえ”の場合、ステップS101に戻り、次の1つの訓練用反復ループに入る。
本発明によるモデル訓練方法は大量のソースドメインのラベル有りのデータ及び少量のターゲットドメインのラベル有りのデータを用いて訓練を行う。少量のターゲットドメインの疎らに注釈された画像の使用は訓練データの注釈コストを低減し、訓練時間を短縮できる。
1つの実施例において、オブジェクト検出モデルMは同じオブジェクト類別集合Scに基づいて、少なくとも1つの完全に注釈されたソースドメイン画像xi
s(iはサブセットSsbに由来する)及び少なくとも1つの疎らに注釈されたターゲットドメイン画像xi
t(iはサブセットStbに由来する)に対してオブジェクト検出を行うように構成される。即ち、ソースドメイン画像の対象類別候補集合とターゲットドメイン画像の対象類別候補集合が同じである。オブジェクト類別集合は関心のある類型のオブジェクト(前景)、例えば、自動車、バス、モーターバイク、自転車、歩行者などを含む。さらに、オブジェクト類別集合Scは背景クラスを含む。通常、ソースドメイン及びターゲットドメインの画像内の注釈領域以外の領域がすべてデフォルトで背景と見なされる。ソースドメイン及びターゲットドメインの画像の背景のうちから複数の領域を背景クラス実例領域としてランダムで選択しても良い。
1つの実施例において、オブジェクト検出モデルMは特徴抽出器F及びFaster R-CNN(Faster Regions with CNN features)フレームワークに基づくRネットワークを含む。Rネットワークは入力画像の各関心のある領域特徴を確定するように構成される。Rネットワークはさらに、入力画像の各関心のある領域ROIの分類ラベル付き境界枠を確定するように構成される。Rネットワークは例えば、RPN(Region Proposal Network)を含んでも良い。特徴抽出器Fは入力画像に基づいて畳み込み処理を行い、画像の特徴マップ(特徴)を出力する。RPNは特徴抽出器Fの出力結果(特徴マップ)に基づいて関心のある領域に対応する関心のある領域特徴を出力できる。各関心のある領域特徴は、モデルが検出したオブジェクト実例の位置を表す。注釈情報におけるオブジェクト実例のリアルな位置情報を参照して、各関心のある領域特徴を使用することで、位置決め損失を決定できる。Faster R-CNNについては、以下の文献、即ち、
Ren S,He K,Girshick R,et al. Faster r-cnn:Towards real-time object detection with region proposal networks[J]. Advances in neural information processing systems,2015,28:91-99
を参照できる。
Ren S,He K,Girshick R,et al. Faster r-cnn:Towards real-time object detection with region proposal networks[J]. Advances in neural information processing systems,2015,28:91-99
を参照できる。
さらに、Rネットワークは追加(extra/additional)の分類特徴抽出層(追加分類特徴抽出層ともいう)FCを含んでも良い。追加分類特徴抽出層FCはRPNネットワークの後にあり、かつRPNネットワークに接続され、これによって、RPNネットワークが確定した各関心のある領域特徴のうちから分類用の実例分類特徴を抽出する。各実例分類特徴は、モデルが検出した画像における関心のあるオブジェクト実例の分類を表すことができる。注釈情報におけるオブジェクト実例の注釈分類情報を参照して、各実例分類特徴を使用することで、分類損失を決定できる。画像の同じ位置に異なる類型のオブジェクト実例が現れ得ることを考慮して、関心のある領域特徴を直接使用してオブジェクト実例の類型を確定するのではなく、追加分類特徴抽出層FCを設定して分類用の実例分類特徴を抽出するのである。これは好ましく、オブジェクト検出モデルのパフォーマンスの改善に有利である。
在1つの実施例において、オブジェクト検出モデルMのRネットワークはSWDA(Strong-weak distribution alignment)技術を含む。SWDAに関しては、以下の文献、即ち、
Saito K,Ushiku Y,Harada T,et al. Strong-weak distribution alignment for adaptive object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019:6956-6965
を参照できる。
Saito K,Ushiku Y,Harada T,et al. Strong-weak distribution alignment for adaptive object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019:6956-6965
を参照できる。
本実施例において、Rネットワークは弱グローバルアライメント及び強ローカルアライメントを統合している。SWDAは、Faster R-CNNに基づく1つのオブジェクト検出UDA(unsupervised data augmentation)フレームワークである。そのため、Rネットワークはさらに、ローカル判別器Dl及びグローバル判別器Dgを含む。特徴抽出器Fは
(外3)
に分解でき、そのうち、F1はローカル特徴に関する抽出器であり、F2はグローバル特徴に関する抽出器である。ターゲットドメインにおける画像が非常に少なく、かつ疎らに注釈されたので、ターゲットドメインの検出損失の最小化は過剰適合を招くことができるだけでなく、訓練失敗を招くこともできる。何故なら、ターゲットドメインの疎らに注釈された画像が大量のラベルノイズを含むからである。よって、本発明の訓練方法ではソースドメイン検出損失Ldetを計算するが、ターゲットドメインの検出損失を計算しない。現在の訓練用反復ループについて、ソースドメイン検出損失Ldetの計算方式は以下のような公式(1)で表すことができる。
(外3)
に分解でき、そのうち、F1はローカル特徴に関する抽出器であり、F2はグローバル特徴に関する抽出器である。ターゲットドメインにおける画像が非常に少なく、かつ疎らに注釈されたので、ターゲットドメインの検出損失の最小化は過剰適合を招くことができるだけでなく、訓練失敗を招くこともできる。何故なら、ターゲットドメインの疎らに注釈された画像が大量のラベルノイズを含むからである。よって、本発明の訓練方法ではソースドメイン検出損失Ldetを計算するが、ターゲットドメインの検出損失を計算しない。現在の訓練用反復ループについて、ソースドメイン検出損失Ldetの計算方式は以下のような公式(1)で表すことができる。
ここで、Lはオブジェクト検出損失を表し、それは分類損失及び境界枠の回帰損失(即ち、位置決め損失)からなる。
実例レベルのアライメントにより、オブジェクト検出モデルのパフォーマンスを効果的に向上させることができるが、実例レベルのアライメントのみを頼りにして目標検出領域適応のモデルパフォーマンスを保証できない場合がある。よって、本実施例において、モデル訓練方法はSWDAの弱グローバルアライメント及び強ローカルアライメントを統合している。そのため、まず、弱グローバルアライメントを用いて学習を行うことで画像レベルの特徴を得る。現在の訓練用反復ループについて、グローバル判別器Dgの弱グローバルアライメント損失Lglobalは次のような公式(4)で表すことができる。
そのうち、γは比較的に分類され難いサンプルの重み(weight)を制御する。
次に、強ローカルアライメントを用いて学習を行うことでローカルレベルの特徴、例えば、テクスチャーや色を得る。現在の訓練用反復ループについて、ローカル判別器Dlの強ローカルアライメント損失Llocは以下のような公式(7)で表すことができる。
つまり、敵対的損失Ladvは、グローバル判別器Dgにより画像レベルの特徴に基づいて確定された弱グローバルアライメント損失Lglobal、及びローカル判別器Dlによりローカルレベルの特徴に基づいて確定された強ローカルアライメント損失Llocを含む。
以下、本発明のモデル訓練方法に係る実例レベルのアライメントについてさらに説明する。
本発明の幾つかの実施例において、モデル訓練方法は、追加分類特徴層で抽出された特徴をもとに実例レベルのアライメントを行うことを含む。前景のROI(関心のある領域)特徴のみをもとにアライメントを行う従来の方法とは異なり、幾つかの実施例において、モデル訓練方法は前景のROIの特徴のアライメントを行うとともに、背景クラス実例に対応する背景の参照枠の特徴のアライメントも行う。何故なら、サンプル点を用いて実例のアライメントを行い、実例レベルのアライメント損失を計算するために、それぞれ、各々の実例のクラス内距離及びクラス間距離を計算する必要があるからである。しかしながら、幾つかのシーンにおいて1つのみのクラスの前景があり、例えば、自動車を検出し、他のオブジェクト(物体)を無視する。このようなシーンでは、前景のみを考慮する場合、クラス間距離を計算できないため、実例レベルのアライメント損失を計算できない。もちろん、複数の前景類別が存在する場合、本発明におけるサンプル点のアライメントに基づく実例のアライメントは前景クラスのみのアライメントに適用することもできる。
1つの実施例において、例えば、特徴ベクトルで表される移動平均クラス中心をも1つの実例特徴とし、それを実例分類特徴集合に追加することで、実例レベルのアライメント損失の確定に参与できる。以下、図3を参照しながら、実例レベルのアライメント損失の確定(例えば、図1におけるステップS107)について説明する。図3は本発明の1つの実施例において実例レベルのアライメント損失を確定するための方法300の例示的なフローチャートである。
方法300の処理対象はソースドメイン実例分類特徴集合Os及びターゲットドメイン実例分類特徴集合Otである。実例分類特徴集合における各々の実例特徴は1つの実例点と称されても良く、各々の類別の実例点は特徴空間で対応する実例特徴により確定された分布を有する。よって、実例点分布の変化を参照して方法300を説明するのは有利である。図4は本発明の実施例の異なる処理段階での実例点の特徴空間における分布を示す図であり、そのうち、図4(a_s)は初期ソースドメイン実例分類特徴集合Os(例えば、追加分類特徴抽出層FCにより出力された、ソースドメイン画像xi
s(それはサブセットSsbにより確定される)に対応する分類特徴からなるソースドメイン実例分類特徴集合)に対応するソースドメイン実例点分布を示しており、図4(a_t)は初期ターゲットドメイン実例分類特徴集合Ot(例えば、追加分類特徴抽出層FCにより出力された、ターゲットドメイン画像xi
t(それはサブセットSstにより確定される)に対応する分類特徴からなるターゲットドメイン実例分類特徴集合)に対応するターゲットドメイン実例点分布を示している。該例では、オブジェクト類別集合Scは4つの類別を含み、k=0乃至3に対応し、そのうち、k=0は背景クラスに対応する。図4(a_t)の右上隅には1つの背景ノイズの例が示されている。この段階では、実例分類特徴集合には或る類別の特徴点が無い可能性がある。例えば、図4(a_s)に示すように、ソースドメイン特徴点にはk=3の実例点が無く、図4(a_t)に示すように、ターゲットドメイン特徴点にはk=1及びk=3の実例点が無い。また、図4(a_s)及び図4(a_t)は次のようなことを示しており、即ち、同じ類別について、ソースドメイン実例点(ラベル)の数がターゲットドメイン実例点(ラベル)の数よりも大きい。
ステップS301において、ソースドメイン実例分類特徴集合Osに基づいて、現在の訓練用反復ループのソースドメインの各クラスの平均クラス中心を確定する。例えば、オブジェクト類別集合Scは4つの類別を含むときに、本ステップは通常、4つの平均クラス中心を確定できる。ソースドメインの各クラスの平均クラス中心
(外4)
の確定方法は例えば、次のような公式(9)により確定されても良く、そのうち、kは類別の索引(index)である。
(外4)
の確定方法は例えば、次のような公式(9)により確定されても良く、そのうち、kは類別の索引(index)である。
ここで、xsはソースドメイン実例分類特徴集合Osにおいて類別kのソースドメイン実例分類特徴サブセットOs
kについてのソースドメイン実例分類特徴であり、即ち、xs∈Os
kであり、|Os
k|はk類別のオブジェクト実例の数であり、即ち、サブセットOs
kにおける実例分類特徴の数である。
ステップS303において、ターゲットドメイン実例分類特徴集合Otに基づいて、現在の訓練用反復ループのターゲットドメインの各クラスの平均クラス中心を確定する。例えば、オブジェクト類別集合Scは4つの類別を含むときに、本ステップは4つの平均クラス中心を確定できる。ターゲットドメインの各クラスの平均クラス中心
(外5)
の確定方法は例えば、以下のような公式(10)を用いて確定でき、そのうち、kは類別の索引である。
(外5)
の確定方法は例えば、以下のような公式(10)を用いて確定でき、そのうち、kは類別の索引である。
ここで、xtはターゲットドメイン実例分類特徴集合Otにおいて類別kのターゲットドメイン実例分類特徴サブセットOt
kについてのターゲットドメイン実例分類特徴であり、即ち、xt∈Ot
kであり、|Ot
k|はk類別のオブジェクト実例の数であり、即ち、サブセットOt
kにおける実例分類特徴の数である。
ステップS305において、ソースドメインについて、現在の訓練用反復ループの各クラスの平均クラス中心及び1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、現在の訓練用反復ループのソースドメインの各クラスの移動平均クラス中心を計算する。ソースドメインについて、第k類別の第j訓練用反復ループ(現在の訓練用反復ループ)の移動平均クラス中心CS,j
kは次のような公式(11)により確定できる。
ここで、CS,j-1
kは1つ前の訓練用反復ループのソースドメインの第k類別の移動平均クラス中心であり、θは移動平均係数を表す。CS,0
k(即ち、j=1)を0と設定できる。
ステップS307において、ターゲットドメインについて、現在の訓練用反復ループの各クラスの平均クラス中心及び1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、現在の訓練用反復ループのターゲットドメインの各クラスの移動平均クラス中心を計算する。ターゲットドメインについて、第k類別の第j訓練用反復ループ(現在の訓練用反復ループ)の移動平均クラス中心CT,j
kは以下のような公式(12)で確定できる。
ここで、CT,j-1
kは1つ前の訓練用反復ループのターゲットドメインの第k類別の移動平均クラス中心であり、θは移動平均係数を示す。CT,0
k(即ち、j=1)を0と設定できる。
ステップS309において、現在の訓練用反復ループのソースドメインの各クラスの移動平均クラス中心をソースドメイン分類特徴集合に追加することで、ソースドメイン実例分類特徴集合を更新する。図4(b_s)はソースドメインの各クラスの移動平均クラス中心が追加されたソースドメイン実例点分布を示しており、そのうち、各中実幾何学図形は、ソースドメインにおいて各クラスの移動平均クラス中心を表す例示的な特徴点に対応する。
ステップS311において、現在の訓練用反復ループのターゲットドメインの各クラスの移動平均クラス中心をターゲットドメイン実例分類特徴集合に追加することで、ターゲットドメイン実例分類特徴集合を更新する。図4(b_t)はターゲットドメインの各クラスの移動平均クラス中心が追加されたターゲットドメイン実例点分布を示しており、そのうち、各中実幾何学図形は、ターゲットドメインにおいて各クラスの移動平均クラス中心を表す例示的な特徴点に対応する。移動平均クラス中心の追加は、すべての類別のすべての実例について域(ドメイン)に跨った(クロスドメインの)クラス内及びクラス間距離の計算に有利である。
ステップS313において、更新されたソースドメイン実例分類特徴集合と更新されたターゲットドメイン実例分類特徴集合との間の実例レベルのアライメント損失を確定する。なお、或る訓練用反復ループ(例えば、1番目の訓練用反復ループ)において、オブジェクト類別集合Scの或る類別について、そのソースドメイン又はターゲットドメインの移動平均クラス中心がゼロである場合、該実例類型の実例点に対してのアライメントを行わず、該実例類型についての実例レベルのアライメント損失を計算せず、即ち、実例レベルのアライメント損失には該実例類型に係るアライメント損失を算入しない。
1つの実施例において、実例分類特徴集合の更新はさらに背景クラスの実例の削除を含んでも良い。背景の参照枠が表す関心のある領域ROIが非常に多くのラベルノイズを有するため、本実施例において、ソースドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、ソースドメイン実例分類特徴集合における背景クラスの移動平均クラス中心を残し;ターゲットドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、また、ターゲットドメイン実例分類特徴集合における背景クラスの移動平均クラス中心を残す。背景削除操作は次のような公式(13)及び公式(14)に従って行うことができる。
背景クラス実例特徴点(分類特徴)を削除すると同時に、背景クラス移動平均中心を残すことは、ラベルノイズの抑制やオブジェクト検出モデルのパフォーマンスの改善に有利である。本発明では、“背景クラス実例特徴点(分類特徴)を削除すると同時に、背景クラス移動平均中心を残す”操作は“背景クラス実例削除”とも略称される。
図4(c_s)は背景クラス実例削除後のソースドメインの各クラスの実例点の分布を示しており、図4(c_t)は背景クラス実例削除後のターゲットドメインの各クラスの実例点の分布を示している。図4(c_s)及び図4(c_t)では、分かるように、中空三角形で表されるリアルな背景クラス実例点が既に削除されており、同時に中実三角形で表される背景クラスの移動平均クラス中心の実例点が残されている。
1つの実施例において、実例分類特徴集合の更新はさらにアンダーサンプリング(undersampling)を含んでも良い。周知されているように、訓練サンプル集合における類別のアンバランスの問題は機械学習のパフォーマンスの低下を招く可能性がある。同様に、実例分布のアンバランスも実例レベルのアライメントに悪影響を与えることがある。例えば、次の文献1に開示されているように、Cityscapesデータセットにおいて、実例の分布は非常にアンバランスであり、そのうち、“自動車”(car)及び“人”(person)の2つのクラスの実例は大部分を占めている。
文献1:Cordts M,Omran M,Ramos S,et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:3213-3223
よって、このような問題によるパフォーマンスへの影響を低減するために、本実施例では、実例分類特徴集合の更新はさらに、ソースドメイン実例分類特徴集合Os及びターゲットドメイン実例分類特徴集合Otに対してアンダーサンプリングを行うことを含む。具体的には、各訓練用反復ループにおいて実例をドロップすることで対応するクラスの実例の最大個数を制限する。以下の公式(15)及び(16)に示すように、ドロップ型更新は関数undersampling()により実現され得る。
よって、このような問題によるパフォーマンスへの影響を低減するために、本実施例では、実例分類特徴集合の更新はさらに、ソースドメイン実例分類特徴集合Os及びターゲットドメイン実例分類特徴集合Otに対してアンダーサンプリングを行うことを含む。具体的には、各訓練用反復ループにおいて実例をドロップすることで対応するクラスの実例の最大個数を制限する。以下の公式(15)及び(16)に示すように、ドロップ型更新は関数undersampling()により実現され得る。
ここで、undersampling()は、事前定義されている1つの関数であって、実例をランダムにドロップすることで対応クラスの実例の最大個数が所定閾値
(外7)
を超えないように制限する関数であり、そのうち、各々の実例はそれ相応の実例分類特徴に対応する。ドロップされるのはリアルな実例特徴であり、移動平均クラス中心に対応する準実例特徴はドロップされない。実例分類特徴集合に既に移動平均クラス中心が含まれている場合、ドロップ型更新の後(即ち、アンダーサンプリングの後)に、移動平均クラス中心は依然として実例分類特徴集合に残される。Os及びOtについて、クラス毎に対応クラスの実例個数が所定閾値よりも大きいかをチェックでき、チェック結果が“はい”の場合、対応クラスの実例をランダムにドロップすることで該類別の実例の個数を
(外8)
に減少させる。図4(d_s)はドロップ型更新後のソースドメインの実例点の分布を示しており、そのうち、所定閾値に従って、k=1及びk=2の一部の実例点(実例特徴)をドロップしており;図4(d_t)はドロップ型更新後のターゲットドメインの実例点の分布を示しており、そのうち、所定閾値に従って、k=2の一部の実例点(実例特徴)をドロップしている。アンダーサンプリングは、移動平均クラス中心を計算した後に、かつ実際のアライメント損失を具体的に計算する前に行われる。なお、図4では、例示的なのオブジェクト類別集合Scは背景クラスを含み、それはk=0の実例点に対応する。理解すべきは、アンダーサンプリングが背景クラス実例削除の前に実行される場合、背景クラス実例に対してアンダーサンプリングを実行しなくても良いということであり、これは訓練用時間の減少に有利である。また、理解すべきは、背景クラス以外に、各々のクラスの所定閾値が完全に同じでなくても良いが、基本的に同じであり、さらには同じであることが好ましいということである。
(外7)
を超えないように制限する関数であり、そのうち、各々の実例はそれ相応の実例分類特徴に対応する。ドロップされるのはリアルな実例特徴であり、移動平均クラス中心に対応する準実例特徴はドロップされない。実例分類特徴集合に既に移動平均クラス中心が含まれている場合、ドロップ型更新の後(即ち、アンダーサンプリングの後)に、移動平均クラス中心は依然として実例分類特徴集合に残される。Os及びOtについて、クラス毎に対応クラスの実例個数が所定閾値よりも大きいかをチェックでき、チェック結果が“はい”の場合、対応クラスの実例をランダムにドロップすることで該類別の実例の個数を
(外8)
に減少させる。図4(d_s)はドロップ型更新後のソースドメインの実例点の分布を示しており、そのうち、所定閾値に従って、k=1及びk=2の一部の実例点(実例特徴)をドロップしており;図4(d_t)はドロップ型更新後のターゲットドメインの実例点の分布を示しており、そのうち、所定閾値に従って、k=2の一部の実例点(実例特徴)をドロップしている。アンダーサンプリングは、移動平均クラス中心を計算した後に、かつ実際のアライメント損失を具体的に計算する前に行われる。なお、図4では、例示的なのオブジェクト類別集合Scは背景クラスを含み、それはk=0の実例点に対応する。理解すべきは、アンダーサンプリングが背景クラス実例削除の前に実行される場合、背景クラス実例に対してアンダーサンプリングを実行しなくても良いということであり、これは訓練用時間の減少に有利である。また、理解すべきは、背景クラス以外に、各々のクラスの所定閾値が完全に同じでなくても良いが、基本的に同じであり、さらには同じであることが好ましいということである。
アンダーサンプリングは実例の分布のバランスに有利であり、また、オブジェクト検出モデルのパフォーマンスの改善にも有利である。
1つの実施例において、ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合について、実例分類特徴集合の更新は各クラスの移動平均中心の追加、背景クラス実例の削除、及びアンダーサンプリングを含む。
更新されたソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合を得た後に、この2つの特徴集合における特徴点のアライメントに基づいて、実例レベルのアライメント損失Linsを確定できる。1つの実施例において、実例レベルのアライメント損失Linsは、最小絶対クラス間距離の最大化を考慮した拡張d-SNE損失である。d-SNEについては次の文献、即ち、
文献2:Xu X,Zhou X,Venkatesan R,et al. d-SNE:Domain adaptation using stochastic neighborhood embedding (d-SNE)(CVPR 2019)
を参照できる。
文献2:Xu X,Zhou X,Venkatesan R,et al. d-SNE:Domain adaptation using stochastic neighborhood embedding (d-SNE)(CVPR 2019)
を参照できる。
ここで、d(xs,xt)はxs及びxtの特徴空間内のユークリッド距離の平方を表す。kはxtの類別ラベルであり、即ち、k=ytであり、
である。sup{}はクロスドメイン特徴間クラス内距離の上限を示す。Inf{}はロスドメイン特徴間クラス間距離の下限を示す。よって、d-SNE損失は、最大のクロスドメインクラス内距離を最小化すると同時に、最小のクロスドメインクラス間距離を最大化することで、サンプル点に基づく実例レベルのアライメントを達成できる。1つの例において、本発明における実例レベルのアライメント損失は公式(17)に基づいて確定され得る。計算の効率化を考慮して、さらに、1つの例において、d-SNE損失は以下公式(18)により定義されても良い。
ここで、mは1つの事前定義されているマージン(margin)値であり、max()は最大値をとることを表す。mは経験に応じて決定されても良く、例えば、1つの例において1の値をとる。1つの例において、本発明の実例レベルのアライメント損失は公式(18)に基づいて確定できる。しかしながら、公式(18)に示すd-SNE損失の実現は、最大クラス内距離と最小クラス間距離との間の相対的な差異のみを増大したが、最小絶対クラス間距離を最大化していない。この問題を解決するために、1つの例において、改良された実例レベルのアライメントの損失、即ち、拡張d-SNE損失を採用し、それは次のような公式(19)により確定され得る。
ここで、m2は、最小絶対クラス間距離を最大化するために事前定義されているもう1つのマージン値である。m2は経験に応じて決定されて良く、例えば、1つの例において30の値をとる。本実施例における拡張d-SNE損失(公式(19)参照)はオリジナルd-SNE損失(公式(17)参照)に対して、追加されたハイパーパラメータm2を利用することで各クラスをより良く分離できる。
モデルパラメータを調整するときに総目標関数(目的関数)を用いることがある。以下、総目標関数について詳しく説明する。
1つの実施例において、総損失は検出損失Ldet及び実例レベルのアライメント損失Linsの線形組み合わせであっても良い。さらに、総損失は敵対的損失Ladv、検出損失Ldet及び実例レベルのアライメント損失Linsの線形組み合わせであっても良い。具体的には、総損失Ltotalは次のような公式(20)に従って確定され得る。
ここで、λ1は例えば、サンプルデータ集合に基づいて0.1から1までの間の値をとっても良い。λ2=min(0.1,p2)であり、訓練の期間で、pは次第に0から1に増加し得る。λ2は固定値であっても良く、例えば、λ2=1と設定する。
ここで、
(外9)
は、F及びRのパラメータを調整することで総損失の最小化を実現することを表し、
(外10)
は、Dl及びDgのパラメータを調整することで総損失の最大化を実現することを表す。mini-max損失関数は勾配反転層(GRL、gradient reversal layer)により実現されても良い。mini-max損失関数に関しては、次の文献3、即ち、
文献3:Ganin Y,Ustinova E,Ajakan H,et al. Domain-adversarial training of neural networks[J]. The journal of machine learning research,2016,17(1):2096-2030
を参照できる。
(外9)
は、F及びRのパラメータを調整することで総損失の最小化を実現することを表し、
(外10)
は、Dl及びDgのパラメータを調整することで総損失の最大化を実現することを表す。mini-max損失関数は勾配反転層(GRL、gradient reversal layer)により実現されても良い。mini-max損失関数に関しては、次の文献3、即ち、
文献3:Ganin Y,Ustinova E,Ajakan H,et al. Domain-adversarial training of neural networks[J]. The journal of machine learning research,2016,17(1):2096-2030
を参照できる。
図4(e)はオブジェクト検出モデルのパラメータの調整による特徴点アライメントへの影響の効果を示している。図4(e)では、パラメータの調整によるアライメントへの影響の効果を明確に示すために、パラメータ調整後のオブジェクト検出モデルにより確定されたソースドメイン実例点及びターゲットドメイン実例点を同じ空間に併合して示している。図4(e)に示すように、オブジェクト検出モデルのパラメータを調整した後に、同じクラスの特徴点はより集約され、アライメントの程度が高くなる傾向があり、クラス内距離が減少し、また、異なるクラスの特徴点は間隔が大きくなる傾向があり、クラス間距離が増大する。
本発明のもう1つの側面においてオブジェクト検出方法が提供される。以下、図5を参照しながら該方法について例示的に説明する。
図5は本発明の1つの実施例によるオブジェクト検出方法500の例示的なフローチャートである。
ステップS501において、オブジェクト検出モデルMを訓練する。具体的には、本発明のモデル訓練方法(例えば、図2に示す方法200)を用いてオブジェクト検出モデルMを訓練する。
ステップS503において、検出待ち画像に対して検出を行う。具体的には、訓練後のオブジェクト検出モデルを使用して検出待ち画像におけるオブジェクトの位置及び類別を確定する。
本発明のまたもう1つの側面においてオブジェクト検出モデルを訓練するための装置が提供される。以下、図6を参照しながら該装置について説明する。
図6は本発明の1つの実施例においてオブジェクト検出モデルを訓練するための装置600の構成を示すブロック図である。装置600は反復の方式でオブジェクト検出モデルを訓練するために用いられる。オブジェクト検出モデルはニューラルネットワークに基づいている。
該装置600は検出損失確定ユニット601、分類特徴集合確定ユニット603、アライメント損失確定ユニット605、総損失確定ユニット607及び最適化ユニット609を含む。検出損失確定ユニット601は、現在の訓練用反復ループのための少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセットに基づいて、ソースドメインデータサブセットについての検出損失を確定するように構成される。分類特徴集合確定ユニット603は、少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定するように構成される。アライメント損失確定ユニット605は、ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて、実例特徴アライメントに関する実例レベルのアライメント損失を確定するように構成される。総損失確定失ユニット607は、検出損失及び実例レベルのアライメント損失に基づいて総損失を確定するように構成される。最適化ユニット609は、総損失に基づいて、オブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化するように構成される。
ソースドメインデータサブセット及びターゲットドメインデータサブセットはそれぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合に由来する。装置600は方法200に対応し、装置600の具体的な処理などについては方法200の説明を参照できる。例えば、分類特徴集合確定ユニット603はさらに次のような操作のうちの少なくとも1つを行うように構成されても良く、即ち、ソースドメイン及びターゲットドメインの各クラスの移動平均クラス中心を確定し、各移動平均クラス中心を対応する実例分類特徴集合に追加し、実例分類特徴集合における背景クラスの実例を削除し、及び実例分類特徴集合に対してアンダーサンプリングを行う。オプションとして、装置600はさらに敵対的損失確定ユニットを含んでも良い。敵対的損失確定ユニットはソースドメインデータ集合及びターゲットドメインデータ集合についての敵対的損失を確定するために用いられる。敵対的損失確定ユニットは総損失確定ユニット607に接続され、総損失に敵対的損失を含めるようにさせる。
本発明の他の側面においてオブジェクト検出モデルを訓練するための装置が提供される。以下、図7を参照しながら該装置について説明する。図7は本発明の1つの実施例においてオブジェクト検出モデルを訓練するための装置700を示す図である。該装置は、命令を記憶している記憶器701、及び1つ又は複数の処理器703を含み、1つ又は複数の処理器は記憶器と通信することで、記憶器から読み取った命令を実行することができ、命令は1つ又は複数の処理器に次のような操作を実行させ、即ち、それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り;オブジェクト検出モデルにより少なくとも1つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;オブジェクト検出モデルにより少なくとも1つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び、検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する。なお、装置700は方法200に対応し、装置700の具体的な操作などについては方法200の説明を参照できる。
本発明の他の側面においてプログラムを記憶しているコンピュータ可読記憶媒体が提供される。該プログラムは該プログラムを実行するコンピュータに次のような操作を実行させ、即ち、それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り;オブジェクト検出モデルにより少なくとも1つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;オブジェクト検出モデルにより少なくとも1つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び、検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する。なお、該プログラムは方法200に対応し、該プログラムの具体的処理などについては方法200の説明を参照できる。
本発明の他の側面にプログラムを記憶しているコンピュータ可読記憶媒体が提供される。該プログラムは該プログラムを実行するコンピュータに方法200を実現させる。
本発明の他の側面において情報処理装置がさらに提供される。
図8は、本発明の実施例における方法及び装置を実現し得る情報処理装置のハードウェア構成(汎用コンピュータ)800の構成図である。
汎用コンピュータ800は、例えば、コンピュータシステムであっても良い。なお、汎用コンピュータ800は例示に過ぎず、本発明による方法及び装置の適用範囲又は機能について限定しない。また、汎用コンピュータ800は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせにも依存しない。
図8では、中央処理装置(CPU)801は、ROM802に記憶されているプログラム又は記憶部808からRAM803にロッドされているプログラムに基づいて各種の処理を行う。RAM803では、ニーズに応じて、CPU801が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU801、ROM802及びRAM803は、バス804を経由して互いに接続される。入力/出力インターフェース805もバス804に接続される。
また、入力/出力インターフェース805には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部806、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部807、ハードディスクなどを含む記憶部808、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部809である。通信部809は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。ドライブ810は、ニーズに応じて、入力/出力インターフェース805に接続されても良い。取り外し可能な媒体811、例えば、半導体メモリなどは、必要に応じて、ドライブ810にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部808にインストールすることができる。
また、本発明は、さらに、マシン可読命令コードを含むプログラムプロダクトを提供する。このような命令コードは、マシンにより読み取られ、実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も本発明に含まれる。
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
以下、本発明による効果について説明する。
次のような3つのシーンを構築して実験を行い、本発明の技術案と従来の方法との正確率のパフォーマンスの面における差異を比較した。(1)CityscapesからFoggy Cityscapesの遷移(C->F)であり;(2)SIM10KからCityscapesへの遷移(S->Cであり、即ち、SIM10Kのラベル有りサンプル及びCityscapesの少量のラベル有りサンプルの両方を用いて訓練を行う)であり;(3)UdacityからCityscapesへの遷移(U->C)である。実験結果は以下の表1及び表2に示されている。第1のシーンC->Fは天気の変化によるドメイン偏移(domain shift)がもたらすデータ偏差をシミュレーションするためのものである。第二のシーンS->Cは仮想世界とリアルな世界との間のデータ偏差をシミュレーションするためのものである。第三のシーンU->Cは2つの異なるリアルな世界の間の、照明条件やカメラ角度などが原因で生じるデータ偏差をシミュレーションするためのものである。
引用データは以下の文献に由来する。
[1]Ren S,He K,Girshick R,et al. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. Advances in neural information processing systems,2015,28:91-99
[2]Saito K,Ushiku Y,Harada T,et al. Strong-weak distribution alignment for adaptive object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:6956-6965
[3]Zhuang C,Han X,Huang W、et al. ifan:Image-instance full alignment networks for adaptive object detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2020,34(07):13122-13129
[4]Wu、 A.,Han,Y.,Zhu,L.& Yang,Y.(2021).Instance-Invariant Domain Adaptive Object Detection via Progressive Disentanglement.IEEE Transactions on Pattern Analysis and Machine Intelligence,1-1
[5]Wang T,Zhang X,Yuan L,et al.Few-shot adaptive faster r-cnn[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:7173-7182
そのうち、Source-onlyは完全に注釈されたソースドメインデータのみを使用して訓練を行うことを表し、Target-onlyは疎らに注釈されたターゲットドメインデータのみを用いて訓練を行うことを表し、UDAは教師無し領域適応方法を表し、それはすべての注釈されていないターゲットドメインデータを用いて領域適応を行い、FUDAは少数サンプル教師無し領域適応方法を表し、FDAは少数サンプル領域適応方法を表し、PICA+SWDAは本発明で採用される方法を表し、PICAはpoint-wise instance and centroid alignmentを表し、mAP(0.5)は平均精度(Mean average precision)を表し、0.5は閾値であり、表内の小数点を含むデータは検出精度mAP(mean Average Precision)を表す。
[2]Saito K,Ushiku Y,Harada T,et al. Strong-weak distribution alignment for adaptive object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:6956-6965
[3]Zhuang C,Han X,Huang W、et al. ifan:Image-instance full alignment networks for adaptive object detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2020,34(07):13122-13129
[4]Wu、 A.,Han,Y.,Zhu,L.& Yang,Y.(2021).Instance-Invariant Domain Adaptive Object Detection via Progressive Disentanglement.IEEE Transactions on Pattern Analysis and Machine Intelligence,1-1
[5]Wang T,Zhang X,Yuan L,et al.Few-shot adaptive faster r-cnn[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:7173-7182
そのうち、Source-onlyは完全に注釈されたソースドメインデータのみを使用して訓練を行うことを表し、Target-onlyは疎らに注釈されたターゲットドメインデータのみを用いて訓練を行うことを表し、UDAは教師無し領域適応方法を表し、それはすべての注釈されていないターゲットドメインデータを用いて領域適応を行い、FUDAは少数サンプル教師無し領域適応方法を表し、FDAは少数サンプル領域適応方法を表し、PICA+SWDAは本発明で採用される方法を表し、PICAはpoint-wise instance and centroid alignmentを表し、mAP(0.5)は平均精度(Mean average precision)を表し、0.5は閾値であり、表内の小数点を含むデータは検出精度mAP(mean Average Precision)を表す。
S->C及びU->Cのシーンでは、8つのターゲットドメイン画像を使用しており、各画像は3つのみの自動車が注釈されており、C->Fのシーンでは、8つのターゲットドメイン画像を使用しており、各画像は1つのクラスに対応し、かつ各画像は対応するクラスの1つのみの実例が注釈されている。FUDA方法はFDAと同様の8つの画像を使用しているが、対応する注釈を使用していない。
表1及び表2の実験結果から分かるように、本発明の方法(PICA+SWDA)はC->F、S->C及びU->Cにおいて、従来のFAFRCNN及びSWDAよりも優れている。
本発明の技術案には、追加分類特徴抽出層、敵対的損失、少量の疎らに注釈されたターゲットドメイン画像の使用、移動平均クラス中心のアライメント、背景クラス実例削除、アンダーサンプリング、改良された実例レベルのアライメント損失が含まれている。本発明の有利な効果は、ラベルノイズに対してロバスト性を有し、類別(クラス)のアンバランスを克服でき、実例レベルのアライメントを改善でき、及び検出精度を向上させることができるということのうちの少なくとも1つを含む。
また、以上の実施例などに関し、以下のような付記をさらに開示する。
(付記1)
オブジェクト検出モデルを訓練するための、コンピュータが実行する方法であって、
反復の方式で前記オブジェクト検出モデルを訓練することを含み、
前記オブジェクト検出モデルはニューラルネットワークに基づいており、
現在の訓練用反復ループは、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、前記現在の訓練用反復ループのための少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り(取得し);
前記オブジェクト検出モデルにより、前記少なくとも1つの完全に注釈されたソースドメイン画像を処理することで、前記ソースドメインデータサブセットについての検出損失、及び前記少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;
前記オブジェクト検出モデルにより、前記少なくとも1つの疎らに注釈されたターゲットドメイン画像を処理することで、前記少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び
前記検出損失及び前記実例レベルのアライメント損失に関する総損失に基づいて前記オブジェクト検出モデルのパラメータを調整することで前記オブジェクト検出モデルを最適化することを含む、方法。
オブジェクト検出モデルを訓練するための、コンピュータが実行する方法であって、
反復の方式で前記オブジェクト検出モデルを訓練することを含み、
前記オブジェクト検出モデルはニューラルネットワークに基づいており、
現在の訓練用反復ループは、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、前記現在の訓練用反復ループのための少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り(取得し);
前記オブジェクト検出モデルにより、前記少なくとも1つの完全に注釈されたソースドメイン画像を処理することで、前記ソースドメインデータサブセットについての検出損失、及び前記少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;
前記オブジェクト検出モデルにより、前記少なくとも1つの疎らに注釈されたターゲットドメイン画像を処理することで、前記少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び
前記検出損失及び前記実例レベルのアライメント損失に関する総損失に基づいて前記オブジェクト検出モデルのパラメータを調整することで前記オブジェクト検出モデルを最適化することを含む、方法。
(付記2)
付記1に記載の方法であって、
同じオブジェクト類別集合に基づいて前記少なくとも1つの完全に注釈されたソースドメイン画像及び前記少なくとも1つの疎らに注釈されたターゲットドメイン画像を使用して前記オブジェクト検出モデルを訓練し、前記同じオブジェクト類別集合は背景クラスを含む、方法。
付記1に記載の方法であって、
同じオブジェクト類別集合に基づいて前記少なくとも1つの完全に注釈されたソースドメイン画像及び前記少なくとも1つの疎らに注釈されたターゲットドメイン画像を使用して前記オブジェクト検出モデルを訓練し、前記同じオブジェクト類別集合は背景クラスを含む、方法。
(付記3)
付記1に記載の方法であって、
前記オブジェクト検出モデルはRネットワークを含み、
前記RネットワークはFaster RCNNフレームワークに基づいており、
前記Rネットワークは入力画像の各関心のある領域特徴を確定するように構成され、
前記Rネットワークはさらに、前記入力画像の各関心のある領域の分類ラベル付き境界枠を確定するように構成される、方法。
付記1に記載の方法であって、
前記オブジェクト検出モデルはRネットワークを含み、
前記RネットワークはFaster RCNNフレームワークに基づいており、
前記Rネットワークは入力画像の各関心のある領域特徴を確定するように構成され、
前記Rネットワークはさらに、前記入力画像の各関心のある領域の分類ラベル付き境界枠を確定するように構成される、方法。
(付記4)
付記3に記載の方法であって、
前記Rネットワークは追加分類特徴抽出層を含み、
前記追加分類特徴抽出層は各関心のある領域特徴のうちから分類用の実例分類特徴を抽出するように構成される、方法。
付記3に記載の方法であって、
前記Rネットワークは追加分類特徴抽出層を含み、
前記追加分類特徴抽出層は各関心のある領域特徴のうちから分類用の実例分類特徴を抽出するように構成される、方法。
(付記5)
付記1に記載の方法であって、
前記総損失はさらに、前記ソースドメインデータサブセットと前記ターゲットドメインデータサブセットの敵対的損失に関連している、方法。
付記1に記載の方法であって、
前記総損失はさらに、前記ソースドメインデータサブセットと前記ターゲットドメインデータサブセットの敵対的損失に関連している、方法。
(付記6)
付記5に記載の方法であって、
前記Rネットワークはグローバル判別器及びローカル判別器を含み、前記敵対的損失は前記グローバル判別器により画像レベルの特徴に基づいて確定される弱グローバルアライメント損失及び前記ローカル判別器によりローカルレベルの特徴に基づいて確定さる強ローカルアライメント損失を含む、方法。
付記5に記載の方法であって、
前記Rネットワークはグローバル判別器及びローカル判別器を含み、前記敵対的損失は前記グローバル判別器により画像レベルの特徴に基づいて確定される弱グローバルアライメント損失及び前記ローカル判別器によりローカルレベルの特徴に基づいて確定さる強ローカルアライメント損失を含む、方法。
(付記7)
付記2に記載の方法であって、
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定することは、
前記ソースドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのソースドメインの各クラスの平均クラス中心を確定し;
前記ターゲットドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのターゲットドメインの各クラスの平均クラス中心を確定し;
前記ソースドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を確定し;
前記ターゲットドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を確定し;
前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を前記ソースドメイン分類特徴集合に追加することで、前記ソースドメイン実例分類特徴集合を更新し;
前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を前記ターゲットドメイン実例分類特徴集合に追加することで、前記ターゲットドメイン実例分類特徴集合を更新し;及び
前記更新されたソースドメイン実例分類特徴集合と、前記更新されたターゲットドメイン実例分類特徴集合との間の前記実例レベルのアライメント損失を確定することを含む、方法。
付記2に記載の方法であって、
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定することは、
前記ソースドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのソースドメインの各クラスの平均クラス中心を確定し;
前記ターゲットドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのターゲットドメインの各クラスの平均クラス中心を確定し;
前記ソースドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を確定し;
前記ターゲットドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を確定し;
前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を前記ソースドメイン分類特徴集合に追加することで、前記ソースドメイン実例分類特徴集合を更新し;
前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を前記ターゲットドメイン実例分類特徴集合に追加することで、前記ターゲットドメイン実例分類特徴集合を更新し;及び
前記更新されたソースドメイン実例分類特徴集合と、前記更新されたターゲットドメイン実例分類特徴集合との間の前記実例レベルのアライメント損失を確定することを含む、方法。
(付記8)
付記7に記載の方法であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含み、かつ
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含む、方法。
付記7に記載の方法であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含み、かつ
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含む、方法。
(付記9)
付記7に記載の方法であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ソースドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことを含み、かつ
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ターゲットドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことを含む、方法。
付記7に記載の方法であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ソースドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことを含み、かつ
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ターゲットドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことを含む、方法。
(付記10)
付記1に記載の方法であって、
前記実例レベルのアライメント損失は最小絶対クラス間距離の最大化を考慮した拡張d-SNE損失である、方法。
付記1に記載の方法であって、
前記実例レベルのアライメント損失は最小絶対クラス間距離の最大化を考慮した拡張d-SNE損失である、方法。
(付記11)
オブジェクト検出方法であって、
付記1乃至10のうちの任意の1項に記載の方法を用いて前記オブジェクト検出モデルを訓練し;及び
訓練後のオブジェクト検出モデルを用いて検出待ち画像におけるオブジェクトの位置及び類別を確定する、方法。
オブジェクト検出方法であって、
付記1乃至10のうちの任意の1項に記載の方法を用いて前記オブジェクト検出モデルを訓練し;及び
訓練後のオブジェクト検出モデルを用いて検出待ち画像におけるオブジェクトの位置及び類別を確定する、方法。
(付記12)
プログラムを記憶しているコンピュータ可読記憶媒体であって、
前記プログラムは、該プログラムを実行するコンピュータに、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、前記現在の訓練用反復ループのための少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り;
前記オブジェクト検出モデルにより、前記少なくとも1つの完全に注釈されたソースドメイン画像を処理することで、前記ソースドメインデータサブセットについての検出損失、及び前記少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;
前記オブジェクト検出モデルにより、前記少なくとも1つの疎らに注釈されたターゲットドメイン画像を処理することで、前記少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び
前記検出損失及び前記実例レベルのアライメント損失に関する総損失に基づいて前記オブジェクト検出モデルのパラメータを調整することで前記オブジェクト検出モデルを最適化することを実行させる、記憶媒体。
プログラムを記憶しているコンピュータ可読記憶媒体であって、
前記プログラムは、該プログラムを実行するコンピュータに、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、前記現在の訓練用反復ループのための少なくとも1つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り;
前記オブジェクト検出モデルにより、前記少なくとも1つの完全に注釈されたソースドメイン画像を処理することで、前記ソースドメインデータサブセットについての検出損失、及び前記少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し;
前記オブジェクト検出モデルにより、前記少なくとも1つの疎らに注釈されたターゲットドメイン画像を処理することで、前記少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び
前記検出損失及び前記実例レベルのアライメント損失に関する総損失に基づいて前記オブジェクト検出モデルのパラメータを調整することで前記オブジェクト検出モデルを最適化することを実行させる、記憶媒体。
(付記13)
付記12に記載のコンピュータ可読記憶媒体であって、
同じオブジェクト類別集合に基づいて前記少なくとも1つの完全に注釈されたソースドメイン画像及び前記少なくとも1つの疎らに注釈されたターゲットドメイン画像を使用して前記オブジェクト検出モデルを訓練し、
前記同じオブジェクト類別集合は背景クラスを含む、記憶媒体。
付記12に記載のコンピュータ可読記憶媒体であって、
同じオブジェクト類別集合に基づいて前記少なくとも1つの完全に注釈されたソースドメイン画像及び前記少なくとも1つの疎らに注釈されたターゲットドメイン画像を使用して前記オブジェクト検出モデルを訓練し、
前記同じオブジェクト類別集合は背景クラスを含む、記憶媒体。
(付記14)
付記12に記載のコンピュータ可読記憶媒体であって、
前記オブジェクト検出モデルはRネットワークを含み、
前記RネットワークはFaster RCNNフレームワークに基づいており、
前記Rネットワークは入力画像の各関心のある領域特徴を確定するように構成され、
前記Rネットワークはさらに前記入力画像の各関心のある領域の分類ラベル付き境界枠を確定するように構成される、記憶媒体。
付記12に記載のコンピュータ可読記憶媒体であって、
前記オブジェクト検出モデルはRネットワークを含み、
前記RネットワークはFaster RCNNフレームワークに基づいており、
前記Rネットワークは入力画像の各関心のある領域特徴を確定するように構成され、
前記Rネットワークはさらに前記入力画像の各関心のある領域の分類ラベル付き境界枠を確定するように構成される、記憶媒体。
(付記15)
付記14に記載のコンピュータ可読記憶媒体であって、
前記Rネットワークは追加分類特徴抽出層を含み、
前記追加分類特徴抽出層は各関心のある領域特徴のうちから分類用の実例分類特徴を抽出するように構成される、記憶媒体。
付記14に記載のコンピュータ可読記憶媒体であって、
前記Rネットワークは追加分類特徴抽出層を含み、
前記追加分類特徴抽出層は各関心のある領域特徴のうちから分類用の実例分類特徴を抽出するように構成される、記憶媒体。
(付記16)
付記12に記載のコンピュータ可読記憶媒体であって、
前記総損失はさらに、前記ソースドメインデータサブセット及び前記ターゲットドメインデータサブセットの敵対的損失に関連している、記憶媒体。
付記12に記載のコンピュータ可読記憶媒体であって、
前記総損失はさらに、前記ソースドメインデータサブセット及び前記ターゲットドメインデータサブセットの敵対的損失に関連している、記憶媒体。
(付記17)
付記16に記載のコンピュータ可読記憶媒体であって、
前記Rネットワークはグローバル判別器及びローカル判別器を含み、前記敵対的損失は前記グローバル判別器によって画像レベルの特徴に基づいて確定される弱グローバルアライメント損失及び前記ローカル判別器によってローカルレベルの特徴に基づいて確定される強ローカルアライメント損失を含む、記憶媒体。
付記16に記載のコンピュータ可読記憶媒体であって、
前記Rネットワークはグローバル判別器及びローカル判別器を含み、前記敵対的損失は前記グローバル判別器によって画像レベルの特徴に基づいて確定される弱グローバルアライメント損失及び前記ローカル判別器によってローカルレベルの特徴に基づいて確定される強ローカルアライメント損失を含む、記憶媒体。
(付記18)
付記13に記載のコンピュータ可読記憶媒体であって、
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定することは、
前記ソースドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのソースドメインの各クラスの平均クラス中心を確定し;
前記ターゲットドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのターゲットドメインの各クラスの平均クラス中心を確定し;
前記ソースドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を確定し;
前記ターゲットドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を確定し;
前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を前記ソースドメイン分類特徴集合に追加することで、前記ソースドメイン実例分類特徴集合を更新し;
前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を前記ターゲットドメイン実例分類特徴集合に追加することで、前記ターゲットドメイン実例分類特徴集合を更新し;及び
前記更新後のソースドメイン実例分類特徴集合と前記更新後のターゲットドメイン実例分類特徴集合の間の前記実例レベルのアライメント損失を確認することを含む、記憶媒体。
付記13に記載のコンピュータ可読記憶媒体であって、
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定することは、
前記ソースドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのソースドメインの各クラスの平均クラス中心を確定し;
前記ターゲットドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのターゲットドメインの各クラスの平均クラス中心を確定し;
前記ソースドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を確定し;
前記ターゲットドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を確定し;
前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を前記ソースドメイン分類特徴集合に追加することで、前記ソースドメイン実例分類特徴集合を更新し;
前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を前記ターゲットドメイン実例分類特徴集合に追加することで、前記ターゲットドメイン実例分類特徴集合を更新し;及び
前記更新後のソースドメイン実例分類特徴集合と前記更新後のターゲットドメイン実例分類特徴集合の間の前記実例レベルのアライメント損失を確認することを含む、記憶媒体。
(付記19)
付記18に記載のコンピュータ可読記憶媒体であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含み、
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含む、記憶媒体。
付記18に記載のコンピュータ可読記憶媒体であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含み、
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含む、記憶媒体。
(付記20)
付記18に記載のコンピュータ可読記憶媒体であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ソースドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残することを含み;かつ
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ターゲットドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことを含む、記憶媒体。
付記18に記載のコンピュータ可読記憶媒体であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ソースドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残することを含み;かつ
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ターゲットドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことを含む、記憶媒体。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。
Claims (10)
- オブジェクト検出モデルを訓練するための、コンピュータが実行する方法であって、
反復(iteration)の方式で前記オブジェクト検出モデルを訓練することを含み、
前記オブジェクト検出モデルはニューラルネットワークに基づいており、
現在の訓練用反復ループは、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、前記現在の訓練用反復ループのための、少なくとも1つの完全に注釈された(fully annotated)ソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも1つの疎らに注釈された(loosely annotated)ターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを取得し;
前記オブジェクト検出モデルにより、前記少なくとも1つの完全に注釈されたソースドメイン画像を処理することで、前記ソースドメインデータサブセットについての検出損失、及び前記少なくとも1つの完全に注釈されたソースドメイン画像についてのソースドメイン実例(instance)分類特徴集合を確定し;
前記オブジェクト検出モデルにより、前記少なくとも1つの疎らに注釈されたターゲットドメイン画像を処理することで、前記少なくとも1つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し;
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて、実例特徴アライメントに関する実例レベルのアライメント損失を確定し;及び
前記検出損失及び前記実例レベルのアライメント損失に関する総損失に基づいて、前記オブジェクト検出モデルのパラメータを調整することで、前記オブジェクト検出モデルを最適化することを含む、方法。 - 請求項1に記載の方法であって、
同じオブジェクトクラス集合に基づいて、前記少なくとも1つの完全に注釈されたソースドメイン画像及び前記少なくとも1つの疎らに注釈されたターゲットドメイン画像を用いて、前記オブジェクト検出モデルを訓練し、
前記同じオブジェクトクラス集合は背景クラスを含む、方法。 - 請求項2に記載の方法であって、
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて、実例特徴アライメントに関する実例レベルのアライメント損失を確定することは、
前記ソースドメイン実例分類特徴集合に基づいて、前記現在の訓練用反復ループのソースドメインの各クラスの平均クラス中心を確定し;
前記ターゲットドメイン実例分類特徴集合に基づいて、前記現在の訓練用反復ループのターゲットドメインの各クラスの平均クラス中心を確定し;
前記ソースドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を確定し;
前記ターゲットドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び1つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を確定し;
前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を前記ソースドメイン分類特徴集合に追加することで、前記ソースドメイン実例分類特徴集合を更新し;
前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を前記ターゲットドメイン実例分類特徴集合に追加することで、前記ターゲットドメイン実例分類特徴集合を更新し;及び
更新された前記ソースドメイン実例分類特徴集合と、更新された前記ターゲットドメイン実例分類特徴集合との間の前記実例レベルのアライメント損失を確定する、方法。 - 請求項3に記載の方法であって、
前記ソースドメイン実例分類特徴集合を更新することは、
前記ソースドメイン実例分類特徴集合に対してアンダーサンプリングを行うことをさらに含み、
前記ターゲットドメイン実例分類特徴集合を更新することは、
前記ターゲットドメイン実例分類特徴集合に対してアンダーサンプリングを行うことをさらに含む、方法。 - 請求項3に記載の方法であって、
前記ソースドメイン実例分類特徴集合を更新することは、
前記ソースドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ソースドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことをさらに含み、
前記ターゲットドメイン実例分類特徴集合を更新することは、
前記ターゲットドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ターゲットドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことをさらに含む、方法。 - 請求項1に記載の方法であって、
前記実例レベルのアライメント損失は最小絶対クラス間距離の最大化を考慮した拡張d-SNE損失である、方法。 - 請求項1に記載の方法であって、
前記総損失はさらに、前記ソースドメインデータサブセットと前記ターゲットドメインデータサブセットの敵対的損失と関連している、方法。 - 請求項1に記載の方法であって、
前記オブジェクト検出モデルはRネットワークを含み、
前記RネットワークはFaster R-CNNフレームワークに基づいており、
前記Rネットワークは入力画像の各々の関心のある領域特徴を確定するように構成され、
前記Rネットワークはさらに、前記入力画像の各々の関心のある領域の分類ラベル付き境界枠を確定するように構成される、方法。 - 請求項8に記載の方法であって、
前記Rネットワークは追加分類特徴抽出層を含み、
前記追加分類特徴抽出層は各々の関心のある領域特徴のうちから分類用の実例分類特徴を抽出するように構成される、方法。 - コンピュータが実行するオブジェクト検出方法であって、
請求項1乃至9のうちの何れか1項に記載の方法を用いて、前記オブジェクト検出モデルを訓練し;及び
訓練後の前記オブジェクト検出モデルにより、検出待ち画像におけるオブジェクトの位置及びクラスを確定することを含む、オブジェクト検出方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110949753.7 | 2021-08-18 | ||
CN202110949753.7A CN115713111A (zh) | 2021-08-18 | 2021-08-18 | 用于训练对象检测模型的方法及对象检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023029236A true JP2023029236A (ja) | 2023-03-03 |
Family
ID=85229982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022111473A Pending JP2023029236A (ja) | 2021-08-18 | 2022-07-11 | オブジェクト検出モデルを訓練するための方法及びオブジェクト検出方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023029236A (ja) |
CN (1) | CN115713111A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116343050B (zh) * | 2023-05-26 | 2023-08-01 | 成都理工大学 | 基于自适应权重的遥感图像噪声标注的目标检测方法 |
-
2021
- 2021-08-18 CN CN202110949753.7A patent/CN115713111A/zh active Pending
-
2022
- 2022-07-11 JP JP2022111473A patent/JP2023029236A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CN115713111A (zh) | 2023-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | A free lunch for unsupervised domain adaptive object detection without source data | |
Cheng et al. | Fast and accurate online video object segmentation via tracking parts | |
US11816149B2 (en) | Electronic device and control method thereof | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN107657625A (zh) | 融合时空多特征表示的无监督视频分割方法 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN109697727A (zh) | 基于相关滤波和度量学习的目标跟踪方法、系统及存储介质 | |
Du | High-precision portrait classification based on mtcnn and its application on similarity judgement | |
JP2023029236A (ja) | オブジェクト検出モデルを訓練するための方法及びオブジェクト検出方法 | |
CN115937879A (zh) | 基于多尺度特征融合网络的学术内容目标检测方法及系统 | |
Wang et al. | Cluster alignment with target knowledge mining for unsupervised domain adaptation semantic segmentation | |
Liu et al. | Traffic sign recognition algorithm based on improved YOLOv5s | |
Zhong et al. | Robust image segmentation against complex color distribution | |
Gass et al. | Warp that smile on your face: Optimal and smooth deformations for face recognition | |
Pan et al. | A deep learning based fast image saliency detection algorithm | |
CN113592906B (zh) | 一种基于标注帧特征融合的长视频目标跟踪方法及系统 | |
CN112560651B (zh) | 基于深度网络和目标分割结合的目标跟踪方法及装置 | |
CN115527089A (zh) | 基于Yolo的目标检测模型训练方法及其应用和装置 | |
CN112069995B (zh) | 一种深度域人脸稠密特征提取方法、系统和存储介质 | |
CN115035562A (zh) | 一种基于FaceNet改进的口罩遮挡下的人脸识别方法 | |
CN114612961A (zh) | 一种多源跨域表情识别方法、装置及存储介质 | |
Zhang et al. | Correlation filter tracking based on superpixel and multifeature fusion | |
Du et al. | Multi-angle face detection based on improved RFCN algorithm using multi-scale training | |
CN112200260A (zh) | 一种基于丢弃损失函数的人物属性识别方法 |