JP2023029236A

JP2023029236A - オブジェクト検出モデルを訓練するための方法及びオブジェクト検出方法

Info

Publication number: JP2023029236A
Application number: JP2022111473A
Authority: JP
Inventors: ジョオン・チャオリアン; Ciao-Lien Zheng; ワン・ジエ; Jie Wang; フォン・チョン; Cheng Feng; ジャン・イン; Ying Zhang; 俊孫; Shun Son
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-08-18
Filing date: 2022-07-11
Publication date: 2023-03-03
Also published as: CN115713111A

Abstract

【課題】本発明は、オブジェクト検出モデルを訓練するための方法及びオブジェクト検出方法を提供する。【解決手段】モデル訓練用の方法は反復の方式でオブジェクト検出モデルを訓練することを含み、現在の訓練用反復ループはソースドメインデータサブセット及びターゲットドメインデータサブセットを取得し；ソースドメインデータサブセットについての検出損失、及びソースドメイン実例分類特徴集合を確定し；ターゲットドメイン実例分類特徴集合を確定し；ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し；及び、検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化することを含む。【選択図】図１

Description

本発明は、画像処理の技術分野に関し、特に、オブジェクト（対象）検出モデルを訓練するための方法及びオブジェクト検出方法に関する。

近年、ニューラルネットワーク技術の発達に伴い、ニューラルネットワークに基づく画像処理モデルが様々な分野、例えば、顔認識、オブジェクト分類、オブジェクト検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）、自動運転、ビヘイビア（ｂｅｈａｖｉｏｒ）認識などの分野で応用されている。

通常、ニューラルネットワークに基づくオブジェクト検出モデルはオブジェクト検出を行う前に、大量の注釈された（ラベル付けされた）サンプル画像を用いて訓練を行うことで、オブジェクト検出モデルを最適化する必要があり、これによって、モデルは満足のいく検出パフォーマンスを有するようになる。訓練が完了した後に、オブジェクト検出モデルに検出待ち画像を入力し、オブジェクト検出モデルによって検出待ち画像に対して各種の処理（例えば、特徴抽出）が行われた後に、オブジェクト検出モデルは該検出待ち画像に含まれる各オブジェクト実例（インスタンス（ｉｎｓｔａｎｃｅ））の位置及び類型（カテゴリ／クラス）を出力できる。

本発明の目的は、オブジェクト検出モデルを訓練するための方法及びオブジェクト検出方法を提供することにある。

本発明の１つの側面によれば、オブジェクト検出モデルを訓練するための、コンピュータにより実現される方法が提供され、該方法は反復（ｉｔｅｒａｔｉｏｎ）の方式でオブジェクト検出モデルを訓練することを含み、かつオブジェクト検出モデルはニューラルネットワークに基づいている。訓練の期間で、現在の訓練用反復ループは、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも１つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも１つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り（取得し）；
オブジェクト検出モデルにより、少なくとも１つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも１つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し；
オブジェクト検出モデルにより、少なくとも１つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも１つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し；
ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し；及び
検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する操作（ステップ）を含む。

本発明のもう１つの側面によれば、オブジェクト検出方法が提供される。該方法は、上述のモデル訓練方法を用いてオブジェクト検出モデルを訓練し；及び、訓練後のオブジェクト検出モデルを用いて検出待ち画像におけるオブジェクトの位置及び類別を確定するステップを含む。

本発明のまたもう１つの側面によれば、オブジェクト検出モデルを訓練するための装置が提供される。該装置は、命令が記憶されている記憶器；及び、１つ又は複数の処理器を含み、１つ又は複数の処理器は記憶器と通信可能であり、また、記憶器から読み取った命令を実行可能であり、該命令は１つ又は複数の処理器に、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも１つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも１つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り；
オブジェクト検出モデルにより、少なくとも１つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも１つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し；
オブジェクト検出モデルにより、少なくとも１つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも１つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し；
ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し；及び
検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する操作（ステップ）を実行させる。

本発明の他の側面によれば、プログラムが記憶されているコンピュータ可読記憶媒体が提供される。該プログラムは該プログラムを実行するコンピュータに、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも１つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも１つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り；
オブジェクト検出モデルにより少なくとも１つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも１つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し；
オブジェクト検出モデルにより少なくとも１つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも１つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し；
ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し；及び
検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する操作（ステップ）を実行させる。

本発明の有利な効果は、ラベルノイズに対してロバスト性を有し、クラスのアンバランスを克服でき、実例レベルのアライメントを改善でき、及び検出精度を向上させることができるということのうちの少なくとも１つを有する。

本発明の１つの実施例においてオブジェクト検出モデルを訓練するための方法における１つの訓練用反復ループに含まれる操作のフローチャートである。本発明の１つの実施例においてオブジェクト検出モデルを訓練するための方法の例示的なフローチャートである。本発明の１つの実施例において実例レベルのアライメント損失を確定するための方法の例示的なフローチャートである。本発明の１つの実施例における異なる処理段階での実例点の特徴空間における分布を示す図である。本発明の１つの実施例におけるオブジェクト検出方法の例示的なフローチャートである。本発明の１つの実施例においてオブジェクト検出モデルを訓練するための装置の構成を示すブロック図である。本発明の１つの実施例においてオブジェクト検出モデルを訓練するための装置の構成を示すブロック図である。本発明の１つの実施例による情報処理装置の例示的なブロック図である。

以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、このような実施例は例示に過ぎず、本発明を限定するものではない。

本発明の実施例の各側面の操作を実行するためのコンピュータプログラムコードは１つ又は複数のプログラム設計言語の任意の組み合わせで書くことができ、これらのプログラム設計言語はオブジェクト指向プログラム設計語言、例えば、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋のようなものを含んでも良く、また、通常の手続き型プログラム設計語言、例えば、Ｃプログラム設計語言又は類似したプログラム設計語言をさらに含んでも良い。

本発明による方法は対応する機能を有する回路により実現され得る。このような回路は処理器に用いる回路を含む。

本発明の１つの側面においてオブジェクト検出モデルＭを訓練するための、コンピュータにより実現される方法が提供される。オブジェクト検出モデルＭはニューラルネットワークに基づいている。反復の方式でオブジェクト検出モデルＭを訓練する。各々の訓練用反復ループで、注釈された複数の訓練サンプル画像及び注釈データが入力され得る。以下、図１を参照しながら１つの例示的な訓練用反復ループに含まれる操作（ステップ）について例示的な説明を行う。

図１は本発明の１つの実施例においてオブジェクト検出モデルを訓練するための方法（“モデル訓練方法”と略称する）における１つの訓練用反復ループＩｔｅｒ［ｊ］に含まれる操作の例示的なフローチャートであり、そのうち、ｊは訓練用反復ループの番号（順番号）を表す。なお、説明の便宜のため、第ｊ訓練用反復ループが“現在の訓練用反復ループ”と称されても良い。

ステップＳ１０１において、それぞれ、比較的大量のラベルを有するソースドメインデータ集合
（外１）

及び比較的少量のラベルを有するターゲットドメインデータ集合
（外２）

から、現在の訓練用反復ループのための、少なくとも１つの完全に注釈されたソースドメイン画像に対応するソースドメインデータサブセット

及び少なくとも１つの疎らに注釈されたターゲットドメイン画像に対応するターゲットドメインデータサブセット

を読み取り、ｎ_ｓは読み込まれるソースドメイン画像の数を示し、ｎ_ｔは読み込まれるターゲットドメイン画像の数を示す。Ｘ_ｉ ^ｓはソースドメインの１つのサンプル画像を表し、Ｘ_ｉ ^ｔはターゲットドメインの１つのサンプル画像を表す。Ｙ_ｉ ^ｓはＸ_ｉ ^ｓにおける注釈済みオブジェクトの境界枠の注釈情報を示す。Ｙ_ｉ ^ｔはＸ_ｉ ^ｔにおける注釈済みオブジェクトの境界枠の注釈情報を示す。ｘ_ｉ ^ｓ及びｘ_ｉ ^ｔはそれぞれ、ソースドメイン及びターゲットドメインの１つの入力サンプル画像を表す。ｙ_ｉ ^ｓはｘ_ｉ ^ｓにおける注釈済みオブジェクトの境界枠の注釈情報を示す。ｙ_ｉ ^ｔはｘ_ｉ ^ｔにおける注釈済みオブジェクトの境界枠の注釈情報を示す。境界枠の注釈情報は画像内の或る種類の関心のあるオブジェクトの実例の境界枠の位置及び実例の類型（“類別”と称される場合もある）を含む。ここで疎らな注釈及び完全な注釈は２つの相対する概念である。例えば、複数のオブジェクト実例（例えば、１０個のオブジェクト実例）を含む同じ画像について、比較的多い実例（例えば、全部の実例又は大部分の実例、例えば、８つの実例）が注釈された注釈画像に対して、比較的少ない実例（例えば、４つの実例）が注釈された注釈画像は疎らに注釈された（ｌｏｏｓｅｌｙａｎｎｏｔａｔｅｄ）画像と称されても良く、前者は完全に注釈された（ｆｕｌｌｙａｎｎｏｔａｔｅｄ）画像と称されても良い。疎らに注釈された画像は画像における少数の幾つかの実例が注釈された画像であっても良い。１つのより具体的な例は次のとおりであり、即ち、完全に注釈された画像においてほとんどの関心のある類型の実例が注釈されており、疎らに注釈された画像においてすべての関心のある類型の実例のうちの少数の幾つかの実例が注釈されている。即ち、疎らに注釈された画像では、幾つかの元々関心のある類型の実例であるはずの前景領域が見逃されているため、見逃されたこれらの実例は背景と見なされており、さらには背景類型（クラス）の実例と注釈された可能性がある。Ｎ_ｓはソースドメインデータ集合全体に含まれる訓練画像の数である。Ｎ_ｔはターゲットドメインデータ集合全体に含まれる訓練画像の数である。各々の訓練用反復ループにおいて、例えば、１つのソースドメイン画像及び１つのターゲットドメイン画像を含む１対の訓練画像を入力できる。Ｎ_ｔ＜＜Ｎ_ｓであり、即ち、ソースドメイン画像の数はターゲットドメイン画像の数よりも遥かに大きく、例えば、Ｎ_ｔ／Ｎ_ｓは１０以上であり、又は、１００以上であり、さらには１０００以上である。各々の訓練用反復ループにおいて、ソースドメイン画像のラベルの総数はターゲットドメインラベルの総数よりも大きい。各々の訓練用反復ループにおいて、その前の訓練用反復ループに使用された画像を繰り返して使用できる。

なお、訓練用サンプル画像について、画像中の関心のある類型の実例（即ち、前景）が注釈されず、かつオブジェクト検出モデルに使用されるオブジェクト類別集合（オブジェクトクラス集合ともいう）が背景クラスを含む場合、注釈されない実例は背景クラスと注釈される可能性がある。これはラベルノイズを来す恐れがある。疎らに注釈されたターゲットドメイン画像もラベルノイズを招くことがある。また、完全に注釈されたソースドメイン画像及び疎らに注釈されたターゲットドメイン画像について、過大のＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）により、背景実例の境界枠に一部の前景実例を含めることができるため、ラベルノイズを引き起こすこともできる。ラベルノイズはサンプル点（実例分類特徴）の不アライメントにつながる可能性があり、オブジェクト検出モデルのパフォーマンスに悪影響を与える場合がある。

ステップＳ１０３において、オブジェクト検出モデルＭにより、少なくとも１つの完全に注釈されたソースドメイン画像ｘ_ｉ ^ｓ（ｉはサブセットＳｓｂによって確定される）に対して処理を行うことで、ソースドメインデータサブセットについての検出損失Ｌ_ｄｅｔ、及び少なくとも１つの完全に注釈されたソースドメイン画像ｘ_ｉ ^ｓ（サブセットＳｓｂに由来する）についてのソースドメイン実例分類特徴集合Ｏ_ｓを確定する。ソースドメインデータサブセットＳｓｂについての検出損失Ｌ_ｄｅｔは、オブジェクト検出モデルＭが少なくとも１つの完全に注釈されたソースドメイン画像ｘ_ｉ ^ｓに対してオブジェクト検出を行うときに出力した検出結果の、注釈情報に対する統計的正確度を示し、それは分類損失及び境界枠の回帰損失（即ち、位置決め損失）からなる。ソースドメイン実例分類特徴集合Ｏ_ｓは、オブジェクト検出モデルＭにより与えられた、現在の訓練用反復ループに読み込まれるすべてのソースドメイン画像ｘ_ｉ ^ｓの分類用の特徴からなる。

ステップＳ１０５において、オブジェクト検出モデルＭにより少なくとも１つの疎らに注釈されたターゲットドメイン画像ｘ_ｉ ^ｔ（サブセットＳｔｂに由来する）に対して処理を行うことで、少なくとも１つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合Ｏ_ｔを確定する。ターゲットドメイン実例分類特徴集合Ｏ_ｔは、オブジェクト検出モデルＭにより与えられた、現在の訓練用反復ループに読み込まれるすべてのターゲットドメイン画像ｘ_ｉ ^ｔの分類用の特徴からなる。

ステップＳ１０７において、ソースドメイン実例分類特徴集合Ｏ_ｔ及びターゲットドメイン実例分類特徴集合Ｏ_ｔに基づいて、実例特徴アライメントに関する実例レベルのアライメント損失Ｌ_ｉｎｓを確定する。

ステップＳ１０９において、検出損失Ｌ_ｄｅｔ及び実例レベルのアライメント損失Ｌ_ｉｎｓに関する総損失Ｌ_{ｔｏｔａｌ}に基づいて、オブジェクト検出モデルＭのパラメータを調整することで、オブジェクト検出モデルを最適化する。総損失Ｌ_{ｔｏｔａｌ}は例えば、検出損失Ｌ_ｄｅｔ及び実例レベルのアライメント損失Ｌ_ｉｎｓの線形組み合わせである。

本発明のモデル訓練方法は、訓練が終了したかの判断を含んでも良い。以下、図２を参照しながら本発明のオブジェクト検出モデルを訓練するための、コンピュータにより実現される方法についてさらに説明し、そのうち、訓練終了の判断のステップが示されている。

図２は本発明の１つの実施例においてオブジェクト検出モデルＭを訓練するための方法２００の例示的なフローチャートである。方法２００は、コンピュータにより実現される、オブジェクト検出モデルを訓練するための方法であり、それは、反復の方式でオブジェクト検出モデルＭを訓練することを含む。方法２００は図１に基づいて説明された訓練用反復ループＩｔｅｒ［ｊ］に含まれるステップＳ１０１、Ｓ１０３、Ｓ１０５及びＳ１０７を含む。

ステップＳ２０９－１において、所定の訓練終了条件が満足されたかを確定する。確定結果が“はい”の場合、訓練を終了し；確定結果が“いいえ”の場合、ステップＳ２０９－２を実行する。所定の訓練終了条件は次のような条件のうちの１つであっても良く、即ち、総損失が所定閾値よりも小さいこと、及び、総損失が収斂（収束）していることである。総損失が収斂しているとは、例えば、現在の訓練用反復ループの総損失の、１つ前の訓練用反復ループの総損失に対する変化が所定閾値よりも小さいことを指す。

ステップＳ２０９－２において、総損失に基づいて、オブジェクト検出モデルＭのパラメータを調整することで、オブジェクト検出モデルＭを最適化する。その後、ステップＳ１０１に戻り、次の１つの訓練用反復ループに進む。

図１におけるステップＳ１０９は図２におけるステップＳ２０９－１とステップＳ２０９－２にさらに分けることができる。

ステップＳ１０９のもう１つの選択可能な実現方式として、次のようなサブステップを含んでも良く、即ち、総損失に基づいて、オブジェクト検出モデルＭのパラメータを調整することで、オブジェクト検出モデルＭを最適化し；及び、訓練用反復ループの数が所定の計数（所定の数）に達しているかを確定することである。確定結果が“はい”の場合、訓練を終了し；確定結果が“いいえ”の場合、ステップＳ１０１に戻り、次の１つの訓練用反復ループに入る。

本発明によるモデル訓練方法は大量のソースドメインのラベル有りのデータ及び少量のターゲットドメインのラベル有りのデータを用いて訓練を行う。少量のターゲットドメインの疎らに注釈された画像の使用は訓練データの注釈コストを低減し、訓練時間を短縮できる。

１つの実施例において、オブジェクト検出モデルＭは同じオブジェクト類別集合Ｓｃに基づいて、少なくとも１つの完全に注釈されたソースドメイン画像ｘ_ｉ ^ｓ（ｉはサブセットＳｓｂに由来する）及び少なくとも１つの疎らに注釈されたターゲットドメイン画像ｘ_ｉ ^ｔ（ｉはサブセットＳｔｂに由来する）に対してオブジェクト検出を行うように構成される。即ち、ソースドメイン画像の対象類別候補集合とターゲットドメイン画像の対象類別候補集合が同じである。オブジェクト類別集合は関心のある類型のオブジェクト（前景）、例えば、自動車、バス、モーターバイク、自転車、歩行者などを含む。さらに、オブジェクト類別集合Ｓｃは背景クラスを含む。通常、ソースドメイン及びターゲットドメインの画像内の注釈領域以外の領域がすべてデフォルトで背景と見なされる。ソースドメイン及びターゲットドメインの画像の背景のうちから複数の領域を背景クラス実例領域としてランダムで選択しても良い。

１つの実施例において、オブジェクト検出モデルＭは特徴抽出器Ｆ及びＦａｓｔｅｒＲ－ＣＮＮ（ＦａｓｔｅｒＲｅｇｉｏｎｓｗｉｔｈＣＮＮｆｅａｔｕｒｅｓ）フレームワークに基づくＲネットワークを含む。Ｒネットワークは入力画像の各関心のある領域特徴を確定するように構成される。Ｒネットワークはさらに、入力画像の各関心のある領域ＲＯＩの分類ラベル付き境界枠を確定するように構成される。Ｒネットワークは例えば、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を含んでも良い。特徴抽出器Ｆは入力画像に基づいて畳み込み処理を行い、画像の特徴マップ（特徴）を出力する。ＲＰＮは特徴抽出器Ｆの出力結果（特徴マップ）に基づいて関心のある領域に対応する関心のある領域特徴を出力できる。各関心のある領域特徴は、モデルが検出したオブジェクト実例の位置を表す。注釈情報におけるオブジェクト実例のリアルな位置情報を参照して、各関心のある領域特徴を使用することで、位置決め損失を決定できる。ＦａｓｔｅｒＲ－ＣＮＮについては、以下の文献、即ち、
ＲｅｎＳ，ＨｅＫ，ＧｉｒｓｈｉｃｋＲ，ｅｔａｌ．Ｆａｓｔｅｒｒ－ｃｎｎ：Ｔｏｗａｒｄｓｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋｓ［Ｊ］．Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ，２０１５，２８：９１－９９
を参照できる。

さらに、Ｒネットワークは追加（ｅｘｔｒａ／ａｄｄｉｔｉｏｎａｌ）の分類特徴抽出層（追加分類特徴抽出層ともいう）ＦＣを含んでも良い。追加分類特徴抽出層ＦＣはＲＰＮネットワークの後にあり、かつＲＰＮネットワークに接続され、これによって、ＲＰＮネットワークが確定した各関心のある領域特徴のうちから分類用の実例分類特徴を抽出する。各実例分類特徴は、モデルが検出した画像における関心のあるオブジェクト実例の分類を表すことができる。注釈情報におけるオブジェクト実例の注釈分類情報を参照して、各実例分類特徴を使用することで、分類損失を決定できる。画像の同じ位置に異なる類型のオブジェクト実例が現れ得ることを考慮して、関心のある領域特徴を直接使用してオブジェクト実例の類型を確定するのではなく、追加分類特徴抽出層ＦＣを設定して分類用の実例分類特徴を抽出するのである。これは好ましく、オブジェクト検出モデルのパフォーマンスの改善に有利である。

在１つの実施例において、オブジェクト検出モデルＭのＲネットワークはＳＷＤＡ（Ｓｔｒｏｎｇ－ｗｅａｋｄｉｓｔｒｉｂｕｔｉｏｎａｌｉｇｎｍｅｎｔ）技術を含む。ＳＷＤＡに関しては、以下の文献、即ち、
ＳａｉｔｏＫ，ＵｓｈｉｋｕＹ，ＨａｒａｄａＴ，ｅｔａｌ．Ｓｔｒｏｎｇ－ｗｅａｋｄｉｓｔｒｉｂｕｔｉｏｎａｌｉｇｎｍｅｎｔｆｏｒａｄａｐｔｉｖｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２０１９：６９５６－６９６５
を参照できる。

本実施例において、Ｒネットワークは弱グローバルアライメント及び強ローカルアライメントを統合している。ＳＷＤＡは、ＦａｓｔｅｒＲ－ＣＮＮに基づく１つのオブジェクト検出ＵＤＡ（ｕｎｓｕｐｅｒｖｉｓｅｄｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）フレームワークである。そのため、Ｒネットワークはさらに、ローカル判別器Ｄ_ｌ及びグローバル判別器Ｄ_ｇを含む。特徴抽出器Ｆは
（外３）

に分解でき、そのうち、Ｆ_１はローカル特徴に関する抽出器であり、Ｆ_２はグローバル特徴に関する抽出器である。ターゲットドメインにおける画像が非常に少なく、かつ疎らに注釈されたので、ターゲットドメインの検出損失の最小化は過剰適合を招くことができるだけでなく、訓練失敗を招くこともできる。何故なら、ターゲットドメインの疎らに注釈された画像が大量のラベルノイズを含むからである。よって、本発明の訓練方法ではソースドメイン検出損失Ｌ_ｄｅｔを計算するが、ターゲットドメインの検出損失を計算しない。現在の訓練用反復ループについて、ソースドメイン検出損失Ｌ_ｄｅｔの計算方式は以下のような公式（１）で表すことができる。

ここで、Ｌはオブジェクト検出損失を表し、それは分類損失及び境界枠の回帰損失（即ち、位置決め損失）からなる。

実例レベルのアライメントにより、オブジェクト検出モデルのパフォーマンスを効果的に向上させることができるが、実例レベルのアライメントのみを頼りにして目標検出領域適応のモデルパフォーマンスを保証できない場合がある。よって、本実施例において、モデル訓練方法はＳＷＤＡの弱グローバルアライメント及び強ローカルアライメントを統合している。そのため、まず、弱グローバルアライメントを用いて学習を行うことで画像レベルの特徴を得る。現在の訓練用反復ループについて、グローバル判別器Ｄ_ｇの弱グローバルアライメント損失Ｌ_{ｇｌｏｂａｌ}は次のような公式（４）で表すことができる。

そのうち、γは比較的に分類され難いサンプルの重み（ｗｅｉｇｈｔ）を制御する。

次に、強ローカルアライメントを用いて学習を行うことでローカルレベルの特徴、例えば、テクスチャーや色を得る。現在の訓練用反復ループについて、ローカル判別器Ｄ_ｌの強ローカルアライメント損失Ｌ_ｌｏｃは以下のような公式（７）で表すことができる。

ここで、Ｗ及びＨはそれぞれ、特徴抽出器Ｆ_１が抽出した特徴の幅及び高を表す。グローバル及びローカルアライメントを実現する敵対的損失Ｌ_ａｄｖは以下のような公式（８）で表すことができる。

つまり、敵対的損失Ｌ_ａｄｖは、グローバル判別器Ｄ_ｇにより画像レベルの特徴に基づいて確定された弱グローバルアライメント損失Ｌ_{ｇｌｏｂａｌ}、及びローカル判別器Ｄ_ｌによりローカルレベルの特徴に基づいて確定された強ローカルアライメント損失Ｌ_ｌｏｃを含む。

以下、本発明のモデル訓練方法に係る実例レベルのアライメントについてさらに説明する。

本発明の幾つかの実施例において、モデル訓練方法は、追加分類特徴層で抽出された特徴をもとに実例レベルのアライメントを行うことを含む。前景のＲＯＩ（関心のある領域）特徴のみをもとにアライメントを行う従来の方法とは異なり、幾つかの実施例において、モデル訓練方法は前景のＲＯＩの特徴のアライメントを行うとともに、背景クラス実例に対応する背景の参照枠の特徴のアライメントも行う。何故なら、サンプル点を用いて実例のアライメントを行い、実例レベルのアライメント損失を計算するために、それぞれ、各々の実例のクラス内距離及びクラス間距離を計算する必要があるからである。しかしながら、幾つかのシーンにおいて１つのみのクラスの前景があり、例えば、自動車を検出し、他のオブジェクト（物体）を無視する。このようなシーンでは、前景のみを考慮する場合、クラス間距離を計算できないため、実例レベルのアライメント損失を計算できない。もちろん、複数の前景類別が存在する場合、本発明におけるサンプル点のアライメントに基づく実例のアライメントは前景クラスのみのアライメントに適用することもできる。

１つの実施例において、例えば、特徴ベクトルで表される移動平均クラス中心をも１つの実例特徴とし、それを実例分類特徴集合に追加することで、実例レベルのアライメント損失の確定に参与できる。以下、図３を参照しながら、実例レベルのアライメント損失の確定（例えば、図１におけるステップＳ１０７）について説明する。図３は本発明の１つの実施例において実例レベルのアライメント損失を確定するための方法３００の例示的なフローチャートである。

方法３００の処理対象はソースドメイン実例分類特徴集合Ｏ_ｓ及びターゲットドメイン実例分類特徴集合Ｏ_ｔである。実例分類特徴集合における各々の実例特徴は１つの実例点と称されても良く、各々の類別の実例点は特徴空間で対応する実例特徴により確定された分布を有する。よって、実例点分布の変化を参照して方法３００を説明するのは有利である。図４は本発明の実施例の異なる処理段階での実例点の特徴空間における分布を示す図であり、そのうち、図４（ａ_ｓ）は初期ソースドメイン実例分類特徴集合Ｏ_ｓ（例えば、追加分類特徴抽出層ＦＣにより出力された、ソースドメイン画像ｘ_ｉ ^ｓ（それはサブセットＳｓｂにより確定される）に対応する分類特徴からなるソースドメイン実例分類特徴集合）に対応するソースドメイン実例点分布を示しており、図４（ａ_ｔ）は初期ターゲットドメイン実例分類特徴集合Ｏ_ｔ（例えば、追加分類特徴抽出層ＦＣにより出力された、ターゲットドメイン画像ｘ_ｉ ^ｔ（それはサブセットＳｓｔにより確定される）に対応する分類特徴からなるターゲットドメイン実例分類特徴集合）に対応するターゲットドメイン実例点分布を示している。該例では、オブジェクト類別集合Ｓｃは４つの類別を含み、ｋ＝０乃至３に対応し、そのうち、ｋ＝０は背景クラスに対応する。図４（ａ_ｔ）の右上隅には１つの背景ノイズの例が示されている。この段階では、実例分類特徴集合には或る類別の特徴点が無い可能性がある。例えば、図４（ａ_ｓ）に示すように、ソースドメイン特徴点にはｋ＝３の実例点が無く、図４（ａ_ｔ）に示すように、ターゲットドメイン特徴点にはｋ＝１及びｋ＝３の実例点が無い。また、図４（ａ_ｓ）及び図４（ａ_ｔ）は次のようなことを示しており、即ち、同じ類別について、ソースドメイン実例点（ラベル）の数がターゲットドメイン実例点（ラベル）の数よりも大きい。

ステップＳ３０１において、ソースドメイン実例分類特徴集合Ｏ_ｓに基づいて、現在の訓練用反復ループのソースドメインの各クラスの平均クラス中心を確定する。例えば、オブジェクト類別集合Ｓｃは４つの類別を含むときに、本ステップは通常、４つの平均クラス中心を確定できる。ソースドメインの各クラスの平均クラス中心
（外４）

の確定方法は例えば、次のような公式（９）により確定されても良く、そのうち、ｋは類別の索引（ｉｎｄｅｘ）である。

ここで、ｘ_ｓはソースドメイン実例分類特徴集合Ｏ_ｓにおいて類別ｋのソースドメイン実例分類特徴サブセットＯ_ｓ ^ｋについてのソースドメイン実例分類特徴であり、即ち、ｘ_ｓ∈Ｏ_ｓ ^ｋであり、｜Ｏ_ｓ ^ｋ｜はｋ類別のオブジェクト実例の数であり、即ち、サブセットＯ_ｓ ^ｋにおける実例分類特徴の数である。

ステップＳ３０３において、ターゲットドメイン実例分類特徴集合Ｏ_ｔに基づいて、現在の訓練用反復ループのターゲットドメインの各クラスの平均クラス中心を確定する。例えば、オブジェクト類別集合Ｓｃは４つの類別を含むときに、本ステップは４つの平均クラス中心を確定できる。ターゲットドメインの各クラスの平均クラス中心
（外５）

の確定方法は例えば、以下のような公式（１０）を用いて確定でき、そのうち、ｋは類別の索引である。

ここで、ｘ_ｔはターゲットドメイン実例分類特徴集合Ｏ_ｔにおいて類別ｋのターゲットドメイン実例分類特徴サブセットＯ_ｔ ^ｋについてのターゲットドメイン実例分類特徴であり、即ち、ｘ_ｔ∈Ｏ_ｔ ^ｋであり、｜Ｏ_ｔ ^ｋ｜はｋ類別のオブジェクト実例の数であり、即ち、サブセットＯ_ｔ ^ｋにおける実例分類特徴の数である。

ステップＳ３０５において、ソースドメインについて、現在の訓練用反復ループの各クラスの平均クラス中心及び１つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、現在の訓練用反復ループのソースドメインの各クラスの移動平均クラス中心を計算する。ソースドメインについて、第ｋ類別の第ｊ訓練用反復ループ（現在の訓練用反復ループ）の移動平均クラス中心Ｃ_Ｓ，ｊ ^ｋは次のような公式（１１）により確定できる。

ここで、Ｃ_{Ｓ，ｊ－１} ^ｋは１つ前の訓練用反復ループのソースドメインの第ｋ類別の移動平均クラス中心であり、θは移動平均係数を表す。Ｃ_Ｓ，０ ^ｋ（即ち、ｊ＝１）を０と設定できる。

ステップＳ３０７において、ターゲットドメインについて、現在の訓練用反復ループの各クラスの平均クラス中心及び１つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、現在の訓練用反復ループのターゲットドメインの各クラスの移動平均クラス中心を計算する。ターゲットドメインについて、第ｋ類別の第ｊ訓練用反復ループ（現在の訓練用反復ループ）の移動平均クラス中心Ｃ_Ｔ，ｊ ^ｋは以下のような公式（１２）で確定できる。

ここで、Ｃ_{Ｔ，ｊ－１} ^ｋは１つ前の訓練用反復ループのターゲットドメインの第ｋ類別の移動平均クラス中心であり、θは移動平均係数を示す。Ｃ_Ｔ，０ ^ｋ（即ち、ｊ＝１）を０と設定できる。

ステップＳ３０９において、現在の訓練用反復ループのソースドメインの各クラスの移動平均クラス中心をソースドメイン分類特徴集合に追加することで、ソースドメイン実例分類特徴集合を更新する。図４（ｂ_ｓ）はソースドメインの各クラスの移動平均クラス中心が追加されたソースドメイン実例点分布を示しており、そのうち、各中実幾何学図形は、ソースドメインにおいて各クラスの移動平均クラス中心を表す例示的な特徴点に対応する。

ステップＳ３１１において、現在の訓練用反復ループのターゲットドメインの各クラスの移動平均クラス中心をターゲットドメイン実例分類特徴集合に追加することで、ターゲットドメイン実例分類特徴集合を更新する。図４（ｂ_ｔ）はターゲットドメインの各クラスの移動平均クラス中心が追加されたターゲットドメイン実例点分布を示しており、そのうち、各中実幾何学図形は、ターゲットドメインにおいて各クラスの移動平均クラス中心を表す例示的な特徴点に対応する。移動平均クラス中心の追加は、すべての類別のすべての実例について域（ドメイン）に跨った（クロスドメインの）クラス内及びクラス間距離の計算に有利である。

ステップＳ３１３において、更新されたソースドメイン実例分類特徴集合と更新されたターゲットドメイン実例分類特徴集合との間の実例レベルのアライメント損失を確定する。なお、或る訓練用反復ループ（例えば、１番目の訓練用反復ループ）において、オブジェクト類別集合Ｓｃの或る類別について、そのソースドメイン又はターゲットドメインの移動平均クラス中心がゼロである場合、該実例類型の実例点に対してのアライメントを行わず、該実例類型についての実例レベルのアライメント損失を計算せず、即ち、実例レベルのアライメント損失には該実例類型に係るアライメント損失を算入しない。

１つの実施例において、実例分類特徴集合の更新はさらに背景クラスの実例の削除を含んでも良い。背景の参照枠が表す関心のある領域ＲＯＩが非常に多くのラベルノイズを有するため、本実施例において、ソースドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、ソースドメイン実例分類特徴集合における背景クラスの移動平均クラス中心を残し；ターゲットドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、また、ターゲットドメイン実例分類特徴集合における背景クラスの移動平均クラス中心を残す。背景削除操作は次のような公式（１３）及び公式（１４）に従って行うことができる。

ここで、
（外６）

は、オブジェクト類別集合Ｓｃ内の総類別数マイナス１を表し、ｙ_ｓ＝０又はｙ_ｔ＝０は背景クラスを表す。

背景クラス実例特徴点（分類特徴）を削除すると同時に、背景クラス移動平均中心を残すことは、ラベルノイズの抑制やオブジェクト検出モデルのパフォーマンスの改善に有利である。本発明では、“背景クラス実例特徴点（分類特徴）を削除すると同時に、背景クラス移動平均中心を残す”操作は“背景クラス実例削除”とも略称される。

図４（ｃ_ｓ）は背景クラス実例削除後のソースドメインの各クラスの実例点の分布を示しており、図４（ｃ_ｔ）は背景クラス実例削除後のターゲットドメインの各クラスの実例点の分布を示している。図４（ｃ_ｓ）及び図４（ｃ_ｔ）では、分かるように、中空三角形で表されるリアルな背景クラス実例点が既に削除されており、同時に中実三角形で表される背景クラスの移動平均クラス中心の実例点が残されている。

１つの実施例において、実例分類特徴集合の更新はさらにアンダーサンプリング（ｕｎｄｅｒｓａｍｐｌｉｎｇ）を含んでも良い。周知されているように、訓練サンプル集合における類別のアンバランスの問題は機械学習のパフォーマンスの低下を招く可能性がある。同様に、実例分布のアンバランスも実例レベルのアライメントに悪影響を与えることがある。例えば、次の文献１に開示されているように、Ｃｉｔｙｓｃａｐｅｓデータセットにおいて、実例の分布は非常にアンバランスであり、そのうち、“自動車”（ｃａｒ）及び“人”（ｐｅｒｓｏｎ）の２つのクラスの実例は大部分を占めている。

文献１：ＣｏｒｄｔｓＭ，ＯｍｒａｎＭ，ＲａｍｏｓＳ，ｅｔａｌ．Ｔｈｅｃｉｔｙｓｃａｐｅｓｄａｔａｓｅｔｆｏｒｓｅｍａｎｔｉｃｕｒｂａｎｓｃｅｎｅｕｎｄｅｒｓｔａｎｄｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ．２０１６：３２１３－３２２３
よって、このような問題によるパフォーマンスへの影響を低減するために、本実施例では、実例分類特徴集合の更新はさらに、ソースドメイン実例分類特徴集合Ｏ_ｓ及びターゲットドメイン実例分類特徴集合Ｏ_ｔに対してアンダーサンプリングを行うことを含む。具体的には、各訓練用反復ループにおいて実例をドロップすることで対応するクラスの実例の最大個数を制限する。以下の公式（１５）及び（１６）に示すように、ドロップ型更新は関数ｕｎｄｅｒｓａｍｐｌｉｎｇ（）により実現され得る。

ここで、ｕｎｄｅｒｓａｍｐｌｉｎｇ（）は、事前定義されている１つの関数であって、実例をランダムにドロップすることで対応クラスの実例の最大個数が所定閾値
（外７）

を超えないように制限する関数であり、そのうち、各々の実例はそれ相応の実例分類特徴に対応する。ドロップされるのはリアルな実例特徴であり、移動平均クラス中心に対応する準実例特徴はドロップされない。実例分類特徴集合に既に移動平均クラス中心が含まれている場合、ドロップ型更新の後（即ち、アンダーサンプリングの後）に、移動平均クラス中心は依然として実例分類特徴集合に残される。Ｏ_ｓ及びＯ_ｔについて、クラス毎に対応クラスの実例個数が所定閾値よりも大きいかをチェックでき、チェック結果が“はい”の場合、対応クラスの実例をランダムにドロップすることで該類別の実例の個数を
（外８）

に減少させる。図４（ｄ_ｓ）はドロップ型更新後のソースドメインの実例点の分布を示しており、そのうち、所定閾値に従って、ｋ＝１及びｋ＝２の一部の実例点（実例特徴）をドロップしており；図４（ｄ_ｔ）はドロップ型更新後のターゲットドメインの実例点の分布を示しており、そのうち、所定閾値に従って、ｋ＝２の一部の実例点（実例特徴）をドロップしている。アンダーサンプリングは、移動平均クラス中心を計算した後に、かつ実際のアライメント損失を具体的に計算する前に行われる。なお、図４では、例示的なのオブジェクト類別集合Ｓｃは背景クラスを含み、それはｋ＝０の実例点に対応する。理解すべきは、アンダーサンプリングが背景クラス実例削除の前に実行される場合、背景クラス実例に対してアンダーサンプリングを実行しなくても良いということであり、これは訓練用時間の減少に有利である。また、理解すべきは、背景クラス以外に、各々のクラスの所定閾値が完全に同じでなくても良いが、基本的に同じであり、さらには同じであることが好ましいということである。

アンダーサンプリングは実例の分布のバランスに有利であり、また、オブジェクト検出モデルのパフォーマンスの改善にも有利である。

１つの実施例において、ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合について、実例分類特徴集合の更新は各クラスの移動平均中心の追加、背景クラス実例の削除、及びアンダーサンプリングを含む。

更新されたソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合を得た後に、この２つの特徴集合における特徴点のアライメントに基づいて、実例レベルのアライメント損失Ｌ_ｉｎｓを確定できる。１つの実施例において、実例レベルのアライメント損失Ｌ_ｉｎｓは、最小絶対クラス間距離の最大化を考慮した拡張ｄ－ＳＮＥ損失である。ｄ－ＳＮＥについては次の文献、即ち、
文献２：ＸｕＸ，ＺｈｏｕＸ，ＶｅｎｋａｔｅｓａｎＲ，ｅｔａｌ．ｄ－ＳＮＥ：Ｄｏｍａｉｎａｄａｐｔａｔｉｏｎｕｓｉｎｇｓｔｏｃｈａｓｔｉｃｎｅｉｇｈｂｏｒｈｏｏｄｅｍｂｅｄｄｉｎｇ（ｄ－ＳＮＥ）（ＣＶＰＲ２０１９）
を参照できる。

ｄ－ＳＮＥは今のところ、パフォーマンスが比較的良く、かつサンプル点に基づくアライメント方法である。ｄ－ＳＮＥ損失は次のような公式（１７）により示され得る。

ここで、ｄ（ｘ_ｓ，ｘ_ｔ）はｘ_ｓ及びｘ_ｔの特徴空間内のユークリッド距離の平方を表す。ｋはｘ_ｔの類別ラベルであり、即ち、ｋ＝ｙ_ｔであり、

である。ｓｕｐ｛｝はクロスドメイン特徴間クラス内距離の上限を示す。Ｉｎｆ｛｝はロスドメイン特徴間クラス間距離の下限を示す。よって、ｄ－ＳＮＥ損失は、最大のクロスドメインクラス内距離を最小化すると同時に、最小のクロスドメインクラス間距離を最大化することで、サンプル点に基づく実例レベルのアライメントを達成できる。１つの例において、本発明における実例レベルのアライメント損失は公式（１７）に基づいて確定され得る。計算の効率化を考慮して、さらに、１つの例において、ｄ－ＳＮＥ損失は以下公式（１８）により定義されても良い。

ここで、ｍは１つの事前定義されているマージン（ｍａｒｇｉｎ）値であり、ｍａｘ（）は最大値をとることを表す。ｍは経験に応じて決定されても良く、例えば、１つの例において１の値をとる。１つの例において、本発明の実例レベルのアライメント損失は公式（１８）に基づいて確定できる。しかしながら、公式（１８）に示すｄ－ＳＮＥ損失の実現は、最大クラス内距離と最小クラス間距離との間の相対的な差異のみを増大したが、最小絶対クラス間距離を最大化していない。この問題を解決するために、１つの例において、改良された実例レベルのアライメントの損失、即ち、拡張ｄ－ＳＮＥ損失を採用し、それは次のような公式（１９）により確定され得る。

ここで、ｍ_２は、最小絶対クラス間距離を最大化するために事前定義されているもう１つのマージン値である。ｍ_２は経験に応じて決定されて良く、例えば、１つの例において３０の値をとる。本実施例における拡張ｄ－ＳＮＥ損失（公式（１９）参照）はオリジナルｄ－ＳＮＥ損失（公式（１７）参照）に対して、追加されたハイパーパラメータｍ_２を利用することで各クラスをより良く分離できる。

モデルパラメータを調整するときに総目標関数（目的関数）を用いることがある。以下、総目標関数について詳しく説明する。

１つの実施例において、総損失は検出損失Ｌ_ｄｅｔ及び実例レベルのアライメント損失Ｌ_ｉｎｓの線形組み合わせであっても良い。さらに、総損失は敵対的損失Ｌ_ａｄｖ、検出損失Ｌ_ｄｅｔ及び実例レベルのアライメント損失Ｌ_ｉｎｓの線形組み合わせであっても良い。具体的には、総損失Ｌ_{ｔｏｔａｌ}は次のような公式（２０）に従って確定され得る。

ここで、λ_１は例えば、サンプルデータ集合に基づいて０．１から１までの間の値をとっても良い。λ_２＝ｍｉｎ（０．１，ｐ^２）であり、訓練の期間で、ｐは次第に０から１に増加し得る。λ_２は固定値であっても良く、例えば、λ_２＝１と設定する。

ｍｉｎｉ－ｍａｘ損失関数を用いて総目標関数（公式（２１）参照）を定義できる。総目標関数により、オブジェクト検出モデルのパラメータを調整してオブジェクト検出モデルを最適化することを実現できる。

ここで、
（外９）

は、Ｆ及びＲのパラメータを調整することで総損失の最小化を実現することを表し、
（外１０）

は、Ｄ_ｌ及びＤ_ｇのパラメータを調整することで総損失の最大化を実現することを表す。ｍｉｎｉ－ｍａｘ損失関数は勾配反転層（ＧＲＬ、ｇｒａｄｉｅｎｔｒｅｖｅｒｓａｌｌａｙｅｒ）により実現されても良い。ｍｉｎｉ－ｍａｘ損失関数に関しては、次の文献３、即ち、
文献３：ＧａｎｉｎＹ，ＵｓｔｉｎｏｖａＥ，ＡｊａｋａｎＨ，ｅｔａｌ．Ｄｏｍａｉｎ－ａｄｖｅｒｓａｒｉａｌｔｒａｉｎｉｎｇｏｆｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｊ］．Ｔｈｅｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２０１６，１７（１）：２０９６－２０３０
を参照できる。

図４（ｅ）はオブジェクト検出モデルのパラメータの調整による特徴点アライメントへの影響の効果を示している。図４（ｅ）では、パラメータの調整によるアライメントへの影響の効果を明確に示すために、パラメータ調整後のオブジェクト検出モデルにより確定されたソースドメイン実例点及びターゲットドメイン実例点を同じ空間に併合して示している。図４（ｅ）に示すように、オブジェクト検出モデルのパラメータを調整した後に、同じクラスの特徴点はより集約され、アライメントの程度が高くなる傾向があり、クラス内距離が減少し、また、異なるクラスの特徴点は間隔が大きくなる傾向があり、クラス間距離が増大する。

本発明のもう１つの側面においてオブジェクト検出方法が提供される。以下、図５を参照しながら該方法について例示的に説明する。

図５は本発明の１つの実施例によるオブジェクト検出方法５００の例示的なフローチャートである。

ステップＳ５０１において、オブジェクト検出モデルＭを訓練する。具体的には、本発明のモデル訓練方法（例えば、図２に示す方法２００）を用いてオブジェクト検出モデルＭを訓練する。

ステップＳ５０３において、検出待ち画像に対して検出を行う。具体的には、訓練後のオブジェクト検出モデルを使用して検出待ち画像におけるオブジェクトの位置及び類別を確定する。

本発明のまたもう１つの側面においてオブジェクト検出モデルを訓練するための装置が提供される。以下、図６を参照しながら該装置について説明する。

図６は本発明の１つの実施例においてオブジェクト検出モデルを訓練するための装置６００の構成を示すブロック図である。装置６００は反復の方式でオブジェクト検出モデルを訓練するために用いられる。オブジェクト検出モデルはニューラルネットワークに基づいている。

該装置６００は検出損失確定ユニット６０１、分類特徴集合確定ユニット６０３、アライメント損失確定ユニット６０５、総損失確定ユニット６０７及び最適化ユニット６０９を含む。検出損失確定ユニット６０１は、現在の訓練用反復ループのための少なくとも１つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセットに基づいて、ソースドメインデータサブセットについての検出損失を確定するように構成される。分類特徴集合確定ユニット６０３は、少なくとも１つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し、及び少なくとも１つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定するように構成される。アライメント損失確定ユニット６０５は、ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて、実例特徴アライメントに関する実例レベルのアライメント損失を確定するように構成される。総損失確定失ユニット６０７は、検出損失及び実例レベルのアライメント損失に基づいて総損失を確定するように構成される。最適化ユニット６０９は、総損失に基づいて、オブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化するように構成される。

ソースドメインデータサブセット及びターゲットドメインデータサブセットはそれぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合に由来する。装置６００は方法２００に対応し、装置６００の具体的な処理などについては方法２００の説明を参照できる。例えば、分類特徴集合確定ユニット６０３はさらに次のような操作のうちの少なくとも１つを行うように構成されても良く、即ち、ソースドメイン及びターゲットドメインの各クラスの移動平均クラス中心を確定し、各移動平均クラス中心を対応する実例分類特徴集合に追加し、実例分類特徴集合における背景クラスの実例を削除し、及び実例分類特徴集合に対してアンダーサンプリングを行う。オプションとして、装置６００はさらに敵対的損失確定ユニットを含んでも良い。敵対的損失確定ユニットはソースドメインデータ集合及びターゲットドメインデータ集合についての敵対的損失を確定するために用いられる。敵対的損失確定ユニットは総損失確定ユニット６０７に接続され、総損失に敵対的損失を含めるようにさせる。

本発明の他の側面においてオブジェクト検出モデルを訓練するための装置が提供される。以下、図７を参照しながら該装置について説明する。図７は本発明の１つの実施例においてオブジェクト検出モデルを訓練するための装置７００を示す図である。該装置は、命令を記憶している記憶器７０１、及び１つ又は複数の処理器７０３を含み、１つ又は複数の処理器は記憶器と通信することで、記憶器から読み取った命令を実行することができ、命令は１つ又は複数の処理器に次のような操作を実行させ、即ち、それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも１つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも１つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り；オブジェクト検出モデルにより少なくとも１つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも１つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し；オブジェクト検出モデルにより少なくとも１つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも１つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し；ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し；及び、検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する。なお、装置７００は方法２００に対応し、装置７００の具体的な操作などについては方法２００の説明を参照できる。

本発明の他の側面においてプログラムを記憶しているコンピュータ可読記憶媒体が提供される。該プログラムは該プログラムを実行するコンピュータに次のような操作を実行させ、即ち、それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、現在の訓練用反復ループのための、少なくとも１つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも１つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り；オブジェクト検出モデルにより少なくとも１つの完全に注釈されたソースドメイン画像に対して処理を行うことで、ソースドメインデータサブセットについての検出損失、及び少なくとも１つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し；オブジェクト検出モデルにより少なくとも１つの疎らに注釈されたターゲットドメイン画像に対して処理を行うことで、少なくとも１つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し；ソースドメイン実例分類特徴集合及びターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し；及び、検出損失及び実例レベルのアライメント損失に関する総損失に基づいてオブジェクト検出モデルのパラメータを調整することでオブジェクト検出モデルを最適化する。なお、該プログラムは方法２００に対応し、該プログラムの具体的処理などについては方法２００の説明を参照できる。

本発明の他の側面にプログラムを記憶しているコンピュータ可読記憶媒体が提供される。該プログラムは該プログラムを実行するコンピュータに方法２００を実現させる。

本発明の他の側面において情報処理装置がさらに提供される。

図８は、本発明の実施例における方法及び装置を実現し得る情報処理装置のハードウェア構成（汎用コンピュータ）８００の構成図である。

汎用コンピュータ８００は、例えば、コンピュータシステムであっても良い。なお、汎用コンピュータ８００は例示に過ぎず、本発明による方法及び装置の適用範囲又は機能について限定しない。また、汎用コンピュータ８００は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせにも依存しない。

図８では、中央処理装置（ＣＰＵ）８０１は、ＲＯＭ８０２に記憶されているプログラム又は記憶部８０８からＲＡＭ８０３にロッドされているプログラムに基づいて各種の処理を行う。ＲＡＭ８０３では、ニーズに応じて、ＣＰＵ８０１が各種の処理を行うときに必要なデータなどを記憶することもできる。ＣＰＵ８０１、ＲＯＭ８０２及びＲＡＭ８０３は、バス８０４を経由して互いに接続される。入力／出力インターフェース８０５もバス８０４に接続される。

また、入力／出力インターフェース８０５には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部８０６、液晶表示器（ＬＣＤ）などのような表示器及びスピーカーなどを含む出力部８０７、ハードディスクなどを含む記憶部８０８、ネットワーク・インターフェース・カード、例えば、ＬＡＮカード、モデムなどを含む通信部８０９である。通信部８０９は、例えば、インターネット、ＬＡＮなどのネットワークを経由して通信処理を行う。ドライブ８１０は、ニーズに応じて、入力／出力インターフェース８０５に接続されても良い。取り外し可能な媒体８１１、例えば、半導体メモリなどは、必要に応じて、ドライブ８１０にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部８０８にインストールすることができる。

また、本発明は、さらに、マシン可読命令コードを含むプログラムプロダクトを提供する。このような命令コードは、マシンにより読み取られ、実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー（ｃａｒｒｙ）する例えば、磁気ディスク（フロッピーディスク（登録商標）を含む）、光ディスク（ＣＤ－ＲＯＭ及びＤＶＤを含む）、光磁気ディスク（ＭＤ（登録商標）を含む）、及び半導体記憶器などの各種記憶媒体も本発明に含まれる。

上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。

また、上述の方法における各操作（処理）は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。

以下、本発明による効果について説明する。

次のような３つのシーンを構築して実験を行い、本発明の技術案と従来の方法との正確率のパフォーマンスの面における差異を比較した。（１）ＣｉｔｙｓｃａｐｅｓからＦｏｇｇｙＣｉｔｙｓｃａｐｅｓの遷移（Ｃ－＞Ｆ）であり；（２）ＳＩＭ１０ＫからＣｉｔｙｓｃａｐｅｓへの遷移（Ｓ－＞Ｃであり、即ち、ＳＩＭ１０Ｋのラベル有りサンプル及びＣｉｔｙｓｃａｐｅｓの少量のラベル有りサンプルの両方を用いて訓練を行う）であり；（３）ＵｄａｃｉｔｙからＣｉｔｙｓｃａｐｅｓへの遷移（Ｕ－＞Ｃ）である。実験結果は以下の表１及び表２に示されている。第１のシーンＣ－＞Ｆは天気の変化によるドメイン偏移（ｄｏｍａｉｎｓｈｉｆｔ）がもたらすデータ偏差をシミュレーションするためのものである。第二のシーンＳ－＞Ｃは仮想世界とリアルな世界との間のデータ偏差をシミュレーションするためのものである。第三のシーンＵ－＞Ｃは２つの異なるリアルな世界の間の、照明条件やカメラ角度などが原因で生じるデータ偏差をシミュレーションするためのものである。

表１はＣ－＞Ｆの実験結果である。

表２はＳ－＞Ｃ及びＵ－＞Ｃの実験結果である。

引用データは以下の文献に由来する。

［１］ＲｅｎＳ，ＨｅＫ，ＧｉｒｓｈｉｃｋＲ，ｅｔａｌ．Ｆａｓｔｅｒｒ－ｃｎｎ：Ｔｏｗａｒｄｓｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋｓ［Ｊ］．Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ，２０１５，２８：９１－９９
［２］ＳａｉｔｏＫ，ＵｓｈｉｋｕＹ，ＨａｒａｄａＴ，ｅｔａｌ．Ｓｔｒｏｎｇ－ｗｅａｋｄｉｓｔｒｉｂｕｔｉｏｎａｌｉｇｎｍｅｎｔｆｏｒａｄａｐｔｉｖｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２０１９：６９５６－６９６５
［３］ＺｈｕａｎｇＣ，ＨａｎＸ，ＨｕａｎｇＷ、ｅｔａｌ．ｉｆａｎ：Ｉｍａｇｅ－ｉｎｓｔａｎｃｅｆｕｌｌａｌｉｇｎｍｅｎｔｎｅｔｗｏｒｋｓｆｏｒａｄａｐｔｉｖｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．２０２０，３４（０７）：１３１２２－１３１２９
［４］Ｗｕ、Ａ．，Ｈａｎ，Ｙ．，Ｚｈｕ，Ｌ．＆Ｙａｎｇ，Ｙ．（２０２１）．Ｉｎｓｔａｎｃｅ－ＩｎｖａｒｉａｎｔＤｏｍａｉｎＡｄａｐｔｉｖｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｖｉａＰｒｏｇｒｅｓｓｉｖｅＤｉｓｅｎｔａｎｇｌｅｍｅｎｔ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，１－１
［５］ＷａｎｇＴ，ＺｈａｎｇＸ，ＹｕａｎＬ，ｅｔａｌ．Ｆｅｗ－ｓｈｏｔａｄａｐｔｉｖｅｆａｓｔｅｒｒ－ｃｎｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２０１９：７１７３－７１８２
そのうち、Ｓｏｕｒｃｅ－ｏｎｌｙは完全に注釈されたソースドメインデータのみを使用して訓練を行うことを表し、Ｔａｒｇｅｔ－ｏｎｌｙは疎らに注釈されたターゲットドメインデータのみを用いて訓練を行うことを表し、ＵＤＡは教師無し領域適応方法を表し、それはすべての注釈されていないターゲットドメインデータを用いて領域適応を行い、ＦＵＤＡは少数サンプル教師無し領域適応方法を表し、ＦＤＡは少数サンプル領域適応方法を表し、ＰＩＣＡ＋ＳＷＤＡは本発明で採用される方法を表し、ＰＩＣＡはｐｏｉｎｔ－ｗｉｓｅｉｎｓｔａｎｃｅａｎｄｃｅｎｔｒｏｉｄａｌｉｇｎｍｅｎｔを表し、ｍＡＰ（０．５）は平均精度（Ｍｅａｎａｖｅｒａｇｅｐｒｅｃｉｓｉｏｎ）を表し、０．５は閾値であり、表内の小数点を含むデータは検出精度ｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）を表す。

Ｓ－＞Ｃ及びＵ－＞Ｃのシーンでは、８つのターゲットドメイン画像を使用しており、各画像は３つのみの自動車が注釈されており、Ｃ－＞Ｆのシーンでは、８つのターゲットドメイン画像を使用しており、各画像は１つのクラスに対応し、かつ各画像は対応するクラスの１つのみの実例が注釈されている。ＦＵＤＡ方法はＦＤＡと同様の８つの画像を使用しているが、対応する注釈を使用していない。

表１及び表２の実験結果から分かるように、本発明の方法（ＰＩＣＡ＋ＳＷＤＡ）はＣ－＞Ｆ、Ｓ－＞Ｃ及びＵ－＞Ｃにおいて、従来のＦＡＦＲＣＮＮ及びＳＷＤＡよりも優れている。

本発明の技術案には、追加分類特徴抽出層、敵対的損失、少量の疎らに注釈されたターゲットドメイン画像の使用、移動平均クラス中心のアライメント、背景クラス実例削除、アンダーサンプリング、改良された実例レベルのアライメント損失が含まれている。本発明の有利な効果は、ラベルノイズに対してロバスト性を有し、類別（クラス）のアンバランスを克服でき、実例レベルのアライメントを改善でき、及び検出精度を向上させることができるということのうちの少なくとも１つを含む。

また、以上の実施例などに関し、以下のような付記をさらに開示する。

（付記１）
オブジェクト検出モデルを訓練するための、コンピュータが実行する方法であって、
反復の方式で前記オブジェクト検出モデルを訓練することを含み、
前記オブジェクト検出モデルはニューラルネットワークに基づいており、
現在の訓練用反復ループは、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、前記現在の訓練用反復ループのための少なくとも１つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも１つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り（取得し）；
前記オブジェクト検出モデルにより、前記少なくとも１つの完全に注釈されたソースドメイン画像を処理することで、前記ソースドメインデータサブセットについての検出損失、及び前記少なくとも１つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し；
前記オブジェクト検出モデルにより、前記少なくとも１つの疎らに注釈されたターゲットドメイン画像を処理することで、前記少なくとも１つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し；
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し；及び
前記検出損失及び前記実例レベルのアライメント損失に関する総損失に基づいて前記オブジェクト検出モデルのパラメータを調整することで前記オブジェクト検出モデルを最適化することを含む、方法。

（付記２）
付記１に記載の方法であって、
同じオブジェクト類別集合に基づいて前記少なくとも１つの完全に注釈されたソースドメイン画像及び前記少なくとも１つの疎らに注釈されたターゲットドメイン画像を使用して前記オブジェクト検出モデルを訓練し、前記同じオブジェクト類別集合は背景クラスを含む、方法。

（付記３）
付記１に記載の方法であって、
前記オブジェクト検出モデルはＲネットワークを含み、
前記ＲネットワークはＦａｓｔｅｒＲＣＮＮフレームワークに基づいており、
前記Ｒネットワークは入力画像の各関心のある領域特徴を確定するように構成され、
前記Ｒネットワークはさらに、前記入力画像の各関心のある領域の分類ラベル付き境界枠を確定するように構成される、方法。

（付記４）
付記３に記載の方法であって、
前記Ｒネットワークは追加分類特徴抽出層を含み、
前記追加分類特徴抽出層は各関心のある領域特徴のうちから分類用の実例分類特徴を抽出するように構成される、方法。

（付記５）
付記１に記載の方法であって、
前記総損失はさらに、前記ソースドメインデータサブセットと前記ターゲットドメインデータサブセットの敵対的損失に関連している、方法。

（付記６）
付記５に記載の方法であって、
前記Ｒネットワークはグローバル判別器及びローカル判別器を含み、前記敵対的損失は前記グローバル判別器により画像レベルの特徴に基づいて確定される弱グローバルアライメント損失及び前記ローカル判別器によりローカルレベルの特徴に基づいて確定さる強ローカルアライメント損失を含む、方法。

（付記７）
付記２に記載の方法であって、
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定することは、
前記ソースドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのソースドメインの各クラスの平均クラス中心を確定し；
前記ターゲットドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのターゲットドメインの各クラスの平均クラス中心を確定し；
前記ソースドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び１つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を確定し；
前記ターゲットドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及１つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を確定し；
前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を前記ソースドメイン分類特徴集合に追加することで、前記ソースドメイン実例分類特徴集合を更新し；
前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を前記ターゲットドメイン実例分類特徴集合に追加することで、前記ターゲットドメイン実例分類特徴集合を更新し；及び
前記更新されたソースドメイン実例分類特徴集合と、前記更新されたターゲットドメイン実例分類特徴集合との間の前記実例レベルのアライメント損失を確定することを含む、方法。

（付記８）
付記７に記載の方法であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含み、かつ
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含む、方法。

（付記９）
付記７に記載の方法であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ソースドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことを含み、かつ
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ターゲットドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことを含む、方法。

（付記１０）
付記１に記載の方法であって、
前記実例レベルのアライメント損失は最小絶対クラス間距離の最大化を考慮した拡張ｄ－ＳＮＥ損失である、方法。

（付記１１）
オブジェクト検出方法であって、
付記１乃至１０のうちの任意の１項に記載の方法を用いて前記オブジェクト検出モデルを訓練し；及び
訓練後のオブジェクト検出モデルを用いて検出待ち画像におけるオブジェクトの位置及び類別を確定する、方法。

（付記１２）
プログラムを記憶しているコンピュータ可読記憶媒体であって、
前記プログラムは、該プログラムを実行するコンピュータに、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、前記現在の訓練用反復ループのための少なくとも１つの完全に注釈されたソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも１つの疎らに注釈されたターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを読み取り；
前記オブジェクト検出モデルにより、前記少なくとも１つの完全に注釈されたソースドメイン画像を処理することで、前記ソースドメインデータサブセットについての検出損失、及び前記少なくとも１つの完全に注釈されたソースドメイン画像についてのソースドメイン実例分類特徴集合を確定し；
前記オブジェクト検出モデルにより、前記少なくとも１つの疎らに注釈されたターゲットドメイン画像を処理することで、前記少なくとも１つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し；
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定し；及び
前記検出損失及び前記実例レベルのアライメント損失に関する総損失に基づいて前記オブジェクト検出モデルのパラメータを調整することで前記オブジェクト検出モデルを最適化することを実行させる、記憶媒体。

（付記１３）
付記１２に記載のコンピュータ可読記憶媒体であって、
同じオブジェクト類別集合に基づいて前記少なくとも１つの完全に注釈されたソースドメイン画像及び前記少なくとも１つの疎らに注釈されたターゲットドメイン画像を使用して前記オブジェクト検出モデルを訓練し、
前記同じオブジェクト類別集合は背景クラスを含む、記憶媒体。

（付記１４）
付記１２に記載のコンピュータ可読記憶媒体であって、
前記オブジェクト検出モデルはＲネットワークを含み、
前記ＲネットワークはＦａｓｔｅｒＲＣＮＮフレームワークに基づいており、
前記Ｒネットワークは入力画像の各関心のある領域特徴を確定するように構成され、
前記Ｒネットワークはさらに前記入力画像の各関心のある領域の分類ラベル付き境界枠を確定するように構成される、記憶媒体。

（付記１５）
付記１４に記載のコンピュータ可読記憶媒体であって、
前記Ｒネットワークは追加分類特徴抽出層を含み、
前記追加分類特徴抽出層は各関心のある領域特徴のうちから分類用の実例分類特徴を抽出するように構成される、記憶媒体。

（付記１６）
付記１２に記載のコンピュータ可読記憶媒体であって、
前記総損失はさらに、前記ソースドメインデータサブセット及び前記ターゲットドメインデータサブセットの敵対的損失に関連している、記憶媒体。

（付記１７）
付記１６に記載のコンピュータ可読記憶媒体であって、
前記Ｒネットワークはグローバル判別器及びローカル判別器を含み、前記敵対的損失は前記グローバル判別器によって画像レベルの特徴に基づいて確定される弱グローバルアライメント損失及び前記ローカル判別器によってローカルレベルの特徴に基づいて確定される強ローカルアライメント損失を含む、記憶媒体。

（付記１８）
付記１３に記載のコンピュータ可読記憶媒体であって、
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて実例特徴アライメントに関する実例レベルのアライメント損失を確定することは、
前記ソースドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのソースドメインの各クラスの平均クラス中心を確定し；
前記ターゲットドメイン実例分類特徴集合に基づいて前記現在の訓練用反復ループのターゲットドメインの各クラスの平均クラス中心を確定し；
前記ソースドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び１つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を確定し；
前記ターゲットドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び１つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を確定し；
前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を前記ソースドメイン分類特徴集合に追加することで、前記ソースドメイン実例分類特徴集合を更新し；
前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を前記ターゲットドメイン実例分類特徴集合に追加することで、前記ターゲットドメイン実例分類特徴集合を更新し；及び
前記更新後のソースドメイン実例分類特徴集合と前記更新後のターゲットドメイン実例分類特徴集合の間の前記実例レベルのアライメント損失を確認することを含む、記憶媒体。

（付記１９）
付記１８に記載のコンピュータ可読記憶媒体であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含み、
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合に対してアンダーサンプリングを行うことを含む、記憶媒体。

（付記２０）
付記１８に記載のコンピュータ可読記憶媒体であって、
前記ソースドメイン実例分類特徴集合の更新はさらに、前記ソースドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ソースドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残することを含み；かつ
前記ターゲットドメイン実例分類特徴集合の更新はさらに、前記ターゲットドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ターゲットドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことを含む、記憶媒体。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。

Claims

オブジェクト検出モデルを訓練するための、コンピュータが実行する方法であって、
反復（ｉｔｅｒａｔｉｏｎ）の方式で前記オブジェクト検出モデルを訓練することを含み、
前記オブジェクト検出モデルはニューラルネットワークに基づいており、
現在の訓練用反復ループは、
それぞれ、比較的大量のラベルを有するソースドメインデータ集合及び比較的少量のラベルを有するターゲットドメインデータ集合から、前記現在の訓練用反復ループのための、少なくとも１つの完全に注釈された（ｆｕｌｌｙａｎｎｏｔａｔｅｄ）ソースドメイン画像に対応する、比較的大量のラベルを有するソースドメインデータサブセット、及び少なくとも１つの疎らに注釈された（ｌｏｏｓｅｌｙａｎｎｏｔａｔｅｄ）ターゲットドメイン画像に対応する、比較的少量のラベルを有するターゲットドメインデータサブセットを取得し；
前記オブジェクト検出モデルにより、前記少なくとも１つの完全に注釈されたソースドメイン画像を処理することで、前記ソースドメインデータサブセットについての検出損失、及び前記少なくとも１つの完全に注釈されたソースドメイン画像についてのソースドメイン実例（ｉｎｓｔａｎｃｅ）分類特徴集合を確定し；
前記オブジェクト検出モデルにより、前記少なくとも１つの疎らに注釈されたターゲットドメイン画像を処理することで、前記少なくとも１つの疎らに注釈されたターゲットドメイン画像についてのターゲットドメイン実例分類特徴集合を確定し；
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて、実例特徴アライメントに関する実例レベルのアライメント損失を確定し；及び
前記検出損失及び前記実例レベルのアライメント損失に関する総損失に基づいて、前記オブジェクト検出モデルのパラメータを調整することで、前記オブジェクト検出モデルを最適化することを含む、方法。
請求項１に記載の方法であって、
同じオブジェクトクラス集合に基づいて、前記少なくとも１つの完全に注釈されたソースドメイン画像及び前記少なくとも１つの疎らに注釈されたターゲットドメイン画像を用いて、前記オブジェクト検出モデルを訓練し、
前記同じオブジェクトクラス集合は背景クラスを含む、方法。
請求項２に記載の方法であって、
前記ソースドメイン実例分類特徴集合及び前記ターゲットドメイン実例分類特徴集合に基づいて、実例特徴アライメントに関する実例レベルのアライメント損失を確定することは、
前記ソースドメイン実例分類特徴集合に基づいて、前記現在の訓練用反復ループのソースドメインの各クラスの平均クラス中心を確定し；
前記ターゲットドメイン実例分類特徴集合に基づいて、前記現在の訓練用反復ループのターゲットドメインの各クラスの平均クラス中心を確定し；
前記ソースドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び１つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を確定し；
前記ターゲットドメインについて、前記現在の訓練用反復ループの各クラスの平均クラス中心及び１つ前の訓練用反復ループの各クラスの移動平均クラス中心に基づいて、前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を確定し；
前記現在の訓練用反復ループの前記ソースドメインの各クラスの移動平均クラス中心を前記ソースドメイン分類特徴集合に追加することで、前記ソースドメイン実例分類特徴集合を更新し；
前記現在の訓練用反復ループの前記ターゲットドメインの各クラスの移動平均クラス中心を前記ターゲットドメイン実例分類特徴集合に追加することで、前記ターゲットドメイン実例分類特徴集合を更新し；及び
更新された前記ソースドメイン実例分類特徴集合と、更新された前記ターゲットドメイン実例分類特徴集合との間の前記実例レベルのアライメント損失を確定する、方法。
請求項３に記載の方法であって、
前記ソースドメイン実例分類特徴集合を更新することは、
前記ソースドメイン実例分類特徴集合に対してアンダーサンプリングを行うことをさらに含み、
前記ターゲットドメイン実例分類特徴集合を更新することは、
前記ターゲットドメイン実例分類特徴集合に対してアンダーサンプリングを行うことをさらに含む、方法。
請求項３に記載の方法であって、
前記ソースドメイン実例分類特徴集合を更新することは、
前記ソースドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ソースドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことをさらに含み、
前記ターゲットドメイン実例分類特徴集合を更新することは、
前記ターゲットドメイン実例分類特徴集合において背景クラス実例に対応する分類特徴を削除すると同時に、前記ターゲットドメイン実例分類特徴集合における前記背景クラスの移動平均クラス中心を残すことをさらに含む、方法。
請求項１に記載の方法であって、
前記実例レベルのアライメント損失は最小絶対クラス間距離の最大化を考慮した拡張ｄ－ＳＮＥ損失である、方法。
請求項１に記載の方法であって、
前記総損失はさらに、前記ソースドメインデータサブセットと前記ターゲットドメインデータサブセットの敵対的損失と関連している、方法。
請求項１に記載の方法であって、
前記オブジェクト検出モデルはＲネットワークを含み、
前記ＲネットワークはＦａｓｔｅｒＲ－ＣＮＮフレームワークに基づいており、
前記Ｒネットワークは入力画像の各々の関心のある領域特徴を確定するように構成され、
前記Ｒネットワークはさらに、前記入力画像の各々の関心のある領域の分類ラベル付き境界枠を確定するように構成される、方法。
請求項８に記載の方法であって、
前記Ｒネットワークは追加分類特徴抽出層を含み、
前記追加分類特徴抽出層は各々の関心のある領域特徴のうちから分類用の実例分類特徴を抽出するように構成される、方法。
コンピュータが実行するオブジェクト検出方法であって、
請求項１乃至９のうちの何れか１項に記載の方法を用いて、前記オブジェクト検出モデルを訓練し；及び
訓練後の前記オブジェクト検出モデルにより、検出待ち画像におけるオブジェクトの位置及びクラスを確定することを含む、オブジェクト検出方法。