JP7265003B2

JP7265003B2 - ターゲット検出方法、モデル訓練方法、装置、機器及びコンピュータプログラム

Info

Publication number: JP7265003B2
Application number: JP2021519836A
Authority: JP
Inventors: ▲澤▼群 ▲掲▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-21
Filing date: 2020-03-13
Publication date: 2023-04-25
Anticipated expiration: 2040-03-13
Also published as: EP3944147A4; US20210279513A1; CN109919251A; JP2022504704A; KR20210078539A; US11763541B2; US20230360357A1; EP3944147A1; WO2020187153A1

Description

（関連出願の相互参照）
本願は、２０１９年３月２１日に提出された、出願番号が２０１９１０２１８４４４．５であり、発明名称が「画像に基づくターゲット検出方法、モデル訓練方法及び装置」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、人工知能分野に関し、特にターゲット検出方法、モデル訓練方法、装置、機器及び記憶媒体に関する。

機械学習分野において、一般的には、サンプルを、訓練集合及び検証集合というそれぞれ独立した２つの部分に分ける必要がある。訓練集合は、教師あり学習に用いられ、教師あり学習は、一組のカテゴリが既知であるサンプルを利用して分類器のパラメータを調整し、所要性能を達成するプロセスであり、教師あり訓練とも呼ばれる。検証集合は、最終的に選択されたモデル性能がどのようなものであるかを検証するために用いられる。画像処理分野において、訓練画像と検証画像の間でドメインの差異が大きいケースが生じやすい。

現在、訓練集合の画像及び検証集合の画像は、異なるドメインからのものである場合、一般的には、敵対的損失関数によって、ネットワークモデルにより抽出された特徴を制約し、ネットワークモデルを、訓練集合の画像がどのドメインからのものであるかを判別できないようにし、特徴分布ドメインに対して鈍感であるという目的を達成する。

しかしながら、訓練集合の画像と検証集合の画像とは、ドメイン分布においてどうしても差異を有しているため、ネットワークモデルに、訓練集合の画像と検証集合の画像の特徴に対して曖昧化させることは、非常に困難であり、そのため、ドメインＡの訓練集合の画像で訓練して得られたネットワークモデルを用いてドメインＢにおける検証集合の画像を予測する場合、予測効果が低い。

本願の実施例は、ターゲット検出方法、モデル訓練方法、装置、機器及び記憶媒体を提供し、検証集合の画像スタイルと同じの検出待ち画像を意図的に使用してターゲットの位置決めを行う必要がなく、クロスドメイン画像検出モデルを用いて、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、それによって、画像における位置決めの正確性を向上させ、モデル予測効果を向上させる。

これに鑑み、本願の第１態様は、画像に基づくターゲット検出方法を提供する。該方法は、
第１検出待ち画像を取得するステップであって、前記第１検出待ち画像は、第１ドメインに属する、ステップと、
第１検出待ち画像に対応する第２検出待ち画像を取得するステップであって、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第２検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含む。

本願の第２態様は、モデル訓練方法を提供する。該方法は、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属する、ステップと、
第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む。

本願の第３態様は、ターゲット検出装置を提供する。前記装置は、取得モジュールと、検出モジュールと、を備え、
取得モジュールは、第１検出待ち画像を取得するように構成され、前記第１検出待ち画像は、第１ドメインに属し、
前記取得モジュールは更に、第１検出待ち画像に対応する第２検出待ち画像を取得するように構成され、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインであり、

検出モジュールは、クロスドメイン画像検出モデルにより、前記取得モジュールが取得した前記第２検出待ち画像に対応する検出結果を取得するように構成され、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられる。

本願の第４態様は、モデル訓練装置を提供する。該装置は、取得モジュールと、訓練モジュールと、を備え、
取得モジュールは、訓練待ち画像及び検証待ち画像を取得するように構成され、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインであり、
前記取得モジュールは更に、第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するように構成され、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属し、
前記取得モジュールは更に、第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するように構成され、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠であり、
前記取得モジュールは更に、前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するように構成され、
訓練モジュールは、前記取得モジュールが取得した前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るように構成される。

可能な設計において、本願の実施例の第４態様の第１実現形態において、
前記訓練モジュールは具体的には、前記検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定し、
前記予測確率値に基づいて、第２損失関数を決定し、
前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、第３損失関数を決定し、
前記第１損失関数、前記第２損失関数及び前記第３損失関数に基づいて、前記ターゲット損失関数を生成し、
前記ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行うように構成される。

可能な設計において、本願の実施例の第４態様の第２実現形態において、
前記訓練モジュールは具体的には、
Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［||Ｇ_ｓ－ｔ（Ｇ_ｔ－ｓ（ｘ_ｔ））－ｘ_ｔ||］＋Ｅ_{ｓ～Ｘ（ｓ）}［||Ｇ_ｔ－ｓ（Ｇ_ｓ－ｔ（ｘ_ｓ））－ｘ_ｓ||］という方式を用いて前記第１損失関数を決定するように構成され、

前記Ｌ_ｃｙｓ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）は、前記第１損失関数を表し、前記ｘ_ｔは、前記検証待ち画像を表し、前記ｘ_ｓは、前記訓練待ち画像を表し、前記Ｇ_ｓ－ｔは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Ｇ_ｔ－ｓは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Ｇ_ｔ－ｓ（ｘ_ｔ）は、前記訓練スタイル画像を表し、前記Ｇ_ｓ－ｔ（ｘ_ｓ）は、前記検証スタイル画像を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表す。

可能な設計において、本願の実施例の第４態様の第３実現形態において、前記モデル訓練装置は、検出モジュールを更に備え、
前記検出モジュールは、前記取得モジュールが第１訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第１判別器により、前記検証スタイル画像に対して真実性検出を行うように構成され、前記第１判別器は、第１敵対的損失関数を用いて訓練して得られたものであり、
前記検出モジュールは更に、前記取得モジュールが第１訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第２判別器により、前記訓練スタイル画像に対して真実性検出を行うように構成され、前記第２判別器は、第２敵対的損失関数を用いて訓練して得られたものである。

可能な設計において、本願の実施例の第４態様の第４実現形態において、
前記取得モジュールは更に、前記検出モジュールが第１判別器により前記検証スタイル画像に対して真実性検出を行う前に、
Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇＤ_ｔ（ｘ）］＋Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇ（１－Ｄ_ｔ（Ｇ_ｓ－ｔ（ｓ）））］という方式を用いて前記第１敵対的損失関数を取得するように構成され、
前記Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）は、前記第１敵対的損失関数を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ｄ_ｔ（）は、前記第１判別器を表し、前記ｓは、前記第１ドメインの画像を表し、前記Ｇ_ｓ－ｔ（）は、前記第１ドメインの画像を前記第２ドメインの画像に変換するネットワークを表し、前記ｘは、入力された画像を表す。

可能な設計において、本願の実施例の第４態様の第５実現形態において、
前記取得モジュールは更に、前記検出モジュールが第１判別器により前記検証スタイル画像に対して真実性検出を行う前に、
Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）＝Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇＤ_ｓ（ｘ）］＋Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇ（１－Ｄ_ｓ（Ｇ_ｔ－ｓ（ｔ）））］という方式を用いて前記第２敵対的損失関数を取得するように構成され、
前記Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）は、前記第２敵対的損失関数を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ｄ_ｓ（）は、前記第２判別器を表し、前記ｔは、前記第２ドメインの画像を表し、前記Ｇ_ｔ－ｓ（）は、前記第２ドメインの画像を前記第１ドメインの画像に変換するネットワークを表し、前記ｘは、入力された画像を表す。

可能な設計において、本願の実施例の第４態様の第６実現形態において、
前記訓練モジュールは具体的には、
Ｌ_{ｄｏｍａｉｎ}＝－Σ_ｉ，ｊ［ｄｌｏｇｐ_ｉ，ｊ＋（１－ｄ）ｌｏｇ（１－ｐ_ｉ，ｊ）］という方式を用いて前記第２損失関数を決定するように構成され、
前記Ｌ_{ｄｏｍａｉｎ}は、前記第２損失関数を表し、前記ｐ_ｉ，ｊは、ｉ番目の候補領域の第ｊカテゴリにおける予測確率値を表し、前記ｄは、画像出所値を表す。

可能な設計において、本願の実施例の第４態様の第７実現形態において、
前記訓練モジュールは具体的には、
Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）＝Ｌ_{ｒｐｎ－ｃｌｓ}（ｐ_ｒｐｎ，ｕ_ｒｐｎ）＋Ｌ_{ｒｐｎ－ｌｏｃ}（ｔ^ｍ _ｒｐｎ，ｖ_ｒｐｎ）＋Ｌ_{ｏｂｊ－ｃｌｓ}（ｐ_ｏｂｊ，ｕ_ｏｂｊ）＋Ｌ_{ｏｂｊ－ｌｏｃ}（ｔ^ｍ _ｏｂｊ，ｖ_ｏｂｊ）という方式を用いて前記第３損失関数を決定するように構成され、
前記Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）は、前記第３損失関数を表し、前記Ｌ_{ｒｐｎ－ｃｌｓ}は、前記第２訓練待ちネットワークモデルにおける領域生成ネットワークＲＰＮの分類損失関数を表し、前記ｐ_ｒｐｎは、前記ＲＰＮの前記第１予測カテゴリ確率値を表し、前記ｕ_ｒｐｎは、前記ＲＰＮの第１真実カテゴリ確率値を表し、前記Ｌ_{ｒｐｎ－ｌｏｃ}は、前記第２訓練待ちネットワークモデルにおける前記ＲＰＮの位置決め損失関数を表し、前記ｔ^ｍ _ｒｐｎは、前記ＲＰＮの前記第１予測位置決め値を表し、前記ｖ_ｒｐｎは、前記ＲＰＮの第１真実位置決め値を表し、前記Ｌ_{ｏｂｊ－ｃｌｓ}は、前記第２訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記ｐ_ｏｂｊは、前記ターゲット検出ネットワークの前記第２予測カテゴリ確率値を表し、前記ｕ_ｏｂｊは、前記ターゲット検出ネットワークの第２真実カテゴリ確率値を表し、前記Ｌ_{ｏｂｊ－ｌｏｃ}は、前記第２訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記ｔ^ｍ _ｏｂｊは、前記ターゲット検出ネットワークの前記第２予測位置決め値を表し、前記ｖ_ｏｂｊは、前記ターゲット検出ネットワークの第２真実位置決め値を表す。

可能な設計において、本願の実施例の第４態様の第８実現形態において、
前記訓練モジュールは具体的には、
Ｌ＝Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＋Ｌ_{ｄｏｍａｉｎ}＋Ｌ_ｄｅｔという方式を用いて前記ターゲット損失関数を決定するように構成され、
前記Ｌは、前記ターゲット損失関数を表し、前記Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）は、前記第１損失関数を表し、前記Ｌ_{ｄｏｍａｉｎ}は、前記第２損失関数を表し、前記Ｌ_ｄｅｔは、前記第３損失関数を表す。

本願の第５態様は、端末機器を提供する。前記端末機器は、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
第１検出待ち画像を取得するステップであって、前記第１検出待ち画像は、第１ドメインに属する、ステップと、
第１検出待ち画像に対応する第２検出待ち画像を取得するステップであって、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第２検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。

本願の第６態様は、サーバを提供する。前記サーバは、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属する、ステップと、
第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。

本願の第７態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体にプログラムコードが記憶されており、該プログラムコードがコンピュータで実行される時、コンピュータに、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属する、ステップと、
第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含むモデル訓練ステップを実行させ、
又は、コンピュータに、
第１検出待ち画像を取得するステップであって、前記第１検出待ち画像は、第１ドメインに属する、ステップと、
第１検出待ち画像に対応する第２検出待ち画像を取得するステップであって、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第２検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含むターゲット検出ステップを実行させる。

上記技術的解決手段から分かるように、本願の実施例は、下記利点を有する。

本願の実施例において、画像に基づくターゲット検出方法を提供する。まず、第１検出待ち画像を取得し、第１検出待ち画像は、第１ドメインに属する。続いて、クロスドメイン画像検出モデルにより、第１検出待ち画像に対応する第２検出待ち画像を取得し、第２検出待ち画像は、第２ドメインに属する。最後に、クロスドメイン画像検出モデルにより、第２検出待ち画像に対応する検出結果を取得し、検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、ターゲット対象は、第１検出待ち画像における被検対象に属する。上記方式によれば、検証集合の画像スタイルと同じの検出待ち画像を意図的に使用してターゲットの位置決めを行う必要がなく、クロスドメイン画像検出モデルを用いて、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、それによって、画像における位置決めの正確性を向上させ、モデル予測効果を向上させる。

本願の実施例におけるクロスドメインターゲット検出の比較概略図である。本願の実施例によるターゲット検出システムのアーキテクチャを示す概略図である。本願の実施例による自動運転システムに基づくターゲット検出効果を示す概略図である。本願の実施例による自動運転システムに基づくもう１つのターゲット検出効果を示す概略図である。本願の実施例による画像に基づくターゲット検出方法の一実施例を示す概略図である。本願の実施例による第１検出待ち画像の一実施例を示す概略図である。本願の実施例による第２検出待ち画像の一実施例を示す概略図である。本願の実施例によるターゲットの位置決めを行う対象画像の一実施例を示す概略図である。本願の実施例によるクロスドメイン画像検出モデルの配置フローを示す概略図である。本願の実施例によるモデル訓練方法の一実施例を示す概略図である。本願の実施例による異なるドメインの画像の比較概略図である。本願の実施例によるクロスドメイン画像検出モデルの訓練に適用可能である２種類の画像の比較概略図である。本願の実施例によるクロスドメイン画像検出モデルの構造を示す概略図である。本願の検証結果として検出された画像の比較概略図である。本願の検証結果として検出されたもう１つの画像の比較概略図である。本願の検証結果におけるＳｉｍ１０ｋデータ集合からＫｉｔｔｉデータ集合への変換効果を示す概略図である。本願の検証結果におけるＣｉｔｙｓｃａｐｅｓデータ集合からＦｏｇｇｙ－Ｃｉｔｙｓｃａｐｅｓデータ集合への変換効果を示す概略図である。本願の実施例によるターゲット検出装置の一実施例を示す概略図である。本願の実施例によるモデル訓練装置の一実施例を示す概略図である。本願の実施例によるモデル訓練装置のもう１つの実施例を示す概略図である。本願の実施例による端末機器の構造を示す概略図である。本願の実施例によるサーバの構造を示す概略図である。

本願の実施例は、画像に基づくターゲット検出方法、モデル訓練方法及び装置を提供し、検証集合の画像スタイルと同じの検出待ち画像を意図的に使用してターゲットの位置決めを行う必要がなく、クロスドメイン画像検出モデルを用いて、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、それによって、画像における位置決めの正確性を向上させ、モデル予測効果を向上させる。

本願の明細書、特許請求の範囲及び上記図面における「第１」、「第２」、「第３」、「第４」等に関する記載（存在すれば）は、類似する対象を区別するためのものであり、特定の順番又は前後順序を説明するためのものではない。理解すべきこととして、このように記載されるデータは場合によって取り替えることが可能であり、それによって、ここで記載される本願の実施例をここで示した又は説明した順番以外の順番で実施可能なものである。また、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図しており、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、明記されたステップ又はユニットだけに限定されず、明記されていないか又はこれらのプロセス、方法、製品又は機器の固有している他のステップ又はユニットを含んでもよい。

本願は、敵対的学習に基づくクロスドメインの画像におけるターゲット検出方法を提供し、該方法は、訓練集合データと検証集合データの分布が異なる場合、深層畳み込みニューラルネットワークの検証精度が低いという問題を解決する。本願は、画像におけるターゲット検出タスクに広く用いられ、特に、実際の適用において、訓練集合の画像と検証集合の画像のドメイン分布が異なる場合に対して、より重要な意義を有する。実際に、訓練集合の画像と検証集合の画像のドメイン分布が大分異なる。例えば、無人車のターゲット検出の場合、訓練時に用いられる訓練集合の画像は、都市Ａからのシーンピクチャであるが、実際の検証時に用いられる検証集合の画像は、都市Ｂからのシーンピクチャが用いられ、そのため、通常、２つの都市のシーンピクチャのドメイン分布が不一致である。また例えば、訓練時に用いられる訓練集合の画像は、室内からのシーンピクチャであり、検証時に用いられる検証集合の画像は、室外からのシーンピクチャであり、そのため、室内のシーンピクチャと室外のシーンピクチャのドメイン分布も不一致である。また例えば、訓練時に用いられる訓練集合の画像における自動車のブランドや色は、検証時に用いられる検証集合の画像における自動車のブランドや色と異なる可能性もある。本願の実施例におけるクロスドメインターゲット検出の比較概略図である図１を参照すると、図１の（ａ）図及び（ｂ）図は、それぞれ２つのドメイン分布からのものである。両者において、いずれも、「自動車」という物体を検出することができるが、該２つの画像のスタイルが大きく相違していることは明らかである。周知のように、訓練集合の画像と検証集合の画像のドメイン分布が大きく相違している場合、検証集合の画像に対して、深層ネットワークの汎化性能が低く、且つ検証精度が低く、ターゲット検出のための深層ネットワークモデルは、同様に該問題を回避できない。

理解しやすくするために、本願は、画像に基づくターゲット検出方法を提供する。該方法は、図２に示すターゲット検出システムに適用される。図２に示すように、図２は、本願の実施例によるターゲット検出システムのアーキテクチャを示す概略図である。図面に示すように、サーバにおいて、本願が提供するモデル訓練方法を実現する。つまり、サーバは、クロスドメイン画像検出モデルを訓練する過程において、２つのサブネットワークモデルを導入した。１つのサブネットワークモデルは、画素ドメイン適応型（ＰｉｘｅｌＤｏｍａｉｎＡｄａｐｔａｔｉｏｎ：ＰＤＡ）ネットワークモデルであり、もう１つのサブネットワークモデルは、特徴ドメイン適応型（ＦｅａｔｕｒｅＤｏｍａｉｎＡｄａｐｔａｔｉｏｎ：ＦＤＡ）ネットワークモデルである。ＰＤＡネットワークは、オリジナルの訓練集合の画像を検証集合スタイルの画像に変換し、これにより、モデル訓練時に、変換後の検証集合スタイルの訓練集合の画像を入力として利用し、それによって、クロスドメイン画像検出モデルの、検証集合スタイル画像に対する適応に寄与する。ＦＤＡネットワークは、モデルが検証集合スタイルの画像の特徴を学習することを特徴面で制約する。サーバは、訓練によりクロスドメイン画像検出モデルを得た後、クライアントは、検出待ち画像を取得し、ここでの検出待ち画像は訓練集合の画像と、同一のドメイン分布に属し、そのため、クライアントは、検出待ち画像をサーバの訓練済みのクロスドメイン画像検出モデルに入力し、クロスドメイン画像検出モデルにより、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、敵対的学習方法で、該変換効果を本物そっくりようにし、これにより、検証集合の画像スタイルの検出待ち画像を生成し、クロスドメイン画像検出モデルの、検証集合ドメイン画像に対する予測効果を向上させる。

また、クロスドメイン画像検出モデルは、判別器を更に導入する。該判別器は、クロスドメイン画像検出モデルで学習する特徴が検証集合の画像のドメインからのものであるかどうかを判定するために用いられ、更に、敵対的学習により、クロスドメイン画像検出モデルで検出待ち画像から学習して得られた特徴が検証集合の画像の特徴と、判別器が区分できないように十分に類似することを確保し、それによって、検出待ち画像のスタイルが検出時に検証集合の画像のスタイルに十分に変換されたことを更に確保する。

なお、クライアントは、端末機器に配置されてもよく、端末機器は、無人車、ロボット、タブレット、ノートパソコン、パーソナルテジタルアシスタント、音声対話端末及びパーソナルコンピュータ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ：ＰＣ）を含むが、これに限定されない。

ターゲット検出は、各対象（例えば、人間、自転車、オートバイ又は自動車）に、位置決め情報（例えば、境界枠）及びカテゴリ情報（例えば、カテゴリラベル）を割り当てることを目的している。現代の自動運転過程において、他の交通参入者の検出は、極めて重要であるため、ターゲット検出は、現代の自動運転システムにおいて重要な役割を果たしている。その原因は以下の通りである。図３を参照すると、図３は、本願の実施例による自動運転システムに基づくターゲット検出効果を示す概略図である。図面に示すように、端末機器は、図３に対応する画像において自動車の位置決め情報（即ち、境界枠）及びカテゴリ情報（即ち「自動車」）をマークすることができる。図４を参照すると、図４は、本願の実施例による自動運転システムに基づくもう１つのターゲット検出効果を示す概略図である。図面に示すように、端末機器は、図４に対応する画像において、自動車及び歩行者の位置決め情報（即ち、境界枠）及びカテゴリ情報（即ち、「自動車」及び「歩行者」）をマークすることができる。

なお、本願は、無人車への適用以外に、例えば、ロボットが任務を実行するシーンのような他のシーンにも適用可能である。例えば、ロボットが危険任務を実行する場合、危険シーンにおける真実の検証集合の画像を直接取得しにくい可能性があり、従って、危険シーンを擬似した訓練集合の画像により訓練を行う必要がある。本願で提供されるモデル訓練方法によれば、端末機器は、敵対的学習により、訓練集合の画像のスタイルを検証集合の画像のスタイルに変換することができ、クロスドメイン画像検出モデルで特徴を学習する前に、訓練集合の画像と検証集合の画像が可能な限り同一のドメイン分布からものであることを確保することができ、そして、敵対的損失関数による制約で、クロスドメイン画像検出モデルで訓練集合の画像に基づいて学習した特徴は、検証集合の画像の特徴に更に近似する。

上記説明を参照しながら、以下、本願における画像に基づくターゲット検出方法を説明する。図５を参照すると、本願の実施例における画像に基づくターゲット検出方法の一実施例は以下を含む。
１０１において、ターゲット検出装置は、第１検出待ち画像を取得し、第１検出待ち画像は、第１ドメインに属する。

本実施例において、まず、ターゲット検出装置は、第１検出待ち画像を取得する。ターゲット検出装置は、例えば、ロボット又は無人車などの端末機器に配置可能である。第１検出待ち画像は、第１ドメインに属する。ここで、該第１ドメインは、具体的なシーンであってもよく、例えば、室内シーンからのものであり、又は、あるデータ集合からの分布であってもよく、例えば、Ｓｉｍ１０ｋデータ集合からのものである。第１検出待ち画像の取得方式は、リアルタイムな取得であってもよい。例えば、端末機器のカメラによりリアルタイムに撮影を行うことで得られた画像であってもよく、画像データベースから抽出された画像であってもよく、ここで、限定しない。

１０２において、ターゲット検出装置は、第１検出待ち画像に対応する第２検出待ち画像を取得し、第２検出待ち画像は、第２ドメインに属し、第１ドメインは、第２ドメインと異なるドメインである。

本実施例において、ターゲット検出装置は、第１検出待ち画像をクロスドメイン画像検出モデルに入力し、クロスドメイン画像検出モデルにおけるＰＤＡネットワークから、対応する第２検出待ち画像を出力することができる。ここで、第２検出待ち画像は、第２ドメインに属し、第１ドメインは、第２ドメインと異なるドメインである。つまり、第２検出待ち画像と第１検出待ち画像は、２つの異なるスタイルに属する。理解しやすくするために、図６を参照する。図６は、本願の実施例による第１検出待ち画像の一実施例を示す概略図である。図面に示すように、第１検出待ち画像は具体的には、Ｓｉｍ１０ｋデータ集合からサンプリングされた実画像であってもよい。ＰＤＡネットワークにより変換した後、図７に示す通りである。図７を参照すると、図７は、本願の実施例による第２検出待ち画像の一実施例を示す概略図である。第２検出待ち画像のスタイルは、第１検出待ち画像のスタイルと異なる。つまり、２つのドメインに属する。

ここで、訓練待ちクロスドメイン画像検出モデルは、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルという２つの部分を含んでもよい。ターゲット損失関数を用いて該２つの部分を訓練し、第１訓練待ちネットワークモデルに対応する第１ネットワークモデル及び第２訓練待ちネットワークモデルに対応する第２ネットワークモデルをそれぞれ得る。ここで、第１ネットワークモデルは、ＰＤＡネットワークを含んでもよく、第２ネットワークモデルは、ＦＤＡネットワーク及び物体検出ネットワークを含んでもよい。ＰＤＡネットワークは、訓練スタイル（即ち、第１ドメイン）の画像を検証スタイル（即ち、第２ドメイン）の画像に変換するために用いられる。ＦＤＡネットワークは、画像スタイルを制約する（即ち、変換後の第２ドメインの画像スタイルを制約する）ために用いられる。物体検出ネットワークは、検証スタイルの画像に対して対象検出を行うために用いられる。

１０３において、ターゲット検出装置は、クロスドメイン画像検出モデルにより、第２検出待ち画像に対応する検出結果を取得し、検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、ターゲット対象は、第１検出待ち画像における被検対象に属し、クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含んでもよく、第１ネットワークモデルは、画像を第１ドメインから第２ドメインに変換するために用いられ、第２ネットワークモデルは、第２ドメインの画像に対して領域位置決めを行うために用いられる。

本実施例において、ターゲット検出装置は、クロスドメイン画像検出モデルにおけるＰＤＡネットワークにより、第２検出待ち画像を出力し、続いて、クロスドメイン画像検出モデルにおけるＦＤＡネットワークにより、第２検出待ち画像に対して変換を行い、ターゲットの位置決めを行う対象画像を得て、その後、クロスドメイン画像検出モデルにおける物体検出ネットワークにより、該画像に対して検出を行い、検出結果を得ることができる。第１訓練待ち画像をＰＤＡネットワーク及びＦＤＡネットワークにより変換した後、図８に示す画像を得ることができる。図８を参照すると、図８は、本願の実施例によるターゲットの位置決めを行う対象画像の一実施例を示す概略図である。

上記に記載されるターゲット検出方法について、その適用フローは、図９に示す通りである。図９は、本願の実施例によるクロスドメイン画像検出モデルの配置フローを示す概略図である。まず、クロスドメイン画像検出モデルは、訓練集合の画像において、予備訓練を行い、好適なモデル初期化重みを得る。ここで、訓練集合の画像は、ドメイン１に属する。続いて、敵対的学習方法を利用して、アノテーションされた訓練集合の画像及び未知でアノテーションされた検証集合の画像を採用して引き続き訓練を行う。ここで、検証集合の画像は、ドメイン２に属する。ドメイン１に属する訓練集合の画像とドメイン２に属する検証集合の画像との特徴をアライメントした後、同一のドメインの特徴を共有し、クロスドメイン画像検出モデル（ドメイン２のモデル）の予測を遂行することができる。本願で提供されるクロスドメイン画像検出モデルを用いると、ドメイン２の画像に対する認識精度が高い。検証結果によれば、ＶＧＧ１６の畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＣＮＮ）構造を利用して、しかも訓練集合の画像がＳｉｍ１０Ｋデータ集合からのものであり、検証集合の画像がＫｉｔｔｉデータ集合からのものである場合、相関技術案を採用して予測を行う精度は、５２．７％であり、本願を採用して予測を行う精度は、５９．３％に達することができる。精度がより高いクロスドメイン画像検出モデルを得た後、検証集合の画像の予測に直接的に適用可能である。

本願の実施例において、画像に基づくターゲット検出方法を提供する。ターゲット検出装置は、まず、第１検出待ち画像を取得し、第１検出待ち画像は、第１ドメインに属する。続いて、クロスドメイン画像検出モデルにより、第１検出待ち画像に対応する第２検出待ち画像を取得し、第２検出待ち画像は、第２ドメインに属する。最後に、クロスドメイン画像検出モデルにより、第２検出待ち画像に対応する検出結果を取得し、検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、ターゲット対象は、第１検出待ち画像に属する。上記方式によれば、検証集合の画像スタイルと同じの検出待ち画像を意図的に使用してターゲットの位置決めを行う必要がなく、クロスドメイン画像検出モデルを用いて、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、それによって、画像における位置決めの正確性を向上させ、モデル予測効果を向上させる。

上記説明を参照しながら、以下、本願におけるモデル訓練方法を説明する。図１０を参照すると、本願の実施例におけるモデル訓練方法の一実施例は、以下を含む。

２０１において、モデル訓練装置は、訓練待ち画像及び検証待ち画像を取得し、訓練待ち画像は、第１ドメインに属し、検証待ち画像は、第２ドメインに属し、第１ドメインは、第２ドメインと異なるドメインである。

本実施例において、モデル訓練を行う前に、訓練待ち画像及び検証待ち画像を取得する必要がある。ここで、訓練待ち画像と検証待ち画像は、２つの異なるドメインに属する。つまり、訓練待ち画像は、第１ドメインに属し、検証待ち画像は、第２ドメインに属する。理解しやすくするために、図１１を参照する。図１１は、本願の実施例による異なるドメインの画像の比較概略図である。図面に示すように、図面において、４種の異なるドメインの画像を提供する。ここで、図１１における（ａ）図は、Ｃｉｔｙｓｃａｐｅｓデータ集合からの画像を表し、（ｂ）図は、Ｆｏｇｇｙ－Ｃｉｔｙｓｃａｐｅｓデータ集合からの画像を表し、（ｃ）図は、Ｓｉｍ１０ｋデータ集合からの画像を表し、（ｄ）図は、Ｋｉｔｔｉデータ集合からの画像を表す。ここで、Ｆｏｇｇｙ－Ｃｉｔｙｓｃａｐｅｓデータ集合とＳｉｍ１０ｋデータ集合はいずれも、運転シーンを擬似する合成データ集合である。Ｆｏｇｇｙ－Ｃｉｔｙｓｃａｐｅｓデータ集合は、真実のＣｉｔｙｓｃａｐｅｓデータ集合に基づいてレンダリングを行い、ぼやけている天気状況を擬似する。Ｋｉｔｔｉデータ集合は、自動運転における異なるビジョンタスクに対して基準検証を行う。例えば、深度推定、ステレオマッチング、シーン又は光学推定及び物体検出等を行う。

第１ドメインは、Ｓｉｍ１０ｋデータ集合であってもよく、第２ドメインは、Ｋｉｔｔｉデータ集合であってもよいが、これは、本願を限定しているわけではなく、第１ドメインは、Ｆｏｇｇｙ－Ｃｉｔｙｓｃａｐｅｓデータ集合、Ｃｉｔｙｓｃａｐｅｓデータ集合又はＫｉｔｔｉデータ集合であってもよく、第２ドメインは、Ｆｏｇｇｙ－Ｃｉｔｙｓｃａｐｅｓデータ集合、Ｓｉｍ１０ｋデータ集合又はＣｉｔｙｓｃａｐｅｓデータ集合であってもよく、第１ドメインと第２ドメインが異なることを確保すればよい。以下、第１ドメインがＳｉｍ１０ｋデータ集合であり、第２ドメインがＫｉｔｔｉデータ集合であることを例として説明する。図１２を参照すると、図１２は、本願の実施例によるクロスドメイン画像検出モデルの訓練に適用可能である２種類の画像の比較概略図である。図面に示すように、図１２における（ａ）図及び（ｃ）図は、Ｓｉｍ１０ｋデータ集合からの画像を表し、（ｂ）図及び（ｄ）図は、Ｋｉｔｔｉデータ集合からの画像を表す。

２０２において、モデル訓練装置は、第１訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第１訓練待ちネットワークモデルにより、検証待ち画像に対応する訓練スタイル画像を取得し、検証スタイル画像は、第２ドメインに属し、訓練スタイル画像は、第１ドメインに属する。

本実施例において、モデル訓練装置は、訓練待ち画像を第１訓練待ちネットワークモデル（例えば、訓練待ちＰＤＡネットワークであってもよい）に入力し、該第１訓練待ちネットワークモデルにより、検証スタイル画像を出力し、同様に、検証待ち画像を第１訓練待ちネットワークモデルに入力し、該第１訓練待ちネットワークモデルにより、訓練スタイル画像を出力することができる。

可能な実施形態において、説明しやすくするために、図１３を参照する。図１３は、本願の実施例によるクロスドメイン画像検出モデルの構造を示す概略図である。図面に示すように、図１３の左側部分は、ＰＤＡネットワークのモデル構造であり、ＦＤＡネットワークを訓練する前にソースドメインスタイルの画像をターゲットドメインスタイルの画像に変換するために用いられ、ＰＤＡネットワークは、サイクル敵対的生成ネットワーク（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ：ＣｙｃｌｅＧＡＮ）を用いることができる。右側部分は、ＦＤＡネットワークのモデル構造であり、特徴レベルの敵対的訓練に用いられ、物体検出部分において、幾つかのニューラル層が追加されている。訓練待ち画像（ｒｅａｌ＿ｓ）を第１訓練待ちネットワークモデル（訓練待ちＰＤＡネットワーク）により変換した後、検証スタイル画像（ｆａｋｅ＿ｔ）を得て、検証待ち画像（ｒｅａｌ＿ｔ）を第１訓練待ちネットワークモデル（訓練待ちＰＤＡネットワーク）により変換した後、訓練スタイル画像（ｆａｋｅ＿ｓ）を得て、検証スタイル画像（ｆａｋｅ＿ｔ）と検証待ち画像（ｒｅａｌ＿ｔ）は、同一のドメインに属し、訓練スタイル画像（ｆａｋｅ＿ｓ）と訓練待ち画像（ｒｅａｌ＿ｓ）は、同一のドメインに属すると仮定する。

２０３において、モデル訓練装置は、第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得し、候補領域は、検証待ち画像又は検証スタイル画像から抽出された候補枠である。

本実施例において、上記説明によれば、第１訓練待ちネットワークモデル（訓練待ちＰＤＡネットワーク）は、訓練待ち画像（ｒｅａｌ＿ｓ）を検証スタイル画像（ｆａｋｅ＿ｔ）に変換した後、第２訓練待ちネットワークモデルにおけるＦＤＡネットワークに直接的に入力する。モデル訓練装置は、検証スタイル画像（ｆａｋｅ＿ｔ）と検証待ち画像（ｒｅａｌ＿ｔ）をＦＤＡネットワークにおける判別器に入力し、これにより、検証スタイル画像（ｆａｋｅ＿ｔ）及び検証待ち画像（ｒｅａｌ＿ｔ）における全ての位置の特徴に対して判定を行い、即ち、検証待ち画像又は検証スタイル画像からの候補枠（ｂｏｕｎｄｉｎｇｂｏｘ：ｂｂｏｘ）に対して確率値予測を行い、取得した候補領域に対応する予測確率値を得る。

２０４において、モデル訓練装置は、第２訓練待ちネットワークモデルにより、検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得する。

本実施例において、上記説明によれば、モデル訓練装置は、検証スタイル画像（ｆａｋｅ＿ｔ）を第２訓練待ちネットワークモデルに入力し、第２訓練待ちネットワークモデルにより、第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を出力することができる。ここで、クロスドメイン画像検出モデルにおける物体検出ネットワークは、領域生成ネットワーク（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ：ＲＰＮ）及びターゲット検出ネットワークという２つの部分を含んでもよく、第１予測カテゴリ確率値及び第１予測位置決め値は、ＲＰＮから出力される予測値に属し、第２予測カテゴリ確率値及び第２予測位置決め値は、ターゲット検出ネットワークから出力された予測値に属する。

物体検出ネットワークは、特徴学習及びターゲット検出に用いられる。ここで、物体検出ネットワークは、より速い領域に基づく畳み込みニューラルネットワーク（ＲｅｇｉｏｎｓｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＲＣＮＮ）又は領域に基づく完全畳み込みネットワーク（Ｒｅｇｉｏｎ－ｂａｓｅｄＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ：ＲＦＣＮ）等であってもよい。

２０５において、モデル訓練装置は、予測確率値、検証スタイル画像、訓練スタイル画像、第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得る。

本実施例において、モデル訓練装置は、予測確率値、検証スタイル画像、訓練スタイル画像、第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得ることができる。該クロスドメイン画像検出モデルは、第１ドメインの画像を第２ドメインの画像に変換した後に訓練を行うことができ、第１ドメインの画像に対して位置決め情報及びカテゴリ情報の検出を行うこともできる。具体的には、第１訓練待ちネットワークモデルは、訓練待ちＰＤＡネットワークを含んでもよく、第２訓練待ちネットワークモデルは、ＦＤＡネットワーク及び物体検出ネットワークを含んでもよく、物体検出ネットワークは、ＲＰＮ及びターゲット検出ネットワークを含んでもよい。

説明しやすくするために、図１４を参照する。図１４は、本願の検証結果として検出された画像の比較概略図である。図面に示すように、図１４における（ａ）図は、ＰＤＡネットワークにより変換を行うことで得られた車両であり、（ｂ）図は、ＰＤＡネットワーク及びＦＤＡネットワークにより変換を行うことで得られた車両であり、（ｂ）図の車両の復元度及び鮮明度は、（ａ）図の車両の復元度及び鮮明度より高いことが明らかである。図１５を参照すると、図１５は、本願の検証結果として検出されたもう１つの画像の比較概略図である。図面に示すように、図１５における（ａ）図は、ＰＤＡネットワークにより変換を行うことで得られた車両であり、（ｂ）図は、ＰＤＡネットワーク及びＦＤＡネットワークにより変換を行うことで得られた車両である。（ｂ）図の車両の復元度及び鮮明度は、同様に（ａ）図の車両の復元度及び鮮明度より高いことが明らかである。

本願の実施例において、モデル訓練方法を提供する。まず、モデル訓練装置は、訓練待ち画像及び検証待ち画像を取得し、続いて、第１訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第１訓練待ちネットワークモデルにより、検証待ち画像に対応する訓練スタイル画像を取得し、第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得し、第２訓練待ちネットワークモデルにより、検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得し、最後に、ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得る。上記方式によれば、訓練により得られたクロスドメイン画像検出モデルは、クロスドメイン画像の変換を実現させることができる。クロスドメイン画像検出モデルを用いることで、訓練集合の画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、画像における位置決めの正確性を向上させ、モデル予測効果を向上させることができる。

選択的に、上記図１０に対応する実施例を基に、本願の実施例で提供されるモデル訓練方法の第１選択可能な実施例において、モデル訓練装置が予測確率値、検証スタイル画像、訓練スタイル画像、第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行うステップは、
検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定するステップと、
予測確率値に基づいて、第２損失関数を決定するステップと、
第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、第３損失関数を決定するステップと、
第１損失関数、第２損失関数及び第３損失関数に基づいて、ターゲット損失関数を生成するステップと、
ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行うステップと、を含むことができる。

本実施例において、ターゲット損失関数の構成を説明する。まず、モデル訓練装置は、検証スタイル画像及び訓練スタイル画像を取得した後、訓練待ち画像、検証待ち画像、検証スタイル画像及び訓練スタイル画像に基づいて第１損失関数を決定することができる。続いて、モデル訓練装置は、検証待ち画像又は検証スタイル画像に対応する予測確率値に基づいて、第２損失関数を決定することができる。最後に、モデル訓練装置は、ＲＰＮで生成された第１予測カテゴリ確率値、第１真実カテゴリ確率値、第１予測位置決め値及び第１真実位置決め値に基づいて、ＲＰＮに対して訓練を行い、同時に、ターゲット検出ネットワークで生成された第２予測カテゴリ確率値、第２真実カテゴリ確率値、第２予測位置決め値及び第２真実位置決め値に基づいて、ターゲット検出ネットワークに対して訓練を行うことができ、即ち、モデル訓練装置は、第１予測カテゴリ確率値、第１真実カテゴリ確率値、第１予測位置決め値、第１真実位置決め値、第２予測カテゴリ確率値、第２真実カテゴリ確率値、第２予測位置決め値及び第２真実位置決め値に基づいて第３損失関数を生成することができる。

モデル訓練装置は、第１損失関数、第２損失関数及び第３損失関数に基づいて、ターゲット損失関数を得て、ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行うことができる。

次に、本願の実施例において、ターゲット損失関数を得る方法を提供し、即ち、検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定し、続いて、予測確率値に基づいて、第２損失関数を決定し、更に、第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、第３損失関数を決定し、最後にターゲット損失関数を生成し、ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行う。上記方式で、モデル訓練過程を３つの部分に分け、それぞれ３つの損失関数を用いて、対応する訓練を行い、訓練の柔軟性及び操作可能性を向上させることができる。

選択的に、上記図１０に対応する第１実施例を基に、本願の実施例で提供されるモデル訓練方法の第２選択可能な実施例において、モデル訓練装置が検証スタイル画像及び訓練スタイル画像に基づいて第１損失関数を決定するステップは、

式Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［||Ｇ_ｓ－ｔ（Ｇ_ｔ－ｓ（ｘ_ｔ））－ｘ_ｔ||］＋Ｅ_{ｓ～Ｘ（ｓ）}［||Ｇ_ｔ－ｓ（Ｇ_ｓ－ｔ（ｘ_ｓ））－ｘ_ｓ||］Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［||Ｇ_ｓ－ｔ（Ｇ_ｔ－ｓ（ｘ_ｔ））－ｘ_ｔ||］＋Ｅ_{ｓ～Ｘ（ｓ）}［||Ｇ_ｔ－ｓ（Ｇ_ｓ－ｔ（ｘ_ｓ））－ｘ_ｓ||］を用いて第１損失関数を決定するステップを含んでもよく、

ここで、Ｌ_ｃｙｓ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）は、第１損失関数を表し、ｘ_ｔは、検証待ち画像を表し、ｘ_ｓは、訓練待ち画像を表し、Ｇ_ｓ－ｔは、訓練待ち画像を検証スタイル画像に変換するジェネレータを表し、Ｇ_ｔ－ｓは、検証待ち画像を訓練スタイル画像に変換するジェネレータを表し、Ｇ_ｔ－ｓ（ｘ_ｔ）は、訓練スタイル画像を表し、Ｇ_ｓ－ｔ（ｘ_ｓ）は、検証スタイル画像を表し、Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表す。

本実施例において、第１訓練待ちネットワークモデルの訓練は、ＣｙｃｌｅＧＡＮに対する学習に基づいて行われてもよい。従来のＧＡＮは、単一方向で生成を行うものであり、ＣｙｃｌｅＧＡＮは、互いに生成するものであり、ネットワークは、リング状であり、ＣｙｃｌｅＧＡＮは、ＡからＢへの単一方向のＧＡＮに、ＢからＡへの単一方向のＧＡＮを追加することで得られたものでる。２つのＧＡＮは、２つのジェネレータを共有し、各々、１つの判別器を有するため、合計２つの判別器及び２つのジェネレータが存在する。１つの単一方向ＧＡＮは、２つの損失を有し、ＣｙｃｌｅＧＡＮは、合計４つの損失を有する。ここで、本願において、判別器の損失をそれぞれ算出することができ、ジェネレータの損失は合わせて計算されてもよく、これにより、下記第１損失関数を得る。

Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［||Ｇ_ｓ－ｔ（Ｇ_ｔ－ｓ（ｘ_ｔ））－ｘ_ｔ||］＋Ｅ_{ｓ～Ｘ（ｓ）}［||Ｇ_ｔ－ｓ（Ｇ_ｓ－ｔ（ｘ_ｓ））－ｘ_ｓ||］

Ｇ_ｔ－ｓ及びＧ_ｓ－ｔは、具体的に使用している変換ネットワークであり、任意の深さの畳み込みニューラルネットワークモデルであってもよく、例えば、ＶＧＧネットワーク又は残差ニューラルネットワーク（ＲｅｓｉｄｕａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＲｅｓＮｅｔ）等である。本願において、ジェネレータは、例えば、図１３に示すＧ_ｓ－ｔ及びＧ_ｔ－ｓという２つの部分に分けることができ、ここで、第１ジェネレータＧ_ｓ－ｔは、オリジナルの訓練待ち画像を検証スタイル画像に変換するために用いられ、第２ジェネレータＧ_ｔ－ｓは、検証待ち画像を訓練スタイル画像に変換するために用いられる。

実際の適用において、ＧＡＮは、マッピング関数Ｇ_ｔ－ｓ及びＧ_ｓ－ｔを学習し、検証待ち画像のデータ分布及び訓練待ち画像のデータ分布からサンプリングされる画像を生成することもできる。しかしながら、ＧＡＮを用いると、ソース画像の構造情報を失う可能性がある。上記課題を解決するために、サイクル一貫性を有する第１損失関数を用いて、Ｇ_ｓ－ｔで生成される画像を、Ｇ_ｔ－ｓで生成される画像と同様な画像効果を有するようにさせることができ、その逆でも同じである。

また、本願の実施例において、検証スタイル画像及び訓練スタイル画像に基づいて第１損失関数を決定する具体的な方式を提供する。上記方式によれば、ペアである訓練データが存在しない場合、画像スタイルをソースドメインからターゲットドメインに変換することができる。第１訓練待ちネットワークモデルは、訓練を行う場合、ソースドメインの画像及びターゲットドメインの画像を入力とすればよい。ソースドメインとターゲットドメインの画像内容がマッピングしていることは求められていないため、柔軟性を有する。また、第１損失関数を使って、訓練集合の画像が２回変換されても、初期訓練集合の画像と可能な限り同じく、検証集合の画像も２回変換を経由しても初期検証集合の画像と可能な限り同じくすることを確保することができる。

選択的に、上記図１０、図１０に対応する第１又は第２実施例を基に、本願の実施例で提供されるモデル訓練方法の第３選択可能な実施例において、モデル訓練装置が第１訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第１訓練待ちネットワークモデルにより、検証待ち画像に対応する訓練スタイル画像を得た後、
第１判別器により、検証スタイル画像に対して真実性検出を行うステップであって、第１判別器は、第１敵対的損失関数を用いて訓練して得られた判別器である、ステップと、
第２判別器により、訓練スタイル画像に対して真実性検出を行うステップであって、第２判別器は、第２敵対的損失関数を用いて訓練して得られた判別器である、ステップと、を含んでもよい。

本実施例において、判別器を用いて第１訓練待ちネットワークを如何に訓練するかを説明する。判別器は、ジェネレータで生成された結果及び真実結果に対して判定を行うために用いられる。その目的は、生成された結果を更に真実結果に近づけさせて、「ごまかす」目的を達成することである。例えば、検証待ち画像に対して、第１判別器は、そのラベルが１であると判定し、検証スタイル画像に対して、第１判別器は、そのラベルが０であると判定する。ここで、１は、第１判別器が、画像が真実検証集合における画像であると判定したことを表し、０は、第１判別器が、画像が訓練集合の画像から変換された画像であると判定したことを表す。また例えば、訓練待ち画像に対して、第２判別器は、そのラベルが１であると判定し、訓練スタイル画像に対して、第２判別器は、そのラベルが０であると判定する。ここで、１は、第２判別器が、画像をオリジナルの訓練集合における画像であると判定したことを表し、０は、第１判別器が、画像が検証集合の画像から変換された画像であると判定したことを表す。

つまり、第１判別器は、変換後の画像が真実の検証集合の画像であるか、それとも訓練待ち画像から変換して得られた検証スタイル画像であるかを区分するために用いられる。第２判別器は、画像がオリジナルの訓練集合の画像であるか、それとも変換して得られた訓練スタイル画像であるかを区分するために用いられる。

更に、本願の実施例において、第１訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第１訓練待ちネットワークにより、検証待ち画像に対応する訓練スタイル画像を取得した後、更に、第１判別器により、検証スタイル画像に対して真実性検出を行い、第２判別器により、訓練スタイル画像に対して真実性検出を行うことができる。上記方式によれば、モデル訓練装置は、判別器を用いて、ジェネレータで生成された画像に対して真偽認識を行うことができ、モデル訓練効果の向上に寄与する。

選択的に、上記図１０に対応する第３実施例を基に、本願の実施例で提供されるモデル訓練方法の第４選択可能な実施例において、モデル訓練装置が第１判別器により検証スタイル画像に対して真実性検証を行う前に、
式Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇＤ_ｔ（ｘ）］＋Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇ（１－Ｄ_ｔ（Ｇ_ｓ－ｔ（ｓ）））］を用いて第１敵対的損失関数を取得するステップを更に含んでもよく、
ここで、Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）は、第１敵対的損失関数を表し、Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、Ｄ_ｔ（）は、第１判別器を表し、ｓは、第１ドメインの画像を表し、Ｇ_ｓ－ｔ（）は、第１ドメインの画像を第２ドメインの画像に変換するネットワークを表し、ｘは、入力された画像を表す。

本実施例において、説明しやすくするために、引き続き、図１３を参照して、Ｇ_ｓ－ｔ及びＧ_ｔ－ｓを用いて、２つのドメインにおいて、偽造の画像を生成した後、第１判別器Ｄ_ｔ及び第２判別器Ｄ_ｓという２つの判別器を訓練して、真実画像と偽造画像を区分する必要がある。ジェネレータは、常に、判別器で真実画像と区分できない画像を生成しようとすると同時に、真実画像と偽造画像を分類できるように判別器を訓練する。

従って、下記第１判別器の第１敵対的損失関数を用いて訓練を行う。

Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇＤ_ｔ（ｘ）］＋Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇ（１－Ｄ_ｔ（Ｇ_ｓ－ｔ（ｓ）））］

ここで、Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）は、第１敵対的損失関数を表し、Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、Ｄ_ｔ（）は、第１判別器を表し、ｓは、第１ドメインの画像を表し、Ｇ_ｓ－ｔ（）は、第１ドメインの画像を第２ドメインの画像に変換するネットワークを表し、ｘは、入力された画像を表す。

更に、本願の実施例において、第１判別器により、検証スタイル画像に対して真実性検出を行う前に、更に、第１敵対的損失関数を取得し、第１敵対的損失関数により、モデル効果の判別を行うことができる。上記方式によれば、第１ドメインから第２ドメインに変換された画像を更に第２ドメインの画像に近づけさせ、解決手段の実行可能性を向上させることができる。

選択的に、上記図１０に対応する第３実施例を基に、本願の実施例で提供されるモデル訓練方法の第５選択可能な実施例において、モデル訓練装置は、第２判別器により、訓練スタイル画像に対して真実性検出を行う前に、
式Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）＝Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇＤ_ｓ（ｘ）］＋Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇ（１－Ｄ_ｓ（Ｇ_ｔ－ｓ（ｔ）））］を用いて第２敵対的損失関数を取得するステップを更に含んでもよく、
ここで、Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）は、第２敵対的損失関数を表し、Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、Ｄ_ｓ（）は、第２判別器を表し、ｔは、第２ドメインの画像を表し、Ｇ_ｔ－ｓ（）は、第２ドメインの画像を第１ドメインの画像に変換するネットワークを表し、ｘは、入力された画像を表す。

本実施例において、説明しやすくするために、引き続き図１３を参照して、Ｇ_ｓ－ｔ及びＧ_ｔ－ｓを用いて、２つのドメインにおいて、偽造の画像を生成した後、第１判別器Ｄ_ｔ及び第２判別器Ｄ_ｓという２つの判別器を訓練して、真実画像と偽造画像を区分する必要がある。ジェネレータは、常に、判別器で真実画像と区分できない画像を生成しようとすると同時に、真実画像と偽造画像を分類できるように判別器を訓練する。

従って、下記の第１判別器の第２敵対的損失関数を用いて訓練を行う。

Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）＝Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇＤ_ｓ（ｘ）］＋Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇ（１－Ｄ_ｓ（Ｇ_ｔ－ｓ（ｔ）））］

ここで、Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）は、第２敵対的損失関数を表し、Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、Ｄ_ｓ（）は、第２判別器を表し、ｔは、第２ドメインの画像を表し、Ｇ_ｔ－ｓ（）は、第２ドメインの画像を第１ドメインの画像に変換するネットワークを表し、ｘは、入力された画像を表す。

更に、本願の実施例において、第２判別器により、訓練スタイル画像に対して真実性検出を行う前に、更に、第２敵対的損失関数を取得し、第２敵対的損失関数により、モデル効果の判別を行うことができる。上記方式によれば、第２ドメインから第１ドメインに戻った画像を更に第１ドメインの画像に近づけさせ、解決手段の実行可能性を向上させることができる。

選択的に、上記図１０に対応する第１実施例を基に、本願の実施例で提供されるモデル訓練方法の第６選択可能な実施例において、モデル訓練装置が予測確率値に基づいて第２損失関数を決定するステップは、
式Ｌ_{ｄｏｍａｉｎ}＝－Σ_ｉ，ｊ［ｄｌｏｇｐ_ｉ，ｊ＋（１－ｄ）ｌｏｇ（１－ｐ_ｉ，ｊ）］を用いて第２損失関数を決定するステップを含んでもよく、
ここで、Ｌ_{ｄｏｍａｉｎ}は、第２損失関数を表し、ｐ_ｉ，ｊは、ｉ番目の候補領域の第ｊカテゴリにおける予測確率値を表し、ｄは、画像出所値を表す。

本実施例において、訓練待ち画像を検証スタイル画像に変換した後、物体検出ネットワークに入力して特徴学習及びターゲット検出を行う。ここで、物体検出ネットワークの中間層で学習する特徴は、ＦＤＡネットワークに対応する判別器に入力される。該判別器は、特徴が真実の検証待ち画像からのものであるか、それとも訓練待ち画像を変換して得られた検証スタイル画像からのものであるかを判別するために用いられる。訓練時に用いられる第２損失関数は、以下の通りである。

Ｌ_{ｄｏｍａｉｎ}＝－Σ_ｉ，ｊ［ｄｌｏｇｐ_ｉ，ｊ＋（１－ｄ）ｌｏｇ（１－ｐ_ｉ，ｊ）］

ここで、Ｌ_{ｄｏｍａｉｎ}は、第２損失関数を表し、ｐ_ｉ，ｊは、ｉ番目の候補領域の第ｊカテゴリにおける予測確率値を表し、ｄは、画像出所値を表す。該第２損失関数は、全ての位置の特徴に対して判定を行う。該特徴は、真実の検証待ち画像からのものである場合、ｄ＝１であり、該特徴は、変換により得られる検証スタイル画像からのものである場合、ｄ＝０である。ｐ_ｉ，ｊは、ｉ番目の候補領域の第ｊカテゴリにおける予測確率値を表す。つまり、真実の検証待ち画像からのものである場合、ｊ＝０であり、変換により得られる検証スタイル画像からのものである場合、ｊ＝１である。

更に、本願の実施例において、予測確率値に基づいて第２損失関数を決定する具体的な方式を提供する。上記方式によれば、画像の特徴が真実の検証集合の画像からのものであるか、それとも訓練集合の画像を変換して得られた検証スタイル画像であるかを判定し、モデルから出力される画像を更に実際の画像に近づけさせることができる。

選択的に、上記図１０に対応する第１実施例を基に、本願の実施例で提供されるモデル訓練方法の第７選択可能な実施例において、第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、第３損失関数を決定するステップは、
式Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）＝Ｌ_{ｒｐｎ－ｃｌｓ}（ｐ_ｒｐｎ，ｕ_ｒｐｎ）＋Ｌ_{ｒｐｎ－ｌｏｃ}（ｔ^ｍ _ｒｐｎ，ｖ_ｒｐｎ）＋Ｌ_{ｏｂｊ－ｃｌｓ}（ｐ_ｏｂｊ，ｕ_ｏｂｊ）＋Ｌ_{ｏｂｊ－ｌｏｃ}（ｔ^ｍ _ｏｂｊ，ｖ_ｏｂｊ）を用いて第３損失関数を決定するステップを含んでもよく、
ここで、Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）は、第３損失関数を表し、Ｌ_{ｒｐｎ－ｃｌｓ}は、第２訓練待ちネットワークモデルにおける領域生成ネットワークＲＰＮの分類損失関数を表し、ｐ_ｒｐｎは、ＲＰＮの第１予測カテゴリ確率値を表し、ｕ_ｒｐｎは、ＲＰＮの第１真実カテゴリ確率値を表し、Ｌ_{ｒｐｎ－ｌｏｃ}は、第２訓練待ちネットワークモデルにおけるＲＰＮの位置決め損失関数を表し、ｔ^ｍ _ｒｐｎは、ＲＰＮの第１予測位置決め値を表し、ｖ_ｒｐｎは、ＲＰＮの第１真実位置決め値を表し、Ｌ_{ｏｂｊ－ｃｌｓ}は、第２訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、ｐ_ｏｂｊは、ターゲット検出ネットワークの第２予測カテゴリ確率値を表し、ｕ_ｏｂｊは、ターゲット検出ネットワークの第２真実カテゴリ確率値を表し、Ｌ_{ｏｂｊ－ｌｏｃ}は、第２訓練待ちネットワークモデルにおけるターゲット検出ネットワークの位置決め損失関数を表し、ｔ^ｍ _ｏｂｊは、ターゲット検出ネットワークの第２予測位置決め値を表し、ｖ_ｏｂｊは、ターゲット検出ネットワークの第２真実位置決め値を表す。

本実施例において、物体検出ネットワークの訓練方式を説明した。ＦａｓｔｅｒＲＣＮＮの物体検出ネットワークを例として説明し、ＦａｓｔｅｒＲＣＮＮ検出損失関数は以下の通りである。
Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）＝Ｌ_{ｒｐｎ－ｃｌｓ}（ｐ_ｒｐｎ，ｕ_ｒｐｎ）＋Ｌ_{ｒｐｎ－ｌｏｃ}（ｔ^ｍ _ｒｐｎ，ｖ_ｒｐｎ）＋Ｌ_{ｏｂｊ－ｃｌｓ}（ｐ_ｏｂｊ，ｕ_ｏｂｊ）＋Ｌ_{ｏｂｊ－ｌｏｃ}（ｔ^ｍ _ｏｂｊ，ｖ_ｏｂｊ）
ここで、Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）は、第３損失関数を表し、Ｌ_{ｒｐｎ－ｃｌｓ}は、第２訓練待ちネットワークモデルにおける領域生成ネットワークＲＰＮの分類損失関数を表し、ｐ_ｒｐｎは、ＲＰＮの第１予測カテゴリ確率値を表し、ｕ_ｒｐｎは、ＲＰＮの第１真実カテゴリ確率値を表し、Ｌ_{ｒｐｎ－ｌｏｃ}は、第２訓練待ちネットワークモデルにおけるＲＰＮの位置決め損失関数を表し、ｔ^ｍ _ｒｐｎは、ＲＰＮの第１予測位置決め値を表し、ｖ_ｒｐｎは、ＲＰＮの第１真実位置決め値を表し、Ｌ_{ｏｂｊ－ｃｌｓ}は、第２訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、ｐ_ｏｂｊは、ターゲット検出ネットワークの第２予測カテゴリ確率値を表し、ｕ_ｏｂｊは、ターゲット検出ネットワークの第２真実カテゴリ確率値を表し、Ｌ_{ｏｂｊ－ｌｏｃ}は、第２訓練待ちネットワークモデルにおけるターゲット検出ネットワークの位置決め損失関数を表し、ｔ^ｍ _ｏｂｊは、ターゲット検出ネットワークの第２予測位置決め値を表し、ｖ_ｏｂｊは、ターゲット検出ネットワークの第２真実位置決め値を表す。

可能な実現形態において、ターゲット検出にｍ個のカテゴリがあり、領域分類層は、ｍ＋１次元確率分布ｐ＝（ｐ０，ｐ１，…ｐｍ）を出力し、背景のための１つのカテゴリが含まれると仮定する。境界枠回帰層により、各可能なカテゴリに対して実数値ｔ^ｍを予測する。ここで、クロスエントロピーを用いて分類損失及び平滑化Ｌ１損失を算出し、ドメインカテゴリ学習において、検証スタイル画像（ｆａｋｅ＿ｔ）のラベルをｄ＝０とし、検証待ち画像（ｒｅａｌ＿ｔ）のラベルをｄ＝１とする。

更に、本願の実施例において、第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、第３損失関数を決定する方法を提供する。上記方式によれば、モデル訓練のために、実現形態を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。

選択的に、上記図１０に対応する第１実施例を基に、本願の実施例で提供されるモデル訓練方法の第８選択可能な実施例において、モデル訓練装置が第１損失関数、第２損失関数及び第３損失関数に基づいて、ターゲット損失関数を生成するステップは、
式Ｌ＝Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＋Ｌ_{ｄｏｍａｉｎ}＋Ｌ_ｄｅｔを用いてターゲット損失関数を決定するステップを含んでもよく、
ここで、Ｌは、ターゲット損失関数を表し、Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）は、第１損失関数を表し、Ｌ_{ｄｏｍａｉｎ}は、第２損失関数を表し、Ｌ_ｄｅｔは、前記第３損失関数を表す。

本実施例において、上記第１損失関数、第２損失関数及び第３損失関数に関する説明に基づいて、ターゲット損失関数を得ることができる。

Ｌ＝Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＋Ｌ_{ｄｏｍａｉｎ}＋Ｌ_ｄｅｔ

理解しやすくするように、各損失関数の間の重要度をより好適に制御するために、下記のような完全な訓練におけるターゲット損失関数を得ることができる。

Ｌ_full＝λ_１Ｌ２_{ｄｏｍａｉｎ３}（Ｌ_ｃｙｃ＋Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）＋Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ））_ｄｅｔ

上記式によれば、Ｌ_fullは、完全な訓練におけるターゲット損失関数を表し、λ_１、λ_２及びλ_３はそれぞれ３つの重み係数を表し、異なる損失のバランスを取るために用いられる。

グラフィックスプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＧＰＵ）のメモリに制限されて、訓練段階において、モデル訓練装置は、画像の高さを５１２個の画素にスケーリングし、続いて、スケーリングされた画像を５１２×５１２の画像ブロックにトリミングし、画素レベルの適応性を実現させることができる。訓練過程の安定性及び画像の品質を考慮して、モデル訓練装置は、最小二乗ＧＡＮターゲットで、敵対的損失の対数尤度ターゲットを置き換えることができる。可能な実現形態において、モデル訓練装置は、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに基づいて、エンドツーエンド訓練を行うことができる。第１訓練待ちネットワークモデル（訓練待ちＰＤＡネットワーク）の開始訓練段階において、生成された画像は殆ど大きな騒音を有することを考慮して、Ａｄａｍオプティマイザを用いて第１訓練待ちネットワークモデル（訓練待ちＰＤＡネットワーク）を訓練することができる。その初期学習率は、０．０００２とされてもよい。３０回の反復訓練を行った後、学習率は、３０回の反復訓練において０までに減衰した。モデル訓練装置は、標準的な確率的勾配降下（Ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ：ＳＧＤ）アルゴリズムを用いて、第２訓練待ちネットワークモデル（訓練待ちＦＤＡネットワーク）に対して訓練することができる。その初期学習率は、０．００１とされてもよい。６回の反復訓練を行った後、学習率は、０．０００１に低下し、また、３回の反復訓練を引き続き行う。

エンドツーエンド訓練に対して、上述した学習率をいずれも１０倍縮小し、続いて、ＰＤＡネットワーク及びＦＤＡネットワークの反復回数を微調整し、λ_１＝１３０、λ_２＝０．５、λ_３＝０．５とする。２４ギガバイト（Ｇｉｇａｂｙｔｅ：ＧＢ）のメモリのＴｅｓｌａＭ４０のＧＰＵを本願のネットワーク訓練に用いると、下記結果を得ることができる。表１を参照すると、表１は、Ｓｉｍ１０ｋを訓練データ集合として、Ｃｉｔｙｓｃａｐｅｓを検証データ集合として用いる場合の分析検出結果を示す。

上記から分かるように、ｏｒａｃｌｅは、検証集合に対応するドメイン２で直接訓練を行って得られたモデルであるため、モデル性能指標は最も高い。次に、本願で提供されるＰＤＡネットワーク＋ＦＤＡネットワークを用いたモデル性能は最も高い。

さらに、本願の実施例において、ターゲット損失関数を決定する具体的な方式を提供する。上記方式によれば、３つの損失関数に基づいて生成されるターゲット損失関数を用いる場合、クロスドメイン画像検出モデルの訓練をより好適に制御し、訓練の信頼性及び操作可能性を向上させることができる。

説明しやすくするために、以下、自動運転環境における検証結果を参照しながら、本願で提供されるモデルを説明する。図１６を参照すると、図１６は、本願の検証結果におけるＳｉｍ１０ｋデータ集合からＫｉｔｔｉデータ集合への変換効果を示す概略図である。図面に示すように、図１６における（ａ）図及び（ｃ）図は、Ｓｉｍ１０ｋデータ集合からのものであり、図１６における（ｂ）図及び（ｄ）図は、Ｋｉｔｔｉデータ集合からのものである。表２を参照して、表２は、Ｓｉｍ１０ｋデータ集合をソースデータ集合として利用して、Ｋｉｔｔｉデータ集合で検出結果を評価することを示す。

上記から分かるように、ＦａｓｔｅｒＲ－ＣＮＮのモデル性能指標は、５２．６７％に達することができるが、独立のＰＤＡネットワークにより、モデル性能指標を５８．４％に高めることができ、独立のＦＤＡネットワークにより、モデル性能指標を５５．３％に高めることができる。エンドツーエンド訓練により、５９．３％であるモデル性能指標を得ることができる。ＰＤＡネットワーク及びＦＤＡネットワークを用いてモデルの正確度を向上させることができることは明らかである。

図１７を参照すると、図１７は、本願の検証結果におけるＣｉｔｙｓｃａｐｅｓデータ集合からＦｏｇｇｙ－Ｃｉｔｙｓｃａｐｅｓデータ集合への変換効果を示す概略図である。図面に示すように、図１７における（ａ）図及び（ｃ）図は、Ｃｉｔｙｓｃａｐｅｓデータ集合からのものであり、図１６における（ｂ）図及び（ｄ）図は、Ｆｏｇｇｙ－Ｃｉｔｙｓｃａｐｅｓデータ集合からのものである。表３を参照すると、表３は、Ｃｉｔｙｓｃａｐｅｓデータ集合をソースデータ集合として利用して、Ｆｏｇｇｙ－Ｃｉｔｙｓｃａｐｅｓデータ集合で検出結果を評価することを示す。

上記から分かるように、本願で提供されるモデルを用いる場合、ｏｒａｃｌｅ大ネットワークによる結果に比べて、１０．１％以上の性能向上を実現させ、従来の最も高い（ＳｔａｔｅＯｆＴｈｅＡｒｔ：ＳＯＴＡ）による結果に比べて、１．８％以上の性能向上を実現させることができる。つまり、ＰＤＡネットワーク及びＦＤＡネットワークはいずれも、検出性能を大幅に向上させることができる。複数の異なるデータ集合に基づいて広範な検証を行った結果、本願で提供されるモデルが優れた安定性及び優位性を有することを証明した。

以下、本願におけるターゲット検出装置を詳しく説明する。図１８を参照すると、図１８は、本願の実施例によるターゲット検出装置の一実施例を示す概略図である。ターゲット検出装置３０は、取得モジュール３０１と、検出モジュール３０２と、を備え、
取得モジュール３０１は、第１検出待ち画像を取得するように構成され、前記第１検出待ち画像は、第１ドメインに属し、
前記取得モジュール３０１は更に、第１検出待ち画像に対応する第２検出待ち画像を取得するように構成され、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインであり、
検出モジュール３０２は、クロスドメイン画像検出モデルにより、前記取得モジュールが取得した前記第２検出待ち画像に対応する検出結果を取得するように構成され、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられる。

本実施例において、取得モジュール３０１は、第１検出待ち画像を取得し、前記第１検出待ち画像は、第１ドメインに属する。前記取得モジュール３０１は、第１検出待ち画像に対応する第２検出待ち画像を取得し、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである。検出モジュール３０２は、クロスドメイン画像検出モデルにより、前記取得モジュール３０１が取得した前記第２検出待ち画像に対応する検出結果を取得し、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられる。

本実施例において、画像に基づくターゲット検出装置を提供する。まず、該装置は、第１検出待ち画像を取得し、第１検出待ち画像は、第１ドメインに属する。続いて、クロスドメイン画像検出モデルにより、第１検出待ち画像に対応する第２検出待ち画像を取得し、第２検出待ち画像は、第２ドメインに属する。最後に、クロスドメイン画像検出モデルにより、第２検出待ち画像に対応する検出結果を取得し、検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、ターゲット対象は、第１検出待ち画像における被検対象に属する。上記方式によれば、検証集合の画像スタイルと同じの検出待ち画像を意図的に使用してターゲットの位置決めを行う必要がなく、クロスドメイン画像検出モデルを用いて、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、それによって、画像における位置決めの正確性を向上させ、モデル予測効果を向上させる。

以下、本願におけるモデル訓練装置を詳しく説明する。図１９を参照すると、図１９は、本願の実施例によるモデル訓練装置の一実施例を示す概略図である。モデル訓練装置４０は、取得モジュール４０１と、訓練モジュール４０２と、を備え、
取得モジュール４０１は、訓練待ち画像及び検証待ち画像を取得するように構成され、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインであり、
前記取得モジュール４０１は更に、第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するように構成され、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属し、
前記取得モジュール４０１は更に、第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するように構成され、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠であり、
前記取得モジュール４０１は更に、前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するように構成され、
訓練モジュール４０２は、前記取得モジュール４０１が取得した前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るように構成される。

本実施例において、取得モジュール４０１は、訓練待ち画像及び検証待ち画像を取得し、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインであり、前記取得モジュール４０１は、第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得し、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属し、前記取得モジュール４０１は、第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得し、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠であり、前記取得モジュールは、前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するように構成され、訓練モジュール４０２は、前記取得モジュール４０１が取得した前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得る。

本願の実施例において、モデル訓練装置を提供する。まず、訓練待ち画像及び検証待ち画像を取得し、続いて、第１訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第１訓練待ちネットワークモデルにより、検証待ち画像に対応する訓練スタイル画像を取得し、第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得し、第２訓練待ちネットワークモデルにより、検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得し、最後に、ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得る。上記方式によれば、訓練により得られたクロスドメイン画像検出モデルは、クロスドメイン画像の変換を実現させることができる。クロスドメイン画像検出モデルを用いることで、訓練集合の画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、画像における位置決めの正確性を向上させ、モデル予測効果を向上させることができる。

選択的に、上記図１９に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置４０のもう１つの実施例において、
前記訓練モジュール４０２は具体的には、前記検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定し、
前記予測確率値に基づいて、第２損失関数を決定し、
前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、第３損失関数を決定し、
前記第１損失関数、前記第２損失関数及び前記第３損失関数に基づいて、前記ターゲット損失関数を生成し、
前記ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行うように構成される。

次に、本願の実施例において、ターゲット損失関数を得る方法を提供する。つまり、検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定し、続いて、予測確率値に基づいて、第２損失関数を決定し、更に、第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、第３損失関数を決定し、最後にターゲット損失関数を生成し、ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行う。上記方式で、モデル訓練過程を３つの部分に分け、それぞれ３つの損失関数を用いて、対応する訓練を行い、訓練の柔軟性及び操作可能性を向上させることができる。

選択的に、上記図１９に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置４０のもう１つの実施例において、
前記訓練モジュール４０２は具体的には、
式Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［||Ｇ_ｓ－ｔ（Ｇ_ｔ－ｓ（ｘ_ｔ））－ｘ_ｔ||］＋Ｅ_{ｓ～Ｘ（ｓ）}［||Ｇ_ｔ－ｓ（Ｇ_ｓ－ｔ（ｘ_ｓ））－ｘ_ｓ||］を用いて前記第１損失関数を決定するように構成され、
ここで、前記Ｌ_ｃｙｓ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）は、前記第１損失関数を表し、前記ｘ_ｔは、前記検証待ち画像を表し、前記ｘ_ｓは、前記訓練待ち画像を表し、前記Ｇ_ｓ－ｔは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Ｇ_ｔ－ｓは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Ｇ_ｔ－ｓ（ｘ_ｔ）は、前記訓練スタイル画像を表し、前記Ｇ_ｓ－ｔ（ｘ_ｓ）は、前記検証スタイル画像を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表す。

また、本願の実施例において、検証スタイル画像及び訓練スタイル画像に基づいて第１損失関数を決定する具体的な方式を提供する。上記方式によれば、対となる訓練データが存在しない場合、画像内容をソースドメインからターゲットドメインに遷移することができる。第１訓練待ちネットワークモデルは、訓練を行う場合、ソースドメインの画像及びターゲットドメインの画像を入力とすればよい。ソースドメインとターゲットドメインの画像内容が一致することは求められていない。従って、柔軟性を有する。また、第１損失関数を用いる場合、２回変換された訓練集合の画像を、初期訓練集合の画像と可能な限り同じくし、２回変換された検証集合の画像を、初期検証集合の画像と可能な限り同じくすることを確保することができる。

選択的に、上記図１９に対応する実施例を基に、図２０を参照すると、本願の実施例で提供されるモデル訓練装置４０のもう１つの実施例において、前記モデル訓練装置４０は、検出モジュール４０３を更に備え、
前記検出モジュール４０３は、前記取得モジュール４０１が第１訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第１判別器により、前記検証スタイル画像に対して真実性検出を行うように構成され、前記第１判別器は、第１敵対的損失関数を用いて訓練して得られたものであり、
前記検出モジュール４０３は更に、前記取得モジュール４０１が第１訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第２判別器により、前記訓練スタイル画像に対して真実性検出を行うように構成され、前記第２判別器は、第２敵対的損失関数を用いて訓練して得られたものである。

更に、本願の実施例において、第１訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第１訓練待ちネットワークにより、検証待ち画像に対応する訓練スタイル画像を取得した後、更に、第１判別器により、検証スタイル画像に対して真実性検出を行い、第２判別器により、訓練スタイル画像に対して真実性検出を行うことができる。上記方式によれば、判別器を用いて、ジェネレータで生成された画像に対して真偽認識を行うことができ、モデル訓練効果の向上に寄与する。

選択的に、上記図２０に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置４０のもう１つの実施例において、
前記取得モジュール４０１は更に、前記検出モジュール４０３が第１判別器により前記検証スタイル画像に対して真実性検出を行う前に、
式Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇＤ_ｔ（ｘ）］＋Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇ（１－Ｄ_ｔ（Ｇ_ｓ－ｔ（ｓ）））］を用いて前記第１敵対的損失関数を取得するように構成され、
ここで、前記Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）は、前記第１敵対的損失関数を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ｄ_ｔ（）は、前記第１判別器を表し、前記ｓは、前記第１ドメインの画像を表し、前記Ｇ_ｓ－ｔ（）は、前記第１ドメインの画像を前記第２ドメインの画像に変換するネットワークを表し、前記ｘは、入力された画像を表す。

選択的に、上記図２０に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置４０のもう１つの実施例において、
前記取得モジュール４０１は更に、前記検出モジュール４０３が第１判別器により前記検証スタイル画像に対して真実性検出を行う前に、
式Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）＝Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇＤ_ｓ（ｘ）］＋Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇ（１－Ｄ_ｓ（Ｇ_ｔ－ｓ（ｔ）））］を用いて前記第２敵対的損失関数を取得するように構成され、
ここで、前記Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）は、前記第２敵対的損失関数を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ｄ_ｓ（）は、前記第２判別器を表し、前記ｔは、前記第２ドメインの画像を表し、前記Ｇ_ｔ－ｓ（）は、前記第２ドメインの画像を前記第１ドメインの画像に変換するネットワークを表し、前記ｘは、入力された画像を表す。

選択的に、上記図１９又は図２０に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置４０のもう１つの実施例において、
前記訓練モジュール４０２は具体的には、
式Ｌ_{ｄｏｍａｉｎ}＝－Σ_ｉ，ｊ［ｄｌｏｇｐ_ｉ，ｊ＋（１－ｄ）ｌｏｇ（１－ｐ_ｉ，ｊ）］を用いて前記第２損失関数を決定するように構成され、
ここで、前記Ｌ_{ｄｏｍａｉｎ}は、前記第２損失関数を表し、前記ｐ_ｉ，ｊは、ｉ番目の候補領域の第ｊカテゴリにおける予測確率値を表し、前記ｄは、画像出所値を表す。

更に、本願の実施例において、予測確率値に基づいて第２損失関数を決定する具体的な方式を提供する。上記方式によれば、画像の特徴が真実の検証集合の画像からのものであるか、それとも訓練集合の画像を変換して得られた検証スタイル画像であるかを判定し、モデルから出力された画像を更に実際の画像に近づけさせることができる。

選択的に、上記図１９又は図２０に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置４０のもう１つの実施例において、
前記訓練モジュール４０２は具体的には、
式Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）＝Ｌ_{ｒｐｎ－ｃｌｓ}（ｐ_ｒｐｎ，ｕ_ｒｐｎ）＋Ｌ_{ｒｐｎ－ｌｏｃ}（ｔ^ｍ _ｒｐｎ，ｖ_ｒｐｎ）＋Ｌ_{ｏｂｊ－ｃｌｓ}（ｐ_ｏｂｊ，ｕ_ｏｂｊ）＋Ｌ_{ｏｂｊ－ｌｏｃ}（ｔ^ｍ _ｏｂｊ，ｖ_ｏｂｊ）を用いて前記第３損失関数を決定するように構成され、
ここで、前記Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）は、前記第３損失関数を表し、前記Ｌ_{ｒｐｎ－ｃｌｓ}は、前記第２訓練待ちネットワークモデルにおける領域生成ネットワークＲＰＮの分類損失関数を表し、前記ｐ_ｒｐｎは、前記ＲＰＮの前記第１予測カテゴリ確率値を表し、前記ｕ_ｒｐｎは、前記ＲＰＮの第１真実カテゴリ確率値を表し、前記Ｌ_{ｒｐｎ－ｌｏｃ}は、前記第２訓練待ちネットワークモデルにおける前記ＲＰＮの位置決め損失関数を表し、前記ｔ^ｍ _ｒｐｎは、前記ＲＰＮの前記第１予測位置決め値を表し、前記ｖ_ｒｐｎは、前記ＲＰＮの第１真実位置決め値を表し、前記Ｌ_{ｏｂｊ－ｃｌｓ}は、前記第２訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記ｐ_ｏｂｊは、前記ターゲット検出ネットワークの前記第２予測カテゴリ確率値を表し、前記ｕ_ｏｂｊは、前記ターゲット検出ネットワークの第２真実カテゴリ確率値を表し、前記Ｌ_{ｏｂｊ－ｌｏｃ}は、前記第２訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記ｔ^ｍ _ｏｂｊは、前記ターゲット検出ネットワークの前記第２予測位置決め値を表し、前記ｖ_ｏｂｊは、前記ターゲット検出ネットワークの第２真実位置決め値を表す。

選択的に、上記図１９又は図２０に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置４０のもう１つの実施例において、
前記訓練モジュール４０２は具体的には、
式Ｌ＝Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＋Ｌ_{ｄｏｍａｉｎ}＋Ｌ_ｄｅｔを用いて前記ターゲット損失関数を決定するように構成され、
ここで、前記Ｌは、前記ターゲット損失関数を表し、前記Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）は、前記第１損失関数を表し、前記Ｌ_{ｄｏｍａｉｎ}は、前記第２損失関数を表し、前記Ｌ_ｄｅｔは、前記第３損失関数を表す。

また、本願の実施例において、ターゲット損失関数を決定する具体的な方式を提供する。上記方式によれば、３つの損失関数に基づいて生成されたターゲット損失関数を用いる場合、クロスドメイン画像検出モデルの訓練をより好適に制御し、訓練の信頼性及び操作可能性を向上させることができる。

本願の実施例は、もう１つのターゲット検出装置を更に提供する。図２１に示すように、説明しやすくするために、本願の実施例に係わる部分のみを示す。開示されていない具体的な技術的細部は、本願の実施例の方法を参照されたい。該端末機器は、携帯電話、タブレット、パーソナルデジタルアシスタント（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ：ＰＤＡ）、ポイントオブセールス機器（ｐｏｉｎｔｏｆｓａｌｅｓ：ＰＯＳ）、車載コンピュータなどの任意の端末機器であってもよい。端末機器が携帯電話であることを例とする。

図２１は、本願の実施例による端末機器に関わる携帯電話の一部の構造を示すブロック図である。図２１を参照すると、携帯電話は、無線周波数（ｒａｄｉｏｆｒｅｑｕｅｎｃｙ：ＲＦ）回路５１０と、メモリ５２０、入力ユニット５３０、表示ユニット５４０、センサ５５０、オーディオ回路５６０、ワイヤレスフィデリティ（ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ：ＷｉＦｉ）モジュール５７０、プロセッサ５８０、電源５９０などの部材を備える。図２１に示す携帯電話構造は、携帯電話を限定するものではなく、図示されているものよりも多いまたは少ない部材を備えてもよく、又は、幾つかの部材を組み合わせてもよく、又は、異なる部材配置を行ってもよいことは、当業者であれば、理解すべきである。

以下、図２１を参照しながら、携帯電話の各構成部材を具体的に説明する。

ＲＦ回路５１０は、情報送受信又は通話過程で信号を送受信するように構成される。特に、基地局の下り情報を受信した後に、プロセッサ５８０に送信し、また、設計された上りデータを基地局に送信するように構成される。一般的には、ＲＦ回路５１０は、アンテナ、少なくとも１つの増幅器、送受信機、結合機、低雑音増幅器（ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ：ＬＮＡ）、デュプレクサなどを含んでもよく、これらに限定されない。また、ＲＦ回路５１０は更に、無線通信を介してネットワーク及び他の機器と通信できる。上記無線通信は、いずれか１つの通信規格又はプロトコルを用いることができる。通信規格又はプロトコルは、グローバルモバイル通信システム（ＧｌｏｂａｌＳｙｓｔｅｍｏｆＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ：ＧＳＭ）、汎用パケット無線サービス（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ：ＧＰＲＳ）、符号分割多重アクセス（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ：ＣＤＭＡ）、広帯域符号分割多重アクセス（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ：ＷＣＤＭＡ（登録商標））、長期的進化（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ：ＬＴＥ）、電子メール、ショートメッセージサービス（ＳｈｏｒｔＭｅｓｓａｇｉｎｇＳｅｒｖｉｃｅ：ＳＭＳ）等を含むが、これらに限定されない。

メモリ５２０は、ソフトウェアプログラム及びモジュールを記憶するように構成され、プロセッサ５８０は、メモリ５２０に記憶されたソフトウェアプログラム及びモジュールを実行することで、携帯電話の種々の機能適用及びデータ処理を実行する。メモリ５２０は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラム（例えば、音声再生機能、画像再生機能など）などを記憶することができる。データ記憶領域は、携帯電話の使用に作成されたデータ（例えば、オーディオデータ、電話帳など）などを記憶することができる。また、メモリ５２０は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリを含んでもよい。例えば、少なくとも磁気ディスクメモリデバイス、フラッシュメモリデバイス又は他の揮発性ソリッドステートメモリデバイスを含む。

入力ユニット５３０は、入力された数字又は文字情報を受信し、携帯電話のユーザ設定及び機能制御に関わるキー信号入力を生成するように構成される。例えば、入力ユニット５３０は、タッチパネル５３１及び他の入力機器５３２を備えてもよい。タッチパネル５３１は、タッチスクリーンとも呼ばれ、その上又はその近傍でのユーザのタッチ操作（例えば、ユーザが指、スタイラスなどの如何なる適切な物体又はアセンブリを用いてタッチパネル５３１上又はタッチパネル５３１の近傍で行う操作）を収集し、事前設定されたプログラムに基づいて、対応する接続装置に駆動するために用いられる。選択的に、タッチパネル５３１は、タッチ検出装置及びタッチコントローラという２つの部分を含んでもよい。ここで、タッチ検出装置は、ユーザのタッチ方位を検出し、タッチ操作による信号を検出し、信号をタッチコントローラに伝送する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、タッチポイント座標に変換し、プロセッサ５８０に伝送し、プロセッサ５８０からの命令を受信して実行することができる。また、抵抗式、容量式、赤外線、及び弾性表面波等の多種のタイプを用いて、タッチパネル５３１を実現してもよい。タッチパネル５３１に加えて、入力ユニット５３０は、他の入力装置５３２を備えてもよい。具体的には、他の入力装置５３２は、物理的キーボード、機能キー（例えば、音量制御キー、スイッチキーなど）、トラックボール、マウス、操作レバーなどのうちの１つ又は複数を含んでもよいが、これらに限定されない。

表示ユニット５４０は、ユーザから入力された情報又はユーザに提供された情報及び携帯電話の種々のメニューを表示するように構成される。表示ユニット５４０は、表示パネル５４１を備えてもよい。選択的に、液晶ディスプレイ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ：ＬＣＤ）、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ：ＯＬＥＤ）等の形態で表示パネル５４１を構成することができる。更に、タッチパネル５３１は、表示パネル５４１を被覆してもよい。タッチパネル５３１は、その上又はその近傍でのタッチ操作を検出した後、プロセッサ５８０に伝送してタッチイベントのタイプを決定する。続いて、プロセッサ５８０は、タッチイベントのタイプに基づいて、表示パネル５４１において、対応するビジョン出力を提供する。図２１において、タッチパネル５３１と表示パネル５４１は、２つの独立した部材として携帯電話の入力及び出力機能を実現するが、幾つかの実施例において、タッチパネル５３１と表示パネル５４１を集積することで、携帯電話の入力及び出力機能を実現させることができる。

携帯電話は、例えば、光センサ、動きセンサ及び他のセンサのような、少なくとも１つのセンサ５５０を更に備えてもよい。具体的には、光センサは、環境光センサ及び近接センサを含んでもよい。環境光センサは、環境光の明暗に基づいて表示パネル５４１の輝度を調整することができる。近接センサは、携帯電話が耳の傍に移された場合、表示パネル５４１及び／又はバックライトを閉じることができる。動きセンサの１つとして、加速度センサは、各方向での（一般的には、３軸）加速度の大きさを検出することができる。静止時に、重力の大きさ及び方向を検出でき、携帯電話の姿勢の適用（例えば、横縦表示の切り替え、関連ゲーム、磁力計の姿勢の補正）、振動認識に関わる機能（例えば、歩数計、タッピング）などに用いられる。携帯電話に、ジャイロスコープ、気圧計、湿度計、温度計、赤外センサなどの他のセンサを配置してもよく、ここで、詳細な説明を省略する。

オーディオ回路５６０、スピーカー５６１、マイクロホン５６２は、ユーザと携帯電話とのオーディオインタフェースを提供することができる。オーディオ回路５６０は、受信したオーディオデータを変換して得られた電気信号をスピーカー５６１に伝送し、マイクロホン５６２により音声信号に変換して出力することができる。一方で、マイクロホン５６２は、収集した音声信号を電気信号に変換し、オーディオ回路５６０により受信した後に、オーディオデータに変換し、更にオーディオデータをプロセッサ５８０に出力して処理した後、ＲＦ回路５１０を介して、もう１つの携帯電話に送信するか又はオーディオデータをメモリ５２０に出力して更に処理する。

ＷｉＦｉは、近距離無線伝送技術に属する。携帯電話は、ＷｉＦｉモジュール５７０により、ユーザが電子メールを送受信して、ウェブページを閲覧して、ストリームメディアなどにアクセスすることを補助することができる。これは、ユーザに、無線のブロードバンドインターネットアクセスを提供する。図２１は、ＷｉＦｉモジュール５７０を示すが、これが携帯電話の不可欠な構造ではなく、本発明の本質を変更することなくこれを省略されてもよいことは、理解すべきである。

プロセッサ５８０は、携帯電話の制御センターである。これは、種々のインタフェース及び回路を利用して携帯電話全体の各部分を接続する。メモリ５２０に記憶されたソフトウェアプログラム及び／又はモジュールを行うか又は実行し、メモリ５２０に記憶されたデータを呼び出すことで、携帯電話の種々の機能を実行してデータを処理し、携帯電話全体に対してモニタリングする。選択的に、プロセッサ５８０は、１つ又は複数の処理ユニットを含んでもよい。選択的に、プロセッサ５８０は、プロセッサとモデムプロセッサを集積したものであってもよい。ここで、アプリケーションプロセッサは、オペレーティングシステム、ユーザインタフェース及びアプリケーションプログラムを処理することができる。モデムプロセッサは、無線通信を処理することができる。上記モデムプロセッサは、プロセッサ５８０に集積されなくてもよいことが理解すべきである。

携帯電話は、各部材に給電する電源５９０（例えば、バッテリ）を更に備える。選択的に、電源は、電源管理システムを介してプロセッサ５８０に論理的に接続されて、電源管理システムにより、充電及び放電の管理、エネルギー消費管理などの機能を実現させることができる。

図示されていないが、携帯電話は、カメラ、ブルートゥース（登録商標）モジュールなどを更に備えてもよく、ここで、詳細な説明を省略する。

本願の実施例において、該端末機器に備えられるプロセッサ５８０は、
第１検出待ち画像を取得するステップであって、前記第１検出待ち画像は、第１ドメインに属する、ステップと、
第１検出待ち画像に対応する第２検出待ち画像を取得するステップであって、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第２検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含む機能を更に有する。

本願の実施例において、該端末機器に備えられるプロセッサ５８０は、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属する、ステップと、
第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む機能を更に有する。

図２２は、本願の実施例によるサーバ構造を示す概略図である。該サーバ６００は、構成又は性能によって大きく異なることがあり、１つ又は１つ以上の中央演算処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ：ＣＰＵ）６２２（例えば、１つ又は１つ以上のプロセッサ）と、メモリ６３２と、アプリケーションプログラム６４２又はデータ６４４を記憶するための記憶媒体６３０（例えば１つ又は１つ以上の大容量記憶媒体）と、を備えてもよい。ここで、メモリ６３２及び記憶媒体６３０は一時的媒体又は永久的記憶媒体であってもよい。記憶媒体６３０に記憶されたプログラムは、１つ又は１つ以上のモジュール（図示されず）を含んでもよい。各モジュールは、サーバにおける一連の指令操作を含んでもよい。更に、中央演算処理装置６２２は、記憶媒体６３０と通信して、サーバ６００で記憶媒体５３０における一連の命令操作を実行するように設定されてもよい。

サーバ６００は、１つ又は１つ以上の電源６２６、１つ又は１つ以上の有線又は無線ネットワークインタフェース６５０、１つ又は１つ以上の入力出力インタフェース５５８、及び／又は、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ，Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭ等のような１つ又は１つ以上のオペレーティングシステム６４１を更に含んでもよい。

上記実施例におけるサーバにより実行されたステップは、該図２２に示すサーバ構造に基づいたものであってもよい。

本願の実施例において、該サーバに含まれるＣＰＵ６２２は、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属する、ステップと、
第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む機能を更に有する。

選択的に、該サーバに含まれるＣＰＵ６２２は具体的には、
前記検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定するステップと、
前記予測確率値に基づいて、第２損失関数を決定するステップと、
前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、第３損失関数を決定するステップと、
前記第１損失関数、前記第２損失関数及び前記第３損失関数に基づいて、前記ターゲット損失関数を生成するステップと、
前記ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行うステップと、を実行するように構成される。

本願の実施例において、該サーバに含まれるＣＰＵ６２２は、
第１検出待ち画像を取得するステップであって、前記第１検出待ち画像は、第１ドメインに属する、ステップと、
第１検出待ち画像に対応する第２検出待ち画像を取得するステップであって、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第２検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含む機能を更に有する。

本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体は、プログラムコードを記憶するように構成され、該プログラムコードは、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属する、ステップと、
第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含むモデル訓練ステップを実行するように構成される。

可能な実現形態において、該プログラムコードは、
前記検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定するステップと、
前記予測確率値に基づいて、第２損失関数を決定するステップと、
前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、第３損失関数を決定するステップと、
前記第１損失関数、前記第２損失関数及び前記第３損失関数に基づいて、前記ターゲット損失関数を生成するステップと、
前記ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行うステップと、を実行するように構成される。

可能な実現形態において、該プログラムコードは、
式Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［||Ｇ_ｓ－ｔ（Ｇ_ｔ－ｓ（ｘ_ｔ））－ｘ_ｔ||］＋Ｅ_{ｓ～Ｘ（ｓ）}［||Ｇ_ｔ－ｓ（Ｇ_ｓ－ｔ（ｘ_ｓ））－ｘ_ｓ||］を用いて前記第１損失関数を決定するステップを実行するように構成され、
ここで、前記Ｌ_ｃｙｓ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）は、前記第１損失関数を表し、前記ｘ_ｔは、前記検証待ち画像を表し、前記ｘ_ｓは、前記訓練待ち画像を表し、前記Ｇ_ｓ－ｔは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Ｇ_ｔ－ｓは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Ｇ_ｔ－ｓ（ｘ_ｔ）は、前記訓練スタイル画像を表し、前記Ｇ_ｓ－ｔ（ｘ_ｓ）は、前記検証スタイル画像を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表す。

可能な実現形態において、該プログラムコードは、
第１判別器により、前記検証スタイル画像に対して真実性検出を行うステップであって、前記第１判別器は、第１敵対的損失関数を用いて訓練して得られたものである、ステップと、
第２判別器により、前記訓練スタイル画像に対して真実性検出を行うステップであって、前記第２判別器は、第２敵対的損失関数を用いて訓練して得られたものである、ステップと、を実行するように構成される。

可能な実現形態において、前記検出モジュールが第１判別器により前記検証スタイル画像に対して真実性検出を行う前に、前記方法は、
式Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇＤ_ｔ（ｘ）］＋Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇ（１－Ｄ_ｔ（Ｇ_ｓ－ｔ（ｓ）））］を用いて前記第１敵対的損失関数を取得するステップを更に含み、
ここで、前記Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）は、前記第１敵対的損失関数を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ｄ_ｔ（）は、前記第１判別器を表し、前記ｓは、前記第１ドメインの画像を表し、前記Ｇ_ｓ－ｔ（）は、前記第１ドメインの画像を前記第２ドメインの画像に変換するネットワークを表し、前記ｘは、入力された画像を表す。

可能な実現形態において、該プログラムコードは、
式Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）＝Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇＤ_ｓ（ｘ）］＋Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇ（１－Ｄ_ｓ（Ｇ_ｔ－ｓ（ｔ）））］を用いて前記第２敵対的損失関数を取得するステップを実行するように構成され、
ここで、前記Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）は、前記第２敵対的損失関数を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ｄ_ｓ（）は、前記第２判別器を表し、前記ｔは、前記第２ドメインの画像を表し、前記Ｇ_ｔ－ｓ（）は、前記第２ドメインの画像を前記第１ドメインの画像に変換するネットワークを表し、前記ｘは、入力された画像を表す。

可能な実現形態において、該プログラムコードは、
式Ｌ_{ｄｏｍａｉｎ}＝－Σ_ｉ，ｊ［ｄｌｏｇｐ_ｉ，ｊ＋（１－ｄ）ｌｏｇ（１－ｐ_ｉ，ｊ）］を用いて前記第２損失関数を決定するステップを実行するように構成され、
ここで、前記Ｌ_{ｄｏｍａｉｎ}は、前記第２損失関数を表し、前記ｐ_ｉ，ｊは、ｉ番目の候補領域の第ｊカテゴリにおける予測確率値を表し、前記ｄは、画像出所値を表す。

可能な実現形態において、該プログラムコードは、
式Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）＝Ｌ_{ｒｐｎ－ｃｌｓ}（ｐ_ｒｐｎ，ｕ_ｒｐｎ）＋Ｌ_{ｒｐｎ－ｌｏｃ}（ｔ^ｍ _ｒｐｎ，ｖ_ｒｐｎ）＋Ｌ_{ｏｂｊ－ｃｌｓ}（ｐ_ｏｂｊ，ｕ_ｏｂｊ）＋Ｌ_{ｏｂｊ－ｌｏｃ}（ｔ^ｍ _ｏｂｊ，ｖ_ｏｂｊ）を用いて前記第３損失関数を決定するステップを実行するように構成され、
ここで、前記Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）は、前記第３損失関数を表し、前記Ｌ_{ｒｐｎ－ｃｌｓ}は、前記第２訓練待ちネットワークモデルにおける領域生成ネットワークＲＰＮの分類損失関数を表し、前記ｐ_ｒｐｎは、前記ＲＰＮの前記第１予測カテゴリ確率値を表し、前記ｕ_ｒｐｎは、前記ＲＰＮの第１真実カテゴリ確率値を表し、前記Ｌ_{ｒｐｎ－ｌｏｃ}は、前記第２訓練待ちネットワークモデルにおける前記ＲＰＮの位置決め損失関数を表し、前記ｔ^ｍ _ｒｐｎは、前記ＲＰＮの前記第１予測位置決め値を表し、前記ｖ_ｒｐｎは、前記ＲＰＮの第１真実位置決め値を表し、前記Ｌ_{ｏｂｊ－ｃｌｓ}は、前記第２訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記ｐ_ｏｂｊは、前記ターゲット検出ネットワークの前記第２予測カテゴリ確率値を表し、前記ｕ_ｏｂｊは、前記ターゲット検出ネットワークの第２真実カテゴリ確率値を表し、前記Ｌ_{ｏｂｊ－ｌｏｃ}は、前記第２訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記ｔ^ｍ _ｏｂｊは、前記ターゲット検出ネットワークの前記第２予測位置決め値を表し、前記ｖ_ｏｂｊは、前記ターゲット検出ネットワークの第２真実位置決め値を表す。

可能な実現形態において、該プログラムコードは、
式Ｌ＝Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＋Ｌ_{ｄｏｍａｉｎ}＋Ｌ_ｄｅｔを用いて前記ターゲット損失関数を決定するステップを実行するように構成され、
ここで、前記Ｌは、前記ターゲット損失関数を表し、前記Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）は、前記第１損失関数を表し、前記Ｌ_{ｄｏｍａｉｎ}は、前記第２損失関数を表し、前記Ｌ_ｄｅｔは、前記第３損失関数を表す。

説明上の便宜及び簡素化を図るために、上記説明されたシステム、装置及びユニットの具体的な作動過程は、前記方法の実施例における対応した過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解すべきである。

本願で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明した前記ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットは、ハードウェアの形態で実現してもよく、ソフトウェア機能ユニットの形態で実現してもよい。

前記集積したユニットはソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ設備（パソコン、サーバ、又はネットワーク装置など）に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、読み出し専用メモリ（Ｒｅａｄ－ｏｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

また、上記実施例は本願の具体的な実施形態に過ぎず、本願の技術的解決手段を説明するためのものであり、これを限定するものではなく、本願の保護範囲はこれに制限されるものではなく、前記実施例を参照しながら、本願を詳細に説明したが、本技術分野を周知するいかなる当業者であれば、本願で開示された技術範囲内で、前記実施例に記載の技術的解決手段に対して修正を容易に思いつくことができ、又は一部の技術的特徴に対して均等物による置換を行うこともでき、これらの修正又は置換は、対応する技術的解決手段の本質を本願の実施例の技術的解決手段の精神及び範囲を離脱させるものではないことは、当業者であれば、理解すべきである。

30 ターゲット検出装置
40 モデル訓練装置
301 取得モジュール
302 検出モジュール
401 取得モジュール
402 訓練モジュール
403 検出モジュール
510 ＲＦ回路
520 メモリ
530 入力ユニット
531 タッチパネル
532 他の入力装置
540 表示ユニット
541 表示パネル
550 センサ
560 オーディオ回路
561 スピーカー
562 マイクロホン
570 ＷｉＦｉモジュール
580 プロセッサ
590 電源
600 サーバ
622 中央演算処理装置
626 電源
630 記憶媒体
632 メモリ
641 オペレーティングシステム
642 アプリケーションプログラム
644 データ
650 有線又は無線ネットワークインタフェース
658 入力出力インタフェース

Claims

モデル訓練装置が実行する、モデル訓練方法であって、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属する、ステップと、
第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するステップと、
前記検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定するステップと、
前記予測確率値に基づいて、第２損失関数を決定するステップと、
前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、第３損失関数を決定するステップと、
前記第１損失関数、前記第２損失関数及び前記第３損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、Ｌ＝Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）＋Ｌ _{ｄｏｍａｉｎ} ＋Ｌ _ｄｅｔであり、前記Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）は、前記第１損失関数を表し、前記Ｌ _{ｄｏｍａｉｎ} は、前記第２損失関数を表し、前記Ｌ _ｄｅｔは、前記第３損失関数を表す、ステップと、
前記ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む、モデル訓練方法。
前記検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定するステップは、
Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［||Ｇ_ｓ－ｔ（Ｇ_ｔ－ｓ（ｘ_ｔ））－ｘ_ｔ||］＋Ｅ_{ｓ～Ｘ（ｓ）}［||Ｇ_ｔ－ｓ（Ｇ_ｓ－ｔ（ｘ_ｓ））－ｘ_ｓ||］という式を用いて前記第１損失関数を決定するステップを含み、
前記ｘ_ｔは、前記検証待ち画像を表し、前記ｘ_ｓは、前記訓練待ち画像を表し、前記Ｇ_ｓ－ｔは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Ｇ_ｔ－ｓは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Ｇ_ｔ－ｓ（ｘ_ｔ）は、前記訓練スタイル画像を表し、前記Ｇ_ｓ－ｔ（ｘ_ｓ）は、前記検証スタイル画像を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表すことを特徴とする
請求項１に記載の方法。
第１訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、前記方法は、
第１判別器により、前記検証スタイル画像に対して真実性検出を行うステップであって、前記第１判別器は、第１敵対的損失関数を用いて訓練して得られたものである、ステップと、
第２判別器により、前記訓練スタイル画像に対して真実性検出を行うステップであって、前記第２判別器は、第２敵対的損失関数を用いて訓練して得られたものである、ステップと、を更に含むことを特徴とする
請求項１または２に記載の方法。
第１判別器により前記検証スタイル画像に対して真実性検出を行う前に、前記方法は、
Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇＤ_ｔ（ｘ）］＋Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇ（１－Ｄ_ｔ（Ｇ_ｓ－ｔ（ｓ）））］という方式を用いて前記第１敵対的損失関数を取得するステップを更に含み、
前記Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）は、前記第１敵対的損失関数を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ｄ_ｔ（）は、前記第１判別器を表し、前記ｓは、前記第１ドメインの画像を表し、前記Ｇ_ｓ－ｔ（）は、前記第１ドメインの画像を前記第２ドメインの画像に変換するネットワークを表し、前記ｘは、入力された画像を表すことを特徴とする
請求項３に記載の方法。
第２判別器により前記訓練スタイル画像に対して真実性検出を行う前に、前記方法は、
Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）＝Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇＤ_ｓ（ｘ）］＋Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇ（１－Ｄ_ｓ（Ｇ_ｔ－ｓ（ｔ）））］という方式を用いて前記第２敵対的損失関数を取得するステップを更に含み、
前記Ｌ_ＧＡＮ（Ｄ_ｓ，Ｇ_ｔ－ｓ）は、前記第２敵対的損失関数を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ｄ_ｓ（）は、前記第２判別器を表し、前記ｔは、前記第２ドメインの画像を表し、前記Ｇ_ｔ－ｓ（）は、前記第２ドメインの画像を前記第１ドメインの画像に変換するネットワークを表し、前記ｘは、入力された画像を表すことを特徴とする
請求項３に記載の方法。
前記予測確率値に基づいて第２損失関数を決定するステップは、
Ｌ_{ｄｏｍａｉｎ}＝－Σ_ｉ，ｊ［ｄｌｏｇｐ_ｉ，ｊ＋（１－ｄ）ｌｏｇ（１－ｐ_ｉ，ｊ）］という方式を用いて前記第２損失関数を決定するステップを含み、
前記ｐ_ｉ，ｊは、ｉ番目の候補領域の第ｊカテゴリにおける予測確率値を表し、前記ｄは、画像出所値を表すことを特徴とする
請求項１に記載の方法。
前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、第３損失関数を決定するステップは、
Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）＝Ｌ_{ｒｐｎ－ｃｌｓ}（ｐ_ｒｐｎ，ｕ_ｒｐｎ）＋Ｌ_{ｒｐｎ－ｌｏｃ}（ｔ^ｍ _ｒｐｎ，ｖ_ｒｐｎ）＋Ｌ_{ｏｂｊ－ｃｌｓ}（ｐ_ｏｂｊ，ｕ_ｏｂｊ）＋Ｌ_{ｏｂｊ－ｌｏｃ}（ｔ^ｍ _ｏｂｊ，ｖ_ｏｂｊ）という方式を用いて前記第３損失関数を決定するステップを含み、
前記Ｌ_ｄｅｔ（ｐ，ｕ，ｔ^ｍ，ｖ）は、前記第３損失関数を表し、前記Ｌ_{ｒｐｎ－ｃｌｓ}は、前記第２訓練待ちネットワークモデルにおける領域生成ネットワーク（ＲＰＮ）の分類損失関数を表し、前記ｐ_ｒｐｎは、前記ＲＰＮの前記第１予測カテゴリ確率値を表し、前記ｕ_ｒｐｎは、前記ＲＰＮの第１真実カテゴリ確率値を表し、前記Ｌ_{ｒｐｎ－ｌｏｃ}は、前記第２訓練待ちネットワークモデルにおける前記ＲＰＮの位置決め損失関数を表し、前記ｔ^ｍ _ｒｐｎは、前記ＲＰＮの前記第１予測位置決め値を表し、前記ｖ_ｒｐｎは、前記ＲＰＮの第１真実位置決め値を表し、前記Ｌ_{ｏｂｊ－ｃｌｓ}は、前記第２訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記ｐ_ｏｂｊは、前記ターゲット検出ネットワークの前記第２予測カテゴリ確率値を表し、前記ｕ_ｏｂｊは、前記ターゲット検出ネットワークの第２真実カテゴリ確率値を表し、前記Ｌ_{ｏｂｊ－ｌｏｃ}は、前記第２訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記ｔ^ｍ _ｏｂｊは、前記ターゲット検出ネットワークの前記第２予測位置決め値を表し、前記ｖ_ｏｂｊは、前記ターゲット検出ネットワークの第２真実位置決め値を表すことを特徴とする
請求項１に記載の方法。
ターゲット検出装置が実行する、画像に基づくターゲット検出方法であって、
第１検出待ち画像を取得するステップであって、前記第１検出待ち画像は、第１ドメインに属する、ステップと、
第１検出待ち画像に対応する第２検出待ち画像を取得するステップであって、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第２検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、
検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定するステップと、
予測確率値に基づいて、第２損失関数を決定するステップと、
第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、第３損失関数を決定するステップと、
前記第１損失関数、前記第２損失関数及び前記第３損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、Ｌ＝Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）＋Ｌ _{ｄｏｍａｉｎ} ＋Ｌ _ｄｅｔであり、前記Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）は、前記第１損失関数を表し、前記Ｌ _{ｄｏｍａｉｎ} は、前記第２損失関数を表し、前記Ｌ _ｄｅｔは、前記第３損失関数を表す、ステップと、
前記ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行うステップと、を含む、
画像に基づくターゲット検出方法。
ターゲット検出装置であって、取得モジュールと、検出モジュールと、訓練モジュールと、を備え
取得モジュールは、第１検出待ち画像を取得するように構成され、前記第１検出待ち画像は、第１ドメインに属し、
前記取得モジュールは更に、第１検出待ち画像に対応する第２検出待ち画像を取得するように構成され、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインであり、
検出モジュールは、クロスドメイン画像検出モデルにより、前記取得モジュールが取得した前記第２検出待ち画像に対応する検出結果を取得するように構成され、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられ、
前記訓練モジュールは、
検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定し、
予測確率値に基づいて、第２損失関数を決定し、
第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、第３損失関数を決定し、
前記第１損失関数、前記第２損失関数及び前記第３損失関数を加算することによって、ターゲット損失関数を生成するように構成され、前記ターゲット損失関数は、Ｌ＝Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）＋Ｌ _{ｄｏｍａｉｎ} ＋Ｌ _ｄｅｔであり、前記Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）は、前記第１損失関数を表し、前記Ｌ _{ｄｏｍａｉｎ} は、前記第２損失関数を表し、前記Ｌ _ｄｅｔは、前記第３損失関数を表し、
前記訓練モジュールは、前記ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行うように構成される、ターゲット検出装置。
モデル訓練装置であって、取得モジュールと、訓練モジュールと、を備え、
取得モジュールは、訓練待ち画像及び検証待ち画像を取得するように構成され、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインであり、
前記取得モジュールは更に、第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するように構成され、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属し、
前記取得モジュールは更に、第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するように構成され、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠であり、
前記取得モジュールは更に、前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するように構成され、
前記訓練モジュールは、
前記検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定し、
前記予測確率値に基づいて、第２損失関数を決定し、
前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、第３損失関数を決定し、
前記第１損失関数、前記第２損失関数及び前記第３損失関数を加算することによって、ターゲット損失関数を生成するように構成され、前記ターゲット損失関数は、Ｌ＝Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）＋Ｌ _{ｄｏｍａｉｎ} ＋Ｌ _ｄｅｔであり、前記Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）は、前記第１損失関数を表し、前記Ｌ _{ｄｏｍａｉｎ} は、前記第２損失関数を表し、前記Ｌ _ｄｅｔは、前記第３損失関数を表し、
前記訓練モジュールは、前記ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るように構成される、モデル訓練装置。
端末機器であって、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムで、
第１検出待ち画像を取得するステップであって、前記第１検出待ち画像は、第１ドメインに属する、ステップと、
第１検出待ち画像に対応する第２検出待ち画像を取得するステップであって、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第２検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、
検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定するステップと、
予測確率値に基づいて、第２損失関数を決定するステップと、
第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、第３損失関数を決定するステップと、
前記第１損失関数、前記第２損失関数及び前記第３損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、Ｌ＝Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）＋Ｌ _{ｄｏｍａｉｎ} ＋Ｌ _ｄｅｔであり、前記Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）は、前記第１損失関数を表し、前記Ｌ _{ｄｏｍａｉｎ} は、前記第２損失関数を表し、前記Ｌ _ｄｅｔは、前記第３損失関数を表す、ステップと、
前記ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行うステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、端末機器。
前記プロセッサは、前記メモリにおけるプログラムで、
Ｌ_ｃｙｃ（Ｇ_ｔ－ｓ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［||Ｇ_ｓ－ｔ（Ｇ_ｔ－ｓ（ｘ_ｔ））－ｘ_ｔ||］＋Ｅ_{ｓ～Ｘ（ｓ）}［||Ｇ_ｔ－ｓ（Ｇ_ｓ－ｔ（ｘ_ｓ））－ｘ_ｓ||］という方式を用いて前記第１損失関数を決定するステップを実行するように構成され、
前記ｘ_ｔは、検証待ち画像を表し、前記ｘ_ｓは、訓練待ち画像を表し、前記Ｇ_ｓ－ｔは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Ｇ_ｔ－ｓは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Ｇ_ｔ－ｓ（ｘ_ｔ）は、前記訓練スタイル画像を表し、前記Ｇ_ｓ－ｔ（ｘ_ｓ）は、前記検証スタイル画像を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表すことを特徴とする
請求項１１に記載の端末機器。
前記プロセッサは、前記メモリにおけるプログラムで、
第１判別器により、検証スタイル画像に対して真実性検出を行うステップであって、前記第１判別器は、第１敵対的損失関数を用いて訓練して得られたものである、ステップと、
第２判別器により、訓練スタイル画像に対して真実性検出を行うステップであって、前記第２判別器は、第２敵対的損失関数を用いて訓練して得られたものである、ステップと、を実行するように構成されることを特徴とする
請求項１１または１２に記載の端末機器。
前記プロセッサは、前記メモリにおけるプログラムで、
Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）＝Ｅ_{ｔ～Ｘ（ｔ）}［ｌｏｇＤ_ｔ（ｘ）］＋Ｅ_{ｓ～Ｘ（ｓ）}［ｌｏｇ（１－Ｄ_ｔ（Ｇ_ｓ－ｔ（ｓ）））］という方式を用いて前記第１敵対的損失関数を取得するステップを実行するように構成され、
前記Ｌ_ＧＡＮ（Ｄ_ｔ，Ｇ_ｓ－ｔ）は、前記第１敵対的損失関数を表し、前記Ｅ_{ｓ～Ｘ（ｓ）}は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Ｅ_{ｔ～Ｘ（ｔ）}は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記Ｄ_ｔ（）は、前記第１判別器を表し、前記ｓは、前記第１ドメインの画像を表し、前記Ｇ_ｓ－ｔ（）は、前記第１ドメインの画像を前記第２ドメインの画像に変換するネットワークを表し、前記ｘは、入力された画像を表すことを特徴とする
請求項１３に記載の端末機器。
サーバであって、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムで、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属する、ステップと、
第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するステップと、
前記検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定するステップと、
前記予測確率値に基づいて、第２損失関数を決定するステップと、
前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、第３損失関数を決定するステップと、
前記第１損失関数、前記第２損失関数及び前記第３損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、Ｌ＝Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）＋Ｌ _{ｄｏｍａｉｎ} ＋Ｌ _ｄｅｔであり、前記Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）は、前記第１損失関数を表し、前記Ｌ _{ｄｏｍａｉｎ} は、前記第２損失関数を表し、前記Ｌ _ｄｅｔは、前記第３損失関数を表す、ステップと、
前記ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、サーバ。
コンピュータプログラムであって、前記コンピュータプログラムがコンピュータで実行される時、コンピュータに、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第１ドメインに属し、前記検証待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
第１訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第１訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第２ドメインに属し、前記訓練スタイル画像は、前記第１ドメインに属する、ステップと、
第２訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第２訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値を取得するステップと、
前記検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定するステップと、
前記予測確率値に基づいて、第２損失関数を決定するステップと、
前記第１予測カテゴリ確率値、前記第１予測位置決め値、前記第２予測カテゴリ確率値及び前記第２予測位置決め値に基づいて、第３損失関数を決定するステップと、
前記第１損失関数、前記第２損失関数及び前記第３損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、Ｌ＝Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）＋Ｌ _{ｄｏｍａｉｎ} ＋Ｌ _ｄｅｔであり、前記Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）は、前記第１損失関数を表し、前記Ｌ _{ｄｏｍａｉｎ} は、前記第２損失関数を表し、前記Ｌ _ｄｅｔは、前記第３損失関数を表す、ステップと、
前記ターゲット損失関数を用いて、前記第１訓練待ちネットワークモデル及び前記第２訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含むモデル訓練ステップを実行させる、コンピュータプログラム。
コンピュータプログラムであって、前記コンピュータプログラムがコンピュータで実行される時、コンピュータに、
第１検出待ち画像を取得するステップであって、前記第１検出待ち画像は、第１ドメインに属する、ステップと、
第１検出待ち画像に対応する第２検出待ち画像を取得するステップであって、前記第２検出待ち画像は、第２ドメインに属し、前記第１ドメインは、前記第２ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第２検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第１検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第１ネットワークモデル及び第２ネットワークモデルを含み、前記第１ネットワークモデルは、画像を前記第１ドメインから前記第２ドメインに変換するために用いられ、前記第２ネットワークモデルは、前記第２ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、
検証スタイル画像及び訓練スタイル画像に基づいて、第１損失関数を決定するステップと、
予測確率値に基づいて、第２損失関数を決定するステップと、
第１予測カテゴリ確率値、第１予測位置決め値、第２予測カテゴリ確率値及び第２予測位置決め値に基づいて、第３損失関数を決定するステップと、
前記第１損失関数、前記第２損失関数及び前記第３損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、Ｌ＝Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）＋Ｌ _{ｄｏｍａｉｎ} ＋Ｌ _ｄｅｔであり、前記Ｌ _ｃｙｃ（Ｇ _ｔ－ｓ，Ｇ _ｓ－ｔ）は、前記第１損失関数を表し、前記Ｌ _{ｄｏｍａｉｎ} は、前記第２損失関数を表し、前記Ｌ _ｄｅｔは、前記第３損失関数を表す、ステップと、
前記ターゲット損失関数を用いて、第１訓練待ちネットワークモデル及び第２訓練待ちネットワークモデルに対して訓練を行うステップと、を含むターゲット検出ステップを実行させる、コンピュータプログラム。