JP7265003B2 - ターゲット検出方法、モデル訓練方法、装置、機器及びコンピュータプログラム - Google Patents

ターゲット検出方法、モデル訓練方法、装置、機器及びコンピュータプログラム Download PDF

Info

Publication number
JP7265003B2
JP7265003B2 JP2021519836A JP2021519836A JP7265003B2 JP 7265003 B2 JP7265003 B2 JP 7265003B2 JP 2021519836 A JP2021519836 A JP 2021519836A JP 2021519836 A JP2021519836 A JP 2021519836A JP 7265003 B2 JP7265003 B2 JP 7265003B2
Authority
JP
Japan
Prior art keywords
image
domain
training
loss function
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021519836A
Other languages
English (en)
Other versions
JP2022504704A (ja
Inventor
▲澤▼群 ▲掲▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022504704A publication Critical patent/JP2022504704A/ja
Application granted granted Critical
Publication of JP7265003B2 publication Critical patent/JP7265003B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/58Extraction of image or video features relating to hyperspectral data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Description

(関連出願の相互参照)
本願は、2019年3月21日に提出された、出願番号が201910218444.5であり、発明名称が「画像に基づくターゲット検出方法、モデル訓練方法及び装置」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、人工知能分野に関し、特にターゲット検出方法、モデル訓練方法、装置、機器及び記憶媒体に関する。
機械学習分野において、一般的には、サンプルを、訓練集合及び検証集合というそれぞれ独立した2つの部分に分ける必要がある。訓練集合は、教師あり学習に用いられ、教師あり学習は、一組のカテゴリが既知であるサンプルを利用して分類器のパラメータを調整し、所要性能を達成するプロセスであり、教師あり訓練とも呼ばれる。検証集合は、最終的に選択されたモデル性能がどのようなものであるかを検証するために用いられる。画像処理分野において、訓練画像と検証画像の間でドメインの差異が大きいケースが生じやすい。
現在、訓練集合の画像及び検証集合の画像は、異なるドメインからのものである場合、一般的には、敵対的損失関数によって、ネットワークモデルにより抽出された特徴を制約し、ネットワークモデルを、訓練集合の画像がどのドメインからのものであるかを判別できないようにし、特徴分布ドメインに対して鈍感であるという目的を達成する。
しかしながら、訓練集合の画像と検証集合の画像とは、ドメイン分布においてどうしても差異を有しているため、ネットワークモデルに、訓練集合の画像と検証集合の画像の特徴に対して曖昧化させることは、非常に困難であり、そのため、ドメインAの訓練集合の画像で訓練して得られたネットワークモデルを用いてドメインBにおける検証集合の画像を予測する場合、予測効果が低い。
本願の実施例は、ターゲット検出方法、モデル訓練方法、装置、機器及び記憶媒体を提供し、検証集合の画像スタイルと同じの検出待ち画像を意図的に使用してターゲットの位置決めを行う必要がなく、クロスドメイン画像検出モデルを用いて、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、それによって、画像における位置決めの正確性を向上させ、モデル予測効果を向上させる。
これに鑑み、本願の第1態様は、画像に基づくターゲット検出方法を提供する。該方法は、
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含む。
本願の第2態様は、モデル訓練方法を提供する。該方法は、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む。
本願の第3態様は、ターゲット検出装置を提供する。前記装置は、取得モジュールと、検出モジュールと、を備え、
取得モジュールは、第1検出待ち画像を取得するように構成され、前記第1検出待ち画像は、第1ドメインに属し、
前記取得モジュールは更に、第1検出待ち画像に対応する第2検出待ち画像を取得するように構成され、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
検出モジュールは、クロスドメイン画像検出モデルにより、前記取得モジュールが取得した前記第2検出待ち画像に対応する検出結果を取得するように構成され、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる。
本願の第4態様は、モデル訓練装置を提供する。該装置は、取得モジュールと、訓練モジュールと、を備え、
取得モジュールは、訓練待ち画像及び検証待ち画像を取得するように構成され、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
前記取得モジュールは更に、第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するように構成され、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属し、
前記取得モジュールは更に、第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するように構成され、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠であり、
前記取得モジュールは更に、前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するように構成され、
訓練モジュールは、前記取得モジュールが取得した前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るように構成される。
可能な設計において、本願の実施例の第4態様の第1実現形態において、
前記訓練モジュールは具体的には、前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定し、
前記予測確率値に基づいて、第2損失関数を決定し、
前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定し、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記ターゲット損失関数を生成し、
前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行うように構成される。
可能な設計において、本願の実施例の第4態様の第2実現形態において、
前記訓練モジュールは具体的には、
cyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(x))-x||]+Es~X(s)[||Gt-s(Gs-t(x))-x||]という方式を用いて前記第1損失関数を決定するように構成され、
前記Lcys(Gt-s,Gs-t)は、前記第1損失関数を表し、前記xは、前記検証待ち画像を表し、前記xは、前記訓練待ち画像を表し、前記Gs-tは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Gt-sは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Gt-s(x)は、前記訓練スタイル画像を表し、前記Gs-t(x)は、前記検証スタイル画像を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表す。
可能な設計において、本願の実施例の第4態様の第3実現形態において、前記モデル訓練装置は、検出モジュールを更に備え、
前記検出モジュールは、前記取得モジュールが第1訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第1判別器により、前記検証スタイル画像に対して真実性検出を行うように構成され、前記第1判別器は、第1敵対的損失関数を用いて訓練して得られたものであり、
前記検出モジュールは更に、前記取得モジュールが第1訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第2判別器により、前記訓練スタイル画像に対して真実性検出を行うように構成され、前記第2判別器は、第2敵対的損失関数を用いて訓練して得られたものである。
可能な設計において、本願の実施例の第4態様の第4実現形態において、
前記取得モジュールは更に、前記検出モジュールが第1判別器により前記検証スタイル画像に対して真実性検出を行う前に、
GAN(D,Gs-t)=Et~X(t)[log D(x)]+Es~X(s)[log(1-D(Gs-t(s)))]という方式を用いて前記第1敵対的損失関数を取得するように構成され、
前記LGAN(D,Gs-t)は、前記第1敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記D( )は、前記第1判別器を表し、前記sは、前記第1ドメインの画像を表し、前記Gs-t( )は、前記第1ドメインの画像を前記第2ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
可能な設計において、本願の実施例の第4態様の第5実現形態において、
前記取得モジュールは更に、前記検出モジュールが第1判別器により前記検証スタイル画像に対して真実性検出を行う前に、
GAN(D,Gt-s)=Es~X(s)[log D(x)]+Et~X(t)[log(1-D(Gt-s(t)))]という方式を用いて前記第2敵対的損失関数を取得するように構成され、
前記LGAN(D,Gt-s)は、前記第2敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記D( )は、前記第2判別器を表し、前記tは、前記第2ドメインの画像を表し、前記Gt-s( )は、前記第2ドメインの画像を前記第1ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
可能な設計において、本願の実施例の第4態様の第6実現形態において、
前記訓練モジュールは具体的には、
domain=-Σi,j[d log pi,j+(1-d)log(1-pi,j)]という方式を用いて前記第2損失関数を決定するように構成され、
前記Ldomainは、前記第2損失関数を表し、前記pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表し、前記dは、画像出所値を表す。
可能な設計において、本願の実施例の第4態様の第7実現形態において、
前記訓練モジュールは具体的には、
det(p,u,t,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(t rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(t obj,vobj)という方式を用いて前記第3損失関数を決定するように構成され、
前記Ldet(p,u,t,v)は、前記第3損失関数を表し、前記Lrpn-clsは、前記第2訓練待ちネットワークモデルにおける領域生成ネットワークRPNの分類損失関数を表し、前記prpnは、前記RPNの前記第1予測カテゴリ確率値を表し、前記urpnは、前記RPNの第1真実カテゴリ確率値を表し、前記Lrpn-locは、前記第2訓練待ちネットワークモデルにおける前記RPNの位置決め損失関数を表し、前記t rpnは、前記RPNの前記第1予測位置決め値を表し、前記vrpnは、前記RPNの第1真実位置決め値を表し、前記Lobj-clsは、前記第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記pobjは、前記ターゲット検出ネットワークの前記第2予測カテゴリ確率値を表し、前記uobjは、前記ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、前記Lobj-locは、前記第2訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記t objは、前記ターゲット検出ネットワークの前記第2予測位置決め値を表し、前記vobjは、前記ターゲット検出ネットワークの第2真実位置決め値を表す。
可能な設計において、本願の実施例の第4態様の第8実現形態において、
前記訓練モジュールは具体的には、
L=Lcyc(Gt-s,Gs-t)+Ldomain+Ldetという方式を用いて前記ターゲット損失関数を決定するように構成され、
前記Lは、前記ターゲット損失関数を表し、前記Lcyc(Gt-s,Gs-t)は、前記第1損失関数を表し、前記Ldomainは、前記第2損失関数を表し、前記Ldetは、前記第3損失関数を表す。
本願の第5態様は、端末機器を提供する。前記端末機器は、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。
本願の第6態様は、サーバを提供する。前記サーバは、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。
本願の第7態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体にプログラムコードが記憶されており、該プログラムコードがコンピュータで実行される時、コンピュータに、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含むモデル訓練ステップを実行させ、
又は、コンピュータに、
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含むターゲット検出ステップを実行させる。
上記技術的解決手段から分かるように、本願の実施例は、下記利点を有する。
本願の実施例において、画像に基づくターゲット検出方法を提供する。まず、第1検出待ち画像を取得し、第1検出待ち画像は、第1ドメインに属する。続いて、クロスドメイン画像検出モデルにより、第1検出待ち画像に対応する第2検出待ち画像を取得し、第2検出待ち画像は、第2ドメインに属する。最後に、クロスドメイン画像検出モデルにより、第2検出待ち画像に対応する検出結果を取得し、検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、ターゲット対象は、第1検出待ち画像における被検対象に属する。上記方式によれば、検証集合の画像スタイルと同じの検出待ち画像を意図的に使用してターゲットの位置決めを行う必要がなく、クロスドメイン画像検出モデルを用いて、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、それによって、画像における位置決めの正確性を向上させ、モデル予測効果を向上させる。
本願の実施例におけるクロスドメインターゲット検出の比較概略図である。 本願の実施例によるターゲット検出システムのアーキテクチャを示す概略図である。 本願の実施例による自動運転システムに基づくターゲット検出効果を示す概略図である。 本願の実施例による自動運転システムに基づくもう1つのターゲット検出効果を示す概略図である。 本願の実施例による画像に基づくターゲット検出方法の一実施例を示す概略図である。 本願の実施例による第1検出待ち画像の一実施例を示す概略図である。 本願の実施例による第2検出待ち画像の一実施例を示す概略図である。 本願の実施例によるターゲットの位置決めを行う対象画像の一実施例を示す概略図である。 本願の実施例によるクロスドメイン画像検出モデルの配置フローを示す概略図である。 本願の実施例によるモデル訓練方法の一実施例を示す概略図である。 本願の実施例による異なるドメインの画像の比較概略図である。 本願の実施例によるクロスドメイン画像検出モデルの訓練に適用可能である2種類の画像の比較概略図である。 本願の実施例によるクロスドメイン画像検出モデルの構造を示す概略図である。 本願の検証結果として検出された画像の比較概略図である。 本願の検証結果として検出されたもう1つの画像の比較概略図である。 本願の検証結果におけるSim10kデータ集合からKittiデータ集合への変換効果を示す概略図である。 本願の検証結果におけるCityscapesデータ集合からFoggy-Cityscapesデータ集合への変換効果を示す概略図である。 本願の実施例によるターゲット検出装置の一実施例を示す概略図である。 本願の実施例によるモデル訓練装置の一実施例を示す概略図である。 本願の実施例によるモデル訓練装置のもう1つの実施例を示す概略図である。 本願の実施例による端末機器の構造を示す概略図である。 本願の実施例によるサーバの構造を示す概略図である。
本願の実施例は、画像に基づくターゲット検出方法、モデル訓練方法及び装置を提供し、検証集合の画像スタイルと同じの検出待ち画像を意図的に使用してターゲットの位置決めを行う必要がなく、クロスドメイン画像検出モデルを用いて、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、それによって、画像における位置決めの正確性を向上させ、モデル予測効果を向上させる。
本願の明細書、特許請求の範囲及び上記図面における「第1」、「第2」、「第3」、「第4」等に関する記載(存在すれば)は、類似する対象を区別するためのものであり、特定の順番又は前後順序を説明するためのものではない。理解すべきこととして、このように記載されるデータは場合によって取り替えることが可能であり、それによって、ここで記載される本願の実施例をここで示した又は説明した順番以外の順番で実施可能なものである。また、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図しており、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、明記されたステップ又はユニットだけに限定されず、明記されていないか又はこれらのプロセス、方法、製品又は機器の固有している他のステップ又はユニットを含んでもよい。
本願は、敵対的学習に基づくクロスドメインの画像におけるターゲット検出方法を提供し、該方法は、訓練集合データと検証集合データの分布が異なる場合、深層畳み込みニューラルネットワークの検証精度が低いという問題を解決する。本願は、画像におけるターゲット検出タスクに広く用いられ、特に、実際の適用において、訓練集合の画像と検証集合の画像のドメイン分布が異なる場合に対して、より重要な意義を有する。実際に、訓練集合の画像と検証集合の画像のドメイン分布が大分異なる。例えば、無人車のターゲット検出の場合、訓練時に用いられる訓練集合の画像は、都市Aからのシーンピクチャであるが、実際の検証時に用いられる検証集合の画像は、都市Bからのシーンピクチャが用いられ、そのため、通常、2つの都市のシーンピクチャのドメイン分布が不一致である。また例えば、訓練時に用いられる訓練集合の画像は、室内からのシーンピクチャであり、検証時に用いられる検証集合の画像は、室外からのシーンピクチャであり、そのため、室内のシーンピクチャと室外のシーンピクチャのドメイン分布も不一致である。また例えば、訓練時に用いられる訓練集合の画像における自動車のブランドや色は、検証時に用いられる検証集合の画像における自動車のブランドや色と異なる可能性もある。本願の実施例におけるクロスドメインターゲット検出の比較概略図である図1を参照すると、図1の(a)図及び(b)図は、それぞれ2つのドメイン分布からのものである。両者において、いずれも、「自動車」という物体を検出することができるが、該2つの画像のスタイルが大きく相違していることは明らかである。周知のように、訓練集合の画像と検証集合の画像のドメイン分布が大きく相違している場合、検証集合の画像に対して、深層ネットワークの汎化性能が低く、且つ検証精度が低く、ターゲット検出のための深層ネットワークモデルは、同様に該問題を回避できない。
理解しやすくするために、本願は、画像に基づくターゲット検出方法を提供する。該方法は、図2に示すターゲット検出システムに適用される。図2に示すように、図2は、本願の実施例によるターゲット検出システムのアーキテクチャを示す概略図である。図面に示すように、サーバにおいて、本願が提供するモデル訓練方法を実現する。つまり、サーバは、クロスドメイン画像検出モデルを訓練する過程において、2つのサブネットワークモデルを導入した。1つのサブネットワークモデルは、画素ドメイン適応型(Pixel Domain Adaptation:PDA)ネットワークモデルであり、もう1つのサブネットワークモデルは、特徴ドメイン適応型(Feature Domain Adaptation:FDA)ネットワークモデルである。PDAネットワークは、オリジナルの訓練集合の画像を検証集合スタイルの画像に変換し、これにより、モデル訓練時に、変換後の検証集合スタイルの訓練集合の画像を入力として利用し、それによって、クロスドメイン画像検出モデルの、検証集合スタイル画像に対する適応に寄与する。FDAネットワークは、モデルが検証集合スタイルの画像の特徴を学習することを特徴面で制約する。サーバは、訓練によりクロスドメイン画像検出モデルを得た後、クライアントは、検出待ち画像を取得し、ここでの検出待ち画像は訓練集合の画像と、同一のドメイン分布に属し、そのため、クライアントは、検出待ち画像をサーバの訓練済みのクロスドメイン画像検出モデルに入力し、クロスドメイン画像検出モデルにより、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、敵対的学習方法で、該変換効果を本物そっくりようにし、これにより、検証集合の画像スタイルの検出待ち画像を生成し、クロスドメイン画像検出モデルの、検証集合ドメイン画像に対する予測効果を向上させる。
また、クロスドメイン画像検出モデルは、判別器を更に導入する。該判別器は、クロスドメイン画像検出モデルで学習する特徴が検証集合の画像のドメインからのものであるかどうかを判定するために用いられ、更に、敵対的学習により、クロスドメイン画像検出モデルで検出待ち画像から学習して得られた特徴が検証集合の画像の特徴と、判別器が区分できないように十分に類似することを確保し、それによって、検出待ち画像のスタイルが検出時に検証集合の画像のスタイルに十分に変換されたことを更に確保する。
なお、クライアントは、端末機器に配置されてもよく、端末機器は、無人車、ロボット、タブレット、ノートパソコン、パーソナルテジタルアシスタント、音声対話端末及びパーソナルコンピュータ(personal computer:PC)を含むが、これに限定されない。
ターゲット検出は、各対象(例えば、人間、自転車、オートバイ又は自動車)に、位置決め情報(例えば、境界枠)及びカテゴリ情報(例えば、カテゴリラベル)を割り当てることを目的している。現代の自動運転過程において、他の交通参入者の検出は、極めて重要であるため、ターゲット検出は、現代の自動運転システムにおいて重要な役割を果たしている。その原因は以下の通りである。図3を参照すると、図3は、本願の実施例による自動運転システムに基づくターゲット検出効果を示す概略図である。図面に示すように、端末機器は、図3に対応する画像において自動車の位置決め情報(即ち、境界枠)及びカテゴリ情報(即ち「自動車」)をマークすることができる。図4を参照すると、図4は、本願の実施例による自動運転システムに基づくもう1つのターゲット検出効果を示す概略図である。図面に示すように、端末機器は、図4に対応する画像において、自動車及び歩行者の位置決め情報(即ち、境界枠)及びカテゴリ情報(即ち、「自動車」及び「歩行者」)をマークすることができる。
なお、本願は、無人車への適用以外に、例えば、ロボットが任務を実行するシーンのような他のシーンにも適用可能である。例えば、ロボットが危険任務を実行する場合、危険シーンにおける真実の検証集合の画像を直接取得しにくい可能性があり、従って、危険シーンを擬似した訓練集合の画像により訓練を行う必要がある。本願で提供されるモデル訓練方法によれば、端末機器は、敵対的学習により、訓練集合の画像のスタイルを検証集合の画像のスタイルに変換することができ、クロスドメイン画像検出モデルで特徴を学習する前に、訓練集合の画像と検証集合の画像が可能な限り同一のドメイン分布からものであることを確保することができ、そして、敵対的損失関数による制約で、クロスドメイン画像検出モデルで訓練集合の画像に基づいて学習した特徴は、検証集合の画像の特徴に更に近似する。
上記説明を参照しながら、以下、本願における画像に基づくターゲット検出方法を説明する。図5を参照すると、本願の実施例における画像に基づくターゲット検出方法の一実施例は以下を含む。
101において、ターゲット検出装置は、第1検出待ち画像を取得し、第1検出待ち画像は、第1ドメインに属する。
本実施例において、まず、ターゲット検出装置は、第1検出待ち画像を取得する。ターゲット検出装置は、例えば、ロボット又は無人車などの端末機器に配置可能である。第1検出待ち画像は、第1ドメインに属する。ここで、該第1ドメインは、具体的なシーンであってもよく、例えば、室内シーンからのものであり、又は、あるデータ集合からの分布であってもよく、例えば、Sim10kデータ集合からのものである。第1検出待ち画像の取得方式は、リアルタイムな取得であってもよい。例えば、端末機器のカメラによりリアルタイムに撮影を行うことで得られた画像であってもよく、画像データベースから抽出された画像であってもよく、ここで、限定しない。
102において、ターゲット検出装置は、第1検出待ち画像に対応する第2検出待ち画像を取得し、第2検出待ち画像は、第2ドメインに属し、第1ドメインは、第2ドメインと異なるドメインである。
本実施例において、ターゲット検出装置は、第1検出待ち画像をクロスドメイン画像検出モデルに入力し、クロスドメイン画像検出モデルにおけるPDAネットワークから、対応する第2検出待ち画像を出力することができる。ここで、第2検出待ち画像は、第2ドメインに属し、第1ドメインは、第2ドメインと異なるドメインである。つまり、第2検出待ち画像と第1検出待ち画像は、2つの異なるスタイルに属する。理解しやすくするために、図6を参照する。図6は、本願の実施例による第1検出待ち画像の一実施例を示す概略図である。図面に示すように、第1検出待ち画像は具体的には、Sim10kデータ集合からサンプリングされた実画像であってもよい。PDAネットワークにより変換した後、図7に示す通りである。図7を参照すると、図7は、本願の実施例による第2検出待ち画像の一実施例を示す概略図である。第2検出待ち画像のスタイルは、第1検出待ち画像のスタイルと異なる。つまり、2つのドメインに属する。
ここで、訓練待ちクロスドメイン画像検出モデルは、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルという2つの部分を含んでもよい。ターゲット損失関数を用いて該2つの部分を訓練し、第1訓練待ちネットワークモデルに対応する第1ネットワークモデル及び第2訓練待ちネットワークモデルに対応する第2ネットワークモデルをそれぞれ得る。ここで、第1ネットワークモデルは、PDAネットワークを含んでもよく、第2ネットワークモデルは、FDAネットワーク及び物体検出ネットワークを含んでもよい。PDAネットワークは、訓練スタイル(即ち、第1ドメイン)の画像を検証スタイル(即ち、第2ドメイン)の画像に変換するために用いられる。FDAネットワークは、画像スタイルを制約する(即ち、変換後の第2ドメインの画像スタイルを制約する)ために用いられる。物体検出ネットワークは、検証スタイルの画像に対して対象検出を行うために用いられる。
103において、ターゲット検出装置は、クロスドメイン画像検出モデルにより、第2検出待ち画像に対応する検出結果を取得し、検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、ターゲット対象は、第1検出待ち画像における被検対象に属し、クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含んでもよく、第1ネットワークモデルは、画像を第1ドメインから第2ドメインに変換するために用いられ、第2ネットワークモデルは、第2ドメインの画像に対して領域位置決めを行うために用いられる。
本実施例において、ターゲット検出装置は、クロスドメイン画像検出モデルにおけるPDAネットワークにより、第2検出待ち画像を出力し、続いて、クロスドメイン画像検出モデルにおけるFDAネットワークにより、第2検出待ち画像に対して変換を行い、ターゲットの位置決めを行う対象画像を得て、その後、クロスドメイン画像検出モデルにおける物体検出ネットワークにより、該画像に対して検出を行い、検出結果を得ることができる。第1訓練待ち画像をPDAネットワーク及びFDAネットワークにより変換した後、図8に示す画像を得ることができる。図8を参照すると、図8は、本願の実施例によるターゲットの位置決めを行う対象画像の一実施例を示す概略図である。
上記に記載されるターゲット検出方法について、その適用フローは、図9に示す通りである。図9は、本願の実施例によるクロスドメイン画像検出モデルの配置フローを示す概略図である。まず、クロスドメイン画像検出モデルは、訓練集合の画像において、予備訓練を行い、好適なモデル初期化重みを得る。ここで、訓練集合の画像は、ドメイン1に属する。続いて、敵対的学習方法を利用して、アノテーションされた訓練集合の画像及び未知でアノテーションされた検証集合の画像を採用して引き続き訓練を行う。ここで、検証集合の画像は、ドメイン2に属する。ドメイン1に属する訓練集合の画像とドメイン2に属する検証集合の画像との特徴をアライメントした後、同一のドメインの特徴を共有し、クロスドメイン画像検出モデル(ドメイン2のモデル)の予測を遂行することができる。本願で提供されるクロスドメイン画像検出モデルを用いると、ドメイン2の画像に対する認識精度が高い。検証結果によれば、VGG16の畳み込みニューラルネットワーク(Convolutional Neural Networks:CNN)構造を利用して、しかも訓練集合の画像がSim10Kデータ集合からのものであり、検証集合の画像がKittiデータ集合からのものである場合、相関技術案を採用して予測を行う精度は、52.7%であり、本願を採用して予測を行う精度は、59.3%に達することができる。精度がより高いクロスドメイン画像検出モデルを得た後、検証集合の画像の予測に直接的に適用可能である。
本願の実施例において、画像に基づくターゲット検出方法を提供する。ターゲット検出装置は、まず、第1検出待ち画像を取得し、第1検出待ち画像は、第1ドメインに属する。続いて、クロスドメイン画像検出モデルにより、第1検出待ち画像に対応する第2検出待ち画像を取得し、第2検出待ち画像は、第2ドメインに属する。最後に、クロスドメイン画像検出モデルにより、第2検出待ち画像に対応する検出結果を取得し、検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、ターゲット対象は、第1検出待ち画像に属する。上記方式によれば、検証集合の画像スタイルと同じの検出待ち画像を意図的に使用してターゲットの位置決めを行う必要がなく、クロスドメイン画像検出モデルを用いて、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、それによって、画像における位置決めの正確性を向上させ、モデル予測効果を向上させる。
上記説明を参照しながら、以下、本願におけるモデル訓練方法を説明する。図10を参照すると、本願の実施例におけるモデル訓練方法の一実施例は、以下を含む。
201において、モデル訓練装置は、訓練待ち画像及び検証待ち画像を取得し、訓練待ち画像は、第1ドメインに属し、検証待ち画像は、第2ドメインに属し、第1ドメインは、第2ドメインと異なるドメインである。
本実施例において、モデル訓練を行う前に、訓練待ち画像及び検証待ち画像を取得する必要がある。ここで、訓練待ち画像と検証待ち画像は、2つの異なるドメインに属する。つまり、訓練待ち画像は、第1ドメインに属し、検証待ち画像は、第2ドメインに属する。理解しやすくするために、図11を参照する。図11は、本願の実施例による異なるドメインの画像の比較概略図である。図面に示すように、図面において、4種の異なるドメインの画像を提供する。ここで、図11における(a)図は、Cityscapesデータ集合からの画像を表し、(b)図は、Foggy-Cityscapesデータ集合からの画像を表し、(c)図は、Sim10kデータ集合からの画像を表し、(d)図は、Kittiデータ集合からの画像を表す。ここで、Foggy-Cityscapesデータ集合とSim10kデータ集合はいずれも、運転シーンを擬似する合成データ集合である。Foggy-Cityscapesデータ集合は、真実のCityscapesデータ集合に基づいてレンダリングを行い、ぼやけている天気状況を擬似する。Kittiデータ集合は、自動運転における異なるビジョンタスクに対して基準検証を行う。例えば、深度推定、ステレオマッチング、シーン又は光学推定及び物体検出等を行う。
第1ドメインは、Sim10kデータ集合であってもよく、第2ドメインは、Kittiデータ集合であってもよいが、これは、本願を限定しているわけではなく、第1ドメインは、Foggy-Cityscapesデータ集合、Cityscapesデータ集合又はKittiデータ集合であってもよく、第2ドメインは、Foggy-Cityscapesデータ集合、Sim10kデータ集合又はCityscapesデータ集合であってもよく、第1ドメインと第2ドメインが異なることを確保すればよい。以下、第1ドメインがSim10kデータ集合であり、第2ドメインがKittiデータ集合であることを例として説明する。図12を参照すると、図12は、本願の実施例によるクロスドメイン画像検出モデルの訓練に適用可能である2種類の画像の比較概略図である。図面に示すように、図12における(a)図及び(c)図は、Sim10kデータ集合からの画像を表し、(b)図及び(d)図は、Kittiデータ集合からの画像を表す。
202において、モデル訓練装置は、第1訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第1訓練待ちネットワークモデルにより、検証待ち画像に対応する訓練スタイル画像を取得し、検証スタイル画像は、第2ドメインに属し、訓練スタイル画像は、第1ドメインに属する。
本実施例において、モデル訓練装置は、訓練待ち画像を第1訓練待ちネットワークモデル(例えば、訓練待ちPDAネットワークであってもよい)に入力し、該第1訓練待ちネットワークモデルにより、検証スタイル画像を出力し、同様に、検証待ち画像を第1訓練待ちネットワークモデルに入力し、該第1訓練待ちネットワークモデルにより、訓練スタイル画像を出力することができる。
可能な実施形態において、説明しやすくするために、図13を参照する。図13は、本願の実施例によるクロスドメイン画像検出モデルの構造を示す概略図である。図面に示すように、図13の左側部分は、PDAネットワークのモデル構造であり、FDAネットワークを訓練する前にソースドメインスタイルの画像をターゲットドメインスタイルの画像に変換するために用いられ、PDAネットワークは、サイクル敵対的生成ネットワーク(Cycle Generative Adversarial Networks:CycleGAN)を用いることができる。右側部分は、FDAネットワークのモデル構造であり、特徴レベルの敵対的訓練に用いられ、物体検出部分において、幾つかのニューラル層が追加されている。訓練待ち画像(real_s)を第1訓練待ちネットワークモデル(訓練待ちPDAネットワーク)により変換した後、検証スタイル画像(fake_t)を得て、検証待ち画像(real_t)を第1訓練待ちネットワークモデル(訓練待ちPDAネットワーク)により変換した後、訓練スタイル画像(fake_s)を得て、検証スタイル画像(fake_t)と検証待ち画像(real_t)は、同一のドメインに属し、訓練スタイル画像(fake_s)と訓練待ち画像(real_s)は、同一のドメインに属すると仮定する。
203において、モデル訓練装置は、第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得し、候補領域は、検証待ち画像又は検証スタイル画像から抽出された候補枠である。
本実施例において、上記説明によれば、第1訓練待ちネットワークモデル(訓練待ちPDAネットワーク)は、訓練待ち画像(real_s)を検証スタイル画像(fake_t)に変換した後、第2訓練待ちネットワークモデルにおけるFDAネットワークに直接的に入力する。モデル訓練装置は、検証スタイル画像(fake_t)と検証待ち画像(real_t)をFDAネットワークにおける判別器に入力し、これにより、検証スタイル画像(fake_t)及び検証待ち画像(real_t)における全ての位置の特徴に対して判定を行い、即ち、検証待ち画像又は検証スタイル画像からの候補枠(bounding box:bbox)に対して確率値予測を行い、取得した候補領域に対応する予測確率値を得る。
204において、モデル訓練装置は、第2訓練待ちネットワークモデルにより、検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得する。
本実施例において、上記説明によれば、モデル訓練装置は、検証スタイル画像(fake_t)を第2訓練待ちネットワークモデルに入力し、第2訓練待ちネットワークモデルにより、第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を出力することができる。ここで、クロスドメイン画像検出モデルにおける物体検出ネットワークは、領域生成ネットワーク(Region Proposal Network:RPN)及びターゲット検出ネットワークという2つの部分を含んでもよく、第1予測カテゴリ確率値及び第1予測位置決め値は、RPNから出力される予測値に属し、第2予測カテゴリ確率値及び第2予測位置決め値は、ターゲット検出ネットワークから出力された予測値に属する。
物体検出ネットワークは、特徴学習及びターゲット検出に用いられる。ここで、物体検出ネットワークは、より速い領域に基づく畳み込みニューラルネットワーク(Regions with Convolutional Neural Network:RCNN)又は領域に基づく完全畳み込みネットワーク(Region-based Fully Convolutional Networks:RFCN)等であってもよい。
205において、モデル訓練装置は、予測確率値、検証スタイル画像、訓練スタイル画像、第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得る。
本実施例において、モデル訓練装置は、予測確率値、検証スタイル画像、訓練スタイル画像、第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得ることができる。該クロスドメイン画像検出モデルは、第1ドメインの画像を第2ドメインの画像に変換した後に訓練を行うことができ、第1ドメインの画像に対して位置決め情報及びカテゴリ情報の検出を行うこともできる。具体的には、第1訓練待ちネットワークモデルは、訓練待ちPDAネットワークを含んでもよく、第2訓練待ちネットワークモデルは、FDAネットワーク及び物体検出ネットワークを含んでもよく、物体検出ネットワークは、RPN及びターゲット検出ネットワークを含んでもよい。
説明しやすくするために、図14を参照する。図14は、本願の検証結果として検出された画像の比較概略図である。図面に示すように、図14における(a)図は、PDAネットワークにより変換を行うことで得られた車両であり、(b)図は、PDAネットワーク及びFDAネットワークにより変換を行うことで得られた車両であり、(b)図の車両の復元度及び鮮明度は、(a)図の車両の復元度及び鮮明度より高いことが明らかである。図15を参照すると、図15は、本願の検証結果として検出されたもう1つの画像の比較概略図である。図面に示すように、図15における(a)図は、PDAネットワークにより変換を行うことで得られた車両であり、(b)図は、PDAネットワーク及びFDAネットワークにより変換を行うことで得られた車両である。(b)図の車両の復元度及び鮮明度は、同様に(a)図の車両の復元度及び鮮明度より高いことが明らかである。
本願の実施例において、モデル訓練方法を提供する。まず、モデル訓練装置は、訓練待ち画像及び検証待ち画像を取得し、続いて、第1訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第1訓練待ちネットワークモデルにより、検証待ち画像に対応する訓練スタイル画像を取得し、第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得し、第2訓練待ちネットワークモデルにより、検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得し、最後に、ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得る。上記方式によれば、訓練により得られたクロスドメイン画像検出モデルは、クロスドメイン画像の変換を実現させることができる。クロスドメイン画像検出モデルを用いることで、訓練集合の画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、画像における位置決めの正確性を向上させ、モデル予測効果を向上させることができる。
選択的に、上記図10に対応する実施例を基に、本願の実施例で提供されるモデル訓練方法の第1選択可能な実施例において、モデル訓練装置が予測確率値、検証スタイル画像、訓練スタイル画像、第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行うステップは、
検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
予測確率値に基づいて、第2損失関数を決定するステップと、
第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
第1損失関数、第2損失関数及び第3損失関数に基づいて、ターゲット損失関数を生成するステップと、
ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行うステップと、を含むことができる。
本実施例において、ターゲット損失関数の構成を説明する。まず、モデル訓練装置は、検証スタイル画像及び訓練スタイル画像を取得した後、訓練待ち画像、検証待ち画像、検証スタイル画像及び訓練スタイル画像に基づいて第1損失関数を決定することができる。続いて、モデル訓練装置は、検証待ち画像又は検証スタイル画像に対応する予測確率値に基づいて、第2損失関数を決定することができる。最後に、モデル訓練装置は、RPNで生成された第1予測カテゴリ確率値、第1真実カテゴリ確率値、第1予測位置決め値及び第1真実位置決め値に基づいて、RPNに対して訓練を行い、同時に、ターゲット検出ネットワークで生成された第2予測カテゴリ確率値、第2真実カテゴリ確率値、第2予測位置決め値及び第2真実位置決め値に基づいて、ターゲット検出ネットワークに対して訓練を行うことができ、即ち、モデル訓練装置は、第1予測カテゴリ確率値、第1真実カテゴリ確率値、第1予測位置決め値、第1真実位置決め値、第2予測カテゴリ確率値、第2真実カテゴリ確率値、第2予測位置決め値及び第2真実位置決め値に基づいて第3損失関数を生成することができる。
モデル訓練装置は、第1損失関数、第2損失関数及び第3損失関数に基づいて、ターゲット損失関数を得て、ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行うことができる。
次に、本願の実施例において、ターゲット損失関数を得る方法を提供し、即ち、検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定し、続いて、予測確率値に基づいて、第2損失関数を決定し、更に、第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、第3損失関数を決定し、最後にターゲット損失関数を生成し、ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行う。上記方式で、モデル訓練過程を3つの部分に分け、それぞれ3つの損失関数を用いて、対応する訓練を行い、訓練の柔軟性及び操作可能性を向上させることができる。
選択的に、上記図10に対応する第1実施例を基に、本願の実施例で提供されるモデル訓練方法の第2選択可能な実施例において、モデル訓練装置が検証スタイル画像及び訓練スタイル画像に基づいて第1損失関数を決定するステップは、
式Lcyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(x))-x||]+Es~X(s)[||Gt-s(Gs-t(x))-x||]Lcyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(x))-x||]+Es~X(s)[||Gt-s(Gs-t(x))-x||]を用いて第1損失関数を決定するステップを含んでもよく、
ここで、Lcys(Gt-s,Gs-t)は、第1損失関数を表し、xは、検証待ち画像を表し、xは、訓練待ち画像を表し、Gs-tは、訓練待ち画像を検証スタイル画像に変換するジェネレータを表し、Gt-sは、検証待ち画像を訓練スタイル画像に変換するジェネレータを表し、Gt-s(x)は、訓練スタイル画像を表し、Gs-t(x)は、検証スタイル画像を表し、Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表す。
本実施例において、第1訓練待ちネットワークモデルの訓練は、CycleGANに対する学習に基づいて行われてもよい。従来のGANは、単一方向で生成を行うものであり、CycleGANは、互いに生成するものであり、ネットワークは、リング状であり、CycleGANは、AからBへの単一方向のGANに、BからAへの単一方向のGANを追加することで得られたものでる。2つのGANは、2つのジェネレータを共有し、各々、1つの判別器を有するため、合計2つの判別器及び2つのジェネレータが存在する。1つの単一方向GANは、2つの損失を有し、CycleGANは、合計4つの損失を有する。ここで、本願において、判別器の損失をそれぞれ算出することができ、ジェネレータの損失は合わせて計算されてもよく、これにより、下記第1損失関数を得る。
cyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(x))-x||]+Es~X(s)[||Gt-s(Gs-t(x))-x||]
ここで、Lcys(Gt-s,Gs-t)は、第1損失関数を表し、xは、検証待ち画像を表し、xは、訓練待ち画像を表し、Gs-tは、訓練待ち画像を検証スタイル画像に変換するジェネレータを表し、Gt-sは、検証待ち画像を訓練スタイル画像に変換するジェネレータを表し、Gt-s(x)は、訓練スタイル画像を表し、Gs-t(x)は、検証スタイル画像を表し、Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表す。
t-s及びGs-tは、具体的に使用している変換ネットワークであり、任意の深さの畳み込みニューラルネットワークモデルであってもよく、例えば、VGGネットワーク又は残差ニューラルネットワーク(Residual Neural Network:ResNet)等である。本願において、ジェネレータは、例えば、図13に示すGs-t及びGt-sという2つの部分に分けることができ、ここで、第1ジェネレータGs-tは、オリジナルの訓練待ち画像を検証スタイル画像に変換するために用いられ、第2ジェネレータGt-sは、検証待ち画像を訓練スタイル画像に変換するために用いられる。
実際の適用において、GANは、マッピング関数Gt-s及びGs-tを学習し、検証待ち画像のデータ分布及び訓練待ち画像のデータ分布からサンプリングされる画像を生成することもできる。しかしながら、GANを用いると、ソース画像の構造情報を失う可能性がある。上記課題を解決するために、サイクル一貫性を有する第1損失関数を用いて、Gs-tで生成される画像を、Gt-sで生成される画像と同様な画像効果を有するようにさせることができ、その逆でも同じである。
また、本願の実施例において、検証スタイル画像及び訓練スタイル画像に基づいて第1損失関数を決定する具体的な方式を提供する。上記方式によれば、ペアである訓練データが存在しない場合、画像スタイルをソースドメインからターゲットドメインに変換することができる。第1訓練待ちネットワークモデルは、訓練を行う場合、ソースドメインの画像及びターゲットドメインの画像を入力とすればよい。ソースドメインとターゲットドメインの画像内容がマッピングしていることは求められていないため、柔軟性を有する。また、第1損失関数を使って、訓練集合の画像が2回変換されても、初期訓練集合の画像と可能な限り同じく、検証集合の画像も2回変換を経由しても初期検証集合の画像と可能な限り同じくすることを確保することができる。
選択的に、上記図10、図10に対応する第1又は第2実施例を基に、本願の実施例で提供されるモデル訓練方法の第3選択可能な実施例において、モデル訓練装置が第1訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第1訓練待ちネットワークモデルにより、検証待ち画像に対応する訓練スタイル画像を得た後、
第1判別器により、検証スタイル画像に対して真実性検出を行うステップであって、第1判別器は、第1敵対的損失関数を用いて訓練して得られた判別器である、ステップと、
第2判別器により、訓練スタイル画像に対して真実性検出を行うステップであって、第2判別器は、第2敵対的損失関数を用いて訓練して得られた判別器である、ステップと、を含んでもよい。
本実施例において、判別器を用いて第1訓練待ちネットワークを如何に訓練するかを説明する。判別器は、ジェネレータで生成された結果及び真実結果に対して判定を行うために用いられる。その目的は、生成された結果を更に真実結果に近づけさせて、「ごまかす」目的を達成することである。例えば、検証待ち画像に対して、第1判別器は、そのラベルが1であると判定し、検証スタイル画像に対して、第1判別器は、そのラベルが0であると判定する。ここで、1は、第1判別器が、画像が真実検証集合における画像であると判定したことを表し、0は、第1判別器が、画像が訓練集合の画像から変換された画像であると判定したことを表す。また例えば、訓練待ち画像に対して、第2判別器は、そのラベルが1であると判定し、訓練スタイル画像に対して、第2判別器は、そのラベルが0であると判定する。ここで、1は、第2判別器が、画像をオリジナルの訓練集合における画像であると判定したことを表し、0は、第1判別器が、画像が検証集合の画像から変換された画像であると判定したことを表す。
つまり、第1判別器は、変換後の画像が真実の検証集合の画像であるか、それとも訓練待ち画像から変換して得られた検証スタイル画像であるかを区分するために用いられる。第2判別器は、画像がオリジナルの訓練集合の画像であるか、それとも変換して得られた訓練スタイル画像であるかを区分するために用いられる。
更に、本願の実施例において、第1訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第1訓練待ちネットワークにより、検証待ち画像に対応する訓練スタイル画像を取得した後、更に、第1判別器により、検証スタイル画像に対して真実性検出を行い、第2判別器により、訓練スタイル画像に対して真実性検出を行うことができる。上記方式によれば、モデル訓練装置は、判別器を用いて、ジェネレータで生成された画像に対して真偽認識を行うことができ、モデル訓練効果の向上に寄与する。
選択的に、上記図10に対応する第3実施例を基に、本願の実施例で提供されるモデル訓練方法の第4選択可能な実施例において、モデル訓練装置が第1判別器により検証スタイル画像に対して真実性検証を行う前に、
式LGAN(D,Gs-t)=Et~X(t)[log D(x)]+Es~X(s)[log(1-D(Gs-t(s)))]を用いて第1敵対的損失関数を取得するステップを更に含んでもよく、
ここで、LGAN(D,Gs-t)は、第1敵対的損失関数を表し、Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、D( )は、第1判別器を表し、sは、第1ドメインの画像を表し、Gs-t( )は、第1ドメインの画像を第2ドメインの画像に変換するネットワークを表し、xは、入力された画像を表す。
本実施例において、説明しやすくするために、引き続き、図13を参照して、Gs-t及びGt-sを用いて、2つのドメインにおいて、偽造の画像を生成した後、第1判別器D及び第2判別器Dという2つの判別器を訓練して、真実画像と偽造画像を区分する必要がある。ジェネレータは、常に、判別器で真実画像と区分できない画像を生成しようとすると同時に、真実画像と偽造画像を分類できるように判別器を訓練する。
従って、下記第1判別器の第1敵対的損失関数を用いて訓練を行う。
GAN(D,Gs-t)=Et~X(t)[log D(x)]+Es~X(s)[log(1-D(Gs-t(s)))]
ここで、LGAN(D,Gs-t)は、第1敵対的損失関数を表し、Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、D( )は、第1判別器を表し、sは、第1ドメインの画像を表し、Gs-t( )は、第1ドメインの画像を第2ドメインの画像に変換するネットワークを表し、xは、入力された画像を表す。
更に、本願の実施例において、第1判別器により、検証スタイル画像に対して真実性検出を行う前に、更に、第1敵対的損失関数を取得し、第1敵対的損失関数により、モデル効果の判別を行うことができる。上記方式によれば、第1ドメインから第2ドメインに変換された画像を更に第2ドメインの画像に近づけさせ、解決手段の実行可能性を向上させることができる。
選択的に、上記図10に対応する第3実施例を基に、本願の実施例で提供されるモデル訓練方法の第5選択可能な実施例において、モデル訓練装置は、第2判別器により、訓練スタイル画像に対して真実性検出を行う前に、
式LGAN(D,Gt-s)=Es~X(s)[log D(x)]+Et~X(t)[log(1-D(Gt-s(t)))]を用いて第2敵対的損失関数を取得するステップを更に含んでもよく、
ここで、LGAN(D,Gt-s)は、第2敵対的損失関数を表し、Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、D( )は、第2判別器を表し、tは、第2ドメインの画像を表し、Gt-s( )は、第2ドメインの画像を第1ドメインの画像に変換するネットワークを表し、xは、入力された画像を表す。
本実施例において、説明しやすくするために、引き続き図13を参照して、Gs-t及びGt-sを用いて、2つのドメインにおいて、偽造の画像を生成した後、第1判別器D及び第2判別器Dという2つの判別器を訓練して、真実画像と偽造画像を区分する必要がある。ジェネレータは、常に、判別器で真実画像と区分できない画像を生成しようとすると同時に、真実画像と偽造画像を分類できるように判別器を訓練する。
従って、下記の第1判別器の第2敵対的損失関数を用いて訓練を行う。
GAN(D,Gt-s)=Es~X(s)[log D(x)]+Et~X(t)[log(1-D(Gt-s(t)))]
ここで、LGAN(D,Gt-s)は、第2敵対的損失関数を表し、Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、D( )は、第2判別器を表し、tは、第2ドメインの画像を表し、Gt-s( )は、第2ドメインの画像を第1ドメインの画像に変換するネットワークを表し、xは、入力された画像を表す。
更に、本願の実施例において、第2判別器により、訓練スタイル画像に対して真実性検出を行う前に、更に、第2敵対的損失関数を取得し、第2敵対的損失関数により、モデル効果の判別を行うことができる。上記方式によれば、第2ドメインから第1ドメインに戻った画像を更に第1ドメインの画像に近づけさせ、解決手段の実行可能性を向上させることができる。
選択的に、上記図10に対応する第1実施例を基に、本願の実施例で提供されるモデル訓練方法の第6選択可能な実施例において、モデル訓練装置が予測確率値に基づいて第2損失関数を決定するステップは、
式Ldomain=-Σi,j[d log pi,j+(1-d)log(1-pi,j)]を用いて第2損失関数を決定するステップを含んでもよく、
ここで、Ldomainは、第2損失関数を表し、pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表し、dは、画像出所値を表す。
本実施例において、訓練待ち画像を検証スタイル画像に変換した後、物体検出ネットワークに入力して特徴学習及びターゲット検出を行う。ここで、物体検出ネットワークの中間層で学習する特徴は、FDAネットワークに対応する判別器に入力される。該判別器は、特徴が真実の検証待ち画像からのものであるか、それとも訓練待ち画像を変換して得られた検証スタイル画像からのものであるかを判別するために用いられる。訓練時に用いられる第2損失関数は、以下の通りである。
domain=-Σi,j[d log pi,j+(1-d)log(1-pi,j)]
ここで、Ldomainは、第2損失関数を表し、pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表し、dは、画像出所値を表す。該第2損失関数は、全ての位置の特徴に対して判定を行う。該特徴は、真実の検証待ち画像からのものである場合、d=1であり、該特徴は、変換により得られる検証スタイル画像からのものである場合、d=0である。pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表す。つまり、真実の検証待ち画像からのものである場合、j=0であり、変換により得られる検証スタイル画像からのものである場合、j=1である。
更に、本願の実施例において、予測確率値に基づいて第2損失関数を決定する具体的な方式を提供する。上記方式によれば、画像の特徴が真実の検証集合の画像からのものであるか、それとも訓練集合の画像を変換して得られた検証スタイル画像であるかを判定し、モデルから出力される画像を更に実際の画像に近づけさせることができる。
選択的に、上記図10に対応する第1実施例を基に、本願の実施例で提供されるモデル訓練方法の第7選択可能な実施例において、第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、第3損失関数を決定するステップは、
式Ldet(p,u,t,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(t rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(t obj,vobj)を用いて第3損失関数を決定するステップを含んでもよく、
ここで、Ldet(p,u,t,v)は、第3損失関数を表し、Lrpn-clsは、第2訓練待ちネットワークモデルにおける領域生成ネットワークRPNの分類損失関数を表し、prpnは、RPNの第1予測カテゴリ確率値を表し、urpnは、RPNの第1真実カテゴリ確率値を表し、Lrpn-locは、第2訓練待ちネットワークモデルにおけるRPNの位置決め損失関数を表し、t rpnは、RPNの第1予測位置決め値を表し、vrpnは、RPNの第1真実位置決め値を表し、Lobj-clsは、第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、pobjは、ターゲット検出ネットワークの第2予測カテゴリ確率値を表し、uobjは、ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、Lobj-locは、第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの位置決め損失関数を表し、t objは、ターゲット検出ネットワークの第2予測位置決め値を表し、vobjは、ターゲット検出ネットワークの第2真実位置決め値を表す。
本実施例において、物体検出ネットワークの訓練方式を説明した。Faster RCNNの物体検出ネットワークを例として説明し、Faster RCNN検出損失関数は以下の通りである。
det(p,u,t,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(t rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(t obj,vobj
ここで、Ldet(p,u,t,v)は、第3損失関数を表し、Lrpn-clsは、第2訓練待ちネットワークモデルにおける領域生成ネットワークRPNの分類損失関数を表し、prpnは、RPNの第1予測カテゴリ確率値を表し、urpnは、RPNの第1真実カテゴリ確率値を表し、Lrpn-locは、第2訓練待ちネットワークモデルにおけるRPNの位置決め損失関数を表し、t rpnは、RPNの第1予測位置決め値を表し、vrpnは、RPNの第1真実位置決め値を表し、Lobj-clsは、第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、pobjは、ターゲット検出ネットワークの第2予測カテゴリ確率値を表し、uobjは、ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、Lobj-locは、第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの位置決め損失関数を表し、t objは、ターゲット検出ネットワークの第2予測位置決め値を表し、vobjは、ターゲット検出ネットワークの第2真実位置決め値を表す。
可能な実現形態において、ターゲット検出にm個のカテゴリがあり、領域分類層は、m+1次元確率分布p=(p0,p1,…pm)を出力し、背景のための1つのカテゴリが含まれると仮定する。境界枠回帰層により、各可能なカテゴリに対して実数値tを予測する。ここで、クロスエントロピーを用いて分類損失及び平滑化L1損失を算出し、ドメインカテゴリ学習において、検証スタイル画像(fake_t)のラベルをd=0とし、検証待ち画像(real_t)のラベルをd=1とする。
更に、本願の実施例において、第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、第3損失関数を決定する方法を提供する。上記方式によれば、モデル訓練のために、実現形態を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。
選択的に、上記図10に対応する第1実施例を基に、本願の実施例で提供されるモデル訓練方法の第8選択可能な実施例において、モデル訓練装置が第1損失関数、第2損失関数及び第3損失関数に基づいて、ターゲット損失関数を生成するステップは、
式L=Lcyc(Gt-s,Gs-t)+Ldomain+Ldetを用いてターゲット損失関数を決定するステップを含んでもよく、
ここで、Lは、ターゲット損失関数を表し、Lcyc(Gt-s,Gs-t)は、第1損失関数を表し、Ldomainは、第2損失関数を表し、Ldetは、前記第3損失関数を表す。
本実施例において、上記第1損失関数、第2損失関数及び第3損失関数に関する説明に基づいて、ターゲット損失関数を得ることができる。
L=Lcyc(Gt-s,Gs-t)+Ldomain+Ldet
理解しやすくするように、各損失関数の間の重要度をより好適に制御するために、下記のような完全な訓練におけるターゲット損失関数を得ることができる。
full=λL2domain3(Lcyc+LGAN(D,Gt-s)+LGAN(D,Gs-t))det
上記式によれば、Lfullは、完全な訓練におけるターゲット損失関数を表し、λ、λ及びλはそれぞれ3つの重み係数を表し、異なる損失のバランスを取るために用いられる。
グラフィックスプロセッサ(Graphics Processing Unit:GPU)のメモリに制限されて、訓練段階において、モデル訓練装置は、画像の高さを512個の画素にスケーリングし、続いて、スケーリングされた画像を512×512の画像ブロックにトリミングし、画素レベルの適応性を実現させることができる。訓練過程の安定性及び画像の品質を考慮して、モデル訓練装置は、最小二乗GANターゲットで、敵対的損失の対数尤度ターゲットを置き換えることができる。可能な実現形態において、モデル訓練装置は、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに基づいて、エンドツーエンド訓練を行うことができる。第1訓練待ちネットワークモデル(訓練待ちPDAネットワーク)の開始訓練段階において、生成された画像は殆ど大きな騒音を有することを考慮して、Adamオプティマイザを用いて第1訓練待ちネットワークモデル(訓練待ちPDAネットワーク)を訓練することができる。その初期学習率は、0.0002とされてもよい。30回の反復訓練を行った後、学習率は、30回の反復訓練において0までに減衰した。モデル訓練装置は、標準的な確率的勾配降下(Stochastic gradient descent:SGD)アルゴリズムを用いて、第2訓練待ちネットワークモデル(訓練待ちFDAネットワーク)に対して訓練することができる。その初期学習率は、0.001とされてもよい。6回の反復訓練を行った後、学習率は、0.0001に低下し、また、3回の反復訓練を引き続き行う。
エンドツーエンド訓練に対して、上述した学習率をいずれも10倍縮小し、続いて、PDAネットワーク及びFDAネットワークの反復回数を微調整し、λ=130、λ=0.5、λ=0.5とする。24ギガバイト(Gigabyte:GB)のメモリのTesla M40のGPUを本願のネットワーク訓練に用いると、下記結果を得ることができる。表1を参照すると、表1は、Sim10kを訓練データ集合として、Cityscapesを検証データ集合として用いる場合の分析検出結果を示す。

Figure 0007265003000001
上記から分かるように、oracleは、検証集合に対応するドメイン2で直接訓練を行って得られたモデルであるため、モデル性能指標は最も高い。次に、本願で提供されるPDAネットワーク+FDAネットワークを用いたモデル性能は最も高い。
さらに、本願の実施例において、ターゲット損失関数を決定する具体的な方式を提供する。上記方式によれば、3つの損失関数に基づいて生成されるターゲット損失関数を用いる場合、クロスドメイン画像検出モデルの訓練をより好適に制御し、訓練の信頼性及び操作可能性を向上させることができる。
説明しやすくするために、以下、自動運転環境における検証結果を参照しながら、本願で提供されるモデルを説明する。図16を参照すると、図16は、本願の検証結果におけるSim10kデータ集合からKittiデータ集合への変換効果を示す概略図である。図面に示すように、図16における(a)図及び(c)図は、Sim10kデータ集合からのものであり、図16における(b)図及び(d)図は、Kittiデータ集合からのものである。表2を参照して、表2は、Sim10kデータ集合をソースデータ集合として利用して、Kittiデータ集合で検出結果を評価することを示す。

Figure 0007265003000002
上記から分かるように、Faster R-CNNのモデル性能指標は、52.67%に達することができるが、独立のPDAネットワークにより、モデル性能指標を58.4%に高めることができ、独立のFDAネットワークにより、モデル性能指標を55.3%に高めることができる。エンドツーエンド訓練により、59.3%であるモデル性能指標を得ることができる。PDAネットワーク及びFDAネットワークを用いてモデルの正確度を向上させることができることは明らかである。
図17を参照すると、図17は、本願の検証結果におけるCityscapesデータ集合からFoggy-Cityscapesデータ集合への変換効果を示す概略図である。図面に示すように、図17における(a)図及び(c)図は、Cityscapesデータ集合からのものであり、図16における(b)図及び(d)図は、Foggy-Cityscapesデータ集合からのものである。表3を参照すると、表3は、Cityscapesデータ集合をソースデータ集合として利用して、Foggy-Cityscapesデータ集合で検出結果を評価することを示す。

Figure 0007265003000003
上記から分かるように、本願で提供されるモデルを用いる場合、oracle大ネットワークによる結果に比べて、10.1%以上の性能向上を実現させ、従来の最も高い(State Of The Art:SOTA)による結果に比べて、1.8%以上の性能向上を実現させることができる。つまり、PDAネットワーク及びFDAネットワークはいずれも、検出性能を大幅に向上させることができる。複数の異なるデータ集合に基づいて広範な検証を行った結果、本願で提供されるモデルが優れた安定性及び優位性を有することを証明した。
以下、本願におけるターゲット検出装置を詳しく説明する。図18を参照すると、図18は、本願の実施例によるターゲット検出装置の一実施例を示す概略図である。ターゲット検出装置30は、取得モジュール301と、検出モジュール302と、を備え、
取得モジュール301は、第1検出待ち画像を取得するように構成され、前記第1検出待ち画像は、第1ドメインに属し、
前記取得モジュール301は更に、第1検出待ち画像に対応する第2検出待ち画像を取得するように構成され、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
検出モジュール302は、クロスドメイン画像検出モデルにより、前記取得モジュールが取得した前記第2検出待ち画像に対応する検出結果を取得するように構成され、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる。
本実施例において、取得モジュール301は、第1検出待ち画像を取得し、前記第1検出待ち画像は、第1ドメインに属する。前記取得モジュール301は、第1検出待ち画像に対応する第2検出待ち画像を取得し、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである。検出モジュール302は、クロスドメイン画像検出モデルにより、前記取得モジュール301が取得した前記第2検出待ち画像に対応する検出結果を取得し、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる。
本実施例において、画像に基づくターゲット検出装置を提供する。まず、該装置は、第1検出待ち画像を取得し、第1検出待ち画像は、第1ドメインに属する。続いて、クロスドメイン画像検出モデルにより、第1検出待ち画像に対応する第2検出待ち画像を取得し、第2検出待ち画像は、第2ドメインに属する。最後に、クロスドメイン画像検出モデルにより、第2検出待ち画像に対応する検出結果を取得し、検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、ターゲット対象は、第1検出待ち画像における被検対象に属する。上記方式によれば、検証集合の画像スタイルと同じの検出待ち画像を意図的に使用してターゲットの位置決めを行う必要がなく、クロスドメイン画像検出モデルを用いて、検出待ち画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、それによって、画像における位置決めの正確性を向上させ、モデル予測効果を向上させる。
以下、本願におけるモデル訓練装置を詳しく説明する。図19を参照すると、図19は、本願の実施例によるモデル訓練装置の一実施例を示す概略図である。モデル訓練装置40は、取得モジュール401と、訓練モジュール402と、を備え、
取得モジュール401は、訓練待ち画像及び検証待ち画像を取得するように構成され、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
前記取得モジュール401は更に、第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するように構成され、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属し、
前記取得モジュール401は更に、第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するように構成され、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠であり、
前記取得モジュール401は更に、前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するように構成され、
訓練モジュール402は、前記取得モジュール401が取得した前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るように構成される。
本実施例において、取得モジュール401は、訓練待ち画像及び検証待ち画像を取得し、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、前記取得モジュール401は、第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得し、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属し、前記取得モジュール401は、第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得し、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠であり、前記取得モジュールは、前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するように構成され、訓練モジュール402は、前記取得モジュール401が取得した前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得る。
本願の実施例において、モデル訓練装置を提供する。まず、訓練待ち画像及び検証待ち画像を取得し、続いて、第1訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第1訓練待ちネットワークモデルにより、検証待ち画像に対応する訓練スタイル画像を取得し、第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得し、第2訓練待ちネットワークモデルにより、検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得し、最後に、ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得る。上記方式によれば、訓練により得られたクロスドメイン画像検出モデルは、クロスドメイン画像の変換を実現させることができる。クロスドメイン画像検出モデルを用いることで、訓練集合の画像のスタイルを検証集合の画像のスタイルに変換し、変換後の画像に対して更にターゲットの位置決めを行い、画像における位置決めの正確性を向上させ、モデル予測効果を向上させることができる。
選択的に、上記図19に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置40のもう1つの実施例において、
前記訓練モジュール402は具体的には、前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定し、
前記予測確率値に基づいて、第2損失関数を決定し、
前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定し、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記ターゲット損失関数を生成し、
前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行うように構成される。
次に、本願の実施例において、ターゲット損失関数を得る方法を提供する。つまり、検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定し、続いて、予測確率値に基づいて、第2損失関数を決定し、更に、第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、第3損失関数を決定し、最後にターゲット損失関数を生成し、ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行う。上記方式で、モデル訓練過程を3つの部分に分け、それぞれ3つの損失関数を用いて、対応する訓練を行い、訓練の柔軟性及び操作可能性を向上させることができる。
選択的に、上記図19に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置40のもう1つの実施例において、
前記訓練モジュール402は具体的には、
式Lcyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(x))-x||]+Es~X(s)[||Gt-s(Gs-t(x))-x||]を用いて前記第1損失関数を決定するように構成され、
ここで、前記Lcys(Gt-s,Gs-t)は、前記第1損失関数を表し、前記xは、前記検証待ち画像を表し、前記xは、前記訓練待ち画像を表し、前記Gs-tは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Gt-sは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Gt-s(x)は、前記訓練スタイル画像を表し、前記Gs-t(x)は、前記検証スタイル画像を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表す。
また、本願の実施例において、検証スタイル画像及び訓練スタイル画像に基づいて第1損失関数を決定する具体的な方式を提供する。上記方式によれば、対となる訓練データが存在しない場合、画像内容をソースドメインからターゲットドメインに遷移することができる。第1訓練待ちネットワークモデルは、訓練を行う場合、ソースドメインの画像及びターゲットドメインの画像を入力とすればよい。ソースドメインとターゲットドメインの画像内容が一致することは求められていない。従って、柔軟性を有する。また、第1損失関数を用いる場合、2回変換された訓練集合の画像を、初期訓練集合の画像と可能な限り同じくし、2回変換された検証集合の画像を、初期検証集合の画像と可能な限り同じくすることを確保することができる。
選択的に、上記図19に対応する実施例を基に、図20を参照すると、本願の実施例で提供されるモデル訓練装置40のもう1つの実施例において、前記モデル訓練装置40は、検出モジュール403を更に備え、
前記検出モジュール403は、前記取得モジュール401が第1訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第1判別器により、前記検証スタイル画像に対して真実性検出を行うように構成され、前記第1判別器は、第1敵対的損失関数を用いて訓練して得られたものであり、
前記検出モジュール403は更に、前記取得モジュール401が第1訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、第2判別器により、前記訓練スタイル画像に対して真実性検出を行うように構成され、前記第2判別器は、第2敵対的損失関数を用いて訓練して得られたものである。
更に、本願の実施例において、第1訓練待ちネットワークモデルにより、訓練待ち画像に対応する検証スタイル画像を取得し、第1訓練待ちネットワークにより、検証待ち画像に対応する訓練スタイル画像を取得した後、更に、第1判別器により、検証スタイル画像に対して真実性検出を行い、第2判別器により、訓練スタイル画像に対して真実性検出を行うことができる。上記方式によれば、判別器を用いて、ジェネレータで生成された画像に対して真偽認識を行うことができ、モデル訓練効果の向上に寄与する。
選択的に、上記図20に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置40のもう1つの実施例において、
前記取得モジュール401は更に、前記検出モジュール403が第1判別器により前記検証スタイル画像に対して真実性検出を行う前に、
式LGAN(D,Gs-t)=Et~X(t)[log D(x)]+Es~X(s)[log(1-D(Gs-t(s)))]を用いて前記第1敵対的損失関数を取得するように構成され、
ここで、前記LGAN(D,Gs-t)は、前記第1敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記D( )は、前記第1判別器を表し、前記sは、前記第1ドメインの画像を表し、前記Gs-t( )は、前記第1ドメインの画像を前記第2ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
更に、本願の実施例において、第1判別器により、検証スタイル画像に対して真実性検出を行う前に、更に、第1敵対的損失関数を取得し、第1敵対的損失関数により、モデル効果の判別を行うことができる。上記方式によれば、第1ドメインから第2ドメインに変換された画像を更に第2ドメインの画像に近づけさせ、解決手段の実行可能性を向上させることができる。
選択的に、上記図20に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置40のもう1つの実施例において、
前記取得モジュール401は更に、前記検出モジュール403が第1判別器により前記検証スタイル画像に対して真実性検出を行う前に、
式LGAN(D,Gt-s)=Es~X(s)[log D(x)]+Et~X(t)[log(1-D(Gt-s(t)))]を用いて前記第2敵対的損失関数を取得するように構成され、
ここで、前記LGAN(D,Gt-s)は、前記第2敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記D( )は、前記第2判別器を表し、前記tは、前記第2ドメインの画像を表し、前記Gt-s( )は、前記第2ドメインの画像を前記第1ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
更に、本願の実施例において、第2判別器により、訓練スタイル画像に対して真実性検出を行う前に、更に、第2敵対的損失関数を取得し、第2敵対的損失関数により、モデル効果の判別を行うことができる。上記方式によれば、第2ドメインから第1ドメインに戻った画像を更に第1ドメインの画像に近づけさせ、解決手段の実行可能性を向上させることができる。
選択的に、上記図19又は図20に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置40のもう1つの実施例において、
前記訓練モジュール402は具体的には、
式Ldomain=-Σi,j[d log pi,j+(1-d)log(1-pi,j)]を用いて前記第2損失関数を決定するように構成され、
ここで、前記Ldomainは、前記第2損失関数を表し、前記pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表し、前記dは、画像出所値を表す。
更に、本願の実施例において、予測確率値に基づいて第2損失関数を決定する具体的な方式を提供する。上記方式によれば、画像の特徴が真実の検証集合の画像からのものであるか、それとも訓練集合の画像を変換して得られた検証スタイル画像であるかを判定し、モデルから出力された画像を更に実際の画像に近づけさせることができる。
選択的に、上記図19又は図20に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置40のもう1つの実施例において、
前記訓練モジュール402は具体的には、
式Ldet(p,u,t,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(t rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(t obj,vobj)を用いて前記第3損失関数を決定するように構成され、
ここで、前記Ldet(p,u,t,v)は、前記第3損失関数を表し、前記Lrpn-clsは、前記第2訓練待ちネットワークモデルにおける領域生成ネットワークRPNの分類損失関数を表し、前記prpnは、前記RPNの前記第1予測カテゴリ確率値を表し、前記urpnは、前記RPNの第1真実カテゴリ確率値を表し、前記Lrpn-locは、前記第2訓練待ちネットワークモデルにおける前記RPNの位置決め損失関数を表し、前記t rpnは、前記RPNの前記第1予測位置決め値を表し、前記vrpnは、前記RPNの第1真実位置決め値を表し、前記Lobj-clsは、前記第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記pobjは、前記ターゲット検出ネットワークの前記第2予測カテゴリ確率値を表し、前記uobjは、前記ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、前記Lobj-locは、前記第2訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記t objは、前記ターゲット検出ネットワークの前記第2予測位置決め値を表し、前記vobjは、前記ターゲット検出ネットワークの第2真実位置決め値を表す。
更に、本願の実施例において、第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、第3損失関数を決定する方法を提供する。上記方式によれば、モデル訓練のために、実現形態を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。
選択的に、上記図19又は図20に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置40のもう1つの実施例において、
前記訓練モジュール402は具体的には、
式L=Lcyc(Gt-s,Gs-t)+Ldomain+Ldetを用いて前記ターゲット損失関数を決定するように構成され、
ここで、前記Lは、前記ターゲット損失関数を表し、前記Lcyc(Gt-s,Gs-t)は、前記第1損失関数を表し、前記Ldomainは、前記第2損失関数を表し、前記Ldetは、前記第3損失関数を表す。
また、本願の実施例において、ターゲット損失関数を決定する具体的な方式を提供する。上記方式によれば、3つの損失関数に基づいて生成されたターゲット損失関数を用いる場合、クロスドメイン画像検出モデルの訓練をより好適に制御し、訓練の信頼性及び操作可能性を向上させることができる。
本願の実施例は、もう1つのターゲット検出装置を更に提供する。図21に示すように、説明しやすくするために、本願の実施例に係わる部分のみを示す。開示されていない具体的な技術的細部は、本願の実施例の方法を参照されたい。該端末機器は、携帯電話、タブレット、パーソナルデジタルアシスタント(personal digital assistant:PDA)、ポイントオブセールス機器(point of sales:POS)、車載コンピュータなどの任意の端末機器であってもよい。端末機器が携帯電話であることを例とする。
図21は、本願の実施例による端末機器に関わる携帯電話の一部の構造を示すブロック図である。図21を参照すると、携帯電話は、無線周波数(radio frequency:RF)回路510と、メモリ520、入力ユニット530、表示ユニット540、センサ550、オーディオ回路560、ワイヤレスフィデリティ(wireless fidelity:WiFi)モジュール570、プロセッサ580、電源590などの部材を備える。図21に示す携帯電話構造は、携帯電話を限定するものではなく、図示されているものよりも多いまたは少ない部材を備えてもよく、又は、幾つかの部材を組み合わせてもよく、又は、異なる部材配置を行ってもよいことは、当業者であれば、理解すべきである。
以下、図21を参照しながら、携帯電話の各構成部材を具体的に説明する。
RF回路510は、情報送受信又は通話過程で信号を送受信するように構成される。特に、基地局の下り情報を受信した後に、プロセッサ580に送信し、また、設計された上りデータを基地局に送信するように構成される。一般的には、RF回路510は、アンテナ、少なくとも1つの増幅器、送受信機、結合機、低雑音増幅器(Low Noise Amplifier:LNA)、デュプレクサなどを含んでもよく、これらに限定されない。また、RF回路510は更に、無線通信を介してネットワーク及び他の機器と通信できる。上記無線通信は、いずれか1つの通信規格又はプロトコルを用いることができる。通信規格又はプロトコルは、グローバルモバイル通信システム(Global System of Mobile communication:GSM)、汎用パケット無線サービス(General Packet Radio Service:GPRS)、符号分割多重アクセス(Code Division Multiple Access:CDMA)、広帯域符号分割多重アクセス(Wideband Code Division Multiple Access:WCDMA(登録商標))、長期的進化(Long Term Evolution:LTE)、電子メール、ショートメッセージサービス(Short Messaging Service:SMS)等を含むが、これらに限定されない。
メモリ520は、ソフトウェアプログラム及びモジュールを記憶するように構成され、プロセッサ580は、メモリ520に記憶されたソフトウェアプログラム及びモジュールを実行することで、携帯電話の種々の機能適用及びデータ処理を実行する。メモリ520は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラム(例えば、音声再生機能、画像再生機能など)などを記憶することができる。データ記憶領域は、携帯電話の使用に作成されたデータ(例えば、オーディオデータ、電話帳など)などを記憶することができる。また、メモリ520は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリを含んでもよい。例えば、少なくとも磁気ディスクメモリデバイス、フラッシュメモリデバイス又は他の揮発性ソリッドステートメモリデバイスを含む。
入力ユニット530は、入力された数字又は文字情報を受信し、携帯電話のユーザ設定及び機能制御に関わるキー信号入力を生成するように構成される。例えば、入力ユニット530は、タッチパネル531及び他の入力機器532を備えてもよい。タッチパネル531は、タッチスクリーンとも呼ばれ、その上又はその近傍でのユーザのタッチ操作(例えば、ユーザが指、スタイラスなどの如何なる適切な物体又はアセンブリを用いてタッチパネル531上又はタッチパネル531の近傍で行う操作)を収集し、事前設定されたプログラムに基づいて、対応する接続装置に駆動するために用いられる。選択的に、タッチパネル531は、タッチ検出装置及びタッチコントローラという2つの部分を含んでもよい。ここで、タッチ検出装置は、ユーザのタッチ方位を検出し、タッチ操作による信号を検出し、信号をタッチコントローラに伝送する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、タッチポイント座標に変換し、プロセッサ580に伝送し、プロセッサ580からの命令を受信して実行することができる。また、抵抗式、容量式、赤外線、及び弾性表面波等の多種のタイプを用いて、タッチパネル531を実現してもよい。タッチパネル531に加えて、入力ユニット530は、他の入力装置532を備えてもよい。具体的には、他の入力装置532は、物理的キーボード、機能キー(例えば、音量制御キー、スイッチキーなど)、トラックボール、マウス、操作レバーなどのうちの1つ又は複数を含んでもよいが、これらに限定されない。
表示ユニット540は、ユーザから入力された情報又はユーザに提供された情報及び携帯電話の種々のメニューを表示するように構成される。表示ユニット540は、表示パネル541を備えてもよい。選択的に、液晶ディスプレイ(liquid crystal display:LCD)、有機発光ダイオード(Organic Light-Emitting Diode:OLED)等の形態で表示パネル541を構成することができる。更に、タッチパネル531は、表示パネル541を被覆してもよい。タッチパネル531は、その上又はその近傍でのタッチ操作を検出した後、プロセッサ580に伝送してタッチイベントのタイプを決定する。続いて、プロセッサ580は、タッチイベントのタイプに基づいて、表示パネル541において、対応するビジョン出力を提供する。図21において、タッチパネル531と表示パネル541は、2つの独立した部材として携帯電話の入力及び出力機能を実現するが、幾つかの実施例において、タッチパネル531と表示パネル541を集積することで、携帯電話の入力及び出力機能を実現させることができる。
携帯電話は、例えば、光センサ、動きセンサ及び他のセンサのような、少なくとも1つのセンサ550を更に備えてもよい。具体的には、光センサは、環境光センサ及び近接センサを含んでもよい。環境光センサは、環境光の明暗に基づいて表示パネル541の輝度を調整することができる。近接センサは、携帯電話が耳の傍に移された場合、表示パネル541及び/又はバックライトを閉じることができる。動きセンサの1つとして、加速度センサは、各方向での(一般的には、3軸)加速度の大きさを検出することができる。静止時に、重力の大きさ及び方向を検出でき、携帯電話の姿勢の適用(例えば、横縦表示の切り替え、関連ゲーム、磁力計の姿勢の補正)、振動認識に関わる機能(例えば、歩数計、タッピング)などに用いられる。携帯電話に、ジャイロスコープ、気圧計、湿度計、温度計、赤外センサなどの他のセンサを配置してもよく、ここで、詳細な説明を省略する。
オーディオ回路560、スピーカー561、マイクロホン562は、ユーザと携帯電話とのオーディオインタフェースを提供することができる。オーディオ回路560は、受信したオーディオデータを変換して得られた電気信号をスピーカー561に伝送し、マイクロホン562により音声信号に変換して出力することができる。一方で、マイクロホン562は、収集した音声信号を電気信号に変換し、オーディオ回路560により受信した後に、オーディオデータに変換し、更にオーディオデータをプロセッサ580に出力して処理した後、RF回路510を介して、もう1つの携帯電話に送信するか又はオーディオデータをメモリ520に出力して更に処理する。
WiFiは、近距離無線伝送技術に属する。携帯電話は、WiFiモジュール570により、ユーザが電子メールを送受信して、ウェブページを閲覧して、ストリームメディアなどにアクセスすることを補助することができる。これは、ユーザに、無線のブロードバンドインターネットアクセスを提供する。図21は、WiFiモジュール570を示すが、これが携帯電話の不可欠な構造ではなく、本発明の本質を変更することなくこれを省略されてもよいことは、理解すべきである。
プロセッサ580は、携帯電話の制御センターである。これは、種々のインタフェース及び回路を利用して携帯電話全体の各部分を接続する。メモリ520に記憶されたソフトウェアプログラム及び/又はモジュールを行うか又は実行し、メモリ520に記憶されたデータを呼び出すことで、携帯電話の種々の機能を実行してデータを処理し、携帯電話全体に対してモニタリングする。選択的に、プロセッサ580は、1つ又は複数の処理ユニットを含んでもよい。選択的に、プロセッサ580は、プロセッサとモデムプロセッサを集積したものであってもよい。ここで、アプリケーションプロセッサは、オペレーティングシステム、ユーザインタフェース及びアプリケーションプログラムを処理することができる。モデムプロセッサは、無線通信を処理することができる。上記モデムプロセッサは、プロセッサ580に集積されなくてもよいことが理解すべきである。
携帯電話は、各部材に給電する電源590(例えば、バッテリ)を更に備える。選択的に、電源は、電源管理システムを介してプロセッサ580に論理的に接続されて、電源管理システムにより、充電及び放電の管理、エネルギー消費管理などの機能を実現させることができる。
図示されていないが、携帯電話は、カメラ、ブルートゥース(登録商標)モジュールなどを更に備えてもよく、ここで、詳細な説明を省略する。
本願の実施例において、該端末機器に備えられるプロセッサ580は、
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含む機能を更に有する。
本願の実施例において、該端末機器に備えられるプロセッサ580は、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む機能を更に有する。
図22は、本願の実施例によるサーバ構造を示す概略図である。該サーバ600は、構成又は性能によって大きく異なることがあり、1つ又は1つ以上の中央演算処理装置(central processing units:CPU)622(例えば、1つ又は1つ以上のプロセッサ)と、メモリ632と、アプリケーションプログラム642又はデータ644を記憶するための記憶媒体630(例えば1つ又は1つ以上の大容量記憶媒体)と、を備えてもよい。ここで、メモリ632及び記憶媒体630は一時的媒体又は永久的記憶媒体であってもよい。記憶媒体630に記憶されたプログラムは、1つ又は1つ以上のモジュール(図示されず)を含んでもよい。各モジュールは、サーバにおける一連の指令操作を含んでもよい。更に、中央演算処理装置622は、記憶媒体630と通信して、サーバ600で記憶媒体530における一連の命令操作を実行するように設定されてもよい。
サーバ600は、1つ又は1つ以上の電源626、1つ又は1つ以上の有線又は無線ネットワークインタフェース650、1つ又は1つ以上の入力出力インタフェース558、及び/又は、Windows ServerTM、Mac OS XTM、UnixTM, Linux(登録商標)、FreeBSDTM等のような1つ又は1つ以上のオペレーティングシステム641を更に含んでもよい。
上記実施例におけるサーバにより実行されたステップは、該図22に示すサーバ構造に基づいたものであってもよい。
本願の実施例において、該サーバに含まれるCPU 622は、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む機能を更に有する。
選択的に、該サーバに含まれるCPU 622は具体的には、
前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
前記予測確率値に基づいて、第2損失関数を決定するステップと、
前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記ターゲット損失関数を生成するステップと、
前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行うステップと、を実行するように構成される。
本願の実施例において、該サーバに含まれるCPU 622は、
第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、を含む機能を更に有する。
本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体は、プログラムコードを記憶するように構成され、該プログラムコードは、
訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
前記予測確率値、前記検証スタイル画像、前記訓練スタイル画像、前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含むモデル訓練ステップを実行するように構成される。
可能な実現形態において、該プログラムコードは、
前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
前記予測確率値に基づいて、第2損失関数を決定するステップと、
前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記ターゲット損失関数を生成するステップと、
前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行うステップと、を実行するように構成される。
可能な実現形態において、該プログラムコードは、
式Lcyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(x))-x||]+Es~X(s)[||Gt-s(Gs-t(x))-x||]を用いて前記第1損失関数を決定するステップを実行するように構成され、
ここで、前記Lcys(Gt-s,Gs-t)は、前記第1損失関数を表し、前記xは、前記検証待ち画像を表し、前記xは、前記訓練待ち画像を表し、前記Gs-tは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Gt-sは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Gt-s(x)は、前記訓練スタイル画像を表し、前記Gs-t(x)は、前記検証スタイル画像を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表す。
可能な実現形態において、該プログラムコードは、
第1判別器により、前記検証スタイル画像に対して真実性検出を行うステップであって、前記第1判別器は、第1敵対的損失関数を用いて訓練して得られたものである、ステップと、
第2判別器により、前記訓練スタイル画像に対して真実性検出を行うステップであって、前記第2判別器は、第2敵対的損失関数を用いて訓練して得られたものである、ステップと、を実行するように構成される。
可能な実現形態において、前記検出モジュールが第1判別器により前記検証スタイル画像に対して真実性検出を行う前に、前記方法は、
式LGAN(D,Gs-t)=Et~X(t)[log D(x)]+Es~X(s)[log(1-D(Gs-t(s)))]を用いて前記第1敵対的損失関数を取得するステップを更に含み、
ここで、前記LGAN(D,Gs-t)は、前記第1敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記D( )は、前記第1判別器を表し、前記sは、前記第1ドメインの画像を表し、前記Gs-t( )は、前記第1ドメインの画像を前記第2ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
可能な実現形態において、該プログラムコードは、
式LGAN(D,Gt-s)=Es~X(s)[log D(x)]+Et~X(t)[log(1-D(Gt-s(t)))]を用いて前記第2敵対的損失関数を取得するステップを実行するように構成され、
ここで、前記LGAN(D,Gt-s)は、前記第2敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記D( )は、前記第2判別器を表し、前記tは、前記第2ドメインの画像を表し、前記Gt-s( )は、前記第2ドメインの画像を前記第1ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表す。
可能な実現形態において、該プログラムコードは、
式Ldomain=-Σi,j[d log pi,j+(1-d)log(1-pi,j)]を用いて前記第2損失関数を決定するステップを実行するように構成され、
ここで、前記Ldomainは、前記第2損失関数を表し、前記pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表し、前記dは、画像出所値を表す。
可能な実現形態において、該プログラムコードは、
式Ldet(p,u,t,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(t rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(t obj,vobj)を用いて前記第3損失関数を決定するステップを実行するように構成され、
ここで、前記Ldet(p,u,t,v)は、前記第3損失関数を表し、前記Lrpn-clsは、前記第2訓練待ちネットワークモデルにおける領域生成ネットワークRPNの分類損失関数を表し、前記prpnは、前記RPNの前記第1予測カテゴリ確率値を表し、前記urpnは、前記RPNの第1真実カテゴリ確率値を表し、前記Lrpn-locは、前記第2訓練待ちネットワークモデルにおける前記RPNの位置決め損失関数を表し、前記t rpnは、前記RPNの前記第1予測位置決め値を表し、前記vrpnは、前記RPNの第1真実位置決め値を表し、前記Lobj-clsは、前記第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記pobjは、前記ターゲット検出ネットワークの前記第2予測カテゴリ確率値を表し、前記uobjは、前記ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、前記Lobj-locは、前記第2訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記t objは、前記ターゲット検出ネットワークの前記第2予測位置決め値を表し、前記vobjは、前記ターゲット検出ネットワークの第2真実位置決め値を表す。
可能な実現形態において、該プログラムコードは、
式L=Lcyc(Gt-s,Gs-t)+Ldomain+Ldetを用いて前記ターゲット損失関数を決定するステップを実行するように構成され、
ここで、前記Lは、前記ターゲット損失関数を表し、前記Lcyc(Gt-s,Gs-t)は、前記第1損失関数を表し、前記Ldomainは、前記第2損失関数を表し、前記Ldetは、前記第3損失関数を表す。
説明上の便宜及び簡素化を図るために、上記説明されたシステム、装置及びユニットの具体的な作動過程は、前記方法の実施例における対応した過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解すべきである。
本願で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明した前記ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットは、ハードウェアの形態で実現してもよく、ソフトウェア機能ユニットの形態で実現してもよい。
前記集積したユニットはソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ設備(パソコン、サーバ、又はネットワーク装置など)に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(Read-only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
また、上記実施例は本願の具体的な実施形態に過ぎず、本願の技術的解決手段を説明するためのものであり、これを限定するものではなく、本願の保護範囲はこれに制限されるものではなく、前記実施例を参照しながら、本願を詳細に説明したが、本技術分野を周知するいかなる当業者であれば、本願で開示された技術範囲内で、前記実施例に記載の技術的解決手段に対して修正を容易に思いつくことができ、又は一部の技術的特徴に対して均等物による置換を行うこともでき、これらの修正又は置換は、対応する技術的解決手段の本質を本願の実施例の技術的解決手段の精神及び範囲を離脱させるものではないことは、当業者であれば、理解すべきである。
30 ターゲット検出装置
40 モデル訓練装置
301 取得モジュール
302 検出モジュール
401 取得モジュール
402 訓練モジュール
403 検出モジュール
510 RF回路
520 メモリ
530 入力ユニット
531 タッチパネル
532 他の入力装置
540 表示ユニット
541 表示パネル
550 センサ
560 オーディオ回路
561 スピーカー
562 マイクロホン
570 WiFiモジュール
580 プロセッサ
590 電源
600 サーバ
622 中央演算処理装置
626 電源
630 記憶媒体
632 メモリ
641 オペレーティングシステム
642 アプリケーションプログラム
644 データ
650 有線又は無線ネットワークインタフェース
658 入力出力インタフェース

Claims (17)

  1. モデル訓練装置が実行する、モデル訓練方法であって、
    訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
    第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
    第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
    前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
    前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
    前記予測確率値に基づいて、第2損失関数を決定するステップと、
    前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
    前記第1損失関数、前記第2損失関数及び前記第3損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、L=L cyc (G t-s ,G s-t )+L domain +L det であり、前記L cyc (G t-s ,G s-t )は、前記第1損失関数を表し、前記L domain は、前記第2損失関数を表し、前記L det は、前記第3損失関数を表す、ステップと、
    前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含む、モデル訓練方法。
  2. 前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップは、
    cyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(x))-x||]+Es~X(s)[||Gt-s(Gs-t(x))-x||]という式を用いて前記第1損失関数を決定するステップを含み、
    記xは、前記検証待ち画像を表し、前記xは、前記訓練待ち画像を表し、前記Gs-tは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Gt-sは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Gt-s(x)は、前記訓練スタイル画像を表し、前記Gs-t(x)は、前記検証スタイル画像を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表すことを特徴とする
    請求項1に記載の方法。
  3. 第1訓練待ちネットワークモデルにより前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより前記検証待ち画像に対応する訓練スタイル画像を取得した後、前記方法は、
    第1判別器により、前記検証スタイル画像に対して真実性検出を行うステップであって、前記第1判別器は、第1敵対的損失関数を用いて訓練して得られたものである、ステップと、
    第2判別器により、前記訓練スタイル画像に対して真実性検出を行うステップであって、前記第2判別器は、第2敵対的損失関数を用いて訓練して得られたものである、ステップと、を更に含むことを特徴とする
    請求項1または2に記載の方法。
  4. 第1判別器により前記検証スタイル画像に対して真実性検出を行う前に、前記方法は、
    GAN(D,Gs-t)=Et~X(t)[log D(x)]+Es~X(s)[log(1-D(Gs-t(s)))]という方式を用いて前記第1敵対的損失関数を取得するステップを更に含み、
    前記LGAN(D,Gs-t)は、前記第1敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記D( )は、前記第1判別器を表し、前記sは、前記第1ドメインの画像を表し、前記Gs-t( )は、前記第1ドメインの画像を前記第2ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表すことを特徴とする
    請求項3に記載の方法。
  5. 第2判別器により前記訓練スタイル画像に対して真実性検出を行う前に、前記方法は、
    GAN(D,Gt-s)=Es~X(s)[log D(x)]+Et~X(t)[log(1-D(Gt-s(t)))]という方式を用いて前記第2敵対的損失関数を取得するステップを更に含み、
    前記LGAN(D,Gt-s)は、前記第2敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記D( )は、前記第2判別器を表し、前記tは、前記第2ドメインの画像を表し、前記Gt-s( )は、前記第2ドメインの画像を前記第1ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表すことを特徴とする
    請求項3に記載の方法。
  6. 前記予測確率値に基づいて第2損失関数を決定するステップは、
    domain=-Σi,j[d log pi,j+(1-d)log(1-pi,j)]という方式を用いて前記第2損失関数を決定するステップを含み、
    記pi,jは、i番目の候補領域の第jカテゴリにおける予測確率値を表し、前記dは、画像出所値を表すことを特徴とする
    請求項1に記載の方法。
  7. 前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定するステップは、
    det(p,u,t,v)=Lrpn-cls(prpn,urpn)+Lrpn-loc(t rpn,vrpn)+Lobj-cls(pobj,uobj)+Lobj-loc(t obj,vobj)という方式を用いて前記第3損失関数を決定するステップを含み、
    前記Ldet(p,u,t,v)は、前記第3損失関数を表し、前記Lrpn-clsは、前記第2訓練待ちネットワークモデルにおける領域生成ネットワーク(RPN)の分類損失関数を表し、前記prpnは、前記RPNの前記第1予測カテゴリ確率値を表し、前記urpnは、前記RPNの第1真実カテゴリ確率値を表し、前記Lrpn-locは、前記第2訓練待ちネットワークモデルにおける前記RPNの位置決め損失関数を表し、前記t rpnは、前記RPNの前記第1予測位置決め値を表し、前記vrpnは、前記RPNの第1真実位置決め値を表し、前記Lobj-clsは、前記第2訓練待ちネットワークモデルにおけるターゲット検出ネットワークの分類損失関数を表し、前記pobjは、前記ターゲット検出ネットワークの前記第2予測カテゴリ確率値を表し、前記uobjは、前記ターゲット検出ネットワークの第2真実カテゴリ確率値を表し、前記Lobj-locは、前記第2訓練待ちネットワークモデルにおける前記ターゲット検出ネットワークの位置決め損失関数を表し、前記t objは、前記ターゲット検出ネットワークの前記第2予測位置決め値を表し、前記vobjは、前記ターゲット検出ネットワークの第2真実位置決め値を表すことを特徴とする
    請求項1に記載の方法。
  8. ターゲット検出装置が実行する、画像に基づくターゲット検出方法であって、
    第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
    第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
    クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、
    検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
    予測確率値に基づいて、第2損失関数を決定するステップと、
    第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
    前記第1損失関数、前記第2損失関数及び前記第3損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、L=L cyc (G t-s ,G s-t )+L domain +L det であり、前記L cyc (G t-s ,G s-t )は、前記第1損失関数を表し、前記L domain は、前記第2損失関数を表し、前記L det は、前記第3損失関数を表す、ステップと、
    前記ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行うステップと、を含む、
    画像に基づくターゲット検出方法。
  9. ターゲット検出装置であって、取得モジュールと、検出モジュールと、訓練モジュールと、を備え
    取得モジュールは、第1検出待ち画像を取得するように構成され、前記第1検出待ち画像は、第1ドメインに属し、
    前記取得モジュールは更に、第1検出待ち画像に対応する第2検出待ち画像を取得するように構成され、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
    検出モジュールは、クロスドメイン画像検出モデルにより、前記取得モジュールが取得した前記第2検出待ち画像に対応する検出結果を取得するように構成され、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられ、
    前記訓練モジュールは、
    検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定し、
    予測確率値に基づいて、第2損失関数を決定し、
    第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、第3損失関数を決定し、
    前記第1損失関数、前記第2損失関数及び前記第3損失関数を加算することによって、ターゲット損失関数を生成するように構成され前記ターゲット損失関数は、L=L cyc (G t-s ,G s-t )+L domain +L det であり、前記L cyc (G t-s ,G s-t )は、前記第1損失関数を表し、前記L domain は、前記第2損失関数を表し、前記L det は、前記第3損失関数を表し、
    前記訓練モジュールは、前記ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行うように構成される、ターゲット検出装置。
  10. モデル訓練装置であって、取得モジュールと、訓練モジュールと、を備え、
    取得モジュールは、訓練待ち画像及び検証待ち画像を取得するように構成され、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインであり、
    前記取得モジュールは更に、第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するように構成され、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属し、
    前記取得モジュールは更に、第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するように構成され、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠であり、
    前記取得モジュールは更に、前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するように構成され、
    前記訓練モジュールは、
    前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定し、
    前記予測確率値に基づいて、第2損失関数を決定し、
    前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定し、
    前記第1損失関数、前記第2損失関数及び前記第3損失関数を加算することによって、ターゲット損失関数を生成するように構成され前記ターゲット損失関数は、L=L cyc (G t-s ,G s-t )+L domain +L det であり、前記L cyc (G t-s ,G s-t )は、前記第1損失関数を表し、前記L domain は、前記第2損失関数を表し、前記L det は、前記第3損失関数を表し、
    前記訓練モジュールは、前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るように構成される、モデル訓練装置。
  11. 端末機器であって、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
    前記メモリは、プログラムを記憶するように構成され、
    前記プロセッサは、前記メモリにおけるプログラムで、
    第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
    第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
    クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、
    検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
    予測確率値に基づいて、第2損失関数を決定するステップと、
    第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
    前記第1損失関数、前記第2損失関数及び前記第3損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、L=L cyc (G t-s ,G s-t )+L domain +L det であり、前記L cyc (G t-s ,G s-t )は、前記第1損失関数を表し、前記L domain は、前記第2損失関数を表し、前記L det は、前記第3損失関数を表す、ステップと、
    前記ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行うステップと、を実行するように構成され、
    前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、端末機器。
  12. 前記プロセッサは、前記メモリにおけるプログラムで、
    cyc(Gt-s,Gs-t)=Et~X(t)[||Gs-t(Gt-s(x))-x||]+Es~X(s)[||Gt-s(Gs-t(x))-x||]という方式を用いて前記第1損失関数を決定するステップを実行するように構成され、
    記xは、検証待ち画像を表し、前記xは、訓練待ち画像を表し、前記Gs-tは、前記訓練待ち画像を前記検証スタイル画像に変換するジェネレータを表し、前記Gt-sは、前記検証待ち画像を前記訓練スタイル画像に変換するジェネレータを表し、前記Gt-s(x)は、前記訓練スタイル画像を表し、前記Gs-t(x)は、前記検証スタイル画像を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表すことを特徴とする
    請求項1に記載の端末機器。
  13. 前記プロセッサは、前記メモリにおけるプログラムで、
    第1判別器により、検証スタイル画像に対して真実性検出を行うステップであって、前記第1判別器は、第1敵対的損失関数を用いて訓練して得られたものである、ステップと、
    第2判別器により、訓練スタイル画像に対して真実性検出を行うステップであって、前記第2判別器は、第2敵対的損失関数を用いて訓練して得られたものである、ステップと、を実行するように構成されることを特徴とする
    請求項1または1に記載の端末機器。
  14. 前記プロセッサは、前記メモリにおけるプログラムで、
    GAN(D,Gs-t)=Et~X(t)[log D(x)]+Es~X(s)[log(1-D(Gs-t(s)))]という方式を用いて前記第1敵対的損失関数を取得するステップを実行するように構成され、
    前記LGAN(D,Gs-t)は、前記第1敵対的損失関数を表し、前記Es~X(s)は、訓練待ち画像集合における各訓練待ち画像に対して期待値の算出を行うことを表し、前記Et~X(t)は、検証待ち画像集合における各検証待ち画像に対して期待値の算出を行うことを表し、前記D( )は、前記第1判別器を表し、前記sは、前記第1ドメインの画像を表し、前記Gs-t( )は、前記第1ドメインの画像を前記第2ドメインの画像に変換するネットワークを表し、前記xは、入力された画像を表すことを特徴とする
    請求項1に記載の端末機器。
  15. サーバであって、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
    前記メモリは、プログラムを記憶するように構成され、
    前記プロセッサは、前記メモリにおけるプログラムで、
    訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
    第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
    第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
    前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
    前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
    前記予測確率値に基づいて、第2損失関数を決定するステップと、
    前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
    前記第1損失関数、前記第2損失関数及び前記第3損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、L=L cyc (G t-s ,G s-t )+L domain +L det であり、前記L cyc (G t-s ,G s-t )は、前記第1損失関数を表し、前記L domain は、前記第2損失関数を表し、前記L det は、前記第3損失関数を表す、ステップと、
    前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を実行するように構成され、
    前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、サーバ。
  16. コンピュータプログラムであって、前記コンピュータプログラムがコンピュータで実行される時、コンピュータに、
    訓練待ち画像及び検証待ち画像を取得するステップであって、前記訓練待ち画像は、第1ドメインに属し、前記検証待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
    第1訓練待ちネットワークモデルにより、前記訓練待ち画像に対応する検証スタイル画像を取得し、前記第1訓練待ちネットワークモデルにより、前記検証待ち画像に対応する訓練スタイル画像を取得するステップであって、前記検証スタイル画像は、前記第2ドメインに属し、前記訓練スタイル画像は、前記第1ドメインに属する、ステップと、
    第2訓練待ちネットワークモデルにより、候補領域に対応する予測確率値を取得するステップであって、前記候補領域は、前記検証待ち画像又は前記検証スタイル画像から抽出された候補枠である、ステップと、
    前記第2訓練待ちネットワークモデルにより、前記検証スタイル画像に対応する第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値を取得するステップと、
    前記検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
    前記予測確率値に基づいて、第2損失関数を決定するステップと、
    前記第1予測カテゴリ確率値、前記第1予測位置決め値、前記第2予測カテゴリ確率値及び前記第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
    前記第1損失関数、前記第2損失関数及び前記第3損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、L=L cyc (G t-s ,G s-t )+L domain +L det であり、前記L cyc (G t-s ,G s-t )は、前記第1損失関数を表し、前記L domain は、前記第2損失関数を表し、前記L det は、前記第3損失関数を表す、ステップと、
    前記ターゲット損失関数を用いて、前記第1訓練待ちネットワークモデル及び前記第2訓練待ちネットワークモデルに対して訓練を行い、クロスドメイン画像検出モデルを得るステップと、を含むモデル訓練ステップを実行させる、コンピュータプログラム。
  17. コンピュータプログラムであって、前記コンピュータプログラムがコンピュータで実行される時、コンピュータに、
    第1検出待ち画像を取得するステップであって、前記第1検出待ち画像は、第1ドメインに属する、ステップと、
    第1検出待ち画像に対応する第2検出待ち画像を取得するステップであって、前記第2検出待ち画像は、第2ドメインに属し、前記第1ドメインは、前記第2ドメインと異なるドメインである、ステップと、
    クロスドメイン画像検出モデルにより、前記第2検出待ち画像に対応する検出結果を取得するステップであって、前記検出結果は、ターゲット対象のターゲットの位置決め情報及びターゲットカテゴリ情報を含み、前記ターゲット対象は、前記第1検出待ち画像における被検対象に属し、前記クロスドメイン画像検出モデルは、第1ネットワークモデル及び第2ネットワークモデルを含み、前記第1ネットワークモデルは、画像を前記第1ドメインから前記第2ドメインに変換するために用いられ、前記第2ネットワークモデルは、前記第2ドメインの画像に対して領域位置決めを行うために用いられる、ステップと、
    検証スタイル画像及び訓練スタイル画像に基づいて、第1損失関数を決定するステップと、
    予測確率値に基づいて、第2損失関数を決定するステップと、
    第1予測カテゴリ確率値、第1予測位置決め値、第2予測カテゴリ確率値及び第2予測位置決め値に基づいて、第3損失関数を決定するステップと、
    前記第1損失関数、前記第2損失関数及び前記第3損失関数を加算することによって、ターゲット損失関数を生成するステップであって、前記ターゲット損失関数は、L=L cyc (G t-s ,G s-t )+L domain +L det であり、前記L cyc (G t-s ,G s-t )は、前記第1損失関数を表し、前記L domain は、前記第2損失関数を表し、前記L det は、前記第3損失関数を表す、ステップと、
    前記ターゲット損失関数を用いて、第1訓練待ちネットワークモデル及び第2訓練待ちネットワークモデルに対して訓練を行うステップと、を含むターゲット検出ステップを実行させる、コンピュータプログラム。
JP2021519836A 2019-03-21 2020-03-13 ターゲット検出方法、モデル訓練方法、装置、機器及びコンピュータプログラム Active JP7265003B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910218444.5A CN109919251A (zh) 2019-03-21 2019-03-21 一种基于图像的目标检测方法、模型训练的方法及装置
CN201910218444.5 2019-03-21
PCT/CN2020/079218 WO2020187153A1 (zh) 2019-03-21 2020-03-13 目标检测方法、模型训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022504704A JP2022504704A (ja) 2022-01-13
JP7265003B2 true JP7265003B2 (ja) 2023-04-25

Family

ID=66966179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021519836A Active JP7265003B2 (ja) 2019-03-21 2020-03-13 ターゲット検出方法、モデル訓練方法、装置、機器及びコンピュータプログラム

Country Status (6)

Country Link
US (2) US11763541B2 (ja)
EP (1) EP3944147A4 (ja)
JP (1) JP7265003B2 (ja)
KR (1) KR20210078539A (ja)
CN (1) CN109919251A (ja)
WO (1) WO2020187153A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919251A (zh) 2019-03-21 2019-06-21 腾讯科技(深圳)有限公司 一种基于图像的目标检测方法、模型训练的方法及装置
EP3731154A1 (en) * 2019-04-26 2020-10-28 Naver Corporation Training a convolutional neural network for image retrieval with a listwise ranking loss function
CN110516707B (zh) * 2019-07-19 2023-06-02 深圳力维智联技术有限公司 一种图像标注方法及其装置、存储介质
US11455531B2 (en) * 2019-10-15 2022-09-27 Siemens Aktiengesellschaft Trustworthy predictions using deep neural networks based on adversarial calibration
CN111061890B (zh) * 2019-12-09 2023-04-07 腾讯云计算(北京)有限责任公司 一种标注信息验证的方法、类别确定的方法及装置
CN111209947A (zh) * 2019-12-31 2020-05-29 歌尔股份有限公司 图像识别方法、设备、存储介质及装置
CN111368878B (zh) * 2020-02-14 2023-02-28 北京电子工程总体研究所 一种基于ssd目标检测的优化方法、计算机设备和介质
CN111401138B (zh) * 2020-02-24 2023-11-07 上海理工大学 生成对抗神经网络训练过程的对抗优化方法
US11544503B2 (en) * 2020-04-06 2023-01-03 Adobe Inc. Domain alignment for object detection domain adaptation tasks
CN111881884B (zh) * 2020-08-11 2021-05-28 中国科学院自动化研究所 基于跨模态转化辅助的人脸防伪检测方法、系统及装置
CN112333155B (zh) * 2020-10-16 2022-07-22 济南浪潮数据技术有限公司 一种异常流量的检测方法、系统、电子设备及存储介质
US20220122222A1 (en) 2020-10-16 2022-04-21 Adobe Inc. Multi-scale output techniques for generative adversarial networks
CN112464461B (zh) * 2020-11-20 2021-09-28 北京赛目科技有限公司 一种自动驾驶测试场景的构建方法及装置
CN112528862B (zh) * 2020-12-10 2023-02-10 西安电子科技大学 基于改进的交叉熵损失函数的遥感图像目标检测方法
CN113139500B (zh) * 2021-05-10 2023-10-20 重庆中科云从科技有限公司 烟雾检测方法、系统、介质及设备
CN113065614B (zh) * 2021-06-01 2021-08-31 北京百度网讯科技有限公司 分类模型的训练方法和对目标对象进行分类的方法
CN113792853B (zh) * 2021-09-09 2023-09-05 北京百度网讯科技有限公司 字符生成模型的训练方法、字符生成方法、装置和设备
CN113793325A (zh) * 2021-09-22 2021-12-14 北京市商汤科技开发有限公司 一种检测方法、装置、计算机设备和存储介质
CN115082299B (zh) * 2022-07-21 2022-11-25 中国科学院自动化研究所 非严格对齐的小样本不同源图像转换方法、系统及设备
CN115631178B (zh) * 2022-11-03 2023-11-10 昆山润石智能科技有限公司 自动晶圆缺陷检测方法、系统、设备及存储介质
CN115731533B (zh) * 2022-11-29 2024-04-05 淮阴工学院 一种基于改进YOLOv5的车载目标检测方法
CN116205905B (zh) * 2023-04-25 2023-07-21 合肥中科融道智能科技有限公司 基于移动端的配电网施工安全及质量图像检测方法及系统
CN116226789B (zh) * 2023-05-08 2023-08-18 锋睿领创(珠海)科技有限公司 基于人工智能的数据同分布判别方法、装置、设备及介质
CN116343144B (zh) * 2023-05-24 2023-08-11 武汉纺织大学 一种融合视觉感知自适应去雾的实时目标检测方法
CN117336453B (zh) * 2023-11-27 2024-01-30 湖南苏科智能科技有限公司 一种安检图像转换方法、系统、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710896A (zh) 2018-04-24 2018-10-26 浙江工业大学 基于产生式对抗学习网络的领域学习方法
JP2020119553A (ja) 2019-01-28 2020-08-06 株式会社ストラドビジョンStradvision,Inc. ドメイン適応に適用され得るサイクルganを利用してリアルイメージ上の物体検出に使用される、リアル世界におけるリアルイメージをバーチャル世界におけるバーチャルイメージに変換するランタイム入力変換のための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10318889B2 (en) * 2017-06-26 2019-06-11 Konica Minolta Laboratory U.S.A., Inc. Targeted data augmentation using neural style transfer
US20190130220A1 (en) * 2017-10-27 2019-05-02 GM Global Technology Operations LLC Domain adaptation via class-balanced self-training with spatial priors
CN108564127B (zh) * 2018-04-19 2022-02-18 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备及存储介质
US11429841B1 (en) * 2018-07-27 2022-08-30 Snap Inc. Feedback adversarial learning
US10915792B2 (en) * 2018-09-06 2021-02-09 Nec Corporation Domain adaptation for instance detection and segmentation
US11640519B2 (en) * 2018-10-31 2023-05-02 Sony Interactive Entertainment Inc. Systems and methods for domain adaptation in neural networks using cross-domain batch normalization
CN109919251A (zh) * 2019-03-21 2019-06-21 腾讯科技(深圳)有限公司 一种基于图像的目标检测方法、模型训练的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710896A (zh) 2018-04-24 2018-10-26 浙江工业大学 基于产生式对抗学习网络的领域学习方法
JP2020119553A (ja) 2019-01-28 2020-08-06 株式会社ストラドビジョンStradvision,Inc. ドメイン適応に適用され得るサイクルganを利用してリアルイメージ上の物体検出に使用される、リアル世界におけるリアルイメージをバーチャル世界におけるバーチャルイメージに変換するランタイム入力変換のための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yuhu Shan 他,Pixel and Feature Level Based Domain Adaption for Object Detection in Autonomous Driving,arXiv,2018年09月30日,[online],[2022年5月18日検索],インターネット <URL: https://arxiv.org/pdf/1810.00345v1.pdf>,arXiv:1810.00345v1

Also Published As

Publication number Publication date
EP3944147A4 (en) 2022-06-01
US20210279513A1 (en) 2021-09-09
CN109919251A (zh) 2019-06-21
JP2022504704A (ja) 2022-01-13
KR20210078539A (ko) 2021-06-28
US11763541B2 (en) 2023-09-19
US20230360357A1 (en) 2023-11-09
EP3944147A1 (en) 2022-01-26
WO2020187153A1 (zh) 2020-09-24

Similar Documents

Publication Publication Date Title
JP7265003B2 (ja) ターゲット検出方法、モデル訓練方法、装置、機器及びコンピュータプログラム
WO2020199926A1 (zh) 一种图像识别网络模型训练方法、图像识别方法及装置
CN110544488B (zh) 一种多人语音的分离方法和装置
CN111476306B (zh) 基于人工智能的物体检测方法、装置、设备及存储介质
CN108304758B (zh) 人脸特征点跟踪方法及装置
CN108280458B (zh) 群体关系类型识别方法及装置
CN109785368B (zh) 一种目标跟踪方法和装置
CN109670174B (zh) 一种事件识别模型的训练方法和装置
CN111145339B (zh) 图像处理方法及装置、设备、存储介质
CN108764051B (zh) 图像处理方法、装置及移动终端
CN110163045A (zh) 一种手势动作的识别方法、装置以及设备
CN113723378B (zh) 一种模型训练的方法、装置、计算机设备和存储介质
CN108170817A (zh) 照片主体的演变视频获取方法、装置及可读存储介质
CN108958634A (zh) 快递信息获取方法、装置、移动终端以及存储介质
CN114722937A (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN109086796A (zh) 图像识别方法、装置、移动终端以及存储介质
CN109302528A (zh) 一种拍照方法、移动终端及计算机可读存储介质
KR101995799B1 (ko) 상황 인지 서비스를 제공하기 위한 장소 인식 장치 및 방법
CN111984803A (zh) 多媒体资源处理方法、装置、计算机设备及存储介质
WO2023137923A1 (zh) 基于姿态指导的行人重识别方法、装置、设备及存储介质
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN116486463B (zh) 图像处理方法、相关装置及存储介质
CN113887534B (zh) 一种对象检测模型的确定方法和相关装置
CN111681255B (zh) 一种对象识别方法和相关装置
CN117115596B (zh) 对象动作分类模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210409

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230222

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230222

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230306

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230413

R150 Certificate of patent or registration of utility model

Ref document number: 7265003

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150