CN113111947B

CN113111947B - 图像处理方法、装置和计算机可读存储介质

Info

Publication number: CN113111947B
Application number: CN202110410920.0A
Authority: CN
Inventors: 陶大程; 王文; 翟伟
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2024-04-09
Anticipated expiration: 2041-04-16
Also published as: KR20230171966A; US20240257423A1; WO2022218396A1; CN113111947A; JP2024513596A

Abstract

本公开涉及一种图像处理方法、装置和计算机可读存储介质，涉及计算机技术领域。本公开的方法包括：获取源域图像的源域内容特征，获取目标域图像的目标域风格特征；以生成的新风格特征与源域图像的源域风格特征和目标域风格特征不同、各种新风格特征不同，以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致为目标，生成多种新风格特征，并更新源域内容特征和目标域风格特征；将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合，分别生成第一图像和第二图像；利用第一图像、第二图像、源域图像对目标检测模型进行训练，得到训练完成的目标检测模型。

Description

图像处理方法、装置和计算机可读存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种图像处理方法、装置和计算机可读存储介质。

背景技术

在实际生活中，对人类所感兴趣的目标进行自动化且准确的检测具有广泛的应用价值。例如，通过目标检测，自动驾驶系统能够有效避让行人和障碍，遥感系统能够定位到人类感兴趣的区域，工业生产线能够筛选并定位存在瑕疵的零件。

现有的目标检测算法往往在精心采集的高质量清晰数据集上训练。然而，现实中由于天气变化、光照变化、物体运动、数据采集等原因，图像往往存在对比度下降、模糊、噪声等质量下降问题。因此，实际进行目标检测的图像是与训练图像的风格不同的降质图像。

发明人已知的基于域适应的鲁棒目标检测算法，即通过对抗训练等方法实现特征分布对齐，从而将源域标注数据上训练的模型更好的泛化到目标域上。这类方法往往假设目标域中仅存在一种降质类型(风格类型)。

发明内容

发明人发现：现实中训练完成一个目标检测模型常常需要对多种降质类型(风格类型)的图像都能做出准确检测。而现有的训练方法无法使目标检测模型识别多种风格类型的图像。此外，在实际应用场景种获取多种风格类型图像并进行风格类型的标注用于训练往往需要大量的人力物力。

本公开所要解决的一个技术问题是：如何提高目标检测模型训练的效率以及有效性。

根据本公开的一些实施例，提供的一种图像处理方法，包括：获取源域图像的源域内容特征，获取目标域图像的目标域风格特征；以生成的新风格特征与源域图像的源域风格特征和目标域风格特征不同、各种新风格特征不同，以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致为目标，生成多种新风格特征，并更新源域内容特征和目标域风格特征；将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合，分别生成第一图像和第二图像；利用第一图像、第二图像、源域图像对目标检测模型进行训练，得到训练完成的目标检测模型。

在一些实施例中，获取源域图像的源域内容特征，获取目标域图像的目标域风格特征包括：利用内容编码器提取源域图像的源域内容特征；利用风格编码器提取目标域图像的目标域风格特征。

在一些实施例中，风格编码器包括风格特征提取网络和聚类模块，利用风格编码器提取目标域图像的目标域风格特征包括：将各个目标域图像输入风格特征提取网络，得到输出的各个目标域图像的基本风格特征；将各个目标域图像的基本风格特征输入聚类模块进行聚类，得到聚类中心的特征向量，作为目标域风格特征。

在一些实施例中，生成多种新风格特征包括：随机生成预设数量新风格特征，并将生成的新风格特征和源域内容特征输入生成网络，得到第一迁移图像；将目标域风格特征和源域内容特征输入生成网络，得到第二迁移图像；根据第一迁移图像与对应的源域图像的风格差异，第一迁移图像与对应的第二迁移图像的风格差异，确定第一损失函数，用于表示生成的新风格特征与源域风格特征和目标域风格特征差异；根据各个第一迁移图像之间的风格差异，确定第二损失函数，用于表示各种新风格特征之间的差异；根据第一迁移图像的语义特征与对应的源域图像的语义特征的差异，确定第三损失函数，用于表示新风格特征与源域内容特征结合生成的图像与源域图像的语义差异；根据第一损失函数、第二损失函数、第三损失函数，调整生成的新风格特征，直至达到与目标对应的预设收敛条件，得到生成的多种新风格特征。

在一些实施例中，更新源域内容特征和目标域风格特征包括：根据第一损失函数、第二损失函数、第三损失函数，调整内容编码器、风格编码器、生成网络的参数，直至达到与目标对应的预设收敛条件；在达到与目标对应的预设收敛条件的情况下，将内容编码器输出的源域内容特征作为更新后的源域内容特征，风格编码器输出的目标域风格特征作为更新后的目标域内容特征。

在一些实施例中，将第一迁移图像与对应的源域图像分别作为第一参考图像和第二参考图像，或者，将第一迁移图像与对应的第二迁移图像分别作为第一参考图像和第二参考图像，或者将任意两个第一迁移图像分别作为第一参考图像和第二参考图像，则第一参考图像和第二参考图像之间的风格差异采用以下方法确定：将第一参考图像和第二参考图像分别输入预训练的特征提取网络中预设的多个特征层；针对每个特征层，将该特征层输出的第一参考图像的特征取均值和方差，作为第一均值和第一方差，将该特征层输出的第二参考图像的特征取均值和方差，作为第二均值和第二方差；根据各个特征层对应的第一均值和第二均值的差距，第一方差和第二方差的差距，确定第一参考图像和第二参考图像之间的风格差异。

在一些实施例中，第一损失函数根据以下公式确定：

其中，表示第i个新风格特征第k个源域图像对应的第一损失函数，k为正整数，1≤k≤n_s，i为正整数，n＝n_s+n_t表示源域图像和目标域图像的总数，n_s和n_t分别表示源域图像和目标域图像的数量，n_j表示第j个目标域风格特征对应的目标图像的数量，K_t表示目标域风格特征的数量，T_nov是一个超参数，表示距离最大化的阈值。1≤j≤K_t，j为正整数，表示第k个源域图像，/>表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络，得到的第一迁移图像，/>表示第j个目标域风格特征和第k个源域图像的源域内容特征输入生成网络，得到的第二迁移图像，d(·)表示两个图像之间的风格差异的确定函数。

在一些实施例中，第二损失函数根据以下公式确定：

其中，表示第i个新风格特征第k个源域图像对应的第二损失函数，1≤i≤K_n，i为正整数，K_n表示预设数量，T_div是一个超参数，表示距离最大化的阈值。/>表示第j个新风格特征第k个源域图像的源域内容特征输入生成网络，得到的第一迁移图像，1≤j≤K_n，j为正整数，/>表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络，得到的第一迁移图像，d(·)表示两个图像之间的风格差异的确定函数。

在一些实施例中，第三损失函数根据以下公式确定：

其中，表示第i个新风格特征第k个源域图像对应的第三损失函数，φ_sm(·)表示语义特征提取器的函数，/>表示第k个源域图像，/>表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络，得到的第一迁移图像。

在一些实施例中，根据第一损失函数、第二损失函数、第三损失函数，调整生成的新风格特征包括：将第一损失函数、第二损失函数、第三损失函数进行加权求和得到目标损失函数；根据目标损失函数确定梯度；根据梯度和预设学习率调整生成的新风格特征；其中，随机生成的预设数量新风格特征中每个维度上的取值从标准正太分布中随机采样得到的。

在一些实施例中，将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合，分别生成第一图像和第二图像包括：在达到与目标对应的预设收敛条件的情况下，将生成的多种新风格特征和更新后的源域内容特征输入生成网络，得到第一图像，将更新后的目标域风格特征和更新后的源域内容特征输入生成网络，得到第二图像。

在一些实施例中，利用第一图像、第二图像、源域图像对目标检测模型进行训练包括：将第一图像、第二图像和源域图像分别输入目标检测模型，得到第一图像的目标检测结果，第二图像的目标检测结果，源域图像的目标检测结果；根据第一图像的目标检测结果，第二图像的目标检测结果，源域图像的目标检测结果分别与对应的源域图像的标注信息的差异，确定目标检测损失函数；根据目标检测损失函数对目标检测模型的参数进行调整。

在一些实施例中，利用第一图像、第二图像、源域图像对目标检测模型进行训练还包括：将第一图像、第二图像、源域图像和目标域图像分别输入目标检测模型的基础特征提取网络，得到第一图像的基础特征、第二图像的基础特征、源域图像的基础特征和目标域图像的基础特征；将第一图像的基础特征、第二图像的基础特征、源域图像的基础特征和目标域图像的基础特征分别输入梯度反转层后再输入判别网络，得到第一图像的判别结果，第二图像的判别结果，源域图像的判别结果和目标域图像的判别结果；根据第一图像的判别结果，第二图像的判别结果，源域图像的判别结果，目标域图像的判别结果，确定判别损失函数；根据目标检测损失函数对目标检测模型的参数进行调整包括：根据目标检测损失函数和判别损失函数对目标检测模型的参数进行调整。

在一些实施例中，目标检测结果包括：定位结果和分类结果，其中，定位结果为检测的目标的位置信息，分类结果为检测的目标的类别信息，源域图像的标注信息包括源域图像中目标的位置信息和源域图像中目标的类别信息；根据第一图像的目标检测结果，第二图像的目标检测结果，源域图像的目标检测结果分别与对应的源域图像的标注信息的差异，确定目标检测损失函数包括：根据第一图像的定位结果，第二图像的定位结果，源域图像的定位结果分别与对应的源域图像中目标的位置信息的差异，确定定位损失函数；根据第一图像的分类结果，第二图像的分类结果，源域图像的分类结果别与对应的源域图像中目标的类别信息的差异，确定分类损失函数；将定位损失函数和分类损失函数加权求和，确定目标检测损失函数。

在一些实施例中，定位损失函数根据以下公式确定：

其中，表示第k个源域图像对应的定位损失，/>表示第k个源域图像，/>表示第k个源域图像中目标的位置信息，/>表示第k个源域图像的定位结果与第k个源域图像中目标的位置信息的定位损失，d_i表示生成的多种新风格特征和更新后的目标域风格特征的集合中第i种风格特征，/>表示第i种风格特征与第k个源域图像更新后的源域内容特征结合生成的图像，该图像为第一图像或第二图像，/>表示该图像的定位结果与第k个源域图像中目标的位置信息的定位损失，1≤i≤N_d，i为正整数，N_d表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数。

在一些实施例中，分类损失函数根据以下公式确定：

其中，表示第k个源域图像对应的分类损失，/>表示第k个源域图像，/>表示第k个源域图像目标的类别信息，/>示第k个源域图像的分类结果与第k个源域图像中目标的类别信息的分类损失，d_i表示生成的多种新风格特征和更新后的目标域风格特征的集合中第i种风格特征，/>表示第i种风格特征与第k个源域图像更新后的源域内容特征结合生成的图像，该图像为第一图像或第二图像，/>表示该图像的分类结果与第k个源域图像中目标的类别信息的分类损失，1≤i≤N_d，i为正整数，N_d表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数。

在一些实施例中，判别损失函数根据以下公式确定：

其中，表示第i个源域图像，n_s表示源域图像的数量，/>则表示根据各个源域图像的判别结果确定的源域判别损失函数；/>表示第j个目标域图像，/>表示第j个目标域图像所属的风格类型；n_t表示目标域图像的数量，1≤j≤n_t，j为正整数，表示根据各个目标域图像的判别结果确定的目标域判别损失函数，d_k表示生成的多种新风格特征和更新后的目标域风格特征的集合中第k种风格特征，/>表示第k种风格特征与第i个源域图像更新后的源域内容特征结合生成的图像，1≤k≤N_d，k为正整数，N_d表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数，/>表示根据第一图像的判别结果和第二图像的判别结果确定的判别损失函数。

在一些实施例中，

其中，1≤h≤H，h为正整数，表示图像中像素的高度，1≤w≤W，w为正整数，表示图像中像素的宽度，H和W分别表示图像中像素的最大高度和最大宽度，F(·)表示基础特征提取网络和梯度反转层的函数。

在一些实施例中，该方法还包括：将待检测图像输入训练完成的目标检测模型，得到待检测图像的目标检测结果。

根据本公开的另一些实施例，提供的一种图像处理装置，包括：获取模块，用于获取源域内容特征，获取目标域图像的目标域风格特征；特征生成模块，用于以生成的新风格特征与源域图像的源域风格特征和目标域风格特征不同、各种新风格特征不同，以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致为目标，生成多种新风格特征，并更新源域内容特征和目标域风格特征；图像生成模块，用于将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合，分别生成第一图像和第二图像；训练模块，用于利用第一图像、第二图像、源域图像对目标检测模型进行训练，得到训练完成的目标检测模型。

根据本公开的又一些实施例，提供的一种图像处理装置，包括：处理器；以及耦接至处理器的存储器，用于存储指令，指令被处理器执行时，使处理器执行如前述任意实施例的图像处理方法。

根据本公开的再一些实施例，提供的一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意实施例的图像处理方法。

本公开中根据源域图像的源域内容特征和源域风格特征，目标域图像的目标域风格特征自动生成多种新风格特征，生成的新风格特征互不相同，与源域风格特征、目标域风格特征也不同，并且新风格特征与源域内容特征结合生成的图像与源域图像的语义一致。因此，生成的新风格特征可以与更新后的源域内容特征，生成第一图像作为训练样本对目标检测模型进行域适应训练，进一步，目标域风格特征与更新后的源域内容特征结合生成的第二图像和源域图像也作为训练样本对目标检测模型进行域适应训练。由于本公开中自动生成新风格特征用于训练，提高了训练效率，减少了人工标注成本，并且多种新风格特征和目标域风格特征共同用于生成训练样本，丰富了训练样本的风格类型，使得训练完成的目标检测模型可以对多种风格类型的图像都能做出准确检测，提高了目标检测模型的有效性。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开的一些实施例的图像处理方法的流程示意图。

图2示出本公开的一些实施例的网络架构的示意图。

图3示出本公开的一些实施例的图像处理装置的结构示意图。

图4示出本公开的另一些实施例的图像处理装置的结构示意图。

图5示出本公开的又一些实施例的图像处理装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开提供一种图像处理方法，下面结合图1～3进行描述。

图1为本公开图像处理方法一些实施例的流程图。如图1所示，该实施例的方法包括：步骤S102～S108。

在步骤S102中，获取源域图像的源域内容特征和源域风格特征，获取目标域图像的目标域风格特征。

例如，用来表示有标注的源域图像集合，其中/>表示第i个源域图像，/>表示第i个源域图像对应的标注信息(标签)，标注信息包括语义标签，例如源域图像中目标的位置信息和/或源域图像中目标的类别信息，标注信息还可以包括域标签，即源域图像的风格类型。n_s是源域图像的数量。无标注的目标域图像集合可以表示为/> 表示第i个目标域图像，n_t是目标域图像的数量。

内容特征用于反映图像的语义信息，例如不同像素所属的语义类别(车、人、背景等)。风格特征用于反映图像的降质类型，例如，由于天气变化，采集到的图片可能会受到雨、雪、雾的影响而变得不清晰；由于光照变化，采集到的图片可能存在过曝光、低光照等问题；由于采集设备和采集过程的影响，图片可能存在模糊、噪声等问题。源域图像和目标域图像具有相同或相似的语义信息，但是具有不同的降质类型即风格特征。

在一些实施例中，利用内容编码器提取源域图像的源域内容特征；利用风格编码器提取目标域图像的目标域风格特征。采用不同的编码器分别对风格特征(StyleRepresentation)和内容特征(Content Representation)进行编码，可以对图像的内容特征和风格特征解耦。内容编码器和风格编码器可以采用卷积神经网络(CNN)，例如，VGGNet或ResNet等。

在一些实施例中，如图2所示，风格编码器包括风格特征提取网络和聚类模块。将各个目标域图像输入风格特征提取网络，得到输出的各个目标域图像的基本风格特征；将各个目标域图像的基本风格特征输入聚类模块进行聚类，得到多个聚类中心的特征向量，作为多个目标域风格特征。

源域图像可以均属于一种风格类型，目标域图像可以属于一种或多种风格类型。由于目标域图像没有标注信息，因此采用聚类方法可以得到目标域图像的一个或多个聚类中心，作为一个或多个目标域风格特征，分别用于表示不同的风格类型。聚类算法可以采用现有算法，例如，K-means、均值漂移聚类、基于密度的聚类算法等。通过聚类可以为每个目标域图像打上域伪标签，即为每个目标域图像标注风格类型。

在步骤S104中，以生成的新风格特征与源域图像的源域风格特征和目标域风格特征不同、各种新风格特征不同，以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致为目标，生成多种新风格特征，并更新源域内容特征和目标域风格特征。

为实现上述目标，可以建立不同的损失函数进行训练。在一些实施例中，如图2所示，随机生成预设数量新风格特征，并将生成的新风格特征和源域内容特征输入生成网络，得到第一迁移图像；将目标域风格特征和源域内容特征输入生成网络，得到第二迁移图像；根据第一迁移图像与对应的源域图像的风格差异，第一迁移图像与对应的第二迁移图像的风格差异，确定第一损失函数，用于表示生成的新风格特征与源域风格特征和目标域风格特征差异；根据各个第一迁移图像之间的风格差异，确定第二损失函数，用于表示各种新风格特征之间的差异；根据第一迁移图像的语义特征与对应的源域图像的语义特征的差异，确定第三损失函数，用于表示新风格特征与源域内容特征结合生成的图像与源域图像的语义差异；根据第一损失函数、第二损失函数、第三损失函数，调整生成的新风格特征，直至达到与目标对应的预设收敛条件，得到生成的多种新风格特征。

预设数量可以与目标域风格特征的数量(即目标域图像所属的风格类型的数量)相同。例如，随机生成的预设数量新风格特征中每个维度上的取值从标准正太分布中随机采样得到的。

生成网络用于将风格特征和内容特征进行融合，例如可以采用CNN等现有模型，不限于所举示例。新风格特征和源域内容特征输入生成网络可以得到源域到新域的迁移图像，即第一迁移图像。目标域风格特征和源域内容特征输入生成网络，可以得到源域到目标域的迁移图像，即第二迁移图像。

第一损失函数和第二损失函数都是基于两个图像的风格差异确定的。在一些实施例中，将第一迁移图像与对应的源域图像分别作为第一参考图像和第二参考图像，或者，将第一迁移图像与对应的第二迁移图像分别作为第一参考图像和第二参考图像，或者将任意两个第一迁移图像分别作为第一参考图像和第二参考图像，则第一参考图像和第二参考图像之间的风格差异采用以下方法确定。与第一迁移图像对应的源域图像即用于生成第一迁移图像的源域内容特征所属的源域图像，同理，与第一迁移图像对应的第二迁移图像即利用同一源域内容特征生成的第一迁移图像和第二迁移图像。

将第一参考图像和第二参考图像分别输入预训练的特征提取网络(如图2所示)中预设的多个特征层；针对每个特征层，将该特征层输出的第一参考图像的特征取均值和方差，作为第一均值和第一方差，将该特征层输出的第二参考图像的特征取均值和方差，作为第二均值和第二方差；根据各个特征层对应的第一均值和第二均值的差距，第一方差和第二方差的差距，确定第一参考图像和第二参考图像之间的风格差异。各个特征层对应的第一均值和第二均值的差距越大，第一方差和第二方差的差距越大，则第一参考图像和第二参考图像之间的风格差异越大。

预训练的特征提取网络例如为预训练的VGG19，不限于所举示例。例如，第一参考图像和第二参考图像之间的风格差异采用以下公式确定：

公式(1)中，x₁,x₂分别表示第一参考图像和第二参考图像，1≤i≤L，i为正整数，L表示预训练的特征提取网络中预设的多个特征层的数量，φ_i(·)表示预训练的特征提取网络中第i层的函数，μ(·)表示求均值，σ(·)表示求方差。

在一些实施例中，第一损失函数用于表示生成的新风格特征与源域风格特征和目标域风格特征差异，利用第一损失函数进行训练，可以使新风格特征与源域以及目标域上现有的风格不同，以达到和现有图像风格互补的效果。例如，第一损失函数根据以下公式确定。

公式(2)中，表示第i个新风格特征第k个源域图像对应的第一损失函数，k为正整数，1≤k≤n_s，i为正整数，n＝n_s+n_t表示源域图像和目标域图像的总数，n_s和n_t分别表示源域图像和目标域图像的数量，n_j表示第j个目标域风格特征对应的目标图像的数量，K_t表示目标域风格特征的数量，T_nov是一个超参数，表示距离最大化的阈值。1≤j≤K_t，j为正整数，/>表示第k个源域图像，/>表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络，得到的第一迁移图像，/>表示第j个目标域风格特征和第k个源域图像的源域内容特征输入生成网络，得到的第二迁移图像，d(·)表示两个图像之间的风格差异的确定函数。

在一些实施例中，第二损失函数用于表示各种新风格特征之间的差异。利用第二损失函数进行训练，可以使生成的新风格特征相互之间应当有所不同，以保证生成的新域的多样性。例如，第二损失函数根据以下公式确定：

公式(3)中，表示第i个新风格特征第k个源域图像对应的第二损失函数，1≤i≤K_n，i为正整数，K_n表示预设数量，T_div是一个超参数，表示距离最大化的阈值。/>表示第j个新风格特征第k个源域图像的源域内容特征输入生成网络，得到的第一迁移图像，1≤j≤K_n，j为正整数，/>表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络，得到的第一迁移图像，d(·)表示两个图像之间的风格差异的确定函数。

在一些实施例中，第一迁移图像的语义特征与源域图像的语义特征通过语义特征提取器获取的。第三损失函数用于表示新风格特征与源域内容特征结合生成的图像(第一迁移图像)与源域图像的语义差异。利用第三损失函数进行训练，可以使第一迁移图像和对应的源域图像的语义一致，将源域上的语义标签运用到对应的生成图像上。例如，第三损失函数根据以下公式确定。

公式(4)中，表示第i个新风格特征第k个源域图像对应的第三损失函数，φ_sm(·)表示语义特征提取器的函数，/>表示第k个源域图像，/>表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络，得到的第一迁移图像。

在一些实施例中，将第一损失函数、第二损失函数、第三损失函数进行加权求和得到目标损失函数。例如，目标损失函数可以采用以下公式确定。

公式(5)中，1≤k≤n_s，λ₁和λ₂分别为和/>的权重。

在一些实施例中，每次训练迭代过程(epoch)，根据目标损失函数确定梯度；根据梯度和预设学习率调整生成的新风格特征。例如，将新风格特征对应的向量减去梯度与预设学习率的乘积，得到调整后的新风格特征。

在一些实施例中，在调整新风格特征的同时，根据第一损失函数、第二损失函数、第三损失函数，调整内容编码器、风格编码器、生成网络的参数，直至达到与目标对应的预设收敛条件；在达到与目标对应的预设收敛条件的情况下，将内容编码器输出的源域内容特征作为更新后的源域内容特征，风格编码器输出的目标域风格特征作为更新后的目标域内容特征。

例如，每次训练迭代过程，根据目标损失函数确定梯度；根据梯度和预设学习率调整内容编码器、风格编码器、生成网络的参数，同时还可以调整语义特征提取器的参数。

每次训练迭代过程，根据目标损失函数调整生成的新风格特征、调整内容编码器、风格编码器、生成网络以及语义特征提取器的参数。重新将调整后的新风格特征和更新后的源域内容特征输入生成网络，得到第一迁移图像；将更新后的目标域风格特征和更新后的源域内容特征输入调整后的生成网络，得到第二迁移图像；根据第一迁移图像与对应的源域图像的风格差异，第一迁移图像与对应的第二迁移图像的风格差异，确定第一损失函数；根据各个第一迁移图像之间的风格差异，确定第二损失函数；根据第一迁移图像的语义特征与对应的源域图像的语义特征的差异，确定第三损失函数；根据第一损失函数、第二损失函数、第三损失函数确定目标损失函数。重复上述过程，直至达到与目标对应的预设收敛条件，例如预设收敛条件为目标损失函数值最小，不限于所举示例。

在步骤S106中，将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合，分别生成第一图像和第二图像。

在一些实施例中，在达到与目标对应的预设收敛条件的情况下，将生成的多种新风格特征和更新后的源域内容特征输入生成网络，得到第一图像，将更新后的目标域风格特征和更新后的源域内容特征输入生成网络，得到第二图像。利用前述实施例的训练过程可以得到训练后的生成网络，利用训练后的生成网络生成第一图像和第二图像，如图2所示。

在步骤S108中，利用第一图像、第二图像、源域图像对目标检测模型进行训练，得到训练完成的目标检测模型。

步骤S102～S104为第一阶段的训练过程，即新颖图像风格对抗探索，得到了更新后的源域内容特征、目标域风格特征以及对抗生成的新风格特征，进而利用步骤S106生成第一图像和第二图像用于第二阶段的训练(步骤S108)即训练域不变目标检测模型。

由于第一图像和第二图像都是基于对应的源域内容特征生成的，因此，第一图像和第二图像与对应的源域图像具有相同的内容特征表示，二者的语义标签一致，可以将源域上的语义标签作为第一图像和第二图像的语义标签。

在一些实施例中，将第一图像、第二图像和源域图像分别输入目标检测模型，得到第一图像的目标检测结果，第二图像的目标检测结果，源域图像的目标检测结果；根据第一图像的目标检测结果，第二图像的目标检测结果，源域图像的目标检测结果分别与对应的源域图像的标注信息的差异，确定目标检测损失函数；根据目标检测损失函数对目标检测模型的参数进行调整。与第一图像或第二图像对应的源域图像是指用于生成第一图像或第二图像的源域内容特征所属的源域图像。

在一些实施例中，如图2所示，目标检测模型包括基础特征提取网络和目标检测网络。第一图像、第二图像和源域图像分别输入基础特征提取网络，得到第一图像的基础特征、第二图像的基础特征、源域图像的基础特征，再将第一图像的基础特征、第二图像的基础特征、源域图像的基础特征输入目标检测网络得到第一图像的目标检测结果，第二图像的目标检测结果，源域图像的目标检测结果。

在一些实施例中，目标检测结果包括：定位结果和分类结果中至少一项。定位结果为检测的目标的位置信息(例如包含目标的矩形框的坐标信息)，分类结果为检测的目标的类别信息(例如，车、人、背景等)，源域图像的标注信息包括语义标签，例如源域图像中目标的位置信息和/或源域图像中目标的类别信息。

在目标检测结果包括定位结果和分类结果的情况下，根据第一图像的定位结果，第二图像的定位结果，源域图像的定位结果分别与源域图像中目标的位置信息的差异，确定定位损失函数；根据第一图像的分类结果，第二图像的分类结果，源域图像的分类结果别与源域图像中目标的类别信息的差异，确定分类损失函数；将定位损失函数和分类损失函数加权求和，确定目标检测损失函数。目标检测结果包括定位结果或分类结果的情况，则值确定定位损失函数或分类损失函数即可，不再赘述。

在一些实施例中，定位损失函数根据以下公式确定：

公式(6)中，表示第k个源域图像对应的定位损失，/>表示第k个源域图像，表示第k个源域图像中目标的位置信息，/>表示第k个源域图像的定位结果与第k个源域图像中目标的位置信息的定位损失，d_i表示生成的多种新风格特征和更新后的目标域风格特征的集合中第i种风格特征，/>表示第i种风格特征与第k个源域图像更新后的源域内容特征结合生成的图像，该图像为第一图像或第二图像，表示该图像的定位结果与第k个源域图像中目标的位置信息的定位损失，1≤i≤N_d，i为正整数，N_d表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数。

在一些实施例中，分类损失函数根据以下公式确定：

公式(7)中，表示第k个源域图像对应的分类损失，/>表示第k个源域图像，表示第k个源域图像目标的类别信息，/>示第k个源域图像的分类结果与第k个源域图像中目标的类别信息的分类损失，d_i表示生成的多种新风格特征和更新后的目标域风格特征的集合中第i种风格特征，/>表示第i种风格特征与第k个源域图像更新后的源域内容特征结合生成的图像，该图像为第一图像或第二图像，/>表示该图像的分类结果与第k个源域图像中目标的类别信息的分类损失，1≤i≤N_d，i为正整数，N_d表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数。

为了进一步提高目标检测模型的准确率，可以增加判别器通过域判别结果对目标检测模型进行训练。在一些实施例中，如图2所示，将第一图像的基础特征、第二图像的基础特征、源域图像的基础特征和目标域图像的基础特征分别输入梯度反转层后再输入判别网络，得到第一图像的判别结果，第二图像的判别结果，源域图像的判别结果和目标域图像的判别结果；根据第一图像的判别结果，第二图像的判别结果，源域图像的判别结果，目标域图像的判别结果，确定判别损失函数；根据目标检测损失函数和判别损失函数对目标检测模型的参数进行调整。

各种基础特征被送入判别器之前，先输入梯度反转层用来反转特征的梯度，从而让判别器和基础特征提取网络往相反的方向进行优化，以迫使基础特征提取网络学习到域不变的特征表示。

在一些实施例中，判别损失函数根据以下公式确定：

公式(8)-(10)中，表示第i个源域图像，n_s表示源域图像的数量，则表示根据各个源域图像的判别结果确定的源域判别损失函数；/>表示第j个目标域图像，/>表示第j个目标域图像所属的风格类型；n_t表示目标域图像的数量，1≤j≤n_t，j为正整数，/>表示根据各个目标域图像的判别结果确定的目标域判别损失函数，d_k表示生成的多种新风格特征和更新后的目标域风格特征的集合中第k种风格特征，/>表示第k种风格特征与第i个源域图像更新后的源域内容特征结合生成的图像，1≤k≤N_d，k为正整数，N_d表示生成的多种新风格特征和更新后的目标域风格特征的集合中风格特征的总数，/>示根据第一图像的判别结果和第二图像的判别结果确定的判别损失函数。

上述公式(8)-(10)中，判别损失函数包括三个部分即源域判别损失函数、目标域损失函数以及根据第一图像的判别结果和第二图像的判别结果确定的判别损失函数。各部分损失函数可以根据以下公式确定。

公式(12)-(14)中，1≤h≤H，h为正整数，表示图像中像素的高度，1≤w≤W，w为正整数，表示图像中像素的宽度，H和W分别表示图像中像素的最大高度和最大宽度，F(·)表示基础特征提取网络和梯度反转层的函数。

在一些实施例中，将目标检测损失函数和判别损失函数进行加权求和得到总损失函数，对目标检测模型的参数进行调整。总损失函数可以采用以下公式确定。

公式(15)中，λ_LOC和λ_CLS分别为和/>的权重。

在一些实施例中，每次训练迭代过程，根据总损失函数调整目标检测模型和判别器的参数，具体训练过程可以参考现有技术，不再赘述。基础特征提取网络可以采用CNN模型，例如VGG，ResNet等，不限于所举示例。

本公开的训练过程包括两个阶段，第一阶段是基于对抗探索的新风格的生成方法，该方法包含生成的新风格特征与源域风格特征和目标域风格特征不同、各种新风格特征不同，以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致不变三个目标。第二阶段是训练域不变的目标检测模型。该过程基于风格特征上的域伪标签(例如，通过聚类为每个目标域图像打上域伪标签)，通过对抗训练的机制得到对多个域鲁棒的特征表示和目标检测模型。

上述实施例的方法，根据源域图像的源域内容特征，目标域图像的目标域风格特征自动生成多种新风格特征，生成的新风格特征互不相同，与源域风格特征、目标域风格特征也不同，并且新风格特征与源域内容特征结合生成的图像与源域图像的语义一致。因此，生成的新风格特征可以与更新后的源域内容特征，生成第一图像作为训练样本对目标检测模型进行域适应训练，进一步，目标域风格特征与更新后的源域内容特征结合生成的第二图像和源域图像也作为训练样本对目标检测模型进行域适应训练。由于本公开中自动生成新风格特征用于训练，提高了训练效率，减少了人工标注成本，并且多种新风格特征和目标域风格特征共同用于生成训练样本，丰富了训练样本的风格类型，使得训练完成的目标检测模型可以对多种风格类型的图像都能做出准确检测，提高了目标检测模型的有效性。

训练后的目标检测模型可以用于对图像的目标检测。在一些实施例中，将待检测图像输入训练完成的目标检测模型，得到待检测图像的目标检测结果。

本公开还提供一种图像处理装置，下面结合图3进行描述。

图3为本公开图像处理装置的一些实施例的结构图。如图3所示，该实施例的装置30包括：获取模块310，特征生成模块320，图像生成模块330，训练模块340。

获取模块310用于获取源域内容特征，获取目标域图像的目标域风格特征。

在一些实施例中，获取模块310用于利用内容编码器提取源域图像的源域内容特征；利用风格编码器提取目标域图像的目标域风格特征。

在一些实施例中，风格编码器包括风格特征提取网络和聚类模块，获取模块310用于将各个目标域图像输入风格特征提取网络，得到输出的各个目标域图像的基本风格特征；将各个目标域图像的基本风格特征输入聚类模块进行聚类，得到聚类中心的特征向量，作为目标域风格特征。

特征生成模块320用于以生成的新风格特征与源域图像的源域风格特征和目标域风格特征不同、各种新风格特征不同，以及新风格特征与源域内容特征结合生成的图像与源域图像的语义一致为目标，生成多种新风格特征，并更新源域内容特征和目标域风格特征。

在一些实施例中，特征生成模块320用于随机生成预设数量新风格特征，并将生成的新风格特征和源域内容特征输入生成网络，得到第一迁移图像；将目标域风格特征和源域内容特征输入生成网络，得到第二迁移图像；根据第一迁移图像与对应的源域图像的风格差异，第一迁移图像与对应的第二迁移图像的风格差异，确定第一损失函数，用于表示生成的新风格特征与源域风格特征和目标域风格特征差异；根据各个第一迁移图像之间的风格差异，确定第二损失函数，用于表示各种新风格特征之间的差异；根据第一迁移图像的语义特征与对应的源域图像的语义特征的差异，确定第三损失函数，用于表示新风格特征与源域内容特征结合生成的图像与源域图像的语义差异；根据第一损失函数、第二损失函数、第三损失函数，调整生成的新风格特征，直至达到与目标对应的预设收敛条件，得到生成的多种新风格特征。

在一些实施例中，特征生成模块320用于根据第一损失函数、第二损失函数、第三损失函数，调整内容编码器、风格编码器、生成网络的参数，直至达到与目标对应的预设收敛条件；在达到与目标对应的预设收敛条件的情况下，将内容编码器输出的源域内容特征作为更新后的源域内容特征，风格编码器输出的目标域风格特征作为更新后的目标域内容特征。

第一损失函数、第二损失函数、第三损失函数可以分别参考公式(2)-(4)确定，不再赘述。

在一些实施例中，特征生成模块320用于将第一损失函数、第二损失函数、第三损失函数进行加权求和得到目标损失函数；根据目标损失函数确定梯度；根据梯度和预设学习率调整生成的新风格特征；其中，随机生成的预设数量新风格特征中每个维度上的取值从标准正太分布中随机采样得到的。

图像生成模块330用于将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合，分别生成第一图像和第二图像。

在一些实施例中，图像生成模块330用于在达到与目标对应的预设收敛条件的情况下，将生成的多种新风格特征和更新后的源域内容特征输入生成网络，得到第一图像，将更新后的目标域风格特征和更新后的源域内容特征输入生成网络，得到第二图像。

训练模块340用于利用第一图像、第二图像、源域图像对目标检测模型进行训练，得到训练完成的目标检测模型。

在一些实施例中，训练模块340用于将第一图像、第二图像和源域图像分别输入目标检测模型，得到第一图像的目标检测结果，第二图像的目标检测结果，源域图像的目标检测结果；根据第一图像的目标检测结果，第二图像的目标检测结果，源域图像的目标检测结果分别与对应的源域图像的标注信息的差异，确定目标检测损失函数；根据目标检测损失函数对目标检测模型的参数进行调整。

在一些实施例中，训练模块340还用于将第一图像、第二图像、源域图像和目标域图像分别输入目标检测模型的基础特征提取网络，得到第一图像的基础特征、第二图像的基础特征、源域图像的基础特征和目标域图像的基础特征；将第一图像的基础特征、第二图像的基础特征、源域图像的基础特征和目标域图像的基础特征分别输入梯度反转层后再输入判别网络，得到第一图像的判别结果，第二图像的判别结果，源域图像的判别结果和目标域图像的判别结果；根据第一图像的判别结果，第二图像的判别结果，源域图像的判别结果，目标域图像的判别结果，确定判别损失函数；根据目标检测损失函数和判别损失函数对目标检测模型的参数进行调整。

在一些实施例中，目标检测结果包括：定位结果和分类结果，其中，定位结果为检测的目标的位置信息，分类结果为检测的目标的类别信息，源域图像的标注信息包括源域图像中目标的位置信息和源域图像中目标的类别信息；训练模块340用于根据第一图像的定位结果，第二图像的定位结果，源域图像的定位结果分别与对应的源域图像中目标的位置信息的差异，确定定位损失函数；根据第一图像的分类结果，第二图像的分类结果，源域图像的分类结果别与对应的源域图像中目标的类别信息的差异，确定分类损失函数；将定位损失函数和分类损失函数加权求和，确定目标检测损失函数。

定位损失函数、分类损失函数、判别损失函数等可以参考前述实施例的公式(6)-(15)，在此不再赘述。

在一些实施例中，图像处理装置30还包括：目标检测模块350，用于将待检测图像输入训练完成的目标检测模型，得到待检测图像的目标检测结果。

本公开的实施例中的图像处理装置可各由各种计算设备或计算机系统来实现，下面结合图4以及图5进行描述。

图4为本公开图像处理装置的一些实施例的结构图。如图4所示，该实施例的装置40包括：存储器410以及耦接至该存储器410的处理器420，处理器420被配置为基于存储在存储器410中的指令，执行本公开中任意一些实施例中的图像处理方法。

其中，存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

图5为本公开图像处理装置的另一些实施例的结构图。如图5所示，该实施例的装置50包括：存储器510以及处理器520，分别与存储器410以及处理器420类似。还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530，540，550以及存储器510和处理器520之间例如可以通过总线560连接。其中，输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口，例如可以连接到数据库服务器或者云端存储服务器等。存储接口550为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种图像处理方法，包括：

获取源域图像的源域内容特征和目标域图像的目标域风格特征；

以生成的新风格特征与所述源域图像的源域风格特征和所述目标域风格特征不同、各种新风格特征不同，以及所述新风格特征与所述源域内容特征结合生成的图像与所述源域图像的语义一致为目标，生成多种新风格特征，并更新所述源域内容特征和目标域风格特征，包括：随机生成预设数量新风格特征，并将生成的新风格特征和所述源域内容特征输入生成网络，得到第一迁移图像；将所述目标域风格特征和所述源域内容特征输入所述生成网络，得到第二迁移图像；根据所述第一迁移图像与对应的源域图像的风格差异，所述第一迁移图像与对应的第二迁移图像的风格差异，确定第一损失函数；根据各个第一迁移图像之间的风格差异，确定第二损失函数；根据所述第一迁移图像的语义特征与对应的源域图像的语义特征的差异，确定第三损失函数；根据所述第一损失函数、第二损失函数、第三损失函数，调整生成的新风格特征，直至达到与所述目标对应的预设收敛条件，得到生成的多种新风格特征；

将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合，分别生成第一图像和第二图像；

利用所述第一图像、所述第二图像、所述源域图像对目标检测模型进行训练，得到训练完成的目标检测模型。

2.根据权利要求1所述的图像处理方法，其中，所述获取源域图像的源域内容特征，获取目标域图像的目标域风格特征包括：

利用内容编码器提取所述源域图像的源域内容特征；

利用风格编码器提取所述目标域图像的目标域风格特征。

3.根据权利要求2所述的图像处理方法，其中，所述风格编码器包括风格特征提取网络和聚类模块，所述利用风格编码器提取所述目标域图像的目标域风格特征包括：

将各个目标域图像输入所述风格特征提取网络，得到输出的各个目标域图像的基本风格特征；

将各个目标域图像的基本风格特征输入所述聚类模块进行聚类，得到聚类中心的特征向量，作为目标域风格特征。

4.根据权利要求2所述的图像处理方法，其中，所述更新所述源域内容特征和目标域风格特征包括：

根据所述第一损失函数、第二损失函数、第三损失函数，调整所述内容编码器、所述风格编码器、所述生成网络的参数，直至达到与所述目标对应的预设收敛条件；

在达到与所述目标对应的预设收敛条件的情况下，将所述内容编码器输出的所述源域内容特征作为更新后的源域内容特征，所述风格编码器输出的所述目标域风格特征作为更新后的目标域内容特征。

5.根据权利要求1所述的图像处理方法，其中，将所述第一迁移图像与对应的源域图像分别作为第一参考图像和第二参考图像，或者，将所述第一迁移图像与对应的第二迁移图像分别作为第一参考图像和第二参考图像，或者将任意两个第一迁移图像分别作为第一参考图像和第二参考图像，则第一参考图像和第二参考图像之间的风格差异采用以下方法确定：

将第一参考图像和第二参考图像分别输入预训练的特征提取网络中预设的多个特征层；

针对每个特征层，将该特征层输出的第一参考图像的特征取均值和方差，作为第一均值和第一方差，将该特征层输出的第二参考图像的特征取均值和方差，作为第二均值和第二方差；

根据各个特征层对应的第一均值和第二均值的差距，第一方差和第二方差的差距，确定第一参考图像和第二参考图像之间的风格差异。

6.根据权利要求1所述的图像处理方法，其中，所述第一损失函数根据以下公式确定：

其中，表示第i个新风格特征第k个源域图像对应的第一损失函数，k为正整数，1≤k≤n_s，i为正整数，n＝n_s+n_t表示源域图像和目标域图像的总数，n_s和n_t分别表示源域图像和目标域图像的数量，n_j表示第j个目标域风格特征对应的目标图像的数量，K_t表示目标域风格特征的数量，T_nov是一个超参数，表示距离最大化的阈值，1≤j≤K_t，j为正整数，/>表示第k个源域图像，/>表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络，得到的第一迁移图像，/>表示第j个目标域风格特征和第k个源域图像的源域内容特征输入所述生成网络，得到的第二迁移图像，d(·)表示两个图像之间的风格差异的确定函数。

7.根据权利要求1所述的图像处理方法，其中，所述第二损失函数根据以下公式确定：

其中，表示第i个新风格特征第k个源域图像对应的第二损失函数，1≤i≤K_n，i为正整数，K_n表示所述预设数量，T_div是一个超参数，表示距离最大化的阈值，/>表示第j个新风格特征第k个源域图像的源域内容特征输入所述生成网络，得到的第一迁移图像，1≤j≤K_n，j为正整数，/>表示第i个新风格特征和第k个源域图像的源域内容特征输入生成网络，得到的第一迁移图像，d(·)表示两个图像之间的风格差异的确定函数。

8.根据权利要求1所述的图像处理方法，其中，所述第三损失函数根据以下公式确定：

9.根据权利要求1所述的图像处理方法，其中，所述根据所述第一损失函数、第二损失函数、第三损失函数，调整生成的新风格特征包括：

将所述第一损失函数、第二损失函数、第三损失函数进行加权求和得到目标损失函数；

根据所述目标损失函数确定梯度；

根据所述梯度和预设学习率调整生成的新风格特征；

其中，随机生成的预设数量新风格特征中每个维度上的取值从标准正太分布中随机采样得到的。

10.根据权利要求4所述的图像处理方法，其中，所述将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合，分别生成第一图像和第二图像包括：

在达到与所述目标对应的预设收敛条件的情况下，将生成的多种新风格特征和更新后的源域内容特征输入所述生成网络，得到所述第一图像，将更新后的目标域风格特征和更新后的源域内容特征输入所述生成网络，得到所述第二图像。

11.根据权利要求1所述的图像处理方法，其中，所述利用所述第一图像、所述第二图像、所述源域图像对目标检测模型进行训练包括：

将所述第一图像、所述第二图像和所述源域图像分别输入所述目标检测模型，得到所述第一图像的目标检测结果，所述第二图像的目标检测结果，所述源域图像的目标检测结果；

根据所述第一图像的目标检测结果，所述第二图像的目标检测结果，所述源域图像的目标检测结果分别与对应的源域图像的标注信息的差异，确定目标检测损失函数；

根据所述目标检测损失函数对所述目标检测模型的参数进行调整。

12.根据权利要求11所述的图像处理方法，其中，所述利用所述第一图像、所述第二图像、所述源域图像对目标检测模型进行训练还包括：

将所述第一图像、所述第二图像、所述源域图像和所述目标域图像分别输入所述目标检测模型的基础特征提取网络，得到所述第一图像的基础特征、所述第二图像的基础特征、所述源域图像的基础特征和所述目标域图像的基础特征；

将所述第一图像的基础特征、所述第二图像的基础特征、所述源域图像的基础特征和所述目标域图像的基础特征分别输入梯度反转层后再输入判别网络，得到所述第一图像的判别结果，所述第二图像的判别结果，所述源域图像的判别结果和所述目标域图像的判别结果；

根据所述第一图像的判别结果，所述第二图像的判别结果，所述源域图像的判别结果，所述目标域图像的判别结果，确定判别损失函数；

所述根据所述目标检测损失函数对所述目标检测模型的参数进行调整包括：

根据所述目标检测损失函数和所述判别损失函数对所述目标检测模型的参数进行调整。

13.根据权利要求11所述的图像处理方法，其中，所述目标检测结果包括：定位结果和分类结果，其中，所述定位结果为检测的目标的位置信息，所述分类结果为检测的目标的类别信息，所述源域图像的标注信息包括所述源域图像中目标的位置信息和所述源域图像中目标的类别信息；

所述根据所述第一图像的目标检测结果，所述第二图像的目标检测结果，所述源域图像的目标检测结果分别与对应的源域图像的标注信息的差异，确定目标检测损失函数包括：

根据所述第一图像的定位结果，所述第二图像的定位结果，所述源域图像的定位结果分别与对应的源域图像中目标的位置信息的差异，确定定位损失函数；

根据所述第一图像的分类结果，所述第二图像的分类结果，所述源域图像的分类结果别与对应的源域图像中目标的类别信息的差异，确定分类损失函数；

将所述定位损失函数和所述分类损失函数加权求和，确定所述目标检测损失函数。

14.根据权利要求13所述的图像处理方法，其中，所述定位损失函数根据以下公式确定：

15.根据权利要求13所述的图像处理方法，其中，所述分类损失函数根据以下公式确定：

16.根据权利要求12所述的图像处理方法，其中，所述判别损失函数根据以下公式确定：

17.根据权利要求16所述的图像处理方法，其中，

其中，1≤h≤H，h为正整数，表示图像中像素的高度，1≤w≤W，w为正整数，表示图像中像素的宽度，H和W分别表示图像中像素的最大高度和最大宽度，F(·)表示所述基础特征提取网络和所述梯度反转层的函数。

18.根据权利要求1所述的图像处理方法，还包括：

将待检测图像输入训练完成的目标检测模型，得到所述待检测图像的目标检测结果。

19.一种图像处理装置，包括：

获取模块，用于获取源域内容特征，获取目标域图像的目标域风格特征；

特征生成模块，用于以生成的新风格特征与所述源域图像的源域风格特征和所述目标域风格特征不同、各种新风格特征不同，以及所述新风格特征与所述源域内容特征结合生成的图像与所述源域图像的语义一致为目标，生成多种新风格特征，并更新所述源域内容特征和目标域风格特征；

图像生成模块，用于将生成的多种新风格特征和更新后的目标域风格特征分别与更新后的源域内容特征结合，分别生成第一图像和第二图像；

训练模块，用于利用所述第一图像、所述第二图像、所述源域图像对目标检测模型进行训练，得到训练完成的目标检测模型，

其中，所述特征生成模块用于随机生成预设数量新风格特征，并将生成的新风格特征和所述源域内容特征输入生成网络，得到第一迁移图像；将所述目标域风格特征和所述源域内容特征输入所述生成网络，得到第二迁移图像；根据所述第一迁移图像与对应的源域图像的风格差异，所述第一迁移图像与对应的第二迁移图像的风格差异，确定第一损失函数；根据各个第一迁移图像之间的风格差异，确定第二损失函数；根据所述第一迁移图像的语义特征与对应的源域图像的语义特征的差异，确定第三损失函数；根据所述第一损失函数、第二损失函数、第三损失函数，调整生成的新风格特征，直至达到与所述目标对应的预设收敛条件，得到生成的多种新风格特征。

20.一种图像处理装置，包括：

处理器；以及

耦接至所述处理器的存储器，用于存储指令，所述指令被所述处理器执行时，使所述处理器执行如权利要求1-18任一项所述的图像处理方法。

21.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1-18任一项所述方法的步骤。