CN114693983B

CN114693983B - 基于图像-实例对齐网络的训练方法和跨域目标检测方法

Info

Publication number: CN114693983B
Application number: CN202210595693.8A
Authority: CN
Inventors: 张天柱; 张哲�; 张勇东; 姜涵; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-30
Anticipated expiration: 2042-05-30
Also published as: CN114693983A

Abstract

本发明提供了一种基于图像‑实例对齐网络的训练方法和跨域目标检测方法。其中，该训练方法包括：将源域图片输入目标检测主干网络，得到初始化类别原型和待训练目标检测主干网络；将源域图片和目标域图片输入待训练目标检测主干网络，得到特征图和候选框区域特征；将特征图输入自适应前景感知的注意力模块，得到域标签概率和前景感知域标签概率；将候选框区域特征和初始化类别原型输入类别感知的原型对齐模块，得到候选框区域特征矩阵和初始化类别原型矩阵，利用候选框区域特征矩阵对初始化类别原型矩阵进行更新，得到滑动平均后的类别原型矩阵；对待训练目标检测主干网络联合训练，调整待训练目标检测主干网络的网络参数。

Description

基于图像-实例对齐网络的训练方法和跨域目标检测方法

技术领域

本发明属于数据识别领域，具体涉及计算机视觉领域，更具体地，涉及一种基于图像-实例对齐网络的训练方法和跨域目标检测方法。

背景技术

目标检测是一种能够找出图像中所有被计算机识别为感兴趣的目标的技术，并确定目标的类别和位置的技术。目标检测器在自主导航、视频监控、图像分析等领域有着广泛的应用，但是在实际应用中，由于天气、光照或环境的变化，目标检测器的工作受到影响，性能下降。可以通过引入无监督域自适应技术，提高目标检测器性能。无监督域自适应技术利用有标记的源域数据和无标记的目标域数据来训练目标检测器，提高对无标记目标域数据的泛化性能。

目前的跨域目标检测方法可以分为三类。基于半监督学习的跨域目标检测方法利用教师学生网络中的一致性正则化减少域差异。基于风格迁移的跨域目标检测方法先合成类目标的中间域，以限制视觉位移，然后以监督的方式训练目标检测器。基于特征对齐的跨域目标检测方法通过对齐不同域的特征来减小域差异。

发明内容

有鉴于此，本发明提供了一种基于图像-实例对齐网络的训练方法和跨域目标检测方法。

根据本发明的一个方面，提供了一种基于图像-实例对齐网络的训练方法，包括：

将源域图片输入目标检测主干网络，得到上述源域图片的初始化类别原型和待训练目标检测主干网络；将上述源域图片和目标域图片输入上述待训练目标检测主干网络，得到上述源域图片和上述目标域图片各自对应的特征图和上述特征图的候选框区域特征；将上述特征图输入自适应前景感知的注意力模块，得到上述特征图的域标签概率和前景感知域标签概率；将上述候选框区域特征和上述源域图片的初始化类别原型输入类别感知的原型对齐模块，得到候选框区域特征矩阵和源域图片的初始化类别原型矩阵，利用上述特征图的候选框区域特征矩阵对上述初始化类别原型矩阵进行更新，得到滑动平均后的类别原型矩阵；以及，将上述待训练目标检测主干网络、上述自适应前景感知的注意力模块和上述类别感知的原型对齐模块联合训练，基于上述待训练目标检测主干网络得到的目标检测损失函数值、上述自适应前景感知的注意力模块得到的全局判别损失函数值、前景判别损失函数值、组合损失函数值和上述类别感知的原型对齐模块得到的对比损失函数值调整上述待训练目标检测主干网络的网络参数。

备选地，上述自适应前景感知的注意力模块包括前景感知域判别器、全局域判别器和跨注意力层；将上述特征图输入自适应前景感知的注意力模块，得到上述特征图的域标签概率和前景感知域标签概率包括：在上述跨注意力层利用K+1个预设计算原型向量对上述特征图的特征图元素进行处理，得到前景感知总特征图矩阵；将上述前景感知总特征图矩阵输入上述前景感知域判别器，输出上述前景感知总特征图矩阵的前景感知域标签概率；以及，将上述特征图输入全局域判别器，输出上述特征图的域标签概率；其中，K为大于1的正整数，前K个上述预设计算原型向量用来描述上述源域图片和上述目标域图片的前景区域，第K+1个上述预设计算原型向量用来描述上述源域图片和上述目标域图片的背景区域。

备选地，上述基于图像-实例对齐网络的训练方法还包括：

利用上述域标签概率得到全局判别损失函数值，利用上述前景感知域标签概率得到上述前景判别损失函数；其中，通过以下公式获得上述全局判别损失函数值：

；

其中

为全局判别损失函数；I为行总数，J为列总数；y用于表征输入上述全局域判别器的图片类型，当输入为上述源域图片时y=1，当输入为上述目标域图片时y=0；

为全局域判别器运算函数；

为上述源域图片的特征图的第i行第j列元素；

为上述目标域图片的特征图的第i行第j列元素；以及

通过以下公式获得上述前景判别损失函数值：

；

；

；

；

；

其中，

为中间量元素；

为第k个上述预设计算原型向量，k为大于或等于1且小于K+1的正整数；

为上述特征图的第i行第j列元素；

为对上述

与上述

进行内积运算得到的结果进行Sigmoid激活函数运算；

为相似度矩阵

的第

行第

列元素；

为由前K个预设计算原型向量得到的相似度矩阵累加得到的相似度矩阵和；

为前景感知总特征图矩阵；

为特征图；

为前景判别损失函数；

为乘积运算；

为前景感知域判别器运算函数；

为上述源域图片的前景感知总特征图矩阵的第i行第j 列元素；

为上述目标域图片的前景感知总特征图矩阵的第i行第j列元素。

备选地，上述基于图像-实例对齐网络的训练方法还包括：

在上述跨注意力层利用预设的K+1个上述预设计算原型向量对上述对应特征图的特征图元素进行处理，得到上述组合损失函数值；其中，通过以下公式获得上述组合损失函数值：

；

；

；

；

其中，

为源域背景损失函数；

为对数运算函数；

为与第K+1个上述预设计算原型向量计算得到的相似度矩阵元素；

为源域前景损失函数；I为行总数，J 为列总数；

为上述相似度矩阵

的第i行第j列元素；

为根据源域真实标签生成的前景蒙版；

为目标域损失函数；

为组合损失函数。

备选地，利用上述候选框区域特征矩阵对上述初始化类别原型矩阵进行更新，得到滑动平均后的类别原型矩阵包括：

上述类别感知的原型对齐模块包括全连接层。

将上述候选框区域特征和上述初始化类别原型输入类别感知的原型对齐模块，利用上述全连接层映射得到上述候选框区域特征矩阵和上述初始化类别原型矩阵。

基于上述候选框区域特征矩阵、上述初始化类别原型矩阵和聚合矩阵的取值范围，利用最优传输算法对聚合矩阵进行优化，得到最优传输聚合矩阵。

基于上述最优传输聚合矩阵和上述候选框区域特征矩阵得到当前更新的类别原型矩阵，基于上述当前更新的类别原型矩阵得到滑动平均后的类别原型矩阵，基于所述滑动平均后的类别原型矩阵得到对比损失函数值。

备选地，通过以下公式获得上述对比损失函数值：

；

；

；

；

；

其中，

（·）为取最大值函数；

为求矩阵的秩；

为上述聚合矩阵

的转置矩阵；

为上述初始化类别原型矩阵；

为上述

的转置矩阵；

为上述候选框区域特征矩阵；

为第一常数；

为上述聚合矩阵

的熵；

为上述聚合矩阵

的取值范围；

为实数域集；

为第二常数；

为上述当前更新的类别原型矩阵；

为上述最优传输聚合矩阵；C为上述滑动平均后的类别原型矩阵

为基于上述源域图片的候选框区域特征矩阵和第n个上述初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为基于上述目标域图片的候选框区域特征矩阵和第n个上述初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为基于上述源域图片的候选框区域特征矩阵和第i个上述初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为基于上述目标域图片的候选框区域特征矩阵和第j个上述初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为对比损失函数；

为余弦相似性函数；N为上述初始化类别原型矩阵中的元素总个数；n为上述候选框区域特征矩阵中的元素总个数。

备选地，上述待训练目标检测主干网络包括特征提取器、区域建议网络和区域分类检测头；将上述源域图片和目标域图片输入上述待训练目标检测主干网络，得到上述源域图片和上述目标域图片各自对应的特征图和上述特征图的候选框区域特征包括：

将上述源域图片和上述目标域图片输入上述特征提取器，得到上述源域图片和上述目标域图片各自对应的特征图。

将上述特征图输入到上述区域建议网络，得到上述特征图的候选框，利用上述区域分类检测头对上述对应特征图和上述候选框处理，得到上述特征图的候选框区域特征。

备选地，上述源域图片在上述待训练目标检测主干网络进行处理的过程中得到目标检测损失函数，通过以下公式获得上述目标检测损失函数：

；

其中，

为目标检测损失函数；

为上述区域建议网络中的区域分类损失函数；

为上述区域建议网络中的区域回归损失函数；

为上述区域分类检测头的分类损失函数；

为上述区域分类检测头的回归损失函数。

备选地，基于图像-实例对齐网络的训练方法还包括：

根据上述目标检测损失函数、上述全局判别损失函数、上述前景判别损失函数、上述组合损失函数、上述对比损失函数输出的损失结果联合调整上述待训练目标检测主干网络、上述自适应前景感知的注意力模块和上述类别感知的原型对齐模块的网络参数，直至满足预设条件。

将在满足上述预设条件的情况下得到的目标检测主干网络作为训练好的目标检测主干网络。

本发明的另一方面，提供了一种基于图像-实例对齐网络的跨域目标检测方法，包括：

将随机选取的目标域数据集输入到目标检测主干网络，得到上述随机选取的目标域数据集中至少一个目标域数据图片的目标检测结果，上述目标检测结果包括上述目标域数据图片的被检测目标框以及上述被检测目标框的类别标签。

其中，上述目标检测主干网络是利用上述基于图像-实例对齐网络的训练方法之一进行训练的。

基于上述技术方案，本发明的基于图像-实例对齐网络的训练方法具有以下积极效果：

根据上述目标检测损失函数、全局判别损失函数、前景判别损失函数、组合损失函数、对比损失函数输出的损失结果联合调整待训练目标检测主干网络、自适应前景感知的注意力模块和类别感知的原型对齐模块的的网络参数，得到训练好的目标检测主干网络，在联合调整的过程中降低源域图片和目标域图片在对齐的过程中由于目标域图片的标签未知而产生的噪声影响。上述训练方法能够提升跨域目标检测方法的准确率和稳定性。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了本发明实施例的基于图像-实例对齐网络的训练模型的框图；

图2示意性示出了本发明实施例的利用自适应前景感知的注意力模块实现图像级特征对齐的流程图；

图3示意性示出了本发明的实施例的利用类别感知的原型对齐模块实现实例级特征对齐的流程图；以及

图4示意性示出了本发明的实施例的待训练目标检测主干网络的卷积神经网络结构图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

在实现本发明构思的过程中，发明人发现相关技术中至少存在如下问题：基于半监督学习的跨域目标检测方法中，教师网络并不是总能传达比学生网络更有效的知识，基于半监督学习的跨域目标检测方法的目标检测器容易累积错误，出现检测性能下降的问题。基于风格迁移的跨域目标检测方法生成的图像的质量不稳定。基于特征对齐的跨域目标检测方法相比于前两类方法性能更好且网络结构更加简单，但是在对齐的过程中，由于目标域标签未知会导致出现噪声，影响跨域目标检测结果。

为了至少部分地解决相关技术中存在的技术问题，本发明提供了一种基于图像-实例对齐网络的训练方法和跨域目标检测方法，可以应用于计算机视觉领域。

根据本发明实施例，提供了一种基于图像-实例对齐网络的训练方法包括：

将源域图片输入目标检测主干网络，得到源域图片的初始化类别原型和待训练目标检测主干网络。

将源域图片和目标域图片输入待训练目标检测主干网络，得到源域图片和目标域图片的各自对应特征图和特征图的候选框区域特征。

将特征图输入自适应前景感知的注意力模块，得到特征图的域标签概率和前景感知域标签概率。

将候选框区域特征和初始化类别原型输入类别感知的原型对齐模块，得到候选框区域特征矩阵和源域图片的初始化类别原型矩阵，利用候选框区域特征对初始化类别原型矩阵进行更新，得到滑动平均后的类别原型矩阵。

以及，将待训练目标检测主干网络、自适应前景感知的注意力模块和类别感知的原型对齐模块联合训练，基于待训练目标检测主干网络得到的目标检测损失函数值、自适应前景感知的注意力模块得到的全局判别损失函数值、前景判别损失函数值、组合损失函数值和类别感知的原型对齐模块得到的对比损失函数值调整待训练目标检测主干网络的网络参数。

图1示意性示出了本发明实施例的基于图像-实例对齐网络的训练模型的框图。

如图1所示，训练模型包括待训练目标检测主干网络、自适应前景感知的注意力模块和类别感知的原型对齐模块。

在得到待训练目标检测主干网络前，将源域图片输入目标检测主干网络，得到源域图片的初始化类别原型。其中，源域图片具有标签，该标签指示了源域图片对应所属的类别，类别可以存储为向量形式。

目标检测主干网络可以采用Faster-RCNN（Faster-Region ConvolutionalNeural Networks）作为基础目标检测器，Faster-RCNN可以包括VGG16（Visual GeometryGroup-16）卷积神经网络、区域建议网络（RPN，Region Proposal Net）、区域分类检测头（ROI，Region of interest）。

利用VGG16卷积神经网络对源域图片进行特征提取，得到源域图片的特征图；利用区域建议网络和区域分类检测头，基于源域图片的特征图得到源域图片候选框；目标检测主干网络对源域图片候选框中的特征进行平均处理，并将特征经过平均处理的源域图片候选框保存为源域图片的初始化类别原型。

调整目标检测主干网络的网络参数，在完成保存源域图片的初始化类别原型的操作后，对目标检测主干网络重新训练，利用ImageNet(即ISLVRC2012)数据集进行预训练得到的参数对VGG16卷积网络进行初始化，并对区域建议网络和区域分类检测头的参数进行随机初始化，得到待训练目标检测主干网络。

将源域图片和目标域图片输入待训练目标检测主干网络，得到源域图片和目标域图片各自对应的特征图和特征图的候选框区域特征。待训练目标检测主干网络在处理源域图片时可以得到目标检测损失函数值，基于目标检测损失函数值调整待训练目标检测主干网络的网络参数。

自适应前景感知的注意力模块包括前景感知域判别器、全局域判别器和跨注意力层。

利用前景感知域判别器对源域图片和目标域图片各自对应的特征图进行处理，得到特征图的前景感知域标签概率。基于前景感知域标签概率得到前景判别损失函数值，基于前景判别损失函数值调整待训练目标检测主干网络的网络参数。

利用全局域判别器对源域图片和目标域图片各自对应的特征图进行处理，得到特征图的域标签概率。基于域标签概率得到全局判别损失函数值，基于全局判别损失函数值调整待训练目标检测主干网络的网络参数。

利用跨注意力层对源域图片和目标域图片各自对应的特征图与预设计算原型向量进行处理时，得到组合损失函数值，基于组合损失函数值调整待训练目标检测主干网络的网络参数。

类别感知的原型对齐模块包括全连接层，将源域图片的初始化类别原型输入全连接层，经过全连接层映射得到的源域图片的初始化类别原型矩阵；将源域图片和目标域图片各自对应的特征图的候选框区域特征输入全连接层，经过全连接层映射得到候选框区域特征矩阵。

利用候选框区域特征矩阵和源域图片的初始化类别原型矩阵对初始化类别原型矩阵进行更新，得到当前更新的类别原型矩阵，基于当前更新的类别原型矩阵得到滑动平均后的类别原型矩阵。类别感知的原型对齐模块利用滑动平均后的类别原型矩阵得到对比损失函数值，基于对比损失函数值调整待训练目标检测主干网络的网络参数。

利用目标检测损失函数值、前景判别损失函数值、全局判别损失函数值、组合损失函数值、组合损失函数值对待训练目标检测主干网络、自适应前景感知的注意力模块和类别感知的原型对齐模块联合训练，调整待训练目标检测主干网络的网络参数，得到训练好的目标检测主干网络。

备选地，自适应前景感知的注意力模块中前景感知域判别器对源域图片和目标域图片对应特征图进行处理前，可以先经过梯度反转层（GRL，Gradient Reversal Layer），通过梯度反转层实现对抗网络的作用，使前景感知域判别器可以实现对源域图片和目标域图片各自对应的特征图的域迁移处理。全局域判别器对源域图片和目标域图片对应特征图进行处理前，也可以进行相同的操作，在此不再赘述。

备选地，待训练目标检测主干网络包括特征提取器、区域建议网络和区域分类检测头。得到特征图和特征图的候选框区域特征矩阵包括：

将源域图片和目标域图片输入待训练目标检测主干网络的特征提取器，得到源域图片和目标域图片各自对应的特征图。

将特征图输入到区域建议网络，得到特征图的候选框，利用区域分类检测头对特征图和候选框进行处理，得到特征图的候选框区域特征。

备选地，源域图片在待训练目标检测主干网络进行处理的过程中可以通过以下公式获得目标检测损失函数：

；（1）

其中，

为目标检测损失函数；

为区域建议网络中的区域分类损失函数；

为区域建议网络中的区域回归损失函数；

为区域分类检测头的分类损失函数；

为区域分类检测头的回归损失函数。

备选地，可以通过以下公式获得区域分类损失函数和回归损失函数：

；（2）

；（3）

；（4）

；（5）

其中，

为标签，

为标签框的位置中心点横坐标，

为标签框的位置中心点纵坐标，

为标签框的框宽，

为标签框的框长；

为候选框，

为候选框位置中心点横坐标，

为候选框中心点纵坐标，

为候选框的框宽，

为候选框的框长；

为区域分类损失函数；

为候选框的个数；

为标签类别；

为对数运算函数；

为将生成的第k个候选框预测为类别

的概率；

为回归损失函数；

为第i个标签与第i个候选框的绝对损失函数（L1损失）。

备选地，区域建议网络和区域分类检测头中得到的区域分类损失和回归损失值基本一致。

图2示意性示出了本发明实施例的利用自适应前景感知的注意力模块实现图像级特征对齐的流程图。

如图2所示，利用自适应前景感知的注意力模块实现图像级特征对齐包括操作S210~S240。

在操作S210，在跨注意力层利用K+1个预设计算原型向量对源域图片和目标域图片各自对应的特征图的特征图元素进行处理，得到各自对应的前景感知总特征图矩阵。

在操作S220，将前景感知总特征图矩阵输入前景感知域判别器，输出前景感知总特征图矩阵的前景感知域标签概率。

在操作S230，将特征图输入全局域判别器，输出特征图的域标签概率。

在操作S240，基于前景感知域标签概率和特征图的域标签概率得到前景判别损失函数值和全局判别损失函数值，基于前景判别损失函数值和全局判别损失函数值调整待训练目标检测主干网络的网络参数，实现源域图片和目标域图片各自对应的特征图的特征的图像级特征对齐。

备选地，自适应前景感知的注意力模块包括前景感知域判别器、全局域判别器和跨注意力层。

备选地，预设的K+1个预设计算原型向量的维度与特征图的每一个特征图元素的维度一致，前K个预设计算原型向量用来描述源域图片和目标域图片的前景区域，第K+1个预设计算原型向量用来描述源域图片和目标域图片的背景区域，K为大于1的正整数。设置描述源域图片和目标域图片的前景区域的预设计算原型向量，在跨注意力层对特征图的特征图元素进行处理，得到前景感知总特征图矩阵。将前景感知总特征图矩阵输入到前景感知域判别器，得到前景感知总特征图矩阵的前景感知域标签概率，增强前景特征在对齐的时候所占的权重，可以使自适应前景感知的注意力模块在进行源域图片和目标域图片对应特征图对齐处理的过程中更关注前景区域的对齐，实现源域图片和目标域图片对应特征的图像级特征对齐。待训练目标检测主干网络基于自适应前景感知的注意力模块的训练，可以达到对前景特征的检测更敏感的效果，提高目标检测结果的准确率。

备选地，将源域图片和目标域图片对应特征图输入跨注意力层，利用前K个预设计算原型向量对特征图的每一个特征图元素进行处理，得到每一个特征图元素的相似度矩阵元素。利用每一个特征图元素的相似度矩阵元素得到相似度矩阵和。利用相似度矩阵和对应特征图得到前景感知总特征图矩阵。

备选地，源域图片和目标域图片对应特征图输入跨注意力层后，先经过一个卷积层降低源域图片和目标域图片对应特征图的通道数，再进行得到前景感知总特征图矩阵的操作。前景感知总特征图矩输出跨注意力层前，需要经过一个Sigmoid激活函数层，Sigmoid激活层可以使待训练目标检测主干网络学习到非线性映射。

备选地，前景感知域判别器利用前景感知总特征图矩阵得到前景感知总特征图矩阵的前景感知域标签概率。利用前景感知域标签概率，得到前景判别损失函数值。

备选地，全局域判别器利用源域图片和目标域图片各自对应的特征图，得到特征图的域标签概率。利用域标签概率，得到全局判别损失函数值。

备选地，可以通过以下公式获得前景感知总特征图矩阵：

；（6）

；（7）

；（8）

；（9）

备选地，可以利用前景感知域标签概率通过以下公式获得前景判别损失函数值：

；（10）

其中，

为中间量元素；

为第k个所述预设计算原型向量，k为大于或等于1且小于K+1的正整数；

为特征图第i行第j列元素；

为对

与

进行内积运算得到的结果进行sigmoid激活函数运算；

为相似度矩阵

的第

行第

列元素；

为由前K 个预设计算原型得到的相似度矩阵累加得到的的相似度矩阵和；

为前景感知总特征图矩阵；

为特征图；

为前景判别损失函数；I为行总数，J为列总数；y为判断输入前景感知域判别器的图片类型，当输入为源域图片时y=1，当输入为目标域图片时y=0；

为乘积运算；

为前景感知域判别器运算函数；

为所述源域图片前景感知总特征图矩阵第i行第j列元素；

为所述目标域图片前景感知总特征图矩阵第i行第j列元素。

备选地，可以利用域标签概率通过以下公式获得全局判别损失函数值：

；（11）

其中

为全局判别损失函数；I为行总数，J为列总数；y为判断输入全局域判别器的图片类型，当输入为源域图片时y=1，当输入为目标域图片时y=0；

为全局域判别器运算函数；

为源域图片特征图第i行第j列元素；

为目标域图片特征图第i行第j列元素。

备选地，在源域图片和目标域图片特征对齐的过程中，为了使K+1个预设计算原型向量更好地将特征信息从源域转移到目标域，在跨注意力层利用K+1个预设计算原型向量对对应特征图的特征图元素进行处理，得到组合损失函数；可以通过以下公式获得组合损失函数值：

；（12）

；（13）

；（14）

；（15）

其中，

为源域背景损失函数；

为对数运算函数；

为与第K+1个预设计算原型向量计算得到的相似度矩阵元素；

为源域前景损失函数；I为行总数，J为列总数；

为相似度矩阵

的第i行第j列元素；

为源域根据真实标签生成的前景蒙版；

为目标域损失函数；

为组合损失函数。

备选地，将源域图片和目标域图片各自对应的特征图的特征元素经过注意力层处理后输入前景感知域判别器和全局域判别器中进行比较，得到前景判别损失函数值、全局判别损失函数值和组合损失函数值。基于前景判别损失函数值、全局判别损失函数值和组合损失函数值调整了待训练目标检测主干网络的参数，实现了源域图片和目标域图片图像级别的对齐。前K个预设计算原型向量参与到产生前景判别损失函数值、全局判别损失函数值和组合损失函数值的过程中，可以有效表示出源域图片和目标域图片的前景区域，使特征对齐的过程更稳定。

图3示意性示出了本发明的实施例的利用类别感知的原型对齐模块实现实例级特征对齐的流程图。

如图3所示，利用类别感知的原型对齐模块实现实例级特征对齐包括操作S310~S340。

在操作S310，将候选框区域特征和源域图片的初始化类别原型输入类别感知的原型对齐模块，通过类别感知的原型对齐模块中的全连接层映射得到候选框区域特征矩阵和初始化类别原型矩阵。

在操作S320，基于候选框区域特征矩阵和初始化类别原型矩阵得到滑动平均后的类别原型矩阵。

在操作S330，基于滑动平均后的类别原型矩阵得到对比损失函数值。

在操作S340，根据对比损失函数值调整待训练目标检测主干网络的网络参数，实现源域图片和目标域图片的候选框区域特征的实例级特征对齐。

备选地，类别感知的原型对齐模块包括全连接层，将候选框区域特征输入全连接层映射得到候选框区域特征矩阵；将初始化类别原型输入全连接层映射得到初始化类别原型矩阵。

备选地，类别感知的原型对齐模块基于候选框区域特征矩阵、源域图片的初始化类别原型矩阵、聚合矩阵的取值范围，利用最优传输算法对聚合矩阵进行优化，得到最优传输聚合矩阵。基于最优传输聚合矩阵和候选框区域特征矩阵得到当前更新的类别原型矩阵。类别感知的原型对齐模块基于当前更新的类别原型矩阵和初始化类别原型矩阵，利用滑动平均方法，得到滑动平均后的类别原型矩阵。类别感知的原型对齐模块基于当前更新的类别原型矩阵，得到对比损失函数值。

备选地，可以通过以下公式获得滑动平均后的类别原型矩阵：

；（16）

；（17）

；（18）

；（19）

备选地，可以通过以下公式获得对比损失函数值：

；（20）

其中，

（·）为取最大值函数；

为求矩阵的秩；

为聚合矩阵

的转置矩阵；

为初始化类别原型矩阵；

为

的转置矩阵；

代表候选框区域特征矩阵；

为第一常数；

为聚合矩阵

的熵；

为聚合矩阵

的取值范围；

为实数域集；

为第二常数；

为当前更新的类别原型矩阵；

为最优传输聚合矩阵；C为滑动平均后的类别原型矩阵；

为基于源域图片的候选框区域特征矩阵和第n个初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为基于目标域图片的候选框区域特征矩阵和第n个初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为基于源域图片的候选框区域特征矩阵和第i个初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为基于目标域图片的候选框区域特征矩阵和第j个初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为对比损失函数；

为余弦相似性函数；N为初始化类别原型矩阵中的元素总个数；n为候选框区域特征矩阵中的元素总个数。

备选地，在得到对比损失函数值的过程中，类别感知的原型基于齐模块基于候选框区域特征矩阵、源域图片的初始化类别原型矩阵对源域图片的初始化类别原型矩阵进行了更新，将源域图片和目标域图片各自对应的候选框区域特征进行了结合和更新。根据对比损失函数输出的损失结果可以调整类别感知的原型对齐模块和待训练目标检测主干网络的网络参数，实现源域图片和目标域图片的候选框区域特征的实例级特征对齐。

备选地，将待训练目标检测主干网络、自适应前景感知的注意力模块、类别感知的原型对齐模块联合训练，使目标检测损失函数值、全局判别损失函数值、前景判别损失函数值、组合损失函数值、对比损失函数值满足预设条件，调整待训练目标检测主干网络的网络参数，将满足预设条件时得到的目标检测主干网络作为训练好的目标检测主干网络。

备选地，通过将待训练目标检测主干网络、自适应前景感知的注意力模块、类别感知的原型对齐模块联合训练，改变待训练目标检测主干网络的区域建议网络的所有参数。待训练目标检测主干网络的VGG16卷积神经网络需要设置一部分参数不进行改变。

如图4所示，图中实线框框选VGG16卷积神经网络的卷积层结构。内部虚线框框选VGG16卷积神经网络中参数不进行改变的10个网络层。参数不进行改变的10个网络层包括VGG16卷积神经网络中第一卷积层包括的两个卷积层，第二卷积层包括的两个卷积层，第三卷积层包括的三个卷积层，以及第一卷积层、第二卷积层、第三卷积层输出时各自连接的最大池化层。VGG16卷积神经网络中除了虚线框框选的10个网络层，其余部分网络的参数随着图像-实例对齐网络的训练进行改变。

备选地，可以通过以下公式获得最终损失函数：

；（21）

L为最终损失函数；

为目标检测损失函数，

为全局判别损失函数；

为前景判别损失函数；

为组合损失函数；

为对比损失函数；

、

、

和

为预设的不同常数。

根据目标检测损失函数值、全局判别损失函数值、前景判别损失函数值、组合损失函数值、对比损失函数值得到最终损失函数值，在得到最终损失函数值的过程中调整待训练目标检测主干网络的网络参数，使得源域图片和目标域图片的特征图的图像级联合对齐和特征图的候选框区域特征的实例级联合对齐，降低了在对齐的过程中由于目标域标签未知产生的噪声影响，提升了基于图像-实例对齐网络的跨域目标检测方法的准确率和稳定性。当最终损失函数值收敛或达到预设阈值时，待训练目标检测主干网络训练完毕，保留训练完毕的待训练目标检测主干网络的网络参数作为训练后的目标检测主干网络的网络参数。

将随机选取的目标域数据集输入到目标检测主干网络，得到随机选取的目标域数据集中至少一个目标域数据图片的目标检测结果，目标检测结果包括目标域数据图片的被检测目标框以及被检测目标框的类别标签。

其中，目标检测主干网络是利用基于图像-实例对齐网络的训练方法之一进行训练的。

备选地，根据有标签的源域数据集和无标签的目标域数据集，基于图像-实例对齐网络的训练方法可以训练得到一个能够泛化到目标域数据集上的目标检测器。

备选地，目标检测主干网络可以以软件的方式安装于前端设备上，为前端设备提供实时检测结果。还可以以软件的方式安装于后台服务器上，为后台服务器提供缓存在服务器中的大批量无标签数据集的目标检测结果。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

Claims

1.一种基于图像-实例对齐网络的训练方法，其特征在于，包括：

将源域图片输入目标检测主干网络，得到所述源域图片的初始化类别原型和待训练目标检测主干网络；

将所述源域图片和目标域图片输入所述待训练目标检测主干网络，得到所述源域图片和所述目标域图片各自对应的特征图和所述特征图的候选框区域特征；

将所述特征图输入自适应前景感知的注意力模块，得到所述特征图的域标签概率和前景感知域标签概率；

将所述候选框区域特征和所述初始化类别原型输入类别感知的原型对齐模块，得到候选框区域特征矩阵和所述源域图片的初始化类别原型矩阵，利用所述候选框区域特征矩阵对所述初始化类别原型矩阵进行更新，得到滑动平均后的类别原型矩阵；

所述类别感知的原型对齐模块包括全连接层；

将所述候选框区域特征和所述初始化类别原型输入所述类别感知的原型对齐模块，利用所述全连接层映射得到所述候选框区域特征矩阵和所述初始化类别原型矩阵；

基于所述候选框区域特征矩阵、所述初始化类别原型矩阵和聚合矩阵的取值范围，利用最优传输算法对聚合矩阵进行优化，得到最优传输聚合矩阵；

基于所述最优传输聚合矩阵和所述候选框区域特征矩阵得到当前更新的类别原型矩阵，基于所述当前更新的类别原型矩阵得到滑动平均后的类别原型矩阵，基于所述滑动平均后的类别原型矩阵得到对比损失函数值；以及

将所述待训练目标检测主干网络、所述自适应前景感知的注意力模块和所述类别感知的原型对齐模块联合训练，基于所述待训练目标检测主干网络得到的目标检测损失函数值、所述自适应前景感知的注意力模块得到的全局判别损失函数值、前景判别损失函数值、组合损失函数值和所述类别感知的原型对齐模块得到的对比损失函数值调整所述待训练目标检测主干网络的网络参数。

2.根据权利要求1所述的方法，其特征在于，所述自适应前景感知的注意力模块包括前景感知域判别器、全局域判别器和跨注意力层；

将所述特征图输入自适应的前景感知的注意力模块，得到所述特征图的域标签概率和前景感知域标签概率包括：

在所述跨注意力层利用K+1个预设计算原型向量对所述特征图的特征图元素进行处理，得到前景感知总特征图矩阵；

将所述前景感知总特征图矩阵输入所述前景感知域判别器，输出所述前景感知总特征图矩阵的前景感知域标签概率；以及

将所述特征图输入所述全局域判别器，输出所述特征图的域标签概率；

其中，K为大于1的正整数，前K个所述预设计算原型向量用来描述所述源域图片和所述目标域图片的前景区域，第K+1个所述预设计算原型向量用来描述所述源域图片和所述目标域图片的背景区域。

3.根据权利要求2所述的训练方法，其特征在于，还包括：

利用所述域标签概率得到所述全局判别损失函数值，利用所述前景感知域标签概率得到所述前景判别损失函数值；

其中，通过以下公式获得所述全局判别损失函数值：

；

其中，

为全局判别损失函数；I为行总数，J为列总数；y用于表征输入所述全局域判别器的图片类型，当输入为所述源域图片时y=1，当输入为所述目标域图片时y=0；

为全局域判别器运算函数；

为所述源域图片的特征图的第i行第j列元素；

为所述目标域图片的特征图的第i行第j列元素；以及

通过以下公式获得所述前景判别损失函数值：

；

；

；

；

；

其中，

为中间量元素；

为所述特征图的第i行第j列元素；

为对所述

与所述

进行内积运算得到的结果进行Sigmoid激活函数运算；

为相似度矩阵

的第

行第

列元素；

为由前K个所述预设计算原型向量得到的相似度矩阵累加得到的相似度矩阵和；

为前景感知总特征图矩阵；

为特征图；

为前景判别损失函数；

为乘积运算；

为前景感知域判别器运算函数；

为所述源域图片的前景感知总特征图矩阵的第i行第j列元素；

为所述目标域图片的前景感知总特征图矩阵的第i行第j列元素。

4.根据权利要求2所述的训练方法，其特征在于，还包括：

在所述跨注意力层利用K+1个所述预设计算原型向量对所述特征图的特征图元素进行处理，得到所述组合损失函数值；

其中，通过以下公式获得所述组合损失函数值：

；

；

；

；

其中，

为源域背景损失函数；

为对数运算函数；

为与第K+1个所述预设计算原型向量计算得到的相似度矩阵元素；

为源域前景损失函数；I为行总数，J为列总数；

为所述相似度矩阵

的第i行第j列元素；

为根据源域真实标签生成的前景蒙版；

为目标域损失函数；

为组合损失函数。

5.根据权利要求1所述的训练方法，其特征在于，通过以下公式获得所述对比损失函数值：

；

；

；

；

；

其中，

（·）为取最大值函数；

为求矩阵的秩；

为所述聚合矩阵

的转置矩阵；

为所述初始化类别原型矩阵；

为所述

的转置矩阵；

为所述候选框区域特征矩阵；

为第一常数；

为所述聚合矩阵

的熵；

为所述聚合矩阵

的取值范围；

为实数域集；

为第二常数；

为所述当前更新的类别原型矩阵；

为所述最优传输聚合矩阵；C为所述滑动平均后的类别原型矩阵；

为基于所述源域图片的候选框区域特征矩阵和第n个所述初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为基于所述目标域图片的候选框区域特征矩阵和第n个所述初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为基于所述源域图片的候选框区域特征矩阵和第i个所述初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为基于所述目标域图片的候选框区域特征矩阵和第j个所述初始化类别原型矩阵得到的滑动平均后的类别原型矩阵；

为对比损失函数；

为余弦相似性函数；N为所述初始化类别原型矩阵中的元素总个数；n为所述候选框区域特征矩阵中的元素总个数。

6.根据权利要求1所述的方法，其特征在于，所述待训练目标检测主干网络包括特征提取器、区域建议网络和区域分类检测头；

将所述源域图片和目标域图片输入所述待训练目标检测主干网络，得到所述源域图片和所述目标域图片各自对应的特征图和所述特征图的候选框区域特征包括：

将所述源域图片和所述目标域图片输入所述特征提取器，得到所述源域图片和所述目标域图片各自对应的特征图；

将所述特征图输入所述区域建议网络，得到所述特征图的候选框，利用所述区域分类检测头对所述特征图和所述候选框处理，得到所述特征图的候选框区域特征。

7.根据权利要求6所述的方法，其特征在于，所述源域图片在所述待训练目标检测主干网络进行处理的过程中得到目标检测损失函数值，通过以下公式获得所述目标检测损失函数值：

；

其中，

为目标检测损失函数；

为所述区域建议网络中的区域分类损失函数；

为所述区域建议网络中的区域回归损失函数；

为所述区域分类检测头的分类损失函数；

为所述区域分类检测头的回归损失函数。

8.根据权利要求7所述的方法，其特征在于，还包括：

根据所述目标检测损失函数、所述全局判别损失函数、所述前景判别损失函数、所述组合损失函数、所述对比损失函数输出的损失结果联合调整所述待训练目标检测主干网络、所述自适应前景感知的注意力模块和所述类别感知的原型对齐模块的网络参数，直至满足预设条件；

将在满足所述预设条件的情况下得到的目标检测主干网络作为训练好的目标检测主干网络。

9.一种基于图像-实例对齐网络的跨域目标检测方法，其特征在于，包括：

将随机选取的目标域数据集输入到目标检测主干网络，得到所述随机选取的目标域数据集中至少一个目标域数据图片的目标检测结果，所述目标检测结果包括所述目标域数据图片的被检测目标框以及所述被检测目标框的类别标签；

其中，所述目标检测主干网络是利用根据权利要求1-8之一所述的方法训练的。