CN112396097A

CN112396097A - 基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质

Info

Publication number: CN112396097A
Application number: CN202011236412.7A
Authority: CN
Inventors: 詹宗沅; 魏朋旭; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-23
Anticipated expiration: 2040-11-09
Also published as: CN112396097B

Abstract

本发明公开了一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质，方法包括以下步骤：基于最优传输的域间样本对采样方法，基于加权最优传输的候选区域域间特征对齐学习，浅层全局特征对抗对齐学习，深层全局特征对抗对齐学习，上下文特征融合连接。本发明一方面解决了无监督域自适应目标检测中提案候选区域特征如何对齐的问题；另一方面，解决了最优传输算法初始的域间类别分布不均衡问题，根据候选区域类别数量重新分配最优传输算法的初始分布权重，使得两域间同类的候选区域总权重一致，有效的减少了错误类别匹配的发生，保证域差异减小的同时保持类别判别性。

Description

基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质

技术领域

本发明属于目标检测技术领域，具体涉及一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质。

背景技术

深度学习技术的突破推动了计算机视觉领域的发展，促使图像识别、目标检测等技术的应用化。然而，深度学习应用存在一些困难，模型往往在训练集上性能优秀，却在实际应用场景中出现性能的退化。许多研究已经表明应用性能中的退化源于“域偏差”，即测试数据和训练数据的域差异，在研究中训练数据集常常称为源域，测试数据称为目标域。为了解决“域差异”的问题，技术人员可以大量收集目标域的数据，并且进行人工标注，补充到模型的训练数据中。目标域的二次标注所带来的成本是高昂的，一旦应用场景变化，就会造成更多的标注人力成本。

近年来逐渐兴起无监督域适应技术的研究，这项技术能够解决上述应用场景中源域和目标域的偏差，减少人工标注的负担，帮助模型在应用中快速适应目标域。最初这项技术常常被应用于图像识别任务，很难直接应用到目标检测任务中，具体表现为：(1)未考虑目标检测中多个目标之间更精细化的域间表征匹配。(2)训练中批数据存在域间类别不均衡的问题。这将导致无监督域适应目标检测应用中常常出现类别判别性差的问题。

最优传输是一种能够衡量两个分布距离的算法，能够计算两个离散分布之间迁移总损失最小的迁移方案。在无监督域适应领域中，最优传输算法也是一种是常见的度量技术。现有研究中，仅将最优传输算法应用于图像识别任务中，当应用于更复杂的目标检测任务，最优传输算法的度量容易导致域间错误类别的匹配。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提出一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质，方法通过基于最优传输算法的采样策略优化源域和目标域训练过程中采样策略，提升每个训练批次中域间同类样本的数量；再通过一个改进了的加权最优传输算法求解候选区域最佳匹配策略，解决了无监督域自适应目标检测任务中提案候选区域特征对齐的问题，并改善了该对齐过程中类别错误匹配的问题，提高目标域特征的域判别性，有效的提升目标域目标检测性能。

为了达到上述目的，本发明采用以下技术方案：

本发明提供的一种基于加权最优传输的无监督域自适应视觉目标检测方法，包括以下步骤：

基于最优传输的域间样本对采样方法，采用预训练模型对源域和目标域训练数据图像进行特征编码，全局池化得到源域和目标域数据集的特征编码，构建最优传输模型，通过最优传输算法迭代求解源域和目标域之间的图像样本匹配解，以此匹配解进行训练采样；

基于加权最优传输的候选区域域间特征对齐学习，每轮训练迭代中，源域和目标域的图像分别通过检测器的特征提取单元和候选区域提取单元，输出对应图像中的候选区域，池化获得各个候选区域目标特征，根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重，构建最优传输模型，通过最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解，对匹配解的域间候选区域构建特征距离最小化目标函数；

浅层全局特征对抗对齐学习，采用检测器骨干网络提取浅层全局特征，通过梯度逆转模块和卷积网络结构，输出全局特征各个像素位置的域判别得分；

深层全局特征对抗对齐学习，采用检测器骨干网络提取浅层全局特征，通过梯度逆转模块和卷积网络结构后，再经过全连接层输出全局特征域判别得分；

上下文特征融合连接，计算域判别器中间特征作为上下文信息，将该上下文特征补充到候选区域的特征中，再对融合后的特征进行分类和回归。

优选的，所述基于最优传输的域间样本对采样方法具体为：

采用ImageNet数据集预训练模型VGG-16的卷积层对源域和目标域训练数据图像进行特征编码，再通过全局池化得到源域和目标域数据集的特征编码，采用

和

分别表示源域S第i个样本编码和目标域T第j个样本编码，采用

表示

和

之间欧拉距离的平方，具体为：

采用

和

分别表示源域和目标域的样本出现的概率，

分别表示源域和目标域图像总数，则满足条件：

构建最优传输模型，通过推土机距离最优传输算法迭代求解源域S和目标域T之间的图像样本匹配解γ^I，*，具体为：

以求解得到的匹配解进行训练采样，每轮训练迭代根据匹配解采样一张源域样本和一张目标域样本，针对每一源域样本

采样匹配度最高的目标域样本

优选的，所述基于最优传输的域间样本对采样方法还包括，针对一部分未被最优选取的目标域样本，针对其选取源域匹配度最大的样本，补充到训练批次中。

优选的，所述基于加权最优传输的候选区域域间特征对齐学习具体为：

每轮训练迭代中，源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元，输出对应图像中的候选区域，再经过池化获得各个候选区域目标特征，将特征进一步缩小，通过全局平均池化缩小特征维度；根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重，使得两域间相同类别总权重保持一致并满足以下公式：

其中，

和

分别表示当前批次中源域第i个和目标域第j个候选区域特征，

表示

和

欧拉距离的平方，

和

分别表示源域和目标域的候选区域目标出现的权重；

目标域候选区域类别通过伪标签判断类别，计算源域同类总权重，再平均赋予目标域同类样本，加权后域间同类总权重一致；

构建最优传输模型，通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γ^f，*，具体如下：

对匹配解的域间候选区域构建特征距离最小化目标函数，缩小源域和目标域之间的差异，目标函数如下：

其中，α_ot是控制损失函数大小的参数；

通过最优传输算法的解得到对应类别特征的匹配信息，进一步缩小两域间同类提案候选区域的特征距离。

优选的，所述浅层全局特征对抗对齐学习具体为：

在检测器骨干网络VGG-16中提取第三阶段卷积组的浅层全局特征，通过梯度逆转模块和两层卷积网络结构后，输出全局特征各个像素位置的域判别得分；所述梯度逆转模块和两层卷积网络组成对抗域判别器，通过对抗学习像素级域判别损失，降低浅层全局特征的域间差异，对抗训练损失函数具体为：

其中，n^S，n^T分别表示同一迭代时刻中源域和目标域样本数量；x_i表示同一训练批次中的样本，包含源域和目标域；F_l表示浅层全局特征提取网络；D_l表示域判别器，进行对抗判别学习；W,H表示浅层全局特征的长宽大小，对抗判别学习是针对每一个像素进行的，对各个像素域进行分类；y_i表示第i个样本的域标签，源域为0，目标域为1；

训练过程中F_l和D_l分别以损失函数最大化和最小化为目标进行对抗训练：

优选的，所述深层全局特征对抗对齐学习具体为：

在检测器骨干网络VGG-16中提取第五阶段卷积组的浅层全局特征，通过梯度逆转模块和一层卷积网络结构后，再经过两次全连接层输出全局特征域判别得分；其中对抗判别器通过对抗学习图像级域判别损失，降低浅层全局特征的域间差异；

参考Focal Loss损失函数，增强对抗判别样本的学习，得到具体对抗训练损失函数，具体如下：

其中，F_g表示浅层全局特征提取网络；D_g表示域判别器，进行对抗判别学习；γ表示控制样本权重的平衡系数；

训练过程中F_g和D_g分别以损失函数最大化和最小化为目标进行对抗训练：

优选的，还包括合并对抗判别模块的损失函数，具体为：

L_da＝L_da1+L_da2。

优选的，所述检测器采用两阶段检测器Faster-RCNN。

本发明还提供了一种基于加权最优传输的无监督域自适应视觉目标检测系统，包括域间样本对采样模块、候选区域域间特征对齐学习模块、浅层全局特征对抗对齐学习模块、深层全局特征对抗对齐学习模块以及上下文特征融合连接模块；

所述域间样本对采样模块，用于保证训练过程中源域和目标域同批次的样本中语义信息一致，使得最优传输对齐时中域间语义分布一致；

所述候选区域域间特征对齐学习模块，用于源域和目标域候选区域语义特征的精确对齐；

所述浅层全局特征对抗对齐学习模块，用于减小源域和目标域之间的浅层特征分布差异；

所述深层全局特征对抗对齐学习模块，用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征；

所述上下文特征融合连接模块，用于补充候选区域特征的上下文信息。

本发明还提供了一种存储介质，存储有程序，其特征在于，所述程序被一个或多个处理器执行时，实现基于加权最优传输的无监督域自适应视觉目标检测方法。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明提出了一种基于最优传输算法训练采样策略，缓解源域和目标域因随机采样造成的域适应难度不稳定问题，帮助训练过程中两域间特征语义信息能够更加接近，进而更加稳定的对齐域间特征。

2、本发明提出了一种基于加权最优传输算法候选区域特征对齐方法，针对目标检测的特点，精细化的对齐域间同类候选区域的特征，使得模型在目标域上得到更准确的类别判别效果。

附图说明

图1是本发明方法的模型架构图。

图2是本发明系统的结构示意图。

图3是本发明存储介质结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1所示，本发明基于加权最优传输的无监督域自适应视觉目标检测方法，包括以下步骤：

S1、基于最优传输的域间样本对采样方法，用于提高域适应训练稳定性，保证训练过程中源域和目标域同批次的样本中语义信息一致，使得最优传输对齐时中域间语义分布一致，具体为：

和

分别表示源域S第i个样本编码和目标域T第j个样本编码，采用

表示

和

之间欧拉距离的平方，具体为：

采用

和

分别表示源域和目标域的样本出现的概率，

分别表示源域和目标域图像总数，则满足条件：

采样匹配度最高的目标域样本

表示为：

在本实施例中，为保证更加充分利用目标域样本，针对一部分未被最优选取的目标域样本，针对其选取源域匹配度最大的样本，补充到训练批次中。

S2、基于加权最优传输的候选区域域间特征对齐学习，用于源域和目标域候选区域语义特征的精确对齐，保证候选区域特征进一步精细化对齐，增强目标域候选区域特征判别性，具体为：

在本实施例中，每轮训练迭代中，源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元，输出对应图像中的候选区域，再经过池化获得各个候选区域大小为7x7x512维的目标特征，将特征进一步缩小，通过全局平均池化缩小特征维度为512维；根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重，使得两域间相同类别总权重保持一致并满足以下公式：

其中，

和

表示

和

欧拉距离的平方，

和

分别表示源域和目标域的候选区域目标出现的概率(权重)；目标域候选区域类别通过伪标签判断类别，计算源域同类总权重，再平均赋予目标域同类样本，加权后域间同类总权重一致。

在本实施例中，根据目标类别信息重新分配权重，使得两域间相同类别总权重保持一致，通过这种方式降低了错误类别的匹配情况，以解决传统最优传输算法应用于域适应特征对齐时类别错误匹配的问题；

进一步构建最优传输模型，通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γ^f，*，具体如下：

其中，α_ot是控制损失函数大小的参数；通过最优传输算法的解能够得到对应类别特征的匹配信息，再进一步缩小两域间同类提案候选区域的特征距离，有效提升目标域特征的判别性和适应性。

S3、浅层全局特征对抗对齐学习，用于对齐骨干网络中浅层特征，使得模型适应目标域底层视觉要素，如纹理、颜色等，减小源域和目标域之间的浅层特征分布差异，具体为：

S4、深层全局特征对抗对齐学习，用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征，提升模型在目标域高级语义特征中的适应性，具体为：

其中，F_g表示浅层全局特征提取网络；D_g表示域判别器，进行对抗判别学习；γ表示控制难样本权重的平衡系数，在本实施例中取值为5.0；

合并上述两个对抗判别模块的损失函数，构成对抗判别损失函数：

L_da＝L_da1+L_da2。

S5、上下文特征融合连接，用于补充候选区域特征的上下文信息，具体为：

采用上述步骤S3和S4的浅层和深层域判别器的中间特征作为上下文信息，采用域判别器第一层卷积后的特征，并且经过全局平均池化得到固定维度特征，将该上下文特征补充到候选区域的特征中，具体的，融合的候选区域特征来自分类回归分支中第二次全连接的4096维特征，再对融合后的特征进行分类和回归。

在本实施例中，所述目标检测器采用两阶段检测器Faster-RCNN作为目标检测器，是无监督域自适应目标检测的对象，应用于最终的目标域检测。所述目标检测器采用的骨干网络是VGG-16，输入图像到骨干网络，从骨干网络第五卷积组输出图像的特征图。特征图通过第一阶段的区域提案网络进行锚点的分类和回归定位得到一系列候选区域，在训练阶段区域提案网络学习源域目标的分类和定位。进一步通过池化提取候选区域相同大小的特征，经过两层全连接后与来自域判别器的上下文特征进行连接，再进行最终候选区域的分类和回归。

如图2所示，在另一个实施例中，提供了一种基于加权最优传输的无监督域自适应视觉目标检测系统，包括域间样本对采样模块、候选区域域间特征对齐学习模块、浅层全局特征对抗对齐学习模块、深层全局特征对抗对齐学习模块以及上下文特征融合连接模块；

如图3所示，在本申请的另一个实施例中，还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现基于加权最优传输的无监督域自适应视觉目标检测方法，具体为：

还需要说明的是，在本说明书中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。