CN114399697A

CN114399697A - 一种基于运动前景的场景自适应目标检测方法

Info

Publication number: CN114399697A
Application number: CN202111416174.2A
Authority: CN
Inventors: 胡海苗; 李明竹; 张译丹; 姜宏旭
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-04-26
Anticipated expiration: 2041-11-25
Also published as: WO2023092582A1

Abstract

随着深度学习技术的日益发展，真实环境下对模型泛化性能的要求日益提升，光照、背景等等差异对模型泛化性能的影响已经引起了广泛关注。本发明公开了一种基于运动前景的场景自适应目标检测方法。该方法通过利用运动前景与全局目标数据分布一致性的先验，有效利用了运动前景目标框，同时通过解码器进行实例特征相似度计算，极大程度了提升了模型在目标域的效果。实验结果表明，本发明所提供的方法在真实环境下目标检测效果得到大幅度提升。

Description

一种基于运动前景的场景自适应目标检测方法

技术领域

本发明涉及一种基于运动前景的场景自适应目标检测方法。

背景技术

在计算机视觉领域，目标检测是一个重要课题，他的任务是找到图像视频中的感兴趣区域，并确定其类别与位置。目前，众多基于深度学习的方法能够在基准数据集上取得良好效果，然而由于域差异的存在，即目标大小、摄像机角度、光照、背景环境发生改变时，该模型的效果均有不同程度的下降。在相同域上训练模型时解决此问题最简单有效的办法，即数据驱动式训练，然而一方面，人工标注数据集花费大量的人力物力，另一方面，很多实际领域并不能人工标注。由此，为了解决由于数据分布不同导致的模型泛化性能下降，基于域自适应的目标检测方法应运而生。

目前，基于域自适应的目标检测方法包括基于特征的、基于模型的等方法。其中最为经典的方法(DA-FasterRcnn)为，通过嵌套对抗训练模块，最小化特征图的领域差异，使得分类器无法区分候选框特征，后续相关算法都是基于此算法进行改进。另外还有一类算法通过对抗生成，实现像素级别的域对齐。

然而上述算法只考虑了分类方面的域差异，没有考虑回归上的域差异，导致其场景变换后效果不理想。另外，对于域差异较大图像，由于数据分布未知，在两阶段目标检测的一阶段提取候选区域RPN阶段，无法有效提取合适的候选框目标，在特征对齐时也无法判别哪些区域的特征需要对齐。

发明内容

本发明提出了一种基于运动前景的场景自适应目标检测方法，用以解决现有技术存在的上述技术问题。

根据本发明的一个方面，提供了一种基于运动前景的场景自适应目标检测方法，包括以下步骤：

A)获取源域数据集与目标域数据集，其中源域数据集包含源域RGB图像、目标检测人工标签、运动前景目标框标签，目标域数据集包含目标域RGB图像、运动前景目标框标签；

B)将源域数据集，目标域数据集输入特征提取模块分别获取源域特征与目标域域特征；

C)将步骤B)中获取的源域特征与实例域特征输入第一候选框前景框特征聚合模块，分别获得源域实例特征、目标域实例特征；

D)将步骤B)中获取的源域特征输入第二候选框前景框特征聚合模块，获得源域分类回归特征；

E)将步骤C)中获取的源域实例特征、目标域实例特征输入生成式相似性度量网络模块，计算损失，优化网络，降低域差异；

F)将步骤D)中获取的源域分类回归特征输入分类回归模块，计算损失，优化网络；

G)将步骤B)中获取的源域特征、目标域特征输入全局特征对齐网络模块，计算损失，优化网络；

其中，步骤A)中的运动前景目标框获取方式包括但不限于vibe、混合高斯背景消除、帧差、光流；

其中，步骤C)中的第一候选框前景框特征聚合模块包括，在训练过程中，将置信度较高的RPN候选框与运动前景目标框联合，样本均衡化后，进行源域实例特征与目标域实例特征提取；

其中，步骤D)中的第二候选框前景框特征聚合模块包括，在训练过程中，将运动前景目标框联合RPN候选框联合，进行源域分类回归特征的提取；

其中，步骤E)中的生成式相似性度量网络模块包括，在训练过程中，对提取到的源域实例特征和目标域实例特征，使用解码器重构实例特征获取解码特征，计算解码特征的相似度损失，实现实例特征对齐；

其中，步骤F)中的分类回归模块包括，在训练过程中，通过源域目标框真值标签计算源域数据集分类回归损失,从而保证源域目标检测准确性；

其中，步骤G)中的全局特征对齐网络模块包括，梯度反转层和分类器，从而实现图像层面特征对齐。

与现有技术相比，本发明具有以下有益效果：

本发明提出的一种基于运动前景的场景自适应目标检测方法，该方法通过有效利用运动前景的先验知识，同时使用解码器进行特征对齐，从而获得良好的检测效果，有效提升模型在新场景下的泛化性能。

附图说明

图1是根据本发明的一个实施例的基于运动前景的场景自适应目标检测方法的流程图；

图2是根据本发明的一个实施例的第一候选框前景框聚合模块的构造示意图；

图3是根据本发明的一个实施例的第二候选框前景框聚合模块的构造示意图；

图4是根据本发明的一个实施例的生成式相似性计量模块的构造示意图；

图5是根据本发明的一个实施例的全局特征对齐模块的构造示意图；

具体实施方式

图1的实施例中，源域数据集为

ns表示源域中真实样本数量，

表示源域中的样本i，

表示源域中样本i的目标框坐标值集合，

表示源域中第i个样本的目标类别。本具体实施例中只有行人单一类别，

表示源域中第i个样本的运动前景目标框坐标值集合，

集合内目标框数量与

集合内目标框数量不一致；目标域数据集用

表示，其中nT表示目标域中真实样本数量，

表示目标域中的样本i，

表示目标域中样本i中包含的运动前景目标框坐标值数据集。

根据本实施例的基于运动前景的场景自适应目标检测方法基于源域数据和目标域的运动前景数据对模型进行训练，使得模型在无目标域(T)标注数据集情况下也拥有良好的检测效果，其包括以下步骤：

A)把源域连续帧样本集合

和目标域连续帧样本集合

输入Vibe运动目标检测算法获取源域运动前景目标框和目标域运动前景目标框

(其中S代表源域，T代表目标域)，因此源域数据集D_S与目标域数据集D_T被获取。

B)源域数据集D_S与目标域数据集D_T输入特征提取模块(S101)，获取源域特征f1和目标域特征f2,本具体实施例中特征提取模块的主干网络为ResNet-101；

C)将源域特征f1、源域运动前景目标框

输入第一候选框前景框聚合模块PFA1(S112)得到源域实例特征pfs，将目标域特征f2和目标域运动前景目标框

输入候选框前景框聚合模块PFA1(S113)，得到目标域实例特征pft；

D)将源域特征f1与运动前景目标框

输入第二候选框前景框聚合模块PFA2(S111)，得到源域分类回归特征crs；

E)把源域分类回归特征crs输入分类回归模块(S121)。通过源域目标框真值标签计算源域数据集的分类回归损失，通过对源域数据集进行训练优化特征提取模块与分类回归模块网络权重；

F)把源域实例特征pfs和目标域实例特征pft输入生成式相似性计量模块GSM(S122)，通过对源域数据集、目标域数据集进行训练，使得源域实例特征和目标域实例特征尽可能相似，优化特征提取模块和生成式相似性计量模块GSM的网络权重，进而提升模型的泛化性能；

G)将源域特征f1和目标域特征f2通过全局特征对齐模块GFA(S123)；通过对源域数据集、目标域数据集进行训练，使得源域和目标域特征尽可能相似，优化特征提取模块、全局特征对齐模块GFA(梯度反转层层(GRL)与分类器)网络权重使源域特征f1和目标域特征f2的所属域无法被分辨出。

根据本发明的一个进一步的方面，如图2所示，所述第一候选框前景框聚合模块PFA1包括分别执行以下操作步骤的子模块：

步骤S201：把源域连续帧样本

和目标域连续帧样本

输入RPN网络(regionproposal network)，生成正负候选框集合

其中

代表源域和目标域第i个图像样本的第j个候选框，C代表RPN网络生成的候选框的数量，本实施例中取值64，

表示源域中第i个图像样本，

表示目标域中第i个图像样本；

步骤S202：在本实施例中，把源域连续帧样本

和目标域连续帧样本

输入Vibe运动目标检测算法，分别获取源域运动前景目标框和目标域运动前景目标框

fb_i为第i个图像样本的运动前景目标框集合；

步骤S211：选取正负候选框集合

中置信度大于预设的阈值TH的候选框，本实施例中TH取值0.7；

步骤S212：合并步骤S211得到的候选框与步骤S202获取的运动前景目标框

步骤S213：将步骤S212的输出输入样本均衡过滤器filter，获取源域PFA1候选框集合、目标域PFA1候选框集合

其中{b_if}_j代表数据集中第i个样本中第j个个PFA1候选框集合，f为标识符代表PFA1模块生成的候选框集合，S代表源域，T代表目标域，C_Sf，C_Tf分别代表源域中候选框与运动前景目标框的集合中框的个数与目标域中候选框与运动前景目标框的集合中框的个数，其中C_Sf＝C_Tf；

其中,样本均衡过滤器filter，设置固定样本数量f_num,本实施例中被设置为8，使源域(S)中的第i个样本与目标域(T)的第i个样本中PFA1候选框的数量保持一致，从而消除样本不均衡。

根据本发明的一个进一步的方面，如附图3所示，第二候选框前景框聚合模块PFA2包括分别进行如下操作的子模块：

步骤S301：将源域连续帧样本

通过RPN网络，生成源域正负候选区域集合

其中C为一个常量代表RPN网络生成的候选框的数量，本实施例中取值64，

为源域第i个样本的第j个候选框；

步骤S302：本实施例中，将源域连续帧样本

输入Vibe运动目标检测算法中，获取源域运动前景目标框

fb_i为第i个图像样本的运动前景目标框集合；

步骤S311：叠加步骤S301中生成的源域正负候选区域集合

与步骤S302中生成的源域运动前景目标框

生成源域PFA2候选框集合

其中{b_ia}_j代表第i个样本中第j个PFA2候选框集合，a为标识符代表PFA2模块生成的候选框集合，S代表源域，C_Sa源域中候选框与运动前景目标框的集合中框的个数.通过运动前景目标框的加入解决了两域在目标尺寸差异过大时无法生成准确的候选框的问题。

根据本发明的一个进一步的方面，在分类回归模块S121中，将源域特征f1与PFA2候选框集合

输入分类器与回归器对样本进行回归与分类，该部分损失函数如下：

L_det＝L_RPN+L_T

上式中，L_det代表源域检测损失函数，由L_RPN，L_T两部分组成，L_RPN是RPN损失函数,L_T是二阶段分类回归损失函数；其中角标det代指分类回归模块的总损失函数名称，RPN代指二阶段目标检测框架的第一阶段RPN阶段的损失函数名称，T代指二阶段目标检测框架的第二阶段分类回归阶段的损失函数名称。本具体实施例中，分类损失使用交叉熵损失，回归损失使用均方误差(MSE)损失。

根据本发明的一个进一步的方面，如图4所示，生成式相似性计量模块GSM包括分别进行如下操作的子模块：

步骤S401：将PFA1模块生成的PFA1候选框集合

输入特征提取模块提取到的源域特征f1、目标域特征f2,生成源域实例特征f_S和目标域实例特征f_T；

步骤S402：将源域实例特征f_S和目标域实例特征f_T输入自适应平均池化层输出池化特征f_Ss402,f_Ts402，其输出尺寸为8*8，通道数等于源域实例特征f_S特征通道数；

步骤S403：将S402中的输出输入第一1*1卷积层，本实施例中通道数为1024,输出源域第一卷积层特征和目标域第一卷积层特征f_Ss403,f_Ts403；

步骤S404：将S403中的输出输入第一上采样模块，该第一上采样模块由插值上采样层、卷积层、批标准化层等组成，上采样后的特征尺寸为16*16，本实施例中通道数为256，输出源域第一上采样特征和目标域第一上采样层特征f_Ss404,f_Ts404；

步骤S405，将S404的输出输入第二上采样模块，上采样后特征尺寸为32*32，本实施例中通道数为256，输出源域第二上采样特征和目标域第二上采样层特征f_Ss405,f_Ts405；

步骤S406，将S405的输出输入上采样模块3，上采样后特征尺寸为64*64，本实施例中通道数为256，输出源域第二上采样特征和目标域第二上采样层特征f_Ss406,f_Ts406；

步骤S407，将S406中输出的特征输入第二1*1卷积层，生成特征的通道数为3，生成源域解码特征、目标域解码特征f_SG,f_TG。

计算源域、目标域解码特征f_SG,f_TG的感知损失，得到损失L_ins；

L_ins＝E(G(S),G(T))

其中E为感知损失，是一种被用来衡量图像之间的相似性的损失函数；

L_ins为源域解码特征、目标域解码特征f_SG,f_TG感知损失值，E为感知损失计算函数(该感知损失函数为已有技术)，G(S),G(T)分别代指源域实例特征和目标域实例特征f_S,f_T经过步骤S402-S407(共享解码器G)生成的源域解码特征、目标域解码特征f_SG,f_TG。该方案可以有效衡量两域(源域和目标域)实例特征之间的相似性。通过对特征提取模块与生成式相似性计量模块GSM的训练，可以使源域实例特征和目标域的实例特征尽可能相似，保证了分类回归模块模块在目标域的准确性；同时解码器的使用增强了模型的泛化性能，降低模型过拟合的风险，减少模型训练失败率。

根据本发明的一个进一步的方面，如图5所示，全局特征对齐模块GFA包括分别进行如下操作的子模块：

步骤S501:获取上述步骤中生成的源域特征f1和目标域特征f2；

步骤S502：将源域特征f1,目标域特征f2输入梯度反转层GRL，常规反向传播中将损失(预测值和真实值的差距)逐层向前传递，每层网络根据传递损失计算梯度，进而更新本层网络的参数。GRL层将传到本层的误差取反，从而实现GRL前后的网络训练目标相反，以实现对抗的效果；

步骤S503：把源域特征f1,目标域特征f2输入分类器，以区分源域特征和目标域特征，该分类器包括卷积层、激活层，具体的分别执行步骤S511-S513的操作。

其中，全局特征对齐模块GFA的损失函数为分类器的损失函数L_img。本实施例中，L_img为交叉熵损失函数：

其中，N为源域和目标域所有样本数量的和，i为样本标号，y_i为样本实际标签即属于源域还是目标域，p_i为经过分类器后属于不同类别的概率。

在本发明的一个实施例中，最终的全局损失函数为：

L＝L_det+λ₁L_ins+λ₂L_img

其中λ₁,λ₂为经验值，用于衡量三项损失对最终损失的贡献值，均取为1。

本发明的优点包括：

(1)本发明充分利用了运动前景这一先验，并将其很好的融入训练框架之中。通过使用FPA1候选框前景框聚合模块和FPA2两大候选框前景框聚合模块对RPN网络提取的候选框与运动前景目标框进行有效融合，使两类候选框相互补充相互影响，实现模型效果的优化。

(2)在进行实例特征对齐时，为了减少模型过拟合的风险，提升目标框回归准确率，本发明摒弃了已有的通过分类器进行特征对齐的方式，改用解码器降低过拟合，通过感知损失函数计算损失，极大程度了提升了模型在目标域的效果。

(3)在RPN网络提取的候选框与运动前景目标框融合中，通过样本均衡过滤器，有效的实现了样本均衡。

为了验证本发明方法的有效性和改进效果，本发明人进行了如下实验，其中，测试过程只需按照两阶段检测算法测试过程进行测试，因此在速度上与常规两阶段算法一致。通过在模型训练时添加部分组件，使得训练后的模型在源域与目标域中均能获取良好的效果。

该实验的测试实例所采用的源域数据集与目标域数据集均来自于真实场景，分别被命名为dml数据集与zn数据集，其中dml数据集为源域数据集，zn数据集为目标域数据集。

实验细节：在该实验中采用的参数与原始DA-FasterRcnn算法(经典域自适应检测算法)保持一致，骨干网络使用ResNet-50，骨干网络的初始化采用ImageNet的预训练权重。训练了70000张图片后，计算目标域的平均精度map。实验是基于PyTorch框架的，使用的硬件平台为：NVIDIAGTX-2080Ti。

表1为实验结果对比图，其中方法Da-FasterRcnn为经典域自适应检测算法，方法PFA1为在经典算法上添加第一候选框前景框聚合模块PFA1，即在RPN候选框的基础上融合运动前景目标框。可以看到，本发明方法显著提升了目标域的检测效果。

表1：域自适应检测结果

方法	map(％)
		DA-FasterRcnn	27.45
PFA1	33.97
		本发明方法	63.81

Claims

1.一种基于运动前景的场景自适应目标检测方法，其基于源域数据和目标域的前景数据对模型进行训练，使得模型在目标域(T)上也拥有良好的检测效果，其特征在于包括如下步骤：

A)把源域连续帧样本集合和目标域连续帧样本集合输入运动目标检测算法,输出源域连续帧样本的运动前景目标框和目标域连续帧样本的运动前景目标框，与源域标注标签共同构成源域数据集与目标域数据集；

B)将源域数据集与目标域数据集输入特征提取模块获取源域特征和目标域特征；

C)将源域特征、目标域特征和运动前景目标框分别输入第一候选框前景框聚合模块(PFA1)，得到源域实例特征和目标域实例特征；

D)将源域特征与源域运动前景目标框输入第二候选框前景框聚合模块(PFA2)，得到源域分类回归特征；

E)把源域分类回归特征输入分类回归模块，与源域目标框真值标签计算损失，从而在源域上获取优化的检测效果；

F)把源域实例特征和目标域实例特征输入生成式相似性计量模块(GSM)，使得源域实例特征和目标域实例特征尽可能相似并提升泛化性能，减少过拟合；

G)把源域特征和目标域特征输入全局特征对齐模块(GFA).，使图像特征对齐,从而使得源域特征和目标域特征的所属域无法被分辨出,

所述第一候选框前景框聚合模块(PFA1)包括分别进行如下操作的子模块：

步骤S201：把源域连续帧样本和目标域连续帧样本输入RPN网络，生成源域正负候选框集合和目标域正负候选框集合；

步骤S211：选取步骤S201中生成的源域正负候选框集合和目标域正负候选框集合中置信度大于预设的阈值TH的源域正负候选框和目标域正负候选框；

步骤S202：通过运动目标检测算法获取源域运动前景目标框和目标域运动前景目标框；

步骤S212：合并步骤S211得到的置信度大于预设的阈值TH的源域正负候选框和目标域正负候选框与步骤S202获取的源域运动前景目标框和目标域运动前景目标框，获取源域合并目标框与目标域合并目标框；

步骤S213：通过样本均衡过滤器，获取第一候选框前景框聚合模块(PFA1)的源域候选框和目标域候选框；

样本均衡过滤器通过复制或删除步骤S212中生成的源域合并目标框与目标域合并目标框，从而使源域(S)中的第i个样本包括的源域合并目标框与目标域(T)的第i个样本中包括的目标域合并目标框的数量保持一致，从而有效利用运动前景先验并消除样本不均衡。

所述第二候选框前景框聚合模块(PFA2)包括分别进行如下操作的子模块：

步骤S301：使源域连续帧样本通过RPN网络，生成源域正负候选框集合；

步骤S302：利用运动目标检测算法获取源域运动前景目标框；

步骤S311：叠加源域正负候选框集合与源域运动前景目标框，生成第二候选框前景框聚合模块(PFA2)的源域候选框集合，通过在源域正负候选框集合中加入源域运动前景目标框，解决源域与目标域的目标尺寸差异过大时模型无法生成好的候选目标框的问题；

生成式相似性计量模块(GSM)包括分别进行如下操作的子模块：

步骤S401：使用步骤S213中生成的第一候选框前景框聚合模块(PFA1)的源域候选框，截取源域特征中的源域实例特征；使用步骤S213中生成的第一候选框前景框聚合模块(PFA1)的目标域候选框，截取目标域特征中的目标域实例特征；

步骤S402：将源域实例特征和目标域实例特征输入自适应平均池化层，将源域实例特征和目标域实例特征的尺寸改变为8*8，通道数等于源域实例特征的通道数，输出源域池化层特征和目标域池化层特征；

步骤S403：将S402中获得的源域池化层特征和目标域池化层特征输入第一1*1卷积层，该第一1*1卷积层是一个1*1卷积层，输出源域第一卷积层特征和目标域第一卷积层特征；

步骤S404：将S403中获得的源域第一卷积层特征和目标域第一卷积层特征输入第一上采样模块，该第一上采样模块执行插值上采样、卷积和/或批标准化层操作，输出源域第一上采样层特征和目标域第一上采样层特征；

步骤S405，将步骤S404中第一上采样模块的输出输入第二上采样模块，该第二上采样模块执行插值上采样、卷积和/或批标准化层操作，输出源域第二上采样层特征和目标域第二上采样层特征；

步骤S406，将步骤S405中第二上采样模块的输出输入第三上采样模块，该第三上采样模块执行插值上采样、卷积和/或批标准化层操作，输出源域第三上采样层特征和目标域第三上采样层特征；

步骤S407，将步骤S406中第三上采样模块的输出输入第二1*1卷积层，该第二1*1卷积层是一个1*1卷积层，生成源域解码特征和目标域解码特征，源域解码特征和目标域解码特征的通道数为3，计算源域解码特征和目标域解码特征的感知损失，得到损失L_ins：

L_ins＝E(G(S),G(T))

其中：

L_ins为源域解码特征和目标域解码特征的感知损失值，E为感知损失计算函数，G(S)代指源域实例特征经过步骤S402-S407生成的源域解码特征，G(T)代指目标域实例特征经过步骤S402-S407生成和目标域解码特征，

全局特征对齐模块包括分别进行如下操作的子模块：

步骤S501:获取源域特征和目标域特征；

步骤S502：将源域特征,目标域特征输入梯度反转层输出分类特征，梯度反转层将传到本层的误差取反，从而实现梯度反转层前后的网络训练目标相反，以实现对抗的效果，输出分类特征，

步骤S503：把上述分类特征输入分类器，以区分源域特征和目标域特征，该分类器包括第一分类器卷积层、第一分类器激活层、第二分类器卷积层；

其中：

梯度反转层在图像层面实现一定程度的特征对齐，全局特征对齐模块(GFA)的损失函数为分类器的损失函数。

2.根据权利要求1所述的基于运动前景的场景自适应目标检测方法，其特征在于：

所述步骤B)包括将源域连续帧样本和目标域连续帧样本输入作为特征提取网络的ResNet-101，而把获得的最后一层特征作为源域特征和目标域特征。

3.根据权利要求1所述的基于运动前景的场景自适应目标检测方法，其特征在于：

分类回归模块，使用步骤S311生成的第二候选框前景框聚合模块(PFA2)的源域候选框集合截取源域实例特征生成分类回归特征，接入分类回归模块第一卷积层对样本进行回归与分类，其中涉及到的损失函数包括：分类回归损失函数L_T和RPN损失函数L_RPN，源域目标检测算法损失函数L_det为：

L_det＝L_RPN+L_T

上式中，L_RPN，L_T分别是RPN损失函数与分类回归损失函数；其中角标det代指分类回归模块的总损失函数，RPN代指二阶段目标检测框架的第一阶段RPN的损失函数，T代指二阶段目标检测框架的第二阶段分类回归阶段的损失函数名称。

4.根据权利要求1所述的基于运动前景的场景自适应目标检测方法，其特征在于：

全局特征对齐模块的损失函数L_img为交叉熵损失函数：

其中，N为源域和目标域所有样本数量，i为样本标号，y_i为样本实际标签即属于源域还是目标域，p_i为经过分类器后属于不同类别的概率。

5.根据权利要求4所述的基于运动前景的场景自适应目标检测方法，其特征在于：

全局损失函数为：

L＝L_det+λ₁L_ins+λ₂L_img

其中λ₁,λ₂为经验值，用于衡量三项损失各自对最终损失的贡献值。

6.根据权利要求1所述的基于运动前景的场景自适应目标检测方法，其特征在于：

所述运动目标检测算法包括帧差法和/或背景消除法。

7.存储有计算机程序的计算机可读存储介质，该计算机程序能使处理器执行根据权利要求1-6之一所述的场景自适应目标检测方法。