CN110458022B

CN110458022B - 一种基于域适应的可自主学习目标检测方法

Info

Publication number: CN110458022B
Application number: CN201910621187.XA
Authority: CN
Inventors: 罗大鹏; 牟泉政; 王聪皓; 魏龙生; 张婧; 何松泽; 毛敖; 徐慧敏
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2022-07-12
Anticipated expiration: 2039-07-10
Also published as: CN110458022A

Abstract

本发明提供了一种基于域适应的可自主学习目标检测方法，采用任一通用检测器作为初始检测器，设置置信度阈值β和自适应阈值θ，对目标域进行检测，得到正样本、负样本和难样本；从INRIA Person数据集中选择若干样本得到任一源域样本，利用CycleGAN模型将源域样本转换为目标域样本；将目标域样本作为VGG19分类器的训练集，对VGG19分类器进行训练，得到最终VGG19分类器；利用最终VGG19分类器对难样本进行分类，得到新的正样本和负样本；以新的正样本和负样本对初始检测器进行优化，得到目标检测器；利用目标检测器对实际目标域进行目标检测，得到检测目标。本发明的有益效果是：提高了通用检测器的目标检测性能和目标检测精度，解决了域迁移问题，可应用于任意监控场景。

Description

一种基于域适应的可自主学习目标检测方法

技术领域

本发明涉及监控目标识别领域，尤其涉及一种基于域适应的可自主学习目标检测方法。

背景技术

许多车站、地铁、商场人流较多的地方容易发生安全事故，一旦发生踩踏事故，后果不堪设想。因此，及时地监测客流情况，对行人进行检测分析十分重要。近几年发展起来的智能安监技术、无人驾驶技术等随着计算机视觉的兴起而成为研究的热点，使以计算机视觉为基础的行人检测技术在实际应用中更具有实时性、准确性和可靠性，具有很大的研究前景。但是，在多种动态变化场景中和不同拥挤程度下，稳定、准确地实现行人检测，仍然是一个具有挑战性的课题。

物体检测是计算机视觉中的基本问题。它旨在识别和定位图像中某些类别的所有对象。在深度卷积网络(CNN)激增的推动下，已经提出了许多基于CNN的物体检测方法，大大提高了性能。虽然在基准数据集上取得了优异的性能，但现实世界中的物体检测仍然面临着视点、物体外观、背景、照明和图像质量等方面的巨大差异的挑战，这可能会导致在训练和测试数据之间存在相当大的域迁移。这种域迁移会导致检测性能显著下降。尽管收集更多的训练数据可能会减轻域迁移的影响，但这并非易事，因为注释边界框是一个昂贵且耗时的过程。因此，亟需一种方法能使目标检测模型适应与视觉上不同于训练域的新域。

发明内容

为了解决上述问题，本发明提供了一种基于域适应的可自主学习目标检测方法，解决了跨域目标检测问题。

该基于域适应的可自主学习目标检测方法主要包括以下步骤：

S1：采用任一通用检测器作为初始检测器，并设置所述初始检测器的置信度阈值β和自适应阈值θ，对目标域进行检测，得到正样本、负样本和难样本；所述目标域是通过监控视频得到的多帧图片；所述正样本表示目标样本，所述负样本表示除目标样本以外的其他样本，所述难样本表示无法区分为正样本或负样本的样本；

S2：从INRIA Person数据集中选择若干样本得到任一源域样本，利用CycleGAN模型将所述源域样本转换为目标域样本；

S3：将所述目标域样本作为VGG19分类器的训练集，对VGG19分类器进行训练，得到最终VGG19分类器；利用所述最终VGG19分类器对步骤S1中的难样本进行分类，加上步骤S1中的正样本和负样本，得到新的正样本和负样本；

S4：采用在线渐进学习方法，以所述新的正样本和负样本对初始检测器进行优化，得到目标检测器；

S5：利用所述目标检测器对实际目标域进行目标检测，得到检测目标。

进一步地，所述某一通用检测器为YOLO检测器。

进一步地，所述YOLO检测器用来将输入的图像划分为S×S的格子，每个格子输出的信息维度为B×(4+1)+C；其中，B为每个格子中预测物体框的个数，C为每个格子中预测类别的个数。

进一步地，所述VGG19分类器为一个二分类的分类器。

进一步地，最终VGG19分类器用以下公式进行表示：

其中，L_sup为目标监督损失；L_ST为语义转移损失；

为超参数，用来确定语义转移损失的影响；X^T表示目标域样本；Y^T表示目标域样本标签；G(x^s)表示通过CycleGAN模型的源域样本；Y^S表示源域样本的标签；

表示没有标签的源域样本。

本发明提供的技术方案带来的有益效果是：通过在线更新，提高了通用检测器的目标检测性能和目标检测精度，解决了域迁移问题，可应用于任意监控场景。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例中一种基于域适应的可自主学习目标检测方法的流程图；

图2是本发明实施例中CycleGAN的框架图；

图3(a)为本实施例在数据集TownCenter上的行人检测结果；

图3(b)为本实施例数据集PNNL-Parking-Lot2上的行人检测结果；

图4(a)为本实施例在在数据集TownCenter上的检测性能对比图；

图4(b)为本实施例在数据集PNNL-Parking-Lot2上的检测性能对比图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明的实施例提供了一种基于域适应的可自主学习目标检测方法，本实施例中YOLO检测器为任一通用检测器。利用视频的第一帧中框选出的样本作为起始训练样本，并通过在线渐进学习算法联合循环生成对抗网络(CycleGAN)和分类器，逐步缩小决策边界，减少难样本数目，完成域适应，进而提升通用检测器的检测性能。同时利用在线渐进学习算法，实现检测器的自主学习能力。

请参考图1，图1是本发明实施例中一种基于域适应的可自主学习目标检测方法的流程图，具体包括如下步骤：

S1：采用任一通用检测器作为初始检测器，并设置所述初始检测器的信度阈值β和自适应阈值θ，在所述初始检测器中输入监控视频中的多帧图片，对行人进行检测，所述初始检测器输出正样本、负样本和难样本；所述正样本表示目标样本，即行人；所述负样本表示除目标样本以外的其他样本，比如商店和树木等；所述难样本表示初始检测器很难区分为正样本或负样本但带有大量信息的样本，可能既有目标样本又有其他样本的样本，比如坐在车中的行人等；

S2：从INRIA Person数据集中选择若干样本作为任一源域，利用CycleGAN模型将所述源域转换为目标域样本；在动态视频的第一帧图像中用鼠标框选出一组正负样本，对所述正负样本进行数据增强处理，将数据增强后的样本作为初始目标域样本，将从数据库INRIA Person中选择的若干样本作为初始源域样本，使用所述初始目标源样本和所述初始源域样本初始化CycleGAN模型；

S3：将所述目标域样本作为VGG19分类器的训练集，对VGG19分类器进行训练，得到最终VGG19分类器；利用所述最终VGG19分类器对步骤S1中的难样本进行分类，结合步骤S1中的正样本和负样本，得到新的正样本和负样本；使用VGG19模型构建一个二分类的分类器，将通过CyleGAN模型输出的从源域转换为目标域的样本和数据增强后的第一帧样本作为有标签训练样本，将难样本作为无标签训练样本，有标签样本用于构建监督损失，有标签样本和无标签样本用于共同构建语义损失；

S5：利用所述目标检测器对实际得到的目标域进行目标检测，得到检测目标。检测结果如图3(a)和图3(b)所示，图3(a)为本实施例在数据集TownCenter上的行人检测结果，图3(b)为本实施例数据集PNNL-Parking-Lot2上的行人检测结果。

图4(a)为本实施例在在数据集TownCenter上的检测性能对比图，图4(b)为本实施例在数据集PNNL-Parking-Lot2上的检测性能对比图，其中PLM为采用无监督算法的检测结果的precision-recall曲线图，Transfered DPM为采用转移算法的检测结果的precision-recall曲线图，Weakly-MIF为采用弱监督算法的检测结果的precision-recall曲线图，Supervised-slsv为采用监督算法的检测结果的precision-recall曲线图，Ours表示采用本发明提供的基于域适应的可自主学习目标检测方法的检测结果的precision-recall曲线图；如图(4)所示，在数据集TownCenter和数据集PNNL-Parking-Lot2上，由采用上述方法得到的检测结果的precision-recall曲线对比可知，本发明提供的基于域适应的可自主学习目标检测方法的检测效果更好。

通过最终VGG19分类器区分难样本的正负性，并通过在线渐进学习算法自主更新YOLO检测器，以解决域迁移问题，进而提高YOLO检测器的检测性能；

(1)YOLO检测器

YOLO检测器的工作原理为：把输入的一副图片划分为S×S的格子，以每个格子所在位置和对应内容为基础，来预测：

(1)物体框，包含物体中心相对格子中心的坐标(x，y)和物体框的宽w及高h，每个格子预测B个物体框；

(2)每个物体框是否具有物体置信度；其中当前格子中如果包含物体，则置信度的分数为当前预测的物体框和标注物体框的IOU，否则置信度分数为0；

(3)每个格子预测一共C个类别的概率分数；这个概率分数和物体框是不相关的，仅仅是基于这个格子；

综上可知，每个格子输出的信息维度是B×(4+1)+C。

(2)构造用于区分难样本的分类器：

(2.1)CycleGAN模型

CycleGAN模型实质上是在给定训练样本的情况下学习两个域之间转换的映射函数，两个域分别为目标域T和源域S；把进行数据增强后的视频第一帧中用鼠标框选出的正负样本作为目标域T的训练样本

表示目标域T中的第q个训练样本，q为第q个训练样本，M为目标域T中的训练样本总数；选择INRIA Person数据集中的图片作为源域S的训练样本

表示源域S中的第p个训练样本，p为第p个训练样本，N为目标域S中的训练样本总数。CycleGAN模型包括两个映射函数，即映射函数G：S→T和映射函数F：T→S。这两种映射函数分别具有对抗鉴别器D_S和D_T，D_S用于区分图片{x^s}和{F(x^t)}，D_T用于区分图片{x^t}和{G(x^s)}。CycleGAN模型还具有损失函数，所述损失函数由两部分组成：对抗性损失和循环一致性损失；对抗性损失用于匹配生成的图像的分布与需要转换的域中的数据分布，循环一致性损失以防止所学习的映射函数G和F相互矛盾，详细框架如图2所述示。

两种映射函数都应用了对抗性损失。对于映射函数G：S→T及其鉴别器D_T，对抗性损失的表达式为：

其中G试图生成类似于来自域T的图像G(x^s)；D_T旨在区分转换后的样本G(x^s)和实际样本x^t；E表示期望，

表示目标域中的数据的分布，

表示源域中的数据的分布，

表示目标中所有数据取平均的期望；

表示源域中所有数据取平均的期望；G(x^s)表示生成映射函数G：S→T，用以将源域样本转换为目标域样本，D_T(x^t)表示判别映射函数F：T→S。G和D构成了一个动态的“博弈过程”，直到损失平衡达到平衡。

单独的对抗性损失不能保证所学习的映射函数可以将单个输入{x^s}映射到期望的输出{x^t}。为了进一步减少可能的映射函数的空间，学习的映射函数具有循环一致性：x^s→G(x^s)→F(G(x^s))≈x^s，x^t→F(x^t)→G(F(x^t))≈x^t。使用循环一致性损失来激励循环一致性行为，所述循环一致性损失的表达式为：

其中，E表示期望，

表示目标域中的数据的分布，

表示源域中的数据的分布，

表示目标中所有数据取平均的期望；

表示源域中所有数据取平均的期望；G(x^s)表示生成映射函数G：S→T，用以将源域样本转换为目标域样本，D_T(x^t)表示判别映射函数F：T→S。

(2.2)目标监督损失和语义转移损失

VGG19分类器联合优化了目标监督损失L_sup和语义转移损失L_ST。因此，VGG19分类器模型用如下公式表示：

其中，L_sup为目标监督损失；L_ST为语义转移损失；

为超参数，用来确定语义转移损失的影响；X^T表示目标域样本；Y^T表示目标域样本标签；G(x^s)表示通过CycleGAN模型的源域样本，即转换成目标域样本；Y^S表示源域样本的标签；

表示没有标签的源域样本；

通过CycleGAN的源域样本

和进行数据增强后的视频第一帧中用鼠标框选出的目标域T的训练样本

构成总目标域T的训练样本

其中，

表示源域S中的第p个训练样本，

表示通过映射函数G：S→T，将源域S中的第p个训练样本转换为对应目标域T中的第p个训练样本；p为第p个训练样本，N为目标域S中的训练样本总数；

表示目标域T中的第q个训练样本，q为第q个训练样本，M为目标域T中的训练样本总数；使用所述总目标域T的训练样本

用来构建目标监督损失：

其中y_i是样本的真实标签，

是预测标签，公式(4)中的i表示。

使用无标签的难样本

和有标签样本计算语义转移损失，在构建损失之前，去掉VGG19分类器最后一层后作为一个特征提取器E(x)，在实践中，构造K-最近邻(K-NN)图，其中使用带宽参数σ的高斯核来定义采样点间的相似性：

具体来说，在所有采样点中，如果根据欧几里德距离测量，任何两个采样点是彼此的K-NN，就连接这两个采样点x_i和x_j，E(x_i)和E(x_j)表示分别提取采样点x_i和x_j的特征，i和j均为正整数；一个采样点对应一个样本，一个样本对应一个特征；

语义损失分为二部分，来自无标签的难样本

和

的语义损失，来自无标签的难样本

和

的语义损失：

其中，

表示没有标签的目标域样本；X^T表示有标签的目标域样本；G(X^S)表示通过cyclegan后的源域样本；

表示没有标签的目标域样本的特征向量；H表示没有标签的目标域样本的总数目；

表示有标签的目标域样本的特征向量；i和j分别表示第i个和第j个样本；M表示有标签的目标域样本的总数目；

表示通过cyclegan后的源域样本的特征向量，N表示源域样本的总数目。

(3)在线渐进学习算法

使用在线渐进学习算法，在在线学习过程开始时允许使用性能较差的检测器，并且将通过迭代学习改进位于决策边界附近的难样本；

使用

作为YOLO检测器检测出的目标框的置信度(阈值)，收集所有检测到的目标框

其中b_i表示收集到的第i个目标框，N表示收集到的目标框的总数目，并基于置信度大小将其分为正样本set_pos，难样本set_hard，以及负样本set_neg。

其中β是一个固定的置信度阈值，本实施例中β＝0.5。θ是自适应阈值，会随着迭代次数变化而变化，本实施例初始自适应阈值θ＝0.5；β+θ为正决策边界，β-θ为负决策边界。

为了减少难样本的数量并获得更好的性能提升，采用渐进降低两个边界间的差距的学习过程。从公式(10)中可以看出自适应阈值θ决定了正负决策边界的距离，可以通过以下等式最小化自适应阈值θ：

θ＝1-vγ_yolo (9)

其中v是一个灵敏度参数，用来控制双边界检测器的学习速度，本实施例中v设置为0.85；γ_yolo是一个动态参数，用来使决策边界的距离减少过程适应于YOLO模型的学习过程，且

其中，b_i∈set_hard表示收集到的难样本的任一目标框，i表示第i个目标框；T_yolo(b_i)表示目标框b_i的置信度阈值，β是一个固定的置信度阈值，本实施例中β＝0.5，C(b_i)表示通过VGG19分类器区分难样本的类别，如果样本属于正样本，那么sign(C(b_i))＝1，否则就为-1。

本发明的有益效果是：

(1)使用YOLO作为初始待更新检测器，能在保持初始较高检测精度情况下进行实时视频目标检测；

(2)不同于以往在特征级别进行域转换的方法，使用CycleGAN在图像级别进行域转换；

(3)只需在视频的第一帧中，用鼠标框选需要检测的目标，本系统便能不断自主学习，逐步提高检测性能；

(4)在线渐进式学习过程解决了域迁移问题，可以扩展到任意监控场景或对象类检测任务。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。