CN113706436A

CN113706436A - 一种基于自监督生成对抗学习背景建模的目标检测方法

Info

Publication number: CN113706436A
Application number: CN202010427544.1A
Authority: CN
Inventors: 任德华; 赵婷婷; 柳映辉; 陈亚瑞; 吴超; 张容
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2021-11-26

Abstract

大多数前景目标检测的场景中，背景都有相对固定的模式。亮度的变化、背景的动态化、摄像机的移动等都给目标检测算法带来了不少困难。基于此，本发明提出一种基于自监督生成对抗学习进行背景建模的目标检测方法，能够有效地克服上述困难应用于真实环境中。首先，该方法采用图像自动补全的自监督方法形成训练数据，使用生成对抗神经网络进行自监督对抗学习，构建一个背景重建模型。其次，通过训练一个卷积神网络，利用原始图像与经过背景模型重建图像的差异进行前景目标的检测。本发明提出的方法可以应用于静止摄像头和移动摄像头拍摄的内容，具有广泛的使用场景和实际应用价值。

Description

一种基于自监督生成对抗学习背景建模的目标检测方法

技术领域

本发明属于数字图像处理技术领域，尤其是一种实现图像或视频中前景目标检测的方法。

背景技术

图像中前景目标检测是进行目标识别和跟踪的基础，广泛应用于视频监控、居家监护、野外环境监察等众多领域。前景目标检测一般有三类方法，即帧差法、背景减和直接目标检测。其中背景减方法的基本思想是首先建立一个背景模型，然后用当前图像减去背景图像就得到前景目标。

经过几十年的发展，特别是随着2012年以来深度学习的发展，前景目标检测技术取得了很大的进步。卷积神经网络在前景目标检测中与传统的基于多特征或多线索策略的无监督方法相比，表现出了较大的性能提升。但是当前的前景目标检测技术仍然面临很大的挑战。亮度的变化、背景的动态化、摄像机的移动等都给目标检测算法带来不小的困难。比如当前在静态摄像机拍摄的视频上能取得最优效果的基于卷积神经网络的方法，当应用到移动摄像机拍摄的视频上时却存在很大的困难。

本发明提出一种基于自监督生成对抗学习进行背景建模的方法以解决前景目标检测中的亮度变化、背景动态化和摄像机移动等困难。

发明内容

在前景目标检测的很多场景中，摄像头都安装在一个固定的位置或者安装位置所在的工作环境是一个相对稳定的环境，因此背景有相对固定的模式。本发明试图使用背景图像构建一个背景模型，使之可以捕获图像背景中的对象特征，以及各对象之间的语义关系。使用该背景模型对输入图像进行重建，如果输入图像中只有背景信息，那么该模型就能很好地重建输入图像，如果输入图像中存在前景目标，那么重建结果将与原始图像存在较大的差异。基于原始图像与经过背景模型重建图像的差异分析，我们就能够进行前景目标的检测。此时，动态背景、亮度变化、摄像机移动等长期存在于前景目标检测领域的挑战都可以迎刃而解。

有鉴于此，本发明的目的在于克服现有技术的不足，提出一种基于自监督生成对抗学习背景建模的目标检测方法。首先，采用图像自动补全的自监督方法形成训练数据，使用生成对抗神经网络进行自监督对抗学习，对环境中背景图像包含的各个对象及其相互之间的语义信息建立背景模型；其次，训练一个新的卷积神经网络学习前景目标的检测标准，其输入使用原始图像以及该图像经过背景模型重建的图像；最终，通过以上两个步骤，得到适用于背景模式相对固定的环境中的前景目标检测方法。

为了实现上述目的，本发明采用如下技术方案：

一种基于自监督生成对抗学习背景建模的目标检测方法，包括以下步骤：

步骤1、利用环境中的摄像头采集图像，并进行前景目标标注得到对应标签，构建数据集S；

步骤2、从数据集S中选择只含有背景信息图像的数据子集S_b；

步骤3、构建由生成网络G和判别网络D组成的生成对抗网络，采用自监督和对抗学习的方法使用数据集S_b进行训练；训练完成后的生成网络G就是背景模型；

步骤4、构建卷积神经网络M_obj，使用数据集S和S经过生成网络G后的输出S_g一起作为M_obj的输入，采用有监督的学习方法对M_obj进行训练，监督信号就是S中的标签；训练完成后的M_obj作为前景目标推理模型。

步骤5、进行前景目标检测，即将当前图像I_o以及将其输入生成网络G得到的输出I_g一起作为前景目标推理模型M_obj的输入，则M_obj的输出即为前景检测结果。

进一步，所述步骤1中的数据集S，每个样本由图像和对应的前景目标掩膜标签组成，前景目标掩膜标签是与原图像相同大小的二值图像，前景目标的像素标注为1，背景像素标注为0。

进一步，所述步骤3中的生成对抗网络训练时，不使用数据集S_b中的标签信息，而是使用图像I_o裁剪掉一个随机位置、随机大小的区域后得到的图像I_c，将I_o作为I_c的标签，这是一种图像自动补全的自监督学习；与通常的生成网络不同，这里生成网络G的输入没有随机信号z，而只使用I_c作为输入，其学习目标是使得其输出I_g能够与原始图像I_o相同；判断网络D的目标是区分开I_g和I_o；生成对抗网络训练时用平方损失函数和对抗损失函数；这种自监督生成对抗学习能够帮助模型更好地学习环境中的对象以及对象之间的语义信息；

进一步，所述步骤4中卷积神经网络M_obj的训练采用交叉熵损失函数；I_o经过背景模型重建得到I_g，原I_o中的背景部分会得到很好的重建，但前景部分则不会，因此通过I_g与I_o的差异分析就可以判断前景和背景，通过对M_obj的训练能够得到一个更准确的判断标准。

本发明的优点和积极效果是：

1、本发明设计合理，采用自监督生成对抗学习进行背景建模，能够很好地帮助背景模型捕捉到环境中的对象以及对象之间的语义信息，从而通过比较原图与该图经过背景模型重建的图像的差异得到前景区域；该方法很好地利用了深度卷积神经网络的表达能力，将环境中动态背景、亮度变化等拟合到背景模型当中，减少了环境对目标检测的影响。

2、本发明提出了一种两阶段的前景目标检测训练方法，第一个阶段基于图像重建进行背景建模，第二个阶段使用第一阶段的背景建模结果进行前景目标检测标准的学习。背景建模采用自监督的方法减少了对大规模标记数据的依赖，可以利用尽量多的无标签数据进行大数据学习，提高背景建模的效果。

3、本发明提供了一种静止摄像头和移动摄像头拍摄的视频内容均能使用的前景目标检测方法，具有广泛的使用场景和实际应用价值。

附图说明

图1为本发明中基于自监督生成对抗学习背景建模的目标检测方法框架示意图；

具体实施方式

以下结合附图对本发明实施例做进一步详述。

步骤1、利用环境中的摄像头采集图像，并进行前景目标标注得到对应标签，构建数据集S。

每个样本由图像和对应的前景目标掩膜标签组成，前景目标掩膜标签是与原图像相同大小的二值图像，前景目标的像素标注为1，背景像素标注为0。

步骤2、从数据集S中选择只含有背景信息图像的数据子集S_b。

步骤3、构建由生成网络G和判别网络D组成的生成对抗网络，采用自监督和对抗学习的方法使用数据集S_b进行训练；训练完成后的生成网络G就是背景模型。

生成对抗网络训练时，不使用数据集S_b中的标签信息，而是使用图像I_o裁剪掉一个随机位置、随机大小的区域后得到的图像I_c，将I_o作为I_c的标签，这是一种图像自动补全的自监督学习；与通常的生成网络不同，这里生成网络G的输入没有随机信号z，而只使用I_c作为输入，其学习目标是使得其输出I_g能够与原始图像I_o相同；判断网络D的目标是区分开I_g和I_o；生成对抗网络训练时用平方损失函数和对抗损失函数；这种自监督生成对抗学习能够帮助模型更好地学习环境中的对象以及对象之间的语义信息。

卷积神经网络M_obj的训练采用交叉熵损失函数；I_o经过背景模型重建得到I_g，原I_o中的背景部分会得到很好的重建，但前景部分则不会，因此通过I_g与I_o的差异分析就可以判断前景和背景，通过对M_obj的训练能够得到一个更准确的判断标准。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于自监督生成对抗学习背景建模的目标检测方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于自监督生成对抗学习背景建模的目标检测方法，其特征在于：采用图像自动补全的自监督方法形成训练数据，使用生成对抗神经网络进行自监督对抗学习建立背景重建模型，能很好捕捉环境里背景图像中各对象及其相互之间的语义信息。

3.根据权利要求1所述的一种基于自监督生成对抗学习背景建模的目标检测方法，其特征在于：采用两阶段的前景目标检测训练方法，第一个阶段基于图像重建进行背景建模，第二个阶段使用第一阶段的背景建模结果进行前景目标检测标准的学习。