CN111626090A

CN111626090A - 一种基于深度帧差卷积神经网络的运动目标检测方法

Info

Publication number: CN111626090A
Application number: CN202010137381.3A
Authority: CN
Inventors: 欧先锋; 晏鹏程; 徐智; 张国云; 涂兵; 郭龙源; 王勇
Original assignee: Guilin University of Electronic Technology; Hunan Institute of Science and Technology
Current assignee: Guilin University of Electronic Technology; Hunan Institute of Science and Technology
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-09-04
Anticipated expiration: 2040-03-03
Also published as: CN111626090B

Abstract

本发明公开了一种基于深度帧差卷积神经网络的运动目标检测方法，属于计算机视觉领域，一种基于深度帧差卷积神经网络的运动目标检测方法，本发明的DifferenceNet具有孪生Encoder‑Decoder结构，通过输入两帧图像与对应的监督标签，可以学习两帧图像之间的时序信息与差异特征；AppearanceNet具有Encoder‑Decoder结构，通过主干提取t帧图像的表观信息，然后通过时‑空信息融合，对t+1帧图像中的运动目标进行预测；AppearanceNet还通过多尺度特征图融合和逐步上采样来保留多尺度空间信息，并且本方法在定性和定量方面均显着优于最新算法，并适用于存在动态背景，光照变化和阴影的复杂场景。

Description

一种基于深度帧差卷积神经网络的运动目标检测方法

技术领域

本发明涉及计算机视觉领域，更具体地说，涉及一种基于深度帧差卷积神经网络的运动目标检测方法。

背景技术

帧差法一般用于图像序列的运动检测，其又被称为帧间差分法或时间差分法，通过对时间连续的视频图像序列的多个帧之间采用灰度差分，并对差分的结果阈值化来获取图像中的运动目标区域一种运动目标检测方法。其基本思想是利用当前帧与相邻帧像素灰度值相近又不同的特点，对两帧图像进行差分运算，得到差分图像。

运动目标检测的目的是快速、准确地提取智能视频监控中的运动目标信息，在智能视频监控中是非常关键而基础的视觉任务。视频图像往往具有复杂、多变、动态的背景，如恶劣天气、植物摇摆、相机抖动、光照变化、阴影、目标遮挡、目标与背景高度相似、不规则运动等，这些因素都使得精确检测出运动目标的具有高度挑战性。运动目标检测是计算机视觉的重要而基础的问题，尽管其研究成果相对较多，但复杂场景下，受到动态背景、光照变化、阴影等因素的影响，高效、鲁棒的运动目标检测技术仍面临巨大挑战。

发明内容

1.要解决的技术问题

针对现有技术中存在的问题，本发明的目的在于提供一种基于深度帧差卷积神经网络的运动目标检测方法，DifferenceNet具有孪生 Encoder-Decoder结构，通过输入两帧图像与对应的监督标签，可以学习两帧图像之间的时序信息与差异特征；AppearanceNet具有Encoder-Decoder结构，通过主干提取t帧图像的表观信息，然后通过时-空信息融合，对t+1帧图像中的运动目标进行预测；AppearanceNet还通过多尺度特征图融合和逐步上采样来保留多尺度空间信息，并且本方法在定性和定量方面均显着优于最新算法，并适用于存在动态背景，光照变化和阴影的复杂场景。

2.技术方案

为解决上述问题，本发明采用如下的技术方案。

一种基于深度帧差卷积神经网络的运动目标检测方法，所述深度帧差卷积神经网络包括DifferenceNet和AppearanceNet，所述深度帧差卷积神经网络的运动目标检测方法包括以下步骤：

S1、利用DifferenceNet提取帧间差异特征：训练DifferenceNet，并保存下DifferenceNet的预训练模型，然后对DifferenceNet的预训练模型进行正向传播，得到帧差特征图f(t，t+1)；

S2、利用AppearanceNet提取表观特征提取，并与帧间差异特征融合：训练AppearanceNet时，并将帧差特征图f(t，t+1)融合到AppearanceNet 中进行训练；

S3、使用PyTorch深度学习库来训练和测试网络。

进一步的，所述DifferenceNet输入为t和t+1帧图像，并使用t、t+1 帧对应的Groundtruth作为监督标签，所述AppearanceNet输入为t帧图像，并使用t+1对应的Groundtruth作为监督标签，所述监督标签制作时的计算公式为：Label＝G_t+1-G_t∩(t+1)#(6)。

进一步的，所述DifferenceNet采用Encoder-Decoder结构，并采用 ResNet作为Backbone提取特征。

进一步的，请参阅图3，所述Encoder包括两个Backbone，两个Backbone 分别为Backbone 1和Backbone 2，两个所述Backbone结构相同均包括四个 Resdual模块，且两个Backbone之间权重和参数共享。(图6)

进一步的，所述帧差特征图的提取步骤为：将t和t+1帧分别输入到 Backbone 1和Backbone 2中，将得到相应的输出f(t)和f(t+1)，然后通过f(t+1)-f(t)得到的帧差特征图f(t，t+1)。

进一步的，所述帧差特征图的具体运算过程为：

Backbone通过以下过程提取特征：

其中，x和y分别表示输入和输出的特征图，θ表示卷积核的权重，b表示不同通道的偏置，h和w表示输出的坐标索引，m和n代表卷积核的坐标索引，o和i分别代表输出和输入中的不同通道，p是输入的padding，s是卷积操作的stride。

在ResNet的Resdual模块中，卷积核大小为3×3，padding为0， stride为2，并且最后一层卷积层的通道数为512。即图6中Diff_conv4层的的通道数为512，则Diff_conv4可以表示为：

由于运动目标检测是一个二分类任务，因此对应于图6中的f(t)的通道数应当为2。并且，

的通道可以通过1×1卷积进行降维。对于输入t，则输出f(t)可以示为：

同理，由于Backbone 1和Backbone 2共享权值，对于输入t+1，相应的输出f(t+1)可以表示为：

结合帧差法，用f(t+1)减去f(t)来反映它们之间的变化。因此，帧差特征图

f(t，t+1)可以表示为：

进一步的，请参阅图5，所述AppearanceNet同样具有Encoder-Decoder 结构，且AppearanceNet的Backbone同样由4个Resdual模块组成。

进一步的，设t为所述AppearanceNet的输入，通过Encoder提取特征得到App_conv5(t)，所述App_conv5(t)包含空间信息，f(t，t+1)包含时间信息，它们共同用于时、空间信息的融合，这一过程可以表示为：

所述AppearanceNet的多尺度特征图融合公式为：

进一步的，所述DifferenceNet和AppearanceNet中都使用了使用 Softmax CrossEntropy损失函数，可以表示为：

其中，G_MN为Groundtruth；Y_MN为输出；M和N为输出尺寸，与输入图像大小相同，且随输入大小而变化；(x，y)为概率图中的像素位置。

进一步的，所述DifferenceNe和AppearanceNet均采用PyTorch深度学习库来训练和测试网络，具体步骤为：

第一步：训练DifferenceNet。t帧和t+1帧图像是网络输入，并使用特定的的人工标签进行训练。网络通过SGD训练收敛；初始学习率为10^-3，学习率衰减因子为0.1，每500次迭代，学习率衰减一次，最终衰减到10^-6；网络一共迭代训练5000次。Batchsize被设置为4。

第二步：训练AppearanceNet。输入为t帧图像，并使用t+1帧Groundturth 作为标签进行训练。另外，将t帧和t+1帧输入到DifferenceNet的预训练模型中，得到f(t，t+1)，f(t，t+1)将再次输入AppearanceNet中被用于时、空间信息的融合。网络通过SGD训练收敛；初始学习率为10^-3，学习率的衰减因子为0.1，每500次迭代，学习率衰减一次，最终衰减到10^-6；网络一共迭代训练10000次。Batchsize被设置为8。

3.有益效果

相比于现有技术，本发明的优点在于：

(1)DifferenceNet具有孪生Encoder-Decoder结构，通过输入两帧图像与对应的监督标签，可以学习两帧图像之间的时序信息与差异特征。

(2)AppearanceNet具有Encoder-Decoder结构，通过主干提取t帧图像的表观信息，然后通过时-空信息融合，对t+1帧图像中的运动目标进行预测。

(3)采用多尺度特征图融合和逐步上采样结构来保留多尺度空间信息，提高对小目标的敏感性。

(4)本方法在定性和定量方面均显着优于最新算法，并适用于存在动态背景，光照变化和阴影的复杂场景。

附图说明

图1为本发明的DFDNet的总体结构示意图；

图2为本发明的DFDNet算法流程图；

图3为本发明的DifferenceNet网络结构图；

图4为本发明的DifferenceNet的监督Label的制作过程示意图；

图5为本发明的AppearanceNet网络结构图；

图6为本发明的DifferenceNet网络的详细参数表；

图7为本发明的AppearanceNet网络的详细参数表。

具体实施方式

下面将结合本发明实施例中的附图；对本发明实施例中的技术方案进行清楚、完整地描述；显然；所描述的实施例仅仅是本发明一部分实施例；而不是全部的实施例，基于本发明中的实施例；本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例；都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“套设/接”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：

请参阅图1-2，一种基于深度帧差卷积神经网络的运动目标检测方法，卷积神经网络结构即DFDNet，所述深度帧差卷积神经网络包括DifferenceNet 和AppearanceNet，所述深度帧差卷积神经网络的运动目标检测方法包括以下步骤：

S3、使用PyTorch深度学习库来训练和测试网络。

请参阅图3，DifferenceNet采用SiameseEncoder-Decoder结构，网络输入分别为t帧和t+1帧图像。在图3中，左虚线框为Encoder，右左框为 Decoder。Encoder通过卷积从输入中提取特征图，它包含两个Backbone分别为Backbone1和Backbone2，且两个Backbone结构相同(都包括4个Resdual 模块)且它们之间权重共享。图6给出了DifferenceNet的网络详细参数。t 和t+1帧分别输入到Backbone1和Backbone2中，将得到相应的输出f(t) 和f(t+1)，然后通过f(t+1)-f(t)得到的帧差特征图f(t，t+1)。

Backbone1和Backbone2的参数是共享的，因此在图6中没有重复表示这些参数。它们的输入分别为t帧和t+1帧图像，输入尺寸都是(M，N)，“Parameters”列表示卷积核的大小和维度，括号内的2个卷积层表示Resdual 模块，其中将两个Resdual模块视为一层。特征图进入相同的层将产生相应的输出，如：t和t+1输入Diff_conv1层生成Diff_conv1(t)和Diff_conv1(t+1)。

在CNNs中，都是通过Backbone当作特征提取器来提取特征的。DifferenceNet网络的Backbone由ResNet构成，并且其中的全连接层由 1×1卷积替代，Backbone 1和Backbone2的权重是共享的。Backbone通过以下过程提取特征：

结合帧差法，用f(t+1)减去f(t)来反映它们之间的变化。因此，帧差特征图f(t，t+1)可以表示为：

Encoder通过上述一系列操作得到帧差特征图，然后Decoder通过 Up-sampling将特征图还原至原图大小，并密集地预测每个像素。为了避免一次Up-sampling造成的信息丢失，在Up-sampling中通过四次逐步的转置卷积将特征图恢复到原图的大小。

DifferenceNet的输入是一对连续的视频图像t和t+1。使用 DifferenceNet来学习连续图像之间的变化，因此在监督学习中需要使用 Label来反映这些变化。现有的标准数据集通常都有相应的手动标签，请参阅图4，在此基础上进行制作监督标签。

设t和t+1是两个连续的图像帧，其对应的Groundtruth分别为G_t和 G_t为与的交点，其中白色表示t帧Groundtruth与t+1帧Groundtruth之间的重叠移动前景。经过这个处理后，如果物体在移动，它会在t+1帧的 Groundtruth中产生一些新的前景像素，这些新的像素反映了t帧和t+1帧之间前景的变化。这些前景像素的计算公式如下：

Label＝G_t+1-G_t∩(t+1)#(6)

请参阅图5，AppearanceNet同样具有Encoder-Decoder结构。此外，还考虑了低层结构特征和高层语义特征的融合来改进主干。与DifferenceNet 相似，AppearanceNet的Backbone由4个Resdual模块组成，一共进行了4 次Down-sampling，Decoder通过4次Up-sampling将特征图恢复到原图大小。图7中给出了AppearanceNet详细的网络参数。

设t为AppearanceNet的输入，通过Encoder提取特征得到App_conv5(t)， App_conv5(t)包含空间信息，f(t，t+1)包含时间信息，它们共同用于时、空间信息的融合。这一过程可以表示为：

另外，为了提高对小目标的敏感性，保留多尺度空间信息，设计了多尺度特征图融合和逐步Up-sampling的处理方式。多尺度特征图融合公式如下：

由于网络输出为二值图像(前景为1，背景为0)，在DifferenceNet和AppearanceNet中都使用了使用Softmax Cross Entropy损失函数，可以表示为：

为了加快训练网络的速度，对Encoder和Decoder中的每个卷积层(也包括反卷积层)执行批量归一化(BatchNorm)，激活函数为Rectified Linear Units(ReLU)。使用PyTorch深度学习库来训练和测试网络。

第一步：训练DifferenceNet。t帧和t+1帧图像是网络输入，并使用特定的的人工标签进行训练。网络通过SGD训练收敛；初始学习率为10^-3，学习率衰减因子为0.1，每500次迭代，学习率衰减一次，最终衰减到10^-6；网络一共迭代训练5000次。Batchsize被设置为4；

DFDNet由DifferenceNet和AppearanceNet两部分组成，网络可以同时预测和分割前景像素，而无需进行后处理。DifferenceNet具有孪生 Encoder-Decoder结构，用于学习连续两帧之间的变化和差异，并从输入(t 帧和t+1帧)中获取时序信息。而AppearanceNet用于从输入(t帧)中提取空间信息，并通过融合特征图来融合时间信息和空间信息。AppearanceNet还通过多尺度特征图融合和逐步上采样来保留多尺度空间信息，以提高对小物体的敏感性。在两个公共标准数据集：CDNet2014和I2R上的实验表明，该方法在定性和定量方面均显着优于最新算法，并且其平均F-measure相比于最新的算法最少提高了6.42％。实验结果还表明，提出的DFDNet适用于存在动态背景，光照变化和阴影的复杂场景。

本发明通过结合卷积神经网络的优良特性与传统运动目标检测算法(帧差法)的思想，设计深度帧差卷积神经网络，可以直接预测前景目标。为复杂场景下快速、准确、鲁棒地检测运动目标提出可能的解决思路，同时也将进一步推动卷积神经网络在该领域的研究和应用。本发明的运动目标检测可以在军事领域(军事目标识别与跟踪、武器制导)、智能交通控制、城市安防、人流量统计监控、无人驾驶等领域具有较强的应用价值。

以上所述；仅为本发明较佳的具体实施方式；但本发明的保护范围并不局限于此；任何熟悉本技术领域的技术人员在本发明揭露的技术范围内；根据本发明的技术方案及其改进构思加以等同替换或改变；都应涵盖在本发明的保护范围内。

Claims

1.一种基于深度帧差卷积神经网络的运动目标检测方法，所述深度帧差卷积神经网络包括DifferenceNet和AppearanceNet，其特征在于：所述深度帧差卷积神经网络的运动目标检测方法包括以下步骤：

S2、利用AppearanceNet提取表观特征提取，并与帧间差异特征融合：训练AppearanceNet时，并将帧差特征图f(t，t+1)融合到AppearanceNet中进行训练；

S3、使用PyTorch深度学习库来训练和测试网络。

2.根据权利要求1所述的一种基于深度帧差卷积神经网络的运动目标检测方法，其特征在于：所述DifferenceNet输入为t和t+1帧图像，并使用t、t+1帧对应的Groundtruth作为监督标签，所述AppearanceNet输入为t帧图像，并使用t+1对应的Groundtruth作为监督标签，所述监督标签制作时的计算公式为：Label＝G_t+1-G_t∩(t+1)#(6)。

3.根据权利要求2所述的一种基于深度帧差卷积神经网络的运动目标检测方法，其特征在于：所述DifferenceNet采用Encoder-Decoder结构，并采用ResNet作为Backbone提取特征。

4.根据权利要求1所述的一种基于深度帧差卷积神经网络的运动目标检测方法，其特征在于：所述Encoder包括两个Backbone，两个Backbone分别为Backbone 1和Backbone 2，两个所述Backbone结构相同均包括四个Resdual模块，且两个Backbone之间权重和参数共享。

5.根据权利要求4所述的一种基于深度帧差卷积神经网络的运动目标检测方法，其特征在于：所述帧差特征图的提取步骤为：将t和t+1帧分别输入到Backbone 1和Backbone 2中，将得到相应的输出f(t)和f(t+1)，然后通过f(t+1)-f(t)得到的帧差特征图f(t，t+1)。

6.根据权利要求5所述的一种基于深度帧差卷积神经网络的运动目标检测方法，其特征在于：所述帧差特征图的具体运算过程为：

Backbone通过以下过程提取特征：

在ResNet的Resdual模块中，卷积核大小为3×3，padding为0，stride为2，并且最后一层卷积层的通道数为512，即图7中Diff_conv4层的的通道数为512，则Diff_conv4可以表示为：

由于运动目标检测是一个二分类任务，因此对应于图7中的f(t)的通道数应当为2，并且，

的通道可以通过1×1卷积进行降维，对于输入t，则输出f(t)可以示为：

结合帧差法，用f(t+1)减去f(t)来反映它们之间的变化，因此，帧差特征图f(t，t+1)可以表示为：

7.根据权利要求1所述的一种基于深度帧差卷积神经网络的运动目标检测方法，其特征在于：所述AppearanceNet同样具有Encoder-Decoder结构，且AppearanceNet的Backbone同样由4个Resdual模块组成。

8.根据权利要求7所述的一种基于深度帧差卷积神经网络的运动目标检测方法，其特征在于：设t为所述AppearanceNet的输入，通过Encoder提取特征得到App_conv5(t)，所述App_conv5(t)包含空间信息，f(t，t+1)包含时间信息，它们共同用于时、空间信息的融合，这一过程可以表示为：

所述AppearanceNet的多尺度特征图融合公式为：

9.根据权利要求8所述的一种基于深度帧差卷积神经网络的运动目标检测方法，其特征在于：所述DifferenceNet和AppearanceNet中都使用了使用Softmax Cross Entropy损失函数，可以表示为：

10.根据权利要求1所述的一种基于深度帧差卷积神经网络的运动目标检测方法，其特征在于：所述DifferenceNe和AppearanceNet均采用PyTorch深度学习库来训练和测试网络，具体步骤为：

第一步：训练DifferenceNet：t帧和t+1帧图像是网络输入，并使用特定的的人工标签进行训练；网络通过SGD训练收敛；初始学习率为10^-3，学习率衰减因子为0.1，每500次迭代，学习率衰减一次，最终衰减到10^-6；网络一共迭代训练5000次；Batchsize被设置为4；

第二步：训练AppearanceNet输入为t帧图像，并使用t+1帧Groundturth作为标签进行训练；另外，将t帧和t+1帧输入到DifferenceNet的预训练模型中，得到f(t，t+1)，f(t，t+1)将再次输入AppearanceNet中被用于时、空间信息的融合；网络通过SGD训练收敛；初始学习率为10^-3，学习率的衰减因子为0.1，每500次迭代，学习率衰减一次，最终衰减到10^-6；网络一共迭代训练10000次；Batchsize被设置为8。