CN111768432A

CN111768432A - 基于孪生深度神经网络的动目标分割方法及系统

Info

Publication number: CN111768432A
Application number: CN202010619639.3A
Authority: CN
Inventors: 邹卓君; 蒿杰; 舒琳; 梁俊; 郭尧
Original assignee: Guangzhou Institute Of Artificial Intelligence And Advanced Computing Institute Of Automation Chinese Academy Of Sciences; Institute of Automation of Chinese Academy of Science
Current assignee: Guangzhou Institute Of Artificial Intelligence And Advanced Computing Institute Of Automation Chinese Academy Of Sciences; Institute of Automation of Chinese Academy of Science
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-13
Anticipated expiration: 2040-06-30
Also published as: CN111768432B; WO2022000426A1

Abstract

本发明涉及一种基于孪生深度神经网络的动目标分割方法及系统，所述分割方法包括：获取多组历史图像信息，每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签；根据各组历史图像信息，训练VGG16网络模型；根据训练后的VGG16网络模型，对待检测图像进行运动变换检测和/或相对背景检测，确定所述待检测图像中的动目标情况。本发明通过多组当前帧、参考帧及标签，对VGG16网络模型训练，将时间维度的信息通过对模板帧的对比，由于孪生网络中对模板的灵活选取，使本发明能够在利用时间维度信息的情况下良好地适应运动摄影条件，有效提高对动目标分割的准确度。

Description

基于孪生深度神经网络的动目标分割方法及系统

技术领域

本发明涉及神经网络模型及图像处理技术领域，特别涉及一种基于孪生深度神经网络的动目标分割方法及系统。

背景技术

运动目标分割算法模型可以分为非学习模型和机器学习模型，其中机器学习模型进一步分为无监督学习模型和监督学习模型。无监督学习方法和非学习方法不需要特定地学习数据，更具有普适性，而监督学习方法则有更好的精度。完全不处理时序关系的方法以基于生成式对抗网络和多尺度的卷积网络为主，在数据集上取得了最好的成绩。因为摄像头是否运动与结果无关，该类方法在PTZ类别表现良好。基于时空分析的模型则对摄像环境移动的适应性差，在整体成绩上落后于仅做空间分析的模型。

1.非学习模型

非学习的动态目标分割模型以基于帧差分的方法为主。该类算法的主要优点是计算速度快，代码易于硬件实现。单纯的帧差分算法对环境影响比如光照和遮挡等因素适应性较差。在CDNet数据集上，该类算法在稳定的摄像条件下表现良好，但是对于有较多变化因素场景下的表现不能被应用环境接受，比如背景运动或者摄像机抖动移动等。

2.无监督学习模型

基于受限玻尔兹曼机(RBM)的方法通过去掉背景来检测运动物体，其中RBM的权重由图像建模得到。RBM及其衍生方法存在的主要问题是准确率比较低，并且需要额外模型来解决不同场景的需求。

自组织映射网络通过动态调整像素的空间关联来学习场景中的运动信息。结果最好的一种自组织映射网络的变体通过设计自组织映射层和滤波层结合的结构来提高网络精度，在CDNet2014上的总体的F值(机器学习和推荐系统中的评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure))为0.816。基于自组织映射网络的方法的缺点是需要手动调整4个参数，以及在PTZ类别结果较差。

3.监督学习模型

根据处理数据的方法，可以将监督学习分为空间分析模型和时空分析模型。其中空间分析模型只分析同一帧中不同像素之间的关系，而时空模型则会同时考虑到帧间的像素变化。

(1)空间分析模型

生成式对抗网络(GAN)为运动物体分割从背景去除的角度提供了另一种解决思路。在CDNet2014上的实验，BGAN模型及其提升版本BPVGAN模型在总体数据上的F值分别是0.934和0.95。作为背景去除的方法，GAN的衍生模型取得了良好的成绩，但是其测试过程仅在静止的单帧图片上进行，没有考虑运动因素。

包含预训练或者端到端的卷积神经网络通常把运动物体分割看做背景前景二分类任务。利用级联神经网络结构处理不同尺度的图片，加强模型对物体尺度变化的适应性，或者直接使用不同尺度图片作为预训练的深度神经网络解码器的输入，并进行后续特征融合。这两种方法都成为优化分割结果的有效方案，在CDNet2014数据集上取得了极好的成绩，从准确率和召回率等方面全面超过其他类型的方法。有效的结构是这类模型取得成功的原因之一。另一方面，由于模型对训练数据的依赖性较大，以上提及的算法均存在人工选择训练数据以使模型学习到场景特定的常识的行为。一旦训练过程存在人为调整，模型的通用性会进一步下降。FgSegNet系列在人工数据选择的基础上，还在模型编码阶段对不同的视频人工选择了不同的网络结构以适应视频尺寸和物体尺寸。这使得他们的网络在CDNet数据集上取得了非常好的表现，但是根据视频人工选择的结构不适用于长远应用。

(2)时空模型

基于神经网络模型的框架要利用时间维度的信息通常有两种方案：一种是使用具有时序处理功能的网络结构，比如3DCNN、convLSTM、孪生神经网络等；另一种是通过后续处理或者预处理进行时序分析，神经网络则主要作为特征提取的手段包含在策略中。

convLSTM衍生自时序处理人工神经网络结构LSTM，将LSTM结构中的计算单位替换为卷积单元。陈等人提出了一种基于convLSTM的端到端网络结构，将其用于检测运动目标。该结构主要的短板类别是PTZ摄像环境、气流不稳定摄像环境以及低帧率视频，其得到的F值分别为0.778、0.801和0.808。实验结果充分体现了该结构对于非平稳摄像条件的泛化性差的缺点。

3D-CNN在结构上新增加时间度来进行时空分析，Sakkos等人提出了一种基于注意力机制的三维卷积网络。另外，胡等人提出了一种不损失像素信息的三维空洞卷积网络。这两种结构在CDNet数据集上都取得了不错的成绩，其F值分别为0.951和0.962。但这两个算法在低帧率和PTZ两个类别上的F值都低于0.9。由此可见，对运动摄像和不同时间跨度的摄像环境的不适应是影响基于3D-CNN的结构的准确率和召回率的主要因素。

基于孪生神经网络或者三元组网络的结构，从比较帧间变化的角度来解决运动物体识别的问题。Sander等人提出的孪生网络结构是基于resNet编码的语义分割结构，先将网络的两个输入帧分别经过语义分割得到特征图，再进行后续比较分析。和其他算法比，该类方法的实验结果更加局限，缺少整体实验。

多阶段处理方法使一般神经网络结构在时间维度处理上的难点得到解决。一种两阶段的神经网络处理方法在总体数据上得到了0.812的F值，但在PTZ类别上的F值为0.517。Babaee等人利用神经网络提取特征，并在后续过程中按照时间顺序使用与滤波结合的处理方式得到分割结果。该方法总的F值为0.746，PTZ类别较低，对应F值为0.313。

发明内容

为了解决现有技术中的上述问题，即为了提高对动目标分割的准确度，本发明的目的在于提供一种基于孪生深度神经网络的动目标分割方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种基于孪生深度神经网络的动目标分割方法，所述分割方法包括：

获取多组历史图像信息，每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签；

根据各组历史图像信息，训练VGG16网络模型；

根据训练后的VGG16网络模型，对待检测图像进行运动变换检测和/或相对背景检测，确定所述待检测图像中的动目标情况。

优选地，所述根据各组历史图像，训练VGG16网络模型，具体包括：

针对每组历史图像，

通过VGG16网络模型的特征提取层分别提取所述当前帧和参考帧的特征，得到四对特征图；

针对每对特征图，

通过VGG16网络模型的第一融合层，对该对特征图进行第一信息融合，得到运动变换图像集和相对背景图像集；

通过VGG16网络模型的采样层，分别对运动变换图像集和相对背景图像集上采样，得到运动变换采样图像集及相对背景采样检测图像集；

通过VGG16网络模型的第二融合层，分别对所述运动变换采样图像集及相对背景采样检测图像集进行第二次融合，得到对应的运动变换检测图像和相对背景检测图像；

通过VGG16网络模型的softmax层，根据每组历史图像中的运动变换检测图像和相对背景检测图像，确定目标的当前运动情况；

根据目标的当前运动情况及对应的标签，更新所述VGG16网络模型的参数。

优选地，所述运动变换采样图像集包括当前帧运动变换采样图像和参考帧运动变换采样图像，所述相对背景采样检测图像集包括当前帧相对背景采样检测图像及参考帧相对背景采样检测图像；

所述通过VGG16网络模型的第二融合层，分别对所述运动变换采样图像集及相对背景采样检测图像集进行第二次融合，得到对应的运动变换检测图像和相对背景检测图像，具体包括：

通过16通道的1X1卷积核分别对当前帧运动变换采样图像和参考帧运动变换采样图像进行特征提取，得到当前帧运动特征图和参考帧运动特征图；

计算所述当前帧运动特征图和参考帧运动特征图的元素级别的绝对值差，得到运动变换检测图像；

通过16通道的3X3卷积核对当前帧相对背景采样检测图像及参考帧相对背景采样检测图像进行卷积，得到当前帧背景特征图及参考帧背景特征图；

将当前帧背景特征图及参考帧背景特征图的差与当前帧运动特征图拼接，得到拼接信息；

通过16通道的1X1卷积核对所述拼接信息进行信息融合，得到相对背景检测图像。

优选地，所述运动变换检测图像为：

|conv1x1(m_t1)-conv1x1(m_i1)|；

所述相对背景检测图像为：

conv1x1(cat(conv3x3(m_i2)-conv3x3(m_t2),conv1x1(m_i1)))；

其中，conv1x1表示16通道的1X1卷积核，conv3x3表示16通道的3X3卷积核，cat(·)表示拼接函数，m_i1表示当前帧运动特征图，m_t1表示参考帧运动特征图，m_i2表示当前帧背景特征图，m_t2表示参考帧背景特征图。

优选地，所述特征提取层包括五部分，分别为2个包含64个通道的卷积层及一个最大池化层、2个包含128个通道的卷积层及一个最大池化层、3个包含256个通道的卷积层及一个最大池化层、3个包含512个通道的卷积层一个最大池化层、3个包含512个通道的卷积层一个最大池化层；各最大池化层均用于将输入的特征图的尺寸大小缩小二分之一；

所述采样层通过反卷积的方法，分别对运动变换图像集和相对背景图像集的比例扩大2的整数次幂大小；通过均匀切剪边缘将过度放大的部分切掉，以保持和原图尺寸相同；

所述第二融合层包括卷积层、批归一化层和及ReLU激活层。

优选地，所述分割方法还包括：

对所述VGG16网络模型的权重初始化；

计算采用带权重的交叉熵损失函数；

根据所述交叉熵损失函数对所述VGG16网络模型进行更新。

优选地，根据以下公式，确定交叉熵损失函数L：

其中，Y₁表示背景图像中的点集，Y₂表示前景图像中的点集，n₁表示Y₁的总数量，n₂表示Y₂的总数量，y_i表示被分类为Y₁的点，y_j表示被分类为Y₂的点。

为解决上述技术问题，本发明还提供了如下方案：

一种基于孪生深度神经网络的动目标分割系统，所述分割系统包括：

获取单元，用于获取多组历史图像信息，每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签；

训练单元，用于根据各组历史图像信息，训练VGG16网络模型；

检测单元，用于根据训练后的VGG16网络模型，对待检测图像进行运动变换检测和/或相对背景检测，确定所述待检测图像中的动目标情况。

为解决上述技术问题，本发明还提供了如下方案：

一种基于孪生深度神经网络的动目标分割系统，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

根据各组历史图像信息，训练VGG16网络模型；

为解决上述技术问题，本发明还提供了如下方案：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

根据各组历史图像信息，训练VGG16网络模型；

根据本发明的实施例，本发明公开了以下技术效果：

本发明通过多组当前帧、参考帧及标签，对VGG16网络模型训练，将时间维度的信息通过对模板帧的对比，由于孪生网络中对模板的灵活选取，使本发明能够在利用时间维度信息的情况下良好地适应运动摄影条件，有效提高对动目标分割的准确度。

附图说明

图1是本发明基于孪生深度神经网络的动目标分割方法的流程图；

图2是本发明基于孪生深度神经网络的动目标分割系统的模块结构示意图。

符号说明：

获取单元—1，训练单元—2，检测单元—3。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种基于孪生深度神经网络的动目标分割方法，通过多组当前帧、参考帧及标签，对VGG16网络模型训练，将时间维度的信息通过对模板帧的对比，由于孪生网络中对模板的灵活选取，使本发明能够在利用时间维度信息的情况下良好地适应运动摄影条件，有效提高对动目标分割的准确度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发基于孪生深度神经网络的动目标分割方法包括：

步骤100：获取多组历史图像信息，每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签。

所述当前帧和参考帧的尺寸为H×W，H为图像的高度，W为图像的宽度。

步骤200：根据各组历史图像信息，训练VGG16网络模型。

步骤300：根据训练后的VGG16网络模型，对待检测图像进行运动变换检测和/或相对背景检测，确定所述待检测图像中的动目标情况。

其中，在训练期间，对于一个视频中所有有标注的帧，80％用于网络训练，20％用于验证，最后模型保留在验证集上表现最好的一组网络参数用于测试数据。

在步骤200中，所述根据各组历史图像，训练VGG16网络模型，具体包括：

步骤210：针对每组历史图像，通过VGG16网络模型的特征提取层分别提取所述当前帧和参考帧的特征，得到四对特征图。

其中，所述特征提取层包括五部分，分别为2个包含64个通道的卷积层及一个最大池化层、2个包含128个通道的卷积层及一个最大池化层、3个包含256个通道的卷积层及一个最大池化层、3个包含512个通道的卷积层一个最大池化层、3个包含512个通道的卷积层一个最大池化层；各最大池化层均用于将输入的特征图的尺寸大小缩小二分之一。

步骤220：针对每对特征图，通过VGG16网络模型的第一融合层，对该对特征图进行第一信息融合，得到运动变换图像集和相对背景图像集。

步骤230：通过VGG16网络模型的采样层，分别对运动变换图像集和相对背景图像集上采样，得到运动变换采样图像集及相对背景采样检测图像集。

所述采样层通过反卷积的方法，分别对运动变换图像集和相对背景图像集的比例扩大2的整数次幂大小；通过均匀切剪边缘将过度放大的部分切掉，以保持和原图尺寸相同。

步骤240：通过VGG16网络模型的第二融合层，分别对所述运动变换采样图像集及相对背景采样检测图像集进行第二次融合，得到对应的运动变换检测图像和相对背景检测图像。

所述第二融合层包括卷积层、批归一化层和及ReLU激活层。

步骤250：通过VGG16网络模型的softmax层，根据每组历史图像中的运动变换检测图像和相对背景检测图像，确定目标的当前运动情况。

通过softmax层使数值二值化，便于点分类。

步骤260：根据目标的当前运动情况及对应的标签，更新所述VGG16网络模型的参数。

经过特征提取后，分别生成4个特征图。该每一对相同尺寸的特征图分别通过两个不同的函数(F1和F2)进行特征融合，进入到两个分支中，然后再统一上采样为HxW的尺寸。最后再融合两个分支得到最终结果。从而梯度更新整个网络中各部分的参数。

其中，所述运动变换采样图像集包括当前帧运动变换采样图像和参考帧运动变换采样图像，所述相对背景采样检测图像集包括当前帧相对背景采样检测图像及参考帧相对背景采样检测图像。

在步骤250中，所述通过VGG16网络模型的第二融合层，分别对所述运动变换采样图像集及相对背景采样检测图像集进行第二次融合，得到对应的运动变换检测图像和相对背景检测图像，具体包括：

步骤251：通过16通道的1X1卷积核分别对当前帧运动变换采样图像和参考帧运动变换采样图像进行特征提取，得到当前帧运动特征图和参考帧运动特征图。

步骤252：计算所述当前帧运动特征图和参考帧运动特征图的元素级别的绝对值差，得到运动变换检测图像。

所述运动变换检测图像为：

|conv1x1(m_t1)-conv1x1(m_i1)|。

其中，conv1x1表示16通道的1X1卷积核，m_i1表示当前帧运动特征图，m_t1表示参考帧运动特征图。

步骤253：通过16通道的3X3卷积核对当前帧相对背景采样检测图像及参考帧相对背景采样检测图像进行卷积，得到当前帧背景特征图及参考帧背景特征图。

步骤254：将当前帧背景特征图及参考帧背景特征图的差与当前帧运动特征图拼接，得到拼接信息。

步骤255：通过16通道的1X1卷积核对所述拼接信息进行信息融合，得到相对背景检测图像。

其中，所述相对背景检测图像为：

conv1x1(cat(conv3x3(m_i2)-conv3x3(m_t2),conv1x1(m_i1)))；

其中，conv1x1表示16通道的1X1卷积核，conv3x3表示16通道的3X3卷积核，cat(·)表示拼接函数，m_i1表示当前帧运动特征图，m_i2表示当前帧背景特征图，m_t2表示参考帧背景特征图。

优选地，本发明基于孪生深度神经网络的动目标分割方法还包括：

步骤S1：对所述VGG16网络模型的权重初始化。

在训练开始之前会对网络的权重进行初始化。对于所有需要更新的卷积层，权重从均值为0，方差为0.01的正太分布中随机选择；对于反卷积层，权重都初始化为0；批归一化层权重初始化为1。所有的偏差项都为0。

步骤S2：计算采用带权重的交叉熵损失函数。

根据以下公式，确定交叉熵损失函数L：

步骤S3：根据所述交叉熵损失函数对所述VGG16网络模型进行更新。

本发明解决了现有技术中存在的以下问题：

(1)模型参数在不同实验条件下不统一。不同视频中物体的大小、运动模式和背景的运动程度不同，导致一些模型如基于自组织映射网络的模型需要针对视频手动调整参数。对代码进行分析，可以看到一些模型如FgSegNet系列对不同的视频设计不同的卷积神经网络层尺寸以得到更好的成绩，并为了获取更多的场景特定的常识手工选择训练数据。

(2)时间维度信息未有效利用。因为物体运动状态在视频中时常发生变化，所以在时间维度进行分析是必要的。如同样是静止的物体，如果在观察之前它发生过运动，那么该物体应该视为运动物体被检出；如果运动行为发生在观测之后，则此时将其视为静止。仅仅做空间维度的分析，从原理上不能识别运动，不适合运动物体分割这个任务。

(3)在利用时间维度信息的前提下，运动摄影条件下的分析难度大。从相对运动的角度分析，当摄像头运动时，视野中产生了大面积的相对运动，整个场景都应该视为运动。然而数据集在这类视频的标注中认为仅相对地面运动的物体才是运动的(PTZ类别)。这提升了基于时间的分析模型的设计难度。在所有场景结构和策略统一的情况下，既满足静止摄像下的分类任务，又在运动摄像条件下使模型适应环境变化，这是十分困难的。

本发明整体使用编码解码结构，其中编码部分为常用的特征提取网络VGG16，解码部分采用了语义分割任务中常用的HED结构，在每个VGG16的下采样步骤之前进行信息的分析整合，精确到特征的多种尺寸，使结果具有较高的准确性。

进一步地，本发明还提供一种基于孪生深度神经网络的动目标分割系统，提高对动目标分割的准确度。

如图2所示，本发明基于孪生深度神经网络的动目标分割系统包括获取单元1、训练单元2及检测单元3。

具体地，所述获取单元1用于获取多组历史图像信息，每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签；

所述训练单元2用于根据各组历史图像信息，训练VGG16网络模型；

所述检测单元3用于根据训练后的VGG16网络模型，对待检测图像进行运动变换检测和/或相对背景检测，确定所述待检测图像中的动目标情况。

此外，本发明还提供了一种基于孪生深度神经网络的动目标分割系统，包括：

处理器；以及

根据各组历史图像信息，训练VGG16网络模型；

此外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

根据各组历史图像信息，训练VGG16网络模型；

相对于现有技术，本发明基于孪生深度神经网络的动目标分割系统、计算机可读存储介质与上述基于孪生深度神经网络的动目标分割方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于孪生深度神经网络的动目标分割方法，其特征在于，所述分割方法包括：

根据各组历史图像信息，训练VGG16网络模型；

2.根据权利要求1所述的基于孪生深度神经网络的动目标分割方法，其特征在于，所述根据各组历史图像，训练VGG16网络模型，具体包括：

针对每组历史图像，

针对每对特征图，

3.根据权利要求2所述的基于孪生深度神经网络的动目标分割方法，其特征在于，所述运动变换采样图像集包括当前帧运动变换采样图像和参考帧运动变换采样图像，所述相对背景采样检测图像集包括当前帧相对背景采样检测图像及参考帧相对背景采样检测图像；

4.根据权利要求2所述的基于孪生深度神经网络的动目标分割方法，其特征在于，所述运动变换检测图像为：

|conv1x1(m_t1)-conv1x1(m_i1)|；

所述相对背景检测图像为：

conv1x1(cat(conv3x3(m_i2)-conv3x3(m_t2),conv1x1(m_i1)))；

5.根据权利要求2所述的基于孪生深度神经网络的动目标分割方法，其特征在于，所述特征提取层包括五部分，分别为2个包含64个通道的卷积层及一个最大池化层、2个包含128个通道的卷积层及一个最大池化层、3个包含256个通道的卷积层及一个最大池化层、3个包含512个通道的卷积层一个最大池化层、3个包含512个通道的卷积层一个最大池化层；各最大池化层均用于将输入的特征图的尺寸大小缩小二分之一；

所述第二融合层包括卷积层、批归一化层和及ReLU激活层。

6.根据权利要求1-5中任一项所述的基于孪生深度神经网络的动目标分割方法，其特征在于，所述分割方法还包括：

对所述VGG16网络模型的权重初始化；

计算采用带权重的交叉熵损失函数；

根据所述交叉熵损失函数对所述VGG16网络模型进行更新。

7.根据权利要求6所述的基于孪生深度神经网络的动目标分割方法，其特征在于，根据以下公式，确定交叉熵损失函数L：

8.一种基于孪生深度神经网络的动目标分割系统，其特征在于，所述分割系统包括：

9.一种基于孪生深度神经网络的动目标分割系统，包括：

处理器；以及

根据各组历史图像信息，训练VGG16网络模型；

10.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

根据各组历史图像信息，训练VGG16网络模型；