CN111768432A - 基于孪生深度神经网络的动目标分割方法及系统 - Google Patents

基于孪生深度神经网络的动目标分割方法及系统 Download PDF

Info

Publication number
CN111768432A
CN111768432A CN202010619639.3A CN202010619639A CN111768432A CN 111768432 A CN111768432 A CN 111768432A CN 202010619639 A CN202010619639 A CN 202010619639A CN 111768432 A CN111768432 A CN 111768432A
Authority
CN
China
Prior art keywords
image
motion
network model
detection
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010619639.3A
Other languages
English (en)
Other versions
CN111768432B (zh
Inventor
邹卓君
蒿杰
舒琳
梁俊
郭尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute Of Artificial Intelligence And Advanced Computing Institute Of Automation Chinese Academy Of Sciences
Institute of Automation of Chinese Academy of Science
Original Assignee
Guangzhou Institute Of Artificial Intelligence And Advanced Computing Institute Of Automation Chinese Academy Of Sciences
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute Of Artificial Intelligence And Advanced Computing Institute Of Automation Chinese Academy Of Sciences, Institute of Automation of Chinese Academy of Science filed Critical Guangzhou Institute Of Artificial Intelligence And Advanced Computing Institute Of Automation Chinese Academy Of Sciences
Priority to CN202010619639.3A priority Critical patent/CN111768432B/zh
Priority to PCT/CN2020/099942 priority patent/WO2022000426A1/zh
Publication of CN111768432A publication Critical patent/CN111768432A/zh
Application granted granted Critical
Publication of CN111768432B publication Critical patent/CN111768432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于孪生深度神经网络的动目标分割方法及系统,所述分割方法包括:获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;根据各组历史图像信息,训练VGG16网络模型;根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。本发明通过多组当前帧、参考帧及标签,对VGG16网络模型训练,将时间维度的信息通过对模板帧的对比,由于孪生网络中对模板的灵活选取,使本发明能够在利用时间维度信息的情况下良好地适应运动摄影条件,有效提高对动目标分割的准确度。

Description

基于孪生深度神经网络的动目标分割方法及系统
技术领域
本发明涉及神经网络模型及图像处理技术领域,特别涉及一种基于孪生深度神经网络的动目标分割方法及系统。
背景技术
运动目标分割算法模型可以分为非学习模型和机器学习模型,其中机器学习模型进一步分为无监督学习模型和监督学习模型。无监督学习方法和非学习方法不需要特定地学习数据,更具有普适性,而监督学习方法则有更好的精度。完全不处理时序关系的方法以基于生成式对抗网络和多尺度的卷积网络为主,在数据集上取得了最好的成绩。因为摄像头是否运动与结果无关,该类方法在PTZ类别表现良好。基于时空分析的模型则对摄像环境移动的适应性差,在整体成绩上落后于仅做空间分析的模型。
1.非学习模型
非学习的动态目标分割模型以基于帧差分的方法为主。该类算法的主要优点是计算速度快,代码易于硬件实现。单纯的帧差分算法对环境影响比如光照和遮挡等因素适应性较差。在CDNet数据集上,该类算法在稳定的摄像条件下表现良好,但是对于有较多变化因素场景下的表现不能被应用环境接受,比如背景运动或者摄像机抖动移动等。
2.无监督学习模型
基于受限玻尔兹曼机(RBM)的方法通过去掉背景来检测运动物体,其中RBM的权重由图像建模得到。RBM及其衍生方法存在的主要问题是准确率比较低,并且需要额外模型来解决不同场景的需求。
自组织映射网络通过动态调整像素的空间关联来学习场景中的运动信息。结果最好的一种自组织映射网络的变体通过设计自组织映射层和滤波层结合的结构来提高网络精度,在CDNet2014上的总体的F值(机器学习和推荐系统中的评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure))为0.816。基于自组织映射网络的方法的缺点是需要手动调整4个参数,以及在PTZ类别结果较差。
3.监督学习模型
根据处理数据的方法,可以将监督学习分为空间分析模型和时空分析模型。其中空间分析模型只分析同一帧中不同像素之间的关系,而时空模型则会同时考虑到帧间的像素变化。
(1)空间分析模型
生成式对抗网络(GAN)为运动物体分割从背景去除的角度提供了另一种解决思路。在CDNet2014上的实验,BGAN模型及其提升版本BPVGAN模型在总体数据上的F值分别是0.934和0.95。作为背景去除的方法,GAN的衍生模型取得了良好的成绩,但是其测试过程仅在静止的单帧图片上进行,没有考虑运动因素。
包含预训练或者端到端的卷积神经网络通常把运动物体分割看做背景前景二分类任务。利用级联神经网络结构处理不同尺度的图片,加强模型对物体尺度变化的适应性,或者直接使用不同尺度图片作为预训练的深度神经网络解码器的输入,并进行后续特征融合。这两种方法都成为优化分割结果的有效方案,在CDNet2014数据集上取得了极好的成绩,从准确率和召回率等方面全面超过其他类型的方法。有效的结构是这类模型取得成功的原因之一。另一方面,由于模型对训练数据的依赖性较大,以上提及的算法均存在人工选择训练数据以使模型学习到场景特定的常识的行为。一旦训练过程存在人为调整,模型的通用性会进一步下降。FgSegNet系列在人工数据选择的基础上,还在模型编码阶段对不同的视频人工选择了不同的网络结构以适应视频尺寸和物体尺寸。这使得他们的网络在CDNet数据集上取得了非常好的表现,但是根据视频人工选择的结构不适用于长远应用。
(2)时空模型
基于神经网络模型的框架要利用时间维度的信息通常有两种方案:一种是使用具有时序处理功能的网络结构,比如3DCNN、convLSTM、孪生神经网络等;另一种是通过后续处理或者预处理进行时序分析,神经网络则主要作为特征提取的手段包含在策略中。
convLSTM衍生自时序处理人工神经网络结构LSTM,将LSTM结构中的计算单位替换为卷积单元。陈等人提出了一种基于convLSTM的端到端网络结构,将其用于检测运动目标。该结构主要的短板类别是PTZ摄像环境、气流不稳定摄像环境以及低帧率视频,其得到的F值分别为0.778、0.801和0.808。实验结果充分体现了该结构对于非平稳摄像条件的泛化性差的缺点。
3D-CNN在结构上新增加时间度来进行时空分析,Sakkos等人提出了一种基于注意力机制的三维卷积网络。另外,胡等人提出了一种不损失像素信息的三维空洞卷积网络。这两种结构在CDNet数据集上都取得了不错的成绩,其F值分别为0.951和0.962。但这两个算法在低帧率和PTZ两个类别上的F值都低于0.9。由此可见,对运动摄像和不同时间跨度的摄像环境的不适应是影响基于3D-CNN的结构的准确率和召回率的主要因素。
基于孪生神经网络或者三元组网络的结构,从比较帧间变化的角度来解决运动物体识别的问题。Sander等人提出的孪生网络结构是基于resNet编码的语义分割结构,先将网络的两个输入帧分别经过语义分割得到特征图,再进行后续比较分析。和其他算法比,该类方法的实验结果更加局限,缺少整体实验。
多阶段处理方法使一般神经网络结构在时间维度处理上的难点得到解决。一种两阶段的神经网络处理方法在总体数据上得到了0.812的F值,但在PTZ类别上的F值为0.517。Babaee等人利用神经网络提取特征,并在后续过程中按照时间顺序使用与滤波结合的处理方式得到分割结果。该方法总的F值为0.746,PTZ类别较低,对应F值为0.313。
发明内容
为了解决现有技术中的上述问题,即为了提高对动目标分割的准确度,本发明的目的在于提供一种基于孪生深度神经网络的动目标分割方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种基于孪生深度神经网络的动目标分割方法,所述分割方法包括:
获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;
根据各组历史图像信息,训练VGG16网络模型;
根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
优选地,所述根据各组历史图像,训练VGG16网络模型,具体包括:
针对每组历史图像,
通过VGG16网络模型的特征提取层分别提取所述当前帧和参考帧的特征,得到四对特征图;
针对每对特征图,
通过VGG16网络模型的第一融合层,对该对特征图进行第一信息融合,得到运动变换图像集和相对背景图像集;
通过VGG16网络模型的采样层,分别对运动变换图像集和相对背景图像集上采样,得到运动变换采样图像集及相对背景采样检测图像集;
通过VGG16网络模型的第二融合层,分别对所述运动变换采样图像集及相对背景采样检测图像集进行第二次融合,得到对应的运动变换检测图像和相对背景检测图像;
通过VGG16网络模型的softmax层,根据每组历史图像中的运动变换检测图像和相对背景检测图像,确定目标的当前运动情况;
根据目标的当前运动情况及对应的标签,更新所述VGG16网络模型的参数。
优选地,所述运动变换采样图像集包括当前帧运动变换采样图像和参考帧运动变换采样图像,所述相对背景采样检测图像集包括当前帧相对背景采样检测图像及参考帧相对背景采样检测图像;
所述通过VGG16网络模型的第二融合层,分别对所述运动变换采样图像集及相对背景采样检测图像集进行第二次融合,得到对应的运动变换检测图像和相对背景检测图像,具体包括:
通过16通道的1X1卷积核分别对当前帧运动变换采样图像和参考帧运动变换采样图像进行特征提取,得到当前帧运动特征图和参考帧运动特征图;
计算所述当前帧运动特征图和参考帧运动特征图的元素级别的绝对值差,得到运动变换检测图像;
通过16通道的3X3卷积核对当前帧相对背景采样检测图像及参考帧相对背景采样检测图像进行卷积,得到当前帧背景特征图及参考帧背景特征图;
将当前帧背景特征图及参考帧背景特征图的差与当前帧运动特征图拼接,得到拼接信息;
通过16通道的1X1卷积核对所述拼接信息进行信息融合,得到相对背景检测图像。
优选地,所述运动变换检测图像为:
|conv1x1(mt1)-conv1x1(mi1)|;
所述相对背景检测图像为:
conv1x1(cat(conv3x3(mi2)-conv3x3(mt2),conv1x1(mi1)));
其中,conv1x1表示16通道的1X1卷积核,conv3x3表示16通道的3X3卷积核,cat(·)表示拼接函数,mi1表示当前帧运动特征图,mt1表示参考帧运动特征图,mi2表示当前帧背景特征图,mt2表示参考帧背景特征图。
优选地,所述特征提取层包括五部分,分别为2个包含64个通道的卷积层及一个最大池化层、2个包含128个通道的卷积层及一个最大池化层、3个包含256个通道的卷积层及一个最大池化层、3个包含512个通道的卷积层一个最大池化层、3个包含512个通道的卷积层一个最大池化层;各最大池化层均用于将输入的特征图的尺寸大小缩小二分之一;
所述采样层通过反卷积的方法,分别对运动变换图像集和相对背景图像集的比例扩大2的整数次幂大小;通过均匀切剪边缘将过度放大的部分切掉,以保持和原图尺寸相同;
所述第二融合层包括卷积层、批归一化层和及ReLU激活层。
优选地,所述分割方法还包括:
对所述VGG16网络模型的权重初始化;
计算采用带权重的交叉熵损失函数;
根据所述交叉熵损失函数对所述VGG16网络模型进行更新。
优选地,根据以下公式,确定交叉熵损失函数L:
Figure BDA0002562595180000071
其中,Y1表示背景图像中的点集,Y2表示前景图像中的点集,n1表示Y1的总数量,n2表示Y2的总数量,yi表示被分类为Y1的点,yj表示被分类为Y2的点。
为解决上述技术问题,本发明还提供了如下方案:
一种基于孪生深度神经网络的动目标分割系统,所述分割系统包括:
获取单元,用于获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;
训练单元,用于根据各组历史图像信息,训练VGG16网络模型;
检测单元,用于根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
为解决上述技术问题,本发明还提供了如下方案:
一种基于孪生深度神经网络的动目标分割系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;
根据各组历史图像信息,训练VGG16网络模型;
根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
为解决上述技术问题,本发明还提供了如下方案:
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;
根据各组历史图像信息,训练VGG16网络模型;
根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
根据本发明的实施例,本发明公开了以下技术效果:
本发明通过多组当前帧、参考帧及标签,对VGG16网络模型训练,将时间维度的信息通过对模板帧的对比,由于孪生网络中对模板的灵活选取,使本发明能够在利用时间维度信息的情况下良好地适应运动摄影条件,有效提高对动目标分割的准确度。
附图说明
图1是本发明基于孪生深度神经网络的动目标分割方法的流程图;
图2是本发明基于孪生深度神经网络的动目标分割系统的模块结构示意图。
符号说明:
获取单元—1,训练单元—2,检测单元—3。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的是提供一种基于孪生深度神经网络的动目标分割方法,通过多组当前帧、参考帧及标签,对VGG16网络模型训练,将时间维度的信息通过对模板帧的对比,由于孪生网络中对模板的灵活选取,使本发明能够在利用时间维度信息的情况下良好地适应运动摄影条件,有效提高对动目标分割的准确度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发基于孪生深度神经网络的动目标分割方法包括:
步骤100:获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签。
所述当前帧和参考帧的尺寸为H×W,H为图像的高度,W为图像的宽度。
步骤200:根据各组历史图像信息,训练VGG16网络模型。
步骤300:根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
其中,在训练期间,对于一个视频中所有有标注的帧,80%用于网络训练,20%用于验证,最后模型保留在验证集上表现最好的一组网络参数用于测试数据。
在步骤200中,所述根据各组历史图像,训练VGG16网络模型,具体包括:
步骤210:针对每组历史图像,通过VGG16网络模型的特征提取层分别提取所述当前帧和参考帧的特征,得到四对特征图。
其中,所述特征提取层包括五部分,分别为2个包含64个通道的卷积层及一个最大池化层、2个包含128个通道的卷积层及一个最大池化层、3个包含256个通道的卷积层及一个最大池化层、3个包含512个通道的卷积层一个最大池化层、3个包含512个通道的卷积层一个最大池化层;各最大池化层均用于将输入的特征图的尺寸大小缩小二分之一。
步骤220:针对每对特征图,通过VGG16网络模型的第一融合层,对该对特征图进行第一信息融合,得到运动变换图像集和相对背景图像集。
步骤230:通过VGG16网络模型的采样层,分别对运动变换图像集和相对背景图像集上采样,得到运动变换采样图像集及相对背景采样检测图像集。
所述采样层通过反卷积的方法,分别对运动变换图像集和相对背景图像集的比例扩大2的整数次幂大小;通过均匀切剪边缘将过度放大的部分切掉,以保持和原图尺寸相同。
步骤240:通过VGG16网络模型的第二融合层,分别对所述运动变换采样图像集及相对背景采样检测图像集进行第二次融合,得到对应的运动变换检测图像和相对背景检测图像。
所述第二融合层包括卷积层、批归一化层和及ReLU激活层。
步骤250:通过VGG16网络模型的softmax层,根据每组历史图像中的运动变换检测图像和相对背景检测图像,确定目标的当前运动情况。
通过softmax层使数值二值化,便于点分类。
步骤260:根据目标的当前运动情况及对应的标签,更新所述VGG16网络模型的参数。
经过特征提取后,分别生成4个特征图。该每一对相同尺寸的特征图分别通过两个不同的函数(F1和F2)进行特征融合,进入到两个分支中,然后再统一上采样为HxW的尺寸。最后再融合两个分支得到最终结果。从而梯度更新整个网络中各部分的参数。
其中,所述运动变换采样图像集包括当前帧运动变换采样图像和参考帧运动变换采样图像,所述相对背景采样检测图像集包括当前帧相对背景采样检测图像及参考帧相对背景采样检测图像。
在步骤250中,所述通过VGG16网络模型的第二融合层,分别对所述运动变换采样图像集及相对背景采样检测图像集进行第二次融合,得到对应的运动变换检测图像和相对背景检测图像,具体包括:
步骤251:通过16通道的1X1卷积核分别对当前帧运动变换采样图像和参考帧运动变换采样图像进行特征提取,得到当前帧运动特征图和参考帧运动特征图。
步骤252:计算所述当前帧运动特征图和参考帧运动特征图的元素级别的绝对值差,得到运动变换检测图像。
所述运动变换检测图像为:
|conv1x1(mt1)-conv1x1(mi1)|。
其中,conv1x1表示16通道的1X1卷积核,mi1表示当前帧运动特征图,mt1表示参考帧运动特征图。
步骤253:通过16通道的3X3卷积核对当前帧相对背景采样检测图像及参考帧相对背景采样检测图像进行卷积,得到当前帧背景特征图及参考帧背景特征图。
步骤254:将当前帧背景特征图及参考帧背景特征图的差与当前帧运动特征图拼接,得到拼接信息。
步骤255:通过16通道的1X1卷积核对所述拼接信息进行信息融合,得到相对背景检测图像。
其中,所述相对背景检测图像为:
conv1x1(cat(conv3x3(mi2)-conv3x3(mt2),conv1x1(mi1)));
其中,conv1x1表示16通道的1X1卷积核,conv3x3表示16通道的3X3卷积核,cat(·)表示拼接函数,mi1表示当前帧运动特征图,mi2表示当前帧背景特征图,mt2表示参考帧背景特征图。
优选地,本发明基于孪生深度神经网络的动目标分割方法还包括:
步骤S1:对所述VGG16网络模型的权重初始化。
在训练开始之前会对网络的权重进行初始化。对于所有需要更新的卷积层,权重从均值为0,方差为0.01的正太分布中随机选择;对于反卷积层,权重都初始化为0;批归一化层权重初始化为1。所有的偏差项都为0。
步骤S2:计算采用带权重的交叉熵损失函数。
根据以下公式,确定交叉熵损失函数L:
Figure BDA0002562595180000121
其中,Y1表示背景图像中的点集,Y2表示前景图像中的点集,n1表示Y1的总数量,n2表示Y2的总数量,yi表示被分类为Y1的点,yj表示被分类为Y2的点。
步骤S3:根据所述交叉熵损失函数对所述VGG16网络模型进行更新。
本发明解决了现有技术中存在的以下问题:
(1)模型参数在不同实验条件下不统一。不同视频中物体的大小、运动模式和背景的运动程度不同,导致一些模型如基于自组织映射网络的模型需要针对视频手动调整参数。对代码进行分析,可以看到一些模型如FgSegNet系列对不同的视频设计不同的卷积神经网络层尺寸以得到更好的成绩,并为了获取更多的场景特定的常识手工选择训练数据。
(2)时间维度信息未有效利用。因为物体运动状态在视频中时常发生变化,所以在时间维度进行分析是必要的。如同样是静止的物体,如果在观察之前它发生过运动,那么该物体应该视为运动物体被检出;如果运动行为发生在观测之后,则此时将其视为静止。仅仅做空间维度的分析,从原理上不能识别运动,不适合运动物体分割这个任务。
(3)在利用时间维度信息的前提下,运动摄影条件下的分析难度大。从相对运动的角度分析,当摄像头运动时,视野中产生了大面积的相对运动,整个场景都应该视为运动。然而数据集在这类视频的标注中认为仅相对地面运动的物体才是运动的(PTZ类别)。这提升了基于时间的分析模型的设计难度。在所有场景结构和策略统一的情况下,既满足静止摄像下的分类任务,又在运动摄像条件下使模型适应环境变化,这是十分困难的。
本发明整体使用编码解码结构,其中编码部分为常用的特征提取网络VGG16,解码部分采用了语义分割任务中常用的HED结构,在每个VGG16的下采样步骤之前进行信息的分析整合,精确到特征的多种尺寸,使结果具有较高的准确性。
进一步地,本发明还提供一种基于孪生深度神经网络的动目标分割系统,提高对动目标分割的准确度。
如图2所示,本发明基于孪生深度神经网络的动目标分割系统包括获取单元1、训练单元2及检测单元3。
具体地,所述获取单元1用于获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;
所述训练单元2用于根据各组历史图像信息,训练VGG16网络模型;
所述检测单元3用于根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
此外,本发明还提供了一种基于孪生深度神经网络的动目标分割系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;
根据各组历史图像信息,训练VGG16网络模型;
根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
此外,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;
根据各组历史图像信息,训练VGG16网络模型;
根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
相对于现有技术,本发明基于孪生深度神经网络的动目标分割系统、计算机可读存储介质与上述基于孪生深度神经网络的动目标分割方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于孪生深度神经网络的动目标分割方法,其特征在于,所述分割方法包括:
获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;
根据各组历史图像信息,训练VGG16网络模型;
根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
2.根据权利要求1所述的基于孪生深度神经网络的动目标分割方法,其特征在于,所述根据各组历史图像,训练VGG16网络模型,具体包括:
针对每组历史图像,
通过VGG16网络模型的特征提取层分别提取所述当前帧和参考帧的特征,得到四对特征图;
针对每对特征图,
通过VGG16网络模型的第一融合层,对该对特征图进行第一信息融合,得到运动变换图像集和相对背景图像集;
通过VGG16网络模型的采样层,分别对运动变换图像集和相对背景图像集上采样,得到运动变换采样图像集及相对背景采样检测图像集;
通过VGG16网络模型的第二融合层,分别对所述运动变换采样图像集及相对背景采样检测图像集进行第二次融合,得到对应的运动变换检测图像和相对背景检测图像;
通过VGG16网络模型的softmax层,根据每组历史图像中的运动变换检测图像和相对背景检测图像,确定目标的当前运动情况;
根据目标的当前运动情况及对应的标签,更新所述VGG16网络模型的参数。
3.根据权利要求2所述的基于孪生深度神经网络的动目标分割方法,其特征在于,所述运动变换采样图像集包括当前帧运动变换采样图像和参考帧运动变换采样图像,所述相对背景采样检测图像集包括当前帧相对背景采样检测图像及参考帧相对背景采样检测图像;
所述通过VGG16网络模型的第二融合层,分别对所述运动变换采样图像集及相对背景采样检测图像集进行第二次融合,得到对应的运动变换检测图像和相对背景检测图像,具体包括:
通过16通道的1X1卷积核分别对当前帧运动变换采样图像和参考帧运动变换采样图像进行特征提取,得到当前帧运动特征图和参考帧运动特征图;
计算所述当前帧运动特征图和参考帧运动特征图的元素级别的绝对值差,得到运动变换检测图像;
通过16通道的3X3卷积核对当前帧相对背景采样检测图像及参考帧相对背景采样检测图像进行卷积,得到当前帧背景特征图及参考帧背景特征图;
将当前帧背景特征图及参考帧背景特征图的差与当前帧运动特征图拼接,得到拼接信息;
通过16通道的1X1卷积核对所述拼接信息进行信息融合,得到相对背景检测图像。
4.根据权利要求2所述的基于孪生深度神经网络的动目标分割方法,其特征在于,所述运动变换检测图像为:
|conv1x1(mt1)-conv1x1(mi1)|;
所述相对背景检测图像为:
conv1x1(cat(conv3x3(mi2)-conv3x3(mt2),conv1x1(mi1)));
其中,conv1x1表示16通道的1X1卷积核,conv3x3表示16通道的3X3卷积核,cat(·)表示拼接函数,mi1表示当前帧运动特征图,mt1表示参考帧运动特征图,mi2表示当前帧背景特征图,mt2表示参考帧背景特征图。
5.根据权利要求2所述的基于孪生深度神经网络的动目标分割方法,其特征在于,所述特征提取层包括五部分,分别为2个包含64个通道的卷积层及一个最大池化层、2个包含128个通道的卷积层及一个最大池化层、3个包含256个通道的卷积层及一个最大池化层、3个包含512个通道的卷积层一个最大池化层、3个包含512个通道的卷积层一个最大池化层;各最大池化层均用于将输入的特征图的尺寸大小缩小二分之一;
所述采样层通过反卷积的方法,分别对运动变换图像集和相对背景图像集的比例扩大2的整数次幂大小;通过均匀切剪边缘将过度放大的部分切掉,以保持和原图尺寸相同;
所述第二融合层包括卷积层、批归一化层和及ReLU激活层。
6.根据权利要求1-5中任一项所述的基于孪生深度神经网络的动目标分割方法,其特征在于,所述分割方法还包括:
对所述VGG16网络模型的权重初始化;
计算采用带权重的交叉熵损失函数;
根据所述交叉熵损失函数对所述VGG16网络模型进行更新。
7.根据权利要求6所述的基于孪生深度神经网络的动目标分割方法,其特征在于,根据以下公式,确定交叉熵损失函数L:
Figure FDA0002562595170000031
其中,Y1表示背景图像中的点集,Y2表示前景图像中的点集,n1表示Y1的总数量,n2表示Y2的总数量,yi表示被分类为Y1的点,yj表示被分类为Y2的点。
8.一种基于孪生深度神经网络的动目标分割系统,其特征在于,所述分割系统包括:
获取单元,用于获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;
训练单元,用于根据各组历史图像信息,训练VGG16网络模型;
检测单元,用于根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
9.一种基于孪生深度神经网络的动目标分割系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;
根据各组历史图像信息,训练VGG16网络模型;
根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取多组历史图像信息,每组历史图像信息包括同一视频中、尺寸大小相同的当前帧和参考帧、以及标有目标的运动情况的标签;
根据各组历史图像信息,训练VGG16网络模型;
根据训练后的VGG16网络模型,对待检测图像进行运动变换检测和/或相对背景检测,确定所述待检测图像中的动目标情况。
CN202010619639.3A 2020-06-30 2020-06-30 基于孪生深度神经网络的动目标分割方法及系统 Active CN111768432B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010619639.3A CN111768432B (zh) 2020-06-30 2020-06-30 基于孪生深度神经网络的动目标分割方法及系统
PCT/CN2020/099942 WO2022000426A1 (zh) 2020-06-30 2020-07-02 基于孪生深度神经网络的动目标分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010619639.3A CN111768432B (zh) 2020-06-30 2020-06-30 基于孪生深度神经网络的动目标分割方法及系统

Publications (2)

Publication Number Publication Date
CN111768432A true CN111768432A (zh) 2020-10-13
CN111768432B CN111768432B (zh) 2022-06-10

Family

ID=72724485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010619639.3A Active CN111768432B (zh) 2020-06-30 2020-06-30 基于孪生深度神经网络的动目标分割方法及系统

Country Status (2)

Country Link
CN (1) CN111768432B (zh)
WO (1) WO2022000426A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489073A (zh) * 2020-11-18 2021-03-12 中国人民解放军陆军军事交通学院镇江校区 基于帧间高级特征差分的零样本视频前景分割方法
CN112990234A (zh) * 2021-04-28 2021-06-18 广东西尼科技有限公司 基于改进孪生网络检测超分辨率小样本数据的方法
CN113221943A (zh) * 2021-04-01 2021-08-06 中国科学技术大学先进技术研究院 一种柴油车黑烟图像识别方法、系统及存储介质
CN113570607A (zh) * 2021-06-30 2021-10-29 北京百度网讯科技有限公司 目标分割的方法、装置及电子设备
CN113610900A (zh) * 2021-10-11 2021-11-05 深圳佑驾创新科技有限公司 车尾序列尺度变化预测方法、装置和计算机设备
CN113870254A (zh) * 2021-11-30 2021-12-31 中国科学院自动化研究所 目标对象的检测方法、装置、电子设备及存储介质
CN114359310A (zh) * 2022-01-13 2022-04-15 浙江大学 一种基于深度学习的3d心室核磁共振视频分割优化系统
CN114972853A (zh) * 2022-05-16 2022-08-30 中南大学湘雅医院 一种针对中耳疾病的智能分类处理方法
CN115100579A (zh) * 2022-08-09 2022-09-23 郑州大学 一种基于优化深度学习的管道中视频损害智能分割系统
WO2024139763A1 (zh) * 2022-12-27 2024-07-04 中移物联网有限公司 一种目标对象检测方法、装置、电子设备及可读存储介质

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114519847A (zh) * 2022-01-13 2022-05-20 东南大学 一种适用于车路协同感知系统的目标一致性判别方法
CN114550840B (zh) * 2022-02-25 2024-09-17 杭州电子科技大学 一种基于孪生网络的芬太尼类物质检测方法及其装置
CN114783054B (zh) * 2022-03-24 2024-03-26 西北大学 一种基于无线和视频特征融合的步态识别方法
CN114782859B (zh) * 2022-03-28 2024-07-19 华中科技大学 一种目标行为感知时空定位模型的建立方法及应用
CN114937153B (zh) * 2022-06-07 2023-06-30 北京理工大学 弱纹理环境下基于神经网络的视觉特征处理系统及方法
CN114943988B (zh) * 2022-06-16 2024-04-02 浙大城市学院 一种基于实例分割和深度卷积神经网络的平面目标监测方法
CN115147456B (zh) * 2022-06-29 2023-04-28 华东师范大学 一种基于时序自适应卷积与注意力机制的目标跟踪方法
CN115618098B (zh) * 2022-09-08 2023-07-04 淮阴工学院 基于知识增强与空洞卷积的冷链物流推荐方法及装置
CN115311573B (zh) * 2022-10-08 2023-03-24 浙江壹体科技有限公司 一种场地线检测和目标定位方法、电子设备及存储介质
CN116012364B (zh) * 2023-01-28 2024-01-16 北京建筑大学 Sar图像变化检测方法和装置
CN115861716B (zh) * 2023-02-16 2023-05-09 之江实验室 基于孪生神经网络和影像组学的胶质瘤分类方法及装置
CN115859837B (zh) * 2023-02-23 2023-05-16 山东大学 基于数字孪生建模的风机叶片动态冲击检测方法及系统
CN115953239B (zh) * 2023-03-15 2023-05-26 无锡锡商银行股份有限公司 一种基于多频流网络模型的面审视频场景评估方法
CN116384494B (zh) * 2023-06-05 2023-08-08 安徽思高智能科技有限公司 基于多模态孪生神经网络的rpa流程推荐方法及系统
CN116993732B (zh) * 2023-09-27 2023-12-26 合肥工业大学 一种缝隙检测方法、系统和存储介质
CN117115926B (zh) * 2023-10-25 2024-02-06 天津大树智能科技有限公司 一种基于实时图像处理的人体动作标准判定方法及装置
CN117593255B (zh) * 2023-11-07 2024-07-16 四川大学 一种基于时空信息融合的激光增材制造缺陷监控方法
CN117392396B (zh) * 2023-12-08 2024-03-05 安徽蔚来智驾科技有限公司 跨模态目标状态的检测方法、设备、智能设备和介质
CN117574133B (zh) * 2024-01-11 2024-04-02 湖南工商大学 一种不安全生产行为识别方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129934A1 (en) * 2016-11-07 2018-05-10 Qualcomm Incorporated Enhanced siamese trackers
CN108898620A (zh) * 2018-06-14 2018-11-27 厦门大学 基于多重孪生神经网络与区域神经网络的目标跟踪方法
US20190355128A1 (en) * 2017-01-06 2019-11-21 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
CN110532886A (zh) * 2019-07-31 2019-12-03 国网江苏省电力有限公司 一种基于孪生神经网络的目标检测算法
CN111259853A (zh) * 2020-02-04 2020-06-09 中国科学院计算技术研究所 一种高分辨率遥感图像变化检测方法、系统及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957053B2 (en) * 2018-10-18 2021-03-23 Deepnorth Inc. Multi-object tracking using online metric learning with long short-term memory
CN110942471B (zh) * 2019-10-30 2022-07-01 电子科技大学 一种基于时空约束的长时目标跟踪方法
CN110992401A (zh) * 2019-11-25 2020-04-10 上海眼控科技股份有限公司 目标跟踪方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129934A1 (en) * 2016-11-07 2018-05-10 Qualcomm Incorporated Enhanced siamese trackers
US20190355128A1 (en) * 2017-01-06 2019-11-21 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
CN108898620A (zh) * 2018-06-14 2018-11-27 厦门大学 基于多重孪生神经网络与区域神经网络的目标跟踪方法
CN110532886A (zh) * 2019-07-31 2019-12-03 国网江苏省电力有限公司 一种基于孪生神经网络的目标检测算法
CN111259853A (zh) * 2020-02-04 2020-06-09 中国科学院计算技术研究所 一种高分辨率遥感图像变化检测方法、系统及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CUICUI ZHANG: "Dependent Motion Segmentation in Moving Camera Videos:A survey", 《IEEE ACCESS》 *
MARCOS C ET AL.: "A Novel Siamese-Based Approach for Scene Change Detection With Applications to Obstructed Routes in Hazardous Environments", 《IEEE INTELLIGENT SYSTEMS》 *
SULTANA M ET AL.: "Unsupervised deep context prediction for background estimation and foreground segmentation", 《MACHINE VISION AND APPLICATIONS》 *
夏蕾等: "复杂场景下基于动态纹理的运动分割和背景估计方法", 《现代电子技术》 *
林晖翔: "复杂情形下视频目标跟踪方法的若干改进", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489073A (zh) * 2020-11-18 2021-03-12 中国人民解放军陆军军事交通学院镇江校区 基于帧间高级特征差分的零样本视频前景分割方法
CN113221943B (zh) * 2021-04-01 2022-09-23 中国科学技术大学先进技术研究院 一种柴油车黑烟图像识别方法、系统及存储介质
CN113221943A (zh) * 2021-04-01 2021-08-06 中国科学技术大学先进技术研究院 一种柴油车黑烟图像识别方法、系统及存储介质
CN112990234A (zh) * 2021-04-28 2021-06-18 广东西尼科技有限公司 基于改进孪生网络检测超分辨率小样本数据的方法
CN113570607A (zh) * 2021-06-30 2021-10-29 北京百度网讯科技有限公司 目标分割的方法、装置及电子设备
CN113570607B (zh) * 2021-06-30 2024-02-06 北京百度网讯科技有限公司 目标分割的方法、装置及电子设备
CN113610900A (zh) * 2021-10-11 2021-11-05 深圳佑驾创新科技有限公司 车尾序列尺度变化预测方法、装置和计算机设备
CN113870254A (zh) * 2021-11-30 2021-12-31 中国科学院自动化研究所 目标对象的检测方法、装置、电子设备及存储介质
CN114359310A (zh) * 2022-01-13 2022-04-15 浙江大学 一种基于深度学习的3d心室核磁共振视频分割优化系统
CN114359310B (zh) * 2022-01-13 2024-06-04 浙江大学 一种基于深度学习的3d心室核磁共振视频分割优化系统
CN114972853A (zh) * 2022-05-16 2022-08-30 中南大学湘雅医院 一种针对中耳疾病的智能分类处理方法
CN114972853B (zh) * 2022-05-16 2024-09-06 中南大学湘雅医院 一种针对中耳疾病的智能分类处理方法
CN115100579A (zh) * 2022-08-09 2022-09-23 郑州大学 一种基于优化深度学习的管道中视频损害智能分割系统
CN115100579B (zh) * 2022-08-09 2024-03-01 郑州大学 一种基于优化深度学习的管道中视频损害智能分割系统
WO2024139763A1 (zh) * 2022-12-27 2024-07-04 中移物联网有限公司 一种目标对象检测方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111768432B (zh) 2022-06-10
WO2022000426A1 (zh) 2022-01-06

Similar Documents

Publication Publication Date Title
CN111768432B (zh) 基于孪生深度神经网络的动目标分割方法及系统
CN108830855B (zh) 一种基于多尺度低层特征融合的全卷积网络语义分割方法
Blum et al. Fishyscapes: A benchmark for safe semantic segmentation in autonomous driving
CN108256562B (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
EP2989607B1 (en) Method and device for performing super-resolution on an input image
CN110866896B (zh) 基于k-means与水平集超像素分割的图像显著性目标检测方法
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN111696110B (zh) 场景分割方法及系统
CN108038435B (zh) 一种基于卷积神经网络的特征提取与目标跟踪方法
CN113657560B (zh) 基于节点分类的弱监督图像语义分割方法及系统
CN105825502B (zh) 一种基于显著性指导的词典学习的弱监督图像解析方法
CN111260688A (zh) 一种孪生双路目标跟踪方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN112132145B (zh) 一种基于模型扩展卷积神经网络的图像分类方法及系统
CN109685830B (zh) 目标跟踪方法、装置和设备及计算机存储介质
CN113689434B (zh) 一种基于条带池化的图像语义分割方法
CN111079539A (zh) 一种基于异常追踪的视频异常行为检测方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
Huang et al. Image saliency detection via multi-scale iterative CNN
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN113936175A (zh) 一种识别视频中的事件的方法及系统
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN115410131A (zh) 一种用于短视频智能分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100190 No. 95 East Zhongguancun Road, Beijing, Haidian District

Applicant after: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Applicant after: Guangdong Institute of artificial intelligence and advanced computing

Address before: 100190 No. 95 East Zhongguancun Road, Beijing, Haidian District

Applicant before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Applicant before: Guangzhou Institute of artificial intelligence and advanced computing, Institute of automation, Chinese Academy of Sciences

GR01 Patent grant
GR01 Patent grant