CN111626090A - 一种基于深度帧差卷积神经网络的运动目标检测方法 - Google Patents

一种基于深度帧差卷积神经网络的运动目标检测方法 Download PDF

Info

Publication number
CN111626090A
CN111626090A CN202010137381.3A CN202010137381A CN111626090A CN 111626090 A CN111626090 A CN 111626090A CN 202010137381 A CN202010137381 A CN 202010137381A CN 111626090 A CN111626090 A CN 111626090A
Authority
CN
China
Prior art keywords
frame difference
neural network
training
differencenet
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010137381.3A
Other languages
English (en)
Other versions
CN111626090B (zh
Inventor
欧先锋
晏鹏程
徐智
张国云
涂兵
郭龙源
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Hunan Institute of Science and Technology
Original Assignee
Guilin University of Electronic Technology
Hunan Institute of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology, Hunan Institute of Science and Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010137381.3A priority Critical patent/CN111626090B/zh
Publication of CN111626090A publication Critical patent/CN111626090A/zh
Application granted granted Critical
Publication of CN111626090B publication Critical patent/CN111626090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于深度帧差卷积神经网络的运动目标检测方法,属于计算机视觉领域,一种基于深度帧差卷积神经网络的运动目标检测方法,本发明的DifferenceNet具有孪生Encoder‑Decoder结构,通过输入两帧图像与对应的监督标签,可以学习两帧图像之间的时序信息与差异特征;AppearanceNet具有Encoder‑Decoder结构,通过主干提取t帧图像的表观信息,然后通过时‑空信息融合,对t+1帧图像中的运动目标进行预测;AppearanceNet还通过多尺度特征图融合和逐步上采样来保留多尺度空间信息,并且本方法在定性和定量方面均显着优于最新算法,并适用于存在动态背景,光照变化和阴影的复杂场景。

Description

一种基于深度帧差卷积神经网络的运动目标检测方法
技术领域
本发明涉及计算机视觉领域,更具体地说,涉及一种基于深度帧差卷积神经网络的运动目标检测方法。
背景技术
帧差法一般用于图像序列的运动检测,其又被称为帧间差分法或时间差分法,通过对时间连续的视频图像序列的多个帧之间采用灰度差分,并对差分的结果阈值化来获取图像中的运动目标区域一种运动目标检测方法。其基本思想是利用当前帧与相邻帧像素灰度值相近又不同的特点,对两帧图像进行差分运算,得到差分图像。
运动目标检测的目的是快速、准确地提取智能视频监控中的运动目标信息,在智能视频监控中是非常关键而基础的视觉任务。视频图像往往具有复杂、多变、动态的背景,如恶劣天气、植物摇摆、相机抖动、光照变化、阴影、目标遮挡、目标与背景高度相似、不规则运动等,这些因素都使得精确检测出运动目标的具有高度挑战性。运动目标检测是计算机视觉的重要而基础的问题,尽管其研究成果相对较多,但复杂场景下,受到动态背景、光照变化、阴影等因素的影响,高效、鲁棒的运动目标检测技术仍面临巨大挑战。
发明内容
1.要解决的技术问题
针对现有技术中存在的问题,本发明的目的在于提供一种基于深度帧差卷积神经网络的运动目标检测方法,DifferenceNet具有孪生 Encoder-Decoder结构,通过输入两帧图像与对应的监督标签,可以学习两帧图像之间的时序信息与差异特征;AppearanceNet具有Encoder-Decoder结构,通过主干提取t帧图像的表观信息,然后通过时-空信息融合,对t+1帧图像中的运动目标进行预测;AppearanceNet还通过多尺度特征图融合和逐步上采样来保留多尺度空间信息,并且本方法在定性和定量方面均显着优于最新算法,并适用于存在动态背景,光照变化和阴影的复杂场景。
2.技术方案
为解决上述问题,本发明采用如下的技术方案。
一种基于深度帧差卷积神经网络的运动目标检测方法,所述深度帧差卷积神经网络包括DifferenceNet和AppearanceNet,所述深度帧差卷积神经网络的运动目标检测方法包括以下步骤:
S1、利用DifferenceNet提取帧间差异特征:训练DifferenceNet,并保存下DifferenceNet的预训练模型,然后对DifferenceNet的预训练模型进行正向传播,得到帧差特征图f(t,t+1);
S2、利用AppearanceNet提取表观特征提取,并与帧间差异特征融合:训练AppearanceNet时,并将帧差特征图f(t,t+1)融合到AppearanceNet 中进行训练;
S3、使用PyTorch深度学习库来训练和测试网络。
进一步的,所述DifferenceNet输入为t和t+1帧图像,并使用t、t+1 帧对应的Groundtruth作为监督标签,所述AppearanceNet输入为t帧图像,并使用t+1对应的Groundtruth作为监督标签,所述监督标签制作时的计算公式为:Label=Gt+1-Gt∩(t+1)#(6)。
进一步的,所述DifferenceNet采用Encoder-Decoder结构,并采用 ResNet作为Backbone提取特征。
进一步的,请参阅图3,所述Encoder包括两个Backbone,两个Backbone 分别为Backbone 1和Backbone 2,两个所述Backbone结构相同均包括四个 Resdual模块,且两个Backbone之间权重和参数共享。(图6)
进一步的,所述帧差特征图的提取步骤为:将t和t+1帧分别输入到 Backbone 1和Backbone 2中,将得到相应的输出f(t)和f(t+1),然后通过f(t+1)-f(t)得到的帧差特征图f(t,t+1)。
进一步的,所述帧差特征图的具体运算过程为:
Backbone通过以下过程提取特征:
Figure RE-GDA0002573548220000031
其中,x和y分别表示输入和输出的特征图,θ表示卷积核的权重,b表示不同通道的偏置,h和w表示输出的坐标索引,m和n代表卷积核的坐标索引,o和i分别代表输出和输入中的不同通道,p是输入的padding,s是卷积操作的stride。
在ResNet的Resdual模块中,卷积核大小为3×3,padding为0, stride为2,并且最后一层卷积层的通道数为512。即图6中Diff_conv4层的的通道数为512,则Diff_conv4可以表示为:
Figure RE-GDA0002573548220000032
由于运动目标检测是一个二分类任务,因此对应于图6中的f(t)的通道数应当为2。并且,
Figure RE-GDA0002573548220000033
的通道可以通过1×1卷积进行降维。对于输入t,则输出f(t)可以示为:
Figure RE-GDA0002573548220000034
同理,由于Backbone 1和Backbone 2共享权值,对于输入t+1,相应的输出f(t+1)可以表示为:
Figure RE-GDA0002573548220000035
结合帧差法,用f(t+1)减去f(t)来反映它们之间的变化。因此,帧差特征图
f(t,t+1)可以表示为:
Figure RE-GDA0002573548220000041
进一步的,请参阅图5,所述AppearanceNet同样具有Encoder-Decoder 结构,且AppearanceNet的Backbone同样由4个Resdual模块组成。
进一步的,设t为所述AppearanceNet的输入,通过Encoder提取特征得到App_conv5(t),所述App_conv5(t)包含空间信息,f(t,t+1)包含时间信息,它们共同用于时、空间信息的融合,这一过程可以表示为:
Figure RE-GDA0002573548220000042
所述AppearanceNet的多尺度特征图融合公式为:
Figure RE-GDA0002573548220000043
进一步的,所述DifferenceNet和AppearanceNet中都使用了使用 Softmax CrossEntropy损失函数,可以表示为:
Figure RE-GDA0002573548220000044
其中,GMN为Groundtruth;YMN为输出;M和N为输出尺寸,与输入图像大小相同,且随输入大小而变化;(x,y)为概率图中的像素位置。
进一步的,所述DifferenceNe和AppearanceNet均采用PyTorch深度学习库来训练和测试网络,具体步骤为:
第一步:训练DifferenceNet。t帧和t+1帧图像是网络输入,并使用特定的的人工标签进行训练。网络通过SGD训练收敛;初始学习率为10-3,学习率衰减因子为0.1,每500次迭代,学习率衰减一次,最终衰减到10-6;网络一共迭代训练5000次。Batchsize被设置为4。
第二步:训练AppearanceNet。输入为t帧图像,并使用t+1帧Groundturth 作为标签进行训练。另外,将t帧和t+1帧输入到DifferenceNet的预训练模型中,得到f(t,t+1),f(t,t+1)将再次输入AppearanceNet中被用于时、空间信息的融合。网络通过SGD训练收敛;初始学习率为10-3,学习率的衰减因子为0.1,每500次迭代,学习率衰减一次,最终衰减到10-6;网络一共迭代训练10000次。Batchsize被设置为8。
3.有益效果
相比于现有技术,本发明的优点在于:
(1)DifferenceNet具有孪生Encoder-Decoder结构,通过输入两帧图像与对应的监督标签,可以学习两帧图像之间的时序信息与差异特征。
(2)AppearanceNet具有Encoder-Decoder结构,通过主干提取t帧图像的表观信息,然后通过时-空信息融合,对t+1帧图像中的运动目标进行预测。
(3)采用多尺度特征图融合和逐步上采样结构来保留多尺度空间信息,提高对小目标的敏感性。
(4)本方法在定性和定量方面均显着优于最新算法,并适用于存在动态背景,光照变化和阴影的复杂场景。
附图说明
图1为本发明的DFDNet的总体结构示意图;
图2为本发明的DFDNet算法流程图;
图3为本发明的DifferenceNet网络结构图;
图4为本发明的DifferenceNet的监督Label的制作过程示意图;
图5为本发明的AppearanceNet网络结构图;
图6为本发明的DifferenceNet网络的详细参数表;
图7为本发明的AppearanceNet网络的详细参数表。
具体实施方式
下面将结合本发明实施例中的附图;对本发明实施例中的技术方案进行清楚、完整地描述;显然;所描述的实施例仅仅是本发明一部分实施例;而不是全部的实施例,基于本发明中的实施例;本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例;都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“套设/接”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1:
请参阅图1-2,一种基于深度帧差卷积神经网络的运动目标检测方法,卷积神经网络结构即DFDNet,所述深度帧差卷积神经网络包括DifferenceNet 和AppearanceNet,所述深度帧差卷积神经网络的运动目标检测方法包括以下步骤:
S1、利用DifferenceNet提取帧间差异特征:训练DifferenceNet,并保存下DifferenceNet的预训练模型,然后对DifferenceNet的预训练模型进行正向传播,得到帧差特征图f(t,t+1);
S2、利用AppearanceNet提取表观特征提取,并与帧间差异特征融合:训练AppearanceNet时,并将帧差特征图f(t,t+1)融合到AppearanceNet 中进行训练;
S3、使用PyTorch深度学习库来训练和测试网络。
请参阅图3,DifferenceNet采用SiameseEncoder-Decoder结构,网络输入分别为t帧和t+1帧图像。在图3中,左虚线框为Encoder,右左框为 Decoder。Encoder通过卷积从输入中提取特征图,它包含两个Backbone分别为Backbone1和Backbone2,且两个Backbone结构相同(都包括4个Resdual 模块)且它们之间权重共享。图6给出了DifferenceNet的网络详细参数。t 和t+1帧分别输入到Backbone1和Backbone2中,将得到相应的输出f(t) 和f(t+1),然后通过f(t+1)-f(t)得到的帧差特征图f(t,t+1)。
Backbone1和Backbone2的参数是共享的,因此在图6中没有重复表示这些参数。它们的输入分别为t帧和t+1帧图像,输入尺寸都是(M,N),“Parameters”列表示卷积核的大小和维度,括号内的2个卷积层表示Resdual 模块,其中将两个Resdual模块视为一层。特征图进入相同的层将产生相应的输出,如:t和t+1输入Diff_conv1层生成Diff_conv1(t)和Diff_conv1(t+1)。
在CNNs中,都是通过Backbone当作特征提取器来提取特征的。DifferenceNet网络的Backbone由ResNet构成,并且其中的全连接层由 1×1卷积替代,Backbone 1和Backbone2的权重是共享的。Backbone通过以下过程提取特征:
Figure RE-GDA0002573548220000081
其中,x和y分别表示输入和输出的特征图,θ表示卷积核的权重,b表示不同通道的偏置,h和w表示输出的坐标索引,m和n代表卷积核的坐标索引,o和i分别代表输出和输入中的不同通道,p是输入的padding,s是卷积操作的stride。
在ResNet的Resdual模块中,卷积核大小为3×3,padding为0, stride为2,并且最后一层卷积层的通道数为512。即图6中Diff_conv4层的的通道数为512,则Diff_conv4可以表示为:
Figure RE-GDA0002573548220000082
由于运动目标检测是一个二分类任务,因此对应于图6中的f(t)的通道数应当为2。并且,
Figure RE-GDA0002573548220000083
的通道可以通过1×1卷积进行降维。对于输入t,则输出f(t)可以示为:
Figure RE-GDA0002573548220000084
同理,由于Backbone 1和Backbone 2共享权值,对于输入t+1,相应的输出f(t+1)可以表示为:
Figure RE-GDA0002573548220000085
结合帧差法,用f(t+1)减去f(t)来反映它们之间的变化。因此,帧差特征图f(t,t+1)可以表示为:
Figure RE-GDA0002573548220000091
Encoder通过上述一系列操作得到帧差特征图,然后Decoder通过 Up-sampling将特征图还原至原图大小,并密集地预测每个像素。为了避免一次Up-sampling造成的信息丢失,在Up-sampling中通过四次逐步的转置卷积将特征图恢复到原图的大小。
DifferenceNet的输入是一对连续的视频图像t和t+1。使用 DifferenceNet来学习连续图像之间的变化,因此在监督学习中需要使用 Label来反映这些变化。现有的标准数据集通常都有相应的手动标签,请参阅图4,在此基础上进行制作监督标签。
设t和t+1是两个连续的图像帧,其对应的Groundtruth分别为Gt和 Gt为与的交点,其中白色表示t帧Groundtruth与t+1帧Groundtruth之间的重叠移动前景。经过这个处理后,如果物体在移动,它会在t+1帧的 Groundtruth中产生一些新的前景像素,这些新的像素反映了t帧和t+1帧之间前景的变化。这些前景像素的计算公式如下:
Label=Gt+1-Gt∩(t+1)#(6)
请参阅图5,AppearanceNet同样具有Encoder-Decoder结构。此外,还考虑了低层结构特征和高层语义特征的融合来改进主干。与DifferenceNet 相似,AppearanceNet的Backbone由4个Resdual模块组成,一共进行了4 次Down-sampling,Decoder通过4次Up-sampling将特征图恢复到原图大小。图7中给出了AppearanceNet详细的网络参数。
设t为AppearanceNet的输入,通过Encoder提取特征得到App_conv5(t), App_conv5(t)包含空间信息,f(t,t+1)包含时间信息,它们共同用于时、空间信息的融合。这一过程可以表示为:
Figure RE-GDA0002573548220000101
另外,为了提高对小目标的敏感性,保留多尺度空间信息,设计了多尺度特征图融合和逐步Up-sampling的处理方式。多尺度特征图融合公式如下:
Figure RE-GDA0002573548220000102
由于网络输出为二值图像(前景为1,背景为0),在DifferenceNet和AppearanceNet中都使用了使用Softmax Cross Entropy损失函数,可以表示为:
Figure RE-GDA0002573548220000103
其中,GMN为Groundtruth;YMN为输出;M和N为输出尺寸,与输入图像大小相同,且随输入大小而变化;(x,y)为概率图中的像素位置。
为了加快训练网络的速度,对Encoder和Decoder中的每个卷积层(也包括反卷积层)执行批量归一化(BatchNorm),激活函数为Rectified Linear Units(ReLU)。使用PyTorch深度学习库来训练和测试网络。
第一步:训练DifferenceNet。t帧和t+1帧图像是网络输入,并使用特定的的人工标签进行训练。网络通过SGD训练收敛;初始学习率为10-3,学习率衰减因子为0.1,每500次迭代,学习率衰减一次,最终衰减到10-6;网络一共迭代训练5000次。Batchsize被设置为4;
第二步:训练AppearanceNet。输入为t帧图像,并使用t+1帧Groundturth 作为标签进行训练。另外,将t帧和t+1帧输入到DifferenceNet的预训练模型中,得到f(t,t+1),f(t,t+1)将再次输入AppearanceNet中被用于时、空间信息的融合。网络通过SGD训练收敛;初始学习率为10-3,学习率的衰减因子为0.1,每500次迭代,学习率衰减一次,最终衰减到10-6;网络一共迭代训练10000次。Batchsize被设置为8。
DFDNet由DifferenceNet和AppearanceNet两部分组成,网络可以同时预测和分割前景像素,而无需进行后处理。DifferenceNet具有孪生 Encoder-Decoder结构,用于学习连续两帧之间的变化和差异,并从输入(t 帧和t+1帧)中获取时序信息。而AppearanceNet用于从输入(t帧)中提取空间信息,并通过融合特征图来融合时间信息和空间信息。AppearanceNet还通过多尺度特征图融合和逐步上采样来保留多尺度空间信息,以提高对小物体的敏感性。在两个公共标准数据集:CDNet2014和I2R上的实验表明,该方法在定性和定量方面均显着优于最新算法,并且其平均F-measure相比于最新的算法最少提高了6.42%。实验结果还表明,提出的DFDNet适用于存在动态背景,光照变化和阴影的复杂场景。
本发明通过结合卷积神经网络的优良特性与传统运动目标检测算法(帧差法)的思想,设计深度帧差卷积神经网络,可以直接预测前景目标。为复杂场景下快速、准确、鲁棒地检测运动目标提出可能的解决思路,同时也将进一步推动卷积神经网络在该领域的研究和应用。本发明的运动目标检测可以在军事领域(军事目标识别与跟踪、武器制导)、智能交通控制、城市安防、人流量统计监控、无人驾驶等领域具有较强的应用价值。
以上所述;仅为本发明较佳的具体实施方式;但本发明的保护范围并不局限于此;任何熟悉本技术领域的技术人员在本发明揭露的技术范围内;根据本发明的技术方案及其改进构思加以等同替换或改变;都应涵盖在本发明的保护范围内。

Claims (10)

1.一种基于深度帧差卷积神经网络的运动目标检测方法,所述深度帧差卷积神经网络包括DifferenceNet和AppearanceNet,其特征在于:所述深度帧差卷积神经网络的运动目标检测方法包括以下步骤:
S1、利用DifferenceNet提取帧间差异特征:训练DifferenceNet,并保存下DifferenceNet的预训练模型,然后对DifferenceNet的预训练模型进行正向传播,得到帧差特征图f(t,t+1);
S2、利用AppearanceNet提取表观特征提取,并与帧间差异特征融合:训练AppearanceNet时,并将帧差特征图f(t,t+1)融合到AppearanceNet中进行训练;
S3、使用PyTorch深度学习库来训练和测试网络。
2.根据权利要求1所述的一种基于深度帧差卷积神经网络的运动目标检测方法,其特征在于:所述DifferenceNet输入为t和t+1帧图像,并使用t、t+1帧对应的Groundtruth作为监督标签,所述AppearanceNet输入为t帧图像,并使用t+1对应的Groundtruth作为监督标签,所述监督标签制作时的计算公式为:Label=Gt+1-Gt∩(t+1)#(6)。
3.根据权利要求2所述的一种基于深度帧差卷积神经网络的运动目标检测方法,其特征在于:所述DifferenceNet采用Encoder-Decoder结构,并采用ResNet作为Backbone提取特征。
4.根据权利要求1所述的一种基于深度帧差卷积神经网络的运动目标检测方法,其特征在于:所述Encoder包括两个Backbone,两个Backbone分别为Backbone 1和Backbone 2,两个所述Backbone结构相同均包括四个Resdual模块,且两个Backbone之间权重和参数共享。
5.根据权利要求4所述的一种基于深度帧差卷积神经网络的运动目标检测方法,其特征在于:所述帧差特征图的提取步骤为:将t和t+1帧分别输入到Backbone 1和Backbone 2中,将得到相应的输出f(t)和f(t+1),然后通过f(t+1)-f(t)得到的帧差特征图f(t,t+1)。
6.根据权利要求5所述的一种基于深度帧差卷积神经网络的运动目标检测方法,其特征在于:所述帧差特征图的具体运算过程为:
Backbone通过以下过程提取特征:
Figure FDA0002397810940000021
其中,x和y分别表示输入和输出的特征图,θ表示卷积核的权重,b表示不同通道的偏置,h和w表示输出的坐标索引,m和n代表卷积核的坐标索引,o和i分别代表输出和输入中的不同通道,p是输入的padding,s是卷积操作的stride。
在ResNet的Resdual模块中,卷积核大小为3×3,padding为0,stride为2,并且最后一层卷积层的通道数为512,即图7中Diff_conv4层的的通道数为512,则Diff_conv4可以表示为:
Figure FDA0002397810940000022
由于运动目标检测是一个二分类任务,因此对应于图7中的f(t)的通道数应当为2,并且,
Figure FDA0002397810940000023
的通道可以通过1×1卷积进行降维,对于输入t,则输出f(t)可以示为:
Figure FDA0002397810940000031
同理,由于Backbone 1和Backbone 2共享权值,对于输入t+1,相应的输出f(t+1)可以表示为:
Figure FDA0002397810940000032
结合帧差法,用f(t+1)减去f(t)来反映它们之间的变化,因此,帧差特征图f(t,t+1)可以表示为:
Figure FDA0002397810940000033
7.根据权利要求1所述的一种基于深度帧差卷积神经网络的运动目标检测方法,其特征在于:所述AppearanceNet同样具有Encoder-Decoder结构,且AppearanceNet的Backbone同样由4个Resdual模块组成。
8.根据权利要求7所述的一种基于深度帧差卷积神经网络的运动目标检测方法,其特征在于:设t为所述AppearanceNet的输入,通过Encoder提取特征得到App_conv5(t),所述App_conv5(t)包含空间信息,f(t,t+1)包含时间信息,它们共同用于时、空间信息的融合,这一过程可以表示为:
Figure FDA0002397810940000034
所述AppearanceNet的多尺度特征图融合公式为:
Figure FDA0002397810940000041
9.根据权利要求8所述的一种基于深度帧差卷积神经网络的运动目标检测方法,其特征在于:所述DifferenceNet和AppearanceNet中都使用了使用Softmax Cross Entropy损失函数,可以表示为:
Figure FDA0002397810940000042
其中,GMN为Groundtruth;YMN为输出;M和N为输出尺寸,与输入图像大小相同,且随输入大小而变化;(x,y)为概率图中的像素位置。
10.根据权利要求1所述的一种基于深度帧差卷积神经网络的运动目标检测方法,其特征在于:所述DifferenceNe和AppearanceNet均采用PyTorch深度学习库来训练和测试网络,具体步骤为:
第一步:训练DifferenceNet:t帧和t+1帧图像是网络输入,并使用特定的的人工标签进行训练;网络通过SGD训练收敛;初始学习率为10-3,学习率衰减因子为0.1,每500次迭代,学习率衰减一次,最终衰减到10-6;网络一共迭代训练5000次;Batchsize被设置为4;
第二步:训练AppearanceNet输入为t帧图像,并使用t+1帧Groundturth作为标签进行训练;另外,将t帧和t+1帧输入到DifferenceNet的预训练模型中,得到f(t,t+1),f(t,t+1)将再次输入AppearanceNet中被用于时、空间信息的融合;网络通过SGD训练收敛;初始学习率为10-3,学习率的衰减因子为0.1,每500次迭代,学习率衰减一次,最终衰减到10-6;网络一共迭代训练10000次;Batchsize被设置为8。
CN202010137381.3A 2020-03-03 2020-03-03 一种基于深度帧差卷积神经网络的运动目标检测方法 Active CN111626090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010137381.3A CN111626090B (zh) 2020-03-03 2020-03-03 一种基于深度帧差卷积神经网络的运动目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010137381.3A CN111626090B (zh) 2020-03-03 2020-03-03 一种基于深度帧差卷积神经网络的运动目标检测方法

Publications (2)

Publication Number Publication Date
CN111626090A true CN111626090A (zh) 2020-09-04
CN111626090B CN111626090B (zh) 2023-07-07

Family

ID=72271765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010137381.3A Active CN111626090B (zh) 2020-03-03 2020-03-03 一种基于深度帧差卷积神经网络的运动目标检测方法

Country Status (1)

Country Link
CN (1) CN111626090B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529940A (zh) * 2020-12-17 2021-03-19 北京深睿博联科技有限责任公司 一种固定摄像机下的运动目标位置预测方法及装置
CN112907621A (zh) * 2021-02-24 2021-06-04 华南理工大学 一种基于差分和语义信息融合的运动目标提取方法
CN113392725A (zh) * 2021-05-26 2021-09-14 苏州易航远智智能科技有限公司 基于视频数据的行人过街意图识别方法
CN116664849A (zh) * 2023-05-18 2023-08-29 中关村科学城城市大脑股份有限公司 数据处理方法、装置、电子设备和计算机可读介质
CN117218128A (zh) * 2023-11-09 2023-12-12 成都格理特电子技术有限公司 一种整合时序信息的跑冒滴漏目标检测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454819B1 (en) * 2015-06-03 2016-09-27 The United States Of America As Represented By The Secretary Of The Air Force System and method for static and moving object detection
CN106709453A (zh) * 2016-12-24 2017-05-24 北京工业大学 一种基于深度学习的体育视频关键姿态提取方法
CN108062525A (zh) * 2017-12-14 2018-05-22 中国科学技术大学 一种基于手部区域预测的深度学习手部检测方法
CN108492319A (zh) * 2018-03-09 2018-09-04 西安电子科技大学 基于深度全卷积神经网络的运动目标检测方法
CN108550163A (zh) * 2018-04-19 2018-09-18 湖南理工学院 一种复杂背景场景中运动目标检测方法
US20190228313A1 (en) * 2018-01-23 2019-07-25 Insurance Services Office, Inc. Computer Vision Systems and Methods for Unsupervised Representation Learning by Sorting Sequences
CN110378288A (zh) * 2019-07-19 2019-10-25 合肥工业大学 一种基于深度学习的多级时空运动目标检测方法
CN110647836A (zh) * 2019-09-18 2020-01-03 中国科学院光电技术研究所 一种鲁棒的基于深度学习的单目标跟踪方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454819B1 (en) * 2015-06-03 2016-09-27 The United States Of America As Represented By The Secretary Of The Air Force System and method for static and moving object detection
CN106709453A (zh) * 2016-12-24 2017-05-24 北京工业大学 一种基于深度学习的体育视频关键姿态提取方法
CN108062525A (zh) * 2017-12-14 2018-05-22 中国科学技术大学 一种基于手部区域预测的深度学习手部检测方法
US20190228313A1 (en) * 2018-01-23 2019-07-25 Insurance Services Office, Inc. Computer Vision Systems and Methods for Unsupervised Representation Learning by Sorting Sequences
CN108492319A (zh) * 2018-03-09 2018-09-04 西安电子科技大学 基于深度全卷积神经网络的运动目标检测方法
CN108550163A (zh) * 2018-04-19 2018-09-18 湖南理工学院 一种复杂背景场景中运动目标检测方法
CN110378288A (zh) * 2019-07-19 2019-10-25 合肥工业大学 一种基于深度学习的多级时空运动目标检测方法
CN110647836A (zh) * 2019-09-18 2020-01-03 中国科学院光电技术研究所 一种鲁棒的基于深度学习的单目标跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
H.XIAO,J.FENG: "Monet:Deep motion exploitation for video object segmentation", pages 1140 - 1148 *
WEI ZHANG;YIMENG LI: "Learning Intra-Video Difference for Person Re-Identification", pages 3028 - 3036 *
李玺;查宇飞;张天柱;崔振;左旺孟;侯志强;卢湖川;王菡子;: "深度学习的目标跟踪算法综述", no. 12, pages 5 - 28 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529940A (zh) * 2020-12-17 2021-03-19 北京深睿博联科技有限责任公司 一种固定摄像机下的运动目标位置预测方法及装置
CN112907621A (zh) * 2021-02-24 2021-06-04 华南理工大学 一种基于差分和语义信息融合的运动目标提取方法
CN112907621B (zh) * 2021-02-24 2023-02-14 华南理工大学 一种基于差分和语义信息融合的运动目标提取方法
CN113392725A (zh) * 2021-05-26 2021-09-14 苏州易航远智智能科技有限公司 基于视频数据的行人过街意图识别方法
CN113392725B (zh) * 2021-05-26 2022-10-18 苏州易航远智智能科技有限公司 基于视频数据的行人过街意图识别方法
CN116664849A (zh) * 2023-05-18 2023-08-29 中关村科学城城市大脑股份有限公司 数据处理方法、装置、电子设备和计算机可读介质
CN116664849B (zh) * 2023-05-18 2024-01-16 中关村科学城城市大脑股份有限公司 数据处理方法、装置、电子设备和计算机可读介质
CN117218128A (zh) * 2023-11-09 2023-12-12 成都格理特电子技术有限公司 一种整合时序信息的跑冒滴漏目标检测方法及系统
CN117218128B (zh) * 2023-11-09 2024-03-22 成都格理特电子技术有限公司 一种整合时序信息的跑冒滴漏目标检测方法及系统

Also Published As

Publication number Publication date
CN111626090B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
CN110135319B (zh) 一种异常行为检测方法及其系统
CN111626090B (zh) 一种基于深度帧差卷积神经网络的运动目标检测方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
US20180114071A1 (en) Method for analysing media content
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN112884064A (zh) 一种基于神经网络的目标检测与识别方法
CN110688925A (zh) 基于深度学习的级联目标识别方法及系统
CN111260738A (zh) 基于相关滤波和自适应特征融合的多尺度目标跟踪方法
CN111666842B (zh) 一种基于双流空洞卷积神经元网络的阴影检测方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN109919223B (zh) 基于深度神经网络的目标检测方法及装置
US20220148292A1 (en) Method for glass detection in real scenes
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN112560619B (zh) 一种基于多聚焦图像融合的多距离鸟类精准识别方法
Pavel et al. Recurrent convolutional neural networks for object-class segmentation of RGB-D video
CN114639042A (zh) 基于改进CenterNet骨干网络的视频目标检测算法
CN115439442A (zh) 基于共性和差异的工业品表面缺陷检测与定位方法及系统
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN113936034A (zh) 一种结合帧间光流的表观运动联合弱小运动目标检测方法
CN115205793B (zh) 基于深度学习二次确认的电力机房烟雾检测方法及装置
Rao et al. Roads detection of aerial image with FCN-CRF model
CN110728238A (zh) 一种融合型神经网络的人员再检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant