CN109902601A - 一种结合卷积网络和递归网络的视频目标检测方法 - Google Patents

一种结合卷积网络和递归网络的视频目标检测方法 Download PDF

Info

Publication number
CN109902601A
CN109902601A CN201910114225.2A CN201910114225A CN109902601A CN 109902601 A CN109902601 A CN 109902601A CN 201910114225 A CN201910114225 A CN 201910114225A CN 109902601 A CN109902601 A CN 109902601A
Authority
CN
China
Prior art keywords
network
video object
object detection
image
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910114225.2A
Other languages
English (en)
Other versions
CN109902601B (zh
Inventor
邹勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910114225.2A priority Critical patent/CN109902601B/zh
Publication of CN109902601A publication Critical patent/CN109902601A/zh
Application granted granted Critical
Publication of CN109902601B publication Critical patent/CN109902601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种结合卷积网络和递归网络的视频目标检测方法。本方法利用连续多帧视频图像进行视频目标检测,采用深度卷积神经网络和递归神经网络相结合的方式,构建了一种端到端的深度学习模型,对输入的连续视频图像进行目标检测,输出视频目标概率图,能有效克服背景动态景观、摄像机抖动等带来的影响,实现高可靠性和高准确度的视频目标检测。

Description

一种结合卷积网络和递归网络的视频目标检测方法
技术领域
本发明涉及计算机视觉和视频图像处理领域,具体涉及一种结合卷积网络和递归网络的视频目标检测方法。
背景技术
随着计算机视觉技术的进步,监控视频智能处理得到了学术界和工业界的广泛研究,视频目标检测作为视频监控的一个重要功能,一直是研究热点。视频目标检测常常采用背景建模的方式来分割前景目标。然而,当背景存在动态景观(如喷泉、颤动的树叶、波浪等),或者摄像机存在微小抖动(如大型车辆通过时造成振动、强风造成相机抖动等)等情况,传统的基于背景建模的视频目标检测方法常常遇到严重的困难。
近年来,深度学习技术的兴起给计算机视觉领域带来了广泛而深刻的影响,它使越来越多的视觉研究得到产业化应用,例如人脸识别、服装分类、车辆检测等等。深度学习网络主要有两种,一种是卷积神经网络(Convolutional Neural Networks,CNN),网络主要结构是卷积层(Convolutional layer)和池化层(Pooling layer),具有非常强的信息抽象能力,主要用来进行图像特征的提取,另一种是递归神经网络(Recurrent NeuralNetworks,RNN),是一种具有内部状态的网络,适用于处理和预测时序数据。
基于以上分析,本发明提出了一种结合卷积网络和递归网络的视频目标检测方法。本发明致力于无缝集成卷积神经网络和递归神经网络,构建端到端的视频目标检测深度学习模型,发挥两种神经网络在单帧图像特征提取和多帧图像时序信号处理方面的优势,研究和探索出一种具有高可靠性和准确度的视频目标检测方法。
发明内容
本发明为了提高视频目标检测系统的可靠性和准确度,提供了一种结合卷积网络和递归网络的视频目标检测方法。所发明的方法,其输入为多帧连续的视频图像序列,输出为一张黑白图像,视频目标为白色标记。本发明所述设计的结合卷积网络和递归网络的视频目标检测方法,包含以下步骤:
步骤S1,构建视频数据样本集,所述数据集中的每一个样本包含多帧连续视频图像;
步骤S2,构建深度学习网络模型,该模型包括编码网络、递归神经网络和解码网络;
步骤S3,利用S1构建的视频数据样本集对步骤S2构建的深度学习模型进行训练;
步骤S4,利用步骤S3训练好的模型进行视频目标检测。
进一步地,所述步骤S1具体为:
步骤S1-1,采集M个图像序列,每个序列包含L帧连续的视频图像;对每个序列的最后一帧图像(即第L帧图像)标注视频目标的真值,得到标签;
步骤S1-2,为了适应不同帧率条件的视频目标检测,对上述每个图像序列进行多步长等间隔采样,步长分别为1,2,和3,从而每个图像序列可以生成3个数据样本,使每个样本包含N帧图像;
步骤S1-3,经过上面两步的处理,得到3×M个数据样本,每个样本包含N帧图像,并且第N帧标注有视频目标真值;将3×M个样本作为视频数据样本集。
更进一步地,所述N大于等于5。
进一步地,所述构建深度学习网络为一个端到端网络。
进一步地,所述编码网络为全卷积网络,包含卷积层和池化层。
进一步地,所述递归神经网络为卷积长短时记忆神经网络。
进一步地,所述解码网络为全卷积网络,包括反卷积层和卷积层。
本发明还包括一种电子设备,其特殊之处在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的结合卷积网络和递归网络的视频目标检测方法。
本发明还包括一种计算机可读介质,其上存储有计算机程序,其特殊之处在于:所述程序被处理器执行时实现如上所述的结合卷积网络和递归网络的视频目标检测方法。
本发明的优点:
1.本发明创新性地构建了一个端到端的深度学习网络,它由编码网络、递归神经网络和解码网络组成,编码网络和解码网络为全卷积网络,能发挥卷积神经网络对单幅图像信息抽取的能力,而递归神经网络能高效处理时序的多帧图像数据;将两种类型网络无缝地集成,实现了高可靠性和高准确度的视频目标检测,有效克服由背景动态景观和相机抖动带来的影响。
2.本发明在构建图像数据集时,采用了多步长的等间隔采样策略,使得训练样本包含不同帧率拍摄条件下的数据,大幅提高了所发明方法对不同视频帧率的适应性。
附图说明
图1是本发明实施例的深度学习神经网络总体架构图。
图2是本发明的系统流程图。
具体实施方式
传统的视频目标检测方法在面对背景动态景观、相机抖动等情况时,检测效果差。本发明提出一种结合卷积网络和递归网络的视频目标检测方法,利用深度学习构建视频目标分割模型,实现高可靠性和高准确度的视频目标检测。
本发明提供的方法设计了一种新型的深度学习网络模型,其总体结构参见图1。其具体实施例包含以下步骤:
步骤S1,构建视频数据样本集,所述数据集中的每一个样本包含N帧连续视频图像。具体实施过程说明如下:
步骤S1-1,采集M个图像序列,每个序列包含L帧连续的视频图像;对每个序列的最后一帧图像(即第L帧图像)标注有视频目标真值,得到标签。
步骤S1-2,为了适应不同帧率条件下的视频目标检测,对上述每个图像序列进行等间隔采样,间隔距离为1,2,和3,从而每个图像序列可以生成3个数据样本,使每个样本包含N帧图像。
步骤S1-3,经过上面两步的处理,得到3×M个数据样本,每个样本包含N帧图像,并且第N帧有标注的视频目标真值;将3×M个样本作为视频数据样本集。
优选地,取M=10000,L=13,N=5,则每个图像序列分别进行间隔为1,2,3的采样后,得到对应的三个数据样本的图像帧下标为[9,10,11,12,13],[5,7,9,11,13],和[1,4,7,10,13]。
步骤S2,构建深度学习网络模型,该模型包括编码网络、递归神经网络和解码网络;编码网络为全卷积网络,包含卷积层和池化层;递归神经网络采用卷积长短时记忆网络(convLSTM);解码网络为全卷积网络,包含反卷积层和卷积层;具体的步骤为:
S2-1,将连续的N帧图像依次输入编码网络,输出N个特征向量;
S2-2,将上一步得到的N个特征向量作为N个时序信号输入卷积长短时记忆网络,输出为一个特征向量;
S2-3,将上一步得到的1个特征向量输入解码网络,输出一张视频目标的概率图,该图与原原始输入图像尺寸相同。
进一步的,所述步骤S2中编码网络包含16层,第1层为输入层,由N帧连续视频图像构成,第2、3层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为64,第4层为池化层,池化尺寸是2×2,第5、6层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为128,第7层为池化层,池化尺寸是2×2,第8、9层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为256,第10层为池化层,池化尺寸是2×2,第11、12层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为512,第13层为池化层,池化尺寸是2×2,第14、15层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为512,第16层为输出层。
优选地,池化层采用最大值池化法;
进一步地,所述步骤S2中长短期记忆网络采用双层结构;
进一步地,所述步骤S2中解码网络包含15层,第1、2层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为512,第3层为反卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为512,第4、5层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为256,第6层为反卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为256,第7、8层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为256,第9层为反卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为128,第10、11层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为128,第12层为反卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为64,,第13、14层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为64,第15层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数为1,即输出视频目标概率图。
进一步地,采用加权交叉熵作为模型的损失函数εloss,其定义为:
其中Ω={1,2…K},为类别标签的集合,l(x)∈{1,2…K},表示像素x对应的真实类别标签,p(x)表示预测值,而w(x)表示x对应类的权重。
步骤S3,利用S1构建的视频数据样本集对步骤S2构建的深度学习模型进行训练;
进一步地,网络的输入为N张连续的图像序列,输出为第N帧图像中视频目标的概率图,其中,像素点越接近1(白色)则代表此处为视频目标的概率越大,反之越接近0(黑色)则代表此处为视频目标的概率越小。
步骤S4,利用步骤S3训练好的深度学习模型,输入的N帧连续的视频图像,检测得到其中第N帧图像包含的视频目标。
本发明的优点:
1.本发明创新性地构建了一个端到端的深度学习网络,它由编码网络、递归神经网络和解码网络组成,编码网络和解码网络为全卷积网络,能发挥卷积神经网络对单幅图像信息抽取的能力,而递归神经网络能高效处理时序的多帧图像数据;将两种类型网络无缝地集成,实现了高可靠性和高准确度的视频目标检测,有效克服由背景动态景观和相机抖动带来的影响。
2.本发明在构建图像数据集时,采用了多步长的等间隔采样策略,使得训练样本包含不同帧率拍摄条件下的数据,大幅提高了所发明方法对不同视频帧率的适应性。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (9)

1.一种结合卷积网络和递归网络的视频目标检测方法,包含以下步骤:
步骤S1,构建视频数据样本集,所述数据集中的每一个样本包含多帧连续视频图像;
步骤S2,构建深度学习网络模型,该模型包括编码网络、递归神经网络和解码网络;
步骤S3,利用S1构建的视频数据样本集对步骤S2构建的深度学习模型进行训练;
步骤S4,利用步骤S3训练好的模型进行视频目标检测。
2.根据权利要求1所述的一种结合卷积网络和递归网络的视频目标检测方法,其特征在于:所述步骤S1具体为:
步骤S1-1,采集M个图像序列,每个序列包含L帧连续的视频图像;对每个序列的最后一帧图像(即第L帧图像)标注视频目标的真值,得到标签;
步骤S1-2,为了适应不同帧率条件的视频目标检测,对上述每个图像序列进行多步长等间隔采样,步长分别为1,2,和3,从而每个图像序列可以生成3个数据样本,使每个样本包含N帧图像;
步骤S1-3,经过上面两步的处理,得到3×M个数据样本,每个样本包含N帧图像,并且第N帧标注有视频目标真值;将3×M个样本作为视频数据样本集。
3.根据权利要求2所述的一种结合卷积网络和递归网络的视频目标检测方法,其特征在于:所述N大于等于5。
4.根据权利要求1所述的一种结合卷积网络和递归网络的视频目标检测方法,其特征在于:所述构建深度学习网络为一个端到端网络。
5.根据权利要求1所述的一种结合卷积网络和递归网络的视频目标检测方法,其特征在于:所述编码网络为全卷积网络,包含卷积层和池化层。
6.根据权利要求1所述的一种结合卷积网络和递归网络的视频目标检测方法,其特征在于:所述递归神经网络为卷积长短时记忆神经网络。
7.根据权利要求1所述的一种结合卷积网络和递归网络的视频目标检测方法,其特征在于:所述解码网络为全卷积网络,包括反卷积层和卷积层。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201910114225.2A 2019-02-14 2019-02-14 一种结合卷积网络和递归网络的视频目标检测方法 Active CN109902601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910114225.2A CN109902601B (zh) 2019-02-14 2019-02-14 一种结合卷积网络和递归网络的视频目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910114225.2A CN109902601B (zh) 2019-02-14 2019-02-14 一种结合卷积网络和递归网络的视频目标检测方法

Publications (2)

Publication Number Publication Date
CN109902601A true CN109902601A (zh) 2019-06-18
CN109902601B CN109902601B (zh) 2023-04-07

Family

ID=66944902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910114225.2A Active CN109902601B (zh) 2019-02-14 2019-02-14 一种结合卷积网络和递归网络的视频目标检测方法

Country Status (1)

Country Link
CN (1) CN109902601B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110335344A (zh) * 2019-06-20 2019-10-15 中国科学院自动化研究所 基于2d-3d注意机制神经网络模型的三维重建方法
CN111123257A (zh) * 2019-12-30 2020-05-08 西安电子科技大学 基于图时空网络的雷达动目标多帧联合检测方法
CN111225236A (zh) * 2020-01-20 2020-06-02 北京百度网讯科技有限公司 生成视频封面的方法、装置、电子设备以及计算机可读存储介质
CN111507215A (zh) * 2020-04-08 2020-08-07 常熟理工学院 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN112418029A (zh) * 2020-11-11 2021-02-26 江苏禹空间科技有限公司 动态的目标对象检测方法、装置、存储介质及设备
CN113283403A (zh) * 2021-07-21 2021-08-20 武汉大学 基于对抗学习的伪造人脸视频检测方法
CN115439376A (zh) * 2022-11-03 2022-12-06 武汉大学 复眼相机多焦距图像融合模型、方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060666A1 (en) * 2016-08-29 2018-03-01 Nec Laboratories America, Inc. Video system using dual stage attention based recurrent neural network for future event prediction
CN108184128A (zh) * 2018-01-11 2018-06-19 安徽优思天成智能科技有限公司 基于深度神经网络的视频序列丢失帧预测恢复方法
US20180268220A1 (en) * 2017-03-17 2018-09-20 Magic Leap, Inc. Room layout estimation methods and techniques
CN108629816A (zh) * 2018-05-09 2018-10-09 复旦大学 基于深度学习进行薄层磁共振图像重建的方法
CN108805015A (zh) * 2018-04-26 2018-11-13 常州大学 加权卷积自编码长短期记忆网络人群异常检测方法
CN109064507A (zh) * 2018-08-21 2018-12-21 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060666A1 (en) * 2016-08-29 2018-03-01 Nec Laboratories America, Inc. Video system using dual stage attention based recurrent neural network for future event prediction
US20180268220A1 (en) * 2017-03-17 2018-09-20 Magic Leap, Inc. Room layout estimation methods and techniques
CN108184128A (zh) * 2018-01-11 2018-06-19 安徽优思天成智能科技有限公司 基于深度神经网络的视频序列丢失帧预测恢复方法
CN108805015A (zh) * 2018-04-26 2018-11-13 常州大学 加权卷积自编码长短期记忆网络人群异常检测方法
CN108629816A (zh) * 2018-05-09 2018-10-09 复旦大学 基于深度学习进行薄层磁共振图像重建的方法
CN109064507A (zh) * 2018-08-21 2018-12-21 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LUO WX ET AL: "《Remembering History with Convolutional LSTM For Anomaly Detection》", 《IEEE》 *
何丹丹: "《监控视频场景下的异常行为检测研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110335344A (zh) * 2019-06-20 2019-10-15 中国科学院自动化研究所 基于2d-3d注意机制神经网络模型的三维重建方法
CN111123257A (zh) * 2019-12-30 2020-05-08 西安电子科技大学 基于图时空网络的雷达动目标多帧联合检测方法
CN111123257B (zh) * 2019-12-30 2023-03-28 西安电子科技大学 基于图时空网络的雷达动目标多帧联合检测方法
CN111225236A (zh) * 2020-01-20 2020-06-02 北京百度网讯科技有限公司 生成视频封面的方法、装置、电子设备以及计算机可读存储介质
CN111225236B (zh) * 2020-01-20 2022-03-25 北京百度网讯科技有限公司 生成视频封面的方法、装置、电子设备以及计算机可读存储介质
CN111507215A (zh) * 2020-04-08 2020-08-07 常熟理工学院 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN112418029A (zh) * 2020-11-11 2021-02-26 江苏禹空间科技有限公司 动态的目标对象检测方法、装置、存储介质及设备
CN113283403A (zh) * 2021-07-21 2021-08-20 武汉大学 基于对抗学习的伪造人脸视频检测方法
CN113283403B (zh) * 2021-07-21 2021-11-02 武汉大学 基于对抗学习的伪造人脸视频检测方法
CN115439376A (zh) * 2022-11-03 2022-12-06 武汉大学 复眼相机多焦距图像融合模型、方法及装置
CN115439376B (zh) * 2022-11-03 2023-02-03 武汉大学 复眼相机多焦距图像融合模型、方法及装置

Also Published As

Publication number Publication date
CN109902601B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109902601A (zh) 一种结合卷积网络和递归网络的视频目标检测方法
Lee et al. Video prediction recalling long-term motion context via memory alignment learning
CN107358257B (zh) 一种大数据场景下可增量学习的图像分类训练方法
CN109360171A (zh) 一种基于神经网络的视频图像实时去模糊方法
CN112381004B (zh) 一种基于骨架的双流自适应图卷积网络行为识别方法
CN108399435B (zh) 一种基于动静特征的视频分类方法
CN111260738A (zh) 基于相关滤波和自适应特征融合的多尺度目标跟踪方法
CN109886176A (zh) 复杂驾驶场景下的车道线检测方法
CN111611847A (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN111582095B (zh) 一种轻量级行人异常行为快速检测方法
CN107169994A (zh) 基于多特征融合的相关滤波跟踪方法
CN110248048A (zh) 一种视频抖动的检测方法及装置
Hu et al. Spatial-temporal fusion convolutional neural network for simulated driving behavior recognition
CN111222459B (zh) 一种视角无关的视频三维人体姿态识别方法
CN113673560B (zh) 一种基于多流三维自适应图卷积的人体行为识别方法
Wang et al. Multi-branch spatial-temporal network for action recognition
CN109886996B (zh) 一种视觉追踪优化方法
CN116363535A (zh) 基于卷积神经网络的无人机航拍影像中的船舶检测方法
CN110929601A (zh) 基于深度字典学习的人群异常检测方法
Permana et al. Hand movement identification using single-stream spatial convolutional neural networks
Yang et al. Moving-object-aware anomaly detection in surveillance videos
CN113920165A (zh) 一种基于多传感器特征融合的机器人位姿估计方法及系统
CN113658216A (zh) 基于多级自适应kcf的遥感目标跟踪方法及电子设备
Li et al. A multi-scale feature aggregation network based on channel-spatial attention for remote sensing scene classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant