CN110110812A - 一种用于视频动作识别的串流深度网络模型 - Google Patents

一种用于视频动作识别的串流深度网络模型 Download PDF

Info

Publication number
CN110110812A
CN110110812A CN201910418398.3A CN201910418398A CN110110812A CN 110110812 A CN110110812 A CN 110110812A CN 201910418398 A CN201910418398 A CN 201910418398A CN 110110812 A CN110110812 A CN 110110812A
Authority
CN
China
Prior art keywords
flow
model
crossfire
video
light stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910418398.3A
Other languages
English (en)
Other versions
CN110110812B (zh
Inventor
罗会兰
文彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Science and Technology
Original Assignee
Jiangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Science and Technology filed Critical Jiangxi University of Science and Technology
Priority to CN201910418398.3A priority Critical patent/CN110110812B/zh
Publication of CN110110812A publication Critical patent/CN110110812A/zh
Application granted granted Critical
Publication of CN110110812B publication Critical patent/CN110110812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

本发明公开了一种用于视频动作识别的串流深度网络模型,视频中动作识别研究从早期的传统方法到近年来的深度学习方法,深度学习方法中结合空间信息和时间信息的双流方法是当前动作识别领域最主流的方法。本发明基于双流方法进行改进,在空间流上采用迭代交互训练的方式得到一个效果更佳的空间流模型,在时间流上提出一个基于残差网络改进的新型时间特征提取网络,最后联合空间流和时间流各自的分类优势,将训练好的空间流和时间流采用多层分类的方式组成一个整体串流分类模型。该模型方法在UCF101数据集上进行测试,在单个空间流上较原始方法提升了1.21%,在时间流上较原始方法提升了1.42%,在最终模型上较单个的空间流和时间流获得了6%左右的大额提升。

Description

一种用于视频动作识别的串流深度网络模型
技术领域
本发明属于计算机视觉领域,特别涉及一种用于视频动作识别的串流深度网络模型。
背景技术
视频中的动作识别是当前计算机视觉领域一个非常活跃和具有挑战性的研究热点。不同于静止的图像分类,一个视频中的动作识别要考虑的不仅有空间信息还有时间信息。
虽然在现实生活中也可以看到动作识别的一些实际应用,但只停留在一些比较浅显的应用层次上。目前即使是最好的动作识别方法在面临实际复杂场景的时候,其性能也还远远达不到人们的预期效果。早期的动作识别方法是基于手工特征提取的,随着深度学习、卷积神经网络的兴起,同计算机视觉的其他领域一样,动作识别的研究也渐渐从传统方法转向深度学习方法。然而与计算机视觉的其他领域(图像分类,人脸识别,姿态估计)不同的是:目前深度学习方法在动作识别方向的研究并没有取得突破性的进展,其识别效果也只比传统方法稍胜一筹。同时为了取得更高的准确率,动作识别的深度学习方法扩展出更多的视频特征流,然后通过结合多种特征流提高识别准确率,而其中以视频帧为空间信息的空间流和以描述视频帧之间光流信息的光流图片为时间信息的时间流是识别视频动作效果最好的特征流,为此,我们提出一种用于视频动作识别的串流深度网络模型。
发明内容
本发明的主要目的在于提供一种用于视频动作识别的串流深度网络模型,可以有效解决背景技术中的问题。
为实现上述目的,本发明采取的技术方案为:
一种用于视频动作识别的串流深度网络模型,构建串流深度网络模型包括以下步骤:
步骤(1):将视频分成视频帧,计算帧与帧之间的光流信息,生成水平和垂直方向的两种光流图片;
步骤(2):将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型,将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割,然后输入时间流网络进行训练得到时间流网络模型;
步骤(3):将空间流模型作为串流模型的第一层分类器,时间流模型作为串流模型的第二层分类器,如此组成串流深度网络模型;
步骤(4):通过实验设置阈值将两个分类器串联起来,当第一层分类器分类得分大于阈值直接输出分类结果,小于阈值则进入第二层分类器,当第二层分类器得分大于阈值输出分类结果,少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果;
步骤(5):测试阶段,将测试视频分成视频帧,计算光流信息得出光流图片,随机从一个视频中抽取25帧以及25段光流图片集进行测试,对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集,输入串流模型平均得分输出最终的分类结果。
与现有技术相比,本发明具有如下有益效果:本发明对视频动作进行分类识别时,不仅提取空间特征也提取时间特征。不同于以往联合时空特征的并联多流模型,本发明提出以空间流和时间流为基础的串流网络模型,在空间流上采用效果更好的迭代交替训练方式,在时间流上对残差网络进行改进提出一个基于ResNet50改进的cccp-ResNet50网络模型,使其能提取到更加充分的时间特征。然后选择空间流作为第一层的分类模型,时间流作为第二层的分类。在这样一个新的串流网络模型中,通过选择合适的阈值,当第一层的模型分类得分大于阈值时输出分类结果,小于阈值时就进入第二层的模型进行分类,当两个流的分类得分都少于这个阈值时再选择两者的得分进行相加融合输出分类结果。如此,串流深度网络模型的识别系统比其它动作识别系统在单个流上准确率更高,同时大部分情况第一层的分类模型就可以完成分类,相对其他双流或是多流的动作识别系统其效率更高,更具有现实意义,因此其具有重要的实际应用价值。
附图说明
图1为本发明空间流迭代训练网络结构图。
图2为本发明空间流具体训练步骤图。
图3为本发明时间流cccp-ResNet50网络结构图。
图4为本发明时间流cccp层1*1卷积操作示意图。
图5为本发明时间流cccp块网络结构图。
图6为本发明整体串流深度网络模型图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1-6所示,一种用于视频动作识别的串流深度网络模型,串流深度网络模型包括以下步骤:将视频分成视频帧,计算帧与帧之间的光流信息,生成水平和垂直方向的两种光流图片;将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型,将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割,然后输入时间流网络进行训练得到时间流网络模型;将空间流模型作为串流模型的第一层分类器,时间流模型作为串流模型的第二层分类器,如此组成串流深度网络模型;通过实验设置阈值将两个分类器串联起来,当第一层分类器分类得分大于阈值直接输出分类结果,小于阈值则进入第二层分类器,当第二层分类器得分大于阈值输出分类结果,少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果;测试阶段,将测试视频分成视频帧,计算光流信息得出光流图片,随机从一个视频中抽取25帧以及25段光流图片集进行测试,对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集,输入串流模型平均得分输出最终的分类结果。
1.数据预处理
将视频切分成视频帧,每帧图片通过切割翻转进行数据扩增可以生成10张图片,然后作为空间流模型的输入;
计算视频帧之间的光流信息生成水平方向和垂直方向的光流图片,将20张光流图片打包成一组,每组图片再进行切割翻转数据扩增可以生成10组图片,最后以此作为时间流的输入。
2.训练空间流模型
如图1所示,以ResNet50网络为基础构建迭代训练网络结构图;
第一次训练时,固定S2网络(学习率置为0),训练S1网络,此时的损失函数:
loss1=λ*loss_S1+loss_Fuse,
第二次训练的时候,固定S1网络(学习率置为0),训练S2网络,此时的损失函数:
loss2=λ*loss_S2+loss_Fuse,
如此反复迭代训练直至loss1和loss2都趋于稳定。再以训练好的S1
S2网络为基础对整体网络进行微调,完成空间流模型的训练,此时的损失函数:
loss=λ*loss_S1+λ*loss_S2+loss_Fuse。
以上三个损失函数中的λ都取0.3。
如图2所示,在微调分类器部分时,微调训练方式的选择如下。
表1空间流迭代融合阶段不同微调训练方法分类结果比较
从表1中,可以看出在所有微调方法中微调第五层残差块和全连接层的训练方法获得了最好的效果,它比只微调全连接层的训练方法高0.67%,比微调第四、五层残差块和全连接层的训练方法高1.04%,比最原始的ResNet50网络训练方法高1.21%。只微调全连接层可能对交替训练阶段所得互补特征的整合存在欠缺,而微调训练第四、五层残差块和全连接层可能因为微调太多层损失了较多高层语义互补特征,所以效果比只微调全连接层更差。微调第五层残差块和全连接层因为其在互补特征的整合上提供了更多的反馈,获得了最好的效果。所以在最终空间流模型的选取上,本发明选择了只微调第五层残差块和全连接层的空间流训练模型。
3.训练时间流模型
如图3所示,在基础卷积网络ResNet50前加了两个包含cccp层的cccp块。cccp层是卷积核大小为1*1的卷积层,通过对输入的每个通道特征图乘以一个可学习的系数将多通道特征叠加成一张特征图,实现跨通道信息的整合。构建一个更有利于提取时序特征的时间流网络;
以新构建的时间流网络为基础将数据预处理阶段处理好的光流图片组作为输入进行时间流的训练,得到时间流的训练模型。
本发明时间流cccp层卷积核个数的选择。
表2时间流实验结果
从表2的实验结果可以看出,cccp-ResNet50网络随着cccp层卷积核个数的增加,分类测试的准确率也在不断增加,当设定为128个时,整个网络的效果是最好的,较原始ResNet50网络的时间流模型在UCF101数据集第一种划分下精度提升了1.42%。而继续增加到256个时,可能因为模型过于复杂出现了过拟合,效果开始变差。所以在最终时间流模型的选取上,本发明选择设定cccp层卷积核个数为128。
4.组建串流深度网络模型
如图4所示,构建串流深度网络模型,将训练好的空间流模型作为基础分类模型(第一层),时间流模型作为次级分类模型(第二层),通过设置阈值的方法,判断是否存在空间特征模糊情况,然后选择是否进入第二层的时间流分类模型,否则直接根据空间流得分进行最后的动作分类。同样的,视频光流信息输入到时间流时,也根据时间流模型的分类得分进行融合的选择,如果进入时间流的视频分类得分也小于阈值时,表明待分类的这个视频时间特征和空间特征都不明显,这个时候则进入得分融合模型将空间流和时间流的得分进行相加再分类,否则直接根据时间流分类得分进行分类。
构建好串流深度网络模型后,就可以进行实际应用测试,将待分类的视频经过数据预处理阶段得到视频帧或是光流图片组,将之输入搭建好的串流模型进行最终的视频动作分类。
本发明最终模型与其他方法比较。
表3本发明方法与其他先进方法分类结果比较
本发明提出的方法与动作识别领域的其他先进方法的分类效果比较如表4所示,在UCF101数据集上进行测试,单流的逐层融合网络模型和三维卷积网络模型效果最差,双流网络模型也较本发明方法略差,联合三种特征的三流网络模型效果最佳。三流方法除了使用视频帧和光流图片作为输入的空间流和时间流外,还使用了以运动叠加差分图像作为输入的全局时间流,但是本发明提出的方法只使用了空间流和时间流,甚至在有些情况下只使用了单流信息,分类效率较高,本发明较同样使用视频帧和光流图片作为输入的双流网络模型效果更好、测试效率更高。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (1)

1.一种用于视频动作识别的串流深度网络模型,其串流深度网络模型构建包括以下步骤:
步骤(1):将视频分成视频帧,计算帧与帧之间的光流信息,生成水平和垂直方向的两种光流图片;
步骤(2):将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型,将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割,然后输入时间流网络进行训练得到时间流网络模型;
步骤(3):将空间流模型作为串流模型的第一层分类器,时间流模型作为串流模型的第二层分类器,如此组成串流深度网络模型;
步骤(4):通过实验设置阈值将两个分类器串联起来,当第一层分类器分类得分大于阈值直接输出分类结果,小于阈值则进入第二层分类器,当第二层分类器得分大于阈值输出分类结果,少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果;
步骤(5):测试阶段,将测试视频分成视频帧,计算光流信息得出光流图片,随机从一个视频中抽取25帧以及25段光流图片集进行测试,对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集,输入串流模型平均得分输出最终的分类结果。
CN201910418398.3A 2019-05-20 2019-05-20 一种用于视频动作识别的串流深度网络模型构建方法 Active CN110110812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910418398.3A CN110110812B (zh) 2019-05-20 2019-05-20 一种用于视频动作识别的串流深度网络模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910418398.3A CN110110812B (zh) 2019-05-20 2019-05-20 一种用于视频动作识别的串流深度网络模型构建方法

Publications (2)

Publication Number Publication Date
CN110110812A true CN110110812A (zh) 2019-08-09
CN110110812B CN110110812B (zh) 2022-08-19

Family

ID=67491170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910418398.3A Active CN110110812B (zh) 2019-05-20 2019-05-20 一种用于视频动作识别的串流深度网络模型构建方法

Country Status (1)

Country Link
CN (1) CN110110812B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368739A (zh) * 2020-03-05 2020-07-03 东北大学 一种基于双流卷积神经网络的暴力行为识别方法
CN111639571A (zh) * 2020-05-20 2020-09-08 浙江工商大学 基于轮廓卷积神经网络的视频动作识别方法
CN113010735A (zh) * 2019-12-20 2021-06-22 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065326A (zh) * 2012-12-26 2013-04-24 西安理工大学 基于时-空多尺度运动注意力分析的目标检测方法
US20150363644A1 (en) * 2014-06-17 2015-12-17 Nantworks, LLC Activity recognition systems and methods
US20170255832A1 (en) * 2016-03-02 2017-09-07 Mitsubishi Electric Research Laboratories, Inc. Method and System for Detecting Actions in Videos
CN107563345A (zh) * 2017-09-19 2018-01-09 桂林安维科技有限公司 一种基于时空显著性区域检测的人体行为分析方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107862376A (zh) * 2017-10-30 2018-03-30 中山大学 一种基于双流神经网络的人体图像动作识别方法
CN108229280A (zh) * 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
CN108830252A (zh) * 2018-06-26 2018-11-16 哈尔滨工业大学 一种融合全局时空特征的卷积神经网络人体动作识别方法
WO2018210796A1 (en) * 2017-05-15 2018-11-22 Deepmind Technologies Limited Neural network systems for action recognition in videos

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065326A (zh) * 2012-12-26 2013-04-24 西安理工大学 基于时-空多尺度运动注意力分析的目标检测方法
US20150363644A1 (en) * 2014-06-17 2015-12-17 Nantworks, LLC Activity recognition systems and methods
US20170255832A1 (en) * 2016-03-02 2017-09-07 Mitsubishi Electric Research Laboratories, Inc. Method and System for Detecting Actions in Videos
CN108229280A (zh) * 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
WO2018210796A1 (en) * 2017-05-15 2018-11-22 Deepmind Technologies Limited Neural network systems for action recognition in videos
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107563345A (zh) * 2017-09-19 2018-01-09 桂林安维科技有限公司 一种基于时空显著性区域检测的人体行为分析方法
CN107862376A (zh) * 2017-10-30 2018-03-30 中山大学 一种基于双流神经网络的人体图像动作识别方法
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
CN108830252A (zh) * 2018-06-26 2018-11-16 哈尔滨工业大学 一种融合全局时空特征的卷积神经网络人体动作识别方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
FEICHTENHOFER C等: "" Spatiotemporal Multiplier Networks for Video Action Recognition"", 《 COMPUTER VISION AND PATTERN RECOGNITION》 *
FEICHTENHOFER,CHRISTOPH 等: ""Convolutional two-stream network fusion for video action recognition"", 《 IEEE》 *
HOU S 等: ""DualNet: Learn Complementary Features for Image Recognition"", 《INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *
HUILAN LUO等: ""Fusing multiple features and spatial information for image classification via codebook ensemble"", 《INTERNATIONAL JOURNAL OF EMBEDDED SYSTEMS (IJES)》 *
LIN M 等: ""Network In Network"", 《INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS》 *
白栋天 等: ""RGB-D视频中连续动作识别"", 《中国科技论文》 *
罗会兰 等: ""跨层融合与多模型投票的动作识别"", 《电子与信息学报 网络首发 》 *
黄晓晖 等: ""一种基于深度图去噪与时空特征提取的动作识别方法"", 《现代工业经济和信息化》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010735A (zh) * 2019-12-20 2021-06-22 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN113010735B (zh) * 2019-12-20 2024-03-08 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN111368739A (zh) * 2020-03-05 2020-07-03 东北大学 一种基于双流卷积神经网络的暴力行为识别方法
CN111639571A (zh) * 2020-05-20 2020-09-08 浙江工商大学 基于轮廓卷积神经网络的视频动作识别方法
CN111639571B (zh) * 2020-05-20 2023-05-23 浙江工商大学 基于轮廓卷积神经网络的视频动作识别方法

Also Published As

Publication number Publication date
CN110110812B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
Tran et al. Two-stream flow-guided convolutional attention networks for action recognition
De Geest et al. Modeling temporal structure with lstm for online action detection
Wang et al. Actions~ transformations
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
CN109614979A (zh) 一种基于选择与生成的数据增广方法及图像分类方法
CN106650655A (zh) 一种基于卷积神经网络的动作检测模型
CN109543745A (zh) 基于条件对抗自编码网络的特征学习方法及图像识别方法
CN110276765A (zh) 基于多任务学习深度神经网络的图像全景分割方法
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN107679465A (zh) 一种基于生成网络的行人重识别数据生成和扩充方法
CN108921058A (zh) 基于深度学习的鱼类识别方法、介质、终端设备及装置
CN107463920A (zh) 一种消除局部遮挡物影响的人脸识别方法
CN107463892A (zh) 一种结合上下文信息和多级特征的图像中行人检测方法
CN110110812A (zh) 一种用于视频动作识别的串流深度网络模型
CN106203363A (zh) 人体骨架运动序列行为识别方法
JP2020126624A (ja) ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法
CN110889375B (zh) 用于行为识别的隐双流协作学习网络及方法
CN107590442A (zh) 一种基于卷积神经网络的视频语义场景分割方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN108734169A (zh) 一种基于全卷积网络改进的场景文本提取方法
CN112906631B (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
CN111582230A (zh) 基于空时特征的视频行为分类方法
CN110263215A (zh) 一种视频情感定位方法及系统
CN107180241A (zh) 一种基于Gabor特征具有分形结构的极深神经网络的动物分类方法
Park et al. Binary dense sift flow based two stream CNN for human action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant