CN109858407B - 一种基于多种信息流特征和异步融合的视频行为识别方法 - Google Patents
一种基于多种信息流特征和异步融合的视频行为识别方法 Download PDFInfo
- Publication number
- CN109858407B CN109858407B CN201910043963.2A CN201910043963A CN109858407B CN 109858407 B CN109858407 B CN 109858407B CN 201910043963 A CN201910043963 A CN 201910043963A CN 109858407 B CN109858407 B CN 109858407B
- Authority
- CN
- China
- Prior art keywords
- video
- action
- stream
- lstm
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000004927 fusion Effects 0.000 title claims abstract description 13
- 230000009471 action Effects 0.000 claims abstract description 68
- 230000006399 behavior Effects 0.000 claims abstract description 23
- 238000007670 refining Methods 0.000 claims abstract description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 235000019580 granularity Nutrition 0.000 claims description 23
- 239000010410 layer Substances 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 230000010354 integration Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
一种基于多种信息流特征和异步融合的视频行为识别方法,通提取外观流、动作流与关节点信息流三种不同的视频信息流;利用粗到细网络对三种信息流分别进行特征提取和特征细化;提取后的特征利用五单元LSTM进行异步融合;通过本发明,用户可以以较高的准确率来识别视频中的行为,另一方面,本发明提出的识别方法也可以结合行为识别的其他领域,为基于视频的人体行为识别方面提供帮助。
Description
技术领域
本发明属于视频信息处理技术领域,具体涉及一种基于多种信息流特征和异步融合的视频行为识别方法。
背景技术
行为识别技术一直是计算机视觉领域的研究热点,它在智能监控、人机交互、视频序列理解、医疗健康等众多领域扮演着越来越重要的角色。尽管近几年国内外在基于视频的人体行为识别方面已经取得了重大进展,但由于而视频中的行为识别技术受到遮挡,动态背景,移动摄像头,视角和光照变化等因素的影响而具有很大的挑战性。
目前行为识别的方法主要分为传统方法和深度学习算法两种。随着大规模数据量的出现,传统算法已经很难完成大量视频行为识别的要求,深度学习方法成为近几年视频行为识别的热门方法。深度学习是机器学习领域的重点研究问题,它模拟人脑认知机制的多层次模型结构,通过组合低层特征形成更为抽象的高层特征来获得数据更有效的特征表示,相比于传统的人工提取特征更适合目标的检测和识别。
卷积神经网络是深度学习模型的典型代表,应用最为广泛,已经成为目前图像识别和语音分析等领域的一个应用热点。在人体行为识别方面,基于卷积神经网络的研究也有很多新进展。但是由于视频数据的高度复杂性,目前的行为识别研究仍存在许多问题。许多研究主要侧重于学习特征,主要描述动作的单个类,忽略了动作类内部的巨大变化和联系;其次许多动作在不同的信息流中存在异步性,而目前多数研究仅仅是将同一个时间节点的不同信息流简单地融合再一起,忽略了同一个动作的不同信息流在不同时间节点的异步性,那么在不同时间出现的指示性模式就不能得到充分利用,性能就会受到限制。影响了行为识别的准确率。
发明内容
为了克服上述现有技术的不足,本发明的目的是提供一种基于多种信息流特征和异步融合的视频行为识别方法,采用用视频数据的外观流和动作流代替传统的双流模型中的时间流和空间流,并结合关节点信息流,形成多特征信息流,并利用卷积神经网络进行特征提取、细化及融合,最终形成一种准确率高的视频行为识别方法。
为了实现上述目的,本发明采用的技术方案是:
一种基于多种信息流特征和异步融合的视频行为识别方法,其特征在于,包括以下步骤:
1)对视频数据进行信息流提取,分别提取出视频外观流、视频动作流和人体关节点信息流三种信息流;
a、在各个数据集分别提取外观流、动作流与关节点信息流;
b、外观流即视频原始图像帧,通过OpenCV工具将视频进行分帧处理,得到视频的图像帧;
c、动作流即视频中人物的光流信息,通过denseflow提取到视频的光流的灰度图像;
d、关节点信息流即视频中人物的关节点信息,通过openpose姿态提取库提取到视频中人物的关节点信息,得到包含18个关节点的坐标位置序列;
2)利用粗到细网络对三种信息流分别进行特征提取和特征细化;
a、将提取出的视频外观流信息输入到VGG-16网络中,从VGG-16ConvNet的第3、4和5级的最后一个卷积层得到侧输出图。然后将来自不同阶段的侧输出图切片并连接成三个特定于比例的侧图组,其中每个侧图组对应于一个动作类粒度,为了确保来自不同阶段的输出映射具有相同的大小,在映射连接之前将上采样层应用于侧输出映射。最后,将尺度特定的侧图组分别输入到完全连接的(FC)层,以获得三个动作类粒度的特征,实现从VGG-16卷积神经网络中获得外观流的三个动作类粒度的特征来描述动作;
b、使用CNN M 2048卷积神经网络预测输入视频外观信息流的动作类标签,然后使用预测结果中的前5个,前3个和前1个动作类来形成动作类组,分别在三个动作类粒度中,形成的动作类标签用于通过交叉熵损失引导特征提取过程,其迫使特征提取模块创建共享特征,用多个粒度描述构造的动作类组,公式如下:
其中,W是多粒度特征提取模块的参数集。N是动作类的总数。Gk是第k个动作类粒度的构造动作类组,而αk是衡量第k个动作类粒度的相对重要性的权重,是第k个动作类粒度的特征预测的第n个动作类的概率;
c、长短期记忆LSTM网络能够进行网络整合,因为它有效地融合了连续输入。利用具有三个单元的LSTM模型进行粗到细的整合,其中每个单元从一个动作类粒度中获取特征xt并创建隐藏状态输出以影响下一个单元,最后一个单元的隐藏状态输出将是外观信息流的最终集成功能,过程如下式:
其中,xt和ht(t=1,2,3)是第t个LSTM单元的输入特征和隐藏状态结果。Φt={Mt,bt}是第t个单位的参数集,是第t个单位创建隐藏状态输出的操作;
d、在训练阶段照损失函数训练LSTM模型,使得损失最小,确定粗到细网络的最终参数见下式:
其中Φ1,Φ2,Φ3是LSTM中三个单元的参数集,β是衡量LSTM模型相对重要性的权重,ng是输入样本的基本事件动作类标签,N是动作类的总数.是来自第t个单元的groundtruth类的预测概率;
3)以同样的方式对视频运动流和关节点流进行(2)-(4)的处理,利用卷积神经网络融合来自不同流的特征,将它们视为三个1维特征映射,并应用单层ConvNet与1×1内核来创建融合输出,在获得具有不同时间间隔的流式融合结果之后,异步集成模块将顺序地集成它们并为输入特征的周期创建动作预测结果;利用具有五个单元的LSTM进行积分,通过以下方式训练整个异步融合网络:
其中,N是动作类的总数,ng是输入视频的真实类标签。T是LSTM单元和1层ConvNets的总数,其值等于5,Φt和Kt分别是第t个LSTM单元和第t个1层ConvNet的参数集,ΨA={Φ1,...,ΦT,Kl,...,KT}和γ分别是整个异步融合网络的参数集和权重。是来自第t个LSTM单元的ground-truth类的预测概率。
本发明的有益效果是:
1、用户可以以较高的准确率来识别视频中的行为,高准确率能使用户识别后的工作达到更好的效果。
2、本发明提出的识别方法也可以为研究视频行为识别提供一定的思路。
3、同时本发明也能结合其他需要用到行为识别的领域,比如监控视频、互联网的视频检索处理、人机交互等非常多领域产生新应用。
附图说明
图1为本发明的系统结构示意图;
图2为本发明的粗到细网络结构示意图;
图3为异步融合网络结构示意图。
具体实施方式
以下结合附图对本发明进一步叙述,但本发明不局限以下实施例。
如图1所示系统,实现步骤如下:
步骤1:对原始视频数据进行信息流提取,具体包括以下步骤:
a、在本实施例中采用两种不同类型的数据集:UCF101数据集和HMDB51数据集。UCF101数据集是通常用于动作识别的数据集。它包含101个动作类中的13320个视频片段。HMDB51数据集是一系列逼真的视频,包含51个动作类中的6766个视频片段。
b、提取信息流:在各个数据集分别提取外观流、动作流与关节点信息流。外观流即视频原始图像帧,通过OpenCV工具将视频进行分帧处理,得到视频的图像帧;动作流即视频中人物的光流信息,通过denseflow提取到视频的光流的灰度图像;关节点信息流即视频中人物的关节点信息,通过openpose姿态提取库提取到视频中人物的关节点信息,得到包含18个关节点的坐标位置序列;
如图2所示,步骤2:将提取出的视频外观流信息输入到VGG-16网络中,从VGG-16ConvNet的第3、4和5级的最后一个卷积层得到侧输出图。然后将来自不同阶段的侧输出图切片并连接成三个特定于比例的侧图组,其中每个侧图组对应于一个动作类粒度。为了确保来自不同阶段的输出映射具有相同的大小,在映射连接之前将上采样层应用于侧输出映射。最后,将尺度特定的侧图组分别输入到完全连接的(FC)层,以获得三个动作类粒度的特征。
步骤3:使用CNN M 2048 ConvNet预测外观流的动作类标签,然后使用预测结果中的前5个,前3个和前1个动作类来形成动作类组,分别对应于三个动作类粒度。形成的动作类标签用于通过交叉熵损失引导特征提取过程,其迫使特征提取模块创建共享特征。
步骤4:在从多个动作类粒度获得特征之后,利用长期短期记忆(LSTM)网络进行粗到细的整合。具体来说,利用具有三个单元的LSTM模型,其中每个单元从一个动作类粒度中获取特征xt并创建隐藏状态输出以影响下一个单元。最后一个单元的隐藏状态输出将是输入外观流的最终集成功能。
步骤5:按照损失函数训练LSTM模型,使得损失最小,确定粗到细网络的最终参数。
步骤6:由于输入要素只是一维向量,只需将它们视为三个1维特征映射,并应用单层ConvNet与1×1内核来创建融合输出。首先将一个流中的输入特征与另外两个流的5个输入特征融合在一起。因此,使用五个1层的ConvNets来实现流式特征。此外,要融合的五个输入特征也具有彼此的Δ(Δ=5)个时间间隔,这样能够捕获流之间的长期同步模式。
如图3所示,步骤7:利用五单元LSTM进行积分,因为它具有良好的整合顺序输入的能力。
步骤8:按照损失函数训练异步融合网络,使得损失最小,确定异步融合网络的最终参数。
步骤9:最后使用该模型进行预测,分类器的输出结果即为最后的行为识别结果。
Claims (1)
1.一种基于多种信息流特征和异步融合的视频行为识别方法,其特征在于,包括以下步骤:
1)对视频数据进行信息流提取,分别提取出视频外观流、视频动作流和人体关节点信息流三种信息流;
a、在各个数据集分别提取外观流、动作流与关节点信息流;
b、外观流即视频原始图像帧,通过OpenCV工具将视频进行分帧处理,得到视频的图像帧;
c、动作流即视频中人物的光流信息,通过denseflow提取到视频的光流的灰度图像;
d、关节点信息流即视频中人物的关节点信息,通过openpose姿态提取库提取到视频中人物的关节点信息,得到包含18个关节点的坐标位置序列;
2)利用粗到细网络对三种信息流分别进行特征提取和特征细化;
a、将提取出的视频外观流信息输入到VGG-16网络中,从VGG-16 ConvNet的第3、4和5级的最后一个卷积层得到侧输出图;然后将来自不同阶段的侧输出图切片并连接成三个特定于比例的侧图组,其中每个侧图组对应于一个动作类粒度,为了确保来自不同阶段的输出映射具有相同的大小,在映射连接之前将上采样层应用于侧输出映射;最后,将尺度特定的侧图组分别输入到完全连接的(FC)层,以获得三个动作类粒度的特征,实现从VGG-16卷积神经网络中获得外观流的三个动作类粒度的特征来描述动作;
b、使用CNN M 2048卷积神经网络预测输入视频外观信息流的动作类标签,然后使用预测结果中的前5个,前3个和前1个动作类来形成动作类组,分别在三个动作类粒度中,形成的动作类标签用于通过交叉熵损失引导特征提取过程,其迫使特征提取模块创建共享特征,用多个粒度描述构造的动作类组,公式如下:
其中,W是多粒度特征提取模块的参数集;N是动作类的总数;Gk是第k个动作类粒度的构造动作类组,而αk是衡量第k个动作类粒度的相对重要性的权重,是第k个动作类粒度的特征预测的第n个动作类的概率;
c、长短期记忆LSTM网络能够进行网络整合,因为它有效地融合了连续输入,利用具有三个单元的LSTM模型进行粗到细的整合,其中每个单元从一个动作类粒度中获取特征xt并创建隐藏状态输出以影响下一个单元,最后一个单元的隐藏状态输出将是外观信息流的最终集成功能,过程如下式:
其中,xt和ht(t=1,2,3)是第t个LSTM单元的输入特征和隐藏状态结果;Φt={Mt,bt}是第t个单位的参数集,是第t个单位创建隐藏状态输出的操作;
d、在训练阶段照损失函数训练LSTM模型,使得损失最小,确定粗到细网络的最终参数见下式:
其中Φ1,Φ2,Φ3是LSTM中三个单元的参数集,β是衡量LSTM模型相对重要性的权重,ng是输入样本的基本事件动作类标签,N是动作类的总数.是来自第t个单元的groundtruth类的预测概率;
3)以同样的方式对视频运动流和关节点流进行(2)-(4)的处理,利用卷积神经网络融合来自不同流的特征,将它们视为三个1维特征映射,并应用单层ConvNet与1×1内核来创建融合输出,在获得具有不同时间间隔的流式融合结果之后,异步集成模块将顺序地集成它们并为输入特征的周期创建动作预测结果;利用三个单元的LSTM进行积分,通过以下方式训练整个异步融合网络:
其中,N是动作类的总数,ng是输入视频的真实类标签;T是LSTM单元和1层ConvNets的总数,其值等于5,Φt和Kt分别是第t个LSTM单元和第t个1层ConvNet的参数集,ΨA={Φ1,...,ΦT,K1,...,KT}和γ分别是整个异步融合网络的参数集和权重;是来自第t个LSTM单元的ground-truth类的预测概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910043963.2A CN109858407B (zh) | 2019-01-17 | 2019-01-17 | 一种基于多种信息流特征和异步融合的视频行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910043963.2A CN109858407B (zh) | 2019-01-17 | 2019-01-17 | 一种基于多种信息流特征和异步融合的视频行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109858407A CN109858407A (zh) | 2019-06-07 |
CN109858407B true CN109858407B (zh) | 2023-11-10 |
Family
ID=66894989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910043963.2A Active CN109858407B (zh) | 2019-01-17 | 2019-01-17 | 一种基于多种信息流特征和异步融合的视频行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109858407B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222665B (zh) * | 2019-06-14 | 2023-02-24 | 电子科技大学 | 一种基于深度学习和姿态估计的监控中人体动作识别方法 |
CN110349180B (zh) * | 2019-07-17 | 2022-04-08 | 达闼机器人有限公司 | 人体关节点预测方法及装置、动作类型识别方法及装置 |
CN110458046B (zh) * | 2019-07-23 | 2020-11-24 | 南京邮电大学 | 一种基于关节点提取的人体运动轨迹分析方法 |
CN111079594B (zh) * | 2019-12-04 | 2023-06-06 | 成都考拉悠然科技有限公司 | 一种基于双流协同网络的视频动作分类识别方法 |
CN111325336B (zh) * | 2020-01-21 | 2022-10-14 | 浙江大学 | 一种基于强化学习的规则提取方法及应用 |
CN113269054B (zh) * | 2021-04-30 | 2022-06-10 | 重庆邮电大学 | 一种基于时空2d卷积神经网络的航拍视频分析方法 |
CN114120077B (zh) * | 2022-01-27 | 2022-05-03 | 山东融瓴科技集团有限公司 | 一种基于无人机航拍大数据下的防控风险预警方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709461A (zh) * | 2016-12-28 | 2017-05-24 | 中国科学院深圳先进技术研究院 | 基于视频的行为识别方法及装置 |
CN108280443A (zh) * | 2018-02-23 | 2018-07-13 | 深圳市唯特视科技有限公司 | 一种基于深特征提取异步融合网络的动作识别方法 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9805255B2 (en) * | 2016-01-29 | 2017-10-31 | Conduent Business Services, Llc | Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action |
-
2019
- 2019-01-17 CN CN201910043963.2A patent/CN109858407B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709461A (zh) * | 2016-12-28 | 2017-05-24 | 中国科学院深圳先进技术研究院 | 基于视频的行为识别方法及装置 |
CN108280443A (zh) * | 2018-02-23 | 2018-07-13 | 深圳市唯特视科技有限公司 | 一种基于深特征提取异步融合网络的动作识别方法 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
Non-Patent Citations (1)
Title |
---|
张怡佳 ; 茅耀斌 ; .基于双流卷积神经网络的改进人体行为识别算法.计算机测量与控制.2018,(08),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN109858407A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858407B (zh) | 一种基于多种信息流特征和异步融合的视频行为识别方法 | |
Song et al. | Pyramid dilated deeper convlstm for video salient object detection | |
CN108229338B (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
Xu et al. | Learning deep structured multi-scale features using attention-gated crfs for contour prediction | |
CN111079646A (zh) | 基于深度学习的弱监督视频时序动作定位的方法及系统 | |
CN107784293A (zh) | 一种基于全局特征和稀疏表示分类的人体行为识别方法 | |
CN108399435B (zh) | 一种基于动静特征的视频分类方法 | |
CN113673510B (zh) | 一种结合特征点和锚框共同预测和回归的目标检测方法 | |
Wu et al. | Graph2Net: Perceptually-enriched graph learning for skeleton-based action recognition | |
JP7292657B2 (ja) | データ処理方法、データ処理装置、コンピュータプログラム及び電子装置 | |
CN108921032B (zh) | 一种新的基于深度学习模型的视频语义提取方法 | |
Degadwala et al. | Image captioning using inception V3 transfer learning model | |
Ma et al. | WALKING WALKing walking: Action Recognition from Action Echoes. | |
Sun et al. | Context-aware cascade attention-based RNN for video emotion recognition | |
Tang et al. | Selective spatiotemporal features learning for dynamic gesture recognition | |
Su et al. | Progressive cross-stream cooperation in spatial and temporal domain for action localization | |
Sun et al. | 3-D Facial Feature Reconstruction and Learning Network for Facial Expression Recognition in the Wild | |
CN111401116A (zh) | 基于增强卷积和空时lstm网络的双模态情感识别方法 | |
Nguyen et al. | Learning recurrent high-order statistics for skeleton-based hand gesture recognition | |
Yuan et al. | CTIF-Net: A CNN-Transformer Iterative Fusion Network for Salient Object Detection | |
Liu et al. | Multi-scale based context-aware net for action detection | |
Uddin et al. | Dynamic facial expression understanding using deep spatiotemporal LDSP on spark | |
Li et al. | Holoparser: Holistic visual parsing for real-time semantic segmentation in autonomous driving | |
Ramalingam et al. | A deep hybrid model for human-computer interaction using dynamic hand gesture recognition | |
CN116311455A (zh) | 一种基于改进Mobile-former的表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |