CN109858407A - 一种基于多种信息流特征和异步融合的视频行为识别方法 - Google Patents

一种基于多种信息流特征和异步融合的视频行为识别方法 Download PDF

Info

Publication number
CN109858407A
CN109858407A CN201910043963.2A CN201910043963A CN109858407A CN 109858407 A CN109858407 A CN 109858407A CN 201910043963 A CN201910043963 A CN 201910043963A CN 109858407 A CN109858407 A CN 109858407A
Authority
CN
China
Prior art keywords
video
feature
class
stream
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910043963.2A
Other languages
English (en)
Other versions
CN109858407B (zh
Inventor
高岭
赵悦蓉
何丹
郭红波
王海
郑杰
张侃
郑勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN201910043963.2A priority Critical patent/CN109858407B/zh
Publication of CN109858407A publication Critical patent/CN109858407A/zh
Application granted granted Critical
Publication of CN109858407B publication Critical patent/CN109858407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

一种基于多种信息流特征和异步融合的视频行为识别方法,通提取外观流、动作流与关节点信息流三种不同的视频信息流;利用粗到细网络对三种信息流分别进行特征提取和特征细化;提取后的特征利用五单元LSTM进行异步融合;通过本发明,用户可以以较高的准确率来识别视频中的行为,另一方面,本发明提出的识别方法也可以结合行为识别的其他领域,为基于视频的人体行为识别方面提供帮助。

Description

一种基于多种信息流特征和异步融合的视频行为识别方法
技术领域
本发明属于视频信息处理技术领域,具体涉及一种基于多种信息流特征和异步融合的视频行为识别方法。
背景技术
行为识别技术一直是计算机视觉领域的研究热点,它在智能监控、人机交互、视频序列理解、医疗健康等众多领域扮演着越来越重要的角色。尽管近几年国内外在基于视频的人体行为识别方面已经取得了重大进展,但由于而视频中的行为识别技术受到遮挡,动态背景,移动摄像头,视角和光照变化等因素的影响而具有很大的挑战性。
目前行为识别的方法主要分为传统方法和深度学习算法两种。随着大规模数据量的出现,传统算法已经很难完成大量视频行为识别的要求,深度学习方法成为近几年视频行为识别的热门方法。深度学习是机器学习领域的重点研究问题,它模拟人脑认知机制的多层次模型结构,通过组合低层特征形成更为抽象的高层特征来获得数据更有效的特征表示,相比于传统的人工提取特征更适合目标的检测和识别。
卷积神经网络是深度学习模型的典型代表,应用最为广泛,已经成为目前图像识别和语音分析等领域的一个应用热点。在人体行为识别方面,基于卷积神经网络的研究也有很多新进展。但是由于视频数据的高度复杂性,目前的行为识别研究仍存在许多问题。许多研究主要侧重于学习特征,主要描述动作的单个类,忽略了动作类内部的巨大变化和联系;其次许多动作在不同的信息流中存在异步性,而目前多数研究仅仅是将同一个时间节点的不同信息流简单地融合再一起,忽略了同一个动作的不同信息流在不同时间节点的异步性,那么在不同时间出现的指示性模式就不能得到充分利用,性能就会受到限制。影响了行为识别的准确率。
发明内容
为了克服上述现有技术的不足,本发明的目的是提供一种基于多种信息流特征和异步融合的视频行为识别方法,采用用视频数据的外观流和动作流代替传统的双流模型中的时间流和空间流,并结合关节点信息流,形成多特征信息流,并利用卷积神经网络进行特征提取、细化及融合,最终形成一种准确率高的视频行为识别方法。
为了实现上述目的,本发明采用的技术方案是:
一种基于多种信息流特征和异步融合的视频行为识别方法,其特征在于,包括以下步骤:
1)对视频数据进行信息流提取,分别提取出视频外观流、视频动作流和人体关节点信息流三种信息流;
a、在各个数据集分别提取外观流、动作流与关节点信息流;
b、外观流即视频原始图像帧,通过OpenCV工具将视频进行分帧处理,得到视频的图像帧;
c、动作流即视频中人物的光流信息,通过denseflow提取到视频的光流的灰度图像;
d、关节点信息流即视频中人物的关节点信息,通过openpose姿态提取库提取到视频中人物的关节点信息,得到包含18个关节点的坐标位置序列;
2)利用粗到细网络对三种信息流分别进行特征提取和特征细化;
a、将提取出的视频外观流信息输入到VGG-16网络中,从VGG-16ConvNet的第3、4和5级的最后一个卷积层得到侧输出图。然后将来自不同阶段的侧输出图切片并连接成三个特定于比例的侧图组,其中每个侧图组对应于一个动作类粒度,为了确保来自不同阶段的输出映射具有相同的大小,在映射连接之前将上采样层应用于侧输出映射。最后,将尺度特定的侧图组分别输入到完全连接的(FC)层,以获得三个动作类粒度的特征,实现从VGG-16卷积神经网络中获得外观流的三个动作类粒度的特征来描述动作;
b、使用CNN M 2048卷积神经网络预测输入视频外观信息流的动作类标签,然后使用预测结果中的前5个,前3个和前1个动作类来形成动作类组,分别在三个动作类粒度中,形成的动作类标签用于通过交叉熵损失引导特征提取过程,其迫使特征提取模块创建共享特征,用多个粒度描述构造的动作类组,公式如下:
其中,W是多粒度特征提取模块的参数集。N是动作类的总数。Gk是第k个动作类粒度的构造动作类组,而αk是衡量第k个动作类粒度的相对重要性的权重,是第k个动作类粒度的特征预测的第n个动作类的概率;
c、长短期记忆LSTM网络能够进行网络整合,因为它有效地融合了连续输入。利用具有三个单元的LSTM模型进行粗到细的整合,其中每个单元从一个动作类粒度中获取特征xt并创建隐藏状态输出以影响下一个单元,最后一个单元的隐藏状态输出将是外观信息流的最终集成功能,过程如下式:
其中,xt和ht(t=1,2,3)是第t个LSTM单元的输入特征和隐藏状态结果。Φt={Mt,bt}是第t个单位的参数集,是第t个单位创建隐藏状态输出的操作;
d、在训练阶段照损失函数训练LSTM模型,使得损失最小,确定粗到细网络的最终参数见下式:
其中Φ1,Φ2,Φ3是LSTM中三个单元的参数集,β是衡量LSTM模型相对重要性的权重,ng是输入样本的基本事件动作类标签,N是动作类的总数.是来自第t个单元的groundtruth类的预测概率;
3)以同样的方式对视频运动流和关节点流进行(2)-(4)的处理,利用卷积神经网络融合来自不同流的特征,将它们视为三个1维特征映射,并应用单层ConvNet与1×1内核来创建融合输出,在获得具有不同时间间隔的流式融合结果之后,异步集成模块将顺序地集成它们并为输入特征的周期创建动作预测结果;利用具有五个单元的LSTM进行积分,通过以下方式训练整个异步融合网络:
其中,N是动作类的总数,ng是输入视频的真实类标签。T是LSTM单元和1层ConvNets的总数,其值等于5,Φt和Kt分别是第t个LSTM单元和第t个1层ConvNet的参数集,ΨA={Φ1,...,ΦT,Kl,...,KT}和γ分别是整个异步融合网络的参数集和权重。是来自第t个LSTM单元的ground-truth类的预测概率。
本发明的有益效果是:
1、用户可以以较高的准确率来识别视频中的行为,高准确率能使用户识别后的工作达到更好的效果。
2、本发明提出的识别方法也可以为研究视频行为识别提供一定的思路。
3、同时本发明也能结合其他需要用到行为识别的领域,比如监控视频、互联网的视频检索处理、人机交互等非常多领域产生新应用。
附图说明
图1为本发明的系统结构示意图;
图2为本发明的粗到细网络结构示意图;
图3为异步融合网络结构示意图。
具体实施方式
以下结合附图对本发明进一步叙述,但本发明不局限以下实施例。
如图1所示系统,实现步骤如下:
步骤1:对原始视频数据进行信息流提取,具体包括以下步骤:
a、在本实施例中采用两种不同类型的数据集:UCF101数据集和HMDB51数据集。UCF101数据集是通常用于动作识别的数据集。它包含101个动作类中的13320个视频片段。HMDB51数据集是一系列逼真的视频,包含51个动作类中的6766个视频片段。
b、提取信息流:在各个数据集分别提取外观流、动作流与关节点信息流。外观流即视频原始图像帧,通过OpenCV工具将视频进行分帧处理,得到视频的图像帧;动作流即视频中人物的光流信息,通过denseflow提取到视频的光流的灰度图像;关节点信息流即视频中人物的关节点信息,通过openpose姿态提取库提取到视频中人物的关节点信息,得到包含18个关节点的坐标位置序列;
如图2所示,步骤2:将提取出的视频外观流信息输入到VGG-16网络中,从VGG-16ConvNet的第3、4和5级的最后一个卷积层得到侧输出图。然后将来自不同阶段的侧输出图切片并连接成三个特定于比例的侧图组,其中每个侧图组对应于一个动作类粒度。为了确保来自不同阶段的输出映射具有相同的大小,在映射连接之前将上采样层应用于侧输出映射。最后,将尺度特定的侧图组分别输入到完全连接的(FC)层,以获得三个动作类粒度的特征。
步骤3:使用CNN M 2048 ConvNet预测外观流的动作类标签,然后使用预测结果中的前5个,前3个和前1个动作类来形成动作类组,分别对应于三个动作类粒度。形成的动作类标签用于通过交叉熵损失引导特征提取过程,其迫使特征提取模块创建共享特征。
步骤4:在从多个动作类粒度获得特征之后,利用长期短期记忆(LSTM)网络进行粗到细的整合。具体来说,利用具有三个单元的LSTM模型,其中每个单元从一个动作类粒度中获取特征xt并创建隐藏状态输出以影响下一个单元。最后一个单元的隐藏状态输出将是输入外观流的最终集成功能。
步骤5:按照损失函数训练LSTM模型,使得损失最小,确定粗到细网络的最终参数。
步骤6:由于输入要素只是一维向量,只需将它们视为三个1维特征映射,并应用单层ConvNet与1×1内核来创建融合输出。首先将一个流中的输入特征与另外两个流的5个输入特征融合在一起。因此,使用五个1层的ConvNets来实现流式特征。此外,要融合的五个输入特征也具有彼此的Δ(Δ=5)个时间间隔,这样能够捕获流之间的长期同步模式。
如图3所示,步骤7:利用五单元LSTM进行积分,因为它具有良好的整合顺序输入的能力。
步骤8:按照损失函数训练异步融合网络,使得损失最小,确定异步融合网络的最终参数。
步骤9:最后使用该模型进行预测,分类器的输出结果即为最后的行为识别结果。

Claims (1)

1.一种基于多种信息流特征和异步融合的视频行为识别方法,其特征在于,包括以下步骤:
1)对视频数据进行信息流提取,分别提取出视频外观流、视频动作流和人体关节点信息流三种信息流;
a、在各个数据集分别提取外观流、动作流与关节点信息流;
b、外观流即视频原始图像帧,通过OpenCV工具将视频进行分帧处理,得到视频的图像帧;
c、动作流即视频中人物的光流信息,通过denseflow提取到视频的光流的灰度图像;
d、关节点信息流即视频中人物的关节点信息,通过openpose姿态提取库提取到视频中人物的关节点信息,得到包含18个关节点的坐标位置序列;
2)利用粗到细网络对三种信息流分别进行特征提取和特征细化;
a、将提取出的视频外观流信息输入到VGG-16网络中,从VGG-16 ConvNet的第3、4和5级的最后一个卷积层得到侧输出图。然后将来自不同阶段的侧输出图切片并连接成三个特定于比例的侧图组,其中每个侧图组对应于一个动作类粒度,为了确保来自不同阶段的输出映射具有相同的大小,在映射连接之前将上采样层应用于侧输出映射。最后,将尺度特定的侧图组分别输入到完全连接的(FC)层,以获得三个动作类粒度的特征,实现从VGG-16卷积神经网络中获得外观流的三个动作类粒度的特征来描述动作;
b、使用CNN M 2048卷积神经网络预测输入视频外观信息流的动作类标签,然后使用预测结果中的前5个,前3个和前1个动作类来形成动作类组,分别在三个动作类粒度中,形成的动作类标签用于通过交叉熵损失引导特征提取过程,其迫使特征提取模块创建共享特征,用多个粒度描述构造的动作类组,公式如下:
其中,W是多粒度特征提取模块的参数集。N是动作类的总数。Gk是第k个动作类粒度的构造动作类组,而αk是衡量第k个动作类粒度的相对重要性的权重,是第k个动作类粒度的特征预测的第n个动作类的概率;
c、长短期记忆LSTM网络能够进行网络整合,因为它有效地融合了连续输入,利用具有三个单元的LSTM模型进行粗到细的整合,其中每个单元从一个动作类粒度中获取特征xt并创建隐藏状态输出以影响下一个单元,最后一个单元的隐藏状态输出将是外观信息流的最终集成功能,过程如下式:
其中,xt和ht(t=1,2,3)是第t个LSTM单元的输入特征和隐藏状态结果。Φt={Mt,bt}是第t个单位的参数集,是第t个单位创建隐藏状态输出的操作;
d、在训练阶段照损失函数训练LSTM模型,使得损失最小,确定粗到细网络的最终参数见下式:
其中Φ1,Φ2,Φ3是LSTM中三个单元的参数集,β是衡量LSTM模型相对重要性的权重,ng是输入样本的基本事件动作类标签,N是动作类的总数.是来自第t个单元的groundtruth类的预测概率;
3)以同样的方式对视频运动流和关节点流进行(2)-(4)的处理,利用卷积神经网络融合来自不同流的特征,将它们视为三个1维特征映射,并应用单层ConvNet与1×1内核来创建融合输出,在获得具有不同时间间隔的流式融合结果之后,异步集成模块将顺序地集成它们并为输入特征的周期创建动作预测结果;利用三个单元的LSTM进行积分,通过以下方式训练整个异步融合网络:
其中,N是动作类的总数,ng是输入视频的真实类标签。T是LSTM单元和1层ConvNets的总数,其值等于5,Φt和Kt分别是第t个LSTM单元和第t个1层ConvNet的参数集,ΨA={Φ1,...,ΦT,K1,...,KT}和γ分别是整个异步融合网络的参数集和权重。是来自第t个LSTM单元的ground-truth类的预测概率。
CN201910043963.2A 2019-01-17 2019-01-17 一种基于多种信息流特征和异步融合的视频行为识别方法 Active CN109858407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910043963.2A CN109858407B (zh) 2019-01-17 2019-01-17 一种基于多种信息流特征和异步融合的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910043963.2A CN109858407B (zh) 2019-01-17 2019-01-17 一种基于多种信息流特征和异步融合的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN109858407A true CN109858407A (zh) 2019-06-07
CN109858407B CN109858407B (zh) 2023-11-10

Family

ID=66894989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910043963.2A Active CN109858407B (zh) 2019-01-17 2019-01-17 一种基于多种信息流特征和异步融合的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN109858407B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222665A (zh) * 2019-06-14 2019-09-10 电子科技大学 一种基于深度学习和姿态估计的监控中人体动作识别方法
CN110349180A (zh) * 2019-07-17 2019-10-18 深圳前海达闼云端智能科技有限公司 人体关节点预测方法及装置、动作类型识别方法及装置
CN110458046A (zh) * 2019-07-23 2019-11-15 南京邮电大学 一种基于关节点提取的人体运动轨迹分析方法
CN111079594A (zh) * 2019-12-04 2020-04-28 成都考拉悠然科技有限公司 一种基于双流协同网络的视频动作分类识别方法
CN111325336A (zh) * 2020-01-21 2020-06-23 浙江大学 一种基于强化学习的规则提取方法及应用
CN113269054A (zh) * 2021-04-30 2021-08-17 重庆邮电大学 一种基于时空2d卷积神经网络的航拍视频分析方法
CN114120077A (zh) * 2022-01-27 2022-03-01 山东融瓴科技集团有限公司 一种基于无人机航拍大数据下的防控风险预警方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
CN108280443A (zh) * 2018-02-23 2018-07-13 深圳市唯特视科技有限公司 一种基于深特征提取异步融合网络的动作识别方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN108280443A (zh) * 2018-02-23 2018-07-13 深圳市唯特视科技有限公司 一种基于深特征提取异步融合网络的动作识别方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张怡佳;茅耀斌;: "基于双流卷积神经网络的改进人体行为识别算法" *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222665A (zh) * 2019-06-14 2019-09-10 电子科技大学 一种基于深度学习和姿态估计的监控中人体动作识别方法
CN110222665B (zh) * 2019-06-14 2023-02-24 电子科技大学 一种基于深度学习和姿态估计的监控中人体动作识别方法
CN110349180A (zh) * 2019-07-17 2019-10-18 深圳前海达闼云端智能科技有限公司 人体关节点预测方法及装置、动作类型识别方法及装置
CN110349180B (zh) * 2019-07-17 2022-04-08 达闼机器人有限公司 人体关节点预测方法及装置、动作类型识别方法及装置
CN110458046A (zh) * 2019-07-23 2019-11-15 南京邮电大学 一种基于关节点提取的人体运动轨迹分析方法
CN111079594A (zh) * 2019-12-04 2020-04-28 成都考拉悠然科技有限公司 一种基于双流协同网络的视频动作分类识别方法
CN111079594B (zh) * 2019-12-04 2023-06-06 成都考拉悠然科技有限公司 一种基于双流协同网络的视频动作分类识别方法
CN111325336A (zh) * 2020-01-21 2020-06-23 浙江大学 一种基于强化学习的规则提取方法及应用
CN113269054A (zh) * 2021-04-30 2021-08-17 重庆邮电大学 一种基于时空2d卷积神经网络的航拍视频分析方法
CN113269054B (zh) * 2021-04-30 2022-06-10 重庆邮电大学 一种基于时空2d卷积神经网络的航拍视频分析方法
CN114120077A (zh) * 2022-01-27 2022-03-01 山东融瓴科技集团有限公司 一种基于无人机航拍大数据下的防控风险预警方法

Also Published As

Publication number Publication date
CN109858407B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
CN109858407A (zh) 一种基于多种信息流特征和异步融合的视频行为识别方法
Liu et al. Two-stream 3d convolutional neural network for skeleton-based action recognition
Liu et al. Multi-view hierarchical bidirectional recurrent neural network for depth video sequence based action recognition
Du et al. Rpan: An end-to-end recurrent pose-attention network for action recognition in videos
Liu et al. Multi-modality multi-task recurrent neural network for online action detection
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN111695457B (zh) 一种基于弱监督机制的人体姿态估计方法
Hu et al. Hand-model-aware sign language recognition
Sincan et al. Using motion history images with 3d convolutional networks in isolated sign language recognition
CN107392131A (zh) 一种基于人体骨骼节点距离的动作识别方法
Li et al. Sign language recognition based on computer vision
Chen et al. A spatiotemporal heterogeneous two-stream network for action recognition
Zhao et al. Real-time sign language recognition based on video stream
CN112668492A (zh) 一种自监督学习与骨骼信息的行为识别方法
CN114821640A (zh) 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
Xu et al. Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction
Wang et al. Pose-based two-stream relational networks for action recognition in videos
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Liu et al. Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model
Özbay et al. 3D Human Activity Classification with 3D Zernike Moment Based Convolutional, LSTM-Deep Neural Networks.
Ye Intelligent Image Processing Technology for Badminton Robot under Machine Vision of Internet of Things
Usman et al. Skeleton-based motion prediction: A survey
Xu et al. Isolated Word Sign Language Recognition Based on Improved SKResNet-TCN Network
Shi et al. Occlusion-aware graph neural networks for skeleton action recognition
TWI758828B (zh) 具有自我學習能力的智慧型驅動裝置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant