CN111259795A - 基于多流深度学习的人体行为识别方法 - Google Patents

基于多流深度学习的人体行为识别方法 Download PDF

Info

Publication number
CN111259795A
CN111259795A CN202010045606.2A CN202010045606A CN111259795A CN 111259795 A CN111259795 A CN 111259795A CN 202010045606 A CN202010045606 A CN 202010045606A CN 111259795 A CN111259795 A CN 111259795A
Authority
CN
China
Prior art keywords
information network
domain information
segment
video
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010045606.2A
Other languages
English (en)
Inventor
韩雪平
简艳
时倩如
胡兆麟
王春芳
杨本环
汤璟颖
廖昳
孙冬阳
焦晨莹
崔伯渊
杨若曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Polytechnic Institute
Original Assignee
Henan Polytechnic Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Polytechnic Institute filed Critical Henan Polytechnic Institute
Priority to CN202010045606.2A priority Critical patent/CN111259795A/zh
Publication of CN111259795A publication Critical patent/CN111259795A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多流深度学习的人体行为识别方法,首先按分别建立基于BN‑inception网络的全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型,并对其进行训练;之后将待识别视频V划分为S段非重叠的视频片段;之后在每个视频片段中随机提取一帧RGB图像以及RGB图像的分块图像和光流场特征,RGB图像作为对应视频片段的全局空域信息输入全局空域信息网络模型,分块图像作为对应视频片段的局部空域信息输入局部空域信息网络模型;本发明结合了全局空域信息、时域信息和局部空域信息,融合了局部时空信息,将RGB图像分成三个部分,用于提取视频帧局部的细节;同时实现了多种模态融合,提高了识别结果的准确性。

Description

基于多流深度学习的人体行为识别方法
技术领域
本发明涉及人体行为识别技术领域,尤其是涉及一种基于多流深度学习的人体行为识别方法。
背景技术
近年来,人体行为识别作为视频分析的主要研究方向,已经广泛应用在视频游戏、机器人、人机交互、医疗保健等领域中。人体行为识别的过程主要指通过对视频中能够代表人体行为的特征提取,确定人体行为模式。现有的人体行为识别方法主要包括传统的行为识别方法,即基于人工设定的特征提取方法进行行为识别和基于深度学习框架的行为识别。传统的行为识别方法难以满足人体行为识别研究中空间复杂性高、时间差异性大的特点,不能实现高效的行为识别目的。而基于深度学习模型的人体行为识别方法可以通过训练从大规模视频数据中获得更加丰富的知识,提高对复杂人体行为的识别能力。目前人体行为识别的存在的困难主要有以下几个方面:严重依赖物体和场景,光流的长度和语义问题,卷积神经网络本身存在的“黑盒”问题等。而就人体所在的具体环境而言,受到的挑战主要包括遮挡、光照变化、自由度较大等。这些问题既是人体行为识别领域严重中存在的客观现象,也是人体行为识别研究必须解决的问题。
深度学习方法主要是通过大量数据集的训练得到深度学习模型,并在测试中不断完善,能够更有效扑捉到数据的波动特点。目前,主流的基于深度学习的人体行为识别方法分为基于3维卷积神经网络(C3D)的方法法和双流法。C3D的最大优势在于速度,通过3D卷积在空间和时间维度上捕捉视频流的运动信息,构造3D卷积网络进行人体行为识别。Carreira J等人提出了I3D模型(inception-V1 3D),基于inception-V1模型,将2D卷积扩展到3D卷积。Diba A等人提出了T3D模型(Temporal 3D ConvNets),一方面是采用了3Ddensenet,区别于之前的inception和Resnet结构;另一方面,TTL层,即使用不同尺度的卷积(inception思想)来捕捉讯息。Qiu Z等人改进ResNet内部连接中的卷积形式,利用提出的P3D模型(Pseudo-3D residual networks)进行行人识别。Diba A等人则设计了一个通用的模型LEN(Linear Encoding Networks),用于网络提取出特征之后的处理,可以用于two-stream以及C3D中。
双流法对视频序列中每两帧计算密集光流,得到密集光流的序列,对视频图像和密集光流融合分析以完成识别任务。相比C3D法,双流法在主流公共数据集(如UCF101、HMDB51)中取得了更加突出的性能;由此,也衍生出了更多基于双流法的人体行为识别方法,例如双流融合人体行为识别方法和基于时空网络的人体行为识别方法(TSN)方法。此外,还有其他的人体行为识别方法涌现出来,例如将时空轨迹信息与卷积神经网络结合的方法,将三维特征与时空特征结合的方法等。
基于双流法的行为识别方法,通常包含多种模态数据,研究人员经常尝试不同的输入模式。因此,哪种模式的网络流在行为识别中表现更为重要,是基于双流法的行为识别方法研究的关键。在行为识别的研究中,现有的输入模式主要有RGB信息,光流信息,以及扭曲光流信息。而这三种信息都输入全局信息。RGB信息作为一个输入模式,是获取人体行为全局表征特征的关键。文献[Sevillalara L,Liao Y,Guney F,et al.On the Integrationof Optical Flow and Action Recognition[J],2017.]认为光流场由于其固有的尺度不变特性,对行为识别性能有较大的帮助。这也证明了光流特征作为一种模式输入在行为识别中的重要性。虽然近年来对motion信息的关注逐渐上升,指责行为识别过度依赖背景和外貌特征,而缺少对运动本身的建模。时序卷积网络(Temporal segment networks,TSN)模型和基于注意的时间加权CNN(ATW)的方法,都将扭曲光流特征作为一种模式输入,前者提出使用多个双流网络,分别捕捉不同时序位置的短时信息,然后进行融合,得到最后结果,目的是为了解决长时处理的问题。但在DeepMind的研究中,当视频数据集的大小很大时,深度学习网络可以得到比仅使用光流更好的结果,这主要是因为当数据集足够大时,它可以覆盖复杂的光照、纹理和背景。因此,扭曲光流并非关键模式。
综上所述,现有基于双流法的行为识别方法虽然效果明显,但对于不同模态的重要性并没有分析,而且都采用视频全局信息,忽略了局部信息在视频分析中的重要性,局部信息缺失造成的特征提取不完备,同样会导致识别精度急剧下降。因此,需要研究一种新的人体行为识别算法。
发明内容
有鉴于此,本发明的目的是针对现有技术中的不足,提供一种基于多流深度学习的人体行为识别方法,结合了全局空域信息、时域信息和局部空域信息,一方面,融合了局部时空信息,将RGB图像分成三个部分,用于提取视频帧局部的细节;另一方面,实现了多种模态融合,提高了识别结果的准确性。
为达到上述目的,本发明采用以下技术方案:
基于多流深度学习的人体行为识别方法,包括以下步骤:
S1、分别建立基于BN-inception网络的全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型;
S2、训练并优化全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型的参数,获取全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型;
S3、将待识别视频V划分为S段非重叠的视频片段;
S4、在每个视频片段中随机提取一帧RGB图像以及RGB图像的分块图像和光流场特征,RGB图像作为对应视频片段的全局空域信息输入全局空域信息网络模型,分块图像作为对应视频片段的局部空域信息输入局部空域信息网络模型,光流场特征作为对应视频片段的时域信息输入时域信息网络模型;
S5、全局空域信息网络模型输出RGB图像的类别分数,局部空域信息网络模型输出分块图像的类别分数,时域信息网络模型输出光流场特征的类别分数;
S6、采用段共识函数对S段视频片段中的RGB图像的类别分数进行融合产生RGB图像段共识,采用段共识函数对S段视频片段中的分块图像进行融合产生分块图像段共识,采用段共识函数对S段视频片段中的光流场特征的类别分数进行融合产生光流场特征段共识;
S7、采用段共识函数对S段视频片段中的RGB图像段共识、分块图像段共识和光流场特征段共识进行加权融合,输出待识别视频的人体行为分类得分。
进一步地,在步骤S2中,采用数据集ImageNet分别对全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型进行训练。
进一步地,在步骤S2中,采用数据集UCF-101和数据集HMGB51分别对训练后的全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型进行参数优化。
进一步地,对于待识别视频V,把它按相等间隔分为S段,为{V1,V2,…,VS},待识别视频V的动作识别公式为:c=H(F(G(rand(V1),W),…,G(rand(Vs),W)));
其中,F表示段共识函数,c表示类别分数,G表示在训练阶段使用的对应类别的真值,H采用Softmax预测函数,对待识别视频中人体行为分类得分进行预测;
最终的损失函数为:
Figure BDA0002369281690000051
其中,y表示训练数据集中的标签,F表示预测的结果,L(y,F)表示训练过程中使用的损失函数。
进一步地,所述分块图像的分块方式为:采用由上到下水平平均分配的方法将每一帧RGB图像分为大小相等的三个部分,然后分别将这三个部分的图像信息得出的类别分数加权融合得到分块图像的类别分数。
进一步地,在步骤S2中,全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型均采用单独训练。
进一步地,在步骤S2中,RGB图像、分块图像和光流场特征的输入模式的像素大小均调整为32×32。
进一步地,在步骤S4中,全局空域信息网络模型和局部空域信息网络模型共享参数。
本发明的有益效果是:
本发明针对现有技术中的行为识别方法采用视频全局信息,而忽略了局部信息在视频分析中的重要性,局部信息缺失造成的特征提取不完备,同样会导致识别精度急剧下降,提供一种基于多流深度学习的人体行为识别方法,该识别算法包括以下步骤:首先,分别建立基于BN-inception网络的全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型;之后,训练并优化全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型的参数,获取全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型;之后,将待识别视频V划分为S段非重叠的视频片段;之后,在每个视频片段中随机提取一帧RGB图像以及RGB图像的分块图像和光流场特征,RGB图像作为对应视频片段的全局空域信息输入全局空域信息网络模型,分块图像作为对应视频片段的局部空域信息输入局部空域信息网络模型,光流场特征作为对应视频片段的时域信息输入时域信息网络模型;之后,全局空域信息网络模型输出RGB图像的类别分数,局部空域信息网络模型输出分块图像的类别分数,时域信息网络模型输出光流场特征的类别分数;之后,采用段共识函数对S段视频片段中的RGB图像的类别分数进行融合产生RGB图像段共识,采用段共识函数对S段视频片段中的分块图像进行融合产生分块图像段共识,采用段共识函数对S段视频片段中的光流场特征的类别分数进行融合产生光流场特征段共识;最后,采用段共识函数对S段视频片段中的RGB图像段共识、分块图像段共识和光流场特征段共识进行加权融合,输出待识别视频的人体行为分类得分。
本发明构建了多流深度学习模型,来验证不同输入模式的作用,以提高人体行为识别的准确性。建立视频帧中局部区域之间的空间融合模型,并将局部融合结果作为输入模式之一。同时,为了捕获视频中的全局表征信息和运动信息,仍然将RGB特征和光流特征作为输入模式之一。本发明首先,将数据集ImageNet上的深度网络训练模型作为每个流中基本模型的预训练模型,并将其在数据集UCF-101和数据集HMGB51上做训练,以获得更好的模型;然后再对输出的结果进行融合;分块的网络流与RGB流、光流进行加权融合,得到最终的识别结果。
本发明提出了基于多流深度学习的人体行为识别方法,将人体局部信息与全局信息相结合,通过局部不同特征的精确识别,使人体行为识别更加准确。实验表明,与现有深度学习方法相比,本文提出的方法在数据集UCF101和HMDB51上识别精度分别平均提高了约4.0%和6.2%。
附图说明
图1为本发明基于多流深度学习的人体行为识别方法的流程图;
图2为本发明基于多流深度学习的人体行为识别方法的框架图;
图3本发明中RGB分块模态网络流图;
图4为在数据集UCF-101上不同输入模式的识别结果对比图;
图5为在数据集HMDB51上不同输入模式的识别结果对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图1至5,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
参阅附图1至5,基于多流深度学习的人体行为识别方法,包括以下步骤:
S1、分别建立基于BN-inception网络的全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型;
S2、训练并优化全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型的参数,获取全局空域信息网络模型(图2中LSTM Cell)、局部空域信息网络模型(图2中空域的ConvNet)和时域信息网络模型(图2中时域的ConvNet);
S3、将待识别视频V划分为S段非重叠的视频片段;
S4、在每个视频片段中随机提取一帧RGB图像以及RGB图像的分块图像和光流场特征,RGB图像作为对应视频片段的全局空域信息输入全局空域信息网络模型,分块图像作为对应视频片段的局部空域信息输入局部空域信息网络模型,光流场特征作为对应视频片段的时域信息输入时域信息网络模型;
S5、全局空域信息网络模型输出RGB图像的类别分数,局部空域信息网络模型输出分块图像的类别分数,时域信息网络模型输出光流场特征的类别分数;
S6、采用段共识函数对S段视频片段中的RGB图像的类别分数进行融合产生RGB图像段共识,采用段共识函数对S段视频片段中的分块图像进行融合产生分块图像段共识,采用段共识函数对S段视频片段中的光流场特征的类别分数进行融合产生光流场特征段共识;
S7、采用段共识函数对S段视频片段中的RGB图像段共识、分块图像段共识和光流场特征段共识进行加权融合,输出待识别视频的人体行为分类得分。
如图2所示,本发明的整体大模型包含三个网络结构流,分别为全局空域信息、时域信息和局部空域信息。
自2012年深度学习方法以AlexNet为代表,表现出了超凡的性能。而BN-inception网络的出现大大解决了训练收敛问题,用密集成分来近似最优的局部稀疏结构,在很大程度上提升了算法的准确性。本文采用inception网络结构,并在数据集ImageNet[文献:DengJ,Dong W,Socher R,et al.ImageNet:A large-scale hierarchical image database[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conferenceon.IEEE,2009:248-255.]上进行预训练。这种网络结构被认为具有更好的准确性和稳定性。
BN-inception网络是GoogLeNet的一种,Batch Normalization层的加入,减少了内部神经元数据分布可能发生的变化,而且3×3的卷积层替代较大的5×5卷积层,不仅大大降低了参数的数量,而且提高了运算的速度。表1列出了BN-inception网络的框架结构。
Figure BDA0002369281690000091
其中,在步骤S3中,将BN-inception在数据集在ImageNet上做训练,并将训练后的BN-inception作为预训练模型,并对输入结果进行融合,最终得到一个输出结果。
其中,在步骤S3中,将数据集ImageNet上的深度网络训练模型作为每个流中基本模型的预训练模型,并将其在数据集UCF-101和数据集HMGB51上做训练,以获得优化的模型。实验数据集采用当前最流行的两个人体行为识别数据集,UCF101和HMDB51。这两个数据集都是非常具有挑战性的数据集。UCF 101数据集包含13320个视频剪辑,分布在101个类中,是最大的动作数据集之一,shipin主要来自YouTube网络,主要包括的动作有人和物体交互,人体的肢体动作,人与人之间的动作交互,乐器的操作,以及各种体育运动等。HMPD51数据集共有6766个视频,共51个类,分为3570个训练和1530个测试视频,主要来源于电影、公共数据库以及YouTube等网络视频库中。
其中,对于每一个输入片段,在训练阶段,一个输入视频被分为S段,对每一段随机采样得到对应的一个片段;不同片段的类别得分采用段共识函数进行融合来产生段共识;然后对所有模式的预测融合产生最终的预测结果。
其中,对于给定一段视频V,把它按相等间隔分为S段,为{V1,V2,…,VS},视频V的动作识别公式为:c=H(F(G(rand(V1),W),…,G(rand(Vs),W)));
其中,F表示段共识函数,c表示类别数,G表示在训练阶段使用的对应类别的真值,L表示损失函数;
最终的损失函数为:
Figure BDA0002369281690000101
其中,y表示训练数据集中的标签,F表示预测的结果,L(y,F)表示训练过程中使用的损失函数;
由H表示预测函数,用于对整个视频的类别进行预测:
Figure BDA0002369281690000102
其中,所述RGB分块图像的分块方式为:采用由上到下水平平均分配的方法将每一帧RGB图像分为大小相等的三个部分,然后分别将这三个部分的图像输入BN-inception网络框架中得到对应的结果,并将三个结果进行加权融合得到分类得分。
其中,在分块过程中,BN-inception网络框架与RGB网络流共享参数。
其中,在训练阶段,全局空域信息网络流、时域信息网络流和局部空域信息网络流均采用单独训练;在测试阶段,全局空域信息网络流、时域信息网络流和局部空域信息网络流均采用分开测试,最后得出结果再融合。
其中,在训练阶段,RGB图像、RGB分块图像和光流场特征的输入模式的大小都调整为32×32。
其中,在测试阶段,RGB网络流和图像块网络流共享参数。
本发明利用Python语言编程实现,使用CUDA 8的库及OpenCV库提取光流特征。在训练阶段,所有输入模式的大小(包括RGB图像、光流、RGB块图像)都调整为32×32。初始化学习速率为0.001。在测试阶段,RGB网络流和图像块网络流共享参数。
在网络的输入部分,RGB网络流与光流网络流与TSN方法中相同,但不同的是,本文将分块RGB信息作为一种模态输入网络流中,与其他两种模态进行融合得到识别结果。在分块的过程中,采用了常用的由上到下水平平均分配的方法,对每一帧RGB图像分为大小相等的三个部分,然后分别将三个部分的图像输入本文所提的网络框架中得到对应的结果,并将三个结果进行加权融合。其中,这里采用的网络结构与RGB网络流共享参数,具体的分块方式如图3所示。
利用本发明所提出的方法,首先,将数据集ImageNet上的深度网络训练模型作为每个流中基本模型的预训练模型,并将其在数据集UCF-101和数据集HMGB51上做训练,以获得更好的模型。然后再对输出的结果进行融合。分块的网络流与RGB流、光流进行加权融合,得到最终的识别结果。
本发明与现有技术相比较,其实验结果与分析具体如下:
本发明探讨了不同模态数据在行为识别算法中的作用。分别测试UCF101和HMDB51数据集上三种模式及其不同组合的准确率,如图4和图5所示。本发明与当前流行的人体行为识别方法进行了对比,例如基于深度学习的方法,2018年发表在AIAI上的ATW方法[文献:Zang J,Wang L,Liu Z,et al.Attention-Based Temporal Weighted ConvolutionalNeural Network for Action Recognition[C]//IFIP International Conference onArtificial Intelligence Applications and Innovations.Springer,Cham,2018:97-108.],以及经典的多流方法TSN[文献:Wang L,Xiong Y,Wang Z,et al.Temporal SegmentNetworks:Towards Good Practices for Deep Action Recognition[J].2016,22(1):20-36.]和Two-stream[文献:朱煜,赵江坤,王逸宁,等.基于深度学习的人体行为识别算法综述.自动化学报,2016,42(6):848-857.]方法,另外,也与传统的非深度学习方法iDT[文献:Ioffe S,Szegedy C.Batch Normalization:Accelerating Deep Network Training byReducing Internal Covariate Shift[J].2015:448-456.]和BoVW[文献:Peng X,Wang L,Wang X,et al.Bag of visual words and fusion methods for action recognition[J].Computer Vision&Image Understanding,2016,150(C):109-125.]进行了对比。
在UCF101数据集上,如图4,三种模式的准确率都在86%以上:RGB图像-87.6%,RGB块图像-87.6%,光流-86.5%。在TSN方法中[文献:Wang L,Xiong Y,Wang Z,etal.Temporal Segment Networks:Towards Good Practices for Deep ActionRecognition[J].2016,22(1):20-36.]中,同一数据集中warpped光流的准确率仅为86.9%,小于RGB块图像的87.6%。由此,可以推断出局部块空间流与其他模式组合的精确率可以高于TSN中弯曲光流与其他模式组合的精确率。结果表明,当RGB块图像和光流两种模式融合时,性能达到94.4%,三种模式融合的结果为94.8%。不难发现,与单模态或2模态融合相比,三模态数据的融合显著提高了性能。
为了验证该算法的稳定性,本发明在HMDB51数据集上进行了同样的实验,如图5所示。如果输入单模态数据,则准确率低于两种模态融合的结果,并且低于三种模态融合的结果。
最后,通过本发明提出的算法,融合三种不同的模式生成人类活动识别算法的最终结果。为了更客观地评价该算法的性能,我们在不同的数据集上与现有的主流算法进行了比较。如表2所示,总结了该算法和对比方法在数据集HMDB51和数据集UCF101上的性能。
对比法主要包括传统方法和深度学习方法。传统方法主要包括改进的轨迹模型[文献:Wang H,Schmid C.Action Recognition with Improved Trajectories[C]//IEEEInternational Conference on Computer Vision.IEEE,2014:3551-3558.]、视觉词袋和融合方法[文献:Peng X,Wang L,Wang X,et al.Bag of visual words and fusionmethods for action recognition[J].Computer Vision&Image Understanding,2016,150(C):109-125.];深层学习方法主要包括两个流[文献:朱煜,赵江坤,王逸宁,等.基于深度学习的人体行为识别算法综述.自动化学报,2016,42(6):848-857.]、TSN(RGB+Flow)[文献:[12]Wang L,Xiong Y,Wang Z,et al.Temporal Segment Networks:Towards GoodPractices for Deep Action Recognition[J].2016,22(1):20-36.]、TSN(RGB+Flow+War.Flow)[文献:Wang L,Xiong Y,Wang Z,et al.Temporal Segment Networks:TowardsGood Practices for Deep Action Recognition[J].2016,22(1):20-36.]和基于注意力的时间加权的卷积神经网路(ATW)[文献:Zang J,Wang L,Liu Z,et al.Attention-BasedTemporal Weighted Convolutional Neural Network for Action Recognition[C]//IFIP International Conference on Artificial Intelligence Applications andInnovations.Springer,Cham,2018:97-108.]。本发明的算法优于HMGB51数据集和UCF101数据集上的其他方法。该方法在HMGB51和UCF101上的准确率分别为70.6%和94.8%。这表明本地块流的局部特征的有效性。特别与TSN(RGB+Flow+War.Flow)相比,发现局部块流能够代替弯曲光流。
从对比结果可以看到,由于不同数据集存在一定的差异性,造成同一种方法在不同数据集上得到的结果不同,甚至出现较大的差别。例如数据集UCF101和HMDB51两个数据集,不仅是我们的方法在这两个数据集上的实验结果具有一定的差别,在UCF101上的准确率为94.8%,而在HMDB51上的准确率却只有70.6%,其他对方方法在这两个数据集上也存在这样的差别。这主要是由于数据集本身的特性,以及方法本身的泛化能力不足造成的。
表2在数据集UCF-101和HMDB-5上的比较
Figure BDA0002369281690000141
本发明提供基于多流深度学习的人体行为识别方法,该方法结合了全局空域信息、时域信息和局部空域信息。一方面,融合了局部时空信息。将RGB图像分成三个部分,用于提取视频帧局部的细节。另一方面,实现了多种模态融合。通过考虑不同的模态信息,将三种模式的结果融合,得到识别结果。为了验证不同模态信息在行为识别中的作用,本发明比较了不同模态信息与融合后识别结果的正确率,并与现有的主流算法进行了比较,证明了本发明所提算法的有效性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.基于多流深度学习的人体行为识别方法,其特征在于,包括以下步骤:
S1、分别建立基于BN-inception网络的全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型;
S2、训练并优化全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型的参数,获取全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型;
S3、将待识别视频V划分为S段非重叠的视频片段;
S4、在每个视频片段中随机提取一帧RGB图像以及RGB图像的分块图像和光流场特征,RGB图像作为对应视频片段的全局空域信息输入全局空域信息网络模型,分块图像作为对应视频片段的局部空域信息输入局部空域信息网络模型,光流场特征作为对应视频片段的时域信息输入时域信息网络模型;
S5、全局空域信息网络模型输出RGB图像的类别分数,局部空域信息网络模型输出分块图像的类别分数,时域信息网络模型输出光流场特征的类别分数;
S6、采用段共识函数对S段视频片段中的RGB图像的类别分数进行融合产生RGB图像段共识,采用段共识函数对S段视频片段中的分块图像进行融合产生分块图像段共识,采用段共识函数对S段视频片段中的光流场特征的类别分数进行融合产生光流场特征段共识;
S7、采用段共识函数对S段视频片段中的RGB图像段共识、分块图像段共识和光流场特征段共识进行加权融合,输出待识别视频的人体行为分类得分。
2.根据权利要求1所述的基于多流深度学习的人体行为识别方法,其特征在于:在步骤S2中,采用数据集ImageNet分别对全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型进行训练。
3.根据权利要求2所述的基于多流深度学习的人体行为识别方法,其特征在于:在步骤S2中,采用数据集UCF-101和数据集HMGB51分别对训练后的全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型进行参数优化。
4.根据权利要求1所述的基于多流深度学习的人体行为识别方法,其特征在于:对于待识别视频V,把它按相等间隔分为S段,为{V1,V2,…,VS},待识别视频V的动作识别公式为:c=H(F(G(rand(V1),W),…,G(rand(Vs),W)));
其中,F表示段共识函数,c表示类别分数,G表示在训练阶段使用的对应类别的真值,H采用Softmax预测函数,对待识别视频中人体行为分类得分进行预测;
最终的损失函数为:
Figure FDA0002369281680000021
其中,y表示训练数据集中的标签,F表示预测的结果,L(y,F)表示训练过程中使用的损失函数。
5.根据权利要求1所述的基于多流深度学习的人体行为识别方法,其特征在于:所述分块图像的分块方式为:采用由上到下水平平均分配的方法将每一帧RGB图像分为大小相等的三个部分,然后分别将这三个部分的图像信息得出的类别分数加权融合得到分块图像的类别分数。
6.根据权利要求1所述的基于多流深度学习的人体行为识别方法,其特征在于:在步骤S2中,全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型均采用单独训练。
7.根据权利要求1所述的基于多流深度学习的人体行为识别方法,其特征在于:在步骤S2中,RGB图像、分块图像和光流场特征的输入模式的像素大小均调整为32×32。
8.根据权利要求1所述的基于多流深度学习的人体行为识别方法,其特征在于:在步骤S4中,全局空域信息网络模型和局部空域信息网络模型共享参数。
CN202010045606.2A 2020-01-16 2020-01-16 基于多流深度学习的人体行为识别方法 Pending CN111259795A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010045606.2A CN111259795A (zh) 2020-01-16 2020-01-16 基于多流深度学习的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010045606.2A CN111259795A (zh) 2020-01-16 2020-01-16 基于多流深度学习的人体行为识别方法

Publications (1)

Publication Number Publication Date
CN111259795A true CN111259795A (zh) 2020-06-09

Family

ID=70950575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010045606.2A Pending CN111259795A (zh) 2020-01-16 2020-01-16 基于多流深度学习的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN111259795A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709351A (zh) * 2020-06-11 2020-09-25 江南大学 基于多径时空特征强化融合的三支流网络行为识别方法
CN111738218A (zh) * 2020-07-27 2020-10-02 成都睿沿科技有限公司 人体异常行为识别系统及方法
CN111931602A (zh) * 2020-07-22 2020-11-13 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及系统
CN112347963A (zh) * 2020-11-16 2021-02-09 申龙电梯股份有限公司 一种电梯挡门行为识别方法
CN112364757A (zh) * 2020-11-09 2021-02-12 大连理工大学 一种基于时空注意力机制的人体动作识别方法
CN112434576A (zh) * 2020-11-12 2021-03-02 合肥的卢深视科技有限公司 一种基于深度相机的人脸识别方法及系统
CN112528733A (zh) * 2020-10-29 2021-03-19 西安工程大学 一种网络的异常行为识别方法
CN113011404A (zh) * 2021-05-25 2021-06-22 南京甄视智能科技有限公司 基于时空域特征的狗拴绳识别方法、装置
CN114842402A (zh) * 2022-05-26 2022-08-02 重庆大学 一种基于对抗学习的弱监督时序行为定位方法
CN116385945A (zh) * 2023-06-06 2023-07-04 山东省人工智能研究院 基于随机帧补帧和注意力的视频交互动作检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩雪平等: "基于深度学习的人体行为识别算法", 《数学的实践与认识》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709351B (zh) * 2020-06-11 2023-05-05 江南大学 基于多径时空特征强化融合的三支流网络行为识别方法
CN111709351A (zh) * 2020-06-11 2020-09-25 江南大学 基于多径时空特征强化融合的三支流网络行为识别方法
CN111931602A (zh) * 2020-07-22 2020-11-13 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及系统
CN111931602B (zh) * 2020-07-22 2023-08-08 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及系统
CN111738218A (zh) * 2020-07-27 2020-10-02 成都睿沿科技有限公司 人体异常行为识别系统及方法
CN112528733B (zh) * 2020-10-29 2024-03-22 西安工程大学 一种基于改进inceptionv3网络的人体异常行为识别方法
CN112528733A (zh) * 2020-10-29 2021-03-19 西安工程大学 一种网络的异常行为识别方法
CN112364757A (zh) * 2020-11-09 2021-02-12 大连理工大学 一种基于时空注意力机制的人体动作识别方法
CN112434576A (zh) * 2020-11-12 2021-03-02 合肥的卢深视科技有限公司 一种基于深度相机的人脸识别方法及系统
CN112347963B (zh) * 2020-11-16 2023-07-11 申龙电梯股份有限公司 一种电梯挡门行为识别方法
CN112347963A (zh) * 2020-11-16 2021-02-09 申龙电梯股份有限公司 一种电梯挡门行为识别方法
CN113011404B (zh) * 2021-05-25 2021-08-24 南京甄视智能科技有限公司 基于时空域特征的狗拴绳识别方法、装置
CN113011404A (zh) * 2021-05-25 2021-06-22 南京甄视智能科技有限公司 基于时空域特征的狗拴绳识别方法、装置
CN114842402A (zh) * 2022-05-26 2022-08-02 重庆大学 一种基于对抗学习的弱监督时序行为定位方法
CN114842402B (zh) * 2022-05-26 2024-05-31 重庆大学 一种基于对抗学习的弱监督时序行为定位方法
CN116385945A (zh) * 2023-06-06 2023-07-04 山东省人工智能研究院 基于随机帧补帧和注意力的视频交互动作检测方法及系统
CN116385945B (zh) * 2023-06-06 2023-08-25 山东省人工智能研究院 基于随机帧补帧和注意力的视频交互动作检测方法及系统

Similar Documents

Publication Publication Date Title
CN111259795A (zh) 基于多流深度学习的人体行为识别方法
Dai et al. Human action recognition using two-stream attention based LSTM networks
CN107609460B (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
Ma et al. TS-LSTM and temporal-inception: Exploiting spatiotemporal dynamics for activity recognition
Li et al. Selective kernel networks
Zhang et al. Nonlinear regression via deep negative correlation learning
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
Zheng et al. Spatial-temporal pyramid based convolutional neural network for action recognition
Yan et al. Multibranch attention networks for action recognition in still images
Liu et al. Learning human pose models from synthesized data for robust RGB-D action recognition
CN111709304A (zh) 一种基于时空注意力增强特征融合网络的行为识别方法
Xia et al. Visible-infrared person re-identification with data augmentation via cycle-consistent adversarial network
Zhang et al. Recurrent attention network using spatial-temporal relations for action recognition
Ming et al. 3D-TDC: A 3D temporal dilation convolution framework for video action recognition
CN113807176A (zh) 一种基于多知识融合的小样本视频行为识别方法
Li et al. Multi-scale residual network model combined with Global Average Pooling for action recognition
Wang et al. Occluded person re-identification via defending against attacks from obstacles
Li et al. Video is graph: Structured graph module for video action recognition
Hampiholi et al. Convolutional transformer fusion blocks for multi-modal gesture recognition
Jiang et al. Cross-level reinforced attention network for person re-identification
Chexia et al. A Generalized Model for Crowd Violence Detection Focusing on Human Contour and Dynamic Features
Zhong et al. Key frame extraction algorithm of motion video based on priori
Zhou et al. Boundary-guided lightweight semantic segmentation with multi-scale semantic context
Zhu et al. Multimodal activity recognition with local block CNN and attention-based spatial weighted CNN
Chelali et al. Violence detection from video under 2D spatio-temporal representations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200609

RJ01 Rejection of invention patent application after publication