CN112418032A - 一种人体行为识别方法、装置、电子设备及存储介质 - Google Patents

一种人体行为识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112418032A
CN112418032A CN202011256262.6A CN202011256262A CN112418032A CN 112418032 A CN112418032 A CN 112418032A CN 202011256262 A CN202011256262 A CN 202011256262A CN 112418032 A CN112418032 A CN 112418032A
Authority
CN
China
Prior art keywords
behavior
features
apparent
optical flow
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011256262.6A
Other languages
English (en)
Inventor
王亚飞
朱伟
陈涛
张飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Ruitaihua Software Technology Co ltd
BEIJING RESEARCH CENTER OF URBAN SYSTEM ENGINEERING
Beijing Global Safety Technology Co Ltd
Original Assignee
Wuhan Ruitaihua Software Technology Co ltd
BEIJING RESEARCH CENTER OF URBAN SYSTEM ENGINEERING
Beijing Global Safety Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Ruitaihua Software Technology Co ltd, BEIJING RESEARCH CENTER OF URBAN SYSTEM ENGINEERING, Beijing Global Safety Technology Co Ltd filed Critical Wuhan Ruitaihua Software Technology Co ltd
Priority to CN202011256262.6A priority Critical patent/CN112418032A/zh
Publication of CN112418032A publication Critical patent/CN112418032A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Abstract

本发明提供一种人体行为识别方法、装置、电子设备及存储介质,该方法包括:利用卷积神经网络对视频RGB帧提取最后一个卷积层的特征得到行为表观特征,基于光流特征计算层对行为表观特征迭代优化,得到光流特征,将多帧光流特征自适应聚合后,对光流特征与表观特征进行融合,并基于注意力图对表观特征进行引导,得到运动信息增强的表观特征,将运动信息增强的表观特征与光流特征传入分类融合层,并将分类器的预测分数融合得到行为预测结果,基于预测结果计算损失,对模型迭代更新得到收敛后的人体行为识别模型。通过该方案解决了现有行为识别方法无法准确表示行为动态信息的问题,可以提高人体行为识别的准确性,增强鲁棒性,并保障实时性。

Description

一种人体行为识别方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机视觉领域,尤其涉及一种人体行为识别方法、装置、电子设备及存储介质。
背景技术
人体行为识别是一种通过分析视频等数据,对人体行为进行识别分析的技术,其广泛应用于智能监控、人机交互、行为预警、医疗健康等领域。
目前,已经公开的行为识别方法可以分为两类:基于手工设计特征的方法和基于深度学习的方法。基于手工设计特征的方法常采用模板匹配方式,将运动图像序列转化为一个或一组静态的模板,通过待识别样本的模板与已知的模板进行匹配获得识别结果。其主要方法包括:运动能量图像(MEI)和运动历史图像(MHI),基于轮廓的平均运动形状(MMS)和基于运动前景的平均运动能量(AME)等。基于深度学习的方法,一般通过卷积神经网络提取每一帧的行为表观特征,然后将多帧信息进行融合得到识别结果,如基于双流卷积神经网络,利用静态支路从RGB视频帧中提取行为的表观特征,利用动态支路从视频光流帧中提取动态信息,然后将两个支路的行为预测进行融合,获得分类结果。如将卷积神经网络与长短期记忆网络级联起来,构成一个循环卷积结构。在每一步,卷积神经网络提取每一帧的特征,然后送入到长短期记忆网络建模行为的时序动态信息。如基于3D卷积神经网络的方法直接采用3维的卷积核沿着视频的时空维度进行卷积运算,获得行为的时空信息。如ARTNet提出的SMART Block,基于二维卷积运算提取行为表观特征,结合三维卷积运算提取行为的时序特征得到行为的时空信息。
一般,手工设计的特征算法受复杂背景影响较大,在有限的种类,受限的场景,小规模数据集上效果较好,但是不能处理大规模现实场景数据集,同时手工设计的特征具有较高的计算复杂度,不利于做到实时处理。而基于深度学习方法难以有效的捕捉到行为的动态信息,并且不能采用有效的方法引导卷积神经网络提取到与行为相关的区域。同时,提取相应光流图片的特征,需要的存储空间大,获取困难。
在已公开最为接近的现有技术中,Piergiovanni A和Ryoo M S提出的《Representation Flow for Action Recognition》中通过神经网络提取RGB帧的卷积层特征、对行为特征迭代优化处理后得到光流特征,将光流特征输入至分类器进行分类以识别人体行为,可以一定程度解决上述问题,然而在物体快速移动、遮挡、模糊等导致的动态特征复杂时,该方法识别结果的准确性会大幅下降。
发明内容
有鉴于此,本发明实施例提供了一种人体行为识别方法、装置、电子设备及存储介质,以解决现有识别方法在物体快速移动、遮挡或成像模糊等情况下,识别结果不准确的问题。
在本发明实施例的第一方面,提供了一种人体行为识别方法,包括:
获取人体行为数据集后,通过卷积神经网络对视频RGB帧进行特征提取,将最后一个卷积层的特征作为人体行为表观特征;
基于光流特征计算层对所述人体行为表观特征进行迭代优化,得到包含有人体短期行为动态信息的光流特征;
将连续的多帧光流特征自适应聚合后,对光流特征与表观特征进行融合,并基于注意力图对表观特征进行引导,得到运动信息增强的表观特征;
将运动信息增强的表观特征与光流特征传入分类融合层,并将分类器的预测分数融合得到行为预测结果;
根据行为预测结果和行为类别,通过交叉熵损失函数计算损失,将损失进行误差反向传播,迭代更新网络参数,直至人体行为识别模型收敛,以基于收敛后的人体行为识别模型进行行为识别。
在本发明实施例的第二方面,提供了一种人体行为识别装置,包括:
提取模块,用于获取人体行为数据集后,通过卷积神经网络对视频RGB帧进行特征提取,将最后一个卷积层的特征作为人体行为表观特征;
优化模块,用于基于光流特征计算层对所述人体行为表观特征进行迭代优化,得到包含有人体短期行为动态信息的光流特征;
融合模块,用于将连续的多帧光流特征自适应聚合后,对光流特征与表观特征进行融合,并基于注意力图对表观特征进行引导,得到运动信息增强的表观特征;
分类模块,用于将运动信息增强的表观特征与光流特征传入分类融合层,并将分类器的预测分数融合得到行为预测结果;
更新模块,用于根据行为预测结果和行为类别,通过交叉熵损失函数计算损失,将损失进行误差反向传播,迭代更新网络参数,直至人体行为识别模型收敛,以基于收敛后的人体行为识别模型进行行为识别。
在本发明实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述方法的步骤。
本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。
本发明实施例中,利用卷积神经网络对视频RGB帧提取最后一个卷积层的特征得到行为表观特征,基于光流特征计算层对行为表观特征迭代优化,得到光流特征,将多帧光流特征自适应聚合后,对光流特征与表观特征进行融合,并基于注意力图对表观特征进行引导,得到运动信息增强的表观特征,将运动信息增强的表观特征与光流特征传入分类融合层,并将分类器的预测分数融合得到行为预测结果,基于预测结果计算损失,对模型迭代更新得到收敛后的人体行为识别模型。对多帧光流特征融合,并基于注意力机制增强表观特征,可以解决由于物体快速移动、遮挡或模糊等导致行为识别结果不准确的问题,可提高人体行为识别的准确性,具有更强的鲁棒性,基于光流特征和表观特征分类分数的融合,降低光流特征提取过程需要的计算量,保障人体行为识别的实时性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他附图。
图1为本发明的一个实施例提供的一种人体行为识别方法的流程示意图;
图2为本发明的一个实施例提供的同一行为不同运动速度的光流特征计算结果对比示意图;
图3为本发明的一个实施例提供的表观特征与光流特征融合的原理示意图;
图4为本发明的一个实施例提供的构建人体行为识别模型的原理示意图;
图5为本发明的一个实施例提供的一种人体行为识别装置的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。
本发明的说明书或权利要求书及上述附图中的术语“包括”以及其他相近意思表述,意指覆盖不排他的包含,如包含一系列步骤或单元的过程、方法或系统、设备没有限定于已列出的步骤或单元。
可以理解的是,本发明通过对卷积神经网络训练,得到收敛的人体行为识别模型,基于人体行为识别模型进行行为识别。传统的卷积神经网络训练,由于光流特征提取需要巨大的计算量且存储空间,实际识别过程中难以满足实时性要求,且易受物体移动速度、遮挡等影响,准确率不高。
在本申请的一个实施例中,采用34层的残差卷积神经网络,其由以下部分组成:
第一部分为输入层,具有三个通道,表示RGB(Red,Green,Blue)的三个分量,使用不同的标准差和方差对三个分量分别进行归一化。
第二、第三、第四、第五部分均由不同数量的残差卷积块(Buildingblock)构成,其中第二部分包含3个残差卷积块,第三部分包含4个残差卷积块,第四部分包含6个残差卷积块,第五部分包含3个残差卷积块。四个部分级联起来依次对第一部分的输出进行处理,提取行为的表观特征。
每个残差卷积块由一层卷积层、一层激活函数层和一层卷积层同等映射组成,其具体计算公式为:
Figure BDA0002773203440000051
其中ReLU是非线性激活函数ReLU(x)=max(x,0),xl-1和xl分别是第l个卷积残差块的输入和输出,
Figure BDA0002773203440000052
Figure BDA0002773203440000053
分别表示第l个卷积残差块的卷积核参数。通过卷积核对输入图像进行处理,学习行为的表观特征。
第六部分为光流特征计算层,使用特定的卷积核处理每一个特征图,得到每个特征图的梯度和散度,迭代优化光流场。
第七部分为特征融合层,将光流特征处理成注意力图,然后对行为的表观特征进行增强,得到运行信息增强的表观特征。
第八部分为分类融合层,包含有表观特征分类器和动态特征分类器,设置特定个数的输出神经元,每个神经元表示一种特定的行为种类,将两个分类器的预测分数融合后,最大神经元值所在的位置作为所述行为识别网络预测的行为类别。
基于以上的卷积神经网络结构,对其进行训练得到识别模型,可以提高模型的识别能力,具有更强的鲁棒性,同时,可以减小计算量和存储空间的要求。
请参阅图1,图1为本发明一个实施例提供的一种人体行为识别方法的流程示意图,包括:
S101、获取人体行为数据集后,通过卷积神经网络对视频RGB帧进行特征提取,将最后一个卷积层的特征作为人体行为表观特征;
获取研究人员使用的人体行为视频数据集,利用卷积神经网络对视频RGB帧提取最后一个卷积层的特征,得到行为表观特征。
其中,将视频帧送入卷积神经网络前,对所述人体行为视频数据集的样本数据进行预处理,再对样本数据归一化处理,将归一化后的样本视频数据传入卷积神经网络中,提取最后一个卷积层的特征作为行为的表观特征。
示例性的,采用了两个HMDB51和UCF101两个视频行为数据集,HMDB51包含6766个样本,分布在51个不同的类别中。UCF101包含101个不同的类别,13320个视频片段。
本实施例采用的归一化方法为标准差标准化,其公式为:
Figure BDA0002773203440000061
式中inputchannel表示不同输入视频RGB帧不同信道的分量,meanchannel表示RGB信道的均值,stdchannel表示RGB信道的方差,outputchannel表示RGB不同信道分量经过标准差标准化后的值,其中,channel可为R、G或B。
使用2D卷积神经网络提取每一帧行为视频的特征向量,具体的,利用预训练的ResNet-34初始化2D卷积神经网络的各层参数,通过2D卷积神经网络对数据集的所有样本进行特征提取,提取最后一个卷积层的特征作为行为表观特征,得到特征序列F=[F1,F2,…,FN],Fn表示第n帧视频的表观特征,N表示一个视频包含的总帧数。
进一步的,通过二维卷积运算处理多个连续的视频帧来逐层的学习到行为的表观特征,二维卷积运算的计算公式为:
Figure BDA0002773203440000071
式中,wmn表示卷积核(m,n)处的权重,Fl表示第l层的特征图,l为1时,表示输入图像,Fl+1表示三维卷积层的输出,第l+1层的特征图,M和N表示卷积核的宽度和高度,x和y表示像素点在特征图的位置。
S102、基于光流特征计算层对所述人体行为表观特征进行迭代优化,得到包含有人体短期行为动态信息的光流特征;
其中,所述光流特征计算层中,使用特定的卷积核处理每一个特征图,得到每个特征图的梯度和散度,迭代优化光流场。使用卷积神经网络中的卷积计算替代传统光流计算算法TV-L1中梯度和散度的计算方法,可以大大减少计算量。
将连续两帧视频帧的表观特征(Fn,Fn+1)输入至光流特征计算层,得到x,y两个方向的梯度,表示为u∈R2×W×H,W和H分别表示特征图的宽度和高度。
初始化光流场u和双向量场为0,通过迭代优化更新光流场u:
Figure BDA0002773203440000072
Figure BDA0002773203440000081
u=v+θ·div(p);
Figure BDA0002773203440000082
式中,ρ表示两帧位移特征之间运动残差,
Figure BDA0002773203440000083
Figure BDA0002773203440000084
是两帧位移特征之间运动残差ρ的常数部分,θ控制TV-L1正则化项的权重,λ控制输出的平滑性,τ控制时间步长,div(p)表示计算ρ散度,公式如下:
div(p)=pxx+pyy
px和py分别表示x和y方向,ωx=[-1 1],
Figure BDA0002773203440000085
符号
Figure BDA0002773203440000086
表示求倒数,
Figure BDA0002773203440000087
Figure BDA0002773203440000088
分别表示求x和y方向的偏导数;
Figure BDA0002773203440000089
Figure BDA00027732034400000810
经过迭代优化过程,可以获得包含行为动态信息的光流特征向量。
S103、将连续的多帧光流特征自适应聚合后,对光流特征与表观特征进行融合,并基于注意力图对表观特征进行引导,得到运动信息增强的表观特征;
在某些视频帧中,由于行为主体可能出现因失焦、物体快速移动、遮挡等导致光流特征提取结果不可靠,可以通过注意力机制加权聚合相邻帧的光流特征图,减小视频数据失焦、快速移动、遮挡等产生的影响。如图2所示,射箭行为不同运动速度的光流特征计算结果对比示意图。在慢速移动的行为间隔,光流特征计算的结果无法定位显著运动的物体,导致无法使用运动信息对表观特征进行增强。所以,本发明中通过加权聚合相邻帧的光流特征图,得到显著运动注意力图,来对当前帧进行处理。
具体的,基于注意力机制加权聚合相邻帧的光流特征图,其计算公式为:
Figure BDA0002773203440000091
其中,
Figure BDA0002773203440000092
表示加权聚合后光流特征图,ωj→i表示第j帧光流特征向第i帧特征聚合的权重,Fj表示第j帧光流特征,i和j为计数变量,K表示加权聚合相邻帧的数量,如K=16;
通过激活函数ReLU(x)=max(0,x)对特征加权聚合后结果进行非线性映射,得到注意力图,将注意力图与表观特征进行逐像素相乘,得到运动信息增强的表观特征。
在一个实施例中,如图3所示,实际计算过程中,使用1×1卷积运算实现。然后使用激活函数ReLU对特征加权聚合后的结果进行非线性映射,得到第j帧的注意力图:
Figure BDA0002773203440000093
最后将该注意力图与表观特征进行逐像素相乘,运动信息增强的表观特征。
Figure BDA0002773203440000094
其中
Figure BDA0002773203440000095
表示逐像素相乘运算。
S104、将运动信息增强的表观特征与光流特征传入分类融合层,并将分类器的预测分数融合得到行为预测结果;
其中,所述分类融合层包含表观特征分类器和动态特征分类器,并设置有预定个数的输出神经元,每个神经元表示一种特定的行为种类,将两个分类器的预测分数融合后,将最大神经元值所在的位置作为行为预测的类别。
通过两个分类器捕捉两个特征间的互补优点,使训练模型更具鲁棒性。
S105、根据行为预测结果和行为类别,通过交叉熵损失函数计算损失,将损失进行误差反向传播,迭代更新网络参数,直至人体行为识别模型收敛,以基于收敛后的人体行为识别模型进行行为识别。
其中,所述交叉熵损失函数为:
Figure BDA0002773203440000101
其中,yi表示预测为第i类的概率,
Figure BDA0002773203440000102
表示第i类的标签。
图4示出了人体行为表观特征和光流特征融合的原理示意图,基于提取表观特征和光流特征构建人体行为识别模型。
在一个实施例中,所述基于收敛后的人体行为识别模型进行行为识别具体为:
获取一段待识别的视频图像,将视频的每一帧RGB三个信道的像素值分别进行标准化,对其进行预处理;
利用训练好的2D卷积神经网络对每个视频RGB帧提取最后一个卷积层的特征,得到行为的表观特征;
将所述所有帧的表观特征输入到光流特征计算模块中,得到包含有短期行为动态信息的光流特征;
将行为的表观特征与行为的动态特征输入到人体行为识别模型的特征融合层,得到运动信息增强的表观特征。
将所述的运动信息增强的表观特征和光流特征输入到人体行为识别模型的分类层中,通过分类器对其进行分类处理,得到两种特征的预测分数,最后将两个预测分数进行融合,得到该视频图像的行为分类结果。
通过本实施例提供的方法,从行为的表观特征与行为的动态特征两个方面对行为进行时空建模,同时引入光流特征聚合层和特征融合层,从而可排除行为主体失焦,快速移动,遮挡等问题的干扰,提高时序建模能力,获得鲁棒的行为时空特征。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图5为本发明实施例提供的一种人体行为识别方法装置结构示意图,该装置包括:
提取模块510,用于获取人体行为数据集后,通过卷积神经网络对视频RGB帧进行特征提取,将最后一个卷积层的特征作为人体行为表观特征;
可选的,对人体行为数据集进行预处理,将样本数据归一化,并将归一化的样本数据传送至卷积神经网络中。
优化模块520,用于基于光流特征计算层对所述人体行为表观特征进行迭代优化,得到包含有人体短期行为动态信息的光流特征;
其中,所述光流特征计算层中,使用特定的卷积核处理每一个特征图,得到每个特征图的梯度和散度,迭代优化光流场。
融合模块530,用于将连续的多帧光流特征自适应聚合后,对光流特征与表观特征进行融合,并基于注意力图对表观特征进行引导,得到运动信息增强的表观特征;
具体的,基于注意力机制加权聚合相邻帧的光流特征图,计算公式为:
Figure BDA0002773203440000111
其中,
Figure BDA0002773203440000112
表示加权聚合后光流特征图,ωj→i表示第j帧光流特征向第i帧特征聚合的权重,Fj表示第j帧光流特征,i和j表示计数变量,K表示加权聚合相邻帧的数量,如K=16;
通过激活函数ReLU(x)=max(0,x)对特征加权聚合后结果进行非线性映射,得到注意力图,将注意力图与表观特征进行逐像素相乘,得到运动信息增强的表观特征。
分类模块540,用于将运动信息增强的表观特征与光流特征传入分类融合层,并将分类器的预测分数融合得到行为预测结果;
其中,所述分类融合层包含表观特征分类器和动态特征分类器,并设置有预定个数的输出神经元,每个神经元表示一种特定的行为种类,将两个分类器的预测分数融合后,将最大神经元值所在的位置作为行为预测的类别。
更新模块550,用于根据行为预测结果和行为类别,通过交叉熵损失函数计算损失,将损失进行误差反向传播,迭代更新网络参数,直至人体行为识别模型收敛,以基于收敛后的人体行为识别模型进行行为识别。
可以理解的是,在一个实施例中,所述电子设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现人体行为识别模型的建立并对人体行为进行识别。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括步骤S101~S105,所述的存储介质包括如:ROM/RAM、磁碟、光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种人体行为识别方法,其特征在于,包括:
获取人体行为数据集后,通过卷积神经网络对视频RGB帧进行特征提取,将最后一个卷积层的特征作为人体行为表观特征;
基于光流特征计算层对所述人体行为表观特征进行迭代优化,得到包含有人体短期行为动态信息的光流特征;
将连续的多帧光流特征自适应聚合后,对光流特征与表观特征进行融合,并基于注意力图对表观特征进行引导,得到运动信息增强的表观特征;
将运动信息增强的表观特征与光流特征传入分类融合层,并将分类器的预测分数融合得到行为预测结果;
根据行为预测结果和行为类别,通过交叉熵损失函数计算损失,将损失进行误差反向传播,迭代更新网络参数,直至人体行为识别模型收敛,以基于收敛后的人体行为识别模型进行行为识别。
2.根据权利要求1所述的方法,其特征在于,所述获取人体行为数据集还包括:
对人体行为数据集进行预处理,将样本数据归一化,并将归一化的样本数据传送至卷积神经网络中。
3.根据权利要求1所述的方法,其特征在于,所述光流特征计算层中,使用特定的卷积核处理每一个特征图,得到每个特征图的梯度和散度,基于特征图的梯度和散度迭代优化光流场。
4.根据权利要求1所述的方法,其特征在于,所述基于注意力图对表观特征进行引导,得到运动信息增强的表观特征包括:
基于注意力机制加权聚合相邻帧的光流特征图,计算公式为:
Figure FDA0002773203430000021
其中,
Figure FDA0002773203430000022
表示加权聚合后光流特征图,ωj→i表示第j帧光流特征向第i帧特征聚合的权重,Fj表示第j帧光流特征,i和j表示计数变量,K表示加权聚合相邻帧的数量;
通过激活函数ReLU(x)=max(0,x)对特征加权聚合后结果进行非线性映射,得到注意力图,将注意力图与表观特征进行逐像素相乘,得到运动信息增强的表观特征。
5.根据权利要求1所述方法,其特征在于,所述分类融合层包含表观特征分类器和动态特征分类器,并设置有预定个数的输出神经元,每个神经元表示一种特定的行为种类,将两个分类器的预测分数融合后,将最大神经元值所在的位置作为行为预测的类别。
6.一种人体行为识别装置,其特征在于,包括:
提取模块,用于获取人体行为数据集后,通过卷积神经网络对视频RGB帧进行特征提取,将最后一个卷积层的特征作为人体行为表观特征;
优化模块,用于基于光流特征计算层对所述人体行为表观特征进行迭代优化,得到包含有人体短期行为动态信息的光流特征;
融合模块,用于将连续的多帧光流特征自适应聚合后,对光流特征与表观特征进行融合,并基于注意力图对表观特征进行引导,得到运动信息增强的表观特征;
分类模块,用于将运动信息增强的表观特征与光流特征传入分类融合层,并将分类器的预测分数融合得到行为预测结果;
更新模块,用于根据行为预测结果和行为类别,通过交叉熵损失函数计算损失,将损失进行误差反向传播,迭代更新网络参数,直至人体行为识别模型收敛,以基于收敛后的人体行为识别模型进行行为识别。
7.根据权利要求6所述的装置,其特征在于,所述基于注意力图对表观特征进行引导,得到运动信息增强的表观特征包括:
基于注意力机制加权聚合相邻帧的光流特征图,计算公式为:
Figure FDA0002773203430000031
其中,
Figure FDA0002773203430000032
表示加权聚合后光流特征图,ωj→i表示第j帧光流特征向第i帧特征聚合的权重,Fj表示第j帧光流特征,i和j表示计数变量,K表示加权聚合相邻帧的数量;
通过激活函数ReLU(x)=max(0,x)对特征加权聚合后结果进行非线性映射,得到注意力图,将注意力图与表观特征进行逐像素相乘,得到运动信息增强的表观特征。
8.根据权利要求6所述装置,其特征在于,所述分类融合层包含表观特征分类器和动态特征分类器,并设置有预定个数的输出神经元,每个神经元表示一种特定的行为种类,将两个分类器的预测分数融合后,将最大神经元值所在的位置作为行为预测的类别。
9.一种电子设备,包括处理器、存储器以及存储在所述存储器中并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述人体行为识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述人体行为识别方法的步骤。
CN202011256262.6A 2020-11-11 2020-11-11 一种人体行为识别方法、装置、电子设备及存储介质 Pending CN112418032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011256262.6A CN112418032A (zh) 2020-11-11 2020-11-11 一种人体行为识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011256262.6A CN112418032A (zh) 2020-11-11 2020-11-11 一种人体行为识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112418032A true CN112418032A (zh) 2021-02-26

Family

ID=74781694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011256262.6A Pending CN112418032A (zh) 2020-11-11 2020-11-11 一种人体行为识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112418032A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128415A (zh) * 2021-04-22 2021-07-16 合肥工业大学 一种环境辨别方法、系统、设备及存储介质
CN113473124A (zh) * 2021-05-28 2021-10-01 北京达佳互联信息技术有限公司 信息获取方法、装置、电子设备及存储介质
CN116309698A (zh) * 2023-01-11 2023-06-23 中国科学院上海微系统与信息技术研究所 一种基于运动特征弥补引导的多帧光流估计方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128415A (zh) * 2021-04-22 2021-07-16 合肥工业大学 一种环境辨别方法、系统、设备及存储介质
CN113128415B (zh) * 2021-04-22 2023-09-29 合肥工业大学 一种环境辨别方法、系统、设备及存储介质
CN113473124A (zh) * 2021-05-28 2021-10-01 北京达佳互联信息技术有限公司 信息获取方法、装置、电子设备及存储介质
CN113473124B (zh) * 2021-05-28 2024-02-06 北京达佳互联信息技术有限公司 信息获取方法、装置、电子设备及存储介质
CN116309698A (zh) * 2023-01-11 2023-06-23 中国科学院上海微系统与信息技术研究所 一种基于运动特征弥补引导的多帧光流估计方法

Similar Documents

Publication Publication Date Title
Luo et al. Fire smoke detection algorithm based on motion characteristic and convolutional neural networks
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN110532871B (zh) 图像处理的方法和装置
CN109685072B (zh) 一种基于生成对抗网络的复合降质图像高质量重建方法
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
CN112446476A (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN107590432A (zh) 一种基于循环三维卷积神经网络的手势识别方法
CN112464807A (zh) 视频动作识别方法、装置、电子设备和存储介质
CN112232355B (zh) 图像分割网络处理、图像分割方法、装置和计算机设备
US11367206B2 (en) Edge-guided ranking loss for monocular depth prediction
CN115578770A (zh) 基于自监督的小样本面部表情识别方法及系统
CN114943876A (zh) 一种多级语义融合的云和云影检测方法、设备及存储介质
CN103500456A (zh) 一种基于动态贝叶斯模型网络的对象跟踪方法和设备
CN111368634A (zh) 基于神经网络的人头检测方法、系统及存储介质
CN113763417B (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN111160327B (zh) 一种基于轻量化卷积神经网络的表情识别方法
CN113221683A (zh) 教学场景下基于cnn模型的表情识别方法
CN111967399A (zh) 一种基于改进的Faster RCNN行为识别方法
CN116740808A (zh) 基于深度学习目标检测和图像分类的动物行为识别方法
CN111401209A (zh) 一种基于深度学习的动作识别方法
CN111242114A (zh) 文字识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination