CN113591560A - 人体行为识别方法 - Google Patents

人体行为识别方法 Download PDF

Info

Publication number
CN113591560A
CN113591560A CN202110699419.0A CN202110699419A CN113591560A CN 113591560 A CN113591560 A CN 113591560A CN 202110699419 A CN202110699419 A CN 202110699419A CN 113591560 A CN113591560 A CN 113591560A
Authority
CN
China
Prior art keywords
human
behavior recognition
joint point
video frames
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110699419.0A
Other languages
English (en)
Inventor
曹聪琦
李嘉康
吕勤毅
郗润平
张艳宁
周德云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110699419.0A priority Critical patent/CN113591560A/zh
Publication of CN113591560A publication Critical patent/CN113591560A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种人体行为识别方法,涉及计算机视觉技术领域,该方法包括:获取待处理视频中预设数量个视频帧以及各视频帧中人体关节点位置数据,将视频帧输入预先训练好的行为识别模型,以使行为识别模型在生成预设数量个视频帧对应的时空特征图和注意力热图后,获得人体关节点特征,以确定包含语义信息的人体关节点特征,并在获得每个包含语义信息的人体关节点特征的局部决策结果后,融合局部决策结果,得到视频帧的人体行为识别结果。本发明将人体骨骼区域视为注意力区域,在极大程度上摒除了目标的无用信息,进而提取更有判别力的时空特征,通过结合关节点语义信息,有效增强了关节点特征的表征能力,进而提高人体行为识别模型的准确性。

Description

人体行为识别方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种人体行为识别方法。
背景技术
人体行为识别作为计算机视觉中的一个基本问题,具有广阔的应用前景,例如:智能监控、人机交互的体感游戏、视频检索等,因而引起了业内的广泛关注。
相关技术中,基于视频的行为识别根据数据模态可划分为基于RGB数据的人体行为识别和基于骨骼数据的人体行为识别。具体地,基于RGB的行为识别中,深度网络的结构主要有双流卷积神经网络(Convolutional Neural Networks,CNN)结构和3D CNN,RGB数据有丰富的外观信息,能较好地刻画人与物体的交互,但采集时容易受到背景图像的影响,如天气、光照、拍照角度和衣着的影响,使得从背景图像中提取特征变得困难。而在基于骨骼的行为识别中,循环神经网络(Recurrent Neural Network,RNN)被广泛用于模拟骨架序列的时空变化。RNN对长时依赖关系进行建模,但时序建模是在原始输入空间上进行的,所以很难直接从骨架中学习高层次的特征。
显然,上述两种方法均不利于提高人体行为识别的准确率。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种人体行为识别方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供一种人体行为识别方法,包括:
获取待处理视频中预设数量个视频帧以及各视频帧中人体关节点位置数据;
将所述预设数量个视频帧输入预先训练好的行为识别模型,以使所述行为识别模型在生成所述预设数量个视频帧对应的时空特征图和注意力热图后,获得所述视频帧中的人体关节点特征,以确定包含语义信息的人体关节点特征,并在获得每个所述包含语义信息的人体关节点特征的局部决策结果后,融合局部决策结果,得到所述视频帧的人体行为识别结果。
在本发明的一个实施例中,所述行为识别模型包括特征流、注意力流、局部决策模块和决策融合模块。
在本发明的一个实施例中,所述特征流包括多纤维网络。
在本发明的一个实施例中,所述将所述预设数量个视频帧输入预先训练好的行为识别模型,以使所述行为识别模型在生成所述预设数量个视频帧对应的时空特征图和注意力热图后,获得所述视频帧中的人体关节点特征,以确定包含语义信息的人体关节点特征,并在获得每个所述包含语义信息的人体关节点特征的局部决策结果后,融合局部决策结果,得到所述视频帧的人体行为识别结果的步骤,包括:
将所述预设数量个视频帧输入预先训练好的行为识别模型,以使所述特征流提取所述视频帧的时空特征图、并使所述注意力流根据所述人体关节点位置数据生成对应的注意力热图;
对所述时空特征图及所述注意力热图进行双线性操作,得到所述视频帧中所有的人体关节点特征;
根据各视频帧中人体关节点位置数据以及所述人体关节点特征,获得包含语义信息的人体关节点特征;
将所述包含语义信息的人体关节点特征输入所述局部决策模块,获得每个包含语义信息的人体关节点特征的局部决策结果;
将各个局部决策结果输入所述决策融合模块,得到所述视频帧的人体行为识别结果。
在本发明的一个实施例中,所述将各个局部决策结果输入所述决策融合模块,得到所述视频帧的人体行为识别结果的步骤,包括:
计算所有局部决策结果的平均值,并根据所述平均值确定所述视频帧的人体行为识别结果;或者,
根据预设权重,对各个局部决策结果进行加权求和,并根据加权求和结果确定所述视频帧的人体行为识别结果。
在本发明的一个实施例中,所述对所述时空特征图及所述注意力热图进行双线性操作,得到所述视频帧中所有的人体关节点特征的步骤,包括:
将所述注意力热图转换为第一矩阵,并将所述时空特征图转换为第二矩阵;其中,所述注意力热图的尺寸为M*L*H*W,所述时空特征图的尺寸为C*L*H*W,所述第一矩阵包括M行和L*H*W列,所述第二矩阵包括C行和L*H*W列,M=N×L,N表示每个视频帧中的人体关节点个数,L表示时空特征图的时序维度,H表示时空特征图的高度,W表示时空特征图的宽度;
按照如下公式对所述第一矩阵和所述第二矩阵进行双线性操作:
X=ABT
式中,A表示第一矩阵,BT表示第二矩阵的转置,X为所有的人体关节点特征。
在本发明的一个实施例中,所述根据各视频帧中人体关节点位置数据以及所述人体关节点特征,获得包含语义信息的人体关节点特征的步骤,包括:
按照如下公式对每一所述视频帧中的关节点类型进行编码,得到关节点类型编码:
zk∈RZ;k=1,2,...,Z
其中,zk表示类型为k的关节点编码向量,其维度为Z,R表示实数;
按照如下公式对每一所述视频帧中的关节点进行帧索引编码,得到关节点帧索引编码:
qt∈RT,t=1,2,...,T
其中,qt表示第t个视频帧中人体关节点的帧索引编码向量,其维度为T;
按照如下公式融合所述关节点类型编码及所述关节点帧索引编码,获得包含语义信息的人体关节点特征:
Figure BDA0003129189490000041
其中,
Figure BDA0003129189490000042
表示拼接操作,
Figure BDA0003129189490000043
表示第t个视频帧中,类型为k的关节点的语义信息,且维度为(Z+T)。
在本发明的一个实施例中,所述人体行为识别模型采用如下步骤训练获得:
获取训练样本,每个所述训练样本包括待预设数量个待测试视频帧、所述待测试视频帧对应的第一人体关节点位置数据以及与所述待测试视频帧对应的真实行为类别;
将所述训练样本输入待训练神经网络模型,所述待训练神经网络模型为预设的初始神经网络模型;
利用所述待训练神经网络模型输出结果,确定各训练样本的预测真实行为类别;
根据所述各训练样本的预测真实行为类别、真实行为类别和预设损失函数,确定第一损失值;
根据所述第一损失值判断所述待训练神经网络模型是否收敛;如果收敛,则待训练神经网络模型为训练完成的人体行为识别模型;
如果未收敛,则调整待训练神经网络模型的网络参数,并返回所述将所述训练样本输入待训练神经网络模型的步骤。
在本发明的一个实施例中,所述预设损失函数为交叉熵损失函数,所述交叉熵损失函数包括全局交叉熵损失函数和局部交叉熵损失函数。
在本发明的一个实施例中,所述关节点类型包括头、脖子、左肩、右肩中的至少一种。
与现有技术相比,本发明的有益效果在于:
本发明提供了一种人体行为识别方法,通过获取待处理视频中预设数量个视频帧以及各视频帧中人体关节点位置数据,将预设数量个视频帧输入预先训练好的行为识别模型,以使行为识别模型提取视频片段的时空特征,并将人体骨骼区域视为注意力区域,生成注意力热图,由于骨骼点信息体现了人体的姿态特征,因而可在极大程度上摒除目标的无用信息,进而提取更有判别力的时空特征;此外,本发明还进一步结合了关节点语义信息,有效增强了关节点特征的表征能力,进而提高人体行为识别模型的准确性。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的人体行为识别方法的一种流程示意图;
图2是本发明实施例提供的行为识别模型的一种示意图;
图3是本发明实施例提供的人体行为识别方法的另一种流程示意图;
图4是本发明实施例提供的电子设备的一种结构示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本发明实施例提供的人体行为识别方法,包括:
S101、获取待处理视频中预设数量个视频帧以及各视频帧中人体关节点位置数据;
S102、将预设数量个视频帧输入预先训练好的行为识别模型,以使行为识别模型在生成预设数量个视频帧对应的时空特征图和注意力热图后,获得视频帧中的人体关节点特征,以确定包含语义信息的人体关节点特征,并在获得每个包含语义信息的人体关节点特征的局部决策结果后,融合局部决策结果,得到视频帧的人体行为识别结果。
需要说明的是,各视频帧中的人体关节点位置数据可通过人工标注或人体关节点估计算法预先获得,其包括人体关节点在视频帧中的横、纵坐标。
具体而言,若待处理视频集合为I={I1,I2,...,Ii,...,IV},V表示总视频数,Ii表示第i个待处理视频,待处理视频的长度集合为F={F1,F2,...,Fi,...,FV},Fi表示第i个待处理视频的长度,其中,待处理视频的长度是指其包含的视频帧总数。人体关节点位置数据集合为J={J1,J2,...,Ji...,JV},Ji表示第i个待处理视频中的人体关节点数据,Ji的维度是Fi*Z*2,Z表示每一视频帧中的人体关节点数目,2表示每个关节点位置的横坐标和纵坐标。
进一步地,获取待处理视频中预设数量个视频帧,将预设数量个视频帧进行缩放、随机裁剪和均值归一化处理,得到维度为T*3*224*224的视频数据。可选地,T表示从待处理视频中选取出视频帧的预设数量,本实施例中,T=16。应当理解,人体关节点位置数据与视频帧中的人体一一对应,对视频帧进行缩放时,视频中的人体大小同比例缩放,人体关节点位置也同比例缩放;对视频帧进行随机裁剪时,视频帧中人体位置发生改变,人体关节点位置根据裁剪中心得到改变后的位置,显然,人体关节点位置数据的维度为T*Z*2。
在上述步骤S102中,将预设数量个视频帧输入预先训练好的行为识别模型后,行为识别模型在生成预设数量个视频帧对应的时空特征图和注意力热图,并获得视频帧中的人体关节点特征,以确定包含语义信息的人体关节点特征,并在获得每个包含语义信息的人体关节点特征的局部决策结果后,融合局部决策结果,得到视频帧的人体行为识别结果。
可见,本发明实施例提供的人体行为识别方法通过预先训练好的行为识别模型提取视频片段的时空特征,并将人体骨骼区域视为注意力区域,生成注意力热图,由于骨骼点信息体现了人体的姿态特征,因而可在极大程度上摒除目标的无用信息,进而提取更有判别力的时空特征;此外,本发明还进一步结合了关节点语义信息,有效增强了关节点特征的表征能力,进而提高人体行为识别模型的准确性。
图2是本发明实施例提供的行为识别模型的一种示意图。可选地,请参见图2,行为识别模型包括特征流、注意力流、局部决策模块和决策融合模块。
具体而言,特征流包括多纤维网络(Multi-Fiber Networks,MF-Net),利用多纤维网络提取预设数量个视频帧的时空特征图,可以有效减少三维网络的参数量,避免过拟合。本实施例中,生成的时空特征图的维度为C×L×H×W,其中,C表示通道数、L表示时空特征图的时序维度、H表示时空特征图的高度、W表示宽度时空特征图。
根据人体关节点位置数据,行为识别模型的注意力流得到每个关节点的注意力热图,该注意力热图与时空特征图具有相同的时空维度。可选地,注意力热图的维度为M×L×H×W,M表示通道数、L表示注意力热图的时序维度、H表示注意力热图的高度、W表示注意力热图的宽度;其中,人体关节点特征是选择体关节点在注意力热图对应点的激活来实现的,相当于分配硬权重,也就是在关节点对应处被赋予权重1,不是关节点对应处权重赋予0。
确定包含语义信息的人体关节点特征之后,将包含语义信息的人体关节点特征的集合输入局部决策模块,局部决策模块通过一个全连接层对所有局部关节点的时空特征进行决策,得到局部行为识别结果。而后,决策融合模块将局部决策模块得到的所有局部行为识别结果相融合,得到最终的行为识别结果。
图3是本发明实施例提供的人体行为识别方法的另一种流程示意图。如图3所示,上述步骤S102中,将预设数量个视频帧输入预先训练好的行为识别模型,以使行为识别模型在生成预设数量个视频帧对应的时空特征图和注意力热图后,获得视频帧中的人体关节点特征,以确定包含语义信息的人体关节点特征,并在获得每个包含语义信息的人体关节点特征的局部决策结果后,融合局部决策结果,得到视频帧的人体行为识别结果的步骤,包括:
S301、将预设数量个视频帧输入预先训练好的行为识别模型,以使特征流提取视频帧的时空特征图、并使注意力流根据人体关节点位置数据生成对应的注意力热图;
S302、对时空特征图及注意力热图进行双线性操作,得到视频帧中所有的人体关节点特征;
具体地,将注意力热图转换为第一矩阵,并将时空特征图转换为第二矩阵;其中,注意力热图的尺寸为M*L*H*W,时空特征图的尺寸为C*L*H*W,第一矩阵包括M行和L*H*W列,第二矩阵包括C行和L*H*W列,M=N×L,N表示每个视频帧中的人体关节点个数,L表示时空特征图的时序维度,H表示时空特征图的高度,W表示时空特征图的宽度;
按照如下公式对第一矩阵和第二矩阵进行双线性操作:
X=ABT
式中,A表示第一矩阵,BT表示第二矩阵的转置,X为所有的人体关节点特征。
S303、根据各视频帧中人体关节点位置数据以及人体关节点特征,获得包含语义信息的人体关节点特征;
可以理解的是,对于关节点,其语义信息由空间索引和时间索引组成,空间索引可以表示为关节点类型,时间索引则可以表示为帧索引。
可选地,人体关节点的语义信息表示为:
Figure BDA0003129189490000091
其中,Q表示人体关节点的语义信息集合,
Figure BDA0003129189490000092
表示第t个视频帧中关节点类型为k的关节点的语义信息,T表示视频帧总数,Z表示在视频帧中人体关节点的数目。
可以理解的是,对于骨骼数据,直观来说行为识别的关键是语义信息,即关节类型和帧索引。人体关节的时空结构由语义和动力学一起表示。在行为识别时,一方面,两个坐标相同但语义不同的关节会传递不同的信息,比如,对于头部上方的关节,如果该关节是手关节,则该行为可能是举起手;如果该关节是脚关节,则该行为可能是踢腿。另一方面,时序信息也非常重要。比如坐下和站立这两种行为,它们只是行为出现的时间顺序不同。可见,人体关节点的语义信息非常重要。
示例性地,本实施例中可以按照如下步骤来定义语义信息:
首先,分别对关节点类型和关节点帧索引进行编码。按照如下公式对每一视频帧中的关节点类型进行编码,得到关节点类型编码:
zk∈RZ;k=1,2,...,Z
式中,zk表示类型为k的关节点编码向量,其维度为Z,即视频帧中共有Z个类型的关节点,R表示实数;可选地,本实施例采用one-hot方式进行编码,将编码向量第k个位置的值设为1,其它位置全部设为0。
按照如下公式对每一视频帧中的关节点进行帧索引编码,得到关节点帧索引编码:
qt∈RT,t=1,2,...,T
其中,qt表示第t个视频帧中人体关节点的帧索引编码向量,其维度为T;可选地,本实施例采用one-hot方式进行编码,将编码向量第k个位置的值设为1,其它位置全部设为0。
按照如下公式融合所述关节点类型编码及所述关节点帧索引编码,获得包含语义信息的人体关节点特征:
Figure BDA0003129189490000101
其中,
Figure BDA0003129189490000102
表示拼接操作,
Figure BDA0003129189490000103
表示第t个视频帧中,类型为k的关节点的语义信息,且维度为(Z+T)。
此外,在本申请的一些其他实施例中,还可以采用其他语义信息编码策略,例如不使用拼接操作进行语义描述,而是直接定义一个编码向量来表示语义信息。具体如下所示:
Figure BDA0003129189490000111
其中,qt表示第t个视频帧中人体关节点的帧索引编码向量,其维度为Z×T。同样,可采用one-hot编码方式,将编码向量第((t-1)×Z+k)个位置的值设为1,其它位置的值设为0。
示例性地,关节点类型包括头、脖子、左肩、右肩中的至少一种。
S304、将包含语义信息的人体关节点特征输入局部决策模块,获得每个包含语义信息的人体关节点特征的局部决策结果;
S305、将各个局部决策结果输入决策融合模块,得到视频帧的人体行为识别结果。
具体地,步骤S305中,决策融合模块可以计算所有局部决策结果的平均值,并根据平均值确定所述视频帧的人体行为识别结果;或者,局部决策模块还可以根据预设权重,对各个局部决策结果进行加权求和,并根据加权求和结果确定视频帧的人体行为识别结果。
本实施例中,人体行为识别模可以通过训练局部决策聚合网络(Local decisionnetwork,LDNet)获得。
具体地,人体行为识别模型采用如下步骤训练获得:
获取训练样本,每个训练样本包括待预设数量个待测试视频帧、待测试视频帧对应的第一人体关节点位置数据以及与待测试视频帧对应的真实行为类别;
将训练样本输入待训练神经网络模型,待训练神经网络模型为预设的初始神经网络模型;
利用待训练神经网络模型输出结果,确定各训练样本的预测行为类别;
根据各训练样本的预测行为类别、真实行为类别和预设损失函数,确定第一损失值;
根据第一损失值判断待训练神经网络模型是否收敛;如果收敛,则待训练神经网络模型为训练完成的人体行为识别模型;
如果未收敛,则调整待训练神经网络模型的网络参数,并返回将训练样本输入待训练神经网络模型的步骤。
本实施例中,预设损失函数可以为交叉熵损失函数,交叉熵损失函数包括全局交叉熵损失函数和局部交叉熵损失函数。其中,全局交叉熵损失函数为:
Figure BDA0003129189490000121
其中,U表示训练样本的数量,K表示预设的行为类别总数,
Figure BDA0003129189490000122
表示第i个待测试视频帧中第j个位置的真实行为类别,
Figure BDA0003129189490000123
表示第i个待测试视频帧中第j个位置的预测行为类别。
进一步地,局部交叉熵损失函数为:
Figure BDA0003129189490000124
其中,M表示预设数量个待测试视频帧中的关节点总数,
Figure BDA0003129189490000125
表示第i个样本在第m个关节点的第j个位置的真实行为类别。
本实施例中,预设损失函数为全局交叉熵损失函数与局部交叉熵损失函数之和,如此有利于提升人体行为识别模型的识别性能。
下面,在subJHMDB数据集和Penn Action数据集上对本发明提供的人体行为识别方法的识别准确率进行验证。
表1不同关节点语义信息模块识别准确率
方法 subJHMDB Penn Action
LDNet(Conv5)+L(S)+D(NW) 0.839 0.965
LDNet(Conv5)+L(S)+D(NW)+SI1 0.845 0.970
LDNet(Conv5)+L(S)+D(NW)+SI2 0.837 0.957
LDNet(Conv5)+L(S)+D(W) 0.843 0.973
LDNet(Conv5)+L(S)+D(W)+SI1 0.848 0.974
LDNet(Conv5)+L(S)+D(W)+SI2 0.842 0.968
其中,Conv4和Conv5分别表示特征流Conv4和Conv5之后的时空特征图,L(S)表示局部决策模块使用参数共享的线性分类器,L(NS)表示局部决策模块使用参数不共享的线性分类器,D(W)和D(NW)分别表示决策融合模块使用基于权重的融合策略和平均融合策略,LS表示局部监督,GS表示全局监督,SI1表示分别对关节点类型和关节点帧索引编码之后再融合的编码策略,SI2表示联合关节点类型编码和关节点帧索引编码的编码策略。
由表1可以看出,在subJHMDB数据集上,当LDNet使用平均融合策略聚合局部决策结果时,识别准确率为83.9%,当LDNet进一步采用SI1编码策略时,识别准确率提升了0.6%,达到84.5%,而当LDNet结合SI2编码策略时,识别准确率下降0.2%,当LDNet使用基于权重的融合策略聚合局部决策时,识别准确率为84.3%,在基于权重的融合策略条件下,LDNet结合SI1编码策略,识别准确率提升了0.5%,达到84.8%,当LDNet结合SI2编码策略时,识别准确率下降了0.1%。
在Penn Action数据集上,当LDNet使用平均融合策略聚合局部决策时,识别准确率为96.5%,LDNet进一步结合SI1编码策略,识别准确率提升了0.5%,达到97.0%,LDNet结合SI2编码策略,识别准确率则下降了0.8%。当LDNet使用基于权重的融合策略聚合局部决策时,识别准确率为97.3%。在基于权重的融合策略条件下,LDNet结合SI1编码策略,识别准确率提升了0.1%,达到97.4%,而LDNet结合SI2编码策略时,识别准确率为96.8%,下降了0.5%。
上述结果验证了SI1编码策略的有效性,证明了关节点语义信息可以提高关节点特征的表征能力。而LDNet与SI2编码策略结合时,不论是在subJHMDB数据集还是在PennAction数据集上,识别准确率都有一定程度的下降,造成这一现象的原因是因为使用SI2编码策略与LDNet进行拼接时,会显著增大关节点的特征维度,造成网络的过拟合,从而影响识别准确率。
另外,本实施例使用SI1编码策略,进一步在subJHMDB数据集和Penn Action数据集上验证语义信息的重要有效性。
表2
方法 subJHMDB Penn Action
LDNet(Conv5)+L(S)+D(NW) 0.839 0.965
LDNet(Conv5)+L(S)+D(NW)+SI1 0.845 0.970
LDNet(Conv5)+L(S)+D(W) 0.843 0.973
LDNet(Conv5)+L(S)+D(W)+SI1 0.848 0.974
LDNet(Conv4+5)+L(S)+D(NW) 0.847 0.977
LDNet(Conv4+5)+L(S)+D(NW)+SI1 0.851 0.980
LDNet(Conv4+5)+L(S)+D(W) 0.850 0.982
LDNet(Conv4+5)+L(S)+D(W)+SI1 0.854 0.985
其中,Conv4+5表示整合Conv4和Conv5块之后时空特征图得到的局部决策。从表2可以看出,在subJHMDB数据集上,当LDNet使用平均融合策略聚合Conv5块之后得到的局部决策结果时,识别准确率为83.9%,该网络进一步结合SI1编码策略后,准确率提升至84.5%。当LDNet使用基于权重的融合策略聚合Conv5块之后得到的局部决策,准确率为84.3%,该网络进一步结合SI1编码策略后,准确率提升到84.8%。当LDNet使用平均融合策略聚合Conv4和Conv5块之后得到的局部决策结构时,准确率为84.7%,该网络结合SI1模块后,准确率提升了0.4%,达到85.1%。当LDNet使用基于权重的融合策略聚合Conv4和Conv5块之后得到的局部决策结果时,准确率为85.0%,该网络结合SI1编码策略后,准确率提升到85.4%。
可见,不论是在subJHMDB数据集还是在Penn Action数据集,当LDNet与SI1模块结合后,识别准确率都有一定程度的提升,从而进一步证明了SI1编码策略的有效性。
本发明提供了一种人体行为识别方法,通过获取待处理视频中预设数量个视频帧以及各视频帧中人体关节点位置数据,将预设数量个视频帧输入预先训练好的行为识别模型,以使行为识别模型提取视频片段的时空特征,并将人体骨骼区域视为注意力区域,生成注意力热图,由于骨骼点信息体现了人体的姿态特征,因而可在极大程度上摒除目标的无用信息,进而提取更有判别力的时空特征;此外,本发明还进一步结合了关节点语义信息,有效增强了关节点特征的表征能力,进而提高人体行为识别模型的准确性。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
获取待处理视频中预设数量个视频帧以及各视频帧中人体关节点位置数据;
将所述预设数量个视频帧输入预先训练好的行为识别模型,以使所述行为识别模型在生成所述预设数量个视频帧对应的时空特征图和注意力热图后,获得所述视频帧中的人体关节点特征,以确定包含语义信息的人体关节点特征,并在获得每个所述包含语义信息的人体关节点特征的局部决策结果后,融合局部决策结果,得到所述视频帧的人体行为识别结果。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供的方法可以应用于电子设备。具体的,该电子设备可以为:台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定,任何可以实现本发明的电子设备,均属于本发明的保护范围。
对于电子设备/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,本发明实施例的电子设备及存储介质分别是应用上述人体行为识别方法的电子设备及存储介质,则上述人体行为识别方法的所有实施例均适用于该电子设备及存储介质,且均能达到相同或相似的有益效果。
应用本发明实施例所提供的终端设备,可以展示专有名词和/或固定词组供用户选择,进而减少用户输入时间,提高用户体验。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域技术人员应明白,本申请的实施例可提供为方法或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式,这里将它们都统称为“模块”或“系统”。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中,与其它硬件一起提供或作为硬件的一部分,也可以采用其他分布形式,如通过Internet或其它有线或无线电信系统。
本申请是参照本申请实施例的方法和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种人体行为识别方法,其特征在于,包括:
获取待处理视频中预设数量个视频帧以及各视频帧中人体关节点位置数据;
将所述预设数量个视频帧输入预先训练好的行为识别模型,以使所述行为识别模型在生成所述预设数量个视频帧对应的时空特征图和注意力热图后,获得所述视频帧中的人体关节点特征,以确定包含语义信息的人体关节点特征,并在获得每个所述包含语义信息的人体关节点特征的局部决策结果后,融合局部决策结果,得到所述视频帧的人体行为识别结果。
2.根据权利要求1所述的人体行为识别方法,其特征在于,所述行为识别模型包括特征流、注意力流、局部决策模块和决策融合模块。
3.根据权利要求2所述的人体行为识别方法,其特征在于,所述特征流包括多纤维网络。
4.根据权利要求3所述的人体行为识别方法,其特征在于,所述将所述预设数量个视频帧输入预先训练好的行为识别模型,以使所述行为识别模型在生成所述预设数量个视频帧对应的时空特征图和注意力热图后,获得所述视频帧中的人体关节点特征,以确定包含语义信息的人体关节点特征,并在获得每个所述包含语义信息的人体关节点特征的局部决策结果后,融合局部决策结果,得到所述视频帧的人体行为识别结果的步骤,包括:
将所述预设数量个视频帧输入预先训练好的行为识别模型,以使所述特征流提取所述视频帧的时空特征图、并使所述注意力流根据所述人体关节点位置数据生成对应的注意力热图;
对所述时空特征图及所述注意力热图进行双线性操作,得到所述视频帧中所有的人体关节点特征;
根据各视频帧中人体关节点位置数据以及所述人体关节点特征,获得包含语义信息的人体关节点特征;
将所述包含语义信息的人体关节点特征输入所述局部决策模块,获得每个包含语义信息的人体关节点特征的局部决策结果;
将各个局部决策结果输入所述决策融合模块,得到所述视频帧的人体行为识别结果。
5.根据权利要求4所述的人体行为识别方法,其特征在于,所述将各个局部决策结果输入所述决策融合模块,得到所述视频帧的人体行为识别结果的步骤,包括:
计算所有局部决策结果的平均值,并根据所述平均值确定所述视频帧的人体行为识别结果;或者,
根据预设权重,对各个局部决策结果进行加权求和,并根据加权求和结果确定所述视频帧的人体行为识别结果。
6.根据权利要求4所述的人体行为识别方法,其特征在于,所述对所述时空特征图及所述注意力热图进行双线性操作,得到所述视频帧中所有的人体关节点特征的步骤,包括:
将所述注意力热图转换为第一矩阵,并将所述时空特征图转换为第二矩阵;其中,所述注意力热图的尺寸为M*L*H*W,所述时空特征图的尺寸为C*L*H*W,所述第一矩阵包括M行和L*H*W列,所述第二矩阵包括C行和L*H*W列,M=N×L,N表示每个视频帧中的人体关节点个数,L表示时空特征图的时序维度,H表示时空特征图的高度,W表示时空特征图的宽度;
按照如下公式对所述第一矩阵和所述第二矩阵进行双线性操作:
X=ABT
式中,A表示第一矩阵,BT表示第二矩阵的转置,X为所有的人体关节点特征。
7.根据权利要求6所述的人体行为识别方法,其特征在于,所述根据各视频帧中人体关节点位置数据以及所述人体关节点特征,获得包含语义信息的人体关节点特征的步骤,包括:
按照如下公式对每一所述视频帧中的关节点类型进行编码,得到关节点类型编码:
zk∈RZ;k=1,2,...,Z
其中,zk表示类型为k的关节点编码向量,其维度为Z,R表示实数;
按照如下公式对每一所述视频帧中的关节点进行帧索引编码,得到关节点帧索引编码:
qt∈RT,t=1,2,...,T
其中,qt表示第t个视频帧中人体关节点的帧索引编码向量,其维度为T;
按照如下公式融合所述关节点类型编码及所述关节点帧索引编码,获得包含语义信息的人体关节点特征:
Figure FDA0003129189480000041
其中,
Figure FDA0003129189480000042
表示拼接操作,
Figure FDA0003129189480000043
表示第t个视频帧中,类型为k的关节点的语义信息,且维度为(Z+T)。
8.根据权利要求1所述的人体行为识别方法,其特征在于,所述人体行为识别模型采用如下步骤训练获得:
获取训练样本,每个所述训练样本包括待预设数量个待测试视频帧、所述待测试视频帧对应的第一人体关节点位置数据以及与所述待测试视频帧对应的真实行为类别;
将所述训练样本输入待训练神经网络模型,所述待训练神经网络模型为预设的初始神经网络模型;
利用所述待训练神经网络模型输出结果,确定各训练样本的预测真实行为类别;
根据所述各训练样本的预测真实行为类别、真实行为类别和预设损失函数,确定第一损失值;
根据所述第一损失值判断所述待训练神经网络模型是否收敛;如果收敛,则待训练神经网络模型为训练完成的人体行为识别模型;
如果未收敛,则调整待训练神经网络模型的网络参数,并返回所述将所述训练样本输入待训练神经网络模型的步骤。
9.根据权利要求8所述的人体行为识别方法,其特征在于,所述预设损失函数为交叉熵损失函数,所述交叉熵损失函数包括全局交叉熵损失函数和局部交叉熵损失函数。
10.根据权利要求7所述的人体行为识别方法,其特征在于,所述关节点类型包括头、脖子、左肩、右肩中的至少一种。
CN202110699419.0A 2021-06-23 2021-06-23 人体行为识别方法 Pending CN113591560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110699419.0A CN113591560A (zh) 2021-06-23 2021-06-23 人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110699419.0A CN113591560A (zh) 2021-06-23 2021-06-23 人体行为识别方法

Publications (1)

Publication Number Publication Date
CN113591560A true CN113591560A (zh) 2021-11-02

Family

ID=78244360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110699419.0A Pending CN113591560A (zh) 2021-06-23 2021-06-23 人体行为识别方法

Country Status (1)

Country Link
CN (1) CN113591560A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694253A (zh) * 2022-03-31 2022-07-01 深圳市爱深盈通信息技术有限公司 行为识别模型训练方法、行为识别方法以及相关装置
CN115119052A (zh) * 2022-04-29 2022-09-27 河海大学 基于注意力机制与空间冗余的图像数据压缩方法及系统
CN115147935A (zh) * 2022-09-05 2022-10-04 浙江壹体科技有限公司 一种基于关节点的行为识别方法、电子设备及存储介质
CN115410137A (zh) * 2022-11-01 2022-11-29 杭州新中大科技股份有限公司 基于时空特征的双流工人劳动状态识别方法
CN115862150A (zh) * 2023-01-06 2023-03-28 吉林大学 一种基于三维人体蒙皮的潜水员动作识别方法
CN118155142A (zh) * 2024-05-09 2024-06-07 浙江大华技术股份有限公司 对象密度识别方法及事件识别方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694253A (zh) * 2022-03-31 2022-07-01 深圳市爱深盈通信息技术有限公司 行为识别模型训练方法、行为识别方法以及相关装置
CN115119052A (zh) * 2022-04-29 2022-09-27 河海大学 基于注意力机制与空间冗余的图像数据压缩方法及系统
CN115119052B (zh) * 2022-04-29 2023-10-24 河海大学 基于注意力机制与空间冗余的图像数据压缩方法及系统
CN115147935A (zh) * 2022-09-05 2022-10-04 浙江壹体科技有限公司 一种基于关节点的行为识别方法、电子设备及存储介质
CN115410137A (zh) * 2022-11-01 2022-11-29 杭州新中大科技股份有限公司 基于时空特征的双流工人劳动状态识别方法
CN115862150A (zh) * 2023-01-06 2023-03-28 吉林大学 一种基于三维人体蒙皮的潜水员动作识别方法
CN115862150B (zh) * 2023-01-06 2023-05-23 吉林大学 一种基于三维人体蒙皮的潜水员动作识别方法
CN118155142A (zh) * 2024-05-09 2024-06-07 浙江大华技术股份有限公司 对象密度识别方法及事件识别方法

Similar Documents

Publication Publication Date Title
CN113591560A (zh) 人体行为识别方法
CN109657533B (zh) 行人重识别方法及相关产品
WO2021057810A1 (zh) 数据处理、训练、识别方法、装置和存储介质
WO2021114892A1 (zh) 基于环境语义理解的人体行为识别方法、装置、设备及存储介质
CN106469299B (zh) 一种车辆搜索方法及装置
WO2020107847A1 (zh) 基于骨骼点的跌倒检测方法及其跌倒检测装置
CN107045631B (zh) 人脸特征点检测方法、装置及设备
CN112000819A (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
US11163989B2 (en) Action localization in images and videos using relational features
CN104952083B (zh) 一种基于显著性目标背景建模的视频显著性检测方法
Grinciunaite et al. Human pose estimation in space and time using 3d cnn
Sang et al. PCANet: Pyramid convolutional attention network for semantic segmentation
CN109902547A (zh) 动作识别方法和装置
CN112464760A (zh) 一种目标识别模型的训练方法和装置
CN116188695A (zh) 三维手部姿态模型的构建方法和三维手部姿态估计方法
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN114116995B (zh) 基于增强图神经网络的会话推荐方法、系统及介质
CN115359563A (zh) 多人行为识别方法、装置、计算机设备及存储介质
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
Dong et al. ADORE: An adaptive holons representation framework for human pose estimation
CN115797818A (zh) 视频时序动作提名生成方法及系统
CN113158710B (zh) 一种视频分类的方法、装置、终端及存储介质
CN112906586A (zh) 时序动作提名生成方法和相关产品
CN117312630A (zh) 推荐信息的获取方法、模型训练方法、装置、电子设备及存储介质
CN112101154A (zh) 视频分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination