CN113903083B

CN113903083B - 行为识别方法、装置、电子设备以及存储介质

Info

Publication number: CN113903083B
Application number: CN202111514083.2A
Authority: CN
Inventors: 王金桥; 周鲁; 陈盈盈; 王素琴
Original assignee: Objecteye Beijing Technology Co Ltd
Current assignee: Objecteye Beijing Technology Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-05-27
Anticipated expiration: 2041-12-13
Also published as: CN113903083A

Abstract

本发明提供一种行为识别方法、装置、电子设备以及存储介质，其中方法包括：确定待识别人员的骨架数据和人体图像；基于行为识别模型，对骨架数据和人体图像中的各人体区域分别进行特征提取，基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对骨架特征和各区域图像特征进行融合，并基于融合所得的特征进行行为识别；行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的，以骨架特征和各区域图像特征之间的相关性为基准，对此两者进行融合，能够使融合所得的行为识别特征增添动作相关区域的细微特征，据此进行行为识别，能够克服传统方案中对于具有相似姿态的行为识别易出现误判的缺陷，提升了行为识别的精度。

Description

行为识别方法、装置、电子设备以及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种行为识别方法、装置、电子设备以及存储介质。

背景技术

行为识别实际上是从一个未知的视频中分析正在进行的动作类别。人类的行为可以通过多种数据模态进行表示，例如，RGB、骨架、深度、光流等。不同的数据模态在不同的场景下具有不同的优势，而对于不同的模态数据，需采用不同的方法进行特征提取。

其中，RGB数据常通过CNN（Convolutional Neural Networks，卷积神经网络）进行特征提取，RGB数据中包含丰富的场景上下文表观信息，基于RGB数据的CNN提取到的时空特征可以有效地进行行为识别。但是，上述进行特征提取的方法受多种因素的影响，例如，背景、视角、目标尺度、光照条件等，这给基于RGB 数据的行为识别带来了极大的挑战。

骨架数据常通过GCN（Graph Convolutional Network，图卷积网络）进行特征提取，骨架数据刻画了人体姿态轨迹的信息，其不受光照、视角、背景等因素的影响，因而，基于骨架数据的GCN行为识别能够在一定程度上提升行为识别的精度，但是，其对于姿态相似的行为识别容易出现误判。

发明内容

本发明提供一种行为识别方法、装置、电子设备以及存储介质，用以解决现有技术中对于具有相似姿态的行为识别易出现误判的缺陷。

本发明提供一种行为识别方法，包括：

确定待识别人员的骨架数据和人体图像；

基于行为识别模型，对所述骨架数据和所述人体图像中的各人体区域分别进行特征提取，基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对所述骨架特征和各区域图像特征进行融合，并基于融合所得的特征进行行为识别；

所述行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的。

根据本发明提供的一种行为识别方法，所述基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对所述骨架特征和各区域图像特征进行融合，包括：

基于所述骨架特征，以及所述各区域图像特征，确定各区域加权图像特征；

对所述骨架特征和所述各区域加权图像特征进行融合。

根据本发明提供的一种行为识别方法，所述基于所述骨架特征，以及所述各区域图像特征，确定各区域加权图像特征，包括：

基于所述各区域图像特征，确定各区域注意力图像特征和各区域原始特征；

基于所述骨架特征，以及所述各区域注意力图像特征，确定各区域的权重；

基于所述各区域的权重，以及所述各区域原始特征，确定各区域加权图像特征。

根据本发明提供的一种行为识别方法，所述对所述人体图像中的各人体区域进行特征提取，包括：

对所述人体图像进行区域划分，确定所述人体图像中的各人体区域，以及所述各人体区域的顶点坐标；

基于所述各人体区域的顶点坐标，通过双线性插值对所述人体图像中的各人体区域进行特征提取。

根据本发明提供的一种行为识别方法，所述基于行为识别模型，对所述骨架数据和所述人体图像中的各人体区域分别进行特征提取，包括：

基于行为识别模型中的骨架特征提取网络，对所述骨架数据进行特征提取；

基于行为识别模型中的图像特征提取网络，对所述人体图像中的各人体区域进行特征提取。

根据本发明提供的一种行为识别方法，所述行为识别模型基于如下步骤确定：

基于所述样本骨架数据中的样本关节点数据，对样本图像进行人体框裁剪，得到所述样本人体图像；

基于所述样本骨架数据，所述样本人体图像以及所述行为标签，对初始行为识别模型进行训练，得到所述行为识别模型；

所述初始行为识别模型是基于分类器构建的。

根据本发明提供的一种行为识别方法，所述骨架特征提取网络是基于Shift-GCN构建的，所述图像特征提取网络是基于TSM构建的。

本发明还提供一种行为识别装置，包括：

确定单元，用于确定待识别人员的骨架数据和人体图像；

行为识别单元，用于基于行为识别模型，对所述骨架数据和所述人体图像中的各人体区域分别进行特征提取，基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对所述骨架特征和各区域图像特征进行融合，并基于融合所得的特征进行行为识别；所述行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的行为识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的行为识别方法的步骤。

本发明提供的行为识别方法、装置、电子设备以及存储介质，通过行为识别模型，对待识别人员的骨架数据和人体图像中的各人体区域分别进行特征提取，得到待识别人员的骨架特征和各区域图像特征；基于骨架特征和各区域图像特征之间的相关性，对骨架特征和各区域图像特征进行融合，得到待识别人员的行为识别特征；行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的，以骨架特征和各区域图像特征之间的相关性为基准，对此两者进行融合，能够使得融合所得的行为识别特征不仅蕴含行为动作的姿态轨迹，还增添了动作相关区域的细微特征，基于此行为识别特征进行行为识别，能够克服传统方案中基于骨架特征的行为识别，对于具有相似姿态的行为易出现误判的缺陷，提升了行为识别的精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的行为识别方法的流程示意图；

图2是本发明提供的各区域注意力图像特征和各区域原始特征的确定过程的示意图；

图3是本发明提供的人体图像的区域划分过程的示意图；

图4是本发明提供的基于感兴趣区域池化方法的特征提取过程的示意图；

图5是本发明提供的行为识别方法的总体框架图；

图6是本发明提供的行为识别方法的总体流程图；

图7是本发明提供的行为识别装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

行为识别是计算机视觉中最活跃的研究课题之一，也是基于视觉的模式识别应用的一个重要方向，主要用于视频理解。行为识别实际上是从一个未知的视频中分析正在进行的动作类别。人类的行为可以通过多种数据模态来表示，例如，RGB、骨架、深度、光流等。不同的数据模态在不同的场景下具有不同的优势，而对于不同的模态数据，需采用不同的方法进行特征提取。

以RGB数据和骨架数据为例，进行说明：

RGB数据中包含丰富的场景上下文表观信息，其通常通过CNN进行特征提取，CNN根据RGB数据进行特征提取得到的时空特征可以有效地进行行为识别，但是，上述进行行为识别的过程受背景、视角、目标尺度、光照条件等变化因素的影响，这无疑给基于RGB 数据进行行为识别的过程带来了极大的挑战。

骨架数据刻画了人体姿态轨迹的信息，其不易受光照、视角、背景等因素的影响，常通过GCN进行特征提取。GCN是一种能够对图数据进行深度学习的方法，已经在多个领域取得较大成果，例如，计算机视觉领域、自然语言处理领域、生物化学领域等。GCN对图数据的处理过程包括三个部分：

第一步，发射（对节点的特征信息进行抽取变换）：每一节点将自身的特征信息经过变换后发送给相邻节点；

第二步，接收（对节点的局部结构信息进行融合）：每一节点对其相邻节点的特征信息进行聚集；

第三步，变换（增强表达能力）：对聚集所得的特征进行非线性变换。

通过上述三个步骤即可从图数据中提取出具备较强判别能力的特征。由此可知，基于骨架数据以及GCN进行行为识别的过程，实际上是从动态的骨架数据中捕捉人体姿态变化的特征，并基于此特征进行行为识别的过程，此方法极大地提升了行为识别的精度。

然而，上述基于GCN和骨架数据进行行为识别的方法，对于具有相似姿态的行为易出现误判情况。

针对上述情况，本发明提供一种行为识别方法，旨在结合骨架数据和人体图像进行行为识别，并通过增添动作相关区域的细微特征来区分具有相似姿态的行为，从而提高行为识别的准确率。图1是本发明提供的行为识别方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待识别人员的骨架数据和人体图像；

具体地，在进行行为识别之前，首先需要确定需进行行为识别的人员，即待识别人员，以及待识别人员的骨架数据和人体图像，此处的骨架数据为表征待识别人员骨骼关节点的数据，人体图像为包含待识别人员的行为动作以及人体区域的图像。人体图像可以从待识别人员的行为动作视频中提取得到，具体过程可以是对待识别人员的行为动作视频进行抽帧，并根据骨架数据，对抽帧所得的图像进行人体框裁剪，从而得到待识别人员的人体图像。

人体框裁剪实际上是对图像中的人体区域进行裁剪，通过人体框框出图像中的人体区域，得到人体图像的过程，这一过程是以骨架数据中的关节点数据为基准执行的，具体过程包括如下步骤：首先，从待识别人员的骨架数据中的所有关节点数据中，选取横坐标最小值和最大值，以及纵坐标最小值和最大值；随即，将横坐标最小值与纵坐标最小值组成的点作为人体框的左上角顶点，将横坐标最大值与纵坐标最大值组成的点作为人体框的右下角顶点，基于此两点在图像中进行人体框裁剪。

步骤120，基于行为识别模型，对骨架数据和人体图像中的各人体区域分别进行特征提取，基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对骨架特征和各区域图像特征进行融合，并基于融合所得的特征进行行为识别；行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的。

具体地，经过步骤110，得到待识别人员的骨架数据和人体图像后，即可执行步骤120，步骤120的执行过程包括如下步骤：

首先，通过行为识别模型，对骨架数据和人体图像中的各人体区域分别进行特征提取，从而得到待识别人员的骨架特征和人体图像中的各区域图像特征；此过程可以通过行为识别模型中的骨架特征提取网络和图像特征提取网络实现，具体可以是，将待识别人员的骨架数据和人体图像分别输入行为识别模型中的骨架特征提取网络和图像特征提取网络，通过骨架特征提取网络对输入的骨架数据进行特征提取，通过图像特征提取网络对人体图像中的各人体区域进行特征提取，然后由骨架特征提取网络和图像特征提取网络分别输出待识别人员的骨架特征和人体图像中的各区域图像特征；

需要说明的是，在对待识别人员的人体图像中的各人体区域进行特征提取之前，还需对人体图像进行区域划分，以确定人体图像中的各人体区域。同样，在这之前，还可以根据样本骨架数据，样本人体图像以及行为标签，训练得到行为识别模型；行为识别模型的训练过程包括如下步骤：首先，收集大量的样本骨架数据以及样本人体图像，并标注样本骨架数据以及样本人体图像所表征的样本人员的行为标签；随即，基于样本骨架数据，样本人体图像以及行为标签，对初始行为识别模型进行训练，从而得到训练完成的行为识别模型，此处的初始行为识别模型可以在预训练的分类器的基础上构建的。

随即，考虑到各区域图像特征与骨架特征所表示的信息的不同，以及表征的待识别人员的行为动作的侧重点不同，因此，可以对此两者进行融合，以使各区域图像特征和骨架特征能够互相补充，融合过程可以是以骨架特征和各区域图像特征之间的相关性为基准，通过行为识别模型执行的，即根据骨架特征和各区域图像特征之间的相关性，对待识别人员的骨架特征和各区域图像特征进行融合，从而得到待识别人员的行为识别特征；

需要说明的是，基于两者之间的相关性进行融合实际上等同于基于注意力机制对此两者进行融合，此处，选用的注意力机制为类似于非局部块的结构，融合所得的行为识别特征，不仅蕴含了动作相关区域的表观信息，还囊括了待识别人员进行行为动作的姿态轨迹；并且，以骨架特征和各区域图像特征之间的相关性为前提，进行融合，能够使融合所得的行为识别特征增添待识别人员的动作相关区域的细微特征，此细微特征能够区分具有相似姿态的行为动作，从而为行为识别准确率的提升提供了强大的助力。

此后，即可基于此行为识别特征，通过行为识别模型，对待识别人员进行行为识别，需要说明的是，据此行为识别特征进行的行为识别，恰好能够弥补传统方案中基于骨架特征进行行为识别时，对于具有相似姿态的行为易出现误判的缺陷，提升了行为识别的精度。

本发明提供的行为识别方法，通过行为识别模型，对待识别人员的骨架数据和人体图像中的各人体区域分别进行特征提取，得到待识别人员的骨架特征和各区域图像特征；基于骨架特征和各区域图像特征之间的相关性，对骨架特征和各区域图像特征进行融合，得到待识别人员的行为识别特征；行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的，以骨架特征和各区域图像特征之间的相关性为基准，对此两者进行融合，能够使得融合所得的行为识别特征不仅蕴含行为动作的姿态轨迹，还增添了动作相关区域的细微特征，基于此行为识别特征进行行为识别，能够克服传统方案中基于骨架特征的行为识别，对于具有相似姿态的行为易出现误判的缺陷，提升了行为识别的精度。

基于上述实施例，步骤120中，基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对骨架特征和各区域图像特征进行融合，包括：

基于骨架特征，以及各区域图像特征，确定各区域加权图像特征；

对骨架特征和各区域加权图像特征进行融合。

具体地，步骤120中，根据骨架特征和各区域图像特征之间的相关性，对此两者进行融合的过程，具体可以包括如下步骤：

首先，根据骨架特征和各区域图像特征，确定各区域加权图像特征，具体过程可以是，以骨架特征为全局特征，指导各区域图像特征进行区域权重学习，并根据区域权重学习得到的权重，对各区域图像特征进行加权处理，从而得到各区域加权图像特征，这一过程能够增加动作相关区域的权重，并削弱不相关区域的权重，从而使得行为识别模型在进行行为识别时，着重关注能够区分具备相似姿态的行为的区域，进而为姿态相似的行为识别准确率的提升提供了助益；

随即，对各区域加权图像特征和骨架特征进行融合，此处的融合方式可以是拼接、相加、级联等，本发明实施例对此不作具体限定。作为优选，本发明实施例，将融合方式选定为级联，即将各区域加权图像特征和骨架特征级联，得到待识别人员的行为识别特征，基于此确定的行为识别特征不仅包含了人体姿态的变化信息，还包含了动作相关区域的细微特征，具备较强的判别能力，能够使得基于此行为识别特征进行的行为识别的准确率得以获得较大程度的提升。

进一步地，针对上述两者进行特征融合的情况，各区域加权图像特征可以弥补骨架特征中缺乏的待识别人员的动作相关区域的细微特征，从而保证由此得到行为识别特征能够更加完整地反映待识别人员的行为动作信息，进而使得基于此行为识别特征进行的行为识别，能够完全克服传统方案中对于具有相似姿态的行为识别易出现误判的缺陷，为行为识别准确率的提升提供了强有力的支撑。

基于上述实施例，步骤120中，基于所述骨架特征，以及各区域图像特征，确定各区域加权图像特征，包括：

基于各区域图像特征，确定各区域注意力图像特征和各区域原始特征；

基于骨架特征，以及各区域注意力图像特征，确定各区域的权重；

基于各区域的权重，以及各区域原始特征，确定各区域加权图像特征。

具体地，通过特征提取得到各区域图像特征后，可对各区域图像特征进行进一步处理，从而得到各区域注意力图像特征和各区域原始图像特征，图2是本发明提供的各区域注意力图像特征和各区域原始特征的确定过程的示意图，如图2所示，可对各区域图像特征进行平均池化（Average Pooling），即对各区域图像特征的各个通道特征求平均；随后，对于平均池化所得的特征，可通过两个全连接层进行特征学习，得到各区域原始特征，也可接入一个全连接层，然后使用激活函数进行激活，最后通过一个全连接层进行特征学习，得到各区域注意力图像特征；此处的激活函数可以根据实际需求相应选取，作为优选，本发明实施例中将激活函数确定为tanh（hyperbolic tangent function，双曲正切函数）。

进一步地，得到各区域注意力图像特征后，即可根据骨架特征以及各区域注意力图像特征，确定各区域的权重，这一过程实际上是以骨架特征为全局特征，指导各区域注意力图像特征进行区域权重学习，具体过程可以是，将骨架特征作为全局特征，将全局特征与各区域注意力图像特征进行内积，得到各区域的初始权重，此时得到的初始权重无法体现对应区域注意力图像特征在待识别人员的人体图像中的占比，因此，还需通过归一化指数函数（softmax）对各区域的初始权重进行归一化处理，得到各区域的权重，此时得到的权重能够较好的表示各区域注意力图像特征在人体图像中的占比。

此后，即可根据各区域的权重以及各区域原始特征，确定各区域加权图像特征，具体可以是，根据区域权重学习得到的各区域的权重，对各区域原始特征进行加权处理，即将各区域权重与各区域原始特征进行外积，得到各区域加权图像特征。

确定各区域加权图像特征后，即可将各区域加权图像特征与骨架特征进行融合，得到行为识别特征，并据此进行行为识别。

基于上述实施例，各区域的初始权重、各区域的权重、各区域原始特征以及行为识别特征的计算公式如下所示：

其中，各区域的初始权重的计算公式如下式所示：

其中，

表示第

个区域的初始权重，

表示全连接层，

表示第

个区域的区域图像特征，

表示第

个区域的注意力图像特征，

为骨架特征。

基于此得到的初始权重无法体现对应注意力图像特征在待识别人员的人体图像中的占比，因此，还需通过归一化指数函数（softmax）对各区域的初始权重进行归一化处理，得到各区域的权重。

各区域的权重的计算公式如下式所示：

其中，

表示第

个区域的权重，归一化处理后的各区域的权重能够表示各区域注意力图像特征在人体图像中的占比。

各区域原始特征可通过如下公式计算得到：

其中，

表示第

个区域的区域原始特征。

在确定各区域原始特征，以及各区域的权重后，即可求此两者的向量积，从而得到各区域加权图像特征；随后，再将各区域加权图像特征与骨架特征级联，即可得到行为识别特征。

行为识别特征的计算公式如下所示：

其中，

表示待识别人员的行为识别特征，

表示级联函数。

此后，即可基于此行为识别特征，对待识别人员进行行为识别。

基于上述实施例，步骤120中，对人体图像中的各人体区域进行特征提取，包括：

对人体图像进行区域划分，确定人体图像中的各人体区域，以及各人体区域的顶点坐标；

基于各人体区域的顶点坐标，通过双线性插值对人体图像中的各人体区域进行特征提取。

具体地，步骤120中，对人体图像中的各人体区域进行特征提取的过程，具体包括如下步骤：

首先，对人体图像进行区域划分，确定人体图像中的各人体区域，以及各人体区域的顶点坐标，图3是本发明提供的人体图像的区域划分过程的示意图，如图3所示，可以根据行为发生的主要区域，将人体图像划分为三个人体区域，分别为头部区域、上身区域以及下身区域，各人体区域的宽度为人体框的宽度；

对于第一个人体区域即头部区域，是将人体图像中待识别人员的脖子关节点与人体框的左上角顶点之间的纵坐标之差作为头部区域的高度，由此即可定位头部区域的位置；

对于第二个人体区域即上身区域，是将待识别人员的骨架数据指示的人体图像中待识别人员的中心节点与脖子关节点之间的纵坐标之差作为上身区域的高度，由此即可定位上身区域的位置；

对于第三个区域即下身区域，是将人体图像中待识别人员的中心节点与人体框的右下角顶点之间的纵坐标之差作为下身区域的高度，由此即可定位下身区域的位置。

通过确定各人体区域的宽度和高度即可实现对对应人体区域的精确定位，在此基础上，可以直接确定人体图像中的各人体区域的顶点坐标；

随即，可以通过ROI Pooling（Region Of Interest Pooling，感兴趣区域池化）方法，对人体图像中的各人体区域进行特征提取，图4是本发明提供的基于感兴趣区域池化方法的特征提取过程的示意图，如图4所示，以人体图像中各人体区域的高度、宽度以及任意一个顶点坐标为输入，使用双线性差值对人体图像中的各人体区域进行特征提取，从而得到人体图像中的各区域图像特征，具体过程可以是，通过行为识别模型中的图像特征提取网络对人体图像进行特征提取，得到人体图像的图像特征；然后，基于人体图像中各人体区域的高度、宽度以及任意一个顶点坐标，通过双线性插值对人体图像的图像特征进行区域特征提取，得到人体图像中的各区域图像特征。

基于上述实施例，步骤120中，基于行为识别模型，对骨架数据和人体图像中的各人体区域分别进行特征提取，包括：

基于行为识别模型中的骨架特征提取网络，对骨架数据进行特征提取；

基于行为识别模型中的图像特征提取网络，对人体图像中的各人体区域进行特征提取。

具体地，步骤120中，对骨架数据和人体图像中的各人体区域分别进行特征提取的过程，可以通过行为识别模型中的骨架特征提取网络和图像特征提取网络实现，这一过程具体包括：

通过行为识别模型中的骨架特征提取网络，对待识别人员的骨架数据进行特征提取，得到待识别人员的骨架特征，这一过程具体可以是，将待识别人员的骨架数据输入行为识别模型中的骨架特征提取网络，通过骨架特征提取网络对输入的骨架数据进行特征提取，得到骨架特征提取网络输出的待识别人员的骨架特征；

通过行为识别模型中的图像特征提取网络，对待识别人员的人体图像中的各人体区域进行特征提取，得到待识别人员的人体图像中的各区域图像特征，这一过程具体可以是，将待识别人员的人体图像输入行为识别模型中的图像特征提取网络，通过图像特征提取网络对人体图像中的各人体区域进行特征提取，得到图像特征提取网络输出的人体图像中的各区域图像特征。

需要说明的是，在将待识别人员的骨架数据和人体图像输入行为识别模型之前，还可以根据样本骨架数据，样本人体图像以及行为标签，训练得到行为识别模型；行为识别模型的训练过程包括如下步骤：首先，收集大量的样本骨架数据以及样本人体图像，并标注样本骨架数据以及样本人体图像所表征的样本人员的行为标签；随即，基于样本骨架数据，样本人体图像以及行为标签，对初始行为识别模型进行训练，从而得到训练完成的行为识别模型，此处的初始行为识别模型可以在预训练的分类器的基础上构建的。

基于上述实施例，行为识别模型基于如下步骤确定：

基于样本骨架数据中的样本关节点数据，对样本图像进行人体框裁剪，得到样本人体图像；

基于样本骨架数据，样本人体图像以及行为标签，对初始行为识别模型进行训练，得到行为识别模型；

初始行为识别模型是基于分类器构建的。

具体地，在根据行为识别模型，对待识别人员的骨架数据和人体图像中的各人体区域分别进行特征提取之前，还需进行预先训练以得到训练完成的行为识别模型，行为识别模型的训练过程包括如下步骤：

首先，收集大量的样本人员的样本骨架数据以及样本图像，样本骨架数据和样本图像可以是从公开数据集中下载得到的；

随即，以样本骨架数据中的样本关节点数据为基准，对样本图像进行人体框裁剪，具体可以是从样本骨架数据的所有关节点数据中，选取横坐标最小值和最大值，以及纵坐标最小值和最大值，并将横坐标最小值与纵坐标最小值组成的点作为样本人体框的左上角顶点，将横坐标最大值与纵坐标最大值组成的点作为样本人体框的右下角顶点，然后，基于此两点在样本图像中进行人体框裁剪，得到样本人员的样本人体图像；

随后，基于样本骨架数据以及样本人体图像，对此两者所表征的样本人员的行为动作进行标注，得到样本人员的行为标签；

此后，即可基于样本骨架数据，样本人体图像以及行为标签，对初始行为识别模型进行训练，得到训练完成的行为识别模型，需要说明的是，此处的初始行为识别模型可以是在预训练的分类器的基础上构建的。

本发明实施例提供的方法，通过样本骨架数据，样本人体图像以及行为标签，对初始行为识别模型进行训练，得到训练完成的行为识别模型，基于此行为识别模型进行行为识别时，仅需将待识别人员的骨架数据以及人体图像输入行为识别模型，即可得到行为识别模型输出的待识别人员的行为识别结果，实现了端到端的网络训练，并且训练完成的行为识别模型可以自适应的选取表征待识别人员行为动作的特征，从而极大地提升了具有相似姿态的行为识别的准确率。

基于上述实施例，在对初始行为识别模型进行训练得到行为识别模型的过程中，构建初始行为识别模型的分类器的损失函数为：

其中，

为分类器的损失函数，

表示样本数，即样本骨架数据和样本人体图像的数量，

为行为类别的数量，

表示第

个样本属于行为类别

的概率，

为符号函数，若第

个样本真实的行为类别为行为类别

，则

；反之，

。

基于上述实施例，骨架特征提取网络是基于Shift-GCN构建的，图像特征提取网络是基于TSM构建的。

具体地，行为识别模型中，对待识别人员的骨架数据进行特征提取的骨架特征提取网络，可以是以移位图卷积网络（Shift Graph Convolutional Network，Shift-GCN）为基准构建的，具体是由移位图卷积网络舍弃最后一层全连接层构成的。

而对待识别人员的人体图像中的各人体区域进行特征提取的图像特征提取网络，可以是以TSM（Temporal Shift Module for Efficient Video Understanding，视频动作分类网络）为基准构建的，具体是由TSM舍弃所有全连接层构成的。

基于上述实施例，图5是本发明提供的行为识别方法的总体框架图，如图5所示，首先，确定人体图像和骨架数据，此处的人体图像可以是对待识别人员的行为动作视频进行抽帧，并根据骨架数据对抽帧所得的图像进行人体框裁剪，从而得到待识别人员的人体图像，此时，还可以对人体图像进行平均采样，得到预设数量张人体图像，并将其作为图像特征提取网络的输入；预设数量可以根据实际情况预先设定，作为优选，本发明实施例中将预设数量设定为8；

随即，将人体图像输入行为识别模型中的图像特征提取网络，得到图像特征提取网络输出的人体图像中的各区域图像特征，将骨架数据输入行为识别模型中的骨架特征提取网络，得到骨架特征提取网络输出的待识别人员的骨架特征；

随后，对于骨架特征，通过一个全连接层和激活函数，使骨架特征与各区域图像特征的尺寸等同；对于各区域图像特征，在进行平均池化后，可以接入一个全连接层，然后使用激活函数进行激活，最后通过一个全连接层进行特征学习，得到各区域注意力图像特征，也可以通过两个全连接层进行特征学习，得到各区域原始特征；此处的激活函数可以根据实际需求相应选取，作为优选，本发明实施例中将激活函数确定为双曲正切函数（hyperbolic tangent function，tanh）；

此后，将骨架特征与各区域注意力图像特征进行内积，得到各区域的初始权重；然后通过归一化指数函数（softmax）对各区域的初始权重进行归一化处理，得到各区域的权重；将各区域的权重与各区域原始特征进行外积，得到各区域加权图像特征；

最后，将各区域加权图像特征与骨架特征级联，然后通过一个全连接层得到待识别人员的行为识别特征，并可据此进行行为识别。

基于上述实施例，图6是本发明提供的行为识别方法的总体流程图，如图6所示，该方法包括：

步骤610，基于行为识别模型中的骨架图像特征提取网络，对骨架数据进行特征提取；

步骤621，对人体图像进行区域划分，确定人体图像中的各人体区域，以及各人体区域的顶点坐标；

步骤622，基于各人体区域的顶点坐标，通过双线性插值对人体图像中的各人体区域进行特征提取；

步骤631，基于特征提取所得的各区域图像特征，确定各区域注意力图像特征和各区域原始特征；

步骤632，基于各区域注意力图像特征，以及特征提取所得的骨架特征，确定各区域的权重；

步骤640，基于各区域的权重，以及各区域原始特征，确定各区域加权图像特征；

步骤650，对各区域加权图像特征和特征提取所得的骨架特征进行融合；

步骤660，基于融合所得的特征进行行为识别。

本发明实施例提供的方法，通过行为识别模型，对待识别人员的骨架数据和人体图像中的各人体区域分别进行特征提取，得到待识别人员的骨架特征和各区域图像特征；基于骨架特征和各区域图像特征之间的相关性，对骨架特征和各区域图像特征进行融合，得到待识别人员的行为识别特征；行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的，以骨架特征和各区域图像特征之间的相关性为基准，对此两者进行融合，能够使得融合所得的行为识别特征不仅蕴含行为动作的姿态轨迹，还增添了动作相关区域的细微特征，基于此行为识别特征进行行为识别，能够克服传统方案中基于骨架特征的行为识别，对于具有相似姿态的行为易出现误判的缺陷，提升了行为识别的精度。

下面对本发明提供的行为识别装置进行描述，下文描述的行为识别装置与上文描述的行为识别方法可相互对应参照。

图7是本发明提供的行为识别装置的结构示意图，如图6所示，该装置包括：

确定单元710，用于确定待识别人员的骨架数据和人体图像；

行为识别单元720，用于基于行为识别模型，对所述骨架数据和所述人体图像中的各人体区域分别进行特征提取，基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对所述骨架特征和各区域图像特征进行融合，并基于融合所得的特征进行行为识别；所述行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的。

本发明提供的行为识别装置，通过行为识别模型，对待识别人员的骨架数据和人体图像中的各人体区域分别进行特征提取，得到待识别人员的骨架特征和各区域图像特征；基于骨架特征和各区域图像特征之间的相关性，对骨架特征和各区域图像特征进行融合，得到待识别人员的行为识别特征；行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的，以骨架特征和各区域图像特征之间的相关性为基准，对此两者进行融合，能够使得融合所得的行为识别特征不仅蕴含行为动作的姿态轨迹，还增添了动作相关区域的细微特征，基于此行为识别特征进行行为识别，能够克服传统方案中基于骨架特征的行为识别，对于具有相似姿态的行为易出现误判的缺陷，提升了行为识别的精度。

基于上述实施例，行为识别单元720用于：

对所述骨架特征和所述各区域加权图像特征进行融合。

基于上述实施例，行为识别单元720用于：

基于上述实施例，所述装置还包括训练单元，用于：

所述初始行为识别模型是基于分类器构建的。

基于上述实施例，所述骨架特征提取网络是基于Shift-GCN构建的，所述图像特征提取网络是基于TSM构建的。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行行为识别方法，该方法包括：确定待识别人员的骨架数据和人体图像；基于行为识别模型，对所述骨架数据和所述人体图像中的各人体区域分别进行特征提取，基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对所述骨架特征和各区域图像特征进行融合，并基于融合所得的特征进行行为识别；所述行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的行为识别方法，该方法包括：确定待识别人员的骨架数据和人体图像；基于行为识别模型，对所述骨架数据和所述人体图像中的各人体区域分别进行特征提取，基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对所述骨架特征和各区域图像特征进行融合，并基于融合所得的特征进行行为识别；所述行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的行为识别方法，该方法包括：确定待识别人员的骨架数据和人体图像；基于行为识别模型，对所述骨架数据和所述人体图像中的各人体区域分别进行特征提取，基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对所述骨架特征和各区域图像特征进行融合，并基于融合所得的特征进行行为识别；所述行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种行为识别方法，其特征在于，包括：

确定待识别人员的骨架数据和人体图像；

所述行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的；

所述基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对所述骨架特征和各区域图像特征进行融合，包括：

对所述骨架特征和所述各区域加权图像特征进行融合；

所述基于所述骨架特征，以及所述各区域图像特征，确定各区域加权图像特征，包括：

2.根据权利要求1所述的行为识别方法，其特征在于，所述对所述人体图像中的各人体区域进行特征提取，包括：

3.根据权利要求1所述的行为识别方法，其特征在于，所述基于行为识别模型，对所述骨架数据和所述人体图像中的各人体区域分别进行特征提取，包括：

4.根据权利要求1所述的行为识别方法，其特征在于，所述行为识别模型基于如下步骤确定：

所述初始行为识别模型是基于分类器构建的。

5.根据权利要求3所述的行为识别方法，其特征在于，所述骨架特征提取网络是基于Shift-GCN构建的，所述图像特征提取网络是基于TSM构建的。

6.一种行为识别装置，其特征在于，包括：

确定单元，用于确定待识别人员的骨架数据和人体图像；

行为识别单元，用于基于行为识别模型，对所述骨架数据和所述人体图像中的各人体区域分别进行特征提取，基于特征提取所得的骨架特征和各区域图像特征之间的相关性，对所述骨架特征和各区域图像特征进行融合，并基于融合所得的特征进行行为识别；所述行为识别模型是基于样本骨架数据，样本人体图像以及行为标签训练得到的；

所述行为识别单元具体用于：

对所述骨架特征和所述各区域加权图像特征进行融合；

所述行为识别单元具体用于：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的行为识别方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的行为识别方法的步骤。