CN111783711B

CN111783711B - 基于身体部件层面的骨架行为识别方法及装置

Info

Publication number: CN111783711B
Application number: CN202010658060.8A
Authority: CN
Inventors: 王亮; 黄岩; 黄林江
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2022-11-08
Anticipated expiration: 2040-07-09
Also published as: CN111783711A

Abstract

本发明涉及计算机视觉技术领域，具体涉及一种基于身体部件层面的骨架行为识别方法及装置。为了解决现有技术行为识别的准确率较低，无法满足实际使用过程的需要的问题，本发明提出一种基于身体部件层面的骨架行为识别方法及装置，该方法包括获取待识别视频中目标对象的第一骨架三维坐标，其中，第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标；基于第一骨架三维坐标，通过预先训练好的骨架行为识别模型，确定目标对象处于多个预设骨架行为类型的概率；将概率大于预设阈值的预设骨架行为类型作为目标对象对应的骨架行为类型。利用本发明的方法能够有效提高行为识别准确率。

Description

基于身体部件层面的骨架行为识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于身体部件层面的骨架行为识别方法及装置。

背景技术

行为识别是计算机视觉任务中重要且具有挑战性的任务，在安防监控、智能视频分析、人机交互等领域具有广泛的应用。随着人体姿态估计技术的发展，基于人体骨架的行为识别在近几年的研究中受到广泛的关注。

由于人体骨架天然具有的图结构，现有的人体骨架行为识别方法主要采用图卷积网络作为主要框架，但是其行为识别的准确率较低，无法满足实际使用过程的需要。

因此，如何提出一种提高行为识别准确率的方法是本领域技术人员需要解决的技术问题。

发明内容

为了解决现有技术中的上述问题，本发明的第一方面提供了一种基于身体部件层面的骨架行为识别方法，所述方法包括：

获取待识别视频中目标对象的第一骨架三维坐标，其中，所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标，所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差，所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标，所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标；

基于所述第一骨架三维坐标，通过预先训练好的骨架行为识别模型，确定所述目标对象处于多个预设骨架行为类型的概率，其中，所述骨架行为识别模型是基于图卷积神经网络构建的模型，并且基于预设的训练样本进行骨架行为识别优化；

将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。

优选地，所述训练样本包括多个预设对象的第一骨架三维坐标，“基于预设的训练样本进行骨架行为识别优化”，其方法包括：

将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层，获得第一输出特征；

将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层，获得第二输出特征，其中，所述第二输出特征的数据维度与预设的人体部件数量相同；

对所述第二输出特征进行第一归一化操作，获得第一矩阵，其中，所述第一归一化操作包括soft-max操作以及L2归一化操作；

根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵，对所述第一骨架三维坐标依次进行池化操作，图卷积操作以及反池化操作，获得第三输出特征，其中，所述第三输出特征的数据维度与预设的人体关节图的大小相同；

将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层，获得第四输出特征，其中，所述第四输出特征的数据维度与预设的人体部件数量相同；

对所述第四输出特征进行第一归一化操作，获得第二矩阵；

将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层，获得第五输出特征，其中，所述第五输出特征的数据维度与预设的人体部件数量相同；

对所述第五输出特征进行第二归一化操作，获得第三矩阵，其中，所述第二归一化操作包括soft-max操作；

根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作，获得第六输出特征，其中，所述第六输出特征的数据维度与预设的人体关节图的大小相同；

将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加，并进行全局平均池化操作，获得第七输出特征向量；

根据所述第七输出特征向量，通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型，以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。

优选地，所述第一矩阵对应的损失函数包括：

其中，

表示所述第一矩阵对应的损失函数的值，P_r表示所述第一矩阵，

表示所述第一矩阵的转置矩阵，1表示矩阵元素全为1的矩阵，I表示单位矩阵。

优选地，所述第二矩阵对应的损失函数包括：

其中，

表示所述第二矩阵对应的损失函数的值，P_a表示所述第二矩阵，

表示所述第二矩阵的转置矩阵，1表示矩阵元素全为1的矩阵，I表示单位矩阵。

优选地，所述第七输出特征向量对应的损失函数包括：

其中，

表示所述第七输出特征向量对应的损失函数的值，C表示行为类别数量，y_c表示行为类别c所对应的真实概率，

表示行为类别c所对应的预测概率。

优选地，在“获得第七输出特征向量”的步骤之后，“通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型”的步骤之前，所述方法还包括按照如下公式所示的方法，获取所述待训练的骨架行为识别模型的全局损失：

其中，

表示所述待训练的骨架行为识别模型的全局损失，

表示所述第七输出特征向量对应的损失函数的值，λ_r和λ_a表示调节参数，用于调节损失函数的权重的比值，S表示所述骨架行为识别模型的网络层数，

表示预先获取的第一矩阵对应的损失函数的值，

表示预先获取的第二矩阵对应的损失函数的值。

本发明的第二方面提供了一种基于身体部件层面的骨架行为识别装置，所述装置包括：

坐标获取模块，用于获取待识别视频中目标对象的第一骨架三维坐标，其中，所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标，所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差，所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标，所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标；

行为识别模块，用于基于所述第一骨架三维坐标，通过预先训练好的骨架行为识别模型，确定所述目标对象处于多个预设骨架行为类型的概率，其中，所述骨架行为识别模型是基于图卷积神经网络构建的模型，并且基于预设的训练样本进行骨架行为识别优化；

优选地，所述训练样本包括多个预设对象的第一骨架三维坐标，所述行为识别模块还用于：

对所述第四输出特征进行第一归一化操作，获得第二矩阵；

优选地，所述第一矩阵对应的损失函数包括：

其中，

优选地，所述第二矩阵对应的损失函数包括：

其中，

优选地，所述第三矩阵对应的损失函数包括：

其中，

表示所述第三矩阵对应的损失函数的值，C表示行为类别数量，y_c表示行为类别c所对应的真实概率，

表示行为类别c所对应的预测概率。

优选地，所述装置还包括全局损失获取模块，所述全局损失获取模块用于：

按照如下公式所示的方法，获取所述待训练的骨架行为识别模型的全局损失：

其中，

表示所述待训练的骨架行为识别模型的全局损失，

表示预先获取的第一矩阵对应的损失函数的值，

表示预先获取的第二矩阵对应的损失函数的值。

本发明提供的方法能够利用从待识别视频中获取的目标对象的第一骨架三维坐标，并基于第一骨架三维坐标，通过骨架行为识别模型确定目标对象处于多个预设骨架行为类型的概率，一方面骨架行为识别模型能够进行端到端的学习，另一方面可以根据人体关节点与人体部件的对应关系，使骨架行为识别模型学习到适合于不同行为的关节点划分，能够有效提高行为识别准确率。

附图说明

图1是本发明的基于身体部件层面的骨架行为识别方法的流程示意图；

图2是本发明的基于身体部件层面的骨架行为识别装置的结构示意图。

具体实施方式

为使本发明的实施例、技术方案和优点更加明显，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所述的实施例是本发明的一部分实施例，而不是全部实施例。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

参照图1，图1示例性地示出了本发明的基于身体部件层面的骨架行为识别方法的流程示意图。

本发明提供的基于身体部件层面的骨架行为识别方法包括如下步骤：

S101、获取待识别视频中目标对象的第一骨架三维坐标。

在一种可能的实现方式中，所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标，所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差，所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标，所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标。

示例性地，以大型行为识别数据库为例，数据库可以包括56880个视频及其对应的人体骨架关节点三维坐标。实际应用中，可以获取数据库中待识别视频的目标对象的人体关节点三维坐标，人体关节点三维坐标的大小可以为300*25*3，其中，300可以表示视频帧数，25可以表示人体关节点的个数，3可以表示坐标维度。

示例性地，其中，第一差值三维坐标可以是关节点三维坐标的帧间差，第一相对三维坐标可以是相对于人体中心的相对坐标，第一关节点三维坐标可以是相对于预设坐标中心的三维坐标，需要说明的是，本申请实施例对第一骨架三维坐标的类型不进行限定。

通过第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标可以构成九通道的输入数据。

S102、基于所述第一骨架三维坐标，通过预先训练好的骨架行为识别模型，确定所述目标对象处于多个预设骨架行为类型的概率。

在一种可能的实现方式中，可以将第一骨架三维坐标输入预先训练好的骨架行为识别模型，确定所述目标对象处于多个预设骨架行为类型的概率。

其中，所述骨架行为识别模型是基于图卷积神经网络构建的模型，并且基于预设的训练样本进行骨架行为识别优化。

示例性地，训练样本可以包括多个预设对象的第一骨架三维坐标，在一种可能的实现方式中，在步骤S102之前，“基于预设的训练样本进行骨架行为识别优化”，其方法包括：

对所述第四输出特征进行第一归一化操作，获得第二矩阵；

示例性地，可以将第一骨架三维坐标送入到骨架行为识别模型的批量归一化层中，然后还可以将第一骨架三维坐标送入到1*1的卷积层中，对第一骨架三维坐标进行数据维度变换，得到第一输出特征，其中，第一输出特征的数据维度与预设的人体部件数量相同。

对第一输出特征进行第一归一化操作，获得第一矩阵，其中，第一归一化操作可以包括soft-max操作以及L2归一化操作。其中，第一矩阵对应的损失函数如下公式(1)所示：

公式(1)：

其中，

其中，第二矩阵对应的损失函数如下公式(2)所示：

公式(2)：

其中，

根据所述第一矩阵对应的特征向量以及所述第一矩阵的转置矩阵，通过所述待训练的骨架行为识别模型的卷积层对所述第一矩阵对应的特征向量进行反池化操作，获得第二输出特征，其中，所述第二输出特征的数据维度与预设的人体关节数量相同。

示例性地，可以通过前述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵，对所述第一骨架三维坐标依次进行池化操作，图卷积操作以及反池化操作，获得第三输出特征，其中，所述第三输出特征的数据维度与预设的人体关节图的大小相同。

将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层，获得第四输出特征，其中，所述第四输出特征的数据维度与预设的人体部件数量相同。

对所述第四输出特征进行第一归一化操作，获得第二矩阵。

具体地，可以将第四输出特征经过一个1*1的卷积层，将数据维度变换到预设的人体部件个数，然后经过节点维度进行soft-max操作，得到图池化矩阵，即第二矩阵。

根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作，获得第六输出特征，其中，所述第六输出特征的数据维度与预设的人体关节图的大小相同。

将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加，并进行全局平均池化操作，获得第七输出特征向量。

具体地，可以根据所得到的图池化矩阵得到图池化后的特征，也即，第一矩阵和第二矩阵对应的图池化后的特征，将图池化后的特征反池化到人体关节图的大小，经过一层卷积层对时间信息进行建模。

得到多个维度的第七输出特征向量后，可以将第七输出特征向量送入全局平均池化层，并连接一个与训练集行为数大小相同的60维度的全连接层，并通过soft-max分类器计算其与真实值的偏差，其中，第七输出特征向量对应的损失函数可以如下公式(3)所示：

公式(3)：

其中，

表示行为类别c所对应的预测概率。

在一种可能的实现方式中，在“获得第七输出特征向量”的步骤之后，“通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型”的步骤之前，所述方法还包括按照如下公式(4)所示的方法，获取所述待训练的骨架行为识别模型的全局损失：

公式(4)：

其中，

表示所述待训练的骨架行为识别模型的全局损失，

表示预先获取的第一矩阵对应的损失函数的值，

表示预先获取的第二矩阵对应的损失函数的值。

示例性地，λ_a与λ_r的值可以分别设置为0.1和0.1，S表示所述骨架行为识别模型的网络层数，可以设置为9。

在一种可能的实现方式中，还可以采用反向传播算法和随机梯度下降算法来减小预测整体误差以训练该模型，经过多次迭代训练后可以得到训练好的骨架行为识别模型，通常需要在整个数据集上迭代80次，当损失不再收敛时停止训练。

S103、将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。

在一种可能的实现方式中，可以利用训练好的骨架行为识别模型进行测试。首先可以将测试的16560个视频的骨架点三维坐标及对应的关节点三维坐标的帧间差、关节点三维坐标相对人体中心的相对坐标构造为九通道的输入数据，送入到训练好的骨架行为识别模型，分类分数最高的即为视频中发生的行为类别。

参照图2，图2示例性地示出了本发明的基于身体部件层面的骨架行为识别装置的结构示意图。

本发明提供的基于身体部件层面的骨架行为识别装置包括：

坐标获取模块1，用于获取待识别视频中目标对象的第一骨架三维坐标，其中，所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标，所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差，所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标，所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标；

行为识别模块2，用于基于所述第一骨架三维坐标，通过预先训练好的骨架行为识别模型，确定所述目标对象处于多个预设骨架行为类型的概率，其中，所述骨架行为识别模型是基于图卷积神经网络构建的模型，并且基于预设的训练样本进行骨架行为识别优化；

在一种可能的实现方式中，所述行为识别模块2还用于：

对所述第四输出特征进行第一归一化操作，获得第二矩阵；

在一种可能的实现方式中，所述第一矩阵对应的损失函数包括：

其中，

在一种可能的实现方式中，所述第二矩阵对应的损失函数包括：

其中，

在一种可能的实现方式中，所述第七输出特征向量对应的损失函数包括：

其中，

表示所述第七输出特征向量对应的损失函数的值，V表示行为类别数量，y_c表示行为类别c所对应的真实概率，

表示行为类别c所对应的预测概率。

在一种可能的实现方式中，所述装置还包括全局损失获取模块，所述全局损失获取模块用于：

其中，

表示所述待训练的骨架行为识别模型的全局损失，

表示预先获取的第一矩阵对应的损失函数的值，

表示预先获取的第二矩阵对应的损失函数的值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。