CN110210372A

CN110210372A - 基于注意增强图卷积网络的骨架行为识别方法、系统

Info

Publication number: CN110210372A
Application number: CN201910454937.9A
Authority: CN
Inventors: 谭铁牛; 王亮; 王威; 司晨阳
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-06

Abstract

本发明属于计算机视觉及模式识别领域，具体涉及了一种基于注意增强图卷积网络的骨架行为识别方法、系统，旨在解决如何有效学习人体骨架数据的时空特征并提升行为识别准确率的问题。本发明方法包括：获取人体骨架序列作为待识别骨架序列；通过训练好的骨架行为识别网络，获取预设行为的概率；选择概率最高的预设行为作为所述待识别骨架序列的预测行为。本发明不仅可以获取具有判别性的空间结构特征和时间动态特征，还可以获取时空之间的关系特征，利用注意机制自适应选择重要的信息，强化关键部位的信息，获取更加鲁棒的表示。

Description

基于注意增强图卷积网络的骨架行为识别方法、系统

技术领域

本发明属于计算机视觉及模式识别领域，具体涉及了一种基于注意增强图卷积网络的骨架行为识别方法、系统。

背景技术

行为识别，作为计算机视觉领域的一个重要分支，主要研究目标是让计算机通过摄像机来感知视觉场景中的人在干什么，其在智能视频监控、机器人视觉系统、人机交互、医疗护理、虚拟现实、游戏控制等领域有着广泛的应用前景，在视频检索、智能视频过滤等应用中也具有重要价值，在智慧城市等前瞻性理念中也将扮演重要角色。鉴于其广泛的应用前景，近年来，国际上掀起了行为识别研究的浪潮。

基于人体骨架的行为识别是一个重要而且具有挑战性的计算机视觉任务。人体图像视频不仅包含了复杂的背景，还有光照变化、人体外貌变化等不确定因素，这使得基于图像视频的行为识别具有一定的局限性。相比图像视频，人体骨架视频可以很好地克服这些不确定因素的影响，所以基于人体骨架的行为识别受到越来越多的关注。人体骨架序列不仅包含了时序特征，而且还包含了人体的空间结构特征。基于深度神经网络的方法，可以从原始的骨架序列中自动学习特征并识别行为，然而，如何有效地提取具有判别性时空特征仍然是一个具有挑战性的问题。

发明内容

为了解决现有技术中的上述问题，即如何有效学习人体骨架数据的时空特征并提升行为识别准确率的问题，本发明提供了一种基于注意增强图卷积网络的骨架行为识别方法，包括：

步骤S10，获取人体骨架序列作为待识别骨架序列；

步骤S20，依据所述待识别骨架序列，通过骨架行为识别网络，获取预设行为的概率；

步骤S30，选择概率最高的预设行为作为所述待识别骨架序列的预测行为；

其中，所述骨架行为识别网络基于深度神经网络构建，并基于训练样本集进行骨架行为识别网络优化。

在一些优选的实施例中，“基于训练样本集进行骨架行为识别网络优化”，其方法为：

步骤B10，采用特征提取网络提取获取的人体骨架序列每个关节点的特征；

步骤B20，采用注意增强图卷积网络，基于所述人体骨架序列每个关节点的特征，获取具有判别性的时间和空间特征；

步骤B30，依据所述具有判别性的时间和空间特征，通过骨架行为识别网络，获取预测行为的概率；

步骤B40，基于所述预测行为的概率、训练样本中人体骨架序列对应的真实行为，计算骨架行为识别网络损失值；

步骤B50，基于该次训练得到的识别网络损失值，采用反向传播算法更新骨架行为识别网络的参数；

步骤B60，随机从所述训练样本集中选择一个训练样本，重复执行步骤B10-步骤B50，直至达到预设的训练次数或骨架行为识别网络损失值低于预设的阈值，得到训练好的骨架行为识别网络。

在一些优选的实施例中，步骤B20中“采用注意增强图卷积网络，基于所述人体骨架序列每个关节点的特征，获取具有判别性的时间和空间特征”，其方法为：

C_t＝f_t⊙C_t-1+i_t⊙u_t

其中，{X_t}为注意增强图卷积网络的输入；i_t、f_t、o_t、C_t分别代表网络的输入控制门、遗忘门、输出门、记忆单元，u_t为调制单元，σ为si_gmoid激活函数，f_att()代表注意增强网络；W_x#、b_#，#∈{i,f,o,c}分别为相应门的权重参数、偏置参数；代表图卷积操作；⊙代表元素相乘操作；为中间输出状态；H_t为注意增强图卷积网络的输出。

在一些优选的实施例中，所述注意增强图卷积网络，其表示方法为：

其中，W、U_s、W_h、W_q为注意增强图卷积网络的学习参数，N为图卷积中的节点个数，α_ti为注意增强的权重，代表在t时刻第i个关节点的中间输出状态。

在一些优选的实施例中，步骤B40中“计算骨架行为识别网络损失值”，其方法为：

其中，为交叉熵损失，为注意正则化损失。

在一些优选的实施例中，所述交叉熵损失，其计算方法为：

其中，T代表识别网络最后一层输出的时序长度，C代表类别数量，y_i代表样本真实类别，代表识别网络预测的类别。

在一些优选的实施例中，所述注意正则化损失，其计算方法为：

其中，T_j为识别网络第j层输出的时序长度，α_tnj为识别第j层t时刻的第n个节点的注意增强权重，λ、β为加权权重。

在一些优选的实施例中，所述特征提取网络，包括：

顺次连接的全连接层、长短时记忆网络。

本发明的另一方面，提出了一种基于注意增强图卷积网络的骨架行为识别系统，包括输入模块、骨架行为识别模块、行为预测模块、输出模块；

所述输入模块，配置为获取人体骨架序列并输入；

所述骨架行为识别模块，配置为依据输入的骨架序列，通过骨架行为识别模块，获取预测行为的概率；

所述行为预测模块，配置为选择概率最高的预设行为作为输入骨架序列的行为；

所述输出模块，配置为将获取的行为输出。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于注意增强图卷积网络的骨架行为识别方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于注意增强图卷积网络的骨架行为识别方法。

本发明的有益效果：

本发明基于注意增强图卷积网络的骨架行为识别方法，采用图卷积长短时记忆网络，可以获取具有判别性的空间结构特征和时间动态特征，还能学习时空之间的关系特征。利用注意增强网络自适应选择重要的信息，强化关键部位的信息，获取更加鲁棒的表示，从而提高行为类别的预测精度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于注意增强图卷积网络的骨架行为识别方法的流程示意图；

图2是本发明基于注意增强图卷积网络的骨架行为识别方法的注意增强的图卷积长短时记忆网络示意图；

图3是本发明基于注意增强图卷积网络的骨架行为识别方法的一种实施例的网络训练示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种基于注意增强图卷积网络的骨架行为识别方法，包括：

步骤S10，获取人体骨架序列作为待识别骨架序列；

为了更清晰地对本发明基于注意增强图卷积网络的骨架行为识别方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于注意增强图卷积网络的骨架行为识别方法，包括步骤S10-步骤S30，各步骤详细描述如下：

步骤S10，获取人体骨架序列作为待识别骨架序列。

人体运动捕捉应用广泛，包括智能监控、人机交互、虚拟现实、计算机三维动画制作、体育运动训练辅助以及医学步态分析等。因此，人体运动捕捉有着非常重要的研究意义。

传统的人体骨架序列获取方式为，在人体的一些与行为识别相关的关节上标注LED等标记点，然后将标记点的位置和运动方向经传感器传送至计算机，构建人体骨架序列。随着图像处理技术的发展，现有的技术可以基于运动图像、运动视频等进行人体骨架序列重建，也可以基于共形几何、形态学的图像、视频等进行人体骨架序列的重建。

步骤S20，依据所述待识别骨架序列，通过骨架行为识别网络，获取预设行为的概率。

基于人体骨架序列的行为识别，其关键在于两个方面：一方面是提取鲁棒性、判别性更强的特性；另一方面是充分利用时空域相关性。

基于训练样本集进行骨架行为识别网络优化，其方法为：

步骤B10，采用特征提取网络提取获取的人体骨架序列每个关节点的特征。

特征提取网络，包括：

顺次连接的全连接层、长短时记忆网络。

步骤B20，采用注意增强图卷积网络，基于所述人体骨架序列每个关节点的特征，获取具有判别性的时间和空间特征，其方法如式(1)至式(7)所示：

C_t＝f_t⊙C_t-1+i_t⊙u_t 式(5)

其中，{X_t}为注意增强图卷积网络的输入；i_t、f_t、o_t、C_t分别代表网络的输入控制门、遗忘门、输出门、记忆单元，u_t为调制单元，σ为sigmoid激活函数，f_att()代表注意增强网络；W_x#、b_#，#∈{i,f,o,c}分别为相应门的权重参数、偏置参数；代表图卷积操作；⊙代表元素相乘操作；为中间输出状态(即没有注意增强的图卷积网络的输出)；e为注意增强图卷积网络的输出。

注意增强图卷积网络，其表示方法如式(8)至式(10)所示：

如图2所示，为本发明基于注意增强图卷积网络的骨架行为识别方法的注意增强的图卷积长短时记忆网络示意图，X_t为网络的输入，H_t为网络的输出，H_t-1为t-1时刻的输出，i_t、f_t、o_t、C_t分别代表网络的输入控制门、遗忘门、输出门、记忆单元，f_att代表注意增强网络。

步骤B30，依据所述具有判别性的时间和空间特征，通过骨架行为识别网络，获取预测行为的概率。

如图3所示，为本发明基于注意增强图卷积网络的骨架行为识别方法的一种实施例的网络训练示意图，将获取的人体骨架序列依次输入一个网络全连接层、一个长短时记忆网络层、三个注意增强的图卷积长短时记忆网络层、两个全连接层，计算网络的交叉熵损失和注意正则化损失，采用反向传播的方式更新网络参数直至达到预设的训练次数或网络损失值低于预设的阈值。

步骤B40，基于所述预测行为的概率、训练样本中人体骨架序列对应的真实行为，计算骨架行为识别网络损失值，如式(11)所示：

其中，为交叉熵损失，为注意正则化损失。

交叉熵损失，其计算方法如式(12)所示：

注意正则化损失，其计算方法如式(13)所示：

步骤B50，基于该次训练得到的识别网络损失值，采用反向传播算法更新骨架行为识别网络的参数。

反向传播算法是一种监督学习算法，通常被用来训练神经网络中的多层感知机。

步骤S30，选择概率最高的预设行为作为所述待识别骨架序列的预测行为。

分析与理解人的行为、人与人之间以及人与其他目标之间的交互行为，是许多多任务的非常重要的第一环节。对行为识别的研究带动了很多前沿领域的发展，包括人机交互、无人商店、虚拟现实、自动驾驶等，在未来会极大地改变我们的生活习惯和生活方式。

本发明第二实施例的基于注意增强图卷积网络的骨架行为识别系统，包括输入模块、骨架行为识别模块、行为选取模块、输出模块；

所述输入模块，配置为获取人体骨架序列并输入；

所述骨架行为识别模块，配置为依据输入的骨架序列，通过骨架行为识别模块，获取预设行为的概率；

所述行为选取模块，配置为选择概率最高的预设行为作为输入骨架序列的行为；

所述输出模块，配置为将获取的行为输出。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于注意增强图卷积网络的骨架行为识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于注意增强图卷积网络的骨架行为识别方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于注意增强图卷积网络的骨架行为识别方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于注意增强图卷积网络的骨架行为识别方法，其特征在于，该骨架行为识别方法包括：

步骤S10，获取人体骨架序列作为待识别骨架序列；

2.根据权利要求1所述的基于注意增强图卷积网络的骨架行为识别方法，其特征在于，“基于训练样本集进行骨架行为识别网络优化”，其方法为：

3.根据权利要求2所述的基于注意增强图卷积网络的骨架行为识别方法，其特征在于，步骤B20中“采用注意增强图卷积网络，基于所述人体骨架序列每个关节点的特征，获取具有判别性的时间和空间特征”，其方法为：

C_t＝f_t⊙C_t-1+i_t⊙u_t

其中，{X_t}为注意增强图卷积网络的输入；i_t、f_t、o_t、C_t分别代表网络的输入控制门、遗忘门、输出门、记忆单元，u_t为调制单元，σ为sigmoid激活函数，f_att()代表注意增强网络；W_x#、b_#，#∈{i,f,o,c}分别为相应门的权重参数、偏置参数；代表图卷积操作；⊙代表元素相乘操作；为中间输出状态；H_t为注意增强图卷积网络的输出。

4.根据权利要求3所述的基于注意增强图卷积网络的骨架行为识别方法，其特征在于，所述注意增强图卷积网络，其表示方法为：

5.根据权利要求2所述的基于注意增强图卷积网络的骨架行为识别方法，其特征在于，步骤B40中“计算骨架行为识别网络损失值”，其方法为：

其中，为交叉熵损失，为注意正则化损失。

6.根据权利要求5所述的基于注意增强图卷积网络的骨架行为识别方法，其特征在于，所述交叉熵损失，其计算方法为：

7.根据权利要求5所述的基于注意增强图卷积网络的骨架行为识别方法，其特征在于，所述注意正则化损失，其计算方法为：

8.根据权利要求2所述的基于注意增强图卷积网络的骨架行为识别方法，其特征在于，所述特征提取网络，包括：

顺次连接的全连接层、长短时记忆网络。

9.一种基于注意增强图卷积网络的骨架行为识别系统，其特征在于，包括输入模块、骨架行为识别模块、行为选取模块、输出模块；

所述输入模块，配置为获取人体骨架序列并输入；

所述输出模块，配置为将获取的行为输出。

10.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于注意增强图卷积网络的骨架行为识别方法。

11.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-8任一项所述的基于注意增强图卷积网络的骨架行为识别方法。