CN114821659A

CN114821659A - 一种基于双流网络的人体动作识别方法及系统

Info

Publication number: CN114821659A
Application number: CN202210509894.1A
Authority: CN
Inventors: 肖文琛; 袁娟; 焦永利; 董志文
Original assignee: Fullsee Technology Co ltd
Current assignee: Fullsee Technology Co ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-07-29

Abstract

本发明涉及一种基于双流网络的人体动作识别方法及系统，基于骨架信息分别提取无向时空图与RGB图像并分别使用GCN网络和CNN网络处理获得第一向量与第二向量分别代表空间时间特征与动作大小方向特征，从而获得较准确的人体动作类别识别效果，从提高骨骼信息数据的显性特征以及提高人体动作的识别率出发，在骨架信息的基础上提出基于GCN网络和CNN的双流网络，增强了骨架信息的表征，减少了骨骼信息噪声的影响，有效提高了人体动作的识别精度。

Description

一种基于双流网络的人体动作识别方法及系统

技术领域

本发明涉及技术领域，尤其涉及一种基于双流网络的人体动作识别方法及系统。

背景技术

现有的人体动作识别方法主要包括基于RGB的人体动作识别和基于骨架信息的人体动作识别两大类。其中，基于RGB视频基础上进行的人体动作识别应用较早，实现方法较为成熟，但普遍存在算法鲁棒性不理想、识别率不高的问题，同时人体动作识别受到RGB视频内动态背景、环境光线和遮挡等的多种影响，应用范围受到较大限制。

随着深度相机的普及应用以及RGB图像关键点检测算法的提出，现有技术已经可以较准确的提取获得人体骨架信息。骨架信息具有特征相对简单并且不受外界因素影响的特点，为人体动作识别提供了有效的支撑，有效提高了动作识别能力。常见的基于骨架信息的人体动作识别可以分为基于手工特征的人体动作识别、基于CNN的人体动作识别、基于RNN的人体动作识别以及基于GCN的人体动作识别。

但是，现有的基于骨架信息的人体动作识别普遍受到骨骼信息点噪声的影响，使人体动作识别的精度不够理想。进一步地，基于手工特征提取人体骨架信息特征计算比较繁琐，泛化能力太弱，不适合识别较为复杂的人体动作；基于RNN的动作识别可以较好的提取时间信息，但是对于空间信息提取较差，计算也较为复杂；基于CNN网络的动作识别对空间信息提取较好，但是对时间信息较为敏感。因此，现有的基于骨架信息的人体动作识别方法在实际应用中仍然存在诸多不便和限制。

发明内容

为解决现有技术的不足，本发明提出一种基于双流网络的人体动作识别方法及系统，从提高骨骼信息数据的显性特征以及提高人体动作的识别率出发，在骨架信息的基础上提出基于GCN网络和CNN的双流网络，增强了骨架信息的表征，减少了骨骼信息噪声的影响，有效提高了人体动作的识别精度。

为实现以上目的，本发明所采用的技术方案包括：

一种基于双流网络的人体动作识别方法，其特征在于，包括：

S1、获取对应人体动作行为的骨架信息；

S2、构建基于骨架信息的无向时空图；

S3、对骨架信息进行编码获得包含运动信息的RGB图像；

S4、使用预训练的GCN网络处理无向时空图得到第一向量，所述第一向量包含人体骨架自然连接下的空间和时间特征；

S5、使用预训练的CNN网络处理RGB图像得到第二向量，所述第二向量包含人体骨架动作大小和方向特征；

S6、融合第一向量和第二向量的特征得到第三向量；

S7、使用第三向量预测人体动作类别。

进一步地，所述基于骨架信息的无向时空图使用式1表示，

G＝(V,E) 式1

其中，无向时空图G由顶点集合V与边集合E共同组成；

所述顶点集合V使用式2表示，

V＝{Vti|t＝1,...,T,i＝1,...,N} 式2

其中，T代表骨架信息对应的源视频帧数，N代表骨架信息中的所有关节点；

所述边集合E包括对应源视频同一帧内不同关节点之间的连接，和，对应源视频不同帧之间同一关节点之间的连接。

进一步地，所述GCN网络的网络定义公式如式3所示，

其中，f_in表示输入特征对应顶点集合V，f_out表示输出特征，Λ表示对角矩阵，A表示单帧人体骨架联系对应不同帧之间同一关节点之间的连接，单位矩阵I表示关节自连接对应同一帧内不同关节点之间的连接，权值W表示多个输出的权值参数。

进一步地，所述步骤S3包括分步骤：

S31、对骨架信息应用深度优先树遍历，生成链顺序序列j；

S32、将链顺序j依据时间帧t逐行连接形成矩阵M，所述矩阵M的维度为J×T×3，其中J为骨架信息中关节点按深度优先树遍历顺序后的数目，T为源视频的总帧数，3代表骨架信息中每个关节点包含的三维坐标x,y,z；

S33、根据矩阵M使用式4计算运动结构，

N_M,t＝M_J,t+d-M_J,t 式4

其中，矩阵N_M,t由两个相差d帧的矩阵M计算差值而得，其维度为J×(T-d)×3；

S34、依据运动结构，使用式5计算运动的大小，使用式6-1至式6-4计算运动的方向，

其中，A_M,t表示运动的大小，D_M,t表示三个运动方向的堆叠，

表示坐标x和y的运动方向，

表示坐标y和z的运动方向，

表示坐标z和x的运动方向；运动大小A的维度为J×(T-d)×1；运动方向D的维度为J×(T-d)×3；

S35、组合运动的大小和运行的方向特征获得包含运动信息的RGB图像。

进一步地，所述步骤S3还包括：

依据式7对运动大小A进行过滤，

′

其中，m为运动大小的阈值,D_M,t为过滤后的运动方向。

进一步地，所述步骤S7包括：

将第三向量分别输入若干二分类SVM分类器并执行分类任务，获得人体动作类别预测结果。

本发明还涉及一种基于双流网络的人体动作识别系统，其特征在于，包括：

时空图处理模块，用于构建基于骨架信息的无向时空图；

RGB图像处理模块，用于对骨架信息进行编码获得包含运动信息的RGB图像；

GCN网络处理模块，用于使用预训练的GCN网络处理无向时空图得到第一向量；

CNN网络处理模块，用于使用预训练的CNN网络处理RGB图像得到第二向量；

向量融合模块，用于融合第一向量和第二向量的特征得到第三向量；

动作识别模块，用于使用第三向量预测人体动作类别。

本发明还涉及一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明还涉及一种电子设备，其特征在于，包括处理器和存储器；

所述存储器，用于存储骨架信息、无向时空图和RGB图像；

所述处理器，用于通过调用骨架信息、无向时空图和RGB图像，执行上述的方法。

本发明还涉及一种计算机程序产品，包括计算机程序和/或指令，其特征在于，该计算机程序和/或指令被处理器执行时实现上述方法的步骤。

本发明的有益效果为：

采用本发明所述基于双流网络的人体动作识别方法及系统，从提高骨骼信息数据的显性特征以及提高人体动作的识别率出发，在骨架信息的基础上提出基于GCN网络和CNN的双流网络，增强了骨架信息的表征，减少了骨骼信息噪声的影响，有效提高了人体动作的识别精度。

附图说明

图1为本发明基于双流网络的人体动作识别方法流程示意图。

图2为本发明基于双流网络的人体动作识别系统结构示意图。

图3为本发明无向时空图实施例示意图。

具体实施方式

为了更清楚的理解本发明的内容，将结合附图和实施例详细说明。

本发明第一方面涉及一种步骤流程如图1所示的基于双流网络的人体动作识别方法，包括：

S1、获取对应人体动作行为的骨架信息。可以采用任意适合的方法，如深度相机采集或RGB图像关键点检测算法计算，对目标源视频进行处理获得骨架信息。

S2、构建基于骨架信息的无向时空图。

具体的，所述基于骨架信息的无向时空图使用式1表示，

G＝(V,E) 式1

其中，无向时空图G由顶点集合V与边集合E共同组成；

所述顶点集合V使用式2表示，

V＝{Vti|t＝1,...,T,i＝1,...,N} 式2

所获得的无向时空图如图3所示样式，包含同一帧内不同关节点之间的连接，以及不同帧之间同一关节点的连接。

S3、对骨架信息进行编码获得包含运动信息的RGB图像，具体包括执行分步骤：

S31、对骨架信息应用深度优先树遍历，生成链顺序序列j，从而最好地保留原始骨架结构中关节之间的空间关系；

S32、将链顺序j依据时间帧t逐行连接形成矩阵M，即每列均为序列J中关节的时间演化，所述矩阵M的维度为J×T×3，其中J为骨架信息中关节点按深度优先树遍历顺序后的数目，T为源视频的总帧数，3代表骨架信息中每个关节点包含的三维坐标x,y,z；

S33、根据矩阵M使用式4计算运动结构，

N_M,t＝M_J,t+d-M_J,t 式4

其中，A_M,t表示运动的大小，D_M,t表示三个运动方向的堆叠，

表示坐标x和y的运动方向，

表示坐标y和z的运动方向，

表示坐标z和x的运动方向；运动大小A的维度为J×(T-d)×1；运动方向D的维度为J×(T-d)×3，类似的，3代表(x,y,z)三维方向；

优选的，由于估计每个关节的方向值，可能会为没有任何运动的关节产生噪声值,因此可以依据式7对运动大小A进行过滤，

其中，m为运动大小的阈值,D′_M,t为过滤后的运动方向。

S4、使用预训练的GCN网络处理无向时空图得到第一向量，所述第一向量包含人体骨架自然连接下的空间和时间特征。

优选的，GCN网络的网络定义公式如式3所示，

其中，f_in表示输入特征对应顶点集合V，f_out表示输出特征，Λ表示对角矩阵，A表示单帧人体骨架联系对应不同帧之间同一关节点之间的连接，单位矩阵I表示关节自连接对应同一帧内不同关节点之间的连接，权值W表示多个输出的权值参数。该网络通过人体骨架的自然连接有效获取空间时间信息，通过该图卷积网络，之后得到第一向量。

S5、使用预训练的CNN网络处理RGB图像得到第二向量，所述第二向量包含人体骨架动作大小和方向特征。

对每个动作的人体骨架进行动作结构建模，根据以上网络框架对大小和方向特征进行计算,最后将两者进行融合得到具有丰富时空信息的骨骼图像,将生成的RGB图像送入预训练的网络模型生成第二向量。

S6、融合第一向量和第二向量的特征得到第三向量。

具体的，将无向时空图输入GCN网络后进行池化，经过全连接层得到第一向量f_gcn＝[x₁,x₂,…,x_n]；将RGB图像输CNN网络后进行池化，经过全连接层得到第二向量f_cnn＝[y₁,y₂,…,y_n]。融合两个特征向量得到第三向量f_fusion＝[x₁+y₁,x₂+y₂,…,x_n+y_n]。

S7、使用第三向量预测人体动作类别，特别是，将第三向量分别输入若干二分类SVM分类器并执行分类任务，获得人体动作类别预测结果。

优选的，SVM分类器公式如式8至式10所示：

其中:w为法向量，决定超平面的方向；θ为位移项：y_i∈{a,b},i＝1,2,…,n；函数φ将输入的低维样本f_fusion映射到高位空间；ε_i为松弛变量，C为正则化系数，a为某类别，b为其他类别。当训练好n个分类器后，若只有一个分类器输出为正，标记该动作为分类结果；若出现多个分类器识别为正，选择置信区间最大的动作为分类结果。

本发明另一方面还涉及一种基于双流网络的人体动作识别系统，其结构如图2所示，包括：

时空图处理模块，用于构建基于骨架信息的无向时空图；

动作识别模块，用于使用第三向量预测人体动作类别。

通过使用该系统，能够执行上述的运算处理方法并实现对应的技术效果。

本发明的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤。

本发明的实施例还提供一种用于执行上述方法的电子设备，作为该方法的实现装置，所述电子设备至少具备有处理器和存储器，特别是该存储器上存储有执行方法所需的数据和相关的计算机程序，例如骨架信息、无向时空图和RGB图像等，并通过由处理器调用存储器中的数据、程序执行实现方法的全部步骤，并获得对应的技术效果。

优选的，该电子设备可以包含有总线架构，总线可以包括任意数量的互联的总线和桥，总线将包括由一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和接收器和发送器之间提供接口。接收器和发送器可以是同一个元件，即收发机，提供用于在传输介质上与各种其他系统通信的单元。处理器负责管理总线和通常的处理，而存储器可以被用于存储处理器在执行操作时所使用的数据。

额外的，所述电子设备还可以进一步包括通信模块、输入单元、音频处理器、显示器、电源等部件。其所采用的处理器(或称为控制器、操作控件)可以包括微处理器或其他处理器装置和/或逻辑装置，该处理器接收输入并控制电子设备的各个部件的操作；存储器可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种，可储存上述有关的数据信息，此外还可存储执行有关信息的程序，并且处理器可执行该存储器存储的该程序，以实现信息存储或处理等；输入单元用于向处理器提供输入，例如可以为按键或触摸输入装置；电源用于向电子设备提供电力；显示器用于进行图像和文字等显示对象的显示，例如可为LCD显示器。通信模块即为经由天线发送和接收信号的发送机/接收机。通信模块(发送机/接收机)耦合到处理器，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)还经由音频处理器耦合到扬声器和麦克风，以经由扬声器提供音频输出，并接收来自麦克风的音频输入，从而实现通常的电信功能。音频处理器可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器还耦合到中央处理器，从而使得可以通过麦克风能够在本机上录音，且使得可以通过扬声器来播放本机上存储的声音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

以上所述仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换等都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。