CN112183315B

CN112183315B - 动作识别模型训练方法和动作识别方法及装置

Info

Publication number: CN112183315B
Application number: CN202011030408.5A
Authority: CN
Inventors: 王勃然; 姜京池; 刘劼
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2023-06-27
Anticipated expiration: 2040-09-27
Also published as: CN112183315A

Abstract

本发明提供了一种动作识别模型训练方法和动作识别方法及装置。训练方法包括：获取预设动作节点集合中的所有节点的节点数据；根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据；根据所述节点数据和所述连接边的边数据，构建动作数据的图结构；以所述动作数据的图结构作为模型输入，表情识别分类结果作为模型输出，对预设的图卷积神经网络表情识别模型进行有监督训练；其中，以所述动作数据的图结构中的所述连接边的边数据作为模型输入。基于图结构来记录和计算动作数据，进一步提升了参与深度学习的有效数据量，可以获得更好的识别精度，且减少对样本数据精确度的依赖。

Description

动作识别模型训练方法和动作识别方法及装置

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种动作识别模型训练方法和动作识别方法及装置。

背景技术

目前，人体的动作识别，特别是表情识别主要是基于采集的图像或视频中的动作或人脸表情时间序列，通过深度神经网络，特别是深度卷积神经网络来实现动作或表情分类。然而基于图像以及视频序列来识别表情和动作，特别是微表情和微动作，卷积神经网络算法往往受限于表情捕捉的精确程度，很难具备较高的准确度。其中，微表情分类相对于宏表情(情绪分类)来说更加困难，主要因为数据稀疏、需要定位到面部局部区域，且持续时间较短，不易捕捉。

图神经网络自提出以来，由于其自身的结构特点和在处理非结构化数据方面的卓越性能，被迅速应用到人工智能的各个分支领域，如知识图谱，社交计算和图像处理等。其中，在动作识别，特别是表情识别方面，较常用的是基于是人体形态或面部信息的图表示的图卷积神经网络算法。其中，在人脸中，通过定点指定或者特征点提取等方式，设定若干个节点，并以所述节点信息为输入，训练图卷积神经网络进行表情识别。由于来自图像序列的提取节点信息，往往只具有像素一个方面的特征(将像素的R，G，B信息视为同一个特征方面)，从而使得基于特征点作为节点的图神经网络动作识别，特别是表情识别方法，尤其受限于表情捕捉的精度和节点的选取，当精度欠佳或节点选择不准确时，往往不能得到理想的识别结果。

发明内容

为了解决上述技术问题中的至少一个方面，获得更好的动作识别，特别是表情识别结果，本发明提出了一种动作识别模型训练方法、一种动作识别方法和装置，以及一种非临时性计算机可读存储介质。

根据本发明的第一方面，提出了一种动作识别模型的训练方法，其包括：

获取预设动作节点集合中的所有节点的节点数据，所述节点数据包括节点的空间位置和节点动作数据的时间序列；

根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，所述边数据表征节点动作数据相对于参考值发生变动的节点位置和节点动作数据的变化；

根据所述节点数据和所述连接边的边数据，构建动作数据的图结构；

以所述动作数据的图结构作为模型输入，动作识别分类结果作为模型输出，对预设的图卷积神经网络动作识别模型进行有监督训练；

其中，所述以所述动作数据的图结构作为模型输入包括：以所述动作数据的图结构中的所述连接边的边数据作为模型输入。

在一些实施例中，所述以所述动作数据的图结构作为模型输入，包括：以所述动作数据的图结构中的所述连接边的边数据和所述节点数据共同作为模型输入。

在一些实施例中，所述动作识别模型为人脸表情识别模型，，所述获取预设节点集合中的所有节点的节点数据，包括：

获取设置于人脸皮肤上的预设面部节点处的压电传感器采集的电压数据，将所述压电传感器采集的电压数据经数据预处理后，得到所述预设面部节点集合中的所有节点的节点数据；或者

获取包含人脸的多帧时序图像，根据所述时序图像获取预设面部节点集合中的所有节点的节点数据。

在一些实施例中，所述根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，包括：

根据所述节点集合中所有节点的空间位置和节点动作数据的时间序列，确定连接边集合，其中具体包括：

对节点动作数据的时间序列中的每一个时间点，获取节点集合中，该时间点的节点动作数据变动大于预设阈值的节点，作为活跃节点，任意两个活跃节点i，j相连，构成连接边e_ij；

对每个时间点t₁对应的每一条连接边e^t1 _ij，获取其预设空间邻域内的空间邻接边和预设时间邻域内的时域邻接边，构成邻接边集合N(e^t1 _ij)，其中，所述预设空间邻域内的空间邻接边是指：两条邻接边通过不大于预设层数d的节点连接，d为自然数，所述预设时间邻域内的时间邻接边是指：对于连接边e^t1 _ij，考虑与t₁时间间隔不超过预设时间范围的时间邻域内的任意时刻t₂的连接边e^t2 _ij，连接边e^t2 _ij的空间邻接边也被视为是连接边e^t1 _ij的空间邻接边，所述预设时间范围大于等于零；

根据每条连接边的所述时域邻接边和所述空间邻接边计算连接边集合和每条连接边的边数据。

在一些实施例中，所述根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，还包括：

对于每条所述连接边的邻接边集合，计算其标记函数L，根据所述标记函数L为所述邻接边集合中的每个邻接边分配权重；

其中，所述标记函数L用于表征所述连接边的邻接边集合中的每个邻接边与所述连接边的关联程度。

在一些实施例中，所述标记函数L的取值为预定数量的离散值，标记函数L的取值根据每个邻接边与所述连接边的相对位置关系确定；

根据所述标记函数L为所述邻接边集合中的每个邻接边分配权重包括：根据每个邻接边与所述连接边的位置关系，根据所述标记函数L的取值确定权重系数，使具有相同标记函数值的边具有相同的权重。

在一些实施例中，根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，包括：

计算每条所述连接边的中心坐标和方向向量，其中，所述中心坐标和所述方向向量根据所述边所连接的两个节点的三维位置信息获得；

将所述连接边的中心坐标和方向向量记录到所述连接边的边数据中。

在一些实施例中，所述以所述动作数据的图结构作为模型输入，动作识别分类结果作为模型输出，对预设的图卷积神经网络动作识别模型进行有监督训练的步骤中，

所述预设的图卷积神经网络包括依次连接的：数据输入层、图卷积层、全连接层和输出层。

在一些实施例中，所述以所述动作数据的图结构作为模型输入，动作识别分类结果作为模型输出，对预设的图卷积神经网络动作识别模型进行有监督训练的步骤包括：

以所述动作数据的图结构中的所述边数据和所述节点数据共同作为模型输入；

所述图卷积神经网络动作识别模型结构中：

所述图卷积层的结构包括：并行级联连接的第一子层和第二子层，其中，所述第一子层包括依次连接的第一批正则化层、边卷积层和第一全局池化层，所述第二子层包括依次连接的第二批正则化层、节点卷积层和第二全局池化层；或者

所述图卷积层的结构包括：依次连接的图结构卷积子层、共享卷积子层和全局池化子层，其中所述图结构卷积子层包括并行级联连接的第三子层和第四子层，所述第三子层包括依次连接的第三批正则化层和边卷积层，所述第三子层包括依次连接的第四批正则化层和节点卷积层。

在一些实施例中，所述边卷积层的卷积计算包括：

获取所有连接边的边数据，其中，所述连接边的边数据包括用于表征所述连接边的两端的两个节点的节点动作数据的边值；

根据连接边的边值加权求和计算所述边卷积层的输出。

通过本发明的模型训练方法，基于图结构来记录和计算动作数据，同时利用图结构的边的空间和时间数据来进行深度学习，进一步提升了参与深度学习的有效数据量，可以获得更好的识别精度，且减少对样本数据精确度的依赖。并且，在深度学习模型中还可结合节点卷积层和边卷积层的处理，以进一步提升动作识别，特别是人脸表情识别性能。

本发明第二方面的实施例提出了一种动作识别方法，其包括：

获取预设节点集合中的所有节点的节点数据，所述节点数据包括节点的空间位置，和节点动作数据的时间序列；

将所述动作数据的图结构输入经过预训练的图卷积神经网络动作识别模型，得到模型输出的动作识别分类结果；

其中，所述预设的图卷积神经网络动作识别模型是根据权利要求1-8中任一项所述的模型训练方法得到的；

所述将所述动作数据的图结构输入经过预训练的图卷积神经网络动作识别模型包括：将所述动作数据的图结构中的所述边数据作为模型输入。

在一些实施例中，所述以所述动作数据的图结构作为模型输入，包括：

以所述动作数据的图结构中的所述边数据和所述节点数据共同作为模型输入。

在一些实施例中，所述方法用于人脸动作识别，所述获取预设节点集合中的所有节点的节点数据，包括：

对t₁时刻的每一条连接边e^t1 _ij，获取其预设空间邻域内的空间邻接边和预设时间邻域内的时域邻接边，构成邻接边集合N(e^t1 _ij)，其中，所述预设空间邻域内的空间邻接边是指：两条邻接边通过不大于预设层数d的节点连接，d为自然数，所述预设时间邻域内的时间邻接边是指：对于连接边e^t1 _ij，考虑与t₁时间间隔不超过预设时间范围的时间邻域内的任意时刻t₂的连接边e^t2 _ij，连接边e^t2 _ij的空间邻接边也被视为是连接边e^t1 _ij的空间邻接边；

通过本发明的动作识别方法，基于图结构来记录和计算动作数据，同时利用图结构的边的空间和时间数据来进行深度学习，进一步提升了参与深度学习的有效数据量，可以获得更好的识别精度，且减少对样本数据精确度的依赖。并且，在深度学习模型中还可结合节点卷积层和边卷积层的处理，以进一步提升人脸表情识别性能。

根据本发明第三方面的实施例还提供了一种动作识别装置，其包括：

人脸动作数据采集模块，用于获取预设节点集合中的所有节点的节点数据，所述节点数据包括节点的空间位置，和节点动作数据的时间序列；

动作数据处理模块，用于根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据；以及，根据所述节点数据和所述连接边的边数据，构建动作数据的图结构；

分类模块，用于将所述动作数据的图结构输入经过预训练的图卷积神经网络动作识别模型，得到模型输出的动作识别分类结果；

其中，所述分类模块，用于将所述动作数据的图结构中的边数据输入经过预训练的图卷积神经网络动作识别模型。

根据本发明第四方面的实施例还提供了一种非临时性计算机可读存储介质，其中存储有计算机指令，其特征在于，所述计算机指令被执行时，实现本发明第一或第二方面所述的方法。

根据本发明第三方面的装置和第四方面的存储介质，与第一方面的方法具有类似的有益效果，在此不再赘述。

附图说明

图1为根据本发明实施例的动作识别模型训练方法流程示意图；

图2为根据本发明实施例的表情识别面膜结构示意图；

图3为根据本发明实施例的表情识别面膜使用状态示意图；

图4为根据本发明实施例的面部特征点位置示意图；

图5为根据本发明实施例的动作识别方法流程示意图；

图6为根据本发明一个实施例的动作识别模型结构示意图；

图7为根据本发明另一个实施例的动作识别模型结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例进行详细说明。

相关技术中，应用图卷积神经网络进行图像和视频处理以达到人体姿态、人脸识别，表情识别等动作识别的技术目的时，均是采用对节点数据进行卷积计算的方式。其中，表征节点之间连接关系的邻接矩阵，通常是采用0,1矩阵，对于有连接边存在的标1；也有部分有向图的表示中引入-1来表示方向，但是整体而言，邻接矩阵在卷积计算过程中是静态的。并且，在节点数据的更新过程中，邻接矩阵是作为卷积权重的一部分参与卷积计算，其自身也是不变的。从而，图结构的信息量并没有得到充分的利用。

本申请的发明人注意到，在图结构中，边除了能够表征节点之间的连接关系之外，如果赋予其恰当的取值，边自身也同样能够表征图结构的众多特征。且相对于节点只能表征图结构中的一维信息，边作为二维的特征，可以比节点携带更多的信息量。特别是，对于图结构的连接关系为时变之时，使用边信息表征图结构的动态变化，可以对图进行更精确的表达。从而，使用边信息进行卷积计算，将使得图神经网络的识别精度进一步提高，对样本数据的精确度要求也可以相应降低。基于上述发明构思，本发明第一方面的实施例提出了一种动作识别模型训练方法，用于对人体的动作和人脸的表情(表情可以视为是面部肌肉的动作)进行识别。

在本公开中，“动作识别”包括人体的肢体动作和面部表情动作在内的各种动态过程的识别，也可包括动物、机械等任何可运动主体的动作的识别，例如动物的动作和表情，工业机器人、机械臂等机械运动的动作识别。这些具体的应用场景都将落入本发明的保护范围。由于对于人的动作和表情识别相对难度更高，应用更广，因此，本公开中较多的会以人的动作和表情识别为例进行描述，但是本发明方法的应用范围不仅止于此。

参见图1，本发明的动作识别模型训练方法包括步骤S110到S140。

在步骤S110，获取预设动作节点集合中的所有节点的节点数据，所述节点数据包括节点的空间位置和节点动作数据的时间序列。

其中，动作节点集合可以根据识别的目标预先指定，例如，欲识别人体动作时，可指定膝关节、大腿、腰部、肘部等关键位置的相关节点为动作节点；欲识别人脸表情时，则可指定眉毛、鼻子、颧骨、嘴周缘等位置的相关节点作为动作节点。对于机械，则可以具有自由度的各个关节位置点作为动作节点。此处可根据相关技术中相应的人体动作或表情识别中常用的节点位置进行选取，本发明对此没有限制。

所述节点数据可以是来自设置于预设节点处的传感器采集的数据，也可以是从视频中截取的时序视频帧中进行数据提取，或者是来自连续拍摄的时序图像序列等。

在一些实施例中，预设动作节点，也可以是通过对视频帧或者图像序列进行卷积运算提取得到。

在步骤S120，根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，所述边数据表征节点动作数据相对于参考值发生变动的节点位置和节点动作数据的变化。

在考虑动作识别时，重要的影响因素包括发生运动的各个节点之间的动作顺序和相关性。因此，根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据时，也可以根据这个原则来设计连接边的取值和计算方式。从时间和空间两个维度来构造连接边集合E。并通过时间卷积和空间卷积来进行数据处理。

具体而言，对节点动作数据的时间序列中的每一个时间点，获取节点集合中，该时间点的节点动作数据变动大于预设阈值的节点，作为活跃节点，任意两个活跃节点i，j相连，构成连接边e_ij。其中，节点动作数据变动大于预设阈值，对于可以获得目标对象无动作标准姿态数据的情况，可以是将节点数据与无动作时的标准数据进行比较。当无法获得目标对象标准姿态作为ground truth(基本事实)时，判断是否大于预设阈值需要根据欲判断的动作，以及相对运动幅度来选取阈值和进行比较。

连接边的取值，可以根据节点的取值来计算，例如：根据所述连接边的两端的节点的节点值的代数加权平均或者几何平均等来取值。以代数加权平均为例，计算每条所述连接边的中心坐标和方向向量，其中，所述中心坐标和所述方向向量根据所述边所连接的两个节点的三维位置信息获得；将所述连接边的中心坐标和方向向量记录到所述连接边的边数据中。

对每个节点的节点动作数据以及连接边的边数据，在进行卷积运算实现特征提取时，需要考虑时间维度和空间维度的影响。为此，对每个时间点t₁对应的每一条连接边e^t1 _ij，可获取其预设空间邻域内的空间邻接边和预设时间邻域内的时域邻接边，构成邻接边集合N(e^t1 _ij)。其中，所述预设空间邻域内的空间邻接边是指：两条邻接边通过不大于预设层数d的节点连接，d为自然数，所述预设时间邻域内的时间邻接边是指：对于连接边e^t1 _ij，考虑与t₁时间间隔不超过预设时间范围的时间邻域内的任意时刻t₂的连接边e^t2 _ij，连接边e^t2 _ij的空间邻接边也被视为是连接边e^t1 _ij的空间邻接边，所述预设时间范围大于等于零；根据每条连接边的所述时域邻接边和所述空间邻接边计算连接边集合和每条连接边的边数据。计算出来的边数据将用于进行时间卷积和空间卷积。

时间卷积主要考虑时间序列的动作表征特点，对于连接边e_ij在t₁时刻的取值，将其表示为e^t1 _ij，e^t1 _ij的邻接边从两个方面定义：1)在t₁时刻，仅通过不多于d个节点连接到e^t1 _ij的边被定义为它的空间邻接边，这里d可根据节点密度和动作幅度检测精度要求和算力的等因素综合考虑进行取值，一般取1-4的自然数时即可得到较好的效果，当节点数相对较少时，例如10的数量级时，d可取1-2；2)在t₂时刻，如果t₂与t₁的时间间隔预设时间间隔范围内，e^t2 _ij的空间邻接边也被认为是e^t1 _ij的临接边，称为e^t1 _ij的时域临接边。t₁和t₂时刻节点数据可能会不同，预设时间间隔范围可通过定义时间核K_t来表示，K_t整数，用来表示t₁和t₂时刻之间间隔的采集间隔个数。限制e^t1 _ij的时间邻域之间的间隔不能超过K_t，用约束D(e^t2 _kn，e^t2 _ij)来定义空间邻域的连接边层数，从而得到

N(e^t1 _ij)＝{e^t2 _kn|e^t2 _kn∈E and|t₂–t₁|≤K_t and D(e^t2 _kn，e^t2 _ij)≤d}

其中，N(e^t1 _ij)表示e^t1 _ij的邻接边集合，E表示所有连接边的集合。

在一些实施例中，以邻接边集合作为连接边卷积计算的参数，一种较为简洁的算法是直接以邻接边加权平均的方式进行后续的卷积计算，首先根据邻接边的动作的“影响力”(影响力一词此处并不是指对实际动作发生作用，而是指在表征动作时的关联程度)对邻接边进行标记。

对于每条所述连接边的邻接边集合，计算其标记函数L，根据所述标记函数L为所述邻接边集合中的每个邻接边分配权重；其中，所述标记函数L用于表征所述连接边的邻接边集合中的每个邻接边与所述连接边的关联程度。标记函数L可以针对每一条邻接边单独计算其各自的取值，但是这样会带来大量的计算量，且对于性能的提高效果并不是正比于计算量。因此，可以引入简化的计算方式。

为了简化计算，在一些实施例中，所述标记函数L的取值为预定数量的离散值，标记函数L的取值根据每个邻接边与所述连接边的相对位置关系确定。根据所述标记函数L为所述邻接边集合中的每个邻接边分配权重包括：根据每个邻接边与所述连接边的位置关系，将标记函数分组取值；根据所述标记函数L的取值确定权重系数，使具有相同标记函数值的边具有相同的权重。

例如，可根据邻接边与连接边相对于动作的“中心”的相对位置关系来划分组别子集。对于人脸表情识别，可与选择脸部的几何中心作为动作的中心，对于肢体的动作可以选择人体的重心或者几何中心作为动作的中心等。

当不考虑时间邻域时，记L是空间邻域的单个邻接边的标记函数，也作为空间构型标记，K_t是时间核大小，K是标记函数L划分的子集数。例如可以根据不同部位与动作的中心Gc的距离关系大致可以分为同心、偏心和离心三类。具体来说，对于在某一连接边e_ij处的卷积，该标记函数将其邻接边划分为三个子集：1)比e_ij更接近中心的边缘；2)与e_ij距离中心相等的边缘；3)比e_ij更远离中心的边缘。从而，标签函数可以表示为：

其中，G_C可以取为人体各部位坐标的几何平均值参考点，在研究人脸面部表情动态特征时，可根据需要选择几何中心或者物理重心，或更改参考点位置。d(e_ij，G_C)为连接边e_ij到G_C的距离，d(e_kn,G_c)为邻接边边到参考中心的距离。

要说明的是，这里0，1，2仅仅作为一个实施例的取值，显然本领域技术人员可以为L(e_kn)赋予其它数值，K也可以根据其它原则将L(e_kn)划分其它数量的组别。

考虑到时间邻域，标记函数可进一步修改为：

L’(e^t2 _kn)＝L(e^t2 _kn)+(t₂-t₁+K_t)×K (式2)

其中，将K_t加到t₁-t₂是为了确保(t₁-t₂+K_t)是非负的，最后乘以K是为了确保时间邻域的标记值与空间邻域的标记值不同。

本发明中，后续神经网络计算的模型中，模型的空间卷积可分为边卷积和节点卷积两种方式。

其中，节点卷积是目前图神经网络中经常使用的方式，各种常用方法均可用于节点卷积部分。例如，可以是将每个节点的动作数据作为节点数据，相邻两节点的直线距离当做边数据，然后结合边与节点的关系对不同动作分类分配权重，从而完成目标的动作识别。GCN(图卷积神经网络)中各种相关技术中使用的节点卷积方法也可以用在本发明的节点卷积计算中。

边卷积中，每个边的位置数据可根据其两个端点节点的空间坐标计算，对于每条边，首先通过平均两个节点的坐标得到边中心的坐标，然后从另一端减去一个节点的坐标，得到一个向量，其长度和方向表示两个节点之间的长度和方向。例如，对于边e_ij，其两端的两个节点分别为n_i和n_j，将e_ij的数据用其中心坐标作为空间坐标，以其方向向量作为边向量。边e_ij的中心坐标和边向量可以根据下式计算：

x_c(e_ij)＝1/2×(x(n_i)+x(n_j))

y_c(e_ij)＝1/2×(y(n_i)+y(n_j))

z_c(e_ij)＝1/2×(z(n_i)+z(n_j))

Direction(e_ij)＝(x(n_j)–x(n_i),y(n_j)–y(n_i),z(n_j)–z(n_i))

其中，x(n_i)、y(n_i)、z(n_i)为n_i的三轴坐标，x(n_j)、y(n_j)、z(n_i)为n_j的三轴坐标；x_c(e_ij)、y_c(e_ij)、z_c(e_ij)是e_ij的空间坐标在x轴、y轴和z轴三个方向的坐标值；Direction(e_ij)代表边向量的方向。由此，可以将目标动作抽象成多个边的空间向量，每条边都由一组中心的坐标和一个表示长度和方向的向量来表示。每条边的边值则可以根据其两端的节点的节点值来计算。

在空间卷积中，同样要涉及到对邻接边赋值权重的问题。本实施例中，定义标号函数l是在相邻边上指定顺序的函数。对于连接边e_ij邻域中的每个邻接边e_kn，标记函数l将在其上分配一个标记值l(e_kn)，指示该边缘的顺序，并且分配给e_kn的权重取决于标记值l(e_kn)。由于相邻边的数目是时变的，因此不同时刻以及不同连接边的邻接边数目都可能不同，如果按照全连接矩阵的维度去设置固定数量的权重来分配给边，一来会因为多数连接边其实不存在带来计算量浪费的问题，二来数据拟合过程中稀疏矩阵的运算也会带来不便，因此，本实施的标记函数l不是赋给每个邻接边一个唯一的标记值，而是将邻接边映射成固定数目的子集，并且同一子集中的边具有相同的标记值。

记：l(e_kn):N(e_ij)→{1，…，K}，邻域中的每一条边都将被标记为一个1到K的整数，这个整数是决定将哪个权重值分配给这个边的边的顺序。从而，即使相邻边的数目不是固定的，也总是可以用K个权值给它们赋值，因为这些边总是被分成K个子集。

标记函数L和标号函数l可以采用类似的定义方式，在此不再赘述，在全文的叙述中，对于二者采用类似定义的情况，二者有时也会相互替代使用。特别是将时间卷积和空间卷积相结合使用统一的卷积计算来实现时，标记函数L和标号函数l也会合并成一个函数，用于对所有邻接边进行统一分组，本公开对于这种情况也将使用L或者l来表示。

步骤S130，根据所述节点数据和所述连接边的边数据，构建动作数据的图结构。

将上述步骤S120和S110采集和计算的数据记录到图结构中，就构成了本发明图结构的主要数据结构。

当然根据需要，图结构的节点和边的数据结构中，还可以进一步记录动作的时间信息，节点的更多维度的数据，等等。

在步骤S140，以所述动作数据的图结构作为模型输入，表情识别分类结果作为模型输出，对预设的图卷积神经网络表情识别模型进行有监督训练；其中，所述以所述动作数据的图结构作为模型输入包括：以所述动作数据的图结构中的所述连接边的边数据作为模型输入。

卷积网络是从动作序列中提取一组高层次特征，而节点卷积网络和边卷积网络从不同的角度提取特征，因此这两组特征(卷积层的输出)从不同的角度表示同一动作序列。边卷积和节点卷积都有各自的优点。边卷积网络利用边的动力学，而节点卷积网络利用节点的动力学。由于节点和边的动力学是相辅相成的，也可考虑设计一个模型来同时利用这两组特征，使我们能够从节点和边的角度利用人体肌肉动力学，进一步提动作识别任务的性能。由于边卷积同时体现了时间邻域和空间邻域的特征，对于诸如人脸表情之类的时序动作有更好的捕捉和识别能力，特别是对于微表情的识别，相对于现有的基于节点的卷积方式，在识别能力上有显著的提高；且对于面部数据的采集精度要求大大降低。可以在低精度数据集获得良好的识别结果。

因此，本发明进一步设计了两种不同的混合模型，根据不同层次的特征将边缘卷积模型和节点卷积模型结合起来。

要说明的是，本发明是可以单独以边卷积而不含节点卷积的实施例形式实现的，只是在混合模型中去掉点卷积部分即可。本领域技术人员可以在本发明的教导下自行得出相应的网络结构。该技术方案也将落入本发明的保护范围。

从深度学习流水线的角度来说，所述预设的图卷积神经网络包括依次连接的：输入层(601、701)、图卷积层、全连接层(606、707)和输出层(607、708)。其中输入层可分为节点与边两种形式，完成节点和/或边的位置和向量输入。图卷积层包含正则化层，节点/边卷积层，以及全局池化层。正则化层(Normalization Layer)具有正则化防止过拟合、提高模型的泛化能力、允许更高的学习速率从而加速收敛。图卷积层主要用来完成特征提取；全局池化层用来降维并减少网络的参数；最后通过全连接层进行分类，将分类结果导入输出层。

从深度学习架构的角度来说，在单独的边卷积或节点卷积网络中，只有一组特征he_Seq或hn_Seq，我们对其应用全局池来获得整个序列的表示，然后将其输入到一个完全连接的层中，以输出表示序列被分类到每个类的概率的最终类分数。也可以将两者综合后，得到两组特征和两个相同序列的不同表示。通过将这两个表示进行级联，形成一个张量，以获得最后一个完全连接层的输入。通过连接边和节点卷积流的输出，从边缘和节点卷积网络中提取的特征有助于最终的分类结果，即在分类中利用节点和边(肌肉)的动力学。

这种混合边与节点的图卷积神经网络可以分为两种形式进行：第一种是在分别完成基于边的图卷积神经网络与基于节点的图卷积神经网络输出，分别经过各自全局池化层后进行级联，再导入全连接层进行分类；第二种方式是将基于边的图卷积神经网络与基于节点的图卷积神经网络输出直接进行级联，导入全局池化层，最后再经过全连层进行分类。

参见图6，图7，其分别示出了本发明图神经网络的两种不同实现形式。

图6中，所述图卷积神经网络动作识别模型结构中：所述图卷积层的结构包括：并行级联连接的第一子层和第二子层，其中，所述第一子层包括依次连接的第一批正则化层602、边卷积层603和第一全局池化层605，所述第二子层包括依次连接的第二批正则化层608、节点卷积层604和第二全局池化层609。将边卷积和节点卷积分别进行池化，之后，将二者的输出结果级联构成一个总的张量，输入到全连接层和输出层，进行分类输出。体现的是对边卷积信息和节点卷积信息的综合运用。

图7的结构中，所述图卷积层的结构包括：依次连接的图结构卷积子层、共享卷积子层和全局池化子层，其中所述图结构卷积子层包括并行级联连接的第三子层和第四子层，所述第三子层包括依次连接的第三批正则化层702和边卷积层703，所述第四子层包括依次连接的第四批正则化层709和节点卷积层704。之后，经共享卷积层705和全局池化层706进行卷积和池化之后，输出到全连接层707和输出层708。图7的方法中，将边卷积和节点卷积的计算结果级联合并后，再输入到共享卷积层和全局池化层,进行综合卷积运算做进一步的特征提取，然后再通过全连接层和输出层分类输出。体现的是对边卷积和节点卷积运算后，进行综合信息提取的思路。

其中，所述边卷积层的卷积计算包括：获取所有连接边的边数据，其中，所述连接边的边数据包括用于表征所述连接边的两端的两个节点的节点动作数据的边值；根据连接边的边值加权求和计算所述边卷积层的输出。

可将时间卷积和空间卷积同时在边卷积层中进行体现。例如，具体而言，边卷积层可按照如下公式计算：

其中，

表示边e_ij对应的卷积输出，v_kn表示边连接边e_kn的取值，例如，可以取边的两个端点的节点值的算数平均值、几何平均值或者加权平均值等。ω(l(e_kn))表示边e_kn对应的权值，式3中考虑了按照标记函数l进行分类赋权的情形，当然，如果有必要，可以ω(e_kn)作为边的权重，为每一条邻接边分别赋值权重。

可选地，对于简化计算的情形，采用K＝3个子集对连接边e_kn的邻接边的进行子集分组，分为离心、偏心、同心三个不同的子集，按照组别设置相应权重系数的实施例，卷积层计算公式可以进一步写成：

其中，ω(l(e_kn))是权函数，l(e_kn)是根据标记函数计算的标签值，权函数根据所述边的标签值为所述边分配权值。N(e_ij)表示边e_ij的邻接边的集合，所述邻接边包括空域邻接边，或者包括空域邻接边和时域邻接边。将所述集合N(e_ij)划分为K个子集时，N_P(e_ij)表示其中的第P个子集，P∈(1,2,……,K)。Z_ij(e_kn,P)表示邻接边集合N(e_ij)中第P个子集N_P(e_ij)中包含的邻接边的数量。系数

的引入是为了平衡邻接边在不同标记值下的贡献。

可选地，为便于处理，权值取值范围在[0,1]。即，所述标签值l(e_kn)的取值划分为K＝3个子集，每个子集分配一个权值，每个权值取值范围在[0,1]，例如，三个权值分别为0.2、0.3和0.5。

对于节点卷积，可以采用与边卷积类似的计算方式：

其中，其中，

表示节点n_i对应的卷积输出，v_n表示边节点n_i的取值。ω(l(e_n))表示节点n_i对应的权值，N(x_i)为节点n_i的邻接节点的集合。

其中，邻接节点集合可以采用与邻接边集合类似的方式定义，不再赘述。式6中考虑了按照标记函数l进行分类赋权的情形，当然，如果有必要，可以ω(x_n)作为节点的权重，为每一个节点分别赋值权重。

同理，可选地，对于简化计算的情形，采用K＝3个子集对连接边e_kn的邻接边的进行子集分组，分为离心、偏心、同心三个不同的子集，按照组别设置相应权重系数的实施例，将节点按照其所在连接边的组别进行分组；或者是，按照每个节点与节点n_i相对于动作的中心点的距离或者位置关系直接对节点进行分组，则卷积层计算公式可以进一步写成：

其中，ω(l(x_n))是权函数，l(x_n)是标签值，根据标记函数计算的标签值，权函数根据所述边的标签值为所述边分配权值。N(x_i)表示节点n_i的邻节点的集合。将所述集合N(x_i)划分为K个子集时，N_P(x_i)表示其中的第P个子集，P∈(1,2,……,K)。Z_i(x_n,P)表示邻节点集合N(x_i)中第P个子集N_P(x_i)中包含的邻节点的数量。系数

的引入是为了平衡邻节点在不同标记值下的贡献。

可选地，为便于处理，权值取值范围在[0,1]。即，所述标签值l(x_n)的取值划分为K＝3个子集，每个子集分配一个权值，每个权值取值范围在[0,1]，例如，三个权值分别为0.2、0.3和0.5。

要说明的是，各个卷积层可以是单卷积层，也可以是多层卷积，即卷积层1、卷积层2等，全连层也可以是多层，同时每层可以使用Relu,tanh等不同激活函数，最后分类采用softmax函数，也可根据需要使用dropout等手段防止过拟合。本领域技术人员可以在本发明精神的指引下，根据卷积神经网络的各种已有网络结构和优化手段，对本发明的方案进行相应修改和变换，以适合各种不同场景和数据量的使用需求，这些修改和变换都将落入本发明的保护范围。

本发明第二方面的实施例提出了一种动作识别方法，参见图5，所述方法包括以下步骤S210到S240。

在步骤S210，获取预设节点集合中的所有节点的节点数据，所述节点数据包括节点的空间位置，和节点动作数据的时间序列。

所述方法用于人脸表情识别时，所述获取预设节点集合中的所有节点的节点数据，包括：获取设置于人脸皮肤上的预设面部节点处的压电传感器采集的电压数据，将所述压电传感器采集的电压数据经数据预处理后，得到所述预设面部节点集合中的所有节点的节点数据；或者获取包含人脸的多帧时序图像，根据所述时序图像获取预设面部节点集合中的所有节点的节点数据。

在步骤S220，根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，所述边数据表征节点动作数据相对于参考值发生变动的节点位置和节点动作数据的变化。

根据所述节点集合中所有节点的空间位置和节点动作数据的时间序列，确定连接边集合，其中具体包括：对节点动作数据的时间序列中的每一个时间点，获取节点集合中，该时间点的节点动作数据变动大于预设阈值的节点，作为活跃节点，任意两个活跃节点i，j相连，构成连接边e_ij；对t₁时刻的每一条连接边e^t1 _ij，获取其预设空间邻域内的空间邻接边和预设时间邻域内的时域邻接边，构成邻接边集合N(e^t1 _ij)，其中，所述预设空间邻域内的空间邻接边是指：两条邻接边通过不大于预设层数d的节点连接，d为自然数，所述预设时间邻域内的时间邻接边是指：对于连接边e^t1 _ij，考虑与t₁时间间隔不超过预设时间范围的时间邻域内的任意时刻t₂的连接边e^t2 _ij，连接边e^t2 _ij的空间邻接边也被视为是连接边e^t1 _ij的空间邻接边；根据每条连接边的所述时域邻接边和所述空间邻接边计算连接边集合和每条连接边的边数据。

对于每条所述连接边的邻接边集合，计算其标记函数L，根据所述标记函数L为所述邻接边集合中的每个邻接边分配权重；其中，所述标记函数L用于表征所述连接边的邻接边集合中的每个邻接边与所述连接边的关联程度。

所述标记函数L的取值为预定数量的离散值，标记函数L的取值根据每个邻接边与所述连接边的相对位置关系确定；根据所述标记函数L为所述邻接边集合中的每个邻接边分配权重包括：根据每个邻接边与所述连接边的位置关系，根据所述标记函数L的取值确定权重系数，使具有相同标记函数值的边具有相同的权重。

计算每条所述连接边的中心坐标和方向向量，其中，所述中心坐标和所述方向向量根据所述边所连接的两个节点的三维位置信息获得；将所述连接边的中心坐标和方向向量记录到所述连接边的边数据中。

在步骤S230，根据所述节点数据和所述连接边的边数据，构建动作数据的图结构；

在步骤S240，将所述动作数据的图结构输入经过预训练的图卷积神经网络表情识别模型，得到模型输出的表情识别分类结果；其中，所述预设的图卷积神经网络表情识别模型是根据本发明第一方面所述的模型训练方法得到的；所述将所述动作数据的图结构输入经过预训练的图卷积神经网络表情识别模型包括：将所述动作数据的图结构中的所述边数据作为模型输入。

为了获得更好的识别效果，可以所述动作数据的图结构中的所述边数据和所述节点数据共同作为模型输入。

其中，步骤S210-步骤S240的具体实现方式，可以参见步骤S110到S140的相关部分的描述，在此不再赘述。

下面以表情识别为例，对本发明的方法中，节点数据的获取进行进一步的详细说明。

基于图像以及视频序列的微表情卷积神经网络算法往往受限于表情捕捉的精确程度，很难具备较高的表情识别准确度。其中，微表情分类相对于宏表情(情绪分类)来说更加困难，主要因为数据稀疏、需要定位到面部局部区域且持续时间较短，不易捕捉。

因此，本发明提出了一种基于压电传感器和柔性面膜进行表情数据采集的方式。参见图2，本发明提供了一种表情数据采集面膜，包括柔性面膜基地和设置在其上的压电薄膜传感器。其使用方式如图3所示。以压电传感器所在位置作为预设节点。以压电传感器采集的数据作为节点的动作数据。

要说明的是，图2中的节点和边仅作为示意之用，并不意味着实际的传感器布置方式。压电传感器可以根据人脸的结构特征进行分布，按照神经生理学等相关学科的研究结果进行合理配置，从而更好的采集面部肌肉的动作。

图4示出了一种针对人脸表情识别的预设节点方式，其中，预设节点主要分布在眼睛、嘴周缘、颧骨等表情动作肌肉主要分布带。当然，图4的预设节点也适用于跟图视频帧或图像序列进行表情识别的场景。

面膜佩戴在使用者面部，可用于在给定范式的条件下，观测使用者表情反应，从而判断其情绪变化，以及潜在抑郁症、双向、精神分裂等精神类疾病的潜在风险。压电薄膜传感器多点阵列分布于人的面部，通过传感器捕捉面部肌肉动态压力/张力变化，来捕捉使用者面部表情，传感器主要分布于人脸面部凸起/凹陷以及肌肉动态变化幅度较大的区域，通过多点传感器数据反馈使用者情绪变化。有别于传统图像方法识别人脸面部表情，采用压电薄膜记录人面部肌肉变化，从而推断表情以及情绪变化，可以在更精确的面部动作数据基础上，对面部表情进行准确分类，能够提高微表情的识别准确率。

根据本发明第三方面的实施例还提供了一种表情识别装置，其包括：人脸动作数据采集模块，用于获取预设节点集合中的所有节点的节点数据，所述节点数据包括节点的空间位置，和节点动作数据的时间序列；动作数据处理模块，用于根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据；以及，根据所述节点数据和所述连接边的边数据，构建动作数据的图结构；分类模块，用于将所述动作数据的图结构输入经过预训练的图卷积神经网络表情识别模型，得到模型输出的表情识别分类结果；其中，所述分类模块，用于将所述动作数据的图结构中的边数据输入经过预训练的图卷积神经网络表情识别模型。

其中，所述表情识别装置的各个模块的具体实现细节，可以参照上文中结合步骤S110到S140的动作识别模型训练方法和结合步骤S210到240的动作识别方法的叙述，在此不再赘述。

根据本发明第四方面的实施例还提供了一种非临时性计算机可读存储介质，其中存储有计算机指令，所述计算机指令被执行时，实现本发明第一或第二方面所述的方法。

虽然本公开披露如上，但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种动作识别模型训练方法，其特征在于，包括：

获取预设节点集合中的所有节点的节点数据，所述节点数据包括节点的空间位置和节点动作数据的时间序列；

所述根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，包括：

对每个时间点t₁对应的每一条连接边e^t1 _ij，获取其预设空间邻域内的空间邻接边和预设时间邻域内的时域邻接边，构成邻接边集合N(e^t1 _ij)，其中，所述预设空间邻域内的空间邻接边是指：两条邻接边通过不大于预设层数d的节点连接，d为自然数，所述预设时间邻域内的时域邻接边是指：对于连接边e^t1 _ij，考虑与t₁时间间隔不超过预设时间范围的时间邻域内的任意时刻t₂的连接边e^t2 _ij，连接边e^t2 _ij的空间邻接边也被视为是连接边e^t1 _ij的空间邻接边，所述预设时间范围大于等于零；以及

根据每条连接边的所述时域邻接边和所述空间邻接边计算连接边集合和每条连接边的边数据；

根据所述节点数据和所述连接边的边数据，构建动作数据的图结构；以及

以所述动作数据的图结构作为模型输入，动作识别分类结果作为模型输出，对预设的图卷积神经网络动作识别模型进行有监督训练；其中，所述预设的图卷积神经网络动作识别模型包括依次连接的：数据输入层、图卷积层、全连接层和输出层；

2.根据权利要求1所述的方法，其特征在于，所述以所述动作数据的图结构作为模型输入，包括：

以所述动作数据的图结构中的所述连接边的边数据和所述节点数据共同作为模型输入。

3.根据权利要求1所述的方法，其特征在于，所述动作识别模型为人脸表情识别模型，所述获取预设节点集合中的所有节点的节点数据，包括：

获取设置于人脸皮肤上的预设面部节点处的压电传感器采集的电压数据，将所述压电传感器采集的电压数据经数据预处理后，得到预设面部节点集合中的所有节点的节点数据；或者

4.根据权利要求1所述的方法，其特征在于，所述根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，还包括：

5.根据权利要求4所述的方法，其特征在于，

所述标记函数L的取值为预定数量的离散值，标记函数L的取值根据每个邻接边与所述连接边的相对位置关系确定；以及

6.根据权利要求1所述的方法，其特征在于，根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，包括：

计算每条所述连接边的中心坐标和方向向量，其中，所述中心坐标和所述方向向量根据所述连接边所连接的两个节点的三维位置信息获得；以及

7.根据权利要求1所述的方法，其特征在于，所述以所述动作数据的图结构作为模型输入，动作识别分类结果作为模型输出，对预设的图卷积神经网络动作识别模型进行有监督训练的步骤包括：

所述图卷积神经网络动作识别模型结构中：

8.根据权利要求7所述的方法，其特征在于，

所述边卷积层的卷积计算包括：

获取所有连接边的边数据，其中，所述连接边的边数据包括用于表征所述连接边的两端的两个节点的节点动作数据的边值；以及

根据连接边的边值加权求和计算所述边卷积层的输出。

9.一种动作识别方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，所述以所述动作数据的图结构作为模型输入，包括：

11.根据权利要求9所述的方法，其特征在于，所述方法用于人脸动作识别，所述获取预设节点集合中的所有节点的节点数据，包括：

12.根据权利要求9所述的方法，其特征在于，所述根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，包括：

对t₁时刻的每一条连接边e^t1 _ij，获取其预设空间邻域内的空间邻接边和预设时间邻域内的时域邻接边，构成邻接边集合N(e^t1 _ij)，其中，所述预设空间邻域内的空间邻接边是指：两条邻接边通过不大于预设层数d的节点连接，d为自然数，所述预设时间邻域内的时域邻接边是指：对于连接边e^t1 _ij，考虑与t₁时间间隔不超过预设时间范围的时间邻域内的任意时刻t₂的连接边e^t2 _ij，连接边e^t2 _ij的空间邻接边也被视为是连接边e^t1 _ij的空间邻接边；以及

13.根据权利要求12所述的方法，其特征在于，所述根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，还包括：

对于每条所述连接边的邻接边集合，计算其标记函数L，根据所述标记函数L为所述邻接边集合中的每个邻接边分配权重；以及

14.根据权利要求13所述的方法，其特征在于，

15.根据权利要求9所述的方法，其特征在于，根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，包括：

16.一种动作识别装置，其特征在于，包括：

动作数据采集模块，用于获取预设节点集合中的所有节点的节点数据，所述节点数据包括节点的空间位置，和节点动作数据的时间序列；

动作数据处理模块，用于根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据；所述根据所述节点数据，计算所述节点集合中所有节点的连接边集合和每条连接边的边数据，包括：

以及，根据所述节点数据和所述连接边的边数据，构建动作数据的图结构；以及

分类模块，用于将所述动作数据的图结构输入经过预训练的图卷积神经网络动作识别模型，得到模型输出的动作识别分类结果；其中，所述预训练的图卷积神经网络动作识别模型包括依次连接的：数据输入层、图卷积层、全连接层和输出层；

17.一种非临时性计算机可读存储介质，其中存储有计算机指令，其特征在于，所述计算机指令被执行时，实现权利要求1-8中任意一项所述的动作识别模型训练方法或权利要求9-15中任意一项所述的动作识别方法。