CN111325099A

CN111325099A - 一种基于双流时空图卷积神经网络的手语识别方法及系统

Info

Publication number: CN111325099A
Application number: CN202010069598.5A
Authority: CN
Inventors: 刘天亮; 王焱章; 鲍秉坤; 谢世朋; 戴修斌
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-23
Anticipated expiration: 2040-01-21
Also published as: CN111325099B

Abstract

本发明公开一种基于双流时空图卷积神经网络的手语识别方法及系统，首先，将手语动作视频切分为视频帧，提取手语动作视频片段中人物上半身和手部骨架点，并构建全局和局部图数据；利用双流时空图卷网络分别提取全局和局部时空特征，经过特征拼接得到全局‑局部特征；同时，将视频对应文本通过分词处理之后编码为词向量，并采用特征变换将二者映射到同一隐空间，利用动态时间规整算法进行模型训练；对全局‑局部特征序列，采用自注意力机制编解码网络对其进行序列化建模，解码器的输出采用softmax分类器获得每个视频片段所对应的单词，并组成相应文本句子。本发明能提高生成文本句子的准确率，在字幕生成、人机交互等场景中具有重要的应用价值。

Description

一种基于双流时空图卷积神经网络的手语识别方法及系统

技术领域

本发明属于计算机视觉中行为识别和自然语言处理中机器翻译的交叉领域，具体涉及一种基于双流时空图卷积神经网络的手语识别方法及系统。

背景技术

人体行为识别是一项以目标检测、识别、跟踪为基础的高层次的任务，构建一套鲁棒性好、应用范围广的人体行为识别系统仍极具挑战性。基于计算视觉的人体行为识别研究包含丰富的研究内容，涉及图像处理、计算机视觉、模式识别、人工智能等诸多方面的知识。当前，基于计算机视觉的人体行为识别主要包括基于手工特征的传统方法和基于卷积神经网络的深度学习方法。传统方法通过设计手工特征，然后对视频帧提取特征然后通过机器学习的方法训练分类器，最后通过训练所得分类器利用特征进行分类，从而实现人体行为的识别。深度学习的方法通过设计特定的端到端的神经网络结构，可以完成特征提取、动作分类等一连串操作。目前两种主流方法虽然均取得了重要的进展，但是基于视频的人体行为识别受光照条件各异、视角多样性、背景复杂、类内变化大等诸多因素的影响，使得人体行为识别成为图像视频理解任务中棘手且极具挑战的研究方向。

手语是聋哑人的主要语言，尽管其作为一种“语言”被广泛使用，但这一特殊群体在与不懂手语的人进行交流时存在困难。目前的相关文献中，在手语识别任务中所使用的RGB、深度图等模态的数据很容易受到场景中视觉信息的干扰，特别是复杂场景下，针对RGB图片或者深度图等数据进行特征提取，一方面运算量大不能满足实时性要求，另一方面，所提取的特征鲁棒性不强，表征能力不够，特别是无法对时域上的信息进行描述。

发明内容

发明目的：针对现有技术存在的问题，本发明目的在于提出一种基于双流时空图卷积神经网络的手语识别方法及系统，采用双流时空图卷积网络分别对两个部分分别提取时空特征，更合理地描述了手语动作视频中的动作信息；针对复杂场景有显著的鲁棒性，能在一定程度上提高了手语识别的准确度。

发明内容：本发明所述的一种基于双流时空图卷积神经网络的手语识别方法，具体包括以下步骤：

(1)将带有标签文本的手语动作视频按照设定帧率分割为若干候选帧图像序列；

(2)利用自下而上的人体姿态估计方法和手部标志模型分别提取由设定长度的候选帧组成的视频片段中人物的上半身和手部的骨架关键点，得到骨架关键点坐标；利用图数据结构，将检测所得关键点按照人体关节的物理形态结构进行连接，构建全局和局部两种图数据，分别对应上半身和手部两个部分；

(3)将步骤(2)中构建的全局和局部图数据分别输入到双流时空图卷积神经网络中，按顺序依次提取出相应候选视频片段中的时空特征，得到对应上半身的全局时空特征和对应手部局部时空特征序列，经过即得的特征拼接之后形成全局-局部时空特征序列；

(4)利用特征映射函数对步骤(3)提取的全局-局部时空特征序列，进行特征变换，并加入位置编码；然后，依次经过各子层计算注意力，并通过前向传播，经过层正则化得到自注意力向量；

(5)在解码阶段，首先，对前一时间步的输出进行词嵌入，加入位置编码之后输入到解码器，解码器的第一个子层对其计算掩膜注意力；然后，同编码器的输出一起输入到解码器的第二、三子层；最终，经过softmax分类器得到对应单词的概率；

(6)在利用时空图卷积分别对人物上半身和手部分别提取全局和局部时空特征的同时，将视频对应的句子进行分词处理，并编码为脉冲激活编码向量；然后，将全局-局部特征和文本的脉冲激活编码向量分别映射到同一隐空间，并采用动态时间规整算法对二者进行相关性计算，并构造损失函数进行模型训练。

进一步地，所述步骤(2)包括以下步骤：

(21)将整个视频候选帧图像每连续T帧视为一个短帧序列；然后，使用自下而上的人体姿态估计方法和手部标志模型分别提取每个短帧序列的人物上半身和手部骨架关键点，得到骨架关键点坐标序列；其中T为设定的连续帧的长度，不足T帧时，对最后一帧进行过采样，填补为一个短帧序列；最终，分别得到k段人物上躯干和双手的连续帧序列；

(22)对k段人物上躯干的帧序列中N^B×T个骨架关键点进行连接，构建上躯干图G^B＝(V^B,E^B,A^B)，其中N^B为每一帧内提取得到的人物上半身骨架关键点的总数；

为骨架关键点集合，

表示边集合，其包含两个子集

和

分别表示每一帧内部的连接边和相邻时间上的连接边；同时，可得邻接矩阵

(23)对k段手部的连续帧序列中N^H×T个骨架关键点进行连接，构建双手图G^H＝(V^H,E^H,A^H)，其中，N^H为每一帧内提取得到的手部骨架关键点的总数；

为骨架关键点集合，

表示边集合，其包含两个子集

和

进一步地，所述步骤(3)包括以下步骤：

(31)单层图卷积计算形式如下：

其中Λⁱⁱ＝∑_j(A^ij+I^ij)，f_in为输入特征图，W为输出多个通道的权重向量叠加而成的权重矩阵，I为自连结矩阵；

(32)经过双流时空图卷积网络，分别得到基于上半身的全局特征f^G和基于手部的局部特征f^L，经过特征拼接之后得到全局-局部特征f^G-L＝[f^G；f^L]。

进一步地，所述步骤(4)所包括以下步骤：

(41)利用特征映射函数将步骤(3)中提取得到的全局-局部特征序列F＝(f₁,f₂,...,f_k)进行特征变换：

F′＝T_v(F)

(42)将F′采用基于自注意力的编解码模型对其进行编解码得到输出序列，编码器中每一个单元模块计算如下：

Qⁱ＝W^qf′ⁱ,Kⁱ＝W^kf′ⁱ,Vⁱ＝W^vf′ⁱ

bⁱ＝layerNorm(xⁱ+aⁱ)

hⁱ＝layerNorm(bⁱ+FFN(bⁱ))

FFN(x)＝ReLU(xW₁+b₁)W₂+b₂

其中，Q、K、V分别表示Query，Key，Value矩阵；

表示注意力权重；a表示注意力向量；b为输入与注意力向量通过残差连接并经过层正则化之后的输出；h为每个编码单元的输出；dotProduct表示矩阵点积运算，即相同维度的矩阵对应位置项相乘并累加；softmax表示归一化指数函数；layerNorm表示层正则化运算；ReLU为线性整流函数；FFN表示前向传播计算，W₁、W₂和b₁、b₂分别表示权重矩阵及偏置项。

进一步地，所述步骤(5)所包括以下步骤：

(51)将前一时间步的输出通过词嵌入得到词向量，作为解码器的一部分输入，之后计算解码器输入部分的注意力向量；

g_i＝T_s(o_i-1)

Qⁱ＝W^qgⁱ,Kⁱ＝W^kgⁱ,Vⁱ＝W^vgⁱ

bⁱ＝layerNorm(xⁱ+aⁱ)

其中，g为经过位置编码和脉冲激活编码之后的词向量；

(52)在解码器中的每一个时间步，使用与编码器相同的结构处理来自编码器的输出以及来自解码器的自注意力；

Q＝W^qx,K＝W^kx,V＝W^vx

b＝layerNorm(x+a)

o＝layerNorm(ReLU(xW₁+b₁)W₂+b₂+b)

其中，o表示解码器的输出；

(53)对解码器输出进行线性映射将其转换为非归一化概率向量，并经过softmax分类器输出归一化的类别概率值；最后，找到最大概率值对应的单词完成解码：

y＝sofmax(linear(o)W+b)

其中，o为解码器输出，linear表示线性运算；W,b分别为线性映射的权重矩阵及偏置项。

进一步地，所述步骤(6)实现过程如下：

依据动态时间规整算法构建如下损失函数：

f_v(f)＝T_v(f),f_s(x_s)＝T_s(x_s)

D[i,j]＝min(D[i-1,j],D[i-1,j-1])+d(i,j)

E_st-gcn(F,X_s；T_v,T_s)＝D(k,m)

＝min(D[k-1,m],D[k-1,m-1])+d(k,m)

其中，T_v,T_s分别为f和x_s的特征映射函数；d(i,j)表示第i个动作特征和第j个文本特征之间的距离；D[i,j]表示第i个动作特征序列与第j个文本特征序列之间的距离，根据损失函数的定义，可依据随机梯度下降法和链式规则迭代计算学习得到；

对于基于自注意力的编解码网络，给定隐空间中的特征序F′＝(f′₁,f′₂,...,f′_k)，经过自注意力编解码网络得到输出序列Y＝(y₁,y₂,...,y_m)，手语识别最终可定义为求解最大化条件概率p(Y|F′)＝Πp(y_t|f′_t,y_t-1)，损失函数定义为如下形式：

模型参数

可通过随机梯度下降法优化得到。

本发明还提供一种基于双流时空图卷积神经网络的手语识别系统，包括：

视频预处理模块，用于将包含手语动作的视频按照设定帧率分割为若干候选帧图像序列；然后，利用自下而上的人体姿态估计方法和手部标志模型对视频帧的人物上半身和手部分别提取骨架关键点信息；接着，根据设定的连接方式及长度构建全局和局部时空图结构数据；

视频片段特征提取模块，用于利用双流时空图卷积神经网络分别对全局和局部图数据提取全局和局部时空特征，并对两部分特征进行拼接得到全局-局部时空特征；

特征映射及位置编码模块，用于将编码器和解码器的输入进行特征变换，以获得高层语义特征，同时进行位置编码，加入位置信息；

自注意力编码模块，用于将视频片段的全局-局部时空特征进行特征变换；然后，利用多层编码器对其通过多头注意力和层正则化进行计算得到自注意力向量，作为自注意力解码模块的一部分输入；

自注意力解码模块，用于对编码模块的输出以及其前一时刻解码模块的输出进行解码；首先，对加入位置编码的前一时间步的输出经过解码器的第一子层计算得到掩膜注意力；然后，将其与编码器的输出同时输入到第二、三子层；最后，经过softmax分类器得到对应单词的概率。

本发明另提供一种基于双流时空图卷积神经网络的手语识别系统，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于双流时空图卷积神经网络的手语动作视频识别方法。

有益效果：与现有技术相比，本发明的有益效果：1、本发明利用时空图卷积神经网络对骨架图数据提取时空特征，综合考虑空间和时间维度上的相关性，针对手语动作视频中人体上肢躯干和手部的动作幅度及细节程度的差异，采用双流时空图卷积网络分别对两个部分分别提取时空特征，更合理地描述了手语动作视频的动作信息；2、通过一种新的基于骨架关节点的手语特征表示，并且针对复杂场景有显著的鲁棒性，能在一定程度上提高了手语识别的准确度。

附图说明

图1本发明流程图；

图2为本发明训练流程图；

图3为编解码单元模块示意图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

如图1所示，本发明公开的一种基于双流时空图卷积的手语识别方法，利用自下而上的人体姿态估计方法和手部标志模型对手语动作视频检测并提取人体骨架关节点信息，构建人体骨架关键点图数据；采用时空图卷积神经网络分别对人体上躯干骨架图数据和手部图数据提取出视频序列的全局时空特征序列和局部时空特征序列，并进行特征拼接得到全局-局部时空特征序列；再利用自注意力编解码网络对时空特征进行序列化建模；最后，通过softmax分类器获得视频片段的最大分类概率，经过映射得到最终的输出文本。具体包括如下步骤：

步骤1：将带有标签文本的手语动作视频按照设定帧率，如16帧每秒，分割为若干候选帧图像序列。

步骤2：利用自下而上的人体姿态估计方法和手部标志模型分别提取由设定长度的候选帧组成的视频片段中人物的上半身和手部的骨架关键点，得到骨架关键点坐标；利用图数据结构，将检测所得关键点按照人体关节的物理形态结构进行连接，构建全局和局部两种图数据，分别对应上半身和手部两个部分。

(1)将步骤1中提取出的视频候选帧图像每连续T帧视为一个短帧序列；然后，使用自下而上的人体姿态估计方法和手部标志模型分别提取每个短帧序列的人物上半身和手部骨架关键点，得到骨架关键点坐标序列；其中T为设定的连续帧的长度，不足T帧时，对最后一帧进行过采样，填补为一个短帧序列；最终，分别得到k段人物上躯干和双手的连续帧序列。

(2)对k段人物上躯干的帧序列中N^B×T个骨架关键点进行连接，构建上躯干图G^B＝(V^B,E^B,A^B)。其中，N^B为每一帧内提取得到的人物上半身骨架关键点的总数；

为骨架关键点集合，

表示边集合，其包含两个子集

和

(3)对k段手部的连续帧序列中N^H×T个骨架关键点进行连接，构建双手图G^H＝(V^H,E^H,A^H)。其中，N^H为每一帧内提取得到的手部骨架关键点的总数；

为骨架关键点集合，

表示边集合，其包含两个子集

和

步骤3：将步骤2中构建的全局和局部图数据分别输入到时空图卷积神经网络中，按顺序依次提取出相应候选视频片段中的时空特征，得到对应上半身的全局时空特征和对应手部局部时空特征，经过即得的特征拼接之后形成全局-局部时空特征。

单层图卷积计算形式如下：

其中Λⁱⁱ＝∑_j(A^ij+I^ij)，f_in为输入特征图，W为输出多个通道的权重向量叠加而成的权重矩阵，I为自联结矩阵。

经过双流时空图卷积网络处理之后，最终，分别得到基于上躯干的全局特征f^G和基于手部的局部特征f^L，经过即得的特征拼接之后得到最终的全局-局部特征f＝[f^G；f^L]。

本例中采用的时空图卷积神经网络包括9层时空图卷积运算，前三层64个输出通道，中间三层128个输出通道，后三层256个输出通道。

步骤4：利用特征映射函数对步骤3提取的全局-局部时空特征序列，进行特征变换，并加入位置编码；然后，依次经过各子层计算注意力，并通过前向传播，之后经过层正则化得到自注意力向量。

(1)利用特征映射函数T_v将步骤3中提取得到的全局-局部特征序列F＝(f₁,f₂,...,f_k)进行特征变换；

F′＝T_v(F) (2)

(2)如图3所示，将F′采用基于自注意力的编解码模型对其进行编解码得到输出序列；编码器中每一个单元模块计算如下：

其中，Q、K、V分别表示Query，Key，Value矩阵；

步骤5：在解码阶段，首先，对前一时间步产生的输出进行词嵌入，加入位置编码之后输入到解码器，解码器的第一个子层对其计算掩膜注意力；然后，同编码器的输出一起输入到解码器的第二、三子层；最终，经过softmax分类器得到对应单词的概率。

(1)将前一时间步的输出通过词嵌入得到词向量，作为解码器的一部分输入，之后计算解码器输入部分的注意力向量。计算形式如下：

其中，g为经过位置编码和脉冲激活编码之后的词向量；其余符号同上。

(2)如图3所示，在解码器中的每一个时间步，使用与编码器相同的结构处理来自编码器的输出以及来自解码器的自注意力；每个单元模块的计算如下：

其中，o表示解码器的输出；其余符号同上。

(3)对解码器输出进行线性映射将其转换为非归一化概率向量，并经过softmax分类器输出归一化的类别概率值；最后，找到最大概率值对应的单词完成解码：

y＝sofmax(linear(o)W+b) (6)

其中，o表示解码器输出；linear表示线性运算；W,b分别表示线性映射的权重矩阵和偏置项。

步骤6：如图2所示，在利用时空图卷积分别对人物上半身和手部分别提取全局和局部时空特征的同时，将视频对应的句子进行分词处理，并编码成脉冲激活编码向量；然后，将全局-局部特征和文本的脉冲激活编码向量分别映射到相同的隐空间，并采用动态时间规整算法对二者进行相关性计算，并构造损失函数进行训练。

依据动态时间规整算法构造如下损失函数进行参数学习：

其中，T_v,T_s分别为f和x_s的特征映射函数；d(i,j)表示第i个动作特征和第j个文本特征之间的距离；D[i,j]表示第i个动作特征序列与第j个文本特征序列之间的距离。根据损失函数的定义，可依据随机梯度下降法和链式规则迭代计算学习得到。

对于基于自注意力的编解码网络，给定隐空间中的特征序列F′＝(f′₁,f′₂,...,f′_k)，经过自注意力编解码网络得到输出序列Y＝(y₁,y₂,...,y_m)，手语识别最终可定义为求解最大化条件概率p(Y|F′)＝Πp(y_t|f′_t,y_t-1)，损失函数定义为如下形式：

模型参数

可通过随机梯度下降法优化得到。

本发明提供一种基于双流时空图卷积的手语识别系统，包括：视频预处理模块，用于将包含手语动作的视频按照设定帧率分割为若干候选帧图像；然后，利用自下而上的人体姿态估计方法和手部标志模型对视频帧的人物上躯干和手部分别提取骨架关键点信息；接着，根据设定的连接方式及长度构建全局和局部时空图结构；视频片段特征提取模块，用于利用双流时空图卷积神经网络分别对全局和局部图数据提取全局和局部时空特征，并对两部分特征进行拼接得到全局-局部时空特征；特征映射及位置编码模块，用于将编码器和解码器的输入进行特征变换，以获得高层语义特征，同时进行位置编码，加入位置信息；自注意力编码模块，用于将视频片段的全局-局部时空特征进行特征变换；然后，利用多个编码器模块对其通过多头注意力和层正则化进行计算得到自注意力向量，作为自注意力解码模块的一部分输入；自注意力解码模块，用于对编码模块的输出以及其前一时刻解码模块的输出进行解码，根据编码模块的输出以及前一时刻解码模块的输出；首先，对加入位置编码的前一时间步的输出经过解码器的第一子层计算得到掩膜注意力；然后，将其与编码器的输出同时输入到第二、三子层；最后，经过softmax层计算得到对应单词的概率。

上述基于双流时空图卷积的手语识别系统实施例可以用于执行上述基于双流时空图卷积的手语识别方法实施例，其技术原理、所解决的技术问题及产生的技术效果相似，上述描述的基于双流时空图卷积的手语识别的具体工作过程及有关说明，可以参考前述基于双流时空图卷积的手语识别方法实施例中的对应过程，在此不再赘述。

本领域技术人员可以理解，可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。

基于相同的发明构思，本发明实施例还提供一种基于双流时空图卷积的手语识别系统，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于双流时空图卷积的手语识别方法。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于双流时空图卷积神经网络的手语识别方法，其特征在于，包括以下步骤：

(2)利用自下而上的人体姿态估计方法和手部标志模型分别提取由设定长度的候选帧组成的视频片段中人物的上半身和手部的骨架关键点，得到骨架关键点坐标；借助图数据结构，将检测所得关键点按照人体关节的物理形态结构进行连接，构建全局和局部两种图数据，分别对应上半身和手部两个部分；

(4)利用特征映射函数对步骤(3)提取的全局-局部时空特征序列，进行特征变换，并加入位置编码；然后，依次经过各子层计算注意力，并通过前向传播，之后经过层正则化得到自注意力向量；

(5)在解码阶段，首先对前一时间步的输出进行词嵌入，加入位置编码之后输入到解码器，解码器的第一个子层对其计算掩膜注意力；然后，同编码器的输出一起输入到解码器的第二、三子层；最终，经过softmax分类器得到对应单词的概率；

(6)在利用时空图卷积分别对人物上半身和手部分别提取全局和局部时空特征的同时，将视频对应的句子进行分词处理，并编码成脉冲激活编码向量；然后，将全局-局部特征和文本的脉冲激活编码向量分别映射到同一隐空间，并采用动态时间规整算法对二者进行相关性计算，并构造损失函数进行模型训练。

2.根据权利要求1所述的一种基于双流时空图卷积神经网络的手语识别方法，其特征在于，所述步骤(2)包括以下步骤：

(21)将整个视频候选帧图像每连续T帧视为一个短帧序列；然后，使用自下而上的人体姿态估计方法和手部标志模型分别提取每个短帧序列的人物上半身和手部骨架关键点，得到骨架关键点坐标序列；其中T为设定的连续帧的长度，不足T帧时，对最后一帧进行过采样，填补为一个短帧序列；最终，分别得到k段人物上躯干和双手的连续短帧序列；

(22)对k段人物上躯干的短帧序列中N^B×T个骨架关键点进行连接，构建上躯干图G^B＝(V^B,E^B,A^B)，其中N^B为每一帧内提取得到的人物上半身骨架关键点的总数；

为骨架关键点集合，

表示边集合，其包含两个子集

和

为骨架关键点集合，

表示边集合，其包含两个子集

和

3.根据权利要求1所述的一种基于双流时空图卷积神经网络的手语识别方法，其特征在于，所述步骤(3)包括以下步骤：

(31)单层图卷积计算形式如下：

4.根据权利要求1所述的一种基于双流时空图卷积神经网络的手语识别方法，其特征在于，所述步骤(4)所包括以下步骤：

F′＝T_v(F)

Qⁱ＝W^qf′ⁱ,Kⁱ＝W^kf′ⁱ,Vⁱ＝W^vf′ⁱ

bⁱ＝layerNorm(xⁱ+aⁱ)

hⁱ＝layerNorm(bⁱ+FFN(bⁱ))

FFN(x)＝ReLU(xW₁+b₁)W₂+b₂

其中，Q、K、V分别表示Query，Key，Value矩阵；

表示注意力权重；a表示注意力向量；b为输入与注意力向量通过残差连接并经过层正则化之后的输出；h为每个编码单元的输出；dotProduct表示向量点积运算，即相同维度的向量对应位置项相乘并累加；softmax表示归一化指数函数；layerNorm表示层正则化运算；ReLU为线性整流函数；FFN表示前向传播运算，W₁、W₂和b₁、b₂分别表示权重矩阵及偏置项。

5.根据权利要求1所述的一种基于双流时空图卷积神经网络的手语识别方法，其特征在于，所述步骤(5)所包括以下步骤：

(51)将前一时间步的输出通过词嵌入得到词向量，作为解码器的一部分输入；接着，计算解码器输入部分的注意力向量；

g_i＝T_s(o_i-1)

Qⁱ＝W^qgⁱ,Kⁱ＝W^kgⁱ,Vⁱ＝W^vgⁱ