CN113780059A

CN113780059A - 一种基于多特征点的连续手语识别方法

Info

Publication number: CN113780059A
Application number: CN202110840331.6A
Authority: CN
Inventors: 金彦亮; 吴筱溦
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-07-24
Filing date: 2021-07-24
Publication date: 2021-12-10

Abstract

本发明公开了一种基于多特征点的连续手语识别方法，首先将手语视频分割为视频帧，通过人体姿态识别模型提取视频帧中人物身体、双手、脸部的特征点，利用自适应图卷积网络提取特征点的特征，将手语视频对应的句子标签编码为单独的词向量；然后将上述视频特征向量和词向量同时输入基于自注意力机制的编解码网络，获得每个视频帧所对应的单词概率分布矩阵，再通过集束搜索算法进行搜索得到翻译后的句子；最后利用连接主义时间分类算法训练模型，优化视觉特征和单词特征与句子之间的映射。本发明加入手语识别需要的手动与非手动特征，利用视频特征与句子之间的对齐算法，增强了手语翻译的准确性与流畅性，对聋哑人和外界沟通具有重要的价值。

Description

一种基于多特征点的连续手语识别方法

技术领域

本发明涉及连续手语识别技术，属于计算机视觉、自然语言处理领域，具体涉及一种基于多特征点的连续手语识别方法。

背景技术

手语是一种重要的人类肢体语言表达方式，是聋哑人和外界之间沟通的主要方式。手语识别涉及视频采集和处理、计算机视觉、人机交互、模式识别、自然语言处理等多个研究领域，是一项具有高难度的挑战性课题。手语识别技术可用于手语翻译、日常交流，促进手语教学、培训和推广。

由于手语语义丰富、动作幅度相比其他人体行为具有局部性和细节性，同时又受到光照、背景和运动速度等因素的影响，使用传统模式识别或机器学习方法所能达到的精度与鲁棒性已达到瓶颈期，往往局限于静态手势识别或粗粒度的动态手势识别。因此，随着深度学习方法的发展，手语识别迎来了新的机遇。

连续手语识别是手语识别中重要的任务，虽然孤立词手语识别表现出良好的识别性能，但连续手语识别是在聋哑人和听力正常人之间建立实时通信系统所需要的。相比于基于孤立词的手语识别，连续手语识别更加复杂，主要的原因如下：

(1)连续手语识别额外挑战包括将句子标记成单独的单词，检测句子的开头和结尾，以及管理句子中词的缩写和同义词的情况。

(2)孤立词的手语识别类似于动作识别领域，而连续手语识别不仅涉及到识别任务，还涉及到输入视频片段与相应句子级别标签的精确对齐。

(3)除此之外，由于手语得益于手形、动作、位置、姿势甚至面部表情等多渠道信息，处理起来相对复杂。所以头部运动、眨眼、眉毛运动和嘴巴形状等非手动特征还没有应用到汉语手语识别中。

因此，在连续手语识别中加入非手动特征的相关信息，对于手语识别来说具有重要的意义与发展前景。

发明内容

为了解决现有技术问题，本发明的目的在于克服已有技术存在的不足，提供一种基于多特征点的连续手语识别方法，融合手语中所需的手动特征与非手动特征，显著提高了手语特征表示能力；并利用对齐算法构建特征点与句子之间的映射关系，增强了翻译句子的准确性与连续性，有利于日常手语的翻译与学习。

为达到上述发明创造目的，本发明采用如下技术方案：

一种基于多特征点的连续手语识别方法，包括以下操作步骤：

(1)将连续手语视频分割为单帧图像，并按照时间顺序进行排列；

(2)将每个手语视频对应的句子标签，按照实际中手语的表达方式进行分词处理；

(3)对于步骤(1)得到的图像序列，采用人体姿态估计方法提取图像中人物身体、左右手、脸部的特征点；按照人体的身体结构将特征点进行自然连接，构成特征点的一阶特征；

(4)将相邻关节的坐标分别相减提取骨骼的长度与方向，构成身体、左右手和脸部特征点的特征点的二阶特征；同时提取手部中心到身体重心的二阶特征，从中获得手部相对于身体的方向；最后将所述二阶特征和在所述步骤(3)中得到的一阶特征进行特征融合，得到融合特征；

(5)将在所述步骤(4)中得到的融合特征，输入到自适应图卷积网络中，经过多个自适应图卷积层与时间卷积层处理后，捕捉其中的空间与时间信息，得到每个视频帧对应的多特征点向量；

(6)利用编码网络，对在所述步骤(5)中得到的多特征点向量进行编码，基于自注意力机制的解码网络，将在所述步骤(2)中得到的单词编码为词向量，并通过分类层，将每个视频帧的多特征点向量与词向量进行对应，输出每个词向量的分类概率；

(7)利用在步骤(6)中得到的词向量的分类概率、输出的句子长度作为输入，经过集束搜索算法输出每一时刻预测的词向量，并映射为完整的句子，实现连续手语识别；

(8)同时，利用在步骤(6)得到的词向量的分类概率、经过单词编码后的句子标签、输入的视频帧长度、输出的句子长度作为输入，经过连接时序分类算法进行损失函数的计算，不断迭代优化网络进行模型的训练，从而提高连续手语识别的准确性。

优选地，所述步骤(1)根据所设定的帧率，将连续手语视频分割为单帧图像并按照时间顺序进行排列。

优选地，所述步骤(2)利用分词工具将手语视频对应的句子标签进行分词处理，并与真实手语词汇进行对照，修正其中分割不正确的部分。

优选地，所述步骤(3)包括以下步骤：

(31)构造人体姿态估计网络，其中包含两个分支，第一分支是置信度图S，第二分支是亲和度向量L；

(32)首先由VGG网络产生一组特征F，作为每个分支第一阶段的输入；

在第一阶段，网络利用卷积层ρ产生一组检测置信度图S¹＝ρ¹(F)，并利用卷积层φ产生一组亲和度向量L¹＝φ¹(F)，之后的每一个阶段的输入都来自于前一个阶段的预测结果和原始图像特征F，以产生更加精确的预测结果；

(33)利用所述步骤(31)和步骤(32)的方式提取图像中人物身体的25个关节点，左手的21个关节点，右手的21个关节点以及脸部的68个关键点，并按照人体结构将特征点进行自然连接，构建特征点的一阶特征。

进一步优选地，在所述步骤(31)中，包含两个分支的人体姿态估计网络，第一分支是置信度图S＝(S₁,S₂,...,S_j)，其中j表示需要检测的关节数目；第二分支是亲和度向量L＝(L₁,L₂,...,L_C)，其中C表示需要检测的关节对数目。

进一步优选地，在所述步骤(32)中，产生更加精确的预测结果，第t阶段的结果表示为：

其中S^t表示t时刻的置信度图；L^t表示t时刻的亲和度向量；ρ^t和φ^t表示t时刻的卷积层； F表示输入特征；S^t-1表示t-1时刻的置信度图；L^t-1表示t-1时刻的亲和度向量。

优选地，所述步骤(4)包括以下步骤：

(41)利用图像中人体点位的重心，即人体胸腔部分作为中心点，把靠近中心点的关节看做源关节V₁＝(x₁,y₁,z₁)，远离中心点的关节看做目标关节V₂＝(x₂,y₂,z₂)；则多特征点的二阶特征e表示为：

骨骼是指从一个点指向另外一个点的向量，向量的长度就是骨骼的长度，向量的方向就是骨骼的方向；

(42)利用所述步骤(41)的方法，构建人物身体、双手和脸部三个部分的骨骼向量，其中包括手部中心到身体重心的二阶特征，并将步骤(3)和步骤(4)得到的特征进行融合。

进一步优选地，在所述步骤(42)中，利用在所述步骤(4)中计算二阶特征的方式，计算身体25个关节点，左手21个关节点，右手21个关节点以及脸部68个关键点的骨骼向量；同时构造手部中心相对于身体重心的骨骼向量；由于二阶特征由两个关节组成，并且在人体中没有环状结构，所以关节数比骨骼数多1个，添加值为0的空关节来保持一阶特征与二阶特征的一致性，最后将得到的一阶特征与二阶特征进行融合。

优选地，所述步骤(5)包括以下步骤：

利用步骤(4)融合后的特征，使用自适应图卷积网络提取上述特征的时间与空间信息，相关公式如下：

其中f_in表示输入的特征；f_out表示输出的特征向量；K_v表示输出的特征向量空间维度的核大小；k表示特征维度；W_k表示权重；A_k表示邻接矩阵；B_k表示一个N×N的邻接矩阵，用于表示两个节点之间是否存在联系，且能通过训练不断调整关节之间联系的强弱；C_k表示高斯嵌入函数，对于每个样本学习一个独有的关系图，用于捕捉关节之间的相似程度。

进一步优选地，在所述步骤(5)中，使用高斯嵌入函数来计算C_k，相关公式如下：

其中v_i和v_j表示两个不同的关节节点；N表示节点的总数，这里使用点积的方式衡量两个节点的相似性；θ和φ表示两个嵌入函数；最后将节点v_i经过嵌入函数θ计算得到的转置矩阵与节点v_j经过嵌入函数φ计算得到的矩阵相乘，再进行后续运算；

将上述计算结果作为softmax函数的输入，得到参数C_k，相关公式如下：

其中f_in表示经过高斯嵌入函数后的结果；f_in ^T表示f_in的转置矩阵；

表示高斯嵌入函数θ的参数；W_φk表示高斯嵌入函数φ的参数。

优选地，所述步骤(6)包括以下步骤：

(61)利用编解码网络的词嵌入层将得到的词汇映射为词向量，并捕捉当前词汇与前后词汇的上下文关系，相关公式如下：

p(w_t)＝p(w_t-m,...,w_t-1,w_t+1,....,w_t+m|w_t)

其中w_t表示当前时刻的词向量，w_t-m,...,w_t-1,w_t+1,....,w_t+m表示其他不同时刻的词向量，t表示当前时刻，m表示其他时刻到当前时刻的距离；

(62)编解码网络的中间层主要包括重置门与更新门，分别有利于捕捉时间序列中的短期和长期依赖关系，网络向前传播的公式如下：

r_t＝σ(W_r·[h_t-1,x_t])

z_t＝σ(W_z·[h_t-1,x_t])

y_t＝σ(W₀·h_t)

式中t表示当前时刻；x_t表示当前时刻的输入；h_t-1表示上一时刻的输出；z表示更新门； r表示重置门；

表示更新门的激活值；W_r表示重置门对应的权重矩阵；W_z表示更新门对应的权重矩阵；

表示更新门激活后对应的权重矩阵；W_o表示输出门对应的权重矩阵；[] 表示矩阵的连接；*表示矩阵元素相乘；σ表示sigmoid激活函数；tanh表示双曲正切函数；则z_t表示当前更新门的输出；r_t表示当前重置门的输出；

表示当前更新门的激活值输出；h_t表示当前重置门的激活值输出；y_t表示向前传播的最终输出；

(63)本文同时训练两个编解码网络，一个采用正向学习，一个采用反向学习，将两者连接后得到双向编解码网络，总体公式如下：

其中

表示t时刻后向网络的输出；

表示t时刻前向网络的输出；

表示拼接操作；h_i表示双向编解码网络的输出；

(64)在解码网络中引入注意力机制，得到基于词汇级别的注意力机制的句子表示，并在此基础上引入基于句子级别的注意力机制，最后通过softmax函数构造分类器输出词向量的分类概率，相关公式如下：

其中y表示预测的标签；S表示词向量集合；

表示计算得到的隐藏状态；W表示线性映射的权重矩阵；b表示偏置项。

进一步优选地，在所述步骤(63)中，将正向和反向最后一个状态对应的向量连接后得到的向量作为最终结果，以便模型能同时利用过去和未来的所有信息；所构建的双向编解码网络通过如下公式表示：

其中

表示t时刻后向网络的输出；

表示t时刻前向网络的输出；

表示拼接操作；h_i表示双向编解码网络的输出。

进一步优选地，在所述步骤(64)中，在解码网络中引入注意力机制，得到基于词汇级别的注意力机制的句子表示，并在此基础上引入基于句子级别的注意力机制，计算得到隐藏状态

如下：

其中

表示基于词汇级别的注意力机制的句子表示；β_i表示基于句子级别的注意力机制的权重。

优选地，在解码网络中引入教师机制，监督网络完成视频特征向量到词向量的映射，防止分类后的结果与真实结果相差较大，进一步保证了翻译句子的准确性。

优选地，所述步骤(7)包括以下步骤：

设定集束搜索算法的宽度为N，该算法在解码网络每个时间T的输出中寻找概率最高的 N个输出作为下一时刻的输入，并依次进行迭代，最后输出概率最高的N个翻译结果，以此改善原有编解码网络中在每一时刻只输出概率最大的结果，并将T个词向量进行映射，转变为完整的句子表示。

优选地，所述步骤(8)包括以下步骤：

(81)由步骤(6)得到的输入概率分布矩阵为y＝(y₁,y₂,...,y_T)，其中T为序列长度，最后映射为完整句子l的总概率可表示为：

其中B(π)代表通过步骤(7)集束搜索算法变换后得到完整句子l的所有路径集合；而π 代表其中的一条路径；

(82)连接时序分类算法利用词向量概率y到完整句子l的映射概率，计算概率的负最大似然函数L，公式如下：

L＝-lnp(l|y)

将L作为网络的损失函数训练网络使得这个概率最大化，从而提高输出句子的准确性。

优选地，在所述步骤(7)中，根据步骤(7)得到的结果，选择其中与真实句子最接近的结果，并将每个时刻的词向量进行映射，最终转变为完整的句子表示，由此完成手语的翻译。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

1.本发明基于多特征点的连续手语识别方法包括预处理模块，用于将手语视频分割为视频帧并按照时间顺序进行排列，并将手语视频对应的文本编码为单独的词向量；姿态识别模块，用于提取视频帧中人物身体、双手和脸部的特征点，将根据人体结构自然连接的特征作为一阶特征，将坐标相减得到的骨骼特征作为二阶特征，并在其中构建双手中心相对于身体重心的二阶特征，以此捕捉手部相对于身体的方向信息；自适应图卷积模块，将上述特征进行融合之后，利用自适应图卷积网络捕捉特征在空间维度与时间维度方面的关系；编解码网络模块，将上述视频特征向量和词向量同时输入基于自注意力机制的编解码网络，获得每个视频帧所对应的单词概率分布矩阵；集束搜索模块，通过设定的搜索宽度输出每个时刻概率最高的前N个输出，并作为下一时刻的输入，最后组合输出概率最高的N个句子，与其他方法在每一时刻直接输出概率最大的词向量相比，该模块能更加灵活地选择合适的结果；连接主义时间分类模块，利用得到的单词概率分布矩阵，最大化集束搜索模块的搜索路径，并以此作为损失函数更新网络模型参数，优化视觉特征和单词特征与句子之间的映射关系；最后选择错误率最小最接近真实标签的句子作为输出，并将句中词向量对应为相应的文本，得到最终手语翻译后的句子；

2.本发明利用连接主义时间分类算法训练模型，优化视觉特征和单词特征与句子之间的映射。本发明加入手语识别需要的手动与非手动特征，利用视频特征与句子之间的对齐算法，增强了手语翻译的准确性与流畅性，对聋哑人和外界沟通具有重要的价值。

附图说明

图1为本发明优选实施例的网络框架图。

图2为本发明优选实施例所构造的人体关节估计图。

图3为本发明优选实施例使用的自适应图卷积网络框架图。

图4为本发明优选实施例使用的编解码网络框架图。

图5为本发明优选实施例使用的集束搜索算法流程图。

具体实施方式

以下结合具体的实施例子对上述方案做进一步说明，本发明的优选实施例详述如下：

实施例一：

在本实施例中，参见图1，一种基于多特征点的连续手语识别方法，包括以下操作步骤：

(1)将连续手语视频分割为单帧图像并按照时间顺序进行排列；

(8)或者，利用在步骤(6)得到的词向量的分类概率、经过单词编码后的句子标签、输入的视频帧长度、输出的句子长度作为输入，经过连接时序分类算法进行损失函数的计算，不断迭代优化网络进行模型的训练，也从而实现连续手语识别，从而提高连续手语识别的准确性。

本实施例基于多特征点的连续手语识别方法，融合手语中所需的手动特征与非手动特征，显著提高了手语特征表示能力；并利用对齐算法构建特征点与句子之间的映射关系，增强了翻译句子的准确性与连续性，有利于日常手语的翻译与学习。

实施例二：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，参见图1，所述步骤(3)包括以下步骤：

在本实施例中，在所述步骤(31)中，包含两个分支的人体姿态估计网络，第一分支是置信度图S＝(S₁,S₂,...,S_j)，其中j表示需要检测的关节数目；第二分支是亲和度向量L＝(L₁,L₂,...,L_C)，其中C表示需要检测的关节对数目。

在本实施例中，在所述步骤(32)中，产生更加精确的预测结果，第t阶段的结果表示为：

在本实施例中，所述步骤(4)包括以下步骤：

在本实施例中，所述步骤(5)包括以下步骤：

在本实施例中，所述步骤(6)包括以下步骤：

p(w_t)＝p(w_t-m,...,w_t-1,w_t+1,....,w_t+m|w_t)

r_t＝σ(W_r·[h_t-1,x_t])

z_t＝σ(W_z·[h_t-1,x_t])

y_t＝σ(W₀·h_t)

其中

表示t时刻后向网络的输出；

表示t时刻前向网络的输出；

表示拼接操作；h_i表示双向编解码网络的输出；

其中y表示预测的标签；S表示词向量集合；

在本实施例中，所述步骤(7)包括以下步骤：

设定集束搜索算法的宽度为N，该算法在解码网络每个时间T的输出中寻找概率最高的 N个输出作为下一时刻的输入，并依次进行迭代，最后输出概率最高的N个翻译结果，并将 T个词向量进行映射，转变为完整的句子表示。

在本实施例中，所述步骤(8)包括以下步骤：

L＝-lnp(l|y)

在本实施例中，在所述步骤(7)中，根据步骤(7)得到的结果，选择其中与真实句子最接近的结果，并将每个时刻的词向量进行映射，最终转变为完整的句子表示，由此完成手语的翻译。

本发明基于多特征点的连续手语识别方法，首先将手语视频分割为视频帧，通过人体姿态识别模型提取视频帧中人物身体、双手、脸部的特征点，利用自适应图卷积网络提取特征点的特征，将手语视频对应的句子标签编码为单独的词向量；然后将上述视频特征向量和词向量同时输入基于自注意力机制的编解码网络，获得每个视频帧所对应的单词概率分布矩阵，再通过集束搜索算法进行搜索得到翻译后的句子；最后利用连接主义时间分类算法训练模型，优化视觉特征和单词特征与句子之间的映射。本发明加入手语识别需要的手动与非手动特征，利用视频特征与句子之间的对齐算法，增强了手语翻译的准确性与流畅性，对聋哑人和外界沟通具有重要的价值。

实施例三：

本实施例与上述实施例基本相同，特别之处在于：

在本实施例中，如图1所示，本发明实例公开的一种基于多特征点的连续手语识别方法，通过人体姿态识别模型提取视频帧中人物身体、双手和脸部的特征点，通过自然连接和坐标相减的方式形成一阶特征和二阶特征，其中包括手部相对于身体的二阶特征。将上述特征进行融合之后，利用自适应图卷积网络捕捉特征在空间维度与时间维度方面的关系，将手语视频对应的句子标签编码为单独的词向量。然后将上述视频特征向量和词向量同时输入到基于自注意力机制的编解码网络中，获得每个视频帧所对应的单词概率分布矩阵，再通过集束搜索算法进行搜索映射得到翻译后的句子。最后利用连接主义时间分类算法训练模型，优化视觉特征和单词特征与句子之间的映射。本发明加入手语识别需要的手动与非手动特征，并利用相应算法实现视频特征与句子之间的自动对齐，包括以下步骤：

步骤1：设定帧率为24帧每秒，将连续手语视频分割为单帧图像并按照时间顺序进行排列；

步骤2：利用jieba分词工具将手语视频对应的句子标签进行分词处理，并与标准中文手语词汇进行对照，修改其中分词不正确的部分，有利于后续的进一步处理；

步骤3：采用人体姿态估计方法提取图像序列中人物身体的25个特征点、左右手的各21 个特征点和脸部的68个特征点；按照人体的身体结构将特征点进行自然连接，构成每个特征点的一阶特征，所构造的人体关节估计图如图2所示；

步骤3-1：设计包含两个分支的人体姿态估计网络，第一分支是置信度图S＝(S₁,S₂,...,S_j)，其中j表示需要检测的关节数目；第二分支是亲和度向量L＝(L₁,L₂,...,L_C)，其中C表示需要检测的关节对数目；

步骤3-2：首先由VGG网络产生一组特征F，作为每个分支第一阶段的输入；在第一阶段，网络利用卷积层ρ产生一组检测置信度图S¹＝ρ¹(F)，并利用卷积层φ产生一组亲和度向量L¹＝φ¹(F)，之后的每一个阶段的输入都来自于前一个阶段的预测结果和原始图像特征F，以产生更加精确的预测结果，得出第t阶段的结果可以表示为：

其中S^t表示t时刻的置信度图；L^t表示t时刻的亲和度向量；ρ^t和φ^t表示t时刻的卷积层； F表示输入特征；S^t-1表示t-1时刻的置信度图；L^t-1表示t-1时刻的亲和度向量；

步骤3-3：利用上述方式提取图像中人物身体的25个关节点，左手的21个关节点，右手的21个关节点以及脸部的68个关键点，并按照人体的身体结构将特征点进行自然连接，构建多特征点的一阶特征；

步骤4：根据步骤3得到的每个关节的坐标，将相邻关节的坐标分别相减提取骨骼的长度与方向，构成身体、左右手、脸部特征点的二阶特征；同时提取手部中心到身体重心的二阶特征，从中获得手部相对于身体的方向；最后将步骤3和步骤4得到的一阶特征和二阶特征进行融合；具体步骤如下：

步骤4-1：利用图像中人体点位的重心，即人体胸腔部分作为中心点，把靠近中心点的关节看做源关节V₁＝(x₁,y₁,z₁)，远离中心点的关节看做目标关节V₂＝(x₂,y₂,z₂)。骨骼是指从一个点指向另外一个点的向量，向量的长度就是骨骼的长度，向量的方向就是骨骼的方向；则多特征点的二阶特征e可表示为

步骤4-2：利用上述计算二阶特征的方式计算身体25个关节点、左手21个关节点、右手21个关节点以及脸部68个关键点的骨骼向量；同时构造手部中心相对于身体重心的骨骼向量；

步骤4-3：由于二阶特征由两个关节组成，并且在人体中没有环状结构，所以关节数比骨骼数多1个，这里在身体和脸部骨骼中添加值为0的空关节来保持一阶特征与二阶特征的一致性，而对于手部，由于构造了手部中心点与身体重心的骨骼，则手部起始点不需要进行补0操作；最后将得到的一阶特征与二阶特征进行融合；

步骤5：将步骤4得到的融合特征，输入到自适应图卷积网络中，经过多个自适应图卷积层与时间卷积层进行卷积，捕捉其中的空间与时间信息，得到每个视频帧对应的每个特征点的256维特征向量，并对向量的总体维度进行变换，有利于后续进行编解码操作；具体步骤如下：

使用自适应图卷积网络提取上述特征的时间与空间信息，网络框架图如图3所示，相关公式如下：

其中f_in表示输入的特征；f_out表示输出的特征向量；K_v表示输出的特征向量空间维度的核大小，这里选取K_v的值为3；k表示特征维度，这里输入的关节数据为三通道特征；W_k表示权重；A_k表示邻接矩阵；B_k表示一个N×N的邻接矩阵，用于表示两个节点之间是否存在联系，且能通过训练不断调整关节之间联系的强弱，C_k对于每个样本学习一个独有的图关系，用于捕捉关节之间的相似程度；

使用高斯嵌入函数来计算C_k，相关公式如下：

步骤6：利用编码网络将步骤5得到的多特征点向量进行编码，利用基于自注意力机制的解码网络将步骤2得到的单词编码为词向量，并通过分类层将每个视频帧的多特征点向量与词向量进行对应，输出每个词向量的分类概率。编解码网络框架图如图4所示；包括如下步骤：

步骤6-1：利用编解码网络的词嵌入层将得到的词汇映射为词向量，并捕捉当前词汇与前后词汇的上下文关系，相关公式如下：

p(w_t)＝p(w_t-m,...,w_t-1,w_t+1,....,w_t+m|w_t)。

其中w_t表示当前时刻的词向量，w_t-m,...,w_t-1,w_t+1,....,w_t+m表示其他不同时刻的词向量，t 表示当前时刻，m表示其他时刻到当前时刻的距离；

步骤6-2：编解码网络的中间层主要包括重置门与更新门，分别有利于捕捉时间序列的短期和长期依赖关系，网络向前传播的公式如下：

r_t＝σ(W_r·[h_t-1,x_t])

z_t＝σ(W_z·[h_t-1,x_t])

y_t＝σ(W₀·h_t)

步骤6-3：同时训练两个编解码网络，一个采用正向学习，一个采用反向学习，将正向和反向最后一个状态对应的向量连接后得到的向量作为最终结果，以便模型能同时利用过去和未来的所有信息；所构建的双向编解码网络通过如下公式表示：

其中

表示t时刻后向网络的输出；

表示t时刻前向网络的输出；

表示拼接操作；h_i表示双向编解码网络的输出；

步骤6-4：在解码网络中引入注意力机制，得到基于词汇级别的注意力机制的句子表示，并在此基础上引入基于句子级别的注意力机制，计算得到隐藏状态

如下：

其中

代表利用双曲正切函数处理句子r后，得到的基于词汇级别的注意力机制的句子表示；β_i表示基于句子级别的注意力机制的权重；

最后通过softmax函数构造分类器输出词向量的分类概率，相关公式如下：

其中y表示预测的标签；S表示词向量集合；

表示计算得到的隐藏状态；W表示线性映射的权重矩阵；b表示偏置项；

在解码网络中引入教师机制，监督网络完成视频特征向量到词向量的映射，防止分类后的结果与真实文本相差较大，进一步保证了翻译句子的准确性。这里设置该参数为0.5，在保证句子正确性的同时让模型不会过分依赖真实标签，保持较好的泛化能力。

步骤7：利用步骤6得到的词向量的分类概率、输出的句子长度作为解码网络的输入，经过集束搜索算法搜索之后输出预测的完整句子；集束搜索算法流程图如图5所示；

设定集束搜索算法的宽度为N，该算法在解码网络每个时间T的输出中寻找概率最高的 N个输出作为下一时刻的输入，并依次进行迭代，最后输出概率最高的N个翻译结果。经过多次实验验证，这里将宽度N设置为3最为合理。

步骤8：利用步骤6得到的词向量的分类概率，经过单词编码后的完整句子，输入的视频帧长度、输出的句子长度作为输入，经过连接时序分类算法进行损失函数的计算，不断迭代优化网络进行模型的训练；包括如下步骤：

步骤6-1：由步骤6得到的输入概率分布矩阵为y＝(y₁,y₂,...,y_T)，其中T为序列长度，最后映射为完整句子l的总概率为：

其中B(π)代表通过步骤7集束搜索算法变换后，可由单词向量组合得到完整句子l的所有路径集合；而π代表其中的一条路径。

步骤6-2：连接时序分类算法利用词向量概率y到完整句子l的映射概率，计算概率的负最大似然函数，相关公式如下：

L＝-lnp(l|y)

根据步骤7得到的结果，选择其中与真实句子最接近的结果，并将每个时刻的词向量进行映射，最终转变为完整的句子表示，由此完成手语的翻译。

本发明公开的一种基于多特征点的连续手语识别方法，采用的系统包括：预处理模块，用于将手语视频分割为视频帧并按照时间顺序进行排列，并将手语视频对应的文本编码为单独的词向量；姿态识别模块，用于提取视频帧中人物身体、双手和脸部的特征点，将根据人体结构自然连接的特征作为一阶特征，将坐标相减得到的骨骼特征作为二阶特征，并在其中构建双手中心相对于身体重心的二阶特征，以此捕捉手部相对于身体的方向信息；自适应图卷积模块，将上述特征进行融合之后，利用自适应图卷积网络捕捉特征在空间维度与时间维度方面的关系；编解码网络模块，将上述视频特征向量和词向量同时输入基于自注意力机制的编解码网络，获得每个视频帧所对应的单词概率分布矩阵；集束搜索模块，通过设定的搜索宽度输出每个时刻概率最高的前N个输出，并作为下一时刻的输入，最后组合输出概率最高的N个句子，与其他方法在每一时刻直接输出概率最大的词向量相比，该模块能更加灵活地选择合适的结果；连接主义时间分类模块，利用得到的单词概率分布矩阵，最大化集束搜索模块的搜索路径，并以此作为损失函数更新网络模型参数，优化视觉特征和单词特征与句子之间的映射关系。最后选择错误率最小最接近真实标签的句子作为输出，并将句中词向量对应为相应的文本，得到最终手语翻译后的句子。本实施例方法加入手语识别需要的手动与非手动特征，利用视频特征与句子之间的对齐算法，增强了手语翻译的准确性与流畅性，对聋哑人和外界沟通具有重要的价值。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，都属于本发明的保护范围。

Claims

1.一种基于多特征点的连续手语识别方法，其特征在于，包括以下操作步骤：

2.根据权利要求1所述基于多特征点的连续手语识别方法，其特征在于，所述步骤(3)包括以下步骤：

(32)首先由VGG网络产生一组特征F，作为每个分支第一阶段的输入；在第一阶段，网络利用卷积层ρ产生一组检测置信度图S¹＝ρ¹(F)，并利用卷积层φ产生一组亲和度向量L¹＝φ¹(F)，之后的每一个阶段的输入都来自于前一个阶段的预测结果和原始图像特征F，以产生更加精确的预测结果；

3.根据权利要求2所述基于多特征点的连续手语识别方法，其特征在于，在所述步骤(31)中，包含两个分支的人体姿态估计网络，第一分支是置信度图S＝(S₁,S₂,...,S_j)，其中j表示需要检测的关节数目；第二分支是亲和度向量L＝(L₁,L₂,...,L_C)，其中C表示需要检测的关节对数目。

4.根据权利要求2所述基于多特征点的连续手语识别方法，其特征在于，在所述步骤(32)中，产生更加精确的预测结果，第t阶段的结果表示为：

其中S^t表示t时刻的置信度图；L^t表示t时刻的亲和度向量；ρ^t和φ^t表示t时刻的卷积层；F表示输入特征；S^t-1表示t-1时刻的置信度图；L^t-1表示t-1时刻的亲和度向量。

5.根据权利要求1所述基于多特征点的连续手语识别方法，其特征在于，所述步骤(4)包括以下步骤：

6.根据权利要求1所述基于多特征点的连续手语识别方法，其特征在于，所述步骤(5)包括以下步骤：

7.根据权利要求1所述基于多特征点的连续手语识别方法，其特征在于，所述步骤(6)包括以下步骤：

p(w_t)＝p(w_t-m,...,w_t-1,w_t+1,....,w_t+m|w_t)

r_t＝σ(W_r·[h_t-1,x_t])

z_t＝σ(W_z·[h_t-1,x_t])

y_t＝σ(W_o·h_t)

式中t表示当前时刻；x_t表示当前时刻的输入；h_t-1表示上一时刻的输出；z表示更新门；r表示重置门；

表示更新门激活后对应的权重矩阵；W_o表示输出门对应的权重矩阵；[]表示矩阵的连接；*表示矩阵元素相乘；σ表示sigmoid激活函数；tanh表示双曲正切函数；则z_t表示当前更新门的输出；r_t表示当前重置门的输出；

其中

表示t时刻后向网络的输出；

表示t时刻前向网络的输出；

表示拼接操作；h_i表示双向编解码网络的输出；

其中y表示预测的标签；S表示词向量集合；

8.根据权利要求1所述基于多特征点的连续手语识别方法，其特征在于，所述步骤(7)包括以下步骤：

设定集束搜索算法的宽度为N，该算法在解码网络每个时间T的输出中寻找概率最高的N个输出作为下一时刻的输入，并依次进行迭代，最后输出概率最高的N个翻译结果，并将T个词向量进行映射，转变为完整的句子表示。

9.根据权利要求1所述基于多特征点的连续手语识别方法，其特征在于，所述步骤(8)包括以下步骤：

其中B(π)代表通过步骤(7)集束搜索算法变换后得到完整句子l的所有路径集合；而π代表其中的一条路径；

L＝-ln p(l|y)

10.根据权利要求1所述基于多特征点的连续手语识别方法，其特征在于，在所述步骤(7)中，根据步骤(7)得到的结果，选择其中与真实句子最接近的结果，并将每个时刻的词向量进行映射，最终转变为完整的句子表示，由此完成手语的翻译。