CN109063615A

CN109063615A - 一种手语识别方法及系统

Info

Publication number: CN109063615A
Application number: CN201810802950.4A
Authority: CN
Inventors: 李厚强; 黄杰; 周文罡; 李卫平
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2018-12-21
Anticipated expiration: 2038-07-20
Also published as: CN109063615B

Abstract

本申请公开了一种手语识别方法及系统，所述方法包括：获取待识别手语视频，对待识别手语视频进行关键片段选择，通过分层时间注意力网络为关键片段生成特征向量并执行分类，输出手语语义词汇。本申请通过采用关键片段选择以及分层时间注意力网络，能够更加准确的对手语手势进行识别，使得输出的语义词汇更加准确。

Description

一种手语识别方法及系统

技术领域

本申请属于信息处理技术领域，尤其涉及一种手语识别方法及系统。

背景技术

正常人可以通过语言将他们的想法传达给他人，然而，听力受损群体的唯一交流手段是使用手语，听力受损的群体通常很难将他们的想法和创造力传达给正常人。为了克服这种沟通障碍，手语识别系统专门为世界各地的听力障碍者开发各种手语。

目前，手语识别的一个难题是手语视频的表征。手语动作的特点主要是运动轨迹和手势变化，迄今为止，对这两个问题进行了大量的研究工作。运动轨迹涉及跟踪关键点和运动匹配，手势特征的描述需要对视频中手部区域的跟踪和分割。由于运动轨迹复杂和手势变化大，手语识别要获得令人满意的特征仍然具有挑战性。

因此，如何更加有效对手语进行识别，是一项亟待解决的问题。

发明内容

有鉴于此，本申请提供了一种手语识别方法，通过采用关键片段选择以及分层时间注意力网络，能够更加准确的对手语手势进行识别，使得输出的语义词汇更加准确。

本申请提供了一种手语识别方法，所述方法包括：

获取待识别手语视频；

对所述待识别手语视频进行关键片段选择；

通过分层时间注意力网络为所述关键片段生成特征向量并执行分类，输出手语语义词汇。

优选地，对所述待识别手语视频进行关键片段选择包括：

对采样手语视频进行均匀采样，获得均匀采样的片段；

对所述采样手语视频进行密集采样，获得密集采样的片段；

将所述均匀采样的片段作为分层时间注意力网络训练的初始关键片段，基于所述初始关键片段训练分层时间注意力网络；

通过训练后的分层时间注意力网络从所述密集采样的片段中生成特征；

基于所述特征，通过关键片段挖掘模型从所述密集采样的片段中选取关键片段。

优选地，所述通过分层时间注意力网络为所述关键片段生成特征向量并执行分类，输出手语语义词汇包括：

基于3D卷积神经网络和递归神经网络对所述关键片段进行处理，输出手语语义词汇。

优选地，所述关键片段的长度为16帧。

一种手语识别识别系统，包括：

获取模块，用于获取待识别手语视频；

选择模块，用于对所述待识别手语视频进行关键片段选择；

处理模块，用于通过分层时间注意力网络为所述关键片段生成特征向量并执行分类，输出手语语义词汇。

优选地，所述选择模块包括：

均匀采样单元，用于对采样手语视频进行均匀采样，获得均匀采样的片段；

密集采样单元，用于对所述采样手语视频进行密集采样，获得密集采样的片段；

训练单元，用于将所述均匀采样的片段作为分层时间注意力网络训练的初始关键片段，基于所述初始关键片段训练分层时间注意力网络；

生成单元，用于通过训练后的分层时间注意力网络从所述密集采样的片段中生成特征；

选取单元，用于基于所述特征，通过关键片段挖掘模型从所述密集采样的片段中选取关键片段。

优选地，所述处理模块具体用于：

优选地，所述关键片段的长度为16帧。

综上所述，本申请公开了一种手语识别方法，当需要进行手语识别时，首先获取待识别手语视频，然后对待识别手语视频进行关键片段选择，通过分层时间注意力网络为关键片段生成特征向量并执行分类，输出手语语义词汇。本申请通过采用关键片段选择以及分层时间注意力网络，能够更加准确的对手语手势进行识别，使得输出的语义词汇更加准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请公开的一种手语识别方法实施例1的方法流程图；

图2为本申请公开的一种手语识别方法实施例2的方法流程图；

图3为本申请公开的一种手语识别方法实施例3的方法流程图；

图4为本申请公开的一种手语识别系统实施例1的结构示意图；

图5为本申请公开的一种手语识别系统实施例2的结构示意图；

图6为本申请公开的一种手语识别系统实施例3的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为本申请公开的一种手语识别方法实施例1的方法流程图，本申请的框架由两部分组成：关键片段选择和分层时间注意力网络，关键片段选择旨在从手语视频中识别关键片段，分层时间注意力网络基于关键片段的筛选结果，为关键片段生成特征向量并随后执行分类，其中，特征生成集成了帧级短期注意力和片段级长期注意力，具体的，所述方法可以包括以下步骤：

S101、获取待识别手语视频；

当需要对手语进行识别时，首先获取需要进行手语识别的手语视频，即获取待识别的手语视频。

S102、对待识别手语视频进行关键片段选择；

当获取到待识别手语视频后，对获取到的手语视频进行关键片段选择。通过关键片段选择，去除了手语视频序列的冗余性。

S103、通过分层时间注意力网络为关键片段生成特征向量并执行分类，输出手语语义词汇。

然后通过关键片选的选择结果，建立分层的时间注意力网络。该分层时间注意力网络结合了手语视频的结构信息，即第一层学习片段的表征，第二层学习整个视频的表征。同时在该过程中融入了注意力机制，考虑了不同时刻信息的不同重要性。

综上所述，在上述实施例中，当需要进行手语识别时，首先获取待识别手语视频，然后对待识别手语视频进行关键片段选择，通过分层时间注意力网络为关键片段生成特征向量并执行分类，输出手语语义词汇。本申请通过采用关键片段选择以及分层时间注意力网络，能够更加准确的对手语手势进行识别，使得输出的语义词汇更加准确。

具体的，在上述实施例中，步骤S102对待识别手语视频进行关键片段选择的其中一种实现方式如图2所示，可以包括以下步骤：

S201、对采样手语视频进行均匀采样，获得均匀采样的片段；

S202、对采样手语视频进行密集采样，获得密集采样的片段；

S203、将均匀采样的片段作为分层时间注意力网络训练的初始关键片段，基于初始关键片段训练分层时间注意力网络；

S204、通过训练后的分层时间注意力网络从密集采样的片段中生成特征；

S205、基于特征，通过关键片段挖掘模型从所述密集采样的片段中选取关键片段。

选择最佳关键片段需要理想的神经网络特征提取器，但是相对地，神经网络特征提取器依赖于理想的训练样本，即正确选择最佳的关键片段。两个目标相互依赖，因此采用交替优化求解问题，如采用类最大期望估计算法交替优化的框架。首先用均匀采样的片段作为分层时间注意力网络训练的初始关键片段，启动类期望最大化算法(EM-style)的循环。然后使用训练的分层时间注意力网络从密集采样的片段中生成特征。之后，通过这些特征，关键片段挖掘模型会从密集采样的片段中选取关键片段。这些新选择的关键片段有助于在下一次迭代中改进分层时间注意力网络。

一般来说，片段应具有可变长度以适应不同的手语动作的速度。然而，为了方便训练基于小批量(mini-bath)的分层时间注意力网络。本申请实施例将输入片段的长度固定为16帧，其长度通常足以表示一个基本动作。

例如：输入手语视频V(为了清晰说明，这里以一个样本为例)，然后对视频V均匀采样，每隔32帧抓取一个16帧的片段。采样的片段集是 U＝{c₁,c₂,...,c_m}，其中c_i是一个16帧的片段；使用16帧的时间窗口，以4帧的步幅对V进行密集采样，密集的片段集合表示为D＝{c₁,c₂,...,c_n}；让关键片段集K＝U；利用关键片段K训练分层时间注意力网络，评估分层时间注意力网络的准确性。如果精度相对前一次迭代没有提高，则退出算法；使用经过训练的分层时间注意力网络来生成片段集合D的特征F＝[f₁,f₂,...,f_n]；基于F，利用关键片段挖掘模块生成关键片段的索引；根据索引，选择关键片段，然后返回利用关键片段K训练分层时间注意力网络，最后输出分层时间注意力网络的参数。

本申请实施例所述的关键片段选择与动作识别中的关键片段选择方法不同，手语识别中的关键片段选择不仅关注具有代表性的片段是否出现在视频中，更注重于片段序列的语义顺序。因此，手语识别中关键片段选择的主要目标是去除诸如静音帧，过渡运动之类的冗余。受低秩逼近方法的启发，本申请实施例采用在线筛选算法的变体来自动确定关键片段。

基本思想是计算先前片段和当前片段之间特征的残差平方和(Residual Sum ofSquare,RSS)∈。如果当前片段的特征可以通过先前选择的片段的特征的线性组合来表示，并且只有很小的残差，则当前片段被认为是无意义的，因此是冗余的。

本申请实施例提出的均衡策略只涉及当前片段与其之前的P个片段之间的计算，其中P经验地预先确定。给定密集采样片段的视频特征流 F＝[f₁,f₂,...,f_n]，将f_c定义为当前片段的特征，将E＝[f_c-p,...,f_c-2,f_c-1]定义为由之前的P个片段特征组成的递增扩展矩阵。目标是使当前帧特征的∈最小化， ∈＝(f_c-Eβ)^T(f_c-Eβ)其中系数β需要通过搜索以使RSS最小化。β的唯一解是： β＝(E^TE)^-1E^Tf_c(公式1)，获得关键片段的直接方法是设置阈值并选择具有较高∈的片段。

如图3所示，为本申请公开的一种手语识别方法实施例3的方法流程图，所述方法可以包括以下步骤：

S301、获取待识别手语视频；

S302、对待识别手语视频进行关键片段选择；

当获取到待识别手语视频后，对获取到的手语视频进行关键片段选择。通过关键片段选择，去除了手语视频序列的冗余性。具体的，在对识别手语视频进行关键片段选择时可以采用如图2所示的方法，具体可参数上述实施例2，在此不再赘述。

S303、基于3D卷积神经网络和递归神经网络对所述关键片段进行处理，输出手语语义词汇。

本申请实施例所提出的分层时间注意力网络由两部分组成，包括一系列定制的3D卷积神经网络和扩展的递归神经网络，神经网络用于时空特征提取和分类。这些3D卷积神经网络包含沿时间维度方向上的权重因子，用于帧间的短期注意力；而递归神经网络则通过注意力池化进行扩展，以便生成片段间的长期注意力。

在关键片段挖掘之后，每个关键片段(具有固定的16帧)由3D卷积神经网络处理，并且所获得的片段表征被聚合并馈送到递归神经网络中以构建单个视频特征。时间注意力在3D卷积神经网络和后来的经常性神经网络阶段都得到强化，从而促成了分层的双层结构。

其中，短期注意力机制的目的是在片段表征生成阶段强调短片段内主导视觉刺激的那些帧。片段的语义信息通常可以由几个关键帧来表征，例如，举手姿势可以仅用3帧来确定：手在底部，手移动过程中的模糊影像，手在顶部。不同于简单地对所有帧进行均值池化，短期注意力机制在三维卷积神经网络架构中有目的地强调语义丰富的帧。

3D卷积神经网络是一种用于人体动作识别的特征提取器，本申请实施例提出通过沿时间深度维度的加权因子引入短期注意力。设是由给定层产生的特征图，其中c，d，h，w分别表示帧的通道数量，时间深度，高度和宽度。采用平均池化来消去高度和宽度尺寸并获得深度的特征， V＝[v₁，v₂，...，v_d]，(公式2)，其中v_i表示第i时间深度特征。定义短期注意力a为，a＝tanh(V^TW_f+b_f)(公式3)，α＝softmax(aW_i+b_i)(公式4)，其中是以维数k获得隐藏层的表征V的矩阵。将映射到d维空间。b_i∈R是模型偏置。

其中，给定由3D卷积神经网络产生的片段表征，递归神经网络负责构建视频特征和最终分类。典型分类策略是基于均值池化聚合片段序列的特征和然后用SVM分类。然而，均值池化不可避免地忽略了所有时间信息并导致信息的损失。一种改进的方法是利用递归神经网络对序列信息进行编码并用线性softmax层进行分类。注意池化是第二种技术的延伸，它将注意力机制融入递归神经网络。本申请实施例提出了长期注意力意识的均值池化，输入是由注意力3D卷积神经网络提取的片段表征，输入表示为X＝[x₁，x₂，...，x_T]，其中q是由三维卷积神经网络获得的片段的特征维度。均值池化用于估计长期注意力信号同时，双向LSTM用于构建基于局部的表征， t∈[1，T](公式5)，t∈[T，1](公式6)其中表示正向LSTM函数，从1到T读取片段特征x_t的，并且表示反向 LSTM，从T时刻读取到1。LSTM的隐藏维度被设置为所以

随后把前向隐藏状态和后向隐藏状态连接在一起，比如：作为给定片段x_t的基于本地/上下文的表征。有了这些，长期的注意力计算如下，(公式7)，(公式8)。公式7和公式8 的直观解释如下，片段的语义重要性是通过计算h_t与信号向量之间的相似度，并且可以通过softmax函数来获得归一化重要性权重α_t。最后，视频的表征可以通过公式8中的加权和来计算。视频的表征用作手语识别的分类特征： (公式9)，其中，并且c是类别的个数。正确标签的负对数似然值用于训练损失，(公式10)，其中，j是视频v的正确标签。

另外，虽然分层时间注意力网络可以接受可变长度的片段作为输入，但本申请实施例在训练阶段固定了片段的长度。因为本申请实施例应用Adam 优化器来批量训练带网络。它需要固定大小的输入，所以将片段长度设置为16帧。注意力感知的三维卷积神经网络是基于3D卷积神经网络实现的，网络由8个卷积层，5个最大池化层和一个完全连接层组成。在分层时间注意力网络中，全连接层被视为片段的表征，并直接连接到基于注意力池化的递归神经网络。

网络输入是一个16×227×227片段(16帧作为每个片段的长度，每帧剪切并调整为大小227×227)。在时间长度为8的最后一个卷积层(conv5b)后添加注意力层。注意力层通过加权求和将长度维度从8减少到1。将帧级注意k 的隐藏维数设为512。由于第一个完全连接的网络层大小是4096，而递归神经网络隐藏层的维数必须是片段特征维度的一半，所以是2048。

综上所述，本申请实施例通过关键片段选择去除了视频序列中的冗余信息，主要是过渡动作和静止帧，减少了不相关信息对后续模块的干扰，提升了模型的鲁棒性和识别率。分层时间注意力网络利用了手语动作的结构信息，即先对连续的视频帧构成基本动作，基本动作组合成具有语义的词汇。分层时间注意力网络还融入了注意力机制，在生成片段表征的过程中考虑了不同帧的贡献，在生成视频表征的过程中考虑了不同片段的重要性。以上几个方面来自于对手语视频的观察，符合手语动作的特性，即信息分布在序列中关键的几个片段，同时表示基础动作的片段在不同的语义词汇类别中显著性各有侧重。

如图4所示，为本申请公开的一种手语识别系统实施例1的结构示意图，本申请的框架由两部分组成：关键片段选择和分层时间注意力网络，关键片段选择旨在从手语视频中识别关键片段，分层时间注意力网络基于关键片段的筛选结果，为关键片段生成特征向量并随后执行分类，其中，特征生成集成了帧级短期注意力和片段级长期注意力，具体的，所述系统可以包括：

获取模块401，用于获取待识别手语视频；

选择模块402，用于对待识别手语视频进行关键片段选择；

处理模块403，用于通过分层时间注意力网络为关键片段生成特征向量并执行分类，输出手语语义词汇。

具体的，在上述实施例中，选择模块对待识别手语视频进行关键片段选择的其中一种实现方式如图5所示，可以包括：

均匀采样单元501，用于对采样手语视频进行均匀采样，获得均匀采样的片段；

密集采样单元502，用于对采样手语视频进行密集采样，获得密集采样的片段；

训练单元503，用于将均匀采样的片段作为分层时间注意力网络训练的初始关键片段，基于初始关键片段训练分层时间注意力网络；

生成单元504，用于通过训练后的分层时间注意力网络从密集采样的片段中生成特征；

选取单元505，用于基于特征，通过关键片段挖掘模型从所述密集采样的片段中选取关键片段。

基本思想是计算先前片段和当前片段之间特征的残差平方和(Residual Sum ofSquare,RSS)∈。。如果当前片段的特征可以通过先前选择的片段的特征的线性组合来表示，并且只有很小的残差，则当前片段被认为是无意义的，因此是冗余的。

本申请实施例提出的均衡策略只涉及当前片段与其之前的P个片段之间的计算，其中P经验地预先确定。给定密集采样片段的视频特征流 F＝[f₁,f₂,...,f_n]，将f_c定义为当前片段的特征，将E＝[f_c-p,...,f_c-2,f_c-1]定义为由之前的P个片段特征组成的递增扩展矩阵。目标是使当前帧特征的∈最小化， ∈＝(f_c-Eβ)^T(f_c-Eβ)，其中系数β需要通过搜索以使RSS最小化。β的唯一解是： β＝(E^TE)^-1E^Tf_c(公式1)，获得关键片段的直接方法是设置阈值并选择具有较高∈的片段。

如图6所示，为本申请公开的一种手语识别系统实施例6的结构示意图，所述系统可以包括：

获取模块601，用于获取待识别手语视频；

选择模块602，用于对待识别手语视频进行关键片段选择；

当获取到待识别手语视频后，对获取到的手语视频进行关键片段选择。通过关键片段选择，去除了手语视频序列的冗余性。具体的，在对识别手语视频进行关键片段选择时可以采用如图5所示的方法，具体可参考上述系统实施例2，在此不再赘述。

处理模块603，用于基于3D卷积神经网络和递归神经网络对所述关键片段进行处理，输出手语语义词汇。

3D卷积神经网络是一种用于人体动作识别的特征提取器，本申请实施例提出通过沿时间深度维度的加权因子引入短期注意力。设是由给定层产生的特征图，其中c，d，h，w分别表示帧的通道数量，时间深度，高度和宽度。采用平均池化来消去高度和宽度尺寸并获得深度的特征， V＝[v₁，v₂，...，v_d]，(公式2)，其中v_i表示第i时间深度特征。定义短期注意力a为，a＝tanh(V^TW_f+b_f)(公式3)，α＝softmax(aW_i+b_i)(公式4)，其中是以维数k获得隐藏层的表征V的矩阵。将映射到d 维空间。b_i∈R是模型偏置。

随后把前向隐藏状态和后向隐藏状态连接在一起，比如：作为给定片段x_t的基于本地/上下文的表征。有了这些，长期的注意力计算如下，(公式7)，(公式8)。公式7和公式8 的直观解释如下，片段的语义重要性是通过计算h_t与信号向量之间的相似度，并且可以通过softmax函数来获得归一化重要性权重α_t。最后，视频的表征可以通过公式8中的加权和来计算。视频的表征用作手语识别的分类特征： (公式9)，其中，并且c是类别的个数。正确标签的负对数似然值用于训练损失，(公式10)，其中， j是视频v的正确标签。

另外，虽然分层时间注意力网络可以接受可变长度的片段作为输入，但本申请实施例在训练阶段固定了片段的长度。因为本申请实施例应用Adam 优化器来批量训练带网络。它需要固定大小的输入，所以将片段长度设置为 16帧。注意力感知的三维卷积神经网络是基于3D卷积神经网络实现的，网络由8个卷积层，5个最大池化层和一个完全连接层组成。在分层时间注意力网络中，全连接层被视为片段的表征，并直接连接到基于注意力池化的递归神经网络。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种手语识别方法，其特征在于，所述方法包括：

获取待识别手语视频；

对所述待识别手语视频进行关键片段选择；

2.根据权利要求1所述的方法，其特征在于，对所述待识别手语视频进行关键片段选择包括：

对采样手语视频进行均匀采样，获得均匀采样的片段；

对所述采样手语视频进行密集采样，获得密集采样的片段；

3.根据权利要求2所述的方法，其特征在于，所述通过分层时间注意力网络为所述关键片段生成特征向量并执行分类，输出手语语义词汇包括：

4.根据权利要求3所述的方法，其特征在于，所述关键片段的长度为16帧。

5.一种手语识别识别系统，其特征在于，包括：

获取模块，用于获取待识别手语视频；

选择模块，用于对所述待识别手语视频进行关键片段选择；

6.根据权利要求5所述的系统，其特征在于，所述选择模块包括：

7.根据权利要求6所述的系统，其特征在于，所述处理模块具体用于：

8.根据权利要求7所述的系统，其特征在于，所述关键片段的长度为16帧。