CN111340005A

CN111340005A - 一种手语识别方法和系统

Info

Publication number: CN111340005A
Application number: CN202010301154.XA
Authority: CN
Inventors: 冯伟; 高丽清; 刘国重; 廖启波
Original assignee: Shenzhen Kanghongtai Technology Co ltd
Current assignee: Shenzhen Kanghongtai Technology Co ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-06-26

Abstract

本发明实施例提供了一种手语识别方法和系统，通过分层长短期记忆网络后，进行最大池化操作，获得当前窗口的关键信息，网络的长度从长到短进行逐步变化，有效地获得手语视频的时空特征，并从不同级别提取视频的内在联系，可以自动提取当前视频中的关键手势信息，在保证不降低网络精度的前提下，压缩网络，提高计算速度，基于编码器‑解码器结构和基于CTC损失函数的循环神经网络联合训练的手语识别模型，联合优化，训练网络，避免了输出词与输出词之间的独立关系，更符合手语识别的应用场景。

Description

一种手语识别方法和系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种手语识别方法和一种手语识别系统。

背景技术

手语是聋哑人士之间交流的主要工具，手语识别具有复杂性和多变性的特点，因此对于没有系统学习过手语的人群，学习手语具有一定难度。为了促进聋哑人士与社会的有效交流，基于视觉的手语技术发明是至关重要的。根据手语视频识别的特性，将手语识别分为两种：孤立手语识别技术和连续手语识别技术。对于孤立手语识别，该视频仅包含一个手语词，因此这类问题可以看做分类问题。在连续手语识别中，一个视频是对应一句话的，因此不能把它简单地看成识别问题，这是连续的两个序列之间的映射的过程，在识别任务上过程较为复杂。在评价指标上，也不能按照孤立手语识别中准确率来进行评价。

目前，已经有很多学者致力于连续手语识别的研究中，并且形成了很多成熟的方法。这些方法整分为两大部分：基于软对齐的手语识别方法和基于硬对齐的手语识别方法。早期的基于硬对齐的手语识别方法主要使用隐马尔可夫模型或者条件随机场。这种需要人为事先对视频的所有帧进行标注，该方法工作量特别繁重。

在实际使用中，手语视频的长度是不固定的，有可能存在手语视频帧比对应文本词数多的情况，将较长的视频编码成为一个固定长度的特征向量并进行依次解码，该特征向量不能很好地表示视频的信息。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种手语识别方法和相应的一种手语识别系统。

为了解决上述问题，本发明实施例公开了一种手语识别方法，包括：

采集目标区域内的手语视频，将所述手语视频转化成第一视频帧；

通过预设卷积神经网络提取所述第一视频帧中的特征帧；

将所述特征帧输入到预设分层长短期记忆网络，提取出有效帧；

将所述有效帧输入到预设手语识别模型，输出与所述手语视频对齐的目标语句文本。

进一步地，采集目标区域内的手语视频，将所述手语视频转化成第一视频帧之后，包括：

按照预设目标对象裁切规则将所述第一视频帧裁切为第二视频帧。

进一步地，所述通过预设卷积神经网络提取所述第一视频帧中的特征帧包括：

采用预设残差网络对所述第二视频帧逐帧提取，得到所述特征帧。

进一步地，所述预设分层长短期记忆网络设置为三层长短期记忆网络，所述将所述特征帧输入到预设分层长短期记忆网络，提取出有效帧包括：

将所述特征帧输入到第一层长短期记忆网络，建立所述特征帧的时序关系，得到第一时序帧；

将所述第一时序帧输入到第二层长短期记忆网络，提取出第一预设滑动窗口中的关键帧；

将所述关键帧输入到第三层长短期记忆网络，提取出第二预设滑动窗口中的所述有效帧。

进一步地，所述将所述有效帧输入到预设手语识别模型，输出与所述手语视频对齐的目标语句文本包括：

将所述有效帧输入到基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的模型，输出与所述手语视频对齐的目标语句文本。

进一步地，所述将所述有效帧输入到基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的手语识别模型，输出与所述手语视频对齐的目标语句文本之前，还包括：

将所述有效帧分别输入到编码器-解码器结构和CTC损失函数中，得到对应的两个损失函数值，将所述两个对应的损失函数值通过线性加权，得到总损失函数值；

利用所述总损失函数值训练所述手语识别模型。

进一步地，所述利用所述总损失函数值训练所述手语识别模型包括：

利用所述总损失函数值和梯度下降算法更新所述手语识别模型中的参数。

本发明实施例公开了一种手语识别系统，包括：

视频采集模块，用于采集目标区域内的手语视频；

特征提取模块，用于通过预设卷积神经网络提取所述手语视频中的特征帧；

特征筛选模块，用于将所述特征帧输入到预设分层长短期记忆网络，提取出有效帧；

手语识别模块，用于将所述有效帧输入到预设手语识别模型，输出与所述手语视频对齐的目标语句文本。

本发明实施例公开了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的手语识别方法的步骤。

本发明实施例公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述的手语识别方法的步骤。

本发明实施例包括以下优点：通过分层长短期记忆网络，多层网络之后进行最大池化操作，获得当前窗口的关键信息，网络的长度从长到短进行逐步变化，通过这个网络，有效地获得手语视频的时空特征，并从不同级别提取视频的内在联系，可以实现自动提取当前视频中的关键手势信息，在保证不降低网络精度的前提下，压缩网络，提高计算速度。利用基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的手语识别模型，联合优化，训练网络，避免了输出词与输出词之间的独立关系，更符合手语识别的应用场景。

附图说明

图1是本发明的一种手语识别方法一实施例的步骤流程图；

图2是本发明的一种手语识别方法另一实施例的步骤流程图；

图3是本发明的一种手语识别方法另一实施例的步骤流程图；

图4是本发明的一种手语识别系统一实施例的结构框图；

图5是本发明的一种手语识别系统另一实施例的结构框图；

图6是本发明的一种手语识别系统另一实施例的结构框图；

图7是本发明的一种手语识别系统另一实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，提供了一种手语识别方法和系统，其中一种手语识别方法，包括：采集目标区域内的手语视频；通过预设卷积神经网络提取手语视频中的特征帧；将特征帧输入到预设分层长短期记忆网络，提取出有效帧；将有效帧输入到预设手语识别模型，输出与手语视频对齐的目标语句文本。通过分层长短期记忆网络，多层网络之后进行最大池化操作，获得当前窗口的关键信息，网络的长度从长到短进行逐步变化，通过这个网络，有效地获得手语视频的时空特征，并从不同级别提取视频的内在联系，可以实现自动提取当前视频中的关键手势信息，在保证不降低网络精度的前提下，压缩网络，提高计算速度。利用基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的手语识别模型，联合优化，训练网络，避免了输出词与输出词之间的独立关系，更符合手语识别的应用场景。

参照图1，示出了本发明的一种手语识别方法实施例的步骤流程图，具体可以包括如下步骤：

S100，采集目标区域内的手语视频，采集目标区域内的手语视频，将所述手语视频转化成第一视频帧；

S200，通过预设卷积神经网络提取所述第一视频帧中的特征帧；

S300，将特征帧输入到预设分层长短期记忆网络，提取出有效帧；

S400，将有效帧输入到预设手语识别模型，输出与手语视频对齐的目标语句文本。

参照上述步骤S100所述，采集目标区域内的手语视频，通过摄像机视频等输入设备捕捉目标区域内清晰的手语手势视频，其手语视频具有较高的成像分辨率，在一具体实施例中，通过采用摄像机模块采集上述目标区域内的手语视频，且其摄像机模块佩戴于使用者头部、耳后等部位，因此要求其摄像模块重量轻，且体积小。

参照上述步骤S200所述，通过预设卷积神经网络提取手语视频中的特征帧。卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)，因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks,SIANN)。卷积神经网络常见架构包括AlexNet、ZFNet、VGGNet、GoogleNet和ResNet模型。

参照上述步骤S300，将特征帧输入到预设分层长短期记忆网络，提取出有效帧。由于手语视频本身存在过多无效帧，如过渡帧和静止帧。如果将这些帧一起进行计算并用来预测，这样在浪费额外的计算资源的同时并不会提高实验结果的准确性。因此，设计了分层长短期记忆网络(BiLSTM)来提取手语视频中的有效帧。根据手语本身的特性，多帧连续的图像组成一个单词，多个单词组成一个短语，多个短语组成一句完整的手语含义。但是在一个单词的表述中，往往含有一些标志帧来表示这个词语，即其余帧可能仅仅为过渡帧。同时在一个短语或句子中，可用一些词语或短语来完全表示；因此，设计了一个分层的BiLSTM模型，该模型由三层长短期记忆网络+最大值池化(BiLSTM+Max pooling)组成，表示分别从词语、短语、句子三个层次来提取关键信息，最终一个视频经过分层的BiLSTM模型之后，可以得到该视频关键信息的特征表示。

提取视频帧的空间特征，基于卷积神经网络在图像视频等领域的广泛应用，本申请使用2D卷积神经网络提取视频帧的空间特征。具体使用在ImageNet数据集上预训练好的Resnet-152网络提取视频帧空间特征，可得到

其中f_i∈R²⁰⁴⁸,i＝1,2,3...N，N表示视频的帧数。设计第一层双向长短期记忆网络(BiLSTM)得到视频帧之间的时序关系，由于已经得到视频帧的空间特征，接下需要对视频帧之间进行时序建模，这样可以同时得到视频之间的时间-空间特征。对于每一时刻输出，由于是双向的网络，因此会有两个不同的隐藏状态，定义当前时刻的输出为双向的隐藏状态进行连接，即

由于一个手语词语包含若干帧(平均16帧)，但是在这些帧中或许只有若干帧(平均1-3帧)代表这个视频的具体含义，因此在视频高级语义特征表示中，如果只保留这些关键帧进行提取，下游网络的计算量会变得很小，同时实验精度也会提高。基于此，在第一层BiLSTM后进行最大池化操作，窗口大小设置为8，每相邻两个窗口之间的重复比为50％。在当前窗口进行最大池化操作，可以得到该窗口中响应最大的特征向量，即为当前窗口的关键信息。具体表示

这里的l是8，f^fi表示帧级BiLSTM的输出，f^f表示当前滑动窗口的关键信息。

由于一句手语文本包含若干个手语词汇(平均9-10个)，但是在这些词汇中只有若干个词汇代表这句文本的大题含义，因此在视频高级语义特征表示中，只保留这些关键词汇进行提取，下游网络的计算量会变小，并且提高网络识别率。基于此，设计第二层BiLSTM来建模第一层最大化池化操作后得到的关键帧信息的时序关系，类似的，定义当前时刻的输出为双向的隐藏状态的连接，即

同样的，在第二层BiLSTM网络后进行最大池化操作，窗口大小设置为4，相邻两窗口之间的重复率为50％，可以得到当前文本中的关键词语(动作)。具体表示为

将动作级别的关键信息输入到第三层BiLSTM网络中，同样经过上述的前向操作和后向操作得到该层网络的每一个时刻的输出

经过双向计算可以更好地捕捉到动作与动作之间的时序关系，同时经过这样的三层结构后，可以把视频中更高维度的时序与空间关系特征提取出来，为下游的语义识别提供了丰富的信息。

参照上述步骤S400所述，将有效帧输入到预设手语识别模型，输出与手语视频对齐的目标语句文本。本实施例中的预设手语识别模型具体将链接时间分类(CTC，Connectionist Temporal Classification)和编码器-解码器结构联合优化的方法引入到手语识别任务中。seq2seq模型主要有两种方法，第一种是基于RNN-CTC的seq2seq模型，第二种为基于RNN-RNN的编码器-解码器结构。两种方法，都避免了传统方法解决seq2seq的逐帧标记的问题。但是CTC假设输出与输出之间是相互独立的，例如在手语翻译中，对于标签为“我的爸爸是老师”，CTC认为“我”和“爸爸”之间是相互独立的，这种假设很明显是不合理的。除此之外，基于RNN-CTC的seq2seq模型不能解决输入比输出长的情况，在中国手语中没有太大问题，但是在德国手语数据集中就会存在一些不足。在RWTH-WEATHER 2014数据集中，有一些视频的帧数比真正的标签词数少，这种情况下CTC必定会预测错误。基于此，有另外一种结构来解决CTC的上述问题，即基于RNN-RNN的编码器解码器结构，可以建模任意长度的输入到输出关系。同时该模型结构认为输出词之间不是相互独立的。这种模型结构不能很好地处理较长序列，因为输入数据始终被编码成为一个固定长度的特征向量，如果输入序列过长，则有限的空间内不能很好地表示输入序列，该结构对于含有噪声的数据，不能很好地对输入和输出之间进行建模。本申请提出的将CTC和编码器-解码器结构联合优化的方法引入到手语识别任务中能够有效地解决上述问题。

在一具体实施例中，采集目标区域内的手语视频，将所述手语视频转化成第一视频帧S100之后，包括：

S500，按照预设目标对象裁切规则将所述第一视频帧裁切为第二视频帧。

参照上述步骤所述，用在Imagenet上预训练好的残差网络逐帧提取手语视频的2D特征，其中Imagenet是一个用于视觉对象识别软件研究的大型可视化数据库；并将该特征用于下游任务。具体地，使用ffmpeg工具将时序与视频转化成视频帧，并以目标人为中心进行裁剪，使每张图像的大小变为670×630，这样可以将空白的部分去除掉，提高模型识别精度。手语视频的帧数由数十帧至数百帧组成，根据手语视频的对应文本不同，会相对变化幅度较大。观察手语视频可得，手语视频具有过多的无效帧，例如过度帧，静止帧等。除此之外，手语视频中一句文本只需要若干短语就可以明白该句文本。在手语词语视频中，只需仅仅若干帧，就可以明白该手语视频的意思。所以提取手语视频的关键手势信息是很重要的。通常手语视频的分辨率较高，背景比较空旷，但这些背景对手语识别没有太大的帮助，因此本申请以人为中心进行裁剪，这样可以去除掉图像中的空旷部分。

参照图2，在本实施例中，通过预设卷积神经网络提取手语视频中的特征帧的步骤S200，包括：

S210，采用预设残差网络对第二视频帧逐帧提取，得到特征帧。残差网络(Residual Network，ResNet)的特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。本实施例通过采用在Imagenet上预训练好的Resnet-152逐帧提取手语视频的2D特征，并将该特征用于下游任务。鉴于网络模型的原因，将第二视频帧依次输入到残差网络-152中(该网络提前在ImageNet数据集上预训练)，可以得到视频帧的2D特征，上述2D特征作为特征帧，用

表示视频的图像帧集合，其中N代表视频的总帧数，经过残差网络-152，可以得到视频帧的2D特征表示

其中f_i∈R²⁰⁴⁸,i＝1,2,3...N。

参照图3在本实施例中，预设分层长短期记忆网络设置为三层长短期记忆网络，将特征帧输入到预设分层长短期记忆网络，提取出有效帧的步骤S300，包括：

S310，将特征帧输入到第一层长短期记忆网络，建立特征帧的时序关系，得到第一时序帧；

S320，将第一时序帧输入到第二层长短期记忆网络，提取出第一预设滑动窗口中的关键帧；

S330，将关键帧输入到第三层长短期记忆网络，提取出第二预设滑动窗口中的有效帧。

在本实施例中，考虑到手语的结构性，即一句手语中，可能仅仅只需要几个词就可以较好地表达出该手语的含义。同样的，在手语视频中，一个词语可能由若干动作组成，但是在这若干个动作中，必定会存在几个关键性的动作，这些关键动作也可以完整地表示出该手语词的含义。在手语视频中，一个手语词可能由许多连续手语帧组成，但是这这些手语帧中，有很多为冗余帧，例如过渡帧和静止帧等。因此在一个动作中，可以只需要更少帧达到不相上下的结果。基于此，设计了分层长短期记忆网络来对手语视频中从帧到词，从词到短语/句子的建模。

参照上述步骤S310所述，将特征帧输入到第一层长短期记忆网络，建立特征帧的时序关系，得到第一时序帧。第一层的网络选择双向的长短期记忆网络，用该网络来建模帧与帧之间的时序关系，将视频帧的特征输入到BiLSTM中，可以同时得到前向隐藏状态

和后向隐藏状态

前向考虑的是当前帧与之前帧的关系，后向考虑的是当前帧与之后帧的关系。将前向与后向得到的结果进行数组连接(concat)，即

可以得到当前帧与整个视频之间的关系。长度为N的帧经过该网络，得到长度N的输出，但是这N个输出之间彼此都是有关系的。因为该层网络输入的为视频的特征帧，因此该层网络也称为帧级BiLSTM。

参照上述步骤S320所述，将第一时序帧输入到第二层长短期记忆网络，提取出第一预设滑动窗口中的关键帧。在第一层长短期记忆网络(帧级BiLSTM网络)的输出，采用一个滑动窗口，滑动窗口大小设置为8，重复率为50％，每一个滑动窗口中选择一个最大值，即

f^fi表示帧级BiLSTM的输出，f^f表示当前滑动窗口的关键信息。将第一时序帧(帧级的关键信息)输入到第二层长短期记忆网络中，同样经过步骤S310的前向操作和后向操作得到该层网络每一个时刻的输出f^an。可以得到每一个滑动窗口中的关键帧(可以理解为一个瞬时动作中的关键帧)，一个手语词语包括若干的动作，例如手语“你好”，包括抬手和拇指下压的动作，但是关键的动作为拇指下压，因此第一层长短期记忆网络经过第一层最大池化操作，可以提取到拇指下压的关键动作的特征表示

参照上述步骤S330所述，将关键帧输入到第三层长短期记忆网络，提取出第二预设滑动窗口中的有效帧。虽然第一层长短期记忆网络经过第一层最大池化操作，可以提取到拇指下压的关键动作。但是一句手语文本包含多个手语词汇(动作)，这些词汇有一些不是很重要，因此本申请设计了和步骤S320类似的窗口最大化操作，在本步骤中将窗口大小设置为4，同时每一个滑动窗口之间的重复率为50％。第二层长短期记忆网络的输出经过滑动窗口最大值操作，可以得到词语中的关键动作的特征表示。将动作级别的关键信息输入到第三层长短期记忆网络中，同样经过上述的前向操作和后向操作得到该层网络的每一个时刻的输出

具体过程可以参照步骤S310，经过双向计算可以更好地捕捉到动作与动作之间的时序关系，同时经过这样的三层结构后，可以把视频中更高维度的时序与空间关系特征提取出来，为下游的语义识别提供了丰富的信息。

在一具体实施例中，设计多层长短期记忆网络来建模手语视频中词语与词语之间的时序关系，以及标签(label)中词语和词语之间的时序关系包括步骤：

使用结巴分词将句子分词，根据已知的词典，对句子进行单词的划分，即y＝(y₁,y₂,...,y_T)，其中T表示该语句有T个单词组成；

因为单词是孤立的，不能直接输入到网络中，因此使用独热编码(one-hot)方法来提取单词的编码向量，设y_t经过编码后变为y'_t,该编码只有一位是有效位，且词与词之间起始是独立的；

将句子词语的词向量编码按照顺序依次输入到单向长短期记忆网络(LSTM)中，建模单词与单词之间的时序和依赖关系。

在本实施例中，将有效帧输入到预设手语识别模型，输出与手语视频对齐的目标语句文本的步骤S400，包括：

将有效帧输入到基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的模型，输出与手语视频对齐的目标语句文本。

参照上述步骤所述，目前seq2seq模型主要有两种方法，第一基于RNN-CTC的seq2seq模型，第二种为基于RNN-RNN的编码器-解码器结构。两种方法，都避免了传统方法解决seq2seq的逐帧标记的问题。但是CTC假设输出与输出之间是相互独立的，例如在手语翻译中，对于标签为“我的爸爸是老师”，CTC认为“我”和“爸爸”之间是相互独立的，这种假设很明显是不合理的。除此之外，基于RNN-CTC的seq2seq模型不能解决输入比输出长的情况，在中国手语中没有太大问题，但是在德国手语数据集中就会存在一些不足。在RWTH-WEATHER 2014数据集中，有一些视频的帧数比真正的label词数少，这种情况下CTC必定会预测错误。基于此，有另外一种结构来解决CTC的上述问题，即基于RNN-RNN的编码器解码器结构，可以建模任意长度的输入到输出关系。同时该模型结构认为输出词之间不是相互独立的，之间存在联系。但是，这种模型结构不能很好地处理较长序列，因为输入数据始终被编码成为一个固定长度的特征向量，如果输入序列过长，则有限的空间内不能很好地表示输入序列。同时，该结构对于含有噪声的数据，不能很好地对输入输出之间进行建模。基于此，本申请提出基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的模型，引入到手语识别任务中。

在本实施例中，将有效帧输入到基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的手语识别模型，输出与手语视频对齐的目标语句文本的步骤之前，还包括：

将有效帧分别输入到编码器-解码器结构和CTC损失函数中，得到对应的两个损失函数值，将两个对应的损失函数值通过线性加权，得到总损失函数值；

利用总损失函数值训练手语识别模型。

在本实施例中，利用总损失函数值训练手语识别模型的步骤，包括：

利用总损失函数值和梯度下降算法更新手语识别模型中的参数。

参照上述步骤所述，由于基于编码器-解码器结构和基于CTC损失函数的手语识别模型中均有循环神经网络(Recurrent Neural Network，RNN)，因此本申请将分层双向长短期记忆网络作为公共部分，即基于CTC的手语识别结构中的RNN，和基于编码器-解码器的手语识别结构中的编码器。将一个手语视频经过分层的双向长短期记忆网络提取得到的高维时序和空间特征

其中N'表示长度为N的视频帧，经过两次关键信息提取之后的长度。将F^s同时分别进行如下两种变化，分别对应基于CTC的手语识别模型和基于编码器-解码器的手语识别模型。

使用线性映射层将F^s的维度变为词典数目总数，在该实验中，词典数目总数为178，同时引入‘blank’的标签，表示当前时刻没有预测到真正的词语，所以用‘blank’来进行标记。将F^s送入到线性映射层后，再进行softmax变化，得到P，得到每一时刻在词典V^*上的概率分布。将每个位置的得到的标签相乘即可得到一条拟合路径的概率，

对π进行B操作，该操作定义为去除掉路径中的‘blank’和重复的字符。因此，对于给定的视频特征F，得到给定文本L的概率定义为

通过动态规划算法可以高效的算出该概率。对该概率取对数，并取负，得到网络的损失函数，定义为L_CTC＝-ln(p(LF))。

在基于编码器-解码器的手语识别模型中，使用了注意力机制，此时新定义词典集合V'＝VY{<SOS>,<EOS>}，其中<SOS>表示开始解码，<EOS>表示结束解码。对于原始文本L，重新定义label：L'＝'<SOS>'YLY'<EOS>'。编码器在第k时刻的输出h_k＝LSTM(C_k,s_k,h_k-1)，其中C_k表示在当前时刻，编码器的注意力输入；s_k表示当前时刻输入词语的词向量编码表示；h_k-1表示LSTM网络中，前一时刻的隐状态。将编码器第k时刻的输出h_k输入到线性映射层中，将其维度转化为|V'|，得到z_k。基于此，对于给定的视频特征F，得到给定文本L的概率定义为

对该概率取对数，并取负，得到网络的损失函数，定义为L_Attention＝-ln(p(L|F))。

设置可变参数λ，定义网络总损失函数L_total＝λL_CTC+(1-λ)L_Attention，通过梯度下降法训练整个网络。

在一具体实施例中，实验使用的中国连续手语数据集对本发明方法进行可行性验证，该数据集包括100句常用用语，由50位聋哑人士进行录制，每个人录制5遍。因此数据集总公共包含25K视频，每一个视频都有其对应的文本信息。由于不同手语存在较大差异，不同录制者之间也包含较大的不同。因此将数据集按照如下两种方式进行划分，第一划分方式：按照不同的人数进行划分，数据集中的40位聋哑人士录制的20K视频作为训练集，10位聋哑人士录制的5K视频作为测试集。第二划分方式：按照不用的语句进行划分，数据集中94句话共23.5K视频作为训练集，剩下的6句话共1.5K作为测试集。该种划分方法中，94和6句话没有任何重复的，但是6句话中的词语均在训练集出现过，但是出现的上下文环境和训练集中的不同。

针对同一数据集，对比本发明方法与当前已有的手语识别方法性能，对于连续手语识别的评价指标，本实验采用的是词错误率(WER，Word Error Rate)，

其中words_ins，words_del，words_sub分别表示将网络的预测输出经过多少次插入、删除、替换操作可以得到其视频对应的文本。word_nums表示的是该视频对应文本中词语的个数。WER越小，表示网络识别效果越好。

本发明在视频特征提取的过程中，由于视频是由多帧组成的。因此获得视频帧中的空间-时间特征很重要。2D卷积神经网络已证明可以很好地得到视频中的空间特征，因此在本发明中，本申请先试用在Imagenet上预训练好的Resnet-152网络提取视频分帧后各帧的空间特征。时序关系可以通过长短期记忆网络进行建模，鉴于手语视频中关键帧、关键动作等特性，在本发明中，设计分层的长短期记忆网络，在第一层网络之后进行最大池化操作，获得当前窗口的关键信息。在第二层网络之后进行最大池化操作，获得当前窗口的关键信息。网络的长度从长到短进行逐步变化，通过这个网络，有效地获得视频的空、时特征，并从不同级别提取视频的内在联系。

基于编码器-解码器的手语识别模型可以实现任意长度的手语视频输入，避免了输出词与输出词之间的独立关系，更符合手语识别的应用场景。但是基于编码器-解码器的手语识别模型不能很好地处理较长的手语视频输入或输入视频含有噪声，因为在编码器-解码器结构中，将视频的特征表示成一个固定维度的特征向量，当视频长度过长或含有较多噪声时，该固定特征向量不能包含有效信息，因此不能达到比较好的网络识别效果。

基于RNN-CTC的手语识别模型可以避免对视频帧进行逐帧标记，通过最大化所有可能的路径的过程，来实现两个序列之间的对齐过程，由于CTC算法在某一个时刻都只能预测一个label，因此CTC算法不能对齐输入比输出长的情况。除此之外，CTC算法认为在输出的过程中，每一个输出与输出之间是相互独立的，但是手语识别在这种情况下是不成立的。

提出将基于RNN-CTC的手语识别模型与基于编码器-解码器的手语识别模型线性结合，联合优化，训练网络。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种手语识别系统实施例的结构框图，具体可以包括如下模块：

本视频采集模块100，用于采集目标区域内的手语视频；

特征提取模块200，用于通过预设卷积神经网络提取手语视频中的特征帧；

特征筛选模块300，用于将特征帧输入到预设分层长短期记忆网络，提取出有效帧；

手语识别模块400，用于将有效帧输入到预设手语识别模型，输出与手语视频对齐的目标语句文本。

参照图5，在本实施例中还包括：

视频裁剪模块500，用于将手语视频转化成第一视频帧，按照预设目标对象裁切规则将第一视频帧裁切为第二视频帧。

参照图6，在本实施例中特征提取模块200包括：

特征提取单元210，用于采用预设残差网络对第二视频帧逐帧提取，得到特征帧。

参照图7，在本实施例中预设分层长短期记忆网络设置为三层长短期记忆网络，特征筛选模块300包括：

第一筛选单元310，用于将特征帧输入到第一层长短期记忆网络，建立特征帧的时序关系，得到第一时序帧；

第二筛选单元320，用于将第一时序帧输入到第二层长短期记忆网络，提取出第一预设滑动窗口中的关键帧；

第三筛选单元330，用于将关键帧输入到第三层长短期记忆网络，提取出第二预设滑动窗口中的有效帧。

在本实施例中，手语识别模块400包括：

手语识别单元，用于将有效帧输入到基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的模型，输出与手语视频对齐的目标语句文本。

在本实施例中，手语识别模块400还包括：

参数加权单元，用于将有效帧分别输入到编码器-解码器结构和CTC损失函数中，得到对应的两个损失函数值，将两个对应的损失函数值通过线性加权，得到总损失函数值；

模型训练单元，用于利用总损失函数值训练手语识别模型。

在本实施例中，模型训练单元包括：

模型训练子单元，用于利用总损失函数值和梯度下降算法更新手语识别模型中的参数。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种手语识别方法和一种手语识别系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种手语识别方法，其特征在于，包括：

通过预设卷积神经网络提取所述第一视频帧中的特征帧；

2.根据权利要求1所述的方法，其特征在于，所述采集目标区域内的手语视频，将所述手语视频转化成第一视频帧之后，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过预设卷积神经网络提取所述第一视频帧中的特征帧包括：

4.根据权利要求1所述的方法，其特征在于，所述预设分层长短期记忆网络设置为三层长短期记忆网络，所述将所述特征帧输入到预设分层长短期记忆网络，提取出有效帧包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述有效帧输入到预设手语识别模型，输出与所述手语视频对齐的目标语句文本包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述有效帧输入到基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的手语识别模型，输出与所述手语视频对齐的目标语句文本的之前，还包括：

利用所述总损失函数值训练所述手语识别模型。

7.根据权利要求6所述的方法，其特征在于，所述利用所述总损失函数值训练所述手语识别模型包括：

8.一种手语识别系统，其特征在于，包括：

视频采集模块，用于采集目标区域内的手语视频，采集目标区域内的手语视频，将所述手语视频转化成第一视频帧；

9.电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的手语识别方法的步骤。

10.计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的手语识别方法的步骤。