CN110472548A

CN110472548A - 一种基于语法分类器的视频连续手语识别方法及系统

Info

Publication number: CN110472548A
Application number: CN201910732178.8A
Authority: CN
Inventors: 李厚强; 周文罡; 魏承承
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-11-19
Anticipated expiration: 2039-08-08
Also published as: CN110472548B

Abstract

本发明公开了一种基于语法分类器的视频连续手语识别方法及系统，方法包括：将获取到的原始手语视频切分为多个视频段，基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取，对提取到的时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征；采用最大池化层对视频的特征做全局池化，得到原始手语视频的特征向量；基于特征向量，采用单词分类器模块给出句子中每个单词对应的置信度分数，采用元组分类器模块给出句子中每个多元组的置信度分数；基于单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，确定出手语识别结果。本发明能够提高手语识别性能。

Description

一种基于语法分类器的视频连续手语识别方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于语法分类器的视频连续手语识别方法及系统。

背景技术

手语是聋人与听人之间沟通的桥梁。由于大多数听人对手语知识了解十分匮乏，聋人与听人之间有较大的交流障碍。在时代信息化的今天，这会造成听障人士在受教育和求职等方面的损失。为了缓解这一现象，越来越多的研究者致力于开发手语识别系统。例如，基于视频的手语识别系统旨在把手语视频翻译为有顺序的手语词汇，以帮助听人理解聋人在视频中表达的意思。概括地说，手语识别分为两大类：针对孤立词的手语识别和针对连续句子手语识别。前者对应的手语视频只描述一个孤立的手语词汇；而后者对应的手语视频则描述的是实际生活中完整的句子。显然，连续手语识别更加具有挑战性和实用价值。目前，研究者们主要聚焦于基于视频的连续手语识别场景。

手语视频对应的图像序列作为连续手语识别系统的输入，这个视频描述的真实词汇序列则为系统的期望输出，输入序列与输出序列不等长。此外，图像序列和真实标签序列是未对齐的，体现在图像流中的词义边界未知，即预先只知道视频对应的真实词汇序列，而视频中的任意图像对应的具体词汇标签未知。针对手语识别的不等长序列映射性质，研究者们提出了众多基于编码器-解码器的方法来解决连续手语识别问题。这类方法通常先用卷积神经网络提取视觉层面的特征，然后利用基于循环神经网络的编码器对视觉特征做联系上下文的序列学习，将视频编码为一个固定长度的特征向量，最后用解码器从这个特征向量中解码出视频对应的词汇序列。另外一类手语识别方法是基于联结主义时间分类器发展起来的，连接主义时间分类器是一种序列对齐模型，通过引入空标签，可以对视频中的每一帧进行词汇预测，而后通过删除空标签、合并连续同类词汇的方法去除预测序列中的冗余信息，从而把长序列转化为短序列，作为连续手语识别的结果。

基于编码器-解码器框架的连续手语识别方法通常不能有效规避编码器-解码器结构的固有缺点：训练时，解码器在每个时间步上的输入都是真实的词汇标签；而在测试阶段，解码器不可能获得真实标签，只能用上个时间步的预测结果作为此步预测的参考信息。预测结果在时间维度上不断向后传递，当某些时间步上的预测词汇有误时，这些错误会累积，导致最终翻译出的句子与真实句子有较大出入。除此之外，基于编码器-解码器的连续手语识别方法和基于联结主义时间分类器的手语识别方法通常只利用循环神经网络进行全局地上下文建模，而不能显式地对手语的局部表达进行建模。

因此，如何更加有效的进行视频连续手语识别，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于语法分类器的视频连续手语识别方法，能够避免传统编码器-解码器框架带来的错误积累的问题，以及能够通过对手语中的局部表达进行建模，以提高手语识别性能。

本发明提供了一种基于语法分类器的视频连续手语识别方法，包括：

获取原始手语视频；

将获取的所述原始手语视频切分为多个视频段；

基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取；

对提取到的所述时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征；

采用最大池化层对所述视频的特征做全局池化，得到所述原始手语视频的特征向量；

基于所述特征向量，采用单词分类器模块给出句子中每个单词对应的置信度分数；

基于所述特征向量，采用元组分类器模块给出句子中每个多元组的置信度分数；

基于所述单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，确定出手语识别结果。

优选地，所述基于所述单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，确定出手语识别结果，包括：

基于所述单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，采用贪心解码算法确定出手语识别结果。

优选地，所述基于所述单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，采用贪心解码算法确定出手语识别结果，包括：

将所述单词分类器模块给出的单词置信度分数与所述元组分类器模块给出的所述该单词所在元组的置信度分数之和最高对应的单词逐个解码出，进而得到手语句子，作为手语识别结果输出。

优选地，所述将获取的所述原始手语视频切分为多个视频段，包括：

以滑窗的形式将获取的所述原始手语视频切分为多个视频段。

优选地，所述单词分类器模块包括多个分类器，其中，每个分类器识别一个手语单词。

一种基于语法分类器的视频连续手语识别系统，包括：

获取模块，用于获取原始手语视频；

切分模块，用于将获取的所述原始手语视频切分为多个视频段；

残差连接的三维卷积神经网络模块，用于对各个视频段进行时空域特征提取；

双向长短时记忆网络模块，用于对提取到的所述时空域特征进行上下文学习，得到手语视频的特征；

池化模块，用于采用最大池化层对所述视频的特征做全局池化，得到所述原始手语视频的特征向量；

单词分类器模块，用于基于所述特征向量给出句子中每个单词对应的置信度分数；

元组分类器模块，用于基于所述特征向量给出句子多元组的置信度分数；

识别模块，用于基于所述单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，确定出手语识别结果。

优选地，所述识别模块在执行基于所述单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，确定出手语识别结果时，具体用于：

优选地，所述识别模块在执行基于所述单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，采用贪心解码算法确定出手语识别结果时，具体用于：

优选地，所述切分模块在执行将获取的所述原始手语视频切分为多个视频段时，具体用于：

综上所述，本发明公开了一种基于语法分类器的视频连续手语识别方法，当需要进行手语识别时，首先获取原始手语视频，然后将获取的原始手语视频切分为多个视频段；基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取，对提取到的时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征，采用最大池化层对视频的特征做全局池化，得到原始手语视频的特征向量；基于特征向量，采用单词分类器模块给出句子中每个单词对应的置信度分数；基于特征向量，采用元组分类器模块给出句子中每个多元组的置信度分数；基于单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，确定出手语识别结果。本发明能够避免传统编码器-解码器框架带来的错误积累的问题，以及能够通过对手语中的局部表达进行建模，以提高手语识别性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种基于语法分类器的视频连续手语识别方法实施例1的方法流程图；

图2为本发明公开的一种基于语法分类器的视频连续手语识别方法实施例2的方法流程图；

图3为本发明公开的一种基于语法分类器的视频连续手语识别系统实施例1的结构示意图；

图4为本发明公开的一种基于语法分类器的视频连续手语识别系统实施例2的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种基于语法分类器的视频连续手语识别方法实施例1的方法流程图，所述方法可以包括以下步骤：

S101、获取原始手语视频；

当需要对连续手语视频进行语义识别时，首先获取需要进行识别的原始手语视频。

S102、将获取的原始手语视频切分为多个视频段；

当获取到原始手语视频后，在视频表达阶段，首先将原始手语视频等分若干视频段；其中，切分的视频段的数量可以根据实际需求进行灵活设置。

S103、基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取；

然后，将切分后的原始手语视频的各个视频段，用基于残差连接的三维卷积神经网络做时空域特征的抽取。

S104、对提取到的时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征；

然后，再利用双向长短时记忆网络对视频进行上下文建模，即，对提取到的时空域特征进行上下文学习，得到手语视频的特征。

S105、采用最大池化层对视频的特征做全局池化，得到原始手语视频的特征向量；

而后用一个最大池化层对视频特征做全局池化，得到手语视频的特征向量。

S106、基于特征向量，采用单词分类器模块给出句子中每个单词对应的置信度分数；

接着，基于手语的语法和句法结构，设计了单词分类器模块和元组分类器模块，这两个模块分别把手语识别任务转化成了基于视频特征的手语单词和元组分类任务。具体而言，单词分类器模块包含一系列并行的单词分类器，每个分类器执行一个单词的分类任务。分类器的排列有顺序，且工作时是并行进行的。在训练时，给每个单词分类器分配一个真实句子中的词汇作为训练标签，训练目标是最小化所有单词分类器的分类损失之和。在测试阶段，各个单词分类器独立地预测对应位置的词汇，将所有预测的词汇拼接起来即得到最终的预测句子。由于测试时对当前单词的预测只依赖于对应位置的单词分类器，而无需像基于编码器-解码器框架的方法需要参考前一时刻的预测结果，因此单词分类器模块有效地规避了测试阶段的错误累积现象。

S107、基于特征向量，采用元组分类器模块给出句子中每个多元组的置信度分数；

此外，手语中有许多常用短语和表达，它们用相连的多个词汇表示，反应了手语句子的局部内容。本方法设计了元组分类器模块，第一次把手语句子的局部内容显式地建模进手语识别方法中以帮助整个句子的识别。记手语句子中的一个单词、相邻两个单词和相邻三个单词为一元组、二元组和三元组，元组分类器实际上是一个以句子中所有多元组为标签的多标签分类器。单词分类器模块和元组分类器模块分别聚焦于词汇和元组的分类，两者互补。在手语识别的训练阶段，将句子打散成单词和多元组，用于分类任务。

S108、基于单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，确定出手语识别结果。

在测试阶段，根据单词分类器模块和元组分类器模块提供的单词和元组置信度得分将单词和多元组重新集成到句子中，确定出手语识别结果。

综上所述，在上述实施例中，当需要进行手语识别时，首先获取原始手语视频，然后将获取的原始手语视频切分为多个视频段；基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取，对提取到的时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征，采用最大池化层对视频的特征做全局池化，得到原始手语视频的特征向量；基于特征向量，采用单词分类器模块给出句子中每个单词对应的置信度分数；基于特征向量，采用元组分类器模块给出句子中每个多元组的置信度分数；基于单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，确定出手语识别结果。本发明能够避免传统编码器-解码器框架带来的错误积累的问题，以及能够通过对手语中的局部表达进行建模，以提高手语识别性能。

如图2所示，为本发明公开的一种基于语法分类器的视频连续手语识别方法实施例2的方法流程图，所述方法可以包括以下步骤：

S201、获取原始手语视频；

S202、以滑窗的形式将获取的原始手语视频切分为多个视频段；

例如，用表示包含T帧图像的手语视频。以滑窗的形式将视频均匀地分割为N段，在具体实现层面上，窗长可以为8，步长可以为4。分段以后，手语视频可以表示为其中v_i表示第i个手语视频片段。

S203、基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取；

然后，采用基于残差连接的三维卷积神经网络提取手语视频的时空特征，提取过程表示如下：

其中，c代表三维卷积神经网络，是对应于视频片段v_i的时空特征。

S204、对提取到的时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征；

接着，用双向长短时记忆网络在时空特征的基础上做全局的上下文学习。双向长短时记忆网络由两个相反方向的长短时记忆网络组合而成，其中一个用于前向信息传输，另一个用于反向信息传输，这样做的意义是在对当前视频段进行表达的时候，同时考虑了本视频段之前和之后的视频内容，以更好的理解本视频段信息。上下文建模可以表示为：

其中，代表双向长短时记忆网络，是网络对视频片段v_i的表达结果。

S205、采用最大池化层对视频的特征做全局池化，得到原始手语视频的特征向量；

为了提取整个手语视频的统一表达，本方法采用全局最大池化层作用于双向长短时网络提取的特征，可以表示为：

其中，h_p即为手语视频的特征表达。

S206、基于特征向量，采用单词分类器模块给出句子中每个单词对应的置信度分数；

给定视频X，本方法旨在将其翻译成手语句子s＝<w₁,w₂,…,w_n>，其中，w_i是句子中的第i个单词。句子的长度定义为句子中包含的单词个数，表示为n＝|s|。手语单词来自有限的单词集合V，即w_i∈V。由于手语句子长度有限，用L表示其最大长度。

设计单词分类器模块的关键思想是，用有顺序的单词分类器识别对应的手语单词。第i个分类器的任务是学习识别第i个手语单词。考虑到句子的最大长度不超过L，本方法在单词分类器模块中相应地部署L个分类器。但是，在大多数情况下，实际的句子长度小于L，这意味着单词的个数n和分类器个数L不匹配。为了解决这个问题，通过引入空标签{'_'}，得到扩充的单词集合V′＝V∪{'_'}。在实际长为n的手语句子后面补空白标签，直到句子长度为L。因此，第i个分类器的任务不仅是判断第i个单词是否存在(空白标签代表不存在，非空白标签代表存在)，而且要判断出单词的具体类别(如果存在的话)。模块内的每一个分类器都由交叉熵损失约束，整个单词分类器模块的训练目标为所有交叉熵损失之和：

其中，是第i个分类器的交叉熵损失，L是分类器的个数。

S207、基于特征向量，采用元组分类器模块给出句子中每个多元组的置信度分数；

前述的单词分类器模块只关注单个手语词汇，实际上在手语句子表达时，有很多常用的单词词组。本方法将手语中可能的词组建模为多元组，把他们作为额外的监督信息以帮助手语识别。元组分类器将手语识别任务形式化为多标签分类任务，手语句子中所有出现的多元组(包括一元组、二元组和三元组)作为标签。在实现层面，将补空白标签至长度为L的手语句子分别打散为一元组、二元组和三元组，得到的所有元组都作为元组分类器的标签。元组分类器模块的训练目标为交叉熵损失，记作本方法中单词分类器模块和元组分类器模块联合训练，目标方程可以表示为：

其中，λ是可调参数，用于平衡两个模块的重要程度。

S208、将单词分类器模块给出的单词置信度分数与元组分类器模块给出的该单词所在元组的置信度分数之和最高对应的单词逐个解码出，进而得到手语句子，作为手语识别结果输出。

在测试阶段，给定一个测试视频，单词分类器模块给出句子中每个单词对应的置信度分数，元组分类器模块给出每个多元组的置信度分数。本发明提出一种基于贪心算法的解码方法，从分类器给出的置信度分数中解码出得分最高的句子作为手语识别结果。句子推断过程是逐词进行的。具体而言，为了推断第i个词是w的可能性，需要同时考虑单词分类器模块中第i个分类器给出的关于词汇w的置信度分数以及元组分类器给出的所有包含w的多元组的置信度分数和，其中，w∈V′。记和分别为单词分类器模块和元组分类器模块给出的关于w的置信度得分方程，定义第i个词是w的得分函数为：

其中，是所有包含w的多元组置信度得分之和，由下式计算：

其中，和是在解码第i个词之前，已经推断出的词汇。根据得分最大准则逐词推断出长为L的句子，删除句子中的空白标签以后，将句子作为手语识别结果。

如图3所示，为本发明公开的一种基于语法分类器的视频连续手语识别系统实施例1的结构示意图，所述系统可以包括：

获取模块301，用于获取原始手语视频；

切分模块302，用于将获取的原始手语视频切分为多个视频段；

残差连接的三维卷积神经网络模块303，用于对各个视频段进行时空域特征提取；

双向长短时记忆网络模块304，用于对提取到的时空域特征进行上下文学习，得到手语视频的特征；

池化模块305，用于采用最大池化层对视频的特征做全局池化，得到原始手语视频的特征向量；

单词分类器模块306，用于基于特征向量给出句子中每个单词对应的置信度分数；

元组分类器模块307，用于基于特征向量给出句子中每个多元组的置信度分数；

识别模块308，用于基于单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，确定出手语识别结果。

如图4所示，为本发明公开的一种基于语法分类器的视频连续手语识别系统实施例2的结构示意图，所述系统可以包括：

获取模块401，用于获取原始手语视频；

切分模块402，用于以滑窗的形式将获取的原始手语视频切分为多个视频段；

残差连接的三维卷积神经网络模块403，用于对各个视频段进行时空域特征提取；

双向长短时记忆网络模块404，用于对提取到的时空域特征进行上下文学习，得到手语视频的特征；

池化模块405，用于采用最大池化层对视频的特征做全局池化，得到原始手语视频的特征向量；

其中，h_p即为手语视频的特征表达。

单词分类器模块406，用于基于特征向量给出句子中每个单词对应的置信度分数；

其中，是第i个分类器的交叉熵损失，L是分类器的个数。

元组分类器模块407，用于基于特征向量给出句子中每个多元组的置信度分数；

其中，λ是可调参数，用于平衡两个模块的重要程度。

识别模块408，用于将单词分类器模块给出的单词置信度分数与元组分类器模块给出的该单词所在元组的置信度分数之和最高对应的单词逐个解码出，进而得到手语句子，作为手语识别结果输出。

其中，是所有包含w的多元组置信度得分之和，由下式计算：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于语法分类器的视频连续手语识别方法，其特征在于，包括：

获取原始手语视频；

将获取的所述原始手语视频切分为多个视频段；

2.根据权利要求1所述的方法，其特征在于，所述基于所述单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，确定出手语识别结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，采用贪心解码算法确定出手语识别结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述将获取的所述原始手语视频切分为多个视频段，包括：

5.根据权利要求2所述的方法，其特征在于，所述单词分类器模块包括多个分类器，其中，每个分类器识别一个手语单词。

6.一种基于语法分类器的视频连续手语识别系统，其特征在于，包括：

获取模块，用于获取原始手语视频；

7.根据权利要求6所述的系统，其特征在于，所述识别模块在执行基于所述单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，确定出手语识别结果时，具体用于：

8.根据权利要求7所述的系统，其特征在于，所述识别模块在执行基于所述单词分类器模块给出的句子中每个单词对应的置信度分数和元组分类器模块给出的句子中每个多元组的置信度分数，采用贪心解码算法确定出手语识别结果时，具体用于：

9.根据权利要求6所述的系统，其特征在于，所述切分模块在执行将获取的所述原始手语视频切分为多个视频段时，具体用于：

10.根据权利要求7所述的系统，其特征在于，所述单词分类器模块包括多个分类器，其中，每个分类器识别一个手语单词。