CN112347826A

CN112347826A - 一种基于强化学习的视频连续手语识别方法及系统

Info

Publication number: CN112347826A
Application number: CN201910738365.7A
Authority: CN
Inventors: 李厚强; 周文罡; 魏承承; 赵鉴
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2021-02-09
Anticipated expiration: 2039-08-09
Also published as: CN112347826B

Abstract

本发明公开了一种基于强化学习的视频连续手语识别方法及系统，方法包括：基于残差连接的三维卷积神经网络对原始手语视频的各个视频段进行时空域特征提取，对时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征；基于多尺度感知网络对手语视频进行不同感受野下的再表达，以最小化联结主义时间分类损失为目标将网络训练至收敛后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存；基于保存的视频特征，利用边界检测器根据定义的状态确定出视频段的语义边界；将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征，基于进一步提取到的特征进行手语词汇的识别。本发明能够提高手语识别性能。

Description

一种基于强化学习的视频连续手语识别方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于强化学习的视频连续手语识别方法及系统。

背景技术

根据世界卫生组织发布的最新数据，全球大约有4.66亿人患有残疾性听力损失。据估计，到2050年将有9亿多人出现残疾性听力损失。长久以来，聋人与聋人、聋人与听人之间的交流主要依赖于手语。受限于日常手语环境和专业手语教育的缺失，绝大多数听人无法通过手语与聋人交流，造成了聋人在公共环境(如医院、车站等)中的交流障碍。此外，手语具有很强的地域差异性，即不同地域的手语规则和意义具有显著的不同，这给聋人之间的交流带来了不便。为了缓解上述问题，手语识别技术应运而生。手语识别主要分为两种类别：基于孤立词的手语识别和基于连续句子的手语识别。更加贴合实际应用场景的连续手语识别任务是指，给定一段手语视频，设计识别系统，使之识别出视频中描述的句子。连续手语识别是一种将图像序列(长序列)映射到单词序列(短序列)的任务。在实际应用场景中，图像序列和单词序列之间并没有对齐信息，即没有明确的时间间隔将图像序列分隔开，指明两个间隔之间的若干帧对应某一个单词。因此连续手语识别是一种弱监督任务。

随着深度神经网络技术的飞速发展，CNN(Convolutional Neural Networks,卷积神经网络)和RNN(Recurrent Neural Network，循环神经网络)分别在计算机视觉和自然语言处理领域取得了显著的成绩。卷积神经网络具有强大的特征表达能力，循环神经网络具有优越的上下文建模能力。近年来，众多手语识别方法借助这两类神经网络的优势，取得了很大的性能突破。此外，针对弱监督性质，连续手语识别方法引入了CTC(Connectionisttemporal classification，联结主义时间分类器)进行序列对齐的学习。目前，CNN-RNN-CTC框架被普遍应用于连续手语识别任务，具有较好的性能。具体而言，这些方法首先把原始视频等间隔切分成若干视频段，采用卷积神经网络对每一段视频进行时间-空间域的联合特征表达，再利用循环神经网络进行全局的上下文建模。此时，每段视频都被表达成一个包含语义的特征向量。连接主义时间分类器算法在训练阶段计算出目标方程，而在测试阶段，根据视频段的特征向量，将该视频段分类为一个单词。把所有视频段对应的单词做连接以后，通过删除无意义单词、合并重复单词的操作，最终可以得到原视频对应的预测句子。

一般而言，手语视频具有交替性和重复性两种性质。交替性是指随着视频的播放，有用信息和无用信息交替出现，这里无用信息包含动作间的过渡、动作静止等情况；重复性是指一个具体的手语词义，需要不止一个视频段才能完整表达，或者一段无意义信息，一般覆盖不止一个视频段。现有的基于CNN-RNN-CTC的手语识别技术存在的问题是，只着眼于一个视频段将其分类为一种手语词汇，这种模型忽略了相邻视频段表达含义也相似的潜在信息，即没有利用手语视频语义重复的性质，这是性能提升的瓶颈。

因此，如何更加有效的进行视频连续手语识别，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于强化学习的视频连续手语识别方法，能够利用强化学习检测出手语视频中的语义边界，对语义相似的手语视频段做更高层次的特征抽取，在包含高阶语义的视频特征层面上进行手语识别以提高其性能。

本发明提供了一种基于强化学习的视频连续手语识别方法，包括：

获取原始手语视频；

将获取的所述原始手语视频切分为多个视频段；

基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取；

对提取到的所述时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征；

基于多尺度感知网络对手语视频进行不同感受野下的再表达，以最小化联结主义时间分类损失为目标将网络训练至收敛后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存；

基于保存的所述视频特征，利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界；

将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征；

基于进一步提取到的所述特征进行手语词汇的识别。

优选地，所述方法还包括：

计算识别出的手语句子和真实句子之间的距离，取距离值的相反数作为所述边界检测器的奖励函数。

优选地，所述基于保存的所述视频特征，利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界，包括：

基于所述视频特征，以滑窗的形式确定当前观测到的状态，边界检测器根据当前定义的状态确定出窗口内的语义边界，滑窗在视频上滑动，依次确定出整个手语视频中的语义边界。

一种基于强化学习的视频连续手语识别系统，包括：

获取模块，用于获取原始手语视频；

切分模块，用于将获取的所述原始手语视频切分为多个视频段；

残差连接的三维卷积神经网络模块，用于对各个视频段进行时空域特征提取；

双向长短时记忆网络模块，用于对提取到的所述时空域特征进行上下文学习，得到手语视频的特征；

多尺度感知网络模块，用于对手语视频进行不同感受野下的再表达，以最小化联结主义时间分类损失为目标将网络训练至收敛后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存；

边界检测器，用于基于保存的所述视频特征，根据定义的状态确定出视频段的语义边界，其中，所述边界检测器利用强化学习算法训练得到；

特征提取模块，用于将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征；

识别模块，用于基于进一步提取到的所述特征进行手语词汇的识别。

优选地，所述系统还包括：

计算模块，用于计算识别出的手语句子和真实句子之间的距离，取距离值的相反数作为所述边界检测器的奖励函数。

优选地，所述边界检测器在执行基于保存的所述视频特征，根据定义的状态确定出视频段的语义边界时，具体用于：

基于所述视频特征，以滑窗的形式确定当前观测到的状态，根据当前定义的状态确定出窗口内的语义边界，滑窗在视频上滑动，依次确定出整个手语视频中的语义边界。

综上所述，本发明公开了一种基于强化学习的视频连续手语识别方法，当需要进行手语识别时，首先获取原始手语视频，然后将获取的原始手语视频切分为多个视频段；基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取，对提取到的时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征；基于多尺度感知网络对手语视频进行不同感受野下的再表达，以最小化联结主义时间分类损失为目标将网络训练至收敛后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存；基于保存的视频特征，利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界，将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征，基于进一步提取到的特征进行手语词汇的识别。本发明能够利用强化学习检测出手语视频中的语义边界，对语义相似的手语视频段做更高层次的特征抽取，在包含高阶语义的视频特征层面上进行手语识别以提高其性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种基于强化学习的视频连续手语识别方法实施例1的方法流程图；

图2为本发明公开的一种基于强化学习的视频连续手语识别方法实施例2的方法流程图；

图3为本发明公开的一种基于强化学习的视频连续手语识别系统实施例1的结构示意图；

图4为本发明公开的一种基于强化学习的视频连续手语识别系统实施例2的结构示意图；

图5为本发明公开的基于监督学习框架的视频表达网络结构示意图；

图6为本发明公开的边界检测阶段状态转移的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种基于强化学习的视频连续手语识别方法实施例1的方法流程图，所述方法可以包括以下步骤：

S101、获取原始手语视频；

当需要对连续手语视频进行语义识别时，首先获取需要进行识别的原始手语视频。

S102、将获取的原始手语视频切分为多个视频段；

当获取到原始手语视频后，在视频表达阶段，首先将原始手语视频等分若干视频段；其中，切分的视频段的数量可以根据实际需求进行灵活设置。

S103、基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取；

然后，将切分后的原始手语视频的各个视频段，用基于残差连接的三维卷积神经网络做时空域特征的抽取。

S104、对提取到的时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征；

然后，再利用双向长短时记忆网络对视频进行上下文建模，即，对提取到的时空域特征进行上下文学习，得到手语视频的特征。

S105、基于多尺度感知网络对手语视频进行不同感受野下的再表达，以最小化联结主义时间分类损失为目标将网络训练至收敛后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存；

接着，通过设计的多尺度感知网络对手语视频进行不同感受野下的再表达，每一种感受野对应表达都通过联结主义时间分类损失来约束。本阶段的训练目标是所有联结主义时间分类损失之和。网络收敛以后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存下来，作为语义边界检测的输入数据。

S106、基于保存的视频特征，利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界；

然后，基于马尔科夫决策过程定义强化学习框架下的语义边界检测问题。将智能体称为边界检测器。状态定义为相邻若干视频段的特征表达，动作定义为决策的边界位置。给定特征提取阶段得到的视频段表达，即保存的视频特征，边界检测器习得视频中的语义边界。

S107、将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征；

然后，将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征

S108、基于进一步提取到的特征进行手语词汇的识别。

再基于这个特征进行手语词汇的识别。

综上所述，在上述实施例中，当需要进行手语识别时，首先获取原始手语视频，然后将获取的原始手语视频切分为多个视频段；基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取，对提取到的时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征；基于多尺度感知网络对手语视频进行不同感受野下的再表达，以最小化联结主义时间分类损失为目标将网络训练至收敛后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存；基于保存的视频特征，利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界，将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征，基于进一步提取到的特征进行手语词汇的识别。本发明能够利用强化学习检测出手语视频中的语义边界，对语义相似的手语视频段做更高层次的特征抽取，在包含高阶语义的视频特征层面上进行手语识别以提高其性能。

如图2所示，为本发明公开的一种基于强化学习的视频连续手语识别方法实施例2的方法流程图，所述方法可以包括以下步骤：

S201、获取原始手语视频；

S202、将获取的原始手语视频切分为多个视频段；

例如，将原始手语视频切分为包含8帧的视频段，每两个相邻视频段之间共用4帧图像，手语视频可以表示为

其中v_i表示第i个视频段，共N个视频段。

S203、基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取；

S204、对提取到的时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征；

然后，再对提取到的特征利用双向长短时记忆网络进行上下文学习，最终得到手语视频的特征

其中

是手语视频段v_i的特征表达。

S205、基于多尺度感知网络对手语视频进行不同感受野下的再表达，以最小化联结主义时间分类损失为目标将网络训练至收敛后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存；

视频段流具有重复特征，即一个手语词汇需要不止一个视频段才能完整表达，且一段无意义的信息也通常覆盖不止一个视频段。相邻两个视频段倾向于具有相似的语义。为了对具有相似语义的视频段进一步提取高阶语义特征，本发明提出了一种多尺度感知网络结构，实质是用不同时间感受野来表达手语视频。在某个特定感受野s下，用一维时间池化层抽取相邻s个视频段的总特征，再基于s个视频段的总特征进行手语词汇的识别。这种做法较为有效地规避了由于单个视频段信息不足引起的手语识别失误。如图5所示，多尺度感知网络是一系列不同时间感受野的一维池化层。感受野从1到n，对应的时间粒度从精到粗。本方法具体使用最大池化层，因其在分类任务中的优越表现，以及在抽取最具有代表性的特征方面具有强大的能力。用

表示感受野为s的最大池化层，则此感受野下的手语识别可以表示为：

其中，

是池化得到的结果向量，

是特征向量的数量。把残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频段特征H输入到多尺度感知网络以后，可以得到一系列不同精细程度的手语视频表达G＝{G₁,G₂,…,G_n}。在训练阶段，本方法计算每个时间粒度s对应的联结主义时间分类损失之和作为训练目标，每次梯度下降会更新残差连接的三维卷积神经网络和双向长短时记忆网络的参数，参数的优化将逐渐提高手语视频的表达质量。当训练收敛以后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频段特征H保存，作为下个阶段语义检测的输入数据。

S206、基于视频特征，以滑窗的形式，利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界；

S207、将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征；

S208、基于进一步提取到的特征进行手语词汇的识别；

再基于这个特征进行手语词汇的识别。

S209、计算识别出的手语句子和真实句子之间的距离，取距离值的相反数作为边界检测器的奖励函数。

然后，衡量识别出的手语句子与真实句子之间的距离，取距离值的相反数作为边界检测器的奖励。

具体的，在上述实施例中，状态定义，如图6所示，假设有一个窗口在视频特征H上滑动。窗口宽为l，其物理含义是我们每次只关注于相邻的l个视频段，从中找出手语的语义边界。将窗口内的l个视频段特征<h_i,h_i+1,…,h_i+l-1>在通道维度上做连接，得到的一维向量

即为当前的状态向量。策略网络π由三层全连接层构成。将状态输入进策略网络，得到关于动作空间A的概率分布p_t(A)：

p_t(A)＝π(A|s_t,θ)；

其中，θ是策略网络的参数。

其中，动作定义为：根据窗口提供的状态，边界检测器对概率分布函数p_t(A)做采样得到相应的动作。动作集合定义为A＝{1,2,…,l-1}，其中，a_t＝i(1≤i≤l-1)代表智能体认为窗口内前i个视频段具有语义一致性。由于在特征提取阶段，多尺度感知网络具有1～n共n个不同的感受野，三维卷积神经网络和双向长短时记忆网络中被更新的参数适应于至多n个视频段做池化，因此在动作定义层面，也限制智能体的选择，规定最多认为前n个视频段具有语义一致性，以方便后续对语义一致的视频段做池化操作。根据对动作集合的定义和限制，可以得到n＝l-1。

其中，状态转移为：定义头指针x，代表当前状态中第一个特征向量的位置。假如智能体认为前a_t个视频段具有语义一致性，窗口将滑过前a_t个特征表达，此时头指针通过x←x+a_t更新，其中初始值为x＝1。下一时刻的状态进而定义为s_t+1＝<h_x,h_x+1,…,h_x+l-1>。通过这种方式，一个完整的状态转移

就完成了。图6展示了一个状态转移的例子。假定l＝4，则初始状态可以表示为s₀＝<h₁,h₂,h₃,h₄>，智能体根据动作空间的概率分布p₀(A)决定a₀＝2，意味着窗口内的前两个视频段被认为具有语义一致性，则智能体在h₂和h₃之间标记语义边界，窗口向右滑动两个特征长度，到达下一个状态s₁＝<h₃,h₄,h₅,h₆>。至此，第一个状态转移完成，下一个状态转移以s₁开始。智能体接着做决定a₁＝1，认为<h₃>具有独特的语义，并在h₃后标记语义边界，则下一个时刻的状态转移到s₂＝<h₄,h₅,h₆,h₇>。以这种方式不断地进行状态转移，当剩余的视频段不足以形成一个跨度为l个视频段的完整状态，状态转移过程停止。此时边界检测器输出一个语义边界提案，包含这个手语视频中所有被标记的语义边界。

其中，奖励定义为：智能体输出语义边界提案以后，两个语义边界之间的若干个视频段具有语义一致性。用最大池化操作对这些视频段做进一步的特征提取，再基于得到的语义层面的特征，用全连接层将通道维数转换到手语词汇表的容量数，用束搜索算法解码出预测的手语句子。将预测句子和真实句子之间距离的相反数作为智能体的奖励。误字率(WER)是一种广泛使用的度量标准，用于在连续手语识别任务中定量评估预测句子的质量。实际上，它计算了两个句子之间的距离。误字率定义如下：

其中#ins，#del和#sub分别代表从预测句子转化到参考句子需要插入、删除和替换单词的次数，#reference代表参考句子包含的单词个数。预测句子质量越高，则误字率的值越小，说明智能体检测出的语义边界越接近实际。因此取误字率的相反数作为智能体的奖励，即r＝-WER。

综上所述，本发明的实现包含两个阶段：基于监督学习的视频表达和基于强化学习的语义边界检测。在视频表达阶段，首先利用基于残差连接的三维卷积神经网络和基于双向长短时记忆网络的循环神经网络分别对手语识别做时空域特征提取和全局上下文建模。然后，本发明提出一种多尺度感知网络在不同感知野下表达同一个手语视频，每一种表达都用联结主义时间分类器模型求出相应的损失函数，所有尺度下的损失函数之和作为监督学习阶段的训练目标。监督学习阶段训练收敛以后，存储残差网络和双向长短时记忆网络对原始视频的表达，作为语义边界检测阶段的输入数据。

在视频语义边界检测阶段，本发明将手语视频的语义边界检测定义为马尔科夫决策过程，将马尔科夫决策过程的智能体称为边界检测器。状态定义为相邻若干视频段的特征表达，动作定义为决策的边界位置。给定状态，边界检测器决定哪两个视频段之间是手语的语义边界，进而标记边界。当检测器检测完整个手语视频，给出一个语义边界提案，根据提案提取相邻两边界之间的特征，借助束搜索算法解码出预测的句子。计算预测句子和真实的标签句子之间的距离，对距离求相反数作为智能体的奖励。用策略梯度算法来训练强化学习框架，训练收敛以后，边界检测器可以较为准确地检测出视频的语义边界，进而帮助手语识别提升其性能。

如图3所示，为本发明公开的一种基于强化学习的视频连续手语识别系统实施例1的结构示意图，所述系统可以包括：

获取模块301，用于获取原始手语视频；

切分模块302，用于将获取的原始手语视频切分为多个视频段；

残差连接的三维卷积神经网络模块303，用于对各个视频段进行时空域特征提取；

双向长短时记忆网络模块304，用于对提取到的时空域特征进行上下文学习，得到手语视频的特征；

多尺度感知网络模块305，用于对手语视频进行不同感受野下的再表达，以最小化联结主义时间分类损失为目标将网络训练至收敛后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存；

边界检测器306，用于基于保存的所述视频特征，根据定义的状态确定出视频段的语义边界，其中，边界检测器利用强化学习算法训练得到；

特征提取模块307，用于将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征；

识别模块308，用于基于进一步提取到的特征进行手语词汇的识别。

再基于这个特征进行手语词汇的识别。

综上所述，在上述实施例中，当需要进行手语识别时，首先获取原始手语视频，然后将获取的原始手语视频切分为多个视频段；基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取，对提取到的时空域特征利用双向长短时记忆网络进行上下文学习，得到手语视频的特征；基于多尺度感知网络对手语视频进行不同感受野下的再表达，以最小化联结主义时间分类损失为目标将网络训练至收敛后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存；基于保存的视频特征，利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界，将两两边界之间语义一致的多个视频段以池化的方式进一步提取特征，基于进一步提取到的特征进行手语词汇的识别。本发明能够利用强化学习检测出手语视频中的语义边界，对语义相似的手语视频段做更高层次的特征抽取，在包含高阶语义的视频特征层面上进行手语识别以提高其性能。

如图4所示，为本发明公开的一种基于强化学习的视频连续手语识别系统实施例2的结构示意图，所述系统可以包括：

获取模块401，用于获取原始手语视频；

切分模块402，用于将获取的原始手语视频切分为多个视频段；

其中v_i表示第i个视频段，共N个视频段。

残差连接的三维卷积神经网络模块403，用于对各个视频段进行时空域特征提取；

双向长短时记忆网络模块404，用于对提取到的时空域特征进行上下文学习，得到手语视频的特征；

其中

是手语视频段v_i的特征表达。

多尺度感知网络模块405，用于对手语视频进行不同感受野下的再表达，以最小化联结主义时间分类损失为目标将网络训练至收敛后，将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存；

其中，

是池化得到的结果向量，

边界检测器406，用于基于视频特征，以滑窗的形式，根据定义的状态确定出视频段的语义边界；

特征提取模块407，用于将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征；

识别模块408，用于基于进一步提取到的特征进行手语词汇的识别；

再基于这个特征进行手语词汇的识别。

计算模块409，用于计算识别出的手语句子和真实句子之间的距离，取距离值的相反数作为边界检测器的奖励函数。

p_t(A)＝π(A|s_t,θ)；

其中，θ是策略网络的参数。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于强化学习的视频连续手语识别方法，其特征在于，包括：

获取原始手语视频；

将获取的所述原始手语视频切分为多个视频段；

基于进一步提取到的所述特征进行手语词汇的识别。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述基于保存的所述视频特征，利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界，包括：

基于所述视频特征，以滑窗的形式确定当前观测到的状态，边界检测器根据当前状态确定出窗口内的语义边界，滑窗在视频上滑动，依次确定出整个手语视频中的语义边界。

4.一种基于强化学习的视频连续手语识别系统，其特征在于，包括：

获取模块，用于获取原始手语视频；

5.根据权利要求4所述的系统，其特征在于，还包括：

6.根据权利要求4所述的系统，其特征在于，所述边界检测器在执行基于保存的所述视频特征，根据定义的状态确定出视频段的语义边界时，具体用于：

基于所述视频特征，以滑窗的形式确定当前观测到的状态，根据当前状态确定出窗口内语义边界，滑窗在视频上滑动，依次确定出整个手语视频中的语义边界。