CN109063615B - 一种手语识别方法及系统 - Google Patents

一种手语识别方法及系统 Download PDF

Info

Publication number
CN109063615B
CN109063615B CN201810802950.4A CN201810802950A CN109063615B CN 109063615 B CN109063615 B CN 109063615B CN 201810802950 A CN201810802950 A CN 201810802950A CN 109063615 B CN109063615 B CN 109063615B
Authority
CN
China
Prior art keywords
sign language
key
segment
segments
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810802950.4A
Other languages
English (en)
Other versions
CN109063615A (zh
Inventor
李厚强
黄杰
周文罡
李卫平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810802950.4A priority Critical patent/CN109063615B/zh
Publication of CN109063615A publication Critical patent/CN109063615A/zh
Application granted granted Critical
Publication of CN109063615B publication Critical patent/CN109063615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Abstract

本申请公开了一种手语识别方法及系统,所述方法包括:获取待识别手语视频,对待识别手语视频进行关键片段选择,通过分层时间注意力网络为关键片段生成特征向量并执行分类,输出手语语义词汇。本申请通过采用关键片段选择以及分层时间注意力网络,能够更加准确的对手语手势进行识别,使得输出的语义词汇更加准确。

Description

一种手语识别方法及系统
技术领域
本申请属于信息处理技术领域,尤其涉及一种手语识别方法及系统。
背景技术
正常人可以通过语言将他们的想法传达给他人,然而,听力受损群体的唯一交流手段是使用手语,听力受损的群体通常很难将他们的想法和创造力传达给正常人。为了克服这种沟通障碍,手语识别系统专门为世界各地的听力障碍者开发各种手语。
目前,手语识别的一个难题是手语视频的表征。手语动作的特点主要是运动轨迹和手势变化,迄今为止,对这两个问题进行了大量的研究工作。运动轨迹涉及跟踪关键点和运动匹配,手势特征的描述需要对视频中手部区域的跟踪和分割。由于运动轨迹复杂和手势变化大,手语识别要获得令人满意的特征仍然具有挑战性。
因此,如何更加有效对手语进行识别,是一项亟待解决的问题。
发明内容
有鉴于此,本申请提供了一种手语识别方法,通过采用关键片段选择以及分层时间注意力网络,能够更加准确的对手语手势进行识别,使得输出的语义词汇更加准确。
本申请提供了一种手语识别方法,所述方法包括:
获取待识别手语视频;
对所述待识别手语视频进行关键片段选择;
通过分层时间注意力网络为所述关键片段生成特征向量并执行分类,输出手语语义词汇。
优选地,对所述待识别手语视频进行关键片段选择包括:
对采样手语视频进行均匀采样,获得均匀采样的片段;
对所述采样手语视频进行密集采样,获得密集采样的片段;
将所述均匀采样的片段作为分层时间注意力网络训练的初始关键片段,基于所述初始关键片段训练分层时间注意力网络;
通过训练后的分层时间注意力网络从所述密集采样的片段中生成特征;
基于所述特征,通过关键片段挖掘模型从所述密集采样的片段中选取关键片段。
优选地,所述通过分层时间注意力网络为所述关键片段生成特征向量并执行分类,输出手语语义词汇包括:
基于3D卷积神经网络和递归神经网络对所述关键片段进行处理,输出手语语义词汇。
优选地,所述关键片段的长度为16帧。
一种手语识别识别系统,包括:
获取模块,用于获取待识别手语视频;
选择模块,用于对所述待识别手语视频进行关键片段选择;
处理模块,用于通过分层时间注意力网络为所述关键片段生成特征向量并执行分类,输出手语语义词汇。
优选地,所述选择模块包括:
均匀采样单元,用于对采样手语视频进行均匀采样,获得均匀采样的片段;
密集采样单元,用于对所述采样手语视频进行密集采样,获得密集采样的片段;
训练单元,用于将所述均匀采样的片段作为分层时间注意力网络训练的初始关键片段,基于所述初始关键片段训练分层时间注意力网络;
生成单元,用于通过训练后的分层时间注意力网络从所述密集采样的片段中生成特征;
选取单元,用于基于所述特征,通过关键片段挖掘模型从所述密集采样的片段中选取关键片段。
优选地,所述处理模块具体用于:
基于3D卷积神经网络和递归神经网络对所述关键片段进行处理,输出手语语义词汇。
优选地,所述关键片段的长度为16帧。
综上所述,本申请公开了一种手语识别方法,当需要进行手语识别时,首先获取待识别手语视频,然后对待识别手语视频进行关键片段选择,通过分层时间注意力网络为关键片段生成特征向量并执行分类,输出手语语义词汇。本申请通过采用关键片段选择以及分层时间注意力网络,能够更加准确的对手语手势进行识别,使得输出的语义词汇更加准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请公开的一种手语识别方法实施例1的方法流程图;
图2为本申请公开的一种手语识别方法实施例2的方法流程图;
图3为本申请公开的一种手语识别方法实施例3的方法流程图;
图4为本申请公开的一种手语识别系统实施例1的结构示意图;
图5为本申请公开的一种手语识别系统实施例2的结构示意图;
图6为本申请公开的一种手语识别系统实施例3的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,为本申请公开的一种手语识别方法实施例1的方法流程图,本申请的框架由两部分组成:关键片段选择和分层时间注意力网络,关键片段选择旨在从手语视频中识别关键片段,分层时间注意力网络基于关键片段的筛选结果,为关键片段生成特征向量并随后执行分类,其中,特征生成集成了帧级短期注意力和片段级长期注意力,具体的,所述方法可以包括以下步骤:
S101、获取待识别手语视频;
当需要对手语进行识别时,首先获取需要进行手语识别的手语视频,即获取待识别的手语视频。
S102、对待识别手语视频进行关键片段选择;
当获取到待识别手语视频后,对获取到的手语视频进行关键片段选择。通过关键片段选择,去除了手语视频序列的冗余性。
S103、通过分层时间注意力网络为关键片段生成特征向量并执行分类,输出手语语义词汇。
然后通过关键片选的选择结果,建立分层的时间注意力网络。该分层时间注意力网络结合了手语视频的结构信息,即第一层学习片段的表征,第二层学习整个视频的表征。同时在该过程中融入了注意力机制,考虑了不同时刻信息的不同重要性。
综上所述,在上述实施例中,当需要进行手语识别时,首先获取待识别手语视频,然后对待识别手语视频进行关键片段选择,通过分层时间注意力网络为关键片段生成特征向量并执行分类,输出手语语义词汇。本申请通过采用关键片段选择以及分层时间注意力网络,能够更加准确的对手语手势进行识别,使得输出的语义词汇更加准确。
具体的,在上述实施例中,步骤S102对待识别手语视频进行关键片段选择的其中一种实现方式如图2所示,可以包括以下步骤:
S201、对采样手语视频进行均匀采样,获得均匀采样的片段;
S202、对采样手语视频进行密集采样,获得密集采样的片段;
S203、将均匀采样的片段作为分层时间注意力网络训练的初始关键片段,基于初始关键片段训练分层时间注意力网络;
S204、通过训练后的分层时间注意力网络从密集采样的片段中生成特征;
S205、基于特征,通过关键片段挖掘模型从所述密集采样的片段中选取关键片段。
选择最佳关键片段需要理想的神经网络特征提取器,但是相对地,神经网络特征提取器依赖于理想的训练样本,即正确选择最佳的关键片段。两个目标相互依赖,因此采用交替优化求解问题,如采用类最大期望估计算法交替优化的框架。首先用均匀采样的片段作为分层时间注意力网络训练的初始关键片段,启动类期望最大化算法(EM-style)的循环。然后使用训练的分层时间注意力网络从密集采样的片段中生成特征。之后,通过这些特征,关键片段挖掘模型会从密集采样的片段中选取关键片段。这些新选择的关键片段有助于在下一次迭代中改进分层时间注意力网络。
一般来说,片段应具有可变长度以适应不同的手语动作的速度。然而,为了方便训练基于小批量(mini-bath)的分层时间注意力网络。本申请实施例将输入片段的长度固定为16帧,其长度通常足以表示一个基本动作。
例如:输入手语视频V(为了清晰说明,这里以一个样本为例),然后对视频V均匀采样,每隔32帧抓取一个16帧的片段。采样的片段集是U={c1,c2,...,cm},其中ci是一个16帧的片段;使用16帧的时间窗口,以4帧的步幅对V进行密集采样,密集的片段集合表示为D={c1,c2,...,cn};让关键片段集K=U;利用关键片段K训练分层时间注意力网络,评估分层时间注意力网络的准确性。如果精度相对前一次迭代没有提高,则退出算法;使用经过训练的分层时间注意力网络来生成片段集合D的特征F=[f1,f2,...,fn];基于F,利用关键片段挖掘模块生成关键片段的索引;根据索引,选择关键片段,然后返回利用关键片段K训练分层时间注意力网络,最后输出分层时间注意力网络的参数。
本申请实施例所述的关键片段选择与动作识别中的关键片段选择方法不同,手语识别中的关键片段选择不仅关注具有代表性的片段是否出现在视频中,更注重于片段序列的语义顺序。因此,手语识别中关键片段选择的主要目标是去除诸如静音帧,过渡运动之类的冗余。受低秩逼近方法的启发,本申请实施例采用在线筛选算法的变体来自动确定关键片段。
基本思想是计算先前片段和当前片段之间特征的残差平方和(Residual Sum ofSquare,RSS)∈。如果当前片段的特征可以通过先前选择的片段的特征的线性组合来表示,并且只有很小的残差,则当前片段被认为是无意义的,因此是冗余的。
本申请实施例提出的均衡策略只涉及当前片段与其之前的P个片段之间的计算,其中P经验地预先确定。给定密集采样片段的视频特征流F=[f1,f2,...,fn],将fc定义为当前片段的特征,将E=[fc-p,...,fc-2,fc-1]定义为由之前的P个片段特征组成的递增扩展矩阵。目标是使当前帧特征的∈最小化,∈=(fc-Eβ)T(fc-Eβ)其中系数β需要通过搜索以使RSS最小化。β的唯一解是:β=(ETE)-1ETfc(公式1),获得关键片段的直接方法是设置阈值
Figure GDA0001830540360000061
并选择具有较高∈的片段。
如图3所示,为本申请公开的一种手语识别方法实施例3的方法流程图,所述方法可以包括以下步骤:
S301、获取待识别手语视频;
当需要对手语进行识别时,首先获取需要进行手语识别的手语视频,即获取待识别的手语视频。
S302、对待识别手语视频进行关键片段选择;
当获取到待识别手语视频后,对获取到的手语视频进行关键片段选择。通过关键片段选择,去除了手语视频序列的冗余性。具体的,在对识别手语视频进行关键片段选择时可以采用如图2所示的方法,具体可参数上述实施例2,在此不再赘述。
S303、基于3D卷积神经网络和递归神经网络对所述关键片段进行处理,输出手语语义词汇。
本申请实施例所提出的分层时间注意力网络由两部分组成,包括一系列定制的3D卷积神经网络和扩展的递归神经网络,神经网络用于时空特征提取和分类。这些3D卷积神经网络包含沿时间维度方向上的权重因子,用于帧间的短期注意力;而递归神经网络则通过注意力池化进行扩展,以便生成片段间的长期注意力。
在关键片段挖掘之后,每个关键片段(具有固定的16帧)由3D卷积神经网络处理,并且所获得的片段表征被聚合并馈送到递归神经网络中以构建单个视频特征。时间注意力在3D卷积神经网络和后来的经常性神经网络阶段都得到强化,从而促成了分层的双层结构。
其中,短期注意力机制的目的是在片段表征生成阶段强调短片段内主导视觉刺激的那些帧。片段的语义信息通常可以由几个关键帧来表征,例如,举手姿势可以仅用3帧来确定:手在底部,手移动过程中的模糊影像,手在顶部。不同于简单地对所有帧进行均值池化,短期注意力机制在三维卷积神经网络架构中有目的地强调语义丰富的帧。
3D卷积神经网络是一种用于人体动作识别的特征提取器,本申请实施例提出通过沿时间深度维度的加权因子引入短期注意力。设
Figure GDA0001830540360000072
是由给定层产生的特征图,其中c,d,h,w分别表示帧的通道数量,时间深度,高度和宽度。采用平均池化来消去高度和宽度尺寸并获得深度的特征,V=[v1,v2,...,vd],
Figure GDA0001830540360000071
(公式2),其中vi表示第i时间深度特征。定义短期注意力a为,a=tanh(VTWf+bf)(公式3),α=softmax(aWi+bi)(公式4),其中
Figure GDA0001830540360000081
是以维数k获得隐藏层的表征V的矩阵。
Figure GDA0001830540360000082
Figure GDA0001830540360000083
映射到d维空间。
Figure GDA0001830540360000084
bi∈R是模型偏置。
其中,给定由3D卷积神经网络产生的片段表征,递归神经网络负责构建视频特征和最终分类。典型分类策略是基于均值池化聚合片段序列的特征和然后用SVM分类。然而,均值池化不可避免地忽略了所有时间信息并导致信息的损失。一种改进的方法是利用递归神经网络对序列信息进行编码并用线性softmax层进行分类。注意池化是第二种技术的延伸,它将注意力机制融入递归神经网络。本申请实施例提出了长期注意力意识的均值池化,输入是由注意力3D卷积神经网络提取的片段表征,输入表示为X=[x1,x2,...,xT],
Figure GDA0001830540360000085
其中q是由三维卷积神经网络获得的片段的特征维度。均值池化用于估计长期注意力信号
Figure GDA00018305403600000823
同时,双向LSTM用于构建基于局部的表征,
Figure GDA0001830540360000086
t∈[1,T](公式5),
Figure GDA0001830540360000087
t∈[T,1](公式6)其中
Figure GDA0001830540360000088
表示正向LSTM函数,从1到T读取片段特征xt的,并且
Figure GDA0001830540360000089
表示反向LSTM,从T时刻读取到1。LSTM的隐藏维度被设置为
Figure GDA00018305403600000810
所以
Figure GDA00018305403600000811
随后把前向隐藏状态
Figure GDA00018305403600000812
和后向隐藏状态
Figure GDA00018305403600000813
连接在一起,比如:
Figure GDA00018305403600000814
作为给定片段xt的基于本地/上下文的表征。有了这些,长期的注意力计算如下,
Figure GDA00018305403600000815
(公式7),
Figure GDA00018305403600000816
(公式8)。公式7和公式8的直观解释如下,片段的语义重要性是通过计算ht与信号向量
Figure GDA00018305403600000817
之间的相似度,并且可以通过softmax函数来获得归一化重要性权重αt。最后,视频的表征
Figure GDA00018305403600000818
可以通过公式8中的加权和来计算。视频的表征
Figure GDA00018305403600000819
用作手语识别的分类特征:
Figure GDA00018305403600000820
(公式9),其中,
Figure GDA00018305403600000821
并且c是类别的个数。正确标签的负对数似然值用于训练损失,
Figure GDA00018305403600000822
(公式10),其中,j是视频v的正确标签。
另外,虽然分层时间注意力网络可以接受可变长度的片段作为输入,但本申请实施例在训练阶段固定了片段的长度。因为本申请实施例应用Adam优化器来批量训练带网络。它需要固定大小的输入,所以将片段长度设置为16帧。注意力感知的三维卷积神经网络是基于3D卷积神经网络实现的,网络由8个卷积层,5个最大池化层和一个完全连接层组成。在分层时间注意力网络中,全连接层被视为片段的表征,并直接连接到基于注意力池化的递归神经网络。
网络输入是一个16×227×227片段(16帧作为每个片段的长度,每帧剪切并调整为大小227×227)。在时间长度为8的最后一个卷积层(conv5b)后添加注意力层。注意力层通过加权求和将长度维度从8减少到1。将帧级注意k的隐藏维数设为512。由于第一个完全连接的网络层大小是4096,而递归神经网络隐藏层的维数必须是片段特征维度的一半,所以是2048。
综上所述,本申请实施例通过关键片段选择去除了视频序列中的冗余信息,主要是过渡动作和静止帧,减少了不相关信息对后续模块的干扰,提升了模型的鲁棒性和识别率。分层时间注意力网络利用了手语动作的结构信息,即先对连续的视频帧构成基本动作,基本动作组合成具有语义的词汇。分层时间注意力网络还融入了注意力机制,在生成片段表征的过程中考虑了不同帧的贡献,在生成视频表征的过程中考虑了不同片段的重要性。以上几个方面来自于对手语视频的观察,符合手语动作的特性,即信息分布在序列中关键的几个片段,同时表示基础动作的片段在不同的语义词汇类别中显著性各有侧重。
如图4所示,为本申请公开的一种手语识别系统实施例1的结构示意图,本申请的框架由两部分组成:关键片段选择和分层时间注意力网络,关键片段选择旨在从手语视频中识别关键片段,分层时间注意力网络基于关键片段的筛选结果,为关键片段生成特征向量并随后执行分类,其中,特征生成集成了帧级短期注意力和片段级长期注意力,具体的,所述系统可以包括:
获取模块401,用于获取待识别手语视频;
当需要对手语进行识别时,首先获取需要进行手语识别的手语视频,即获取待识别的手语视频。
选择模块402,用于对待识别手语视频进行关键片段选择;
当获取到待识别手语视频后,对获取到的手语视频进行关键片段选择。通过关键片段选择,去除了手语视频序列的冗余性。
处理模块403,用于通过分层时间注意力网络为关键片段生成特征向量并执行分类,输出手语语义词汇。
然后通过关键片选的选择结果,建立分层的时间注意力网络。该分层时间注意力网络结合了手语视频的结构信息,即第一层学习片段的表征,第二层学习整个视频的表征。同时在该过程中融入了注意力机制,考虑了不同时刻信息的不同重要性。
综上所述,在上述实施例中,当需要进行手语识别时,首先获取待识别手语视频,然后对待识别手语视频进行关键片段选择,通过分层时间注意力网络为关键片段生成特征向量并执行分类,输出手语语义词汇。本申请通过采用关键片段选择以及分层时间注意力网络,能够更加准确的对手语手势进行识别,使得输出的语义词汇更加准确。
具体的,在上述实施例中,选择模块对待识别手语视频进行关键片段选择的其中一种实现方式如图5所示,可以包括:
均匀采样单元501,用于对采样手语视频进行均匀采样,获得均匀采样的片段;
密集采样单元502,用于对采样手语视频进行密集采样,获得密集采样的片段;
训练单元503,用于将均匀采样的片段作为分层时间注意力网络训练的初始关键片段,基于初始关键片段训练分层时间注意力网络;
生成单元504,用于通过训练后的分层时间注意力网络从密集采样的片段中生成特征;
选取单元505,用于基于特征,通过关键片段挖掘模型从所述密集采样的片段中选取关键片段。
选择最佳关键片段需要理想的神经网络特征提取器,但是相对地,神经网络特征提取器依赖于理想的训练样本,即正确选择最佳的关键片段。两个目标相互依赖,因此采用交替优化求解问题,如采用类最大期望估计算法交替优化的框架。首先用均匀采样的片段作为分层时间注意力网络训练的初始关键片段,启动类期望最大化算法(EM-style)的循环。然后使用训练的分层时间注意力网络从密集采样的片段中生成特征。之后,通过这些特征,关键片段挖掘模型会从密集采样的片段中选取关键片段。这些新选择的关键片段有助于在下一次迭代中改进分层时间注意力网络。
一般来说,片段应具有可变长度以适应不同的手语动作的速度。然而,为了方便训练基于小批量(mini-bath)的分层时间注意力网络。本申请实施例将输入片段的长度固定为16帧,其长度通常足以表示一个基本动作。
例如:输入手语视频V(为了清晰说明,这里以一个样本为例),然后对视频V均匀采样,每隔32帧抓取一个16帧的片段。采样的片段集是U={c1,c2,...,cm},其中ci是一个16帧的片段;使用16帧的时间窗口,以4帧的步幅对V进行密集采样,密集的片段集合表示为D={c1,c2,...,cn};让关键片段集K=U;利用关键片段K训练分层时间注意力网络,评估分层时间注意力网络的准确性。如果精度相对前一次迭代没有提高,则退出算法;使用经过训练的分层时间注意力网络来生成片段集合D的特征F=[f1,f2,...,fn];基于F,利用关键片段挖掘模块生成关键片段的索引;根据索引,选择关键片段,然后返回利用关键片段K训练分层时间注意力网络,最后输出分层时间注意力网络的参数。
本申请实施例所述的关键片段选择与动作识别中的关键片段选择方法不同,手语识别中的关键片段选择不仅关注具有代表性的片段是否出现在视频中,更注重于片段序列的语义顺序。因此,手语识别中关键片段选择的主要目标是去除诸如静音帧,过渡运动之类的冗余。受低秩逼近方法的启发,本申请实施例采用在线筛选算法的变体来自动确定关键片段。
基本思想是计算先前片段和当前片段之间特征的残差平方和(Residual Sum ofSquare,RSS)∈。。如果当前片段的特征可以通过先前选择的片段的特征的线性组合来表示,并且只有很小的残差,则当前片段被认为是无意义的,因此是冗余的。
本申请实施例提出的均衡策略只涉及当前片段与其之前的P个片段之间的计算,其中P经验地预先确定。给定密集采样片段的视频特征流F=[f1,f2,...,fn],将fc定义为当前片段的特征,将E=[fc-p,...,fc-2,fc-1]定义为由之前的P个片段特征组成的递增扩展矩阵。目标是使当前帧特征的∈最小化,∈=(fc-Eβ)T(fc-Eβ),其中系数β需要通过搜索以使RSS最小化。β的唯一解是:β=(ETE)-1ETfc(公式1),获得关键片段的直接方法是设置阈值
Figure GDA0001830540360000121
并选择具有较高∈的片段。
如图6所示,为本申请公开的一种手语识别系统实施例6的结构示意图,所述系统可以包括:
获取模块601,用于获取待识别手语视频;
当需要对手语进行识别时,首先获取需要进行手语识别的手语视频,即获取待识别的手语视频。
选择模块602,用于对待识别手语视频进行关键片段选择;
当获取到待识别手语视频后,对获取到的手语视频进行关键片段选择。通过关键片段选择,去除了手语视频序列的冗余性。具体的,在对识别手语视频进行关键片段选择时可以采用如图5所示的方法,具体可参考上述系统实施例2,在此不再赘述。
处理模块603,用于基于3D卷积神经网络和递归神经网络对所述关键片段进行处理,输出手语语义词汇。
本申请实施例所提出的分层时间注意力网络由两部分组成,包括一系列定制的3D卷积神经网络和扩展的递归神经网络,神经网络用于时空特征提取和分类。这些3D卷积神经网络包含沿时间维度方向上的权重因子,用于帧间的短期注意力;而递归神经网络则通过注意力池化进行扩展,以便生成片段间的长期注意力。
在关键片段挖掘之后,每个关键片段(具有固定的16帧)由3D卷积神经网络处理,并且所获得的片段表征被聚合并馈送到递归神经网络中以构建单个视频特征。时间注意力在3D卷积神经网络和后来的经常性神经网络阶段都得到强化,从而促成了分层的双层结构。
其中,短期注意力机制的目的是在片段表征生成阶段强调短片段内主导视觉刺激的那些帧。片段的语义信息通常可以由几个关键帧来表征,例如,举手姿势可以仅用3帧来确定:手在底部,手移动过程中的模糊影像,手在顶部。不同于简单地对所有帧进行均值池化,短期注意力机制在三维卷积神经网络架构中有目的地强调语义丰富的帧。
3D卷积神经网络是一种用于人体动作识别的特征提取器,本申请实施例提出通过沿时间深度维度的加权因子引入短期注意力。设
Figure GDA0001830540360000131
是由给定层产生的特征图,其中c,d,h,w分别表示帧的通道数量,时间深度,高度和宽度。采用平均池化来消去高度和宽度尺寸并获得深度的特征,V=[v1,v2,...,vd],
Figure GDA0001830540360000132
(公式2),其中vi表示第i时间深度特征。定义短期注意力a为,a=tanh(VTWf+bf)(公式3),α=softmax(aWi+bi)(公式4),其中
Figure GDA0001830540360000133
是以维数k获得隐藏层的表征V的矩阵。
Figure GDA0001830540360000134
Figure GDA0001830540360000135
映射到d维空间。
Figure GDA0001830540360000136
bi∈R是模型偏置。
其中,给定由3D卷积神经网络产生的片段表征,递归神经网络负责构建视频特征和最终分类。典型分类策略是基于均值池化聚合片段序列的特征和然后用SVM分类。然而,均值池化不可避免地忽略了所有时间信息并导致信息的损失。一种改进的方法是利用递归神经网络对序列信息进行编码并用线性softmax层进行分类。注意池化是第二种技术的延伸,它将注意力机制融入递归神经网络。本申请实施例提出了长期注意力意识的均值池化,输入是由注意力3D卷积神经网络提取的片段表征,输入表示为X=[x1,x2,...,xT],
Figure GDA0001830540360000137
其中q是由三维卷积神经网络获得的片段的特征维度。均值池化用于估计长期注意力信号
Figure GDA00018305403600001418
同时,双向LSTM用于构建基于局部的表征,
Figure GDA0001830540360000141
t∈[1,T](公式5),
Figure GDA0001830540360000142
t∈[T,1](公式6)其中
Figure GDA0001830540360000143
表示正向LSTM函数,从1到T读取片段特征xt的,并且
Figure GDA0001830540360000144
表示反向LSTM,从T时刻读取到1。LSTM的隐藏维度被设置为
Figure GDA0001830540360000145
所以
Figure GDA0001830540360000146
随后把前向隐藏状态
Figure GDA0001830540360000147
和后向隐藏状态
Figure GDA0001830540360000148
连接在一起,比如:
Figure GDA0001830540360000149
作为给定片段xt的基于本地/上下文的表征。有了这些,长期的注意力计算如下,
Figure GDA00018305403600001410
(公式7),
Figure GDA00018305403600001411
(公式8)。公式7和公式8的直观解释如下,片段的语义重要性是通过计算ht与信号向量
Figure GDA00018305403600001412
之间的相似度,并且可以通过softmax函数来获得归一化重要性权重αt。最后,视频的表征
Figure GDA00018305403600001413
可以通过公式8中的加权和来计算。视频的表征
Figure GDA00018305403600001414
用作手语识别的分类特征:
Figure GDA00018305403600001415
(公式9),其中,
Figure GDA00018305403600001416
并且c是类别的个数。正确标签的负对数似然值用于训练损失,
Figure GDA00018305403600001417
(公式10),其中,j是视频v的正确标签。
另外,虽然分层时间注意力网络可以接受可变长度的片段作为输入,但本申请实施例在训练阶段固定了片段的长度。因为本申请实施例应用Adam优化器来批量训练带网络。它需要固定大小的输入,所以将片段长度设置为16帧。注意力感知的三维卷积神经网络是基于3D卷积神经网络实现的,网络由8个卷积层,5个最大池化层和一个完全连接层组成。在分层时间注意力网络中,全连接层被视为片段的表征,并直接连接到基于注意力池化的递归神经网络。
网络输入是一个16×227×227片段(16帧作为每个片段的长度,每帧剪切并调整为大小227×227)。在时间长度为8的最后一个卷积层(conv5b)后添加注意力层。注意力层通过加权求和将长度维度从8减少到1。将帧级注意k的隐藏维数设为512。由于第一个完全连接的网络层大小是4096,而递归神经网络隐藏层的维数必须是片段特征维度的一半,所以是2048。
综上所述,本申请实施例通过关键片段选择去除了视频序列中的冗余信息,主要是过渡动作和静止帧,减少了不相关信息对后续模块的干扰,提升了模型的鲁棒性和识别率。分层时间注意力网络利用了手语动作的结构信息,即先对连续的视频帧构成基本动作,基本动作组合成具有语义的词汇。分层时间注意力网络还融入了注意力机制,在生成片段表征的过程中考虑了不同帧的贡献,在生成视频表征的过程中考虑了不同片段的重要性。以上几个方面来自于对手语视频的观察,符合手语动作的特性,即信息分布在序列中关键的几个片段,同时表示基础动作的片段在不同的语义词汇类别中显著性各有侧重。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种手语识别方法,其特征在于,所述方法包括:
获取待识别手语视频;
对所述待识别手语视频进行关键片段选择;
通过分层时间注意力网络为所述关键片段生成特征向量并执行分类,输出手语语义词汇,其中,所述分层时间注意力网络由3D卷积神经网络和递归神经网络组成;
对所述待识别手语视频进行关键片段选择包括:
对采样手语视频进行均匀采样,获得均匀采样的片段;
对所述采样手语视频进行密集采样,获得密集采样的片段;
将所述均匀采样的片段作为分层时间注意力网络训练的初始关键片段,基于所述初始关键片段训练分层时间注意力网络;
通过训练后的分层时间注意力网络从所述密集采样的片段中生成特征;
基于所述特征,通过关键片段挖掘模型从所述密集采样的片段中选取关键片段。
2.根据权利要求1所述的方法,其特征在于,所述关键片段的长度为16帧。
3.一种手语识别识别系统,其特征在于,包括:
获取模块,用于获取待识别手语视频;
选择模块,用于对所述待识别手语视频进行关键片段选择;
处理模块,用于通过分层时间注意力网络为所述关键片段生成特征向量并执行分类,输出手语语义词汇,其中,所述分层时间注意力网络由3D卷积神经网络和递归神经网络组成;
所述选择模块包括:
均匀采样单元,用于对采样手语视频进行均匀采样,获得均匀采样的片段;
密集采样单元,用于对所述采样手语视频进行密集采样,获得密集采样的片段;
训练单元,用于将所述均匀采样的片段作为分层时间注意力网络训练的初始关键片段,基于所述初始关键片段训练分层时间注意力网络;
生成单元,用于通过训练后的分层时间注意力网络从所述密集采样的片段中生成特征;
选取单元,用于基于所述特征,通过关键片段挖掘模型从所述密集采样的片段中选取关键片段。
4.根据权利要求3所述的系统,其特征在于,所述关键片段的长度为16帧。
CN201810802950.4A 2018-07-20 2018-07-20 一种手语识别方法及系统 Active CN109063615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810802950.4A CN109063615B (zh) 2018-07-20 2018-07-20 一种手语识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810802950.4A CN109063615B (zh) 2018-07-20 2018-07-20 一种手语识别方法及系统

Publications (2)

Publication Number Publication Date
CN109063615A CN109063615A (zh) 2018-12-21
CN109063615B true CN109063615B (zh) 2021-03-09

Family

ID=64817786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810802950.4A Active CN109063615B (zh) 2018-07-20 2018-07-20 一种手语识别方法及系统

Country Status (1)

Country Link
CN (1) CN109063615B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382599A (zh) * 2018-12-27 2020-07-07 北京搜狗科技发展有限公司 一种图像处理方法、装置和电子设备
CN110163181B (zh) * 2019-05-29 2021-07-06 中国科学技术大学 手语识别方法及装置
CN110210416B (zh) * 2019-06-05 2021-10-01 中国科学技术大学 基于动态伪标签解码的手语识别系统优化方法及装置
CN110309761A (zh) * 2019-06-26 2019-10-08 深圳市微纳集成电路与系统应用研究院 基于具有门限循环单元的三维卷积神经网络的连续性手势识别方法
CN110348420B (zh) * 2019-07-18 2022-03-18 腾讯科技(深圳)有限公司 手语识别方法、装置、计算机可读存储介质和计算机设备
CN110399850B (zh) * 2019-07-30 2021-10-15 西安工业大学 一种基于深度神经网络的连续手语识别方法
CN112347826B (zh) * 2019-08-09 2024-02-27 中国科学技术大学 一种基于强化学习的视频连续手语识别方法及系统
CN110826429A (zh) * 2019-10-22 2020-02-21 北京邮电大学 一种基于景区视频的旅游突发事件自动监测的方法及系统
CN111091045B (zh) * 2019-10-25 2022-08-23 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111913575B (zh) * 2020-07-24 2021-06-11 合肥工业大学 一种手语词的识别方法
CN113239835B (zh) * 2021-05-20 2022-07-15 中国科学技术大学 模型感知的手势迁移方法
CN113449148B (zh) * 2021-06-24 2023-10-20 北京百度网讯科技有限公司 视频分类方法、装置、电子设备及存储介质
CN114708648A (zh) * 2022-03-07 2022-07-05 杭州易视通科技有限公司 基于人工智能的手语识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527092A (zh) * 2009-04-08 2009-09-09 西安理工大学 特定会话场景下的计算机辅助手语交流方法
CN106610969A (zh) * 2015-10-21 2017-05-03 上海文广互动电视有限公司 基于多模态信息的视频内容审查系统及方法
WO2017113028A1 (es) * 2015-12-30 2017-07-06 Universidad De Santiago De Chile Sistema y método de comunicación a través de luz visible para túneles subterráneos
CN107679491A (zh) * 2017-09-29 2018-02-09 华中师范大学 一种融合多模态数据的3d卷积神经网络手语识别方法
CN107742095A (zh) * 2017-09-23 2018-02-27 天津大学 基于卷积神经网络的汉语手语识别方法
CN108171198A (zh) * 2018-01-11 2018-06-15 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527092A (zh) * 2009-04-08 2009-09-09 西安理工大学 特定会话场景下的计算机辅助手语交流方法
CN106610969A (zh) * 2015-10-21 2017-05-03 上海文广互动电视有限公司 基于多模态信息的视频内容审查系统及方法
WO2017113028A1 (es) * 2015-12-30 2017-07-06 Universidad De Santiago De Chile Sistema y método de comunicación a través de luz visible para túneles subterráneos
CN107742095A (zh) * 2017-09-23 2018-02-27 天津大学 基于卷积神经网络的汉语手语识别方法
CN107679491A (zh) * 2017-09-29 2018-02-09 华中师范大学 一种融合多模态数据的3d卷积神经网络手语识别方法
CN108171198A (zh) * 2018-01-11 2018-06-15 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Key Volume Mining Deep Framework for Action Recognition;Wangjiang Zhu 等;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20161231;第1991-1999页 *
A Novel Chinese Sign Language Recognition Method Based on Keyframe-Centered Clips;Shiliang Huang 等;《IEEE SIGNAL PROCESSING LETTERS》;20180331;第25卷(第3期);第442-446页第1-3节 *
Video-based Sign Language Recognition without Temporal Segmentation;Jie Huang 等;《arXiv:1801.10111v1》;20180130;第1-8页 *
基于卷积递归神经网络的手语识别方法研究;杨肃;《中国优秀硕士学位论文全文数据库-信息科技辑》;20180715(第7期);第I138-1681页第5节 *
基于视频流的人体行为识别方法研究;迟元峰;《中国优秀硕士学位论文全文数据库-信息科技辑》;20180215(第2期);第I138-2374页 *

Also Published As

Publication number Publication date
CN109063615A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109063615B (zh) 一种手语识别方法及系统
CN107679465B (zh) 一种基于生成网络的行人重识别数据生成和扩充方法
CN107679491B (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN108596958B (zh) 一种基于困难正样本生成的目标跟踪方法
CN110399850B (zh) 一种基于深度神经网络的连续手语识别方法
US20170127016A1 (en) Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN111931736B (zh) 利用非自回归模型与整合放电技术的唇语识别方法、系统
CN109948721B (zh) 一种基于视频描述的视频场景分类方法
CN113673346B (zh) 一种基于多尺度SE-Resnet的电机振动数据处理与状态识别方法
CN108320306B (zh) 融合tld和kcf的视频目标跟踪方法
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
CN113850162B (zh) 一种视频审核方法、装置及电子设备
CN110619264B (zh) 基于UNet++的微地震有效信号识别方法及装置
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN109740057B (zh) 一种基于知识萃取的增强神经网络及信息推荐方法
CN113158861B (zh) 一种基于原型对比学习的运动分析方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN111340005A (zh) 一种手语识别方法和系统
CN111507215A (zh) 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Yuan et al. Gradient-based active learning query strategy for end-to-end speech recognition
Fang From dynamic time warping (DTW) to hidden markov model (HMM)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant