CN111340006A - 一种手语识别方法及系统 - Google Patents

一种手语识别方法及系统 Download PDF

Info

Publication number
CN111340006A
CN111340006A CN202010302012.5A CN202010302012A CN111340006A CN 111340006 A CN111340006 A CN 111340006A CN 202010302012 A CN202010302012 A CN 202010302012A CN 111340006 A CN111340006 A CN 111340006A
Authority
CN
China
Prior art keywords
sign language
video
preset
long
term memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010302012.5A
Other languages
English (en)
Inventor
冯伟
高丽清
刘国重
廖启波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Kanghongtai Technology Co ltd
Original Assignee
Shenzhen Kanghongtai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Kanghongtai Technology Co ltd filed Critical Shenzhen Kanghongtai Technology Co ltd
Priority to CN202010302012.5A priority Critical patent/CN111340006A/zh
Publication of CN111340006A publication Critical patent/CN111340006A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明实施例提供了一种手语识别方法及系统,其中一种手语识别方法,包括:采集目标区域内的手语视频;利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。有效地提高了手语识别在实际应用中的鲁棒性,降低了翻译句子的歧义,使识别后的结果更加符合真实语言的习惯,支持任意长度手语视频的识别。

Description

一种手语识别方法及系统
技术领域
本发明涉及数据处理技术领域,特别是涉及一种手语识别方法和一种手语识别系统。
背景技术
手语是聋哑人士交流的主要工具,对于大多数没有系统学习这门视觉语言的人来说,掌握这门语言并用于交流是十分困难的。为了促进聋哑人士与社会及他人交流,发明基于视频的手语识别技术是必要的也是刻不容缓的。根据识别的难度及视频的长度,可以将手语识别分为单词级别的识别和句子级别的识别。对于单词级别的手语识别,是将手语视频转化为一个单词类别,所以这个任务又可以看作是分类任务。不同于单词级的手语识别,句子级的手语识别是将一个视频翻译为一句话,这是连续的两个序列映射的过程,在识别上过程较为复杂,难度较大。
目前,已经有很多工作者致力于研究句子级手语识别,并出现了很多成熟的方法。按照两个序列的对齐方式划分,可以将连续手语识别分为两个:基于软对齐的手语识别方法和基于硬对齐的手语识别方法。软对齐方式是在潜在空间隐式地实现两个序列的对齐,大多数软对齐方式采用编码-解码 (encoder-decoder)的模型来把视频特征编码为高维向量然后再解码为视频对应的句子。但是这样的对齐方式针对较长手语视频识别效果有所下降,且在实际使用中对于复杂的背景不具有鲁棒性。硬对齐方式是对两个序列进行显式地对齐的过程,最早的硬对齐方式是基于隐马尔科夫和隐条件随机场来对帧级标注的序列进行对齐,这种方式需要耗费大量的人力,属于强监督学习。为了节省标注的时间和人力,随后出现了基于联结时间分类(CTC)的序列对齐方式。通过最大化所有可能路径的过程,来实现两个序列的拟合。由于CTC只能在每个位置预测一个标签,且预测输出之间独立的特性,无法处理任意长度的序列的对齐问题,也无法建模输出之间的依赖关系。然而,在实际使用中,手语视频的长度不固定,对应句子的复杂性也不确定。如果只能建模固定长度序列的映射关系,则无法满足实际使用需求。基于以上原因,本文提出基于分层的视觉特征与单词序列建模的手语识别方法,该方法引入循环神经网络转换器,可以实现任意长度输入、输出序列之间的对齐,同时可以提取输出单词之间的上下文关系,使每个输出具有依赖性。手语是聋哑人士之间交流的主要工具,手语识别具有复杂性和多变性的特点,因此对于没有系统学习过手语的人群,学习手语具有一定难度。为了促进聋哑人士与社会的有效交流,基于视觉的手语技术发明是至关重要的。根据手语视频识别的特性,将手语识别分为两种:孤立手语识别技术和连续手语识别技术。对于孤立手语识别,该视频仅包含一个手语词,因此这类问题可以看做分类问题。在连续手语识别中,一个视频是对应一句话的,因此不能把它简单地看成识别问题,这是连续的两个序列之间的映射的过程,在识别任务上过程较为复杂。在评价指标上,也不能按照孤立手语识别中准确率来进行评价。
目前,已经有很多学者致力于连续手语识别的研究中,并且形成了很多成熟的方法。这些方法整分为两大部分:基于软对齐的手语识别方法和基于硬对齐的手语识别方法。早期的基于硬对齐的手语识别方法主要使用隐马尔可夫模型或者条件随机场。这种需要人为事先对视频的所有帧进行标注,该方法工作量特别繁重。
为了节省标注的人力、物力和财力,随后出现了基于链接时间分类 (CTC,Connectionist Temporal Classification)的硬对齐方式,这种方式不需要事先对视频的每一帧进行标注,只需要标注当前视频对应的文本。CTC算法会最大化所有可能的路径,来实现两个序列之间的对齐拟合。但是CTC 算法会有两个缺点,这两点在手语识别中是不能被忽视的。第一,CTC算法假设输出与输出之间是相互独立的,即“我的爸爸是老师”中,“我的”和“爸爸”之间是相互独立的。但是这个在实际情况中是不成立的。第二,CTC算法不能解决输入长度比输出长度短的情况,因为CTC算法在每一个时刻只能预测一个单词,但是在实际使用中,手语视频的长度是不固定的,有可能存在手语视频帧比对应文本词数多的情况,但是这种红情况下CTC算法是不能解决的。基于软对齐的手语识别方法,是在一个潜空间中来建模两序列之间的对齐关系。软对齐方式主要使用了编码器-解码器(encoder-decoder)结构把视频编码成为高维的特征表示,然后将高维特征作为解码器的输入,进行解码得到对应文本。避免了CTC算法中输出与输出之间相互独立和源序列长度必须小于目标序列长度的不合理假设。该模型可以建模任意长度的输入序列与输出序列之间的对应关系。但是,编码器-解码器结构对于较长的手语视频识别来讲,精度会有所下降。经过分析可得,将较长的视频编码成为一个固定长度的特征向量并进行依次解码,该特征向量不能很好地表示视频的信息。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种手语识别方法和相应的一种手语识别系统。
为了解决上述问题,本发明实施例公开了一种手语识别方法,包括:
采集目标区域内的手语视频;
利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;
将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。
进一步地,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤之前,包括:
将所述手语视频转化成图像帧;
将所述图像帧中的静止帧去除,并按预设裁切规则处理,得到特征帧。
进一步地,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤,包括:
采用残差网络提取所述特征帧中的图像特征;
采用分层长短期记忆网络逐层提取所述图像特征中的关键帧。
进一步地,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤,还包括:
采用预设单向长短时记忆网络对所述手语视频对应的句子进行单词建模,得到单词之间的依赖关系和上下文语义关系。
本发明实施例公开了一种手语识别系统,包括:
视频采集模块,用于采集目标区域内的手语视频;
特征提取模块,用于利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;
序列对其模块,用于将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。
进一步地,还包括:
转化模块,用于将所述手语视频转化成图像帧;
图像处理模块,用于将所述图像帧中的静止帧去除,并按预设裁切规则处理,得到特征帧。
进一步地,所述特征提取模块包括:
视频特征表示单元,用于采用残差网络提取所述特征帧中的图像特征;
文本特征提取单元,用于采用分层长短期记忆网络逐层提取所述图像特征中的关键帧。
进一步地,所述特征提取模块还包括:
映射单元,用于采用预设单向长短时记忆网络对所述手语视频对应的句子进行单词建模,得到单词之间的依赖关系和上下文语义关系。
本发明实施例公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的手语识别方法的步骤。
本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的手语识别方法的步骤。
本发明实施例包括以下优点:提供了一种基于分层的视觉特征与单词序列建模的手语识别方法,利用卷积神经网络提取视频的外观特征,利用多层双向长短时记忆网络分层次地建模视频特征的时序关系,采用单向长短时记忆网络提取文本的上下文特征,最后将视频特征与文本特征在隐空间建立联系,并输入到循环神经网络转换器中寻找两个序列的映射关系,拟合最优路径。有效地提高了手语识别在实际应用中的鲁棒性,降低了翻译句子的歧义,使识别后的结果更加符合真实语言的习惯,支持任意长度手语视频的识别。
附图说明
图1是本发明的一种手语识别方法实施例的步骤流程图;
图2是本发明的一种手语识别系统实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,提供了一种手语识别方法及系统,其中一种手语识别方法,包括:采集目标区域内的手语视频;利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。利用卷积神经网络提取视频的外观特征,利用多层双向长短时记忆网络分层次地建模视频特征的时序关系,采用单向长短时记忆网络提取文本的上下文特征,最后将视频特征与文本特征在隐空间建立联系,并输入到循环神经网络转换器中寻找两个序列的映射关系,拟合最优路径。有效地提高了手语识别在实际应用中的鲁棒性,降低了翻译句子的歧义,使识别后的结果更加符合真实语言的习惯,支持任意长度手语视频的识别。
参照图1,示出了本发明的一种手语识别方法实施例的步骤流程图,具体可以包括如下步骤:
S100,采集目标区域内的手语视频;
S200,利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;
S300,将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。
参照上述步骤S100,采集目标区域内的手语视频,将视频转为帧,并根据动作的开始与结束去掉无效帧,即静止帧,以人为中心对图像进行裁剪,使每张图片的大小为670×630,这样可以去除图像中的空白部分。
选用残差神经网络(ResNet-152)来提取图像特征,将图像逐帧输入到在ImageNet上预训练后的ResNet-152中,可以得到图像的空间视觉特征,用
Figure RE-GDA0002496668840000061
表示视频的图像帧集合,N代表一个视频的帧数。将每一帧输入到ResNet-152网络中,可以得到
Figure RE-GDA0002496668840000062
这里特征向量的维度是2048。
参照上述步骤S200所述,利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征。
在识别手语视频的时候,需要提取视频的语义特征,本申请考虑到手语视频独有的特性,帧组成单词,单词组成短语,短语组成句子,以分层次的原则提取视频的特征表示,更好地获取视频表达的丰富语义信息。具体步骤如下:
(1)手语视频由数十帧到数百帧组成,根据手语表达的意义不同,视频长度会有很大的差距。为了从这些帧中捕获到手语动作,采用两种方式来避免对无效信息的资源浪费,首先去掉每个视频中开始帧和结尾帧,因为这些帧多数是静止帧,不包含手语动作;通常手语视频的分辨率较高,但实际有价值的部分集中于中间位置,因此以人为中心,对图像进行裁剪操作,将分辨率为1020×780的图像裁剪为670×630,这样可以去除图像中的空白部分。
(2)提取视频的空间特征,采用残差神经网络(ResNet-152)来提取图像每一帧的特征,对于有N帧图像的视频,经过ResNet-152网络,可以得到N×2048维的特征向量,即
Figure RE-GDA0002496668840000071
其中,V表示一个视频的特征集合。
(3)设计第一层第一层双向长短期记忆网络(BiLSTM)来进行帧之间的时序建模,由于前面已经提取到了帧的空间特征,接下来对帧进行时间上的建模,可以同时获得视频帧的空间-时间的特征。该网络表示为帧级 BiLSTM,对于同一步输出有两个隐藏状态,即前向
Figure RE-GDA0002496668840000072
和后向
Figure RE-GDA0002496668840000073
将两个状态综合起来即为该时刻的状态表示。将视频的空间特征输入到帧级BiLSTM 中,得到带有时间关系的帧级特征
Figure RE-GDA0002496668840000074
(4)根据多帧可以组成一个单词的特征,采用滑动窗口在帧级BiLSTM 的输出进行滑动,在每个窗口中计算单词的特征表示,且每两个相邻窗口的重复率为50%。本发明将滑动窗口设置为8,即8帧组合一次,将滑窗内的值求均值,即得到此滑窗的结果,
Figure RE-GDA0002496668840000075
这里l为8,
Figure RE-GDA0002496668840000076
为帧级 BiLSTM的输出,经过滑窗操作可以得到词级特征ff
(5)根据多个词组成短语的特性,设计第二层BiLSTM,也称为词级 BiLSTM。该网络的输入为词级特征,将词级特征ff输入到网络中,经过前向计算和后向计算得到网络每一时刻的状态,该计算过程和第一层BiLSTM 相同。通过第二层BiLSTM可以建模词语之间的时序关系。
(6)同样在词级BiLSTM后面利用滑窗进行词语的合成,这里滑窗的长度为4,即4个单词组成一个词语。在滑窗内部计算均值,且滑窗之间的重叠率为50%,则可以得到短语级的特征表示
Figure RE-GDA0002496668840000081
这里l为4。经过该步,得到短语级别的特征,因为手语句子的长度有限,这里设置的划窗长度较小。
(7)将短语级的特征输入到第三层BiLSTM网络中,进行最后的时序建模,经过双向计算可以更好地捕捉短语之间的时序关系。这样经过三层特征的表示,可以把视频中涵盖的空间和时间特征分层次地提取出来,为特征语义的识别提供了更加丰富的信息。
手语识别的目的是将手语视频转化为相应的句子,在该过程中,句子级别的特征表示是至关重要的,不同于其他识别任务,这是一项视觉语言的翻译,要充分提取句子中单词之间的语义关系,建立上下文联系,识别出符合自然语言习惯的文本表达。
(1)根据所有句子中的组成单词,构建词典,词典中单词的个数即为将句子分词后单词的个数,对于不同的数据集词典中单词的种类和个数是不同的。将其中一个手语视频对应的翻译表示为y=(y1,y2,...,yT),表示该语句有T 个单词组成。
(2)将句子中的单词经过独热编码(One-Hot Encoding),该编码又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效向量,也就是把单词进行数字化表示,对于词典中的第N个单词,经过one-hot编码后,在第N 个位置的数字为1,其余位置都为0。因此yt经过编码后变为y′t,该编码只有一位有效位,且词与词之间是独立的。
(3)利用长短期记忆网络(LSTM)建模文本特征的上下文关系,由于 LSTM可以长期的记忆具有时间关系的序列关系,将编码后的文本特征输入到该网络中,可以得到每个时间步对应的输出,即vt=LSTM(yt',ht-1),该输出不仅依赖于当前的输入,还依赖于前一步的状态。这样每一步都受前一步的影响,所以按照时间的推移,后面的输出都包含前面得到的信息,从而能够学习长的依赖关系。
(4)将(3)中得到的结果输入到线性映射层,经过线性变换改变文本特征的维度。将输出统一为固定的维度。
参照上述步骤S300所述,将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。
(1)在前面的步骤中已经得到了视频的特征表示fk和文本特征表示vt,两个序列的映射在基于循环神经网络的转换器中进行,首先将两种序列的特征维度统一为相同的维度,将视频特征表示与文本特征表示连接,即 concat(fk,vt)。
(2)将含有视频特征和文本特征的向量输入到线性层进行线性变换,起到将学到的“分布式特征表示”映射到样本标记空间的作用,由一个特征空间线性变换到另一个特征空间,即对源向量进行加权求和。
(3)在步骤(2)后引入激励函数tanh,这样可以增加网络的非线性,在深层网络中激励函数是非常有必要的,使网络不再是输入的线性组合,而是可以逼近任意函数。
(4)在非线性层使用线性映射层改变特征维度,这里如步骤(2)所示。
(5)将视频特征和文本特征融合后的特征表示输入到基于循环卷积神经网络的转换器中,该转换器可以对任意长度的输入和输出序列实现对齐,找到符合实际使用的路径。利用softmax计算在当前视频特征fk和文本特征vt条件下得到标签γ的概率h(γ,k,t),这里定义包含所有单词和空的词典为Y*
(6)根据概率分布
Figure RE-GDA0002496668840000091
可以找到很多拟合两个序列的路径,对于同一个位置的概率,同时由视频特征和文本特征决定,因此建立视频和文本之间的对应关系。该换换器的最大优势是可以在视频特征的每一步预测多个输出,这样可以解决输入序列长度小于输出序列长度的问题。这在实际使用中是有意义的,因为手语视频的长度会根据手语难度的不同发生很大的变化。
(7)将每个位置的概率相乘得到一条路径的概率P(a|x)=P(γ|k,t),其中a 为得到的拟合路径。
(8)在给定的两个序列中,会得到很多拟合路径,将所有路径的概率相加会得到总概率
Figure RE-GDA0002496668840000101
即在当前的两个序列中,所有对齐路径的集合。
(9)将路径总和取对数,并取负,得到网络的损失函数,通过梯度下降法更新网络的参数,当损失函数趋于稳定时网络性能最佳。
在一具体实施例中,结合具体实例对本发明方法进行可行性验证:
实验使用中国连续手语数据集进行手语识别的验证,该数据集包含100 句日常用语,由50位聋哑人录制,每人录制5遍,整个数据集包含25000 个视频,每个视频对应一句翻译。由于不同手语存在较大差异,不同录制者之间也含有较大区别,将数据集以三种方式划分:(1)按不同的人划分, 40个人作为训练集,10个人作为测试集;(2)34个人作为训练集,12个人作为测试集,4个人作为验证集;(3)按句子进行划分,94句话作为训练集,6句话作为测试集。这样的划分方式可以增强手语识别的鲁棒性。
针对同一数据集,对比本发明方法和已有手语识别方法的性能。对于不同的数据集划分方式,有不同的对比方法和评价指标。本发明主要采用六种评价指标:词错误率(WER):为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比;删除率(del):删除的词的总个数,除以标准的词序列中词的总个数的百分比;插入率(ins):插入的词的总个数,除以标准的词序列中词的总个数的百分比;精确度(precision):识别正确的句子的百分比;词-准确度(acc-w):生成的句子中正确单词与标准单词的比例;准确度(accuracy):1减去词错误率。
根据图2所展示的本方法和已有方法在第一种数据划分和第二种数据划分的结果对比,表明:在第一种划分下,本方法在各项评价指标都达到了最高值;在第二种划分下,本方法的插入率高于其他方法,说明在识别未见过的视频时,需要插入正确的词才能得到标准句子,词精确度低于其中两个方法,但是其他指标均高于现有方法,这充分体现了本方法在手语识别中的优越性和适应性。本方法取得了较高的准确率,进一步说明本发明方法的可行性、先进性和优越性。
本发明在视频特征提取中,由于视频由多帧组成,且手语识别既要考虑视频的空间特征又要考虑视频帧之间的时间特征,所以利用卷积神经网络和长短时记忆神经网络分别建模视频的空间、时间特征;并根据手语构成的特性,帧组成单词,单词组成短语,短语组成句子,设计三层网络模型进行帧、单词与短语的时间建模,网络的长度由长到短逐步变化。通过这个网络模型,有效地获得了视频的空时特征,并从不同级别提取视频的内在联系。
2、本发明在句子特征的提取中,采用长短时记忆神经网络来建模单词之间的上下文关系,获得单词之间的依赖性和文本语义特征。
3、本发明在建模视频特征与文本特征之间的映射关系中,采用循环神经网络转换器来拟合两个序列的对应关系,由于该转换器可以处理视频长度小于句子长度的两个序列的对齐,同时可以建立输出之间的依赖关系,所以在手语识别中可以解决现在常用方法的不足,不受句子长度的限制,获取预测结果的相互依赖性,使输出更加符合语法习惯,提高手语识别率,增强手语识别算法在实际使用中的鲁棒性和普适性。
本发明提供了一种基于分层的视觉特征与单词序列建模的手语识别方法,利用卷积神经网络提取视频的外观特征,利用三层双向长短时记忆网络分层次地建模视频特征的时序关系,采用单向长短时记忆网络提取文本的上下文特征,最后将视频特征与文本特征在隐空间建立联系,并输入到循环神经网络转换器中寻找两个序列的映射关系,拟合最优路径。该研究方法有效地提高了手语识别在实际应用中的鲁棒性,降低了翻译句子的歧义,使识别后的结果更加符合真实语言的习惯,支持任意长度手语视频的识别。
在本实施例中,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤S200之前,包括:
将所述手语视频转化成图像帧;
将所述图像帧中的静止帧去除,并按预设裁切规则处理,得到特征帧。
在本实施例中,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤S200,包括:
采用残差网络提取所述特征帧中的图像特征;
采用分层长短期记忆网络逐层提取所述图像特征中的关键帧。
在本实施例中,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤S200,还包括:
采用预设单向长短时记忆网络对所述手语视频对应的句子进行单词建模,得到单词之间的依赖关系和上下文语义关系。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了本发明的一种手语识别系统实施例的结构框图,具体可以包括如下模块:
视频采集模块100,用于采集目标区域内的手语视频;
特征提取模块200,用于利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;
序列对其模块300,用于将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。
在本实施例中,还包括:
转化模块,用于将所述手语视频转化成图像帧;
图像处理模块,用于将所述图像帧中的静止帧去除,并按预设裁切规则处理,得到特征帧。
在本实施例中,所述特征提取模块200包括:
视频特征表示单元,用于采用残差网络提取所述特征帧中的图像特征;
文本特征提取单,用于采用分层长短期记忆网络逐层提取所述图像特征中的关键帧。
在本实施例中,所述特征提取模块200还包括:
映射单元,用于采用预设单向长短时记忆网络对所述手语视频对应的句子进行单词建模,得到单词之间的依赖关系和上下文语义关系。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的手语识别方法的步骤。
本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的手语识别方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种手语识别方法和一种手语识别系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种手语识别方法,其特征在于,包括:
采集目标区域内的手语视频;
利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;
将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。
2.根据权利要求1所述的方法,其特征在于,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤之前,包括:
将所述手语视频转化成图像帧;
将所述图像帧中的静止帧去除,并按预设裁切规则处理,得到特征帧。
3.根据权利要求2所述的方法,其特征在于,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤,包括:
采用残差网络提取所述特征帧中的图像特征;
采用分层长短期记忆网络逐层提取所述图像特征中的关键帧。
4.根据权利要求2所述的方法,其特征在于,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤,还包括:
采用预设单向长短时记忆网络对所述手语视频对应的句子进行单词建模,得到单词之间的依赖关系和上下文语义关系。
5.一种手语识别系统,其特征在于,包括:
视频采集模块,用于采集目标区域内的手语视频;
特征提取模块,用于利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;
序列对其模块,用于将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。
6.根据权利要求5所述的系统,其特征在于,还包括:
转化模块,用于将所述手语视频转化成图像帧;
图像处理模块,用于将所述图像帧中的静止帧去除,并按预设裁切规则处理,得到特征帧。
7.根据权利要求6所述的系统,其特征在于,所述特征提取模块包括:
视频特征表示单元,用于采用残差网络提取所述特征帧中的图像特征;
文本特征提取单元,用于采用分层长短期记忆网络逐层提取所述图像特征中的关键帧。
8.根据权利要求6所述的系统,其特征在于,所述特征提取模块还包括:
映射单元,用于采用预设单向长短时记忆网络对所述手语视频对应的句子进行单词建模,得到单词之间的依赖关系和上下文语义关系。
9.电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的手语识别方法的步骤。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的手语识别方法的步骤。
CN202010302012.5A 2020-04-16 2020-04-16 一种手语识别方法及系统 Pending CN111340006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010302012.5A CN111340006A (zh) 2020-04-16 2020-04-16 一种手语识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010302012.5A CN111340006A (zh) 2020-04-16 2020-04-16 一种手语识别方法及系统

Publications (1)

Publication Number Publication Date
CN111340006A true CN111340006A (zh) 2020-06-26

Family

ID=71184705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010302012.5A Pending CN111340006A (zh) 2020-04-16 2020-04-16 一种手语识别方法及系统

Country Status (1)

Country Link
CN (1) CN111340006A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797777A (zh) * 2020-07-07 2020-10-20 南京大学 基于时空语义特征的手语识别系统及方法
CN113537024A (zh) * 2021-07-08 2021-10-22 天津理工大学 多层时序注意力融合机制的弱监督神经网络手语识别方法
CN113971837A (zh) * 2021-10-27 2022-01-25 厦门大学 一种基于知识的多模态特征融合的动态图神经手语翻译方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732590A (zh) * 2015-03-09 2015-06-24 北京工业大学 一种手语动画的合成方法
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统
CN106529525A (zh) * 2016-10-14 2017-03-22 上海新同惠自动化系统有限公司 一种中日文手写字符的识别方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109919150A (zh) * 2019-01-23 2019-06-21 浙江理工大学 一种3d压印字符无分割序列识别方法及系统
CN110096987A (zh) * 2019-04-24 2019-08-06 东北大学 一种基于双路3dcnn模型的哑语动作识别方法
CN110163181A (zh) * 2019-05-29 2019-08-23 中国科学技术大学 手语识别方法及装置
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法
CN110263323A (zh) * 2019-05-08 2019-09-20 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110472548A (zh) * 2019-08-08 2019-11-19 中国科学技术大学 一种基于语法分类器的视频连续手语识别方法及系统
US20200005028A1 (en) * 2018-06-28 2020-01-02 Atlassian Pty Ltd Automatic machine recognition of sign language gestures
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732590A (zh) * 2015-03-09 2015-06-24 北京工业大学 一种手语动画的合成方法
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统
CN106529525A (zh) * 2016-10-14 2017-03-22 上海新同惠自动化系统有限公司 一种中日文手写字符的识别方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
US20200005028A1 (en) * 2018-06-28 2020-01-02 Atlassian Pty Ltd Automatic machine recognition of sign language gestures
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法
CN109919150A (zh) * 2019-01-23 2019-06-21 浙江理工大学 一种3d压印字符无分割序列识别方法及系统
CN110096987A (zh) * 2019-04-24 2019-08-06 东北大学 一种基于双路3dcnn模型的哑语动作识别方法
CN110263323A (zh) * 2019-05-08 2019-09-20 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110163181A (zh) * 2019-05-29 2019-08-23 中国科学技术大学 手语识别方法及装置
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法
CN110472548A (zh) * 2019-08-08 2019-11-19 中国科学技术大学 一种基于语法分类器的视频连续手语识别方法及系统
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797777A (zh) * 2020-07-07 2020-10-20 南京大学 基于时空语义特征的手语识别系统及方法
CN111797777B (zh) * 2020-07-07 2023-10-17 南京大学 基于时空语义特征的手语识别系统及方法
CN113537024A (zh) * 2021-07-08 2021-10-22 天津理工大学 多层时序注意力融合机制的弱监督神经网络手语识别方法
CN113537024B (zh) * 2021-07-08 2022-06-21 天津理工大学 多层时序注意力融合机制的弱监督神经网络手语识别方法
CN113971837A (zh) * 2021-10-27 2022-01-25 厦门大学 一种基于知识的多模态特征融合的动态图神经手语翻译方法

Similar Documents

Publication Publication Date Title
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN108920460B (zh) 一种多类型实体识别的多任务深度学习模型的训练方法
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN110209836B (zh) 远程监督关系抽取方法及装置
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN109408812A (zh) 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN112784051A (zh) 专利术语抽取方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN112069328B (zh) 一种基于多标签分类的实体关系联合抽取模型的建立方法
CN111340006A (zh) 一种手语识别方法及系统
CN111079432B (zh) 文本检测方法、装置、电子设备及存储介质
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN112749549B (zh) 一种基于增量学习和多模型融合的中文实体关系抽取方法
CN111340005A (zh) 一种手语识别方法和系统
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN116661805A (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN116542256B (zh) 一种融合对话上下文信息的自然语言理解方法与装置
CN115240713B (zh) 基于多模态特征和对比学习的语音情感识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination