CN110210416B - 基于动态伪标签解码的手语识别系统优化方法及装置 - Google Patents

基于动态伪标签解码的手语识别系统优化方法及装置 Download PDF

Info

Publication number
CN110210416B
CN110210416B CN201910484843.6A CN201910484843A CN110210416B CN 110210416 B CN110210416 B CN 110210416B CN 201910484843 A CN201910484843 A CN 201910484843A CN 110210416 B CN110210416 B CN 110210416B
Authority
CN
China
Prior art keywords
sign language
time sequence
recognition system
parameters
language recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910484843.6A
Other languages
English (en)
Other versions
CN110210416A (zh
Inventor
李厚强
周文罡
周浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910484843.6A priority Critical patent/CN110210416B/zh
Publication of CN110210416A publication Critical patent/CN110210416A/zh
Application granted granted Critical
Publication of CN110210416B publication Critical patent/CN110210416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于动态伪标签解码的手语识别系统优化方法及装置,应用于手语识别系统,手语识别系统包括:特征提取器、时序建模器和序列解码器;方法包括:采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统;优化特征提取器的参数,优化时序建模器的参数,利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。本发明能够更好的耦合手语识别系统中的多个模块,进而提高了手语识别的准确率。

Description

基于动态伪标签解码的手语识别系统优化方法及装置
技术领域
本发明涉及手语识别系统技术领域,尤其涉及一种基于动态伪标签解码的手语识别系统优化方法及装置。
背景技术
随着虚拟现实、体感设备、可穿戴设备等技术的快速发展和应用,人们对于多模态人机交互方式的需求日益上升。这其中非常重要的环节是使得计算机能精准地感知包括自然语言、手势语言、面部表情在内的多种信息表达方式。手语是用手形变换和手臂运动,辅以面部表情和唇动来表达精准的语义信息,且在长期的发展中,拥有规范的语法、明确的语义和健全的词汇体系。
手语识别的目的是通过计算机设计一定的算法,将摄像头捕捉到的手语视觉信息翻译为相应的文本或语音信息。这项研究不仅可以促进人机交互领域的发展,同时可以为聋人以及听障人士提供手语机器翻译,使得聋人可以更方便地和听人进行交流,方便他们的日常生活。
连续手语识别是指输入一段包含完整手语句子的视频,识别其表达的多个连续手语词汇,并组织成句。连续手语识别系统主要分为两个部分,分别是特征提取模块和时序建模模块。特征提取部分负责捕捉原始视频帧中的关键视觉信息,并将其转化为数字化的特征表达。时域建模部分负责对连续手语视觉特征进行时域上的建模,转化为自然语言的文本进行输出。
在现有的连续手语识别方法中,基于深度神经网络的手语识别方法非常热门。基于深度神经网络的手语识别系统通常由特征提取器、时序建模器和序列解码器组成。特征提取器采用卷积神经网络(Convolutional Neural Network,CNN),提供具有判别力的视觉特征表达。时序建模器有多种选择,如时域卷积网络(Temporal Convolutional Network,TCN)和门限循环神经网络(Gated Recurrent Neural Network,GRU),将连续的视觉特征表达进行时序上的整合,得到每一帧的预测概率矩阵,最终交由序列解码器进行解码,得到识别出的文本信息。目前,手语识别系统的网络参数的优化采取端到端的训练方法,采用基于联结时序分类(Connectionist Temporal Classification,CTC)的优化函数。
由此可以看出,现有的手语识别系统的优化方法存在以下问题:
1、连续手语识别系统由特征提取器、时序建模器和序列解码器等多个模块组成,传统的优化方法仅仅依赖端到端的训练方法,难以优化所有模块,模块参数难以相互耦合,识别率不高。
2、采用单一的时序建模器无法兼顾长时序列信息和短时序列信息,时域卷积网络可以建模短时的短语信息,缺乏整体语法和上下文的建模;而门限循环神经网络可以建模长时的语言信息,缺乏短时的视觉运动建模。
因此,如何实现手语识别系统中多个模块可以更好的耦合,以提高手语识别的准确率,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于动态伪标签解码的手语识别系统优化方法,能够更好的耦合手语识别系统中的多个模块,进而提高了手语识别的准确率。
本发明提供了一种基于动态伪标签解码的手语识别系统优化方法,应用于手语识别系统,所述手语识别系统包括:特征提取器、时序建模器和序列解码器;所述方法包括:
采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统;
优化特征提取器的参数;
优化时序建模器的参数;
利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。
优选地,所述优化特征提取器的参数,包括:
利用时序建模器得到概率矩阵;
基于动态伪标签解码得到每一个视频片段的手语伪标签;
利用所述手语伪标签和交叉熵函数优化特征提取器的参数。
优选地,所述利用时序建模器得到概率矩阵,包括:
将视频切分为多个视频片段,构成视频片段集合;
将所述视频片段集合输入到三维卷积神经网络中,得到所需的时序特征;
将所述时序特征输入到时序建模器中,得到对应的隐变量;
基于所述隐变量经过时序建模器中的全连接层和软最大层,得到针对每一个视频片段的概率矩阵。
优选地,所述优化时序建模器的参数,包括:
利用优化后的特征提取器,提取出时序特征作为输入,优化时序建模器的参数。
优选地,所述时域集成网络包括:门限循环单元、卷积核大小为1的时序卷积层和卷积核大小为3的时序卷积层。
一种基于动态伪标签解码的手语识别系统优化装置,应用于手语识别系统,所述手语识别系统包括:特征提取器、时序建模器和序列解码器;所述装置包括:
获得模块,用于采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统;
第一优化模块,用于优化特征提取器的参数;
第二优化模块,用于优化时序建模器的参数;
第三优化模块,用于利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。
优选地,所述第一优化模块在执行优化特征提取器的参数时,具体用于:
利用时序建模器得到概率矩阵;
基于动态伪标签解码得到每一个视频片段的手语伪标签;
利用所述手语伪标签和交叉熵函数优化特征提取器的参数。
优选地,所述第一优化模块在执行利用时序建模器得到概率矩阵时,具体用于:
将视频切分为多个视频片段,构成视频片段集合;
将所述视频片段集合输入到三维卷积神经网络中,得到所需的时序特征;
将所述时序特征输入到时序建模器中,得到对应的隐变量;
基于所述隐变量经过时序建模器中的全连接层和软最大层,得到针对每一个视频片段的概率矩阵。
优选地,所述第二优化模块在执行优化时序建模器的参数时,具体用于:
利用优化后的特征提取器,提取出时序特征作为输入,优化时序建模器的参数。
优选地,所述时域集成网络包括:门限循环单元、卷积核大小为1的时序卷积层和卷积核大小为3的时序卷积层。
综上所述,本发明公开了一种基于动态伪标签解码的手语识别系统优化方法,当需要对手语识别系统进行优化时,首先采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统,然后优化特征提取器的参数,优化优化时序建模器的参数,优化利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。本发明在优化前期,通过交替的优化特征提取器和时序建模器,有效提升了手语识别系统各个组件的耦合程度,在优化后期,引入时序集成方法,同时捕捉手语中长时的上下文信息和短时的视觉运动信息,提高了手语识别系统的识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种基于动态伪标签解码的手语识别系统优化方法实施例1的方法流程图;
图2为本发明公开的一种基于动态伪标签解码的手语识别系统优化方法实施例2的方法流程图;
图3为本发明公开的一种基于动态伪标签解码的手语识别系统优化装置实施例1的结构示意图;
图4为本发明公开的一种基于动态伪标签解码的手语识别系统优化装置实施例2的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种基于动态伪标签解码的手语识别系统优化方法实施例1的方法流程图,所述方法应用于手语识别系统,其中,手语识别系统包括:特征提取器、时序建模器和序列解码器;所述方法可以包括以下步骤:
S101、采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统;
当需要对手语识别系统进行优化时,首先得到初步可以的手语识别系统,在得到初步可用的手语识别系统时,可以采用连续联结分类作为优化函数,并采用传统的端到端的训练方法训练整个手语识别系统,进而得到初步可用的手语识别系统。
S102、优化特征提取器的参数;
当得到初步可用的手语识别系统后,进一步对得到的初步可用的手语识别系统中的模块进行迭代优化。具体的,首先对特征提取器的参数进行优化。
S103、优化时序建模器的参数;
然后基于优化后的特征提取器对时序建模器的参数进行优化。
S104、利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。
在前期对特征提取器和时序建模器进行迭代优化后,进一步将现有的时序建模方法替换为时域集成网络,利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。
综上所述,在上述实施例中,当需要对手语识别系统进行优化时,首先采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统,然后优化特征提取器的参数,优化优化时序建模器的参数,优化利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。本发明在优化前期,通过交替的优化特征提取器和时序建模器,有效提升了手语识别系统各个组件的耦合程度,在优化后期,引入时序集成方法,同时捕捉手语中长时的上下文信息和短时的视觉运动信息,提高了手语识别系统的识别率。
如图2所示,为本发明公开的一种基于动态伪标签解码的手语识别系统优化方法实施例2的方法流程图,所述方法应用于手语识别系统,其中,手语识别系统包括:特征提取器、时序建模器和序列解码器;所述方法可以包括以下步骤:
S201、采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统;
当需要对手语识别系统进行优化时,首先得到初步可以的手语识别系统,在得到初步可用的手语识别系统时,可以采用连续联结分类作为优化函数,并采用传统的端到端的训练方法训练整个手语识别系统,进而得到初步可用的手语识别系统。
S202、利用时序建模器得到概率矩阵,基于动态伪标签解码得到每一个视频片段的手语伪标签,利用手语伪标签和交叉熵函数优化特征提取器的参数;
当得到初步可用的手语识别系统后,进一步对得到的初步可用的手语识别系统中的模块进行迭代优化。具体的,首先对特征提取器的参数进行优化。
在对特征提取器的参数进行优化时,首先将一个拥有L帧的视频,切分为T个视频片段,每个视频片段含w帧,片段之间相隔s帧。这样,
Figure BDA0002085058760000071
且将得到的视频片段集合表示为
Figure BDA0002085058760000072
然后我们将视频片段集合输入到三维卷积神经网络中,得到所需的时序特征f,
Figure BDA0002085058760000073
其中,Ωθ表示参数为θ的三维卷积神经网络。
然后我们将时序特征f输入到时序建模器中,这一步我们的时序建模器为门限循环卷积网络,表示为GRU。时序特征f输入门限循环卷积网络中得到T个对应的隐变量h:
ht=GRU(ht-1,ft)
再经过时序建模器中的全连接层(Fully-connected Layer)和软最大层(Soft-Max Layer),得到所需的针对每一个视频片段的概率矩阵,
Figure BDA0002085058760000081
这里,yt,j为手语标签j发生在第t个视频片段的概率。
下面根据我们设计的动态伪标签解码的到每一个视频片段对应的手语标签。这里的求解目标为视频片段集合和手语标签之间的概率最大的对齐路径:
Figure BDA0002085058760000082
这里,
Figure BDA0002085058760000083
为输入的T个视频片段的时序特征,
Figure BDA0002085058760000084
为整段视频的N个手语标签。首先,将标签序列l扩展为
Figure BDA0002085058760000085
在标签序列的首尾和两两之间插入1个空白标签blank,这样时序特征x和标签序列l'组成了一个T乘以2N+1的格点矩阵,每一个格点(t,n)代表xt和l'n的一个对齐关系。这里t∈[1,T],n∈[1,2N+1]。为了避免数值下溢,将其格点(t,n)的概率表示如下的自然对数形式:
Figure BDA0002085058760000086
在格点矩阵中,允许相邻的空白标签和非空白标签之间的切换,任意一对不同的非空白标签之间的切换。根据这些规则,定义一个累加矩阵
Figure BDA0002085058760000087
Figure BDA0002085058760000088
它的初始方式如下:
Figure BDA0002085058760000089
Figure BDA0002085058760000091
完整的Q矩阵的数值由如下递归方程计算得到:
Figure BDA0002085058760000092
Q(t,n)=P(t,n)+Q(t-1,β(t,n))
其中:
Figure BDA0002085058760000093
将每一个Q(t,n)的递归路径记录在β(t,n)中,同时以如下公式回溯得到逆向值bt
Figure BDA0002085058760000094
Figure BDA0002085058760000095
最终,需要的概率最大的对齐路径解码如下:
Figure BDA0002085058760000096
这里,第t个视频片段对应的标签即为πt。这里的标签是估计出的隐变量,且逼近最佳对齐路径,所以称为手语伪标签(真标签指代最佳对齐路径,这条路径是未知量,只能逼近)。然后,即可根据得到的手语伪标签,采用交叉熵函数优化特征提取器,得到特征表达更好的特征提取器。
S203、利用优化后的特征提取器,提取出时序特征作为输入,优化时序建模器的参数;
然后基于优化后的特征提取器,对视频片段集合提取出相应的视觉特征
Figure BDA0002085058760000097
将其作为时序建模器的输入,这一步时序建模器为门限循环卷积网络,输出即为最终每一个视频序列的概率矩阵。其中,yt,j为手语标签j发生在第t个视频片段的概率。
此时,引入联结时序分类作为优化时序建模器的目标函数。首先,计算视频片段和标签可能的对齐路径
Figure BDA0002085058760000101
的概率:
Figure BDA0002085058760000102
然后计算所有可以映射到正确整句标签
Figure BDA0002085058760000103
的对齐路径之和p(l|x):
Figure BDA0002085058760000104
最终采用损失函数LCTC=-lnp(l|x),优化时序建模器的参数。
交替的进行特征提取的优化和时序建模器的优化,迭代式的优化特征提取器可以得到更具有判别力的手语视觉特征,迭代式的优化时序建模器可以预测出更准确的映射路径。两步相互提升,使得整个手语系统更好的耦合,识别率更高。
S204、利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。
最后,采用时序集成网络(Temporal Ensemble Network,TEM)替换前期优化过程中采用的门限循环卷积网络。
其中,时序集成网络的前端由三部分组成,分别为门限循环单元,卷积核大小为1的时序卷积层和卷积核大小为3的时序卷积层。三个组件后各接一个修正线性单元(Rectified Linear Unit,ReLU),采用并联的形式。时序集成网络的后端采用一层全连接层(Fully-connected Layer)和软最大层(Soft-Max Layer)。这样,时序集成网络的输入为时序特征,最终输出即为所有视频片段的概率矩阵。其中,时序集成网络的参数优化方式同时序建模器的参数优化方式,优化完成后嵌回手语识别系统中。至此,优化完成,得到最终的手语识别系统。
如图3所示,为本发明公开的一种基于动态伪标签解码的手语识别系统优化装置实施例1的结构示意图,所述装置应用于手语识别系统,其中,手语识别系统包括:特征提取器、时序建模器和序列解码器;所述装置可以包括:
获得模块301,用于采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统;
当需要对手语识别系统进行优化时,首先得到初步可以的手语识别系统,在得到初步可用的手语识别系统时,可以采用连续联结分类作为优化函数,并采用传统的端到端的训练方法训练整个手语识别系统,进而得到初步可用的手语识别系统。
第一优化模块302,用于优化特征提取器的参数;
当得到初步可用的手语识别系统后,进一步对得到的初步可用的手语识别系统中的模块进行迭代优化。具体的,首先对特征提取器的参数进行优化。
第二优化模块303,用于优化时序建模器的参数;
然后基于优化后的特征提取器对时序建模器的参数进行优化。
第三优化模块304,用于利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。
在前期对特征提取器和时序建模器进行迭代优化后,进一步将现有的时序建模方法替换为时域集成网络,利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。
综上所述,在上述实施例中,当需要对手语识别系统进行优化时,首先采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统,然后优化特征提取器的参数,优化优化时序建模器的参数,优化利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。本发明在优化前期,通过交替的优化特征提取器和时序建模器,有效提升了手语识别系统各个组件的耦合程度,在优化后期,引入时序集成方法,同时捕捉手语中长时的上下文信息和短时的视觉运动信息,提高了手语识别系统的识别率。
如图4所示,为本发明公开的一种基于动态伪标签解码的手语识别系统优化装置实施例2的结构示意图,所述装置应用于手语识别系统,其中,手语识别系统包括:特征提取器、时序建模器和序列解码器;所述装置可以包括:
获得模块401,用于采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统;
当需要对手语识别系统进行优化时,首先得到初步可以的手语识别系统,在得到初步可用的手语识别系统时,可以采用连续联结分类作为优化函数,并采用传统的端到端的训练方法训练整个手语识别系统,进而得到初步可用的手语识别系统。
第一优化模块402,用于利用时序建模器得到概率矩阵,基于动态伪标签解码得到每一个视频片段的手语伪标签,利用手语伪标签和交叉熵函数优化特征提取器的参数;
当得到初步可用的手语识别系统后,进一步对得到的初步可用的手语识别系统中的模块进行迭代优化。具体的,首先对特征提取器的参数进行优化。
在对特征提取器的参数进行优化时,首先将一个拥有L帧的视频,切分为T个视频片段,每个视频片段含w帧,片段之间相隔s帧。这样,
Figure BDA0002085058760000121
且将得到的视频片段集合表示为
Figure BDA0002085058760000122
然后我们将视频片段集合输入到三维卷积神经网络中,得到所需的时序特征f,
Figure BDA0002085058760000123
其中,Ωθ表示参数为θ的三维卷积神经网络。
然后我们将时序特征f输入到时序建模器中,这一步我们的时序建模器为门限循环卷积网络,表示为GRU。时序特征f输入门限循环卷积网络中得到T个对应的隐变量h,
ht=GRU(ht-1,ft)
再经过时序建模器中的全连接层(Fully-connected Layer)和软最大层(Soft-Max Layer),得到所需的针对每一个视频片段的概率矩阵,
Figure BDA0002085058760000131
这里,yt,j为手语标签j发生在第t个视频片段的概率。
下面根据我们设计的动态伪标签解码的到每一个视频片段对应的手语标签。这里的求解目标为视频片段集合和手语标签之间的概率最大的对齐路径:
Figure BDA0002085058760000132
这里,
Figure BDA0002085058760000133
为输入的T个视频片段的时序特征,
Figure BDA0002085058760000134
为整段视频的N个手语标签。首先,将标签序列l扩展为
Figure BDA0002085058760000135
在标签序列的首尾和两两之间插入1个空白标签blank,这样时序特征x和标签序列l'组成了一个T乘以2N+1的格点矩阵,每一个格点(t,n)代表xt和l'n的一个对齐关系。这里t∈[1,T],n∈[1,2N+1]。为了避免数值下溢,将其格点(t,n)的概率表示如下的自然对数形式:
Figure BDA0002085058760000136
在格点矩阵中,允许相邻的空白标签和非空白标签之间的切换,任意一对不同的非空白标签之间的切换。根据这些规则,定义一个累加矩阵
Figure BDA0002085058760000137
Figure BDA0002085058760000138
它的初始方式如下:
Figure BDA0002085058760000141
Figure BDA0002085058760000142
完整的Q矩阵的数值由如下递归方程计算得到:
Figure BDA0002085058760000143
Q(t,n)=P(t,n)+Q(t-1,β(t,n))
其中:
Figure BDA0002085058760000144
将每一个Q(t,n)的递归路径记录在β(t,n)中,同时以如下公式回溯得到逆向值bt
Figure BDA0002085058760000145
Figure BDA0002085058760000146
最终,需要的概率最大的对齐路径解码如下:
Figure BDA0002085058760000147
这里,第t个视频片段对应的标签即为πt。这里的标签是估计出的隐变量,且逼近最佳对齐路径,所以称为手语伪标签(真标签指代最佳对齐路径,这条路径是未知量,只能逼近)。然后,即可根据得到的手语伪标签,采用交叉熵函数优化特征提取器,得到特征表达更好的特征提取器。
第二优化模块403,用于利用优化后的特征提取器,提取出时序特征作为输入,优化时序建模器的参数;
然后基于优化后的特征提取器,对视频片段集合提取出相应的视觉特征
Figure BDA0002085058760000148
将其作为时序建模器的输入,这一步时序建模器为门限循环卷积网络,输出即为最终每一个视频序列的概率矩阵。其中,yt,j为手语标签j发生在第t个视频片段的概率。
此时,引入联结时序分类作为优化时序建模器的目标函数。首先,计算视频片段和标签可能的对齐路径
Figure BDA0002085058760000151
的概率:
Figure BDA0002085058760000152
然后计算所有可以映射到正确整句标签
Figure BDA0002085058760000153
的对齐路径之和p(l|x):
Figure BDA0002085058760000154
最终采用损失函数LCTC=-lnp(l|x),优化时序建模器的参数。
交替的进行特征提取的优化和时序建模器的优化,迭代式的优化特征提取器可以得到更具有判别力的手语视觉特征,迭代式的优化时序建模器可以预测出更准确的映射路径。两步相互提升,使得整个手语系统更好的耦合,识别率更高。
第三优化模块404,用于利用优化后提取的时序特征,优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中。
最后,采用时序集成网络(Temporal Ensemble Network,TEM)替换前期优化过程中采用的门限循环卷积网络。
其中,时序集成网络的前端由三部分组成,分别为门限循环单元,卷积核大小为1的时序卷积层和卷积核大小为3的时序卷积层。三个组件后各接一个修正线性单元(Rectified Linear Unit,ReLU),采用并联的形式。时序集成网络的后端采用一层全连接层(Fully-connected Layer)和软最大层(Soft-Max Layer)。这样,时序集成网络的输入为时序特征,最终输出即为所有视频片段的概率矩阵。其中,时序集成网络的参数优化方式同时序建模器的参数优化方式,优化完成后嵌回手语识别系统中。至此,优化完成,得到最终的手语识别系统。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种基于动态伪标签解码的手语识别系统优化方法,其特征在于,应用于手语识别系统,所述手语识别系统包括:特征提取器、时序建模器和序列解码器;所述方法包括:
采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统;
优化特征提取器的参数;
优化时序建模器的参数;
利用优化后提取的时序特征,采用时序集成网络TEM替换前期优化过程中采用的门限循环卷积网络优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中;
所述时域集成网络包括三个组件:门限循环单元、卷积核大小为1的时序卷积层和卷积核大小为3的时序卷积层;其中,三个组件后各接一个修正线性单元ReLU,采用并联的形式;时序集成网络的后端采用一层全连接层和软最大层;
所述优化特征提取器的参数,包括:
利用时序建模器得到概率矩阵;
基于动态伪标签解码得到每一个视频片段的手语伪标签;
利用所述手语伪标签和交叉熵函数优化特征提取器的参数;
所述基于动态伪标签解码得到每一个视频片段的手语伪标签,包括:
求解目标为视频片段集合和手语标签之间的概率最大的对齐路径:
Figure FDA0003184463280000011
其中,
Figure FDA0003184463280000012
为输入的T个视频片段的时序特征,
Figure FDA0003184463280000013
为整段视频的N个手语标签;
将标签序列l扩展为
Figure FDA0003184463280000014
在标签序列的首尾和两两之间插入1个空白标签blank,时序特征x和标签序列l′组成了一个T乘以2N+1的格点矩阵,每一个格点(t,n)代表xt和l′n的一个对齐关系;其中,t∈[1,T],n∈[1,2N+1];
将所述格点(t,n)的概率表示为如下的自然对数形式:
Figure FDA0003184463280000021
定义一个累加矩阵
Figure FDA0003184463280000022
其初始方式如下:
Figure FDA0003184463280000023
Figure FDA0003184463280000024
完整的Q矩阵的数值由如下递归方程计算得到:
β(t,n)=argmaxk∈[g(n),n]Q(t-1,k);
Q(t,n)=p(t,n)+Q(t-1,β(t,n));
其中:
Figure FDA0003184463280000025
将每一个Q(t,n)的递归路径记录在β(t,n)中,同时以如下公式回溯得到逆向值bt
bT=maxk∈[2N,2N+1]Q(T,k);
Figure FDA0003184463280000026
得到概率最大的对齐路径解码如下:
Figure FDA0003184463280000027
其中,第t个视频片段对应的手语伪标签即为πt
2.根据权利要求1所述的方法,其特征在于,所述利用时序建模器得到概率矩阵,包括:
将视频切分为多个视频片段,构成视频片段集合;
将所述视频片段集合输入到三维卷积神经网络中,得到所需的时序特征;
将所述时序特征输入到时序建模器中,得到对应的隐变量;
基于所述隐变量经过时序建模器中的全连接层和软最大层,得到针对每一个视频片段的概率矩阵。
3.根据权利要求2所述的方法,其特征在于,所述优化时序建模器的参数,包括:
利用优化后的特征提取器,提取出时序特征作为输入,优化时序建模器的参数。
4.一种基于动态伪标签解码的手语识别系统优化装置,其特征在于,应用于手语识别系统,所述手语识别系统包括:特征提取器、时序建模器和序列解码器;所述装置包括:
获得模块,用于采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统;
第一优化模块,用于优化特征提取器的参数;
第二优化模块,用于优化时序建模器的参数;
第三优化模块,用于利用优化后提取的时序特征,采用时序集成网络TEM替换前期优化过程中采用的门限循环卷积网络优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中;所述时域集成网络包括三个组件:门限循环单元、卷积核大小为1的时序卷积层和卷积核大小为3的时序卷积层;其中,三个组件后各接一个修正线性单元ReLU,采用并联的形式;时序集成网络的后端采用一层全连接层和软最大层;
所述第一优化模块在执行优化特征提取器的参数时,具体用于:
利用时序建模器得到概率矩阵;
基于动态伪标签解码得到每一个视频片段的手语伪标签;
利用所述手语伪标签和交叉熵函数优化特征提取器的参数;
所述基于动态伪标签解码得到每一个视频片段的手语伪标签,包括:
求解目标为视频片段集合和手语标签之间的概率最大的对齐路径:
Figure FDA0003184463280000041
其中,
Figure FDA0003184463280000042
为输入的T个视频片段的时序特征,
Figure FDA0003184463280000043
为整段视频的N个手语标签;
将标签序列l扩展为
Figure FDA0003184463280000044
在标签序列的首尾和两两之间插入1个空白标签blank,时序特征x和标签序列l′组成了一个T乘以2N+1的格点矩阵,每一个格点(t,n)代表xt和l′n的一个对齐关系;其中,t∈[1,T],n∈[1,2N+1];
将所述格点(t,n)的概率表示为如下的自然对数形式:
Figure FDA0003184463280000045
定义一个累加矩阵
Figure FDA0003184463280000046
其初始方式如下:
Figure FDA0003184463280000047
Figure FDA0003184463280000048
完整的Q矩阵的数值由如下递归方程计算得到:
β(t,n)=argmaxk∈[g(n),n]Q(t-1,k);
Q(t,n)=p(t,n)+Q(t-1,β(t,n));
其中:
Figure FDA0003184463280000049
将每一个Q(t,n)的递归路径记录在β(t,n)中,同时以如下公式回溯得到逆向值bt
bT=maxk∈[2N,2N+1]Q(T,k);
Figure FDA00031844632800000410
得到概率最大的对齐路径解码如下:
Figure FDA0003184463280000051
其中,第t个视频片段对应的手语伪标签即为πt
5.根据权利要求4所述的装置,其特征在于,所述第一优化模块在执行利用时序建模器得到概率矩阵时,具体用于:
将视频切分为多个视频片段,构成视频片段集合;
将所述视频片段集合输入到三维卷积神经网络中,得到所需的时序特征;
将所述时序特征输入到时序建模器中,得到对应的隐变量;
基于所述隐变量经过时序建模器中的全连接层和软最大层,得到针对每一个视频片段的概率矩阵。
6.根据权利要求5所述的装置,其特征在于,所述第二优化模块在执行优化时序建模器的参数时,具体用于:
利用优化后的特征提取器,提取出时序特征作为输入,优化时序建模器的参数。
CN201910484843.6A 2019-06-05 2019-06-05 基于动态伪标签解码的手语识别系统优化方法及装置 Active CN110210416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910484843.6A CN110210416B (zh) 2019-06-05 2019-06-05 基于动态伪标签解码的手语识别系统优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910484843.6A CN110210416B (zh) 2019-06-05 2019-06-05 基于动态伪标签解码的手语识别系统优化方法及装置

Publications (2)

Publication Number Publication Date
CN110210416A CN110210416A (zh) 2019-09-06
CN110210416B true CN110210416B (zh) 2021-10-01

Family

ID=67790863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910484843.6A Active CN110210416B (zh) 2019-06-05 2019-06-05 基于动态伪标签解码的手语识别系统优化方法及装置

Country Status (1)

Country Link
CN (1) CN110210416B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796096B (zh) * 2019-10-30 2023-01-24 北京达佳互联信息技术有限公司 一种手势识别模型的训练方法、装置、设备及介质
CN111046731B (zh) * 2019-11-11 2023-07-25 中国科学院计算技术研究所 基于表面肌电信号进行手势识别的迁移学习方法和识别方法
CN111079661B (zh) * 2019-12-19 2022-07-15 中国科学技术大学 手语识别系统
CN112132094B (zh) * 2020-09-30 2022-07-15 中国科学技术大学 基于多语言协同的连续手语识别系统
CN114550307B (zh) * 2022-04-22 2022-09-09 中国科学技术大学 动作定位模型的训练方法、装置及动作定位方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893942A (zh) * 2016-03-25 2016-08-24 中国科学技术大学 一种基于eSC和HOG的自适应HMM的手语识别方法
CN108647603A (zh) * 2018-04-28 2018-10-12 清华大学 基于注意力机制的半监督连续手语翻译方法及装置
CN109063615A (zh) * 2018-07-20 2018-12-21 中国科学技术大学 一种手语识别方法及系统
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679585A (zh) * 2017-09-27 2018-02-09 清华大学 基于时间残差长短时记忆网络的阿拉伯文识别方法及系统
CN109242889B (zh) * 2018-08-27 2020-06-16 大连理工大学 基于上下文显著性检测与sae的sar图像变化检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893942A (zh) * 2016-03-25 2016-08-24 中国科学技术大学 一种基于eSC和HOG的自适应HMM的手语识别方法
CN108647603A (zh) * 2018-04-28 2018-10-12 清华大学 基于注意力机制的半监督连续手语翻译方法及装置
CN109063615A (zh) * 2018-07-20 2018-12-21 中国科学技术大学 一种手语识别方法及系统
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks;Alex Graves et al.;《Proceedings of the 23rd International Conference on Machine Learning》;20061231;全文 *
Connectionist Temporal Fusion for Sign Language Translation;Shuo Wang et al.;《MM’18: Proceedings of the 26th ACM international conference on Multimedia》;20181231;第1483-1491页、图1-5 *
Dilated Convolutional Network with Iterative Optimization for Continuous Sign Language Recognition;Junfu Pu et al.;《Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence》;20180731;第885-891页、图1 *
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation;Kyunghyun Cho et al.;《arXiv》;20140903;全文 *
Recurrent Convolutional Neural Networks for Continuous Sign Language Recognition by Staged Optimization;Runpeng Cui et al.;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171231;第1610-1618页、图1-5 *

Also Published As

Publication number Publication date
CN110210416A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110210416B (zh) 基于动态伪标签解码的手语识别系统优化方法及装置
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
US11908451B2 (en) Text-based virtual object animation generation method, apparatus, storage medium, and terminal
CN108829894B (zh) 口语词识别和语义识别方法及其装置
Al-Rousan et al. Video-based signer-independent Arabic sign language recognition using hidden Markov models
CN105632486A (zh) 一种智能硬件的语音唤醒方法和装置
CN111259804B (zh) 一种基于图卷积的多模态融合手语识别系统及方法
Wazalwar et al. Interpretation of sign language into English using NLP techniques
Pandey et al. Liptype: A silent speech recognizer augmented with an independent repair model
CN111368142A (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
Koller et al. Read my lips: Continuous signer independent weakly supervised viseme recognition
CN116564338A (zh) 语音动画生成方法、装置、电子设备和介质
CN112184859A (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN114581812B (zh) 视觉语言识别方法、装置、电子设备及存储介质
CN112329604B (zh) 一种基于多维度低秩分解的多模态情感分析方法
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
CN110750669A (zh) 一种图像字幕生成的方法及系统
CN108630192B (zh) 一种非汉语语音识别方法、系统及其构造方法
Liu et al. End-to-End Chinese Lip-Reading Recognition Based on Multi-modal Fusion
CN113642422B (zh) 一种连续中文手语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant