CN110569823B - 一种基于rnn的手语识别与骨架生成方法 - Google Patents

一种基于rnn的手语识别与骨架生成方法 Download PDF

Info

Publication number
CN110569823B
CN110569823B CN201910880965.7A CN201910880965A CN110569823B CN 110569823 B CN110569823 B CN 110569823B CN 201910880965 A CN201910880965 A CN 201910880965A CN 110569823 B CN110569823 B CN 110569823B
Authority
CN
China
Prior art keywords
skeleton
sequence
sign language
function
rnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910880965.7A
Other languages
English (en)
Other versions
CN110569823A (zh
Inventor
肖秦琨
尹玉婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yulin Zhituhui Technology Co ltd
Original Assignee
Xian Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Technological University filed Critical Xian Technological University
Priority to CN201910880965.7A priority Critical patent/CN110569823B/zh
Publication of CN110569823A publication Critical patent/CN110569823A/zh
Application granted granted Critical
Publication of CN110569823B publication Critical patent/CN110569823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于RNN的手语识别与骨架生成方法,具体包括以下步骤:步骤1、使用Kinect RGB‑D数据集采集中国手语的骨架帧序列,输入到RNN隐藏层进行两次编码重构,并计算输出中国手语语义标签;步骤2、根据中国手语语义,生成与步骤1中编码后概率密度分布相同的骨架序列,经过二级概率模型进行解码;步骤3、将步骤2中解码后的骨架序列输入到步骤1中进行识别,计算生成数据与真实数据的损失量,将误差回传,不断更新系统参数,极小化损失函数,从而最终得到骨架识别和生成框架,用于中国手语的识别与生成。当给定CSL语义时,利用本发明可以自动识别并绘制具有不同样式的各种中国手语骨架序列,方便聋人与普通人之间的沟通。

Description

一种基于RNN的手语识别与骨架生成方法
技术领域
本发明属于手语识别方法技术领域,涉及一种基于RNN的手语识别与骨架生成方法。
背景技术
手语识别是一种能够将手语信息转化成语音、文字并进行朗读或显示的技术。中国手语(CSL,Chinese signal language)的自动识别和生成是聋哑人与普通人之间双向沟通的关键技术。以前的大多数研究都集中在CSL识别上。然而,CSL识别只是聋哑人和普通人之间沟通的一个方面,另一个具有挑战性的任务是教会机器自动绘制生成CSL,以便可以将普通人的想法转化成手语向聋哑人表达出来。
现有技术中,手语识别的方法主要有以下几种:
第一种,手语识别通常采用HMM(Hidden Markov Model,隐马尔科夫),这种方法在模型中引入了前一状态对当前状态的影响,通过计算输出概率最大化来实现手语的识别;第二种,连续手语识别也可采用CRF(Conditional Random Field,条件随机场),这种方法在模型中引入上下文信息,需要对训练特征进行左右扩展,并引入人工特征模板进行训练。传统方法中首先分别训练得到手语模型,然后采用逐级预测的方式对待识别手语进行识别。第三种,采用机器学习算法如SVM、BP神经网络搭建语言模型进行识别。这种需要事先人工采集并标注好数据,进行监督式学习。
现有技术中,中国手语骨架生成方法主要有以下几种:
第一种,变分自编码器(VAE:Variational Autoencode)分为编码器和解码器两个部分。其能力来源实际上是大量样本经过学习编码后,在数字层面对编码结果进行微调,再解码生成图片的过程。所生成的图片,是对原样本图的某种变形模仿。
第二种,生成对抗网络GAN(Generative adversarial networks)分为生成模型和判别模型。GAN是通过对抗过程来估计生成模型的框架。在这种框架下,需要同时训练两个网络,即一个能获取数据分布的生成模型G和一个估计数据来源于真实样本概率的判别模型D。生成器的训练目的是最大化判别器犯错误的概率,而判别器的训练过程是最小化犯错误的概率。为了构建生成模型,始终训练生成器以匹配数据分布,同时还训练鉴别器以在最小-最大优化框架中分离实际和生成的数据。
2、现有技术的客观缺点:
现有中国手语识别三种方法主要存在以下问题:虽然采用左右扩展的方式能在一定程度引入前后状态的关联,但是为了减小模型规模和复杂度,扩展大小十分有限,因此链接前后的距离不能太远,造成当前时刻对前面状态感知能力的下降;采用监督式学习,需要人工进行标注数据,数据采集工作繁琐,工作量大。并未考虑非线性扰动对识别结果的影响,当数据有小的扰动的时候,识别算法稳定性不强,每一层都需要被高强度训练。
现有中国手语骨架生成方法主要存在以下问题:没有全局优化,比不上监督学习的性能,多层失效对通用目标的表征而言,重建输入可能不是理想的指标;难以训练和转换问题,可用性差。
发明内容
本发明的目的是提供一种基于RNN的手语识别与骨架生成方法,解决了现有技术中存在的手语识别方法数据采集工作量大,和识别、骨架生成方法没有全局优化的问题。
本发明所采用的技术方案是,一种基于RNN的手语识别与骨架生成方法,具体包括以下步骤:
步骤1、使用Kinect RGB-D数据集采集中国手语的骨架帧序列,输入到RNN隐藏层进行两次编码重构,并计算输出中国手语语义标签;
步骤2、根据中国手语语义,生成与步骤1中编码后概率密度分布相同的骨架序列,经过二级概率模型进行解码;
步骤3、将步骤2中解码后的骨架序列输入到步骤1中进行识别,计算生成数据与真实数据的损失量,将误差回传,不断更新系统参数,极小化损失函数,从而最终得到骨架识别和生成框架,用于中国手语的识别与生成。
本发明的特点还在于:
步骤1具体包括以下内容:
步骤1.1、使用Kinect RGB-D数据集,包含总共v个符号类,其中每个类包括q个骨架序列k;通过模糊C均值聚类FCM的方法将所有骨架序列k转换为T帧,即每个序列的长度为T,使得k=(k1,…ki,…kT),其中
Figure BDA0002205867290000031
参数M表示骨架ki的关节数,其中jx i和jy i分别是第i个关节的x坐标和y坐标;通过k-means方法进行聚类骨架,产生总共F个骨架组,第i组表示为Gi(i=1,…,F),那么骨架序列k就可以表示为
K=(k1,L,kT),其中kj∈Gi,i=(1,…,F)
kj=(jx i,jy i),其中i=(1,…,M);
步骤1.2、将步骤1.1中得到的中国手语的骨架帧序列输入到RNN隐藏层进行两次编码重构,h=(h1,...,hT)为隐藏序列;
步骤1.3、使用激活函数st=softmax(ht)对步骤1.2中得到的隐藏序列ht进行计算,计算输出中国手语语义标签
Figure BDA0002205867290000041
其中
Figure BDA0002205867290000042
Figure BDA0002205867290000043
表示基于RNN的激活函数,θs为系统参数。
步骤1.2具体包括以下内容:
输入CSL骨架序列
Figure BDA0002205867290000044
被馈送到RNN隐藏层计算隐藏序列
Figure BDA0002205867290000045
RNN隐藏层通常通过迭代以下两个方程计算:
Figure BDA0002205867290000046
其中h1和h2分别是由Bi-LSTM编码的第一、二隐藏层,
Figure BDA0002205867290000047
表示基于RNN的编码函数,θe1、θe2分别表示两层网络的系统参数;
Bi-LSTM中的隐藏层函数h由以下复合函数得到:
Figure BDA0002205867290000048
其中σ是sigmoid函数,ct是状态单元,ct-1表示上一时刻的状态信息;it是输入门,ot是输出门,ft是遗忘门,W是权重矩阵,Wki、Whi、Wci表示输入门的权重,Wkf、Whf、Wcf表示遗忘门的权重,Wkc、Whc表示状态单元的权重,Wko、Who、Wco输出门的权重;b是偏置矢量,bi表示输入偏置量,bf表示遗忘门的偏置量,bc表示状态单元的偏置量,bo表示输出门的偏置量;ht-1是上一时刻的隐藏函数,ht是当前时刻的隐藏函数,tanh表示双曲正切函数。
步骤2具体包括以下内容:
步骤2.1、根据语义标签s,识别模型可以给出对应标签s的隐藏变量h;其中s与h的分布关系为:
假设P(h|s)是多元高斯分布:
Figure BDA0002205867290000051
其中mh和Σh分别是隐藏变量h的均值和协方差;
使用函数来表示此计算输入符号标签s和输出分布参数,
Figure BDA0002205867290000052
Figure BDA0002205867290000053
表示采样函数,θp1表示系统参数;
步骤2.2、使用多元高斯分布P(h|s)的随机取样来获得随机向量hg,使得hg服从多元高斯分布,即hg~P(h|s);利用指数运算将mh和Σh转换为标准偏差参数,使用标准高斯分布N(0,I)构造随机向量hg
hg=mhh⊙N(0,I)
其中⊙表示函数操作,使用采样函数
Figure BDA0002205867290000054
表示此分布,
Figure BDA0002205867290000055
θp2表示系统参数;
步骤2.3、解码hg获得每一级骨架序列生成数据dg,使用基于RNN的解码函数表示此过程:
Figure BDA0002205867290000056
其中
Figure BDA0002205867290000057
表示解码函数,θd表示系统参数;
步骤2.4、为每一个骨架序列
Figure BDA0002205867290000058
匹配一个骨架手势G,计算其高斯分布
Figure BDA0002205867290000059
步骤2.5、通过随机采样函数对步骤2.4中的骨架序列进行随机采样,产生新的骨架序列kg;使用来自分布
Figure BDA00022058672900000510
的随机采样获得
Figure BDA00022058672900000511
用函数表示此过程:输入为高斯分布模型参数Θgmm,输出为生成的骨架序列
Figure BDA00022058672900000512
Figure BDA0002205867290000061
其中
Figure BDA0002205867290000062
为基于RNN的采样函数,θp4系统参数。
步骤2.4具体包括以下内容:
为每一个骨架序列
Figure BDA0002205867290000063
匹配的一个骨架手势组G*由下式得出:
Figure BDA0002205867290000064
其中center(Gj)表示第j个手势组Gj的聚类中心,||.||表示矢量之间的欧拉距离;当G*中的
Figure BDA0002205867290000065
的概率分布是高斯混合模型GMM时,GMM模型的每个分量对应于骨架关节
Figure BDA0002205867290000066
对应的概率密度函数
Figure BDA0002205867290000067
Figure BDA0002205867290000068
其中M是GMM模型中的分量数,在第j个分量中,
Figure BDA0002205867290000069
Figure BDA00022058672900000610
表示平均值,
Figure BDA00022058672900000611
Figure BDA00022058672900000612
表示标准偏差,πj是分量权重;
用基于RNN的采样函数表示为:输入
Figure BDA00022058672900000613
输出GMM参数
Figure BDA00022058672900000614
其中
Figure BDA00022058672900000615
表示骨架序列,
Figure BDA00022058672900000616
为基于RNN的采样函数,θp3系统参数,每帧di g的GMM参数为
Figure BDA00022058672900000617
步骤3具体包括以下内容:
步骤1相当于用于识别中国手语的鉴别器,步骤2相当于用于生成中国手语的生成器,将步骤2中产生的新的骨架序列输入到步骤1中产生的语义标签
Figure BDA00022058672900000618
为了将生成器和鉴别器组合起来构成完整的系统,这一步骤给出损失函数:
Figure BDA00022058672900000619
其中,s为真实语义,
Figure BDA00022058672900000620
为生成的语义,
Figure BDA00022058672900000621
为鉴别器,θD={θe1e2s}生成骨架序列
Figure BDA0002205867290000071
当步骤1训练完成时,就可以知道鉴别器参数qD,为了使损失函数最小,使用梯度下降法调节参数qG
Figure BDA0002205867290000072
其中h为调整参数。
本发明的有益效果是:本发明采用模糊C均值聚类算法FCM可以实现自动对样本数据进行分类,不需要人工进行标注数据,数据采集工作量小;本发明对识别、骨架生成方法进行了全局优化,识别算法稳定性强;当给定CSL语义时,利用本发明可以自动识别并绘制具有不同样式的各种中国手语骨架序列,方便聋人与普通人之间的沟通。
附图说明
图1是本发明一种基于RNN的手语识别与骨架生成方法的识别系统训练流程图;
图2是本发明一种基于RNN的手语识别与骨架生成方法的CSL识别和生成模型架构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于RNN的手语识别与骨架生成方法,具体包括以下步骤:
步骤1、使用Kinect RGB-D数据集采集中国手语的骨架帧序列,输入到RNN隐藏层进行两次编码重构,并计算输出中国手语语义标签;
步骤2、根据中国手语语义,生成与步骤1中编码后概率密度分布相同的骨架序列,经过二级概率模型进行解码;
步骤3、将步骤2中解码后的骨架序列输入到步骤1中进行识别,计算生成数据与真实数据的损失量,将误差回传,不断更新系统参数,极小化损失函数,从而最终得到骨架识别和生成框架,用于中国手语的识别与生成。
步骤1具体包括以下内容:
步骤1.1、使用Kinect RGB-D数据集,包含总共v个符号类,其中每个类包括q个骨架序列k;通过模糊C均值聚类FCM的方法将所有骨架序列k转换为T帧,即每个序列的长度为T,使得k=(k1,…ki,…kT),其中
Figure BDA0002205867290000081
参数M表示骨架ki的关节数,其中jx i和jy i分别是第i个关节的x坐标和y坐标;通过k-means方法进行聚类骨架,产生总共F个骨架组,第i组表示为Gi(i=1,…,F),那么骨架序列k就可以表示为
K=(k1,L,kT),其中kj∈Gi,i=(1,…,F)
kj=(jx i,jy i),其中i=(1,…,M);
模糊C均值聚类算法FCM的含义:在众多模糊聚类算法中,模糊C均值(FCM)算法应用最广泛且较成功,它通过优化目标函数得到每个样本点对所有类中心的隶属度,从而决定样本点的类属以达到自动对样本数据进行分类的目的。
步骤1.2、将步骤1.1中得到的中国手语的骨架帧序列输入到RNN隐藏层进行两次编码重构,h=(h1,...,hT)为隐藏序列;
步骤1.3、使用激活函数st=softmax(ht)对步骤1.2中得到的隐藏序列ht进行计算,计算输出中国手语语义标签
Figure BDA0002205867290000082
其中
Figure BDA0002205867290000083
Figure BDA0002205867290000084
表示基于RNN的激活函数,θs为系统参数。
步骤1.2具体包括以下内容:
输入CSL骨架序列
Figure BDA0002205867290000085
被馈送到RNN隐藏层计算隐藏序列
Figure BDA0002205867290000086
RNN隐藏层通常通过迭代以下两个方程计算:
Figure BDA0002205867290000091
其中h1和h2分别是由Bi-LSTM编码的第一、二隐藏层,
Figure BDA0002205867290000092
表示基于RNN的编码函数,θe1、θe2分别表示两层网络的系统参数;
Bi-LSTM中的隐藏层函数h由以下复合函数得到:
Figure BDA0002205867290000093
其中σ是sigmoid函数,ct是状态单元,ct-1表示上一时刻的状态信息;it是输入门,ot是输出门,ft是遗忘门,W是权重矩阵,Wki、Whi、Wci表示输入门的权重,Wkf、Whf、Wcf表示遗忘门的权重,Wkc、Whc表示状态单元的权重,Wko、Who、Wco输出门的权重;b是偏置矢量,bi表示输入偏置量,bf表示遗忘门的偏置量,bc表示状态单元的偏置量,bo表示输出门的偏置量;ht-1是上一时刻的隐藏函数,ht是当前时刻的隐藏函数,tanh表示双曲正切函数。
步骤2具体包括以下内容:
步骤2.1、根据语义标签s,识别模型可以给出对应标签s的隐藏变量h;其中s与h的分布关系为:
假设P(h|s)是多元高斯分布:
Figure BDA0002205867290000094
其中mh和Σh分别是隐藏变量h的均值和协方差;
使用函数来表示此计算输入符号标签s和输出分布参数,
Figure BDA0002205867290000095
Figure BDA0002205867290000096
表示采样函数,θp1表示系统参数;
步骤2.2、使用多元高斯分布P(h|s)的随机取样来获得随机向量hg,使得hg服从多元高斯分布,即hg~P(h|s);利用指数运算将mh和Σh转换为标准偏差参数,使用标准高斯分布N(0,I)构造随机向量hg
hg=mhh⊙N(0,I)
其中⊙表示函数操作,使用采样函数
Figure BDA0002205867290000101
表示此分布,
Figure BDA0002205867290000102
θp2表示系统参数;
步骤2.3、解码hg获得每一级骨架序列生成数据dg,使用基于RNN的解码函数表示此过程:
Figure BDA0002205867290000103
其中
Figure BDA0002205867290000104
表示解码函数,θd表示系统参数;
步骤2.4、为每一个骨架序列
Figure BDA0002205867290000105
匹配一个骨架手势G,计算其高斯分布
Figure BDA0002205867290000106
步骤2.5、通过随机采样函数对步骤2.4中的骨架序列进行随机采样,产生新的骨架序列kg;使用来自分布
Figure BDA0002205867290000107
的随机采样获得
Figure BDA0002205867290000108
Figure BDA0002205867290000109
用函数表示此过程:输入为高斯分布模型参数Θgmm,输出为生成的骨架序列
Figure BDA00022058672900001010
Figure BDA00022058672900001011
其中
Figure BDA00022058672900001012
为基于RNN的采样函数,θp4系统参数。
步骤2.4具体包括以下内容:
为每一个骨架序列
Figure BDA00022058672900001013
匹配的一个骨架手势组G*由下式得出:
Figure BDA00022058672900001014
其中center(Gj)表示第j个手势组Gj的聚类中心,||.||表示矢量之间的欧拉距离;当G*中的
Figure BDA00022058672900001015
的概率分布是高斯混合模型GMM时,GMM模型的每个分量对应于骨架关节
Figure BDA0002205867290000111
对应的概率密度函数
Figure BDA0002205867290000112
Figure BDA0002205867290000113
其中M是GMM模型中的分量数,在第j个分量中,
Figure BDA0002205867290000114
Figure BDA0002205867290000115
表示平均值,
Figure BDA0002205867290000116
Figure BDA0002205867290000117
表示标准偏差,πj是分量权重;
用基于RNN的采样函数表示为:输入
Figure BDA0002205867290000118
输出GMM参数
Figure BDA0002205867290000119
其中
Figure BDA00022058672900001110
表示骨架序列,
Figure BDA00022058672900001111
为基于RNN的采样函数,θp3系统参数,每帧
Figure BDA00022058672900001112
的GMM参数为
Figure BDA00022058672900001113
步骤3具体包括以下内容:
步骤1相当于用于识别中国手语的鉴别器,步骤2相当于用于生成中国手语的生成器,将步骤2中产生的新的骨架序列输入到步骤1中产生的语义标签
Figure BDA00022058672900001114
为了将生成器和鉴别器组合起来构成完整的系统,这一步骤给出损失函数:
Figure BDA00022058672900001115
其中,s为真实语义,
Figure BDA00022058672900001116
为生成的语义,
Figure BDA00022058672900001117
为鉴别器,θD={θe1e2s}生成骨架序列
Figure BDA00022058672900001118
当步骤1训练完成时,就可以知道鉴别器参数qD,为了使损失函数最小,使用梯度下降法调节参数qG
Figure BDA00022058672900001119
其中h为调整参数。
本发明一种基于RNN的手语识别与骨架生成方法,其有益效果在于:本发明采用模糊C均值聚类算法FCM可以实现自动对样本数据进行分类,不需要人工进行标注数据,数据采集工作量小;本发明对识别、骨架生成方法进行了全局优化,识别算法稳定性强;当给定CSL语义时,利用本发明可以自动识别并绘制具有不同样式的各种中国手语骨架序列,方便聋人与普通人之间的沟通。

Claims (3)

1.一种基于RNN的手语识别与骨架生成方法,其特征在于,具体包括以下步骤:
步骤1、使用Kinect RGB-D数据集采集中国手语的骨架帧序列,输入到RNN隐藏层进行两次编码重构,并计算输出中国手语语义标签;
所述步骤1具体包括以下内容:
步骤1.1、使用Kinect RGB-D数据集,包含总共v个符号类,其中每个类包括q个骨架序列k;通过模糊C均值聚类FCM的方法将所有骨架序列k转换为T帧,即每个序列的长度为T,使得k=(k1,…ki,…kT),其中
Figure FDA0004094304220000011
参数M表示骨架ki的关节数,其中jx i和jy i分别是第i个关节的x坐标和y坐标;通过k-means方法进行聚类骨架,产生总共F个骨架组,第i组表示为Gi(i=1,…,F),那么骨架序列k就可以表示为
K=(k1,L,kT),其中kj∈Gi,i=(1,…,F)
kj=(jx i,jy i),其中i=(1,…,M);
步骤1.2、将步骤1.1中得到的中国手语的骨架帧序列输入到RNN隐藏层进行两次编码重构,h=(h1,…,hT)为隐藏序列;
步骤1.3、使用激活函数st=softmax(ht)对步骤1.2中得到的隐藏序列ht进行计算,计算输出中国手语语义标签
Figure FDA0004094304220000012
其中
Figure FDA0004094304220000013
Figure FDA0004094304220000014
表示基于RNN的激活函数,θs为系统参数;
所述步骤1.2具体包括以下内容:
输入CSL骨架序列
Figure FDA0004094304220000015
被馈送到RNN隐藏层计算隐藏序列
Figure FDA0004094304220000016
RNN隐藏层通过迭代以下两个方程计算:
Figure FDA0004094304220000021
其中h1和h2分别是由Bi-LSTM编码的第一、二隐藏层,
Figure FDA0004094304220000022
表示基于RNN的编码函数,θe1、θe2分别表示两层网络的系统参数;
Bi-LSTM中的隐藏层函数h由以下复合函数得到:
Figure FDA0004094304220000023
其中σ是sigmoid函数,ct是状态单元,ct-1表示上一时刻的状态信息;it是输入门,ot是输出门,ft是遗忘门,W是权重矩阵,Wki、Whi、Wci表示输入门的权重,Wkf、Whf、Wcf表示遗忘门的权重,Wkc、Whc表示状态单元的权重,Wko、Who、Wco输出门的权重;b是偏置矢量,bi表示输入偏置量,bf表示遗忘门的偏置量,bc表示状态单元的偏置量,bo表示输出门的偏置量;ht-1是上一时刻的隐藏函数,ht是当前时刻的隐藏函数,tanh表示双曲正切函数;
步骤2、根据中国手语语义,生成与步骤1中编码后概率密度分布相同的骨架序列,经过二级概率模型进行解码;
所述步骤2具体包括以下内容:
步骤2.1、根据语义标签s,识别模型可以给出对应标签s的隐藏变量h;其中s与h的分布关系为:
假设P(h|s)是多元高斯分布:
Figure FDA0004094304220000024
其中mh和Σh分别是隐藏变量h的均值和协方差;
使用函数来表示此计算输入符号标签s和输出分布参数,
Figure FDA0004094304220000031
Figure FDA0004094304220000032
表示采样函数,θp1表示系统参数;
步骤2.2、使用多元高斯分布P(h|s)的随机取样来获得随机向量hg,使得hg服从多元高斯分布,即hg~P(h|s);利用指数运算将mh和Σh转换为标准偏差参数,使用标准高斯分布N(0,I)构造随机向量hg
hg=mhh⊙N(0,I)
其中⊙表示函数操作,使用采样函数
Figure FDA0004094304220000033
表示此分布,
Figure FDA0004094304220000034
θp2表示系统参数;
步骤2.3、解码hg获得每一级骨架序列生成数据dg,使用基于RNN的解码函数表示此过程:
Figure FDA0004094304220000035
其中
Figure FDA0004094304220000036
表示解码函数,θd表示系统参数;
步骤2.4、为每一个骨架序列
Figure FDA0004094304220000037
匹配一个骨架手势G,计算其高斯分布
Figure FDA0004094304220000038
步骤2.5、通过随机采样函数对步骤2.4中的骨架序列进行随机采样,产生新的骨架序列kg;使用来自分布
Figure FDA0004094304220000039
的随机采样获得
Figure FDA00040943042200000310
Figure FDA00040943042200000311
用函数表示此过程:输入为高斯分布模型参数Θgmm,输出为生成的骨架序列
Figure FDA00040943042200000312
Figure FDA00040943042200000313
其中
Figure FDA00040943042200000314
为基于RNN的采样函数,θp4系统参数;
步骤3、将步骤2中解码后的骨架序列输入到步骤1中进行识别,计算生成数据与真实数据的损失量,将误差回传,不断更新系统参数,极小化损失函数,从而最终得到骨架识别和生成框架,用于中国手语的识别与生成。
2.根据权利要求1所述的一种基于RNN的手语识别与骨架生成方法,其特征在于,所述步骤2.4具体包括以下内容:
为每一个骨架序列
Figure FDA0004094304220000041
匹配的一个骨架手势组G*由下式得出:
Figure FDA0004094304220000042
其中center(Gj)表示第j个手势组Gj的聚类中心,||.||表示矢量之间的欧拉距离;当G*中的
Figure FDA0004094304220000043
的概率分布是高斯混合模型GMM时,GMM模型的每个分量对应于骨架关节
Figure FDA0004094304220000044
对应的概率密度函数
Figure FDA0004094304220000045
Figure FDA0004094304220000046
其中M是GMM模型中的分量数,在第j个分量中,
Figure FDA0004094304220000047
Figure FDA0004094304220000048
表示平均值,
Figure FDA0004094304220000049
Figure FDA00040943042200000410
表示标准偏差,πj是分量权重;
用基于RNN的采样函数表示为:输入
Figure FDA00040943042200000411
输出GMM参数
Figure FDA00040943042200000412
其中
Figure FDA00040943042200000413
表示骨架序列,
Figure FDA00040943042200000414
为基于RNN的采样函数,θp3系统参数,每帧
Figure FDA00040943042200000415
的GMM参数为
Figure FDA00040943042200000416
3.根据权利要求1所述的一种基于RNN的手语识别与骨架生成方法,其特征在于,所述步骤3具体包括以下内容:
所述步骤1相当于用于识别中国手语的鉴别器,所述步骤2相当于用于生成中国手语的生成器,将所述步骤2中产生的新的骨架序列输入到所述步骤1中产生的语义标签
Figure FDA00040943042200000417
为了将生成器和鉴别器组合起来构成完整的系统,这一步骤给出损失函数:
Figure FDA00040943042200000418
其中,s为真实语义,
Figure FDA00040943042200000419
为生成的语义,
Figure FDA00040943042200000420
为鉴别器,θD={θe1e2s}生成骨架序列
Figure FDA0004094304220000051
当步骤1训练完成时,就可以知道鉴别器参数θD,为了使损失函数最小,使用梯度下降法调节参数θG
Figure FDA0004094304220000052
其中η为调整参数。
CN201910880965.7A 2019-09-18 2019-09-18 一种基于rnn的手语识别与骨架生成方法 Active CN110569823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910880965.7A CN110569823B (zh) 2019-09-18 2019-09-18 一种基于rnn的手语识别与骨架生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910880965.7A CN110569823B (zh) 2019-09-18 2019-09-18 一种基于rnn的手语识别与骨架生成方法

Publications (2)

Publication Number Publication Date
CN110569823A CN110569823A (zh) 2019-12-13
CN110569823B true CN110569823B (zh) 2023-04-18

Family

ID=68780851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910880965.7A Active CN110569823B (zh) 2019-09-18 2019-09-18 一种基于rnn的手语识别与骨架生成方法

Country Status (1)

Country Link
CN (1) CN110569823B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354246A (zh) * 2020-01-16 2020-06-30 浙江工业大学 一种用于帮助聋哑人交流的系统及方法
CN111401141B (zh) * 2020-02-25 2022-07-15 浙江大学 一种基于骨架的3d手势估计方法
CN111444820B (zh) * 2020-03-24 2021-06-04 清华大学 一种基于成像雷达的手势识别方法
CN111340005A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法和系统
CN113642422A (zh) * 2021-07-27 2021-11-12 东北电力大学 一种连续中文手语识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778700A (zh) * 2017-01-22 2017-05-31 福州大学 一种基于変分编码器中国手语识别方法
CN107103311A (zh) * 2017-05-31 2017-08-29 西安工业大学 一种连续手语的识别方法及其装置
CN108171198B (zh) * 2018-01-11 2020-02-11 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法
US10289903B1 (en) * 2018-02-12 2019-05-14 Avodah Labs, Inc. Visual sign language translation training device and method
CN108615009B (zh) * 2018-04-24 2019-07-23 山东师范大学 一种基于动态手势识别的手语翻译交流系统
CN109284682B (zh) * 2018-08-21 2022-06-17 南京邮电大学 一种基于stt-lstm网络的手势识别方法及系统
CN109902583B (zh) * 2019-01-28 2020-04-24 电子科技大学 一种基于双向独立循环神经网络的骨架手势识别方法
CN110110602A (zh) * 2019-04-09 2019-08-09 南昌大学 一种基于三维残差神经网络和视频序列的动态手语识别方法

Also Published As

Publication number Publication date
CN110569823A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN110569823B (zh) 一种基于rnn的手语识别与骨架生成方法
Xiao et al. Skeleton-based Chinese sign language recognition and generation for bidirectional communication between deaf and hearing people
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110046656B (zh) 基于深度学习的多模态场景识别方法
Guanghui et al. Multi-modal emotion recognition by fusing correlation features of speech-visual
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN110321418B (zh) 一种基于深度学习的领域、意图识别和槽填充方法
Doetsch et al. Bidirectional decoder networks for attention-based end-to-end offline handwriting recognition
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN108256307B (zh) 一种智能商务旅居房车的混合增强智能认知方法
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN114092742B (zh) 一种基于多角度的小样本图像分类装置和方法
Xu et al. (Retracted) Method of generating face image based on text description of generating adversarial network
CN114756687A (zh) 基于自学习实体关系联合抽取的钢铁产线设备诊断方法
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN113516152A (zh) 一种基于复合图像语义的图像描述方法
CN114444481B (zh) 一种新闻评论的情感分析与生成方法
CN115205521A (zh) 基于神经网络的厨余垃圾检测方法
Ahammad et al. Recognizing Bengali sign language gestures for digits in real time using convolutional neural network
CN114283482A (zh) 基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型
CN116363712B (zh) 一种基于模态信息度评估策略的掌纹掌静脉识别方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN116701996A (zh) 基于多元损失函数的多模态情感分析方法、系统、设备及介质
Koner et al. Scenes and surroundings: Scene graph generation using relation transformer
CN114386412B (zh) 一种基于不确定性感知的多模态命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231205

Address after: 719054 High tech Enterprise Incubation Center 708, Annex Building, Mingzhu Avenue Entrepreneurship Building, High tech Industrial Park, Yulin City, Shaanxi Province

Patentee after: Yulin Zhituhui Technology Co.,Ltd.

Address before: 710021 No. 2 Xuefu Road, Weiyang District, Xi'an, Shaanxi

Patentee before: XI'AN TECHNOLOGICAL University