CN110569823B

CN110569823B - 一种基于rnn的手语识别与骨架生成方法

Info

Publication number: CN110569823B
Application number: CN201910880965.7A
Authority: CN
Inventors: 肖秦琨; 尹玉婷
Original assignee: Xian Technological University
Current assignee: Yulin Zhituhui Technology Co ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2023-04-18
Anticipated expiration: 2039-09-18
Also published as: CN110569823A

Abstract

本发明公开了一种基于RNN的手语识别与骨架生成方法，具体包括以下步骤：步骤1、使用Kinect RGB‑D数据集采集中国手语的骨架帧序列，输入到RNN隐藏层进行两次编码重构，并计算输出中国手语语义标签；步骤2、根据中国手语语义，生成与步骤1中编码后概率密度分布相同的骨架序列，经过二级概率模型进行解码；步骤3、将步骤2中解码后的骨架序列输入到步骤1中进行识别，计算生成数据与真实数据的损失量，将误差回传，不断更新系统参数，极小化损失函数，从而最终得到骨架识别和生成框架，用于中国手语的识别与生成。当给定CSL语义时，利用本发明可以自动识别并绘制具有不同样式的各种中国手语骨架序列，方便聋人与普通人之间的沟通。

Description

一种基于RNN的手语识别与骨架生成方法

技术领域

本发明属于手语识别方法技术领域，涉及一种基于RNN的手语识别与骨架生成方法。

背景技术

手语识别是一种能够将手语信息转化成语音、文字并进行朗读或显示的技术。中国手语(CSL，Chinese signal language)的自动识别和生成是聋哑人与普通人之间双向沟通的关键技术。以前的大多数研究都集中在CSL识别上。然而，CSL识别只是聋哑人和普通人之间沟通的一个方面，另一个具有挑战性的任务是教会机器自动绘制生成CSL，以便可以将普通人的想法转化成手语向聋哑人表达出来。

现有技术中，手语识别的方法主要有以下几种：

第一种，手语识别通常采用HMM(Hidden Markov Model，隐马尔科夫)，这种方法在模型中引入了前一状态对当前状态的影响，通过计算输出概率最大化来实现手语的识别；第二种，连续手语识别也可采用CRF(Conditional Random Field，条件随机场)，这种方法在模型中引入上下文信息，需要对训练特征进行左右扩展，并引入人工特征模板进行训练。传统方法中首先分别训练得到手语模型，然后采用逐级预测的方式对待识别手语进行识别。第三种，采用机器学习算法如SVM、BP神经网络搭建语言模型进行识别。这种需要事先人工采集并标注好数据，进行监督式学习。

现有技术中，中国手语骨架生成方法主要有以下几种：

第一种，变分自编码器(VAE：Variational Autoencode)分为编码器和解码器两个部分。其能力来源实际上是大量样本经过学习编码后，在数字层面对编码结果进行微调，再解码生成图片的过程。所生成的图片，是对原样本图的某种变形模仿。

第二种，生成对抗网络GAN(Generative adversarial networks)分为生成模型和判别模型。GAN是通过对抗过程来估计生成模型的框架。在这种框架下，需要同时训练两个网络，即一个能获取数据分布的生成模型G和一个估计数据来源于真实样本概率的判别模型D。生成器的训练目的是最大化判别器犯错误的概率，而判别器的训练过程是最小化犯错误的概率。为了构建生成模型，始终训练生成器以匹配数据分布，同时还训练鉴别器以在最小-最大优化框架中分离实际和生成的数据。

2、现有技术的客观缺点：

现有中国手语识别三种方法主要存在以下问题：虽然采用左右扩展的方式能在一定程度引入前后状态的关联，但是为了减小模型规模和复杂度，扩展大小十分有限，因此链接前后的距离不能太远，造成当前时刻对前面状态感知能力的下降；采用监督式学习，需要人工进行标注数据，数据采集工作繁琐，工作量大。并未考虑非线性扰动对识别结果的影响，当数据有小的扰动的时候，识别算法稳定性不强，每一层都需要被高强度训练。

现有中国手语骨架生成方法主要存在以下问题：没有全局优化，比不上监督学习的性能，多层失效对通用目标的表征而言，重建输入可能不是理想的指标；难以训练和转换问题，可用性差。

发明内容

本发明的目的是提供一种基于RNN的手语识别与骨架生成方法，解决了现有技术中存在的手语识别方法数据采集工作量大，和识别、骨架生成方法没有全局优化的问题。

本发明所采用的技术方案是，一种基于RNN的手语识别与骨架生成方法，具体包括以下步骤：

步骤1、使用Kinect RGB-D数据集采集中国手语的骨架帧序列，输入到RNN隐藏层进行两次编码重构，并计算输出中国手语语义标签；

步骤2、根据中国手语语义，生成与步骤1中编码后概率密度分布相同的骨架序列，经过二级概率模型进行解码；

步骤3、将步骤2中解码后的骨架序列输入到步骤1中进行识别，计算生成数据与真实数据的损失量，将误差回传，不断更新系统参数，极小化损失函数，从而最终得到骨架识别和生成框架，用于中国手语的识别与生成。

本发明的特点还在于：

步骤1具体包括以下内容：

步骤1.1、使用Kinect RGB-D数据集，包含总共v个符号类，其中每个类包括q个骨架序列k；通过模糊C均值聚类FCM的方法将所有骨架序列k转换为T帧，即每个序列的长度为T，使得k＝(k₁,…k_i,…k_T)，其中

参数M表示骨架k_i的关节数，其中j_x ⁱ和j_y ⁱ分别是第i个关节的x坐标和y坐标；通过k-means方法进行聚类骨架，产生总共F个骨架组，第i组表示为Gⁱ(i＝1,…,F)，那么骨架序列k就可以表示为

K＝(k₁，L，k_T)，其中k_j∈Gⁱ，i＝(1,…,F)

k_j＝(j_x ⁱ，j_y ⁱ)，其中i＝(1,…,M)；

步骤1.2、将步骤1.1中得到的中国手语的骨架帧序列输入到RNN隐藏层进行两次编码重构，h＝(h₁,...,h_T)为隐藏序列；

步骤1.3、使用激活函数s_t＝softmax(h_t)对步骤1.2中得到的隐藏序列h_t进行计算，计算输出中国手语语义标签

其中

表示基于RNN的激活函数，θ_s为系统参数。

步骤1.2具体包括以下内容：

输入CSL骨架序列

被馈送到RNN隐藏层计算隐藏序列

RNN隐藏层通常通过迭代以下两个方程计算：

其中h¹和h²分别是由Bi-LSTM编码的第一、二隐藏层，

表示基于RNN的编码函数，θ_e1、θ_e2分别表示两层网络的系统参数；

Bi-LSTM中的隐藏层函数h由以下复合函数得到：

其中σ是sigmoid函数，c_t是状态单元，c_t-1表示上一时刻的状态信息；i_t是输入门，o_t是输出门，f_t是遗忘门，W是权重矩阵，W_ki、W_hi、W_ci表示输入门的权重，W_kf、W_hf、W_cf表示遗忘门的权重，W_kc、W_hc表示状态单元的权重，W_ko、W_ho、W_co输出门的权重；b是偏置矢量，b_i表示输入偏置量，b_f表示遗忘门的偏置量，b_c表示状态单元的偏置量，b_o表示输出门的偏置量；h_t-1是上一时刻的隐藏函数，h_t是当前时刻的隐藏函数，tanh表示双曲正切函数。

步骤2具体包括以下内容：

步骤2.1、根据语义标签s，识别模型可以给出对应标签s的隐藏变量h；其中s与h的分布关系为：

假设P(h|s)是多元高斯分布：

其中m_h和Σ_h分别是隐藏变量h的均值和协方差；

使用函数来表示此计算输入符号标签s和输出分布参数，

表示采样函数，θ_p1表示系统参数；

步骤2.2、使用多元高斯分布P(h|s)的随机取样来获得随机向量h^g，使得h^g服从多元高斯分布，即h^g～P(h|s)；利用指数运算将m_h和Σ_h转换为标准偏差参数，使用标准高斯分布N(0，I)构造随机向量h^g：

h^g＝m_h+Σ_h⊙N(0，I)

其中⊙表示函数操作，使用采样函数

表示此分布，

θ_p2表示系统参数；

步骤2.3、解码h^g获得每一级骨架序列生成数据d^g，使用基于RNN的解码函数表示此过程：

其中

表示解码函数，θ_d表示系统参数；

步骤2.4、为每一个骨架序列

匹配一个骨架手势G，计算其高斯分布

步骤2.5、通过随机采样函数对步骤2.4中的骨架序列进行随机采样，产生新的骨架序列k^g；使用来自分布

的随机采样获得

用函数表示此过程：输入为高斯分布模型参数Θ_gmm，输出为生成的骨架序列

其中

为基于RNN的采样函数，θ_p4系统参数。

步骤2.4具体包括以下内容：

为每一个骨架序列

匹配的一个骨架手势组G*由下式得出：

其中center(G^j)表示第j个手势组Gj的聚类中心，||.||表示矢量之间的欧拉距离；当G*中的

的概率分布是高斯混合模型GMM时，GMM模型的每个分量对应于骨架关节

对应的概率密度函数

为

其中M是GMM模型中的分量数，在第j个分量中，

和

表示平均值，

和

表示标准偏差，π^j是分量权重；

用基于RNN的采样函数表示为：输入

输出GMM参数

其中

表示骨架序列，

为基于RNN的采样函数，θ_p3系统参数，每帧d_i ^g的GMM参数为

步骤3具体包括以下内容：

步骤1相当于用于识别中国手语的鉴别器，步骤2相当于用于生成中国手语的生成器，将步骤2中产生的新的骨架序列输入到步骤1中产生的语义标签

为了将生成器和鉴别器组合起来构成完整的系统，这一步骤给出损失函数：

其中，s为真实语义，

为生成的语义，

为鉴别器，θ_D＝{θ_e1,θ_e2,θ_s}生成骨架序列

当步骤1训练完成时，就可以知道鉴别器参数q_D，为了使损失函数最小，使用梯度下降法调节参数q_G

其中h为调整参数。

本发明的有益效果是：本发明采用模糊C均值聚类算法FCM可以实现自动对样本数据进行分类，不需要人工进行标注数据，数据采集工作量小；本发明对识别、骨架生成方法进行了全局优化，识别算法稳定性强；当给定CSL语义时，利用本发明可以自动识别并绘制具有不同样式的各种中国手语骨架序列，方便聋人与普通人之间的沟通。

附图说明

图1是本发明一种基于RNN的手语识别与骨架生成方法的识别系统训练流程图；

图2是本发明一种基于RNN的手语识别与骨架生成方法的CSL识别和生成模型架构图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于RNN的手语识别与骨架生成方法，具体包括以下步骤：

步骤1具体包括以下内容：

K＝(k₁，L，k_T)，其中k_j∈Gⁱ，i＝(1,…,F)

k_j＝(j_x ⁱ，j_y ⁱ)，其中i＝(1,…,M)；

模糊C均值聚类算法FCM的含义：在众多模糊聚类算法中，模糊C均值(FCM)算法应用最广泛且较成功，它通过优化目标函数得到每个样本点对所有类中心的隶属度，从而决定样本点的类属以达到自动对样本数据进行分类的目的。

其中

表示基于RNN的激活函数，θ_s为系统参数。

步骤1.2具体包括以下内容：

输入CSL骨架序列

被馈送到RNN隐藏层计算隐藏序列

RNN隐藏层通常通过迭代以下两个方程计算：

其中h¹和h²分别是由Bi-LSTM编码的第一、二隐藏层，

Bi-LSTM中的隐藏层函数h由以下复合函数得到：

步骤2具体包括以下内容：

假设P(h|s)是多元高斯分布：

其中m_h和Σ_h分别是隐藏变量h的均值和协方差；

使用函数来表示此计算输入符号标签s和输出分布参数，

表示采样函数，θ_p1表示系统参数；

h^g＝m_h+Σ_h⊙N(0，I)

其中⊙表示函数操作，使用采样函数

表示此分布，

θ_p2表示系统参数；

其中

表示解码函数，θ_d表示系统参数；

步骤2.4、为每一个骨架序列

匹配一个骨架手势G，计算其高斯分布

的随机采样获得

其中

为基于RNN的采样函数，θ_p4系统参数。

步骤2.4具体包括以下内容：

为每一个骨架序列

匹配的一个骨架手势组G*由下式得出：

其中center(Gj)表示第j个手势组Gj的聚类中心，||.||表示矢量之间的欧拉距离；当G*中的

对应的概率密度函数

为

其中M是GMM模型中的分量数，在第j个分量中，

和

表示平均值，

和

表示标准偏差，π^j是分量权重；

用基于RNN的采样函数表示为：输入

输出GMM参数

其中

表示骨架序列，

为基于RNN的采样函数，θ_p3系统参数，每帧

的GMM参数为

步骤3具体包括以下内容：

其中，s为真实语义，

为生成的语义，

为鉴别器，θ_D＝{θ_e1,θ_e2,θ_s}生成骨架序列

其中h为调整参数。

本发明一种基于RNN的手语识别与骨架生成方法，其有益效果在于：本发明采用模糊C均值聚类算法FCM可以实现自动对样本数据进行分类，不需要人工进行标注数据，数据采集工作量小；本发明对识别、骨架生成方法进行了全局优化，识别算法稳定性强；当给定CSL语义时，利用本发明可以自动识别并绘制具有不同样式的各种中国手语骨架序列，方便聋人与普通人之间的沟通。

Claims

1.一种基于RNN的手语识别与骨架生成方法，其特征在于，具体包括以下步骤：

所述步骤1具体包括以下内容：

K＝(k₁，L，k_T)，其中k_j∈Gⁱ，i＝(1,…,F)

k_j＝(j_x ⁱ，j_y ⁱ)，其中i＝(1,…,M)；

步骤1.2、将步骤1.1中得到的中国手语的骨架帧序列输入到RNN隐藏层进行两次编码重构，h＝(h₁,…,h_T)为隐藏序列；

其中

表示基于RNN的激活函数，θ_s为系统参数；

所述步骤1.2具体包括以下内容：

输入CSL骨架序列

被馈送到RNN隐藏层计算隐藏序列

RNN隐藏层通过迭代以下两个方程计算：

其中h¹和h²分别是由Bi-LSTM编码的第一、二隐藏层，

Bi-LSTM中的隐藏层函数h由以下复合函数得到：

其中σ是sigmoid函数，c_t是状态单元，c_t-1表示上一时刻的状态信息；i_t是输入门，o_t是输出门，f_t是遗忘门，W是权重矩阵，W_ki、W_hi、W_ci表示输入门的权重，W_kf、W_hf、W_cf表示遗忘门的权重，W_kc、W_hc表示状态单元的权重，W_ko、W_ho、W_co输出门的权重；b是偏置矢量，b_i表示输入偏置量，b_f表示遗忘门的偏置量，b_c表示状态单元的偏置量，b_o表示输出门的偏置量；h_t-1是上一时刻的隐藏函数，h_t是当前时刻的隐藏函数，tanh表示双曲正切函数；

所述步骤2具体包括以下内容：

假设P(h|s)是多元高斯分布：