CN112101262B

CN112101262B - 一种多特征融合手语识别方法及网络模型

Info

Publication number: CN112101262B
Application number: CN202011003283.7A
Authority: CN
Inventors: 叶中付; 潘威
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-09-06
Anticipated expiration: 2040-09-22
Also published as: CN112101262A

Abstract

本发明公开一种多特征融合手语识别方法及网络模型，方法包括：1.获取手语演示者的RGB彩色图像和骨骼关节数据；2.从中提取LBP、HOG和RGB特征；将3D骨骼关节点坐标按三方向二维平面投影得到骨骼关节投影点，相连得到二维图特征；3.将RGB、HOG和LBP特征经三个不同3D CNN训练得相应特征向量，将各特征向量经第一注意力网络权重叠加得三维图像特征；将二维图特征经第二注意力网络线性加权得融合特征，并经2D CNN训练得骨骼特征；4.将三维图像和骨骼特征相连输入第三注意力网络，得到手语视频特征向量；5.将手语视频特征向量输入全连接层和soft max层得到概率分布向量，进而得出手语识别结果。该方法赋予不同特征在特征描述中以适当的注意力权重，提高了手语识别的准确性。

Description

一种多特征融合手语识别方法及网络模型

技术领域

本发明涉及图像处理领域，尤其涉及一种多特征融合手语识别方法及网络模型。

背景技术

3D手语识别方法，通常可以分为生成方法、判别方法以及混合方法。近几年使用的比较多的是基于CNN(卷积神经网络)的判别方法。在现有的基于CNN的手语识别方法中，又可以分为基于3D CNN(3D卷积神经网络)和基于2D CNN(2D卷积神经网络)的识别方法。由于3D CNN能够同时捕捉手语视频的空间特性和时序特性，因此近几年来3D CNN逐渐成为手语识别的主流研究方法，更多的技术创新都是基于3D CNN。

虽然3D CNN相对于2D CNN有明显的优势，但是，相比于2D CNN，3D CNN具有更多的参数和更高的网络复杂性，计算资源耗费大大增加。此外，对于骨骼数据，3D CNN的处理反而会带来更多数据的复杂性和不必要的混杂信息，降低了特征的描述功能。2D CNN在处理骨骼数据方面仍然发挥着比较重要的作用。所以，进行手语识别，特征提取阶段的任务普遍分为两个部分：根据RGB彩色图像提取出3D的特征描述，根据骨骼数据提取出2D的特征描述。对两种特征进行多网络并行训练，特征融合，模型融合等多重手段进行网络参数更新和学习，进而提高手语的识别准确率。

虽然各种特征的融合可显著提高网络的学习能力和识别准确率，但目前的识别方法并未考虑各种特征的权重，因此在特征表述阶段仍然有一定的改进余地。

发明内容

基于现有技术所存在的问题，本发明的目的是提供一种多特征融合手语识别方法及网络模型，能改进现有的特征融合方法中未考虑各项特征权重的问题。

本发明的目的是通过以下技术方案实现的：

本发明实施方式提供一种多特征融合手语识别方法，包括如下步骤：

步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据；

步骤2、从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征；

根据所述骨骼关节数据，将3D骨骼关节点坐标进行三个方向的二维平面投影得到各二维平面的手语演示过程中的骨骼关节投影点，并将各骨骼关节投影点相连后得到二维图特征；

步骤3、将步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练，得到相应的特征向量，将得到所述特征向量通过第一注意力网络进行权重叠加后得到三维图像特征；

将步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征，将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征；

步骤4、将所述步骤3得到的三维图像特征和骨骼特征相连输入第三注意力网络，得到最终的手语视频特征向量；

步骤5、将手语视频特征向量输入全连接层和softmax层得到概率分布向量，根据所述概率分布向量得出手语识别结果。

本发明实施方式还提供一种多特征融合手语识别神经网络，包括：

三个3D卷积神经网络、第一注意力网络、一个2D卷积神经网络、第二注意力网络和第三注意力网络、全连接层和softmax逻辑回归模型；其中，

所述三个3D卷积神经网络并列设置，三个3D卷积神经网络的输出端均与所述第一注意力网络相连；

第二注意力网络的输出端与所述2D卷积神经网络的输入端相连；

所述第一注意力网络的输出端和所述2D卷积神经网络的输出端均与所述第三注意力网络的输入端相连，该第三注意力网络的输出端依次与所述全连接层和softmax逻辑回归模型相连。

由上述本发明提供的技术方案可以看出，本发明实施例提供的多特征融合手语识别方法及网络模型，其有益效果为：

提供提取手语演示者的运动特性和色彩特性，并设置注意力机制，充分考虑各种特征的权重相对值，对每个特征赋予不同的注意力权重，挖掘了手语识别的时序特征以及不同特征在特征表述中所占有的权重的比例，能更好地优化网络，消除了背景变化的影响，进而得到更为精确的手语识别结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的多特征融合手语识别方法的流程图；

图2为本发明实施例提供的多特征融合手语识别网络模型的构成示意图；

图3为本发明实施例提供的方法中，将手语骨骼关节点的三维数据(x,y,z)投影到3个二维平面中以获取三个二维平面向量(x,y)(x,z)(y,z)的示意图；

图4为本发明实施例提供的方法中，以xy平面为例得到的，以10个手指关节的三维坐标在该xy平面内投影的十个点所得到的十阶完全图；

图中：

RGB为：三维彩色图像；

HOG为：梯度直方图，用于表示图像的轮廓特征；

LBP为：局部二值模式特征，主要表现图像的纹理特征，对于光照有很好的鲁棒性，可以消除手语演示者的演示背景和光照条件变化的影响；

ReLu为：非线性函数：f(x)＝max(0,x)；

T为：单个手语样本抽取的用于表述整个手语视频的关键帧数目C：向量的连接操作；

softmax层为:将输出向量转换为概率分布向量。即，对于输出向量x＝(x₁,x₂,……,x_C)，经过该softmax层后得到的输出向量为：

具体实施方式

下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

如图1所示，本发明实施例提供一种多特征融合手语识别方法，包括如下步骤：

步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据；

根据所述骨骼关节数据，将3D骨骼关节点坐标进行三个方向二维平面投影得到各二维平面的手语演示过程中的骨骼关节投影点，并将各骨骼关节投影点相连后得到二维图特征；

步骤3、将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练，得到相应的特征向量，将得到所述特征向量通过第一注意力网络进行权重叠加后得到三维图像特征；

将所述步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征，将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征；

步骤4、将所述步骤3得到的三维图像特征和骨骼特征进行融合，得到最终的手语视频特征向量；

上述识别方法的步骤1中，获取手语演示者的RGB彩色图像为：

对给定的手语样本进行关键帧采样，获取T帧数据作为手语演示者的RGB彩色图像，并统一RGB彩色图像的尺寸为224×224×3(具体是指像素，即RGB彩色图像的三个通道的每个通道的像素个数为224×224，像素点个数是224×224×3)；

获取骨骼关节数据为：基于Kinect-2.0系统提供的骨骼关节数据。

上述识别方法的步骤2中，从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征为：

通过LBP算子从所述RGB彩色图像中分别提取LBP特征，该LBP特征表示为：

通过HOG算子从所述RGB彩色图像中分别提取HOG特征，该HOG特征表示为：

从所述RGB彩色图像中提取RGB特征，该RGB特征表示为：

上述识别方法的步骤2中，根据所述骨骼关节数据，将3D骨骼关节点坐标进行三个二维平面投影得到二维图特征为：

选取25个骨骼关节点坐标中的10个与手部相关的关节点坐标，将它们分别投影到xy,xz,yz三个二维平面，得到二维平面中的十个点：(x_i,y_i)(1≤i≤10)，这十个点分别相连得到一个10阶完全图，计算每两点之间的距离得到长度为45的数组，作为描述该二维平面内手指关节在整个手语演示过程中的轨迹变化特征；

将三个二维平面的轨迹变化特征相连得到二维图特征，该二维图特征表示为：

上述识别方法的步骤3中，将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练，得到对应的RGB特征向量、HOG特征向量和LBP特征向量，并通过第一注意力网络进行权重叠加后得到三维图像特征为：

将RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中，得到相应的特征向量F_RGB,F_HOG,F_LBP＝(3D_CNN1(f_RGB))，3D_CNN2(f_HOG.)，3D_CNN3(f_LBP))，将该特征向量输入第一注意力网络进行权重叠加后得到三维图像特征：

将所述步骤2得到的二维图特征通过第二注意力网络进行线性加权得到融合特征，将所述融合特征输入2D卷积神经网络中进行训练得到骨骼特征为：

将三个二维平面的特征向量，输入第二注意力网络得到新的特征向量：

将得到的该特征向量

输入2D卷积神经网络中进行训练得到输出特征向量

即为骨骼特征。

上述识别方法的步骤4中，将所述步骤3得到的三维图像特征和骨骼特征相连作为描述该手语视频的最终特征向量：

上述识别方法的步骤5中，将所述步骤4得到的所述手语视频特征向量输入全连接层和softmax层得到概率分布向量为：

将所述步骤4得到的该手语视频的最终特征向量，

输入全连接层和softmax层得到概率分布向量：

上述识别方法还包括：

在网络训练阶段，得到概率分布向量后，以交叉熵函数Error_function＝-∑p_ilogp_i(1≤i≤C)作为损失函数进行反向梯度传播算法进行参数更新。

如图2所示，本发明实施例还提供一种多特征融合手语识别用网络模型，包括：

上述神经网络中，第一、第二和第三注意力网络均采用神经网络领域中的多层感知机作为基本单元。

下面对本发明实施例具体作进一步地详细描述。

本发明实施例提供一种多特征融合手语识别方法，该方法充分发掘了彩色图像和骨骼数据的特征，并且考虑了不同特征的权重值，如图1所示，该方法主要包括如下步骤：

步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据；

步骤2、通过提取RGB彩色图像，利用HOG算子和LBP算子，获取具有几何不变性的梯度直方图特征(即HOG特征)以及对于光照条件变化鲁棒的局部二值模式特征(即LBP特征)；

根据骨骼关节数据特征，将3D骨骼关节点坐标进行三个方向的二维平面投影得到各二维平面的手语演示过程中的骨骼关节投影点，并将各骨骼关节投影点相连后得到二维图特征；具体是对3D关节点坐标进行2D投影获取3个2D平面的N阶完全图，以图中各点之间的距离作为描述手部关节在整个手语演示过程中的轨迹变化特征；

步骤3、将RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练，得到相应的特征向量，将得到所述特征向量通过第一注意力网络进行权重叠加后得到三维图像特征；

将二维图特征通过第二注意力网络进行线性加权得到融合特征，将所述融合特征输入2D卷积神经网络训练得到骨骼特征；

步骤4、将上述步骤3获取的三维图像特征和骨骼特征相连输入第三注意力网络，得到最终的手语视频特征向量；

步骤5、将手语视频特征向量输入全连接层和softmax层得到概率分布向量，根据所述概率分布向量得到手语识别结果。

在整个网络模型设计中，充分考虑了各种特征的权重不同这个特点，添加了第一、第二、第三注意力网络层按注意力机制进行各特征的权重分配，使得到的特征向量能更好地描述手语视频。

上述方法各步骤的具体处理方式如下：

(1)获得图像的RGB特性、HOG特性和LBP特征：

利用HOG算子获取梯度直方图特征的基本步骤为：分割图像；计算梯度图；计算局部图像的梯度直方图，归一化；获取特征向量；

利用LBP算子获取局部二值化特征的基本步骤为：划分图像为若干个胞元；对于每个胞元中的一个像素，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0。产生的8位二进制数即为该窗口中心像素点的LBP值；然后计算每个胞元的直方图，即每个数字出现的频率；然后对该直方图进行归一化处理。将得到的每个胞元的统计直方图进行连接成为一个特征向量；

(2)获取N阶图特征的基本步骤为：

将骨骼关节坐标的3D数据分别投影到三个二维平面中，图2表示了该步骤的示意图；而图3则表示了10个手部关节点坐标在xy平面内的投影所构成的十阶完全图；在手语的演示过程中，不同时刻的手指骨关节在相同平面内的投影不同，这个完全图的形状随着手语演示者手部的运动体现出不同的结构，因此，可将十阶图中每两个关节点的投影点的欧式距离作为描述该时刻手部关节运行轨迹的特征；以xy平面为例，以10个手指关节的三维坐标在该xy平面内投影的十个点得到的十阶完全图，(x_i,y_i)(1≤i≤10)是十个投影点的坐标值，将十个点两两进行连线，能得到

条线段，分别计算这些线段的欧氏距离，得到长度为45的一维数组，作为描述二维平面内骨骼运动轨迹特征的特征向量，具体的，xy平面内，10个投影点两两之间的欧氏距离能表示成如下集合：

1≤i＜j≤10；

这里，将三维坐标分别投影到三个平面，而不是单纯地计算三维空间中10个手指骨关节所构成的空间十阶完全图中两两关节点的欧式距离的原因在于：手语演示者相对于摄影仪的平面，和与该平面正交的两个平面上，手部运动轨迹是有着明显的差别的，所以，将三维运动的轨迹投影到这三个平面，可以充分挖掘三个平面对于手语运动的不同角度的表述能力，可以保证尽可能少地遗漏手指骨关节运动轨迹的信息。

得到了三个方向的二维平面的特征向量之后，将其连接便得到了轨迹运动特征：

对于注意力机制的考虑，主要是由于，如果单纯地像上式那样将三个特征向量叠加，那么就默认了这三个特征向量的权重在叠加过程中是相等的，而结合之前的分析，这显然是不符合直观理解和实际情况的。因此，增加了注意力机制，在三个特征向量相连之后再输入一个3*3的线性映射层，相当于在连接过程中对每个向量添加了一定的注意力权重，如下式所示：

(3)将LBP HOG RGB特征分别输入三个不同的3D卷积神经网络中进行训练，得到相应的特征向量；将骨骼数据输入2D卷积神经网络训练得到特征向量；将特征向量进行融合得到最终的手语视频特征向量，依次输入全连接层和softmax层得到输出概率向量，计算相应的误差函数。

对于每个得到的骨骼二维图特征

输入2D卷积神经网络，经过卷积池化和ReLu操作之后，得到输出特征向量和

预训练阶段，将特征F输入全连接层和Softmax层得到概率分布向量：

其中C是手语词的类别数。

得到概率分布向量之后，以交叉熵函数作为损失函数进行反向梯度传播算法进行网络参数更新：Error_function＝-∑p_i logp_i(1≤i≤C)；

对于LBP特征HOG特征和RGB特征，由于单帧图片获取的特征维数为三维张量，所以采用3D残差网络作为3D卷积神经网络进行分类学习：将RGB HOG LBP特征分别输入三个不同的3D卷积神经网络中，得到相应的特征向量F_RGB,F_HOG,F_LBP＝(3D_CNN1(f_RGB)),3D_CNN2(f_HOG.)，3D_CNN3(f_LBP))；增加注意力层，充分考虑三种特征所占权重的不同，以更好地描述手语视频，得到

将四个特征向量相连作为描述该手语视频的最终特征向量

再将其输入全连接层和Softmax层得到概率分布向量：

根据概率分布向量得到手语识别结果。

本发明的网络模型的损失函数为：得到概率分布向量p＝(p₁,p₂,…,p_C)之后，以交叉熵函数作为损失函数进行反向梯度传播更新：Error_function＝-∑p_i logp_i(1≤i≤C)。

如图4所示，本发明实施例还提供一种多特征融合手语识别用网络模型，包括：

上述神经网络中，各3D卷积神经网络均采用3D残差网络。

本发明通过提取RGB彩色图像，利用HOG算子和LBP算子，获取具有几何不变性的梯度直方图特征以及对于光照条件变化鲁棒的局部二值模式特征。同时，根据骨骼关节数据特征，对3D关节点坐标进行2D投影获取3个2D平面的N阶完全图，以图中各点之间的距离作为描述手部关节在整个手语演示过程中的轨迹变化特征。最后，将相应的特征输入3D CNN和2D CNN，并结合注意力机制进行训练。将各自网络对于各自特征的输出进行叠加得到新的融合特征，将其作为描述手语视频的最终特征，进行网络训练。本发明充分考虑了手语演示者的运动特性和色彩特性，挖掘了手语识别的时序特征以及不同特征在特征表述中所占有的权重的比例，消除了背景变化的影响，提高了手语识别的准确性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种多特征融合手语识别方法，其特征在于，包括如下步骤：

步骤1、获取手语演示者的RGB彩色图像和骨骼关节数据；

步骤3、将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练，得到相应的特征向量，将得到所述特征向量通过第一注意力网络进行权重叠加后得出三维图像特征；

2.根据权利要求1所述的多特征融合手语识别方法，其特征在于，所述方法的步骤1中，获取手语演示者的RGB彩色图像为：

对给定的手语样本进行关键帧采样，获取T帧数据作为手语演示者的RGB彩色图像，并统一RGB彩色图像的尺寸为224×224×3；

3.根据权利要求2所述的多特征融合手语识别方法，其特征在于，所述方法的步骤2中，从所述RGB彩色图像中分别提取LBP特征、HOG特征和RGB特征为：

从所述RGB彩色图像中提取RGB特征，该RGB特征表示为：

4.根据权利要求2所述的多特征融合手语识别方法，其特征在于，所述方法的步骤2中，根据所述骨骼关节数据，将3D骨骼关节点坐标进行三个方向的二维平面投影得到二维图特征为：

5.根据权利要求1至4任一项所述的多特征融合手语识别方法，其特征在于，所述方法的步骤3中，将所述步骤2得到的RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中进行训练，得到对应的RGB特征向量、HOG特征向量和LBP特征向量，将得到所述RGB特征向量、HOG特征向量和LBP特征向量通过第一注意力网络进行权重叠加后得到三维图像特征为：

将RGB特征、HOG特征和LBP特征分别输入三个不同的3D卷积神经网络中，得到相应的特征向量F_RGB,F_HOG,F_LBP＝(3D_CNN1(f_RGB))，3D_CNN2(f_HOG.)，3D_CNN3(f_LBP))，将所述特征向量F_RGB,F_HOG,F_LBP＝(3D_CNN1(f_RGB))，3D_CNN2(f_HOG.)，3D_CNN3(f_LBP))输入第一注意力网络进行权重叠加后得到三维图像特征