CN109753882A

CN109753882A - 基于深度置信网络和多模式特征的手语识别方法

Info

Publication number: CN109753882A
Application number: CN201811525263.9A
Authority: CN
Inventors: 胡勇
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-05-14

Abstract

本发明提供一种基于深度置信网络(Deep Belief Network,DBN)和多模式特征的手语识别方法，涉及图像处理技术和机器学习领域。该方法包括：输入手语图像或视频，对手语图像进行预处理，提取方向梯度直方图(Histogram of Oriented Gradient,HOG)、局部二值模式(Local Binary Patterns,LBP)和Zernike矩等特征作为特征参数，利用深度置信网络进行训练和识别。本发明能实时识别图像中的手语信息，具有较高的识别准确率。

Description

基于深度置信网络和多模式特征的手语识别方法

技术领域

本发明涉及一种基于深度置信网络(DeepBeliefNetwork，DBN)和多模式特征的手语识别方法，属于图像处理技术和机器学习领域。

技术背景

手语指以约定俗成的手势变化(或辅以表情)模拟形象或者音节以构成的一定意义的词语，它是听力障碍、无法言语的人(即聋哑人)互相交际和交流思想的一种手段，是“有声语言的重要辅助工具”，而对于听力障碍的人来说，它则是主要的交流工具。

手语识别的目的是通过计算机提供一种有效且准确的机制，将手语翻译成文本或语音使得聋人和听力正常人之间的交流变得更加方便、快捷。我国目前有两千多万聋人，对手语识别的研究，无疑将直接造福于这个群体，为其提供一种更加自然、更加方便快捷地与健听人交流的途径，以便他们更好地融入社会，这也必将对构建多元关爱的和谐社会产生积极影响。

对于经典的模式识别方法，主要步骤可以分为预处理、特征提取、特征选择(降维或融合等)、训练分类器(或分类)等。通常来说，由于单个特征并不能全面的反映图像信息，因此对每个特征分别进行分类器处理后，得到的信息并不一定准确。因此，将来源不同的特征信息整合到一起，去除冗余得到的融合信息将利于后续的分析处理与识别。从统计结果来看，多融合特征方法进行图像分类比单个特征效果好。

深度学习提出了一种让计算机自动学习模式特征的方法，并将特征学习融入到了建立模型的过程中，从而减少了人为设计特征造成的不完备性。深度信念网络是深度学习里面的基本模型之一，也是机器学习的一个分支，通过生成模型学习联合概率密度分布，可以从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度。

因此，基于深度置信网络的手语识别已经成为国内外研究的热点，其研究具有重要的理论意义和现实意义。

发明内容

本发明提供一种基于深度置信网络(Deep Belief Network，DBN)和多模式特征的手语识别方法，涉及图像处理技术和机器学习领域。该方法包括：输入手语图像或视频，对手语图像进行预处理，提取方向梯度直方图(Histogram of Oriented Gradient，HOG)、局部二值模式(Local Binary Patterns，LBP)和Zernike矩等特征作为特征参数，利用深度置信网络进行训练和识别。本发明能实时识别图像中的手语信息，具有较高的识别准确率。

本发明所要解决的技术问题是：对图像中的手语进行识别。所采用的技术方案是：

步骤1：建立手语图像样本库；该图像样本库包括通用样本库和自行采集的手语样本；

步骤2：对手语图像进行预处理；对图像样本进行预处理，将样本库中每一幅图像转换为灰度图像，以便于后续处理；采用基于灰度直方图的快速分割算法，从手语图像中分离手语区域；

步骤3：对图像中的手语区域多模式特征提取；提取手语区域的多种特征参数，合成能表达该手语的多模式特征信息。经过步骤2预处理之后，提取手语区域的特征参数，并对该特征参数进行串联处理；本发明所提取的特征参数包括：

方向梯度直方图特征，共81维；局部二值模式特征，共256维；Zernike矩特征，共15维；总计352维特征参数；

步骤4：基于深度置信网络的训练过程；具体过程为：首先计算隐层中每个神经元被激活的概率，并通过隐层反推显层。当隐层神经元数量小于显层时，得到最优的模型参数，使得在该参数下RBM表示的可见层节点概率分布尽可能地与训练数据相符合，然后继续训练下一层的RBM，直至最后一层。根据训练得到的模型参数，即可对待分类样本进行识别；

步骤5：基于深度置信网络的识别过程

当识别待分类样本时，根据训练得到的模型参数，在DBN的最顶层增加softmax回归层，输出每一类目标的概率，作为分类识别的结果。

本发明的优点：本发明提供一种基于深度置信网络(Deep Belief Network，DBN)和多模式特征的手语识别方法深度信念网络是深度学习里面的基本模型之一，也是机器学习的一个分支，通过生成模型学习联合概率密度分布，可以从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度，因此具有较高的识别率。

附图说明

图1基于深度置信网络和多模式特征的手语识别算法框架；

图2所示为受限玻尔兹曼机；

图3 Pugeault手语图像样本库；

图4显示了在50％样本参与训练时，各英文字母的识别准确率。

具体实施方式

如图1所示，建立手语图像样本库，对手语图像进行预处理，从手语图像中分离手语区域，提取手语区域的多种特征参数，合成能表达该手语的多模式特征信息。采用对比散度算法训练每层RBM，根据给定的训练样本，调整模型的参数，使得在该参数下RBM表示的可见层节点概率分布尽可能地与训练数据相符合。根据训练得到的模型参数，即可对待分类样本进行识别。

本发明采用如下技术方案：

一种基于深度置信网络和多模式特征的手语识别方法，其步骤如下：

步骤1：建立手语图像样本库；

该图像样本库包括通用样本库(Pugeault手语图像样本库[1])；还包括自行采集的手语样本；样本库中存储的图像均为常用格式(包括：bmp，png，jpg等格式)；

Pugeault手语图像样本库中的图像均为RGB彩色图像，包括24个英文字母，样本库A和B分别对应不同背景。样本库A包含了5位手语使用者的500幅图片，图片总数为120000张。自行采集的手语样本库也包含了相同的英文字母，由3位手语使用者演示，每人采集了50张图片，总共3600张。

步骤2：对图像进行预处理；

对图像样本进行预处理，将样本库中每一幅图像转换为灰度图像，以便于后续处理；采用基于灰度直方图的快速分割算法，从手语图像中分离手语区域；

将彩色RGB图像转换为灰度图像时，采用下式计算灰度值：

Gray＝0.299*R+0.587*G+0.114*B

分割手语区域时，采用基于灰度直方图的最大类间方差算法，具体实现如下：

对于一幅大小为M×N、灰度级数为L的数字图像，图像的总平均灰度记为μ，类间方差记为g。设t为前景与背景的分割阈值，前景点数(灰度值大于阈值t)占图像比例为ω₀，平均灰度为μ₀；背景点数(灰度值小于阈值t)占图像比例为ω₁，平均灰度为μ₁。前景和背景图象的类间方差为：

g＝ω₀*(μ₀-μ)²+ω₁*(μ₁-μ)²

采用遍历的方法得到使类间方差g最大的阈值t，即为最优分割阈值。

步骤3：对图像中的手语区域进行多模式特征提取；

提取手语区域的多种特征参数，合成能表达该手语的多模式特征信息。经过步骤2预处理之后，提取手语区域的特征参数，并对该特征参数进行串联处理；本发明所提取的特征参数包括：

方向梯度直方图特征，共81维；局部二值模式特征，共256维；Zernike矩特征，共15维；总计352维特征参数；各特征计算方式如下：

方向梯度直方图：按照两个一维梯度算子[-101]和[-101]^T计算图像各像素点的梯度(包括大小和方向)；然后将图像按像素划分为6*6的网格，统计每个网格中不同梯度的个数；将9个网格(3*3)组成一个区域，一个区域内所有网格的特征串联起来便得到该区域的HOG特征；所有区域的HOG特征串联起来就可以得到该图像的HOG特征。

局部二值模式：采用下式计算每个像素点的LBP值：

其中：P表示周边像素点的个数，R表示半径，g_c表示中心像素点的灰度值，g_p表示周边像素点的灰度值。旋转和灰度不变的LBP值由下式得到：

其中：

统计变换后的图像直方图，即可得到局部二值模式特征。

Zernike矩：对于灰度图像f(x，y)，采用下式计算图像的Zemike矩：

其中：λ为归一化系数，x²+y²≤1。

步骤4：基于深度置信网络的训练过程

深度置信网络(Deep BeliefNetwork，DBN)，是神经网络的一种，由若干层神经元构成，组成元件是受限玻尔兹曼机(Restricted Boltzmann Machines，RBM)。RBM是一种神经感知器，由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接。采用对比散度算法训练每层RBM，这个学习过程是无监督的，所以不需要标签信息。对于给定的训练样本，训练RBM就是调整模型的参数，以拟合给定的训练样本，使得在该参数下RBM表示的可见层节点概率分布尽可能地与训练数据相符合。具体过程为：首先计算隐层中每个神经元被激活的概率，并通过隐层反推显层。当隐层神经元数量小于显层时，得到最优的模型参数，使得在该参数下RBM表示的可见层节点概率分布尽可能地与训练数据相符合，然后继续训练下一层的RBM，直至最后一层。根据训练得到的模型参数，即可对待分类样本进行识别。

一个RBM的能量可以用下面函数表示：

如图2所示，其中：v是输入向量，h是输出向量，任意两个相连的神经元之间有一个权值ω表示其连接强度，每个神经元自身有一个偏置系数b和c分别表示显层神经元和隐层神经元的权重。

在一个RBM中，隐层神经元h_j和显层神经元v_i被激活的概率分别为：

P(h_j|v)＝σ(b_j+∑_iW_i，jx_i)

P(v_i|h)＝σ(c_i+∑_jW_i，jh_j)

当特征向量赋给显层后，RBM根据上述公式计算出每个隐层神经元被激活的概率，取一个0～1的随机数μ作为阈值，大于该阈值的神经元则被激活，否则不被激活。

采取Gibbs抽样抽取一个样本h₁，通过隐层反推显层，利用公式计算显层中每个神经元被激活的概率P(v₂|h)，通过v₂再次计算隐层中每个神经元被激活的概率，得到概率分布P(h₂|v₂)，然后更新权重ω，b，c：

ω←ω+λ{P(h1|v₁)v₁-P(h2|v₂)v₂}

b←b+λ{v₁-v₂}

c←c+λ{h₁-h₂}

多次(一般指50-100次)迭代之后，隐层不仅能较为精准地显示显层的特征，同时还能够还原显层。

步骤5：基于深度置信网络的识别过程

当识别待分类样本时，根据训练得到的模型参数，在DBN的最顶层增加softmax回归层，输出每一类目标的概率，作为分类识别的结果。softmax回归模型是logistic回归模型在多类问题上的扩展，通过下式计算输入样本x归类为类别j的概率：

其中：θ标识训练得到的所有参数。

计算出该输入样本x从属于个各类的k个概率，选取概率最大的类作为最终分类结果。

我们利用对数最大似然估计可以得到损失函数：

实验结果及分析

为了验证本发明所述的基于深度置信网络和多模式特征的手语识别方法的系统性能，建立了手语图像样本库，该图像样本库包括通用样本库(Pugeault手语图像样本库[1])；还包括自行采集的手语样本。Pugeault手语图像样本库中的图像均为RGB彩色图像，包括24个英文字母，样本库A和B分别对应不同背景。样本库A包含了5位手语使用者的500幅图片，图片总数为120000张。自行采集的手语样本库也包含了相同的英文字母，由3位手语使用者演示，每人采集了50张图片，总共3600张，如图3所示。

在测试实验中，设定深度置信网络为三层，并采用交叉实验验证方式，实验中的训练样本和测试样本相互独立。通过调整训练样本与测试样本的比例，测试算法的实际性能。表1显示了不同比例下的识别结果(训练样本的比例逐渐增加，测试样本均为样本全集)。

表1当训练样本的比例变化时的准确率

Claims

1.基于深度置信网络和多模式特征的手语识别方法，其步骤如下：

步骤1：建立手语图像样本库；

该图像样本库包括通用样本库，还包括自行采集的手语样本；样本库中存储的图像均为bmp,png,jpg格式；

步骤2：对图像进行预处理；

对图像样本进行预处理，将每一幅图像转换为灰度图像，以便于后续处理；采用基于灰度直方图的快速分割算法，从手语图像中分离手语区域；

将彩色RGB图像转换为灰度图像时，采用下式计算灰度值：

Gray＝0.299*R+0.587*G+0.114*B

对于一幅大小为M×N、灰度级数为L的数字图像，图像的总平均灰度记为μ，类间方差记为g；设t为前景与背景的分割阈值，前景点数占图像比例为ω₀，平均灰度为μ₀；背景点数占图像比例为ω₁，平均灰度为μ₁；前景和背景图象的类间方差为：

g＝ω₀*(μ₀-μ)²+ω₁*(μ₁-μ)²

采用遍历的方法得到使类间方差g最大的阈值t，即为最优分割阈值；

步骤3：对图像中的手语区域进行多模式特征提取；

经过步骤2预处理之后，提取手语区域的特征参数，并对该特征参数进行串联处理；所提取的特征参数包括：

方向梯度直方图：按照两个一维梯度算子[-1 0 1]和[-1 0 1]^T计算图像各像素点的梯度即包括大小和方向；然后将图像按像素划分为6*6的网格，统计每个网格中不同梯度的个数；将9个网格即3*3，组成一个区域，一个区域内所有网格的特征串联起来便得到该区域的HOG特征；所有区域的HOG特征串联起来就可以得到该图像的HOG特征局部二值模式：采用下式计算每个像素点的LBP值：

其中：P表示周边像素点的个数，R表示半径，g_c表示中心像素点的灰度值，g_p表示周边像素点的灰度值，旋转和灰度不变的LBP值由下式得到：

其中：

统计变换后的图像直方图，即可得到局部二值模式特征；

Zernike矩：对于灰度图像f(x,y)，采用下式计算图像的Zernike矩：

其中：λ为归一化系数，x²+y²≤1；

步骤4：基于深度置信网络的训练；

深度置信网络，是神经网络的一种，由神经元构成，组成元件是受限玻尔兹曼机，RBM是一种神经感知器，由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接；具体过程为：首先计算隐层中每个神经元被激活的概率，并通过隐层反推显层；当隐层神经元数量小于显层时，得到最优的模型参数，使得在该参数下RBM表示的可见层节点概率分布尽可能地与训练数据相符合，然后继续训练下一层的RBM，直至最后一层；

一个RBM的能量可以用下面函数表示：

其中：v是输入向量，h是输出向量，任意两个相连的神经元之间有一个权值ω表示其连接强度，每个神经元自身有一个偏置系数b和c分别表示显层神经元和隐层神经元的权重；

P(h_j|v)＝σ(b_j+∑_iW_i,jx_i)

P(v_i|h)＝σ(c_i+∑_jW_i,jh_j)

当特征向量赋给显层后，RBM根据上述公式计算出每个隐层神经元被激活的概率，取一个0～1的随机数μ作为阈值，大于该阈值的神经元则被激活，否则不被激活；

采取Gibbs抽样抽取一个样本h₁，通过隐层反推显层，利用公式计算显层中每个神经元被激活的概率P(v₂|h)，通过v₂再次计算隐层中每个神经元被激活的概率，得到概率分布P(h₂|v₂)，然后更新权重ω,b,c：

ω←ω+λ{P(h1|v₁)v₁-P(h2|v₂)v₂}

b←b+λ{v₁-v₂}

c←c+λ{h₁-h₂}

50-100次，迭代之后，隐层不仅能较为精准地显示显层的特征，同时还能够还原显层；

步骤5：基于深度置信网络的识别过程

当识别待分类样本时，在DBN的最顶层增加softmax回归层，输出每一类目标的概率，作为分类识别的结果；softmax回归模型是logistic回归模型在多类问题上的扩展，通过下式计算输入样本x归类为类别j的概率：

其中：θ标识训练得到的所有参数；

计算出该输入样本x从属于个各类的k个概率，选取概率最大的类作为最终分类结果；

我们利用对数最大似然估计可以得到损失函数：

2.根据权利要求1所述的基于深度置信网络和多模式特征的手语识别方法，其特征在于，步骤2中,前景点数指灰度值大于阈值t。

3.根据权利要求1所述的基于深度置信网络和多模式特征的手语识别方法，其特征在于，步骤2中,背景点数指灰度值小于阈值t。