CN102289666A

CN102289666A - 一种基于中值滤波和Hu矩向量的手语识别方法

Info

Publication number: CN102289666A
Application number: CN201110259106XA
Authority: CN
Inventors: 崔荣基; 殷伟; 李苗
Original assignee: Guangdong Zhongdaxuntong Software Science & Technology Co Ltd
Current assignee: Guangdong Zhongdaxuntong Software Science & Technology Co Ltd
Priority date: 2011-09-02
Filing date: 2011-09-02
Publication date: 2011-12-21

Abstract

本发明公开一种基于中值滤波和Hu矩向量的手语识别方法，包括以下步骤：步骤1：获取待识别手语的彩色图像；步骤2：对获取到的彩色图像进行归一化处理；步骤3：对彩色图像进行灰度变换处理；步骤4：对灰度图像进行中值滤波处理；步骤5：提取处理后的手语图像的矩不变量得到待匹配图像的特征向量；步骤6：计算待匹配图像与手语标准图像的特征向量之间的欧氏距离；步骤7：识别手语。本发明通过中值滤波和灰度处理等图像预处理降低了待识别图像对光照和噪声等的敏感度，图像的Hu特征向量整体描述手语信息，克服图像分割造成的边缘信息的缺失，中值滤波和Hu矩向量相结合识别手语的方法，可以有效的改善手语识别效果，提高手语识别的正确率。

Description

一种基于中值滤波和Hu矩向量的手语识别方法

技术领域

本发明涉及数字几何图像的简化处理领域，特别涉及一种基于中值滤波和Hu矩向量的手语识别方法。

背景技术

随着语音识别和图像处理的研究，越来越多的研究者致力于帮助聋哑人和正常人进行正常沟通交流。同时近年来手势识别也受到越来越多的重视，成为和指纹、人脸同等重要的识别方式。手语是一种通过动作来表达信息的语言，“手形是它的物质载体，通过手的形状、位置、运动来传递信息”。为了使聋哑人或听觉障碍者更好地实现远程交流，手语识别成为目前研究者重点关注的问题之一。

目前手语识别的研究按照采集手语的输入设备可以分为两种：依靠数据手套、视觉设备和肘部弯曲传感器等辅助设备的手语识别和基于视觉技术的手语识别。利用数据手套作为输入设备的方法是用户通过一种佩戴特殊的数据手套，做出各种手语动作，通过一种位置跟踪器把手的姿势、手的运动空间的数据传输给计算机。另外，近年来研究者越来越多的使用图像处理的方法进行手语识别，并且取得了一定的效果。基于计算机视觉的手语识别方法是利用摄像机等图像采集设备输入手势，其方法的显著优点是打手语者不用佩戴复杂的数据手套，基本不受设备约束和影响。目前基于图像处理的的手语识别大多采用图像分割的方法。然而，上述方案存在以下缺点：(1)利用数据手套作为输入设备的方法，设备昂贵且携带不方便，而且给用户带来许多不便(如出汗)，从而很难得到大规模的应用。(2)基于图像处理的的手语识别大多采用图像分割的方法，但是，目前还没有一种边缘分割的方法可以达到很好的处理方法，必然导致图像数据的缺失。

因此，有必要提供一种基于中值滤波和Hu矩向量的手语识别方法来弥补上述缺陷。

发明内容

本发明的目的在于提供一种能够提高手语图像的正确识别率，具有较好的鲁棒性，有效改善手语识别效果的手语识别方法。

为实现上述目的，本发明提供一种基于中值滤波和Hu矩向量的手语识别方法，包括以下步骤：步骤1：获取待识别手语的彩色图像；步骤2：对获取到的彩色图像进行归一化处理；步骤3：对彩色图像进行灰度变换处理；步骤4：对灰度图像进行中值滤波处理；步骤5：提取处理后的手语图像的矩不变量得到待匹配图像的特征向量；步骤6：计算待匹配图像与手语标准图像的特征向量之间的欧氏距离；步骤7：识别手语。

较佳地，所述步骤2中的归一化处理将图像统一成480*640。

较佳地，所述步骤3的灰度变换将图像变换成8位灰度图像。

具体地，所述步骤4进一步包括以下步骤：步骤41：取得新采样；步骤42：判断输入的采样是否代表信号；若是，继续步骤43；若否，重复步骤41；步骤43：使用滑动窗口处理窗口中的数值；步骤44：输出中值。

较佳地，所述步骤7的识别手语的步骤为：比较待匹配图与手语标准图特征向量的欧氏距离，当两者的欧氏距离为最小值时，判断该标准手语为对应的待识别手语。

与现有技术相比，本发明所提供的一种基于中值滤波和Hu炬向量的手语识别方法，结合中值滤波与不变矩特征量，更好的克服手语图像采集中光照不均的影响和传统手语识别中基于图像分割造成的边缘信息损失。对于外界环境不同不可避免造成的手语图像旋转、缩放和平移等图像的非本质性改变具有很好的鲁棒性。特别是对含有椒盐噪声信噪比较高的图像具有很好的效果，可以有效的改善手语识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明的基于中值滤波和Hu矩向量的手语识别方法的流程图；

图2为图1中步骤S104的子流程图；

图3a及图3b为本发明实施例中代表字母的一手语图像的不同角度的示意图；

图4为图1中步骤S107的子流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如上所述，本发明提供一种基于中值滤波和Hu矩向量的手语识别方法，通过中值滤波和Hu矩特征量相结合识别手语的方法，可以有效的改善手语识别效果。通过中值滤波和灰度处理等图像预处理降低了待识别图像对光照和噪声等的敏感度，而且对降低计算难度和提高手语的识别准确率上都有明显的改善。图像的7Hu特征向量整体描述手语信息，克服图像分割造成的边缘信息的缺失，而且Hu矩向量对于外界环境不同不可避免造成的手语图像旋转、偏移、缩放等都有很好的鲁棒性，从而提高手语正识率。

参考图1，本发明的基于中值滤波和Hu矩向量的手语识别方法，包括以下步骤：步骤S101：获取待识别手语的彩色图像；步骤S102：对获取到的彩色图像进行归一化处理；步骤S103：对彩色图像进行灰度变换处理；步骤S104：对灰度图像进行中值滤波处理；步骤S105：提取处理后的手语图像的矩不变量得到待匹配图像的特征向量；步骤S106：计算待匹配图像与手语标准图像的特征向量之间的欧氏距离；步骤S107：识别手语。

具体地，步骤S 101利用摄像头或其它图像采集设备来获取待识别手语图像，所获取的手语图像为彩色图像。步骤S102及步骤S103为对手语图像的预处理，由于Hu矩适用于提取整幅手语图像中的像素的相对分布特征，因此在图像采集过程中含有大量的背景噪声信息或者是手臂占有大部分空间也会对识别结果产生较大的影响，因此需要对图像进行预处理。本发明采用灰度变换和中值滤波进行图像预处理。图像预处理的目的是除去图像中的大量噪声信息，突出手语图像中的手语细节信息，预处理的优劣直接影响识别手语图像提取特征的准确度。不同设备采集到的图像大小不一，本发明实施例首先对图像进行归一化处理，统一成480*640。由于摄像光照程度、成像设备的非线性或图像记录设备动态范围太窄等因素，对图像都会产生对比度不足的弊病，使手语图像细节分辨不清，为了减少背景、肤色等噪声的影响，本发明将原始图像进行灰度变换，统一成8位灰度图像。

参考图2，所述步骤S104进一步包括以下步骤：步骤41：取得新采样；步骤42：判断输入的采样是否代表信号；若是，继续步骤43；若否，重复步骤41；步骤43：使用滑动窗口处理窗口中的数值；步骤44：输出中值。具体地，中值滤波是一种典型的非线性滤波技术，在一定条件下可以克服线性滤波器如最小均方滤波、均值滤波等带来的图像细节模糊，而且对滤除图像噪声非常有效。由于在实际计算过程中不需要图像的统计特征，因此使用非常方便。中值滤波是一种基于空域排序统计的图像降噪方法，是一种非线性平滑技术，对脉冲干扰级椒盐噪声的抑制效果特别好，在抑制随机噪声的同时能有效保护边缘少受模糊。它将每一象素点的灰度值设置为该点某邻域窗口内的所有象素点灰度值的中值，从而消除孤立噪声点，可以在有效抑制噪声的同时有效地保留图像的细节信息，适合对于手语图像的预处理操作，标准一维中值滤波器的定义为

y_k＝med{X_K-N，X_K-N+1，...X_K，...X_K+N-1，X_K+N}

式中，med表示取中值操作。

中值滤波主要是检查输入信号中的采样并判断它是否代表了信号，使用滑动窗口处理窗口中的数值，使用中值作为输出值，取得新的采样，然后重复上面的计算过程。具体滤波方法是对滑动滤波窗口(2N+1)内的像素作大小排序，滤波结果的输出像素值规定为该序列的中值。预处理后有效的去除手语采集图像中的椒盐噪声，而且能够克服光照等外界环境变化造成的影响。

所述步骤S105具体为，通过提取图像Hu矩不变量对旋转、缩放和平移等非本质性变换具有很强的鲁棒性，提取图像整体信息作为识别基础，不需要对图像进行分割，同时避免了图像分割带来的数据损失。7Hu矩不变量蕴含丰富的图像信息，使用它们并选用适当的局部特征描述子就能近似描述整幅图像的特征，从而减少了特征提取的复杂度。Hu将代数不变量理论用于归一化的中心矩，构造出了以下7个平移、旋转和尺度不变矩。利用Hu不变矩进行图像识别和图像匹配是一个重要方法，Hu不变量可以用以下7个公式表示：

M₁＝η₂₀+η₀₂

M_{2} = {(η_{20} - η_{02})}^{2} + {4 η}_{11}^{2}

M₃＝(η₃₀-η₁₂)²+(3η₂₁-η₀₃)²

M₄＝(η₃₀+η₁₂)²+(η₂₁-η₀₃)²

M₃＝(η₃₀-3η₁₂)(η₃₀+η₁₂)[η₃₀+η₁₂)²-3(η₂₁-η₀₃)²]+(3η₂₁-η₀₃)(η₂₁+η₀₃)[3(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]

M₆＝(η₂₀-η₀₂)[(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]+4η₁₁(η₃₀+η₁₂)(η₂₁+η₀₃)²

M₇＝(3η₂₁-η₀₃)(η₃₀+η₁₂)[(η₃₀+η₁₂)²-3(η₂₁+η₀₃)²]+(3η₁₂-η₀₃)(η₂₁+η₀₃)[3(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]

规格化的中心距ηX定义为

其中r＝(p+q+2)/2，p+q＝2，3，...

η_{pq} = {&Integral;}_{- \infty}^{+ \infty} {&Integral;}_{- \infty}^{+ \infty} {(x - x_{i})}^{p} {(y - y_{i})}^{q} f (x, y) dxdy

(p＝1，2，3；q＝1，2，3)

x_i＝m₁₀/m₀₀，y_i＝m₁₀/m₀₀

式中：

m_{uv} = {&Integral;}_{- \infty}^{+ \infty} {&Integral;}_{- \infty}^{+ \infty} x^{u} y^{v} f (x, y)

(u＝0，1；v＝0，1)

7Hu矩不变量的计算量不同，同时包含的信息量也不同。而图像的主要信息主要包含在计算量较小的低阶矩中，各图像高阶矩之间的差异不易区分，同时含有较多的细节噪声信息。图像特征向量包含了后续手语图像匹配决策的全部信息而且计算量明显减少。为充分利用图像整体信息，因此本发明使用全部的7Hu不变矩特征量作为手语图像整体形状描述的特征向量，形成特征空间(M1，M2，M3，M4，M5，M6，M7)。矩不变量具有位移、大小、形状不变性，适合描述目标的整体形状，在模式识别和图像匹配等方面表现出明显的优势。

图3和图4是同一字母旋转前后的图片，分别计算两幅图像Hu矩可以得出特征向量M1＝(0.00151792.3276e-0073.8814e-0113.2689e-011-2.0091e-0226.1057e-0151.1469e-021)和M2＝(0.00151792.3276e-0073.8814e-0113.2689e-011-2.0091e-0226.1057e-011.1469e-021)。可以看出，图像Hu矩特征向量不随图像的旋转而发生改变。通过公式计算也能证明图像的旋转，平移、缩放也不会对Hu矩特征向量产生影响。证明如下：

平移不变性：设f(x，y)在x与y方向的平移量分别为a与b，则平移后的几何矩表达式是

{m_{pq}}^{'} = {&Integral;}_{- \infty}^{+ \infty} {&Integral;}_{- \infty}^{+ \infty} {(x - a)}^{p} {(y - b)}^{q} f (x, y) dxdy

通过上式具体推导，求得如下各级集合矩：

m₀₀′＝m₀₀

m₁₀′＝m₁₀-am₀₀

m₀₁′＝m₀₁-bm₀₀

m₂₀′＝m₂₀-2am₁₀+a²m₀₀

m₀₂′＝m₀₂-2bm₀₁+b²m₀₀

于是，平移后的几何矩

{M_{1}}^{'} = {m_{20}}^{'} + {m_{02}}^{'} - \frac{{({m_{10}}^{'})}^{2}}{{m_{00}}^{'}} - \frac{{({m_{01}}^{'})}^{2}}{{m_{00}}^{'}} = m_{20} + m_{02} - \frac{{(m_{10})}^{2}}{m_{00}} - \frac{{(m_{01})}^{2}}{m_{00}} = M_{1}

由此可见几何矩的平移不变性。同理，图片旋转角度α或者缩放比例为β时Hu矩不变量保持不变。这一优点正好可以弥补通过摄像头或其它采集设备提取手语图像易产生图像旋转、平移等的缺陷。Hu在连续空间中也证明了上述7Hu矩组对图像的平移、缩放和旋转是不变的。本发明通过图像的7Hu矩特征向量，可以很好的解决手语识别过程中图像的缩放、旋转和平移等非本质变化所带来的问题，提高算法的鲁棒性。

因为不变矩特征描述图像的整体特征，因此对于旋转，缩放，平移等图像的非本质性变化具有很好的鲁棒性，在手语图像的匹配和识别的过程中表现出一定的优势。避免图像分割造成图像边缘信息缺失，提取图像7Hu矩作为识别的特征信息。对预处理后的图像分别用7个公式提取待匹配图像7个Hu矩不变量，得到待匹配图像的特征向量(M1，M2，M3，M4，M5，M6，M7)。

参考图4，较佳地，所述步骤S107的识别手语的步骤为：比较待匹配图与手语标准图特征向量的欧氏距离，当两者的欧氏距离为最小值时，判断该标准手语为对应的待识别手语。本发明通过计算待匹配图像和标准手语图像7Hu矩向量之间的欧式距离识别手语图像。欧氏距离在数字图像处理中具有广泛应用，与Hu矩向量融合对于图像的旋转，缩放和平移等图像非本质性改变具有很好的鲁棒性，能取得较好的效果。待匹配图像的Hu矩特征向量与标准手语样本向量进行比较和匹配，以便建立待匹配图像和标准图像之间的一致性关系，主要用于模式识别、手语匹配。

欧氏距离通常用来计算两个向量之间的整体距离，即相似程度，它是在n维空间中两个点之间的真实距离。标准样本向量x与y之间的欧氏距离定义为

D (x, y) = | | X - Y | | = sqrt (Σ_{i = 1}^{n} {(x_{i} - y_{i})}^{2})

式中：X为标准手语图像的矩向量，Y为待识别手语字母的矩向量，n为特征空间的维数。提取待识别手语图像的特征向量后，通过欧式距离进行手语识别。当待识别手语与标准手语最为相似时，两者的欧式距离最小。

以上对本发明实施例所提供的一种基于中值滤波和Hu矩向量的手语识别方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于中值滤波和Hu矩向量的手语识别方法，其特征在于，包括以下步骤：

步骤1：获取待识别手语的彩色图像；

步骤2：对获取到的彩色图像进行归一化处理；

步骤3：对彩色图像进行灰度变换处理；

步骤4：对灰度图像进行中值滤波处理；

步骤5：提取处理后的手语图像的矩不变量得到待匹配图像的特征向量；

步骤6：计算待匹配图像与手语标准图像的特征向量之间的欧氏距离；

步骤7：识别手语。

2.如权利要求1所述的方法，其特征在于，所述步骤2中的归一化处理将图像统一成480*640。

3.如权利要求1所述的方法，其特征在于，所述步骤3的灰度变换将图像变换成8位灰度图像。

4.如权利要求1所述的方法，其特征在于，所述步骤4进一步包括以下步骤：

步骤41：取得新采样；

步骤42：判断输入的采样是否代表信号；若是，继续步骤43；若否，重复步骤41；

步骤43：使用滑动窗口处理窗口中的数值；

步骤44：输出中值。

5.如权利要求1所述的方法，其特征在于，所述步骤7的识别手语的步骤为：比较待匹配图与手语标准图特征向量的欧氏距离，当两者的欧氏距离为最小值时，判断该标准手语为对应的待识别手语。