CN115240224A

CN115240224A - 基于三维手部关键点和图像特征融合的手势特征提取方法

Info

Publication number: CN115240224A
Application number: CN202210868671.4A
Authority: CN
Inventors: 林志坚; 杜小勇; 陈小培; 陈平平; 张海忠
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-10-25

Abstract

本发明提供了一种基于三维手部关键点和图像特征融合的手势特征提取方法，使用MediaPipe hands三维手部关键点提取网络从单一的RGB手势图片中回归出21个手部关键点的三维坐标，并根据这些坐标点构造手指弯曲角度特征以及手指交叉特征作为手势局部特征。同时根据图像分割算法辅以手部关键点的定位，得到二值化的手部图像，并计算图像的7个Hu不变矩，作为手势图像的全局特征。最后将手势的局部特征与全局特征进行融合，得到融合后的手势特征。应用本技术方案可得到一种更具表征意义的静态手势特征。

Description

基于三维手部关键点和图像特征融合的手势特征提取方法

技术领域

本发明涉及手势识别技术领域，特别是一种基于三维手部关键点和图像特征融合的手势特征提取方法。

背景技术

手势是一种自然、直观的人类行为语言，与身体其他部位相比，手势往往能传递更多的行为信息，因此手势识别也是人机交互中最强大有效的一种方式。手势可以分为静态手势识别和动态手势识别两类，静态手势识别通过不同的手形来区分不同的手势，而动态手势识别则是依据手掌和手臂的运动轨迹和运动时间提取出行为意义进而识别出对应的动作。静态手势识别相比于动态手势识别计算成本更低，每次识别只需要处理单帧图像即可，所以静态手势识别被广泛应用在各种人机交互领域。

静态手势识别的识别方法可以主要分为两类：基于传感器的识别和基于计算机视觉的识别。基于传感器的手势识别通过微控制器或特定的传感器可以获得手的各项数据，常用于手势识别的传感器如：数据手套、深度相机Kinect、Leap Motion等。基于传感器的手势识别方法可以获得更高的识别准确率，但是这些方法都需要专用的设备，而这些设备往往都比较昂贵。因此，一些研究人员提出了基于计算机视觉的手势识别方法。这种识别方法只需要普通的RGB摄像头拍摄包含手部的图像，再对该图像进行手势分割、二值化、特征提取、手势分类后即可获得具体的静态手势识别结果。这种识别方法具有较好的泛用性以及低成本特性，但是手是一个三维物体，二维图像无法完全表示所有的手势特征，在识别准确率上不如基于传感器的方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于三维手部关键点和图像特征融合的手势特征提取方法，使用三维手部关键点构造的手指局部特征与手势图像的全局特征相融合，得到一种更具表征意义的静态手势特征。

为实现上述目的，本发明采用如下技术方案：基于三维手部关键点和图像特征融合的手势特征提取方法，包括以下步骤：

步骤1:采用MediaPipe hands作为三维手部关键点提取网络，获得21 个手部关键点坐标；

步骤2:根据几何数学方法计算手指关节的弯曲角度以及交叉特征；

步骤3:利用综合多要素的图像处理方法对原始的手势图像进行分割，然后对分割后的手势图像进行二值化处理，在二值化的图像上提取图像特征；

步骤4:采用级联的方式将三维手部关键点构造的手指局部特征与手势图像的全局特征相融合，得到融合的静态手势特征。

在一较佳的实施例中，MediaPipe hands由一个手掌检测网络Blaze Palm 与一个回归网络组成的手部关键点检测网络，包含手部的图像数据经过该网络模型推理后产生21个手部关键点的3维坐标，以及左右手信息；坐标的顺序如下：第一个坐标是手腕，也就是底点，拇指的坐标从底部开始是1 至5，食指从底点开始是6至9；手部关键点在图像上的坐标系为：原点为图像左上角，水平向右为x轴正方向，竖直向下为y轴正方向，垂直图片向里为z轴正方向。

在一较佳的实施例中，将所有坐标点归一化到以手腕关键点为坐标原点的坐标系中，并将手掌图像旋转到一个固定的视图上。

在一较佳的实施例中，所述步骤2具体包括以下步骤：

步骤21:采用改进的Min-Max归一化方法，将所有坐标点映射到[0,1] 的区间，改进的Min-Max归一化公式如公式(1)所示

其中x_i,n是归一化之前的数据，min(x_i)、max(x_i)分别代表该数组中的最小值和最大值，i代表维度数，n是该维度中数据的个数，x′_i,n是归一化后的数据；

随后根据坐标变换公式，即将图像坐标系从以图像左上角为原点的右手坐标系，变换到以手腕关键点为原点的右手坐标系；坐标变换公式如式 (2)所示

其中x_i、y_i、z_i为21个手部关键点变换前的坐标，x₀、y₀、z₀为手腕关键点的坐标，x′_i、y′_i、z′_i为21个手部关键点变换后的坐标。

步骤22:以手腕关键点、食指掌指关键点、小指掌指关键点构成的平面代表手掌平面；定义手腕关键点指向食指、小指掌指关键点连线的中点的向量作为手掌正方向，该方向上的单位向量

定义手腕关键点指向食指关键点和小指关键点的向量分别为

根据MediaPipe hands得到的左右手信息，分别计算两个向量的外积，若是右手则是

若是左手则是

计算结果即是手掌法向量，其单位向量记为

定义

为手掌水平向量，记为

由向量

作为手部的随体坐标系；最后得到坐标系

旋转到坐标系

时的旋转矩阵，将所有关键点按公式(3)进行旋转，得到手势的正视图图像；

其中[x,y,z]为关键点在固定坐标系下的坐标，[x′,y′,z′]为关键点在随体坐标系下的坐标。

步骤23:计算每个手指关节的弯曲角度，通过连接各个手指关节关键点得到代表手指骨骼的向量，之后通过向量夹角计算公式得到各个手指关节的弯曲角度以及相邻手指间的角度；

步骤24:将每个手指的向量

投影到xOy平面上，根据线段交叉公式判断每个手指是否交叉。

在一较佳的实施例中，所述步骤23具体为：定义手腕关键点到掌指关键点的向量为

指掌关键点到近侧指间关键点的向量为

指掌关键点到指尖关键点的向量为

其中i＝0,1···5；则俯仰角α通过计算向量

与

之间的夹角得到，指形角β通过计算向量

与

之间的夹角得到；由每个手指的

向量计算相邻手指的夹角θ。

在一较佳的实施例中，所述步骤3具体包括以下步骤：

步骤31:手势分割方案为：首先根据手部关键点在X与Y轴上的最大最小值构成一个矩形，并截取矩形部分的图像，随后将裁剪后的图像由RGB 空间转换为YCbCr色彩空间，随后使用OTSU自适应阈值分割算法分割获得二值化的手部区域，并通过图像腐蚀膨胀算法消除二值图像中的孤立噪声和边缘凸起，最后使用最大连通域算法，从而消除图像中的小型类肤色区域，找到图像中的手势区域；

步骤32:在获得去噪的二值化手部图像后，计算手部图像的7个Hu不变矩，得到整体手势图像的形状特征。

在一较佳的实施例中，步骤31具体包括以下步骤：

步骤311:根据步骤2获得的手部关键点坐标，得到X与Y方向上的最大值和最小值：x_max、x_min、y_max、y_min，在图像上截取范围为 [x_min～x_max,y_min～y_max]内的图像，对手势图像进行初步的分割；

步骤312:截取后的手势图像为RGB色彩空间，需要将该图像转换到 YCbCr色彩空间后进行肤色分割，通过线性转换从RGB色彩空间到YCbCr 色彩空间转换，转换公式公式如公式(4)所示

其中R、G、B分别表示RGB色彩空间中红色、绿色、蓝色分量的亮度，Y、Cb、Cr分别表示YCbCr色彩空间的明亮度、蓝色色度、红色色度；

步骤313:采用OTSU自适应阈值分割算法将手部区域与背景区域分割开来；找到一个使得分割的前景与背景之间的灰度方差最大的值τ，具体算法如下：

从0-255个灰度级遍历τ，当阈值为k时，像素被分配到前景的概率为 p_A(k)，前景的平均灰度为m_A(k)，像素被分配到背景的概率为p_B(k)，背景的平均灰度为m_B(k)，则得到图像的总平均灰度m_G为 m_G＝p_A(k)*m_A(k)+p_B(k)*m_B(k)，其中p_A(k)+p_B(k)＝1；根据方差的概念得到此时图像的方差为：σ²＝p_A(k)(m_A(k)-m_G)²+p_B(k)(m_B(k)-m_G)²；

进行手势分割后，将分割后的手部图像置为白色，背景图像置为黑色，得到二值化的手部图像；

步骤314:利用图像的膨胀算法扩展二值图像的亮色区域，反之腐蚀算法扩展图像中的暗色区域；使用3×3全1矩阵对图像进行腐蚀膨胀操作；

步骤315:使用标记连通性的方法消除类肤色模型分割生成的块；设二值图像中的每个区域为{a_i∣i＝1,2,···}，然后计算每个被标记区域的面积值为 S_i，找到其中面积最大的区域S_max就是分割后的手势区域。

在一较佳的实施例中，计算7个Hu不变矩的算法步骤如下：

二值化后的手势图像是一个二维的离散信号，手势图像的(p+q)阶矩如公式(5)所示：

其中f(x,y)是图像的灰度值，x、y为图像中各像素点的坐标，p、q为图像矩阶数，C和R分别是图像的宽度和高度；

对应图像的(p+q)阶中心矩如公式(6)所示：

其中

m₀₀表示图像的零阶矩，m₀₁和m₁₀分别表示图像一阶矩的第一参数和第二参数，(x₀,y₀)为手势图像质心坐标；

利用零阶中心矩u₀₀对各阶中心矩进行归一化处理，得到归一化的中心矩，计算公式如公式(7)所示

其中u_pq为(p+q)阶中心矩，u₀₀ ^r为零阶中心矩的r次方，η_pq为归一化的 (p+q)阶中心矩。

最后通过手势图像的二阶和三阶归一化中心矩的线性组合得到如公式 (8)所示的7个Hu不变矩；

根据7个不变矩的具体计算公式对手势图像进行特征提取，形成的特征向量为H＝(φ₁,φ₂,φ₃,φ₄,φ₅,φ₆,φ₇)。

与现有技术相比，本发明具有以下有益效果：

(1)使用MediaPipe hands获得手部关键点的三维坐标值，根据这些坐标计算获得手指的弯曲角度特征以及手指之间的交叉特征。

(2)使用图像分割算法得到二值化的手势图像，随后计算二值图像的7 个Hu不变矩，得到手势图像的整体特征。

(3)融合上述两者特征得到表征意义更强的静态手势特征。

附图说明

图1为本发明优选实施例的方法流程图；

图2为本发明优选实施例的21个手部关键点的位置及名称定义示意图；

图3为本发明优选实施例的MediaPipe hands推理过程示意图；

图4为本发明优选实施例的手部的旋转前后的手部关键点图像及坐标系变换示意图；

图5为本发明优选实施例的手指的三个特征角示意图；

图6为本发明优选实施例的手部分割与二值化处理流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式；如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本发明方法对输入的手势图片分别使用三维手部关键点构造的手指局部特征与手势图像的全局特征相融合，最后得到一种更具表征意义的静态手势特征，本发明方法的实施例如下：

(1)本发明需要在单一RGB手势图像中提取手部关键点的三维坐标，以进行后续手指弯曲角度以及手指交叉特征的提取。

(1.1)本发明采用MediaPipe hands作为三维手部关键点提取网络。 MediaPipehands是由一个手掌检测网络Blaze Palm与一个回归网络组成的手部关键点检测网络，包含手部的图像数据经过该网络模型推理后产生21 个手部关键点的3维坐标，以及左右手信息。坐标的顺序如下：第一个坐标是手腕，也就是底点，拇指的坐标从底部开始是1-5，食指从底点开始是 6-9，以此类推，21个手部关键点的位置及名称定义如图2所示。

(1.2)手部关键点在图像上的坐标系为：原点为图像左上角，水平向右为x轴正方向，竖直向下为y轴正方向，垂直图片向里为z轴正方向。图3 展示了MediaPipe hands通过RGB图像获取三维手部关键点坐标后，连接 21个关键点并将其映射到实际RGB图像中。

(2)在获得了21个手部关键点坐标后即可根据几何数学方法计算手指关节的弯曲角度以及交叉特征。

(2.1)首先为了保证同一手势在平移或缩放后所提取到的特征值相同以及最大限度去除手掌角度与手指弯曲特征的相关性，可以将所有坐标点归一化到以手腕关键点为坐标原点的坐标系中，并将手掌图像旋转到一个固定的视图上。

(2.1.1)采用改进的Min-Max归一化方法，将所有坐标点映射到[0,1]的区间，改进的Min-Max归一化公式如公式1所示

其中x_i,n是归一化之前的数据，min(x_i)、max(x_i)分别代表该数组中的最小值和最大值，i代表维度数，本文中i＝3，n是该维度中数据的个数，x′_i,n是归一化后的数据。

随后根据坐标变换公式，即可将图像坐标系从以图像左上角为原点的右手坐标系，变换到以手腕关键点为原点的右手坐标系。坐标变换公式2 所示

(2.1.2)由于手掌可以近似为一个刚体，在不同的手势中，手掌图像不会有太大改变。所以本发明以手腕关键点、食指掌指关键点、小指掌指关键点构成的平面代表手掌平面。定义手腕关键点指向食指、小指掌指关键点连线的中点的向量作为手掌正方向，该方向上的单位向量

定义手腕关键点指向食指关键点和小指关键点的向量分别为

根据MediaPipe hands 得到的左右手信息，分别计算两个向量的外积，若是右手则是

若是左手则是

计算结果即是手掌法向量，其单位向量记为

定义

为手掌水平向量，记为

由向量

作为手部的随体坐标系，如图4(a) 所示。最后可以得到坐标系

旋转到坐标系

时的旋转矩阵，将所有关键点按公式3进行旋转，即可得到手势的正视图图像，如图4(b)所示。

(2.1.3)其次计算每个手指关节的弯曲角度，通过连接各个手指关节关键点即可得到代表手指骨骼的向量，之后通过向量夹角计算公式即可得到各个手指关节的弯曲角度以及相邻手指间的角度。

根据对手指逆运动学规律的研究，只需要知道手指的俯仰角α与指形角 β就可以完全定义每个手指的弯曲程度。定义手腕关键点到掌指关键点的向量为

指掌关键点到近侧指间关键点的向量为

指掌关键点到指尖关键点的向量为

其中i＝0,1···5。则俯仰角α可以通过计算向量

与

之间的夹角得到，指形角β可以通过计算向量

与

之间的夹角得到。最后可以由每个手指的

向量计算相邻手指的夹角θ。如图5所示。

(2.1.4)最后定义一个离散变量，以计算每个手指的交叉特征，其主要方法是：将每个手指的向量

投影到xOy平面上，根据线段交叉公式即可判断每个手指是否交叉。

(3)利用综合多要素的图像处理方法对原始的手势图像进行分割，然后对分割后的手势图像进行二值化处理，在二值化的图像上即可提取图像特征。

(3.1)手势分割方案为：首先根据手部关键点在X与Y轴上的最大最小值构成一个矩形，并截取矩形部分的图像，随后将裁剪后的图像由RGB空间转换为YCbCr色彩空间，随后使用OTSU自适应阈值分割算法分割获得二值化的手部区域，并通过图像腐蚀膨胀算法消除二值图像中的孤立噪声和边缘凸起，最后使用最大连通域算法，从而消除图像中的小型类肤色区域，找到图像中的手势区域。手部分割流程如图6所示。

(3.1.1)根据步骤2获得的手部关键点坐标，可以得到X与Y方向上的最大最小值：x_max、x_min、y_max、y_min，在图像上截取范围为[x_min～x_max,y_min～y_max] 内的图像，即可对手势图像进行初步的分割，提高手势分割算法效率。原始图像与进行手势截取后的图像如图7(a)、7(b)所示。

(3.1.2)截取后的手势图像为RGB色彩空间，需要将该图像转换到 YCbCr色彩空间后进行肤色分割，通过线性转换从RGB色彩空间到YCbCr 色彩空间转换，转换公式公式如公式4所示

其中，R、G、B分别表示RGB色彩空间中红色、绿色、蓝色分量的亮度；Y、Cb、Cr分别表示YCbCr色彩空间的明亮度、蓝色色度、红色色度。

(3.1.3)采用OTSU自适应阈值分割算法将手部区域与背景区域分割开来。OTSU的思想即找到一个使得分割的前景与背景之间的灰度方差最大的值τ，具体算法如下：

从0-255个灰度级遍历τ，当阈值为k时，像素被分配到前景的概率为 p_A(k)，前景的平均灰度为m_A(k)，像素被分配到背景的概率为p_B(k)，背景的平均灰度为m_B(k)，则可以得到图像的总平均灰度m_G为 m_G＝p_A(k)*m_A(k)+p_B(k)*m_B(k)，其中p_A(k)+p_B(k)＝1。根据方差的概念可以得到此时图像的方差为：σ²＝p_A(k)(m_A(k)-m_G)²+p_B(k)(m_B(k)-m_G)²。接下来只需要找到使方差σ²最大的灰度级k就是OTSU的阈值τ。

进行手势分割后，将分割后的手部图像置为白色，背景图像置为黑色，得到二值化的手部图像。进行手势分割与二值化后的图片如图7(c)所示。

(3.1.4)经过阈值分割后的手势区域边缘还存在一些毛刺或不完整的轮廓。利用图像的膨胀算法可以扩展二值图像的亮色区域，反之腐蚀算法可以扩展图像中的暗色区域。使用3×3全1矩阵对图像进行腐蚀膨胀操作，可以消除二值图像中的孤立噪声和边缘凸起。

(3.1.5)在经过腐蚀膨胀后的手势图像中仍存在一些类肤色模型分割生成的块，因此本发明使用标记连通性的方法消除这些小区域。设二值图像中的每个区域为{a_i∣i＝1,2,···}，然后计算每个被标记区域的面积值为S_i，找到其中面积最大的区域S_max就是分割后的手势区域。经过去噪的二值化手部图像如图7(d)所示。

(3.2)在获得去噪的二值化手部图像后，即可直接计算手部图像的7个 Hu不变矩，得到整体手势图像的形状特征。

计算7个Hu不变矩的算法步骤如下。

其中f(x,y)是图像的灰度值，x、y为图像中各像素点的坐标，p、q为图像矩阶数，C和R分别是图像的宽度和高度。

对应图像的(p+q)阶中心矩如公式(6)所示：

其中

m₀₀ 表示图像的零阶矩，m₀₁ 和m₁₀ 分别表示图像一阶矩的第一参数和第二参数，(x₀,y₀)为手势图像质心坐标。

为抵消尺度变化对中心矩的影响，利用零阶中心矩u₀₀对各阶中心矩进行归一化处理，可以得到归一化的中心矩，计算公式如公式(7)所示

最后通过手势图像的二阶和三阶归一化中心矩的线性组合可以得到如公式(8)所示的7个Hu不变矩。

(4)最后采用级联的方式将三维手部关键点构造的手指局部特征与手势图像的全局特征相融合，得到融合的静态手势特征。

Claims

1.基于三维手部关键点和图像特征融合的手势特征提取方法，其特征在于，包括以下步骤：

步骤1:采用MediaPipe hands作为三维手部关键点提取网络，获得21个手部关键点坐标；

2.根据权利要求1所述的基于三维手部关键点和图像特征融合的手势特征提取方法，其特征在于，MediaPipe hands由一个手掌检测网络Blaze Palm与一个回归网络组成的手部关键点检测网络，包含手部的图像数据经过该网络模型推理后产生21个手部关键点的3维坐标，以及左右手信息；坐标的顺序如下：第一个坐标是手腕，也就是底点，拇指的坐标从底部开始是1至5，食指从底点开始是6至9；手部关键点在图像上的坐标系为：原点为图像左上角，水平向右为x轴正方向，竖直向下为y轴正方向，垂直图片向里为z轴正方向。

3.根据权利要求1所述的基于三维手部关键点和图像特征融合的手势特征提取方法，其特征在于，将所有坐标点归一化到以手腕关键点为坐标原点的坐标系中，并将手掌图像旋转到一个固定的视图上。

4.根据权利要求3所述的基于三维手部关键点和图像特征融合的手势特征提取方法，其特征在于，所述步骤2具体包括以下步骤：

步骤21:采用改进的Min-Max归一化方法，将所有坐标点映射到[0,1]的区间，改进的Min-Max归一化公式如公式(1)所示

随后根据坐标变换公式，即将图像坐标系从以图像左上角为原点的右手坐标系，变换到以手腕关键点为原点的右手坐标系；坐标变换公式如式(2)所示

其中x_i、y_i、z_i为21个手部关键点变换前的坐标，x₀、y₀、z₀为手腕关键点的坐标，x′_i、y′_i、z′_i为21个手部关键点变换后的坐标；

定义手腕关键点指向食指关键点和小指关键点的向量分别为

若是左手则是

计算结果即是手掌法向量，其单位向量记为

定义

为手掌水平向量，记为

由向量

作为手部的随体坐标系；最后得到坐标系

旋转到坐标系

其中[x,y,z]为关键点在固定坐标系下的坐标，[x′,y′,z′]为关键点在随体坐标系下的坐标；

步骤24:将每个手指的向量

5.根据权利要求4所述的基于三维手部关键点和图像特征融合的手势特征提取方法，其特征在于，所述步骤23具体为：定义手腕关键点到掌指关键点的向量为

指掌关键点到近侧指间关键点的向量为

指掌关键点到指尖关键点的向量为

其中i＝0,1···5；则俯仰角α通过计算向量

与

之间的夹角得到，指形角β通过计算向量

与

之间的夹角得到；由每个手指的

向量计算相邻手指的夹角θ。

6.根据权利要求1所述的基于三维手部关键点和图像特征融合的手势特征提取方法，其特征在于，所述步骤3具体包括以下步骤：

步骤31:手势分割方案为：首先根据手部关键点在X与Y轴上的最大最小值构成一个矩形，并截取矩形部分的图像，随后将裁剪后的图像由RGB空间转换为YCbCr色彩空间，随后使用OTSU自适应阈值分割算法分割获得二值化的手部区域，并通过图像腐蚀膨胀算法消除二值图像中的孤立噪声和边缘凸起，最后使用最大连通域算法，从而消除图像中的小型类肤色区域，找到图像中的手势区域；

7.根据权利要求6所述的基于三维手部关键点和图像特征融合的手势特征提取方法，其特征在于，步骤31具体包括以下步骤：

步骤311:根据步骤2获得的手部关键点坐标，得到X与Y方向上的最大值和最小值：x_max、x_min、y_max、y_min，在图像上截取范围为[x_min～x_max,y_min～y_max]内的图像，对手势图像进行初步的分割；

步骤312:截取后的手势图像为RGB色彩空间，需要将该图像转换到YCbCr色彩空间后进行肤色分割，通过线性转换从RGB色彩空间到YCbCr色彩空间转换，转换公式公式如公式(4)所示

从0-255个灰度级遍历τ，当阈值为k时，像素被分配到前景的概率为p_A(k)，前景的平均灰度为m_A(k)，像素被分配到背景的概率为p_B(k)，背景的平均灰度为m_B(k)，则得到图像的总平均灰度m_G为m_G＝p_A(k)*m_A(k)+p_B(k)*m_B(k)，其中p_A(k)+p_B(k)＝1；根据方差的概念得到此时图像的方差为：σ²＝p_A(k)(m_A(k)-m_G)²+p_B(k)(m_B(k)-m_G)²；

步骤315:使用标记连通性的方法消除类肤色模型分割生成的块；设二值图像中的每个区域为{a_i∣i＝1,2,···}，然后计算每个被标记区域的面积值为S_i，找到其中面积最大的区域S_max就是分割后的手势区域。

8.根据权利要求6所述的基于三维手部关键点和图像特征融合的手势特征提取方法，其特征在于，计算7个Hu不变矩的算法步骤如下：

对应图像的(p+q)阶中心矩如公式(6)所示：

其中

其中u_pq为(p+q)阶中心矩，u₀₀ ^r为零阶中心矩的r次方，η_pq为归一化的(p+q)阶中心矩；

最后通过手势图像的二阶和三阶归一化中心矩的线性组合可以得到如公式(8)所示的7个Hu不变矩；