CN115240224A - 基于三维手部关键点和图像特征融合的手势特征提取方法 - Google Patents

基于三维手部关键点和图像特征融合的手势特征提取方法 Download PDF

Info

Publication number
CN115240224A
CN115240224A CN202210868671.4A CN202210868671A CN115240224A CN 115240224 A CN115240224 A CN 115240224A CN 202210868671 A CN202210868671 A CN 202210868671A CN 115240224 A CN115240224 A CN 115240224A
Authority
CN
China
Prior art keywords
image
gesture
hand
key point
finger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210868671.4A
Other languages
English (en)
Inventor
林志坚
杜小勇
陈小培
陈平平
张海忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210868671.4A priority Critical patent/CN115240224A/zh
Publication of CN115240224A publication Critical patent/CN115240224A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于三维手部关键点和图像特征融合的手势特征提取方法,使用MediaPipe hands三维手部关键点提取网络从单一的RGB手势图片中回归出21个手部关键点的三维坐标,并根据这些坐标点构造手指弯曲角度特征以及手指交叉特征作为手势局部特征。同时根据图像分割算法辅以手部关键点的定位,得到二值化的手部图像,并计算图像的7个Hu不变矩,作为手势图像的全局特征。最后将手势的局部特征与全局特征进行融合,得到融合后的手势特征。应用本技术方案可得到一种更具表征意义的静态手势特征。

Description

基于三维手部关键点和图像特征融合的手势特征提取方法
技术领域
本发明涉及手势识别技术领域,特别是一种基于三维手部关键点和图 像特征融合的手势特征提取方法。
背景技术
手势是一种自然、直观的人类行为语言,与身体其他部位相比,手势 往往能传递更多的行为信息,因此手势识别也是人机交互中最强大有效的 一种方式。手势可以分为静态手势识别和动态手势识别两类,静态手势识 别通过不同的手形来区分不同的手势,而动态手势识别则是依据手掌和手 臂的运动轨迹和运动时间提取出行为意义进而识别出对应的动作。静态手 势识别相比于动态手势识别计算成本更低,每次识别只需要处理单帧图像即可,所以静态手势识别被广泛应用在各种人机交互领域。
静态手势识别的识别方法可以主要分为两类:基于传感器的识别和基 于计算机视觉的识别。基于传感器的手势识别通过微控制器或特定的传感 器可以获得手的各项数据,常用于手势识别的传感器如:数据手套、深度 相机Kinect、Leap Motion等。基于传感器的手势识别方法可以获得更高的 识别准确率,但是这些方法都需要专用的设备,而这些设备往往都比较昂 贵。因此,一些研究人员提出了基于计算机视觉的手势识别方法。这种识别方法只需要普通的RGB摄像头拍摄包含手部的图像,再对该图像进行手 势分割、二值化、特征提取、手势分类后即可获得具体的静态手势识别结 果。这种识别方法具有较好的泛用性以及低成本特性,但是手是一个三维 物体,二维图像无法完全表示所有的手势特征,在识别准确率上不如基于 传感器的方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于三维手部关键点和图像特 征融合的手势特征提取方法,使用三维手部关键点构造的手指局部特征与 手势图像的全局特征相融合,得到一种更具表征意义的静态手势特征。
为实现上述目的,本发明采用如下技术方案:基于三维手部关键点和 图像特征融合的手势特征提取方法,包括以下步骤:
步骤1:采用MediaPipe hands作为三维手部关键点提取网络,获得21 个手部关键点坐标;
步骤2:根据几何数学方法计算手指关节的弯曲角度以及交叉特征;
步骤3:利用综合多要素的图像处理方法对原始的手势图像进行分割, 然后对分割后的手势图像进行二值化处理,在二值化的图像上提取图像特 征;
步骤4:采用级联的方式将三维手部关键点构造的手指局部特征与手势 图像的全局特征相融合,得到融合的静态手势特征。
在一较佳的实施例中,MediaPipe hands由一个手掌检测网络Blaze Palm 与一个回归网络组成的手部关键点检测网络,包含手部的图像数据经过该 网络模型推理后产生21个手部关键点的3维坐标,以及左右手信息;坐标 的顺序如下:第一个坐标是手腕,也就是底点,拇指的坐标从底部开始是1 至5,食指从底点开始是6至9;手部关键点在图像上的坐标系为:原点为 图像左上角,水平向右为x轴正方向,竖直向下为y轴正方向,垂直图片向里为z轴正方向。
在一较佳的实施例中,将所有坐标点归一化到以手腕关键点为坐标原 点的坐标系中,并将手掌图像旋转到一个固定的视图上。
在一较佳的实施例中,所述步骤2具体包括以下步骤:
步骤21:采用改进的Min-Max归一化方法,将所有坐标点映射到[0,1] 的区间,改进的Min-Max归一化公式如公式(1)所示
Figure BDA0003759602080000031
其中xi,n是归一化之前的数据,min(xi)、max(xi)分别代表该数组中的最 小值和最大值,i代表维度数,n是该维度中数据的个数,x′i,n是归一化后的 数据;
随后根据坐标变换公式,即将图像坐标系从以图像左上角为原点的右 手坐标系,变换到以手腕关键点为原点的右手坐标系;坐标变换公式如式 (2)所示
Figure BDA0003759602080000032
其中xi、yi、zi为21个手部关键点变换前的坐标,x0、y0、z0为手腕 关键点的坐标,x′i、y′i、z′i为21个手部关键点变换后的坐标。
步骤22:以手腕关键点、食指掌指关键点、小指掌指关键点构成的平面 代表手掌平面;定义手腕关键点指向食指、小指掌指关键点连线的中点的 向量作为手掌正方向,该方向上的单位向量
Figure BDA0003759602080000033
定义手腕关键点指向食指关 键点和小指关键点的向量分别为
Figure BDA0003759602080000034
根据MediaPipe hands得到的左右 手信息,分别计算两个向量的外积,若是右手则是
Figure BDA0003759602080000041
若是左手则是
Figure BDA0003759602080000042
计算结果即是手掌法向量,其单位向量记为
Figure BDA0003759602080000043
定义
Figure BDA0003759602080000044
为手掌水平向量, 记为
Figure BDA0003759602080000045
由向量
Figure BDA0003759602080000046
作为手部的随体坐标系;最后得到坐标系
Figure BDA0003759602080000047
旋转到坐标系
Figure BDA0003759602080000048
时的旋转矩阵,将所有关键点按公式(3)进行旋转, 得到手势的正视图图像;
Figure BDA0003759602080000049
其中[x,y,z]为关键点在固定坐标系下的坐标,[x′,y′,z′]为关键点在随体 坐标系下的坐标。
步骤23:计算每个手指关节的弯曲角度,通过连接各个手指关节关键点 得到代表手指骨骼的向量,之后通过向量夹角计算公式得到各个手指关节 的弯曲角度以及相邻手指间的角度;
步骤24:将每个手指的向量
Figure BDA00037596020800000410
投影到xOy平面上,根据线段交叉公式判 断每个手指是否交叉。
在一较佳的实施例中,所述步骤23具体为:定义手腕关键点到掌指关 键点的向量为
Figure BDA00037596020800000411
指掌关键点到近侧指间关键点的向量为
Figure BDA00037596020800000412
指掌关键点到 指尖关键点的向量为
Figure BDA00037596020800000413
其中i=0,1···5;则俯仰角α通过计算向量
Figure BDA00037596020800000414
Figure BDA00037596020800000415
之 间的夹角得到,指形角β通过计算向量
Figure BDA00037596020800000416
Figure BDA00037596020800000417
之间的夹角得到;由每个手指 的
Figure BDA00037596020800000418
向量计算相邻手指的夹角θ。
在一较佳的实施例中,所述步骤3具体包括以下步骤:
步骤31:手势分割方案为:首先根据手部关键点在X与Y轴上的最大最 小值构成一个矩形,并截取矩形部分的图像,随后将裁剪后的图像由RGB 空间转换为YCbCr色彩空间,随后使用OTSU自适应阈值分割算法分割获 得二值化的手部区域,并通过图像腐蚀膨胀算法消除二值图像中的孤立噪 声和边缘凸起,最后使用最大连通域算法,从而消除图像中的小型类肤色 区域,找到图像中的手势区域;
步骤32:在获得去噪的二值化手部图像后,计算手部图像的7个Hu不 变矩,得到整体手势图像的形状特征。
在一较佳的实施例中,步骤31具体包括以下步骤:
步骤311:根据步骤2获得的手部关键点坐标,得到X与Y方向上的最 大值和最小值:xmax、xmin、ymax、ymin,在图像上截取范围为 [xmin~xmax,ymin~ymax]内的图像,对手势图像进行初步的分割;
步骤312:截取后的手势图像为RGB色彩空间,需要将该图像转换到 YCbCr色彩空间后进行肤色分割,通过线性转换从RGB色彩空间到YCbCr 色彩空间转换,转换公式公式如公式(4)所示
Figure BDA0003759602080000051
其中R、G、B分别表示RGB色彩空间中红色、绿色、蓝色分量的亮 度,Y、Cb、Cr分别表示YCbCr色彩空间的明亮度、蓝色色度、红色色度;
步骤313:采用OTSU自适应阈值分割算法将手部区域与背景区域分割 开来;找到一个使得分割的前景与背景之间的灰度方差最大的值τ,具体算 法如下:
从0-255个灰度级遍历τ,当阈值为k时,像素被分配到前景的概率为 pA(k),前景的平均灰度为mA(k),像素被分配到背景的概率为pB(k),背景 的平均灰度为mB(k),则得到图像的总平均灰度mG为 mG=pA(k)*mA(k)+pB(k)*mB(k),其中pA(k)+pB(k)=1;根据方差的概念得到此 时图像的方差为:σ2=pA(k)(mA(k)-mG)2+pB(k)(mB(k)-mG)2
进行手势分割后,将分割后的手部图像置为白色,背景图像置为黑色, 得到二值化的手部图像;
步骤314:利用图像的膨胀算法扩展二值图像的亮色区域,反之腐蚀算 法扩展图像中的暗色区域;使用3×3全1矩阵对图像进行腐蚀膨胀操作;
步骤315:使用标记连通性的方法消除类肤色模型分割生成的块;设二 值图像中的每个区域为{ai∣i=1,2,···},然后计算每个被标记区域的面积值为 Si,找到其中面积最大的区域Smax就是分割后的手势区域。
在一较佳的实施例中,计算7个Hu不变矩的算法步骤如下:
二值化后的手势图像是一个二维的离散信号,手势图像的(p+q)阶矩如 公式(5)所示:
Figure BDA0003759602080000061
其中f(x,y)是图像的灰度值,x、y为图像中各像素点的坐标,p、q为 图像矩阶数,C和R分别是图像的宽度和高度;
对应图像的(p+q)阶中心矩如公式(6)所示:
Figure BDA0003759602080000062
其中
Figure BDA0003759602080000063
m00表示图像的零阶矩,m01和m10分别表示图像 一阶矩的第一参数和第二参数,(x0,y0)为手势图像质心坐标;
利用零阶中心矩u00对各阶中心矩进行归一化处理,得到归一化的中心 矩,计算公式如公式(7)所示
Figure BDA0003759602080000071
其中upq为(p+q)阶中心矩,u00 r为零阶中心矩的r次方,ηpq为归一化的 (p+q)阶中心矩。
最后通过手势图像的二阶和三阶归一化中心矩的线性组合得到如公式 (8)所示的7个Hu不变矩;
Figure BDA0003759602080000072
根据7个不变矩的具体计算公式对手势图像进行特征提取,形成的特 征向量为H=(φ1234567)。
与现有技术相比,本发明具有以下有益效果:
(1)使用MediaPipe hands获得手部关键点的三维坐标值,根据这些坐标 计算获得手指的弯曲角度特征以及手指之间的交叉特征。
(2)使用图像分割算法得到二值化的手势图像,随后计算二值图像的7 个Hu不变矩,得到手势图像的整体特征。
(3)融合上述两者特征得到表征意义更强的静态手势特征。
附图说明
图1为本发明优选实施例的方法流程图;
图2为本发明优选实施例的21个手部关键点的位置及名称定义示意图;
图3为本发明优选实施例的MediaPipe hands推理过程示意图;
图4为本发明优选实施例的手部的旋转前后的手部关键点图像及坐标 系变换示意图;
图5为本发明优选实施例的手指的三个特征角示意图;
图6为本发明优选实施例的手部分割与二值化处理流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的 说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属 技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非 意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文 另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的 是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步 骤、操作、器件、组件和/或它们的组合。
如图1所示,本发明方法对输入的手势图片分别使用三维手部关键点 构造的手指局部特征与手势图像的全局特征相融合,最后得到一种更具表 征意义的静态手势特征,本发明方法的实施例如下:
(1)本发明需要在单一RGB手势图像中提取手部关键点的三维坐标,以 进行后续手指弯曲角度以及手指交叉特征的提取。
(1.1)本发明采用MediaPipe hands作为三维手部关键点提取网络。 MediaPipehands是由一个手掌检测网络Blaze Palm与一个回归网络组成的 手部关键点检测网络,包含手部的图像数据经过该网络模型推理后产生21 个手部关键点的3维坐标,以及左右手信息。坐标的顺序如下:第一个坐 标是手腕,也就是底点,拇指的坐标从底部开始是1-5,食指从底点开始是 6-9,以此类推,21个手部关键点的位置及名称定义如图2所示。
(1.2)手部关键点在图像上的坐标系为:原点为图像左上角,水平向右 为x轴正方向,竖直向下为y轴正方向,垂直图片向里为z轴正方向。图3 展示了MediaPipe hands通过RGB图像获取三维手部关键点坐标后,连接 21个关键点并将其映射到实际RGB图像中。
(2)在获得了21个手部关键点坐标后即可根据几何数学方法计算手指 关节的弯曲角度以及交叉特征。
(2.1)首先为了保证同一手势在平移或缩放后所提取到的特征值相同以 及最大限度去除手掌角度与手指弯曲特征的相关性,可以将所有坐标点归 一化到以手腕关键点为坐标原点的坐标系中,并将手掌图像旋转到一个固 定的视图上。
(2.1.1)采用改进的Min-Max归一化方法,将所有坐标点映射到[0,1]的 区间,改进的Min-Max归一化公式如公式1所示
Figure BDA0003759602080000101
其中xi,n是归一化之前的数据,min(xi)、max(xi)分别代表该数组中的最 小值和最大值,i代表维度数,本文中i=3,n是该维度中数据的个数,x′i,n是 归一化后的数据。
随后根据坐标变换公式,即可将图像坐标系从以图像左上角为原点的 右手坐标系,变换到以手腕关键点为原点的右手坐标系。坐标变换公式2 所示
Figure BDA0003759602080000102
其中xi、yi、zi为21个手部关键点变换前的坐标,x0、y0、z0为手腕 关键点的坐标,x′i、y′i、z′i为21个手部关键点变换后的坐标。
(2.1.2)由于手掌可以近似为一个刚体,在不同的手势中,手掌图像不会 有太大改变。所以本发明以手腕关键点、食指掌指关键点、小指掌指关键 点构成的平面代表手掌平面。定义手腕关键点指向食指、小指掌指关键点 连线的中点的向量作为手掌正方向,该方向上的单位向量
Figure BDA0003759602080000103
定义手腕关键 点指向食指关键点和小指关键点的向量分别为
Figure BDA0003759602080000104
根据MediaPipe hands 得到的左右手信息,分别计算两个向量的外积,若是右手则是
Figure BDA0003759602080000105
若是 左手则是
Figure BDA0003759602080000106
计算结果即是手掌法向量,其单位向量记为
Figure BDA0003759602080000107
定义
Figure BDA0003759602080000108
为 手掌水平向量,记为
Figure BDA0003759602080000109
由向量
Figure BDA00037596020800001010
作为手部的随体坐标系,如图4(a) 所示。最后可以得到坐标系
Figure BDA00037596020800001011
旋转到坐标系
Figure BDA00037596020800001012
时的旋转矩阵,将 所有关键点按公式3进行旋转,即可得到手势的正视图图像,如图4(b)所 示。
Figure BDA0003759602080000111
其中[x,y,z]为关键点在固定坐标系下的坐标,[x,y′,z′]为关键点在随体 坐标系下的坐标。
(2.1.3)其次计算每个手指关节的弯曲角度,通过连接各个手指关节关键 点即可得到代表手指骨骼的向量,之后通过向量夹角计算公式即可得到各 个手指关节的弯曲角度以及相邻手指间的角度。
根据对手指逆运动学规律的研究,只需要知道手指的俯仰角α与指形角 β就可以完全定义每个手指的弯曲程度。定义手腕关键点到掌指关键点的向 量为
Figure BDA0003759602080000112
指掌关键点到近侧指间关键点的向量为
Figure BDA0003759602080000113
指掌关键点到指尖关键 点的向量为
Figure BDA0003759602080000114
其中i=0,1···5。则俯仰角α可以通过计算向量
Figure BDA0003759602080000115
Figure BDA0003759602080000116
之间的 夹角得到,指形角β可以通过计算向量
Figure BDA0003759602080000117
Figure BDA0003759602080000118
之间的夹角得到。最后可以由 每个手指的
Figure BDA0003759602080000119
向量计算相邻手指的夹角θ。如图5所示。
(2.1.4)最后定义一个离散变量,以计算每个手指的交叉特征,其主要方 法是:将每个手指的向量
Figure BDA00037596020800001110
投影到xOy平面上,根据线段交叉公式即可判 断每个手指是否交叉。
(3)利用综合多要素的图像处理方法对原始的手势图像进行分割,然后 对分割后的手势图像进行二值化处理,在二值化的图像上即可提取图像特 征。
(3.1)手势分割方案为:首先根据手部关键点在X与Y轴上的最大最小 值构成一个矩形,并截取矩形部分的图像,随后将裁剪后的图像由RGB空 间转换为YCbCr色彩空间,随后使用OTSU自适应阈值分割算法分割获得 二值化的手部区域,并通过图像腐蚀膨胀算法消除二值图像中的孤立噪声 和边缘凸起,最后使用最大连通域算法,从而消除图像中的小型类肤色区 域,找到图像中的手势区域。手部分割流程如图6所示。
(3.1.1)根据步骤2获得的手部关键点坐标,可以得到X与Y方向上的 最大最小值:xmax、xmin、ymax、ymin,在图像上截取范围为[xmin~xmax,ymin~ymax] 内的图像,即可对手势图像进行初步的分割,提高手势分割算法效率。原 始图像与进行手势截取后的图像如图7(a)、7(b)所示。
(3.1.2)截取后的手势图像为RGB色彩空间,需要将该图像转换到 YCbCr色彩空间后进行肤色分割,通过线性转换从RGB色彩空间到YCbCr 色彩空间转换,转换公式公式如公式4所示
Figure BDA0003759602080000121
其中,R、G、B分别表示RGB色彩空间中红色、绿色、蓝色分量的亮 度;Y、Cb、Cr分别表示YCbCr色彩空间的明亮度、蓝色色度、红色色度。
(3.1.3)采用OTSU自适应阈值分割算法将手部区域与背景区域分割开 来。OTSU的思想即找到一个使得分割的前景与背景之间的灰度方差最大的 值τ,具体算法如下:
从0-255个灰度级遍历τ,当阈值为k时,像素被分配到前景的概率为 pA(k),前景的平均灰度为mA(k),像素被分配到背景的概率为pB(k),背景 的平均灰度为mB(k),则可以得到图像的总平均灰度mG为 mG=pA(k)*mA(k)+pB(k)*mB(k),其中pA(k)+pB(k)=1。根据方差的概念可以得 到此时图像的方差为:σ2=pA(k)(mA(k)-mG)2+pB(k)(mB(k)-mG)2。接下来只需要找到使方差σ2最大的灰度级k就是OTSU的阈值τ。
进行手势分割后,将分割后的手部图像置为白色,背景图像置为黑色, 得到二值化的手部图像。进行手势分割与二值化后的图片如图7(c)所示。
(3.1.4)经过阈值分割后的手势区域边缘还存在一些毛刺或不完整的轮 廓。利用图像的膨胀算法可以扩展二值图像的亮色区域,反之腐蚀算法可 以扩展图像中的暗色区域。使用3×3全1矩阵对图像进行腐蚀膨胀操作, 可以消除二值图像中的孤立噪声和边缘凸起。
(3.1.5)在经过腐蚀膨胀后的手势图像中仍存在一些类肤色模型分割生 成的块,因此本发明使用标记连通性的方法消除这些小区域。设二值图像 中的每个区域为{ai∣i=1,2,···},然后计算每个被标记区域的面积值为Si,找 到其中面积最大的区域Smax就是分割后的手势区域。经过去噪的二值化手部 图像如图7(d)所示。
(3.2)在获得去噪的二值化手部图像后,即可直接计算手部图像的7个 Hu不变矩,得到整体手势图像的形状特征。
计算7个Hu不变矩的算法步骤如下。
二值化后的手势图像是一个二维的离散信号,手势图像的(p+q)阶矩如 公式(5)所示:
Figure BDA0003759602080000131
其中f(x,y)是图像的灰度值,xy为图像中各像素点的坐标,pq为 图像矩阶数,C和R分别是图像的宽度和高度。
对应图像的(p+q)阶中心矩如公式(6)所示:
Figure BDA0003759602080000141
其中
Figure BDA0003759602080000142
m00 表示图像的零阶矩,m01 m10 分别表示图像 一阶矩的第一参数和第二参数,(x0,y0)为手势图像质心坐标。
为抵消尺度变化对中心矩的影响,利用零阶中心矩u00对各阶中心矩进 行归一化处理,可以得到归一化的中心矩,计算公式如公式(7)所示
Figure BDA0003759602080000143
其中upq为(p+q)阶中心矩,u00 r为零阶中心矩的r次方,ηpq为归一化的 (p+q)阶中心矩。
最后通过手势图像的二阶和三阶归一化中心矩的线性组合可以得到如 公式(8)所示的7个Hu不变矩。
Figure BDA0003759602080000144
根据7个不变矩的具体计算公式对手势图像进行特征提取,形成的特 征向量为H=(φ1234567)。
(4)最后采用级联的方式将三维手部关键点构造的手指局部特征与手势 图像的全局特征相融合,得到融合的静态手势特征。

Claims (8)

1.基于三维手部关键点和图像特征融合的手势特征提取方法,其特征在于,包括以下步骤:
步骤1:采用MediaPipe hands作为三维手部关键点提取网络,获得21个手部关键点坐标;
步骤2:根据几何数学方法计算手指关节的弯曲角度以及交叉特征;
步骤3:利用综合多要素的图像处理方法对原始的手势图像进行分割,然后对分割后的手势图像进行二值化处理,在二值化的图像上提取图像特征;
步骤4:采用级联的方式将三维手部关键点构造的手指局部特征与手势图像的全局特征相融合,得到融合的静态手势特征。
2.根据权利要求1所述的基于三维手部关键点和图像特征融合的手势特征提取方法,其特征在于,MediaPipe hands由一个手掌检测网络Blaze Palm与一个回归网络组成的手部关键点检测网络,包含手部的图像数据经过该网络模型推理后产生21个手部关键点的3维坐标,以及左右手信息;坐标的顺序如下:第一个坐标是手腕,也就是底点,拇指的坐标从底部开始是1至5,食指从底点开始是6至9;手部关键点在图像上的坐标系为:原点为图像左上角,水平向右为x轴正方向,竖直向下为y轴正方向,垂直图片向里为z轴正方向。
3.根据权利要求1所述的基于三维手部关键点和图像特征融合的手势特征提取方法,其特征在于,将所有坐标点归一化到以手腕关键点为坐标原点的坐标系中,并将手掌图像旋转到一个固定的视图上。
4.根据权利要求3所述的基于三维手部关键点和图像特征融合的手势特征提取方法,其特征在于,所述步骤2具体包括以下步骤:
步骤21:采用改进的Min-Max归一化方法,将所有坐标点映射到[0,1]的区间,改进的Min-Max归一化公式如公式(1)所示
Figure RE-FDA0003833849770000021
其中xi,n是归一化之前的数据,min(xi)、max(xi)分别代表该数组中的最小值和最大值,i代表维度数,n是该维度中数据的个数,x′i,n是归一化后的数据;
随后根据坐标变换公式,即将图像坐标系从以图像左上角为原点的右手坐标系,变换到以手腕关键点为原点的右手坐标系;坐标变换公式如式(2)所示
Figure RE-FDA0003833849770000022
其中xi、yi、zi为21个手部关键点变换前的坐标,x0、y0、z0为手腕关键点的坐标,x′i、y′i、z′i为21个手部关键点变换后的坐标;
步骤22:以手腕关键点、食指掌指关键点、小指掌指关键点构成的平面代表手掌平面;定义手腕关键点指向食指、小指掌指关键点连线的中点的向量作为手掌正方向,该方向上的单位向量
Figure RE-FDA0003833849770000023
定义手腕关键点指向食指关键点和小指关键点的向量分别为
Figure RE-FDA0003833849770000024
根据MediaPipe hands得到的左右手信息,分别计算两个向量的外积,若是右手则是
Figure RE-FDA0003833849770000025
若是左手则是
Figure RE-FDA0003833849770000026
计算结果即是手掌法向量,其单位向量记为
Figure RE-FDA0003833849770000027
定义
Figure RE-FDA0003833849770000028
为手掌水平向量,记为
Figure RE-FDA0003833849770000029
由向量
Figure RE-FDA00038338497700000210
作为手部的随体坐标系;最后得到坐标系
Figure RE-FDA00038338497700000211
旋转到坐标系
Figure RE-FDA00038338497700000212
时的旋转矩阵,将所有关键点按公式(3)进行旋转,得到手势的正视图图像;
Figure RE-FDA0003833849770000031
其中[x,y,z]为关键点在固定坐标系下的坐标,[x′,y′,z′]为关键点在随体坐标系下的坐标;
步骤23:计算每个手指关节的弯曲角度,通过连接各个手指关节关键点得到代表手指骨骼的向量,之后通过向量夹角计算公式得到各个手指关节的弯曲角度以及相邻手指间的角度;
步骤24:将每个手指的向量
Figure RE-FDA0003833849770000032
投影到xOy平面上,根据线段交叉公式判断每个手指是否交叉。
5.根据权利要求4所述的基于三维手部关键点和图像特征融合的手势特征提取方法,其特征在于,所述步骤23具体为:定义手腕关键点到掌指关键点的向量为
Figure RE-FDA0003833849770000033
指掌关键点到近侧指间关键点的向量为
Figure RE-FDA0003833849770000034
指掌关键点到指尖关键点的向量为
Figure RE-FDA0003833849770000035
其中i=0,1···5;则俯仰角α通过计算向量
Figure RE-FDA0003833849770000036
Figure RE-FDA0003833849770000037
之间的夹角得到,指形角β通过计算向量
Figure RE-FDA0003833849770000038
Figure RE-FDA0003833849770000039
之间的夹角得到;由每个手指的
Figure RE-FDA00038338497700000310
向量计算相邻手指的夹角θ。
6.根据权利要求1所述的基于三维手部关键点和图像特征融合的手势特征提取方法,其特征在于,所述步骤3具体包括以下步骤:
步骤31:手势分割方案为:首先根据手部关键点在X与Y轴上的最大最小值构成一个矩形,并截取矩形部分的图像,随后将裁剪后的图像由RGB空间转换为YCbCr色彩空间,随后使用OTSU自适应阈值分割算法分割获得二值化的手部区域,并通过图像腐蚀膨胀算法消除二值图像中的孤立噪声和边缘凸起,最后使用最大连通域算法,从而消除图像中的小型类肤色区域,找到图像中的手势区域;
步骤32:在获得去噪的二值化手部图像后,计算手部图像的7个Hu不变矩,得到整体手势图像的形状特征。
7.根据权利要求6所述的基于三维手部关键点和图像特征融合的手势特征提取方法,其特征在于,步骤31具体包括以下步骤:
步骤311:根据步骤2获得的手部关键点坐标,得到X与Y方向上的最大值和最小值:xmax、xmin、ymax、ymin,在图像上截取范围为[xmin~xmax,ymin~ymax]内的图像,对手势图像进行初步的分割;
步骤312:截取后的手势图像为RGB色彩空间,需要将该图像转换到YCbCr色彩空间后进行肤色分割,通过线性转换从RGB色彩空间到YCbCr色彩空间转换,转换公式公式如公式(4)所示
Figure RE-FDA0003833849770000041
其中R、G、B分别表示RGB色彩空间中红色、绿色、蓝色分量的亮度,Y、Cb、Cr分别表示YCbCr色彩空间的明亮度、蓝色色度、红色色度;
步骤313:采用OTSU自适应阈值分割算法将手部区域与背景区域分割开来;找到一个使得分割的前景与背景之间的灰度方差最大的值τ,具体算法如下:
从0-255个灰度级遍历τ,当阈值为k时,像素被分配到前景的概率为pA(k),前景的平均灰度为mA(k),像素被分配到背景的概率为pB(k),背景的平均灰度为mB(k),则得到图像的总平均灰度mG为mG=pA(k)*mA(k)+pB(k)*mB(k),其中pA(k)+pB(k)=1;根据方差的概念得到此时图像的方差为:σ2=pA(k)(mA(k)-mG)2+pB(k)(mB(k)-mG)2
进行手势分割后,将分割后的手部图像置为白色,背景图像置为黑色,得到二值化的手部图像;
步骤314:利用图像的膨胀算法扩展二值图像的亮色区域,反之腐蚀算法扩展图像中的暗色区域;使用3×3全1矩阵对图像进行腐蚀膨胀操作;
步骤315:使用标记连通性的方法消除类肤色模型分割生成的块;设二值图像中的每个区域为{ai∣i=1,2,···},然后计算每个被标记区域的面积值为Si,找到其中面积最大的区域Smax就是分割后的手势区域。
8.根据权利要求6所述的基于三维手部关键点和图像特征融合的手势特征提取方法,其特征在于,计算7个Hu不变矩的算法步骤如下:
二值化后的手势图像是一个二维的离散信号,手势图像的(p+q)阶矩如公式(5)所示:
Figure RE-FDA0003833849770000051
其中f(x,y)是图像的灰度值,x、y为图像中各像素点的坐标,p、q为图像矩阶数,C和R分别是图像的宽度和高度;
对应图像的(p+q)阶中心矩如公式(6)所示:
Figure RE-FDA0003833849770000052
其中
Figure RE-FDA0003833849770000053
m00表示图像的零阶矩,m01和m10分别表示图像一阶矩的第一参数和第二参数,(x0,y0)为手势图像质心坐标;
利用零阶中心矩u00对各阶中心矩进行归一化处理,得到归一化的中心矩,计算公式如公式(7)所示
Figure RE-FDA0003833849770000061
其中upq为(p+q)阶中心矩,u00 r为零阶中心矩的r次方,ηpq为归一化的(p+q)阶中心矩;
最后通过手势图像的二阶和三阶归一化中心矩的线性组合可以得到如公式(8)所示的7个Hu不变矩;
Figure RE-FDA0003833849770000062
根据7个不变矩的具体计算公式对手势图像进行特征提取,形成的特征向量为H=(φ1234567)。
CN202210868671.4A 2022-07-22 2022-07-22 基于三维手部关键点和图像特征融合的手势特征提取方法 Pending CN115240224A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210868671.4A CN115240224A (zh) 2022-07-22 2022-07-22 基于三维手部关键点和图像特征融合的手势特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210868671.4A CN115240224A (zh) 2022-07-22 2022-07-22 基于三维手部关键点和图像特征融合的手势特征提取方法

Publications (1)

Publication Number Publication Date
CN115240224A true CN115240224A (zh) 2022-10-25

Family

ID=83676174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210868671.4A Pending CN115240224A (zh) 2022-07-22 2022-07-22 基于三维手部关键点和图像特征融合的手势特征提取方法

Country Status (1)

Country Link
CN (1) CN115240224A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012546A (zh) * 2023-03-24 2023-04-25 南京信大气象科学技术研究院有限公司 一种从环境背景中提取气象系统的方法及存储介质
CN116863541A (zh) * 2023-09-01 2023-10-10 芯原科技(上海)有限公司 动态手势识别方法、装置及相关设备、手写识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012546A (zh) * 2023-03-24 2023-04-25 南京信大气象科学技术研究院有限公司 一种从环境背景中提取气象系统的方法及存储介质
CN116012546B (zh) * 2023-03-24 2023-05-26 南京信大气象科学技术研究院有限公司 一种从环境背景中提取气象系统的方法及存储介质
CN116863541A (zh) * 2023-09-01 2023-10-10 芯原科技(上海)有限公司 动态手势识别方法、装置及相关设备、手写识别方法
CN116863541B (zh) * 2023-09-01 2023-11-21 芯原科技(上海)有限公司 动态手势识别方法、装置及相关设备、手写识别方法

Similar Documents

Publication Publication Date Title
Zhou et al. A novel finger and hand pose estimation technique for real-time hand gesture recognition
CN115240224A (zh) 基于三维手部关键点和图像特征融合的手势特征提取方法
JP3863809B2 (ja) 手の画像認識による入力システム
JP2001056861A (ja) 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
Malallah et al. Vision-based control by hand-directional gestures converting to voice
Nath et al. Real time sign language interpreter
Nehashree Simulation and Performance Analysis of Feature Extraction and Matching Algorithms for Image Processing Applications
CN112651380A (zh) 人脸识别方法、人脸识别装置、终端设备及存储介质
CN110895683A (zh) 一种基于Kinect的单视点手势姿势识别方法
CN109919128B (zh) 控制指令的获取方法、装置及电子设备
Qi et al. Approach to hand posture recognition based on hand shape features for human–robot interaction
Pradhan et al. A hand gesture recognition using feature extraction
CN111126250A (zh) 一种基于ptgan的行人重识别方法及装置
Jalilian et al. Persian sign language recognition using radial distance and Fourier transform
CN112016370A (zh) 基于形态学的静态手势识别方法
KR20070103895A (ko) 손 제스쳐 인식 시스템 및 방법
CN111913584B (zh) 一种基于手势识别的鼠标光标控制方法及系统
CN114821777A (zh) 一种手势检测方法、装置、设备及存储介质
Rong et al. RGB-D hand pose estimation using fourier descriptor
Ma'asum et al. An overview of hand gestures recognition system techniques
Zhu et al. SURF feature extraction algorithm based on visual saliency improvement
CN112183155B (zh) 动作姿态库建立、动作姿态生成、识别方法及装置
Kumar et al. Computer vision based Hand gesture recognition system
Dong et al. A static hand gesture recognition model based on the improved centroid watershed algorithm and a dual-channel CNN
Jiang et al. A robust method of fingertip detection in complex background

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination