CN113589928B

CN113589928B - 一种面向智能电视的手势识别方法

Info

Publication number: CN113589928B
Application number: CN202110847142.1A
Authority: CN
Inventors: 刘华珠; 林盛鑫; 赵晓芳; 廖春萍; 陈雪芳
Original assignee: Dongguan University of Technology
Current assignee: Dongguan University of Technology
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2023-11-24
Anticipated expiration: 2041-07-27
Also published as: CN113589928A

Abstract

本发明公开了一种面向智能电视的手势识别方法，包含以下步骤：手掌检测，摄像头实时采集视频流并分解成图像帧，手掌检测模型读取第一帧图像并检测返回一个包含手掌的手部边界框；手部关键点检测与标记，手部关键点检测与标记模型对手部边界框覆盖区域进行检测，并返回手部21个关键点的三维坐标；手掌跟踪，得到第一帧图像的手部边界框后产生一个手掌跟踪器，在图像帧之间追踪手掌；手势分类，手部21个关键点输入关键点分析模型中分析并返回手势识别结果。本发明可以解脱用户自身，用户不需要多余设备即可享受较好的交互效果，成本低，只需要采用普通摄像头即可，并且具有很高的识别精度，模型实时检测性能好。

Description

一种面向智能电视的手势识别方法

技术领域

本发明涉及一种手势识别方法，特别是一种面向智能电视的手势识别方法，属于智能电视技术领域。

背景技术

智能电视因为功能的增加，操控体验成为一个发展瓶颈。厂商需要开发出更加自然、更加方便的人机交互方式，诸如语音控制、动作识别等新型交互方式，以满足市场需求。动作识别技术是由手型、身体动作辅以表情姿势为符号构成的动作识别的一种技术，是人机交互模式识别领域的一项重要研究内容。

目前基于手势的动作识别主要有三种方式，一是麻省理工大学为代表的，利用数据手套、数据服装等装置，对手和身体的运动进行跟踪，完成人机交互；第二种是以微软为代表的体感游戏，它采用深度摄像头和RGB摄像头来实现手和身体的位置跟踪。前面两种技术方式都具有高成本的特点，不适于企业，特别是竞争激烈的家电企业的广泛应用。第三种是业内众所周知的HandVu，它以普通摄像头为研究的对象，具有成本低、实时性能好等优点。通过分析目前市场上一些新型遥控器，如基于加速度传感器的动作识别、遥控键盘鼠标及视频动作识别等，发现它们都存在一些问题，如精度不足、操作复杂或技术还不成熟等。

发明内容

本发明所要解决的技术问题是提供一种面向智能电视的手势识别方法，提高智能电视手势识别的速度和精度。

为解决上述技术问题，本发明所采用的技术方案是：

一种面向智能电视的手势识别方法，其特征在于包含以下步骤：

手掌检测，摄像头实时采集视频流并分解成图像帧，手掌检测模型读取第一帧图像并检测返回一个包含手掌的手部边界框；

手部关键点检测与标记，手部关键点检测与标记模型对手部边界框覆盖区域进行检测，并返回手部21个关键点的三维坐标；

手掌跟踪，得到第一帧图像的手部边界框后产生一个手掌跟踪器，在图像帧之间追踪手掌；

手势分类，手部21个关键点输入关键点分析模型中分析并返回手势识别结果。

进一步地，所述手掌检测模型、手部关键点检测与标记模型、手掌跟踪器和关键点分析模型之间相互独立并基于MediaPipe的ML管道协同工作。

进一步地，所述手掌检测模型检测的过程为：

摄像头实时采集视频流并分离成图像帧传入GPU通道中，图像帧进入图像处理单元；

在自拍模型模式下，图像帧被水平翻转，然后图像帧进入子图手掌检测单元进行手掌检测，输出归一化的矩形和检测值；

矩形转渲染数据单元和检测值转渲染数据单元分别将归一化的矩形和检测值转成渲染数据送到注释覆盖单元；

注释覆盖单元把归一化矩形和检测值的渲染数据以注释的方式覆盖到水平翻转的图像上，输出该图像帧，完成手掌检测。

进一步地，所述手部关键点检测与标记模型检测的过程为：

图像帧流入手部关键点检测与标记模型，运算单元从图像帧中裁剪出矩形区域，并将其按图像方式发送给图像转换单元；

图像转换单元把输入图像的大小缩放成256×256；缩放后的图像传入关键点推理模型得到包含检测框、手部关键点的位置以及对应的分数信息的TfLite张量；

分离TFLite张量向量计算单元根据选项中指定的范围，将TFLite张量的一个向量拆分为多个向量，包括关键点张量、手部标志张量以及惯用手张量，然后将以上三个张量将传入相对应的转换单元；

关键点字母框移除单元将字母框手部图像上的关键点调整到移除字母框的同一张图像上的相应位置；

在获得了未经变换的坐标值和手部归一化矩形情况下，关键点投影单元将裁剪后的手部图像中的手部关键点投影到完整图像上的相应位置；

拆分归一化化关键点列表单元从手部关键点中提取一个子集，包括腕关节以及其他五指的掌指关节和近端指尖关节，通过该子集来计算边缘框，随后边缘框逐步扩大到包含整个手部；

手部关键点转矩形单元将手部关键点转换为包围手部的矩形，该单元使用从上一个单元中提取所有手部关键点的子集来计算边缘框和输出矩形的旋转向量；

矩形转换单元扩大手部矩形以至于能够包含整个手，并且使其足够大。

进一步地，所述转换单元包含：

TFLite张量转分类单元将惯用手张量转换为一个浮点数，并将其作为惯用手二元分类的分数；

TFLite张量转浮点数将手部标志张量转换为浮点数，用于表示手部存在的置信度分数，随后通过阈值单元来判断手部的存在性；

TFLite张量转关键点单元将关键点张量转换成关键点列表，列表中包含21个关键点，其中关键点的实际位置信息通过图像大小进行归一化处理。

进一步地，所述图像转换单元转化成256×256时，缩放模式设置成适配以保留纵横比，同时在变换后的图像中产生潜在的字母框。

进一步地，所述手掌跟踪器追踪过程为：

手掌跟踪器在图像帧之间检测手部关键检测与标记模型产生的手部矩形框，当手部矩形框丢失了手掌目标时，重新启动手掌检测，否则一直沿用当前手部矩形框区域。

进一步地，所述关键点分析模型的分析过程为：

关键点分析模型基于关节、手指和手腕的位置进行手势分类；关键点分析模型得到每个手势下手部的21个关键点坐标数据集，然后计算并统计手腕点到关节的向量和关节到关节的向量的夹角，以此来描述该种手势下手指的弯曲程度；同时结合关键点相对距离比对环节，比对特征关键点的归一化距离，完成手势分类。

本发明与现有技术相比，具有以下优点和效果：本发明的一种面向智能电视的手势识别方法可以解脱用户自身，用户不需要多余设备即可享受较好的交互效果，成本低，只需要采用普通摄像头即可，并且具有很高的识别精度，模型实时检测性能好；本发明能够有效识别出指定的7种手势，在测试集中平均精度均值（mean Average Precision）达到96.40%，而且识别速度能够达到30 FPS以上，具备较好的实时性，同时，由于MediaPipe的体积小，易移植，易部署，使得本文的模型完成识别任务，有效提高用户与智能电视交互体验。

附图说明

图1是本发明的一种面向智能电视的手势识别方法的流程图。

图2是本发明实施例的21个手部关键点的名称与位置示意图。

图3是本发明实施例的手掌检测结果示意图。

图4是本发明实施例的手掌追踪示意图。

图5是本发明实施例的手势识别结果图。

具体实施方式

为了详细阐述本发明为达到预定技术目的而所采取的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清晰、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部的实施例，并且，在不付出创造性劳动的前提下，本发明的实施例中的技术手段或技术特征可以替换，下面将参考附图并结合实施例来详细说明本发明。

如图1所示，本发明的一种面向智能电视的手势识别方法，包含以下步骤：

手掌检测，摄像头实时采集视频流并分解成图像帧，手掌检测模型Palm Detector从GPU通道读取第一帧图像并检测返回一个包含手掌的手部边界框Hand Bounding Box。

手掌检测模型检测的过程为：

相机或者摄像头实时采集视频流并分离成图像帧传入GPU通道中，图像帧进入图像处理单元ImageTransformation；

在自拍模型模式下，图像帧被水平翻转，然后图像帧进入子图手掌检测单元HandDetection进行手掌检测，输出归一化的矩形Normalized Rects和检测值Detections；

矩形转渲染数据单元RectToRenderData和检测值转渲染数据单元DetectionsToRenderData分别将归一化的矩形Normalized Rects和检测值Detections转成渲染数据送到注释覆盖单元AnnotationOverlay；

注释覆盖单元AnnotationOverlay把归一化矩形和检测值的渲染数据（即绘图数据）以注释的方式覆盖到水平翻转的图像上，执行成功之后输出该图像帧，完成手掌检测。如图3所示，内框为手掌检测结果，外框为非归一化状态下的矩形。

手部关键点检测与标记，手部关键点检测与标记模型对手部边界框覆盖区域进行检测，并返回手部21个关键点的三维坐标；手部21个关键点的三维坐标和位置如图2所示。

手部关键点检测与标记模型检测的过程为：

图像帧流入手部关键点检测与标记模型，运算单元从图像帧中裁剪出矩形区域，并将其按图像方式发送给图像转换单元ImageTransformation；

接收到图像后，图像转换单元ImageTransformation把输入图像的大小缩放成256×256；在缩放图像的时候，缩放模式设置成适配以保留纵横比，同时在变换后的图像中产生潜在的字母框。缩放后的图像传入关键点推理模型TfLiteWebGlInference得到包含检测框、手部关键点的位置以及对应的分数信息的TfLite张量；

其中转换单元包含：

TFLite张量转分类单元TfLiteTensorsToClassification将惯用手张量转换为一个浮点数，并将其作为惯用手二元分类的分数；

TFLite张量转浮点数TfLiteTensorsToFloats将手部标志张量转换为浮点数，用于表示手部存在的置信度分数，随后通过阈值单元Thresholding来判断手部的存在性，其中默认阈值为0.5，且该值可被调整以适应不同情况；

TFLite张量转关键点单元TfLiteTensorsToLandmarks将关键点张量转换成关键点列表，列表中包含21个关键点，其位置与名称信息如图 2所示，其中关键点的实际位置信息通过图像大小进行归一化处理。

关键点字母框移除单元LandmarkLetterboxRemoval将字母框手部图像上的关键点调整到移除字母框的同一张图像上的相应位置；其中有字母框的手部图像是经过适配模式调整后所得，关键点也经过了归一化处理，而移除了字母框的图像就是在经过图像变换单元之前的图像；

在获得了未经变换的坐标值和手部归一化矩形情况下，关键点投影单元LandmarkProjection将裁剪后的手部图像中的手部关键点投影到完整图像上的相应位置；

拆分归一化化关键点列表单元Split Normalized Landmark sList从手部关键点中提取一个子集，该子集如图2所示的0号、2号、5号、6号、9号、10号、13号、14号、17和18号，包括腕关节以及其他五指的掌指关节和近端指尖关节，通过该子集来计算边缘框，随后边缘框逐步扩大到包含整个手部；通过该种方式，在面对手部大小变化时，边缘框计算效果可以保持较好的鲁棒性。

手部关键点转矩形HandLandmarksToRect单元将手部关键点转换为包围手部的矩形，该单元使用从上一个单元中提取所有手部关键点的子集来计算边缘框和输出矩形的旋转向量；

矩形转换单元RectTransformation扩大手部矩形以至于能够包含整个手，并且使其足够大。这样即使在下一个视频帧中手部有运动，它也仍有可能包含手部。

手掌跟踪，得到第一帧图像的手部边界框后产生一个手掌跟踪器，在图像帧之间追踪手掌；直到手掌跟踪器丢失手掌目标后，图像帧才会重新进入手掌检测模型中，进行手掌检测产生新的手部边界框，以便减少手掌检测的次数，提高效率。

手掌跟踪器追踪过程为：

由于在图像帧中持续对手部进行检测需要耗费大量时间，为了提高实时状态下对手部识别效率，则需要在图像帧中减少手部检测模型的使用。因此，在进行手部检测工作前设置一个手部追踪器，可以很大程度上减少手部检测模型在图像帧上进行检测的次数。如图4所示，手掌跟踪器在图像帧之间检测手部关键检测与标记模型产生的手部矩形框，当手部矩形框丢失了手掌目标时，重新启动手掌检测，否则一直沿用当前手部矩形框区域。

关键点分析模型的分析过程为：

关键点分析模型基于关节、手指和手腕的位置进行手势分类；关键点分析模型得到每个手势下手部的21个关键点坐标数据集，然后计算并统计手腕点到关节的向量和关节到关节的向量的夹角，以此来描述该种手势下手指的弯曲程度；例如拇指的夹角，如图2所示中的编号0指向编号2构成其中一个向量，编号3指向编号4构成另一个向量，求解两个向量的夹角即可。同时结合关键点相对距离比对环节，主要比对特征关键点的归一化距离，例如检测食指指尖和拇指指尖。根据以上信息，完成手势分类。如图5所示为手势识别的结果展示。

手掌检测模型、手部关键点检测与标记模型、手掌跟踪器和关键点分析模型之间相互独立并基于MediaPipe的ML管道协同工作。

本发明的一种面向智能电视的手势识别方法可以解脱用户自身，用户不需要多余设备即可享受较好的交互效果，成本低，只需要采用普通摄像头即可，并且具有很高的识别精度，模型实时检测性能好；本发明能够有效识别出指定的7种手势，在测试集中平均精度均值（mean Average Precision）达到96.40%，而且识别速度能够达到30 FPS以上，具备较好的实时性，同时，由于MediaPipe的体积小，易移植，易部署，使得本文的模型完成识别任务，有效提高用户与智能电视交互体验。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种面向智能电视的手势识别方法，其特征在于包含以下步骤：

手势分类，手部21个关键点输入关键点分析模型中分析并返回手势识别结果；

所述手掌检测模型检测的过程为：

注释覆盖单元把归一化矩形和检测值的渲染数据以注释的方式覆盖到水平翻转的图像上，输出该图像帧，完成手掌检测；

所述手部关键点检测与标记模型检测的过程为：

2.根据权利要求1所述的一种面向智能电视的手势识别方法，其特征在于：所述手掌检测模型、手部关键点检测与标记模型、手掌跟踪器和关键点分析模型之间相互独立并基于MediaPipe的ML管道协同工作。

3.根据权利要求1所述的一种面向智能电视的手势识别方法，其特征在于：所述转换单元包含：

4.根据权利要求1所述的一种面向智能电视的手势识别方法，其特征在于：所述图像转换单元转化成256×256时，缩放模式设置成适配以保留纵横比，同时在变换后的图像中产生潜在的字母框。

5.根据权利要求1所述的一种面向智能电视的手势识别方法，其特征在于：所述手掌跟踪器追踪过程为：

6.根据权利要求1所述的一种面向智能电视的手势识别方法，其特征在于：所述关键点分析模型的分析过程为：