CN111160308B

CN111160308B - 手势动作识别方法、装置、设备及可读存储介质

Info

Publication number: CN111160308B
Application number: CN201911423270.2A
Authority: CN
Inventors: 杨思洋
Original assignee: Shenzhen Xinqin Technology Co ltd
Current assignee: Shenzhen Xinqin Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-09-12
Anticipated expiration: 2039-12-30
Also published as: CN111160308A

Abstract

本发明公开了一种手势动作识别方法、装置、设备及可读存储介质，所述手势动作识别方法通过让用户将手指指向特定区域以完成初始化校准，避免了现有技术中要求使用者进行的不自然的站位姿势以及放慢手速的操作；通过初始手指向数据与特定坐标数据计算出初始位移误差，能够将现有技术中依赖于机器学习算法与高性能硬件设备才能计算出的手指的三维空间位移误差简化为二维平面上的简单计算，极大减少了计算量，同时也降低了对硬件摄像头的性能的要求；通过结合初始位移误差与预设多模态特征抽取算法进行手势识别，将现有技术中对整个手掌进行识别的过程简化为对手指的追踪识别，极大简化了计算过程，降低了对图像识别算法的硬件及计算能力的要求。

Description

手势动作识别方法、装置、设备及可读存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种手势动作识别方法、装置、设备及可读存储介质。

背景技术

随着科学技术的迅速发展，手势检测及手势追踪技术是目前图像识别、智能化教育等领域中的一个热门研究课题。目前的依赖于机器学习的手势动作识别算法，其计算量大且复杂度高，且高度依赖于高速网络与高性能摄像头的配合。若采用此类方法时网速不佳或是出于离线状态，将会严重影响对当前手势动作的识别性能；且针对分辨难度较高的快速手势动作与弯曲手势动作，也需依赖多个多角度多深度的摄像头，从而导致了现有的指读系统对硬件与网速要求过高的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种手势动作识别方法，旨在解决现有的指读系统对硬件与网速要求过高的技术问题。

为实现上述目的，本发明提供一种手势动作识别方法，所述手势动作识别方法应用于手势动作识别设备，所述手势动作识别方法包括以下步骤：

当检测到目标手指指向预设摄像设备检测范围内书本的特定区域时，基于预设多模态特征抽取算法对目标手指进行边缘检测；

将所述目标手指的边缘检测结果与预设手指模型进行匹配，构建所述目标手指对应的实时手指几何模型；

获取所述实时手指几何模型中所述目标手指的初始指向数据，将所述初始指向数据与所述特定区域的特定坐标数据进行匹配，生成初始位移误差；

基于所述实时手指几何模型、预设多模态特征抽取算法与初始位移误差，识别所述目标手指的指向变化，以供预设指读设备基于指向识别结果对目标手指的指向做出响应。

可选地，所述当检测到目标手指指向预设摄像设备检测范围内书本的特定区域时，基于预设多模态特征抽取算法对目标手指进行边缘检测的步骤包括：

当检测到所述目标手指指向当前所使用教材的页码时，基于所述预设指读设备中的摄像头获取初始指向图像；

使用所述预设多模态特征抽取算法对所述初始指向图像中的目标手指进行边缘检测。

可选地，所述获取所述实时手指几何模型中所述目标手指的初始指向数据的步骤之前，还包括：

将所述实时手指几何模型与预设二维平面坐标系相匹配，以确定所述实时手指几何模型中所述目标手指对应在所述预设二维平面坐标系上的初始指向坐标数据。

可选地，所述将所述初始指向数据与所述特定区域的特定坐标数据进行匹配，生成初始位移误差的步骤包括：

获取所述页码在所述预设二维平面坐标系上的特定坐标数据；

将所述初始指向数据与特定坐标数据进行匹配，生成所述初始位移误差。

可选地，所述基于所述实时手指几何模型、预设多模态特征抽取算法与初始位移误差，识别所述目标手指的指向变化，以供预设指读设备基于指向识别结果对目标手指的指向做出响应的步骤包括：

在用户将手指指向当前所使用教材中的目标文字区域时，基于指读设备中的摄像头获取当前的目标手指图像；

基于所述预设多模态特征抽取算法，对所述目标手指图像进行特征抽取，生成目标指向图像；

基于所述目标指向图像与初始位移误差，确定实际指向坐标；

根据所述实际指向坐标确定所述目标文字区域，以供所述指读设备语音朗读以及翻译所述目标文字区域。

可选地，所述基于所述预设多模态特征抽取算法，对所述目标手指图像进行特征抽取的步骤包括：

使用所述预设多模态特征抽取算法，对所述目标手指图像进行局部方差计算，确定本轮迭代的全空间图像特征；

自适应计算所述全空间图像特征的局部方差的峰值所在的空间区域，并基于所述空间区域确定所述全空间图像特征中的局部空间图像特征；

将所述局部空间图像特征从所述目标手指图像中分离，将分离后的目标手指图像作为下一轮迭代所需的初始图像，并计算下一轮迭代的全空间图像特征与局部空间图像特征；

直至检测到满足预设收敛条件时，结束当前迭代过程，并基于迭代计算结果更新所述实时手指几何模型，以基于更新后的实时手指几何模型生成所述目标指向图像。

可选地，所述当检测到目标手指指向预设摄像设备检测范围内书本的特定区域时，基于预设多模态特征抽取算法对目标手指进行边缘检测的步骤之前，还包括：

对结合所述指读设备所使用的书本的内容进行数码化匹配。

此外，为实现上述目的，本发明还提供一种手势动作识别装置，所述手势动作识别装置包括：

目标手指检测模块，用于当检测到目标手指指向预设摄像设备检测范围内书本的特定区域时，基于预设多模态特征抽取算法对目标手指进行边缘检测；

手指模型构建模块，用于将所述目标手指的边缘检测结果与预设手指模型进行匹配，构建所述目标手指对应的实时手指几何模型；

位移误差生成模块，用于获取所述实时手指几何模型中所述目标手指的初始指向数据，将所述初始指向数据与所述特定区域的特定坐标数据进行匹配，生成初始位移误差；

手指指向识别模块，用于基于所述实时手指几何模型、预设多模态特征抽取算法与初始位移误差，识别所述目标手指的指向变化，以供预设指读设备基于指向识别结果对目标手指的指向做出响应。

此外，为实现上述目的，本发明还提供一种手势动作识别设备，所述手势动作识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手势动作识别程序，所述手势动作识别程序被所述处理器执行时实现如上述的手势动作识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有手势动作识别程序，所述手势动作识别程序被处理器执行时实现如上述的手势动作识别方法的步骤。

本发明提供一种手势动作识别方法、装置、设备及计算机可读存储介质。所述手势动作识别方法通过当检测到目标手指指向预设摄像设备检测范围内书本的特定区域时，基于预设多模态特征抽取算法对目标手指进行边缘检测；将所述目标手指的边缘检测结果与预设手指模型进行匹配，构建所述目标手指对应的实时手指几何模型；获取所述实时手指几何模型中所述目标手指的初始指向数据，将所述初始指向数据与所述特定区域的特定坐标数据进行匹配，生成初始位移误差；基于所述实时手指几何模型、预设多模态特征抽取算法与初始位移误差，识别所述目标手指的指向变化，以供预设指读设备基于指向识别结果对目标手指的指向做出响应。通过上述方式，本发明通过让用户将手指指向特定区域以完成初始化校准，避免了现有技术中低效的教材初始坐标化与要求使用者采用不自然的站位姿势以及放慢手速的操作，使得学生用户能够以自然舒适的方式通过指读设备进行学习；通过预设多模态特征抽取算法建立实时手指几何模型，能够将现有技术中依赖于机器学习算法与高性能硬件设备才能计算出的手指的三维空间位移误差简化为二维平面上的简单计算；通过初始指向数据与特定坐标数据计算出初始位移误差，避免了复杂且无法量化实现的对教材内容的初始坐标的建立，极大地减少了计算量，同时也降低了对硬件摄像头的性能的要求，用户使用普通消费级摄像头即可满足本发明的硬件要求；通过结合实时手指几何模型、初始位移误差与预设多模态特征抽取算法进行手势识别，将现有技术中对整个手掌进行识别的过程简化为对手指的追踪识别，极大简化了计算过程，降低了对图像识别算法的硬件及计算能力的要求，同时能够实时进行校准，实现了离线状态下通过单机运算对用户手势的实时快速识别，从而解决了现有的指读系统对硬件与网速要求过高的技术问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明手势动作识别方法第一实施例的流程示意图；

图3为本发明中实时手指几何模型示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及手势动作识别程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的手势动作识别程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的手势动作识别程序，还执行以下操作：

对结合所述指读设备所使用的书本的内容进行数码化匹配。

基于上述硬件结构，提出本发明手势动作识别方法的各个实施例。

参照图2，图2为手势动作识别方法第一实施例的流程示意图。

本发明第一实施例提供一种手势动作识别方法，所述手势动作识别方法包括以下步骤：

为解决上述问题，本发明通过让用户将手指指向特定区域以完成初始化校准，避免了现有技术中低效的教材初始坐标化与要求使用者采用不自然的站位姿势以及放慢手速的操作，使得学生用户能够以自然舒适的方式通过指读设备进行学习；通过初始手指数据与二维坐标数据计算出初始位移误差，能够将现有技术中依赖于机器学习算法与高性能硬件设备才能计算出的手指的三维空间位移误差简化为二维平面上的简单计算，避免了复杂且无法量化实现的对教材内容的初始坐标的建立，极大地减少了计算量，同时也降低了对硬件摄像头的性能的要求，用户使用普通消费级摄像头即可满足本发明的硬件要求；通过结合初始位移误差与预设多模态特征抽取算法进行手势识别，将现有技术中对整个手掌进行识别的过程简化为对手指的追踪识别，极大简化了计算过程，降低了对图像识别算法的硬件及计算能力的要求，同时能够实时进行校准，实现了离线状态下通过单机运算对用户手势的实时快速识别，从而解决了现有的指读系统对硬件与网速要求过高的技术问题。本发明应用于离线指读系统。

步骤S10，当检测到目标手指指向预设摄像设备检测范围内书本的特定区域时，基于预设多模态特征抽取算法对目标手指进行边缘检测；

其中，多模态特征抽取算法为基于偏微分方程变换的多模态图像特征抽取算法。

其中，预设摄像设备用于获取用户手指指向当前所使用书本的图像信息，可内置于指读设备，也可单独配置。本实施例对该摄像设备的配置方式不做具体限定。特定区域为离线指读系统对初始校验步骤预先设定的书本内容位置，通常可设为页码位置。

在本实施例中，用户在正式开始使用离线指读系统中的指读设备前，需要进行简单的初始校准操作。用户可将任一手指指向当前所要使用的教材中的特定文字或数字位置，离线指读系统通过预置的摄像设备获取到用户当前的这一初始校准操作的手势图像，基于预设多模态特征抽取算法对手势图像中用户的手掌部分进行边缘检测。具体地，一初中三年级的中国学生在家中使用装有离线指读程序，且内置有摄像头的平板进行学习。该学生翻开初中三年级英语上册人教版教材的第17页，将右手食指指向“17”这一页码。离线指读系统则可通过该摄像头获取到该学生当前的这一手指指向图像，并将该图像中学生的手掌部分进行边缘检测处理。

步骤S20，将所述目标手指的边缘检测结果与预设手指模型进行匹配，构建所述目标手指对应的实时手指几何模型；

在本实施例中，离线指读系统将通过上述特征抽取算法所得到的边缘检测结果与系统内设的手指模型匹配，确定有效的图像局部特征，该局部特征即可认为是手指的边缘检测图像。系统对对该有效的图像局部特征进行几何模型匹配，如图3所示，用三根直线简化代表手指的三段指节，即为上述实时手指几何模型。

步骤S30，获取所述实时手指几何模型中所述目标手指的初始指向数据，将所述初始指向数据与所述特定区域的特定坐标数据进行匹配，生成初始位移误差；

在本实施例中，可以理解的是，在步骤S20之前，离线指读系统已建立二维平面坐标系，并获取到当前教材页面用户所指向的特定区域对应在这一坐标系上的二维坐标数据。在本步骤中，离线指读系统通过上述实时手指几何模型获取到用户在初始校验过程中的手指指向位置的对应在该二维平面坐标系上的初始手指数据，并将这两数据进行匹配，两者之间的差值即为初始位移误差。

步骤S40，基于所述实时手指几何模型、预设多模态特征抽取算法与初始位移误差，识别所述目标手指的指向变化，以供预设指读设备基于指向识别结果对目标手指的指向做出响应。

其中，预设指读设备为内置或外置摄像设备的显示终端。

在本实施例中，离线指读系统在用户在初始化校验步骤完成后，指向书本中的内容时，通过摄像设备获取到当前的手指指向图像，并根据多模态特征抽取算法对手指指向图像进行纠缠纹理提取，直至将该图像转化为可确定手指指向位置的边缘图像，以更新上述实时手指几何模型。离线指读系统根据更新后的实时手指几何模型，确定当前图像中手指指向教材位置对应在上述二维平坐标系上的坐标数据，并根据上述初始位移误差对这一坐标数据进行校准，将校准后的坐标数据所对应的教材页面内容作为用户意图指读设备识别的内容。离线指读设备在确定用户当前所指内容后，即可对这一内容进行语音朗读、翻译等操作，以辅助用户对这一内容的学习。

本发明提供一种手势动作识别方法。所述手势动作识别方法通过当检测到目标手指指向预设摄像设备检测范围内书本的特定区域时，基于预设多模态特征抽取算法对目标手指进行边缘检测；将所述目标手指的边缘检测结果与预设手指模型进行匹配，构建所述目标手指对应的实时手指几何模型；获取所述实时手指几何模型中所述目标手指的初始指向数据，将所述初始指向数据与所述特定区域的特定坐标数据进行匹配，生成初始位移误差；基于所述实时手指几何模型、预设多模态特征抽取算法与初始位移误差，识别所述目标手指的指向变化，以供预设指读设备基于指向识别结果对目标手指的指向做出响应。通过上述方式，本发明通过让用户将手指指向特定区域以完成初始化校准，避免了现有技术中低效的教材初始坐标化与要求使用者采用不自然的站位姿势以及放慢手速的操作，使得学生用户能够以自然舒适的方式通过指读设备进行学习；通过预设多模态特征抽取算法建立实时手指几何模型，能够将现有技术中依赖于机器学习算法与高性能硬件设备才能计算出的手指的三维空间位移误差简化为二维平面上的简单计算；通过初始指向数据与特定坐标数据计算出初始位移误差，避免了复杂且无法量化实现的对教材内容的初始坐标的建立，极大地减少了计算量，同时也降低了对硬件摄像头的性能的要求，用户使用普通消费级摄像头即可满足本发明的硬件要求；通过结合实时手指几何模型、初始位移误差与预设多模态特征抽取算法进行手势识别，将现有技术中对整个手掌进行识别的过程简化为对手指的追踪识别，极大简化了计算过程，降低了对图像识别算法的硬件及计算能力的要求，同时能够实时进行校准，实现了离线状态下通过单机运算对用户手势的实时快速识别，从而解决了现有的指读系统对硬件与网速要求过高的技术问题。

参照图3，图3为本发明手势动作识别方法第二实施例的流程示意图。

基于上述图2所示的第一实施例，在本实施例中，步骤S10包括：

步骤a，当检测到所述目标手指指向当前所使用教材的页码时，基于所述预设指读设备中的摄像头获取初始指向图像；

在本实施例中，用户将手指指向正在使用的教材页面中的页码，离线指读系统通过指读设备中内设的摄像设备获取学生用户当前进行这一初始化校准动作的图像。具体地，用于获取当前使用指读设备的学生用户的手势图像的摄像头内置于指读设备中，当前所使用教材放置于摄像头正下方。当前学生用户将右手食指指向放置于摄像头下方的教材页面上的页码，离线指读系统基于内置摄像头获取当前学生用户在这一初始校准操作时的食指指向图像。

步骤b，使用所述预设多模态特征抽取算法对所述初始指向图像中的目标手指进行边缘检测。

在本实施例中，离线指读系统使用预设的多模态特征抽取算法，对初始指向图像中学生用户的整个手掌进行特征迭代抽取，以生成对应的实时手指几何模型。

进一步地，在本实施例中，步骤S30之前，还包括：

步骤c，将所述实时手指几何模型与预设二维平面坐标系相匹配，以确定所述实时手指几何模型中所述目标手指对应在所述预设二维平面坐标系上的初始指向坐标数据。

在本实施例中，离线指读系统将三根手指简化直线的实时手指模型与预设的二维平面坐标系进行匹配，得到实时手指几何模型中学生用户当前在教材中特定区域的指向对应在该坐标系上的初始指向坐标数据。其中，预设二维平面坐标系可根据实际情况灵活建立，本实施例中对此不做具体限定。

进一步地，图中未示的，本实施例中，步骤S30包括：

步骤d，获取所述页码在所述预设二维平面坐标系上的特定坐标数据；

在本实施例中，可以理解的是，在步骤c之前，离线指读系统将当前所使用教材翻开页面中的内容数码化并对应到预设的二维平面坐标系中，每一部分内容都对应有坐标数据。离线指读系统确定当前学生用户所指向的页码所对应的坐标数据，即为上述的特定坐标数据。

步骤e，将所述初始指向数据与特定坐标数据进行匹配，生成所述初始位移误差。

在本实施例中，离线指读系统将用户做出的初始校准动作所对应的初始指向数据与当前所指向书本内容所对应的特定坐标数据进行匹配，将这两数据的差值作为初始位移误差。

本发明提供一种手势动作识别方法。所述手势动作识别方法进一步通过在指读设备中内置摄像头获取初始指向图像，并将其通过预设多模态特征抽取算法对目标手指进行边缘检测，较之现有技术中高复杂度的对用户手势的三维数据的计算过程，大大简化了初始化校准这一步骤的计算，同时也降低了系统对于硬件的性能要求；通过多模态特征抽取算法根据目标手指指向图像构建实时手指几何模型，使得系统能够仅基于图像即可确定用户当前指向教材的位置，进一步降低了对硬件设备的要求；通过匹配初始指向数据与特定坐标数据获得初始位移误差，使得系统通过简单的计算即可获取初始位移误差，并可根据这一误差对用户后续的手势指向进行实时校准，提升了系统识别手势的准确度与效率。

图中未示的，基于上述图2所示的第一实施例，提出本发明手势动作识别方法第三实施例。在本实施例中，步骤S30包括：

步骤f，在用户将手指指向当前所使用教材中的目标文字区域时，基于指读设备中的摄像头获取当前的目标手指图像；

在本实施例中，当前学生用户将手指指向当前配合指读设备所使用的教材页面中的目标文字区域，离线指读系统基于内置摄像头获取当前学生用户的指向教材的图像，也即为当前的目标手指图像。具体地，当前使用指读设备的用户为小学六年级学生，配合指读设备使用的教材为小学六年级人教版英语上册教材。学生将该课本翻到第17页，并用右手食指指向第17页中的第一句英文对话。离线指读系统基于内置摄像头获取该学生指向教材中这一位置的手指图像，也即是上述的目标手指图像。

步骤g，基于所述预设多模态特征抽取算法，对所述目标手指图像进行特征抽取，生成目标指向图像；

在本实施例中，离线指读系统在获取到目标指向图像时，根据预设的多模态特征抽取算法，对目标手指图像进行图像处理。离线指读系统提取出目标手指图像的目标特征，直至获取到当前目标手指图像所对应的目标指向图像。

步骤h，基于所述目标指向图像与初始位移误差，确定实际指向坐标；

在本实施例中，离线指读系统在获取到目标手指图像所对应的目标指向图像时，对目标指向图像中用于指向的手指进行定位，获取这一手指所指向教材位置对应在二维平面坐标系上的坐标，并根据在初始化校准步骤中获取到的初始位移误差对当前这一坐标进行校准，将校准后的这一坐标作为实际指向坐标。

步骤i，根据所述实际指向坐标确定所述目标文字区域，以供所述指读设备语音朗读以及翻译所述目标文字区域。

在本实施例中，离线指读系统根据实际指向坐标确定这一坐标对应在教材中的文字内容，并可对这一内容作出语音朗读、翻译等响应，以便学生进行学习。

进一步地，本实施例中，步骤g包括：

步骤j，使用所述预设多模态特征抽取算法，对所述目标手指图像进行局部方差计算，确定本轮迭代的全空间图像特征；

在本实施例中，离线指读系统根据结合有快速傅立叶变换与小波变换的多模态特征抽取算法，计算目标手指图像的局部方差，并根据计算结果确定出每一轮迭代的全空间图像特征。需要说明的是，根据该多模态特征抽取算法，可实现图像在时频双空间(准确的说，对于图像是空间频率双空间)上被迭代抽取出不同尺度及不同局部空间的瞬时频率。

步骤k，自适应计算所述全空间图像特征的局部方差的峰值所在的空间区域，并基于所述空间区域确定所述全空间图像特征中的局部空间图像特征；

在本实施例中，离线指读系统使用自适应算法计算上述全空间目标图像特征的局部方差峰值所在的空间区域，从而将该全空间图像特征进一步分离出局部空间图像特征。需要说明的是，因为上述多模态特征抽取算法能够计算连续的时域与频域双空间的强度，故可计算出任一频率区段的峰值所在的空间区域。具体地，离线指读系统根据该多模态特征抽取算法抽取的局部空间可变尺度的瞬时频率，对每次迭代的全空间瞬时频率进行方差计算，即对全空间瞬时频率的每个像素点和周围相邻像素点计算平均平方差(称作全局特征方差)，然后计算其极值点，最大极值点周围的图像区域即为上述局部空间图像特征。

步骤l，将所述局部空间图像特征从所述目标手指图像中分离，将分离后的目标手指图像作为下一轮迭代所需的初始图像，并计算下一轮迭代的全空间图像特征与局部空间图像特征；

在本实施例中，离线指读系统将本轮迭代过程中所确定的局部空间图像特征作为独立特征单独抽取，结束本轮迭代，并将分离出局部空间图像特征的目标手指图像作为下一轮迭代所需要的初始图像，并进入下一轮迭代过程，计算本轮迭代所需的全空间图像特征与局部空间图像特征，继续当前的特征迭代抽取。

步骤m，直至检测到满足预设收敛条件时，结束当前迭代过程，并基于迭代计算结果更新所述实时手指几何模型，以基于更新后的实时手指几何模型生成所述目标指向图像。

在本实施例中，离线指读系统直至检测到满足预设的收敛条件时，停止当前的迭代计算，对迭代过程中所得到的主要局部图像特征进行几何简化，即与预设的手指模型匹配，更新上述关于手指形状的实时手指几何模型，以使该实时手指几何模型表现为用户当前的手指指向，并根据当前的实时手指几何模型生成可获取到具体指向位置坐标的目标指向图像。

进一步地，在本实施例中，步骤S10之前，还包括：

步骤n，对结合所述指读设备所使用的书本的内容进行数码化匹配。

在本实施例中，可以理解的是，在学生用户将当前所要使用的教材放置与摄像头下方时，离线指读系统需要对这一教材中的内容进行数码化匹配，也即是即时读取教材中的内容，以便学生用户后续使用，可实现教材的即读即用。

本发明提供一种手势动作识别方法。所述手势动作识别方法进一步通过预设多模态特征抽取算法获取目标指向图像，以根据目标指向图像确定用户所指向教材的具体位置，使得系统能够在离线情况下就能快速识别出用户的手势动作，进而对其作出响应以进行学习辅导；根据多模态特征抽取算法的原理对目标手指图像进行迭代计算，使得离线指读系统免于复杂的基于机器学习算法对用户手势的三维计算过程，极大减轻了系统的计算负担；通过对教材内容的实时数码化，避免了现有方式中对教材的信息全面数码化而导致的版权纷争，实现了任意教材的即读即用。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有手势动作识别程序，所述手势动作识别程序被处理器执行时实现如上所述的手势动作识别方法的步骤。

其中，所述手势动作识别程序被执行时所实现的方法可参照本发明手势动作识别方法各个实施例，此处不再赘述。

本发明还提供一种手势动作识别装置。

所述手势动作识别装置包括：

本发明还提供一种手势动作识别设备。

所述手势动作识别设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的手势动作识别程序，其中所述手势动作识别程序被所述处理器执行时，实现如上所述的手势动作识别方法的步骤。

其中，所述手势动作识别程序被执行时所实现的方法可参照本发明手势动作识别方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种手势动作识别方法，其特征在于，所述手势动作识别方法包括：

基于所述实时手指几何模型、预设多模态特征抽取算法与初始位移误差，识别所述目标手指的指向变化，以供预设指读设备基于指向识别结果对目标手指的指向做出响应；

其中，所述基于所述实时手指几何模型、预设多模态特征抽取算法与初始位移误差，识别所述目标手指的指向变化，以供预设指读设备基于指向识别结果对目标手指的指向做出响应的步骤包括：

直至检测到满足预设收敛条件时，结束当前迭代过程，并基于迭代计算结果更新所述实时手指几何模型，以基于更新后的实时手指几何模型生成目标指向图像；

2.如权利要求1所述的手势动作识别方法，其特征在于，所述当检测到目标手指指向预设摄像设备检测范围内书本的特定区域时，基于预设多模态特征抽取算法对目标手指进行边缘检测的步骤包括：

3.如权利要求2所述的手势动作识别方法，其特征在于，所述获取所述实时手指几何模型中所述目标手指的初始指向数据的步骤之前，还包括：

4.如权利要求3所述的手势动作识别方法，其特征在于，所述将所述初始指向数据与所述特定区域的特定坐标数据进行匹配，生成初始位移误差的步骤包括：

5.如权利要求1所述的手势动作识别方法，其特征在于，所述当检测到目标手指指向预设摄像设备检测范围内书本的特定区域时，基于预设多模态特征抽取算法对目标手指进行边缘检测的步骤之前，还包括：

对结合所述指读设备所使用的书本的内容进行数码化匹配。

6.一种手势动作识别装置，其特征在于，所述手势动作识别装置包括：

手指指向识别模块，用于基于所述实时手指几何模型、预设多模态特征抽取算法与初始位移误差，识别所述目标手指的指向变化，以供预设指读设备基于指向识别结果对目标手指的指向做出响应；

所述手指指向识别模块，还用于在用户将手指指向当前所使用教材中的目标文字区域时，基于指读设备中的摄像头获取当前的目标手指图像；使用所述预设多模态特征抽取算法，对所述目标手指图像进行局部方差计算，确定本轮迭代的全空间图像特征；自适应计算所述全空间图像特征的局部方差的峰值所在的空间区域，并基于所述空间区域确定所述全空间图像特征中的局部空间图像特征；将所述局部空间图像特征从所述目标手指图像中分离，将分离后的目标手指图像作为下一轮迭代所需的初始图像，并计算下一轮迭代的全空间图像特征与局部空间图像特征；直至检测到满足预设收敛条件时，结束当前迭代过程，并基于迭代计算结果更新所述实时手指几何模型，以基于更新后的实时手指几何模型生成目标指向图像；基于所述目标指向图像与初始位移误差，确定实际指向坐标；根据所述实际指向坐标确定所述目标文字区域，以供所述指读设备语音朗读以及翻译所述目标文字区域。

7.一种手势动作识别设备，其特征在于，所述手势动作识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手势动作识别程序，所述手势动作识别程序被所述处理器执行时实现如权利要求1至5中任一项所述的手势动作识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有手势动作识别程序，所述手势动作识别程序被处理器执行时实现如权利要求1至5中任一项所述的手势动作识别方法的步骤。