CN114898464A

CN114898464A - 一种基于机器视觉的轻量化精准手指语智能算法识别方法

Info

Publication number: CN114898464A
Application number: CN202210502602.1A
Authority: CN
Inventors: 张堃; 刘志诚; 徐沛霞; 林鹏程; 刘纪元; 涂鑫涛; 任婉莹; 韩宇
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-08-12
Anticipated expiration: 2042-05-09
Also published as: CN114898464B

Abstract

本发明属于手语识别技术领域，具体涉及一种基于机器视觉的轻量化精准手指语智能算法识别方法，具体步骤包括：第一步单目相机采集图像信息，以Finger‑YOLOv4算法对采集的图像信息处理，框选出手部的区域；第二步在框选的手部区域内基于稀疏性目标提取算法锁定操作人员手部区域排除非操作人员手部干扰；第三步在操作人员手部区域内基于DFCRF‑Net进行深度学习，识别出手部区域的21个关键点的坐标；第四步根据21个关键点坐标的位置关系采用强制坐标法推理出当前手势表达的手指语。本发明提出的算法架构轻量化，仅需单目相机即可部署，检测速度快、精度高；经过不同环境、操作人员的测试，该智能算法识别方法可以有效的识别出全部手指语手势。

Description

一种基于机器视觉的轻量化精准手指语智能算法识别方法

技术领域

本发明属于手语识别技术领域，具体涉及一种基于机器视觉的轻量化精准手指语智能算法识别方法。

背景技术

手语既是聋哑人交流的基础语言，也是聋哑人生存的重要工具。目前我国手语老师的人数严重不足，聋哑人中64％的人不会手语，特别是贫困地区聋哑孩童，很难有学习手语的机会，无法正常生活。手指语作为中国手语的一部分是聋哑教育的辅助工具，与有声语言表达顺序一致且数量不多、易学易记，适用于手语的基础教育。

中国公开专利CN 110399850B公开了一种基于神经网络的连续手语识别方法，具体为：采用Kinect采集彩色视频文件、深度视频文件、以及25个骨骼点空间位置坐标，建立孤立词手语数据库及连续手语数据库，完成对手型图像预处理，再构建两个结构相同的改进AlexNet神经网络模型，并对预处理后的孤立词手语数据库的训练样本进行训练；之后固定双路AlexNet神经网络模型权重，将全连接层和softmax层丢弃；选取出预处理后的连续手语数据库中RCB-D视频分帧图像文件的关键片段并进行测试，最后将输出的关键帧嵌入注意力机制的分层LSTM编解码网络模型，输出连续手语的识别结果。该公开专利存在以下缺陷：

1、使用Kinect深度相机采集图像信息成本过高，聋哑人士家庭负担不起；

2、直接使用Kinect自带的方法直接在采集的图像上进行骨骼点定位会导致骨骼点定位不准确且处理速度慢，影响最终识别结果；

3、手语识别过程中背景复杂，难免会有非操作人员手部出现，可能会误判到其他人的手势影响手语识别结果。

为解决上述技术问题，本申请有很必要提出一种基于机器视觉的轻量化精准手指语智能算法识别方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于机器视觉的轻量化精准手指语智能算法识别方法，采用机器视觉的方法对手指语进行识别，不仅能够快速、精准的识别出手指语中的全部手势，而且可以排除非操作人员的手部干扰，能够完成手语基础教学，促进我国聋哑人教育事业的发展。

为了实现上述目的，本发明采用了如下技术方案：

一种基于机器视觉的轻量化精准手指语智能算法识别方法，包括如下步骤：

S1、操作人员面向单目相机，手部区域出现在相机视野范围内，启动识别算法；

S2、单目相机采集图像信息，采用Finger-YOLOv4算法对采集的图像信息处理，框选出手部的区域；

S3、在框选的手部区域内基于稀疏性目标提取算法锁定操作人员手部区域排除非操作人员手部干扰；

S4、在操作人员手部区域内基于双特征条件随机场网络进行深度学习，识别出手部区域的21个关键点的坐标；

S5、根据21个关键点坐标的位置关系采用强制坐标法推理出当前手势表达的手指语。

进一步的，在S2中，Finger-YOLOv4算法是在YOLOv4算法的基础上进行改进，改进方式包括：结合通道注意力机制、孪生模块、深度可分离卷积搭建Finger-bneck网络模块；将MobileNetv3中的bneck进行改进为Finger-bneck；采用改进型MobileNetv3替换YOLOv4的主干网络CSPDarkNet；将YOLOv4的Head结构简化为2个分支。

进一步的，结合通道注意力机制是用于通道之间的重要性调节，在一个正常卷积之后首先进行全局化操作，使用池化层获取通道级的全局特征值，定义全局化操作为F_sq，运算公式为:

式中

表示全局化操作的结果，W、H表示输入特征图的宽和高，U_c表示经过一个正常卷积后的输出，它将空间维度进行特征压缩，即每个二维的特征图变成一个实数，相当于具有全局感受野的池化操作，特征通道数不变；然后利用全连接层对全局特征值进行调节排序，学习获取各个通道的权重；最后利用学习的权重值对原特征进行加权处理。在增加少量计算量的情况下，获得了更明显的性能提升。

进一步的，孪生模块是用来降低神经网络大小和计算资源占用的网络模块，定义常规的卷积公式Y＝X*f+b，式中*是卷积操作，X是输入特征图，

是输出的特征图，h′是输出的高、w′是输出的宽、n是输出维度即卷积核个数，

是卷积核，c是通道数，k是卷积核的高和宽，n是输出维度，b是偏置操作。定义整个卷积操作的FLOPs为F，计算公式：

F＝n×h′×w′×c×k×k

式中F为卷积操作的FLOPs，n是卷积操作的输出维度，c是通道数，h′是输出的高，w′是输出的宽，k是卷积操作中卷积核的高和宽；孪生模块相对卷积操作进行了改进，第一步使用更少的卷积核生成输出特征图定义原卷积核个数为n，现在使用更少的卷积核个数为m；第二步对第一步生成的每一张特征图进行深度卷积操作，每张特征图生成s张新的特征图共计m×s张，保证m×s＝n即保证孪生操作和普通卷积输出的特征形状相同；第三步将特征图拼接到一起。孪生模块的第一步卷积公式为Y′＝X*f′，省去偏置操作，式中

是输出的特征图，h′是输出的高、w′是输出的宽、m是输出维度，*是卷积操作，X是输入特征图，

是卷积核，c是通道数，k是卷积核的高和宽，m是输出维度，其余超参数都与卷积操作保持一致。定义整个孪生操作的FLOPs为F′，计算公式：

F′＝(m×h′×w′×c×k×k)+[(s-1)×m×h′×w′×d×d]

式中F′为孪生操作的FLOPs，m是孪生操作的输出维度，c是通道数，h′是输出的高，w′是输出的宽，k是卷积操作中卷积核的高和宽，d是孪生操作中卷积核的高和宽，定义卷积操作和孪生操作的加速比为T_S，计算公式为：

式中T_S为加速度比，F为卷积操作的FLOPs，F′为孪生操作的FLOPs，n是卷积操作的输出维度，m是孪生操作的输出维度，c是通道数，h′是输出的高，w′是输出的宽，k是卷积操作中卷积核的高和宽，d是孪生操作中卷积核的高和宽，s是新的特征图的张数，卷积操作的FLOPs是孪生模块的s倍，所以采用孪生模块代替传统卷积能够有效降低神经网络的大小和计算资源的占用。

进一步的，深度可分离卷积其核心思想就是将一个完整的卷积分两部分进行，一部分是逐点卷积、另外一部分是逐深度卷积。逐点卷积是采用1×1的卷积组合不同深度卷积的输出，得到一组新的输出，定义其过程中使用大小为C_p×1×1的卷积核，数量为C_o个；逐深度卷积是将单个滤波器应用到每个通道上，定义输入特征图的每个通道通过一个d×d的卷积核，深度可分离卷积所需参数量为F_d的计算公式为：

F_d＝C_o×1×1+C_p×d×d

式中F_d为深度可分离卷积所需参数量，为C_o为卷积核数量，C_p为通道数，d为卷积核大小，相比于传统卷积，可以将参数量降低数倍。

进一步的，改进型MobileNetv3采用结合通道注意力机制、孪生模块、深度可分离卷积搭建Finger-bneck网络模块替换原MobileNetv3中的bneck，在经过一个卷积后采用残差原理，一部分输入由孪生模块和深度可分离卷积组成的G-bneck后再经过一个通道注意力机制模块，最后经过一个卷积操作后与另外一部分通过shortcut连接最终输出；可以有效增强改进型MobileNetv3检测精度并且模型大小和检测速度几乎不受影响，采用改进型MobileNetv3替换YOLOv4的主干网络CSPDarkNet，将改进型MobileNetv3第7个Finger-bneck层和第9个Finger-bneck层后的输出分别与YOLOv4两个上采样层后的输出进行Concat连接操作，完成对YOLOv4主干网络的替换，相对于原模型在检测精几乎不变、检测速度大幅度提升基本满足手指语识别场景下的实际需求。为了进一步对YOLOv4算法进行优化本发明对YOLOv4中的Head结构进行调整，原YOLOv4中的Head结构有三个分支，主要用于检测图像中形状大小相差较大的目标。由于在手指语识别的场景中待检测目标的尺寸变化不大，所以将检测头(Head结构)的3个分支简化为两个分支，可以有效减少计算量，加快模型推理。

进一步的，稀疏性目标提取算法是以稀疏性矩阵分解理论为核心，将采集到的图像信息分为HSV三个通道分别处理，定义其观测矩阵为D，H、S、V三通道的观测矩阵分别为D^H＝{h₁,h₂,h₃,......h_f}、D^S＝{s₁,s₂,s₃,......s_f}、D^V＝{v₁,v₂,v₃,......v_f}，每个通道的数据可以分解为两个部分，一个具有低秩性,一个具有稀疏性。基于公式：

式中D^hsv表示HSV三通道的观测矩阵，I^hsv表示HSV三通道的前景矩阵，B^hsv表示HSV三通道的背景矩阵，||I^hsv||_*表示矩阵I^hsv的核范数，||B^hsv||₁表示矩阵B^hsv的l₁范数，即B^hsv中所有元素绝对值之和，可以将上述三通道的观测矩阵D^hsv分解为具有低秩性的三通道的背景矩阵B^hsv和具有稀疏性的三通道的前景矩阵I^hsv，由于非操作人员手部相对操作人员运动频率低，故非操作人员手部像素值组成的矩阵具有低秩性，而操作人员手部在视频中运动频率高，故操作人员手部像素值组成的矩阵具有稀疏特性。由此区分操作人员手部区域和非非操作人员手部区域，进而锁定操作人员手部区域。

进一步的，稀疏性矩阵分解理论是一种特征提取和分析中数据降维的方法，将高维的数据投影到低维线性子空间中并对其进行估计，定义矩阵D可以表示为矩阵B、矩阵I的和，其中B表示D的低秩部分，I表示D的稀疏部分，并且矩阵I中所有元素都满足独立的高斯分布，可以通过公式：

式中||||₂表示矩阵的2范数，D表示矩阵D，B表示矩阵D的低秩部分，求解数值较小的稀疏矩阵I，如果实际数据存在大量干扰数据覆盖，可以采用另外一种求解方式如公式：

式中||B||₁表示矩阵B的l₁范数，||I||_*表示矩阵I的核范数，D表示矩阵D，B表示矩阵D的低秩部分，I表示矩阵D的稀疏部分)通过矩阵的低秩与稀疏性约束，能够从稀疏的显著误差中恢复出低秩的矩阵，进而求解出稀疏矩阵。

进一步的，双特征条件随机场网络使用不同特征提取器——图卷积神经网络(GCN)与卷积神经网络(CNN)提取操作人员手部区域21个关键位置特征，定义GCN提取的特征为X^G，CNN提取特征是基于残差网络提取的，定义残差网络全连接层后输出的特征为X^C，图中以及卷积中待推理的特征分别为H^G以及H^C，注意门控制两种潜在特征的信息流使用A^GC表示，其计算公式为：A^GC＝σ(-(H^C⊙H^G))

式中A^GC表示注意门控制两种潜在特征的信息流，⊙表示元素相乘，σ表示使用sigmoid函数归一化，H^G为图卷积中待推理的特征，H^C为卷积中待推理的特征，按照所提特征对最终结果的贡献程度，通过注意门调节来自双方的信息流并将该特征输入条件随机场(CRF)进行推理，推理公式为：

式中S(X,Y)表示输入序列X和预测序列Y的相似度，

表示类yi转移到类y_i+1的得分，

表示字符被预测为第y_i个类的得分，最终由Softmax分类层对手部21个关键点特征进行精准分类。

进一步的，强制坐标法中的强制是将一个手指上的一组坐标转换成多种状态的方法，即强行手指的指向在任意时刻的方向分为“下”“上”“上-下”“下-上”“不动”5类。将每根手指4个关键点的坐标分为X和Y两个维度计算每根手指的矢量方向并将其与上述5类方向匹配。每个手指对应4个关键点即4组坐标，将4组坐标分为X和Y数组，定义X数组为[x_a,x_b,x_c,x_d]，Y数组为[y_a,y_b,y_c,y_d]，为了平衡误差，本发明将坐标信息转换为矢量值，并且设置阈值为5，即其矢量值相差不超过5则认为相等，X数组矢量转换方式如公式：

式中x_a为X数组中第一个元素值，

为x_a矢量值，avg为x_a,x_b,x_c,x_d的平均值，X维度与上述5类方向匹配方法为：若

则定义该手指在X的方向为“下”，否则继续判断；若

则定义该手指在X的方向为“下-上”，否则继续判断；若

则定义该手指在X的方向为“上-下”，否则继续判断；若

则定义该手指在X的方向为“上”，否则继续判断，以上条件全部不满足则该手指在X的方向为“不动”。Y维度的匹配方法同理详情见图9一个手指对应X和Y维度两中状态方向，每个手指语的手势所对应的各个手指的状态均不同，从而推理出表达的手指语。

与现有技术相比，本发明具有以下有益效果：

1、本发明采用单目RGB相机基于机器视觉的方式判断手势进行手指语识别，相比于数据手套、贴片等硬件设施一方面节约了成本，另外一方面不会给操作人员手部带来束缚感；相比于价格昂贵的深度相机成本节约了一半以上。

2、本发明针对YOLOv4算法在手指语识别的环境下进行改进，提出Finger-YOLOv4算法，相比于YOLOv4算法在识别手势的任务中检测速度更快、检测精度更高、鲁棒性更强。

3、本发明采用先框选手部区域再定位手部关键点的方法，大幅度提高了手部关键点定位的准确率，进而增加了算法区分相似度较高的手指语的能力(比如手指语中字母B、U以及C、D、O手势非常相似)。

4、本发明采用不同特征提取器——图卷积神经网络(GCN)与卷积神经网络(CNN)提取操作人员手部区域21个关键位置特征并经注意门通过条件随机场进行融合，可以有效提高对手部区域21个关键特征的分类效果，缓解类间模糊，大幅度提高了手部关键点定位的准确率。

5、本发明在Finger-YOLOv4算法框选手部区域的基础上引入稀疏性目标提取算法，可以有效排除非操作人员手部干扰，锁定操作人员手部区域，增强整体算法的鲁棒性。

6、本发明提出了对手势关键点检测的新算法，通过手势用于更多的人机交互情景中。

7、本发明针提出了强制坐标的逻辑推理模型，可以有效、精准的将全部手指语的手势区分开。

附图说明

图1为本发明的整体检测流程示意图；

图2为本发明中Finger-YOLOv4算法结构示意图；

图3为本发明中Finger-bneck网络模块原理结构示意图；

图4为本发明中稀疏性目标提取算法原理图；

图5为本发明中双特征条件随机场网络结构图；

图6为本发明中所提出模型检测的21个手部区域关键部位图；

图7为本发明中一个X数组逻辑判断流程图；

图8为本发明中一个Y数组逻辑判断流程图；

图9为本发明中一个关节到指尖关键点示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面通过具体的实施例子并结合附图对本发明做进一步的详细描述。

如图1所示，一种基于机器视觉的轻量化精准手指语智能算法识别方法，包括如下步骤：

本发明中框选手部的区域的方法是在YOLOv4的模型上加以改进，提出Finger-YOLOv4算法，在本发明手指语识别的场景下保持检测精度不变的的同时大幅提升检测速度。本发明对原算法的修改，Finger-YOLOv4算法结构如图2所示：

(1)结合通道注意力机制、孪生模块、深度可分离卷积搭建Finger-bneck网络模块，用于替换MobileNetv3中的bneck；

(2)采用改进型MobileNetv3替换YOLOv4的主干网络CSPDarkNet；

(3)将YOLOv4的Head结构简化为2个分支。

结合通道注意力机制是用于通道之间的重要性调节，在一个正常卷积之后首先进行全局化操作，使用池化层获取通道级的全局特征值，定义全局化操作为F_sq，运算方法如公式1所示:

式中

表示全局化操作的结果，W、H表示输入特征图的宽和高，U_c表示经过一个正常卷积后的输出，它将空间维度进行特征压缩，即每个二维的特征图变成一个实数，相当于具有全局感受野的池化操作，特征通道数不变；然后利用全连接层对全局特征值进行调节排序，学习获取各个通道的权重；最后利用学习的权重值对原特征进行加权处理。在增加少量计算量的情况下，获得了更明显的性能提升。孪生模块是用来降低神经网络大小和计算资源占用的网络模块，定义常规的卷积公式Y＝X*f+b，式中*是卷积操作，X是输入特征图，

是卷积核，c是通道数，k是卷积核的高和宽，n是输出维度，b是偏置操作。定义整个卷积操作的FLOPs为F，计算方法如公式2所示：

F＝n×h′×w′×c×k×k (2)

式中F为卷积操作的FLOPs，n是卷积操作的输出维度，c是通道数，h′是输出的高，w′是输出的宽，k是卷积操作中卷积核的高和宽。

孪生模块相对卷积操作进行了改进，第一步使用更少的卷积核生成输出特征图定义原卷积核个数为n，现在使用更少的卷积核个数为m；第二步对第一步生成的每一张特征图进行深度卷积操作，每张特征图生成s张新的特征图共计m×s张，保证m×s＝n即保证孪生操作和普通卷积输出的特征形状相同；第三步将特征图拼接到一起。孪生模块的第一步卷积公式为Y′＝X*f′，省去偏置操作，式中

是卷积核，c是通道数，k是卷积核的高和宽，m是输出维度，其余超参数均与卷积操作保持一致。定义整个孪生操作的FLOPs为F′，计算方法如公式3所示：

F′＝(m×h′×w′×c×k×k)+[(s-1)×m×h′×w′×d×d] (3)

式中F′为孪生操作的FLOPs，m是孪生操作的输出维度，c是通道数，h′是输出的高，w′是输出的宽，k是卷积操作中卷积核的高和宽，d是孪生操作中卷积核的高和宽，定义卷积操作和孪生操作的加速比为T_S，计算方法如公式4所示：

深度可分离卷积其核心思想就是将一个完整的卷积分两部分进行，一部分是逐点卷积、另外一部分是逐深度卷积。逐点卷积是采用1×1的卷积组合不同深度卷积的输出，得到一组新的输出，定义其过程中使用大小为C_p×1×1的卷积核，数量为C_o个；逐深度卷积是将单个滤波器应用到每个通道上，定义输入特征图的每个通道通过一个d×d的卷积核，深度可分离卷积所需参数量为F_d的计算方法如公式5所示：

F_d＝C_o×1×1+C_p×d×d (5)

本发明将结合以上三个模块的优点，将结合通道注意力机制、孪生模块、深度可分离卷积融合搭建了轻量化网络模块Finger-bneck，用更廉价的操作来提取特征，具体结构如图3所示。

MobileNetv3是轻量化网络的集大成，是综合了以下三种模型的思想：MobileNetv1的深度可分离卷积、MobileNetv2的具有线性瓶颈的逆残差结构和MnasNet的基于轻量化and excitation结构的轻量级注意力模型。综合了以上三种结构的优点设计出了高效的MobileNetV3模块。检测速度和模型大小都优于YOLOv4原主干网络CSPDarkNet，但是检测精度不能满足本发明的实际需求。本模型将MobileNetV3中的bneck替换为上文设计的Finger-bneck模块，进行1次卷积后堆叠11次Finger-bneck。进一步提高了MobileNetV3检测速度，使得改进型MobileNetV3更加适用于高速检测的手指语识别场景。

YOLOv4网络结构整体上由三部分组成，分别是主干网络、颈部网络和头部网络。YOLOv4的主干网络是在YOLOv3的主干网络Darknet53的基础上进行改进的，借鉴了CSP网络的思想，引入了一种全新的网络结构，名为CSPDarknet53，CSP将Darknet53的模块进行拆分，一部分模块继续堆叠残差块，另外一部分模块则之间连接到最后。但是该结构在手指语识别的场景下精度提升不明显，并且CSP结构会影响网络的速度，因此本发明采用上文提出的改进型MobileNetv3替换YOLOv4的主干网络。将改进型MobileNetv3第7层Finger-bneck与原YOLOv4颈部网络中第2个上采样后的卷积进行Concat连接，将改进型MobileNetv3第9层Finger-bneck与原YOLOv4颈部网络中第1个上采样后的卷积进行Concat连接，堆叠11层Finger-bneck后进行1次卷积与SPP附加模块连接。

YOLOv4的颈部网络由两部分组成，分别是SPP附加模块和PANet路径聚合模块，SPP附加模块主要起到一个归一化的作用，将主干网络提取的特征进行归一，PANet路径聚合模块具有反复提取特征的结构，由于YOLOv3的颈部网络使用的是FPN，PAN的优势极大的改善了YOLOv3对小目标检测不足的缺陷，这一点在COCO数据集上可以观测到，在FPS相同的情况下，YOLOv4的AP值远远高于YOLOv3。

YOLOv4的头部网络延用了YOLOv3的结构，采用三个不同层级的特征图进行融合，进行多尺度预测。YOLOv4中的Head结构有三个分支，目的是检测图像中尺寸相差较大的物体。由于在手指语识别的场景中待检测目标的尺寸变化不大，所以本发明将检测头(Head结构)的3个分支简化为两个分支，减少计算量。加快模型训练。

图4是稀疏性目标提取算法的可视化流程，稀疏性矩阵分解理论是一种特征提取和分析中数据降维的方法，将高维的数据投影到低维线性子空间中并对其进行估计，通过矩阵的低秩与稀疏性约束，能够从稀疏的显著误差中恢复出低秩的矩阵。借助这一理论本发明将采集到的图像信息分为HSV三个通道分别处理，每个通道的数据可以分解为两个部分，一个具有低秩性，一个具有稀疏性。由于非操作人员手部相对操作人员运动频率低，故非操作人员手部像素值组成的矩阵具有低秩性，而操作人员手部在视频中运动频率高,故操作人员手部像素值组成的矩阵具有稀疏特性。由此锁定操作人员手部区域。具体操作流程如下：

首先分别构建H、S、V三通道的观测矩阵，定义观测矩阵为D，帧数为f，则H通道的图像序列帧为(H₁,H₂,H₃......H_f)，H通道的观测矩阵为D^H＝{h₁,h₂,h₃,......h_f}；S通道的图像序列帧为(S₁,S₂,S₃......S_f)，S通道的观测矩阵为D^S＝{s₁,s₂,s₃,......s_f}；V通道的图像序列帧为(V₁,V₂,V₃......V_f)，V通道的观测矩阵为D^V＝{v₁,v₂,v₃,......v_f}。根据稀疏性矩阵分解理论将观测矩阵分解为前景矩阵和背景矩阵，定义具有稀疏特性的前景矩阵为I，具有低秩性的背景矩阵为B。分解公式如公式6所示：

式中D^hsv表示HSV三通道的观测矩阵，I^hsv表示HSV三通道的前景矩阵，B^hsv表示HSV三通道的背景矩阵，||I^hsv||_*表示矩阵I^hsv的核范数，||B^hsv||₁表示矩阵B^hsv的l₁范数，即B^hsv中所有元素绝对值之和，接着对前景矩阵I的HSV三通道的1到f帧进行去向量化，得到H通道的前景图像序列帧为

S通道的前景图像序列帧为

V通道的前景图像序列帧为

对背景矩阵B的HSV三通道的1到f帧进行去向量化，得到H通道的背景图像序列帧为

S通道的背景图像序列帧为

V通道的背景图像序列帧为

最后按帧组合H、S、V三通道的前景部分得到的前景图像，第1帧前景图像为

以此类推第f帧前景图像为

对前f帧前景图像进行求和处理，得到前景图像Fgimg，如公式7所示:

Fgimg＝abs(fgimg_f) (7)

式中Fgimg表示对前f帧前景图像进行组合，fgimg_f表示第f帧前景图像；由于操作人员手部像素值组成的矩阵是稀疏特性前景矩阵，因此得到的前景图像即为操作人员手部图像信息，将Finger-YOLOv4框选的若干手部区域中前景图像占比最大的一块或者两块区域定为操作人员的单手或者双手，进而锁定操作人员手部区域。

图5为双特征条件随机场网络结构图，使用上文所述的Finger-YOLOv4以及稀疏性目标提取算法锁定操作人员手部区域后，本发明使用不同特征提取器——图卷积神经网络(GCN)与卷积神经网络(CNN)提取操作人员手部区域21个关键位置特征，按照所提特征对最终结果的贡献程度，通过注意门调节来自双方的信息流并将该特征输入条件随机场(CRF)进行推理，最终由Softmax分类层对手部21个关键点特征进行精准分类。

双特征条件随机场网络搭建方法：

在使用GCN提取特征的过程中，通过G＝{V,G,A}构建特征交互空间，其中V是交互图中的节点集合，G是节点之间边的集合，A是邻接矩阵，将原始输入的特征图投影到特征交互空间得到新的投影特征

其中新的交互节点数为K，新的边集为E，C'为交互空间的维度，通常新特征中节点之间通过线性组合进行连接，为了增强模型自适应的采样能力，采用自适应采样策略，运用三线性插值采样器，使用随机梯度下降的方法为每个原始特征学习移动距离，从而对给定的V个节点的图中，对特征节点X_m及其周围的位移特征节点进行采样。对投影后得到的新特征，遵循图卷积神经网络的卷积操作，定义新的邻接矩阵为A^G,权重矩阵为W^G,则图卷积神经网络的运算公式为X^G＝σ(A^GX^PROW^G)，式中X^G表示图卷积输出的特征，σ表示使用sigmoid函数归一化，A^G表示邻接矩阵，X^PRO表示原始输入的特征图投影到特征交互空间得到的新投影特征，W^G表示权重矩阵；在网络模型的实际操作中，本发明首先应用拉普拉斯平滑和更新邻接矩阵

从而将节点特征传播到整个图中，I是输入的一组序列。在实际操作中采用了梯度流最大的剩余连接代替,1×1卷积实现

和W^G，推理完成后再将特征从交互空间投影回坐标空间。

使用CNN提取特征是基于残差网络提取的，残差网络的核心结构就是其残差块，可以有效解决当网络深度过深时产生梯度爆炸或者梯度消失使得训练缓慢的问题。定义使用图卷积神经网络提取的特征为X^G，残差网络在全连接层FC后提取的特征为X^C，图卷积神经网络中以及卷积神经网络中待推理的特征分别为H^G以及H^C，注意门控制两种潜在特征的信息流使用A^GC表示，其计算公式为公式8所示：

A^GC＝σ(-(H^C⊙H^G)) (8)

式中A^GC表示注意门控制两种潜在特征的信息流，⊙表示元素相乘，σ表示使用sigmoid函数归一化，H^G为图卷积中待推理的特征，H^C为卷积中待推理的特征)H^G以及H^C的更新公式为公式9、10所示：

H^G＝conv^GC*H^G (9)

式中H^G为图卷积中待推理的特征，H^C为卷积中待推理的特征，conv^GC表示1×1卷积，X^G表示图卷积输出的特征，A^GC表示注意门控制两种潜在特征的信息流，*表示卷积操作，⊙表示元素相乘，

表示元素相加。

接着使用条件随机场完成推理过程，条件随机场是一种概率图模型，将图像中每个像素点都看作一个节点，将提取特征相似的像素归为一类，由此构成条件随机场。为引导条件随机场对手部关键点特征类别的区分，引入图卷积网络提取的特征X^G、待推理的特征H^G与残差网络提取特征X^C、待推理的特征H^C作为条件随机场一元势的输入，图卷积神经网络中以及卷积神经网络中待推理的特征H^G、H^C以及经注意门处理的特征A^GC作为条件随机场二元势函数的输入，可以通过临近的类获得一个最优的预测序列。对于输入序列X＝(x₁，x₂，x₃，...x_n)，提取特征得到输出矩阵P＝(p₁，p₂，p₃，...p_n)，对于预测序列Y＝(y₁，y₂，y₃，...y_n)，定义其分类公式如公式11所示：

式中S(X,Y)表示输入序列X和预测序列Y的相似度，

表示类y_i转移到类y_i+1的得分，

表示字符被预测为第y_i个类的得分；最后使用softmax层计算出所有可能类的概率，输出一个最优的标记序列，完成对手部21个关键点特征的分类。双特征条件随机场网络相对于残差网络可以提高网络模型的分类效果，使得模型具备较高类间可分性与类内紧凑性，缓解类间模糊。

识别出手部的21个关键点，根据手部关键点进行连接，构成对应的向量，如图6所示。表1是本发明所提出模型检测的21个手部区域关键部位。

表1手部关键部位对应序号

本发明提出的一种逻辑推理模型—强制坐标法，强制将一个手指上的一组坐标转换成多种状态的方法，即强行手指的指向在任意时刻的方向分为“下”“上”“上-下”“下-上”“不动”5类。将每根手指4个关键点的坐标分为X和Y两个维度计算每根手指的矢量方向并将其与上述5类方向匹配。将转换出的状态与需要识别的手指语手势进行映射从而进行手指语识别，具体判断方法如下：将提取的21个关键点从结果中分离到不同手指的关键点数组，手指上的每个关键点都对应手指的关节，每个手指对应4个关键点即4组坐标，将4组坐标分为X和Y数组，假设每个手指由关节到指尖的四个点分别为a、b、c、d，如图7所示

其对应的X数组分别为[x_a,x_b,x_c,x_d]，Y数组分别为[y_a,y_b,y_c,y_d]，图8为X数组的逻辑判断流程图，图9为Y数组的逻辑判断流程图。根据不同的状态判断对应的手指语手势。

但是此种算法对关键点的检测精度要求比较高，为了平衡误差，本发明将坐标点信息转换为矢量值，并且设置阈值为5，即其矢量值相差不超过5则认为相等，其转换方式如公式12所示

式中x_a为X数组中第一个元素值，

则定义该手指在X的方向为“下”，否则继续判断；若

则定义该手指在X的方向为“下-上”，否则继续判断；若

则定义该手指在X的方向为“上-下”，否则继续判断；若

则定义该手指在X的方向为“上”，否则继续判断，以上条件全部不满足则该手指在X的方向为“不动”。Y维度的匹配方法同理详情见图9一个手指对应X和Y维度两中状态方向，每个手指语的手势所对应的各个手指的状态均不同，从而推理出表达的手指语。以手指语中字母I的手势为例。

1)分别提取出手指语中字母I手势的大拇指、食指、中指、无名指、小拇指的X和Y维度坐标的数组。

表2手指语中字母I手势的大拇指、食指、中指、无名指、小拇指的X和Y维度坐标的数组

2)将X和Y数组的数据通过公式转换为矢量数据。

表3X和Y数组的数据通过公式转换的矢量数据

3)根据所设阈值平衡误差，基于上述的逻辑判断流程图进行判断。得出对应的状态，并判断出对应的手势。

表4逻辑判断结果

	大拇指	食指	中指	无名指	小拇指
						X状态	上-下	不动	不动	上-下	上-下
Y状态	上	上	上-下	上-下	上-下

以此逻辑推理方法可以精准的判断出手指语中的全部手势，包括一些相似度较高的手指语(比如手指语中字母B、U以及C、D、O手势非常相似)。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：在S2中，Finger-YOLOv4算法是在YOLOv4算法的基础上进行改进，改进方式包括：结合通道注意力机制、孪生模块、深度可分离卷积搭建Finger-bneck网络模块，将MobileNetv3中的bneck进行改进为Finger-bneck；采用改进型MobileNetv3替换YOLOv4的主干网络CSPDarkNet；将YOLOv4的Head结构简化为2个分支。

3.根据权利要求2所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：结合通道注意力机制是用于通道之间的重要性调节，在一个正常卷积之后首先进行全局化操作，使用池化层获取通道级的全局特征值，定义全局化操作为F_sq，运算公式为：

式中

表示全局化操作的结果，W、H表示输入特征图的宽和高，U_c表示经过一个正常卷积后的输出，将空间维度进行特征压缩，即每个二维的特征图变成一个实数，相当于具有全局感受野的池化操作，特征通道数不变；然后利用全连接层对全局特征值进行调节排序，学习获取各个通道的权重；最后利用学习的权重值对原特征进行加权处理。

4.根据权利要求2所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：孪生模块是用来降低神经网络大小和计算资源占用的网络模块，定义常规的卷积公式Y＝X*f+b，式中*是卷积操作，X是输入特征图，

是卷积核，c是通道数，k是卷积核的高和宽，n是输出维度，b是偏置操作；定义整个卷积操作的FLOPs为F，计算公式：

F＝n×h′×w′×c×k×k

式中F为卷积操作的FLOPs，n是卷积操作的输出维度，c是通道数，h′是输出的高，w′是输出的宽，k是卷积操作中卷积核的高和宽；

孪生模块相对卷积操作进行了改进，第一步使用更少的卷积核生成输出特征图定义原卷积核个数为n，现在使用更少的卷积核个数为m；第二步对第一步生成的每一张特征图进行深度卷积操作，每张特征图生成s张新的特征图共计m×s张，保证m×s＝n即保证孪生操作和普通卷积输出的特征形状相同；第三步将特征图拼接到一起；孪生模块的第一步卷积公式为Y′＝X*f′，省去偏置操作，式中

是卷积核，c是通道数，k是卷积核的高和宽，m是输出维度，其余超参数都与卷积操作保持一致；定义整个孪生操作的FLOPs为F′，计算公式：

F′＝(m×h′×w′×c×k×k)+[(s-1)×m×h′×w′×d×d]

式中F′为孪生操作的FLOPs，m是孪生操作的输出维度，c是通道数，h′是输出的高，w′是输出的宽，k是卷积操作中卷积核的高和宽，d是孪生操作中卷积核的高和宽；定义卷积操作和孪生操作的加速比为T_S，计算公式为：

式中T_S为加速度比，F为卷积操作的FLOPs，F′为孪生操作的FLOPs，n是卷积操作的输出维度，m是孪生操作的输出维度，c是通道数，h′是输出的高，w′是输出的宽，k是卷积操作中卷积核的高和宽，d是孪生操作中卷积核的高和宽，s是新的特征图的张数，卷积操作的FLOPs是孪生模块的s倍。

5.据权利要求2所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：深度可分离卷积搭建Finger-bneck网络模块其核心思想是将一个完整的卷积分两部分进行，一部分是逐点卷积、另外一部分是逐深度卷积；逐点卷积是采用1×1的卷积组合不同深度卷积的输出，得到一组新的输出，定义其过程中使用大小为C_p×1×1的卷积核，数量为C_o个；逐深度卷积是将单个滤波器应用到每个通道上，定义输入特征图的每个通道通过一个d×d的卷积核，深度可分离卷积所需参数量为F_d的计算公式为：

F_d＝C_o×1×1+C_p×d×d

式中F_d为深度可分离卷积所需参数量，为C_o为卷积核数量，C_p为通道数，d为卷积核大小。

6.根据权利要求2所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：改进型MobileNetv3采用结合通道注意力机制、孪生模块、深度可分离卷积搭建Finger-bneck网络模块替换原MobileNetv3中的bneck，在经过一个卷积后采用残差原理，一部分输入由孪生模块和深度可分离卷积组成的G-bneck后再经过一个通道注意力机制模块，最后经过一个卷积操作后与另外一部分通过shortcut连接最终输出；采用改进型MobileNetv3替换YOLOv4的主干网络CSPDarkNet，将改进型MobileNetv3第7个Finger-bneck层和第9个Finger-bneck层后的输出分别与YOLOv4两个上采样层后的输出进行Concat连接操作，完成对YOLOv4主干网络的替换。

7.根据权利要求1所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：在S3中，稀疏性目标提取算法是以稀疏性矩阵分解理论为核心，将采集到的图像信息分为HSV三个通道分别处理，定义其观测矩阵为D，H、S、V三通道的观测矩阵分别为D^H＝{h₁,h₂,h₃,......h_f}、D^S＝{s₁,s₂,s₃,......s_f}、D^V＝{v₁,v₂,v₃,......v_f}，每个通道的数据可以分解为两个部分，一个具有低秩性,一个具有稀疏性，基于公式：

式中D^hsv表示HSV三通道的观测矩阵，I^hsv表示HSV三通道的前景矩阵，B^hsv表示HSV三通道的背景矩阵，||I^hsv||_*表示矩阵I^hsv的核范数，||B^hsv||₁表示矩阵B^hsv的l₁范数，即B^hsv中所有元素绝对值之和。

8.根据权利要求7所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：稀疏性矩阵分解理论是一种特征提取和分析中数据降维的方法，将高维的数据投影到低维线性子空间中并对其进行估计，定义矩阵D表示为矩阵B、矩阵I的和，其中B表示D的低秩部分，I表示D的稀疏部分，并且矩阵I中所有元素都满足独立的高斯分布，通过公式：

式中|| ||₂表示矩阵的2范数，D表示矩阵D，B表示矩阵D的低秩部分，求解数值较小的稀疏矩阵I，如果实际数据存在大量干扰数据覆盖，可以采用另外一种求解方式如公式：

式中||B||₁表示矩阵B的l₁范数，||I||_*表示矩阵I的核范数，D表示矩阵D，B表示矩阵D的低秩部分，I表示矩阵D的稀疏部分，通过矩阵的低秩与稀疏性约束，能够从稀疏的显著误差中恢复出低秩的矩阵，进而求解出稀疏矩阵。

9.根据权利要求1所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：在S4中，双特征条件随机场网络使用不同特征提取器：图卷积神经网络GCN与卷积神经网络CNN提取操作人员手部区域21个关键位置特征，定义GCN提取的特征为X^G，CNN提取特征是基于残差网络提取的，定义残差网络全连接层后输出的特征为X^C，卷积中待推理的特征分别为H^G以及H^C，注意门控制两种潜在特征的信息流使用A^GC表示，其计算公式为：A^GC＝σ(-(H^C⊙H^G))

式中A^GC表示注意门控制两种潜在特征的信息流，⊙表示元素相乘，σ表示使用sigmoid函数归一化，H^G为图卷积中待推理的特征，H^C为卷积中待推理的特征，按照所提特征对最终结果的贡献程度，通过注意门调节来自双方的信息流并将该特征输入条件随机场CRF进行推理，推理公式为：

式中S(X,Y)表示输入序列X和预测序列Y的相似度，

表示类y_i转移到类y_i+1的得分，

10.根据权利要求1所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法，其特征在于：在S5中，强制坐标法的强制是将一个手指上的一组坐标转换成多种状态的方法，即强行手指的指向在任意时刻的方向分为“下”“上”“上-下”“下-上”“不动”5类；将每根手指4个关键点的坐标分为X和Y两个维度计算每根手指的矢量方向并将其与上述5类方向匹配；每个手指对应4个关键点即4组坐标，将4组坐标分为X和Y数组，定义X数组为[x_a,x_b,x_c,x_d]，Y数组为[y_a,y_b,y_c,y_d]，为了平衡误差，将坐标信息转换为矢量值，并且设置阈值为5，即其矢量值相差不超过5则认为相等，X数组矢量转换方式如公式：

式中x_a为X数组中第一个元素值，

则定义该手指在X的方向为“下”，否则继续判断；若

则定义该手指在X的方向为“下-上”，否则继续判断；若

则定义该手指在X的方向为“上-下”，否则继续判断；若

则定义该手指在X的方向为“上”，否则继续判断，以上条件全部不满足则该手指在X的方向为“不动”。