CN116311500A

CN116311500A - 基于自适应手势帧序列提取算法的实时手势识别方法

Info

Publication number: CN116311500A
Application number: CN202310103156.1A
Authority: CN
Inventors: 林琳; 陈雨欣; 刘仲; 蒋贵虎; 佴威至; 陈建; 孙晓颖
Original assignee: Jilin University; Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Current assignee: Jilin University; Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-06-23

Abstract

本发明涉及一种基于自适应手势帧序列提取算法的实时手势识别方法,属于人机交互领域。包括构建一个自适应网络来选择视频中具有判别性的帧序列,使算法能够根据视频中手势的种类自动调节截取的视频帧数，并将挑选的帧序列的特征输入到实时手势识别网络中进行判别任务,并将返回值反馈到原有算法网络中，与原算法网络联合训练并相互促进。优点在于：缩短了识别时间，在应用中，可以有效避免在静态手势识别过程中，需要测试者保持手势静止一段时间，才能得到手势识别结果的问题，提高系统识别速度，降低系统延迟。

Description

基于自适应手势帧序列提取算法的实时手势识别方法

技术领域

本发明属于人机交互领域，具体涉及一种基于自适应手势帧序列提取的实时识别方法。

背景技术

随着计算机技术的快速发展，人与计算机间的信息交互必不可少，而用手势执行指令与计算机进行交互相较使用鼠标等硬件控制更为智能、自然。手势识别的交互方式主要有基于外部设备的方法和基于计算机视觉的方法，而基于计算机视觉的方式更为灵活，设备成本更低，这种方式面对的挑战主要是选择在缩放、照明、旋转上具备不变形的特征，在复杂背景下进行准确的手势分割，以及进行准确度较高的实时识别。

随着机器视觉技术的发展，使用深度传感器进行物体识别，行为识别等的相关应用越来越多，区别于普通摄像头的是在于深度相机能检测到手势到摄像头的距离，能够更好地还原手势的空间位置。

基于计算机视觉的手势识别较难进行准确度高的实时识别原因主要有以下两点：

1、动态手势视频通常包含数百个视频帧，在处理数据集中大量图像数据时非常耗时。

2、在实际的手势识别应用系统中，当利用实时获取的静态手势进行识别时，测试者需要保持手势静止一段时间，才能得到手势识别结果，这样会降低系统识别速度，产生系统延迟。

发明内容

本发明提供一种基于自适应手势帧序列提取算法的实时手势识别方法，提高了手势识别的实时性，解决进行实时手势中静态手势识别时的识别延迟问题，该方法可适用于逐帧提取手势特征的实时手势识别方法。

本发明采取的技术方案是：包括以下步骤：

步骤1：在手势识别程序中载入并读取预先生成的M条随机线段数据并采用深度相机获取实时深度图像；

步骤2：使用计算机键入分类标签并录制每个分类标签对应的多个深度视频帧序列，作为训练集，其中每一个深度视频帧序列包含N帧，为一个样本；

步骤3：计算每个样本的手势特征值；

步骤4：计算同类样本的动态分类阈值；

步骤5：同时通过对实时获取的当前一帧图像数据和最近N帧深度视频帧序列进行计算，得到两个分类结果；

步骤6：将两个分类结果进行比较，输出与样本相差更小的分类结果，作为最终手势分类结果。

本发明所述步骤1具体为：根据实验观察，为了保证随机线段尽最大可能遍布在图像上，以便用于充分描述手势，M值的选择不小于1000。

本发明所述步骤2具体为：每个样本都有一条动作轨迹，将动作轨迹定义为：在共有N帧的深度视频帧序列中，由计算得到第n帧的第m条随机线段对应的特征向量值为f_m ⁽ⁿ⁾，共有M条随机线段，第n帧的特征向量p⁽ⁿ⁾＝[f₁ ⁽ⁿ⁾,f₂ ⁽ⁿ⁾,...,f_M ⁽ⁿ⁾]，按照深度视频帧序列顺序连接N个特征向量就形成了一条轨迹T＝[p⁽¹⁾,p⁽²⁾,...,p^(N)]，即为动作轨迹，根据实验观察，为了兼顾对有大量数据的静态手势和动态手势的识别，帧数N值选择不小于30，而分类标签相同的样本即为同类样本。

本发明所述步骤3包括以下步骤：

步骤3.1：获得对深度视频帧序列进行分割后的手部区域；

步骤3.2：提取M个随机线段的特征向量值；

将M个随机生成的线段散布在序列每一帧图像的手部区域上，每个随机线段都对应一个特征向量，特征向量由以下五个特征构成：

特征一：定义为随机线段所在手部区域像素占整幅图像像素的比例；

特征二：定义为随机线段覆盖的手部区域像素的平均深度值；

特征三：表示最小深度值的像素点在随机线段上的位置；

特征四：表示最大深度值的像素点在随机线段上的位置；

特征五：表示手部区域像素深度值的变化特点，用随机线段上手部区域相邻接的像素的深度差的绝对值的加和估算；

最终为每条随机线段计算得到一个特征向量值；

步骤3.3：基于步骤3.2得到的随机线段特征向量值，计算动作轨迹的三种特征；

第一种特征是三维距离特征，描述深度视频帧序列中的动作轨迹上特征点在三维空间上的距离，可以表示出手势外观；

第二种特征是运动长度特征，可以表示出手势在空间中随时间变换的位置，计算运动长度特征公式如下：

第三种特征是速度特征，通过计算手势运动速度得到。

本发明所述步骤4包括以下步骤：

步骤4.1：计算三维距离特征差、运动长度特征差、速度特征差；

三维距离特征差计算公式：

第n帧两个特征向量p_a ⁽ⁿ⁾和p_b ⁽ⁿ⁾的距离定义为：

其中f_m,a ⁽ⁿ⁾和f_m,b ⁽ⁿ⁾分别表示特征向量p_a ⁽ⁿ⁾和p_b ⁽ⁿ⁾在M个数值中的第m个值，三维距离特征差即为两个特征向量之间的欧式距离，即：

其中Sa和Sb表示需进行特征差计算的两个深度视频帧序列；

运动长度特征差计算公式：

其中，T_l和T_s分别表示对于深度视频帧序列Sa和Sb对应的动作轨迹T_a和T_b中长度特征值较大和较小的轨迹；

速度特征差计算公式：

其中v_a ⁽ⁿ⁾和v_b ⁽ⁿ⁾分别表示为在深度视频帧序列S_a和S_b中，手在第n帧中的移动速度；

步骤4.2：计算样本动态阈值；

每个手势标签对应阈值Th(Label(S))，阈值的计算方法是：对训练集中所有标签相同的样本两两之间的三种特征差值的中位数进行加权平均，即：

Th(Label(S))＝w₁·medianD₁(S_a,S_b)+w₂·medianD₂(S_a,S_b)+w₃·medianD₃(S_a,S_b)

其中w₁，w₂，w₃表示三种特征差值所占权值，通过进行多次实验，取平均识别率高的情况所对应的w₁，w₂，w₃值作为动态阈值的权值；

两个深度视频帧序列S_a和S_b的差异性用D(S_a,S_b)表示，其计算公式如下：

D(S_a,S_b)＝w₁·medianD₁(S_a,S_b)+w₂·medianD₂(S_a,S_b)+w₃·medianD₃(S_a,S_b)

其中w₁，w₂，w₃表示三种特征差值所占权值,通过进行多次实验，取平均识别率高的情况所对应的w₁，w₂，w₃值作为动态阈值的权值。

本发明所述步骤5包括以下步骤：

步骤5.1：对实时获取的当前一帧深度图像的数据进行处理，得到一个分类结果1；

将实时获取到深度视频的最近一帧手势特征进行延展，即将当前一帧的特征向量进行复制，得到与样本相同帧数，即N帧的特征向量数，用这些向量组成一条动作轨迹，并计算处理后的帧序列特征值，计算该值与样本特征差，与样本阈值进行比较，输出一个分类结果1；

手势阈值对比及分类方法如下：

将对当前一帧的特征向量进行复制后得到的序列用S₀表示，序列S₁为实时测试前采集的样本的深度视频帧序列，当满足以下条件时，序列S₀与样本的深度视频帧序列S₁匹配：

D(S₀,S₁)<Th(label(S₁))

其中label(S₁)是分类标签，每个手势标签对应的阈值Th(label(S₁))由对对应标签下样本进行动态阈值计算得到；

在实时识别时，每次深度相机捕获到最新一帧后，将组成的动作轨迹对应序列与训练集中的所有样本深度视频帧序列进行比较，若没有找到匹配项，算法不会输出；若一或多个匹配项，将对应的1/D(S₀,S₁)作为每个匹配样本的分数，使用KNN算法输出一个累积分数最大的标签作为分类结果1；

步骤5.2：生成实时获取的深度视频帧序列中由最近N帧构成的动作轨迹，计算深度视频帧序列特征值，并与不同种类样本阈值相对比，得到另一个分类结果2；

手势阈值对比及分类方法如下：

将最近N帧深度视频帧序列用S₀₀表示，序列S₂为实时测试前采集的样本深度视频帧序列，当满足以下条件时，序列S₀₀与样本序列S₂匹配：

D(S₀₀,S₂)<Th(label(S₂))

其中label(S₂)是分类标签，每个手势标签对应的阈值Th(label(S₂))对对应标签下样本进行动态阈值计算得到；

在实时识别时，将最近N帧深度视频帧序列与训练集中的所有样本深度视频帧序列进行比较，若没有找到匹配项，算法不会输出；若一或多个匹配项，将对应的1/D(S₀₀,S₂)作为每个匹配样本的分数，使用KNN算法输出一个累积分数最大的标签作为分类结果2。

本发明所述步骤6包括以下步骤：

步骤6.1：用DIF₁表示生成的手势动作轨迹与分类结果1对应手势动作轨迹的差异程度:

DIF₁＝|D(S₀,S₁)-Th(label(S₁))|

用DIF₂表示实时手势动作轨迹与分类结果2对应手势动作轨迹的差异程度:

DIF₂＝|D(S₀₀,S₂)-Th(label(S₂))|

步骤6.2：当DIF₁<＝DIF₂时,程序判别为T,输出分类结果1；否则,程序判别为F,输出分类结果2。

本发明的优点在于：使用自适应帧序列提取的方法，根据静态手势在深度视频帧序列中每一帧都相同的特点，通过对深度视频帧序列的最近一帧深度图像数据进行处理，并联合此前已经获取的最近N帧中深度视频帧序列的特征值得到分类结果，而非等待从当前一帧开始再提取N帧深度图像数据才能得到分类结果，缩短了识别时间。在应用中，可以有效避免在静态手势识别过程中，需要测试者保持手势静止一段时间，才能得到手势识别结果的问题，提高系统识别速度，降低系统延迟。

附图说明

图1是本发明方法的流程图。

具体实施方式

本发明涉及一种自适应手势帧序列提取算法，包括下列步骤：

1.在手势识别程序中载入并读取预先生成的M＝1000条随机线段数据并采用深度相机获取实时深度图像；

2.使用计算机键入分类标签并录制每个分类标签对应的多个深度视频帧序列，作为训练集，其中每一个深度视频帧序列包含N＝30帧，为一个样本；

每个样本都有一条动作轨迹。将动作轨迹定义为：在共有N＝30帧的深度视频帧序列中，由计算得到第n帧的第m条随机线段对应的特征向量值为f_m ⁽ⁿ⁾。共有M＝1000条随机线段，第n帧的特征向量p⁽ⁿ⁾＝[f₁ ⁽ⁿ⁾,f₂ ⁽ⁿ⁾,...,f₁₀₀₀ ⁽ⁿ⁾]，按照深度视频帧序列顺序连接N个特征向量就形成了一条轨迹T＝[p⁽¹⁾,p⁽²⁾,...,p^(N)]，即为动作轨迹；

分类标签相同的样本即为同类样本；

3.计算每个样本的手势特征值

(1)获得对深度视频帧序列进行分割后的手部区域；

(2)提取1000个随机线段特征以构成1000个维度的特征向量，将1000个随机线段散布在序列每一帧图像的手部区域上，每个随机线段都对应一个特征向量，特征向量由以下五个特征构成：

特征三：表示最小深度值的像素点在随机线段上的位置；

特征四：表示最大深度值的像素点在随机线段上的位置；

最终为每条随机线段计算得到一个特征向量值；

(1)基于得到的随机线段特征向量值，计算动作轨迹的三种特征；

第三种特征是速度特征，通过计算手势运动速度得到；

4.计算同类样本的动态分类阈值

(1)计算三维距离特征差、运动长度特征差、速度特征差；

三维距离特征差计算公式：

第n帧两个特征向量p_a ⁽ⁿ⁾和p_b ⁽ⁿ⁾的距离定义为

其中f_m,a ⁽ⁿ⁾和f_m,b ⁽ⁿ⁾分别表示特征向量p_a ⁽ⁿ⁾和p_b ⁽ⁿ⁾在1000个数值中的第m个值，轨迹特征差即为两个特征向量之间的欧式距离，即：

其中Sa和Sb表示需进行特征差计算的两个深度视频帧序列；

运动长度特征差计算公式：

特征速度差计算公式：

(2)计算样本动态阈值

Th(Label(S))＝w₁·medianD₁(S_a,S_b)+w₂·medianD₂(S_a,S_b)+w₃·medianD₃(S_a,S_b)(6)

D(S_a,S_b)＝w₁·medianD₁(S_a,S_b)+w₂·medianD₂(S_a,S_b)+w₃·medianD₃(S_a,S_b) (7)

5.同时通过对实时获取的当前一帧图像数据和最近三十帧图像数据进行计算，分别与不同标签样本阈值进行比较，得到两个分类结果；

(1)对实时获取的当前一帧图像数据进行处理，得到一个分类结果1；

将实时获取到深度视频的最近一帧手势特征进行延展，即将当前一帧的特征向量进行复制，得到与样本相同帧数，即三十帧的特征向量数，用这些向量组成一条动作轨迹，并计算处理后的帧序列特征值，计算该值与样本特征差，与样本阈值进行比较，输出一个分类结果1；

手势阈值对比及分类方法如下：

将对当前一帧的特征向量进行复制后得到的序列用S₀表示，序列S₁为实时测试前采集的样本的深度视频帧序列；当满足以下条件时，序列S₀与样本的深度视频帧序列S₁匹配：

D(S₀,S₁)<Th(label(S₁)) (8)

其中label(S₁)是分类标签。每个手势标签对应的阈值Th(label(S₁))由对对应标签下样本进行动态阈值计算得到；

在实时识别时，每次深度相机捕获到最新一帧后，按照上述公式(8)将组成的动作轨迹对应序列与训练集中的所有样本深度视频帧序列进行比较，若没有找到匹配项，算法不会输出；若一或多个匹配项，将对应的1/D(S₀,S₁)作为每个匹配样本的分数，使用KNN算法输出一个累积分数最大的标签作为分类结果1；

(2)生成实时获取的深度视频帧序列中由最近三十帧构成的动作轨迹，计算深度视频帧序列特征值，并与不同种类样本阈值相对比，得到另一个分类结果2；

手势阈值对比及分类方法如下：

将最近三十帧深度视频帧序列用S₀₀表示，序列S₂为实时测试前采集的样本深度视频帧序列。当满足以下条件时，序列S₀₀与样本序列S₂匹配：

D(S₀₀,S₂)<Th(label(S₂)) (9)

其中label(S₂)是分类标签。每个手势标签对应的阈值Th(label(S₂))对对应标签下样本进行动态阈值计算得到；

在实时识别时，按照上述公式(9)将最近三十帧深度视频帧序列与训练集中的所有样本深度视频帧序列进行比较，若没有找到匹配项，算法不会输出；若一或多个匹配项，将对应的1/D(S₀₀,S₂)作为每个匹配样本的分数，使用KNN算法输出一个累积分数最大的标签作为分类结果2；

6.将两个分类结果进行比较，输出与样本相差更小的分类结果，作为最终手势分类结果；

用DIF₁表示生成的手势动作轨迹与分类结果1对应手势动作轨迹的差异程度:

DIF₁＝|D(S₀,S₁)-Th(label(S₁))| (9)

DIF₂＝|D(S₀₀,S₂)-Th(label(S₂))| (10)

当DIF₁<＝DIF₂时,程序判别为T,输出分类结果1；否则,程序判别为F,输出分类结果2。

Claims

1.一种基于自适应手势帧序列提取算法的实时手势识别方法,其特征在于：包括以下步骤：

步骤3：计算每个样本的手势特征值；

步骤4：计算同类样本的动态分类阈值；

2.根据权利要求1所述的一种基于自适应手势帧序列提取算法的实时手势识别方法，其特征在于：所述步骤1具体为：根据实验观察，为了保证随机线段尽最大可能遍布在图像上，以便用于充分描述手势，M值的选择不小于1000。

3.根据权利要求1所述的一种基于自适应手势帧序列提取算法的实时手势识别方法，其特征在于：所述步骤2具体为：每个样本都有一条动作轨迹，将动作轨迹定义为：在共有N帧的深度视频帧序列中，由计算得到第n帧的第m条随机线段对应的特征向量值为f_m ⁽ⁿ⁾，共有M条随机线段，第n帧的特征向量p⁽ⁿ⁾＝[f₁ ⁽ⁿ⁾,f₂ ⁽ⁿ⁾,...,f_M ⁽ⁿ⁾]，按照深度视频帧序列顺序连接N个特征向量就形成了一条轨迹T＝[p⁽¹⁾,p⁽²⁾,...,p^(N)]，即为动作轨迹，根据实验观察，为了兼顾对有大量数据的静态手势和动态手势的识别，帧数N值选择不小于30，而分类标签相同的样本即为同类样本。

4.根据权利要求1所述的一种基于自适应手势帧序列提取算法的实时手势识别方法，其特征在于：所述步骤3包括以下步骤：

步骤3.1：获得对深度视频帧序列进行分割后的手部区域；

步骤3.2：提取M个随机线段的特征向量值；

特征三：表示最小深度值的像素点在随机线段上的位置；

特征四：表示最大深度值的像素点在随机线段上的位置；

最终为每条随机线段计算得到一个特征向量值；