CN111680618B

CN111680618B - 基于视频数据特性的动态手势识别方法、存储介质和设备

Info

Publication number: CN111680618B
Application number: CN202010501992.1A
Authority: CN
Inventors: 谢晓燕; 赵欢; 尹芍润
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2023-04-18
Anticipated expiration: 2040-06-04
Also published as: CN111680618A

Abstract

本发明公开了一种基于视频数据特性的动态手势识别方法、存储介质和设备，从动态手势编码视频码流中获取运动矢量；对获取的运动矢量进行阈值过滤，去除与手部运动无关的运动矢量特征；然后进行方向量化；再使用k‑means聚类算法将运动矢量按量化方向角聚为不同的簇；取方向角聚类簇样本数量最多的2个簇作为主方向角聚类簇；采用主成分分析法对聚类后的主方向角聚类簇均值进行数据维度处理，得到一帧运动矢量的运动趋势；融合运动趋势和手型类别概率得到动态手势的类别概率，将概率最大的类别作为预测得到的目标类别。本发明避免了对视频码流解码重建带来的数据量和计算量的增加，能够在资源受限环境中有效实现，提高了安全性和实时性。

Description

基于视频数据特性的动态手势识别方法、存储介质和设备

技术领域

本发明属于信息技术领域，具体涉及一种基于视频数据特性的动态手势识别方法、存储介质和设备。

背景技术

动态手势作为一种重要的人机交互方式，近年来受到越来越多的关注。将手部执行的特定动作，利用相应设备捕获与分析，转化为一系列控制指令使智能设备做出响应，使得人机交互方式更加自然和友好。近年来，动态手势识别在体感游戏、手语识别、辅助驾驶、医疗器械以及智能家电控制等领域应用的越来越广泛。

目前在计算机视觉领域，对于动态手势分析都是采用“源端视频压缩→传输→后端解码重建视频→视频图像分帧→特征提取与分析识别”的处理框架进行的。这样的处理框架将视频图像的分析处理与多媒体数据处理领域割裂开来，没有充分利用多媒体数据处理领域已经挖掘出的视频数据时间及空间特征信息。在现有视频设备中采用的视频编码技术(如AVS(Audio Video Coding Standard)、HEVC(High Efficiency Video Coding)等)中，本身就已经通过运动矢量将采集的原始相邻图像帧之间的对象运动趋势精确地描述出来。如果能够充分利用这些信息，不但可以大大降低视频图像分析识别的数据量，还可以大大简化特征提取复杂度。

现有基于动态手势识别应用，为了发挥智能算法的优势，同时又受制于终端的计算和存储资源限制，不得不采用云后端的系统架构，如图1所示。在本地获取手势视频数据，编码压缩后通过网络传输到云端，在云端解码视频流得到一系列的静态手势图像帧数据，对图像帧序列进行相关预处理后利用智能算法提取特征并分析识别，最后将结果通过网络传回本地。这样的框架从本质上无法跨越以下限制：

(1)特征提取与分析识别需要在解码重建后的视频上完成，算法处理的原始数据本身是经过有损的视频编码处理过的，因此存在很大的视觉特征损失，识别的精度会受到很大的影响；

(2)特征提取与分析识别的输入是基于将重建的视频数据分帧后的离散图像序列，导致分析的数据量增长巨大，对存贮和计算资源都带来很大的挑战，故而无法将应用部署在资源受限的边缘设备上；

(3)将特征提取与分析识别部署在云端又导致数据安全和传输代价问题。

这样的处理框架忽略了编码视频中固有的数据特征。在视频编码中，I帧(关键帧)采用的帧内压缩方式会保留完整的静态图像信息，因此可以独立的解码与显示，并提取到动态手势的空间特征。为了降低码率，I帧之间的预测帧中仅保留了与运动趋势相关的时间特征信息，基于这些信息解码恢复出的图像序列与原始图像序列存在很大的量化误差。这些量化误差会对智能算法造成误导，影响分析识别的精度。但是换一个角度来看，预测帧编码数据中的运动矢量是通过相邻帧间的块匹配计算得到的，这些运动矢量本身就呈现了视频图像序列中运动对象在时间和空间的变化特征。也就是说，对于动态手势视频图像，运动矢量中蕴含了手势变化的趋势信息，因此可以直接从编码视频数据中提取出来作为手势的时间特征。如果能够充分利用运动矢量的特征信息，一方面可以避免解码带来的量化误差，另一方面还可以大大降低计算复杂度和分析处理的数据量。毕竟和图像序列相比，运动矢量的数据量将会成数量级地降低，而且对机器学习算法来说运动矢量数据更加规则。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于视频数据特性的动态手势识别方法、存储介质和设备，以视频码流中的运动矢量作为特征相比传统方法提取视频图像帧作为特征极大地减少了分析、处理和存储的数据量，适合在资源受限环境中应用。

本发明采用以下技术方案：

一种基于视频数据特性的动态手势识别方法，包括以下步骤：

S1、从动态手势编码视频码流中获取运动矢量；

S2、对步骤S1获取的运动矢量进行阈值过滤，去除与手部运动无关的运动矢量特征；

S3、将步骤S2过滤后的运动矢量进行方向量化；

S4、步骤S3得到量化方向角之后，使用k-means聚类算法将运动矢量按量化方向角聚为不同的簇；

S5、取方向角聚类簇样本数量最多的2个簇作为主方向角聚类簇；

S6、采用主成分分析法对步骤S5聚类后的主方向角聚类簇均值进行数据维度处理，得到一帧运动矢量的运动趋势e_t；

S7、通过运动趋势分类获取动态手势的时间特征，通过从动态手势编码视频码流中提取的首帧图像对手型进行分类以获取动态手势的空间特征，融合运动趋势和手型类别概率得到动态手势的类别概率，将概率最大的类别作为预测得到的目标类别。

具体的，步骤S2中，阈值结果T具体为：

其中，V为运动矢量的速度，n为一帧中有运动矢量的块数量。

具体的，步骤S3中，将方向信息转换为0°、45°、90°、135°、180°、225°、270°、315°的8个量化角度，运动矢量量化后的角度aq为：

aq＝q←arctan(|x|÷|y|)

其中，x，y为运动矢量(x,y)的水平和垂直方向信息，q为运动矢量方向角最为趋近的一个量化方向角。

具体的，步骤S4中，量化方向角的数量为区间[1,8]中的整数。

具体的，步骤S6中，通过一个拥有m帧运动矢量的动态手势视频构成一个主方向角聚类簇矩阵A，取最大的特征值λ_max对应的特征向量作为变换矩阵P，将主方向角聚类簇矩阵A与变换矩阵P点乘得到降维后的特征矩阵B，通过线性变换将主方向角聚类簇矩阵A变换为一组各维度线性无关的表示，得到一帧运动矢量的运动趋势

具体的，步骤S7中，从运动矢量(x,y)中提取出运动趋势特征，采用随机森林分类器对动态手势的运动趋势e_t进行分类，得到e_t在类别C_t的运动趋势类别概率P_t(C_t|e_t)。

进一步的，步骤S7中，采用ResNet-18作为手型分类的卷积神经网络模型，通过卷积神经网络对首帧图像e_s分类得到动态手势的手型类别概率P_s(C_s|e_s)。

本发明的另一个技术方案是，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据所述方法中的任一方法。

本发明的另一个技术方案是，一种识别设备，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述方法中的任一方法的指令。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于视频数据特性的动态手势识别方法，以编码视频中的数据作为动态手势识别的原始数据，不仅能够减少识别算法对存储及计算资源的需求，还能避免解码重建后数据精度的损失以及数据隐私问题，能够在本地资源受限环境中部署动态手势识别的所有算法内容，不需要通过网络传输数据到云端，提高了数据安全性。并且没有了网络传输延迟的影响，从而使动态手势识别的实时性得到了更好的保障。

进一步的，运动矢量只关注手势序列中运动部分的空间位移信息，只要背景和光照变化程度不大，就不会在运动矢量中特别明显地表现出来。因此鲁棒性较高，在不同光照、背景环境下有较好的识别效果。

进一步的，手型即为动态手势的静态空间信息，在视频码流中以帧内压缩的方式保存，并且可以独立的解码得到相应的数据，信息容易获取。

进一步的，阈值过滤能够消除与手势运动信息无关的运动矢量特征，减少了噪声数据对分类算法的影响，从而提高了对手势的识别准确率。

进一步的，由于获取的运动矢量包含水平和垂直两个方向上相对位移量，不利于数据的计算，所以将方向信息量化为8个角度，并且对方向进行量化操作可以减少处理数据的复杂度。

进一步的，从运动矢量中提取出的运动趋势包含了动态手势的主要运动方向信息，通过分类算法对不同动态手势的运动趋势序列进行分类能够有效区分出手势在时间维度的类别。

进一步的，首帧手型包含了动态手势起始的空间信息，通过对不同手势的起始手型进行区分，即可得到动态手势的空间类别，卷积神经网络对图像分类比较成熟，且实现容易。

综上所述，本发明避免了对视频码流解码重建带来的数据量和计算量的增加，从而使得动态手势识别方法能够在资源受限环境中有效实现，提高了安全性和实时性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为手势识别的处理框架图；

图2为基于视频数据特性的动态手势识别方法总体框架图；

图3为阈值过滤前动态手势的运动矢量图；

图4为阈值过滤后动态手势的运动矢量图；

图5为基于视频数据特性的动态手势识别方法中运动趋势提取流程图；

图6为一个拥有50帧画面的动态手势视频序列图；

图7为不同环境下手势及其运动矢量的对比图；

图8为五折交叉验证下不同手势的识别结果混淆矩阵图；

图9为将手势划分为手型和动作的识别结果混淆矩阵图。

具体实施方式

本发明提供了一种基于视频数据特性的动态手势识别方法，采用动态手势编码视频码流中的运动矢量；将运动矢量经过滤和方向量化后使用k-means聚类算法按量化方向角聚为不同的簇；采用主成分分析法进行数据维度处理得到一帧运动矢量的运动趋势；融合运动趋势和手型类别概率得到动态手势的类别概率，将概率最大的类别作为预测得到的目标类别。

请参阅图2，本发明一种基于视频数据特性的动态手势识别方法，从运动矢量中提取运动趋势，包括以下步骤：

S1、从视频码流中提取运动矢量；

FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。通过使用FFmpeg中提供的运动矢量相关处理算法来实现从动态手势视频码流中提取运动矢量信息。

视频编码中运动矢量是用于帧间预测的二维矢量，提供编码块从原始帧位置到参考帧位置的偏移量。运动矢量由块匹配(Block Matching)计算得到，用参考帧中最佳匹配块相对于原始帧中当前块的位置偏移表示，包含水平方向和垂直方向两个分量。视频帧中多个块的运动方位信息组合得到视频中物体运动的趋势。由于手势具有明确的运动趋势轨迹，因而运动矢量可作为手势识别中运动趋势的特征信息。

S2、阈值过滤；

请参阅图3，由于光照变化的影响，视频编码运动估计会在部分非手势区域产生与手部运动无关的运动矢量特征。图中矩形框中为与手部运动无关的运动矢量特征。由于这些特征与手部运动矢量特征相比位移量没有那么明显，因此采取速度阈值方法来消除无关特征，以运动矢量(x,y)的相对位移大小作为速度信息V，过滤速度小于阈值的特征点，阈值结果T如下：

其中，V为运动矢量的速度，由相对位移大小计算得出，n为一帧中有运动矢量的块数量。

图4展示了阈值过滤之后的运动矢量图，其中非手势区域的大多数与手势运动无关的运动矢量已被消除，从而增加算法对手势运动趋势识别的精度。

S3、方向量化；

由于编码视频中获取的运动矢量(x,y)包含水平和垂直两个方向上相对位移量，不利于数据的计算。因此，需要将步骤S2获得的运动矢量进行方向量化，降低计算量。将方向信息转换为0°、45°、90°、135°、180°、225°、270°、315°的8个量化角度，转换过程如下：

aq＝q←arctan(|x|÷|y|)

其中，x，y为运动矢量(x,y)的水平和垂直方向信息，q为运动矢量方向角最为趋近的一个量化方向角，aq为运动矢量量化后的角度。

S4、聚类分析；

在步骤S3得到量化方向角之后，将运动矢量按量化方向角聚为不同的簇。考虑到k-means是聚类算法中一种常用的算法，且实现简单、收敛速度快，因此选择该方法对量化方向角做聚类分析。取k值为当前运动矢量的量化方向角的数量，根据聚类样本的数量以及量化方向多样性，量化方向角的数量为区间[1,8]中的整数。

S5、提取主方向角聚类簇；

方向角聚类簇的数量以及簇的大小体现了不同运动矢量的量化方向角的数量分布。考虑到较小的簇对手势运动趋势分析没有影响，手势的运动趋势往往是由最大的几个簇决定，因此取方向角聚类簇样本数量最多的2个簇作为主方向角聚类簇。

S6、PCA降维；

主方向角聚类簇包含了一帧图像中运动矢量的主要运动趋势。主成分分析(Principal Component Analysis，PCA)是一种分析简化数据的方法，在降低数据维度的同时能够保留数据中最重要的方面，所以在聚类之后使用主成分分析对主方向角聚类簇均值做降维处理，具体为：

一个拥有m帧运动矢量的动态手势视频构成一个主方向角聚类簇矩阵：

其中，a_i1,a_i2为一帧运动矢量的主方向角聚类簇。

求得其对应协方差矩阵C的特征值λ和特征向量u，由于动态手势取得的主要运动方向为一维特征，所以取最大的特征值λ_max对应的特征向量作为变换矩阵P，原始矩阵A与变换矩阵P点乘得到降维后的特征矩阵B，具体为：

PCA通过线性变换将主方向角聚类簇矩阵变换为一组各维度线性无关的表示，从而得到一帧运动矢量的运动趋势e_t。

S7、动态手势分类识别。

请参阅图5，在动态手势识别的总体框架中，包括运动趋势分类和手型分类两部分处理过程，两部分算法可以并行的对手势特征进行处理。

运动趋势分类获取动态手势的时间特征，首先从运动矢量(x,y)中提取出运动趋势特征，再对运动趋势特征分类得到动态手势的运动趋势类别概率。

手型分类获取动态手势的空间特征，通过卷积神经网络(Convolutional NeuralNetwork,CNN)对编码视频的码流中提取出的首帧图像分类得到手型类别概率。

融合运动趋势和手型类别概率得到动态手势的类别概率，概率最大的类别就是预测得到的目标类别。

在运动趋势分类中，得到手势的运动趋势序列后，为了能够与手型特征融合而得到动态手势的预测类别，需要使用分类器获取运动趋势的类别概率。由于随机森林(RandomForest,RF)分类器在训练过程中，能够检测到特征之间的影响，并且算法拥有很强的抗干扰能力，即使是数据量不平衡的数据集，随机森林也能够平衡误差，通过平均决策树，降低过拟合的风险，在取不同帧数时，都能对运动趋势有较优的分类效果。因此采用随机森林分类器对动态手势的运动趋势e_t进行分类，得到e_t在类别C_t的运动趋势类别概率P_t(C_t|e_t)。

动态手势的手型分类任务相当于静态手势识别任务，而卷积神经网络对于图像识别已经非常成熟，静态手型识别作为图像识别领域的应用，也已经得到了很好的效果。与VGG-16相比，ResNet-18拥有更低的时间复杂度和空间复杂度。并且在图像识别精度上相比GoogLeNet、VGG-16、AlexNet等卷积神经网络更有优势。

此外，ResNet网络使用残差结构直接将输入信息传到输出，即保护了信息的完整性，又简化学习目标和难度，同时也缓解了深度神经网络在增加深度时带来的梯度消失问题。针对资源受限的应用需求，所以采用时间复杂度和空间复杂度相对较低的ResNet-18作为手型分类的卷积神经网络模型，通过对手势序列的首帧e_s分类得到动态手势的手型类别概率P_s(C_s|e_s)。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以一个拥有50帧画面的动态手势视频序列为例，每帧为RGB三通道，分辨率为320×240，像素精度8bit，如图6所示。

若以传统方法提取视频图像数据，则一帧图像225KB，50帧图像就需要10.99MB的存储空间。若以运动矢量作为特征，当编码块大小为16×16时，一帧图像被划分为143个块，一个运动矢量的水平和垂直方向信息各使用一个字节存储，则一帧图像的运动矢量仅需要286B的存储空间，50帧图像仅需要13.69KB的存储空间。

此外，用运动矢量表征的运动特征还可以不受环境及光照因素的影响。因为运动矢量只关注图像序列中运动部分的空间位移信息，只要背景和光照变化程度不大，就不会在运动矢量中特别明显地表现出来，如图7所示。利用这一特点就能够屏蔽复杂背景和光照条件对运动特征的干扰。

依据上述编码视频的数据特性，本发明对图1的处理框架进行简化，略过图中虚线框中的处理过程，直接从编码的视频中提取特征数据进行分析，极大地减少了分析、处理和存储的数据量。

在剑桥手势识别数据集上对本发明方法的效果进行测试，数据集由900个视频序列组成，包含了在五种不同光照条件下的九种动态手势，这九种动态手势由三种运动趋势和三种手型构成。由于在同一种照明条件下的数据具有相似性，如果将所有数据混合在一起，随机选取20％数据做测试，有可能获得很高的精度，但并不能正常反映算法的性能。

因此，将数据集按光照条件划分为五份，使用五折交叉验证进行评估，以得到算法的泛化能力。五折交叉验证下不同手势的识别结果混淆矩阵，如图8所示。可以看出，伸展/向左、伸展/收缩，V型/向左和V型/收缩四种手势识别率在97％及以上，识别效果最好。扁平/向左和扁平/向右容易混淆为扁平/收缩。扁平/收缩和伸展/向右都容易混淆为伸展/收缩，V型/向右容易混淆为V型/收缩。图9给出了将手势划分为手型和动作的识别结果混淆矩阵。可以看出，除向右动作以外其余动作以及所有手型分类正确率都在97％以上。由于个别向右动作的运动矢量与收缩动作的运动矢量类似，从而导致其容易混淆为收缩动作。综上能够得到本发明方法的平均识别率可达95.11％，并且执行时间仅为0.53秒，远低于人类能够忍耐的2秒人机交互延迟极限，用户体验效果较好。

综上所述，本发明一种基于视频数据特性的动态手势识别方法、存储介质和设备，面向资源受限的边缘设备，利用编码视频中的数据特征实现动态手势识别。通过结合视频图像分析与多媒体数据处理，降低了传统方法在视频特征提取与分析方面的复杂性，实现了一种轻量、安全、有效的手势识别方法。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于视频数据特性的动态手势识别方法，其特征在于，包括以下步骤：

S1、从动态手势编码视频码流中获取运动矢量；

S2、对步骤S1获取的运动矢量进行阈值过滤，去除与手部运动无关的运动矢量特征，阈值结果T具体为：

其中，V为运动矢量的速度，n为一帧中有运动矢量的块数量；

S3、将步骤S2过滤后的运动矢量进行方向量化；

S6、采用主成分分析法对步骤S5聚类后的主方向角聚类簇均值进行数据维度处理，得到一帧运动矢量的运动趋势e_t，通过一个拥有m帧运动矢量的动态手势视频构成一个主方向角聚类簇矩阵A，取最大的特征值λ_max对应的特征向量作为变换矩阵P，将主方向角聚类簇矩阵A与变换矩阵P点乘得到降维后的特征矩阵B，通过线性变换将主方向角聚类簇矩阵A变换为一组各维度线性无关的表示，得到一帧运动矢量的运动趋势e_t；

2.根据权利要求1所述的方法，其特征在于，步骤S3中，将方向信息转换为0°、45°、90°、135°、180°、225°、270°、315°的8个量化角度，运动矢量量化后的角度aq为：

aq＝q←arctan(x÷y)

3.根据权利要求1所述的方法，其特征在于，步骤S4中，量化方向角的数量为区间[1,8]中的整数。

4.根据权利要求1所述的方法，其特征在于，步骤S7中，从运动矢量(x,y)中提取出运动趋势特征，采用随机森林分类器对动态手势的运动趋势e_t进行分类，得到e_t在类别C_t的运动趋势类别概率P_t(C_te_t)。

5.根据权利要求4所述的方法，其特征在于，步骤S7中，采用ResNet-18作为手型分类的卷积神经网络模型，通过卷积神经网络对首帧图像e_s分类得到动态手势的手型类别概率P_s(C_se_s)。

6.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至5所述的动态手势识别方法中的任一方法。

7.一种识别设备，其特征在于，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至5所述的动态手势识别方法中的任一方法的指令。