CN112380512A

CN112380512A - 卷积神经网络动态手势认证方法、装置、存储介质及设备

Info

Publication number: CN112380512A
Application number: CN202011201517.9A
Authority: CN
Inventors: 康文雄; 刘畅; 杨煜霖; 刘星言; 方林普
Original assignee: South China University of Technology SCUT
Current assignee: Guangzhou Guangda Innovation Technology Co ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-19
Anticipated expiration: 2040-11-02
Also published as: CN112380512B

Abstract

本发明提供了一种卷积神经网络动态手势认证方法、装置、存储介质及设备；其中方法包括如下步骤：设定工作模式为注册模式或认证模式；输入用户id；采集用户动态手势视频；对动态手势视频进行预处理；输入到手势特征提取器，提取出包含用户身份信息的特征向量；在注册模式下，将输入的用户id和提取出的特征向量添加至注册特征库中；在认证模式下，分别计算提取出的特征向量与注册特征库中输入用户id对应的各个特征向量之间的余弦距离；若余弦距离最小值小于认证阈值时，则认证通过。该方法既能够快速提取手势的动态行为特征，又包含了具有高度用户可区分性的生理特征，可提高手势认证的性能，具有良好手势认证准确度和响应速度。

Description

卷积神经网络动态手势认证方法、装置、存储介质及设备

技术领域

本发明涉及手势认证技术领域，更具体地说，涉及一种卷积神经网络动态手势认证方法、装置、存储介质及设备。

背景技术

生物特征识别技术，是指通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合，利用人体固有的生理特征(指纹、掌纹、手形、面相、虹膜、指静脉、掌静脉、DNA等)和行为特征(声纹、签名、按键习惯、人体动作)来进行个人身份识别的一种模式识别技术。作为计算机视觉领域最活跃的主题之一，生物特征识别已经成为解决当前信息化发展中安全问题的首选方案，被著名杂志“MIT Technology Review”誉为对人类经济、生活和工作产生深远影响的十大新技术之一。

近年来，生物特征识别得到极大的发展，目前使用最广泛的生物特征识别技术是基于人脸和指纹的身份认证系统，在这些系统中，一旦用户的人脸或指纹被仿冒并通过了系统的认证，用户就不能继续使用该认证系统，因此存在特征被盗用的风险。人体动作作为一种容易更新的生物特征在存在仿冒攻击的认证场合具有十分重要的价值。随着计算机视觉技术的快速发展，对基于视频的人体动作识别的研究取得了非常瞩目的成果，在这些已有成果的基础上进行基于视频的人体动作认证的研究具有十分重要的意义。人体动作包括整个身体和部分肢体(人手、嘴唇等)的运动，其中步态通过记录人的走路方式已被广泛地应用于人的身份识别。与全身姿势相比，手势交互需要的空间较小与手机、平板电脑等小型电子设备的交互更加方便，因此基于手势的认证系统能够适用于更多的应用场景。此外，相对于全身动作而言手势更加灵活，能够表达更多的信息，有助于提升认证系统的性能。

目前主要有两种使用动态手势进行身份认证的方法：基于轨迹的身份认证和基于视频的身份认证。第一种动态手势身份认证的方法是基于手部关节点运动轨迹的。这个方法先使用特殊的传感器，比如Creative Senz三维，Intel RealSense，Leap Motion等在采集动态手势的同时获得首部关节点的移动轨迹，或使用深度学习首部关键点估计算法估计首部关键点进一步获得轨迹。再通过DTW或改进的DTW算法对比两个动态手势轨迹的相似程度。虽然这种方法考虑到显示提取动态手势中包含的行为特征，但是去完全抛弃了掌纹掌形等首部生理特征。第二种动态手势身份认证的方法使用神经网络提取视频中每一帧的图像特征，将视频的特征序列平均融合后做相似度比较。这种方法虽然考虑到了动态手势视频中的生理特征，但是忽略了视频的时序信息，也就忽略了手势这个模态最重要的信息，导致认证性能下降。由此可见，当前基于动态手势的身份认证领域已有的算法仍然存在很多的不足之处。尤其是基于视频的手势认证研究还存在着许多空白。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种卷积神经网络动态手势认证方法、装置、存储介质及设备。本发明既能够快速提取手势的动态行为特征，又包含了具有高度用户可区分性的生理特征，可提高手势认证的性能，具有良好手势认证准确度和响应速度。

为了达到上述目的，本发明通过下述技术方案予以实现：一种卷积神经网络动态手势认证方法，其特征在于：包括如下步骤：

S1步，设定工作模式为注册模式或认证模式；

S2步，输入用户id；采集用户动态手势视频；对动态手势视频进行预处理；S3步，将预处理后的动态手势视频输入到手势特征提取器，提取出包含用户身份信息的特征向量；所述手势特征提取器是指对初始3D卷积神经网络模型进行训练和测试处理得到的手势特征提取器；

S4步，在注册模式下，将输入的用户id和提取出的特征向量添加至注册特征库中；

在认证模式下，分别计算提取出的特征向量与注册特征库中输入用户id对应的各个特征向量之间的余弦距离，并找出余弦距离最小值；若余弦距离最小值小于认证阈值时，则认证通过；否则认证不通过；所述认证阈值是指训练处理得到的认证阈值。

优选地，所述步骤S3中，手势特征提取器包括时空特征提取主干网络和时域身份信息提取子模块；所述时空特征提取主干网络将动态手势视频帧作为输入，提取与生理和行为特征相对应的空间和时间特征；所述时域身份信息提取子模块将时空特征提取主干网络提取的空间和时间特征发送到全局平均池化层(GAP)进行空间信息整合，再将空间和时间特征按照时间维度进行拼接，得到一个一维的特征向量。

优选地，所述时空特征提取主干网络由三个三维卷积层、四个三维最大池化层和六个三维融合感知子模块组成。

优选地，所述步骤S2中，在注册模式下，对动态手势视频进行预处理，包括：从动态手势视频中均匀抽取一个t帧的动态手势视频样本v_r＝{i₁,i₂,…,i_t}；设定针对注册的图片预处理变换函数input_r＝r_trans(v_r；θ)，由中心裁剪、图像缩放、随机旋转、随机亮度变化和图像像素归一化组成，θ是随机参数；

对v_r中所有帧做n次预处理变换得到视频张量序列集合INPUT＝{input_r1,input_r2,…,input_rn}，其中每一个视频张量的大小统一为(W*H*C*t)，W是图片宽度，H是图片高度，C是图片通道数，t是抽取的帧数；

所述步骤S2中，在认证模式下，对动态手势视频进行预处理，包括：从动态手势视频中均匀抽取一个t帧的动态手势视频样本v_q＝{i₁,i₂,…,i_t}；设定针对认证的图片预处理变换函数input_q＝q_trans(v_q)，由中心裁剪和图像缩放组成；对v_q中所有帧做预处理变化得到视频张量input_q，大小为(W*H*C*t)。

优选地，所述手势特征提取器是指对初始3D卷积神经网络模型进行训练和测试处理得到的手势特征提取器，包括：

对若干用户的若干种手势类别进行若干次视频采集，形成动态手势视频数据集，以作为样本；并记录对应的用户id和手势类型作为标签；

对动态手势视频数据集进行初步处理，以从动态手势视频数据集的画面中剪切手势动作区域，使动态手势视频数据集的画面中手部面积占帧总面积大于设定比例；

将样本分为训练样本和测试样本对3D卷积神经网络模型进行训练和测试；在训练阶段，时域身份信息提取子模块将时空特征提取主干网络提取的空间和时间特征发送到全局平均池化层(GAP)进行空间信息整合，输出形状为t/8×通道的特征序列；在测试阶段，所述时域身份信息提取子模块将时空特征提取主干网络提取的空间和时间特征发送到全局平均池化层(GAP)进行空间信息整合，再将空间和时间特征按照时间维度进行拼接，得到一个一维的特征向量；

对3D卷积神经网络模型使用身份识别损失和相似约束损失，以提高类内紧凑性；损失函数如下：

其中，k是训练3D卷积神经网络模型时超参数mini-batch的大小，t是特征向量序列长度，x_ij指第i类的一个样本特征向量序列中第j个特征向量，y_ij指x_ij对应的标签，λ是身份识别损失和相似约束损失的加权系数，

第i类样本特征中心。

优选地，所述认证阈值是指训练处理得到的认证阈值，包括：

将动态手势视频数据集中的所有样本，两两组合成样本对；设定属于同一用户id的样本对为正样本对，属于不同用户id的样本对为负样本对；设定认证阈值范围为0～1；在认证阈值范围中均匀采样S个点作为阈值集

对于每一个阈值thres，计算对应的错误接受率FAR_thres和错误拒绝率FRR_thres，以及错误接受率FAR_thres和错误拒绝率FRR_thres的残差；选取残差最小值对应的阈值作为认证阈值。

优选地，所述错误接受率FAR_thres和错误拒绝率FRR_thres的计算方法是：

对于每一个阈值thres，当样本对中两个样本的余弦距离小于阈值thres时预测为正样本对，当样本对中两个样本的余弦距离大于等于thres时预测为负样本对；

统计：真实负样本对错误预测为正样本对的数量FP_thres，真实正样本对正确预测为正样本对的数量TP_thres，真实正样本对错误预测为负样本对的数量FN_thres，真实负样本对正确预测为负样本对的数量TN_thres；

thres∈THRES

thres∈THRES。

一种卷积神经网络动态手势认证装置，其特征在于，包括：

模式设定模块，用于设定工作模式为注册模式或认证模式；

预处理模块，用于输入用户id，采集用户动态手势视频，对动态手势视频进行预处理；

特征提取模块，用于将预处理后的动态手势视频输入到手势特征提取器，提取出包含用户身份信息的特征向量；所述手势特征提取器是指对初始3D卷积神经网络模型进行训练和测试处理得到的手势特征提取器；

注册模块，用于将输入的用户id和提取出的特征向量添加至注册特征库中；

认证模块，用于分别计算提取出的特征向量与注册特征库中输入用户id对应的各个特征向量之间的余弦距离，并找出余弦距离最小值；若余弦距离最小值小于认证阈值时，则认证通过；否则认证不通过；所述认证阈值是指训练处理得到的认证阈值。

一种存储介质，其特征在于，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述卷积神经网络动态手势认证方法。

一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现上述卷积神经网络动态手势认证方法。

与现有技术相比，本发明具有如下优点与有益效果：

1、本发明不仅能够通过所设计三维卷积神经网络快速提取手势特征，而且通过所设计三维卷积神经网络提取的手势特征，包含了具有高度用户可区分性的特征，例如手掌掌纹掌形等生理特征，提高了手势认证的性能；

2、本发明利用三维卷积神经网络提取动态手势视频的时空特征，与传统的手动提取特征的机器学习方法、以及二维卷积神经网络不同，它能够同时对动态手势视频的时空特征进行建模，通过自主设计的时域身份信息提取子模块，能够监督并优化手势特征的分布，从而获得具有高判别性的手势特征。

附图说明

图1是本发明卷积神经网络动态手势认证方法的原理示意图；

图2是本发明卷积神经网络动态手势认证方法中动态手势视频的采集示意图；

图3是本发明卷积神经网络动态手势认证方法中手势特征提取器的原理示意图；

图4是本发明卷积神经网络动态手势认证方法的流程示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例一

如图1至图4所示，本实施例一种卷积神经网络动态手势认证方法，包括如下步骤：

S1步，设定工作模式为注册模式或认证模式。

S2步，输入用户id；采集用户动态手势视频；对动态手势视频进行预处理。

在注册模式下，对动态手势视频进行预处理，包括：从动态手势视频中均匀抽取一个t帧的动态手势视频样本v_r＝{i₁,i₂,…,i_t}；例如t为64；设定针对注册的图片预处理变换函数input_r＝r_trans(v_r；θ)，由中心裁剪、图像缩放、随机旋转、随机亮度变化和图像像素归一化组成，θ是随机参数；

对v_r中所有帧做n次预处理变换得到视频张量序列集合INPUT＝{input_r1,input_r2,…,input_rn}，其中每一个视频张量的大小统一为(W*H*C*t)，W是图片宽度，H是图片高度，C是图片通道数，t是抽取的帧数。

在认证模式下，对动态手势视频进行预处理，包括：从动态手势视频中均匀抽取一个t帧的动态手势视频样本v_q＝{i₁,i₂,…,i_t}；设定针对认证的图片预处理变换函数input_q＝q_trans(v_q)，由中心裁剪和图像缩放组成；对v_q中所有帧做预处理变化得到视频张量input_q，大小为(W*H*C*t)。

S3步，将预处理后的动态手势视频输入到手势特征提取器，提取出包含用户身份信息的特征向量；所述手势特征提取器是指对初始3D卷积神经网络模型进行训练和测试处理得到的手势特征提取器。

手势特征提取器包括时空特征提取主干网络和时域身份信息提取子模块。

所述时空特征提取主干网络将动态手势视频帧作为输入，提取与生理和行为特征相对应的空间和时间特征。时空特征提取主干网络由三维卷积神经网络I3D调整而来。由于动态手势认证是一种不同于分类任务的度量学习任务，为了提取具有更多身份区别性信息的特征，通过丢弃一些深度层来修改原始I3D网络，以减少参数的数量以及缩减沿时间轴的感受野。时空特征提取主干网络由三个三维卷积层、四个三维最大池化层和六个三维融合感知子模块组成。一个形状为(t×200×200×3)的t帧RGB或深度手势视频被输入到时空特征提取主干网络，其输出是一个形状为(t/8×7×7×通道)的特征。然后，该特征将被送到时域身份信息提取子模块。

时域身份信息提取子模块，是为了充分利用视频数据进行身份认证任务。与需要“看到”视频的所有帧来识别手势的手势分类系统不同，动态手势认证模型仅仅通过观察一段视频就可以直观地认证用户，因为即使是一小段视频也包含丰富的生理和行为特征信息。所述时域身份信息提取子模块将时空特征提取主干网络提取的空间和时间特征发送到全局平均池化层(GAP)进行空间信息整合，再将空间和时间特征按照时间维度进行拼接，得到一个一维的特征向量，这个特征向量具有丰富的时域身份信息。

S4步，在注册模式下，将输入的用户id和提取出的特征向量添加至注册特征库中。

所述手势特征提取器是指对初始3D卷积神经网络模型进行训练和测试处理得到的手势特征提取器，包括：

对若干用户的若干种手势类别进行若干次视频采集，形成动态手势视频数据集，以作为样本；例如，对200个用户进行采集，每个用户包含6种手势类型，每个手势类型包含10个动态手势视频；每个动态手势视频包含64帧，每个动态手势视频中手势动作占视频时长一半以上；记录对应的用户id和手势类型作为标签；

对动态手势视频数据集进行初步处理，以从动态手势视频数据集的画面中剪切手势动作区域，使动态手势视频数据集的画面中手部面积占帧总面积大于设定比例(例如50％)；

将样本分为训练样本和测试样本对3D卷积神经网络模型进行训练和测试；

时空特征提取主干网络将动态手势视频帧作为输入，提取与生理和行为特征相对应的空间和时间特征；

时域身份信息提取子模块，是为了充分利用视频数据进行身份认证任务。与需要“看到”视频的所有帧来识别手势的手势分类系统不同，动态手势认证模型仅仅通过观察一段视频就可以直观地认证用户，因为即使是一小段视频也包含丰富的生理和行为特征信息。在训练和测试阶段，时域身份信息提取子模块表现不同。在训练阶段，时域身份信息提取子模块将时空特征提取主干网络提取的空间和时间特征发送到全局平均池化层(GAP)进行空间信息整合，输出形状为t/8×通道的特征序列，这个特征序列的长度为t/8，每个特征的大小是通道数。在这里，特征序列中的每个特征编码相同用户的身份特征，但是由于卷积运算的感受野约束，它们中的每一个只能沿时间轴观察视频的一个片段。换句话说，每个特征代表同一动态手势视频的不同部分，但足以代表该动态手势视频的身份信息。时域身份信息提取子模块的优势在于它在深层特征层起到了数据增广的作用。

在测试阶段，所述时域身份信息提取子模块将时空特征提取主干网络提取的空间和时间特征发送到全局平均池化层(GAP)进行空间信息整合，再将空间和时间特征按照时间维度进行拼接，得到一个一维的特征向量，这个特征向量具有丰富的时域身份信息。

第i类样本特征中心。

3D卷积神经网络模型通过ADAM算法进行优化。

所述认证阈值是指训练处理得到的认证阈值，包括：

例如S为1000，则THRES＝{0.001,0.002,0.003…,1.000}；

计算对应的错误接受率FAR_thres和错误拒绝率FRR_thres：

thres∈THRES

thres∈THRES

计算错误接受率FAR_thres和错误拒绝率FRR_thres的残差；选取残差最小值对应的阈值作为认证阈值。

实施例二

为实现实施例一所述的卷积神经网络动态手势认证方法，本实施例提供一种卷积神经网络动态手势认证装置，包括：

模式设定模块，用于设定工作模式为注册模式或认证模式；

实施例三

本实施例一种存储介质，其特征在于，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的卷积神经网络动态手势认证方法。

实施例四

本实施例一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现实施例一所述的卷积神经网络动态手势认证方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种卷积神经网络动态手势认证方法，其特征在于：包括如下步骤：

S1步，设定工作模式为注册模式或认证模式；

S2步，输入用户id；采集用户动态手势视频；对动态手势视频进行预处理；

S3步，将预处理后的动态手势视频输入到手势特征提取器，提取出包含用户身份信息的特征向量；所述手势特征提取器是指对初始3D卷积神经网络模型进行训练和测试处理得到的手势特征提取器；

2.根据权利要求1所述的卷积神经网络动态手势认证方法，其特征在于：所述步骤S3中，手势特征提取器包括时空特征提取主干网络和时域身份信息提取子模块；所述时空特征提取主干网络将动态手势视频帧作为输入，提取与生理和行为特征相对应的空间和时间特征；所述时域身份信息提取子模块将时空特征提取主干网络提取的空间和时间特征发送到全局平均池化层进行空间信息整合，再将空间和时间特征按照时间维度进行拼接，得到一个一维的特征向量。

3.根据权利要求2所述的卷积神经网络动态手势认证方法，其特征在于：所述时空特征提取主干网络由三个三维卷积层、四个三维最大池化层和六个三维融合感知子模块组成。

4.根据权利要求2所述的卷积神经网络动态手势认证方法，其特征在于：所述步骤S2中，在注册模式下，对动态手势视频进行预处理，包括：从动态手势视频中均匀抽取一个t帧的动态手势视频样本v_r＝{i₁,i₂,…,i_t}；设定针对注册的图片预处理变换函数input_r＝r_trans(v_r；θ)，由中心裁剪、图像缩放、随机旋转、随机亮度变化和图像像素归一化组成，θ是随机参数；

对v_t中所有帧做n次预处理变换得到视频张量序列集合INPUT＝{input_r1,input_r2,…,input_rn}，其中每一个视频张量的大小统一为(W*H*C*t)，W是图片宽度，H是图片高度，C是图片通道数，t是抽取的帧数；

5.根据权利要求2所述的卷积神经网络动态手势认证方法，其特征在于：所述手势特征提取器是指对初始3D卷积神经网络模型进行训练和测试处理得到的手势特征提取器，包括：

将样本分为训练样本和测试样本对3D卷积神经网络模型进行训练和测试；在训练阶段，时域身份信息提取子模块将时空特征提取主干网络提取的空间和时间特征发送到全局平均池化层进行空间信息整合，输出形状为t/8×通道的特征序列；在测试阶段，所述时域身份信息提取子模块将时空特征提取主干网络提取的空间和时间特征发送到全局平均池化层进行空间信息整合，再将空间和时间特征按照时间维度进行拼接，得到一个一维的特征向量；

第i类样本特征中心。

6.根据权利要求5所述的卷积神经网络动态手势认证方法，其特征在于：所述认证阈值是指训练处理得到的认证阈值，包括：

7.根据权利要求6所述的卷积神经网络动态手势认证方法，其特征在于：所述错误接受率FAR_thres和错误拒绝率FRR_thres的计算方法是：

8.一种卷积神经网络动态手势认证装置，其特征在于，包括：

模式设定模块，用于设定工作模式为注册模式或认证模式；

9.一种存储介质，其特征在于，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1-5中任一项所述的卷积神经网络动态手势认证方法。

10.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-5中任一项所述的卷积神经网络动态手势认证方法。