CN112347450A

CN112347450A - 一种基于眨眼声音信号的身份验证方法

Info

Publication number: CN112347450A
Application number: CN202011372313.1A
Authority: CN
Inventors: 陈艳姣; 欧润民; 邓洋涛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-09
Anticipated expiration: 2040-11-30
Also published as: CN112347450B

Abstract

本发明公开了一种基于眨眼声音信号的身份验证方法，应用于身份验证技术领域，具体步骤包括如下：获取回波信号，其中所述回波信号包含眨眼信息；利用短时傅立叶变换将包含眨眼信息的回波信号的能量谱密度信号，并进行离群值和干扰消除；利用集成经验模态将能量谱密度信号分解为分量和残差；对获得的每个分量进行快速傅立叶变换，得到所述分量中与眨眼信息对应的信号，转换成希尔伯特频谱；利用非局部关系表示层增加所述希尔伯特频谱的频谱帧中的频域特征；构建特征提取器和训练分类器，区分合法用户与其他用户。本发明能够在不侵犯用户隐私前提下对用户的眨眼信号做出识别，从而达到身份验证的目的。

Description

一种基于眨眼声音信号的身份验证方法

技术领域

本发明涉及身份验证技术领域，更具体的说是涉及一种基于眨眼声音信号的身份验证方法。

背景技术

智能手机已成为日常生活中不可或缺的工具。智能手机可以存储私密数据(例如照片、视频、密码)和进行安全交易(手机银行等应用程序)。智能手机上的用户身份验证对于防御潜在攻击至关重要。

智能手机的认证系统依靠指纹、面部或者声纹来实现便捷的身份认证。如今智能手机普遍采用指纹识别和人脸识别技术，作为解锁和移动支付的安全认证。电容式指纹识别是一种普遍方式，近年来有机发光二极管(OLED)屏幕的发展，使得基于光学的屏下指纹融入智能手机的屏幕中。但指纹需要用户主动参与交互，且手指的汗液将使传感器难以识别指纹信息，攻击者也可以借助指纹雕刻进行攻击。传统智能手机的面部识别技术使用摄像头，其受光照影响较大，易受到图片的攻击。用于安全应用的人脸识别则需要配合式活体检测(按照要求做指定动作，如眨眼、转头)或非配合式活体检测(通过控制屏幕光对脸部施加影响)。这使得用户不得不遵循指令要求或等待一定时间，从而导致验证过程的繁琐。iPhone的面部识别算法使用红外和3D传感器来实现精确的面部识别，不受环境光影响，但需要特殊的设备。还有的应用使用声纹作为安全接入的方式。声纹识别利用了人体发声器官的个体差异，当用户读出屏幕内容时，系统比对声纹特征与注册时话音的声纹特征进行比对判断判断是否为同一个人，从而达到精准识别。但是，基于面部识别和声纹识别的身份验证系统通常容易受到攻击。为了克服这种安全风险，研究人员利用各种生物识别技术进行身份验证，包括检测说话和3D面部轮廓时的关节振动。然而，许多方法在疫情期间因为佩戴口罩而失效。例如，如果用户在超市里想要用智能手机，则其需要摘下面具冒被感染的风险，或者使用其他身份验证方法(如手动输入PIN)。

眨眼是中枢神经系统和肌肉所控制的必不可少的半自主机体功能。不同人有独特的眨眼模式，他人难以模仿。此外，由于用户很少遮住眼睛，因此可以使用眨眼信息进行认证。因此，在全球疫情的情况下，基于眨眼的身份验证能够提供可行可靠的认证。当前有关眨眼的研究使用照相机或Electro-Oculo-Gram(EOG)和脑电图(EEG)传感器进行监视。然而，基于视觉的系统对光照条件敏感，并且图像处理具有很高的计算复杂度。并且EOG和EEG传感器在商用智能手机上不可用。

近年来，基于声音信号的感知技术逐渐兴起。智能设备使用扬声器发出特殊调制的音频，并在麦克风处接收返回的声音信号，即可通过信号变化感知对象的变化，完成用户交互、生命体征监控等功能。比较常用的技术是利用信号发生器产生脉冲信号或调频连续波(FMCW)信号。为了减少其受到外界的干扰与对人体听觉系统的影响，大部分都集中在近超声频段，从而能够达到一个较好的测量效果。例如物体移动会对声音信号的频率产生微弱影响，这种基于多普勒频移的超声波信号原理，可以粗略估计人体面部的轮廓，从而达到解读唇语的效果。声音信号是非侵入、非接触式的。与基于视觉的感应不同，基于声音信号的智能感知，对照明条件或部分遮挡(例如戴上口罩)不敏感。声音感应可以通过智能手机中已经内置的麦克风和扬声器实现，而其他无线感应技术(例如WiFi和毫米波)则需要额外的小型基站或额外的硬件，并且由于工作频段较高，会花费更多的计算资源。

当下，声音信号已用于检测不同的生理特征，以进行用户身份验证。研究人员使用被动地分析说话人语音信号或主动地发出声音信号进行用户身份验证。被动语音认证是指从接收到的人类语音中检测不同用户的语音特征。

因此，如何提供一种能够在不侵犯用户隐私前提下对用户的眨眼信号做出识别，从而达到身份验证的方法。

发明内容

有鉴于此，本发明提供了一种基于眨眼声音信号的身份验证方法，本发明利用手机内部配置扬声器以向用户发出听不见的声音信号，并配置麦克风以收集反射的信号。通过收集这种影响的信号，能够在不侵犯用户隐私前提下对用户的眨眼信号做出识别，从而达到身份验证的目的。

为了达到上述目的，本发明采用如下技术方案：

一种基于眨眼声音信号的身份验证方法，具体步骤包括如下：

获取回波信号，其中所述回波信号包含眨眼信息；

预处理，利用短时傅立叶变换将包含眨眼信息的回波信号的能量谱密度信号，并进行离群值和干扰消除；

集成经验模态分解，利用集成经验模态将能量谱密度信号分解为分量和残差；

希尔伯特-黄变换，对获得的每个分量进行快速傅立叶变换，得到所述分量中与眨眼信息对应的信号，转换成希尔伯特频谱；

数据增强，利用非局部关系表示层增加所述希尔伯特频谱的频谱帧中的频域特征；

构建特征提取器和训练分类器，区分合法用户与其他用户。

优选的，在上述的一种基于眨眼声音信号的身份验证方法中，获取回波信号的具体步骤如下：

移动设备以固定的频率传输声音信号，并以固定的采样率采集回波信号；使用多普勒频移信息来捕获眨眼的动作；所述多普勒频移信息表征由于移动物体引起的相对路径长度差异而引起的相位和频率变化；其中相对频移记为

其中v是物体的移动速度，c₀是音速，f₀是声音信号的频率。

优选的，在上述的一种基于眨眼声音信号的身份验证方法中，所述预处理中，利用短时傅立叶变换计算接收到的回波信号得到能量谱密度信号：

其中，FFT_N是N点快速傅立叶变换，x(t)是接收的回波信号，定义为：

其中p是信号沿其传播的所有路径的集合，A_i，f和

分别是路径i信号的幅度，频率和相位。

优选的，在上述的一种基于眨眼声音信号的身份验证方法中，离群值消除的具体步骤如下：

判断|E_i-median(E_i,K)|＞σ×std(E_i,K)；

其中，E_i为离群值，median(E_i,K)为中位数；std(E_i,K)相邻E_i的K点的标准偏差；用其相邻点的平均值或通过插值替换离群值得到消除离群值的能量谱密度信号E_j。

优选的，在上述的一种基于眨眼声音信号的身份验证方法中，干扰消除的具体步骤如下：干扰包括来自周围运动物体的静态路径干扰和动态路径干扰；其中，静态路径干扰为视线干扰，但不包含有关眨眼和身体运动的任何有用信息；所述动态路径干扰依赖环境条件；其中，接收的回波信号为：

其中p_i是静态路径的集合，而p_d是动态路径的集合，能量谱密度信号表示为

利用声音的背景消除法消除静态物体、视距信号和人体运动的干扰。

优选的，在上述的一种基于眨眼声音信号的身份验证方法中，消除干扰后的能量频谱密度信号

其中，E_j表示消除离群值后的能量频谱密度信号中第j个序列；F_i表示与E_j相对应的背景噪声；α是更新速率，由如下公式给出：

优选的，在上述的一种基于眨眼声音信号的身份验证方法中，集成经验模态分解的具体步骤包括：

(1)将白噪声序列与消除干扰后的能量频谱密度信号

进行叠加得到叠加后的能量谱密度信号

(2)将叠加后的能量谱密度信号

作为原始序列，找出所有极大值点和极小值点，将其极大值点和极小值点分别用三次样条曲线连接起来，组成上下包络线，求取上下包络线的均值线M(t)，计算信号的差值序列为

(3)判断

是否满足本征模态分量的两个条件：①极值点个数和过零点个数相同或最多只相差一个；②差值序列局部极大值和局部极小值的两条包络线的均值在任一点处为零；如果

不满足这两个条件，则重复执行(1)(2)，将

作为原始序列，直到得到满足本征模态分量为止；

(4)将本征模态分量记为I_k(t)，得到的余项

将r_k(t)作为新的原始数据，重复步骤(1)～(3)，直到第n个余项为单调函数，即不能提取出满足(3)中两个条件的IMF分量时结束；最后得到将原始信号分解成为残差和n个本征模态分量的和，得到n个IMF分量。

优选的，在上述的一种基于眨眼声音信号的身份验证方法中，所述特征提取器包括3个dense blocks和3个transition layers；训练一个特征表示网络，将一个线性层作为多类分类器，每个用户标记为目标y；对于预测y和目标y，使用L2归一化的交叉熵损失作为分类损失；

其中K是批次大小。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于眨眼声音信号的身份验证方法，本发明利用手机内部配置扬声器以向用户发出听不见的声音信号，并配置麦克风以收集反射的信号。通过收集这种影响的信号，能够在不侵犯用户隐私前提下对用户的眨眼信号做出识别，从而达到身份验证的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施实例的识别方法的流程图；

图2是本发明集成经验模态分解的处理流程图；

图3是本发明深度神经网络提取眨眼特征表示的网络图；

图4是具体实例中佩戴口罩及眼镜的召回率直方图；

图5是具体实例中对模仿攻击和重放攻击的检测成功率折线图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例公开了一种基于眨眼声音信号的身份验证方法，如图1所示，具体步骤包括如下：

S101获取回波信号，其中所述回波信号包含眨眼信息；

S102预处理，利用短时傅立叶变换将包含眨眼信息的回波信号的能量谱密度信号，并进行离群值和干扰消除；

S103集成经验模态分解，利用集成经验模态将能量谱密度信号分解为分量和残差；

S104希尔伯特-黄变换，对获得的每个分量进行快速傅立叶变换，得到所述分量中与眨眼信息对应的信号，转换成希尔伯特频谱；

S105数据增强，利用非局部关系表示层增加所述希尔伯特频谱的频谱帧中的频域特征；

S106构建特征提取器和训练分类器，区分合法用户与其他用户。

进一步，在S101和S102中数据采集与预处理的实施过程：

信号从听筒扬声器传输出去，然后通过两个麦克风记录反射信号，一个麦克风在手机顶部，另一个麦克风在底部。智能手机以20kHz的频率传输声音信号，并以48kHz的采样率记录回波信号。其间听筒扬声器以最大音量播放。参与者在整个实验过程中，将手机放在25cm以外的面部(无角度偏移)的前面。指示用户执行正常的眨眼。

其中利用多普勒频移信息来捕获眨眼的动作，20kHz也是大多数智能手机扬声器的极限，并且当频率高于20kHz时，功率衰减和信号噪声比会变差。故将f₀设置为20kHz，这对于人耳是听不见的。接收信号在20kHz频率下具有约20Hz的频移范围。

利用ESD处理包含眨眼信息的原始信号。通过短时傅立叶变换(STFT)计算接收到的声音信号的能量谱密度。考虑到多普勒效应，并且智能手机扬声器产生的声音信号为20kHz，利用一个小的频带来计算ESD，其中f₀＝20kHz，而Δf设置为20Hz，使用的是16384点的短时傅里叶变换，最终得到64Hz采样率的能量谱密度数据。考虑到可能存在背景噪声(例如硬件)、人体运动和附近物体的能量。利用两种方法(离群值消除和干扰消除)进行离群值和干扰消除。

离群值消除中对于全部被识别为离群值的连续n个点，使用相邻K个点的平均值替换它们。设置K＝80，σ＝3.5，以对能量谱密度中波动较大的信号进行消除。对于全部被标识为离群点的连续n个点(其中n高于阈值10)，使用线性插值法将其替换，其中起点和终点是紧接n个离群点的两个点。

干扰消除中为了消除静态物体、视距信号和人体运动的干扰，利用背景消除法。消除干扰后的能量频谱密度信号

计算能量谱密度信号和干扰信号之间的差，以获得眨眼信号。获得的眨眼信号是平滑的，两次眨眼之间没有突然的峰值。

为了进一步优化上述技术方案，在S103和S104中，集成经验模态分解分解和希尔伯特-黄变换具体实施过程：

通过EEMD进行上述五步增加和分解噪声的步骤，以得到n组IMF。取n次分解的平均结果为最终IMF。n应该很大，在实验中设为700。IMF的数量通常由停止标准和信号长度确定，但是该数量通常限制为

其中l是信号的长度。最后，将数据

分解为多个子信号

对每个IMF分量I₁(t)进行FFT变换，找到2Hz-6Hz的分量中作为与眨眼相对应的信号。转换为希尔伯特频谱，细化眨眼对应的波动，可以进一步提取特征。为了获得更好的分类结果，使用数据增强方法，该方法在生成的希尔伯特频谱帧之间施加1/3窗口长度的重叠。

为了进一步优化上述技术方案，在S105和S106中，眨眼特征表示学习和分类具体实施过程

设计特殊的DenseNet专门使用于对眨眼信号的特征处理。在DenseNet在密集块中的每一层之间建立跳跃连接，以更好地处理向后传播。所有先前层的特征图按通道维度连接。同时鼓励特征复用。DenseNet在每个块中都有狭窄的层，从而显着减少了参数数量。同时可以减轻训练过程中消失的梯度问题。

在时域中，将时域信号切分成100ms至400ms的信号。频谱帧的特征包括时域特征和频域特征。在频域中，可以提取更多能代表个人差异的信息性功能。

使用非局部关系表示层来增加频域中的特征。

在网络体系结构中，DenseNet的输出是这些特征图的连接，于是使用LatentGNN，构建内核与潜在节点的全连通图。在每个正向迭代过程中，潜在节点首先从卷积节点收集消息，然后在潜在节点之间传播消息。最后，消息从潜在节点传播回特征节点。上下文感知的功能可以通过功能图传递。从而使得LatentGNN可以对要素之间的长期依赖关系进行编码。

在特征提取上采用特征提取器包括3个dense blocks和3个transition layers。将一个线性层作为多类分类器，每个用户标记为目标y使用L2归一化的交叉熵损失作为分类损失。网络通过反向传播将损失函数

最小化。在训练过程中，使用随机退出某些功能图的退出机制来防止过度拟合。训练数据集包含来自20个类的希尔伯特频谱。即使对于不在训练数据集中的用户，也可以区分不同的用户。特征提取器输出490维特征向量。

在给定从DNN模型中提取的特征进行二分类，使用极限梯度增强(XGBoost)来训练分类器和分类。在注册阶段，收集来自合法用户的训练数据作为阳性样本，而来自其他用户的现有样本则是用于训练的负样本。在身份验证阶段，系统会验证用户的身份是否合法，不合法则需要用户再次尝试，或使用其他方式(PIN码)进行认证。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。