CN115348049A

CN115348049A - 一种利用耳机内向麦克风的用户身份认证方法

Info

Publication number: CN115348049A
Application number: CN202210715365.7A
Authority: CN
Inventors: 李凡; 解亚东; 吴玥; 张珂睿
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-11-15

Abstract

本发明涉及一种利用耳机内向麦克风的用户身份认证方法，属于移动计算应用技术领域。本方法利用耳机的内向麦克风捕捉牙齿咬合产生的骨传导声音，并从骨骼结构、咬合位置和咬合声音三个方面提取骨传导咬合声的独特行为生物特征，结合深度学习技术，通过设计一个暹罗神经网络来对用户身份进行分类，能够在感知能力有限的智能设备上获得准确认证结果。本发明仅依靠智能耳机中的内向麦克风接收声音信号即可实现对用户骨传导咬合声音的监测。采用环境及运动干扰去除算法，不易受环境噪音的干扰，增强了方法的环境鲁棒性。本发明具有很高的安全性，成本低、抗干扰性强、用户体验好，适用于大部分的应用场景。

Description

一种利用耳机内向麦克风的用户身份认证方法

技术领域

本发明涉及一种基于用户行为生物特征的身份认证方法，具体涉及一种利用耳机内向麦克风捕捉牙齿咬合产生的骨传导声音，并从这些声音中提取独特行为生物特征进行用户身份认证的方法，属于移动计算应用技术领域。

背景技术

随着智能设备(如智能手机等)功能越来越强大，存储容量也越来越大，许多设备用于处理敏感隐私信息，例如编辑私人文档、记录健康信息和在线支付等等。然而，用户隐私数据的泄露问题却日益严重。调查显示，89％的用户十分关心隐私数据的安全性，79％的用户愿意采取行动来保护隐私数据。目前，登录数据、指纹和声音等个人身份信息是最常见的丢失或被盗数据类型，在数据泄露中的占比高达80％。因此，设计实现一种可靠方便的认证系统是十分必要的。

为了防止用户隐私数据的泄露，目前的智能设备上已经采用了多种认证方法来确认登陆者的身份，例如密码、图形锁等。但是，这些方法很容易被推断或窃取。具体来说，密码和图形锁是目前使用最广泛的身份认证方法，但它们容易受到肩窥攻击并且需要用户进行繁琐的输入。此外，多种个人行为生物特征，如指纹、声纹、人脸识别等得到了广泛研究，并在商业系统中得到了应用，例如苹果公司的Touch ID、微信声纹锁和亚马逊公司的Rekognition。但是，这些方法容易受到重放攻击。例如，攻击者可以记录合法用户的脸或声音，然后重放这些记录以欺骗认证系统；甚至指纹也可以通过照片被盗，并制成指纹模具进行攻击。

除此之外，越来越多的行为生物特征被用来增强智能设备认证的安全性。例如，一些方法使用摄像头采集用户牙齿边缘形状特征进行认证；通过智能手机上的音频传感器提取用户说话时嘴唇运动的独特特征进行认证。但是这些方法要求用户将手机对着嘴部，从而影响用户体验且适用场景受限。另有一些方法利用不同人的耳道对音频信号的反射模式不同来获取耳道的独特特征以进行认证。但这些方法容易受到环境因素的干扰，如设备位置的发生移动。

综上所示，目前迫切需要一种更加安全、方便、可靠的用户认证方法。

发明内容

本发明的目的是针对现有技术存在的不足，为解决目前缺少一种高安全性、用户友好且不受环境干扰的身份认证解决方案，创造性地提出一种利用耳机内向麦克风的用户身份认证方法。

本发明的创新点在于：当用户进行牙齿咬合行为时，牙齿碰撞产生的声音会被头骨吸收、反射和散射，然后传送到耳道内。由于每个人头骨独特的密度和弹性等物理特性，在耳道内接收到的咬合声音会呈现出个体差异。目前，许多商用耳机(如Apple AirPodsPro、Sony WF-1000XM4、Bose QuietComfort)都已经配置了内向麦克风，用于收集耳道中的声音以进行降噪。本发明利用耳机的内向麦克风来捕捉牙齿咬合产生的骨传导声音，并从骨骼结构、咬合位置和咬合声音三个方面提取骨传导咬合声的独特行为生物特征。最后，通过设计一个暹罗神经网络来对用户身份进行分类。

本发明的目的是通过以下技术方案实现的。

一种利用耳机内向麦克风的用户身份认证方法，包括以下步骤：

步骤1：对原始声音信号进行处理，目的是去除环境干扰。

当检测到用户佩戴上耳机后，内向麦克风实时监测用户耳道中的声音。为了去除环境噪声的干扰，需要对原始的声音信号进行处理。

具体地，可以包括以下步骤：

首先，对原始的声音信号进行数据标准化。为了解决不同帧之间平均音量不一致的问题，本发明使用一种基于响度的标准化方法，将每帧的平均音量调整为目标音量。其中，目标音量设置为-24dB(与美国高级电视系统委员会推荐的标准响度相同)。

然后，去除空气传导环境噪声。本发明使用功率谱减法，去除每一帧中的空气传导环境噪声，提高信号的信噪比。具体地，设一帧的音频信号为x(m)，m表示一帧音频信号中的第m个时刻，X(k)表示x(m)的快速傅里叶变换FFT结果，k表示经过快速傅里叶变换后的第k个频率点，经过功率谱减法后的振幅为

通过对

进行逆快速傅里叶变换，得到降噪后的音频信号

最后，进行频率选择。具体地，可以采用巴特沃斯带通滤波器等对每帧音频信号进行滤波，范围为100Hz至2.5kHz。滤波后，能够进一步消除其他频带外干扰。

步骤2：利用基于频域方差方法，分割骨传导声音事件。

具体地，步骤2可以包括以下步骤：

步骤2.1：利用频域方差捕捉骨传导声音事件。

本发明将声音信号的频谱分成若干个频段，并采用了基于频域方差的事件检测方法。频域方差中存储的主要信息是多个频带之间的波动情况，因此，频域方差能够很好地捕捉骨传导咬合声音。

步骤2.2：检测每个骨传导声音事件的开始点和结束点。

具体地，可以采用双阈值方法，为开始和结束位置分别设置阈值为T₁和T₂。将每个时刻的频域方差与阈值进行比较，交替搜索骨传导声音事件的开始和结束位置，从而分割出每个骨传导声音事件。

步骤2.3：统一事件长度。

为便于后续进行特征提取和身份认证，选择两个开始点中小的一个作为两个事件的新开始点，选择两个结束点中大的一个作为两个事件的新结束点。

步骤3：去除非咬合事件的干扰。

具体地，步骤3可以包括以下步骤：

步骤3.1：进食干扰去除。

在用户咀嚼过程中，牙齿和食物之间的碰撞和摩擦会产生骨传导的声音，而不同的食物可能会导致不同的骨传导声音。

由于进食事件的持续时间通常大于250毫秒，而咬合事件的持续时间通常不超过20毫秒。因此，如果持续时间大于250毫秒，则确定当前事件为进食。

步骤3.2：人体说话干扰去除。

人体声带产生的振动可以通过骨骼传导到耳道内。通常，人声的基频在80Hz到300Hz之间，而人体骨传导咬合声音的频率在100Hz和2.5kHz之间。

为了检测骨传导声音事件是否由说话行为引起，计算信号中频率在80Hz到300Hz之间的信号功率谱密度，以及频率在100Hz和2.5kHz之间的信号功率谱密度。如果以上两个功率谱密度的比值大于设定阈值(例如大于0.7)，则说明信号的能量集中在80Hz到300Hz之间，该事件被认为是说话事件。

步骤3.3：步行干扰去除。

人体在脚后跟接触地面的瞬间，内向麦克风会收到明显的骨传导声音，而脚跟着地产生的声音频率主要集中在100Hz以下。因此，将频率在100Hz以下的事件去除。

例如，为去除步行的干扰，在前期环境噪声去除中采用大于100Hz的带通滤波器。因此，在事件检测之前，即可过滤掉步行产生的骨传导声音。

步骤4：从咬合骨传导声音中提取行为生物特征。

为准确地认证用户身份并抵御欺骗攻击，需要从咬合骨传导声音中提取可靠的行为生物特征。方法如下：

步骤4.1：提取骨骼频散特征。

骨骼是一种频散介质，这意味着声音高频部分的传播速度比低频部分的传播速度快，从而导致声音在传导过程中逐渐发散且波形发生改变。

本发明从牙齿咬合产生的骨传导声音中提取骨骼的频散特征。计算2个耳机收集到的声音信号波形中相邻两个过零点之间的距离，这些距离构成的序列被视为与骨骼物理特性相关的骨骼频散特征。

步骤4.2：提取咬合位置特征。

用户选择任何位置的牙齿来完成咬合行为进行注册。

本发明分析了2个麦克风接收到的两个骨传导咬合声音之间的延迟作为位置特征。首先将骨传导咬合声音数据分成5个频带，然后计算每个频带下2个麦克风接收信号的互相关性，最后得到两个麦克风接收信号之间的互相关序列作为咬合位置特征。

步骤4.3：提取包含在骨传导咬合声音中的音频特征。

本发明计算了每个骨传导咬合声音事件的MFCC(梅尔倒谱系数，Mel-scaleFrequency Cepstral Coefficients)特征。由于使用了2个麦克风，因此得到2个MFCC灰度图像。最后将2幅图像合并成1幅双通道图像(例如，图像大小可以大小为36×36×2)。

步骤五：用户注册及登录。

具体地，步骤5可以包括以下步骤：

在用户注册阶段，为提取的三种行为生物特征构造不同的认证模型。

首先，为骨传导音频特征构造认证模型。采用暹罗网络作为用户身份分类模型(该网络结构特别适合解决类数未知且训练数据较少的分类问题)。暹罗网络的基本思想是：使用1对具有相同结构和参数的子网络来计算2个输入的相似性，每个子网络包括3个卷积层、2个最大池层和1个全连接层。

给定一对骨传导音频特征作为输入，暹罗网络通过2个相同的子网络分别提取用户身份信息，并计算用户身份信息的距离作为输入的相似性。

当一个新用户进行注册时，需要完成5次咬合行为以提取骨传导音频特征。将训练完成的网络模型存储在智能设备中，用于用户登录。对于骨骼频散特征和咬合位置特征，在注册阶段收集新用户的骨骼频散特征并分别计算2个声道过零点序列的平均值。对于咬合位置特征，使用相同的方法计算互相关序列的平均值。

在登录阶段，暹罗网络比较登录用户的骨传导音频特征和设备上每个注册用户的平均骨传导音频特征之间的相似性。如果相似度均小于阈值，则认为当前是一个攻击者，否则登陆者的身份会被分配给具有最高相似度的已注册用户。随后，计算登录者的骨骼频散特征和神经网络分配的已注册用户的骨骼频散特征之间的差异。用同样的方法得到右声道的骨骼频散特征差异。对于咬合位置特征，使用相同的方法计算互相关序列的差异，如果差异小于相应的阈值，则认为该登陆者确实是合法用户。

有益效果

本发明，对比现有技术，具有以下优点：

1.本发明仅依靠智能耳机中的内向麦克风接收声音信号，就可以实现对用户骨传导咬合声音的监测，从而提取行为生物特征以认证用户身份。

2.本发明采用了环境及运动干扰去除算法，因此不易受环境噪音的干扰，大大增强了本认证方法的环境鲁棒性。

3.本发明从骨传导咬合声中提取了三种独特的行为生物特征，结合深度学习技术，能够在感知能力有限的智能设备上获得准确的认证结果，使得本发明具有很高的安全性。

4.本发明成本低、抗干扰性强、用户体验好。由于牙齿咬合行为不易被察觉，不引人注目，适用于大部分的应用场景。

附图说明

图1为本发明实施例用户认证方法原理图。

图2为本发明实施例的3种原型耳机设备。

图3为本发明实施例的总体性能。

图4为本发明实施例在不同注册咬合次数下的性能。

图5为本发明实施例在不同口腔环境的性能。

图6为本发明实施例在模仿攻击下的错误接受率。

图7为本发明实施例在重放攻击和混合攻击下的错误接受率。

具体实施方式

下面结合附图和实施例对本发明方法做进一步详细说明。

如图1所示，一种利用耳机内向麦克风的用户身份认证方法，包括以下步骤：

步骤1：对原始声音信号进行处理，去除环境干扰。

用户佩戴上耳机后，内向麦克风实时监测用户耳道中的声音。

虽然内向麦克风面向耳道内，但它仍可能记录到空气传导的环境噪声(如人声、道路噪声等)。因此，要对原始声音信号进行处理，去除环境噪声的干扰。

具体地，包括以下步骤：

步骤1.1：对信号进行数据标准化。

用户每次佩戴耳机时，耳机的松紧度和角度可能会略有不同，导致内向麦克风录制的音量可能不稳定。为了解决不同帧之间平均音量不一致的问题，可以使用基于响度的标准化，将每帧的平均音量调整为目标音量，目标音量优选设置为-24dB。

步骤1.2：去除空气传导环境噪声。向内麦克风可以接收空气传导的环境噪声和骨传导的咬合声音，而耳机的外向麦克风只能记录空气传导的环境噪声。

因此，可以采用功率谱减法去除掉内向麦克风接收到的空气传导的环境噪声，提高信号的信噪比。具体地，设一帧的音频信号是x(m)，X(k)表示x(m)的快速傅里叶变换(FFT)结果，经过功率谱减法后的振幅为

通过对

进行逆快速傅里叶变换，得到降噪后的音频信号

步骤1.3：频率选择。由于大多数人体牙齿咬合行为所产生的骨传导声音范围在100Hz到2.5kHz之间。因此，可以采用巴特沃斯带通滤波器对每帧音频信号进行滤波，其范围为100Hz至2.5kHz。滤波后，进一步消除了其他频带外干扰。

步骤2：利用基于频域方差，分割骨传导声音事件。

当去除空气传导的环境噪声后，每个信号帧中的声音几乎只包含骨传导的声音。检测并分割每个由用户行为引起的骨传导声音事件。

具体地，包括以下步骤：

步骤2.1：利用频域方差捕捉骨传导声音事件。

牙齿咬合行为产生的骨传导声音能量随频率变化很大，而大多数其他行为产生的骨传导声音在频谱中分布更为均匀。因此，将声音信号的频谱分成多个频段，并计算多个频段间幅值的方差。频域方差中存储的信息是多个频带之间的波动情况，因此频域方差能够很好地捕捉骨传导咬合声音。

步骤2.2：采用双阈值方法检测每个骨传导声音事件的开始点和结束点。

具体地，首先为频域方差设置一个阈值T₁，方差大于T₁的段被认为包含一个骨传导声音事件。然后，设置另一个阈值T₂，T₂<T₁，用于找到该事件的开始点和结束点。从方差大于T₁的段的开始位置向左搜索，找到与T₂相交的第一个点作为事件的开始点，同理，从方差大于T₁的段的结束位置向右搜索，找到与T₂相交的第一个点作为事件的结束点。

步骤2.3：统一事件长度。

使用一对内向麦克风收集双耳中的骨传导声音，并分别处理这两个麦克风收集的声音。为了便于后续进行特征提取和身份认证，要统一两个麦克风接收到的两个事件的长度。具体地，选择两个开始点中小的一个作为两个事件的新开始点，选择两个结束点中大的一个作为两个事件的新结束点。

长度统一后，每个咬合行为导致的骨传导声音都会产生2个长度相同的骨传导声音事件。

步骤3：去除非咬合事件的干扰。

除咬合行为，一些日常行为也会产生骨传导的声音(例如，进食、说话和步行)，这些行为同样会被事件检测算法提取为骨传导声音事件。因此，要从检测到的声音事件中去除这些非咬合事件。

具体地，包括以下步骤：

步骤3.1：进食干扰去除。

当用户进食时，通常需要用牙齿咀嚼食物。在咀嚼过程中，牙齿和食物之间的碰撞和摩擦会产生骨传导的声音，不同的食物可能会导致不同的骨传导声音。通过对不同的食物进行实验，发现进食产生的骨传导声音事件的频率范围与咬合行为的频率范围相似。然而，由于进食事件的持续时间通常大于250毫秒，而咬合事件的持续时间通常在10毫秒到20毫秒之间。因此，通过分析持续时间是否大于250毫秒来确定当前事件是否是进食。

步骤3.2：说话干扰去除。

人声带产生的振动也可以通过骨骼传导到耳道内。人声的基频在80Hz到300Hz之间，而骨传导咬合声音的频率在100Hz和2.5kHz之间。为了检测骨传导声音事件是否是说话行为引起的，计算了100Hz到300Hz频段内的功率谱密度在100Hz到2.5kHz频段功率谱密中所占的比例。如果该比例比大于阈值，则该事件被认为是说话事件。另外，由于用户在进食或说话时无法进行身份认证，因此在检测到这2个事件时则丢弃它们。

步骤3.3：步行干扰去除。步行时进行身份认证是一种常见的情况，而在脚后跟接触地面的瞬间，内向麦克风会收到明显的骨传导声音。因此，需要从接收的声音中过滤掉骨传导的步行声音。脚跟着地产生的声音频率主要集中在100Hz以下。步行行为和咬合行为之间的频率差异主要是由不同的传导路径造成的。脚跟着地产生的声音需要经过全身的传导才能到达耳道，而咬合声音可以通过非常短的路径到达耳道。为了去除步行的干扰，在前期环境噪声去除中采用了100Hz到2.5kHz的带通滤波器。因此，在事件检测之前就过滤掉步行产生的骨传导声音。

步骤4：从骨传导咬合声音事件中提取行为生物特征。

具体地，包括以下步骤：

步骤4.1：提取骨骼频散特征。

当上下牙齿相互碰撞时，会产生表面声波。而骨骼是一种频散介质，这意味着表面声波的传播速度与表面声波的频率和骨骼的物理特性有关(例如密度、弹性和惰性特征)。表面声波高频部分的速度比低频部分的传播速度快，这导致表面声波在传导过程中逐渐发散且波形会发生改变。在此基础上，本发明从牙齿咬合产生的表面声波中提取骨骼的频散特征。

分别计算两个声道中声音信号波形中两个过零点之间的距离δ_L(i)、δ_R(i)。左声道的过零点序列定义为ZS_L＝[δ_L(1)，δ_L(2)，...，δ_L(n)],右声道的过零点序列ZS_R由相同的方法计算得到。ZS_L和ZS_R被视为与骨骼物理特性相关的骨骼频散特征。

步骤4.2：提取咬合位置特征。

用户可以选择任何位置的牙齿来完成咬合行为进行注册，而骨传导声音从不同咬合位置传导到两个麦克风的路径和到达时间也是不同的。

本发明分析了两个麦克风接收到的两个骨传导咬合声音之间的延迟作为位置特征。首先将骨传导咬合声音数据分成5个频带，然后计算每个频带下，两个麦克风接收信号的互相关性R_lr(i)；最后，得到两个麦克风接收信号之间的互相关序列R_lr＝[R_lr(1),R_lr(2),...,R_lr(5)]作为咬合位置特征。

步骤4.3：提取骨传导音频特征。最后，提取包含在骨传导咬合声音中的音频特征。本发明计算了每个骨传导咬合声音事件的MFCC特征。在提取MFCC之前，每个咬合声音事件被细分为36帧。然后，为每一帧提取12维MFCC特征，12维MFCC一阶导数以及12维MFCC二阶导数；结合36帧的36维特征，形成36×36灰度图像；由于使用了两个麦克风，可以得到两个灰度图像。最后将两幅图像合并成一幅大小为36×36×2的双通道图像。

步骤5：用户注册及登录。

在用户注册阶段，本发明为在上一步提取的三种行为生物特征构造了不同的认证模型。

首先，为骨传导音频特征构造认证模型。采用暹罗网络作为用户身份分类模型，该网络结构适合解决类数未知且训练数据较少的分类问题。暹罗网络的基本思想是使用一对具有相同结构和参数的子网络来计算两个输入的相似性。

给定一对骨传导音频特征作为输入，暹罗网络通过两个子网络分别提取用户身份信息，并计算用户身份信息的距离作为输入的相似性。每个子网络包括三个卷积层、两个最大池层和一个全连接层。

在训练阶段，设子网络的权值为W，则损失函数为

表示第i对输入特征的欧式距离，N表示输入特征的对数；M为边界值，表示距离超出边界值的输入对不会造成损失。

如果输入特征来自同一用户，则Y＝1，否则Y＝0。对该网络进行训练的目标是使损失函数L(W)最小。即，本发明试图最小化同一用户的特征之间的距离，最大化不同用户的特征之间的距离。

例如，收集4个人的骨传导咬合声音。然后，任意2个骨传导音频特征形成一对输入，送入到该网络进行预训练。之后，该网络初步具备了区分不同用户的骨传导音频特征的能力。随后将该网络部署在智能设备上，当一个新用户进行注册时，其需要完成5次咬合行为以提取骨传导音频特征。然后，新用户的骨传导音频特征与自己和其他已注册用户的骨传导音频特征相结合，形成新的输入对。随后使用新的输入对在现有网络的参数上进行继续训练。训练完成的网络模型存储在智能设备中，用于用户登录。

对于骨骼频散特征和咬合位置特征，在注册阶段收集新用户的骨骼频散特征，并计算2个声道过零点序列的平均值

和

对于咬合位置特征使用相同的方法计算互相关序列的平均值

在登录阶段，使用训练好的暹罗神经网络比较登录用户的骨传导音频特征和设备上每个注册用户的平均骨传导音频特征之间的相似性。如果相似度均小于阈值，则认为当前是一个攻击者，否则，登陆者的身份会被分配给具有最高相似度的已注册用户。

随后，计算登录者的骨骼频散特征ZS_L和神经网络分配的已注册用户的

之间的差异

然后。用同样的方法得到右声道的DS_R。对于咬合位置特征使用相同的方法计算互相关序列的差异DR_lr。如果DS_L、DS_R、DR_lr中的任何两个小于相应的阈值，则认为该登陆者确实是合法用户。

为了安全起见，当连续发生5次认证失败时，智能设备可以自动锁定一段时间。

实施例

由于现有商用耳机硬件限制无法获取内向麦克风的音频数据，本发明通过在常见耳机中扬声器前面安装麦克风来组建3个耳机原型设备，如图2所示，这与大多数配备内向麦克风的商用耳机的内部结构类似；招募了22名参与者(13名男性和9名女性，年龄从18岁到52岁)，其中15人作为合法用户，其余7名参与者则是攻击者。实验场景主要包括四种，即实验室、公园、车内和商场。攻击者会对本发明提出的方法进行模仿攻击、重放攻击和混合攻击(同时进行模仿攻击和重放攻击)。

首先，评估了本方法的总体性能。图3展示了本方法对15个合法用户(表示为U1、U2、…、U15)和7个攻击者(表示为SP)的认证结果混淆矩阵。结果表明，本发明对于合法用户的平均认证准确率为96.8％，对于3种攻击的检测准确率为98.9％。在合法用户中，准确率最低为90.8％(用户5)。以上分析表明，本方法可以准确地认证合法用户并检测攻击者。

随后，评估了利用不同咬合次数构造训练集后的错误拒绝率和错误接受率。增加训练集中的咬合次数可以提高网络训练效果，但过多的咬合次数可能会导致用户体验不佳。结果如图4所示，随着训练集中咬合次数的增加，系统的错误拒绝率和错误接受率开始出现下降。只需要5次咬合就可以实现1.9％的错误拒绝率和1.1％的错误接受率，所有实验中的用户注册所需的咬合次数设置为5。

然后，评估了不同口腔环境对系统性能的影响。用户被要求在睡觉、刷牙、吃饭、喝水、喝牛奶和喝可乐前后分别使用本方法进行登录操作。图5显示，睡觉、吃饭和喝牛奶后的错误拒绝率略有增加，而刷牙和喝水可以降低错误拒绝率。特别的，喝可乐对认证准确率有很大影响，在喝可乐后进行登录的错误拒绝率增加到3.2％。原因可能是可乐中的高粘度成分(例如焦糖色和糖浆)粘附在牙齿表面，导致咬合行为的生物特征发生变化。

为了进行模仿攻击，假设攻击者知道合法用户用于认证的牙齿咬合位置和力度。图6展示了不同环境下模仿攻击的效果。结果表明，当使用两个或所有生物特征时，平均错误接受率可以稳定在1.2％左右，这表明使用所有3个生物特征可以在各种环境中很好地抵御模仿攻击，因为尽管攻击者可以模仿合法用户的咬合位置和力度，但攻击者的牙齿和骨骼生物特征仍然与合法用户的不同。

为了进行重放攻击，使用一个额外的麦克风窃听合法用户由空气传导的牙齿咬合声音，然后将其重放到原型耳机中进行攻击。图7展示了在不同窃听距离下重放攻击结果。当距离大于20厘米时，仅使用骨传导音频特征的认证错误接受率可以减少到1％，这是由于空气传导的咬合声音更接近脉冲波，导致其衰减速度更快。此外，由于空气传导的咬合声音不包含骨骼和位置生物特征，因此使用所有特征情况下的系统错误接受率低于仅使用骨传导音频特征的错误接受率。

最后，考虑攻击者模仿合法用户咬合行为的同时，利用放置于攻击者嘴部的扬声器重放窃听到的咬合声音。该实验的设置与重放攻击中的设置相同。图7展示了不同窃听距离下混合攻击的结果。与重放攻击类似，当距离大于20厘米时，错误接受率将减少到1％左右。在实际场景中，攻击者很难在如此短的距离内窃听用户。总体而言，本发明可以在不同的环境中有效抵御各种攻击。

Claims

1.一种利用耳机内向麦克风的用户身份认证方法，其特征在于，包括以下步骤：

首先对原始声音信号进行处理，包括对原始的声音信号进行数据标准化、去除空气传导环境噪声和频率选择；

然后，利用基于频域方差方法分割骨传导声音事件；之后，去除非咬合事件的干扰，包括去除进食干扰、人体说话干扰和步行干扰；

之后，从咬合骨传导声音中提取行为生物特征，包括以下步骤：

第一步：提取骨骼频散特征，从牙齿咬合产生的骨传导声音中提取骨骼的频散特征，计算2个耳机收集到的声音信号波形中相邻两个过零点之间的距离，这些距离构成的序列被视为与骨骼物理特性相关的骨骼频散特征；

第二步：提取咬合位置特征；用户选择任何位置的牙齿来完成咬合行为进行注册；将2个麦克风接收到的两个骨传导咬合声音之间的延迟作为位置特征；首先将骨传导咬合声音数据分成5个频带，然后计算每个频带下2个麦克风接收信号的互相关性，最后得到两个麦克风接收信号之间的互相关序列作为咬合位置特征；

第三步：提取包含在骨传导咬合声音中的音频特征；计算每个骨传导咬合声音事件的梅尔倒谱系数MFCC特征，得到2幅MFCC灰度图像，将2幅图像合并成1幅双通道图像；

最后，进行用户注册及登录。

2.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法，其特征在于，对原始的声音信号进行数据标准化，使用基于响度的标准化方法，将每帧的平均音量调整为目标音量。

3.如权利要求2所述的一种利用耳机内向麦克风的用户身份认证方法，其特征在于，将目标音量设置为-24dB。

4.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法，其特征在于，去除空气传导环境噪声时，使用功率谱减法，去除每一帧中的空气传导环境噪声，提高信号的信噪比；

设一帧的音频信号为x(m)，m表示一帧音频信号中的第m个时刻，X(k)表示x(m)的快速傅里叶变换FFT结果，k表示经过快速傅里叶变换后的第k个频率点，经过功率谱减法后的振幅为

通过对

进行逆快速傅里叶变换，得到降噪后的音频信号

5.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法，其特征在于，频率选择时，对每帧音频信号进行滤波，范围为100Hz至2.5kHz。

6.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法，其特征在于，利用基于频域方差方法分割骨传导声音事件，包括以下步骤：

首先，利用频域方差捕捉骨传导声音事件，将声音信号的频谱分成若干个频段，并采用基于频域方差的事件检测方法；

然后，检测每个骨传导声音事件的开始点和结束点；采用双阈值方法，为开始和结束位置分别设置阈值为T₁和T₂；将每个时刻的频域方差与阈值进行比较，交替搜索骨传导声音事件的开始和结束位置，从而分割出每个骨传导声音事件；

最后，统一事件长度，选择两个开始点中小的一个作为两个事件的新开始点，选择两个结束点中大的一个作为两个事件的新结束点。

7.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法，其特征在于，在去除非咬合事件的干扰时：

对于去除进食干扰，若咬合事件的持续时间大于250毫秒，则确定当前事件为进食，将其去除；

对于去除人体说话干扰，通过计算声音信号中频率在80Hz到300Hz之间的信号功率谱密度以及频率在100Hz和2.5kHz之间的信号功率谱密度，如果以上两个功率谱密度的比值大于设定阈值，则该事件认定被认为是说话；

对于去除步行干扰，去除声音频率在100Hz以下的事件。

8.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法，其特征在于，用户注册及登录包括以下步骤：

在用户注册阶段，为提取的三种行为生物特征构造不同的认证模型；

首先，为骨传导音频特征构造认证模型；采用暹罗网络作为用户身份分类模型；

暹罗网络使用1对具有相同结构和参数的子网络来计算2个输入的相似性，每个子网络包括3个卷积层、2个最大池层和1个全连接层；

给定一对骨传导音频特征作为输入，暹罗网络通过2个相同的子网络分别提取用户身份信息，并计算用户身份信息的距离作为输入的相似性；

当一个新用户进行注册时，要完成5次咬合行为，以提取骨传导音频特征；将训练完成的网络模型存储在智能设备中，用于用户登录；对于骨骼频散特征和咬合位置特征，在注册阶段收集新用户的骨骼频散特征并分别计算2个声道过零点序列的平均值；对于咬合位置特征，使用相同的方法计算互相关序列的平均值；

在登录阶段，暹罗网络比较登录用户的骨传导音频特征和设备上每个注册用户的平均骨传导音频特征之间的相似性；如果相似度均小于阈值，则认为当前是一个攻击者，否则登陆者的身份会被分配给具有最高相似度的已注册用户；随后，计算登录者的骨骼频散特征和神经网络分配的已注册用户的骨骼频散特征之间的差异；用同样的方法得到右声道的骨骼频散特征差异；对于咬合位置特征，使用相同的方法计算互相关序列的差异，如果差异小于相应的阈值，则认为该登陆者确实是合法用户。

9.如权利要求8所述的一种利用耳机内向麦克风的用户身份认证方法，其特征在于：

在训练阶段，设子网络的权值为W，则损失函数为

表示第i对输入特征的欧式距离，N表示输入特征的对数；M为边界值，表示距离超出边界值的输入对不会造成损失；

如果输入特征来自同一用户，则Y＝1，否则Y＝0；对该网络进行训练的目标是使损失函数L(W)最小，即，最小化同一用户的特征之间的距离，最大化不同用户的特征之间的距离；

和

对于咬合位置特征使用相同的方法计算互相关序列的平均值

在登录阶段，使用训练好的暹罗神经网络比较登录用户的骨传导音频特征和设备上每个注册用户的平均骨传导音频特征之间的相似性；如果相似度均小于阈值，则认为当前是一个攻击者，否则，登陆者的身份会被分配给具有最高相似度的已注册用户；

之间的差异

然后；用同样的方法得到右声道的DS_R；对于咬合位置特征使用相同的方法计算互相关序列的差异DR_lr；如果DS_L、DS_R、DR_lr中的任何两个小于相应的阈值，则认为该登陆者确实是合法用户。

10.如权利要求7所述的一种利用耳机内向麦克风的用户身份认证方法，其特征在于，设定阈值为0.7。