CN115348049A - 一种利用耳机内向麦克风的用户身份认证方法 - Google Patents

一种利用耳机内向麦克风的用户身份认证方法 Download PDF

Info

Publication number
CN115348049A
CN115348049A CN202210715365.7A CN202210715365A CN115348049A CN 115348049 A CN115348049 A CN 115348049A CN 202210715365 A CN202210715365 A CN 202210715365A CN 115348049 A CN115348049 A CN 115348049A
Authority
CN
China
Prior art keywords
user
occlusion
bone conduction
sound
bone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210715365.7A
Other languages
English (en)
Inventor
李凡
解亚东
吴玥
张珂睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210715365.7A priority Critical patent/CN115348049A/zh
Publication of CN115348049A publication Critical patent/CN115348049A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1058Manufacture or assembly
    • H04R1/1075Mountings of transducers in earphones or headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及一种利用耳机内向麦克风的用户身份认证方法,属于移动计算应用技术领域。本方法利用耳机的内向麦克风捕捉牙齿咬合产生的骨传导声音,并从骨骼结构、咬合位置和咬合声音三个方面提取骨传导咬合声的独特行为生物特征,结合深度学习技术,通过设计一个暹罗神经网络来对用户身份进行分类,能够在感知能力有限的智能设备上获得准确认证结果。本发明仅依靠智能耳机中的内向麦克风接收声音信号即可实现对用户骨传导咬合声音的监测。采用环境及运动干扰去除算法,不易受环境噪音的干扰,增强了方法的环境鲁棒性。本发明具有很高的安全性,成本低、抗干扰性强、用户体验好,适用于大部分的应用场景。

Description

一种利用耳机内向麦克风的用户身份认证方法
技术领域
本发明涉及一种基于用户行为生物特征的身份认证方法,具体涉及一种利用耳机内向麦克风捕捉牙齿咬合产生的骨传导声音,并从这些声音中提取独特行为生物特征进行用户身份认证的方法,属于移动计算应用技术领域。
背景技术
随着智能设备(如智能手机等)功能越来越强大,存储容量也越来越大,许多设备用于处理敏感隐私信息,例如编辑私人文档、记录健康信息和在线支付等等。然而,用户隐私数据的泄露问题却日益严重。调查显示,89%的用户十分关心隐私数据的安全性,79%的用户愿意采取行动来保护隐私数据。目前,登录数据、指纹和声音等个人身份信息是最常见的丢失或被盗数据类型,在数据泄露中的占比高达80%。因此,设计实现一种可靠方便的认证系统是十分必要的。
为了防止用户隐私数据的泄露,目前的智能设备上已经采用了多种认证方法来确认登陆者的身份,例如密码、图形锁等。但是,这些方法很容易被推断或窃取。具体来说,密码和图形锁是目前使用最广泛的身份认证方法,但它们容易受到肩窥攻击并且需要用户进行繁琐的输入。此外,多种个人行为生物特征,如指纹、声纹、人脸识别等得到了广泛研究,并在商业系统中得到了应用,例如苹果公司的Touch ID、微信声纹锁和亚马逊公司的Rekognition。但是,这些方法容易受到重放攻击。例如,攻击者可以记录合法用户的脸或声音,然后重放这些记录以欺骗认证系统;甚至指纹也可以通过照片被盗,并制成指纹模具进行攻击。
除此之外,越来越多的行为生物特征被用来增强智能设备认证的安全性。例如,一些方法使用摄像头采集用户牙齿边缘形状特征进行认证;通过智能手机上的音频传感器提取用户说话时嘴唇运动的独特特征进行认证。但是这些方法要求用户将手机对着嘴部,从而影响用户体验且适用场景受限。另有一些方法利用不同人的耳道对音频信号的反射模式不同来获取耳道的独特特征以进行认证。但这些方法容易受到环境因素的干扰,如设备位置的发生移动。
综上所示,目前迫切需要一种更加安全、方便、可靠的用户认证方法。
发明内容
本发明的目的是针对现有技术存在的不足,为解决目前缺少一种高安全性、用户友好且不受环境干扰的身份认证解决方案,创造性地提出一种利用耳机内向麦克风的用户身份认证方法。
本发明的创新点在于:当用户进行牙齿咬合行为时,牙齿碰撞产生的声音会被头骨吸收、反射和散射,然后传送到耳道内。由于每个人头骨独特的密度和弹性等物理特性,在耳道内接收到的咬合声音会呈现出个体差异。目前,许多商用耳机(如Apple AirPodsPro、Sony WF-1000XM4、Bose QuietComfort)都已经配置了内向麦克风,用于收集耳道中的声音以进行降噪。本发明利用耳机的内向麦克风来捕捉牙齿咬合产生的骨传导声音,并从骨骼结构、咬合位置和咬合声音三个方面提取骨传导咬合声的独特行为生物特征。最后,通过设计一个暹罗神经网络来对用户身份进行分类。
本发明的目的是通过以下技术方案实现的。
一种利用耳机内向麦克风的用户身份认证方法,包括以下步骤:
步骤1:对原始声音信号进行处理,目的是去除环境干扰。
当检测到用户佩戴上耳机后,内向麦克风实时监测用户耳道中的声音。为了去除环境噪声的干扰,需要对原始的声音信号进行处理。
具体地,可以包括以下步骤:
首先,对原始的声音信号进行数据标准化。为了解决不同帧之间平均音量不一致的问题,本发明使用一种基于响度的标准化方法,将每帧的平均音量调整为目标音量。其中,目标音量设置为-24dB(与美国高级电视系统委员会推荐的标准响度相同)。
然后,去除空气传导环境噪声。本发明使用功率谱减法,去除每一帧中的空气传导环境噪声,提高信号的信噪比。具体地,设一帧的音频信号为x(m),m表示一帧音频信号中的第m个时刻,X(k)表示x(m)的快速傅里叶变换FFT结果,k表示经过快速傅里叶变换后的第k个频率点,经过功率谱减法后的振幅为
Figure BDA0003708603930000021
通过对
Figure BDA0003708603930000022
进行逆快速傅里叶变换,得到降噪后的音频信号
Figure BDA0003708603930000023
最后,进行频率选择。具体地,可以采用巴特沃斯带通滤波器等对每帧音频信号进行滤波,范围为100Hz至2.5kHz。滤波后,能够进一步消除其他频带外干扰。
步骤2:利用基于频域方差方法,分割骨传导声音事件。
具体地,步骤2可以包括以下步骤:
步骤2.1:利用频域方差捕捉骨传导声音事件。
本发明将声音信号的频谱分成若干个频段,并采用了基于频域方差的事件检测方法。频域方差中存储的主要信息是多个频带之间的波动情况,因此,频域方差能够很好地捕捉骨传导咬合声音。
步骤2.2:检测每个骨传导声音事件的开始点和结束点。
具体地,可以采用双阈值方法,为开始和结束位置分别设置阈值为T1和T2。将每个时刻的频域方差与阈值进行比较,交替搜索骨传导声音事件的开始和结束位置,从而分割出每个骨传导声音事件。
步骤2.3:统一事件长度。
为便于后续进行特征提取和身份认证,选择两个开始点中小的一个作为两个事件的新开始点,选择两个结束点中大的一个作为两个事件的新结束点。
步骤3:去除非咬合事件的干扰。
具体地,步骤3可以包括以下步骤:
步骤3.1:进食干扰去除。
在用户咀嚼过程中,牙齿和食物之间的碰撞和摩擦会产生骨传导的声音,而不同的食物可能会导致不同的骨传导声音。
由于进食事件的持续时间通常大于250毫秒,而咬合事件的持续时间通常不超过20毫秒。因此,如果持续时间大于250毫秒,则确定当前事件为进食。
步骤3.2:人体说话干扰去除。
人体声带产生的振动可以通过骨骼传导到耳道内。通常,人声的基频在80Hz到300Hz之间,而人体骨传导咬合声音的频率在100Hz和2.5kHz之间。
为了检测骨传导声音事件是否由说话行为引起,计算信号中频率在80Hz到300Hz之间的信号功率谱密度,以及频率在100Hz和2.5kHz之间的信号功率谱密度。如果以上两个功率谱密度的比值大于设定阈值(例如大于0.7),则说明信号的能量集中在80Hz到300Hz之间,该事件被认为是说话事件。
步骤3.3:步行干扰去除。
人体在脚后跟接触地面的瞬间,内向麦克风会收到明显的骨传导声音,而脚跟着地产生的声音频率主要集中在100Hz以下。因此,将频率在100Hz以下的事件去除。
例如,为去除步行的干扰,在前期环境噪声去除中采用大于100Hz的带通滤波器。因此,在事件检测之前,即可过滤掉步行产生的骨传导声音。
步骤4:从咬合骨传导声音中提取行为生物特征。
为准确地认证用户身份并抵御欺骗攻击,需要从咬合骨传导声音中提取可靠的行为生物特征。方法如下:
步骤4.1:提取骨骼频散特征。
骨骼是一种频散介质,这意味着声音高频部分的传播速度比低频部分的传播速度快,从而导致声音在传导过程中逐渐发散且波形发生改变。
本发明从牙齿咬合产生的骨传导声音中提取骨骼的频散特征。计算2个耳机收集到的声音信号波形中相邻两个过零点之间的距离,这些距离构成的序列被视为与骨骼物理特性相关的骨骼频散特征。
步骤4.2:提取咬合位置特征。
用户选择任何位置的牙齿来完成咬合行为进行注册。
本发明分析了2个麦克风接收到的两个骨传导咬合声音之间的延迟作为位置特征。首先将骨传导咬合声音数据分成5个频带,然后计算每个频带下2个麦克风接收信号的互相关性,最后得到两个麦克风接收信号之间的互相关序列作为咬合位置特征。
步骤4.3:提取包含在骨传导咬合声音中的音频特征。
本发明计算了每个骨传导咬合声音事件的MFCC(梅尔倒谱系数,Mel-scaleFrequency Cepstral Coefficients)特征。由于使用了2个麦克风,因此得到2个MFCC灰度图像。最后将2幅图像合并成1幅双通道图像(例如,图像大小可以大小为36×36×2)。
步骤五:用户注册及登录。
具体地,步骤5可以包括以下步骤:
在用户注册阶段,为提取的三种行为生物特征构造不同的认证模型。
首先,为骨传导音频特征构造认证模型。采用暹罗网络作为用户身份分类模型(该网络结构特别适合解决类数未知且训练数据较少的分类问题)。暹罗网络的基本思想是:使用1对具有相同结构和参数的子网络来计算2个输入的相似性,每个子网络包括3个卷积层、2个最大池层和1个全连接层。
给定一对骨传导音频特征作为输入,暹罗网络通过2个相同的子网络分别提取用户身份信息,并计算用户身份信息的距离作为输入的相似性。
当一个新用户进行注册时,需要完成5次咬合行为以提取骨传导音频特征。将训练完成的网络模型存储在智能设备中,用于用户登录。对于骨骼频散特征和咬合位置特征,在注册阶段收集新用户的骨骼频散特征并分别计算2个声道过零点序列的平均值。对于咬合位置特征,使用相同的方法计算互相关序列的平均值。
在登录阶段,暹罗网络比较登录用户的骨传导音频特征和设备上每个注册用户的平均骨传导音频特征之间的相似性。如果相似度均小于阈值,则认为当前是一个攻击者,否则登陆者的身份会被分配给具有最高相似度的已注册用户。随后,计算登录者的骨骼频散特征和神经网络分配的已注册用户的骨骼频散特征之间的差异。用同样的方法得到右声道的骨骼频散特征差异。对于咬合位置特征,使用相同的方法计算互相关序列的差异,如果差异小于相应的阈值,则认为该登陆者确实是合法用户。
有益效果
本发明,对比现有技术,具有以下优点:
1.本发明仅依靠智能耳机中的内向麦克风接收声音信号,就可以实现对用户骨传导咬合声音的监测,从而提取行为生物特征以认证用户身份。
2.本发明采用了环境及运动干扰去除算法,因此不易受环境噪音的干扰,大大增强了本认证方法的环境鲁棒性。
3.本发明从骨传导咬合声中提取了三种独特的行为生物特征,结合深度学习技术,能够在感知能力有限的智能设备上获得准确的认证结果,使得本发明具有很高的安全性。
4.本发明成本低、抗干扰性强、用户体验好。由于牙齿咬合行为不易被察觉,不引人注目,适用于大部分的应用场景。
附图说明
图1为本发明实施例用户认证方法原理图。
图2为本发明实施例的3种原型耳机设备。
图3为本发明实施例的总体性能。
图4为本发明实施例在不同注册咬合次数下的性能。
图5为本发明实施例在不同口腔环境的性能。
图6为本发明实施例在模仿攻击下的错误接受率。
图7为本发明实施例在重放攻击和混合攻击下的错误接受率。
具体实施方式
下面结合附图和实施例对本发明方法做进一步详细说明。
如图1所示,一种利用耳机内向麦克风的用户身份认证方法,包括以下步骤:
步骤1:对原始声音信号进行处理,去除环境干扰。
用户佩戴上耳机后,内向麦克风实时监测用户耳道中的声音。
虽然内向麦克风面向耳道内,但它仍可能记录到空气传导的环境噪声(如人声、道路噪声等)。因此,要对原始声音信号进行处理,去除环境噪声的干扰。
具体地,包括以下步骤:
步骤1.1:对信号进行数据标准化。
用户每次佩戴耳机时,耳机的松紧度和角度可能会略有不同,导致内向麦克风录制的音量可能不稳定。为了解决不同帧之间平均音量不一致的问题,可以使用基于响度的标准化,将每帧的平均音量调整为目标音量,目标音量优选设置为-24dB。
步骤1.2:去除空气传导环境噪声。向内麦克风可以接收空气传导的环境噪声和骨传导的咬合声音,而耳机的外向麦克风只能记录空气传导的环境噪声。
因此,可以采用功率谱减法去除掉内向麦克风接收到的空气传导的环境噪声,提高信号的信噪比。具体地,设一帧的音频信号是x(m),X(k)表示x(m)的快速傅里叶变换(FFT)结果,经过功率谱减法后的振幅为
Figure BDA0003708603930000061
通过对
Figure BDA0003708603930000062
进行逆快速傅里叶变换,得到降噪后的音频信号
Figure BDA0003708603930000063
步骤1.3:频率选择。由于大多数人体牙齿咬合行为所产生的骨传导声音范围在100Hz到2.5kHz之间。因此,可以采用巴特沃斯带通滤波器对每帧音频信号进行滤波,其范围为100Hz至2.5kHz。滤波后,进一步消除了其他频带外干扰。
步骤2:利用基于频域方差,分割骨传导声音事件。
当去除空气传导的环境噪声后,每个信号帧中的声音几乎只包含骨传导的声音。检测并分割每个由用户行为引起的骨传导声音事件。
具体地,包括以下步骤:
步骤2.1:利用频域方差捕捉骨传导声音事件。
牙齿咬合行为产生的骨传导声音能量随频率变化很大,而大多数其他行为产生的骨传导声音在频谱中分布更为均匀。因此,将声音信号的频谱分成多个频段,并计算多个频段间幅值的方差。频域方差中存储的信息是多个频带之间的波动情况,因此频域方差能够很好地捕捉骨传导咬合声音。
步骤2.2:采用双阈值方法检测每个骨传导声音事件的开始点和结束点。
具体地,首先为频域方差设置一个阈值T1,方差大于T1的段被认为包含一个骨传导声音事件。然后,设置另一个阈值T2,T2<T1,用于找到该事件的开始点和结束点。从方差大于T1的段的开始位置向左搜索,找到与T2相交的第一个点作为事件的开始点,同理,从方差大于T1的段的结束位置向右搜索,找到与T2相交的第一个点作为事件的结束点。
步骤2.3:统一事件长度。
使用一对内向麦克风收集双耳中的骨传导声音,并分别处理这两个麦克风收集的声音。为了便于后续进行特征提取和身份认证,要统一两个麦克风接收到的两个事件的长度。具体地,选择两个开始点中小的一个作为两个事件的新开始点,选择两个结束点中大的一个作为两个事件的新结束点。
长度统一后,每个咬合行为导致的骨传导声音都会产生2个长度相同的骨传导声音事件。
步骤3:去除非咬合事件的干扰。
除咬合行为,一些日常行为也会产生骨传导的声音(例如,进食、说话和步行),这些行为同样会被事件检测算法提取为骨传导声音事件。因此,要从检测到的声音事件中去除这些非咬合事件。
具体地,包括以下步骤:
步骤3.1:进食干扰去除。
当用户进食时,通常需要用牙齿咀嚼食物。在咀嚼过程中,牙齿和食物之间的碰撞和摩擦会产生骨传导的声音,不同的食物可能会导致不同的骨传导声音。通过对不同的食物进行实验,发现进食产生的骨传导声音事件的频率范围与咬合行为的频率范围相似。然而,由于进食事件的持续时间通常大于250毫秒,而咬合事件的持续时间通常在10毫秒到20毫秒之间。因此,通过分析持续时间是否大于250毫秒来确定当前事件是否是进食。
步骤3.2:说话干扰去除。
人声带产生的振动也可以通过骨骼传导到耳道内。人声的基频在80Hz到300Hz之间,而骨传导咬合声音的频率在100Hz和2.5kHz之间。为了检测骨传导声音事件是否是说话行为引起的,计算了100Hz到300Hz频段内的功率谱密度在100Hz到2.5kHz频段功率谱密中所占的比例。如果该比例比大于阈值,则该事件被认为是说话事件。另外,由于用户在进食或说话时无法进行身份认证,因此在检测到这2个事件时则丢弃它们。
步骤3.3:步行干扰去除。步行时进行身份认证是一种常见的情况,而在脚后跟接触地面的瞬间,内向麦克风会收到明显的骨传导声音。因此,需要从接收的声音中过滤掉骨传导的步行声音。脚跟着地产生的声音频率主要集中在100Hz以下。步行行为和咬合行为之间的频率差异主要是由不同的传导路径造成的。脚跟着地产生的声音需要经过全身的传导才能到达耳道,而咬合声音可以通过非常短的路径到达耳道。为了去除步行的干扰,在前期环境噪声去除中采用了100Hz到2.5kHz的带通滤波器。因此,在事件检测之前就过滤掉步行产生的骨传导声音。
步骤4:从骨传导咬合声音事件中提取行为生物特征。
具体地,包括以下步骤:
步骤4.1:提取骨骼频散特征。
当上下牙齿相互碰撞时,会产生表面声波。而骨骼是一种频散介质,这意味着表面声波的传播速度与表面声波的频率和骨骼的物理特性有关(例如密度、弹性和惰性特征)。表面声波高频部分的速度比低频部分的传播速度快,这导致表面声波在传导过程中逐渐发散且波形会发生改变。在此基础上,本发明从牙齿咬合产生的表面声波中提取骨骼的频散特征。
分别计算两个声道中声音信号波形中两个过零点之间的距离δL(i)、δR(i)。左声道的过零点序列定义为ZSL=[δL(1),δL(2),...,δL(n)],右声道的过零点序列ZSR由相同的方法计算得到。ZSL和ZSR被视为与骨骼物理特性相关的骨骼频散特征。
步骤4.2:提取咬合位置特征。
用户可以选择任何位置的牙齿来完成咬合行为进行注册,而骨传导声音从不同咬合位置传导到两个麦克风的路径和到达时间也是不同的。
本发明分析了两个麦克风接收到的两个骨传导咬合声音之间的延迟作为位置特征。首先将骨传导咬合声音数据分成5个频带,然后计算每个频带下,两个麦克风接收信号的互相关性Rlr(i);最后,得到两个麦克风接收信号之间的互相关序列Rlr=[Rlr(1),Rlr(2),...,Rlr(5)]作为咬合位置特征。
步骤4.3:提取骨传导音频特征。最后,提取包含在骨传导咬合声音中的音频特征。本发明计算了每个骨传导咬合声音事件的MFCC特征。在提取MFCC之前,每个咬合声音事件被细分为36帧。然后,为每一帧提取12维MFCC特征,12维MFCC一阶导数以及12维MFCC二阶导数;结合36帧的36维特征,形成36×36灰度图像;由于使用了两个麦克风,可以得到两个灰度图像。最后将两幅图像合并成一幅大小为36×36×2的双通道图像。
步骤5:用户注册及登录。
在用户注册阶段,本发明为在上一步提取的三种行为生物特征构造了不同的认证模型。
首先,为骨传导音频特征构造认证模型。采用暹罗网络作为用户身份分类模型,该网络结构适合解决类数未知且训练数据较少的分类问题。暹罗网络的基本思想是使用一对具有相同结构和参数的子网络来计算两个输入的相似性。
给定一对骨传导音频特征作为输入,暹罗网络通过两个子网络分别提取用户身份信息,并计算用户身份信息的距离作为输入的相似性。每个子网络包括三个卷积层、两个最大池层和一个全连接层。
在训练阶段,设子网络的权值为W,则损失函数为
Figure BDA0003708603930000091
Figure BDA0003708603930000092
Figure BDA0003708603930000093
表示第i对输入特征的欧式距离,N表示输入特征的对数;M为边界值,表示距离超出边界值的输入对不会造成损失。
如果输入特征来自同一用户,则Y=1,否则Y=0。对该网络进行训练的目标是使损失函数L(W)最小。即,本发明试图最小化同一用户的特征之间的距离,最大化不同用户的特征之间的距离。
例如,收集4个人的骨传导咬合声音。然后,任意2个骨传导音频特征形成一对输入,送入到该网络进行预训练。之后,该网络初步具备了区分不同用户的骨传导音频特征的能力。随后将该网络部署在智能设备上,当一个新用户进行注册时,其需要完成5次咬合行为以提取骨传导音频特征。然后,新用户的骨传导音频特征与自己和其他已注册用户的骨传导音频特征相结合,形成新的输入对。随后使用新的输入对在现有网络的参数上进行继续训练。训练完成的网络模型存储在智能设备中,用于用户登录。
对于骨骼频散特征和咬合位置特征,在注册阶段收集新用户的骨骼频散特征,并计算2个声道过零点序列的平均值
Figure BDA0003708603930000101
Figure BDA0003708603930000102
对于咬合位置特征使用相同的方法计算互相关序列的平均值
Figure BDA0003708603930000103
在登录阶段,使用训练好的暹罗神经网络比较登录用户的骨传导音频特征和设备上每个注册用户的平均骨传导音频特征之间的相似性。如果相似度均小于阈值,则认为当前是一个攻击者,否则,登陆者的身份会被分配给具有最高相似度的已注册用户。
随后,计算登录者的骨骼频散特征ZSL和神经网络分配的已注册用户的
Figure BDA0003708603930000104
之间的差异
Figure BDA0003708603930000105
然后。用同样的方法得到右声道的DSR。对于咬合位置特征使用相同的方法计算互相关序列的差异DRlr。如果DSL、DSR、DRlr中的任何两个小于相应的阈值,则认为该登陆者确实是合法用户。
为了安全起见,当连续发生5次认证失败时,智能设备可以自动锁定一段时间。
实施例
由于现有商用耳机硬件限制无法获取内向麦克风的音频数据,本发明通过在常见耳机中扬声器前面安装麦克风来组建3个耳机原型设备,如图2所示,这与大多数配备内向麦克风的商用耳机的内部结构类似;招募了22名参与者(13名男性和9名女性,年龄从18岁到52岁),其中15人作为合法用户,其余7名参与者则是攻击者。实验场景主要包括四种,即实验室、公园、车内和商场。攻击者会对本发明提出的方法进行模仿攻击、重放攻击和混合攻击(同时进行模仿攻击和重放攻击)。
首先,评估了本方法的总体性能。图3展示了本方法对15个合法用户(表示为U1、U2、…、U15)和7个攻击者(表示为SP)的认证结果混淆矩阵。结果表明,本发明对于合法用户的平均认证准确率为96.8%,对于3种攻击的检测准确率为98.9%。在合法用户中,准确率最低为90.8%(用户5)。以上分析表明,本方法可以准确地认证合法用户并检测攻击者。
随后,评估了利用不同咬合次数构造训练集后的错误拒绝率和错误接受率。增加训练集中的咬合次数可以提高网络训练效果,但过多的咬合次数可能会导致用户体验不佳。结果如图4所示,随着训练集中咬合次数的增加,系统的错误拒绝率和错误接受率开始出现下降。只需要5次咬合就可以实现1.9%的错误拒绝率和1.1%的错误接受率,所有实验中的用户注册所需的咬合次数设置为5。
然后,评估了不同口腔环境对系统性能的影响。用户被要求在睡觉、刷牙、吃饭、喝水、喝牛奶和喝可乐前后分别使用本方法进行登录操作。图5显示,睡觉、吃饭和喝牛奶后的错误拒绝率略有增加,而刷牙和喝水可以降低错误拒绝率。特别的,喝可乐对认证准确率有很大影响,在喝可乐后进行登录的错误拒绝率增加到3.2%。原因可能是可乐中的高粘度成分(例如焦糖色和糖浆)粘附在牙齿表面,导致咬合行为的生物特征发生变化。
为了进行模仿攻击,假设攻击者知道合法用户用于认证的牙齿咬合位置和力度。图6展示了不同环境下模仿攻击的效果。结果表明,当使用两个或所有生物特征时,平均错误接受率可以稳定在1.2%左右,这表明使用所有3个生物特征可以在各种环境中很好地抵御模仿攻击,因为尽管攻击者可以模仿合法用户的咬合位置和力度,但攻击者的牙齿和骨骼生物特征仍然与合法用户的不同。
为了进行重放攻击,使用一个额外的麦克风窃听合法用户由空气传导的牙齿咬合声音,然后将其重放到原型耳机中进行攻击。图7展示了在不同窃听距离下重放攻击结果。当距离大于20厘米时,仅使用骨传导音频特征的认证错误接受率可以减少到1%,这是由于空气传导的咬合声音更接近脉冲波,导致其衰减速度更快。此外,由于空气传导的咬合声音不包含骨骼和位置生物特征,因此使用所有特征情况下的系统错误接受率低于仅使用骨传导音频特征的错误接受率。
最后,考虑攻击者模仿合法用户咬合行为的同时,利用放置于攻击者嘴部的扬声器重放窃听到的咬合声音。该实验的设置与重放攻击中的设置相同。图7展示了不同窃听距离下混合攻击的结果。与重放攻击类似,当距离大于20厘米时,错误接受率将减少到1%左右。在实际场景中,攻击者很难在如此短的距离内窃听用户。总体而言,本发明可以在不同的环境中有效抵御各种攻击。

Claims (10)

1.一种利用耳机内向麦克风的用户身份认证方法,其特征在于,包括以下步骤:
首先对原始声音信号进行处理,包括对原始的声音信号进行数据标准化、去除空气传导环境噪声和频率选择;
然后,利用基于频域方差方法分割骨传导声音事件;之后,去除非咬合事件的干扰,包括去除进食干扰、人体说话干扰和步行干扰;
之后,从咬合骨传导声音中提取行为生物特征,包括以下步骤:
第一步:提取骨骼频散特征,从牙齿咬合产生的骨传导声音中提取骨骼的频散特征,计算2个耳机收集到的声音信号波形中相邻两个过零点之间的距离,这些距离构成的序列被视为与骨骼物理特性相关的骨骼频散特征;
第二步:提取咬合位置特征;用户选择任何位置的牙齿来完成咬合行为进行注册;将2个麦克风接收到的两个骨传导咬合声音之间的延迟作为位置特征;首先将骨传导咬合声音数据分成5个频带,然后计算每个频带下2个麦克风接收信号的互相关性,最后得到两个麦克风接收信号之间的互相关序列作为咬合位置特征;
第三步:提取包含在骨传导咬合声音中的音频特征;计算每个骨传导咬合声音事件的梅尔倒谱系数MFCC特征,得到2幅MFCC灰度图像,将2幅图像合并成1幅双通道图像;
最后,进行用户注册及登录。
2.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法,其特征在于,对原始的声音信号进行数据标准化,使用基于响度的标准化方法,将每帧的平均音量调整为目标音量。
3.如权利要求2所述的一种利用耳机内向麦克风的用户身份认证方法,其特征在于,将目标音量设置为-24dB。
4.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法,其特征在于,去除空气传导环境噪声时,使用功率谱减法,去除每一帧中的空气传导环境噪声,提高信号的信噪比;
设一帧的音频信号为x(m),m表示一帧音频信号中的第m个时刻,X(k)表示x(m)的快速傅里叶变换FFT结果,k表示经过快速傅里叶变换后的第k个频率点,经过功率谱减法后的振幅为
Figure FDA0003708603920000011
通过对
Figure FDA0003708603920000012
进行逆快速傅里叶变换,得到降噪后的音频信号
Figure FDA0003708603920000021
5.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法,其特征在于,频率选择时,对每帧音频信号进行滤波,范围为100Hz至2.5kHz。
6.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法,其特征在于,利用基于频域方差方法分割骨传导声音事件,包括以下步骤:
首先,利用频域方差捕捉骨传导声音事件,将声音信号的频谱分成若干个频段,并采用基于频域方差的事件检测方法;
然后,检测每个骨传导声音事件的开始点和结束点;采用双阈值方法,为开始和结束位置分别设置阈值为T1和T2;将每个时刻的频域方差与阈值进行比较,交替搜索骨传导声音事件的开始和结束位置,从而分割出每个骨传导声音事件;
最后,统一事件长度,选择两个开始点中小的一个作为两个事件的新开始点,选择两个结束点中大的一个作为两个事件的新结束点。
7.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法,其特征在于,在去除非咬合事件的干扰时:
对于去除进食干扰,若咬合事件的持续时间大于250毫秒,则确定当前事件为进食,将其去除;
对于去除人体说话干扰,通过计算声音信号中频率在80Hz到300Hz之间的信号功率谱密度以及频率在100Hz和2.5kHz之间的信号功率谱密度,如果以上两个功率谱密度的比值大于设定阈值,则该事件认定被认为是说话;
对于去除步行干扰,去除声音频率在100Hz以下的事件。
8.如权利要求1所述的一种利用耳机内向麦克风的用户身份认证方法,其特征在于,用户注册及登录包括以下步骤:
在用户注册阶段,为提取的三种行为生物特征构造不同的认证模型;
首先,为骨传导音频特征构造认证模型;采用暹罗网络作为用户身份分类模型;
暹罗网络使用1对具有相同结构和参数的子网络来计算2个输入的相似性,每个子网络包括3个卷积层、2个最大池层和1个全连接层;
给定一对骨传导音频特征作为输入,暹罗网络通过2个相同的子网络分别提取用户身份信息,并计算用户身份信息的距离作为输入的相似性;
当一个新用户进行注册时,要完成5次咬合行为,以提取骨传导音频特征;将训练完成的网络模型存储在智能设备中,用于用户登录;对于骨骼频散特征和咬合位置特征,在注册阶段收集新用户的骨骼频散特征并分别计算2个声道过零点序列的平均值;对于咬合位置特征,使用相同的方法计算互相关序列的平均值;
在登录阶段,暹罗网络比较登录用户的骨传导音频特征和设备上每个注册用户的平均骨传导音频特征之间的相似性;如果相似度均小于阈值,则认为当前是一个攻击者,否则登陆者的身份会被分配给具有最高相似度的已注册用户;随后,计算登录者的骨骼频散特征和神经网络分配的已注册用户的骨骼频散特征之间的差异;用同样的方法得到右声道的骨骼频散特征差异;对于咬合位置特征,使用相同的方法计算互相关序列的差异,如果差异小于相应的阈值,则认为该登陆者确实是合法用户。
9.如权利要求8所述的一种利用耳机内向麦克风的用户身份认证方法,其特征在于:
在训练阶段,设子网络的权值为W,则损失函数为
Figure FDA0003708603920000031
Figure FDA0003708603920000032
Figure FDA0003708603920000033
表示第i对输入特征的欧式距离,N表示输入特征的对数;M为边界值,表示距离超出边界值的输入对不会造成损失;
如果输入特征来自同一用户,则Y=1,否则Y=0;对该网络进行训练的目标是使损失函数L(W)最小,即,最小化同一用户的特征之间的距离,最大化不同用户的特征之间的距离;
对于骨骼频散特征和咬合位置特征,在注册阶段收集新用户的骨骼频散特征,并计算2个声道过零点序列的平均值
Figure FDA0003708603920000034
Figure FDA0003708603920000035
对于咬合位置特征使用相同的方法计算互相关序列的平均值
Figure FDA0003708603920000036
在登录阶段,使用训练好的暹罗神经网络比较登录用户的骨传导音频特征和设备上每个注册用户的平均骨传导音频特征之间的相似性;如果相似度均小于阈值,则认为当前是一个攻击者,否则,登陆者的身份会被分配给具有最高相似度的已注册用户;
随后,计算登录者的骨骼频散特征ZSL和神经网络分配的已注册用户的
Figure FDA0003708603920000037
之间的差异
Figure FDA0003708603920000038
然后;用同样的方法得到右声道的DSR;对于咬合位置特征使用相同的方法计算互相关序列的差异DRlr;如果DSL、DSR、DRlr中的任何两个小于相应的阈值,则认为该登陆者确实是合法用户。
10.如权利要求7所述的一种利用耳机内向麦克风的用户身份认证方法,其特征在于,设定阈值为0.7。
CN202210715365.7A 2022-06-22 2022-06-22 一种利用耳机内向麦克风的用户身份认证方法 Pending CN115348049A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210715365.7A CN115348049A (zh) 2022-06-22 2022-06-22 一种利用耳机内向麦克风的用户身份认证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210715365.7A CN115348049A (zh) 2022-06-22 2022-06-22 一种利用耳机内向麦克风的用户身份认证方法

Publications (1)

Publication Number Publication Date
CN115348049A true CN115348049A (zh) 2022-11-15

Family

ID=83947944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210715365.7A Pending CN115348049A (zh) 2022-06-22 2022-06-22 一种利用耳机内向麦克风的用户身份认证方法

Country Status (1)

Country Link
CN (1) CN115348049A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293301A (zh) * 2017-05-27 2017-10-24 深圳大学 基于牙齿咬合声音的识别方法及系统
CN109346075A (zh) * 2018-10-15 2019-02-15 华为技术有限公司 通过人体振动识别用户语音以控制电子设备的方法和系统
CN110087162A (zh) * 2019-05-31 2019-08-02 深圳市荣盛智能装备有限公司 一种骨传导降噪通信方法及通信耳机
CN110603588A (zh) * 2017-02-14 2019-12-20 爱浮诺亚股份有限公司 通信组装中用于用户声音活动检测的方法及其通信组装
CN111261181A (zh) * 2020-01-15 2020-06-09 成都法兰特科技有限公司 语音识别方法、噪声识别方法、声音拾音装置及通话设备
CN112017696A (zh) * 2020-09-10 2020-12-01 歌尔科技有限公司 耳机的语音活动检测方法、耳机及存储介质
WO2022027423A1 (zh) * 2020-08-06 2022-02-10 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110603588A (zh) * 2017-02-14 2019-12-20 爱浮诺亚股份有限公司 通信组装中用于用户声音活动检测的方法及其通信组装
CN107293301A (zh) * 2017-05-27 2017-10-24 深圳大学 基于牙齿咬合声音的识别方法及系统
CN109346075A (zh) * 2018-10-15 2019-02-15 华为技术有限公司 通过人体振动识别用户语音以控制电子设备的方法和系统
CN110087162A (zh) * 2019-05-31 2019-08-02 深圳市荣盛智能装备有限公司 一种骨传导降噪通信方法及通信耳机
CN111261181A (zh) * 2020-01-15 2020-06-09 成都法兰特科技有限公司 语音识别方法、噪声识别方法、声音拾音装置及通话设备
WO2022027423A1 (zh) * 2020-08-06 2022-02-10 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN112017696A (zh) * 2020-09-10 2020-12-01 歌尔科技有限公司 耳机的语音活动检测方法、耳机及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张杰;: "骨传导听说技术在煤矿应急救援的应用", 煤炭科学技术, no. 08, 25 August 2013 (2013-08-25) *

Similar Documents

Publication Publication Date Title
Dong et al. Secure mmWave-radar-based speaker verification for IoT smart home
Chauhan et al. BreathPrint: Breathing acoustics-based user authentication
Nassi et al. Lamphone: Real-time passive sound recovery from light bulb vibrations
JP6855381B2 (ja) 個人認証装置、個人認証方法および個人認証プログラム
Sahidullah et al. Robust voice liveness detection and speaker verification using throat microphones
Xie et al. TeethPass: Dental occlusion-based user authentication via in-ear acoustic sensing
WO2012154798A1 (en) Speaker liveness detection
CN109711350B (zh) 一种基于唇部运动和语音融合的身份认证方法
Arakawa et al. Fast and accurate personal authentication using ear acoustics
Mahto et al. Ear acoustic biometrics using inaudible signals and its application to continuous user authentication
Shang et al. Voice liveness detection for voice assistants using ear canal pressure
CN114762360A (zh) 入耳检测
Chen et al. Chestlive: Fortifying voice-based authentication with chest motion biometric on smart devices
CN111243600A (zh) 一种基于声场和场纹的语音欺骗攻击检测方法
Jiang et al. Securing liveness detection for voice authentication via pop noises
WO2022052965A1 (zh) 语音重放攻击检测方法、装置、介质、设备及程序产品
Huang et al. Pcr-auth: Solving authentication puzzle challenge with encoded palm contact response
Colonna et al. A framework for chainsaw detection using one-class kernel and wireless acoustic sensor networks into the amazon rainforest
CN115348049A (zh) 一种利用耳机内向麦克风的用户身份认证方法
CN113412489A (zh) 生物识别过程、设备和机器可读介质
Delgado et al. Impact of bandwidth and channel variation on presentation attack detection for speaker verification
Shang et al. Voice liveness detection for voice assistants through ear canal pressure monitoring
Derawi et al. Biometric acoustic ear recognition
CN110324742A (zh) 控制方法、耳机及存储介质
Tran et al. Exploiting physical presence sensing to secure voice assistant systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination