CN116628658A - 一种利用智能耳戴设备麦克风的身份认证方法 - Google Patents
一种利用智能耳戴设备麦克风的身份认证方法 Download PDFInfo
- Publication number
- CN116628658A CN116628658A CN202310437974.5A CN202310437974A CN116628658A CN 116628658 A CN116628658 A CN 116628658A CN 202310437974 A CN202310437974 A CN 202310437974A CN 116628658 A CN116628658 A CN 116628658A
- Authority
- CN
- China
- Prior art keywords
- heart sound
- bone conduction
- matrix
- identity authentication
- ear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000005236 sound signal Effects 0.000 claims abstract description 98
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 16
- 239000012634 fragment Substances 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000008859 change Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 68
- 230000000694 effects Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 210000005069 ears Anatomy 0.000 claims description 8
- 210000000613 ear canal Anatomy 0.000 claims description 7
- 230000033001 locomotion Effects 0.000 claims description 7
- 238000005311 autocorrelation function Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000007596 consolidation process Methods 0.000 claims description 4
- 239000006227 byproduct Substances 0.000 claims description 2
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 210000005036 nerve Anatomy 0.000 claims 1
- 230000006399 behavior Effects 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000003205 muscle Anatomy 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000004791 biological behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009530 blood pressure measurement Methods 0.000 description 1
- 230000037182 bone density Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000278 osteoconductive effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3226—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
- H04L9/3231—Biological data, e.g. fingerprint, voice or retina
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Biodiversity & Conservation Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种利用智能耳戴设备麦克风的身份认证方法,属于移动计算应用技术领域。本方法通过耳内麦克风录制佩戴者的骨传导心音信号,分析其中的独特的生物特征,实现用户身份认证。首先检测智能耳戴设备麦克风录制的双耳骨传导心音信号中受到噪音干扰的片段。然后消除心音信号中的噪音干扰,提取双耳骨传导心音信号中的生物特征。最后,训练用户身份认证深度神经网络,持续更新网络参数,克服用户生物特征随时间产生的自然变化,实现精准识别用户身份。本发明仅利用智能耳戴设备的麦克风即可实现可靠的用户身份认证,无需用户执行特殊行为,不依赖扬声器播放声音,不干扰用户。
Description
技术领域
本发明涉及一种用户身份认证方法,具体涉及一种利用智能耳戴设备麦克风的身份认证方法,属于移动计算应用技术领域。
背景技术
随着智能耳戴设备(如智能耳机等)在人们日常生活中的广泛普及,智能耳戴设备中的隐私信息泄露问题引发了广泛关注。攻击者可能窃取用户的智能耳机并窃听隐私谈话,或激活智能设备的语音助手。近年来,智能耳机中普遍配置了多个不同朝向的麦克风。鉴于个人数据的敏感性越来越高,迫切需要针对智能耳戴设备的身份认证来保护这些敏感数据免受侵犯。
传统的认证方法主要包括基于用户知识的方法和基于生物特征的方法。基于用户知识的方法,如密码解锁、滑动手势解锁等,它们容易被窃取,且智能耳机无法捕捉这类输入性的密码和解锁手势。基于生物特征的方法可以分为基于生物行为特征的方法和基于生理信号的方法。目前较为流行的基于生理信号特征的技术是利用指纹识别用户身份。这类方法可以达到较高的识别精度,但其依赖特殊的传感器,无法应用于现有的商用智能耳机。近年来,在智能耳机中嵌入多个不同朝向的麦克风,持续录制用户耳内和周围环境的声音。一些企业利用智能耳机的麦克风录制用户说话声音来实现语音身份认证。然而,由于缺乏活体认证,无法区分播放的语音和用户真实的语音。
目前,利用智能耳戴设备的身份认证领域研究仍处于起步阶段。有研究人员基于人耳耳道轮廓具有差异的特点,利用耳道内的麦克风和扬声器组成主动声呐系统,描绘耳道轮廓识别用户身份。类似地,研究发现,不同用户说话时耳道轮廓的变化也可以唯一标识用户身份。因此,利用耳道内的麦克风和扬声器理论上可以捕捉耳道轮廓变化并区分合法用户与非法用户。然而,这类方法需要用户执行特殊行为(如保持静止或说特定内容),并且持续在耳道内发送音频信号会干扰用户,影响了实际效果和用户体验。
综上所述,现有的方法存在各种不足,亟需新的方法来克服其局限性。
发明内容
本发明的目的是为了克服现有的基于耳戴设备的身份认证方法需要用户执行特殊行为、用户体验性差等技术缺陷,创造性地提出一种利用智能耳戴设备麦克风的身份认证方法。本方法通过耳内麦克风录制佩戴者的骨传导心音信号,分析其中的独特的生物特征,由此实现用户身份认证。
本发明的原理是:心跳运动产生心音,取决于人体心脏的独特几何结构和运动功能。心音以骨骼和肌肉为介质传播,经历复杂的吸收和扩散,最终传播到耳道。传播特性受到骨骼结构、骨密度和骨骼-肌肉比例等因素的影响。此外,由于心脏位于人体胸部偏左位置,不用个体的身体结构具有差异,因此双耳录制的骨传导心音信号也具有独特性。利用智能耳戴设备中普遍嵌入的耳内麦克风可以在双耳同时录制骨传导心音,利用其中独特的心跳活动信息,骨传导信息和人体结构信息可以识别用户身份。
本发明的目的是通过以下技术方案实现的:
一种利用智能耳戴设备麦克风的身份认证方法,包括以下步骤:
步骤1:检测智能耳戴设备麦克风录制的双耳骨传导心音信号中受到噪音干扰的片段。
在智能耳戴设备嵌入的麦克风朝向耳道内,对于耳机播放的音乐以及人体运动时产生的声音敏感,导致所录制的骨传导心音被噪音干扰,影响了身份认证性能。因此,利用心音信号片段具有周期性、被噪音干扰的声音片段周期性被破坏的这一特点,检测耳戴设备麦克风录制的心音信号中受到噪音干扰的片段。
步骤2:消除心音信号中的噪音干扰。
具体地,包括以下步骤:
步骤2.1:将步骤1得到的受到噪音干扰的心音信号片段,利用低通滤波器进行处理,消除与心音信号频率不重叠的高频干扰。
步骤2.2:利用非负矩阵分解,进一步消除噪音,重构纯净的双耳骨传导心音信号。
步骤3:提取双耳骨传导心音信号中的生物特征。
具体地,包括以下步骤:
步骤3.1:分析双耳骨传导信号中包含的生物特征信息,设计心跳活动特征、骨传导特征和人体结构特征。
步骤3.2:将步骤3.1得到的生物特征信息结合重组,得到用于后续处理的特征图像。
步骤4:识别用户身份。
具体地,包括以下步骤:
步骤4.1:开发用户身份认证深度神经网络。
利用卷积神经网络(Convolutional Neural Networks,CNN)处理步骤3.2得到的特征图像,建立准确的用户身份认证模型。
步骤4.2:利用持续学习技术,训练步骤4.1所建立的用户身份认证模型,持续更新网络参数。由此克服用户生物特征随时间产生的自然变化,精准识别用户身份。
至此,从步骤1到步骤4,实现了本发明的目的,即:基于利用智能耳戴设备麦克风的身份认证。
有益效果
本发明方法,与现有认证技术相比,具有以下优点:
1.本发明仅利用智能耳戴设备的麦克风就可以实现可靠的用户身份认证。无需用户执行特殊行为,不依赖扬声器播放声音,不干扰用户。
2.本发明通过使用改进的非负矩阵分解方法,可以有效地消除骨传导心音信号中的多种噪音干扰,有效提升信号质量。
3.本发明设计了一种新的生物特征,结合心跳活动特征、骨传导特征和人体结构特征。所提出的特征无法从外部窃取,无法人为生成,具有防泄密、抗攻击的优点。
4.本发明提出了一种用户身份认证深度学习模型,通过使用CNN和连续学习技术,该方法仅利用有限的注册数据就可以实现可靠的身份认证,并且可以克服用户生物特征随时间产生的自然变化。
附图说明
图1为本发明利用智能耳戴设备麦克风的身份认证方法原理图;
图2为本发明所设计的特征组合成的三个矩阵;
图3为本发明所开发的用户无关血压测量混合神经网络结构图;
图4为本发明实施例在静态场景中每个参与者的FAR结果;
图5为本发明实施例在静态场景中每个参与者的FRR结果;
图6为本发明实施例在连续24小时内的平均FAR和FRR结果;
图7为本发明实施例在12个星期的长期实验中的平均FAR和FRR结果。
具体实施方式
下面结合附图和实施例对本发明方法做详细说明。
如图1所示,一种利用智能耳戴设备麦克风的身份认证方法,包括以下步骤:
步骤1:检测智能耳戴设备麦克风录制的双耳骨传导心音信号中受到噪音干扰的片段。
智能耳戴设备中所嵌入的麦克风朝向耳道内,对于耳机播放的音乐以及人体运动时产生的声音敏感,导致所录制的骨传导心音被噪音干扰,影响身份认证性能。利用心音信号片段具有周期性、被噪音干扰的声音片段周期性被破坏的这一特性,检测耳戴设备麦克风录制的心音信号中受到噪音干扰的片段。
具体地,可以利用大小为60s、步长为30s的滑动窗口处理所采集的信号。分别计算滑动窗口内信号片段的自相关函数(即:信号自身与其在不同滞后步长下的互相关函数),若滑动窗口内信号片段存在周期性时,则自相关函数局部最大值对应的时间滞后即为信号的周期。由于心音信号具有与心跳相同的周期,约为0.5s至1s。根据这一特性,计算所获得的自相关函数在滞后时间步为0.5-1s之间是否出现了最大值,若出现最大值,则认为该片段未受到噪音干扰;若未出现最大值,则认为该片段受到噪音干扰。
步骤2:消除心音信号中的噪音干扰。
步骤2.1:将步骤1得到的受到噪音干扰的心音信号片段,利用低通滤波器进行处理,消除与心音信号频率不重叠的高频干扰。
具体地,由于骨传导心音信号的频率主要在160Hz以下,因此,可以采用截止频率为160Hz的4阶Butterworth低通滤波器来消除所采集的耳道内声音信号中与心音信号频率不重叠的高频干扰。
步骤2.2:利用非负矩阵分解技术进一步消除噪音,重构纯净的双耳骨传导心音信号。
具体地,将智能耳戴设备的耳内麦克风采集到的耳道内声音记作x(n),其中混叠了多个不同声音来源,包括骨传导心音信号s(n)、耳机音频输入a(n)和其他身体声音b(n),表示为x(n)=s(n)+a(n)+b(n),n标记了信号序列。
进一步地,本方法提出一种基于非负矩阵分解的噪音消除方法,将x(n)作为输入,目的是提取s(n)。具体如下:
首先,将输入的音频信号进行短时傅里叶变换,得到时频谱x(f,t)=s(f,t)+a(f,t)+b(f,t),频率f∈[1,F],时间t∈[1,T],F和T为常数,分别表示频率和时间的最大值;将时频谱x(f,t)表示为时频谱矩阵 x=[|x(1,t)|,…,|x(F,t)|]T,T表示矩阵转置运算符。将时频谱s(f,t)、a(f,t)和b(f,t)分别表示为 和 表示实数集合。
非负矩阵分解技术,是通过将时频谱矩阵分解为一个非负的基矩阵 和一个非负系数矩阵/>的乘积分离具有不同局部特征的多个声音源:
其中,是估计矩阵,/>K为小于T和F的正整数,表示矩阵W的列数,同时表示矩阵H的行数。
理想情况下,通过估计和聚类其中具有不同局部特征的子成分,能够得到干净的骨传导心音信号/>耳机音频输入/>和身体声音/> 其中H=[HS,HA,HB]T,W=[WS,WA,WB],T表示矩阵转置运算符;WS表示骨传导心音信号分解得到的非负基矩阵,WA表示耳机音频输入信号分解得到的非负基矩阵,WB表示身体声音信号分解得到的非负基矩阵,HS表示骨传导心音信号分解得到的非负系数矩阵,HA表示耳机音频输入信号分解得到的非负系数矩阵,HB表示身体声音信号分解得到的非负系数矩阵。
但是,实际上除了骨传导心音信号、耳机音频输入和身体声音外,耳内麦克风录制的耳道内声音中还包含少量多样且难以预测的噪音干扰,因此,本方法进一步通过增加无监督成分Wun表示无监督成分分解得到的非负基矩阵,Hun表示无监督成分分解得到的非负系数矩阵,用来处理训练阶段未涉及的各种干扰,保证经过噪音消除后的骨传导心音信号能够具有高质量。
为解算式1估计W和H,定义训练过程的损失函数如下:
其中,ηS、ηA和ηB为非负矩阵分解过程中骨传导心音信号、耳机音频输入和身体声音身体振动和运动噪音各个部分的权重;D为真实信号与估计的信号间的差异,定义为Kullback-Leibler散度和H的第一范式之和:
其中,μ为H的第一范式的权重。
通过最小化损失函数,即最小化式2,从采集的耳道内声音信号中提取出纯净的骨传导心音信号。具体地,使用梯度下降方法交替迭代更新W和H,更新规则如式4:
其中,W和H被初始化为随机非负矩阵;X表示时频谱矩阵;T表示矩阵转置;和除法分别表示矩阵元素相乘和相除;/>O是一个由F行和T列组成的元素全为1的矩阵。
当获得W和H后,通过比较子成分与注册时保存的纯净骨传导心音信号间的频谱相似度来分离中的骨传导心音信号、耳机音频输入和身体声音。
具体地,分别计算中全部时间内不同频率下子成分与用户注册时保存的纯净骨传导心音信号间的余弦距离,若余弦距离超过阈值γ,则认为该子成分来源于骨传导心音信号。将全部余弦距离超过阈值γ的子成分聚类,得到骨传导心音信号的时频谱矩阵/>最后,利用逆短时傅里叶变换,恢复纯净的骨传导心音信号s(n)。
步骤3:提取双耳骨传导心音信号中的生物特征。
步骤3.1:分析双耳骨传导信号中包含的生物特征信息,设计心跳活动特征,骨传导特征和人体结构特征。
由于常用的统计特征无法捕捉骨传导心音信号中复杂的生物特征,本方法设计了一种新颖的生物特征表示方法,从用户心跳活动特征、骨传导特征和人体结构特征三个方面描述骨传导心音信号中生物特征信息:
心跳活动特征:梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)描述了声音信号不同频率范围内线性和非线性特征,可以捕捉不同用户心脏运动产生的心音中独特的生物信息。
具体地,本方法分别从左耳采集的骨传导心音信号和右耳采集的骨传导心音信号中提取16阶梅尔频率倒谱系数特征(总共16×2个特征)。
骨传导特征:线性预测系数(Linear Prediction Coefficients,LPCs)可以提取声音传播在某一通道传播过程中的传播特性。本方法将人体的骨骼和肌肉看作特殊的传播通道,利用线性预测提取不同用户的骨传导心音信号中骨骼和肌肉差异导致的传播差异。
具体地,本方法分别从左耳采集的骨传导心音信号和右耳采集的骨传导心音信号中提取16阶线性预测系数特征(总共16×2个特征)。
人体结构特征:由于心脏位于人体胸腔中间偏左的位置,心音通过不同的路径传播达到左耳和右耳,导致左耳和右耳采集的骨传导心音信号表现出差异,且这种差异取决于不同用户的人体结构。基于左耳和右耳收集的骨传导心音信号在不同的频率范围内表现出不同程度的增强或衰减这一发现,分别量化不同频率内的左右耳信号差异。
首先,将左耳和右耳采集的骨传导心音信号按照0Hz到160Hz的频率范围平均分成32个相等的子频带(每个频带带宽为5Hz)。
然后,分别计算每个频带内的左耳和右耳采集的骨传导心音信号声音之间的欧氏距离。32个频带的欧氏距离按照频率从低到高记录为一个32维的特征向量。
步骤3.2:将步骤3.1得到的生物特征信息结合重组,得到用于后续处理的特征图像。
为了避免为三种异构的特征建立多个用户身份认证分类器,本方法将心跳活动特征、骨传导特征和人体结构特征合并为一个用于后续处理的特征图像。
具体地,首先将左耳和右耳采集的骨传导心音信号分割成不小于120ms的不重叠的窗口。优选130ms的窗口大小,这是因为人类的心音信号周期通常不超过130ms,其他属于[120ms,∞)设定也在本发明的范围内。
然后,应用汉明窗,将窗口内数据分割成32个8ms的重叠帧,并从每一帧中分别提取心跳活动特征、骨传导特征和人体结构特征。
最后,将这些特征组合为三个矩阵(如图2所示):第一个矩阵由窗口内左耳骨传导心音信号的心跳活动特征(16*32)和骨传导特征(16*32)组成,大小为32*32;第二个矩阵由窗口内右耳骨传导心音信号的心跳活动特征(16*32)和骨传导特征(16*32)组成,大小为32*32;第三个矩阵由窗口内人体结构特征构成,大小为32*32。将三个矩阵的元素值利用最大值-最小值归一化映射为0至255之间的整数。映射规则如式5所示:
其中,和qi,j分别表示更新后和原始的矩阵第i行j列的元素,/>和/>分别表示矩阵第j列中元素的最小值和最大值。三个矩阵经过映射后组合成RGB图像作为最终的特征图像,三个矩阵分别对应红色、绿色和蓝色通道。
步骤4:识别用户身份。
步骤4.1:开发用户身份认证深度神经网络。利用卷积神经网络(CNN)处理步骤3.2得到的特征图像,建立准确的用户身份认证模型。
基于CNN开发深度神经网络模型,网络结构如图3所示。由三个连续的卷积块,一个flatten层,一个全连接层和一个输出层组成。其中,卷积块从输入的特征图像中自从提取隐藏的用户身份信息。每个卷积块包括一个使用ReLu函数的二维卷积层和一个池化层。三个卷积层分别使用32、64和64个内核,内核大小为3×3。flatten层将提取的多维表示变成一维向量。全连接层设置为64个神经单元,用于将提取出的特征映射为实数。输出层选择softmax函数估计当前用户是某一特定用户的概率,并输出身份认证结果。
步骤4.2:利用持续学习来训练步骤4.1所建立的用户身份认证模型,持续更新网络参数,克服用户生物特征随时间产生的自然变化,精准识别用户身份。
进一步地,本方法设计了一种基于可塑权重巩固(Elastic WeightConsolidation,EWC)的方法,不断校准所开发的用户身份认证深度神经网络,使其仅用少量训练数据也能实现可靠身份认证,且能够适应用户生物特征随时间产生的自然变化。EWC通过约束现有用户身份认证模型的参数的变化范围保护身份认证性能,并通过不断更新用户身份认证模型中的参数使之适应生物特征的变化。
基于可塑权重巩固的方法如下:
首先,设定阈值τ作为识别合法用户的最小概率。
当一个新的信号片段被送入用户身份认证模型中,计算该用户是合法用户的概率p,并将其与τ进行比较,如果p大于τ,则将样本伪标记为正值(合法用户),否则将样本伪标记为负值(攻击者)。
根据样本被归类为合法用户的概率对其进行排序。将被归类为合法用户概率最高的K个心音片段构建为一个正类数据集,认为其中数据均来自于某一个合法用户,将被归类为合法用户概率最低的K个心音片段构建为一个负类数据集,并认为其中数据均来自于攻击者。K值优选设定为70%,其他属于50%至100%的设定值,也在本发明范围之内。
然后,使用新建立的正类数据集和负类数据集更新用户身份认证模型。若将更新前的用户身份认证模型记为M,更新后的用户身份认证模型记作N,M和N两个模型通过最小化残差(即真实值与估计值之间的差)达到模型参数的最优解。模型N的损失函数L定义为:
其中,θMN是在模型M的参数基础上更新后的模型N的每个参数;模型LN(θMN)是用户身份认证模型N达到最优解时的残差,λ调整了M与N相比的权重;,Γ是费歇耳信息矩阵(Fisher information matrix)的对角线元素,在持续学习过程中,每次都建立新的正类和负类数据集用于更新模型。若将全部历史数据都用于训练用户身份认证模型并达到最优解,将获得一个全局模型M*,表示其中的每个参数,i标记参数序列。
考虑到身份认证模型建立初期训练数据较少,模型中的参数往往不够准确,影响后续的持续学习。为此,定义身份认证模型的全局损失函数L*如下:
L*=L+c∑kΨk(θk-1-θk)2 (7)
其中,k表示模型更新训练的次数,θk为第k次更新身份认证模型后的每个参数;c是一个常数,调整每次更新参数时的权重,可以设定为0.6,但其他属于(0,1)的设定也在本发明的范围内。正则化强度Ψk=∑ωk/(Δk)2,Ψk受到参数θk在第k次和第k-1次更新时损失函数(即式6)的变化和参数θk本身变化Δk的共同影响。
实施例
为了验证本方法的性能,本方法构建了一个带有耳内麦克风的耳机原型采集骨传导心音数据。共招募45名参与者(26名男性和19名女性,年龄在20到50岁之间)参与实验。实验过程中参与者分别以自然习惯佩戴耳机原型,记录约130至200分钟的双耳骨传导心音数据。
错误接受率(False Accepted Rate,FAR)和错误拒绝率(False Reject Rate,FRR)被用来进行系统性能评价。其中,错误接受率是系统接受的未授权用户的百分比;错误拒绝率是系统错误拒绝的合法用户的百分比;这些指标越小,性能越好。
首先,测试本方法的总体性能。通过检查静态场景中的FAR和FRR来评估本方法的整体性能,图4和图5显示了每个参与者的详细FAR和FRR结果。实验使用五折交叉验证,即数据被随机洗牌,测试时使用20%的数据,训练时使用其余80%的数据。在实验过程中,将每个参与者分别视为合法用户,将剩余参与者视为攻击者。45名参与者的平均FAR和FRR分别为1.6%和1.8%。结果表明,本方法实现了良好的性能,可以从骨传导心音数据中提取独特的生物特征并准确的识别用户身份。
其次,测试本方法在有噪音情况下的可靠性。实验要求5名参与者在24小时内连续记录双耳骨传导心音数据(包含大量的日常活动),图6显示了所有五名参与者不用时间段内的平均FAR和FRR。由于人类心跳天然具有变异性,导致耳内麦克风采集的骨传导心音信号在一天中呈现差异,因此FAR和FRR在一天中略有波动。总体而言,全部用户各个时间段内的FAR结果都低于3.2%,平均值为2.0%。全部用户各个时间段内的FRR结果都低于5.0%,平均值为3.8%。结果表明,本方法可以克服噪音实现可靠的身份认证,在连续认证方面具有较好的表现。
最后,测试本方法的长期表现。因为用户生物特征随着时间总是发生变化,使得身份认证在数周后准确率下降。验证长期表现的稳定是身份认证的一个重要方面。开发用户身份认证深度神经网络后,分别在1、2、4、8和12星期后测试了每个参与者的数据。每次利用所采集的数据更新用户身份认证模型。图7显示了全部45名参与者在注册不同时间后的平均FAR和FFR。可以观察到,本方法在注册后的12星期内可保持FAR和FRR均低于2.5%。实验结果表明本方法具有长期稳定性。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种利用智能耳戴设备麦克风的身份认证方法,其特征在于,包括以下步骤:
步骤1:检测智能耳戴设备麦克风录制的双耳骨传导心音信号中受到噪音干扰的片段;
步骤2:消除心音信号中的噪音干扰;
步骤2.1:将步骤1得到的受到噪音干扰的心音信号片段,利用低通滤波器进行处理,消除与心音信号频率不重叠的高频干扰;
步骤2.2:利用非负矩阵分解进一步消除噪音,重构纯净的双耳骨传导心音信号;
将智能耳戴设备的耳内麦克风采集到的耳道内声音记作x(n),其中混叠了包括骨传导心音信号s(n)、耳机音频输入a(n)和其他身体声音b(n),表示为x(n)=s(n)+a(n)+b(n),n标记了信号序列;采用基于非负矩阵分解的噪音消除方法,将x(n)作为输入,用于提取s(n);
首先,将输入的音频信号进行短时傅里叶变换,得到时频谱x(f,t)=s(f,t)+a(f,t)+b(f,t),频率f∈[1,F],时间t∈[1,T],F和T为常数,分别表示频率和时间的最大值;将时频谱x(f,t)表示为时频谱矩阵 表示矩阵转置运算符;
将时频谱s(f,t)、a(f,t)和b(f,t)分别表示为 和/> 表示实数集合;
非负矩阵分解,是通过将时频谱矩阵分解为一个非负的基矩阵和一个非负系数矩阵/>的乘积分离具有不同局部特征的多个声音源:
其中,是估计矩阵,/>K为小于T和F的正整数,表示矩阵W的列数,同时表示矩阵H的行数;
通过估计和聚类其中具有不同局部特征的子成分,得到干净的骨传导心音信号耳机音频输入/>和身体声音/>其中/> W=[WS,WA,WB],/>表示矩阵转置运算符;WS表示骨传导心音信号分解得到的非负基矩阵,WA表示耳机音频输入信号分解得到的非负基矩阵,WB表示身体声音信号分解得到的非负基矩阵,HS表示骨传导心音信号分解得到的非负系数矩阵,HA表示耳机音频输入信号分解得到的非负系数矩阵,HB表示身体声音信号分解得到的非负系数矩阵;
通过增加无监督成分Wun表示无监督成分分解得到的非负基矩阵,Hun表示无监督成分分解得到的非负系数矩阵,用来处理训练阶段未涉及的各种干扰
定义训练过程的损失函数如下:
其中,ηS、ηA和ηB为非负矩阵分解过程中骨传导心音信号、耳机音频输入和身体声音身体振动和运动噪音各个部分的权重;D为真实信号与估计的信号间的差异,定义为Kullback-Leibler散度和H的第一范式之和:
其中,μ为H的第一范式的权重;
通过最小化损失函数,即最小化式2,从采集的耳道内声音信号中提取出纯净的骨传导心音信号,使用梯度下降方法交替迭代更新W和H,更新规则如式4:
其中,W和H被初始化为随机非负矩阵;X表示时频谱矩阵;表示矩阵转置;/>和除法分别表示矩阵元素相乘和相除;/>O是一个由F行和T列组成的元素全为1的矩阵;
当获得W和H后,通过比较子成分与注册时保存的纯净骨传导心音信号间的频谱相似度来分离中的骨传导心音信号、耳机音频输入和身体声音;
步骤3:提取双耳骨传导心音信号中的生物特征;
步骤3.1:分析双耳骨传导信号中包含的生物特征信息,设计心跳活动特征、骨传导特征和人体结构特征;
步骤3.2:将步骤3.1得到的生物特征信息结合重组,得到用于后续处理的特征图像;
步骤4:识别用户身份;
步骤4.1:开发用户身份认证深度神经网络;
利用卷积神经网络处理步骤3.2得到的特征图像,建立准确的用户身份认证模型;
步骤4.2:利用持续学习技术,训练步骤4.1所建立的用户身份认证模型,持续更新网络参数;由此克服用户生物特征随时间产生的自然变化,精准识别用户身份。
2.如权利要求1所述的一种利用智能耳戴设备麦克风的身份认证方法,其特征在于,步骤1中,利用大小为60s、步长为30s的滑动窗口处理所采集的信号;分别计算滑动窗口内信号片段的自相关函数,若滑动窗口内信号片段存在周期性时,则自相关函数局部最大值对应的时间滞后即为信号的周期;
计算所获得的自相关函数在滞后时间步为0.5-1s之间是否出现了最大值,若出现最大值,则认为该片段未受到噪音干扰;若未出现最大值,则认为该片段受到噪音干扰。
3.如权利要求1所述的一种利用智能耳戴设备麦克风的身份认证方法,其特征在于,步骤2.1中,采用截止频率为160Hz的4阶Butterworth低通滤波器来消除所采集的耳道内声音信号中与心音信号频率不重叠的高频干扰。
4.如权利要求1所述的一种利用智能耳戴设备麦克风的身份认证方法,其特征在于,步骤2.2中,分别计算中全部时间内不同频率下子成分与用户注册时保存的纯净骨传导心音信号间的余弦距离,若余弦距离超过阈值γ,则认为该子成分来源于骨传导心音信号;将全部余弦距离超过阈值γ的子成分聚类,得到骨传导心音信号的时频谱矩阵/>最后,利用逆短时傅里叶变换,恢复纯净的骨传导心音信号s(n)。
5.如权利要求1所述的一种利用智能耳戴设备麦克风的身份认证方法,其特征在于,步骤3.1中,用户心跳活动特征:分别从左耳采集的骨传导心音信号和右耳采集的骨传导心音信号中提取16阶梅尔频率倒谱系数特征;
骨传导特征:分别从左耳采集的骨传导心音信号和右耳采集的骨传导心音信号中提取16阶线性预测系数特征;
人体结构特征:首先,将左耳和右耳采集的骨传导心音信号按照0Hz到160Hz的频率范围平均分成32个相等的子频带,每个频带带宽为5Hz;然后,分别计算每个频带内的左耳和右耳采集的骨传导心音信号声音之间的欧氏距离,32个频带的欧氏距离按照频率从低到高记录为一个32维的特征向量。
6.如权利要求1所述的一种利用智能耳戴设备麦克风的身份认证方法,其特征在于,步骤3.2中,首先将左耳和右耳采集的骨传导心音信号分割成不小于120ms的不重叠的窗口;
然后,应用汉明窗,将窗口内数据分割成32个8ms的重叠帧,并从每一帧中分别提取心跳活动特征、骨传导特征和人体结构特征;
最后,将这些特征组合为三个矩阵:第一个矩阵由窗口内左耳骨传导心音信号的心跳活动特征16*32和骨传导特征16*32组成,大小为32*32;第二个矩阵由窗口内右耳骨传导心音信号的心跳活动特征16*32和骨传导特征16*32组成,大小为32*32;第三个矩阵由窗口内人体结构特征构成,大小为32*32;
将三个矩阵的元素值利用最大值-最小值归一化映射为0至255之间的整数;映射规则如式5所示:
其中,和qi,j分别表示更新后和原始的矩阵第i行j列的元素,/>和/>分别表示矩阵第j列中元素的最小值和最大值;三个矩阵经过映射后组合成RGB图像作为最终的特征图像,三个矩阵分别对应红色、绿色和蓝色通道。
7.如权利要求6所述的一种利用智能耳戴设备麦克风的身份认证方法,其特征在于,将左耳和右耳采集的骨传导心音信号分割成130ms的窗口大小。
8.如权利要求1所述的一种利用智能耳戴设备麦克风的身份认证方法,其特征在于,步骤4.1中,基于CNN开发深度神经网络模型,由三个连续的卷积块,一个flatten层,一个全连接层和一个输出层组成;其中,卷积块从输入的特征图像中自从提取隐藏的用户身份信息;每个卷积块包括一个使用ReLu函数的二维卷积层和一个池化层;三个卷积层分别使用32、64和64个内核,内核大小为3×3;flatten层将提取的多维表示变成一维向量;全连接层设置为64个神经单元,用于将提取出的特征映射为实数;输出层选择softmax函数估计当前用户是某一特定用户的概率,并输出身份认证结果。
9.如权利要求1所述的一种利用智能耳戴设备麦克风的身份认证方法,其特征在于,步骤4.2中,采用基于可塑权重巩固的方法,不断校准所开发的用户身份认证深度神经网络,使其仅用少量训练数据也能实现可靠身份认证,且能够适应用户生物特征随时间产生的自然变化,通过约束现有用户身份认证模型的参数的变化范围保护身份认证性能,并通过不断更新用户身份认证模型中的参数使之适应生物特征的变化;
首先,设定阈值τ作为识别合法用户的最小概率;
当一个新的信号片段被送入用户身份认证模型中,计算该用户是合法用户的概率p,并将其与τ进行比较,如果p大于τ,则将样本伪标记为正值,即合法用户,否则将样本伪标记为负值,即攻击者;
根据样本被归类为合法用户的概率对其进行排序;将被归类为合法用户概率最高的K个心音片段构建为一个正类数据集,认为其中数据均来自于某一个合法用户,将被归类为合法用户概率最低的K个心音片段构建为一个负类数据集,并认为其中数据均来自于攻击者;K的选取范围为50%至100%;
然后,使用新建立的正类数据集和负类数据集更新用户身份认证模型;若将更新前的用户身份认证模型记为M,更新后的用户身份认证模型记作N,M和N两个模型通过最小化残差达到模型参数的最优解;模型N的损失函数L定义为:
其中,θMN是在模型M的参数基础上更新后的模型N的每个参数;模型LN(θMN)是用户身份认证模型N达到最优解时的残差,λ调整了M与N相比的权重;,Γ是费歇耳信息矩阵的对角线元素,在持续学习过程中,每次都建立新的正类和负类数据集用于更新模型;若将全部历史数据都用于训练用户身份认证模型并达到最优解,将获得一个全局模型M*,表示其中的每个参数,i标记参数序列;
定义身份认证模型的全局损失函数L*如下:
L*=L+c∑kΨk(θk-1-θk)2 (7)
其中,k表示模型更新训练的次数,θk为第k次更新身份认证模型后的每个参数;c是一个常数,调整每次更新参数时的权重,其设定范围为(0,1);正则化强度Ψk=∑ωk/(Δk)2,Ψk受到参数θk在第k次和第k-1次更新时损失函数的变化和参数θk本身变化Δk的共同影响。
10.如权利要求9所述的一种利用智能耳戴设备麦克风的身份认证方法,其特征在于,K为70%,c为0.6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310437974.5A CN116628658A (zh) | 2023-04-23 | 2023-04-23 | 一种利用智能耳戴设备麦克风的身份认证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310437974.5A CN116628658A (zh) | 2023-04-23 | 2023-04-23 | 一种利用智能耳戴设备麦克风的身份认证方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116628658A true CN116628658A (zh) | 2023-08-22 |
Family
ID=87635536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310437974.5A Pending CN116628658A (zh) | 2023-04-23 | 2023-04-23 | 一种利用智能耳戴设备麦克风的身份认证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628658A (zh) |
-
2023
- 2023-04-23 CN CN202310437974.5A patent/CN116628658A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ali et al. | Edge-centric multimodal authentication system using encrypted biometric templates | |
Wang | Time-frequency masking for speech separation and its potential for hearing aid design | |
Zhao et al. | Robust speaker identification in noisy and reverberant conditions | |
Sahidullah et al. | Robust voice liveness detection and speaker verification using throat microphones | |
Alghifari et al. | Speech emotion recognition using deep feedforward neural network | |
WO2013149123A1 (en) | Monaural speech filter | |
Mahto et al. | Ear acoustic biometrics using inaudible signals and its application to continuous user authentication | |
Xie et al. | TeethPass: Dental occlusion-based user authentication via in-ear acoustic sensing | |
JP2024038369A (ja) | 深層フィルタを決定するための方法および装置 | |
Shang et al. | Voice liveness detection for voice assistants using ear canal pressure | |
Xia et al. | Pams: Improving privacy in audio-based mobile systems | |
CN112863517B (zh) | 基于感知谱收敛率的语音识别方法 | |
CN107093430A (zh) | 一种基于小波包变换的声纹特征提取算法 | |
Zaman et al. | Classification of Harmful Noise Signals for Hearing Aid Applications using Spectrogram Images and Convolutional Neural Networks | |
Sailor et al. | Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection. | |
CN116628658A (zh) | 一种利用智能耳戴设备麦克风的身份认证方法 | |
Kothapally et al. | Speech Detection and Enhancement Using Single Microphone for Distant Speech Applications in Reverberant Environments. | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
O’Reilly et al. | Effective and inconspicuous over-the-air adversarial examples with adaptive filtering | |
Jahanirad et al. | Blind source computer device identification from recorded VoIP calls for forensic investigation | |
Shi et al. | Anti-replay: A fast and lightweight voice replay attack detection system | |
CN112235679A (zh) | 适用于耳机的信号均衡方法、处理器及耳机 | |
Brenes-Jiménez et al. | Evaluation of denoising algorithms for footsteps sound classification in noisy environments | |
CN114003885B (zh) | 一种智能语音认证方法、系统及可存储介质 | |
CN111508503B (zh) | 一种识别同一说话人的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |