CN113643707A - 一种身份验证方法、装置和电子设备 - Google Patents
一种身份验证方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113643707A CN113643707A CN202010328026.4A CN202010328026A CN113643707A CN 113643707 A CN113643707 A CN 113643707A CN 202010328026 A CN202010328026 A CN 202010328026A CN 113643707 A CN113643707 A CN 113643707A
- Authority
- CN
- China
- Prior art keywords
- user
- feature
- voiceprint
- external auditory
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012795 verification Methods 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims abstract description 95
- 210000000613 ear canal Anatomy 0.000 claims abstract description 141
- 230000000977 initiatory effect Effects 0.000 claims abstract description 7
- 210000000988 bone and bone Anatomy 0.000 claims description 45
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 22
- 238000003860 storage Methods 0.000 claims description 15
- 238000012546 transfer Methods 0.000 claims description 9
- 230000011514 reflex Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 abstract description 5
- 230000009467 reduction Effects 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 29
- 238000010586 diagram Methods 0.000 description 26
- 230000004927 fusion Effects 0.000 description 22
- 238000000605 extraction Methods 0.000 description 21
- 238000012512 characterization method Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 5
- 210000003454 tympanic membrane Anatomy 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本申请实施例提供一种身份验证方法、装置和电子设备。身份验证方法包括:采集待验证用户的声纹特征以及外耳道声反射特征,所述待验证用户为发起针对第一用户的身份验证的用户;调用第一用户的音频验证信息,其中,所述第一用户的音频验证信息为根据所述第一用户的声纹特征以及外耳道声反射特征所注册的音频验证信息;根据所述待验证用户的声纹特征、外耳道声反射特征以及所述第一用户的音频验证信息验证所述待验证用户是否为所述第一用户。根据本申请实施例的方法,可以消除基于仅声纹特征进行身份验证时噪声与混响场景下声纹识别性能下降对身份验证准确率的负面影响,在保持基于语音交互的身份验证的便捷性的前提下提高身份验证的准确率。
Description
技术领域
本申请涉及智能终端技术领域,特别涉及一种身份验证方法、装置和电子设备。
背景技术
在身份验证技术领域,常见的身份验证方案是将文本密码作为验证信息,在进行身份验证的过程中通过文本输入界面获取用户输入的文本密码来进行身份验证。
由于文本密码存在密码易泄露以及密码易遗忘的问题,因此,在很多身份验证应用场景中,采用用户的生物特征作为验证信息,基于生物特征识别实现身份验证,从而提高身份验证的安全性并提高身份验证应用的用户体验。例如,基于人脸识别、指纹识别、虹膜识别、声纹识别进行身份验证。
在众多不同的生物特征识别方案中,由于语音交互是一种无接触无指向性的交互方式,并且,语音采集的硬件需求很低,因此,相较于其他生物特征识别方案,声纹识别方案的具有更好的便利性并且更容易实现。
然而,相较于人脸识别、指纹识别等生物特征识别,声纹识别的准确率相对较低。并且,由于声纹由语音中提取,因此声纹识别对语音采集过程中的噪声和混响的干扰都比较敏感,这进一步降低了实际应用时声纹识别的准确率。因此,在现有技术中,基于声纹识别的身份验证方案的验证准确率远远低于其他身份验证方案,在基于声纹识别的身份验证应用场景中,合法用户往往需要多次进行语音验证输入操作才能被提取到可以通过验证的声纹,用户体验被大大降低。
发明内容
针对现有技术中基于声纹识别的身份验证方案的验证准确率偏低的问题,本申请提供了一种身份验证方法、装置和电子设备,以及,一种计算机可读存储介质。
本申请实施例采用下述技术方案:
第一方面,本申请一实施例提供一种身份验证方法,包括:
采集待验证用户的声纹特征,所述待验证用户为发起针对第一用户的身份验证的用户;
采集所述待验证用户的外耳道声反射特征;
调用第一用户的音频验证信息,其中,所述第一用户的音频验证信息为根据所述第一用户的声纹特征以及外耳道声反射特征所注册的音频验证信息;
根据所述待验证用户的声纹特征、外耳道声反射特征以及所述第一用户的音频验证信息验证所述待验证用户是否为所述第一用户。
在上述第一方面的一种可行的实现方式中,所述第一用户的音频验证信息包括所述第一用户的声纹特征、外耳道声反射特征以及匹配结果验证标准;
所述根据所述待验证用户的声纹特征、外耳道声反射特征以及所述第一用户的音频验证信息验证所述待验证用户是否为所述第一用户,包括:
将所述待验证用户的声纹特征与所述第一用户的声纹特征做匹配以生成第一匹配结果,将所述待验证用户的外耳道声反射特征与所述第一用户的外耳道声反射特征做匹配以生成第二匹配结果,融合所述第一匹配结果以及所述第二匹配结果以生成待验证匹配结果,基于所述匹配结果验证标准判断所述待验证匹配结果是否满足验证标准。
在上述第一方面的一种可行的实现方式中,所述第一用户的音频验证信息包括所述第一用户的音频特征以及音频特征匹配判定标准,所述第一用户的音频特征由所述第一用户的声纹特征以及外耳道声反射特征融合生成;
所述根据所述待验证用户的声纹特征、外耳道声反射特征以及所述第一用户的音频验证信息验证所述待验证用户是否为所述第一用户,包括:
融合所述待验证用户的声纹特征以及外耳道声反射特征以生成所述待验证用户的音频特征,基于所述音频特征匹配判定标准判断所述待验证用户的音频特征与所述第一用户的音频特征是否匹配。
在上述第一方面的一种可行的实现方式中,针对不同的用户,所述音频特征间的相似度低于所述声纹特征间的相似度,以及,所述音频特征间的相似度低于所述外耳道声反射特征间的相似度。
在上述第一方面的一种可行的实现方式中,所述音频特征由所述声纹特征以及所述外耳道声反射特征融合生成,其中,融合所述声纹特征以及所述外耳道声反射特征的过程包括:
对所述声纹特征以及所述外耳道声反射特征进行特征拼接,获取特征样本集合;
基于线性判别式分析算法,在第一维度投影所述特征样本集合,获取第一维度投影结果,其中,针对不同的用户,所述第一维度投影结果间的相似度低于其他维度的投影结果间的相似度;
将所述第一维度投影结果作为所述音频特征。
在上述第一方面的一种可行的实现方式中,所述声纹特征包括空气传导声纹特征和/或骨传导声纹特征。
在上述第一方面的一种可行的实现方式中,采集所述待验证用户的外耳道声反射特征,包括:
播放入射声到所述待验证用户的外耳道;
拾取所述入射声经由所述待验证用户的外耳道反射而生成的反射声,生成反射声数字信号;
将所述反射声数字信号转换为所述外耳道声反射特征。
在上述第一方面的一种可行的实现方式中,所述将所述反射声数字信号转换为所述外耳道声反射特征,包括:
提取所述反射声数字信号的外耳道反射声幅值谱作为所述外耳道声反射特征;
或者,
计算外耳道的声反射传递函数,以所述声反射传递函数作为所述外耳道声反射特征。
在上述第一方面的一种可行的实现方式中,所述入射声为单频信号,所述拾取所述入射声经由所述待验证用户的外耳道反射而生成的反射声,其中,通过扫描所述入射声对应的频率范围拾取所述反射声。
第二方面,本申请一实施例提供一种音频验证信息的注册方法,包括:
采集第一用户的声纹特征;
采集所述第一用户的外耳道声反射特征;
根据所述第一用户的声纹特征以及外耳道声反射特征注册所述第一用户的音频验证信息。
第三方面,本申请一实施例提供一种身份验证装置,包括:
第一采集模块,其用于采集待验证用户的声纹特征,所述待验证用户为发起针对第一用户的身份验证的用户;
第二采集模块,其用于采集所述待验证用户的外耳道声反射特征;
验证信息调用模块,其用于调用第一用户的音频验证信息,其中,所述第一用户的音频验证信息为根据所述第一用户的声纹特征以及外耳道声反射特征所注册的音频验证信息;
验证模块,其用于根据所述待验证用户的声纹特征、外耳道声反射特征以及所述第一用户的音频验证信息验证所述待验证用户是否为所述第一用户。
第四方面,本申请一实施例提供一种音频验证信息的注册装置,包括:
第一采集模块,其用于采集第一用户的声纹特征;
第二采集模块,其用于采集所述第一用户的外耳道声反射特征;
验证信息注册模块,其用于根据所述第一用户的声纹特征以及外耳道声反射特征注册所述第一用户的音频验证信息。
第五方面,本申请一实施例提供一种身份验证系统,包括:
如上述第四方面所述的音频验证信息的注册装置,其用于注册第一用户的音频验证信息;
如上述第三方面所述的身份验证装置,其用于基于所述第一用户的音频验证信息验证待验证用户是否为所述第一用户。
第六方面,本申请一实施例提供一种电子设备,所述电子设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述电子设备执行如上述第一方面、第二方面所述的方法步骤。
第七方面,本申请一实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如上述第一方面、第二方面所述的方法。
根据本申请实施例所提出的上述技术方案,至少可以实现下述技术效果:根据本申请实施例的方法,可以实现基于声纹特征以及外耳道声反射特征的身份验证,消除基于仅声纹特征进行身份验证时噪声与混响场景下声纹识别性能下降对身份验证准确率的负面影响,在保持基于语音交互的身份验证的便捷性的前提下提高身份验证的准确率。
附图说明
图1所示为人体外耳道示意图;
图2所示为根据本申请音频验证信息的注册方法一实施例的流程图;
图3所示为根据本申请身份验证方法一实施例的流程图;
图4所示为根据本申请一实施例进行打分身份验证的逻辑示意图;
图5所示为根据本申请一实施例进行打分身份验证的效果示意图;
图6所示为根据本申请实施例音频验证信息的注册方法以及身份验证方法的流程图;
图7所示为根据本申请一实施例基于特征融合进行身份验证的逻辑示意图;
图8所示为根据本申请一实施例基于特征融合进行身份验证的效果示意图;
图9所示为根据本申请实施例音频验证信息的注册方法以及身份验证方法的流程图;
图10所示为根据本申请音频验证信息的注册装置一实施例的结构图;
图11所示为根据本申请身份验证装置一实施例的结构图;
图12所示为根据本申请身份验证系统一实施例的结构图;
图13所示为根据本申请身份验证系统一实施例的结构图;
图14所示为根据本申请身份验证系统一实施例的结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
针对现有技术中基于声纹识别的身份验证方案的验证准确率偏低的问题,本申请提供了一种新的音频验证信息的构成方案。为了提出本申请的方案,发明人首先分析基于声纹识别的身份验证方案的具体应用场景。
在现有技术中,基于声纹识别的身份验证方案的实现过程主要为:在用户A注册时采集用户A的语音信息,从用户语音信息中提取声纹A并保存声纹A;在某待验证用户想要验证自己是用户A时,采集待验证用户的语音信息,从用户语音信息中提取声纹B,将提取的声纹B与预存的声纹A作对比,如果声纹B与声纹A一致,则待验证用户通过身份验证,其为用户A。
理想状态下,同一用户在所有应用场景中的语音所包含的声纹都是相同的。然而,受限于声纹提取算法,语音中的声纹无法被完美的提取,并且,由于语音中的噪声以及混响等干扰的存在,使得从同一用户的两个不同的语音中所提取出的两个声纹间可能存在较大差异。这就会导致身份验证系统在对比两个声纹时判定两个声纹不一致,两个声纹对应的不是同一用户,从而导致身份验证失败。
针对上述的问题,可行的解决方案之一是在声纹提取过程中忽略声纹细节,从而忽略由声纹提取算法导致的声纹差异以及语音中的噪声以及混响等干扰,从而使得可以从同一用户的两个不同的语音中提取出相同的声纹。或者,在对比两个声纹采用模糊度较大的对比规则,例如,设定一个较大的阈值范围,当两个声纹间的差异度在该阈值范围内时,视为两个声纹一致。
上述方案虽然可以使得用户在不同的应用场景中均可以顺利实现身份验证,但是,当声纹细节被忽略时,就存在从不同的用户的语音中提取出相同的声纹的情况;而采取模糊度较大的对比规则时,就存在将不同的用户的声纹判定为对应同一用户的情况,这样反而降低了身份验证系统的验证准确率。
针对上述情况,在本申请一实施例的方案中,不从声纹识别入手,而是引入新的验证信息,在身份验证过程中,综合声纹与新引入的验证信息来进行身份验证,从而提高身份验证的准确率。
图1所示为人体外耳道示意图。如图1所示外耳道12是一个半封闭的通路,里侧有耳鼓膜11将外耳道12与内耳道隔离。喇叭13发出入射声14,当入射声14传入外耳道12时,在鼓膜11处会发生透射、反射和吸收等现象。入射声14的透射率、反射率和吸收率由外耳道12的形状及耳鼓膜11的材料属性以及入射声14的频率决定,因此个体的外耳道声反射特征具有稳定性和唯一性。并且,基于麦克风16可以采集入射声14经由外耳道12反射生成的反射声15,从而计算获取外耳道声反射特征。因此,外耳道声反射特征可以作为一种生物特征来表征身份,并且,外耳道声反射特征是一种稳定的静态生物特征,对噪声有较好的鲁棒性。
因此,在本申请一实施例的方案中,在声纹识别的基础上引入外耳道声反射特性,综合声纹特征以及外耳道声反射特性来实现身份验证。
以下结合附图,详细说明本申请各实施例提供的技术方案。
为实现身份验证,本申请一实施例首先提出了一种音频验证信息的注册方法,用户在进行账户注册时注册音频验证信息,从而在之后进行身份验证时可以基于注册的音频验证信息进行身份验证。
图2所示为根据本申请音频验证信息的注册方法一实施例的流程图。如图2所示,在本申请一实施例中,在用户在身份验证系统注册账号时,身份验证系统执行以下步骤:
步骤2010,采集第一用户的声纹特征;
步骤2020,采集第一用户的外耳道声反射特征;
步骤2030,根据第一用户的声纹特征以及外耳道声反射特征注册第一用户的音频验证信息。
进一步的,基于本申请实施例提出的音频验证信息的注册方法,本申请一实施例还提出了一种身份验证方法。图3所示为根据本申请身份验证方法一实施例的流程图。如图3所示,在本申请一实施例中,当待验证用户发起针对第一用户的身份验证(该待验证用户期望验证自身是否为第一用户)时,身份验证系统执行以下步骤:
步骤3010,采集待验证用户的声纹特征,该待验证用户为发起针对第一用户的身份验证的用户,即,该待验证用户期望验证自身是否为第一用户;
步骤3020,采集待验证用户的外耳道声反射特征;
步骤3030,调用第一用户的音频验证信息,其中,第一用户的音频验证信息为根据第一用户的声纹特征以及外耳道声反射特征所注册的音频验证信息,即,第一用户的音频验证信息为基于图1所示实施例的音频验证信息的注册方法所注册的音频验证信息;
步骤3040,根据待验证用户的声纹特征、外耳道声反射特征以及第一用户的音频验证信息验证待验证用户是否为第一用户。
根据本申请实施例的音频验证信息的注册方法以及身份验证方法,可以实现基于声纹特征以及外耳道声反射特征的身份验证,消除基于仅声纹特征进行身份验证时噪声与混响场景下声纹识别性能下降对身份验证准确率的负面影响,在保持基于语音交互的身份验证的便捷性的前提下提高身份验证的准确率。
进一步的,在实际应用场景中,图2以及图3所示的实施例的各个步骤可以具备多种不同的实现方式。
具体的,在步骤2010或步骤3010的一种实现方式中,采集声纹特征的过程包括:
获取用户的语音数字信号;
基于声纹提取算法将获取到的语音数字信号转换为声纹特征。
在实际应用场景中,语音采集可以通过空气传导采集以及骨传导采集两种方式实现。因此,在本申请一实施例中,声纹特征为空气传导声纹特征或骨传导声纹特征中的一种。
进一步的,骨传导麦克风可以拾取到骨头传导的声音振动,从而语音振动转换成语音数字信号。经过骨头传导之后,骨传导麦克风拾取到的语音携带与空气传导麦克风拾取的语音有差别的信息,因此将骨传导麦克风提取的声纹特征与空气传导麦克风提取的声纹特征相融合可以提升声纹特征信息的丰富度从而提高识别的准确率。
因此,在本申请一实施例中,在步骤2010或步骤3010的一种实现方式中,采集到的声纹特征包括空气传导声纹特征和/或骨传导声纹特征。
具体的,在步骤2010或步骤3010的的一种实现方式中,空气传导声纹特征的提取包括以下步骤:
空气传导麦克风将说话人语音声压信号转换成语音电信号并采样为语音数字信号;
基于空气传导声纹提取算法把语音数字信号转换成空气传导声纹特征矢量。
具体的,在步骤2010或步骤3010的的一种实现方式中,骨传导声纹特征的提取包括以下步骤:
说话人佩戴安装了骨传导麦克风的宿主设备,说话人语音通过身体传导到骨传导麦克风,骨传导麦克风将说话人语音振动信号转换成语音电信号,并采样为骨传导语音数字信号;
基于骨传导声纹提取算法将骨传导语音数字信号转换为骨传导声纹特征矢量。
具体的,在步骤2020或步骤3020的一种实现方式中,采集外耳道声反射特征的过程包括:
播放入射声到用户的外耳道;
拾取入射声经由用户的外耳道反射而生成的反射声,将反射声采样为反射声数字信号;
将反射声数字信号转换为外耳道声反射特征。
具体的,在步骤2020或步骤3020的一种实现方式中,在采集用户的外耳道声反射特征的过程中,入射声为单频信号,拾取入射声经由用户的外耳道反射而生成的反射声,其中,通过扫描入射声对应的频率范围拾取反射声。
具体的,在步骤2020或步骤3020的一种实现方式中,在采集外耳道声反射特征的过程中,提取反射声数字信号的外耳道反射声幅值谱作为外耳道声反射特征。具体的,反射声可以表达成一个外耳道的反射脉冲响应函数与入射声的卷积,反射声的幅频谱可以表示成入射声的幅频谱与外耳道入射-反射通路的传递函数的乘积。
r(t)=i(t)*h(t),(1)
R(w)=I(w)H(w),(2)
公式(1)以及(2)中,i(t)、r(t)分别为入射声与反射声声压信号,I(w)、R(w)分别为入射声与反射声的幅频谱,h(t)与H(w)是由外耳道的形状及耳鼓膜的材料属性决定的生物特征。由于每个人的外耳道形状与鼓膜的材质都是独一无二的,所以H(w)=R(w)/I(w)可以作为一种身份的表征来进行身份的注册和验证。当入射声固定时R(w)可以直接作为反射特征来进行身份表征。
进一步的,在实际应用场景中,电路中实际存储的信号为数字信号i’(n)、r’(n),所以在计算H(w)时还应该考虑入射声播放和回声采样通路的增益和灵敏度,记该通路传递函数为H0(w),H’(w)为i’(n)、r’(n)之间的传递函数,则H(w)=H’(w)/H0(w)。当扬声器与麦克风器件一致性不好时,要对入射声播放与回声采样通路H0(w)进行估计,再计算H(w)。当扬声器与麦克风器件一致性好时,可以直接以i(n)、r(n)之间的传递函数来作为外耳道声反射特征。即,在步骤2020的一种实现方式中,在采集外耳道声反射特征的过程中,计算用户的外耳道的声反射传递函数,以声反射传递函数作为外耳道声反射特征。
进一步的,在步骤2030的一种实现方式中,将声纹特征以及外耳道声反射特征作为音频验证信息。在进行身份验证时,分别基于已注册的声纹特征以及外耳道声反射特征进行对比验证,综合对比验证结果来确定身份验证是否通过。
具体的,在步骤2030的一种实现方式中,第一用户的音频验证信息包括第一用户的声纹特征、外耳道声反射特征以及匹配结果验证标准,其中:
匹配结果验证标准用于判定待验证用户的待验证匹配结果是否满足验证标准;
待验证用户的待验证匹配结果由待验证用户的声纹特征与第一用户的声纹特征的匹配结果以及待验证用户的外耳道声反射特征与第一用户的外耳道声反射特征的匹配结果融合生成。
对应的,在步骤3040的一种实现方式中,验证待验证用户是否为第一用户的过程包括:
将待验证用户的声纹特征与第一用户的音频验证信息中的声纹特征做匹配以生成第一匹配结果;
将待验证用户的外耳道声反射特征与第一用户的音频验证信息中的外耳道声反射特征做匹配以生成第二匹配结果;
融合第一匹配结果以及第二匹配结果以生成待验证匹配结果;
基于第一用户的音频验证信息中的匹配结果验证标准判断待验证匹配结果是否满足验证标准,如果满足,则判定待验证用户为第一用户。
具体的,在步骤2030的一种实现方式中,匹配结果验证标准为预设的打分阈值。在步骤3040的一种实现方式中,在将待验证用户的声纹特征与第一用户的音频验证信息中的声纹特征做匹配以及将待验证用户的外耳道声反射特征与第一用户的音频验证信息中的外耳道声反射特征做匹配的过程中,采用打分的方式针对声纹特征和外耳道声反射特征分别进行打分,再根据计算出的多项分值计算总分,最后将总分与打分阈值进行对比进行判决。
具体的,在步骤3040的一种实现方式中,通过相似度计算来进行打分。即,分别计算待验证用户的外耳道声反射特征、声纹特征与第一用户的音频验证信息中的外耳道声反射特征、声纹特征的相似度分值,根据多项相似度分值计算总分,再根据总分进行判决。
具体的,在步骤3040的一种实现方式中,在根据声纹特征和外耳道声反射特征的打分计算总分的过程中,一般将多个分数作为一个融合函数S的输入来计算总分数。例如:
S=f(S1,S2,S3)。(3)
公式(3)中,S1、S2、S3分别为外耳道声反射特征、空气传导声纹特征、骨传导声纹特征的打分。
以简单加权融合为例,例如:
S=S1+S2+S3。(4)
图4所示为根据本申请一实施例进行打分身份验证的逻辑示意图。如图4所示,41、42、43分别指代注册的外耳道声反射特征、空气传导声纹特征、骨传导声纹特征;44、45、46分别指代待验证用户的外耳道声反射特征、空气传导声纹特征、骨传导声纹特征。针对外耳道声反射特征、空气传导声纹特征、骨传导声纹特征三种特征先分别打分,即41-44、42-45、43-46分别计算相似分47、48、49,然后再计算融合分数410。最后根据融合分数410和打分阈值进行判决。
图5所示为根据本申请一实施例进行打分身份验证的效果示意图。假设某仿冒者想要假冒用户A通过身份验证。如图5所示,51指代仿冒者在进行身份验证时的声纹特征打分,52指代用户A在进行身份验证时的声纹特征打分,53指代仿冒者在进行身份验证时的外耳道声反射特征打分,54指代用户A在进行身份验证时的外耳道声反射特征打分,55指代仿冒者在进行身份验证时的声纹特征打分与外耳道声反射特征打分的加权总分,56指代用户A在进行身份验证时的声纹特征打分与外耳道声反射特征打分的加权总分。相较于51与52的对比以及53与54的对比,55与56分布中心距离更大,因而基于55与56更容易识别谁是仿冒者谁是用户A,从而有效提高识别率。
图6所示为根据本申请实施例音频验证信息的注册方法以及身份验证方法的流程图。如图6所示,在用户注册账户的阶段,身份验证系统执行如下步骤:
步骤610,采集第一用户的第一空气传导声纹特征、第一骨传导声纹特征、第一外耳道声反射特征;
步骤630,注册第一空气传导声纹特征、第一骨传导声纹特征以及第一外耳道声反射特征。
在用户进行身份验证的阶段,针对发起针对第一用户的身份验证的待验证用户,身份验证系统执行如下步骤:
步骤640,采集待验证用户的待验证空气传导声纹特征、待验证骨传导声纹特征、待验证外耳道声反射特征;
步骤650,调用第一用户的第一音频验证信息,其中,第一音频验证信息包括第一空气传导声纹特征、第一骨传导声纹特征、第一外耳道声反射特征以及打分阈值;
步骤660,分别对比待验证空气传导声纹特征以及第一空气传导声纹特征、待验证骨传导声纹特征以及第一骨传导声纹特征、待验证外耳道声反射特征以及第一外耳道声反射特征,计算第一相似度打分、第二相似度打分、第三相似度打分;
步骤670,加权求和第一相似度打分、第二相似度打分以及第三相似度打分,计算总分;
步骤680,对比总分以及打分阈值,根据对比结果进行身份验证判定,其中,当总分高于打分阈值时,身份验证通过。
进一步的,在步骤2030的一种实现方式中,基于特征融合融合声纹特征以及外耳道声反射特征,将融合结果作为音频验证信息。
具体的,用户A的音频验证信息包括用户A的音频特征以及音频特征匹配判定标准(根据实际需求,不同的用户可以对应同一音频特征匹配判定标准,也可以对应不同的音频特征匹配判定标准),音频特征匹配判定标准用于判定待验证用户的音频特征与用户A的音频特征是否匹配(例如,设定音频特征匹配判定标准为某一具体阈值,当待验证用户的音频特征与用户A的音频特征间的相似度超过音频特征匹配判定标准时,判定待验证用户的音频特征与用户A的音频特征匹配),用户A的音频特征由用户A的声纹特征以及用户A的外耳道声反射特征融合生成。
即,在步骤2030的一种实现方式中,注册用户A的音频验证信息的过程包括:
融合用户A的声纹特征以及用户A的外耳道声反射特征,生成用户A的音频特征;
注册用户A的音频特征。
对应的,在步骤3040的一种实现方式中,验证待验证用户是否为第一用户的过程包括:
融合待验证用户的声纹特征以及外耳道声反射特征生成待验证音频特征;
基于第一用户的音频验证信息中的音频特征匹配判定标准判断待验证用户的音频特征与第一用户的音频验证信息中的音频特征是否匹配;
当待验证用户的音频特征与第一用户的音频验证信息中的音频特征匹配时,判定待验证用户为第一用户。
进一步的,在实际应用场景中,在理想情况下,针对同一对象的某个特征参数,如果该特征参数存在个体的唯一性,那么,针对从不同渠道获取的该特征参数的2个参数量,如果2个参数量相同,那么对应的就是同一个对象。因此,在实际应用场景中,通过对比两个参数量是否一致的方式来判断两个参数量是否对应同一目标对象。
例如,针对用户A的声纹特征进行提取,基于用户A的语音信息A1提取到的声纹特征为特征量A11;基于某未确认身份的用户的语音信息A2提取到的声纹特征为特征量A12。如果特征量A11与特征量A12相同,那么,该未确认身份的用户就是用户A。
然而,由于算法不可能完美,在不同的计算环境中,针对同一对象的某个特征参数进行参数量计算可能会得到多个不同但是相似的结果。因此,在很多应用场景中,判断两个特征量是否一致,采用的是模糊判断,即,当两个参数量的相似度高于预设的相似度阈值时,可以视为这两个参数量是一致的。
例如,针对用户A的声纹特征进行提取,基于用户A的语音信息A1提取到的声纹特征为特征量A11;基于用户A的语音信息A2提取到的声纹特征为特征量A12。理想状态下,特征量A11与特征量A12相同,但是,在实际情况中,特征量A11与特征量A12间可能存在差异。一般的,在对比特征量A11与特征量A12时,只要两者的相似度高于预设的相似度阈值,就可以视为这两个特征量对应同一用户。
上述模糊判断的前提之一是,针对同一对象获取的多个不同参数量间的相似度要高于针对不同对象获取的多个不同参数量间的相似度,这样,将相似度阈值设定为高于针对不同对象获取的多个不同参数量间的相似度,就可以避免将针对不同对象获取的多个不同参数量判定为对应同一对象。
例如,针对用户A的声纹特征进行提取,基于用户A的语音信息A1提取到的声纹特征为特征量A11;基于用户A的语音信息A2提取到的声纹特征为特征量A12;基于用户B的语音信息A3提取到的声纹特征为特征量A13。特征量A11与特征量A12的相似度应该高于预设的相似度阈值;特征量A12与特征量A13的相似度应该低于预设的相似度阈值。
进一步的,基于某一特征参数,当针对不同对象获取的多个不同参数量间的相似度与针对同一对象获取的多个不同参数量间的相似度间的差值越大,那么该特征参数就更易用于分辨不同的对象,该特征参数的分辨性就越好;当针对不同对象获取的多个不同参数量间的相似度远远小于针对同一对象获取的多个不同参数量间的相似度时,是很难发生将针对不同对象获取的多个不同参数量判定为对应同一对象的情况的。
因此,在本申请一实施例中,优选音频验证信息的参数类型,尽可能的降低针对不同用户所获取的音频验证信息间的相似度。
具体的,在步骤2030的一种实现方式中,在基于特征融合来获取需要注册的音频验证信息的过程中,将声纹特征与外耳道声反射特征相融合,生成分辨性优于声纹特征以及外耳道声反射特征的音频特征。即,针对不同的用户,音频特征间的相似度低于声纹特征间的相似度以及外耳道声反射特征间的相似度。这样,相较于使用声纹特征或外耳道声反射特征作为验证用户身份的音频验证信息,使用音频特征作为验证用户身份的音频验证信息的验证准确率就会得到提升。
具体的,在步骤2030的一种实现方式中,将外耳道声反射特征与声纹特征进行多模态机器学习获得分辨性更高的身份表征矢量(音频特征),注册身份表征矢量,将身份表征矢量存储在存储器中。在身份验证阶段用同样的方法提取待验证身份表征矢量,并将待验证身份表征矢量与已注册的身份表征矢量进行相似度计算,根据相似度计算结果进行身份验证判定。
具体的,在步骤2030的一种实现方式中,使用机器学习模型实现特征融合。特征融合是将多个特征矢量送入同一个机器学习算法网络,来提取分辨性更强的特征。图7所示为根据本申请一实施例基于特征融合进行身份验证的逻辑示意图。如图7所示,71、72、73分别指代注册的外耳道声反射特征、空气传导声纹特征、骨传导声纹特征;74、75、76分别指代待验证的外耳道声反射特征、空气传导声纹特征、骨传导声纹特征。先将71-72-73、74-75-76分别进行特征融合提取出更有分辨性的注册表征77和待验证表征78,再使用77、78计算出相似分79,并根据79进行身份验证。
具体的,基于特征融合的身份验证方案的开发和使用分为三个阶段:训练、注册、验证三个阶段。以基于神经网络学习方法为例,训练阶段使用身份标签和训练语料训练机器学习模型的分辨能力,如图7所示,注册阶段使用注册数据提取目标说话人的多种特征矢量,并融合为身份矢量保存为模板,身份验证阶段从待验证用户的待验证数据中提取待验证用户的身份矢量,并与已注册的身份矢量模板进行对比,根据对比结果打分,最后根据打分进行判决,给出身份验证结果。
进一步,在步骤2030或步骤3040的一种实现方式中,基于特征拼接算法以及线性判别式分析(Linear Discriminant Analysis,LDA)算法实现特征融合。具体的,在步骤2030或步骤3040的一种实现方式中,融合第一用户或待验证用户的声纹特征以及外耳道声反射特征的过程包括:
对声纹特征以及外耳道声反射特征进行特征拼接,获取特征样本集合;
基于线性判别式分析算法,在第一维度投影特征样本集合,获取第一维度投影结果,其中,针对不同的用户,第一维度投影结果间的相似度低于其他维度的投影结果间的相似度;
将第一维度投影结果作为音频特征。
图8所示为根据本申请一实施例基于特征融合进行身份验证的效果示意图。假设某仿冒者想要假冒用户A通过身份验证。如图8所示,圆点指代仿冒者样本,星点指代用户A样本。仿冒者进行身份验证时的外耳道声反射特征86、空气传导声纹特征87、骨传导声纹特征88进行特征拼接后的仿冒者样本;用户A进行身份验证时外耳道声反射特征、空气传导声纹特征、骨传导声纹特征进行特征拼接后的用户A样本。81为仿冒者样本投影在LD2维度上的分布密度函数,82为用户A样本投影在LD2维度上的分布密度函数,83为仿冒者样本投影在LD1维度上的分布密度函数,84为用户A样本投影在LD1维度上的分布密度函数。经过LDA算法变换后可以提取出区分性高的LD1分量作为最终的身份矢量分量,而去掉区分性低的LD2分量从而使识别率提高。
图9所示为根据本申请实施例音频验证信息的注册方法以及身份验证方法的流程图。如图9所示,在用户注册账户的阶段,身份验证系统执行如下步骤:
步骤910,采集第一用户的第一空气传导声纹特征、第一骨传导声纹特征、第一外耳道声反射特征;
步骤931,对第一空气传导声纹特征、第一骨传导声纹特征以及第一外耳道声反射特征进行特征拼接,获取第一特征样本集合;
步骤932,基于线性判别式分析算法,在第一维度投影第一特征样本集合,获取第一维度投影结果;
步骤933,注册第一维度投影结果。
在用户进行身份验证的阶段,针对发起针对第一用户的身份验证的待验证用户,身份验证系统执行如下步骤:
步骤940,采集待验证用户的待验证空气传导声纹特征、待验证骨传导声纹特征、待验证外耳道声反射特征;
步骤950,调用第一用户的第一音频验证信息,其中,第一音频验证信息包括第一维度投影结果以及打分阈值;
步骤961,对待验证空气传导声纹特征、待验证骨传导声纹特征以及待验证外耳道声反射特征进行特征拼接,获取待验证特征样本集合;
步骤962,基于线性判别式分析算法,在第一维度投影待验证特征样本集合,获取待验证维度投影结果;
步骤970,对比第一维度投影结果以及待验证维度投影结果,计算第一相似度打分;
步骤980,对比第一相似度打分以及打分阈值,根据对比结果进行身份验证判定,其中,当总分高于打分阈值时,身份验证通过。
可以理解的是,上述实施例中的部分或全部步骤骤或操作仅是示例,本申请实施例还可以执行其它操作或者各种操作的变形。此外,各个步骤可以按照上述实施例呈现的不同的顺序来执行,并且有可能并非要执行上述实施例中的全部操作。
进一步的,基于本申请一实施例中提出的音频验证信息的注册方法,本申请一实施例还提出了一种音频验证信息的注册装置。图10所示为根据本申请音频验证信息的注册装置一实施例的结构图。在本申请一实施例中,如图10所示,在本申请一实施例中,音频验证信息的注册装置1000包括:
采集模块1011,其用于采集第一用户的第一声纹特征;
采集模块1012,其用于采集第一用户的第一外耳道声反射特征;
验证信息注册模块1020,其用于根据第一声纹特征以及第一外耳道声反射特征注册第一用户的第一音频验证信息。
进一步的,本申请一实施例还提出了一种身份验证装置。图11所示为根据本申请身份验证装置一实施例的结构图。在本申请一实施例中,如图11所示,在本申请一实施例中,身份验证装置1100包括:
采集模块1111,其用于采集待验证用户的待验证声纹特征,待验证用户为发起针对第一用户的身份验证的用户;
采集模块1112,其用于采集待验证用户的待验证外耳道声反射特征;
验证信息调用模块1120,其用于调用第一用户的第一音频验证信息,其中,第一用户的音频验证信息为根据第一用户的声纹特征以及外耳道声反射特征所注册的音频验证信息;
验证模块1130,其用于根据待验证声纹特征、待验证外耳道声反射特征以及第一音频验证信息验证待验证用户是否为第一用户。
图10以及图11所示的本申请一实施例提供的装置可用于执行本申请实施例的方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
进一步的,在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(FieldProgrammable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由访问方对器件编程来确定。由设计人员自行编程来把一个数字装置“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera HardwareDescription Language)、Confluence、CUPL(Cornell University ProgrammingLanguage)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
在本申请实施例的描述中,为了描述的方便,描述装置时以功能分为各种模块/单元分别描述,各个模块/单元的划分仅仅是一种逻辑功能的划分,在实施本申请实施例时可以把各模块/单元的功能在同一个或多个软件和/或硬件中实现。
具体的,本申请实施例所提出的装置在实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块以软件通过处理元件调用的形式实现,部分模块通过硬件的形式实现。例如,检测模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个数字信号处理器(Digital Singnal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,这些模块可以集成在一起,以片上装置(System-On-a-Chip,SOC)的形式实现。
进一步的,本申请一实施例还提出了一种身份验证系统,该系统包括:
如图10所示实施例的音频验证信息的注册装置,其用于注册第一用户的音频验证信息;
如图11所示实施例的身份验证装置,其用于基于第一用户的音频验证信息验证待验证用户是否为第一用户。
具体的,在一种可行的实现方式中,身份验证系统包括若干个宿主设备和一个可选的接收设备,宿主设备可以通过无线通信与接收设备或接收设备中的帐号绑定。
空气传导麦克风、骨传导麦克风、反馈麦克风可以以不同方式安装在1-3个宿主设备上。即,可以三个麦克风都安装在一个宿主设备上,也可以分别安装在三个不同宿主设备上,还可以其中两个麦克风组合安装在一个宿主设备上,然后第三个麦克风安装在第二个宿主设备上。
反馈麦克风与扬声器必须安装在同一个宿主设备上,以保证反馈麦克风能采取到扬声器播放并经过外耳道反射的反射声。
三种麦克风所在的宿主设备通过无线通讯与接收设备连接,宿主设备将采集到的音频数字信号发送到接收设备上,或者宿主设备将采集到的音频数字信号转换成声纹特征再发送到接收设备上。三个麦克风采集三种音频信号,三种音频信号分别提取成三种特征,三种特征在接收设备上保存、融合并判决验证是否通过。当所有传感器都安装在一个宿主设备上时,特征提取、保存和融合判决可以在宿主设备上进行。
也可以只使用反馈麦克风与空气传导麦克风/骨传导麦克风中的一个进行方案的实施。反馈麦克风与空气传导麦克风/骨传导麦克风安装在一个设备或者二个独立的设备上。
如果执行的操作可以直接在宿主设备上完成则可以没有接收设备。即宿主设备直接根据判决结果执行操作,而不发送任何信号、特征或结果。
图12所示为根据本申请身份验证系统一实施例的结构图。如图12所示,在一种可行的身份验证系统的实现方式中,身份验证系统中的宿主设备为一个有远程通信功能的无线耳机112,接收设备为远程服务器118,无线耳机112与远程服务器118通过无线通信网络进行无线通讯,无线耳机112与远程服务器中的某个用户帐号绑定。空气传导麦克风121、扬声器119、反馈麦克风120、骨传导麦克风122都安装在无线耳机112上,无线耳机112还包含处理器111。处理器111上集成了外耳道声反射特征提取算法105,空气传导声纹特征提取算法106,骨传导声纹特征提取算法107。每次需要进行身份验证时,处理器111将扫描数字信号101在扬声器119上播放,同时反馈麦克风120拾取耳道反射声并转换成反射声数字信号102,处理器111控制空气传导麦克风121采集语音数字信号103,控制骨传导麦克风122采集语音数字信号104。
外耳道声反射特征提取算法105从入射声数字信号101与反射声数字信号102中提取外耳道声反射特征108,空气传导声纹提取算法106从数字信号103中提取空气传导声纹特征109,骨传导声纹提取算法107从骨传导数字信号104中提取骨传导声纹特征110。外耳道声反射特征108、空气传导声纹特征109、骨传导声纹特征110通过无线通信发送到服务器118上,并在多模态融合机器学习模块113中提取为身份表征矢量114,身份表征矢量114与用户注册时保存的身份表征矢量115送入打分判决模块116进行余弦距离打分判决,生成判决结果117,服务器118根据判决结果117确定身份验证结果。当余弦距离分数超过阈值时,则认为身份验证通过,否则认为身份验证不通过。扬声器101播放连续变化的单频声,外耳道声反射特征通过提取反射声的包络来表示。
图13所示为根据本申请身份验证系统一实施例的结构图。如图13所示在一种可行的身份验证系统的实现方式中,身份验证系统中的宿主设备为一个蓝牙无线耳机213,接收设备为一部手机终端214,蓝牙无线耳机213与手机终端214通过蓝牙进行无线通讯并且相互绑定。空气传导麦克风218、扬声器216、反馈麦克风217都安装在蓝牙无线耳机213上,蓝牙无线耳机213还包含处理器215。处理器215中存储了外耳道声反射提取算法204、声纹提取算法205、特征融合算法208、和打分判决模块211。每次需要验证时,声纹提取算法205从空气传导麦克风218采集的语音数字信号203中提取空气传导声纹特征207,并且外耳道声反射特征提取算法根据入射声数字信号201与反射声数字信号202提取外耳道声反射特征,空气传导声纹特征与外耳道声反射特征在多模态融合机器学习模块208中提取为身份表征矢量210,身份表征矢量210与注册时保存的身份表征矢量209送入打分判决模块211进行余弦距离打分判决,生成判决结果212。判决结果212通过蓝牙发送到手机终端214,手机终端214根据判决结果判定身份验证是否通过。当余弦距离分数超过阈值时,则认为身份验证通过,否则认为身份验证不通过。扬声器201播放连续变化的单频声,外耳道声反射特征通过提取反射声的包络来表示。注册时将身份表征矢量存储在存储器中作为模板,验证时将新的身份表征矢量与模板计算余弦距离相似分。
图14所示为根据本申请身份验证系统一实施例的结构图。如图14所示,在一种可行的身份验证系统的实现方式中,身份验证系统的宿主设备为一个多功能耳机313,没有接收设备。空气传导麦克风318、扬声器316、反馈麦克风317都安装在多功能耳机313上,多功能耳机313还包含处理器315。处理器315中存储了外耳道声反射提取算法304、声纹提取算法305、特征融合算法308、和打分判决模块311。每次需要验证时,声纹提取算法305从空气传导麦克风318采集的语音数字信号303中提取空气传导声纹特征307,并且外耳道声反射特征提取算法根据入射声数字信号301与反射声数字信号302提取外耳道声反射特征,空气传导声纹特征与外耳道声反射特征在多模态融合机器学习模块8中提取为身份表征矢量310,身份表征矢量310与注册时保存的身份表征矢量309送入打分判决模块311进行余弦距离打分判决,生成判决结果312,多功能耳机313根据判决结果决定身份验证是否通过。当余弦距离分数超过阈值时,则认为身份验证通过,否则认为身份验证不通过。扬声器301播放连续变化的单频声,外耳道声反射特征通过提取反射声的包络来表示。注册时将身份表征矢量存储在存储器中作为模板,验证时将新的身份表征矢量与模板计算余弦距离相似分。
本申请一实施例还提出了一种电子设备,电子设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发电子设备执行如本申请实施例所述的方法步骤。
具体的,在本申请一实施例中,上述一个或多个计算机程序被存储在上述存储器中,上述一个或多个计算机程序包括指令,当上述指令被上述设备执行时,使得上述设备执行本申请实施例所述的方法步骤。
具体的,在本申请一实施例中,电子设备的处理器可以是片上装置SOC,该处理器中可以包括中央处理器(Central Processing Unit,CPU),还可以进一步包括其他类型的处理器。具体的,在本申请一实施例中,电子设备的处理器可以是PWM控制芯片。
具体的,在本申请一实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units,NPU)和图像信号处理器(Image Signal Processing,ISP),该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
具体的,在本申请一实施例中,电子设备的存储器可以是只读存储器(read-onlymemory,ROM)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory,RAM)或可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备,或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何计算机可读介质。
具体的,在本申请一实施例中,处理器可以和存储器可以合成一个处理装置,更常见的是彼此独立的部件,处理器用于执行存储器中存储的程序代码来实现本申请实施例所述方法。具体实现时,该存储器也可以集成在处理器中,或者,独立于处理器。
进一步的,本申请实施例阐明的设备、装置、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
本领域内的技术人员应明白,本申请实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
具体的,本申请一实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行本申请实施例提供的方法。
本申请一实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,当其在计算机上运行时,使得计算机执行本申请实施例提供的方法。
本申请中的实施例描述是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本申请实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以意识到,本申请实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种身份验证方法,其特征在于,包括:
采集待验证用户的声纹特征,所述待验证用户为发起针对第一用户的身份验证的用户;
采集所述待验证用户的外耳道声反射特征;
调用第一用户的音频验证信息,其中,所述第一用户的音频验证信息为根据所述第一用户的声纹特征以及外耳道声反射特征所注册的音频验证信息;
根据所述待验证用户的声纹特征、外耳道声反射特征以及所述第一用户的音频验证信息验证所述待验证用户是否为所述第一用户。
2.根据权利要求1所述的方法,其特征在于,所述第一用户的音频验证信息包括所述第一用户的声纹特征、外耳道声反射特征以及匹配结果验证标准;
所述根据所述待验证用户的声纹特征、外耳道声反射特征以及所述第一用户的音频验证信息验证所述待验证用户是否为所述第一用户,包括:
将所述待验证用户的声纹特征与所述第一用户的声纹特征做匹配以生成第一匹配结果,将所述待验证用户的外耳道声反射特征与所述第一用户的外耳道声反射特征做匹配以生成第二匹配结果,融合所述第一匹配结果以及所述第二匹配结果以生成待验证匹配结果,基于所述匹配结果验证标准判断所述待验证匹配结果是否满足验证标准。
3.根据权利要求1所述的方法,其特征在于,所述第一用户的音频验证信息包括所述第一用户的音频特征以及音频特征匹配判定标准,所述第一用户的音频特征由所述第一用户的声纹特征以及外耳道声反射特征融合生成;
所述根据所述待验证用户的声纹特征、外耳道声反射特征以及所述第一用户的音频验证信息验证所述待验证用户是否为所述第一用户,包括:
融合所述待验证用户的声纹特征以及外耳道声反射特征以生成所述待验证用户的音频特征,基于所述音频特征匹配判定标准判断所述待验证用户的音频特征与所述第一用户的音频特征是否匹配。
4.根据权利要求3所述的方法,其特征在于,针对不同的用户,所述音频特征间的相似度低于所述声纹特征间的相似度,以及,所述音频特征间的相似度低于所述外耳道声反射特征间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述音频特征由所述声纹特征以及所述外耳道声反射特征融合生成,其中,融合所述声纹特征以及所述外耳道声反射特征的过程包括:
对所述声纹特征以及所述外耳道声反射特征进行特征拼接,获取特征样本集合;
基于线性判别式分析算法,在第一维度投影所述特征样本集合,获取第一维度投影结果,其中,针对不同的用户,所述第一维度投影结果间的相似度低于其他维度的投影结果间的相似度;
将所述第一维度投影结果作为所述音频特征。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述声纹特征包括空气传导声纹特征和/或骨传导声纹特征。
7.根据权利要求1~6中任一项所述的方法,其特征在于,采集所述待验证用户的外耳道声反射特征,包括:
播放入射声到所述待验证用户的外耳道;
拾取所述入射声经由所述待验证用户的外耳道反射而生成的反射声,生成反射声数字信号;
将所述反射声数字信号转换为所述外耳道声反射特征。
8.根据权利要求7所述的方法,其特征在于,所述将所述反射声数字信号转换为所述外耳道声反射特征,包括:
提取所述反射声数字信号的外耳道反射声幅值谱作为所述外耳道声反射特征;
或者,
计算外耳道的声反射传递函数,以所述声反射传递函数作为所述外耳道声反射特征。
9.根据权利要求7或8所述的方法,其特征在于,所述入射声为单频信号,所述拾取所述入射声经由所述待验证用户的外耳道反射而生成的反射声,其中,通过扫描所述入射声对应的频率范围拾取所述反射声。
10.一种音频验证信息的注册方法,其特征在于,包括:
采集第一用户的声纹特征;
采集所述第一用户的外耳道声反射特征;
根据所述第一用户的声纹特征以及外耳道声反射特征注册所述第一用户的音频验证信息。
11.一种身份验证装置,其特征在于,包括:
第一采集模块,其用于采集待验证用户的声纹特征,所述待验证用户为发起针对第一用户的身份验证的用户;
第二采集模块,其用于采集所述待验证用户的外耳道声反射特征;
验证信息调用模块,其用于调用第一用户的音频验证信息,其中,所述第一用户的音频验证信息为根据所述第一用户的声纹特征以及外耳道声反射特征所注册的音频验证信息;
验证模块,其用于根据所述待验证用户的声纹特征、外耳道声反射特征以及所述第一用户的音频验证信息验证所述待验证用户是否为所述第一用户。
12.一种音频验证信息的注册装置,其特征在于,包括:
第一采集模块,其用于采集第一用户的声纹特征;
第二采集模块,其用于采集所述第一用户的外耳道声反射特征;
验证信息注册模块,其用于根据所述第一用户的声纹特征以及外耳道声反射特征注册所述第一用户的音频验证信息。
13.一种身份验证系统,其特征在于,包括:
如权利要求12所述的音频验证信息的注册装置,其用于注册第一用户的音频验证信息;
如权利要求11所述的身份验证装置,其用于基于所述第一用户的音频验证信息验证待验证用户是否为所述第一用户。
14.一种电子设备,其特征在于,所述电子设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述电子设备执行如权利要求1~10中任一项所述的方法步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1-10中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010328026.4A CN113643707A (zh) | 2020-04-23 | 2020-04-23 | 一种身份验证方法、装置和电子设备 |
PCT/CN2021/089159 WO2021213490A1 (zh) | 2020-04-23 | 2021-04-23 | 一种身份验证方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010328026.4A CN113643707A (zh) | 2020-04-23 | 2020-04-23 | 一种身份验证方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113643707A true CN113643707A (zh) | 2021-11-12 |
Family
ID=78270291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010328026.4A Pending CN113643707A (zh) | 2020-04-23 | 2020-04-23 | 一种身份验证方法、装置和电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113643707A (zh) |
WO (1) | WO2021213490A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597839A (zh) * | 2023-07-17 | 2023-08-15 | 山东唐和智能科技有限公司 | 一种智能语音交互系统及方法 |
CN117133281A (zh) * | 2023-01-16 | 2023-11-28 | 荣耀终端有限公司 | 语音识别方法和电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240211563A1 (en) * | 2022-01-25 | 2024-06-27 | Meta Platforms Technologies, Llc | User authentication using combination of vocalization and skin vibration |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787187A (en) * | 1996-04-01 | 1998-07-28 | Sandia Corporation | Systems and methods for biometric identification using the acoustic properties of the ear canal |
TW200820218A (en) * | 2006-07-31 | 2008-05-01 | Nap Entpr Co Ltd | Portable personal authentication method and electronic business transaction method |
CN108512986A (zh) * | 2018-04-03 | 2018-09-07 | Oppo广东移动通信有限公司 | 身份验证方法、电子装置及计算机可读存储介质 |
CN110100278A (zh) * | 2017-07-03 | 2019-08-06 | 深圳市汇顶科技股份有限公司 | 说话者识别系统及说话者识别方法及入耳式装置 |
CN110832483A (zh) * | 2017-07-07 | 2020-02-21 | 思睿逻辑国际半导体有限公司 | 用于生物测定处理的方法、装置和系统 |
US20200074055A1 (en) * | 2018-08-31 | 2020-03-05 | Cirrus Logic International Semiconductor Ltd. | Biometric authentication |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808087A (zh) * | 2017-11-08 | 2018-03-16 | 广东小天才科技有限公司 | 一种电子设备的解锁方法及装置 |
CN108521494B (zh) * | 2018-04-10 | 2020-04-14 | Oppo广东移动通信有限公司 | 终端控制方法和装置、可读存储介质、终端 |
CN108763901B (zh) * | 2018-05-28 | 2020-09-22 | Oppo广东移动通信有限公司 | 耳纹信息获取方法和装置、终端、耳机及可读存储介质 |
-
2020
- 2020-04-23 CN CN202010328026.4A patent/CN113643707A/zh active Pending
-
2021
- 2021-04-23 WO PCT/CN2021/089159 patent/WO2021213490A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787187A (en) * | 1996-04-01 | 1998-07-28 | Sandia Corporation | Systems and methods for biometric identification using the acoustic properties of the ear canal |
TW200820218A (en) * | 2006-07-31 | 2008-05-01 | Nap Entpr Co Ltd | Portable personal authentication method and electronic business transaction method |
CN110100278A (zh) * | 2017-07-03 | 2019-08-06 | 深圳市汇顶科技股份有限公司 | 说话者识别系统及说话者识别方法及入耳式装置 |
CN110832483A (zh) * | 2017-07-07 | 2020-02-21 | 思睿逻辑国际半导体有限公司 | 用于生物测定处理的方法、装置和系统 |
CN108512986A (zh) * | 2018-04-03 | 2018-09-07 | Oppo广东移动通信有限公司 | 身份验证方法、电子装置及计算机可读存储介质 |
US20200074055A1 (en) * | 2018-08-31 | 2020-03-05 | Cirrus Logic International Semiconductor Ltd. | Biometric authentication |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133281A (zh) * | 2023-01-16 | 2023-11-28 | 荣耀终端有限公司 | 语音识别方法和电子设备 |
CN117133281B (zh) * | 2023-01-16 | 2024-06-28 | 荣耀终端有限公司 | 语音识别方法和电子设备 |
CN116597839A (zh) * | 2023-07-17 | 2023-08-15 | 山东唐和智能科技有限公司 | 一种智能语音交互系统及方法 |
CN116597839B (zh) * | 2023-07-17 | 2023-09-19 | 山东唐和智能科技有限公司 | 一种智能语音交互系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021213490A1 (zh) | 2021-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
CN111699528B (zh) | 电子装置及执行电子装置的功能的方法 | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
Wang et al. | Secure your voice: An oral airflow-based continuous liveness detection for voice assistants | |
WO2021213490A1 (zh) | 一种身份验证方法、装置和电子设备 | |
CN108346427A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN111199032A (zh) | 身份认证的方法以及装置 | |
CN111079791A (zh) | 人脸识别方法、设备及计算机可读存储介质 | |
CN111656440A (zh) | 说话人辨识 | |
CN113327620B (zh) | 声纹识别的方法和装置 | |
EP4002363B1 (en) | Method and apparatus for detecting an audio signal, and storage medium | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
CN111684521B (zh) | 用于说话者识别的处理语音信号方法及实现其的电子装置 | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
CN113330511A (zh) | 语音识别方法、装置、存储介质及电子设备 | |
KR20210050884A (ko) | 화자 인식을 위한 등록 방법 및 장치 | |
US11900730B2 (en) | Biometric identification | |
US20240013789A1 (en) | Voice control method and apparatus | |
CN112289325A (zh) | 一种声纹识别方法及装置 | |
Jiang et al. | Securing liveness detection for voice authentication via pop noises | |
CN109922397B (zh) | 音频智能处理方法、存储介质、智能终端及智能蓝牙耳机 | |
Wong | Authentication through sensing of tongue and lip motion via smartphone | |
JP3838159B2 (ja) | 音声認識対話装置およびプログラム | |
US20220013124A1 (en) | Method and apparatus for generating personalized lip reading model | |
WO2022236827A1 (zh) | 一种声纹管理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |