CN116110417A - 一种面向超声波声纹防伪的数据增强方法及装置 - Google Patents
一种面向超声波声纹防伪的数据增强方法及装置 Download PDFInfo
- Publication number
- CN116110417A CN116110417A CN202211595644.0A CN202211595644A CN116110417A CN 116110417 A CN116110417 A CN 116110417A CN 202211595644 A CN202211595644 A CN 202211595644A CN 116110417 A CN116110417 A CN 116110417A
- Authority
- CN
- China
- Prior art keywords
- impulse response
- ultrasonic
- original
- audio sample
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000004044 response Effects 0.000 claims abstract description 106
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000007613 environmental effect Effects 0.000 claims abstract description 11
- 230000005236 sound signal Effects 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 18
- 238000012805 post-processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 7
- 238000004088 simulation Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 10
- 230000006872 improvement Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000002604 ultrasonography Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S15/00—Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
- G01S15/88—Sonar systems specially adapted for specific applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/12—Applying verification of the received information
- H04L63/126—Applying verification of the received information the source of the received data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开了一种面向超声波声纹防伪的数据增强方法及装置,通过手机麦克风与扬声器采集混合了超声波信号和语音信号的原始音频样本,并获得一个原始采集设备的脉冲响应(ImpulseResponse)以及至少一个目标设备脉冲响应等步骤。本发明的数据增强方法结合了维纳反卷积技术,在利用目标设备脉冲响应进行卷积增强前,减弱了原始采集设备频率响应特性和环境噪声的干扰,使得增强后的音频样本更加接近通过目标设备实际采集的音频样本,可作为一种有效的模拟数据来进行模型训练,通过原始采集设备和目标设备的脉冲响应数据,将原始设备采集的数据集增强为目标设备采集的数据集,进而能使算法适应目标设备的频率响应特性,提升防伪效果。
Description
技术领域
本发明涉及声纹识别安全技术领域,具体地说,是一种面向超声波声纹防伪的数据增强方法及装置。
背景技术
近年来,随着深度学习技术的快速发展以及大规模语音数据集的使用,声纹识别技术逐渐成熟并被广泛应用于我们日常生活的各种智能服务中。然而,现有的声纹识别系统存在着严重的安全隐患,受到如语音合成攻击、语音转换攻击、重放攻击等各种攻击的威胁。其中,重放攻击的实施难度最低,未经任何训练的普通人即可通过普遍的商用设备(如手机)录制并重放用户的声音以骗过声纹识别系统的验证,从而严重威胁到用户的隐私和数据安全。
对于针对声纹的重放攻击安全威胁,现有的声纹反欺诈研究主要从录制的语音信号中提取差异性的特征来进行检测,但这些特征的检测能力受到环境因素以及攻击设备质量的影响。其他一些研究则引入新的感知信道(如WiFi信号、超声波等)来捕获额外的生物特征,以对发声主体进行活体检测。其中基于超声波的活体检测方案因其部署便携、用户不可感而受到广泛关注。其典型流程为:利用设备内置扬声器朝向正在说话中的用户嘴面部发射超声波信号,由于嘴部运动使得麦克风接收到的超声波反射信号产生多普勒频移现象,通过分析多普勒频移特征的模式即可实现活体检测,从而有效抵御重放攻击,保证声纹识别系统的安全性。
但是,由于基于超声波的声纹防伪方案利用了宽频段的声音信号(包括低于8kHz的语音信号和20kH以上的超声波信号),而商用智能终端的录音装置对于不同频段声音信号的采集和处理差异巨大,导致现有的基于超声波的声纹防伪系统部署在不同设备上时出现精度降低甚至算法失效的现象。此外,现有的方法往往存在较高的成本或者无法有效解决该问题。如域自适应方法需要采集不同设备上的数据,大大增加了解决模型鲁棒性问题的成本。而现有的常用于语音领域的数据增强方法则无法很好地适用于混合了语音信号和超声波信号的跨模态数据中,例如基于时间规整和频率掩蔽的增强方法可能会破坏跨模态信号的内在关联,基于添加噪音和房间混响的增强方法则主要解决模型在不同环境中的鲁棒性问题,而非针对设备的差异性而设计的。
因此,现有的基于超声波的声纹防伪系统由于采集数据的成本问题和缺乏有效的数据增强手段,导致其在迁移到不同型号设备上时,出现防伪效果差、鲁棒性差的问题。
发明内容
本发明针对现有技术的不足做出了改进,提供了一种面向超声波声纹防伪的数据增强方法及装置,本发明是采用如下技术方案来实现的:
本发明公开了一种面向超声波声纹防伪的数据增强方法,包括:
通过手机麦克风与扬声器采集混合了超声波信号和语音信号的原始音频样本,并获得一个原始采集设备的脉冲响应(Impulse Response)以及至少一个目标设备脉冲响应;
结合原始采集设备的脉冲响应数据对原始音频样本进行去噪、增强处理,通过维纳反卷积方法,获得未受到环境噪声和设备频率响应影响的干净音频样本;
结合干净音频样本与目标设备的脉冲响应数据,通过卷积运算得到改变了设备频率响应特征的增强音频样本;
对增强音频样本和原始音频样本提取语音和超声频段的特征,并通过特征堆叠获得跨模态联合特征;
对跨模态联合特征经过进一步的特征后处理,得到的输入特征可用于训练区分语音来源是否为活体的神经网络模型。
作为进一步地改进,本发明所述的结合原始采集设备的脉冲响应数据对原始音频样本进行去噪、增强处理采用维纳反卷积方法,维纳反卷积是一种广泛应用于信号与图像处理的反卷积方法,具体包括:
采用线性时不变(Linear Time-Invariant,LTI)系统的建模方式对原始采集设备采集到的原始音频信号进行建模:
y(t)=(h*x)(t)+n(t)
其中,h(t)为音频传输信道脉冲响应,n(t)为环境噪音,x(t)是未受到环境噪声和传输信道干扰的干净音频信号,*表示卷积运算,所述音频传输信道脉冲响应主要由采集设备的频率响应所决定,所述原始音频信号即原始音频样本,干净音频信号即干净音频样本;
通过原始采集设备的脉冲响应h(t)及原始音频信号y(t)来估计一个滤波器g(t),从而得到未受环境噪声和设备频率响应干扰的干净音频信号x(t)的估计:根据卷积运算的性质,上式可以转化为频域上的相乘运算,即:其中G(f)是维纳反卷积滤波器在频域上的表示;
其中H(f)表示音频采集设备的频率响应,SNR(f)为原始音频信号在不同频率点上的信噪比;
作为进一步地改进,本发明所述对原始音频样本和获得的增强音频样本提取跨模态联合特征,具体包括:
对样本执行低通滤波,并提取语音频段的梅尔滤波器组特征Iv=melspecgram(LPF(y(t))),其中LPF(·)为低通滤波,melspecgram(·)表示时域音频信号转换时频谱并经过梅尔滤波器组处理的过程;
对样本执行带通滤波,并提取超声频段上的频谱特征Iu=specgram(BPF(y(t))),其中BPF(·)为以扬声器发射的超声波信号的频率fs为中心频率且带宽为Bs的带通滤波器,specgram(·)表示时域音频信号转换为时频谱的过程;
将Iv与Iu在时域上进行对齐,并在特征维度上进行堆叠,得到跨模态联合特征I。
作为进一步地改进,本发明所述对跨模态联合特征经过进一步的特征后处理,包括归一化处理和切片处理,具体为:分别对超声频段和语音频段的特征进行Min-Max归一化,将特征值映射到0到1的区间;在时域上以一定的时间跨度为单位随机截取包含语音指令的片段,作为输入模型的特征。
作为进一步地改进,本发明所述区分语音来源是否为活体的神经网络模型为卷积神经网络分类模型。
本发明还公开了一种面向超声波声纹防伪的数据增强装置,包括:
音频样本与脉冲响应采集模块:用于通过手机麦克风与扬声器采集混合了超声波信号和语音信号的原始音频样本,并获得一个原始采集设备的脉冲响应(ImpulseResponse)以及至少一个目标设备脉冲响应;
维纳反卷积去噪模块:用于结合原始采集设备的脉冲响应数据对原始音频样本进行去噪、增强处理,通过维纳反卷积方法,获得未受到环境噪声和设备频率响应影响的干净音频样本;
脉冲响应卷积增强模块:用于结合干净音频样本与目标设备的脉冲响应数据,通过卷积运算得到改变了设备频率响应特征的增强音频样本;
跨模态联合特征提取模块:用于对增强音频样本和原始音频样本提取语音和超声频段的特征,并通过特征堆叠获得跨模态联合特征;
特征后处理模块:用于对跨模态联合特征经过进一步的特征后处理,得到的输入特征可用于训练区分语音来源是否为活体的神经网络模型。
超声波声纹防伪是指利用超声波的活体感知能力检测语音来源是否为真实的说话人,从而抵御针对声纹识别系统的重放攻击的一种技术,本发明是一种面向超声波声纹防伪的旨在提升超声波声纹防伪系统在任意设备上的鲁棒性和防伪效果的数据增强方法及装置。
本发明的有益效果如下:
1)有效目标设备数据模拟。本发明所述数据增强方法结合了维纳反卷积技术,在利用目标设备脉冲响应进行卷积增强前,减弱了原始采集设备频率响应特性和环境噪声的干扰,使得增强后的音频样本更加接近通过目标设备实际采集的音频样本,可作为一种有效的模拟数据来进行模型训练。
2)低成本超声波声纹防伪数据增强。本发明所述数据增强方法所需额外的数据仅为原始采集设备与目标设备的脉冲响应数据,无需在不同设备上重新采集数据,大大降低了采集和构建超声波声纹防伪数据集的成本。
3)任意设备超声波声纹防伪算法迁移。本发明所述数据增强方法通过原始采集设备和目标设备的脉冲响应数据,将原始设备采集的数据集增强为目标设备采集的数据集,进而能使算法适应目标设备的频率响应特性,提升防伪效果。
4)鲁棒性超声波声纹防伪模型训练。本发明所述数据增强方法通过不同目标设备的脉冲响应数据,模拟出一批具有多样化设备特性的多域增强数据集,模型可以通过在该多域增强数据集上进行训练或结合其他的域自适应训练方法,增强算法模型在不同设备上的泛化能力和鲁棒性。
附图说明
图1是本发明的数据流程图;
图2为混合语音与超声波信号的跨模态音频波形和特征示例图;
图3为不同型号手机设备的频率响应曲线对比图;
图4为本发明所述数据增强方法模拟目标设备录制音频的效果示例图;
图5为超声波声纹防伪的算法示例图;
图6为不应用数据增强和应用单个目标设备脉冲响应进行增强的模型等错误率对比图;
图7为不应用数据增强和应用多个设备脉冲响应进行增强的模型等错误率对比图;
图8为不应用数据增强和应用数据增强以及域对抗训练的模型等错误率对比图。
具体实施方式
下面通过结合说明书附图,通过具体实施例,对本发明的技术方案作进一步地说明:
本发明的目的是针对超声波声纹防伪系统在不同部署设备上鲁棒性差、防伪效果差的问题,提出了一种利用原始采集设备和目标设备脉冲响应来模拟目标设备采集数据的数据增强方法,实现本发明方法的装置包括麦克风、扬声器、处理器,图1是本发明的数据流程图;
本发明的具体实施方法如下:
步骤一、采集原始音频样本构建超声波声纹防伪数据集。
超声波声纹防伪技术利用超声波的活体感知能力检测语音来源是否为真实的说话人,从而抵御针对声纹识别系统的重放攻击,除了正常采集说话人的语音信号外,还需要对说话人的嘴面部发射超声波,采集能够反映人嘴部运动模式的超声波反射信号,且需要采集到的混合音频信号能够建立语音内容和说话人嘴部运动的对应关系。
具体采集方法为,处理器将代表超声波信号的音频数据发送给内置扬声器,内置扬声器朝向说话人嘴面部播放超声波信号,在说话人说话的过程中,内置麦克风采集包含说话人语音信号和超声波回波信号的混合信号并传输给处理器处理与保存。当采集重放攻击样本时,说话人替换为了重放攻击设备的扬声器。为了使训练得到的模型具有普遍的适用性,针对不同影响因素,如不同的说话人、不同的语音指令、说话人和设备扬声器/麦克风之间不同的距离和角度、不同的环境条件等因素,采集涵盖以上不同条件的原始音频样本,从而构建得到超声波声纹防伪数据集。
示例性地,所发射的超声波信号为频率为20kHz的正弦波信号,图2为混合语音与超声波信号的跨模态音频波形和特征示例图;所示为一个混合了超声波反射信号与语音信号的原始音频样本,图中20kHz附近的频谱图展示了由于说话人嘴部的运动导致超声波反射信号产生多普勒频移现象,从而产生频率偏移的分量,该频率偏移模式可以作为刻画人嘴部运动的特征。
步骤二、采集原始采集设备和目标设备的脉冲响应。
图3为不同型号手机设备的频率响应曲线对比图,不同的商用设备的音频录制装置由于其所采用的麦克风元器件类型及质量与其在设备上布局的差异、对采集到的音频信号的后续处理差异等因素,其录制得到的声音信号相对于真实的声音信号表现出不同的频率响应特性以及不同程度的信号失真。
该频率响应曲线或脉冲响应数据可以通过二进制最大长度序列(Maximum LengthSequence,MLS)测量手段获得,具体而言,可以让手机内置扬声器发射一个最大长度序列信号,同时手机内置麦克风接收该信号并将其发送给处理器处理和保存,处理器通过计算接收信号和发射信号之间的循环互相关即可以得到该手机的设备脉冲响应数据。为了增强原始音频样本,需要获得一个原始采集设备的脉冲响应与至少一个目标设备脉冲响应。
步骤三、增强原始音频样本扩充数据集。
该步骤是本发明的核心,分为以下子步骤:
1)维纳反卷积去噪。该步骤采用维纳反卷积方法,结合原始采集设备的脉冲响应数据对原始音频样本进行去噪、增强处理,获得未受到环境噪声和设备频率响应影响的干净音频样本,具体而言,根据维纳反卷积的原理,可以根据原始采集设备的频率响应H(f)和原始音频样本不同频率点上的信噪比SNR(f)估计出一个滤波器G(f):
其中原始采集设备的频率响应H(f)通过将原始采集设备的脉冲响应经傅里叶变换转换为频域上得到,该滤波器将设备频率响应的影响进行逆转,消除设备的影响,并通过估计不同频点上的信噪比,消除环境噪声对反卷积计算的干扰。通过在频域上将原始信号与该滤波器相乘,并通过逆傅里叶变换,即可以将其还原为时域上的干净音频样本:
其中,FFT(·)为快速傅里叶变换操作,IFFT(·)为逆傅里叶变换。
2)脉冲响应卷积增强。该步骤结合干净音频样本和目标设备的脉冲响应数据得到改变了设备频率响应的增强音频样本,具体而言,通过其他设备的脉冲响应h′(t)与上一步获得的干净音频信号在时域上做卷积运算,获得模拟目标设备频率响应特性的增强音频样本:
示例性地,图4为本发明所述数据增强方法模拟目标设备录制音频的效果示例图;分别为同一句语音在目标设备上实际录制的音频、直接在原始音频样本上卷积目标设备脉冲响应进行增强的音频样本、进行维纳反卷积去噪后再卷积脉冲响应增强的音频样本的频谱图,可见由于本发明所述数据增强方法在使用目标设备的脉冲响应进行卷积运算前,对原始数据样本进行了去噪和增强处理,消除了原始采集设备频率响应和环境噪声的干扰,因此可以获得更接近目标设备上真实采集音频的增强样本。
步骤四、跨模态联合特征提取与超声波声纹防伪模型训练。
经过步骤三获得的增强数据集可以用于提取相应的特征并训练神经网络模型,来识别语音来源是否为真实说话人或检测语音是否为重放攻击。示例性地,图5为超声波声纹防伪的算法示例图;为本发明一实施例使用的跨模态联合特征提取流程和神经网络结构定义。具体可分为以下子步骤:
1)跨模态联合特征提取。对增强数据集中的音频样本提取跨模态联合特征,具体为:
对样本执行低通滤波,并提取语音频段的梅尔滤波器组特征Iv=melspecgram(LPF(y(t))),其中LPF(·)为截止频率为8kHz的低通滤波器,melspecgram(·)表示时域音频信号转换时频图并经过梅尔滤波器组处理的过程;对样本执行带通滤波,并提取超声频段上的频谱特征Iu=specgram(BPF(y(t))),其中BPF(·)为截止频率为19700Hz到20300Hz的带通滤波器,specgram(·)表示时域音频信号转换为时频谱图的过程;优选地,分别提取语音频段的40维的滤波器组特征(FilterBanks,FBanks)和超声频段的61维的多普勒频移特征,为使其在时间维度上进行对齐,选择短时傅里叶变换的窗口大小为4800个样本点,步长为1200个样本点,后在特征频率维度上将两种特征进行堆叠,得到跨模态联合特征I。
2)特征后处理。对跨模态联合特征经过进一步的特征后处理,包括归一化处理和切片处理,具体为:分别对超声频段和语音频段的特征进行Min-Max归一化,将特征值映射到0到1的区间;在时域上以一定的时间跨度为单位随机截取包含语音指令的片段,作为输入模型的特征,即Input=slice(interp(norm(Iv),norm(Iu))),其中slice(·)为随机切片操作,interp(·)为拼接操作,norm(·)为归一化操作。
3)超声波声纹防伪模型训练。超声波声纹防伪模型的神经网络结构可以为声纹领域常用的卷积神经网络作为编码器,如X-vector,ResNet,ECAPA-TDNN等,相较于其他神经网络,ECAPA-TDNN结构因其融合了不同粒度的深度特征而取得了良好的声纹识别效果,且控制了参数规模。在本发明所述实施例中采用ECAPA-TDNN作为编码器结构,并以多任务学习的训练框架将编码器与两个不同的下游分类器相连接,说话人分类任务为多分类任务,用于约束模型优化方向、加速模型收敛,并在训练完毕后抛弃该任务分支,重放攻击检测任务为二分类任务,用于训练模型识别一个语音来源是真实的说话人还是通过扬声器重放的语音。模型采用多任务学习损失和反向传播算法进行训练,并使用Adam优化器作为训练优化器,所述多任务学习损失为说话人分类任务的交叉熵损失(Cross Entropy Loss)和重放攻击检测的均方误差损失(Mean Square Error Loss)之和。
最终得到的模型可以在未实际采集训练数据的一个或多个目标设备上,有效地检测录制语音的来源是否为真实的说话人或检测语音是否为重放攻击,该安全检测结果与声纹的验证结果相结合,即可在识别用户身份的前提下,有效抵御重放攻击的威胁,大大提升声纹识别系统的安全性。
本发明还公开了一种面向超声波声纹防伪的数据增强装置,包括:
音频样本与脉冲响应采集模块:利用手机设备的麦克风与扬声器,采集混合超声波信号和语音信号的音频样本,并获得原始采集设备以及目标设备的脉冲响应;
维纳反卷积去噪模块:结合原始音频样本与原始采集设备的脉冲响应数据,通过维纳反卷积方法,获得不受噪声和设备频率响应影响的干净音频样本;
脉冲响应卷积增强模块:结合目标设备的脉冲响应数据与获得的干净音频样本,通过卷积运算获得改变了设备频率响应特性的增强音频样本;
跨模态联合特征提取模块:对增强音频样本和原始音频样本提取语音和超声频段的特征,并通过特征堆叠获得跨模态联合特征;
特征后处理模块:对上述跨模态联合特征做进一步的归一化处理和切片处理,作为神经网络训练的输入。
本发明公开了一种面向超声波声纹防伪的数据增强方法及装置。通过以上五个模块得到的增强数据样本及特征,模拟出了接近真实目标设备采集音频时的频率响应特征,从而在缺少目标设备真实采集数据的情况下,大大提升了超声波声纹防伪算法及模型在目标设备上的防伪性能,并且通过大量增强数据的训练,可以提升模型的在不同设备上部署的泛化能力和鲁棒性。
为了验证本发明的有效性,在包含200人的手机采集的超声波声纹防伪数据集上进行实验,该数据集涵盖了不同的说话人性别、年龄、口音,涵盖了室内(办公室、卧室、客厅)和车载采集场景,每条语音的长度为5到8秒,采样率为48kHz。该数据集涵盖的采集设备包括7款不同型号的手机,分别标号为P0、P1、P2、P3、P4、P5、P6,其中训练集所有样本均用P0采集,共计45190条真实说话人样本和45190条重放攻击样本,测试集采集设备包括P0至P6,共计6898条真实说话人样本和4298条重放攻击样本。
采用等错误率(Equal Error Rate,EER)指标评估本发明的性能,它是错误接受率(False Acceptance Rate,FAR)和错误拒绝率(False Rejection Rate,FRR)相等时的错误率。等错误率越低,模型识别重放攻击的准确率越高,在本发明的实施例中,采用多个相同条件下训练得到的模型等错误率的均值和方差来作为综合衡量指标。
无数据增强的模型性能评估。表1展示了超声波声纹防伪模型在未经数据增强的训练集上经过训练后,在测试集不同设备上的重放攻击检测等错误率,并作为模型基线性能与后续评估作对比。可以看出虽然模型在P0上的等错误率为5.92%,但是在其他设备上的等错误率表现不一,有的设备依旧保持着较好的检测性能,如在P4、P5上分别取得了1.1%和4.8%的等错误率,这是因为这两个设备和P0在频率响应特性上更为接近,数据分布相似,但是在P1、P2、P3、P6上的等错误率均超过了20%,甚至在P1上达到了50%。这说明了神经网络模型会对训练集数据的分布过拟合,导致其在数据分布的其他设备上表现良好,但是在分布差异较大的设备上会产生不同程度的性能下降。这也证明了在模型训练过程中采用合适的数据增强方法的必要性。
表1未经数据增强的超声波声纹防伪模型在不同设备上的重放攻击检测等错误率
使用单个目标设备脉冲响应进行增强的模型性能评估。图6为不应用数据增强和应用单个目标设备脉冲响应进行增强的模型等错误率对比图;对比了基线模型和应用数据增强来训练超声波声纹防伪模型的等错误率,展示了本发明所述数据增强方法对模型在不同设备上的识别性能有不同程度的提升。可以看出,在仅使用单个目标设备的脉冲响应对训练集进行增强后,模型的等错误率在该目标设备上的相对下降幅度为15.4%(P5)到97.9%(P2)。这表明,即使模型没有经过真实的目标设备数据的训练,通过数据增强的方法得到的模拟数据仍然可以大幅提升模型在目标设备上的对重放攻击语音的识别性能,从而使算法快速适应尚未采集数据的新设备。
使用多个目标设备脉冲响应进行增强的模型性能评估。图7为不应用数据增强和应用多个设备脉冲响应进行增强的模型等错误率对比图;对比了基线模型和应用数据增强来训练超声波声纹防伪模型的等错误率,展示了本发明所述数据增强方法对模型鲁棒性的提升。可以看出,在组合多个设备的脉冲响应对训练集进行增强后,模型的等错误率在所有设备上均得到了很大程度的下降,除了设备P1外,其他设备上的等错误率均值都低于7%,且错误率方差小于3%。这表明,利用本发明所述数据增强方法,可以在有限的数据采集成本条件下,大幅提升模型在不同设备上的泛化能力和鲁棒性,从而提高超声波声纹防伪算法模型的普遍适用性和实用性。
使用增强数据集进行域对抗训练的模型性能评估。图8为不应用数据增强和应用数据增强以及域对抗训练的模型等错误率对比图,展示了本发明所述数据增强方法得到的增强数据集用于域对抗训练(Domain Adversarial Training,DAT)的模型等错误率。域对抗训练在模型训练过程中额外增加一个域分类器,即预测设备类型的分类器,并通过梯度逆转层(Gradient Reverse Layer,GRL)来使得编码器习得一个设备无关的嵌入码空间。可以看出,相比于直接应用增强数据进行训练,使用域对抗训练后的模型在一些设备上的等错误率明显地存在进一步降低,其中在P0上的等错误率相对降低了25.2%到43.4%。这证明了本发明所述数据增强方法得到的增强数据可以进一步与域自适应训练方法相结合,从而大大降低应用域自适应或域泛化训练方法所需的数据采集成本,以进一步提升模型的泛化能力和鲁棒性。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种面向超声波声纹防伪的数据增强方法,其特征在于,包括:
通过手机麦克风与扬声器采集混合了超声波信号和语音信号的原始音频样本,并获得一个原始采集设备的脉冲响应(Impulse Response)以及至少一个目标设备脉冲响应;
结合原始采集设备的脉冲响应数据对原始音频样本进行去噪、增强处理,通过维纳反卷积方法,获得未受到环境噪声和设备频率响应影响的干净音频样本;
结合干净音频样本与目标设备的脉冲响应数据,通过卷积运算得到改变了设备频率响应特征的增强音频样本;
对增强音频样本和原始音频样本提取语音和超声频段的特征,并通过特征堆叠获得跨模态联合特征;
对跨模态联合特征经过进一步的特征后处理,得到的输入特征可用于训练区分语音来源是否为活体的神经网络模型。
2.根据权利要求1所述的面向超声波声纹防伪的数据增强方法,其特征在于,所述的结合原始采集设备的脉冲响应数据对原始音频样本进行去噪、增强处理采用维纳反卷积方法,维纳反卷积是一种广泛应用于信号与图像处理的反卷积方法,具体包括:
采用线性时不变(Linear Time-Invariant,LTI)系统的建模方式对原始采集设备采集到的原始音频信号进行建模:
y(t)=(h*x)(t)+n(t)
其中,h(t)为音频传输信道脉冲响应,n(t)为环境噪音,x(t)是未受到环境噪声和传输信道干扰的干净音频信号,*表示卷积运算,所述音频传输信道脉冲响应主要由采集设备的频率响应所决定,所述原始音频信号即原始音频样本,干净音频信号即干净音频样本;
通过原始采集设备的脉冲响应h(t)及原始音频信号y(t)来估计一个滤波器g(t),从而得到未受环境噪声和设备频率响应干扰的干净音频信号x(t)的估计:根据卷积运算的性质,上式可以转化为频域上的相乘运算,即:其中G(f)是维纳反卷积滤波器在频域上的表示;
其中H(f)表示音频采集设备的频率响应,SNR(f)为原始音频信号在不同频率点上的信噪比;
4.根据权利要求3所述的面向超声波声纹防伪的数据增强方法,其特征在于,所述对原始音频样本和获得的增强音频样本提取跨模态联合特征,具体包括:
对样本执行低通滤波,并提取语音频段的梅尔滤波器组特征Iv=melspecgram(LPF(y(t))),其中LPF(·)为低通滤波,melspecgram(·)表示时域音频信号转换时频谱并经过梅尔滤波器组处理的过程;
对样本执行带通滤波,并提取超声频段上的频谱特征Iu=specgram(BPF(y(t))),其中BPF(·)为以扬声器发射的超声波信号的频率fs为中心频率且带宽为Bs的带通滤波器,specgram(·)表示时域音频信号转换为时频谱的过程;
将Iv与Iu在时域上进行对齐,并在特征维度上进行堆叠,得到跨模态联合特征I。
5.根据权利要求1或4所述的面向超声波声纹防伪的数据增强方法,其特征在于,所述对跨模态联合特征经过进一步的特征后处理,包括归一化处理和切片处理,具体为:分别对超声频段和语音频段的特征进行Min-Max归一化,将特征值映射到0到1的区间;在时域上以一定的时间跨度为单位随机截取包含语音指令的片段,作为输入模型的特征。
6.根据权利要求5所述的面向超声波声纹防伪的数据增强方法,其特征在于,所述区分语音来源是否为活体的神经网络模型为卷积神经网络分类模型。
7.一种面向超声波声纹防伪的数据增强装置,其特征在于,包括:
音频样本与脉冲响应采集模块:用于通过手机麦克风与扬声器采集混合了超声波信号和语音信号的原始音频样本,并获得一个原始采集设备的脉冲响应以及至少一个目标设备脉冲响应;
维纳反卷积去噪模块:用于结合原始采集设备的脉冲响应数据对原始音频样本进行去噪、增强处理,通过维纳反卷积方法,获得未受到环境噪声和设备频率响应影响的干净音频样本;
脉冲响应卷积增强模块:用于结合干净音频样本与目标设备的脉冲响应数据,通过卷积运算得到改变了设备频率响应特征的增强音频样本;
跨模态联合特征提取模块:用于对增强音频样本和原始音频样本提取语音和超声频段的特征,并通过特征堆叠获得跨模态联合特征;
特征后处理模块:用于对跨模态联合特征经过进一步的特征后处理,得到的输入特征可用于训练区分语音来源是否为活体的神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211595644.0A CN116110417A (zh) | 2022-12-13 | 2022-12-13 | 一种面向超声波声纹防伪的数据增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211595644.0A CN116110417A (zh) | 2022-12-13 | 2022-12-13 | 一种面向超声波声纹防伪的数据增强方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116110417A true CN116110417A (zh) | 2023-05-12 |
Family
ID=86258842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211595644.0A Pending CN116110417A (zh) | 2022-12-13 | 2022-12-13 | 一种面向超声波声纹防伪的数据增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116110417A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116366169A (zh) * | 2023-06-01 | 2023-06-30 | 浙江大学 | 超声波信道建模方法、电子设备及存储介质 |
-
2022
- 2022-12-13 CN CN202211595644.0A patent/CN116110417A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116366169A (zh) * | 2023-06-01 | 2023-06-30 | 浙江大学 | 超声波信道建模方法、电子设备及存储介质 |
CN116366169B (zh) * | 2023-06-01 | 2023-10-24 | 浙江大学 | 超声波信道建模方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108711436B (zh) | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
CN111261189B (zh) | 一种车辆声音信号特征提取方法 | |
Kamble et al. | Analysis of reverberation via teager energy features for replay spoof speech detection | |
CN109872720B (zh) | 一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法 | |
Zhao et al. | Audio splicing detection and localization using environmental signature | |
CN110120225A (zh) | 一种基于gru网络的结构的音频降噪系统及方法 | |
CN110299141B (zh) | 一种声纹识别中录音回放攻击检测的声学特征提取方法 | |
Roman et al. | Pitch-based monaural segregation of reverberant speech | |
Al-Karawi et al. | Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions | |
Kamble et al. | Detection of replay spoof speech using teager energy feature cues | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
CN109841219A (zh) | 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法 | |
CN116110417A (zh) | 一种面向超声波声纹防伪的数据增强方法及装置 | |
CN114639387A (zh) | 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法 | |
Singh et al. | Countermeasures to replay attacks: A review | |
Zhao et al. | Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification | |
Guo et al. | Underwater target detection and localization with feature map and CNN-based classification | |
Patil et al. | Significance of cmvn for replay spoof detection | |
CN111161753B (zh) | 基于智能终端的安全语音交互方法及系统 | |
CN114093385A (zh) | 一种无人机检测方法及装置 | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Zhou et al. | Replay attack anaysis based on acoustic parameters of overall voice quality | |
Rumsey | Audio forensics: Keeping up in the age of smartphones and fakery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |