CN114822587B - 一种基于常数q变换的音频特征压缩方法 - Google Patents

一种基于常数q变换的音频特征压缩方法 Download PDF

Info

Publication number
CN114822587B
CN114822587B CN202110066946.8A CN202110066946A CN114822587B CN 114822587 B CN114822587 B CN 114822587B CN 202110066946 A CN202110066946 A CN 202110066946A CN 114822587 B CN114822587 B CN 114822587B
Authority
CN
China
Prior art keywords
voice
cqt
dimensional
model
replay attack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110066946.8A
Other languages
English (en)
Other versions
CN114822587A (zh
Inventor
陈洪刚
陈露
周欣
何小海
王正勇
卿鳞波
滕奇志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110066946.8A priority Critical patent/CN114822587B/zh
Publication of CN114822587A publication Critical patent/CN114822587A/zh
Application granted granted Critical
Publication of CN114822587B publication Critical patent/CN114822587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出了一种基于常数Q变换的音频特征压缩方法用于重放攻击检测,在保证重放攻击检测高性能的同时,大幅度减小数据量、提高模型训练和检测速度、降低设备要求。为了保证检测的高性能,根据CQT变换中分帧特点,选择在时间帧上用求和的方式实现最终的压缩目的,以期不会丢失有效信息。同时对应设计的一维模块的残差网络模型,通过减少网络各层的输出通道数以减少数据量,从而进一步提高训练和检测速度。本发明模型在ASVspoof2019挑战赛的PA数据集上进行实验,在测试集上展现了良好的重放攻击检测性能,并且,与未压缩的特征‑模型相比,模型训练和测试耗时锐减、设备要求较低。

Description

一种基于常数Q变换的音频特征压缩方法
技术领域
本发明涉及生物识别技术中的语音重放攻击检测问题,尤其是涉及一种基于常数Q变换(Constant Q Transform,CQT)的语音特征压缩来提取有效且数据量小的特征的方法用于重放攻击检测。
背景技术
语音重放攻击检测是一种判别真人发声和录音重放的生物识别技术。随着语音录制设备质量的提高,重放攻击给说话人识别与验证带来了严重威胁,提高重放攻击检测性能具有重要的现实意义。
重放攻击系统的检测性能主要取决于特征提取和网络模型两个方面。在特征提取阶段,尽可能提取更多的、可以区分真人发声语音和重放语音的有效特征;在网络模型方面,设计学习特征能力更强的网络模型,以期训练出更能准确判断真假语音的模型。
所以,目前大多数性能良好的系统就是从以上两个角度入手:多特征融合是一种有效的特征提取和处理手段,比如简单的不同频段特征的融合、第三届自动说话人验证欺骗与对策ASVspoof2019挑战赛第一的清华团队采用幅度和相位特征的融合;网络模型方面,加深网络模型学习更复杂的特征,增加注意力机制,或者多模型融合判别,都对提高检测性能有帮助。但是,这些特征融合和模型改进,大幅度地增加了实验成本——模型训练及测试速度缓慢、设备要求极高。本发明从特征和模型两个角度减小数据量、计算量,加快训练和测试速度、降低设备要求。
发明内容
针对效率和成本问题,本发明提出了一种基于常数Q变换的音频特征压缩算法,首先对语音的CQT频谱在时间帧上进行压缩,得到一维频谱特征。然后针对该特征设计基于一维模块的较小型残差网络模型resnet50_1D。本发明就是通过压缩特征和网络模型来达到高训练速度和低设备要求的目的。最后在ASVspoof2019 PA公开数据集上训练得到语音重放攻击检测模型及测试结果。
附图说明
图1特征压缩算法示意图。
图2真人发声与语音重放的判别流程图。
具体实施方式
下面结合附图对本发明作进一步说明:
音频的CQT频谱特征压缩方法用于重放攻击检测的具体方法如下:
首先按照附图1对语音的CQT频谱在时间帧上进行求和压缩处理。附图1中,每列灰色方格代表该时间帧中不同频率成分的含量,颜色越深代表含量越多。在频谱的压缩处理中,首先计算出呈指数敏感的CQT频谱M×N,其中M由最低频率fmin、最高频率fmax及每个八度音的频带个数B决定:
Figure BDA0002904539080000021
在该维度上的数据减小是以丢失音频信息为代价的,因此不宜压缩。而N与CQT的分帧处理有关,且仅仅是在时间上作切片,对CQT频谱的时间维度N进行求和压缩,并不会影响音频的频率成分及含量。由此得到本发明的压缩一维特征CQTZ,长度为M。具体压缩处理公式为:
Figure BDA0002904539080000022
其中,mean、SD分别代表
Figure BDA0002904539080000023
的均值和标准差,n=1,2,......,N代表时间帧。表2显示了CQT频谱特征压缩前后的数据量对比,由于ASVspoof2019PA数据集里的原始语音长短不一,则CQT变换后的N不同,所以表1中未压缩特征的数据量是根据众数取的估计值。而且,通常为了便于对各条数据进行批量处理,会在对原始语音进行求频谱等变换之前,将每条语音进行填充或截断成相同的长度,使得最终每条语音得到的M和N都分别一致,至少要保证每个batch中的数据尺寸一致。但是由此也会带来弊端——若将所有语音填充到最长语音的长度,越短的语音加入越多或重复或空白无用的数据;若把每条语音填充、截断成适当长度,截断会损失一些语音信息。而本发明则不需要将语音处理成相同长度,也可以避免填充的重复或空白数据带来的无用数据量的增加,以及截断带来的语音信息的损失。
表1 CQT频谱特征压缩前后的数据量对比
Figure BDA0002904539080000024
然后用压缩算法得到的一维特征数据训练按表2所示搭建好的网络模型。残差网络最后一层用logsoftmax分类器实现二分类。从表2中对比标准resnet50可以看出,本发明中网络模型resnet50_1D的处理模块都是一维的,这是对应网络输入端输入的一维音频特征数据而设计的。其中resnet50_1D的conv2至conv5中卷积核参数比resnet50多,所以为了减少参数量,将本发明中的模型每层输出通道数对比减少到1/4,综合计算,resnet50_1D的参数远远小于resnet50的。
表2模型结构对比
Figure BDA0002904539080000031
表3定量对比了网络模型的参数量,显而易见,本发明的特征和模型处理大幅度地减少了训练数据量。
表3网络模型的参数量对比
Figure BDA0002904539080000032
最后,如附图2所示,把待测试语音输入上述训练好的重放攻击检测模型,每条语音根据logsoftmax二分类器得到的概率使用对数似然比计算评测分数,用等错误率EER作为判别阈值,评测分数大于等于阈值的语音判别为真人发声。
表4是本发明与国内外一些特征-模型在ASVspoof2019挑战赛PA数据集的对比结果,其中,串联决策成本函数t-DCF为主要评价标准,等错误率EER为次要指标。
表4不同特征-模型在ASVspoof2019 PA数据集上的测试结果
Figure BDA0002904539080000041
从表4可以看出本发明相比挑战赛的基线系统测试性能有明显提升,也优于其他一些特征-模型。同时,经过测试,本发明的模型训练耗时不到3小时,而未压缩的CQT频谱和对应的resnet50训练时长超过2天,而且必须更换内存更大的显卡才能保证程序的正常运行。由此可见,本发明在保证语音重放攻击检测高性能的同时,可以大幅度地提高训练和测试速度、降低设备要求。

Claims (5)

1.一种基于常数Q变换的音频特征压缩方法用于重放攻击检测,其特征在于包括以下步骤:
(1)对语音信号作常数Q变换CQT得到二维频谱;
(2)对(1)中结果按照各频率成分在时间维度N上进行无填充、无截断的求和压缩,得到一维特征数据CQTZ
(3)根据(2)中一维的CQTZ设计一维处理模块的残差网络模型resnet50_1D,减少模型参数;
(4)用(3)中模型结果使用对数似然函数得到语音的评测分数,比较评测分数和阈值的大小,判别真人发声或语音重放。
2.根据权利要求1所述的方法,其特征在于步骤(2)对步骤(1)中所得的语音CQT频谱在时间维度作压缩,压缩方法如下:
对于一条时序语音来说,对其作CQT变换得到的频谱(M,N)是二维的,其中M代表各频率分量,N代表时间帧,按照CQT对非平稳语音信号的分帧处理特点,即仅仅是时间上的切片,那么对N代表的时间帧作求和压缩处理不会影响每条语音所含有的各频率分量及其含量,对二维CQT谱的时间帧求和压缩得到长度为M的一维特征数据∑,计算一维特征数据的均值mean、标准差CD,再作归一化处理——(∑-mean)/CD,得到归一化的压缩特征数据,这一压缩处理是减小特征的数据量的关键。
3.根据权利要求1所述的方法,其特征在于步骤(3)对应步骤(2)所得的一维特征数据,设计一维处理模块的残差网络模型resnet50_1D,该模型中减少卷积层、BN层、激活层的输出通道数,与对应的标准resnet50相比,其对应层的输出通道数减小到resnet50的1/4,以此减小需要计算、保存和更新的参数量。
4.根据权利要求1所述的方法,其特征在于步骤(4)对步骤(3)中模型的二分类结果使用似然函数求语音评测分数,用于比较判别的阈值等于用评测分数所得的等错误率EER。
5.根据权利要求1所述的方法,其特征在于通过二维CQT谱的时间帧压缩和残差网络模型每层输出通道的减小两个方面来大幅度减小数据量,在保证语音重放攻击检测高性能的同时,极大地提高了模型的训练和检测速度,降低了设备要求。
CN202110066946.8A 2021-01-19 2021-01-19 一种基于常数q变换的音频特征压缩方法 Active CN114822587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110066946.8A CN114822587B (zh) 2021-01-19 2021-01-19 一种基于常数q变换的音频特征压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110066946.8A CN114822587B (zh) 2021-01-19 2021-01-19 一种基于常数q变换的音频特征压缩方法

Publications (2)

Publication Number Publication Date
CN114822587A CN114822587A (zh) 2022-07-29
CN114822587B true CN114822587B (zh) 2023-07-14

Family

ID=82525065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110066946.8A Active CN114822587B (zh) 2021-01-19 2021-01-19 一种基于常数q变换的音频特征压缩方法

Country Status (1)

Country Link
CN (1) CN114822587B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473569A (zh) * 2019-09-11 2019-11-19 苏州思必驰信息科技有限公司 检测说话人欺骗攻击的优化方法及系统
CN111816203A (zh) * 2020-06-22 2020-10-23 天津大学 基于音素级分析抑制音素影响的合成语音检测方法
CN111835784A (zh) * 2020-07-22 2020-10-27 苏州思必驰信息科技有限公司 用于重放攻击检测系统的数据泛化方法及系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9299364B1 (en) * 2008-06-18 2016-03-29 Gracenote, Inc. Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications
CN106297772B (zh) * 2016-08-24 2019-06-25 武汉大学 基于扬声器引入的语音信号失真特性的回放攻击检测方法
US10249289B2 (en) * 2017-03-14 2019-04-02 Google Llc Text-to-speech synthesis using an autoencoder
CN108039176B (zh) * 2018-01-11 2021-06-18 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
KR102605736B1 (ko) * 2018-03-15 2023-11-27 한국전자통신연구원 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치
CN108615536B (zh) * 2018-04-09 2020-12-22 华南理工大学 基于麦克风阵列的时频联合特征乐器音质评价系统及方法
US10803885B1 (en) * 2018-06-29 2020-10-13 Amazon Technologies, Inc. Audio event detection
KR20230144650A (ko) * 2018-09-07 2023-10-16 그레이스노트, 인코포레이티드 오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치
US11232788B2 (en) * 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
CN111755024B (zh) * 2019-03-27 2023-02-10 四川大学 一种基于迁移学习的暴恐音频检测方法
CN110211604A (zh) * 2019-06-17 2019-09-06 广东技术师范大学 一种用于语音变形检测的深度残差网络结构
CN110299141B (zh) * 2019-07-04 2021-07-13 苏州大学 一种声纹识别中录音回放攻击检测的声学特征提取方法
CN111611566B (zh) * 2020-05-12 2023-09-05 珠海造极智能生物科技有限公司 一种说话人验证系统及其重放攻击检测方法
CN111653289B (zh) * 2020-05-29 2022-12-27 宁波大学 一种回放语音检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473569A (zh) * 2019-09-11 2019-11-19 苏州思必驰信息科技有限公司 检测说话人欺骗攻击的优化方法及系统
CN111816203A (zh) * 2020-06-22 2020-10-23 天津大学 基于音素级分析抑制音素影响的合成语音检测方法
CN111835784A (zh) * 2020-07-22 2020-10-27 苏州思必驰信息科技有限公司 用于重放攻击检测系统的数据泛化方法及系统

Also Published As

Publication number Publication date
CN114822587A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN109285538B (zh) 一种基于常q变换域的加性噪声环境下手机来源识别方法
US7245767B2 (en) Method and apparatus for object identification, classification or verification
US7457749B2 (en) Noise-robust feature extraction using multi-layer principal component analysis
CN109243487B (zh) 一种归一化常q倒谱特征的回放语音检测方法
CN111564163B (zh) 一种基于rnn的多种伪造操作语音检测方法
CN102436810A (zh) 一种基于信道模式噪声的录音回放攻击检测方法和系统
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
AU2013223662B2 (en) Modified mel filter bank structure using spectral characteristics for sound analysis
CN106653032A (zh) 低信噪比环境下基于多频带能量分布的动物声音检测方法
CN110120230B (zh) 一种声学事件检测方法及装置
CN111986699B (zh) 基于全卷积网络的声音事件检测方法
CN113505826B (zh) 基于联合特征选择的网络流量异常检测方法
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
CN111583957B (zh) 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法
CN111508524A (zh) 语音来源设备的识别方法和系统
CN113436646B (zh) 一种采用联合特征与随机森林的伪装语音检测方法
CN110767248A (zh) 一种抗变调干扰的音频指纹提取方法
CN110246509A (zh) 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构
CN114822587B (zh) 一种基于常数q变换的音频特征压缩方法
CN116844554A (zh) 一种基于Transformer和CNN长时语音的声纹识别方法
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
CN111370000A (zh) 声纹识别算法评估方法、系统、移动终端及存储介质
CN116230012B (zh) 一种基于元数据对比学习预训练的两阶段异音检测方法
CN113593579A (zh) 一种声纹识别方法、装置和电子设备
CN113782051B (zh) 广播效果分类方法及系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant