CN114822587B

CN114822587B - 一种基于常数q变换的音频特征压缩方法

Info

Publication number: CN114822587B
Application number: CN202110066946.8A
Authority: CN
Inventors: 陈洪刚; 陈露; 周欣; 何小海; 王正勇; 卿鳞波; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2023-07-14
Anticipated expiration: 2041-01-19
Also published as: CN114822587A

Abstract

本发明提出了一种基于常数Q变换的音频特征压缩方法用于重放攻击检测，在保证重放攻击检测高性能的同时，大幅度减小数据量、提高模型训练和检测速度、降低设备要求。为了保证检测的高性能，根据CQT变换中分帧特点，选择在时间帧上用求和的方式实现最终的压缩目的，以期不会丢失有效信息。同时对应设计的一维模块的残差网络模型，通过减少网络各层的输出通道数以减少数据量，从而进一步提高训练和检测速度。本发明模型在ASVspoof2019挑战赛的PA数据集上进行实验，在测试集上展现了良好的重放攻击检测性能，并且，与未压缩的特征‑模型相比，模型训练和测试耗时锐减、设备要求较低。

Description

一种基于常数Q变换的音频特征压缩方法

技术领域

本发明涉及生物识别技术中的语音重放攻击检测问题，尤其是涉及一种基于常数Q变换(Constant Q Transform，CQT)的语音特征压缩来提取有效且数据量小的特征的方法用于重放攻击检测。

背景技术

语音重放攻击检测是一种判别真人发声和录音重放的生物识别技术。随着语音录制设备质量的提高，重放攻击给说话人识别与验证带来了严重威胁，提高重放攻击检测性能具有重要的现实意义。

重放攻击系统的检测性能主要取决于特征提取和网络模型两个方面。在特征提取阶段，尽可能提取更多的、可以区分真人发声语音和重放语音的有效特征；在网络模型方面，设计学习特征能力更强的网络模型，以期训练出更能准确判断真假语音的模型。

所以，目前大多数性能良好的系统就是从以上两个角度入手：多特征融合是一种有效的特征提取和处理手段，比如简单的不同频段特征的融合、第三届自动说话人验证欺骗与对策ASVspoof2019挑战赛第一的清华团队采用幅度和相位特征的融合；网络模型方面，加深网络模型学习更复杂的特征，增加注意力机制，或者多模型融合判别，都对提高检测性能有帮助。但是，这些特征融合和模型改进，大幅度地增加了实验成本——模型训练及测试速度缓慢、设备要求极高。本发明从特征和模型两个角度减小数据量、计算量，加快训练和测试速度、降低设备要求。

发明内容

针对效率和成本问题，本发明提出了一种基于常数Q变换的音频特征压缩算法，首先对语音的CQT频谱在时间帧上进行压缩，得到一维频谱特征。然后针对该特征设计基于一维模块的较小型残差网络模型resnet50_1D。本发明就是通过压缩特征和网络模型来达到高训练速度和低设备要求的目的。最后在ASVspoof2019 PA公开数据集上训练得到语音重放攻击检测模型及测试结果。

附图说明

图1特征压缩算法示意图。

图2真人发声与语音重放的判别流程图。

具体实施方式

下面结合附图对本发明作进一步说明：

音频的CQT频谱特征压缩方法用于重放攻击检测的具体方法如下：

首先按照附图1对语音的CQT频谱在时间帧上进行求和压缩处理。附图1中，每列灰色方格代表该时间帧中不同频率成分的含量，颜色越深代表含量越多。在频谱的压缩处理中，首先计算出呈指数敏感的CQT频谱M×N，其中M由最低频率f_min、最高频率f_max及每个八度音的频带个数B决定：

在该维度上的数据减小是以丢失音频信息为代价的，因此不宜压缩。而N与CQT的分帧处理有关，且仅仅是在时间上作切片，对CQT频谱的时间维度N进行求和压缩，并不会影响音频的频率成分及含量。由此得到本发明的压缩一维特征CQT_Z，长度为M。具体压缩处理公式为：

其中，mean、SD分别代表

的均值和标准差，n＝1_,2,......,N代表时间帧。表2显示了CQT频谱特征压缩前后的数据量对比，由于ASVspoof2019PA数据集里的原始语音长短不一，则CQT变换后的N不同，所以表1中未压缩特征的数据量是根据众数取的估计值。而且，通常为了便于对各条数据进行批量处理，会在对原始语音进行求频谱等变换之前，将每条语音进行填充或截断成相同的长度，使得最终每条语音得到的M和N都分别一致，至少要保证每个batch中的数据尺寸一致。但是由此也会带来弊端——若将所有语音填充到最长语音的长度，越短的语音加入越多或重复或空白无用的数据；若把每条语音填充、截断成适当长度，截断会损失一些语音信息。而本发明则不需要将语音处理成相同长度，也可以避免填充的重复或空白数据带来的无用数据量的增加，以及截断带来的语音信息的损失。

表1 CQT频谱特征压缩前后的数据量对比

然后用压缩算法得到的一维特征数据训练按表2所示搭建好的网络模型。残差网络最后一层用logsoftmax分类器实现二分类。从表2中对比标准resnet50可以看出，本发明中网络模型resnet50_1D的处理模块都是一维的，这是对应网络输入端输入的一维音频特征数据而设计的。其中resnet50_1D的conv2至conv5中卷积核参数比resnet50多，所以为了减少参数量，将本发明中的模型每层输出通道数对比减少到1/4，综合计算，resnet50_1D的参数远远小于resnet50的。

表2模型结构对比

表3定量对比了网络模型的参数量，显而易见，本发明的特征和模型处理大幅度地减少了训练数据量。

表3网络模型的参数量对比

最后，如附图2所示，把待测试语音输入上述训练好的重放攻击检测模型，每条语音根据logsoftmax二分类器得到的概率使用对数似然比计算评测分数，用等错误率EER作为判别阈值，评测分数大于等于阈值的语音判别为真人发声。

表4是本发明与国内外一些特征-模型在ASVspoof2019挑战赛PA数据集的对比结果，其中，串联决策成本函数t-DCF为主要评价标准，等错误率EER为次要指标。

表4不同特征-模型在ASVspoof2019 PA数据集上的测试结果

从表4可以看出本发明相比挑战赛的基线系统测试性能有明显提升，也优于其他一些特征-模型。同时，经过测试，本发明的模型训练耗时不到3小时，而未压缩的CQT频谱和对应的resnet50训练时长超过2天，而且必须更换内存更大的显卡才能保证程序的正常运行。由此可见，本发明在保证语音重放攻击检测高性能的同时，可以大幅度地提高训练和测试速度、降低设备要求。

Claims

1.一种基于常数Q变换的音频特征压缩方法用于重放攻击检测，其特征在于包括以下步骤：

(1)对语音信号作常数Q变换CQT得到二维频谱；

(2)对(1)中结果按照各频率成分在时间维度N上进行无填充、无截断的求和压缩，得到一维特征数据CQT_Z；

(3)根据(2)中一维的CQT_Z设计一维处理模块的残差网络模型resnet50_1D，减少模型参数；

(4)用(3)中模型结果使用对数似然函数得到语音的评测分数，比较评测分数和阈值的大小，判别真人发声或语音重放。

2.根据权利要求1所述的方法，其特征在于步骤(2)对步骤(1)中所得的语音CQT频谱在时间维度作压缩，压缩方法如下：

对于一条时序语音来说，对其作CQT变换得到的频谱(M，N)是二维的，其中M代表各频率分量，N代表时间帧，按照CQT对非平稳语音信号的分帧处理特点，即仅仅是时间上的切片，那么对N代表的时间帧作求和压缩处理不会影响每条语音所含有的各频率分量及其含量，对二维CQT谱的时间帧求和压缩得到长度为M的一维特征数据∑，计算一维特征数据的均值mean、标准差CD，再作归一化处理——(∑-mean)/CD，得到归一化的压缩特征数据，这一压缩处理是减小特征的数据量的关键。

3.根据权利要求1所述的方法，其特征在于步骤(3)对应步骤(2)所得的一维特征数据，设计一维处理模块的残差网络模型resnet50_1D，该模型中减少卷积层、BN层、激活层的输出通道数，与对应的标准resnet50相比，其对应层的输出通道数减小到resnet50的1/4，以此减小需要计算、保存和更新的参数量。

4.根据权利要求1所述的方法，其特征在于步骤(4)对步骤(3)中模型的二分类结果使用似然函数求语音评测分数，用于比较判别的阈值等于用评测分数所得的等错误率EER。

5.根据权利要求1所述的方法，其特征在于通过二维CQT谱的时间帧压缩和残差网络模型每层输出通道的减小两个方面来大幅度减小数据量，在保证语音重放攻击检测高性能的同时，极大地提高了模型的训练和检测速度，降低了设备要求。