CN110299141A

CN110299141A - 一种声纹识别中录音回放攻击检测的声学特征提取方法

Info

Publication number: CN110299141A
Application number: CN201910598714.XA
Authority: CN
Inventors: 俞一彪; 郭星辰
Original assignee: Suzhou University
Current assignee: Shanghai Enterprise Information Technology Co ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-10-01
Anticipated expiration: 2039-07-04
Also published as: CN110299141B

Abstract

本发明公开了一种声纹识别中录音回放攻击检测的声学特征提取方法，该方法包括：对输入语音进行预处理；对经过预处理的每一帧语音信号进行傅里叶变换，将时域信号转换为频域信号，得到语音信号的频谱；计算傅里叶变换后的每一帧语音信号的谱线能量；根据谱线能量对每一帧语音信号进行非对称双曲正弦频率尺度变换滤波；对滤波后的每一帧语音信号进行对数变换，得到每一帧语音信号的对数能量谱；对每一帧语音信号的对数能量谱进行离散余弦变换，得到每一帧语音信号的双曲正弦倒谱系数。本发明通过非对称双曲正弦频率尺度变换规定了语音频谱信息的有效利用方法，强化了原始语音与录音回放攻击语音的信道差异，可以提高录音回放攻击检测的性能。

Description

一种声纹识别中录音回放攻击检测的声学特征提取方法

技术领域

本发明涉及声学信号处理技术领域，特别涉及一种声纹识别中录音回放攻击检测的声学特征提取方法。

背景技术

声纹识别是一种基于生物特征的身份识别技术，可以通过说话人的语音特征鉴别说话人的身份，具有便捷、非接触、非易失性以及采集设备简单等特点，有望成为人脸识别之外另一种被普遍应用的生物特征身份识别技术。但声纹识别系统的安全应用必须解决仿冒攻击的问题，包括语音合成仿冒攻击和录音回放仿冒攻击两大类，由于录音回放语音与原始语音的高度相似性，因此最大的挑战是录音回放攻击。

早期录音回放攻击检测由于缺乏公开的大语料数据库和基线系统，研发人员很难开展有效的研究工作并将自己的实验结果同他人的实验结果进行比较，因此录音回放攻击检测的相关研究长期处于停滞状态。2017年国际语音通信协会(ISCA)组织了ASVspoof国际挑战赛，主要针对声纹识别中录音回放攻击检测技术进行研究和交流，它提供了三个标准大语料数据库、基线系统和通用评估标准。在ASVspoof数据库上，各国研究人员提出了诸多方法提升录音回放攻击检测的性能并取得了一些进展，但在检测性能和实时性方面仍然需要提高。

语音识别中常用的声学特征是语音频谱特征，主要有线性预测倒谱系数(LPCC，Linear Prediction Cepstrum Cofficients)和美尔频率倒谱系数(MFCC，Mel-FrequencyCepstrum Cofficents)等，这些特征参数较好地表达了语音的频谱包络结构，也一定程度上反映了人类听觉系统的特点。这些特征参数可以用于录音回放攻击检测，但由于原始语音与录音回放语音在频谱包络结构上的高度相似性，以及录音回放攻击检测需要具有超越人类鉴别能力的水平，因此这些特征参数在实验中所表现出的性能一般。

现有特征提取方法中，语音频谱的特征信息没有得到充分提取和利用，影响了攻击检测性能。无论LPCC、MFCC，还是CQCC(常数Q倒谱系数，Constant Q CepstralCoefficients)，都是采用了强化低频段频谱信息的方法。例如，CQCC使用了常数Q变换，该变换的频域采样点随频率呈现指数分布，低频段频率分辨率远远高于高频段频率分辨率，所以CQCC特征主要包含语音频谱低频段信息，弱化了语音频谱高频段的信息。而实际上，录音回放攻击语音与原始语音相比，由于存在录音和回放这两个额外过程，录音设备和回放设备的频响特性是非均匀的，使得其频谱在低频段和高频段都会不同程度地出现衰减或畸变现象，因此仅仅强调低频段频谱信息是不充分的。

发明内容

针对现有技术的不足，本发明目的在于提供一种能够提取更全面、有效的声学特征，提升录音回放攻击检测性能的声学特征提取方法。其采用如下技术方案：

一种声纹识别中录音回放攻击检测的声学特征提取方法，其包括以下步骤：

S10、对输入语音进行预处理；

S20、对经过预处理的每一帧语音信号进行傅里叶变换，将时域信号转换为频域信号，得到语音信号的频谱；

S30、计算傅里叶变换后的每一帧语音信号的谱线能量；

S40、根据谱线能量对每一帧语音信号进行非对称双曲正弦频率尺度变换滤波；

S50、对滤波后的每一帧语音信号进行对数变换，得到每一帧语音信号的对数能量谱；

S60、对每一帧语音信号的对数能量谱进行离散余弦变换，得到每一帧语音信号的双曲正弦倒谱系数。

作为本发明的进一步改进，所述步骤S10中的预处理包括分帧、加窗和去噪。

作为本发明的进一步改进，所述步骤S10具体包括：

S11、对输入语音信号x(n)进行分帧，将语音信号分割成帧长为N的多个语音帧，相邻两帧之间有重叠，帧移为L；

S12、对分帧后的每一帧语音信号x(i，n)加窗，用窗长为N的汉明窗乘每一帧语音信号，得到加窗后的语音帧计算公式如下：

S13、计算每一帧的短时能量SE(i)，将SE(i)小于一定阈值θ_SE的帧作为背景噪声消除，得到消除背景噪声之后的纯输入语音信号，计算公式如下：

作为本发明的进一步改进，阈值θ_SE根据应用场合的背景噪声短时能量平均值的二倍设置。

作为本发明的进一步改进，所述步骤S20具体包括：

根据离散傅里叶变换公式，采用快速傅里叶变换算法对经过预处理的每一帧语音信号进行傅里叶变换，将时域信号转换为频域信号傅里叶变换公式如下：

其中，k表示频域中的第k条谱线。

作为本发明的进一步改进，所述步骤S40具体包括：

步骤S41、使用非对称双曲正弦频率尺度变换公式计算实际频率分布范围对应的双曲正弦频率尺度分布范围，在新的双曲正弦频率尺度分布范围内配置多个满足相邻滤波器中心频率与边界频率之间关系的等宽三角形滤波器；

步骤S42、通过非对称双曲正弦频率尺度变换公式的逆变换，计算双曲正弦频率尺度分布范围内等间隔分布的三角形滤波器组对应的原始频率尺度三角形滤波器组，得到原始频率尺度上每个三角形滤波器的中心频率值与边界频率值，得到每个滤波器的幅频响应；

步骤S43、根据每个滤波器的幅频响应计算每一帧语音信号谱线能量通过非对称双曲正弦频率尺度变换滤波器的输出值。

作为本发明的进一步改进，所述非对称双曲正弦频率尺度变换公式为：

其中，f是原始频率，F_sinh是双曲正弦频率，两个指数项参数0.0011和0.001分别用来控制高频段和低频段的非对称变换，参数3750控制变换的中心频率。

作为本发明的进一步改进，所述相邻滤波器中心频率与边界频率之间关系具体包括：

f_c(l)＝f_lo(l+1)＝f_hi(l-1)，l＝1～L

f_lo(1)＝0

f_hi(L)＝F_sinh(f_s/2)

其中，f_c(l)表示第l个滤波器的中心频率，f_s表示采样频率，f_lo(l)表示第l个滤波器的低频边界频率，f_hi(l)表示第l个滤波器的高频边界频率，L表示滤波器个数。

作为本发明的进一步改进，所述步骤S43具体包括：

在频域中将每一帧语音信号能量谱与第l个非对称双曲正弦频率尺度变换滤波器幅频响应在对应频率点相乘然后相加得到其输出值S_w(i，l)，计算公式如下：

作为本发明的进一步改进，所述步骤60中离散余弦变换的公式为：

作为本发明的进一步改进，所述标记点的数量不少于四。

本发明的有益效果：

(1)本发明通过非对称双曲正弦频率尺度变换(HSFT)规定了语音频谱信息的有效利用方法，强化了原始语音与录音回放攻击语音的信道差异，克服了现有技术的不足，可以提高录音回放攻击检测的性能。

(2)本发明通过非对称双曲正弦频率尺度变换滤波计算得到双曲正弦倒谱系数HSCC，相对现有CQCC和MFCC特征参数，不仅充分利用了低频段的频谱信息，同时充分利用了高频段的频谱信息，有利于提高攻击检测性能。

(3)本发明双曲正弦倒谱系数HSCC的提取中，非对称双曲正弦频率尺度变换滤波器组可以事先确定，没有重采样，相对现有方法降低了计算复杂度，缩短了提取特征所需的时间。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明中实施例中声纹识别中录音回放攻击检测的声学特征提取方法的示意图；

图2是本发明实施例中非对称双曲正弦频率尺度变换的频率映射曲线图；

图3是本发明实施例中构建的非对称双曲正弦频率尺度变换滤波器组的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例

如图1所示，为本发明实施例中声纹识别中录音回放攻击检测的声学特征提取方法，该方法包括以下步骤：

S10、对输入语音进行预处理；

步骤S10中的预处理包括分帧、加窗和去噪，步骤S10具体包括以下步骤：

S11、对输入语音信号x(n)进行分帧，将语音信号分割成帧长为N(实际可选1024)的多个语音帧，相邻两帧之间有重叠，帧移为L(实际可选256)；

S13、计算每一帧的短时能量SE(i)，将SE(i)小于一定阈值θ_SE的帧作为背景噪声消除，阈值θ_SE根据应用场合的背景噪声短时能量平均值的二倍设置。得到消除背景噪声之后的纯输入语音信号，计算公式如下：

具体的：根据离散傅里叶变换公式，采用快速傅里叶变换算法对经过预处理的每一帧语音信号进行傅里叶变换，将时域信号转换为频域信号傅里叶变换公式如下：

其中，k表示频域中的第k条谱线。

S30、计算傅里叶变换后的每一帧语音信号的谱线能量；

具体的，根据公式E_w(i，k)＝|X_w(i，k)|²，k＝0～N计算每一帧语音信号的谱线能量，其中，谱线能量是幅度谱的平方。

其中，通过非对称双曲正弦频率尺度变换(HSFT，asymmetric HyperbolicSinusoidalFrequency scale Transform)将原始频率映射到双曲正弦频率。HSFT将原始频率的低频和高频段进行了非线性扩张，而中频段进行了压缩，从而提高了高低两个频段的频率分辨率，既全面利用了语音的频谱信息，又强化了语音频谱中高低频段的特征信息。

具体的，非对称双曲正弦频率尺度变换公式为：

如图2所示，为非对称双曲正弦频率尺度变换的频率映射曲线图。

具体的，步骤S40包括以下步骤：

其中，在新的双曲正弦频率尺度分布范围内等间隔地选取L(实际可选取48)个中心频率值，采样频率f_s＝16KHz，并以这些中心频率设置等宽三角形滤波器构成三角形滤波器组。

具体的，相邻滤波器中心频率与边界频率之间关系公式如下：

f_c(l)＝f_lo(l+1)＝f_hi(l-1)，l＝1～L

f_lo(1)＝0

f_hi(L)＝F_sinh(f_s/2)

步骤S42、通过非对称双曲正弦频率尺度变换公式的逆变换，计算双曲正弦频率尺度分布范围内等间隔分布的三角形滤波器组对应的原始频率尺度三角形滤波器组，得到原始频率尺度上每个三角形滤波器的中心频率值与边界频率值，得到每个滤波器的幅频响应，完成构建非对称双曲正弦频率尺度变换滤波器组。如图3所示，为构建的非对称双曲正弦频率尺度变换滤波器组，其中各个三角形滤波器宽度不等。

具体的，步骤S43具体包括：

在频域中将每一帧语音信号的谱线能量与第l个非对称双曲正弦频率尺度变换滤波器幅频响应在对应频率点相乘然后相加得到其输出值S_w(i，l)，计算公式如下：

实际计算时，非对称双曲正弦频率尺度变换滤波器组是可以预先确定的，每一个滤波器的幅频响应也是预先确定的，不需要重复计算。

其中，原始频谱可视为由频谱细节和频谱包络组成，将滤波器的输出值进行对数变换后得到可将乘性信号转换为加性信号，有利于分离频谱细节和频谱包络。

其中，离散余弦变换有很好的能量集中性，仅用几个变换系数就可以代表信号能量。将以上滤波器组对数输出值进行离散余弦变换，便得到双曲正弦倒谱系数。

具体的，步骤60中离散余弦变换的公式为：

接着，我们使用ASVSpoof 2017 2.0数据库中的训练集样本(包含10个说话人，1508条原始语音，1508条录音回放语音)和评估集样本(包含24个说话人，1298条正常原始语音，12008条录音回放语音)作为训练语音和测试语音，其中，将将输入语音分割成帧长为1024的语音帧，帧移为256，使用窗长为1024的汉明窗乘每一帧语音信号，录音回放攻击检测实验及结果介绍如下。

模型训练

训练集中的原始正常语音样本和录音回放语音样本被用于模型训练。这些语音通过上述特征提取方法提取双曲正弦倒谱系数HSCC，然后作为特征参数分别用于训练64分量原始语音高斯混合模型GMMgenuine和64分量录音回放攻击语音高斯混合模型GMMspoof。其中，训练高斯混合模型采用最大期望(EM)算法进行。

系统测试

测试集中的语音样本被用于系统性能测试。这些语音通过非对称双曲正弦频率尺度变换滤波提取双曲正弦倒谱系数HSCC，然后分别计算两个模型GMMgenuine和GMMspoof的似然度，得到由对数似然比表示的输入语音得分，如公式如下：

score＝LL(GMM_genuine)-LL(GMM_spoof)

其中，LL(GMM_genuine)和LL(GMM_spoof)分别为测试语音对于原始语音模型和录音回放攻击语音模型的平均对数似然度。输入语音得分越高，表示其为原始语音的可能性越高，反之越低。

检测判决根据对数似然比得分score与阈值θs的大小关系进行，判决规则公式如下：

其中，检测判决可能存在两类错误，一种是把录音回放攻击语音判决为原始语音，称错误接受；另一种是把原始语音判决为录音回放攻击语音，称错误拒绝。错误接受率(FAR，false Accept Rate)和错误拒绝率(FRR，False Reject Rate)是两个重要性能指标，与阈值θ_s有关，其值越大FRR越大而FAR越小，反之其值越小FAR越大而FRR越小。等错误率(EER，Equal Error Rate)是指FAR与FRR相同时的错误率，反映系统的综合性能，该指标值越低说明检测性能越好。EER也是2017年ASVSpoof挑战赛中用于衡量录音回放攻击检测性能的唯一标准。

双曲正弦倒谱系数特征HSCC与CQCC特征(基线系统)在相同条件下测试得到的录音回放攻击检测比较结果如表1示。

表1：录音回放攻击检测比较结果

特征	双曲正弦倒谱系数HSCC	CQCC(基线系统)
			EER	23.99％	30.69％

从表1中可以看出在录音回放攻击检测中，基于非对称双曲正弦频率尺度变换滤波的HSCC特征提取方法性能明显优于CQCC特征提取方法。

本发明通过非对称双曲正弦频率尺度变换(HSFT)规定了语音频谱信息的有效利用方法，强化了原始语音与录音回放攻击语音的信道差异，克服了现有技术的不足，可以提高录音回放攻击检测的性能。

本发明通过非对称双曲正弦频率尺度变换滤波计算得到双曲正弦倒谱系数HSCC，相对现有CQCC和MFCC特征参数，不仅充分利用了低频段的频谱信息，同时充分利用了高频段的频谱信息，有利于提高攻击检测性能。

本发明双曲正弦倒谱系数HSCC的提取中，非对称双曲正弦频率尺度变换滤波器组可以事先确定，没有重采样，相对现有方法降低了计算复杂度，缩短了提取特征所需的时间。

以上实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种声纹识别中录音回放攻击检测的声学特征提取方法，其特征在于，包括以下步骤：

S10、对输入语音进行预处理；

S30、计算傅里叶变换后的每一帧语音信号的谱线能量；

2.如权利要求1所述的声纹识别中录音回放攻击检测的声学特征提取方法，其特征在于，所述步骤S10中的预处理包括分帧、加窗和去噪。

3.如权利要求2所述的声纹识别中录音回放攻击检测的声学特征提取方法，其特征在于，所述步骤S10具体包括：

S12、对分帧后的每一帧语音信号x(i，n)加窗，用窗长为N的汉明窗乘每一帧语音信号，得到加窗后的语音帧x_w(i，n)，计算公式如下：

S13、计算每一帧的短时能量SE(i，将SE(i)小于一定阈值θ_SE的帧作为背景噪声消除，得到消除背景噪声之后的纯输入语音信号，计算公式如下二

4.如权利要求3所述的声纹识别中录音回放攻击检测的声学特征提取方法，其特征在于，所述阈值θ_SE根据应用场合的背景噪声短时能量平均值的二倍设置。

5.如权利要求1所述的声纹识别中录音回放攻击检测的声学特征提取方法，其特征在于，所述步骤S20具体包括：

根据离散傅里叶变换公式，采用快速傅里叶变换算法对经过预处理的每一帧语音信号进行傅里叶变换，将时域信号转换为频域信号X_w(i，k)，傅里叶变换公式如下：

其中，k表示频域中的第k条谱线。

6.如权利要求1所述的声纹识别中录音回放攻击检测的声学特征提取方法，其特征在于，所述步骤S40具体包括：

7.如权利要求6所述的声纹识别中录音回放攻击检测的声学特征提取方法，其特征在于，所述非对称双曲正弦频率尺度变换公式为：

8.如权利要求7所述的声纹识别中录音回放攻击检测的声学特征提取方法，其特征在于，所述相邻滤波器中心频率与边界频率之间关系具体包括：

f_c(l)＝f_lo(l+1)＝f_hi(l-1)，l＝1～L

f_lo(1)＝0

f_hi(L)＝F_sinh(f_s/2)

9.如权利要求8所述的声纹识别中录音回放攻击检测的声学特征提取方法，其特征在于，所述步骤S43具体包括：

在频域中将每一帧语音信号能量谱E_w(i，k)，与第l个非对称双曲正弦频率尺度变换滤波器幅频响应在对应频率点相乘然后相加得到其输出值S_w(i，l)，计算公式如下：

10.如权利要求9所述的声纹识别中录音回放攻击检测的声学特征提取方法，其特征在于，所述步骤60中离散余弦变换的公式为：