CN108711436A

CN108711436A - 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法

Info

Publication number: CN108711436A
Application number: CN201810475055.6A
Authority: CN
Inventors: 韩纪庆; 徐涌钞
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2018-10-26
Anticipated expiration: 2038-05-17
Also published as: CN108711436B

Abstract

基于高频和瓶颈特征的说话人验证系统重放攻击检测方法，涉及说话人验证系统中的重放攻击电子欺诈检测方法，为了解决现有基线系统检测说话人验证系统重放攻击的等错误率高，可靠性差的问题。提取语音音频的高频特征，并输入高斯混合模型得到分类结果一；采用Light CNN提取语音音频的瓶颈特征，并输入随机森林集成学习模型，得到分类结果二；将分类结果一和分类结果二输入LR分类器得到检测结果，实现对重放攻击的检测。

Description

基于高频和瓶颈特征的说话人验证系统重放攻击检测方法

技术领域

本发明涉及说话人验证系统中的重放攻击电子欺诈检测方法。

背景技术

当今时代，生物学身份验证的应用领域越来越广泛，但相关研究表示生物学验证技术比较容易遭受恶意欺诈(spoof)攻击。虽然对电子欺诈检测的研究已经取得一些进展，但这个问题还有诸多难点尚未攻克，生物学身份验证系统依然很容易受到欺诈攻击的影响。自动说话人验证(Automatic Speaker Verification，ASV)系统作为一种典型的生物学验证系统，欺诈攻击同样会对ASV系统安全造成影响。

近年来ASV技术已经取得长足的进步，并达到可以大规模实际应用的程度，但ASV系统不仅要求系统的稳定性、可靠性，还要求对欺诈攻击的抵抗能力。然而在未对欺诈攻击采取对抗措施的ASV系统中，欺诈攻击很容易骗过ASV系统。目前欺诈攻击手段主要有以下四种：(1)模仿(Impersonation)攻击：攻击者通过模仿合法话者的声音来达到攻击的目的，这更多的是一种人工攻击手段。(2)重放攻击(Replay Attack)：重放攻击过程如图1所示，攻击者通过黑客手段直接获取合法话者的语音数字信号，通过播放设备转为模拟信号(合法话者的声音)，再由录音设备(承载ASV系统的设备)接收来达到攻击的目的。(3)语音合成(Speech Synthesis)攻击：攻击者通过能自适应合法话者发音特点的语音合成(Text-To-Speech，TTS)系统伪造语音来进行欺诈攻击。(4)声音转换(Voice Conversion，VC)攻击：攻击者通过将自己的声音调整至与合法话者声音相似来达到攻击的目的。

在上述四种攻击手段中，重放攻击是攻击者最容易实现的欺诈攻击手段，因为这种攻击的实现不需要语音信号处理的相关知识。由于缺乏可公开的数据集和标准化的基线系统，早期的重放攻击检测的研究工作都是在各自构建的小型内部数据集上进行，而这些数据集也大多都是通过少量的录音和回放设备进行收集，因此研究者很难将自己的结果与其他人的结果进行比较，因此重放攻击检测的相关研究长期处于停滞的状态。正是在这样的背景下，相关研究工作者在付出极大的努力后构建ASVspoof和RedDots Replayed两个数据集，因此，重放攻击检测方面的第一个拥有统一数据标签，以及评判准则的标准数据集应运而生。

基线系统发展至今仍存在检测说话人验证系统重放攻击的等错误率高，可靠性差的问题。

发明内容

本发明的目的是为了解决现有基线系统检测说话人验证系统重放攻击的等错误率高，可靠性差的问题，从而提供基于高频和瓶颈特征的说话人验证系统重放攻击检测方法。

本发明所述的基于高频和瓶颈特征的说话人验证系统重放攻击检测方法，包括以下步骤：

步骤一、提取训练集语音音频的高频特征，以该特征为训练集数据训练高斯混合模型，得到训练分类结果一；

步骤二、采用Light CNN提取训练集语音音频的瓶颈特征，以该特征为训练集数据训练随机森林集成学习模型，得到训练分类结果二；

步骤三、以训练分类结果一和训练分类结果二为训练集数据训练LR分类器，LR分类器输出最终训练的分类结果，完成训练；

步骤四、提取评估集语音音频的高频特征，并输入完成训练的高斯混合模型得到评估分类结果一；

步骤五、采用Light CNN提取评估集语音音频的瓶颈特征，并输入完成训练的随机森林集成学习模型，得到评估分类结果二；

步骤六、将评估分类结果一和评估分类结果二输入完成训练的LR分类器得到检测结果，实现对重放攻击的检测。

优选的是，步骤一具体包括以下步骤：

步骤一一、输入训练集语音音频，对语音音频进行预处理，包括预加重、分帧和加窗，然后进行快速傅里叶变换，再提取出IMFCC特征，以该特征作为高频特征；

步骤一二、应用MVN对IMFCC特征进行修正；

步骤一三、以步骤一二得到的IMFCC特征为训练集数据，将训练集数据分为真实语音特征和欺诈语音特征，并分别训练真实语音GMM和欺诈语音GMM，得到输出后计算对数似然比即训练分类结果一。

优选的是，步骤一一中，加窗时采用布莱克曼窗口。

优选的是，步骤一一中，采用Inverted Mel频率滤波器提取出IMFCC特征。

优选的是，步骤一三中，两个GMM的高斯分量都为512，采用的训练方法为期望最大化方法。

优选的是，步骤二具体包括以下步骤：

步骤二一、输入训练集语音音频，对语音音频进行预处理，包括分帧和加窗，再提取出对数能量谱特征，

步骤二二、应用MVN对对数能量谱特征进行修正；

步骤二三、以步骤二二得到的对数能量谱特征为训练集数据训练Light CNN，将训练完成的Light CNN隐层输出作为瓶颈特征；

步骤二四、以瓶颈特征为训练集数据训练随机森林集成学习模型，得到训练分类结果二。

优选的是，步骤二四具体包括以下步骤：

步骤二四一、从瓶颈特征中通过重采样的方式产生n个样本；

步骤二四二、假设样本特征数目为F_num，分别对n个样本选择F_num中的k个特征，对k个特征应用基尼指数获得最佳分割点，构建决策树；

步骤二四三、重复步骤二四一和步骤二四二K次，产生K棵决策树。

步骤二四四、对K棵决策树的分类结果采用多数投票机制来进行分类预测，得到训练分类结果二。

优选的是，步骤二一中，加窗时采用布莱克曼窗口。

本方法通过提取CIMFCC特征进行检测来提升该方法的检测性能；再提取瓶颈特征进行检测，最后进行分数混合，进而提高说话人验证系统对重放攻击检测的性能。本发明的等错误率低，可靠性高。

附图说明

图1是重放攻击过程的示意图；

图2是真实语音验证信号与欺诈语音验证信号的频谱图；

(a)为真实语音验证信号，(b)为欺诈语音验证信号；

图3是本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

基于高频和瓶颈特征的说话人验证系统重放攻击检测方法，包括以下步骤：

步骤一、提取训练集语音音频的高频特征，以该特征为训练集数据训练高斯混合模型，得到训练分类结果一，具体为：

步骤一一、输入训练集语音音频，对输入的语音音频进行采样，对语音音频进行预加重，将输入的模拟信号转变为计算机能够处理的数字信号，然后进行分帧，加布莱克曼窗等操作，进行快速傅里叶变换，再提取出IMFCC特征，以该特征作为高频特征；

步骤一二、应用MVN对IMFCC特征进行修正；用于去噪提升系统性能。

步骤一三、以步骤一二得到的IMFCC特征为训练集数据，将训练集数据分为真实语音特征和欺诈语音特征，并分别训练真实语音GMM和欺诈语音GMM，得到输出后计算对数似然比。两个GMM的高斯分量都为512，采用的训练方法为期望最大化方法。

步骤二、采用Light CNN提取训练集语音音频的瓶颈特征，以该特征为训练集数据训练随机森林集成学习模型，得到训练分类结果二，具体为：

步骤二一、输入训练集语音音频，对输入的语音音频进行采样，将输入的模拟信号转变为计算机能够处理的数字信号，然后进行分帧、加布莱克曼窗等操作，再提取出对数能量谱(log-power-spectrum)特征；

步骤二二、应用MVN对对数能量谱特征进行修正；用于去噪提升系统性能；由于训练集语音音频长度不一致，进而得到的训练集数据帧数不一致，但Light CNN的输入要求各维度相同，因此要设置一固定帧数M，对帧数小于M的特征矩阵采用重复拼接的方式达到固定帧数，对帧数大于M的特征矩阵采用剪切的方式达到固定帧数。

在应用NIN结构，1x1和3x3卷积核，MFM激活函数后，构建一个16层的Light CNN神经网络，包含9个卷积层、4个NIN结构、5个最大池化层、1层全连接隐层、1层输出层，网络结构如表1所示。Light CNN网络训练算法采用自适应学习率方法Adam。

步骤二四、以瓶颈特征为训练集数据训练随机森林集成学习模型，采用网格搜索和交叉验证的方式来训练随机森林集成学习模型，得到训练分类结果二。

步骤三、以训练分类结果一和训练分类结果二为训练集数据训练LR分类器，LR分类器输出最终训练的分类结果，完成训练；再输入验证集语音音频对训练结果进行验证。

步骤四、提取评估集语音音频的高频特征，并输入完成训练的高斯混合模型得到分类结果一；

步骤六、将评估分类结果一和评估类结果二输入完成训练的LR分类器得到检测结果，实现对重放攻击的检测。

一、步骤一中基于高频特征的检测选用CIMFCC特征，以高斯混合模型(GaussianMixed Model，GMM)作为分类器。

如图1所示，重放攻击欺诈语音与真实语音的差别只在于，欺诈语音验证信号相较于真实语音验证信号额外经历一次信道传播，高频损失被放大。以信号经录音设备到远端验证服务器这一过程为例，欺诈语音验证信号S(t)由录音设备进行调制转为高频信号H(t)进行发送

H(t)＝S(t)cos(ωt) (1)

其中ω为调制频率；

在传输过程中不可避免的会引入噪声，在理想情况下噪声为高斯白噪声g(t)，

F(t)＝H(t)+g(t)＝S(t)cos(ωt)+g(t) (2)

信号H(t)被远端验证服务器接收，经解调得到N(t)

再经低通滤波器Lowfilter只取低频部分，即可得到欺诈语音验证信号L(t)，为与S(t)同频的高斯白噪声

L(t)与S(t)相比较不仅引入传输过程中的高斯白噪声，而且由于Lowfilter的作用，S(t)的高频部分信号被滤掉，造成S(t)在高频部分的损失，因此真实语音验证信号与欺诈语音验证信号的高频部分频谱子带存在巨大差异，典型示例如图2所示，因此体现音频高频信息的特征就可以作为检测所采用的特征。逆梅尔倒谱系数(InvertedMel Frequency Cepstral Coefficients，IMFCC)正是一种典型的高频特征。

在特征提取过程中，首先要对语音音频进行预处理，包括对语音音频进行预加重、分帧和加窗操作。

预加重处理其实是一个高通滤波器，它使语音信号的高频特性更加突现，该高通滤波器的传递函数为：

y(n)＝x(n)-ax(n-1) (5)

其中，α是预加重系数，0.9<α<1，x(n)为输入的第n个数据，y(n)为输出数据。

由于语音音频信号只在较短的时间内呈现平稳性(一般认为10-30ms)，因此将语音音频信号划分为一个个的短时段即一帧。同时为避免丢失语音信号的动态信息，相邻帧之间要有一段重叠区域，重叠区域一般为帧长的1/2或1/3。

分帧不可避免的会产生能量泄漏现象。窗函数是一个频带无限的函数，所以即使原信号是有限带宽信号，而在截断以后也必然成为无限带宽的函数，即信号在频域的能量与分布已被扩展。从采样定理可知，无论采样频率多高，只要信号一经截断，就不可避免地引起混叠，因此信号截断必然导致一些误差。能量泄漏与窗函数频谱的两侧旁瓣有关，如果两侧瓣的高度趋于零，而使能量相对集中在主瓣，就可以较为接近于真实的频谱。

不同的窗函数对信号频谱的影响并不一样，这主要是因为不同的窗函数，产生泄漏的大小不一样，频率分辨能力也不一样。信号的截断产生能量泄漏，而用快速傅里叶变换(Fast Fourier Transform，FFT)算法计算频谱又产生栅栏效应，从原理上讲这两种误差都不可能完全消除，但是可以通过选择不同的窗函数来对它们的影响进行抑制。

IMFCC提取过程中一般采用汉明窗或汉宁窗，针对重放攻击检测问题，本方法选用布莱克曼窗(Blackman Window)，布莱克曼窗和汉明窗的形式分别如公式(6)、(7)所示；

其中，a₀＝0.42,a₁＝0.5,a₂＝0.08，N为一帧取样的点数。

布莱克曼窗口较汉明窗函数多一项余弦项，该余弦项使得旁瓣降低，旁瓣的降低则有效地压制能量泄露现象；布莱克曼窗口波动比汉明窗小，频率识别精度最低，但幅值识别精度最高，有利于检测频谱能量损失，而真实语音与欺诈语音的不同也正是高频能量的损失，因此选用布莱克曼窗口。

对经过预处理之后的语音音频做快速傅里叶变换，从而将时域上的信号转换到频域上，将得到的信号用频谱表示。

在特征提取过程中，采用的是逆梅尔Inverted Mel频率滤波器，Inverted Mel由Mel滤波翻转得到，因此Inverted Mel频率可以更好的捕捉到频谱高频特性。Mel频率与实际频率的具体对应关系如公式(8)所示，Inverted Mel频率与实际频率的具体关系如公式(9)所示：

f_low为频带最低频率，f_high为频带最高频率，F_s为采样频率，M_s为DCT阶数，f_Hz和f均为实际频率；类似于临界频带的划分，可以将语音音频划分成一系列三角形的滤波器序列，即Inverted Mel滤波器组。所有信号幅度加权和作为某个带通滤波器的输出，然后对所有滤波器输出作对数运算，再进一步作离散余弦变换(Discrete Cosine Transform，DCT)即得到IMFCC。

应用均值方差归一化(Mean Variance Normalization，MVN)对IMFCC特征进行修正。MVN又名Zero-Score方法，即将原始数据集归一化为均值为0、方差1的数据集，归一化公式如公式(10)所示

其中，μ、σ分别为原始数据集的均值和方差，x为原始数据，z为归一化后的数据。针对原始信号S(t)实施重放攻击后可得到信号n为欺诈语音样本数，k为下标，这主要是因为录音及播放设备搭配的多样性，会造成信道的多样性，使得检测变成一个开集问题。为增加检测模型的泛化能力，降低不同信道对信号的差异性影响，因此应用MVN对IMFCC修正，而MVN在原始数据的分布近似为高斯分布时会对系统性能提升较多，且能提升分类模型的收敛速度以及模型精度。

修正后的IMFCC特征提取完成后，以修正后的IMFCC特征为训练集数据，将训练集数据按标签分为真实语音特征和欺诈语音特征，再分别训练真实语音GMM和欺诈语音GMM。

二、基于瓶颈特征的检测以轻量级卷积神经网络(Light Convolutional NeuralNetwork，Light CNN)提取的瓶颈特征作为输入，以随机森林集成学习器作为分类器。

由深度网络提取的瓶颈特征是一种对原始特征的高层表示，因此瓶颈特征是一种对欺诈检测更为有效的特征；选用随机森林集成学习模型作为检测分类器，是因其具有较强的抗过拟合能力，且分类建模能力较其他机器学习模型更强。

基于瓶颈特征的检测输入为基于快速傅里叶变换(Fast Fourier Transform，FFT)的对数能量谱(Log Power Spectrum)，采用对数能量谱特征，而不是其他高层声学特征，目的在于最大程度地保存音频原始信息，进而提升瓶颈特征检测性能。由于训练音频时长并不一致，因而作为Light CNN的输入就需要对输入的对数能量谱特征进行时域维度上的统一，统一方法为设置一固定帧数M，对帧数小于M的特征矩阵在时域维度上重复拼接，对帧数大于M的特征矩阵在时域维度上进行剪切。

卷积神经网络具有出色的提取局部特征的能力，而欺诈音与真实音的语音频谱在高频局部区域存在明显差异，因此采用卷积神经网络进行特征提取。若选择传统的卷积神经网络作为特征提取工具，会因为训练集数据规模小而得到比较差的训练结果，且极易过拟合，而Light CNN具有压缩网络参数规模的能力，因此选择Light CNN作为瓶颈特征提取工具。Light CNN中激活函数采用最大特征映射(Max Feature Map，MFM)函数，公式如(11)所示

其中为输入，为输出，卷积核数为2N，H，W分别代表一个特征图(FeatureMap)的纵轴阈值和横轴阈值，i,j,k分别为特征图的纵轴、横轴以及信道(channel)，特征图的横轴、纵轴实际物理意义对应频域、时域。

从MFM公式即可看出，特征图的不同信道的对应元素间表现出一种竞争关系，并且起到一种特征选择的作用，也正是因为MFM激活函数这一特性才使得Light CNN的参数规模极大降低。在网络结构上，Light CNN采用与AlexNet相似的网络结构，并且参照网中网结构(Network in Network，NIN)，在卷积核大小的选择上采用1x1卷积核和3x3卷积核，其目的也是为进行特征选择和进一步降低网络参数规模，具体网络结构如表1所示，MFM即为最大特征映射激活函数层，网络需要训练的参数数目为261346。

表1.Light CNN提取瓶颈特征的网络结构

取全连接隐层输出作为瓶颈特征。瓶颈特征本质上是原始特征经多次非线性变换得到的一种区分性更强的高层特征，因此基于瓶颈特征的检测才会具有更好的性能。

应用MVN对瓶颈特征进行修正，为了进一步提高系统检测性能。

以瓶颈特征为训练集数据训练随机森林集成学习模型。随机森林集成学习模型较为适合做多分类问题的分类器，其训练和预测速度快，能够在分类的过程中生成一个泛化误差的内部无偏估计，有较强的抗过拟合能力，此外，其实现简单并且容易实现并行化。随机森林作为一个集成学习模型，其基模型为决策树，鉴于决策树容易过拟合的缺点，随机森林采用多个决策树的投票机制来改善决策树的缺陷。假设随机森林集成学习模型需要m棵决策树，那么就需要产生m个一定数量的样本集来训练每一棵树。全样本训练忽视局部样本的规律，这不利于模型的泛化能力，因此采用可以产生n(n<m)个样本的拔靴法(Bootstrapping方法)，这是一种有放回的抽样方法。而最终结果采用Bagging的策略来获得，即多数投票机制。

随机森林集成学习模型训练步骤如下：

1.从训练样本集(瓶颈特征)中通过重采样的方式产生n个样本。

2.假设样本特征数目为F_num，对n个样本选择F_num中的k个特征，对k个特征应用基尼指数获得最佳分割点，构建决策树。

3.重复1至2共K次，产生K棵决策树。

4.对K棵决策树分类结果采用多数投票机制来进行分类预测。

最终采用分数混合将步骤一和二的结果进行组合。分数混合是一种构建集成学习器的方法。采用逻辑回归(Logistic Regression，LR)进行分数混合，LR分数混合步骤如下：训练集语音音频步骤一和二可得两个分类结果，以两个分类结果作为新的训练集音频的特征训练LR分类器，LR分类器输出即为分类结果。

表2即为采用本发明的方法与现有基线系统方法的性能对比，本发明的方法性能绝对提升达22.21％，性能相对提升达72.5％。

表2.本发明与采用现有基线系统的方法的性能对比

检测方法	评估集等错误率
		采用基线系统	30.6％
本发明的方法	8.39％

Claims

1.基于高频和瓶颈特征的说话人验证系统重放攻击检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于高频和瓶颈特征的说话人验证系统重放攻击检测方法，其特征在于，步骤一具体包括以下步骤：

步骤一二、应用MVN对IMFCC特征进行修正；

3.根据权利要求2所述的基于高频和瓶颈特征的说话人验证系统重放攻击检测方法，其特征在于，步骤一一中，加窗时采用布莱克曼窗口。

4.根据权利要求2所述的基于高频和瓶颈特征的说话人验证系统重放攻击检测方法，其特征在于，步骤一一中，采用Inverted Mel频率滤波器提取出IMFCC特征。

5.根据权利要求2所述的基于高频和瓶颈特征的说话人验证系统重放攻击检测方法，其特征在于，步骤一三中，两个GMM的高斯分量都为512，采用的训练方法为期望最大化方法。

6.根据权利要求1所述的基于高频和瓶颈特征的说话人验证系统重放攻击检测方法，其特征在于，步骤二具体包括以下步骤：

步骤二二、应用MVN对对数能量谱特征进行修正；

7.根据权利要求6所述的基于高频和瓶颈特征的说话人验证系统重放攻击检测方法，其特征在于，步骤二四具体包括以下步骤：

步骤二四一、从瓶颈特征中通过重采样的方式产生n个样本；

8.根据权利要求6所述的基于高频和瓶颈特征的说话人验证系统重放攻击检测方法，其特征在于，步骤二一中，加窗时采用布莱克曼窗口。