CN105139857A

CN105139857A - 一种自动说话人识别中针对语音欺骗的对抗方法

Info

Publication number: CN105139857A
Application number: CN201510561139.8A
Authority: CN
Inventors: 李明; 翁时涛; 王尧
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2015-09-02
Filing date: 2015-09-02
Publication date: 2015-12-09
Anticipated expiration: 2035-09-02
Also published as: CN105139857B

Abstract

本发明提出了一种自动说话人识别中针对欺骗技术的对抗方法，该方法是基于多种特征和多个子系统融合方法的反语音欺骗技术。本发明通过融合语音层面音素后验概率串联特征和声音层面MFCC特征或相位层面MFDCC特征，系统的性能得到显著的提升。通过组合已经提出的i-vector子系统和涵盖声音和韵律层信息的OpenSMILE(open？Speech？and？Music？Interpretation？by？Large？Space？Extraction)基准，进一步提升了系统最终的表现。对于后端模型，使用开发数据，在欺骗性攻击已知的情况下，两级的支持向量机比一级余弦相似度或PLDA评分有更加优异的表现。而在测试数据不可见且欺骗性条件未知的情况下，一级评分方式表现出了更强的鲁棒性。

Description

一种自动说话人识别中针对语音欺骗的对抗方法

技术领域

本发明涉及自动化说话人识别领域，更具体地，涉及一种自动说话人识别中针对语音欺骗的对抗方法。

背景技术

说话人识别的目的是通过一段语音自动确认已知说话人的身份。在过去的十年中，说话人识别吸引了许多研究者的注意力，同时也取得了非常显著的成果。但是最近的报道称，许多现有的说话者识别系统对不同的欺骗性攻击，例如：说话人自适应的语音合成，声音转换，声音回放等，对抗能力十分脆弱。

由于说的内容被限制或者预先定义好了，基于文本的说话人识别比文本独立的说话人识别对声音回放的欺骗性攻击有更强的鲁棒性。而说话人自适应声音合成和声音转化作为最常用的欺骗手法，可以将任意文本或者说话转换成原本说话人的声音。为了提高说话人识别系统对于欺骗性攻击的鲁棒性，不同的方法已经被提出。更高级别的动态特征以及语音质量评估被用于检测那些人造信号。此外，修正的群时延倒谱系数(MGDCC)特征已被提出用于在相位层面区分原始和伪造的语音信号。这种方法是基于合成的欺骗性语音和真人流畅说话的相位信息有明显差异的事实，然而人的听觉系统对于这种差异并不敏感。从幅度谱和相位谱获得的长期间的调制特征也已经被提出用来检测合成语音。

总体变化空间因子(I-vector)由于均匀优异的性能，高的鉴别性和较小的储存空间，已被广泛用于在说话者识别。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷(不足)，提供一种自动说话人识别中针对语音欺骗的对抗方法，鲁棒性更强。

为解决上述技术问题，本发明的技术方案如下：

一种自动说话人识别中针对语音欺骗的对抗方法，包括以下步骤：

1)音频数据的采集；

2)特征提取，提取上述音频数据的四种特征，分别为：OpenSMILE特征，MFCC特征，MFCC-PPP特征和MGDCC-PPP特征；

3)分类判别，对得到的特征采用多种方式进行分类，得到分类结果，其中分类方式包括K近邻分类、余弦相似度评分、PLDA建模和支持向量机SVM；

4)得分融合：在评分层面采用加权求和融合的方法来进一步提升性能，融合的权重是通过开发数据集调试出来的。

进一步的，所述步骤2)中各特征的具体提取过程为：

21)OpenSMILE特征提取方法：将由步骤1)获取的音频数据导入OpenSMILE工具，计算出包括MFCC特征，响度，听觉频谱，浊音概率，F0，F0包络，粗糙声程

22)MFCC特征向量提取方法：对由步骤1)的音频数据，以T1ms的数据为一帧，且每隔T2ms提取一帧，计算出音频数据个总的帧数；

对音频数据中的每一帧，依次进行以下步骤：提取数据，预加重和去除直流偏移，然后将它和加窗函数相乘；然后计算该点的能量，进行快速傅里叶变换并计算功率谱；计算每个梅尔滤波器的能量，以及对数能量并作余弦变换，保留18个MFCC系数以及它们的一阶差分，一共36维的特征作为MFCC特征；

23)MFCC-PPP特征向量提取方法：MFCC-PPP特征向量是由MFCC特征向量提取方法提取的MFCC特征和串联特征组合起来得到的；其中串联特征是用音素识别器和英语声学模型进行音素解码，对得到的音素后验概率进行主成分分析和均值方差归一化得到的；

24)MGDCC-PPP特征提取方法：将由MFCC特征向量提取方法提取的MFCC特征替换成群时延功能相位谱MGDCC特征，就能得到MGDCC-PPP特征；

采用上述得到的MFCC，MFCC-PPP和MGDCC-PPP特征构建各自的高斯混合模型GMM，并对各自的高斯模型进行统计量计算和因子分析，分别得到MFCC-ivector，MFCC-PPP-ivector，MGDCC-PPP-ivector，最后对得到的i-vector特征和OpenSMILE特征进行归一化。

进一步的，所述24)中MGDCC特征是一种强调语音相位特性的帧层面的特征，是由如下方法得到的，

首先获得修改后的群时延功能相位谱MGDFPS，同样是将已有的音频数据分帧，对于每一个帧x(n)，n是语音信号的采样点的索引，MGDFPS谱的是通过如下公式计算出来的：

其中X(ω)和Y(ω)是声音信号x(n)和nx(n)的傅里叶变换；X_R(ω)和X_I(ω)是X(ω)的实部和虚部；Y_R(ω)和Y_I(ω)分别是Y(ω)的实部和虚部；|S(ω)|²是通过平滑X(ω)获得的；再这基础上应用了梅尔频率滤波器和离散余弦变换，则获得MGDCC特征。

进一步的，上述步骤3)中：

31)K近邻分类的实现过程为：

K近邻分类是一种无参数支持多个类的分类器；

对于训练数据计算出的i-vector特征，将属于同一个人的所有i-vector特征划为一个类；

对于测试数据得到的需要评分的i-vector特征，找到与它最临近的类，其中要评分的i-vector特征和已知类中的i-vector特征之间的距离是基于欧氏距离计算出来的：

D(x_t,y_t)＝sqrt(Σ(x_t-y_t)^2

x_t，y_t分别代表两个i-vector特征；最后，根据要评分的i-vector特征在各个类的分布计算出相应的评分；

32)余弦相似度评分的实现过程为：

对于得到的i-vector特征，如果是训练数据得到的，将属于同一个人的i-vector特征归为一类，并计算出这个类的平均值，该平均值也是一个i-vector特征；

对于测试数据得到的需要评分的i-vector特征，通过如下公式计算出两个i-vector特征x，y的余弦相似度，其中x是要评分的i-vector特征，y_t是每个人的均值i-vector特征，t是不同人的索引：

s i m i l a r i t y (x, y_{t}) = \frac{x^{t} y_{t}}{| | x | |_{2} | | y_{t} | |_{2}}

得到的余弦相似度的值则作为评判的分数；

33)PLDA建模的实现过程为：

对于上述由训练数据/语音得到的i-vector特征，假设有R个i-vector特征是属于同一个说话人的，将这R个i-vector特征的集合表示为{η_r:r＝1,…,R}，则PLDA模型假设每一个i-vector被分解成：

η_r＝m+φβ+∈_r

其中m是一个全局偏移，φ的每一列是用来表示各个用户自身特异性的子空间，β是一个隐式识别向量，服从正态分布，∈_r是残余项；在该公式中，m+φβ只与每个说话人自身特性有关，而不受每一句话影响；而∈_r则依赖于每一句话；

对于需要评分的测试数据的i-vector特征，采用基于假设的标准对数似然比来用于评分：

其中η₁表示需要评分的i-vector特征，η₂表示训练好的已知说话人的i-vector特征，是一个假设，假设η₁，η₂共享同一个隐式识别向量β，也是一个假设，假设η₁，η₂各自包含不同的隐式识别向量β₁，β₂；

34)支持向量机SVM的实现过程为：

采用了线性内核LIBLINEAR和多项式内核LIBPOLY延展两种SVM来进行分类；

其中线性内核LIBLINEAR是一个大型线性分类的开源库；对于训练数据得到的L个i-vector特征x_i，i＝1,…,L，将属于同一个说话人的标记y_i为+1，不是该说话人的i-vector特征标记y_i为-1，分类器计算如下公式：

\min_{w} [\frac{1}{2} w^{T} w + {CΣ}_{i = 1}^{L} m a x (1 - y_{i} w^{T} x_{i}, 0)]

其中C是一个大于0的惩罚项，自定义；w是一个和i-vector特征维数相同的向量，由公式得到：

w = Σ_{i = 1}^{L} α_{i} y_{i} x_{i} - - - (1)

α_i是系数，只有离分割平面最近的i-vector特征的系数α_i＞0，其它i-vector的系数α_i＝0；

然后，对于测试数据中需要评分的i-vector特征x，计算w^Tx，得到的值被映射到[-1,1]上，其中结果大于0的特征向量会被认为属于同一个说话人的，结果小于0的i-vector特征会判为不属于同一个说话人，同时，结果越远离分割点0，说明判别可信度越高；

多项式内核延展LIBPOLY，则是将(1)式中的x_i映射到了更高维的Φ(x_i)，最后，在计算w^TΦ(x_j)的过程时，由(1)知：

\begin{matrix} w^{T} Φ (x_{j}) = {(Σ_{i = 1}^{L} α_{i} y_{i} Φ (x_{i}))}^{T} Φ (x_{j}) \\ = {(Σ_{i = 1}^{L} α_{i} y_{i} Φ (x_{i}))}^{T} Φ (x_{j}) \end{matrix}

多项式内核延展LIBPOLY中，映射后的Φ(x_i)^TΦ(x_j)设为了其中和r是用户自定义的参数，d是多项式的核数；

最终评判的方式与上述线性内核LIBLINEAR是一样的。

与现有技术相比，本发明技术方案的有益效果是：为了在对抗过程中检测出这些假的语音信号，本发明提出一个基于分数判定，包含多个不同i-vector子系统的融合方法。将声音相关的梅尔频率倒谱系数(MFCC)特征，相位层面的修正的群时延倒谱系数(MGDCC)和语音层面音素后验概率(PPP)串联特征组成的对抗策略效果都非常好。此外，在i-vector建模之前在特征层面融合这些特征也能提升对抗的效果。同时本发明使用了多项式内核支持向量机做监督分类。为了提高对抗的通用性，还采用了余弦相似性和PLDA打分作为一类分类方法。通过将之前提出的i-vector子系统以及涵盖了声音和韵律信息的OpenSMILE基准线组合起来，进一步优化了最终性能。所提出的融合系统在由INTERSPEECH2015提供的自动化说话人识别领域中针对语音欺骗的对抗的数据库中开发和测试集上实现了0.29％和3.26％的相等错误率(EER)。

附图说明

图1为本发明的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

Ⅳ实验结果

表1显示了4个子系统在开发数据上的实验结果。可以观察到在特征层面融合PPP特征提高了性能。对比MFCCi-vector子系统(EER＝6.63％)，MFCC-PPPi-vector的错误率减少了1.06％。另一方面，OpenSmile特征的结果要优于MFCCi-vector子系统，原因可能是它包含了韵律层面的信息。

在开发数据集上四个子系统的表现(使用LIBPOLY)，见表1：

方法	EER(％)
		MFCC i-vector	6.63
MFCC-PPP i-vector	1.06
		MGDCC-PPP i-vector	2.23
OpenSMILE	1.57

表1

对于开发数据所提出的方法的表现，见表2：

表2

不同阶多项式内核的MFCC-PPPi-vectorSVM子系统的表现，见表3：

表3

LIBLINEAR和简化PLDA后端在未知欺骗手段的条件下的表现(EER)，见表4：

训练集	测试集	PLDA	LIBLINEAR
				人声和欺骗手段	人声和欺骗手段[1]	3.57	3.4

表4

其中1，2，3，4，5分别代表一种欺骗手段，包括语音合成，声音回放等。我们用不同欺骗手段获得的语音数据和真实说话人的语音数据来训练模型，再用相应的欺骗手段和真实说话人的语音来测试，在后端检测系统的性能。

测试数据上不同欺骗条件下融合系统的表现，见表5：

表5

此外，为了得到一个鲁棒性强的对抗系统，对不同的分类技术进行了评估。表2展示了在开发数据上他们的表现。由于带有SVM分类器的OpenSMILE被用来作为一个基准系统，本实施例就不在这个特征上使用其他的分类方法。另外，因为两阶段的PLDA分类器在MFCC-PPP上得到了一个很差的结果，而MFCC-PPP却是应用在其它分类方法上效果最好的特征，所以本实施例不打算将两阶段的PLDA分类器的结果融合到本发明中。在6个分类方法中，LIBPOLY将基准系统的在开发数据上的ERR从1.57％降低到了0.29％，达到了最好的效果。LIBPOLY相对于LIBLINEAR的提升促使我们进一步提高SVM多项式内核的程度。表3显示了更高多项式内核程度只能提供与双核多项式内核相同的效果，然而计算时间却显著地增加了。所以在测试数据上提交的结果是基于双多项式内核产生的。

而对于PLDA后端，实验结果显示简化PLDA对于不可见的伪造声音攻击有更强的鲁棒性。通过训练中的四种伪造的话语和在测试中的剩余的一种伪造的话语来模拟未知的欺骗性攻击。尽管对于已知的欺骗性攻击，PLDA的表现与LIBLINEAR差不多，但是对于未知的测试数据，尤其是与语音合成相关的未知攻击(索引3和4)，它的表现要优于LIBLINEAR。如表2中所示，两级的PLDA只实现了较为一般的结果，估计原因可能是训练数据中总的说话人数目有限(25)以及说话人形成的子空间可能并不垂直于欺骗数据的子空间。

表5显示了本发明对于测试数据中每一个单独的欺骗攻击的判定结果。其中S1和S5是已知的攻击，S6到S10是未知的攻击，S3和S4是合成的波形，而S1，S2和S5是通过声音转换得到的。除了S10这个大多数参与者都没有得到较好结果的测试数据外，我们的系统对于所有的攻击的对抗都表现出较好的效果，

最后，本发明的对抗方法对于已知和未知的欺骗性攻击分别达到了0.38％和6.15％的EER。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种自动说话人识别中针对语音欺骗的对抗方法，其特征在于，包括以下步骤：

1)音频数据的采集；

2.根据权利要求1所述的自动说话人识别中针对语音欺骗的对抗方法，其特征在于，所述步骤2)的具体提取过程为：

21)OpenSMILE特征提取方法：将由步骤1)获取的音频数据导入OpenSMILE工具，计算出包括MFCC特征，响度，听觉频谱，浊音概率，F0，F0包络，粗糙声程；

3.根据权利要求2所述的自动说话人识别中针对语音欺骗的对抗方法，其特征在于，所述24)中MGDCC特征是一种强调语音相位特性的帧层面的特征，是由如下方法得到的，

4.根据权利要求3所述的自动说话人识别中针对语音欺骗的对抗方法，其特征在于，上述步骤3)中：

31)K近邻分类的实现过程为：

K近邻分类是一种无参数支持多个类的分类器；

D (x_{t}, y_{t}) = s q r t (Σ (x_{t} - y_{t})^2)

32)余弦相似度评分的实现过程为：

s i m i l a r i t y (x, y_{t}) = \frac{x^{t} y_{t}}{| | x | |_{2} | | y_{t} | |_{2}}

得到的余弦相似度的值则作为评判的分数；

33)PLDA建模的实现过程为：

η_r＝m+φβ+ε_r

其中m是一个全局偏移，φ的每一列是用来表示各个用户自身特异性的子空间，β是一个隐式识别向量，服从正态分布，ε_r是残余项；在该公式中，m+φβ只与每个说话人自身特性有关，而不受每一句话影响；而ε_r则依赖于每一句话；

其中η₁表示需要评分的i-vector特征，η₂表示训练好的已知说话人的i-vector特征，H_s是一个假设，假设η₁，η₂共享同一个隐式识别向量β，H_d也是一个假设，假设η₁，η₂各自包含不同的隐式识别向量β₁，β₂；

34)支持向量机SVM的实现过程为：

\min_{w} [\frac{1}{2} w^{T} w + {CΣ}_{i = 1}^{L} m a x (1 - y_{i} w^{T} x_{i}, 0)]

w = Σ_{i = 1}^{L} α_{i} y_{i} x_{i} - - - (1)

α_i是系数，只有离分割平面最近的i-vector特征的系数α_i>0，其它i-vector的系数α_i＝0；

\begin{matrix} w^{T} Φ (x_{j}) = {(Σ_{i = 1}^{L} α_{i} y_{i} Φ (x_{i}))}^{T} Φ (x_{j}) \\ = {(Σ_{i = 1}^{L} α_{i} y_{i} Φ (x_{i}))}^{T} Φ (x_{j}) \end{matrix}

最终评判的方式与上述线性内核LIBLINEAR是一样的。