CN105938716B

CN105938716B - 一种基于多精度拟合的样本复制语音自动检测方法

Info

Publication number: CN105938716B
Application number: CN201610192323.4A
Authority: CN
Inventors: 杨莹春; 孙永坤; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2019-05-28
Anticipated expiration: 2036-03-30
Also published as: CN105938716A

Abstract

本发明涉及语音检测领域，尤其涉及一种基于多精度拟合的样本复制语音自动检测方法，包括如下步骤：S1、建立语音特征库；S2、目标说话人识别模型训练；S3、样本复制语音检测模型训练；S4、说话人识别；S5、样本复制语音检测。本发明的样本复制语音自动检测方法，可以防止冒认者获取到用于声纹识别系统训练模型的样本复制语音后，试图通过越过测试语音采集步骤，直接调用服务端接口的方式将样本复制语音直接提交给声纹识别系统的服务端进行入侵的情况发生，提高了声纹识别系统的安全性。

Description

一种基于多精度拟合的样本复制语音自动检测方法

技术领域

本发明涉及语音检测领域，尤其涉及一种基于变精度拟合的样本复制语音入侵检测方法。

背景技术

随着互联网技术的发展，声纹识别技术在工业界比如公安侦查、声纹控制、电子金融、智能家居等领域得到了广泛应用。与此同时，说话人识别系统正在面临前端攻击及传输存储等安全问题的威胁，这在一定程度上制约了其应用和发展。样本复制语音和训练样本几乎完全相同，拥有相同的语速、文本、背景噪声、能量特征等，在音素空间上极为接近。在声纹识别系统的应用场景中，尤其是在发展越来越快的网络应用中，通过一些网络技术，语音数据在传输或存储过程中极容易被截获。这对系统造成了极大的安全威胁。

声纹识别系统入侵检测的一种方法是使用混合系统，比如将声纹和人脸等其他生物信息相结合的混合型身份认证系统，以及将声纹识别和动态随机文本的语音识别相结合的VIV(Verbal Information Verification)系统。这些系统参考了用户其他信息或即时信息，能够很好地避免样本复制语音的攻击。但是，此类方法实施起来流程复杂，并且往往需要采集大量额外信息。

另外，还有一种基于信道模式噪声的入侵检测技术，利用了回放的语音中不仅含有系统的信道模式噪声，还含有偷录设备和回放设备的信道模式噪声的特点，此方法相对简单，但是并没有解决冒认者直接利用样本语音攻击说话人识别系统的问题。

2008年，加拿大研究员W.Sheng和M.Stevenson通过对电话信道的研究，得出了录音回放攻击检测(Playback Attack Detection)的理论技术。他首先将信号分帧并作傅里叶变换，之后取出各个帧中频谱幅度最大的前五个峰值作为特征，然后通过模式匹配识别回放录音。这种方法识别效果不错，但是识别过程需要和数据库中所有样本语音进行匹配，效率很低。

发明内容

本发明解决的技术问题在于提供一种提高语音检测系统的安全性的语音检测方法，应用于冒认者已经获取到用于声纹识别系统训练模型的样本复制语音，并试图通过越过测试语音采集步骤，直接调用服务端接口的方式将样本复制语音直接提交给声纹识别系统的服务端进行入侵的自动检测场景。

为了解决上述问题，本发明采用了如下技术方案：

一种基于多精度拟合的样本复制语音自动检测方法，包括如下步骤：

S1、建立语音特征库：采集目标说话人的样本语音，提取所有样本语音的特征，建立样本语音特征库；

S2、目标说话人识别模型训练：使用所述样本语音特征库中的特征文件，训练目标说话人样本语音识别模型；

S3、样本复制语音检测模型训练：使用所述样本语音特征库中的特征文件，训练目标说话人样本复制语音检测模型；

S4、说话人识别：录入测试语音，提取所述测试语音特征，在所述目标说话人样本语音识别模型上进行说话人识别，判断测试语音是否来源于目标说话人；若通过说话人识别测试，进入下一步；

S5、样本复制语音检测：对通过说话人识别测试的测试语音，在所述目标说话人样本复制语音检测模型上进行样本复制语音检测，判断测试语音是否为样本复制语音。

进一步的，步骤S3中，训练目标说话人样本复制语音检测模型包括：在训练时通过设置不同的仅影响模型的拟合精度的模型参数，得到仅拟合精度不同的说话人模型集合，作为目标说话人样本复制语音检测模型。

进一步的，步骤S3中，所述的样本复制语音包括样本语音的副本或副本的一部分，以及在样本语音采集过程中入侵者使用同样的设备偷录的语音。

进一步的，步骤S5中，所述的样本复制语音检测包括：将测试语音在目标说话人样本复制语音检测模型中的仅拟合精度不同的多个说话人模型上分别打分，并将得分进行排序，根据得分排序结果判定测试语音是否为样本复制语音。

进一步的，若测试语音在拟合精度越高的说话人模型上得分越高，则判定测试语音为样本复制语音；反之，若拟合精度的提高未引起测试语音在说话人模型上的似然得分的提高，则判定测试语音为非样本复制语音。

进一步的，所述目标说话人为一个或多个，当目标说话人为多个时，分别为每个目标说话人建立语音特征库，并进行相应的说话人识别模型训练和样本复制语音检测模型训练。

进一步的，步骤S4中，说话人识别包括说话人确认和/或说话人鉴别；说话人确认用于判断测试语音是否来自其所声称的目标说话人，说话人鉴别用于判断测试语音来自语音库中的哪一个目标说话人。

进一步的，说话人确认具体包括：将测试语音在其声称的目标说话人样本语音识别模型上打分，并将得分和系统阈值比较，大于阈值则判定测试语音来自其所声称的目标说话人。

进一步的，说话人鉴别具体包括：将测试语音在每一个目标说话人样本语音识别模型上分别打分，将得分最高的模型作为鉴别结果，即测试语音来自该模型对应的目标说话人。

本发明的样本复制语音自动检测方法，基于拟合精度关联的得分单调性变化现象。其原理是，在声纹识别系统中进行模型训练时，模型阶数的提高对应模型拟合精度的提高，模型拟合精度的逐步提高会带来原始模型训练语音(样本复制语音)的似然得分的关联性逐步提高。对于一个未知测试语音，将它在不同阶数的模型上计算似然得分，根据似然得分随阶数的增长关系就可以区分此测试语音是否为样本复制语音。

本发明的样本复制语音自动检测方法，可以防止冒认者获取到用于声纹识别系统训练模型的样本复制语音后，试图通过越过测试语音采集步骤，直接调用服务端接口的方式将样本复制语音直接提交给声纹识别系统的服务端进行入侵的情况发生，提高了声纹识别系统的安全性。

附图说明

图1为本发明的样本复制语音自动检测方法的流程示意图；

图2为在模型训练阶段训练多精度拟合说话人模型的流程示意图；

图3为检测通过的语音是否为样本复制语音的流程示意图；

图4为样本复制语音和非样本复制语音的似然得分随GMM模型的拟合精度增高呈现的变化趋势图。

具体实施方式

本发明提供了一种基于多精度拟合的样本复制语音自动检测方法，如附图1所示，分为训练阶段和测试阶段，训练阶段在样本语音特征提取之后进行，测试阶段在声纹识别任务之后进行。具体的，包括如下步骤：

1)采集目标说话人的样本语音，提取所有样本语音的特征，建立样本语音特征库；

2)使用样本语音特征库中的特征文件，训练目标说话人样本语音识别模型及目标说话人样本复制语音检测模型；训练模型时设置不同的模型参数使系统的拟合精度递增，分别保存这些模型，用于样本语音检测；

3)录入测试语音，提取测试语音特征，并使用测试语音的特征文件，在目标说话人样本语音识别模型上进行说话人确认和/或说话人鉴别；

其中，说话人确认具体包括：将测试语音在其声称的目标说话人样本语音识别模型上打分，并将得分和系统阈值比较，大于阈值则判定测试语音来自其所声称的目标说话人；说话人鉴别具体包括：将测试语音在每一个目标说话人样本语音识别模型上分别打分，将得分最高的模型作为鉴别结果，即测试语音来自该模型对应的目标说话人；若通过说话人识别测试，进入下一步；

4)对通过说话人识别测试的测试语音，在目标说话人样本复制语音检测模型上进行样本复制语音检测并打分；对单个测试语音的多个得分进行排序，如果在拟合精度越高的模型上得分越高，表明测试语音为样本复制语音；反之，如果在拟合精度越高的模型上得分并非越高，则表明测试语音非样本复制语音。

为了进一步理解本发明，下面结合具体实施例对本发明的优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

由于说话人识别在现有的声纹识别系统中已得到普遍的应用，在此不多作说明。此处主要说明样本复制语音检测模型的训练和样本复制语音的检测。

1、样本复制语音检测模型训练阶段

在模型训练阶段训练多精度拟合(不同阶数)的目标说话人模型，即目标说话人样本复制语音检测模型，这里以高斯混合模型(GMM，Gaussian Mixture Model)为例。如图2所示，模型训练阶段主要分为三个步骤：

1)采集目标说话人的样本语音：常使用的采样频率为8KHz，10KHz或16KHz；

2)提取样本语音的梅尔频率倒谱系数(MFCC)特征：MFCC参数取5～18阶即可，通常会加上一维能量特征和MFCC的一阶delta特征，以保存局部语音的变化信息；

3)和以往的声纹识别系统不同，这里要训练多精度拟合的说话人模型，即多个阶数的GMM模型：训练时GMM阶数分别设置为8、128、256、512、1024，其它参数则保持一致，得到的模型集合为M₈、M₁₂₈、M₂₅₆、M₅₁₂、M₁₀₂₄；

此处是以GMM模型为例进行说明，调整GMM模型的高斯分量个数可以改变模型的拟合精度，但在使用其它模型的声纹识别系统中可能要调整其它参数以达到同样的效果。

2、样本复制语音检测阶段

此阶段放在声纹识别系统的后端，即先进行声纹识别任务，识别通过的语音进一步检测是否为样本复制语音。如图3所示，具体分为如下几个步骤：

1)测试语音录入：这里的测试语音可能是样本复制语音，也可能是其它非样本复制语音；

2)特征提取：和模型训练时保持一致，仍然提取MFCC特征；

3)使用测试语音的MFCC在所有GMM模型上计算似然得分；

4)对得分进行排序，如果得分满足S₁₀₂₄>S₅₁₂>S₂₅₆>S₁₂₈>S₈则判定此测试语音为样本复制语音；否则，则判定测试语音为非样本复制语音。

以上判断依据是基于GMM模型的拟合精度增高时，拟合精度更高的模型更逼近样本数据的实际分布。由于GMM模型参数估计基于最大似然准则，该模型生成给定样本的概率比拟合精度低的模型要大，样本语音在该模型上的似然得分就更高；与此对应的是拟合精度更高的模型对非样本语音的音素空间描述能力降低，该模型生成非样本语音的概率减小，相应的似然得分就更小。即样本复制语音和非样本复制语音的似然得分随GMM模型的拟合精度(这里选取的拟合精度的因变量为模型阶数)增高呈现不同的变化趋势，如图4所示，其中前6个测试语音为样本复制语音，后面54个为非样本复制语音。

上述实施例中的样本复制语音自动检测方法在MASC@CCNT库上进行了实验，该库包含68个说话人的语音数据，以1号说话人为例，此库包含其20种不同短文本的发音，每种文本包含三遍发音，一共60句。

我们选取其前6种文本的第一遍发音作为样本语音，MFCC阶数为12阶，训练GMM模型，GMM阶数分别选择8、128、256、512、1024。这样每个说话人就得到5个GMM模型，一共得到68*5个GMM模型。

然后用每个说话人所有60句语音进行交叉测试。每个测试语句在不同目标说话人的8个模型上进行打分。一共进行(68*60)*(68*5)次测试。

统计每个测试语句在目标说话人的不同GMM模型上的得分，如果测试语音为目标说话人的样本复制语音并且得分满足S₁₀₂₄>S₅₁₂>S₂₅₆>S₁₂₈>S₈；或者，测试语音不是目标说话人的样本复制语音并且得分不满足S₁₀₂₄>S₅₁₂>S₂₅₆>S₁₂₈>S₈，则表明检测成功。实验结果显示，识别正确率达到99.3％。

还需指出，上述实验中，模型阶数需适当选择，过于低阶的模型之间区分性不大，比如8阶和16阶、32阶、64阶之间，得分比较相近，可以只选择一个8阶代表这几个低阶模型。检测正确率如表1所示。

表1模型阶数选择与检测正确率的关系

模型阶数选择	正确率
		8_16_32_64_128_256_512_1024	0.689
32_64_128_256_512_1024	0.953
		64_128_256_512_1024	0.984
8_128_256_512_1024	0.993

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于多精度拟合的样本复制语音自动检测方法，其特征在于，包括如下步骤：

S2、目标说话人识别模型训练：使用所述样本语音特征库中的特征文件，训练目标说话人样本语音识别模型，具体包括：

在训练时通过设置不同的仅影响模型的拟合精度的模型参数，得到仅拟合精度不同的说话人模型集合，即多精度拟合的说话人模型，作为目标说话人样本复制语音检测模型；所述的样本复制语音包括样本语音的副本或副本的一部分，以及在样本语音采集过程中入侵者使用同样的设备偷录的语音；

S5、样本复制语音检测：对通过说话人识别测试的测试语音，在所述目标说话人样本复制语音检测模型上进行样本复制语音检测，判断测试语音是否为样本复制语音，具体包括：

将测试语音在目标说话人样本复制语音检测模型中的仅拟合精度不同的多个说话人模型上分别打分，并将似然得分进行排序，根据得分排序结果判定测试语音是否为样本复制语音；若测试语音在拟合精度越高的说话人模型上得分越高，则判定测试语音为样本复制语音；反之，若拟合精度的提高未引起测试语音在说话人模型上似然得分的提高，则判定测试语音为非样本复制语音。

2.如权利要求1所述的基于多精度拟合的样本复制语音自动检测方法，其特征在于，所述目标说话人为一个或多个，当目标说话人为多个时，分别为每个目标说话人建立语音特征库，并进行相应的说话人识别模型训练和样本复制语音检测模型训练。

3.如权利要求2所述的基于多精度拟合的样本复制语音自动检测方法，其特征在于，步骤S4中，说话人识别包括说话人确认和/或说话人鉴别；说话人确认用于判断测试语音是否来自其所声称的目标说话人，说话人鉴别用于判断测试语音来自语音库中的哪一个目标说话人。

4.如权利要求3所述的基于多精度拟合的样本复制语音自动检测方法，其特征在于，说话人确认具体包括：将测试语音在其声称的目标说话人样本语音识别模型上打分，并将得分和系统阈值比较，大于阈值则判定测试语音来自其所声称的目标说话人。

5.如权利要求3所述的基于多精度拟合的样本复制语音自动检测方法，其特征在于，说话人鉴别具体包括：将测试语音在每一个目标说话人样本语音识别模型上分别打分，将得分最高的模型作为鉴别结果，即测试语音来自该模型对应的目标说话人。