CN108986824A

CN108986824A - 一种回放语音检测方法

Info

Publication number: CN108986824A
Application number: CN201810745299.1A
Authority: CN
Inventors: 王让定; 林朗; 严迪群; 胡君
Original assignee: Ningbo University
Current assignee: Huzhou Chuangguan Technology Co ltd
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2018-12-11
Anticipated expiration: 2038-07-09
Also published as: CN108986824B

Abstract

本发明公开了一种回放语音检测方法，其在训练阶段，先获取语音数据库中的每个语音样本的第一变异系数向量和归一化第一倒谱特征矩阵、第二变异系数向量和归一化第二倒谱特征矩阵，作为四种特征；然后将所有正样本的四种特征分别输入到GMM模型中进行训练，得到四个正样本特征模型，同样获取四个负样本特征模型；在测试阶段，以相同方式获取待检测的语音的四种特征，将每种特征分别输入到对应的正样本特征模型和负样本特征模型中，获得四个似然比得分；根据四个似然比得分得到最终得分，通过比较最终得分与判定阈值，判定是否为回放语音；优点是其检测的等错误概率较低、鲁棒性较强、计算复杂度相对较低，且不仅仅局限于文本相关的声纹认证系统。

Description

一种回放语音检测方法

技术领域

本发明涉及一种语音检测技术，尤其是涉及一种回放语音检测方法。

背景技术

在生物识别技术领域，声纹识别系统因安全性较高、获取较为方便，在生活领域、金融领域以及司法领域得到了广泛应用。声纹识别技术不断发展的同时，各种仿冒语音对声纹识别系统的攻击也日趋严峻。在过去的几年中，研究人员对仿冒语音的检测主要集中在合成语音和转换语音上，一定程度上忽视了回放语音对声纹识别系统的攻击。事实上，首先，由于回放语音是通过真实声音直接录音得到的，因此其比合成语音和转换语音更具有威胁性；其次，回放语音相较于其他仿冒语音获取更为方便，仅仅需要一部录音设备就可以完成回放语音的获取，并且不需要伪造者有较高的专业技能，更为仿冒者提供了便利，同时近些年高保真设备的普及化和便携化，更是极大地提升了回放语音对声纹识别系统的威胁。

对于回放语音检测，国内的相关研究工作相对较少。早期的研究工作由张利鹏等人通过对语音静音段建模从而提出了一种基于语音静音段的检测算法，通过对该算法的研究发现，尽管该算法对回放语音的检测有一定的性能，但是该算法中由于使用的静音段幅度较小从而容易受到背景噪声污染，因此该算法有一定的局限性。而王志峰等人通过探究回放语音产生的机理，通过分析不同设备引入的噪声差异，提出了一种基于信道模式噪声的录音回放检测算法，该算法尽管有很好的检测效果，但是其实验只采用了一种录音设备和回放设备，因此该算法的鲁棒性有待考究。此外，国外的研究诸如Shang和Stevenson等人利用语音产生的随机性提出了一种检测待测语音和合法语音在峰值图上的相似度的算法，该算法只能够应用于文本相关的声纹认证系统。在一种检测待测语音和合法语音在峰值图上的相似度的算法的基础上，Jakub Galka等人在峰值图特性上加入了各频率点的位置关系，进一步提升了声纹认证系统抗回放语音的性能，但是该算法依旧局限于文本相关的声纹认证系统。近年来，Todisco M和Delgado H等人在2016年提出了一种基于常Q变换的CQCC(Constant Q Cepstral Coefficients)特征，尽管其对回放语音的检测有一定的效果，但是检测准确率还有待提升。Ji Z等人使用多种组合特征以及集成分类器思想，将回放语音的检测的等错误概率降低到20％左右，但是该算法的复杂度极高。Lantian Li等人通过使用F-ratio方法分析真实语音和回放语音的差异，提出了I-MFCC方法用于回放语音检测，实验表明，这种特征尽管有一定的检测效果，但此特征的鲁棒性较差。

发明内容

本发明所要解决的技术问题是提供一种回放语音检测方法，其检测的等错误概率较低、鲁棒性较强、计算复杂度相对较低，且不仅仅局限于文本相关的声纹认证系统。

本发明解决上述技术问题所采用的技术方案为：一种回放语音检测方法，其特征在于包括以下步骤：

步骤一：选取N_real个时长大于或等于1秒且各不相同的真实语音；然后获取每个真实语音对应的若干个回放语音；再将每个真实语音作为正样本，将从每个真实语音对应的所有回放语音中选择的至少1个回放语音作为负样本，由所有正样本和所有负样本构成语音数据库，语音数据库中的正样本的个数为N_real个、负样本的个数为N_back个，即语音数据库中的语音样本的个数为N_real+N_back；其中，N_real≥500，N_real≤N_back≤N_real(1+pr)，0≤pr≤13％；

步骤二：基于短时傅里叶变换获取语音数据库中的每个语音样本的第一变异系数向量和第一倒谱特征矩阵，将语音数据库中的第n_sa个语音样本的第一变异系数向量和第一倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第一倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理，得到语音数据库中的每个语音样本的归一化第一倒谱特征矩阵，将语音数据库中的第n_sa个语音样本的归一化第一倒谱特征矩阵记为其中，n_sa为正整数，1≤n_sa≤N_real+N_back，为列向量，的维数为L_1,frame×1，L_1,frame表示对语音数据库中的第n_sa个语音样本进行第一次分帧处理后得到的帧的帧长，和的维数为13×N_1,frame，N_1,frame表示对语音数据库中的第n_sa个语音样本进行第一次分帧处理后得到的帧的帧数；

基于常数Q变换获取语音数据库中的每个语音样本的第二变异系数向量和第二倒谱特征矩阵，将语音数据库中的第n_sa个语音样本的第二变异系数向量和第二倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第二倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理，得到语音数据库中的每个语音样本的归一化第二倒谱特征矩阵，将语音数据库中的第n_sa个语音样本的归一化第二倒谱特征矩阵记为其中，为列向量，的维数为L_2,frame×1，L_2,frame表示对语音数据库中的第n_sa个语音样本进行第二次分帧处理后得到的帧的帧长，和的维数为90×N_2,frame，N_2,frame表示对语音数据库中的第n_sa个语音样本进行第二次分帧处理后得到的帧的帧数，N_2,frame≠N_1,frame；

步骤三：将语音数据库中的所有正样本的第一变异系数向量输入到GMM模型中进行训练，训练得到第一正样本特征模型；将语音数据库中的所有正样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练，训练得到第二正样本特征模型；将语音数据库中的所有正样本的第二变异系数向量输入到GMM模型中进行训练，训练得到第三正样本特征模型；将语音数据库中的所有正样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练，训练得到第四正样本特征模型；同样，将语音数据库中的所有负样本的第一变异系数向量输入到GMM模型中进行训练，训练得到第一负样本特征模型；将语音数据库中的所有负样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练，训练得到第二负样本特征模型；将语音数据库中的所有负样本的第二变异系数向量输入到GMM模型中进行训练，训练得到第三负样本特征模型；将语音数据库中的所有负样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练，训练得到第四负样本特征模型；

步骤四：取一个待检测的语音，记为Y_test；然后按照步骤二的过程，以相同的方式获得Y_test的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵，对应记为和及和其中，的维数为L_test,1,frame×1，L_test,1,frame表示对Y_test进行第一次分帧处理后得到的帧的帧长，的维数为13×N_test,1,frame，N_test,1,frame表示对Y_test进行第一次分帧处理后得到的帧的帧数，的维数为L_test,2,frame×1，L_test,2,frame表示对Y_test进行第二次分帧处理后得到的帧的帧长，的维数为90×N_test,2,frame，N_test,2,frame表示对Y_test进行第二次分帧处理后得到的帧的帧数，N_test,2,frame≠N_test,1,frame；

步骤五：将分别输入到第一正样本特征模型和第一负样本特征模型中进行测试，各得到一个测试得分，并计算两个测试得分的差值作为Y_test的第一似然比得分；将分别输入到第二正样本特征模型和第二负样本特征模型中进行测试，各得到一个测试得分，并计算两个测试得分的差值作为Y_test的第二似然比得分；将分别输入到第三正样本特征模型和第三负样本特征模型中进行测试，各得到一个测试得分，并计算两个测试得分的差值作为Y_test的第三似然比得分；将分别输入到第四正样本特征模型和第四负样本特征模型中进行测试，各得到一个测试得分，并计算两个测试得分的差值作为Y_test的第四似然比得分；然后计算Y_test的第一似然比得分、第二似然比得分、第三似然比得分和第四似然比得分中的至少两个似然比得分的平均分，并将计算得到的平均分作为Y_test的最终得分；再比较Y_test的最终得分与设定的判定阈值，如果Y_test的最终得分大于或等于设定的判定阈值，则判定Y_test为真实语音，如果Y_test的最终得分小于设定的判定阈值，则判定Y_test为回放语音。

所述的步骤一中，获取每个真实语音对应的回放语音的过程中，涉及到的录制设备有多种、涉及到的回放设备有多种、涉及到的回放环境有多种。

所述的步骤二中，的获取过程为：

A1)、对语音数据库中的第n_sa个语音样本进行第一次分帧处理，将语音数据库中的第n_sa个语音样本分成N_1,frame帧，且帧长为L_1,frame，帧与帧之间的重叠为然后将语音数据库中的第n_sa个语音样本中的每帧乘以汉宁窗，以增加帧与帧之间的连续性；其中，符号为向上取整运算符号，表示语音数据库中的第n_sa个语音样本的采样点数，L_1,frame＝256,512,1024；

A2)、在步骤A1)的基础上，对语音数据库中的第n_sa个语音样本中的每帧进行短时傅里叶变换，得到语音数据库中的第n_sa个语音样本中的每帧的傅里叶变换频谱系数向量，将语音数据库中的第n_sa个语音样本中的第n_1,frame帧的傅里叶变换频谱系数向量记为然后将语音数据库中的第n_sa个语音样本中的所有帧的傅里叶变换频谱系数向量组成语音数据库中的第n_sa个语音样本对应的傅里叶变换频谱系数矩阵，记为其中，短时傅里叶变换的采样点数与帧长一致，n_1,frame为正整数，1≤n_1,frame≤N_1,frame，为列向量，的维数为L_1,frame×1，的维数为L_1,frame×N_1,frame；

A3)、计算中的每行中的所有频谱系数的均值和标准差；然后根据计算得到的所有均值和标准差，获取语音数据库中的第n_sa个语音样本的第一变异系数向量将中的第i₁个元素记为的值等于中的第i₁行中的所有频谱系数的标准差除以中的第i₁行中的所有频谱系数的均值；其中，i₁为正整数，1≤i₁≤L_1,frame。

所述的步骤二中，的获取过程为：

B1)、对语音数据库中的第n_sa个语音样本进行第二次分帧处理，将语音数据库中的第n_sa个语音样本分成N_2,frame帧，且帧长为L_2,frame，帧与帧之间的重叠为然后将语音数据库中的第n_sa个语音样本中的每帧乘以汉宁窗，以增加帧与帧之间的连续性；其中，符号为向上取整运算符号，表示语音数据库中的第n_sa个语音样本的采样点数，L_2,frame的值与常数Q变换中的一个八度的频率范围内包含的谱线数B有关，B＝96,64,32，B＝96时L_2,frame＝863，B＝64时L_2,frame＝575，B＝32时L_2,frame＝287；

B2)、在步骤B1)的基础上，对语音数据库中的第n_sa个语音样本中的每帧进行常数Q变换，得到语音数据库中的第n_sa个语音样本中的每帧的Q变换频谱系数向量，将语音数据库中的第n_sa个语音样本中的第n_2,frame帧的Q变换频谱系数向量记为然后将语音数据库中的第n_sa个语音样本中的所有帧的Q变换频谱系数向量组成语音数据库中的第n_sa个语音样本对应的Q变换频谱系数矩阵，记为其中，常数Q变换的采样点数与帧长一致，n_2,frame为正整数，1≤n_2,frame≤N_2,frame，为列向量，的维数为L_2,frame×1，的维数为L_2,frame×N_2,frame；

B3)、计算中的每行中的所有频谱系数的均值和标准差；然后根据计算得到的所有均值和标准差，获取语音数据库中的第n_sa个语音样本的第二变异系数向量将中的第i₂个元素记为的值等于中的第i₂行中的所有频谱系数的标准差除以中的第i₂行中的所有频谱系数的均值；其中，i₂为正整数，1≤i₂≤L_2,frame。

所述的步骤五中的判定阈值的设定过程为：

1)选取一个包含有多个真实语音及每个真实语音对应的回放语音的测试语音集；

2)按照步骤二的过程，以相同的方式获得测试语音集中的每个真实语音和每个回放语音的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵；

3)按照步骤五的过程，以相同的方式获得测试语音集中的每个真实语音和每个回放语音的最终得分；然后从测试语音集中的所有真实语音和回放语音的最终得分中找出最小得分和最大得分，对应记为S_min和S_max；

4)令θ表示候选判定阈值，令P_fa(θ)表示错误接受率，令P_miss(θ)表示错误拒绝率，令其中，S_min≤θ≤S_max，N_1,to_tal表示测试语音集中包含的回放语音的总个数，N₁表示最终得分大于或等于θ的所有回放语音的总个数，N₂,_total表示测试语音集中包含的真实语音的总个数，N₂表示最终得分小于θ的所有真实语音的总个数；

5)在区间[S_min,S_max]内以步长为0.01遍历θ，将满足|P_fa(θ)-P_miss(θ)|≤0.05的最小的θ值作为判定阈值。

所述的步骤五中，计算Y_test的第一似然比得分、第二似然比得分和第四似然比得分的平均分作为Y_test的最终得分。

与现有技术相比，本发明的优点在于：

1)本发明方法在训练阶段使用了不同录制设备、不同回放设备和不同回放环境下的回放语音，录制设备和回放设备涵盖高保真设备和普通设备，回放环境包含安静环境和噪声环境，使得本发明方法可以应对各种各样的回放语音的攻击，鲁棒性更强。

2)本发明方法在训练阶段仅使用了GMM模型，且只需计算语音样本的四种特征即第一变异系数向量和第一倒谱特征矩阵及第二变异系数向量和第二倒谱特征矩阵，不仅只使用了一种分类器，而且特征数量少、特征获取过程简单，有效降低了计算复杂度，因此本发明方法更易被用户接受，更具有现实意义，也方便将本发明方法加载到实际的说话人识别中用于抵抗回放语音的攻击。

3)本发明方法使用两种时频变换，充分利用了频谱信息，此外提出的归一化倒谱特征充分地提取了频谱的低频区域信息，变异系数特征弥补了中高频的信息，使得本发明方法的等错误概率低，可降低到12％以内，检测性能好。

4)由于本发明方法利用的是说话人本身的声纹信息而不是说话人的语义信息，因此本发明方法不仅仅局限于文本相关的声纹认证系统。

附图说明

图1为本发明方法的总体实现框图；

图2为不同的回放语音与真实语音的第一变异系数向量中的变异系数的分布差异示意图；

图3为不同的回放语音与真实语音的第二变异系数向量中的变异系数的分布差异示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种回放语音检测方法，其总体实现框图如图1所示，其包括以下步骤：

步骤一：选取N_real个时长大于或等于1秒且各不相同的真实语音；然后获取每个真实语音对应的若干个回放语音；再将每个真实语音作为正样本，将从每个真实语音对应的所有回放语音中选择的至少1个回放语音作为负样本，由所有正样本和所有负样本构成语音数据库，语音数据库中的正样本的个数为N_real个、负样本的个数为N_back个，即语音数据库中的语音样本的个数为N_real+N_back；其中，N_real≥500，如取N_real＝2363，N_real≤N_back≤N_real(1+pr)，0≤pr≤13％，如取N_back＝2363，为使语音数据库中的正样本与负样本达到均衡，选择的负样本的个数不能远超于正样本的个数。

在本实施例中，步骤一中，获取每个真实语音对应的回放语音的过程中，涉及到的录制设备有多种、涉及到的回放设备有多种、涉及到的回放环境有多种，因此每个真实语音对应的回放语音有多种不同组合，这些回放语音涉及到的录制设备、回放设备、回放环境至少有一种不同。

在此，直接采用ASV spoof 2017提供的训练集作为语音数据库，该训练集中有真实语音2363个，有回放语音2363个，回放语音涉及到的录制设备有8种、涉及到的回放设备有9种、涉及到的回放环境有6种，真实语音的语料是RedDots语料库中最常用的短语，说话人包含男女共18人，真实语音和回放语音的采样率为16KHz。

步骤二：基于短时傅里叶变换获取语音数据库中的每个语音样本的第一变异系数向量和第一倒谱特征矩阵，将语音数据库中的第n_sa个语音样本的第一变异系数向量和第一倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第一倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理，得到语音数据库中的每个语音样本的归一化第一倒谱特征矩阵，将语音数据库中的第n_sa个语音样本的归一化第一倒谱特征矩阵记为其中，n_sa为正整数，1≤n_sa≤N_real+N_back，为列向量，的维数为L_1,frame×1，L_1,frame表示对语音数据库中的第n_sa个语音样本进行第一次分帧处理后得到的帧的帧长，的获取采用现有技术，和的维数为13×N_1,frame，N_1,frame表示对语音数据库中的第n_sa个语音样本进行第一次分帧处理后得到的帧的帧数。

基于常数Q变换获取语音数据库中的每个语音样本的第二变异系数向量和第二倒谱特征矩阵，将语音数据库中的第n_sa个语音样本的第二变异系数向量和第二倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第二倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理，得到语音数据库中的每个语音样本的归一化第二倒谱特征矩阵，将语音数据库中的第n_sa个语音样本的归一化第二倒谱特征矩阵记为其中，为列向量，的维数为L_2,frame×1，L_2,frame表示对语音数据库中的第n_sa个语音样本进行第二次分帧处理后得到的帧的帧长，的获取采用现有技术，和的维数为90×N_2,frame，N_2,frame表示对语音数据库中的第n_sa个语音样本进行第二次分帧处理后得到的帧的帧数，N_2,frame≠N_1,frame。

在本实施例中，步骤二中，的获取过程为：

A1)、对语音数据库中的第n_sa个语音样本进行第一次分帧处理，将语音数据库中的第n_sa个语音样本分成N_1,frame帧，且帧长为L_1,frame，帧与帧之间的重叠为然后将语音数据库中的第n_sa个语音样本中的每帧乘以汉宁窗，以增加帧与帧之间的连续性；其中，符号为向上取整运算符号，表示语音数据库中的第n_sa个语音样本的采样点数，L_1,frame＝256,512,1024，在本实施例中取L_1,frame＝512。

A2)、在步骤A1)的基础上，对语音数据库中的第n_sa个语音样本中的每帧进行短时傅里叶变换，得到语音数据库中的第n_sa个语音样本中的每帧的傅里叶变换频谱系数向量，将语音数据库中的第n_sa个语音样本中的第n_1,frame帧的傅里叶变换频谱系数向量记为然后将语音数据库中的第n_sa个语音样本中的所有帧的傅里叶变换频谱系数向量组成语音数据库中的第n_sa个语音样本对应的傅里叶变换频谱系数矩阵，记为其中，短时傅里叶变换的采样点数与帧长一致，n_1,frame为正整数，1≤n_1,frame≤N_1,frame，为列向量，的维数为L_1,frame×1，的维数为L_1,frame×N_1,frame。

在本实施例中，步骤二中，的获取过程为：

B1)、对语音数据库中的第n_sa个语音样本进行第二次分帧处理，将语音数据库中的第n_sa个语音样本分成N_2,frame帧，且帧长为L_2,frame，帧与帧之间的重叠为然后将语音数据库中的第n_sa个语音样本中的每帧乘以汉宁窗，以增加帧与帧之间的连续性；其中，符号为向上取整运算符号，表示语音数据库中的第n_sa个语音样本的采样点数，L_2,frame的值与常数Q变换中的一个八度的频率范围内包含的谱线数B有关，B＝96,64,32，B＝96时L_2,frame＝863，B＝64时L_2,frame＝575，B＝32时L_2,frame＝287，在本实施例中取B＝96，即L_2,frame＝863。

B2)、在步骤B1)的基础上，对语音数据库中的第n_sa个语音样本中的每帧进行常数Q变换，得到语音数据库中的第n_sa个语音样本中的每帧的Q变换频谱系数向量，将语音数据库中的第n_sa个语音样本中的第n_2,frame帧的Q变换频谱系数向量记为然后将语音数据库中的第n_sa个语音样本中的所有帧的Q变换频谱系数向量组成语音数据库中的第n_sa个语音样本对应的Q变换频谱系数矩阵，记为其中，常数Q变换的采样点数与帧长一致，n_2,frame为正整数，1≤n_2,frame≤N_2,frame，为列向量，的维数为L_2,frame×1，的维数为L_2,frame×N_2,frame。

B3)、计算Freq'_nsa中的每行中的所有频谱系数的均值和标准差；然后根据计算得到的所有均值和标准差，获取语音数据库中的第n_sa个语音样本的第二变异系数向量将中的第i₂个元素记为的值等于中的第i₂行中的所有频谱系数的标准差除以中的第i₂行中的所有频谱系数的均值；其中，i₂为正整数，1≤i₂≤L_2,frame。

在本实施例中，的获取过程为：获取的功率谱矩阵；然后取的功率谱矩阵中的每个元素的对数，得到对应的对数功率谱矩阵；接着对对应的对数功率谱矩阵进行插值重采样，得到对应的重采样后的频谱系数矩阵；再对对应的重采样后的频谱系数矩阵进行DCT变换，得到维数为L_2,frame×N_2,frame的系数矩阵；之后仅取系数矩阵中的每列的前30个系数，即仅取系数矩阵的前30行，构成维数为30×N_2,frame的系数矩阵；最后为进一步表征语音样本的动态特性，将维数为30×N_2,frame的系数矩阵及其一阶差分矩阵和二阶差分矩阵组成维数为90×N_2,frame的系数矩阵，作为

步骤三：将语音数据库中的所有正样本的第一变异系数向量输入到GMM模型中进行训练，训练得到第一正样本特征模型；将语音数据库中的所有正样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练，训练得到第二正样本特征模型；将语音数据库中的所有正样本的第二变异系数向量输入到GMM模型中进行训练，训练得到第三正样本特征模型；将语音数据库中的所有正样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练，训练得到第四正样本特征模型；同样，将语音数据库中的所有负样本的第一变异系数向量输入到GMM模型中进行训练，训练得到第一负样本特征模型；将语音数据库中的所有负样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练，训练得到第二负样本特征模型；将语音数据库中的所有负样本的第二变异系数向量输入到GMM模型中进行训练，训练得到第三负样本特征模型；将语音数据库中的所有负样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练，训练得到第四负样本特征模型。

步骤四：取一个待检测的语音，记为Y_test；然后按照步骤二的过程，以相同的方式获得Y_test的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵，对应记为和及和其中，的维数为L_test,1,frame×1，L_test,1,frame表示对Y_test进行第一次分帧处理后得到的帧的帧长，的维数为13×N_test,1,frame，N_test,1,frame表示对Y_test进行第一次分帧处理后得到的帧的帧数，的维数为L_test,2,frame×1，L_test,2,frame表示对Y_test进行第二次分帧处理后得到的帧的帧长，的维数为90×N_test,2,frame，N_test,2,frame表示对Y_test进行第二次分帧处理后得到的帧的帧数，N_test,2,frame≠N_test,1,frame。

在本实施例中，步骤五中的判定阈值的设定过程为：

4)令θ表示候选判定阈值，令P_fa(θ)表示错误接受率，令P_miss(θ)表示错误拒绝率，令其中，S_min≤θ≤S_max，N_1,to_tal表示测试语音集中包含的回放语音的总个数，N₁表示最终得分大于或等于θ的所有回放语音的总个数，N_2,total表示测试语音集中包含的真实语音的总个数，N₂表示最终得分小于θ的所有真实语音的总个数；

在本实施例中，步骤五中，计算Y_test的第一似然比得分、第二似然比得分和第四似然比得分的平均分作为Y_test的最终得分。

在此，直接采用ASV spoof 2017提供的评价集作为测试语音集，得到的判定阈值为0.38，不同的测试语音集得到的判定阈值不相同。

为了验证本发明方法的可行性和有效性，对本发明方法进行实验。

图2给出了ASV spoof 2017提供的训练集中的真实语音及不同录制设备、不同回放设备、不同回放环境下的三个回放语音各自的第一变异系数向量中的变异系数的分布情况，图3给出了ASV spoof 2017提供的训练集中的真实语音及不同录制设备、不同回放设备、不同回放环境下的三个回放语音各自的第二变异系数向量中的变异系数的分布情况。从图2中可以看出，不同的回放环境、不同的录制设备、不同的回放设备产生的回放语音的第一变异系数向量产生了不同程度的变化，其每个频率点的变异系数的值均小于真实语音的每个频率点的第一变异系数值；从图3中可以看出，不同的回放环境、不同的录制设备、不同的回放设备产生的回放语音的第二变异系数向量同样产生了不同程度的变化，每个回放语音的每个频率点的第二变异系数的值均小于真实语音的每个频率点的第二变异系数值。

一、基础特征的检测性能

六种特征独立的检测结果可验证特征的鲁棒性，对第一倒谱特征矩阵MFCC和第二倒谱特征矩阵CQCC使用倒谱均值方差归一化方法CMVN(Cepstral Mean and VarianceNormalization)去除信道不匹配和加性噪声干扰，将归一化后的第一倒谱特征矩阵记为MFCC^CMVN，将归一化后的第二倒谱特征矩阵记为CQCC^CMVN；将第一变异系数向量CV^STFT、第一倒谱特征矩阵MFCC、归一化后的第一倒谱特征矩阵MFCC^CMVN、第二变异系数向量CV^CQT、第二倒谱特征矩阵CQCC、归一化后的第二倒谱特征矩阵CQCC^CMVN六种特征分别在ASV spoof 2017提供的训练集(Train数据集)、训练集+开发集(Train数据集+Dev数据集))两种数据集下进行训练，并使用ASV spoof 2017提供的评价集(Evaluation数据集)作为测试集进行测试，检测的结果如表1所列。

表1六种特征下的回放语音检测结果

表1中的EER表示在判定阈值等于0.38时的等错误概率。等错误概率的值越小表明算法的检测性能越好。从表1中可以看出，对于上述六种特征，使用训练集+开发集(Train数据集+Dev数据集)两个数据集共同作为训练集要比只是用训练集(Train数据集)一个数据集作为训练集要好。对于四种倒谱特征，归一化后的第一倒谱特征矩阵MFCC^CMVN和第二倒谱特征矩阵CQCC^CMVN要比归一化前的第一倒谱特征矩阵MFCC和第二倒谱特征矩阵CQCC要好；其次，第一变异系数特征向量和第二变异系数特征向量也表现出了良好性能。

二、多个特征融合的检测结果

在六种特征单独检测的实验中，MFCC^CMVN和CQCC^CMVN均表现出了良好的性能，其次CV^STFT和CV^CQT也表现很好。为进一步降低检测的EER，将根据MFCC^CMVN和CQCC^CMVN及CV^STFT和CV^CQT这四种特征得到的似然比得分分为六种情况进行融合，从而进一步的降低等错误概率。这六种特征融合的方式分别为：第一种方式是融合MFCC^CMVN和CV^STFT两个特征；第二种方式是融合CQCC^CMVN和CV^CQT两个特征；第三种方式是融合MFCC^CMVN和CQCC^CMVN两个特征；第四种方式是融合MFCC^CMVN、CQCC^CMVN和CV^STFT三个特征；第五种方式是融合MFCC^CMVN、CQCC^CMVN和CV^CQT三种特征；第六种方式是融合MFCC^CMVN、CQCC^CMVN、CV^STFT和CV^CQT四种特征。每种融合方式中的具体似然比得分融合方法是将需要融合的几种特征的似然比得分首先利用现有技术最大值最小值归一化方法进行归一化，然后求取归一化后的几种特征的似然比得分的平均值作为融合后的得分。检测结果如表2所列。

表2等权重下的多特征融合的回放语音检测结果

从表2中可以看出，使用第四种特征融合方案，即MFCC^CMVN、CQCC^CMVN、CV^STFT三种特征进行融合检测效果最好，其检测EER为11.74％，因此本发明最后采用的融合方法是将MFCC^CMVN、CQCC^CMVN、CV^STFT三种特征进行融合。将这三种特征得到的似然比得分进行融合以后，再去和设定的判定阈值进行比较，然后判断是否是回放语音，如果融合的似然比得分大于或等于设定的判定阈值，就认为是真实语音，否则就认为是回放语音。

Claims

1.一种回放语音检测方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种回放语音检测方法，其特征在于所述的步骤一中，获取每个真实语音对应的回放语音的过程中，涉及到的录制设备有多种、涉及到的回放设备有多种、涉及到的回放环境有多种。

3.根据权利要求1或2所述的一种回放语音检测方法，其特征在于所述的步骤二中，的获取过程为：

4.根据权利要求3所述的一种回放语音检测方法，其特征在于所述的步骤二中，的获取过程为：

5.根据权利要求4所述的一种回放语音检测方法，其特征在于所述的步骤五中的判定阈值的设定过程为：

6.根据权利要求5所述的一种回放语音检测方法，其特征在于所述的步骤五中，计算Y_test的第一似然比得分、第二似然比得分和第四似然比得分的平均分作为Y_test的最终得分。