CN110491391A

CN110491391A - 一种基于深度神经网络的欺骗语音检测方法

Info

Publication number: CN110491391A
Application number: CN201910590712.6A
Authority: CN
Inventors: 李琳; 黎荣晋; 洪青阳
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-11-22
Anticipated expiration: 2039-07-02
Also published as: CN110491391B

Abstract

本发明公开了一种基于深度神经网络的欺骗语音检测方法，包括：步骤A，根据用户已有的已知真伪的语音数据训练并建立基于深度神经网络的欺骗语音检测模型，所述欺骗语音检测模型具有网络参数；步骤B，将待测试的测试语音在所述已训练好网络参数的欺骗语音检测模型进行分类判别，判断出该测试语音是真实语音还是欺骗语音。它具有如下优点：支持检测新型未知的语音合成、语音转换和录音回放等欺骗攻击。

Description

一种基于深度神经网络的欺骗语音检测方法

技术领域

本发明涉及计算机信息服务技术领域，特别是涉及基于深度神经网络的欺骗语音检测方法。

背景技术

说话人识别，是从说话人的声音中，识别出一个人身份(Identity)。通俗来讲，是在回答“谁在说话？”的问题。具体上看，是从说话人的语音中提炼出该个体的可区分性的声纹表征，以该表征作为此说话人的身份信息，从而实现识别。在实际应用场景中，说话人识别技术与其他身份验证技术一样，伴随着人为的恶意欺骗攻击，有着安全性的问题。

当前，主要有三种欺骗攻击模式：

(1)来自于其他说话人的刻意模仿(如口技等技艺)；

(2)高质量的语音合成技术合成的自然语音或先进的语音转换技术转换的逼真语音；

(3)来自于高保真录音设备(录音笔、播放器、手机等)的录音回放或录音拼接，即在某种场合下提前秘密录下说话人的声音，然后通过回放录音文件或稍作处理来攻击说话人识别系统。

在上述三种欺骗攻击模式中，资深的口技师可以逼真地模仿他人从而欺骗人耳，但人类的声道、口腔和鼻腔等发音器官是各异的，其决定着不一样的基音频率(PitchFrequency)，这种欺骗攻击方式可被主流的说话人识别系统辨析出真伪。高质量的语音合成与语音转换技术则需要特定说话人的大量语音，所需成本较高，其欺骗攻击的成功率有限。而录音设备回放录音是操作最为简单和也最容易实现的攻击方式，借助越先进的录音设备则能获得越高保真的录音用于回放攻击，而回放语音本质是真实说话人的原始语音，携带着真实说话人的身份信息，对是说话人识别系统的攻击强度是最严峻的。因此，研发具有反欺骗攻击(Counter measures,CM)的说话人识别系统具有十分必要的实用价值。

中国专利CN201110330598公开一种基于信道模式噪声的录音回放攻击检测方法和系统，其从预处理后的语音信号中提取信道模式噪声，再提取其长时统计特征，然后根据信道噪声分类判决模型对尝试统计特征进行分类，最后得到录音回放攻击检测的判决结果。该发明优点是从录音回放所特有的噪声特征上切入作为判决根据，噪声特征具有很明显的欺骗痕迹，能有效增强真实与欺骗语音的区分性。该发明缺点是所面对的欺骗语音较为单一和只利用二分类支持向量机 (Support Vector Machine，SVM)，并没有考虑复杂的欺骗攻击与利用更强拟合能力的深度神经网络。

中国专利CN201611062202公开一种基于环境噪声变化检测的说话人语音回放鉴别方法及系统，其从语音中划分出静音段并计算静音段的平均功率谱，以其作为声学特征；然后将真实录音的静音段特征与待测试的静音段特征进行比较，若两者变化超过阈值，则判断为回放录音；其中，阈值的更新采用时序阈值优化和/或监督学习阈值法进行调整。该发明放大利用静音段中的环境噪声变化，即欺骗痕迹，使得算法实现简单，复杂度低。该发明缺点是过于依赖先验信息阈值，对于开集泛化性弱。

中国专利CN 105702263 A公开一种语音重放检测方法和装置，包括：根据目标用户的预留训练语音建立用户信道模型；计算待识别语音在所述用户信道模型上的信任度打分；若所述信任度打分小于设定阈值，则认定待识别语音存在重放，返回认证失败；反之，通过重放检测。该发明仅针对语音重放进行检测，并没有考虑复杂的欺骗攻击与利用深度神经网络。

中国专利CN 108364656 A公开了一种用于语音重放检测的特征提取方法及装置，该方法包括：对获取的语音信号进行1.5维谱估计，得到语音信号的1.5维谱特征；采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整，得到规整后的语音信号的能量分布特征；对所述语音信号的1.5维谱特征和规整后的能量分布特征进行融合，得到1.5-SFED(1.5 Spectrum Fuse Energy Distribution)特征。该发明提出了一种用于语音重放检测的特征提取方法及装置，并没有考虑复杂的欺骗攻击与利用深度神经网络。

发明内容

本发明提供了一种基于深度神经网络的欺骗语音检测方法，其克服了背景技术中欺骗语音检测方法所存在的不足。

本发明解决其技术问题的所采用的技术方案是：

一种基于深度神经网络的欺骗语音检测方法，包括：

步骤A，根据用户已有的已知真伪的语音数据训练并建立基于深度神经网络的欺骗语音检测模型，所述欺骗语音检测模型具有网络参数；

步骤B，将待测试的测试语音在所述已训练好网络参数的欺骗语音检测模型进行分类判别，判断出该测试语音是真实语音还是欺骗语音。

一实施例之中：所述步骤B中，将测试语音输入到上述欺骗语音检测模型，上述欺骗语音检测模型的输出为输出层二元决策任务的输出节点概率，根据二元决策节点的两个概率大小判断该测试语音是真实语音还是欺骗语音。

一实施例之中：所述步骤B包括：

将测试语音通过上述欺骗语音检测模型提取得到相应的深度特征向量值；

利用已有的已知真伪的语音数据训练一个分类器，将已有的已知真伪的语音数据中真实语音和欺骗语音分别通过上述欺骗语音检测模型提取得到相应的深度特征向量值，利用真实语音的深度特征向量值训练一个真实语音的分类模块，利用欺骗语音的深度特征向量值训练一个欺骗语音的分类模块；

提取测试语音深度特征向量值，提取的测试语音深度特征向量值分别在真实语音的分类模块和欺骗语音的分类模块上计算相似度，将该两个相似度之差异作为分类分数；

比较分类分数与预先设置的打分阈值，若分类分数大于打分阈值，则该测试语音为真实语音,若分类分数小于打分阈值，则该测试语音为欺骗语音。

一实施例之中：所述步骤A包括：

从用户已有的已知真伪的语音数据中提取一种高时间-频率分辨率的声学特征，将声学特征输入到一个特征网络分支，该特征网络分支的输出值直接输到后续隐藏层，以建立欺骗语音检测模型。

一实施例之中：所述深度神经网络系支持多特征多任务的深度神经网络，它含有多个隐藏层、支持多特征的特征拼接层、统计池化层和支持多任务的输出层；所述步骤A包括：

步骤A1，从用户已有的已知真伪的语音数据中提取至少两种高时间-频率分辨率的声学特征；

步骤A2，按每帧对齐后依次拼接每帧的至少两种声学特征向量，形成拼接的声学特征向量；

步骤A3，基于同一语音信号对应的拼接的声学特征向量，生成至少两份不同的网络训练样本集，至少有一份是用于二元决策任务，至少有一份是用于其他任务；

步骤A4，将至少两份训练样本随机交替输入到多特征多任务网络中，样本的每帧特征向量经过输入层之后分离为至少两种声学特征；

步骤A5，将至少两种声学特征输入到不同的特征网络分支，分别将特征网络分支的输出值按帧拼接成一个特征表征向量，把这至少两个神经网络分支的输出向量进行左右拼接形成拼接层的拼接式特征向量，继而输出到后续隐藏层；

步骤A6，结合梯度控制单元的多任务学习，上述的二元决策任务和欺骗攻击分类任务交替进行，当前主任务为二元决策任务时，当前辅助任务则为其他任务；当前主任务为其他任务时，当前辅助任务为二元决策任务；使用梯度控制单元来协调不同任务之间的前向表征传播与后向梯度传播，减少多任务学习中不同任务之间的负面干扰。

一实施例之中：所述步骤A6中的结合梯度控制单元的多任务学习包括：

在前向传播中，当前辅助任务网络分支的表征向量会通过梯度控制单元传播到当前主任务网络分支上，并与当前任务网络分支的表征向量加权相加；在后向传播中，传播到当前辅助任务网络分支的梯度可人为设置，即被梯度控制单元抑制而绕过当前辅助任务网络分支，直接后向传播到深度神经网络其余所有隐藏层。

一实施例之中：所述步骤A1中，提取训练集所有语音样本的高时间-频率分辨率的两种声学特征，两种声学特征为梅尔频率倒谱系数和梅尔频率滤波器组；而且，设置相应的提取帧移为4毫秒，每帧滤波器组数为160个，离散余弦变换后为40维度的高时频分辨率的声学特征。

一实施例之中：所述步骤A5包括：

将至少两种声学特征输入到不同的特征网络分支，分别将特征网络分支的输出值按帧拼接成一个特征表征向量，把这至少两个神经网络分支的输出向量进行左右拼接形成拼接层的拼接式特征向量，继而输出到后续隐藏层；

拼接式特征向量输入至统计池化层，汇聚一段语音片段的所有帧级别的拼接式特征向量，计算对应的均值和标准差，左右拼接均值与标准差，形成段级别的整合式特征向量。

一实施例之中：所述步骤B包含MMI-GMM的分类识别，它包括：

步骤B1，得到训练完成后的多特征多任务网络参数，指定二元决策分支的统计池化层后的某层隐藏层输出值，作为深度特征向量值；

提取训练集所有语音的深度特征向量值；

提取测试集所有语音的深度特征向量值；

步骤B2，利用训练集语音的深度特征向量值分别训练真实语音的MMI-GMM 模型和欺骗语音的MMI-GMM模型；

步骤B3，测试语音深度特征向量分别在步骤B2的真实MMI-GMM模型和欺骗 MMI-GMM模型上计算两个对数似然概率，并将对应真实模型的对数似然概率与对应欺骗模型的对数似然概率作差，作为分类分数；

步骤B4，将分类分数与设置好的阈值进行比较，若分数大于设定阈值，则该测试语音是真实语音，小于设定阈值则该测试语音为欺骗语音。

一实施例之中：所述其他任务为欺骗攻击分类任务。

本技术方案与背景技术相比，它具有如下优点：

(1)支持检测新型未知的语音合成、语音转换和录音回放等欺骗攻击；

(2)采取多种不同的高时间-频率分辨率的声学特征，有效弥补不同声学特征之间的表征能力，并结合深度神经网络，能有效挖掘欺骗语音的深层次欺骗痕迹；

(3)运用神经网络学习语音声学特征的内在个性信息，具备更强的非线性建模能力；

(4)采用梯度控制单元，能协调不同任务之间的梯度传播，减少多任务学习中不同任务之间的干扰，借助欺骗攻击分类任务的学习增强二元决策任务的泛化能力。

附图说明

下面结合附图和具体实施方式对本发明作进一步说明。

图1是具体实施方式中所提供的一种用于检测欺骗语音的方法的应用场景示意图；

图2是实施例一中所提供的一种用于检测欺骗语音的方法的流程图；

图3是实施例二中所提供的一种用于检测欺骗语音的方法的流程图；

图4是具体实施方式中所提供的一种梯度控制单元的运算示意图。

具体实施方式

实施例一

请查阅图1和图2，一种基于深度神经网络的欺骗语音检测方法的流程图，包括：

建立欺骗语音检测模型步骤，根据用户已有的已知真伪的语音数据建立基于深度神经网络的欺骗语音检测模型；

判别步骤，选“步骤203”或“步骤204至步骤208”。

所述建立欺骗语音检测模型步骤包括：

步骤201，提取训练集所有语音样本的声学特征，声学特征包含MFCC特征；

步骤202，将从训练集中提取的声学特征送入神经网络，根据任务代价函数训练整个神经网络的网络参数，在神经网络训练完成后，固定网络参数，即，建立了欺骗语音检测模型；

步骤203，将测试语音的特征送入神经网络后，直接由该欺骗语音检测模型中神经网络的输出层输出该语音是真实语音的概率和该语音是欺骗语音的概率，比较两个两个概率大小；具体为：将待测试语音输入到上述欺骗语音检测模型，上述欺骗语音检测模型的输出为输出层二元决策任务的输出节点概率, 根据二元决策节点的两个概率大小判断该测试语音是真实语音还是欺骗语音；

若对应真实语音的节点输出概率较高，该测试语音是真实语音，通过检测；

若对应欺骗语音的节点输出概率较高，该测试语音为欺骗语音，返回认证失败。

步骤204，将测试语音输送到整个神经网络，根据训练好的网络参数计算得到指定的网络的某层隐藏层输出值，将隐藏层输出值作为深度特征向量值；

利用训练集语音的深度特征向量值分别训练真实语音和欺骗语音的分类模块。具体为：利用已有的已知真伪的语音数据训练一个分类器，将已有的已知真伪的语音数据中真实语音或者欺骗语音分别通过上述欺骗语音检测模型提取得到相应的深度特征向量值，训练一个真实语音的分类模块和一个欺骗语音的分类模块；所述的分类模块可采用MMI-GMM分类模型或者LR(逻辑回归)分类模型。

步骤205，提取的测试语音深度特征向量值分别在真实语音的分类模块和欺骗语音的分类模块上计算两个分类分数；具体为：将测试语音的深度特征向量值分别与真实语音的分类模块和欺骗语音的分类模块计算相似度，二者之差作为分类分数。

步骤206，分类分数与预先设置的打分阈值进行比较，若小于打分阈值，则执行步骤207，否则执行步骤208；其中，打分阈值的设定由人工经验设定，或者，根据判决模型的算法特点来设定；

步骤207，该测试语音为欺骗语音，返回认证失败；

步骤208，该测试语音是真实语音，通过检测。

实施例二

请查阅图3，一种基于深度神经网络欺骗语音检测方法的流程图，包括：

步骤301，声学特征提取和训练样本生成步骤，它包括：

先提取训练集所有语音样本的高时间-频率分辨率的至少两种声学特征，声学特征如MFCC和FBank，即，针对梅尔(Mel)频率倒谱系数(Mel Frequency CepstralCoefficient，MFCC)和梅尔(Mel)频率滤波器组(Mel Frequency Bank， FBank)。设置相应的提取帧移从通用的10毫秒改变为4毫秒，每帧滤波器组数从通用的30个改变为160个，离散余弦变换后从通用的20维度改变为40维度的高时频分辨率的MFCC声学特征；

按每帧对齐后依次拼接每帧的MFCC与FBank两种声学特征向量，形成拼接的声学特征向量；

基于同一语音信号对应的拼接的声学特征向量，生成两份不同的网络训练样本集。第一份是用于二元决策任务，第二份是用于欺骗攻击分类任务。对于二元决策任务，每帧特征向量对应一个二元标签，其中二元标签指真实语音为0，欺骗语音为1；对于欺骗攻击分类任务，每帧特征向量对应一个欺骗类别标签，其中真实语音为0，欺骗语音根据类别数依次为1，2，……，N；及将两份训练样本随机交替输入到多特征多任务网络中，样本的每帧特征向量经过输入层之后分离为两种声学特征，声学特征1和声学特征2，如，分别对应MFCC与FBank；

步骤302，特征整合步骤，它包括：

步骤3021或者步骤3022，声学特征1(如MFCC)与声学特征2(如FBank) 经过各自的帧级别神经网络分支；

步骤3023，将两个神经网络分支最后一个隐藏层的输出表征向量x_MFCC和 x_Fbank同时汇聚在特征拼接模块中，即把这两个神经网络分支的输出向量进行左右拼接形成拼接层的拼接式特征向量x_spliced，并传递到后续网络的隐藏层；及

拼接公式如下：

x_spliced←Append(x_MFCC,x_Fbank) (1)

步骤3024，拼接式特征向量x_spliced输入至统计池化层，汇聚一段语音片段的所有帧级别的拼接式特征向量，计算对应的均值和标准差，左右拼接均值与标准差，形成段级别(Segment Level)的整合式特征向量；

步骤303，包含梯度控制单元的多特征多任务学习，它包括：

步骤3031，根据训练样本的任务类型，若是二元决策任务，则训练图3的左分支代价函数；

步骤3032，根据训练样本的任务类型，若是欺骗攻击分类任务，则训练图 3的右分支代价函数；

步骤3033，在步骤3021和步骤3022的基础上，将多任务左右分支网络的最后一层隐藏层的输出向量分别接到梯度控制单元，梯度控制单元输出的向量值分别输入至两个任务类型的输出层。梯度控制单元内部执行前向传播的计算，假设x_T1和x_T2分别为多任务左右分支网络最后一层隐藏层的输出向量，则梯度控制单元输出至左右两个任务类型的向量值和可由公式(2)计算得到，其中，参数a和参数b分别为权重值，可设置为接近为1的值，如a＝b＝0.925,如图4 所示；

步骤3034，在误差后向传播中，若是二元决策任务，所采用的代价函数为LT1，对应二元决策任务的梯度不通过梯度控制单元传播到右分支，即绕过右分支的段级别隐藏层，传播到多特征多任务其余所有隐藏层；及

步骤3035，在误差后向传播中，若是欺骗攻击分类任务，所采用的代价函数为L_T2，对应欺骗攻击分类任务的梯度不通过梯度控制单元传播到左分支，即绕过左分支的两层段级别隐藏层，传播到多特征多任务网络其余所有隐藏层。梯度控制单元内部执行后向传播的计算，其中可人为设置权重值β＝0，如公式 (3)所示：

步骤304，包含最大互信息混合高斯模型(MMI-GMM)的分类识别，它包括：

步骤3041，得到训练完成后的多特征多任务网络参数，指定二元决策分支的统计池化层后的某层隐藏层输出值，如倒数第二层隐藏层的输出值，作为深度特征向量值x(如，x-vector)；

提取训练集所有语音的深度特征向量值。

提取测试集所有语音的深度特征向量值。

步骤3042，利用训练集语音的深度特征向量值分别训练真实语音的MMI-GMM 模型y_g和欺骗语音的MMI-GMM模型y_s；其中，MMI-GMM目标函数如下所示：

其中，k是概率缩放因子；经由期望最大化(Exception Maximum，EM)收敛，均值m_y与协方差∑_y更新如下：

其中常数c₀＝2，而统计量分别如下：

步骤3043，测试语音深度特征向量x_em分别在步骤3042的真实MMI-GMM模型y_g和欺骗MMI-GMM模型y_s上计算两个对数似然概率(Log Likelihood Probability，LLP)，并将对应真实模型的对数似然概率logP(m_em|y_g)与对应欺骗模型的对数似然概率logP(x_em|y_s)作差，以对数似然比(Log Likelihood Ratio，LLR) 作为分类分数；

LLR＝logP(x_im|y_g)-logP(x_m|y_s) (10)

将分类分数与设置好的阈值进行比较，若分数大于设定阈值，则执行步骤 3044，否则执行步骤3045；

步骤3044，该测试语音是真实语音，通过检测；

步骤3045，该测试语音为欺骗语音，返回认证失败。

本实施例之中：支持多特征多任务的深度神经网络，含有多个隐藏层、支持多特征的特征拼接层、统计池化层和支持多任务的输出层，输出层至少含有二元决策(真/假)任务和欺骗攻击分类任务。声学特征为该网络的输入，根据应用需要，可直接输出二元决策任务的输出节点概率，也可以从统计池化层与输出层之间的某一隐藏层输出对应一段语音信号的深度特征向量。

本发明所提出的一种基于深度神经网络的欺骗语音检测方法，不仅深度挖掘欺骗语音的内在欺骗痕迹，而且整合了不同声学特征的刻画尺度于单个神经网络系统框架内，大大地提升单系统的识别性能，摆脱了多系统分数融合的资源成本。同时，多特征多任务的网络架构(MFMT)采取基于梯度控制单元的多任务学习机制，提升了二元决策任务的解释性与泛化性，增强了深度特征向量的鲁棒性，有利于抵御新型未知的欺骗攻击。

本说明书中各个实施例采用递进方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本说明书具体实施方式的识别方法能对抗说话人识别系统中存在的多种复杂欺骗攻击类型以及开集未知欺骗攻击方式，如语音合成、语音转换和录音回放等欺骗攻击手段。

所述的分类模块可采用MMI-GMM分类模型或者LR分类模型。将待测语音的深度特征向量值分别与真实语音的分类模型和欺骗欺骗语音的分类模型计算相似度，二者之差作为分类分数。若采用MMI-GMM分类模型，则计算待测语音的深度特征向量分别与真实语音MMI-GMM模型和欺骗语音MMI-GMM模型的两个对数似然概率(Log LikelihoodProbability，LLP)，并将真实的对数似然概率与欺骗的对数似然概率作差，以对数似然比(Log Likelihood Ratio，LLR)作为分类分数；若采用LR分类模型，则计算待测语音的深度特征向量在LR模型的对数后验概率之差，作为分类分数。若分类分数大于阈值，则该测试语音为真实语音；若分类分数小于阈值，则该测试语音为欺骗语音。

本领域技术人员还可以进一步意识到，结合本文所公开的实施例描述的各个模块及算法步骤，能够以电子硬件、计算机软件或者二者结合的方式来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能性描述了各示例的组成及步骤。这些功能以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法实现所描述的功能，但这种实现不应超过本发明的范围。

Claims

1.一种基于深度神经网络的欺骗语音检测方法，其特征在于：包括：

2.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法，其特征在于：所述步骤B中，将测试语音输入到上述欺骗语音检测模型，上述欺骗语音检测模型的输出为输出层二元决策任务的输出节点概率，根据二元决策节点的两个概率大小判断该测试语音是真实语音还是欺骗语音。

3.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法，其特征在于：所述步骤B包括：

4.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法，其特征在于：所述步骤A包括：

5.根据权利要求1所述的一种基于深度神经网络的欺骗语音检测方法，其特征在于：所述深度神经网络系支持多特征多任务的深度神经网络，它含有多个隐藏层、支持多特征的特征拼接层、统计池化层和支持多任务的输出层；所述步骤A包括：

6.根据权利要求5所述的一种基于深度神经网络的欺骗语音检测方法，其特征在于：所述步骤A6中的结合梯度控制单元的多任务学习包括：

7.根据权利要求5所述的一种基于深度神经网络的欺骗语音检测方法，其特征在于：所述步骤A1中，提取训练集所有语音样本的高时间-频率分辨率的两种声学特征，两种声学特征为梅尔频率倒谱系数和梅尔频率滤波器组；而且，设置相应的提取帧移为4毫秒，每帧滤波器组数为160个，离散余弦变换后为40维度的高时频分辨率的声学特征。

8.根据权利要求5所述的一种基于深度神经网络的欺骗语音检测方法，其特征在于：所述步骤A5包括：

9.根据权利要求5所述的一种基于深度神经网络的欺骗语音检测方法，其特征在于：所述步骤B包含MMI-GMM的分类识别，它包括：

提取训练集所有语音的深度特征向量值；

提取测试集所有语音的深度特征向量值；

步骤B2，利用训练集语音的深度特征向量值分别训练真实语音的MMI-GMM模型和欺骗语音的MMI-GMM模型；

步骤B3，测试语音深度特征向量分别在步骤B2的真实MMI-GMM模型和欺骗MMI-GMM模型上计算两个对数似然概率，并将对应真实模型的对数似然概率与对应欺骗模型的对数似然概率作差，作为分类分数；

10.根据权利要求5所述的一种基于深度神经网络的欺骗语音检测方法，其特征在于：所述其他任务为欺骗攻击分类任务。