CN110232927B

CN110232927B - 说话人验证反欺骗方法和装置

Info

Publication number: CN110232927B
Application number: CN201910511584.1A
Authority: CN
Inventors: 俞凯; 钱彦旻; 杨叶新; 王鸿基; 丁翰林; 陈正阳; 王帅
Original assignee: Sipic Technology Co Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2021-08-13
Anticipated expiration: 2039-06-13
Also published as: CN110232927A

Abstract

本发明公开说话人验证反欺骗方法和装置，其中，一种说话人验证反欺骗方法，包括：提取待验证音频的预设特征；将提取的所述预设特征至少输入至改进的LightCNN系统中，其中，所述改进的LightCNN系统为将传统的LightCNN系统中的MFM函数替换成了ContextGate；输出所述待验证音频是否为欺骗音频。本申请的方法和装置提供的方案通过使用Context Gate来取代传统LightCNN中的MFM函数，有效地避免了过拟合问题，并且对多种欺骗攻击都获得了一致的性能提升。本申请的方案创新性地将ContextGateCNN引入到说话人验证反欺骗系统中来，并且展现出了较好的泛化能力。

Description

说话人验证反欺骗方法和装置

技术领域

本发明属于说话人验证技术领域，尤其涉及说话人验证反欺骗方法和装置。

背景技术

相关技术中，作为一种方便可靠的身份认证方法，自动说话人验证(ASV，automatic speaker verification)近年来引起了研究人员的关注并逐渐成熟，使其商业化，如呼叫中心的应用，安全措施等。但是，ASV技术易受攻击，这使得ASV系统暴露于各种欺骗攻击。因此，研究人员设法开发有效的反欺骗系统，也称为表示攻击检测(PAD，presentation attack detection)系统，以保护ASV系统免受恶意欺骗攻击。

在开始阶段，使用不同的评估指标在不同的数据集中进行研究，这使得结果无法横向比较。为了聚集一个拥有标准数据库和性能指标的社区，一系列反欺骗竞赛诞生了，例如，自动说话人验证欺骗和对策(ASVspoof)挑战，作为2013、2015，2017和2019年INTERSPEECH特别会议的挑战。ASVspoof 2013旨在提出这一严重的欺骗问题，但没有提出具体或适当的解决方案。ASVspoof 2015专注于语音合成和语音转换，称为逻辑访问条件(LA，logical access)，而2017年ASVspoof旨在开发能够区分真正(真实)音频和重放音频的对策，称为物理访问条件(PA，physical access)。等错误率(EER，equal error rate)是它们共享的通用度量。ASVspoof 2019涵盖了LA和PA，但分为两个独立的子任务。

目前市面上已有的说话人验证反欺骗系统通常可以分为两类：1)使用传统高斯混合模型进行建模；2)使用较为复杂的神经网络模型进行建模。它们都是通过提取音频特征，再使用模型进行建模判断该音频是否为合成攻击或者是重放攻击。

其中，使用传统高斯混合模型进行建模的系统通过多个高斯分布来分别对真实音频和欺骗音频进行建模，在测试阶段根据音频由高斯混合模型的生成概率来判断音频是否为欺诈。使用较为复杂的神经网络进行建模的系统通常会使用LightCNN(ConvolutionalNeural Network，卷积神经网络)或者使用ResNet这种结构较为复杂，建模能力较强的网络，使用交叉熵损失函数来训练一个二分类问题。

发明人在实现本申请的过程中发现，现有的方案至少存在以下缺陷：

使用传统高斯混合模型来构建的反欺骗系统通常性能不佳，而使用较为复杂的神经网络进行建模通常会出现过拟合问题，导致泛化能力差。这些缺陷是由于模型性能和特征挑选这些问题导致的。

发明内容

本发明实施例提供一种说话人验证反欺骗方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种说话人验证反欺骗方法，包括：提取待验证音频的预设特征；将提取的所述预设特征至少输入至改进的LightCNN系统中，其中，所述改进的LightCNN系统为将传统的LightCNN系统中的MFM函数替换成了ContextGate；输出所述待验证音频是否为欺骗音频。

第二方面，本发明实施例提供一种说话人验证反欺骗装置，包括：提取模块，配置为提取待验证音频的预设特征；输入模块，配置为将提取的所述预设特征至少输入至改进的LightCNN系统中，其中，所述改进的LightCNN系统为将传统的LightCNN系统中的MFM函数替换成了ContextGate；输出模块，配置为输出所述待验证音频是否为欺骗音频。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的说话人验证反欺骗方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的说话人验证反欺骗方法的步骤。

本申请的方法和装置提供的方案创新性地将ContextGate CNN引入到说话人验证反欺骗系统中来，并且展现出了较好的泛化能力。不同的激活函数对于模型的性能有着很大的影响，该方案就很好地证明了这一点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种说话人验证反欺骗方法的流程图；

图2为本发明一实施例提供的一具体示例的架构流程图；

图3为本发明一实施例提供的ContextGate CNN的单个ContextGate；

图4为本发明一实施例提供的不同欺骗攻击的详细结果；

图5为本发明一实施例提供的PA子任务的基线，主要提交和对比提交的性能比较；

图6为本发明一实施例提供的一种说话人验证反欺骗装置的框图；

图7是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的说话人验证反欺骗方法一实施例的流程图，本实施例的说话人验证反欺骗方法可以适用于具备语言模型的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备说话人验证功能的智能终端等。

如图1所示，在步骤101中，提取待验证音频的预设特征；

在步骤102中，将提取的预设特征至少输入至改进的LightCNN系统中，其中，改进的LightCNN系统为将传统的LightCNN系统中的MFM函数替换成了ContextGate；

在步骤103中，输出待验证音频是否为欺骗音频。

在本实施例中，对于步骤101，说话人验证反欺骗装置首先提取待验证音频的预设特征，然后在步骤102中，说话人验证反欺骗将该提取的预设特征至少属兔至改进后的LightCNN系统中，该改进的LightCNN系统为将传统的LightCNN系统中的MFM函数替换成了ContextGate。最后，对于步骤103，说话人验证反欺骗装置根据改进的LightCNN系统输出待验证音频是否为欺骗音频。

本实施例的方法通过引入改进的LightCNN系统，展现出了较好的泛化能力，有效地避免了过拟合问题，并且对多种欺骗攻击都获得了一致的性能提升。

在一些可选的实施例中，ContextGate包括：将传统的LightCNN网络中卷积层输出的通道数分为两半，其中一半通过sigmoid函数和另一半做阿达马乘积。

在一些可选的实施例中，改进的LightCNN网络通过交叉熵函数进行训练。

在一些可选的实施例中，提取待验证音频的预设特征包括：提取待验证音频的幅度特征和相位特征；从相位特征中提取log-CQT特征和LMS特征。

在进一步可选的实施例中，log-CQT特征为对待验证音频做常值q变换以替换待验证音频中的标准傅里叶变换。

在一些可选的实施例中，log-CQT特征进一步用于与变分自动分码器结合使用以提取语音特定特征。

在一些可选的实施例中，将提取的预设特征至少输入至改进的LightCNN系统中包括：将提取的预设特征输入至改进的LightCNN系统与其他系统融合后的模型中；其中，其他系统包括ResNet系统。

进一步可选的，ResNet系统的输入包括：预设特征；以及从预设特征中提取的i-vector特征连接到ResNet系统的嵌入层以增强模型的泛化能力。从而通过将i-vector特征连接到ResNet系统的嵌入层可以有效地增强整个模型的泛化能力，可以减少欺骗性独立因素的影响。

下面通过对发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

本领域技术人员为了解决现有技术中存在的缺陷，可能会采用以下方案：本行业从业人员要解决过拟合问题通常会减少模型大小或者加上dropout层，但通常不会使用ContextGate CNN。因为ContextGate CNN之前通常被用于音频事件检测、语音识别等领域，而从未被用于反欺骗系统。

本申请的方案通过使用ContextGate来取代传统LightCNN中的MFM函数，有效地避免了过拟合问题，并且对多种欺骗攻击都获得了一致的性能提升。

本产品的具体流程如图2所示，先对音频提取log-CQT特征，其次经过一个类似LightCNN的网络(将原本LightCNN中的MFM函数替换为了ContextGate)，最后输出两类(是否为欺骗音频)。整个网络通过交叉熵函数进行训练，在测试阶段只要输入测试音频的log-CQT特征，输出即为音频是否欺骗。ContextGate的具体形式如下图所示，它将卷积层输出的通道数分为两半，其中一半通过sigmoid函数和另一半做阿达马乘积。

发明人在实现本申请的过程中，还采用过以下备选方案：直接使用LightCNN进行建模，输入特征包括Spec特征、Fbank特征等，但是经过实验发现它们的泛化能力都不佳。

本方案创新性地将ContextGate CNN引入到说话人验证反欺骗系统中来，并且展现出了较好的泛化能力。不同的激活函数对于模型的性能有着很大的影响，该方案就很好地证明了这一点。

以下通过介绍发明人实现本申请的过程和所进行的实验及相关的实验数据，以使本领域技术人员更好地理解本申请的方案。

为了开发可靠的说话人验证系统，反欺骗系统的鲁棒性变得越来越重要。以前的挑战和数据集主要关注特定类型的欺骗攻击。ASVspoof 2019挑战是第一个涉及到两种主要欺骗类型的挑战：逻辑访问和物理访问。通过使用Log-CQT特征与多层卷积神经网络，在两个子任务中都可以实现稳健的性能。具有梯度线性单位(GLU，gradient linear units)激活函数的卷积神经网络被用于欺骗检测。其中，LightCNN网络由多个块(block)组成，普通的LightCNN中间的块使用的是MFM激活函数，而本申请中使用的是GLU激活函数。使用GLU激活函数的LightCNN网络我们将其成为ContextGate CNN。因为GLU其特性，我们将其别称为ContextGate。

我们所提出的系统展示出出对所有欺骗攻击类型的一致性能提升。我们的主系统分别达到了逻辑和物理访问的第5和第8位。此外，与我们的主要提交相比，我们对物理访问任务的对比提交表现出更好的泛化能力，并且达到了相当于挑战第三名的性能。

任务描述

为了更好地评估各种欺骗攻击的对策，ASVspoof 2019挑战包括两个子任务：逻辑访问(LA)和物理访问(PA)。

逻辑访问

逻辑访问(LA)欺骗攻击是指通过文本到语音(TTS，TextToSpeech)和语音转换(VC，voice conversion)生成的欺骗语音。随着在TTS和VC社区中广泛使用基于神经网络的系统，生成的语音质量与人类语音相当，这给欺骗检测系统带来了新的挑战。

在ASVspoof 2019挑战中，训练数据包括根据两个语音转换和四个语音合成算法生成的欺骗性话语，而评估数据中的欺骗性算法在训练集中都是未见的。强大的鲁棒性是我们提出的欺骗检测系统的要求。

物理访问

物理访问(PA)欺骗攻击(也称为重放攻击)在传感器级别执行。由于ASVspoof2017挑战中的一些不受控制的设置使得结果难以分析，因此在ASVspoof 2019挑战中仔细模拟和控制声学和重放配置，从而为重放欺骗问题带来一些新的见解。

PA子任务的主要焦点在于检测不同声学和重放配置下的欺骗语音。与LA子任务类似，训练和开发数据是从相同的，随机选择的声学室和距离配置生成的，而评估数据是从不同的声学室生成的。

特征提取

在这里，我们提出了我们工作中使用的功能。如果没有进一步说明，则采用正常帧速率，帧移10ms，采用25ms窗口大小。Librosa被用作特征提取的首选工具。

Log-CQT(constant-q transform，常值q变换)用CQT替换音频信号的标准傅里叶变换。CQT与傅里叶变换非常相似，但具有对数间隔的中心频率。在该工作中，以32ms的帧移位提取84维log-CQT特征。Log梅尔谱图(LMS，Log mel spectrogram)是ASR(AutomaticSpeech Recognition，自动语音识别)和其他语音相关任务的标准功能，如情绪检测和音频事件检测。这里，提取64维LMS特征，其中在预处理期间使用汉明窗函数。

除了标准幅度谱图特征之外，还提取相位特征。X的频谱可以分解为大小(|X(ω)|)和相位(e^jφw)，如式(1)所示

X(w)＝|X(w)|e^jφw (1)

在这项工作中，我们试验从相位谱图(e^jφw)中提取的特征。具体地，除了传统的幅度谱图之外，还从相位谱图中提取log-CQT和LMS特征。

VAE log-CQT是指使用变分自动编码器(VAE，Variational Auto Encoder)来提取真正的语音特定特征。所有真正的LA logCQT功能都用于训练VAE，VAE将数据编码为32-维矢量，然后尝试重建。这些向量是我们期望的特征，它们应该对真实数据有意义并且随机分布在欺骗性语音上。

基于CNN的欺骗检测

基于卷积神经网络(CNN)的模型被用作我们的分类器，因为它们很好的性能。除了经过深入研究的模型如ResNet和LightCNN之外，还提出了在CNN中使用梯度线性单元激活进行欺骗检测。

ResNet

由8个残余块组成的标准18层ResNet被采用作为我们的单个系统之一。详细配置见表1。

ResNet与i-vector

为了增强神经网络模型的泛化能力，i-vector连接到ResNet嵌入层，作为连接训练的附加功能。与单纯的GMM方法相比，i-vector是一种基于因子分析的方法，可以减少欺骗性独立因素的影响。该架构如图2所示。

表1：ResNet模型的详细配置。T表示输入音频的帧数，D表示特征维度。内核大小设置为3×3。

在这项工作中，从log-CQT特征中提取的400-维i-vector连接到128-维ResNet18嵌入。

再次参考图2，其示出了提出的ResNet+i-vector架构。ResNet模型和i-vector提取器的输入是从同一话语中提取的特征(分别是本工作中的log-CQT+phase和log-CQT)。

具有多任务输出的LightCNN

遵循ASVspoof 2017挑战中提出的具有最大滤波器映射(MFM，max filter map)激活功能的9层LightCNN的系统。我们使用多任务输出的LightCNN模型的一般体系结构如表2所示。FC8输出1的输出是指欺骗标签(1个真正的节点和1个欺骗节点)，而FC8输出2的输出是重放配置标签(1个真正的节点和9个重放配置节点)。两个真实节点中的输出之和被视为检测分数。

ContextGate CNN

在这项工作中，我们进一步探索了梯度线性单元(GLU)激活的功能。此激活函数已用于相关任务，如音频事件检测(AED)，声音事件检测，语音识别以及自然语言处理。可以将GLU视为LightCNN中使用的MFM激活的替代方案。在这项工作中，GLU将CNN滤波器维度(B和A)上的输入张量减半，并使用其中一个滤波器作为权重，并将这些权重应用于另一个f(A，B)＝σ(A)×B(见图2)。这里×是两个张量的Hadamard积，σ是sigmoid激活函数。

此激活充当每个过滤器的ContextGate，表2：使用多任务输出的LightCNN模型的LightCNN架构。Conv1和MaxPool1的滤波器尺寸，步幅和边缘扩展分别为(5×5,1,2)和(2×2,2,0)。超参数Ci(i＝1,2,3,4,5)是第i层中的输出通道的数量，其基本上控制模型大小。沿T维度，统计池是指平均池化(D/32×C5)或平均值+标准差池化(D/32×C5×2)。

图3示出了我们提出的ContextGate CNN的单个ContextGate。

是将该网络表示为ContextGate CNN(CGCNN)的原因。我们的网络的单个ContextGate可以在图2中看到。这项工作中的ContextGate结构严格遵循我们的LCNN方法(参见表2)，但是进行了小的更改：

1)模型仅使用Block2和Block3与GLU以避免过度拟合(C1＝48，C2＝96，C3＝192)。

2)没有使用多任务训练。

3)统计池仅指平均池。

此外，对于LA提交的最终系统融合，我们还将双向门控循环单元(BGRU)模型合并到CGCNN模型中，进一步称为CGCRNN。该GRU模型由CGCNN提供抽象特征并预测后验概率。

实验

所有实验的模型训练使用亚当优化进行最多200个时期，其中选择在保持组上产生最低交叉熵损失的模型用于最终评估。在训练之前，我们将给定的训练数据集分成90％的训练和10％的保持交叉验证部分。由于训练数据集内的欺骗性话语数量只是真实的一小部分。

一个人需要确定受过训练的模型会看到同样多的真实和欺骗性的话语。因此我们在训练期间采用随机过采样少数类(真正的)。

数据集和性能指标

所有实验均在ASVspoof 2019数据集上进行，该数据集遵循关于培训/开发部门的官方协议。对于LA子任务，由6个TTS/VC算法之一生成的2,580个真实和22,800个欺骗性语音话语用于训练。训练集中的相同欺骗算法用于创建开发集，而生成评估数据集的算法则不同。对于PA任务，训练集包含5,400个真正语音和48,600个重放欺骗语音，包括9种不同的重放配置(3类攻击者到扬声器记录距离乘以3类扬声器质量)。PA任务的评估集具有与训练和开发数据相同的重放欺骗方式，具有不同的声学配置。有关数据集的更多详细信息，请参阅ASVspoof 2019评估计划。

为了评估对策的性能，采用最小串联检测成本函数(t-DCF)作为主要性能指标，而使用等错误率(EER)作为次要度量。

评估LA任务

我们提交的系统的组件及其在开发集上的性能如表3所示。我们的具有phase+log-CQT功能的单个ContextGate CNN系统分别在min-tDCF和EER中达到0.034和1.09。通过将所有子系统融合在一起，可以实现更好的性能，分别在min-tDCF和EER中产生0.027和0.90。融合系统作为我们的主要系统提交。

表3示出了我们提交的系统组件在LA子任务开发集上的性能比较。“+”标记表示将特征连接到多通道输入中。

图4显示了不同欺骗攻击的详细结果。尽管基线系统(CQCC-GMM)在特定欺骗类型(例如A01和A02)上取得了很好的效果，但它在大多数未知的欺骗攻击中失败，可能表明过度拟合问题。相比之下，我们提出的系统更加稳健，在所有欺骗条件下均匀分布低EER和mintDCF。表4显示了LA子任务的结果。我们提出的系统达到了第5位。

对PA任务的评估

OpenSLR26是一个模拟房间脉冲响应数据库，用于PA任务的数据增强。具体地，对于训练集中的每个真实语音，添加20个随机选择的房间脉冲响应。因此，获得了总共108,000个RIR复制品。

图4示出了基准系统(Baseline(CQCC-GMM))和我们提出的系统(Primary)(方块)之间对LA子任务的不同类型欺骗攻击的性能比较。A01到A06是开发集中看到的已知欺骗算法，而A07到A19是评估集中未知的欺骗算法。

表4示出了ASVspoof 2019挑战中LA子任务评估集的主要提交结果。粗体显示的结果是我们的提交。

为了避免潜在的过拟合，对于多任务LightCNN(LightCNN-MT)模型采用了超参数Ci(i＝1,2,3,4,5)的2种不同设置。较大的一个(LightCNN-MT-L)使用(48,96,192,128,128)，而较小的一个(LightCNN-MT-L)使用(16,32,64,48,48)。此外，使用平均池化(表示为μ)和平均值+标准差(表示为μσ)池化，总共导致4个不同的模型。LMS特征用作我们的主系统的输入，这是表5中所示的那4个子模型的得分融合。

表5示出了4个子模型的性能，主要以及PA子任务开发集的总体提交。μ表示平均汇集，而σ表示汇总标准差。

图5示出了PA子任务的基线(Baseline(CQCC-GMM))(点点表示)，主要提交(Primary)(方块)和对比提交(Contrastive1)(三角形)的性能比较。

有趣的是，我们的对比提交表现优于我们对评估集的主要提交。在每个重放配置中，两者都显著优于基线CQCC-GMM模型，如图4所示。对比模型是使用log-CQT特征的双向CGCNN融合-一个在标准PA列车集上训练，而另一个接受过增强的RIR数据培训。

表6显示了PA子任务结果。我们的主要系统达到了第8位，而我们的对比提交达到了与第3位相当的性能。

表6示出了PA子任务评估集的主要提交结果。粗体显示的结果是我们的主要提交。结果表示为*是我们提交的对比模型，由双向ContextGate CNN融合组成。

结论

在本申请中，发明人研究了多种基于CNN的方法，即ResNet，LightCNN，CGCNN，用于ASVspoof 2019挑战，其中CGCNN获得了最为显著的效果。标准LMS以及log-CQT特征与新的VAE模型结合使用，以提高系统的鲁棒性。我们的结果表明，ContextGate CNN网络对于逻辑和物理场景都是可靠的。我们提交的LA任务系统由ResNet和CGCNN融合组成，在开发集上实现了0.027的t-DCF，在评估集上实现了第5个位置。另一方面，我们提交给PA任务，一个LightCNN融合，导致开发集上的t-DCF为0.0108，评估集上的第8个位置。此外，我们的对比提交，由两个CGCNN融合，优于我们的主要提交，实现了与第3位置相当的表现。

请参考图6，其示出了本发明一实施例提供的说话人验证反欺骗装置的框图。

如图6所示，说话人验证反欺骗装置600，包括提取模块610、输入模块620和输出模块630。

其中，提取模块610，配置为提取待验证音频的预设特征；输入模块620，配置为将提取的预设特征至少输入至改进的LightCNN系统中，其中，改进的LightCNN系统为将传统的LightCNN系统中的MFM函数替换成了ContextGate；以及输出模块630，配置为输出待验证音频是否为欺骗音频。

应当理解，图6中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如模板生成模块可以描述为对每个字对应的语音段分别提取高斯后验特征，并基于每个语音段的高斯后验特征生成整个注册语音的特征模板的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如苏模板生成模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的说话人验证反欺骗方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

提取待验证音频的预设特征；

将提取的所述预设特征至少输入至改进的LightCNN系统中，其中，所述改进的LightCNN系统为将传统的LightCNN系统中的MFM函数替换成了ContextGate；

输出所述待验证音频是否为欺骗音频。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据说话人验证反欺骗装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至说话人验证反欺骗装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项说话人验证反欺骗方法。

图7是本发明实施例提供的电子设备的结构示意图，如图7所示，该设备包括：一个或多个处理器710以及存储器720，图7中以一个处理器710为例。说话人验证反欺骗方法的设备还可以包括：输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例说话人验证反欺骗方法。输入装置730可接收输入的数字或字符信息，以及产生与说话人验证反欺骗装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于说话人验证反欺骗装置中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

提取待验证音频的预设特征；

输出所述待验证音频是否为欺骗音频。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种说话人验证反欺骗方法，包括：

提取待验证音频的预设特征，其中，所述预设特征包括幅度特征和相位特征；

从所述相位特征中提取log-CQT特征和LMS特征，所述log-CQT特征为对所述待验证音频做常值q变换以替换所述待验证音频中的标准傅里叶变换，LMS为Log梅尔谱图；

将提取的所述预设特征至少输入至改进的LightCNN系统中，其中，所述改进的LightCNN系统为将传统的LightCNN系统中的MFM函数替换成了ContextGate，其中，ContextGate为GLU激活函数，所述GLU激活函数将CNN滤波器维度上的输入张量减半，使用其中一个滤波器作为权重，并将这些权重应用于另一个f(A，B)＝σ(A)×B，其中，A、B为滤波器维度，×是两个张量的阿达马乘积，σ是sigmoid激活函数；

输出所述待验证音频是否为欺骗音频。

2.根据权利要求1所述的方法，其中，所述ContextGate包括：将传统的LightCNN网络中卷积层输出的通道数分为两半，其中一半通过sigmoid函数后再和另一半做阿达马乘积。

3.根据权利要求1所述的方法，其中，所述改进的LightCNN网络通过交叉熵函数进行训练。

4.根据权利要求1所述的方法，其中，所述log-CQT特征进一步用于与变分自动分码器结合使用以提取语音特定特征。

5.根据权利要求1-4中任一项所述的方法，其中，将提取的所述预设特征至少输入至改进的LightCNN系统中包括：

将提取的所述预设特征输入至改进的LightCNN系统与其他系统融合后的模型中；

其中，所述其他系统包括ResNet系统。

6.根据权利要求5所述的方法，其中，所述ResNet系统的输入包括：

所述预设特征；以及

从所述预设特征中提取的i-vector特征连接到所述ResNet系统的嵌入层以增强模型的泛化能力。

7.一种说话人验证反欺骗装置，包括：

提取模块，配置为提取待验证音频的预设特征，其中，所述预设特征包括幅度特征和相位特征，以及从所述相位特征中提取log-CQT特征和LMS特征，所述log-CQT特征为对所述待验证音频做常值q变换以替换所述待验证音频中的标准傅里叶变换，LMS为Log梅尔谱图；

输入模块，配置为将提取的所述预设特征至少输入至改进的LightCNN系统中，其中，所述改进的LightCNN系统为将传统的LightCNN系统中的MFM函数替换成了ContextGate，其中，ContextGate为GLU激活函数，所述GLU激活函数将CNN滤波器维度上的输入张量减半，使用其中一个滤波器作为权重，并将这些权重应用于另一个f(A，B)＝σ(A)×B，其中，A、B为滤波器维度，×是两个张量的阿达马乘积，σ是sigmoid激活函数；

输出模块，配置为输出所述待验证音频是否为欺骗音频。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。