CN115273814A

CN115273814A - 伪语音检测方法、装置、计算机设备和存储介质

Info

Publication number: CN115273814A
Application number: CN202210906272.2A
Authority: CN
Inventors: 郭洋; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-01

Abstract

本申请涉及人工智能领域，提供一种伪语音检测方法、装置、计算机设备和存储介质，该方法首先获取待检测语音；获取预训练的神经网络模型，预训练的神经网络模型包括第一特征提取网络，第一残差网络和第一分类网络，其中，第一残差网络包括n个依次叠加的残差层；将待检测语音输入第一特征提取网络，得到第一语音特征；将第一语音特征输入第一残差网络，以使得第一残差网络的各个残差层进行处理，得到输出的语音特征；将第一残差网络的第n个残差层输出的语音特征输入第一分类网络，得到分类结果；根据分类结果，确定待检测语音的真伪。本申请实施例利用预训练的神经网络模型直接从语音样本中提取语音特征，无需人工设计声学特征，省时又省力。

Description

伪语音检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能领域，特别涉及一种伪语音检测方法、装置、计算机设备和存储介质。

背景技术

目前，基于深度学习和海量训练数据的语音合成和语音转换系统已能合成自然度较高的语音，这些合成的语音或者转换的语音几乎可以达到人类自然语音水平，一方面，将这些合成或者转换的语音用于娱乐广播等，能够节省人工广播占用的时间；另一方面，高质量合成语音对语音的检测也增加了难度。为了能够对语音进行较为准确的检测，传统的语音检测通常利用专家设计声学特征，如梅尔倒谱系数、线性预测系数等，上述方法需要人工参与计算，费时又费力。

发明内容

本申请旨在至少一定程度解决现有技术的问题，提供一种伪语音检测方法、装置、计算机设备和存储介质，利用预训练的神经网络模型直接从语音样本中提取语音特征，无需人工设计声学特征，省时又省力。

本申请实施例的技术方案如下：

第一方面，本申请提供了一种伪语音检测方法，所述方法包括：

获取待检测语音；

获取预训练的神经网络模型，所述预训练的神经网络模型包括第一特征提取网络，第一残差网络和第一分类网络，其中，所述第一残差网络包括n个依次叠加的残差层；

将所述待检测语音输入所述第一特征提取网络，得到第一语音特征；

将所述第一语音特征输入所述第一残差网络，以使得所述第一残差网络的各个所述残差层分别执行以下处理：获取输入的语音特征，对所述输入的语音特征进行第一特征提取处理以得到第二语音特征，对所述输入的语音特征进行第一特征激活处理以得到第一激活特征，对所述输入的语音特征进行第二特征激活处理以得到第二激活特征，对所述第一激活特征和所述第二激活特征进行第一特征融合处理以得到融合特征，对所述融合特征进行第二特征提取处理以得到第三语音特征，对所述第二语音特征和所述第三语音特征进行第二特征融合处理以得到输出的语音特征；

将所述第一残差网络的第n个残差层输出的语音特征输入所述第一分类网络，得到分类结果；

根据所述分类结果，确定所述待检测语音的真伪。

根据本申请的一些实施例，所述将所述第一残差网络的第n个残差层输出的语音特征输入所述第一分类网络，得到分类结果，包括：

对所述第n个残差层输出的语音特征进行第三特征提取处理，得到第四语音特征；

对所述第四语音特征进行线性分类处理，得到分类结果。

根据本申请的一些实施例，所述对所述第n个残差层输出的语音特征进行第三特征提取处理，得到第四语音特征，包括：

对所述第n个残差层输出的语音特征进行第一卷积处理，得到第五语音特征；

对所述第五语音特征进行池化处理，得到池化的语音特征；

对所述池化的语音特征进行第二卷积处理，得到第四语音特征。

根据本申请的一些实施例，所述对所述第四语音特征进行线性分类处理，得到分类结果，包括：

对所述第四语音特征进行线性处理，得到线性特征；

对所述线性特征进行分类处理，得到所述分类结果。

根据本申请的一些实施例，所述预训练的神经网络模型通过以下步骤获取：

获取语音数据集，所述语音数据集包括多个语音数据；

获取初始神经网络模型，所述初始神经网络模型包括第二特征提取网络，第二残差网络和第二分类网络；

将各个所述语音数据输入所述第二特征提取网络，得到第一语音数据特征集；

将所述第一语音数据特征集输入所述第二残差网络，以使所述第二残差网络输出第二语音数据特征集；

根据所述第二语音数据特征集和所述第二分类网络，计算得到损失函数的值；

根据所述损失函数的值，对所述初始神经网络模型进行训练，得到所述预训练的神经网络模型。

根据本申请的一些实施例，所述第二分类网络包括分类特征提取层和线性分类层；

所述根据所述第二语音数据特征集和所述第二分类网络，计算得到损失函数的值，包括：

将所述第二语音数据特征集输入所述分类特征提取层，得到第三语音数据特征集；

计算所述第三语音数据特征集的各个语音数据特征与所述线性分类层的权重之间的夹角，得到夹角的值；

根据所述夹角的值，计算得到所述损失函数的值。

根据本申请的一些实施例，所述根据所述夹角的值，计算得到所述损失函数的值，包括：

根据所述夹角的值，通过附加角裕度算法计算得到所述损失函数的值，所述附加角裕度算法的计算公式如下：

其中，L_AAM表示所述损失函数的值，s、N和m均表示超参数，θ_yi,i和θ_j,i表示所述夹角的值。

第二方面，本申请提供了一种伪语音检测装置，包括：

数据获取模块，用于获取待检测语音；

模型获取模块，用于获取预训练的神经网络模型，所述预训练的神经网络模型包括第一特征提取网络，第一残差网络和第一分类网络，其中，所述第一残差网络包括n个依次叠加的残差层；

输入处理模块，用于将所述待检测语音输入所述第一特征提取网络，得到第一语音特征；

残差处理模块，用于将所述第一语音特征输入所述第一残差网络，以使得所述第一残差网络的各个所述残差层分别执行以下处理：获取输入的语音特征，对所述输入的语音特征进行第一特征提取处理以得到第二语音特征，对所述输入的语音特征进行第一特征激活处理以得到第一激活特征，对所述输入的语音特征进行第二特征激活处理以得到第二激活特征，对所述第一激活特征和所述第二激活特征进行第一特征融合处理以得到融合特征，对所述融合特征进行第二特征提取处理以得到第三语音特征，对所述第二语音特征和所述第三语音特征进行第二特征融合处理以得到输出的语音特征；

分类处理模块，用于将所述第一残差网络的第n个残差层输出的语音特征输入所述第一分类网络，得到分类结果；

检测处理模块，用于根据所述分类结果，确定所述待检测语音的真伪。

第三方面，本申请提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如上第一方面描述的任一项所述方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述存储介质可被处理器读写，所述存储介质存储有计算机指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上第一方面描述的任一项所述方法的步骤。

本申请实施例所提供的技术方案具有如下的有益效果：

本申请实施例提出一种伪语音检测方法、装置、计算机设备和存储介质，该伪语音检测方法首先获取待检测语音，用于后续对该待检测语音进行语音检测；获取预训练的神经网络模型，预训练的神经网络模型包括第一特征提取网络，第一残差网络和第一分类网络，其中，第一残差网络包括n个依次叠加的残差层，有利于后续利用获取的神经网络模型直接提取待检测语音的语音特征；将待检测语音输入第一特征提取网络，得到第一语音特征，对待检测语音进行特征提取，无需人工设计声学语音特征；将第一语音特征输入第一残差网络，以使得第一残差网络的各个残差层分别执行以下处理：获取输入的语音特征，对输入的语音特征进行第一特征提取处理以得到第二语音特征，对输入的语音特征进行第一特征激活处理以得到第一激活特征，对输入的语音特征进行第二特征激活处理以得到第二激活特征，对第一激活特征和第二激活特征进行第一特征融合处理以得到融合特征，通过第一特征融合处理能够缓解网络加深导致梯度消失的问题，对融合特征进行第二特征提取处理以得到第三语音特征，对第二语音特征和第三语音特征进行第二特征融合处理以得到输出的语音特征，利用残差网络能够充分提取待检测语音的语音特征，有利于提高检测准确率；将第一残差网络的第n个残差层输出的语音特征输入第一分类网络，得到分类结果；然后根据分类结果，确定待检测语音的真伪。本申请实施例能够利用神经网络直接从语音中提取语音特征，无需人工设计声学特征，省时又省力。

附图说明

图1是本申请的一个实施例提供的伪语音检测方法的流程示意图；

图2是图1中步骤S500的一个子步骤流程示意图；

图3是图2中步骤S510的一个子步骤流程示意图；

图4是图2中步骤S520的一个子步骤流程示意图；

图5是本申请的另一个实施例提供的伪语音检测方法的流程示意图；

图6是图5中步骤S750的一个子步骤流程示意图；

图7是本申请的一个实施例提供的伪语音检测方法的网络模型整体流程示意图；

图8是本申请的一个实施例提供的伪语音检测方法的残差层流程示意图；

图9是本申请的一个实施例提供的伪语音检测装置的结构示意图；

图10是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

神经网络：本申请实施例中指人工神经网络(Artificial Neural Networks，简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。人工神经网络是由众多的神经元可调的连接权值连接而成，具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。BP(Back Propagation)算法又称为误差反向传播算法，是人工神经网络中的一种监督式的学习算法。BP神经网络算法在理论上可以逼近任意函数，基本的结构由非线性变化单元组成，具有很强的非线性映射能力。而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定，灵活性很大，有广泛的应用前景。

深度学习(deep learning)：是学习样本数据的内在规律和表示层次，它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习模型为较深的神经网络，网络层数较深导致深度学习模型训练较困难，不仅对计算机硬件的要求较高，而且还需要结合一些训练技巧，从而得到一个训练好的深度学习模型。

残差网络：如果深层网络的后面那些层是恒等映射，那么模型就退化为一个浅层网络，如何学习恒等映射函数呢？如果直接让一些层去拟合一个潜在的恒等映射函数H(x)＝x，这是比较困难，这可能就是深层网络难以训练的原因。但是，如果把网络设计为H(x)＝F(x)+x，只要F(x)＝0，就构成了一个恒等映射H(x)＝x，而且，拟合残差更加容易。残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。残差网络内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

相关技术中，神经网络模型的激活函数通常采用tanh激活函数和sigmoid激活函数，sigmoid激活函数容易过饱和，sigmoid激活函数只有在坐标原点附近有明显的梯度变化，其两端变化非常缓慢，这会导致在反向传播过程中更新参数是梯度弥散的现象，并该现象随着网络层数的加深而变得更加严重。并且函数输出并不是中心对称的，sigmoid激活函数的输出值恒大于0，这会导致模型训练的收敛速度变慢。tanh激活函数是sigmoid激活函数的变形，能够解决sigmoid函数训练时收敛慢的问题，但是仍然存在网络加深时，梯度消失的问题。

基于此，本申请实施例提出一种伪语音检测方法、装置、计算机设备和存储介质，该伪语音检测方法首先获取待检测语音，用于后续对该待检测语音进行语音检测；获取预训练的神经网络模型，预训练的神经网络模型包括第一特征提取网络，第一残差网络和第一分类网络，其中，第一残差网络包括n个依次叠加的残差层，有利于后续利用获取的神经网络模型直接提取待检测语音的语音特征；将待检测语音输入第一特征提取网络，得到第一语音特征，对待检测语音进行特征提取，无需人工设计声学语音特征；将第一语音特征输入第一残差网络，以使得第一残差网络的各个残差层分别执行以下处理：获取输入的语音特征，对输入的语音特征进行第一特征提取处理以得到第二语音特征，对输入的语音特征进行第一特征激活处理以得到第一激活特征，对输入的语音特征进行第二特征激活处理以得到第二激活特征，对第一激活特征和第二激活特征进行第一特征融合处理以得到融合特征，通过第一特征融合处理能够缓解网络加深导致梯度消失的问题，对融合特征进行第二特征提取处理以得到第三语音特征，对第二语音特征和第三语音特征进行第二特征融合处理以得到输出的语音特征，利用残差网络能够充分提取待检测语音的语音特征，有利于提高检测准确率；将第一残差网络的第n个残差层输出的语音特征输入第一分类网络，得到分类结果；然后根据分类结果，确定待检测语音的真伪。本申请实施例能够利用神经网络直接从语音中提取语音特征，无需人工设计声学特征，省时又省力。

需要说明的是，该伪语音检测方法可以应用于对合成语音进行检测，也可以对转换的语音进行检测。该伪语音检测方法能够跨数据集进行测试实验，具有较好的泛化能力。

本申请实施例可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

下面参照附图，对本申请实施例提供的伪语音检测方法、装置、计算机设备和存储介质进行说明。

参见图1，图1示出了本申请实施例提供的一种伪语音检测方法的流程示意图。上述方法包括但不限于有步骤S100、步骤S200、步骤S300、步骤S400、步骤S500和步骤S600。

步骤S100，获取待检测语音。

在一实施例中，获取的待检测语音可以为合成的语音，也可以为通过真实语音转换的语音。通过得到待检测语音，有利于后续对待检测语音进行检测处理。

步骤S200，获取预训练的神经网络模型，预训练的神经网络模型包括第一特征提取网络，第一残差网络和第一分类网络，其中，第一残差网络包括n个依次叠加的残差层。

如图7所示，预训练的神经网络模型包括第一特征提取网络，第一残差网络和第一分类网络。其中，第一特征提取网络为对待检测语音进行特征提取的网络结构；第一残差网络为对第一特征提取网络输出的提取特征进行特征提取的网络结构，第一残差网络包括n个依次叠加的残差层，n可以为4，也可以为5；第一分类网络为对第一残差网络输出的提取特征进行特征提取和特征分类的网络结构。通过获取神经网络模型，有利于后续利用神经网络模型进行语音检测。

如图5和图7所示，预训练的神经网络模型通过以下步骤获取：

步骤S710，获取语音数据集，语音数据集包括多个语音数据。

在一实施例中，在进行网络训练之前，获取训练测试用的语音数据集，该语音数据集包括多个语音数据，每一个语音数据可以为合成语音数据，也可以为转换语音数据，因此，根据这些不同类型的语音数据，可以构成一个纯合成语音数据集、纯转换语音数据集和合成语音与转换语音混合的数据集。通过得到语音数据集，有利于后续进行神经网络训练和测试的处理。

步骤S720，获取初始神经网络模型，初始神经网络模型包括第二特征提取网络，第二残差网络和第二分类网络。

如图7所示，初始神经网络模型包括第二特征提取网络，第二残差网络和第二分类网络。其中，第二特征提取网络为对待检测语音进行特征提取的网络结构；第二残差网络为对第二特征提取网络输出的提取特征进行特征提取的网络结构；第二分类网络为对第二残差网络输出的提取特征进行特征提取和特征分类的网络结构。通过获取初始神经网络模型，有利于后续对初始神经网络模型进行训练。

步骤S730，将各个语音数据输入第二特征提取网络，得到第一语音数据特征集。

在一实施例中，利用第二特征提取网络对各个语音数据进行特征提取，得到第一语音数据特征集，能够对输入的语音数据样本进行处理，有利于后续利用第一语音数据特征集进行后续特征提取处理。其中，第一语音数据特征集为通过第二特征提取网络得到的语音数据特征的集合。

需要说明的是，第二特征提取网络可以为卷积神经网络，也可以为全连接神经网络，还可以为其他能够对语音数据进行特征提取的网络，这里不作赘述。第二特征提取网络用于对输入的语音数据进行特征提取，能够将语音数据向量转换成提取的特征向量。

步骤S740，将第一语音数据特征集输入第二残差网络，以使第二残差网络输出第二语音数据特征集。

在一实施例中，将第一语音数据特征集输入第二残差网络，第二残差网络包括多个残差层，第一个残差层对第一语音数据特征集进行处理，随后的第n残差层对第n-1残差层输出的语音数据特征集进行处理，得到第n层残差层输出的第二语音数据特征集。其中，第二语音数据特征集通过残差网络得到的语音数据特征的集合。利用第二残差网络进行特征提取，能够充分提取语音特征，增加语音检测的准确率。

步骤S750，根据第二语音数据特征集和第二分类网络，计算得到损失函数的值。

如图6所示，第二分类网络包括分类特征提取层和线性分类层，根据第二语音数据特征集和第二分类网络，计算得到损失函数的值，包括但不限于有以下步骤：

步骤S751，将第二语音数据特征集输入分类特征提取层，得到第三语音数据特征集。

在一实施例中，将第二语音数据特征集输入分类特征提取层，利用分类特征提取层对第二语音数据特征集的各二个语音数据特征进行特征提取，得到第三语音数据特征集，有利于后续利用第三语音数据特征集进行损失函数值的计算。其中，第三语音数据特征集为通过分类特征提取层得到的语音数据特征的集合。

需要说明的是，分类特征提取层可以为卷积层，也可以为全连接层。示例性地，卷积层的参数可以设置为：卷积核的大小为1*1的卷积核，通道数为256，则中间隐变量维度为1*256。

步骤S752，计算第三语音数据特征集的各个语音数据特征与线性分类层的权重之间的夹角，得到夹角的值。

在一实施例中，根据第三语音数据特征集中的各个语音数据特征向量，计算每一个语音数据特征向量与线性分类层的权重之间的夹角，其中线性分类层的权重指的是线性分类层中输入层的权重，得到夹角的值。根据夹角的值，有利于后续进行损失函数的计算处理。

步骤S753，根据夹角的值，计算得到损失函数的值。

在一实施例中，根据夹角的值，通过附加角裕度算法计算得到损失函数的值，附加角裕度算法的计算公式如下：

其中，L_AAM表示损失函数的值，s、N和m均表示超参数，θ_yi,i和θ_j,i表示夹角的值。

步骤S760，根据损失函数的值，对初始神经网络模型进行训练，得到预训练的神经网络模型。

在一实施例中，在损失函数的值满足预设的训练结束条件情况下，结束对初始神经网络模型的训练，得到预训练的神经网络模型，该预训练的神经网络模型用于进行后续对待检测语音进行检测处理。训练结束条件可以为损失函数的值小于预设的损失值，结束训练；也可以为训练迭代次数作为训练结束条件，示例性地，预设的训练次数为10000次，循环参数达到该预设的训练次数则结束训练；也可以为其他结束训练条件，能够结束训练即可。

在一实施例中，在损失函数的值不满足预设的训练结束条件情况下，即损失函数的值经过多次训练仍不能结束训练，则采用训练迭代次数作为结束训练条件，当达到预设的训练次数，不考虑损失函数的值是否满足预设的训练结束条件，结束训练，得到预训练的神经网络模型，该预训练的神经网络模型用于进行后续对待检测语音进行检测处理。通过将不同的训练结束条件相结合，能够避免出现无限循环问题，其中，多次为训练次数大于100000，该数值可根据实际情况进行修改。也可以采用其他结合方式，能够避免无限循环问题即可。

需要说明的是，可以通过调节初始神经网络模型的超参数，不断的对初始神经网络模型进行训练，以找到能够达到模型检测准确度较高的一组超参数，该组超参数对应的预训练的神经网络模型的准确率较高。

步骤S300，将待检测语音输入第一特征提取网络，得到第一语音特征。

在一实施例中，利用第一特征提取网络对待检测语音进行特征提取，得到第一语音特征，能够对输入的待检测语音样本进行处理，有利于后续利用第一语音特征进行特征提取计算处理。其中，第一语音特征通过第一特征提取网络得到的特征向量。

步骤S400，将第一语音特征输入第一残差网络，以使得第一残差网络的各个残差层分别执行以下处理：获取输入的语音特征，对输入的语音特征进行第一特征提取处理以得到第二语音特征，对输入的语音特征进行第一特征激活处理以得到第一激活特征，对输入的语音特征进行第二特征激活处理以得到第二激活特征，对第一激活特征和第二激活特征进行第一特征融合处理以得到融合特征，对融合特征进行第二特征提取处理以得到第三语音特征，对第二语音特征和第三语音特征进行第二特征融合处理以得到输出的语音特征。

如图8所示，根据步骤S300，将得到的第一语音特征输入第一残差网络，第一残差网络包括多个残差层，以使得第一残差网络的各个残差层分别执行以下处理：获取输入的语音特征，对输入的语音特征进行第一特征提取处理以得到第二语音特征，对输入的语音特征进行第一特征激活处理以得到第一激活特征，能够将输入的语音特征进行归一化处理，避免出现计算的指数性增长；对输入的语音特征进行第二特征激活处理以得到第二激活特征，能够对输入的语音特征进行归一化处理，避免出现计算的指数性增长；对第一激活特征和第二激活特征进行第一特征融合处理以得到融合特征，通过得到融合特征能够缓解网络加深导致梯度消失的问题；对融合特征进行第二特征提取处理以得到第三语音特征，对第二语音特征和第三语音特征进行第二特征融合处理以得到输出的语音特征。每一个残差层都进行上述处理，实现充分提取语音特征，从而增加检测的准确性。

需要说明的是，获取输入的语音特征，当为第一层残差层进行处理时，该语音特征为第一语音特征，随后的第n残差层对第n-1残差层输出的语音特征进行处理，得到第n层残差层输出的语音特征。经过多层残差层处理，能够充分进行特征提取，从而增加检测的准确性。

需要说明的是，第一特征提取处理和第二特征提取处理均为卷积层、全连接层或者其他特征提取层进行特征提取处理方式；第一特征激活处理和第二特征激活处理均为利用tanh激活函数、sigmoid激活函数或者relu激活函数进特征归一化的处理方式；第一特征融合处理和第二特征融合处理均可以为特征向量相加或者特征向量点乘的融合处理方式；第一激活特征和第二激活特征均为经过激活函数处理得到的特征向量；第二语音特征和第三语音特征为经过特征提取处理得到的特征向量。

步骤S500，将第一残差网络的第n个残差层输出的语音特征输入第一分类网络，得到分类结果。

在一实施例中，第一分类网络为对第一残差网络输出的提取特征进行特征提取和特征分类的网络结构。将第一残差网络的第n个残差层输出的语音特征输入第一分类网络，得到分类结果，该分类结果为一个概率值，表示待检测语音真伪的概率，有利于后续根据分类结果确定待检测语音的真伪。

如图2所示，将第一残差网络的第n个残差层输出的语音特征输入第一分类网络，得到分类结果，包括但不限于有以下步骤：

步骤S510，对第n个残差层输出的语音特征进行第三特征提取处理，得到第四语音特征。

如图3和图7所示，对第n个残差层输出的语音特征进行第三特征提取处理，得到第四语音特征，包括但不限于有以下步骤：

步骤S511，对第n个残差层输出的语音特征进行第一卷积处理，得到第五语音特征。

在一实施例中，将第n个残差层输出的语音特征输入到卷积层进行第一卷积处理，得到第五语音特征。通过进行第一卷积处理，第一残差网络输出的特征进行整合，实现对特征的充分提取。其中，第一卷积处理为利用卷积层进行的处理操作；第五语音特征为利用卷积层对残差层输出的特征进行处理后得到的特征向量。

步骤S512，对第五语音特征进行池化处理，得到池化的语音特征。

在一实施例中，根据步骤S511，对第五语音特征进行池化处理，可以利用最大值进行池化，也可以利用均值进行池化，还可以为利用统计池化进行池化处理，得到池化的语音特征。通过对提取的特征进行池化处理，能够降低特征维度，提高感受野。

步骤S513，对池化的语音特征进行第二卷积处理，得到第四语音特征。

在一实施例中，根据步骤S512，将得到的池化的语音特征进行第二卷积处理，得到第四语音特征，对增大感受野的特征向量进行特征提取，实现特征的充分提取。其中，第二卷积处理为利用卷积层进行的处理操作；第四语音特征为利用卷积层对池化后的特征进行处理后得到的特征向量。

步骤S520，对第四语音特征进行线性分类处理，得到分类结果。

如图4和图7所示，对第四语音特征进行线性分类处理，得到分类结果，包括但不限于有以下步骤：

步骤S521，对第四语音特征进行线性处理，得到线性特征。

在一实施例中，利用线性层对步骤S510得到的第四语音特征进行线性处理，得到线性特征，线性层可以为全连接层，也可以1*1的卷积层。线性处理能够得到待检测语音的边缘特征，实现特征的充分提取。

步骤S522，对线性特征进行分类处理，得到分类结果。

在一实施例中，对步骤S521得到的线性特征进行分类处理，可以采用softmax分类层对线性特征进行分类处理，也可以采用sigmoid分类层对线性特征进行分类处理，得到分类结果。分类结果为概率值，当分类结果大于预设的概率值时，将大于预设的概率值的分类结果对应的待检测语音分为一类，当分类结果小于等于预设的概率值时，将小于等于预设的概率值的分类结果对应的待检测语音分为一类。有利于后续根据分类结果确定待检测语音的真伪。其中，预设的概率值可以为0.6，也可以为0.7，能够根据需求进行修改，这里不作赘述。

步骤S600，根据分类结果，确定待检测语音的真伪。

在一实施例中，根据步骤S500，分类结果为概率值，当待检测语音对应的分类结果大于预设的概率值时，确定待检测语音为真实的语音；当待检测语音对应的分类结果小于等于预设的概率值时，确定待检测语音为伪造的语音，从而辨别出待检测语音的真伪。

如图9所示，本申请实施例提供了伪语音检测装置100，该装置100包括利用数据获取模块110获取待检测语音，用于后续对该待检测语音进行语音检测；利用模型获取模块120获取预训练的神经网络模型，预训练的神经网络模型包括第一特征提取网络，第一残差网络和第一分类网络，其中，第一残差网络包括n个依次叠加的残差层，有利于后续利用获取的神经网络模型直接提取待检测语音的语音特征；通过输入处理模块130将待检测语音输入第一特征提取网络，得到第一语音特征，对待检测语音进行特征提取，无需人工设计声学语音特征；然后采用残差处理模块140将第一语音特征输入第一残差网络，以使得第一残差网络的各个残差层分别执行以下处理：获取输入的语音特征，对输入的语音特征进行第一特征提取处理以得到第二语音特征，对输入的语音特征进行第一特征激活处理以得到第一激活特征，对输入的语音特征进行第二特征激活处理以得到第二激活特征，对第一激活特征和第二激活特征进行第一特征融合处理以得到融合特征，通过第一特征融合处理能够缓解网络加深导致梯度消失的问题，对融合特征进行第二特征提取处理以得到第三语音特征，对第二语音特征和第三语音特征进行第二特征融合处理以得到输出的语音特征，利用残差网络能够充分提取待检测语音的语音特征，有利于提高检测准确率；随后采用分类处理模块150将第一残差网络的第n个残差层输出的语音特征输入第一分类网络，得到分类结果；最后通过检测处理模块160根据分类结果，确定待检测语音的真伪。本申请实施例能够利用神经网络直接从语音中提取语音特征，无需人工设计声学特征，省时又省力。

需要说明的是，数据获取模块110与模型获取模块120连接，模型获取模块120与输入处理模块130连接，输入处理模块130与残差处理模块140连接，残差处理模块140与分类处理模块150连接，分类处理模块150与检测处理模块160连接。上述伪语音检测方法作用于伪语音检测装置100，该伪语音检测装置100能够利用预训练的神经网络模型直接从语音样本中提取语音特征，无需人工设计声学特征，省时又省力。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

图10示出了本申请实施例提供的计算机设备500。该计算机设备500可以是服务器或者终端，该计算机设备500的内部结构包括但不限于：

存储器510，用于存储程序；

处理器520，用于执行存储器510存储的程序，当处理器520执行存储器510存储的程序时，处理器520用于执行上述的伪语音检测方法。

处理器520和存储器510可以通过总线或者其他方式连接。

存储器510作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本申请任意实施例描述的伪语音检测。处理器520通过运行存储在存储器510中的非暂态软件程序以及指令，从而实现上述的伪语音检测。

存储器510可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述的伪语音检测。此外，存储器510可以包括高速随机存取存储器，还可以包括非暂态存储器，比如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器510可选包括相对于处理器520远程设置的存储器，这些远程存储器可以通过网络连接至该处理器520。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述的伪语音检测所需的非暂态软件程序以及指令存储在存储器510中，当被一个或者多个处理器520执行时，执行本申请任意实施例提供的伪语音检测。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述的伪语音检测。

在一实施例中，该存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器520执行，比如，被上述计算机设备500中的一个处理器520执行，可使得上述一个或多个处理器520执行本申请任意实施例提供的伪语音检测。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“第五”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的。共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本申请权利要求所限定的范围内。

Claims

1.一种伪语音检测方法，其特征在于，所述方法包括：

获取待检测语音；

根据所述分类结果，确定所述待检测语音的真伪。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一残差网络的第n个残差层输出的语音特征输入所述第一分类网络，得到分类结果，包括：

对所述第四语音特征进行线性分类处理，得到分类结果。

3.根据权利要求2所述的方法，其特征在于，所述对所述第n个残差层输出的语音特征进行第三特征提取处理，得到第四语音特征，包括：

对所述第五语音特征进行池化处理，得到池化的语音特征；

4.根据权利要求2所述的方法，其特征在于，所述对所述第四语音特征进行线性分类处理，得到分类结果，包括：

对所述第四语音特征进行线性处理，得到线性特征；

对所述线性特征进行分类处理，得到所述分类结果。

5.根据权利要求1所述的方法，其特征在于，所述预训练的神经网络模型通过以下步骤获取：

获取语音数据集，所述语音数据集包括多个语音数据；

6.根据权利要求5所述的方法，其特征在于，所述第二分类网络包括分类特征提取层和线性分类层；

根据所述夹角的值，计算得到所述损失函数的值。

7.根据权利要求6所述的方法，其特征在于，所述根据所述夹角的值，计算得到所述损失函数的值，包括：

8.一种伪语音检测装置，其特征在于，包括：

数据获取模块，用于获取待检测语音；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质可被处理器读写，所述存储介质存储有计算机指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述方法的步骤。