CN113284513B

CN113284513B - 基于音素时长特征的虚假语音检测方法及装置

Info

Publication number: CN113284513B
Application number: CN202110841276.2A
Authority: CN
Inventors: 陶建华; 汪涛; 易江燕; 傅睿博
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-15
Anticipated expiration: 2041-07-26
Also published as: CN113284513A

Abstract

本发明提供基于音素时长特征的虚假语音检测方法，包括：从音频训练数据中提取声学特征；利用音频训练数据对深度学习网络进行预训练，得到预训练深度学习网络；应用预训练深度学习网络的最后n层的隐含特征作为中间变量，提取音素时长特征向量；将所述声学特征和所述音素时长特征向量作为输入，输入到判别器进行训练；应用音频测试数据，重复步骤S1‑S3，得到测试数据的声学特征和音素时长特征向量，将测试数据的声学特征和音素时长特征向量输入到训练好的判别器，得测试语音的真伪检测结果。

Description

基于音素时长特征的虚假语音检测方法及装置

技术领域

本发明涉及虚假语音检测领域，具体涉及基于音素时长特征的虚假语音检测方法及装置。

背景技术

防伪检测最先在图像和视频领域取得突破性进展。最常见的AI换脸算法有DeepFake、FaceSwap 和 Face2Face三种，对于它们所生成的人脸，人类的识别率甚至低于40%。不过得益于大型虚假人脸数据集FaceForensics的发布，人脸的防伪检测取得突破性进展，来自微软亚洲研究院视觉计算组的学者提出的模型一举将假脸鉴别的准确率提升到了99%以上。近些年端到端语音合成的系统生成的语音音质越来越高，足以以假乱真，但是关于声音防伪检测的研究。随着端到端合成和转换系统的进步，用这些系统能够生成极其逼近真人声音的虚假音频，人耳几乎无法分辨这些声音的真假，这也使得增加了声音防伪检测的很大的难度。2015年之后，由国际信息学研究所、爱丁堡大学、芬兰东部大学等全世界著名大学和研究所以及包括谷歌等科技公司发起了自动说话人欺骗验证系统(ASVspoof)评测大赛，极大的推动了声音防伪检测领域的发展。近几年，关于声音防伪检测的研究方法主要集中于两个方面。第一个是特征层面，高斯混合模型(Gaussian MixtureModel，GMM)分类器联合常数Q倒谱系数（CQCC）在各种反欺骗任务中得到了广泛的关注。CQCC特征是从常量Q变换(CQT)中提取的一种受感知启发的时频分析。考虑到虚假声音和真实声音的相似性，一种特征可能无法完全展示出两者的差异，一些研究者尝试使用多种特征融合的方法来提高特征的区分性，同时避免有效信息的丢失。另外受限于目前的数据集大小，通过数据扩增的方法也能够通过提高模型的鲁棒性来提高模型的识别效果。第二个是模型层面，很多研究者试图通过寻找更加鲁棒的模型结构来提高模型的鉴别效果。典型的就是采用深度神经网络中的卷积神经网络，通过设计不同卷积层之间的连接结构，以及不同的模型参数来提高模型的性能。单个模型的表现能力也是有限的，部分工作尝试使用集成学习的方法，采用多个模型同时对输入语句进行鉴别，判断句子的真伪。

目前的声音防伪检测研究，虽然获得了一定的性能提升，但是缺乏对于真实声音与虚假声音之间差异的理论研究，不能从特征和信号层面解释真实声音和虚假声音之间的差异。

公开号为CN112992126A公开了一种语音真伪的验证方法、装置、电子设备及可读存储介质，包括：获取待识别语音；将待识别语音输入预先训练好的声音特征提取网络，得到目标特征向量；目标特征向量包含用于区分声音来源的待识别语音的时序信息以及音素长时对应信息；将目标特征向量输入至预先训练好的分类模型中，确定待识别语音是否为真实用户发出的；分类模型是基于最大互信息准则进行训练的，用于区分真实语音与伪造语音。

公开号为CN111613240A公开了一种基于注意力机制和BiLSTM的伪装语音检测方法，包括：S1 .提取语音样本中与语音相对应的语音特征数据，并将提取出的语音特征数据转换为语音图像数据；S2 .采用双向长短期记忆网络Bi-LSTM对转换得到的语音图像数据进行处理，得到图像数据的深度特征；S3 .采用注意力机制对所述得到的深度特征进行计算，得到注意力的概率分布；S4 .采用DNN分类器对得到的注意力概率分布进行分类，得到最终的伪装语言检测结果。

现有技术缺点：

1）缺乏对于真实声音与虚假声音之间差异的理论研究，不能从真实语音与虚假语音之间的韵律差异来进行判别。

2）声音的防伪检测要求系统具有鲁棒性，能够鉴别出来自于多种不同的合成系统的虚假声音。

发明内容

有鉴于此，本发明第一方面提供一种基于音素时长特征的虚假语音检测方法，具体地，本发明是通过如下技术方案实现的：

S1：从音频训练数据中提取声学特征；

S2：利用音频训练数据对深度学习网络进行预训练，得到预训练深度学习网络；

S3：应用预训练深度学习网络的最后n层的隐含特征作为中间变量，提取音素时长特征向量；

S4：将所述声学特征和所述音素时长特征向量作为输入，输入到判别器进行训练；

S5：应用音频测试数据，重复步骤S1-S3，得到测试数据的声学特征和音素时长特征向量，将测试数据的声学特征和音素时长特征向量输入到训练好的判别器，得到测试语音的真伪检测结果。

优选地，声学特征包括： MFCC或者BFCC频谱特征。

优选地，深度学习网络包括：编码器和解码器两部分。

优选地，最后n层的隐含特征为解码器的最后n层的隐含特征。

优选地，n表示为预训练深度学习网络的最后n层，其可以根据具体情况进行选值，建议选取3~5层

优选地，提取音素时长特征向量之前还包括：将最后n层的隐含特征进行拼接，得到拼接特征。

优选地，提取音素时长特征向量之前还包括：在拼接特征中获得与说话人无关的音素表示特征。

优选地，提取音素时长特征向量之前还包括：通过音素表示特征提取出音素时长特征向量。

优选地，判别器采用ResNet50来构建。

优选地，得到测试语音的真伪检测结果的具体方法为：鉴别为虚假的概率大于等于0.5的语音判别为虚假语音，对于虚假的概率小于0.5的语音判别为真实语音。

本发明第二方面提供一种基于音素时长特征的虚假语音检测装置，所述装置包括：声学特征提取模块、时长特征提取模块和判别器；

声学特征提取模块从音频训练数据中提取声学特征；

时长特征提取模块为预训练深度学习网络：应用预训练深度学习网络的最后n层的隐含特征作为中间变量，提取音素时长特征向量；

将所述声学特征和所述音素时长特征向量作为输入，输入到判别器，得到语音的真伪检测结果。

优选的，所述预训练深度学习网络包括：编码器和解码器；所述最后n层的隐含特征为解码器的最后n层的隐含特征。

本申请实施例提供的上述技术方案及装置与现有技术相比具有如下优点：

可以利用音素时长特征检测虚假语音，准确率高，鲁棒性强。

提高准确率：

由于真实语音和伪语音在音素时长特征上分布差异较大，虚假语音是音素时长规律性强，差异性小，而真实语音由于说话是随机性较大，每个音素的时长分布差异性很大，利用这样的差异可以有效的真伪进行检测，提高系统的准确率。

增加鲁棒性：

虚假系统种类众多，但是虚假系统均逃不过声学模型加声码器的框架，而凡是存在声学模型的架构中，模型学习出来的音素时长一定是基于训练语料较为平均的结果，所以结论是基于语音合成技术的虚假语音均存在时长音素过于平均的问题，所以可以仅仅利用这种差异检测众多原理的语音合成系统合成出来的虚假语音，提高鉴伪系统的鲁棒性。

附图说明

图1为本发明实施例提供的基于音素时长特征的虚假语音检测方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

目前虚假语音大多是基于语音合成系统虚假而来，而语音合成系统可以分解为声学模型和声码器模块。其中声学模型是负责将文本信息转化为声学特征，声码器的功能是将声学特征转换为最终的语音信号。在这个过程中，由于声学模型采用了有监督的文本-声学特征对的训练方式，训练的声学模型在合成阶段会出现韵律过于平滑的现象，而这种韵律过平滑的现象的原因是每个音素的时长分布过于的平均。这是由于真实的数据中每个音素的分布是具有一定的随机性的，而在模型训练过程中，采用梯度下降法训练模型参数，模型会在这种随机性上去一个均衡，导致每个音素的分布呈现统计后的平均量。所以，分局这种音素的时长分布特征在真伪数据之间的差异性可以鉴别语音的真伪。

利用虚假语音的音素时长特征与真实语音音素时长特征之间的差异性，对虚假语音进行精确的检测。由于通过机器虚假的语音韵律信息规律性较大，随机性小，并且这种规律性主要体现在一句话中每个音素的时长分布上。每个音素的时长差异性较小，并且在不同句子中相同音素的时长大致是相同的。而在真实的语音中，由于说话人发音的随机性较大，加之口语化等原因，有真实人类发出来的声音在音素的时长分布上随机性很大，相同音素在不同语句场景和时刻中具有明显不同的时长分布。根据这种虚假语音和真实语音在时长特征上显著的差异性，可以从语音中提取音素的时长特征作为特征向量，联合对应音素的种类输入到鉴伪判别器中进行分类，从而达到对虚假语音的精确检测。

这样做的好处是基于显著的物理背景，可解释性，并且易于操作和实现。此外，鉴伪系统内的鲁棒性强，虽然虚假系统种类众多，但是虚假系统均逃不过声学模型加声码器的框架，而凡是存在声学模型的架构中，模型学习出来的音素时长一定是基于训练语料较为平均的结果，所以结论是基于语音合成技术的虚假语音均存在时长音素过于平均的问题，所以可以仅仅利用这种差异检测众多原理的语音合成系统合成出来的虚假语音，极大提高鉴伪系统的鲁棒性。

实施例1：

如图1所示本申请实施例提供的基于音素时长特征的虚假语音检测方法，包括：

S1：从音频训练数据中提取声学特征：可采用常规的声学特征，比如MFCC或者BFCC等频谱特征；在此，以MFCC特征为例，首先输入语音，通过对语音进行傅里叶变换获得频谱图，然后在与MEL倒谱系数相乘获得Mel谱特征，最后根据Mel谱特征提取MFCC系数；以此MFCC特征作为判别器的输入；

S2：利用音频训练数据对深度学习网络进行预训练，得到预训练深度学习网络；所述深度学习网络包括：编码器和解码器两部分；所述深度学习网络选用TDNN时延神经网络；

在一些实施中，预训练神经网络模型实际上是利用语音识别技术训练的模型，该模型结构是编码器和解码器结构。

S3：将深度学习网络的解码器的最后n层的隐含特征进行拼接，可以根据具体情况进行选值，建议选择3-5层，得到拼接特征，在拼接特征中获得与说话人无关的音素表示特征，再通过音素表示特征提取出音素时长特征向量；

S4：将所述声学特征和所述音素时长特征向量作为输入，输入到判别器进行训练；判别器的设计可以采用传统的机器学习方法比如SVM，随机森林等技术，也可以采用神经网络模型优化模型参数，比如DNN，CNN,RNN等模块进行构建；所述判别器具体采用ResNet50来构建；其模型结构有50层，其中有四组子结构，一共50个2D卷积，并采用残差结构防止模型过拟合，提高模型建模能力；

S5：应用语音伪长度为20秒的片段（小于20秒则使用0进行填充，超过20秒则进行截断）的音频测试数据，重复步骤S1-S3，得到测试数据的声学特征和音素时长特征向量，将测试数据的MFCC声学特征和音素时长特征向量输入到训练好的判别器，得测试语音的真伪检测结果，具体方法为：鉴别为虚假的概率大于等于0.5的语音判别为虚假语音，对于虚假的概率小于0.5的语音判别为真实语音。

实施例2：

根据实施例1中的所述的方案，本发明第二方面提供一种基于音素时长特征的虚假语音检测装置，采用上述实施例1中的方法，具体包括：声学特征提取模块、时长特征提取模块和判别器；

声学特征提取模块从音频训练数据中提取声学特征；

实施例3：

根据实施例1中的所述的方案，本发明第三方面提供一种存储介质，用于实施和/或存储实施例1所述的方法基于音素时长特征的虚假语音检测方法。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.基于音素时长特征的虚假语音检测方法，其特征在于，所述方法包括：

S1：从音频训练数据中提取声学特征；

2.根据权利要求1所述的基于音素时长特征的虚假语音检测方法，其特征在于，所述声学特征包括：MFCC或者BFCC频谱特征。

3.根据权利要求1所述的基于音素时长特征的虚假语音检测方法，其特征在于，所述深度学习网络包括：编码器和解码器两部分。

4.根据权利要求3所述的基于音素时长特征的虚假语音检测方法，其特征在于，所述最后n层的隐含特征为解码器的最后n层的隐含特征。

5.根据权利要求4所述的基于音素时长特征的虚假语音检测方法，其特征在于，所述n表示为预训练深度学习网络的最后n层，选取3~5层。

6.根据权利要求5所述的基于音素时长特征的虚假语音检测方法，其特征在于，所述提取音素时长特征向量之前还包括：将最后n层的隐含特征进行拼接，得到拼接特征；在拼接特征中获得与说话人无关的音素表示特征；

所述提取音素时长特征向量包括：通过音素表示特征提取出音素时长特征向量。

7.根据权利要求1所述的基于音素时长特征的虚假语音检测方法，其特征在于，所述判别器采用ResNet50来构建。

8.根据权利要求1所述的基于音素时长特征的虚假语音检测方法，其特征在于，所述得到测试语音的真伪检测结果的具体方法为：鉴别为虚假的概率大于等于0.5的语音判别为虚假语音，对于虚假的概率小于0.5的语音判别为真实语音。

9.基于音素时长特征的虚假语音检测装置，其特征在于，所述装置包括：声学特征提取模块、时长特征提取模块和判别器；

声学特征提取模块从音频训练数据中提取声学特征；

时长特征提取模块为利用音频训练数据对深度学习网络进行预训练，得到预训练深度学习网络：应用预训练深度学习网络的最后n层的隐含特征作为中间变量，提取音素时长特征向量；

10.根据权利要求9所述的基于音素时长特征的虚假语音检测装置，其特征在于，所述预训练深度学习网络包括：编码器和解码器；所述最后n层的隐含特征为解码器的最后n层的隐含特征。