CN116645981A

CN116645981A - 一种基于声码器痕迹指纹比对的深度合成语音检测方法

Info

Publication number: CN116645981A
Application number: CN202310670390.2A
Authority: CN
Inventors: 温正棋; 汪智勇
Original assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-08-25

Abstract

本发明属于音频检测技术领域，特别涉及一种基于声码器痕迹指纹比对的深度合成语音检测方法，其中，深度合成语音检测方法包括以下步骤：获取待检测语音；将待检测语音输入预训练的声码器，得到合成音频；提取待检测语音和合成音频的波形特征；依据待检测语音的波形特征与合成音频的波形特征计算出待检测语音的真伪结果。本发明提供的深度合成语音检测方法以合成音频的角度，针对声码器这个深度合成中十分重要的模块进行基于声码器痕迹指纹的合成音频伪造检测，可解释性强，同时，对原始音频以及分析合成音频的波形提取神经网络特征，能准确捕捉目标声码器的深度合成痕迹，准确性高。

Description

一种基于声码器痕迹指纹比对的深度合成语音检测方法

技术领域

本发明涉及音频检测技术领域，尤其涉及一种基于声码器痕迹指纹比对的深度合成语音检测方法。

背景技术

语音是现代通讯和信息交流的重要形式之一。随着数字语音技术的不断发展，语音深度合成技术已经成为实现语音信息自动化的关键技术之一，被广泛应用于语音转换、语音深度合成、音乐生成等领域。然而，随着语音深度合成技术的广泛应用，一些不良分子利用语音深度合成技术进行网络欺诈、声音冒充等活动，严重威胁了网络安全和社会稳定。因此，如何准确、高效地检测深度合成语音具有重要的现实意义和应用价值。传统的合成音频检测缺乏关于真实声音和深度合成声音差异的理论研究，从特征和信号层面无法清晰解释两者的差别。因此可解释性与鲁棒性差。

发明内容

有鉴于此，本发明实施例提供了一种基于声码器痕迹指纹比对的深度合成语音检测方法，用以解决传统合成音频检测方法可解释性与鲁棒性差的技术问题。

第一方面，本发明实施例提供一种基于声码器痕迹指纹比对的深度合成语音检测方法，包括以下步骤：获取待检测语音；将所述待检测语音输入预训练的声码器，得到合成音频；提取所述待检测语音和所述合成音频的波形特征；依据所述待检测语音的波形特征与所述合成音频的波形特征计算出所述待检测语音的真伪结果。

优选地，获取待检测语音后，还包括以下步骤：对所述待检测语音进行预处理，所述预处理包括以下方式：待检测语音的数字化、端点检测、预加重、加窗和分帧。

优选地，依据所述待检测语音的波形特征与所述合成音频的波形特征计算出所述待检测语音的真伪结果包括以下步骤：计算出所述待检测语音的波形特征与所述合成音频的波形特征之间的相似度，若相似度高于预设的阈值，则输出结果为真；若相似度低于预设的阈值，则输出结果为假。

优选地，对所述声码器训练包括以下步骤：获取用于训练声码器的音频数据集；对音频数据进行预处理；选择循环神经网络(RNN)模型或长短期记忆(LSTM)或门控循环单元(GRU)对所述数据集进行特征提取，得到音频特征；构建声码器模型；将预处理后的音频数据集和所述音频特征传入所述声码器模型进行训练；使用预设的验证数据集对训练后的声码器模型进行验证，若满足预设的要求，则得到训练完成的声码器。

优选地，提取所述待检测语音和所述合成音频的波形特征时，采用Rawnet结构作为网络基础结构。

优选地，依据所述待检测语音的波形特征与所述合成音频的波形特征计算出所述待检测语音的真伪结果包括以下步骤：计算所述待检测语音的波形特征与所述合成音频的波形特征之间的距离，若距离大于预设的距离阈值，则输出结果为假；若距离小于预设的距离阈值，则输出结果为真；所述波形特征之间的距离为欧氏距离、曼哈顿距离或闵可夫斯基距离其中的一种。

第二方面，本发明实施例提供一种深度合成语音的检测装置，包括：

音频获取模块：用于获取待检测语音；

分析深度合成模块：用于根据所述待检测语音生成合成音频；

比对网络模块：用于提取所述待检测语音和所述合成音频的波形特征；

分类器模块：用于根据所述待检测语音的波形特征与所述合成音频的波形特征计算出所述待检测语音的真伪结果。

优选地，所述分类器模块采用卷积神经网络、循环神经网络、注意力机制等网络结构中的一种或多种的组合。

第三方面，本发明实施例提供一种可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被执行时实现如上述方法的步骤。

第四方面，本发明实施例提供一种程序产品，其上包括计算机程序指令，所述计算机程序指令被执行时实现如上述方法的步骤。

与现有技术相比，本发明所提供的一种基于声码器痕迹指纹比对的深度合成语音检测方法，具有如下的有益效果：本发明实施例提供基于声码器痕迹指纹比对的深度合成语音检测方法包括以下步骤：获取待检测语音；将待检测语音输入预训练的声码器，得到合成音频；提取待检测语音和合成音频的波形特征；依据待检测语音的波形特征与合成音频的波形特征计算出待检测语音的真伪结果。传统的合成音频检测缺乏关于真实声音和深度合成声音差异的理论研究，从特征和信号层面无法清晰解释两者的差别。因此可解释性与鲁棒性差。可以理解地，与传统方式相比本发明具有以下优点：可解释性强，本方法是以合成音频的角度，针对声码器这个深度合成中十分重要的模块进行基于声码器痕迹指纹的合成音频伪造检测。准确性高，本方法采用深度学习方法，通过比对神经网络同时对原始音频以及分析合成音频的波形提取神经网络特征，能准确捕捉目标声码器的深度合成痕迹，准确性高。鲁棒性强：本方法基于声码器痕迹，因此训练时所采用的声码器种类越多则此方法的鲁棒性越强。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为本发明第一实施例提供的深度合成语音检测方法的流程示意图一。

图2为本发明第一实施例提供的深度合成语音检测方法的流程示意图二。

图3为本发明第二实施例提供的深度合成语音的检测装置的结构示意图。

图4为本发明第四实施例提供的程序产品的结构示意图。

图5为本发明第五实施例提供的电子设备的而结构示意图。

附图标号说明：

1、深度合成语音检测方法；2、深度合成语音检测装置；3、程序产品；4、电子设备；

20、音频获取模块；21、分析合成模块；22、比对网络模块；23、分类器模块；30、计算机程序指令；40、处理器；41、存储器；42、总线；43、通信接口。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请结合图1与图2，本发明第一实施例提供了一种基于声码器痕迹指纹比对的深度合成语音检测方法1，用于检测深度合成语音，包括以下步骤：

获取待检测语音；

将待检测语音输入预训练的声码器，得到合成音频；

提取待检测语音和合成音频的波形特征；

依据待检测语音的波形特征与合成音频的波形特征计算出待检测语音的真伪结果。

可以理解地，目前合成音频检测都是根据音频声学特征以及改变模型结构的方式进行检测，而以深度合成的角度来看，声码器是深度合成的一个重要部分，目前效果最好的合成音频模型大多是声学模型配声码器的框架，因此凡是通过声码器构建而成的伪造音频均会保留声码器痕迹，针对这一个部分进行合成音频检测更具有可解释性以及可靠性。但是传统检测方式并未注意到这一层面，因此，本发明通过将检测音频经过分析深度合成步骤生成对应声码器重构音频，通过对比原音频与重构音频的差异，即声码器所留痕迹，来判断检测音频是否为合成音频。由此原理进行方法的构建，则解释性强。关于鲁棒性方面，由于声码器有多个种类，模型可以扩充分析深度合成所通过的声码器种类，以增强模型的泛化性与鲁棒性。

进一步地，获取待检测语音后，还包括以下步骤：对待检测语音进行预处理，预处理包括以下方式：待检测语音的数字化、端点检测、预加重、加窗和分帧。可以理解地，对待检测语音进行预处理的目的在于：

数字化：将模拟语音信号转换为数字信号的过程，通过采样和量化将连续的模拟信号转换为离散的数字样本。数字化使得语音信号可以在计算机中进行处理和存储。

端点检测：端点检测用于确定语音信号的开始和结束位置。通过识别语音信号中的活动段和非活动段，端点检测可以帮助确定语音信号的有效部分，以便后续的处理和分析。

预加重：预加重是一种滤波操作，旨在强调语音信号中高频部分的能量，以提高语音信号的信噪比。预加重可以通过滤波器(通常是一阶高通滤波器)对语音信号进行处理，减小低频部分的幅度，增强高频部分的幅度。

加窗：加窗操作是为了减小信号边界的影响和提取固定长度的语音帧。通常使用窗函数(如汉明窗、矩形窗等)将语音信号分段，并对每个语音帧进行加窗处理，以平滑信号的边界并减小频谱泄漏效应。

分帧：将语音信号分成短时片段，每个片段称为一帧。通过将语音信号分帧，可以将时间域的连续信号转换为频域的离散信号，使得语音信号的频谱特性在每一帧上基本保持稳定，方便进行频谱分析和特征提取。

这些步骤的目的是对语音信号进行预处理，使得后续的特征提取、语音识别、语音深度合成等任务能够更好地处理语音信号并提取有用的信息。

在一些实施例中，依据待检测语音的波形特征与合成音频的波形特征计算出待检测语音的真伪结果包括以下步骤：

计算出待检测语音的波形特征与合成音频的波形特征之间的相似度，若相似度高于预设的阈值，则输出结果为真；若相似度低于预设的阈值，则输出结果为假。

在一些实施例中，对声码器训练包括以下步骤：

数据收集：获取用于训练声码器的音频数据集。这些数据可以包括真实的人类语音数据、语音深度合成数据或其他适合的音频样本。确保数据集的多样性和代表性，以便声码器能够学习到不同类型和风格的音频特征。

数据预处理：对音频数据进行预处理以供训练使用。这可以包括音频剪切、采样率调整、音频标准化、噪声去除等。确保音频数据的格式和特征与深度学习模型的输入要求相匹配。

模型选择：选择循环神经网络(RNN)模型或长短期记忆(LSTM)或门控循环单元(GRU)对数据集进行特征提取，得到音频特征。这些模型能够建模音频序列的时序依赖关系。常用的音频特征包括梅尔频谱系数(Mel-frequency cepstral coefficients，MFCC)、梅尔倒谱频率(Mel-frequency cepstral frequency，MFFC)等。这些特征能够捕捉音频的频谱信息和时域特性。

模型构建：构建声码器模型，包括定义模型的架构和层次结构。这可能涉及堆叠多个RNN层、添加卷积层或全连接层等。确保模型的参数数量和复杂度适中，避免过拟合或欠拟合。

模型训练：使用预处理后的音频数据集和音频特征对声码器模型进行训练。在训练过程中，需要定义损失函数(如均方误差或交叉熵)和优化算法(如随机梯度下降)，以最小化模型的预测与实际目标之间的差距。

模型评估：使用预设的验证数据集对训练后的声码器模型进行评估验证，若满足预设的要求，则得到训练完成的声码器。可以计算模型的准确率、损失函数值或其他评估指标来评估模型的性能。

模型调优：根据评估结果对模型进行调优，可以尝试调整模型的架构、超参数或数据预处理方法，以改善模型的性能。

在一些实施例中，提取待检测语音和合成音频的波形特征时，采用Rawnet结构作为网络基础结构。

可以理解地，RawNet是一种用于音频处理的神经网络结构，主要用于语音识别任务。它的设计目标是直接从原始音频数据中学习特征表示，而无需传统的声学特征提取过程(如MFCC)。

具体地，Rawnet结构作为网络基础结构具有如下应用：

输入表示：RawNet的输入是原始音频波形，即未经过任何预处理的音频数据。音频波形是一维的时间序列信号。

1D卷积层：RawNet使用1D卷积层对音频波形进行特征提取。1D卷积层在时间维度上进行卷积操作，以捕捉音频波形中的局部特征。这些卷积核可以学习到音频中的短时语音特征。

激活函数：在1D卷积层后面，可以使用激活函数如ReLU来引入非线性变换。

池化层：RawNet通常在1D卷积层后面使用池化层来降低特征的维度。池化操作可以提取音频波形中的最显著特征。

堆叠卷积层和池化层：RawNet可以堆叠多个1D卷积层和池化层，以逐渐提取更高级别的音频特征。

全局平均池化层：在RawNet的最后一层，通常使用全局平均池化层来将整个时间序列上的特征进行汇聚，得到一个固定长度的特征向量。

输出层：根据具体的任务要求，比对网络模块的输出层可以是一个或多个神经元。对于语音识别任务，输出层通常是一个Softmax层，用于对不同音频类别进行分类。

RawNet通过直接处理原始音频数据，能够学习到更丰富的音频特征，避免了传统特征提取过程中的信息丢失。这种端到端的方式使得模型更加灵活，能够适应不同类型的音频任务。此外，RawNet的结构也可根据具体需求进行灵活的调整和扩展。

计算待检测语音的波形特征与合成音频的波形特征之间的距离，若距离大于预设的距离阈值，则输出结果为假；若距离小于预设的距离阈值，则输出结果为真；

波形特征之间的距离为欧氏距离、曼哈顿距离或闵可夫斯基距离其中的一种。

综上，在训练阶段时，使用某种特定声码器对数据集进行分析深度合成，得到每个训练集音频对应的分析合成音频，原音频和分析合成音频分别送入两个神经网络中，这两个神经网络为比对网络，网络结构相同，网络输出对应的两个音频特征并进行计算距离并根据所得距离计算损失，训练集中每个音频包含真实音频和合成音频的标签，如果标签为真实语音，则意图将原音频和分析合成音频所提特征的比对距离拉大，反之标签为深度合成语音，则意图将原音频和分析合成音频所提特征的比对距离变小；在检测阶段时，输入检测音频，检测音频通过分析深度合成获得对应音频，两条音频输入比对网络后提取特征计算距离，根据结果值是否大于所设定的阈值来判定是否为合成音频。

请参阅图3，本发明的第二实施例还提供一种深度合成语音的检测装置2，用于实现上述的深度合成语音检测方法1，深度合成语音的检测装置包括：

音频获取模块20：用于获取待检测语音；

分析合成模块21：用于根据待检测语音生成合成音频；

比对网络模块22：用于提取待检测语音和合成音频的波形特征；

分类器模块23：用于根据待检测语音的波形特征与合成音频的波形特征计算出待检测语音的真伪结果。

优选地，分类器模块采用卷积神经网络、循环神经网络、注意力机制等网络结构中的一种或多种的组合。

应当注意，尽管在上文详细描述中提及了用于执行流程的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端，或者网络设备等)执行根据本公开实施方式的方法。

本发明第三实施例还提供一种可读存储介质，其上存储有计算机程序指令，计算机程序指令被执行时实现如上述方法的步骤。

在一些可能的实施例中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“深度合成语音的检测方法”部分中描述的根据本公开各种示例性实施方式的步骤。

请参阅图4，本发明第四实施例还提供一种程序产品3，其上包括计算机程序指令30，计算机程序指令被执行时实现如上述方法的步骤。

请参阅图5，本发明第五实施例还提供了一种电子设备4，具体的，该电子设备4包括处理器40和存储器41；存储器41上存储有计算机程序，计算机程序在被处理器运行时执行如上实施方式的任一项的方法。

进一步地，处理器40、通信接口43和存储器41通过总线42连接；处理器40用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线42可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，处理器40在接收到执行指令后，执行程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中，或者由处理器40实现。

处理器40可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器40读取存储器41中的信息，结合其硬件完成上述方法的步骤。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上各实施例仅用以说明本(发明或发明)的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于声码器痕迹指纹比对的深度合成语音检测方法，其特征在于：包括以下步骤：

获取待检测语音；

将所述待检测语音输入预训练的声码器，得到合成音频；

提取所述待检测语音和所述合成音频的波形特征；

依据所述待检测语音的波形特征与所述合成音频的波形特征计算出所述待检测语音的真伪结果。

2.如权利要求1所述的深度合成语音的检测方法，其特征在于：获取待检测语音后，还包括以下步骤：对所述待检测语音进行预处理，所述预处理包括以下方式：待检测语音的数字化、端点检测、预加重、加窗和分帧。

3.如权利要求2所述的深度合成语音的检测方法，其特征在于：依据所述待检测语音的波形特征与所述合成音频的波形特征计算出所述待检测语音的真伪结果包括以下步骤：

计算出所述待检测语音的波形特征与所述合成音频的波形特征之间的相似度，若相似度高于预设的阈值，则输出结果为真；若相似度低于预设的阈值，则输出结果为假。

4.如权利要求2所述的深度合成语音的检测方法，其特征在于：对所述声码器训练包括以下步骤：

获取用于训练声码器的音频数据集；

对音频数据进行预处理；

选择循环神经网络(RNN)模型或长短期记忆(LSTM)或门控循环单元(GRU)对所述数据集进行特征提取，得到音频特征；

构建声码器模型；

将预处理后的音频数据集和所述音频特征传入所述声码器模型进行训练；

使用预设的验证数据集对训练后的声码器模型进行评估验证，若满足预设的要求，则得到训练完成的声码器。

5.如权利要求3所述的深度合成语音的检测方法，其特征在于：提取所述待检测语音和所述合成音频的波形特征时，采用Rawnet结构作为网络基础结构。

6.如权利要求1所述的深度合成语音的检测方法，其特征在于：依据所述待检测语音的波形特征与所述合成音频的波形特征计算出所述待检测语音的真伪结果包括以下步骤：

计算所述待检测语音的波形特征与所述合成音频的波形特征之间的距离，若距离大于预设的距离阈值，则输出结果为假；若距离小于预设的距离阈值，则输出结果为真；

所述波形特征之间的距离为欧氏距离、曼哈顿距离或闵可夫斯基距离其中的一种。

7.一种深度合成语音的检测装置，用于实现如权利要求1-6任一项所述的深度合成语音的检测方法，其特征在于：包括：

音频获取模块：用于获取待检测语音；

8.如权利要求7所述的深度合成语音的检测装置，其特征在于：所述分类器模块采用卷积神经网络、循环神经网络、注意力机制等网络结构中的一种或多种的组合。

9.一种可读存储介质，其上存储有计算机程序指令，其特征在于：所述计算机程序指令被执行时实现如权利要求1-6所述方法的步骤。

10.一种程序产品，包括计算机程序指令，其特征在于：所述计算机程序指令被执行时实现如权利要求1-6所述方法的步骤。