CN116844567A

CN116844567A - 一种基于多特征重建融合的深度合成音频检测方法及系统

Info

Publication number: CN116844567A
Application number: CN202310623066.5A
Authority: CN
Inventors: 温正棋; 王小鹏
Original assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-10-03

Abstract

本发明属于音频鉴别技术领域，具体提供了一种基于多特征重建融合的深度合成音频检测方法及系统，其中方法包括：从语音信号中提取多种特征，并进行标准化处理再融合得到原始特征向量；进行掩码处理后得到重建特征向量；对重建特征向量与真实特征进行损失计算，以训练得到融合多种特征信息特性的编码器；训练鉴别器，使得鉴别器能够区分真实语音和伪造音频。利用训练好的编码器和鉴别器便可以检测语音真伪。本方案综合利用多种特征对语音进行鉴别，结合多种语音特征，将不同的特征进行调整和标准化，并将它们组合起来进行训练和推理。通过采用基于多特征重建融合的深度合成模型对音频进行重建，大大提高了语音鉴伪的准确性和可靠性。

Description

一种基于多特征重建融合的深度合成音频检测方法及系统

技术领域

本发明涉及音频鉴别技术领域，更具体地，涉及一种基于多特征重建融合的深度合成音频检测方法及系统。

背景技术

目前，音频鉴别技术已经得到了广泛应用。传统的基于特征提取的音频鉴别方法通常使用梅尔倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)或线性频率倒谱系数(Linear Frequency Cepstral Coefficient,LFCC)或线性预测系数(linearprediction coefficient，LPC)或常数Q变换(constant Q transform，CQT)等一种特征作为输入，再将其输入到分类器中进行训练和预测。但是，这种方法存在以下缺点：

(1)传统方法只使用单一特征进行分析，无法全面提取音频的各种特征，难以对伪造音频进行准确的检测。

(2)传统方法中使用的特征提取方法较为简单，难以准确地表征音频的复杂结构和语音特征，可能会导致分类结果不准确。

(3)一些语音鉴别技术通常只依赖于一种特征进行鉴别，如基于MFCC的语音鉴别。这种方法容易受到噪声和语音变异的影响，导致鉴别准确度下降，特别是在复杂的背景噪声环境下。

发明内容

本发明针对现有技术中存在的传统音频鉴别方法不准确的技术问题。

本发明提供了一种基于多特征重建融合的深度合成音频检测方法，包括以下步骤：

S1，从语音信号中提取多种特征，并对这些特征进行标准化处理再融合得到原始特征向量；

S2，对所述原始特征向量进行掩码处理后得到重建特征向量；

S3，对所述重建特征向量与真实特征进行损失计算，以训练得到融合多种特征信息特性的编码器；

S4，训练鉴别器，使得所述鉴别器能够区分真实语音和伪造音频；

S5，将原始特征向量输入步骤S3中训练好的编码器得到一个新特征向量，将所述新特征向量输入步骤S4中训练好的到鉴别器中，如果鉴别器模块输出的概率接近于1，则表示该语音信号为真实语音；反之，如果输出概率接近于0，则表示该语音信号为伪造语音。

优选地，所述S1具体包括：

S11，从原始语音信号中提取出LFCC、CQT、MFCC及LPC的多种特征；

S12，使用Z-score标准化或最小-最大标准化的方法将声学和语音特征标准化至相同的范围，得到标准化特征向量；

S13，将标准化特征向量进行维度对齐得到维度向量；

S14，通过数学运算将维度向量进行融合在一起得到原始特征向量。

优选地，所述S14具体包括：

首先，使用向量加权平均，其中每个维度向量都乘以一个权重因子；

然后，相加并除以权重因子之和，生成所述原始特征向量。

优选地，所述S2具体包括：

S21，将未掩码的原始特征向量拼接并输入到一个12层编码器中；

S22，将编码器中输入的原始特征向量与掩码部分进行拼接，然后输入到一个8层编码器中，得到一个重建特征向量。

优选地，所述S3具体包括：采用深度学习算法中的自编码器(autoencoder)模型，训练出一个能够将特征向量映射到固定长度编码向量的神经网络，通过该神经网络便可以将特征向量映射输出固定长度的编码向量。

优选地，所述S3还包括：将编码向量与先前掩码的特征进行解码，还原成原始特征向量。

优选地，所述S4具体包括：采用深度学习技术中的卷积神经网络(CNN)模型或循环神经网络(RNN)模型训练鉴别器，将所述S3中编码器输出的新特征向量作为输入进行训练，得到能够区分真实语音和伪造音频的鉴别器。

本发明还提供了一种基于多特征重建融合的深度合成音频检测系统，所述系统用于实现基于多特征重建融合的深度合成音频检测方法，包括：

特征提取模块，用于从语音信号中提取多种特征；

特征标准化融合模块，用于对多种所述特征进行标准化处理再融合得到原始特征向量；

掩码模块，用于对所述原始特征向量进行掩码处理后得到重建特征向量；

特征编码器模块，用于对所述重建特征向量与真实特征进行损失计算，以训练得到融合多种特征信息特性的编码器；

鉴别器模块，用于训练鉴别器，使得所述鉴别器能够区分真实语音和伪造音频；

推理模块，用于将原始特征向量输入训练好的编码器得到一个新特征向量，将所述新特征向量输入训练好的到鉴别器中，如果鉴别器模块输出的概率接近于1，则表示该语音信号为真实语音；反之，如果输出概率接近于0，则表示该语音信号为伪造语音。

本发明还提供了一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现基于多特征重建融合的深度合成音频检测方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现基于多特征重建融合的深度合成音频检测方法的步骤。

有益效果：本发明提供的一种基于多特征重建融合的深度合成音频检测方法及系统，其中方法包括：从语音信号中提取多种特征，并对这些特征进行标准化处理再融合得到原始特征向量；对所述原始特征向量进行掩码处理后得到重建特征向量；对所述重建特征向量与真实特征进行损失计算，以训练得到融合多种特征信息特性的编码器；训练鉴别器，使得所述鉴别器能够区分真实语音和伪造音频。利用训练好的编码器和鉴别器便可以检测语音真伪。本方案综合利用多种特征对语音进行鉴别，结合多种语音特征，将不同的特征进行调整和标准化，并将它们组合起来进行训练和推理。通过采用基于多特征重建融合的深度合成模型对音频进行重建，大大提高了语音鉴伪的准确性和可靠性。

附图说明

图1为本发明提供的一种基于多特征重建融合的深度合成音频检测方法示意图；

图2为本发明提供的鉴别器训练示意图；

图3为本发明提供的一种可能的电子设备的硬件结构示意图；

图4为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1至图4所示，本发明实施例提供的一种基于多特征重建融合的深度合成音频检测方法，其特征在于，包括以下步骤：

S1，从语音信号中提取多种特征，并对这些特征进行标准化处理再融合得到原始特征向量；从原始语音信号中提取出LFCC、CQT、MFCC及LPC等多种特征，并对这些特征进行标准化处理。将标准化后的特征进行融合，生成一个原始特征向量。

采用了多种特征重建融合的方式，对语音信号进行了多方面的建模和分析，可以有效地提高语音鉴伪的准确率和可靠性。采用了特征标准化的方法，可以减少不同特征之间的差异和偏差，提高模型的鲁棒性和泛化能力。

S2，对所述原始特征向量进行掩码处理后得到重建特征向量；在输入编码器前，会对原始特征向量进行一个掩码的操作，将未掩码的原始特征向量拼接并输入到一个12层编码器(hidden大小为768)中。接下来，将编码器中输入的原始特征向量与掩码部分进行拼接，然后输入到一个8层编码器(hidden大小为512)中，得到一个重建特征向量。

S3，对所述重建特征向量与真实特征进行损失计算，以训练得到融合多种特征信息特性的编码器；通过计算所述重建特征与真实的特征进行损失计算，以训练编码器。原则上训练后会得到一个融合各种特征信息特性的编码器。

S4，训练鉴别器，使得所述鉴别器能够区分真实语音和伪造音频。

在鉴别器训练阶段，本发明去掉了解码器，将编码器后面接一个鉴别器，鉴别器可以采用深度学习技术中的卷积神经网络(CNN)、循环神经网络(RNN)等模型。通过训练，鉴别器能够有效地区分真实语音和合成音频(伪造语音)。

首先从语音信号中提取出LFCC、CQT、MFCC及LPC等多种特征，并对这些特征进行标准化处理。将标准化后的特征进行融合，生成一个原始特征向量。

然后与编码器训练，鉴别器训练不需要进行掩码操作。具体的过程，将得到的原始特征向量输入先前训练的编码器的得到一个新特征向量。将这个新特征向量输入到鉴别器中，如果鉴别器模块输出的概率接近于1，则表示该语音信号为真实语音；反之，如果输出概率接近于0，则表示该语音信号为伪造语音。

在推理阶段，本发明首先从待检测的语音中提取多种特征，并对这些特征进行标准化融合处理。然后，将融合后的特征输入到编码器中，得到一个特征融合矩阵即新特征向量。接着，将这个特征矩阵输入到判别器中，如果鉴别器模块输出的概率接近于1，则表示该语音信号为真实语音；反之，如果输出概率接近于0，则表示该语音信号为伪造语音。

值得注意的是，本发明所提出的语音鉴伪系统在推理时需要使用训练好的模型进行预测。因此，在使用该专利的语音鉴伪系统时，需要先进行模型训练，并得到一个训练好的模型。然后，将训练好的模型应用到实际场景中，对待检测的语音信号进行鉴别。

本发明实施例还提供了一种基于多特征重建融合的深度合成音频检测系统，所述系统用于实现如前所述的基于多特征重建融合的深度合成音频检测方法，包括：

特征提取模块，用于从语音信号中提取多种特征。

特征提取是通过特征提取模块进行提取，该模块是本发明的一个子模块，主要用于从原始语音信号中提取出代表性的声学和语音特征。在实现时，可以采用常见的语音信号处理技术，如LFCC、MFCC、CQT和LPC等，提取出语音特征。如MFCC是一种常用的语音信号处理方法，它模拟了人耳对声音的感知特性，将语音信号分解成多个频带，并计算每个频带的梅尔倒谱系数，作为语音特征进行分析和识别。

LPC是一种基于线性预测模型的语音信号处理方法，它通过分析语音信号的线性预测系数，提取出语音信号的共振峰和非共振峰等特征，用于语音合成和语音识别等应用中。

特征标准化融合模块，用于对多种所述特征进行标准化处理再融合得到原始特征向量。

特征标准化融合模块主要是将从语音信号中提取出来的声学和语音特征进行标准化处理，并将它们融合在一起。

数据标准化处理：使用常见的数据标准化方法，如Z-score标准化、最小-最大标准化等，将声学和语音特征标准化至相同的范围。这个过程可以消除不同特征之间的度量单位和范围的影响，使得它们可以直接进行比较和融合。

特征融合：在进行特征融合之前，标准化后的特征向量需要进行维度对齐，确保它们有相同的维度。然后，可以使用向量加法、乘法等数学运算将它们融合在一起得到原始特征向量。

特征融合一种常见的方式是使用简单的向量加权平均，其中每个特征向量都乘以一个权重因子，然后将它们相加并除以权重因子之和，生成一个新的特征向量即原始特征向量。具体来说，设X_a和X_v分别表示标准化后的声学和语音特征向量，W_a和W_v分别表示它们的权重因子，则融合后的特征向量即原始特征向量X_f可以表示为：

X_f＝w_aX_a+w_vX_v

在保留声学和语音特征各自信息的同时，将它们结合起来，提高分类和识别的准确率。

掩码模块，用于对所述原始特征向量进行掩码处理后得到重建特征向量。

特征编码器模块，用于对所述重建特征向量与真实特征进行损失计算，以训练得到融合多种特征信息特性的编码器。

特征编码器模块主要负责将从特征标准化融合模块中获得的原始特征向量进行编码，目标是融合各种特征的不同特性，编码出具有深度区分信息的复杂结构和语音特征，进一步提高了鉴伪的准确性和可靠性。在实现时，可以采用深度学习技术中的自编码器(autoencoder)模型，训练出一个能够将特征向量映射到固定长度编码向量的神经网络，通过该神经网络便可以将特征向量映射输出固定长度的编码向量。

特征解码器模块，特征解码器模块主要负责将编码向量与先前掩码的特征进行解码，还原成原始特征向量。在实现时，可以使用同样的自编码器模型，将编码向量映射回原始特征向量。

鉴别器模块，用于训练鉴别器，使得所述鉴别器能够区分真实语音和伪造音频。鉴别器模块是本发明的核心模块，主要用于判断输入语音的真伪。在实现时，可以采用深度学习技术中的卷积神经网络(CNN)、循环神经网络(RNN)等模型进行训练，将特征解码器模块输出的原始特征向量或编码器输出的新特征向量作为输入。通过训练，鉴别器模块能够有效地区分真实语音和合成音频。

请参阅图3为本发明实施例提供的电子设备的实施例示意图。如图3所示，本发明实施例提了一种电子设备，包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311，处理器1320执行计算机程序1311时实现以下步骤：S1，从语音信号中提取多种特征，并对这些特征进行标准化处理再融合得到原始特征向量；

请参阅图4为本发明提供的一种计算机可读存储介质的实施例示意图。如图4所示，本实施例提供了一种计算机可读存储介质1400，其上存储有计算机程序1411，该计算机程序1411被处理器执行时实现如下步骤：S1，从语音信号中提取多种特征，并对这些特征进行标准化处理再融合得到原始特征向量；

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于多特征重建融合的深度合成音频检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多特征重建融合的深度合成音频检测方法，其特征在于，所述S1具体包括：

S13，将标准化特征向量进行维度对齐得到维度向量；

3.根据权利要求2所述的基于多特征重建融合的深度合成音频检测方法，其特征在于，所述S14具体包括：

然后，相加并除以权重因子之和，生成所述原始特征向量。

4.根据权利要求1所述的基于多特征重建融合的深度合成音频检测方法，其特征在于，所述S2具体包括：

5.根据权利要求1所述的基于多特征重建融合的深度合成音频检测方法，其特征在于，所述S3具体包括：采用深度学习算法中的自编码器(autoencoder)模型，训练出一个能够将特征向量映射到固定长度编码向量的神经网络，通过该神经网络便可以将特征向量映射输出固定长度的编码向量。

6.根据权利要求5所述的基于多特征重建融合的深度合成音频检测方法，其特征在于，所述S3还包括：将编码向量与先前掩码的特征进行解码，还原成原始特征向量。

7.根据权利要求1所述的基于多特征重建融合的深度合成音频检测方法，其特征在于，所述S4具体包括：采用深度学习技术中的卷积神经网络(CNN)模型或循环神经网络(RNN)模型训练鉴别器，将所述S3中编码器输出的新特征向量作为输入进行训练，得到能够区分真实语音和伪造音频的鉴别器。

8.一种基于多特征重建融合的深度合成音频检测系统，其特征在于，所述系统用于实现如权利要求1-7任一项所述的基于多特征重建融合的深度合成音频检测方法，包括：

特征提取模块，用于从语音信号中提取多种特征；

9.一种电子设备，其特征在于，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的基于多特征重建融合的深度合成音频检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的基于多特征重建融合的深度合成音频检测方法的步骤。