CN117577120B

CN117577120B - 结合大语言模型的深度合成音频检测方法、系统和产品

Info

Publication number: CN117577120B
Application number: CN202410063989.4A
Authority: CN
Inventors: 陶建华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-04-05
Anticipated expiration: 2044-01-17
Also published as: CN117577120A

Abstract

本申请提供了一种结合大语言模型的深度合成音频检测方法、系统和产品，涉及音频检测技术领域，该方法包括：通过音频编码器对待检测音频进行编码，得到音频编码结果；通过预先训练的Q‑former模块从所述音频编码结果中提取音频鉴别特征，并将所述音频鉴别特征对齐至文本模态，得到文本模态的音频鉴别特征；通过预先训练的线性对齐模块将所述文本模态的音频鉴别特征的维度对齐至大语言模型的输入维度；通过文本编码器对提示文本进行编码，得到文本编码结果；将所述文本编码结果与经过维度对齐的文本模态的音频鉴别特征输入预先训练的大语言模型，得到音频检测结果。

Description

结合大语言模型的深度合成音频检测方法、系统和产品

技术领域

本申请涉及音频检测技术领域，特别是一种结合大语言模型的深度合成音频检测方法、系统和产品。

背景技术

现有音频检测技术主要分为人工主观评价和传统机器学习两种方式：其中，人工主观评价的方法是直接依赖听众的主观判断，然后计算平均意见分数（Mean OpinionScore，MOS）来评估音频的真实性和相似性，这种方法过于依赖人为主观判断，可能存在主观性和不一致性的问题。另一种传统机器学习的方法，通常依赖于手工提取的特征，从而根据提取到的特征检测伪造音频，该方法的检测性能受到特征选择和模型泛化的限制，难以应对不断演进的伪造技术。

综上，现有的音频检测技术在处理能够模仿真实音频的声纹特征和声音特点的深度伪造音频时，检测准确率较低，无法达到理想的检测效果。因此，有必要开发一种结合大语言模型的深度合成音频检测方法、系统和产品，以提高对深度伪造音频的检测性能。

发明内容

鉴于上述问题，本申请实施例提供了一种结合大语言模型的深度合成音频检测方法、系统和产品，以便克服上述问题或者至少部分地解决上述问题。

本申请实施例的第一方面，提供了一种结合大语言模型的深度合成音频检测方法，包括：

通过音频编码器对待检测音频进行编码，得到音频编码结果；

通过预先训练的Q-former模块从所述音频编码结果中提取音频鉴别特征，并将所述音频鉴别特征对齐至文本模态，得到文本模态的音频鉴别特征；所述文本模态的音频鉴别特征为大语言模型可理解和解释的特征表示；

通过预先训练的线性对齐模块将所述文本模态的音频鉴别特征的维度对齐至大语言模型的输入维度；

通过文本编码器对提示文本进行编码，得到文本编码结果；

将所述文本编码结果与经过维度对齐的文本模态的音频鉴别特征输入预先训练的大语言模型，得到音频检测结果。

在一种可能的实施方式中，所述Q-former模块的训练过程包括：

获取包含真实样本音频和合成样本音频的训练数据集，和每个样本音频对应的文本信息，所述文本信息为表示该样本音频为真实音频或合成音频的音频真伪标签信息；

利用所述训练数据集和所述文本信息，通过对比学习，训练Q-former模块，在所述Q-former模块能够查询出音频特征中的鉴别特征，并将所述鉴别特征对齐至文本模态时，结束训练。

在一种可能的实施方式中，将可学习的Query Embeddings作为所述Q-Former模块的输入，所述Q-former模块的训练过程具体包括：

通过音频编码器对所述样本音频进行编码，得到样本音频编码结果；

通过文本编码器对所述样本音频对应的文本信息进行编码，得到样本文本编码结果；

将所述样本音频编码结果和所述样本文本编码结果输入待训练的Q-former模块，得到预测音频鉴别特征；

以使同一对的样本音频和文本信息在编码空间中更加接近，不属于同一对的样本音频和文本信息在编码空间中更加远离为目标，根据所述预测音频鉴别特征计算对比损失值；

根据计算得到的对比损失值，更新所述Query Embeddings的参数；

重复上述过程，直至对比损失值收敛，结束训练。

在一种可能的实施方式中，所述Q-Former模块为基于双向编码表示（Bidirectional Encoder Representations from Transformers，BERT）模型的编码器，所述Q-Former模块中的偶数层中包括一个CA层，所述CA层用于处理输入的音频和所述QueryEmbeddings之间的交互；其中，所述偶数层的结构为：顺次连接的输入端、SA层、CA层、前馈层和输出端。

在一种可能的实施方式中，所述线性对齐模块和所述大语言模型的训练过程包括：

通过文本编码器对提示文本进行编码，得到样本文本编码结果；所述提示文本为提示检测该音频为合成音频或真实音频的问句文本信息；

通过所述预先训练的Q-former模块从所述样本音频编码结果中提取音频鉴别特征，并将所述音频鉴别特征对齐至文本模态，得到文本模态的音频鉴别特征；

通过待训练的线性对齐模块，将文本模态的音频鉴别特征的维度对齐至大语言模型的输入维度；

将所述样本文本编码结果与经过维度对齐的文本模态的音频鉴别特征输入待训练的大语言模型，得到音频预测结果；

根据所述音频预测结果和所述样本音频对应的文本信息，计算损失函数值，根据所述损失函数值，更新所述线性对齐模块和所述大语言模型的参数；

重复上述步骤，在所述损失函数值收敛的情况下，结束训练。

在一种可能的实施方式中，所述音频编码器为Wav2Vec2模型，用于对音频数据进行特征提取，将提取得到的音频特征映射为向量表示，所述向量表示包括：音频的频率分布特征和/或语音合成模型的痕迹特征。

在一种可能的实施方式中，所述文本编码器由BERT模型构成，所述BERT模型用于捕获文本数据中的上下文信息和语义关系；所述BERT模型的架构包括多层Transformer编码器，具有双向的注意力机制。

本申请实施例第二方面还提供了一种结合大语言模型的深度合成音频检测系统，所述系统包括：

音频编码器，用于对待检测音频进行编码，得到音频编码结果；

Q-former模块，用于从所述音频编码结果中提取音频鉴别特征，并将所述音频鉴别特征对齐至文本模态，得到文本模态的音频鉴别特征；所述文本模态的音频鉴别特征为大语言模型可理解和解释的特征表示；

线性对齐模块，用于将所述文本模态的音频鉴别特征的维度对齐至大语言模型的输入维度；

文本编码器，用于对提示文本进行编码，得到文本编码结果；

大语言模型，用于根据所述文本编码结果与经过维度对齐的文本模态的音频鉴别特征，得到音频检测结果。

根据计算得到的对比损失值，更新所述Query Embeddings的参数；

重复上述过程，直至对比损失值收敛，结束训练。

在一种可能的实施方式中，所述Q-Former模块为基于BERT模型的编码器，所述Q-Former模块中的偶数层中包括一个CA层，所述CA层用于处理输入的音频和所述QueryEmbeddings之间的交互；其中，所述偶数层的结构为：顺次连接的输入端、SA层、CA层、前馈层和输出端。

本申请实施例第三方面还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序以实现本申请实施例第一方面所述的结合大语言模型的深度合成音频检测方法中的步骤。

本申请实施例第四方面还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请实施例第一方面所述的结合大语言模型的深度合成音频检测方法中的步骤。

本申请实施例第五方面还提供了一种计算机程序产品，所述计算机程序产品在电子设备上运行时，使处理器执行时实现如本申请实施例第一方面所述的结合大语言模型的深度合成音频检测方法中的步骤。

本申请实施例提供了一种结合大语言模型的深度合成音频检测方法、系统和产品，该方法包括：通过音频编码器对待检测音频进行编码，得到音频编码结果；通过预先训练的Q-former模块从所述音频编码结果中提取音频鉴别特征，并将所述音频鉴别特征对齐至文本模态，得到文本模态的音频鉴别特征；所述文本模态的音频鉴别特征为大语言模型可理解和解释的特征表示；通过预先训练的线性对齐模块将所述文本模态的音频鉴别特征的维度对齐至大语言模型的输入维度；通过文本编码器对提示文本进行编码，得到文本编码结果；将所述文本编码结果与经过维度对齐的文本模态的音频鉴别特征输入预先训练的大语言模型，得到音频检测结果。

具体有益效果在于：

一方面，本申请实施例通过预先训练的Q-former模块从音频编码结果中提取得到音频鉴别特征，并将该音频鉴别特征对齐至文本模态，在音频模态和文本模态之间建立有意义的联系，帮助大语言模型理解音频鉴别特征，使得系统更能够理解和区分真实音频和合成音频，为深度合成音频的准确检测提供了关键支持。

另一方面，本申请实施例利用大语言模型的理解能力，使系统对提示文本的语境和含义有更深层次的理解，充分利用了音频数据的多模态信息，实现了语义信息和音频特征的整合分析，使得鉴伪分析更为精准，能够更好地辨别合成音频。此外，大语言模型的自适应性能力使系统更具灵活性，能够及时适应新的伪造模式和技术，进一步提高了音频鉴伪的准确性，为用户提供更可靠的检测结果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种结合大语言模型的深度合成音频检测方法的步骤流程图；

图2是本申请实施例提供的一种合成音频检测的流程示意图；

图3是本申请实施例提供的一种Q-Former模块的架构示意图；

图4是本申请实施例提供的一种结合大语言模型的深度合成音频检测系统的结构示意图；

图5是本申请实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

现有音频检测技术主要分为人工主观评价和传统机器学习两种方式：其中，人工主观评价的方法是直接依赖听众的主观判断，然后计算平均意见分数来评估音频的真实性和相似性，这种方法过于依赖人为主观判断，可能存在主观性和不一致性的问题；另一种传统机器学习的方法，属于基于特征的合成音频检测，第一步是通过人工构建或者神经网络提取特征，这些特征可以捕获音频的各种属性，第二步是将提取的特征输入到分类器中，以进行下一步的真伪判别。该方法需要设计和选择合适的特征和分类器，其检测性能受到特征质量和分类器准确度的限制，难以应对不断演进的伪造技术。

基于预训练模型的合成音频检测技术利用了大规模音频数据的优势。通过将这些数据用于预训练模型的训练，模型可以自动地学习到丰富的通用表示和音频特征。这些学到的通用表示和音频特征具有很好的泛化性能，可以有效地应用于合成音频检测任务中。这种方法不仅提高了检测性能，还减少了对手工特征设计的依赖，使音频检测更加自动化和智能化。然而，在面对能够模仿真实音频的声纹特征和声音特点的深度伪造音频时，该方法仍然存在识别准确率较低的问题。

技术问题主要包括以下三点：1）伪造音频的高逼真度问题，在面对深度伪造音频时，往往难以准确识别，因为这些音频能够模仿真实音频的声纹特征和声音特点，具有高逼真度。2）多模态信息融合的缺乏，现有音频检测方法通常未能充分利用多模态信息，如语义信息和音频特征的整合，以提高对深度伪造音频的分析能力。3）无法应对新兴伪造技术，随着深度伪造技术的不断进化，传统方法常常无法及时应对新的伪造模式和技术，导致检测性能下降。

鉴于上述问题，本申请实施例提出一种结合大语言模型的深度合成音频检测方法、系统和产品，以提高对深度伪造音频的检测准确率。下面结合附图，通过一些实施例及其应用场景对本申请实施例提供的结合大语言模型的深度合成音频检测方法进行详细地说明。

本申请实施例第一方面提供了一种结合大语言模型的深度合成音频检测方法，参照图1，图1为本申请实施例提供的一种结合大语言模型的深度合成音频检测方法的步骤流程图，如图1所示，所述方法包括：

步骤S101，通过音频编码器对待检测音频进行编码，得到音频编码结果。

参照图2，图2示出了一种合成音频检测的流程示意图，如图2所示，对于待检测音频，首先通过音频编码器对其进行特征提取，得到音频编码结果，所述音频编码结果表示包含鉴别特征的音频模态的向量表征，如图2所示，该音频编码结果为多段的时序特征，其中至少包括：该待检测音频中的声学特征、韵律特征和情感特征。

在本实施例中，音频编码器模块使用Wav2Vec2模型，用于对输入的音频数据进行有意义的编码。Wav2Vec2模型在系统中主要用于从原始音频波形中提取各种语音特征，包括声学、韵律、情感等方面的特征信息。Wav2Vec2模型的重要性在于，它能够有效捕捉音频数据中包含的伪造信息的音频特征，为整个音频检测系统提供了有力的输入。其中，Wav2Vec2模型通过对待检测音频进行特征提取，将这些特征映射为高维度的向量表示，使得该向量表示中包括合成音频的频率分布特征、语音合成模型的痕迹特征等。通过步骤S101，使得音频编码器模块的输出（音频编码结果）成为后续对齐任务和伪造信息检测的重要输入，为音频检测提供了深入理解音频内容的基础。

步骤S102，通过预先训练的Q-former模块从所述音频编码结果中提取音频鉴别特征，并将所述音频鉴别特征对齐至文本模态，得到文本模态的音频鉴别特征，所述文本模态的音频鉴别特征为大语言模型可理解和解释的特征表示。

在本实施例中，如图2所示，利用预先训练的Q-former模块（即图2中的生成模块），有效查询出音频特征（音频编码结果）中的音频鉴别特征，具体的，可以利用Q-former模块中的Query Embeddings查询音频编码结果中的伪造信息，并将其转化为一种特征表示，使这种特征表示能够被大语言模型理解和解释。由于大语言模型通常用于处理文本模态和图像模态的特征信息，本申请实施例利用Q-former模块提取得到音频鉴别特征，对齐音频和文本模态，使得后续的大语言模型可以理解音频中的音频鉴别特征，进而区分该音频鉴别特征属于真实音频或合成音频，显著提高了音频鉴伪的准确性，为用户提供更可靠的检测结果。

获取包含真实样本音频和合成样本音频的训练数据集，和每个样本音频对应的文本信息，所述文本信息为表示该样本音频为真实音频或合成音频的音频真伪标签信息。

在本实施例中，需要利用获取到的训练数据集，预先对Q-former模块进行训练。该训练数据集中包括多个样本音频，分为真实样本音频和合成样本音频。其中，每个样本音频携带有对应的音频真伪标签信息，具体的，每个真实样本音频携带有表示该样本音频为真实的音频的文本信息，例如“该音频为一条真实的音频”的文本信息；每个合成样本音频携带有表示该样本音频为合成的音频的文本信息，例如“该音频为一条合成的音频”的文本信息。进一步的，该文本信息还可以包括，表示该合成样本音频的伪造类型的信息。

在完成数据准备，得到训练数据集和文本信息后，将训练数据集中的每个样本音频作为一个训练样本，该样本音频对应的文本信息作为本次训练的标签，通过对比学习，训练Q-former模块，从而使得该Q-former模块能够学习查询音频特征中的鉴别特征，并将鉴别特征对齐至文本模态。

步骤S201，通过音频编码器对所述样本音频进行编码，得到样本音频编码结果。

具体的，通过音频编码器对样本音频进行特征提取，得到样本音频编码结果，该样本音频编码结果表示包含鉴别特征的音频模态的向量表征，其中至少包括：该样本音频中的声学特征、韵律特征和情感特征。该音频编码器可以为与步骤S101所采用的相同的音频编码器，例如Wav2Vec2模型，以从输入的样本音频中提取得到音频分布特征、语音合成模型的痕迹特征等。

步骤S202，通过文本编码器对所述样本音频对应的文本信息进行编码，得到样本文本编码结果。

具体的，通过文本编码器对该样本音频所对应的文本信息进行编码，得到样本文本编码结果，该样本文本编码结果表示包含相应文本语义的文本模态的向量表征，该文本语义用于表示对应的样本音频为真实音频或合成音频。

在本实施例中，文本编码器的主要任务是将输入的文本信息进行编码，以便与音频编码器输出的音频信息（样本音频编码结果）进行对齐，从而用于训练Q-former模块。文本编码器模块由BERT模型构成，BERT是一种预训练的自然语言处理模型，能够有效地捕获文本中的上下文信息和语义关系。BERT的架构包括多层Transformer编码器，具有双向的注意力机制，能够理解句子中每个词的文本信息。在本实施例中，文本编码器对输入的文本信息（即包含音频真伪标签信息，如“该音频为一条真实的音频”或“该音频为一条合成的音频，伪造类型为xxx”的文本）进行编码，将其转换为向量表示（即样本文本编码结果）。

步骤S203，将所述样本音频编码结果和所述样本文本编码结果输入待训练的Q-former模块，得到预测音频鉴别特征。

在本实施例中，通过待训练的Q-former模块，从样本音频编码结果中提取鉴别特征，并将文本编码器的输出（样本文本编码结果）与音频编码器的输出（样本音频编码结果）在编码空间中进行对齐，得到预测音频鉴别特征。

步骤S204，以使同一对的样本音频和文本信息在编码空间中更加接近，不属于同一对的样本音频和文本信息在编码空间中更加远离为目标，根据所述预测音频鉴别特征计算对比损失值。

在本实施例中，根据提取得到的预测音频鉴别特征，计算对比损失值，该对比损失的目标是使得同一标签（真实或者合成）的文本和音频对在编码空间中更加接近，而不同标签的文本和音频对则更远离，从而通过对比损失来最小化两个模态之间的差异，从而达到对齐的目的。

步骤S205，根据计算得到的对比损失值，更新所述Query Embeddings的参数。具体的，通过更新Q-former模块的参数（即Q-former模块中的Query Embeddings的参数），以最小化对比损失，确保在训练结束时，Q-Former能够有效地对齐音频和文本模态，并且QueryEmbeddings可以有效查询出音频特征中的鉴别特征。此外，本实施例的Q-Former模块还引入了可学习的Query Embeddings作为模块的输入，这意味着Q-Former模块能够通过学习获取特定任务的查询信息，从而更好地适应具体的对齐任务。

步骤S206，重复上述过程，直至对比损失值收敛，结束训练。

在本实施例中，利用训练数据集中的新的样本音频和对应的文本信息，重复执行步骤S201-S205，直至该对比损失值收敛，得到训练完成的Q-former模块。使得训练完成的Q-former模块能够执行两方面的任务：一方面，Q-former模块能够查询音频中较为重要的伪造信息，即从音频特征（音频编码结果）中提取鉴别特征（音频鉴别特征），为后续的深度合成音频检测提供有力支持；另一方面，Q-former模块能够有效地对齐音频-文本模态信息（使同一对的样本音频和文本信息在编码空间中更加接近，不属于同一对的样本音频和文本信息在编码空间中更加远离），有助于后续大语言模型对音频模态的信息的理解。

参照图3，图3示出了一种Q-Former模块的架构示意图，如图3所示，通过音频编码器对音频进行特征提取，得到音频编码结果，将文本信息通过文本编码器进行编码，得到文本编码结果，然后将该音频编码结果和文本编码结果输入Q-Former模块（即图3中的生成模块）。在本实施例中，Q-Former模块（生成模块）是一个基于BERT模型的编码器，旨在实现音频和文本模态信息的对齐。Q-Former模块为多层结构。可选的，该Q-Former模块总共包含12层。如图3所示，本申请实施例在Q-Former模块的偶数层增加了一个交叉注意力（CrossAttention，CA）层。在本实施例中的Q-Former模块的设计中，CA层用于处理音频和QueryEmbeddings之间的交互，将音频模态的信息与Query Embeddings（即图3中的查询嵌入函数）的信息进行结合，帮助BERT模型处理多模态信息。Q-Former模块使用Bert-Base预训练模型进行初始化，使其能够有效地捕获文本信息。然后通过利用这种先验知识，Q-Former模块能够更好地处理文本模态的特征。Query模块通过自我注意力层（Self Attention，SA）进行自我交互，使每个token能够学习自己应该关注什么，以及从音频编码中提取哪些token。这种交互处理有助于模块更好地理解两个模态的语境。如图3所示，Q-Former模块（生成模块）通过对比学习，有效地对齐音频模态和文本模态的信息，使同一对的样本音频和文本信息在编码空间中更加接近，不属于同一对的样本音频和文本信息在编码空间中更加远离。

步骤S103，通过预先训练的线性对齐模块将所述文本模态的音频鉴别特征的维度对齐至大语言模型的输入维度。

在本实施例中，如图2所示，在利用Q-former模块提取得到文本模态的音频鉴别特征后，由于该音频鉴别特征的维度和大语言模型的输入维度往往并不相同，需要先利用线性对齐模块，将音频鉴别特征的维度对齐至大语言模型的输入维度，以便于将其输入大语言模型，进行后续分析处理操作。其中，线性对齐模块主要用于对齐Q-Former模块的输出（文本模态的音频鉴别特征）维度和大语言模型的输入维度，以确保两者能够实现有效的信息交互。该线性对齐模块主要由多个线性层构成，其任务是对Q-Former模块的输出进行线性映射，使得其维度与大语言模型的输入一致，以确保信息的有机整合。由此，Q-Former模块的输出（文本模态的音频鉴别特征）就能够顺利地与大语言模型的输入进行拼接，为后续的鉴伪分析提供一体化的信息。

步骤S104，通过文本编码器对提示文本进行编码，得到文本编码结果。

在本实施例中，提示文本为提示检测该音频为合成音频或真实音频的问句文本信息，示例性的，如图2所示，提示文本可以为“该音频为真实音频或合成音频？”。具体的，通过文本编码器对该提示文本进行编码，得到文本编码结果，该文本编码结果表示包含提示文本语义的文本模态的向量表征。

在本实施例中，文本编码器的主要任务是将输入的提示文本进行编码，以便于大语言模型能够根据该文本编码结果，处理输入的音频信息（文本模态的音频鉴别特征）。具体的，可以采用与步骤S202相同的文本编码器，该文本编码器由BERT模型构成，BERT是一种预训练的自然语言处理模型，能够有效地捕获文本中的上下文信息和语义关系。BERT的架构包括多层Transformer编码器，具有双向的注意力机制，能够理解句子中每个词的文本信息。在本实施例中，文本编码器对输入的文本信息（如“该音频为真实的音频，还是合成的音频？”的提示文本）进行编码，将其转换为向量表示（即文本编码结果）。

步骤S105，将所述文本编码结果与经过维度对齐的文本模态的音频鉴别特征输入预先训练的大语言模型，得到音频检测结果。

具体的，音频检测结果表示该待检测音频为真实音频或合成音频的检测结果。大语言模型是由32层的开源大语言模型（Large Language Model，LLM）构成，LLM可以是大语言模型 meta AI（Large Language Model Meta AI，LLaMA）等。大语言模型的任务是将音频和提示文本编码，为鉴伪分析提供更丰富的信息。

在本实施例中，按照步骤S101-S104，通过音频编码器对待检测音频进行编码，提取出丰富的音频特征（音频编码结果），通过文本编码器对提示文本进行编码，转化为向量表示（文本编码结果）。考虑到现有的大语言模型缺乏理解音频模态的信息的能力，本实施例将编码后的音频编码结果通过Q-former模块查询鉴别信息，并对齐文本模态，让其信息（文本模态的音频鉴别特征）可以为大语言模型所理解。然后通过线性对齐模块，将文本模态的音频鉴别特征对齐大语言模型的输入维度。最后，执行步骤S105,将对齐后的音频信息（文本模态的音频鉴别特征）与提示文本信息（文本编码结果）一起送入由32层LLM构成的大语言模型。这个大语言模型能够将音频和文本信息映射到更高层次的抽象语义表示，为鉴伪分析提供更全面、深层次的信息，从而得到更准确的音频检测结果。

步骤S301，获取包含真实样本音频和合成样本音频的训练数据集，和每个样本音频对应的文本信息，所述文本信息为表示该样本音频为真实音频或合成音频的音频真伪标签信息。

在本实施例中，需要利用获取到的训练数据集，预先对线性对齐模块和大语言模型进行训练。该训练数据集可以与训练Q-former模块所采用的训练数据集相同，包括多个样本音频，分为真实样本音频和合成样本音频。其中，每个样本音频携带有对应的音频真伪标签信息，具体的，每个真实样本音频携带有表示该样本音频为真实的音频的文本信息，例如“该音频为一条真实的音频”的文本信息；每个合成样本音频携带有表示该样本音频为合成的音频的文本信息，例如“该音频为一条合成的音频”的文本信息。

步骤S302，通过音频编码器对所述样本音频进行编码，得到样本音频编码结果。具体的，通过音频编码器对样本音频进行特征提取，得到样本音频编码结果，该样本音频编码结果表示包含鉴别特征的音频模态的向量表征，其中至少包括：该样本音频中的声学特征、韵律特征和情感特征。

步骤S303，通过文本编码器对提示文本进行编码，得到样本文本编码结果；所述提示文本为提示检测该音频为合成音频或真实音频的问句文本信息。示例性的，提示文本可以为“该音频为真实音频或合成音频？”。具体的，通过文本编码器对该提示文本进行编码，得到文本编码结果，该文本编码结果表示包含提示文本语义的文本模态的向量表征。

步骤S304，通过所述预先训练的Q-former模块从所述样本音频编码结果中提取音频鉴别特征，并将所述音频鉴别特征对齐至文本模态，得到文本模态的音频鉴别特征。具体的，音频经过音频编码器提取后，得到包含鉴别特征的表征（样本音频编码结果），将其输入到训练好的Q-former模块，通过Q-former模块中的query embeddings查询音频特征（样本音频编码结果）中的伪造信息并将其对齐到文本模态，得到文本模态的音频鉴别特征，使得大模型可以理解和解释音频中的鉴别特征（即文本模态的音频鉴别特征）。

步骤S305，通过待训练的线性对齐模块，将文本模态的音频鉴别特征的维度对齐至大语言模型的输入维度。

步骤S306，将所述样本文本编码结果与经过维度对齐的文本模态的音频鉴别特征输入待训练的大语言模型，得到音频预测结果。具体的，大语言模型对输入的音频鉴别特征和样本文本编码结果进行综合分析，输出对该样本音频的判断结果（音频预测结果），该结果反映了该样本音频是否真实。

步骤S307，根据所述音频预测结果和所述样本音频对应的文本信息，计算损失函数值，根据所述损失函数值，更新所述线性对齐模块和所述大语言模型的参数。

步骤S308，重复上述步骤，在所述损失函数值收敛的情况下，结束训练。

在本实施例中，利用训练数据集中的新的样本音频和对应的文本信息，重复执行步骤S301-S307，不断对线性对齐模块和大语言模型的参数进行优化，直至该损失函数值收敛，得到训练完成的线性对齐模块和大语言模型。

一方面本申请实施例实现了对深度合成音频的准确识别，本申请实施例通过预先训练的Q-former模块从音频编码结果中提取得到音频鉴别特征，并将该音频鉴别特征对齐至文本模态，在音频模态和文本模态之间建立有意义的联系，帮助大语言模型理解音频鉴别特征，使得系统更能够理解和区分真实音频和合成音频，为深度合成音频的准确检测提供了关键支持。另一方面，本申请实施例解决了相关技术中为充分利用音频数据中的多模态信息的问题，利用了大语言模型的理解能力，使系统对提示文本的语境和含义有更深层次的理解，充分利用了音频数据的多模态信息，实现了语义信息和音频特征的整合分析，使得鉴伪分析更为精准，能够更好地辨别合成音频。此外，本申请实施例有利于应对新兴伪造技术，大语言模型的自适应性能力使系统更具灵活性，能够及时适应新兴的伪造模式和技术，进一步提高了音频鉴伪的准确性，为用户提供更可靠的检测结果。

本申请实施例第二方面还提供了一种结合大语言模型的深度合成音频检测系统，参照图4，图4示出了一种深度合成音频检测系统的结构示意图，如图4所示，所述系统包括：

根据计算得到的对比损失值，更新所述Query Embeddings的参数；

重复上述过程，直至对比损失值收敛，结束训练。

本申请实施例还提供了一种电子设备，参照图5，图5是本申请实施例提出的电子设备的示意图。如图5所示，电子设备100包括：存储器110和处理器120，存储器110与处理器120之间通过总线通信连接，存储器110中存储有计算机程序，该计算机程序可在处理器120上运行，进而实现本申请实施例公开的结合大语言模型的深度合成音频检测方法中的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现如本申请实施例公开的结合大语言模型的深度合成音频检测方法中的步骤。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在电子设备上运行时，使处理器执行时实现如本申请实施例所公开的结合大语言模型的深度合成音频检测方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、装置、电子设备和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种结合大语言模型的深度合成音频检测方法、系统和产品，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种结合大语言模型的深度合成音频检测方法，其特征在于，所述方法包括：

通过预先训练的Q-former模块从所述音频编码结果中提取音频鉴别特征，并将所述音频鉴别特征对齐至文本模态，得到文本模态的音频鉴别特征；所述文本模态的音频鉴别特征为大语言模型可理解和解释的特征表示；其中，所述大语言模型Large Language Model，表示对音频和文本进行编码，以获取用于鉴伪分析的信息的模型；

通过文本编码器对提示文本进行编码，得到文本编码结果；所述提示文本为提示检测音频为合成音频或真实音频的问句文本信息；

2.根据权利要求1所述的结合大语言模型的深度合成音频检测方法，其特征在于，所述Q-former模块的训练过程包括：

3.根据权利要求2所述的结合大语言模型的深度合成音频检测方法，其特征在于，将可学习的Query Embeddings作为所述Q-Former模块的输入，所述Q-former模块的训练过程具体包括：

根据计算得到的对比损失值，更新所述Query Embeddings的参数；

重复上述过程，直至对比损失值收敛，结束训练。

4.根据权利要求3所述的结合大语言模型的深度合成音频检测方法，其特征在于，所述Q-Former模块为基于BERT模型的编码器，所述Q-Former模块中的偶数层中包括一个CA层，所述CA层用于处理输入的音频和所述Query Embeddings之间的交互；其中，所述偶数层的结构为：顺次连接的输入端、SA层、CA层、前馈层和输出端。

5.根据权利要求1所述的结合大语言模型的深度合成音频检测方法，其特征在于，所述线性对齐模块和所述大语言模型的训练过程包括：

6.根据权利要求1所述的结合大语言模型的深度合成音频检测方法，其特征在于，所述音频编码器为Wav2Vec2模型，用于对音频数据进行特征提取，将提取得到的音频特征映射为向量表示，所述向量表示包括：音频的频率分布特征和/或语音合成模型的痕迹特征。

7.根据权利要求1所述的结合大语言模型的深度合成音频检测方法，其特征在于，所述文本编码器由BERT模型构成，所述BERT模型用于捕获文本数据中的上下文信息和语义关系；所述BERT模型的架构包括多层Transformer编码器，具有双向的注意力机制。

8.一种结合大语言模型的深度合成音频检测系统，其特征在于，所述系统包括：

Q-former模块，用于从所述音频编码结果中提取音频鉴别特征，并将所述音频鉴别特征对齐至文本模态，得到文本模态的音频鉴别特征；所述文本模态的音频鉴别特征为大语言模型可理解和解释的特征表示；其中，所述大语言模型Large Language Model，表示对音频和文本进行编码，以获取用于鉴伪分析的信息的模型；

文本编码器，用于对提示文本进行编码，得到文本编码结果；所述提示文本为提示检测音频为合成音频或真实音频的问句文本信息；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-7中任一项所述的结合大语言模型的深度合成音频检测方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1-7中任一项所述的结合大语言模型的深度合成音频检测方法。