CN117351940B

CN117351940B - 基于语音大模型的合成语音检测方法及装置

Info

Publication number: CN117351940B
Application number: CN202311655426.6A
Authority: CN
Inventors: 陶建华; 许乐; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-03-01
Anticipated expiration: 2043-12-05
Also published as: CN117351940A

Abstract

本发明涉及一种基于语音大模型的合成语音检测方法及装置，基于语音大模型的合成语音检测方法包括：对每一语音合成算法对应的样本语音进行多鉴别任务的标签标记，构建鉴别任务序列；遍历每一语音合成算法，获取该语音合成算法对应的样本语音的梅尔谱，输入基于前一语音合成算法对应的语音训练模型的编码器，得到隐变量；将隐变量及鉴别任务序列输入基于前一语音合成算法对应的语音训练模型的解码器，获取预测鉴别值；依据预测鉴别值及实际鉴别值，对前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化，在所有合成语音算法遍历完毕后，得到语音大模型。可以提升合成语音检测效率。

Description

基于语音大模型的合成语音检测方法及装置

技术领域

本发明涉及语音检测技术领域，尤其涉及一种基于语音大模型的合成语音检测方法及装置。

背景技术

大模型在自然语言处理领域，具有泛化性与少样本学习能力，因而，经过大规模语音数据训练得到的大模型，在合成语音鉴别任务上具有更好的泛化能力。

相关技术中，在大模型应用于合成语音鉴别任务时，主要是将大模型作为特征提取器，通过提取合成语音鉴别任务的特征进行语音识别，能够较为准确地区分出训练时利用语音合成算法合成的语音，但对于合成语音的多种语音合成算法，需要针对每一语音合成算法，构建对应的大模型，使得合成语音检测效率较低；进一步地，由于合成语音的语音合成算法多种多样，面对训练时未出现的语音合成算法，对该合成语音进行检测时，泛化性不足，检测的精度较低。

发明内容

有鉴于此，本发明提供一种基于语音大模型的合成语音检测方法及装置。

具体地，本发明是通过如下技术方案实现的：

根据本发明的第一方面，提供一种基于语音大模型的合成语音检测方法，基于语音大模型的合成语音检测方法包括：

获取待检测语音；

获取新合成语音算法，基于所述新合成语音算法设置对应的样本新语音，对所述样本新语音进行多鉴别任务的标签标记；

拼接所述样本新语音及所述待检测语音，得到拼接语音；

基于所述拼接语音，设置包含多鉴别任务的鉴别任务识别序列，所述鉴别任务识别序列中，设置所述样本新语音对应的多鉴别任务对应的鉴别值，分别为所述样本新语音对应的多鉴别任务的标签标记值，所述待检测语音对应的多鉴别任务对应的鉴别值为空；

获取所述拼接语音的梅尔谱，输入语音大模型的编码器，得到所述拼接语音的隐变量；

将所述拼接语音的隐变量及所述鉴别任务识别序列输入所述语音大模型的解码器，获取所述鉴别任务识别序列中所述待检测语音的预测鉴别值。。

本技术方案中的基于语音大模型的合成语音检测方法，通过在对一语音合成算法训练模型时，基于前一语音合成算法训练得到的模型进行训练，通过构建与前一语音合成算法训练得到的模型的模型参数值矩阵正交的方式，对模型参数值矩阵进行更新，从而无需基于每一语音合成算法训练对应的模型，可以有效提升基于语音大模型的合成语音检测效率；同时，通过正交的方式对模型参数值矩阵进行更新，可以有效降低模型对原有语音合成算法的影响，降低训练量，以及，避免模型对原有语音合成算法的鉴别精度的下降。

根据本发明的第二方面，提供一种基于语音大模型的合成语音检测装置，基于语音大模型的合成语音检测装置包括：

标签标记模块，用于对每一语音合成算法对应的样本语音进行多鉴别任务的标签标记，基于每一鉴别任务，构建所述样本语音的鉴别任务序列，所述鉴别任务序列中，该鉴别任务对应的鉴别值为空；

编码模块，用于遍历每一语音合成算法，获取该语音合成算法对应的样本语音的梅尔谱，输入基于前一语音合成算法对应的语音训练模型的编码器，得到该样本语音的隐变量；

解码模块，用于将所述隐变量及所述鉴别任务序列输入所述基于前一语音合成算法对应的语音训练模型的解码器，获取该语音合成算法对应的鉴别任务序列中包含的预测鉴别值；

参数值获取模块，用于获取所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，其中，该模型参数值矩阵包括：所述前一语音合成算法对应的语音训练模型的前一次迭代的模型参数迭代值矩阵、行参数值变动子矩阵及列参数值变动子矩阵；

参数值优化模块，用于依据所述预测鉴别值及所述样本语音进行标签标记的语音合成算法对应的实际鉴别值，对所述前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化，获取该语音合成算法对应的语音训练模型，其中，梯度方向优化的模型参数值矩阵中，模型参数迭代值矩阵为所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵，与所述前一次迭代的行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵正交；

模型生成模块，用于在所有合成语音算法遍历完毕后，得到所述语音大模型。

根据本发明的第三方面，提供一种存储介质，其上存储有计算机程序，程序被处理器执行时实现第一方面的任意可能的实现方式中的基于语音大模型的合成语音检测方法的步骤。

根据本发明的第四方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现第一方面的任意可能的实现方式中的基于语音大模型的合成语音检测方法的步骤。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于语音大模型的合成语音检测方法的流程示意图；

图2为本发明实施例提供的一种基于语音大模型的合成语音检测方法中语音训练模型的解码器输出的预测鉴别值示意图；

图3为本发明实施例提供的一种基于语音大模型的合成语音检测方法中构造低秩LoRA矩阵示意图；

图4为本发明实施例提供的一种基于语音大模型的合成语音检测方法中得到语音大模型的示意图；

图5为本发明实施例提供的一种基于语音大模型的合成语音检测方法中识别语音的流程示意图；

图6为本发明实施例提供的一种基于语音大模型的合成语音检测处理装置示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，在利用大模型进行合成语音的多鉴别任务时，例如，针对合成语音进行语种鉴别任务时，需要针对每一语音合成算法，构建对应的大模型，使得基于大模型的合成语音检测效率较低；进一步地，由于可以使用神经网络或音频编辑应用程序，基于目标用户的数字音频或文件进行修改，生成合成语音，以模仿目标用户的操作。相关技术中，在应用大模型应进行合成语音鉴别时，主要是将大模型作为特征提取器，通过提取合成语音的特征进行语音识别，由于合成语音的语音合成算法多种多样，合成手段层出不穷，因而，大模型在面对训练时未出现的语音合成算法，对该合成语音进行检测时，泛化性不足，使得检测的精度较低，使得目前的大模型在合成语言鉴别的泛化方面仍有不足。

本实施例中，基于wav2vec、hubert、whisper等预训练模型算法，通过构建具有连续学习与上下文内容学习能力的语音大模型，可以实现高泛化性的合成语音的多鉴别任务，提升基于语音大模型的合成语音检测效率。

参见图1，本发明实施例提供了一种基于语音大模型的合成语音检测方法，该方法可以包括如下步骤：

S101、对每一语音合成算法对应的样本语音进行多鉴别任务的标签标记，基于每一鉴别任务，构建所述样本语音的鉴别任务序列，所述鉴别任务序列中，该鉴别任务对应的鉴别值为空；

本实施例中，作为一可选实施例，依据语音检测中涉及的常规语音合成算法鉴别任务，基于每一语音合成算法，获取进行多鉴别任务的样本语音，对每一样本语音，进行鉴别任务标记，其中，样本语音包括原始语音以及基于该语音合成算法嵌入原始语音的合成语音。例如，对于用户的原始语音，标记为非合成语音（例如，标记为1）及英语（例如，标记为EN），对于在原始语音中添加利用合成算法生成的合成语音，标记为合成语音（标记为0）及汉语（标记为CN）等。

本实施例中，基于设置的多鉴别任务，构建鉴别任务序列。作为一可选实施例，鉴别任务序列中，以BOS（Begining of sequence）表示鉴别任务序列的开始，以EOS（End ofsequence）表示鉴别任务序列的结束，在序列的开始及结束之间，为多鉴别任务及对应的鉴别值。

以多鉴别任务为语种及是否包含合成语音为例，表1为一鉴别任务序列示意表。

表1

表1中，LID表示语种，SPF表示是否为合成语音。

S102、遍历每一语音合成算法，获取该语音合成算法对应的样本语音的梅尔谱，输入基于前一语音合成算法对应的语音训练模型的编码器，得到该样本语音的隐变量；

本实施例中，对于多鉴别任务对应的多种语音合成算法，先构建一语音合成算法对应的语音训练模型，再基于该语音合成算法对应的语音训练模型，构建另一语音合成算法对应的语音训练模型，再在另一语音合成算法对应的语音训练模型的基础上，构建再一语音合成算法对应的语音训练模型，直至构建得到所有语音合成算法对应的语音训练模型，即语音大模型。这样，无需针对每一语音合成算法进行基于语音大模型的合成语音检测，有效提升了语音大模型构建的效率。

本实施例中，语音大模型包括编码器（encoder）和解码器（decoder）。其中，编码器包括卷积下采样层与第一变换层（transformer），解码器包括第二变换层（transformer）以及位置嵌入层（embedding）。其中，变换层的注意力模块（attention qk）利用lora模型的低秩矩阵进行近似，模拟梯度下降。编码器将梅尔谱（mel谱）作为输入并输出隐变量，解码器将隐变量作为条件，进行自回归生成鉴别文本。作为一可选实施例，用于语音大模型的预训练模型算法包括但不限于：wav2vec算法、hubert算法、whisper算法等。

本实施例中，获取语音的梅尔谱，具体可参见相关技术文献，在此略去详述。

S103、将所述隐变量及所述鉴别任务序列输入所述基于前一语音合成算法对应的语音训练模型的解码器，获取该语音合成算法对应的鉴别任务序列中包含的预测鉴别值；

本实施例中，针对一语音合成算法，训练得到对应的语音训练模型后，后一语音合成算法，基于前一语音合成算法训练得到的语音训练模型，进行再训练，得到该后一语音合成算法对应的语音训练模型。

本实施例中，与条件文本生成任务相类似，根据编码器encoder的具体输入，在解码器decoder部分，利用自回归解码，生成语音的属性信息（预测鉴别值）。

本实施例中，作为一可选实施例，利用下式获取语音合成算法对应的预测鉴别值：

Z=encoder(mel)

X_i+1=decoder(X_i|Z)

其中，Z为隐变量，X_i为鉴别任务序列中的第i个鉴别任务，X_i+1为鉴别任务序列中的第i个鉴别任务对应的预测鉴别值。

图2为本发明实施例提供的一种基于语音大模型的合成语音检测方法中语音训练模型的解码器输出的预测鉴别值示意图。如图2所示，鉴别任务序列中，LID及SPF为设置的多鉴别任务，多鉴别任务形成任务令牌（token），语音训练模型输出的为多鉴别任务分别对应的鉴别值（预测鉴别值）。

本实施例中，通过设计解码器的输出形式，即通过任务令牌序列（鉴别任务序列）与特殊词元，使得模型可以适应于多种不同的下游任务，例如，通过在特殊词元<lid><spf>后添加音频的语种与鉴别结果的标签，将编码器转换为条件生成概率模型 P(label|token,Z)，使得在解码时，遇到<lid><spf>后会输出对应的预测结果。

S104、获取所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，其中，该模型参数值矩阵包括：所述前一语音合成算法对应的语音训练模型的前一次迭代的模型参数迭代值矩阵、行参数值变动子矩阵及列参数值变动子矩阵；

本实施例中，假设语音训练模型的模型参数为n个，则模型参数值矩阵为一nxn的矩阵。假设语音训练模型更新前的模型参数值矩阵为W，每一次迭代引起的模型参数值变动矩阵为W，则更新后的模型参数值矩阵为（W+/>W）。

本实施例中，考虑到利用合成语音进行语音大模型的生成模型GPT的有监督精调（SFT，Supervised Fine-Tuning）时，样本语音与模型参数量之间的不匹配，引入lora方法，通过低秩矩阵模拟模型参数量的更新，这样，可以避免大参数量模型微调时的过拟合与灾难性遗忘问题。

图3为本发明实施例提供的一种基于语音大模型的合成语音检测方法中构造低秩LoRA矩阵示意图。如图3所示，具体来说，针对语音合成算法T对应的模型参数值变动矩阵为W，构造低秩LoRA矩阵，将/>W分解为A_TB_T，因而，在更新前的模型参数值矩阵为为W时，则更新后的模型参数值矩阵为：W+A_TB_T，这样，通过构造低秩LoRA矩阵，可以有效降低模型训练的运算量，进而提升模型的构建效率。例如，/>W为一nxn的矩阵，需要nxn次运算，在构造低秩LoRA矩阵后，A_T为nx1的矩阵，B_T为1xn的矩阵，这样，只需2n次运算。

S105、依据所述预测鉴别值及所述样本语音进行标签标记的语音合成算法对应的实际鉴别值，对所述前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化，获取该语音合成算法对应的语音训练模型，其中，梯度方向优化的模型参数值矩阵中，模型参数迭代值矩阵为所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵，与所述前一次迭代的行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵正交；

本实施例中，如前所述，针对语音合成算法T，构造低秩LoRA矩阵，前一语音合成算法对应的语音训练模型的模型参数值矩阵为：W+A_TB_T，其中，A_T为行参数值变动子矩阵，B_T为列参数值变动子矩阵，前一次迭代的行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵为：A_TB_T。对于新的语音合成算法N，梯度方向优化的模型参数值矩阵为：W+A_TB_T+A_nB_n，其中，A_n和B_n分别为梯度方向优化的模型参数值矩阵中，对应的行参数值变动子矩阵及列参数值变动子矩阵。

本实施例中，作为一可选实施例，为了避免对已构建的语音训练模型在继续训练时，对原有语音合成算法的影响，通过对更新前后的模型参数值矩阵中：A_TB_T和A_nB_n施加正交化约束，可以有效缓解语音训练模型在参数更新后面的灾难性遗忘问题，提升语音训练模型对合成语音算法的鉴别精度。

本实施例中，作为一可选实施例，依据所述预测鉴别值及所述样本语音进行标签标记的语音合成算法对应的实际鉴别值，对所述前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化，包括：

依据所述预测鉴别值及所述样本语音进行标签标记的语音合成算法对应的实际鉴别值，获取得到所述预测鉴别值的语音训练模型的精度，所述得到所述预测鉴别值的语音训练模型为所述前一语音合成算法对应的语音训练模型；

若所述精度满足预先设置的精度阈值，将所述得到所述预测鉴别值的语音训练模型作为当前语音合成算法对应的语音训练模型；

若所述精度不满足预先设置的精度阈值，提取所述得到所述预测鉴别值的语音训练模型的行参数值变动子矩阵及列参数值变动子矩阵；

构建行参数值当前变动子矩阵及列参数值当前变动子矩阵，以使所述行参数值当前变动子矩阵及列参数值当前变动子矩阵构成的矩阵，与所述行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵正交；

基于所述得到所述预测鉴别值的语音训练模型的模型参数值矩阵，以及，构建的行参数值当前变动子矩阵及列参数值当前变动子矩阵，获取进行梯度方向优化的模型参数值矩阵。

本实施例中，作为一可选实施例，该方法还包括：

若依据所述进行梯度方向优化的模型参数值矩阵进行迭代训练，获取的精度不满足预先设置的精度阈值，以当前迭代对应的模型参数值矩阵作为进行梯度方向优化的模型参数值矩阵的模型参数迭代值矩阵，依据反向传播算法调整行参数变动子矩阵及列参数变动子矩阵，直至语音合成算法对应的语音训练模型收敛。

本实施例中，在依据新的合成算法进行训练时，在第一次迭代训练中，基于矩阵正交的方式更新模型参数值矩阵，在后续的迭代训练中，依据反向传播算法调整行参数变动子矩阵及列参数变动子矩阵，以对模型参数值矩阵进行更新。

S106、在所有合成语音算法遍历完毕后，得到所述语音大模型。

本实施例中，以三个合成语音算法为例，三个合成语音算法分别为：算法A、算法B及算法C，首先，基于算法A的样本语音及鉴别任务序列进行训练，得到算法A对应的语音训练模型1，再基于算法B的样本语音及鉴别任务序列，对语音训练模型1进行训练，得到可以适用于算法A和算法B的语音训练模型2，最后，基于算法C的样本语音及鉴别任务序列，对语音训练模型2进行训练，得到可以适用于算法A、算法B及算法C的语音大模型。

图4为本发明实施例提供的一种基于语音大模型的合成语音检测方法中得到语音大模型的示意图。如图4所示，通过将梅尔谱输入编码器，得到隐变量，输入解码器，同时将鉴别任务序列输入解码器，得到鉴别任务序列中各鉴别任务对应的预测鉴别值，基于鉴别任务对应的预测鉴别值以及该鉴别任务进行标记的实际鉴别值进行训练。

本实施例中，通过遍历每一语音合成算法，提取一语音合成算法作为当前语音合成算法，将当前语音合成算法对应样本语音的隐变量及鉴别任务序列输入基于前一语音合成算法得到的语音训练模型的解码器，获取鉴别任务序列中各鉴别任务对应的预测鉴别值，依据当前语音合成算法对应的各鉴别任务的预测鉴别值及进行标签标记的各鉴别任务对应的实际鉴别值，对当前语音训练模型（在第一次进行预测时，为基于前一语音合成算法得到的语音训练模型）的模型参数值矩阵进行梯度方向优化，优化的模型参数值矩阵中，行参数变动子矩阵及列参数变动子矩阵构成的矩阵，与当前当前语音训练模型的行参数变动子矩阵及列参数变动子矩阵构成的矩阵正交，然后，在当前语音合成算法的其他迭代优化模型参数值矩阵的训练中，以当前迭代对应的模型参数值矩阵作为优化模型参数值矩阵的模型参数迭代值矩阵，依据反向传播算法调整行参数变动子矩阵及列参数变动子矩阵，直至该语音训练模型收敛，得到当前语音合成算法对应的语音训练模型，直至获取所有语音合成算法对应的语音大模型。

本实施例中，在构建基于多鉴别任务的语音大模型时，通过构建包含多鉴别任务的鉴别任务序列，遍历每一语音合成算法，获取该语音合成算法对应的样本语音的梅尔谱，输入基于前一语音合成算法对应的语音训练模型的编码器，得到该样本语音的隐变量；将所述隐变量及所述鉴别任务序列输入所述基于前一语音合成算法对应的语音训练模型的解码器，获取该语音合成算法对应的鉴别任务序列中包含的预测鉴别值；获取所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，其中，该模型参数值矩阵包括：所述前一语音合成算法对应的语音训练模型的前一次迭代的模型参数迭代值矩阵、行参数值变动子矩阵及列参数值变动子矩阵；依据所述预测鉴别值及所述样本语音进行标签标记的语音合成算法对应的实际鉴别值，对所述前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化，获取该语音合成算法对应的语音训练模型，其中，梯度方向优化的模型参数值矩阵中，模型参数迭代值矩阵为所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵，与所述前一次迭代的行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵正交；在所有合成语音算法遍历完毕后，得到所述语音大模型。这样，在对一语音合成算法训练模型时，基于前一语音合成算法训练得到的模型进行训练，通过构建与前一语音合成算法训练得到的模型的模型参数值矩阵正交的方式，对模型参数值矩阵进行更新，从而无需基于每一语音合成算法训练对应的模型，可以有效提升基于语音大模型的合成语音检测效率；同时，通过正交的方式对模型参数值矩阵进行更新，可以有效降低模型对原有语音合成算法的影响，降低训练量，以及，避免模型对原有语音合成算法的鉴别精度的下降。

本实施例中，针对不同合成语音算法更新模型参数的梯度方向正交，互不影响，因此，可以在保证对原有合成技术鉴别能力不下降的情况下，更新模型面对新合成语音算法的能力；进一步地，本实施例中，进行正交的计算在原始模型参数值矩阵的低秩子空间进行，因此计算参数量小，计算效率高，在面对参数量极大的模型时仍然具有实际应用能力。

图5为本发明实施例提供的一种基于语音大模型的合成语音检测方法中识别语音的流程示意图。如图5所示，本实施例中，作为一可选实施例，在图1的基础上，该方法还包括：

S501、获取待检测语音；

S502、获取新合成语音算法，基于所述新合成语音算法设置对应的样本新语音，对所述样本新语音进行多鉴别任务的标签标记；

本实施例中，在有新的合成语音算法出现后，由于语音大模型中，未对该合成语音算法进行训练，因而，在待检测语音中包含有通过该合成语音算法生成的语音时，语音大模型对该合成语音算法生成的语音的识别精度可能不高。本实施例中，通过设置新合成语音算法对应的样本新语音，可以对语音大模型进行泛化。

S503、拼接所述样本新语音及所述待检测语音，得到拼接语音；

本实施例中，作为一可选实施例，样本新语音可以为多个。

本实施例中，作为一可选实施例，在所述拼接所述样本新语音及所述待检测语音，得到拼接语音之前，该方法还包括：

获取所述待检测语音在隐空间的待检测帧；

获取样本语音在隐空间的样本帧；

针对每一样本语音，基于所述待检测帧及该样本语音对应的样本帧，逐帧求平均余弦距离，选取平均余弦距离小于预先设置的距离阈值对应的样本语音，得到辅助样本语音；

所述拼接所述样本新语音及所述待检测语音，得到拼接语音，包括：

拼接所述样本新语音、所述辅助样本语音及所述待检测语音，得到所述拼接语音。

本实施例中，通过选择和待检测语音在隐空间逐帧求平均余弦距离最近的已知样本语音，可以进一步排除语义上的影响，从而提升待检测语音的识别准确率。

本实施例中，作为一可选实施例，利用下式获取辅助样本语音：

其中，A为待检测语音，B为样本语音，E为平均余弦距离。

S504、基于所述拼接语音，设置包含多鉴别任务的鉴别任务识别序列，所述鉴别任务识别序列中，设置所述样本新语音对应的多鉴别任务对应的鉴别值，分别为所述样本新语音对应的多鉴别任务的标签标记值，所述待检测语音对应的多鉴别任务对应的鉴别值为空；

本实施例中，以拼接语音为依次拼接第一样本新语音、第二样本新语音以及待检测语音、多鉴别任务为语种及是否包含合成语音为例，表2为鉴别任务识别序列示意表。

表2

表2中，鉴别任务的顺序与拼接语音中的语音拼接顺序相一致，例如，拼接语音中的顺次依次为：第一样本新语音、第二样本新语音以及待检测语音，则第一次出现的LID、SPF为第一样本新语音的属性信息，为已知值；第二次出现的LID、SPF为第二样本新语音的属性信息，为已知值；第三次出现的LID、SPF为待检测语音的属性信息，为未知值。

S505、获取所述拼接语音的梅尔谱，输入所述语音大模型的编码器，得到所述拼接语音的隐变量；

S506、将所述拼接语音的隐变量及所述鉴别任务识别序列输入所述语音大模型的解码器，获取所述鉴别任务识别序列中所述待检测语音的预测鉴别值。

本实施例中，当面对最新的合成语音算法时，可以将使用新合成语音算法生成的样本新语音和对应的实际鉴别值（label）组成数据对，提供给语音大模型，并将待鉴别的待检测语音作为输入，由语音大模型预测鉴别结果。

基于同一发明构思，如图6所示，本发明实施例还提供了一种基于语音大模型的合成语音检测装置，装置包括：

标签标记模块601，用于对每一语音合成算法对应的样本语音进行多鉴别任务的标签标记，基于每一鉴别任务，构建所述样本语音的鉴别任务序列，所述鉴别任务序列中，该鉴别任务对应的鉴别值为空；

本实施例中，作为一可选实施例，样本语音包括原始语音以及基于语音合成算法嵌入原始语音的合成语音。

编码模块602，用于遍历每一语音合成算法，获取该语音合成算法对应的样本语音的梅尔谱，输入基于前一语音合成算法对应的语音训练模型的编码器，得到该样本语音的隐变量；

本实施例中，对于多鉴别任务对应的多种语音合成算法，先构建一语音合成算法对应的语音训练模型，再基于该语音合成算法对应的语音训练模型，构建另一语音合成算法对应的语音训练模型，再在另一语音合成算法对应的语音训练模型的基础上，构建再一语音合成算法对应的语音训练模型，直至构建得到所有语音合成算法对应的语音训练模型，即语音大模型。

解码模块603，用于将所述隐变量及所述鉴别任务序列输入所述基于前一语音合成算法对应的语音训练模型的解码器，获取该语音合成算法对应的鉴别任务序列中包含的预测鉴别值；

参数值获取模块604，用于获取所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，其中，该模型参数值矩阵包括：所述前一语音合成算法对应的语音训练模型的前一次迭代的模型参数迭代值矩阵、行参数值变动子矩阵及列参数值变动子矩阵；

参数值优化模块605，用于依据所述预测鉴别值及所述样本语音进行标签标记的语音合成算法对应的实际鉴别值，对所述前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化，获取该语音合成算法对应的语音训练模型，其中，梯度方向优化的模型参数值矩阵中，模型参数迭代值矩阵为所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵，与所述前一次迭代的行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵正交；

本实施例中，作为一可选实施例，参数值优化模块605，具体用于：

若所述精度满足预先设置的精度阈值，将所述得到所述预测鉴别值的语音训练模型作为当前语音合成算法对应的语音训练模型。

本实施例中，作为另一可选实施例，参数值优化模块605，具体还用于：

本实施例中，作为再一可选实施例，参数值优化模块605，具体还用于：

模型生成模块606，用于在所有合成语音算法遍历完毕后，得到所述语音大模型。

本实施例中，作为一可选实施例，该装置还包括：

语音检测模块（图中未示出），用于获取待检测语音；

拼接所述样本新语音及所述待检测语音，得到拼接语音；

获取所述拼接语音的梅尔谱，输入所述语音大模型的编码器，得到所述拼接语音的隐变量；

将所述拼接语音的隐变量及所述鉴别任务识别序列输入所述语音大模型的解码器，获取所述鉴别任务识别序列中所述待检测语音的预测鉴别值。

基于同一发明构思，本发明实施例还提供了一种存储介质，其上存储有计算机程序，程序被处理器执行时实现上述任意可能的实现方式中的基于语音大模型的合成语音检测方法的步骤。

可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

基于同一发明构思，参见图7，本发明实施例还提供了一种电子设备，包括存储器101（例如非易失性存储器）、处理器102及存储在存储器101上并可在处理器102上运行的计算机程序，处理器102执行程序时实现上述任意可能的实现方式中的基于语音大模型的合成语音检测方法的步骤，可相当于如前的基于语音大模型的合成语音检测装置，当然，该处理器还可以用来处理其他数据或运算。该电子设备可以是PC、服务器、终端等设备。

如图7所示，该电子设备一般还可以包括：内存103、网络接口104、以及内部总线105。除了这些部件外，还可以包括其他硬件，对此不再赘述。

需要指出的是，上述基于语音大模型的合成语音检测装置可以通过软件实现，其作为一个逻辑意义上的装置，是通过其所在的电子设备的处理器102将非易失性存储器中存储的计算机程序指令读取到内存103中运行形成的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于语音大模型的合成语音检测方法，其特征在于，包括：

获取待检测语音；

拼接所述样本新语音及所述待检测语音，得到拼接语音；

将所述拼接语音的隐变量及所述鉴别任务识别序列输入所述语音大模型的解码器，获取所述鉴别任务识别序列中所述待检测语音的预测鉴别值；

还包括：

对每一语音合成算法对应的样本语音进行多鉴别任务的标签标记，基于每一鉴别任务，构建所述样本语音的鉴别任务序列，所述鉴别任务序列中，该鉴别任务对应的鉴别值为空；

遍历每一语音合成算法，获取该语音合成算法对应的样本语音的梅尔谱，输入基于前一语音合成算法对应的语音训练模型的编码器，得到该样本语音的隐变量；

将所述隐变量及所述鉴别任务序列输入所述基于前一语音合成算法对应的语音训练模型的解码器，获取该语音合成算法对应的鉴别任务序列中包含的预测鉴别值；

获取所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，其中，该模型参数值矩阵包括：所述前一语音合成算法对应的语音训练模型的前一次迭代的模型参数迭代值矩阵、行参数值变动子矩阵及列参数值变动子矩阵；

依据所述预测鉴别值及所述样本语音进行标签标记的语音合成算法对应的实际鉴别值，对所述前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化，获取该语音合成算法对应的语音训练模型，其中，梯度方向优化的模型参数值矩阵中，模型参数迭代值矩阵为所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵，与所述前一次迭代的行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵正交；

在所有合成语音算法遍历完毕后，得到所述语音大模型。

2.根据权利要求1所述的基于语音大模型的合成语音检测方法，其特征在于，所述依据所述预测鉴别值及所述样本语音进行标签标记的语音合成算法对应的实际鉴别值，对所述前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化，包括：

3.根据权利要求2所述的基于语音大模型的合成语音检测方法，其特征在于，还包括：

4.根据权利要求3所述的基于语音大模型的合成语音检测方法，其特征在于，还包括：

5.根据权利要求1所述的基于语音大模型的合成语音检测方法，其特征在于，所述样本语音包括原始语音以及基于语音合成算法嵌入原始语音的合成语音。

6.根据权利要求1所述的基于语音大模型的合成语音检测方法，其特征在于，还包括：

获取所述待检测语音在隐空间的待检测帧；

获取样本语音在隐空间的样本帧；

7.一种基于语音大模型的合成语音检测装置，其特征在于，所述基于语音大模型的合成语音检测装置包括：

模型生成模块，用于在所有合成语音算法遍历完毕后，得到所述语音大模型；

语音检测模块，用于获取待检测语音；

拼接所述样本新语音及所述待检测语音，得到拼接语音；

8.一种存储介质，其特征在于，存储介质上存储程序或指令，程序或指令被处理器运行时实现如权利要求1至6中任一项所述的基于语音大模型的合成语音检测方法的步骤。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6中任一项所述的基于语音大模型的合成语音检测方法的步骤。