CN117690455B

CN117690455B - 基于滑动窗口的部分合成伪造语音检测方法和系统

Info

Publication number: CN117690455B
Application number: CN202311777897.4A
Authority: CN
Inventors: 苏兆品; 乔铮; 张国富; 岳峰; 陈佳乐
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-05-28
Anticipated expiration: 2043-12-21
Also published as: CN117690455A

Abstract

本发明提供一种基于滑动窗口的部分合成伪造语音检测方法和系统。通过获取待检测部分合成伪造语音，设定滑动窗口长度，并基于滑动窗口长度对待检测部分合成伪造语音进行滑动窗口划分，以获取多个语音子序列。遍历多个语音子序列，以确定目标语音子序列。对目标语音子序列进行真实语音检测。如果目标语音子序列是真实语音，则基于预设的第一语音检测模型获取语音拼接点；如果目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点。本申请能够检测到部分合成伪造语音中的语音拼接点，以提高部分合成伪造语音检测与定位的准确性。

Description

基于滑动窗口的部分合成伪造语音检测方法和系统

技术领域

本发明涉及语音检测技术领域，具体涉及一种基于滑动窗口的部分合成伪造语音检测方法和系统。

背景技术

在合成伪造语音检测研究发展初期主要面向基于参数合成法和波形拼接法的合成语音。其中的典型例子是基于隐马尔可夫模型或高斯混合模型的参数生成算法的进行语音合成。随着基于深度学习的语音合成技术的快速发展，研究者们也在不断转向基于深度学习的合成伪造语音检测算法的研究。

现有技术在检测部分合成语音时，通常基于语音拼接篡改检测和合成伪造语音检测。语音拼接篡改检测方法都利用拼接篡改音频中两段来源不同的音频片段，其所包含的录音环境或者录音设备的特征具有不一致性的特点来进行检测。深度合成伪造语音检测算法首要任务是需要判断出待测音频是真实语音还是合成语音，适用的场景通常是整体的伪造语音。

然而，有的语音并不是整体的伪造语音，其是由一部分真实语音和一部分伪造语音拼接得到。现有技术能够检测出语音的真实性，但无法检测出这种伪造语音是如何拼接得来。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于滑动窗口的部分合成伪造语音检测方法和系统，解决了现有技术中部分合成伪造语音检测准确性较差的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明解决其技术问题所提供的一种基于滑动窗口的部分合成伪造语音检测方法，所述基于滑动窗口的部分合成伪造语音检测方法由计算机执行，包括以下步骤：

获取待检测部分合成伪造语音，所述待检测部分合成伪造语音为真实语音和合成语音拼接后形成的语音数据；

设定滑动窗口长度，并基于所述滑动窗口长度对所述待检测部分合成伪造语音进行滑动窗口划分，以获取多个语音子序列；

遍历所述多个语音子序列，以确定目标语音子序列；

基于预设的第一语音检测模型对所述目标语音子序列进行真实语音检测；

如果所述目标语音子序列是真实语音，则基于所述第一语音检测模型获取语音拼接点；如果所述目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点。

优选的，所述遍历所述多个语音子序列，以确定目标语音子序列，包括：

获取检测语音子序列，所述检测语音子序列为进行了真实语音检测的语音子序列中的最后一个语音子序列；

若存在检测语音子序列，则将所述多个语音子序列中所述检测语音子序列的下一个语音子序列设定为目标语音子序列；

若不存在检测语音子序列，则将所述多个语音子序列中的第一个语音子序列设定为目标语音子序列。

优选的，基于预设的第一语音检测模型对所述目标语音子序列进行真实语音检测，包括：

提取所述目标语音子序列的语音特征；

将所述语音特征输入至所述预设的第一语音检测模型中，并根据所述第一语音检测模型检测所述目标语音子序列是否为真实语音。

优选的，基于所述第一语音检测模型获取语音拼接点，包括：

检测所述目标语音子序列是否为最后一个语音子序列；

若是，则标记所述待检测部分合成伪造语音不存在语音拼接点；

若否，则检测所述目标语音子序列是否为第一个语音子序列；

如果所述目标语音子序列为第一个语音子序列，则标记预测类别参数为第一数值，并重新执行遍历所述多个语音子序列，以确定目标语音子序列的步骤；

如果所述目标语音子序列不为第一个语音子序列，则检测预测类别参数；

在所述预测类别参数为第一数值时，重新执行遍历所述多个语音子序列，以确定目标语音子序列的步骤；

在所述预测类别参数为第二数值时，标记所述目标语音子序列的起始点为语音拼接点。

优选的，基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点，包括：

检测当前迭代轮次；

如果所述迭代轮次大于预设数值，则标记所述目标语音子序列的起始点为语音拼接点；

如果所述迭代轮次小于或等于预设数值，则将所述目标语音子序列的语音特征输入至所述第二语音检测模型中，以使所述第二语音检测模型对所述目标语音子序列进行合成语音检测，并根据合成语音检测结果获取语音拼接点。

优选的，所述根据合成语音检测结果获取语音拼接点，包括：

如果所述目标语音子序列是合成语音，则检测所述目标语音子序列是否为第一个语音子序列；

若是，则标记预测类别参数为第二数值，并重新执行遍历所述多个语音子序列，以确定目标语音子序列的步骤；

若否，则检测预测类别参数；

在所述预测类别参数为第一数值时，标记所述目标语音子序列的起始点为语音拼接点；

在所述预测类别参数为第二数值时，重新执行遍历所述多个语音子序列，以确定目标语音子序列的步骤；

如果所述目标语音子序列不是合成语音，则将所述目标语音子序列更新为待检测部分合成伪造语音，并重新执行设定滑动窗口长度的步骤，以进行下一轮迭代。

优选的，在获取到语音拼接点后，还包括：

获取所述待检测部分合成伪造语音的语音类型；

如果所述待检测部分合成伪造语音为第一类语音，则输出所述语音拼接点；所述第一类语音中包含一个语音拼接点；

如果所述待检测部分合成伪造语音为第二类语音，则获取目标语音；所述目标语音为所述待检测部分合成伪造语音中所述语音拼接点之后的语音片段；所述第二类语音中包含多个语音拼接点；

将所述目标语音更新为待检测部分合成伪造语音，并重新执行设定滑动窗口长度的步骤，以检测新的语音拼接点。

本发明解决其技术问题所提供的一种基于滑动窗口的部分合成伪造语音检测系统，所述系统包括：

获取模块，被配置为获取待检测部分合成伪造语音，所述待检测部分合成伪造语音为真实语音和合成语音拼接后形成的语音数据；

滑动窗口划分模块，被配置为设定滑动窗口长度，并基于所述滑动窗口长度对所述待检测部分合成伪造语音进行滑动窗口划分，以获取多个语音子序列；

目标语音子序列获取模块，被配置为遍历所述多个语音子序列，以确定目标语音子序列；

真实语音检测模块，被配置为基于预设的第一语音检测模型对所述目标语音子序列进行真实语音检测；

语音拼接点获取模块，被配置为，如果所述目标语音子序列是真实语音，则基于所述第一语音检测模型获取语音拼接点；如果所述目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点。

本发明解决其技术问题所提供的一种计算机可读存储介质，其存储用于部分合成伪造语音检测的计算机程序，其中，所述计算机程序使得计算机执行如上述的部分合成伪造语音检测方法。

本发明解决其技术问题所提供的一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上述的部分合成伪造语音检测方法。

(三)有益效果

本发明提供了一种基于滑动窗口的部分合成伪造语音检测方法和系统。与现有技术相比，具备以下有益效果：

本发明通过获取待检测部分合成伪造语音，设定滑动窗口长度，并基于滑动窗口长度对待检测部分合成伪造语音进行滑动窗口划分，以获取多个语音子序列。遍历多个语音子序列，以确定目标语音子序列。对目标语音子序列进行真实语音检测。如果目标语音子序列是真实语音，则基于预设的第一语音检测模型获取语音拼接点；如果目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点。本申请能够检测到部分合成伪造语音中的语音拼接点，以提高部分合成伪造语音检测与定位的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的基于滑动窗口的部分合成伪造语音检测方法的流程示意图；

图2示出了一些实施例中检测语音拼接点的算法示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于滑动窗口的部分合成伪造语音检测方法和系统，解决了现有技术部分合成伪造语音检测准确性较差的问题，提高了部分合成伪造语音检测与定位的准确性。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过获取待检测部分合成伪造语音，设定滑动窗口长度，并基于滑动窗口长度对待检测部分合成伪造语音进行滑动窗口划分，以获取多个语音子序列。遍历多个语音子序列，以确定目标语音子序列。基于预设的第一语音检测模型对目标语音子序列进行真实语音检测。如果目标语音子序列是真实语音，则基于第一语音检测模型获取语音拼接点；如果目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点。本申请能够检测到部分合成伪造语音中的语音拼接点，以提高部分合成伪造语音检测与定位的准确性。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种基于滑动窗口的部分合成伪造语音检测方法，该方法由计算机执行，图1为本发明实施例所提供的基于滑动窗口的部分合成伪造语音检测方法的流程示意图。该方法包括以下步骤：

S1、获取待检测部分合成伪造语音，所述待检测部分合成伪造语音为真实语音和合成语音拼接后形成的语音数据；

S2、设定滑动窗口长度，并基于所述滑动窗口长度对所述待检测部分合成伪造语音进行滑动窗口划分，以获取多个语音子序列；

S3、遍历所述多个语音子序列，以确定目标语音子序列；

S4、基于预设的第一语音检测模型对所述目标语音子序列进行真实语音检测；

S5、如果所述目标语音子序列是真实语音，则基于所述第一语音检测模型获取语音拼接点；如果所述目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点。

下面对各步骤进行具体分析。

在步骤S1中，获取待检测部分合成伪造语音。本申请实施例中，待检测部分合成伪造语音指的是：真实语音和合成语音(伪造语音)拼接后形成的语音数据。

常规合成伪造语音通常指整段都是真，或整段都是假的情况。部分合成伪造语音将通过各种合成技术合成的伪造语音插入到真实语音当中来生成。

部分合成伪造语音可以包括两种类型：

一种是由一段真实语音和一段合成语音进行拼接后生成的，两段语音数据拼接到一起，形成一个语音拼接点。本申请实施例中称为第一类语音。

另一种是由多段真实语音和合成语音进行拼接后生成的。在拼接过程中，可以涉及拼接、删除、插入等操作，形成多个语音拼接点。本申请实施例中称为第二类语音。

在不在S2中，设定滑动窗口长度，并基于所述滑动窗口长度对所述待检测部分合成伪造语音进行滑动窗口划分，以获取多个语音子序列。

根据语言学知识可知平均每个单词的发音时长大约为0.3秒，为了确保对部分合成语音片段的检测达到字符级，本申请实施例中，滑动窗口的长度可以设置为0.3秒，同时可以设置滑动窗口滑动的步长，步长可以设定为小于滑动窗口长度的数值，例如0.2秒。

在步骤S3中，遍历所述多个语音子序列，以确定目标语音子序列，包括：

在初始时，可以将第一个语音子序列确定为目标语音子序列，以对该语音子序列进行检测。后续可以按照语音子序列的前后顺序，依次检测下一个语音子序列。

在步骤S4中，基于预设的第一语音检测模型对所述目标语音子序列进行真实语音检测，包括：

提取所述目标语音子序列的语音特征。

本申请实施例中，可以提取语音的CQSS特征。CQSS特征全称Constant Q SpectralSketches。它是一种由CQCC特征衍生出的特征，舍弃CQCC中的均匀重采样操作和离散余弦变换操作，使提取出的特征具有更大的信息容量，可以保证声学特征与神经网络高维特征之间的相关性，有助于神经网络对不同维度特征之间的相关性进行训练和学习。

本申请实施例中，第一语音检测模型可以是SCQSS-PA-SE-ResNet模型。SCQSS-PA-SE-ResNet特征提取前端使用CQSS特征，主体网络由SE-ResNet组成，并在主体网络之后接入并行注意力模块，其中采取并行结构的注意力分别是通道注意力和空间注意力。

在步骤S5中，如果所述目标语音子序列是真实语音，则基于预设的第一语音检测模型获取语音拼接点；如果所述目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点。

本申请实施例中，第二语音检测模型采用MCQSS-PA-SE-ResNet模型。MCQSS-PA-SE-ResNet模型的结构同SCQSS-PA-SE-ResNet模型。

在训练第一语音检测模型和第二语音检测模型时，考虑二分类模型通常将数据划分两类，以“SCQSS-PA-SE-ResNet”为例，通过训练，使模型能够对输入语音进行判断，输出结果是0，1的二分类，0是负样本，1是正样本。其中对于真实语音，模型判断其为正样本，即模型输出结果1，对于合成语音和部分合成语音，模型判断其为负样本，即模型输出结果为0。

两个模型的训练数据集的不同。对于“SCQSS-PA-SE-ResNet”，训练数据集包含真实语音，合成语音(全部均为伪造的语音)和部分合成伪造语音，真实语音的标签视为1，合成语音和部分合成语音的标签视为0。对于“MCQSS-PA-SE-ResNet”，训练数据集包含合成语音和部分合成语音，合成语音的标签视为1，部分合成语音的标签视为0。

因此，SCQSS-PA-SE-ResNet表示能够区分正样本包含真实语音、负样本包含合成语音和部分合成语音的模型。MCQSS-PA-SE-ResNet表示能够区分正样本包含合成语音、负样本包含部分合成语音的模型。

在一些实施例中，所述基于预设的第一语音检测模型获取语音拼接点，包括：

检测所述目标语音子序列是否为最后一个语音子序列；

如果所述目标语音子序列为第一个语音子序列，则标记预测类别参数为第一数值，并重新执行遍历所述多个语音子序列，以确定目标语音子序列的步骤。本申请实施例中，设定第一数值为1。

在所述预测类别参数为第二数值时，标记所述目标语音子序列的起始点为语音拼接点。本申请实施例中，设定第二数值为0。

在一些实施例中，基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点，包括：

检测当前迭代轮次；

在一些实施例中，所述根据合成语音检测结果获取语音拼接点，包括：

若否，则检测预测类别参数；

如果所述目标语音子序列不是合成语音，则将所述目标语音子序列更新为待检测部分合成伪造语音，并重新执行设定滑动窗口长度的步骤，以进行下一轮迭代。在重新设定滑动窗口长度时，将新的滑动窗口长度设定为原来滑动窗口长度的一半，将新的滑动窗口步长设定为原来滑动窗口步长的一半。

在一些实施例中，考虑到部分合成伪造语音的类型，其可能包括多个语音拼接点。因此，在获取到语音拼接点后，还包括：

获取所述待检测部分合成伪造语音的语音类型；

图2示出了一些实施例中检测语音拼接点的算法示意图。如图2所示，包括以下步骤：

Step1：输入待测音频，初始化滑动窗口长度w、步长k，以及迭代次数n；

Step2：对待测音频进行滑动窗口划分得到m个子序列，i表示子序列的索引，定义变量pre_label表示前一子序列的预测类别参数，pre_label＝1表示预测类别参数是真实语音，pre_label＝0表示预测类别参数不是真实语音，pre_label的初始值为第一个子序列的预测类别参数；

Step3：遍历m个子序列，将其提取CQSS特征并送入SCQSS-PA-SE-ResNet检测模型进行类别预测。

(1)子序列被预测为真实语音时

若子序列索引i<m，pre_label＝1，说明还未找到包含拼接点的子序列，子序列索引i＝i+1，pre_label＝1；

若子序列索引i<m，pre_label＝0，则该子序列的起始位置为拼接点位置；

若子序列索引i＝m，说明该待测音频所有子序列已遍历完成，该待测音频未发生拼接篡改。

(2)子序列未被预测为真实语音类型

若迭代次数n<4，对该子序列提取CQSS特征并送入MCQSS-PA-SE-ResNet检测模型。当该子序列被预测为合成语音类型时，若pre_label＝1，则判定当前子序列的起始位置为拼接点位置并输出；反之，说明还未找到包含拼接点的片段，则子序列索引i＝i+1。当该子序列被预测为部分合成语音时，则说明找到包含拼接点的子序列，将该子序列作为待测音频，调整滑动窗口长度w＝w/2，步长k＝k/2，迭代次数n＝n+1，重复以上检测流程；

若迭代次数n>4，判定该子序列的起始位置为拼接点位置。

本发明实施例还提供了一种基于滑动窗口的部分合成伪造语音检测系统，上述系统包括：

可理解的是，本发明实施例提供的上述基于滑动窗口的部分合成伪造语音检测系统与上述基于滑动窗口的部分合成伪造语音检测方法相对应，其有关内容的解释、举例、有益效果等部分可以参考基于滑动窗口的部分合成伪造语音检测方法中的相应内容，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其存储用于容器工作负载预测的计算机程序，其中，所述计算机程序使得计算机执行如上述的部分合成伪造语音检测方法。

本发明实施例还提供了一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行上述的部分合成伪造语音检测方法。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在文本中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于滑动窗口的部分合成伪造语音检测方法，所述检测方法由计算机执行，其特征在于，包括以下步骤：

遍历所述多个语音子序列，以确定目标语音子序列；

如果所述目标语音子序列是真实语音，则基于所述第一语音检测模型获取语音拼接点；如果所述目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点；

其中，所述遍历所述多个语音子序列，以确定目标语音子序列，包括：

2.根据权利要求1所述的基于滑动窗口的部分合成伪造语音检测方法，其特征在于，基于预设的第一语音检测模型对所述目标语音子序列进行真实语音检测，包括：

提取所述目标语音子序列的语音特征；

3.根据权利要求1所述的基于滑动窗口的部分合成伪造语音检测方法，其特征在于，基于所述第一语音检测模型获取语音拼接点，包括：

检测所述目标语音子序列是否为最后一个语音子序列；

4.根据权利要求3所述的基于滑动窗口的部分合成伪造语音检测方法，其特征在于，基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点，包括：

检测当前迭代轮次；

5.根据权利要求4所述的基于滑动窗口的部分合成伪造语音检测方法，其特征在于，所述根据合成语音检测结果获取语音拼接点，包括：

若否，则检测预测类别参数；

6.根据权利要求5所述的基于滑动窗口的部分合成伪造语音检测方法，其特征在于，在获取到语音拼接点后，还包括：

获取所述待检测部分合成伪造语音的语音类型；

7.一种基于滑动窗口的部分合成伪造语音检测系统，其特征在于，所述系统包括：

语音拼接点获取模块，被配置为，如果所述目标语音子序列是真实语音，则基于所述第一语音检测模型获取语音拼接点；如果所述目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点；

8.一种计算机可读存储介质，其特征在于，其存储用于部分合成伪造语音检测的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～6任一项所述的部分合成伪造语音检测方法。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1～6任一项所述的部分合成伪造语音检测方法。