CN111402921B

CN111402921B - 语音复制粘贴篡改检测方法和系统

Info

Publication number: CN111402921B
Application number: CN202010173725.6A
Authority: CN
Inventors: 苏兆品; 武钦芳; 张国富; 岳峰; 沈宇锋; 沈朝勇; 肖锐
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2023-01-24
Anticipated expiration: 2040-03-13
Also published as: CN111402921A

Abstract

本发明提供一种语音复制粘贴篡改检测方法和系统，涉及语音信息处理技术领域。本发明通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA‑CQSD特征，除去CQSD特征中干扰信息，从而达到语音信息在遭受到不同形式的常见攻击时，检测结果的的准确率受到的影响较小，即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。

Description

语音复制粘贴篡改检测方法和系统

技术领域

本发明涉及语音信息处理技术领域，具体涉及一种语音复制粘贴篡改检测方法和系统。

背景技术

随着多媒体传输设备的普及，语音信号在不同领域得到的广泛传播和应用。使用语音信号的便捷性和娱乐性给人们的生活带来诸多乐趣，同时也存在很大的安全隐患。一些不法分子对语音信号进行复制粘贴篡改，破坏原始语音信号的真实性和完整性，导致说话人的原意被歪曲，细节被掩盖，甚至伪造出一段语音，以此来获取利益。因此，检测语音是否被复制粘贴篡改成为信息安全领域研究者的重要对象。

现有的检测语音是否被复制粘贴篡改的方法主要为基于傅里叶变换域中提取的语音信息的各种特征检测语音信息是否被复制粘贴篡改。

然而，本申请的发明人发现，现有的检测方法虽然在理想数据库中能取得不错的检测结果，但是当音频遭受了一些常见的攻击时(如添加高斯白噪声、重采样、低通滤波和MP3压缩等)其检测结果将会明显受到影响，导致检测结果的准确度较低。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种语音复制粘贴篡改检测方法和系统，解决了现有的语音复制粘贴篡改检测方法在遭受攻击时准确度较低的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种语音复制粘贴篡改检测方法，所述方法由计算机执行，所述方法包括：

S1、获取基本语音数据库和受攻击的语音数据库；

S2、获取所述基本语音数据库和所述受攻击的语音数据库中语音样本的CQSD特征；

S3、基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征，并记录所述eGA-CQSD 特征中每一维特征在所述CQSD特征中的位置；

S4、基于所述eGA-CQSD特征中每一维特征在CQSD特征中的位置，提取受攻击的语音数据库中语音样本的eGA-CQSD特征；

S5、基于所述基本语音数据库中语音样本的eGA-CQSD特征训练 SVM分类模型，得到语音检测模型；

S6、基于所述语音检测模型检测受攻击的语音数据库的eGA-CQSD特征，得到检测结果。

优选的，所述基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征，并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置，包括：

S301基于遗传编码生成所述基本语音数据库中语音样本的CQSD 特征的初始种群和初始参数，所述初始参数包括种群最大迭代数T；

所述遗传编码采用二进制编码形式，用一个长度为N的二进制字符串(x₁,x₂,...,x_N)来表示一个CQSD特征个体，其中x_g∈{0,1}；这个CQSD 特征个体对应着N维特征向量，x_g＝1表示第g维特征被包含在特征子集中，x_g＝0表示第g维特征不被包含在特征子集中；

S302、计算所述初始种群中各个语音样本的CQSD特征个体的适应度值；

S303、对种群进行基因操作，得到交叉变异种群；

S304、计算所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值；

S305、基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群；

S306、检测是否达到最大迭代数T，若是，则执行步骤S307；否则，返回步骤S303；

S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出，并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置。

优选的，所述初始参数还包括：种群大小M、交叉概率P_c和变异概率P_m。

优选的，所述计算所述初始种群中各个语音样本的CQSD特征个体的适应度值包括：

适应度函数用于计算第k代种群中每个个体的适应度值，对于每个个体，在基本语音数据库中训练集中提取所有音频的特征子集作为eGA-CQSD特征，用于训练SVM分类模型；

提取基本语音数据库中测试集中每条音频的特征子集作为eGA-CQSD特征，将基本语音数据库中测试集中每条音频的eGA-CQSD特征放入到训练好的SVM分类模型中进行测试，将测试准确性用作个体的适应度值，其中，测试准确性定义为正确分类的样本数与样本总数之比。

优选的，所述对种群进行基因操作，得到交叉变异种群，包括：

S3031、使用轮盘赌方法从父代种群

中选择子代种群

每个CQSD特征个体

被选中的概率由以下公式计算得到；

S3032、从子代种群

中以交叉概率P_c随机地选取两个个体P₁和P₂，然后执行重组操作以形成两个新的交叉CQSD特征个体；

S3033、在(0,1)之间产生一个随机数ξ，如果ξ小于预先定义的变异概率P_m，然后从随机选择的个体中随机选择一个所述交叉CQSD 特征个体中的某一位进行翻转，获得变异CQSD特征个体，重复这一步骤，形成一个交叉变异种群

优选的，所述基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取eGA-CQSD特征，包括：

S3051、将第k代种群中的CQSD特征个体

和第k代种群中变异CQSD特征个体

放到一起，形成一个大小为2M 的临时种群

S3052、计算临时种群的适应度值，根据适应度值

对临时种群进行排序以获得一个有序的种群I¹,I²,...,I^2M其中，f(I¹)≥f(I²)≥...≥f(I^2M)；

S3053、从有序的种群I¹,I²,...,I^2M挑选前M个个体I¹,I²,...,I^M作为第 k代输出种群，即为k+1代种群。

本发明还提供一种语音复制粘贴篡改检测系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

S1、获取基本语音数据库和受攻击的语音数据库；

S5、基于所述基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型，得到语音检测模型；

S301基于遗传编码生成所述基本语音数据库中语音样本的CQSD 特征的初始种群和初始参数，所述初始参数包括种最大迭代数T；

S303、对种群进行基因操作，得到交叉变异种群；

(三)有益效果

本发明提供了一种语音复制粘贴篡改检测方法和系统。与现有技术相比，具备以下有益效果：

本发明通过获取基本语音数据库和受攻击的语音数据库；获取基本语音数据库和受攻击的语音数据库中语音样本的CQSD特征；基于带有精英选择策略的遗传算法获取基本语音数据库中语音样本的 CQSD特征的eGA-CQSD特征，并记录eGA-CQSD特征中每一维特征在CQSD特征中的位置；基于eGA-CQSD特征中每一维特征在CQSD 特征中的位置，提取受攻击的语音数据库中语音样本的eGA-CQSD特征；基于基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型，得到语音检测模型；基于语音检测模型检测受攻击的语音数据库的eGA-CQSD特征，得到检测结果。本发明通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA-CQSD特征，除去 CQSD特征中干扰信息，从而达到语音信息在遭受到不同形式的常见攻击时，检测结果的的准确率受到的影响较小，即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种语音复制粘贴篡改检测方法的框图；

图2为本发明实施例中用一个长度为N的二进制字符串来表示一个CQSD特征个体的示意图；

图3为本发明实施例中交叉操作过程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种语音复制粘贴篡改检测方法，解决了现有的语音复制粘贴篡改检测方法在遭受攻击时准确度较低的技术问题，实现提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA-CQSD特征，除去CQSD特征中干扰信息，从而达到语音信息在遭受到不同形式的常见攻击时，检测结果的的准确率受到的影响较小，即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种语音复制粘贴篡改检测方法，上述方法由计算机执行，如图1所示，该方法包括步骤S1～S5：

S1、获取基本语音数据库和受攻击的语音数据库；

S2、获取基本语音数据库和受攻击的语音数据库中语音样本的 CQSD特征；

S3、基于带有精英选择策略的遗传算法获取基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征，并记录eGA-CQSD特征中每一维特征在CQSD特征中的位置；

S4、基于eGA-CQSD特征中每一维特征在CQSD特征中的位置，提取受攻击的语音数据库中语音样本的eGA-CQSD特征；

S5、基于基本语音数据库中语音样本的eGA-CQSD特征训练SVM 分类模型，得到语音检测模型；

S6、基于语音检测模型检测受攻击的语音数据库的eGA-CQSD特征，得到检测结果。

下面对各个步骤进行详细描述。

在步骤S1中，获取基本语音数据库和受攻击的语音数据库。具体为：

在本发明实施例中，使用自制的语音数据库来研究音频的复制粘贴篡改。使用的音频文件包括四个人录制的十段音频，这些音频都是在安静环境下通过高保真的录音器录制而来。每段音频样本的长度不少于50分钟。其中五段音频被分割为10s长的片段，首先从这些10s 的片段中选择1000个音频片段，然后使用音频编辑软件Cool EditPro 制作复制粘贴篡改音频，复制片段的长度大约0.2s到0.4s，最后，选择其中的500条作为基本语音数据库中训练集的一部分，其余的500 条作为基本语音数据库中测试集的一部分。然后将剩下的5段50分钟长的音频也分割成10s长的片段，选择其中的500条放入上述基本语音数据库中训练集上，其余500条放入上述基本语音数据库中测试集。经过上述过程，最终形成所需的基本语音数据库。为了研究该方法在不同攻击条件下的鲁棒性，需要在基本语音数据库中测试集中添加不同类型的攻击。因此，对基本语音数据库中测试集进行四种常见的攻击，例如分别添加SNR＝10db和20db的白噪声、重采样、低通滤波、和MP3压缩。最后获得的受攻击的语音数据库，即在基本语音数据库中测试集添加攻击，形成受攻击的语音数据库。将基本语音数据库和受攻击的语音数据库输入到计算机中。

在步骤S2中，获取基本语音数据库中语音样本的CQSD特征和受攻击的语音数据库的CQSD特征，具体为：

对于基本语音数据库和受攻击的语音数据库中每一条语音样本分别提取399维的CQSD特征。

CQSD特征的提取过程如下所示。假设语音样本的时域信号为 x(n)。首先，让信号通过一个高滤滤波器H(z)进行预加重以使信号频谱平坦，如公式(1)所示，其中μ为系数，并将其设置为0.97。在进行预加重以后音频信号由x(n)变为X(n)。然后计算音频X(n)通过CQT域变换后的信号X^CQT(k)如公式(2)所示，其中k为频域段的序号，f_s是采样率，f_k是频段k的中心频率，W_Nk(n)是窗函数。能量频谱由公式(3) 进行计算。最后，如公式(4)所示，经过对数操作和均值操作得到所需的CQSD特征，其中T_k代表信号第k个频段总帧数。

H(z)＝1-μz^-1 (1)

在步骤S3中，基于带有精英选择策略的遗传算法获取基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征，并记录eGA-CQSD 特征中每一维特征在CQSD特征中的位置。在本发明实施中CQSD特征的维数太大(399维)包含太多干扰检测的冗余信息，使用机器学习中的一种特征选择方法—带有精英选择策略的遗传算法eGA来进行特征选择得到所需的比较干净的eGA-CQSD特征。相比较于CQSD特征和基于傅里叶变换域提取的特征，eGA-CQSD特征在遭受到不同形式的常见攻击时具有更强的鉴别音频是否经过复制粘贴篡改能力。具体实施过程如下：

S301、基于遗传编码生成基本语音数据库中语音样本的CQSD特征的初始种群和初始参数，初始参数包括种种群大小M、最大迭代数 T、交叉概率P_c和变异概率P_m。

遗传编码采用二进制编码形式，如图2所示，用一个长度为N的二进制字符串(x₁,x₂,...,x_N)来表示一个CQSD特征个体，其中x_g∈{0,1}。这个CQSD特征个体对应着N维特征向量，x_g＝1意味着第g维特征被包含在特征子集中，x_g＝0意味着第g维特征不被包含在特征子集中。

S302、计算初始种群中各个语音样本的CQSD特征个体的适应度值；

计算第k代种群中每个个体的适应度值，(第k代种群指的是初始种群进化k代以后的种群，其中k＝1,2,3，…，T，T指的是最大迭代次数。初始种群是随机产生的，后面的种群都是一代一代进化而来的) 对于每个个体，首先在基本语音数据库的训练集中提取所有音频的特征子集作为eGA-CQSD特征，用于训练SVM分类模型，然后提取基本语音数据库的测试集中每条音频的特征子集作为eGA-CQSD特征，将其放入到训练好的SVM分类模型中进行测试，最后，将其测试准确性用作该个体的适应度值。其中，测试准确性定义为正确分类的样本数与样本总数之比。

S303、对种群进行基因操作，得到交叉变异种群。具体为：

S3031、选择操作：使用轮盘赌方法从父代种群

中选择子代种群

每个CQSD特征个体Ii_k被选中的概率由以下公式计算得到。根据轮盘赌方法，概率值越大，每个个体被选中的可能性也就越大。

S3032、交叉操作：从子代种群

中以交叉概率P_c随机地选取两个个体P₁和P₂，然后执行重组操作以形成两个新的交叉CQSD 特征个体，交叉操作过程如图3所示。

S3033、变异操作：在(0,1)之间产生一个随机数ξ，如果ξ小于预先定义的变异概率P_m，然后从随机选择的个体中随机选择一个交叉 CQSD特征个体中的某一位进行翻转，这时候每个个体的编码形式都是一串0,1组成的二进制串，翻转是对这个二进制串中的某一位由0 变成1，或由1变成0，获得变异CQSD特征个体，重复这一步骤，形成一个交叉变异种群

S304、计算交叉变异种群中各个语音样本的CQSD特征个体的适应度值。

S305、基于交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群。具体为：

S3051、将第k代种群中的CQSD特征个体

和第k代种群中变异CQSD特征个体

放到一起，形成一个大小为2M 的临时种群

S3052、计算临时种群的适应度值，根据适应度值

S3053、从有序的种群I¹,I²,...,I^2M挑选前M个个体I¹,I²,...,I^M作为第 k代的输出种群，即作为k+1代种群继续进行迭代，当达到最大迭代T 时的种群中适应度值最大的个体，对应的特征子集才是最终的 eGA-CQSD特征；

S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出，即假设个体对应的适应度值为 f(I¹)≥f(I²)≥...≥f(I^2M)，则表示I¹对应的适应度值最大，I¹为二进制字符串序列，将序列中x_g＝1的对应的特征都提取出来，组成的特征即为eGA-CQSD特征。并记录所述eGA-CQSD特征中每一维特征在所述 CQSD特征中的位置，即记录x_g＝1的位置。

在步骤S4中，基于eGA-CQSD特征中每一维特征在CQSD特征中的位置，提取受攻击的语音数据库中语音样本的eGA-CQSD特征。

具体为：

根据基于语音数据库中语音样本的eGA-CQSD特征中每一维特征在CQSD特征中的位置，按照相同的位置，从受攻击的语音数据库中语音样本中的CQSD特征中提取受攻击的语音数据库中语音样本的 eGA-CQSD特征。

在步骤S5中，基于基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型，得到语音检测模型。具体为：

通过基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型，得到语音检测模型。在本发明实施例中，SVM分类模型使用 RBF内核，并且通过网格搜索加交叉验证的方式确定与RBF核函数相对应的超参数gamma和惩罚因子C的值。

在步骤S6中，基于语音检测模型检测受攻击的语音数据库的 eGA-CQSD特征，得到检测结果。具体为：

将受攻击的语音数据库的语音样本的eGA-CQSD特征输入到语音检测模型中，通过语音检测模型鉴别受攻击的语音数据库中的每个语音样本是否经过复制粘贴篡改。

为了验证本发明实施例提供的方法的有效性，下面使用以下四种常见的评价标准去评价所提出方法的性能：Accuracy，Precision，Recall 以及F1-score，其中TP是正阳性，FP为假阳性TN为正阴性，FN为假阴性。总的来说，这四个评价标准的值越高，性能就越好。除此之外，在实际应用中，时间也是一个重要的评价标准。

实验结果：

eGA将特征维数分别减少到总体维数的0.75(eGA-CQSD特征 (299))、0.5(eGA-CQSD特征(199))、0.4(eGA-CQSD特征(159))和 0.25(eGA-CQSD特征(100))。表1展示了当进行特征选择时所进行30 次实验结果的均值和标准差。从表1中可以看出，本发明实施例提出的方法具有较高的平均检测值，并且检测结果相对稳定。30次实验中最优个体对应特征子集的检测结果如表2所示，从表2我们可以发现， eGA-CQSD特征(299)、eGA-CQSD特征(199)、eGA-CQSD特征(159) 和eGA-CQSD特征(100)的Accuracy、Precision、F1-score值均高于 CQSD特征，但是，由于当把特征维数减少到100和159维时，保留的有用信息过少，导致Recall的值低于未降维时的结果。表3显示了当使用eGA进行特征选择时，30次实验中最优个体训练SVM分类模型所花费的时间。从表2和表3中我们可以发现，当使用eGA进行特征选择时，虽然有些检测结果的值低于未降维时的结果，但是训练SVM 分类模型的时间也减少了。总的来说，本发明实施例所提出的方法是有效的。

表1 30次实验的检测结果(均值和标准差)

表2 30次实验中最优个体的检测结果

表330次实验中最优个体训练SVM分类模型所花费时间

在实际应用中，经常使用信号处理(例如添加高斯白噪声，重采样，低通滤波和Mp3压缩)来检测所提出方法的鲁棒性。表4简单描述了这四种常见的攻击。

表4常见攻击的简单描述

当把特征维数分别减少到100、159、199、299时30次实验中最优个体在不同攻击环境下的检测结果如表5所示。从表5中可以看到，使用eGA进行选择特征后获得的检测结果几乎都高于CQSD，但是在 GN-10dB攻击下，eGA-CQSD特征(100)的检测结果都低于CQSD 特征。那是因为GN-10dB属于一种强攻击，在这种攻击环境下需要使用更多有用的信息来检测篡改。但是，当把特征维数降到100维时，很多有用的信息都丢失了，导致检测结果的下降。总的来说，实验结果表明，本发明实施例所提出的方法具有很强的鲁棒性。

表5在不同攻击环境下30次实验中最优个体的检测结果

本发明实施例还提供一种语音复制粘贴篡改检测系统，上述系统包括计算机，上述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，上述至少一个存储单元中存储有至少一条指令，上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤：

S1、获取基本语音数据库和受攻击的语音数据库；

可理解的是，本发明实施例提供的上述语音复制粘贴篡改检测系统与上述语音复制粘贴篡改检测方法相对应，其有关内容的解释、举例、有益效果等部分可以参考语音复制粘贴篡改检测方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。