CN111402921B - 语音复制粘贴篡改检测方法和系统 - Google Patents

语音复制粘贴篡改检测方法和系统 Download PDF

Info

Publication number
CN111402921B
CN111402921B CN202010173725.6A CN202010173725A CN111402921B CN 111402921 B CN111402921 B CN 111402921B CN 202010173725 A CN202010173725 A CN 202010173725A CN 111402921 B CN111402921 B CN 111402921B
Authority
CN
China
Prior art keywords
cqsd
voice
population
feature
ega
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010173725.6A
Other languages
English (en)
Other versions
CN111402921A (zh
Inventor
苏兆品
武钦芳
张国富
岳峰
沈宇锋
沈朝勇
肖锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010173725.6A priority Critical patent/CN111402921B/zh
Publication of CN111402921A publication Critical patent/CN111402921A/zh
Application granted granted Critical
Publication of CN111402921B publication Critical patent/CN111402921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/39Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using genetic algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供一种语音复制粘贴篡改检测方法和系统,涉及语音信息处理技术领域。本发明通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA‑CQSD特征,除去CQSD特征中干扰信息,从而达到语音信息在遭受到不同形式的常见攻击时,检测结果的的准确率受到的影响较小,即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。

Description

语音复制粘贴篡改检测方法和系统
技术领域
本发明涉及语音信息处理技术领域,具体涉及一种语音复制粘贴篡改检测方法和系统。
背景技术
随着多媒体传输设备的普及,语音信号在不同领域得到的广泛传播和应用。使用语音信号的便捷性和娱乐性给人们的生活带来诸多乐趣,同时也存在很大的安全隐患。一些不法分子对语音信号进行复制粘贴篡改,破坏原始语音信号的真实性和完整性,导致说话人的原意被歪曲,细节被掩盖,甚至伪造出一段语音,以此来获取利益。因此,检测语音是否被复制粘贴篡改成为信息安全领域研究者的重要对象。
现有的检测语音是否被复制粘贴篡改的方法主要为基于傅里叶变换域中提取的语音信息的各种特征检测语音信息是否被复制粘贴篡改。
然而,本申请的发明人发现,现有的检测方法虽然在理想数据库中能取得不错的检测结果,但是当音频遭受了一些常见的攻击时(如添加高斯白噪声、重采样、低通滤波和MP3压缩等)其检测结果将会明显受到影响,导致检测结果的准确度较低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种语音复制粘贴篡改检测方法和系统,解决了现有的语音复制粘贴篡改检测方法在遭受攻击时准确度较低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种语音复制粘贴篡改检测方法,所述方法由计算机执行,所述方法包括:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取所述基本语音数据库和所述受攻击的语音数据库中语音样本的CQSD特征;
S3、基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD 特征中每一维特征在所述CQSD特征中的位置;
S4、基于所述eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于所述基本语音数据库中语音样本的eGA-CQSD特征训练 SVM分类模型,得到语音检测模型;
S6、基于所述语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
优选的,所述基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置,包括:
S301基于遗传编码生成所述基本语音数据库中语音样本的CQSD 特征的初始种群和初始参数,所述初始参数包括种群最大迭代数T;
所述遗传编码采用二进制编码形式,用一个长度为N的二进制字符串(x1,x2,...,xN)来表示一个CQSD特征个体,其中xg∈{0,1};这个CQSD 特征个体对应着N维特征向量,xg=1表示第g维特征被包含在特征子集中,xg=0表示第g维特征不被包含在特征子集中;
S302、计算所述初始种群中各个语音样本的CQSD特征个体的适应度值;
S303、对种群进行基因操作,得到交叉变异种群;
S304、计算所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值;
S305、基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群;
S306、检测是否达到最大迭代数T,若是,则执行步骤S307;否则,返回步骤S303;
S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置。
优选的,所述初始参数还包括:种群大小M、交叉概率Pc和变异概率Pm
优选的,所述计算所述初始种群中各个语音样本的CQSD特征个体的适应度值包括:
适应度函数用于计算第k代种群中每个个体的适应度值,对于每个个体,在基本语音数据库中训练集中提取所有音频的特征子集作为eGA-CQSD特征,用于训练SVM分类模型;
提取基本语音数据库中测试集中每条音频的特征子集作为eGA-CQSD特征,将基本语音数据库中测试集中每条音频的eGA-CQSD特征放入到训练好的SVM分类模型中进行测试,将测试准确性用作个体的适应度值,其中,测试准确性定义为正确分类的样本数与样本总数之比。
优选的,所述对种群进行基因操作,得到交叉变异种群,包括:
S3031、使用轮盘赌方法从父代种群
Figure BDA0002410108540000041
中选择子代种群
Figure BDA0002410108540000042
每个CQSD特征个体
Figure BDA0002410108540000043
被选中的概率由以下公式计算得到;
Figure BDA0002410108540000044
S3032、从子代种群
Figure BDA0002410108540000045
中以交叉概率Pc随机地选取两个个体P1和P2,然后执行重组操作以形成两个新的交叉CQSD特征个体;
S3033、在(0,1)之间产生一个随机数ξ,如果ξ小于预先定义的变异概率Pm,然后从随机选择的个体中随机选择一个所述交叉CQSD 特征个体中的某一位进行翻转,获得变异CQSD特征个体,重复这一步骤,形成一个交叉变异种群
Figure BDA0002410108540000046
优选的,所述基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取eGA-CQSD特征,包括:
S3051、将第k代种群中的CQSD特征个体
Figure BDA0002410108540000047
和第k代种群中变异CQSD特征个体
Figure BDA0002410108540000051
放到一起,形成一个大小为2M 的临时种群
Figure BDA0002410108540000052
S3052、计算临时种群的适应度值,根据适应度值
Figure BDA0002410108540000053
Figure BDA0002410108540000054
对临时种群进行排序以获得一个有序的种群I1,I2,...,I2M其中,f(I1)≥f(I2)≥...≥f(I2M);
S3053、从有序的种群I1,I2,...,I2M挑选前M个个体I1,I2,...,IM作为第 k代输出种群,即为k+1代种群。
本发明还提供一种语音复制粘贴篡改检测系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取所述基本语音数据库和所述受攻击的语音数据库中语音样本的CQSD特征;
S3、基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD 特征中每一维特征在所述CQSD特征中的位置;
S4、基于所述eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于所述基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型;
S6、基于所述语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
优选的,所述基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置,包括:
S301基于遗传编码生成所述基本语音数据库中语音样本的CQSD 特征的初始种群和初始参数,所述初始参数包括种最大迭代数T;
所述遗传编码采用二进制编码形式,用一个长度为N的二进制字符串(x1,x2,...,xN)来表示一个CQSD特征个体,其中xg∈{0,1};这个CQSD 特征个体对应着N维特征向量,xg=1表示第g维特征被包含在特征子集中,xg=0表示第g维特征不被包含在特征子集中;
S302、计算所述初始种群中各个语音样本的CQSD特征个体的适应度值;
S303、对种群进行基因操作,得到交叉变异种群;
S304、计算所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值;
S305、基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群;
S306、检测是否达到最大迭代数T,若是,则执行步骤S307;否则,返回步骤S303;
S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置。
优选的,所述初始参数还包括:种群大小M、交叉概率Pc和变异概率Pm
优选的,所述计算所述初始种群中各个语音样本的CQSD特征个体的适应度值包括:
适应度函数用于计算第k代种群中每个个体的适应度值,对于每个个体,在基本语音数据库中训练集中提取所有音频的特征子集作为eGA-CQSD特征,用于训练SVM分类模型;
提取基本语音数据库中测试集中每条音频的特征子集作为eGA-CQSD特征,将基本语音数据库中测试集中每条音频的eGA-CQSD特征放入到训练好的SVM分类模型中进行测试,将测试准确性用作个体的适应度值,其中,测试准确性定义为正确分类的样本数与样本总数之比。
(三)有益效果
本发明提供了一种语音复制粘贴篡改检测方法和系统。与现有技术相比,具备以下有益效果:
本发明通过获取基本语音数据库和受攻击的语音数据库;获取基本语音数据库和受攻击的语音数据库中语音样本的CQSD特征;基于带有精英选择策略的遗传算法获取基本语音数据库中语音样本的 CQSD特征的eGA-CQSD特征,并记录eGA-CQSD特征中每一维特征在CQSD特征中的位置;基于eGA-CQSD特征中每一维特征在CQSD 特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;基于基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型;基于语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。本发明通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA-CQSD特征,除去 CQSD特征中干扰信息,从而达到语音信息在遭受到不同形式的常见攻击时,检测结果的的准确率受到的影响较小,即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种语音复制粘贴篡改检测方法的框图;
图2为本发明实施例中用一个长度为N的二进制字符串来表示一个CQSD特征个体的示意图;
图3为本发明实施例中交叉操作过程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种语音复制粘贴篡改检测方法,解决了现有的语音复制粘贴篡改检测方法在遭受攻击时准确度较低的技术问题,实现提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA-CQSD特征,除去CQSD特征中干扰信息,从而达到语音信息在遭受到不同形式的常见攻击时,检测结果的的准确率受到的影响较小,即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种语音复制粘贴篡改检测方法,上述方法由计算机执行,如图1所示,该方法包括步骤S1~S5:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取基本语音数据库和受攻击的语音数据库中语音样本的 CQSD特征;
S3、基于带有精英选择策略的遗传算法获取基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录eGA-CQSD特征中每一维特征在CQSD特征中的位置;
S4、基于eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于基本语音数据库中语音样本的eGA-CQSD特征训练SVM 分类模型,得到语音检测模型;
S6、基于语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
本发明实施例通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA-CQSD特征,除去CQSD特征中干扰信息,从而达到语音信息在遭受到不同形式的常见攻击时,检测结果的的准确率受到的影响较小,即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。
下面对各个步骤进行详细描述。
在步骤S1中,获取基本语音数据库和受攻击的语音数据库。具体为:
在本发明实施例中,使用自制的语音数据库来研究音频的复制粘贴篡改。使用的音频文件包括四个人录制的十段音频,这些音频都是在安静环境下通过高保真的录音器录制而来。每段音频样本的长度不少于50分钟。其中五段音频被分割为10s长的片段,首先从这些10s 的片段中选择1000个音频片段,然后使用音频编辑软件Cool EditPro 制作复制粘贴篡改音频,复制片段的长度大约0.2s到0.4s,最后,选择其中的500条作为基本语音数据库中训练集的一部分,其余的500 条作为基本语音数据库中测试集的一部分。然后将剩下的5段50分钟长的音频也分割成10s长的片段,选择其中的500条放入上述基本语音数据库中训练集上,其余500条放入上述基本语音数据库中测试集。经过上述过程,最终形成所需的基本语音数据库。为了研究该方法在不同攻击条件下的鲁棒性,需要在基本语音数据库中测试集中添加不同类型的攻击。因此,对基本语音数据库中测试集进行四种常见的攻击,例如分别添加SNR=10db和20db的白噪声、重采样、低通滤波、和MP3压缩。最后获得的受攻击的语音数据库,即在基本语音数据库中测试集添加攻击,形成受攻击的语音数据库。将基本语音数据库和受攻击的语音数据库输入到计算机中。
在步骤S2中,获取基本语音数据库中语音样本的CQSD特征和受攻击的语音数据库的CQSD特征,具体为:
对于基本语音数据库和受攻击的语音数据库中每一条语音样本分别提取399维的CQSD特征。
CQSD特征的提取过程如下所示。假设语音样本的时域信号为 x(n)。首先,让信号通过一个高滤滤波器H(z)进行预加重以使信号频谱平坦,如公式(1)所示,其中μ为系数,并将其设置为0.97。在进行预加重以后音频信号由x(n)变为X(n)。然后计算音频X(n)通过CQT域变换后的信号XCQT(k)如公式(2)所示,其中k为频域段的序号,fs是采样率,fk是频段k的中心频率,WNk(n)是窗函数。能量频谱由公式(3) 进行计算。最后,如公式(4)所示,经过对数操作和均值操作得到所需的CQSD特征,其中Tk代表信号第k个频段总帧数。
H(z)=1-μz-1 (1)
Figure BDA0002410108540000111
Figure BDA0002410108540000121
Figure BDA0002410108540000122
在步骤S3中,基于带有精英选择策略的遗传算法获取基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录eGA-CQSD 特征中每一维特征在CQSD特征中的位置。在本发明实施中CQSD特征的维数太大(399维)包含太多干扰检测的冗余信息,使用机器学习中的一种特征选择方法—带有精英选择策略的遗传算法eGA来进行特征选择得到所需的比较干净的eGA-CQSD特征。相比较于CQSD特征和基于傅里叶变换域提取的特征,eGA-CQSD特征在遭受到不同形式的常见攻击时具有更强的鉴别音频是否经过复制粘贴篡改能力。具体实施过程如下:
S301、基于遗传编码生成基本语音数据库中语音样本的CQSD特征的初始种群和初始参数,初始参数包括种种群大小M、最大迭代数 T、交叉概率Pc和变异概率Pm
遗传编码采用二进制编码形式,如图2所示,用一个长度为N的二进制字符串(x1,x2,...,xN)来表示一个CQSD特征个体,其中xg∈{0,1}。这个CQSD特征个体对应着N维特征向量,xg=1意味着第g维特征被包含在特征子集中,xg=0意味着第g维特征不被包含在特征子集中。
S302、计算初始种群中各个语音样本的CQSD特征个体的适应度值;
计算第k代种群中每个个体的适应度值,(第k代种群指的是初始种群进化k代以后的种群,其中k=1,2,3,…,T,T指的是最大迭代次数。初始种群是随机产生的,后面的种群都是一代一代进化而来的) 对于每个个体,首先在基本语音数据库的训练集中提取所有音频的特征子集作为eGA-CQSD特征,用于训练SVM分类模型,然后提取基本语音数据库的测试集中每条音频的特征子集作为eGA-CQSD特征,将其放入到训练好的SVM分类模型中进行测试,最后,将其测试准确性用作该个体的适应度值。其中,测试准确性定义为正确分类的样本数与样本总数之比。
S303、对种群进行基因操作,得到交叉变异种群。具体为:
S3031、选择操作:使用轮盘赌方法从父代种群
Figure BDA0002410108540000131
中选择子代种群
Figure BDA0002410108540000132
每个CQSD特征个体Iik被选中的概率由以下公式计算得到。根据轮盘赌方法,概率值越大,每个个体被选中的可能性也就越大。
Figure BDA0002410108540000133
S3032、交叉操作:从子代种群
Figure BDA0002410108540000134
中以交叉概率Pc随机地选取两个个体P1和P2,然后执行重组操作以形成两个新的交叉CQSD 特征个体,交叉操作过程如图3所示。
S3033、变异操作:在(0,1)之间产生一个随机数ξ,如果ξ小于预先定义的变异概率Pm,然后从随机选择的个体中随机选择一个交叉 CQSD特征个体中的某一位进行翻转,这时候每个个体的编码形式都是一串0,1组成的二进制串,翻转是对这个二进制串中的某一位由0 变成1,或由1变成0,获得变异CQSD特征个体,重复这一步骤,形成一个交叉变异种群
Figure BDA0002410108540000141
S304、计算交叉变异种群中各个语音样本的CQSD特征个体的适应度值。
S305、基于交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群。具体为:
S3051、将第k代种群中的CQSD特征个体
Figure BDA0002410108540000142
和第k代种群中变异CQSD特征个体
Figure BDA0002410108540000143
放到一起,形成一个大小为2M 的临时种群
Figure BDA0002410108540000144
S3052、计算临时种群的适应度值,根据适应度值
Figure BDA0002410108540000145
Figure BDA0002410108540000146
对临时种群进行排序以获得一个有序的种群I1,I2,...,I2M其中,f(I1)≥f(I2)≥...≥f(I2M);
S3053、从有序的种群I1,I2,...,I2M挑选前M个个体I1,I2,...,IM作为第 k代的输出种群,即作为k+1代种群继续进行迭代,当达到最大迭代T 时的种群中适应度值最大的个体,对应的特征子集才是最终的 eGA-CQSD特征;
S306、检测是否达到最大迭代数T,若是,则执行步骤S307;否则,返回步骤S303;
S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出,即假设个体对应的适应度值为 f(I1)≥f(I2)≥...≥f(I2M),则表示I1对应的适应度值最大,I1为二进制字符串序列,将序列中xg=1的对应的特征都提取出来,组成的特征即为eGA-CQSD特征。并记录所述eGA-CQSD特征中每一维特征在所述 CQSD特征中的位置,即记录xg=1的位置。
在步骤S4中,基于eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征。
具体为:
根据基于语音数据库中语音样本的eGA-CQSD特征中每一维特征在CQSD特征中的位置,按照相同的位置,从受攻击的语音数据库中语音样本中的CQSD特征中提取受攻击的语音数据库中语音样本的 eGA-CQSD特征。
在步骤S5中,基于基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型。具体为:
通过基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型。在本发明实施例中,SVM分类模型使用 RBF内核,并且通过网格搜索加交叉验证的方式确定与RBF核函数相对应的超参数gamma和惩罚因子C的值。
在步骤S6中,基于语音检测模型检测受攻击的语音数据库的 eGA-CQSD特征,得到检测结果。具体为:
将受攻击的语音数据库的语音样本的eGA-CQSD特征输入到语音检测模型中,通过语音检测模型鉴别受攻击的语音数据库中的每个语音样本是否经过复制粘贴篡改。
为了验证本发明实施例提供的方法的有效性,下面使用以下四种常见的评价标准去评价所提出方法的性能:Accuracy,Precision,Recall 以及F1-score,其中TP是正阳性,FP为假阳性TN为正阴性,FN为假阴性。总的来说,这四个评价标准的值越高,性能就越好。除此之外,在实际应用中,时间也是一个重要的评价标准。
Figure BDA0002410108540000161
Figure BDA0002410108540000162
Figure BDA0002410108540000163
Figure BDA0002410108540000164
实验结果:
eGA将特征维数分别减少到总体维数的0.75(eGA-CQSD特征 (299))、0.5(eGA-CQSD特征(199))、0.4(eGA-CQSD特征(159))和 0.25(eGA-CQSD特征(100))。表1展示了当进行特征选择时所进行30 次实验结果的均值和标准差。从表1中可以看出,本发明实施例提出的方法具有较高的平均检测值,并且检测结果相对稳定。30次实验中最优个体对应特征子集的检测结果如表2所示,从表2我们可以发现, eGA-CQSD特征(299)、eGA-CQSD特征(199)、eGA-CQSD特征(159) 和eGA-CQSD特征(100)的Accuracy、Precision、F1-score值均高于 CQSD特征,但是,由于当把特征维数减少到100和159维时,保留的有用信息过少,导致Recall的值低于未降维时的结果。表3显示了当使用eGA进行特征选择时,30次实验中最优个体训练SVM分类模型所花费的时间。从表2和表3中我们可以发现,当使用eGA进行特征选择时,虽然有些检测结果的值低于未降维时的结果,但是训练SVM 分类模型的时间也减少了。总的来说,本发明实施例所提出的方法是有效的。
表1 30次实验的检测结果(均值和标准差)
Figure BDA0002410108540000171
表2 30次实验中最优个体的检测结果
Figure BDA0002410108540000172
表330次实验中最优个体训练SVM分类模型所花费时间
Figure BDA0002410108540000173
在实际应用中,经常使用信号处理(例如添加高斯白噪声,重采样,低通滤波和Mp3压缩)来检测所提出方法的鲁棒性。表4简单描述了这四种常见的攻击。
表4常见攻击的简单描述
Figure BDA0002410108540000174
Figure BDA0002410108540000181
当把特征维数分别减少到100、159、199、299时30次实验中最优个体在不同攻击环境下的检测结果如表5所示。从表5中可以看到,使用eGA进行选择特征后获得的检测结果几乎都高于CQSD,但是在 GN-10dB攻击下,eGA-CQSD特征(100)的检测结果都低于CQSD 特征。那是因为GN-10dB属于一种强攻击,在这种攻击环境下需要使用更多有用的信息来检测篡改。但是,当把特征维数降到100维时,很多有用的信息都丢失了,导致检测结果的下降。总的来说,实验结果表明,本发明实施例所提出的方法具有很强的鲁棒性。
表5在不同攻击环境下30次实验中最优个体的检测结果
Figure 1
Figure BDA0002410108540000191
本发明实施例还提供一种语音复制粘贴篡改检测系统,上述系统包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取基本语音数据库和受攻击的语音数据库中语音样本的 CQSD特征;
S3、基于带有精英选择策略的遗传算法获取基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录eGA-CQSD特征中每一维特征在CQSD特征中的位置;
S4、基于eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于基本语音数据库中语音样本的eGA-CQSD特征训练SVM 分类模型,得到语音检测模型;
S6、基于语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
可理解的是,本发明实施例提供的上述语音复制粘贴篡改检测系统与上述语音复制粘贴篡改检测方法相对应,其有关内容的解释、举例、有益效果等部分可以参考语音复制粘贴篡改检测方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA-CQSD特征,除去CQSD特征中干扰信息,从而达到语音信息在遭受到不同形式的常见攻击时,检测结果的的准确率受到的影响较小,即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种语音复制粘贴篡改检测方法,其特征在于,所述方法包括:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取所述基本语音数据库和所述受攻击的语音数据库中语音样本的CQSD特征,包括:
对于基本语音数据库和受攻击的语音数据库中每一条语音样本分别提取399维的CQSD特征;CQSD特征的提取过程包括:
假设语音样本的时域信号为x(n);
让信号x(n)通过一个高滤滤波器H(z)进行预加重以使信号频谱平坦,如公式(1)所示,其中,μ为系数,在进行预加重以后音频信号由x(n)变为X(n);
计算音频X(n)通过CQT域变换后的信号XCQT(k)如公式(2)所示,其中,k为频域段的序号,fs是采样率,fk是频段k的中心频率,WNk(n)是窗函数;
经过对数操作和均值操作得到所需的CQSD特征,如公式(4)所示,其中Tk代表信号第k个频段总帧数,其中,Yi(k)是能量频谱由公式(3)进行计算;
H(z)=1-μz-1 (1)
Figure FDA0003817068700000011
Figure FDA0003817068700000012
Figure FDA0003817068700000013
S3、基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置,包括:
S301、基于遗传编码生成所述基本语音数据库中语音样本的CQSD特征的初始种群和初始参数,所述初始参数包括种群最大迭代数T、种群大小M、交叉概率Pc和变异概率Pm
所述遗传编码采用二进制编码形式,用一个长度为N的二进制字符串(x1,x2,...,xN)来表示一个CQSD特征个体,其中xg∈{0,1};这个CQSD特征个体对应着N维特征向量,xg=1表示第g维特征被包含在特征子集中,xg=0表示第g维特征不被包含在特征子集中;
S302、计算所述初始种群中各个语音样本的CQSD特征个体的适应度值;
S303、对种群进行基因操作,得到交叉变异种群;
S304、计算所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值;
S305、基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群;
S306、检测是否达到最大迭代数T,若是,则执行步骤S307;否则,返回步骤S303;
S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置;S4、基于所述eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于所述基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型;
S6、基于所述语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
2.如权利要求1所述的语音复制粘贴篡改检测方法,其特征在于,所述初始参数还包括:交叉概率Pc和变异概率Pm
3.如权利要求2所述的语音复制粘贴篡改检测方法,其特征在于,所述计算所述初始种群中各个语音样本的CQSD特征个体的适应度值包括:
适应度函数用于计算第k代种群中每个个体的适应度值,对于每个个体,在基本语音数据库中训练集中提取所有音频的特征子集作为eGA-CQSD特征,用于训练SVM分类模型;
提取基本语音数据库中测试集中每条音频的特征子集作为eGA-CQSD特征,将基本语音数据库中测试集中每条音频的eGA-CQSD特征放入到训练好的SVM分类模型中进行测试,将测试准确性用作个体的适应度值,其中,测试准确性定义为正确分类的样本数与样本总数之比。
4.如权利要求3所述的语音复制粘贴篡改检测方法,其特征在于,所述对种群进行基因操作,得到交叉变异种群,包括:
S3031、使用轮盘赌方法从父代种群
Figure FDA0003817068700000031
中选择子代种群
Figure FDA0003817068700000041
每个CQSD特征个体
Figure FDA0003817068700000042
被选中的概率由以下公式计算得到;
Figure FDA0003817068700000043
S3032、从子代种群
Figure FDA0003817068700000044
中以交叉概率Pc随机地选取两个个体P1和P2,然后执行重组操作以形成两个新的交叉CQSD特征个体;
S3033、在(0,1)之间产生一个随机数ξ,如果ξ小于预先定义的变异概率Pm,然后从随机选择的个体中随机选择一个所述交叉CQSD特征个体中的某一位进行翻转,获得变异CQSD特征个体,重复这一步骤,形成一个交叉变异种群
Figure FDA0003817068700000045
5.如权利要求4所述的语音复制粘贴篡改检测方法,其特征在于,所述基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取eGA-CQSD特征,包括:
S3051、将第k代种群中的CQSD特征个体
Figure FDA0003817068700000046
和第k代种群中变异CQSD特征个体
Figure FDA0003817068700000047
放到一起,形成一个大小为2M的临时种群
Figure FDA0003817068700000048
S3052、计算临时种群的适应度值,根据适应度值
Figure FDA0003817068700000049
Figure FDA00038170687000000410
对临时种群进行排序以获得一个有序的种群I1,I2,...,I2M其中,f(I1)≥f(I2)≥...≥f(I2M);
S3053、从有序的种群I1,I2,...,I2M挑选前M个个体I1,I2,...,IM作为第k代输出种群,即为k+1代种群。
6.一种语音复制粘贴篡改检测系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取所述基本语音数据库和所述受攻击的语音数据库中语音样本的CQSD特征,包括:
对于基本语音数据库和受攻击的语音数据库中每一条语音样本分别提取399维的CQSD特征;CQSD特征的提取过程包括:
假设语音样本的时域信号为x(n);
让信号x(n)通过一个高滤滤波器H(z)进行预加重以使信号频谱平坦,如公式(1)所示,其中,μ为系数,在进行预加重以后音频信号由x(n)变为X(n);
计算音频X(n)通过CQT域变换后的信号XCQT(k)如公式(2)所示,其中,k为频域段的序号,fs是采样率,fk是频段k的中心频率,WNk(n)是窗函数;
经过对数操作和均值操作得到所需的CQSD特征,如公式(4)所示,其中Tk代表信号第k个频段总帧数,其中,Yi(k)是能量频谱由公式(3)进行计算;
H(z)=1-μz-1 (1)
Figure FDA0003817068700000051
Figure FDA0003817068700000052
Figure FDA0003817068700000061
S3、基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置,包括:
S301、基于遗传编码生成所述基本语音数据库中语音样本的CQSD特征的初始种群和初始参数,所述初始参数包括种群最大迭代数T、种群大小M、交叉概率Pc和变异概率Pm
所述遗传编码采用二进制编码形式,用一个长度为N的二进制字符串(x1,x2,...,xN)来表示一个CQSD特征个体,其中xg∈{0,1};这个CQSD特征个体对应着N维特征向量,xg=1表示第g维特征被包含在特征子集中,xg=0表示第g维特征不被包含在特征子集中;
S302、计算所述初始种群中各个语音样本的CQSD特征个体的适应度值;
S303、对种群进行基因操作,得到交叉变异种群;
S304、计算所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值;
S305、基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群;
S306、检测是否达到最大迭代数T,若是,则执行步骤S307;否则,返回步骤S303;
S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置;
S4、基于所述eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于所述基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型;
S6、基于所述语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
7.如权利要求6所述的语音复制粘贴篡改检测系统,其特征在于,所述初始参数还包括:交叉概率Pc和变异概率Pm
8.如权利要求7所述的语音复制粘贴篡改检测系统,其特征在于,所述计算所述初始种群中各个语音样本的CQSD特征个体的适应度值包括:
适应度函数用于计算第k代种群中每个个体的适应度值,对于每个个体,在基本语音数据库中训练集中提取所有音频的特征子集作为eGA-CQSD特征,用于训练SVM分类模型;
提取基本语音数据库中测试集中每条音频的特征子集作为eGA-CQSD特征,将基本语音数据库中测试集中每条音频的eGA-CQSD特征放入到训练好的SVM分类模型中进行测试,将测试准确性用作个体的适应度值,其中,测试准确性定义为正确分类的样本数与样本总数之比。
CN202010173725.6A 2020-03-13 2020-03-13 语音复制粘贴篡改检测方法和系统 Active CN111402921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010173725.6A CN111402921B (zh) 2020-03-13 2020-03-13 语音复制粘贴篡改检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010173725.6A CN111402921B (zh) 2020-03-13 2020-03-13 语音复制粘贴篡改检测方法和系统

Publications (2)

Publication Number Publication Date
CN111402921A CN111402921A (zh) 2020-07-10
CN111402921B true CN111402921B (zh) 2023-01-24

Family

ID=71414062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010173725.6A Active CN111402921B (zh) 2020-03-13 2020-03-13 语音复制粘贴篡改检测方法和系统

Country Status (1)

Country Link
CN (1) CN111402921B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863023B (zh) * 2020-09-22 2021-01-08 深圳市声扬科技有限公司 语音检测方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719660A (zh) * 2016-01-21 2016-06-29 宁波大学 一种基于量化特性的语音篡改定位检测方法
CN108766464A (zh) * 2018-06-06 2018-11-06 华中师范大学 基于电网频率波动超矢量的数字音频篡改自动检测方法
CN109284717A (zh) * 2018-09-25 2019-01-29 华中师范大学 一种面向数字音频复制粘贴篡改操作的检测方法及系统
CN110767216A (zh) * 2019-09-10 2020-02-07 浙江工业大学 一种基于pso算法的语音识别攻击防御方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235509B2 (en) * 2013-08-22 2019-03-19 Staton Techiya, Llc Methods and systems for a voice ID verification database and service in social networking and commercial business transactions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719660A (zh) * 2016-01-21 2016-06-29 宁波大学 一种基于量化特性的语音篡改定位检测方法
CN108766464A (zh) * 2018-06-06 2018-11-06 华中师范大学 基于电网频率波动超矢量的数字音频篡改自动检测方法
CN109284717A (zh) * 2018-09-25 2019-01-29 华中师范大学 一种面向数字音频复制粘贴篡改操作的检测方法及系统
CN110767216A (zh) * 2019-09-10 2020-02-07 浙江工业大学 一种基于pso算法的语音识别攻击防御方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
End-To-End Audio Replay Attack Detection Using Deep Convolutional Networks with Attention;F.Tom,M.Jain,P.Dey.;《In Proceedings of Interspeech》;20181231;全文 *
ResNet and Model Fusion for Automatic Spoofing Detection;Z.Chen,Z.Xie,W.Zhang,X.Xu.;《In Proceedings of Interspeech》;20171231;全文 *
声音伪造与防伪检测技术研究;鲍薇等;《信息技术与标准化》;20200310;全文 *
复制粘贴音频信号的篡改检测技术研究;何朝霞等;《中国测试》;20160731(第07期);全文 *

Also Published As

Publication number Publication date
CN111402921A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
Wu et al. Light convolutional neural network with feature genuinization for detection of synthetic speech attacks
Lei et al. Robust SVD-based audio watermarking scheme with differential evolution optimization
Liu et al. Derivative-based audio steganalysis
Rajaratnam et al. Noise flooding for detecting audio adversarial examples against automatic speech recognition
Charfeddine et al. A new DCT audio watermarking scheme based on preliminary MP3 study
Ghasemzadeh et al. Audio steganalysis based on reversed psychoacoustic model of human hearing
Luo et al. Improved audio steganalytic feature and its applications in audio forensics
CN108831443A (zh) 一种基于堆叠自编码网络的移动录音设备源识别方法
CN112039903A (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
Ghasemzadeh et al. Universal audio steganalysis based on calibration and reversed frequency resolution of human auditory system
Li et al. Homologous audio copy-move tampering detection method based on pitch
Pourhashemi et al. A novel audio watermarking scheme using ensemble-based watermark detector and discrete wavelet transform
CN111402921B (zh) 语音复制粘贴篡改检测方法和系统
Liu et al. Novel stream mining for audio steganalysis
CN105070299A (zh) 一种基于模式识别Hi-Fi音质检测方法
Chen et al. Robust speech hash function
Li et al. Anti-forensics of audio source identification using generative adversarial network
Su et al. Robust audio copy-move forgery detection using constant Q spectral Sketches and GA-SVM
Liang et al. Image resampling detection based on convolutional neural network
CN113436646B (zh) 一种采用联合特征与随机森林的伪装语音检测方法
Zhang et al. Aslnet: An encoder-decoder architecture for audio splicing detection and localization
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
Qiuyu et al. An efficient speech perceptual hashing authentication algorithm based on DWT and symmetric ternary string
Frick et al. Detecting double compression and splicing using benfords first digit law
Liu et al. DCT based multiple hashing technique for robust audio fingerprinting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant