CN111402921B - 语音复制粘贴篡改检测方法和系统 - Google Patents
语音复制粘贴篡改检测方法和系统 Download PDFInfo
- Publication number
- CN111402921B CN111402921B CN202010173725.6A CN202010173725A CN111402921B CN 111402921 B CN111402921 B CN 111402921B CN 202010173725 A CN202010173725 A CN 202010173725A CN 111402921 B CN111402921 B CN 111402921B
- Authority
- CN
- China
- Prior art keywords
- cqsd
- voice
- population
- feature
- ega
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 74
- 230000002068 genetic effect Effects 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims description 39
- 238000012360 testing method Methods 0.000 claims description 33
- 238000013145 classification model Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 22
- 230000035772 mutation Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 108090000623 proteins and genes Proteins 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000006798 recombination Effects 0.000 claims description 2
- 238000005215 recombination Methods 0.000 claims description 2
- 230000007306 turnover Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 2
- 239000000284 extract Substances 0.000 abstract description 5
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000012952 Resampling Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/39—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using genetic algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Storage Device Security (AREA)
Abstract
本发明提供一种语音复制粘贴篡改检测方法和系统,涉及语音信息处理技术领域。本发明通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA‑CQSD特征,除去CQSD特征中干扰信息,从而达到语音信息在遭受到不同形式的常见攻击时,检测结果的的准确率受到的影响较小,即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。
Description
技术领域
本发明涉及语音信息处理技术领域,具体涉及一种语音复制粘贴篡改检测方法和系统。
背景技术
随着多媒体传输设备的普及,语音信号在不同领域得到的广泛传播和应用。使用语音信号的便捷性和娱乐性给人们的生活带来诸多乐趣,同时也存在很大的安全隐患。一些不法分子对语音信号进行复制粘贴篡改,破坏原始语音信号的真实性和完整性,导致说话人的原意被歪曲,细节被掩盖,甚至伪造出一段语音,以此来获取利益。因此,检测语音是否被复制粘贴篡改成为信息安全领域研究者的重要对象。
现有的检测语音是否被复制粘贴篡改的方法主要为基于傅里叶变换域中提取的语音信息的各种特征检测语音信息是否被复制粘贴篡改。
然而,本申请的发明人发现,现有的检测方法虽然在理想数据库中能取得不错的检测结果,但是当音频遭受了一些常见的攻击时(如添加高斯白噪声、重采样、低通滤波和MP3压缩等)其检测结果将会明显受到影响,导致检测结果的准确度较低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种语音复制粘贴篡改检测方法和系统,解决了现有的语音复制粘贴篡改检测方法在遭受攻击时准确度较低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种语音复制粘贴篡改检测方法,所述方法由计算机执行,所述方法包括:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取所述基本语音数据库和所述受攻击的语音数据库中语音样本的CQSD特征;
S3、基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD 特征中每一维特征在所述CQSD特征中的位置;
S4、基于所述eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于所述基本语音数据库中语音样本的eGA-CQSD特征训练 SVM分类模型,得到语音检测模型;
S6、基于所述语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
优选的,所述基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置,包括:
S301基于遗传编码生成所述基本语音数据库中语音样本的CQSD 特征的初始种群和初始参数,所述初始参数包括种群最大迭代数T;
所述遗传编码采用二进制编码形式,用一个长度为N的二进制字符串(x1,x2,...,xN)来表示一个CQSD特征个体,其中xg∈{0,1};这个CQSD 特征个体对应着N维特征向量,xg=1表示第g维特征被包含在特征子集中,xg=0表示第g维特征不被包含在特征子集中;
S302、计算所述初始种群中各个语音样本的CQSD特征个体的适应度值;
S303、对种群进行基因操作,得到交叉变异种群;
S304、计算所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值;
S305、基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群;
S306、检测是否达到最大迭代数T,若是,则执行步骤S307;否则,返回步骤S303;
S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置。
优选的,所述初始参数还包括:种群大小M、交叉概率Pc和变异概率Pm。
优选的,所述计算所述初始种群中各个语音样本的CQSD特征个体的适应度值包括:
适应度函数用于计算第k代种群中每个个体的适应度值,对于每个个体,在基本语音数据库中训练集中提取所有音频的特征子集作为eGA-CQSD特征,用于训练SVM分类模型;
提取基本语音数据库中测试集中每条音频的特征子集作为eGA-CQSD特征,将基本语音数据库中测试集中每条音频的eGA-CQSD特征放入到训练好的SVM分类模型中进行测试,将测试准确性用作个体的适应度值,其中,测试准确性定义为正确分类的样本数与样本总数之比。
优选的,所述对种群进行基因操作,得到交叉变异种群,包括:
S3033、在(0,1)之间产生一个随机数ξ,如果ξ小于预先定义的变异概率Pm,然后从随机选择的个体中随机选择一个所述交叉CQSD 特征个体中的某一位进行翻转,获得变异CQSD特征个体,重复这一步骤,形成一个交叉变异种群
优选的,所述基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取eGA-CQSD特征,包括:
S3053、从有序的种群I1,I2,...,I2M挑选前M个个体I1,I2,...,IM作为第 k代输出种群,即为k+1代种群。
本发明还提供一种语音复制粘贴篡改检测系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取所述基本语音数据库和所述受攻击的语音数据库中语音样本的CQSD特征;
S3、基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD 特征中每一维特征在所述CQSD特征中的位置;
S4、基于所述eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于所述基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型;
S6、基于所述语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
优选的,所述基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置,包括:
S301基于遗传编码生成所述基本语音数据库中语音样本的CQSD 特征的初始种群和初始参数,所述初始参数包括种最大迭代数T;
所述遗传编码采用二进制编码形式,用一个长度为N的二进制字符串(x1,x2,...,xN)来表示一个CQSD特征个体,其中xg∈{0,1};这个CQSD 特征个体对应着N维特征向量,xg=1表示第g维特征被包含在特征子集中,xg=0表示第g维特征不被包含在特征子集中;
S302、计算所述初始种群中各个语音样本的CQSD特征个体的适应度值;
S303、对种群进行基因操作,得到交叉变异种群;
S304、计算所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值;
S305、基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群;
S306、检测是否达到最大迭代数T,若是,则执行步骤S307;否则,返回步骤S303;
S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置。
优选的,所述初始参数还包括:种群大小M、交叉概率Pc和变异概率Pm。
优选的,所述计算所述初始种群中各个语音样本的CQSD特征个体的适应度值包括:
适应度函数用于计算第k代种群中每个个体的适应度值,对于每个个体,在基本语音数据库中训练集中提取所有音频的特征子集作为eGA-CQSD特征,用于训练SVM分类模型;
提取基本语音数据库中测试集中每条音频的特征子集作为eGA-CQSD特征,将基本语音数据库中测试集中每条音频的eGA-CQSD特征放入到训练好的SVM分类模型中进行测试,将测试准确性用作个体的适应度值,其中,测试准确性定义为正确分类的样本数与样本总数之比。
(三)有益效果
本发明提供了一种语音复制粘贴篡改检测方法和系统。与现有技术相比,具备以下有益效果:
本发明通过获取基本语音数据库和受攻击的语音数据库;获取基本语音数据库和受攻击的语音数据库中语音样本的CQSD特征;基于带有精英选择策略的遗传算法获取基本语音数据库中语音样本的 CQSD特征的eGA-CQSD特征,并记录eGA-CQSD特征中每一维特征在CQSD特征中的位置;基于eGA-CQSD特征中每一维特征在CQSD 特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;基于基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型;基于语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。本发明通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA-CQSD特征,除去 CQSD特征中干扰信息,从而达到语音信息在遭受到不同形式的常见攻击时,检测结果的的准确率受到的影响较小,即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种语音复制粘贴篡改检测方法的框图;
图2为本发明实施例中用一个长度为N的二进制字符串来表示一个CQSD特征个体的示意图;
图3为本发明实施例中交叉操作过程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种语音复制粘贴篡改检测方法,解决了现有的语音复制粘贴篡改检测方法在遭受攻击时准确度较低的技术问题,实现提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA-CQSD特征,除去CQSD特征中干扰信息,从而达到语音信息在遭受到不同形式的常见攻击时,检测结果的的准确率受到的影响较小,即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种语音复制粘贴篡改检测方法,上述方法由计算机执行,如图1所示,该方法包括步骤S1~S5:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取基本语音数据库和受攻击的语音数据库中语音样本的 CQSD特征;
S3、基于带有精英选择策略的遗传算法获取基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录eGA-CQSD特征中每一维特征在CQSD特征中的位置;
S4、基于eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于基本语音数据库中语音样本的eGA-CQSD特征训练SVM 分类模型,得到语音检测模型;
S6、基于语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
本发明实施例通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA-CQSD特征,除去CQSD特征中干扰信息,从而达到语音信息在遭受到不同形式的常见攻击时,检测结果的的准确率受到的影响较小,即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。
下面对各个步骤进行详细描述。
在步骤S1中,获取基本语音数据库和受攻击的语音数据库。具体为:
在本发明实施例中,使用自制的语音数据库来研究音频的复制粘贴篡改。使用的音频文件包括四个人录制的十段音频,这些音频都是在安静环境下通过高保真的录音器录制而来。每段音频样本的长度不少于50分钟。其中五段音频被分割为10s长的片段,首先从这些10s 的片段中选择1000个音频片段,然后使用音频编辑软件Cool EditPro 制作复制粘贴篡改音频,复制片段的长度大约0.2s到0.4s,最后,选择其中的500条作为基本语音数据库中训练集的一部分,其余的500 条作为基本语音数据库中测试集的一部分。然后将剩下的5段50分钟长的音频也分割成10s长的片段,选择其中的500条放入上述基本语音数据库中训练集上,其余500条放入上述基本语音数据库中测试集。经过上述过程,最终形成所需的基本语音数据库。为了研究该方法在不同攻击条件下的鲁棒性,需要在基本语音数据库中测试集中添加不同类型的攻击。因此,对基本语音数据库中测试集进行四种常见的攻击,例如分别添加SNR=10db和20db的白噪声、重采样、低通滤波、和MP3压缩。最后获得的受攻击的语音数据库,即在基本语音数据库中测试集添加攻击,形成受攻击的语音数据库。将基本语音数据库和受攻击的语音数据库输入到计算机中。
在步骤S2中,获取基本语音数据库中语音样本的CQSD特征和受攻击的语音数据库的CQSD特征,具体为:
对于基本语音数据库和受攻击的语音数据库中每一条语音样本分别提取399维的CQSD特征。
CQSD特征的提取过程如下所示。假设语音样本的时域信号为 x(n)。首先,让信号通过一个高滤滤波器H(z)进行预加重以使信号频谱平坦,如公式(1)所示,其中μ为系数,并将其设置为0.97。在进行预加重以后音频信号由x(n)变为X(n)。然后计算音频X(n)通过CQT域变换后的信号XCQT(k)如公式(2)所示,其中k为频域段的序号,fs是采样率,fk是频段k的中心频率,WNk(n)是窗函数。能量频谱由公式(3) 进行计算。最后,如公式(4)所示,经过对数操作和均值操作得到所需的CQSD特征,其中Tk代表信号第k个频段总帧数。
H(z)=1-μz-1 (1)
在步骤S3中,基于带有精英选择策略的遗传算法获取基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录eGA-CQSD 特征中每一维特征在CQSD特征中的位置。在本发明实施中CQSD特征的维数太大(399维)包含太多干扰检测的冗余信息,使用机器学习中的一种特征选择方法—带有精英选择策略的遗传算法eGA来进行特征选择得到所需的比较干净的eGA-CQSD特征。相比较于CQSD特征和基于傅里叶变换域提取的特征,eGA-CQSD特征在遭受到不同形式的常见攻击时具有更强的鉴别音频是否经过复制粘贴篡改能力。具体实施过程如下:
S301、基于遗传编码生成基本语音数据库中语音样本的CQSD特征的初始种群和初始参数,初始参数包括种种群大小M、最大迭代数 T、交叉概率Pc和变异概率Pm。
遗传编码采用二进制编码形式,如图2所示,用一个长度为N的二进制字符串(x1,x2,...,xN)来表示一个CQSD特征个体,其中xg∈{0,1}。这个CQSD特征个体对应着N维特征向量,xg=1意味着第g维特征被包含在特征子集中,xg=0意味着第g维特征不被包含在特征子集中。
S302、计算初始种群中各个语音样本的CQSD特征个体的适应度值;
计算第k代种群中每个个体的适应度值,(第k代种群指的是初始种群进化k代以后的种群,其中k=1,2,3,…,T,T指的是最大迭代次数。初始种群是随机产生的,后面的种群都是一代一代进化而来的) 对于每个个体,首先在基本语音数据库的训练集中提取所有音频的特征子集作为eGA-CQSD特征,用于训练SVM分类模型,然后提取基本语音数据库的测试集中每条音频的特征子集作为eGA-CQSD特征,将其放入到训练好的SVM分类模型中进行测试,最后,将其测试准确性用作该个体的适应度值。其中,测试准确性定义为正确分类的样本数与样本总数之比。
S303、对种群进行基因操作,得到交叉变异种群。具体为:
S3033、变异操作:在(0,1)之间产生一个随机数ξ,如果ξ小于预先定义的变异概率Pm,然后从随机选择的个体中随机选择一个交叉 CQSD特征个体中的某一位进行翻转,这时候每个个体的编码形式都是一串0,1组成的二进制串,翻转是对这个二进制串中的某一位由0 变成1,或由1变成0,获得变异CQSD特征个体,重复这一步骤,形成一个交叉变异种群
S304、计算交叉变异种群中各个语音样本的CQSD特征个体的适应度值。
S305、基于交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群。具体为:
S3053、从有序的种群I1,I2,...,I2M挑选前M个个体I1,I2,...,IM作为第 k代的输出种群,即作为k+1代种群继续进行迭代,当达到最大迭代T 时的种群中适应度值最大的个体,对应的特征子集才是最终的 eGA-CQSD特征;
S306、检测是否达到最大迭代数T,若是,则执行步骤S307;否则,返回步骤S303;
S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出,即假设个体对应的适应度值为 f(I1)≥f(I2)≥...≥f(I2M),则表示I1对应的适应度值最大,I1为二进制字符串序列,将序列中xg=1的对应的特征都提取出来,组成的特征即为eGA-CQSD特征。并记录所述eGA-CQSD特征中每一维特征在所述 CQSD特征中的位置,即记录xg=1的位置。
在步骤S4中,基于eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征。
具体为:
根据基于语音数据库中语音样本的eGA-CQSD特征中每一维特征在CQSD特征中的位置,按照相同的位置,从受攻击的语音数据库中语音样本中的CQSD特征中提取受攻击的语音数据库中语音样本的 eGA-CQSD特征。
在步骤S5中,基于基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型。具体为:
通过基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型。在本发明实施例中,SVM分类模型使用 RBF内核,并且通过网格搜索加交叉验证的方式确定与RBF核函数相对应的超参数gamma和惩罚因子C的值。
在步骤S6中,基于语音检测模型检测受攻击的语音数据库的 eGA-CQSD特征,得到检测结果。具体为:
将受攻击的语音数据库的语音样本的eGA-CQSD特征输入到语音检测模型中,通过语音检测模型鉴别受攻击的语音数据库中的每个语音样本是否经过复制粘贴篡改。
为了验证本发明实施例提供的方法的有效性,下面使用以下四种常见的评价标准去评价所提出方法的性能:Accuracy,Precision,Recall 以及F1-score,其中TP是正阳性,FP为假阳性TN为正阴性,FN为假阴性。总的来说,这四个评价标准的值越高,性能就越好。除此之外,在实际应用中,时间也是一个重要的评价标准。
实验结果:
eGA将特征维数分别减少到总体维数的0.75(eGA-CQSD特征 (299))、0.5(eGA-CQSD特征(199))、0.4(eGA-CQSD特征(159))和 0.25(eGA-CQSD特征(100))。表1展示了当进行特征选择时所进行30 次实验结果的均值和标准差。从表1中可以看出,本发明实施例提出的方法具有较高的平均检测值,并且检测结果相对稳定。30次实验中最优个体对应特征子集的检测结果如表2所示,从表2我们可以发现, eGA-CQSD特征(299)、eGA-CQSD特征(199)、eGA-CQSD特征(159) 和eGA-CQSD特征(100)的Accuracy、Precision、F1-score值均高于 CQSD特征,但是,由于当把特征维数减少到100和159维时,保留的有用信息过少,导致Recall的值低于未降维时的结果。表3显示了当使用eGA进行特征选择时,30次实验中最优个体训练SVM分类模型所花费的时间。从表2和表3中我们可以发现,当使用eGA进行特征选择时,虽然有些检测结果的值低于未降维时的结果,但是训练SVM 分类模型的时间也减少了。总的来说,本发明实施例所提出的方法是有效的。
表1 30次实验的检测结果(均值和标准差)
表2 30次实验中最优个体的检测结果
表330次实验中最优个体训练SVM分类模型所花费时间
在实际应用中,经常使用信号处理(例如添加高斯白噪声,重采样,低通滤波和Mp3压缩)来检测所提出方法的鲁棒性。表4简单描述了这四种常见的攻击。
表4常见攻击的简单描述
当把特征维数分别减少到100、159、199、299时30次实验中最优个体在不同攻击环境下的检测结果如表5所示。从表5中可以看到,使用eGA进行选择特征后获得的检测结果几乎都高于CQSD,但是在 GN-10dB攻击下,eGA-CQSD特征(100)的检测结果都低于CQSD 特征。那是因为GN-10dB属于一种强攻击,在这种攻击环境下需要使用更多有用的信息来检测篡改。但是,当把特征维数降到100维时,很多有用的信息都丢失了,导致检测结果的下降。总的来说,实验结果表明,本发明实施例所提出的方法具有很强的鲁棒性。
表5在不同攻击环境下30次实验中最优个体的检测结果
本发明实施例还提供一种语音复制粘贴篡改检测系统,上述系统包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取基本语音数据库和受攻击的语音数据库中语音样本的 CQSD特征;
S3、基于带有精英选择策略的遗传算法获取基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录eGA-CQSD特征中每一维特征在CQSD特征中的位置;
S4、基于eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于基本语音数据库中语音样本的eGA-CQSD特征训练SVM 分类模型,得到语音检测模型;
S6、基于语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
可理解的是,本发明实施例提供的上述语音复制粘贴篡改检测系统与上述语音复制粘贴篡改检测方法相对应,其有关内容的解释、举例、有益效果等部分可以参考语音复制粘贴篡改检测方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例通过带有精英选择策略的遗传算法提取CQSD特征中比较干净的eGA-CQSD特征,除去CQSD特征中干扰信息,从而达到语音信息在遭受到不同形式的常见攻击时,检测结果的的准确率受到的影响较小,即提高语音复制粘贴篡改检测方法在遭受攻击时的准确度。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种语音复制粘贴篡改检测方法,其特征在于,所述方法包括:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取所述基本语音数据库和所述受攻击的语音数据库中语音样本的CQSD特征,包括:
对于基本语音数据库和受攻击的语音数据库中每一条语音样本分别提取399维的CQSD特征;CQSD特征的提取过程包括:
假设语音样本的时域信号为x(n);
让信号x(n)通过一个高滤滤波器H(z)进行预加重以使信号频谱平坦,如公式(1)所示,其中,μ为系数,在进行预加重以后音频信号由x(n)变为X(n);
计算音频X(n)通过CQT域变换后的信号XCQT(k)如公式(2)所示,其中,k为频域段的序号,fs是采样率,fk是频段k的中心频率,WNk(n)是窗函数;
经过对数操作和均值操作得到所需的CQSD特征,如公式(4)所示,其中Tk代表信号第k个频段总帧数,其中,Yi(k)是能量频谱由公式(3)进行计算;
H(z)=1-μz-1 (1)
S3、基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置,包括:
S301、基于遗传编码生成所述基本语音数据库中语音样本的CQSD特征的初始种群和初始参数,所述初始参数包括种群最大迭代数T、种群大小M、交叉概率Pc和变异概率Pm;
所述遗传编码采用二进制编码形式,用一个长度为N的二进制字符串(x1,x2,...,xN)来表示一个CQSD特征个体,其中xg∈{0,1};这个CQSD特征个体对应着N维特征向量,xg=1表示第g维特征被包含在特征子集中,xg=0表示第g维特征不被包含在特征子集中;
S302、计算所述初始种群中各个语音样本的CQSD特征个体的适应度值;
S303、对种群进行基因操作,得到交叉变异种群;
S304、计算所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值;
S305、基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群;
S306、检测是否达到最大迭代数T,若是,则执行步骤S307;否则,返回步骤S303;
S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置;S4、基于所述eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于所述基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型;
S6、基于所述语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
2.如权利要求1所述的语音复制粘贴篡改检测方法,其特征在于,所述初始参数还包括:交叉概率Pc和变异概率Pm。
3.如权利要求2所述的语音复制粘贴篡改检测方法,其特征在于,所述计算所述初始种群中各个语音样本的CQSD特征个体的适应度值包括:
适应度函数用于计算第k代种群中每个个体的适应度值,对于每个个体,在基本语音数据库中训练集中提取所有音频的特征子集作为eGA-CQSD特征,用于训练SVM分类模型;
提取基本语音数据库中测试集中每条音频的特征子集作为eGA-CQSD特征,将基本语音数据库中测试集中每条音频的eGA-CQSD特征放入到训练好的SVM分类模型中进行测试,将测试准确性用作个体的适应度值,其中,测试准确性定义为正确分类的样本数与样本总数之比。
6.一种语音复制粘贴篡改检测系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取基本语音数据库和受攻击的语音数据库;
S2、获取所述基本语音数据库和所述受攻击的语音数据库中语音样本的CQSD特征,包括:
对于基本语音数据库和受攻击的语音数据库中每一条语音样本分别提取399维的CQSD特征;CQSD特征的提取过程包括:
假设语音样本的时域信号为x(n);
让信号x(n)通过一个高滤滤波器H(z)进行预加重以使信号频谱平坦,如公式(1)所示,其中,μ为系数,在进行预加重以后音频信号由x(n)变为X(n);
计算音频X(n)通过CQT域变换后的信号XCQT(k)如公式(2)所示,其中,k为频域段的序号,fs是采样率,fk是频段k的中心频率,WNk(n)是窗函数;
经过对数操作和均值操作得到所需的CQSD特征,如公式(4)所示,其中Tk代表信号第k个频段总帧数,其中,Yi(k)是能量频谱由公式(3)进行计算;
H(z)=1-μz-1 (1)
S3、基于带有精英选择策略的遗传算法获取所述基本语音数据库中语音样本的CQSD特征的eGA-CQSD特征,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置,包括:
S301、基于遗传编码生成所述基本语音数据库中语音样本的CQSD特征的初始种群和初始参数,所述初始参数包括种群最大迭代数T、种群大小M、交叉概率Pc和变异概率Pm;
所述遗传编码采用二进制编码形式,用一个长度为N的二进制字符串(x1,x2,...,xN)来表示一个CQSD特征个体,其中xg∈{0,1};这个CQSD特征个体对应着N维特征向量,xg=1表示第g维特征被包含在特征子集中,xg=0表示第g维特征不被包含在特征子集中;
S302、计算所述初始种群中各个语音样本的CQSD特征个体的适应度值;
S303、对种群进行基因操作,得到交叉变异种群;
S304、计算所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值;
S305、基于所述交叉变异种群中各个语音样本的CQSD特征个体的适应度值和精英选择策略获取第k代输出种群和k+1代种群;
S306、检测是否达到最大迭代数T,若是,则执行步骤S307;否则,返回步骤S303;
S307、将第k代输出种群中适应度值最大个体对应的特征子集作为eGA-CQSD特征输出,并记录所述eGA-CQSD特征中每一维特征在所述CQSD特征中的位置;
S4、基于所述eGA-CQSD特征中每一维特征在CQSD特征中的位置,提取受攻击的语音数据库中语音样本的eGA-CQSD特征;
S5、基于所述基本语音数据库中语音样本的eGA-CQSD特征训练SVM分类模型,得到语音检测模型;
S6、基于所述语音检测模型检测受攻击的语音数据库的eGA-CQSD特征,得到检测结果。
7.如权利要求6所述的语音复制粘贴篡改检测系统,其特征在于,所述初始参数还包括:交叉概率Pc和变异概率Pm。
8.如权利要求7所述的语音复制粘贴篡改检测系统,其特征在于,所述计算所述初始种群中各个语音样本的CQSD特征个体的适应度值包括:
适应度函数用于计算第k代种群中每个个体的适应度值,对于每个个体,在基本语音数据库中训练集中提取所有音频的特征子集作为eGA-CQSD特征,用于训练SVM分类模型;
提取基本语音数据库中测试集中每条音频的特征子集作为eGA-CQSD特征,将基本语音数据库中测试集中每条音频的eGA-CQSD特征放入到训练好的SVM分类模型中进行测试,将测试准确性用作个体的适应度值,其中,测试准确性定义为正确分类的样本数与样本总数之比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173725.6A CN111402921B (zh) | 2020-03-13 | 2020-03-13 | 语音复制粘贴篡改检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173725.6A CN111402921B (zh) | 2020-03-13 | 2020-03-13 | 语音复制粘贴篡改检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402921A CN111402921A (zh) | 2020-07-10 |
CN111402921B true CN111402921B (zh) | 2023-01-24 |
Family
ID=71414062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010173725.6A Active CN111402921B (zh) | 2020-03-13 | 2020-03-13 | 语音复制粘贴篡改检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402921B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111863023B (zh) * | 2020-09-22 | 2021-01-08 | 深圳市声扬科技有限公司 | 语音检测方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105719660A (zh) * | 2016-01-21 | 2016-06-29 | 宁波大学 | 一种基于量化特性的语音篡改定位检测方法 |
CN108766464A (zh) * | 2018-06-06 | 2018-11-06 | 华中师范大学 | 基于电网频率波动超矢量的数字音频篡改自动检测方法 |
CN109284717A (zh) * | 2018-09-25 | 2019-01-29 | 华中师范大学 | 一种面向数字音频复制粘贴篡改操作的检测方法及系统 |
CN110767216A (zh) * | 2019-09-10 | 2020-02-07 | 浙江工业大学 | 一种基于pso算法的语音识别攻击防御方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10235509B2 (en) * | 2013-08-22 | 2019-03-19 | Staton Techiya, Llc | Methods and systems for a voice ID verification database and service in social networking and commercial business transactions |
-
2020
- 2020-03-13 CN CN202010173725.6A patent/CN111402921B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105719660A (zh) * | 2016-01-21 | 2016-06-29 | 宁波大学 | 一种基于量化特性的语音篡改定位检测方法 |
CN108766464A (zh) * | 2018-06-06 | 2018-11-06 | 华中师范大学 | 基于电网频率波动超矢量的数字音频篡改自动检测方法 |
CN109284717A (zh) * | 2018-09-25 | 2019-01-29 | 华中师范大学 | 一种面向数字音频复制粘贴篡改操作的检测方法及系统 |
CN110767216A (zh) * | 2019-09-10 | 2020-02-07 | 浙江工业大学 | 一种基于pso算法的语音识别攻击防御方法 |
Non-Patent Citations (4)
Title |
---|
End-To-End Audio Replay Attack Detection Using Deep Convolutional Networks with Attention;F.Tom,M.Jain,P.Dey.;《In Proceedings of Interspeech》;20181231;全文 * |
ResNet and Model Fusion for Automatic Spoofing Detection;Z.Chen,Z.Xie,W.Zhang,X.Xu.;《In Proceedings of Interspeech》;20171231;全文 * |
声音伪造与防伪检测技术研究;鲍薇等;《信息技术与标准化》;20200310;全文 * |
复制粘贴音频信号的篡改检测技术研究;何朝霞等;《中国测试》;20160731(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111402921A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Light convolutional neural network with feature genuinization for detection of synthetic speech attacks | |
Lei et al. | Robust SVD-based audio watermarking scheme with differential evolution optimization | |
Liu et al. | Derivative-based audio steganalysis | |
Rajaratnam et al. | Noise flooding for detecting audio adversarial examples against automatic speech recognition | |
Charfeddine et al. | A new DCT audio watermarking scheme based on preliminary MP3 study | |
Ghasemzadeh et al. | Audio steganalysis based on reversed psychoacoustic model of human hearing | |
Luo et al. | Improved audio steganalytic feature and its applications in audio forensics | |
CN108831443A (zh) | 一种基于堆叠自编码网络的移动录音设备源识别方法 | |
CN112039903A (zh) | 基于深度自编码神经网络模型的网络安全态势评估方法 | |
Ghasemzadeh et al. | Universal audio steganalysis based on calibration and reversed frequency resolution of human auditory system | |
Li et al. | Homologous audio copy-move tampering detection method based on pitch | |
Pourhashemi et al. | A novel audio watermarking scheme using ensemble-based watermark detector and discrete wavelet transform | |
CN111402921B (zh) | 语音复制粘贴篡改检测方法和系统 | |
Liu et al. | Novel stream mining for audio steganalysis | |
CN105070299A (zh) | 一种基于模式识别Hi-Fi音质检测方法 | |
Chen et al. | Robust speech hash function | |
Li et al. | Anti-forensics of audio source identification using generative adversarial network | |
Su et al. | Robust audio copy-move forgery detection using constant Q spectral Sketches and GA-SVM | |
Liang et al. | Image resampling detection based on convolutional neural network | |
CN113436646B (zh) | 一种采用联合特征与随机森林的伪装语音检测方法 | |
Zhang et al. | Aslnet: An encoder-decoder architecture for audio splicing detection and localization | |
CN110808067A (zh) | 基于二值多频带能量分布的低信噪比声音事件检测方法 | |
Qiuyu et al. | An efficient speech perceptual hashing authentication algorithm based on DWT and symmetric ternary string | |
Frick et al. | Detecting double compression and splicing using benfords first digit law | |
Liu et al. | DCT based multiple hashing technique for robust audio fingerprinting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |