CN116092503B - 联合时域和频域的伪造语音检测方法、装置、设备及介质 - Google Patents
联合时域和频域的伪造语音检测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116092503B CN116092503B CN202310355092.4A CN202310355092A CN116092503B CN 116092503 B CN116092503 B CN 116092503B CN 202310355092 A CN202310355092 A CN 202310355092A CN 116092503 B CN116092503 B CN 116092503B
- Authority
- CN
- China
- Prior art keywords
- frequency domain
- voice
- sample
- speech
- time domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 99
- 230000008569 process Effects 0.000 claims abstract description 64
- 238000007781 pre-processing Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 40
- 238000013507 mapping Methods 0.000 claims description 26
- 238000001228 spectrum Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000006835 compression Effects 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000037433 frameshift Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 5
- 238000007500 overflow downdraw method Methods 0.000 abstract description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了联合时域和频域的伪造语音检测方法、装置、设备及介质,包括:获取多组样本自然语音和样本伪造语音,构建语音样本库,并对语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组;根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,将时域和频域信号组输入至伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;获取待检测语音样本,对语音样本进行预处理,生成与相对应的时域和频域信号;将时域和频域信号输入至伪造语音检测模型中,进行检测,生成判别结果。旨在解决现有决策融合方法忽略了各模型在训练过程中的交互,使得不同特征不能充分地有机结合的问题。
Description
技术领域
本发明涉及多媒体安全技术领域,具体涉及联合时域和频域的伪造语音检测方法、装置、设备及介质。
背景技术
近些年,深度学习在语音伪造方面取得了巨大的成功,高质量的伪造语音给恶意攻击者提供了欺骗受害者和自动说话人验证(ASV)系统的机会,从而导致信任危机和威胁系统安全。伪造语音主要是通过文本到语音(Text-to-Speech,TTS)和语音转换(VoiceConversion,VC)产生的。其中,文本到语音是指将给定的文本转换成自然语音;语音转换是指仅改变语音中说话人的身份。
最新的伪造语音检测方法大多利用深度神经网络提取可区分真伪语音的特征并实现检测,从特征类型角度可细分为三类:基于频域特征的方法、基于时域特征的方法和基于混合特征的方法。基于频域特征的方法借助语音的频域信号实现伪造检测,语音的频域信号包括线性倒谱系数、对数功率谱、恒Q倒谱系数等。虽然频域信号更容易找到伪造语音的潜在特性,但在频域信号生成的过程中往往会损失一部分信息,这就在一定程度上降低了伪造语音检测的性能。为了避免信号在时频转换过程中的信息损失,基于时域特征方法被提出,它利用语音的时域信号实现伪造检测;即利用短时傅里叶变换等方法将时域信号转为频域信号(称为时频转变),这个过程有一部分信息(相位信息)将被丢弃,由于这个信息缺失,催生了利用时域信息实现伪造检测。该方法的代表工作有:利用残差网络直接从原始波形数据提取特征;利用sinc卷积对时域语音信号进行预处理并通过图神经网络实现伪造检测。上述的两种方法都是在单域,即时域或频域上进行伪造语音检测,仅能考虑到单域的特征,这可能导致可区分真伪语音的特征不够全面,降低伪造检测方法的性能。
为了能够发挥时域和频域特征各自的优势,基于混合特征的方法被提出。该方法在基于单域特征模型的基础上,利用决策融合的方法聚合不同的模型的预测结果。融合两个模型输出分数,取得了优于单域模型的检测性能,决策融合可以很容易融合多个模型的预测结果,具有很好的灵活性,但是该决策融合方法忽略了各模型在训练过程中的交互,不同特征不能充分地有机结合。
有鉴于此,提出本申请。
发明内容
有鉴于此,本发明的目的在于提供联合时域和频域的伪造语音检测方法、装置、设备及介质,能够有效解决现有技术中的决策融合方法忽略了各模型在训练过程中的交互,使得不同特征不能充分地有机结合的问题。
本发明公开了联合时域和频域的伪造语音检测方法,包括:
获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,其中,所述预处理包括时域预处理和频域预处理,具体为:
设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为其中,为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF;
根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
获取待检测语音样本,对所述待检测语音样本进行预处理,生成与所述待检测语音样本相对应的时域信号和频域信号;
将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
优选地,设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF,具体为:
对给定的语音样本x(n)进行预加重处理,其形式化过程为x'(n)=x(n)-ε·x(n-1),其中,ε为比例系数;
对预加重后的语音样本x'(n)进行短时傅里叶变换,得到频域复数矩阵M,其形式化过程为其中,fSTFT为短时傅里叶变换,其窗口长度为l,帧移为δ,/>为频域复数矩阵的行数,/>为频域复数矩阵的列数,对于给定的复数auv+buvi,auv为实部,buv为虚部,i为虚数单位,u=1,2,...,r,v=1,2,...,c;
对对数功率谱S进行拼接和截断处理,得到大小为h×w的频域信号xF,其形式化过程为其中,/>为拼接的次数, 其中,Z0为大小为h×w的对数功率谱,Zj为大小为h×c的对数功率谱,Zk+1为大小为h×(w-tFc)的对数功率谱,c为频域复数矩阵的列数。
优选地,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,具体为:
时域分支网络的功能是获取时域特征,主要由预处理层、残差层、特征压缩层和映射层组成,其工作流程如下:
以语音的时域信号xT作为网络的输入,经过预处理层ftp后,生成特征Ftp,该过程可形式化为Ftp=ftp(xT,stp),其中,stp为预处理层的网络参数集合;
经过残差层ftr得到特征Ftr,该过程可形式化为Ftr=ftr(Ftp,str),str为残差层的网络参数集合;
利用特征压缩层ftc实现特征降维得到时域特征vT,该过程形式化为vT=ftc(Ftr,stc),其中,stc为特征压缩层的网络参数集合;
映射层ftm以时域特征vT为输入,输出自然语音的预测概率pT,该过程形式化为pT=ftm(vT,stm),其中,stm为映射层的网络参数集合;
优选地,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,还包括:
频域分支网络的功能是获取频域特征,主要由预处理层、带有注意力机制的残差层、全局平均池化层和映射层组成,其工作流程如下:
以语音的频域信号xF作为网络的输入,经过预处理层ffp后得到特征Ffp,该过程可形式化为Ffp=ffp(xF,sfp),其中,sfp为预处理层的网络参数集合;
经过残差层ffr得到特征Ffr,该过程可形式化为Ffr=ffr(Ffp,sfr),其中,sfr为残差层的网络参数集合;
经过全局平均池化层ffap展平特征得到频域特征vF,其过程形式化为vF=ffap(Ffr);
映射层ffm以频域特征vF为输入,输出自然语音的预测概率pF,该过程形式化为pF=ffm(vF,sfm),其中,sfm为映射层的网络参数集合;
优选地,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,还包括:
经过非线性激活函数fact的处理,得到跨域特征vC,该过程形式化为vC=fact(Fpr);
分类层fcls以跨域特征vC为输入,输出自然语音的预测概率pC,该过程形式化定义为pC=fcls(vC,scls),其中,scls为分类层的网络参数集合;
优选地,将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型,具体为:
通过加权求和的方式联合时域辅助损失LT、频域辅助损失LF和跨域辅助损失LC,从而得到全局损失L,L=α·LT+β·LF+γ·LC,其中,α,β,γ∈[0,1]为经验参数,且α+β+γ=1。
本发明还公开了联合时域和频域的伪造语音检测装置,包括:
样本获取单元,用于获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组其中,所述预处理包括时域预处理和频域预处理,具体为:
设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为其中,为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF;
模型构建单元,用于根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
信号获取单元,用于获取待检测的语音样本,对所述语音样本进行预处理,生成与所述语音样本相对应的时域信号和频域信号;
结果判别单元,用于将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
本发明还公开了联合时域和频域的伪造语音检测设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的联合时域和频域的伪造语音检测方法。
本发明还公开了可读存储介质,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项所述的联合时域和频域的伪造语音检测方法。
综上所述,本实施例提供的联合时域和频域的伪造语音检测方法、装置、设备及介质,通过时域和频域信息的有机结合扩展了特征的广度,并引入域辅助损失和跨域融合机制增强了特征信息的表达能力,进而显著提高了伪造语音检测的性能。从而解决现有技术中的决策融合方法忽略了各模型在训练过程中的交互,不同特征不能充分地有机结合的问题。
附图说明
图1是本发明第一方面提供的联合时域和频域的伪造语音检测方法的流程示意图。
图2是本发明第二方面提供的联合时域和频域的伪造语音检测方法的流程示意图。
图3是本发明实施例提供的网络结构示意图。
图4是本发明实施例提供的ASVspoof2019 LA场景中评估集的检测结果示意图。
图5是本发明实施例提供的联合时域和频域的伪造语音检测装置的模块示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
以下结合附图对本发明的具体实施例做详细说明。
本发明公开了联合时域和频域的伪造语音检测方法、装置、设备及介质,至少在一定程度上解决了现有技术的不足。
请参阅图1至图2,本发明的第一实施例提供了联合时域和频域的伪造语音检测方法,其可由伪造语音检测设备(以下简称检测设备)来执行,特别的,由检测设备内的一个或者多个处理器来执行,以实现如下步骤:
在本实施例中,所述检测设备可为用户终端设备(如智能手机、智能电脑或者其他智能设备),该用户终端设备可与云端的服务器建立通讯连接,以实现数据的交互。
S101,获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,其中,所述预处理包括时域预处理和频域预处理;
具体地,步骤S101包括:设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为其中,/>为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,/>给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF。
对给定的语音样本x(n)进行预加重处理,其形式化过程为x'(n)=x(n)-ε·x(n-1),其中,ε为比例系数;
对预加重后的语音样本x'(n)进行短时傅里叶变换,得到频域复数矩阵M,其形式化过程为其中,fSTFT为短时傅里叶变换,其窗口长度为l,帧移为δ,/>为频域复数矩阵的行数,/>为频域复数矩阵的列数,对于给定的复数auv+buvi,auv为实部,buv为虚部,i为虚数单位,u=1,2,...,r,v=1,2,...,c;
对对数功率谱S进行拼接和截断处理,得到大小为h×w的频域信号xF,其形式化过程为其中,/>为拼接的次数, 其中,Z0为大小为h×w的对数功率谱,Zj为大小为h×c的对数功率谱,Zk+1为大小为h×(w-tFc)的对数功率谱,c为频域复数矩阵的列数。
具体地,在本实施例中,Zj和x(n)两者是相等的,为保持时域信号定义简洁性,故采用了不同的符号。在时域预处理中,考虑到实际情况中语音时长和神经网络模型的结构之间相互制约的关系,设时域信号的维度阈值d=96,000。在频域预处理中,对给定的语音样本x(n)进行预加重处理,该操作可在一定程度上弥补频域信息中高频部分的损耗;对预加重后的语音样本x'(n)进行短时傅里叶变换,得到频域复数矩阵M,为了增强窗函数的能量抑制效果,此处采用布莱克曼(Blackman)窗。
在本实施例中,考虑到输入数据与神经网络模型的相互关系,频域信号的维度阈值h=w=400;预加重处理的比例系数ε=0.97,短时傅里叶变换的窗口长度和窗口大小l=1728,帧移δ=130。
S102,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
时域分支网络的功能是获取时域特征,主要由预处理层、残差层、特征压缩层和映射层组成,其工作流程如下:以语音的时域信号xT作为网络的输入,经过预处理层ftp后,生成特征Ftp,该过程可形式化为Ftp=ftp(xT,stp),其中,stp为预处理层的网络参数集合;
经过残差层ftr得到特征Ftr,该过程可形式化为Ftr=ftr(Ftp,str),str为残差层的网络参数集合;
利用特征压缩层ftc实现特征降维得到时域特征vT,该过程可以形式化为vT=ftc(Ftr,stc),其中,stc为特征压缩层的网络参数集合;
映射层ftm以时域特征vT为输入,输出自然语音的预测概率pT,该过程可以形式化为pT=ftm(vT,stm),其中,stm为映射层的网络参数集合;
具体地,在本实施例中,为最大程度上保留时域特征,映射层ftm以时域特征vT为输入,输出自然语音的预测概率pT;并且在计算时域辅助损失LT时,为保证时域特征的完整性,利用交叉熵损失函数计算预测概率和标签的损失。
请参阅图3,在本实施例中,预处理层是由卷积核大小为7的一维卷积层fcon、批量归一化fbn、激活函数frel(ReLU函数)和池化核和步长都为4的最大池化层fmp组成,其可以表示为:其中,/>为复合函数的符号。残差层是由四个残差结构ftre和最大池化fmp组成,其可以表示为:/>其中,/>为复合函数的符号,残差结构是由一维卷积层、批量归一化和激活函数组成,×4表示()中重复的次数,其展开为特征压缩层是两个全连接层ffc组成,其输出维度分别为64、32,且每个连接层之后引入ReLU激活函数frel,其可以表示为/>其中,/>为复合函数的符号。映射层由一个全连接层组成,其输入维度为32,输出维度为2。
频域分支网络的功能是获取频域特征,主要由预处理层、带有注意力机制的残差层、全局平均池化层和映射层组成,其工作流程如下:以语音的频域信号xF作为网络的输入,经过预处理层ffp后得到特征Ffp,该过程可形式化为Ffp=ffp(xF,sfp),其中,sfp为预处理层的网络参数集合;
经过残差层ffr得到特征Ffr,该过程可形式化为Ffr=ffr(Ffp,sfr),其中,sfr为残差层的网络参数集合;
经过全局平均池化层ffap展平特征得到频域特征vF,其过程可以形式化为vF=ffap(Ffr);
映射层ffm以频域特征vF为输入,输出自然语音的预测概率pF,该过程可以形式化为pF=ffm(vF,sfm),其中,sfm为映射层的网络参数集合;
具体地,在本实施例中,为最大程度上保留频域特征,映射层ffm以频域特征vF为输入,输出自然语音的预测概率pF;并且,在计算频域辅助损失LF时,为保证频域特征的完整性,利用交叉熵损失函数计算预测概率和标签的损失。
在本实施例中,预处理层是由卷积核大小为7×7的二维卷积层fcov、批量归一化fbn、激活函数frel(ReLU函数)和池化核为3×3与步长为2×2的最大池化层fmp组成,其可以表示为:其中,/>为复合函数的符号。残差层是由八个引入注意力机制fse的残差结构ffre组成,其可以表示为:/>其中,/>为复合函数的符号,残差结构是由二维卷积层、批量归一化和激活函数组成,×8表示()中重复的次数,其展开为全连接模块由一个全连接层组成,其输入维度为128,输出维度为2。
经过非线性激活函数fact的处理,得到跨域特征vC,该过程可以形式化为vC=fact(Fpr);
分类层fcls以跨域特征vC为输入,输出自然语音的预测概率pC,该过程可以形式化定义为pC=fcls(vC,scls),其中,scls为分类层的网络参数集合;
利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程可以形式化定义为其中,N为语音样本的数目,yi为第i个语音样本对应的标签,pCi为跨域融合网络对第i个语音样本进行预测的概率。
具体地,在本实施例中,在计算跨域辅助损失LC时,为保证时域特征和频域特征的充分融合,利用交叉熵损失函数计算预测概率和标签的损失。考虑到跨域特征的表征能力和维度的关系,线性映射的输出维度为64。
通过加权求和的方式联合时域辅助损失LT、频域辅助损失LF和跨域辅助损失LC,从而得到全局损失L,L=α·LT+β·LF+γ·LC,其中,α,β,γ∈[0,1]为经验参数,且α+β+γ=1。
具体地,在本实施例中,为简化训练过程,通过加权求和的方式联合时域辅助损失LT、频域辅助损失LF和跨域辅助损失LC,从而得到全局损失L;具体地,为简化模型的训练过程,设经验参数α=β=γ=1/3。时域辅助损失LT、频域辅助损失LF和跨域辅助损失LC反映了各类辅助损失在全局损失中所占的权重;通过迭代训练使全局损失逐渐降低,在此过程中保存性能最优的模型fb作为测试阶段的模型。
S103,获取待检测语音样本,对所述待检测语音样本进行预处理,生成与所述待检测语音样本相对应的时域信号和频域信号;
具体地,在本实施例中,假设待检测语音样本其中,/>为待测语音样本中的第i个采样数据值;随后按照步骤S101中的预处理操作对检测语音样本x*(n)进行预处理,分别得到与检测语音样本相对应的时域信号/>和频域信号/>
S104,将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
请参阅图4,在本实施例中,为了对所述联合时域和频域的伪造语音检测方法明进行评估,在ASVspoof 2019LA数据集进行了实验,该数据集分为三个子集:训练集(train)、验证集(dev)和测试集(eval)。训练集包含6种伪造算法(记为S01-S06),共25,380个语音样本;验证集包含6种伪造算法(记为S01-S06),共24,844个语音样本;测试集包含13种伪造算法(记为S07-S19),共71,237个语音样本。申请人在训练集上训练模型并保存验证集上的最优模型,在测试集上评估模型的性能,并与目前较为先进的伪造语音检测算法(J.-w.Jung,H.S.Heo,H.Tak,H.-j.Shim,J.S.Chung,B.-J.Lee,H.-J.Lee,and N.Evans.AASIST:AudioAnti-Spoofing Using Integrated Spectro-Temporal Graph Attention Networks,Proceedings of the IEEE International Conference on Acoustics,Speech andSignal Processing,2022,pp.6367-6371.)比较。为了能够直观地评估模型的性能,申请人采用了主流的评估指标:等错误率(Equal Error Rate,EER)和最小串联检测代价函数(Minimum Tandem Detection Cost Function,min t-DCF)。等错误率是错误接受率(FalseAccept Rate,FAR)和错误拒绝率(False Rejection Rate,FRR)相等时的错误率,它反映了伪造语音检测算法的性能,此值越小表示性能越好。最小串联检测代价函数反映了伪造语音检测算法对自动说话人验证系统性能的影响,此值越小表示对自动说话人验证系统影响越小。图4中的实验结果表明,所述联合时域和频域的伪造语音检测方法有着优秀的性能,超越了目前较为先进的伪造语音检测算法。
请参阅图5,本发明的第二实施例提供了联合时域和频域的伪造语音检测装置,包括:
样本获取单元201,用于获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组其中,所述预处理包括时域预处理和频域预处理,具体为:
设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为其中,为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF;
模型构建单元202,用于根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
信号获取单元203,用于获取待检测的语音样本,对所述语音样本进行预处理,生成与所述语音样本相对应的时域信号和频域信号;
结果判别单元204,用于将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
本发明的第三实施例提供了联合时域和频域的伪造语音检测设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的联合时域和频域的伪造语音检测方法。
本发明的第四实施例提供了可读存储介质,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项所述的联合时域和频域的伪造语音检测方法。
示例性地,本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述实现联合时域和频域的伪造语音检测设备中的执行过程。例如,本发明第二实施例中所述的装置。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述联合时域和频域的伪造语音检测方法的控制中心,利用各种接口和线路连接整个所述实现对联合时域和频域的伪造语音检测方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现联合时域和频域的伪造语音检测方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。
Claims (9)
1.联合时域和频域的伪造语音检测方法,其特征在于,包括:
获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,其中,所述预处理包括时域预处理和频域预处理,具体为:
设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为其中,/>为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF;
根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
获取待检测语音样本,对所述待检测语音样本进行预处理,生成与所述待检测语音样本相对应的时域信号和频域信号;
将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
2.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF,具体为:
对给定的语音样本x(n)进行预加重处理,其形式化过程为x'(n)=x(n)-ε·x(n-1),其中,ε为比例系数;
对预加重后的语音样本x'(n)进行短时傅里叶变换,得到频域复数矩阵M,其形式化过程为其中,fSTFT为短时傅里叶变换,其窗口长度为l,帧移为δ,/>为频域复数矩阵的行数,/>为频域复数矩阵的列数,对于给定的复数auv+buvi,auv为实部,buv为虚部,i为虚数单位,u=1,2,...,r,v=1,2,...,c;
3.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,具体为:
时域分支网络的功能是获取时域特征,主要由预处理层、残差层、特征压缩层和映射层组成,其工作流程如下:
以语音的时域信号xT作为网络的输入,经过预处理层ftp后,生成特征Ftp,该过程可形式化为Ftp=ftp(xT,stp),其中,stp为预处理层的网络参数集合;
经过残差层ftr得到特征Ftr,该过程可形式化为Ftr=ftr(Ftp,str),str为残差层的网络参数集合;
利用特征压缩层ftc实现特征降维得到时域特征vT,该过程形式化为vT=ftc(Ftr,stc),其中,stc为特征压缩层的网络参数集合;
映射层ftm以时域特征vT为输入,输出自然语音的预测概率pT,该过程形式化为pT=ftm(vT,stm),其中,stm为映射层的网络参数集合;
4.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,还包括:
频域分支网络的功能是获取频域特征,主要由预处理层、带有注意力机制的残差层、全局平均池化层和映射层组成,其工作流程如下:
以语音的频域信号xF作为网络的输入,经过预处理层ffp后得到特征Ffp,该过程可形式化为Ffp=ffp(xF,sfp),其中,sfp为预处理层的网络参数集合;
经过残差层ffr得到特征Ffr,该过程可形式化为Ffr=ffr(Ffp,sfr),其中,sfr为残差层的网络参数集合;
经过全局平均池化层ffap展平特征得到频域特征vF,其过程形式化为vF=ffap(Ffr);
映射层ffm以频域特征vF为输入,输出自然语音的预测概率pF,该过程形式化为pF=ffm(vF,sfm),其中,sfm为映射层的网络参数集合;
5.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,还包括:
经过非线性激活函数fact的处理,得到跨域特征vC,该过程形式化为vC=fact(Fpr);
分类层fcls以跨域特征vC为输入,输出自然语音的预测概率pC,该过程形式化定义为pC=fcls(vC,scls),其中,scls为分类层的网络参数集合;
6.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型,具体为:
通过加权求和的方式联合时域辅助损失LT、频域辅助损失LF和跨域辅助损失LC,从而得到全局损失L,L=α·LT+β·LF+γ·LC,其中,α,β,γ∈[0,1]为经验参数,且α+β+γ=1。
7.联合时域和频域的伪造语音检测装置,其特征在于,包括:
样本获取单元,用于获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,其中,所述预处理包括时域预处理和频域预处理,具体为:
设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为其中,/>为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF;
模型构建单元,用于根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
信号获取单元,用于获取待检测的语音样本,对所述语音样本进行预处理,生成与所述语音样本相对应的时域信号和频域信号;
结果判别单元,用于将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
8.联合时域和频域的伪造语音检测设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的联合时域和频域的伪造语音检测方法。
9.可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如权利要求1至6任意一项所述的联合时域和频域的伪造语音检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310355092.4A CN116092503B (zh) | 2023-04-06 | 2023-04-06 | 联合时域和频域的伪造语音检测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310355092.4A CN116092503B (zh) | 2023-04-06 | 2023-04-06 | 联合时域和频域的伪造语音检测方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116092503A CN116092503A (zh) | 2023-05-09 |
CN116092503B true CN116092503B (zh) | 2023-06-20 |
Family
ID=86212334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310355092.4A Active CN116092503B (zh) | 2023-04-06 | 2023-04-06 | 联合时域和频域的伪造语音检测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116092503B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690455B (zh) * | 2023-12-21 | 2024-05-28 | 合肥工业大学 | 基于滑动窗口的部分合成伪造语音检测方法和系统 |
CN118280389A (zh) * | 2024-03-28 | 2024-07-02 | 南京龙垣信息科技有限公司 | 多重对抗判别伪造音频检测系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155875A (zh) * | 2022-02-09 | 2022-03-08 | 中国科学院自动化研究所 | 语音场景篡改鉴别的方法、装置、电子设备及存储介质 |
WO2022078651A1 (en) * | 2020-10-15 | 2022-04-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio generator and methods for generating an audio signal and training an audio generator |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115691475A (zh) * | 2021-07-23 | 2023-02-03 | 澜至电子科技(成都)有限公司 | 用于训练语音识别模型的方法以及语音识别方法 |
CN114387977B (zh) * | 2021-12-24 | 2024-06-11 | 深圳大学 | 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法 |
CN114627856A (zh) * | 2022-03-30 | 2022-06-14 | 杭州网易智企科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN115331686A (zh) * | 2022-05-11 | 2022-11-11 | 安徽大学 | 基于联合训练的噪声鲁棒伪造语音检测系统及其方法 |
CN115565538A (zh) * | 2022-09-13 | 2023-01-03 | 山东省计算中心(国家超级计算济南中心) | 基于单分类多尺度残差网络的语音鉴伪方法及系统 |
-
2023
- 2023-04-06 CN CN202310355092.4A patent/CN116092503B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022078651A1 (en) * | 2020-10-15 | 2022-04-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio generator and methods for generating an audio signal and training an audio generator |
CN114155875A (zh) * | 2022-02-09 | 2022-03-08 | 中国科学院自动化研究所 | 语音场景篡改鉴别的方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116092503A (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116092503B (zh) | 联合时域和频域的伪造语音检测方法、装置、设备及介质 | |
US11423926B2 (en) | Real-time voice phishing detection | |
JP6535706B2 (ja) | データセットの3値ビットマップを作成するための方法 | |
CN110335587B (zh) | 语音合成方法、系统、终端设备和可读存储介质 | |
CN107274906A (zh) | 语音信息处理方法、装置、终端及存储介质 | |
CN110136744A (zh) | 一种音频指纹生成方法、设备及存储介质 | |
CN111276119B (zh) | 语音生成方法、系统和计算机设备 | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
CN102915740B (zh) | 可实现篡改定位的语音感知哈希内容认证方法 | |
CN112738338B (zh) | 基于深度学习的电话识别方法、装置、设备及介质 | |
CN115116458B (zh) | 语音数据转换方法、装置、计算机设备及存储介质 | |
CN114596879A (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
CN114338623A (zh) | 音频的处理方法、装置、设备、介质及计算机程序产品 | |
Sampaio et al. | Detection of AMR double compression using compressed-domain speech features | |
CN116884431A (zh) | 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置 | |
CN116580694A (zh) | 音频对抗样本生成方法、装置、设备及存储介质 | |
Chuchra et al. | A deep learning approach for splicing detection in digital audios | |
CN116469396A (zh) | 基于时频域掩蔽效应的跨域语音鉴伪方法和系统 | |
CN116189710A (zh) | 语音欺骗检测方法及装置 | |
CN116312559A (zh) | 跨信道声纹识别模型的训练方法、声纹识别方法及装置 | |
CN116386664A (zh) | 一种语音伪造检测方法、装置、系统及存储介质 | |
CN114882889A (zh) | 一种说话人识别模型训练方法、装置、设备及可读介质 | |
Yadav et al. | Compression Robust Synthetic Speech Detection Using Patched Spectrogram Transformer | |
Büker et al. | Deep convolutional neural networks for double compressed AMR audio detection | |
CN111916057A (zh) | 一种语言识别方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |