CN116092503B - 联合时域和频域的伪造语音检测方法、装置、设备及介质 - Google Patents

联合时域和频域的伪造语音检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN116092503B
CN116092503B CN202310355092.4A CN202310355092A CN116092503B CN 116092503 B CN116092503 B CN 116092503B CN 202310355092 A CN202310355092 A CN 202310355092A CN 116092503 B CN116092503 B CN 116092503B
Authority
CN
China
Prior art keywords
frequency domain
voice
sample
speech
time domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310355092.4A
Other languages
English (en)
Other versions
CN116092503A (zh
Inventor
田晖
张强
卢璥
全韩彧
李越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202310355092.4A priority Critical patent/CN116092503B/zh
Publication of CN116092503A publication Critical patent/CN116092503A/zh
Application granted granted Critical
Publication of CN116092503B publication Critical patent/CN116092503B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了联合时域和频域的伪造语音检测方法、装置、设备及介质,包括:获取多组样本自然语音和样本伪造语音,构建语音样本库,并对语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组;根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,将时域和频域信号组输入至伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;获取待检测语音样本,对语音样本进行预处理,生成与相对应的时域和频域信号;将时域和频域信号输入至伪造语音检测模型中,进行检测,生成判别结果。旨在解决现有决策融合方法忽略了各模型在训练过程中的交互,使得不同特征不能充分地有机结合的问题。

Description

联合时域和频域的伪造语音检测方法、装置、设备及介质
技术领域
本发明涉及多媒体安全技术领域,具体涉及联合时域和频域的伪造语音检测方法、装置、设备及介质。
背景技术
近些年,深度学习在语音伪造方面取得了巨大的成功,高质量的伪造语音给恶意攻击者提供了欺骗受害者和自动说话人验证(ASV)系统的机会,从而导致信任危机和威胁系统安全。伪造语音主要是通过文本到语音(Text-to-Speech,TTS)和语音转换(VoiceConversion,VC)产生的。其中,文本到语音是指将给定的文本转换成自然语音;语音转换是指仅改变语音中说话人的身份。
最新的伪造语音检测方法大多利用深度神经网络提取可区分真伪语音的特征并实现检测,从特征类型角度可细分为三类:基于频域特征的方法、基于时域特征的方法和基于混合特征的方法。基于频域特征的方法借助语音的频域信号实现伪造检测,语音的频域信号包括线性倒谱系数、对数功率谱、恒Q倒谱系数等。虽然频域信号更容易找到伪造语音的潜在特性,但在频域信号生成的过程中往往会损失一部分信息,这就在一定程度上降低了伪造语音检测的性能。为了避免信号在时频转换过程中的信息损失,基于时域特征方法被提出,它利用语音的时域信号实现伪造检测;即利用短时傅里叶变换等方法将时域信号转为频域信号(称为时频转变),这个过程有一部分信息(相位信息)将被丢弃,由于这个信息缺失,催生了利用时域信息实现伪造检测。该方法的代表工作有:利用残差网络直接从原始波形数据提取特征;利用sinc卷积对时域语音信号进行预处理并通过图神经网络实现伪造检测。上述的两种方法都是在单域,即时域或频域上进行伪造语音检测,仅能考虑到单域的特征,这可能导致可区分真伪语音的特征不够全面,降低伪造检测方法的性能。
为了能够发挥时域和频域特征各自的优势,基于混合特征的方法被提出。该方法在基于单域特征模型的基础上,利用决策融合的方法聚合不同的模型的预测结果。融合两个模型输出分数,取得了优于单域模型的检测性能,决策融合可以很容易融合多个模型的预测结果,具有很好的灵活性,但是该决策融合方法忽略了各模型在训练过程中的交互,不同特征不能充分地有机结合。
有鉴于此,提出本申请。
发明内容
有鉴于此,本发明的目的在于提供联合时域和频域的伪造语音检测方法、装置、设备及介质,能够有效解决现有技术中的决策融合方法忽略了各模型在训练过程中的交互,使得不同特征不能充分地有机结合的问题。
本发明公开了联合时域和频域的伪造语音检测方法,包括:
获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,其中,所述预处理包括时域预处理和频域预处理,具体为:
设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为
Figure GDA0004229625970000031
其中,
Figure GDA0004229625970000032
为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,
Figure GDA0004229625970000033
给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF
根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
获取待检测语音样本,对所述待检测语音样本进行预处理,生成与所述待检测语音样本相对应的时域信号和频域信号;
将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
优选地,设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF,具体为:
对给定的语音样本x(n)进行预加重处理,其形式化过程为x'(n)=x(n)-ε·x(n-1),其中,ε为比例系数;
对预加重后的语音样本x'(n)进行短时傅里叶变换,得到频域复数矩阵M,其形式化过程为
Figure GDA0004229625970000041
其中,fSTFT为短时傅里叶变换,其窗口长度为l,帧移为δ,/>
Figure GDA0004229625970000042
为频域复数矩阵的行数,/>
Figure GDA0004229625970000043
为频域复数矩阵的列数,对于给定的复数auv+buvi,auv为实部,buv为虚部,i为虚数单位,u=1,2,...,r,v=1,2,...,c;
对矩阵M中的各元素的模的平方取对数,得到大小为r×c的对数功率谱S,其形式化过程为
Figure GDA0004229625970000044
对对数功率谱S进行拼接和截断处理,得到大小为h×w的频域信号xF,其形式化过程为
Figure GDA0004229625970000045
其中,/>
Figure GDA0004229625970000046
为拼接的次数,
Figure GDA0004229625970000047
Figure GDA0004229625970000048
其中,Z0为大小为h×w的对数功率谱,Zj为大小为h×c的对数功率谱,Zk+1为大小为h×(w-tFc)的对数功率谱,c为频域复数矩阵的列数。
优选地,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,具体为:
时域分支网络的功能是获取时域特征,主要由预处理层、残差层、特征压缩层和映射层组成,其工作流程如下:
以语音的时域信号xT作为网络的输入,经过预处理层ftp后,生成特征Ftp,该过程可形式化为Ftp=ftp(xT,stp),其中,stp为预处理层的网络参数集合;
经过残差层ftr得到特征Ftr,该过程可形式化为Ftr=ftr(Ftp,str),str为残差层的网络参数集合;
利用特征压缩层ftc实现特征降维得到时域特征vT,该过程形式化为vT=ftc(Ftr,stc),其中,stc为特征压缩层的网络参数集合;
映射层ftm以时域特征vT为输入,输出自然语音的预测概率pT,该过程形式化为pT=ftm(vT,stm),其中,stm为映射层的网络参数集合;
利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程形式化为
Figure GDA0004229625970000051
其中,N为语音样本的数目,yi为第i个语音样本对应的标签,pTi为时域分支网络对第i个语音样本进行预测的概率。
优选地,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,还包括:
频域分支网络的功能是获取频域特征,主要由预处理层、带有注意力机制的残差层、全局平均池化层和映射层组成,其工作流程如下:
以语音的频域信号xF作为网络的输入,经过预处理层ffp后得到特征Ffp,该过程可形式化为Ffp=ffp(xF,sfp),其中,sfp为预处理层的网络参数集合;
经过残差层ffr得到特征Ffr,该过程可形式化为Ffr=ffr(Ffp,sfr),其中,sfr为残差层的网络参数集合;
经过全局平均池化层ffap展平特征得到频域特征vF,其过程形式化为vF=ffap(Ffr);
映射层ffm以频域特征vF为输入,输出自然语音的预测概率pF,该过程形式化为pF=ffm(vF,sfm),其中,sfm为映射层的网络参数集合;
利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程形式化为
Figure GDA0004229625970000061
其中,N为语音样本的数目,yi为第i个语音样本对应的标签,pFi为频域分支网络对第i个语音样本进行预测的概率。
优选地,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,还包括:
以时域特征vT和频域特征vF作为输入,对时域特征vT和频域特征vF进行拼接,并通过线性映射fpr实现融合和降维,得到特征Fpr
Figure GDA0004229625970000062
其中,/>
Figure GDA0004229625970000063
为拼接操作,spr为线性映射的网络参数集合;
经过非线性激活函数fact的处理,得到跨域特征vC,该过程形式化为vC=fact(Fpr);
分类层fcls以跨域特征vC为输入,输出自然语音的预测概率pC,该过程形式化定义为pC=fcls(vC,scls),其中,scls为分类层的网络参数集合;
利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程形式化定义为
Figure GDA0004229625970000071
其中,N为语音样本的数目,yi为第i个语音样本对应的标签,pCi为跨域融合网络对第i个语音样本进行预测的概率。
优选地,将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型,具体为:
通过加权求和的方式联合时域辅助损失LT、频域辅助损失LF和跨域辅助损失LC,从而得到全局损失L,L=α·LT+β·LF+γ·LC,其中,α,β,γ∈[0,1]为经验参数,且α+β+γ=1。
本发明还公开了联合时域和频域的伪造语音检测装置,包括:
样本获取单元,用于获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组其中,所述预处理包括时域预处理和频域预处理,具体为:
设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为
Figure GDA0004229625970000072
其中,
Figure GDA0004229625970000073
为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,
Figure GDA0004229625970000074
给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF
模型构建单元,用于根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
信号获取单元,用于获取待检测的语音样本,对所述语音样本进行预处理,生成与所述语音样本相对应的时域信号和频域信号;
结果判别单元,用于将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
本发明还公开了联合时域和频域的伪造语音检测设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的联合时域和频域的伪造语音检测方法。
本发明还公开了可读存储介质,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项所述的联合时域和频域的伪造语音检测方法。
综上所述,本实施例提供的联合时域和频域的伪造语音检测方法、装置、设备及介质,通过时域和频域信息的有机结合扩展了特征的广度,并引入域辅助损失和跨域融合机制增强了特征信息的表达能力,进而显著提高了伪造语音检测的性能。从而解决现有技术中的决策融合方法忽略了各模型在训练过程中的交互,不同特征不能充分地有机结合的问题。
附图说明
图1是本发明第一方面提供的联合时域和频域的伪造语音检测方法的流程示意图。
图2是本发明第二方面提供的联合时域和频域的伪造语音检测方法的流程示意图。
图3是本发明实施例提供的网络结构示意图。
图4是本发明实施例提供的ASVspoof2019 LA场景中评估集的检测结果示意图。
图5是本发明实施例提供的联合时域和频域的伪造语音检测装置的模块示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
以下结合附图对本发明的具体实施例做详细说明。
本发明公开了联合时域和频域的伪造语音检测方法、装置、设备及介质,至少在一定程度上解决了现有技术的不足。
请参阅图1至图2,本发明的第一实施例提供了联合时域和频域的伪造语音检测方法,其可由伪造语音检测设备(以下简称检测设备)来执行,特别的,由检测设备内的一个或者多个处理器来执行,以实现如下步骤:
在本实施例中,所述检测设备可为用户终端设备(如智能手机、智能电脑或者其他智能设备),该用户终端设备可与云端的服务器建立通讯连接,以实现数据的交互。
S101,获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,其中,所述预处理包括时域预处理和频域预处理;
具体地,步骤S101包括:设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为
Figure GDA0004229625970000101
其中,/>
Figure GDA0004229625970000102
为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,/>
Figure GDA0004229625970000103
给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF
对给定的语音样本x(n)进行预加重处理,其形式化过程为x'(n)=x(n)-ε·x(n-1),其中,ε为比例系数;
对预加重后的语音样本x'(n)进行短时傅里叶变换,得到频域复数矩阵M,其形式化过程为
Figure GDA0004229625970000111
其中,fSTFT为短时傅里叶变换,其窗口长度为l,帧移为δ,/>
Figure GDA0004229625970000112
为频域复数矩阵的行数,/>
Figure GDA0004229625970000113
为频域复数矩阵的列数,对于给定的复数auv+buvi,auv为实部,buv为虚部,i为虚数单位,u=1,2,...,r,v=1,2,...,c;
对矩阵M中的各元素的模的平方取对数,得到大小为r×c的对数功率谱S,其形式化过程为
Figure GDA0004229625970000114
对对数功率谱S进行拼接和截断处理,得到大小为h×w的频域信号xF,其形式化过程为
Figure GDA0004229625970000115
其中,/>
Figure GDA0004229625970000116
为拼接的次数,
Figure GDA0004229625970000117
Figure GDA0004229625970000118
其中,Z0为大小为h×w的对数功率谱,Zj为大小为h×c的对数功率谱,Zk+1为大小为h×(w-tFc)的对数功率谱,c为频域复数矩阵的列数。
具体地,在本实施例中,Zj和x(n)两者是相等的,为保持时域信号定义简洁性,故采用了不同的符号。在时域预处理中,考虑到实际情况中语音时长和神经网络模型的结构之间相互制约的关系,设时域信号的维度阈值d=96,000。在频域预处理中,对给定的语音样本x(n)进行预加重处理,该操作可在一定程度上弥补频域信息中高频部分的损耗;对预加重后的语音样本x'(n)进行短时傅里叶变换,得到频域复数矩阵M,为了增强窗函数的能量抑制效果,此处采用布莱克曼(Blackman)窗。
在本实施例中,考虑到输入数据与神经网络模型的相互关系,频域信号的维度阈值h=w=400;预加重处理的比例系数ε=0.97,短时傅里叶变换的窗口长度和窗口大小l=1728,帧移δ=130。
S102,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
时域分支网络的功能是获取时域特征,主要由预处理层、残差层、特征压缩层和映射层组成,其工作流程如下:以语音的时域信号xT作为网络的输入,经过预处理层ftp后,生成特征Ftp,该过程可形式化为Ftp=ftp(xT,stp),其中,stp为预处理层的网络参数集合;
经过残差层ftr得到特征Ftr,该过程可形式化为Ftr=ftr(Ftp,str),str为残差层的网络参数集合;
利用特征压缩层ftc实现特征降维得到时域特征vT,该过程可以形式化为vT=ftc(Ftr,stc),其中,stc为特征压缩层的网络参数集合;
映射层ftm以时域特征vT为输入,输出自然语音的预测概率pT,该过程可以形式化为pT=ftm(vT,stm),其中,stm为映射层的网络参数集合;
利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程可以形式化为
Figure GDA0004229625970000131
其中,N为语音样本的数目,yi为第i个语音样本对应的标签,pTi为时域分支网络对第i个语音样本进行预测的概率。
具体地,在本实施例中,为最大程度上保留时域特征,映射层ftm以时域特征vT为输入,输出自然语音的预测概率pT;并且在计算时域辅助损失LT时,为保证时域特征的完整性,利用交叉熵损失函数计算预测概率和标签的损失。
请参阅图3,在本实施例中,预处理层是由卷积核大小为7的一维卷积层fcon、批量归一化fbn、激活函数frel(ReLU函数)和池化核和步长都为4的最大池化层fmp组成,其可以表示为:
Figure GDA0004229625970000132
其中,/>
Figure GDA0004229625970000133
为复合函数的符号。残差层是由四个残差结构ftre和最大池化fmp组成,其可以表示为:/>
Figure GDA0004229625970000134
其中,/>
Figure GDA0004229625970000135
为复合函数的符号,残差结构是由一维卷积层、批量归一化和激活函数组成,×4表示()中重复的次数,其展开为
Figure GDA0004229625970000136
特征压缩层是两个全连接层ffc组成,其输出维度分别为64、32,且每个连接层之后引入ReLU激活函数frel,其可以表示为/>
Figure GDA0004229625970000137
其中,/>
Figure GDA0004229625970000138
为复合函数的符号。映射层由一个全连接层组成,其输入维度为32,输出维度为2。
频域分支网络的功能是获取频域特征,主要由预处理层、带有注意力机制的残差层、全局平均池化层和映射层组成,其工作流程如下:以语音的频域信号xF作为网络的输入,经过预处理层ffp后得到特征Ffp,该过程可形式化为Ffp=ffp(xF,sfp),其中,sfp为预处理层的网络参数集合;
经过残差层ffr得到特征Ffr,该过程可形式化为Ffr=ffr(Ffp,sfr),其中,sfr为残差层的网络参数集合;
经过全局平均池化层ffap展平特征得到频域特征vF,其过程可以形式化为vF=ffap(Ffr);
映射层ffm以频域特征vF为输入,输出自然语音的预测概率pF,该过程可以形式化为pF=ffm(vF,sfm),其中,sfm为映射层的网络参数集合;
利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程可以形式化为
Figure GDA0004229625970000141
其中,N为语音样本的数目,yi为第i个语音样本对应的标签,pFi为频域分支网络对第i个语音样本进行预测的概率。
具体地,在本实施例中,为最大程度上保留频域特征,映射层ffm以频域特征vF为输入,输出自然语音的预测概率pF;并且,在计算频域辅助损失LF时,为保证频域特征的完整性,利用交叉熵损失函数计算预测概率和标签的损失。
在本实施例中,预处理层是由卷积核大小为7×7的二维卷积层fcov、批量归一化fbn、激活函数frel(ReLU函数)和池化核为3×3与步长为2×2的最大池化层fmp组成,其可以表示为:
Figure GDA0004229625970000142
其中,/>
Figure GDA0004229625970000143
为复合函数的符号。残差层是由八个引入注意力机制fse的残差结构ffre组成,其可以表示为:/>
Figure GDA0004229625970000144
其中,/>
Figure GDA0004229625970000145
为复合函数的符号,残差结构是由二维卷积层、批量归一化和激活函数组成,×8表示()中重复的次数,其展开为
Figure GDA0004229625970000146
全连接模块由一个全连接层组成,其输入维度为128,输出维度为2。
以时域特征vT和频域特征vF作为输入,对时域特征vT和频域特征vF进行拼接,并通过线性映射fpr实现融合和降维,得到特征Fpr
Figure GDA0004229625970000151
其中,/>
Figure GDA0004229625970000152
为拼接操作,spr为线性映射的网络参数集合;
经过非线性激活函数fact的处理,得到跨域特征vC,该过程可以形式化为vC=fact(Fpr);
分类层fcls以跨域特征vC为输入,输出自然语音的预测概率pC,该过程可以形式化定义为pC=fcls(vC,scls),其中,scls为分类层的网络参数集合;
利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程可以形式化定义为
Figure GDA0004229625970000153
其中,N为语音样本的数目,yi为第i个语音样本对应的标签,pCi为跨域融合网络对第i个语音样本进行预测的概率。
具体地,在本实施例中,在计算跨域辅助损失LC时,为保证时域特征和频域特征的充分融合,利用交叉熵损失函数计算预测概率和标签的损失。考虑到跨域特征的表征能力和维度的关系,线性映射的输出维度为64。
通过加权求和的方式联合时域辅助损失LT、频域辅助损失LF和跨域辅助损失LC,从而得到全局损失L,L=α·LT+β·LF+γ·LC,其中,α,β,γ∈[0,1]为经验参数,且α+β+γ=1。
具体地,在本实施例中,为简化训练过程,通过加权求和的方式联合时域辅助损失LT、频域辅助损失LF和跨域辅助损失LC,从而得到全局损失L;具体地,为简化模型的训练过程,设经验参数α=β=γ=1/3。时域辅助损失LT、频域辅助损失LF和跨域辅助损失LC反映了各类辅助损失在全局损失中所占的权重;通过迭代训练使全局损失逐渐降低,在此过程中保存性能最优的模型fb作为测试阶段的模型。
S103,获取待检测语音样本,对所述待检测语音样本进行预处理,生成与所述待检测语音样本相对应的时域信号和频域信号;
具体地,在本实施例中,假设待检测语音样本
Figure GDA0004229625970000161
其中,/>
Figure GDA0004229625970000162
为待测语音样本中的第i个采样数据值;随后按照步骤S101中的预处理操作对检测语音样本x*(n)进行预处理,分别得到与检测语音样本相对应的时域信号/>
Figure GDA0004229625970000163
和频域信号/>
Figure GDA0004229625970000164
S104,将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
具体地,在本实施例中,将时域信号
Figure GDA0004229625970000165
和频域信号/>
Figure GDA0004229625970000166
输入到训练好的伪造语音检测模型fb中,得到待测语音样本的预测概率/>
Figure GDA0004229625970000167
当/>
Figure GDA0004229625970000168
时,待测语音为自然语音,否则为伪造语音。
请参阅图4,在本实施例中,为了对所述联合时域和频域的伪造语音检测方法明进行评估,在ASVspoof 2019LA数据集进行了实验,该数据集分为三个子集:训练集(train)、验证集(dev)和测试集(eval)。训练集包含6种伪造算法(记为S01-S06),共25,380个语音样本;验证集包含6种伪造算法(记为S01-S06),共24,844个语音样本;测试集包含13种伪造算法(记为S07-S19),共71,237个语音样本。申请人在训练集上训练模型并保存验证集上的最优模型,在测试集上评估模型的性能,并与目前较为先进的伪造语音检测算法(J.-w.Jung,H.S.Heo,H.Tak,H.-j.Shim,J.S.Chung,B.-J.Lee,H.-J.Lee,and N.Evans.AASIST:AudioAnti-Spoofing Using Integrated Spectro-Temporal Graph Attention Networks,Proceedings of the IEEE International Conference on Acoustics,Speech andSignal Processing,2022,pp.6367-6371.)比较。为了能够直观地评估模型的性能,申请人采用了主流的评估指标:等错误率(Equal Error Rate,EER)和最小串联检测代价函数(Minimum Tandem Detection Cost Function,min t-DCF)。等错误率是错误接受率(FalseAccept Rate,FAR)和错误拒绝率(False Rejection Rate,FRR)相等时的错误率,它反映了伪造语音检测算法的性能,此值越小表示性能越好。最小串联检测代价函数反映了伪造语音检测算法对自动说话人验证系统性能的影响,此值越小表示对自动说话人验证系统影响越小。图4中的实验结果表明,所述联合时域和频域的伪造语音检测方法有着优秀的性能,超越了目前较为先进的伪造语音检测算法。
请参阅图5,本发明的第二实施例提供了联合时域和频域的伪造语音检测装置,包括:
样本获取单元201,用于获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组其中,所述预处理包括时域预处理和频域预处理,具体为:
设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为
Figure GDA0004229625970000171
其中,
Figure GDA0004229625970000172
为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,
Figure GDA0004229625970000173
给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF
模型构建单元202,用于根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
信号获取单元203,用于获取待检测的语音样本,对所述语音样本进行预处理,生成与所述语音样本相对应的时域信号和频域信号;
结果判别单元204,用于将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
本发明的第三实施例提供了联合时域和频域的伪造语音检测设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的联合时域和频域的伪造语音检测方法。
本发明的第四实施例提供了可读存储介质,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项所述的联合时域和频域的伪造语音检测方法。
示例性地,本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述实现联合时域和频域的伪造语音检测设备中的执行过程。例如,本发明第二实施例中所述的装置。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述联合时域和频域的伪造语音检测方法的控制中心,利用各种接口和线路连接整个所述实现对联合时域和频域的伪造语音检测方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现联合时域和频域的伪造语音检测方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。

Claims (9)

1.联合时域和频域的伪造语音检测方法,其特征在于,包括:
获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,其中,所述预处理包括时域预处理和频域预处理,具体为:
设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为
Figure FDA0004229625960000011
其中,/>
Figure FDA0004229625960000012
为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,
Figure FDA0004229625960000013
给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF
根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
获取待检测语音样本,对所述待检测语音样本进行预处理,生成与所述待检测语音样本相对应的时域信号和频域信号;
将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
2.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF,具体为:
对给定的语音样本x(n)进行预加重处理,其形式化过程为x'(n)=x(n)-ε·x(n-1),其中,ε为比例系数;
对预加重后的语音样本x'(n)进行短时傅里叶变换,得到频域复数矩阵M,其形式化过程为
Figure FDA0004229625960000021
其中,fSTFT为短时傅里叶变换,其窗口长度为l,帧移为δ,/>
Figure FDA0004229625960000022
为频域复数矩阵的行数,/>
Figure FDA0004229625960000023
为频域复数矩阵的列数,对于给定的复数auv+buvi,auv为实部,buv为虚部,i为虚数单位,u=1,2,...,r,v=1,2,...,c;
对矩阵M中的各元素的模的平方取对数,得到大小为r×c的对数功率谱S,其形式化过程为
Figure FDA0004229625960000024
对对数功率谱S进行拼接和截断处理,得到大小为h×w的频域信号xF,其形式化过程为
Figure FDA0004229625960000031
其中,/>
Figure FDA0004229625960000032
为拼接的次数,
Figure FDA0004229625960000033
Figure FDA0004229625960000034
其中,Z0为大小为h×w的对数功率谱,Zj为大小为h×c的对数功率谱,Zk+1为大小为h×(w-tFc)的对数功率谱,c为频域复数矩阵的列数。
3.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,具体为:
时域分支网络的功能是获取时域特征,主要由预处理层、残差层、特征压缩层和映射层组成,其工作流程如下:
以语音的时域信号xT作为网络的输入,经过预处理层ftp后,生成特征Ftp,该过程可形式化为Ftp=ftp(xT,stp),其中,stp为预处理层的网络参数集合;
经过残差层ftr得到特征Ftr,该过程可形式化为Ftr=ftr(Ftp,str),str为残差层的网络参数集合;
利用特征压缩层ftc实现特征降维得到时域特征vT,该过程形式化为vT=ftc(Ftr,stc),其中,stc为特征压缩层的网络参数集合;
映射层ftm以时域特征vT为输入,输出自然语音的预测概率pT,该过程形式化为pT=ftm(vT,stm),其中,stm为映射层的网络参数集合;
利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程形式化为
Figure FDA0004229625960000035
其中,N为语音样本的数目,yi为第i个语音样本对应的标签,pTi为时域分支网络对第i个语音样本进行预测的概率。
4.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,还包括:
频域分支网络的功能是获取频域特征,主要由预处理层、带有注意力机制的残差层、全局平均池化层和映射层组成,其工作流程如下:
以语音的频域信号xF作为网络的输入,经过预处理层ffp后得到特征Ffp,该过程可形式化为Ffp=ffp(xF,sfp),其中,sfp为预处理层的网络参数集合;
经过残差层ffr得到特征Ffr,该过程可形式化为Ffr=ffr(Ffp,sfr),其中,sfr为残差层的网络参数集合;
经过全局平均池化层ffap展平特征得到频域特征vF,其过程形式化为vF=ffap(Ffr);
映射层ffm以频域特征vF为输入,输出自然语音的预测概率pF,该过程形式化为pF=ffm(vF,sfm),其中,sfm为映射层的网络参数集合;
利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程形式化为
Figure FDA0004229625960000041
其中,N为语音样本的数目,yi为第i个语音样本对应的标签,pFi为频域分支网络对第i个语音样本进行预测的概率。
5.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,还包括:
以时域特征vT和频域特征vF作为输入,对时域特征vT和频域特征vF进行拼接,并通过线性映射fpr实现融合和降维,得到特征Fpr
Figure FDA0004229625960000051
其中,/>
Figure FDA0004229625960000052
为拼接操作,spr为线性映射的网络参数集合;
经过非线性激活函数fact的处理,得到跨域特征vC,该过程形式化为vC=fact(Fpr);
分类层fcls以跨域特征vC为输入,输出自然语音的预测概率pC,该过程形式化定义为pC=fcls(vC,scls),其中,scls为分类层的网络参数集合;
利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程形式化定义为
Figure FDA0004229625960000053
其中,N为语音样本的数目,yi为第i个语音样本对应的标签pCi为跨域融合网络对第i个语音样本进行预测的概率。
6.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型,具体为:
通过加权求和的方式联合时域辅助损失LT、频域辅助损失LF和跨域辅助损失LC,从而得到全局损失L,L=α·LT+β·LF+γ·LC,其中,α,β,γ∈[0,1]为经验参数,且α+β+γ=1。
7.联合时域和频域的伪造语音检测装置,其特征在于,包括:
样本获取单元,用于获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,其中,所述预处理包括时域预处理和频域预处理,具体为:
设时域操作的窗口维度为d,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成d维时域信号xT,其形式化过程为
Figure FDA0004229625960000061
其中,/>
Figure FDA0004229625960000062
为拼接的次数,z0={x1,x2,...,xd},zj={x1,x2,...,xn},j=1,2,...,tT-1,
Figure FDA0004229625960000063
给定的语音样本为x(n)={x1,x2,...,xn},i=1,2,...,n,xi为该语音样本中的第i个采样数据值,d为时域操作的窗口维度,n为采样数据的个数,z0为含有d个采样数据值的语音片段,zj为含有n个采样数据值的语音片段,zk+1为含有d-tTn个采样数据值的语音片段;
设定频域操作的窗口大小h×w,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为h×w的频域信号xF
模型构建单元,用于根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;
信号获取单元,用于获取待检测的语音样本,对所述语音样本进行预处理,生成与所述语音样本相对应的时域信号和频域信号;
结果判别单元,用于将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
8.联合时域和频域的伪造语音检测设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的联合时域和频域的伪造语音检测方法。
9.可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如权利要求1至6任意一项所述的联合时域和频域的伪造语音检测方法。
CN202310355092.4A 2023-04-06 2023-04-06 联合时域和频域的伪造语音检测方法、装置、设备及介质 Active CN116092503B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310355092.4A CN116092503B (zh) 2023-04-06 2023-04-06 联合时域和频域的伪造语音检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310355092.4A CN116092503B (zh) 2023-04-06 2023-04-06 联合时域和频域的伪造语音检测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116092503A CN116092503A (zh) 2023-05-09
CN116092503B true CN116092503B (zh) 2023-06-20

Family

ID=86212334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310355092.4A Active CN116092503B (zh) 2023-04-06 2023-04-06 联合时域和频域的伪造语音检测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116092503B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690455B (zh) * 2023-12-21 2024-05-28 合肥工业大学 基于滑动窗口的部分合成伪造语音检测方法和系统
CN118280389A (zh) * 2024-03-28 2024-07-02 南京龙垣信息科技有限公司 多重对抗判别伪造音频检测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155875A (zh) * 2022-02-09 2022-03-08 中国科学院自动化研究所 语音场景篡改鉴别的方法、装置、电子设备及存储介质
WO2022078651A1 (en) * 2020-10-15 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio generator and methods for generating an audio signal and training an audio generator

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115691475A (zh) * 2021-07-23 2023-02-03 澜至电子科技(成都)有限公司 用于训练语音识别模型的方法以及语音识别方法
CN114387977B (zh) * 2021-12-24 2024-06-11 深圳大学 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法
CN114627856A (zh) * 2022-03-30 2022-06-14 杭州网易智企科技有限公司 语音识别方法、装置、存储介质及电子设备
CN115331686A (zh) * 2022-05-11 2022-11-11 安徽大学 基于联合训练的噪声鲁棒伪造语音检测系统及其方法
CN115565538A (zh) * 2022-09-13 2023-01-03 山东省计算中心(国家超级计算济南中心) 基于单分类多尺度残差网络的语音鉴伪方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022078651A1 (en) * 2020-10-15 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio generator and methods for generating an audio signal and training an audio generator
CN114155875A (zh) * 2022-02-09 2022-03-08 中国科学院自动化研究所 语音场景篡改鉴别的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116092503A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN116092503B (zh) 联合时域和频域的伪造语音检测方法、装置、设备及介质
US11423926B2 (en) Real-time voice phishing detection
JP6535706B2 (ja) データセットの3値ビットマップを作成するための方法
CN110335587B (zh) 语音合成方法、系统、终端设备和可读存储介质
CN107274906A (zh) 语音信息处理方法、装置、终端及存储介质
CN110136744A (zh) 一种音频指纹生成方法、设备及存储介质
CN111276119B (zh) 语音生成方法、系统和计算机设备
CN112382300A (zh) 声纹鉴定方法、模型训练方法、装置、设备及存储介质
CN102915740B (zh) 可实现篡改定位的语音感知哈希内容认证方法
CN112738338B (zh) 基于深度学习的电话识别方法、装置、设备及介质
CN115116458B (zh) 语音数据转换方法、装置、计算机设备及存储介质
CN114596879A (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
CN114338623A (zh) 音频的处理方法、装置、设备、介质及计算机程序产品
Sampaio et al. Detection of AMR double compression using compressed-domain speech features
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
CN116580694A (zh) 音频对抗样本生成方法、装置、设备及存储介质
Chuchra et al. A deep learning approach for splicing detection in digital audios
CN116469396A (zh) 基于时频域掩蔽效应的跨域语音鉴伪方法和系统
CN116189710A (zh) 语音欺骗检测方法及装置
CN116312559A (zh) 跨信道声纹识别模型的训练方法、声纹识别方法及装置
CN116386664A (zh) 一种语音伪造检测方法、装置、系统及存储介质
CN114882889A (zh) 一种说话人识别模型训练方法、装置、设备及可读介质
Yadav et al. Compression Robust Synthetic Speech Detection Using Patched Spectrogram Transformer
Büker et al. Deep convolutional neural networks for double compressed AMR audio detection
CN111916057A (zh) 一种语言识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant