CN116386664A - 一种语音伪造检测方法、装置、系统及存储介质 - Google Patents
一种语音伪造检测方法、装置、系统及存储介质 Download PDFInfo
- Publication number
- CN116386664A CN116386664A CN202211567068.9A CN202211567068A CN116386664A CN 116386664 A CN116386664 A CN 116386664A CN 202211567068 A CN202211567068 A CN 202211567068A CN 116386664 A CN116386664 A CN 116386664A
- Authority
- CN
- China
- Prior art keywords
- detected
- voice
- voice data
- acoustic features
- resolution acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本申请公开了一种语音伪造检测方法、装置、系统及存储介质,所述方法包括以下步骤:获取待检测语音数据;提取所述待检测语音数据的多分辨率声学特征;将所述待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分;将所述待检测语音数据的重构误差得分与预设的得分阈值进行比较,以获得语音伪造检测结果。根据本申请公开的语音伪造检测方法、装置、系统及存储介质,实现了语音伪造检测,提高了用于语音检测的自编码模型的泛化能力和鲁棒性。
Description
技术领域
本申请涉及人工智能技术领域,具体而言涉及一种语音伪造检测方法、装置、系统及存储介质。
背景技术
自动说话人识别(automatic speaker verification,ASV)作为一种生物识别技术,可以判断当前输入语音是否为系统注册的某一个特定说话人,从而实现身份认证功能。由于其方便、无感知等特性越来越广泛应用于访问控制、电子商务和智能家居等情景中,然而已有相关研究表明语音伪造技术如文本语音合成(text to speech,TTS)、音色转换(voice conversion,VC)等会威胁到自动说话人识别系统的安全性。自动说话人识别系统在面对伪造语音时难以有效地区分出当前语音是真实的自然人发出还是利用各类伪造技术合成的,这会给系统带来严重的安全隐患。有效的语音伪造检测是自动说话人识别系统安全应用的基础。
现有的语音伪造检测技术通常是使用真实的自然人语音和伪造算法合成的假音数据作为训练集,基于有监督的二分类训练,得到区分真伪音的模型。然而,构建一个考虑所有可能的伪造算法或攻击场景的训练集是不现实的,因为无法了解攻击者具体会使用哪一种TTS或VC算法合成伪造音频攻击系统,同时伪造算法也是不断更新变化的,而利用受限的伪造算法构建训练集获得的伪造检测模型往往泛化性较弱,模型针对已见过的伪造类型进行学习定制检测策略,在检测训练集内伪造算法合成或者同源数据构建的伪造音频时检测效果较好,而面对未知的伪造算法或攻击手段合成的音频时难以有效分辨,给出错误的识别结果,模型整体检测效果下降明显。
因此需要进行改进,以解决上述问题中的至少一个。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本申请的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
本申请一方面提供了一种语音伪造检测方法,所述方法包括以下步骤:
获取待检测语音数据;
提取所述待检测语音数据的多分辨率声学特征;
将所述待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分;
将所述待检测语音数据的重构误差得分与预设的得分阈值进行比较,以获得语音伪造检测结果。
在一个实施例中,所述自编码模型包括变分自编码网络,所述变分自编码网络至少包括编码网络和解码网络,所述自编码模型的训练过程包括:
提取训练语音数据的原始多分辨率声学特征;
将所述训练语音数据的原始多分辨率声学特征输入到所述变分自编码网络的编码网络,以获得所述原始多分辨率声学特征的隐空间分布;
对所述隐空间分布进行采样以获得隐空间样本;
将所述隐空间样本输入到所述变分自编码网络的解码网络,以对所述原始多分辨率声学特征进行重构,以获得重构多分辨率声学特征;
基于所述重构多分辨率声学特征与所述原始多分辨率声学特征计算重构损失,以获得重构损失函数;
基于所述重构损失函数的最小重构误差得分优化所述变分自编码网络的参数,以获得所述已训练的自编码模型。
在一个实施例中,所述待检测语音数据的多分辨率声学特征包括所述待检测语音数据在两个或更多个频率段的声学特征,所述训练语音数据的原始多分辨率声学特征包括所述训练语音数据在两个或更多个频率段的声学特征。
在一个实施例中,提取所述待检测语音数据的多分辨率声学特征包括:
对所述待检测语音数据进行分帧加窗处理;
对所述待检测语音数据进行傅里叶变换;
使用多个窗长获得所述待检测语音数据的多分辨率声学特征。
在一个实施例中,所述训练语音数据包括人类真实语音数据。
在一个实施例中,所述训练语音数据的多分辨率声学特征的隐空间分布服从正态分布,获得所述原始多分辨率声学特征的隐空间分布包括获得正态分布的均值和方差变量。
在一个实施例中,所述重构损失函数包括均方误差函数和散度损失函数。
在一个实施例中,将所述待检测语音数据的重构误差得分与预设的得分阈值进行比较,以获得语音伪造检测结果包括:
当所述待检测语音数据的重构误差得分高于所述预设的得分阈值时,所述待检测语音数据为伪造语音;
当所述待检测语音数据的重构误差得分低于所述预设的得分阈值时,所述待检测语音数据非伪造语音。
本申请另一方面还提供一种语音伪造检测装置,所述装置包括:
获取模块,用于获取待检测语音数据;
特征提取模块,用于提取所述待检测语音数据的多分辨率声学特征;
自编码模块,用于将所述待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分;
比较模块,将所述待检测语音数据的重构误差得分与预设的得分阈值进行比较,以获得语音伪造检测结果。
本申请又一方面还提供一种语音伪造检测系统,所述系统包括存储器和处理器,所述存储器上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行前述的语音伪造检测方法。
本申请再一方面还提供一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序在运行时,执行前述的语音伪造检测方法。
为了解决前述技术问题中的至少一个,本方面提供了一种语音伪造检测方法、装置、系统及存储介质,通过本申请的语音伪造检测方法,先提取待检测语音数据的多分辨率声学特征,然后将提取的待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分,然后基于所述重构误差得分与预设的得分阈值的比较结果来判断待检测语音是否为伪造语音,实现了语音伪造检测,提高了用于语音检测的自编码模型的泛化能力和鲁棒性。
附图说明
本申请的下列附图在此作为本申请的一部分用于理解本申请。附图中示出了本申请的实施例及其描述,用来解释本申请的原理。
附图中:
图1示出根据本申请实施例的语音伪造检测方法的示意性流程图。
图2示出根据本申请实施例的自编码模型的示意性框图。
图3示出根据本申请实施例的自编码模型的训练过程的示意性流程图。
图4示出根据本申请实施例的语音伪造检测装置的示意性框图。
图5示出根据本申请实施例的语音伪造检测系统的示意性框图。
具体实施方式
为了使得本申请的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其他实施例都应落入本申请的保护范围之内。
基于前述技术问题中的至少一个,如图1所示,本申请提供一种语音伪造检测方法100,该方法包括以下步骤:
步骤S110,获取待检测语音数据;
步骤S120,提取所述待检测语音数据的多分辨率声学特征;
步骤S130,将所述待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分;
步骤S140,将所述待检测语音数据的重构误差得分与预设的得分阈值进行比较,以获得语音伪造检测结果。
通过本申请的语音伪造检测方法,先提取待检测语音数据的多分辨率声学特征,然后将提取的待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分,然后基于所述重构误差得分与预设的得分阈值的比较结果来判断待检测语音是否为伪造语音,实现了语音伪造检测,提高了用于语音检测的自编码模型的泛化能力和鲁棒性。
首先,参照图2和图3,对自编码模型及其训练过程300进行介绍。
在一些实施例中,如图2所示,本申请的自编码模型为变分自编码网络200,所述变分自编码网络200至少包括编码网络210和解码网络220。编码网络210和解码网络220可以是卷积神经网络(Convolutional Neural Network,CNN),深度神经网络(Deep NeuralNetwork,DNN),递归神经网络(Recurrent Neural Network RNN),长短期记忆网络(LongShort-Term Memory,LSTM),嵌入有Attention的神经网络结构等等。
如图3所示,自编码模型的训练过程300包括以下步骤:
步骤S310,提取训练语音数据的原始多分辨率声学特征;
步骤S320,将所述训练语音数据的原始多分辨率声学特征输入到所述变分自编码网络的编码网络,以获得所述原始多分辨率声学特征的隐空间分布;
步骤S330,对所述隐空间分布进行采样以获得隐空间样本;
步骤S340,将所述隐空间样本输入到所述变分自编码网络的解码网络,以对所述原始多分辨率声学特征进行重构,以获得重构多分辨率声学特征;
步骤S350,基于所述重构多分辨率声学特征与所述原始多分辨率声学特征计算重构损失,以获得重构损失函数;
步骤S360,基于所述重构损失函数的最小重构误差得分优化所述变分自编码网络的参数,以获得所述已训练的自编码模型。
上述训练语音数据包括人类真实语音数据。主要是指训练用于语音伪造检测的自编码模型的语音数据,仅包括通过对话交流、会议、讨论、朗读、演讲、语言测试以及表演类型的口述(语言类曲艺表演,脱口秀等)等场景获得的人类真实语音数据,其不包括通过机器合成的模拟人类语音数据,也不包括音乐、自然界声音等非人类语音数据;所述训练语音数据的接受方式可以通过各类型麦克风现场录音或后期采集,还可以通过网络远程传输等其他方式,本申请对此不作限定。
在步骤S310,提取所述训练语音数据的多分辨率声学特征,其中,多分辨率声学特征包括所述训练语音数据在两个或更多个频率段的声学特征。
一般而言,声学特征为语音数据的频谱特征。比如,声学特征可以包括梅尔频率倒谱系数(mel frequency cepstrum coefficient,MFCC)特征、线性频率倒谱系数(linearfrequency cepstrum coefficient,LFCC)特征、滤波器组(filter bank,FB)特征或幅度谱特征等。
在一个实施例中,可以通过如下方式提取训练语音数据的多分辨率声学特征:
将训练语音数据经过分帧加窗、傅里叶变化等步骤后得到待检测语音数据的声学特征,使用多个窗长获得多分辨率尺度的特征这里以三个窗长为例,x、y、z分别表示不同分辨率的特征,T表示提取特征的语音帧数,d代表特征维度。
在步骤S320,将所述训练语音数据的原始多分辨率声学特征输入到所述自编码模型的编码网络,以获得所述原始多分辨率声学特征的隐空间分布。进一步,所述训练语音数据的多分辨率声学特征的隐空间分布服从正态分布,获得所述原始多分辨率声学特征的隐空间分布包括获得正态分布的均值和方差变量。
在一个实施例中,通过变分自编码网络的编码网络210将训练语音数据投影到一个隐空间的分布,对步骤S310中提取的多分辨率声学特征X作为输入,将X输入到变分自编码网络的编码网络210进行训练学习。隐空间的分布通常采用的是正态分布,编码网络可以采用如上所述的CNN、DNN等神经网络,通过多层神经网络的堆叠和非线性激活函数后,分别获取正态分布的均值μ和方差变量σ2,编码网络210的输出定义为μ=f1(X),logσ2=f2(X),因为方差非负,所以通过log函数将数值映射到实数。经过编码网络210对每个输入X获得了对应的隐空间分布P(Z):X→P(Z|X)=N(μ,σ2),变换后的隐变量Z关于每一个样本后验都服从一个正态分布P。
在步骤S330,对所述隐空间分布进行采样以获得隐空间样本。
在一个实施例中,编码网络210的训练过程需要不断迭代更新均值方差的计算参数,而采样这个过程是不可导的,为此通过重参数技巧,将从N(μ,σ2)采样转变为从N(0,1)采样/>而/>此时即可通过BP算法梯度传播。编码网络210为每个样本都构造了特定的正态分布(后验),然后再基于该后验分布进行采样来生成隐空间样本
在步骤S340,将所述隐空间样本输入到所述自编码模型的解码网络,以对所述原始多分辨率声学特征进行重构,以获得重构多分辨率声学特征。
在一个实施例中,解码网络220以采样获得的作为输入,经过神经网络的变换将对原始的输入特征X进行重构输出/>也就是/>这里G代表解码网络函数,解码网络220可以选择与编码网络210对称的结构和参数设置,将隐空间的样本重构回原始特征输入的变量空间。
在步骤S350,基于所述重构多分辨率声学特征与所述原始多分辨率声学特征计算重构损失,以获得重构损失函数。其中,所述重构损失函数包括均方误差函数和散度损失函数。
在一个实施例中,将步骤S340输出的重构样本X与原始输入特征X计算重构损失,重构损失一般采用均方误差(Mean Squared Error,MSE)函数计算二者差值平方的平均。在网络学习过程中,为了使重构误差变小,模型的学习方向会将方差变量学习为零,而方差为零时从分布中采样也将失去作用,这样变分自编码网络将退化回普通的自编码网络。为了防止这种现象,网络在学习时将加入散度(Kullback-Leible,KL)损失函数对网络学习进行正则化,将约束网络的隐空间分布向标准正态分布看齐,则网络最终的损失函数将由两部损失组合构成:
其中I表示输入特征所有元素个数的和,J表示隐变量空间的维度。
在步骤S360,基于所述重构损失函数的最小重构误差得分优化所述变分自编码网络的参数,以获得所述已训练的自编码模型。
在一个实施例中,通过将所述重构损失函数的最小重构损失得分反向传播,以优化所述变分自编码网络的参数,重复上述变分自编码网络的参数优化过程,从而获得所述已训练的自编码模块。
接下来,参照图1,对语音伪造检测方法100进行介绍。
上述待检测语音数据主要是指用于检测语音伪造的语音数据,所针对的应用场景可以是诸如访问控制、电子商务和智能家居等自动说话人识别场景,其可以包括通过对话交流、会议、讨论、朗读、演讲、语言测试以及表演类型的口述(语言类曲艺表演,脱口秀等)等情景获得的人类真实语音数据,也可以包括通过机器合成的伪造语音,但不包括音乐、自然界声音等非人类语音音频数据;所述待检测语音数据的接受方式可以通过各类型麦克风现场录音或后期采集,还可以通过网络远程传输等其他方式,本申请对此不作限定。
在步骤S110,待检测语音数据可以是获取到的原始语音信息,该原始语音信息可以是长语流语音或者短语流语音,长语流语音可以是指的时长大于或等于预设时长的语音,而短语流语音则可以是指的时长在预设时间以下的语音。该预设时长可以是根据先验经验合理设定的,在此不做具体限定。
在一些实施例中,所述获取待检测语音数据包括:获取原始语音信息,可选地,该原始语音信息可以为长语流语音;通过语音活动端点检测(Voice Activity Detection,简称VAD)对所述原始语音信息进行分段并过滤所述原始语音信息中的无效语音,以获得所述待检测语音数据,通过分段及过来可以使得待检测语音数据包括的语音基本上是有效语音,从而避免无效语音对后续的语音识别的效果产生干扰,进而提高语音识别输出结果的准确性。
其中,VAD可以用于分离原始语音信息中语音信号和非语音信号(也即无效语音,例如音乐、混响等背景噪音),VAD可以通过本领域技术人员熟知的任意适合的方式来显示,例如,通过分帧,判断一帧的能量,过零率等简单的方法来判断是否是语音段(也可以称为有效语音);2,通过检测一帧是否有基音周期来判断是否是语音段(也可以称为有效语音);3,通过深度神经网络(Deep Neural Networks,DNN)的方法训练模型来分类是否是语音帧,通过DNN来做语音分类,进而分离语音段(可称有效语音)和非语音段(也即无效语音)。
是否应用VAD进行分段及过滤可以根据实际应用场景进行合理的选择,例如,当应用场景涉及的多数为短语流语音(例如微信语音)时,则可以不使用VAD进行分段及过滤,而当应用场景涉及的多数为长语流语音时,则可以使用VAD进行分段及过滤。
或者,在一些实施例中,可以根据原始语音信息的时长来确定是否应用VAD进行分段及过滤,例如当时长大于或等于预设时长时,则应用VAD,而当时长小于预设时长时,则不应用VAD。通过如此灵活设置,可以在保证后续语音识别效果的前提下,减少数据处理量。
进一步,在步骤S120,提取所述待检测语音数据的多分辨率声学特征,其中,多分辨率声学特征包括所述待检测语音数据在两个或更多个频率段的声学特征。
一般而言,声学特征为语音数据的频谱特征。比如,声学特征可以包括梅尔频率倒谱系数(mel frequency cepstrum coefficient,MFCC)特征、线性频率倒谱系数(linearfrequency cepstrum coefficient,LFCC)特征、滤波器组(filter bank,FB)特征或幅度谱特征等。
在一个实施例中,可以通过如下方式提取待检测语音数据的多分辨率声学特征:
对所述待检测语音数据进行分帧加窗处理;
对所述待检测语音数据进行傅里叶变换;
使用多个窗长获得所述待检测语音数据的多分辨率声学特征。
接下来,在步骤S130,将所述待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分。
在一个实施例中,基于上述步骤S350获得的重构损失函数,获得待检测语音数据的多分辨率声学特征与重构的待检测语音数据的多分辨率声学特征二者的重构误差得分。
接下来,在步骤S140,将所述待检测语音数据的重构误差得分与预设的得分阈值进行比较,以获得语音伪造检测结果。
在一个实施例中,当所述待检测语音数据的重构误差得分高于所述预设的得分阈值时,所述待检测语音数据为伪造语音;当所述待检测语音数据的重构误差得分低于所述预设的得分阈值时,所述待检测语音数据非伪造语音。
在一个实施例中,得分阈值可以根据实际需要合理设定,通过得分阈值的设定可以控制整体语音伪造检测的虚警和漏警率的平衡。
基于上面的描述,通过本申请的语音伪造检测方法,先提取待检测语音数据的多分辨率声学特征,然后将提取的待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分,然后基于所述重构误差得分与预设的得分阈值的比较结果来判断待检测语音是否为伪造语音,实现了语音伪造检测,提高了用于语音检测的自编码模型的泛化能力和鲁棒性。
下面将结合图4描述根据本申请另一方面提供的一种语音伪造检测装置400,其可以用于执行前文所述的根据本申请实施例的语音伪造检测方法。
如图4所示,语音伪造检测装置400可以包括:获取模块410,用于获取待检测语音数据;特征提取模块420,用于提取所述待检测语音数据的多分辨率声学特征;自编码模块430,用于将所述待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分;比较模块440,将所述待检测语音数据的重构误差得分与预设的得分阈值进行比较,以获得语音伪造检测结果。该装置的各个模块的细节可以参考前文方法的相关描述,在此不再一一描述。
下面将结合图5描述根据本申请另一方面提供的一种语音伪造检测系统500,其可以用于执行前文所述的根据本申请实施例的语音伪造检测方法。
前述实施例的语音伪造检测装置可以用于语音伪造检测系统500,该语音伪造检测系统500可以例如为各种终端设备,例如手机、电脑、平板电脑等。
如图5所示,语音伪造检测系统500可以包括存储器510和处理器520,存储器510存储有由处理器520运行的计算机程序,所述计算机程序在被处理器520运行时,使得处理器520执行前文所述的根据本申请实施例的语音伪造检测方法100。本领域技术人员可以结合前文所述的内容理解根据本申请实施例的语音伪造检测方法100的具体操作,为了简洁,此处不再赘述具体的细节。
处理器520可以为本领域公知的任何处理系统,例如,中央处理单元(CPU)、图形处理单元(GPU)、微处理器、微控制器、现场可编程门阵列(FPGA)等,本申请对此不作限定。
其中,存储器510用于存储一个或更多个神经网络的网络参数。示例性地,存储器510可以为RAM、ROM、EEPROM、闪存或者其他存储技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储系统,或者可以用来存储期望的信息且可以由处理器820访问的任何其他介质。
语音伪造检测系统500还包括显示器(未示出),该显示器可以用于显示各种可视化信息,例如显示重构误差得分或语音伪造检测结果等。
语音伪造检测系统800还可以包括通信接口(未示出),可以通过通信总线实现处理器、通信接口、存储器等硬件之间的信息交互。
此外,根据本申请实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本申请实施例的语音伪造检测方法100的相应步骤。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本申请的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者系统的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不任何顺序。可将这些单词解释为名称。
Claims (11)
1.一种语音伪造检测方法,其特征在于,所述方法包括以下步骤:
获取待检测语音数据;
提取所述待检测语音数据的多分辨率声学特征;
将所述待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分;
将所述待检测语音数据的重构误差得分与预设的得分阈值进行比较,以获得语音伪造检测结果。
2.如权利要求1所述的检测方法,其特征在于,所述自编码模型包括变分自编码网络,所述变分自编码网络至少包括编码网络和解码网络,所述自编码模型的训练过程包括:
提取训练语音数据的原始多分辨率声学特征;
将所述训练语音数据的原始多分辨率声学特征输入到所述变分自编码网络的编码网络,以获得所述原始多分辨率声学特征的隐空间分布;
对所述隐空间分布进行采样以获得隐空间样本;
将所述隐空间样本输入到所述变分自编码网络的解码网络,以对所述原始多分辨率声学特征进行重构,以获得重构多分辨率声学特征;
基于所述重构多分辨率声学特征与所述原始多分辨率声学特征计算重构损失,以获得重构损失函数;
基于所述重构损失函数的最小重构误差得分优化所述变分自编码网络的参数,以获得所述已训练的自编码模型。
3.如权利要求2所述的检测方法,其特征在于,所述待检测语音数据的多分辨率声学特征包括所述待检测语音数据在两个或更多个频率段的声学特征,所述训练语音数据的原始多分辨率声学特征包括所述训练语音数据在两个或更多个频率段的声学特征。
4.如权利要求3所述的检测方法,其特征在于,提取所述待检测语音数据的多分辨率声学特征包括:
对所述待检测语音数据进行分帧加窗处理;
对所述待检测语音数据进行傅里叶变换;
使用多个窗长获得所述待检测语音数据的多分辨率声学特征。
5.如权利要求2所述的检测方法,其特征在于,所述训练语音数据包括人类真实语音数据。
6.如权利要求2所述的检测方法,其特征在于,所述训练语音数据的多分辨率声学特征的隐空间分布服从正态分布,获得所述原始多分辨率声学特征的隐空间分布包括获得正态分布的均值和方差变量。
7.如权利要求2所述的检测方法,其特征在于,所述重构损失函数包括均方误差函数和散度损失函数。
8.如权利要求1所述的检测方法,其特征在于,将所述待检测语音数据的重构误差得分与预设的得分阈值进行比较,以获得语音伪造检测结果包括:
当所述待检测语音数据的重构误差得分高于所述预设的得分阈值时,所述待检测语音数据为伪造语音;
当所述待检测语音数据的重构误差得分低于所述预设的得分阈值时,所述待检测语音数据非伪造语音。
9.一种语音伪造检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测语音数据;
特征提取模块,用于提取所述待检测语音数据的多分辨率声学特征;
自编码模块,用于将所述待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分;
比较模块,将所述待检测语音数据的重构误差得分与预设的得分阈值进行比较,以获得语音伪造检测结果。
10.一种语音伪造检测系统,其特征在于,所述系统包括存储器和处理器,所述存储器上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如权利要求1-8中的任一项所述的语音伪造检测方法。
11.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序在运行时,执行如权利要求1-8中的任一项所述的语音伪造检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211567068.9A CN116386664A (zh) | 2022-12-07 | 2022-12-07 | 一种语音伪造检测方法、装置、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211567068.9A CN116386664A (zh) | 2022-12-07 | 2022-12-07 | 一种语音伪造检测方法、装置、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116386664A true CN116386664A (zh) | 2023-07-04 |
Family
ID=86979283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211567068.9A Pending CN116386664A (zh) | 2022-12-07 | 2022-12-07 | 一种语音伪造检测方法、装置、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386664A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117393000A (zh) * | 2023-11-09 | 2024-01-12 | 南京邮电大学 | 一种基于神经网络和特征融合的合成语音检测方法 |
-
2022
- 2022-12-07 CN CN202211567068.9A patent/CN116386664A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117393000A (zh) * | 2023-11-09 | 2024-01-12 | 南京邮电大学 | 一种基于神经网络和特征融合的合成语音检测方法 |
CN117393000B (zh) * | 2023-11-09 | 2024-04-16 | 南京邮电大学 | 一种基于神经网络和特征融合的合成语音检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN108831443B (zh) | 一种基于堆叠自编码网络的移动录音设备源识别方法 | |
WO2018223727A1 (zh) | 识别声纹的方法、装置、设备及介质 | |
CN106710599A (zh) | 一种基于深度神经网络的特定声源检测方法与系统 | |
EP3989217B1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN109872720B (zh) | 一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法 | |
WO2017045429A1 (zh) | 一种音频数据的检测方法、系统及存储介质 | |
CN111986679A (zh) | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 | |
CN113488073A (zh) | 一种基于多特征融合的伪造语音检测方法及装置 | |
CN112735435A (zh) | 具备未知类别内部划分能力的声纹开集识别方法 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN111540342A (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
Li et al. | Homologous audio copy-move tampering detection method based on pitch | |
CN102496366B (zh) | 一种与文本无关的说话人识别方法 | |
CN113823293A (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN116386664A (zh) | 一种语音伪造检测方法、装置、系统及存储介质 | |
Gaurav et al. | An efficient speaker identification framework based on Mask R-CNN classifier parameter optimized using hosted cuckoo optimization (HCO) | |
Liu et al. | A robust acoustic feature extraction approach based on stacked denoising autoencoder | |
CN111524520A (zh) | 一种基于误差逆向传播神经网络的声纹识别方法 | |
CN116229960A (zh) | 欺骗性语音鲁棒检测方法、系统、介质及设备 | |
CN113838469A (zh) | 一种身份识别方法、系统及存储介质 | |
CN113327633A (zh) | 基于深度神经网络模型的带噪语音端点检测方法及装置 | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
CN115985347B (zh) | 基于深度学习的语音端点检测方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |