CN116844567A - 一种基于多特征重建融合的深度合成音频检测方法及系统 - Google Patents
一种基于多特征重建融合的深度合成音频检测方法及系统 Download PDFInfo
- Publication number
- CN116844567A CN116844567A CN202310623066.5A CN202310623066A CN116844567A CN 116844567 A CN116844567 A CN 116844567A CN 202310623066 A CN202310623066 A CN 202310623066A CN 116844567 A CN116844567 A CN 116844567A
- Authority
- CN
- China
- Prior art keywords
- feature
- feature vector
- discriminator
- encoder
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 41
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 28
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 28
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 135
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000002759 z-score normalization Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 14
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于音频鉴别技术领域,具体提供了一种基于多特征重建融合的深度合成音频检测方法及系统,其中方法包括:从语音信号中提取多种特征,并进行标准化处理再融合得到原始特征向量;进行掩码处理后得到重建特征向量;对重建特征向量与真实特征进行损失计算,以训练得到融合多种特征信息特性的编码器;训练鉴别器,使得鉴别器能够区分真实语音和伪造音频。利用训练好的编码器和鉴别器便可以检测语音真伪。本方案综合利用多种特征对语音进行鉴别,结合多种语音特征,将不同的特征进行调整和标准化,并将它们组合起来进行训练和推理。通过采用基于多特征重建融合的深度合成模型对音频进行重建,大大提高了语音鉴伪的准确性和可靠性。
Description
技术领域
本发明涉及音频鉴别技术领域,更具体地,涉及一种基于多特征重建融合的深度合成音频检测方法及系统。
背景技术
目前,音频鉴别技术已经得到了广泛应用。传统的基于特征提取的音频鉴别方法通常使用梅尔倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)或线性频率倒谱系数(Linear Frequency Cepstral Coefficient,LFCC)或线性预测系数(linearprediction coefficient,LPC)或常数Q变换(constant Q transform,CQT)等一种特征作为输入,再将其输入到分类器中进行训练和预测。但是,这种方法存在以下缺点:
(1)传统方法只使用单一特征进行分析,无法全面提取音频的各种特征,难以对伪造音频进行准确的检测。
(2)传统方法中使用的特征提取方法较为简单,难以准确地表征音频的复杂结构和语音特征,可能会导致分类结果不准确。
(3)一些语音鉴别技术通常只依赖于一种特征进行鉴别,如基于MFCC的语音鉴别。这种方法容易受到噪声和语音变异的影响,导致鉴别准确度下降,特别是在复杂的背景噪声环境下。
发明内容
本发明针对现有技术中存在的传统音频鉴别方法不准确的技术问题。
本发明提供了一种基于多特征重建融合的深度合成音频检测方法,包括以下步骤:
S1,从语音信号中提取多种特征,并对这些特征进行标准化处理再融合得到原始特征向量;
S2,对所述原始特征向量进行掩码处理后得到重建特征向量;
S3,对所述重建特征向量与真实特征进行损失计算,以训练得到融合多种特征信息特性的编码器;
S4,训练鉴别器,使得所述鉴别器能够区分真实语音和伪造音频;
S5,将原始特征向量输入步骤S3中训练好的编码器得到一个新特征向量,将所述新特征向量输入步骤S4中训练好的到鉴别器中,如果鉴别器模块输出的概率接近于1,则表示该语音信号为真实语音;反之,如果输出概率接近于0,则表示该语音信号为伪造语音。
优选地,所述S1具体包括:
S11,从原始语音信号中提取出LFCC、CQT、MFCC及LPC的多种特征;
S12,使用Z-score标准化或最小-最大标准化的方法将声学和语音特征标准化至相同的范围,得到标准化特征向量;
S13,将标准化特征向量进行维度对齐得到维度向量;
S14,通过数学运算将维度向量进行融合在一起得到原始特征向量。
优选地,所述S14具体包括:
首先,使用向量加权平均,其中每个维度向量都乘以一个权重因子;
然后,相加并除以权重因子之和,生成所述原始特征向量。
优选地,所述S2具体包括:
S21,将未掩码的原始特征向量拼接并输入到一个12层编码器中;
S22,将编码器中输入的原始特征向量与掩码部分进行拼接,然后输入到一个8层编码器中,得到一个重建特征向量。
优选地,所述S3具体包括:采用深度学习算法中的自编码器(autoencoder)模型,训练出一个能够将特征向量映射到固定长度编码向量的神经网络,通过该神经网络便可以将特征向量映射输出固定长度的编码向量。
优选地,所述S3还包括:将编码向量与先前掩码的特征进行解码,还原成原始特征向量。
优选地,所述S4具体包括:采用深度学习技术中的卷积神经网络(CNN)模型或循环神经网络(RNN)模型训练鉴别器,将所述S3中编码器输出的新特征向量作为输入进行训练,得到能够区分真实语音和伪造音频的鉴别器。
本发明还提供了一种基于多特征重建融合的深度合成音频检测系统,所述系统用于实现基于多特征重建融合的深度合成音频检测方法,包括:
特征提取模块,用于从语音信号中提取多种特征;
特征标准化融合模块,用于对多种所述特征进行标准化处理再融合得到原始特征向量;
掩码模块,用于对所述原始特征向量进行掩码处理后得到重建特征向量;
特征编码器模块,用于对所述重建特征向量与真实特征进行损失计算,以训练得到融合多种特征信息特性的编码器;
鉴别器模块,用于训练鉴别器,使得所述鉴别器能够区分真实语音和伪造音频;
推理模块,用于将原始特征向量输入训练好的编码器得到一个新特征向量,将所述新特征向量输入训练好的到鉴别器中,如果鉴别器模块输出的概率接近于1,则表示该语音信号为真实语音;反之,如果输出概率接近于0,则表示该语音信号为伪造语音。
本发明还提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现基于多特征重建融合的深度合成音频检测方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现基于多特征重建融合的深度合成音频检测方法的步骤。
有益效果:本发明提供的一种基于多特征重建融合的深度合成音频检测方法及系统,其中方法包括:从语音信号中提取多种特征,并对这些特征进行标准化处理再融合得到原始特征向量;对所述原始特征向量进行掩码处理后得到重建特征向量;对所述重建特征向量与真实特征进行损失计算,以训练得到融合多种特征信息特性的编码器;训练鉴别器,使得所述鉴别器能够区分真实语音和伪造音频。利用训练好的编码器和鉴别器便可以检测语音真伪。本方案综合利用多种特征对语音进行鉴别,结合多种语音特征,将不同的特征进行调整和标准化,并将它们组合起来进行训练和推理。通过采用基于多特征重建融合的深度合成模型对音频进行重建,大大提高了语音鉴伪的准确性和可靠性。
附图说明
图1为本发明提供的一种基于多特征重建融合的深度合成音频检测方法示意图;
图2为本发明提供的鉴别器训练示意图;
图3为本发明提供的一种可能的电子设备的硬件结构示意图;
图4为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1至图4所示,本发明实施例提供的一种基于多特征重建融合的深度合成音频检测方法,其特征在于,包括以下步骤:
S1,从语音信号中提取多种特征,并对这些特征进行标准化处理再融合得到原始特征向量;从原始语音信号中提取出LFCC、CQT、MFCC及LPC等多种特征,并对这些特征进行标准化处理。将标准化后的特征进行融合,生成一个原始特征向量。
采用了多种特征重建融合的方式,对语音信号进行了多方面的建模和分析,可以有效地提高语音鉴伪的准确率和可靠性。采用了特征标准化的方法,可以减少不同特征之间的差异和偏差,提高模型的鲁棒性和泛化能力。
S2,对所述原始特征向量进行掩码处理后得到重建特征向量;在输入编码器前,会对原始特征向量进行一个掩码的操作,将未掩码的原始特征向量拼接并输入到一个12层编码器(hidden大小为768)中。接下来,将编码器中输入的原始特征向量与掩码部分进行拼接,然后输入到一个8层编码器(hidden大小为512)中,得到一个重建特征向量。
S3,对所述重建特征向量与真实特征进行损失计算,以训练得到融合多种特征信息特性的编码器;通过计算所述重建特征与真实的特征进行损失计算,以训练编码器。原则上训练后会得到一个融合各种特征信息特性的编码器。
S4,训练鉴别器,使得所述鉴别器能够区分真实语音和伪造音频。
在鉴别器训练阶段,本发明去掉了解码器,将编码器后面接一个鉴别器,鉴别器可以采用深度学习技术中的卷积神经网络(CNN)、循环神经网络(RNN)等模型。通过训练,鉴别器能够有效地区分真实语音和合成音频(伪造语音)。
首先从语音信号中提取出LFCC、CQT、MFCC及LPC等多种特征,并对这些特征进行标准化处理。将标准化后的特征进行融合,生成一个原始特征向量。
然后与编码器训练,鉴别器训练不需要进行掩码操作。具体的过程,将得到的原始特征向量输入先前训练的编码器的得到一个新特征向量。将这个新特征向量输入到鉴别器中,如果鉴别器模块输出的概率接近于1,则表示该语音信号为真实语音;反之,如果输出概率接近于0,则表示该语音信号为伪造语音。
S5,将原始特征向量输入步骤S3中训练好的编码器得到一个新特征向量,将所述新特征向量输入步骤S4中训练好的到鉴别器中,如果鉴别器模块输出的概率接近于1,则表示该语音信号为真实语音;反之,如果输出概率接近于0,则表示该语音信号为伪造语音。
在推理阶段,本发明首先从待检测的语音中提取多种特征,并对这些特征进行标准化融合处理。然后,将融合后的特征输入到编码器中,得到一个特征融合矩阵即新特征向量。接着,将这个特征矩阵输入到判别器中,如果鉴别器模块输出的概率接近于1,则表示该语音信号为真实语音;反之,如果输出概率接近于0,则表示该语音信号为伪造语音。
值得注意的是,本发明所提出的语音鉴伪系统在推理时需要使用训练好的模型进行预测。因此,在使用该专利的语音鉴伪系统时,需要先进行模型训练,并得到一个训练好的模型。然后,将训练好的模型应用到实际场景中,对待检测的语音信号进行鉴别。
本发明实施例还提供了一种基于多特征重建融合的深度合成音频检测系统,所述系统用于实现如前所述的基于多特征重建融合的深度合成音频检测方法,包括:
特征提取模块,用于从语音信号中提取多种特征。
特征提取是通过特征提取模块进行提取,该模块是本发明的一个子模块,主要用于从原始语音信号中提取出代表性的声学和语音特征。在实现时,可以采用常见的语音信号处理技术,如LFCC、MFCC、CQT和LPC等,提取出语音特征。如MFCC是一种常用的语音信号处理方法,它模拟了人耳对声音的感知特性,将语音信号分解成多个频带,并计算每个频带的梅尔倒谱系数,作为语音特征进行分析和识别。
LPC是一种基于线性预测模型的语音信号处理方法,它通过分析语音信号的线性预测系数,提取出语音信号的共振峰和非共振峰等特征,用于语音合成和语音识别等应用中。
特征标准化融合模块,用于对多种所述特征进行标准化处理再融合得到原始特征向量。
特征标准化融合模块主要是将从语音信号中提取出来的声学和语音特征进行标准化处理,并将它们融合在一起。
数据标准化处理:使用常见的数据标准化方法,如Z-score标准化、最小-最大标准化等,将声学和语音特征标准化至相同的范围。这个过程可以消除不同特征之间的度量单位和范围的影响,使得它们可以直接进行比较和融合。
特征融合:在进行特征融合之前,标准化后的特征向量需要进行维度对齐,确保它们有相同的维度。然后,可以使用向量加法、乘法等数学运算将它们融合在一起得到原始特征向量。
特征融合一种常见的方式是使用简单的向量加权平均,其中每个特征向量都乘以一个权重因子,然后将它们相加并除以权重因子之和,生成一个新的特征向量即原始特征向量。具体来说,设Xa和Xv分别表示标准化后的声学和语音特征向量,Wa和Wv分别表示它们的权重因子,则融合后的特征向量即原始特征向量Xf可以表示为:
Xf=waXa+wvXv
在保留声学和语音特征各自信息的同时,将它们结合起来,提高分类和识别的准确率。
掩码模块,用于对所述原始特征向量进行掩码处理后得到重建特征向量。
特征编码器模块,用于对所述重建特征向量与真实特征进行损失计算,以训练得到融合多种特征信息特性的编码器。
特征编码器模块主要负责将从特征标准化融合模块中获得的原始特征向量进行编码,目标是融合各种特征的不同特性,编码出具有深度区分信息的复杂结构和语音特征,进一步提高了鉴伪的准确性和可靠性。在实现时,可以采用深度学习技术中的自编码器(autoencoder)模型,训练出一个能够将特征向量映射到固定长度编码向量的神经网络,通过该神经网络便可以将特征向量映射输出固定长度的编码向量。
特征解码器模块,特征解码器模块主要负责将编码向量与先前掩码的特征进行解码,还原成原始特征向量。在实现时,可以使用同样的自编码器模型,将编码向量映射回原始特征向量。
鉴别器模块,用于训练鉴别器,使得所述鉴别器能够区分真实语音和伪造音频。鉴别器模块是本发明的核心模块,主要用于判断输入语音的真伪。在实现时,可以采用深度学习技术中的卷积神经网络(CNN)、循环神经网络(RNN)等模型进行训练,将特征解码器模块输出的原始特征向量或编码器输出的新特征向量作为输入。通过训练,鉴别器模块能够有效地区分真实语音和合成音频。
推理模块,用于将原始特征向量输入训练好的编码器得到一个新特征向量,将所述新特征向量输入训练好的到鉴别器中,如果鉴别器模块输出的概率接近于1,则表示该语音信号为真实语音;反之,如果输出概率接近于0,则表示该语音信号为伪造语音。
请参阅图3为本发明实施例提供的电子设备的实施例示意图。如图3所示,本发明实施例提了一种电子设备,包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320执行计算机程序1311时实现以下步骤:S1,从语音信号中提取多种特征,并对这些特征进行标准化处理再融合得到原始特征向量;
S2,对所述原始特征向量进行掩码处理后得到重建特征向量;
S3,对所述重建特征向量与真实特征进行损失计算,以训练得到融合多种特征信息特性的编码器;
S4,训练鉴别器,使得所述鉴别器能够区分真实语音和伪造音频;
S5,将原始特征向量输入步骤S3中训练好的编码器得到一个新特征向量,将所述新特征向量输入步骤S4中训练好的到鉴别器中,如果鉴别器模块输出的概率接近于1,则表示该语音信号为真实语音;反之,如果输出概率接近于0,则表示该语音信号为伪造语音。
请参阅图4为本发明提供的一种计算机可读存储介质的实施例示意图。如图4所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:S1,从语音信号中提取多种特征,并对这些特征进行标准化处理再融合得到原始特征向量;
S2,对所述原始特征向量进行掩码处理后得到重建特征向量;
S3,对所述重建特征向量与真实特征进行损失计算,以训练得到融合多种特征信息特性的编码器;
S4,训练鉴别器,使得所述鉴别器能够区分真实语音和伪造音频;
S5,将原始特征向量输入步骤S3中训练好的编码器得到一个新特征向量,将所述新特征向量输入步骤S4中训练好的到鉴别器中,如果鉴别器模块输出的概率接近于1,则表示该语音信号为真实语音;反之,如果输出概率接近于0,则表示该语音信号为伪造语音。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (10)
1.一种基于多特征重建融合的深度合成音频检测方法,其特征在于,包括以下步骤:
S1,从语音信号中提取多种特征,并对这些特征进行标准化处理再融合得到原始特征向量;
S2,对所述原始特征向量进行掩码处理后得到重建特征向量;
S3,对所述重建特征向量与真实特征进行损失计算,以训练得到融合多种特征信息特性的编码器;
S4,训练鉴别器,使得所述鉴别器能够区分真实语音和伪造音频;
S5,将原始特征向量输入步骤S3中训练好的编码器得到一个新特征向量,将所述新特征向量输入步骤S4中训练好的到鉴别器中,如果鉴别器模块输出的概率接近于1,则表示该语音信号为真实语音;反之,如果输出概率接近于0,则表示该语音信号为伪造语音。
2.根据权利要求1所述的基于多特征重建融合的深度合成音频检测方法,其特征在于,所述S1具体包括:
S11,从原始语音信号中提取出LFCC、CQT、MFCC及LPC的多种特征;
S12,使用Z-score标准化或最小-最大标准化的方法将声学和语音特征标准化至相同的范围,得到标准化特征向量;
S13,将标准化特征向量进行维度对齐得到维度向量;
S14,通过数学运算将维度向量进行融合在一起得到原始特征向量。
3.根据权利要求2所述的基于多特征重建融合的深度合成音频检测方法,其特征在于,所述S14具体包括:
首先,使用向量加权平均,其中每个维度向量都乘以一个权重因子;
然后,相加并除以权重因子之和,生成所述原始特征向量。
4.根据权利要求1所述的基于多特征重建融合的深度合成音频检测方法,其特征在于,所述S2具体包括:
S21,将未掩码的原始特征向量拼接并输入到一个12层编码器中;
S22,将编码器中输入的原始特征向量与掩码部分进行拼接,然后输入到一个8层编码器中,得到一个重建特征向量。
5.根据权利要求1所述的基于多特征重建融合的深度合成音频检测方法,其特征在于,所述S3具体包括:采用深度学习算法中的自编码器(autoencoder)模型,训练出一个能够将特征向量映射到固定长度编码向量的神经网络,通过该神经网络便可以将特征向量映射输出固定长度的编码向量。
6.根据权利要求5所述的基于多特征重建融合的深度合成音频检测方法,其特征在于,所述S3还包括:将编码向量与先前掩码的特征进行解码,还原成原始特征向量。
7.根据权利要求1所述的基于多特征重建融合的深度合成音频检测方法,其特征在于,所述S4具体包括:采用深度学习技术中的卷积神经网络(CNN)模型或循环神经网络(RNN)模型训练鉴别器,将所述S3中编码器输出的新特征向量作为输入进行训练,得到能够区分真实语音和伪造音频的鉴别器。
8.一种基于多特征重建融合的深度合成音频检测系统,其特征在于,所述系统用于实现如权利要求1-7任一项所述的基于多特征重建融合的深度合成音频检测方法,包括:
特征提取模块,用于从语音信号中提取多种特征;
特征标准化融合模块,用于对多种所述特征进行标准化处理再融合得到原始特征向量;
掩码模块,用于对所述原始特征向量进行掩码处理后得到重建特征向量;
特征编码器模块,用于对所述重建特征向量与真实特征进行损失计算,以训练得到融合多种特征信息特性的编码器;
鉴别器模块,用于训练鉴别器,使得所述鉴别器能够区分真实语音和伪造音频;
推理模块,用于将原始特征向量输入训练好的编码器得到一个新特征向量,将所述新特征向量输入训练好的到鉴别器中,如果鉴别器模块输出的概率接近于1,则表示该语音信号为真实语音;反之,如果输出概率接近于0,则表示该语音信号为伪造语音。
9.一种电子设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的基于多特征重建融合的深度合成音频检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的基于多特征重建融合的深度合成音频检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310623066.5A CN116844567A (zh) | 2023-05-29 | 2023-05-29 | 一种基于多特征重建融合的深度合成音频检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310623066.5A CN116844567A (zh) | 2023-05-29 | 2023-05-29 | 一种基于多特征重建融合的深度合成音频检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844567A true CN116844567A (zh) | 2023-10-03 |
Family
ID=88160701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310623066.5A Pending CN116844567A (zh) | 2023-05-29 | 2023-05-29 | 一种基于多特征重建融合的深度合成音频检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844567A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118016051A (zh) * | 2024-04-07 | 2024-05-10 | 中国科学院自动化研究所 | 基于模型指纹聚类的生成语音溯源方法及装置 |
-
2023
- 2023-05-29 CN CN202310623066.5A patent/CN116844567A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118016051A (zh) * | 2024-04-07 | 2024-05-10 | 中国科学院自动化研究所 | 基于模型指纹聚类的生成语音溯源方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305616B (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN110909613A (zh) | 视频人物识别方法、装置、存储介质与电子设备 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN114596879B (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
CN115083394B (zh) | 一种融合时空属性的实时环境噪声识别方法、系统及设备 | |
CN111445900A (zh) | 一种语音识别的前端处理方法、装置及终端设备 | |
CN112735435A (zh) | 具备未知类别内部划分能力的声纹开集识别方法 | |
CN116844567A (zh) | 一种基于多特征重建融合的深度合成音频检测方法及系统 | |
CN113409771B (zh) | 一种伪造音频的检测方法及其检测系统和存储介质 | |
CN116705063B (zh) | 一种基于流形测度的多模型融合的语音鉴伪识别方法 | |
CN116665649A (zh) | 基于韵律特征的合成语音检测方法 | |
CN112418173A (zh) | 异常声音识别方法、装置及电子设备 | |
CN117116292A (zh) | 音频检测方法、装置、电子设备及存储介质 | |
CN116564315A (zh) | 一种声纹识别方法、装置、设备及存储介质 | |
CN116386664A (zh) | 一种语音伪造检测方法、装置、系统及存储介质 | |
CN114822558A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN113327616A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
CN116189687B (zh) | 一种声纹识别方法、装置、电子设备及存储介质 | |
CN117496394B (zh) | 基于图像和语音多模态融合的伪造视频检测方法及装置 | |
CN112133311B (zh) | 说话人识别方法、相关设备及可读存储介质 | |
CN117059092B (zh) | 基于区块链的智慧医疗交互式智能分诊方法及系统 | |
CN117636909B (zh) | 一种数据处理方法、装置、设备以及计算机可读存储介质 | |
CN117457005A (zh) | 一种基于动量对比学习的声纹识别方法和设备 | |
CN118016101A (zh) | 基于块级别对比学习的声码器指纹识别方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |