CN112270931A - 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 - Google Patents
一种基于孪生卷积神经网络进行欺骗性语音检测的方法 Download PDFInfo
- Publication number
- CN112270931A CN112270931A CN202011139472.7A CN202011139472A CN112270931A CN 112270931 A CN112270931 A CN 112270931A CN 202011139472 A CN202011139472 A CN 202011139472A CN 112270931 A CN112270931 A CN 112270931A
- Authority
- CN
- China
- Prior art keywords
- voice
- dimensional
- gaussian
- neural network
- gaussian mixture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 15
- 239000000203 mixture Substances 0.000 claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000003062 neural network model Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 51
- 238000009826 distribution Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000012952 Resampling Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000010363 phase shift Effects 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于孪生卷积神经网络进行欺骗性语音检测的方法,包括如下步骤:(1)提取语音的高斯概率特征:(a)对所有原始语音进行预处理;(b)对预处理后的语音进行CQCC特征提取;(c)对CQCC特征训练得到两个高斯混合模型;(d)通过两个高斯混合模型提取语音的高斯概率特征;(2)对语音进行欺骗性检测:语音经过两个高斯混合模型提取特征后,得到二维矩阵,将二维矩阵输入到神经网络模型中进行语音欺骗性检测。本发明采用孪生卷积神经网络,基于真实语音和欺骗语音两种高斯混合模型训练,能够大大提高欺骗性语音检测的准确性。
Description
技术领域
本发明属于语音检测技术领域,更具体的说是涉及一种基于孪生卷积神经网络进行欺骗性语音检测的方法。
背景技术
自动说话人确认(ASV)旨在通过给定语音段自动确认说话者的身份。语音技术的最新进展通过各种欺骗攻击对ASV系统构成了巨大威胁。有四种众所周知的攻击对ASV系统构成了严重威胁,即模仿,文本语音转换(TTS),语音转换(VC)和重播。针对于真实语音和欺骗性语音的两类高斯混合模型分类器通常用作ASVspoof挑战的基线系统,该分类器旨在开发通用的有可能检测各种和无法预料的欺骗性攻击的对策。在经典高斯混合模型(GMM)中,分数是在所有特征帧上独立累积的,而且每个高斯分量的贡献信息都将被丢弃,并且在时间轴方向上也忽略了相邻帧之间的关系。这将直接影响着欺骗性语音检测的准确性。
因此,如何提供一种基于孪生卷积神经网络进行欺骗性语音检测的方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于孪生卷积神经网络进行欺骗性语音检测的方法,采用孪生卷积神经网络,能够大大提高欺骗性语音检测的准确性。
为了实现上述目的,本发明采用如下技术方案:
一种基于孪生卷积神经网络进行欺骗性语音检测的方法,包括如下步骤:
(1)提取语音的高斯概率特征:
(a)对所有原始语音进行预处理;
(b)对预处理后的语音进行CQCC特征提取;
(c)对CQCC特征训练得到两个高斯混合模型;
(d)通过两个高斯混合模型提取语音的高斯概率特征;
(2)对语音进行欺骗性检测:
语音经过两个高斯混合模型提取特征后,得到二维矩阵,将二维矩阵输入到神经网络模型中进行语音欺骗性检测。
优选的,对所有原始语音进行预处理,包括预加重、分帧和加窗:
(1)预加重:语音信号的第n个采样点位x[n],预加重公式如下:
x'[n]=x[n]-0.97*x[n-1]
(2)分帧:将预加重后的语音分成短时语音帧,每帧帧长位20ms,为确保声学特征参数的平滑性,采用重叠取帧的方式,相邻帧重叠部分为10ms;
(3)加窗:对每帧信号进行加窗处理,采用汉明窗函数,得到短时加窗的语音信号:
xl[n]=w[n]*x[n+lL],0≤n≤N-1
其中,w[n]=0.54-0.46cos(2πn/N-1)
其中,w[n]是窗函数,N是窗长,l是帧索引,L是帧移。
优选的,对预处理后的语音进行CQCC特征提取的方法包括:
(1)常数Q变换:
将预处理后的语音时序信号x(n)进行常数Q变换,即得到频域信号XCQT(k);常数Q变换表示为:
其中,fk是频率仓的中心频率,fs是采样率,Φk是相位相移,其中C是尺度函数,定义如下:
(2)获取能量谱:
首先将经过常数Q变换得到的频域信号XCQT(k)表示为:
XCQT(k)=acosθkk+jasinθkk=ak+jbk
(3)信号转换
对能量谱取对数将乘性信号转换为加性信号,得到log|XCQT(k)|2;
(4)均匀采样:
通过将第一个音程分成周期为Tl的d等份,因为高音程是低音程分辨率的两倍,则可得到在第二个音程为2d等份;如此类推,第j个音程为2j-1d等份,自然就能确定线性重采样周期了;通过求解kl得到线性分辨率:
得到线性分布下的新采样频率Fl:
(5)离散余弦变换:
使用DCT对频谱压缩后的得到CQCC特征;其中L是重采样后的频带数,p=0,1,...,L-1;
优选的,对CQCC特征训练得到两个高斯混合模型的方法为:
训练集中包含多个真实语音和欺骗语音,分别将这两类语音的CQCC特征放在一起,采用EM方法分别训练得到2个M阶高斯混合模型;对于D维向量x,概率密度计算公式为:
高斯混合分布的权重系数wi满足
概率密度是由M个正态高斯密度函数pi(x)组成:
其中,D为特征向量维度大小,μi和Σi分别是高斯密度函数的均值和协方差矩阵。
优选的,通过两个高斯混合模型提取语音的高斯概率特征的方法为:
1)对于每条语音的CQCC特征序列X={x1,x2,...,xN},提取高斯概率分布特征:对于特征xi,对应的高斯概率特征fi,由其在高斯混合模型分量的概率值计算得到。对于fi中的每个分量fij,计算公式为:
fij=log(wj·pj(xi))
其中,wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值;
2)对所有特征进行全局的均值方差归一化,计算所有语音的高斯概率特征的均值和方差,进行归一化
其中,μf和σf是训练集中所有语音的高斯概率特征的均值与方差。
优选的,神经网络模型结构为:
1)卷积层:包括多个一维卷积滤波器函数,窗口大小分别是2,3,4,5,6,7;
卷积层的输入是经前面步骤后得到的语音特征,设语音帧数为T,语音转换成大小为512*T的二维向量X,输入到一维卷积层,卷积公式是:
其中,wi,j是滤波器的权重系数,b是偏移量,wl是滤波器的窗口大小;二维特征矩阵经过一个滤波器后,得到一维矩阵Y,长度为T;系统中滤波器数量为512,得到512个一维向量,直接拼接组成一个大小为512*T的二维向量;系统中窗口大小设置6个不同的值,这样得到6个二维向量,直接拼接组成大小为3072*T的二维向量;
2)池化层:对卷积层的输出的二维向量,用一维最大池化层获得固定大小为3072的一维向量Z,每个元素的值Zl的计算公式是:
Zi=max({Yi,j})
池化层对卷积层的输出二维矩阵Y,沿着帧数方向取最大值,获得一维向量;由于前面特征提取的时候,根据两个高斯混合模型得到两组高斯概率特征,经过卷积层和池化层,得到两个大小为3072的一维向量,将这两个向量简单串接起来得到大小为6144的一维向量;
3)全连接层:全连接层包含512个神经元节点,输出是大小为512的一维向量,其中每个节点的输出Pi计算公式是:
其中,wi,j是滤波器的权重系数,b是偏移量,f是ReLU激活函数:
f(x)=max(0,x)
4)输出层:输出层包含2个神经元节点,分别表示分类的结果是真实语音Q0还是欺骗语音Q1;
其中wi,j是滤波器的权重系数,b是偏移量,h是Sigmoid激活函数:
最后根据O的两个元素值大小判断语音是正常语音还是欺骗语音。
优选的,采用交叉熵损失函数训练神经网络,表示如下:
本发明的有益效果在于:
传统的GMM会在所有帧上独立累积分数,并且不会考虑每个高斯分量对最终分数的贡献,相邻帧之间的关系也被忽略。本发明采用孪生卷积神经网络,基于真实语音和欺骗语音两种高斯混合模型训练,来进行欺骗语音检测,对于话语,高斯概率特征包括每个GMM组件上的分数分布,提出一维CNN模型,该模型不仅考虑GMM上的帧得分,还考虑帧之间的局部关系,还提出了一种用于欺骗语音检测的孪生卷积神经网络,它基于分别训练为真实语音和欺骗语音的两个高斯混合模型,能够大大提高欺骗性语音检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的方法流程图。
图2附图为本发明高斯混合模型的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅附图1,本发明提供了一种基于孪生卷积神经网络进行欺骗性语音检测的方法,包括如下步骤:
(1)在传统的语音CQCC特征的基础上,进一步提取高斯概率分布特征:
(a)对所有原始语音进行预处理;
(b)对预处理后的语音进行CQCC特征提取;
(c)对CQCC特征训练得到两个高斯混合模型;
(d)通过两个高斯混合模型提取语音的高斯概率特征;
(2)对语音进行欺骗性检测:
语音经过两个高斯混合模型(分别在真实语音和欺骗语音集上训练得到)提取特征后,得到二维矩阵,将二维矩阵输入到神经网络模型中进行语音欺骗性检测。
本实施例中,对所有原始语音进行预处理,包括预加重、分帧和加窗:
(1)预加重:语音信号的第n个采样点位x[n],预加重公式如下:
x'[n]=x[n]-0.97*x[n-1]
(2)分帧:一般认为语音信号具有短时平稳特性,将预加重后的语音分成短时语音帧,每帧帧长位20ms,为确保声学特征参数的平滑性,采用重叠取帧的方式,相邻帧重叠部分为10ms;
(3)加窗:对每帧信号进行加窗处理,采用汉明窗函数,得到短时加窗的语音信号:
xl[n]=w[n]*x[n+lL],0≤n≤N-1
其中,w[n]=0.54-0.46cos(2πn/N-1)
其中,w[n]是窗函数,N是窗长,l是帧索引,L是帧移。
本实施例中,对预处理后的语音进行CQCC特征提取的方法包括:
(1)常数Q变换:
将预处理后的语音时序信号x(n)进行常数Q变换,即得到频域信号XCQT(k);常数Q变换表示为:
其中,fk是频率仓的中心频率,fs是采样率,Φk是相位相移,其中C是尺度函数,定义如下:
(2)获取能量谱:
首先将经过常数Q变换得到的频域信号XCQT(k)表示为:
XCQT(k)=acosθkk+jasinθkk=ak+jbk
(3)信号转换
对能量谱取对数将乘性信号转换为加性信号,得到log|XCQT(k)|2;
(4)均匀采样:
通过将第一个音程分成周期为Tl的d等份,因为高音程是低音程分辨率的两倍,则可得到在第二个音程为2d等份;如此类推,第j个音程为2j-1d等份,自然就能确定线性重采样周期了;通过求解kl得到线性分辨率:
得到线性分布下的新采样频率Fl:
(5)离散余弦变换:
使用DCT对频谱压缩后的得到CQCC特征;其中L是重采样后的频带数,p=0,1,…,L-1;
本实施例中,对CQCC特征训练得到两个高斯混合模型的方法为:
训练集中包含多个真实语音和欺骗语音,分别将这两类语音的CQCC特征放在一起,采用EM(Expectation Maximization,期望最大)方法分别训练得到2个M阶高斯混合模型(如512阶);对于D维向量x,概率密度计算公式为:
高斯混合分布的权重系数wi满足
概率密度是由M个正态高斯密度函数pi(x)组成:
其中,D为特征向量维度大小,μi和Σi分别是高斯密度函数的均值和协方差矩阵。
本模型采用EM算法来获得这些参数,算法描述如下:
B)设训练语音的特征为{xtt=1,2,…,T},按照下面公式对高斯混合模型参数进行估计:
C)重复B步骤50次。
本实施例中,通过两个高斯混合模型提取语音的高斯概率特征的方法为:
1)对于每条语音的CQCC特征序列X={x1,x2,…,xN},提取高斯概率分布特征:对于特征xi,对应的高斯概率特征fi,由其在高斯混合模型分量的概率值计算得到。对于fi中的每个分量fij,计算公式为:
fij=log(wj·pj(xi))
其中,wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值;
2)对所有特征进行全局的均值方差归一化,计算所有语音的高斯概率特征的均值和方差,进行归一化:
其中,μf和σf是训练集中所有语音的高斯概率特征的均值与方差。
本实施例中,神经网络模型结构为:
1)卷积层:包括多个一维卷积滤波器函数,窗口大小分别是2,3,4,5,6,7;
卷积层的输入是经前面步骤后得到的语音特征,设语音帧数为T,语音转换成大小为512*T的二维向量X,输入到一维卷积层,卷积公式是:
其中,wi,j是滤波器的权重系数,b是偏移量,wl是滤波器的窗口大小;二维特征矩阵经过一个滤波器后,得到一维矩阵Y,长度为T;系统中滤波器数量为512,得到512个一维向量,直接拼接组成一个大小为512*T的二维向量;系统中窗口大小设置6个不同的值,这样得到6个二维向量,直接拼接组成大小为3072*T的二维向量;
2)池化层:对卷积层的输出的二维向量,用一维最大池化层获得固定大小为3072的一维向量Z,每个元素的值Zl的计算公式是:
Zi=max({Yi,j})
池化层对卷积层的输出二维矩阵Y,沿着帧数方向取最大值,获得一维向量;由于前面特征提取的时候,根据两个高斯混合模型得到两组高斯概率特征,经过卷积层和池化层,得到两个大小为3072的一维向量,将这两个向量简单串接起来得到大小为6144的一维向量;
3)全连接层:全连接层包含512个神经元节点,输出是大小为512的一维向量,其中每个节点的输出Pi计算公式是:
其中,wi,j是滤波器的权重系数,b是偏移量,f是ReLU激活函数:
f(x)=max(0,x)
4)输出层:输出层包含2个神经元节点,分别表示分类的结果是真实语音Q0还是欺骗语音Q1;
其中wi,j是滤波器的权重系数,b是偏移量,h是Sigmoid激活函数:
最后根据O的两个元素值大小判断语音是正常语音还是欺骗语音。
本实施例中,采用交叉熵损失函数训练神经网络,表示如下:
传统的GMM会在所有帧上独立累积分数,并且不会考虑每个高斯分量对最终分数的贡献,相邻帧之间的关系也被忽略。本发明采用孪生卷积神经网络,基于真实语音和欺骗语音两种高斯混合模型训练,来进行欺骗语音检测,对于一段语音,高斯概率特征包括每个GMM组件上的分数分布,提出一维CNN模型,该模型不仅考虑GMM上的帧得分,还考虑帧之间的相邻关系,还提出了一种用于欺骗语音检测的孪生卷积神经网络,它基于分别训练为真实语音和欺骗语音的两个高斯混合模型,能够大大提高欺骗性语音检测的准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于孪生卷积神经网络进行欺骗性语音检测的方法,其特征在于,包括如下步骤:
(1)提取语音的高斯概率特征:
(a)对所有原始语音进行预处理;
(b)对预处理后的语音进行CQCC特征提取;
(c)对CQCC特征训练得到两个高斯混合模型;
(d)通过两个高斯混合模型提取语音的高斯概率特征;
(2)对语音进行欺骗性检测:
语音经过两个高斯混合模型提取特征后,得到二维矩阵,将二维矩阵输入到神经网络模型中进行语音欺骗性检测。
2.根据权利要求1所述的一种基于孪生卷积神经网络进行欺骗性语音检测的方法,其特征在于,对所有原始语音进行预处理,包括预加重、分帧和加窗:
(1)预加重:语音信号的第n个采样点位x[n],预加重公式如下:
x'[n]=x[n]-0.97*x[n-1]
(2)分帧:将预加重后的语音分成短时语音帧,每帧帧长位20ms,为确保声学特征参数的平滑性,采用重叠取帧的方式,相邻帧重叠部分为10ms;
(3)加窗:对每帧信号进行加窗处理,采用汉明窗函数,得到短时加窗的语音信号:
xl[n]=w[n]*x[n+lL],0≤n≤N-1
其中,w[n]=0.54-0.46cos(2πn/N-1)
其中,w[n]是窗函数,N是窗长,l是帧索引,L是帧移。
3.根据权利要求2所述的一种基于孪生卷积神经网络进行欺骗性语音检测的方法,其特征在于,对预处理后的语音进行CQCC特征提取的方法包括:
(1)常数Q变换:
将预处理后的语音时序信号x(n)进行常数Q变换,即得到频域信号XCQT(k);常数Q变换表示为:
其中,fk是频率仓的中心频率,fs是采样率,Φk是相位相移,其中C是尺度函数,定义如下:
(2)获取能量谱:
首先将经过常数Q变换得到的频域信号XCQT(k)表示为:
XCQT(k)=a cosθkk+ja sinθkk=ak+jbk
(3)信号转换
对能量谱取对数将乘性信号转换为加性信号,得到log|XCQT(k)|2;
(4)均匀采样:
通过将第一个音程分成周期为Tl的d等份,因为高音程是低音程分辨率的两倍,则可得到在第二个音程为2d等份;如此类推,第j个音程为2j-1d等份,自然就能确定线性重采样周期了;通过求解kl得到线性分辨率:
得到线性分布下的新采样频率Fl:
(5)离散余弦变换:
使用DCT对频谱压缩后的得到CQCC特征;其中L是重采样后的频带数,p=0,1,...,L-1;
5.根据权利要求4所述的一种基于孪生卷积神经网络进行欺骗性语音检测的方法,其特征在于,通过两个高斯混合模型提取语音的高斯概率特征的方法为:
1)对于每条语音的CQCC特征序列X={x1,x2,...,xN},提取高斯概率分布特征:对于特征xi,对应的高斯概率特征fi,由其在高斯混合模型分量的概率值计算得到。对于fi中的每个分量fij,计算公式为:
fij=log(wj·pj(xi))
其中,wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值;
2)对所有特征进行全局的均值方差归一化,计算所有语音的高斯概率特征的均值和方差,进行归一化
其中,μf和σf是训练集中所有语音的高斯概率特征的均值与方差。
6.根据权利要求5所述的一种基于孪生卷积神经网络进行欺骗性语音检测的方法,其特征在于,神经网络模型结构为:
1)卷积层:包括多个一维卷积滤波器函数,窗口大小分别是2,3,4,5,6,7;
卷积层的输入是经前面步骤后得到的语音特征,设语音帧数为T,语音转换成大小为512*T的二维向量X,输入到一维卷积层,卷积公式是:
其中,wi,j是滤波器的权重系数,b是偏移量,wl是滤波器的窗口大小;二维特征矩阵经过一个滤波器后,得到一维矩阵Y,长度为T;系统中滤波器数量为512,得到512个一维向量,直接拼接组成一个大小为512*T的二维向量;系统中窗口大小设置6个不同的值,这样得到6个二维向量,直接拼接组成大小为3072*T的二维向量;
2)池化层:对卷积层的输出的二维向量,用一维最大池化层获得固定大小为3072的一维向量Z,每个元素的值Zl的计算公式是:
Zi=max({Yi,j})
池化层对卷积层的输出二维矩阵Y,沿着帧数方向取最大值,获得一维向量;由于前面特征提取的时候,根据两个高斯混合模型得到两组高斯概率特征,经过卷积层和池化层,得到两个大小为3072的一维向量,将这两个向量简单串接起来得到大小为6144的一维向量;
3)全连接层:全连接层包含512个神经元节点,输出是大小为512的一维向量,其中每个节点的输出Pi计算公式是:
其中,wi,j是滤波器的权重系数,b是偏移量,f是ReLU激活函数:
f(x)=max(0,x)
4)输出层:输出层包含2个神经元节点,分别表示分类的结果是真实语音Q0还是欺骗语音Q1;
其中wi,j是滤波器的权重系数,b是偏移量,h是Sigmoid激活函数:
最后根据O的两个元素值大小判断语音是正常语音还是欺骗语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011139472.7A CN112270931B (zh) | 2020-10-22 | 2020-10-22 | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011139472.7A CN112270931B (zh) | 2020-10-22 | 2020-10-22 | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270931A true CN112270931A (zh) | 2021-01-26 |
CN112270931B CN112270931B (zh) | 2022-10-21 |
Family
ID=74342846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011139472.7A Active CN112270931B (zh) | 2020-10-22 | 2020-10-22 | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270931B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927694A (zh) * | 2021-03-08 | 2021-06-08 | 中国地质大学(武汉) | 一种基于融合声纹特征的语音指令合法性判别方法 |
CN113139569A (zh) * | 2021-03-04 | 2021-07-20 | 山东科技大学 | 目标分类检测方法、装置与系统 |
CN113241079A (zh) * | 2021-04-29 | 2021-08-10 | 江西师范大学 | 一种基于残差神经网络的语音欺骗检测方法 |
CN113284508A (zh) * | 2021-07-21 | 2021-08-20 | 中国科学院自动化研究所 | 基于层级区分的生成音频检测系统 |
CN113314148A (zh) * | 2021-07-29 | 2021-08-27 | 中国科学院自动化研究所 | 基于原始波形的轻量级神经网络生成语音鉴别方法和系统 |
CN117153190A (zh) * | 2023-10-27 | 2023-12-01 | 广东技术师范大学 | 基于注意力机制组合特征的回放语音检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198561A (zh) * | 2017-12-13 | 2018-06-22 | 宁波大学 | 一种基于卷积神经网络的翻录语音检测方法 |
CN109243487A (zh) * | 2018-11-30 | 2019-01-18 | 宁波大学 | 一种归一化常q倒谱特征的回放语音检测方法 |
CN110211594A (zh) * | 2019-06-06 | 2019-09-06 | 杭州电子科技大学 | 一种基于孪生网络模型和knn算法的说话人识别方法 |
US20190304470A1 (en) * | 2016-07-11 | 2019-10-03 | FTR Labs Pty Ltd | Method and system for automatically diarising a sound recording |
CN110491391A (zh) * | 2019-07-02 | 2019-11-22 | 厦门大学 | 一种基于深度神经网络的欺骗语音检测方法 |
US20200043508A1 (en) * | 2018-08-02 | 2020-02-06 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for a triplet network with attention for speaker diarization |
CN111048097A (zh) * | 2019-12-19 | 2020-04-21 | 中国人民解放军空军研究院通信与导航研究所 | 一种基于3d卷积的孪生网络声纹识别方法 |
CN111243600A (zh) * | 2020-01-10 | 2020-06-05 | 浙江大学 | 一种基于声场和场纹的语音欺骗攻击检测方法 |
CN111370003A (zh) * | 2020-02-27 | 2020-07-03 | 杭州雄迈集成电路技术股份有限公司 | 一种基于孪生神经网络的声纹比对方法 |
CN112885358A (zh) * | 2021-01-22 | 2021-06-01 | 江西师范大学 | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 |
CN113241079A (zh) * | 2021-04-29 | 2021-08-10 | 江西师范大学 | 一种基于残差神经网络的语音欺骗检测方法 |
-
2020
- 2020-10-22 CN CN202011139472.7A patent/CN112270931B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190304470A1 (en) * | 2016-07-11 | 2019-10-03 | FTR Labs Pty Ltd | Method and system for automatically diarising a sound recording |
CN108198561A (zh) * | 2017-12-13 | 2018-06-22 | 宁波大学 | 一种基于卷积神经网络的翻录语音检测方法 |
US20200043508A1 (en) * | 2018-08-02 | 2020-02-06 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for a triplet network with attention for speaker diarization |
CN109243487A (zh) * | 2018-11-30 | 2019-01-18 | 宁波大学 | 一种归一化常q倒谱特征的回放语音检测方法 |
CN110211594A (zh) * | 2019-06-06 | 2019-09-06 | 杭州电子科技大学 | 一种基于孪生网络模型和knn算法的说话人识别方法 |
CN110491391A (zh) * | 2019-07-02 | 2019-11-22 | 厦门大学 | 一种基于深度神经网络的欺骗语音检测方法 |
CN111048097A (zh) * | 2019-12-19 | 2020-04-21 | 中国人民解放军空军研究院通信与导航研究所 | 一种基于3d卷积的孪生网络声纹识别方法 |
CN111243600A (zh) * | 2020-01-10 | 2020-06-05 | 浙江大学 | 一种基于声场和场纹的语音欺骗攻击检测方法 |
CN111370003A (zh) * | 2020-02-27 | 2020-07-03 | 杭州雄迈集成电路技术股份有限公司 | 一种基于孪生神经网络的声纹比对方法 |
CN112885358A (zh) * | 2021-01-22 | 2021-06-01 | 江西师范大学 | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 |
CN113241079A (zh) * | 2021-04-29 | 2021-08-10 | 江西师范大学 | 一种基于残差神经网络的语音欺骗检测方法 |
Non-Patent Citations (9)
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139569A (zh) * | 2021-03-04 | 2021-07-20 | 山东科技大学 | 目标分类检测方法、装置与系统 |
CN113139569B (zh) * | 2021-03-04 | 2022-04-22 | 山东科技大学 | 目标分类检测方法、装置与系统 |
CN112927694A (zh) * | 2021-03-08 | 2021-06-08 | 中国地质大学(武汉) | 一种基于融合声纹特征的语音指令合法性判别方法 |
CN112927694B (zh) * | 2021-03-08 | 2022-09-13 | 中国地质大学(武汉) | 一种基于融合声纹特征的语音指令合法性判别方法 |
CN113241079A (zh) * | 2021-04-29 | 2021-08-10 | 江西师范大学 | 一种基于残差神经网络的语音欺骗检测方法 |
CN113284508A (zh) * | 2021-07-21 | 2021-08-20 | 中国科学院自动化研究所 | 基于层级区分的生成音频检测系统 |
US11763836B2 (en) | 2021-07-21 | 2023-09-19 | Institute Of Automation, Chinese Academy Of Sciences | Hierarchical generated audio detection system |
CN113314148A (zh) * | 2021-07-29 | 2021-08-27 | 中国科学院自动化研究所 | 基于原始波形的轻量级神经网络生成语音鉴别方法和系统 |
CN113314148B (zh) * | 2021-07-29 | 2021-11-09 | 中国科学院自动化研究所 | 基于原始波形的轻量级神经网络生成语音鉴别方法和系统 |
CN117153190A (zh) * | 2023-10-27 | 2023-12-01 | 广东技术师范大学 | 基于注意力机制组合特征的回放语音检测方法 |
CN117153190B (zh) * | 2023-10-27 | 2024-01-19 | 广东技术师范大学 | 基于注意力机制组合特征的回放语音检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112270931B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270931B (zh) | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 | |
CN106952643A (zh) | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 | |
CN108711436B (zh) | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 | |
CN113488058B (zh) | 一种基于短语音的声纹识别方法 | |
CN109036382B (zh) | 一种基于kl散度的音频特征提取方法 | |
US7082394B2 (en) | Noise-robust feature extraction using multi-layer principal component analysis | |
JP4218982B2 (ja) | 音声処理 | |
WO2019232829A1 (zh) | 声纹识别方法、装置、计算机设备及存储介质 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN113221673B (zh) | 基于多尺度特征聚集的说话人认证方法及系统 | |
CN102968990B (zh) | 说话人识别方法和系统 | |
US20130297299A1 (en) | Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition | |
JPH02238495A (ja) | 時系列信号認識装置 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
CN111048097B (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
WO2023070874A1 (zh) | 一种声纹识别方法 | |
CN113241079A (zh) | 一种基于残差神经网络的语音欺骗检测方法 | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
CN112885358A (zh) | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Sailor et al. | Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection. | |
CN115620731A (zh) | 一种语音特征提取与检测方法 | |
CN113744725B (zh) | 一种语音端点检测模型的训练方法及语音降噪方法 | |
CN115472168A (zh) | 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备 | |
CN114464159A (zh) | 一种基于半流模型的声码器语音合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |