CN112885358A - 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 - Google Patents
一种基于双向长短期记忆网络的说话人确认欺骗检测方法 Download PDFInfo
- Publication number
- CN112885358A CN112885358A CN202110087153.4A CN202110087153A CN112885358A CN 112885358 A CN112885358 A CN 112885358A CN 202110087153 A CN202110087153 A CN 202110087153A CN 112885358 A CN112885358 A CN 112885358A
- Authority
- CN
- China
- Prior art keywords
- voice
- mixture model
- gaussian mixture
- deceptive
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 15
- 230000015654 memory Effects 0.000 title claims abstract description 15
- 238000012790 confirmation Methods 0.000 title abstract description 6
- 239000000203 mixture Substances 0.000 claims abstract description 78
- 230000006403 short-term memory Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000007787 long-term memory Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法,包括:获取真实语音数据及欺骗语音数据,计算线性频率倒谱系数特征;采用高斯混合模型对线性频率倒谱系数特征进行建模并进行训练,得到真实语音高斯混合模型和欺骗语音高斯混合模型;将语音线性频率倒谱系数特征在真实语音及欺骗语音高斯混合模型的基础上,计算相应的高斯概率特征;构建孪双向长短期记忆网络,将真实语音高斯混合模型及欺骗语音混合模型上得到的高斯概率特征分别作为输入进行训练;获取新的说话人语音,对语音进行欺骗检测。本发明采用高斯概率特征,使用孪生双向长短期记忆网络模型来捕捉语音帧前后依赖,从而提高语音欺骗检测系统性能。
Description
技术领域
本发明属于说话人确认语音欺骗检测技术领域,具体涉及一种基于孪生双向长短期记忆网络的说话人确认欺骗检测方法。
背景技术
随着基于自动说话人确认(Automatic Speaker Verification,ASV)的用户验证身份的场景实例范围和频率都在不断增加,针对自动说话人确认系统的欺骗攻击也变得更加频繁。自动说话人确认系统本身的安全性对于金融交易、公共服务、刑事司法等至关重要,语音重放、语音合成和语音转换等欺骗攻击已经对自动说话人确认系统造成了威胁,设计有效的反欺骗对策来确保自动说话人确认系统安全可靠,意义重大。
高斯混合模型是人们常用的语音欺骗检测方法,它独立地累计语音特征序列所有帧在模型上的得分,不考虑每个高斯分量对最终分数的贡献,此外相邻帧之间的关系也被忽略,这与实际并不相符。本发明采用长短期记忆网络对高斯混合模型分量的得分进行建模,以提高语音欺骗检测性能。
发明内容
本发明的目的在于提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法。该方法采用高斯概率特征,并使用孪生双向长短期记忆网络模型来捕捉语音帧的前后依赖,从而提高欺骗语音检测系统性能。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法,包括以下步骤:
S1、获取说话人真实语音数据及欺骗语音数据,计算所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征;
S2、采用高斯混合模型对所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征分别进行建模,并分别在所述真实语音数据及所述欺骗语音数据上进行训练,得到真实语音高斯混合模型和欺骗语音高斯混合模型;
S3、将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述真实语音高斯混合模型的输入,计算得到基于真实语音高斯混合模型的概率特征,同时将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述欺骗语音高斯混合模型的输入,计算得到基于欺骗语音高斯混合模型的概率特征;
S4、构建孪生双向长短期记忆网络,将所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征分别作为输入,对所述孪生双向长短期记忆网络进行训练;
S5、获取新的说话人语音数据,采用所述真实语音高斯混合模型、所述欺骗语音高斯混合模型及训练好的孪生双向长短期记忆网络对新的说话人语音进行欺骗检测。
优选地,所述步骤S1的具体过程为:
S1.1、对采集到的所述真实语音数据及所述欺骗语音数据进行语音信号预加重;
S1.2、将预加重后的语音数据分成若干短时语音帧;
S1.3采用汉明窗函数对每帧语音信号进行加窗处理,得到短时加窗的语音信号;
S1.4、将短时加窗的语音信号进行傅里叶变换得到频域信号,并计算频域信号的能量谱;
S1.5、采用三角滤波器对能量谱进行滤波,并对滤波后的输出进行离散余弦变换,得到初步线性频率倒谱系数特征;
S1.6、提取初步线性频率倒谱系数特征的动态差分参数,并与初步线性频率倒谱系数特征进行合并,得到最终的所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征。
优选地,所述步骤S1.2中,采用重叠取帧的方式进行语音分帧,相邻帧重叠部分为10ms;所述语音帧的每帧长为20ms。
优选地,所述真实语音高斯混合模型和欺骗语音高斯混合模型采用期望最大方法进行训练。
优选地,所述步骤S3的具体过程为:
S3.1、计算所述真实语音数据或所述欺骗语音数据的线性频率倒谱系数特征xi的高斯概率特征fi={fij,j=1…512},其中每个分量fij计算公式为:
fij=log(wj·pj(xi)) 1
其中:wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值;
S3.2、对fi进行全局的均值方差归一化:
其中:μf和σf是所有所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征的均值与方差,f′i为最终的高斯概率特征。
优选地,所述步骤S4的具体过程为:
S4.1、计算说话人语音的线性频率倒谱系数特征,并输入到所述真实语音高斯混合模型和欺骗语音高斯混合模型中,得到基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征;
S4.2、采用BLSTM层将基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征转换成两组二维向量;
S4.3、采用一维最大池化层和平均池化层对所述二维向量分别进行池化运算,得到固定大小的四组一维向量;
S4.4、对所述固定大小的四组一维向量进行串接并输入到全连接层中进行分类,输出分类结果;
S4.5、根据分类结果判断语音是正常语音还是欺骗语音。
优选地,所述步骤S4.5的过程为:
S4.5.1、根据分类结果得到正常语音和欺骗语音的得分值;
S4.5.2、若正常语音得分值大于欺骗语音得分值,则判断说话人语音为正常语音;若欺骗语音得分值大于正常语音的得分值,则判断说话人语音为欺骗语音。
优选地,所述BLSTM层采用三层堆叠方式,隐状态大小设置为256。
本发明公开了以下技术效果:
本发明针对高斯混合模型不单独考虑特征向量在各个高斯分量上的得分,采用高斯概率特征用于语音欺骗检测;同时,针对高斯混合模型独立计算所有帧的得分,不考虑相邻帧之间的联系的缺点,采用孪生双向长短期记忆网络模型用于语音欺骗检测;将高斯概率特征和孪生双向长短期记忆神经网络结合起来,能够有效提高语音欺骗检测系统的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于双向长短期记忆网络的说话人确认欺骗检测方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法,包括以下步骤:
S1、获取说话人真实语音数据及欺骗语音数据,计算所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征。
S1.1、对采集到的说话人真实语音数据及欺骗语音数据进行语音信号预加重:
说话人语音信号的第n个采样点位x[n],预加重公式如下:
x′[n]=x[n]-0.97*x[n-1] (1)
S1.2、将预加重后的语音数据分成若干短时语音帧:
将预加重后的语音分成短时语音帧,每帧帧长位20ms,为确保声学特征参数的平滑性,采用重叠取帧的方式,相邻帧重叠部分为10ms;
S1.3采用汉明窗函数对每帧语音信号进行加窗处理,得到短时加窗的语音信号:
对每帧信号进行加窗处理,采用汉明窗函数,得到短时加窗的语音信号:
xl[n]=w[n]*x[n+lL],0≤n≤N-1 (2)
其中:w[n]是窗函数,w[n]=0.54-0.46cos(2πn/N-1);N是窗长;l是帧索引;L是帧移。
S1.4、将短时加窗的语音信号进行傅里叶变换得到频域信号,并计算频域信号的能量谱:
将处理后的语音时序信号x(n)进行傅里叶变换,即得到频域信号X(k):
将经过傅里叶变换得到的频域信号X(k)表示为:
X(k)=acosθkk+jasinθkk=ak+jbk (4)
然后计算能量谱:
S1.5、采用三角滤波器对能量谱进行滤波,并对滤波后的输出进行离散余弦变换,得到初步线性频率倒谱系数特征:
在刻度范围内,各个三角滤波器的中心频率是相等间隔的线性分布,第i个滤波器中心位置是:
设o(k),c(k),h(k)分别是第k个三角形滤波器的下限,中心,和上限频率,将三角滤波器组应用到能量谱上,每帧信号得到K个值,其中第k个值为:
S1.6、提取初步线性频率倒谱系数特征的动态差分参数,并与初步线性频率倒谱系数特征进行合并,得到最终的真实语音数据及欺骗语音数据的线性频率倒谱系数特征:
对滤波器输出进行离散余弦变换,得到LFCC特征:
进一步,提取的LFCC的一阶二阶差分,与原始特征合并后得到最终LFCC特征。
S2、采用高斯混合模型对所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征分别进行建模,并分别在所述真实语音数据及所述欺骗语音数据上进行训练,得到真实语音高斯混合模型和欺骗语音高斯混合模型。
本实施例的高斯混合模型(Gaussian Mixture Model,GMM)由多个高斯分布加权组成,使用期望最大(Expectation Maximization,EM)算法进行训练。对于一个D维的特征向量x,第i个高斯分量满足正态分布N(μj,Σj),其对应的概率分布密度函数为:
其中:pi(x)为高斯密度函数,概率密度是由M个正态高斯密度函数pi(x)组成:
其中:D为特征向量维度大小,μi和Σi分别是高斯密度函数的均值和协方差矩阵;
wi为高斯混合分布的权重系数,满足:
S3、将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述真实语音高斯混合模型的输入,计算得到基于真实语音高斯混合模型的概率特征,同时将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述欺骗语音高斯混合模型的输入,计算得到基于欺骗语音高斯混合模型的概率特征。
S3.1、计算所述说话人语音数据的线性频率倒谱系数特征xi的高斯概率特征fi={fij,j=1…512},其中每个分量fij计算公式为:
fij=log(wj·pj(xi)) (13)
其中:wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值;
S3.2、对所有特征进行全局的均值方差归一化:
其中:μf和σf是所有所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征的均值与方差,f′i为最终的高斯概率特征。
S4、构建孪生双向长短期记忆网络,将所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征分别作为输入,对孪生双向长短期记忆网络进行训练;获取新的说话人语音数据,采用所述真实语音高斯混合模型、所述欺骗语音高斯混合模型及训练好的孪生双向长短期记忆网络对说话人语音进行欺骗检测。
S4.1、采用BLSTM层将基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征转换成两组二维向量;
LSTM层的输入是步骤S3获得的高斯概率特征,设语音帧数为T,语音转换成大小为512*T的二维向量X,对第t帧xt,LSTM层计算公式为:
ht=ot·tanh(ct) (17)
ft=σ(Wf·[ht-1,xt]+bf) (18)
it=σ(Wi·[ht-1,xt]+bi) (19)
ot=σ(Wo·[ht-1,xt]+bo) (20)
其中:是候选状态;ct为内部状态;ht为外部状态;ft为遗忘门,控制上一个时刻的内部状态需要遗忘多少信息;Wf是遗忘门的权重矩阵;bf是遗忘门的偏置项;σ是sigmoid函数;it为输入门,控制当前时刻的候选状态有多少信息需要保存;Wi是输入门的权重矩阵,bi是输入门的偏置项;ot为输出门,控制当前时刻的内部状态有多少信息需要输出给外部状态;Wo是输出门的权重矩阵;bo是输出门的偏置项。
在语音欺骗检测中,一个时刻的输出不但和过去时刻的信息有关,也和后续时刻的信息有关。模型采用双向长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)对语音特征建模,由两个LSTM组成,它们的输入相同,只是信息传递的方向不同。此外,采用堆叠方式,将多个BLSTM进行组合,增加神经网络模型的深度。
模型中采用三层BLSTM堆叠方式,隐状态大小设置为256,语音高斯概率特征经过BLSTM层后,得到512*T大小的二维向量。高斯概率特征在高斯混合模型基础上计算得到,系统中包含两个不同的高斯混合模型,生成的高斯概率特征分别输入到两个结构相同的BLSTM中,组成孪生BLSTM结构。
S4.2、采用一维最大池化层和平均池化层对所述二维向量分别进行池化运算,得到固定大小的四组一维向量;
对BLSTM层的输出的二维向量,用一维最大池化层和平均池化层沿着时间方向进行池化运算,分别获得固定大小为512的一维向量,将其串接起来得到大小为1024的向量。由于前面特征提取的时候,根据两个高斯混合模型得到两组高斯概率特征,经过BLSTM层和池化层,得到四个大小为512的一维向量,将这四个向量简单串接起来得到大小为2048的一维向量。
S4.3、对所述固定大小的四组一维向量进行串接并输入到全连接层中进行分类,输出分类结果;
全连接层包含256个神经元节点,其中每个节点的输出Pi计算公式是:
其中:wi,j是权重矩阵;b是偏移量;f是ReLU激活函数。
输出层包含2个神经元节点,分别表示分类的结果是真实语音Q0还是欺骗语音Q1;
其中:wi,j是权重矩阵;b是偏移量;h是Sigmoid激活函数。
S4.4、根据分类结果得到正常语音和欺骗语音的得分值。
若正常语音得分值大于欺骗语音得分值,则判断说话人语音为正常语音;若欺骗语音得分值大于正常语音的得分值,则判断说话人语音为欺骗语音。
为了验证本发明的有效性,本实施例采用ASVspoof2019数据集对本发明方案进行验证,该数据集由真实和欺骗语音组成。ASVspoof2019挑战专注于文本语音合成(TTS)、语音转换(VC)攻击和语音重放这三种欺骗攻击类型进行欺骗检测。ASVspoof2019挑战分为逻辑访问(Logical Access,LA)场景和物理访问(Physical Access,PA)场景这两种评估场景,在这两种场景下又分别包含训练集、开发集和评估集三部分。实验采用等错误率(EER)作为性能指标,训练集用于训练模型参数,评估集用于比较模型的性能。实验结果如表1所示所示:
表1
从实验结果可以看出,本发明的孪生BLSTM性能明显优于传统的高斯混合模型。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (8)
1.一种基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,包括以下步骤:
S1、获取说话人真实语音数据及欺骗语音数据,计算所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征;
S2、采用高斯混合模型对所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征分别进行建模,并分别在所述真实语音数据及所述欺骗语音数据上进行训练,得到真实语音高斯混合模型和欺骗语音高斯混合模型;
S3、将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述真实语音高斯混合模型的输入,计算得到基于真实语音高斯混合模型的概率特征,同时将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述欺骗语音高斯混合模型的输入,计算得到基于欺骗语音高斯混合模型的概率特征;
S4、构建孪生双向长短期记忆网络,将所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征分别作为输入,对所述孪生双向长短期记忆网络进行训练;
S5、获取新的说话人语音数据,采用所述真实语音高斯混合模型、所述欺骗语音高斯混合模型及训练好的孪生双向长短期记忆网络对新的说话人语音进行欺骗检测。
2.根据权利要求1所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述步骤S1的具体过程为:
S1.1、对采集到的所述真实语音数据及所述欺骗语音数据进行语音信号预加重;
S1.2、将预加重后的语音数据分成若干短时语音帧;
S1.3采用汉明窗函数对每帧语音信号进行加窗处理,得到短时加窗的语音信号;
S1.4、将短时加窗的语音信号进行傅里叶变换得到频域信号,并计算频域信号的能量谱;
S1.5、采用三角滤波器对能量谱进行滤波,并对滤波后的输出进行离散余弦变换,得到初步线性频率倒谱系数特征;
S1.6、提取初步线性频率倒谱系数特征的动态差分参数,并与初步线性频率倒谱系数特征进行合并,得到最终的所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征。
3.根据权利要求2所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述步骤S1.2中,采用重叠取帧的方式进行语音分帧,相邻帧重叠部分为10ms;所述语音帧的每帧长为20ms。
4.根据权利要求1所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述真实语音高斯混合模型和欺骗语音高斯混合模型采用期望最大方法进行训练。
6.根据权利要求1所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述步骤S4的具体过程为:
S4.1、计算说话人语音的线性频率倒谱系数特征,并输入到所述真实语音高斯混合模型和欺骗语音高斯混合模型中,得到基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征;
S4.2、采用BLSTM层将基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征转换成两组二维向量;
S4.3、采用一维最大池化层和平均池化层对所述二维向量分别进行池化运算,得到固定大小的四组一维向量;
S4.4、对所述固定大小的四组一维向量进行串接并输入到全连接层中进行分类,输出分类结果;
S4.5、根据分类结果判断语音是正常语音还是欺骗语音。
7.根据权利要求6所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述步骤S4.5的过程为:
S4.5.1、根据分类结果得到正常语音和欺骗语音的得分值;
S4.5.2、若正常语音得分值大于欺骗语音得分值,则判断说话人语音为正常语音;若欺骗语音得分值大于正常语音的得分值,则判断说话人语音为欺骗语音。
8.根据权利要求6所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述BLSTM层采用三层堆叠方式,隐状态大小设置为256。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110087153.4A CN112885358A (zh) | 2021-01-22 | 2021-01-22 | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110087153.4A CN112885358A (zh) | 2021-01-22 | 2021-01-22 | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112885358A true CN112885358A (zh) | 2021-06-01 |
Family
ID=76050134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110087153.4A Pending CN112885358A (zh) | 2021-01-22 | 2021-01-22 | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112885358A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270931A (zh) * | 2020-10-22 | 2021-01-26 | 江西师范大学 | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN110458684A (zh) * | 2019-06-25 | 2019-11-15 | 广东工业大学 | 一种基于双向长短期记忆神经网络的金融反欺诈检测方法 |
CN111091817A (zh) * | 2018-10-24 | 2020-05-01 | 中国科学院声学研究所 | 一种基于窗口输入的双向回馈神经网络的语音识别方法 |
CN111613240A (zh) * | 2020-05-22 | 2020-09-01 | 杭州电子科技大学 | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 |
-
2021
- 2021-01-22 CN CN202110087153.4A patent/CN112885358A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN111091817A (zh) * | 2018-10-24 | 2020-05-01 | 中国科学院声学研究所 | 一种基于窗口输入的双向回馈神经网络的语音识别方法 |
CN110458684A (zh) * | 2019-06-25 | 2019-11-15 | 广东工业大学 | 一种基于双向长短期记忆神经网络的金融反欺诈检测方法 |
CN111613240A (zh) * | 2020-05-22 | 2020-09-01 | 杭州电子科技大学 | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 |
Non-Patent Citations (1)
Title |
---|
ZHENCHUNLEI 等: "Siamese Convolutional Neural Network Using Gaussian Probability Feature for", 《2020 ISCA》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270931A (zh) * | 2020-10-22 | 2021-01-26 | 江西师范大学 | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features | |
CN110491391B (zh) | 一种基于深度神经网络的欺骗语音检测方法 | |
Cai et al. | Countermeasures for Automatic Speaker Verification Replay Spoofing Attack: On Data Augmentation, Feature Representation, Classification and Fusion. | |
CN112270931B (zh) | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
Qian et al. | Deep feature engineering for noise robust spoofing detection | |
CN108766419A (zh) | 一种基于深度学习的非常态语音区别方法 | |
CN102693724A (zh) | 一种基于神经网络的高斯混合模型的噪声分类方法 | |
Gomez-Alanis et al. | A deep identity representation for noise robust spoofing detection | |
CN111554305B (zh) | 一种基于语谱图和注意力机制的声纹识别方法 | |
CN113488058A (zh) | 一种基于短语音的声纹识别方法 | |
Todkar et al. | Speaker recognition techniques: A review | |
CN113241079A (zh) | 一种基于残差神经网络的语音欺骗检测方法 | |
CN110047504A (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
CN116416997A (zh) | 基于注意力机制的智能语音伪造攻击检测方法 | |
CN114495950A (zh) | 一种基于深度残差收缩网络的语音欺骗检测方法 | |
López-Espejo et al. | Improved external speaker-robust keyword spotting for hearing assistive devices | |
Fasounaki et al. | CNN-based Text-independent automatic speaker identification using short utterances | |
CN112885358A (zh) | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 | |
Wen et al. | Multi-Path GMM-MobileNet Based on Attack Algorithms and Codecs for Synthetic Speech and Deepfake Detection. | |
Ganchev et al. | Text-independent speaker verification based on probabilistic neural networks | |
CN111524520A (zh) | 一种基于误差逆向传播神经网络的声纹识别方法 | |
Sailor et al. | Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection. | |
Chaiwongyen et al. | Replay attack detection in automatic speaker verification using gammatone cepstral coefficients and resnet-based model | |
Alam | On the use of fisher vector encoding for voice spoofing detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210601 |
|
RJ01 | Rejection of invention patent application after publication |