CN112885358A - 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 - Google Patents

一种基于双向长短期记忆网络的说话人确认欺骗检测方法 Download PDF

Info

Publication number
CN112885358A
CN112885358A CN202110087153.4A CN202110087153A CN112885358A CN 112885358 A CN112885358 A CN 112885358A CN 202110087153 A CN202110087153 A CN 202110087153A CN 112885358 A CN112885358 A CN 112885358A
Authority
CN
China
Prior art keywords
voice
mixture model
gaussian mixture
deceptive
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110087153.4A
Other languages
English (en)
Inventor
雷震春
马明磊
杨印根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN202110087153.4A priority Critical patent/CN112885358A/zh
Publication of CN112885358A publication Critical patent/CN112885358A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法,包括:获取真实语音数据及欺骗语音数据,计算线性频率倒谱系数特征;采用高斯混合模型对线性频率倒谱系数特征进行建模并进行训练,得到真实语音高斯混合模型和欺骗语音高斯混合模型;将语音线性频率倒谱系数特征在真实语音及欺骗语音高斯混合模型的基础上,计算相应的高斯概率特征;构建孪双向长短期记忆网络,将真实语音高斯混合模型及欺骗语音混合模型上得到的高斯概率特征分别作为输入进行训练;获取新的说话人语音,对语音进行欺骗检测。本发明采用高斯概率特征,使用孪生双向长短期记忆网络模型来捕捉语音帧前后依赖,从而提高语音欺骗检测系统性能。

Description

一种基于双向长短期记忆网络的说话人确认欺骗检测方法
技术领域
本发明属于说话人确认语音欺骗检测技术领域,具体涉及一种基于孪生双向长短期记忆网络的说话人确认欺骗检测方法。
背景技术
随着基于自动说话人确认(Automatic Speaker Verification,ASV)的用户验证身份的场景实例范围和频率都在不断增加,针对自动说话人确认系统的欺骗攻击也变得更加频繁。自动说话人确认系统本身的安全性对于金融交易、公共服务、刑事司法等至关重要,语音重放、语音合成和语音转换等欺骗攻击已经对自动说话人确认系统造成了威胁,设计有效的反欺骗对策来确保自动说话人确认系统安全可靠,意义重大。
高斯混合模型是人们常用的语音欺骗检测方法,它独立地累计语音特征序列所有帧在模型上的得分,不考虑每个高斯分量对最终分数的贡献,此外相邻帧之间的关系也被忽略,这与实际并不相符。本发明采用长短期记忆网络对高斯混合模型分量的得分进行建模,以提高语音欺骗检测性能。
发明内容
本发明的目的在于提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法。该方法采用高斯概率特征,并使用孪生双向长短期记忆网络模型来捕捉语音帧的前后依赖,从而提高欺骗语音检测系统性能。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法,包括以下步骤:
S1、获取说话人真实语音数据及欺骗语音数据,计算所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征;
S2、采用高斯混合模型对所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征分别进行建模,并分别在所述真实语音数据及所述欺骗语音数据上进行训练,得到真实语音高斯混合模型和欺骗语音高斯混合模型;
S3、将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述真实语音高斯混合模型的输入,计算得到基于真实语音高斯混合模型的概率特征,同时将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述欺骗语音高斯混合模型的输入,计算得到基于欺骗语音高斯混合模型的概率特征;
S4、构建孪生双向长短期记忆网络,将所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征分别作为输入,对所述孪生双向长短期记忆网络进行训练;
S5、获取新的说话人语音数据,采用所述真实语音高斯混合模型、所述欺骗语音高斯混合模型及训练好的孪生双向长短期记忆网络对新的说话人语音进行欺骗检测。
优选地,所述步骤S1的具体过程为:
S1.1、对采集到的所述真实语音数据及所述欺骗语音数据进行语音信号预加重;
S1.2、将预加重后的语音数据分成若干短时语音帧;
S1.3采用汉明窗函数对每帧语音信号进行加窗处理,得到短时加窗的语音信号;
S1.4、将短时加窗的语音信号进行傅里叶变换得到频域信号,并计算频域信号的能量谱;
S1.5、采用三角滤波器对能量谱进行滤波,并对滤波后的输出进行离散余弦变换,得到初步线性频率倒谱系数特征;
S1.6、提取初步线性频率倒谱系数特征的动态差分参数,并与初步线性频率倒谱系数特征进行合并,得到最终的所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征。
优选地,所述步骤S1.2中,采用重叠取帧的方式进行语音分帧,相邻帧重叠部分为10ms;所述语音帧的每帧长为20ms。
优选地,所述真实语音高斯混合模型和欺骗语音高斯混合模型采用期望最大方法进行训练。
优选地,所述步骤S3的具体过程为:
S3.1、计算所述真实语音数据或所述欺骗语音数据的线性频率倒谱系数特征xi的高斯概率特征fi={fij,j=1…512},其中每个分量fij计算公式为:
fij=log(wj·pj(xi)) 1
其中:wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值;
S3.2、对fi进行全局的均值方差归一化:
Figure BDA0002911279490000041
其中:μf和σf是所有所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征的均值与方差,f′i为最终的高斯概率特征。
优选地,所述步骤S4的具体过程为:
S4.1、计算说话人语音的线性频率倒谱系数特征,并输入到所述真实语音高斯混合模型和欺骗语音高斯混合模型中,得到基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征;
S4.2、采用BLSTM层将基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征转换成两组二维向量;
S4.3、采用一维最大池化层和平均池化层对所述二维向量分别进行池化运算,得到固定大小的四组一维向量;
S4.4、对所述固定大小的四组一维向量进行串接并输入到全连接层中进行分类,输出分类结果;
S4.5、根据分类结果判断语音是正常语音还是欺骗语音。
优选地,所述步骤S4.5的过程为:
S4.5.1、根据分类结果得到正常语音和欺骗语音的得分值;
S4.5.2、若正常语音得分值大于欺骗语音得分值,则判断说话人语音为正常语音;若欺骗语音得分值大于正常语音的得分值,则判断说话人语音为欺骗语音。
优选地,所述BLSTM层采用三层堆叠方式,隐状态大小设置为256。
本发明公开了以下技术效果:
本发明针对高斯混合模型不单独考虑特征向量在各个高斯分量上的得分,采用高斯概率特征用于语音欺骗检测;同时,针对高斯混合模型独立计算所有帧的得分,不考虑相邻帧之间的联系的缺点,采用孪生双向长短期记忆网络模型用于语音欺骗检测;将高斯概率特征和孪生双向长短期记忆神经网络结合起来,能够有效提高语音欺骗检测系统的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于双向长短期记忆网络的说话人确认欺骗检测方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法,包括以下步骤:
S1、获取说话人真实语音数据及欺骗语音数据,计算所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征。
S1.1、对采集到的说话人真实语音数据及欺骗语音数据进行语音信号预加重:
说话人语音信号的第n个采样点位x[n],预加重公式如下:
x′[n]=x[n]-0.97*x[n-1] (1)
S1.2、将预加重后的语音数据分成若干短时语音帧:
将预加重后的语音分成短时语音帧,每帧帧长位20ms,为确保声学特征参数的平滑性,采用重叠取帧的方式,相邻帧重叠部分为10ms;
S1.3采用汉明窗函数对每帧语音信号进行加窗处理,得到短时加窗的语音信号:
对每帧信号进行加窗处理,采用汉明窗函数,得到短时加窗的语音信号:
xl[n]=w[n]*x[n+lL],0≤n≤N-1 (2)
其中:w[n]是窗函数,w[n]=0.54-0.46cos(2πn/N-1);N是窗长;l是帧索引;L是帧移。
S1.4、将短时加窗的语音信号进行傅里叶变换得到频域信号,并计算频域信号的能量谱:
将处理后的语音时序信号x(n)进行傅里叶变换,即得到频域信号X(k):
Figure BDA0002911279490000071
将经过傅里叶变换得到的频域信号X(k)表示为:
X(k)=acosθkk+jasinθkk=ak+jbk (4)
然后计算能量谱:
Figure BDA0002911279490000072
S1.5、采用三角滤波器对能量谱进行滤波,并对滤波后的输出进行离散余弦变换,得到初步线性频率倒谱系数特征:
在刻度范围内,各个三角滤波器的中心频率是相等间隔的线性分布,第i个滤波器中心位置是:
Figure BDA0002911279490000073
其中:L为三角滤波器的数目,每个三角滤波器宽度为
Figure BDA0002911279490000074
设o(k),c(k),h(k)分别是第k个三角形滤波器的下限,中心,和上限频率,将三角滤波器组应用到能量谱上,每帧信号得到K个值,其中第k个值为:
Figure BDA0002911279490000081
Figure BDA0002911279490000082
S1.6、提取初步线性频率倒谱系数特征的动态差分参数,并与初步线性频率倒谱系数特征进行合并,得到最终的真实语音数据及欺骗语音数据的线性频率倒谱系数特征:
对滤波器输出进行离散余弦变换,得到LFCC特征:
Figure BDA0002911279490000083
进一步,提取的LFCC的一阶二阶差分,与原始特征合并后得到最终LFCC特征。
S2、采用高斯混合模型对所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征分别进行建模,并分别在所述真实语音数据及所述欺骗语音数据上进行训练,得到真实语音高斯混合模型和欺骗语音高斯混合模型。
本实施例的高斯混合模型(Gaussian Mixture Model,GMM)由多个高斯分布加权组成,使用期望最大(Expectation Maximization,EM)算法进行训练。对于一个D维的特征向量x,第i个高斯分量满足正态分布N(μjj),其对应的概率分布密度函数为:
Figure BDA0002911279490000084
其中:pi(x)为高斯密度函数,概率密度是由M个正态高斯密度函数pi(x)组成:
Figure BDA0002911279490000091
其中:D为特征向量维度大小,μi和Σi分别是高斯密度函数的均值和协方差矩阵;
wi为高斯混合分布的权重系数,满足:
Figure BDA0002911279490000092
S3、将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述真实语音高斯混合模型的输入,计算得到基于真实语音高斯混合模型的概率特征,同时将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述欺骗语音高斯混合模型的输入,计算得到基于欺骗语音高斯混合模型的概率特征。
S3.1、计算所述说话人语音数据的线性频率倒谱系数特征xi的高斯概率特征fi={fij,j=1…512},其中每个分量fij计算公式为:
fij=log(wj·pj(xi)) (13)
其中:wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值;
S3.2、对所有特征进行全局的均值方差归一化:
Figure BDA0002911279490000093
其中:μf和σf是所有所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征的均值与方差,f′i为最终的高斯概率特征。
S4、构建孪生双向长短期记忆网络,将所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征分别作为输入,对孪生双向长短期记忆网络进行训练;获取新的说话人语音数据,采用所述真实语音高斯混合模型、所述欺骗语音高斯混合模型及训练好的孪生双向长短期记忆网络对说话人语音进行欺骗检测。
S4.1、采用BLSTM层将基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征转换成两组二维向量;
LSTM层的输入是步骤S3获得的高斯概率特征,设语音帧数为T,语音转换成大小为512*T的二维向量X,对第t帧xt,LSTM层计算公式为:
Figure BDA0002911279490000101
Figure BDA0002911279490000102
ht=ot·tanh(ct) (17)
ft=σ(Wf·[ht-1,xt]+bf) (18)
it=σ(Wi·[ht-1,xt]+bi) (19)
ot=σ(Wo·[ht-1,xt]+bo) (20)
其中:
Figure BDA0002911279490000103
是候选状态;ct为内部状态;ht为外部状态;ft为遗忘门,控制上一个时刻的内部状态需要遗忘多少信息;Wf是遗忘门的权重矩阵;bf是遗忘门的偏置项;σ是sigmoid函数;it为输入门,控制当前时刻的候选状态有多少信息需要保存;Wi是输入门的权重矩阵,bi是输入门的偏置项;ot为输出门,控制当前时刻的内部状态有多少信息需要输出给外部状态;Wo是输出门的权重矩阵;bo是输出门的偏置项。
在语音欺骗检测中,一个时刻的输出不但和过去时刻的信息有关,也和后续时刻的信息有关。模型采用双向长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)对语音特征建模,由两个LSTM组成,它们的输入相同,只是信息传递的方向不同。此外,采用堆叠方式,将多个BLSTM进行组合,增加神经网络模型的深度。
模型中采用三层BLSTM堆叠方式,隐状态大小设置为256,语音高斯概率特征经过BLSTM层后,得到512*T大小的二维向量。高斯概率特征在高斯混合模型基础上计算得到,系统中包含两个不同的高斯混合模型,生成的高斯概率特征分别输入到两个结构相同的BLSTM中,组成孪生BLSTM结构。
S4.2、采用一维最大池化层和平均池化层对所述二维向量分别进行池化运算,得到固定大小的四组一维向量;
对BLSTM层的输出的二维向量,用一维最大池化层和平均池化层沿着时间方向进行池化运算,分别获得固定大小为512的一维向量,将其串接起来得到大小为1024的向量。由于前面特征提取的时候,根据两个高斯混合模型得到两组高斯概率特征,经过BLSTM层和池化层,得到四个大小为512的一维向量,将这四个向量简单串接起来得到大小为2048的一维向量。
S4.3、对所述固定大小的四组一维向量进行串接并输入到全连接层中进行分类,输出分类结果;
全连接层包含256个神经元节点,其中每个节点的输出Pi计算公式是:
Figure BDA0002911279490000121
其中:wi,j是权重矩阵;b是偏移量;f是ReLU激活函数。
输出层包含2个神经元节点,分别表示分类的结果是真实语音Q0还是欺骗语音Q1
Figure BDA0002911279490000122
Figure BDA0002911279490000123
其中:wi,j是权重矩阵;b是偏移量;h是Sigmoid激活函数。
S4.4、根据分类结果得到正常语音和欺骗语音的得分值。
若正常语音得分值大于欺骗语音得分值,则判断说话人语音为正常语音;若欺骗语音得分值大于正常语音的得分值,则判断说话人语音为欺骗语音。
为了验证本发明的有效性,本实施例采用ASVspoof2019数据集对本发明方案进行验证,该数据集由真实和欺骗语音组成。ASVspoof2019挑战专注于文本语音合成(TTS)、语音转换(VC)攻击和语音重放这三种欺骗攻击类型进行欺骗检测。ASVspoof2019挑战分为逻辑访问(Logical Access,LA)场景和物理访问(Physical Access,PA)场景这两种评估场景,在这两种场景下又分别包含训练集、开发集和评估集三部分。实验采用等错误率(EER)作为性能指标,训练集用于训练模型参数,评估集用于比较模型的性能。实验结果如表1所示所示:
表1
Figure BDA0002911279490000131
从实验结果可以看出,本发明的孪生BLSTM性能明显优于传统的高斯混合模型。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (8)

1.一种基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,包括以下步骤:
S1、获取说话人真实语音数据及欺骗语音数据,计算所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征;
S2、采用高斯混合模型对所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征分别进行建模,并分别在所述真实语音数据及所述欺骗语音数据上进行训练,得到真实语音高斯混合模型和欺骗语音高斯混合模型;
S3、将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述真实语音高斯混合模型的输入,计算得到基于真实语音高斯混合模型的概率特征,同时将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述欺骗语音高斯混合模型的输入,计算得到基于欺骗语音高斯混合模型的概率特征;
S4、构建孪生双向长短期记忆网络,将所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征分别作为输入,对所述孪生双向长短期记忆网络进行训练;
S5、获取新的说话人语音数据,采用所述真实语音高斯混合模型、所述欺骗语音高斯混合模型及训练好的孪生双向长短期记忆网络对新的说话人语音进行欺骗检测。
2.根据权利要求1所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述步骤S1的具体过程为:
S1.1、对采集到的所述真实语音数据及所述欺骗语音数据进行语音信号预加重;
S1.2、将预加重后的语音数据分成若干短时语音帧;
S1.3采用汉明窗函数对每帧语音信号进行加窗处理,得到短时加窗的语音信号;
S1.4、将短时加窗的语音信号进行傅里叶变换得到频域信号,并计算频域信号的能量谱;
S1.5、采用三角滤波器对能量谱进行滤波,并对滤波后的输出进行离散余弦变换,得到初步线性频率倒谱系数特征;
S1.6、提取初步线性频率倒谱系数特征的动态差分参数,并与初步线性频率倒谱系数特征进行合并,得到最终的所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征。
3.根据权利要求2所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述步骤S1.2中,采用重叠取帧的方式进行语音分帧,相邻帧重叠部分为10ms;所述语音帧的每帧长为20ms。
4.根据权利要求1所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述真实语音高斯混合模型和欺骗语音高斯混合模型采用期望最大方法进行训练。
5.根据权利要求1所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述步骤S3的具体过程为:
S3.1、计算所述真实语音数据或所述欺骗语音数据的线性频率倒谱系数特征xi的高斯概率特征fi={fij,j=1...512},其中每个分量fij计算公式为:
fij=log(wj·pj(xi)) 1
其中:wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值;
S3.2、对fi进行全局的均值方差归一化:
Figure FDA0002911279480000031
其中:μf和σf是所有所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征的均值与方差,f′i为最终的高斯概率特征。
6.根据权利要求1所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述步骤S4的具体过程为:
S4.1、计算说话人语音的线性频率倒谱系数特征,并输入到所述真实语音高斯混合模型和欺骗语音高斯混合模型中,得到基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征;
S4.2、采用BLSTM层将基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征转换成两组二维向量;
S4.3、采用一维最大池化层和平均池化层对所述二维向量分别进行池化运算,得到固定大小的四组一维向量;
S4.4、对所述固定大小的四组一维向量进行串接并输入到全连接层中进行分类,输出分类结果;
S4.5、根据分类结果判断语音是正常语音还是欺骗语音。
7.根据权利要求6所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述步骤S4.5的过程为:
S4.5.1、根据分类结果得到正常语音和欺骗语音的得分值;
S4.5.2、若正常语音得分值大于欺骗语音得分值,则判断说话人语音为正常语音;若欺骗语音得分值大于正常语音的得分值,则判断说话人语音为欺骗语音。
8.根据权利要求6所述的基于双向长短期记忆网络的说话人确认欺骗检测方法,其特征在于,所述BLSTM层采用三层堆叠方式,隐状态大小设置为256。
CN202110087153.4A 2021-01-22 2021-01-22 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 Pending CN112885358A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110087153.4A CN112885358A (zh) 2021-01-22 2021-01-22 一种基于双向长短期记忆网络的说话人确认欺骗检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110087153.4A CN112885358A (zh) 2021-01-22 2021-01-22 一种基于双向长短期记忆网络的说话人确认欺骗检测方法

Publications (1)

Publication Number Publication Date
CN112885358A true CN112885358A (zh) 2021-06-01

Family

ID=76050134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110087153.4A Pending CN112885358A (zh) 2021-01-22 2021-01-22 一种基于双向长短期记忆网络的说话人确认欺骗检测方法

Country Status (1)

Country Link
CN (1) CN112885358A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270931A (zh) * 2020-10-22 2021-01-26 江西师范大学 一种基于孪生卷积神经网络进行欺骗性语音检测的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN110458684A (zh) * 2019-06-25 2019-11-15 广东工业大学 一种基于双向长短期记忆神经网络的金融反欺诈检测方法
CN111091817A (zh) * 2018-10-24 2020-05-01 中国科学院声学研究所 一种基于窗口输入的双向回馈神经网络的语音识别方法
CN111613240A (zh) * 2020-05-22 2020-09-01 杭州电子科技大学 一种基于注意力机制和Bi-LSTM的伪装语音检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN111091817A (zh) * 2018-10-24 2020-05-01 中国科学院声学研究所 一种基于窗口输入的双向回馈神经网络的语音识别方法
CN110458684A (zh) * 2019-06-25 2019-11-15 广东工业大学 一种基于双向长短期记忆神经网络的金融反欺诈检测方法
CN111613240A (zh) * 2020-05-22 2020-09-01 杭州电子科技大学 一种基于注意力机制和Bi-LSTM的伪装语音检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHENCHUNLEI 等: "Siamese Convolutional Neural Network Using Gaussian Probability Feature for", 《2020 ISCA》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270931A (zh) * 2020-10-22 2021-01-26 江西师范大学 一种基于孪生卷积神经网络进行欺骗性语音检测的方法

Similar Documents

Publication Publication Date Title
Yu et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features
CN110491391B (zh) 一种基于深度神经网络的欺骗语音检测方法
Cai et al. Countermeasures for Automatic Speaker Verification Replay Spoofing Attack: On Data Augmentation, Feature Representation, Classification and Fusion.
CN112270931B (zh) 一种基于孪生卷积神经网络进行欺骗性语音检测的方法
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
Qian et al. Deep feature engineering for noise robust spoofing detection
CN108766419A (zh) 一种基于深度学习的非常态语音区别方法
CN102693724A (zh) 一种基于神经网络的高斯混合模型的噪声分类方法
Gomez-Alanis et al. A deep identity representation for noise robust spoofing detection
CN111554305B (zh) 一种基于语谱图和注意力机制的声纹识别方法
CN113488058A (zh) 一种基于短语音的声纹识别方法
Todkar et al. Speaker recognition techniques: A review
CN113241079A (zh) 一种基于残差神经网络的语音欺骗检测方法
CN110047504A (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN116416997A (zh) 基于注意力机制的智能语音伪造攻击检测方法
CN114495950A (zh) 一种基于深度残差收缩网络的语音欺骗检测方法
López-Espejo et al. Improved external speaker-robust keyword spotting for hearing assistive devices
Fasounaki et al. CNN-based Text-independent automatic speaker identification using short utterances
CN112885358A (zh) 一种基于双向长短期记忆网络的说话人确认欺骗检测方法
Wen et al. Multi-Path GMM-MobileNet Based on Attack Algorithms and Codecs for Synthetic Speech and Deepfake Detection.
Ganchev et al. Text-independent speaker verification based on probabilistic neural networks
CN111524520A (zh) 一种基于误差逆向传播神经网络的声纹识别方法
Sailor et al. Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection.
Chaiwongyen et al. Replay attack detection in automatic speaker verification using gammatone cepstral coefficients and resnet-based model
Alam On the use of fisher vector encoding for voice spoofing detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210601

RJ01 Rejection of invention patent application after publication