CN111554305A - 一种基于语谱图和注意力机制的声纹识别方法 - Google Patents

一种基于语谱图和注意力机制的声纹识别方法 Download PDF

Info

Publication number
CN111554305A
CN111554305A CN202010336844.9A CN202010336844A CN111554305A CN 111554305 A CN111554305 A CN 111554305A CN 202010336844 A CN202010336844 A CN 202010336844A CN 111554305 A CN111554305 A CN 111554305A
Authority
CN
China
Prior art keywords
spectrogram
attention mechanism
voice
namely
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010336844.9A
Other languages
English (en)
Other versions
CN111554305B (zh
Inventor
赵宏
岳鲁鹏
王伟杰
郭岚
郑厚泽
傅兆阳
刘璐
党育
马栋林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanzhou University of Technology
Original Assignee
Lanzhou University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanzhou University of Technology filed Critical Lanzhou University of Technology
Priority to CN202010336844.9A priority Critical patent/CN111554305B/zh
Publication of CN111554305A publication Critical patent/CN111554305A/zh
Application granted granted Critical
Publication of CN111554305B publication Critical patent/CN111554305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于语谱图和注意力机制的声纹识别方法,包括步骤:数据预处理,将语音语料进行处理;特征提取,提取语谱图作为输入特征;特征处理,将语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;模型训练,利用X‑Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;打分判决,对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。和现有X‑Vector说话人识别技术相比,本发明引入卷积神经网络和语谱图,能更好地捕获说话人特征,并且采用注意力机制对统计层进行训练,成本低,效率高,提高了说话人识别系统的性能。

Description

一种基于语谱图和注意力机制的声纹识别方法
技术领域
本发明涉及说话人识别领域,尤其涉及一种基于语谱图和注意力机制的声纹识别方法。
背景技术
随着科技的发展,用户身份认证方式发生了巨大的变化,声纹识别由于简单易行,可以抵抗回放攻击,广泛应用在声纹支付、声纹考勤、声纹门禁、社保认证等领域,应用前景广泛。
然而,声纹识别在实际应用中,由于应用场景复杂多变,存在噪声,导致声纹识别系统的鲁棒性不足,识别准确率下降。
发明内容
为克服传统说话人识别技术的鲁棒性差,系统抗噪能力弱的不足,本发明提出一种基于语谱图和注意力机制的声纹识别方法,以有效的提高说话人识别的鲁棒性和准确率。
本发明的技术方案是这样实现的,一种基于语谱图和注意力机制的声纹识别方法,包括步骤
S1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;
S2:特征提取,利用Kaldi语音识别工具提取语谱图(Spectrogram)作为输入特征;
S3:特征处理,将所述语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;
S4:模型训练,利用X-Vector模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;
S5:打分判决,利用概率线性判别分析算法PLDA(Probability LinearDiscriminant Analysis)对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。
进一步地,所述步骤S1数据预处理的实现步骤包括
S11,语音语料采用Voxceleb1语音数据库;
S12,利用Kaldi生成spk2utt、utt2spk和wav.scp等文件。
进一步地,所述步骤S2所述提取语谱图实现包括步骤
S21,将语音信号输入Kaldi语音识别工具;
S22,对语音信号进行分帧加窗;
S23,对分帧加窗后的语音信号进行傅里叶变换;
S24,对傅里叶变换后的语音信号进行能量密度计算;
S25,对经能量密度计算后的语音信号以时间为横轴,频率为纵轴,将每一帧信号按照时序进行连接,得到语音信号的语谱。
进一步地,所述步骤S4中所述的引入注意力机制对帧级别特征进行权重处理实现,包括步骤
S41,在对语音信号处理时,将信号进行分帧处理,每一帧都用相应的向量表示,使得一个语音信号用一个矩阵X=(x1,x2,…,xi,…,xt)表示,其中xi代表第i帧的向量,维度为d维,故X∈Rt×d
S42,将注意力机制与统计层相结合,计算语音信号的加权统计量,然后计算不同帧的权重。假设统计层的输入为T帧向量H={m1,m2,…,mi,…,mT},每一帧特征mi的维度为dh,因此,H的大小为dh×T,采用注意力机制可以计算出每一帧的权重,如此计算可以得到一个权重矩阵A,如公式(1)所示:
A=[α12,…αT]=softmax(f(HTW)) (1)
其中,f(·)为激活函数,采用ReLU函数,W表示变换矩阵;
S43,利用权重得到加权统计量,如公式(2)和公式(3)所示:
Figure BDA0002466936640000031
Figure BDA0002466936640000032
用[μ,σ]来表示一段语音信号;
S44,统计层中采用多头注意力机制,再将结果进行拼接,如公式(4)所示:
Multi-Head(μ,σ)=Comcat([μ11],[μ22],…[μhh]) (4)
其中,[μ,σ]表示单个注意力机制计算得到的结果。
进一步地,步骤S5中所述的概率线性判别分析算法PLDA实现,包括步骤
S51,将X-Vector进行因子分析,计算如公式(5)所示,
Pi=m+Φβ+εγ (5)
其中,m为训练数据全局均值,Φ为描述说话人类间差异的子空间矩阵,β是满足标准正态分布特征的隐含因子,且与说话人身份相关,εγ是对角矩阵∑的残余项;
S52,在决策打分环节,依次用η1、η2进行描述,两者的对数似然比的计算如公式(6)所示,
Figure BDA0002466936640000033
其中,Rs表示η1和η2来自同一个说话人的条件,Rd表示η1和η2来自不同说话人的条件。
进一步地,步骤S5所述的概率线性判别分析算法PLDA是根据对两个待测样本的似然对数比得分和预设条件的判定,给出两个样本是否为同一个说话人的判断。
本发明的有益效果在于,和现有X-Vector说话人识别技术相比,本发明采用卷积神经网络和语谱图,能更好地捕获说话人特征,并且采用注意力机制对统计层进行训练,成本低,效率高,提高了说话人识别系统的性能。
附图说明
图1是本发明一种基于语谱图和注意力机制的声纹识别方法流程图;
图2是本发明中基于注意力机制的统计层结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明一种基于语谱图和注意力机制的声纹识别方法包括以下步骤
S1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;其中,
对于所述处理步骤的主要流程为:
S11,语音语料采用Voxceleb1语音数据库;
S12,利用Kaldi生成spk2utt、utt2spk和wav.scp等文件。
S2:特征提取,利用Kaldi语音识别工具提取语谱图(Spectrogram)作为输入特征;其中,
对于所述提取语谱图的步骤的主要流程为:
S21,将语音信号输入Kaldi语音识别工具;
S22,对语音信号进行分帧加窗;
S23,对上一步输出进行傅里叶变换;
S24,对上一步输出进行能量密度计算
S25,对上一步输出以时间为横轴,频率为纵轴,将每一帧信号按照时序进行连接,得到语音信号的语谱。
S3:特征处理,将语谱图输入卷积神经网络,利用卷积神经网络对其进行自动优化和降维;
S4:模型训练,利用X-Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;其中,
对于所述步骤4中对于所述的引入注意力机制对帧级别特征进行权重处理步骤的主要流程为:
S41,在对语音信号处理时,将信号进行分帧处理,每一帧都用相应的向量表示,使得一个语音信号用一个矩阵X=(x1,x2,…,xi,…,xt)表示,其中xi代表第i帧的向量,维度为d维,故X∈Rt×d
S42,将注意力机制与统计层相结合,计算语音信号的加权统计量,然后计算不同帧的权重。假设统计层的输入为T帧向量H={m1,m2,…,mi,…,mT},每一帧特征mi的维度为dh,因此,H的大小为dh×T,采用注意力机制可以计算出每一帧的权重,如此计算可以得到一个权重矩阵A,如公式(1)所示:
A=[α12,…αT]=softmax(f(HTW)) (1)
其中,f(·)为激活函数,采用ReLU函数,W表示变换矩阵;
S43,利用权重得到加权统计量,如公式(2)和公式(3)所示:
Figure BDA0002466936640000051
Figure BDA0002466936640000052
用[μ,σ]来表示一段语音信号;
S44,统计层中采用多头注意力机制,再将结果进行拼接,如公式(4)所示:
Multi-Head(μ,σ)=Comcat([μ11],[μ22],…[μhh]) (4)
S5:打分判决,利用概率线性判别分析算法PLDA(Probability LinearDiscriminant Analysis)对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断;其中,
对于所述概率线性判别分析算法PLDA步骤的主要流程为:
S51,将X-Vector进行因子分析,计算如公式(5)所示,
Pi=m+Φβ+εγ (5)
其中,m为训练数据全局均值,Φ为描述说话人类间差异的子空间矩阵,β是满足标准正态分布特征的隐含因子,且与说话人身份相关,εγ是对角矩阵∑的残余项;
S52,在决策打分环节,依次用η1、η2进行描述,两者的对数似然比的计算如公式(6)所示,
Figure BDA0002466936640000061
其中,Rs表示η1和η2来自同一个说话人的条件,Rd表示η1和η2来自不同说话人的条件。
打分判决根据对两个待测样本的似然对数比得分是否符合预设判定条件,判断两个样本是否属于同一个说话人。
下面对本发明方法进行仿真并分析:
本发明在VoxCelebl数据集中,对语谱图和注意力机制下的声纹识别性能进行了仿真实验。VoxCelebl数据集是文本无关的,属于完全的集外数据集,全部音频的采样频率为16kHz,音频格式采用单声道16bit的wav音频文件。语音中带有真实场景噪声,如环境噪声、背景人声、室内噪声、录音设备噪声等,噪声出现的时间点没有任何规律。测评标准采用等错误率ERR(Equal Error Rate)来衡量说话人识别系统的性能。
表1是不同系统中,EER评价标准的对比。
表1
Figure BDA0002466936640000071
表2是X-Vector神经网络架构中帧数层的参数设置情况。
表2
网络层 时延参数 上下文相关帧数 节点数
frame1 [t-2,t+2] 5 512
frame2 {t-2,t,t+2} 9 512
frame3 {t-3,t,t+3} 15 512
frame4 {t} 15 512
frame5 {t} 15 1500
stats pooling [0,T) T 3000
segment6 {0} T 512
segment6 {0} T 512
softmax {0} T N
对比实验以X-Vector系统作为基线模型,X-Vector模型采用声学特征为20维的MFCC特征。对每一段语音段,得到512维的X-Vector矢量。其中baseline为基线X-Vector说话人识别系统,Spectrogram-CNN为采用语谱图和卷积神经网络的说话人识别系统,Spectrogram-CNN-Attention-Statistic Pooling为采用语谱图和卷积神经网络的基于注意力机制的统计层说话人识别系统。本发明提出的Spectrogram-CNN-Attention-Statistic Pooling模型在EER评价上均好于两种基线系统并且有明显优势,综上,本发明相较于两种基线系统有明显优势。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (5)

1.一种基于语谱图和注意力机制的声纹识别方法,其特征在于,包括步骤
S1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;
S2:特征提取,利用Kaldi语音识别工具提取语谱图作为输入特征;
S3:特征处理,将所述语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;
S4:模型训练,利用X-Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;
S5:打分判决,利用概率线性判别分析算法PLDA对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。
2.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S1数据预处理的实现步骤包括
S11,语音语料采用Voxceleb1语音数据库;
S12,利用Kaldi生成spk2utt、utt2spk和wav.scp文件。
3.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S2所述提取语谱图实现包括步骤
S21,将语音信号输入Kaldi语音识别工具;
S22,对语音信号进行分帧加窗;
S23,对分帧加窗后的语音信号进行傅里叶变换;
S24,对傅里叶变换后的语音信号进行能量密度计算;
S25,对经能量密度计算后的语音信号以时间为横轴,频率为纵轴,将每一帧信号按照时序进行连接,得到语音信号的语谱。
4.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S4中所述引入注意力机制对其进行帧权重的优化和处理的实现,包括步骤
S41,在对语音信号处理时,将信号进行分帧处理,每一帧都用相应的向量表示,使得一个语音信号用一个矩阵X=(x1,x2,…,xi…,xt)表示,其中xi代表第i帧的向量,维度为d,故X∈Rt×d
S42,将注意力机制与统计层相结合,计算语音信号的加权统计量,然后计算不同帧的权重。假设统计层的输入为T帧向量H={m1,m2,…,mi,…,mT},每一帧特征mi的维度为dh,因此,H的大小为dh×T,采用注意力机制可以计算出每一帧的权重,如此计算可以得到一个权重矩阵A,如公式(1)所示:
A=[α12,…αT]=soft max(f(HTW)) (1)
其中,f(·)为激活函数,采用ReLU函数,W表示变换矩阵;
S43,利用权重得到加权统计量,如公式(2)和公式(3)所示:
Figure FDA0002466936630000021
Figure FDA0002466936630000022
用[μ,σ]来表示一段语音信号;
S44,统计层中采用多头注意力机制,再将结果进行拼接,如公式(4)所示:
Multi-Head(μ,σ)=Comcat([μ11],[μ22],…[μhh]) (4)
其中,[μ,σ]表示单个注意力机制计算得到的结果。
5.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,步骤S5中所述的概率线性判别分析算法PLDA实现,包括步骤
S51,将X-Vector进行因子分析,计算如公式(5)所示,
Pi=m+Φβ+εγ (5)
其中,m为训练数据全局均值,Φ为描述说话人类间差异的子空间矩阵,β是满足标准正态分布特征的隐含因子,且与说话人身份相关,εγ是对角矩阵∑的残余项;
S52,在决策打分环节,依次用η1、η2进行描述,两者的对数似然比的计算如公式(6)所示,
Figure FDA0002466936630000031
其中,Rs表示η1和η2来自同一个说话人的条件,Rd表示η1和η2来自不同说话人的条件。
CN202010336844.9A 2020-04-26 2020-04-26 一种基于语谱图和注意力机制的声纹识别方法 Active CN111554305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010336844.9A CN111554305B (zh) 2020-04-26 2020-04-26 一种基于语谱图和注意力机制的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010336844.9A CN111554305B (zh) 2020-04-26 2020-04-26 一种基于语谱图和注意力机制的声纹识别方法

Publications (2)

Publication Number Publication Date
CN111554305A true CN111554305A (zh) 2020-08-18
CN111554305B CN111554305B (zh) 2023-06-09

Family

ID=72007692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010336844.9A Active CN111554305B (zh) 2020-04-26 2020-04-26 一种基于语谱图和注意力机制的声纹识别方法

Country Status (1)

Country Link
CN (1) CN111554305B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129897A (zh) * 2021-04-08 2021-07-16 杭州电子科技大学 一种基于注意力机制循环神经网络的声纹识别方法
CN113571067A (zh) * 2021-06-21 2021-10-29 浙江工业大学 一种基于边界攻击的声纹识别对抗样本生成方法
CN113643709A (zh) * 2021-08-03 2021-11-12 成都理工大学 一种基于mean-SAP池化模型的说话人识别方法及系统
CN114114274A (zh) * 2021-11-02 2022-03-01 北京理工大学 一种基于类脑听觉模型的无人机识别方法
CN114333850A (zh) * 2022-03-15 2022-04-12 清华大学 一种语音声纹可视化方法与装置
CN114613369A (zh) * 2022-03-07 2022-06-10 哈尔滨理工大学 一种基于特征差异最大化的说话人识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180190268A1 (en) * 2017-01-04 2018-07-05 Samsung Electronics Co., Ltd. Speech recognizing method and apparatus
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置
US20190251952A1 (en) * 2018-02-09 2019-08-15 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
CN110992987A (zh) * 2019-10-23 2020-04-10 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法
CN111047515A (zh) * 2019-12-29 2020-04-21 兰州理工大学 一种基于注意力机制的空洞卷积神经网络图像超分辨率重建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180190268A1 (en) * 2017-01-04 2018-07-05 Samsung Electronics Co., Ltd. Speech recognizing method and apparatus
US20190251952A1 (en) * 2018-02-09 2019-08-15 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
CN110136693A (zh) * 2018-02-09 2019-08-16 百度(美国)有限责任公司 用于使用少量样本进行神经话音克隆的系统和方法
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置
CN110992987A (zh) * 2019-10-23 2020-04-10 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法
CN111047515A (zh) * 2019-12-29 2020-04-21 兰州理工大学 一种基于注意力机制的空洞卷积神经网络图像超分辨率重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YICHI ZHANG: "Seq2Seq Attentional Siamese Neural Networks for Text-dependent Speaker Verification", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
刘乐,等: "声纹识别:一种无需接触、不惧遮挡的身份认证方式", 《中国安全防范技术与应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129897A (zh) * 2021-04-08 2021-07-16 杭州电子科技大学 一种基于注意力机制循环神经网络的声纹识别方法
CN113129897B (zh) * 2021-04-08 2024-02-20 杭州电子科技大学 一种基于注意力机制循环神经网络的声纹识别方法
CN113571067A (zh) * 2021-06-21 2021-10-29 浙江工业大学 一种基于边界攻击的声纹识别对抗样本生成方法
CN113571067B (zh) * 2021-06-21 2023-12-26 浙江工业大学 一种基于边界攻击的声纹识别对抗样本生成方法
CN113643709A (zh) * 2021-08-03 2021-11-12 成都理工大学 一种基于mean-SAP池化模型的说话人识别方法及系统
CN113643709B (zh) * 2021-08-03 2023-07-18 成都理工大学 一种基于mean-SAP池化模型的说话人识别方法及系统
CN114114274A (zh) * 2021-11-02 2022-03-01 北京理工大学 一种基于类脑听觉模型的无人机识别方法
CN114613369A (zh) * 2022-03-07 2022-06-10 哈尔滨理工大学 一种基于特征差异最大化的说话人识别方法
CN114333850A (zh) * 2022-03-15 2022-04-12 清华大学 一种语音声纹可视化方法与装置

Also Published As

Publication number Publication date
CN111554305B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN111554305B (zh) 一种基于语谱图和注意力机制的声纹识别方法
Chauhan et al. Speaker recognition using LPC, MFCC, ZCR features with ANN and SVM classifier for large input database
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN113488058B (zh) 一种基于短语音的声纹识别方法
CN112201255B (zh) 语音信号频谱特征和深度学习的语音欺骗攻击检测方法
WO2021051608A1 (zh) 一种基于深度学习的声纹识别方法、装置及设备
Baloul et al. Challenge-based speaker recognition for mobile authentication
CN103794207A (zh) 一种双模语音身份识别方法
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN107358947A (zh) 说话人重识别方法及系统
CN104732972A (zh) 一种基于分组统计的hmm声纹识别签到方法及系统
CN115101077A (zh) 一种声纹检测模型训练方法及声纹识别方法
Kanagasundaram Speaker verification using I-vector features
Wu et al. Improving Deep CNN Architectures with Variable-Length Training Samples for Text-Independent Speaker Verification.
Li et al. SNR-invariant PLDA modeling for robust speaker verification.
CN114970695A (zh) 一种基于非参贝叶斯模型的说话人分割聚类方法
CN114613369A (zh) 一种基于特征差异最大化的说话人识别方法
Aloradi et al. Speaker verification in multi-speaker environments using temporal feature fusion
CN112885358A (zh) 一种基于双向长短期记忆网络的说话人确认欺骗检测方法
Komlen et al. Text independent speaker recognition using LBG vector quantization
Hu et al. Speaker Recognition Based on 3DCNN-LSTM.
Dong et al. Application of voiceprint recognition based on improved ecapa-tdnn
Wang et al. A robust DBN-vector based speaker verification system under channel mismatch conditions
Zhao et al. Speaker recognition based on deep learning
JPWO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant