CN111554305A - 一种基于语谱图和注意力机制的声纹识别方法 - Google Patents
一种基于语谱图和注意力机制的声纹识别方法 Download PDFInfo
- Publication number
- CN111554305A CN111554305A CN202010336844.9A CN202010336844A CN111554305A CN 111554305 A CN111554305 A CN 111554305A CN 202010336844 A CN202010336844 A CN 202010336844A CN 111554305 A CN111554305 A CN 111554305A
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- attention mechanism
- voice
- namely
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000000556 factor analysis Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 description 3
- 101150093766 Segment-6 gene Proteins 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于语谱图和注意力机制的声纹识别方法,包括步骤:数据预处理,将语音语料进行处理;特征提取,提取语谱图作为输入特征;特征处理,将语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;模型训练,利用X‑Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;打分判决,对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。和现有X‑Vector说话人识别技术相比,本发明引入卷积神经网络和语谱图,能更好地捕获说话人特征,并且采用注意力机制对统计层进行训练,成本低,效率高,提高了说话人识别系统的性能。
Description
技术领域
本发明涉及说话人识别领域,尤其涉及一种基于语谱图和注意力机制的声纹识别方法。
背景技术
随着科技的发展,用户身份认证方式发生了巨大的变化,声纹识别由于简单易行,可以抵抗回放攻击,广泛应用在声纹支付、声纹考勤、声纹门禁、社保认证等领域,应用前景广泛。
然而,声纹识别在实际应用中,由于应用场景复杂多变,存在噪声,导致声纹识别系统的鲁棒性不足,识别准确率下降。
发明内容
为克服传统说话人识别技术的鲁棒性差,系统抗噪能力弱的不足,本发明提出一种基于语谱图和注意力机制的声纹识别方法,以有效的提高说话人识别的鲁棒性和准确率。
本发明的技术方案是这样实现的,一种基于语谱图和注意力机制的声纹识别方法,包括步骤
S1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;
S2:特征提取,利用Kaldi语音识别工具提取语谱图(Spectrogram)作为输入特征;
S3:特征处理,将所述语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;
S4:模型训练,利用X-Vector模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;
S5:打分判决,利用概率线性判别分析算法PLDA(Probability LinearDiscriminant Analysis)对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。
进一步地,所述步骤S1数据预处理的实现步骤包括
S11,语音语料采用Voxceleb1语音数据库;
S12,利用Kaldi生成spk2utt、utt2spk和wav.scp等文件。
进一步地,所述步骤S2所述提取语谱图实现包括步骤
S21,将语音信号输入Kaldi语音识别工具;
S22,对语音信号进行分帧加窗;
S23,对分帧加窗后的语音信号进行傅里叶变换;
S24,对傅里叶变换后的语音信号进行能量密度计算;
S25,对经能量密度计算后的语音信号以时间为横轴,频率为纵轴,将每一帧信号按照时序进行连接,得到语音信号的语谱。
进一步地,所述步骤S4中所述的引入注意力机制对帧级别特征进行权重处理实现,包括步骤
S41,在对语音信号处理时,将信号进行分帧处理,每一帧都用相应的向量表示,使得一个语音信号用一个矩阵X=(x1,x2,…,xi,…,xt)表示,其中xi代表第i帧的向量,维度为d维,故X∈Rt×d;
S42,将注意力机制与统计层相结合,计算语音信号的加权统计量,然后计算不同帧的权重。假设统计层的输入为T帧向量H={m1,m2,…,mi,…,mT},每一帧特征mi的维度为dh,因此,H的大小为dh×T,采用注意力机制可以计算出每一帧的权重,如此计算可以得到一个权重矩阵A,如公式(1)所示:
A=[α1,α2,…αT]=softmax(f(HTW)) (1)
其中,f(·)为激活函数,采用ReLU函数,W表示变换矩阵;
S43,利用权重得到加权统计量,如公式(2)和公式(3)所示:
用[μ,σ]来表示一段语音信号;
S44,统计层中采用多头注意力机制,再将结果进行拼接,如公式(4)所示:
Multi-Head(μ,σ)=Comcat([μ1,σ1],[μ2,σ2],…[μh,σh]) (4)
其中,[μ,σ]表示单个注意力机制计算得到的结果。
进一步地,步骤S5中所述的概率线性判别分析算法PLDA实现,包括步骤
S51,将X-Vector进行因子分析,计算如公式(5)所示,
Pi=m+Φβ+εγ (5)
其中,m为训练数据全局均值,Φ为描述说话人类间差异的子空间矩阵,β是满足标准正态分布特征的隐含因子,且与说话人身份相关,εγ是对角矩阵∑的残余项;
S52,在决策打分环节,依次用η1、η2进行描述,两者的对数似然比的计算如公式(6)所示,
其中,Rs表示η1和η2来自同一个说话人的条件,Rd表示η1和η2来自不同说话人的条件。
进一步地,步骤S5所述的概率线性判别分析算法PLDA是根据对两个待测样本的似然对数比得分和预设条件的判定,给出两个样本是否为同一个说话人的判断。
本发明的有益效果在于,和现有X-Vector说话人识别技术相比,本发明采用卷积神经网络和语谱图,能更好地捕获说话人特征,并且采用注意力机制对统计层进行训练,成本低,效率高,提高了说话人识别系统的性能。
附图说明
图1是本发明一种基于语谱图和注意力机制的声纹识别方法流程图;
图2是本发明中基于注意力机制的统计层结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明一种基于语谱图和注意力机制的声纹识别方法包括以下步骤
S1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;其中,
对于所述处理步骤的主要流程为:
S11,语音语料采用Voxceleb1语音数据库;
S12,利用Kaldi生成spk2utt、utt2spk和wav.scp等文件。
S2:特征提取,利用Kaldi语音识别工具提取语谱图(Spectrogram)作为输入特征;其中,
对于所述提取语谱图的步骤的主要流程为:
S21,将语音信号输入Kaldi语音识别工具;
S22,对语音信号进行分帧加窗;
S23,对上一步输出进行傅里叶变换;
S24,对上一步输出进行能量密度计算
S25,对上一步输出以时间为横轴,频率为纵轴,将每一帧信号按照时序进行连接,得到语音信号的语谱。
S3:特征处理,将语谱图输入卷积神经网络,利用卷积神经网络对其进行自动优化和降维;
S4:模型训练,利用X-Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;其中,
对于所述步骤4中对于所述的引入注意力机制对帧级别特征进行权重处理步骤的主要流程为:
S41,在对语音信号处理时,将信号进行分帧处理,每一帧都用相应的向量表示,使得一个语音信号用一个矩阵X=(x1,x2,…,xi,…,xt)表示,其中xi代表第i帧的向量,维度为d维,故X∈Rt×d;
S42,将注意力机制与统计层相结合,计算语音信号的加权统计量,然后计算不同帧的权重。假设统计层的输入为T帧向量H={m1,m2,…,mi,…,mT},每一帧特征mi的维度为dh,因此,H的大小为dh×T,采用注意力机制可以计算出每一帧的权重,如此计算可以得到一个权重矩阵A,如公式(1)所示:
A=[α1,α2,…αT]=softmax(f(HTW)) (1)
其中,f(·)为激活函数,采用ReLU函数,W表示变换矩阵;
S43,利用权重得到加权统计量,如公式(2)和公式(3)所示:
用[μ,σ]来表示一段语音信号;
S44,统计层中采用多头注意力机制,再将结果进行拼接,如公式(4)所示:
Multi-Head(μ,σ)=Comcat([μ1,σ1],[μ2,σ2],…[μh,σh]) (4)
S5:打分判决,利用概率线性判别分析算法PLDA(Probability LinearDiscriminant Analysis)对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断;其中,
对于所述概率线性判别分析算法PLDA步骤的主要流程为:
S51,将X-Vector进行因子分析,计算如公式(5)所示,
Pi=m+Φβ+εγ (5)
其中,m为训练数据全局均值,Φ为描述说话人类间差异的子空间矩阵,β是满足标准正态分布特征的隐含因子,且与说话人身份相关,εγ是对角矩阵∑的残余项;
S52,在决策打分环节,依次用η1、η2进行描述,两者的对数似然比的计算如公式(6)所示,
其中,Rs表示η1和η2来自同一个说话人的条件,Rd表示η1和η2来自不同说话人的条件。
打分判决根据对两个待测样本的似然对数比得分是否符合预设判定条件,判断两个样本是否属于同一个说话人。
下面对本发明方法进行仿真并分析:
本发明在VoxCelebl数据集中,对语谱图和注意力机制下的声纹识别性能进行了仿真实验。VoxCelebl数据集是文本无关的,属于完全的集外数据集,全部音频的采样频率为16kHz,音频格式采用单声道16bit的wav音频文件。语音中带有真实场景噪声,如环境噪声、背景人声、室内噪声、录音设备噪声等,噪声出现的时间点没有任何规律。测评标准采用等错误率ERR(Equal Error Rate)来衡量说话人识别系统的性能。
表1是不同系统中,EER评价标准的对比。
表1
表2是X-Vector神经网络架构中帧数层的参数设置情况。
表2
网络层 | 时延参数 | 上下文相关帧数 | 节点数 |
frame1 | [t-2,t+2] | 5 | 512 |
frame2 | {t-2,t,t+2} | 9 | 512 |
frame3 | {t-3,t,t+3} | 15 | 512 |
frame4 | {t} | 15 | 512 |
frame5 | {t} | 15 | 1500 |
stats pooling | [0,T) | T | 3000 |
segment6 | {0} | T | 512 |
segment6 | {0} | T | 512 |
softmax | {0} | T | N |
对比实验以X-Vector系统作为基线模型,X-Vector模型采用声学特征为20维的MFCC特征。对每一段语音段,得到512维的X-Vector矢量。其中baseline为基线X-Vector说话人识别系统,Spectrogram-CNN为采用语谱图和卷积神经网络的说话人识别系统,Spectrogram-CNN-Attention-Statistic Pooling为采用语谱图和卷积神经网络的基于注意力机制的统计层说话人识别系统。本发明提出的Spectrogram-CNN-Attention-Statistic Pooling模型在EER评价上均好于两种基线系统并且有明显优势,综上,本发明相较于两种基线系统有明显优势。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (5)
1.一种基于语谱图和注意力机制的声纹识别方法,其特征在于,包括步骤
S1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;
S2:特征提取,利用Kaldi语音识别工具提取语谱图作为输入特征;
S3:特征处理,将所述语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;
S4:模型训练,利用X-Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;
S5:打分判决,利用概率线性判别分析算法PLDA对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。
2.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S1数据预处理的实现步骤包括
S11,语音语料采用Voxceleb1语音数据库;
S12,利用Kaldi生成spk2utt、utt2spk和wav.scp文件。
3.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S2所述提取语谱图实现包括步骤
S21,将语音信号输入Kaldi语音识别工具;
S22,对语音信号进行分帧加窗;
S23,对分帧加窗后的语音信号进行傅里叶变换;
S24,对傅里叶变换后的语音信号进行能量密度计算;
S25,对经能量密度计算后的语音信号以时间为横轴,频率为纵轴,将每一帧信号按照时序进行连接,得到语音信号的语谱。
4.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S4中所述引入注意力机制对其进行帧权重的优化和处理的实现,包括步骤
S41,在对语音信号处理时,将信号进行分帧处理,每一帧都用相应的向量表示,使得一个语音信号用一个矩阵X=(x1,x2,…,xi…,xt)表示,其中xi代表第i帧的向量,维度为d,故X∈Rt×d;
S42,将注意力机制与统计层相结合,计算语音信号的加权统计量,然后计算不同帧的权重。假设统计层的输入为T帧向量H={m1,m2,…,mi,…,mT},每一帧特征mi的维度为dh,因此,H的大小为dh×T,采用注意力机制可以计算出每一帧的权重,如此计算可以得到一个权重矩阵A,如公式(1)所示:
A=[α1,α2,…αT]=soft max(f(HTW)) (1)
其中,f(·)为激活函数,采用ReLU函数,W表示变换矩阵;
S43,利用权重得到加权统计量,如公式(2)和公式(3)所示:
用[μ,σ]来表示一段语音信号;
S44,统计层中采用多头注意力机制,再将结果进行拼接,如公式(4)所示:
Multi-Head(μ,σ)=Comcat([μ1,σ1],[μ2,σ2],…[μh,σh]) (4)
其中,[μ,σ]表示单个注意力机制计算得到的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010336844.9A CN111554305B (zh) | 2020-04-26 | 2020-04-26 | 一种基于语谱图和注意力机制的声纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010336844.9A CN111554305B (zh) | 2020-04-26 | 2020-04-26 | 一种基于语谱图和注意力机制的声纹识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111554305A true CN111554305A (zh) | 2020-08-18 |
CN111554305B CN111554305B (zh) | 2023-06-09 |
Family
ID=72007692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010336844.9A Active CN111554305B (zh) | 2020-04-26 | 2020-04-26 | 一种基于语谱图和注意力机制的声纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111554305B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129897A (zh) * | 2021-04-08 | 2021-07-16 | 杭州电子科技大学 | 一种基于注意力机制循环神经网络的声纹识别方法 |
CN113571067A (zh) * | 2021-06-21 | 2021-10-29 | 浙江工业大学 | 一种基于边界攻击的声纹识别对抗样本生成方法 |
CN113643709A (zh) * | 2021-08-03 | 2021-11-12 | 成都理工大学 | 一种基于mean-SAP池化模型的说话人识别方法及系统 |
CN114114274A (zh) * | 2021-11-02 | 2022-03-01 | 北京理工大学 | 一种基于类脑听觉模型的无人机识别方法 |
CN114333850A (zh) * | 2022-03-15 | 2022-04-12 | 清华大学 | 一种语音声纹可视化方法与装置 |
CN114613369A (zh) * | 2022-03-07 | 2022-06-10 | 哈尔滨理工大学 | 一种基于特征差异最大化的说话人识别方法 |
CN115146762A (zh) * | 2022-06-14 | 2022-10-04 | 兰州理工大学 | 一种基于SE模块增强ViT模型鲁棒性的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180190268A1 (en) * | 2017-01-04 | 2018-07-05 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
CN108694949A (zh) * | 2018-03-27 | 2018-10-23 | 佛山市顺德区中山大学研究院 | 基于重排序超向量和残差网络的说话人识别方法及其装置 |
CN109801635A (zh) * | 2019-01-31 | 2019-05-24 | 北京声智科技有限公司 | 一种基于注意力机制的声纹特征提取方法及装置 |
US20190251952A1 (en) * | 2018-02-09 | 2019-08-15 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
CN111047515A (zh) * | 2019-12-29 | 2020-04-21 | 兰州理工大学 | 一种基于注意力机制的空洞卷积神经网络图像超分辨率重建方法 |
-
2020
- 2020-04-26 CN CN202010336844.9A patent/CN111554305B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180190268A1 (en) * | 2017-01-04 | 2018-07-05 | Samsung Electronics Co., Ltd. | Speech recognizing method and apparatus |
US20190251952A1 (en) * | 2018-02-09 | 2019-08-15 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
CN110136693A (zh) * | 2018-02-09 | 2019-08-16 | 百度(美国)有限责任公司 | 用于使用少量样本进行神经话音克隆的系统和方法 |
CN108694949A (zh) * | 2018-03-27 | 2018-10-23 | 佛山市顺德区中山大学研究院 | 基于重排序超向量和残差网络的说话人识别方法及其装置 |
CN109801635A (zh) * | 2019-01-31 | 2019-05-24 | 北京声智科技有限公司 | 一种基于注意力机制的声纹特征提取方法及装置 |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
CN111047515A (zh) * | 2019-12-29 | 2020-04-21 | 兰州理工大学 | 一种基于注意力机制的空洞卷积神经网络图像超分辨率重建方法 |
Non-Patent Citations (2)
Title |
---|
YICHI ZHANG: "Seq2Seq Attentional Siamese Neural Networks for Text-dependent Speaker Verification", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
刘乐,等: "声纹识别:一种无需接触、不惧遮挡的身份认证方式", 《中国安全防范技术与应用》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129897A (zh) * | 2021-04-08 | 2021-07-16 | 杭州电子科技大学 | 一种基于注意力机制循环神经网络的声纹识别方法 |
CN113129897B (zh) * | 2021-04-08 | 2024-02-20 | 杭州电子科技大学 | 一种基于注意力机制循环神经网络的声纹识别方法 |
CN113571067A (zh) * | 2021-06-21 | 2021-10-29 | 浙江工业大学 | 一种基于边界攻击的声纹识别对抗样本生成方法 |
CN113571067B (zh) * | 2021-06-21 | 2023-12-26 | 浙江工业大学 | 一种基于边界攻击的声纹识别对抗样本生成方法 |
CN113643709A (zh) * | 2021-08-03 | 2021-11-12 | 成都理工大学 | 一种基于mean-SAP池化模型的说话人识别方法及系统 |
CN113643709B (zh) * | 2021-08-03 | 2023-07-18 | 成都理工大学 | 一种基于mean-SAP池化模型的说话人识别方法及系统 |
CN114114274A (zh) * | 2021-11-02 | 2022-03-01 | 北京理工大学 | 一种基于类脑听觉模型的无人机识别方法 |
CN114613369A (zh) * | 2022-03-07 | 2022-06-10 | 哈尔滨理工大学 | 一种基于特征差异最大化的说话人识别方法 |
CN114613369B (zh) * | 2022-03-07 | 2024-08-09 | 哈尔滨理工大学 | 一种基于特征差异最大化的说话人识别方法 |
CN114333850A (zh) * | 2022-03-15 | 2022-04-12 | 清华大学 | 一种语音声纹可视化方法与装置 |
CN115146762A (zh) * | 2022-06-14 | 2022-10-04 | 兰州理工大学 | 一种基于SE模块增强ViT模型鲁棒性的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111554305B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111554305B (zh) | 一种基于语谱图和注意力机制的声纹识别方法 | |
Chauhan et al. | Speaker recognition using LPC, MFCC, ZCR features with ANN and SVM classifier for large input database | |
WO2021051608A1 (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
WO2019200744A1 (zh) | 自更新的反欺诈方法、装置、计算机设备和存储介质 | |
Baloul et al. | Challenge-based speaker recognition for mobile authentication | |
CN112201255A (zh) | 语音信号频谱特征和深度学习的语音欺骗攻击检测方法 | |
CN110047504B (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
CN113488058A (zh) | 一种基于短语音的声纹识别方法 | |
CN108520752A (zh) | 一种声纹识别方法和装置 | |
CN107358947A (zh) | 说话人重识别方法及系统 | |
CN104732972A (zh) | 一种基于分组统计的hmm声纹识别签到方法及系统 | |
CN115101077A (zh) | 一种声纹检测模型训练方法及声纹识别方法 | |
CN112885358A (zh) | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 | |
Wu et al. | Improving Deep CNN Architectures with Variable-Length Training Samples for Text-Independent Speaker Verification. | |
CN113035173A (zh) | 一种基于机载设备的特定说话人启动人脸识别方法 | |
Aloradi et al. | Speaker verification in multi-speaker environments using temporal feature fusion | |
Hu et al. | Speaker Recognition Based on 3DCNN-LSTM. | |
CN111199742A (zh) | 一种身份验证方法、装置及计算设备 | |
Li et al. | SNR-invariant PLDA modeling for robust speaker verification. | |
CN114613369A (zh) | 一种基于特征差异最大化的说话人识别方法 | |
CN114970695A (zh) | 一种基于非参贝叶斯模型的说话人分割聚类方法 | |
Li et al. | How to make embeddings suitable for PLDA | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
Zhao et al. | Speaker recognition based on deep learning | |
Wang et al. | A robust DBN-vector based speaker verification system under channel mismatch conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |