CN114038469A - 一种基于多类谱图特征注意力融合网络的说话人识别方法 - Google Patents

一种基于多类谱图特征注意力融合网络的说话人识别方法 Download PDF

Info

Publication number
CN114038469A
CN114038469A CN202110887726.1A CN202110887726A CN114038469A CN 114038469 A CN114038469 A CN 114038469A CN 202110887726 A CN202110887726 A CN 202110887726A CN 114038469 A CN114038469 A CN 114038469A
Authority
CN
China
Prior art keywords
spectrogram
network
class
method based
mel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110887726.1A
Other languages
English (en)
Other versions
CN114038469B (zh
Inventor
贾勇
焦旭
张葛祥
杨强
姚光乐
方祖林
罗标
汤刚
何瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Turing Zhiyang Information Technology Co ltd
Chengdu Univeristy of Technology
Original Assignee
Chengdu Turing Zhiyang Information Technology Co ltd
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Turing Zhiyang Information Technology Co ltd, Chengdu Univeristy of Technology filed Critical Chengdu Turing Zhiyang Information Technology Co ltd
Priority to CN202110887726.1A priority Critical patent/CN114038469B/zh
Publication of CN114038469A publication Critical patent/CN114038469A/zh
Application granted granted Critical
Publication of CN114038469B publication Critical patent/CN114038469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于多类谱图特征注意力融合网络的说话人识别方法,采用改进的34层残差网络和3DCNN残差网络作为识别模型,将语音信号分别转化为语谱图、Mel‑Fbank谱图和Gam‑Fbank谱图作为网络的训练特征图,利用34层残差网络提取三种谱图的空间特征,接着将三种谱图堆叠后利用3DCNN残差网络提取谱图间相互关联特征,并在上述网络模型后端引入通道注意力机制,使得网络自主学习如何生成最佳特征向量,接着将四个模型生成的特征向量进行融合,最后将融合后的特征向量与数据库中的说话人特征向量进行余弦距离比较,以确定说话人身份。本发明弥补了说话人特征因单一而无法准确表达的缺陷,从而有效的提升了说话人识别的准确率。

Description

一种基于多类谱图特征注意力融合网络的说话人识别方法
技术领域
本发明涉及声纹识别领域,具体的说,涉及一种基于多类谱图特征注意力融合网络的说话人识别方法。
背景技术
说话人识别也称为声纹识别,是指通过对说话人语音信号的分析处理,确认说话人是否属于所记录的说话人集合,以及进一步确认说话人是谁。按其最终完成的任务不同,说话人识别可以分为两类:说话人确认和说话人辨认。
说话人识别领域应用十分广泛,包括公安领域、金融领域、军事领域以及医疗领域等等。但传统的说话人识别技术(如GMM-UBM、GMM-SVM、JFA、i-vector等)准确率低、鲁棒性弱、实用性不强,无法满足当前实际应用要求。近年来深度学习在特征表达和模式分类方面表现优异,为说话人识别技术的进一步发展提供了新方向。
单一的说话人特征无法较好的完整表达说话人身份,不能完整的表示说话人语音在不同维度上的信息,可能会产生过拟合。除单一特征外,许多学者将一个深度网络中不同层的输出作为特征,以此来丰富说话人的身份特征,但特征间冗余度较高,同时也会极大增加系统的计算量。因此,目前说话人识别算法无法较好的表达说话人身份信息,其识别的准确率有待提高。
发明内容
本发明针对现有技术存在的不足,提供了一种基于多类谱图特征注意力融合网络的说话人识别方法,只需将语音信号变换成三种不同的谱图,并将三种谱图在空间上进行堆叠,依次训练三个34层残差网络和一个3DCNN残差网络模型,最后将输出的特征向量进行融合识别,有效的解决了单一特征无法完整表达说话人身份的问题,提高了说话人识别的准确率。
本发明的具体技术方案如下:
一种基于多类谱图特征注意力融合网络的说话人识别方法,如图1所示,包括以下步骤:
步骤1:对语音信号进行端点检测,目的是去除收集到的语音所包含的静音片段,消除无声段噪声;
步骤2:对消除静音片段后的语音信号进行预加重,目的是去除口唇辐射的影响,增加语音的高频分辨率;
步骤3:对预加重后的语音信号进行分帧,由于语音信号在“短时间”内可以认为是稳态的、时不变的,所以在进行语音信号处理前需要分帧,帧长一般取10~30ms,并且为了使特征参数平滑地变化,往往设置在相邻的两帧之间有一部分重叠;
步骤4:对分帧后的每帧语音信号进行加窗,目的是为了减少语音信号截断导致的频谱泄露;
步骤5:对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;
步骤6:分别计算生成语音信号的语谱图、Mel-Fbank谱图和Gam-Fbank谱图;
步骤7:分别利用语谱图、Mel-Fbank谱图和Gam-Fbank谱图作为神经网络的输入,训练三个残差34层网络模型;
步骤8:将三种谱图堆叠成谱图立方体作为神经网络的输入,训练3DCNN残差网络模型;
步骤9:在上述四个模型后端分别引入注意力机制,目的是分配给每个通道不同的权重,让网络关注重要的特征,抑制不重要的特征,从而生成最佳特征向量。
步骤10:将三个残差34层网络模型和3DCNN残差网络模型生成的特征向量进行特征融合;
步骤11:将融合后的特征向量与数据库中已有的特征向量进行相似度计算,设定阈值,从而判决出说话人。
作为优选:步骤2中语音信号进行预加重操作,预加重可通过一阶FIR滤波器来实现,其传递函数可表示为:
H(z)=1-az-1 (1)
式(1)中,a为预加重系数,通常可以取0.9<a<1.0。
作为优选:步骤4中对分帧后的信号进行加窗,应用汉宁窗,其表达式为:
Figure BDA0003194811770000031
其中,x(n)为每一帧时域采样信号,X(k)为语音的频谱,N离散傅里叶变换区间长度,k为频域离散刻度,n为时域离散刻度。
作为优选:步骤5中对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱X(k),可表示为:
Figure BDA0003194811770000032
其中,x(n)为每一帧时域采样信号,X(k)为语音的频谱,N离散傅里叶变换区间长度,k为频域离散刻度,n为时域离散刻度。
作为优选:步骤6中语谱图的生成过程为:
A1)对输入的语音信号进行量化采样和预处理,对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;
A2)取傅里叶变换后的频谱的对数能量,生成语谱图。
作为优选:步骤6中梅尔谱图的生成过程为:
B1)对输入的语音信号进行量化采样和预处理,对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;
B2)将频谱输入Mel滤波器组进行滤波,生成Mel频谱,取Mel频谱的对数能量,生成梅尔谱图。
作为优选:步骤6中Gam-Fbank谱图的生成过程为:
C1)对输入的语音信号进行量化采样和预处理,对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;
C2)将频谱输入Gammatone滤波器组进行滤波,生成Gammatonel频谱,取Gammatone频谱的对数能量,生成Gam-Fbank谱图。
作为优选:步骤B2中Mel滤波器是对人耳感知非线性频率变化的模拟,Mel刻度和频率的关系如下:
Figure BDA0003194811770000041
式中,m为Mel刻度,f为频率。
作为优选:步骤B2中Mel滤波器是一组三角带通滤波器Hm(k),且需满足0≤m≤M,其中M表示滤波器的数量,通常为20~28。带通滤波器的传递函数可以表示为:
Figure BDA0003194811770000042
其中,H(k)为带通滤波器函数,f(m)为中心频率,m表示第m个滤波器,k为频域刻度。
作为优选:步骤C2中Gammatone滤波器组用于模拟耳蜗底膜的听觉特性,其时域表达式如下:
h(f,t)=ctn-1e-2πbtcos(2πfii)t>0,0<i≤N (6)
式(6)中,c为调节比例的常数,n为滤波器的级数,b为衰减速度,i为滤波器序数,fi为滤波器的中心频率,Φi为滤波器的频率,N为滤波器个数。
作为优选:步骤9中对于网络生成的特征
Figure BDA0003194811770000043
Figure BDA0003194811770000051
其融合特征向量
Figure BDA0003194811770000052
作为优选:步骤10中采用余弦距离计算相似度,可以表示为:
Figure BDA0003194811770000053
其中,
Figure BDA0003194811770000054
为两特征向量,d为所求的余弦距离。
有益效果在于:
本发明分别利用语谱图、Mel-Fbank谱图、Gam-Fbank谱图和三种谱图的堆叠作为神经网络的输入,将网络输出的特征进行融合,该方法表达了在不同维度上的说话人声音身份的信息,弥补了单一特征无法较好表达说话人身份的缺陷,从而大幅提升说话人识别的准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明方法的总体结构框图;
图2为语谱图、Mel-Fbank谱图、Gam-Fbank谱图的提取过程;
图3为梅尔滤波器组示意图;
图4为Gammatone滤波器组示意图;
图5为测试集准确率随训练轮数变化曲线图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
现在结合说明书附图对本发明做进一步的说明。
如图1所示,本发明提供了一种基于深度学习网络的多模型特征融合的说话人识别方法,包括以下步骤:
步骤1:对采集到的声音信号进行采样量化,本实施例的采样频率为1600Hz;
步骤2:对采样后的信号进行预加重,目的是为了去除口唇辐射的影响,增加语音的高频分辨率。预加重可通过一阶FIR滤波器来实现,其传递函数可表示为:
H(z)=1-az-1 (1)
式(1)中,a为预加重系数,通常可以取0.9<a<1.0;
步骤3:对预加重后的信号进行分帧,分帧是由于语音信号在“短时间”内可以认为是稳态的、时不变的,帧长一般取10~30ms,本实施例取10ms,并且为了使特征参数平滑地变化,往往设置在相邻的两帧之间有一部分重叠;
步骤4:对分帧后的信号进行加窗,是为了减少语音信号分帧导致的频谱泄露,本实例采用汉宁窗,窗长512,其表达式为:
Figure BDA0003194811770000071
步骤5:对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱X(k),可表示为:
Figure BDA0003194811770000072
步骤6:分别生成语音信号的语谱图、梅尔谱图和Gam-Fbank谱图,同时将三种谱图叠加,以作为神经网络的输入;
步骤7:利用Python编程语言搭建改进的34层残差网络(Thin ResNet-34)和3DCNN残差(3DCNN ResNet-34)网络,网络结构如表1所示;
Figure BDA0003194811770000073
表1
步骤8:利用语谱图、梅尔谱图、Gam-Fbank谱图分别训练三个34层残差网络模型,利用三种谱图的堆叠训练一个3DCNN残差网络模型;
步骤9:将融合后的特征向量
Figure BDA0003194811770000081
与数据库中已有的特征向量
Figure BDA0003194811770000082
进行余弦相似度计算,如式(4)所示,设定阈值,从而判决出说话人。
Figure BDA0003194811770000083
如图2所示,本实施例步骤6中谱图的生成过程为:
(1)对输入的语音信号进行预处理,生成时域信号,对每一帧语音信号进行快速傅里叶变换得到语音的频谱;
(2)取傅里叶变换后的频谱的对数能量,生成语谱图,如图所示;
(3)将傅里叶变换后的频域信号通过梅尔滤波器组,如图3所示,取其对数能量生成梅尔谱图;
(4)将傅里叶变换后的频域信号通过Gammatone滤波器组,如图4所示,取其对数能量生成Gam-Fbank谱图;
(5)将上述生成的三种谱图进行堆叠,形成谱图立方体。
本实施例中的步骤9中三个34层残差网络模型和3DCNN残差网络模型的向量维度N=512。四个模型的输出的向量分别为
Figure BDA0003194811770000084
Figure BDA0003194811770000085
对四个输出向量进行拼接融合,其融合特征向量
Figure BDA0003194811770000086
设定阈值γ,当X和数据库中说话人特征向量Y的余弦距离大于等于阈值γ时,识别为目标说话人,否则识别为非目标说话人。
本实施例中使用Free ST Chinese Mandarin Corpus中文数据集做仿真测试,数据集中共包含855人,每人120条语音,本次仿真用500人作为训练集,50人作为测试集,得到仿真测试结果可以将原模型最大准确率提升2到3个百分点,测试集准确率随训练轮数变化曲线如图5所示。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (12)

1.一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:包括以下步骤:
步骤1:对语音信号进行端点检测,去除收集到的语音信号中所包含的静音片段,消除无声段噪声;
步骤2:预加重,去除口唇辐射的影响,增加语音的高频分辨率;
步骤3:对预加重后的语音信号进行分帧,设置在相邻的两帧之间有一部分重叠;
步骤4:对分帧后的每帧语音信号进行加窗;
步骤5:对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音信号的频谱;
步骤6:分别计算生成语音信号的语谱图、Mel-Fbank谱图和Gam-Fbank谱图;
步骤7:分别利用语谱图、Mel-Fbank谱图和Gam-Fbank谱图作为神经网络的输入,训练三个残差34层网络模型;
步骤8:将三种谱图堆叠成谱图立方体作为神经网络的输入,训练3DCNN残差网络模型;
步骤9:在三个残差34层网络模型和3DCNN残差网络模型的后端分别引入注意力机制,分配给每个通道不同的权重,关注重要的特征,抑制不重要的特征,从而生成最佳特征向量;
步骤10:将三个残差34层网络模型和3DCNN残差网络模型生成的特征向量进行特征融合;
步骤11:将融合后的特征向量与数据库中已有的特征向量进行相似度计算,设定阈值,判决出说话人。
2.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:所述步骤2预加重,所述预加重通过一阶FIR滤波器来实现,所述一阶FIR滤波器的传递函数模型表示为:
H(z)=1-az-1
其中,H(z)为预加重函数,z表示z变换域变量,a为预加重系数,并且0.9<a<1.0。
3.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:所述步骤4中对分帧后的信号进行加窗,应用汉宁窗模型,所述汉宁窗模型的表达式为:
Figure FDA0003194811760000021
其中w(n)是汉宁窗函数,M是每帧的样本数,n为时域离散刻度。
4.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:所述步骤5中对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱X(k),可表示为:
Figure FDA0003194811760000022
其中,x(n)为每一帧时域采样信号,X(k)为语音的频谱,N离散傅里叶变换区间长度,k为频域离散刻度,n为时域离散刻度。
5.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:步骤6中语谱图的生成过程为:
A1)对输入的语音信号进行量化采样和预处理,对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;
A2)取傅里叶变换后的频谱的对数能量,生成语谱图。
6.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:步骤6中梅尔谱图的生成过程为:
B1)对输入的语音信号进行量化采样和预处理,对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;
B2)将频谱输入Mel滤波器组进行滤波,生成Mel频谱,取Mel频谱的对数能量,生成梅尔谱图。
7.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:步骤6中Gam-Fbank谱图的生成过程为:
C1)对输入的语音信号进行量化采样和预处理,对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;
C2)将频谱输入Gammatone滤波器组进行滤波,生成Gammatonel频谱,取Gammatone频谱的对数能量,生成Gam-Fbank谱图。
8.根据权利要求6所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:所述步骤B2中Mel滤波器中的Mel刻度和频率的关系如下:
Figure FDA0003194811760000031
其中,m为Mel刻度,f为频率。
9.根据权利要求6所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:步骤B2中Mel滤波器是一组三角带通滤波器Hm(k),且满足0≤m≤M,其中M表示滤波器的数量,取值范围为20~28,所述三角带通滤波器的传递函数可以表示为:
Figure FDA0003194811760000032
其中,H(k)为带通滤波器函数,f(m)为中心频率,m表示第m个滤波器,k为频域刻度。
10.根据权利要求7所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:所述步骤C2中Gammatone滤波器组用于模拟耳蜗底膜的听觉特性,其时域表达式如下:
h(f,t)=ctn-1e-2πbtcos(2πfii)t>0,0<i≤N
其中,c为调节比例的常数,n为滤波器的级数,b为衰减速度,i为滤波器序数,fi为滤波器的中心频率,Φi为滤波器的频率,N为滤波器个数。
11.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:步骤9中对于网络生成的特征
Figure FDA0003194811760000041
其融合特征向量
Figure FDA0003194811760000042
12.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:步骤10中采用余弦距离计算相似度,采用以下方式进行:
Figure FDA0003194811760000043
其中,
Figure FDA0003194811760000044
为两特征向量,d为所求的余弦距离。
CN202110887726.1A 2021-08-03 2021-08-03 一种基于多类谱图特征注意力融合网络的说话人识别方法 Active CN114038469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110887726.1A CN114038469B (zh) 2021-08-03 2021-08-03 一种基于多类谱图特征注意力融合网络的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110887726.1A CN114038469B (zh) 2021-08-03 2021-08-03 一种基于多类谱图特征注意力融合网络的说话人识别方法

Publications (2)

Publication Number Publication Date
CN114038469A true CN114038469A (zh) 2022-02-11
CN114038469B CN114038469B (zh) 2023-06-20

Family

ID=80134329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110887726.1A Active CN114038469B (zh) 2021-08-03 2021-08-03 一种基于多类谱图特征注意力融合网络的说话人识别方法

Country Status (1)

Country Link
CN (1) CN114038469B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114777947A (zh) * 2022-04-06 2022-07-22 成都理工大学 一种分布式光纤温度异常事件定位方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111344782A (zh) * 2017-11-21 2020-06-26 思睿逻辑国际半导体有限公司 说话人注册
CN111429947A (zh) * 2020-03-26 2020-07-17 重庆邮电大学 一种基于多级残差卷积神经网络的语音情感识别方法
US20200349925A1 (en) * 2019-05-05 2020-11-05 Microsoft Technology Licensing, Llc Online verification of custom wake word
CN112542174A (zh) * 2020-12-25 2021-03-23 南京邮电大学 基于vad的多维特征参数声纹识别方法
CN112581979A (zh) * 2020-12-10 2021-03-30 重庆邮电大学 一种基于语谱图的语音情绪识别方法
CN113643709A (zh) * 2021-08-03 2021-11-12 成都理工大学 一种基于mean-SAP池化模型的说话人识别方法及系统
CN115116446A (zh) * 2022-06-21 2022-09-27 成都理工大学 一种噪声环境下说话人识别模型构建方法
CN116072125A (zh) * 2023-04-07 2023-05-05 成都信息工程大学 一种噪声环境下的自监督说话人识别模型构建方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111344782A (zh) * 2017-11-21 2020-06-26 思睿逻辑国际半导体有限公司 说话人注册
US20200349925A1 (en) * 2019-05-05 2020-11-05 Microsoft Technology Licensing, Llc Online verification of custom wake word
CN111429947A (zh) * 2020-03-26 2020-07-17 重庆邮电大学 一种基于多级残差卷积神经网络的语音情感识别方法
CN112581979A (zh) * 2020-12-10 2021-03-30 重庆邮电大学 一种基于语谱图的语音情绪识别方法
CN112542174A (zh) * 2020-12-25 2021-03-23 南京邮电大学 基于vad的多维特征参数声纹识别方法
CN113643709A (zh) * 2021-08-03 2021-11-12 成都理工大学 一种基于mean-SAP池化模型的说话人识别方法及系统
CN115116446A (zh) * 2022-06-21 2022-09-27 成都理工大学 一种噪声环境下说话人识别模型构建方法
CN116072125A (zh) * 2023-04-07 2023-05-05 成都信息工程大学 一种噪声环境下的自监督说话人识别模型构建方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RUNNAN LI: "Dilated Residual Network with Multi-head Self-attention for Speech Emotion Recognitio", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, no. 1 *
屠彦辉: "复杂场景下基于深度学习的鲁棒性语音识别的研究", 《中国博士学位论文全文数据库信息科技辑》, no. 8 *
李丹艳: "基于深度学习的语音情感识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 5 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114777947A (zh) * 2022-04-06 2022-07-22 成都理工大学 一种分布式光纤温度异常事件定位方法

Also Published As

Publication number Publication date
CN114038469B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
US11908455B2 (en) Speech separation model training method and apparatus, storage medium and computer device
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
Sithara et al. Study of MFCC and IHC feature extraction methods with probabilistic acoustic models for speaker biometric applications
CN111785285A (zh) 面向家居多特征参数融合的声纹识别方法
Zheng et al. When automatic voice disguise meets automatic speaker verification
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
WO2023070874A1 (zh) 一种声纹识别方法
CN110111769A (zh) 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
CN111524524B (zh) 声纹识别方法、装置、设备及存储介质
Charisma et al. Speaker recognition using mel-frequency cepstrum coefficients and sum square error
CN104778948A (zh) 一种基于弯折倒谱特征的抗噪语音识别方法
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
CN118098247A (zh) 一种基于并行特征提取模型的声纹识别方法和系统
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN114038469B (zh) 一种基于多类谱图特征注意力融合网络的说话人识别方法
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Ranjan Speaker Recognition and Performance Comparison based on Machine Learning
Omar et al. Feature fusion techniques based training MLP for speaker identification system
CN115620731A (zh) 一种语音特征提取与检测方法
Chelali et al. MFCC and vector quantization for Arabic fricatives speech/speaker recognition
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Maurya et al. Speaker recognition for noisy speech in telephonic channel
Mittal et al. Age approximation from speech using Gaussian mixture models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant