CN109346084A - 基于深度堆栈自编码网络的说话人识别方法 - Google Patents
基于深度堆栈自编码网络的说话人识别方法 Download PDFInfo
- Publication number
- CN109346084A CN109346084A CN201811092136.4A CN201811092136A CN109346084A CN 109346084 A CN109346084 A CN 109346084A CN 201811092136 A CN201811092136 A CN 201811092136A CN 109346084 A CN109346084 A CN 109346084A
- Authority
- CN
- China
- Prior art keywords
- speaker
- person based
- autoencoder network
- feature
- distinguishing speek
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000013461 design Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 abstract description 4
- 238000013210 evaluation model Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
Abstract
本发明涉及一种基于深度堆栈自编码网络的说话人识别方法,S1:说话人特征提取;S2:堆栈自编码器的网络设计;S3:说话人识别与决策。本发明与传统说话人识别相比,将深度堆栈自编码网络与说话人识别系统模型相融合,结合堆栈自编码器的多层结构在提高评价模型的表征能力方面的显著效果,本发明的说话人识别方法在存在背景噪声的环境下能够有限提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,使识别实时性得到有效增强。
Description
技术领域
本发明计算机视觉技术领域,尤其涉及一种基于深度堆栈自编码网络的说话人识别方法。
背景技术
说话人识别又称声纹识别,是利用语音信号中含有的特定说话人信息来识别说话人身份的一种生物认证技术。近年来,基于因子分析的身份认证矢量(identity vector,i-vector)说话人建模方法的引入使得说话人识别系统的性能有了明显提升。I-vector用一个低维的总变量空间来表示说话人子空间和信道子空间,并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。基于i-vector的说话人识别系统主要包括充分统计量的提取、i-vector映射、似然比得分计算3个步骤。然而,i-vector模型框架中总体变化模型和线性判别分析模型可行性的前提是说话人信息和通道信息线性可分,实际上线性可分难以准确地将两者有效分离,这就限制了模型在复杂实际环境中的性能。
近年来,得益于深度学习较强的深层信息抽取和非线性建模能力,深度学习理论在诸多机器学习领域都取得了成功的应用。为了进一步提高文本无关说话人识别的性能和鲁棒性,将深度学习引入到说话人识别的建模框架中,利用深度学习模型具有的深度非线性结构特征,进行了性能评估和分析。
发明内容
基于背景技术存在的技术问题,本发明提出一种基于深度堆栈自编码网络的说话人识别方法。
一种基于深度堆栈自编码网络的说话人识别方法,方法步骤如下:
S1:说话人特征提取;
S2:堆栈自编码器的网络设计;
S3:说话人识别与决策。
优选的,所述S1中包括以下步骤:
1)采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换、三角窗滤波、求对数、离散傅里叶变换、差分参数、短时能量,获得MFCC系数;
2)给出一组训练按步骤1)提取出MFCC特征,训练高斯混合-通用背景模型;
3)将目标说话人和待识别说话人的语音按步骤1)提取出MFCC特征,训练高斯混合-通用背景模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量。
优选的,所述S2中包括以下步骤:
1)将多层稀疏自动编码器组成堆栈式自动编码器;
2)加入无监督的预训练和有监督的微调。
优选的,所述S3中包括以下步骤:
1)在后端测试阶段,当给出一条测试语音的i-vector后,首先将该语音和所有说话人模型进行比对,得到测试概率,即测试得分;
2)将最大得分对应的标签与声称的标签对比,若相同,就认为这段语音是其所声称的说话人的语音,否则就拒绝;
3)计算所有测试语音正确识别的概率,即系统的识别率。
优选的,在S1的第1)步中将语音信号进行分帧时,将N个采样点集合成一个观测单位,N为256或512。
优选的,在S1的第1)步中将语音信号进行差分时,采用一阶差分和二阶差分。
优选的,在S1的第3)步中通过训练i-vector特征提取器,提取出目标说话人和待识别说话人语音信号的i-vector。
优选的,在S3的第1)步中采用Softmax函数进行测试:
式中k为输出类别的索引,即目标说话人的类别索引,ps表示待识别说话人在第s类的输出值,即输出概率。
与现有技术相比,本发明具有的有益效果在于:
本发明提出一种基于深度堆栈自编码网络的说话人识别方法,具体而言使用堆栈自编码器和i-vector组合的方法。堆栈式自动编码器,先用无监督逐层贪心训练算法完成对隐含层的预训练,然后用BP算法对整个神经网络进行系统性参数优化调整,显著降低了神经网络的性能指数,有效改善了BP算法易陷入局部最小的不良状况。堆栈式自动编码器的多层结构既能提高评价模型的表征能力,又能避免节点数指数增长,进而提高抗噪性、识别率。
本发明与传统说话人识别相比,将深度堆栈自编码网络与说话人识别系统模型相融合,结合堆栈自编码器的多层结构在提高评价模型的表征能力方面的显著效果,本发明的说话人识别方法在存在背景噪声的环境下能够有限提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,使识别实时性得到有效增强。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是基于本网络的i-vecor特征提取的结构图;
图2是本发明提出的网络的识别过程图;
图3是MFCC特征提取流程图;
图4是i-vector特征提取流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
下面结合具体实施例对本发明作进一步解说。
参照图1-4,一种基于深度堆栈自编码网络的说话人识别方法,该方法可以分为三部分:1)说话人特征提取;2)堆栈自编码器的网络设计;3)说话人识别与决策(softmax)。
1)说话人特征提取,步骤如下:
A、采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、短时能量;
(A-1)预加重:为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分
y=x(n)-a*x(n-1),0.95<a<0.97 (1)
式中x(n)表示输入信号;
(A-2)分帧:将N个采样点集合成一个观测单位,称为帧,通常情况下N的值为256或512;
(A-3)加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性,x(n)表示分帧之后的信号:
(A-4)快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析;
式中s(n)表示输入的语音信号,N表示傅里叶变换的帧数。
(A-5)将能量谱通过一组Mel尺度的三角形滤波器组,定义为一个有M个三角滤波器的滤波器组,中心频率为f(m),m=1,2,…,M;各f(m)之间的间隔与m值成正比;
(A-6)经离散余弦变换(DCT)得到MFCC系数:
将上述的对数能量带入离散余弦变换,式中M为三角滤波器的个数;L是MFCC系数的阶数,取12-16;
(A-7)差分:为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度,常用的是一阶差分和二阶差分。
B、给出一组训练按步骤A提取出MFCC特征,训练高斯混合-通用背景模型(GMM-UBM);
(B-1)若某条语音数据对应的特征为X,其中X={x1,x2,…xT},且假设其维度为D,用于计算其似然函数的公式为:
式中该密度函数由K个单高斯密度函数pk(Xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;
其中混合权重wk满足假设λ表示模型参数的集合,则有λ={wk,μi,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出;
(B-2)一般用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:
C、将目标说话人和待识别说话人的语音按步骤A提取出MFCC特征,训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量;
(C-1)I-vector引入到说话人识别过程是通过将JFA算法中说话人因子分量和信道因子分量同时映射到一个低维空间,其公式可表示为:
M(s)=M0+Tw+ε (8)
式中M0表示与说话人与信道都无关的均值超矢量;T表示全局差异空间矩阵;w即表示为总变化因子,服从标准正态分布N(0,1);ε表示残差,服从分布N(0,∑);
(C-2)全差异空间T训练
构建全局差异空间是需要将GMM得到因子进行计算Baum-Welch统计量,计算公式如下:
式中T表示为语音信号帧数,xt是D维的语音特征向量;P(k|Xt)是xt在第k个GMM混合分量下的后验概率,mk表示第k个GMM混合分量的均值矢量;Nk为零阶统计量,Fk是F×1维的一阶统计量,是F×1维的一阶中心统计量。为了使计算更加方便,一般对一阶统计量和均值进行归一化处理;
(C-3)T矩阵可根据期望最大化(EM)算法在训练语音集上估计生成。T矩阵训练步骤如下:
1)初始化
将空间定为R维,矩阵大小为KF×R。T中初始元素随机产生。将矩阵乘以UBM模型协方差矩阵元素和进行补偿。对每个语音片段利用公式(9)计算相应的统计量;
2)计算w的期望值
在计算期望值之前,需要计算其后验分布。设置临时变量L=I+Tt∑-1N(s)T,其中T已有初始值,∑-1为UBM模型协方差矩阵的逆。s表示说话人,通过充足数据计算出总变化因子的一阶期望和二阶期望,来得到的w分布函数。公式为:
得到的w后验分布
3)更新T矩阵
4)重复(2)(3)的步骤直达得到固定迭代次数iteration。
(C-4)提取i-vector
对给定语音进行如下公式得到w,即i-vector因子
其中N是GMM混合分量的占有率,∑是UBM协方差矩阵。
D、根据步骤C得到的特征充分统计量来训练i-vector特征提取器,提取出目标说话人和待识别说话人语音信号的i-vector;
2)堆栈自编码器的网络设计,步骤如下:
A、堆栈式自动编码器由多层稀疏自动编码器组成。对于一个n层栈式自编码神经网络,假定用W(k,1),W(k,2),b(k,1),b(k,2)表示第k个自编码器对应的W(1),W(2),b(1),b(2)参数。那么该栈式自编码神经网络的编码过程:按照从前向后的顺序执行每一层自编码器的编码步骤:
同理,栈式神经网络的解码过程:按照从后向前的顺序执行每一层自编码器的解码步骤:
式中a(n)表示最深层隐藏单元的激活值,a(n)通过将作为softmax分类器的输入特征,可以将栈式自编码神经网络中学到的特征用于分类问题。
B、加入无监督的预训练和有监督的微调;
3)说话人识别与决策(softmax):
A、在后端测试阶段,当给出一条测试语音的i-vector后,首先将该语音和所有说话人模型进行比对,得到测试概率,即测试得分;
对于输出层,采用Softmax函数:
式中k为输出类别的索引,即目标说话人的类别索引,ps表示待识别说话人在第s类的输出值,即输出概率。
B、将最大得分对应的标签与声称的标签对比,若相同,就认为这段语音是其所声称的说话人的语音,否则就拒绝;
C计算所有测试语音正确识别的概率,即系统的识别率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,方法步骤如下:
S1:说话人特征提取;
S2:堆栈自编码器的网络设计;
S3:说话人识别与决策。
2.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,所述S1中包括以下步骤:
1)采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换、三角窗滤波、求对数、离散傅里叶变换、差分参数、短时能量,获得MFCC系数;
2)给出一组训练按步骤1)提取出MFCC特征,训练高斯混合-通用背景模型;
3)将目标说话人和待识别说话人的语音按步骤1)提取出MFCC特征,训练高斯混合-通用背景模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量。
3.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,所述S2中包括以下步骤:
1)将多层稀疏自动编码器组成堆栈式自动编码器;
2)加入无监督的预训练和有监督的微调。
4.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,所述S3中包括以下步骤:
1)在后端测试阶段,当给出一条测试语音的i-vector后,首先将该语音和所有说话人模型进行比对,得到测试概率,即测试得分;
2)将最大得分对应的标签与声称的标签对比,若相同,就认为这段语音是其所声称的说话人的语音,否则就拒绝;
3)计算所有测试语音正确识别的概率,即系统的识别率。
5.根据权利要求2所述的一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,第1)步中将语音信号进行分帧时,将N个采样点集合成一个观测单位,N为256或512。
6.根据权利要求2所述的一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,第1)步中将语音信号进行差分时,采用一阶差分和二阶差分。
7.根据权利要求2所述的一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,第3)步中通过训练i-vector特征提取器,提取出目标说话人和待识别说话人语音信号的i-vector。
8.根据权利要求4所述的一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,第1)步中采用Softmax函数进行测试:
式中k为输出类别的索引,即目标说话人的类别索引,ps表示待识别说话人在第s类的输出值,即输出概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811092136.4A CN109346084A (zh) | 2018-09-19 | 2018-09-19 | 基于深度堆栈自编码网络的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811092136.4A CN109346084A (zh) | 2018-09-19 | 2018-09-19 | 基于深度堆栈自编码网络的说话人识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109346084A true CN109346084A (zh) | 2019-02-15 |
Family
ID=65305676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811092136.4A Pending CN109346084A (zh) | 2018-09-19 | 2018-09-19 | 基于深度堆栈自编码网络的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109346084A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047504A (zh) * | 2019-04-18 | 2019-07-23 | 东华大学 | 身份矢量x-vector线性变换下的说话人识别方法 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110197279A (zh) * | 2019-06-10 | 2019-09-03 | 北京百度网讯科技有限公司 | 变换模型训练方法、装置、设备和存储介质 |
CN110364182A (zh) * | 2019-08-01 | 2019-10-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声音信号处理方法及装置 |
CN110491400A (zh) * | 2019-08-21 | 2019-11-22 | 杭州派尼澳电子科技有限公司 | 一种基于深度自编码器的语音信号重建方法 |
CN111144214A (zh) * | 2019-11-27 | 2020-05-12 | 中国石油大学(华东) | 基于多层堆栈式自动编码器的高光谱图像解混方法 |
CN111161744A (zh) * | 2019-12-06 | 2020-05-15 | 华南理工大学 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
CN111755012A (zh) * | 2020-06-24 | 2020-10-09 | 湖北工业大学 | 一种基于深浅层特征融合的鲁棒性说话人识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
CN106169295A (zh) * | 2016-07-15 | 2016-11-30 | 腾讯科技(深圳)有限公司 | 身份向量生成方法和装置 |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
-
2018
- 2018-09-19 CN CN201811092136.4A patent/CN109346084A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
CN106169295A (zh) * | 2016-07-15 | 2016-11-30 | 腾讯科技(深圳)有限公司 | 身份向量生成方法和装置 |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
Non-Patent Citations (1)
Title |
---|
涂中文等: "基于自动编码器的语音音色客观评价", 《中国传媒大学学报(自然科学版)》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110047504B (zh) * | 2019-04-18 | 2021-08-20 | 东华大学 | 身份矢量x-vector线性变换下的说话人识别方法 |
CN110047504A (zh) * | 2019-04-18 | 2019-07-23 | 东华大学 | 身份矢量x-vector线性变换下的说话人识别方法 |
CN110197279B (zh) * | 2019-06-10 | 2021-01-29 | 北京百度网讯科技有限公司 | 变换模型训练方法、装置、设备和存储介质 |
CN110197279A (zh) * | 2019-06-10 | 2019-09-03 | 北京百度网讯科技有限公司 | 变换模型训练方法、装置、设备和存储介质 |
CN110364182A (zh) * | 2019-08-01 | 2019-10-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声音信号处理方法及装置 |
CN110364182B (zh) * | 2019-08-01 | 2022-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声音信号处理方法及装置 |
CN110491400B (zh) * | 2019-08-21 | 2021-05-28 | 浙江树人学院(浙江树人大学) | 一种基于深度自编码器的语音信号重建方法 |
CN110491400A (zh) * | 2019-08-21 | 2019-11-22 | 杭州派尼澳电子科技有限公司 | 一种基于深度自编码器的语音信号重建方法 |
CN111144214A (zh) * | 2019-11-27 | 2020-05-12 | 中国石油大学(华东) | 基于多层堆栈式自动编码器的高光谱图像解混方法 |
CN111161744A (zh) * | 2019-12-06 | 2020-05-15 | 华南理工大学 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
CN111161744B (zh) * | 2019-12-06 | 2023-04-28 | 华南理工大学 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
CN111755012A (zh) * | 2020-06-24 | 2020-10-09 | 湖北工业大学 | 一种基于深浅层特征融合的鲁棒性说话人识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
Chavan et al. | An overview of speech recognition using HMM | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
CN102820033B (zh) | 一种声纹识别方法 | |
CN106952643A (zh) | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 | |
CN111754988B (zh) | 基于注意力机制和双路径深度残差网络的声场景分类方法 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN102324232A (zh) | 基于高斯混合模型的声纹识别方法及系统 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN110111797A (zh) | 基于高斯超矢量和深度神经网络的说话人识别方法 | |
CN102968990A (zh) | 说话人识别方法和系统 | |
Todkar et al. | Speaker recognition techniques: A review | |
CN109961794A (zh) | 一种基于模型聚类的分层说话人识别方法 | |
CN108091326A (zh) | 一种基于线性回归的声纹识别方法及系统 | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
CN112735435A (zh) | 具备未知类别内部划分能力的声纹开集识别方法 | |
Awais et al. | Speaker recognition using mel frequency cepstral coefficient and locality sensitive hashing | |
Ramgire et al. | A survey on speaker recognition with various feature extraction and classification techniques | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
CN104464738A (zh) | 一种面向智能移动设备的声纹识别方法 | |
CN111091847A (zh) | 基于并改进的深度聚类语音分离方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN115064175A (zh) | 一种说话人识别方法 | |
Dustor et al. | Speaker recognition system with good generalization properties | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190215 |
|
RJ01 | Rejection of invention patent application after publication |