CN110085236B - 一种基于自适应语音帧加权的说话人识别方法 - Google Patents
一种基于自适应语音帧加权的说话人识别方法 Download PDFInfo
- Publication number
- CN110085236B CN110085236B CN201910369970.1A CN201910369970A CN110085236B CN 110085236 B CN110085236 B CN 110085236B CN 201910369970 A CN201910369970 A CN 201910369970A CN 110085236 B CN110085236 B CN 110085236B
- Authority
- CN
- China
- Prior art keywords
- vector
- speaker
- gaussian
- matrix
- gmm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 92
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 36
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 12
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000000556 factor analysis Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Complex Calculations (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于自适应语音帧加权的说话人识别方法,利用带噪语音段中存在的各语音帧信噪比不一致的特性,将信噪比高的语音帧加重权,信噪比低的帧加弱权,并将其提取为对应的MFCC特征,从而构建出含有帧加权信息的GMM并提取i‑vector。在此基础上实现了说话人识别任务,使得说话人识别在噪声环境下依然有较好的性能。
Description
技术领域
本发明属于语音信号处理技术领域,特别是一种基于自适应语音帧加权的说话人识别方法。
背景技术
说话人识别技术(也称声纹识别技术)属于生物认证技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。说话人识别在个性化人机交互、军事斗争、信息安全及多媒体娱乐领域都有着广阔的应用前景。例如,通过说话人声纹自动判别出访客身份,从而提供个性化、贴身化服务。
现有的说话人识别方法主要包括:基于高斯混合模型的方法、基于UBM-MAP(universal background model,maximum a posteriori)架构的方法、基于i-vector的说话人识别方法、基于DNN(Deep Neural Network)的说话人识别方法、基于CNN(Convolutional Neural Network)的说话人识别方法。
尽管声纹识别的研究已有半个世纪之久,但现有的声纹识别系统仍存在许多困难,还远远达不到社会对其实用化的要求,主要存在的问题有:
1.尚未找到简单、可靠的说话人语音特征参数。语音信号中既包含了说话人的语义信息,也包含了说话人发声特征的个性信息,是语音特征和说话人特征的混合体,到目前为止,还没有很好的方法将说话人的个体特征从语音特征中分离出来,也没有找到简单的声学特征参数用以可靠地识别说话人。
2.语音信号的漂移性。即使对于同一说话人和同一文本,语音信号也有很大的变异性,说话人的语音特征不是固定不变的,它具有时变特征,常常与说话人所处的环境、情绪、健康状况有密切关系,会随着时间的推移和年龄的变化而变化。另外,传输语音的通信信道的时变效应问题也是语音信号产生变异的重要方面。语音信号的变异性本质上说是说话人特征空间发生移动,说话人模式发生变异,从而增加识别过程中的不确定性。说话人识别中存在的噪声、多通道、时飘、情绪等热点都属于这个方面。
3.大规模识别系统。说话人识别系统要将特征空间划分为N个子空间(N=说话人数),当说话人自动识别系统中的N增多时,说话人识别系统的性能将受到极大的挑战。
发明内容
本发明要解决的技术问题是提供基于自适应语音帧加权的说话人识别方法,解决现有技术中i-vector说话人识别框架中,噪声的干扰对识别结果的影响。
为解决上述问题,本发明提供的解决方案是提供一种基于自适应语音帧加权的说话人识别方法,第一步,基于训练数据得到通用背景高斯模型,包括:
A1:通过最大期望算法,利用训练数据训练出256个中心的通用背景高斯模型,返回GMM超参数均值、均方差矩阵和权重;
A2:提取得到的所述通用背景高斯模型的Baum-Welch零阶统计量Ng和一阶统计量Fg,其中:
其中,p(g|Ot,λubm)表示给定观测ot后,所述通用背景高斯模型的第g个分量的后验概率;
A3:通过最大期望算法从训练集中学习一个全变量子空间T,假设因子分析的模型为:
M=m+T·x
其中,M是从测试集自适应调整UBM后得到的均值超矢量,m是UBM的均值超矢量,x是遵循标准正态分布的随机矢量,称作i-vector;
第二步,通过训练数据对高斯概率线性判别分类器进行训练,包括:B1:提取训练集的i-vector来训练高斯概率线性判别分类器,使用最大期望算法来从训练集的i-vector学习得到高斯概率线性判别分类器;
假设i-vector的因子分析模型为:
B2:高斯概率线性判别分类器的对应参数经训练后返回,对应参数包括:特征音矩阵、残差噪声的协方差矩阵、i-vector的均值、权值转化;
第三步,根据注册信息对识别结果进行打分,将得分最高者辨识为目标说话人,包括:C1:对待识别说话人进行注册,首先导入待注册说话人的MFCC特征,接下来使用最大后验概率算法将先前训练好的所述通用背景高斯模型自适应调整为表示各个说话人的GMM模型,并根据GMM超参数提取代表各个说话人身份特征的i-vector;
C2:对待识别说话人进行打分,首先导入待识别说话人的MFCC特征,之后提取各个说话人的i-vector,并根据步骤C1中得到的已注册说话人的i-vector进行打分,使用高斯概率线性判别分类器计算i-vector试验的验证分数,计算如下:
注册说话人和目标说话人分别记为x1和x2,x1和x2通过之前训练的高斯概率线性判别分类器进行建模;通过批次间的对数似然比来描述是相同的说话人(H1)或者是不同的说话人(H0);
C3:对得分进行筛选,评分最高的就是待识别说话人所对应的注册说话人的身份。
在本发明基于自适应语音帧加权的说话人识别方法的另一实施例中,对受噪声影响较小的语音帧,选择增大其在识别中的权重,在i-vector提取过程中,计算GMM的Baum-Welch统计量时,不同帧有不同的权重,对于语音帧{x1,…,xi,…xN}来说,权重分别为{α1,…,αi,…,αN},且{αi≥0,i=1,…,N}:
在说话人识别中,GMM用于建模从说话人的语句中提取出频谱特征的概率密度,对于一个D维的特征矢量xi,概率密度函数如下所示:
给定从语句中提取的N个特征矢量,θ的最大似然估计将会用来最大化下式的似然:
使用对数似然J(θ)作为优化目标,
对于每个特征矢量xi引入权重参数αi,相应的对数似然目标函数为:
其中引入了一个中间变量:
其中的C是非负常数项:
于是,mk和Σk可以由下式计算得出:
其中的diag是对角化算子,只保留矩阵中的对角线条目,随后利用拉格朗日乘子法来优化关于wk的函数;
在本发明基于自适应语音帧加权的说话人识别方法的另一实施例中,对说话人i-vector提取流程包括:
从UBM均值中提取了预先训练好的说话人和信道无关的超矢量μKD×1之后,i-vector可以用下式提取ωR×1:
M=μ+Tω,
在这里,MKD×1是经过自适应的GMM的均值超矢量,TKD×R是一个对说话人和信道子空间建模的低秩矩阵,ωR×1是一个服从标准正态分布的随机矢量称为i-vector,矩阵T建模了全变量子空间,并且已经使用EM算法经训练数据训练过;
对于测试语音段,通过加权GMM算法,可以得到一个加权的M,归结为下面的零阶和一阶BW统计量:
集中的一阶统计量如下:
这里μk是μ的第k个子向量,
最终,一段语音的i-vector可以由下式得到:
其中,IR×R是身份矩阵,NKD×KD是对角线元素为{NkID×D,k=1,…,K}的对角矩阵;是将连接起来以后的超矢量;ΣKD×KD是一个在因子分析训练时估计出来的对角矩阵,其对没有包含在全变量子空间矩阵中的残差变量T进行了建模。
在本发明基于自适应语音帧加权的说话人识别方法的另一实施例中,对于鲁棒性不同的帧,需要对它们赋予不同的权重,通过将附加噪声添加到测试语音段上,包括:
1)首先,选取white,babble和pink噪声对原始的带噪语音进行二次加噪处理;
2)然后,得到原始语音帧和处理后的语音帧的MFCC特征,并求出二者的欧氏距离;
3)三种距离取平均值后,选取出它们中的最小值并记为dmin,那么语音帧xi被赋予的权重为:
本发明的有益效果是:本发明提供一种基于自适应语音帧加权的说话人识别方法,利用带噪语音段中存在的各语音帧信噪比不一致的问题,将信噪比高的语音帧加重权,信噪比低的帧加弱权,并将其提取为对应的MFCC特征,从而构建出含有帧加权信息的GMM并提取i-vector。在此基础上实现了说话人识别任务,使得原有的说话人识别框架在噪声环境下依然有较好的性能。
附图说明
图1是本发明一种基于自适应语音帧加权的说话人识别方法中应用于说话人识别系统示意图;
图2是本发明一种基于自适应语音帧加权的说话人识别方法中帧加权方法步骤示意图;
图3是本发明一种基于自适应语音帧加权的说话人识别方法中本发明和原i-vector说话人识别系统在white噪声环境下完成确认任务的效果对比图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
需要说明的是,除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
结合图1,本发明公开了一种基于自适应语音帧加权的说话人识别方法实施例,包括步骤有:
第一步S101,基于训练数据得到通用背景高斯模型,包括:
A1:通过最大期望算法(Expectation Maximization Algorithm),利用训练数据训练出256个中心的通用背景高斯模型(Universal Background Model,UBM),返回GMM超参数均值、均方差矩阵和权重;
A2:提取得到的所述通用背景高斯模型的Baum-Welch零阶统计量Ng和一阶统计量Fg,其中:
其中,p(g|ot,λubm)表示给定观测ot后,所述通用背景高斯模型的第g个分量的后验概率;
A3:通过最大期望算法从训练集中学习一个全变量子空间T,假设因子分析的模型为:
M=m+T·x
其中,M是从测试集自适应调整UBM后得到的均值超矢量,m是UBM的均值超矢量,x是遵循标准正态分布的随机矢量,称作i-vector;
第二步S102,通过训练数据对高斯概率线性判别分类器进行训练,具体包括:
B1:提取训练集的i-vector来训练高斯概率线性判别分类器(Gaussianprobabilistic LDA,GPLDA),使用最大期望算法来从训练集的i-vector学习得到高斯概率线性判别分类器;
假设i-vector的因子分析模型为:
B2:高斯概率线性判别分类器的对应参数经训练后返回,对应参数包括:特征音矩阵、残差噪声的协方差矩阵、i-vector的均值、权值转化;
第三步S103,根据注册信息对识别结果进行打分,将得分最高者辨识为目标说话人,具体包括:
C1:对待识别说话人进行注册,首先导入待注册说话人的MFCC特征,接下来使用最大后验概率算法(Maximum a posteriori estimation,MAP)将先前训练好的所述通用背景高斯模型自适应调整为表示各个说话人的GMM模型,并根据GMM超参数提取代表各个说话人身份特征的i-vector;
C2:对待识别说话人进行打分,首先导入待识别说话人的MFCC特征,之后提取各个说话人的i-vector,并根据步骤C1中得到的已注册说话人的i-vector进行打分,使用高斯概率线性判别分类器计算i-vector试验的验证分数,计算如下:
注册说话人和目标说话人分别记为x1和x2,x1和x2通过之前训练的高斯概率线性判别分类器进行建模;通过批次间的对数似然比来描述是相同的说话人(H1)或者是不同的说话人(H0);
C3:对得分进行筛选,评分最高的就是待识别说话人所对应的注册说话人的身份。
进一步的,因为不同的语音帧对于噪声的鲁棒性是不同的,所以对那些受噪声影响较小的语音帧,我们选择增大其在识别中的权重,从而提升这些噪声鲁棒帧对最后识别效果的影响。为此,在i-vector提取过程中,计算GMM的Baum-Welch统计量时,不同帧有不同的权重,对于语音帧{x1,…,xi,…xN}来说,权重分别为{α1,…,αi,…,αN},且{αi≥0,i=1,…,N}:
在说话人识别中,GMM用于建模从说话人的语句中提取出频谱特征的概率密度,对于一个D维的特征矢量xi,概率密度函数如下所示:
给定从语句中提取的N个特征矢量,θ的最大似然估计将会用来最大化下式的似然:
使用对数似然J(θ)作为优化目标,
对于每个特征矢量xi引入权重参数αi,相应的对数似然目标函数为:
其中引入了一个中间变量:
其中的C是非负常数项:
于是,mk和Σk可以由下式计算得出:
其中的diag是对角化算子,只保留矩阵中的对角线条目,随后利用拉格朗日乘子法来优化关于wk的函数;
进一步的,对说话人i-vector提取流程包括:
从UBM均值中提取了预先训练好的说话人和信道无关的超矢量μKD×1之后,i-vector可以用下式提取ωR×1:
M=μ+Tω,
在这里,MKD×1是经过自适应的GMM的均值超矢量,TKD×R是一个对说话人和信道子空间建模的低秩矩阵,ωR×1是一个服从标准正态分布的随机矢量称为i-vector,矩阵T建模了全变量子空间,并且已经使用EM算法经训练数据训练过;
对于测试语音段,通过加权GMM算法,可以得到一个加权的M,归结为下面的零阶和一阶BW统计量:
集中的一阶统计量如下:
这里μk是μ的第k个子向量,
最终,一段语音的i-vector可以由下式得到:
其中,IR×R是身份矩阵,NKD×KD是对角线元素为{NkID×D,k=1,…,K}的对角矩阵;是将连接起来以后的超矢量;ΣKD×KD是一个在因子分析训练时估计出来的对角矩阵,其对没有包含在全变量子空间矩阵中的残差变量T进行了建模。
进一步的,对于鲁棒性不同的帧,需要对它们赋予不同的权重,通过将附加噪声添加到测试语音段上,结合图2所示步骤,包括:
1)首先,选取white,babble和pink三种噪声对原始的带噪语音进行二次加噪处理;
2)然后,得到原始语音帧和处理后的语音帧的MFCC特征,并求出二者的欧氏距离;
3)每个语音帧对三种欧氏距离取平均值后,选取出它们中的最小值并记为dmin,那么语音帧xi被赋予的权重为:
图3是本发明和原i-vector说话人识别系统在white噪声环境下完成确认任务的效果对比图。
本发明的有益效果是:本发明提供一种基于自适应语音帧加权的说话人识别方法,利用带噪语音段中存在的各语音帧信噪比不一致的问题,将信噪比高的语音帧加重权,信噪比低的帧加弱权,并将其提取为对应的MFCC特征,从而构建出含有帧加权信息的GMM并提取i-vector。在此基础上实现了说话人识别任务,使得原有的说话人识别框架在噪声环境下依然有较好的性能。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (2)
1.一种基于自适应语音帧加权的说话人识别方法,其特征在于:
第一步,基于训练数据得到通用背景高斯模型,包括:
A1:通过最大期望算法,利用训练数据训练出256个中心的通用背景高斯模型,返回GMM超参数均值、均方差矩阵和权重;
A2:提取得到的所述通用背景高斯模型的Baum-Welch零阶统计量Ng和一阶统计量Fg,其中:
其中,p(g|Ot,λubm)表示给定观测Ot后,所述通用背景高斯模型的第g个分量的后验概率;
A3:通过最大期望算法从训练集中学习一个全变量子空间T,假设因子分析的模型为:
M=m+T·x
其中,M是从测试集自适应调整UBM后得到的均值超矢量,m是UBM的均值超矢量,x是遵循标准正态分布的随机矢量,称作i-vector;
第二步,通过训练数据对高斯概率线性判别分类器进行训练,包括:
B1:提取训练集的i-vector来训练高斯概率线性判别分类器,使用最大期望算法来从训练集的i-vector学习得到高斯概率线性判别分类器;
假设i-vector的因子分析模型为:
B2:高斯概率线性判别分类器的对应参数经训练后返回,对应参数包括:特征音矩阵、残差噪声的协方差矩阵、i-vector的均值、权值转化;
第三步,根据注册信息对识别结果进行打分,将得分最高者辨识为目标说话人;
C1:对待识别说话人进行注册,首先导入待注册说话人的MFCC特征,接下来使用最大后验概率算法将先前训练好的所述通用背景高斯模型自适应调整为表示各个说话人的GMM模型,并根据GMM超参数提取代表各个说话人身份特征的i-vector;
C2:对待识别说话人进行打分,首先导入待识别说话人的MFCC特征,之后提取各个说话人的i-vector,并根据步骤C1中得到的已注册说话人的i-vector进行打分,使用高斯概率线性判别分类器计算i-vector试验的验证分数,计算如下:
注册说话人和目标说话人分别记为x1和x2,x1和x2通过之前训练的高斯概率线性判别分类器进行建模;通过批次间的对数似然比来描述是相同的说话人(H1)或者是不同的说话人(H0);
C3:对得分进行筛选,评分最高的就是待识别说话人所对应的注册说话人的身份;
对受噪声影响较小的语音帧,选择增大其在识别中的权重,在i-vector提取过程中,计算GMM的Baum-Welch统计量时,不同帧有不同的权重,对于语音帧{x1,…,xi,…xN}来说,权重分别为{α1,…,αi,…,αN},且{αi≥0,i=1,…,N}:
在说话人识别中,GMM用于建模从说话人的语句中提取出频谱特征的概率密度,对于一个D维的特征矢量xi,概率密度函数如下所示:
给定从语句中提取的N个特征矢量,θ的最大似然估计将会用来最大化下式的似然:
使用对数似然J(θ)作为优化目标,
对于每个特征矢量xi引入权重参数αi,相应的对数似然目标函数为:
其中引入了一个中间变量:
其中的C是非负常数项:
于是,mk和∑k可以由下式计算得出:
其中的diag是对角化算子,只保留矩阵中的对角线条目,随后利用拉格朗日乘子法来优化关于wk的函数;
对说话人i-vector提取流程包括:
从UBM均值中提取了预先训练好的说话人和信道无关的超矢量μKD×1之后,i-vector可以用下式提取ωR×1:
M=μ+Tω
在这里,MKD×1是经过自适应的GMM的均值超矢量,TKD×R是一个对说话人和信道子空间建模的低秩矩阵,ωR×1是一个服从标准正态分布的随机矢量称为i-vector,矩阵T建模了全变量子空间,并且已经使用EM算法经训练数据训练过;
对于测试语音段,通过加权GMM算法,可以得到一个加权的M,归结为下面的零阶和一阶BW统计量:
集中的一阶统计量如下:
这里μk是μ的第k个子向量,
最终,一段语音的i-vector可以由下式得到:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910369970.1A CN110085236B (zh) | 2019-05-06 | 2019-05-06 | 一种基于自适应语音帧加权的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910369970.1A CN110085236B (zh) | 2019-05-06 | 2019-05-06 | 一种基于自适应语音帧加权的说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110085236A CN110085236A (zh) | 2019-08-02 |
CN110085236B true CN110085236B (zh) | 2021-02-09 |
Family
ID=67418683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910369970.1A Active CN110085236B (zh) | 2019-05-06 | 2019-05-06 | 一种基于自适应语音帧加权的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110085236B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113257236B (zh) * | 2020-04-30 | 2022-03-29 | 浙江大学 | 一种基于核心帧筛选的模型得分优化方法 |
CN112185395B (zh) * | 2020-09-04 | 2021-04-27 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于差分隐私的联邦声纹识别方法 |
CN113345461B (zh) * | 2021-04-26 | 2024-07-09 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100570710C (zh) * | 2005-12-13 | 2009-12-16 | 浙江大学 | 基于内嵌gmm核的支持向量机模型的说话人识别方法 |
CN101241699B (zh) * | 2008-03-14 | 2012-07-18 | 北京交通大学 | 一种远程汉语教学中的说话人确认方法 |
EP2713367B1 (en) * | 2012-09-28 | 2016-11-09 | Agnitio, S.L. | Speaker recognition |
CN103345923B (zh) * | 2013-07-26 | 2016-05-11 | 电子科技大学 | 一种基于稀疏表示的短语音说话人识别方法 |
CN106971713B (zh) * | 2017-01-18 | 2020-01-07 | 北京华控智加科技有限公司 | 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 |
-
2019
- 2019-05-06 CN CN201910369970.1A patent/CN110085236B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110085236A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106127156A (zh) | 基于声纹和人脸识别的机器人交互方法 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN104167208B (zh) | 一种说话人识别方法和装置 | |
CN110085236B (zh) | 一种基于自适应语音帧加权的说话人识别方法 | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
CN109065028A (zh) | 说话人聚类方法、装置、计算机设备及存储介质 | |
Kryszczuk et al. | Reliability-based decision fusion in multimodal biometric verification systems | |
CN110111797A (zh) | 基于高斯超矢量和深度神经网络的说话人识别方法 | |
Mallidi et al. | Uncertainty estimation of DNN classifiers | |
JP2018194828A (ja) | マルチビューベクトルの処理方法及び装置 | |
Bhardwaj et al. | GFM-based methods for speaker identification | |
Bai et al. | Speaker verification by partial AUC optimization with mahalanobis distance metric learning | |
Rai et al. | Language identification using PLDA based on i-vector in noisy environment | |
Fasounaki et al. | CNN-based Text-independent automatic speaker identification using short utterances | |
Shivakumar et al. | Simplified and supervised i-vector modeling for speaker age regression | |
Azam et al. | Speaker verification using adapted bounded Gaussian mixture model | |
Kumar et al. | Designing neural speaker embeddings with meta learning | |
Zezario et al. | Speech enhancement with zero-shot model selection | |
CN113470655A (zh) | 一种基于音素对数似然比的时延神经网络的声纹识别方法 | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
Tan et al. | Denoised senone i-vectors for robust speaker verification | |
Perera et al. | Ensemble approach in speaker verification | |
Elnaggar et al. | A new unsupervised short-utterance based speaker identification approach with parametric t-SNE dimensionality reduction | |
Memon et al. | Speaker verification based on different vector quantization techniques with gaussian mixture models | |
Hasheminejad et al. | Frame level sparse representation classification for speaker verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |