CN110085236B - 一种基于自适应语音帧加权的说话人识别方法 - Google Patents

一种基于自适应语音帧加权的说话人识别方法 Download PDF

Info

Publication number
CN110085236B
CN110085236B CN201910369970.1A CN201910369970A CN110085236B CN 110085236 B CN110085236 B CN 110085236B CN 201910369970 A CN201910369970 A CN 201910369970A CN 110085236 B CN110085236 B CN 110085236B
Authority
CN
China
Prior art keywords
vector
speaker
gaussian
matrix
gmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910369970.1A
Other languages
English (en)
Other versions
CN110085236A (zh
Inventor
邹霞
张星昱
孙蒙
吴彭龙
时文华
张雄伟
贾冲
李莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN201910369970.1A priority Critical patent/CN110085236B/zh
Publication of CN110085236A publication Critical patent/CN110085236A/zh
Application granted granted Critical
Publication of CN110085236B publication Critical patent/CN110085236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于自适应语音帧加权的说话人识别方法,利用带噪语音段中存在的各语音帧信噪比不一致的特性,将信噪比高的语音帧加重权,信噪比低的帧加弱权,并将其提取为对应的MFCC特征,从而构建出含有帧加权信息的GMM并提取i‑vector。在此基础上实现了说话人识别任务,使得说话人识别在噪声环境下依然有较好的性能。

Description

一种基于自适应语音帧加权的说话人识别方法
技术领域
本发明属于语音信号处理技术领域,特别是一种基于自适应语音帧加权的说话人识别方法。
背景技术
说话人识别技术(也称声纹识别技术)属于生物认证技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。说话人识别在个性化人机交互、军事斗争、信息安全及多媒体娱乐领域都有着广阔的应用前景。例如,通过说话人声纹自动判别出访客身份,从而提供个性化、贴身化服务。
现有的说话人识别方法主要包括:基于高斯混合模型的方法、基于UBM-MAP(universal background model,maximum a posteriori)架构的方法、基于i-vector的说话人识别方法、基于DNN(Deep Neural Network)的说话人识别方法、基于CNN(Convolutional Neural Network)的说话人识别方法。
尽管声纹识别的研究已有半个世纪之久,但现有的声纹识别系统仍存在许多困难,还远远达不到社会对其实用化的要求,主要存在的问题有:
1.尚未找到简单、可靠的说话人语音特征参数。语音信号中既包含了说话人的语义信息,也包含了说话人发声特征的个性信息,是语音特征和说话人特征的混合体,到目前为止,还没有很好的方法将说话人的个体特征从语音特征中分离出来,也没有找到简单的声学特征参数用以可靠地识别说话人。
2.语音信号的漂移性。即使对于同一说话人和同一文本,语音信号也有很大的变异性,说话人的语音特征不是固定不变的,它具有时变特征,常常与说话人所处的环境、情绪、健康状况有密切关系,会随着时间的推移和年龄的变化而变化。另外,传输语音的通信信道的时变效应问题也是语音信号产生变异的重要方面。语音信号的变异性本质上说是说话人特征空间发生移动,说话人模式发生变异,从而增加识别过程中的不确定性。说话人识别中存在的噪声、多通道、时飘、情绪等热点都属于这个方面。
3.大规模识别系统。说话人识别系统要将特征空间划分为N个子空间(N=说话人数),当说话人自动识别系统中的N增多时,说话人识别系统的性能将受到极大的挑战。
发明内容
本发明要解决的技术问题是提供基于自适应语音帧加权的说话人识别方法,解决现有技术中i-vector说话人识别框架中,噪声的干扰对识别结果的影响。
为解决上述问题,本发明提供的解决方案是提供一种基于自适应语音帧加权的说话人识别方法,第一步,基于训练数据得到通用背景高斯模型,包括:
A1:通过最大期望算法,利用训练数据训练出256个中心的通用背景高斯模型,返回GMM超参数均值、均方差矩阵和权重;
A2:提取得到的所述通用背景高斯模型的Baum-Welch零阶统计量Ng和一阶统计量Fg,其中:
Figure BDA0002049598640000021
Figure BDA0002049598640000022
其中,p(g|Ot,λubm)表示给定观测ot后,所述通用背景高斯模型的第g个分量的后验概率;
A3:通过最大期望算法从训练集中学习一个全变量子空间T,假设因子分析的模型为:
M=m+T·x
其中,M是从测试集自适应调整UBM后得到的均值超矢量,m是UBM的均值超矢量,x是遵循标准正态分布的随机矢量,称作i-vector;
第二步,通过训练数据对高斯概率线性判别分类器进行训练,包括:B1:提取训练集的i-vector来训练高斯概率线性判别分类器,使用最大期望算法来从训练集的i-vector学习得到高斯概率线性判别分类器;
假设i-vector的因子分析模型为:
Figure BDA0002049598640000031
Figure BDA0002049598640000032
为特征音子空间的最大似然估计,x代表i-vector,m是训练集的i-vector的均值,y~N(0,I)是潜在因子矢量,∈表示没有包含在潜在变量中的随机噪声残差项;
B2:高斯概率线性判别分类器的对应参数经训练后返回,对应参数包括:特征音矩阵、残差噪声的协方差矩阵、i-vector的均值、权值转化;
第三步,根据注册信息对识别结果进行打分,将得分最高者辨识为目标说话人,包括:C1:对待识别说话人进行注册,首先导入待注册说话人的MFCC特征,接下来使用最大后验概率算法将先前训练好的所述通用背景高斯模型自适应调整为表示各个说话人的GMM模型,并根据GMM超参数提取代表各个说话人身份特征的i-vector;
C2:对待识别说话人进行打分,首先导入待识别说话人的MFCC特征,之后提取各个说话人的i-vector,并根据步骤C1中得到的已注册说话人的i-vector进行打分,使用高斯概率线性判别分类器计算i-vector试验的验证分数,计算如下:
Figure BDA0002049598640000033
注册说话人和目标说话人分别记为x1和x2,x1和x2通过之前训练的高斯概率线性判别分类器进行建模;通过批次间的对数似然比来描述是相同的说话人(H1)或者是不同的说话人(H0);
C3:对得分进行筛选,评分最高的就是待识别说话人所对应的注册说话人的身份。
在本发明基于自适应语音帧加权的说话人识别方法的另一实施例中,对受噪声影响较小的语音帧,选择增大其在识别中的权重,在i-vector提取过程中,计算GMM的Baum-Welch统计量时,不同帧有不同的权重,对于语音帧{x1,…,xi,…xN}来说,权重分别为{α1,…,αi,…,αN},且{αi≥0,i=1,…,N}:
在说话人识别中,GMM用于建模从说话人的语句中提取出频谱特征的概率密度,对于一个D维的特征矢量xi,概率密度函数如下所示:
Figure BDA0002049598640000041
式中
Figure BDA00020495986400000410
是一个D维的高斯分布,mk是均值矢量,Σk是对角协方差矩阵,wk是第k个高斯分量的权重,满足
Figure BDA0002049598640000042
K是高斯分量的总数,
Figure BDA0002049598640000043
是GMM的参数集;
给定从语句中提取的N个特征矢量,θ的最大似然估计将会用来最大化下式的似然:
Figure BDA0002049598640000044
使用对数似然J(θ)作为优化目标,
Figure BDA0002049598640000045
对于每个特征矢量xi引入权重参数αi,相应的对数似然目标函数为:
Figure BDA0002049598640000046
引入一个辅助函数
Figure BDA0002049598640000047
Figure BDA0002049598640000048
其中引入了一个中间变量:
Figure BDA0002049598640000049
其中的C是非负常数项:
Figure BDA0002049598640000051
其中,
Figure BDA0002049598640000052
是最大期望算法中前一次的迭代的参数估计,
Figure BDA0002049598640000053
Figure BDA0002049598640000054
并且满足
Figure BDA0002049598640000055
Figure BDA0002049598640000056
对于每一次迭代,要使
Figure BDA0002049598640000057
最大化,就可以使J(θ)的值越来越大,直到收敛;因为
Figure BDA0002049598640000058
是θ的凹函数,静止点即是优化解;
Figure BDA0002049598640000059
于是,mk和Σk可以由下式计算得出:
Figure BDA00020495986400000510
Figure BDA00020495986400000511
其中的diag是对角化算子,只保留矩阵中的对角线条目,随后利用拉格朗日乘子法来优化关于wk的函数;
Figure BDA00020495986400000512
通过解
Figure BDA00020495986400000513
改进的wk为:
Figure BDA00020495986400000514
在下一次迭代时,首先用更新后的wk,mk和Σk来计算
Figure BDA00020495986400000515
接下来继续更新参数
Figure BDA00020495986400000516
在本发明基于自适应语音帧加权的说话人识别方法的另一实施例中,对说话人i-vector提取流程包括:
从UBM均值中提取了预先训练好的说话人和信道无关的超矢量μKD×1之后,i-vector可以用下式提取ωR×1
M=μ+Tω,
在这里,MKD×1是经过自适应的GMM的均值超矢量,TKD×R是一个对说话人和信道子空间建模的低秩矩阵,ωR×1是一个服从标准正态分布的随机矢量称为i-vector,矩阵T建模了全变量子空间,并且已经使用EM算法经训练数据训练过;
对于测试语音段,通过加权GMM算法,可以得到一个加权的M,归结为下面的零阶和一阶BW统计量:
Figure BDA0002049598640000061
Figure BDA0002049598640000062
集中的一阶统计量如下:
Figure BDA0002049598640000063
这里μk是μ的第k个子向量,
Figure BDA0002049598640000064
当令
Figure BDA0002049598640000065
时,即不进行加权时,加权的GMM提取出的i-vector与传统方法提取出的i-vector保持一致。
最终,一段语音的i-vector可以由下式得到:
Figure BDA0002049598640000066
其中,IR×R是身份矩阵,NKD×KD是对角线元素为{NkID×D,k=1,…,K}的对角矩阵;
Figure BDA0002049598640000067
是将
Figure BDA0002049598640000068
连接起来以后的超矢量;ΣKD×KD是一个在因子分析训练时估计出来的对角矩阵,其对没有包含在全变量子空间矩阵中的残差变量T进行了建模。
在本发明基于自适应语音帧加权的说话人识别方法的另一实施例中,对于鲁棒性不同的帧,需要对它们赋予不同的权重,通过将附加噪声添加到测试语音段上,包括:
1)首先,选取white,babble和pink噪声对原始的带噪语音进行二次加噪处理;
2)然后,得到原始语音帧和处理后的语音帧的MFCC特征,并求出二者的欧氏距离;
3)三种距离取平均值后,选取出它们中的最小值并记为dmin,那么语音帧xi被赋予的权重为:
Figure BDA0002049598640000069
其中,
Figure BDA00020495986400000610
是当语音帧索引为第i帧时,三种加噪语音帧的MFCC所对应的平均欧氏距离。
本发明的有益效果是:本发明提供一种基于自适应语音帧加权的说话人识别方法,利用带噪语音段中存在的各语音帧信噪比不一致的问题,将信噪比高的语音帧加重权,信噪比低的帧加弱权,并将其提取为对应的MFCC特征,从而构建出含有帧加权信息的GMM并提取i-vector。在此基础上实现了说话人识别任务,使得原有的说话人识别框架在噪声环境下依然有较好的性能。
附图说明
图1是本发明一种基于自适应语音帧加权的说话人识别方法中应用于说话人识别系统示意图;
图2是本发明一种基于自适应语音帧加权的说话人识别方法中帧加权方法步骤示意图;
图3是本发明一种基于自适应语音帧加权的说话人识别方法中本发明和原i-vector说话人识别系统在white噪声环境下完成确认任务的效果对比图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
需要说明的是,除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
结合图1,本发明公开了一种基于自适应语音帧加权的说话人识别方法实施例,包括步骤有:
第一步S101,基于训练数据得到通用背景高斯模型,包括:
A1:通过最大期望算法(Expectation Maximization Algorithm),利用训练数据训练出256个中心的通用背景高斯模型(Universal Background Model,UBM),返回GMM超参数均值、均方差矩阵和权重;
A2:提取得到的所述通用背景高斯模型的Baum-Welch零阶统计量Ng和一阶统计量Fg,其中:
Figure BDA0002049598640000081
Figure BDA0002049598640000082
其中,p(g|ot,λubm)表示给定观测ot后,所述通用背景高斯模型的第g个分量的后验概率;
A3:通过最大期望算法从训练集中学习一个全变量子空间T,假设因子分析的模型为:
M=m+T·x
其中,M是从测试集自适应调整UBM后得到的均值超矢量,m是UBM的均值超矢量,x是遵循标准正态分布的随机矢量,称作i-vector;
第二步S102,通过训练数据对高斯概率线性判别分类器进行训练,具体包括:
B1:提取训练集的i-vector来训练高斯概率线性判别分类器(Gaussianprobabilistic LDA,GPLDA),使用最大期望算法来从训练集的i-vector学习得到高斯概率线性判别分类器;
假设i-vector的因子分析模型为:
Figure BDA0002049598640000083
Figure BDA0002049598640000084
为特征音子空间的最大似然估计,x代表i-vector,m是训练集的i-vector的均值,y~N(0,I)是潜在因子矢量,∈表示没有包含在潜在变量中的随机噪声残差项;
B2:高斯概率线性判别分类器的对应参数经训练后返回,对应参数包括:特征音矩阵、残差噪声的协方差矩阵、i-vector的均值、权值转化;
第三步S103,根据注册信息对识别结果进行打分,将得分最高者辨识为目标说话人,具体包括:
C1:对待识别说话人进行注册,首先导入待注册说话人的MFCC特征,接下来使用最大后验概率算法(Maximum a posteriori estimation,MAP)将先前训练好的所述通用背景高斯模型自适应调整为表示各个说话人的GMM模型,并根据GMM超参数提取代表各个说话人身份特征的i-vector;
C2:对待识别说话人进行打分,首先导入待识别说话人的MFCC特征,之后提取各个说话人的i-vector,并根据步骤C1中得到的已注册说话人的i-vector进行打分,使用高斯概率线性判别分类器计算i-vector试验的验证分数,计算如下:
Figure BDA0002049598640000091
注册说话人和目标说话人分别记为x1和x2,x1和x2通过之前训练的高斯概率线性判别分类器进行建模;通过批次间的对数似然比来描述是相同的说话人(H1)或者是不同的说话人(H0);
C3:对得分进行筛选,评分最高的就是待识别说话人所对应的注册说话人的身份。
进一步的,因为不同的语音帧对于噪声的鲁棒性是不同的,所以对那些受噪声影响较小的语音帧,我们选择增大其在识别中的权重,从而提升这些噪声鲁棒帧对最后识别效果的影响。为此,在i-vector提取过程中,计算GMM的Baum-Welch统计量时,不同帧有不同的权重,对于语音帧{x1,…,xi,…xN}来说,权重分别为{α1,…,αi,…,αN},且{αi≥0,i=1,…,N}:
在说话人识别中,GMM用于建模从说话人的语句中提取出频谱特征的概率密度,对于一个D维的特征矢量xi,概率密度函数如下所示:
Figure BDA0002049598640000101
式中
Figure BDA0002049598640000102
是一个D维的高斯分布,mk是均值矢量,Σk是对角协方差矩阵,wk是第k个高斯分量的权重,满足
Figure BDA0002049598640000103
K是高斯分量的总数,
Figure BDA0002049598640000104
是GMM的参数集;
给定从语句中提取的N个特征矢量,θ的最大似然估计将会用来最大化下式的似然:
Figure BDA0002049598640000105
使用对数似然J(θ)作为优化目标,
Figure BDA0002049598640000106
对于每个特征矢量xi引入权重参数αi,相应的对数似然目标函数为:
Figure BDA0002049598640000107
引入一个辅助函数
Figure BDA0002049598640000108
Figure BDA0002049598640000109
其中引入了一个中间变量:
Figure BDA00020495986400001010
其中的C是非负常数项:
Figure BDA00020495986400001011
其中,
Figure BDA00020495986400001012
是最大期望算法中前一次的迭代的参数估计,
Figure BDA00020495986400001013
Figure BDA00020495986400001014
并且满足
Figure BDA00020495986400001015
Figure BDA00020495986400001016
对于每一次迭代,要使
Figure BDA00020495986400001017
最大化,就可以使J(θ)的值越来越大,直到收敛;因为
Figure BDA00020495986400001018
是θ的凹函数,静止点即是优化解;
Figure BDA00020495986400001019
于是,mk和Σk可以由下式计算得出:
Figure BDA0002049598640000111
Figure BDA0002049598640000112
其中的diag是对角化算子,只保留矩阵中的对角线条目,随后利用拉格朗日乘子法来优化关于wk的函数;
Figure BDA0002049598640000113
通过解
Figure BDA0002049598640000114
改进的wk为:
Figure BDA0002049598640000115
在下一次迭代时,首先用更新后的wk,mk和Σk来计算
Figure BDA0002049598640000116
接下来继续更新参数
Figure BDA0002049598640000117
进一步的,对说话人i-vector提取流程包括:
从UBM均值中提取了预先训练好的说话人和信道无关的超矢量μKD×1之后,i-vector可以用下式提取ωR×1
M=μ+Tω,
在这里,MKD×1是经过自适应的GMM的均值超矢量,TKD×R是一个对说话人和信道子空间建模的低秩矩阵,ωR×1是一个服从标准正态分布的随机矢量称为i-vector,矩阵T建模了全变量子空间,并且已经使用EM算法经训练数据训练过;
对于测试语音段,通过加权GMM算法,可以得到一个加权的M,归结为下面的零阶和一阶BW统计量:
Figure BDA0002049598640000118
Figure BDA0002049598640000119
集中的一阶统计量如下:
Figure BDA00020495986400001110
这里μk是μ的第k个子向量,
Figure BDA0002049598640000121
当令
Figure BDA0002049598640000122
时,即不进行加权时,加权的GMM提取出的i-vector与传统方法提取出的i-vector保持一致。
最终,一段语音的i-vector可以由下式得到:
Figure BDA0002049598640000123
其中,IR×R是身份矩阵,NKD×KD是对角线元素为{NkID×D,k=1,…,K}的对角矩阵;
Figure BDA0002049598640000124
是将
Figure BDA0002049598640000125
连接起来以后的超矢量;ΣKD×KD是一个在因子分析训练时估计出来的对角矩阵,其对没有包含在全变量子空间矩阵中的残差变量T进行了建模。
进一步的,对于鲁棒性不同的帧,需要对它们赋予不同的权重,通过将附加噪声添加到测试语音段上,结合图2所示步骤,包括:
1)首先,选取white,babble和pink三种噪声对原始的带噪语音进行二次加噪处理;
2)然后,得到原始语音帧和处理后的语音帧的MFCC特征,并求出二者的欧氏距离;
3)每个语音帧对三种欧氏距离取平均值后,选取出它们中的最小值并记为dmin,那么语音帧xi被赋予的权重为:
Figure BDA0002049598640000126
其中,
Figure BDA0002049598640000127
是当语音帧索引为第i帧时,三种加噪语音帧的MFCC所对应的平均欧氏距离。
图3是本发明和原i-vector说话人识别系统在white噪声环境下完成确认任务的效果对比图。
本发明的有益效果是:本发明提供一种基于自适应语音帧加权的说话人识别方法,利用带噪语音段中存在的各语音帧信噪比不一致的问题,将信噪比高的语音帧加重权,信噪比低的帧加弱权,并将其提取为对应的MFCC特征,从而构建出含有帧加权信息的GMM并提取i-vector。在此基础上实现了说话人识别任务,使得原有的说话人识别框架在噪声环境下依然有较好的性能。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (2)

1.一种基于自适应语音帧加权的说话人识别方法,其特征在于:
第一步,基于训练数据得到通用背景高斯模型,包括:
A1:通过最大期望算法,利用训练数据训练出256个中心的通用背景高斯模型,返回GMM超参数均值、均方差矩阵和权重;
A2:提取得到的所述通用背景高斯模型的Baum-Welch零阶统计量Ng和一阶统计量Fg,其中:
Figure FDA0002777507150000011
Figure FDA0002777507150000012
其中,p(g|Ot,λubm)表示给定观测Ot后,所述通用背景高斯模型的第g个分量的后验概率;
A3:通过最大期望算法从训练集中学习一个全变量子空间T,假设因子分析的模型为:
M=m+T·x
其中,M是从测试集自适应调整UBM后得到的均值超矢量,m是UBM的均值超矢量,x是遵循标准正态分布的随机矢量,称作i-vector;
第二步,通过训练数据对高斯概率线性判别分类器进行训练,包括:
B1:提取训练集的i-vector来训练高斯概率线性判别分类器,使用最大期望算法来从训练集的i-vector学习得到高斯概率线性判别分类器;
假设i-vector的因子分析模型为:
Figure FDA0002777507150000013
Figure FDA0002777507150000014
为特征音子空间的最大似然估计,x代表i-vector,m是训练集的i-vector的均值,y~N(0,I)是潜在因子矢量,∈表示没有包含在潜在变量中的随机噪声残差项;
B2:高斯概率线性判别分类器的对应参数经训练后返回,对应参数包括:特征音矩阵、残差噪声的协方差矩阵、i-vector的均值、权值转化;
第三步,根据注册信息对识别结果进行打分,将得分最高者辨识为目标说话人;
C1:对待识别说话人进行注册,首先导入待注册说话人的MFCC特征,接下来使用最大后验概率算法将先前训练好的所述通用背景高斯模型自适应调整为表示各个说话人的GMM模型,并根据GMM超参数提取代表各个说话人身份特征的i-vector;
C2:对待识别说话人进行打分,首先导入待识别说话人的MFCC特征,之后提取各个说话人的i-vector,并根据步骤C1中得到的已注册说话人的i-vector进行打分,使用高斯概率线性判别分类器计算i-vector试验的验证分数,计算如下:
Figure FDA0002777507150000021
注册说话人和目标说话人分别记为x1和x2,x1和x2通过之前训练的高斯概率线性判别分类器进行建模;通过批次间的对数似然比来描述是相同的说话人(H1)或者是不同的说话人(H0);
C3:对得分进行筛选,评分最高的就是待识别说话人所对应的注册说话人的身份;
对受噪声影响较小的语音帧,选择增大其在识别中的权重,在i-vector提取过程中,计算GMM的Baum-Welch统计量时,不同帧有不同的权重,对于语音帧{x1,…,xi,…xN}来说,权重分别为{α1,…,αi,…,αN},且{αi≥0,i=1,…,N}:
在说话人识别中,GMM用于建模从说话人的语句中提取出频谱特征的概率密度,对于一个D维的特征矢量xi,概率密度函数如下所示:
Figure FDA0002777507150000022
式中
Figure FDA0002777507150000023
是一个D维的高斯分布,mk是均值矢量,∑k是对角协方差矩阵,wk是第k个高斯分量的权重,满足
Figure FDA0002777507150000024
K是高斯分量的总数,
Figure FDA0002777507150000025
是GMM的参数集;
给定从语句中提取的N个特征矢量,θ的最大似然估计将会用来最大化下式的似然:
Figure FDA0002777507150000031
使用对数似然J(θ)作为优化目标,
Figure FDA0002777507150000032
对于每个特征矢量xi引入权重参数αi,相应的对数似然目标函数为:
Figure FDA0002777507150000033
引入一个辅助函数
Figure FDA0002777507150000034
Figure FDA0002777507150000035
其中引入了一个中间变量:
Figure FDA0002777507150000036
其中的C是非负常数项:
Figure FDA0002777507150000037
其中,
Figure FDA0002777507150000038
是最大期望算法中前一次的迭代的参数估计,
Figure FDA0002777507150000039
Figure FDA00027775071500000310
并且满足
Figure FDA00027775071500000311
Figure FDA00027775071500000312
对于每一次迭代,要使
Figure FDA00027775071500000313
最大化,就可以使J(θ)的值越来越大,直到收敛;因为
Figure FDA00027775071500000314
是θ的凹函数,静止点即是优化解;
Figure FDA00027775071500000315
于是,mk和∑k可以由下式计算得出:
Figure FDA00027775071500000316
Figure FDA00027775071500000317
其中的diag是对角化算子,只保留矩阵中的对角线条目,随后利用拉格朗日乘子法来优化关于wk的函数;
Figure FDA0002777507150000041
通过解
Figure FDA0002777507150000042
改进的wk为:
Figure FDA0002777507150000043
在下一次迭代时,首先用更新后的wk,mk和∑k来计算
Figure FDA0002777507150000044
接下来继续更新参数
Figure FDA0002777507150000045
对说话人i-vector提取流程包括:
从UBM均值中提取了预先训练好的说话人和信道无关的超矢量μKD×1之后,i-vector可以用下式提取ωR×1
M=μ+Tω
在这里,MKD×1是经过自适应的GMM的均值超矢量,TKD×R是一个对说话人和信道子空间建模的低秩矩阵,ωR×1是一个服从标准正态分布的随机矢量称为i-vector,矩阵T建模了全变量子空间,并且已经使用EM算法经训练数据训练过;
对于测试语音段,通过加权GMM算法,可以得到一个加权的M,归结为下面的零阶和一阶BW统计量:
Figure FDA0002777507150000046
Figure FDA0002777507150000047
集中的一阶统计量如下:
Figure FDA0002777507150000048
这里μk是μ的第k个子向量,
Figure FDA0002777507150000049
当令
Figure FDA00027775071500000410
时,即不进行加权时,加权的GMM提取出的i-vector与传统方法提取出的i-vector保持一致;
最终,一段语音的i-vector可以由下式得到:
Figure FDA00027775071500000411
其中,IR×R是身份矩阵,NKD×KD是对角线元素为{NkID×D,k=1,…,K}的对角矩阵;
Figure FDA0002777507150000051
是将
Figure FDA0002777507150000052
连接起来以后的超矢量;∑KD×KD是一个在因子分析训练时估计出来的对角矩阵,其对没有包含在全变量子空间矩阵中的残差变量T进行了建模。
2.根据权利要求1所述的基于自适应语音帧加权的说话人识别方法,其特征在于:
对于鲁棒性不同的帧,需要对它们赋予不同的权重,通过将附加噪声添加到测试语音段上,包括:
1)首先,选取white,babble和pink噪声对原始的带噪语音进行二次加噪处理;
2)然后,得到原始语音帧和处理后的语音帧的MFCC特征,并求出二者的欧氏距离;
3)三种距离取平均值后,选取出它们中的最小值并记为dmin,那么语音帧xi被赋予的权重为:
Figure FDA0002777507150000053
其中,
Figure FDA0002777507150000054
是当语音帧索引为第i帧时,三种加噪语音帧的MFCC所对应的平均欧氏距离。
CN201910369970.1A 2019-05-06 2019-05-06 一种基于自适应语音帧加权的说话人识别方法 Active CN110085236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910369970.1A CN110085236B (zh) 2019-05-06 2019-05-06 一种基于自适应语音帧加权的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910369970.1A CN110085236B (zh) 2019-05-06 2019-05-06 一种基于自适应语音帧加权的说话人识别方法

Publications (2)

Publication Number Publication Date
CN110085236A CN110085236A (zh) 2019-08-02
CN110085236B true CN110085236B (zh) 2021-02-09

Family

ID=67418683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910369970.1A Active CN110085236B (zh) 2019-05-06 2019-05-06 一种基于自适应语音帧加权的说话人识别方法

Country Status (1)

Country Link
CN (1) CN110085236B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257236B (zh) * 2020-04-30 2022-03-29 浙江大学 一种基于核心帧筛选的模型得分优化方法
CN112185395B (zh) * 2020-09-04 2021-04-27 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于差分隐私的联邦声纹识别方法
CN113345461B (zh) * 2021-04-26 2024-07-09 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100570710C (zh) * 2005-12-13 2009-12-16 浙江大学 基于内嵌gmm核的支持向量机模型的说话人识别方法
CN101241699B (zh) * 2008-03-14 2012-07-18 北京交通大学 一种远程汉语教学中的说话人确认方法
EP2713367B1 (en) * 2012-09-28 2016-11-09 Agnitio, S.L. Speaker recognition
CN103345923B (zh) * 2013-07-26 2016-05-11 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN106971713B (zh) * 2017-01-18 2020-01-07 北京华控智加科技有限公司 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统

Also Published As

Publication number Publication date
CN110085236A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN106127156A (zh) 基于声纹和人脸识别的机器人交互方法
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
CN104167208B (zh) 一种说话人识别方法和装置
CN110085236B (zh) 一种基于自适应语音帧加权的说话人识别方法
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认系统
CN109065028A (zh) 说话人聚类方法、装置、计算机设备及存储介质
Kryszczuk et al. Reliability-based decision fusion in multimodal biometric verification systems
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
Mallidi et al. Uncertainty estimation of DNN classifiers
JP2018194828A (ja) マルチビューベクトルの処理方法及び装置
Bhardwaj et al. GFM-based methods for speaker identification
Bai et al. Speaker verification by partial AUC optimization with mahalanobis distance metric learning
Rai et al. Language identification using PLDA based on i-vector in noisy environment
Fasounaki et al. CNN-based Text-independent automatic speaker identification using short utterances
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
Azam et al. Speaker verification using adapted bounded Gaussian mixture model
Kumar et al. Designing neural speaker embeddings with meta learning
Zezario et al. Speech enhancement with zero-shot model selection
CN113470655A (zh) 一种基于音素对数似然比的时延神经网络的声纹识别方法
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
Tan et al. Denoised senone i-vectors for robust speaker verification
Perera et al. Ensemble approach in speaker verification
Elnaggar et al. A new unsupervised short-utterance based speaker identification approach with parametric t-SNE dimensionality reduction
Memon et al. Speaker verification based on different vector quantization techniques with gaussian mixture models
Hasheminejad et al. Frame level sparse representation classification for speaker verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant