CN103345923B - 一种基于稀疏表示的短语音说话人识别方法 - Google Patents

一种基于稀疏表示的短语音说话人识别方法 Download PDF

Info

Publication number
CN103345923B
CN103345923B CN201310319824.0A CN201310319824A CN103345923B CN 103345923 B CN103345923 B CN 103345923B CN 201310319824 A CN201310319824 A CN 201310319824A CN 103345923 B CN103345923 B CN 103345923B
Authority
CN
China
Prior art keywords
gaussian
model
speaker
sigma
gaussian component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310319824.0A
Other languages
English (en)
Other versions
CN103345923A (zh
Inventor
程建
黎兰
苏靖峰
周圣云
李鸿升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201310319824.0A priority Critical patent/CN103345923B/zh
Publication of CN103345923A publication Critical patent/CN103345923A/zh
Application granted granted Critical
Publication of CN103345923B publication Critical patent/CN103345923B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于稀疏表示的短语音说话人识别方法,属于语音信号处理与模式识别技术领域,其旨在决现有方法在语音数据有限条件下识别率低的问题。其主要包括以下步骤:①对所有语音样本预处理,然后提取梅尔倒谱系数及其一阶差分系数作为特征;②由背景语音库训练高斯背景模型,并提取高斯超向量作为二次特征;③将训练语音样本的高斯超向量排列在一起构成字典;⑤利用稀疏求解算法求解表示系数,并重构信号,根据最小化残差确定识别结果。本发明经自适应得到的高斯超向量,能够极大地缓解语音数据有限带来说话人个性特征表现不足的问题;利用稀疏表示的重构残差进行分类,能够处理语义信息不匹配导致的说话人模型失配的问题。

Description

一种基于稀疏表示的短语音说话人识别方法
技术领域
本发明属于语音信号处理与模式识别技术领域,尤其短语音条件下的说话人识别技术,具体涉及一种基于稀疏表示的短语音说话人识别方法。
背景技术
说话人识别技术是指利用说话人的语音特征来辨别他们的身份,属于生物认证技术的范畴,广泛应用于司法鉴定、互联网安全,军事国防领域。说话人识别技术在实用化过程中还存在诸多问题,其中短语音条件下的训练识别问题受到人们广泛关注。
目前,国内外针对短语音问题普遍采用高斯混合模型-通用背景模型(GaussianMixtureModel-UniversalBackgroundModel,GMM-UBM),最初采用似然比得分或是采用模板匹配的方法进行识别,后来又有人利用测试样本经过GMM-UBM模型自适应获得高斯超向量,并用支持向量机(SupportVectorMachine,SVM)进行分类,取得了一定的成果。但是这些方法基本属于统计学习理论的范畴,因而需要大量的训练语音数据,同时对特征参数维数有一定的要求,高维的特征参数会严重影响识别效果。而采用高斯混合模型-通用背景模型-最大后验概率(GaussianMixtureModel-UniversalBackgroundModel-MaximumAPosteriori,GMM-UBM-MAP)框架提取的高斯超向量维数较高(一般在一万维以上),并且在短语音说话人识别中可训练的语音数据非常有限,因此,统计学习理论在处理短语音问题时存在明显的不足。而且当训练和测试语音进一步变短时,经过自适应说话人模型与通用背景模型(UniversalBackgroundModel,UBM)模型差异较小,即使使用优秀的分类器SVM也不能取得很好的效果。
近年来,信号的稀疏表示逐渐成为国内外学术界的研究热点,它主要基于线性模型,对信号的稀疏性假设对高维空间数据同样适用。稀疏表示理论的核心思想是寻求信号在冗余字典的最佳线性表示,冗余字典由非正交的超完备函数基构成,而不是传统信号表示模型中的正交基函数,其表示系数尽可能稀疏,选择的字典要尽可能地符合原信号的结构。如今对于稀疏表示的研究主要集中于三个方面:(1)稀疏分解优化算法,如匹配追踪算法(MatchingPursuit,MP)、正交匹配追踪算法(OrthogonalMatchingPursuit,OMP)以及同伦算法(Homotopy);(2)字典的设计,主要有最优方向法(MethodofOptimalDirections,MOD),K-SVD方法;(3)稀疏表示的具体应用,如信号分解、去噪、信号编码、图像修复。
在标准的稀疏表示框架里,信号稀疏表示的主要目标尽可能地减小信号重构残差,并且尽量使用字典里较少的原子表示信号。与稀疏表示相比,诸如线性判别分析的识别算法更适合于识别任务,但是这些识别算法对信号的质量非常敏感,特别当信号含有噪声又或者数据不足的情况,识别效果不尽如人意。而稀疏表示通过信号重构的残差实现分类,可以较好的解决噪声以及数据不足问题。
发明内容
针对现有技术,本发明主要解决的技术问题是提供一种基于稀疏表示的短语音说话人识别方法,用以解决现有技术中在语义信息失配以及说话人模型不匹配时不能有效地提高识别的准确率的问题。
为解决上述问题,本发明采用如下技术方案:
一种基于稀疏表示的短语音说话人识别方法,其特征在于,包括以下步骤:
步骤一:对所有语音样本预处理,主要包括预加重、分帧加窗、端点检测,然后提取梅尔倒谱系数(MelFrequencyCepstralCoefficient,MFCC)及其一阶差分系数作为特征;
步骤二:由背景语音库训练高斯背景模型,并提取高斯超向量作为二次特征;
步骤三:将训练语音样本的高斯超向量排列在一起构成字典;
步骤四:利用稀疏求解算法求解表示系数,并重构信号,根据最小化残差确定识别结果。
更进一步地,所述步骤一具体包括以下步骤:①预加重、②分帧加窗、③端点检测(VoiceActivityDetection,VAD)、④特征参数提取。
更进一步地,所述步骤二具体分解为以下步骤:
S21:训练GMM-UBM模型,该模型本质上是一个大规模的高斯混合模型,由若干高斯密度的线性加权组合而成,满足权重和为1,简单表示为λ=(M,c,μ,Σ),M表示高斯分量的个数,c表示高斯分量的线性权重,μ表示高斯分量的均值,Σ表示高斯分量的协方差矩阵,用最大期望(EM)算法训练得到,其核心思想为:假定初始模型λ=(M,c,μ,Σ),计算新的模型 分别描述新模型中对应的高斯分量线性权重、高斯分量均值和高斯分集X={xt,t=1,2,…,T}在新模型下的似然函数大于在原模型下的似然函数p(X|λ)时,用新模型代替原模型λ,并一直迭代直到满足收敛条件或者达到最大迭代次数,其中T表示训练语音的特征向量个数,xt是训练语音特征集中第t个训练语音特征;第i(i=1,2,…,M)个高斯分量的新模型参数的重估公式如下:
c ^ i = 1 T Σ t = 1 T p ( i | x t , λ )
μ ^ i = Σ t = 1 T p ( i | x t , λ ) x t Σ t = 1 T p ( i | x t , λ )
Σ ^ i = Σ t = 1 T p ( i | x t , λ ) ( x t - μ ^ i ) 2 Σ t = 1 T p ( i | x t , λ )
其中,分别是新模型的第i(i=1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,p(i|xt,λ)是训练语音向量xt在模型λ中对应第i个高斯分量的后验概率;
S22:在训练得到GMM-UBM模型λ=(M,c,μ,Σ)后,根据给定说话人语音的特征矢量GMM-UBM模型的匹配程度,将各个高斯分量向目标说话人的特征分布“靠拢”;“靠拢”的过程采用最大后验(MAP)自适应算法,目标说话人的特征参数集为其自适应过程如图4所示,更新后的说话人模型参数分别表示说话人模型中对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,训练得到的GMM-UBM模型和说话人模型的高斯分量个数保持一致,对应第i(i=1,2,…,M)个高斯分量新模型参数更新:
c ~ i = [ α i c n i / B + ( 1 - α i c ) c i ] γ
μ ~ i = α i μ E i ( x ~ ) + ( 1 - α i μ ) μ i
Σ ~ i = α i Σ E i ( x ~ 2 ) + ( 1 - α i Σ ) ( Σ i 2 + μ i 2 ) - μ ~ i 2
其中, 是背景模型中第i个高斯分量与给定说话人语音特征匹配似然度,分别是目标说话人模型的第i(i=1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,ci、μi和Σi分别是训练所得的模型的第i(i=1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,B表示目标说话人的语音特征向量个数,表示目标说话人特征参数集中第b个特征,ni是目标说话人语音分布在第i个高斯分量的帧数,γ是归一化因子,分别是线性权重、均值和协方差更新表达式中的自适应参数;
S23:提取目标说话人模型的高斯均值向量并拼接起来组成d维的高斯超向量作为特征参数 v = [ μ ~ 1 ; μ ~ 2 ; · · · ; μ ~ M ] .
更进一步地,所述步骤三又具体分解为以下步骤:
S31:将第i个说话人的长度为d维的qi个高斯超向量排列成第i个说话人对应的子字典Ai表示这是实域上大小为d×qi矩阵:
A i = [ v i , 1 , v i , 2 , · · · , v i , q i ] ∈ R d × q i
S32:由于测试样本所属的说话人未知,将k个说话人子字典连接起来组成一个全局字典矩阵A:
A = [ A 1 , A 2 , · · · , A k ] = [ v 1,1 , v 1,2 , · · · , v 1 , q 1 , · · · , v k , q k ] ∈ R d × q , q = Σ i = 1 k q i
其中,所述步骤四分解为以下步骤:
S41:对全局字典矩阵A的所有列向量用l2范数进行归一化;
S42:通过l1范数最小化算法求解待识别语音高斯超向量y的表示系数:
β ^ = min β | | β | | 1 s . t . | | Aβ - y | | 2 ≤ ϵ ;
其中是满足||Aβ-y||2≤ε的表示系数β中有最小l1范数的表示系数,ε是预先设定的容错范围;
S43:根据表示系数和字典重构信号,并结合原始信号计算重构残差ri(y):
r i ( y ) = | | y - A i β ^ i | | 2 , i = 1,2 , · · · , k
其中Ai表示第i个说话人对应的子字典,表示其对应Ai子字典的系数。
S44:根据最小化重构残差确定识别结果即y所属的说话人:
i ^ ( y ) min i r i ( y ) , i = 1,2 , · · · , k .
与现有技术相比,本发明的有益效果表现在:
一、本发明经自适应得到的高斯超向量,能够极大地缓解语音数据有限带来说话人个性特征表现不足的问题;利用稀疏表示的重构残差进行分类,能够处理语义信息不匹配导致的说话人模型失配的问题。
二、本发求得待测语音在训练语音构成的稀疏字典上的最稀疏的线性表示,利用表示系数重构原始信号,根据重构的残差进行分类;稀疏表示方法在信号表示过程中既包含利于最优分类的判别信息,又包括用于信号重构的关键信息,而且表示的系数尽可能的具有稀疏性,能够很好完成短语音条件下的识别任务。
附图说明
图1是本发明的基于稀疏表示的短语音说话人识别方法的流程图;
图2是本发明中对语音信号预处理的流程图;
图3是本发明的特征参数提取框图;
图4是本发明的说话人模型的自适应过程;
图5是本发明的高斯超向量提取过程;
图6是本发明的稀疏表示求解过程示意图。
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施例并配合附图详予说明。
实施例
如图1所示,一种基于稀疏表示的短语音说话人识别方法,包括以下步骤:
步骤一:对所有语音样本预处理,主要包括预加重、分帧加窗、端点检测,然后提取MFCC及其一阶差分系数作为特征;
步骤二:由背景语音库训练高斯背景模型,并提取高斯超向量作为二次特征;
步骤三:将训练语音样本的高斯超向量排列在一起构成字典;
步骤四:利用稀疏求解算法求解表示系数,并重构信号,根据最小化残差确定识别结果。
在如图2所示,所述步骤一包括步骤S11、S12、S13以及S14,具体如下文所述:
S11:预加重,高频语音信号是反映说话人声带特征不可或缺的部分,因此,需要增强语音信号中的高频能量即预加重处理,使信号的频谱变化相对平缓,简单地说就是让语音信号通过一个高通滤波器,提高信号高频分量的幅值。本实施方案中使用一阶的高通滤波器实现预加重,预加重系数为a的高通滤波器传递函数为:
H(z)=1-az-1
S12:分帧加窗,语音信号作为一种非平稳信号,不能对其采用传统的分析方法。目前,广泛采用的是短时分析技术,即假设在非常短的时间(5-50ms)内,语音信号是平稳的,可以采用平稳信号的分析方法,因此,需要对语音作分帧处理,具体而言就是将其分割成小的片段,每个语音片段称为帧。为了避免因分帧引起的帧间的剧烈变化,保持相邻帧的连续性,在分帧的时候会有交叠的区域,称为帧移,一般为帧长的一半。对语音的分帧是通过窗函数在语音信号上滑动实现,为了更好的保留短时信号频率特性,本实施方案选择汉明窗,其时域表达式为:
其中窗口长度N=256。
S13:端点检测(VoiceActivityDetection,VAD),在语音信号录制过程中,时常会出现背景音时段(静音段),静音段的存在会严重影响系统的识别率和识别速度。语音的端点检测就是区分语音段和静音段,提取有用的语音段,准确的端点检测一方面能够有效地降低计算复杂度,同时还能提高系统鲁棒性。目前,端点检测所采用的语音特征主要有短时能量、短时过零率、高阶统计量。本实施方案采用基于短时能量和短时过零率的双门限检测法。
语音样本经过分帧加窗后,得到的第m帧语音信号在窗口中第n个采样点的语音信号sm(n)可以表示为:
sm(n)=w(n)s(m+n),0≤n≤N-1
其中N是S12中的窗口长度,w(n)是S12中的汉明窗,s(m+n)是分帧加窗前在第m+n个采样点的语音信号。
则第m帧语音信号短时能量Em为:
E m = Σ n = 0 N - 1 s m 2 ( n )
短时能量不仅可以辨别有声段和静音段,还能作为特征用于识别任务中。
短时过零率表示的是单帧语音波形穿过零电平的次数,对于离散的数字语音信号,相邻采样点异号称为过零,对于第m帧语音信号sm(n),0≤n≤N-1,其短时过零率Zm计算公式为:
Z m = 1 2 | sgn [ s m ( n ) ] - sgn [ s m ( n - 1 ) ] | , 0 ≤ n ≤ N - 1
其中,sgn(s)为符号函数,
sgn ( s ) = 1 , s &GreaterEqual; 0 - 1 , s < 0
在语音信号的清音段,过零率相对较高,而浊音段的过零率比较低,利用短时过零率还可以在背景噪声中找出语音信号。在实际应用中,一般采用将两者相结合的双门限法,这样可以有效的判断语音的有声段和无声段。
S14:特征参数提取,语音波形中一方面包含具体的语义内容,另一方面包含说话人的声纹信息,在说话人识别系统中更重要的是个性特征,但是根据现有的技术还不能完全将两者完全分离。因此,国内外研究人员针对说话人识别中特征参数研究,取得了许多有意义的研究成果。现在,说话人识别系统中使用的特征参数主要有线性预测倒谱系数(LinearPredictiveCepstralCoefficient,LPCC)、共振峰频率、基音周期、MFCC。其中,较为常用的是LPCC和MFCC。前者利用线性预测技术来模拟人的发声模型,取得一定的效果,但是忽略了人耳的听觉特性,而且对高频噪声的鲁棒性较差。后者充分利用人耳的听觉感知特性,通过梅尔频率(MelFrequency,MF)来模拟非线性的听觉系统,大量的实验证明MFCC不仅具有良好的识别性能更具有较强的抗噪能力。提取过程如图3所示,其中FFT表示离散傅里叶变换,DCT表示离散余弦变换。
在本实施例中,步骤二主要包括步骤S21、S22、S23,具体如下文所述:
S21:训练GMM-UBM模型,该模型本质上是一个大规模的高斯混合模型,由若干高斯密度的线性加权组合而成,满足权重和为1,可以简单表示为λ=(M,c,μ,Σ),M表示高斯分量的个数,c表示高斯分量的线性权重,μ表示高斯分量的均值,Σ表示高斯分量的协方差矩阵,一般用最大期望(EM)算法训练得到,其核心思想为:假定初始模型λ=(M,c,μ,Σ),计算新的模型新模型和初始模型有同样的高斯分量个数M,分别描述新模型中对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,当训练语音特征集X={xt,t=1,2,…,T}在新模型下的似然函数大于在原模型下的似然函数p(X|λ)时,用新模型代替原模型λ,并一直迭代直到满足收敛条件或者达到最大迭代次数,其中T表示训练语音的特征向量个数,xt是训练语音特征集中第t个训练语音特征。第i(i=1,2,…,M)个高斯分量的新模型参数的重估公式如下:
c ^ i = 1 T &Sigma; t = 1 T p ( i | x t , &lambda; )
&mu; ^ i = &Sigma; t = 1 T p ( i | x t , &lambda; ) x t &Sigma; t = 1 T p ( i | x t , &lambda; )
&Sigma; ^ i = &Sigma; t = 1 T p ( i | x t , &lambda; ) ( x t - &mu; ^ i ) 2 &Sigma; t = 1 T p ( i | x t , &lambda; )
其中,分别是新模型的第i(i=1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,p(i|xt,λ)是训练语音向量xt在模型λ中对应第i个高斯分量的后验概率。
S22:在训练得到GMM-UBM模型λ=(M,c,μ,Σ)后,根据给定说话人语音的特征矢量GMM-UBM模型的匹配程度,将各个高斯分量向目标说话人的特征分布“靠拢”。“靠拢”的过程采用最大后验(MAP)自适应算法,目标说话人的特征参数集为其自适应过程如图4所示,更新后的说话人模型参数两个模型有同样的高斯分量个数,分别描述说话人模型中对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,对应第i(i=1,2,…,M)个高斯分量新模型参数更新:
c ~ i = [ &alpha; i c n i / B + ( 1 - &alpha; i c ) c i ] &gamma;
&mu; ~ i = &alpha; i &mu; E i ( x ~ ) + ( 1 - &alpha; i &mu; ) &mu; i
&Sigma; ~ i = &alpha; i &Sigma; E i ( x ~ 2 ) + ( 1 - &alpha; i &Sigma; ) ( &Sigma; i 2 + &mu; i 2 ) - &mu; ~ i 2
其中, E i ( x ~ ) = 1 n i &Sigma; b = 1 B p ( i | x ~ b ) x ~ b , E i ( x ~ 2 ) = 1 n i &Sigma; b = 1 B p ( i | x ~ b ) x ~ b 2 , p ( i | x ~ b ) 是背景模型中第i个高斯分量与给定说话人语音特征匹配似然度,分别是目标说话人模型的第i(i=1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,ci、μi和Σi分别是训练所得的模型的第i(i=1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,B表示目标说话人的语音特征向量个数,表示目标说话人特征参数集中第b个特征,ni是目标说话人语音分布在第i个高斯分量的帧数,γ是归一化因子,分别是线性权重、均值和协方差更新表达式中的自适应参数;
S23:提取目标说话人模型的高斯均值向量并拼接起来组成d维的高斯超向量作为特征参数提取过程如图5所示。
在本实施例中,所述步骤三包括步骤S31、S32,具体如下文所述:
S31:将第i个说话人的长度为d维的qi个高斯超向量排列成第i个说话人的子字典Ai表示这是实域上大小为d×qi矩阵:
A i = [ v i , 1 , v i , 2 , &CenterDot; &CenterDot; &CenterDot; , v i , q i ] &Element; R d &times; q i
S32:由于测试样本所属的说话人未知,将k个说话人的子字典连接起来组成一个全局字典矩阵A:
A = [ A 1 , A 2 , &CenterDot; &CenterDot; &CenterDot; , A k ] = [ v 1,1 , v 1,2 , &CenterDot; &CenterDot; &CenterDot; , v 1 , q 1 , &CenterDot; &CenterDot; &CenterDot; , v k , q k ] &Element; R d &times; q , q = &Sigma; i = 1 k q i
其中R表示这是实域上的矩阵,d和q分别对应为全局字典矩阵A的行数和列数。
在本实施例中,步骤四主要包括步骤S41、S42、S43、S44,具体如下文所述。
S41:对全局字典矩阵A的所有列向量用l2范数进行归一化;
S42:通过l1范数最小化算法求解待识别语音高斯超向量y表示系数:
&beta; ^ = min &beta; | | &beta; | | 1 s . t . | | A&beta; - y | | 2 &le; &epsiv; ;
其中是满足||Aβ-y||2≤ε的表示系数β中有最小l1范数的解,ε是预先设定的容错范围;
S43:根据表示系数重构信号,并结合原始信号计算重构残差ri(y):
r i ( y ) = | | y - A i &beta; ^ i | | 2 , i = 1,2 , &CenterDot; &CenterDot; &CenterDot; , k
其中Ai表示第i个说话人的子字典,表示其对应位置的系数。
S44:根据最小化残差确定识别结果即y所属的说话人:
i ^ ( y ) min i r i ( y ) , i = 1,2 , &CenterDot; &CenterDot; &CenterDot; , k .
总体求解过程如图6所示。
综上所述:本发明的核心思想为寻求待测语音在训练语音构成的稀疏字典上的最稀疏的线性表示,利用表示系数重构原始信号,根据重构的残差进行分类。稀疏表示方法在信号表示过程中既包含利于最优分类的判别信息,又包括用于信号重构的关键信息,而且表示的系数尽可能的具有稀疏性,从而能够很好完成短语音条件下的识别任务。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种基于稀疏表示的短语音说话人识别方法,其特征在于,包括以下步骤:
步骤一:对所有语音样本预处理,主要包括预加重、分帧加窗、端点检测,然后提取梅尔倒谱系数及其一阶差分系数作为特征;
步骤二:由背景语音库训练高斯背景模型,并提取高斯超向量作为二次特征;
步骤三:将训练语音样本的高斯超向量排列在一起构成字典;
步骤四:利用稀疏求解算法求解表示系数,并重构信号,根据最小化残差确定识别结果。
2.根据权利要求1所述的一种基于稀疏表示的短语音说话人识别方法,其特征在于,所述步骤一具体包括以下步骤:①预加重、②分帧加窗、③端点检测、④特征参数提取。
3.根据权利要求1所述的一种基于稀疏表示的短语音说话人识别方法,其特征在于,所述步骤二具体分解为以下步骤:
S21:训练GMM-UBM模型,该模型本质上是一个大规模的高斯混合模型,由若干高斯密度的线性加权组合而成,满足权重和为1,表示为λ=(M,c,μ,Σ),M表示高斯分量的个数,c表示高斯分量的线性权重,μ表示高斯分量的均值,Σ表示高斯分量的协方差矩阵,用最大期望(EM)算法训练得到,其核心思想为:假定初始模型λ=(M,c,μ,Σ),计算新的模型分别描述新模型中对应高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,两个模型的高斯分量个数相同,当训练语音特征集X={xt,t=1,2,…,T}在新模型下的似然函数大于在原模型下的似然函数p(X|λ)时,用新模型代替原模型λ,并一直迭代直到满足收敛条件或者达到最大迭代次数,其中T表示训练语音的特征向量个数,xt是训练语音特征集中第t个训练语音特征;第i(i=1,2,…,M)个高斯分量的新模型参数的重估公式如下:
c ^ i = 1 T &Sigma; t = 1 T p ( i | x t , &lambda; )
&mu; ^ i = &Sigma; t = 1 T p ( i | x t , &lambda; ) x t &Sigma; t = 1 T p ( i | x t , &lambda; )
&Sigma; ^ i = &Sigma; t = 1 T p ( i | x t , &lambda; ) ( x t - &mu; ^ i ) 2 &Sigma; t = 1 T p ( i | x t , &lambda; )
其中,分别是新模型的第i(i=1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,p(i|xt,λ)是训练语音向量xt在模型λ中对应第i个高斯分量的后验概率;
S22:在训练得到GMM-UBM模型λ=(M,c,μ,Σ)后,根据给定说话人语音的特征矢量GMM-UBM模型的匹配程度,将各个高斯分量向目标说话人的特征分布“靠拢”;“靠拢”的过程采用最大后验(MAP)自适应算法,目标说话人的特征参数集为更新后的说话人模型参数目标说话人模型和训练得到GMM-UBM模型也具有相同的高斯分量个数M,分别描述说话人模型中对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,M也是训练得到的GMM-UBM模型λ的对应高斯分量个数,第i(i=1,2,…,M)个高斯分量新模型参数更新过程:
c ~ i = &lsqb; &alpha; i c n i / B + ( 1 - &alpha; i c ) c i &rsqb; &gamma;
&mu; ~ i = &alpha; i &mu; E i ( x ~ ) + ( 1 - &alpha; i &mu; ) &mu; i
&Sigma; ~ i = &alpha; i &Sigma; E i ( x ~ 2 ) + ( 1 - &alpha; i &Sigma; ) ( &Sigma; i 2 + &mu; i 2 ) - &mu; ~ i 2
其中,是背景模型中第i个高斯分量与给定说话人语音特征匹配似然度,分别是目标说话人模型的第i(i=1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,ci、μi和Σi分别是训练所得的模型的第i(i=1,2,…,M)个高斯分量对应的高斯分量线性权重、高斯分量均值和高斯分量协方差矩阵,B表示目标说话人的语音特征向量个数,ni是目标说话人语音分布在第i个高斯分量的帧数,γ是归一化因子,分别是线性权重、均值和协方差更新表达式中的自适应参数;
S23:提取目标说话人模型的高斯均值向量并拼接起来组成d维的高斯超向量作为特征参数
4.根据权利要求1所述的一种基于稀疏表示的短语音说话人识别方法,其特征在于,所述步骤三又具体分解为以下步骤:
S31:将第i个说话人的qi个高斯超向量排列成第i个说话人的子字典Ai
A i = &lsqb; v i , 1 , v i , 2 , ... , v i , q i &rsqb; &Element; R d &times; q i ,
其中表示这是实域上大小为d×qi的矩阵,d表示高斯超向量维数;
S32:由于测试样本所属的类别未知,将k个类别样本矩阵连接起来组成一个全局字典矩阵A:
A = &lsqb; A 1 , A 2 , ... , A k &rsqb; = &lsqb; v 1 , 1 , v 1 , 2 , ... , v 1 , q 1 , ... , v k , q k &rsqb; &Element; R d &times; q , q = &Sigma; i = 1 k q i .
5.根据权利要求1所述的一种基于稀疏表示的短语音说话人识别方法,其特征在于,所述步骤四分解为以下步骤:
S41:对全局字典矩阵A的所有列向量用l2范数进行归一化;
S42:通过l1范数最小化算法求解待识别语音高斯超向量y的表示系数:
&beta; ^ = m i n &beta; | | &beta; | | 1 s . t . | | A &beta; - y | | 2 &le; &epsiv; ;
其中是满足||Aβ-y||2≤ε的表示系数β中有最小l1范数的解,ε是预先设定的容错范围;
S43:根据表示系数字典重构信号,并结合原始信号计算重构残差ri(y):
r i ( y ) = | | y - A i &beta; ^ i | | 2 , i = 1 , 2 , ... , k
其中Ai表示第i个说话人的子字典,表示其对应Ai子字典的系数;
S44:根据最小化重构残差确定识别结果即y所属的说话人:
i ^ ( y ) = m i n i r i ( y ) , i = 1 , 2 , ... , k .
CN201310319824.0A 2013-07-26 2013-07-26 一种基于稀疏表示的短语音说话人识别方法 Expired - Fee Related CN103345923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310319824.0A CN103345923B (zh) 2013-07-26 2013-07-26 一种基于稀疏表示的短语音说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310319824.0A CN103345923B (zh) 2013-07-26 2013-07-26 一种基于稀疏表示的短语音说话人识别方法

Publications (2)

Publication Number Publication Date
CN103345923A CN103345923A (zh) 2013-10-09
CN103345923B true CN103345923B (zh) 2016-05-11

Family

ID=49280714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310319824.0A Expired - Fee Related CN103345923B (zh) 2013-07-26 2013-07-26 一种基于稀疏表示的短语音说话人识别方法

Country Status (1)

Country Link
CN (1) CN103345923B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103474066B (zh) * 2013-10-11 2016-01-06 福州大学 基于多频带信号重构的生态声音识别方法
CN103594084B (zh) * 2013-10-23 2016-05-25 江苏大学 联合惩罚稀疏表示字典学习的语音情感识别方法及系统
CN103678896A (zh) * 2013-12-04 2014-03-26 南昌大学 基于协方差的高斯混合模型参数分离方法
CN104036777A (zh) * 2014-05-22 2014-09-10 哈尔滨理工大学 一种语音活动检测方法及装置
CN105139855A (zh) * 2014-05-29 2015-12-09 哈尔滨理工大学 一种两阶段稀疏分解的说话人识别方法与装置
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
CN104298729B (zh) * 2014-09-28 2018-02-23 小米科技有限责任公司 数据分类方法及装置
CN104464738B (zh) * 2014-10-31 2018-01-02 北京航空航天大学 一种面向智能移动设备的声纹识别方法
CN104616029B (zh) * 2014-12-29 2017-11-03 小米科技有限责任公司 数据分类方法及装置
CN106328151B (zh) * 2015-06-30 2020-01-31 芋头科技(杭州)有限公司 一种环噪消除系统及其应用方法
CN105118509A (zh) * 2015-07-28 2015-12-02 北京航空航天大学 一种基于声纹二维码的安全认证方法
CN106971724A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种防干扰声纹识别方法和系统
CN106448680B (zh) * 2016-03-01 2019-11-12 常熟苏大低碳应用技术研究院有限公司 一种采用感知听觉场景分析的缺失数据特征说话人识别方法
CN105845142A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于稀疏表示的信道鲁棒说话人确认方法及其系统
CN105976819A (zh) * 2016-03-23 2016-09-28 广州势必可赢网络科技有限公司 基于Rnorm得分归一化的说话人确认方法
CN106448681B (zh) * 2016-09-12 2019-10-18 南京邮电大学 一种超矢量的说话人辨认方法
CN106782496B (zh) * 2016-11-15 2019-08-20 北京科技大学 一种基于语音和群智感知的人群数量监测方法
CN107221321A (zh) * 2017-03-27 2017-09-29 杭州电子科技大学 一种用于任意源和目标语音之间的语音转换方法
CN107705795A (zh) * 2017-09-27 2018-02-16 天津大学 基于ksvd算法的多声道音频处理方法
CN107895582A (zh) * 2017-10-16 2018-04-10 中国电子科技集团公司第二十八研究所 面向多源信息领域的说话人自适应语音情感识别方法
CN110047491A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 一种随机数字口令相关的说话人识别方法及装置
CN108510995B (zh) * 2018-02-06 2021-06-08 杭州电子科技大学 面向语音通信的身份信息隐藏方法
CN108694949B (zh) * 2018-03-27 2021-06-22 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN108847249B (zh) * 2018-05-30 2020-06-05 苏州思必驰信息科技有限公司 声音转换优化方法和系统
CN109858546B (zh) * 2019-01-28 2021-03-30 北京工业大学 一种基于稀疏表示的图像识别方法
CN109994116B (zh) * 2019-03-11 2021-01-19 南京邮电大学 一种基于会议场景小样本条件下的声纹准确识别方法
CN110085236B (zh) * 2019-05-06 2021-02-09 中国人民解放军陆军工程大学 一种基于自适应语音帧加权的说话人识别方法
CN110648553B (zh) * 2019-09-26 2021-05-28 北京声智科技有限公司 一种站点提醒方法、电子设备及计算机可读存储介质
CN112786050B (zh) * 2019-11-07 2024-02-02 王皓 一种语音识别的方法、装置及设备
CN111462729B (zh) * 2020-03-31 2022-05-17 因诺微科技(天津)有限公司 基于音素对数似然比和稀疏表征的快速语种识别方法
CN111599345B (zh) * 2020-04-03 2023-02-10 厦门快商通科技股份有限公司 语音识别算法评估方法、系统、移动终端及存储介质
CN113053417B (zh) * 2021-03-29 2022-04-19 济南大学 带噪语音情感识别方法、系统、设备及存储介质
CN113080969B (zh) * 2021-03-29 2022-06-21 济南大学 基于多模态特征的测谎数据处理方法及系统
CN115512708B (zh) * 2022-10-05 2024-05-07 哈尔滨理工大学 基于区分性字典与分类器联合学习的说话人识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374217B1 (en) * 1999-03-12 2002-04-16 Apple Computer, Inc. Fast update implementation for efficient latent semantic language modeling
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
CN103065622A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 一种用于语种识别的语种模型的训练方法及系统
CN103077709A (zh) * 2012-12-28 2013-05-01 中国科学院声学研究所 一种基于共有鉴别性子空间映射的语种识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374217B1 (en) * 1999-03-12 2002-04-16 Apple Computer, Inc. Fast update implementation for efficient latent semantic language modeling
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
CN103065622A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 一种用于语种识别的语种模型的训练方法及系统
CN103077709A (zh) * 2012-12-28 2013-05-01 中国科学院声学研究所 一种基于共有鉴别性子空间映射的语种识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于稀疏表示的短语音说话人识别;汪桃林;《CNKI中国知网》;20130401;1-71 *

Also Published As

Publication number Publication date
CN103345923A (zh) 2013-10-09

Similar Documents

Publication Publication Date Title
CN103345923B (zh) 一种基于稀疏表示的短语音说话人识别方法
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN101136199B (zh) 语音数据处理方法和设备
CN105845140A (zh) 应用于短语音条件下的说话人确认方法和装置
Yücesoy et al. Gender identification of a speaker using MFCC and GMM
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN112735477B (zh) 语音情感分析方法和装置
Nunes et al. Additive margin sincnet for speaker recognition
Mallidi et al. Autoencoder based multi-stream combination for noise robust speech recognition.
Sarkar et al. Stochastic feature compensation methods for speaker verification in noisy environments
Shan et al. Prospect of voiceprint recognition based on deep learning
Sarkar et al. Multilingual speaker recognition on Indian languages
He et al. Spectrum enhancement with sparse coding for robust speech recognition
Hammami et al. Spoken Arabic digits recognition using MFCC based on GMM
Bhardwaj et al. Building an ASR System for Indian (Punjabi) language and its evaluation for Malwa and Majha dialect: Preliminary Results
Li et al. Audio similarity detection algorithm based on Siamese LSTM network
Zhu et al. Continuous speech recognition based on DCNN-LSTM
Ma et al. Statistical formant descriptors with linear predictive coefficients for accent classification
Lei et al. Multilingual customized keyword spotting using similar-pair contrastive learning
Gowda et al. Continuous kannada speech segmentation and speech recognition based on threshold using MFCC and VQ
Gunal et al. Use of novel feature extraction technique with subspace classifiers for speech recognition
Nie et al. Intrinsic variation robust speaker verification based on sparse representation
Zhao et al. A novel robust MFCC extraction method using sample-ISOMAP for speech recognition
Nosan et al. Descend-Delta-Mean Algorithm for Feature Extraction of Isolated THAI Digit Speech
Cai et al. The DKU-SMIIP System for NIST 2018 speaker recognition evaluation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160511

Termination date: 20170726

CF01 Termination of patent right due to non-payment of annual fee