CN102737633A - 一种基于张量子空间分析的说话人识别方法及其装置 - Google Patents

一种基于张量子空间分析的说话人识别方法及其装置 Download PDF

Info

Publication number
CN102737633A
CN102737633A CN2012102125977A CN201210212597A CN102737633A CN 102737633 A CN102737633 A CN 102737633A CN 2012102125977 A CN2012102125977 A CN 2012102125977A CN 201210212597 A CN201210212597 A CN 201210212597A CN 102737633 A CN102737633 A CN 102737633A
Authority
CN
China
Prior art keywords
msub
mrow
module
matrix
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102125977A
Other languages
English (en)
Other versions
CN102737633B (zh
Inventor
刘加
何亮
孙贻滋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
BEIJING HUAXIN HENGDA SOFTWARE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HUAXIN HENGDA SOFTWARE TECHNOLOGY Co Ltd filed Critical BEIJING HUAXIN HENGDA SOFTWARE TECHNOLOGY Co Ltd
Priority to CN 201210212597 priority Critical patent/CN102737633B/zh
Publication of CN102737633A publication Critical patent/CN102737633A/zh
Application granted granted Critical
Publication of CN102737633B publication Critical patent/CN102737633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及自动语音识别领域,特别是一种基于张量子空间分析的说话人识别方法和装置。该方法包括:通过语音数据,训练通用背景高斯混合模型和通用投影矩阵。随后,利用训练好的通用模型和目标说话人的语音建立说话人模型。最后,计算目标说话人模型和测试语音的低维嵌入矩阵的相关系数,并依此作为说话人识别的依据。该装置包括:语音预处理模块、特征提取模块、训练通用背景高斯混合模型模块、自适应模块、训练通用投影矩阵模块、计算低维嵌入模块、计算相关系数模块、分数判决模块和存储模块。本发明能够明显降低说话人建模时的运算量,并且具有模型自由度低、鲁棒性强等特点,适用于语音长度有限情况下的文本无关说话人识别。

Description

一种基于张量子空间分析的说话人识别方法及其装置
技术领域
本发明涉及语音识别、模式识别和子空间分析领域,具体地说,是一种基于张量子空间分析的说话人识别方法与装置。
背景技术
说话人识别,也称为声纹识别,是利用计算机,根据语音自动判断说话人身份的生物特征识别技术。根据不同的应用场景,说话人识别技术有多种分类方法:根据语音内容是否已知,说话人识别可分为文本相关的和文本无关的。根据识别任务的不同,说话人识别可分为说话人辨识和说话人确认。说话人识别技术主要应用在安全监控、刑侦司法和电子商务等领域。
近年来,主流的文本无关的说话人辨识(以下简称说话人识别)技术均基于Douglas A.Reynolds在2000年提出的高斯混合模型-通用背景模型(Gaussian mixture model-universalbackground models,GMM-UBM)说话人识别系统。GMM-UBM系统从说话人识别角度,提出了衡量两段语音相似程度的理论框架和实施方法,具有里程碑式的意义。随后十一年中,围绕GMM-UBM系统,诸多学者和业内人士提出了各种改进技术,例如,高斯混合模型-支持向量机(Support vector machine,SVM)、无用分量投影(Nuisance attributeprojection,NAP)、联合因子分析(Joint factor analysis,JFA)和I-vector技术等。这些技术的本质都是将说话人高斯混合模型向一个高维向量空间进行映射。该高维空间又可称为再生核希尔伯特空间(Reproducing kernel Hilbert space,RKHS)。通过在RKHS中选取合适的度量,计算两段高维矢量的相似程度,从而达到衡量两段语音相似程度的目的。
将说话人高斯混合模型映射成为一个超矢量有如下的问题:(1)计算复杂度大。令F代表频谱特征维数,M代表高斯混合模型数,则映射的高维矢量维数为F×M。为了在RKHS中,选择合适的度量,一般要求解(F×M)×(F×M)对称实矩阵的特征值和特征向量。在一个典型场景中,M=1024、F=39。求解39936×39936维实对称矩阵的特征值和特征向量是难以在现有通用计算平台上实现的。虽然采用核主成分分析(Kernel principlecomponent analysis,KPCA)和迭代求解算法能在一定程度上缓解计算压力,但也具有相当的计算量;(2)需要较多数据才能训练出稳健的模型。令上述技术所求的信道子空间维数为R,则训练出的投影矩阵(正交投影或近似的斜投影)是(M×F)×R维矩阵。投影矩阵所含的参数较多,进而要求有较多训练数据才能稳健估值。
以基于无用分量空间投影(Nuisance attribute projection,NAP)说话人识别系统为例,NAP系统需要的数据,按功能划分有如下五个部分:(1)训练通用背景高斯混合模型的语音数据;(2)训练NAP矩阵的语音数据;(3)训练目标说话人的语音数据;(4)SVM反模型语音数据;(5)待识别语音数据。
已有的基于NAP的文本无关说话人识别方法的主要流程如图1所示,包括训练通用模型阶段、训练说话人模型阶段和测试阶段,其中:
1)训练通用模型阶段,包括以下步骤:
1-a)通过语音预处理和特征提取,将训练通用背景高斯混合模型的语音数据转化为频谱特征;
1-b)基于所提取的频谱特征,采用K-means或LBG算法,对通用背景高斯混合模型初始化;
1-c)利用最大期望算法(Expectation maximum,EM)更新步骤1-b)初始化的通用背景高斯混合模型,一般而言,迭代8次即可;
1-d)通过语音预处理和特征提取,将训练NAP矩阵的语音数据转化为频谱特征;
1-e)通过最大后验概率(Maximum A Posterior,MAP)算法,利用步骤1-c)更新所得的通用背景高斯混合模型,将训练NAP矩阵的频谱特征先转化为高斯混合模型,再转化成超矢量;
1-f)通过NAP矩阵求解算法,利用步骤1-e)所得的超矢量训练NAP矩阵;至此,通用背景高斯混合模型和NAP矩阵合称为通用模型。
2)训练说话人模型阶段:
2-a)通过语音预处理和特征提取模块,将训练目标说话人的语音数据和SVM反模型语音数据转化为频谱特征;
2-b)通过MAP算法,将步骤2-a)中的频谱特征转化为高斯混合模型;
2-c)利用步骤1-f)训练好的NAP矩阵,将步骤2-b)的高斯混合模型展成超矢量,并进行投影;
2-d)对步骤2-c)所得的超矢量,利用SVM训练算法,训练目标说话人模型。
3)测试阶段:
3-a)通过语音预处理和特征提取模块,将待识别语音转化为频谱特征;
3-b)通过MAP算法,将步骤3-a)中的频谱特征转化为高斯混合模型;
3-c)利用步骤1-f)训练好的NAP矩阵,将步骤3-b)的高斯混合模型展成超矢量,并利用NAP矩阵进行投影;
3-d)利用步骤2-d)训练所得的目标人模型和步骤3-c)中所得的、投影后的超矢量,根据SVM测试表达式计算相似分数;
3-e)将步骤3-d)计算所得的分数与预先估计好的阈值(该阈值可以在一开发集上估计得到)进行比较,并给出识别结果。
上述步骤中,最为关键的一个步骤是NAP矩阵求解算法,即步骤1-f)。该算法具体过程如下:
NAP矩阵的目标函数是:经过投影,同一个说话人对应的多段超矢量之间的方差应尽量小
min U c 1 S Σ s = 1 S { 2 C s ( C s + 1 ) Σ c , c ′ , c ≠ c ′ C s | | P s m s , c - P s m s , c ′ | | 2 }
= min U c 1 S Σ s = 1 S { 2 C s ( C s + 1 ) Σ c , c ′ , c ≠ c ′ C s tr [ ( m s , c - m s , c ′ ) T ( I - U c U c T ) ( m s , c - m s , c ′ ) ] } - - - ( 1 )
式(1)中s代表说话人索引,S代表训练NAP矩阵的语音数据中说话人的总数;c和c′代表属于同一说话人s的两段不同语音,Cs代表对于说话人s,共有Cs段语音;Ps代表NAP投影矩阵,
Figure BDA00001795385700033
Uc是线性矩阵;ms,c代表上述步骤中所提到的超矢量。忽略式(1)中的常数项,可得
max U c tr [ U c T 1 S Σ s = 1 S { 2 C s ( C s + 1 ) Σ c , c ′ , c ≠ c ′ C s ( m s , c - m s , c ′ ) ( m s , c - m s , c ′ ) T } U c ] - - - ( 2 )
为了求解Ps,需要求解
1 S Σ s = 1 S { 2 C s ( C s + 1 ) Σ c , c ′ , c ≠ c ′ C s ( m s , c - m s , c ′ ) ( m s , c - m s , c ′ ) T } - - - ( 3 )
的特征值和特征向量。由于式(3)中,
Figure BDA00001795385700036
是高维的实对称矩阵(例如,上面列举的一组典型参数(F×M)×(F×M)=39936×39936),求解的运算量很大。
基于NAP的文本无关说话人识别装置主要包含如下几个模块:
1)语音预处理模块:用于对语音降噪,分帧,预加重,输出相对纯净的语音信号;
2)特征提取模块:用于从预处理后的语音中,提取频谱特征;
3)训练通用背景高斯混合模型模块:根据提取的频谱特征,训练通用背景高斯混合模型;
4)自适应模块:根据提取出的频谱特征和通用背景高斯混合模型,采用MAP自适应算法,计算一段语音对应的高斯混合模型;
5)训练NAP投影矩阵模块:根据自适应的高斯混合模型和对应的说话人标签,采用NAP求解算法,训练NAP矩阵;
6)计算投影模块:根据模块4)输出的高斯混合模型和模块5)输出的NAP矩阵,计算投影后的超矢量;
7)SVM训练模块:根据标准SVM训练算法和计算投影模块6)输出的超矢量,建立目标说话人模型;
8)SVM判决模块:根据目标说话人模型和投影后的超矢量,计算相似分数;
9)存储模块。
在上述训练NAP投影矩阵模块5)中,涉及到求解高维的实对称矩阵过程,不仅需要较多的训练数据才能准确估计,更要消耗大量的运算。说话人识别的正确率和训练语音的长短、测试语音的长短都是有很密切的关系。语音越长,识别任务就越简单,识别率就越高。在实际应用过程中,都会要求用户提供尽可能长的语音。然而,在很多应用场景,用户能提供的语音长度是有限的。其语音长度,既达不到期望的长度,其长度也不是很短,通常为30-90秒,故称这种语音是一种有限长度的语音。
张量子空间分析(Tensor subspace analysis)起源于人脸识别,假设一副人脸图像可以用二维矩阵X′s,c
Figure BDA00001795385700041
表示,其中下标s代表该图像与某人s相关,下标c代表该图像是该人的第c个照片,F′和M′代表一张图片的两个维度。张量子空间分析的目标函数是使得同一个人多幅人脸图像的低维嵌入Y′s,c
Figure BDA00001795385700042
R′F<F′,R′M<M′,R′F和F′M是降秩后的维数)尽可能近。
假设高维张量矩阵向低维嵌入的映射是线性的,令通用投影矩阵为U和V,Y′s,c=UX′s,cV。根据上述的目标函数,
min Σ s = 1 S Σ c ≠ c ′ , 1 ≤ c , c ′ ≤ C s | | Y s , c ′ - Y s , c ′ ′ | | F 2 - - - ( 5 )
其中,||·||F是Frobenius范数。将Y′s,c=UX′s,cV带入上式,可得
min U , V Σ s = 1 S Σ c ≠ c ′ , 1 ≤ c , c ′ ≤ C s | | U X s , c ′ V - UX s , c ′ ′ V | | F 2 - - - ( 6 )
由于U和V都是变量,使得上式求解存在一定的难度。一般通过迭代法解决上述问题。具体做法是:先固定U,根据目标函数求解V;再固定V,根据目标函数求解U。当一个矩阵固定,求解另一个矩阵是广义特征值、特征向量求解问题。
以固定矩阵U为例,考虑V的求解算法。为了求解式(6),需要将X′s,c进行重排,其下标索引为1≤i≤N,
Figure BDA00001795385700051
并引入A矩阵。A矩阵中各元素定义如下:如果X′i和X′j源于同一个人,Aij=1;如果X′i和X′j源于不同人,Aij=0。则式(6)可以重写为
min V Σ i , j | | U X i ′ V - U X j ′ V | | F 2 A i , j
= Σ i , j tr ( ( U T X i ′ V - U T X j ′ V ) T ( U T X i ′ V - U T X j ′ V ) ) A ij - - - ( 7 )
= 2 tr ( V T ( D u - A u ) V )
其中,
D u = Σ i n X ′ i T UU T X i ′ D ii - - - ( 8 )
A u = Σ i , j n X ′ i T UU T X j ′ A ij - - - ( 9 )
D ii = Σ j = 1 N A ij - - - ( 10 )
为了保证投影后,不同类之间的差异尽量大,需要最大化投影后各类之间的方差,即
max V Σ i | | U X ′ i V - U X ′ i V | | F 2 D ii - - - ( 11 )
= tr ( V T ( D u - A u ) V )
将式(7)和式(11)联合求解,
min V V T ( D u - A u ) V V T D u V - - - ( 12 )
通过求解式(12),即可得到对V的估计。公示(12)表明,对V的估计是求解M×M实对称矩阵的广义特征值和广义特征向量。
对U的估计与对V的估计方法类似。
发明内容
本发明的目的是为了解决已有技术的不足,公开提供了一种基于张量子空间分析的说话人识别方法与装置。本发明可以有效降低运算量,降低训练数据的要求,使得利用相对较少的训练数据和更低的计算复杂度,就能达到去除信道影响的目的,适用于有限长度的语音识别任务,适用于实际的应用需求。
本发明提出的一种基于张量子空间分析的说话人识别方法,其特征在于,该方法包括:训练通用模型阶段、训练说话人模型阶段和测试阶段;其特征在于,
1)训练通用模型阶段包括以下步骤:
1-a)通过语音预处理和特征提取,将训练通用背景高斯混合模型的语音数据转化为频谱特征;
1-b)基于所提取的频谱特征,采用K-means或LBG算法,对通用背景高斯混合模型初始化;
1-c)利用最大期望算法更新步骤1-b)初始化的通用背景高斯混合模型;
1-d)通过语音预处理和特征提取,将训练通用投影矩阵的语音数据转化为频谱特征;
1-e)通过最大后验概率算法,将频谱特征转化为高斯混合模型;将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间分析算法,求解通用投影矩阵;
2)训练说话人模型阶段包括以下步骤:
2-a)通过语音预处理和特征提取模块,将训练目标说话人的语音数据转化为频谱特征;
2-b)通过MAP算法,将步骤2-a)中的频谱特征转化为说话人高斯混合模型;
2-c)利用通用投影矩阵,计算说话人高斯混合模型的低维嵌入,并作为说话人模型;
3)测试阶段包括以下步骤:
3-a)通过语音预处理和特征提取模块,将待识别语音数据转化为频谱特征;
3-b)过MAP算法,将步骤3-a)中的频谱特征转化为高斯混合模型;
3-c)利用通用投影矩阵,计算待识别的语音对应的高斯混合模型的低维嵌入,并计算该低维嵌入与说话人模型的相关系数;
3-d)将该相关系数与预先估计好的阈值进行比较,并给出识别结果。
本发明还提出采用上述方法的基于张量子空间分析的说话人识别装置,其特征在于,该装置包括以下9个模块:
(1)语音预处理模块:用于对语音降噪,分帧,预加重,输出相对纯净的语音信号;
(2)特征提取模块:用于从语音预处理模块预处理后的语音中,提取频谱特征,包括梅尔频率倒谱系数,或线性预测倒谱系数,或感知线性预测;
(3)训练通用背景高斯混合模型模块:根据特征提取模块提取的频谱特征,训练通用背景高斯混合模型;
(4)自适应模块:根据特征提取模块提取出的频谱特征和训练通用背景高斯混合模型模块训练的通用背景高斯混合模型,采用MAP自适应算法,计算一段语音对应的高斯混合模型;
(5)训练通用投影矩阵模块:根据自适应模块自适应计算的的高斯混合模型和对应的说话人标签,采用张量子空间分析算法,训练通用投影矩阵;
(6)计算低维嵌入模块:根据训练通用投影矩阵模块训练的通用投影矩阵,计算高斯混合模型对应的低维嵌入矩阵;
(7)计算相关系数模块:用于计算目标说话人语音对应的低维嵌入矩阵和待识别语音的低维嵌入矩阵的相关系数;
(8)分数判决模块:将计算相关系数模块计算所得的相关系数与某个阈值进行比较,并给出识别结果;
(9)存储模块:用于存储训练通用背景高斯混合模型模块、训练通用投影矩阵模块和计算低维嵌入模块的数据并将相应数据传给相应模块。
本发明的特点及有益效果:
(1)与传统方法相比,本发明方法将张量子空间分析应用到说话人识别系统上。只需要求解低维实对称矩阵的特征值和特征向量,避免了求解高维实对称矩阵的特征值和特征向量,可以大幅度降低计算量。
(2)建模方法复杂度低,用较少的数据就能稳健的建立模型。适用于有限长度语音的文本无关的说话人辨识问题。在训练语音和测试语音较少的情况下,本发明方法能更好的完成说话人辨识任务,符合实际应用的需求。
附图说明
图1是已有的基于NAP的文本无关说话人识别方法的流程框图。
图2是本发明的方法流程框图。
图3是本发明的装置结构框图。
具体实施方式
本发明提出的一种基于张量子空间分析的说话人识别方法及其装置,结合附图及实施例详细说明如下。
本发明提出的一种基于张量子空间分析的说话人识别方法,如图2所示,该方法包括:训练通用模型阶段、训练说话人模型阶段和测试阶段;其特征在于,
1)训练通用模型阶段包括以下步骤:
1-a)通过语音预处理和特征提取,将训练通用背景高斯混合模型的语音数据转化为频谱特征;
1-b)基于所提取的频谱特征,采用K-means或LBG算法,对通用背景高斯混合模型初始化;
1-c)利用最大期望算法(Expectation maximum,EM)更新步骤1-b)初始化的通用背景高斯混合模型;
1-d)通过语音预处理和特征提取,将训练通用投影矩阵的语音数据转化为频谱特征;
1-e)通过最大后验概率(Maximum A Posterior,MAP)算法,将频谱特征转化为高斯混合模型;将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间分析算法,求解通用投影矩阵;
2)训练说话人模型阶段包括以下步骤:
2-a)通过语音预处理和特征提取模块,将训练目标说话人的语音数据转化为频谱特征;
2-b)通过MAP算法,将步骤2-a)中的频谱特征转化为说话人高斯混合模型;
2-c)利用通用投影矩阵,计算说话人高斯混合模型的低维嵌入,并作为说话人模型;
3)测试阶段包括以下步骤:
3-a)通过语音预处理和特征提取模块,将待识别语音数据转化为频谱特征;
3-b)过MAP算法,将步骤3-a)中的频谱特征转化为高斯混合模型;
3-c)利用通用投影矩阵,计算待识别的语音对应的高斯混合模型的低维嵌入,并计算该低维嵌入与说话人模型的相关系数;
3-d)将该相关系数与预先估计好的阈值(在开发数据语音集上估计的阈值)进行比较,并给出识别结果。
上述步骤1-d)中,训练通用投影矩阵的语音数据有如下要求:(1)语音数据中有S个说话人;(2)对于每个说话人,对应Cs段语音。
上述步骤1-e)中,将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间分析算法,求解通用投影矩阵是本发明的重要部分。具体方法如下:
假设高斯混合模型的数学表示
λ={λi|ω,μi,∑i,1≤i≤M}    (1)
其中,ωi、μi和∑i分别是第i个混合分量的权重、均值和协方差矩阵。将λ各分量的均值向量按照序号排列成矩阵X=[μ1,μ2,…,μM](MAP算法中,从鲁棒性角度考虑,往往仅高斯混合模型的均值进行自适应。在自适应后的高斯混合模型中,仅均值蕴含用于区分说话人的信息,所以利用均值排列成矢量)。
采用张量子空间分析算法,求解通用投影矩阵{U,V}。具体步骤如下:
步骤1-e-1)随机初始化U矩阵;
步骤1-e-2)根据
Du的计算方法如下
D u = Σ i X i T UU T X i D ii
其中,Dii是中间变量,Dii的定义如下
D ii = Σ j A ij
A矩阵中各元素定义如下:如果Xi和Xj源于同一个说话人,Aij=1;如果Xi和Xj源于不同说话人,Aij=0。下标i,j代表语音段索引,其范围是1≤i≤N,1≤j≤N。N代表语音段数总数, N = Σ s = 1 S C s .
步骤1-e-3)求解前RM个最小的广义特征值Λ和对应的特征向量V,其中RM是矩阵V的秩
(Du-Au)V=ΛuDuV
得到V。
步骤1-e-4)根据V矩阵,计算Au和Du。Au的计算方法如下
A v = Σ i , j X i VV T X j T A ij
Du的计算方法如下
D v = Σ i X i VV T X i T D ii
步骤1-e-5)求解前RF个最小的特征值Λu和对应的特征向量U,其中RF是U矩阵的秩
(Du-Au)U=ΛuDuU
得到U。
步骤1-e-6)将步骤1-e-5)计算所得的U带入步骤1-e-2),迭代更新U和V,3至6次后,得到通用投影矩阵U和V。
所述步骤2-c)和步骤3-c)中,高斯混合模型的低维嵌入的计算方法如下:
Y=UXV
其中,Y代表低维嵌入。
所述步骤3-c)中,低维嵌入与说话人模型的相关系数ρ的计算方法如下:
ρ = Σ i = 1 R F Σ j = 1 R M y t , i y s , i , j | | Y t | | F | | Y s | | F
下标s代表说话人s,下标t代表测试,||·||F代表Frobenius范数,yi,j是Y中第i行第j列的元素。
本发明还提出实现上述方法一种基于张量子空间分析的说话人识别装置,如图3所示,该装置包括以下9个模块:
1)语音预处理模块:用于对语音降噪,分帧,预加重,输出相对纯净的语音信号。
2)特征提取模块:用于从语音预处理模块预处理后的语音中,提取频谱特征,包括梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC),或线性预测倒谱系数(Linearprediction coding cepstrum,LPCC),或感知线性预测(Perceptual linear predictive,PLP)。
3)训练通用背景高斯混合模型模块:根据特征提取模块提取的频谱特征,训练通用背景高斯混合模型。
4)自适应模块:根据特征提取模块提取出的频谱特征和训练通用背景高斯混合模型模块训练的通用背景高斯混合模型,采用MAP自适应算法,计算一段语音对应的高斯混合模型。
5)训练通用投影矩阵模块:根据自适应模块自适应计算的的高斯混合模型和对应的说话人标签,采用张量子空间分析算法,训练通用投影矩阵。
6)计算低维嵌入模块:根据训练通用投影矩阵模块训练的通用投影矩阵,计算高斯混合模型对应的低维嵌入矩阵。
7)计算相关系数模块:用于计算目标说话人语音对应的低维嵌入矩阵和待识别语音的低维嵌入矩阵的相关系数。
8)分数判决模块:将计算相关系数模块计算所得的相关系数与某个阈值进行比较,并给出识别结果。
9)存储模块,用于存储训练通用背景高斯混合模型模块、训练通用投影矩阵模块和计算低维嵌入模块的数据并将相应数据传给相应模块。
上述各模块均可用常规的数字集成电路实现。

Claims (5)

1.一种基于张量子空间分析的说话人识别方法,其特征在于,该方法包括:训练通用模型阶段、训练说话人模型阶段和测试阶段;其特征在于,
1)训练通用模型阶段包括以下步骤:
1-a)通过语音预处理和特征提取,将训练通用背景高斯混合模型的语音数据转化为频谱特征;
1-b)基于所提取的频谱特征,采用K-means或LBG算法,对通用背景高斯混合模型初始化;
1-c)利用最大期望算法更新步骤1-b)初始化的通用背景高斯混合模型;
1-d)通过语音预处理和特征提取,将训练通用投影矩阵的语音数据转化为频谱特征;
1-e)通过最大后验概率算法,将频谱特征转化为高斯混合模型;将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间分析算法,求解通用投影矩阵;
2)训练说话人模型阶段包括以下步骤:
2-a)通过语音预处理和特征提取模块,将训练目标说话人的语音数据转化为频谱特征;
2-b)通过MAP算法,将步骤2-a)中的频谱特征转化为说话人高斯混合模型;
2-c)利用通用投影矩阵,计算说话人高斯混合模型的低维嵌入,并作为说话人模型;
3)测试阶段包括以下步骤:
3-a)通过语音预处理和特征提取模块,将待识别语音数据转化为频谱特征;
3-b)过MAP算法,将步骤3-a)中的频谱特征转化为高斯混合模型;
3-c)利用通用投影矩阵,计算待识别的语音对应的高斯混合模型的低维嵌入,并计算该低维嵌入与说话人模型的相关系数;
3-d)将该相关系数与预先估计好的阈值进行比较,并给出识别结果。
2.如权利要求1所述基于张量子空间分析的说话人识别方法,其特征在于,所述步骤1-e)中,将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间分析算法,求解通用投影矩阵的具体方法如下:
假设高斯混合模型的数学表示
λ={λi|ω,μi,∑i,1≤i≤M}    (1)
其中,ωi、μi和∑i分别是第i个混合分量的权重、均值和协方差矩阵;将λ各分量的均值向量按照序号排列成矩阵X=[μ1,μ2,…,μM];
采用张量子空间分析算法,求解通用投影矩阵{U,V}。具体步骤如下:
步骤1-e-1)随机初始化U矩阵;
步骤1-e-2)根据U矩阵,计算中间变量Au和Du
Au的计算方法如下
A u = Σ i , j n X ′ i T UU T X j ′ A ij
Du的计算方法如下
D u = Σ i X i T UU T X i D ii
其中,Dii是中间变量,Dii的定义如下
D ii = Σ j A ij
A矩阵中各元素定义如下:如果Xi和Xj源于同一个说话人,Aij=1;如果Xi和Xj源于不同说话人,Aij=0;下标i,j代表语音段索引,其范围是1≤i≤N,1≤j≤N,N代表语音段数总数,
Figure FDA00001795385600024
步骤1-e-3)求解前RM个最小的广义特征值Λ和对应的特征向量V,其中RM是矩阵V的秩
(Du-Au)V=ΛuDuV
得到V;
步骤1-e-4)根据V矩阵,计算中间变量Au和Du
Au的计算方法如下
A v = Σ i , j X i VV T X j T A ij
Du的计算方法如下
D v = Σ i X i VV T X i T D ii
步骤1-e-5)求解前RF个最小的特征值Λu和对应的特征向量U,其中RF是U矩阵的秩
(Du-Au)U=ΛuDuU
得到U;
步骤1-e-6)将步骤1-e-5)计算所得的U带入步骤1-e-2),迭代更新U和V,3至6次后,得到通用投影矩阵U和V。
3.如权利要求1所述基于张量子空间分析的说话人识别方法,其特征在于,所述步骤2-c)和步骤3-c)中,高斯混合模型的低维嵌入的计算方法如下:
Y=UXV
其中,Y代表低维嵌入。
4.如权利要求1所述基于张量子空间分析的说话人识别方法,其特征在于,所述步骤3-c)中,低维嵌入与说话人模型的相关系数ρ的计算方法如下:
ρ = Σ i = 1 R F Σ j = 1 R M y t , i y s , i , j | | Y t | | F | | Y s | | F
下标s代表说话人s,下标t代表测试,||·||F代表Frobenius范数,yi,j代表Y中第i行第j列的元素。
5.一种采用如权利要求1所述方法的基于张量子空间分析的说话人识别装置,其特征在于,该装置包括以下9个模块:
(1)语音预处理模块:用于对语音降噪,分帧,预加重,输出相对纯净的语音信号;
(2)特征提取模块:用于从语音预处理模块预处理后的语音中,提取频谱特征,包括梅尔频率倒谱系数,或线性预测倒谱系数,或感知线性预测;
(3)训练通用背景高斯混合模型模块:根据特征提取模块提取的频谱特征,训练通用背景高斯混合模型;
(4)自适应模块:根据特征提取模块提取出的频谱特征和训练通用背景高斯混合模型模块训练的通用背景高斯混合模型,采用MAP自适应算法,计算一段语音对应的高斯混合模型;
(5)训练通用投影矩阵模块:根据自适应模块自适应计算的的高斯混合模型和对应的说话人标签,采用张量子空间分析算法,训练通用投影矩阵;
(6)计算低维嵌入模块:根据训练通用投影矩阵模块训练的通用投影矩阵,计算高斯混合模型对应的低维嵌入矩阵;
(7)计算相关系数模块:用于计算目标说话人语音对应的低维嵌入矩阵和待识别语音的低维嵌入矩阵的相关系数;
(8)分数判决模块:将计算相关系数模块计算所得的相关系数与某个阈值进行比较,并给出识别结果;
(9)存储模块:用于存储训练通用背景高斯混合模型模块、训练通用投影矩阵模块和计算低维嵌入模块的数据并将相应数据传给相应模块。
CN 201210212597 2012-06-21 2012-06-21 一种基于张量子空间分析的说话人识别方法及其装置 Active CN102737633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210212597 CN102737633B (zh) 2012-06-21 2012-06-21 一种基于张量子空间分析的说话人识别方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210212597 CN102737633B (zh) 2012-06-21 2012-06-21 一种基于张量子空间分析的说话人识别方法及其装置

Publications (2)

Publication Number Publication Date
CN102737633A true CN102737633A (zh) 2012-10-17
CN102737633B CN102737633B (zh) 2013-12-25

Family

ID=46993006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210212597 Active CN102737633B (zh) 2012-06-21 2012-06-21 一种基于张量子空间分析的说话人识别方法及其装置

Country Status (1)

Country Link
CN (1) CN102737633B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103117059A (zh) * 2012-12-27 2013-05-22 北京理工大学 一种基于张量分解的语音信号特征提取方法
CN104064189A (zh) * 2014-06-26 2014-09-24 厦门天聪智能软件有限公司 一种声纹动态口令的建模和验证方法
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
CN103985381B (zh) * 2014-05-16 2016-09-21 清华大学 一种基于参数融合优化决策的音频索引方法
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN106844295A (zh) * 2017-02-13 2017-06-13 中国科学技术大学 一种基于压缩传感的量子态重构方法及系统
WO2017166651A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 语音识别模型训练方法、说话人类型识别方法及装置
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
WO2018095167A1 (zh) * 2016-11-22 2018-05-31 北京京东尚科信息技术有限公司 声纹识别方法和声纹识别系统
CN108922544A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN109065022A (zh) * 2018-06-06 2018-12-21 平安科技(深圳)有限公司 i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN110010137A (zh) * 2019-04-04 2019-07-12 杭州电子科技大学 一种基于张量结构及稀疏表示的说话人确认方法及系统
CN110831029A (zh) * 2018-08-13 2020-02-21 华为技术有限公司 一种模型的优化方法和分析网元
CN111508505A (zh) * 2020-04-28 2020-08-07 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质
CN111524502A (zh) * 2020-05-27 2020-08-11 科大讯飞股份有限公司 一种语种检测方法、装置、设备及存储介质
CN111902865A (zh) * 2018-12-03 2020-11-06 谷歌有限责任公司 文本无关的说话者识别
CN112489678A (zh) * 2020-11-13 2021-03-12 苏宁云计算有限公司 一种基于信道特征的场景识别方法及装置
CN113409804A (zh) * 2020-12-22 2021-09-17 声耕智能科技(西安)研究院有限公司 一种基于变张成广义子空间的多通道频域语音增强算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007098039A1 (en) * 2006-02-20 2007-08-30 Microsoft Corporation Speaker authentication
KR100864828B1 (ko) * 2006-12-06 2008-10-23 한국전자통신연구원 화자의 음성 특징 정보를 이용한 화자 정보 획득 시스템 및그 방법
CN101814159A (zh) * 2009-02-24 2010-08-25 余华 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007098039A1 (en) * 2006-02-20 2007-08-30 Microsoft Corporation Speaker authentication
KR100864828B1 (ko) * 2006-12-06 2008-10-23 한국전자통신연구원 화자의 음성 특징 정보를 이용한 화자 정보 획득 시스템 및그 방법
CN101814159A (zh) * 2009-02-24 2010-08-25 余华 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103117059B (zh) * 2012-12-27 2015-05-06 内蒙古科技大学 一种基于张量分解的语音信号特征提取方法
CN103117059A (zh) * 2012-12-27 2013-05-22 北京理工大学 一种基于张量分解的语音信号特征提取方法
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
CN105765650B (zh) * 2013-09-27 2019-08-06 亚马逊技术公司 带有多向解码的语音辨识器
CN103985381B (zh) * 2014-05-16 2016-09-21 清华大学 一种基于参数融合优化决策的音频索引方法
CN104064189A (zh) * 2014-06-26 2014-09-24 厦门天聪智能软件有限公司 一种声纹动态口令的建模和验证方法
WO2017166651A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 语音识别模型训练方法、说话人类型识别方法及装置
WO2018095167A1 (zh) * 2016-11-22 2018-05-31 北京京东尚科信息技术有限公司 声纹识别方法和声纹识别系统
CN106844295A (zh) * 2017-02-13 2017-06-13 中国科学技术大学 一种基于压缩传感的量子态重构方法及系统
US10957339B2 (en) 2017-03-10 2021-03-23 Baidu Online Network Technology (Beijing) Co., Ltd. Speaker recognition method and apparatus, computer device and computer-readable medium
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN109065022A (zh) * 2018-06-06 2018-12-21 平安科技(深圳)有限公司 i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN109065022B (zh) * 2018-06-06 2022-08-09 平安科技(深圳)有限公司 i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN108922544A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN110831029A (zh) * 2018-08-13 2020-02-21 华为技术有限公司 一种模型的优化方法和分析网元
CN110831029B (zh) * 2018-08-13 2021-06-22 华为技术有限公司 一种模型的优化方法和分析网元
CN111902865A (zh) * 2018-12-03 2020-11-06 谷歌有限责任公司 文本无关的说话者识别
CN111902865B (zh) * 2018-12-03 2024-07-12 谷歌有限责任公司 文本无关的说话者识别
CN110010137B (zh) * 2019-04-04 2021-09-28 杭州电子科技大学 一种基于张量结构及稀疏表示的说话人确认方法及系统
CN110010137A (zh) * 2019-04-04 2019-07-12 杭州电子科技大学 一种基于张量结构及稀疏表示的说话人确认方法及系统
CN111508505A (zh) * 2020-04-28 2020-08-07 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质
CN111508505B (zh) * 2020-04-28 2023-11-03 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质
CN111524502A (zh) * 2020-05-27 2020-08-11 科大讯飞股份有限公司 一种语种检测方法、装置、设备及存储介质
CN111524502B (zh) * 2020-05-27 2024-04-30 科大讯飞股份有限公司 一种语种检测方法、装置、设备及存储介质
CN112489678A (zh) * 2020-11-13 2021-03-12 苏宁云计算有限公司 一种基于信道特征的场景识别方法及装置
CN112489678B (zh) * 2020-11-13 2023-12-05 深圳市云网万店科技有限公司 一种基于信道特征的场景识别方法及装置
CN113409804A (zh) * 2020-12-22 2021-09-17 声耕智能科技(西安)研究院有限公司 一种基于变张成广义子空间的多通道频域语音增强算法

Also Published As

Publication number Publication date
CN102737633B (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
CN102737633A (zh) 一种基于张量子空间分析的说话人识别方法及其装置
CN110310647B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
Li et al. Adversarial attacks on GMM i-vector based speaker verification systems
CN102238190B (zh) 身份认证方法及系统
WO2019237519A1 (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN110147548B (zh) 基于双向门控循环单元网络和新型网络初始化的情感识别方法
CN110534101B (zh) 一种基于多模融合深度特征的移动设备源识别方法及系统
Estellers et al. Multi-pose lipreading and audio-visual speech recognition
JP7124427B2 (ja) マルチビューベクトルの処理方法及び装置
Kryszczuk et al. Reliability-based decision fusion in multimodal biometric verification systems
CN104538035A (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN109065022A (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
Omar et al. Training Universal Background Models for Speaker Recognition.
CN110047504A (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN103714340B (zh) 基于图像分块的自适应特征提取方法
CN113886792A (zh) 一种声纹识别和人脸识别相结合的印控仪应用方法和系统
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
Shah et al. Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion.
Alam et al. Linear regression-based classifier for audio visual person identification
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
JP2002082694A (ja) 先行知識に基づく話者確認および話者識別
Allano et al. Nonintrusive multibiometrics on a mobile device: a comparison of fusion techniques
CN105930878A (zh) 一种基于差分切片能量图和稀疏编码的微表情识别方法
CN108694950B (zh) 一种基于深度混合模型的说话人确认方法
Anand et al. Text-independent speaker recognition for Ambient Intelligence applications by using information set features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20171023

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: 100083 Beijing Haidian District Xueyuan Road 20 refining and chemical building three layer 330 (petroleum compound)

Patentee before: Beijing Huaxin Hengda Software Technology Co., Ltd.

TR01 Transfer of patent right