CN102737633A - 一种基于张量子空间分析的说话人识别方法及其装置 - Google Patents
一种基于张量子空间分析的说话人识别方法及其装置 Download PDFInfo
- Publication number
- CN102737633A CN102737633A CN2012102125977A CN201210212597A CN102737633A CN 102737633 A CN102737633 A CN 102737633A CN 2012102125977 A CN2012102125977 A CN 2012102125977A CN 201210212597 A CN201210212597 A CN 201210212597A CN 102737633 A CN102737633 A CN 102737633A
- Authority
- CN
- China
- Prior art keywords
- msub
- mrow
- module
- matrix
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 107
- 239000000203 mixture Substances 0.000 claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 75
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 230000003044 adaptive effect Effects 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims description 26
- 230000003595 spectral effect Effects 0.000 claims description 26
- 238000001228 spectrum Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及自动语音识别领域,特别是一种基于张量子空间分析的说话人识别方法和装置。该方法包括:通过语音数据,训练通用背景高斯混合模型和通用投影矩阵。随后,利用训练好的通用模型和目标说话人的语音建立说话人模型。最后,计算目标说话人模型和测试语音的低维嵌入矩阵的相关系数,并依此作为说话人识别的依据。该装置包括:语音预处理模块、特征提取模块、训练通用背景高斯混合模型模块、自适应模块、训练通用投影矩阵模块、计算低维嵌入模块、计算相关系数模块、分数判决模块和存储模块。本发明能够明显降低说话人建模时的运算量,并且具有模型自由度低、鲁棒性强等特点,适用于语音长度有限情况下的文本无关说话人识别。
Description
技术领域
本发明涉及语音识别、模式识别和子空间分析领域,具体地说,是一种基于张量子空间分析的说话人识别方法与装置。
背景技术
说话人识别,也称为声纹识别,是利用计算机,根据语音自动判断说话人身份的生物特征识别技术。根据不同的应用场景,说话人识别技术有多种分类方法:根据语音内容是否已知,说话人识别可分为文本相关的和文本无关的。根据识别任务的不同,说话人识别可分为说话人辨识和说话人确认。说话人识别技术主要应用在安全监控、刑侦司法和电子商务等领域。
近年来,主流的文本无关的说话人辨识(以下简称说话人识别)技术均基于Douglas A.Reynolds在2000年提出的高斯混合模型-通用背景模型(Gaussian mixture model-universalbackground models,GMM-UBM)说话人识别系统。GMM-UBM系统从说话人识别角度,提出了衡量两段语音相似程度的理论框架和实施方法,具有里程碑式的意义。随后十一年中,围绕GMM-UBM系统,诸多学者和业内人士提出了各种改进技术,例如,高斯混合模型-支持向量机(Support vector machine,SVM)、无用分量投影(Nuisance attributeprojection,NAP)、联合因子分析(Joint factor analysis,JFA)和I-vector技术等。这些技术的本质都是将说话人高斯混合模型向一个高维向量空间进行映射。该高维空间又可称为再生核希尔伯特空间(Reproducing kernel Hilbert space,RKHS)。通过在RKHS中选取合适的度量,计算两段高维矢量的相似程度,从而达到衡量两段语音相似程度的目的。
将说话人高斯混合模型映射成为一个超矢量有如下的问题:(1)计算复杂度大。令F代表频谱特征维数,M代表高斯混合模型数,则映射的高维矢量维数为F×M。为了在RKHS中,选择合适的度量,一般要求解(F×M)×(F×M)对称实矩阵的特征值和特征向量。在一个典型场景中,M=1024、F=39。求解39936×39936维实对称矩阵的特征值和特征向量是难以在现有通用计算平台上实现的。虽然采用核主成分分析(Kernel principlecomponent analysis,KPCA)和迭代求解算法能在一定程度上缓解计算压力,但也具有相当的计算量;(2)需要较多数据才能训练出稳健的模型。令上述技术所求的信道子空间维数为R,则训练出的投影矩阵(正交投影或近似的斜投影)是(M×F)×R维矩阵。投影矩阵所含的参数较多,进而要求有较多训练数据才能稳健估值。
以基于无用分量空间投影(Nuisance attribute projection,NAP)说话人识别系统为例,NAP系统需要的数据,按功能划分有如下五个部分:(1)训练通用背景高斯混合模型的语音数据;(2)训练NAP矩阵的语音数据;(3)训练目标说话人的语音数据;(4)SVM反模型语音数据;(5)待识别语音数据。
已有的基于NAP的文本无关说话人识别方法的主要流程如图1所示,包括训练通用模型阶段、训练说话人模型阶段和测试阶段,其中:
1)训练通用模型阶段,包括以下步骤:
1-a)通过语音预处理和特征提取,将训练通用背景高斯混合模型的语音数据转化为频谱特征;
1-b)基于所提取的频谱特征,采用K-means或LBG算法,对通用背景高斯混合模型初始化;
1-c)利用最大期望算法(Expectation maximum,EM)更新步骤1-b)初始化的通用背景高斯混合模型,一般而言,迭代8次即可;
1-d)通过语音预处理和特征提取,将训练NAP矩阵的语音数据转化为频谱特征;
1-e)通过最大后验概率(Maximum A Posterior,MAP)算法,利用步骤1-c)更新所得的通用背景高斯混合模型,将训练NAP矩阵的频谱特征先转化为高斯混合模型,再转化成超矢量;
1-f)通过NAP矩阵求解算法,利用步骤1-e)所得的超矢量训练NAP矩阵;至此,通用背景高斯混合模型和NAP矩阵合称为通用模型。
2)训练说话人模型阶段:
2-a)通过语音预处理和特征提取模块,将训练目标说话人的语音数据和SVM反模型语音数据转化为频谱特征;
2-b)通过MAP算法,将步骤2-a)中的频谱特征转化为高斯混合模型;
2-c)利用步骤1-f)训练好的NAP矩阵,将步骤2-b)的高斯混合模型展成超矢量,并进行投影;
2-d)对步骤2-c)所得的超矢量,利用SVM训练算法,训练目标说话人模型。
3)测试阶段:
3-a)通过语音预处理和特征提取模块,将待识别语音转化为频谱特征;
3-b)通过MAP算法,将步骤3-a)中的频谱特征转化为高斯混合模型;
3-c)利用步骤1-f)训练好的NAP矩阵,将步骤3-b)的高斯混合模型展成超矢量,并利用NAP矩阵进行投影;
3-d)利用步骤2-d)训练所得的目标人模型和步骤3-c)中所得的、投影后的超矢量,根据SVM测试表达式计算相似分数;
3-e)将步骤3-d)计算所得的分数与预先估计好的阈值(该阈值可以在一开发集上估计得到)进行比较,并给出识别结果。
上述步骤中,最为关键的一个步骤是NAP矩阵求解算法,即步骤1-f)。该算法具体过程如下:
NAP矩阵的目标函数是:经过投影,同一个说话人对应的多段超矢量之间的方差应尽量小
式(1)中s代表说话人索引,S代表训练NAP矩阵的语音数据中说话人的总数;c和c′代表属于同一说话人s的两段不同语音,Cs代表对于说话人s,共有Cs段语音;Ps代表NAP投影矩阵,Uc是线性矩阵;ms,c代表上述步骤中所提到的超矢量。忽略式(1)中的常数项,可得
为了求解Ps,需要求解
基于NAP的文本无关说话人识别装置主要包含如下几个模块:
1)语音预处理模块:用于对语音降噪,分帧,预加重,输出相对纯净的语音信号;
2)特征提取模块:用于从预处理后的语音中,提取频谱特征;
3)训练通用背景高斯混合模型模块:根据提取的频谱特征,训练通用背景高斯混合模型;
4)自适应模块:根据提取出的频谱特征和通用背景高斯混合模型,采用MAP自适应算法,计算一段语音对应的高斯混合模型;
5)训练NAP投影矩阵模块:根据自适应的高斯混合模型和对应的说话人标签,采用NAP求解算法,训练NAP矩阵;
6)计算投影模块:根据模块4)输出的高斯混合模型和模块5)输出的NAP矩阵,计算投影后的超矢量;
7)SVM训练模块:根据标准SVM训练算法和计算投影模块6)输出的超矢量,建立目标说话人模型;
8)SVM判决模块:根据目标说话人模型和投影后的超矢量,计算相似分数;
9)存储模块。
在上述训练NAP投影矩阵模块5)中,涉及到求解高维的实对称矩阵过程,不仅需要较多的训练数据才能准确估计,更要消耗大量的运算。说话人识别的正确率和训练语音的长短、测试语音的长短都是有很密切的关系。语音越长,识别任务就越简单,识别率就越高。在实际应用过程中,都会要求用户提供尽可能长的语音。然而,在很多应用场景,用户能提供的语音长度是有限的。其语音长度,既达不到期望的长度,其长度也不是很短,通常为30-90秒,故称这种语音是一种有限长度的语音。
张量子空间分析(Tensor subspace analysis)起源于人脸识别,假设一副人脸图像可以用二维矩阵X′s,c 表示,其中下标s代表该图像与某人s相关,下标c代表该图像是该人的第c个照片,F′和M′代表一张图片的两个维度。张量子空间分析的目标函数是使得同一个人多幅人脸图像的低维嵌入Y′s,c(R′F<F′,R′M<M′,R′F和F′M是降秩后的维数)尽可能近。
假设高维张量矩阵向低维嵌入的映射是线性的,令通用投影矩阵为U和V,Y′s,c=UX′s,cV。根据上述的目标函数,
其中,||·||F是Frobenius范数。将Y′s,c=UX′s,cV带入上式,可得
由于U和V都是变量,使得上式求解存在一定的难度。一般通过迭代法解决上述问题。具体做法是:先固定U,根据目标函数求解V;再固定V,根据目标函数求解U。当一个矩阵固定,求解另一个矩阵是广义特征值、特征向量求解问题。
以固定矩阵U为例,考虑V的求解算法。为了求解式(6),需要将X′s,c进行重排,其下标索引为1≤i≤N,并引入A矩阵。A矩阵中各元素定义如下:如果X′i和X′j源于同一个人,Aij=1;如果X′i和X′j源于不同人,Aij=0。则式(6)可以重写为
其中,
为了保证投影后,不同类之间的差异尽量大,需要最大化投影后各类之间的方差,即
将式(7)和式(11)联合求解,
通过求解式(12),即可得到对V的估计。公示(12)表明,对V的估计是求解M×M实对称矩阵的广义特征值和广义特征向量。
对U的估计与对V的估计方法类似。
发明内容
本发明的目的是为了解决已有技术的不足,公开提供了一种基于张量子空间分析的说话人识别方法与装置。本发明可以有效降低运算量,降低训练数据的要求,使得利用相对较少的训练数据和更低的计算复杂度,就能达到去除信道影响的目的,适用于有限长度的语音识别任务,适用于实际的应用需求。
本发明提出的一种基于张量子空间分析的说话人识别方法,其特征在于,该方法包括:训练通用模型阶段、训练说话人模型阶段和测试阶段;其特征在于,
1)训练通用模型阶段包括以下步骤:
1-a)通过语音预处理和特征提取,将训练通用背景高斯混合模型的语音数据转化为频谱特征;
1-b)基于所提取的频谱特征,采用K-means或LBG算法,对通用背景高斯混合模型初始化;
1-c)利用最大期望算法更新步骤1-b)初始化的通用背景高斯混合模型;
1-d)通过语音预处理和特征提取,将训练通用投影矩阵的语音数据转化为频谱特征;
1-e)通过最大后验概率算法,将频谱特征转化为高斯混合模型;将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间分析算法,求解通用投影矩阵;
2)训练说话人模型阶段包括以下步骤:
2-a)通过语音预处理和特征提取模块,将训练目标说话人的语音数据转化为频谱特征;
2-b)通过MAP算法,将步骤2-a)中的频谱特征转化为说话人高斯混合模型;
2-c)利用通用投影矩阵,计算说话人高斯混合模型的低维嵌入,并作为说话人模型;
3)测试阶段包括以下步骤:
3-a)通过语音预处理和特征提取模块,将待识别语音数据转化为频谱特征;
3-b)过MAP算法,将步骤3-a)中的频谱特征转化为高斯混合模型;
3-c)利用通用投影矩阵,计算待识别的语音对应的高斯混合模型的低维嵌入,并计算该低维嵌入与说话人模型的相关系数;
3-d)将该相关系数与预先估计好的阈值进行比较,并给出识别结果。
本发明还提出采用上述方法的基于张量子空间分析的说话人识别装置,其特征在于,该装置包括以下9个模块:
(1)语音预处理模块:用于对语音降噪,分帧,预加重,输出相对纯净的语音信号;
(2)特征提取模块:用于从语音预处理模块预处理后的语音中,提取频谱特征,包括梅尔频率倒谱系数,或线性预测倒谱系数,或感知线性预测;
(3)训练通用背景高斯混合模型模块:根据特征提取模块提取的频谱特征,训练通用背景高斯混合模型;
(4)自适应模块:根据特征提取模块提取出的频谱特征和训练通用背景高斯混合模型模块训练的通用背景高斯混合模型,采用MAP自适应算法,计算一段语音对应的高斯混合模型;
(5)训练通用投影矩阵模块:根据自适应模块自适应计算的的高斯混合模型和对应的说话人标签,采用张量子空间分析算法,训练通用投影矩阵;
(6)计算低维嵌入模块:根据训练通用投影矩阵模块训练的通用投影矩阵,计算高斯混合模型对应的低维嵌入矩阵;
(7)计算相关系数模块:用于计算目标说话人语音对应的低维嵌入矩阵和待识别语音的低维嵌入矩阵的相关系数;
(8)分数判决模块:将计算相关系数模块计算所得的相关系数与某个阈值进行比较,并给出识别结果;
(9)存储模块:用于存储训练通用背景高斯混合模型模块、训练通用投影矩阵模块和计算低维嵌入模块的数据并将相应数据传给相应模块。
本发明的特点及有益效果:
(1)与传统方法相比,本发明方法将张量子空间分析应用到说话人识别系统上。只需要求解低维实对称矩阵的特征值和特征向量,避免了求解高维实对称矩阵的特征值和特征向量,可以大幅度降低计算量。
(2)建模方法复杂度低,用较少的数据就能稳健的建立模型。适用于有限长度语音的文本无关的说话人辨识问题。在训练语音和测试语音较少的情况下,本发明方法能更好的完成说话人辨识任务,符合实际应用的需求。
附图说明
图1是已有的基于NAP的文本无关说话人识别方法的流程框图。
图2是本发明的方法流程框图。
图3是本发明的装置结构框图。
具体实施方式
本发明提出的一种基于张量子空间分析的说话人识别方法及其装置,结合附图及实施例详细说明如下。
本发明提出的一种基于张量子空间分析的说话人识别方法,如图2所示,该方法包括:训练通用模型阶段、训练说话人模型阶段和测试阶段;其特征在于,
1)训练通用模型阶段包括以下步骤:
1-a)通过语音预处理和特征提取,将训练通用背景高斯混合模型的语音数据转化为频谱特征;
1-b)基于所提取的频谱特征,采用K-means或LBG算法,对通用背景高斯混合模型初始化;
1-c)利用最大期望算法(Expectation maximum,EM)更新步骤1-b)初始化的通用背景高斯混合模型;
1-d)通过语音预处理和特征提取,将训练通用投影矩阵的语音数据转化为频谱特征;
1-e)通过最大后验概率(Maximum A Posterior,MAP)算法,将频谱特征转化为高斯混合模型;将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间分析算法,求解通用投影矩阵;
2)训练说话人模型阶段包括以下步骤:
2-a)通过语音预处理和特征提取模块,将训练目标说话人的语音数据转化为频谱特征;
2-b)通过MAP算法,将步骤2-a)中的频谱特征转化为说话人高斯混合模型;
2-c)利用通用投影矩阵,计算说话人高斯混合模型的低维嵌入,并作为说话人模型;
3)测试阶段包括以下步骤:
3-a)通过语音预处理和特征提取模块,将待识别语音数据转化为频谱特征;
3-b)过MAP算法,将步骤3-a)中的频谱特征转化为高斯混合模型;
3-c)利用通用投影矩阵,计算待识别的语音对应的高斯混合模型的低维嵌入,并计算该低维嵌入与说话人模型的相关系数;
3-d)将该相关系数与预先估计好的阈值(在开发数据语音集上估计的阈值)进行比较,并给出识别结果。
上述步骤1-d)中,训练通用投影矩阵的语音数据有如下要求:(1)语音数据中有S个说话人;(2)对于每个说话人,对应Cs段语音。
上述步骤1-e)中,将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间分析算法,求解通用投影矩阵是本发明的重要部分。具体方法如下:
假设高斯混合模型的数学表示
λ={λi|ω,μi,∑i,1≤i≤M} (1)
其中,ωi、μi和∑i分别是第i个混合分量的权重、均值和协方差矩阵。将λ各分量的均值向量按照序号排列成矩阵X=[μ1,μ2,…,μM](MAP算法中,从鲁棒性角度考虑,往往仅高斯混合模型的均值进行自适应。在自适应后的高斯混合模型中,仅均值蕴含用于区分说话人的信息,所以利用均值排列成矢量)。
采用张量子空间分析算法,求解通用投影矩阵{U,V}。具体步骤如下:
步骤1-e-1)随机初始化U矩阵;
步骤1-e-2)根据
Du的计算方法如下
其中,Dii是中间变量,Dii的定义如下
A矩阵中各元素定义如下:如果Xi和Xj源于同一个说话人,Aij=1;如果Xi和Xj源于不同说话人,Aij=0。下标i,j代表语音段索引,其范围是1≤i≤N,1≤j≤N。N代表语音段数总数,
步骤1-e-3)求解前RM个最小的广义特征值Λ和对应的特征向量V,其中RM是矩阵V的秩
(Du-Au)V=ΛuDuV
得到V。
步骤1-e-4)根据V矩阵,计算Au和Du。Au的计算方法如下
Du的计算方法如下
步骤1-e-5)求解前RF个最小的特征值Λu和对应的特征向量U,其中RF是U矩阵的秩
(Du-Au)U=ΛuDuU
得到U。
步骤1-e-6)将步骤1-e-5)计算所得的U带入步骤1-e-2),迭代更新U和V,3至6次后,得到通用投影矩阵U和V。
所述步骤2-c)和步骤3-c)中,高斯混合模型的低维嵌入的计算方法如下:
Y=UXV
其中,Y代表低维嵌入。
所述步骤3-c)中,低维嵌入与说话人模型的相关系数ρ的计算方法如下:
下标s代表说话人s,下标t代表测试,||·||F代表Frobenius范数,yi,j是Y中第i行第j列的元素。
本发明还提出实现上述方法一种基于张量子空间分析的说话人识别装置,如图3所示,该装置包括以下9个模块:
1)语音预处理模块:用于对语音降噪,分帧,预加重,输出相对纯净的语音信号。
2)特征提取模块:用于从语音预处理模块预处理后的语音中,提取频谱特征,包括梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC),或线性预测倒谱系数(Linearprediction coding cepstrum,LPCC),或感知线性预测(Perceptual linear predictive,PLP)。
3)训练通用背景高斯混合模型模块:根据特征提取模块提取的频谱特征,训练通用背景高斯混合模型。
4)自适应模块:根据特征提取模块提取出的频谱特征和训练通用背景高斯混合模型模块训练的通用背景高斯混合模型,采用MAP自适应算法,计算一段语音对应的高斯混合模型。
5)训练通用投影矩阵模块:根据自适应模块自适应计算的的高斯混合模型和对应的说话人标签,采用张量子空间分析算法,训练通用投影矩阵。
6)计算低维嵌入模块:根据训练通用投影矩阵模块训练的通用投影矩阵,计算高斯混合模型对应的低维嵌入矩阵。
7)计算相关系数模块:用于计算目标说话人语音对应的低维嵌入矩阵和待识别语音的低维嵌入矩阵的相关系数。
8)分数判决模块:将计算相关系数模块计算所得的相关系数与某个阈值进行比较,并给出识别结果。
9)存储模块,用于存储训练通用背景高斯混合模型模块、训练通用投影矩阵模块和计算低维嵌入模块的数据并将相应数据传给相应模块。
上述各模块均可用常规的数字集成电路实现。
Claims (5)
1.一种基于张量子空间分析的说话人识别方法,其特征在于,该方法包括:训练通用模型阶段、训练说话人模型阶段和测试阶段;其特征在于,
1)训练通用模型阶段包括以下步骤:
1-a)通过语音预处理和特征提取,将训练通用背景高斯混合模型的语音数据转化为频谱特征;
1-b)基于所提取的频谱特征,采用K-means或LBG算法,对通用背景高斯混合模型初始化;
1-c)利用最大期望算法更新步骤1-b)初始化的通用背景高斯混合模型;
1-d)通过语音预处理和特征提取,将训练通用投影矩阵的语音数据转化为频谱特征;
1-e)通过最大后验概率算法,将频谱特征转化为高斯混合模型;将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间分析算法,求解通用投影矩阵;
2)训练说话人模型阶段包括以下步骤:
2-a)通过语音预处理和特征提取模块,将训练目标说话人的语音数据转化为频谱特征;
2-b)通过MAP算法,将步骤2-a)中的频谱特征转化为说话人高斯混合模型;
2-c)利用通用投影矩阵,计算说话人高斯混合模型的低维嵌入,并作为说话人模型;
3)测试阶段包括以下步骤:
3-a)通过语音预处理和特征提取模块,将待识别语音数据转化为频谱特征;
3-b)过MAP算法,将步骤3-a)中的频谱特征转化为高斯混合模型;
3-c)利用通用投影矩阵,计算待识别的语音对应的高斯混合模型的低维嵌入,并计算该低维嵌入与说话人模型的相关系数;
3-d)将该相关系数与预先估计好的阈值进行比较,并给出识别结果。
2.如权利要求1所述基于张量子空间分析的说话人识别方法,其特征在于,所述步骤1-e)中,将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间分析算法,求解通用投影矩阵的具体方法如下:
假设高斯混合模型的数学表示
λ={λi|ω,μi,∑i,1≤i≤M} (1)
其中,ωi、μi和∑i分别是第i个混合分量的权重、均值和协方差矩阵;将λ各分量的均值向量按照序号排列成矩阵X=[μ1,μ2,…,μM];
采用张量子空间分析算法,求解通用投影矩阵{U,V}。具体步骤如下:
步骤1-e-1)随机初始化U矩阵;
步骤1-e-2)根据U矩阵,计算中间变量Au和Du;
Au的计算方法如下
Du的计算方法如下
其中,Dii是中间变量,Dii的定义如下
步骤1-e-3)求解前RM个最小的广义特征值Λ和对应的特征向量V,其中RM是矩阵V的秩
(Du-Au)V=ΛuDuV
得到V;
步骤1-e-4)根据V矩阵,计算中间变量Au和Du;
Au的计算方法如下
Du的计算方法如下
步骤1-e-5)求解前RF个最小的特征值Λu和对应的特征向量U,其中RF是U矩阵的秩
(Du-Au)U=ΛuDuU
得到U;
步骤1-e-6)将步骤1-e-5)计算所得的U带入步骤1-e-2),迭代更新U和V,3至6次后,得到通用投影矩阵U和V。
3.如权利要求1所述基于张量子空间分析的说话人识别方法,其特征在于,所述步骤2-c)和步骤3-c)中,高斯混合模型的低维嵌入的计算方法如下:
Y=UXV
其中,Y代表低维嵌入。
4.如权利要求1所述基于张量子空间分析的说话人识别方法,其特征在于,所述步骤3-c)中,低维嵌入与说话人模型的相关系数ρ的计算方法如下:
下标s代表说话人s,下标t代表测试,||·||F代表Frobenius范数,yi,j代表Y中第i行第j列的元素。
5.一种采用如权利要求1所述方法的基于张量子空间分析的说话人识别装置,其特征在于,该装置包括以下9个模块:
(1)语音预处理模块:用于对语音降噪,分帧,预加重,输出相对纯净的语音信号;
(2)特征提取模块:用于从语音预处理模块预处理后的语音中,提取频谱特征,包括梅尔频率倒谱系数,或线性预测倒谱系数,或感知线性预测;
(3)训练通用背景高斯混合模型模块:根据特征提取模块提取的频谱特征,训练通用背景高斯混合模型;
(4)自适应模块:根据特征提取模块提取出的频谱特征和训练通用背景高斯混合模型模块训练的通用背景高斯混合模型,采用MAP自适应算法,计算一段语音对应的高斯混合模型;
(5)训练通用投影矩阵模块:根据自适应模块自适应计算的的高斯混合模型和对应的说话人标签,采用张量子空间分析算法,训练通用投影矩阵;
(6)计算低维嵌入模块:根据训练通用投影矩阵模块训练的通用投影矩阵,计算高斯混合模型对应的低维嵌入矩阵;
(7)计算相关系数模块:用于计算目标说话人语音对应的低维嵌入矩阵和待识别语音的低维嵌入矩阵的相关系数;
(8)分数判决模块:将计算相关系数模块计算所得的相关系数与某个阈值进行比较,并给出识别结果;
(9)存储模块:用于存储训练通用背景高斯混合模型模块、训练通用投影矩阵模块和计算低维嵌入模块的数据并将相应数据传给相应模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210212597 CN102737633B (zh) | 2012-06-21 | 2012-06-21 | 一种基于张量子空间分析的说话人识别方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210212597 CN102737633B (zh) | 2012-06-21 | 2012-06-21 | 一种基于张量子空间分析的说话人识别方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102737633A true CN102737633A (zh) | 2012-10-17 |
CN102737633B CN102737633B (zh) | 2013-12-25 |
Family
ID=46993006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201210212597 Active CN102737633B (zh) | 2012-06-21 | 2012-06-21 | 一种基于张量子空间分析的说话人识别方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102737633B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117059A (zh) * | 2012-12-27 | 2013-05-22 | 北京理工大学 | 一种基于张量分解的语音信号特征提取方法 |
CN104064189A (zh) * | 2014-06-26 | 2014-09-24 | 厦门天聪智能软件有限公司 | 一种声纹动态口令的建模和验证方法 |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
CN103985381B (zh) * | 2014-05-16 | 2016-09-21 | 清华大学 | 一种基于参数融合优化决策的音频索引方法 |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN106844295A (zh) * | 2017-02-13 | 2017-06-13 | 中国科学技术大学 | 一种基于压缩传感的量子态重构方法及系统 |
WO2017166651A1 (zh) * | 2016-03-30 | 2017-10-05 | 乐视控股(北京)有限公司 | 语音识别模型训练方法、说话人类型识别方法及装置 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
WO2018095167A1 (zh) * | 2016-11-22 | 2018-05-31 | 北京京东尚科信息技术有限公司 | 声纹识别方法和声纹识别系统 |
CN108922544A (zh) * | 2018-06-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 通用向量训练方法、语音聚类方法、装置、设备及介质 |
CN109065022A (zh) * | 2018-06-06 | 2018-12-21 | 平安科技(深圳)有限公司 | i-vector向量提取方法、说话人识别方法、装置、设备及介质 |
CN110010137A (zh) * | 2019-04-04 | 2019-07-12 | 杭州电子科技大学 | 一种基于张量结构及稀疏表示的说话人确认方法及系统 |
CN110831029A (zh) * | 2018-08-13 | 2020-02-21 | 华为技术有限公司 | 一种模型的优化方法和分析网元 |
CN111508505A (zh) * | 2020-04-28 | 2020-08-07 | 讯飞智元信息科技有限公司 | 一种说话人识别方法、装置、设备及存储介质 |
CN111524502A (zh) * | 2020-05-27 | 2020-08-11 | 科大讯飞股份有限公司 | 一种语种检测方法、装置、设备及存储介质 |
CN111902865A (zh) * | 2018-12-03 | 2020-11-06 | 谷歌有限责任公司 | 文本无关的说话者识别 |
CN112489678A (zh) * | 2020-11-13 | 2021-03-12 | 苏宁云计算有限公司 | 一种基于信道特征的场景识别方法及装置 |
CN113409804A (zh) * | 2020-12-22 | 2021-09-17 | 声耕智能科技(西安)研究院有限公司 | 一种基于变张成广义子空间的多通道频域语音增强算法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007098039A1 (en) * | 2006-02-20 | 2007-08-30 | Microsoft Corporation | Speaker authentication |
KR100864828B1 (ko) * | 2006-12-06 | 2008-10-23 | 한국전자통신연구원 | 화자의 음성 특징 정보를 이용한 화자 정보 획득 시스템 및그 방법 |
CN101814159A (zh) * | 2009-02-24 | 2010-08-25 | 余华 | 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法 |
CN102024455A (zh) * | 2009-09-10 | 2011-04-20 | 索尼株式会社 | 说话人识别系统及其方法 |
-
2012
- 2012-06-21 CN CN 201210212597 patent/CN102737633B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007098039A1 (en) * | 2006-02-20 | 2007-08-30 | Microsoft Corporation | Speaker authentication |
KR100864828B1 (ko) * | 2006-12-06 | 2008-10-23 | 한국전자통신연구원 | 화자의 음성 특징 정보를 이용한 화자 정보 획득 시스템 및그 방법 |
CN101814159A (zh) * | 2009-02-24 | 2010-08-25 | 余华 | 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法 |
CN102024455A (zh) * | 2009-09-10 | 2011-04-20 | 索尼株式会社 | 说话人识别系统及其方法 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117059B (zh) * | 2012-12-27 | 2015-05-06 | 内蒙古科技大学 | 一种基于张量分解的语音信号特征提取方法 |
CN103117059A (zh) * | 2012-12-27 | 2013-05-22 | 北京理工大学 | 一种基于张量分解的语音信号特征提取方法 |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
CN105765650B (zh) * | 2013-09-27 | 2019-08-06 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
CN103985381B (zh) * | 2014-05-16 | 2016-09-21 | 清华大学 | 一种基于参数融合优化决策的音频索引方法 |
CN104064189A (zh) * | 2014-06-26 | 2014-09-24 | 厦门天聪智能软件有限公司 | 一种声纹动态口令的建模和验证方法 |
WO2017166651A1 (zh) * | 2016-03-30 | 2017-10-05 | 乐视控股(北京)有限公司 | 语音识别模型训练方法、说话人类型识别方法及装置 |
WO2018095167A1 (zh) * | 2016-11-22 | 2018-05-31 | 北京京东尚科信息技术有限公司 | 声纹识别方法和声纹识别系统 |
CN106844295A (zh) * | 2017-02-13 | 2017-06-13 | 中国科学技术大学 | 一种基于压缩传感的量子态重构方法及系统 |
US10957339B2 (en) | 2017-03-10 | 2021-03-23 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speaker recognition method and apparatus, computer device and computer-readable medium |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
CN109065022A (zh) * | 2018-06-06 | 2018-12-21 | 平安科技(深圳)有限公司 | i-vector向量提取方法、说话人识别方法、装置、设备及介质 |
CN109065022B (zh) * | 2018-06-06 | 2022-08-09 | 平安科技(深圳)有限公司 | i-vector向量提取方法、说话人识别方法、装置、设备及介质 |
CN108922544A (zh) * | 2018-06-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 通用向量训练方法、语音聚类方法、装置、设备及介质 |
CN110831029A (zh) * | 2018-08-13 | 2020-02-21 | 华为技术有限公司 | 一种模型的优化方法和分析网元 |
CN110831029B (zh) * | 2018-08-13 | 2021-06-22 | 华为技术有限公司 | 一种模型的优化方法和分析网元 |
CN111902865A (zh) * | 2018-12-03 | 2020-11-06 | 谷歌有限责任公司 | 文本无关的说话者识别 |
CN111902865B (zh) * | 2018-12-03 | 2024-07-12 | 谷歌有限责任公司 | 文本无关的说话者识别 |
CN110010137B (zh) * | 2019-04-04 | 2021-09-28 | 杭州电子科技大学 | 一种基于张量结构及稀疏表示的说话人确认方法及系统 |
CN110010137A (zh) * | 2019-04-04 | 2019-07-12 | 杭州电子科技大学 | 一种基于张量结构及稀疏表示的说话人确认方法及系统 |
CN111508505A (zh) * | 2020-04-28 | 2020-08-07 | 讯飞智元信息科技有限公司 | 一种说话人识别方法、装置、设备及存储介质 |
CN111508505B (zh) * | 2020-04-28 | 2023-11-03 | 讯飞智元信息科技有限公司 | 一种说话人识别方法、装置、设备及存储介质 |
CN111524502A (zh) * | 2020-05-27 | 2020-08-11 | 科大讯飞股份有限公司 | 一种语种检测方法、装置、设备及存储介质 |
CN111524502B (zh) * | 2020-05-27 | 2024-04-30 | 科大讯飞股份有限公司 | 一种语种检测方法、装置、设备及存储介质 |
CN112489678A (zh) * | 2020-11-13 | 2021-03-12 | 苏宁云计算有限公司 | 一种基于信道特征的场景识别方法及装置 |
CN112489678B (zh) * | 2020-11-13 | 2023-12-05 | 深圳市云网万店科技有限公司 | 一种基于信道特征的场景识别方法及装置 |
CN113409804A (zh) * | 2020-12-22 | 2021-09-17 | 声耕智能科技(西安)研究院有限公司 | 一种基于变张成广义子空间的多通道频域语音增强算法 |
Also Published As
Publication number | Publication date |
---|---|
CN102737633B (zh) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102737633A (zh) | 一种基于张量子空间分析的说话人识别方法及其装置 | |
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
Li et al. | Adversarial attacks on GMM i-vector based speaker verification systems | |
CN102238190B (zh) | 身份认证方法及系统 | |
WO2019237519A1 (zh) | 通用向量训练方法、语音聚类方法、装置、设备及介质 | |
CN110147548B (zh) | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 | |
CN110534101B (zh) | 一种基于多模融合深度特征的移动设备源识别方法及系统 | |
Estellers et al. | Multi-pose lipreading and audio-visual speech recognition | |
JP7124427B2 (ja) | マルチビューベクトルの処理方法及び装置 | |
Kryszczuk et al. | Reliability-based decision fusion in multimodal biometric verification systems | |
CN104538035A (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
CN109065022A (zh) | i-vector向量提取方法、说话人识别方法、装置、设备及介质 | |
Omar et al. | Training Universal Background Models for Speaker Recognition. | |
CN110047504A (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
CN103714340B (zh) | 基于图像分块的自适应特征提取方法 | |
CN113886792A (zh) | 一种声纹识别和人脸识别相结合的印控仪应用方法和系统 | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
Shah et al. | Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion. | |
Alam et al. | Linear regression-based classifier for audio visual person identification | |
Herrera-Camacho et al. | Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE | |
JP2002082694A (ja) | 先行知識に基づく話者確認および話者識別 | |
Allano et al. | Nonintrusive multibiometrics on a mobile device: a comparison of fusion techniques | |
CN105930878A (zh) | 一种基于差分切片能量图和稀疏编码的微表情识别方法 | |
CN108694950B (zh) | 一种基于深度混合模型的说话人确认方法 | |
Anand et al. | Text-independent speaker recognition for Ambient Intelligence applications by using information set features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20171023 Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666 Patentee after: Iflytek Co., Ltd. Address before: 100083 Beijing Haidian District Xueyuan Road 20 refining and chemical building three layer 330 (petroleum compound) Patentee before: Beijing Huaxin Hengda Software Technology Co., Ltd. |
|
TR01 | Transfer of patent right |