CN105845141A - 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 - Google Patents
基于信道鲁棒的说话人确认模型及说话人确认方法和装置 Download PDFInfo
- Publication number
- CN105845141A CN105845141A CN201610172765.2A CN201610172765A CN105845141A CN 105845141 A CN105845141 A CN 105845141A CN 201610172765 A CN201610172765 A CN 201610172765A CN 105845141 A CN105845141 A CN 105845141A
- Authority
- CN
- China
- Prior art keywords
- vector
- speaker
- mllr
- ubm
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012790 confirmation Methods 0.000 title abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 165
- 238000012706 support-vector machine Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000012795 verification Methods 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 36
- 230000009466 transformation Effects 0.000 claims description 29
- 230000006978 adaptation Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 15
- 238000012360 testing method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 230000008901 benefit Effects 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 206010068052 Mosaicism Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241001014642 Rasta Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000003595 mist Substances 0.000 description 1
- 230000004899 motility Effects 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 210000003765 sex chromosome Anatomy 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及说话人确认模型及说话人确认方法和装置,所述一种基于信道鲁棒的说话人确认模型的实现方法包括:将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理;构建与所述语音信号在所述子空间内对应的M矢量,得到与所述子空间对应的M矢量集合;将所述M矢量集合作为支持向量机的输入特征,得到与所述语音信号对应的支持向量机模型。本发明实施方式提供的说话人确认模型及说话人确认方法和装置对数据量和运算量要求要小很多;不需要任何有文本标注信息的数据,从而节省了大量人力和财力资源,而且能够取得较高的识别性能及很强的与其他确认系统的互补性。
Description
技术领域
本发明涉及一种信号特征识别领域,尤其是涉及一种说话人确认模块及说话人确认方法和装置。
背景技术
跨信道问题是近年来说话人识别真正走向实用化的一个至关重要的研究热点。基于因子分析的I-矢量(I-vector)近年来被广泛应用于当前最新的说话人识别系统中,成为解决信道鲁棒性问题最有效的方法之一。MLLR(maximum likelihood linear regression,MLLR,即:最大似然线性回归)自适应上的M-矢量(M-vector)已经被证明在说话人确认系统中能够取得较好的性能。基于自动语音识别(automatic speech recognition,ASR)音素类的MLLR话者变换矩阵很早就开始被作为特征参数应用到各种说话人识别系统中,但该类算法不仅计算量巨大而且还需要大量有准确文本标注的语音数据用于ASR的模型训练。
发明内容
本发明的目的在于一种说话人确认模型及说话人确认方法和装置,旨在解决现有说话人确认过程中对数据量要求大,运算量过多的技术缺陷。
为此,本发明实施例首先提供了一种基于信道鲁棒的说话人确认模型的实现方法,包括:
将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理;
构建与所述语音信号在所述子空间内对应的M矢量,得到与所述子空间对应的M矢量集合;
将所述M矢量集合作为支持向量机的输入特征,得到与所述语音信号对应的支持向量机模型。
优选地,所述将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理的步骤之前还包括:
将UBM模块通过EM方法进行聚类,形成若干个所述子空间。
优选地,所述将UBM模块通过EM方法进行聚类的步骤包括:
以所述UBM模块各高斯分量的均值向量作为聚类的特征参数,利用K-均值聚类方法将若干个UBM模块的均值向量非配到所述若干个子空间中。
优选地,所述构建与所述语音信号在所述子空间内对应的M矢量的步骤包括:
对所述语音信号提取特征后,在所述UBM模块中利用MLLR超矢量形成方法得到所述语音信号的变换矩阵;
将所述变换矩阵的所有行进行排列,得到MLLR超矢量;
对所述MLLR超矢量进行重叠加窗分割得到所述M矢量。
此外,本发明实施例还提供了一种基于信道鲁棒的说话人确认方法,包括:
获取上述任一实施方式所述的与所述语音信号对应的支持向量机模型;
利用所述支持向量机模型识别输入的语音信号的说话人。
对应的,本发明实施例还再次提供了一种基于信道鲁棒的说话人确认模型的实现装置,包括:
自适应处理模块,用于将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理;
矢量集合生成模块,用于构建与所述语音信号在所述子空间内对应的M矢量,得到与所述子空间对应的M矢量集合;
支持向量机模块生成模块,用于将所述M矢量集合作为支持向量机的输入特征,得到与所述语音信号对应的支持向量机模型。
优选地,还包括:
子空间生成模块,用于将UBM模块通过EM方法进行聚类,形成若干个所述子空间。
优选地,子空间生成模块包括:
生成子模块,用于以所述UBM模块各高斯分量的均值向量作为聚类的特征参数,利用K-均值聚类方法将若干个UBM模块的均值向量非配到所述若干个子空间中。
优选地,所述矢量集合生成模块包括:
变换矩阵生成模块,用于对所述语音信号提取特征后,在所述UBM模块中利用MLLR超矢量形成方法得到所述语音信号的变换矩阵;
超矢量生成模块,用于将所述变换矩阵的所有行进行排列,得到MLLR超矢量;
矢量生成模块,用于对所述MLLR超矢量进行重叠加窗分割得到所述M矢量。
此外,本发明实施例还提供了一种基于信道鲁棒的说话人确认装置,其特征在于,包括:
向量机模型获取模块,用于获取与所述语音信号对应的支持向量机模型;
识别模块,用于利用所述支持向量机模型识别输入的语音信号的说话人。
与现有技术相比,本发明实施方式提供的说话人确认模型及说话人确认方法和装置将现有基于音素类变换矩阵的优势扩展到UBM的基础上来,结合SVM的区分性分类及其核映射的特点构建了一种基于M-矢量的支持向量机说话人确认系统.相对于采用I-矢量和传统音素类MLLR变换矩阵的系统,本发明实施方式提供的说话人确认模型及说话人确认方法和装置对数据量和运算量要求要小很多;不需要任何有文本标注信息的数据,从而节省了大量人力和财力资源,而且能够取得较高的识别性能及很强的与其他确认系统的互补性。
附图说明
图1是本发明所述一种基于信道鲁棒的说话人确认模型的实现方法一实施方式的流程图;
图2是本发明所述一种基于信道鲁棒的说话人确认模型的实现方法一实施方式中M-矢量的结构示意图;
图3是本发明所述一种基于信道鲁棒的说话人确认模型的实现方法一实施方式中基于多类MLLR中M-矢量的支持向量机说话人确认系统的训练流程示意图;
图4是本发明所述一种基于信道鲁棒的说话人确认方法一实施方式的流程图;
图5是本发明所述一种基于信道鲁棒的说话人确认模型的实现装置一实施方式的结构示意图;
图6是本发明所述一种基于信道鲁棒的说话人确认装置一实施方式的结构示意图。
具体实施方式
下面结合附图,对本发明的实施方式做进一步说明。
支持向量机(即SVM)作为一种区分性分类方法已被成功应用到说话人确认中,同时SVM还能灵活地将不同种信道补偿方法通过核函数的方式方便地对特征矢量进行映射从而减轻信道问题的影响。本申请将传统基于音素类变换矩阵的优势扩展到UBM(即统一背景模型)基础上来,结合SVM的区分性分类及其核映射的特点构建一种基于M-矢量的支持向量机说话人确认系统。相对于采用I-矢量和传统音素类MLLR(maximum likelihood linearregression,MLLR即:最大似然线性回归)变换矩阵的系统,本申请具有以下优点:对数据量和运算量要求要小很多;不需要任何有文本标注信息的数据,从而节省了大量人力和财力资源;能够取得较高的识别性能及很强的与其他确认系统的互补性。
参见图1,图1是本发明所述一种基于信道鲁棒的说话人确认模型的实现方法一实施方式的流程图。在图1示出的实施方式中,所述基于信道鲁棒的说话人确认模型的实现方法包括步骤S11-S13。
在步骤S11中,将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理。其中,MLLR用于说话人自适应技术源自语音识别,给定说话人语音数据X={x1,x2,…,xT}的前提下,相对于UBM的MLLR说话人变换矩阵W的估计为:
Wi=K(i)G(i)-1,
式中特征向量xi在第j个UBM高斯分量上的状态占有率为:
其中:Wi为变换矩阵W的第i行;μj和分别为UBM的均值和方差;C为UBM的高斯混合数;ωj和bc分别为第j个高斯分量的权重和第c个高斯分量的密度函数。把W矩阵的每一行取出并重新排列成一个行矢量,该行矢量就称为MLLR超矢量。因此,所述的MLLR超矢量为MLLR方法经过上述的计算方法得到。若采用39维特征参数,则MLLR超矢量的维数为39×39=1521维。在传统基于音素类MLLR变换矩阵的说话人识别中,这里的UBM可以被大词汇量连续语音识别的隐马尔科夫模型(hidden Markov model,HMM)所替代,并将其中的单音素HMM聚类成少数几个音素大类,如元音、辅音和非语音等,再对这些音素类进行MLLR说话人自适应得到与说话人相关的变换矩阵超矢量用于话者识别。由于说话人识别中每一位目标话者的训练数据非常少而容易导致自适应过程中参数估计不准确,故音素大类通常选择在3-8类之间。
在步骤S12中,构建与所述语音信号在所述子空间内对应的M矢量,得到与所述子空间对应的M矢量集合。其中,所述构建与所述语音信号在所述子空间内对应的M矢量的步骤包括:
对所述语音信号提取特征后,在所述UBM模块中利用MLLR超矢量形成方法得到所述语音信号的变换矩阵;
将所述变换矩阵的所有行进行排列,得到MLLR超矢量;
对所述MLLR超矢量进行重叠加窗分割得到所述M矢量。
具体而言,在步骤S12中,对给定的说话人语音数据,提取特征后通过MLLR超矢量形成方法从UBM模型自适应得到该说话人的变换矩阵W,把变换矩阵W的所有行按顺序排列起来得到MLLR超矢量.对MLLR超矢量进行重叠加窗分割(含重叠元素的均匀分割)就得到一系列的新矢量Mi,这些新矢量就称为M矢量。参见图2,图2是本发明所述一种基于信道鲁棒的说话人确认模型的实现方法一实施方式中M-矢量的结构示意图。该过程如图2所示,图中黑色方块表示MLLR超矢量的每一维.其中重叠分割的目的是为了能充分挖掘不同特征维度空间中潜在的能反映说话人身份特性的信息,可类比特征提取过程中对原始语音信号进行重叠加窗分帧的做法。
在另外一些实施方式中,多类MLLR的M-矢量是在UBM的子空间基础上进行MLLR自适应而获得的。发明人在参考传统音素类MLLR自适应技术的优点的同时,采用多个子空间来描述语音信号中含有的丰富细节信息。如从不同的UBM子空间中估计出的M-矢量可从不同语义层面、信道类型、说话人习惯用语等方面对说话人的原始语音进行细节描述。
其估计流程如下:
(1)UBM子空间聚类算法。对于给定UBM,期望子空间类别数S,以UBM各高斯分量的均值向量作为聚类的特征参数Y={μ1,μ2,…,μC},采用现有的K-均值聚类算法将C个UBM均值向量分配到S个不同的子空间(类别)中去。
(2)多类MLLR的M-矢量估计方法。多类MLLR的M-矢量即在以上UBM聚类子空间中分别计算针对原始输入特征X的MLLR自适应M-矢量。为了减少计算量,对任意UBM子空间而言,其对应的MLLR的M-矢量计算过程中的高斯占有率γj(t)可直接输入特征在UBM各高斯分量上的统计量,同时结合上述UBM高斯分量聚类结果,可快速得到如下任意子空间中的自适应矩阵W。如对第S个子空间而言,其对应的Wi估计为:
(3)最后得到各子空间的M-矢量。与音素类MLLR超矢量相比,基于UBM子空间的多类MLLR的M-矢量具有以下优势:计算量少;训练数据处理成本低,无须标注;稀疏现象减轻,无须估计大量的HMM参数.
在步骤S13中,将所述M矢量集合作为支持向量机的输入特征,得到与所述语音信号对应的支持向量机模型。
在一些实施方式中,所述将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理的步骤(即步骤S11)之前还包括将UBM模块通过EM方法进行聚类,形成若干个所述子空间的步骤。其中,所述将UBM模块通过EM方法进行聚类的步骤包括:以所述UBM模块各高斯分量的均值向量作为聚类的特征参数,利用K-均值聚类方法将若干个UBM模块的均值向量非配到所述若干个子空间中。
下面介绍本发明实施例提供的一种基于信道鲁棒的说话人确认模型的训练流程。
SVM作为一种直接以最小化分类错误为目标函数的分类器,在说话人确认这种两类分类问题中优势明显,但因说话人识别中目标说话人的训练语料非常少的特殊性而使得SVM的潜能尚未充分得到发挥。例如,每位目标说话人的正例样本点就只有一个GMM均值超向量。本发明实施例中将多类MLLR的M-矢量作为SVM的输入特征进行模型的训练和测试。参见图3,图3是本发明所述一种基于信道鲁棒的说话人确认模型的实现方法一实施方式中基于多类MLLR中M-矢量的支持向量机说话人确认系统的训练流程示意图。图3示出的模型训练流程的步骤如下:
步骤1:将UBM通过EM算法聚类成S个子空间;
步骤2:冒认者和目标说话人的每一句原始语音分别通过MLLR算法在各子空间中进行自适应,构建每句话在每个子空间中对应的M-矢量,得到对应于各子空间的M-矢量集合。
步骤3:将M-矢量作为SVM的输入特征并在其核空间中进行信道补偿及相应的说话人模型训练,用以消除跨信道的问题,从而得到最终每位目标说话人的SVM模型。
在测试阶段,对于每一段原始语音,同样经过上述三个步骤在SVM核空间中进行信道补偿与测试,得到用于最终判决的SVM得分.这里提出的说话人确认系统由于采用了基于UBM子空间的多类M-矢量,即每位目标说话人的训练正例样本数为子空间数S乘以每个子空间对应的M-矢量数目N,从而使得目标说话人的正例样本数大大增加,能很好地解决训练数据的稀疏问题,在更大程度上挖掘出SVM强大的分类能力。须要提出的是:SVM核函数具有较其他经典分类函数更好的灵活性和易扩展性,因此本申请可灵活地将多种信道补偿方法整合到SVM核函数中,用以在核空间对M-矢量进行映射来减轻跨信道问题带来的影响,如类内协方差规整、概率线性鉴别分析及扰动属性核空间映射等.在此以NAP算法为例构建基于M-矢量的SVM核函数(基于SVM余弦核函数基础上的扩展)。NAP算法的本质是通过在核空间寻找一个与信道空间互补的、仅与说话人相关的正交映射矩阵P来最小化信道变化的影响,其目标函数为:
式中P=I-RRT,R为须要消除的SVM空间中表示信道干扰的方向向量.若Mi和Mj属于同一说话人,则Li,j=0,否则Li,j=1.通过转换成求特征值或特征向量问题即可解出NAP映射矩阵P,从而实现SVM核空间中的M-矢量信道补偿。
参见图4,图4是本发明所述一种基于信道鲁棒的说话人确认方法一实施方式的流程图。在图4示出的实施方式中,该基于信道鲁棒的说话人确认方法包括步骤S41-42。
在步骤S41中,获取如上述任一种与所述语音信号对应的支持向量机模型;
在步骤S42中,利用所述支持向量机模型识别输入的语音信号的说话人。
采用国际说话人识别评测数据库NISTSRE2008[13]核心测试short2-short3中的phonecall-phonecall(电话语音训练-电话语音测试)子任务中的女声测试部分作为实验,总计有1141个目标说话人,23385次测试.总计有1573人,7489段语音.同时,该7489段语音还用作UBM模型训练和支持向量机目标说话者模型训练中的负例样本.所有语音每段总长约5分钟,有效语音长度约2.5分钟。
本申请所提的基于多类MLLR的M-矢量的支持向量机说话人确认系统配置如下:采用39维PLP作为特征参数,其提取时的帧长为25ms,帧移为10ms。采用基于能量的静音检测算法去除静音帧,提取的C0~C12特征参数经过CMS和RASTA进行倒谱域滤波去除信道卷积噪声,通过一、二阶差分总计构成39维,最后通过短时高斯化对特征进行规整。
UBM模型训练时采用对角方差的形式,高斯数设为512。M-矢量构成时重叠加窗的窗移为169,M-矢量长度设为400,即每一个MLLR转换矩阵可构成39*39/169=9个M-矢量。值得注意的是,在构建多类MLLR过程中,若由于落入某一UBM子空间上的训练数据不足而导致可能的MLLR自适应时G(i)求逆出现奇异的情况,则可采用全局MLLR转换矩阵代替该子空间的自适应输出结果.另外,SVM训练和测试时采用的工具为SVM Torch。
为了比较,采用经典的音素类MLLR-SVM系统与基于I-矢量和SVM的说话人确认系统(I-vector-SVM)作为基线系统。在基线系统的实验中,pMLLR-SVM中用到的自动语音识别系统是在Switchboard数据库上训练得到的,MLLR自适应时采用的音素类别为非语音、元音、鼻音和辅音(除鼻音、元音外的所有语音)四大类,其中非语音类的MLLR矩阵由于不携带说话人信息而在本文pMLLR-SVM中不被使用,同样在此系统中采用NAP算法进行信道补偿。I-vector-SVM系统中的总变异空间维数(即I-矢量维数)设为400。采用衡量说话人确认系统常用的评价指标等错误率(equal error rate,EER)和最小检测代价函数(minimumdetection cost function,minDCF)来比较基线系统和本文所提出的系统性能.表1给出了将UBM空间聚成不同数目的子空间时,本申请所提的mM-vector-SVM说话人确认系统在MISTSRE2008核心测试的电话语音训练-电话语音测试子任务中的女声测试任务上的性能。
从结果来看:整个UBM空间分成三类时系统取得的效果最好,相比表1中第一行采用全局UBM自适应训练得到的系统而言,等错误率EER(表中用eEER表示)相对下降了9.7%,最小检测代价minDCF(表中用minDCF表示)也从0.0341下降到0.0307。这表明多类MLLR自适应得到的M-矢量能更好地描述目标说话人身份信息的细节特性,提高目标说话人模型的准确性;同时,比较表1中最后两行实验结果可看出,用过细的子空间来描述说话人身份特性的分布并不能保证系统能取得较优的性能。实际上,UBM子空间数目的设置与目标说话者的训练数据量的多少紧密相关,在实际应用系统中,一般根据开发集合而定。
表1 不同UBM子空间聚类数目对系统性能的影响
注:高斯分量数是聚类时落在每个UBM子空间内的高斯分量数目.
表2给出了本申请所提系统与两套基线系统(系统1和系统2)的性能对比及不同系统间在得分域上的融合结果。通过比较发现:系统3已经能取得与目前被广泛采用的基于I-矢量的说话人确认系统(系统2)非常接近的性能,但在系统复杂度和构建I-矢量的运算量需求上,系统2却大得多.而与基于传统音素类的系统1相比,系统3也能取得与之相当甚至稍好的识别性能。这表明在无需任何语音识别系统的基础上,采用系统3获得的某一UBM子空间不仅可与由某一音素类支撑的特征空间等价,还能灵活捕捉到与音素类无关的说话人或者信道等信息。另外,在说话人的MLLR自适应过程中,系统3只须对聚类后的高斯模型进行自适应,相比系统1在HMM模型上自适应的情况,系统3大大节省了运算量和时间开销。
表2 不同系统在女声测试集合上的实验结果
从系统之间的融合结果来看:由于系统1和3在本质上有相类似的地方,因此融合后提升空间不大.但系统2和3的融合结果相比最好的系统2的结果在等错误率上相对下降了13.3%,minDCF相对下降了22.5%。将3种系统的得分都融合起来可获得进一步的性能提升.这充分表明:基于MLLR自适应得到的M-矢量与采用因子分析方法得到的I-矢量是从不同的角度来捕获隐含在原始语音信号中的说话人身份信息的,它们之间体现出了很强的互补特性。
实验结果表明:本申请提出的说话人确认系统可获得与最好的基线系统几乎相当的性能,同时还表现出很强的互补特性.另外,由于SVM核函数特有的可扩展性,目前多种有效的信道补偿算法都可整合到本文系统中来,甚至还可将经过不同信道补偿后的核空间进行组合构建性能更高的SVM说话人确认系统。
参见图5,图5是本发明所述一种基于信道鲁棒的说话人确认模型的实现装置一实施方式的结构示意图。图5示出的基于信道鲁棒的说话人确认模型的实现装置包括自适应处理模块、矢量集合生成模块和支持向量机模块生成模块。
其中,自适应处理模块用于将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理。矢量集合生成模块用于构建与所述语音信号在所述子空间内对应的M矢量,得到与所述子空间对应的M矢量集合。其中,所述矢量集合生成模块包括变换矩阵生成模块、超矢量生成模块和支持向量机模块生成模块。变换矩阵生成模块,用于对所述语音信号提取特征后,在所述UBM模块中利用MLLR超矢量形成方法得到所述语音信号的变换矩阵。超矢量生成模块,用于将所述变换矩阵的所有行进行排列,得到MLLR超矢量。矢量生成模块,用于对所述MLLR超矢量进行重叠加窗分割得到所述M矢量。支持向量机模块生成模块用于将所述M矢量集合作为支持向量机的输入特征,得到与所述语音信号对应的支持向量机模型。
在一些实施方式中,该结构的基于信道鲁棒的说话人确认模型的实现装置还包括子空间生成模块。其中,子空间生成模块用于将UBM模块通过EM方法进行聚类,形成若干个所述子空间。在一些实施方式中,子空间生成模块包括生成子模块。生成子模块用于以所述UBM模块各高斯分量的均值向量作为聚类的特征参数,利用K-均值聚类方法将若干个UBM模块的均值向量非配到所述若干个子空间中。
参见图6,图6是本发明所述一种基于信道鲁棒的说话人确认装置一实施方式的结构示意图。图6示出的基于信道鲁棒的说话人确认装置包括向量机模型获取模块和识别模块。向量机模型获取模块,用于获取前述的与所述语音信号对应的支持向量机模型。识别模块用于利用所述支持向量机模型识别输入的语音信号的说话人。
从上述的实施方式可以看出,本发明实施方式提供的说话人确认模型及说话人确认方法和装置将现有基于音素类变换矩阵的优势扩展到UBM的基础上来,结合SVM的区分性分类及其核映射的特点构建了一种基于M-矢量的支持向量机说话人确认系统.相对于采用I-矢量和传统音素类MLLR变换矩阵的系统,本发明实施方式提供的说话人确认模型及说话人确认方法和装置对数据量和运算量要求要小很多;不需要任何有文本标注信息的数据,从而节省了大量人力和财力资源,而且能够取得较高的识别性能及很强的与其他确认系统的互补性。
应该理解,本发明并不局限于上述实施方式,凡是对本发明的各种改动或变型不脱离本发明的精神和范围,倘若这些改动和变型属于本发明的权利要求和等同技术范围之内,则本发明也意味着包含这些改动和变型。
Claims (10)
1.一种基于信道鲁棒的说话人确认模型的实现方法,其特征在于,包括:
将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理;
构建与所述语音信号在所述子空间内对应的M矢量,得到与所述子空间对应的M矢量集合;
将所述M矢量集合作为支持向量机的输入特征,得到与所述语音信号对应的支持向量机模型。
2.如权利要求1所述的一种基于信道鲁棒的说话人确认模型的实现方法,其特征在于,所述将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理的步骤之前还包括:
将UBM模块通过EM方法进行聚类,形成若干个所述子空间。
3.如权利要求2所述的一种基于信道鲁棒的说话人确认模型的实现方法,其特征在于,所述将UBM模块通过EM方法进行聚类的步骤包括:
以所述UBM模块各高斯分量的均值向量作为聚类的特征参数,利用K-均值聚类方法将若干个UBM模块的均值向量非配到所述若干个子空间中。
4.如权利要求3所述的一种基于信道鲁棒的说话人确认模型的实现方法,其特征在于,所述构建与所述语音信号在所述子空间内对应的M矢量的步骤包括:
对所述语音信号提取特征后,在所述UBM模块中利用MLLR超矢量形成方法得到所述语音信号的变换矩阵;
将所述变换矩阵的所有行进行排列,得到MLLR超矢量;
对所述MLLR超矢量进行重叠加窗分割得到所述M矢量。
5.一种基于信道鲁棒的说话人确认方法,其特征在于,包括:
获取如权利要求1-4任一项所述的与所述语音信号对应的支持向量机模型;
利用所述支持向量机模型识别输入的语音信号的说话人。
6.一种基于信道鲁棒的说话人确认模型的实现装置,其特征在于,包括:
自适应处理模块,用于将若干语音信号分别利用MLLR方法在若干子空间内进行自适应处理;
矢量集合生成模块,用于构建与所述语音信号在所述子空间内对应的M矢量,得到与所述子空间对应的M矢量集合;
支持向量机模块生成模块,用于将所述M矢量集合作为支持向量机的输入特征,得到与所述语音信号对应的支持向量机模型。
7.如权利要求6所述的一种基于信道鲁棒的说话人确认模型的实现装置,其特征在于,还包括:
子空间生成模块,用于将UBM模块通过EM方法进行聚类,形成若干个所述子空间。
8.如权利要求7所述的一种基于信道鲁棒的说话人确认模型的实现装置,其特征在于,子空间生成模块包括:
生成子模块,用于以所述UBM模块各高斯分量的均值向量作为聚类的特征参数,利用K-均值聚类方法将若干个UBM模块的均值向量非配到所述若干个子空间中。
9.如权利要求8所述的一种基于信道鲁棒的说话人确认模型的实现装置,其特征在于,所述矢量集合生成模块包括:
变换矩阵生成模块,用于对所述语音信号提取特征后,在所述UBM模块中利用MLLR超矢量形成方法得到所述语音信号的变换矩阵;
超矢量生成模块,用于将所述变换矩阵的所有行进行排列,得到MLLR超矢量;
矢量生成模块,用于对所述MLLR超矢量进行重叠加窗分割得到所述M矢量。
10.一种基于信道鲁棒的说话人确认装置,其特征在于,包括:
向量机模型获取模块,用于获取如权利要求6-9任一项所述的与所述语音信号对应的支持向量机模型;
识别模块,用于利用所述支持向量机模型识别输入的语音信号的说话人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610172765.2A CN105845141A (zh) | 2016-03-23 | 2016-03-23 | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610172765.2A CN105845141A (zh) | 2016-03-23 | 2016-03-23 | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105845141A true CN105845141A (zh) | 2016-08-10 |
Family
ID=56583461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610172765.2A Pending CN105845141A (zh) | 2016-03-23 | 2016-03-23 | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105845141A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
CN107369440A (zh) * | 2017-08-02 | 2017-11-21 | 北京灵伴未来科技有限公司 | 一种针对短语音的说话人识别模型的训练方法及装置 |
CN107452403A (zh) * | 2017-09-12 | 2017-12-08 | 清华大学 | 一种说话人标记方法 |
CN107945795A (zh) * | 2017-11-13 | 2018-04-20 | 河海大学 | 一种基于高斯分类的快速模型自适应方法 |
CN110265060A (zh) * | 2019-06-04 | 2019-09-20 | 广东工业大学 | 一种基于密度聚类的说话人数目自动检测方法 |
WO2020143263A1 (zh) * | 2019-01-11 | 2020-07-16 | 华南理工大学 | 一种基于语音样本特征空间轨迹的说话人识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1247363A (zh) * | 1998-09-04 | 2000-03-15 | 松下电器产业株式会社 | 基于本征话音的说话者检验和说话者识别 |
CN102290048A (zh) * | 2011-09-05 | 2011-12-21 | 南京大学 | 一种基于mfcc远距离差值的鲁棒语音识别方法 |
CN103077720A (zh) * | 2012-12-19 | 2013-05-01 | 中国科学院声学研究所 | 一种说话人识别方法及系统 |
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
-
2016
- 2016-03-23 CN CN201610172765.2A patent/CN105845141A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1247363A (zh) * | 1998-09-04 | 2000-03-15 | 松下电器产业株式会社 | 基于本征话音的说话者检验和说话者识别 |
CN102290048A (zh) * | 2011-09-05 | 2011-12-21 | 南京大学 | 一种基于mfcc远距离差值的鲁棒语音识别方法 |
CN103077720A (zh) * | 2012-12-19 | 2013-05-01 | 中国科学院声学研究所 | 一种说话人识别方法及系统 |
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
龙艳花 等: "采用M-矢量和支持向量机的说话人确认系统", 《华中科技大学学报(自然科学版)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
CN107369440A (zh) * | 2017-08-02 | 2017-11-21 | 北京灵伴未来科技有限公司 | 一种针对短语音的说话人识别模型的训练方法及装置 |
CN107452403A (zh) * | 2017-09-12 | 2017-12-08 | 清华大学 | 一种说话人标记方法 |
CN107452403B (zh) * | 2017-09-12 | 2020-07-07 | 清华大学 | 一种说话人标记方法 |
CN107945795A (zh) * | 2017-11-13 | 2018-04-20 | 河海大学 | 一种基于高斯分类的快速模型自适应方法 |
CN107945795B (zh) * | 2017-11-13 | 2021-06-25 | 河海大学 | 一种基于高斯分类的快速模型自适应方法 |
WO2020143263A1 (zh) * | 2019-01-11 | 2020-07-16 | 华南理工大学 | 一种基于语音样本特征空间轨迹的说话人识别方法 |
CN110265060A (zh) * | 2019-06-04 | 2019-09-20 | 广东工业大学 | 一种基于密度聚类的说话人数目自动检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105845141A (zh) | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 | |
US11776548B2 (en) | Convolutional neural network with phonetic attention for speaker verification | |
CN108281137A (zh) | 一种全音素框架下的通用语音唤醒识别方法及系统 | |
Xia et al. | Using i-Vector Space Model for Emotion Recognition. | |
US9355642B2 (en) | Speaker recognition method through emotional model synthesis based on neighbors preserving principle | |
CN108564940A (zh) | 语音识别方法、服务器及计算机可读存储介质 | |
US20150199960A1 (en) | I-Vector Based Clustering Training Data in Speech Recognition | |
CN106297826A (zh) | 语音情感辨识系统及方法 | |
CN106503805A (zh) | 一种基于机器学习的双模态人人对话情感分析系统及其方法 | |
CN105938716A (zh) | 一种基于多精度拟合的样本复制语音自动检测方法 | |
CN105139857A (zh) | 一种自动说话人识别中针对语音欺骗的对抗方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN107767861A (zh) | 语音唤醒方法、系统及智能终端 | |
CN109313892A (zh) | 稳健的语言识别方法和系统 | |
CN111599344B (zh) | 一种基于拼接特征的语种识别方法 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN106601258A (zh) | 基于改进的lsda算法进行信道补偿的说话人识别方法 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN104575519A (zh) | 特征提取方法、装置及重音检测的方法、装置 | |
Shivakumar et al. | Simplified and supervised i-vector modeling for speaker age regression | |
CN108269573A (zh) | 基于矢量量化和高斯混合模型的说话人识别系统 | |
CN112331207A (zh) | 服务内容监控方法、装置、电子设备和存储介质 | |
CN104464738B (zh) | 一种面向智能移动设备的声纹识别方法 | |
Chen et al. | Speech representation learning through self-supervised pretraining and multi-task finetuning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160810 |
|
RJ01 | Rejection of invention patent application after publication |