CN106601258A - 基于改进的lsda算法进行信道补偿的说话人识别方法 - Google Patents

基于改进的lsda算法进行信道补偿的说话人识别方法 Download PDF

Info

Publication number
CN106601258A
CN106601258A CN201611139153.XA CN201611139153A CN106601258A CN 106601258 A CN106601258 A CN 106601258A CN 201611139153 A CN201611139153 A CN 201611139153A CN 106601258 A CN106601258 A CN 106601258A
Authority
CN
China
Prior art keywords
lsda
vector
algorithm
speaker
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611139153.XA
Other languages
English (en)
Inventor
蔡丹蔚
陈金坤
蔡炜诚
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Original Assignee
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, SYSU CMU Shunde International Joint Research Institute filed Critical Sun Yat Sen University
Priority to CN201611139153.XA priority Critical patent/CN106601258A/zh
Publication of CN106601258A publication Critical patent/CN106601258A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的说话人识别方法引入改进的LSDA算法代替之前的LDA算法来进行信道补偿,改进的LSDA算法通过引入自适应k近邻的概念,跟据每个类的大小自适应地寻找k个类内近邻与βk个类间近邻;并且引入每一说话人类对算法贡献均等的概念,对每一说话人类在目标方程中的贡献进行归一化处理。使得方法更适用于说话人识别任务的数据分布,从而在说话人识别准确率上得到比原始LSDA算法更好的性能提升。

Description

基于改进的LSDA算法进行信道补偿的说话人识别方法
技术领域
本发明涉及说话人识别领域,更具体地,涉及一种基于改进的局部敏感判别分析(Locality Sensitive Discriminant Analysis,LSDA)算法进行信道补偿的说话人识别方法。
背景技术
说话人识别,又称声纹识别,说话人识别指的是提取语音信号中说话人的信息,利用机器学习和模式识别的相关方法,自动地鉴定语音信号中对应的说话人身份。
说话人识别技术在过去的几十年中快速发展,在多个领域都得到了运用,具有非常重要而广泛的前景。在司法领域,说话人识别技术可以作为辅助手段分析罪证,如电话、手机录音等,从而协助确认犯罪嫌疑人;在日常民用安全和智能家居领域,说话人识别可以制作用于身份认证的“声纹密码锁”,这一技术已经成功地应用在腾讯公司的即时通信移动应用——微信的“声音锁”中;在多媒体信息处理领域,可用于电视广播、视频数据的剪辑和整理,通过提取数据中的说话人身份元信息(meta data),可以方便进行分类和索引。
目前主流的说话人识别技术主要是基于身份向量(i-vector)对说话人信息进行建模。该方法首先将每一句语音的MFCC特征在混合高斯通用背景模型(UniversalBackground Model,UBM)上进行映射,提取出零阶统计量与一阶统计量,进而得出高维的超向量(supervector)。单因子分析(single factor analysis)作为前端处理,在超向量上训练出一个低维的总体差异空间(即说话人空间),将超向量映射到总体差异空间上即可得到身份向量。概率线性判别分析(Probabilistic Linear Discriminate Analysis,PLDA)作为一种后端建模技术,对i-vector中的说话人信息进行建模。将两个i-vector在PLDA模型上计算它们之间的似然度得分,由此分数判断两个i-vector对应的说话人是否为同一个说话人。
由于总体差异空间同时对语言信息、说话人信息、信道信息进行建模,通过总体差异空间映射得到的身份向量i-vector也包含了这几部分信息。因此,在进行PLDA打分之前,通常会使用线性判别分析(Linear Discriminant Analysis,LDA)对i-vector进行信道补偿,去除与说话人信息无关的信道信息,只留下与说话人有关的信息。
上述方案中,LDA算法假设每一个说话人类的分布服从高斯分布,并对每一个说话人类的统计特性进行估算,基于欧几里得结构(Euclidean structure)寻找训练数据的线性流形(linear manifold),最大化不同说话人i-vector之间的类间差异,最小化相同说话人i-vector的类内差异。可是,在实际使用中,说话人识别身份向量的分布并不严格服从高斯分布,因此LDA算法可能会导致没有办法发现训练数据隐藏在总体差异空间中的线性子流型(linear sub-manifold)结构。
发明内容
本发明为解决以上现有技术的难题,将改进的局部敏感判别分析(LocalitySensitive Discriminant Analysis,LSDA)算法替代LDA算法来对说话人识别系统进行信道补偿,改进的LSDA算法通过引入自适应k近邻的概念,跟据每个类的大小自适应地寻找k个类内近邻与βk个类间近邻;并且引入每一说话人类对算法贡献均等的概念,对每一说话人类在目标方程中的贡献进行归一化处理。因此改进的LSDA算法与改进之前相比,更适用于说话人识别任务的数据分布。
为实现以上发明目的,采用的技术方案是:
一种基于改进的LSDA算法进行信道补偿的说话人识别方法,包括以下步骤:
S1.对训练数据中所有的语音进行语音信号检测,并提取MFCC特征;
S2.使用神经网络声学模型对MFCC特征进行处理,一个MFCC帧通过神经网络声学模型的处理后,得到多维的音素层单元后验概率向量,对得到的音素层单元后验概率向量进行取对数、主成分分析降维、均值方差归一化处理之后,得到一个多维的向量,将这个向量拼接到与其对应的MFCC特征后,得到tandem特征;
S3.利用tandem特征训练一个包含多个高斯分量的混合高斯模型作为通用背景模型,并将所有语音在这个通用背景模型上计算出充分统计量;对于训练数据中的任一条语音,基于充分统计量计算出其高维的超向量;
S4.使用单因子分析方法对训练数据中所有的语音学习出一个低维的总体差异空间,即说话人空间;将训练数据中所有的语音的超向量在这个总体差异空间上投影得出每一条语音的身份向量{x1,x2,…,xm};每条身份向量关联着说话人的身份信息,第i条身份向量xi对应的说话人标签为l(xi);
S5.使用改进的LSDA算法进行信道补偿:
S51.对于每一条身份向量xi,寻找k个具有相同说话人类标的类内近邻子集Nw(xi)与βk个具有不同说话人类标的类间近邻子集Nb(xi),其中β为一个常量;当Nw(xi)中对应的说话人的身份向量数nc小于k时,令k=nc
S52.基于类内近邻子集Nw(xi)与类间近邻子集Nb(xi)构建身份向量的类内近邻图Gw与类间近邻图Gb,以及类内近邻图Gw与类间近邻图Gb的权值矩阵Ww′与Wb′:
其中,i、j表示矩阵Wb′中第i行、第j列的元素;
为了满足对LSDA算法的两个目标方程的变形改写,最终的类内权值矩阵Ww与类间权值矩阵Wb为如下对称矩阵的形式:
S53.寻找一个在原数据流形与目标子流形之间的映射,使得在目标子流形中,Gw内的连接点尽量地接近,Gb内的连接点尽量地隔离开;令 为一个最优的线性映射,则yi=ATxi;其中,表示n×d维的实数空间,表示n维的实数空间,表示映射;
LSDA算法的两个目标方程可写为:
min∑ij(aTxi-aTxj)2Ww,ij
max∑ij(aTxi-aTxj)2Wb,ij
其中a表示A=(a1,…,ad)中的一个列向量;通过矩阵运算,LSDA算法的两个目标方程重写为:
其中,Dw为对角阵,Dw,ii=∑jWw,ij;Lb=Db-Wb,Db,ii=∑jWb,ij;X=(x1,x2,…,xm)是一个n×m的矩阵;
S54.当对角阵Dw中的Dw,ii很大时,表示数据点xi所在的类在数据点xi处很密集,因此这个点xi更加重要;引入一个限制条件,如下:
aTXDwXTa=1
因此,LSDA算法的第一个目标方程可重写为:
也即:
综合以上的公式推导,LSDA的最终目标方程为:
aTXDwXTa=1
其中,α为调整类内图Gw与类间图Gb之间权值的参数,0≤α≤1;
S55.使用拉格朗日乘子法,以上的目标方程写为:
X[αLb+(1-α)Ww]XTa=λXDwXTa
将上面公式右边的XDwXT化到公式左边,以上公式变为:
(XDwXT)-1X[αLb+(1-α)Ww]XTa=λa
因此,投影向量a的求解问题即可转变为以上公式的特征向量求解问题;寻找矩阵(XDwXT)-1X[αLb+(1-α)Ww]XT的前d个特征向量{a1,…,ad},最终的LSDA变换矩阵为
S56.将身份向量通过LSDA变换矩阵A映射到目标身份向量;对于一条原身份向量xi,映射后的目标身份向量为yi=ATxi
S6.使用PLDA算法对映射后的身份向量进行建模,得到PLDA模型;
S7.对于两个需要判断其对应身份的语音,首先提取出其身份向量,然后计算出它们在PLDA模型上的似然得分,根据分数判断两个身份向量所对应的说话人是否为同一个。
上述方案中,本发明提供的方法主要有两个方面的改进:
改进1:步骤S51中,原始的LSDA算法寻找每条身份向量xi的k个邻近的身份向量,并将其分成具有和xi相同说话人类标的类内近邻子集与具有和xi不同说话人类标的类间近邻子集。考虑如下特殊情况:当身份向量xi所属说话人类只有xi一条身份向量时,此时xi的全部k个邻近的身份向量有着与xi所属说话人不一样的类标。在这种情况下,LSDA不能有效地学到数据流形的几何结构。
基于此,本发明将自适应k近邻的想法引入LSDA算法。改进的LSDA算法那寻找k个具有相同说话人类标的近邻子集Nw(xi)与βk个具有不同说话人类标的近邻子集Nb(xi),其中β为一个常量。当Nw(xi)中对应的说话人的身份向量数nc小于k时,令k=nc,此时根据参数nc与βnc分别构造Nw(xi)与Nb(xi)。
改进2:在步骤S52中,原始LSDA算法的权值矩阵为:
通过目标方程可以看出,由于用于训练说话人识别系统的数据的不均匀分布,身份向量条数少的说话人类对于LSDA算法最终的目标方程的贡献少于身份向量条数多的说话人类,当两个说话人类的身份向量条数相差变大时,这种对LSDA算法目标方程的贡献差异更加明显。理想的情况下,希望每一个说话人类在LSDA算法目标方程中的贡献是一样的。基于此,本发明对步骤S52中的类内权值矩阵Ww′与类间权值矩阵Wb′做如下修改:
为了满足在对两个LSDA的原始目标方程的变形改写,最终的类内权值矩阵Ww与类间权值矩阵Wb为以下对称矩阵的形式:
与现有技术相比,本发明的有益效果是:
本发明提供的说话人识别方法引入改进的LSDA算法代替之前的LDA算法来进行信道补偿,改进的LSDA算法通过引入自适应k近邻的概念,跟据每个类的大小自适应地寻找k个类内近邻与βk个类间近邻;并且引入每一说话人类对算法贡献均等的概念,对每一说话人类在目标方程中的贡献进行归一化处理。使得方法更适用于说话人识别任务的数据分布,从而在说话人识别准确率上得到比原始LSDA算法更好的性能提升。
附图说明
图1为LSDA算法的学习过程。
图2为识别方法的流程图。
图3为实验结果的检测错误均衡曲线。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
本实施例采用美国国家技术标准局2010年说话人识别(NIST SRE 2010)的训练数据进行说话人识别系统的搭建,使用其核心测试集对所搭建的说话人识别系统进行性能测试。图2为本发明提供的基于改进LSDA算法进行信道补偿的说话人识别方法的具体流程图,该方法包括以下步骤:
步骤1、对训练数据中的所有语音进行语音信号检测(Voice ActivityDetection,VAD),并提取MFCC特征。本实施例中采用了基于能量的VAD来去掉语音信号中的静音与噪声部分。每一条语音提取出一连串的多维的MFCC特征向量,并使用特征均值方差归一化与特征弯曲(feature warping)对MFCC特征向量进行处理,以抑制说话人类内差异。
步骤2、使用神经网络声学模型,提取MFCC特征中每一帧在各个音素层单元上的后验概率。一个MFCC帧通过神经网络的处理后,得到多维的音素层单元后验概率向量,对其经过取对数、主成分分析(Principal Component Analysis,PCA)降维、均值方差归一化之后,得到一个多维的向量。将这个向量拼接到与其对应的MFCC特征后,得到tandem特征。在本实施例中,使用LDC fisher语料库中约1800小时的英语语料训练神经网络声学模型。
步骤3、使用tandem特征训练一个包含多个高斯分量的混合高斯模型,作为通用背景模型UBM,并将所有语音在这个通用背景模型上计算出充分统计量。对于一条语音,基于充分统计量计算出其高维的超向量。在本实施例中,训练UBM的数据为NIST SRE 2004与2005语料库。
步骤4、使用单因子分析对所有语音学习出一个低维的总体差异空间,即说话人空间。在本实施例中,使用NIST SRE 2004、2005、2006、2008语料库中的电话信道语料训练说话人空间。将所有训练数据语音的超向量在这个总体差异空间上投影得出每一条语音的身份向量,每条身份向量关联着说话人的身份信息。
步骤5、使用改进的LSDA算法进行信道补偿。
步骤5.1、对于每一条身份向量xi,如图1所示,寻找k个具有相同说话人类标的类内近邻子集Nw(xi)与βk个具有不同说话人类标的类间近邻子集Nb(xi),其中β为一个常量。当xi对应的说话人类的身份向量数nc小于k时,令k=nc,此时根据参数nc与βnc分别构造Nw(xi)与Nb(xi)。在本实施例中,k取20,β取3。
步骤5.2、基于类内临近点子集Nw(xi)与类间临近点子集Nb(xi)构建身份向量的类内近临图Gw与类间近临图Gb,以及它们的权值矩阵Ww与Wb
最终的类内权值矩阵Ww′与类间权值矩阵Wb′为以下对称矩阵的形式:
步骤5.3、寻找一个身份向量与目标身份向量之间的映射,使得在目标身份向量中,Gw内的连接点尽量地接近,Gb内的连接点尽量地隔离开。令 为一个最优的线性映射,则yi=ATxi。根据本发明所描述的对以上两个目标方程进行优化的过程,可得出LSDA算法最终的目标方程:
aTXDwXTa=1
其中,α为调整类内图Gw与类间图Gb之间权值的参数,在本实施例中,α取0.1;Dw为对角阵,Dw,ii=∑jWw,ij;Lb=Db-Wb,Db,ii=∑jWb,ij;X=(x1,x2,…,xm)是一个n×m的矩阵。
步骤5.4、寻找矩阵(XDwXT)-1X[αLb+(1-α)Ww]XT的前d个特征向量{a1,…,ad},最终的LSDA变换矩阵为
步骤5.5、将身份向量通过LSDA变换矩阵A映射到目标身份向量;对于一条原身份向量xi,映射后的目标身份向量为yi=ATxi
步骤6、使用PLDA算法对映射后的身份向量进行建模,得到PLDA模型。在本实施例中,所有的训练数据,包括NIST SRE 2004、2005、2006、2008语料库中的电话信道语料,被用于PLDA模型的训练。
步骤7、对于NIST SRE 2010核心测试集中两个需要判断其对应身份的语音,首先提取出起身份向量,然后计算出它们在PLDA模型上的似然得分,根据分数判断两个身份向量所对应的说话人是否为同一个。
以下为实验结果:
图3、表1记录了本实施例的实验结果。基线系统使用的识别方法为基于i-vector/PLDA算法的识别方法。将基线系统、基于LDA算法进行信道补偿的识别系统、基于LSDA算法进行信道补偿的识别系统作为对照系统,与本实施例提出的基于改进LSDA算法进行信道补偿的识别系统进行对比,验证了本发明所提出的基于改进LSDA算法进行信道补偿的识别方法在说话人识别任务上的有效性。
表1
系统 minDCF10 minDCF08 EER[%]
基线系统(i-vector/PLDA) 0.2222 0.0681 1.62
LDA 0.2198 0.0672 1.59
LSDA 0.1957 0.0609 1.43
改进LSDA 0.1842 0.0538 1.16
相比于传统的说话人识别系统,本发明提出的基于改进的LSDA算法进行信道补偿的说话人识别方法在性能上有了明显的提升。在美国国家技术标准局2010年说话人识别(NIST SRE 2010)核心测试集上,等错误率从基线系统的1.62%下降到1.16%,相比下降了28%;最小检测错误代价(norm minDCF10)从0.22下降到0.18,相比下降18%。而原始的基于LSDA算法进行信道补偿的识别方法相比于基线系统,等错误率与最小检测错误代价只下降了11.7%与11.9%。这说明本发明所提出的基于改进LSDA算法进行信道补偿的说话人识别方法相比于原始的基于LSDA算法进行信道补偿的说话人识别方法,在说话人识别任务上有着更加优秀的性能。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于改进的LSDA算法进行信道补偿的说话人识别方法,其特征在于:包括以下步骤:
S1.对训练数据中所有的语音进行语音信号检测,并提取MFCC特征;
S2.使用神经网络声学模型对MFCC特征进行处理,一个MFCC帧通过神经网络声学模型的处理后,得到多维的音素层单元后验概率向量,对得到的音素层单元后验概率向量进行取对数、主成分分析降维、均值方差归一化处理之后,得到一个多维的向量,将这个向量拼接到与其对应的MFCC特征后,得到tandem特征;
S3.利用tandem特征训练一个包含多个高斯分量的混合高斯模型作为通用背景模型,并将所有语音在这个通用背景模型上计算出充分统计量;对于训练数据中的任一条语音,基于充分统计量计算出其高维的超向量;
S4.使用单因子分析方法对训练数据中所有的语音学习出一个低维的总体差异空间,即说话人空间;将训练数据中所有的语音的超向量在这个总体差异空间上投影得出每一条语音的身份向量{x1,x2,…,xm};每条身份向量关联着说话人的身份信息,第i条身份向量xi对应的说话人标签为l(xi);
S5.使用改进的LSDA算法进行信道补偿:
S51.对于每一条身份向量xi,寻找k个具有相同说话人类标的类内近邻子集Nw(xi)与βk个具有不同说话人类标的类间近邻子集Nb(xi),其中β为一个常量;当Nw(xi)中对应的说话人的身份向量数nc小于k时,令k=nc
S52.基于类内近邻子集Nw(xi)与类间近邻子集Nb(xi)构建身份向量的类内近邻图Gw与类间近邻图Gb,以及类内近邻图Gw与类间近邻图Gb的权值矩阵Ww′与Wb′:
其中,i、j表示矩阵Wb′中第i行、第j列的元素;
为了满足对LSDA算法的两个目标方程的变形改写,最终的类内权值矩阵Ww与类间权值矩阵Wb为如下对称矩阵的形式:
W w = 1 2 ( W w ′ + W w ′ T )
W b = 1 2 ( W b ′ + W b ′ T )
S53.寻找一个在原数据流形与目标子流形之间的映射,使得在目标子流形中,Gw内的连接点尽量地接近,Gb内的连接点尽量地隔离开;令 为一个最优的线性映射,则yi=ATxi;其中,表示n×d维的实数空间,表示n维的实数空间,表示映射;
LSDA算法的两个目标方程可写为:
min∑ij(aTxi-aTxj)2Ww,ij
max∑ij(aTxi-aTxj)2Wb,ij
其中a表示A=(a1,…,ad)中的一个列向量;通过矩阵运算,LSDA算法的两个目标方程重写为:
1 2 Σ i j ( a T x i - a T x j ) 2 W w , i j = 1 2 Σ i j ( a T x i x i T a - 2 a T x i a T x j + a T x j x j T a ) W w , i j = 1 2 ( Σ i j a T x i x i T aW w , i j + Σ i j a T x j x j T aW w , i j ) - Σ i j a T x i a T x j W w , i j = Σ i j a T x i x i T aW w , i j - Σ i j a T x i a T x j W w , i j = a T XD w X T a - a T XW w X T a
1 2 Σ i j ( a T x i - a T x j ) 2 W b , i j = a T XL b X T a
= 1 2 Σ i j ( a T x i x i T a - 2 a T x i a T x j + a T x j x j T a ) W b , i j = 1 2 ( Σ i j a T x i x i T aW b , i j + Σ i j a T x j x j T aW b , i j ) - Σ i j a T x i a T x j W b , i j = Σ i j a T x i x i T aW b , i j - Σ i j a T x i a T x j W b , i j = a T XD b X T a - a T XW b X T a = a T XL b X T a
其中,Dw为对角阵,Dw,ii=∑jWw,ij;Lb=Db-Wb,Db,ii=∑jWb,ij;X=(x1,x2,…,xm)是一个n×m的矩阵;
S54.当对角阵Dw中的Dw,ii很大时,表示数据点xi所在的类在数据点xi处很密集,因此这个点xi更加重要;引入一个限制条件,如下:
aTXDwXTa=1
因此,LSDA算法的第一个目标方程可重写为:
m i n a 1 - a T XW w X T a
也即:
m a x a a T XW w X T a
综合以上的公式推导,LSDA的最终目标方程为:
argmax a a T X [ αL b + ( 1 - α ) W w ] X T a
aTXDwXTa=1
其中,α为调整类内图Gw与类间图Gb之间权值的参数,0≤α≤1;
S55.使用拉格朗日乘子法,以上的目标方程写为:
X[αLb+(1-α)Ww]XTa=λXDwXTa
将上面公式右边的XDwXT化到公式左边,以上公式变为:
(XDwXT)-1X[αLb+(1-α)Ww]XTa=λa
因此,投影向量a的求解问题即可转变为以上公式的特征向量求解问题;寻找矩阵(XDwXT)-1X[αLb+(1-α)Ww]XT的前d个特征向量{a1,…,ad},最终的LSDA变换矩阵为
S56.将身份向量通过LSDA变换矩阵A映射到目标身份向量;对于一条原身份向量xi,映射后的目标身份向量为yi=ATxi
S6.使用PLDA算法对映射后的身份向量进行建模,得到PLDA模型;
S7.对于两个需要判断其对应身份的语音,首先提取出其身份向量,然后计算出它们在PLDA模型上的似然得分,根据分数判断两个身份向量所对应的说话人是否为同一个。
2.根据权利要求1所述的基于改进的LSDA算法进行信道补偿的说话人识别方法,其特征在于:所述步骤S1采取基于能量的VAD方法来去除语音信号中的静音与噪声部分,然后对去除静音与噪声部分的语音信号进行MFCC特征的提取,并通过特征均值方差归一化与特征弯曲方法对提取的MFCC特征进行处理,以抑制说话人类内差异;处理后的MFCC特征进行步骤S2的处理。
3.根据权利要求1所述的基于改进的LSDA算法进行信道补偿的说话人识别方法,其特征在于:所述步骤S2利用LDC fisher语料库中的英语语料对神经网络声学模型进行训练,然后使用经过训练的神经网络声学模型对MFCC特征进行处理。
4.根据权利要求1所述的基于改进的LSDA算法进行信道补偿的说话人识别方法,其特征在于:所述k取20,β取3,α取0.1。
CN201611139153.XA 2016-12-12 2016-12-12 基于改进的lsda算法进行信道补偿的说话人识别方法 Pending CN106601258A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611139153.XA CN106601258A (zh) 2016-12-12 2016-12-12 基于改进的lsda算法进行信道补偿的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611139153.XA CN106601258A (zh) 2016-12-12 2016-12-12 基于改进的lsda算法进行信道补偿的说话人识别方法

Publications (1)

Publication Number Publication Date
CN106601258A true CN106601258A (zh) 2017-04-26

Family

ID=58597611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611139153.XA Pending CN106601258A (zh) 2016-12-12 2016-12-12 基于改进的lsda算法进行信道补偿的说话人识别方法

Country Status (1)

Country Link
CN (1) CN106601258A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
CN107886957A (zh) * 2017-11-17 2018-04-06 广州势必可赢网络科技有限公司 一种结合声纹识别的语音唤醒方法及装置
CN108091326A (zh) * 2018-02-11 2018-05-29 张晓雷 一种基于线性回归的声纹识别方法及系统
CN108245177A (zh) * 2018-01-05 2018-07-06 安徽大学 一种婴儿智能监护可穿戴设备及基于gmm-hmm-dnn的婴儿哭声识别方法
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
WO2019134247A1 (zh) * 2018-01-03 2019-07-11 平安科技(深圳)有限公司 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN110166424A (zh) * 2019-04-03 2019-08-23 西安电子科技大学 面向物联网服务隐私保护声纹识别方法及系统、移动终端
CN110555370A (zh) * 2019-07-16 2019-12-10 西北工业大学 水下目标识别中基于plda因子分析法的通道效应抑制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN104538035A (zh) * 2014-12-19 2015-04-22 深圳先进技术研究院 一种基于Fisher超向量的说话人识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN104538035A (zh) * 2014-12-19 2015-04-22 深圳先进技术研究院 一种基于Fisher超向量的说话人识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
H. HERMANSKY等: ""TANDEM CONNECTIONIST FEATURE EXTRACTION FOR CONVENTIONAL HMM SYSTEMS"", 《2000 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS》 *
Z. BOULKENAFET等: ""Using the conformal embedding analysis to compensate the channel effect in the i-vector based speaker verification system"", 《2013 INTERNATIONAL CONFERENCE OF THE BIOSIG SPECIAL INTEREST GROUP (BIOSIG)》 *
左加阔: ""基于流形学习算法的新生儿疼痛表情识别"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
CN107886957A (zh) * 2017-11-17 2018-04-06 广州势必可赢网络科技有限公司 一种结合声纹识别的语音唤醒方法及装置
WO2019134247A1 (zh) * 2018-01-03 2019-07-11 平安科技(深圳)有限公司 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN108245177A (zh) * 2018-01-05 2018-07-06 安徽大学 一种婴儿智能监护可穿戴设备及基于gmm-hmm-dnn的婴儿哭声识别方法
CN108245177B (zh) * 2018-01-05 2021-01-01 安徽大学 一种婴儿智能监护可穿戴设备及基于gmm-hmm-dnn的婴儿哭声识别方法
CN108091326A (zh) * 2018-02-11 2018-05-29 张晓雷 一种基于线性回归的声纹识别方法及系统
CN108091326B (zh) * 2018-02-11 2021-08-06 张晓雷 一种基于线性回归的声纹识别方法及系统
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN108694949B (zh) * 2018-03-27 2021-06-22 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN110166424A (zh) * 2019-04-03 2019-08-23 西安电子科技大学 面向物联网服务隐私保护声纹识别方法及系统、移动终端
CN110166424B (zh) * 2019-04-03 2022-03-25 西安电子科技大学 面向物联网服务隐私保护声纹识别方法及系统、移动终端
CN110555370A (zh) * 2019-07-16 2019-12-10 西北工业大学 水下目标识别中基于plda因子分析法的通道效应抑制方法
CN110555370B (zh) * 2019-07-16 2023-03-31 西北工业大学 水下目标识别中基于plda因子分析法的通道效应抑制方法

Similar Documents

Publication Publication Date Title
CN106601258A (zh) 基于改进的lsda算法进行信道补偿的说话人识别方法
Senoussaoui et al. An i-vector Extractor Suitable for Speaker Recognition with both Microphone and Telephone Speech.
Rouvier et al. Speaker diarization through speaker embeddings
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN113033438B (zh) 一种面向模态非完全对齐的数据特征学习方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN105261367A (zh) 一种说话人识别方法
McLaren et al. Improved speaker recognition when using i-vectors from multiple speech sources
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
Rouvier et al. Speaker adaptation of DNN-based ASR with i-vectors: Does it actually adapt models to speakers?
CN105845141A (zh) 基于信道鲁棒的说话人确认模型及说话人确认方法和装置
CN105280181A (zh) 一种语种识别模型的训练方法及语种识别方法
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
CN105931646A (zh) 一种基于简单直接度量学习算法的说话人识别方法
Yi et al. Disentangled speaker embedding for robust speaker verification
Azam et al. Speaker verification using adapted bounded Gaussian mixture model
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
Chu et al. Fishervoice and semi-supervised speaker clustering
Borgström Unsupervised Bayesian Adaptation of PLDA for Speaker Verification.
Tang et al. Generative model-based speaker clustering via mixture of von mises-fisher distributions
CN114997266B (zh) 一种面向语音识别的特征迁移学习方法及系统
Bahmaninezhad et al. Compensation for Domain Mismatch in Text-independent Speaker Recognition.
Zhang et al. Text independent voiceprint recognition model based on I-vector
Rouvier et al. Investigation of speaker embeddings for cross-show speaker diarization
Li et al. Learning deep representations by multilayer bootstrap networks for speaker diarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170426

RJ01 Rejection of invention patent application after publication