CN110148417B - 基于总变化空间与分类器联合优化的说话人身份识别方法 - Google Patents

基于总变化空间与分类器联合优化的说话人身份识别方法 Download PDF

Info

Publication number
CN110148417B
CN110148417B CN201910439064.4A CN201910439064A CN110148417B CN 110148417 B CN110148417 B CN 110148417B CN 201910439064 A CN201910439064 A CN 201910439064A CN 110148417 B CN110148417 B CN 110148417B
Authority
CN
China
Prior art keywords
mean value
speaker
classifier
voice
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910439064.4A
Other languages
English (en)
Other versions
CN110148417A (zh
Inventor
韩纪庆
陈晨
郑贵滨
郑铁然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910439064.4A priority Critical patent/CN110148417B/zh
Publication of CN110148417A publication Critical patent/CN110148417A/zh
Application granted granted Critical
Publication of CN110148417B publication Critical patent/CN110148417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

基于总变化空间与分类器联合优化的说话人身份识别方法,它属于说话人识别技术领域。本发明解决了目前的总变化空间估计方法对说话人身份识别的等错误率高的问题。本发明首先求得训练集均值超矢量在初始总变化空间上的表示;然后对该表示进行长度规整,并输入分类器PLDA;接着在分类器PLDA的监督下,更新分类器的参数与总变化空间的参数,重复上述步骤,直至达到设置的最大迭代次数,获得最终的分类器参数与总变化空间参数;测试时,利用测试语音的均值超矢量和目标说话人的均值超矢量,计算其在总变化空间上的表示,然后对该表示进行长度规整,并计算其在分类器上的联合概率密度作为最终分类的依据。本发明可以应用于说话人识别技术领域。

Description

基于总变化空间与分类器联合优化的说话人身份识别方法
技术领域
本发明属于说话人识别技术领域,具体涉及一种基于总变化空间与分类器联合优化的说话人身份识别方法。
背景技术
语音是人类之间交流情感与认知的重要信息载体,是在生活与工作中最基本、最自然的交流方式。随着信息技术的发展,使得通过分析语音信号中的个人特征来识别说话人身份成为可能。说话人身份识别技术也因其良好的准确性、经济性和可扩展性,拥有着广阔的发展空间。在众多说话人身份识别技术中,基于身份-向量(i-vector)框架的说话人身份识别方法,由于其优异的性能与较高的效率,应用最为广泛。
I-vector框架的核心技术为总变化空间的估计,在估计过程中,通过对大量说话人数据的分析,从中找出能够对说话人身份起解释作用的主要因子,从而进行特征提取并用于识别任务。可见,总变化空间的估计过程服务于说话人身份识别任务。但目前的总变化空间估计方法均未考虑任务的需求,这不利于身份识别任务的进行,进而影响系统的识别性能,导致说话人身份识别的等错误率较高。因此,在总变化空间估计的过程中,同时兼顾识别任务的研究,具有重要的研究意义与应用价值。
发明内容
本发明的目的是为解决目前的总变化空间估计方法对说话人身份识别的等错误率高的问题,而提出了一种基于总变化空间与分类器联合优化的说话人身份识别方法。
本发明为解决上述技术问题采取的技术方案是:基于总变化空间与分类器联合优化的说话人身份识别方法,该方法包括以下步骤:
步骤一、将训练集中每段语音的梅尔倒谱系数输入通用背景模型(UniversalBackground Model,UBM),并在通用背景模型上采用最大后验概率方法进行自适应,获得每段语音对应的高斯混合模型,利用高斯混合模型获得训练集中每段语音对应的均值超矢量;
则训练集中每段语音对应的均值超矢量组成均值超矢量集合;
步骤二、计算训练集中全部段语音对应的均值超矢量的均值m及训练集中全部段语音对应的均值超矢量的协方差矩阵Φ;
步骤三、随机初始化分类器概率线性判别分析模型(Probabilistic LinearDiscriminant Analysis,PLDA)和总变化空间的参数分别为{Λ,Ψ}和T;
步骤四、利用均值超矢量集合、均值超矢量的均值m、均值超矢量的协方差矩阵Φ以及总变化空间参数T,计算总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵Lw与后验均值
Figure BDA0002071477890000021
步骤五、分别对每段语音对应的i-vector特征的后验均值
Figure BDA0002071477890000022
进行长度规整,获得长度规整后每段语音对应的i-vector特征;
步骤六、利用长度规整后每段语音对应的i-vector特征以及分类器概率线性判别分析模型的参数{Λ,Ψ},计算出分类器概率线性判别分析模型中隐变量θs的后验精度矩阵Lθ,s、后验均值
Figure BDA0002071477890000023
和后验相关矩阵
Figure BDA0002071477890000024
步骤七、利用长度规整后每段语音对应的i-vector特征、分类器概率线性判别分析模型中隐变量θs的后验均值
Figure BDA0002071477890000025
和后验相关矩阵
Figure BDA0002071477890000026
获得更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′};
步骤八、利用均值超矢量集合、均值超矢量的均值m、每段语音对应的i-vector特征的后验均值
Figure BDA0002071477890000027
长度规整后每段语音对应的i-vector特征、更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′}以及分类器概率线性判别分析模型中隐变量θs的后验均值
Figure BDA0002071477890000028
计算更新后的总变化空间的参数T′;
步骤九、利用更新后的分类器概率线性判别分析模型参数{Λ′,Ψ′}替换步骤六中的分类器概率线性判别分析模型参数{Λ,Ψ},利用更新后的总变化空间参数T′替换步骤四中的总变化空间参数T,来重复步骤四至步骤八的过程,直至达到设置的最大迭代次数时停止迭代,获得最终的分类器概率线性判别分析模型的参数{Λ00}和总变化空间的参数T0
步骤十:对于测试集中的任意一段语音,假设该段测试语音对应的均值超矢量为Mtest;目标说话人对应的均值超矢量为Mtarget
则分别计算出均值超矢量Mtest与均值超矢量Mtarget在总变化空间上的表示,获得该段测试语音对应的i-vector特征wtest以及目标说话人对应的i-vector特征wtarget
步骤十一:分别对步骤十获得的i-vector特征wtest与wtarget进行长度规整,获得长度规整后的i-vector特征
Figure BDA0002071477890000031
Figure BDA0002071477890000032
步骤十二:计算长度规整后的i-vector特征
Figure BDA0002071477890000033
Figure BDA0002071477890000034
在分类器概率线性判别分析模型上的联合概率密度,将求得的联合概率密度作为匹配得分Stest,target
步骤十三:将步骤十二的匹配得分Stest,target与阈值S′进行比较,若匹配得分Stest,target大于等于阈值S′,则长度规整后的i-vector特征
Figure BDA0002071477890000035
对应的测试集语音段来自于目标说话人,若匹配得分Stest,target小于阈值S′,则长度规整后的i-vector特征
Figure BDA0002071477890000036
对应的测试集语音段不是来自于目标说话人;
同理,即判断出测试集中的其他段语音是否来自于目标说话人。
本发明的有益效果是:本发明提出了一种基于总变化空间与分类器联合优化的说话人身份识别方法,本发明首先求得训练集均值超矢量在初始总变化空间上的表示;然后对该表示进行长度规整,并输入分类器PLDA;接着在分类器PLDA的监督下,更新分类器的参数与总变化空间的参数;最后重复上述步骤,直至达到设置的最大迭代次数,获得最终的分类器参数与总变化空间参数;测试时,将测试语音的均值超矢量和目标说话人的均值超矢量作为输入,得到其在总变化空间上的表示,然后对该表示进行长度规整,并计算其在分类器上的联合概率密度作为最终分类的依据。实验结果表明,本发明方法在两个不同数据集上的等错误率分别达到2.17%和7.10%,相比于经典方法中性能最好的方法,相对等错误率分别降低了6.87%和6.95%。
附图说明
图1是本发明的基于总变化空间与分类器联合优化的说话人身份识别方法的流程图;
图2为在数据库King-ASR-010上,本发明方法(对应TDVM柱)与TVM方法、CDS方法、LDA方法以及PLDA方法的等错误率对比图;
图3为在数据库VoxCeleb上,本发明方法(对应TDVM柱)与TVM方法、CDS方法、LDA方法以及PLDA方法的等错误率对比图。
具体实施方式
具体实施方式一:如图1所示,本实施方式所述的基于总变化空间与分类器联合优化的说话人身份识别方法,该方法包括以下步骤:
步骤一、将训练集中每段语音的梅尔倒谱系数输入通用背景模型,并在通用背景模型上采用最大后验概率方法进行自适应,获得每段语音对应的高斯混合模型,利用高斯混合模型获得训练集中每段语音对应的均值超矢量;
则训练集中每段语音对应的均值超矢量组成均值超矢量集合;
步骤二、计算训练集中全部段语音对应的均值超矢量的均值m及训练集中全部段语音对应的均值超矢量的协方差矩阵Φ;
步骤三、随机初始化分类器概率线性判别分析模型和总变化空间的参数分别为{Λ,Ψ}和T;
步骤四、利用均值超矢量集合、均值超矢量的均值m、均值超矢量的协方差矩阵Φ以及总变化空间参数T,计算总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵Lw与后验均值
Figure BDA0002071477890000041
步骤五、分别对每段语音对应的i-vector特征的后验均值
Figure BDA0002071477890000042
进行长度规整,获得长度规整后每段语音对应的i-vector特征;
步骤六、利用长度规整后每段语音对应的i-vector特征以及分类器概率线性判别分析模型的参数{Λ,Ψ},计算出分类器概率线性判别分析模型中隐变量θs的后验精度矩阵Lθ,s、后验均值
Figure BDA0002071477890000043
和后验相关矩阵
Figure BDA0002071477890000044
步骤七、利用长度规整后每段语音对应的i-vector特征、分类器概率线性判别分析模型中隐变量θs的后验均值
Figure BDA0002071477890000045
和后验相关矩阵
Figure BDA0002071477890000046
获得更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′};
步骤八、利用均值超矢量集合、均值超矢量的均值m、每段语音对应的i-vector特征的后验均值
Figure BDA0002071477890000047
长度规整后每段语音对应的i-vector特征、更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′}以及分类器概率线性判别分析模型中隐变量θs的后验均值
Figure BDA0002071477890000048
计算更新后的总变化空间的参数T′;
步骤九、利用更新后的分类器概率线性判别分析模型参数{Λ′,Ψ′}替换步骤六中的分类器概率线性判别分析模型参数{Λ,Ψ},利用更新后的总变化空间参数T′替换步骤四中的总变化空间参数T,来重复步骤四至步骤八的过程,直至达到设置的最大迭代次数时停止迭代,获得最终的分类器概率线性判别分析模型的参数{Λ00}和总变化空间的参数T0
步骤十:对于测试集中的任意一段语音,假设该段测试语音对应的均值超矢量为Mtest;目标说话人对应的均值超矢量为Mtarget
则分别计算出均值超矢量Mtest与均值超矢量Mtarget在总变化空间上的表示,获得该段测试语音对应的i-vector特征wtest以及目标说话人对应的i-vector特征wtarget
步骤十一:分别对步骤十获得的i-vector特征wtest与wtarget进行长度规整,获得长度规整后的i-vector特征
Figure BDA0002071477890000051
Figure BDA0002071477890000052
步骤十二:计算长度规整后的i-vector特征
Figure BDA0002071477890000053
Figure BDA0002071477890000054
在分类器概率线性判别分析模型上的联合概率密度,将求得的联合概率密度作为匹配得分Stest,target
步骤十三:将步骤十二的匹配得分Stest,target与阈值S′进行比较,若匹配得分Stest,target大于等于阈值S′,则长度规整后的i-vector特征
Figure BDA0002071477890000055
对应的测试集语音段来自于目标说话人,若匹配得分Stest,target小于阈值S′,则长度规整后的i-vector特征
Figure BDA0002071477890000056
对应的测试集语音段不是来自于目标说话人;
同理,即判断出测试集中的其他段语音是否来自于目标说话人。
本发明通过提出一个双层框架来联合优化总变化空间与后端分类器PLDA,来增强两个阶段之间的关联性,最终达到降低说话人身份识别等错误率的目的。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述利用高斯混合模型获得训练集中每段语音对应的均值超矢量,其具体过程为:
假设训练集中共包含S0个说话人的语音,且包含第s个说话人的语音段总数为Hs,s=1,2,…,S0
根据第s个说话人的第h段语音对应的所有高斯分量的均值μc,c=1,2,...,C,获得第s个说话人的第h段语音对应的均值超矢量Ms,h,Ms,h的表达式为:
Figure BDA0002071477890000061
其中:C代表第s个说话人的第h段语音对应的高斯分量的均值的个数,μ1代表第s个说话人的第h段语音对应的第一个高斯分量的均值;
则训练集中每段语音对应的均值超矢量组成的均值超矢量集合为
Figure BDA0002071477890000062
其中:s为说话人编号,S0为说话人总数;h为说话人的第h段语音。
具体实施方式三:本实施方式与具体实施方式二不同的是:所述步骤二的具体过程为:
Figure BDA0002071477890000063
具体实施方式四:本实施方式与具体实施方式三不同的是:所述总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵Lw与后验均值
Figure BDA0002071477890000064
的表达式分别为:
Figure BDA0002071477890000065
其中,
Figure BDA0002071477890000066
代表第s个说话人的第h段语音对应的i-vector特征的后验均值,Iw为单位矩阵;上角标T代表矩阵的转置,上角标-1代表矩阵的逆。
具体实施方式五:本实施方式与具体实施方式四不同的是:所述步骤五的具体过程为:
Figure BDA0002071477890000067
其中,
Figure BDA0002071477890000068
为长度规整后,第s个说话人的第h段语音对应的i-vector特征;μ为训练集中全部段语音对应的i-vector特征的后验均值
Figure BDA0002071477890000069
的均值;<·>为内积;
Figure BDA0002071477890000071
具体实施方式六:本实施方式与具体实施方式五不同的是:所述分类器概率线性判别分析模型中隐变量θs的后验精度矩阵Lθ,s、后验均值
Figure BDA0002071477890000072
和后验相关矩阵
Figure BDA0002071477890000073
的表达式分别为:
Figure BDA0002071477890000074
其中,Iθ为单位阵。
具体实施方式七:本实施方式与具体实施方式六不同的是:所述步骤七的具体过程为:
Figure BDA0002071477890000075
其中:{Λ′,Ψ′}代表更新后的分类器概率线性判别分析模型的参数。
具体实施方式八:本实施方式与具体实施方式七不同的是:所述步骤八的具体过程为:
Figure BDA0002071477890000076
其中:T′代表更新后的总变化空间的参数,I代表单位矩阵,
Figure BDA0002071477890000077
fU代表fU
Figure BDA0002071477890000078
的导数,
Figure BDA0002071477890000079
代表对
Figure BDA00020714778900000710
fU的结果进行转置,fU代表目标函数,fU的表达式如下:
Figure BDA0002071477890000081
δs,h代表
Figure BDA0002071477890000082
的内积,|·|代表行列式。
具体实施方式九:本实施方式与具体实施方式八不同的是:所述步骤九中的最大迭代次数的取值为5~10次。
具体实施方式十:本实施方式与具体实施方式九不同的是:所述步骤十的具体过程为:
对于测试集中的任意一段语音,假设该段测试语音对应的均值超矢量为Mtest;目标说话人对应的均值超矢量为Mtarget
则分别计算出均值超矢量Mtest与均值超矢量Mtarget在总变化空间上的表示,获得该段测试语音对应的i-vector特征以及目标说话人对应的i-vector特征;
Figure BDA0002071477890000083
其中:wtest代表该段测试语音对应的i-vector特征,wtarget代表目标说话人对应的i-vector特征,T0代表最终的总变化空间的参数。
具体实施方式十一:本实施方式与具体实施方式十不同的是:所述步骤二的具体过程为:所述步骤十一中长度规整后的i-vector特征
Figure BDA0002071477890000084
Figure BDA0002071477890000085
的表达式分别为:
Figure BDA0002071477890000086
具体实施方式十二:本实施方式与具体实施方式十一不同的是:所述步骤十二的具体过程为:
Figure BDA0002071477890000087
其中:Q和P均为中间变量,且Q和P的表达式分别为:
Figure BDA0002071477890000088
Figure BDA0002071477890000091
其中:中间变量Σtot和Σac的表达式分别为:
Σtot=Λ0Λ0 T0 (15)
Σac=Λ0Λ0 T (16)
其中:{Λ00}代表最终的分类器概率线性判别分析模型参数。
图2和图3是本发明方法与其他经典方法在两个不同数据库(King-ASR-010,VoxCeleb)上的性能(等错误率)对比柱状图。通过图2和图3的柱状图可以看出,本发明(对应TDVM柱)的等错误率低于其他经典方法。其中,TVM为传统总变化空间估计方法;CDS为余弦距离打分;LDA为线性判别分析;PLDA为概率线性判别分析分类器。实验结果表明,本发明方法在两个不同数据集上等错误率分别达到2.17%和7.10%,相比于经典方法中性能最好的方法,相对等错误率分别降低了6.87%和6.95%。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (12)

1.基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,该方法包括以下步骤:
步骤一、将训练集中每段语音的梅尔倒谱系数输入通用背景模型,并在通用背景模型上采用最大后验概率方法进行自适应,获得每段语音对应的高斯混合模型,利用高斯混合模型获得训练集中每段语音对应的均值超矢量;
则训练集中每段语音对应的均值超矢量组成均值超矢量集合;
步骤二、计算训练集中全部段语音对应的均值超矢量的均值m及训练集中全部段语音对应的均值超矢量的协方差矩阵Φ;
步骤三、随机初始化分类器概率线性判别分析模型和总变化空间的参数分别为{Λ,Ψ}和T;
步骤四、利用均值超矢量集合、均值超矢量的均值m、均值超矢量的协方差矩阵Φ以及总变化空间参数T,计算总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵Lw与后验均值
Figure FDA0002873366470000011
步骤五、分别对每段语音对应的i-vector特征的后验均值
Figure FDA0002873366470000018
进行长度规整,获得长度规整后每段语音对应的i-vector特征;
步骤六、利用长度规整后每段语音对应的i-vector特征以及分类器概率线性判别分析模型的参数{Λ,Ψ},计算出分类器概率线性判别分析模型中隐变量θs的后验精度矩阵Lθ,s、后验均值
Figure FDA0002873366470000012
和后验相关矩阵
Figure FDA0002873366470000013
步骤七、利用长度规整后每段语音对应的i-vector特征、分类器概率线性判别分析模型中隐变量θs的后验均值
Figure FDA0002873366470000014
和后验相关矩阵
Figure FDA0002873366470000015
获得更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′};
步骤八、利用均值超矢量集合、均值超矢量的均值m、每段语音对应的i-vector特征的后验均值
Figure FDA0002873366470000016
长度规整后每段语音对应的i-vector特征、更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′}以及分类器概率线性判别分析模型中隐变量θs的后验均值
Figure FDA0002873366470000017
计算更新后的总变化空间的参数T′;
步骤九、利用更新后的分类器概率线性判别分析模型参数{Λ′,Ψ′}替换步骤六中的分类器概率线性判别分析模型参数{Λ,Ψ},利用更新后的总变化空间参数T′替换步骤四中的总变化空间参数T,来重复步骤四至步骤八的过程,直至达到设置的最大迭代次数时停止迭代,获得最终的分类器概率线性判别分析模型的参数{Λ00}和总变化空间的参数T0
步骤十:对于测试集中的任意一段语音,假设该段测试语音对应的均值超矢量为Mtest;目标说话人对应的均值超矢量为Mtarget
利用该段测试语音对应的均值超矢量Mtest计算该段测试语音对应的i-vector特征wtest,利用目标说话人对应的均值超矢量Mtarget计算目标说话人对应的i-vector特征wtarget
步骤十一:分别对步骤十获得的i-vector特征wtest与wtarget进行长度规整,获得长度规整后的i-vector特征
Figure FDA0002873366470000021
Figure FDA0002873366470000022
步骤十二:计算长度规整后的i-vector特征
Figure FDA0002873366470000023
Figure FDA0002873366470000024
在分类器概率线性判别分析模型上的联合概率密度,将求得的联合概率密度作为匹配得分Stest,target
步骤十三:将步骤十二的匹配得分Stest,target与阈值S′进行比较,若匹配得分Stest,target大于等于阈值S′,则长度规整后的i-vector特征
Figure FDA0002873366470000025
对应的测试集语音段来自于目标说话人,若匹配得分Stest,target小于阈值S′,则长度规整后的i-vector特征
Figure FDA0002873366470000026
对应的测试集语音段不是来自于目标说话人;
同理,即判断出测试集中的其他段语音是否来自于目标说话人。
2.根据权利要求1所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述利用高斯混合模型获得训练集中每段语音对应的均值超矢量,其具体过程为:
假设训练集中共包含S0个说话人的语音,且包含第s个说话人的语音段总数为Hs,s=1,2,…,S0
根据第s个说话人的第h段语音对应的所有高斯分量的均值μc,c=1,2,...,C,获得第s个说话人的第h段语音对应的均值超矢量Ms,h,Ms,h的表达式为:
Figure FDA0002873366470000031
其中:C代表第s个说话人的第h段语音对应的高斯分量的均值的个数,μ1代表第s个说话人的第h段语音对应的第一个高斯分量的均值;
则训练集中每段语音对应的均值超矢量组成的均值超矢量集合为
Figure FDA0002873366470000032
其中:s为说话人编号,S0为说话人总数;h为说话人的第h段语音。
3.根据权利要求2所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤二的具体过程为:
Figure FDA0002873366470000033
4.根据权利要求3所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵Lw与后验均值
Figure FDA0002873366470000034
的表达式分别为:
Figure FDA0002873366470000035
其中,
Figure FDA0002873366470000036
代表第s个说话人的第h段语音对应的i-vector特征的后验均值,Iw为单位矩阵;上角标T代表矩阵的转置,上角标-1代表矩阵的逆。
5.根据权利要求4所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤五的具体过程为:
Figure FDA0002873366470000037
其中,
Figure FDA0002873366470000038
为长度规整后,第s个说话人的第h段语音对应的i-vector特征;μ为训练集中全部段语音对应的i-vector特征的后验均值
Figure FDA0002873366470000041
的均值;<·>为内积;
Figure FDA0002873366470000042
6.根据权利要求5所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述分类器概率线性判别分析模型中隐变量θs的后验精度矩阵Lθ,s、后验均值
Figure FDA0002873366470000043
和后验相关矩阵
Figure FDA0002873366470000044
的表达式分别为:
Figure FDA0002873366470000045
其中,Iθ为单位阵。
7.根据权利要求6所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤七的具体过程为:
Figure FDA0002873366470000046
其中:{Λ′,Ψ′}代表更新后的分类器概率线性判别分析模型的参数。
8.根据权利要求7所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤八的具体过程为:
Figure FDA0002873366470000047
其中:T′代表更新后的总变化空间的参数,I代表单位矩阵,
Figure FDA0002873366470000051
代表fU
Figure FDA0002873366470000052
的导数,fU代表目标函数,fU的表达式如下:
Figure FDA0002873366470000053
δs,h代表
Figure FDA0002873366470000054
的内积,|·|代表行列式。
9.根据权利要求8所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤九中的最大迭代次数的取值为5~10次。
10.根据权利要求9所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤十的具体过程为:
对于测试集中的任意一段语音,假设该段测试语音对应的均值超矢量为Mtest;目标说话人对应的均值超矢量为Mtarget
利用该段测试语音对应的均值超矢量Mtest计算该段测试语音对应的i-vector特征wtest,利用目标说话人对应的均值超矢量Mtarget计算目标说话人对应的i-vector特征wtarget
Figure FDA0002873366470000055
其中:wtest代表该段测试语音对应的i-vector特征,wtarget代表目标说话人对应的i-vector特征,T0代表最终的总变化空间的参数。
11.根据权利要求10所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤十一中长度规整后的i-vector特征
Figure FDA0002873366470000056
Figure FDA0002873366470000057
的表达式分别为:
Figure FDA0002873366470000058
12.根据权利要求11所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤十二的具体过程为:
Figure FDA0002873366470000059
其中:Q和P均为中间变量,且Q和P的表达式分别为:
Figure FDA0002873366470000061
Figure FDA0002873366470000062
其中:中间变量Σtot和Σac的表达式分别为:
Σtot=Λ0Λ0 T0 (15)
Σac=Λ0Λ0 T (16)
其中:{Λ00}代表最终的分类器概率线性判别分析模型参数。
CN201910439064.4A 2019-05-24 2019-05-24 基于总变化空间与分类器联合优化的说话人身份识别方法 Active CN110148417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910439064.4A CN110148417B (zh) 2019-05-24 2019-05-24 基于总变化空间与分类器联合优化的说话人身份识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910439064.4A CN110148417B (zh) 2019-05-24 2019-05-24 基于总变化空间与分类器联合优化的说话人身份识别方法

Publications (2)

Publication Number Publication Date
CN110148417A CN110148417A (zh) 2019-08-20
CN110148417B true CN110148417B (zh) 2021-03-23

Family

ID=67593198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910439064.4A Active CN110148417B (zh) 2019-05-24 2019-05-24 基于总变化空间与分类器联合优化的说话人身份识别方法

Country Status (1)

Country Link
CN (1) CN110148417B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028847B (zh) * 2019-12-17 2022-09-09 广东电网有限责任公司 一种基于后端模型的声纹识别优化方法和相关装置
CN116129911B (zh) * 2023-02-09 2023-11-17 东北林业大学 一种基于概率球面判别分析信道补偿的说话人识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261367A (zh) * 2014-07-14 2016-01-20 中国科学院声学研究所 一种说话人识别方法
US9373330B2 (en) * 2014-08-07 2016-06-21 Nuance Communications, Inc. Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法
WO2019053898A1 (en) * 2017-09-15 2019-03-21 Nec Corporation PATTERN RECOGNITION APPARATUS, PATTERN RECOGNITION METHOD, AND STORAGE MEDIUM

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261367A (zh) * 2014-07-14 2016-01-20 中国科学院声学研究所 一种说话人识别方法
US9373330B2 (en) * 2014-08-07 2016-06-21 Nuance Communications, Inc. Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法
WO2019053898A1 (en) * 2017-09-15 2019-03-21 Nec Corporation PATTERN RECOGNITION APPARATUS, PATTERN RECOGNITION METHOD, AND STORAGE MEDIUM

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DEEP NEURAL NETWORK BASED DISCRIMINATIVE TRAINING FOR I-VECTOR/PLDA SPEAKER VERIFICATION;Zheng Tieran;《2018 IEEE International Conference on Acoustics,Speech and Signal Processing》;20181231;全文 *
I-VECTOR说话人识别中基于偏最小二乘的总变化空间估计方法;陈晨;《中国优秀硕士学位论文全文数据库》;20160229(第2期);I136-171 *
Partial Least Squares Based Total Variability Space Modeling for I-Vector Speaker Verification;CHEN Chen;《Chinese Journal of Electronics》;20170405;全文 *
Speaker Verification via Estimating Total Variability Space Using Probabilistic Partial Least Squares;CHEN Chen;《INTERSPEECH 2017》;20170824;全文 *
说话人声纹识别的算法研究;李湾湾;《中国优秀硕士学位论文全文数据库》;20170728(第7期);I136-76 *

Also Published As

Publication number Publication date
CN110148417A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
An et al. Deep CNNs with self-attention for speaker identification
CN110390955B (zh) 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
Chen et al. Multi-task learning for text-dependent speaker verification
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
Chang et al. A Segment-based Speech Recognition System for Isolated Mandarin Syllables
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
Lin et al. Reducing domain mismatch by maximum mean discrepancy based autoencoders.
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
Fang et al. Channel adversarial training for cross-channel text-independent speaker recognition
CN104167208A (zh) 一种说话人识别方法和装置
Rouvier et al. Speaker diarization through speaker embeddings
CN110148417B (zh) 基于总变化空间与分类器联合优化的说话人身份识别方法
Nunes et al. Additive margin sincnet for speaker recognition
CN106971180A (zh) 一种基于语音字典稀疏迁移学习的微表情识别方法
Fan et al. Deep Hashing for Speaker Identification and Retrieval.
Pardede et al. Convolutional neural network and feature transformation for distant speech recognition
CN110992988A (zh) 一种基于领域对抗的语音情感识别方法及装置
Singh et al. LEAP diarization system for the second DIHARD challenge
Tan et al. Denoised senone i-vectors for robust speaker verification
JP4652232B2 (ja) 話者の圧縮表現用の音声信号の分析のための方法およびシステム
Zeng et al. Joint speaker encoder and neural back-end model for fully end-to-end automatic speaker verification with multiple enrollment utterances
Saputri et al. Identifying Indonesian local languages on spontaneous speech data
CN104240699A (zh) 一种简单有效的短语语音识别方法
Rao et al. Construction of discriminative kernels from known and unknown non-targets for PLDA-SVM scoring
CN116129911B (zh) 一种基于概率球面判别分析信道补偿的说话人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant