CN110148417B

CN110148417B - 基于总变化空间与分类器联合优化的说话人身份识别方法

Info

Publication number: CN110148417B
Application number: CN201910439064.4A
Authority: CN
Inventors: 韩纪庆; 陈晨; 郑贵滨; 郑铁然
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2021-03-23
Anticipated expiration: 2039-05-24
Also published as: CN110148417A

Abstract

基于总变化空间与分类器联合优化的说话人身份识别方法，它属于说话人识别技术领域。本发明解决了目前的总变化空间估计方法对说话人身份识别的等错误率高的问题。本发明首先求得训练集均值超矢量在初始总变化空间上的表示；然后对该表示进行长度规整，并输入分类器PLDA；接着在分类器PLDA的监督下，更新分类器的参数与总变化空间的参数，重复上述步骤，直至达到设置的最大迭代次数，获得最终的分类器参数与总变化空间参数；测试时，利用测试语音的均值超矢量和目标说话人的均值超矢量，计算其在总变化空间上的表示，然后对该表示进行长度规整，并计算其在分类器上的联合概率密度作为最终分类的依据。本发明可以应用于说话人识别技术领域。

Description

基于总变化空间与分类器联合优化的说话人身份识别方法

技术领域

本发明属于说话人识别技术领域，具体涉及一种基于总变化空间与分类器联合优化的说话人身份识别方法。

背景技术

语音是人类之间交流情感与认知的重要信息载体，是在生活与工作中最基本、最自然的交流方式。随着信息技术的发展，使得通过分析语音信号中的个人特征来识别说话人身份成为可能。说话人身份识别技术也因其良好的准确性、经济性和可扩展性，拥有着广阔的发展空间。在众多说话人身份识别技术中，基于身份-向量(i-vector)框架的说话人身份识别方法，由于其优异的性能与较高的效率，应用最为广泛。

I-vector框架的核心技术为总变化空间的估计，在估计过程中，通过对大量说话人数据的分析，从中找出能够对说话人身份起解释作用的主要因子，从而进行特征提取并用于识别任务。可见，总变化空间的估计过程服务于说话人身份识别任务。但目前的总变化空间估计方法均未考虑任务的需求，这不利于身份识别任务的进行，进而影响系统的识别性能，导致说话人身份识别的等错误率较高。因此，在总变化空间估计的过程中，同时兼顾识别任务的研究，具有重要的研究意义与应用价值。

发明内容

本发明的目的是为解决目前的总变化空间估计方法对说话人身份识别的等错误率高的问题，而提出了一种基于总变化空间与分类器联合优化的说话人身份识别方法。

本发明为解决上述技术问题采取的技术方案是：基于总变化空间与分类器联合优化的说话人身份识别方法，该方法包括以下步骤：

步骤一、将训练集中每段语音的梅尔倒谱系数输入通用背景模型(UniversalBackground Model，UBM)，并在通用背景模型上采用最大后验概率方法进行自适应，获得每段语音对应的高斯混合模型，利用高斯混合模型获得训练集中每段语音对应的均值超矢量；

则训练集中每段语音对应的均值超矢量组成均值超矢量集合；

步骤二、计算训练集中全部段语音对应的均值超矢量的均值m及训练集中全部段语音对应的均值超矢量的协方差矩阵Φ；

步骤三、随机初始化分类器概率线性判别分析模型(Probabilistic LinearDiscriminant Analysis，PLDA)和总变化空间的参数分别为{Λ,Ψ}和T；

步骤四、利用均值超矢量集合、均值超矢量的均值m、均值超矢量的协方差矩阵Φ以及总变化空间参数T，计算总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵L_w与后验均值

步骤五、分别对每段语音对应的i-vector特征的后验均值

进行长度规整，获得长度规整后每段语音对应的i-vector特征；

步骤六、利用长度规整后每段语音对应的i-vector特征以及分类器概率线性判别分析模型的参数{Λ,Ψ}，计算出分类器概率线性判别分析模型中隐变量θ_s的后验精度矩阵L_θ,s、后验均值

和后验相关矩阵

步骤七、利用长度规整后每段语音对应的i-vector特征、分类器概率线性判别分析模型中隐变量θ_s的后验均值

和后验相关矩阵

获得更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′}；

步骤八、利用均值超矢量集合、均值超矢量的均值m、每段语音对应的i-vector特征的后验均值

长度规整后每段语音对应的i-vector特征、更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′}以及分类器概率线性判别分析模型中隐变量θ_s的后验均值

计算更新后的总变化空间的参数T′；

步骤九、利用更新后的分类器概率线性判别分析模型参数{Λ′,Ψ′}替换步骤六中的分类器概率线性判别分析模型参数{Λ,Ψ}，利用更新后的总变化空间参数T′替换步骤四中的总变化空间参数T，来重复步骤四至步骤八的过程，直至达到设置的最大迭代次数时停止迭代，获得最终的分类器概率线性判别分析模型的参数{Λ₀,Ψ₀}和总变化空间的参数T₀；

步骤十：对于测试集中的任意一段语音，假设该段测试语音对应的均值超矢量为M_test；目标说话人对应的均值超矢量为M_target；

则分别计算出均值超矢量M_test与均值超矢量M_target在总变化空间上的表示，获得该段测试语音对应的i-vector特征w_test以及目标说话人对应的i-vector特征w_target；

步骤十一：分别对步骤十获得的i-vector特征w_test与w_target进行长度规整，获得长度规整后的i-vector特征

与

步骤十二：计算长度规整后的i-vector特征

和

在分类器概率线性判别分析模型上的联合概率密度，将求得的联合概率密度作为匹配得分S_test,target；

步骤十三：将步骤十二的匹配得分S_test,target与阈值S′进行比较，若匹配得分S_test,target大于等于阈值S′，则长度规整后的i-vector特征

对应的测试集语音段来自于目标说话人，若匹配得分S_test,target小于阈值S′，则长度规整后的i-vector特征

对应的测试集语音段不是来自于目标说话人；

同理，即判断出测试集中的其他段语音是否来自于目标说话人。

本发明的有益效果是：本发明提出了一种基于总变化空间与分类器联合优化的说话人身份识别方法，本发明首先求得训练集均值超矢量在初始总变化空间上的表示；然后对该表示进行长度规整，并输入分类器PLDA；接着在分类器PLDA的监督下，更新分类器的参数与总变化空间的参数；最后重复上述步骤，直至达到设置的最大迭代次数，获得最终的分类器参数与总变化空间参数；测试时，将测试语音的均值超矢量和目标说话人的均值超矢量作为输入，得到其在总变化空间上的表示，然后对该表示进行长度规整，并计算其在分类器上的联合概率密度作为最终分类的依据。实验结果表明，本发明方法在两个不同数据集上的等错误率分别达到2.17％和7.10％，相比于经典方法中性能最好的方法，相对等错误率分别降低了6.87％和6.95％。

附图说明

图1是本发明的基于总变化空间与分类器联合优化的说话人身份识别方法的流程图；

图2为在数据库King-ASR-010上，本发明方法(对应TDVM柱)与TVM方法、CDS方法、LDA方法以及PLDA方法的等错误率对比图；

图3为在数据库VoxCeleb上，本发明方法(对应TDVM柱)与TVM方法、CDS方法、LDA方法以及PLDA方法的等错误率对比图。

具体实施方式

具体实施方式一：如图1所示，本实施方式所述的基于总变化空间与分类器联合优化的说话人身份识别方法，该方法包括以下步骤：

步骤一、将训练集中每段语音的梅尔倒谱系数输入通用背景模型，并在通用背景模型上采用最大后验概率方法进行自适应，获得每段语音对应的高斯混合模型，利用高斯混合模型获得训练集中每段语音对应的均值超矢量；

步骤三、随机初始化分类器概率线性判别分析模型和总变化空间的参数分别为{Λ,Ψ}和T；

步骤五、分别对每段语音对应的i-vector特征的后验均值

和后验相关矩阵

和后验相关矩阵

计算更新后的总变化空间的参数T′；

与

步骤十二：计算长度规整后的i-vector特征

和

对应的测试集语音段不是来自于目标说话人；

本发明通过提出一个双层框架来联合优化总变化空间与后端分类器PLDA，来增强两个阶段之间的关联性，最终达到降低说话人身份识别等错误率的目的。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述利用高斯混合模型获得训练集中每段语音对应的均值超矢量，其具体过程为：

假设训练集中共包含S₀个说话人的语音，且包含第s个说话人的语音段总数为H_s，s＝1,2,…,S₀；

根据第s个说话人的第h段语音对应的所有高斯分量的均值μ_c，c＝1,2,...,C，获得第s个说话人的第h段语音对应的均值超矢量M_s,h，M_s,h的表达式为：

其中：C代表第s个说话人的第h段语音对应的高斯分量的均值的个数，μ₁代表第s个说话人的第h段语音对应的第一个高斯分量的均值；

则训练集中每段语音对应的均值超矢量组成的均值超矢量集合为

其中：s为说话人编号，S₀为说话人总数；h为说话人的第h段语音。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述步骤二的具体过程为：

具体实施方式四：本实施方式与具体实施方式三不同的是：所述总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵L_w与后验均值

的表达式分别为：

其中，

代表第s个说话人的第h段语音对应的i-vector特征的后验均值，I_w为单位矩阵；上角标T代表矩阵的转置，上角标-1代表矩阵的逆。

具体实施方式五：本实施方式与具体实施方式四不同的是：所述步骤五的具体过程为：

其中，

为长度规整后，第s个说话人的第h段语音对应的i-vector特征；μ为训练集中全部段语音对应的i-vector特征的后验均值

的均值；<·>为内积；

具体实施方式六：本实施方式与具体实施方式五不同的是：所述分类器概率线性判别分析模型中隐变量θ_s的后验精度矩阵L_θ,s、后验均值

和后验相关矩阵

的表达式分别为：

其中，I_θ为单位阵。

具体实施方式七：本实施方式与具体实施方式六不同的是：所述步骤七的具体过程为：

其中：{Λ′,Ψ′}代表更新后的分类器概率线性判别分析模型的参数。

具体实施方式八：本实施方式与具体实施方式七不同的是：所述步骤八的具体过程为：

其中：T′代表更新后的总变化空间的参数，I代表单位矩阵，

f_U代表f_U对

的导数，

代表对

f_U的结果进行转置，f_U代表目标函数，f_U的表达式如下：

δ_s,h代表

的内积，|·|代表行列式。

具体实施方式九：本实施方式与具体实施方式八不同的是：所述步骤九中的最大迭代次数的取值为5～10次。

具体实施方式十：本实施方式与具体实施方式九不同的是：所述步骤十的具体过程为：

对于测试集中的任意一段语音，假设该段测试语音对应的均值超矢量为M_test；目标说话人对应的均值超矢量为M_target；

则分别计算出均值超矢量M_test与均值超矢量M_target在总变化空间上的表示，获得该段测试语音对应的i-vector特征以及目标说话人对应的i-vector特征；

其中：w_test代表该段测试语音对应的i-vector特征，w_target代表目标说话人对应的i-vector特征，T₀代表最终的总变化空间的参数。

具体实施方式十一：本实施方式与具体实施方式十不同的是：所述步骤二的具体过程为：所述步骤十一中长度规整后的i-vector特征

与

的表达式分别为：

具体实施方式十二：本实施方式与具体实施方式十一不同的是：所述步骤十二的具体过程为：

其中：Q和P均为中间变量，且Q和P的表达式分别为：

其中：中间变量Σ_tot和Σ_ac的表达式分别为：

Σ_tot＝Λ₀Λ₀ ^T+Ψ₀ (15)

Σ_ac＝Λ₀Λ₀ ^T (16)

其中：{Λ₀,Ψ₀}代表最终的分类器概率线性判别分析模型参数。

图2和图3是本发明方法与其他经典方法在两个不同数据库(King-ASR-010，VoxCeleb)上的性能(等错误率)对比柱状图。通过图2和图3的柱状图可以看出，本发明(对应TDVM柱)的等错误率低于其他经典方法。其中，TVM为传统总变化空间估计方法；CDS为余弦距离打分；LDA为线性判别分析；PLDA为概率线性判别分析分类器。实验结果表明，本发明方法在两个不同数据集上等错误率分别达到2.17％和7.10％，相比于经典方法中性能最好的方法，相对等错误率分别降低了6.87％和6.95％。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。