CN105632502A

CN105632502A - 一种基于加权成对约束度量学习算法的说话人识别方法

Info

Publication number: CN105632502A
Application number: CN201510917128.9A
Authority: CN
Inventors: 雷震春; 杨印根; 朱明华
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-06-01

Abstract

本发明提供一种基于加权成对约束度量学习算法的说话人识别方法，该方法包括以下步骤：根据加权约束对度量学习算法(WPCML)，最小化同类样本间距离，同时最大化非同类样本间距离，获得用于计算样本间马氏距离的半正定矩阵；根据半正定矩阵计算说话人语音测试样本和目标样本间的马氏距离，根据马氏距离判断说话人样本间的相似度。本发明基于加权约束对度量学习(WPCML)算法应用于说话人识别方法简单有效，存在全局最优解，能快速求得满足条件的度量矩阵，该度量矩阵可有效反映说话人空间中的相似性和区分性，将该度量矩阵用于测试目标说话人语音样本的马氏距离得分分类器，进一步提高了说话人识别系统的性能。

Description

一种基于加权成对约束度量学习算法的说话人识别方法

技术领域

本发明是一种基于加权成对约束度量学习算法的说话人识别方法，属于说话人识别技术领域。

背景技术

说话人识别(SpeakerRecognition，SR)又称话者识别，是一种通过对说话人的语音进行处理和分析，从而对说话人身份进行鉴别的技术。如何有效衡量说话人样本语音间的相似度，是目前说话人识别研究领域的热点问题之一。说话人识别系统一般通过度量语音样本间的距离来判断相似度，样本间距离越小表示样本越相似，反之样本越不相似。不同的距离度量方法得到的距离是不同的。

常用作相似度度量的距离有余弦距离(cosinedistance)和马氏距离(Mahalanobisdistance)等。

余弦距离(cosinedistance)通过计算样本向量(x_i，x_j)内积空间的夹角余弦值来衡量样本间的相似度，余弦距离的计算公式为：

d_{C} (x_{i}, x_{j}) = \frac{{x_{i}}^{T} x_{j}}{\sqrt{{x_{i}}^{T} x_{i}} \sqrt{{x_{j}}^{T} x_{j}}}

其中，T表示转置。

但是采用余弦距离衡量样本间的相似度，只能根据向量方向上的差异进行区分，无法衡量向量维度上数值的差异。

印度统计学家马哈拉诺比斯提出的马氏距离(Mahalanobisdistance)考虑样本向量各属性间区分的关系，表示在样本空间中的协方差距离。

两个向量(x_i，x_j)之间的马氏距离定义为：

d_{M} (x_{i}, x_{j}) = \sqrt{{(x_{i} - x_{j})}^{T} M (x_{i} - x_{j})}

其中，T表示转置。

也可用(x_i-x_j)^TM(x_i-x_j)来表示马氏距离，其中半正定度量矩阵M可看成两个变换矩阵W的积：M＝W^TW，样本向量x通过变换矩阵W映射到新的空间中：x％＝Wx，故M也称为度量变换矩阵，变换后的新空间中同类样本和非同类样本更易区分。

不同样本空间中，若总体样本的度量矩阵M不同，计算的马氏距离也不同，因此马氏距离的计算不稳定。只有获得能反映样本空间同类样本相似性、非同类样本区分性的度量矩阵M，计算的马氏距离才能有效衡量样本相似度。但训练样本有限使获得这种度量矩阵有难度。

发明人在研究的过程中发现，训练样本对集的构造是度量学习研究中的一个关键问题。合适的训练样本对含有的有效信息能正确指导训练过程，含无效信息较多的训练样本对会对度量矩阵的训练产生不利影响。现有技术中大部分度量学习算法采用以下方法来构造度量学习训练样本对集。

相似训练样本对集S的构造方法：首先随机从所有训练语音样本数据库中任选一说话人样本类，从该样本类中随机选择两个样本，若它们不是同一样本或未被选择过，则可作为相似样本对加入相似训练样本对集S中。整个过程重复执行直至一定数量的相似样本对被选择。

非相似样本对集的构造方法：从所有训练语音样本数据库中随机选择两个不同样本类，从每个样本类中选择一个样本，若它们没被选择过，则作为非相似样本对加入非相似样本对集中。整个过程重复执行直至一定数量满足条件的非样本对被选择。

上述训练样本对集的构建方法简单有效，但随机构建出来的相似样本对集和非相似样本对集中的样本对不固定，训练出来的马氏距离度量矩阵也不同，说话人识别率低。

发明内容

本发明的目的在于提供一种基于加权成对约束度量学习算法的说话人识别方法，该方法将加权约束对度量学习(WPCML)算法应用于说话人识别系统，存在全局最优解，能快速求得满足条件的度量矩阵。该算法在训练样本加权约束对信息的指导下训练一个马氏距离度量矩阵，该度量矩阵可有效反映说话人空间中的相似性和区分性。

本发明的目的通过以下技术方案来具体实现：

一种基于加权成对约束度量学习算法的说话人识别方法，该方法包括以下步骤：

根据加权约束对度量学习算法(WPCML)，最小化同类样本间距离，同时最大化非同类样本间距离，通过最优化求解说话人样本空间区分性的目标函数获得用于计算样本间马氏距离的半正定矩阵；

根据半正定矩阵计算说话人语音测试样本和目标样本间的马氏距离，根据马氏距离判断说话人样本间的相似度。

进一步的，所述根据加权约束对度量学习算法(WPCML)，最小化同类样本间距离，同时最大化非同类样本间距离，具体包括：

根据训练语音样本数据库的样本标签信息构建说话人训练样本约束对集；

所述说话人训练样本约束对集包括同一说话人相似语音样本对集和不同说话人非相似语音样本对集；

构造出所有不同说话人非相似语音样本对组合，计算样本对的欧式距离；

根据欧式距离值从小到大的顺序筛选出与相似语音样本对集数量一致的非相似语音样本对集，与相似语音样本对集共同用于计算样本间马氏距离的半正定矩阵M。

进一步的，非相似语音样本对集与相似语音样本对集共同用于计算样本间马氏距离的半正定矩阵M，具体包括：

映射说话人类内子空间，去除同类说话人样本语音间相关性的相互影响；

度量学习目标函数，对相似样本与非相似样本进行区分；

加权约束权衡损失函数对相似样本对与非相似样本对在求解过程中对目标函数的影响；

目标函数的求解，计算样本间马氏距离的半正定矩阵M。

进一步的，映射类内子空间具体包括：

定义用于训练度量矩阵的说话人语音i-vector样本集{w₁，w₂，…，w_n}，根据样本的标签信息构建说话人训练样本约束对集PSD。S表示同一说话人相似语音样本对集，D表示不同说话人非相似语音样本对集。根据同一说话人相似语音样本集中的样本彼此间的相关性，基于WPCML算法构建一个说话人类内子空间，将训练语音样本数据库中所有的样本向量映射到说话人类内子空间中，去除同类说话人样本语音间相关性的相互影响。

进一步的，所述去除同类说话人样本语音间相关性的相互影响的类内协方差矩阵C_s为：

类内协方差矩阵C_s的特征值L和特征向量V分别求解为L＝{l₁，L，l_k}，V＝(v₁，L，v_k)；

样本向量w映射进说话人类内子空间：w％＝diag(l₁ ^-1/2，L，l_k ^-1/2)V^Tw；

其中，w％为映射后的新向量，T为转置。

进一步的，所述度量学习目标函数具体包括：

目标函数f(M)用于对同一说话人相似语音样本和不同说话人非相似语音样本进行区分，具体为：

其中，度量矩阵M描述的样本空间满足同类样本间距离小的同时非同类样本间距离大的条件，目标函数f(M)的值最大；求解目标函数f(M)最大值来求解满足条件的度量矩阵M。进一步的，所述加权约束对损失函数具体包括：为求解目标函数f(M)，定义损失函数e_emp(M)为：

其中，S表示同一说话人相似语音样本对集，D表示不同说话人非相似语音样本对集，d_M(w_i，w_j)表示向量(w_i，w_j)间的马氏距离。

进一步的，基于加权成对约束度量学习算法在损失函数e_emp(M)中引入权衡因子l³0，用于权衡相似训练样本对与非相似训练样本对在求解过程中对目标函数的影响，损失函数e_emp(M)为：

加权成对约束度量学习算法WPCML通过最小化损失函数来求解得到度量矩阵M。

进一步的，所述目标函数的求解，包括：

提高损失函数的泛化能力；

引入规整项在损失函数出现拟合时对其进行修正；

引入平衡因子，平衡目标函数求解过程中规整项对损失函数项的影响；

引入松弛变量，将损失函数e_emp(M)的求解等价于标准的凸优化求解问题；

引入拉格朗日乘子，定义拉格朗日函数，通过梯度下降法求解出唯一最优解，作为最终所要求解的度量矩阵，用于计算说话人语音测试样本和目标样本间的马氏距离，根据该距离判断说话人样本间的相似度。

本发明提供的一种基于加权成对约束度量学习算法的说话人识别方法，提出的加权成对约束度量学习算法(WPCML)利用成对训练样本的加权约束信息训练一个马氏距离度量矩阵，利用了成对训练样本对的约束信息来指导度量学习过程，对已标记的相似样本对和非相似样本对进行度量矩阵训练时有效利用了训练样本数据间相似性与非相似性的指导信息，得到的度量矩阵更能反映的说话人空间的区分性，使得马氏距离得分分类器对未知说话人语音样本间的相似性进行较好的预测。在度量矩阵训练过程中，对相似样本对和非相似样本对在指导训练过程的影响程度进行加权，训练出来的度量矩阵用于说话人识别系统。本发明还提出选择训练样本对方法用于构造度量学习训练样本对集，欧氏距离最小的那部分非相似样本对含有的突变信息相对更少，且其含有的区分信息更具有代表性。用这部分非相似样本对构建的训练样本非相似对集用于训练马氏距离度量矩阵，使说话人识别系统的性能有所提高。

具体实施方式

本发明实施例提供的一种基于加权成对约束度量学习算法的说话人识别方法，该方法包括以下步骤：

加权约束对度量学习(WPCML)算法简单有效，存在全局最优解，能快速求得满足条件的度量矩阵，用于训练的样本对只需知道是否属于同类。该算法在训练样本加权约束对信息的指导下训练一个马氏距离度量矩阵。该度量矩阵可有效反映说话人空间中的相似性和区分性，将该度量矩阵用于测试目标说话人语音样本的马氏距离得分分类器，使说话人识别系统取得了很好的识别效果。

定义用于训练度量矩阵的说话人语音i-vector样本集{w₁，w₂，…，w_n}，根据样本的标签信息构建说话人训练样本约束对集P＝SUD。S表示来自同一说话人的相似语音样本对组成的集合，D表示来自不同说话人的非相似语音样本对组成的集合。

相似训练样本对集的构造方法与传统方法相同。

构造出所有不同说话人非相似语音样本对组合，计算样本对的欧式距离；欧式距离的计算公式如下：

根据欧式距离d_E值从小到大的顺序筛选出与相似语音样本对集数量一致的非相似语音样本对集，与相似语音样本对集共同用于计算样本间马氏距离的半正定矩阵M。

本发明还对训练样本对集的构造方法进行了创新，通过对训练样本相似对和非相似对的选择，使得得到的度量矩阵唯一，且进一步提高了说话人识别系统的性能。

度量学习目标函数，对相似样本与非相似样本进行区分；

目标函数的求解，计算样本间马氏距离的半正定矩阵M。

进一步的，映射类内子空间具体包括：

根据同一说话人相似语音样本集中的样本彼此间的相关性，基于WPCML算法构建一个说话人类内子空间，将训练语音样本数据库中所有的样本向量映射到说话人类内子空间中，去除同类说话人样本语音间相关性的相互影响。

其中，

进一步的，所述度量学习目标函数具体包括：

其中，度量矩阵M描述的样本空间满足同类样本间距离小的同时非同类样本间距离大的条件，目标函数f(M)的值最大；求解目标函数f(M)最大值来求解满足条件的度量矩阵M。

进一步的，所述加权约束对损失函数具体包括：为求解目标函数f(M)，定义损失函数e_emp(M)为：

其中，

为表示方便，损失函数定义样本对来自同一说话人时，m_ij＝1，y_ij＝-1，否则m_ij＝l，y_ij＝1。则损失函数e_emp(M)表示为：

进一步的，所述目标函数的求解，包括：

提高损失函数的泛化能力；

引入规整项在损失函数出现拟合时对其进行修正；

引入拉格朗日乘子，定义拉格朗日函数，通过梯度下降法求解出唯一最优解，作为最终所要求解的度量矩阵，用于计算说话人语音测试样本和目标样本间的马氏距离，根据该距离判断说话人样本间的相似度。具体为：

求解过程为提高损失函数的泛化能力，引入规整项规整项在训练过程中，当损失函数出现过拟合时对其进行修正。P×P_F表示弗罗贝尼乌斯范数。损失函数最小化求解可表示为：

平衡因子g用于平衡目标函数求解过程中规整项对损失函数项的影响。引入松弛变量，式(26)的求解等价于标准的凸优化求解问题：

式(27)的求解过程是一个典型的二次规划问题。引入拉格朗日乘子a，b³0，定义式(27)的拉格朗日函数：

1对M和求偏导，令偏导为0，可解出M和b_ij：

b_ij＝1-a_ij，且0#a1.(30)

将M和b_ij代入式(28)，得到：

为方便求解，式(31)转化成其对偶形式：

通过梯度下降法求解出满足式(32)的a_t，代入式(29)求得满足目标函数区分性目标的全局近似最优解M^*，作为最终所要求解的度量矩阵，用于计算说话人语音测试样本和目标样本间的马氏距离，根据该距离判断说话人样本间的相似度。

将本发明的技术方案实验在MATLAB环境下进行，所有实验语音数据均来自于美国国家标准与技术局(NIST)说话人评测(SRE)04、05、06、08年核心语音库。说话人识别系统首先对原始语音进行去冗余和降噪处理，将语音模拟信号转换离散语音数字信号。用帧长20ms的窗函数将语音信号交叠分帧(帧移10ms)。提取13维梅尔频率倒谱系数(MFCC)与其一阶、二阶差分组合成39维特征向量对语音信号进行表示。采用NISTSRE04、05和06年语音数据集训练出512阶性别相关的UBM，在此基础上训练出所有说话人语音样本的i-vector向量(400维)，并对i-vector向量进行LDA、WCCN和长度规整等鲁棒性处理，用于后续过程。其中08年语音数据作为说话人目标语音样本和测试语音样本进行相似度评测。

进行度量学习实验前，需构造用于训练的相似样本对集和非相似样本对集。本文使用NISTSRE04、05、06年语音集中的491个男性6609条语音，及703个女性9136条语音来构造相似样本对集S与非相似样本对集D。实验采用本文提出的选择训练样本对集构建方法构造相似样本对集和非相似样本对集。相似样本对集的构建方法首先从所有训练样本中任选一说话人样本类，从该样本类中随机选择两个样本，若它们不是同一样本或未被选择过，则可作为相似样本对加入相似训练样本对集S中。整个过程重复执行直至一定数量的相似样本对被选择。非相似训练样本对集D构造方法的步骤：构造出非相似样本对所有可能的组合；计算所有非相似样本对的欧式距离：d_E＝(w_i-w_j)(w_i-w_j)^T，按d_E值的大小挑选出其中最小的那些非相似样本对，构成与相似样本对集S等大小的非相似样本对集D，与相似样本对集S一起作为训练样本对集P，用于马氏距离度量矩阵的训练。

利用说话人训练语音同类样本构建一个说话人类内子空间，将所有样本i-vector向量映射到此空间中，从而去除同类说话人样本语音间相关性的相互影响。再构造描述说话人样本空间区分性的目标函数f(M)：

求解目标函数f(M)，定义损失函数e_emp(M)为：

WPCML算法在损失函数e_emp(M)中引入权衡因子l³0，用于权衡相似样本对与非相似样本对在求解过程中对目标函数的影响：

为表示方便，损失函数定义样本对(w_i，w_j)来自同一说话人时，m_ij＝1，y_ij＝-1，否则m_ij＝l，y_ij＝1：

最优化求解损失函数得到马氏距离度量矩阵，用于计算测试样本与目标说话人样本间的马氏距离得分：

score_M＝-(w_target-w_test)^TM(w_target-w_test)

根据马氏距离得分判断测试语言与目标语言的相似度。

Claims

1.一种基于加权成对约束度量学习算法的说话人识别方法，其特征在于，该方法包括以下步骤：

根据加权约束对度量学习算法(WPCML)，最小化同类样本间距离，同时最大化非同类样本间距离，获得用于计算样本间马氏距离的半正定矩阵；

2.如权利要求1所述的方法，其特征在于，所述根据加权约束对度量学习算法(WPCML)，最小化同类样本间距离，同时最大化非同类样本间距离，具体包括：

3.如权利要求2所述的方法，其特征在于，非相似语音样本对集与相似语音样本对集共同用于计算样本间马氏距离的半正定矩阵M，具体包括：

度量学习目标函数，对相似样本与非相似样本进行区分；

目标函数的求解，计算样本间马氏距离的半正定矩阵M。

4.如权利要求3所述的方法，其特征在于，所述映射说话人类内子空间，具体包括：

5.如权利要求4所述的方法，其特征在于，还包括，定义用于训练度量矩阵的说话人语音(i-vector)样本集{w₁，w₂，…，w_n}；

其中w_i表示第i条语音的i-vector向量，根据样本的标签信息构建说话人训练样本约束对集P，使得P＝SUD；

其中，S表示同一说话人相似语音样本对集，D表示不同说话人非相似语音样本对集；

所述去除同类说话人样本语音间相关性的相互影响的类内协方差矩阵C_s为：

其中，w_i表示第i条语音的i-vector向量，表示语音对(w_i，w_j)来自同一说话人相似语音样本对集，类内协方差矩阵C_s的特征值L和特征向量V分别求解为L＝{l₁，L，l_k}，V＝(v₁，L，v_k)，T为转置；

样本向量w映射进说话人类内子空间：

其中，为映射后的新向量，T为转置，其中w表示语音的i-vector向量，L＝{l₁，L，l_k}，V＝(v₁，L，v_k)分别为类内协方差矩阵C_s的特征值和特征向量，diag表示对角线矩阵。

6.如权利要求3所述的方法，其特征在于，所述度量学习目标函数具体包括：

其中，w_i表示第i条语音的i-vector向量，表示语音对(w_i，w_j)来自同一说话人相似语音样本对集，表示语音对(w_i，w_j)来自不同说话人非相似语音样本对集，d_M(w_i，w_j)表示语音向量(w_i，w_j)间的马氏距离。度量矩阵M描述的样本空间满足同类样本间距离小的同时非同类样本间距离大的条件，目标函数f(M)的值最大；通过求解目标函数f(M)最大值来求解满足条件的度量矩阵M。

7.如权利要求6所述的方法，其特征在于，所述加权约束对损失函数具体包括：为求解目标函数f(M)，定义损失函数e_emp(M)为：

其中，w_i表示第i条语音的i-vector向量，表示语音对(w_i，w_j)来自同一说话人相似语音样本对集，表示语音对(w_i，w_j)来自不同说话人非相似语音样本对集，d_M(w_i，w_j)表示语音向量(w_i，w_j)间的马氏距离。

8.如权利要求7所述的方法，其特征在于，基于加权成对约束度量学习算法在损失函数e_emp(M)中引入权衡因子l³0，用于权衡相似训练样本对与非相似训练样本对在求解过程中对目标函数的影响，损失函数e_emp(M)为：

其中，损失函数e_emp(M)，权衡因子l³0，w_i表示第i条语音的i-vector向量，表示语音对(w_i，w_j)来自同一说话人相似语音样本对集，表示语音对(w_i，w_j)来自不同说话人非相似语音样本对集，d_M(w_i，w_j)表示语音向量(w_i，w_j)间的马氏距离。加权成对约束度量学习算法WPCML通过最小化损失函数来求解得到度量矩阵M。

9.如权利要求3-8中任意一项权利要求所述的方法，其特征在于，所述目标函数的求解，包括：

提高损失函数的泛化能力；

引入规整项在损失函数出现拟合时对其进行修正；