CN110782903A

CN110782903A - 一种说话人识别方法及可读存储介质

Info

Publication number: CN110782903A
Application number: CN201911011046.2A
Authority: CN
Inventors: 邹学强; 韩纪庆; 蒋凌云; 陈晨; 郑贵滨; 郑铁然
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-02-11

Abstract

本发明公开了一种说话人识别方法及可读存储介质，涉及语音识别技术领域，所述方法包括如下步骤：获取语音信息，并提取所述语音信息的均值超矢量；训练语音测试模型，并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别。本发明方法通过训练语音测试模型，并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别，由此提升了说话人识别系统的性能。

Description

一种说话人识别方法及可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种说话人识别方法及可读存储介质。

背景技术

语音是人类之间交流情感与认知的重要信息载体，是在生活与工作中最基本、最自然的交流方式。随着信息技术的发展，使得通过分析语音信号中的个人特征来识别说话人成为可能。说话人识别技术因其良好的准确性、经济性和可扩展性，拥有着广阔的发展空间。在众多说话人识别技术中，身份-向量说话人识别方法由于其优异的性能与较高的效率，应用最为广泛。

然而，现有技术的方法没有考虑到数据的类别信息，因此同一类别内与不同类别间的数据关系均无法体现，这些类别信息对于样本的分类与预测却有着十分重要的意义。

发明内容

本发明实施例提供一种说话人识别方法及可读存储介质，用以提升说话人识别系统的性能。

第一方面，本发明实施例提供一种说话人识别方法，所述方法包括如下步骤：

获取语音信息，并提取所述语音信息的均值超矢量；

训练语音测试模型，并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别。

可选的，所述语音信息包括语音的梅尔倒谱系数。

可选的，提取所述语音信息的均值超矢量，包括：

根据语音的梅尔倒谱系数训练通用背景模型；

基于训练后的通用背景模型进行自适应处理获得语音信息的混合高斯分量；

将所获取的语音信息的混合高斯分量的各均值矢量按照预定顺序进行排序以获得语音信息的均值超矢量。

可选的，在训练语音测试模型，包括：

将语音信息的均值超矢量分为训练集和测试集；

基于所述训练集的均值超矢量与初始标签构建基于偏最小二乘的总变化空间；

根据所述总变化空间对所述测试集的均值超矢量进行验证以获得测试集在总变化空间上的预测标签；

对比预测标签与初始标签以完成模型训练。

可选的，所述对比预测标签与初始标签以完成模型训练，包括：

通过所述预测标签对所述初始标签进行惩罚修正；

基于所述训练集的均值超矢量与修正后的标签构建修正后的总变化空间直至收敛以完成模型训练。

可选的，通过所述预测标签对所述初始标签进行惩罚修正，包括：

将预测标签的分类结果与已知正确的分类进行对比，在预测标签分类结果错误的情况下，对初始标签对应的标签向量做惩罚修正；

所述对初始标签对应的标签向量做惩罚修正，包括：

对全部训练语料的类别标识进行惩罚；或者，

对分类错误的语料的类别标识进行惩罚。

可选的，基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别，包括：

将待测语音信息的均值超矢量输入至训练完成的语音测试模型以获得待测语音信息在总变化空间上的投影信息；

根据所述投影信息完成说话人的识别。

可选的，所述根据所述投影信息完成说话人的识别，包括：

将所述投影信息作为身份-向量计算所述投影信息到说话人的余弦距离以完成说话人的识别。

第二方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现前述的方法的步骤。

本发明实施例通过训练语音测试模型，并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别，由此提升了说话人识别系统的性能，取得了积极的技术效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明第一实施例流程图；

图2为本发明第一实施例基于惩罚修正的偏最小二乘总变化空间估计示意图；

图3为本发明第一实施例方法与现有身份-向量方法性能对比。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明第一实施例提供一种说话人识别方法，如图1所示，所述方法包括如下步骤：

获取语音信息，并提取所述语音信息的均值超矢量；

可选的，在本发明一个可选的实施例中，所述语音信息包括语音的梅尔倒谱系数。

可选的，提取所述语音信息的均值超矢量，包括：

根据语音的梅尔倒谱系数训练通用背景模型；

具体的说，以语音的梅尔倒谱系数作为输入，提取其对应的均值超矢量，在本实施例中进行进一步举例说明，以语音的梅尔倒谱系数作为输入，通过训练通用背景模型，并在通用背景模型上做自适应，得到每个数据的混合高斯模型，并将所有高斯分量的各均值矢量μ_c按照固定的顺序排列起来，即得到均值的超矢量M：

可选的，在训练语音测试模型，包括：

将语音信息的均值超矢量分为训练集和测试集；

对比预测标签与初始标签以完成模型训练。

具体的说，如图2所示，将训练集的均值超矢量与标签向量作为输入，训练一个基于偏最小二乘的总变化空间，

其中，T为总变化空间矩阵，W为身份-向量组成的矩阵，Y为热编码(one-hot)类别标签矩阵，Q为负荷矩阵，U为得分矩阵，E和F为残差矩阵。

然后，将验证集的均值超矢量作为输入，得到其在总变化空间上的预测标签。由于Y为多个回归的叠加，因此验证集的预测标签Y_re可以表示为：

其中，U_val为验证集得分矩阵，Q_tr为训练语料的负荷矩阵，W_val为预测语料的身份-向量矩阵，B_tr为回归系数矩阵。

定义M_re为验证集均值超向量组成的矩阵，则预测标签矩阵Y_val可以表示为：

其中，

为用残差矩阵求得的权矩阵，V_tr为训练均值超矢量的权矩阵。

可选的，在本发明另一个可选的实施例中，所述对比预测标签与初始标签以完成模型训练，包括：

通过所述预测标签对所述初始标签进行惩罚修正；

所述对初始标签对应的标签向量做惩罚修正，包括：

对全部训练语料的类别标识进行惩罚；或者，

对分类错误的语料的类别标识进行惩罚。

具体的说，在本实施例中，将预测分类结果与已知的正确的说话人类别进行对比，当分类结果错误时，对类别标签向量的相应列做出惩罚修正。例如，说话人S₁的验证样本被预测为说话人S₂，则将说话人S₁在说话人S₂的类别标签向量所对应的列做相应的惩罚修正：把原来的0做相应的减小，使其与0的距离增加，从而与代表说话人类别的1的距离更远，加大了说话人S₁与说话人S₂之间的距离。本实施例中提出的惩罚方式有两种：

(1)对全部训练语料类别标识矩阵的相应列做出惩罚；

(2)只对分类错误的语料的类别标识矩阵的相应列做出惩罚。

然后，将训练集数据的均值超矢量与修正后的标签作为输入，重复构建修正后的总变化空间并进行训练直至收敛。

根据所述投影信息完成说话人的识别。

可选的，所述根据所述投影信息完成说话人的识别，包括：

具体的说，在本实施例中，将待测语音信息的测试均值超矢量作为输入，得到其在总变化空间上的投影，将其作为身份-向量计算其与目标说话人的余弦距离作为分数。设目标说话人与测试说话人的身份-向量分别为w_target和w_test，则余弦距离得分的形式如下：

图3为在King-ASR-010说话人数据集上，基于惩罚修正的偏最小二乘的说话人识别技术与现有的身份-向量方法的性能对比。其中PLS(Partial Least Squares)代表基于惩罚修正的偏最小二乘的说话人识别方法，i-vector(Identification-Vector)代表现有基于身份-向量的说话人识别技术。其中“等错误率”与“最小检测代价”的值越小，说明方法性能越优。经实验证明，基于惩罚修正的偏最小二乘的说话人识别技术可以给基于身份-向量的识别方法带来31.62％的相对等错误率下降，以及45.16％的相对最小检测代价下降。

身份-向量的说话人识别技术的核心环节为总变化空间的估计，然而现有方法总变化空间的估计方法均为通过寻找特征向量之间的数据信息关系达来到特征提取的目的，却忽略了一个重要的先验知识——说话人的类别信息，而类别信息对于样本的分类与预测有着十分重要的意义，因此现有方法的总变化空间估计方法并不是最优的。

因此，本发明方法从训练数据的类别信息入手，提出了一种基于惩罚修正的偏最小二乘说话人识别方法。本发明方法在对总变化空间估计的时候，考虑训练数据的类别信息，因此能够充分利用说话人数据的类内与类间关系，因此与现有方法相比，在使用相同训练数据的情况下，可以达到更高的说话人识别准确率。

经实验证明，在King-ASR-010数据集上，一种基于惩罚修正的偏最小二乘的说话人识别技术可以为现有的身份-向量说话人识别方法带来31.62％的相对等错误率下降，以及45.16％的相对最小检测代价下降，详见图2。

综上，本发明方法可显著提升了说话人识别系统的性能。

第二方面，本发明第二实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现第一实施例的方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种说话人识别方法，其特征在于，所述方法包括如下步骤：

获取语音信息，并提取所述语音信息的均值超矢量；

2.如权利要求1所述的方法，其特征在于，所述语音信息包括语音的梅尔倒谱系数。

3.如权利要求2所述的方法，其特征在于，提取所述语音信息的均值超矢量，包括：

根据语音的梅尔倒谱系数训练通用背景模型；

4.如权利要求3所述的方法，其特征在于，在训练语音测试模型，包括：

将语音信息的均值超矢量分为训练集和测试集；

对比预测标签与初始标签以完成模型训练。

5.如权利要求4所述的方法，其特征在于，所述对比预测标签与初始标签以完成模型训练，包括：

通过所述预测标签对所述初始标签进行惩罚修正；

6.如权利要求5所述的方法，其特征在于，通过所述预测标签对所述初始标签进行惩罚修正，包括：

所述对初始标签对应的标签向量做惩罚修正，包括：

对全部训练语料的类别标识进行惩罚；或者，

对分类错误的语料的类别标识进行惩罚。

7.如权利要求4所述的方法，其特征在于，基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别，包括：

根据所述投影信息完成说话人的识别。

8.如权利要求7所述的方法，其特征在于，所述根据所述投影信息完成说话人的识别，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至8中任一项所述的方法的步骤。