CN108831487B

CN108831487B - 声纹识别方法、电子装置及计算机可读存储介质

Info

Publication number: CN108831487B
Application number: CN201810688682.8A
Authority: CN
Inventors: 郑能恒; 林�吉
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2020-08-18
Anticipated expiration: 2038-06-28
Also published as: CN108831487A; WO2020001182A1

Abstract

一种声纹识别方法、电子装置及计算机可读存储介质，其中，该声纹识别方法包括：获取待分析的语音数据；提取所述语音数据中的变化因子特征，通过易错点分类器，根据所述变化因子特征对所述语音数据进行误判分类，得到所述语音数据在所述K个子系统中被误判的相对误判概率；确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量，并根据所述偏置量计算相应子系统的最终融合权重；通过所述最终融合权重对相应的各个子系统的识别结果进行加权，根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果。

Description

声纹识别方法、电子装置及计算机可读存储介质

技术领域

本申请涉及电子技术领域，尤其涉及一种声纹识别方法、电子装置及计算机可读存储介质。

背景技术

随着智能设备和相关硬体设施的普及，语音交互已经成为了人机交互中不可或缺的一环。而语音交互中有关声纹的应用场景也越来越多，包括但不限于：声纹考勤打卡、软件登录、银行转账与开户验证、虚拟语音助理的唤醒、针对不同的用户群体进行个性化交互等，这些系统无一例外的都利用到了声纹。所谓声纹，即每个人独有的声音特性。在现实生活生活中，每个人说话时的声音都有自己的特点。一般来说，声纹识别分为以下几种：情感识别、年龄识别、语种识别、性别识别、说话人识别等。

在现有技术中，为了提高声纹识别的准确率，大多采用多种类型的声纹系统进行混搭，将这些系统在得分域上赋予不同的权重进行加权融合，进而得出最终的判决结果。如，使用线性逻辑回归的融合策略：该策略的中心思想是对于一个有N个子系统的混合系统，将每个子系统的得分规整到一个区间上，然后利用开发集训练出每个子系统i的融合权重w_i，同时训练出一个总体的偏移w₀，对于每个子系统中的得分为S_i，那么最终的融合得分S等于：

然后通过最终S的分值情况来实现该系统。

由于现实情况的复杂性，现有技术中不同类型的识别子系统不一定适配初始设定的权重，因此，采用固定权重的方法使得声纹识别的准确率不高。

发明内容

本申请实施例提供一种声纹识别方法、电子装置及计算机可读存储介质，用于通过设置合适的声纹识别权重以提高声纹识别的准确率。

本申请实施例第一方面提供一种声纹识别方法，包括：

获取待分析的语音数据；

提取所述语音数据中的变化因子特征，所述变化因子特征用于表征所述语音数据相关的综合信息，所述综合信息至少包括声音传输通道信息，声音环境信息以及发声对象信息；

通过易错点分类器，根据所述变化因子特征对所述语音数据进行误判分类，得到所述语音数据在所述K个子系统中被误判的相对误判概率；

确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量，并根据所述偏置量计算相应子系统的最终融合权重；

获取各个子系统对所述语音数据的识别结果；

通过所述最终融合权重对相应的各个子系统的识别结果进行加权，根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果。

可选的，所述易错点分类器的训练方法包括：

以短时语音数据集作为各子系统的测试数据集，将测试过程中所有误判的语音段依照不同的子系统标注为N个不同的标签，作为训练数据库，所述N为大于零的整数；

对所述训练数据库中的每条短时语音数据，提取MFCC梅尔频率倒谱系数特征；

根据提取到的MFCC特征训练通用背景模型，训练总体变化矩阵；

根据所述总体变化矩阵获得所述短时语音数据的变化因子特征；

根据所述变化因子特征及其对应的标签，训练能进行N类别分类的易错点分类器。

可选的，所述根据所述变化因子特征及其对应的标签，训练能进行N类别分类的易错点分类器之前，包括：

采用线性区分性分析对所述变化因子特征进行信道补偿，获得降维后的变化因子特征。

可选的，所述K个子系统对应的相对误判概率的和为一。

可选的，所述根据所述偏置量计算相应子系统的最终融合权重，包括：

根据所述偏置量计算相应子系统的初始融合权重，具体通过以下公式：

其中，上式中

作为输入语音为x时各子系统S_i的初始融合权重，

表示所述偏置量；

根据所述初始融合权重，并通过以下公式计算所述最终融合权重；

所述C_i为所述K个子系统各自的最终融合权重，所述其中x为输入语音，所述

作为输入语音为x时各子系统S_i的初始融合权重，所述μ为所述C_i的关系系数。

本申请实施例第二方面提供另一种电子装置，包括：

K个子系统和动态权重子模块，所述K为大于零的整数，；

所述动态权重子模块用于获取待分析的语音数据；提取所述语音数据中的变化因子特征，所述变化因子特征用于表征所述语音数据相关的综合信息，所述综合信息至少包括声音传输通道信息，声音环境信息以及发声对象信息；通过易错点分类器，根据所述变化因子特征对所述语音数据进行误判分类，得到所述语音数据在所述K个子系统中被误判的相对误判概率；确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量，并根据所述偏置量计算相应子系统的最终融合权重；通过所述最终融合权重对相应的各个子系统的识别结果进行加权，根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果；

所述子系统用于对所述语音数据的进行初步声纹识别，获得所述语音数据的识别结果。

可选的，所述动态权重子模块包括：特征提取单元，易错点分类器，权重计算单元以及综合计算单元；

所述特征提取单元用于提取所述语音数据中的变化因子特征；

所述易错点分类器用于根据所述变化因子特征对所述语音数据进行误判分类，得到所述语音数据在所述K个子系统中被误判的相对误判概率；

所述权重计算单元用于确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量，并根据所述偏置量计算相应子系统的最终融合权重；

所述综合计算单元用于通过所述最终融合权重对相应的各个子系统的识别结果进行加权，根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果。

可选的，所述权重计算单元具体还用于：

所述根据所述偏置量计算相应子系统的最终融合权重，包括：

其中，上式中

作为输入语音为x时各子系统S_i的初始融合权重，

表示所述偏置量；

本申请实施例第三方面提供另一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述本申请实施例第一方面提供的声纹识别方法。

本申请实施例第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述本申请实施例第一方面提供的声纹识别方法。

由上可见，本申请方案根据变化因子特征将各子系统错误高发的语音段进行分类，分为K类易错点，并训练出对应的分类模型，再对每一条待分析的语音数据进行分类，降低分类所得的标签对应的子系统的预测权重，进而优化最终结果，达到了对各子系统的误判率进行实时评测、动态调整的效果。

附图说明

图1-a为本申请实施例提供的声纹识别方法的实现流程示意图；

图1-b为本申请实施例提供的声纹识别系统的架构图；

图1-c为本申请实施例提供的易错点分类器的训练方法的流程示意图；

图1-d为本申请实施例提供的动态权重子模块的运作流程图；

图2为本申请一实施例提供的电子装置结构示意图；

图3为本申请另一实施例提供的电子装置硬件结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本申请实施例提供一种声纹识别方法，请参阅图1-a，该声纹识别方法主要包括以下步骤：

101、获取待分析的语音数据；

本发明实施例应用于声纹识别系统，所述声纹识别系统包括K个子系统，所述K为大于零的整数。本发明实施例的声纹识别系统的系统架构可以参考图1-b。

其中，所述声纹识别系统中的各个子系统可以分别对应不同类型的声纹识别，声纹识别的类型包括：情感识别、年龄识别、语种识别。进一步的，各个子系统也可以对应一种识别场景下的各个子类，如语音识别中，一个子系统对应一个语种(如汉语、英语或法语等)。可以理解的是，在实际应用中，子系统与声纹识别类别的对应关系可以根据实际情况而定，此处具体不作限定。

在本发明的实施例中，声纹识别方法主要应用于系统架构中的动态权重子模块，即待分析的语音数据可先输入到动态权重子模块中进行权重分析。

102、提取所述语音数据中的变化因子特征；

动态权重子模块提取所述语音数据中的变化因子特征，所述变化因子特征用于表征所述语音数据相关的综合信息，所述综合信息至少包括声音传输通道信息，声音环境信息以及发声对象信息。

示例性的，所述变化因子特征模型构建中的ivector(identity vector，身份矢量)特征，ivector特征了说话对象的大量信息，如传输通道信息、声学环境信息、说话人信息等。

103、通过易错点分类器，根据所述变化因子特征对所述语音数据进行误判分类；

动态权重子模块通过易错点分类器，根据所述变化因子特征对所述语音数据进行误判分类，得到所述语音数据在所述K个子系统中被误判的相对误判概率。

示例性的，易错点分类器输出的分类结果可以如下表所示：

子系统代号	子系统1	子系统2	…	子系统K
					相对误判概率	P<sub>f</sub>(S<sub>1</sub>\|x)	P<sub>f</sub>(S<sub>2</sub>\|x)	…	P<sub>f</sub>(S<sub>K</sub>\|x)

其中x为输入的语音数据，P_f(S_i|x)(i＝1,2,…,K)为在输入语音为x的条件下被系统S_i误判的相对误判概率，数值越高则代表该语音在对应的子系统下被误判(包括错误接受(False Acceptance)/错误拒绝(False Rejection))的概率越高。且所有子系统的相对误判概率之和为1，即:

当各子系统针对某条语音误判的概率相等时，则各子系统的相对误判概率为

即为平均相对误判概率。

104、确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量，并根据所述偏置量计算相应子系统的最终融合权重；

动态权重子模块确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量，并根据所述偏置量计算相应子系统的最终融合权重。

相对误判概率真正的意义在于相对误判概率与平均误判概率之间的偏置量。相对误判概率表示当不同的子系统的误判概率之间的相对大小关系。如：子系统a的相对误判概率为0.1，子系统b的相对误判概率为0.5，则相对误判概率的意义在于子系统b的误判概率比子系统a要大，而不是说系统b的误判概率为0.5。

示例性的，偏置量的定义如下：

某子系统针对某条语音的相对误判概率越高，其偏置量越大，即代表该条语音在某子系统中被误判的概率越高，此时应该降低该子系统的融合权重。根据上述思想，示例性的，可以得出如下计算公式：

上式中

即可作为输入语音为x时各子系统S_i的初始融合权重。其中心思想是将相对误判概率与平均概率之间的偏置量作为融合权重的计算参量。同时，为了调节动态权重子模块在最终概率值融合时的影响力，可以在各权重值保持相对大小的关系不变的情况下，通过调整权重数组的标准差来微调权重值。

105、获取各个子系统对所述语音数据的识别结果；

动态权重子模块获取各个子系统对所述语音数据的识别结果。

在本发明实施例中，系统架构图1-b所述，待分析的语音数据可以分别输入到各个子系统中进行声纹识别，获得各个子系统的识别结果。其中，步骤105和步骤101为可以并列执行的两个分支，即步骤105和步骤101之前没有严格的时序关系，即在执行步骤106之前，可以先执行步骤101，也可以先执行步骤105，也可以同时执行步骤105和步骤101，此处具体不作限定。

106、通过所述最终融合权重对相应的各个子系统的识别结果进行加权，根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果。

声纹识别系统通过所述最终融合权重对相应的各个子系统的识别结果进行加权，根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果。

示例性的，可以将相对误判概率P_f(S_i|x)经过下式函数计算后作为各子系统最终融合权重：

其中，对于任意某组P_f(S_i|x)数组，C_i与μ之间的关系满足如下定义：

①μ越小，数组C_i(i＝1,2,…,K)的标准差越小；

②μ越大，数组C_i(i＝1,2,…,K)的标准差越大；

③μ＝0时，数组(i＝1,2,…,K)与数组P_f(S_i|x)(i＝1,2,…,K)的标准差相等。

其中μ与数组C_i(i＝1,2,…,K)的标准差σ之间关系可由如下公式表示：

在一般的混合系统中，子系统的个数K一般是固定的，所以这里的K可看做一个常数。可以看出随着μ增大或减小，σ也随之非线性增大或减小。在一般情况下，μ值默认为0可不做调整。如需调整，建议调整范围控制在[-1，1]之间，太大或太小都有可能对最终的融合评分结果产生反效果。另外，大幅调整μ可能会导致概率值出现负值的情况，但不影响融合评分的判决流程。

本申请方案根据变化因子特征将各子系统错误高发的语音段进行分类，分为K类易错点，并训练出对应的分类模型，再对每一条待分析的语音数据进行分类，降低分类所得的标签对应的子系统的预测权重，进而优化最终结果，达到了对各子系统的误判率进行实时评测、动态调整的效果。

实施例二

在本发明实施例中，需要对易错点分类器进行构建，请参阅图1-c方法包括：

201、建立训练数据库；

以短时语音数据集作为各子系统的测试数据集，将测试过程中所有误判的语音段依照不同的子系统标注为N个不同的标签，作为训练数据库，所述N为大于零的整数。

202、提取MFCC梅尔频率倒谱系数特征；

对所述训练数据库中的每条短时语音数据，提取梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)特征。

203、训练总体变化矩阵；

根据提取到的MFCC特征训练通用背景模型(Universal Background Model，UBM)，训练总体变化矩阵T。

204、获得所述短时语音数据的变化因子特征；

根据所述总体变化矩阵T获得所述短时语音数据的变化因子特征。

示例性的，可以根据以下公式求取变化因子特征：

M＝m+Tw；

其中，m是背景模型的超向量，它与所有说话人的声学与信道共性有关；M为均值超矢量，是在背景模型的超向量的基础上进行自适应训练所得；T为总体变化矩阵T；w是变化因子特征特征向量。

205、对变化因子特征进行降维处理；

采用线性区分性分析对所述变化因子特征进行信道补偿，以减弱变化因子特征中信道等冗余信息的影响，并同时达到降维的效果。此处采用线性区分性分析(LinearDiscriminant Analysis，LDA)降维方法。

206、训练能进行N类别分类的易错点分类器。

根据所述变化因子特征及其对应的标签，训练能进行N类别分类的易错点分类器。这里采用svm分类器，有两种方案可选：一、采用one vs rest策略的二分类svm；二、采用onevs one策略的二分类svm。

本发明实施例中的易错点分类器，能依据不同应用场景或声纹特征检测出不同子系统的误判概率，充分利用各子系统的优势并避开高误测点，进而给出更为适宜的融合权重，使混合系统的效能最大化，增强了鲁棒性。

实施例三

本发明实施例以语种识别的混合系统为例，详细说明本发明实施例中的声纹识别方法，包括：

一、本发明实施例的语种识别的混合系统的架构可以参考图1-b，每个子系统独立给出N个不同语种的概率值。

二、令x为某条输入语音，每个子系统的输出如下表所示：

语种代号	语种1	语种2	…	语种N
					语种的概率	P(L<sub>1</sub>\|x)	P(L<sub>2</sub>\|x)	…	P(L<sub>N</sub>\|x)

P_f(L_j|x)(i＝1,2,…,N)每个子系统分别独立给出某条输入语音属于某一语种L_j(j＝1,2,…,N)的概率，且所有概率之和也为1，即：

将K个子系统给出的所有语种的概率排成矩阵：

三、执行动态权重子模块的运作流程，请参阅图1-d；

在提取了语音数据的ivector特征之后，将ivector特征输入至易错点分类器中，易错点分类器输出的分类结果可以如下表所示：

即为平均相对误判概率。

相对误判概率真正的意义在于相对误判概率与平均误判概率之间的偏置量。某子系统针对某条语音的相对误判概率越高，其偏置量越大，即代表该条语音在某子系统中被误判的概率越高，此时应该降低该子系统的融合权重。根据上述思想，示例性的，可以得出如下计算公式：

上式中

为了调节动态权重子模块在最终概率值融合时的影响力，可以在各权重值保持相对大小的关系不变的情况下，通过调整权重数组的标准差来微调权重值。可以将P_f(S_i|x)经过下式函数计算后作为各子系统最终融合权重：

①μ越小，数组C_i(i＝1,2,…,K)的标准差越小；

②μ越大，数组C_i(i＝1,2,…,K)的标准差越大；

四、将融合权重数组C_i(i＝1,2,…,K)以如下形式融入到最终的评分矩阵中，得到混合系统输出的语种。

评分矩阵如以下公式所示：

其中，上述等式左侧第一项矩阵为融合权重矩阵，等式左侧第二项矩阵为K个子系统给出的所有语种的概率矩阵，等式右侧矩阵为给等式左侧第二项矩阵分配融合权重后的融合概率矩阵。最后对等式右侧矩阵中的每一列相加，得到该条语音为各语种的概率：

该语音段x最后被判定为各语种的概率如上表所示，该混合系统输出的语种为：argmaxP(L_j|x)。

实施例四

请参阅图2，为本申请实施例提供一种电子装置。该电子装置可用于实现上述图1-a所示实施例提供的声纹识别方法。如图2所示，该电子装置主要包括：

所述动态权重子模块210用于获取待分析的语音数据；提取所述语音数据中的变化因子特征，所述变化因子特征用于表征所述语音数据相关的综合信息，所述综合信息至少包括声音传输通道信息，声音环境信息以及发声对象信息；通过易错点分类器，根据所述变化因子特征对所述语音数据进行误判分类，得到所述语音数据在所述K个子系统220中被误判的相对误判概率；确定任一子系统对应的相对误判概率与所述K个子系统的平均相对误判概率的偏置量，并根据所述偏置量计算相应子系统的最终融合权重；通过所述最终融合权重对相应的各个子系统的识别结果进行加权，根据加权后各个子系统的识别结果得到所述语音数据的综合识别结果；

所述子系统220用于对所述语音数据的进行初步声纹识别，获得所述语音数据的识别结果。

可选的，所述权重计算单元具体还用于：

其中，上式中

作为输入语音为x时各子系统S_i的初始融合权重，

表示所述偏置量；

根据所述初始融合权重，并通过以下公式计算所述语音数据的综合识别结果；

需要说明的是，以上图2示例的电子装置的实施方式中，各功能模块的划分仅是举例说明，实际应用中可以根据需要，例如相应硬件的配置要求或者软件的实现的便利考虑，而将上述功能分配由不同的功能模块完成，即将电子装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。而且，在实际应用中，本实施例中的相应的功能模块可以是由相应的硬件实现，也可以由相应的硬件执行相应的软件完成。本说明书提供的各个实施例都可应用上述描述原则，以下不再赘述。

本实施例提供的电子装置中各功能模块实现各自功能的具体过程，请参见上述图1-a所示实施例中描述的具体内容，此处不再赘述。

实施例五

本申请实施例提供一种电子装置，请参阅图3，该电子装置包括：

存储器301、处理器302及存储在存储器301上并可在处理器302上运行的计算机程序，处理器302执行该计算机程序时，实现前述图1-a所示实施例中描述的声纹识别方法。

进一步的，该电子装置还包括：

至少一个输入设备303以及至少一个输出设备304。

上述存储器301、处理器302、输入设备303以及输出设备304，通过总线305连接。

其中，输入设备303具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备304具体可为显示屏。

存储器301可以是高速随机存取记忆体(RAM，Random Access Memory)存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器301用于存储一组可执行程序代码，处理器302与存储器301耦合。

进一步的，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的电子装置中，该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现前述图1-a所示实施例中描述的声纹识别方法。进一步的，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本申请所提供的声纹识别方法、电子装置及计算机可读存储介质的描述，对于本领域的技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。