CN111028847B

CN111028847B - 一种基于后端模型的声纹识别优化方法和相关装置

Info

Publication number: CN111028847B
Application number: CN201911303022.4A
Authority: CN
Inventors: 郑颖龙; 赖蔚蔚; 吴广财; 郑杰生; 高尚; 林嘉鑫; 周昉昉
Original assignee: Guangdong Power Grid Co Ltd; Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Guangdong Electric Power Information Technology Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2022-09-09
Anticipated expiration: 2039-12-17
Also published as: CN111028847A

Abstract

本申请公开了一种基于后端模型的声纹识别优化方法和相关装置，包括：构建声纹识别PLDA模型，声纹识别PLDA模型的目标函数为

和

分别为方差矩阵Φ_b和方差矩阵Φ_w的逆矩阵，λ和β为超级参数；将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。解决了现有的声纹识别系统中，由于数据噪声和数据样本不足，导致基于PLDA的后端模型的两个方差矩阵不准确，使得PLDA模型不能反映实际数据，降低了声纹识别的准确率的技术问题。

Description

一种基于后端模型的声纹识别优化方法和相关装置

技术领域

本申请涉及声纹识别技术领域，尤其涉及一种基于后端模型的声纹识别优化方法和相关装置。

背景技术

声纹识别技术能够从语音中识别出说话人的身份，在用户登录、用户认证和公共安全等领域得到广泛应用。声纹识别主要包含声纹模型训练与声纹识别两个阶段，在声纹模型训练阶段，系统学习如何从一段语音信号中提取有差异性的高维特征向量(称为声纹向量)，根据学习到的高维特征向量继续学习判断两段声音的相似性(后端模型识别)，因此，实际上在声纹模型训练阶段，会训练两个模型：声纹向量提取模型和后端模型，在声纹识别阶段，系统利用在训练阶段已经训练好的“声纹向量提取模型”和“后端模型”，首先利用声纹向量提取模型对输入的语音信号提取高维特征，然后利用后端模型继续评判两个高维特征向量的相似性。在后端模型中，常使用PLDA模型，假设x是服从高斯分布，并且高斯分布的均值y是另一个均值为m、方差为Φ_b的高斯分布，方差为Φ_w，其PLDA模型的数学表示为：P(x|y)＝N(x|y,Φ_w)，p(y)＝N(y|m,Φ_b)，PLDA模型的参数可以通过EM算法从训练数据中得到。但是由于在实际应用中，数据噪声和数据样本不够等原因导致训练出来的两个方差矩阵Φ_b和Φ_w并不准确，导致PLDA模型不能反映实际数据的情况，降低了声纹识别的准确率。

发明内容

本申请提供了一种基于后端模型的声纹识别优化方法和相关装置，用于解决现有的声纹识别系统中，由于数据噪声和数据样本不足，导致基于PLDA的后端模型的两个方差矩阵不准确，使得PLDA模型不能反映实际数据，降低了声纹识别的准确率的技术问题。

有鉴于此，本申请第一方面提供了一种基于后端模型的声纹识别优化方法，包括：

构建声纹识别PLDA模型，所述声纹识别PLDA模型的目标函数为

和

分别为方差矩阵Φ_b和方差矩阵Φ_w的逆矩阵，λ和β为超级参数；

将对目标语音数据进行特征向量提取后得到的高维特征向量输入到所述声纹识别模型中进行声纹识别。

可选地，所述将对目标语音数据进行特征向量提取后得到的高维特征向量输入到所述声纹识别模型中进行声纹识别，之前还包括：

提取所述目标语音数据中的梅尔频率倒谱系数特征；

基于高维向量提取模型从所述梅尔频率倒谱系数特征中提取预置长度的高维特征向量。

可选地，所述提取所述目标语音数据中的梅尔频率倒谱系数特征，之前还包括：

对所述目标语音数据进行预处理，剔除无效语音数据。

可选地，所述对所述目标语音数据进行预处理，剔除无效语音数据，包括：

基于时频分析的方法对所述目标语音数据进行分段；

基于高斯混合模型判断每一段语音数据是否属于无效语音数据，若是，则将无效语音数据剔除。

本申请第二方面提供了一种基于后端模型的声纹识别优化装置，包括：

建模模块，用于构建声纹识别PLDA模型，所述声纹识别PLDA模型的目标函数为

和

识别模块，用于将对目标语音数据进行特征向量提取后得到的高维特征向量输入到所述声纹识别模型中进行声纹识别。

可选地，还包括特征提取模块；

所述特征提取模块，用于：

提取所述目标语音数据中的梅尔频率倒谱系数特征；

可选地，还包括：

预处理模块，用于对所述目标语音数据进行预处理，剔除无效语音数据。

可选地，所述预处理模块具体用于：

基于时频分析的方法对所述目标语音数据进行分段；

本申请第三方面提供了一种基于后端模型的声纹识别优化设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的基于后端模型的声纹识别优化方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面任一种所述的基于后端模型的声纹识别优化方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中提供了一种基于后端模型的声纹识别优化方法，包括：构建声纹识别PLDA模型，声纹识别PLDA模型的目标函数为

和

分别为方差矩阵Φ_b和方差矩阵Φ_w的逆矩阵，λ和β为超级参数；将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。本申请提供的基于后端模型的声纹识别优化方法，对声纹识别PLDA模型的目标函数进行了改进，限制了方差矩阵Φ_b和方差矩阵Φ_w的逆矩阵的L1范数，对方差矩阵Φ_b和方差矩阵Φ_w进行了规范，使得在数据噪声和数据样本不足的情况下，能够准确估计方差矩阵Φ_b和方差矩阵Φ_w，提升了声纹识别PLDA模型的准确性，从而提升了声纹识别的识别准确率，解决了现有的声纹识别系统中，由于数据噪声和数据样本不足，导致基于PLDA的后端模型的两个方差矩阵不准确，使得PLDA模型不能反映实际数据，降低了声纹识别的准确率的技术问题。

附图说明

图1为本申请实施例中提供的一种基于后端模型的声纹识别优化方法的流程示意图；

图2为本申请实施例中提供的一种基于后端模型的声纹识别优化方法的另一流程示意图；

图3为本申请实施例中提供的一种基于后端模型的声纹识别优化装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供了一种基于后端模型的声纹识别优化方法的一个实施例，包括：

步骤101、构建声纹识别PLDA模型，声纹识别PLDA模型的目标函数为

和

分别为方差矩阵Φ_b和方差矩阵Φ_w的逆矩阵，λ和β为超级参数。

步骤102、将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。

需要说明的是，PLDA(Probabilistic Linear Discriminant Analysis，概率线性鉴别分析)模型参数简记为Θ，

传统的PLDA训练方式是解决Θ^*＝arg max{log P(X|Θ)}的数学问题，即找到使得观测数据X概率最大的参数，求解方法可以通过EM算法来进行迭代解决。本申请实施例中，为了提升参数估计的准确性，在传统的目标函数Θ^*＝arg max{log P(X|Θ)}的基础上增加对方差矩阵Φ_b和方差矩阵Φ_w的规范，限制其逆矩阵的L1范数，使得PLDA模型的鲁棒性更好。将声纹识别PLDA模型的目标函数目标函数设定为：

其中，

和

分别是方差矩阵Φ_b和方差矩阵Φ_w的逆矩阵，λ和β为两个超级参数，可以在一个开发数据集上进行调优，

表示逆矩阵

的一阶范数。目标函数

可以通过EM算法进行求解。

在求解过程中，可以将目标函数转化为求解

对于

问题的求解已有现有技术公开求解方式，在此不再进行赘述。

构建完优化的声纹识别PLDA模型之后，将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别，根据学习到的高维特征向量判断目标语音数据与标准语音数据两端声音的相似性，从而实现声纹识别。

本申请实施例提供的基于后端模型的声纹识别优化方法，对声纹识别PLDA模型的目标函数进行了改进，限制了方差矩阵Φ_b和方差矩阵Φ_w的逆矩阵的L1范数，对方差矩阵Φ_b和方差矩阵Φ_w进行了规范，使得在数据噪声和数据样本不足的情况下，能够准确估计方差矩阵Φ_b和方差矩阵Φ_w，提升了声纹识别PLDA模型的准确性，从而提升了声纹识别的识别准确率，解决了现有的声纹识别系统中，由于数据噪声和数据样本不足，导致基于PLDA的后端模型的两个方差矩阵不准确，使得PLDA模型不能反映实际数据，降低了声纹识别的准确率的技术问题。

为了便于理解，请参阅图2，本申请中提供了一种基于后端模型的声纹识别优化方法的另一个实施例，包括：

步骤201、构建声纹识别PLDA模型，声纹识别PLDA模型的目标函数为

和

需要说明的是，本申请实施例中的步骤201与上一实施例中的步骤101一致，在此不再进行赘述。

步骤202、对目标语音数据进行预处理，剔除无效语音数据。

需要说明的是，在获得的目标语音数据中有可能存在诸如彩铃、振铃、传真音或静音等非目标语音的数据，这些非目标语音数据的存在会影响声纹识别结果，因此，需要对目标语音数据进行预处理，将这些非目标语音数据作为无效语音数据剔除。进行的预处理过程可以是基于时频分析的方法对目标语音数据进行分段，然后采用高斯混合模型判断每一段语音数据是否属于无效语音数据，若是，则将无效语音数据剔除，保留有效语音数据。

步骤203、提取目标语音数据中的梅尔频率倒谱系数特征。

步骤204、基于高维向量提取模型从梅尔频率倒谱系数特征中提取预置长度的高维特征向量。

步骤205、将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。

需要说明的是，在对目标语音数据预处理完成后，进行对目标语音数据的特征提取处理，本申请实施例中提取的特征为梅尔频率倒谱系数特征，可以包括基本倒谱特征和对基本倒谱特征进行特征补偿后的18维特征。然后利用高维向量提取模型从特征中提取固定长度的高维向量，最后利用声纹识别PLDA模型对高维特征向量进行打分，即计算两段语音数据的相似度，得到最终的声纹识别输出结果。高维向量提取模型可以是ivector和xvector等。

为了便于理解，请参阅图3，本申请中提供了一种基于后端模型的声纹识别优化装置的实施例，包括：

建模模块，用于构建声纹识别PLDA模型，声纹识别PLDA模型的目标函数为

和

识别模块，用于将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。

进一步地，还可以包括特征提取模块；

特征提取模块，用于：

提取目标语音数据中的梅尔频率倒谱系数特征；

基于高维向量提取模型从梅尔频率倒谱系数特征中提取预置长度的高维特征向量。

进一步地，还可以包括：

预处理模块，用于对目标语音数据进行预处理，剔除无效语音数据。

进一步地，预处理模块具体可以用于：

基于时频分析的方法对目标语音数据进行分段；

本申请中还提供了一种基于后端模型的声纹识别优化设备的实施例，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行前述的基于后端模型的声纹识别优化方法实施例中的基于后端模型的声纹识别优化方法。

本申请中提供了一种计算机可读存储介质的实施例，计算机可读存储介质用于存储程序代码，程序代码用于执行前述的基于后端模型的声纹识别优化方法实施例中的基于后端模型的声纹识别优化方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机系统(可以是个人计算机，服务器，或者网络系统等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。