CN108777146A

CN108777146A - 语音模型训练方法、说话人识别方法、装置、设备及介质

Info

Publication number: CN108777146A
Application number: CN201810549432.6A
Authority: CN
Inventors: 涂宏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-09
Also published as: WO2019227586A1

Abstract

本发明公开了一种语音模型训练方法、说话人识别方法、装置、设备及介质。语音模型训练方法包括：基于预先准备的训练语音数据进行通用背景模型训练，获取通用背景模型；基于所述通用背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型；基于所述目标声纹特征模型，获取所述目标说话人语音数据的目标声纹特征向量；将所述目标声纹特征向量输入到深度神经网络中进行训练，获取目标说话人语音识别模型。采用该语音模型训练方法获取的目标说话人语音识别模型进行说话人识别能够得到精确的识别结果。

Description

语音模型训练方法、说话人识别方法、装置、设备及介质

技术领域

本发明涉及语音处理领域，尤其涉及一种语音模型训练方法、说话人识别方法、装置、设备及介质。

背景技术

目前在进行说话人语音识别时，大多数都是根据语音特征进行识别，这些语音特征有的维度太高，包含了太多非关键信息；有的维度太低，不能充分体现说话人语音的特点，使得当前说话人识别时精确度较低，无法对说话人语音进行有效的识别，制约说话人语音识别的应用。

发明内容

本发明实施例提供一种语音模型训练方法、装置、设备及介质，以解决当前说话人识别准确度低的问题。

本发明实施例还提供一种说话人识别方法、装置、设备及介质，以解决当前说话人识别准确度低的问题。

第一方面，本发明实施例提供一种语音模型训练方法，包括：

基于预先准备的训练语音数据进行通用背景模型训练，获取通用背景模型；

基于所述通用背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型；

基于所述目标声纹特征模型，获取所述目标说话人语音数据的目标声纹特征向量；

将所述目标声纹特征向量输入到深度神经网络中进行训练，获取目标说话人语音识别模型。

第二方面，本发明实施例提供一种语音模型训练装置，包括：

通用背景模型获取模块，用于基于预先准备的训练语音数据进行通用背景模型训练，获取通用背景模型；

目标声纹特征模型获取模块，用于基于所述通用背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型；

目标声纹特征向量获取模块，用于基于所述目标声纹特征模型，获取所述目标说话人语音数据的目标声纹特征向量；

目标说话人语音识别模型获取模块，用于将所述目标声纹特征向量输入到深度神经网络中进行训练，获取目标说话人语音识别模型。

第三方面，本发明实施例提供一种说话人识别方法，包括：

获取待识别语音数据，所述待识别语音数据与用户标识相关联；

基于通用背景模型对所述待识别语音数据进行自适应处理，获取待识别声纹特征模型；

基于所述待识别声纹特征模型，获取对应的待识别声纹特征向量；

根据所述用户标识获取与所述用户标识相对应的目标说话人语音识别模型，采用所述目标说话人语音识别模型对所述待识别声纹特征向量，获取识别概率值；若所述识别概率值大于预设概率值，则确定为用户本人；其中，所述目标说话人语音识别模型是采用所述语音模型训练方法获取到的。

第四方面，本发明实施例提供一种说话人识别装置，包括：

待识别语音数据获取模块，用于获取待识别语音数据，所述待识别语音数据与用户标识相关联；

待识别声纹特征模型获取模块，用于基于通用背景模型对所述待识别语音数据进行自适应处理，获取待识别声纹特征模型；

待识别声纹特征向量获取模块，用于基于所述待识别声纹特征模型，获取对应的待识别声纹特征向量；

识别模块，用于根据所述用户标识获取与所述用户标识相对应的目标说话人语音识别模型，采用所述目标说话人语音识别模型对所述待识别声纹特征向量，获取识别概率值；若所述识别概率值大于预设概率值，则确定为用户本人；其中，所述目标说话人语音识别模型是采用所述语音模型训练方法获取到的。

第五方面，本发明实施例提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述语音模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现所述说话人识别方法的步骤。

第六方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述语音模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现所述说话人识别方法的步骤。

本发明实施例所提供的语音模型训练方法、装置、设备及介质中，首先获取通用背景模型，然后再基于通用背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型，通用背景模型涵盖训练语音数据各个维度的语音特征，可以通过该背景模型对数据量较少的目标说话人语音数据进行自适应补充处理，使得在数据量很少的情况下同样能够得到代表目标说话人语音数据的目标声纹特征模型。接着基于目标声纹特征模型获取目标说话人语音数据的目标声纹特征向量，该目标声纹特征向量可以在较低维度下便体现目标说话人语音数据，在进行与该目标声纹特征向量相关的计算时，能够大大减少计算量，提高效率，并在提高效率的同时，保证目标声纹特征向量在较低维度下仍然能够保留与目标说话人语音数据相关的关键声纹特征。最后将目标声纹特征向量输入到深度神经网络中进行训练，获取目标说话人语音识别模型，该目标声纹向量能够较好地描述语音特征，可以在该目标声纹特征向量的基础上进行语音特征的深层提取，在经过深度神经网络的训练后，用较低的语音特征维度便能够全面地描述语音特征，得到识别准确性较高的目标说话人语音识别模型。

本发明实施例所提供的说话人识别方法、装置、设备及介质中，通过待识别语音数据获取对应的待识别声纹特征模型，将待识别声纹特征向量输入到待识别语音数据关联的用户标识对应的目标说话人语音识别模型中进行识别，实现说话人识别。该说话人语音识别模型用较低维度的目标声纹特征向量便能够全面地描述语音特征，采用该说话人识别方法进行说话人语音识别时，能达到识别准确率较高的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音模型训练方法的一流程图。

图2是图1中步骤S10的一流程图。

图3是图1中步骤S20的一流程图。

图4是图1中步骤S30的一流程图。

图5是图1中步骤S40的一流程图。

图6是本发明一实施例中语音模型训练装置的一原理框图。

图7是本发明一实施例中说话人识别方法的一流程图。

图8是本发明一实施例中说话人识别装置的一原理框图。

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出本发明一实施例中语音模型训练方法的一流程图。该语音模型训练方法可应用在银行、证券、投资和保险等金融机构或者需进行说话人识别的其他机构的计算机设备上，用于训练语音模型，以便利用训练好的语音模型进行说话人识别，达到人工智能目的。其中，该计算机设备是可与用户进行人机交互的设备，包括但不限于电脑、智能手机和平板等设备。如图1所示，该语音模型训练方法包括如下步骤：

S10：基于预先准备的训练语音数据进行通用背景模型训练，获取通用背景模型。

其中，训练语音数据是用于训练通用背景模型的语音数据。该训练语音数据可以是计算机设备上集成的录音模块或与计算机设备相连的录音设备对大量的不带标识的用户进行录音所采集的录音数据，也可以是直接采用网上开源的语音数据训练集作为训练语音数据。通用背景模型(Universal Background Model，简称UBM)是一个表示大量非特定说话人语音特征分布的高斯混合模型(Gaussian Mixture Model，简称GMM)，由于UBM的训练通常采用大量的与特定说话人无关、信道无关的语音数据，因此通常可以认为UBM是与特定说话人无关的模型，它只是拟合人的语音特征分布，而并不代表某个具体的说话人。高斯混合模型是用高斯概率密度函数(即正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数(即正态分布曲线)形成的模型。

本实施例中，采用预先准备好的训练语音数据训练通用背景模型。通用背景模型的表达式为高斯概率密度函数：其中，x表示训练语音数据，K表示组成通用背景模型的高斯分布的个数，C_k表示第k个混合高斯的系数，N(x；m_k,R_k)表示均值m_k是D维矢量，D×D维对角协方差矩阵R_k的高斯分布。由通用背景模型的表达式可知，训练通用背景模型实际上就是求出该表达式中的参数(C_k、m_k和R_k)。该通用背景模型的表达式为高斯概率密度函数，因此可以采用最大期望算法(Expectation Maximization Algorithm，简称EM算法)求出该表达式中的参数(C_k、m_k和R_k)。EM算法是一种迭代算法，用于对含有隐变量的概率参数模型进行最大似然估计或最大后验概率估计。在统计学里，隐变量是指不可观测的随机变量，但可以通过可观测变量的样本对隐变量作出推断，在训练通用背景模型的过程中由于训练过程是不可观测的(或者说隐藏的)，因此通用背景模型中的参数实际上是隐变量。采用EM算法可以基于最大似然估计或最大后验概率估计求出通用背景模型中的参数，求得参数后即得到通用背景模型。通过获取该通用背景模型，为后续在目标说话人语音数据较少或不足的情况下能够基于该通用背景模型，获取到相应的目标声纹特征模型提供重要的实现基础。

在一实施例中，如图2所示，步骤S10中，基于预先准备的训练语音数据进行通用背景模型训练，获取通用背景模型，包括如下步骤：

S11：基于训练语音数据，获取训练语音特征。

本实施例中，训练语音数据是计算机设备内置的录音模块或外部的录音设备直接采集到的语音数据，不能被计算机直接识别，使其不能直接用于训练通用背景模型的，因此，需将训练语音数据先转化为计算机能够识别的训练语音特征。该训练语音特征具体可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,简称MFCC)，该MFCC特征具有39个维度的特征(以向量的形式表示)，能够较好地描述训练语音数据。

具体地，该获取训练语音特征的过程具体如下：

(1)对训练语音数据进行预处理。

对训练语音数据进行预处理能够更好地提取训练语音数据的训练语音特征，使得提取出的训练语音特征更能代表该训练语音数据。该预处理具体包括：

对训练语音数据作预加重处理。预加重处理的计算公式为s'_n＝s_n-a*s_n-1，其中，s_n为时域上的信号幅度，s_n-1为与s_n相对应的上一时刻的信号幅度，s'_n为预加重后时域上的信号幅度，a为预加重系数，a的取值范围为0.9<a<1.0。其中，预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加，信号在传输过程中受损很大，为了在接收终端能得到比较好的信号波形，就需要对受损的信号进行补偿。预加重技术的思想就是在传输线的始端增强信号的高频成分，以补偿高频分量在传输过程中的过大衰减。预加重对噪声并没有影响，因此能够有效提高输出信噪比。采用该预加重处理能够消除说话人发声过程中声带和嘴唇等造成的干扰，可以有效补偿训练语音数据被压抑的高频部分，并且能够突显训练语音数据高频的共振峰，加强训练语音数据的信号幅度，有助于提取训练语音特征。

将预加重后的训练语音数据进行分帧处理。分帧是指将整段的语音信号切分成若干段的语音处理技术，每帧的大小在10-30ms的范围内，以大概1/2帧长作为帧移。帧移是指相邻两帧间的重叠区域，能够避免相邻两帧变化过大的问题。对训练语音数据进行分帧处理能够将训练语音数据分成若干段的语音数据，可以细分训练语音数据，便于训练语音特征的提取。

将分帧后的训练语音数据进行加窗处理。在对训练语音数据进行分帧处理后，每一帧的起始段和末尾端都会出现不连续的地方，所以分帧越多与原始信号的误差也就越大。采用加窗能够解决这个问题，可以使分帧后的训练语音数据变得连续，并且使得每一帧能够表现出周期函数的特征。加窗处理具体是指采用窗函数对训练语音数据进行处理，窗函数可以选择汉明窗，则该加窗的公式为N为汉明窗窗长，n为时间，s_n为时域上的信号幅度，s'_n为加窗后时域上的信号幅度。对训练语音数据进行加窗处理，能够使得分帧后的训练语音数据在时域上的信号变得连续，有助于提取训练语音数据的训练语音特征。

(2)对预处理后的训练语音数据作快速傅里叶变换，获取训练语音数据的频谱，并根据频谱获取训练语音数据的功率谱。

其中，快速傅里叶变换(Fast Fourier Transformation，简称FFT),指利用计算机计算离散傅里叶变换的高效、快速计算方法的统称。采用这种计算方法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少，特别是被变换的抽样点数越多，FFT算法计算量的节省就越显著。

本实施例中，对预处理后的训练语音数据作快速傅里叶变换具体包括如下过程：首先，采用计算频谱的公式对预处理后的训练语音数据进行计算，获取训练语音数据的频谱。该计算频谱的公式为1≤k≤N，N为帧的大小，s(k)为频域上的信号幅度，s(n)为时域上的信号幅度，n为时间，i为复数单位。然后，采用计算功率谱的公式对获取到的训练语音数据的频谱进行计算，求得训练语音数据的功率谱。该计算训练语音数据的功率谱的公式为1≤k≤N，N为帧的大小，s(k)为频域上的信号幅度。通过将训练语音数据从时域上的信号幅度转换为频域上的信号幅度，再根据该频域上的信号幅度获取训练语音数据的功率谱，为从训练语音数据的功率谱中提取训练语音特征提供重要的技术前提。

(3)采用梅尔刻度滤波器组处理训练语音数据的功率谱，获取训练语音数据的梅尔功率谱。

其中，采用梅尔刻度滤波器组处理训练语音数据的功率谱是对功率谱进行的梅尔频率分析，而梅尔频率分析是基于人类听觉感知的分析。观测发现人耳就像一个滤波器组一样，只关注某些特定的频率分量(即人的听觉对频率是有选择性的)，也就是说人耳只让某些频率的信号通过，而直接无视不想感知的某些频率信号。具体地，梅尔刻度滤波器组包括多个滤波器，这些滤波器在频率坐标轴上却不是统一分布的，在低频区域有很多的滤波器，分布比较密集，但在高频区域，滤波器的数目就变得比较少，分布很稀疏。可以理解地，梅尔刻度滤波器组在低频部分的分辨率高，跟人耳的听觉特性是相符的，这也是梅尔刻度的物理意义所在。通过采用梅尔频率刻度滤波器组对频域信号进行切分，使得最后每个频率段对应一个能量值，若滤波器的个数为22，那么将得到训练语音数据的梅尔功率谱相对应的22个能量值。通过对训练语音数据的功率谱进行梅尔频率分析，使得该功率谱保留着与人耳特性密切相关的频率部分，该频率部分能够很好地反映出训练语音数据的特征。

(4)在梅尔功率谱上进行倒谱分析，获取训练语音数据的梅尔频率倒谱系数，并将获取到的梅尔频率倒谱系数确定为训练语音特征。

其中，倒谱(cepstrum)是指一种信号的傅里叶变换谱经对数运算后再进行的傅里叶反变换，由于一般傅里叶谱是复数谱，因而倒谱又称复倒谱。通过倒谱分析，可以将原本特征维数过高，难以直接使用的训练语音数据的梅尔功率谱中包含的特征，通过在梅尔功率谱上进行倒谱分析，转换成能够在模型训练过程中直接使用的训练语音特征，该特征即梅尔频率倒谱系数。

S12：采用训练语音特征进行通用背景模型训练，获取通用背景模型。

本实施例中，在获取训练语音特征(如MFCC特征)后，该训练语音特征可以以向量(矩阵)的形式表示，计算机设备可以直接读取向量形式的训练语音数据，在进行通用背景模型训练时，将训练语音特征按帧输入，并采用EM算法迭代计算得出通用背景模型表达式中的参数(第k个混合高斯的系数C_k、均值m_k和协方差R_k)，从而获取通用背景模型，EM算法是计算含有隐变量的概率密度函数的常用数学方法，在此不进行赘述。

S20：基于通用背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型。

其中，目标说话人语音数据是指训练目标声纹特征模型所需的语音数据。目标声纹特征模型是指与某些目标说话人相关的声纹特征模型。可以理解地，在需要训练某些说话人的声纹特征模型时，这些说话人就是目标说话人。为了区分不同目标说话人对应的语音数据，可使每一目标说话人语音数据携带相应的用户标识，该用户标识是用于唯一识别用户的标识，具体可以为目标说话人的身份证号或电话号码等。

本实施例中，目标说话人语音数据在某些场景下是比较难获取的(如在银行等办理业务的场景下)，因此造成了目标说话人语音数据的数据样本比较少。采用数据样本少的目标说话人语音数据直接训练获取的目标声纹特征模型在后续计算目标声纹特征向量时的效果非常差，无法体现出目标说话人语音数据的语音(声纹)特征。因此，本实施例采用通用背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型，以使得获取到的目标声纹特征模型的准确性更高。通用背景模型是一个表示大量非特定说话人语音特征分布的高斯混合模型，将通用背景模型中大量非特定说话人语音特征自适应地添加到目标说话人语音数据中，相当与把通用背景模型中的一部分非特定说话人语音特征作为目标说话人语音数据一同训练，可以很好地“补充”目标说话人语音数据，以训练目标声纹特征模型。

其中，自适应处理是指将通用背景模型中的与目标说话人语音数据相近的一部分非特定说话人语音特征作为目标说话人语音数据的处理方法，该自适应处理具体可以采用最大后验估计算法(Maximum A Posteriori，简称MAP)实现。最大后验估计是根据经验数据获得对难以观察的量的估计，估计过程中，需利用先验概率和贝叶斯定理得到后验概率，目标函数(即表示目标声纹特征模型的表达式)为后验概率的似然函数，求得该似然函数最大时的参数值(可采用梯度下降算法求出似得然函数的最大值)，也就实现将通用背景模型中的与目标说话人语音数据相近的一部分非特定说话人语音特征作为目标说话人语音数据一同训练的效果，根据求得的似然函数最大时的参数值获取到与目标说话人语音数据相对应的目标声纹特征模型。

需要说明的是，目标说话人语音数据在采用最大后验估计算法进行自适应处理，训练目标声纹特征模型时，应先提取出相应的语音特征才可以进行计算和训练，本实施例提及的通用背景模型对目标说话人语音数据进行自适应处理，应将目标说话人语音数据看作是提取好特征的目标说话人语音特征，该语音特征应与训练通用背景模型的语音特征相同，如都采用MFCC特征。

在一实施例中，如图3所示，步骤S20中，基于通用背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型，包括如下步骤：

S21：采用奇异值分解对通用背景模型进行特征降维处理，获取目标背景模型。

其中，由通用背景模型的表达式：x表示训练语音数据，K表示组成通用背景模型的高斯分布的个数，C_k表示第k个混合高斯的系数，N(x；m_k,R_k)表示均值m_k是D维矢量，D×D维对角协方差矩阵R_k的高斯分布，可知，通用背景模型采用高斯概率密度函数表示，该通用背景模型参数中的协方差矩阵R_k采用矢量(矩阵)表示，可以采用奇异值分解的方式对通用背景模型进行特征降维处理，去除通用背景模型中的噪音数据。奇异值分解是指线性代数中一种重要的矩阵分解，是矩阵分析中正规矩阵酉对角化的推广，在信号处理、统计学等领域有重要应用。

本实施例中，采用奇异值分解对通用背景模型进行特征降维。具体地，将通用背景模型中参数协方差矩阵R_k相对应的矩阵进行奇异值分解，用公式表示为：m_k＝σ₁u₁v₁ ^T+σ₂u₂v₂ ^T+...+σ_nu_nv_n ^T，其中，等式右边每一项前的系数σ为奇异值，σ是对角矩阵，u为是一个方阵，u包含的向量是正交的，称为左奇异矩阵，v为是一个方阵，v包含的向量是正交的，称为右奇异矩阵，T表示矩阵转置的矩阵运算。该等式中uv^T都是秩为1的矩阵，并且奇异值满足σ₁≥σ₂≥σ_n>0。可以理解地，奇异值越大表示该奇异值对应的分项σuv^T代表在R_k中越重要的特征，奇异值越小的特征认为是越不重要的特征。在训练通用背景模型中，难免也会有噪音数据的影响，导致训练出来的通用背景模型不仅特征维度高，而且还不够客观精确，采用奇异值分解的方式，可以对通用背景模型参数中的矩阵进行特征降维处理，把原本特征维度较高的通用背景模型降维到特征较低的目标背景模型，去除掉奇异值较小的分项。需要说明的是，该特征降维处理不但没有减弱特征表达通用背景模型的能力，实际上反而是增强了，因为在进行奇异值分解时去除的部分特征维度，该特征维度中都是σ比较小的特征，这些σ比较小的特征实际上就是训练通用背景模型时的噪音部分。因此，采用奇异值分解对通用背景模型进行特征降维处理，能够去除通用背景模型中的噪音部分代表的特征维度，获取目标背景模型(该目标背景模型是优化后的通用背景模型，可以替代原本的通用背景模型对目标说话人语音数据进行自适应处理，并能达到更好的效果)。该目标背景模型以较低特征维度良好展现了训练语音数据的语音特征，并且在进行与目标背景模型相关的计算(如采用目标背景模型对目标说话人语音数据进行自适应处理)时会大大减少计算量，提高效率。

S22：采用目标背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型。

本实施例中，对目标说话人语音数据进行自适应处理采用的通用背景模型具体是目标背景模型，该目标背景模型是指对原本的通用背景模型通过奇异值分解进行特征降维获取到的优化后的通用背景模型。对目标说话人语音数据进行自适应处理的过程参考步骤S20，在此不再赘述。

S30：基于目标声纹特征模型，获取目标说话人语音数据的目标声纹特征向量。

其中，目标声纹特征模型是用于计算目标声纹特征向量的模型，目标声纹特征向量是指通过目标声纹特征模型获取的，代表目标说话人语音数据的特征向量。

本实施例中，目标声纹特征模型实际上就是目标说话人语音数据对应的混合高斯模型(GMM)，该目标声纹特征模型的表达式与通用背景模型相似，只是表达式中具体的参数的值不同。基于目标声纹特征模型，在目标背景模型已知的情况下，能够求得目标声纹特征向量。获取的目标声纹特征向量在较低维度下仍然能够保留与目标说话人语音数据相关的关键声纹特征。

在一实施例中，如图4所示，步骤S30中，基于目标声纹特征模型，获取目标说话人语音数据的目标声纹特征向量，包括如下步骤：

S31：基于目标声纹特征模型，获取目标说话人语音数据的声纹特征向量空间。

在已知目标声纹特征模型和目标背景模型的情况下，将目标声纹特征模型参数中的均值(通用背景模型的均值用m_k表示，这这里目标声纹特征模型的均值可以采用m_k'进行表示)连接组成A×K维的超矢量M(i)，将目标背景模型参数中的均值(m_k)连接组成A×K维的超矢量M₀，声纹特征向量空间T是(A×K)×F维的描述总体变化的矩阵。声纹特征向量空间T的参数含有隐变量，无法直接得到，但是能够根据已知的M(i)和M₀，具体可以是采用EM算法，根据M(i)和M₀迭代计算求出声纹特征向量空间T。

S32：根据声纹特征向量空间，获取目标声纹特征向量。

本实施例中，根据声纹特征向量空间T，可以通过以下公式计算获取目标声纹特征向量：M(i)＝M₀+Tw(i)，其中M₀是由目标背景模型参数中的均值(m_k)连接组成的A×K维超矢量(目标背景模型中的均值是降维过的，降维后均值表示为A维矢量)，M(i)是由目标声纹特征模型参数中的均值(m_k')连接组成的A×K维超矢量，T是(A×K)×F维的描述总体变化的矩阵，即声纹特征向量空间，w(i)表示一个F维矢量符合标准的正太分布，该w(i)即为目标声纹特征向量。目标声纹特征向量可以在较低维度下体现目标说话人语音数据中的声纹特征，在进行与该目标声纹特征向量相关的计算时，能够大大减少计算量，提高效率，并在提高效率的同时，保证目标声纹特征向量在较低维度下仍然能够保留与目标说话人语音数据相关的关键声纹特征。

S40：将目标声纹特征向量输入到深度神经网络中进行训练，获取目标说话人语音识别模型。

其中，深度神经网络(Deep Neural Networks，简称DNN)模型中包括由神经元组成的输入层、隐藏层和输出层。该深度神经网络模型中包括各层之间各个神经元连接的权值和偏置，这些权值和偏置决定了DNN模型的性质及识别效果。目标说话人识别模型是指能够对特定的、想要识别的目标说话人进行识别的模型。

本实施例中，将目标声纹特征向量输入到深度神经网络模型中进行训练，更新该深度神经网络模型的网络参数(即权值和偏置)，获取目标说话人语音识别模型。目标声纹特征在较低的特征维度下包括了目标说话人语音数据的大部分关键声纹特征，在一定程度上可以代表目标说话人语音数据。本实施例中将目标声纹特征向量通过在DNN模型中训练，进一步地提取目标说话人语音数据的特征，在目标声纹特征向量的基础上进行深层特征的提取，该深层特征通过目标说话人识别模型中的网络参数表达，可以根据该目标说话人识别模型提取目标声纹特征向量的深层特征，以便后续根据该深层特征进行说话人识别时，采用该目标说话人识别模型能达到非常精确的识别效果。训练采用的目标声纹特征向量的维度并不高，可以大大提高模型训练的效率，用较少维度的特征就可以代表目标说话人语音数据。

在一实施例中，如图5所示，步骤S40中，将目标声纹特征向量输入到深度神经网络中进行训练，获取目标说话人语音识别模型，包括如下步骤：

S41：初始化深度神经网络模型。

本实施例中，初始化DNN模型，该初始化操作即设置DNN模型中权值和偏置的初始值，该初始值可以设置为较小的值，如设置在区间[-0.3-0.3]之间，或者直接采用经验值设置初始的权值和偏置。合理的初始化DNN模型可以使DNN模型在初期有较灵活的调整能力，可以在DNN模型训练过程中对模型进行有效的调整，使得训练出的DNN模型识别效果较好。

S42：将目标声纹特征向量分组输入到深度神经网络模型中，根据前向传播算法获取深度神经网络模型的输出值，目标声纹特征向量的第i组样本在深度神经网络模型的当前层的输出值用公式表示为a^i,l＝σ(W^la^i,l-1+b^l)，其中，a为输出值，i表示输入的目标声纹特征向量的第i组样本，l为深度神经网络模型的当前层，σ为激活函数，W为权值，l-1为深度神经网络模型的当前层的上一层，b为偏置。

本实施例中，先将目标声纹特征向量分成预设组数的样本，再分组输入到DNN模型中进行训练，即将分组后的样本分别输入到DNN模型进行训练。DNN的前向传播算法是根据DNN模型中连接各个神经元的权值W,偏置b和输入值(向量xⁱ)在DNN模型中进行的一系列线性运算和激活运算，从输入层开始，一层层运算，一直运算到输出层，得到输出值为止。根据前向传播算法可以计算DNN模型中网络每一层的输出值，直至算到最后一层的输出值。

具体地，有DNN模型的总层数为L，DNN模型中连接各个神经元的权值W,偏置b和输入值向量xⁱ，输出层的输出值a^i,L(i表示输入的目标声纹特征向量的第i组样本)，则a¹＝xⁱ(第一层的输出为在输入层输入的目标声纹特征向量，即输入值向量xⁱ)，根据前向传播算法可知输出a^i,l＝σ(W^la^i,l-1+b^l)，其中，l表示深度神经网络模型的当前层，σ为激活函数，这里具体采用的激活函数可以是sigmoid或者tanh激活函数。根据上述计算a^i,l的公式按层数逐层进行前向传播，获取DNN模型中网络最终的输出值a^i,L(即深度神经网络模型的输出值)，有了输出值a^i,L即可以根据输出值a^i,L对DNN模型中的网络参数(连接各个神经元的权值W,偏置b)进行调整，以获取拥有优异说话人识别能力的目标说话人语音识别模型。

S43：基于深度神经网络模型的输出值进行误差反传，更新深度神经网络模型各层的权值和偏置，获取目标说话人语音识别模型，其中，更新权值的计算公式为l为深度神经网络模型的当前层，W为权值，α为迭代步长，m为输入的目标声纹特征向量的样本总数，δ^i,l为当前层的灵敏度；z^i,l＝W^la^i,l-1+b^l，a^i,l-1为上一层的输出，T表示矩阵转置运算，表示两个矩阵对应元素相乘的运算(Hadamard积)，更新偏置的计算公式为

本实施例中，在根据前向传播算法获取DNN模型的输出值a^i,L后，可以根据a^i,L与预先设置好标签值(该标签值是根据实际情况设置的用于与输出值进行比较，获取误差的值)的目标声纹特征向量计算目标声纹特征向量在该DNN模型中训练时产生的误差，并根据该误差构建合适的误差函数(如采用均方差来度量误差的误差函数)，根据误差函数进行误差反传，以调整更新DNN模型各层的权值W和偏置b。

更新DNN模型各层的权值W和偏置b采用的是后向传播算法，根据后向传播算法求误差函数的极小值，以优化更新DNN模型各层的权值W和偏置b，获取目标说话人语音识别模型。具体地，设置模型训练的迭代步长为α，最大迭代次数MAX与停止迭代阈值∈。在后向传播算法中，灵敏度δ^i,l是每次更新参数都会出现的公共因子，因此可以借助灵敏度δ^i,l计算误差，以更新DNN模型中的网络参数。已知a¹＝xⁱ(第一层的输出为在输入层输入的目标声纹特征向量，即输入值向量xⁱ)，则先求出输出层的灵敏度z^i,l＝W^la^i,l-1+b^l，其中i表示输入的目标声纹特征向量的第i组样本，y为标签值(即用来与输出值a^i,L相比较的值)。再根据δ^i,L求出深度神经网络模型的第l层的灵敏度δ^i,l，根据后向传播算法可以计算得出深度神经网络模型的第l层的灵敏度得到深度神经网络模型的第l层的灵敏度δ^i,l后，即可更新DNN模型各层的权值W和偏置b，更新后的权值为更新后的偏置为其中，α为模型训练的迭代步长，m为输入的目标声纹特征向量的样本总数，T表示矩阵转置运算。当所有W和b的变化值都小于停止迭代阈值∈时，即可停止训练；或者，训练达到最大迭代次数MAX时，停止训练。通过目标声纹特征向量在DNN模型中的输出值和预先设置好的标签值之间产生的误差，实现DNN模型各层的权值W和偏置b的更新，使得最终获取的目标说话人语音识别模型能够根据目标声纹特征向量进行说话人识别。

步骤S41-S43采用目标声纹特征向量对DNN模型进行训练，使得训练获取的目标说话人语音识别模型可以有效进行说话人识别，在采用较低维度的目标声纹特征向量就可以实现精确的说话人识别效果。具体地，目标说话人语音识别模型在模型训练过程中进一步提取了目标声纹特征向量的深层特征，模型中训练好的权值和偏置体现了该基于目标声纹特征向量的深层特征。目标说话人语音识别模型能够基于说话人的目标声纹特征向量进行深层特征的识别，实现对说话人的精确识别。

本实施例所提供的语音模型训练方法中，首先获取通用背景模型，然后采用奇异值分解对通用背景模型进行特征降维处理，获取目标背景模型，把原本特征维度较高的通用背景模型降维到特征较低的目标背景模型，并且可以去除通用背景模型中的噪音部分代表的特征维度，再通过该目标背景模型对数据量较少的目标说话人语音数据进行自适应补充处理，使得在数据量很少的情况下同样能够得到代表目标说话人语音数据的目标声纹特征模型。接着基于目标声纹特征模型获取目标说话人语音数据的目标声纹特征向量，该目标声纹特征向量可以在较低维度下便体现目标说话人语音数据，在进行与该目标声纹特征向量相关的计算时，能够大大减少计算量，提高效率，并在提高效率的同时，保证目标声纹特征向量在较低维度下仍然能够保留与目标说话人语音数据相关的关键声纹特征。最后将目标声纹特征向量输入到深度神经网络中进行训练，获取目标说话人语音识别模型，该目标声纹向量能够较好地描述语音特征，可以在该目标声纹特征向量的基础上进行语音特征的深层提取，训练采用的目标声纹特征向量的维度并不高，可以大大提高模型训练的效率，用较少维度的特征就可以代表目标说话人语音数据，得到识别准确性较高的目标说话人语音识别模型。

图6示出与实施例中语音模型训练方法一一对应的语音模型训练装置的原理框图。该参数修改装置包括通用背景模型获取模块10、目标声纹特征模型获取模块20、目标声纹特征向量获取模块30和目标模型获取模块40。其中，通用背景模型获取模块10、目标声纹特征模型获取模块20、目标声纹特征向量获取模块30和目标模型获取模块40的实现功能与实施例中语音模型训练方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

通用背景模型获取模块10，用于基于预先准备的训练语音数据进行通用背景模型训练，获取通用背景模型。

目标声纹特征模型获取模块20，用于基于通用背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型。

目标声纹特征向量获取模块30，用于基于目标声纹特征模型，获取目标说话人语音数据的目标声纹特征向量。

目标模型获取模块40，用于将目标声纹特征向量输入到深度神经网络中进行训练，获取目标说话人语音识别模型。

优选地，通用背景模型获取模块10包括训练语音特征单元11和通用背景模型获取单元12。

训练语音特征单元11，用于基于训练语音数据，获取训练语音特征。

通用背景模型获取单元12，用于采用训练语音特征进行通用背景模型训练，获取通用背景模型。

优选地，训练语音特征单元11包括预处理子单元111、功率谱获取子单元112、梅尔功率谱子单元113和训练语音特征确定子单元114。

预处理子单元111，用于对训练语音数据进行预处理。

功率谱获取子单元112，用于对预处理后的训练语音数据作快速傅里叶变换，获取训练语音数据的频谱，并根据频谱获取训练语音数据的功率谱。

梅尔功率谱子单元113，用于采用梅尔刻度滤波器组处理训练语音数据的功率谱，获取训练语音数据的梅尔功率谱。

训练语音特征确定子单元114，用于在梅尔功率谱上进行倒谱分析，获取训练语音数据的梅尔频率倒谱系数，并将获取到的梅尔频率倒谱系数确定为训练语音特征。

优选地，目标声纹特征模型获取模块20包括目标背景模型获取单元21和目标声纹特征模型获取单元22。

目标背景模型获取单元21，用于采用奇异值分解对通用背景模型进行特征降维处理，获取目标背景模型。

目标声纹特征模型获取单元22，用于采用目标背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型。

优选地，目标声纹特征向量获取模块30包括声纹特征向量空间获取单元31和目标声纹特征向量获取单元32。

声纹特征向量空间获取单元31，用于基于目标声纹特征模型，获取目标说话人语音数据的声纹特征向量空间。

目标声纹特征向量获取单元32，用于根据声纹特征向量空间，获取目标声纹特征向量。

优选地，目标模型获取模块40包括初始化单元41、输出值获取单元42和更新单元43。

初始化单元41，用于初始化深度神经网络模型。

输出值获取单元42，用于将目标声纹特征向量分组输入到深度神经网络模型中，根据前向传播算法获取深度神经网络模型的输出值，目标声纹特征向量的第i组样本在深度神经网络模型的当前层的输出值用公式表示为a^i,l＝σ(W^la^i,l-1+b^l)，其中，a为输出值，i表示输入的目标声纹特征向量的第i组样本，l为深度神经网络模型的当前层，σ为激活函数，W为权值，l-1为深度神经网络模型的当前层的上一层，b为偏置。

更新单元43，用于基于深度神经网络模型的输出值进行误差反传，更新深度神经网络模型各层的权值和偏置，获取目标说话人语音识别模型，其中，更新权值的计算公式为l为深度神经网络模型的当前层，W为权值，α为迭代步长，m为输入的目标声纹特征向量的样本总数，δ^i,l为当前层的灵敏度；z^i,l＝W^la^i,l-1+b^l，a^i,l-1为上一层的输出，T表示矩阵转置运算，表示两个矩阵对应元素相乘的运算(Hadamard积)，更新偏置的计算公式为

图7示出本实施例中说话人识别方法的一流程图。该说话人识别方法可应用在银行、证券、投资和保险等金融机构或者需进行说话人识别的其他机构的计算机设备上，以便进行说话人识别，达到人工智能目的。如图7所示，该说话人识别方法包括如下步骤：

S50：获取待识别语音数据，待识别语音数据与用户标识相关联。

其中，待识别语音数据是指待进行识别用户的语音数据，用户标识是用于唯一识别用户的标识，该用户标识可以是用户身份证号和用户电话号码等能够唯一识别用户的标识。

本实施例中，获取待识别语音数据，具体可以是通过计算机设备内置的录音模块或者外部的录音设备采集，该待识别语音数据与用户标识相关联，通过该用户标识可以查找到对应的目标说话人语音识别模型，以通过该目标说话人语音识别模型对待识别语音数据进行识别，通过待识别语音数据判断是不是用户本人，实现说话人识别。

S60：基于通用背景模型对待识别语音数据进行自适应处理，获取待识别声纹特征模型。

其中，待识别声纹特征模型是基于通用背景模型，通过目标背景模型对待识别语音数据自适应处理后，与待识别语音数据相关的声纹特征模型。

本实施例步骤与步骤S21-S22相似，请参考步骤S21-S22，在此不再赘述。该步骤的目的在于获取待识别声纹特征模型，以根据该模型获取待识别声纹特征向量。

S70：基于待识别声纹特征模型，获取对应的待识别声纹特征向量。

其中，待识别声纹特征向量是指通过待识别声纹特征模型获取的，代表待识别语音数据的特征向量。

本实施例步骤与步骤S31-S32相似，请参考步骤S31-S32，在此不再赘述。

步骤S50-S70是为了获取能够代表待识别语音数据的待识别声纹特征向量，以根据该待识别声纹特征向量在目标说话人语音识别模型进行说话人识别，判断待识别语音数据是否属于用户本人。

S80：根据用户标识，获取与用户标识相对应的目标说话人语音识别模型，采用目标说话人语音识别模型对待识别声纹特征向量进行识别，获取识别概率值；若识别概率值大于预设概率值，则确定为用户本人；其中，目标说话人语音识别模型是采用实施例语音模型训练方法获取到的。

本实施例中，根据用户标识获取与用户标识相对应的目标说话人语音识别模型，该目标说话人语音识别模型是预先存储在数据库中的识别模型，该识别模型与目标说话人语音数据相关，即与目标说话人语音数据对应的用户标识相关联。因此，根据用户标识就可以获取对应的目标说话人识别模型。在数据库调用并获取目标说话人语音识别模型后，将待识别声纹特征向量输入到目标说话人语音识别模型中进行识别，能够得到该待识别声纹特征向量在该识别模型中的识别概率值，若识别概率值大于预设概率值，则认为该待识别声纹特征向量代表的待识别语音数据是用户本人的语音，则可以确定该待识别语音数据是由用户本人发出的，实现说话人识别。其中，预设概率值是指预先设置的判别待识别语音数据是否由用户本人发出的参考阈值，采用概率值表示，如预设概率值为95％。

本实施例所提供的说话人识别方法中，通过待识别语音数据获取对应的待识别声纹特征模型，将待识别声纹特征向量输入到待识别语音数据关联的用户标识对应的目标说话人语音识别模型中进行识别，实现说话人识别。该说话人语音识别模型用较低维度的目标声纹特征向量便能够全面地描述语音特征，采用该说话人识别方法进行说话人语音识别时能实现较高的识别准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图8示出与实施例中说话人识别方法一一对应的说话人识别训练装置的原理框图。该说话人识别装置包括待识别语音数据获取模块50、待识别声纹特征模型获取模块60、待识别声纹特征向量获取模块70和识别模块80。其中，待识别语音数据获取模块50、待识别声纹特征模型获取模块60、待识别声纹特征向量获取模块70和识别模块80的实现功能与实施例中语音模型训练方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

待识别语音数据获取模块50，用于获取待识别语音数据，待识别语音数据与用户标识相关联。

待识别声纹特征模型获取模块60，用于基于通用背景模型对待识别语音数据进行自适应处理，获取待识别声纹特征模型。

待识别声纹特征向量获取模块70，用于待识别声纹特征向量获取模块70，用于基于待识别声纹特征模型，获取对应的待识别声纹特征向量。

识别模块80，用于根据用户标识，获取与用户标识相对应的目标说话人语音识别模型，采用目标说话人语音识别模型对待识别声纹特征向量进行识别，获取识别概率值；若识别概率值大于预设概率值，则确定为用户本人；其中，目标说话人语音识别模型是采用实施例语音模型训练方法获取到的。

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例中语音模型训练方法，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例中说话人语音区分装置中各模块/单元的功能，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例中说话人识别方法中各步骤的功能，为避免重复，此处不一一赘述。或者，该计算机程序被处理器执行时实现实施例中说话人识别装置中各模块/单元的功能，为避免重复，此处不一一赘述。

可以理解地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号和电信信号等。

图9是本发明一实施例提供的终端设备的示意图。如图9所示，该实施例的终端设备90包括：处理器91、存储器92以及存储在存储器92中并可在处理器91上运行的计算机程序93，该计算机程序93被处理器91执行时实现实施例中语音模型训练方法，为避免重复，此处不一一赘述。或者，该计算机程序93被处理器91执行时实现实施例中语音模型训练装置中各模型/单元的功能，为避免重复，此处不一一赘述。或者，该计算机程序93被处理器91执行时实现实施例中说话人识别方法中各步骤的功能，为避免重复，此处不一一赘述。或者，该计算机程序93被处理器91执行时实现实施例中说话人识别装置中各模块/单元的功能。为避免重复，此处不一一赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音模型训练方法，其特征在于，包括：

2.根据权利要求1所述的语音模型训练方法，其特征在于，所述基于预先准备的训练语音数据进行通用背景模型训练，获取通用背景模型，包括：

基于所述训练语音数据，获取训练语音特征；

采用所述训练语音特征进行通用背景模型训练，获取通用背景模型；

其中，所述基于所述训练语音数据，获取训练语音特征，包括：

对所述训练语音数据进行预处理；

对预处理后的所述训练语音数据作快速傅里叶变换，获取训练语音数据的频谱，并根据所述频谱获取训练语音数据的功率谱；

采用梅尔刻度滤波器组处理所述训练语音数据的功率谱，获取训练语音数据的梅尔功率谱；

在所述梅尔功率谱上进行倒谱分析，获取训练语音数据的梅尔频率倒谱系数，并将获取到的梅尔频率倒谱系数确定为所述训练语音特征。

3.根据权利要求1所述的语音模型训练方法，其特征在于，所述基于所述通用背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型，包括：

采用奇异值分解对所述通用背景模型进行特征降维处理，获取目标背景模型；

采用所述目标背景模型对所述目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型。

4.根据权利要求1所述的语音模型训练方法，其特征在于，所述基于所述目标声纹特征模型，获取所述目标说话人语音数据的目标声纹特征向量，包括：

基于所述目标声纹特征模型，获取目标说话人语音数据的声纹特征向量空间；

根据所述声纹特征向量空间，获取目标声纹特征向量。

5.根据权利要求1所述的语音模型训练方法，其特征在于，所述将所述目标声纹特征向量输入到深度神经网络中进行训练，获取目标说话人语音识别模型，包括：

初始化深度神经网络模型；

将所述目标声纹特征向量分组输入到所述深度神经网络模型中，根据前向传播算法获取深度神经网络模型的输出值，目标声纹特征向量的第i组样本在深度神经网络模型的当前层的输出值用公式表示为a^i,l＝σ(W^la^i,l-1+b^l)，其中，a为输出值，i表示输入的目标声纹特征向量的第i组样本，l为深度神经网络模型的当前层，σ为激活函数，W为权值，l-1为深度神经网络模型的当前层的上一层，b为偏置；

基于深度神经网络模型的输出值进行误差反传，更新深度神经网络模型各层的权值和偏置，获取目标说话人语音识别模型，其中，更新权值的计算公式为l为深度神经网络模型的当前层，W为权值，α为迭代步长，m为输入的目标声纹特征向量的样本总数，δ^i,l为当前层的灵敏度；z^i,l＝W^la^i,l-1+b^l，a^i,l-1为上一层的输出，T表示矩阵转置运算，表示两个矩阵对应元素相乘的运算，更新偏置的计算公式为

6.一种说话人识别方法，其特征在于，包括：

根据所述用户标识，获取与所述用户标识相对应的目标说话人语音识别模型，采用所述目标说话人语音识别模型对所述待识别声纹特征向量进行识别，获取识别概率值；若所述识别概率值大于预设概率值，则确定为用户本人；其中，所述目标说话人语音识别模型是采用权利要求1-5任一项所述语音模型训练方法获取到的。

7.一种语音模型训练装置，其特征在于，包括：

8.一种说话人识别装置，其特征在于，包括：

识别模块，用于根据所述用户标识获取与所述用户标识相对应的目标说话人语音识别模型，将所述待识别声纹特征向量输入到所述目标说话人语音识别模型中进行识别，获取识别概率值；若所述识别概率值大于预设概率值，则确定为用户本人；其中，所述目标说话人语音识别模型是采用权利要求1-5任一项所述语音模型训练方法获取到的。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现如权利要求6所述说话人识别方法的步骤。

10.一种计算机可读介质，所述计算机可读介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现如权利要求6所述说话人识别方法的步骤。