CN108922544B

CN108922544B - 通用向量训练方法、语音聚类方法、装置、设备及介质

Info

Publication number: CN108922544B
Application number: CN201810592871.5A
Authority: CN
Inventors: 涂宏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2022-12-30
Anticipated expiration: 2038-06-11
Also published as: WO2019237519A1; CN108922544A

Abstract

本发明公开了一种通用向量训练方法、语音聚类方法、装置、设备及介质，其中，该通用向量训练方法包括：获取携带同一类簇标识的训练语音数据，提取训练语音数据的训练语音特征；采用简化模型算法简化处理训练语音特征，获取简化语音特征；采用最大期望算法迭代简化语音特征，获取总体变化子空间；将简化语音特征投影到总体变化子空间，以获取类簇标识对应的通用i‑vector向量。采用简化模型算法简化处理训练语音特征获取简化语音特征后，进一步处理后可得更为纯净和简单的通用i‑vector向量，用以降低进行语音聚类方法时的复杂性，同时加快语音聚类方法的识别效率。

Description

通用向量训练方法、语音聚类方法、装置、设备及介质

技术领域

本发明涉及声纹识别领域，尤其涉及一种通用向量训练方法、语音聚类方法、装置、设备及介质。

背景技术

声纹识别，生物识别技术的一种，也称为说话人识别，有两类，即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。声纹识别就是把声信号转换成电信号，再用计算机进行识别。

常见用于进行声纹识别的多人通用语音模型包括UBM(Universal BackgroundModel, 通用背景模型)模型，是一个表征大量非特定说话人语音特征分布的高斯混合模型(Gaussian Mixture Models，高斯混合模型)。UBM模型的训练通常采用大量的与特定说话人无关、信道无关的语音数据，因此通常认为UBM模型是与特定说话人无关的模型，它只是拟合人的语音特征分布，而并不代表某个具体的说话人。现有UBM模型在训练过程中包含大量说话人的语音特征且模型维度较高，当该模型用于声纹识别时难免涉及较复杂的计算，影响识别效率。

发明内容

基于此，有必要针对上述技术问题，提供一种可以简化通用向量训练张的的通用向量训练方法、装置、设备及介质。

一种通用向量训练方法，包括：

获取携带同一类簇标识的训练语音数据，提取训练语音数据的训练语音特征；

采用简化模型算法简化处理训练语音特征，获取简化语音特征；

采用最大期望算法迭代简化语音特征，获取总体变化子空间；

将简化语音特征投影到总体变化子空间，以获取类簇标识对应的通用i-vector向量。

一种通用向量训练装置，包括：

获取训练语音数据模块，用于获取携带同一类簇标识的训练语音数据，提取训练语音数据的训练语音特征；

获取简化特征模块，用于采用简化模型算法简化处理训练语音特征，获取简化语音特征；

获取变化空间模块，用于采用最大期望算法迭代简化语音特征，获取总体变化子空间；

获取通用向量模块，用于将简化语音特征投影到总体变化子空间，以获取类簇标识对应的通用i-vector向量。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述通用向量训练方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述通用向量训练方法的步骤。

基于此，有必要针对上述技术问题，提供一种可以提高识别效率的语音聚类方法、装置、设备及介质。

一种语音聚类方法，包括：

获取测试语音数据和测试语音数据携带的类簇标识，提取测试语音数据对应的测试 i-vector向量；

基于类簇标识，获取对应的通用i-vector向量；

采用余弦相似度算法获取测试i-vector向量和通用i-vector向量的相似度，以识别测试语音数据是否与通用i-vector向量属于同一类簇。

一种语音聚类装置，包括：

获取测试语音数据模块，用于获取测试语音数据和测试语音数据携带的类簇标识，提取测试语音数据对应的测试i-vector向量；

获取通用i-vector向量模块，用于基于类簇标识，获取对应的通用i-vector向量；

识别同类簇模块，用于采用余弦相似度算法获取测试i-vector向量和通用i-vector 向量的相似度，以识别测试语音数据是否与通用i-vector向量属于同一类簇。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音聚类方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音聚类方法的步骤。

上述通用向量训练方法、语音聚类方法、装置、设备及介质，采用简化模型算法简化处理训练语音特征，获取简化语音特征后，再将简化语音特征投影到总体变化子空间后，可得更为纯净和简单的通用i-vector向量，用以降低进行语音聚类方法时的复杂性，同时加快语音聚类方法的识别效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中通用向量训练方法的一应用环境示意图；

图2是本发明一实施例中通用向量训练方法的一流程图；

图3是本发明一实施例中通用向量训练方法的另一流程图；

图4是本发明一实施例中通用向量训练方法的另一流程图；

图5是本发明一实施例中通用向量训练方法的另一流程图；

图6是本发明一实施例中通用向量训练方法的另一流程图；

图7是本发明一实施例中语音聚类方法的一流程图；

图8是本发明一实施例中通用向量训练装置的一示意图；

图9是本发明一实施例中语音聚类装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的通用向量训练方法，可应用在如图1的应用环境中，其中，用于采集说话人对应的训练语音数据的计算机设备通过网络与识别服务器进行通信。其中，计算机设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑、语音采集终端和便携式可穿戴设备。识别服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种通用向量训练方法，以该方法应用在图1中的识别服务器为例进行说明，包括如下步骤：

S10.获取携带同一类簇标识的训练语音数据，提取训练语音数据的训练语音特征。

其中，训练语音数据是用于进行通用i-vector向量训练所采用的语音数据，具体可以是语音采集设备采集到并分类成不同类簇的多个说话人向的语音数据。类簇标识就是用以说明训练语音数据所属类簇的标识，比如：以性别划分的类簇标识包括男和女的标识，以年龄段划分的类簇标识为儿童、青年和老年的标识。在利用训练语音数据进行通用 i-vector向量训练时，使所有训练语音数据携带同一类簇标识，以便基于同一类簇标识的训练语音数据获取其对应的通用i-vector向量。

训练语音特征是代表说话人区别于他人的语音特征，具体是指对训练语音数据进行特征提取后获取的语音特征，应用于本实施例，可采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，以下简称MFCC特征)作为训练语音特征。检测发现人耳像一个滤波器组，只关注某些特定的频率分量(人的听觉对频率是非线性的)，也就是说人耳接收声音频率的信号是有限的。然而这些滤波器在频率坐标轴上却不是统一分布的，在低频区域有很多的滤波器，他们分布比较密集，但在高频区域，滤波器的数目就变得比较少，分布很稀疏。梅尔刻度滤波器组在低频部分的分辨率高，跟人耳的听觉特性是相符的，因此将采用梅尔频率倒谱系数作为训练语音特征，可以很好地体现说话人的语音特征。

步骤S10中，识别服务器通过提取说话人对应的训练语音特征可用于提取多人语音特征，为建立通用i-vector向量准备技术支持。

S20.采用简化模型算法简化处理训练语音特征，获取简化语音特征。

其中，简化模型算法是指高斯模糊(Gaussian Blur，高斯平滑)处理算法，用于降低语音文件的声音噪声和细节层次。简化语音特征是经简化模型算法简化后去除声音噪声，较为纯净的语音特征。

步骤S20中采用简化模型算法简化处理训练语音特征具体可先获取训练语音特征的二维正态分布，再模糊二维正态分布的所有音素，以获取更纯净的简化语音特征，该简化语音特征可以在很大程度上体现训练语音特征的特性，有助于提高后续训练通用i-vector向量的效率。

S30.采用最大期望算法迭代所述简化语音特征，获取总体变化子空间。

其中，最大期望算法(Expectation Maximization Algorithm，最大期望算法，以下简称EM算法)是一种迭代算法，在统计学中被用于寻找依赖于不可观察的隐性变量的概率模型中参数的最大似然估计。EM算法的实现过程如下：观察数据 x＝(x⁽¹⁾,x⁽²⁾,...x^(m))x＝(x⁽¹⁾,x⁽²⁾,...x^(m))，联合分布p(x,z|θ),条件分布p(z|x,θ),最大迭代次数J。

1)随机初始化模型参数θ的初值θ⁰。

2)for j from 1to J开始EM算法迭代：

a)E步：计算联合分布的条件概率期望：

Q_i(z⁽ⁱ⁾)＝P(z⁽ⁱ⁾|x⁽ⁱ⁾，θ^j)

b)M步：极大化L(θ,θ^j),得到θ^j+1:

c)如果θ^j+1已收敛，则算法结束。否则继续回到步骤a)进行E步迭代。

3)输出：模型参数θ。

总体变化子空间(Total Variability Space，以下简称T空间)，是直接设置一个全局变化的映射矩阵，用以包含语音数据中说话人所有可能的信息，在T空间内不分开说话人空间和信道空间。T空间能把高维充分统计量(超矢量)映射到可以作为低维说话人表征的i-vector(identity-vector,身份认证向量)，起到降维作用。T空间的训练过程包括：根据预设UBM模型，利用向量分析和EM(Expectation Maximization Algorithm，最大期望)算法，从其中收敛计算出T空间。

步骤30获取的总体变化子空间不区分说话人空间和信道空间，将声道空间的信息和信道空间的信息收敛于一个空间，以降低计算复杂度，便于进一步基于总体变化子空间，以获取简化的通用i-vector向量。

S40.将简化语音特征投影到总体变化子空间，以获取类簇标识对应的通用i-vector 向量。

其中，简化语音特征就是由步骤S20获取的经简化模型算法处理后获取的语音特征。

通用i-vector向量是将简化语音特征投影到低维的总体变化子空间，获取的一个固定长度的矢量表征，也即通用i-vector向量，用以表示属于同一类簇的多个说话人形成的语音向量。

步骤S10至S40提供的通用向量训练方法中，识别服务器采用简化模型算法简化处理训练语音特征，获取简化语音特征后，再将简化语音特征投影到总体变化子空间后，可得更为纯净和简单的通用i-vector向量，每一通用i-vector向量对应一聚类类簇，以便后续基于通用i-vector向量对说话人的语音数据进行语音聚类，以降低进行语音聚类的复杂性，同时加快语音聚类的效率。

在一实施中，如图3所示，在步骤S10中，即提取每一训练语音数据的训练语音特征，具体包括如下步骤：

S11：对训练语音数据进行预处理，获取预处理语音数据。

本实施例中，对训练语音数据进行预处理，并获取相对应的预处理语音数据。对训练语音数据进行预处理能够更好地提取训练语音数据的训练语音特征，使得提取出的训练语音特征更能代表该训练语音数据，以使采用该训练语音特征训练得到的通用i-vector向量的识别准确率更高。

在一实施例中，步骤S21中，对训练语音数据进行预处理，获取预处理语音数据，包括如下步骤：

S111：对训练语音数据作预加重处理，预加重处理的计算公式为s'_n＝s_n-a*s_n-1，其中，s_n为时域上的信号幅度，s_n-1为与s_n相对应的上一时刻的信号幅度，s'_n为预加重后时域上的信号幅度，a为预加重系数，a的取值范围为0.9<a<1.0。

其中，预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加，信号在传输过程中受损很大，为了使接收端能获取比较好的信号波形，就需要对受损的信号进行补偿。预加重技术的思想就是在传输线的发送端增强信号的高频成分，以补偿高频分量在传输过程中的过大衰减，使得接收端能够获取较好的信号波形。预加重对噪声并没有影响，因此能够有效提高输出信噪比。

本实施例中，对训练语音数据作预加重处理，该预加重处理的公式为s'_n＝s_n-a*s_n-1，其中，s_n为时域上的信号幅度，即语音数据在时域上表达的语音的幅值(幅度)，s_n-1为与s_n相对的上一时刻的信号幅度，s'_n为预加重后时域上的信号幅度，a为预加重系数，a 的取值范围为0.9<a<1.0，这里取0.97预加重的效果比较好。采用该预加重处理能够消除发声过程中声带和嘴唇等造成的干扰，可以有效补偿训练语音数据被压抑的高频部分，并且能够突显训练语音数据高频的共振峰，加强训练语音数据的信号幅度，有助于提取训练语音特征。

S112：将预加重后的训练语音数据进行分帧处理。

本实施例中，在预加重训练语音数据后，还应进行分帧处理。分帧是指将整段的语音信号切分成若干段的语音处理技术，每帧的大小在10-30ms的范围内，以大概1/2帧长作为帧移。帧移是指相邻两帧间的重叠区域，能够避免相邻两帧变化过大的问题。对训练语音数据进行分帧处理，能够将训练语音数据分成若干段的语音数据，可以细分训练语音数据，便于训练语音特征的提取。

S113：将分帧后的训练语音数据进行加窗处理，获取预处理语音数据，加窗的计算公式为

其中，N为窗长，n为时间，s_n为时域上的信号幅度，s'_n为加窗后时域上的信号幅度。

本实施例中，在对训练语音数据进行分帧处理后，每一帧的起始段和末尾端都会出现不连续的地方，所以分帧越多与训练语音数据的误差也就越大。采用加窗能够解决这个问题，可以使分帧后的训练语音数据变得连续，并且使得每一帧能够表现出周期函数的特征。加窗处理具体是指采用窗函数对训练语音数据进行处理，窗函数可以选择汉明窗，则该加窗的公式为

N为汉明窗窗长，n为时间，s_n为时域上的信号幅度，s'_n为加窗后时域上的信号幅度。对训练语音数据进行加窗处理，获取预处理语音数据，能够使得分帧后的训练语音数据在时域上的信号变得连续，有助于提取训练语音数据的训练语音特征。

上述步骤S211-S213对训练语音数据的预处理操作，为提取训练语音数据的训练语音特征提供了基础，能够使得提取的训练语音特征更能代表该训练语音数据，并根据该训练语音特征训练得到的通用i-vector向量的识别准确率更高。

S12：对预处理语音数据作快速傅里叶变换，获取训练语音数据的频谱，并根据频谱获取训练语音数据的功率谱。

其中，快速傅里叶变换(Fast Fourier Transformation，简称FFT),指利用计算机计算离散傅里叶变换的高效、快速计算方法的统称，简称FFT。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少，特别是被变换的抽样点数越多，FFT算法计算量的节省就越显著。

本实施例中，对预处理语音数据进行快速傅里叶变换，以将预处理语音数据从时域上的信号幅度转换为在频域上的信号幅度(频谱)。该计算频谱的公式为

1≤k≤N，N为帧的大小，s(k)为频域上的信号幅度，s(n)为时域上的信号幅度，n为时间，i为复数单位。在获取预处理语音数据的频谱后，可以根据该频谱直接求得预处理语音数据的功率谱，以下将预处理语音数据的功率谱称为目标待区分语音数据的功率谱。该计算目标待区分语音数据的功率谱的公式为

1≤k≤N，N为帧的大小， s(k)为频域上的信号幅度。通过将预处理语音数据从时域上的信号幅度转换为频域上的信号幅度，再根据该频域上的信号幅度获取训练语音数据的功率谱，为从训练语音数据的功率谱中提取训练语音特征提供重要的技术基础。

S13：采用梅尔刻度滤波器组处理训练语音数据的功率谱，获取训练语音数据的梅尔功率谱。

其中，采用梅尔刻度滤波器组处理训练语音数据的功率谱是对功率谱进行的梅尔频率分析，梅尔频率分析是基于人类听觉感知的分析。本实施例中，采用梅尔刻度滤波器组处理训练语音数据的功率谱，获取训练语音数据的梅尔功率谱，通过采用梅尔刻度滤波器组对频域信号进行切分，使得最后每个频率段对应一个数值，若滤波器的个数为22，则可以获取训练语音数据的梅尔功率谱对应的22个能量值。通过对训练语音数据的功率谱进行梅尔频率分析，使得其分析后获取的梅尔功率谱保留着与人耳特性密切相关的频率部分，该频率部分能够很好地反映出训练语音数据的特征。

S14：在梅尔功率谱上进行倒谱分析，获取训练语音数据的梅尔频率倒谱系数。

其中，倒谱(cepstrum)是指一种信号的傅里叶变换谱经对数运算后再进行的傅里叶反变换，由于一般傅里叶谱是复数谱，因而倒谱又称复倒谱。

本实施例中，对梅尔功率谱进行倒谱分析，根据倒谱的结果，分析并获取训练语音数据的梅尔频率倒谱系数。通过该倒谱分析，可以将原本特征维数过高，难以直接使用的训练语音数据的梅尔功率谱中包含的特征，通过在梅尔功率谱上进行倒谱分析，转换成易于使用的特征(用来进行训练或识别的梅尔频率倒谱系数特征向量)。该梅尔频率倒谱系数能够作为训练语音特征对不同语音进行区分的系数，该训练语音特征可以反映语音之间的区别，可以用来识别和区分训练语音数据。

在一实施例中，步骤S24中，在梅尔功率谱上进行倒谱分析，获取训练语音数据的梅尔频率倒谱系数，包括如下步骤：

S141：取梅尔功率谱的对数值，获取待变换梅尔功率谱。

本实施例中，根据倒谱的定义，对梅尔功率谱取对数值log，获取待变换梅尔功率谱 m。

S142：对待变换梅尔功率谱作离散余弦变换，获取训练语音数据的梅尔频率倒谱系数。

本实施例中，对待变换梅尔功率谱m作离散余弦变换(Discrete CosineTransform, DCT)，获取相对应的训练语音数据的梅尔频率倒谱系数，一般取第2个到第13个系数作为训练语音特征，该训练语音特征能够反映语音数据间的区别。对待变换梅尔功率谱m作离散余弦变换的公式为

i＝0,1,2，...，N-1，N为帧长，m 为待变换梅尔功率谱，j为待变换梅尔功率谱的自变量。由于梅尔滤波器之间是有重叠的，所以采用梅尔刻度滤波器获取的能量值之间是具有相关性的，离散余弦变换可以对待变换梅尔功率谱m进行降维压缩和抽象，并获得间接的训练语音特征，相比于傅里叶变换，离散余弦变换的结果没有虚部，在计算方面有明显的优势。

步骤S11-S14对训练语音数据进行特征提取后获得的训练语音特征，能够准确地体现训练语音数据的特征，以使采用该训练语音特征训练得到的通用i-vector向量的识别准确率更高。

在一实施中，如图4所示，在步骤S20中，即采用简化模型算法简化处理训练语音特征，获取简化语音特征，具体包括如下步骤：

S21.采用高斯滤波器处理训练语音特征，获取对应的二维正态分布。

其中，高斯滤波器可对输入的训练语音特征进行线性平滑滤波，适用于消除高斯噪声，广泛应用于减噪过程。高斯滤波器处理训练语音特征的过程具体为对训练语音特征进行加权平均的过程，以训练语音特征中的音素为例，每一个音素的值，都由其本身和邻域内的其他音素值经过加权平均后得到。

二维正态分布(又名二维高斯分布)，是满足如下密度函数特点：关于μ对称，在μ处达到最大值，在正(负)无穷远处取值为0，在μ±σ处有拐点；二维正态分布的形状是中间高两边低，图像是一条位于x轴上方的钟形曲线。

具体地，高斯滤波器对训练语音特征进行处理的具体操作是：用一个3*3掩模扫描训练语音数据中的每一个音素，用掩模确定的邻域内音素的加权平均值去替代模板中心音素的值后形成有关训练语音数据的二维正态分布,其中，每一个音素的加权平均值的计算过程包括：

1)求各音素的权值总和；2)逐个扫描训练语音特征中的音素，根据音素中各位置的权值求其邻域的加权平均值，并将求得的加权平均值赋给当前位置对应的音素；3)循环步骤2，直到处理完训练语音特征的全部音素。

经步骤S10，可去除训练语音特征中的噪音，输出为线性平滑的声音滤波，以获取纯净的声音滤波进行进一步处理。

S22.采用简化模型算法简化二维正态分布，获取简化语音特征。

应用于本实施例，简化模型算法可采用高斯模糊算法来简化二维正态分布。

具体地，高斯模糊算法简化二维正态分布的实现过程包括：每一个音素都取周边音素的平均值，"中间点"取"周围点"的平均值。在数值上，这是一种"平滑化"。在图形上，就相当于产生"模糊"效果，"中间点"失去细节。显然，计算平均值时，取值范围越大，"模糊效果"越强烈。

步骤S22中，识别服务器通过简化模型算法可获取训练语音特征对应的二维正态分布的简化语音特征，可进一步降低训练语音特征的语音细节，简化语音特征。

步骤S21至S22，识别服务器可依次将训练语音特征进行除噪和降低细节，以得到纯净简单的简化语音特征，利于提高语音聚类的识别效率。

在一实施中，如图5所示，在步骤S30中，即采用最大期望算法迭代简化语音特征，获取总体变化子空间，具体包括如下步骤：

S31.采用通用UBM模型对简化语音特征进行训练，并采用最大期望算法迭代收敛，获取目标UBM模型。

其中，通用UBM模型(Universal Background Model,通用背景模型)是一个表征大量非特定说话人语音特征分布的高斯混合模型(Gaussian Mixture Models，高斯混合模型)。通用UBM模型的训练通常采用大量的与特定说话人无关且与信道无关的语音数据，因此通常可以认为通用UBM模型是与特定说话人无关的模型，它只是拟合人的语音特征分布，而并不代表某个具体的说话人。由于训练特定类簇的语音数据通常无法覆盖到语音数据所在的特征空间，因此，需根据训练语音特征调整通用UBM模型的参数来表征特定类簇的类簇信息，训练语音特征覆盖不到的特征可以用UBM模型中相似的特征分布来近似，这种方法可以较好地解决训练语音不足带来的系统性能的问题。

最大期望算法(Expectation Maximization Algorithm，简称EM算法)是一种迭代算法，在统计学中被用于寻找，依赖于不可观察的隐性变量的概率模型中参数的最大似然估计。

具体地，采用通用UBM模型对简化语音特征进行训练，并通过EM算法对简化语音特征进行训练，可以从通用UBM模型开始，利用最大似然准则，迭代地训练出目标UBM模型。其中，最大似然准则是“模型已定，参数未知”的情况下根据给定观察序列(所有序列服从同一分布)估计模型参数的估计方法。模型参数的准确性，跟观察序列直接相关。每次迭代均是将前一次的依据最大似然准则得到的初步模型训练结果作为下一次的初始模型进行计算，不断重复计算直至局部最大时，得到目标UBM模型。

S32.获取目标UBM模型的高维充分统计量。

其中，目标UBM模型就是经步骤S31迭代得到的模型。在将目标UBM模型加工为对数据分布的压缩统计量时，信息毫无损失，则称此统计量为充分统计量。比如，对于高斯混合模型，期望和协方差矩阵就是它的两个充分统计量，因为如果这两个参数已知，就可以唯一确定一个高斯混合模型。于本实施例，高维充分统计量包括目标UBM模型的零阶充分统计量、一阶充分统计量和二阶充分统计量。

具体地，在获取总体变化子空间的估计过程中，由于高斯混合模型均值超矢量是通过计算简化语音特征相对于目标UBM模型均值超矢量的零阶充分统计量、一阶充分统计量和二阶充分统计量得到的。各阶充分统计量的估计过程如下所示，设简化语音特征s表示为 x_s,t，则其相对于目标UBM模型的均值超矢量m的零阶充分统计量N_c,s,一阶充分统计量F_c,s以及二阶充分统计量S_c,s可如式(1)所示。

式中，m_c代表目标UBM模型均值超矢量m中的第c个高斯均值分量。T表示时间帧索引。γ_c,s,t表示目标UBM模型第c个高斯分量的后验概率。diag{.}表示取对角运算。若高斯模型的维数为F，则将所有C个高斯模型的均值矢量拼接成的高维均值超矢量维数为FC。

步骤S32中，识别服务器通过获取预设UBM模型的零阶充分统计量和一阶充分统计量，用以作为训练总体变化子空间的技术基础。

S33.采用期望最大化算法对高维充分统计量进行迭代，获取总体变化子空间。

具体地，由步骤S32得到的各阶充分统计量，总体变化子空间可采用如下的期望最大化算法对各阶充分统计量进行迭代得到。首先，随机初始化总体变化子空间(以下简称T空间)，然后固定T空间，在期望最大化算法下估计隐变量w的一阶和二阶充分统计量，估计过程如式(2)所示。其中，超矢量F_s是由F_c,s矢量拼接成的FC*1维的矢量。Ns是由Nc,s作为主对角元拼接成的FC*FC维的矩阵。

L_s＝I+T^T∑^-1N_sT

式中L_s式临时变量，Σ是目标UBM模型的协方差矩阵。

接着更新T空间和协方差矩阵Σ。T空间的更新过程可利用式(3)来实现。

对目标UBM模型的协方差矩阵Σ的更新过程如式(4)所示。

式中，S_s是由S_c,s进行矩阵对角拼接成的FC*FC维的矩阵，N＝ΣN_s为所有说话人的零阶充分统计量之和。

对于上述步骤式(4)和式(4)进行迭代6-8次后，可近似认为T和Σ收敛，以获得 T空间。

步骤S31至S33中，通过EM算法迭代，提供一个简单稳定的迭代算法计算后获取总体变化子空间；获取总体变化子空间可将目标UBM模型的高维充分统计量(超矢量)映射到低维实现，利于降维后的矢量进一步进行语音识别。

在一实施中，如图6所示，在步骤S40中，即将简化语音特征投影到总体变化子空间，以获取通用i-vector向量，具体包括如下步骤：

S41.基于简化语音特征和目标UBM模型，采用均值MAP自适应方法获取GMM-UBM模型。

其中，简化语音特征是经步骤S20处理后得到的语音特征。GMM-UBM模型是在目标UBM 模型的基础上通过均值MAP自适应方法适应得到的语音模型。

具体地，基于目标UBM模型，采用均值MAP自适应方法来自适应训练语音特征的GMM模型，以更新GMM模型中每个高斯分量的均值矢量。GMM模型具有M个混合成分，采用均值MAP自适应方法的步骤如下：

给定简化语音特征O＝o₁,o₂,...o_T,先计算O与目标UBM模式中的每个高斯分量的匹配似然度和属于第m个高斯分量的帧数：

式中，T为简化语音特征的帧数；n_m是简化语音特征属于第m个高斯分量的帧数。由于大量的说话人识别实验已经证明，只修正均值参数时，说话人识别的性能最好，因此根据EM算法重估公式，计算修正模型的均值参数。

式中，

为修正后的均值矢量；

为第m个高斯分量的均值的修正因子。经迭代上述公式(7)和公式(8)，可获得M个分量的GMM模型，也即生成GMM-UBM模型。以GMM-UBM 模型的每个高斯分量的均值矢量(每个矢量有D维)作为串接单元，形成M*D维的高斯均值超矢量。

S42.采用公式s＝m+Tw将简化语音特征投影到总体变化子空间，以获取通用i-vector 向量，其中，s是C*F维的GMM-UBM模型中与简化语音特征相对应的均值超矢量；m是与说话人无关且与信道无关的C*F维超向量；T是总体变化子空间，维度为CF*N；w是通用 i-vector向量，维度为N。

本实施例中，s是采用步骤S31获取的高斯均值超矢量；m是与说话人无关且与信道无关的M*D维超向量，由目标UBM模型对应的均值超矢量拼接而成；w是一组服从标准正态分布的随机向量，就是维度为N的通用i-vector向量。

进一步地，公式中T空间的获取过程为：训练UBM模型的高维充分统计量，然后通过EM算法迭代更新上述高维充分统计量即可生成收敛的T空间。将T空间带入公式s＝m+Tw，因s、m和T都是已知的，即可获取w，也即通用i-vector向量，其中，w＝(s-m)/T。

步骤S41至步骤S42中，通过采用公式s＝m+Tw可将简化语音特征投影在总体变化子空间上，获取通用i-vector向量，可将简化语音特征进行降维进一步简化训练语音特征的复杂度，用来提高语音识别的效率。

在一实施中，如图7所示，提供一种语音聚类方法，以该方法应用在图1中的识别服务器为例进行说明，包括如下步骤：

S50.获取测试语音数据和测试语音数据携带的类簇标识，提取测试语音数据对应的测试i-vector向量。

其中，测试语音数据是待确认的、声称属于携带的类簇标识对应类簇的语音数据。类簇标识就是用以说明测试语音数据所属类簇的标识，比如：以性别划分的类簇标识包括男和女，以年龄段划分的类簇标识为儿童、青年和老年标识等。

完成语音识别的过程需要两个基本要素：语音和身份，应用于本实施例，语音就是测试语音数据，身份就是类簇标识，以便识别服务器进一步判定测试语音数据声称的身份是否为真正对应的身份。

S60.基于测试语音数据携带的类簇标识，获取对应的通用i-vector向量。

其中，通用i-vector向量就是经步骤S10至步骤S40处理后与类簇标识形成一对一关系的语音向量，用以表示属于该类簇标识的语音向量。

步骤S60中，通过测试语音携带的类簇标识，可在识别服务器中查找到对应类簇的通用i-vector向量，进而判定测试语音数据是否属于其携带的类簇标识所代表的类簇。

S70.采用余弦相似度算法获取测试i-vector向量和通用i-vector向量的相似度，以识别测试i-vector向量是否属于通用i-vector向量所在的类簇。

具体地，获取测试i-vector向量和通用i-vector向量的相似度可由以下公式进行判定：

其中，A_i和B_i分别代表向量A和向量B的各个分量。由上式可知，相似度范围从-1到1，其中-1表示两个向量方向相反，1表示两个向量指向相同；0表示两个向量是独立的。在-1和1之间表示两个向量之间的相似性或相异性，可以理解地，相似度越接近1表示两个向量越接近。应用于本实施例，可根据实际经验预先设定cosθ的阈值。若测试i-vector 向量和通用i-vector向量的相似度大于阈值，则认为测试i-vector向量和通用i-vector 向量相似，也即可判定测试语音数据在识别服务器中数据库中与类簇标识是对应的。

步骤S50至S70中，通过余弦相似度算法即可判定测试i-vector向量和通用i-vector 向量的相似度，简单快捷，利于快速确认识别结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种通用向量训练装置，该通用向量训练装置与上述实施例中通用向量训练方法一一对应。如图8所示，该通用向量训练装置包括获取训练语音数据模块10、获取简化特征模块20、获取变化空间模块30和获取通用向量模块40。各功能模块详细说明如下：

获取训练语音数据模块10，用于获取携带同一类簇标识的训练语音数据，提取训练语音数据的训练语音特征。

获取简化特征模块20，用于采用简化模型算法简化处理训练语音特征，获取简化语音特征。

获取变化空间模块30，用于采用最大期望算法迭代所述简化语音特征，获取总体变化子空间。

获取通用向量模块40，用于将简化语音特征投影到总体变化子空间，以获取类簇标识对应的通用i-vector向量。

优选地，获取训练语音数据模块10包括获取语音数据单元11、获取训练功率谱单元 12、获取梅尔功率谱单元13和获取MFCC特征单元14。

获取语音数据单元11，用于对训练语音特征进行预处理，获取预处理语音数据。

获取训练功率谱单元12，用于对预处理语音数据作快速傅里叶变换，获取训练语音特征的频谱，并根据频谱获取训练语音特征的功率谱。

获取梅尔功率谱单元13，用于采用梅尔刻度滤波器组处理训练语音特征的功率谱，获取训练语音特征的梅尔功率谱。

获取MFCC特征单元14，用于在梅尔功率谱上进行倒谱分析，获取训练语音特征的MFCC 特征。

优选地，获取简化特征模块20包括获取正态分布单元21和获取简化特征单元22。

获取正态分布单元21，用于采用高斯滤波器处理训练语音特征，获取对应的二维正态分布。

获取简化特征单元22，用于采用简化模型算法简化二维正态分布，获取简化语音特征。

优选地，获取变化空间模块30包括获取目标模型单元31、获取高维统计量单元32和获取变化子空间单元33。

括获取目标模型单元31，用于获取目标模型单元31，用于采用通用UBM模型对简化语音特征进行训练，并采用最大期望算法迭代收敛，获取目标UBM模型。

获取高维统计量单元32，用于获取目标UBM模型的高维充分统计量。

获取变化子空间单元33，用于采用期望最大化算法对高维充分统计量进行迭代，获取总体变化子空间。

优选地，获取通用向量模块40包括获取GMM-UBM模型单元41和获取通用模型单元42。

获取GMM-UBM模型单元41，用于基于简化语音特征和目标UBM模型，采用均值MAP自适应方法获取GMM-UBM模型。

获取通用模型单元42，用于采用公式s＝m+Tw将简化语音特征投影到总体变化子空间，以获取通用i-vector向量，其中，s是C*F维的GMM-UBM模型中与简化语音特征相对应的均值超矢量；m是与说话人无关且与信道无关的C*F维超向量；T是总体变化子空间，维度为CF*N；w是通用i-vector向量，维度为N。

在一实施例中，提供一种语音聚类装置，该语音聚类装置与上述实施例中语音聚类方法一一对应。如图9所示，该语音聚类装置包括获取测试训练语音数据模块50、获取通用向量模块60和识别语音类簇模块70。各功能模块详细说明如下：

获取测试训练语音数据模块50，用于获取测试语音数据和测试语音数据携带的类簇标识，提取测试语音数据对应的测试i-vector向量。

获取通用向量模块60，用于基于测试语音数据携带的类簇标识，获取对应的通用i-vector向量。

识别语音类簇模块70，用于采用余弦相似度算法获取测试i-vector向量和通用i-vector向量的相似度，以识别测试i-vector向量是否属于通用i-vector向量所在的类簇。

关于通用向量训练装置和语音聚类装置的具体限定可以参见上文中对于通用向量训练方法和语音聚类方法的限定，在此不再赘述。上述通用向量训练装置或语音聚类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与语音识别相关的语音数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种通用向量训练方法或语音聚类方法。

在一实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取携带同一类簇标识的训练语音数据，提取训练语音数据的训练语音特征；采用简化模型算法简化处理训练语音特征，获取简化语音特征；采用最大期望算法迭代简化语音特征，获取总体变化子空间；将简化语音特征投影到总体变化子空间，以获取类簇标识对应的通用i-vector向量。

在一实施例中，提取每一训练语音数据的训练语音特征，处理器执行计算机程序时实现以下步骤：对训练语音特征进行预处理，获取预处理语音数据；对预处理语音数据作快速傅里叶变换，获取训练语音特征的频谱，并根据频谱获取训练语音特征的功率谱；采用梅尔刻度滤波器组处理训练语音特征的功率谱，获取训练语音特征的梅尔功率谱；在梅尔功率谱上进行倒谱分析，获取训练语音特征的MFCC特征。

在一实施例中，采用简化模型算法简化处理训练语音特征，获取简化语音特征，处理器执行计算机程序时实现以下步骤：采用高斯滤波器处理训练语音特征，获取对应的二维正态分布；采用简化模型算法简化二维正态分布，获取简化语音特征。

在一实施例中，采用最大期望算法迭代所述简化语音特征，获取总体变化子空间，处理器执行计算机程序时实现以下步骤：采用通用UBM模型对简化语音特征进行训练，并采用最大期望算法迭代收敛，获取目标UBM模型；获取目标UBM模型的高维充分统计量；采用期望最大化算法对高维充分统计量进行迭代，获取总体变化子空间。

在一实施例中，将简化语音特征投影到总体变化子空间，以获取通用i-vector向量，处理器执行计算机程序时实现以下步骤：基于简化语音特征和目标UBM模型，采用均值MAP 自适应方法获取GMM-UBM模型；采用公式s＝m+Tw将简化语音特征投影到总体变化子空间，以获取通用i-vector向量，其中，s是C*F维的GMM-UBM模型中与简化语音特征相对应的均值超矢量；m是与说话人无关且与信道无关的C*F维超向量；T是总体变化子空间，维度为CF*N；w是通用i-vector向量，维度为N。

在一实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取测试语音数据和测试语音数据携带的类簇标识，提取测试语音数据对应的测试i-vector向量；基于测试语音数据携带的类簇标识，获取对应的通用i-vector向量；采用余弦相似度算法获取测试i-vector向量和通用i-vector向量的相似度，以识别测试i-vector向量是否属于通用i-vector向量所在的类簇。

在一实施例中，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取携带同一类簇标识的训练语音数据，提取训练语音数据的训练语音特征；采用简化模型算法简化处理训练语音特征，获取简化语音特征；采用最大期望算法迭代简化语音特征，获取总体变化子空间；将简化语音特征投影到总体变化子空间，以获取类簇标识对应的通用i-vector向量。

在一实施例中，提取每一训练语音数据的训练语音特征，计算机程序被处理器执行时实现以下步骤：对训练语音特征进行预处理，获取预处理语音数据；对预处理语音数据作快速傅里叶变换，获取训练语音特征的频谱，并根据频谱获取训练语音特征的功率谱；采用梅尔刻度滤波器组处理训练语音特征的功率谱，获取训练语音特征的梅尔功率谱；在梅尔功率谱上进行倒谱分析，获取训练语音特征的MFCC特征。

在一实施例中，采用简化模型算法简化处理训练语音特征，获取简化语音特征，计算机程序被处理器执行时实现以下步骤：采用高斯滤波器处理训练语音特征，获取对应的二维正态分布；采用简化模型算法简化二维正态分布，获取简化语音特征。

在一实施例中，采用最大期望算法迭代所述简化语音特征，获取总体变化子空间，计算机程序被处理器执行时实现以下步骤：采用通用UBM模型对简化语音特征进行训练，并采用最大期望算法迭代收敛，获取目标UBM模型；获取目标UBM模型的高维充分统计量；采用期望最大化算法对高维充分统计量进行迭代，获取总体变化子空间。

在一实施例中，将简化语音特征投影到总体变化子空间，以获取通用i-vector向量，计算机程序被处理器执行时实现以下步骤：基于简化语音特征和目标UBM模型，采用均值 MAP自适应方法获取GMM-UBM模型；采用公式s＝m+Tw将简化语音特征投影到总体变化子空间，以获取通用i-vector向量，其中，s是C*F维的GMM-UBM模型中与简化语音特征相对应的均值超矢量；m是与说话人无关且与信道无关的C*F维超向量；T是总体变化子空间，维度为CF*N；w是通用i-vector向量，维度为N。

在一实施例中，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取测试语音数据和测试语音数据携带的类簇标识，提取测试语音数据对应的测试i-vector向量；基于测试语音数据携带的类簇标识，获取对应的通用i-vector向量；采用余弦相似度算法获取测试i-vector向量和通用i-vector向量的相似度，以识别测试i-vector向量是否属于通用i-vector向量所在的类簇。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率 SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种通用向量训练方法，其特征在于，包括：

获取携带同一类簇标识的训练语音数据，提取所述训练语音数据的训练语音特征；

采用简化模型算法简化处理所述训练语音特征，获取所述训练语音特征的二维正态分布，模糊所述二维正态分布的所有音素，获取简化语音特征；

采用最大期望算法迭代所述简化语音特征，获取总体变化子空间；

将所述简化语音特征投影到所述总体变化子空间，以获取所述类簇标识对应的通用i-vector向量。

2.如权利要求1所述的通用向量训练方法，其特征在于，所述提取所述训练语音数据的训练语音特征，包括：

对所述训练语音特征进行预处理，获取预处理语音数据；

对所述预处理语音数据作快速傅里叶变换，获取训练语音特征的频谱，并根据所述频谱获取训练语音特征的功率谱；

采用梅尔刻度滤波器组处理所述训练语音特征的功率谱，获取训练语音特征的梅尔功率谱；

在所述梅尔功率谱上进行倒谱分析，获取训练语音特征的MFCC特征。

3.如权利要求1所述的通用向量训练方法，其特征在于，所述采用简化模型算法简化处理所述训练语音特征，获取简化语音特征，包括：

采用高斯滤波器处理所述训练语音特征，获取对应的二维正态分布；

采用简化模型算法简化所述二维正态分布，获取简化语音特征。

4.如权利要求1所述的通用向量训练方法，其特征在于，所述采用最大期望算法迭代所述简化语音特征，获取总体变化子空间，包括：

采用通用UBM模型对所述简化语音特征进行训练，并采用最大期望算法迭代收敛，获取目标UBM模型；

获取所述目标UBM模型的高维充分统计量；

采用期望最大化算法对所述高维充分统计量进行迭代，获取总体变化子空间。

5.如权利要求4所述的通用向量训练方法，其特征在于，所述将所述简化语音特征投影到所述总体变化子空间，以获取通用i-vector向量，包括

基于所述简化语音特征和所述目标UBM模型，采用均值MAP自适应方法获取GMM-UBM模型；

采用公式s＝m+Tw将所述简化语音特征投影到所述总体变化子空间，以获取通用i-vector向量，其中，s是C*F维的GMM-UBM模型中与简化语音特征相对应的均值超矢量；m是与说话人无关且与信道无关的C*F维超向量；T是所述总体变化子空间，维度为CF*N；w是通用i-vector向量，维度为N。

6.一种语音聚类方法，其特征在于，包括：

获取测试语音数据和所述测试语音数据携带的类簇标识，提取所述测试语音数据对应的测试i-vector向量；

基于所述测试语音数据携带的类簇标识，获取执行权利要求1-5任一项所述通用向量训练方法确定的通用i-vector向量；

采用余弦相似度算法获取所述测试i-vector向量和所述通用i-vector向量的相似度，以识别所述测试语音数据是否与所述通用i-vector向量属于同一类簇。

7.一种通用向量训练装置，其特征在于，包括：

获取训练语音数据模块，用于获取携带同一类簇标识的训练语音数据，提取所述训练语音数据的训练语音特征；

获取简化特征模块，用于采用简化模型算法简化处理所述训练语音特征，获取所述训练语音特征的二维正态分布，模糊所述二维正态分布的所有音素，获取简化语音特征；

获取变化空间模块，用于采用最大期望算法迭代所述简化语音特征，获取总体变化子空间；

获取通用向量模块，用于将所述简化语音特征投影到所述总体变化子空间，以获取所述类簇标识对应的通用i-vector向量。

8.一种语音聚类装置，其特征在于，包括：

获取测试语音数据模块，用于获取测试语音数据和所述测试语音数据携带的类簇标识，提取所述测试语音数据对应的测试i-vector向量；

获取通用i-vector向量模块，用于基于所述测试语音数据携带的类簇标识，获取执行权利要求1-5任一项所述通用向量训练方法确定的通用i-vector向量；

识别同类簇模块，用于采用余弦相似度算法获取所述测试i-vector向量和所述通用i-vector向量的相似度，以识别所述测试语音数据是否与所述通用i-vector向量属于同一类簇。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述通用向量训练方法，或者，所述处理器执行所述计算机程序时实现如权利要求6所述语音聚类方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述通用向量训练方法，或者，所述处理器执行所述计算机程序时实现如权利要求6所述语音聚类方法的步骤。