CN1221938C

CN1221938C - 基于高斯相似度分析的说话人自适应方法

Info

Publication number: CN1221938C
Application number: CNB031022057A
Authority: CN
Inventors: 吴及; 王作英
Original assignee: TIANLANG SPEECH SOUND SCI-TECH Co Ltd BEIJING; Tsinghua University
Current assignee: TIANLANG SPEECH SOUND SCI-TECH Co Ltd BEIJING; Tsinghua University
Priority date: 2003-01-27
Filing date: 2003-01-27
Publication date: 2005-10-05
Anticipated expiration: 2023-01-27
Also published as: CN1521727A

Abstract

本发明提供了一种基于高斯相似度分析的说话人自适应方法，包括一个自适应前建立非特定人模型状态协方差矩阵的二叉决策树的步骤；一个建立计算二叉决策树每个中间节点的类中心协方差矩阵及其与对应的各叶子节点协方差矩阵间的变换关系阵的步骤；一个自适应时根据测试者提供的自适应数据决定自适应状态类的步骤；一个对每个自适应状态类用最大似然方法估计类中心矩阵的步骤；一个对每个自适应状态类计算自适应后的类中心协方差矩阵的步骤；一个更新每个自适应状态类的协方差矩阵，得到说话人自适应模型的步骤。本发明能够利用少量数据对协方差自适应，而且可以与均值自适应方法同时使用，自适应效果显著。

Description

基于高斯相似度分析的说话人自适应方法

技术领域

本发明涉及一种语音识别技术领域中的说话人自适应方法，尤其涉及一种对协方差阵的说话人自适应方法。

背景技术

我们知道，不同的人不仅发声器官本身，如声带的形状、声道的长度、鼻腔口腔的大小都存在很大的差异；而且每个人发声的习惯也不同，如口音、语速、响度都有差别，这些都导致了不同说话人的声音特性差异很大。因此，非特定人语音识别相对于特定人的难度要大得多，一般认为对于相同规模的识别任务，非特定人系统的误识率是特定人系统的3至5倍。但由于非特定人识别有着更广阔的应用前景，非特定人、大词汇量、连续语音识别技术自九十年代以来已经成为语音识别研究的主流。

对于某一个特定说话人的语音信号进行识别时，如果使用他的特定人(SD：Speaker Dependent)模型，由于模型参数完全由他本人的语音数据训练得到，能比较精确地描述他的声音特性，显然比使用非特定人(SI：SpeakerIndependent)模型的效果要好得多。在非特定人模型的基础上，利用说话人提供的少量语音数据重新估计一个新的自适应(SA：Speaker Adaptation)模型，这一模型重估的过程就称为说话人自适应(如图1所示)，得到SA模型后，系统将通过它来识别该说话人的其它语音信号，这样的系统称为说话人自适应系统(图2所示)。由于加入了当前说话人的信息，这个模型对于此说话人的识别精度会明显好于非特定人模型。由于这一方法能够显著提高非特定人系统的识别性能，所以在实际系统中得到了广泛的应用。

说话人自适应根据实现方式可以分为有监督和无监督两种。有监督自适应，是指使用者提供的自适应数据的具体内容是系统给定的，这种方式可以在使用者只提供很少量数据的情况下就使识别性能得到明显提升。无监督自适应，是指系统对使用者所说内容并无先验知识，必须先进行识别再利用识别结果进行自适应。由于识别结果中必然会包含一定数量的错误，这使得系统性能的提升需要更多的语音数据，并且用于自适应的识别结果必须达到一定的正确率才能保证系统的识别性能是不断提高的，所以往往需要引入置信度对识别结果进行有选择地使用。但这种方式的好处是，自适应过程对于用户来说是透明的，用户在使用中不会感到有额外的负担，并且在不断使用的过程中，系统性能就会得到持续的提升。

常用的说话人自适应方法主要有以下几类：

最大后验概率算法(MAP：Maximum a posterior)。这种算法利用模型参数的先验概率，根据最大后验概率准则重新估计模型参数。因为此算法中每一模型参数都是独立重估的，所以需要的自适应数据量和计算量都很大。如果自适应数据足够，其性能接近于特定人模型的性能。

基于变换的自适应算法，如最大似然线性回归算法(MLLR：MaximumLikelihood Linear Regression)。这种方法假设自适应模型可以由非特定人模型通过一个或一组线性变换得到。因此在自适应过程中，只需由说话人的自适应数据估计出这些线性变换，就可以很容易地从非特定人模型得到自适应模型。MLLR的方法对自适应数据量的要求较少，比较容易实现快速自适应，也是目前应用最多的自适应方法之一。

最大似然模型插值算法(MLMI：Maximum Likelihood ModelInterpolation)。这种算法认为模型空间中存在线性相关结构。如果已知一组有代表性的特定人模型，其他人的模型就可以由这一组模型线性表出。这种方法试图通过自适应数据来估计一组线性表出系数，从而由这些系数和特定人模型得到说话人的自适应模型。MLMI方法提供了一种快速自适应的方法。由于对每个说话人只需估计出一组线性表出系数，所以对自适应数据量的要求非常低，一般有几句话，甚至一二句话就已经足够。

综合分析不同的自适应方法，我们可以发现算法的性能、需要的自适应数据量以及自适应速度之间存在着相互制约的关系。如果一个算法作出的假设越少，比如最大后验概率算法(MAP)，其做法就越接近于训练时进行的模型参数估计，那么对自适应数据的需求量就会越大，同时自适应速度也会比较慢。而MLLR和MLMI的方法就对语音信号作出了较多的假设，比如MLLR的假设是不同的语音单元可以共享一个或几个线性变换，从而使说话人自适应简化成为对几个线性变换的估计。MLMI假设某一说话人的模型可以由一组具代表性的特定人模型线性表出，自适应就更简化成为对一组线性表出系数的估计。作出的假设越强，等于利用了更多的先验知识，参数自由度也随之减少。因此对自适应数据量的要求就越低，自适应的速度也就越快。所以，通过对语音信号或其特征空间结构的合理分析可以提高自适应算法的效率。比如，有一些结构化的方法被用来改进MAP算法(Structured MAP)。

但是，这种由假设而得到的先验知识，如果与实际情况有较大偏差就会造成自适应的效果不佳。同时由于参数估计的自由度变小，精确描述模型的能力有所下降，自适应算法的性能也会很快趋于饱和。这时即使数据量再增加，也无法使系统的识别性能得到更多的提高。

现有的自适应方法有一个共同的特点，就是它们主要都是针对状态观测概率分布的均值进行的，而很少考虑到协方差阵的自适应，其主要原因是，协方差阵具有比均值多得多的参数，这就要求大量的自适应数据，然而这对于说话人自适应来说是很难得到的。上文我们已经提到，如果要在数据量较少的情况下实现自适应，必须利用更多的先验知识，因此如何描述特征空间中状态观测概率分布之间的关系成为我们需要面对的问题。

发明内容

本发明的目的在于提出了一种快速协方差阵自适应方法，以在数据量较少的情况下实现说话人自适应，并且能够提高自适应效果。

为达到上述目的，本发明是这样实现的：本发明包括一个自适应前非特定人隐含马尔可夫模型的训练步骤；

一个自适应前由所说的非特定人隐含马尔可夫模型参数，根据高斯相似测度建立起了描述隐含马尔可夫模型状态观测概率在特征空间分布形状关系的二叉决策树的步骤；

一个建立二叉决策树的同时计算二叉决策树每个中间节点的类中心协方差矩阵及其与对应的各叶子节点协方差矩阵间的变换关系阵的步骤；

一个自适应时根据测试者提供的自适应数据决定自适应状态类的步骤；

一个对每个自适应状态类根据自适应数据用最大似然方法估计类中心矩阵的步骤；

一个对每个自适应状态类用上述变换关系阵和类中心矩阵的最大似然估计，计算自适应后的类中心协方差矩阵的步骤；

一个更新每个自适应状态类的协方差矩阵，得到说话人自适应模型的步骤。

所述的自适应前建立该非特定人隐含马尔可夫模型状态协方差矩阵的二叉决策树的步骤为：先将该非特定人模型的所有状态对应的协方差矩阵放入根节点，计算根节点的中心矩阵，接着用K均值算法将根节点中所包含的状态分成两部分，分别放入两个子节点中，然后对每个子节点重复分裂过程，如果当前节点中的状态数已经不够分解或低于预先设定的门限时就将此节点作为叶子节点，否则重复上述分裂过程直至得到所有的叶子节点，一个叶子节点对应一个协方差矩阵。

所述的自适应时根据测试者提供的自适应数据决定自适应状态类的步骤为：先根据自适应数据统计每个叶子节点的语音样本数目，如果数目少于事先确定的门限值，则上溯到其父节点，再统计父节点所有的语音样本数，如大于门限则停止，否则继续，直至对所有的叶子节点回溯停止，此时我们得到了适用于这批自适应数据的状态类。

本发明属于基于变换的自适应方法，其基本思想是：一组较相似的协方差矩阵无论在自适应前还是自适应后，它们的相似关系不变，因此它们在自适应时共享相同的变换方程，而这组协方差矩阵是由二叉决策树动态确定的。在本发明中，提出了度量两个高斯随机矢量相似程度的一种测度，这种测度相比于以往仅用均值间的距离来度量随机矢量之间的相似程度的做法有了质的提高。首先，本发明主要针对协方差阵进行了自适应，而且还可以同时利用其它方法如经典的MLLR算法进行均值自适应，所以本发明提供了利用少量数据进行协方差阵自适应的一种有效方法，使系统在均值自适应的基础上识别精度大大提高，自适应效果比较显著；其次，本发明能够根据所具备的自适应数据量，动态地选择具体的自适应方案，从而最大限度地利用自适应数据，达到较好的自适应效果，而且随着自适应数据量的不断增加，自适应效果会不断提高，自适应模型的识别性能最终可以逼近特定人模型的效果，从而实现从自适应模型到特定人模型的平滑连接；此外，本发明在有监督自适应和无监督自适应中都能很容易地得到应用；最后，本发明主要的计算量在于建立二叉决策树，但可以离线完成，因而在线自适应的计算量不大。

附图说明

图1为模型自适应方法的流程示意图；

图2为经过模型自适应后的语音识别系统的工作流程图；

图3为本发明实施例建立二叉决策树的工作流程图；

图4为图3所示K均值方法分裂节点的工作流程图；

图5为本发明实施例在协方差自适应时的工作流程图。

具体实施方式

以下结合附图和具体实施例对本发明做进一步的阐述：

假设中间节点的类中心协方差矩阵为C_Φ，其中Φ表示该中间节点对应的叶子节点集合，自适应前，训练一个非特定人隐含马尔可夫模型(以下简称SI模型)，可以先采用最大似然线性回归算法(MLLR)的方法，对SI模型进行均值自适应，当然，也可以采取其它自适应算法来得到自适应均值模型，接着利用该均值模型对自适应数据采用Viterbi算法重新进行分割，根据分割结果得到每一帧语音各自应归属于哪个HMM状态的信息，然后再对该均值模型进行本发明的协方差自适应。

开始本发明的自适应前，首先以式(3)为协方差矩阵间的距离测度(即高斯相似度)，采用自顶向下的K均值方法建立一棵HMM状态协方差矩阵的二叉决策树，并计算各状态与类中心协方差矩阵间的变换关系A_i，Φ，如图3所示，先将待适应模型的所有状态对应的协方差矩阵放入根节点，依据公式(1)计算该节点的中心矩阵C_Φ，接着用K均值算法将根节点分成两个子节点，重复分裂过程，如果当前节点中的状态数已经不够分解或低于预先设定的门限时就将此节点作为叶子节点，否则重复上述分裂过程直至得到所有的叶子节点，一个叶子节点对应一个协方差矩阵，最后根据公式(2)计算类中心矩阵C_Φ与对应的各叶子节点协方差矩阵间的变换关系阵A_i，Φ。

其中N_Φ是集合Φ中叶子节点的个数 (1)

A_{i, Φ} = Σ_{i}^{- 1 / 2} {[Σ_{i}^{1 / 2} C_{Φ} Σ_{i}^{1 / 2}]}^{1 / 2} Σ_{i}^{1 / 2} - - - i &Element; Φ - - - (2)

d (x, y) = tr (Σ_{x} + Σ_{y} - 2 {[Σ_{x}^{1 / 2} Σ_{y} Σ_{x}^{1 / 2}]}^{1 / 2}) - - - (3)

K均值方法的描述如下：空间中有n个点X₁，X₂…X_n，给定类的个数K(本发明中K＝2)，设这些类为C₁，C₂…C_K，将n个点分到K个类中去，使得类内对象之间的相似性最大，而类之间的相似性最小。如图4，其步骤是：

1、先选取K个初始类中心，记为C₁，C₂…C_K；

2、根据函数(3)分别计算每个点到这些类中心的距离d(X_i，c_j)，寻找距离最小的类中心c_l，即：d(X_i，c_l)≤d(X_i，c_j)，j∈1，2，…K，j≠l，1≤l≤K，则认为X_i∈C_l，即X_i是属于l类的点，如此，确定所有点的归属；

3、计算总的距离测度：

D = Σ_{i, j}^{n, m} \min_{1 \leq j \leq k} d (X_{i}, c_{j});

4、根据分类的结果，利用每类的点重新计算类中心。

5、利用新的类中心，再计算空间各点的归属，并计算得到更新的总距离测度D_new；

6、比较两次得到的总距离测度，如果差别足够小，则停止迭代，得到最后的分类方式和类中心，否则继续迭代，重复2-5步。

这样，我们就由待自适应的HMM模型参数，根据高斯相似测度建立起了描述HMM状态观测概率在特征空间分布形状关系的二叉决策树，该决策树上的每个节点所包括的状态是在高斯相似度意义下观测概率分布之间距离较小的状态，即这些分布在特征空间的分布形状上比较相似，而类中心的物理意义是，如果对这一类中的高斯分布进行共享，认为属于这些分布的样本同属于一个高斯分布，即简化为一个代表类中心的高斯随机矢量。这棵二叉树实际上就是状态观测概率分布在特征空间的一种结构性描述。

自适应时，如图5所示，首先根据测试者提供的自适应数据决定应当进行自适应的状态类，方法是：先根据自适应数据统计每个叶子节点的语音样本数目，如果数目少于事先确定的门限值，则上溯到其父节点，再统计父节点所有的语音样本数，如大于门限则停止，否则继续，直至对所有的叶子节点回溯停止，此时我们得到了适用于这批自适应数据的状态类。这种由自适应数据来动态选择状态类的方法，称之为数据驱动。上述门限的选择对于从有限的自适应数据中得到最好的自适应效果是至关重要的，由于自适应数据是有限的，所以如果门限较小，状态类中就可能没有足够多的数据来进行类中心的估计，使估计出来的协方差阵不稳定，从而影响自适应的效果。如果门限太大，确定的状态类为数过少，会使对状态观测概率分布在特征空间结构关系的描述太过于粗糙，也难以收到很好的自适应效果。实验表明，在自适应数据十分有限的情况下，语音样本门限取在350至450之间是比较合适的。当然，自适应数据的增加对于自适应效果是会有好处的，最极端的情况是状态类的数目等于状态数，即每个状态类中只有一个状态，同时每个状态都有足够的数据来进行参数估计，这种情况就已经等同于特定人的协方差阵模型训练了，当然，如此多的语音数据只有在无监督的累进自适应时才可能出现。这也说明，本发明的极限性能是能够趋于特定人模型的性能的。

然后对于每个自适应类根据自适应数据和最大似然方法估计得到类中心矩阵具体方法描述如下：假设二叉决策树中某节点包含的叶子节点(即HMM状态)为s₁，s₂，...，s_n，每个状态根据相应的自适应数据，按式(4)统计二阶统计量C(s_i)：

C (s_{i}) = Σ_{t = 1}^{T (s_{i})} (O_{t} - μ_{s_{1}}) {(O_{t} - μ_{s_{1}})}^{T} - - - (4)

其中T(s_i)是状态s_i对应的自适应总帧数。

再根据式(5)将各状态的统计二阶统计量变换到中间节点对应的空间中，并得到最大似然估计：

{\tilde{C}}_{Φ} = \frac{1}{\underset{i &Element; Φ}{Σ} T (s_{i})} \underset{i &Element; Φ}{Σ} {(A_{i, Φ})}^{- 1} C (s_{i}) {(A_{i, Φ})}^{- 1} - - - (5)

将代入公式(6)得到自适应的协方差矩阵，并更新该自适应类包含的叶子节点的协方差矩阵，得到均值和协方差都经过自适应的说话人自适应(SA)模型。

{Σ_{i}}^{(SA)} = A_{i, Φ} {\tilde{D}}_{Φ} A_{i, Φ} - - - i &Element; Φ - - - (6)

表1同时给出非特定人模型、采用MLLR方法进行均值自适应和在此基础上采用本发明实施例进行协方差阵自适应的实验结果，表中数据都是声学层识别结果的首选误识率。其中，训练集为863DB_Batch12_M中的70人，测试集为863DB_Batch12_M中剩下的12人，测试文件的前100句用于自适应，最后约250句用于测试。

表1 实验结果数据

用于自适应测试的说话人	非特定人模型	MLLR均值自适应后的模型	经本实施例自适应后的模型
用于自适应测试的说话人	非特定人模型	MLLR均值自适应后的模型	经本实施例自适应后的模型	M80	28.86	23.47	21.46
M81	30.35	21.55	20.45	M80	28.86	23.47	21.46
M81	30.35	21.55	20.45	M82	31.26	23.04	17.15
M83	28.45	22.45	18.17	M82	31.26	23.04	17.15
M83	28.45	22.45	18.17	M84	40.24	23.61	19.66
M93	23.40	21.50	18.50	M84	40.24	23.61	19.66
M93	23.40	21.50	18.50	M94	27.34	23.64	20.84
M95	24.16	17.10	14.48	M94	27.34	23.64	20.84
M95	24.16	17.10	14.48	M96	40.84	34.28	31.08

M97	37.45	24.45	27.20
M97	37.45	24.45	27.20	M98	23.46	18.74	13.83
M99	26.19	23.51	19.32	M98	23.46	18.74	13.83
M99	26.19	23.51	19.32	平均	30.17	23.11	20.18
误识率下降(％)	/	23.39	33.11(12.69)	平均	30.17	23.11	20.18

从上表中，我们可以看到不同自适应方案的效果比较。采用MLLR进行均值自适应后，平均误识率比非特定人模型的结果相对下降了23.39％；采用本发明的实施例进行协方差阵自适应后，平均误识率相比均值自适应的结果又下降了12.69％，相比于非特定人模型的情况则下降了33.11％。此方法仅仅使用说话人提供的100句，约5分钟的语音数据就实现了对协方差阵的自适应，并使系统的识别性能有了显著提高。

Claims

1、一种基于高斯相似度分析的说话人自适应方法，包括一个自适应前非特定人隐含马尔可夫模型的训练步骤，其特征在于：所述的方法还包括：

一个自适应前由所说的非特定人隐含马尔可夫模型参数，根据高斯相似测度建立起了描述隐含马尔可夫模型状态观测概率在特征空间分布形状关系的二叉决策树的步骤：先将该非特定人模型的所有状态对应的协方差矩阵放入根节点，计算根节点的中心矩阵，接着用K均值算法将根节点中所包含的状态分成两部分，分别放入两个子节点中，然后对每个子节点重复分裂过程，如果当前节点中的状态数已经不够分解或低于预先设定的门限时就将此节点作为叶子节点，否则重复上述分裂过程直至得到所有的叶子节点，一个叶子节点对应一个协方差矩阵；

一个自适应时根据测试者提供的自适应数据决定自适应状态类的步骤：先根据自适应数据统计每个叶子节点的语音样本数目，如果数目少于事先确定的门限值，则上溯到其父节点，再统计父节点所有的语音样本数，如大于门限则停止，否则继续，直至对所有的叶子节点回溯停止，此时我们得到了适用于这批自适应数据的状态类；