CN1521728A

CN1521728A - 语音识别系统中的说话人自适应方法

Info

Publication number: CN1521728A
Application number: CNA031022065A
Authority: CN
Inventors: 及吴; 吴及; 王作英; 吕萍
Original assignee: TIANLANG SPEECH SOUND SCI-TECH Co Ltd BEIJING; Tsinghua University
Current assignee: TIANLANG SPEECH SOUND SCI-TECH Co Ltd BEIJING; Tsinghua University
Priority date: 2003-01-27
Filing date: 2003-01-27
Publication date: 2004-08-18
Anticipated expiration: 2023-01-27
Also published as: CN1221939C

Abstract

本发明提供了一种语音识别系统中的说话人自适应方法，称为最大高斯相似度协方差矩阵线性插值方法，能够克服基于高斯相似度的二叉决策树方法中在自适应数据极少的情况下的缺点。本发明主要步骤是：自适应前，首先与基于高斯相似度分析的二叉决策树自适应方法一样，根据非特定人模型建立起协方差矩阵二叉决策树；然后，按照该决策树计算在各特定人模型下中间节点对应的类中心矩阵。自适应时，先由测试者提供的数据量决定，在哪些中间节点上进行插值自适应，接着根据每一待插值的中间节点对应的自适应数据，计算插值系数，最后计算自适应后的类中心矩阵，更新协方差矩阵，得到自适应模型。

Description

语音识别系统中的说话人自适应方法

技术领域

本发明涉及一种语音识别技术领域中的说话人自适应方法，尤其涉及一种对协方差阵的说话人自适应方法。

背景技术

语音识别技术经过半个多世纪的发展，取得了长足的进步，逐渐走出实验室环境进入到实际应用中来。其中，从特定人(Speaker Dependent，SD)语音识别到非特定人(Speaker Independent，SI)语音识别，极大扩展了语音识别技术的应用空间。然而，就同一说话人而言，SI系统的性能通常远远低于训练充分的SD系统，这是因为，SD系统的声学模型是由单个说话人的数据训练得到的，很好的反应了该说话人的特性，而SI系统的训练集中则包含了尽可能多的不同说话人的语音数据，相应的声学模型是多说话人的平滑模型，所以SI系统识别性能的降低是难以避免的。为弥补SI系统的这一缺陷，人们开始研究说话人自适应技术。说话人自适应技术的目标是，利用新说话人的语音数据调整语音特征或声学模型参数，使之尽可能的与新说话人匹配，使自适应后的系统性能尽可能趋近SD系统性能。

模型自适应是说话人自适应中最常采用的技术，如图1所示，它根据新说话人提供的语音数据，按照某种变换关系调整SI系统的声学模型参数(均值或协方差)，此时的模型称为说话人自适应(Speaker adapted，SA)模型。得到SA模型后，系统将通过它来识别该说话人的其它语音信号，这样的系统称为说话人自适应系统(图2所示)。

从二十世纪八十年代开始，提出了多种说话人模型自适应方法。大致可以分为两大类：基于贝叶斯估计的和基于变换的自适应；相应的典型算法有：最大后验概率(Maximum A Posterior，MAP)和最大似然线性回归(MaximumLikelihood Linear Regression，MLLR)算法。随着语音识别在应用领域的发展，快速自适应技术受到越来越多的关注，其基本思想是：结合MAP和MLLR算法，充分利用语音识别单元间的相关性，减少参数估计的数目。

基于高斯相似度分析的二叉决策树自适应方法属于基于变换的自适应方法，针对协方差阵进行自适应，其基本思想是：一组较相似的协方差矩阵无论在自适应前还是自适应后，它们的相似关系不变，因此它们在自适应时共享相同的变换方程，而这组协方差矩阵是由二叉决策树动态确定的。该方法提出了一种利用少量数据进行协方差阵自适应的一种有效方法，使自适应模型的识别性能最终可以逼近特定人模型的效果。但是这种方法也有不足之处，即在自适应过程中，至少需要估计一个中心节点矩阵(即根节点矩阵)，在自适应数据极少的情况下，难以稳定地估计一个矩阵，则导致负的自适应效果，即自适应后的系统性能反而会低于基线系统性能。

发明内容

本发明的目的在于提出了一种新的快速协方差自适应方法，以克服基于高斯相似度的二叉决策树方法中在自适应数据极少的情况下的缺点。

为达到上述目的，本发明是这样实现的：本发明包括一个自适应前非特定人隐含马尔可夫模型的训练步骤；

一个自适应前建立该非特定人隐含马尔可夫模型状态协方差矩阵的二叉决策树的步骤；

一个自适应前计算二叉决策树每个中间节点的类中心协方差矩阵及其与对应的各叶子节点协方差矩阵间的变换关系的步骤；

一个自适应前多个特定人隐含马尔可夫模型的训练步骤；

一个自适应前根据该二叉决策树计算在各特定人模型下中间节点对应的类中心矩阵的步骤；

一个自适应时根据测试者提供的自适应数据决定自适应类的步骤；

一个对每个自适应类根据自适应数据用最大似然方法估计类中心矩阵的步骤；

一个对每个自适应类计算最优插值系数的步骤；

一个对每个自适应类以特定人模型类中心矩阵的最大似然估计值和其对应插值系数计算自适应后的类中心协方差矩阵；

一个更新每个自适应类的协方差矩阵，得到说话人自适应模型的步骤。

所述的对每个自适应类计算最优插值系数的步骤中，计算准则是高斯相似度最大，即：使由线性插值得到的中间节点的类中心矩阵，与该步骤的前一个步骤得到的类中心矩阵的相似程度最大。

在本发明中，所说的用于插值的协方差矩阵，并不仅仅是HMM状态的协方差矩阵，还包含二叉树的各中间节点类中心的协方差矩阵，中间节点代表了其对应的所有叶子节点，故对其进行插值后，其对应的所有叶子协方差矩阵都会被自适应。利用中间节点的类质心进行插值的另一个优点是，可以根据自适应数据量的多少动态决定用于插值中间节点的数目，这样在保证快速自适应的同时，改善了算法的渐进性。

附图说明

图1为模型自适应方法的流程示意图；

图2为经过模型自适应后的语音识别系统的流程图；

图3为本发明实施例的自适应前的流程图；

图4为本发明实施例中建立二叉决策树的流程图；

图5为图4所示K均值方法分裂节点的流程图；

图6为本发明实施例的自适应时的流程图。

具体实施方式

以下结合附图和具体实施例对本发明做进一步的阐述：

图3至图6所示实施例实现了本发明最优的一种实施例。

自适应前，图3所示训练一个非特定人隐含马尔可夫模型(以下简称SI模型)，然后以式(3)为协方差矩阵间的距离测度(即高斯相似度)，采用自顶向下的K均值方法建立一棵隐含马尔可夫模型(HMM)状态协方差矩阵的二叉决策树，并计算各状态与类中心协方差矩阵间的变换关系A_i，Ф，如图4所示，先将待适应模型的所有状态对应的协方差矩阵放入根节点，依据公式(1)计算该节点的中心矩阵C_Φ，接着用K均值算法将根节点分成两个子节点，重复分裂过程，如果当前节点中的状态数已经不够分解或低于预先设定的门限时就将此节点作为叶子节点，否则重复上述分裂过程直至得到所有的叶子节点，一个叶子节点对应一个协方差矩阵，最后根据公式(2)计算类中心矩阵C_Φ与对应的各叶子节点协方差矩阵间的变换关系阵A_i，Φ。

C_{Φ} = \underset{i &Element; Φ}{Σ} (\frac{Σ_{i}^{1 / 2}}{N_{Φ}}),

其中N_Φ是集合Φ中叶子节点的个数 (1)

A_{i, Φ} = Σ_{i}^{- 1 / 2} {[Σ_{i}^{1 / 2} C_{Φ} Σ_{i}^{1 / 2}]}^{1 / 2} Σ_{i}^{- 1 / 2} - - - i &Element; Φ - - - (2)

d (x, y) - tr (Σ_{x} + Σ_{y} - 2 {[Σ_{x}^{1 / 2} Σ_{y} Σ_{x}^{1 / 2}]}^{1 / 2}) - - - (3)

K均值方法的描述如下：空间中有n个点X₁，X₂…X_n，给定类的个数K(本发明中K＝2)，设这些类为C₁，C₂…C_K，将n个点分到K个类中去，使得类内对象之间的相似性最大，而类之间的相似性最小。如图5，其步骤是：

1、先选取K个初始类中心，记为C₁，C₂…C_K；

2、根据函数(3)分别计算每个点到这些类中心的距离d(X_i，c_j)，寻找距离最小的类中心c_l，即：d(X_i，c_l)≤d(X_i，c_j)，j∈1，2，…K，j≠l，1≤l≤K，则认为X_i∈C_l，即X_i是属于l类的点，如此，确定所有点的归属；

3、计算总的距离测度：

D = Σ_{i, j}^{n, m} \min_{1 \leq j \leq K} d (X_{i}, c_{j});

4、根据分类的结果，利用每类的点重新计算类中心。

5、利用新的类中心，再计算空间各点的归属，并计算得到更新的总距离测度D_new；

6、比较两次得到的总距离测度，如果差别足够小，则停止迭代，得到最后的分类方式和类中心，否则继续迭代，重复2-5步。

这样，我们就由待自适应的HMM模型参数，根据高斯相似测度建立起了描述HMM状态观测概率在特征空间分布形状关系的二叉决策树，该决策树上的每个节点所包括的状态是在高斯相似度意义下观测概率分布之间距离较小的状态，即这些分布在特征空间的分布形状上比较相似。这棵二叉树实际上就是状态观测概率分布在特征空间的一种结构性描述。

其次，在自适应前，训练多个特定人隐含马尔可夫模型(以下简称SD模型)，然后，按照上述决策树计算在各SD模型下中间节点对应的类中心C^(s) _Φj，(s＝1，...，S，j＝1，...，J)，其中S为SD模型的数目，J为中间节点的总数，如图3所示。

自适应时，首先根据测试者提供的自适应数据决定自适应类数量，方法是：先根据自适应数据统计每个叶子节点的语音样本数目，如果数目少于事先确定的门限值，则上溯到其父节点，再统计父节点所有的语音样本数，如大于门限则停止，否则继续，直至对所有的叶子节点回溯停止，此时我们得到了适用于这批自适应数据的状态类。这种由自适应数据来动态选择状态类的方法，称之为数据驱动。上述门限的选择对于从有限的自适应数据中得到最好的自适应效果是至关重要的，由于自适应数据是有限的，所以如果门限较小，状态类中就可能没有足够多的数据来进行类中心的估计，使估计出来的协方差阵不稳定，从而影响自适应的效果。如果门限太大，确定的状态类为数过少，会使对状态观测概率分布在特征空间结构关系的描述太过于粗糙，也难以收到很好的自适应效果。实验表明，在自适应数据十分有限的情况下，语音样本门限取在350至450之间是比较合适的。当然，自适应数据的增加对于自适应效果是会有好处的，最极端的情况是状态类的数目等于状态数，即每个状态类中只有一个状态，同时每个状态都有足够的数据来进行参数估计，这种情况就已经等同于特定人的协方差阵模型训练了，当然，如此多的语音数据只有在无监督的累进自适应时才可能出现。这也说明，本发明的极限性能是能够趋于特定人模型的性能的。

然后对于每个自适应类根据自适应数据和最大似然方法估计得到类中心矩阵具体方法描述如下：假设二叉决策树中某节点包含的叶子节点(即HMM状态)为s₁，s₂，...，s_n，每个状态根据相应的自适应数据，按式(4)统计二阶统计量C(s_i)：

C (s_{i}) = Σ_{t = 1}^{T (s_{i})} (o_{t} - μ_{s_{i}}) {(o_{t} - μ_{s_{i}})}^{T} - - - (4)

其中T(s_i)是状态s_i对应的自适应总帧数。再根据式(5)将各状态的统计二阶统计量变换到中间节点对应的空间中，并得到最大似然估计

{\tilde{C}}_{Φ} = \frac{1}{\underset{i &Element; Φ}{Σ} T (s_{i})} \underset{i &Element; Φ}{Σ} {(A_{i, Φ})}^{- 1} C (s_{i}) {(A_{i, Φ})}^{- 1} - - - (5)

接着对每个自适应类计算最优插值系数，计算准则是高斯相似度最大，即：使由线性插值得到的中间节点的类中心矩阵，与该步骤的前一个步骤得到的类中心矩阵的相似程度最大。假设只有一个自适应类，该算法中的目标函数为式(6)：

J (α) = tr ({\tilde{C}}_{Φ} + Σ_{s = 1}^{S} α_{s} {C_{Φ}}^{(s)} - 2 [{({\tilde{C}}_{Φ})}^{1 / 2} (Σ_{s = 1}^{S} α_{s} {C_{Φ}}^{(s)}) {({\tilde{C}}_{Φ})}^{1 / 2}) - - - (6)

用梯度投影法求解插值系数，而梯度投影法中主要要计算两个导数：即式(7)和(8)所示的导数。利用(7)和(8)式，得到最优的组合系数

α^{*} = \underset{α &Element; Ω}{\arg \min} J (α) .

{&dtri;}_{α} J (α) = [\begin{matrix} tr ({C_{Φ}}^{(1)}) \\ tr ({C_{Φ}}^{(2)}) \\ tr ({C_{Φ}}^{(S)}) \end{matrix}] - [\begin{matrix} tr ({\tilde{C}}_{Φ}^{1 / 2} {(Σ_{s = 1}^{S} α_{s} {C_{Φ}}^{(s)})}^{- 1 / 2} {C_{Φ}}^{(1)}) \\ tr ({\tilde{C}}_{Φ}^{1 / 2} {(Σ_{s = 1}^{S} α_{s} {C_{Φ}}^{(s)})}^{- 1 / 2} {C_{Φ}}^{(2)}) \\ ._{.}^{.} \\ tr ({\tilde{C}}_{Φ}^{1 / 2} {(Σ_{s = 1}^{S} α_{s} {C_{Φ}}^{(s)})}^{- 1 / 2} {C_{Φ}}^{(S)}) \end{matrix}] - - - (7)

{&dtri;}_{T} J (α + τd) = Σ_{s = 1}^{S} tr (d_{s} {C_{Φ}}^{(s)}) - Σ_{s = 1}^{S} tr (d_{s} \cdot {({\tilde{C}}_{Φ})}^{1 / 2} {(Σ_{s = 1}^{S} (α_{s} + {τd}_{s}) {C_{Φ}}^{(s)})}^{- 1 / 2} {C_{Φ}}^{(s)}) - - - (8)

将得到的插值系数和各SD模型的类中心C_Ф ^(s)，(s＝1，…S)，按照(9)式计算自适应后的类中心C_Ф ^(SA)；

{C_{Φj}}^{(SA)} = Σ_{s = 1}^{S} α_{s, j} \cdot {C_{Φj}}^{(s)} (j = 1, . . ., N_{J}) - - - (9)

其中：

j表示中间节点；

N_J为待插值的中间节点的总数，即总的自适应类数，由自适应数据动态确定；

Φ_j表示节点j对应的叶子节点(即状态)的集合；

C_Фj ^(s)表示第s个SD模型的第j个中间节点；s＝1，2，...，S，S为总的SD模型数；

α_j＝{α_s，j|s＝1，2，...，S}代表第j个中间节点对应的线性插值系数。

用上一步骤得到的自适应后的类中心C_Φ ^(SA)，按照(10)式更新协方差矩阵，得到说话人自适应模型(SA模型)。本发明只自适应协方差矩阵，模型中的均值矢量保持不变。

{Σ_{i}}^{(SA)} = A_{i, Φj} {C_{Φj}}^{(SA)} A_{i, Φj} - - - i &Element; Φ_{j} - - - (10)

本发明将最大似然模型插值算法应用到协方差矩阵的快速自适应上，所以又可称为最大高斯相似度协方差矩阵线性插值方法，它克服了基于高斯相似度的二叉决策树方法在自适应数据极少的情况下，由于难以稳定地估计一个矩阵而导致负的自适应效果的缺陷，具有很大的推广和应用价值。

Claims

1、一种语音识别系统中的说话人自适应方法，包括：

一个自适应前非特定人隐含马尔可夫模型的训练步骤；

一个对每个自适应类计算自适应后的类中心协方差矩阵的步骤；

一个更新每个自适应类的协方差矩阵，得到说话人自适应模型的步骤；

其特征在于：所述的语音识别系统中的说话人自适应方法还包括：

一个自适应前多个特定人隐含马尔可夫模型的训练步骤；

一个自适应前根据所述二叉决策树计算在各特定人模型下中间节点对应的类中心矩阵的步骤；

一个自适应时对每个自适应类计算最优插值系数的步骤；

所述的对每个自适应类计算自适应后的类中心协方差矩阵的步骤是以特定人模型类中心矩阵的最大似然估计值和其对应插值系数计算的。

2、如权利要求1所述的语音识别系统中的说话人自适应方法，其特征在于：所述的对每个自适应类计算最优插值系数的步骤中，计算准则是高斯相似度最大，即：使由线性插值得到的中间节点的类中心矩阵，与该步骤的前一个步骤得到的类中心矩阵的相似程度最大。