CN102237082B

CN102237082B - 语音识别系统的自适应方法

Info

Publication number: CN102237082B
Application number: CN201010175678.5A
Authority: CN
Inventors: 史媛媛
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2010-05-05
Filing date: 2010-05-05
Publication date: 2015-04-01
Anticipated expiration: 2030-05-05
Also published as: CN102237082A

Abstract

一种语音识别系统的自适应方法，所述方法包括：确定输入的语音信号的内容差异参数，以确定输入的语音信号在树形结构的高层、中间层和低层的数据累积程度；从适于使用树形结构的高层的类的第一自适应方法、中间层的类的第二自适应方法和低层的类的第三自适应方法中选择满足了数量累积条件的自适应方法，以执行自适应，其中，对语音识别系统的特征空间中的声音单元建立所述树形结构，从而以树形结构的形式对声音单元进行聚类。

Description

语音识别系统的自适应方法

技术领域

本发明涉及语音识别技术，更具体地讲，涉及语音识别的自适应方法。

背景技术

近年来，语音识别技术已经取得了显著进步，在实验室环境下，识别精度已经高达95％。近来，语音识别技术开始从实验室走向市场，并逐渐进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

然而，语音识别系统的性能受许多因素的影响，这些因素包括不同的说话人、说话方式、环境噪音、传输信道等。当需要被识别的语音与训练语音识别系统时的条件不同时，该语音不能被很好地识别。

解决该问题的一个方案是利用尽可能多的数据进行训练，使得语音识别系统尽可能多地记住现实世界中存在的各种影响因素，从而提高识别精度。然而，要收集与各种影响因素有关的数据资源投入大，成本高。因此，寻找实现成本低，高效的解决方案一直是语音识别专业领域的研发课题之一。

解决该问题的另一个方案是自适应技术。一个典型的自适应方案是：用户在使用语音识别系统进行识别语音之前读取一些测试语句，从而语音识别系统根据这些测试语句的语音信号更新语音识别系统的参数来更好的适应该用户的语音。这样，同一用户在使用语音识别系统进行识别语音时，能够获得较高的识别精度。显然，上述两个方案中自适应技术所需的成本更小，并且更适于处理各种应用场景中的多种变化因素。

图1和图2示出现有技术的两种自适应识别系统。

在图1中，语音识别系统100包括：前端处理单元110、特征提取单元120、解码单元130、网格重计分(lattice re-scoring)单元140和自适应单元150。

前端处理单元110接收原始语音信号(例如，用户通过麦克风输入的原始语音信号)，并对其进行前端处理(例如，区分语音和非语音信号时段、去除噪声等)。前端处理是指对原始语音信号进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。

特征提取单元120从执行过前端处理的语音信号逐帧地提取特征，从而输出特征帧。特征提取必须在一段语音信号上进行，也即进行短时分析。这一段语音信号被认为是平稳的分析区间，被称之为帧。特征提取单元120通常提取Mel频率倒谱系数(MFCC)等特征。

解码单元130利用提取的特征帧和声学模型(AM)，以格(lattice)的形式输出发音假设(pronunciation hypothesis)(即，发音格(pronunciationlattice))。具体地说，解码单元130基于输入的特征帧在AM模型空间中进行搜索，以定位最佳的一个或多个以声音表示符号表示的发音假设(即，发音候选)(例如，以拼音或音标形式表示的特征帧)，从而输出该最佳的发音假设。网格表示发音的几种不同路径。

网格重计分单元140利用语言模型(LM)和发音网格输出最后识别出的以文字(例如，汉字)表示的语音。

自适应单元150根据用户输入的测试语句的语音信号来更新解码单元130所使用的AM模型的参数，从而该AM模型能够更好地适应特定的用户以及使用环境。

在图2中，语音识别系统200包括：前端处理单元210、特征提取单元220、图(graph)解码单元230、自适应单元240、字素音素转换(grapheme-to-phoneme，G2P)单元250。

前端处理单元210、特征提取单元220和自适应单元240分别与图1中的前端处理单元110、特征提取单元120和自适应单元150相同，将不再赘述。

图表解码单元230利用AM和LM直接输出文字假设(即，最终识别的以文字(例如，汉字)表示的语音，例如，汉字)。

字素音素转换单元250将图表解码单元230输出的文字假设转换为以声音表示符号表示的发音假设(即，网格假设)。

常用的自适应方法包括：本征空间(eigen space)方法、最大后验概率(MAP)方法、基于变换的自适应算法(例如，最大似然线性回归算法(MLLR))等。

本征空间方法可以快速的实现自适应，然而基于本征空间的自适应方法的缺点是存在饱和度的问题。即，当输入的测试语音达到一定量后，自适应的结果不再改善。例如，第2002010444号美国专利申请公开了一种基于本征空间的自适应方法，利用该方法当输入的测试语音多于10秒之后，自适应后的系统的性能不再改善。

此外，虽然MAP方法和MLLR不存在饱和度的问题，然而却需要足够量或预定量的测试语音数据才能实现自适应处理。

理想的自适应处理应具有如下特性：速度快，即，需要输入少量的测试语音数据就可以通过自适应增强语音识别系统的适应性，从而提高识别精度；无人监督，即，不需要知道实际的语音内容来进行自适应；不存在饱和度的问题，即，测试语音数据越多，自适应后的语音识别系统的识别精度越高。然而，现有技术的自适应技术都无法实现少量的测试语音数据就可实现高效的自适应同时不存在饱和度的问题。

发明内容

本发明的目的在于提供一种语音识别的自适应方法，从而使语音识别系统的自适应处理能够实现如下特性：速度快，即，需要输入少量的测试语音数据就可以通过自适应增强语音识别系统的适应性，从而提高识别精度；无人监督，即，不需要知道实际的语音内容来进行自适应；不存在饱和度的问题，即，测试语音数据越多，自适应后的语音识别系统的识别精度越高。

本发明的一方面提供一种语音识别系统的自适应方法，包括：确定输入的语音信号的内容差异参数，以确定输入的语音信号在树形结构的高层、中间层和低层的数据累积程度；从适于使用树形结构的高层的类的第一自适应方法、中间层的类的第二自适应方法和低层的类的第三自适应方法中选择满足了数据累积条件的自适应方法，以执行自适应，其中，对语音识别系统的特征空间中的声音单元建立所述树形结构，从而以树形结构的形式对声音单元进行聚类。

所述输入的语音信号可在自然语音时间段期间或固定时间段期间被输入。

内容差异参数可以是对类累积的高斯混合的似然度AGML-C和对节点下的类累积的高斯混合的似然度AGML-N中的至少一个中的至少一个。

AGML-C表示：关于语音信号的预定特征帧，在所述树形结构中的一个类中的所有状态的所有高斯混合的似然度的累计值。

AGML-N表示：关于语音信号的预定特征帧，所述树形结构中的一个节点下的所有类的AGML-C之和。

第一自适应方法可以是本征空间方法；第二自适应方法可以是线性变换方法；第三自适应方法可以是最大后验概率方法。

所述方法还可包括：确定输入的语音信号的数据量参数，基于输入的语音信号的数据量和内容差异参数来选择自适应方法，即，选择满足了数据量条件和数据累积条件的自适应方法。

数据量参数可以是所述输入的语音信号的所有特征帧的时间长度。

确定数据累积程度并根据内容差异参数来选择自适应方法的步骤包括：确定数据量参数是否大于第一阈值；当确定数据量参数不大于第一阈值时，选择第一自适应方法；当确定数据量参数大于第一阈值时，确定关于输入的语音信号中的预定特征帧，所述树形结构的中间层的所有类的AGML-C是否都大于第二阈值；当确定不都大于第二阈值时，选择第一自适应方法。

当确定都大于第二阈值时，选择第二自适应方法。

当确定都大于第二阈值时，确定关于所述预定特征帧所述树形结构的低层的所有类的AGML-C是否都大于第三阈值；当确定都大于第三阈值时，选择第三自适应方法；当确定不都大于第三阈值时，选择第二自适应方法。

当确定都大于第二阈值时，确定关于所述预定特征帧所述树形结构的中间层的所有节点的AGML-N是否都大于第四阈值；当确定都大于第四阈值时，选择第三自适应方法；当确定不都大于第四阈值时，选择第二自适应方法。

根据所述内容差异参数确定所述数据累积程度并根据所述数据累积程度来选择自适应方法的步骤包括：确定关于输入的语音信号中的预定特征帧，所述树形结构的中间层的所有类的AGML-C是否都大于第五阈值；当确定不都大于第五阈值时，选择第一自适应方法。

当确定都大于第五阈值时，可选择第二自适应方法；

当确定都大于第五阈值时，可确定关于所述预定特征帧所述树形结构的低层的所有类的AGML-C是否都大于第六阈值；当确定都大于第六阈值时，选择第三自适应方法；当确定不都大于第六阈值时，选择第二自适应方法。

当确定都大于第五阈值时，可确定关于所述预定特征帧所述树形结构的中间层的所有节点的AGML-N是否都大于第七阈值；当确定都大于第七阈值时，选择第三自适应方法；当确定不都大于第七阈值时，选择第二自适应方法。

本征空间方法包括：提取所述树形结构中不同类中的声音单元的高斯分布参数；通过将一个类中的不同声音单元的高斯分布参数中的“平均值”的向量连接成一个“平均值”超向量来建立超向量空间，其中，对不同的类建立不同的超向量空间；从不同的类的超向量空间提取不同的类的本征向量；基于输入的语音信号来估计不同的类的最优本征系数；基于不同的类的最优本征系数获得不同的类的新的“平均值”超向量，以根据所述新的“平均值”超向量对“平均值”进行更新。

当存在至少两个满足数据累积条件的自适应方法时，可选择与较低的层相应的自适应方法来执行自适应。

本发明的另一方面提供一种语音识别系统的自适应方法，包括：确定输入的语音信号的内容差异参数，以确定输入的语音信号在树形结构的各个层的数据累积程度；从适于使用树形结构的各个层的类的各个自适应方法中选择满足了数量累积条件的自适应方法，以执行自适应，其中，对语音识别系统的特征空间中的声音单元建立所述树形结构，从而以树形结构的形式对声音单元进行聚类。

在本发明中，根据输入到语音识别系统中的语音信号的数据量特征以及内容差异特征，来选择适用于在不同数量的聚类上执行自适应的方法，从而解决了存在自适应性能的饱和度和自适应速度的问题。并且随着语音识别系统的使用不断执行自适应，而不需要利用专门的测试数据进行自适应的过程，实现了自适应的无人监督。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的、特点和优点将会变得更加清楚，其中：

图1和图2示出现有技术的语音识别系统的框图；

图3示出根据本发明的实施例的语音识别系统的自适应的方法的流程图；

图4示出根据本发明的实施例的利用输入的语音信号的特征确定自适应方法的流程图；

图5示出根据本发明的另一实施例的利用输入的语音信号的特征确定自适应方法的流程图；

图6示出根据本发明的又一实施例的利用输入的语音信号的特征确定自适应方法的流程图；

图7示出根据本发明的再一实施例的利用输入的语音信号的特征确定自适应方法的流程图；

图8示出根据本发明的实施例的本征空间方法的离线处理的流程图；

图9示出根据本发明的实施例的本征空间方法的在线处理的流程图。

具体实施方式

现在，将参照附图更充分地描述不同的示例实施例。

在声学模型(AM)中，特征空间中的声音单元(acoustic unit)的特征分布一般使用高斯混合(Gaussian mixture)分布，即多个高斯的线性加权组合，来建立模型。在本发明中，通过更新高斯分布的参数来更新AM的参数，从而实现语音识别系统的自适应。即，高斯分布的参数作为AM的参数被更新，从而进行自适应。

通常，以不同的级别来定义声音单元。在小型语音识别系统中，以音节来定义声音单元。在大型语音系统中，以音素来定义声音单元。根据声音识别系统的复杂度和任务要求，存在不同数量的声音单元。隐马尔可夫模型(HMM)被广泛用于声音单元的AM的建模。每个HMM包括一个状态序列，该状态序列包括多个状态。每个状态通过高斯混合分布(即，线性加权的多高斯)被建模。

在本发明中，根据声音单元的相似度，利用树形结构对声音单元进行分类或聚类。作为第一层的树的根节点表示所有的声音单元，在树的其他层，逐层对声音单元进行进一步分类。例如，可以建立三层的树，根节点表示所有的声音单元，第二层包括两个节点，其中，一个节点表示所有的元音，另一节点表示所有的辅音，第三层为作为叶节点的每个元音和辅音。可以以这样的方式建立树，即，逐层进行分类，直到无法再分类为止，此时的节点为树的叶节点。树的层数取决于具体的分类方式。

可以利用不同的树产生算法来建立树(例如，语音识别技术中常用的决策树)。由于利用树形结构对声音单元进行分类是公知的技术，将不再进行赘述。与现有技术中建立树的目的是用于训练不同的是，在本发明中，建立树的目的是以分层形式对声音单元进行建模，以用于AM的自适应。根节点表示所有的声音单元(即，所有声音单元被分为一类)，叶节点表示最基本的声音单元(即，每个声音单元作为一类)，在其他层，声音单元被不同地分类，每个节点表示一类。

鉴于声音单元通过HMM建模，而HMM通过一系列状态的高斯混合分布建模。因此，一个声音单元在特征空间的分布是由这一系列状态对应的高斯分布来表达的。当树形结构的节点对应了不同的声音单元的聚类时，在特征空间上，聚到一类的声音单元所对应的高斯分布也就被归并为一类。这些高斯分布是通过参数共享的方式被训练(参数共享的训练算法是公知的，将不再赘述)，继而进行自适应参数调整的。

在本发明中，基于声音单元的树形结构来执行语音识别系统的自适应。更具体地说，高层(即，接近根节点)的类，用于利用本征空间方法来执行自适应；中间层的类，用于利用线性变换方法来执行自适应；低层的类，用于利用最大后验概率(MAP)方法来执行自适应。

应该理解，这里高层、中间层和低层的每个可以不限于一个层，不应仅将树形结构理解为包括三个层。也即，将树形结构的层分为高层、中间层和低层三个部分。

图3示出根据本发明的实施例的语言识别系统的自适应方法的流程图。

在步骤301，计算输入的语音信号的特性参数，即，数据量参数和内容差异参数。内容差异参数可以是例如，对类累积的高斯混合的似然度(AGML-C)、对节点下的类累积的高斯混合的似然度(AGML-N)。

数据量表示输入的语音信号的数据量的大小。等式1示出计算数据量的一个示例。

D (T) = \underset{frm}{Σ} d (frm) - - - (1)

其中，d(frm)表示特征帧frm的时间长度，D(T)表示输入的语音信号的所有T个特征帧frm的时间长度。

上述输入的语音信号可以是在自然语音时间段(例如，输入的语音信号中的一句话、一段话等，判断自然语音时间段的技术是公知的，将不再赘述)或者固定的时间段期间输入的。此外，也可以使用其他任意时间间隔期间输入的语音信号来执行自适应，但优选使用自然语音时间段。由于使用不同的时间段输入的语音信号来进行自适应，从而实现了自适应的无人监督。

AGML-C表示：关于输入的语音信号的预定特征帧，在声音单元的树形结构中的一个类的所有状态的所有高斯混合的似然度的累计值。可通过等式2来计算AGML-C：

R_s，m＝∑r_s，m(t) (2)

这里，r_s，m(t)表示关于输入的语音信号中的第t个特征向量，状态s的高斯混合m的似然度。

对于不与所述预定特征向量的发音假设相应的状态s，r_s，m(t)＝0。换句话说，由于输入的语音信号的发音假设可能不会对应于所有类包含的所有状态，此时对这些没有对应的发音假设的状态的高斯混合累积的高斯混合的似然度为零。因此对于不等于0的AGML-C也可以认为是：对存在与预定时刻t的发音假设相应的状态的一个类中的所述相应状态的所有高斯混合的似然度进行累积。

对于与所述预定特征向量的发音假设相应的状态s，r_s，m(t)可通过下面的等式3被表示：

r_{s, m} (t) = \underset{S_{1}, S_{2}, \cdot \cdot \cdot, S_{t - 1}, S_{t + 1}, \cdot \cdot \cdot, S_{T} = q; S_{t} = (s, m)}{Σ} \log (p (O, S_{1}, S_{2}, \cdot \cdot \cdot, S_{t}, \cdot \cdot \cdot, S_{T} | Φ)) / \log (p (O | Φ)) - - - (3)

这里，O是输入的语音信号的特征序列，S_t是第t个特征向量对应的状态s的高斯混合m，“S₁，S₂，…，S_t-1，S_t+1，…，S_T＝q；S_t＝(s，m)”表示第t个特征向量必须对应状态s的高斯混合m，而其它的特征向量可以对应任意状态q。这样，与T个特征向量构成的特征向量序列对应的状态序列就有很多种可能性。求和公式即对所有这些可能状态序列的似然度求和。Ф是语音识别器的参数空间。

计算等式(3)时，需要明确第t特征向量对应的是哪一个状态，这个信息通过与第t个特征向量对应的发音假设得到。通过与特征序列对应的发音假设序列，由于发音单元由HMM建模，就得到了对应HMM序列的状态序列，进而得到第t个特征向量对应的具体状态。

AGML-N表示：关于预定特征帧，在声音单元的树形结构中，对一个节点下的所有类累积的高斯混合的似然度，也即，一个类的所有子类的所有状态的所有高斯混合的似然度的累计值或者一个类的所有子类的AGML-C之和。可利用获取AGML-C的方式，来获取一个节点下的每个类的AGML-C。

在步骤302，基于在步骤301计算的数据量和内容差异参数，确定使用的自适应方法，即，确定使用本征空间方法、线性变换方法和MAP方法之一。

具体地说，对于本征空间方法、线性变换方法和MAP方法，所使用的类依次远离树形结构的根节点，需要的数据量依次增多。因此，可以根据数据量来判断使用的自适应方法。即，对于数据量小的语音信号，可利用本征空间方法；对于数据量大的语音信号，可利用基于MAP方法；对于数据量中等的语音信号，可利用线性变换方法。根据语音识别系统的不同，可根据实验的方式来确定具体的用于进行判断的数据量的阈值。

然而，对于同样数据量的语音信号，其语音内容的差异可能是不同的。例如，一段时间较长但内容重复的语音信号，尽管其数据量较大，但由于内容重复，因此其有效的数据量仍然不多，也即，实际上对应于语音单元的树形结构的类仍然接近根节点。因此，仍适于本征空间方法。因此，仅利用数据量不能精确地判断使用哪种方法。因此，需要输入的语音信号的内容差异参数来矫正。

内容差异参数越大，则输入的语音信号在树形结构的各个层的数据累积程度越大。即，随着内容差异参数的增大，按照层的从高到低的次序，依次满足与层对应的自适应方法所需的数据累积。具体地说，在本实施例中，随着内容差异参数的增大，依次满足本征空间方法、线性变换方法和MAP方法的数据累积条件。

应该理解，在树形结构中，对同一输入的语音信号，在某个层的数据累积程度比该层之上的层的数据累积程度低。

作为本发明的内容差异参数的AGML-C和AGML-N能够体现语音信号的内容的差异程度。具体地说，AGML-C体现了语音信号的内容在每个具体的类的高斯混合估计的数据累积充分程度，一个类累积的高斯混合的似然度越大说明在这个类的数据累积程度越高。AGML-N体现了语音信号的内容的在每个节点的子节点或者说在发音单元的每个类的子类上的数据累积的充分程度。因此，可以进一步利用AGML-C和/或AGML-N来矫正利用数据量判断的结果。

尽管使用了AGML-C和AGML-N作为内容差异参数。然而，本领域的技术人员可以理解，也可以利用其他反映语音信号的内容的差异程度的参数来代替AGML-C和AGML-N。

此外，也可仅利用数据差异参数，选择满足了数据累积条件的自适应方法来执行自适应。

在本发明中，当确定存在至少两个可用的自适应方法时，可根据需要来进行选择。此时，越低的层对应的自适应方法精度越高，越高的层对应的自适应方法速度越快。

图4示出根据本发明的实施例的利用输入的语音信号的特征确定自适应方法的流程图。

在步骤401，获取输入的语音信号的数据量。

在步骤402，确定数据量是否大于第一阈值。

当在步骤402确定数据量不大于第一阈值时，在步骤403使用本征空间方法来执行自适应。

当在步骤402确定数据量大于第一阈值时，在步骤404确定关于输入的语音信号中的预定特征帧树形结构的中间层的所有类的AGML-C是否都大于第二阈值。

当在步骤404确定不都大于第二阈值时，在步骤405使用本征空间方法执行自适应。

当在步骤404确定都大于第二阈值时，在步骤406使用线性变换方法执行自适应。

图5示出根据本发明的另一实施例的利用输入的语音信号的特征确定自适应方法的流程图。

在步骤501，获取输入的语音信号的数据量。

在步骤502，确定数据量是否大于第一阈值。

当在步骤502确定数据量不大于第一阈值时，在步骤503使用本征空间方法来执行自适应。

当在步骤502确定数据量大于第一阈值时，在步骤504确定关于输入的语音信号中的预定特征帧树形结构的中间层的所有类的AGML-C是否都大于第二阈值。

当在步骤504确定不都大于第二阈值时，在步骤505使用本征空间方法执行自适应。

当在步骤504确定都大于第二阈值时，在步骤506确定低层的所有类的AGML-C是否都大于第三阈值。当在步骤506确定不都大于第三阈值时，在步骤507使用线性变换方法执行自适应。当在步骤506确定都大于第三阈值时，在步骤508使用MAP方法执行自适应。

图6示出根据本发明的又一实施例的利用输入的语音信号的特征确定自适应方法的流程图。

在步骤601，获取输入的语音信号的数据量。

在步骤602，确定数据量是否大于第一阈值。

当在步骤602确定数据量不大于第一阈值时，在步骤603使用本征空间方法来执行自适应。

当在步骤602确定数据量大于第一阈值时，在步骤604确定关于输入的语音信号中的预定特征帧树形结构的中间层的所有类的AGML-C是否都大于第二阈值。

当在步骤604确定不都大于第二阈值时，在步骤605使用本征空间方法执行自适应。

当在步骤605确定都大于第二阈值时，在步骤606确定关于输入的语音信号中的预定特征帧中间层的所有节点的AGML-N是否都大于第四阈值。当在步骤606确定不都大于第四阈值时，在步骤607使用线性变换方法执行自适应。当在步骤606确定都大于第四阈值时，在步骤608使用MAP方法执行自适应。

可选择地，在另一实施例中，在步骤606确定中间层的所有节点的AGML-N是否都大于第四阈值和/或低层的所有类的AGML-C是否都大于第三阈值。当确定都大于第四阈值和/或都大于第三阈值时，使用MAP方法执行自适应；否则使用线性变换方法执行自适应。图7示出根据本发明的再一实施例的利用输入的语音信号的特征确定自适应方法的流程图。

在步骤701，获取输入的语音信号的数据量。

在步骤702，确定数据量是否大于第一阈值。

当在步骤702确定数据量不大于第一阈值时，在步骤703使用本征空间方法来执行自适应。

当在步骤702确定数据量大于第一阈值时，在步骤704确定关于输入的语音信号中的预定特征帧树形结构的高层的所有节点的AGML-N是否都大于第五阈值。

当在步骤704确定不都大于第五阈值时，在步骤705使用本征空间方法执行自适应。

当在步骤705确定都大于第五阈值时，在步骤706确定关于输入的语音信号中的预定特征帧中间层的所有节点的AGML-N是否都大于第六阈值。当在步骤706确定不都大于第六阈值时，在步骤707使用线性变换方法执行自适应。当在步骤706确定都大于第六阈值时，在步骤708使用MAP方法执行自适应。

可根据语音识别系统的不同，以实验的方式来确定上面所使用的阈值。所述输入的语音信号中的预定特征帧优选在输入的语音信号中的最末的特征帧。

在另外的实施例中，可不使用数据量来选择自适应方法。即，在图4-6示出的实施例中，可省略步骤401-403、501-503、601-603以及701-703。此时，仅利用输入的语音信号在各个层的数据累积程度来选择自适应方法。即，按照从高层到低层的次序，如果某层已经达到预定的数据累积程度，则即使比该层高的层也达到预定的数据累积程度，也使用与该层对应的自适应方法。

在图4-7示出的实施例中使用关于输入的语音信号中的预定特征帧的AGML-N和/或AGML-C来对基于数据量的判断结果进行修正。然而，这仅是示例性的。也可以利用其他方式来使用AGML-N和/或AGML-C。

例如，可获取关于输入的语音信号的所有特征帧的所有类的AGML-C，计算每个层的类的AGML-C之和。在一个示例中，确定与多个层对应的多个自适应方法中AGML-C之和能够使用满足的方法。可选地，如果高层的类的AGML-C之和最大，则选择本征空间方法；如果中间的类的AGML-C之和最大，则选择线性变换方法；如果低层的类的AGML-C之和最大，则选择MAP方法。

在本发明中，利用基于输入的语音信号的特征从本征空间方法、线性变换方法和MAP方法选择的一种方法来对高斯分布的参数进行更新或自适应。然而，上述三种方法仅是示例性的，其分别作为适合使用语音单元的树形结构的高层的类、中间层的类和低层的类的自适应方法的示例。因此，本领域的技术人员可以理解，也可以使用其他的适用于树形结构的高层的类、中间层的类和低层的类的自适应方法来代替本征空间方法、线性变换方法和MAP方法。可利用公知的本征空间方法、线性变换方法和MAP方法用于上述语音识别的自适应方法，将不再赘述。下面详述描述根据本发明的本征空间方法。

根据本发明的本征空间方法包括离线处理和在线处理。

在离线处理中，提取超向量空间的本征向量，在超向量空间中，超向量通过连接作为高斯分布的参数中的“平均值”的向量而形成。

图8示出离线处理的流程图。

具体地说，在步骤801，利用声音单元的树形结构，获取高斯分布参数的聚类信息，即，得到不同类中的不同声音单元的高斯分布参数。这里，高斯分布参数中的“平均值”向量将通过自适应进行被更新。在步骤802，通过将包括在由树形结构的一个类中的不同声音单元的高斯分布的“平均值”向量连接成一个“平均值”超向量a来建立超向量空间。对不同的类建立不同的超向量空间。在步骤803，从每个超向量空间提取一组本征向量。这样，在树形结构中存在多少类，就提取到多少组本征向量。每组本征向量展开为一个超向量空间。

等式(4)示出本征向量的提取公式。

\overset{&OverBar;}{a} = \frac{1}{R} Σ_{r = 1}^{R} a^{(r)}

S_{a} = \frac{1}{R} Σ_{r = 1}^{R} (a^{(r)} - \overset{&OverBar;}{a}) {(a^{(r)} - \overset{&OverBar;}{a})}^{T} = E_{a} Λ_{a} E_{a}^{T} - - - (4)

E_a＝[v⁽¹⁾…v^D]

其中，是超向量a的平均值向量，a^(r)是是语音资料库中说话人(r)的超向量，R是语音资料库中说话人的数量；S_a是超向量的平均值归一化发散矩阵，从该发散矩阵可提取本征向量和本征系数；E_a表示一组本征向量。

在在线处理中，使用输入的语音信号来估计最优本征系数，然后利用最优本征系数来获取新的超向量a，从而利用新的超向量a来更新“平均值”向量。

最优本征系数是通过输入的语音信号来估计的。等式5示出该最优化估计的优化目标函数。

{\hat{W}}_{a} = \underset{W_{a}}{\arg \max} p (O | a = \overset{&OverBar;}{a} + {\tilde{E}}_{a} W_{a}) - - - (5)

其中，O是从输入的语音信号提取的特征帧，是最优本征系数，W_a是本征系数，是本征向量，是“平均值”超向量的平均值，a是“平均值”超向量。因此，公式(5)表示对本征系数W_a进行最优化，使得特征帧O的观测概率最大化。满足该最大化条件的本征系数W_a即为最优本征系数

图9示出在线处理的流程图。

具体地说，在步骤901，关于输入的语音信号的各个特征帧累积各个类的高斯混合的似然值，其被表示为：

Σ_{t = 1}^{T} Σ_{j = 1}^{N} Σ_{k = 1}^{M} r_{jk} (t)

其中，T表示输入的语音信号的特征帧的数量，N表示类的状态的数量，j表示第j状态，M表示每个状态的高斯混合的数量，k表示第k高斯分布，r_jk(t)是第t个特征向量对应的状态j的高斯混合k的似然度积累量，可根据等式3计算。这里的与等式(2)表示的内容相同。

在步骤902，利用在步骤901获得的对不同类累积的高斯混合的似然度、超向量平均值以及在离线处理中获得的本征向量，来估计最优本征系数。等式5的结果可通过等式6给出计算公式来计算。

Σ_{t = 1}^{T} Σ_{j = 1}^{N} Σ_{k = 1}^{M} r_{jk} (t) {(O (t) - {\overset{&OverBar;}{a}}_{jk})}^{T} Σ_{jk}^{- 1} v_{jk}^{(i)} = Σ_{t = 1}^{T} Σ_{j = 1}^{N} Σ_{k = 1}^{M} r_{jk} (t) {(Σ_{p = 1}^{K} {\hat{W}}_{a} (p) v_{jk}^{(p)})}^{T} Σ_{jk}^{- 1} v_{jk}^{(i)}, &ForAll; i - - - (6)

这里，O(t)是第t个特征帧，∑_jk是第j状态的高斯混合k的协方差矩阵，是第j类的与高斯分布参数“平均值”相应的超向量的平均值，v_jk是与第j状态的高斯混合k相应的本征向量，K为本征向量的数量，i为小于K大于等于1的任意自然数。

显然，等式(6)是一个线性方程组，可通过计算该线性方程组来获得最优本征系数的解。

在步骤903，利用在步骤902获得的最优本征系数来获得“平均值”超向量a，以更新AM的参数。等式7给出了用于更新的公式。

a = \overset{&OverBar;}{a} + {\tilde{E}}_{a} W_{a} - - - (7)

这里，从更新的a提取更新的高斯分布的参数“平均值”来用作自适应后的AM参数。

应该理解，在本发明中，本征空间方法不限于上面描述的本发明的实施例，也可以利用其他的本征空间方法。

在本发明中，根据输入到语音识别系统中的语音信号的数据量特征以及内容差异特征，来选择适用于在不同数量的聚类上执行自适应的方法，从而解决了存在自适应性能的饱和度和自适应速度的问题。并且以预定的时间间隔执行自适应，从而随着语音识别系统的使用不断执行自适应，而不需要利用专门的测试数据进行自适应的过程，实现了自适应的无人监督。

尽管已经参照其示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种语音识别系统的自适应方法，包括：

确定输入的语音信号的内容差异参数，以确定输入的语音信号在树形结构的高层、中间层和低层的数据累积程度；

从适于使用树形结构的高层的类的第一自适应方法、适于使用树形结构的中间层的类的第二自适应方法和适于使用树形结构的低层的类的第三自适应方法中选择满足了数据累积条件的自适应方法，以执行自适应，

其中，对语音识别系统的特征空间中的声音单元建立所述树形结构，从而以树形结构的形式对声音单元进行聚类。

2.根据权利要求1所述的语音识别系统的自适应方法，其中，所述输入的语音信号在自然语音时间段期间或固定时间段期间被输入。

3.根据权利要求1所述的语音识别系统的自适应方法，其中，内容差异参数是对类累积的高斯混合的似然度AGML-C和对节点下的类累积的高斯混合的似然度AGML-N中的至少一个。

4.根据权利要求3所述的语音识别系统的自适应方法，其中，AGML-C表示：关于语音信号的预定特征帧，在所述树形结构中的一个类中的所有状态的所有高斯混合的似然度的累计值。

5.根据权利要求3所述的语音识别系统的自适应方法，其中，AGML-N表示：关于语音信号的预定特征帧，所述树形结构中的一个节点下的所有类的AGML-C之和。

6.根据权利要求1所述的语音识别系统的自适应方法，其中，第一自适应方法是本征空间方法；第二自适应方法是线性变换方法；第三自适应方法是最大后验概率方法。

7.根据权利要求3所述的语音识别系统的自适应方法，还包括：确定输入的语音信号的数据量参数，其中，基于输入的语音信号的数据量和内容差异参数来选择满足了数据量条件和数据累积条件的自适应方法。

8.根据权利要求7所述的语音识别系统的自适应方法，其中，数据量参数是所述输入的语音信号的所有特征帧的时间长度。

9.根据权利要求7所述的语音识别系统的自适应方法，其中，基于输入的语音信号的数据量和所述数据累积程度来选择满足了数据量条件和数据累积条件的自适应方法的步骤包括：

确定数据量参数是否大于第一阈值；

当确定数据量参数不大于第一阈值时，选择第一自适应方法；

当确定数据量参数大于第一阈值时，确定关于输入的语音信号中的预定特征帧，所述树形结构的中间层的所有类的AGML-C是否都大于第二阈值；

当确定不都大于第二阈值时，选择第一自适应方法。

10.根据权利要求9所述的语音识别系统的自适应方法，其中，当确定都大于第二阈值时，选择第二自适应方法。

11.根据权利要求9所述的语音识别系统的自适应方法，其中，当确定都大于第二阈值时，确定关于所述预定特征帧所述树形结构的低层的所有类的AGML-C是否都大于第三阈值；当确定都大于第三阈值时，选择第三自适应方法；当确定不都大于第三阈值时，选择第二自适应方法。

12.根据权利要求9所述的语音识别系统的自适应方法，其中，当确定都大于第二阈值时，确定关于所述预定特征帧所述树形结构的中间层的所有节点的AGML-N是否都大于第四阈值；当确定都大于第四阈值时，选择第三自适应方法；当确定不都大于第四阈值时，选择第二自适应方法。

13.根据权利要求3所述的语音识别系统的自适应方法，其中，所述选择自适应方法的步骤包括：

确定关于输入的语音信号中的预定特征帧，所述树形结构的中间层的所有类的AGML-C是否都大于第五阈值；

当确定不都大于第五阈值时，选择第一自适应方法。

14.根据权利要求13所述的语音识别系统的自适应方法，其中，当确定都大于第五阈值时，选择第二自适应方法。

15.根据权利要求13所述的语音识别系统的自适应方法，其中，当确定都大于第五阈值时，确定关于所述预定特征帧所述树形结构的低层的所有类的AGML-C是否都大于第六阈值；当确定都大于第六阈值时，选择第三自适应方法；当确定不都大于第六阈值时，选择第二自适应方法。

16.根据权利要求13所述的语音识别系统的自适应方法，其中，当确定都大于第五阈值时，确定关于所述预定特征帧所述树形结构的中间层的所有节点的AGML-N是否都大于第七阈值；当确定都大于第七阈值时，选择第三自适应方法；当确定不都大于第七阈值时，选择第二自适应方法。

17.根据权利要求1所述的语音识别系统的自适应方法，其中，本征空间方法包括：

提取所述树形结构中不同类中的声音单元的高斯分布参数；

通过将一个类中的不同声音单元的高斯分布参数中的“平均值”的向量连接成一个“平均值”超向量来建立超向量空间，其中，对不同的类建立不同的超向量空间；

从不同的类的超向量空间提取不同的类的本征向量；

基于输入的语音信号来估计不同的类的最优本征系数；

基于不同的类的最优本征系数获得不同的类的新的“平均值”超向量，以根据所述新的“平均值”超向量对“平均值”进行更新。

18.根据权利要求1所述的语音识别系统的自适应方法，其中，当存在至少两个满足数据累积条件的自适应方法时，选择与较低的层相应的自适应方法来执行自适应。