CN101763855B

CN101763855B - 语音识别的置信度判决方法及装置

Info

Publication number: CN101763855B
Application number: CN2009102261109A
Authority: CN
Inventors: 王智国; 王海坤; 胡国平; 魏思; 潘青华; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: Jilin Kexun Information Technology Co ltd
Priority date: 2009-11-20
Filing date: 2009-11-20
Publication date: 2012-01-04
Anticipated expiration: 2029-11-20
Also published as: CN101763855A

Abstract

本发明公开了一种语音识别的置信度判决方法及装置，其中的方法包括：接收输入语音，并确定所述输入语音相对于识别语法的识别结果；确定所述输入语音相对于本征音素解码空间的竞争结果；利用所述识别结果及竞争结果计算所述识别结果的置信度；其中，所述本征音素解码空间的构建过程为：对预先训练的声学模型中所包含的各音素进行聚类，得到本征音素集；重新训练表征各本征音素的声学模型和语言模型；基于所述本征音素集以及重新训练得到的声学模型和语言模型，构建本征音素解码空间。本发明通过对各音素聚类构建出本征音素解码空间，基于该空间进行解码获取竞争结果，可确保竞争结果获取快速、有效、普适，从而对置信度进行更为准确和高效的估计。

Description

语音识别的置信度判决方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别的置信度判决方法及装置。

背景技术

当前的自动语音识别系统完成的任务是，在识别语法(语言模型)范围内，找出输入语音(输入的待识别语音)最相似的识别结果(最相似的文本内容)。相对于范围有限的识别语法，输入语音是无限的，当输入语音的实际内容不在识别语法范围之内，称此输入为集外词。基于这个原因，自动语音识别系统不仅能够给出识别结果，还应该给出该识别结果是输入语音真实内容的可信度，本文将可信度称为置信度，从而对集外词进行有效的判决拒识，这个过程称为置信度判决。

在置信度判决方面，前人开展了很多有意义的研究工作。最直接的做法是将根据声学模型和识别语法所计算得到的输入语音相对于识别结果的似然值(定义为声学似然度和先验概率乘积)或者是它的某种变换作为置信度，进行置信度判决。由于似然值原本是用于比较同一输入语音条件下与识别语法所包含的各个文本内容的相似程度，以便选择出最为相似的文本内容作为识别结果。而置信度判决任务需要面对不同的输入语音，以便区分哪些语音属于集外词，而哪些属于集内词。似然值的取值范围会因为输入语音的长短、说话人、背景环境等因素的不同而变化很大，将似然值直接用于置信度判决，性能并不理想。随着语音识别技术的不断进展，估计出识别结果针对输入语音的后验概率，以此作为识别结果的置信度表现出了良好的性能。这类方法通常基于下面给出的贝叶斯公式和全概率公式计算出识别结果的后验概率：

P (W | X) = \frac{P (W) P (X | W)}{P (X)} = \frac{P (W) P (X | W)}{\underset{W_{i} &Element; Ω}{Σ} P (W_{i}) P (X | W_{i})}

............公式1

上式中W代表识别结果，X代表输入语音，P(W|X)为识别结果W相对于输入语音X的后验概率，该后验概率可基于贝叶斯公式通过所述识别结果的先验概率P(W)、所述识别结果对应于所述输入语音的声学似然度P(X|W)以及概率P(X)计算得到。先验概率P(W)和声学似然度P(X|W)都可通过预置的声学模型和语言模型计算得到，而概率P(X)通常无法直接建模获取，但可根据公式1中所给出的全概率公式计算，其中Ω代表辅助解码空间，该空间是一个全路径集合，包含的元素为全部竞争路径，W_i代表Ω空间所包含的某条竞争路径，P(W_i)和P(X|W_i)分别为该竞争路径的先验概率以及其对应于所述输入语音的声学似然度。严格的全概率公式需要在Ω空间包含的全部竞争路径范围内对P(W_i)P(X|W_i)项求和以计算概率P(X)，不具备可实现性。前人研究表明，在Ω空间包含的全部竞争路径中，仅有很小的一部分路径对应的求和项P(W_i)P(X|W_i)对概率P(X)产生主要贡献，这部分路径称为有效竞争路径，仅采用有效竞争路径估计P(X)是严格的全概率公式下的一个良好近似。因此，确定一个辅助解码空间Ω并且在Ω之上准确高效地获取有效竞争路径是基于后验概率置信度判决这一大类方法所需要解决的关键问题。过去发表的研究成果和专利大致有以下三种：

(1)定义Ω为给定识别语法的解码空间。在该空间上解码得到识别结果的同时获取有效竞争路径，估计置信度；

(2)定义Ω为全音素解码网络(又称全音素解码空间)，在该网络上进行同步解码获取有效竞争路径，估计置信度；

(3)预先训练一个或多个废料模型(又称垃圾模型)，或者通过对语音识别系统所使用声学模型中的高斯分布群进行聚类等方法来模拟废料模型，估计置信度，此时可以理解为把Ω定义为一个简单的废料循环空间，这种方法的重点不在于获取竞争路径，而是如何获得能够声学上表征合理竞争空间的废料模型。

上述方法都存在各自的缺点，方法(1)和方法(2)都定义了辅助解码空间并且在其上进行解码获取有效竞争路径，但方法(1)的辅助解码空间定义为给定的识别语法解码空间，竞争路径的有效性非常依赖于识别语法自身，普适性较差；方法(2)采用全音素解码网络进行解码，在解码获取有效竞争路径的时候兼顾了包括时序信息、语言模型等重要知识，因此能够比较准确地获取有效竞争路径，但是算法复杂度较大，在很多场合下难以应用于实时的语音识别系统；方法(3)采用废料模型直接作为有效竞争路径，研究重点在于废料模型的声学空间建模，无法深入挖掘时序信息、语言模型等知识，取得的性能较为有限。

发明内容

本发明提供一种语音识别置信度判决方法及装置，通过合理确定辅助解码空间，使得所述输入语音在该空间上快速、准确地解码以获取有效竞争路径以及各竞争路径对应的声学似然度和先验概率，从而对置信度进行更为准确和高效的估计。

为此，本发明实施例采用如下技术方案：

一种语音识别的置信度判决方法，包括：接收输入语音，并确定所述输入语音相对于识别语法的识别结果，所述识别结果中包括文本内容、先验概率以及其对应于所述输入语音的声学似然度；确定所述输入语音相对于本征音素解码空间的竞争结果，所述竞争结果包括一个竞争路径集合以及每一条竞争路径的先验概率以及其对应于所述输入语音的声学似然度；利用所述识别结果和竞争结果计算所述识别结果的置信度；其中，所述本征音素解码空间的构建过程为：对预先训练的声学模型中所包含的各音素进行聚类，得到本征音素集；重新训练表征各本征音素的声学模型和语言模型；基于所述本征音素集以及重新训练得到的声学模型和语言模型，构建本征音素解码空间。

所述对预先训练的声学模型中所包含的各音素进行聚类得到本征音素集的过程为：初始化音素聚类二叉树，所述二叉树仅包含一个叶子节点，所述叶子节点包含所有音素；选取音素聚类二叉树的一个叶子节点进行分裂；判断是否所有叶子节点都已不能分裂，若是，选取所有叶子节点及其包含的音素构成所述本征音素集，否则，转至所述选取音素聚类二叉树的一个叶子节点进行分裂的步骤。

所述音素聚类二叉树的叶子节点进行分裂的过程为：从音素分类二叉树叶子节点所包含的音素中依次选取两个音素作为分裂质心，分别计算其他音素与该两个质心音素的声学模型之间的散度距离，根据散度距离较小原则，以该两个音素为质心将叶子节点包含的音素划分成两类；将上述各种划分方式中散度距离之和最小的划分方式作为该音素分类二叉树的备选分裂方式；判断该备选分裂方式的散度距离之和是否大于分裂门限，若是，按照备选分裂方式将节点分裂为两个新的叶子节点，否则，确定该节点无法继续分裂。

所述利用所述识别结果和竞争结果计算所述置信度的过程包括：将所述识别结果的声学似然度和先验概率以及所述本征音素解码空间的竞争结果包含的各竞争路径的声学似然度和先验概率代入改进的全概率公式和贝叶斯公式，计算所述识别结果相对于输入语音的后验概率；将所述识别结果相对于输入语音的后验概率作为所述识别结果的置信度。

一种语音识别的置信度判决装置，包括：识别结果确定单元，用于确定接收到的输入语音相对于识别语法的识别结果，所述识别结果包括文本内容、先验概率以及其对应于所述输入语音的声学似然度；本征音素解码空间构建单元，用于构建本征音素解码空间；竞争结果确定单元，用于确定所述输入语音相对于本征音素解码空间的竞争结果，所述竞争结果包括一个竞争路径集合以及每一条竞争路径的先验概率以及其对应于所述输入语音的声学似然度；置信度计算单元，用于利用所述识别结果确定单元确定的识别结果、所述竞争结果确定单元确定的竞争结果计算所述识别结果的置信度；其中，所述本征音素解码空间构建单元进一步包括：音素聚类子单元，用于对预先训练的声学模型中所包含的各音素进行聚类，得到本征音素集；重新训练子单元，用于重新训练表征各本征音素的声学模型和语言模型；构建子单元，用于基于所述本征音素集以及重新训练得到的声学模型和语言模型，构建本征音素解码空间。

所述音素聚类子单元进一步包括：初始化模块，用于初始化音素聚类二叉树，所述二叉树仅包含一个叶子节点，所述叶子节点包含所有音素；分裂模块，用于选取音素聚类二叉树的一个叶子节点进行分裂；循环模块，用于判断是否所有叶子节点都已不能分裂，若是，选取所有叶子节点及其包含的音素构成所述本征音素集，否则，启动分裂模块。

所述分裂模块进一步包括：分类子模块，用于从音素分类二叉树叶子节点所包含的音素中依次选取两个音素作为分裂质心，分别计算其他音素与该两个质心音素的声学模型之间的散度距离，根据散度距离较小原则，以该两个音素为质心将叶子节点包含的音素划分成两类；备选分裂方式划分子模块，用于将上述各种划分方式中散度距离之和最小的划分方式作为该音素分类二叉树的备选分裂方式；判断子模块，用于判断该备选分裂方式的散度距离之和是否大于分裂门限，若是，按照备选分裂方式将节点分裂为两个新的叶子节点，否则，确定该节点无法继续分裂。

所述置信度计算单元包括：后验概率计算模块，用于将所述识别结果的声学似然度和先验概率得分以及所述本征音素解码空间的竞争结果的声学似然度和先验概率得分代入改进的全概率公式和贝叶斯公式，计算所述识别结果相对于输入语音的后验概率；置信度输出模块，用于将所述识别结果相对于输入语音的后验概率作为所述识别结果的置信度。

与现有技术相比，本发明采用独立的本征音素解码空间进行识别得到竞争结果，不依赖于特定的识别语法，普适性较强；同时得到竞争结果的解码空间是高度压缩和去冗余的，相比全音素解码空间的方法在运算量方面具有极大的简化，更易被实时语音识别系统采纳；采用竞争结果估计置信度，竞争结果是兼顾了时序信息、语言模型等重要知识在本征音素解码空间上解码得到的，相比重点考虑声学空间建模的废料模型方法估计置信度更加准确。

附图说明

图1为本发明语音识别的置信度判决方法流程图；

图2为图1中步骤101音素聚类的流程图；

图3为图2中步骤202叶子节点分裂的流程图；

图4为本发明语音识别的置信度判决装置结构示意图。

具体实施方式

概括而言，本发明提供的语音识别的置信度判决方法包括以下三个步骤：

1)接收输入语音，并确定所述输入语音相对于识别语法的识别结果，所述识别结果中包括文本内容、先验概率以及其对应于所述输入语音的声学似然度；

2)同时确定所述输入语音相对于本征音素解码空间的竞争结果，所述竞争结果包括一个竞争路径集合以及每一条竞争路径的先验概率以及其对应于所述输入语音的声学似然度；

3)利用所述识别结果、竞争结果，计算所述识别结果的置信度；

其中，步骤1)为现有技术，且为语音识别系统的必要模块，此处不作过多介绍，重点在于步骤2)、3)针对置信度判决方法和装置的改进，其中，所述本征音素解码空间的构建过程为：

1]对预先训练的声学模型中所包含的各音素进行聚类，得到本征音素集；

2]重新训练表征各本征音素的声学模型和语言模型；

3]基于所述本征音素集以及重新训练得到的声学模型和语言模型，构建本征音素解码空间。

下面结合附图和优选实例对本发明做进一步描述。

图1是本发明提供的应用于语音识别系统的置信度判决方法的流程图，如图所示：

步骤101：对声学模型中所包含的各音素进行聚类，得到本征音素集。

其中，产生本征音素集的原理和具体过程如下：

首先根据已经训练好的各音素的声学模型，计算各音素两两之间的声学距离。各音素两两之间的声学距离可采用基于HMM模型的散度距离Kullback-Leibler Divergence作为测度(以下简称为KLD)。然后采用质心分裂法进行音素聚类，最终得到用于置信度判决的本征音素集。如图2所示，步骤101的具体实现过程为：

步骤201：初始化音素聚类二叉树，此时二叉树只有一个节点，该节点包含所有音素。

步骤202：依次对二叉树的叶子节点进行分裂。分裂的实施过程如图3所示，包含如下步骤：

步骤301：从二叉树叶子节点所包含的音素中依次选取两个音素作为分裂质心，分别计算叶子节点中其他音素与该两个质心音素的KLD，根据KLD较小原则，以该两个音素为质心将叶子节点包含的音素划分成两类；若叶子节点包含M个音素，则产生/M*(M-1)/2种划分方式。

步骤302：将步骤301的各划分方式中KLD之和最小的划分方式作为该音素分类二叉树节点的备选分裂方式。

步骤303：对该备选分裂方式进行判断，检查其KLD之和是否大于预先设定的分裂门限。

步骤304：如果该备选分裂方式的KLD之和大于分裂门限，则按照备选分裂方式将节点分裂为两个新的叶子节点(原节点不再是叶子节点)，每个叶子节点包含的音素依据步骤302的备选分裂方式确定。

步骤305：如果该备选分裂方式的KLD之和小于分裂门限，或者叶子节点只包括2个音素，则该节点无法进行分裂。

步骤203：判断是否所有叶子节点都无法进行分裂，如果仍有叶子节点可以分裂，则继续分裂。

步骤204：如果所有叶子节点均不再满足步骤304的分裂条件，则选取此刻音素聚类二叉树的所有叶子节点及其各自所包含的音素作为最终用于置信度判决的本征音素集，音素聚类步骤完成。

步骤102：基于步骤101所得到的每个本征音素及其所包含的音素列表，将传统声学模型和语言模型训练数据中的音素都替换为其所对应的本征音素标号，然后在替换为本征音素标记的数据上，按照传统声学模型和语言模型的训练流程，训练得到本征音素的声学模型和语言模型。

步骤101和步骤102可预先离线完成，所得到的本征音素集及其声学模型和语言模型可以资源的方式供步骤103、104直接使用，不需要在实际语音识别和置信度判决过程中在线运行，从而并没有额外增加计算量。

步骤103：将步骤101得到的本征音素集以及步骤102得到的各本征音素的声学模型和语言模型组成本征音素解码空间，对输入语音X进行解码，得到本征音素解码空间下的最优N个解码结果，记为竞争结果{V_i}_i＝1 ^N。

竞争结果{V_i}_i＝1 ^N包含了N条竞争路径，每一竞争路径拥有自己的似然值得分，即该竞争路径的先验概率与该竞争路径对应于输入语音的声学似然度的乘积，记为P(V_i)P(X|V_i)。

需要说明的是，在构建好的解码空间上解码获取竞争结果(即步骤103)为现有技术，此处不作赘述。

步骤104：综合识别结果W，本征音素解码空间的解码结果{V_i}_i＝1 ^N以及相关声学似然度和先验概率计算该识别结果W的后验概率P(W|X)，将此后验概率作为识别结果相对于所述输入语音的置信度，完成置信度判决。计算识别结果的后验概率公式如下：

P (W | X) = \frac{P (W) P (X | W)}{Σ_{i = 1}^{N} P (V_{i}) P (X | V_{i})}

...............公式2

公式2为改进的全概率公式和贝叶斯公式，式中P(W)P(X|W)为识别结果的先验概率与识别结果对应于输入语音的声学似然度的乘积，其他项含义如前所述。

从上面介绍可知，本发明可以理解为提出了一种新方法来确定辅助解码空间以获取有效竞争路径，完成基于后验概率的置信度估计和判决。

与上述方法相对应，本发明还提供一种语音识别的置信度判决装置，该装置可以由软件、硬件或软硬件结合的方式实现。

参见图4，为本发明装置内部结构示意图。该装置包括：

识别结果确定单元401，用于确定接收到的输入语音相对于识别语法的识别结果，所述识别结果包括文本内容、先验概率以及其对应于所述输入语音的声学似然度；

本征音素解码空间构建单元402，用于构建本征音素解码空间；

竞争结果确定单元403，用于确定本征音素解码空间构建单元402构建的本征音素解码空间的识别结果作为识别结果确定单元401确定的识别结果的竞争结果，所述竞争结果包括一个竞争路径集合以及每一条竞争路径的先验概率以及对应于所述输入语音的声学似然度；

置信度计算单元404，用于利用识别结果确定单元401确定的识别结果和竞争结果确定单元403确定的竞争结果计算所述识别结果的置信度；

其中，所述本征音素解码空间构建单元402进一步包括：

音素聚类子单元4021，用于对预先训练的声学模型中所包含的各音素进行聚类，得到本征音素集；

重新训练子单元4022，用于重新训练表征各本征音素的声学模型和语言模型；

构建子单元4023，用于基于所述本征音素集以及重新训练得到的声学模型和语言模型，构建本征音素解码空间。

所述音素聚类子单元4021进一步包括：(图中未示出)

初始化模块，用于初始化音素聚类二叉树，所述二叉树仅包含一个叶子节点，所述叶子节点包含所有音素；

分裂模块，用于选取音素聚类二叉树的一个叶子节点进行分裂；

循环模块，用于判断是否所有叶子节点都已不能分裂，若是，选取所有叶子节点及其包含的音素构成所述本征音素集，否则，启动分裂模块。

所述分裂模块进一步包括：(图中未示出)

分类子模块，用于从音素分类二叉树叶子节点所包含的音素中依次选取两个音素作为分裂质心，分别计算其他音素与该两个质心音素的声学模型之间的散度距离，根据散度距离较小原则，以该两个音素为质心将叶子节点包含的音素划分成两类；

备选分裂方式划分子模块，用于将上述各种划分方式中散度距离之和最小的划分方式作为该音素分类二叉树的备选分裂方式；

判断子模块，用于判断该备选分裂方式的散度距离之和是否大于分裂门限，若是，按照备选分裂方式将节点分裂为两个新的叶子节点，否则，确定该节点无法继续分裂。

所述置信度计算单元404包括：(图中未示出)

后验概率计算模块，用于将所述识别结果的声学似然度和先验概率得分以及所述本征音素解码空间的竞争结果的声学似然度和先验概率得分代入改进的全概率公式和贝叶斯公式，计算所述识别结果相对于输入语音的后验概率；

置信度输出模块，用于将所述识别结果相对于输入语音的后验概率作为所述识别结果的置信度。。

可见，本发明提出了一种基于本征音素解码空间的置信度判决方法，基于各音素之间的相似性，利用聚类算法将各相似的音素进行合并，得到本征音素集，在此基础上训练出各本征音素的声学模型和语言模型，从而对全音素解码空间进行有效的压缩和去冗余，构成新的本征音素解码空间，在压缩全音素解码空间的同时仍然保留了时序信息和语言模型等相关重要知识，克服了丢弃这些知识对置信度判决性能带来的不利影响，同时使得整个置信度判决过程的运算量得到极大的简化，更易被实时的语音识别系统所采纳。由于采用了额外的本征音素解码空间，而不是基于自身识别语法的解码空间，即使在自身识别语法解码空间无法产生足够的有效竞争路径的情况下仍然能够获取充分的竞争路径用于置信度判决，因此在任意的识别语法上都能够达到良好的置信度判决性能，具有较好的普适性。

本领域普通技术人员可以理解，实现上述实施例的方法的过程可以通过程序指令相关的硬件来完成，所述的程序可以存储于可读取存储介质中，该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如：ROM/RAM、磁碟、光盘等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别的置信度判决方法，其特征在于，包括：

接收输入语音，并确定所述输入语音相对于识别语法的识别结果，所述识别结果包括文本内容、先验概率以及其对应于所述输入语音的声学似然度；

同时确定所述输入语音相对于本征音素解码空间的竞争结果，所述竞争结果包括一个竞争路径集合以及每一条竞争路径的先验概率以及其对应于所述输入语音的声学似然度；

利用所述识别结果和竞争结果计算所述识别结果的置信度，具体包括：

(1)将所述识别结果的声学似然度和先验概率以及所述本征音素解码空间的竞争结果包含的各竞争路径的声学似然度和先验概率代入如下的后验概率公式，计算所述识别结果相对于输入语音的后验概率：

P (W | X) = \frac{P (W) P (X | W)}{Σ_{i = 1}^{N} P (V_{i}) P (X | V_{i})}

其中，P(W)P(W|X)为所述识别结果的先验概率与识别结果对应于输入语音的声学似然度的乘积；P(V_i)P(X|V_i)为第i个竞争路径的先验概率与该竞争路径对应于输入语音的声学似然度的乘积；N为所述本征音素解码空间的竞争结果包含的竞争路径数；

(2)将所述识别结果相对于输入语音的后验概率作为所述识别结果的置信度；

其中，所述本征音素解码空间的构建过程为：

对预先训练的声学模型中所包含的各音素进行聚类，得到本征音素集；

重新训练表征各本征音素的声学模型和语言模型；

基于所述本征音素集以及重新训练得到的声学模型和语言模型，构建本征音素解码空间。

2.根据权利要求1所述方法，其特征在于，所述对预先训练的声学模型中所包含的各音素进行聚类得到本征音素集的过程为：

初始化音素聚类二叉树，所述二叉树仅包含一个叶子节点，所述叶子节点包含所有音素；

选取音素聚类二叉树的一个叶子节点进行分裂；

判断是否所有叶子节点都已不能分裂，若是，选取所有叶子节点及其包含的音素构成所述本征音素集，否则，转至所述选取音素聚类二叉树的一个叶子节点进行分裂的步骤。

3.根据权利要求2所述方法，其特征在于，所述音素聚类二叉树的叶子节点进行分裂的过程为：

从音素聚类二叉树叶子节点所包含的音素中依次选取两个音素作为分裂质心，分别计算其他音素与该两个质心音素的声学模型之间的散度距离，根据散度距离较小原则，以该两个音素为质心将叶子节点包含的音素划分成两类；

将上述各种划分方式中散度距离之和最小的划分方式作为该音素聚类二叉树的备选分裂方式；

判断该备选分裂方式的散度距离之和是否大于分裂门限，若是，按照备选分裂方式将节点分裂为两个新的叶子节点，否则，确定该节点无法继续分裂。

4.一种语音识别的置信度判决装置，其特征在于，包括：

识别结果确定单元，用于确定接收到的输入语音相对于识别语法的识别结果，所述识别结果包括文本内容、先验概率以及其对应于所述输入语音的声学似然度；

本征音素解码空间构建单元，用于构建本征音素解码空间；

竞争结果确定单元，用于确定所述输入语音相对于本征音素解码空间的竞争结果，所述竞争结果包括一个竞争路径集合以及每一条竞争路径的先验概率以及其对应于所述输入语音的声学似然度；

置信度计算单元，用于利用所述识别结果确定单元确定的识别结果、所述竞争结果确定单元确定的竞争结果计算所述识别结果的置信度；所述置信度计算单元包括后验概率计算模块和置信度输出模块：

所述后验概率计算模块，用于将所述识别结果的声学似然度和先验概率以及所述本征音素解码空间的竞争结果的声学似然度和先验概率代入如下的后验概率公式，计算所述识别结果相对于输入语音的后验概率：

P (W | X) = \frac{P (W) P (X | W)}{Σ_{i = 1}^{N} P (V_{i}) P (X | V_{i})}

所述置信度输出模块，用于将所述识别结果相对于输入语音的后验概率作为所述识别结果的置信度；其中，所述本征音素解码空间构建单元进一步包括：

音素聚类子单元，用于对预先训练的声学模型中所包含的各音素进行聚类，得到本征音素集；

重新训练子单元，用于重新训练表征各本征音素的声学模型和语言模型；

构建子单元，用于基于所述本征音素集以及重新训练得到的声学模型和语言模型，构建本征音素解码空间。

5.根据权利要求4所述装置，其特征在于，所述音素聚类子单元进一步包括：

6.根据权利要求5所述装置，其特征在于，所述分裂模块进一步包括：

分类子模块，用于从音素聚类二叉树叶子节点所包含的音素中依次选取两个音素作为分裂质心，分别计算其他音素与该两个质心音素的声学模型之间的散度距离，根据散度距离较小原则，以该两个音素为质心将叶子节点包含的音素划分成两类；

备选分裂方式划分子模块，用于将上述各种划分方式中散度距离之和最小的划分方式作为该音素聚类二叉树的备选分裂方式；