CN103514170B

CN103514170B - 一种语音识别的文本分类方法和装置

Info

Publication number: CN103514170B
Application number: CN201210204350.0A
Authority: CN
Inventors: 万鹏; 梁政; 刘江; 鹿晓亮; 李钊辉; 刘庆峰
Original assignee: China Mobile Group Anhui Co Ltd
Current assignee: China Mobile Group Anhui Co Ltd
Priority date: 2012-06-20
Filing date: 2012-06-20
Publication date: 2017-03-29
Anticipated expiration: 2032-06-20
Also published as: CN103514170A

Abstract

本发明公开了一种语音识别的文本分类方法和装置，其中，该方法包括：根据业务类别的类型，为每个业务类别收集训练文本和与训练文本的内容保持一致的训练语音；对训练语音进行解码，得到训练语音的词混淆网络；根据训练文本和词混淆网络，提取训练文本的文本特征；根据文本特征，训练集内支持向量机分类器；由经过训练的所述支持向量机分类器对文本进行分类。本发明的语音识别的文本分类方法和装置，将词图网络转化为适合于文本分类的词混淆网络，将词混淆网络所包含的混淆词转化为文本特征后，利用支持向量机算法，进行基于混淆词的文本分类，得到更准确的分类结果，提高了语音识别文本分类的正确率。

Description

一种语音识别的文本分类方法和装置

技术领域

本发明涉及通信领域中语音识别技术领域，具体地，涉及一种语音识别的文本分类方法和装置。

背景技术

文本分类是指给定分类目标下，根据文本内容自动确定文本类别的过程。借助于文本分类技术，对文本进行分类，可以让机器理解人类语言，从而实现智能语音交互。文本分类技术已经在互联网搜索、语音识别等人机交互领域得到了相当广泛的应用。

在自助语音识别服务系统中，利用文本分类技术对语音识别的文本结果进行分类，并根据最终类别的不同，自助语音服务系统向最终用户提供不同的自助语音服务，实现轻松自然的自助语音交互。如将自然语言“请帮我查询一下我的手机有无欠费”理解为语义“余额查询”，提供“余额查询”的自助服务。

目前主流的文本分类使用统计学习的方法：首先通过提取文本中的特征，将文本转化为带权重分量的特征矢量，并利用机器学习的方法，构建文本分类模型。

目前主要的文本分类学习算法包含Rocchio算法、朴素贝叶斯分类算法、决策树算法、神经网络算法及支持向量机算法（SVM,Support Vector Machine）等等，并在相应的算法上进行一些改进及融合，使文本分类的准确率持续不断的提高。

在申请号为99808930.3的中国专利文件中公开了一种根据文本信息对象训练集生成分类器之参数以便确认文本信息对象所属种类的方法。在申请号为200810012887.0的中国专利文件公开了一种利用最小二乘方法来拟合用支持向量机方法所得到的分类超平面，从而得到最优的超平面的方法，实现较佳的文本分类效果。

在自助语音服务系统中，文本分类需要与语音识别系统一起使用。传统的文本分类应用中，使用语音识别系统产生的第一优选(One Best)结果作为文本分类器的输入，文本分类器根据分类模型计算输入文本Wi对每个目标分类类别Tj的得分贡献，并选取得分最高的类别作为该输入文本对应的分类结果，如图1-2所示。在图2中，用第一优先结果进行文本分类，最终最优分类类别GRPS的得分为0+0+0+0.3+0.8=1.1。

这种方法在语音识别准确率较高的语音识别系统中，有优良的性能；但在语音识别引擎识别准确率较低的语音识别系统中，很可能输出包含较多错误的文本识别结果，这会直接导致文本分类的正确率的急剧下降。例如语音识别引擎因口音问题将识别出某段语音为：“我要用手机伤亡”，则SVM文本分类器得分如图3所示。因为错误识别结果“伤亡”对“GRPS”的贡献得分为0，造成“话费查询”与“GPRS”的最终得分均为0.3，造成分类错误。

发明内容

本发明是为了克服现有技术中语音识别的文本分类错误率高的缺陷，根据本发明的一个方面，提出一种语音识别的文本分类方法。

根据本发明实施例的语音识别的文本分类方法，包括：根据业务类别的类型，为每个业务类别收集训练文本和与训练文本的内容保持一致的训练语音；对训练语音进行解码，得到训练语音的词混淆网络；根据训练文本和词混淆网络，提取训练文本的文本特征；根据文本特征，训练集内支持向量机分类器；由经过训练的所述支持向量机分类器对文本进行分类。

本发明的语音识别的文本分类方法，在收集训练文本和训练语音后，在收集业务类别的训练文本和训练语音后，得到训练语音的词混淆网络，提取训练文本的文本特征，根据文本特征训练集内支持向量机分类器，由经过训练的所述支持向量机分类器对文本进行分类；本发明的语音识别的文本分类方法，通过语音识别所特有的词图网络，由于其对正确语音识别结果具有更高的覆盖度，将词图网络转化为适合于文本分类的词混淆网络，将词混淆网络所包含的混淆词转化为文本特征后，利用支持向量机算法，进行基于混淆词的文本分类，得到更准确的分类结果，提高了语音识别文本分类的正确率。

本发明是为了克服现有技术中语音识别的文本分类错误率高的缺陷，根据本发明的另一个方面，提出一种语音识别的文本分类装置。

根据本发明实施例的语音识别的文本分类装置，包括：文本收集模块，用于根据业务类别的类型，为每个业务类别收集训练文本和与所述训练文本的内容保持一致的训练语音；语音解码模块，用于对训练语音进行解码，得到训练语音的词混淆网络；特征提取模块，用于根据训练文本和词混淆网络，提取训练文本的文本特征；分类器训练模块，用于根据文本特征，训练集内支持向量机分类器；文本分类模块，用于由经过训练的支持向量机分类器对文本进行分类。

本发明的语音识别的文本分类装置，在收集训练文本和训练语音后，在收集业务类别的训练文本和训练语音后，得到训练语音的词混淆网络，提取训练文本的文本特征，根据文本特征训练集内支持向量机分类器，由经过训练的所述支持向量机分类器对文本进行分类；本发明的语音识别的文本分类装置，通过语音识别所特有的词图网络，由于其对正确语音识别结果具有更高的覆盖度，将词图网络转化为适合于文本分类的词混淆网络，将词混淆网络所包含的混淆词转化为文本特征后，利用支持向量机算法，进行基于混淆词的文本分类，得到更准确的分类结果，提高了语音识别文本分类的正确率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为现有技术中传统的文本分类方法的流程示意图；

图2为现有技术中利用第一优先结果进行文本分类的示意图；

图3为现有技术中利用第一优先结果进行文本分类过程中因识别错误导致分类错误的示意图；

图4为本发明语音识别系统的词混淆网络的结构示意图；

图5为本发明使用词混淆网络进行文本分类的示意图；

图6为本发明语音识别的文本分类方法实施例一的流程图；

图7为本发明语音识别的文本分类方法实施例二中训练文本的结构示意图；

图8为本发明语音识别的文本分类方法实施例二中使用语音识别引擎对收集的训练语音进行解码的结构示意图；

图9为本发明语音识别的文本分类方法实施例二中混淆网络的结构示意图；

图10为本发明语音识别的文本分类方法实施例二中文本特征的结构示意图；

图11为本发明语音识别的文本分类方法实施例二中混淆网络的结构示意图；

图12为本发明语音识别的文本分类装置的结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

本发明语音识别系统产生的词混淆网络(Word Confusion Network，WCN)作为文本分类器的输入，词混淆网络不仅包含了语音识别系统的第一优选结果，而且还包含了其它最可能的若干个识别结果，即混淆词，如图4所示。其中，文本分类器是支持向量机分类器（Support Vector Machine，SVM）中的一种，SVM分类器是分类器的统称。

文本分类器以词混淆网络作为输入，当一个词被语音识别系统识别为第一优选结果，则其所有的混淆词获得相应加分，并将整个词混淆网络输入到文本分类器，而不是只把第一优选结果作为输入，降低了文本分类器对语音识别系统识别结果的依赖性，从而增强了系统的容错性，在相同语音识别系统的基础上可获得更优的分类结果，如图5所示。

语音识别系统输出：“我要用手机伤亡”，则“伤亡”的混淆词“上网”同样获得相应的加分；如图5所示，“GPRS”获得的总得分为0+0+0+0.3+0.8+0=1.1，仍然为最优分类结果。因此，通过使用词混淆网络进行分类，可以显著减小分类系统对语音识别系统的过度依赖，提高了文本分类的准确率。所以，基于词混淆网络的文本分类法较传统分类方法更具优越性。

方法实施例

根据本发明实施例，提供了一种语音识别的文本分类方法，图6为本发明语音识别的文本分类方法实施例一的流程图。如图6所示，本实施例包括：

步骤102：根据预先设计的业务类别的类型，每个业务类别收集一定数量的训练文本；

步骤104：再收集与上述业务类别对应的训练语音，训练语音的内容与步骤102中的训练文本的内容要保持一致，使用语音识别引擎对收集的训练语音进行解码，得到该训练语音的词混淆网络。其中，词混淆网络中除了包含生成文本外，还包含有该生成文本中词语对应的声学置信度。

步骤106：根据训练文本和词混淆网络提取训练文本的文本特征，文本特征使用字的Four-gram，即（Wi-2|Wi-1|Wi|Wi+1），其中，Wi为当前字，Wi-2和Wi-1为当前字的前续，Wi+1为当前字的后续。对于训练文本而言，如果某个N-gram出现，与该N-gram对应的文本特征的权重即为1，否则，该文本特征的权重为0；对于训练语音的词混淆网络而言，如果某个N-gram出现，与该N-gram对应的文本特征的权重为该N-gram中所有字的声学置信度的积，否则，该文本特征的权重为0。

步骤108：根据步骤106中得到的文本特征训练集内支持向量机分类器（SupportVector Machine，SVM）；

SVM训练技术，该技术为国际通用模式识别训练技术，详见SVM原理。

步骤110：通过经过步骤108训练的支持向量机分类器（即SVM）对文本进行分类。

根据本发明实施例，提供了另一种语音识别的文本分类方法。该实施例以具体业务为例，对本发明的文本分类方法进行进一步说明；其中，假定业务类别为：话费查询和手机上网，对于用户的语音命令输入进行文本识别。本实施例包括：

步骤202：根据预先设计的业务类别的类型，每个业务类别收集一定数量的训练文本，如图7所示；

步骤204：再收集与上述业务类别对应的训练语音，训练语音的内容与步骤202中的训练文本的内容要保持一致，使用语音识别引擎对收集的训练语音进行解码，如图8所示，得到该训练语音的词混淆网络，如图9所示；在图8中，（）表示多候选，[]表示文本丢失{}表示增加。

其中，词混淆网络中除了包含生成文本外，还包含有该生成文本中词语对应的声学置信度。

步骤206：根据训练文本和词混淆网络提取训练文本的文本特征，文本特征使用字的Four-gram，即（Wi-2|Wi-1|Wi|Wi+1），其中，Wi为当前字，Wi-2和Wi-1为当前字的前续，Wi+1为当前字的后续。对于现有的训练文本而言，如果某个N-gram出现，与该N-gram对应的文本特征的权重即为1，否则，该文本特征的权重为0，如图10所示；对于本发明的训练语音的词混淆网络而言，如果某个N-gram出现，与该N-gram对应的文本特征的权重为该N-gram中所有字的声学置信度的积，否则，该文本特征的权重为0，如图11所示。在图11中，第1行中的“我”的声学置信度取词混淆网络中上下两路中的较大值，故取0.7。

步骤208：根据步骤206中得到的文本特征训练SVM分类器。SVM分类器采用的是SVM训练技术，该技术为国际通用的模式识别训练技术，主要是将文本特性表示为高维特征矢量，矢量参数通过已有的文本特征进行计算，最终获得SVM分类器。其中，SVM训练技术包括如下内容：

一、SVM特征提取

(1)训练使用文本：使用训练语料中的“字”及其N-gram，即使用训练字典中所有“字”及其N-gram组成一个高维的特征矢量，对于某条训练语料，如果某个“字”出现，该维特征即为“1”，反之为“0”。

(2)训练使用WCN：提取SVM特征时设置声学CM（Confidence Measure，置信度）门限，首先将CM较小的词裁剪掉；其次同样取WCN中的“字”及其N-gram，当某个N-gram出现时其权重的计算与其声学CM有关，如果这个N-gram包含一个以上的“字”，使用这几个“字”声学CM的几何平均，声学置信度的计算公如下：

二、SVM训练

SVM是一个常用的解决分类问题的方法，通常将输入向量映射到高维空间，在高维空间中形成线性分类器以解决分类问题，但是在诸如呼叫导航等大规模文本分类任务中，其输入向量维数巨大，一般采用线性核可以取得较好的分类效果。求解线性核的方法一般分为两大类，即求解原始问题与对偶问题，我们采用的SVM的训练方法为求解C-线性支持向量分类机的对偶问题，即求解下面的问题：

0≤α_i≤C,i＝1,...,l

这里假设训练集为：

T={(x₁,y₁),...,(x_l,y_l)}∈(Rⁿ×Y)^l

其求解方法使用著名的序列最小最优化算法(即SMO)，该算法是分解算法的特殊情形，它选取的工作集B中只包含2个元素，即每次迭代过程中只调整相应于两个练点(x_i，y_i)和(x_j，y_j)的α_i和α_j，这时需要求解的最优化子问题只有两个变量(这里略去该算法的详细求解步骤)，与通常的分解算法比较，尽管需要更多的迭代次数，但由于每次迭代的计算量很少，该算法表现出整体的快速收敛性质。

另一个问题是SVM分类器为两类分类器，而我们的任务为多类分类任务，这里采用成对分类(one versus one)构造多个分类器，即对于M类问题，需要构造(M-1)*M/2个两类分类器。例如针对余额和上网二个业务，首先需要收集几千条余额业务的不同说法，再收集上网业务的几千条说法，针对每条说法按照上述的方式提取文本特征，然后形成可以区分余额和上网业务的模型。

步骤210：通过步骤208训练的支持向量机分类器（即SVM分类器）对文本进行分类。

通过以上分类器进行文本分类，输入一段文本后，系统首先提取出输入文本的特征，然后与之前训练的SVM分类器进行比较计算，概率最大的即为该文本对应的分类。加入混淆网络的优点在于，如果语音识别的解码出现错误，比如用户说：“我想查话费”，系统识别成“我想查花费”，如果“花费”没有加入到训练集中，会导致无法识别，采用将混淆词网络加入训练的方法则可以有效的解决这个问题，提升分类正确率。SVM分类计算方法具体为:

(1)特征提取：与训练时特征提取过程类似；

(2)分类过程：使用“投票法”进行判决，将待测样本x分别利用N(N-1)/2个SVM的决策函数进行判决，当第i类与第j类之间SVM的判决函数f_ij(x)≥0，则给i类记一票，反之给j类记一票，当所有的决策函数都给出判决后，得票最多的那个类就是x所属的类。

如果用户说了一句：“我要查余额”，此时首先提取出特征，然后计算分类得分，最终可以计算出分类属于余额而不属于上网业务。

装置实施例

根据本发明实施例，提供了一种语音识别的文本分类装置，如图12所示，本实施例包括：

文本收集模块11，用于根据业务类别的类型，为每个业务类别收集训练文本和与训练文本的内容保持一致的训练语音；

语音解码模块12，用于对训练语音进行解码，得到训练语音的词混淆网络；

特征提取模块13，用于根据训练文本和词混淆网络，提取训练文本的文本特征；

分类器训练模块14，用于根据文本特征，训练集内支持向量机分类器；

文本分类模块15，用于由经过训练的支持向量机分类器对文本进行分类。

其中，词混淆网络包括生成文本和与所述生成文本中的词语对应的声学置信度。

其中，文本特征使用字的Four-gram表示，其中，Wi为当前字，Wi-2和Wi-1为所述字的前续，Wi+1为所述字的后续。

其中，在训练语音的词混淆网络中，如果文本特征对应的N-gram出现，文本特征的权重为所述N-gram中所有字的声学置信度的积，否则，文本特征的权重为0。

本发明能有多种不同形式的具体实施方式，上面以图4-图12为例结合附图对本发明的技术方案作举例说明，这并不意味着本发明所应用的具体实例只能局限在特定的流程或实施例结构中，本领域的普通技术人员应当了解，上文所提供的具体实施方案只是多种优选用法中的一些示例，任何体现本发明权利要求的实施方式均应在本发明技术方案所要求保护的范围之内。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别的文本分类方法，其特征在于，包括：

根据业务类别的类型，为每个业务类别收集训练文本和与所述训练文本的内容保持一致的训练语音；

对所述训练语音进行解码，得到所述训练语音的词混淆网络；

根据所述训练文本和词混淆网络，提取训练文本的文本特征；

根据所述文本特征，训练集内支持向量机分类器；

由经过训练的所述支持向量机分类器对文本进行分类；

所述词混淆网络包括生成文本和与所述生成文本中的词语对应的声学置信度；

所述文本特征使用字的Four-gram表示，其中，Wi为当前字，Wi-2和Wi-1为所述字的前续，Wi+1为所述字的后续；

对于训练文本，如果所述文本特征对应的N-gram出现，与该N-gram对应的文本特征的权重即为1，否则，该文本特征的权重为0；在所述训练语音的词混淆网络中，如果所述文本特征对应的N-gram出现，所述文本特征的权重为所述N-gram中所有字的声学置信度的积，否则，所述文本特征的权重为0；

根据所述文本特征，训练集内支持向量机分类器包括：提取支持向量机分类器特征时，设置声学置信度门限，取词混淆网络中的所述字及所述字的N-gram，当N-gram出现时，如果所述N-gram包含一个以上的所述字，使用所述字的声学置信度的几何平均；所述声学置信度的计算公式如下：

G (w_{1}, ..., w_{n}) = \sqrt{Π_{i = 1}^{n} C o n f (w_{i})} .

2.一种语音识别的文本分类装置，其特征在于，包括：

文本收集模块，用于根据业务类别的类型，为每个业务类别收集训练文本和与所述训练文本的内容保持一致的训练语音；

语音解码模块，用于对所述训练语音进行解码，得到所述训练语音的词混淆网络；

特征提取模块，用于根据所述训练文本和词混淆网络，提取训练文本的文本特征；

分类器训练模块，用于根据所述文本特征，训练集内支持向量机分类器；

文本分类模块，用于由经过训练的所述支持向量机分类器对文本进行分类；

对于训练文本，如果某个N-gram出现，与该N-gram对应的文本特征的权重即为1，否则，该文本特征的权重为0；

在所述训练语音的词混淆网络中，如果所述文本特征对应的N-gram出现，所述文本特征的权重为所述N-gram中所有字的声学置信度的积，否则，所述文本特征的权重为0；

G (w_{1}, ..., w_{n}) = \sqrt{Π_{i = 1}^{n} C o n f (w_{i})} .