CN105336342A

CN105336342A - 语音识别结果评价方法及系统

Info

Publication number: CN105336342A
Application number: CN201510796906.3A
Authority: CN
Inventors: 王金钖; 潘青华; 高建清
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2015-11-17
Filing date: 2015-11-17
Publication date: 2016-02-17
Anticipated expiration: 2035-11-17
Also published as: CN105336342B

Abstract

本发明公开了一种语音识别结果评价方法及系统，该方法包括：对语音数据进行端点检测，得到各有效语音段；对各有效语音段进行语音识别，得到各有效语音段对应的识别文本段；提取各识别文本段的评价特征；利用预先构建的识别结果评价模型及所述评价特征对各识别文本段进行评价，得到各识别文本段的评价结果；抽查所述评价结果的准确率，并且如果有准确率低于设定阈值的评价结果，则结合人工评价对全部或部分识别文本段的评价结果进行修正；修正结束后，输出最终评价结果。利用本发明，可以减少人工工作量，并提高语音数据识别结果评价的准确率。

Description

语音识别结果评价方法及系统

技术领域

本发明涉及语音信号处理领域，具体涉及一种语音识别结果评价方法及系统。

背景技术

随着语音识别技术的快速发展，越来越多的技术领域采用录音的方式记录重要的信息，如语音会议转写系统即为典型的应用，采用录音的形式记录会议沟通的内容，然后将录音通过语音识别的方法转写为文本，基于该文本进行会议记录的编辑并保存。然而，由于受到录音时噪声、远场、口音等因素的影响，语音识别的准确率还未完全达到要求。对于重要的语音数据，如重要会议的录音数据，一般要求达到较高的识别准确率，用户需要通过听语音数据判断识别结果的可信度；如果可以直接给出识别结果的评价，用户可以直观地知道识别结果的可信度，根据评价结果确定是否需要对识别结果进行修改，无疑给用户带来很大便利。

现有语音识别结果的评价方法一般是人工抽查部分识别结果，听识别结果对应的语音数据来给出评价，如识别结果较差或较好等。而现有方法随机抽取的识别结果并不能从总体上判断所有识别结果的好坏，不具有代表性，如果抽取的识别结果都较好或较差，容易误导用户对总体识别结果的可信度的判断。此外，人工对识别结果进行评价，每个人的评价标准很难统一，主观性较强；并且在识别结果较多时，工作量较大，成本较高。

发明内容

本发明提供一种语音识别结果评价方法及系统，以减少人工工作量，并提高语音数据识别结果评价的准确率。

为此，本发明提供如下技术方案：

一种语音识别结果评价方法，包括：

对语音数据进行端点检测，得到各有效语音段；

对各有效语音段进行语音识别，得到各有效语音段对应的识别文本段；

提取各识别文本段的评价特征；

利用预先构建的识别结果评价模型及所述评价特征对各识别文本段进行评价，得到各识别文本段的评价结果；

抽查所述评价结果的准确率，并且如果有准确率低于设定阈值的评价结果，则结合人工评价对全部或部分识别文本段的评价结果进行修正；

修正结束后，输出最终评价结果。

优选地，所述评价特征包括：识别结果置信度分布、以及以下一种或多种特征：槽平均弧数、词平均时长、句中停止词占比。

优选地，所述方法还包括：

按以下方式构建所述识别结果评价模型：

收集语音数据，并对其进行语音识别，得到识别结果；

提取所述识别结果的评价特征，并人工标注识别结果的评价等级，作为所述识别结果的标注特征；

利用所述评价特征及标注特征，训练识别结果评价模型。

优选地，所述评价结果包括多个等级，每个等级作为一类；

所述抽查所述评价结果的准确率包括：

抽查所述评价结果中的一类或多类评价结果的准确率。

优选地，所述抽查所述评价结果的准确率，并且如果有准确率低于设定阈值的评价结果，则结合人工评价对全部或部分识别文本段的评价结果进行修正包括：

在所有待抽查类评价结果抽查完毕后，确定准确率低于设定阈值的所有类评价结果；

获取抽查的准确率低于设定阈值的所有类评价结果对应的识别文本段及其人工评价等级；

将所述识别文本段及其人工评价等级加入到识别结果评价模型更新数据中，更新所述识别结果评价模型；

利用更新后的识别结果评价模型对全部或部分识别文本段重新进行评价。

依次抽查各类评价结果的准确率；

如果当前类评价结果的准确率低于设定阈值，则获取抽取的当前类评价结果的识别文本段及其人工评价等级；

将所述识别文本段及其人工评价等级加入到评价模型更新数据中，更新所述识别结果评价模型；

利用更新后的识别结果评价模型对当前类及未抽查的各类评价结果的识别文本段进行评价，得到新的评价结果，然后对新的评价结果继续执行抽查过程。

一种语音识别结果评价系统，包括：

端点检测模块，用于对语音数据进行端点检测，得到各有效语音段；

语音识别模块，用于对各有效语音段进行语音识别，得到各有效语音段对应的识别文本段；

评价特征提取模块，用于提取各识别文本段的评价特征；

评价模块，用于利用预先构建的识别结果评价模型及所述评价特征对各识别文本段进行评价，得到各识别文本段的评价结果；

抽查模块，用于抽查所述评价结果的准确率；

修正模块，用于在有准确率低于设定阈值的评价结果时，结合人工评价对全部或部分识别文本段的评价结果进行修正；

输出模块，用于修正结束后，输出最终评价结果。

优选地，所述系统还包括：

模型构建模块，用于构建所述识别结果评价模型；所述模型构建模块包括：

数据收集单元，用于收集语音数据；

语音识别单元，用于对所述数据收集单元收集的语音数据进行语音识别，得到识别结果；

提取单元，用于提取所述识别结果的评价特征，并人工标注识别结果的评价等级，作为所述识别结果的标注特征；

训练单元，用于利用所述评价特征及标注特征，训练识别结果评价模型。

优选地，所述评价结果包括多个等级，每个等级作为一类；

所述抽查模块，具体用于抽查所述评价结果中的一类或多类评价结果的准确率。

优选地，所述抽查模块，具体用于抽查所有待抽查类评价结果，并在抽查完毕后，确定准确率低于设定阈值的所有类评价结果；

所述修正模块包括：

第一获取单元，用于获取抽查的准确率低于设定阈值的所有类评价结果对应的识别文本段及其人工评价等级；

重训练单元，用于将所述第一获取单元获取的识别文本段及其人工评价等级加入到识别结果评价模型更新数据中，更新所述识别结果评价模型，并在更新完成后，触发所述评价模块利用更新后的识别结果评价模型对全部或部分识别文本段重新进行评价。

优选地，所述抽查模块，具体用于依次抽查各类评价结果的准确率，并确定当前类评价结果的准确率是否低于设定阈值；

所述修正模块包括：

第二获取单元，用于获取所述抽查模块抽查的准确率低于设定阈值的当前类评价结果的识别文本段及其人工评价等级；

重训练单元，用于将所述第二获取单元获取的识别文本段及其人工评价等级加入到识别结果评价模型更新数据中，更新所述识别结果评价模型，并在更新完成后，触发所述评价模块利用更新后的识别结果评价模型对当前类及未抽查的各类评价结果的识别文本段重新进行评价；

所述评价模块，还用于在利用更新后的识别结果评价模型对识别文本段重新进行评价，得到新的评价结果，并在评价完成后触发所述抽查模块对新的评价结果继续执行抽查过程。

本发明实施例提供的语音识别结果评价方法及系统，预先根据识别文本的评价特征，从整体上对所有识别文本进行自动评价，然后抽查各类评价结果的准确率，对于准确率低的评价结果，结合人工评价修正识别结果评价模型，并利用修正后的识别结果评价模型重新评价识别结果，从而不仅减少了人工工作量，而且还提高了识别结果评价的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例语音识别结果评价方法的流程图；

图2是本发明实施例中语音识别文本部分混淆网络结构示意图；

图3是本发明实施例中对评价结果进行抽查及修正的一种流程图；

图4是本发明实施例语音识别结果评价系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例语音识别结果评价方法的流程图，包括以下步骤：

步骤101，对语音数据进行端点检测，得到各有效语音段。

所述语音数据可以是会议录音、采访录音等任意语音，本发明实施例不做限定。

所述端点检测是指从包含语音的一段信号中确定出语音信号的起始点及结束点。比如，可以采用基于短时能量和短时平均过零率的检测方法、基于频带方差的检测方法、基于熵的检测方法、基于倒谱的检测方法等。

步骤102，对各有效语音段进行语音识别，得到各有效语音段对应的识别文本段。

对各有效语音段的语音识别可以采用现有技术，比如，首先对各有效语音段进行特征提取；然后利用提取的特征数据及预先训练的声学模型和语言模型进行解码操作；最后根据解码结果得到当前有效语音段对应的识别文本段。

步骤103，提取各识别文本段的评价特征。

所述评价特征主要包括：识别结果置信度分布、以及以下一种或多种特征：槽平均弧数、词平均时长、以及句中停止词占比。

下面分别对这几种评价特征及其具体提取方法进行详细说明：

1)识别结果置信度分布

识别结果置信度分布即将置信度的分布划分为不同区间，比如三个区间，即高区间、中区间、低区间，分别计算当前识别文本段包含的词的置信度落在每个区间内的比例，即置信度落在每个区间内的词数与当前识别文本段中词的总数的比值，如置信度落在高区间内的词数比例，即为置信度落在高区间内的词数与当前识别文本段中词的总数的比值。

置信度的计算方法可以有多种，比如使用语音识别时解码得到的词后验概率作为该词的置信度，或者通过提取语音数据的声学特征来计算置信度，所述声学特征是根据语音识别过程中得到的中间结果得到的，如当前语音段的声学模型得分，或当前语音段包含的竞争词数，具体计算方法与现有技术相同，在此不再详述。

2)槽平均弧数

所述槽平均弧数是指语音识别时，混淆网络上平均每个槽上的弧数；所述槽指混淆网络上两个节点之间的全部弧，每个槽有一条或多条弧。如图2所示，为部分混淆网络的结构，如节点2与节点3之间的槽有三条弧，该部分混淆网络上平均每个槽上的弧数为2，即槽平均弧数为2。

3)词平均时长

所述词平均时长是指当前识别文本段对应的语音数据段的长度与当前识别文本段包含的词的总数的比值。

4)句中停止词占比

停止词是指常出现在句尾的词，如“吧”、“啊”、“了嘛”等。句中停止词是指本应出现在句尾的停止词，出现在句子中间的词。句中停止词占比是指当前识别文本段中的句中停止词数与当前识别文本段包含的词总数的比值。

步骤104，利用预先构建的识别结果评价模型及所述评价特征对各识别文本段进行评价，得到各识别文本段的评价结果。

在实际应用中，可以将识别文本段划分为多个等级进行评价，如好、较好、一般、较差、差等；当然也可以采用打分制，将识别文本的打分划分为多个范围，对此本发明实施例不做限定。将同一等级的评价结果作为一类。

所述识别结果评价模型可以预先离线构建，具体构建过程如下：

首先，收集大量语音数据，并对其进行语音识别，得到识别结果。随后，提取识别结果的评价特征，并人工标注识别结果的评价等级，作为识别结果的标注特征，所述标注特征如好、较好、一般、较差、差。最后，利用提取的识别结果评价特征及标注特征，训练识别结果评价模型。所述识别结果评价模型为模式识别中常用的分类模型，如支持向量机模型、神经网络模型等。

利用预先构建的识别结果评价模型，对各识别文本段进行评价时，将该识别文本段的评价特征作为所述识别结果评价模型的输入，对识别文本段进行评价预测，得到识别文本段评价结果预测为每个等级的概率，选择概率最大的等级作为当前识别文本的评价结果，从而得到识别文本段的评价结果。

步骤105，抽查所述评价结果的准确率，并且如果有准确率低于设定阈值的评价结果，则结合人工评价对全部或部分识别文本段的评价结果进行修正。

步骤106，修正结束后，输出最终评价结果。

为了防止识别结果评价模型对识别文本段的评价不准确，在本发明实施例中，针对识别文本段的评价结果进行抽查，如果抽查到的识别文本段的评价结果的准确率较低，比如低于设定阈值，则可以结合人工评价对识别结果评价模型进行修正，然后利用修正后的识别结果评价模型对全部或部分识别文本段重新进行评价，从而得到最终评价结果。

评价结果的准确率可以按评价结果的类别，即评价结果的等级，分别进行计算，对于每类评价结果，该类评价结果的准确率即为该类评价结果中正确的评价结果条数与该类评价结果的总条数的比值。为了进一步减少计算量，可以抽取该类评价结果中的多条评价结果，如5条，然后计算抽取的评价结果中正确的评价结果的条数与抽取的评价结果的总条数的比值，具体计算方法如式(1)所示：

r_{i} = \frac{m_{i}}{N_{i}} - - - (1)

其中，r_i为第i类评价结果的评价准确率，m_i为抽取的第i类评价结果中正确评价结果的条数，所述正确评价结果即人工检查该评价结果为正确评价结果，N_i为抽取的第i类评价结果的总条数。

需要说明的是，在实际应用中，可以任意抽查评价结果中的一类或多类评价结果，然后根据抽查结果对所述识别结果评价模型进行修正。而且，如果是抽查多类评价结果，可以对待抽查的评价结果全部抽查完毕后，再根据抽查结果对识别结果评价模型进行修正，也可以边抽查边修正。下面对这两种情况分别进行详细说明。

1)首先，抽查所有类评价结果的准确率，确定准确率低于设定阈值的所有类评价结果，然后对这些评价结果对应的识别文本段进行人工评价，将人工评价后的识别文本段及其人工评价等级加入到识别结果评价模型更新数据中，更新所述识别结果评价模型。利用更新后的识别结果评价模型重新对所有识别文本段进行评价；或者利用更新后的识别结果评价模型仅对抽查得到的准确率低于设定阈值的各类评价结果中所有的识别文本段重新进行评价，比如，抽查的评价结果中，有两类“较差”、“差”的评价结果的准确率低于设定阈值，则利用更新后的识别结果评价模型对评价结果为“较差”和“差”这两个类别中所有的识别文本段进行重新评价。

上述过程可以执行一次或迭代多次，具体迭代次数可以根据实际应用需求确定，如对于比较重要的会议录音的识别结果，可以进行多次迭代，对识别结果评价模型进行多次修正，从而提高识别结果的评价准确率。

2)依次抽查各类评价结果的准确率，只要抽查到当前类评价结果的准确率低于设定阈值，则立即更新识别结果评价模型。

如图3示出了具体的流程图，包括以下步骤：

步骤301，选择一类识别文本段的评价结果作为当前类评价结果。

步骤302，抽取当前类识别文本段的多条评价结果计算当前类评价结果的准确率。

步骤303，判断当前类评价结果的准确率是否超过阈值；如果超过，则执行步骤304，否则，执行步骤307。

步骤304，判断当前类评价结果是否为最后一类评价结果；如果是，则执行步骤305；否则，执行步骤306。

步骤305，结束所有评价结果的抽查。

步骤306，获取下一类评价结果作为当前类评价结果，然后返回步骤302。

步骤307，获取当前类评价结果抽取的识别文本段的人工评价等级，并将所述识别文本段及其人工评价等级加入到评价模型更新数据中，更新识别结果评价模型。

步骤308，利用更新后的识别结果评价模型对当前类及未抽查的各类评价结果的识别文本段进行评价，得到新的评价结果，然后从新的评价结果中选择一类评价结果作为当前类评价结果，执行步骤302。

本发明实施例提供的语音识别结果评价方法，预先根据识别文本的评价特征，从整体上对所有识别文本进行自动评价，然后抽查各类评价结果的准确率，对于准确率低的评价结果，结合人工评价修正识别结果评价模型，并利用修正后的识别结果评价模型重新评价识别结果，从而不仅减少了人工工作量，而且还提高了识别结果评价的准确率。

相应地，本发明实施例还提供一种语音识别结果评价系统，如图4所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

端点检测模块401，用于对语音数据进行端点检测，得到各有效语音段；

语音识别模块402，用于对各有效语音段进行语音识别，得到各有效语音段对应的识别文本段；

评价特征提取模块403，用于提取各识别文本段的评价特征；

评价模块404，用于利用预先构建的识别结果评价模型及所述评价特征对各识别文本段进行评价，得到各识别文本段的评价结果；

抽查模块405，用于抽查所述评价结果的准确率；

修正模块406，用于在有准确率低于设定阈值的评价结果时，结合人工评价对全部或部分识别文本段的评价结果进行修正；

输出模块407，用于修正结束后，输出最终评价结果。

所述识别结果评价模型可以预先离线构建，相应地，在本发明系统另一实施例中，所述系统还可包括：

模型构建模块(未图示)，用于构建所述识别结果评价模型。所述模型构建模块可以包括以下各单元：

数据收集单元，用于收集语音数据；

上述评价模块404具体可以将各识别文本段的评价特征作为所述识别结果评价模型的输入，对别文本段的评价进行预测，得到识别文本段评价结果为每个等级的概率，选择概率最大的等级作为当前识别文本的评价结果，从而得到识别文本段的评价结果。

抽查模块405在抽查评价结果的准确率时可以按评价结果的类别分别进行计算。为了进一步减少计算量，可以抽取该类评价结果中的多条评价结果，如5条，然后计算抽取的评价结果中正确的评价结果的条数与抽取的评价结果的总条数的比值，作为该类评价结果的准确率。另外，抽查模块405在抽查评价结果的准确率时，可以选择抽查所述评价结果中的一类或多类评价结果的准确率。而且，如果是抽查多类评价结果，则修正模块406可以在抽查模块405对待抽查的评价结果全部抽查完毕后，再根据抽查结果对识别结果评价模型进行修正，也可以在抽查模块405抽查完当前类评价结果后，如果当前类评价结果的准确率低于设定阈值，即对识别结果评价模型进行修正，也就是说，边抽查边修正，直至抽查完所有待抽查类的评价结果。

相应地，在实际应用中，上述抽查模块405和修正模块406的工作方式可以有多种，具体可以根据应用需要来设定，对此本发明实施例不做限定。

比如，在一种实施例中，所述抽查模块405具体用于抽查所有待抽查类评价结果，并在抽查完毕后，确定准确率低于设定阈值的所有类评价结果。相应地，所述修正模块406可以包括以下各单元：

重训练单元，用于将所述第一获取单元获取的识别文本段及其人工评价等级加入到识别结果评价模型更新数据中，更新所述识别结果评价模型，并在更新完成后，触发所述评价模块404利用更新后的识别结果评价模型对全部或部分识别文本段重新进行评价。

再比如，在另一实施例中，所述抽查模块405具体用于依次抽查各类评价结果的准确率，并确定当前类评价结果的准确率是否低于设定阈值。相应地，所述修正模块406可以包括以下各单元：

重训练单元，用于将所述第二获取单元获取的识别文本段及其人工评价等级加入到识别结果评价模型更新数据中，更新所述识别结果评价模型，并在更新完成后，触发所述评价模块406利用更新后的识别结果评价模型对当前类及未抽查的各类评价结果的识别文本段重新进行评价。

相应地，在该实施例中，所述评价模块406还用于在利用更新后的识别结果评价模型对识别文本段重新进行评价，得到新的评价结果，并在评价完成后，触发所述抽查模块405对新的评价结果继续执行抽查过程。

当然，在实际应用中，上述抽查模块405和修正模块406还可以有其它工作方式，在此不再一一举例说明。

本发明实施例提供的语音识别结果评价系统，预先根据识别文本的评价特征，从整体上对所有识别文本进行自动评价，然后抽查各类评价结果的准确率，对于准确率低的评价结果，结合人工评价修正识别结果评价模型，并利用修正后的识别结果评价模型重新评价识别结果，从而不仅减少了人工工作量，而且还提高了识别结果评价的准确率。

利用本发明实施例提供的语音识别结果评价方法及系统，可以广泛应用于语音交互、语音控制、语音记录等领域，使用户可以直观地了解语音数据识别结果的可信度。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别结果评价方法，其特征在于，包括：

对语音数据进行端点检测，得到各有效语音段；

提取各识别文本段的评价特征；

修正结束后，输出最终评价结果。

2.根据权利要求1所述的方法，其特征在于，所述评价特征包括：识别结果置信度分布、以及以下一种或多种特征：槽平均弧数、词平均时长、句中停止词占比。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

按以下方式构建所述识别结果评价模型：

收集语音数据，并对其进行语音识别，得到识别结果；

利用所述评价特征及标注特征，训练识别结果评价模型。

4.根据权利要求1所述的方法，其特征在于，所述评价结果包括多个等级，每个等级作为一类；

所述抽查所述评价结果的准确率包括：

抽查所述评价结果中的一类或多类评价结果的准确率。

5.根据权利要求4所述的方法，其特征在于，所述抽查所述评价结果的准确率，并且如果有准确率低于设定阈值的评价结果，则结合人工评价对全部或部分识别文本段的评价结果进行修正包括：

6.根据权利要求4所述的方法，其特征在于，所述抽查所述评价结果的准确率，并且如果有准确率低于设定阈值的评价结果，则结合人工评价对全部或部分识别文本段的评价结果进行修正包括：

依次抽查各类评价结果的准确率；

7.一种语音识别结果评价系统，其特征在于，包括：

评价特征提取模块，用于提取各识别文本段的评价特征；

抽查模块，用于抽查所述评价结果的准确率；

输出模块，用于修正结束后，输出最终评价结果。

8.根据权利要求7所述的系统，其特征在于，所述系统还包括：

数据收集单元，用于收集语音数据；

9.根据权利要求7所述的系统，其特征在于，所述评价结果包括多个等级，每个等级作为一类；

10.根据权利要求9所述的系统，其特征在于，

所述抽查模块，具体用于抽查所有待抽查类评价结果，并在抽查完毕后，确定准确率低于设定阈值的所有类评价结果；

所述修正模块包括：

11.根据权利要求9所述的系统，其特征在于，

所述抽查模块，具体用于依次抽查各类评价结果的准确率，并确定当前类评价结果的准确率是否低于设定阈值；

所述修正模块包括：