CN106340293B

CN106340293B - 一种音频数据识别结果的调整方法及装置

Info

Publication number: CN106340293B
Application number: CN201510392612.4A
Authority: CN
Inventors: 刘赵杰
Original assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Current assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Priority date: 2015-07-06
Filing date: 2015-07-06
Publication date: 2019-11-29
Anticipated expiration: 2035-07-06
Also published as: CN106340293A

Abstract

本发明公开了一种音频数据识别结果的调整方法及装置。所述方法包括：在接收到第一音频数据的第一识别结果时，获取所述第一识别结果中的指定文字信息；从所述第一音频数据中确定所述指定文字信息所对应的指定音频数据；获取所述指定音频数据的发音，并从已经建立的词频统计模型中获取与所述发音对应的目标候选信息；使用所述目标候选信息替换所述指定文字信息，以对所述第一识别结果进行调整。通过本发明的技术方案，能够自动地对语音识别结果进行调整，并最终实现提高人工校对音频数据识别结果时，音频数据识别结果的校对效率和准确性。

Description

一种音频数据识别结果的调整方法及装置

技术领域

本发明涉及音频数据识别技术领域，特别涉及一种音频数据识别结果的调整方法及装置。

背景技术

目前，音频数据识别的总体识别率越来越高，但音频数据识别仍然会出现错误，且引擎或语音识别工具自身并无法正确判断语音识别结果是否正确，这影响了音频数据识别结果的正确率。为了确保音频数据识别结果的质量，需要人工校对，但由于人为因素也会出现一些错误，同时也会降低音频数据识别的效率。

发明内容

本发明提供一种音频数据识别结果的调整方法及装置，用以提高人工校对音频数据识别结果时，音频数据识别结果的校对效率和准确性。

本发明提供一种音频数据识别结果的调整方法，包括：在接收到第一音频数据的第一识别结果时，获取所述第一识别结果中的指定文字信息；

从所述第一音频数据中确定所述指定文字信息所对应的指定音频数据；

获取所述指定音频数据的发音，并从已经建立的词频统计模型中获取与所述发音对应的目标候选信息；

使用所述目标候选信息替换所述指定文字信息，以对所述第一识别结果进行调整。

在一个实施例中，所述方法还包括：

当所述目标候选信息为至少两个时，按照至少两个所述目标候选信息中的每个所述目标候选信息的最近使用时间、历史使用频率、历史使用次数之和、历史使用地点中的一种或其组合确定至少两个所述目标候选信息的显示优先级；

按照所述显示优先级从高到低的顺序依次将至少两个所述目标候选信息进行排列显示。

在一个实施例中，所述方法还包括：

当至少两个所述目标候选信息中的任一目标候选信息被选中后，按照所述任一目标候选信息与其他目标候选信息中的每个目标候选信息的关联度，确定后续目标候选信息，以将所述后续目标候选信息提示给用户，其中，所述其他目标候选信息为至少两个所述目标候选信息中除所述任一目标候选信息之外的目标候选信息，且所述后续目标候选信息为所述其他目标候选信息中与所述任一目标候选信息的关联度最高的目标候选信息。

在一个实施例中，所述方法还包括：

当接收到音频识别任务时，识别接收到的第二音频数据；

对所述第二音频数据的第二识别结果进行分词，以得到至少一个词，其中，所述至少一个词包括至少一个独词和至少一个组合词中的一种或其组合；

对所述至少一个独词和所述至少一个组合词中的一种或其组合进行词频统计，以得到词频统计结果；

根据所述词频统计结果获取所述至少一个词中的高频词，并实时获取与所述高频词相关的关联信息；

根据所述高频词、所述相关信息和所述词频统计结果建立所述词频统计模型。

本发明还提供一种音频数据识别结果的调整装置，包括：第一获取单元，用于在接收到第一音频数据的第一识别结果时，获取所述第一识别结果中的指定文字信息；

第一确定单元，用于从所述第一音频数据中确定所述指定文字信息所对应的指定音频数据；

第二获取单元，用于获取所述指定音频数据的发音，并从已经建立的词频统计模型中获取与所述发音对应的目标候选信息；

调整单元，用于使用所述目标候选信息替换所述指定文字信息，以对所述第一识别结果进行调整。

在一个实施例中，所述装置还包括：

第二确定单元，用于当所述目标候选信息为至少两个时，按照至少两个所述目标候选信息中的每个所述目标候选信息的最近使用时间、历史使用频率、历史使用次数之和、历史使用地点中的一种或其组合确定至少两个所述目标候选信息的显示优先级；

显示单元，用于按照所述显示优先级从高到低的顺序依次将至少两个所述目标候选信息进行排列显示。

在一个实施例中，所述装置还包括：

第三确定单元，用于当至少两个所述目标候选信息中的任一目标候选信息被选中后，按照所述任一目标候选信息与其他目标候选信息中的每个目标候选信息的关联度，确定后续目标候选信息；

提示单元，用于将所述后续目标候选信息提示给用户，其中，所述其他目标候选信息为至少两个所述目标候选信息中除所述任一目标候选信息之外的目标候选信息，且所述后续目标候选信息为所述其他目标候选信息中与所述任一目标候选信息的关联度最高的目标候选信息。

在一个实施例中，所述装置还包括：

识别单元，用于当接收到音频识别任务时，识别接收到的第二音频数据；

分词单元，用于对所述第二音频数据的第二识别结果进行分词，以得到至少一个词，其中，所述至少一个词包括至少一个独词和至少一个组合词中的一种或其组合；

统计单元，用于对所述至少一个独词和所述至少一个组合词中的一种或其组合进行词频统计，以得到词频统计结果；

第三获取单元，用于根据所述词频统计结果获取所述至少一个词中的高频词，并实时获取与所述高频词相关的关联信息；

建立单元，用于根据所述高频词、所述相关信息和所述词频统计结果建立所述词频统计模型。

本公开的实施例提供的技术方案可以包括以下有益效果：

在人工校对音频数据的识别结果的过程中，校对员首先会获取识别结果中错误文字或可能错误的文字即指定文字信息，然后系统会根据指定文字信息所对应的指定音频数据和该指定音频数据的发音，自动地、智能地从已建立的词频统计模型中获取与该发音对应的目标候选信息，以使用该目标候选信息替换指定文字信息，从而自动地对语音识别结果进行调整，并最终实现提高人工校对音频数据识别结果时，音频数据识别结果的校对效率和准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据一示例性实施例示出的一种音频数据识别结果的调整方法的流程图。

图2是根据一示例性实施例示出的另一种音频数据识别结果的调整方法的流程图。

图3是根据一示例性实施例示出的一种音频数据识别结果的调整装置的框图。

图4是根据一示例性实施例示出的另一种音频数据识别结果的调整装置的框图。

图5是根据一示例性实施例示出的又一种音频数据识别结果的调整装置的框图。

图6是根据一示例性实施例示出的再一种音频数据识别结果的调整装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

相关技术中，音频数据识别的总体识别率越来越高，但音频数据识别仍然会出现错误，且引擎或语音识别工具自身并无法正确判断语音识别结果是否正确，这影响了音频数据识别结果的正确率。为了确保音频数据识别结果的质量，需要人工校对，但由于人为因素也会出现一些错误，同时也会降低音频数据识别的效率。

为了解决上述技术问题，本公开实施例提供了一种音频数据识别结果的调整方法，该方法适用于音频数据识别结果的调整的程序、系统或装置中，如图1所示，步骤S101，在接收到第一音频数据的第一识别结果时，获取所述第一识别结果中的指定文字信息；其中，指定文字信息是人工校对第一识别结果时，校对员发现的第一识别结果中的错误文字信息或可能错误的文字信息。

步骤S102，从所述第一音频数据中确定所述指定文字信息所对应的指定音频数据；其中，确定指定音频数据的具体过程为：根据该指定文字信息在第一识别结果中的起始时间和占用的总时间，利用语音对齐技术，即获取到第一音频数据中与该起始时间和占用的总时间所对应的指定音频数据。

步骤S103，获取所述指定音频数据的发音，并从已经建立的词频统计模型中获取与所述发音对应的目标候选信息；其中，该发音可以是该指定音频数据的拼音，也可以对应该指定音频数据的外语音标，而获取所述指定音频数据的发音的过程可以采用人工获取的方式，如人工输入该指定音频数据的拼音，也可以是音频数据识别结果的调整装置在获取到该指定音频数据之后，自动地获取该发音；而在获取到该发音后音频数据识别结果的调整装置会自动地、智能地从已建立的词频统计模型中获取与该发音对应的目标候选信息，其中，目标候选信息可以是从词频统计模型中获取到的一个或多个词，或者是一个短语，或者是一个句子。

步骤S104，使用所述目标候选信息替换所述指定文字信息，以对所述第一识别结果进行调整。使用该目标候选信息替换错误文字的方式可以是人工手动替换的方式，也可以是音频数据识别结果的调整装置自动替换的方式，无论使用哪种替换方式，通过使用目标候选信息替换指定文字信息，均可以对语音识别结果进行调整和优化，并最终实现提高人工校对音频数据识别结果时，音频数据识别结果的校对效率和准确性，得到更加准确的音频识别结果。

如图2所示，在一个实施例中，所述方法还包括：

步骤S201，当所述目标候选信息为至少两个时，按照至少两个所述目标候选信息中的每个所述目标候选信息的最近使用时间、历史使用频率、历史使用次数之和、历史使用地点中的一种或其组合确定至少两个所述目标候选信息的显示优先级；步骤S202，按照所述显示优先级从高到低的顺序依次将至少两个所述目标候选信息进行排列显示。

当目标候选信息为至少两个时，可以按照该至少两个目标候选信息中的每个目标候选信息的最近使用时间、历史使用频率、历史使用次数之和、历史使用地点中的一种或其组合确定每个目标候选信息的显示优先级，从而可以使至少两个目标候选信息按照最符合用户使用习惯和需求的方式进行显示，以提高目标候选信息的选择效率和准确性，进而实现提高人工校对音频数据识别结果时，音频数据识别结果的校对效率和准确性，并提高用户的使用体验。例如：

由于在不同的地方接收到同一音频数据时，用户期望的识别结果可能不同，因此，在接收到第一音频数据的第一识别结果时，可以获取接收到第一识别结果的当前设备所在的当前地点，然后按照每个目标候选信息的历史使用地点，将至少两个目标候选信息按照与当前地点匹配率从高到低的顺序依次进行显示；或者

按照用户对目标候选信息的最近使用时间从小到大的顺序、或者历史使用频率从高到低的顺序、或者历史使用次数之和从高到低的顺序依次将至少两个目标候选信息进行排列显示；

当然，也可以综合上述多种显示方式，以综合确定显示优先级，从而确保尽最大可能地提高用户期望的目标候选信息的命中率，以最大程度地优化音频数据识别结果和音频数据识别结果的校对效率、准确性。

在一个实施例中，所述方法还包括：

当自动地或手动地选择出任一目标候选信息时，系统会自动地按照任一目标候选信息与其他目标候选信息中的每个目标候选信息的关联度，将与该任一目标候选信息的相关度(该任一目标候选信息与其他目标候选信息的即条件概率)最高的后续目标候选信息提示给用户，以避免用户手动查找并选择该后续目标候选信息，从而进一步提高用户期望的目标候选信息的命中率和音频数据识别结果的校对效率和准确性，例如，当任一目标候选信息为“柴静”时，系统会关联到“穹顶之下”，然后将“穹顶之下”作为后续目标候选信息自动提示给用户以供用户选择；

当然，本发明在提高用户期望的目标候选信息的命中率使，也优化了输入法；另外，在本技术方案中，候选目标候选信息不仅可以是与该任一目标候选信息的关联度最高的目标候选信息，也可以是与该任一目标候选信息的关联度较高的若干个目标候选信息，然后系统按照关联度由高到低的顺序依次对该若干个目标候选信息进行排列显示，以使用户手动选择最优的目标候选信息，其中该若干个小于至少两个减一的差值。

在一个实施例中，所述方法还包括：

当接收到音频识别任务时，识别接收到的第二音频数据；其中，音频识别任务可以与接收第一音频数据同步进行，即第二音频数据与第一音频数据相同，这样，就可以将调整后的第一识别结果作为第二识别结果，以同步更新词频统计模型；当然，音频识别任务也可以是单独进行的，不与接收第一音频数据同步进行。

通过使用分词工具对分词后的至少一个独词和至少一个组合词中的一种或其组合进行词频统计，可以得到每个独词和每个组合词的词频即词频统计结果，以便于根据词频统计结果确定出至少一个词中的高频词(即第二识别结果出现频率高于预设出现频率的词)，然后根据该高频词从网络侧或接收到音频识别任务的设备中的本地磁盘或存储空间中查找出与该高频词相关的相关信息(例如：第二识别结果中的高频词为“两会”时，其相关信息就是从网络侧的新闻网页中抓取的与“两会”相关的新闻文本)，并根据该高频词、相关信息和所述词频统计结果建立可供根据指定音频数据的发音动态地查询出目标候选信息的词频统计模型。

如图3所示，本发明还提供一种音频数据识别结果的调整装置，包括：第一获取单元301，被配置为在接收到第一音频数据的第一识别结果时，获取所述第一识别结果中的指定文字信息；

第一确定单元302，被配置为从所述第一音频数据中确定所述指定文字信息所对应的指定音频数据；

第二获取单元303，被配置为获取所述指定音频数据的发音，并从已经建立的词频统计模型中获取与所述发音对应的目标候选信息；

调整单元304，被配置为使用所述目标候选信息替换所述指定文字信息，以对所述第一识别结果进行调整。

如图4所示，在一个实施例中，所述装置还包括：

第二确定单元401，被配置为当所述目标候选信息为至少两个时，按照至少两个所述目标候选信息中的每个所述目标候选信息的最近使用时间、历史使用频率、历史使用次数之和、历史使用地点中的一种或其组合确定至少两个所述目标候选信息的显示优先级；

显示单元402，被配置为按照所述显示优先级从高到低的顺序依次将至少两个所述目标候选信息进行排列显示。

如图5所示，在一个实施例中，所述装置还包括：

第三确定单元501，被配置为当至少两个所述目标候选信息中的任一目标候选信息被选中后，按照所述任一目标候选信息与其他目标候选信息中的每个目标候选信息的关联度，确定后续目标候选信息；

提示单元502，被配置为将所述后续目标候选信息提示给用户，其中，所述其他目标候选信息为至少两个所述目标候选信息中除所述任一目标候选信息之外的目标候选信息，且所述后续目标候选信息为所述其他目标候选信息中与所述任一目标候选信息的关联度最高的目标候选信息。

如图6所示，在一个实施例中，所述装置还包括：

识别单元601，被配置为当接收到音频识别任务时，识别接收到的第二音频数据；

分词单元602，被配置为对所述第二音频数据的第二识别结果进行分词，以得到至少一个词，其中，所述至少一个词包括至少一个独词和至少一个组合词中的一种或其组合；

统计单元603，被配置为对所述至少一个独词和所述至少一个组合词中的一种或其组合进行词频统计，以得到词频统计结果；

第三获取单元604，被配置为根据所述词频统计结果获取所述至少一个词中的高频词，并实时获取与所述高频词相关的关联信息；

建立单元605，被配置为根据所述高频词、所述相关信息和所述词频统计结果建立所述词频统计模型。

最后，本发明中的音频数据识别结果的调整装置适用于终端设备。例如，可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频数据识别结果的调整方法，其特征在于，包括：

在接收到第一音频数据的第一识别结果时，获取所述第一识别结果中的指定文字信息，所述指定文字信息是人工校对第一识别结果时，发现的所述第一识别结果中的错误文字信息或可能错误的文字信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

当接收到音频识别任务时，识别接收到的第二音频数据；

5.一种音频数据识别结果的调整装置，其特征在于，包括：

第一获取单元，用于在接收到第一音频数据的第一识别结果时，获取所述第一识别结果中的指定文字信息，所述指定文字信息是人工校对第一识别结果时，发现的所述第一识别结果中的错误文字信息或可能错误的文字信息；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求5至7中任一项所述的装置，其特征在于，所述装置还包括：