CN106486126B

CN106486126B - 语音识别纠错方法及装置

Info

Publication number: CN106486126B
Application number: CN201611180166.1A
Authority: CN
Inventors: 谢勤也
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2019-11-19
Anticipated expiration: 2036-12-19
Also published as: CN106486126A

Abstract

本发明是关于一种语音识别纠错方法及装置，其中，方法包括：获取通过当前语音识别模型得到的历史识别结果，其中，历史识别结果包含多个文本信息；对多个文本信息进行逻辑分析，提取出相互之间存在复述逻辑的目标文本信息；将相互之间存在复述逻辑的目标文本信息进行错误信道统计，生成文本对齐模型；接收用户输入的语音信息；根据当前语音识别模型和文本对齐模型对语音信息进行解码，以得到目标语音识别结果。通过该技术方案，可以使得识别后得到的语音识别结果更加准确，更加符合用户的要求，从而提升用户的使用体验。

Description

语音识别纠错方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别纠错方法及装置。

背景技术

语音处理的过程中，在通过语义进行理解的时候，依赖于语音识别的效果。如果语音识别效果较差，则会影响语义分析的效果。并且，在识别出语音对应的文字后，如果用户想要修改其中的某些文字，则可能需要手动进行修改，用户体验不佳。

发明内容

本发明实施例提供一种语音识别纠错方法及装置，用以实现提高语音识别的准确率，从而提升用户的使用体验。

根据本发明实施例的第一方面，提供一种语音识别纠错方法，包括：

获取通过当前语音识别模型得到的历史识别结果，其中，所述历史识别结果包含多个文本信息；

对所述多个文本信息进行逻辑分析，提取出相互之间存在复述逻辑的目标文本信息；

将所述相互之间存在复述逻辑的目标文本信息进行错误信道统计，生成文本对齐模型；

接收用户输入的语音信息；

根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码，以得到目标语音识别结果。

在该实施例中，根据历史识别结果中存在复述逻辑的文本信息生成文本对齐模型，从而在进行语音识别时，根据语音识别模型和生成的文本对其模型识别接收到的语音信息，这样，可以使得识别后得到的语音识别结果更加准确，更加符合用户的要求，从而提升用户的使用体验。

在一个实施例中，所述对所述多个文本信息进行逻辑分析，提取出相互之间存在复述逻辑的目标文本信息，包括：

通过隐马尔可夫模型对所述多个文本信息进行逻辑分析，以确定任意两个文本信息之间的逻辑关系；

根据所述任意两个文本信息之间的逻辑关系，从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。

在该实施例中，可以通过隐马尔可夫模型对文本信息进行逻辑分析，其可以分析出不同文本信息时间是否存在关联，以及具体的逻辑关系，如上下文关系，并列关系，复述关系等，进而确定相互之间存在复述逻辑的目标文本信息。

获取每个文本信息的特征信息，其中，所述特征信息包括以下至少一项：文本特征信息、发音特征信息、语义特征信息；

根据所述特征信息计算任意两个文本信息之间的相似度；

获取所述任意两个文本信息之间的输入时间间隔；

根据所述任意两个文本信息之间的相似度和所述输入时间间隔，从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。

在一个实施例中，所述根据所述相似度和所述输入时间间隔，从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息，包括：

将相似度大于或者等于预设相似度，且输入时间间隔小于或者等于预设时间间隔的文本信息确定为所述目标文本信息。

在该实施例中，还可以根据不同文本信息之间的文本特征信息、发音特征信息、语义特征信息等确定两个文本信息之间是否存在复述逻辑。一般而言，存在复述逻辑的两个文本之间的间隔时间会非常短，其它逻辑的间隔时间会略长。另外，存在复述逻辑的两个文本的音频特征会非常相似，包括长度相同。

在一个实施例中，根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码，以得到目标语音识别结果，包括：

通过所述语音识别模型对所述语音信息进行解码，得到第一语音识别结果；

根据所述第一语音识别结果、所述文本对齐模型和隐马尔可夫模型，得到第二语音识别结果；

将所述第二语音识别结果确定为所述目标语音识别结果。

在该实施例中，在进行语音识别时，可以先通过语音识别模型对语音信息进行解码，得到第一语音识别结果，进而根据文本对齐模型和隐马尔可夫模型对第一语音识别结果进行完善，从而得到更加准确的识别结果，提高语音识别的准确率。

根据本发明实施例的第二方面，提供一种语音识别纠错装置，包括：

获取模块，用于获取通过当前语音识别模型得到的历史识别结果，其中，所述历史识别结果包含多个文本信息；

提取模块，用于对所述多个文本信息进行逻辑分析，提取出相互之间存在复述逻辑的目标文本信息；

生成模块，用于将所述相互之间存在复述逻辑的目标文本信息进行错误信道统计，生成文本对齐模型；

接收模块，用于接收用户输入的语音信息；

识别模块，用于根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码，以得到目标语音识别结果。

在一个实施例中，所述提取模块包括：

关系确定子模块，用于通过隐马尔可夫模型对所述多个文本信息进行逻辑分析，以确定任意两个文本信息之间的逻辑关系；

第一提取子模块，用于根据所述任意两个文本信息之间的逻辑关系，从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。

在一个实施例中，所述提取模块包括：

第一获取子模块，用于获取每个文本信息的特征信息，其中，所述特征信息包括以下至少一项：文本特征信息、发音特征信息、语义特征信息；

计算子模块，用于根据所述特征信息计算任意两个文本信息之间的相似度；

第二获取子模块，用于获取所述任意两个文本信息之间的输入时间间隔；

第二提取子模块，用于根据所述任意两个文本信息之间的相似度和所述输入时间间隔，从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。

在一个实施例中，所述第二提取子模块用于：

在一个实施例中，所述识别模块包括：

识别子模块，用于通过所述语音识别模型对所述语音信息进行解码，得到第一语音识别结果；

处理子模块，用于根据所述第一语音识别结果、所述文本对齐模型和隐马尔可夫模型，得到第二语音识别结果；

结果确定子模块，用于将所述第二语音识别结果确定为所述目标语音识别结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音识别纠错方法的流程图。

图2是根据一示例性实施例示出的一种语音识别纠错方法中步骤S102的流程图。

图3是根据一示例性实施例示出的另一种语音识别纠错方法中步骤S102的流程图。

图4是根据一示例性实施例示出的一种语音识别纠错方法中步骤S105的流程图。

图5是根据一示例性实施例示出的一种语音识别纠错装置的框图。

图6是根据一示例性实施例示出的一种语音识别纠错装置中提取模块的框图。

图7是根据一示例性实施例示出的另一种语音识别纠错装置中提取模块的框图。

图8是根据一示例性实施例示出的一种语音识别纠错装置中识别模块的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音识别纠错方法的流程图。该语音识别纠错方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音识别功能的设备。如图1所示，该方法包括步骤S101-S105：

在步骤S101中，获取通过当前语音识别模型得到的历史识别结果，其中，历史识别结果包含多个文本信息；

在步骤S102中，对多个文本信息进行逻辑分析，提取出相互之间存在复述逻辑的目标文本信息；

例如，用户说“蓝色小苹果”的音，识别出“蓝色小苹果”的字，用户马上说“来个小苹果”，识别出“来个小苹果”，此时，“蓝色小苹果”和“来个小苹果”即存在复述逻辑。

在步骤S103中，将相互之间存在复述逻辑的目标文本信息进行错误信道统计，生成文本对齐模型；

如上例，文本信息“蓝色小苹果”和“来个小苹果”之间存在复述逻辑，则可以将两个文本信息进行错误信道统计，生成文本对齐模型，在上例中，生成的对齐模型为“来个”和“蓝色”对齐。

在步骤S104中，接收用户输入的语音信息；

在步骤S105中，根据当前语音识别模型和文本对齐模型对语音信息进行解码，以得到目标语音识别结果。

当生成文本对齐模型后，可以在通过当前语音识别模型对语音信息识别后，进一步通过文本对齐模型对识别结果进行完善。例如，用户说“蓝色小苹果”的音，通过预设语音识别模块识别出“蓝色小苹果”的字，再通过文本对齐模型确定“来个”和“蓝色”对齐，并通过语义分析等确定“来个”应该更符合用户意图，则可以得到识别结果“来个小苹果”。

如图2所示，在一个实施例中，上述步骤S102包括步骤S201-S202：

在步骤S201中，通过隐马尔可夫模型对多个文本信息进行逻辑建模，以确定任意两个文本信息之间的逻辑关系；

在步骤S202中，根据任意两个文本信息之间的逻辑关系，从多个文本信息中提取出相互之间存在复述逻辑的目标文本信息。

如图3所示，在一个实施例中，上述步骤S102包括步骤S301-S304：

在步骤S301中，获取每个文本信息的特征信息，其中，特征信息包括以下至少一项：文本特征信息、发音特征信息、语义特征信息；

文本特征信息包括文本文字、文本长度等，发音特征信息即文本发音，语义特征信息即文本语义。

在步骤S302中，根据特征信息计算任意两个文本信息之间的相似度；

根据不同文本信息之间的文本特征、发音特征和语义特征等可以计算文本信息之间的相似度。

在步骤S303中，获取任意两个文本信息之间的输入时间间隔；

在步骤S304中，根据任意两个文本信息之间的相似度和输入时间间隔，从多个文本信息中提取出相互之间存在复述逻辑的目标文本信息。

在一个实施例中，上述步骤S304包括：

将相似度大于或者等于预设相似度，且输入时间间隔小于或者等于预设时间间隔的文本信息确定为目标文本信息。

当然，上述图2和图3所示的方法还可以结合使用，即同时根据任意两个文本信息之间的输入时间间隔、相似度和逻辑关系确定目标文本信息。

如图4所示，在一个实施例中，上述步骤S105包括步骤S401-S403：

在步骤S401中，通过语音识别模型对语音信息进行解码，得到第一语音识别结果；

例如，用户说“蓝色小苹果”的音，通过预设语音识别模块识别出“蓝色小苹果”的字，“蓝色小苹果”即第一识别结果。

在步骤S402中，根据第一语音识别结果、文本对齐模型和隐马尔可夫模型，得到第二语音识别结果；

如上述例子，在得到第一识别结果“蓝色小苹果”后，通过文本对齐模型确定“来个”和“蓝色”对齐，并通过隐马尔可夫模型进行语义分析，如通对用户会话的上下文进行分析，如用户上文是：播放音乐，确定“来个”应该更符合用户意图，则可以得到识别结果“来个小苹果”；如用户上文是红色的苹果，则维持“蓝色小苹果”为最终结果。

在步骤S403中，将第二语音识别结果确定为目标语音识别结果。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图5是根据一示例性实施例示出的一种语音识别纠错装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图5所示，该语音识别纠错装置包括：

获取模块51，用于获取通过当前语音识别模型得到的历史识别结果，其中，所述历史识别结果包含多个文本信息；

提取模块52，用于对所述多个文本信息进行逻辑分析，提取出相互之间存在复述逻辑的目标文本信息；

生成模块53，用于将所述相互之间存在复述逻辑的目标文本信息进行错误信道统计，生成文本对齐模型；

接收模块54，用于接收用户输入的语音信息；

识别模块55，用于根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码，以得到目标语音识别结果。

如图6所示，在一个实施例中，所述提取模块52包括：

关系确定子模块61，用于通过隐马尔可夫模型对所述多个文本信息进行逻辑分析，以确定任意两个文本信息之间的逻辑关系；

第一提取子模块62，用于根据所述任意两个文本信息之间的逻辑关系，从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。

如图7所示，在一个实施例中，所述提取模块52包括：

第一获取子模块71，用于获取每个文本信息的特征信息，其中，所述特征信息包括以下至少一项：文本特征信息、发音特征信息、语义特征信息；

计算子模块72，用于根据所述特征信息计算任意两个文本信息之间的相似度；

第二获取子模块73，用于获取所述任意两个文本信息之间的输入时间间隔；

第二提取子模块74，用于根据所述任意两个文本信息之间的相似度和所述输入时间间隔，从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。

在一个实施例中，所述第二提取子模块74用于：

如图8所示，在一个实施例中，所述识别模块55包括：

识别子模块81，用于通过所述语音识别模型对所述语音信息进行解码，得到第一语音识别结果；

处理子模块82，用于根据所述第一语音识别结果、所述文本对齐模型和隐马尔可夫模型，得到第二语音识别结果；

结果确定子模块83，用于将所述第二语音识别结果确定为所述目标语音识别结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别纠错方法，其特征在于，包括：

接收用户输入的语音信息；

根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码，以得到目标语音识别结果；

根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码，以得到目标语音识别结果，包括：

将所述第二语音识别结果确定为所述目标语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述多个文本信息进行逻辑分析，提取出相互之间存在复述逻辑的目标文本信息，包括：

通过隐马尔可夫模型对所述多个文本信息进行逻辑建模，以确定任意两个文本信息之间的逻辑关系；

3.根据权利要求1或2所述的方法，其特征在于，所述对所述多个文本信息进行逻辑分析，提取出相互之间存在复述逻辑的目标文本信息，包括：

根据所述特征信息计算任意两个文本信息之间的相似度；

获取所述任意两个文本信息之间的输入时间间隔；

4.根据权利要求3所述的方法，其特征在于，所述根据所述相似度和所述输入时间间隔，从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息，包括：

5.一种语音识别纠错装置，其特征在于，包括：

接收模块，用于接收用户输入的语音信息；

识别模块，用于根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码，以得到目标语音识别结果；

所述识别模块包括：

6.根据权利要求5所述的装置，其特征在于，所述提取模块包括：

关系确定子模块，用于通过隐马尔可夫模型对所述多个文本信息进行逻辑建模，以确定任意两个文本信息之间的逻辑关系；

7.根据权利要求5或6所述的装置，其特征在于，所述提取模块包括：

8.根据权利要求7所述的装置，其特征在于，所述第二提取子模块用于：