CN109522550B

CN109522550B - 文本信息纠错方法、装置、计算机设备和存储介质

Info

Publication number: CN109522550B
Application number: CN201811325678.1A
Authority: CN
Inventors: 肖文龙; 刘建; 黄华伦
Original assignee: Workway Shenzhen Information Technology Co ltd
Current assignee: Workway Shenzhen Information Technology Co ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2023-04-07
Anticipated expiration: 2038-11-08
Also published as: CN109522550A

Abstract

本申请涉及一种文本信息纠错方法，所述方法包括：获取音频信息对应的文本信息，将所述文本信息转化为第一拼音列表；根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表；当存在所述多个拼音首字母对应的第二词语列表时，在所述文本信息中查找所述多个拼音首字母对应的字符串；在所述第二词语列表中选择所述字符串对应的词语，将所述词语对相应的字符串进行纠错，得到纠错后的文本信息。采用本方法能够提高文本信息的准确性，从而提高语音识别的准确性。

Description

文本信息纠错方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音技术领域，特别是涉及一种文本信息纠错方法、装置、计算机设备和存储介质。

背景技术

语音识别是一门交叉学科，该技术涉及信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等多个领域。语音识别的主要过程是获取拾音系统中的音频信息，从该音频信息中提取声学特征，然后根据语音识别模型将音频信息转化为文本信息。在语音识别的过程中，文本信息的准确性极易受到各种因素的影响。例如，语音识别模型不能识别音频信息中的谐音词语、音频信息中英混杂，以及音频信息中用户发音不准等。因此，如何提高文本信息的准确性，从而提高语音识别的准确性成为目前需要解决的一个技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在提高文本信息的准确性，从而提高语音识别的准确性的文本信息纠错方法、装置、计算机设备和存储介质。

一种文本信息纠错方法，所述方法包括：

获取音频信息对应的文本信息，将所述文本信息转化为第一拼音列表；

根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表；

当存在所述多个拼音首字母对应的第二词语列表时，在所述文本信息中查找所述多个拼音首字母对应的字符串；

在所述第二词语列表中选择所述字符串对应的词语，将所述词语对相应的字符串进行纠错，得到纠错后的文本信息。

在其中一个实施例中，所述根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表，包括：

根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表；

当存在所述多个拼音首字母对应的第二拼音列表时，获取所述第二拼音列表对应的第二词语列表。

在其中一个实施例中，所述在所述第二词语列表中选择所述字符串对应的词语，将所述词语对相应的字符串进行纠错，包括：

当所述第二词语列表的长度大于预设值时，将所述第二词语列表中的词语与所述字符串进行比对，得到比对结果；

当所述比对结果中存在比对成功的词语时，将所述词语对相应的字符串进行纠错。

在其中一个实施例中，所述方法还包括：当所述比对结果中未得到比对成功的词语时，将所述第二词语列表中的词语在所述第二拼音列表中的拼音与所述字符串在所述第一拼音列表中的拼音进行比对，得到拼音比对结果；选取所述拼音比对结果中匹配度最高的词语，将所述匹配度最高的词语对相应的字符串进行纠错。

在其中一个实施例中，所述方法还包括：

对所述字典树中每个节点存储的拼音列表中发音近似的音节进行字母过滤处理；

在过滤处理后的字典树中查找所述第一拼音列表中的多个拼音首字母对应的第二词语列表。

一种文本信息纠错装置，所述装置包括：

信息转化模块，用于获取音频信息对应的文本信息，将所述文本信息转化为第一拼音列表；

列表查找模块，用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表；

字符串查找模块，用于当存在所述多个拼音首字母对应的第二词语列表时，在所述文本信息中查找所述多个拼音首字母对应的字符串；

字符串纠错模块，用于在所述第二词语列表中选择所述字符串对应的词语，将所述词语对相应的字符串进行纠错，得到纠错后的文本信息。

在其中一个实施例中，所述列表查找模块还用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表；当存在所述多个拼音首字母对应的第二拼音列表时，获取所述第二拼音列表对应的第二词语列表。

在其中一个实施例中，所述字符串纠错模块还用于当所述第二词语列表的长度大于预设值时，将所述第二词语列表中的词语与所述字符串进行比对，得到比对结果；当所述比对结果中存在比对成功的词语时，将所述词语对相应的字符串进行纠错。

一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

上述文本信息纠错方法、装置、计算机设备和存储介质，根据拼音列表中的多个拼音首字母以及字典树查找规则在文本信息中查找多个拼音首字母对应的字符串，将在字典树中查找到的词语对相应的字符串进行纠错。能够在音频信息中出现谐音词语、中英混杂、用户发音不准等情况下提高文本信息的准确性，从而提高语音识别的准确性。

附图说明

图1为一个实施例中文本信息纠错方法的应用环境图；

图2为一个实施例中文本信息纠错方法的流程示意图；

图3为一个实施例中字典树的结构示意图；

图4为一个实施例中查找第二词语列表步骤的流程示意图；

图5为一个实施例中文本信息纠错装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本信息纠错方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。终端102接收音频信息，将该音频信息转化为文本信息，终端102将文本信息上传至服务器104。终端102还可以将接收到的音频信息直接上传至服务器104，服务器104将音频信息转化为文本信息。服务器104将文本信息转化为第一拼音列表。服务器104根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二词语列表。当查找到多个拼音首字母对应的第二词语列表时，服务器104在文本信息中查找多个拼音首字母对应的字符串。服务器104在第二词语列表中选择字符串对应的词语，将词语对相应的字符串进行纠错，得到纠错后的文本信息。通过对文本信息进行纠错，能够在录制演讲、抄录笔记、语言评测等学习过程中提高语音识别的准确性。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种文本信息纠错方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取音频信息对应的文本信息，将文本信息转化为第一拼音列表。

在语音识别过程中，服务器可以直接获取终端上传的音频信息对应的文本信息，也可以接收终端上传的音频信息，将该音频信息转化为文本信息。服务器可以将文本信息转化为第一拼音列表，服务器可以通过第一拼音列表将文本信息中的字符串与字典树中的词语进行拼音层次上的对比。其中，字符串是指可以根据词语中每个字的拼音首字母进行查找的词语或文本。

服务器可以根据第一拼音列表中的所有拼音首字母生成第一拼音首字母列表，也可以将文本信息直接转化为第一拼音首字母列表，通过第一拼音首字母列表将文本信息中的字符串与字典树中的词语进行拼音首字母层次上的对比。服务器还可以将文本信息转化第一词语列表，通过第一词语列表将文本信息中的字符串与字典树中查找到的词语进行词语层次上的对比。上述列表可以是以字为单位的列表。

步骤204，根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二词语列表。

服务器在获取音频信息对应的文本信息，将文本信息转化为第一拼音列表后，可根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二词语列表。其中，字典树如图3所示，字典树的根节点存储有所有的拼音字母，一级节点为每一个词语列表中词语的第一个字的拼音首字母，二级节点为该词语的第二个字的拼音首字母，按照词语中每个字的拼音首字母的顺序来作为字典树的级别节点。字典树中的词语可以是通过对语音识别效果进行分析，得到的语音识别不准确的词语，通过利用该字典树进行纠错，可以弥补语音识别的缺陷，形成与语音识别互补的纠错字典树。

如果服务器查找到当前的多个拼音首字母在字典树对应的第二词语列表，则在文本信息中查找多个拼音首字母对应的字符串。如果服务器未查找到当前的多个拼音首字母在字典树对应的第二词语列表，则继续根据第一拼音列表中的其他拼音首字母在字典树中进行查找是否存在对应的词语列表，如果查找到对应的词语列表，则在文本信息中查找该拼音首字母对应的字符串。如果未查找到对应的词语列表，则循环上述查找过程。服务器可以构建ac自动机(Aho-Corasick automaton)跳转表来进行词语查找。

步骤206，当存在多个拼音首字母对应的第二词语列表时，在文本信息中查找多个拼音首字母对应的字符串。

服务器在根据第一拼音列表中的多个拼音首字母在字典树中查找多个拼音首字母是否对应存在第二词语列表后，可在多个拼音首字母对应存在第二词语列表时，在文本信息中查找多个拼音首字母对应的字符串。当根据多个拼音首字母在字典树中能够查找到对应的词语列表，表明该多个拼音首字母对应的文本信息中的部分是存在错误的，查找文本信息中多个拼音首字母对应的字符串，其中，字符串可以是多个中英混杂的词语，也可以是一段文本。将词语列表中的词语对相应的字符串进行纠错。

步骤208，在第二词语列表中选择字符串对应的词语，将词语对相应的字符串进行纠错，得到纠错后的文本信息。

服务器在查找到多个拼音首字母对应的字符串后，可在第二词语列表中选择字符串对应的词语，将词语对相应的字符串进行纠错，得到纠错后的文本信息。具体地，当第二词语列表中只存在一个词语时，将该词语对相应的字符串进行纠错，当第二词语列表中存在多个词语时，通过将第二词语列表中的词语与字符串进行比对，选择字符串对应的词语，将词语对相应的字符串进行纠错。

在本实施例中，服务器根据拼音列表中的多个拼音首字母以及字典树查找规则在文本信息中查找多个拼音首字母对应的字符串，将在字典树中查找到的词语对相应的字符串进行纠错。能够在音频信息中出现谐音词语、中英混杂、用户发音不准等情况下提高文本信息的准确性，从而提高语音识别的准确性。

在一个实施例中，如图4所示，根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二词语列表的步骤具体包括：

步骤402，根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二拼音列表。

步骤404，当查找到多个拼音首字母对应的第二拼音列表时，获取第二拼音列表对应的第二词语列表。

服务器如果查找到当前的多个拼音首字母在字典树中对应存在的第二拼音列表，获取第二拼音列表对应的第二词语列表。如果服务器根据当前的多个拼音首字母在字典树中未得到对应的第二拼音列表，继续根据第一拼音列表中的其他拼音首字母来进行查找，如果查找到对应的拼音列表，获取拼音列表对应的词语列表，如果未查找到对应的拼音列表，则循环上述查找过程。

在本实施例中，服务器根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在对应的第二拼音列表，当存在对应的第二拼音列表时，获取第二拼音列表对应的第二词语列表，通过查找多个拼音首字母对应的拼音列表，进而获取词语列表，进一步提高了词语列表的查找效率。

在一个实施例中，在第二词语列表中选择字符串对应的词语，将词语对相应的字符串进行纠错，包括：当第二词语列表的长度大于预设值时，将第二词语列表中的词语与字符串进行比对，得到比对结果；当比对结果中存在比对成功的词语时，将词语对相应的字符串进行纠错。

服务器根据预设值来判断第二词语列表的长度，进而判断是否需要将第二词语表中的词语与字符串进行词语对比。其中，预设值可以是一。当第二词语列表的长度等于预设值时，表示第二词语列表中只存在一个词语，将该词语对相应的字符串进行纠错。当第二词语列表的长度大于预设值时，表示第二词语列表中存在多个词语，将第二词语列表中的词语与字符串进行比对，将比对成功的词语对相应的字符串进行纠错。

在本实施例中，当第二词语列表的长度等于预设值时，可以直接将该第二词语列表中的词语对相应的字符串进行纠错，提高了文本信息的纠错效率。当第二词语列表的长度大于预设值时，就需要进行词语对比，提高了文本信息纠错的准确性。

在一个实施例中，上述方法还包括：当比对结果中未得到比对成功的词语时，将第二词语列表中的词语在第二拼音列表中的拼音与字符串在第一拼音列表中的拼音进行比对，得到拼音比对结果；选取拼音比对结果中匹配度最高的词语，将匹配度最高的词语对相应的字符串进行纠错。

如果比对结果中未得到比对成功的词语，服务器将第二词语列表中的词语与字符串进行拼音层次上的对比。当字符串对应多个拼音相同的词语时，服务器可以根据场景的容错率，来调整多个拼音相同的词语的对比次序。对于准确性要求较高的场景，服务器可以通过联系上下文选取出现概率最高的词语，利用该概率最高的词语对相应的字符串进行纠错。例如，录制演讲、抄录笔记、语言评测等学习过程。对于准确性要求一般的场景，服务器可以从多个拼音相同的词语中随机获取一个词语对相应的字符串进行纠错。例如，家用娱乐机器人。

在本实施例中，服务器将第二词语列表中的词语与字符串进行拼音层次上的对比，能够在词语对比失败的情况下，根据拼音对比选取匹配度最高的词语对相应的字符串进行纠错，进一步提高了文本信息的准确性。

在一个实施例中，上述方法还包括：对字典树中每个节点存储的拼音列表中发音近似的音节进行字母过滤处理；在过滤处理后的字典树中查找所述第一拼音列表中的多个拼音首字母对应的第二词语列表。

服务器可以根据发音近似特点，例如翘舌音和平舌音，前鼻音和后鼻音等，将部分发音近似的音节进行字母过滤处理。例如，将(zh,ch,sh,ing,eng)处理为(z,c,s,in,en)。

在本实施例中，服务器基于发音特点对发音近似的音节进行字母过滤处理，避免了发音近似的音节导致查找到的词语不准确的问题，提高了词语查找的命中率，从而有效提高了文本信息的准确性。

应该理解的是，虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种文本信息纠错装置，包括：信息转化模块502、列表查找模块504、字符串查找模块506和字符串纠错模块508，其中：

信息转化模块502，用于获取音频信息对应的文本信息，将文本信息转化为第一拼音列表。

列表查找模块504，用于根据第一拼音列表中的多个拼音首字母在字典树中查找多个拼音首字母是否对应存在第二词语列表。

字符串查找模块506，用于当多个拼音首字母对应存在第二词语列表时，在文本信息中查找多个拼音首字母对应的字符串。

字符串纠错模块508，用于在第二词语列表中选择字符串对应的词语，将词语对相应的字符串进行纠错，得到纠错后的文本信息。

在一个实施例中，列表查找模块504还用于根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二拼音列表；当存在多个拼音首字母对应的第二拼音列表时，获取第二拼音列表对应的第二词语列表。

在一个实施例中，列表查找模块504还用于对字典树中每个节点存储的拼音列表中发音近似的音节进行字母过滤处理；在过滤处理后的字典树中查找第一拼音列表中的多个拼音首字母对应的第二词语列表。

在一个实施例中，字符串纠错模块508还用于当第二词语列表的长度大于预设值时，将第二词语列表中的词语与字符串进行比对，得到比对结果；当比对结果中存在比对成功的词语时，将词语对相应的字符串进行纠错。

在一个实施例中，字符串纠错模块508还用于当比对结果中未得到比对成功的词语时，将第二词语列表中的词语在第二拼音列表中的拼音与字符串在第一拼音列表中的拼音进行比对，得到拼音比对结果；选取拼音比对结果中匹配度最高的词语，将匹配度最高的词语对相应的字符串进行纠错。

关于文本信息纠错装置的具体限定可以参见上文中对于文本信息纠错方法的限定，在此不再赘述。上述文本信息纠错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本信息纠错方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本信息纠错方法，所述方法包括：

根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表；所述字典树的每个节点存储有一个文字的拼音首字母，以及每个所述节点的词语列表；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表，包括：

3.根据权利要求2所述的方法，其特征在于，所述在所述第二词语列表中选择所述字符串对应的词语，将所述词语对相应的字符串进行纠错，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

当所述比对结果中未得到比对成功的词语时，将所述第二词语列表中的词语在所述第二拼音列表中的拼音与所述字符串在所述第一拼音列表中的拼音进行比对，得到拼音比对结果；

选取所述拼音比对结果中匹配度最高的词语，将所述匹配度最高的词语对相应的字符串进行纠错。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种文本信息纠错装置，其特征在于，所述装置包括：

列表查找模块，用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表；所述字典树的每个节点存储有一个文字的拼音首字母，以及每个所述节点的词语列表；

7.根据权利要求6所述的装置，其特征在于，所述列表查找模块还用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表；当存在所述多个拼音首字母对应的第二拼音列表时，获取所述第二拼音列表对应的第二词语列表。

8.根据权利要求7所述的装置，其特征在于，所述字符串纠错模块还用于当所述第二词语列表的长度大于预设值时，将所述第二词语列表中的词语与所述字符串进行比对，得到比对结果；当所述比对结果中存在比对成功的词语时，将所述词语对相应的字符串进行纠错。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。