CN113051896B

CN113051896B - 对文本进行纠错的方法、装置、电子设备和存储介质

Info

Publication number: CN113051896B
Application number: CN202110446551.0A
Authority: CN
Inventors: 赵志新; 庞敏辉; 肖岩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2023-08-18
Anticipated expiration: 2041-04-23
Also published as: CN113051896A

Abstract

本公开是关于一种对文本进行纠错的方法、装置、电子设备和存储介质，应用于人工智能领域，具体应用于自然语言处理、深度学习和大数据领域。对文本进行纠错的方法的具体实现方案为：获取待纠错文本；确定待纠错文本中的备选待纠错词语和针对备选待纠错词语的已纠错文本；采用统计语言模型分别确定待纠错文本的第一困惑度和已纠错文本的第二困惑度；在第一困惑度大于第二困惑度的情况下，采用深度学习语言模型分别确定待纠错文本的第三困惑度和已纠错文本的第四困惑度；以及根据第三困惑度和第四困惑度，确定备选待纠错词语中的待纠错词语。

Description

对文本进行纠错的方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能领域，具体涉及自然语言处理、深度学习和大数据领域，更具体地涉及一种对文本进行纠错的方法、装置、电子设备和存储介质。

背景技术

随着电子技术的发展，用户通常通过文本输入或语音输入来实现与电子设备的交互。为了提高理解交互的信息的准确性，电子设备通常需要对获得的文本或语音转换得到的文本进行纠错。

发明内容

本公开提供了一种提高纠错准确性和纠错效率的对文本进行纠错的方法、装置、电子设备和存储介质。

根据本公开的一个方面，提供了一种对文本进行纠错的方法，包括：获取待纠错文本；确定待纠错文本中的备选待纠错词语和针对备选待纠错词语的已纠错文本；采用统计语言模型分别确定待纠错文本的第一困惑度和已纠错文本的第二困惑度；在第一困惑度大于第二困惑度的情况下，采用深度学习语言模型分别确定待纠错文本的第三困惑度和已纠错文本的第四困惑度；以及根据第三困惑度和第四困惑度，确定备选待纠错词语中的待纠错词语。

根据本公开的另一个方面，提供了一种对文本进行纠错的装置，包括：文本获取模块，用于获取待纠错文本；备选词语确定模块，用于确定待纠错文本中的备选待纠错词语和针对备选待纠错词语的已纠错文本；第一困惑确定模块，用于采用统计语言模型分别确定待纠错文本的第一困惑度和已纠错文本的第二困惑度；第二困惑确定模块，用于在第一困惑度大于第二困惑度的情况下，采用深度学习语言模型分别确定待纠错文本的第三困惑度和已纠错文本的第四困惑度；以及纠错词语确定模块，用于根据第三困惑度和第四困惑度，确定备选待纠错词语中的待纠错词语。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的对文本进行纠错的方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的对文本进行纠错的方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的对文本进行纠错的方法。

本公开实施例在纠错文本时，先采用统计语言模型在粗粒度层级来确定纠错前后文本的困惑度，在纠错后文本的困惑度降低的情况下才使用深度学习语言模型在细粒度层级确定困惑度，并根据确定的细粒度层级的困惑度从备选待纠错词语中挑选待纠错词语，可以在一定程度上减少确定待纠错词所需的计算量，并因此能够提高用户体验。该实施例的方法在对响应时间要求严格的场景中，以上有益效果更为显著。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的对文本进行纠错的方法、装置、电子设备和存储介质的应用场景示意图；

图2是根据本公开实施例的对文本进行纠错的方法的流程示意图；

图3是根据本公开实施例的确定备选待纠错词语和已纠错文本的原理示意图；

图4是根据本公开实施例的构建得到的第一字典树的结构示意图；

图5是根据本公开实施例的构建得到的第二字典树的结构示意图；

图6是根据本公开实施例的对文本进行纠错的准备阶段的原理示意图；

图7是根据本公开实施例的对文本进行纠错的纠错阶段的原理示意图；

图8是根据本公开实施例的对文本进行纠错的装置的结构框图；以及

图9是用来实现本公开实施例的对文本进行纠错的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种对文本进行纠错的方法，该方法包括文本获取阶段、备选词语确定阶段、困惑度确定阶段和纠错词语确定阶段。在文本获取阶段中，获取待纠错文本。在备选词语确定阶段，确定待纠错文本中的备选纠错词语和针对备选待纠错词语的已纠错文本。在困惑度确定阶段，采用统计语言模型分别确定待纠错文本的第一困惑度和已纠错文本的第二困惑度，并在第一困惑度大于第二困惑度的情况下，采用深度学习语言模型分别确定待纠错文本的第三困惑度和已纠错文本的第四困惑度。在纠错词语确定阶段，根据第三困惑度和第四困惑度，确定备选待纠错词语中的待纠错词语。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的对文本进行纠错的方法、装置、电子设备和存储介质的应用场景示意图。

如图1所示，该应用场景100包括用户110和终端设备120。

终端设备120可以为提供有人机交互功能和处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。在一实施例中，用户110可以通过终端设备120查询信息。终端设备120可以获取用户输入的查询语句或者查询语音，并通过对该查询语句或查询语音的识别来向用户反馈应答信息130。

示例性地，终端设备120例如可以安装有智能客服系统、搜索平台等客户端应用。用户110例如可以使用智能客服系统来查询金融、能源、工业等各领域的知识。

示例性地，在获取到输入的查询语句或查询语音后，终端设备120例如还可以将输入的信息转换为文本，将转换得到的文本作为待纠错文本进行纠错处理，以提高识别用户意图的准确性，提高向用户反馈的应答信息130的准确性。

根据本公开的实施例，该应用场景100例如还可以包括服务器150。终端设备120例如可以通过网络与服务器150通信链接。终端设备在得到待纠错文本140后，例如还可以将该待纠错文本140发送给服务器150，由服务器150对该文本进行纠错，并将纠错后得到的纠错后文本160反馈给终端设备120。其中，网络可以为有线或无线通信链路。

示例性地，服务器150可以是提供各种服务的服务器，例如对用户利用终端设备120所浏览的网站或客户端应用提供支持的后台管理服务器。该服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开的实施例，该应用场景100还可以包括数据库170，该数据库170可以维护有混淆词集和语言模型等。服务器150可以访问该数据库170，以从该数据库170中获取混淆词集和语言模型，并根据该混淆词集来识别待纠错文本中的备选待纠错词语。确定备选待纠错词语后，可以采用语言模型来从备选待纠错词语中选择需要纠错的词语。

需要说明的是，本公开所提供的对文本进行纠错的方法可以由终端设备120或者服务器150执行。相应地，本公开所提供的对文本进行纠错的装置可以设置于终端设备120或者服务器150中。本公开所提供的对文本进行纠错的方法也可以由不同于服务器150且能够与服务器150通信的服务器或服务器集群执行。相应地，本公开所提供的对文本进行纠错的装置也可以设置于不同于服务器150且能够与服务器150通信的服务器或服务器集群中。

应该理解，图1中的终端设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的终端设备、服务器和数据库。

以下将结合图2，对终端设备或服务器执行的对文本进行纠错的方法进行详细描述。

图2是根据本公开实施例的对文本进行纠错的方法的流程示意图。

如图2所示，该实施例的对文本进行纠错的方法200可以包括操作S210～操作S290。

在操作S210，获取待纠错文本。

根据本公开的实施例，该待纠错文本例如可以为用户输入的文本，或者可以为用户的语音信息转换得到的文本。待纠错文本可以为任意场景下易出现错别字、错别词的任意文本，本公开对此不做限定。

示例性地，待纠错文本可以为用户使用智能客服系统时输入的文本，或者终端设备通过智能客服系统录制的音频转换得到的文本。

在操作S230，确定待纠错文本中的备选待纠错词语和针对备选待纠错词语的已纠错文本。

本公开预先设置有错别词库和正确词库，错别词库包括多个错别词，正确词库包括多个正确词，且错别词库中的每个错别词唯一对应于正确词库中的一个正确词。该实施例可以先对待纠错文本进行分词处理，得到多个词语。将该多个词语分别与错别词库中的错别词进行比对，确定多个词语中属于错别词库的词语为备选待纠错词语，并从正确词库中获取与该备选待纠错词语对应的正确词。对于每个备选待纠错词语，将对应的正确词替换待纠错文本中的每个备选待纠错词语，即可得到针对该每个备选待纠错词语的已纠错文本。可以理解的是，确定的备选待纠错词语可以为一个或多个。

在操作S250，采用统计语言模型分别确定待纠错文本的第一困惑度和已纠错文本的第二困惑度。

根据本公开的实施例，统计语言模型例如可以为N-Gram模型。该实施例可以将待纠错文本中备选待纠错词语前后的(N-1)个字和备选待纠错词语，根据在待纠错文本中的位置顺序构成第一字串。将该第一字串作为统计语言模型的输入，经由统计语言模型处理后可以输出得到第一困惑度。类似地，将已纠错文本中替换备选待纠错词语的正确词前后的(N-1)个字和该替换备选待纠错词语的正确词，根据在待纠错文本中的位置顺序构成第二字串。将该第二字串作为统计语言模型的输入，经由统计语言模型处理后可以输出得到第二困惑度。其中，N为自然数，该N的取值可以根据实际需求进行设定，例如该N可以为3，本公开对此不做限定。

可以理解的是，上述统计语言模型的类型仅作为示例以利于理解本公开，本公开对此不做限定。在自然语言处理模型中，困惑度(perplexity)越小，则说明该文本中每个词的概率越高，说明该文本的契合度和通顺度越高。

在操作S270，在第一困惑度大于第二困惑度的情况下，采用深度学习语言模型分别确定待纠错文本的第三困惑度和已纠错文本的第四困惑度。

根据本公开的实施例，深度学习语言模型例如可以为卷积神经网络模型、双向转换编码器(Bidirectional Encoder Representation from Transformers，Bert)模型等。其中，卷积神经网络模型例如可以为长短期记忆(Long Short-Term Memory，LSTM)网络模型、双向长短期记忆网络模型(Bi-LSTM)或深语境化词表达(Deep contextualized wordrepresentation，ELMo)模型等。可以理解的是，上述深度学习语言模型仅作为示例以利于理解本公开，本公开对此不做限定。

根据本公开的实施例，在得到第一困惑度和第二困惑度后，可以先比较第一困惑度与第二困惑度的大小关系。若第二困惑度大于或等于第一困惑度，则表明对备选待纠错词语的替换未降低待纠错文本的困惑度，则可以对该备选待纠错词语暂不做纠错处理。若第二困惑度小于第一困惑度，则可以将待纠错文本输入该深度学习语言模型中，经由该深度学习语言模型处理后可以输出得到第三困惑度。类似地，将已纠错文本输入该深度学习语言模型中，经由该深度学习语言模型处理后可以输出得到第四困惑度。

在操作S290，根据第三困惑度和第四困惑度，确定备选待纠错词语中的待纠错词语。

根据本公开的实施例，在得到第三困惑度和第四困惑度后，可以先比较该第三困惑度和第四困惑度的大小关系。若第三困惑度大于第四困惑度与预定阈值的和，则可以确定备选待纠错词语为待纠错词语，并将针对该备选待纠错词语的已纠错文本作为纠错后的文本。可以理解的是，在第三困惑度小于等于第四困惑度与预定阈值的和的情况下，则可以确定备选待纠错词语中没有待纠错词语。此种情况下，则无需对待纠错文本进行纠错。

根据本公开的实施例，若备选待纠错词语为多个，则对于每个备选待纠错词语，可以通过前述的处理流程得到第一困惑度和第二困惑度。并在经由操作S270和操作S290来确定该每个备选待纠错词语是否为待纠错词语，以完成从多个备选待纠错词语中选择待纠错词语的流程。使用对应所有待纠错词中每个待纠错词的正确词来替换待纠错文本中的每个待纠错词，得到替换了所有待纠错词的文本，并将该文本作为针对待纠错文本的纠错后的文本，以便于下游应用根据该纠错后的文本进行语义理解、意图识别等处理。

图3是根据本公开实施例的确定备选待纠错词语和已纠错文本的原理示意图。

根据本公开的实施例，在目标垂直领域中，可以维护有核心词集，并基于该核心词集来构建混淆信息集，以根据该混淆信息集确定待纠错文本中的备选待纠错词语。其中，核心词集可以构成前述的正确词库，混淆信息集可以构成前述的错别词库。通过该方式，可以针对性地对待纠错文本进行目标垂直领域中核心词的有效纠错，相较于通用的纠错方法，可以在一定程度上提高纠错准确性和纠错效率。这是由于目标垂直领域通常包含大量的专业术语，而由于该些专业术语使用频率较低，在采用输入法输入文本或通过识别语音得到文本的过程中更容易出错，而该些专业术语对理解文本语义通常至关重要。其中，目标垂直领域例如可以为能源领域、金融领域等任意的垂直领域，本公开对此不做限定。

如图3所示，本公开实施例300可以预先基于维护的核心词集310，来构建混淆信息集320，并建立混淆信息集320中的混淆信息与核心词集310中的核心词之间的映射关系。

如图3所示，该实施例在确定备选待纠错词语和已纠错文本时，对获取的待纠错文本330，可以先基于针对目标垂直领域的混淆信息集320，确定待纠错文本330中的备选待纠错词语340。例如可以使用对待纠错文本330进行分词处理而得到的多个词语，来查询混淆信息集320。将多个词语中与混淆信息集320中的混淆信息匹配的词语作为备选待纠错词语340。得到备选待纠错词语340后，可以基于针对目标垂直领域的核心词集310，确定针对备选待纠错词语的核心词语350。例如可以从核心词集中查找与备选待纠错词语340具有映射关系的核心词语，或者与前述的与备选待纠错词语匹配的混淆信息具有映射关系的核心词语，并将查找到的核心词语作为针对该备选待纠错词语的核心词语。在得到备选待纠错词语340和针对该备选待纠错词语的核心词语350后，采用核心词语350替换待纠错文本330中的备选待纠错词语，即可得到针对备选待纠错词语的已纠错文本360。可以理解的是，在备选待纠错词语为多个时，则对于每个备选待纠错词语，均可以通过上述流程得到针对每个备选待纠错词的一个已纠错文本。

根据本公开的实施例，该实施例可以在前述获取待纠错文本之前，先基于核心词集构建混淆信息集。其中，核心词集例如可以为根据实际需求进行预先配置的，或者可以由从目标垂直领域的权威性文本中提取核心词来构建得到的。

示例性地，对于核心词集中的核心词，可以从预定字库中选择与该核心词语中的字相似的相似字，并采用该相似字替代该核心词语中的字，得到容易与该核心词相混淆的混淆词语。例如可以将得到的混淆词语进行汇总，得到混淆信息集。其中，预定字库例如可以为新华字典字库等已有字库。

在一实施例中，可以针对核心词集中每个核心词语包括的每个字，先将该每个字转化为字形编码。采用编辑距离计算该每个字与预定字库中各个字之间的字形相似度，并从预定字库中选择与该每个字的字形相似度大于预定相似度的字。其中，采用编辑距离计算字形相似度的方式为：先确定该每个字与预定字库中各个字之间的编辑距离，并确定该每个字的字形编码与预定字库中各个字的字形编码中较长字形编码的长度。将该编辑距离与该较长字形编码的长度之间的商作为该每个字与预定字库中各个字之间的字形相似度。其中，转化得到的字形编码例如可以为四角号码等，预定相似度可以根据实际需求进行设定，本公开对此不做限定。

在另一实施例中，在确定相似字的同时，还可以考虑字音的相似。则该实施例还可以根据每个字的拼音与预定字库中各个字的拼音之间的拼音相似度，来从预定字库中选择拼音相似度与该每个字相似的字，作为相似字。或者，该实施例可以同时考虑字形相似度和拼音相似度。例如将预定字库中与该每个字的拼音相同，且字形相似的字作为相似字。例如，对于核心词语“树梢”，确定的相似字可以包括与“梢”相似的“捎”，并因此得到一个混淆词语“树捎”。

其中，在确定每个字的拼音与预定字库中各个字的拼音之间的相似度时，可以先将每个字的拼音和预定字库中各个字的拼音均转换为统一标准的拼音编码。随之根据拼音编码之间的编辑距离来计算每个字的拼音与预定字库中各个字的拼音之间的拼音相似度，该根据编辑距离计算拼音相似度的方法与前述计字形相似度的方法类似，在此不再赘述。或者，该实施例可以采用声学嵌入的方式，将该每个字和预定字库中各个字转换为向量，具体可以采用语音识别模型中与语音相关联的处理层的参数来实现字与向量之间的转换。将每个字转换得到的向量与预定字库中各个字转换得到的向量之间的余弦相似度等来表示拼音相似度。例如，对于核心词语“片段”，确定的相似字可以包括“断”，并因此得到一个混淆词语“片断”。可以理解的是，还可以根据TF-IDF方法等从预定字库中挑选出高频字库，并从该高频字库中选择相似字，以此提高确定的混淆词语的使用率，提高纠错效率。其中，该高频字库可以由通用的使用场景中，使用频率较高的字组成。例如，可以基于搜索语句中出现频率高的字来构建得到高频字库。

示例性地，可以预先配置有拼音串集，并从中选择与该核心词集中核心词语的拼音串相似的拼音串，并将该选择得到的拼音串作为混淆信息集的一部分。例如，可以先确定核心词集中每个核心词语的拼音串，随之将预定拼音串集中与该核心词语的拼音串相似的拼音串，作为混淆拼音串。例如，对于核心词语“望穿秋水”，可以得到与其拼音串“wangchuan qiu shui”相似的混淆拼音串“wan chuan qiu shui”、“wang cuan qiu shui”等。如此，该实施例中的混淆信息集可以包括有混淆词语和混淆拼音串。其中，拼音串之间的相似度例如可以根据余弦相似度等来确定，本公开对此不做限定。

在一实施例中，在确定混淆信息集时，对于核心词集中长度不同的核心词语，可以基于不同的策略确定混淆信息。例如，对于核心词集中字数小于预定值的第一核心词语，可以采用前述选择相似字的方式，得到与该第一核心词语具有映射关系的混淆词语。对于核心词集中字数大于或等于该预定值的第二核心词语，可以采用前述选择拼音串的方式，得到与该第二核心词语具有映射关系的混淆拼音串。对于长度较短的核心词语，若进行混淆拼音串的查找，则该混淆拼音串可能会对应到过多的词语，因此该实施例仅对该长度较短的核心词语进行相似字的查找。该实施例通过采用混淆词语和混淆拼音串相结合的方案来构建混淆信息集，可以使得对待纠错文本的纠错更为灵活，并利于查找到更为精准的待纠错词语。其中预定值可以根据实际需求进行设置，例如可以设置为4，本公开对此不做限定。

示例性地，对于核心词集中长度较短的核心词语(例如前文描述的第一核心词语)，还可以从高频词库中选择与该第一核心词语的发音相似的词，并将选择的词作为混淆词语。这是由于在用户输入信息后，输入法或语音识别模型等倾向于将高频词语作为与用户输入信息匹配的词语，从而导致目标垂直领域中发音与高频词语类似的词语容易出错。该实施例通过从高频词库中选择混淆词语，可以使得混淆信息集更为完整，从而便于提高文本纠错的准确性。

根据本公开的实施例，前述核心词集可以为预先配置的。在使用对文本进行纠错的方法来进行纠错的过程中，该方法还可以周期性地对核心词集进行扩充。因此，在一实施例中，对文本进行纠错的方法还可以包括对核心词集进行周期性扩充的操作。在每个周期中，可以获取针对目标垂直领域的目标文本。例如，获取描述该目标垂直领域中发生的事迹、出现的新技术等进行描述的文本。采用预定新词发现算法识别获取的目标文本，获得该目标文本中的新的核心词语，并将该新的核心词语添加至核心词集中。

示例性地，预定新词发现算法例如可以包括基于规则的算法和基于统计的算法。例如可以基于目标文本中各分词的左右信息熵来对目标文本中的各分词进行评价，并根据评价结果来从各个词中挑选新词。可以理解的是，上述从目标文本中挑选新的核心词的方法仅作为示例以利于理解本公开，本公开对此不做限定。

在一实施例中，在通过前述类似的方式，采用预定新词发现算法识别目标文本获得新词后，例如还可以从该新词中选择不属于预定高频词库的词，并将选择的词作为新的核心词语。具体可以将各新词与预定高频词库中的各词语进行比较，来确定各新词是否属于预定高频词库。通过该方式，可以保证扩充至核心词库的词语不是高频词，而是仅属于目标垂直领域的词语，并因此利于后续对待纠错文本中目标垂直领域的专业词语的纠错。在得到新的核心词后，该实施例还可以根据该新的核心词，采用与前文描述的构建混淆信息集的方法类似的方法，来对混淆信息集进行扩充。

图4是根据本公开实施例的构建得到的第一字典树的结构示意图。

根据本公开的实施例，在基于针对目标垂直领域的混淆信息集来确定备选待纠错词语时，例如可以采用预定匹配算法来查询基于混淆信息集构建的预定字典树。随之根据待纠错文本中与预定字典树相匹配的词语，来确定备选待纠错词语。以此提高确定备选待纠错词语的效率，提高纠错效率。

示例性地，该实施例的对文本进行纠错的方法可以在获取待纠错文本之前，先基于混淆信息集构建预定字典树。若混淆信息集中包括多个混淆词语，例如可以构建得到第一字典树。

示例性地，在基于混淆信息集构建字典树时，可以对于多个混淆词语中的每个词语(为做区分，下文称为每个第一词语)，构建针对该每个词语的第一节点分支，该第一节点分支中的每个第一节点指示每个第一词语中的一个字。例如，若多个混淆词语包括词语“树捎”、“树庄”、“宝坐”、“坐右铭”和“坐次”，则构建得到的第一字典树包括根节点410、指示“树”的第一节点421、指示“捎”的第一节点422、指示“庄”的第一节点423、指示“宝”的第一节点424、指示“坐”的第一节点425、指示“坐”的第一节点426、指示“右”的第一节点427、指示“铭”的第一节点428和指示“次”的第一节点429，其中，第一节点421和第一节点422构成针对“树捎”的第一节点分支，第一节点421和第一节点423构成针对“树庄”的第一节点分支，以此类推，第一节点426和第一节点429构成针对“坐次”的第一节点分支。可以理解的是，该构建第一节点分支的过程实质上可以为基于多个混淆词语构建前缀树过程，在此不再详述。该实施例可以将该构建得到的前缀树作为第一字典树。

示例性地，在构建完成针对每个词语的第一节点分支后，该实施例还可以采用预定字符串匹配算法来向每个第一节点添加失配指针(如图4中的虚线箭头所示)，从而得到第一字典树。其中，预定字符串匹配算法例如可以为克努特-莫里斯-普拉特算法(TheKnuth-Morris-Pratt Algorithm，KMP算法)、BM(Boyer-Moore)算法等。通过构建该失配指针，在查询第一字典树的过程中，若查询的当前第一节点与待纠错文本中某个词中的字匹配，但该当前第一节点的孩子节点与该某个词中的字不匹配时，可以顺着该当前第一节点的失配指针跳到另一个第一节点分支，而无需返回根节点。因此，通过该失配指针的添加，可以提高对第一字典树的查询效率，提高对待纠错文本进行纠错的效率，并因此利于降低向用户反馈信息的响应时长。可以理解的是，该第一字典树实质上可以基于AC自动机(Aho-Corasick automaton)算法来构建和查询。其中，AC自动机利用失配指针(fail指针)来辅助多模式串的匹配。在匹配过程中，该失配指针可以作为查找字符串失败时进行回退的依据。若预定字典树为该第一字典树，则在确定备选待纠错词语时，可以采用前述的预定匹配算法查询该第一字典树，并确定待纠错文本中与该第一字典树指示的多个混淆词语相匹配的词为备选待纠错词语。具体为，将对待纠错文本分词得到的多个词中，能够从该第一字典树中查询到的词作为备选待纠错词语。

根据本公开的实施例，还可以针对与每个混淆词语具有映射关系的核心词语构建第三节点，以表示该核心词语，并将该第三节点与针对该每个混淆词语的第一节点分支中的最后一个节点相连接。例如，如图4所示，构建得到的第一字典树400除了包括针对每个混淆词语的第一节点分支外，还可以包括表示单个核心词语的第三节点。该第三节点与第一节点分支中指示目标字的第一节点连接，该目标字为针对该单个核心词语的混淆词语中的最后一个字。例如，该第一字典树400中包括表示混淆词语“树捎”所针对的核心词语“树梢”的第三节点431，该第三节点431与指示“捎”的第一节点422连接。类似地，该第一字典树400中还包括表示混淆词语“树庄”所针对的核心词语“树桩”的第三节点432、表示混淆词语“宝坐”所针对的核心词语“宝座”的第三节点433、表示混淆词语“坐右铭”所针对的核心词语“座右铭”的第三节点434和表示混淆词语“坐次”所针对的核心词语“座次”的第三节点435，且第三节点432与第一节点423连接、第三节点433与第一节点425连接、第三节点434与第一节点428连接、第三节点435与第一节点429连接。

通过如图4所示的第一字典树400的构建，在确定针对备选待纠错词语的核心词语时，可以采用前述的预定匹配算法查询第一字典树400，先确定与备选待纠错词语相匹配的混淆词语所针对的第一目标节点分支，并确定与该第一目标节点分支连接的第三节点所表示的核心词语。将该确定的核心词语作为针对备选待纠错词语的核心词语。例如，若待纠错文本中包括混淆词语“坐右铭”，则确定的第一目标节点分支为第一节点426～第一节点428构成的节点分支，与该节点分支连接的第三节点为表示“座右铭”的第三节点434，确定的核心词语为“座右铭”。可以理解的是，该确定针对备选待纠错词语的核心词语的操作可以与确定备选待纠错词语的操作同时执行，在确定了一个备选待纠错词语后，将针对该备选待纠错词语的节点分支的叶子节点所表示的词语作为针对该备选待纠错词语的核心词语。可以理解的是，图4中的第一字典树仅作为示例以利于理解本公开，本公开对此不做限定。

该实施例通过基于核心词语构建字典树的第三节点，并根据映射关系连接第三节点与表示混淆词语的节点分支，可以提高查询效率，提高确定备选待纠错词语和核心词语的效率。从而可以在一定程度上进一步提高纠错效率。

图5是根据本公开实施例的构建得到的第二字典树的结构示意图。

根据本公开的实施例，若混淆信息集中包括多个混淆拼音串，例如还可以构建得到如图5所示的第二字典树500。

示例性地，在基于混淆信息集构建字典树时，可以对于多个混淆拼音串中的每个拼音串，构建针对该每个拼音串的第二节点分支，该第二节点分支中的每个第二节点指示每个拼音串中的一个拼音。例如，若多个混淆拼音串包括“su fu zi zai”、“su nan congming”、“lan se hai yan”和“yan guan si she”，则如图5所示，构建得到的第二字典树包括根节点510、指示拼音“su”的第二节点521、指示“fu”的第二节点522、指示“zi”的第二节点523、指示“zai”的第二节点524、指示“nan”的第二节点525、指示“cong”的第二节点526、指示“ming”的第二节点527、指示“lan”的第二节点528、指示“se”的第二节点529、指示“hai”的第二节点530、指示“yan”的第二节点531、指示“yan”的第二节点532、指示“guan”的第二节点533、指示“si”的第二节点534和指示“she”的第二节点535。其中，第二节点521～第二节点524构成针对“su fu zi zai”的第二节点分支，第二节点521和第二节点525～第二节点527构成针对“su na cong ming”的第二节点分支，以此类推，第二节点532～第二节点535构成针对“yan guan si she”的第二节点分支。可以理解的是，该构建第二节点分支的过程实质上可以为基于多个混淆拼音串构建前缀树过程，在此不再详述。该实施例可以将该构建得到的前缀树作为第二字典树。

示例性地，在构建完成针对每个拼音串的第二节点分支后，该实施例还可以采用预定字符串匹配算法来向每个第二节点添加失配指针(如图5中的虚线箭头所示)，从而第二字典树。该向第二节点添加失配指针的方法与前述向第一节点添加失配指针的方法类似，在此不再赘述。可以理解的是，该第二字典树实质上可以基于AC自动机(Aho-Corasickautomaton)算法来构建和查询。

若预定字典树为该第二字典树，则在确定备选待纠错词语时，可以线将待纠错文本转换为拼音表达的文本。基于该拼音表达的文本，采用前述的预定匹配算法查询该第二字典树，可以确定拼音表达的文本中与该第二字典树指示的多个混淆拼音串相匹配的目标拼音串，并确定该目标音频串所表达的词语为备选待纠错词语。具体为，将该拼音表达的文本中，与第二字典树指示的混淆拼音串相同的拼音串作为目标拼音串。例如，若待纠错文本为“我的坐右铭为好好学习、天天向上”，拼音表达的文本为“wo de zuo you ming wei…”，通过查询第二字典树500，确定的目标拼音串包括“zuo you ming”，确定的备选待纠错词语包括“坐右铭”。

根据本公开的实施例，还可以针对与每个混淆拼音串具有映射关系的核心词语构建第四节点，以表示该核心词语，并将该第四节点与针对该每个混淆拼音串的第二节点分支中的最后一个节点相连接。例如，如图5所示，构建得到的第二字典树500除了包括针对每个混淆拼音串的第二节点分支外，还可以包括表示单个核心词语的第四节点。该第四节点与第二节点分支中指示目标拼音的第二节点连接，该目标拼音为针对该单个核心词语的混淆拼音串中的最后一个拼音。例如，该第二字典树500中包括表示混淆拼音串“su fu zizai”所针对的核心词语“舒服自在”的第四节点541，该第四节点541与指示“zai”的第二节点524连接。类似地，该第二字典树500中还包括表示混淆拼音串“su nan cong ming”所针对的核心词语“恕难从命”的第四节点542、表示混淆拼音串“lan se hai yan”所针对的核心词语“蓝色海洋”的第四节点543和表示混淆拼音串“yan guan si she”所针对的核心词语“阳光四射”的第四节点544，且第四节点542与第二节点527连接、第四节点543与第二节点531连接、第四节点544与第二节点535连接。

通过如图5所示的第二字典树500的构建，在确定针对备选待纠错词语的核心词语时，可以采用前述的预定匹配算法查询第二字典树500，先确定与备选待纠错词语相匹配的混淆拼音串所针对的第二目标节点分支，并确定与该第二目标节点分支连接的第四节点所表示的核心词语。将该确定的核心词语作为针对备选待纠错词语的核心词语。例如，若待纠错文本中包括拼音串为“su nan cong ming”的备选待纠错词语，则确定的第二目标节点分支为第二节点521和第二节点525～第二节点527构成的节点分支，与该节点分支连接的第四节点为表示“恕难从命”的第四节点542，确定的核心词语为“恕难从命”。可以理解的是，该确定针对备选待纠错词语的核心词语的操作可以与确定备选待纠错词语的操作同时执行，在确定了一个备选待纠错词语后，确定针对该备选待纠错词语的拼音串的节点分支的叶子节点，并将该叶子节点表示的词语作为针对该备选待纠错词语的核心词语。可以理解的是，图5中的第二字典树500的结构仅作为示例以利于理解本公开，本公开对此不做限定。

该实施例通过基于核心词语构建字典树的第四节点，并根据映射关系连接第四节点与表示混淆拼音串的节点分支，可以提高查询效率，提高确定备选待纠错词语和核心词语的效率。从而可以在一定程度上进一步提高纠错效率。

可以理解的是，若预定字典树包括前述的第一字典树和第二字典树，则在确定针对备选待纠错词语时，可以基于待纠错文本，采用预定匹配算法查询第一字典树，得到一部分备选待纠错词语。同时将待纠错文本转换为拼音表达的文本，并基于该拼音表达的文本查询第二字典树，得到另一部分备选待纠错词语。

根据本公开的实施例，可以将采用预定匹配算法查询预定字典树所得到的待纠错文本中与预定字典树相匹配的词语作为待选词语，得到多个待选词语。随之确定该多个待选词语是否存在彼此交叉的两个待选词语。若存在，则从该两个待选词语中选择长度较长或在待纠错文本中的位置靠前的词语，并将该选择的词语和其他不存在交叉的待选词语作为备选待纠错词语。通过该实施例，可以解决在待纠错的两个词语彼此交叉的情况下，纠错后的文本语句不通顺或困惑度更高的情况，并因此可以提高纠错准确率。同时，通过该实施例，可以在一定程度上减少确定困惑度的计算量，从而在一定程度上进一步提高纠错效率。可以理解的是，上述从彼此交叉的两个待选词语中选择词语的方法仅作为示例以利于理解本公开，本公开对此不做限定。

综上分析，本公开提供的对文本进行纠错的流程整体可以包括准备阶段和纠错阶段。以下将结合附图对该两个阶段进行详细描述。

图6是根据本公开实施例的对文本进行纠错的准备阶段的原理示意图。

如图6所示，在该对文本进行纠错的准备阶段600中，可以包括构建预定字典树的流程和训练语言模型的流程。

如图6所示。构建预定字典树的流程可以包括操作S611和操作S621～操作S625。

在操作S611，获取配置的混淆信息。该操作S611获取的混淆信息例如可以为根据人工经验预先配置后存储于预定存储空间的混淆词语和/或混淆拼音串。

在操作S621，生成核心词集。该核心词集例如可以通过提取目标垂直领域的权威文本中的核心词而构建得到。可以采用有监督的方法或者无监督的方法提取关键词。在一实施例中，该核心词集中的核心词可以为提取的关键词中不属于高频词库的词。

在操作S622，基于核心词集构建混淆信息。该操作S622与前述的基于核心词集构建混淆信息集中的混淆词语、混淆拼音串的操作类似，在此不再赘述。

在操作S623，汇总操作S611获得的混淆信息和操作S622构建的混淆信息，构成混淆信息集，该混淆信息集中包括有混淆词语601和混淆拼音串602。

在操作S624，基于混淆词语601，构建词语字典树。该操作S624与前述基于多个混淆词语构建第一字典树的操作类似，在此不再赘述。

在操作S625，基于混淆拼音串602，构建拼音字典树。该操作S625与前述基于多个混淆拼音串构建第二字典树的操作类似，在此不再赘述。

如图6所示，训练语言模型的流程可以包括操作S631～操作S634。

在操作S631，获取目标垂直领域的文本。例如可以从维护有目标垂直领域的全量文本的数据库中随机获取预先标注有标签的多个文本，并将该多个文本作为训练样本。其中，标注的标签指示文本的困惑度。

在操作S632，训练N-Gram语言模型。该操作可以将训练样本作为N-Gram语言模型的输入，经由N-Gram语言模型处理后输出得到该训练样本的预测困惑度。随后根据该预测困惑度与标签指示的困惑度的差值来对N-Gram语言模型中的参数进行调整，实现对N-Gram模型的训练，并因此得到训练好的N-Gram语言模型，作为前述的统计语言模型。

在操作S633，训练深度学习语言模型。该操作可以将训练样本作为深度学习语言模型的输入，经由深度学习语言模型处理后输出得到该训练样本的预测困惑度。随后根据该预测困惑度与标签指示的困惑度的差值来对深度学习语言模型中的参数进行调整，实现对深度学习语言模型的训练，并因此得到训练好的深度学习语言模型，作为前述的深度学习语言模型。

在得到统计语言模型和深度语言模型后，可以执行操作S634，保存语言模型，以供后续的纠错阶段使用。

图7是根据本公开实施例的对文本进行纠错的纠错阶段的原理示意图。

如图7所示，在该对文本进行纠错的纠错阶段700中，可以包括操作S701～操作S711。

在操作S701，获取待纠错文本。该操作S701与前文描述的获取待纠错文本的操作类似，在此不再赘述。

在操作S702，查询词语字典树。该操作可以基于待纠错文本，采用AC自动机算法来对准备阶段构建的词语字典树进行查询，获得待纠错词语和针对该待纠错词语的已纠错词语，该已纠错词语可以采用前文描述的查询第一字典树获得核心词语的方法获取得到，且已纠错词语与待纠错词语一一对应。

在操作S703，查询拼音字典树。该操作可以先将待纠错文本转换为拼音表达的文本。随之基于该拼音表达的文本，采用AC自动机算法来对准备阶段构建的拼音字典树进行查询，得到拼音表达的文本中的目标拼音串，并将该目标拼音串所表达的词语作为待纠错词语，同时获得针对该待纠错词语的已纠错词语。该已纠错词语可以采用前文描述的查询第二字典树获得核心词语的方法获取得到，且已纠错词语与待纠错词语一一对应。

在操作S704，汇总操作S702和操作S703查询得到的待纠错词语和已纠错词语，获得多个待纠错词语和与该多个待纠错词语一一对应的多个已纠错词语。

针对操作S704汇总得到的每个待纠错词，通过后续的操作S705～操作S711确定是否保留该每个待纠错词。

在操作S705，获得针对该每个待纠错词语的已纠错文本。该操作与前文描述的确定针对备选待纠错词语的已纠错文本的操作类似，在此不再赘述。

在操作S706，使用N-Gram模型确定纠错前困惑度和纠错后困惑度。具体为使用N-Gram模型确定操作S701获取的待纠错文本的第一困惑度，并确定操作S705得到的已纠错文本的第二困惑度。该操作S706与前文描述的确定第一困惑度和第二困惑度的操作类似，在此不再赘述。

在操作S707，判断纠错前困惑度是否大于纠错后困惑度。即判断第一困惑度是否大于第二困惑度。若大于，则执行操作S708，若不大于，则执行操作S711。

在操作S708，使用深度学习模型确定纠错前困惑度和纠错后困惑度。具体为使用深度学习模型确定操作S701获取的待纠错文本的第三困惑度，并确定操作S705得到的已纠错文本的第四困惑度。该操作S706与前文描述的确定第三困惑度和第四困惑度的操作类似，在此不再赘述。

在操作S709，判断纠错前困惑度与纠错后困惑度的差值是否大于预定阈值。即判断第三困惑度是否大于第四困惑度与预定阈值之和。若大于，则执行操作操作S710，若不大于，则执行操作S711。

在操作S710，保留该每个待纠错词语。

在操作S711，舍弃该每个待纠错词语。

通过针对每个待纠错词语执行操作S705～操作S711，可以从操作S704汇总的所有待纠错词语中挑选出最终需要纠错的词语，并使用与该最终需要纠错的词语相对应的已纠错词语来替换待纠错文本中的最终需要纠错的词语，即可得到纠错后文本。

基于上述由准备阶段和纠错阶段构成的对文本进行纠错的方法，可以将纠错任务集中在目标垂直领域，从而可以更好的保证纠错精确率。通过构建针对目标垂直领域的核心词集，可以减少纠错流程中不必要的计算量，同时，由于核心词集是从目标垂直领域的文本中提取的，因此，该核心词集的获取成本也较低。

基于以上对文本进行纠错的方法，本公开还提供了一种对文本进行纠错的装置，以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的对文本进行纠错的装置的结构框图。

如图8所示，该实施例的对文本进行纠错的装置800可以包括文本获取模块810、备选词语确定模块830、第一困惑确定模块850、第二困惑确定模块870和纠错词语确定模块890。

文本获取模块810用于获取待纠错文本。在一实施例中，该文本获取模块810例如可以用于执行前文描述的操作S210，在此不再赘述。

备选词语确定模块830用于确定待纠错文本中的备选待纠错词语和针对备选待纠错词语的已纠错文本。在一实施例中，该备选词语确定模块830例如可以用于执行前文描述的操作S230，在此不再赘述。

第一困惑确定模块850用于采用统计语言模型分别确定待纠错文本的第一困惑度和已纠错文本的第二困惑度。在一实施例中，该第一困惑确定模块850例如可以用于执行前文描述的操作S250，在此不再赘述。

第二困惑确定模块870用于在第一困惑度大于第二困惑度的情况下，采用深度学习语言模型分别确定待纠错文本的第三困惑度和已纠错文本的第四困惑度。在一实施例中，该第二困惑确定模块870例如可以用于执行前文描述的操作S270，在此不再赘述。

纠错词语确定模块890用于根据第三困惑度和第四困惑度，确定备选待纠错词语中的待纠错词语。在一实施例中，该纠错词语确定模块890例如可以用于执行前文描述的操作S290，在此不再赘述。

根据本公开的实施例，上述备选词语确定模块830可以包括备选词语确定子模块、核心词语确定子模块和词语替换子模块。备选词语确定子模块用于基于针对目标垂直领域的混淆信息集，确定待纠错文本中的备选待纠错词语。核心词语确定子模块用于基于针对目标垂直领域的核心词集，确定针对备选待纠错词语的核心词语。词语替换子模块用于采用核心词语替换待纠错文本中的备选待纠错词语，得到针对备选待纠错词语的已纠错文本。其中，混淆信息集是基于核心词集构建的。

根据本公开的实施例，上述备选词语确定子模块具体用于采用预定匹配算法查询预定字典树，根据待纠错文本中与预定字典树相匹配的词语，确定备选待纠错词语。其中，预定字典树是基于混淆信息集构建的。

根据本公开的实施例，上述对文本进行纠错的装置800还可以包括混淆信息构建模块，用于基于核心词集构建混淆信息集。该混淆信息构建模块可以包括词语构建子模块、拼音串构建子模块和信息集构建子模块。词语构建子模块用于对于核心词集中字数小于预定值的第一核心词语，从预定字库中选择与第一核心词语中的字相似的相似字，并采用相似字替代第一核心词语中的字，得到针对第一核心词语的混淆词语。拼音串构建子模块用于对于核心词集中字数大于或等于预定值的第二核心词语，确定第二核心词语的拼音串，并将与第二核心词语的拼音串相似的拼音串作为针对第二核心词语的混淆拼音串。信息集构建子模块用于基于混淆词语和混淆拼音串构建混淆信息集。

根据本公开的实施例，上述词语构建子模块例如还可以用于：对于第一核心词语，从预定高频词库中选择与第一核心词语的发音相似的词，得到针对第一核心词语的混淆词语。

根据本公开的实施例，混淆信息集包括多个混淆词语，上述对文本进行纠错的装置800还可以包括字典树构建模块，用于基于混淆信息集构建预定字典树。该字典树构建模块包括第一树构建子模块和第一指针添加子模块。第一树构建子模块用于针对多个混淆词语中的每个第一词语，构建针对每个第一词语的第一节点分支，所述第一节点分支中的每个第一节点指示每个第一词语中的一个字。指针添加子模块用于采用预定字符串匹配算法向每个第一节点添加失配指针，得到第一字典树。

根据本公开的实施例，上述混淆信息集还包括多个混淆拼音串，多个混淆拼音串中的每个拼音串针对核心词集中的一个核心词语。上述字典树构建模块还包括第二树构建子模块和第二指针添加子模块。第二树构建字模块用于构建针对每个拼音串的第二节点分支，该第二节点分支中的每个第二节点指示每个拼音串中的一个拼音。第二指针添加子模块用于采用预定字符串匹配算法向每个第二节点添加失配指针，得到第二字典树。

根据本公开的实施例，上述混淆信息集包括多个混淆词语和多个混淆拼音串。上述预定字典树包括针对多个混淆词语的第一字典树和针对多个混淆拼音串的第二字典树。上述备选词语确定子模块包括第一查询单元、转换单元和第二查询单元。第一查询单元用于采用预定匹配算法查询第一字典树，并确定待纠错文本中与多个混淆词语相匹配的词为备选待纠错词语。转换单元用于将待纠错文本转换为拼音表达的文本。第二查询单元用于基于拼音表达的文本，采用预定匹配算法查询第二字典树，确定拼音表达的文本中与多个混淆拼音串匹配的目标拼音串，并确定该目标拼音串所表达的词语为备选待纠错词语。

根据本公开的实施例，第一字典树包括针对每个混淆词语的第一节点分支和表示单个核心词语的第三节点。该第三节点与第一节点分支中指示目标字的第一节点连接，该目标字为针对单个核心词语的混淆词语中的最后一个字。第二字典树包括针对每个混淆拼音串的第二节点分支和表示单个核心词语的第四节点。该第四节点与第二节点分支中指示目标拼音的第二节点连接。该目标拼音为针对单个核心词语的混淆拼音串中的最后一个拼音。

根据本公开的实施例，上述核心词语确定子模块包括第一确定单元和第二确定单元。第一确定单元用于采用预定匹配算法查询第一字典树，确定与备选待纠错词语相匹配的混淆词语所针对的第一目标节点分支，并确定与第一目标节点分支连接的第三节点所表示的核心词语。第二确定单元用于采用预定匹配算法查询第二字典树，确定与备选待纠错词语相匹配的混淆拼音串所针对的第二目标节点分支，并确定与第二目标节点分支连接的第四节点所表示的核心词语。

根据本公开的实施例，上述备选词语确定子模块包括第三查询单元和选择单元。第三查询单元用于采用预定匹配算法查询预定字典树，确定待纠错文本中与预定字典树相匹配的词语，作为待选词语。选择单元用于在待选词语为多个，且多个待选词语中存在彼此交叉的至少两个待选词语的情况下，从至少两个待选词语中选择长度较长或在待纠错文本中的位置靠前的词语，作为备选待纠错词语。

根据本公开的实施例，上述对文本进行纠错的装置800还可以包括目标文本获取模块、文本识别模块和词添加模块。目标文本获取模块用于获取针对目标垂直领域的目标文本。文本识别模块用于采用预定新词发现算法识别目标文本，获得新的核心词语。词添加模块用于将新的核心词语添加至核心词集。

根据本公开的实施例，上述文本识别模块包括识别子模块和选择子模块。识别子模块用于采用预定新词发现算法识别目标文本，获得目标文本中的新词。选择子模块用于从新词中选择不属于预定高频词库的词，作为新的核心词语。

根据本公开的实施例，备选待纠错词语为多个，已纠错文本为分别针对多个备选待纠错词语的多个文本。上述纠错词语确定模块具体用于针对多个备选待纠错词语中的每个第二词语，在第三困惑度大于第四困惑度与预定阈值之和的情况下，确定每个第二词语为待纠错词语。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开实施例的对文本进行纠错的方法的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如对文本进行纠错的方法。例如，在一些实施例中，对文本进行纠错的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的对文本进行纠错的方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行对文本进行纠错的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(〞Virtual Private Server″，或简称〞VPS〞)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种对文本进行纠错的方法，包括：

获取待纠错文本；

确定所述待纠错文本中的备选待纠错词语和针对所述备选待纠错词语的已纠错文本；

采用统计语言模型分别确定所述待纠错文本的第一困惑度和所述已纠错文本的第二困惑度；

在所述第一困惑度大于所述第二困惑度的情况下，采用深度学习语言模型分别确定所述待纠错文本的第三困惑度和所述已纠错文本的第四困惑度；以及

根据所述第三困惑度和所述第四困惑度，确定所述备选待纠错词语中的待纠错词语，

其中，所述确定所述待纠错文本中的备选待纠错词语和针对所述备选待纠错词语的已纠错文本包括：

基于预先设置的错别词库，确定所述待纠错文本中的备选待纠错词语；

基于预先设置的正确词库，确定针对所述备选待纠错词语的正确词语；所述正确词库中包括对应于所述错别词库中的每个错别词语的正确词语；以及

采用针对所述备选待纠错词语的正确词语替换所述待纠错文本中的所述备选待纠错词语，得到针对所述备选待纠错词语的已纠错文本。

2.根据权利要求1所述的方法，其中：

所述错别词库包括针对目标垂直领域的混淆信息集；

所述正确词库包括针对所述目标垂直领域的核心词集；所述混淆信息集是基于所述核心词集构建的。

3.根据权利要求2所述的方法，其中，确定所述待纠错文本中的备选待纠错词语包括：

采用预定匹配算法查询预定字典树，根据所述待纠错文本中与所述预定字典树相匹配的词语，确定所述备选待纠错词语，

其中，所述预定字典树是基于所述混淆信息集构建的。

4.根据权利要求2所述的方法，还包括通过以下方式基于所述核心词集构建所述混淆信息集：

对于所述核心词集中字数小于预定值的第一核心词语，从预定字库中选择与所述第一核心词语中的字相似的相似字，并采用所述相似字替代所述第一核心词语中的字，得到针对所述第一核心词语的混淆词语；

对于所述核心词集中字数大于或等于所述预定值的第二核心词语，确定所述第二核心词语的拼音串，并将与所述第二核心词语的拼音串相似的拼音串作为针对所述第二核心词语的混淆拼音串；以及

基于所述混淆词语和所述混淆拼音串构建所述混淆信息集。

5.根据权利要求4所述的方法，其中，所述基于所述核心词集构建所述混淆信息集还包括：

对于所述第一核心词语，从预定高频词库中选择与所述第一核心词语的发音相似的词，得到针对所述第一核心词语的混淆词语。

6. 根据权利要求3所述的方法，其中，所述混淆信息集包括多个混淆词语；所述方法还包括通过以下方式基于所述混淆信息集构建所述预定字典树：

针对所述多个混淆词语中的每个第一词语，构建针对所述每个第一词语的第一节点分支，所述第一节点分支中的每个第一节点指示所述每个第一词语中的一个字；以及

采用预定字符串匹配算法向所述每个第一节点添加失配指针，得到第一字典树。

7. 根据权利要求6所述的方法，其中，所述混淆信息集还包括多个混淆拼音串，所述多个混淆拼音串中的每个拼音串针对所述核心词集中的一个核心词语；基于所述混淆信息集构建所述预定字典树还包括：

构建针对所述每个拼音串的第二节点分支，所述第二节点分支中的每个第二节点指示所述每个拼音串中的一个拼音；以及

采用预定字符串匹配算法向所述每个第二节点添加失配指针，得到第二字典树。

8.根据权利要求3所述的方法，其中，所述混淆信息集包括多个混淆词语和多个混淆拼音串；所述预定字典树包括针对所述多个混淆词语的第一字典树和针对所述多个混淆拼音串的第二字典树；确定所述备选待纠错词语包括：

采用所述预定匹配算法查询所述第一字典树，并确定所述待纠错文本中与所述多个混淆词语相匹配的词为备选待纠错词语；

将所述待纠错文本转换为拼音表达的文本；以及

基于所述拼音表达的文本，采用所述预定匹配算法查询所述第二字典树，确定所述拼音表达的文本中与所述多个混淆拼音串匹配的目标拼音串，并确定所述目标拼音串所表达的词语为备选待纠错词语。

9.根据权利要求7或8所述的方法，其中：

所述第一字典树包括针对每个混淆词语的第一节点分支和表示单个核心词语的第三节点，所述第三节点与所述第一节点分支中指示目标字的第一节点连接，所述目标字为针对所述单个核心词语的混淆词语中的最后一个字；

所述第二字典树包括针对每个混淆拼音串的第二节点分支和表示单个核心词语的第四节点，所述第四节点与所述第二节点分支中指示目标拼音的第二节点连接，所述目标拼音为针对所述单个核心词语的混淆拼音串中的最后一个拼音。

10. 根据权利要求9所述的方法，其中，确定针对所述备选待纠错词语的正确词语包括：

采用所述预定匹配算法查询所述第一字典树，确定与所述备选待纠错词语相匹配的混淆词语所针对的第一目标节点分支，并确定与所述第一目标节点分支连接的第三节点所表示的核心词语；以及

采用所述预定匹配算法查询所述第二字典树，确定与所述备选待纠错词语相匹配的混淆拼音串所针对的第二目标节点分支，并确定与所述第二目标节点分支连接的第四节点所表示的核心词语。

11. 根据权利要求3所述的方法，其中，确定所述备选待纠错词语包括：

采用所述预定匹配算法查询所述预定字典树，确定所述待纠错文本中与所述预定字典树相匹配的词语，作为待选词语；以及

在所述待选词语为多个，且多个所述待选词语中存在彼此交叉的至少两个待选词语的情况下，从所述至少两个待选词语中选择长度较长或在所述待纠错文本中的位置靠前的词语，作为所述备选待纠错词语。

12.根据权利要求2所述的方法，还包括：

获取针对所述目标垂直领域的目标文本；

采用预定新词发现算法识别所述目标文本，获得新的核心词语；以及

将所述新的核心词语添加至所述核心词集。

13. 根据权利要求12所述的方法，其中，所述采用预定新词发现算法识别所述目标文本，获得新的核心词语包括：

采用所述预定新词发现算法识别所述目标文本，获得所述目标文本中的新词；以及

从所述新词中选择不属于预定高频词库的词，作为所述新的核心词语。

14.根据权利要求1所述的方法，其中，所述备选待纠错词语为多个，所述已纠错文本为分别针对多个所述备选待纠错词语的多个文本；确定所述备选待纠错词语中的待纠错词语包括：

针对多个所述备选待纠错词语中的每个第二词语，在所述第三困惑度大于所述第四困惑度与预定阈值之和的情况下，确定所述每个第二词语为待纠错词语。

15.一种对文本进行纠错的装置，包括：

文本获取模块，用于获取待纠错文本；

备选词语确定模块，用于确定所述待纠错文本中的备选待纠错词语和针对所述备选待纠错词语的已纠错文本；

第一困惑确定模块，用于采用统计语言模型分别确定所述待纠错文本的第一困惑度和所述已纠错文本的第二困惑度；

第二困惑确定模块，用于在所述第一困惑度大于所述第二困惑度的情况下，采用深度学习语言模型分别确定所述待纠错文本的第三困惑度和所述已纠错文本的第四困惑度；以及

纠错词语确定模块，用于根据所述第三困惑度和所述第四困惑度，确定所述备选待纠错词语中的待纠错词语；

其中，所述备选词语确定模块包括：

备选词语确定子模块，用于基于预先设置的错别词库，确定所述待纠错文本中的备选待纠错词语；

正确词语确定子模块，用于基于预先设置的正确词库，确定针对所述备选待纠错词语的正确词语；所述正确词库中包括对应于所述错别词库中的每个错别词语的正确词语；以及

词语替换子模块，用于采用针对所述备选待纠错词语的正确词语替换所述待纠错文本中的所述备选待纠错词语，得到针对所述备选待纠错词语的已纠错文本。

16.根据权利要求15所述的装置，其中：

所述错别词库包括针对目标垂直领域的混淆信息集；

17.根据权利要求16所述的装置，其中，所述备选词语确定子模块具体用于：

其中，所述预定字典树是基于所述混淆信息集构建的。

18.根据权利要求16所述的装置，还包括混淆信息构建模块，用于基于所述核心词集构建所述混淆信息集；所述混淆信息构建模块包括：

词语构建子模块，用于对于所述核心词集中字数小于预定值的第一核心词语，从预定字库中选择与所述第一核心词语中的字相似的相似字，并采用所述相似字替代所述第一核心词语中的字，得到针对所述第一核心词语的混淆词语；

拼音串构建子模块，用于对于所述核心词集中字数大于或等于所述预定值的第二核心词语，确定所述第二核心词语的拼音串，并将与所述第二核心词语的拼音串相似的拼音串作为针对所述第二核心词语的混淆拼音串；以及

信息集构建子模块，用于基于所述混淆词语和所述混淆拼音串构建所述混淆信息集。

19.根据权利要求18所述的装置，其中，所述词语构建子模块还用于：

20. 根据权利要求17所述的装置，其中，所述混淆信息集包括多个混淆词语；所述装置还包括字典树构建模块，用于基于混淆信息集构建所述预定字典树；所述字典树构建模块包括：

第一树构建子模块，用于针对所述多个混淆词语中的每个第一词语，构建针对所述每个第一词语的第一节点分支，所述第一节点分支中的每个第一节点指示所述每个第一词语中的一个字；以及

第一指针添加子模块，用于采用预定字符串匹配算法向所述每个第一节点添加失配指针，得到第一字典树。

21. 根据权利要求20所述的装置，其中，所述混淆信息集还包括多个混淆拼音串，所述多个混淆拼音串中的每个拼音串针对所述核心词集中的一个核心词语；所述字典树构建模块还包括：

第二树构建子模块，用于构建针对所述每个拼音串的第二节点分支，所述第二节点分支中的每个第二节点指示所述每个拼音串中的一个拼音；以及

第二指针添加子模块，用于采用预定字符串匹配算法向所述每个第二节点添加失配指针，得到第二字典树。

22.根据权利要求17所述的装置，其中，所述混淆信息集包括多个混淆词语和多个混淆拼音串；所述预定字典树包括针对所述多个混淆词语的第一字典树和针对所述多个混淆拼音串的第二字典树；所述备选词语确定子模块包括：

第一查询单元，用于采用所述预定匹配算法查询所述第一字典树，并确定所述待纠错文本中与所述多个混淆词语相匹配的词为备选待纠错词语；

转换单元，用于将所述待纠错文本转换为拼音表达的文本；以及

第二查询单元，用于基于所述拼音表达的文本，采用所述预定匹配算法查询所述第二字典树，确定所述拼音表达的文本中与所述多个混淆拼音串匹配的目标拼音串，并确定所述目标拼音串所表达的词语为备选待纠错词语。

23. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1~14中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1~14中任一项所述的方法。