CN114548075A

CN114548075A - 文本处理方法、文本处理装置、存储介质与电子设备

Info

Publication number: CN114548075A
Application number: CN202210177332.1A
Authority: CN
Inventors: 张玉皓
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-05-27

Abstract

本公开提供了一种文本处理方法、文本处理装置、计算机可读存储介质与电子设备，属于自然语言处理技术领域。所述方法包括：获取待处理文本；提取所述待处理文本中的拼音序列，并将所述拼音序列划分为多个拼音单元；基于各所述拼音单元对应的候选汉字的初始概率和转移概率，计算表征所述拼音序列的真实汉字意图的隐藏序列的最大概率，所述初始概率为候选汉字在文本中的出现概率，所述转移概率为当前候选汉字后面出现下一候选汉字的概率；对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列。本公开可以将拼音文本转换为汉字文本，提高拼音文本的识别准确率。

Description

文本处理方法、文本处理装置、存储介质与电子设备

技术领域

本公开涉及自然语言处理技术领域，尤其涉及一种文本处理方法、文本处理装置、计算机可读存储介质与电子设备。

背景技术

随着信息技术等的发展，海量的文本信息成为企业提供智能化服务的基础，例如，在各种搜索引擎中，人们可以输入查询文本来获取需要的信息。

然而，当用户输入的查询文本中包含错误或不规范的文本信息，如错别字或拼音序列时，则需要对错误和不规范的文本信息进行识别和处理，才能够识别出用户真正的搜索意图。现有的纠错处理方法主要是通过深度学习技术完成的，但这种方法往往需要大规模的语料数据，模型的复杂度也比较高，并且也不具备对拼音序列进行纠错处理的能力。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供了一种文本处理方法、文本处理装置、计算机可读存储介质与电子设备，进而至少在一定程度上改善现有技术无法实现拼音文本的识别的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种文本处理方法，所述方法包括：获取待处理文本；提取所述待处理文本中的拼音序列，并将所述拼音序列划分为多个拼音单元；基于各所述拼音单元对应的候选汉字的初始概率和转移概率，计算表征所述拼音序列的真实汉字意图的隐藏序列的最大概率，所述初始概率为候选汉字在文本中的出现概率，所述转移概率为当前候选汉字后面出现下一候选汉字的概率；对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列。

在本公开的一种示例性实施方式中，所述将所述拼音序列划分为多个拼音单元，包括：基于预设的最大匹配长度，沿固定方向对所述拼音序列进行搜索，确定所述拼音序列中与预设拼音表中的拼音匹配的拼音串，以得到所述多个拼音单元。

在本公开的一种示例性实施方式中，所述基于各所述拼音单元对应的候选汉字的初始概率和转移概率，计算表征所述拼音序列的真实汉字意图的隐藏序列的最大概率，包括：按照各所述拼音单元在所述拼音序列中的顺序生成包含各拼音单元的观测序列；依据各所述拼音单元对应的候选汉字的初始概率和转移概率，通过隐马尔可夫模型计算所述观测序列对应的隐藏序列的维特比概率。

在本公开的一种示例性实施方式中，所述待处理文本包括一个或多个汉字，在对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理前，所述方法还包括：按照所述待处理文本中各所述汉字的汉字顺序和所述汉字序列中各汉字对应的拼音顺序，将所述待处理文本中的各个汉字和所述汉字序列中的各个汉字进行排列，生成所述待处理文本对应的汉字文本。

在本公开的一种示例性实施方式中，在对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列时，所述方法包括：按照预设的纠错规则检测所述汉字文本中的错误文本，所述错误文本包括所述汉字文本中的错误汉字、错误词组和错误语句中的任意一种或多种；使用所述错误文本的候选文本替换所述错误文本，并计算替换错误文本后得到的汉字序列的困惑度评分；当所述汉字文本的困惑度评分小于困惑度阈值时，将对应的汉字文本确定为所述目标汉字序列。

在本公开的一种示例性实施方式中，在按照预设的纠错规则检测所述汉字文本中的错误文本时，所述方法包括：利用预设的统计语言模型将所述汉字文本按照固定分段间隔进行分段，得到多个汉字串，并计算各所述汉字串的概率值；根据各所述汉字串的概率值，确定所述汉字文本中每个汉字的正确度评分；当任一汉字的正确度评分小于正确度阈值时，将所述任一汉字确定为错误汉字。

在本公开的一种示例性实施方式中，在按照预设的纠错规则检测所述汉字文本中的错误文本时，所述方法包括：在预先配置的词典数据中，遍历查找对所述汉字文本进行分词处理得到的各个词组，在未查找到任一词组时，将所述任一词组确定为错误词组。

根据本公开的第二方面，提供一种文本处理装置，所述装置包括：获取模块，用于获取待处理文本；划分模块，用于提取所述待处理文本中的拼音序列，并将所述拼音序列划分为多个拼音单元；计算模块，用于基于各所述拼音单元对应的候选汉字的初始概率和转移概率，计算表征所述拼音序列的真实汉字意图的隐藏序列的最大概率，所述初始概率为候选汉字在文本中的出现概率，所述转移概率为当前候选汉字后面出现下一候选汉字的概率；生成模块，用于对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列

在本公开的一种示例性实施方式中，所述划分模块用于基于预设的最大匹配长度，沿固定方向对所述拼音序列进行搜索，确定所述拼音序列中与预设拼音表中的拼音匹配的拼音串，以得到所述多个拼音单元。

在本公开的一种示例性实施方式中，所述计算模块用于按照各所述拼音单元在所述拼音序列中的顺序生成包含各拼音单元的观测序列，依据各所述拼音单元对应的候选汉字的初始概率和转移概率，通过隐马尔可夫模型计算所述观测序列对应的隐藏序列的维特比概率。

在本公开的一种示例性实施方式中，所述待处理文本包括一个或多个汉字，在对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理前，所述生成模块还用于按照所述待处理文本中各所述汉字的汉字顺序和所述汉字序列中各汉字对应的拼音顺序，将所述待处理文本中的各个汉字和所述汉字序列中的各个汉字进行排列，生成所述待处理文本对应的汉字文本。

在本公开的一种示例性实施方式中，在对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列时，所述生成模块还用于按照预设的纠错规则检测所述汉字文本中的错误文本，所述错误文本包括所述汉字文本中的错误汉字、错误词组和错误语句中的任意一种或多种，使用所述错误文本的候选文本替换所述错误文本，并计算替换错误文本后得到的汉字序列的困惑度评分，当所述汉字文本的困惑度评分小于困惑度阈值时，将对应的汉字文本确定为所述目标汉字序列。

在本公开的一种示例性实施方式中，在按照预设的纠错规则检测所述汉字文本中的错误文本时，所述生成模块还用于利用预设的统计语言模型将所述汉字文本按照固定分段间隔进行分段，得到多个汉字串，并计算各所述汉字串的概率值，根据各所述汉字串的概率值，确定所述汉字文本中每个汉字的正确度评分，当任一汉字的正确度评分小于正确度阈值时，将所述任一汉字确定为错误汉字。

在本公开的一种示例性实施方式中，在按照预设的纠错规则检测所述汉字文本中的错误文本时，所述生成模块还用于在预先配置的词典数据中，遍历查找对所述汉字文本进行分词处理得到的各个词组，在未查找到任一词组时，将所述任一词组确定为错误词组。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种文本处理方法。

根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一种文本处理方法。

本公开具有以下有益效果：

综上，根据本示例性实施方式中的文本处理方法、文本处理装置、计算机可读存储介质和电子设备，可以提取获取的待处理文本中的拼音序列，将拼音序列划分为多个拼音单元，并基于各拼音单元对应的候选汉字的初始概率和转移概率，计算表征拼音序列的真实汉字意图的隐藏序列的最大概率，进而对具有最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列。本方案通过根据各拼音单元对应的候选汉字的初始概率和转移概率，计算表征拼音序列的真实汉字意图的隐藏序列的最大概率，以及对具有最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列，可以将拼音序列转换为汉字序列，实现拼音向汉字文本的转换，并且通过对汉字序列进行纠错处理，可以减少生成的目标汉字序列中的汉字错误率，提高生成的目标汉字序列的可读性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施方式，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施方式中一种文本处理方法的流程图；

图2示出本示例性实施方式中一种搜索拼音单元的示意图；

图3示出本示例性实施方式中一种计算隐藏序列的最大概率的示意图；

图4示出本示例性实施方式中一种文本处理方法的子流程图；

图5示出本示例性实施方式中另一种文本处理方法的子流程图；

图6示出本示例性实施方式中一种计算汉字错误评分的示意图；

图7示出本示例性实施方式中另一种文本处理方法的流程图；

图8示出本示例性实施方式中一种文本处理装置的结构框图；

图9示出本示例性实施方式中一种用于实现上述方法的计算机可读存储介质；

图10示出本示例性实施方式中一种用于实现上述方法的电子设备。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

本公开的示例性实施方式首先提供了一种文本处理方法，该方法可以应用于终端设备或提供文本处理服务的后台服务器，使其可以对用户输入的待处理文本进行纠错处理。例如，在搜索引擎或客服系统中，服务器可以接收用户输入的查询文本，并对该查询文本进行纠错处理，使得搜索引擎或客服系统可以基于纠错处理后的文本确定用户的搜索意图，并输出搜索结果。

图1示出了本示例性实施方式的一种流程，可以包括以下步骤S110～S140：

步骤S110.获取待处理文本。

具体的，待处理文本可以是用户通过客户端输入的查询文本，如用户在具备文本输入功能的应用程序中输入的搜索文本或输入文本，也可以是通过其他方式，如从网上获取的下载文本，或者也可以是通过文本识别技术识别得到的语音或图像中的识别文本，例如，可以是通过语音识别技术识别出的用户语音录制或从网络上获取的语音数据中的文本数据，也可以是通过OCR(Optical Character Recognition，光学字符识别)等图像识别技术识别出的图像信息中的文本信息。此外，待处理文本中可以包括汉字、拼音、标点符号、特殊字符串等数据。

步骤S120.提取待处理文本中的拼音序列，并将拼音序列划分为多个拼音单元。

拼音序列是指从待处理文本中提取到的一系列拼音对象，例如，对于待处理文本“今天beijing的tianqizenmeyang？”，拼音序列则为“beijing”和“tianqizenmeyang”；拼音单元表示拼音序列中可能构成拼音的拼音串，如对于拼音序列“beijing”，其可能的拼音单元可以是“bei”和“jing”。

当待处理文本中包括拼音序列时，可以将待处理文本中的拼音序列与其他文本类型的内容进行划分，提取出待处理文本中的拼音序列，并将拼音序列划分为多个拼音单元，每个拼音单元构成一个可能的拼音。通过这种方法，可以提取出待处理文本中的拼音序列，并得到拼音序列中可能构成拼音的拼音单元，完成对待处理文本的拼音序列提取和初步解析。

在提取待处理文本中的拼音序列时，在一种可选的实施方式中，可以通过正则表达式从待处理文本中提取拼音序列。具体的，可以通过编写中文拼音的正则表达式，对待处理文本进行匹配，来提取出待处理文本中的拼音序列。另外，也可以通过字符判断确定待处理文本中的字母、汉字等，来从待处理文本中提取出拼音序列。

此外，在从待处理文本中提取出拼音序列后，还可以根据中文拼音的拼音规则对拼音序列进行纠错处理。例如，可以将拼音序列中的大写字母转换为小写，也可以对拼音序列中连续的重复声母、韵母进行删除，或者也可以删除拼音序列中的特殊标记，如标点符号、下划线和特殊符号等。由此，可以去掉拼音序列中错误输入的文本信息，提高拼音序列的解析效率和正确率。

进一步的，在从待处理文本中提取出拼音序列后，可以将拼音序列划分为多个拼音单元。为了提高划分拼音单元的准确性，避免漏找或产生重复的可能，在一种可选的实施方式中，可以通过以下方法将拼音序列划分为多个拼音单元：

基于预设的最大匹配长度，沿固定方向对拼音序列进行搜索，确定拼音序列中与预设拼音表中的拼音匹配的拼音串，以得到多个拼音单元。

最大匹配长度可以由操作人员自由定义，例如，可以设置为中文拼音的最大长度6，或者也可以设置为整个拼音序列的最大长度；预设拼音表可以是操作人员预先配置的包括全部中文拼音的拼音表，可以存储为txt、csv等格式的文本数据。在划分拼音单元时，可以按照预设的最大匹配长度，沿固定方向对拼音序列进行搜索，在预设拼音表中查找拼音序列中拼音串的最大匹配，如按照从左到右的方向对拼音序列中连续的拼音串进行搜索，在预设拼音表中查找长度等于最大匹配长度的拼音串是否存在与其匹配的拼音串，从而将查找到的拼音序列中的全部拼音串确定为拼音序列中的全部拼音单元。

例如，参考图2所示，可以沿从右至左的方向对拼音序列“woxihuanni”进行搜索，在第一轮搜索时，首先可以使最大匹配长度N为整个拼音序列的长度，即字母长度N＝10，确定字母长度10对应的拼音串是否构成拼音单元，如可以在预设拼音表中查找字母长度10对应的拼音串是否存在与拼音序列“woxihuanni”匹配的拼音单元，如果存在则确定字母长度10对应的拼音串为一个拼音单元，反之，则不构成拼音单元，进而缩小最大匹配长度N，如设置字母长度N＝9，然后在预设拼音表中查找最大匹配长度字母长度9对应的拼音串“oxihuanni”所匹配的拼音单元，按照这种方式不断缩小最大匹配长度，直至最大匹配长度N＝2停止搜索，在确定拼音序列中与最大匹配长度对应的拼音单元后，将对应的拼音串去掉，继续进行第二轮搜索，例如，在拼音序列“woxihuanni”中，查找到的与最大匹配长度匹配的拼音串为“ni”，则可以去掉“ni”，在得到的新的拼音序列“woxihuan”中继续按照最大匹配长度进行搜索，直至生成的新的拼音序列的字母数量为1时停止，得到拼音序列中的全部拼音单元。

通过上述方法，可以在拼音序列中查找到全部可能构成拼音的拼音单元，提高查找的准确性和完整度，减少漏找或产生重复的可能。

步骤S130.基于各拼音单元对应的候选汉字的初始概率和转移概率，计算表征拼音序列的真实汉字意图的隐藏序列的最大概率。

其中，初始概率为候选汉字在文本中的出现概率；转移概率为当前候选汉字后面出现下一候选汉字的概率。本示例性实施方式中，初始概率和转移概率均可以是根据预先获取的语料数据计算得到的统计概率，具体的，初始概率可以通过对语料数据中候选汉字的出现频率进行统计，来得出候选汉字的初始概率；相对应的，可以对语料数据中当前候选汉字后面出现的候选汉字进行统计，来获得当前候选汉字与其后出现的候选汉字的转移概率。

由于在中文文本中，汉字之间的搭配和连接顺序往往是存在一定的关联的，因此，可以通过计算各拼音单元对应的候选汉字的初始概率和转移概率，计算每个拼音单元对应的候选汉字在拼音序列对应的汉字序列中的出现概率，以及下一候选汉字在拼音序列对应的汉字序列中的出现概率，得到不同候选汉字组合对应的隐藏序列的概率，其中具有最大概率值的隐藏序列即可以作为表征拼音序列的真实汉字意图的汉字序列。因此，通过这种方法，可以计算得到拼音序列对应的汉字组合的最大出现概率，确定拼音序列的真实汉字意图，完成对拼音序列的汉字解析。

具体的，在一种可选的实施方式中，步骤S130可以通过以下方法实现：

按照各拼音单元在拼音序列中的顺序生成包含各拼音单元的观测序列；

依据各拼音单元对应的候选汉字的初始概率和转移概率，通过隐马尔可夫模型计算观测序列对应的隐藏序列的维特比概率。

隐马尔可夫模型(Hidden Markov model，HMM)又称为隐马尔可夫链，是一种概率图模型，可以用于表示候选汉字之间的关联可能性，并且隐马尔可夫模型的观测序列变量在当前时刻的状态仅由当前时刻的隐藏状态决定；维特比概率可以是通过维特比算法计算得到的隐藏序列的最大概率，其中，维特比算法是一种动态规划算法，可以用于寻找最有可能产生观测序列的维特比路径和隐藏序列。

按照拼音单元在拼音序列中的顺序生成包含各拼音单元的观测序列，如对于拼音序列“tianqizenmeyang”，观测序列则可以是由各拼音单元构成的序列，如“tian qi zenme yang”。然后，可以依据观测序列中各拼音单元的同音汉字或谐音汉字，以及同音汉字或谐音汉字对应的同形汉字，在候选汉字集中确定各拼音单元对应的候选汉字，例如，对于拼音单元“tian”，对应的候选汉字可以是天、大、填、田、目、添等，对于拼音单元“qi”，对应的候选汉字可以是其、器、嚣、气、起、赵、等，每个候选汉字的初始概率不同，且对于不同的候选汉字而言，拼音单元“tian”到拼音单元“qi”对应的不同的候选汉字的转移概率也不同，在依据统计概率确定每个候选汉字的初始概率和转移概率后，可以通过隐马尔可夫模型计算观测序列对应的隐藏序列的概率，同时可以利用维特比算法确定搜索最大概率的隐藏序列的最短传递路径，得到隐藏序列的维特比概率，从而将维特比概率确定为隐藏序列的最大概率。

例如，参考图3所示，对于观测序列“wo shi ai ni de”，每个拼音单元对应的候选汉字为3个，每相邻两个候选汉字之间的连接关系可以包括3*3种，为了确定相邻的候选汉字的最可能的搭配，可以计算中间任意一个拼音单元，如“shi”到第一个拼音单元“wo”之间的候选汉字的传递路径，找到从拼音单元“shi”到第一个拼音单元“wo”之间的候选汉字的最短传递路径，而整个观测序列对应的隐藏序列的最短传递路径必然经过上述拼音单元“shi”到第一个拼音单元“wo”之间的候选汉字的最短传递路径。按照这种方式，搜索得到整个观测序列对应的隐藏序列的最短传递路径，确定最短传递路径的最大概率，即为隐藏序列的维特比概率。

实际上，假设每个拼音单元对应的候选汉字为M个，则对N个拼音单元而言，计算每个隐藏序列的概率进而比较来得到最大概率的算法复杂度为M^N，而采用维特比算法的算法复杂度为M²N，可见，通过采用维特比算法计算隐藏序列的最大概率，可以大大减少隐藏序列概率的计算量，提升计算效率。也就是说，通过上述方法，可以确定表征拼音序列的真实汉字意图的隐藏序列的最大概率，实现对拼音序列的汉字转换，并且通过计算隐藏序列的维特比概率，可以减少确定最大概率的路径数量，提升计算效率。

步骤S140.对具有最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列。

最大概率的隐藏序列可以表示拼音序列对应的汉字序列的最大可能性，也就是说，最大概率的隐藏序列对应的汉字序列可以作为拼音序列最可能接近用户表达意图的汉字序列。在得到拼音序列对应的汉字序列后，对隐藏序列对应的汉字序列进行纠错处理，可以减少输出的汉字序列中的汉字错误率，提高汉字序列的正确度。

本示例性实施方式中，待处理文本可以是全拼音文本，也可以是由汉字文本和拼音文本构成的混合文本，当待处理文本是全拼音文本时，具有最大概率的隐藏序列对应的汉字序列即为待处理文本对应的汉字文本；当待处理文本是混合文本时，可以根据待处理文本中的汉字和上述具有最大概率的隐藏序列对应的汉字序列中的汉字生成汉字文本，并对汉字文本进行纠错处理。

具体的，在一种可选的实施方式中，当待处理文本包括一个或多个汉字时，在通过步骤S140对汉字序列进行纠错处理前，还可以执行以下方法来生成待处理文本对应的汉字文本：

按照待处理文本中各汉字的汉字顺序和汉字序列中各汉字对应的拼音顺序，将待处理文本中的各个汉字和汉字序列中的各个汉字进行排列，生成待处理文本对应的汉字文本。

例如，对于待处理文本“今天beijing的tianqizenmeyang？”，可以按照待处理文本中各汉字的汉字顺序和汉字序列“北京”和“天气怎么样”对应的拼音顺序，将待处理文本中的各个汉字“今”、“天”和汉字序列中的各个汉字“北”、“京”和“天”、“气”、“怎”、“么”、“样”进行排列，生成汉字文本“今天北京的天气怎么样”。通过这种方法，可以生成待处理文本对应的汉字文本，实现拼音文本或混合文本向中文文本的转换。

进一步的，在步骤S140中，也可以对生成的待处理文本的汉字文本进行处理，具体的，在一种可选的实施方式中，参考图4所示，可以通过以下方法对汉字文本进行纠错处理：

步骤S410，按照预设的纠错规则检测汉字文本中的错误文本。

预设的纠错检测规则是指对汉字文本进行纠错处理的错误检测规则和纠错规则，可以包括基于统计语言模型的纠错规则、基于语言模型的纠错规则等中的任意一种或多种。错误文本可以包括汉字文本中的错误汉字、错误词组、错误语句中的任意一种或多种。

以汉字文本中的错误汉字为例，可以通过统计语言模型计算汉字文本中每个汉字的似然概率，从而在某个汉字的似然概率小于汉字文本的平均值时，则可以认为该汉字属于错误汉字，或者也可以直接采用常用汉字字典判断汉字文本中的汉字是否为常用字，如果不是常用字，则可以将对应的汉字确定为错误汉字。

为了提高检测汉字文本中错误文本的准确率和全面程度，可以对汉字文本中的错误汉字、错误词组和错误语句等分别进行检测，以下提供了两种检测错误文本的方式：

(1)检测错误汉字

在汉字文本中，每个汉字作为文本的一个构成元素，会直接影响汉字文本中的词组的合理性，因此，在一种可选的实施方式中，在按照预设的纠错规则检测所述汉字文本中的错误文本时，参考图5所示，可以通过以下方法检测汉字文本中的错误汉字：

步骤S510，利用预设的统计语言模型将汉字文本按照固定分段间隔进行分段，得到多个汉字串，并计算各汉字串的概率值。

其中，预设的统计语言模型可以是N-Gram语言模型，该模型又称为N元模型，可以用于评判汉字文本的合理性，常见的N-Gram语言模型有1-Gram(一元模型)、2-Gram(二元模型)和3-Gram(三元模型)等。其中，对于1-Gram而言，每个词都是独立分布的，因此，P(A,B,C)＝P(A)P(B)P(C)，对于2-Gram和3-Gram而言，每个词都与它左边最近的词有关联，以2-Gram为例，每个词都与它左边最近的一个词有关联，即P(A,B,C)＝P(A)P(B|A)P(C|B)。

在使用N-Gram语言模型对汉字文本进行分段时，以2-Gram为例，可以按照固定分段间隔将汉字文本划分为每两个汉字一组的多个汉字串，如对于汉字文本“我是一个好人”，经过分段处理后得到的汉字串为“我是”、“是一”、“一个”、“个好”、“好人”。在得到汉字串后，可以通过预先训练好的2-Gram模型计算每个汉字串的概率值，该概率值可以表达汉字串作为一个词语的合理性，概率值越小，表示汉字串越不可能是一个词语，反之，概率值越大，表示汉字串是一个词语的可能性越大。

步骤S520，根据各汉字串的概率值，确定汉字文本中每个汉字的正确度评分。

正确度评分是指汉字文本中每个汉字的正确可能性。例如，参考图6所示，可以对汉字文本对应的汉字正确度评分进行前后补齐，补齐之后求相同的两个汉字的平均值，得到对应汉字的正确度评分，该正确度评分的值越小，表示对应的汉字是错误汉字的概率越大。

步骤S530，当任一汉字的正确度评分小于正确度阈值时，将任一汉字确定为错误汉字。

正确度阈值可以由操作人员依据历史计算数据进行设置。当任一汉字的正确度评分小于定义的正确度阈值时，可以将上述任一汉字确定为错误汉字，实现汉字文本中的错字检测。

通过上述方法，可以识别出汉字文本中的错误汉字，实现汉字文本的字级错误检测。

(2)检测错误词组

考虑到在特定的语言领域中，可以包括相应数量的特殊词组，因此，为了识别汉字文本中的错误词组，在一种可选的实施方式中，在按照预设的纠错规则检测汉字文本中的错误文本时，还可以执行以下方法：

在预先配置的词典数据中，遍历查找对汉字文本进行分词处理得到的各个词组，在未查找到任一词组时，将任一词组确定为错误词组。

词典数据可以依据待处理文本所在语言领域进行配置，可以包括通用词组和所在语言领域的特定词组。通过对汉字文本进行分词处理，如采用jieba等分词工具对汉字文本进行分词处理，可以得到多个词组，将各词组与词典数据中的词组进行匹配，确定各词组在词典数据中是否存在相匹配的词组，如果存在任一词组无法在词典数据中查找到，则可以认为该任一词组属于错误词语。

通过上述方法，可以识别出汉字文本中的错误词组，实现汉字文本的词级错误检测。

步骤S420，使用错误文本的候选文本替换错误文本，并计算替换错误文本后得到的汉字文本的困惑度评分。

困惑度是一种评判概率模型或概率分布预测的衡量指标，可以用于评价文本处理模型的性能。在确定汉字文本中的文本，如字或词等属于错误文本时，可以在候选汉字集中查找错误文本的候选文本，并将错误文本替换为其对应的候选文本，进而重新计算替换后得到的汉字文本的困惑度评分。

步骤S430，当汉字文本的困惑度评分小于困惑度阈值时，将对应的汉字文本确定为目标汉字序列。

如果一个汉字文本的困惑度评分越小，表示汉字文本的概率越大，文本处理模型的性能越好。因此，当汉字文本的困惑度评分小于困惑度阈值时，可以认为该汉字文本即为最可能的目标汉字序列。

图7示出了本示例性实施方式中文本处理方法的另一种流程，如图7所述，可以包括以下步骤：

步骤S701，将待处理文本划分为汉字和拼音序列。

对于包含拼音和汉字的待处理文本，可以采用正则表达式等识别待处理文本中的汉字和拼音序列，将待处理文本划分为汉字和拼音序列。

步骤S702，对拼音序列进行拼写纠错。

例如，对于拼音序列“fanxiann”，可以按照中文拼音的拼音规则对拼音序列进行纠错处理，得到纠错后的拼音序列“fanxian”。

步骤S703，将拼音序列划分为多个拼音单元。

具体的，可以将拼音序列划分为多个拼音单元，即拼音单元1、拼音单元2……拼音单元n。每个拼音单元为一个可能的拼音。

步骤S704，确定每个拼音单元对应的候选汉字。

具体的，可以将拼音单元的同音汉字和谐音汉字作为候选汉字，依据每个候选汉字的初始概率确定最大概率的候选汉字。

步骤S705，将待处理文本中的汉字与各候选汉字进行排列，生成汉字文本。

例如，可以按照待处理文本中的汉字的顺序和各候选汉字对应的拼音单元在待处理文本中的顺序，将待处理文本中的汉字和各候选汉字进行排列，生成待处理文本对应的汉字文本。

步骤S706，确定待处理文本对应的汉字文本中的错误汉字和错误词组。

具体的，可以利用N-Gram语言模型计算汉字文本按照固定分段间隔进行分段得到的各个汉字串的概率值，根据各汉字串的概率值确定汉字文本中每个汉字的正确度评分，确定正确度评分小于正确度阈值的汉字为错误汉字；同时，可以在预先配置的词典数据中，遍历查找对汉字文本进行分词处理得到的各个词组，将未查找到的词组确定为错误词组。

步骤S707，使用候选汉字集中的汉字替换错误词组和错误汉字中的汉字，生成使用候选汉字替换后的汉字文本。

步骤S708，计算替换后的汉字文本的困惑度评分。

对于替换后的汉字文本，可以采用任意一种困惑度函数计算汉字文本的困惑度评分。

步骤S709，根据汉字文本的困惑度评分确定目标汉字序列。

当汉字文本的困惑度评分小于困惑度阈值时，说明汉字文本的合理性较高，则可以将汉字文本确定为目标汉字序列，反之，说明汉字文本很可能不符合用户的真实汉字意图，则可以执行步骤S707，生成新的替换后的汉字文本，并再次计算新的替换后的汉字文本的困惑度评分，以确定新的替换后的汉字文本是否为目标汉字序列。

综上，根据本示例性实施方式中的文本处理方法，可以提取获取的待处理文本中的拼音序列，将拼音序列划分为多个拼音单元，并基于各拼音单元对应的候选汉字的初始概率和转移概率，计算表征拼音序列的真实汉字意图的隐藏序列的最大概率，进而对具有最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列。本方案通过根据各拼音单元对应的候选汉字的初始概率和转移概率，计算表征拼音序列的真实汉字意图的隐藏序列的最大概率，以及对具有最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列，可以将拼音序列转换为汉字序列，实现拼音向汉字文本的转换，并且通过对汉字序列进行纠错处理，可以减少生成的目标汉字序列中的汉字错误率，提高生成的目标汉字序列的可读性。

本示例性实施方式还提供了一种文本处理装置，参考图8所示，文本处理装置800可以包括：获取模块810，可以用于获取待处理文本；划分模块820，可以用于提取待处理文本中的拼音序列，并将拼音序列划分为多个拼音单元；计算模块830，可以用于基于各拼音单元对应的候选汉字的初始概率和转移概率，计算表征拼音序列的真实汉字意图的隐藏序列的最大概率，初始概率为候选汉字在文本中的出现概率，转移概率为当前候选汉字后面出现下一候选汉字的概率；生成模块840，可以用于对具有最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列

在本公开的一种示例性实施方式中，划分模块820可以用于基于预设的最大匹配长度，沿固定方向对拼音序列进行搜索，确定拼音序列中与预设拼音表中的拼音匹配的拼音串，以得到多个拼音单元。

在本公开的一种示例性实施方式中，计算模块830可以用于按照各拼音单元在拼音序列中的顺序生成包含各拼音单元的观测序列，依据各拼音单元对应的候选汉字的初始概率和转移概率，通过隐马尔可夫模型计算观测序列对应的隐藏序列的维特比概率。

在本公开的一种示例性实施方式中，待处理文本可以包括一个或多个汉字，在对具有最大概率的隐藏序列对应的汉字序列进行纠错处理前，生成模块840还可以用于按照待处理文本中各汉字的汉字顺序和汉字序列中各汉字对应的拼音顺序，将待处理文本中的各个汉字和汉字序列中的各个汉字进行排列，生成待处理文本对应的汉字文本。

在本公开的一种示例性实施方式中，在对具有最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列时，生成模块840还可以用于按照预设的纠错规则检测汉字文本中的错误文本，错误文本包括汉字文本中的错误汉字、错误词组和错误语句中的任意一种或多种，使用错误文本的候选文本替换错误文本，并计算替换错误文本后得到的汉字序列的困惑度评分，当汉字文本的困惑度评分小于困惑度阈值时，将对应的汉字文本确定为目标汉字序列。

在本公开的一种示例性实施方式中，在按照预设的纠错规则检测汉字文本中的错误文本时，生成模块840还可以用于利用预设的统计语言模型将汉字文本按照固定分段间隔进行分段，得到多个汉字串，并计算各汉字串的概率值，根据各汉字串的概率值，确定汉字文本中每个汉字的正确度评分，当任一汉字的正确度评分小于正确度阈值时，将任一汉字确定为错误汉字。

在本公开的一种示例性实施方式中，在按照预设的纠错规则检测汉字文本中的错误文本时，生成模块840还可以用于在预先配置的词典数据中，遍历查找对汉字文本进行分词处理得到的各个词组，在未查找到任一词组时，将任一词组确定为错误词组。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明，未披露的方案细节内容可以参见方法部分的实施方式内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图9所示，描述了根据本公开的示例性实施方式的用于实现上述方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品900可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本公开的示例性实施方式还提供了一种能够实现上述方法的电子设备，如可以是实现本示例性实施方式中的文本处理方法的终端设备或后台服务器。下面参照图10来描述根据本公开的这种示例性实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本公开实施方式的功能和使用范围带来任何限制。

如图10所示，电子设备1000可以以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030和显示单元1040。

其中，存储单元1020存储有程序代码，程序代码可以被处理单元1010执行，使得处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元1010可以执行图1、图4至图5、图7所示的方法步骤等。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022，还可以进一步包括只读存储单元(ROM)1023。

存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024，这样的程序模块1025包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例性实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开示例性实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

获取待处理文本；

提取所述待处理文本中的拼音序列，并将所述拼音序列划分为多个拼音单元；

基于各所述拼音单元对应的候选汉字的初始概率和转移概率，计算表征所述拼音序列的真实汉字意图的隐藏序列的最大概率，所述初始概率为候选汉字在文本中的出现概率，所述转移概率为当前候选汉字后面出现下一候选汉字的概率；

对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列。

2.根据权利要求1所述的方法，其特征在于，所述将所述拼音序列划分为多个拼音单元，包括：

基于预设的最大匹配长度，沿固定方向对所述拼音序列进行搜索，确定所述拼音序列中与预设拼音表中的拼音匹配的拼音串，以得到所述多个拼音单元。

3.根据权利要求1所述的方法，其特征在于，所述基于各所述拼音单元对应的候选汉字的初始概率和转移概率，计算表征所述拼音序列的真实汉字意图的隐藏序列的最大概率，包括：

按照各所述拼音单元在所述拼音序列中的顺序生成包含各拼音单元的观测序列；

依据各所述拼音单元对应的候选汉字的初始概率和转移概率，通过隐马尔可夫模型计算所述观测序列对应的隐藏序列的维特比概率。

4.根据权利要求1所述的方法，其特征在于，所述待处理文本包括一个或多个汉字，在对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理前，所述方法还包括：

按照所述待处理文本中各所述汉字的汉字顺序和所述汉字序列中各汉字对应的拼音顺序，将所述待处理文本中的各个汉字和所述汉字序列中的各个汉字进行排列，生成所述待处理文本对应的汉字文本。

5.根据权利要求4所述的方法，其特征在于，在对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列时，所述方法包括：

按照预设的纠错规则检测所述汉字文本中的错误文本，所述错误文本包括所述汉字文本中的错误汉字、错误词组和错误语句中的任意一种或多种；

使用所述错误文本的候选文本替换所述错误文本，并计算替换错误文本后得到的汉字序列的困惑度评分；

当所述汉字文本的困惑度评分小于困惑度阈值时，将对应的汉字文本确定为所述目标汉字序列。

6.根据权利要求5所述的方法，其特征在于，在按照预设的纠错规则检测所述汉字文本中的错误文本时，所述方法包括：

利用预设的统计语言模型将所述汉字文本按照固定分段间隔进行分段，得到多个汉字串，并计算各所述汉字串的概率值；

根据各所述汉字串的概率值，确定所述汉字文本中每个汉字的正确度评分；

当任一汉字的正确度评分小于正确度阈值时，将所述任一汉字确定为错误汉字。

7.根据权利要求5所述的方法，其特征在于，在按照预设的纠错规则检测所述汉字文本中的错误文本时，所述方法包括：

在预先配置的词典数据中，遍历查找对所述汉字文本进行分词处理得到的各个词组，在未查找到任一词组时，将所述任一词组确定为错误词组。

8.一种文本处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理文本；

划分模块，用于提取所述待处理文本中的拼音序列，并将所述拼音序列划分为多个拼音单元；

计算模块，用于基于各所述拼音单元对应的候选汉字的初始概率和转移概率，计算表征所述拼音序列的真实汉字意图的隐藏序列的最大概率，所述初始概率为候选汉字在文本中的出现概率，所述转移概率为当前候选汉字后面出现下一候选汉字的概率；

生成模块，用于对具有所述最大概率的隐藏序列对应的汉字序列进行纠错处理，生成目标汉字序列。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。