CN108874770B

CN108874770B - 错别字检测方法、装置及计算机可读存储介质、终端设备

Info

Publication number: CN108874770B
Application number: CN201810500259.0A
Authority: CN
Inventors: 李贤�
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2022-04-22
Anticipated expiration: 2038-05-22
Also published as: CN108874770A

Abstract

本发明公开了一种错别字检测方法、装置及计算机可读存储介质、终端设备，所述方法包括：接收待检测语句；获得待检测语句中的待检测文字的相邻文字以及相邻文字的第一混淆集；根据待检测语句中的每个文字，获得每个相邻混淆文字的文字概率，并将文字概率最大的相邻混淆文字作为目标相邻混淆文字；将待检测语句中的相邻文字替换为目标相邻混淆文字，获得对应的相邻混淆语句；根据相邻混淆语句中的每个文字，分别获得目标相邻混淆文字的文字概率和待检测文字的文字概率；根据目标相邻混淆文字的文字概率和待检测文字的文字概率，判断待检测文字是否为错别字。本发明能够提高错别字检测的准确率。

Description

错别字检测方法、装置及计算机可读存储介质、终端设备

技术领域

本发明涉及文本处理技术领域，尤其涉及一种错别字检测方法、装置及计算机可读存储介质、终端设备。

背景技术

文本是记载信息的重要载体，随着信息处理技术和互联网技术的高速发展，传统的文本工作已逐渐被计算机等电子设备所取代，文本的生成方式也相应的由人工书写变成了人工编辑，而人工编辑在实际操作时可能会出现操作失误的情况，导致人工编辑的文本中出现错别字，从而影响文本质量，因此，对错别字的检测具有十分重要的意义。

现有技术提供的错别字检测方法大都在接收到用户输入的文字后，对用户输入的文字进行一定的处理，然后计算得到处理之后的文字的概率并与预设的概率阈值进行比较，最后根据比较结果确定用户输入的文字是否为错别字，当计算得到文字的概率小于预设的概率阈值时，判定用户输入的文字为错别字，当计算得到文字的概率不小于预设的概率阈值时，判定用户输入的文字为正确字；由此可见，现有技术提供的技术方案在计算得到文字的概率之后往往只根据一个概率阈值来判断文字的正确性，判断方式较为简单，且没有考虑到文字所处的语句语境，因此，错别字的检测结果可能与实际情况不符，检测准确率低。

发明内容

本发明实施例所要解决的技术问题在于，提供一种错别字检测方法、装置及计算机可读存储介质、终端设备，能够提高错别字检测的准确率。

为了解决上述技术问题，本发明实施例提供了一种错别字检测方法，包括：

接收待检测语句；

获得所述待检测语句中的待检测文字的相邻文字以及所述相邻文字的第一混淆集；其中，所述第一混淆集中包含M个相邻混淆文字，M≥1；

根据所述待检测语句中的每个文字，获得每个所述相邻混淆文字的文字概率，并将所述文字概率最大的相邻混淆文字作为目标相邻混淆文字；

将所述待检测语句中的所述相邻文字替换为所述目标相邻混淆文字，获得对应的相邻混淆语句；

根据所述相邻混淆语句中的每个文字，分别获得所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率；

根据所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率，判断所述待检测文字是否为错别字。

与现有技术相比，本发明实施例提供了一种错别字检测方法，根据待检测文字的相邻文字的混淆集对应获得目标混淆语句，根据目标混淆语句计算获得目标相邻混淆文字的文字概率和待检测文字的文字概率，并根据目标相邻混淆文字的文字概率和待检测文字的文字概率判断待检测文字是否为错别字，可以解决现有技术中判断方式简单，且没有考虑文字所处的语句语境，导致检测准确率低的问题，能够提高错别字检测的准确率。

进一步地，在所述接收待检测语句之后，所述获得所述待检测语句中的待检测文字的相邻文字以及所述相邻文字的第一混淆集之前，还包括：

判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002；

则所述获得所述待检测语句中的待检测文字的相邻文字以及所述相邻文字的第一混淆集，具体包括：

当所述相邻文字为错别字且所述相邻文字的文字概率小于0.00002时，获得与所述相邻文字相对应的所述第一混淆集。

进一步地，在所述接收待检测语句之后，所述判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002之前，还包括：

根据所述待检测语句中的每个文字，分别获得所述待检测文字的文字概率和所述待检测文字的K个替换文字的文字概率；其中，K≥1；

将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列，获得所述待检测文字的排列次序k；

判断所述待检测文字的排列次序k是否满足k＞K1；其中，K1＝(K+1)*70％；

则所述判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002，具体包括：

当k＞K1时，判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002。

进一步地，在所述将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列，获得所述待检测文字的排列次序k之后，所述判断所述待检测文字的排列次序k是否满足k＞K1之前，还包括：

判断所述待检测文字的文字概率是否大于0.01或所述待检测文字的排列次序k是否满足k＜K2；其中，K2＝(K+1)*0.7％；

则所述判断所述待检测文字的排列次序k是否满足k＞K1，具体包括：

当所述待检测文字的文字概率不大于0.01且所述待检测文字的排列次序k满足k≥K2时，判断所述待检测文字的排列次序k是否满足k＞K1。

进一步地，在所述判断所述待检测文字的排列次序k是否满足k＞K1之后，所述判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002之前，还包括：

当k≤K1时，获得所述待检测文字的第二混淆集；其中，所述第二混淆集中包含N个混淆文字，N≥1；

将所述待检测语句中的所述待检测文字依次替换为各个所述混淆文字，获得对应的N个混淆语句；

分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率；

将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列，获得所述待检测语句的排列次序n；

判断所述待检测语句的排列次序n是否满足n＜N1；其中，N1＝(N+1)*7％；

当n≥N1时，判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002。

判断所述待检测语句的排列次序n是否满足n＝1；

当n≠1时，判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002。

进一步地，所述根据所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率，判断所述待检测文字是否为错别字，具体包括：

当所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率均大于0.002时，判定所述待检测文字为正确字；

当所述目标相邻混淆文字的文字概率不大于0.002或所述待检测文字的文字概率不大于0.002时，判定所述待检测文字为错别字。

本发明实施例还提供了一种错别字检测装置，包括：

语句接收模块，用于接收待检测语句；

第一混淆集获取模块，用于获得所述待检测语句中的待检测文字的相邻文字以及所述相邻文字的第一混淆集；其中，所述第一混淆集中包含M个相邻混淆文字，M≥1；

目标相邻混淆文字获取模块，用于根据所述待检测语句中的每个文字，获得每个所述相邻混淆文字的文字概率，并将所述文字概率最大的相邻混淆文字作为目标相邻混淆文字；

相邻混淆语句获取模块，用于将所述待检测语句中的所述相邻文字替换为所述目标相邻混淆文字，获得对应的相邻混淆语句；

文字概率获取模块，用于根据所述相邻混淆语句中的每个文字，分别获得所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率；以及，

文字判断模块，用于根据所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率，判断所述待检测文字是否为错别字。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的错别字检测方法。

本发明实施例还提供了一种终端设备，包括至少一个存储器以及至少一个处理器；其中，

所述存储器包括存储的至少一个计算机程序；

所述处理器用于执行所述计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的错别字检测方法。

与现有技术相比，本发明实施例提供了一种错别字检测方法、装置及计算机可读存储介质、终端设备，根据待检测文字的相邻文字的混淆集对应获得目标混淆语句，根据目标混淆语句计算获得目标相邻混淆文字的文字概率和待检测文字的文字概率，并根据目标相邻混淆文字的文字概率和待检测文字的文字概率判断待检测文字是否为错别字，可以解决现有技术中判断方式简单，且没有考虑文字所处的语句语境，导致检测准确率低的问题，能够提高错别字检测的准确率。

附图说明

图1是本发明提供的错别字检测方法的一个优选实施例的流程图；

图2是本发明提供的错别字检测方法的根据语句概率进行处理的一个优选实施例的具体流程图；

图3是本发明提供的错别字检测方法的根据语句概率进行处理的另一个优选实施例的具体流程图；

图4是本发明提供的错别字检测方法的步骤S16的一个优选实施例的具体流程图；

图5是本发明提供的错别字检测装置的一个优选实施例的结构框图；

图6是本发明提供的终端设备的一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种错别字检测方法。

参见图1所示，是本发明提供的错别字检测方法的一个优选实施例的流程图，包括步骤S11至步骤S16：

步骤S11、接收待检测语句；

步骤S12、获得所述待检测语句中的待检测文字的相邻文字以及所述相邻文字的第一混淆集；其中，所述第一混淆集中包含M个相邻混淆文字，M≥1；

步骤S13、根据所述待检测语句中的每个文字，获得每个所述相邻混淆文字的文字概率，并将所述文字概率最大的相邻混淆文字作为目标相邻混淆文字；

步骤S14、将所述待检测语句中的所述相邻文字替换为所述目标相邻混淆文字，获得对应的相邻混淆语句；

步骤S15、根据所述相邻混淆语句中的每个文字，分别获得所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率；

步骤S16、根据所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率，判断所述待检测文字是否为错别字。

在本实施例中，当需要判断待检测文字是否为错别字时，首先获取该待检测文字所在的语句，即待检测语句；然后根据该待检测语句中上述待检测文字的相邻文字获得该相邻文字的混淆集，并根据上述待检测语句中的每个文字，分别获得上述相邻文字的混淆集中的每个相邻混淆文字的文字概率，选择所有的相邻混淆文字中文字概率最大的相邻混淆文字作为目标相邻混淆文字，将上述待检测语句中的上述相邻文字替换为该目标相邻混淆文字，从而获得对应的相邻混淆语句；最后根据该相邻混淆语句中的每个文字分别获得该相邻混淆语句中的上述目标混淆文字的文字概率和上述待检测文字的文字概率，从而根据上述目标混淆文字的文字概率和上述待检测文字的文字概率判断上述待检测文字是否为错别字。

需要说明的是，待检测文字的相邻文字可以是待检测文字的前一相邻文字，也可以是待检测文字的后一相邻文字，可根据实际需要进行选取；相邻混淆文字为预先设置的字典集合中与相邻文字的拼音相同的文字，相邻文字的混淆集为由所有的相邻混淆文字组成的集合。

需要进一步说明的是，每个相邻混淆文字的文字概率、目标相邻混淆文字的文字概率和待检测文字的文字概率均通过采用Bi-LSTM(Bi-directional Long Short TermMemory，双向长短期记忆)模型并调用softmax算法计算获得，且该双向长短期记忆模型为经过深度学习框架编码(如tensorflow)训练后的双向长短期记忆模型。

具体的，上述Bi-LSTM模型的最后一层与一个softmax层连接，以计算任意一个相邻混淆文字的文字概率为例，将上述待检测语句中的相邻文字替换为该相邻混淆文字后得到的语句输入上述Bi-LSTM模型，经过softmax层调用softmax算法进行计算，即可根据接收到的语句中的每个文字计算获得上述相邻混淆文字的文字概率。

本发明实施例所提供的一种错别字检测方法，根据待检测文字的相邻文字的混淆集对应获得目标混淆语句，根据目标混淆语句计算获得目标相邻混淆文字的文字概率和待检测文字的文字概率，并根据目标相邻混淆文字的文字概率和待检测文字的文字概率判断待检测文字是否为错别字，在计算文字概率时结合了文字所处的语句语境，并采用了一种相邻文字混淆集判断的策略来代替简单的单一概率阈值判断的策略进行错别字检测，解决了现有技术中判断方式简单，且没有考虑文字所处的语句语境，导致检测准确率低的问题，从而提高了错别字检测的准确率。

另外，采用经过训练的Bi-LSTM模型计算文字的文字概率时，是根据该文字所在的语句中的每个文字的信息进行计算，既能利用该文字的前向信息，又能利用该文字的后向信息，从而使得计算得到的文字概率更加精确。

在另一个优选实施例中，在所述接收待检测语句之后，所述获得所述待检测语句中的待检测文字的相邻文字以及所述相邻文字的第一混淆集之前，还包括：

需要说明的是，本实施例在接收待检测语句之后，当满足预先设置的条件时，才根据待检测文字的相邻文字获得该相邻文字所对应的混淆集，在本实施例中，预先设置的条件为上述相邻文字为错别字且上述相邻文字的文字概率小于0.00002，因此，需要对上述相邻文字进行判断。

具体的，对相邻文字的判断方法同样采用本发明的技术方案所提供的错别字检测方法，如果判定上述相邻文字为错别字且上述相邻文字的文字概率小于0.00002，则根据上述相邻文字获得该相邻文字所对应的混淆集；如果判定上述相邻文字不为错别字或上述相邻文字的文字概率不小于0.00002，则判定待检测文字为错别字。

需要进一步说明的是，在对上述相邻文字进行判断时，可能出现需要进一步对上述相邻文字的相邻文字进行判断的情况，甚至会循环到对待检测语句中的第一个文字或最后一个文字进行判断的情况，最终导致无法得到判定结果，为了解决这个问题，预先设置一个判断阈值，例如阈值设为2，在对上述相邻文字进行判断的同时进行计数，当连续判断的相邻文字的个数超过2个时，直接判定待检测文字为错别字，上述方法不再继续执行。

本发明实施例所提供的一种错别字检测方法，在采用相邻文字混淆集判断待检测文字是否为错别字之前，采用了一种相邻文字判断的策略来进行错别字检测，进一步提高了错别字检测的准确率。

在又一个优选实施例中，在所述接收待检测语句之后，所述判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002之前，还包括：

需要说明的是，本实施例在接收待检测语句之后，当满足预先设置的条件时，才判断相邻文字是否为错别字且相邻文字的文字概率是否小于0.00002，在本实施例中，预先设置的条件为k＞K1，因此，需要确定相应的k以及K1的值。

具体的，首先根据待检测语句中的每个文字计算获得待检测文字的文字概率和待检测文字的K个替换文字的文字概率；其中，替换文字为预先设置的字典集合中除了待检测文字之外的任意一个文字；然后将待检测文字的文字概率和K个替换文字的文字概率按照从大到小的顺序排列，从而获得待检测文字的排列次序，并记为k，K1则根据公式K1＝(K+1)*70％计算获得；当满足k＞K1时，说明待检测文字的文字概率排列于所有的文字概率的后30％，因此判断待检测文字的相邻文字是否为错别字且相邻文字的文字概率是否小于0.00002并进行进一步的处理。

需要进一步说明的是，在计算替换文字的文字概率时，需要将待检测语句中的待检测文字依次替换为各个替换文字，从而获得对应的替换语句，再分别将每个替换语句输入经过训练的Bi-LSTM模型，经过softmax层调用softmax算法即可分别根据每个替换语句中的每个文字对应计算获得每个替换文字的文字概率。

另外，在根据公式计算K1时，如果计算得到的结果为小数，则取与计算结果最接近且大于计算结果的整数作为K1的值。

以待检测语句“中化人民”为例，其中，“化”字为待检测文字，假设预先设置的字典集合中共有7000个文字(包括待检测文字)，根据上述方法分别计算获得7000个文字的文字概率，并将这7000个文字的文字概率按照从大到小的顺序排列，如果“化”字对应的文字概率在7000个文字的文字概率的后30％，则使用相邻文字判断策略进行相应的处理。

在又一个优选实施例中，在所述将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列，获得所述待检测文字的排列次序k之后，所述判断所述待检测文字的排列次序k是否满足k＞K1之前，还包括：

需要说明的是，本实施例在获得待检测文字的文字概率以及待检测文字的排列次序k之后，当满足预先设置的条件时，才判断待检测文字的排列次序k是否满足k＞K1，在本实施例中，预先设置的条件为待检测文字的文字概率不大于0.01且待检测文字的排列次序k满足k≥K2，因此，需要对待检测文字的文字概率进行判断并确定K2的值。

具体的，K2根据公式K2＝(K+1)*0.7％计算获得，同理，在根据公式计算K2时，如果计算得到的结果为小数，则取与计算结果最接近且大于计算结果的整数作为K2的值；如果判定待检测文字的文字概率不大于0.01且待检测文字的排列次序k满足k≥K2(说明待检测文字的文字概率排列于所有的文字概率的后99.3％)，则判断待检测文字的排列次序k是否满足k＞K1并进行进一步的处理；如果判定检测文字的文字概率大于0.01或待检测文字的排列次序k不满足k≥K2(说明待检测文字的文字概率排列于所有的文字概率的前0.7％)，则判定待检测文字为正确字。

以待检测语句“中化人民”为例，其中，“化”字为待检测文字，如果“化”字对应的文字概率不大于0.01且在7000个文字的文字概率的后99.3％，则判断“化”字是否在7000个文字的文字概率的前30％并进行相应的处理；如果“化”字对应的文字概率大于0.01或在7000个文字的文字概率的前0.7％，则认为“化”字为正确字。

本发明实施例所提供的一种错别字检测方法，采用了一种文字概率判断和替换文字判断相结合的策略来进行错别字检测，进一步提高了错别字检测的准确率。

参见图2所示，是本发明提供的错别字检测方法的根据语句概率进行处理的一个优选实施例的具体流程图，在所述判断所述待检测文字的排列次序k是否满足k＞K1之后，所述判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002之前，还包括步骤S101至步骤S105：

步骤S101、当k≤K1时，获得所述待检测文字的第二混淆集；其中，所述第二混淆集中包含N个混淆文字，N≥1；

步骤S102、将所述待检测语句中的所述待检测文字依次替换为各个所述混淆文字，获得对应的N个混淆语句；

步骤S103、分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率；

步骤S104、将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列，获得所述待检测语句的排列次序n；

步骤S105、判断所述待检测语句的排列次序n是否满足n＜N1；其中，N1＝(N+1)*7％；

则所述判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002，具体包括步骤S106：

需要说明的是，本实施例为当满足k≤K1时(说明待检测文字的文字概率排列于所有的文字概率的前30％)，根据语句概率判断待检测文字是否为错别字的一种方法。

具体的，根据待检测文字获得该待检测文字的混淆集，将待检测语句中的上述待检测文字依次替换为上述待检测文字的混淆集中的N个混淆文字，从而获得对应的N个混淆语句，并分别计算获得上述待检测语句的语句概率和N个混淆语句的语句概率；将上述待检测语句的语句概率和N个混淆语句的语句概率按照从大到小的顺序排列，从而获得上述待检测语句的排列次序，并记为n；判断待检测语句的排列次序n是否满足n＜N1；其中，N1的值根据公式N1＝(N+1)*7％计算得到；同理，在根据公式计算N1时，如果计算得到的结果为小数，则取与计算结果最接近且大于计算结果的整数作为N1的值。

当满足n≥N1时，说明待检测语句的语句概率排列于所有的语句概率后93％，因此判断待检测文字的相邻文字是否为错别字且相邻文字的文字概率是否小于0.00002并进行进一步的处理；当满足n＜N1时，说明待检测语句的语句概率排列于所有的语句概率的前7％，则判定待检测文字为正确字。

需要进一步说明的是，混淆文字为预先设置的字典集合中与待检测文字的拼音相同的文字，待检测文字的混淆集为由所有的混淆文字组成的集合。

另外，在计算任意一个语句A的语句概率时，首先要将语句A输入经过训练的Bi-LSTM模型，经过softmax层调用softmax算法分别计算获得语句A中的B个文字的文字概率P_ai，然后根据预先设置的语句概率计算公式

进行计算，从而获得语句A的语句概率，将语句中的所有文字的文字概率的对数和作为该语句的语句概率，可以减小计算量，并且可以避免数字过小产生截断。

以待检测语句“中化人民”为例，其中，“化”字为待检测文字，假设混淆语句有5个，将待检测语句“中化人民”和5个混淆语句共6个语句的语句概率按照从大到小的顺序排列，如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率的后93％，则使用相邻文字判断策略进行相应的处理；如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率的前7％，则认为“化”字为正确字。

参见图3所示，是本发明提供的错别字检测方法的根据语句概率进行处理的另一个优选实施例的具体流程图，在所述判断所述待检测文字的排列次序k是否满足k＞K1之后，所述判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002之前，还包括步骤S201至步骤S205：

步骤S201、当k≤K1时，获得所述待检测文字的第二混淆集；其中，所述第二混淆集中包含N个混淆文字，N≥1；

步骤S202、将所述待检测语句中的所述待检测文字依次替换为各个所述混淆文字，获得对应的N个混淆语句；

步骤S203、分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率；

步骤S204、将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列，获得所述待检测语句的排列次序n；

步骤S205、判断所述待检测语句的排列次序n是否满足n＝1；

则所述判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002，具体包括步骤S206：

步骤S206、当n≠1时，判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002。

需要说明的是，本实施例为当满足k≤K1时(说明待检测文字的文字概率排列于所有的文字概率的前30％)，根据语句概率判断待检测文字是否为错别字的另一种方法。

具体的，根据待检测文字获得该待检测文字的混淆集，将待检测语句中的上述待检测文字依次替换为上述待检测文字的混淆集中的N个混淆文字，从而获得对应的N个混淆语句，并分别计算获得上述待检测语句的语句概率和N个混淆语句的语句概率；将上述待检测语句的语句概率和N个混淆语句的语句概率按照从大到小的顺序排列，从而获得上述待检测语句的排列次序，并记为n；判断待检测语句的排列次序n是否满足n＝1，当满足n≠1时，说明待检测语句的语句概率在所有的语句概率中不是最大，因此判断待检测文字的相邻文字是否为错别字且相邻文字的文字概率是否小于0.00002并进行进一步的处理；当满足n＝1时，说明待检测语句的语句概率在所有的语句概率中最大，则判定待检测文字为正确字。

以待检测语句“中化人民”为例，其中，“化”字为待检测文字，假设混淆语句有5个，将待检测语句“中化人民”和5个混淆语句共6个语句的语句概率按照从大到小的顺序排列，如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率中不是最大，则使用相邻文字判断策略进行相应的处理；如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率中最大，则认为“化”字为正确字。

参见图4所示，是本发明提供的错别字检测方法的步骤S16的一个优选实施例的具体流程图，所述根据所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率，判断所述待检测文字是否为错别字，具体包括步骤S1601至步骤S1602：

步骤S1601、当所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率均大于0.002时，判定所述待检测文字为正确字；

步骤S1602、当所述目标相邻混淆文字的文字概率不大于0.002或所述待检测文字的文字概率不大于0.002时，判定所述待检测文字为错别字。

本实施例为根据相邻文字判断策略判断待检测文字是否为错别字的一种方法，具体的，如果目标相邻混淆文字的文字概率和待检测文字的文字概率均大于0.002，则判定待检测文字为正确字；如果目标相邻混淆文字的文字概率不大于0.002或待检测文字的文字概率不大于0.002，则判定待检测文字为错别字。

以待检测语句“忠化人民”为例，其中，“化”字为待检测文字，选择“化”字的前一个文字“忠”字作为相邻文字，并且确定相邻文字“忠”字对应的目标相邻混淆文字为“中”字，按照上述方法分别计算获得“中”字的文字概率为0.01，“化”字的文字概率为0.00004，则仍然判定“化”字为错别字。

本发明实施例还提供了一种错别字检测装置，能够实现上述任一实施例中的错别字检测方法的所有流程，装置中的各个模块和单元的作用以及实现的技术效果分别与上述实施例中的错别字检测方法的的作用以及实现的技术效果对应相同，这里不再赘述。

参见图5所示，是本发明提供的错别字检测装置的一个优选实施例的结构框图，包括：

语句接收模块11，用于接收待检测语句；

第一混淆集获取模块12，用于获得所述待检测语句中的待检测文字的相邻文字以及所述相邻文字的第一混淆集；其中，所述第一混淆集中包含M个相邻混淆文字，M≥1；

目标相邻混淆文字获取模块13，用于根据所述待检测语句中的每个文字，获得每个所述相邻混淆文字的文字概率，并将所述文字概率最大的相邻混淆文字作为目标相邻混淆文字；

相邻混淆语句获取模块14，用于将所述待检测语句中的所述相邻文字替换为所述目标相邻混淆文字，获得对应的相邻混淆语句；

文字概率获取模块15，用于根据所述相邻混淆语句中的每个文字，分别获得所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率；以及，

文字判断模块16，用于根据所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率，判断所述待检测文字是否为错别字。

优选地，所述错别字检测装置还包括：

相邻文字判断模块，用于判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002；

则所述第一混淆集获取模块12具体包括：

第一混淆集获取单元，用于当所述相邻文字为错别字且所述相邻文字的文字概率小于0.00002时，获得与所述相邻文字相对应的所述第一混淆集。

优选地，所述错别字检测装置还包括：

第一文字概率获取模块，用于根据所述待检测语句中的每个文字，分别获得所述待检测文字的文字概率和所述待检测文字的K个替换文字的文字概率；其中，K≥1；

文字概率排序模块，用于将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列，获得所述待检测文字的排列次序k；以及，

文字次序判断模块，用于判断所述待检测文字的排列次序k是否满足k＞K1；其中，K1＝(K+1)*70％；

则所述相邻文字判断模块具体包括：

第一相邻文字判断单元，用于当k＞K1时，判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002。

优选地，所述错别字检测装置还包括：

文字概率及次序判断模块，用于判断所述待检测文字的文字概率是否大于0.01或所述待检测文字的排列次序k是否满足k＜K2；其中，K2＝(K+1)*0.7％；

则所述文字次序判断模块具体包括：

文字次序判断单元，用于当所述待检测文字的文字概率不大于0.01且所述待检测文字的排列次序k满足k≥K2时，判断所述待检测文字的排列次序k是否满足k＞K1。

优选地，所述错别字检测装置还包括：

第二混淆集获取模块，用于当k≤K1时，获得所述待检测文字的第二混淆集；其中，所述第二混淆集中包含N个混淆文字，N≥1；

混淆语句获取模块，用于将所述待检测语句中的所述待检测文字依次替换为各个所述混淆文字，获得对应的N个混淆语句；

语句概率获取模块，用于分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率；

语句概率排序模块，用于将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列，获得所述待检测语句的排列次序n；以及，

第一语句次序判断模块，用于判断所述待检测语句的排列次序n是否满足n＜N1；其中，N1＝(N+1)*7％；

则所述相邻文字判断模块具体包括：

第二相邻文字判断单元，用于当n≥N1时，判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002。

优选地，所述错别字检测装置还包括：

第二语句次序判断模块，用于判断所述待检测语句的排列次序n是否满足n＝1；

则所述相邻文字判断模块具体包括：

第三相邻文字判断单元，用于当n≠1时，判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002。

优选地，所述文字判断模块16具体包括：

第一判断单元，用于当所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率均大于0.002时，判定所述待检测文字为正确字；以及，

第二判断单元，用于当所述目标相邻混淆文字的文字概率不大于0.002或所述待检测文字的文字概率不大于0.002时，判定所述待检测文字为错别字。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的错别字检测方法。

本发明实施例还提供了一种终端设备。

参见图6所示，是本发明提供的终端设备的一个优选实施例的结构框图，包括至少一个存储器10以及至少一个处理器20；其中，

所述存储器10包括存储的至少一个计算机程序；

所述处理器20用于执行所述计算机程序，所述处理器20在执行所述计算机程序时实现上述任一实施例所述的错别字检测方法。

需要说明的是，图6仅以该终端设备中的一个存储器和一个处理器相连接为例进行说明，在一些具体的实施例中，该终端设备中还可以包括多个存储器和/或多个处理器，其具体的数目及连接方式可根据实际情况需要进行设置和适应性调整。

综上，本发明实施例所提供的错别字检测方法、装置及计算机可读存储介质、终端设备，首先根据待检测文字的文字概率和待检测文字在所有的替换文字中的排列次序判断待检测文字是否为错别字，当满足一定的条件时，根据待检测文字的混淆集或待检测文字的相邻文字进一步判断待检测文字是否为错别字，不仅在计算文字概率时结合了文字所处的语句语境，而且分别采用了文字概率判断、替换文字判断、混淆集判断、相邻文字判断、相邻文字混淆集判断以及各种判断方式相结合的策略来代替简单的单一概率阈值判断的策略进行错别字检测，使得错别字判断策略更为灵活和有效，从而大大提高了错别字检测的准确率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种错别字检测方法，其特征在于，包括：

接收待检测语句；

获得所述待检测语句中的待检测文字的相邻文字以及所述相邻文字的第一混淆集；其中，所述第一混淆集中包含M个相邻混淆文字，M≥1，所述相邻混淆文字为预先设置的字典集合中与所述相邻文字的拼音相同的文字；

根据所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率，判断所述待检测文字是否为错别字；

每个所述相邻混淆文字的文字概率、所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率均通过采用Bi-LSTM模型并调用softmax算法计算获得，且所述Bi-LSTM模型为经过深度学习框架编码训练后的Bi-LSTM模型；其中，每个所述相邻混淆文字的文字概率的计算过程如下：将所述待检测语句中的相邻文字替换为对应的相邻混淆文字后得到的语句输入所述Bi-LSTM模型，经过softmax层调用softmax算法进行计算，根据接收到的语句中的每个文字计算获得对应的相邻混淆文字的文字概率；

所述根据所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率，判断所述待检测文字是否为错别字，具体包括：

2.如权利要求1所述的错别字检测方法，其特征在于，在所述接收待检测语句之后，所述获得所述待检测语句中的待检测文字的相邻文字以及所述相邻文字的第一混淆集之前，还包括：

当所述相邻文字为错别字且所述相邻文字的文字概率小于0.00002时，获得与所述相邻文字相对应的所述第一混淆集；

当所述相邻文字不为错别字或所述相邻文字的文字概率不小于0.00002，判定所述待检测文字为错别字。

3.如权利要求2所述的错别字检测方法，其特征在于，在所述接收待检测语句之后，所述判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002之前，还包括：

当k＞K1时，判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002；

当k≤K1时，获得所述待检测文字的第二混淆集；其中，所述第二混淆集中包含N个混淆文字，N≥1，所述混淆文字为预先设置的字典集合中与所述待检测文字的拼音相同的文字；

根据所述待检测语句的排列次序n，确定是否需要判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002。

4.如权利要求3所述的错别字检测方法，其特征在于，在所述将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列，获得所述待检测文字的排列次序k之后，所述判断所述待检测文字的排列次序k是否满足k＞K1之前，还包括：

当所述待检测文字的文字概率不大于0.01且所述待检测文字的排列次序k满足k≥K2时，判断所述待检测文字的排列次序k是否满足k＞K1；

当所述待检测文字的文字概率大于0.01或所述待检测文字的排列次序k不满足k≥K2时，判定所述待检测文字为正确字。

5.如权利要求3或4所述的错别字检测方法，其特征在于，所述根据所述待检测语句的排列次序n，确定是否需要判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002，具体包括：

当n≥N1时，判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002；

当n＜N1时，判定所述待检测文字为正确字。

6.如权利要求3或4所述的错别字检测方法，其特征在于，所述根据所述待检测语句的排列次序n，确定是否需要判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002，具体包括：

判断所述待检测语句的排列次序n是否满足n＝1；

当n≠1时，判断所述相邻文字是否为错别字且所述相邻文字的文字概率是否小于0.00002；

当n＝1时，判定所述待检测文字为正确字。

7.一种错别字检测装置，其特征在于，包括：

语句接收模块，用于接收待检测语句；

第一混淆集获取模块，用于获得所述待检测语句中的待检测文字的相邻文字以及所述相邻文字的第一混淆集；其中，所述第一混淆集中包含M个相邻混淆文字，M≥1，所述相邻混淆文字为预先设置的字典集合中与所述相邻文字的拼音相同的文字；

文字判断模块，用于根据所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率，判断所述待检测文字是否为错别字；

所述文字判断模块具体包括：

第一判断单元，用于当所述目标相邻混淆文字的文字概率和所述待检测文字的文字概率均大于0.002时，判定所述待检测文字为正确字；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至6中任一项所述的错别字检测方法。

9.一种终端设备，其特征在于，包括至少一个存储器以及至少一个处理器；其中，

所述存储器包括存储的至少一个计算机程序；

所述处理器用于执行所述计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1至6中任一项所述的错别字检测方法。