CN108829664B - 错别字检测方法、装置及计算机可读存储介质、终端设备 - Google Patents

错别字检测方法、装置及计算机可读存储介质、终端设备 Download PDF

Info

Publication number
CN108829664B
CN108829664B CN201810500260.3A CN201810500260A CN108829664B CN 108829664 B CN108829664 B CN 108829664B CN 201810500260 A CN201810500260 A CN 201810500260A CN 108829664 B CN108829664 B CN 108829664B
Authority
CN
China
Prior art keywords
detected
probability
characters
sentence
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810500260.3A
Other languages
English (en)
Other versions
CN108829664A (zh
Inventor
李贤�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201810500260.3A priority Critical patent/CN108829664B/zh
Publication of CN108829664A publication Critical patent/CN108829664A/zh
Application granted granted Critical
Publication of CN108829664B publication Critical patent/CN108829664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种错别字检测方法、装置及计算机可读存储介质、终端设备,所述方法包括:接收待检测语句;获得所述待检测语句中的待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;根据每个所述语句概率,判断所述待检测文字是否为错别字。采用本发明的技术方案能够提高错别字检测的准确率。

Description

错别字检测方法、装置及计算机可读存储介质、终端设备
技术领域
本发明涉及文本处理技术领域,尤其涉及一种错别字检测方法、装置及计算机可读存储介质、终端设备。
背景技术
文本是记载信息的重要载体,随着信息处理技术和互联网技术的高速发展,传统的文本工作已逐渐被计算机等电子设备所取代,文本的生成方式也相应的由人工书写变成了人工编辑,而人工编辑在实际操作时可能会出现操作失误的情况,导致人工编辑的文本中出现错别字,从而影响文本质量,因此,对错别字的检测具有十分重要的意义。
现有技术提供的错别字检测方法大都在接收到用户输入的文字后,对用户输入的文字进行一定的处理,然后计算得到处理之后的文字的概率并与预设的概率阈值进行比较,最后根据比较结果确定用户输入的文字是否为错别字,当计算得到文字的概率小于预设的概率阈值时,判定用户输入的文字为错别字,当计算得到文字的概率不小于预设的概率阈值时,判定用户输入的文字为正确字;由此可见,现有技术提供的技术方案在计算得到文字的概率之后往往只根据一个概率阈值来判断文字的正确性,判断方式较为简单,且没有考虑到文字所处的语句语境,因此,错别字的检测结果可能与实际情况不符,检测准确率低。
发明内容
本发明实施例所要解决的技术问题在于,提供一种错别字检测方法、装置及计算机可读存储介质、终端设备,能够提高错别字检测的准确率。
为了解决上述技术问题,本发明实施例提供了一种错别字检测方法,包括:
接收待检测语句;
获得所述待检测语句中的待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;
根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;
分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;
根据每个所述语句概率,判断所述待检测文字是否为错别字。
与现有技术相比,本发明实施例提供了一种错别字检测方法,根据待检测文字的混淆集中的混淆文字对应获得混淆语句,根据待检测语句的语句概率和混淆语句的语句概率判断待检测文字是否为错别字,可以解决现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,能够提高错别字检测的准确率。
进一步地,在所述接收待检测语句之后,所述获得所述待检测语句中的待检测文字的混淆集之前,还包括:
根据所述待检测语句中的每个文字,获得所述待检测文字的文字概率;
则所述获得所述待检测语句中的待检测文字的混淆集,具体包括:
当判定所述待检测文字的文字概率满足预设条件时,获得与所述待检测文字相对应的所述混淆集。
进一步地,在所述接收待检测语句之后,所述当判定所述待检测文字的文字概率满足预设条件时,获得与所述待检测文字相对应的所述混淆集之前,还包括:
根据所述待检测语句中的每个文字,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;
将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列,获得所述待检测文字的排列次序k;
则所述当判定所述待检测文字的文字概率满足预设条件时,获得与所述待检测文字相对应的所述混淆集,具体包括:
当判定K1≤k≤K2时,获得与所述待检测文字相对应的所述混淆集;其中,K1=(K+1)*0.7%,K2=(K+1)*70%。
进一步地,所述根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句,具体包括:
根据所述待检测语句中的每个文字,获得每个所述混淆文字的文字概率;
将每个所述混淆文字按照所述文字概率从大到小的顺序排列,将排列于前N位的混淆文字作为目标混淆文字;
将所述待检测语句中的所述待检测文字依次替换为各个所述目标混淆文字,获得对应的N个所述混淆语句。
进一步地,所述分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率,具体包括:
分别获得所述待检测语句中的每个文字的文字概率和每个所述混淆语句中的每个文字的文字概率;
根据预设的语句概率计算模型
Figure BDA0001669503810000031
分别计算获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;其中,PA为当前计算语句A的语句概率,B为当前计算语句A中的文字的总个数,Pai为当前计算语句A中的第i个文字的文字概率。
进一步地,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括:
将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;
当n<N1时,判定所述待检测文字为正确字;其中,N1=(N+1)*7%;
当n≥N1时,判定所述待检测文字为错别字。
进一步地,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括:
将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;
当n=1时,判定所述待检测文字为正确字;
当n≠1时,判定所述待检测文字为错别字。
本发明实施例还提供了一种错别字检测装置,包括:
语句接收模块,用于接收待检测语句;
混淆集获取模块,用于获得所述待检测语句中的待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;
混淆语句获取模块,用于根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;
语句概率获取模块,用于分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;以及,
文字判断模块,用于根据每个所述语句概率,判断所述待检测文字是否为错别字。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的错别字检测方法。
本发明实施例还提供了一种终端设备,包括至少一个存储器以及至少一个处理器;其中,
所述存储器包括存储的至少一个计算机程序;
所述处理器用于执行所述计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的错别字检测方法。
与现有技术相比,本发明实施例提供了一种错别字检测方法、装置及计算机可读存储介质、终端设备,根据待检测文字的混淆集中的混淆文字对应获得混淆语句,根据待检测语句的语句概率和混淆语句的语句概率判断待检测文字是否为错别字,可以解决现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,能够提高错别字检测的准确率。
附图说明
图1是本发明提供的错别字检测方法的一个优选实施例的流程图;
图2是本发明提供的错别字检测方法的另一个优选实施例的流程图;
图3是本发明提供的错别字检测方法的步骤S13的一个优选实施例的具体流程图;
图4是本发明提供的错别字检测方法的步骤S14的一个优选实施例的具体流程图;
图5是本发明提供的错别字检测方法的步骤S15的一个优选实施例的具体流程图;
图6是本发明提供的错别字检测方法的步骤S15的另一个优选实施例的具体流程图;
图7是本发明提供的错别字检测装置的一个优选实施例的结构框图;
图8是本发明提供的终端设备的一个优选实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种错别字检测方法。
参见图1所示,是本发明提供的错别字检测方法的一个优选实施例的流程图,包括步骤S11至步骤S15:
步骤S11、接收待检测语句;
步骤S12、获得所述待检测语句中的待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;
步骤S13、根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;
步骤S14、分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;
步骤S15、根据每个所述语句概率,判断所述待检测文字是否为错别字。
具体的,当需要判断待检测文字是否为错别字时,首先获取该待检测文字所在的语句,即待检测语句;然后根据该待检测文字获得对应的混淆集,进而根据混淆集中的混淆文字分别获得上述待检测语句对应的混淆语句;最后计算上述待检测语句的语句概率和每个混淆语句的语句概率,从而根据所有的语句概率判断待检测文字是否为错别字。
需要说明的是,混淆文字为预先设置的字典集合中与待检测文字的拼音相同的文字,混淆集为由所有的混淆文字组成的集合。
本发明实施例所提供的一种错别字检测方法,根据待检测文字的混淆集中的混淆文字对应获得混淆语句,根据待检测语句的语句概率和混淆语句的语句概率判断待检测文字是否为错别字,采用了一种混淆集判断的策略来代替简单的单一概率阈值判断的策略进行错别字检测,解决了现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,从而提高了错别字检测的准确率。
在又一个优选实施例中,在所述接收待检测语句之后,所述获得所述待检测语句中的待检测文字的混淆集之前,还包括:
根据所述待检测语句中的每个文字,获得所述待检测文字的文字概率;
则所述获得所述待检测语句中的待检测文字的混淆集,具体包括:
当判定所述待检测文字的文字概率满足预设条件时,获得与所述待检测文字相对应的所述混淆集。
在本实施例中,当需要判断待检测文字是否为错别字时,在获取该待检测文字所在的语句,即待检测语句之后,要判断该待检测文字的文字概率是否满足预先设置的条件,当该待检测文字的文字概率满足预先设置的条件时,说明该待检测文字可能为错别字,因此获得该待检测文字对应的混淆集,并根据该混淆集对该待检测文字进行进一步的检测,从而判断该待检测文字是否为错别字;其中,该待检测文字的文字概率根据上述待检测语句中的每个文字计算获得。
需要说明的是,待检测文字的文字概率通过采用Bi-LSTM(Bi-directional LongShort Term Memory,双向长短期记忆)模型并调用softmax算法计算获得,且该双向长短期记忆模型为经过深度学习框架编码(如tensorflow)训练后的双向长短期记忆模型。
具体的,上述Bi-LSTM模型的最后一层与一个softmax层连接,将待检测语句输入该Bi-LSTM模型,经过softmax层调用softmax算法进行计算,即可根据待检测语句中的每个文字计算获得待检测文字的文字概率。
本发明实施例所提供的一种错别字检测方法,采用经过训练的Bi-LSTM模型计算待检测文字的文字概率时,是根据待检测文字所在的待检测语句中的每个文字的信息进行计算,既能利用待检测文字的前向信息,又能利用待检测文字的后向信息,结合了待检测文字所处的语句语境,从而使得计算得到的文字概率更加精确。
结合图2所示,是本发明提供的错别字检测方法的另一个优选实施例的流程图,在所述接收待检测语句之后,所述当判定所述待检测文字的文字概率满足预设条件时,获得与所述待检测文字相对应的所述混淆集之前,还包括步骤S111至步骤S112:
步骤S111、根据所述待检测语句中的每个文字,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;
步骤S112、将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列,获得所述待检测文字的排列次序k;
则所述当判定所述待检测文字的文字概率满足预设条件时,获得与所述待检测文字相对应的所述混淆集,具体包括:
当判定K1≤k≤K2时,获得与所述待检测文字相对应的所述混淆集;其中,K1=(K+1)*0.7%,K2=(K+1)*70%。
在本实施例中,预先设置的条件为当待检测文字的文字概率满足K1≤k≤K2时,才根据待检测文字获得对应的混淆集,因此,在判断待检测文字的文字概率是否满足预先设置的条件之前,需要确定相应的K1、K2以及k的值。
具体的,首先根据待检测语句中的每个文字计算获得待检测文字的K个替换文字的文字概率;其中,替换文字为预先设置的字典集合中除了待检测文字之外的任意一个文字;然后将待检测文字的文字概率和K个替换文字的文字概率按照从大到小的顺序排列,从而获得待检测文字的排列次序,并记为k,K1和K2则分别根据公式K1=(K+1)*0.7%和K2=(K+1)*70%计算获得。
当k<K1时,说明待检测文字的文字概率排列于所有的文字概率的前0.7%,因此判定待检测文字为正确字;当k>K2时,说明待检测文字的文字概率排列于所有的文字概率的后30%,因此判定待检测文字为错别字;当K1≤k≤K2时,说明待检测文字的文字概率排列于所有的文字概率的0.7%至70%之间,该待检测文字很有可能为错别字,因此根据待检测文字获得对应的混淆集并进行进一步的判断和处理。
需要说明的是,在根据公式计算K1或K2时,如果计算得到的结果为小数,则取与计算结果最接近且大于计算结果的整数作为K1或K2的值。
需要进一步说明的是,在计算替换文字的文字概率时,需要将待检测语句中的待检测文字依次替换为各个替换文字,从而获得对应的替换语句,再分别将每个替换语句输入经过训练的Bi-LSTM模型,经过softmax层调用softmax算法即可分别根据每个替换语句中的每个文字对应计算获得每个替换文字的文字概率。
以待检测语句“中化人民”为例,其中,“化”字为待检测文字,假设预先设置的字典集合中共有7000个文字(包括待检测文字),根据上述方法分别计算获得7000个文字的文字概率,并将这7000个文字的文字概率按照从大到小的顺序排列,如果“化”字对应的文字概率在7000个文字的文字概率的前0.7%,则认为“化”字为正确字;如果“化”字对应的文字概率在7000个文字的文字概率的后30%,则认为“化”字为错别字;如果“化”字对应的文字概率在7000个文字的文字概率的0.7%至70%之间,则使用混淆集判断策略进行相应的处理。
本发明实施例所提供的一种错别字检测方法,根据待检测语句中的每个文字获得待检测文字的替换文字的文字概率,并将待检测文字和替换文字按照文字概率从大到小的顺序排列,从而根据待检测文字的排列次序判断待检测文字是否为错别字,并且在待检测文字的排列次序满足一定条件时,获得待检测文字的混淆集,进一步判断待检测文字是否为错别字,不仅在计算文字概率时结合了文字所处的语句语境,而且采用了一种替换文字判断和混淆集判断相结合的策略来代替简单的单一概率阈值判断的策略进行错别字检测,使得错别字判断策略更为灵活和有效,从而进一步提高了错别字检测的准确率。
参见图3所示,是本发明提供的错别字检测方法的步骤S13的一个优选实施例的具体流程图,所述根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句,具体包括步骤S1301至步骤S1303:
步骤S1301、根据所述待检测语句中的每个文字,获得每个所述混淆文字的文字概率;
步骤S1302、将每个所述混淆文字按照所述文字概率从大到小的顺序排列,将排列于前N位的混淆文字作为目标混淆文字;
步骤S1303、将所述待检测语句中的所述待检测文字依次替换为各个所述目标混淆文字,获得对应的N个所述混淆语句。
在本实施例中,首先根据待检测语句中的每个文字计算获得每个混淆文字的文字概率,将所有的混淆文字的文字概率按照从大到小的顺序排列,从而获得所有的混淆文字按照文字概率的排列次序,并选择文字概率最大的N个混淆文字作为目标混淆文字;随后将待检测语句中的待检测文字依次替换为各个目标混淆文字,从而获得对应的N个混淆语句。
具体的,在计算混淆文字的文字概率时,需要将待检测语句中的待检测文字依次替换为各个混淆文字,从而获得对应的混淆语句,再分别将每个混淆语句输入经过训练的Bi-LSTM模型,经过softmax层调用softmax算法即可分别根据每个混淆语句中的每个文字对应计算获得每个混淆文字的文字概率。
以待检测语句“中化人民”为例,其中,“化”字为待检测文字,假设预先设置的字典集合中与“化”字的拼音相同的文字共有15个,根据上述方法分别计算获得15个混淆文字的文字概率,并将这15个混淆文字的文字概率按照从大到小的顺序排列,选择文字概率排列位于前5位的混淆文字作为目标混淆文字,用这5个目标混淆文字分别替换待检测语句“中化人民”中的“化”字,从而得到对应的5个混淆语句。
参见图4所示,是本发明提供的错别字检测方法的步骤S14的一个优选实施例的具体流程图,所述分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率,具体包括步骤S1401至步骤S1402:
步骤S1401、分别获得所述待检测语句中的每个文字的文字概率和每个所述混淆语句中的每个文字的文字概率;
步骤S1402、根据预设的语句概率计算模型
Figure BDA0001669503810000101
分别计算获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;其中,PA为当前计算语句A的语句概率,B为当前计算语句A中的文字的总个数,Pai为当前计算语句A中的第i个文字的文字概率。
具体的,在计算任一语句A的语句概率时,首先要将语句A输入经过训练的Bi-LSTM模型,经过softmax层调用softmax算法分别计算获得语句A中的B个文字的文字概率Pai,然后根据预先设置的语句概率计算公式
Figure BDA0001669503810000102
进行计算,从而获得语句A的语句概率。
以语句“中化人民”为例,根据上述方法计算获得的四个文字的文字概率分别为Pa1=P=p1、Pa2=P=p2、Pa3=P=p3、和Pa4=P=p4,则语句“中化人民”的语句概率为P中化人民=log p1+log p2+log p3+log p4。
本发明实施例所提供的一种错别字检测方法,将语句中的所有文字的文字概率的对数和作为该语句的语句概率,可以减小计算量,并且可以避免数字过小产生截断。
参见图5所示,是本发明提供的错别字检测方法的步骤S15的一个优选实施例的具体流程图,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括步骤S1511至步骤S1513:
步骤S1511、将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;
步骤S1512、当n<N1时,判定所述待检测文字为正确字;其中,N1=(N+1)*7%;
步骤S1513、当n≥N1时,判定所述待检测文字为错别字。
本实施例为根据语句概率判断待检测文字是否为错别字的一种方法,具体的,将待检测语句的语句概率和N个替换语句的语句概率按照从大到小的顺序排列,从而获得待检测语句的排列次序,并记为n;根据公式N1=(N+1)*7%计算得到N1的值,当n<N1时,说明待检测语句的语句概率排列于所有的语句概率的前7%,因此判定待检测文字为正确字;当n≥N1时,说明待检测语句的语句概率排列于所有的语句概率后93%,因此判定待检测文字为错别字。
需要说明的是,在根据公式计算N1时,如果计算得到的结果为小数,则取与计算结果最接近且大于计算结果的整数作为N1的值。
以待检测语句“中化人民”为例,其中,“化”字为待检测文字,假设混淆语句有5个,将待检测语句“中化人民”和5个混淆语句共6个语句的语句概率按照从大到小的顺序排列,如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率的前7%,则认为“化”字为正确字;如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率的后93%,则认为“化”字为错别字。
参见图6所示,是本发明提供的错别字检测方法的步骤S15的另一个优选实施例的具体流程图,所述根据每个所述语句概率,判断所述待检测文字是否为错别字,具体包括步骤S1521至步骤S1523:
步骤S1521、将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;
步骤S1522、当n=1时,判定所述待检测文字为正确字;
步骤S1523、当n≠1时,判定所述待检测文字为错别字。
本实施例为根据语句概率判断待检测文字是否为错别字的另一种方法,具体的,将待检测语句的语句概率和N个替换语句的语句概率按照从大到小的顺序排列,从而获得待检测语句的排列次序,并记为n;当n=1时,说明待检测语句的语句概率在所有的语句概率中最大,因此判定待检测文字为正确字;当n≠1时,说明待检测语句的语句概率在所有的语句概率中不是最大,因此判定待检测文字为错别字。
以待检测语句“中化人民”为例,其中,“化”字为待检测文字,假设混淆语句有5个,将待检测语句“中化人民”和5个混淆语句共6个语句的语句概率按照从大到小的顺序排列,如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率中最大,则认为“化”字为正确字;如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率中不是最大,则认为“化”字为错别字。
本发明实施例还提供了一种错别字检测装置,能够实现上述任一实施例中的错别字检测方法的所有流程,装置中的各个模块和单元的作用以及实现的技术效果分别与上述实施例中的错别字检测方法的的作用以及实现的技术效果对应相同,这里不再赘述。
参见图7所示,是本发明提供的错别字检测装置的一个优选实施例的结构框图,包括:
语句接收模块11,用于接收待检测语句;
混淆集获取模块12,用于获得所述待检测语句中的待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;
混淆语句获取模块13,用于根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;
语句概率获取模块14,用于分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;以及,
文字判断模块15,用于根据每个所述语句概率,判断所述待检测文字是否为错别字。
优选地,所述错别字检测装置还包括:
待检测文字概率获取模块,用于根据所述待检测语句中的每个文字,获得所述待检测文字的文字概率;
则所述混淆集获取模块12具体包括:
判断单元,用于当判定所述待检测文字的文字概率满足预设条件时,获得与所述待检测文字相对应的所述混淆集。
优选地,所述错别字检测装置还包括:
替换文字概率获取模块,用于根据所述待检测语句中的每个文字,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;以及,
文字概率排序模块,用于将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列,获得所述待检测文字的排列次序k;
则所述判断单元具体包括:
判断子单元,用于当判定K1≤k≤K2时,获得与所述待检测文字相对应的所述混淆集;其中,K1=(K+1)*0.7%,K2=(K+1)*70%。
优选地,所述混淆语句获取模块13具体包括:
混淆文字概率获取单元,用于根据所述待检测语句中的每个文字,获得每个所述混淆文字的文字概率;
目标混淆文字获取单元,用于将每个所述混淆文字按照所述文字概率从大到小的顺序排列,将排列于前N位的混淆文字作为目标混淆文字;以及,
混淆语句获取单元,用于将所述待检测语句中的所述待检测文字依次替换为各个所述目标混淆文字,获得对应的N个所述混淆语句。
优选地,所述语句概率获取模块14具体包括:
文字概率获取单元,用于分别获得所述待检测语句中的每个文字的文字概率和每个所述混淆语句中的每个文字的文字概率;以及,
语句概率获取单元,用于根据预设的语句概率计算模型
Figure BDA0001669503810000131
分别计算获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;其中,PA为当前计算语句A的语句概率,B为当前计算语句A中的文字的总个数,Pai为当前计算语句A中的第i个文字的文字概率。
优选地,所述文字判断模块15具体包括:
语句概率排序单元,用于将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;
第一文字判断单元,用于当n<N1时,判定所述待检测文字为正确字;其中,N1=(N+1)*7%;以及,
第二文字判断单元,用于当n≥N1时,判定所述待检测文字为错别字。
优选地,所述文字判断模块15具体包括:
语句概率排序单元,用于将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;
第三文字判断单元,用于当n=1时,判定所述待检测文字为正确字;以及,
第四文字判断单元,用于当n≠1时,判定所述待检测文字为错别字。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的错别字检测方法。
本发明实施例还提供了一种终端设备。
参见图8所示,是本发明提供的终端设备的一个优选实施例的结构框图,包括至少一个存储器10以及至少一个处理器20;其中,
所述存储器10包括存储的至少一个计算机程序;
所述处理器20用于执行所述计算机程序,所述处理器20在执行所述计算机程序时实现上述任一实施例所述的错别字检测方法。
需要说明的是,图8仅以该终端设备中的一个存储器和一个处理器相连接为例进行说明,在一些具体的实施例中,该终端设备中还可以包括多个存储器和/或多个处理器,其具体的数目及连接方式可根据实际情况需要进行设置和适应性调整。
综上,本发明实施例所提供的一种错别字检测方法、装置及计算机可读存储介质、终端设备,在使用混淆集判断的策略进行错别字检测之前,根据待检测语句中的每个文字获得待检测文字的替换文字的文字概率,并将待检测文字和替换文字按照文字概率从大到小的顺序排列,从而根据待检测文字的排列次序判断待检测文字是否为错别字,当待检测文字的排列次序满足一定条件时,获得待检测文字的混淆集,进一步判断待检测文字是否为错别字,不仅在计算文字概率时结合了文字所处的语句语境,而且采用了一种替换文字判断和混淆集判断相结合的策略来代替简单的单一概率阈值判断的策略进行错别字检测,使得错别字判断策略更为灵活和有效,从而大大提高了错别字检测的准确率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种错别字检测方法,其特征在于,包括:
接收待检测语句;
获得所述待检测语句中的待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;
根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;
分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;
根据所述待检测语句的语句概率和每个所述混淆语句的语句概率,判断所述待检测文字是否为错别字;
在所述接收待检测语句之后,所述获得所述待检测语句中的待检测文字的混淆集之前,还包括:
根据所述待检测语句中的每个文字,获得所述待检测文字的文字概率;
则所述获得所述待检测语句中的待检测文字的混淆集,具体包括:
当判定所述待检测文字的文字概率满足预设条件时,获得与所述待检测文字相对应的所述混淆集;
在所述接收待检测语句之后,所述当判定所述待检测文字的文字概率满足预设条件时,获得与所述待检测文字相对应的所述混淆集之前,还包括:
根据所述待检测语句中的每个文字,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;
将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列,获得所述待检测文字的排列次序k;
则所述当判定所述待检测文字的文字概率满足预设条件时,获得与所述待检测文字相对应的所述混淆集,具体包括:
当判定K1≤k≤K2时,获得与所述待检测文字相对应的所述混淆集;其中,K1=(K+1)*0.7%,K2=(K+1)*70%;
所述分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率,具体包括:
分别获得所述待检测语句中的每个文字的文字概率和每个所述混淆语句中的每个文字的文字概率;
根据预设的语句概率计算模型
Figure FDA0003452007580000021
分别计算获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;其中,PA为当前计算语句A的语句概率,B为当前计算语句A中的文字的总个数,Pai为当前计算语句A中的第i个文字的文字概率。
2.如权利要求1所述的错别字检测方法,其特征在于,所述根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句,具体包括:
根据所述待检测语句中的每个文字,获得每个所述混淆文字的文字概率;
将每个所述混淆文字按照所述文字概率从大到小的顺序排列,将排列于前N位的混淆文字作为目标混淆文字;
将所述待检测语句中的所述待检测文字依次替换为各个所述目标混淆文字,获得对应的N个所述混淆语句。
3.如权利要求1所述的错别字检测方法,其特征在于,所述根据所述待检测语句的语句概率和每个所述混淆语句的语句概率,判断所述待检测文字是否为错别字,具体包括:
将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;
当n<N1时,判定所述待检测文字为正确字;其中,N1=(N+1)*7%;
当n≥N1时,判定所述待检测文字为错别字。
4.如权利要求1所述的错别字检测方法,其特征在于,所述根据所述待检测语句的语句概率和每个所述混淆语句的语句概率,判断所述待检测文字是否为错别字,具体包括:
将所述待检测语句和每个所述混淆语句按照所述语句概率从大到小的顺序排列,获得所述待检测语句的排列次序n;
当n=1时,判定所述待检测文字为正确字;
当n≠1时,判定所述待检测文字为错别字。
5.一种错别字检测装置,其特征在于,包括:
语句接收模块,用于接收待检测语句;
混淆集获取模块,用于获得所述待检测语句中的待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;
混淆语句获取模块,用于根据所述待检测语句和每个所述混淆文字,获得对应的N个混淆语句;其中,1≤N≤M;
语句概率获取模块,用于分别获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;以及,
文字判断模块,用于根据所述待检测语句的语句概率和每个所述混淆语句的语句概率,判断所述待检测文字是否为错别字;
所述错别字检测装置还包括:
待检测文字概率获取模块,用于根据所述待检测语句中的每个文字,获得所述待检测文字的文字概率;
则所述混淆集获取模块具体包括:
判断单元,用于当判定所述待检测文字的文字概率满足预设条件时,获得与所述待检测文字相对应的所述混淆集;
所述错别字检测装置还包括:
替换文字概率获取模块,用于根据所述待检测语句中的每个文字,获得所述待检测文字的K个替换文字的文字概率;其中,K≥1;以及,
文字概率排序模块,用于将所述待检测文字和每个所述替换文字按照所述文字概率从大到小的顺序排列,获得所述待检测文字的排列次序k;
则所述判断单元具体包括:
判断子单元,用于当判定K1≤k≤K2时,获得与所述待检测文字相对应的所述混淆集;其中,K1=(K+1)*0.7%,K2=(K+1)*70%;
所述语句概率获取模块具体包括:
文字概率获取单元,用于分别获得所述待检测语句中的每个文字的文字概率和每个所述混淆语句中的每个文字的文字概率;以及,
语句概率获取单元,用于根据预设的语句概率计算模型
Figure FDA0003452007580000041
分别计算获得所述待检测语句的语句概率和每个所述混淆语句的语句概率;其中,PA为当前计算语句A的语句概率,B为当前计算语句A中的文字的总个数,Pai为当前计算语句A中的第i个文字的文字概率。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至4中任一项所述的错别字检测方法。
7.一种终端设备,其特征在于,包括至少一个存储器以及至少一个处理器;其中,
所述存储器包括存储的至少一个计算机程序;
所述处理器用于执行所述计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1至4中任一项所述的错别字检测方法。
CN201810500260.3A 2018-05-22 2018-05-22 错别字检测方法、装置及计算机可读存储介质、终端设备 Active CN108829664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810500260.3A CN108829664B (zh) 2018-05-22 2018-05-22 错别字检测方法、装置及计算机可读存储介质、终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810500260.3A CN108829664B (zh) 2018-05-22 2018-05-22 错别字检测方法、装置及计算机可读存储介质、终端设备

Publications (2)

Publication Number Publication Date
CN108829664A CN108829664A (zh) 2018-11-16
CN108829664B true CN108829664B (zh) 2022-04-22

Family

ID=64149021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810500260.3A Active CN108829664B (zh) 2018-05-22 2018-05-22 错别字检测方法、装置及计算机可读存储介质、终端设备

Country Status (1)

Country Link
CN (1) CN108829664B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198149A (zh) * 2013-04-23 2013-07-10 中国科学院计算技术研究所 一种查询纠错方法和系统
CN106372107A (zh) * 2016-08-19 2017-02-01 中兴通讯股份有限公司 自然语言文句库的生成方法及装置
CN107506413A (zh) * 2017-08-11 2017-12-22 江苏科技大学 一种基于Lucene错别字的查询方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975558B (zh) * 2016-04-29 2018-08-10 百度在线网络技术(北京)有限公司 建立语句编辑模型的方法、语句自动编辑方法及对应装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198149A (zh) * 2013-04-23 2013-07-10 中国科学院计算技术研究所 一种查询纠错方法和系统
CN106372107A (zh) * 2016-08-19 2017-02-01 中兴通讯股份有限公司 自然语言文句库的生成方法及装置
CN107506413A (zh) * 2017-08-11 2017-12-22 江苏科技大学 一种基于Lucene错别字的查询方法

Also Published As

Publication number Publication date
CN108829664A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
US9069753B2 (en) Determining proximity measurements indicating respective intended inputs
CN109165384A (zh) 一种命名实体识别方法及装置
US10176169B2 (en) Method and system for providing translation information
CN107679032A (zh) 语音转换纠错方法和装置
CN106168954B (zh) 一种基于编辑距离的负面信息模式模糊匹配方法
CN111274785B (zh) 一种文本纠错方法、装置、设备及介质
CN110781273B (zh) 文本数据处理方法、装置、电子设备及存储介质
CN104008091A (zh) 一种基于情感值的网络文本情感分析方法
CN109002186B (zh) 一种输入预测方法及装置
WO2014036827A1 (zh) 一种文本校正方法及用户设备
CN109670040B (zh) 写作辅助方法、装置及存储介质、计算机设备
CN109828981A (zh) 一种数据处理方法及计算设备
WO2018030601A1 (ko) 오타 문자 수정 방법
CN111125438A (zh) 实体信息提取方法、装置、电子设备及存储介质
CN114462424B (zh) 一种文章段落分析注释方法、系统、可读介质及设备
CN111090341A (zh) 输入法候选结果展示方法、相关设备及可读存储介质
CN114141235A (zh) 语音语料库生成方法、装置、计算机设备和存储介质
CN108984515B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备
CN108829664B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备
CN108874770B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN102955770A (zh) 一种拼音自动识别方法及系统
CN108845984B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备
CN117422064A (zh) 搜索文本纠错方法、装置、计算机设备及存储介质
CN108829665B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant