CN109783811B - 一种识别文本编辑错误的方法、装置、设备及存储介质 - Google Patents

一种识别文本编辑错误的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109783811B
CN109783811B CN201811603085.7A CN201811603085A CN109783811B CN 109783811 B CN109783811 B CN 109783811B CN 201811603085 A CN201811603085 A CN 201811603085A CN 109783811 B CN109783811 B CN 109783811B
Authority
CN
China
Prior art keywords
text
standard
target
length
editing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811603085.7A
Other languages
English (en)
Other versions
CN109783811A (zh
Inventor
赵耕弘
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811603085.7A priority Critical patent/CN109783811B/zh
Publication of CN109783811A publication Critical patent/CN109783811A/zh
Application granted granted Critical
Publication of CN109783811B publication Critical patent/CN109783811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种识别文本编辑错误的方法、装置、设备及存储介质。该方法包括:获取标准文本并在待检测文本中确定与该标准文本对应的目标文本;确定该目标文本与该标准文本相比的差异文本的长度,并根据该差异文本的长度与标准文本的长度之间的比例关系,识别出该目标文本是否为编辑错误的文本。可见,在利用该标准文本对待检测文件进行检测时,若待检测文本中存在文本编辑错误时,基于该目标文本与标准文本之间差异可以检测出待检测文本中存在编辑错误的目标文本,这样,在对所识别出的具有编辑错误的目标文本进行修正后,可以降低文本编辑错误的出现率,提高文本编辑的准确性。

Description

一种识别文本编辑错误的方法、装置、设备及存储介质
技术领域
本发明涉及信息处理技术领域,特别是涉及一种识别文本编辑错误的方法、装置、设备及存储介质。
背景技术
随着电脑、智能手机等终端设备的普及,终端设备提供的文本编辑功能已经成为人们最常用的功能之一。在用户进行文本编辑时,经常可能出现多字、少字、错别字等编辑错误的文本内容。这些编辑错误的文本可能会文本含义发生极大地变化,因此,在某些文本编辑的场景中文本编辑错误往往是难以忍受的,尤其是在报纸、杂志、网站、新闻等领域中一些严格的固定用法。
发明内容
本发明所要解决的技术问题是,提供一种识别文本编辑错误的方法、装置、设备及存储介质,以使得编辑错误的文本能够被识别出来,从而降低文本编辑错误的出现率,提高文本编辑的准确性。
第一方面,本申请实施例提供了一种识别文本编辑错误的方法,该方法包括:
获取标准文本并在待检测文本中确定与所述标准文本对应的目标文本;
确定所述目标文本与所述标准文本相比的差异文本的长度;
根据所述差异文本的长度与所述标准文本的长度之间的比例关系,识别所述目标文本是否为编辑错误的文本。
在一些可能的实施方式中,所述差异文本的首字符与所述标准文本相应位置的字符不同,所述差异文本的尾字符与所述标准文本相应位置的字符不同,所述目标文本中除所述差异文本之外的其他字符均与所述标准文本相应位置的字符相同。
在一些可能的实施方式中,所述目标文本的首字符与所述标准文本的首字符相同,所述目标文本的尾字符与所述标准文本的尾字符相同。
在一些可能的实施方式中,所述根据所述差异文本的长度与所述标准文本的长度之间的比例关系,识别所述目标文本是否为编辑错误的文本,包括:
若所述差异文本的长度与所述标准文本的长度之间的比例未超过预设比例阈值且不为0,将所述目标文本识别为编辑错误的文本。
在一些可能的实施方式中,该方法还包括:
若识别出所述目标文本为编辑错误的文本,比较所述目标文本的长度与所述标准文本的长度;
若所述目标文本的长度与所述标准文本的长度相等,则将所述目标文本的编辑错误类型识别为错别字;
若所述目标文本的长度大于所述标准文本的长度,则将所述目标文本的编辑错误类型识别为多字;
若所述目标文本的长度小于所述标准文本的长度,则将所述目标文本的编辑错误类型识别为少字。
在一些可能的实施方式中,该方法还包括:
呈现第一提示信息,所述第一提示信息用于提示所述目标文本为编辑错误的文本并标注所述目标文本的编辑错误类型。
在一些可能的实施方式中,该方法还包括:
呈现第二提示信息,所述第二提示信息用于提示所述目标文本可被替换为所述标准文本。
第二方面,本申请实施例还提供了一种识别文本编辑错误的装置,该装置包括:
获取模块,用于获取标准文本;
第一确定模块,用于在待检测文本中确定与所述标准文本对应的目标文本;
第二确定模块,用于确定所述目标文本与所述标准文本相比的差异文本的长度;
识别模块,用于根据所述差异文本的长度与所述标准文本的长度之间的比例关系,识别所述目标文本是否为编辑错误的文本。
在一些可能的实施方式中,所述差异文本的首字符与所述标准文本相应位置的字符不同,所述差异文本的尾字符与所述标准文本相应位置的字符不同,所述目标文本中除所述差异文本之外的其他字符均与所述标准文本相应位置的字符相同。
在一些可能的实施方式中,所述目标文本的首字符与所述标准文本的首字符相同,所述目标文本的尾字符与所述标准文本的尾字符相同。
在一些可能的实施方式中,所述识别模块,具体用于若所述差异文本的长度与所述标准文本的长度之间的比例未超过预设比例阈值且不为0,将所述目标文本识别为编辑错误的文本。
在一些可能的实施方式中,该装置还包括:
比较模块,用于若识别出所述目标文本为编辑错误的文本,比较所述目标文本的长度与所述标准文本的长度;
第一类型识别模块,用于若所述目标文本的长度与所述标准文本的长度相等,则将所述目标文本的编辑错误类型识别为错别字;
第二类型识别模块,用于若所述目标文本的长度大于所述标准文本的长度,则将所述目标文本的编辑错误类型识别为多字;
第三类型识别模块,用于若所述目标文本的长度小于所述标准文本的长度,则将所述目标文本的编辑错误类型识别为少字。
在一些可能的实施方式中,该装置还包括:
第一呈现模块,用于呈现第一提示信息,所述第一提示信息用于提示所述目标文本为编辑错误的文本并标注所述目标文本的编辑错误类型。
在一些可能的实施方式中,该装置还包括:
第二呈现模块,用于呈现第二提示信息,所述第二提示信息用于提示所述目标文本可被替换为所述标准文本。
第三方面,本申请实施例还提供了一种识别文本编辑错误的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述第一方面所述的识别文本编辑错误的方法。
第四方面,本申请实施例还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述第一方面所述的识别文本编辑错误的方法。
与现有技术相比,本申请实施例具有以下优点:
本实施例中,通过利用正确的标准文本来检测出已输入的文本内容中是否存在文本编辑错误,从而使得编辑错误的文本能够被识别出来,进而可以降低文本编辑错误的出现率,提高文本编辑的准确性。具体的,可以先获取标准文本,并在待检测文本中确定与该标准文本对应的目标文本;然后,可以确定该目标文本与该标准文本相比的差异文本的长度,并根据该差异文本的长度与标准文本的长度之间的比例关系,可以识别出该目标文本是否为编辑错误的文本。可见,由于所获取的标准文本为具有正确内容的文本,因此,在利用该标准文本对待检测文件进行检测时,若待检测文本中不存在文本编辑错误,则标准文本与待检测文本中的目标文本通常一致,而若待检测文本中存在文本编辑错误时,由于待检测文本中具有编辑错误的目标文本与标准文本存在差异,因此,基于该目标文本与标准文本之间差异可以检测出待检测文本中存在编辑错误的目标文本,这样,在对所识别出的具有编辑错误的目标文本进行修正后,可以降低文本编辑错误的出现率,提高文本编辑的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一个示例性应用场景示意图;
图2为本申请实施例中一种识别文本编辑错误的方法流程示意图;
图3为本申请实施例中一种识别文本编辑错误的装置结构示意图;
图4为本申请实施例中一种识别文本编辑错误的设备架构示意图。
具体实施方式
用户在进行文本编辑的过程中,难免会在文本内容中出现多字、少字、错别字等编辑错误的情况。比如,在一些场景中,用户可能输入的文本内容为“站在穿流不息的人群中”,其中,该文本内容中的“穿流不息”为错误的输入,其正确的输入应为“川流不息”。尤其是当输入的文本内容较多时,出现编辑错误的情况更是时有发生。但是,在诸如报纸、杂志、网站、新闻等领域中,文本内容的编辑错误可能会使得文本含义发生较大变化,从而可能会造成较为严重的后果。因此,目前亟需一种能够检测出文本编辑错误的技术方案,以检测出已输入的文本内容中存在编辑错误的内容。
基于此,本申请实施例提供了一种识别文本编辑错误的方法,通过利用正确的标准文本来检测出已输入的文本内容中是否存在文本编辑错误,从而使得编辑错误的文本能够被识别出来,进而可以降低文本编辑错误的出现率,提高文本编辑的准确性。具体的,可以先获取标准文本,并在待检测文本中确定与该标准文本对应的目标文本;然后,可以确定该目标文本与该标准文本相比的差异文本的长度,并根据该差异文本的长度与标准文本的长度之间的比例关系,可以识别出该目标文本是否为编辑错误的文本。可见,由于所获取的标准文本为具有正确内容的文本,因此,在利用该标准文本对待检测文件进行检测时,若待检测文本中不存在文本编辑错误,则标准文本与待检测文本中的目标文本通常一致,而若待检测文本中存在文本编辑错误时,由于待检测文本中具有编辑错误的目标文本与标准文本存在差异,因此,基于该目标文本与标准文本之间差异可以检测出待检测文本中存在编辑错误的目标文本,这样,在对所识别出的具有编辑错误的目标文本进行修正后,可以降低文本编辑错误的出现率,提高文本编辑的准确性。
举例来说,本申请实施例可以应用于如图1所示的示例性应用场景。在该应用场景中,用户101在终端102上的文本编辑界面输入待检测文本后,可以在终端102上执行针对于该待检测文本的识别文本编辑错误的触发操作;终端102响应于用户101执行的触发操作,获取预先保存的标准文本,并在该待检测文本中确定与标准文本对应的目标文本,然后,终端102可以确定目标文本与标准文本相比的差异文本的长度,并根据该差异文本的长度以及标准文本的长度之间的比例关系,识别该目标文本是否为编辑错误的文本。终端102若确定该目标文本为编辑错误的文本,则可以将在文本编辑界面上对该目标文本添加特殊标记来提示用户101,以使得用户101对该目标文本的文本内容进行核查以及修正,从而降低待检测文本中文本编辑错误的出现率,提高文本编辑的准确性。
值得说明的是,上述示例性应用场景仅作为本申请实施例中众多应用场景的其中一种应用场景的示例性说明,并不用于对本申请实施例的各种应用场景进行限定,事实上,本申请实施例还可以应用于其它任意适用性应用场景中。比如,用户101在终端102上输入待检测文本后,终端102可以将该待检测文本发送至服务器,由服务器对该待检测文本进行文本编辑错误的识别,尤其是当待检测文本的文本内容较多时,利用服务器的高性能、高处理速度的优势,使得用户101可以得到快速响应,提供用户101的使用体验。又比如,用户101在终端102上进行文本编辑的过程中,终端102也可以自动对用户101所输入文本内容进行编辑错误的检测等。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
S201:获取标准文本并在待检测文本中确定与标准文本对应的目标文本。
本实施例中,是利用具有正确内容的标准文本来检测待检测文本中的目标文本是否具有文本编辑错误,则,可以先获取标准文本并确定出与标准文本所对应的目标文本。比如,待检测文本可以为“5月16日上午国务院总经理主持召开国务院常务会议”,则可以利用标准文本“国务院总理”对该待检测文本进行文本编辑错误的检测,以检测出待检测文本中存在文本编辑错误的目标文本“国务院总经理”。
在一种获取标准文本的示例性实施方式中,该标准文本可以预先存储于数据库中,则,当需要对待检测文本进行文本编辑错误的检测时,可以从数据库中读取得到标准文本。实际应用中,存储于数据库中的标准文本可以是多个,并且,该多个标准文本中存在部分标准文本与该待检测文本完全不同,因此,在一些实施方式中,可以将遍历数据库中的标准文本,并利用遍历得到的每个标准文本依次对待检测文本中的目标文本进行文本编辑错误的检测。
上述获取标准文本的示例性实施方式中,标准文本是预先已经确定并保存的,而在另一种获取标准文本的示例性实施方式中,该标准文本可以由用户进行确定。具体的,在需要对待检测文本进行文本编辑错误的检测时,用户可以对待检测文本中的部分文本进行选择,然后,可以将用户所选择的部分文本作为标准文本。比如,对于一段描述意大利比萨斜塔的文本中,可能会在该文本中多次提及意大利比萨斜塔,而用户为了检测文本中每次针对于意大利比萨斜塔的编辑是否存在错误,则可以将这段文本作为待检测文本,并选择将“意大利比萨斜塔”作为标准文本,这样,利用该标准文本可以对待检测文本中多处提及的“意大利比萨斜塔”进行编辑错误的检测。
同时,在确定与标准文本所对应的目标文本时,本实施例中可以利用字符匹配的方式来确定待检测文本中的目标文本。在一种示例性的具体实现方式中,可以先确定出目标文本的首字符,具体可以是将标准文本中的首字符与待检测文本中的首字符进行比较,若两个字符不相同,则将标准文本中的首字符与待检测文本中的首字符相连续的第二个字符进行比较,直至标准文本中的首字符与待检测文本中的某个字符一致。当检测到标准文本中的首字符与待检测文本中的某个字符一致时,可以将待检测文本中的该字符确定为目标文本的首字符,为方便描述,此处将所描述的待检测文本中的某个字符称之为第一目标字符。当然,若将标准文本的首字符比较至待检测文本中的最后一个字符时,两个字符仍然不相同,则表明该待检测文本中不包含目标文本。举例来说,假设待检测文本为“我站在意大利披萨斜塔下进行拍照”,标准文本为“意大利比萨斜塔”,则在确定目标文本的首字符时,可以先将标准文本的首字符“意”与待检测文本的首字符“我”进行比较,确定两个字符不相同时,则可以继续将标准文本的首字符“意”与待检测文本的字符“站”进行比较,直至比较至待检测文本中的字符“意”时,由于该字符与标准文本的首字符“意”一致,则可以将待检测文本中的字符“意”确定为目标文本的首字符,也即待检测文本中的第一目标字符。
在确定出目标文本的首字符后,可以继续确定该目标文本的尾字符。具体实现时,由于可能存在编辑错误的目标文本,通常是用户原意在输入标准文本时因为编辑错误而导致最终输入的文本,但是,实际应用中用户由于编辑错误而输入的文本与标准文本之间所存在的字符差异通常较少,因此,目标文本的长度与标准文本的长度通常相差较小。基于此,本实施例中可以是定位出待检测文本中自第一目标字符后的第N(N为大于0的正整数)个字符,其中,该数值N通常不小于标准文本的字符数。然后,可以将标准文本的尾字符与在待检测文本中所定位出的字符(即自第一目标字符后的第N个字符)进行比较,若两个字符不同,则将标准文本的尾字符与在待检测文本中所定位出的字符的前一个字符进行比较,直至标准文本中的尾字符与待检测文本中自第一目标字符后的某个字符一致为止,为方便描述,此处将待检测文本中的该字符称之为第二目标字符。仍以待检测文本为“我站在意大利披萨斜塔下进行拍照”,标准文本为“意大利比萨斜塔”为例,在确定出目标文本的首字符“意”后,可以定位出待检测文本中自第一目标字符“意”之后第8个字符“进”,然后可以将标准文本的尾字符“塔”与待检测文本中的字符“进”进行比较,确定这两个字符不同,则可以继续将标准文本的尾字符“塔”与待检测文本中字符“进”的前一个字符“下”进行比较,直至在将标准文本的尾字符“塔”比较至待检测文本中的字符“塔”时,两个字符一致,则可以确定待检测文本中的字符“塔”为目标文本的尾字符,也即待检测文本中的第二目标字符。
在待检测文本中定位出第一目标字符以及第二目标字符后,这两个字符以及两个字符之间的文本构成了所需确定的目标文本,此时,对于所确定出的目标文本,其首字符(也即第一目标字符)与标准文本的首字符相同,其尾字符(也即第二目标字符)与标准文本的尾字符相同。
当然,实际应用中,确定目标文本的实施方式存在多种,比如,还可以结合标准文本的第二个字符和/或倒数第二个字符来辅助上述实施方式确定目标文本等。总之,本实施例中对于确定目标文本的实施方式仅用于示例性说明,并不用于对本实施例中的确定目标文本的各种实施方式进行限定。
S202:确定目标文本与标准文本相比的差异文本的长度。
本实施例中,对待检测文本进行文本编辑错误的检测,通常即是对所确定出的待检测文本中的目标文本进行是否存在文本编辑错误的检测。基于此,在获取到标准文本以及确定出目标文本后,可以对目标文本与标准文本进行比较,确定两个文本之间的差异文本,即确定目标文本中与标准文本存在不同字符的部分文本,进而可以根据所确定的差异文本获得该差异文本的字符长度。比如,假设标准文本为“意大利比萨斜塔”,目标文本为“意达尼披萨斜塔”,则差异文本即为目标文本中与标准文本不同的部分文本“达尼披”,而该差异文本的字符长度为3个字符的长度(或者为6个字节的长度、48位比特的长度等)。
在一种确定差异文本的示例性实施方式中,可以是通过字符比较的方式确定差异文本。比如,在获得标准文本并确定出目标文本后,可以将标准文本的首字符与目标文本的首字符进行比较,若两个字符相同,则将标准文本的第二个字符与目标文本的第二个字符进行比较,直至两个文本的全部字符均比较完全并且全部一致,或者检测出两个文本相应位置的字符存在不同;若按照上述正向字符比较过程检测出标准文本与目标文本之间的对应位置上存在字符不一致的情况,则记录目标文本中与标准文本不一致的第一个字符。为了描述方便,此处将目标文本中的该字符称之为第三目标字符。然后,可以将标准文本的尾字符与目标文本的尾字符进行比较,若两个字符相同,则将标准文本的倒数第二个字符与目标文本的倒数第二个字符进行比较,直至检测出两个文本相应位置的字符存在不同;若按照上述反向字符比较过程检测出标准文本与目标文本之间的对应位置上存在字符不一致的情况,则记录目标文本中与标准文本不一致的第一个字符。为了描述方便,此处将目标文本中的该字符称之为第四目标字符。这样,目标文本中第三目标字符与第四目标字符之间的文本即可为所需确定的差异文本,进而基于所确定的差异文本获得该差异文本的长度。
举例来说,假设标准文本为“意大利比萨斜塔”,而目标文本为“意大利批萨西塔”,则在确定差异文本时,可以将标准文本的首字符“意”与目标文本的首字符“意”进行比较,两个字符一致,则继续比较标准文本的第二个字符“大”与目标文本的第二个字符“大”,按照该正向字符比较过程,在比较标准文本的第四个字符“比”与目标文本的第四个字符“批”时,检测出两个字符并不一致;然后,可以将标准文本的尾字符“塔”与目标文本的尾字符“塔”进行比较,两个字符一致,则继续比较标准文本的倒数第二个字符“斜”与目标文本的倒数第二个字符“西”,按照该正向字符比较过程,在比较标准文本的倒数第二个字符“斜”与目标文本的倒数第二个字符“西”时,检测出两个字符并不一致。基于此,可以确定目标文本“意大利批萨西塔”与标准文本“意大利比萨斜塔”相比的差异文本为“批萨西”,该差异文本的长度为3个字符的长度。
基于上述确定差异文本的示例性实施方式所确定出的差异文本,其首字符与标准文本相应位置的字符不同,并且,其尾字符与标准文本相应位置的字符不同,而目标文本中除该差异文本之外的其它字符均与标准文本相应位置的字符相同。如上例所示,差异文本“批萨西”的首字符“批”与标准文本的“比”不同,差异文本“批萨西”的尾字符“西”与标准文本的“斜”不同,而目标文本“意大利批萨西塔”中除差异文本以外的部分“意大利”及“塔”,均与标准文本中相应位置的“意大利”及“塔”相同。
值得注意的是,上述实施方式仅对确定差异文本的具体实现过程进行示例性说明,并不用于限定确定差异文本的过程仅局限于上述实施方式。实际应用中,基于其它可能的实施方式所确定出的差异文本也可以为“利批萨西塔”、“批西”等。
S203:根据差异文本的长度与标准文本的长度之间的比例关系,识别目标文本是否为编辑错误的文本。
本实施例中,在确定目标文本是否为编辑错误的文本时,是根据差异文本的长度与标准文本的长度之间的比例关系进行确定。在一种示例性的具体实施方式中,在得到差异文本的长度后,可以直接计算差异文本的长度与标准文本的长度之间的比例,若该比例不超过预设比例阈值并且不为0,则可以判定包括该差异文本的目标文本存在文本编辑错误,即目标文本为编辑错误的文本;而若比例超过预设比例阈值,则可以判定该目标文本不存在文本编辑错误,即并非为编辑错误的文本。可以理解,用户在进行文本编辑时,很少会出现连续编辑的多个字符均出现编辑错误的情况,通常情况下所产生的文本编辑错误普遍为多输入一两个字符,或者漏输入一两个字符,又或者是目标文本中存在某个字符输入错误,即存在错别字等。也就是说,通常情况下,目标文本与标准文本之间的差异文本的长度通常会较小,相应的,差异文本的长度与标准文本的长度之间的比例也会较小。若差异文本的长度与标准文本的长度之间的比例超过预设比例阈值在,表明该差异文本的长度过长,但是这并不符合用户正常编辑文本的实际情况。比如,标准文本可能为“意大利比萨斜塔”,而所确定出的目标文本为“意见不同不建塔”,此时,可以认为用户实际所输入的文本内容并非是该标准文本的内容,进而无需判定该目标文本为编辑错误的文本。
在另一种示例性的具体实施方式中,也可以根据差异文本的长度与标准文本的长度之间的比例关系计算出目标文本为编辑错误的文本的置信度,进而根据所计算出的置信度可以确定目标文本是否存在文本编辑错误。具体的,在得到差异文本的长度后,可以利用公式(1)计算出目标文本为编辑错误的文本的置信度,若所计算出的置信度越大,表明该目标文本为编辑错误的文本的可能性越大;反之,若所计算出的置信度越小,表明该目标文本为编辑错误的文本的可能性越小。其中,所述置信度的计算公式如下:
实际应用中,用户所出现的文本编辑错误通常为多编辑了若干字符、漏编辑若干字符以及编辑的字符为错别字等,基于此,在确定目标文本为编辑错误的文本时,还可以确定该目标文本所属的编辑错误的类型,即区分该目标文本是属于多字类型、少字类型或者是错别字类型。在一种示例性的具体实施方式中,若识别出目标文本为编辑错误的文本,则可以比较目标文本的长度与标准文本的长度,若目标文本的长度大于标准文本的长度,表明目标文本相比于标准文本多了几个字符,则可以将该目标文本的编辑错误类型识别为多字类型;若目标文本的长度小于标准文本的长度,表明目标文本相比于标准文本漏了几个字符,则可以将该目标文本的编辑错误类型识别为少字类型;若目标文本的长度等于标准文本的长度,表明目标文本中存在部分字符与标准文本的字符不同,则可以将目标文本的编辑错误类型识别为错误字类型。
进一步的,在确定目标文本的编辑错误类别后,还可以将该目标文本的识别结果呈现给用户。具体的,在一种示例性实施方式中,若确定目标文本为编辑错误的文本并识别出该目标文本的编辑错误类型,则可以向用户呈现第一提示信息,以提示用户待检测文本中的目标文本为编辑错误的文本,并对该目标文本的编辑错误类型进行标注。比如,可以在用户的文本编辑界面上呈现目标文本存在编辑错误的提示信息,并利用诸如下划线等方式对该目标文本进行标识,同时,将该目标文本所属的多字类型、少字类型或者错别字类型在文本编辑界面上进行标注,以便于用户对该目标文本的文本内容进行修正。
进一步的,由于用户对于所确定出的目标文本可能会进行相应的修正,而该目标文本进行修正后,所得到的修正后的目标文本与标准文本一致,基于此,在一些可能的实施方式中,还可以向用户呈现目标文本可被替换为标准文本的提示信息。具体的,可以向用户呈现第二提示信息,以提示用户可以将所检测出的目标文本替换为标准文本。比如,所检测出的存在文本编辑错误的目标文本为“意大利披萨斜塔”,则可以在用户编辑界面上向用户呈现“可替换为“意大利比萨斜塔””的第二提示信息。这样,若用户基于该第二提示信息确定需要将目标文本替换为标准文本,则可以响应用户对目标文本进行替换的确定操作,如响应用户对呈现的“确定”控件进行点击的操作等,将所检测出的目标文本自动替换为标准文本,从而无需用户对目标文本再次进行编辑以对该目标文本进行修正,进一步方便了用户。
此外,在一些可能的应用场景中,由于是利用目标文本与标准文本之间的差异文本来判定目标文本是否存储文本编辑错误,因此,所确定出的目标文本可能只是与标准文本不一致,但是实际上并不存在语法或者语义上的错误。比如,假设标准文本为“意大利比萨斜塔”,而目标文本为“意大利的比萨斜塔”,此时,虽然该目标文本相比于标准文本而言多了一个字符“的”,但是,该文本并不存在语法或者语音的错误。也就是说,在一些场景中,即使目标文本与标准文本存在差异,也不影响文本的原意表达。基于此,本实施例中在检测并向用户标识出目标文本后,还可以呈现是否“忽略”该目标文本的选择控件,并且,若用户选择忽略该目标文本,表明用户认定该目标文本即使与标准文本存在不同,也无需对该目标文本进行修正。
本实施例中,可以先获取标准文本,并在待检测文本中确定与该标准文本对应的目标文本;然后,可以确定该目标文本与该标准文本相比的差异文本的长度,并根据该差异文本的长度与标准文本的长度之间的比例关系,可以识别出该目标文本是否为编辑错误的文本。可见,由于所获取的标准文本为具有正确内容的文本,因此,在利用该标准文本对待检测文件进行检测时,若待检测文本中不存在文本编辑错误,则标准文本与待检测文本中的目标文本通常一致,而若待检测文本中存在文本编辑错误时,由于待检测文本中具有编辑错误的目标文本与标准文本存在差异,因此,基于该目标文本与标准文本之间差异可以检测出待检测文本中存在编辑错误的目标文本,这样,在对所识别出的具有编辑错误的目标文本进行修正后,可以降低文本编辑错误的出现率,提高文本编辑的准确性。
此外,本申请实施例还提供了一种识别文本编辑错误的装置。参见图3,图3示出了本申请实施例中一种识别文本编辑错误的装置结构示意图,该装置300包括:
获取模块301,用于获取标准文本;
第一确定模块302,用于在待检测文本中确定与所述标准文本对应的目标文本;
第二确定模块303,用于确定所述目标文本与所述标准文本相比的差异文本的长度;
识别模块304,用于根据所述差异文本的长度与所述标准文本的长度之间的比例关系,识别所述目标文本是否为编辑错误的文本。
在一些可能的实施方式中,所述差异文本的首字符与所述标准文本相应位置的字符不同,所述差异文本的尾字符与所述标准文本相应位置的字符不同,所述目标文本中除所述差异文本之外的其他字符均与所述标准文本相应位置的字符相同。
在一些可能的实施方式中,所述目标文本的首字符与所述标准文本的首字符相同,所述目标文本的尾字符与所述标准文本的尾字符相同。
在一些可能的实施方式中,所述识别模块304,具体用于若所述差异文本的长度与所述标准文本的长度之间的比例未超过预设比例阈值且不为0,将所述目标文本识别为编辑错误的文本。
在一些可能的实施方式中,该装置300还包括:
比较模块,用于若识别出所述目标文本为编辑错误的文本,比较所述目标文本的长度与所述标准文本的长度;
第一类型识别模块,用于若所述目标文本的长度与所述标准文本的长度相等,则将所述目标文本的编辑错误类型识别为错别字;
第二类型识别模块,用于若所述目标文本的长度大于所述标准文本的长度,则将所述目标文本的编辑错误类型识别为多字;
第三类型识别模块,用于若所述目标文本的长度小于所述标准文本的长度,则将所述目标文本的编辑错误类型识别为少字。
在一些可能的实施方式中,该装置300还包括:
第一呈现模块,用于呈现第一提示信息,所述第一提示信息用于提示所述目标文本为编辑错误的文本并标注所述目标文本的编辑错误类型。
在一些可能的实施方式中,该装置300还包括:
第二呈现模块,用于呈现第二提示信息,所述第二提示信息用于提示所述目标文本可被替换为所述标准文本。
本实施例中,由于所获取的标准文本为具有正确内容的文本,因此,在利用该标准文本对待检测文件进行检测时,若待检测文本中不存在文本编辑错误,则标准文本与待检测文本中的目标文本通常一致,而若待检测文本中存在文本编辑错误时,由于待检测文本中具有编辑错误的目标文本与标准文本存在差异,因此,基于该目标文本与标准文本之间差异可以检测出待检测文本中存在编辑错误的目标文本,这样,在对所识别出的具有编辑错误的目标文本进行修正后,可以降低文本编辑错误的出现率,提高文本编辑的准确性。
此外,本申请实施例还提供了一种识别文本编辑错误的设备。参阅图4,图4示出了本申请实施例中一种识别文本编辑错误的设备架构示意图,该设备400包括处理器401以及存储器402:
所述存储器402用于存储程序代码,并将所述程序代码传输给所述处理器401;
所述处理器401用于根据所述程序代码中的指令执行以下操作:
获取标准文本并在待检测文本中确定与所述标准文本对应的目标文本;
确定所述目标文本与所述标准文本相比的差异文本的长度;
根据所述差异文本的长度与所述标准文本的长度之间的比例关系,识别所述目标文本是否为编辑错误的文本。
在一些可能的实施方式中,所述差异文本的首字符与所述标准文本相应位置的字符不同,所述差异文本的尾字符与所述标准文本相应位置的字符不同,所述目标文本中除所述差异文本之外的其他字符均与所述标准文本相应位置的字符相同。
在一些可能的实施方式中,所述目标文本的首字符与所述标准文本的首字符相同,所述目标文本的尾字符与所述标准文本的尾字符相同。
在一些可能的实施方式中,在一些可能的实施方式中,所述处理器401具体用于执行:
若所述差异文本的长度与所述标准文本的长度之间的比例未超过预设比例阈值且不为0,将所述目标文本识别为编辑错误的文本。
在一些可能的实施方式中,所述处理器401还用于执行:
若识别出所述目标文本为编辑错误的文本,比较所述目标文本的长度与所述标准文本的长度;
若所述目标文本的长度与所述标准文本的长度相等,则将所述目标文本的编辑错误类型识别为错别字;
若所述目标文本的长度大于所述标准文本的长度,则将所述目标文本的编辑错误类型识别为多字;
若所述目标文本的长度小于所述标准文本的长度,则将所述目标文本的编辑错误类型识别为少字。
在一些可能的实施方式中,所述处理器401还用于执行:
呈现第一提示信息,所述第一提示信息用于提示所述目标文本为编辑错误的文本并标注所述目标文本的编辑错误类型。
在一些可能的实施方式中,所述处理器401还用于执行:
呈现第二提示信息,所述第二提示信息用于提示所述目标文本可被替换为所述标准文本。
另外,本申请实施例还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行如下指令:
获取标准文本并在待检测文本中确定与所述标准文本对应的目标文本;
确定所述目标文本与所述标准文本相比的差异文本的长度;
根据所述差异文本的长度与所述标准文本的长度之间的比例关系,识别所述目标文本是否为编辑错误的文本。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置、设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (9)

1.一种识别文本编辑错误的方法,其特征在于,包括:
获取标准文本并在待检测文本中确定与所述标准文本对应的目标文本;
确定所述目标文本与所述标准文本相比的差异文本的长度;
根据所述差异文本的长度与所述标准文本的长度之间的比例关系,识别所述目标文本是否为编辑错误的文本;
根据所述差异文本的长度与所述标准文本的长度之间的比例关系,识别所述目标文本是否为编辑错误的文本,包括:
若所述差异文本的长度与所述标准文本的长度之间的比例未超过预设比例阈值且不为0,将所述目标文本识别为编辑错误的文本。
2.根据权利要求1所述的方法,其特征在于,所述差异文本的首字符与所述标准文本相应位置的字符不同,所述差异文本的尾字符与所述标准文本相应位置的字符不同,所述目标文本中除所述差异文本之外的其他字符均与所述标准文本相应位置的字符相同。
3.根据权利要求1所述的方法,其特征在于,所述目标文本的首字符与所述标准文本的首字符相同,所述目标文本的尾字符与所述标准文本的尾字符相同。
4.根据权利要求1所述的方法,其特征在于,还包括:
若识别出所述目标文本为编辑错误的文本,比较所述目标文本的长度与所述标准文本的长度;
若所述目标文本的长度与所述标准文本的长度相等,则将所述目标文本的编辑错误类型识别为错别字;
若所述目标文本的长度大于所述标准文本的长度,则将所述目标文本的编辑错误类型识别为多字;
若所述目标文本的长度小于所述标准文本的长度,则将所述目标文本的编辑错误类型识别为少字。
5.根据权利要求4所述的方法,其特征在于,还包括:
呈现第一提示信息,所述第一提示信息用于提示所述目标文本为编辑错误的文本并标注所述目标文本的编辑错误类型。
6.根据权利要求1至5任一项所述的方法,其特征在于,还包括:
呈现第二提示信息,所述第二提示信息用于提示所述目标文本可被替换为所述标准文本。
7.一种识别文本编辑错误的装置,其特征在于,包括:
获取模块,用于获取标准文本;
第一确定模块,用于在待检测文本中确定与所述标准文本对应的目标文本;
第二确定模块,用于确定所述目标文本与所述标准文本相比的差异文本的长度;
识别模块,用于根据所述差异文本的长度与所述标准文本的长度之间的比例关系,识别所述目标文本是否为编辑错误的文本;
所述识别模块,具体用于若所述差异文本的长度与所述标准文本的长度之间的比例未超过预设比例阈值且不为0,将所述目标文本识别为编辑错误的文本。
8.一种识别文本编辑错误的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至6任一项所述的识别文本编辑错误的方法。
9.一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至6任一项所述的识别文本编辑错误的方法。
CN201811603085.7A 2018-12-26 2018-12-26 一种识别文本编辑错误的方法、装置、设备及存储介质 Active CN109783811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811603085.7A CN109783811B (zh) 2018-12-26 2018-12-26 一种识别文本编辑错误的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811603085.7A CN109783811B (zh) 2018-12-26 2018-12-26 一种识别文本编辑错误的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109783811A CN109783811A (zh) 2019-05-21
CN109783811B true CN109783811B (zh) 2023-10-31

Family

ID=66497662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811603085.7A Active CN109783811B (zh) 2018-12-26 2018-12-26 一种识别文本编辑错误的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109783811B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254658B (zh) * 2021-07-07 2021-12-21 明品云(北京)数据科技有限公司 文本信息处理方法、系统、介质和设备
CN115188013B (zh) * 2022-09-14 2023-06-30 泰豪信息技术有限公司 一种判决书的风险防控方法、系统、存储介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999483A (zh) * 2011-09-16 2013-03-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
CN103077389A (zh) * 2013-01-07 2013-05-01 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法
CN103959282A (zh) * 2011-09-28 2014-07-30 谷歌公司 用于文本识别系统的选择性反馈
KR101684681B1 (ko) * 2016-08-08 2016-12-20 김영길 오타 문자 수정 방법
CN106997335A (zh) * 2016-01-26 2017-08-01 阿里巴巴集团控股有限公司 相同字符串的判定方法及装置
CN107329947A (zh) * 2017-05-15 2017-11-07 中国移动通信集团湖北有限公司 相似文本的确定方法、装置及设备
CN108280051A (zh) * 2018-01-22 2018-07-13 清华大学 一种文本数据中错误字符的检测方法、装置和设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640158B2 (en) * 2005-11-08 2009-12-29 Multimodal Technologies, Inc. Automatic detection and application of editing patterns in draft documents
US8077983B2 (en) * 2007-10-04 2011-12-13 Zi Corporation Of Canada, Inc. Systems and methods for character correction in communication devices
US20120262461A1 (en) * 2011-02-17 2012-10-18 Conversive, Inc. System and Method for the Normalization of Text

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999483A (zh) * 2011-09-16 2013-03-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
CN103959282A (zh) * 2011-09-28 2014-07-30 谷歌公司 用于文本识别系统的选择性反馈
CN103077389A (zh) * 2013-01-07 2013-05-01 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法
CN106997335A (zh) * 2016-01-26 2017-08-01 阿里巴巴集团控股有限公司 相同字符串的判定方法及装置
KR101684681B1 (ko) * 2016-08-08 2016-12-20 김영길 오타 문자 수정 방법
CN107329947A (zh) * 2017-05-15 2017-11-07 中国移动通信集团湖北有限公司 相似文本的确定方法、装置及设备
CN108280051A (zh) * 2018-01-22 2018-07-13 清华大学 一种文本数据中错误字符的检测方法、装置和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
电子文献书写错误的快速识别;王剑辉;长安大学学报;第27卷(第1期);第107-110页 *

Also Published As

Publication number Publication date
CN109783811A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
US11024287B2 (en) Method, device, and storage medium for correcting error in speech recognition result
US7516404B1 (en) Text correction
CN1801139B (zh) 句子显示方法和信息处理系统
CN109284355B (zh) 一种批改试卷中口算题的方法及装置
CN110674396B (zh) 文本信息处理方法、装置、电子设备及可读存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN109189895B (zh) 一种针对口算题的题目批改方法及装置
CN109783811B (zh) 一种识别文本编辑错误的方法、装置、设备及存储介质
CN105681134A (zh) 一种通用型多种串口通信协议检测识别方法
CN111144100B (zh) 一种问题文本识别方法、装置、电子设备及存储介质
CN111368506B (zh) 文本处理方法及装置
CN110718226A (zh) 语音识别结果处理方法、装置、电子设备及介质
CN110245606B (zh) 一种文本识别方法、装置、设备及存储介质
CN111368918A (zh) 文本纠错方法、装置、电子设备及存储介质
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN111062208B (zh) 一种文件审核的方法、装置、设备及存储介质
CN111046627B (zh) 一种中文文字显示方法及系统
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN111554295B (zh) 文本纠错方法、相关设备及可读存储介质
CN102955770A (zh) 一种拼音自动识别方法及系统
CN105095826A (zh) 一种文字识别方法及装置
CN116756382A (zh) 检测敏感字符串的方法、装置、设置及存储介质
CN113435217B (zh) 语言测试处理方法、装置及电子设备
CN114065762A (zh) 一种文本信息的处理方法、装置、介质及设备
CN109783679B (zh) 一种学习辅助方法及学习设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant