CN109062903A - 用于校正错别字的方法和装置 - Google Patents

用于校正错别字的方法和装置 Download PDF

Info

Publication number
CN109062903A
CN109062903A CN201810958900.5A CN201810958900A CN109062903A CN 109062903 A CN109062903 A CN 109062903A CN 201810958900 A CN201810958900 A CN 201810958900A CN 109062903 A CN109062903 A CN 109062903A
Authority
CN
China
Prior art keywords
content
search result
corrected
association
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810958900.5A
Other languages
English (en)
Other versions
CN109062903B (zh
Inventor
郭辰阳
吴家林
邵英杰
刘晓波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810958900.5A priority Critical patent/CN109062903B/zh
Publication of CN109062903A publication Critical patent/CN109062903A/zh
Application granted granted Critical
Publication of CN109062903B publication Critical patent/CN109062903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请实施例公开了用于校正错别字的方法和装置。该方法的一具体实施方式包括:获取待校正内容;将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合;对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度;根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。该实施方式提高了对待校正内容进行错别字判断的灵活性。

Description

用于校正错别字的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于校正错别字的方法和装置。
背景技术
随着计算机技术的发展,人们往往选择通过网络来搜索获取自身所需的查询内容(例如,诗词文本),目前,通过网络获取查询内容的缺陷是,所获得的查询内容中容易出现错别字。
现有的方式中,网络平台为了给用户提供准确的查询内容,通常是先依据查询内容被搜索的热度从高到低进行排序,然后通过人工标注的方式对设定的权威资源提供的查询内容进行校正,从而实现把校正后的查询内容返回给用户。
发明内容
本申请实施例提出了用于校正错别字的方法和装置。
第一方面,本申请实施例提供了一种用于校正错别字的方法,该方法包括:获取待校正内容;将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合;对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度;根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。
在一些实施例中,根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字,包括:确定搜索结果集合中对应内容关联度为零的搜索结果的数量,得到第一数量;确定搜索结果集合中对应内容关联度小于设定筛选值的搜索结果的数量,得到第二数量;响应于第一数量与第二数量的比值小于设定下限阈值,确定待校正内容中存在错别字。
在一些实施例中,根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字,还包括:响应于第一数量与第二数量的比值大于设定上限阈值,确定待校正内容中不存在错别字。
在一些实施例中,搜索结果中包含至少一个文字组;以及该方法还包括:响应于确定待校正内容中存在错别字,从内容关联度集合中选取出现次数最多的内容关联度,获取所选取的内容关联度对应的至少一个搜索结果;从至少一个搜索结果中选取搜索结果,将所选取的搜索结果中的对应于所选取的内容关联度的文字组替换待校正内容。
在一些实施例中,确定该搜索结果与待校正内容间的内容关联度,包括:删除该搜索结果中的标点符号以及删除待校正内容中的标点符号;确定删除处理后的搜索结果与待校正内容之间的内容关联度。
第二方面,本申请实施例提供了一种用于校正错别字的装置,该装置包括:第一接收单元,被配置成获取待校正内容;第二接收单元,被配置成将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合;第一确定单元,被配置成对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度;第二确定单元,被配置成根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。
在一些实施例中,第二确定单元,包括:第一统计模块,被配置成确定搜索结果集合中对应内容关联度为零的搜索结果的数量,得到第一数量;第二统计模块,被配置成确定搜索结果集合中对应内容关联度小于设定筛选值的搜索结果的数量,得到第二数量;判断模块,被配置成响应于第一数量与第二数量的比值小于设定下限阈值,确定待校正内容中存在错别字。
在一些实施例中,判断模块,进一步被配置成响应于第一数量与第二数量的比值大于设定上限阈值,确定待校正内容中不存在错别字。
在一些实施例中,该装置还包括:结果选取单元,被配置成响应于确定待校正内容中存在错别字,从内容关联度集合中选取出现次数最多的内容关联度,获取所选取的内容关联度对应的至少一个搜索结果;内容替换单元,被配置成从至少一个搜索结果中选取搜索结果,将所选取的搜索结果中的对应于所选取的内容关联度的文字组替换待校正内容。
在一些实施例中,确定该搜索结果与待校正内容间的内容关联度,包括:删除该搜索结果中的标点符号以及删除待校正内容中的标点符号;确定删除处理后的搜索结果与待校正内容之间的内容关联度。
第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如用于校正错别字的方法中任一实施例的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如用于校正错别字的方法中任一实施例的方法。
本申请实施例提供的用于校正错别字的方法和装置,可以获取待校正内容。而后,将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合。之后,对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度。最后,根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。本实施例的方法和装置,不需要人工判断待校正内容中是否存在错别字,提高了对待校正内容进行错别字判断的灵活性,有助于在确定待校正内容存在错别字时,准确、及时地对错别字进行校正。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于校正错别字的方法的一个实施例的流程图;
图3是根据本申请实施例的用于校正错别字的方法的一个应用场景的示意图;
图4是根据本申请的用于校正错别字的方法的又一个实施例的流程图;
图5是根据本申请的用于校正错别字的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于校正错别字的方法或用于校正错别字的装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103可以通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如搜索类应用、查错类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持待校正内容输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上所安装的应用提供支持的搜索服务器。搜索服务器可以在接收到终端设备101、102、103发送的待校正内容时,将对应于待校正内容的搜索结果集合发送给终端设备101、102、103。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于校正错别字的方法一般由终端设备101、102、103执行,相应地,用于校正错别字的装置一般设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于校正错别字的方法的一个实施例的流程200。该用于校正错别字的方法,包括以下步骤:
步骤201,获取待校正内容。
在本实施例中,用于校正错别字的方法的执行主体(例如图1所示的终端设备101、102、103)可以通过多种方式来获取待校正内容。例如,执行主体可以通过有线连接方式或者无线连接方式从设定设备(例如,U盘、服务器的数据存储设备等)中读取数据来获取待校正内容。再例如,执行主体可以通过直接获取用户输入信息的方式来获取待校正内容。上述待校正内容可以包括:有顺序的文字的组合。可选地,上述待校正内容可以是诗词、谚语、成语等。
步骤202,将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合。
在本实施例中,在获取到待校正内容之后,执行主体可以通过网络将所获取到的待校正内容发送至搜索服务器中。之后,可以通过网络接收上述搜索服务器基于待校正内容发送的搜索结果集合。搜索服务器通常是提供搜索服务的服务器。
本实施例中,搜索服务器在接收到待校正内容后,可以使用待校正内容进行搜索,搜索到至少一条搜索结果。搜索结果可以是文字的组合。
可选地,搜索服务器会对搜索到的各搜索结果进行排序后再发送给上述执行主体。实际应用中,搜索结果与待校正内容的相关程度越高,则该搜索结果的排序越靠前。因此,为了减少计算量,执行主体可以选择只获取排序靠前(即,序号小于设定序号阈值)的设定数量的搜索结果。这里,举例来说,执行主体将诗句“床前明月光,疑是地上霜。”发送给搜索服务器后,搜索服务器会反馈很多(例如200个)的搜索结果,而实际上反馈回来的排序靠后的一批搜索结果与待校正内容的相关程度并不高,因此,执行主体可以设置只接收搜索服务器反馈的设定数量(例如50个)的搜索结果。
可选地,搜索服务器可以是搜索引擎服务器。这里,由于搜索引擎服务器中的数据均是通过固定的索引规则进行存储的,故,搜索引擎服务器返回的搜索结果的格式很统一,便于执行主体对搜索结果进行处理。此外,又由于搜索引擎服务器中索引存储的数据量巨大,可以提供更加准确、全面的搜索结果,故,有助于提高对待校正内容中是否存在错别字进行判断的判断正确率。
需要说明的是,上述设定数量的具体取值可以结合实际需要(如执行主体的处理能力)进行设定,本实施例不做具体限定。
步骤203,对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度。
在本实施例中,上述执行主体可以对接收到的搜索结果集合中的每个搜索结果,计算其与待校正内容间的内容关联度。其中,上述内容关联度用于确定搜索结果与待校正内容的相似程度。
在本实施例的一些可选的实现方式中,上述执行主体可以通过以下任一方式获得上述内容关联度:通过计算搜索结果与待校正内容的编辑距离来获得上述内容关联度;通过计算搜索结果与待校正内容的余弦相似度来获得上述内容关联度;通过计算搜索结果中的至少一个文字组与待校正内容的编辑距离来获得上述内容关联度。
在本实施例的一些可选的实现方式中,上述执行主体可以通过计算搜索结果与待校正内容的编辑距离来获得上述内容关联度。这里,可以将搜索结果与待校正内容的编辑距离确定为内容关联度。其中,编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。其中,上述编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。此外,编辑距离越小,两个字串间的相似度越大。举例来说,若待校正内容为“窗前明月光疑是地上霜”。一条搜索结果为“床前明月光疑是地上霜”,那么,由待校正内容“窗前明月光疑是地上霜”转变为搜索结果“床前明月光疑是地上霜”只需要进行一次编辑操作,即将“窗”替换成“床”。此时,待校正内容与搜索结果的编辑距离为1,即,此时搜索结果与待校正内容的内容关联度为1。
需要说明的是,由于搜索结果中的文字的数量M通常大于或等于待校正内容中的文字的数量N,故搜索结果与待校正内容间的相似度S与内容关联度L之间的关系为,S=(1-L/M)%。从上述公式可以看出,内容关联度越小,则搜索结果与待校正内容间的相似度越大。
在本实施例的一些可选的实现方式中,执行主体还可以通过计算搜索结果与待校正内容的余弦相似度来获得上述内容关联度。具体地,搜索结果与待校正内容的余弦相似度的计算过程可以包括:第一步,将搜索结果转换成第一向量。第二步,将待校正内容转换成第二向量。第三步,计算第一向量与第二向量间的余弦值,将余弦值确定为搜索结果与待校正内容的内容关联度。其中,上述余弦值越大,则搜索结果与待校正内容的相似度越大,且内容关联度越大。
可选的,确定该搜索结果与待校正内容间的内容关联度,包括:删除该搜索结果中的标点符号以及删除待校正内容中的标点符号;确定删除处理后的搜索结果与待校正内容之间的内容关联度。
在本实施例中,上述执行主体删除搜索结果和待校正内容中的标点符号,旨在防止标点符号对搜索结果与待校正内容间的内容关联度的计算结果造成干扰。从而实现只对搜索结果和待校正内容中的文字进行分析,有助于更准确地判断待校正内容中是否存在错别字。
在本实施例的一些可选的实现方式中,上述执行主体还可以通过计算搜索结果中的至少一个文字组与待校正内容的编辑距离来获得上述内容关联度。这里,确定搜索结果与待校正内容间的内容关联度,包括如下步骤:
第一步,将搜索结果的第一个文字确定为目标文字。
第二步,顺序选取搜索结果中以目标文字为首的连续的比对数量个文字,形成文字组,将文字组存入文字组集合。确定所选取的连续的比对数量个文字中的最后一个文字是否对应搜索结果的最后一个文字。响应于所选取的连续的比对数量个文字中的最后一个文字对应搜索结果的最后一个文字,输出文字组集合。
在本实施例中,由于搜索结果中的文字的数量通常大于或等于待校正内容中的文字的数量,因此,在计算搜索结果集合中各搜索结果与待校正内容间的内容关联度之前,上述执行主体可以先对搜索结果集合中的各搜索结果进行文字组划分,以使得一个搜索结果对应具有一个文字组集合。其中,文字组集合中的每条文字组中具有比对数量个文字,且上述比对数量为待校正内容中文字的数量。在本实施例中,将搜索结果划分成文字组且各文字组中的文字数量与待校正内容中的文字数量相等,旨在获取搜索结果中与待校正内容最相似的文字组,有助于更准确地判断待校正内容中是否存在错别字。
可选地,在本实施例中,若搜索结果中的文字的数量与待校正内容中的文字的数量相等,则对于搜索结果集合中的任一搜索结果进行文字组划分时,可以通过以下步骤获得对应于该搜索结果的文字组集合:
1)将搜索结果的第一个文字确定为目标文字。
2)顺序选取搜索结果中以目标文字为首的连续的比对数量个文字,形成文字组,将文字组存入文字组集合。确定所选取的连续的比对数量个文字中的最后一个文字是否对应搜索结果的最后一个文字。响应于所选取的连续的比对数量个文字中的最后一个文字对应搜索结果的最后一个文字,输出文字组集合。
在本实施例中,在搜索结果中的文字的数量与待校正内容中的文字的数量相等时,输出的文字组集合中只有一条文字组。
可选地,在本实施例中,若搜索结果中的文字的数量大于待校正内容中的文字的数量,则对于搜索结果集合中的任一搜索结果进行文字组划分时,可以通过以下步骤获得对应于该搜索结果的文字组集合:
1)将搜索结果的第一个文字确定为目标文字。
2)顺序选取搜索结果中以目标文字为首的连续的比对数量个文字,形成文字组,将文字组存入文字组集合。确定所选取的连续的比对数量个文字中的最后一个文字是否对应搜索结果的最后一个文字。响应于所选取的连续的比对数量个文字中的最后一个文字不对应搜索结果的最后一个文字,将搜索结果中紧邻当前目标文字的下一个文字确定为目标文字。
3)响应于所选取的连续的比对数量个文字中的最后一个文字对应搜索结果的最后一个文字,输出文字组集合。
举例来说,若执行主体获取到的待校正内容为:“窗前明月光疑是地上霜”,搜索服务器基于待校正内容反馈回的搜索结果集合中的一个搜索结果A为:“床前明月光疑是地上霜这句是李白著名的诗句妇孺皆知你能说出它表达的是什么意思吗”,则此时,执行主体可以通过以下步骤获得对应于该搜索结果的文字组集合:
1)将搜索结果A的第一个文字“床”确定为目标文字。
2)顺序选取搜索结果A中以“床”字为首的连续的10个文字,形成文字组①“床前明月光疑是地上霜”。将文字组①存入文字组集合;确定所选取的连续的10个文字中的最后一个文字是否对应搜索结果A的最后一个文字“吗”。响应于所选取的连续的10个文字中的最后一个文字不对应搜索结果的最后一个文字“吗”,将标识符移至搜索结果A中当前目标文字“床”的下一个文字“前”确定为目标文字,以选取以“前”字为首的连续的10个文字,形成文字组②“前明月光疑是地上霜这”,将文字组②存入文字组集合。以此类推。
3)响应于所选取的连续的10个文字中的最后一个文字“吗”对应搜索结果A的最后一个文字“吗”,输出文字组集合。
这里,对于上述举例,由于待校正内容中的文字数量为10,搜索结果A中的文字数量为38,因此,所输出的文字组集合中可以具有29条文字组。此外,搜索结果对应的文字组集合中的文字组的数量Q=M-N+1,其中,M为搜索结果中的文字的数量,N为待校正内容中的文字的数量。
第三步,对于文字组集合中的文字组,计算文字组与待校正内容的编辑距离。在本实施例中,上述执行主体在获得搜索结果的文字组集合后,对文字组集合中的每条文字组,计算该文字组与待校正内容的编辑距离。这样,上述执行主体可以获得对应于搜索结果的至少一个编辑距离。
第四步,将计算获得的编辑距离中的最小者,确定为搜索结果与待校正内容间的内容关联度。在本实施例中,由于编辑距离越小,则搜索结果与待校正内容间的相似程度越高,因此,执行主体可以从所获得的至少一个编辑距离中选取最小的编辑距离作为搜索结果与待校正内容的内容关联度。需要指出的是,内容关联度对应的文字组为搜索结果中与待校正内容最相似的部分,分析内容关联度对应的文字组,有助于更准确地判断待校正内容中是否存在错别字。
步骤204,根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。
在本实施例中,上述执行主体可以在搜索结果集合和所确定的内容关联度集合的基础上,采用多种方式来确定待校正内容中是否存在错别字。
在本实施例的一些可选的实现方式中,执行主体还可以通过如下步骤确定待校正内容中是否存在错别字:第一步,确定搜索结果集合中对应内容关联度为第一设定值的搜索结果的数量,得到第一数量。第二步,确定搜索结果集合中对应内容关联度属于第一设定值和设定筛选值形成的数据区间的搜索结果的数量,得到第二数量。第三步,响应于第一数量与第二数量的比值小于设定下限阈值,确定待校正内容中存在错别字。
可选地,在上述执行主体通过计算搜索结果中的至少一个文字组与待校正内容的编辑距离来获得上述内容关联度时,可通过如下步骤确定待校正内容中是否存在错别字:
第一步,确定搜索结果集合中对应内容关联度为零的搜索结果的数量,得到第一数量。第二步,确定搜索结果集合中对应内容关联度小于设定筛选值的搜索结果的数量,得到第二数量。第三步,响应于第一数量与第二数量的比值小于设定下限阈值,确定待校正内容中存在错别字。这里,由于内容关联度越小,则搜索结果与待校正内容间的相似度越大,因此,内容关联度为零则表明对应的搜索结果与待校正内容间的相似度为100%,即二者相同。而内容关联度为非零,则表明对应的搜索结果与待校正内容间存在差别。此外,当搜索结果与待校正内容间的差别足够大,即二者间的内容关联度大于设定筛选值,则认为该搜索结果与待校正内容无关,不将其用作对待校正内容中是否存在错别字进行判断的判断依据。举例来说,若待校正内容X对应的搜索结果集合U中包含五个搜索结果,分别为A、B、C、D、E,这五个搜索结果分别对应的内容关联度为0、1、1、8、2,若设定筛选值为6,则认为内容关联度为8的搜索结果D为无关搜索结果。此外,在上述举例中,第一数量为1,第二数量为4,第一数量与第二数量的比值为0.25,需要指出的是,第一数量与第二数量的比值可以用于表征待校正内容中不存在错别字的概率。因此,对于上述举例,待校正内容中不存在错别的概率为25%,即,存在错别字的概率为75%。
在本实施例中,在第一数量与第二数量的比值小于设定下限阈值时,则确定上述待校正内容中存在错别字。其中,上述下限阈值可以为0.3,也可以是其他小于1的数值。在本实施例中,执行主体在排除掉无关搜索结果后,通过计算第一数量与第二数量的比值,来确定待校正内容中的表述方式在与待校正内容相近或相同的搜索结果的各表述方式中所占的比例,实现确定待校正内容中是否存在错别字。
需要指出的是,上述第二数量也可以是搜索结果集合中对应内容关联度大于零且小于设定筛选值的搜索结果的数量。
在本实施例的一些可选的实现方式中,根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字,还包括:
响应于第一数量与第二数量的比值大于设定上限阈值,确定待校正内容中不存在错别字。
在本实施例中,第一数量与第二数量的比值大于设定上限阈值,则表明待校正内容中不存在错别的概率足够大。其中,上述设定上限阈值可以为0.6,也可以是其他小于1的数值。
需要指出的是,在第一数量与第二数量的比值大于设定下限阈值且小于设定上限阈值时,则认为待校正内容中可能存在错别字也可能不存在错别字,此时,执行主体可以将该待校正内容提交至工作人员进行人工标注,以使得工作人员可以对待校正内容进行适应性处理。如,工作人员可以人工选取搜索结果中的正确表述方式以替换待校正内容中的表述方式。
需要指出的是,在待校正内容中存在错别字时,执行主体可以通过发送提醒信息的方式提醒工作人员对存在错别字的待校正内容进行人工错别字校正。执行主体还可以自动对存在错别字的待校正内容进行错别字校正。
继续参见图3,图3是根据本实施例的用于校正错别字的方法的应用场景的一个示意图。在图3的应用场景中,用户向终端设备302输入了一段内容“窗前明月光疑是地上霜”,作为待校正内容。终端设备302首先获取用户301输入的待校正内容“窗前明月光疑是地上霜”。然后将待校正内容“窗前明月光疑是地上霜”发送至搜索引擎服务器303,以及接收搜索引擎服务器303基于待校正内容“窗前明月光疑是地上霜”发送的包含搜索结果“床前明月光疑是地上霜这句是李白著名的诗句妇孺皆知你能说出它表达的是什么意思吗”在内的搜索结果集合。然后对于搜索结果集合中的搜索结果,如“床前明月光疑是地上霜这句是李白著名的诗句妇孺皆知你能说出它表达的是什么意思吗”,确定该搜索结果与待校正内容“窗前明月光疑是地上霜”间的内容关联度。其中,可以采用如下步骤确定搜索结果与待校正内容间的内容关联度:
第一步,获得对应于搜索结果的文字组集合:1)将搜索结果的第一个文字“床”确定为目标文字。2)顺序选取搜索结果中以“床”字为首的连续的10个文字,形成文字组①“床前明月光疑是地上霜”。将文字组①存入文字组集合;确定所选取的连续的10个文字中的最后一个文字是否对应搜索结果的最后一个文字“吗”。响应于所选取的连续的10个文字中的最后一个文字不对应搜索结果的最后一个文字“吗”,将标识符移至搜索结果中当前目标文字“床”的下一个文字“前”确定为目标文字,以选取以“前”字为首的连续的10个文字,形成文字组②“前明月光疑是地上霜这”,将文字组②存入文字组集合。以此类推。3)响应于所选取的连续的10个文字中的最后一个文字“吗”对应搜索结果的最后一个文字“吗”,输出文字组集合。这里,文字组集合中具有29条文字组。
第二步,计算文字组集合中的每条文字组与待校正内容“窗前明月光疑是地上霜”的编辑距离。这里,可以得到29个编辑距离的值。
第三步,将计算获得的29个编辑距离中的值最小的一个,确定为搜索结果“床前明月光疑是地上霜这句是李白著名的诗句妇孺皆知你能说出它表达的是什么意思吗”与待校正内容“窗前明月光疑是地上霜”间的内容关联度,这时,内容关联度为1。
最后,根据搜索结果集合和所确定的内容关联度集合,确定待校正内容“窗前明月光疑是地上霜”中是否存在错别字。
本申请的上述实施例提供的用于校正错别字的方法,可以获取待校正内容。而后,将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合。之后,对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度。最后,根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。本实施例的方法,不需要人工判断待校正内容中是否存在错别字,提高了对待校正内容进行错别字判断的灵活性,有助于在确定待校正内容存在错别字时,准确、及时地对错别字进行校正。
进一步参考图4,其示出了用于校正错别字的方法的又一个实施例的流程400。该用于校正错别字的方法的流程400,包括以下步骤:
步骤401,获取待校正内容。
步骤402,将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合。
步骤403,对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度。
步骤404,根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。
步骤405,响应于确定待校正内容中存在错别字,从内容关联度集合中选取出现次数最多的内容关联度,获取所选取的内容关联度对应的至少一个搜索结果;从至少一个搜索结果中选取一个搜索结果,将所选取的搜索结果中的对应于所选取的内容关联度的文字组替换待校正内容。
在本实施例中,搜索结果集合中存在至少一个搜索结果,每个搜索结果对应一个内容关联度。确定待校正内容中存在错别字时,执行主体可以从内容关联度集合中选取出现次数最多的内容关联度,从而获取对应于该内容关联度的至少一个搜索结果,继而从上述至少一个搜索结果中选取一个搜索结果,将所选取的搜索结果中的对应于内容关联度的文字组替换上述待校正内容。
需要指出的是,上述至少一个搜索结果为两个或两个以上搜索结果时,执行主体可以从多个搜索结果中任意选取一个搜索结果,将所选取的搜索结果中的对应于内容关联度的文字组替换上述待校正内容。此外,执行主体还可以依据搜索服务器对搜索结果的排序,选取排序靠前的搜索结果,然后,将所选取的搜索结果中的对应于内容关联度的文字组替换上述待校正内容。
需要指出的是,在存在两个或两个以上出现次数最多的内容关联度时,即,多个内容关联度的出现次数并列最多,此时,执行主体可以将当前结果数据提交至工作人员进行人工标注。具体地,执行主体可以将待校正内容、出现次数并列最多的各内容关联度对应的搜索结果、各搜索结果中对应于内容关联度的文字组,一起提交至工作人员进行标注,以使得工作人员可以比较轻松地从提交的当前结果数据中选取正确表述方式以替换待校正内容中的表述方式。此外,执行主体还可以将待校正内容发送至搜索服务器,从而对待校正内容进行二次错别字判断。此外,执行主体在进行二次错别字判断时,若依旧存在两个或两个以上出现次数最多的内容关联度,则执行主体可以将当前结果数据提交至工作人员进行人工标注。
在本实施例中,步骤401-404的具体操作与图2所示的实施例中步骤201-204的操作基本相同,在此不再赘述。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于校正错别字的方法的流程400突出了在确定待校正内容中存在错别字后的错别字自动校正步骤。由此,本实施例描述的方案可以自动对待校正内容中的错别字进行校正,可以提高对错别字进行校正的准确性,同时,进一步提高了对待校正内容进行错别字判断的灵活性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于校正错别字的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于校正错别字的装置500包括:第一接收单元501,被配置成获取待校正内容;第二接收单元502,被配置成将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合;第一确定单元503,被配置成对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度;第二确定单元504,被配置成根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。
在本实施例的一些可选的实现方式中,上述第二确定单元504可以包括第一统计模块、第二统计模块和判断模块(图中未示出)。其中,上述第一统计模块可以被配置成确定搜索结果集合中对应内容关联度为零的搜索结果的数量,得到第一数量。上述第二统计模块可以被配置成确定搜索结果集合中对应内容关联度小于设定筛选值的搜索结果的数量,得到第二数量。上述判断模块可以被配置成响应于第一数量与第二数量的比值小于设定下限阈值,确定待校正内容中存在错别字。
在本实施例的一些可选的实现方式中,上述判断模块还可以进一步被配置成响应于第一数量与第二数量的比值大于设定上限阈值,确定待校正内容中不存在错别字。
在本实施例的一些可选的实现方式中,该装置还包括结果选取单元和内容替换单元(图中未示出)。其中,上述结果选取单元可以被配置成响应于确定待校正内容中存在错别字,从内容关联度集合中选取出现次数最多的内容关联度,获取所选取的内容关联度对应的至少一个搜索结果。上述内容替换单元可以被配置成从至少一个搜索结果中选取搜索结果,将所选取的搜索结果中的对应于所选取的内容关联度的文字组替换待校正内容。
在本实施例的一些可选的实现方式中,确定该搜索结果与待校正内容间的内容关联度,包括:删除该搜索结果中的标点符号以及删除待校正内容中的标点符号;确定删除处理后的搜索结果与待校正内容之间的内容关联度。
本申请的上述实施例提供的装置,第一接收单元501获取待校正内容。而后,第二接收单元502将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合。之后,第一确定单元503对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度。最后,第二确定单元504根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。本实施例的装置,不需要人工判断待校正内容中是否存在错别字,提高了对待校正内容进行错别字判断的灵活性,有助于在确定待校正内容存在错别字时,准确、及时地对错别字进行校正。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一接收单元、第二接收单元、第一确定单元和第二确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待校正内容的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取待校正内容;将待校正内容发送至搜索服务器,以及接收搜索服务器基于待校正内容发送的搜索结果集合;对于搜索结果集合中的搜索结果,确定该搜索结果与待校正内容间的内容关联度;根据搜索结果集合和所确定的内容关联度集合,确定待校正内容中是否存在错别字。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种用于校正错别字的方法,包括:
获取待校正内容;
将所述待校正内容发送至搜索服务器,以及接收所述搜索服务器基于所述待校正内容发送的搜索结果集合;
对于所述搜索结果集合中的搜索结果,确定该搜索结果与所述待校正内容间的内容关联度;
根据搜索结果集合和所确定的内容关联度集合,确定所述待校正内容中是否存在错别字。
2.根据权利要求1所述的方法,其中,所述根据搜索结果集合和所确定的内容关联度集合,确定所述待校正内容中是否存在错别字,包括:
确定所述搜索结果集合中对应内容关联度为零的搜索结果的数量,得到第一数量;
确定所述搜索结果集合中对应内容关联度小于设定筛选值的搜索结果的数量,得到第二数量;
响应于所述第一数量与所述第二数量的比值小于设定下限阈值,确定所述待校正内容中存在错别字。
3.根据权利要求2所述的方法,其中,所述根据搜索结果集合和所确定的内容关联度集合,确定所述待校正内容中是否存在错别字,还包括:
响应于所述第一数量与所述第二数量的比值大于设定上限阈值,确定所述待校正内容中不存在错别字。
4.根据权利要求1所述的方法,其中,所述搜索结果中包含至少一个文字组;以及
所述方法还包括:
响应于确定所述待校正内容中存在错别字,从所述内容关联度集合中选取出现次数最多的内容关联度,获取所选取的内容关联度对应的至少一个搜索结果;
从所述至少一个搜索结果中选取搜索结果,将所选取的搜索结果中的对应于所选取的内容关联度的文字组替换所述待校正内容。
5.根据权利要求1-4之一所述的方法,其中,所述确定该搜索结果与所述待校正内容间的内容关联度,包括:
删除该搜索结果中的标点符号以及删除所述待校正内容中的标点符号;
确定删除处理后的搜索结果与待校正内容之间的内容关联度。
6.一种用于校正错别字的装置,包括:
第一接收单元,被配置成获取待校正内容;
第二接收单元,被配置成将所述待校正内容发送至搜索服务器,以及接收所述搜索服务器基于所述待校正内容发送的搜索结果集合;
第一确定单元,被配置成对于所述搜索结果集合中的搜索结果,确定该搜索结果与所述待校正内容间的内容关联度;
第二确定单元,被配置成根据搜索结果集合和所确定的内容关联度集合,确定所述待校正内容中是否存在错别字。
7.根据权利要求6所述的装置,其中,所述第二确定单元,包括:
第一统计模块,被配置成确定所述搜索结果集合中对应内容关联度为零的搜索结果的数量,得到第一数量;
第二统计模块,被配置成确定所述搜索结果集合中对应内容关联度小于设定筛选值的搜索结果的数量,得到第二数量;
判断模块,被配置成响应于所述第一数量与所述第二数量的比值小于设定下限阈值,确定所述待校正内容中存在错别字。
8.根据权利要求7所述的装置,其中,所述判断模块,进一步被配置成响应于所述第一数量与所述第二数量的比值大于设定上限阈值,确定所述待校正内容中不存在错别字。
9.根据权利要求6所述的装置,其中,所述装置还包括:
结果选取单元,被配置成响应于确定所述待校正内容中存在错别字,从所述内容关联度集合中选取出现次数最多的内容关联度,获取所选取的内容关联度对应的至少一个搜索结果;
内容替换单元,被配置成从所述至少一个搜索结果中选取搜索结果,将所选取的搜索结果中的对应于所选取的内容关联度的文字组替换所述待校正内容。
10.根据权利要求6-9之一所述的装置,其中,所述确定该搜索结果与所述待校正内容间的内容关联度,包括:
删除该搜索结果中的标点符号以及删除所述待校正内容中的标点符号;
确定删除处理后的搜索结果与待校正内容之间的内容关联度。
11.一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201810958900.5A 2018-08-22 2018-08-22 用于校正错别字的方法和装置 Active CN109062903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810958900.5A CN109062903B (zh) 2018-08-22 2018-08-22 用于校正错别字的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810958900.5A CN109062903B (zh) 2018-08-22 2018-08-22 用于校正错别字的方法和装置

Publications (2)

Publication Number Publication Date
CN109062903A true CN109062903A (zh) 2018-12-21
CN109062903B CN109062903B (zh) 2019-12-10

Family

ID=64687960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810958900.5A Active CN109062903B (zh) 2018-08-22 2018-08-22 用于校正错别字的方法和装置

Country Status (1)

Country Link
CN (1) CN109062903B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130996A1 (en) * 2001-12-21 2003-07-10 International Business Machines Corporation Interactive mining of time series data
CN101661463A (zh) * 2009-09-18 2010-03-03 杨盛 文字输入过程中的自动校对方法
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN104156454A (zh) * 2014-08-18 2014-11-19 腾讯科技(深圳)有限公司 搜索词的纠错方法和装置
CN105404903A (zh) * 2014-09-15 2016-03-16 联想(北京)有限公司 信息处理方法、装置及电子设备
CN107958039A (zh) * 2017-11-21 2018-04-24 北京百度网讯科技有限公司 一种检索词纠错方法、装置及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130996A1 (en) * 2001-12-21 2003-07-10 International Business Machines Corporation Interactive mining of time series data
CN101661463A (zh) * 2009-09-18 2010-03-03 杨盛 文字输入过程中的自动校对方法
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN104156454A (zh) * 2014-08-18 2014-11-19 腾讯科技(深圳)有限公司 搜索词的纠错方法和装置
CN105404903A (zh) * 2014-09-15 2016-03-16 联想(北京)有限公司 信息处理方法、装置及电子设备
CN107958039A (zh) * 2017-11-21 2018-04-24 北京百度网讯科技有限公司 一种检索词纠错方法、装置及服务器

Also Published As

Publication number Publication date
CN109062903B (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN107506495B (zh) 信息推送方法和装置
CN108628830B (zh) 一种语义识别的方法和装置
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
CN111104482A (zh) 数据处理方法和装置
CN108768840A (zh) 一种账号管理的方法和装置
CN109871311B (zh) 一种推荐测试用例的方法和装置
CN112749081B (zh) 用户界面测试方法及相关装置
CN108287927B (zh) 用于获取信息的方法及装置
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
CN108830329A (zh) 图片处理方法和装置
CN108256070A (zh) 用于生成信息的方法和装置
CN111104479A (zh) 一种数据标注的方法及装置
CN109495552A (zh) 用于更新点击率预测模型的方法和装置
CN109271556A (zh) 用于输出信息的方法和装置
CN110119445A (zh) 生成特征向量和基于特征向量进行文本分类的方法和装置
CN109214501A (zh) 用于识别信息的方法和装置
CN111859872A (zh) 一种文本标注方法和装置
CN110084658A (zh) 物品匹配的方法和装置
CN108829651A (zh) 一种公文处理的方法、装置、终端设备及存储介质
CN109508361A (zh) 用于输出信息的方法和装置
CN109684624A (zh) 一种自动识别订单地址路区的方法和装置
CN109284367A (zh) 用于处理文本的方法和装置
CN115964639A (zh) 一种数据识别方法、模型适配新数据的方法、装置和设备
CN109190123A (zh) 用于输出信息的方法和装置
CN109614549B (zh) 用于推送信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant