CN110795617A

CN110795617A - 一种搜索词的纠错方法及相关装置

Info

Publication number: CN110795617A
Application number: CN201910748482.1A
Authority: CN
Inventors: 李虎; 欧贫扶
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2020-02-14

Abstract

本发明实施例公开了一种搜索词的纠错方法及相关装置，该方法包括：采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集，其中，所述搜索词的纠错候选集中包含所述搜索词的纠错候选词；若所述搜索词的纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词，则将所述第一纠错候选词作为所述搜索词的纠错结果；若所述搜索词的纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词，则采用预设分词算法对所述搜索词进行分词以得到多个词语；根据所述多个分词和所述预设算法确定所述搜索词的纠错结果。采用本发明实施例，能够降低纠错时的计算开销。

Description

一种搜索词的纠错方法及相关装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种搜索词的纠错方法及相关装置。

背景技术

在中文垂直搜索领域，比如搜索药品，疾病时，用户输入的搜索词很大一部分是专业词语，比如硝苯地平，芬必得，散列通等药品名，这些词语很多都是翻译词或者专有名词，完整确切的记住每个字比较困难，用户在电脑或手机输入搜索词时，还会由于拼音或笔画错误而输入错别字，造成这一类搜索词错误率较高，无法返回正确的搜索结果。因此很多搜索场景需要对搜索词纠错，目前常见的获取纠错结果的算法包括如下两种：

第一种，诺维格算法(Norvig)算法：Norvig算法通过删除+替换+插入+交换操作生成所有满足最小编辑距离的纠错候选词，对一个长度为n的搜索词，设字典大小为a，最小编辑距离为1，则需要n次删除，n-1次交换，a*n次替换和a*(n+1)次插入，共2n+2an+a-1次操作。英文字母加常用符号a＝36，查询一个长度为n＝4的词，需要331次操作，而汉语有70000个左右汉字，采用常用的一二级汉字6763个，则需要60874次操作，当扩展到两个编辑距离，则需要60874的平方次操作，计算开销非常大且计算效率非常低。

第二种，伯克哈特-凯勒树(Burkhard-Keller Tree，BK-Tree)算法：BK-Tree算法先根据字典构造BK树，再利用Levenshtein距离的三角不等式性质在树中满足不等式条件的子树进行搜索，过滤了大量无效的操作，搜索效率相比Norvig算法已大幅提升，可以达到O(log(a))。但可以看到其计算复杂度仍然跟纠错词典长度正相关，对应汉语这种纠错字典较大的场景，计算的开销仍然会很大。

在获取搜索词的纠错结果的过程中，如何降低计算开销是本领域的技术人员正在研究的技术问题。

发明内容

本发明实施例公开一种搜索词的纠错方法及相关装置，能够提高纠错效率。

第一方面，本申请实施例提供一种搜索词的纠错方法，该方法包括：

采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集，其中，所述搜索词的纠错候选集中包含所述搜索词的纠错候选词；

若所述搜索词的纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词，则将所述第一纠错候选词作为所述搜索词的纠错结果；

若所述搜索词的纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词，则采用预设分词算法对所述搜索词进行分词以得到多个词语；

根据所述多个分词和所述预设算法确定所述搜索词的纠错结果。

在一种可选的方案中，所述根据所述多个分词和所述预设算法确定所述搜索词的纠错结果，包括：

采用所述预设算法对所述多个词语中每个未出现在纠错词典中的词语进行编辑，以得到所述每个未出现在所述纠错词典中的词语的纠错候选集；

若所述每个未出现在所述纠错词典中的词语的纠错候选集中，存在与所述每个词语之间满足所述预设关系的第二纠错候选词，则对所述多个词语中每个未出现在所述纠错词典中的词语对应的第二纠错候选词，和所述多个词语中出现在所述纠错词典中的词语进行拼接，以得到所述搜索词的纠错结果。

在一种可选的方案中，若所述搜索词的纠错候选集中存在与所述搜索词互为同类词的第一纠错候选词，则所述搜索词的纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词；否则，所述搜索词的纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词，其中，所述同类词为同音词，或者同形词，或者前后鼻音的词。

在一种可选的方案中，若所述搜索词的纠错候选集中存在与所述搜索词互为同类词的第一纠错候选词，或者所述搜索词的纠错候选集中不存在与所述搜索词互为同类词的第一纠错候选词但存在与所述搜索词具有包含关系的第一纠错候选词，则所述搜索词的纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词；否则，所述搜索词的纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词，其中，所述同类词为同音词，或者同形词，或者前后鼻音的词。

在一种可选的方案中，所述采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集之前，还包括：

判断所述搜索词是否为所述纠错词典中的词语，若否，则执行所述采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集的步骤。

在一种可选的方案中，所述搜索词为汉语词、或者日语词，或者韩语词。

在一种可选的方案中，所述预设算法为对称删除算法。

第二方面，本申请实施例提供一种搜索词的纠错装置，该装置包括：处理器和存储器，所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如下操作：

在一种可选的方案中，所述根据所述多个分词和所述预设算法确定所述搜索词的纠错结果，具体为：

在一种可选的方案中，所述预设算法为对称删除算法。

第三方面，本申请实施例提供一种搜索词的纠错装置，该装置包括：

编辑模块，用于采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集，其中，所述搜索词的纠错候选集中包含所述搜索词的纠错候选词；

第一执行模块，用于在所述搜索词的纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词的情况下，将所述第一纠错候选词作为所述搜索词的纠错结果；

分词模块，用于在所述搜索词的纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词的情况下，采用预设分词算法对所述搜索词进行分词以得到多个词语；

第二执行模块，用于根据所述多个分词和所述预设算法确定所述搜索词的纠错结果。

在一种可选的方案中，所述第二执行模块，包括：

编辑单元，用于采用所述预设算法对所述多个词语中每个未出现在纠错词典中的词语进行编辑，以得到所述每个未出现在所述纠错词典中的词语的纠错候选集；

执行单元，用于在所述每个未出现在所述纠错词典中的词语的纠错候选集中，存在与所述每个词语之间满足所述预设关系的第二纠错候选词的情况下，对所述多个词语中每个未出现在所述纠错词典中的词语对应的第二纠错候选词，和所述多个词语中出现在所述纠错词典中的词语进行拼接，以得到所述搜索词的纠错结果。

在一种可选的方案中，所述装置还包括判断模块，用于在所述编辑模块采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集之前，判断所述搜索词是否为所述纠错词典中的词语，若否，则触发所述编辑模块执行所述采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集的操作。

在一种可选的方案中，所述预设算法为对称删除算法。

第四方面，本申请实施例供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行本申请实施例第一方面所描述的方法。

第五方面，本申请实施例提供一种计算机设备，包括输入设备(如键盘)和输出设备(如显示屏)，其特征在于，还包括：处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行本申请实施例第一方面所描述的方法。

通过实施本发明实施例，采用预设算法来确定搜索词的纠错结果，显著降低了计算搜索词的纠错结果的计算开销，提高了纠错效率。另外，在基于预设算法确定纠错结果的过程中，先尝试不分词来确定搜索词的纠错结果，如果行不通再尝试通过分词的方式获得搜索词的纠错结果。这样能够尽量避免因分词而导致无法达到纠错目的情况，提高了纠错性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图作简单地介绍。

图1A是本发明实施例提供的一种查询词的纠错方法的应用场景示意图；

图1B是本发明实施例提供的又一种查询词的纠错方法的应用场景示意图；

图1C是本发明实施例提供的一种查询词的纠错方法的流程示意图；

图2A是本发明实施例提供的一种纠错词典的生成示意图；

图2B是本发明实施例提供的一种对称删除算法的原理示意图；

图3是本发明实施例提供的又一种查询词的纠错方法的流程示意图；

图4是本发明实施例提供的查询词的纠错方法的效果示意图；

图5是本发明实施例提供的一种搜索词的查询装置的结构示意图；

图6是本发明实施例提供的又一种搜索词的查询装置的结构示意图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行描述。

执行本申请实施例中的搜索词的纠错方法的可以为具有计算能力的计算机设备，例如，可以是服务器、或者由多个服务器组成的服务器集群、或者手持设备(例如，手机、平板电脑、掌上电脑等)、或者车载设备(例如，汽车、自行车、电动车、飞机、船舶等)、或者可穿戴设备(例如智能手表(如iWatch等)、智能手环、计步器等)、或者智能家居设备(例如，冰箱、电视、空调、电表等)、或者智能机器人、或者车间设备，等等。当然，本申请实施例中的搜索词的纠错方法也可以由多个具有计算能力的计算机设备或器件协作完成，例如，不同的计算机设备或器件各自完成该搜索词的纠错方法的一部分步骤。

本申请实施例中的搜索词的纠错方法及相关装置可以应用于很多需要对词语进行纠错的场景，下面例举部分应用场景。

例如，在搜索引擎中基于搜索词检索相关内容时，可以基于本申请实施例中所述的搜索词的纠错方法来对用户输入到搜索框中的搜索词进行纠错，如果判断出用户输入的搜索词确实错误，则输出纠错结果(即纠错后的词语)供用户确认，如果用户确认纠错结果正确，则搜索引擎进一步基于纠错结果检索相关内容，并呈现给用户。或者用户在判断出用户输入的搜索词确实错误时，直接基于纠错结果来检索相关内容，并呈现给用户；同时向用户呈现出用户原来输入的搜索词，以便用户确认是否还需要基于原来输入的搜索词再次执行检索。如图1A所示，用户向搜索框中输入的是搜索词101为“风油巾”，采用本申请实施例得到的纠错结果102为“风油精”，因此在搜索结果列表中展示“风油精”的搜索结果，并在呈现给用户的界面中将搜索词“风油巾”和纠错结果“风油精”都呈现出来供用户确认。

再如，在用户基于输入法进行输入操作的时候，可以实时判断用户输入到文本框中的词语是否出错，如果出错则在输入法的相关显示界面进行提示，并将基于本申请实施例中的纠错方法得到的纠错结果展示在输入法界面，以便用户选择是否将纠错结果替换输入到文本框中的出错词语，如图1B所示。

再如，基于本申请实施例中的搜索词的纠错方法对一个已经存在的文档进行纠错。可以先通过相应算法(如分词算法、词语提取算法等)对该文档中的内容进行拆分，拆分得到的词语可以认为是本申请实施例所说的搜索词，然后采用本申请实施例中的纠错方法得到出错的搜索词的纠错结果，并通过纠错结果替代出错的搜索词，这样就可以完成对整个文档的纠错。

请参见图1C，图1C是本发明实施例提供的一种搜索词的纠错方法的流程示意图，该方法包括但不限于如下步骤。

步骤S101：采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集。

可选的，该预设算法可以为对称删除算法，为了便于理解，本申请实施例以对称删除算法为例来展开说明，这里首先对对称删除算法的原理进行介绍，对称删除算法包括如下步骤：

步骤一，建立纠错词典。具体来说包括生成各个登录词的小于或等于最大编辑距离的子字符串，并将其加入到纠错词典，在纠错词典中记录这些子字符串与原登录词之间的映射关系(或者说链接关系)。以登录词“吗丁啉”为例，如图2A所示，假若允许的最大编辑距离设定为2，经过一次删除操作能够生成“丁啉”，经过一次删除操作也能够生成“吗啉”，经过一次删除操作也能够生成“吗丁”三个子字符串，也即是说，“丁啉”、“吗啉”、“吗丁”与登录词“吗丁啉”的距离为1；针对“丁啉”、“吗啉”、“吗丁”依次再执行一次删除操作，可以生成“啉”，“吗”和“丁”三个子字符串，也即是说，“啉”，“吗”和“丁”与登录词“吗丁啉”的距离为2；“丁啉”、“吗啉”、“吗丁”、“啉”、“吗”和“丁”这六个子字符串都满足不大于最大编辑距离的条件，因此将这些六个字符串作为六个关键词key存放到纠错词典中，且在纠错词典中这六个关键词key都映射(或链接)到登录词“吗丁啉”。

这里的登录词为不存在错别字的词语，对大量的登录词执行类似登录词“吗丁啉”的以上操作之后，就可以获得一个相对完备的纠错词典。可选的，这里所说的大量的登录词可以包括医疗、医药领域等各个技术领域的专业术语。

步骤二，对搜索词进行搜索。同样采用步骤一中的删除方式对搜索词执行删除操作，生成搜索词的小于或等于最大编辑距离的子字符串，然后将得到的各个子字符串分别作为关键词key到步骤一得到的纠错词典中去搜索。如果其中哪个或哪些关键词key在纠错词典中存在，则将其加入到纠错候选集中。以搜索词“吗叮啉”为例，如图2B所示，经过一次删除操作能够生成“叮啉”，经过一次删除操作也能够生成“吗啉”，经过一次删除操作也能够生成“吗叮”三个子字符串，也即是说，“叮啉”，“吗啉”和“吗叮”与搜索词“吗叮啉”的距离为1，满足不大于最大编辑距离(允许的最大编辑距离为2)的条件，因此以“叮啉”，“吗啉”和“吗叮”分别作为关键词key在纠错词典中进行搜索，首先对“叮啉”进行搜索，由于“叮啉”不在纠错词典中，因此针对“叮啉”再执行一次删除操作，生成“啉”和“叮”，加入到关键词列表的尾部供后续遍历到时进行搜索。同理，对“叮啉”执行上述操作之后，再对“吗啉”进行搜索，由于“吗啉”在纠错词典中，因此将纠错词典中的“吗啉”对应(即映射，或者链接)的登录词“吗丁啉”加入到纠错候选集中，并将当前最优的编辑距离更新为1。再对“吗叮”进行搜索，由于“吗叮”不在纠错词典中，而“啉”和“叮”与搜索词的编辑距离为2，大于当前最优的编辑距离1，在本例子中，已不可能找到更优的候选词，所以搜索结束；可以看出，通过这种方式得到的针对搜索词“吗叮啉”的纠错候选集包含的纠错词为“吗丁啉”。

在本申请实施例中，通过以上流程得到的所述搜索词的纠错候选集包含的纠错词的数量可能为一个，也可能为多个。

可选的，所述采用对称删除算法对搜索词进行编辑以得到所述搜索词的纠错候选集之前，还包括：判断所述搜索词是否为所述纠错词典中的词语，若否，则采用对称删除算法对搜索词进行编辑以得到所述搜索词的纠错候选集。

步骤S102：若所述搜索词的纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词，则将第一纠错候选词作为所述搜索词的纠错结果。

可选的，所述预设关系具体为：互为同类词，或者不互为同类词但存在包含关系。其中，所述同类词为同音词，或者同形词，或者前后鼻音的词。关于预设关系的判断，下面提供几种可选的方案：

方案一，判断搜索词的纠错候选集中存在与搜索词互为同类词的第一纠错候选词；若存在，则表明该纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词，若不存在，则表明该纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词。本申请实施例中，所述同类词为可以为同音词，或者同形词，或者前后鼻音的词，或者具有其他共性的词语。

举例来说，假若查询词为“保胎药”，对应的纠错候选集中存在纠错候选词“保健药”、“保胎”，上述预设关系预先定义为同音词，那么可以看出“保健药”、“保胎”均与“保胎药”不是同音词，因此该纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词。

方案二，判断搜索词的纠错候选集中存在与搜索词互为同类词的第一纠错候选词；若存在，则表明该纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词，若不存在，则进一步判断搜索词的纠错候选集中存在与搜索词具有包含关系(即互为子字符串)的第一纠错候选词，若存在具有包含关系的第一纠错候选词，则表明该纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词，若不存在具有包含关系的第一纠错候选词，则表明该纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词。

举例来说，假若查询词为“保胎药”，对应的纠错候选集中存在纠错候选词“保健药”、“保胎”，上述预设关系预先定义为同音词，那么可以看出“保健药”、“保胎”均与“保胎药”不是同音词，因此进一步判断是否存在包含关系，可以看出，纠错候选集中的纠错候选词“保胎”包含于搜索词“保胎药”，因此，该纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词。

再举一例，假若查询词为“保胎药”，对应的纠错候选集中存在纠错候选词“保健药”、“保胎丸”，上述预设关系预先定义为同音词，那么可以看出“保健药”、“保胎丸”均与“保胎药”不是同音词，因此进一步判断是否存在包含关系，可以看出，“保健药”、“保胎丸”均与“保胎药”不存在包含关系，因此，该纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词。

在本申请实施例中，所述第一纠错候选词为所述搜索词的纠错候选集中编辑距离最小的纠错候选词(也可能在生成最优候选集的时候就已经刷选了一次，使得最优候选集中都是最优编辑距离的纠错候选词)。也即是说，在判断是否满足预设关系之前，先要挑选出纠错候选集中编辑距离最小的纠错候选词，然后判断其是否满足预设关系。

有益效果分析：由于有些语言中的字和词没有严格区分(例如，中文字和词)，几个字或词组合后可以构成新的词，所以纠错词典中不可能登录所有用户可能输入的查询词。比如“保胎”和“药”，组合后构成“保胎药”，当词表中没有登录“保胎药”，但登录了“保健药”、“保胎”和“药”时，如果用户输入查询词“保胎药”，采用上述方案一，或者方案二就不会出现错误地将“保胎药”纠正为“保健药”的情况。

步骤S103：若搜索词的纠错候选集中不存在与搜索词之间满足预设关系的第一纠错候选词，则采用预设分词算法对搜索词进行分词以得到多个词语。

分词算法有很多，例如，基于隐马尔可夫模型(Hidden Markov Model，简称HMM)的分词算法、基于条件随机场(Conditional Random Field，简称CRF)的分词算法，等等。具体使用哪种分词算法可以根据需要来预先设定好。

例如，对查询词“保胎药”进行分词可以得到“保胎”、“药”这两个分词。

步骤S104：根据所述多个分词和预设算法确定搜索词的纠错结果。

也即是说，要采用预设算法对该多个分词中的全部或者部分词语进行编辑，并基于编辑结果得到该搜索词的纠错结果。可以理解的是，采用预设算法对所述多个词语中的词语进行编辑的原理，与前面讲到的采用预设算法对搜索词进行编辑的原理相同，相当于将前面步骤中的搜索词替换为这里所说的词语。为了便于理解，下面同样以预设算法为对称删除算法为例来展开说明。

可选的，所述根据所述多个分词和所述对称删除算法确定所述搜索词的纠错结果，包括：

首先，采用对称删除算法对所述多个词语中每个未出现在纠错词典中的词语进行编辑，以得到所述每个未出现在所述纠错词典中的词语的纠错候选集。

举例来说，假若这多个词语为对搜索词“乌拉归看足求赛的时间”进行分词得到的“乌拉归”、“看”、“足求赛”、“的”、“时间”这几个词，其中，“看”、“的”和“时间”这几个词都在纠错词典中，而“乌拉归”和“足求赛”这两个词不在纠错词典中，因此，需要采用所述对称删除算法对词语“乌拉归”进行编辑，得到词语“乌拉归”的纠错候选集，以及采用所述对称删除算法对词语“足求赛”进行编辑，得到词语“足求赛”的纠错候选集。其中，得到“乌拉归”、“足求赛”的纠错候选集的原理，与前面得到查询词“吗叮啉”的原理相同，此处不再赘述。

然后，若所述每个未出现在所述纠错词典中的词语的纠错候选集中，存在与所述每个词语之间满足所述预设关系的第二纠错候选词，则对所述多个词语中每个未出现在所述纠错词典中的词语对应的第二纠错候选词，和所述多个词语中出现在所述纠错词典中的词语进行拼接，以得到所述搜索词的纠错结果。

举例来说，假若得到了“乌拉归”的纠错候选集和“足求赛”的纠错候选集，那么若“乌拉归”的纠错候选集中，存在与“乌拉归”之间满足所述预设关系的第二纠错候选词，例如“乌拉圭”；并且“足求赛”的纠错候选集中，存在与“足求赛”之间满足所述预设关系的第二纠错候选词，例如“足球赛”，则对第二纠错候选词“乌拉圭”、“足球赛”，以及已出现在纠错词典中的词语“看”、“的”和“时间”进行拼接，得到所述搜索词“乌拉归看足求赛的时间”的纠错结果，例如，纠错结果为“乌拉圭看足球赛的时间”。

需要说明的是，如果上述多个词语中哪个词语的纠错候选集中不存在与该词语之间满足预设关系的第二纠错候选词，那么就不会执行上述拼接操作，即不需要得到搜索词的纠错结果。也即是说，这种情况下认为搜索词不需要纠错。

本申请实施例中，确定词语的纠错候选集中是否存在与该词语之间满足预设关系的第二纠错候选词的方式，与前面步骤S102中确定搜索词的纠错候选集中是否存在与所述搜索词之间满足预设关系的第一纠错候选词的方式相同，此处不再赘述。

有益效果分析：从整个流程来看，先是尝试不分词来确定搜索词的纠错结果，如果不分词的情况下无法获得理想的纠错结果再尝试通过分词的方式获得搜索词的纠错结果。这样做的原因是，本申请发明人对大量数据进行分析发现，很多搜索词在进行分词之后得到的词语的很容易都出现在纠错词典中，例如，“康太克”(正确的词是“康泰克”)，分词之后得到的是“康”、“太”、“克”，因此分词之后得到的纠错结果依旧是“康太克”，根本无法达到纠错目的。

图3是对上述流程S101-S104更详细的示意，对应于上述“方案二”，首先是通过步骤201输入搜索词，接着执行主体流程202-206；在纠错候选集中不存在纠错候选词与被编辑的词属于同类词，也不存在纠错候选词与被编辑的词存在包含关系的情况下，执行步骤207进行分词以得到多个词语，然后对其中每个词语均执行一次主体流程202-206；需要说明的是，针对分词得到的词语来说，在纠错候选集中不存在纠错候选词与被编辑的词属于同类词，也不存在纠错候选词与被编辑的词存在包含关系的情况下，停止纠错操作，后续也不需要返回搜索词的纠错结果，即这种情况下认为搜索词不需要纠错。

需要说明的是，步骤S202中，如果是判断搜索词是否在纠错词典中，那么当搜索词在纠错词典中时，表明不需要对搜索词纠错，因此后续也无需生成返回纠错结果；如果是判断分词后的词语是否在纠错词典中，那么当分词后的词语在纠错词典中时，仅表明针对该词语不需要纠错；只要存在分词后的词语需要纠错的情况，那就表明需要生成搜索词的纠错结果；生成的方式参照步骤S104，此处不再赘述。

本申请实施例采用对称删除算法大幅提升了纠错效率，通过优先不分词纠错、其次分词纠错的策略，以及通过是否为同类词、是否互为子串这两个条件分层筛选纠错候选集，显著降低了错纠概率。用线上用户输入的查询词，与公开的百度中文纠错接口Baidu_api(即百度API)对比，结果如表1所示(本方案简称Corrector)：

表1

	Corrector纠错	Corrector未纠错
			Baidu_api纠错	829	346
Baidu_api未纠错	1060	28982

共计31217个搜索词，其中本方案Corrector和Baidu_api都进行了纠错的有829个，都未进行纠错的(可以认为是用户输入正确)28982个，baidu_api进行了纠错，本方案Corrector未纠错的有346个，而baidu_api未纠错，本方案Corrector进行了纠错的有1060个，其中的部分示例如图4所示，图4中的数值1表明进行了纠错，数值0表明未进行纠错；从图4可以看出，在本方案Corrector纠错但baidu_api未纠错的搜索词中，绝大部分都是用户输入有误需要纠错的词语，可见本方案Corrector的纠错性能相较于baidu_api纠错性能有明显优势。

在本申请实施例中，所述搜索词为汉语词、或者日语词，或者韩语词等等。在图1C所描述的方法中，采用预设算法来确定搜索词的纠错结果，显著降低了确定搜索词的纠错结果的计算量，提高了纠错效率。另外，在基于预设算法确定纠错结果的过程中，先尝试不分词来确定搜索词的纠错结果，如果行不通再尝试通过分词的方式获得搜索词的纠错结果。这样能够尽量避免因分词而导致无法达到纠错目的情况，提高了纠错性能。

上述详细阐述了本发明实施例的方法，为了便于更好地实施本发明实施例的上述方案，相应地，下面提供了本发明实施例的装置。

请参见图5，图5是本发明实施例提供的一种搜索词的查询装置50的结构示意图，该装置50可以为前文所称的计算机设备，或者计算机设备中的相应器件或者模块。该装置50可以包括编辑模块501、第一执行模块502、分词模块503、第二执行模块504，各个模块的描述如下。

编辑模块501，用于采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集，其中，搜索词的纠错候选集中包含所述搜索词的纠错候选词；

第一执行模块502，用于在所述搜索词的纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词的情况下，将所述第一纠错候选词作为所述搜索词的纠错结果；

分词模块503，用于在所述搜索词的纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词的情况下，采用预设分词算法对所述搜索词进行分词以得到多个词语；

第二执行模块504，用于根据所述多个分词和所述预设算法确定所述搜索词的纠错结果。

在一种可选的方案中，所述第二执行模块504，包括：

编辑单元5041，用于采用所述预设算法对所述多个词语中每个未出现在纠错词典中的词语进行编辑，以得到所述每个未出现在所述纠错词典中的词语的纠错候选集；

执行单元5042，用于在所述每个未出现在所述纠错词典中的词语的纠错候选集中，存在与所述每个词语之间满足所述预设关系的第二纠错候选词的情况下，对所述多个词语中每个未出现在所述纠错词典中的词语对应的第二纠错候选词，和所述多个词语中出现在所述纠错词典中的词语进行拼接，以得到所述搜索词的纠错结果。

在一种可选的方案中，所述装置还包括判断模块505，用于在所述编辑模块501采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集之前，判断所述搜索词是否为所述纠错词典中的词语，若否，则触发所述编辑模块501执行所述采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集的操作。

需要说明的是，在本发明实施例中，各个模块的具体实现还可以对应参照图1C所示的方法实施例的相应描述。

在图5所描述的装置中，采用预设算法来确定搜索词的纠错结果，显著降低了计算搜索词的纠错结果的计算开销，提高了纠错效率。另外，在基于预设算法确定纠错结果的过程中，先尝试不分词来确定搜索词的纠错结果，如果行不通再尝试通过分词的方式获得搜索词的纠错结果。这样能够尽量避免因分词而导致无法达到纠错目的情况，提高了纠错性能。

请参见图6，图6是本发明实施例提供的又一种查询词的纠错装置的结构示意图。如图6所示，该查询词的纠错装置1000可以为前面所称的计算机设备，或者该计算机设备中的相应器件或者模块。该查询词的纠错装置1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述基于电子读物的数据推荐装置1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图6所示的查询词的纠错装置1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现上述图1C所对应实施例中对查询词的纠错方法的描述，这里不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

应当理解，本发明实施例中所描述的查询词的纠错装置1000可执行前文图1C所对应实施例中对查询词的纠错方法的描述，也可执行前文图5所对应实施例中对所述查询词的纠错方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的查询词的纠错装置所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图1C所对应实施例中对所述查询词的纠错方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种搜索词的纠错方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个分词和所述预设算法确定所述搜索词的纠错结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，若所述搜索词的纠错候选集中存在与所述搜索词互为同类词的第一纠错候选词，则所述搜索词的纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词；否则，所述搜索词的纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词，其中，所述同类词为同音词，或者同形词，或者前后鼻音的词。

4.根据权利要求1或2所述的方法，其特征在于，若所述搜索词的纠错候选集中存在与所述搜索词互为同类词的第一纠错候选词，或者所述搜索词的纠错候选集中不存在与所述搜索词互为同类词的第一纠错候选词但存在与所述搜索词具有包含关系的第一纠错候选词，则所述搜索词的纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词；否则，所述搜索词的纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词，其中，所述同类词为同音词，或者同形词，或者前后鼻音的词。

5.根据权利要求1或2所述的方法，其特征在于，所述采用预设算法对搜索词进行编辑以得到所述搜索词的纠错候选集之前，还包括：

6.根据权利要求1或2所述的方法，其特征在于，所述搜索词为汉语词、或者日语词，或者韩语词。

7.根据权利要求1或2所述的方法，其特征在于，所述预设算法为对称删除算法。

8.一种搜索词的纠错装置，其特征在于，包括：处理器和存储器，所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如下操作：

9.根据权利要求8所述的装置，其特征在于，所述根据所述多个分词和所述预设算法确定所述搜索词的纠错结果，具体为：

10.根据权利要求8或9所述的装置，其特征在于，若所述搜索词的纠错候选集中存在与所述搜索词互为同类词的第一纠错候选词，则所述搜索词的纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词；否则，所述搜索词的纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词，其中，所述同类词为同音词，或者同形词，或者前后鼻音的词。

11.根据权利要求8或9所述的装置，其特征在于，若所述搜索词的纠错候选集中存在与所述搜索词互为同类词的第一纠错候选词，或者所述搜索词的纠错候选集中不存在与所述搜索词互为同类词的第一纠错候选词但存在与所述搜索词具有包含关系的第一纠错候选词，则所述搜索词的纠错候选集中存在与所述搜索词之间满足预设关系的第一纠错候选词；否则，所述搜索词的纠错候选集中不存在与所述搜索词之间满足预设关系的第一纠错候选词，其中，所述同类词为同音词，或者同形词，或者前后鼻音的词。

12.根据权利要求8或9所述的装置，其特征在于，所述预设算法为对称删除算法。

13.一种计算机设备，包括输入设备和输出设备，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-7任一项所述的搜索词的纠错方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-7任一项所述的搜索词的纠错方法。