CN104462085B

CN104462085B - 检索关键词纠错方法及装置

Info

Publication number: CN104462085B
Application number: CN201310416495.1A
Authority: CN
Inventors: 覃武权; 柳阳; 李强; 林松
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2019-04-12
Anticipated expiration: 2033-09-12
Also published as: CN104462085A

Abstract

本申请公开了一种检索关键词纠错方法及装置，其中，该方法包括：对待纠错语句进行分词得到一个或多个关键词；对一个或多个关键词进行倒排索引得到语句集合；将待纠错语句与语句集合中的每个语句进行相似度比较；将语句集合中与待纠错语句相似度最高的语句作为纠错完成的语句。本申请解决了用户在搜索引擎中提交无意的错误输入，导致用户不能正确搜索的问题，提高了用户的搜索体验。

Description

检索关键词纠错方法及装置

技术领域

本申请涉及检索领域，具体而言，涉及一种检索关键词纠错方法及装置。

背景技术

目前，随着网络技术的发展，通过互联网的手段来获取各种信息日益成为人们获取时信息和知识的主要途径。在通过互联网获取信息时，会使用搜索引擎。

在使用搜索引擎的时候，用户会输入关键词，在输入关键词的时候，一般是使用输入法，这有可能会导致输入的关键词中出现错别字。例如，用户希望搜索达芬奇密码，但是由于使用的汉语拼音作为输入法，用户错误的输入成了大分歧密码。对于这种错误，搜索引擎可能无法搜索到相关的结果，此时，用户可能会发现自己输入错了，然后重新输入正确的达芬奇密码。还有另外一种情况，用户希望搜索莫名其妙，但是，其在输入关键词的时候输入错误，输入成了莫明其妙，此时搜索引擎可能也无法搜索到结果，但是，用户无法意识到其输入的莫明其妙是错误的，这时候用户会以为是搜索引擎的提供商的问题。从而降低了用户体验。

针对相关技术中的用户在搜索引擎中提交无意的错误输入导致用户不能正确搜索的问题，尚未提出解决方案。

发明内容

本申请提供了一种检索关键词纠错方法及装置，以至少解决用户在搜索引擎中提交无意的错误输入，导致用户不能正确搜索的问题。

根据本申请的一个方面，提供了一种检索关键词纠错方法，该方法包括：对待纠错语句进行分词得到一个或多个关键词；对所述一个或多个关键词进行倒排索引得到语句集合；将所述待纠错语句与所述语句集合中的每个语句进行相似度比较；将所述语句集合中与所述待纠错语句相似度最高的语句作为纠错完成的语句。

根据本申请的另一个方面，还提供了一种检索关键词纠错装置，该装置包括：分词模块，用于对待纠错语句进行分词得到一个或多个关键词；索引模块，用于对所述一个或多个关键词进行倒排索引得到语句集合；比较模块，用于将所述待纠错语句与所述语句集合中的每个语句进行相似度比较；处理模块，用于将所述语句集合中与所述待纠错语句相似度最高的语句作为纠错完成的语句。

通过本申请，对待纠错语句进行分词得到一个或多个关键词；对该一个或多个关键词进行倒排索引得到语句集合；将待纠错语句与语句集合中的每个语句进行相似度比较；将语句集合中与待纠错语句相似度最高的语句作为纠错完成的语句，解决了用户在搜索引擎中提交无意的错误输入导致用户不能正确搜索的问题，提高了用户的搜索体验。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的检索关键词纠错方法的流程图；

图2是根据本申请实施例的使用了倒排索引的优选流程图；

图3是根据本申请实施例的采用了距离比较的检索关键词纠错方法的流程图；

图4是根据本申请实施例的提取关键词之后检索关键词纠错方法的流程图；

图5是根据本申请实施例的检索关键词纠错装置的结构图；

图6是根据本申请实施例的搜索引擎的查询纠错产品的示意图；

图7是根据本申请实施例的搜索引擎的查询纠错产品的架构图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程示意图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程示意图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在以下描述中，除非另外指明，否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。其中，计算机可以包括个人计算机、服务器、移动终端等各种产品，在以下实施例中，使用了CPU、单片机、DSP等具有处理芯片的设备均可以称为计算机。由此，可以理解，有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它，这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而，尽管在上述上下文中描述本申请，但它并不意味着限制性的，如本领域的技术人员所理解的，后文所描述的动作和操作的各方面也可用硬件来实现。

转向附图，其中相同的参考标号指代相同的元素，本申请的原理被示为在合适的计算环境中实现。以下描述基于所述的本申请的实施例，并且不应认为是关于此处未明确描述的替换实施例而限制本申请。

优选地，本申请实施例可以提供一个其上存储有本申请实施例的机器可读媒体。需要说明的是，任一适合存储设计关于本申请的指令的媒体都在本申请的范围以内。例如，这样的媒体可以采用磁性媒体、光学媒体或半导体媒体的形式。

在本实施例中，提供了一种检索关键词纠错方法，图1是根据本申请实施例的检索关键词纠错方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，对待纠错语句进行分词得到一个或多个关键词；

步骤S104，对一个或多个关键词进行倒排索引得到语句集合；

步骤S106，将待纠错语句与语句集合中的每个语句进行相似度比较；

步骤S108，将语句集合中与待纠错语句相似度最高的语句作为纠错完成的语句。

通过上述步骤，提供了一种纠错的方法，在该纠错方法中采用了对整个待纠错语句进行纠错的方式，从而可以提高纠错的准确性，提高了搜索引擎对用户检索意图的识别能力。在上述步骤中，还采用了倒排索引的方式，这种索引方式执行效率比较高。

下面对倒排索引的方式进行说明。

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件称为倒排索引文件，可以简称为倒排文件(inverted file)。

倒排文件（倒排索引）索引对象是文档或者文档集合中的单词等，搜索引擎的关键步骤就是建立倒排索引，倒排索引一般表示为一个关键词，然后，还可以统计关键词的频度（出现的次数）、位置（出现在哪一篇文章或网页中，及有关的日期，作者等信息）等排文件索引结构。

倒排索引有很多种实现方法，在本实施例中提供了一种比较容易实现的一种方法，图2是根据本申请实施例的使用了倒排索引的优选流程图，如图2所示，该流程包括如下步骤：

步骤S200，从数据库中对一个或多个关键词进行倒排索引得到关键词与语句的对应关系，将来用于得到步骤S204中的语句集合，其中，该数据库中保存有语句和该语句对应的关键词之间的关联关系，该语句对应的关键词是对该语句进行分词得到的；

步骤S202，对待纠错语句进行分词得到一个或多个关键词；

步骤S204，对一个或多个关键词进行倒排索引得到语句集合；

步骤S206，将待纠错语句与语句集合中的每个语句进行相似度比较；

步骤S208，将语句集合中与待纠错语句相似度最高的语句作为纠错完成的语句。

相比于图1中示出的步骤，该图2中增加了步骤S200，该步骤200是一种优选的倒排索引的建立方式，即对于某个语句，先进行分词得到该语句的关键词，通过这样的方式建立起关键词与该语句的倒排索引。

例如，对于语句“生命不能承受之轻”，可以采用最简单的二元分词法，对该语句分完得到的关键词有：“生命”“命不”“不能”“能承”“承受”“受之”“之轻”。该语句还可以拆分得到如下关键词：“生命不”“命不能”“不能承”“能承受”“承受之”“受之轻”。该语句还可以拆分得到如下关键词：“生命不能”“命不能承”“不能承受”“能承受之”“承受之轻”。这些关键字均可以作为该语句的关键字，或者可以只保留两个字的关键字作为关键字，或者只保留三个字的关键字作为关键字，或者可以只保留四个字的关键字作为关键字。

如果用户输入的语句是“声明不能承受之情”，那么，对于该语句中进行分词可以得到关键词，得到的关键词可以有很多，以“声明”“不能”“承受之情”为例进行说明。通过“声明”是无法检索到正确的“生命不能承受之轻”的，通过“承受之情”也是无法检索到正确的“生命不能承受之轻”的。但是通过“不能”是可以检索到该“生命不能承受之轻”的，通过“不能”还可以检索到多个词语，例如，“不能消失的电波”“不能忽略的爱恋”“爱情不能是生命的全部”“生命不能承受之轻”等，通过相似度比较，确认“声明不能承受之情”与“生命不能承受之轻”是最接近的。因此，使用“生命不能承受之轻”对用户的输入的语句进行修正。

在上个例子，还可以引入位置的概念。例如，如果采用二元分词法的话，“不能”是位于第二个位置的，此时，倒排索引检索到的语句中不能也应该是在第二个位置的，此时，就可以忽略“不能消失的电波”“不能忽略的爱恋”，仅将用户输入的“声明不能承受之情”与“爱情不能是生命的全部”“生命不能承受之轻”进行比较即可。这样可以减少相似度比较的工作量，从而提高比较的效率。

对于相似度比较，也可以采用多种方法来进行，在本实施例中选择了一个实现速度比较快的方式。图3是根据本申请实施例的采用了距离比较的检索关键词纠错方法的流程图，如图3所示，该流程包括如下步骤：

步骤S302，对待纠错语句进行分词得到一个或多个关键词；

步骤S304，对一个或多个关键词进行倒排索引得到语句集合；

步骤S306-1，将待纠错语句与语句集合中的每个语句进行编辑距离计算，其中，编辑距离是指将待纠错语句转换成语句集合中的语句需要的最小编辑操作次数；

步骤S306-2，将语句集合中编辑距离最短的语句作为与待纠错语句相似度最高的语句；

步骤S308，将语句集合中与待纠错语句相似度最高的语句作为纠错完成的语句。

上述步骤S306-1中涉及到编辑操作，该编辑操作可以包括：字符替换操作、字符插入操作、字符删除操作等。例如，将“声明不能承受之情”变换成“生命不能承受之轻”只需要三个步骤：将“声”替换为“生”，将“明”替换为“命”，将“情”替换为“轻”。因此，将“生命不能承受之轻”作为“声明不能承受之情”的相似度最高的词语。

上述实施例中，用户输入的词语认为是需要进行检索的词语，但是，有时候，用户还会输入一些非关键的词，例如，用户输入的是“最新版声明不能承受之情”，此时，“最新版”就是一个不需要进行纠错的词语，这些词语具有通过的特点，就是均是一种修饰词，对于存在修饰词的情况，在本实施例中还提供了一种优选的实施方式，图4是根据本申请实施例的提取关键词之后检索关键词纠错方法的流程图，如图4所示，该流程包括如下步骤：

步骤S400，从用户输入的检索串中提取出待纠错语句；

步骤S402，对待纠错语句进行分词得到一个或多个关键词；

步骤S404，对一个或多个关键词进行倒排索引得到语句集合；

步骤S406，将待纠错语句与语句集合中的每个语句进行相似度比较；

步骤S408，将语句集合中与待纠错语句相似度最高的语句作为纠错完成的语句；

步骤S410，将所检索串中的待纠错语句替换成纠错完成的语句，使用替换完成的检索串进行搜索。

通过上述步骤，并不是对用户输入的检索串的所有内容进行纠错，而是仅仅对提取出来的待纠错语句进行纠错，这样可以减少计算的工作量。

上述步骤S400中，涉及到提取出待纠错语句，这种提取方式可能有可能中，在本实施例中提供了一种优选的方式。在本优选方式中使用预先设置的信息从该检索串中进行匹配；前缀、后缀、文字描述模板，将匹配到的信息从该检索串中删除得到所述待纠错语句。前缀可以是“最新”“最热”等，文字描述模板可以是“第*集”，其中的*可以是任何字。即文字描述模板是具有一个或多个通配符的字符串。

在本实施例中，还提供了一种检索关键词纠错装置，该检索关键词纠错装置用于实现上述的方法，在上述实施例及优选实施方式中已经进行过说明的，在此不再赘述。需要说明的是，下述装置中的模块的名称并不构成对该模块的实际限定，例如，分词模块可以表述为“用于对待纠错语句进行分词得到一个或多个关键词”，以下的模块均可以在处理器中实现，例如，分词模块可以表述为“一种处理器，用于对待纠错语句进行分词得到一个或多个关键词”，或者，“一种处理器，包括分词模块”等。

图5是根据本申请实施例的检索关键词纠错装置的结构图，如图5所示，该装置50包括：分词模块52，索引模块54，比较模块56和处理模块58下面对该装置进行说明。

分词模块52，用于对待纠错语句进行分词得到一个或多个关键词；

索引模块54，用于对一个或多个关键词进行倒排索引得到语句集合；

比较模块56，用于将待纠错语句与语句集合中的每个语句进行相似度比较；

处理模块58，用于将语句集合中与待纠错语句相似度最高的语句作为纠错完成的语句。

优选的，比较模块56，用于将待纠错语句与语句集合中的每个语句进行编辑距离计算，其中，编辑距离是指将待纠错语句转换成语句集合中的语句需要的最小编辑操作次数，该语句集合中编辑距离最短的语句是与待纠错语句相似度最高的语句。

优选地，检索关键词纠错装置还可以包括：提取模块，用于从用户输入的检索串中提取出待纠错语句，检索模块，用于将检索串中的待纠错语句替换成纠错完成的语句，并使用替换完成的检索串进行搜索。

在本实施例中，提取模块用于使用预先设置的信息从检索串中进行匹配，其中，预先设置的信息包括以下至少之一：前缀、后缀、文字描述模板，并将匹配到的信息从检索串中删除得到待纠错语句。

上述的实施例可以用在多个领域的搜索中，以下以视频领域的搜索为例进行说明。

本优选实施例提出了一种服务于搜索引擎的查询纠错方案，在用户往搜索引擎提交检索串之时，基于领域特定的词表对用户无意的错误输入进行纠错，并提示用户。图6是根据本申请实施例的搜索引擎的查询纠错产品的示意图，如图6所示，图6中搜索框是应用本申请的一个产品设计；用户在搜索引擎中提交了无意的错误输入，搜索引擎面对无意义的检索串，将其纠正成为用户原意输入的检索串。

图7是根据本申请实施例的搜索引擎的查询纠错产品的架构图，如图7所示，该架构包括：词干提取模块，该模块提取的词干就是上述带纠错语句；词表检索模块；距离编辑模块；词表索引模块。下面对这些模块进行说明。

词干提取模块：从检索串中剔除用户对检索目标的各种功能词，得到词干。以视频搜索领域为例，用户在搜索一部影片《精忠岳父》的时候，往往会携带“最新”、“湖南卫视”、“热播”、“电视剧”等词来加以描述，此类词语对视频搜索领域而言有极强的规律性，本优选实施例称之为描述词，将其存放在架构图中所示意的《描述词汇表》文件中。除了描述词外，还有“83版”、“第三部”、“第九集”等描述影片的信息，这些定语与前面的描述词一起，统称为功能词。本模块负责提出功能词，得到词干，作为后续的纠错对象。经过这一个环节，检索串“最新精忠岳父电视剧第五集”的词干将被提取出来，为“精忠岳父”。（实现了上述提取模块的功能，还可以实现上述分词模块的功能）。

词表检索模块：基于已有的领域特定词表，对敬重岳飞，在倒排索引中初步检索出所有相关的词表作为纠错的候选对象。在倒排索引的构建很很多方法，这里举例一种二元分词的索引方案。仍以前面的举例作为例子，已有一部片名叫“精忠岳父”，要建立倒排索引，本优选实施例视这个片名为一篇文章（只不过这篇文章极短，只有4个汉字而已），分配一个docid来唯一标识这个片名，那么这篇文章包含有如下词汇：精忠、中岳、岳父，即相邻的汉字两两作为一个词汇，每一个词汇也分配一个wordid作为唯一标识，那么本优选实施例就可以建立wordid与docid之间的关联关系，通过wordid就可以寻找到包含该词的所有docid，这就是倒排索引文件。在倒排索引文件中查找速度极快，对前面的“精中岳飞”用二元分词切分得到词汇，进一步取得包含这些词汇的所有文档的并集，作为纠错的候选对象，比如可能的文档有：岳父大人、精忠岳飞、精忠报国、岳父的幸福生活、岳父也是爹。（实现了上述索引模块的功能）。

编辑距离模块：对词表检索模块提供的纠错候选文档进行编辑距离计算，即检索串与纠错串之间，由一个转成另一个所需的最小编辑操作次数，编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符。本优选实施例使用编辑距离来衡量两个字符串的相似度，编辑距离越短两个待比较的字符串越相似。以前面的例子，“精忠岳飞”与“精中岳飞”的编辑距离是1个汉字，即还有3个汉字相同，相似度达到75%，与其他候选串相比相似度更高，作为纠错结果。（实现了上述比较模块的功能）

词干还原模块：在纠错完成之后，本优选实施例需要把在词干提取模块去掉的各种功能词重新补齐回来，仍以前面的例子，将纠错后的“精忠岳飞”还原成为“最新精忠岳飞电视剧第五集”，作为完整的纠错结果。（实现了上述检索模块的部分功能）。

词表索引模块：本模块用于将领域特定词表（是这个领域特有的词表，纠错就是要把疑似错误的检错串往这上面去纠）转换成倒排索引，倒排索引是一种高效的数据结构，给定一个词汇，就能快速找出包含这个词汇的所有文档。倒排索引将被词表检索模块所使用。

其中，词干提取模块的一种优选实现方案简述如下：

准备好描述词汇表文件，这些词是对影片的描述，可能是前缀，也可能是后缀，一般是人工编辑，比如“最新”、“经典”，或者“全集”、“集锦”等词，一行一个；词干提取算法载入词表，按正向最大匹配方法，将匹配到的词汇从原检索串中删除，去掉前缀词，再按逆向最大匹配方法，将匹配到的词汇从原检索串中删除，去掉后缀词，再按“第几季”、“第几集”等文字描述的模板，将匹配到的片段从原检索串中删除，对上述三点反复多次操作，直到无可删除。至此，剩下来的就是词干

另一个需要指出的问题是领域特定词表，这个词表一般是提前准备，对视频领域来说，它一般就是所有视频节目的名称，对音乐领域来说，它一般就是所有的歌曲名称。通过技术手段自动更新或者人工维护，定期更新到系统中都是可以的。

本优选实施例从用户的检索串中提取词干，在特定的词表中按照编辑距离算法进行相似度匹配，挑选相似度超过了一定阀值的词作为纠错结果，替换掉原检索串中有错误的词干，得到的纠错串用于提示用户进行纠正，从而提高搜索引擎对用户检索意图的识别能力。

上述优选的实施方式是可以结合使用的。另外，如本申请所使用的，术语“模块”或“单元”可以指在上述装置上执行的软件对象或例程。此处所描述的不同模块和单元可被实现为在上述装置上执行（例如，作为单独的线程）的对象或进程，同时，上述装置使用硬件或软件和硬件的组合的实现也是可能并被构想的。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种检索关键词纠错方法，其特征在于包括：

从用户输入的检索串中提取出待纠错语句，其中，从所述检索串中提取出所述待纠错语句包括：使用预先设置的信息从所述检索串中进行匹配，其中，所述预先设置的信息包括：前缀、后缀、文字描述模板，将匹配到的信息从所述检索串中删除得到所述待纠错语句；

对所述待纠错语句进行分词得到一个或多个关键词；

对所述一个或多个关键词进行倒排索引得到语句集合；

将所述待纠错语句与所述语句集合中的每个语句进行相似度比较；

将所述语句集合中与所述待纠错语句相似度最高的语句作为纠错完成的语句；

将所述检索串中的所述待纠错语句替换成所述纠错完成的语句；

把删除的所述匹配到的信息重新补齐到所述纠错完成的语句中得到完整的纠错结果；

将所述完整的纠错结果作为替换完成的检索串，使用所述替换完成的检索串进行搜索。

2.根据权利要求1所述的方法，其特征在于，将所述待纠错语句与所述语句集合中的每个语句进行相似度比较包括：

将所述待纠错语句与所述语句集合中的所述每个语句进行编辑距离计算，其中，编辑距离是指将所述待纠错语句转换成所述语句集合中的语句需要的最小编辑操作次数，所述语句集合中编辑距离最短的语句是与所述待纠错语句相似度最高的语句。

3.根据权利要求2所述的方法，其特征在于，所述编辑操作包括：字符替换操作、字符插入操作、字符删除操作。

4.根据权利要求1所述的方法，其特征在于，对所述一个或多个关键词进行倒排索引得到所述语句集合包括：

从数据库中对所述一个或多个所述关键词进行倒排索引得到所述语句集合，其中，所述数据库中保存有语句和所述语句对应的关键词之间的关联关系，所述语句对应的关键词是对所述语句进行分词得到的。

5.一种检索关键词纠错装置，其特征在于包括：

提取模块，用于从用户输入的检索串中提取出待纠错语句；以及用于使用预先设置的信息从所述检索串中进行匹配，其中，所述预先设置的信息包括：前缀、后缀、文字描述模板，并将匹配到的信息从所述检索串中删除得到所述待纠错语句；

分词模块，用于对所述待纠错语句进行分词得到一个或多个关键词；

索引模块，用于对所述一个或多个关键词进行倒排索引得到语句集合；

比较模块，用于将所述待纠错语句与所述语句集合中的每个语句进行相似度比较；

处理模块，用于将所述语句集合中与所述待纠错语句相似度最高的语句作为纠错完成的语句；

检索模块，用于将所述检索串中的所述待纠错语句替换成所述纠错完成的语句，以及用于把删除的所述匹配到的信息重新补齐到所述纠错完成的语句中得到完整的纠错结果，还用于将所述完整的纠错结果作为替换完成的检索串，并使用替换完成的检索串进行搜索。

6.根据权利要求5所述的装置，其特征在于，所述比较模块，用于将所述待纠错语句与所述语句集合中的所述每个语句进行编辑距离计算，其中，编辑距离是指将所述待纠错语句转换成所述语句集合中的语句需要的最小编辑操作次数，所述语句集合中编辑距离最短的语句是与所述待纠错语句相似度最高的语句。

7.根据权利要求6所述的装置，其特征在于，所述编辑操作包括：字符替换操作、字符插入操作、字符删除操作。

8.根据权利要求5所述的装置，其特征在于，所述索引模块用于从数据库中对所述一个或多个所述关键词进行倒排索引得到所述语句集合，其中，所述数据库中保存有语句和该语句对应的关键词之间的关联关系，该语句对应的关键词是对该语句进行分词得到的。