CN101887436B

CN101887436B - 一种检索方法和装置

Info

Publication number: CN101887436B
Application number: CN200910135276XA
Authority: CN
Inventors: 邢飞; 董静; 郭宁; 侯磊; 张勤
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2009-05-12
Filing date: 2009-05-12
Publication date: 2013-08-21
Anticipated expiration: 2029-05-12
Also published as: HK1148367A1; US8880512B2; EP2430575A1; US20110082860A1; WO2010131101A1; CN101887436A; US9576054B2; JP2012527028A; EP2430575A4; US20150074076A1; JP5698222B2

Abstract

本申请提供了一种检索方法和装置，所述方法包括：针对当前查询数据，改写数据系统在预置的数据库中匹配获得与所述当前查询数据相关的候选查询数据；提取所述当前查询数据和候选查询数据的特征，所述特征用于描述所述当前查询数据和候选查询数据的匹配结果；根据所述匹配结果判断是否需要改写所述当前查询数据，如果是，则根据所述匹配结果对所述当前查询数据进行改写，并由搜索引擎利用所述改写后的当前查询数据进行检索。在本申请中，避免采用现有技术中在检索之前改写当前查询数据时依据固定规则的方式，降低了检索过程中出现歧义的几率，提升了检索的准确度。

Description

一种检索方法和装置

技术领域

本发明涉及网络数据处理领域，特别涉及一种检索方法和装置。

背景技术

搜索引擎（search engine）是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，为用户提供检索服务的系统。从用户的角度看，搜索引擎提供一个包含搜索框的页面，在搜索框输入关键词语，通过浏览器提交给搜索引擎后，搜索引擎就会返回跟用户输入的内容相关的信息列表。用户输入的关键词语可以成为查询数据，即是用户通过查询数据来查询自己感兴趣的相关内容。

在实际应用中，用户输入的查询数据有时候并不能检索到相关的内容，例如，当用户的查询数据为“黑色联想thinkpad笔记本X60”时，由于输入的查询关键词过长，搜索引擎无法检索到与其完全匹配的查询结果，因此，浏览器就会返回检索无结果，当查询数据变为“联想thinkpad笔记本X60”，由于输入的查询关键词缩短了，检索就会出现相关结果，因此，现有技术中存在一种基于规则的检索方法，首先对查询数据进行分词，然后根据分词后每个词的词性，例如：是名词还是形容词，类型，例如：产品类型、品牌、型号等，以及这些词本身的信息，根据需要总结一定的规则，例如，某一条规则为：两个产品类型词相邻，则后者权重更高。例如，“手机充电器”，则可以理解为“充电器”的权重更高。通过上述基于一系列规则的查询改写方法，可以将原始的查询数据改写成新的查询数据，再由搜索引擎的服务器依据新的查询数据进行检索。

从上述过程中可以看出，搜索引擎在检索的时候，是采用基于一定的规则对查询数据进行改写的方法，因为每一次的改写操作都需要基于相关的规则，因为规则是工作人员预先制定的，而用户在浏览器上输入的查询数据有无数种，这就使得单纯的依据规则改写查询数据的方式错误率较高，同时也存在歧义，所以对查询数据进行改写的结果有时并不精确，基于并不准确的改写查询数据检索到的结果也可能并不是用户所需要的，就降低了用户对于搜索引擎的使用体验。

总之，目前需要本领域技术人员迫切解决的一个技术问题就是：如何能够创新的提出一种检索方法，以解决现有技术中基于规则进行查询数据的改写之后再进行检索操作，导致的检索结果不准确的问题。

发明内容

本申请所要解决的技术问题是提供一种检索方法，用以解决现有技术中需要基于规则进行查询数据的改写，导致的检索结果不准确的问题，进一步的，还能够提升相关性和召回率。

本申请还提供了一种检索装置，用以保证上述方法在实际中的实现及应用。

为了解决上述问题，本申请公开了一种检索方法，包括：

针对当前查询数据，改写数据系统在预置的数据库中匹配获得与所述当前查询数据相关的候选查询数据；所述改写数据系统在预置的数据库中匹配获得候选查询数据，具体包括：

改写数据系统将所述当前查询数据进行分词，并为分词后的每个子查询数据设置标识；

改写数据系统依据所述子查询数据的标识和分词结果在所述预置的数据库中进行匹配，从而获得候选查询数据；

改写数据系统提取所述当前查询数据和候选查询数据的特征，所述特征用于描述所述当前查询数据和候选查询数据的匹配结果；

改写数据系统根据所述匹配结果判断是否需要改写所述当前查询数据，如果是，则表示所述匹配结果对应的候选查询数据要优于所述当前查询数据，根据所述匹配结果对所述当前查询数据进行改写；

搜索引擎按照所述改写后的当前查询数据进行检索。

优选的，所述改写数据系统在预置的数据库中匹配获得候选查询数据，具体为：

改写数据系统在预置的数据库中匹配获取至少两个候选查询数据，

所述改写数据系统根据所述匹配结果判断是否需要改写所述当前查询数据，具体包括：

改写数据系统根据所述匹配结果为所述特征赋值，每一个特征对应一个特征值；

改写数据系统按照预置规则对所述特征值进行处理，得到与所述至少两个候选查询数据对应的至少两个匹配结果值；

改写数据系统判断所述至少两个匹配结果值中最大的匹配结果值是否大于某一阈值。

优选的，所述改写数据系统在预置的数据库中匹配获取候选查询数据，具体为：

改写数据系统在预置的数据库中匹配获取一个候选查询数据，

改写数据系统根据所述匹配结果为所述一个候选查询数据与所述当前查询数据的特征赋值；

改写数据系统按照预置规则对特征值进行处理，得到与所述一个候选查询数据对应的一个匹配结果值；

改写数据系统判断所述一个匹配结果值是否大于某一阈值。

优选的，所述改写数据系统按照预置规则对所述特征值进行处理，具体包括：

改写数据系统按照线性加权的方式对所述特征值进行处理，或者按照最大熵模型将所述特征值转换为所述匹配结果值。

优选的，所述预置的数据库中还包括与历史查询数据对应的查询结果，则当所述改写数据系统根据所述匹配结果判断是否需要改写所述当前查询数据的结果为是之后，还包括：

改写数据系统判断所述匹配结果对应的候选查询数据是否有对应的查询结果，如果是，则执行根据所述匹配结果对所述当前查询数据进行改写的步骤。

优选的，所述改写数据系统提取所述当前查询数据和候选查询数据的特征，具体包括：

改写数据系统将所述当前查询数据的子查询数据与候选查询数据进行比对；

按照比对的结果，改写数据系统得出所述子查询数据与候选查询数据的匹配结果。

优选的，所述搜索引擎按照所述改写后的当前查询数据进行检索之后，还包括：

搜索引擎将检索结果向客户端展示。

本申请还公开了一种检索装置，该装置包括：

获取模块，用于针对当前查询数据，在预置的数据库中匹配获得与所述当前查询数据相关的候选查询数据；所述获取模块，具体包括：

分词子模块，用于将所述当前查询数据进行分词，并为分词后的每个子查询数据设置标识；

匹配子模块，用于依据所述子查询数据的标识和分词结果在所述预置的数据库中进行匹配，从而获得候选查询数据；

提取特征模块，用于提取所述当前查询数据和候选查询数据的特征，所述特征用于描述所述当前查询数据和候选查询数据的匹配结果；

第一判断模块，用于根据所述匹配结果判断是否需要改写所述当前查询数据；

改写模块，用于当所述第一判断模块的判断结果为是，表示所述匹配结果对应的候选查询数据要优于所述当前查询数据时，根据所述匹配结果对所述当前查询数据进行改写；

检索模块，用于根据所述改写模块的结果进行检索。

优选的，所述获取模块具体用于在预置的数据库中匹配获取至少两个候选查询数据，

则所述第一判断模块，具体包括：

第一赋值子模块，用于根据所述匹配结果为所述特征赋值，每一个特征对应一个特征值；

第一处理子模块，用于按照预置规则对所述特征值进行处理，得到与所述至少两个候选查询数据对应的至少两个匹配结果值；

第一判断子模块，用于判断所述至少两个匹配结果值中最大的匹配结果值是否大于某一阈值。

优选的，所述获取模块，具体用于：在预置的数据库中匹配获取一个候选查询数据，

则所述第一判断模块，具体包括：

第二赋值子模块，用于根据所述匹配结果为所述一个候选查询数据与所述当前查询数据的特征赋值；

第二处理子模块，用于按照预置规则对特征值进行处理，得到与所述一个候选查询数据对应的一个匹配结果值；

第二判断子模块，用于判断所述一个匹配结果值是否大于某一阈值。

优选的，所述第一处理子模块或第二处理子模块，具体用于按照线性加权的方式对所述特征值进行处理，或者按照最大熵模型将所述特征值转换为所述匹配结果值。

优选的，所述预置的数据库中还包括与历史查询数据对应的查询结果，则所述装置，还包括：

第二判断模块，用于判断所述匹配结果对应的候选查询数据是否有对应的查询结果；

执行模块，用于当所述第二判断模块的结果为是时，执行根据所述匹配结果对所述当前查询数据进行改写的步骤。

优选的，所述提取特征模块，具体包括：

比对子模块，用于将所述当前查询数据的子查询数据与候选查询数据进行比对；

获取匹配结果子模块，用于按照比对的结果，得出所述子查询数据与候选查询数据的匹配结果。

优选的，还包括：

结果展示模块，用于将检索结果向客户端展示。

与现有技术相比，本申请包括以下优点：

在本申请中，通过搜索引擎服务器端预置的数据库，可以匹配一系列的候选查询数据，所述候选

查询数据为与当前查询数据相关的历史查询数据，再在服务器端获取到当前查询数据与候选查询数据的匹配结果，并从所述候选查询数据中查询出最优的一个候选查询数据，从而对当前查询数据进行改写，能够使得服务器将改写后的当前查询数据作为关键词进行检索，从而避免采用现有技术中在检索之前改写当前查询数据时依据固定规则的方式，降低了检索过程中出现歧义的几率，提升了检索的准确度；进一步的，本申请还可以提高对当前查询数据的检索结果的相关性和召回率。当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一种检索方法实施例1的流程图；

图2是本申请的一种检索方法实施例2的流程图；

图3是本申请的一种检索方法实施例3的流程图；

图4是本申请的一种检索装置实施例1的结构框图；

图5是本申请的一种检索装置实施例2的结构框图；

图6是本申请的一种检索装置实施例3的结构框图；

图7是本申请的一种检索系统实施例的结构框图；

图8是本申请的一种检索系统实施例在实际应用中的具体结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请在实际应用中的系统结构，可以包括预置的数据库、查询日志、改写数据系统、搜索引擎以及用户端，搜索引擎接收到用户输入的当前查询数据之后，递交至所述改写数据系统，由所述改写数据系统将其在预置的数据库中进行匹配，能够获得与当前查询数据相关的历史查询数据，即是候选查询数据，再通过对所述当前查询数据以及候选查询数据提取特征，所述特征用于表示当前查询数据和候选查询数据的匹配结果，并判断所述匹配结果是否表示需要改写所述当前查询数据，如果是，就根据所述匹配结果对所述当前查询数据进行改写，并由搜索引擎根据所述改写后的当前查询数据进行检索。其中，所述预置的数据库保存用户端的历史查询数据，可以采用查询日志来实现，也可以采用其他方式。搜索引擎在基于这种改写后的查询数据进行检索时，就提高了准确度以及结果的召回率，所述召回率即是检索出的相关文档数和文档库中所有的相关文档数的比率。

本申请的主要思想应用于实体时，可以用获取模块、提取特征模块、第一判断模块、改写模块和检索模块来实现，其中，所述获取模块用于针对当前查询数据，在预置的数据库中匹配获得与所述当前查询数据相关的候选查询数据；所述提取特征模块，用于提取所述当前查询数据和候选查询数据的特征，所述特征用于描述所述当前查询数据和候选查询数据的匹配结果；所述第一判断模块，用于根据所述匹配结果判断是否需要改写所述当前查询数据；所述改写模块，用于根据所述匹配结果对所述当前查询数据进行改写；所述检索模块，用于根据所述改写模块的结果进行检索。采用该实体，也可以在基于这种改写后的查询数据进行检索时，提高准确度以及结果的召回率。

参考图1，示出了本申请一种检索方法实施例1的流程图，可以包括以下步骤：

步骤101：针对当前查询数据，改写数据系统在预置的数据库中匹配获得至少两个与所述当前查询数据相关的候选查询数据；

其中，所述数据库用于保存用户端的历史查询数据，所述候选查询数据为与所述当前查询数据相关的历史查询数据；所述预置的数据库可以通过搜索引擎的查询日志来实现，所述查询日志是搜索引擎收集的用户端的查询数据和查询结果的日志信息，即是用户端的历史查询数据，所述数据库中还可以记录查询结果的点击频率，曝光率等详细信息；当然，也可以采用所述查询日志中的数据内容重新建立新的数据库；在本实施例中，改写数据系统匹配获取的候选查询数据有至少两个；其中，匹配获得的每一个候选查询数据的内容，和所述当前查询数据的内容至少具有一个共同的短语或分词；

步骤102：改写数据系统提取所述当前查询数据和至少两个候选查询数据的特征，所述特征用于描述所述当前查询数据和每一个候选查询数据的匹配结果；

改写数据系统在获取到至少两个候选查询数据之后，将所述当前查询数据和至少两个候选查询数据一一进行匹配，从而提取出所述当前查询数据与每一个候选查询数据的特征；所述特征的含义，可以例如，所述当前查询数据与其中一个候选查询数据中，“品牌的匹配个数”，例如：诺基亚的匹配个数，即是当前查询数据和候选查询数据中是否都出现了诺基亚这个品牌名称，如果都出现，则后续为该特征赋值的时候就赋值为1，如果没有，则赋值为0；“产品的匹配个数”，例如：手机的匹配个数，等等，这些描述两者的匹配结果的语句，即是所述特征的具体内容；

步骤103：改写数据系统根据所述匹配结果为所述特征赋值，每一个特征对应一个特征值；

根据匹配结果为所述特征赋值，例如，所述当前查询数据与其中一个候选查询数据中，特征“品牌的匹配个数”为1，即是所述当前查询数据与候选查询数据中都包括了某个品牌的名称，且各出现一次，则该特征的特征值即是1；其中，赋值之后每一个特征对应一个特征值；

步骤104：改写数据系统按照预置规则对所述候选查询数据的所有特征值进行处理，得到与所述至少两个候选查询数据对应的至少两个匹配结果值；

其中，所述预置规则可以是满足某种线性加权规则，也可以采用最大熵模型实现，即是利用最大熵模型等概率模型将所述特征值转换为所述匹配结果值；预置规则可以根据实际需求预先指定；改写数据系统按照该预置规则对所述特征值进行处理，即是对每一个候选查询数据对应的一系列特征值进行数学运算，从而针对每一个候选查询数据得到与之对应的每一个匹配结果值；其中，所述匹配结果值在实际中可以具体为任意数值，例如，可以是0.8或0.6等小数，也可以是2或5等整数；需要说明的是，在本申请中，运用最大熵模型可以得到更优的结果；

步骤105：改写数据系统判断所述至少两个匹配结果值中最大的匹配结果值是否大于某一阈值，如果是，进入步骤106，如果否，则不做处理；

本步骤即是由改写数据系统根据所述匹配结果判断是否需要改写所述当前查询数据；可以预先为改写数据系统指定某一个阈值，并由改写数据系统判断匹配结果值中最大的那一个是否大于该阈值，如果是，则表示该匹配结果值对应的候选查询数据要优于当前查询数据，其中，“优于当前查询数据”可以理解为该候选查询数据与当前查询数据的匹配程度相对较高，并且该候选查询数据中包含的不必要的词更少；该阈值实际中可以为0.9等，当阈值为0.9时，表示当某个候选查询数据与当前查询数据的匹配结果值最大且达到0.9以上时，就认为当前查询数据需要进行改写，即改写为该候选查询数据；其中，该阈值的设定可以根据匹配结果值动态进行修改；

步骤106：改写数据系统根据所述匹配结果值选取相应的候选查询数据对所述当前查询数据进行改写，并且搜索引擎按照所述改写后的当前查询数据进行检索。

将原来用户端的当前查询数据改写为该候选查询数据，所述候选查询数据对应的匹配结果值最大，且大于预置的一个阈值。后续服务器直接根据改写后的当前查询数据进行检索。

与现有技术中基于规则改写查询数据再进行检索的方法相比，本实施例中的技术方案不再利用人工制定的固定规则，直接根据搜索引擎的查询日志既可以创建预置的数据库，当然用户也可以自主设置该数据库的内容并进行更新，这样针对用户不同的查询数据，就可以通过匹配出的候选查询数据对其进行改写，利用改写后的查询数据进行检索时，因为没有依据单一固定的规则，不仅可以使得这种检索的方法能够获得更高的准确性，避免了采用规则时产生的歧义，还可以提升检索结果的召回率。

参考图2，示出了本申请一种检索方法实施例2的流程图，可以包括以下步骤：

步骤201：针对当前查询数据，改写数据系统在预置的数据库中匹配获得一个与所述当前查询数据相关的候选查询数据；

在本实施例中，针对当前查询数据，改写数据系统在预置的数据库中匹配获得了仅仅一个候选查询数据；同时，改写数据系统还可以获得与该候选查询数据对应的查询结果，该查询结果可以是网页ID等信息；

步骤202：改写数据系统提取所述当前查询数据和候选查询数据的特征，所述特征用于描述所述当前查询数据和候选查询数据的匹配结果；

改写数据系统在提取该候选查询数据和当前查询数据的特征时，可以将当前查询数据与该一个候选查询数据进行匹配，获得所述当前查询数据与该候选查询数据的特征；例如，所述当前查询数据与该候选查询数据中，品牌的匹配个数，产品的匹配个数等；

步骤203：改写数据系统根据所述匹配结果为所述一个候选查询数据与所述当前查询数据的特征赋值；

改写数据系统根据匹配结果为所述特征赋值，例如，所述当前查询数据与该候选查询数据中，产品的匹配个数为1，即是所述当前查询数据与候选查询数据中都包括了具体产品的名称，且各出现一次，例如，“手机”，则该特征的特征值即是1；其中，赋值之后该候选查询数据与当前查询数据的每一个特征对应一个特征值，获得所有候选查询数据与当前查询数据匹配之后的特征值集合；

步骤204：改写数据系统按照预置规则对所述特征值进行处理，得到与所述一个候选查询数据对应的一个匹配结果值；

改写数据系统可以对所述特征值集合进行线性加权处理，当然，也可以采用概率模型进行统计，例如，最大熵模型，隐马尔科夫模型，最大熵隐马尔科夫模型，条件随机场模型等；

改写数据系统按照线性加权的方式对所述特征值进行处理，或者按照最大熵模型将所述特征值转换为所述匹配结果值；

步骤205：改写数据系统判断所述一个匹配结果值是否大于某一阈值，当结果为否时，不做处理，当结果为是时，进入步骤206；

当本步骤的结果为是时，则表示该匹配结果值对应的候选查询数据要优于当前查询数据；

步骤206：改写数据系统判断在所述数据库中是否有与所述候选查询数据对应的查询结果，当结果为否时，不做处理，当结果为是时，进入步骤207；

在本实施例中，还可以由改写数据系统判断在所述预置的数据库中，所述匹配结果值对应的候选查询数据是否有对应的查询结果；如果有查询结果，则表示该候选查询数据能检索到相关的结果；这样当服务器按照该候选查询数据进行检索的时候，就提高了召回率；

步骤207：改写数据系统将所述当前查询数据改写为所述一个候选查询数据，并由搜索引擎按照所述一个候选查询数据进行检索。

当所述步骤206的结果为是时，表示这一个候选查询数据一定能够使得搜索引擎根据该数据检索到相关的结果，这样就能够在后续服务器进行检索之后，将相关的检索结果展示给用户，因此，将当前查询数据改写为所述候选查询数据，并按照所述一个候选查询数据进行检索。

在本实施例中，在搜索引擎的服务器中预置的数据库中匹配获取到的候选查询数据仅有一个，则在所述方法的执行过程中，仅将当前查询数据与该一个候选查询进行特征的提取，并计算两者的匹配结果值，进而根据所述匹配结果值是否大于预先指定的阈值来判断所述候选查询数据是否优于当前查询数据，并且同时还判断该候选查询数据是否对应有检索结果，如果有，则搜索引擎的服务器默认根据该候选查询数据进行检索。通过这种对检索结果也进行判断的方法，不仅比现有技术中基于规则改写查询数据再进行检索的方法更具有准确性，还可以提高对检索结果的召回率。

参考图3，示出了本申请一种检索方法实施例3的流程图，本实施例可以理解为将本申请的检索方法应用于实际中的一个具体例子，可以包括以下步骤：

步骤301：改写数据系统将用户端的当前查询数据进行分词，并为分词后的每个子查询数据设置标识；

在本步骤中，改写数据系统可以利用分词器对当前查询数据进行分词，同时为分词后的每个子查询数据设置标识；例如：当前查询数据为“红色诺基亚n95手机”，进行分词并设置标识后为：“红色（修饰词）/诺基亚（品牌）/n95（型号）/手机（产品类型）”；其中，红色就是一个子查询数据，修饰词即是该子查询数据的标识；

步骤302：改写数据系统依据所述子查询数据的标识和分词结果在所述预置的数据库中进行匹配，从而获得两个候选查询数据，所述数据库用于保存用户端的历史查询数据，所述候选查询数据为与所述当前查询数据相关的历史查询数据；

改写数据系统依据所述子查询数据的标识在预置的数据库中进行匹配，在历史查询数据中获取到了候选查询数据：“诺基亚n95手机”，“红色诺基亚手机”；

具体的，例如“红色诺基亚n95手机”在数据库中存储形式可以如下所示：

修饰词	品牌	型号	产品类型...
					红色	诺基亚	N95	手机...

当然，候选查询数据在数据库中的存储形式并不影响本申请实施例的实现，也可以采用其他的存储形式来存储候选查询数据；

步骤303：改写数据系统将所述当前查询数据的子查询数据与候选查询数据进行比对；

将所述子查询数据与候选查询数据进行比对，在本实施例中即是将“红色”、“诺基亚”和“手机”等，分别与“诺基亚n95手机”，“红色诺基亚手机”进行比对；

步骤304：按照比对的结果，改写数据系统得出所述子查询数据分别与两个候选查询数据的匹配结果；

按照比对的结果，可以得到当前查询数据“红色诺基亚n95手机”与“诺基亚n95手机”的特征为“修饰词的匹配个数”，“品牌的匹配个数”，“型号的匹配个数”，以及“产品的匹配个数”，这些特征可以表示出当前查询数据与两个候选查询数据的匹配结果；

步骤305：改写数据系统根据所述匹配结果为所述特征赋值，每一个特征对应一个特征值；

在本实施例中，对于候选查询数据“诺基亚n95手机”，特征分别为：修饰词的匹配个数，品牌的匹配个数，型号的匹配个数，以及产品的匹配个数，则该候选查询数据与当前查询数据匹配之后的特征值分别为0，1，1，以及1；对于每个候选查询数据，每一个特征对应一个特征值；

步骤306：改写数据系统按照预置规则对所述特征值进行处理，得到与所述两个候选查询数据对应的两个匹配结果值；

其中，所述预置规则可以是按照简单的线性模型进行计算，即把所有的特征值加权起来算匹配结果值，也可以是比较复杂的概率模型，例如，最大熵模型，本步骤中计算出的结果表示两个候选查询数据的匹配结果值，例如，候选查询数据“诺基亚n95手机”按照最大熵模型计算出的匹配结果值为0.95，第二个候选查询数据“红色诺基亚手机”的匹配结果值为0.8；

步骤307：改写数据系统判断较大的一个匹配结果值是否大于某一阈值，当结果为否时，不做处理，当结果为是时，则进入步骤308；

同时，改写数据系统可以预先指定一个阈值，例如在本实施例中为0.9，该阈值可以表示当匹配结果值大于该阈值时，对应的那个候选查询数据就是最优的一个候选查询数据；

需要说明的是，在实际应用中，还可以设置一个最低阈值，即是当所有的匹配结果值都小于这个最低阈值时，则不对当前查询数据进行改写操作，同时，当所有的匹配结果值都小于设置的某个最高阈值时，则也不对当前查询数据进行改写操作；

步骤308：改写数据系统将所述当前查询数据改写为所述候选查询数据；

则根据前面的判断结果可以得知，第一个候选查询数据要优于当前查询数据，则在本实施例中将当前查询数据“红色诺基亚n95手机”改写为“诺基亚n95手机”；

步骤309：搜索引擎按照所述改写后的当前查询数据进行检索，并将检索结果向客户端展示。

在搜索引擎服务器端可以直接按照改写后的当前查询数据，即是第一个候选查询数据“诺基亚n95手机”进行检索，并将检索到的结果向客户端展示。

需要说明的是，在本实施例中，在提取当前查询数据与候选查询数据之间的特征，或者为所述特征赋值时，本实施例虽然举出了具体的数值，但是在实际中并不限于某一个或某些数值，本领域技术人员采用任何方式对所述特征进行赋值，或者根据特征值计算匹配结果值时，本申请并不局限于某种方法，例如，仅仅采用线性加权，或者最大熵模型等，任何能够计算出与实际情况相吻合的匹配结果值的方法都属于本申请的保护范畴。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

与上述本申请一种检索方法实施例1所提供的方法相对应，参见图4，本申请还提供了一种检索装置实施例1，在本实施例中，该装置可以包括：

获取模块401，具体用于针对当前查询数据，在预置的数据库中匹配获得至少两个与所述当前查询数据相关的候选查询数据；

其中，在搜索引擎服务器端可以预置一个数据库，用于保存用户端过的历史查询数据，该数据库中的历史查询数据的获取可以通过查询日志，所述查询日志是搜索引擎用来收集用户端的查询数据和查询结果的日志信息，还可以记录查询结果的点击频率，曝光率等详细信息；

提取特征模块402，用于提取所述当前查询数据和候选查询数据的特征，所述特征用于描述所述当前查询数据和候选查询数据的匹配结果；

所述提取特征模块402，在获取到至少两个候选查询数据之后，将所述当前查询数据和至少两个候选查询数据一一进行匹配，从而提取出所述当前查询与每一个候选查询数据的特征；所述特征，例如，所述当前查询数据与其中一个候选查询数据中，品牌的匹配个数，产品的匹配个数等；

第一赋值子模块403，用于根据所述匹配结果为所述特征赋值，每一个特征对应一个特征值；

所述第一赋值子模块403根据匹配结果为所述特征赋值，例如，所述当前查询数据与其中一个候选查询数据中，品牌的匹配个数为1，即是所述当前查询数据与候选查询数据中都包括了某个品牌的名称，且各出现一次，则该特征的特征值即是1；其中，赋值之后每一个特征对应一个特征值

第一处理子模块404，用于按照预置规则对所述特征值进行处理，得到与所述至少两个候选查询数据对应的至少两个匹配结果值；

其中，所述第一处理子模块404依据的预置规则可以是某种线性加权规则，或者最大熵模型等概率模型将所述特征值转换为所述匹配结果值；预置规则可以根据实际需求预先指定；

具体的，所述第一处理子模块404可以用于按照线性加权的方式对所述特征值进行处理，或者按照最大熵模型将所述特征值转换为所述匹配结果值。

第一判断子模块405，用于判断所述至少两个匹配结果值中最大的匹配结果值是否大于某一阈值；

如果所述第一判断子模块405的判断如果为是，则表示该匹配结果值对应的候选查询数据要优于当前查询数据；

改写模块406，用于根据所述匹配结果对所述当前查询数据进行改写；

检索模块407，用于根据所述改写模块的结果进行检索。

本实施例所述的装置可以集成到搜索引擎的服务器上，也可以单独作为一个实体与搜索引擎服务器相连，另外，需要说明的是，当本申请所述的方法采用软件实现时，可以作为搜索引擎的服务器新增的一个功能，也可以单独编写相应的程序，本申请不限定所述方法或装置的实现方式。

本实施例中，运用所述装置对查询数据进行改写并根据改写后的查询数据检索，无需人工制定单一固定的规则，直接根据搜索引擎的查询日志既可以创建预置的数据库，当然用户也可以自主设置该数据库的内容并进行更新，这样就能够获得更高的准确性，避免了采用规则时产生的歧义，还可以提升检索结果的召回率。

与上述本申请一种检索方法实施例2所提供的方法相对应，参见图5，本申请还提供了一种检索装置的优选实施例2，在本实施例中，该装置具体可以包括：

获取模块501，具体用于针对当前查询数据，在预置的数据库中匹配获得一个与所述当前查询数据相关的候选查询数据；

在本实施例中，所述获取模块501在预置的数据库中获取到的候选查询数据仅有一个；

提取特征模块502，用于提取所述当前查询数据和候选查询数据的特征，所述特征用于描述所述当前查询数据和一个候选查询数据的匹配结果；

第二赋值子模块503，用于根据所述匹配结果为所述一个候选查询数据与所述当前查询数据的特征赋值；

第二处理子模块504，用于按照预置规则对所述特征值进行处理，得到与所述一个候选查询数据对应的一个匹配结果值；

第二判断子模块505，用于判断所述一个匹配结果值是否大于某一阈值；

第二判断模块506，用于判断在所述数据库中是否有与所述候选查询数据对应的查询结果；

在本实施例中，可以由所述第二判断模块506用来判断在所述预置的数据库中，所述匹配结果值对应的候选查询数据是否有对应的查询结果；如果有查询结果，则表示该候选查询数据能检索到相关的结果；

执行模块507，用于当所述第二判断模块的结果为是时，执行将所述当前查询数据改写为所述候选查询数据的步骤；

检索模块508，用于根据所述改写模块的结果进行检索。。

在本实施例中，通过由所述第二判断模块506对检索结果也进行判断的操作，当所述候选查询数据有相关的检索结果再对当前查询数据进行改写，不仅比现有技术中基于规则改写查询数据再进行检索的方法更具有准确性，还可以提高对检索结果的召回率。

与上述本申请一种检索方法实施例3所提供的方法相对应，参见图6，本申请还提供了一种检索装置的实施例3，在本实施例中，该装置具体可以包括：

分词子模块601，用于将所述当前查询数据进行分词，并为分词后的每个子查询数据设置标识；

其中所述分词子模块601在实际中可以采用分词器实现；

匹配子模块602，用于依据所述子查询数据的标识在所述预置的数据库中进行匹配，从而获得候选查询数据；

比对子模块603，用于将所述当前查询数据的子查询数据与候选查询数据进行比对；

获取匹配结果子模块604，用于按照比对的结果，得出所述子查询数据与候选查询数据的匹配结果；

第一判断模块605，用于判断所述匹配结果是否表示需要改写所述当前查询数据；

改写模块606，用于将所述当前查询数据改写为所述候选查询数据；

检索模块607，用于根据所述改写模块的结果进行检索；

结果展示模块608，用于将检索结果向客户端展示。

在实施例中，在匹配获取候选查询数据时，可以通过对当前查询数据进行分词的方式，按照子查询数据来进行匹配获取各个候选查询数据，这样就更能在数据库中准确的匹配获取到各个候选查询数据，以便于后续方便的对当前查询数据进行改写，并进行检索，从而使得检索结果达到更高的准确性，提升了召回率。

与上述本申请一种检索方法和装置实施例相对应，参见图7，本申请还提供了一种检索系统的实施例，在本实施例中，该系统具体可以包括：

位于服务器端的：

数据库701，用于保存用户端的历史查询数据；

所述预置的数据库在作为单独的实体时，需要和服务器相连，当然，也可以集成到服务器上，作为服务器的一个单元或模块存在；

获取模块702，用于针对当前查询数据，在所述数据库中匹配获得与所述当前查询数据相关的候选查询数据；

提取特征模块703，用于提取所述当前查询数据和候选查询数据的特征，所述特征用于描述所述当前查询数据和候选查询数据的匹配结果；

第一判断模块704，用于判断所述匹配结果是否表示需要改写所述当前查询数据；

改写模块705，用于根据所述匹配结果对所述当前查询数据进行改写；

检索模块706，用于根据所述改写模块的结果进行检索。

优选的，所述系统还可以包括查询日志705，所述查询日志与所述预置的数据库相连，用于提供给服务器用户端的历史查询数据，还可以提供给服务器查询结果等。

其中，在实际应用中检索系统中各个部分结构情况还可以参考图8所示。

需要说明的是，该系统还可以包括位于用户端的：

浏览器707，用于接收来自用户端的当前查询数据并提交服务器；

在本实施例中，描述了用户端和服务器进行交互时，用户端以及服务器端各个装置的工作交互情况；首先浏览器接收用户输入的查询时护具，并将当前查询数据提交至服务器；

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种检索方法、装置及系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种检索方法，其特征在于，该方法包括：

针对当前查询数据，改写数据系统在预置的数据库中匹配获得与所述当前查询数据相关的候选查询数据；

搜索引擎按照所述改写后的当前查询数据进行检索；

其中，所述改写数据系统在预置的数据库中匹配获得候选查询数据，具体包括：

改写数据系统依据所述子查询数据的标识和分词结果在所述预置的数据库中进行匹配，从而获得候选查询数据。

2.根据权利要求1所述的方法，其特征在于，所述改写数据系统在预置的数据库中匹配获得候选查询数据，具体为：

3.根据权利要求1所述的方法，其特征在于，所述改写数据系统在预置的数据库中匹配获取候选查询数据，具体为：

改写数据系统判断所述一个匹配结果值是否大于某一阈值。

4.根据权利要求2或3所述的方法，其特征在于，所述改写数据系统按照预置规则对所述特征值进行处理，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述预置的数据库中还包括与历史查询数据对应的查询结果，则当所述改写数据系统根据所述匹配结果判断是否需要改写所述当前查询数据的结果为是之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述改写数据系统提取所述当前查询数据和候选查询数据的特征，具体包括：

7.根据权利要求1所述的方法，其特征在于，所述搜索引擎按照所述改写后的当前查询数据进行检索之后，还包括：

搜索引擎将检索结果向客户端展示。

8.一种检索装置，其特征在于，该装置包括：

获取模块，用于针对当前查询数据，在预置的数据库中匹配获得与所述当前查询数据相关的候选查询数据；

检索模块，用于根据所述改写模块的结果进行检索；

其中，所述获取模块，具体包括：

匹配子模块，用于依据所述子查询数据的标识和分词结果在所述预置的数据库中进行匹配，从而获得候选查询数据。

9.根据权利要求8所述的装置，其特征在于，所述获取模块具体用于在预置的数据库中匹配获取至少两个候选查询数据，

则所述第一判断模块，具体包括：

10.根据权利要求8所述的装置，其特征在于，所述获取模块，具体用于：在预置的数据库中匹配获取一个候选查询数据，

则所述第一判断模块，具体包括：

11.根据权利要求9或10所述的装置，其特征在于，所述第一处理子模块或第二处理子模块，具体用于按照线性加权的方式对所述特征值进行处理，或者按照最大熵模型将所述特征值转换为所述匹配结果值。

12.根据权利要求8所述的装置，其特征在于，所述预置的数据库中还包括与历史查询数据对应的查询结果，则所述装置，还包括：

13.根据权利要求8所述的装置，其特征在于，所述提取特征模块，具体包括：

14.根据权利要求8所述的装置，其特征在于，还包括：

结果展示模块，用于将检索结果向客户端展示。