CN103034665B

CN103034665B - 信息查询方法和装置

Info

Publication number: CN103034665B
Application number: CN201110305264.4A
Authority: CN
Inventors: 韩小梅; 宋超; 杨松; 陈超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-10-10
Filing date: 2011-10-10
Publication date: 2016-01-06
Anticipated expiration: 2031-10-10
Also published as: CN103034665A; TW201316191A; US20130091165A1; WO2013055575A1; US9116977B2; JP2014532240A; JP6105599B2; HK1178650A1; EP2766826B1; EP2766826A1

Abstract

本申请公开了一种信息查询方法和装置，其中，该方法包括：获取查询词的类目点击率和发布信息的类目点击率；根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息之间的相似度；当计算得到的相似度大于第一预定阈值时，将发布信息作为匹配成功的查询结果进行返回。本申请解决了现有的查询方式中存在的匹配成功的结果数较少的问题，在保证准确率的同时，能够提高召回率，即给予用户更多的返回结果。

Description

信息查询方法和装置

技术领域

本申请涉及互联网搜索技术领域，具体而言，涉及一种信息查询方法和装置。

背景技术

目前，随着互联网技术的发展，电子商务网站越来越多地被商家使用。通常，卖家通过客户端在电子商务网站上发布产品信息，电子商务网站的后台服务器对这些产品发布信息进行存储。当买家在电子商务网站上搜索所需的产品发布信息时，其通过后台服务器在电子商务网站上提供的入口输入查询词，其中，该查询词包含查询的核心词(或称，关键词)。后台服务器将查询词与之前存储的产品发布信息进行匹配，若匹配成功，则返回相应的产品发布信息。

具体地，现有技术中后台服务器将查询词与之前存储的产品发布信息进行匹配主要包括以下步骤：

S1，根据查询词(Query)中的核心词进行扩展，得到与该核心词相关的查询词，例如：多个同义词或近义词；

S2，将上述核心词、多个同义词以及近义词分别与之前存储的产品发布信息进行匹配，若当前的产品发布信息包括上述核心词、多个同义词或近义词之一，则将该当前的产品发布信息作为匹配成功的查询结果进行返回。

然而，这种查询方式存在一定的缺点，具体如下：

1)召回率低：对Query进行扩展时，由于准确率、性能等的限制，从而导致可扩展出的与Query相关的查询词的数量有限，从而导致在匹配时，能够匹配出的信息较少，从而导致匹配成功的结果数较少，召回率较低；

2)完全依赖Query本身的特征：在对Query进行扩展时，完全依赖Query本身的特征，没有考虑到产品发布信息(或称为文档)的特征，从而导致Query扩展数量较少，扩展的准确率也较难保证；

3)Query的扩展需要考虑原始Query与扩展Query的相关性，还要考虑原始Query与文档、扩展Query与文档之间的相关性，这使得相关性的计算过于复杂，计算效率低下，减慢了搜索查询的速度，且由于进行相关性计算时存在多重计算环节，如果其中一个环节准确率较低时，就会导致最终计算的相关性不准确。

发明内容

本申请的主要目的在于提供一种信息查询方法和装置，以至少解决现有的查询方式中存在的匹配成功的结果数较少的问题。

根据本申请的一个方面，提供了一种信息查询方法，其包括：获取查询词的类目点击率和发布信息的类目点击率；根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息之间的相似度；当计算得到的相似度大于第一预定阈值时，将发布信息作为匹配成功的查询结果进行返回。

获取查询词的类目点击率的步骤包括：对查询词进行分词，得到一个或多个词语；在类目点击率的历史统计信息中获取分词后得到的词语对应的类目点击率，其中，分词后得到的词语对应的类目点击率为分词后得到的词语组成的短串在对应的类目中的类目点击率；依次对分词后得到的词语执行以下步骤，其中，将正在执行以下步骤的词语称为当前词语：若除当前词语之外的词语组成的短串在对应的类目中的类目点击率与分词后得到的词语对应的类目点击率之间的差值达到第二预定阈值，则将当前词语标记为核心词，否则，将当前词语标记为非核心词；获取所有核心词构成的短串在对应的类目中的类目点击率作为查询词的类目点击率。

获取发布信息的类目点击率的步骤包括：对发布信息进行分词，得到一个或多个核心词；在类目点击率的历史统计信息中获取分词后得到的核心词组成的短串在对应的类目中的类目点击率。

根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息之间的相似度的步骤包括：根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息两者的类目点击分布之间的距离；根据距离所在的区间来计算查询词与发布信息之间的相似度。

根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息两者的类目点击分布之间的距离的步骤包括：

D (Q_{p}, D_{p}) = \underset{w}{Σ} p_{Q} (w) \cdot \log \frac{p_{Q} (w)}{p_{D} (w)}

其中，Q_p为查询词的类目点击分布，D_p为发布信息的类目点击分布，D(Q_p，D_p)为查询词与发布信息两者的类目点击分布之间的距离；p_Q(w)为查询词中包括的核心词组成的短串在第w个类目中的类目点击率；p_D(w)为发布信息中包括的核心词组成的短串在第w个类目中的类目点击率；w为类目的序号，w＝1，2，…M，其中，M为类目点击率的历史统计信息中所有类目的个数。

将发布信息作为匹配成功的查询结果进行返回的步骤包括：按照相似度从高到低的顺序返回多个匹配成功的查询结果。

根据本申请的另一方面，提供了一种信息查询装置，其包括：获取单元，用于获取查询词的类目点击率和发布信息的类目点击率；计算单元，用于根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息之间的相似度；传输单元，用于在计算得到的相似度大于第一预定阈值时，将发布信息作为匹配成功的查询结果进行返回。

获取单元包括：第一分词模块，用于对查询词进行分词，得到一个或多个词语；第一获取模块，用于在类目点击率的历史统计信息中获取分词后得到的词语对应的类目点击率，其中，分词后得到的词语对应的类目点击率为分词后得到的词语组成的短串在对应的类目中的类目点击率；修正模块，用于依次对分词后得到的词语执行以下步骤，其中，将正在执行以下步骤的词语称为当前词语：若除当前词语之外的词语组成的短串在对应的类目中的类目点击率与分词后得到的词语对应的类目点击率之间的差值达到第二预定阈值，则将当前词语标记为核心词，否则，将当前词语标记为非核心词；第二获取模块，用于获取所有核心词构成的短串在对应的类目中的类目点击率作为查询词的类目点击率。

获取单元包括：第二分词模块，用于对发布信息进行分词，得到一个或多个核心词；第三获取模块，用于在类目点击率的历史统计信息中获取所有核心词组成的短串在对应的类目中的类目点击率。

计算单元包括：第一计算模块，用于根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息两者的类目点击分布之间的距离；第二计算模块，用于根据距离所在的区间来计算查询词与发布信息之间的相似度。

第一计算模块用于通过以下公式根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息两者的类目点击分布之间的距离：

D (Q_{p}, D_{p}) = \underset{w}{Σ} p_{Q} (w) \cdot \log \frac{p_{Q} (w)}{p_{D} (w)}

通过本申请的技术方案，能够达到以下有益效果：

1)本申请通过查询词的类目点击率和发布信息的类目点击率来计算两者的相似度，这样能够在确定匹配成功的查询结果时同时考虑了查询词和发布信息(或称为文档)两者的特征，从而保证返回查询结果的准确率，此外，本申请根据相似度来确定返回的查询结果，而不是只在发布信息完全包括查询词时才返回该发布信息，这样能够在保证返回查询结果的准确率的同时提高召回率，即给予用户更多的返回结果；进一步，现有技术中在扩展查询词时需要计算多方面的相关性(例如，原始Query与扩展Query的相关性，原始Query与文档、扩展Query与文档之间的相关性)，而本申请计算的是查询词与发布信息之间的相似度，从而降低了计算的复杂度，提高了运算速度；

2)本申请在计算相似度之前对查询词和发布信息进行了预处理，即，从查询词中去除不必要的核心词，以及在发布信息中提取出必要的核心词，这样，只针对上述必要的核心词进行相似度的计算，可以避免对不必要的核心词进行计算操作，从而能够提高返回查询结果的速度。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的信息查询系统的一种优选示意图；

图2是根据本申请实施例的信息查询装置的一种优选结构图；

图3是根据本申请实施例的信息查询装置的另一种优选结构图；

图4是根据本申请实施例的信息查询装置的又一种优选结构图；

图5是根据本申请实施例的信息查询方法的一种优选流程图；

图6是根据本申请实施例的信息查询方法的另一种优选流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在描述本申请的各实施例的进一步细节之前，将参考图1来描述可用于实现本申请的原理的一个合适的计算体系结构。在以下描述中，除非另外指明，否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。由此，可以理解，有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它，这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而，尽管在上述上下文中描述本申请，但它并不意味着限制性的，如本领域的技术人员所理解的，后文所描述的动作和操作的各方面也可用硬件来实现。

转向附图，其中相同的参考标号指代相同的元素，本申请的原理被示为在一个合适的计算环境中实现。以下描述基于所述的本申请的实施例，并且不应认为是关于此处未明确描述的替换实施例而限制本申请。

图1示出了可用于这些设备的一个示例计算机体系结构的示意图。出于描述的目的，所绘的体系结构仅为合适环境的一个示例，并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。

本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于，个人计算机、服务器，多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。

在其最基本的配置中，图1中的信息查询系统100至少包括：一个网站的服务器102以及一个或多个客户端104。服务器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置、用于存储数据的存储装置以及与客户端通信的传输装置；客户端104可以包括：微处理器MCU、与服务器通信的传输装置、与用户交互的显示装置。在本说明书和权利要求书中，“信息查询系统”也可以被定义为能够执行软件、固件或微码来实现功能的任何硬件组件或硬件组件的组合。信息查询系统100甚至可以是分布式的，以实现分布式功能。

如本申请所使用的，术语“模块”、“组件”或“单元”可以指在信息查询系统100上执行的软件对象或例程。此处所描述的不同组件、模块、单元、引擎和服务可被实现为在信息查询系统100上执行(例如，作为单独的线程)的对象或进程。尽管此处所描述的系统和方法较佳地以软件来实现，但是硬件或软件和硬件的组合的实现也是可能并被构想的。

实施例1

如图1所示，信息查询系统100包括：网站的服务器102和客户端104。在工作过程中，客户端104向所述服务器发送用户的查询词；服务器102获取查询词的类目点击率和发布信息的类目点击率；根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息之间的相似度；在计算得到的相似度大于第一预定阈值时，将所述发布信息作为匹配成功的查询结果进行返回。

在本申请的各个实施例中，发布信息可以包括其他用户之前在通过服务器发布的产品信息，该发布信息存储在服务器中，当然本申请并不仅限于此，发布信息还可以包括其他的信息，例如，新闻信息、交友信息等。查询词的类目点击率是服务器根据历史点击情况统计的查询词在各个类目中的类目点击率，发布信息的类目点击率是服务器根据历史点击情况统计的发布信息在各个类目中的类目点击率。

优选的，上述类目指的是根据需求设置的不同分类，例如，可以包括：电子产品、服装、化妆品、食品等。当用户以查询词作为搜索条件向搜索引擎发送查询请求时，搜索引擎会在该查询词所在的类目中查询与该查询词相关的发布信息，并返回给用户。如果用户点击了某条返回的发布信息，则说明这个发布信息所属的类目被点击了。统计该查询词所在的所有类目被点击的次数，计算每个类目被点击的次数占所有类目被点击的总次数的比例，将该比例作为查询词在该类目中的类目点击率。

同理，当用户以发布信息中的核心词作为搜索条件向搜索引擎发送查询请求时，搜索引擎会在上述核心词所在的类目中查询与该核心词相关的发布信息，并返回给用户。如果用户点击了某条返回的发布信息，则说明这个发布信息所属的类目被点击了。统计上述核心词所在的所有类目被点击的次数，计算每个类目被点击的次数占所有类目被点击的总次数的比例，将该比例作为发布信息在该类目中的类目点击率。

举例而言，查询词为“苹果”，搜索引擎判断该查询词对应两个类目，即，“电子产品”和“食品”，然后，搜索引擎根据统计的历史点击情况来分别获取在类目“电子产品”和“食品”下与“苹果”相关的发布信息被用户点击的次数，假设在类目“电子产品”下与“苹果”相关的发布信息被用户点击了10000次，在类目“食品”下与“苹果”相关的发布信息被用户点击5000次，则该查询词“苹果”在类目“电子产品”中的类目点击率为2/3，查询词“苹果”在类目“食品”中的类目点击率为1/3。

优选的，当查询词或发布信息包括多个核心词时，则根据该多个核心词组成的短串来判断所属的类目。

在上述的优选实施例中，通过查询词的类目点击率和发布信息的类目点击率来计算两者的相似度，这样能够在确定匹配成功的查询结果时同时考虑了查询词和发布信息(或称为文档)两者的特征，从而保证返回查询结果的准确率，此外，上述的优选实施例根据相似度来确定返回的查询结果，而不是只在发布信息完全包括查询词时才返回该发布信息，这样能够在保证返回查询结果的准确率的同时提高召回率，即给予用户更多的返回结果。

下面结合附图来描述本申请中的优选信息查询装置，如图2所示，根据本申请实施例的信息查询装置优选地位于图1中的服务器102中，当然，本申请不仅限于此，信息查询装置还可以位于独立于服务器102的第三方设备上。根据本申请实施例的信息查询装置可以包括：获取单元202，用于获取查询词的类目点击率和发布信息的类目点击率；计算单元204，用于根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息之间的相似度；传输单元206，用于在计算得到的相似度大于第一预定阈值时，将所述发布信息作为匹配成功的查询结果进行返回。优选的，上述第一预定阈值可以根据实际需求进行设置。

为了减少返回查询结果的处理时间，本申请对获取单元202进行了改进，其在获取查询词的类目点击率之前，对查询词进行了预处理。具体而言，如图3所示，获取单元202包括：第一分词模块2021，用于对所述查询词进行分词，得到一个或多个词语；第一获取模块2022，用于在类目点击率的历史统计信息中获取上述分词后得到的词语对应的类目点击率，其中，上述分词后得到的词语对应的类目点击率为上述分词后得到的词语组成的短串在对应的类目中的类目点击率；修正模块2023，用于依次对分词后得到的词语执行以下步骤，其中，将正在执行以下步骤的词语称为当前词语：若除当前词语之外的词语组成的短串在对应的类目中的类目点击率与上述分词后得到的词语对应的类目点击率之间的差值达到第二预定阈值，则将所述当前词语标记为核心词，否则，将所述当前词语标记为非核心词；第二获取模块2024，用于获取所有核心词构成的短串在对应的类目中的类目点击率作为所述查询词的类目点击率。在上述优选的实施例中，在计算相似度之前对查询词进行了预处理，即，从查询词中去除不必要的核心词，这样，只针对上述必要的核心词进行相似度的计算，可以避免对不必要的核心词进行计算操作，从而能够提高返回查询结果的速度。

优选的，上述对应的类目指的是历史统计信息中的所有类目。

举例而言，对查询词进行预处理的过程包括：首先，对查询词进行分词，得到多个待处理的词语，优选的，还可以在得到上述词语之后，从这些词语中删除一些停用词(可以通过查词汇表来实现，优选的，这些停用词包括修饰词等)，将剩余的词语作为待处理的词语；计算查询词中所有待处理的词语(例如，所有待处理的词语包括：词语A、B和C)构成的短串在对应类目中的类目点击率，假设为Q，然后对于上述每个词语执行以下步骤：从所有词语中去除词语A，计算剩下的词语(例如，词语B和C)构成的短串的类目点击率QA，比较QA和Q，如果两者差距很大(例如，大于第二预定阈值，其中，该第二预定阈值可以根据实际需求来设置)，则说明词语A对原短串提供的信息量很大，标记为核心词；否则，将词语A标记为非核心词，可以舍弃。依次判断原查询词中的每个词语，删除非核心词语，最终获取所有核心词构成的短串在对应的类目中的类目点击率，将其作为所述查询词的类目点击率。

为了进一步减少返回查询结果的处理时间，本申请对获取单元202进行了改进，其在获取发布信息的类目点击率之前，对发布信息进行了预处理。具体而言，如图3所示，获取单元202包括：第二分词模块2025，用于对所述发布信息进行分词，得到一个或多个核心词；第三获取模块2026，用于在类目点击率的历史统计信息中获取上述分词后得到的核心词组成的短串在对应的类目中的类目点击率。在上述优选的实施例中，在计算相似度之前对发布信息进行了预处理，即，从发布信息中提取必要的核心词，这样，只针对上述必要的核心词进行相似度的计算，可以避免对不必要的核心词进行计算操作，从而能够提高返回查询结果的速度。

本申请提供了一种优选的计算单元204，如图4所示，其包括：第一计算模块2041，用于根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离；第二计算模块2042，用于根据所述距离所在的区间来计算所述查询词与所述发布信息之间的相似度。在上述优选的实施例中，根据查询词的类目点击率和所述发布信息的类目点击率来计算相似度，同时考虑了查询词和发布信息(或称为文档)两者的特征，从而保证返回查询结果的准确率；此外，上述优选的实施例根据相似度来确定返回的查询结果，而不是只在发布信息完全包括查询词时才返回该发布信息，这样能够在保证返回查询结果的准确率的同时提高召回率，即给予用户更多的返回结果。

优选的，本申请利用KL距离计算公式来计算所述查询词与所述发布信息两者的类目点击分布之间的距离，当然，本申请不仅限于此，还可以根据系统需求采用其他的方式来计算。具体而言，所述第一计算模块用于通过以下公式根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离：

D (Q_{p}, D_{p}) = \underset{w}{Σ} p_{Q} (w) \cdot \log \frac{p_{Q} (w)}{p_{D} (w)}

其中，Q_p为所述查询词的类目点击分布，D_p为所述发布信息的类目点击分布，D(Q_p，D_p)为所述查询词与所述发布信息两者的类目点击分布之间的距离；

p_Q(w)为所述查询词中包括的核心词组成的短串在第w个类目中的类目点击率；

p_D(w)为所述发布信息中包括的核心词组成的短串在第w个类目中的类目点击率；

w为类目的序号，w＝1，2，…M，其中，M为类目点击率的历史统计信息中所有类目的个数。

优选的，传输单元206将所述发布信息作为匹配成功的查询结果进行返回的步骤包括：按照所述相似度从高到低的顺序返回多个匹配成功的查询结果。通过上述优选实施例中的返回方式，使得用户可以更快速地寻找到自己想要的查询结果。

实施例2

在图1-图4所示的信息查询系统和装置的基础上，本申请还提供了一种信息查询方法，如图5所示，其包括如下步骤：

S502，获取查询词的类目点击率和发布信息的类目点击率；

S504，根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息之间的相似度；

S506，当计算得到的相似度大于第一预定阈值时，将发布信息作为匹配成功的查询结果进行返回。

在上述优选的实施例中，通过查询词的类目点击率和发布信息的类目点击率来计算两者的相似度，这样能够在确定匹配成功的查询结果时同时考虑了查询词和发布信息(或称为文档)两者的特征，从而保证返回查询结果的准确率，此外，上述优选的实施例根据相似度来确定返回的查询结果，而不是只在发布信息完全包括查询词时才返回该发布信息，这样能够在保证返回查询结果的准确率的同时提高召回率，即给予用户更多的返回结果。

为了减少返回查询结果的处理时间，本申请对获取所述查询词的类目点击率的步骤进行了改进，其在获取查询词的类目点击率之前，对查询词进行了预处理。具体而言，获取所述查询词的类目点击率的步骤包括：对所述查询词进行分词，得到一个或多个词语；在类目点击率的历史统计信息中获取上述分词后得到的词语对应的类目点击率，其中，上述分词后得到的词语对应的类目点击率为上述分词后得到的词语组成的短串在对应的类目中的类目点击率；依次对上述分词后得到的词语执行以下步骤，其中，将正在执行以下步骤的词语称为当前词语：若除当前词语之外的所有词语组成的短串在对应的类目中的类目点击率与上述分词后得到的词语对应的类目点击率之间的差值达到第二预定阈值，则将所述当前词语标记为核心词，否则，将所述当前词语标记为非核心词；获取所有核心词构成的短串在对应的类目中的类目点击率作为所述查询词的类目点击率。在上述优选的实施例中，在计算相似度之前对查询词进行了预处理，即，从查询词中去除不必要的核心词，这样，只针对上述必要的核心词进行相似度的计算，可以避免对不必要的核心词进行计算操作，从而能够提高返回查询结果的速度。

举例而言，对查询词进行预处理的过程包括：首先，对查询词进行分词，得到多个所有待处理的词语，优选的，还可以在得到上述词语之后，从这些词语中删除一些停用词(可以通过查词汇表来实现，优选的，这些停用词包括修饰词等)，将剩余的词语作为待处理的词语；计算查询词中所有待处理的词语(例如，所有待处理的词语包括：词语A、B和C)构成的短串在对应类目中的类目点击率，假设为Q，然后对于上述每个词语执行以下步骤：从所有词语中去除词语A，计算剩下的词语(例如，词语B和C)构成的短串的类目点击率QA，比较QA和Q，如果两者差距很大(例如，大于第二预定阈值，其中，该第二预定阈值可以根据实际需求来设置)，则说明词语A对原短串提供的信息量很大，标记为核心词；否则，将词语A标记为非核心词，可以舍弃。依次判断原查询词中的每个词语，删除非核心词语，最终获取所有核心词构成的短串在对应的类目中的类目点击率，将其作为所述查询词的类目点击率。

为了进一步减少返回查询结果的处理时间，本申请对获取所述发布信息的类目点击率的步骤进行了改进，其在获取发布信息的类目点击率之前，对发布信息进行了预处理。具体而言，获取所述发布信息的类目点击率的步骤包括：对所述发布信息进行分词，得到一个或多个核心词；在类目点击率的历史统计信息中获取上述分词后得到的核心词组成的短串在对应的类目中的类目点击率。在上述优选的实施例中，在计算相似度之前对发布信息进行了预处理，即，从发布信息中提取必要的核心词，这样，只针对上述必要的核心词进行相似度的计算，可以避免对不必要的核心词进行计算操作，从而能够提高返回查询结果的速度。

根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息之间的相似度的步骤包括：根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离；根据所述距离所在的区间来计算所述查询词与所述发布信息之间的相似度。在上述优选的实施例中，根据查询词的类目点击率和所述发布信息的类目点击率来计算相似度，同时考虑了查询词和发布信息(或称为文档)两者的特征，从而保证返回查询结果的准确率；此外，上述优选的实施例根据相似度来确定返回的查询结果，而不是只在发布信息完全包括查询词时才返回该发布信息，这样能够在保证返回查询结果的准确率的同时提高召回率，即给予用户更多的返回结果。

优选的，本申请利用KL距离计算公式来计算所述查询词与所述发布信息两者的类目点击分布之间的距离，当然，本申请不仅限于此，还可以根据系统需求采用其他的方式来计算。具体而言，根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离的步骤包括：

D (Q_{p}, D_{p}) = \underset{w}{Σ} p_{Q} (w) \cdot \log \frac{p_{Q} (w)}{p_{D} (w)}

优选的，将所述发布信息作为匹配成功的查询结果进行返回的步骤包括：按照所述相似度从高到低的顺序返回多个匹配成功的查询结果。通过上述优选实施例中的返回方式，使得用户可以更快速地寻找到自己想要的查询结果。

实施例3

图6是根据本申请实施例的信息查询方法的另一种优选流程图，其包括：

S602，用户通过客户端输入核心词作为查询词；

S604，服务器接收上述查询词，并计算查询词与发布信息中核心词之间的相似性；

优选的，服务器对用户点击行为进行统计，例如，通过搜索日志统计出每个查询词(Query)下用户点击的发布信息(或称为文档)所属的类目信息，并且计算出每个Query下用户点击的类目的比率，将其作为类目在Query下的类目点击率。由于点击次数较少的类目容易给系统带来噪声，影响相似度计算的准确率，因此，本优选的实施例去除点击次数低于一定阈值的类目。同时，搜索次数较低的Query同样会给系统带来较多的噪声，因此也去除了搜索次数低于一定阈值的Query。在计算相似性时，引入Query的类目点击率特征。

在计算发布信息与查询词(Query)的相关性之前，首先对Query和发布信息进行一定的预处理，例如，对Query去掉一些重要性较小的词语，具体的操作步骤可以包括：对所述查询词进行分词，得到一个或多个词语；在类目点击率的历史统计信息中获取所有词语对应的类目点击率，其中，所有词语对应的类目点击率为所有词语组成的短串在对应的类目中的类目点击率；依次对每一个词语执行以下步骤，其中，将正在执行以下步骤的词语为当前词语：若除当前词语之外的所有词语组成的短串在对应的类目中的类目点击率与所有词语对应的类目点击率之间的差值达到第二预定阈值，则将所述当前词语标记为核心词，否则，将所述当前词语标记为非核心词。在标记完所有核心词之后，优选的，获取所有核心词构成的短串在对应的类目中的类目点击率作为所述查询词的类目点击率。

对发布信息进行一定的预处理可以包括：提取发布信息中的核心词。在预处理之后，利用KL距离计算公式来计算所述查询词与所述发布信息两者的类目点击分布之间的距离，以该距离来判断查询词与所述发布信息中核心词的相似性，其中，KL距离计算公式如下所示：

D (Q_{p}, D_{p}) = \underset{w}{Σ} p_{Q} (w) \cdot \log \frac{p_{Q} (w)}{p_{D} (w)}

S606，服务器根据相似性计算查询词与发布信息之间的相似度；

判断查询词与所述发布信息两者的类目点击分布之间的距离所在的区间，并根据所述距离所在的区间来计算所述查询词与所述发布信息之间的相似度。例如，根据距离所在的区间的不同将Query与发布信息之间的相似度分为三个档位，即，档位1，2和3，其中，档位3为相关性最优档，档位2次之，档位1为最差档位。

此外，在对相似度进行分档时，还可以参考以下因素：Query中核心词是否与发布信息中的核心词属于配附件关系、Query的核心词是否被成功匹配等。这里，配附件关系指的是：Query中的核心词表示的产品为发布信息中的核心词表示的产品的周边产品，例如：对于“电脑”，“鼠标”、“键盘”、“机箱”、“电源”等均属于“电脑”的配附件。

如果发布信息中的核心词与Query中的核心词属于配附件关系，那么直接将发布信息的档位设置为档位1。如果Query中的核心词没有匹配成功，那么直接将发布信息的档位设置为档位1。进一步，如果Query中的修饰词没有被匹配，但核心词已经匹配，那么将发布信息的档位设置为档位1。如果Query中的区划词没有匹配，那么将发布信息的档位设置为档位1。

当然，上述档位的划分形式只是一种示例，本申请不仅限于此，还可以根据实际需求来进行档位划分。

S608，服务器输出查询结果给客户端。

优选的，服务器按照所述相似度从高到低的顺序返回多个匹配成功的查询结果给客户端。通过上述优选实施例中的返回方式，使得用户可以更快速地寻找到自己想要的查询结果。

由于不同的用户在表达同样需求时，使用的Query往往是千差万别的。然而，在上述优选的实施例中，通过计算Query与发布信息中核心词的相似性，并根据相似性对发布信息的相似度进行分档，这样，在保证准确率的同时，能够给予用户更多的查询结果。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种信息查询方法，其特征在于，包括：

获取查询词的类目点击率和发布信息的类目点击率；

根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息之间的相似度；

当计算得到的相似度大于第一预定阈值时，将所述发布信息作为匹配成功的查询结果进行返回；

其中，根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息之间的相似度的步骤包括：根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离；根据所述距离所在的区间来计算所述查询词与所述发布信息之间的相似度。

2.根据权利要求1所述的方法，其特征在于，获取所述查询词的类目点击率的步骤包括：

对所述查询词进行分词，得到一个或多个词语；

在类目点击率的历史统计信息中获取所述分词后得到的词语对应的类目点击率，其中，所述分词后得到的词语对应的类目点击率为所述分词后得到的词语组成的短串在对应的类目中的类目点击率；

依次对所述分词后得到的词语执行以下步骤，其中，将正在执行以下步骤的词语称为当前词语：若除当前词语之外的词语组成的短串在对应的类目中的类目点击率与所述分词后得到的词语对应的类目点击率之间的差值达到第二预定阈值，则将所述当前词语标记为核心词，否则，将所述当前词语标记为非核心词；

获取所有核心词构成的短串在对应的类目中的类目点击率作为所述查询词的类目点击率。

3.根据权利要求1所述的方法，其特征在于，获取所述发布信息的类目点击率的步骤包括：

对所述发布信息进行分词，得到一个或多个核心词；

在类目点击率的历史统计信息中获取所述分词后得到的核心词组成的短串在对应的类目中的类目点击率。

4.根据权利要求1所述的方法，其特征在于，根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离的步骤包括：

D (Q_{p}, D_{p}) = \underset{w}{Σ} p_{Q} (w) \cdot l o g \frac{p_{Q} (w)}{p_{D} (w)}

其中，Q_p为所述查询词的类目点击分布，D_p为所述发布信息的类目点击分布，D(Q_p,D_p)为所述查询词与所述发布信息两者的类目点击分布之间的距离；

w为类目的序号，w＝1,2,…M，其中，M为类目点击率的历史统计信息中所有类目的个数。

5.根据权利要求1所述的方法，其特征在于，将所述发布信息作为匹配成功的查询结果进行返回的步骤包括：

按照所述相似度从高到低的顺序返回多个匹配成功的查询结果。

6.一种信息查询装置，其特征在于，包括：

获取单元，用于获取查询词的类目点击率和发布信息的类目点击率；

计算单元，用于根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息之间的相似度；

传输单元，用于在计算得到的相似度大于第一预定阈值时，将所述发布信息作为匹配成功的查询结果进行返回；

其中，所述计算单元包括：第一计算模块，用于根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离；第二计算模块，用于根据所述距离所在的区间来计算所述查询词与所述发布信息之间的相似度。

7.根据权利要求6所述的装置，其特征在于，所述获取单元包括：

第一分词模块，用于对所述查询词进行分词，得到一个或多个词语；

第一获取模块，用于在类目点击率的历史统计信息中获取所述分词后得到的词语对应的类目点击率，其中，所述分词后得到的词语对应的类目点击率为所述分词后得到的词语组成的短串在对应的类目中的类目点击率；

修正模块，用于依次对所述分词后得到的词语执行以下步骤，其中，将正在执行以下步骤的词语称为当前词语：若除当前词语之外的词语组成的短串在对应的类目中的类目点击率与所述分词后得到的词语对应的类目点击率之间的差值达到第二预定阈值，则将所述当前词语标记为核心词，否则，将所述当前词语标记为非核心词；

第二获取模块，用于获取所有核心词构成的短串在对应的类目中的类目点击率作为所述查询词的类目点击率。

8.根据权利要求6所述的装置，其特征在于，所述获取单元包括：

第二分词模块，用于对所述发布信息进行分词，得到一个或多个核心词；

第三获取模块，用于在类目点击率的历史统计信息中获取所述分词后得到的核心词组成的短串在对应的类目中的类目点击率。

9.根据权利要求6所述的装置，其特征在于，所述第一计算模块用于通过以下公式根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离：

D (Q_{p}, D_{p}) = \underset{w}{Σ} p_{Q} (w) \cdot l o g \frac{p_{Q} (w)}{p_{D} (w)}