CN105045781A

CN105045781A - 查询词相似度计算方法及装置、查询词搜索方法及装置

Info

Publication number: CN105045781A
Application number: CN201510534925.9A
Authority: CN
Inventors: 王跃; 俞琪; 曾洪雷
Original assignee: Guangzhou Shenma Mobile Information Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2015-08-27
Filing date: 2015-08-27
Publication date: 2015-11-11
Anticipated expiration: 2035-08-27
Also published as: CN105045781B; WO2017031996A1

Abstract

本申请提供了查询词相似度计算方法及装置、查询词搜索方法及装置，其中查询词相似度计算方法包括：确定与第一查询词对应的第一特征向量集合，及，与第二查询词对应的第二特征向量集合；计算所述第一特征向量集合和所述第二特征向量集合的特征相似度；在所述第一查询词和所述第二查询词均满足预设条件的情况下，将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。本申请将第一特征向量集合和第二特征向量集合之间的相似度(真实用户认为两者之间含义的相似度)，作为第一查询词和第二查询词之间的相似度。所以，本申请可以准确确定两个查询词之间的相似度，以便处理器依据相似度可以快速准确的检索与查询词相关的网页。

Description

查询词相似度计算方法及装置、查询词搜索方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及查询词相似度计算方法及装置、查询词搜索方法及装置。

背景技术

随着科学技术的进步，搜索应用的种类逐渐增加。在使用搜索应用的过程中，一般需要计算两个查询词之间的相似度。例如，当用户在搜索栏中输入一个语义较少的查询词(stnb)时，需要在该查询词(stnb)具有较高相似度的查询词中，获得一个语义较为丰富的查询词(神偷奶爸)，以便处理器可以依据语义较为丰富的查询词(神偷奶爸)快速准确地检索到与该查询词(stnb)对应的网页。

目前，计算两个查询词相似度的方式有多种，例如：按两个查询词中每个汉字是否相同的方式来计算两个查询词之间的相似概率，两个查询词之间的相似概率越大则代表两个查询词的相似度越高，两个查询词之间相似概率越小，则代表两个查询词之间的相似度越小。可见，现有计算查询词相似度的方式均停留在计算两个查询词的字样是否相同的阶段。

但是在一些情况下，两个查询词的字样相差很多但语义却高度一致；如，一个查询词为“stnb”，另一查询词为“神偷奶爸”(神偷奶爸的拼音的首字母为stnb)。理论上两个查询词相似度应该非常高，但是利用现有技术计算这两个查询词的字样相似度时，却得到非常低的相似度。这会导致计算得到两个查询词相似度有误，进而导致处理器在使用相似度进行相关搜索时，无法快速、准确地检索与查询词相关的网页。

所以，现在需要一种新的查询词相似度的计算方法，从而来准确确定两个查询词之间的相似度，以便处理器依据相似度可以快速准确的检索与查询词相关的网页。

发明内容

本申请提供了查询词相似度计算方法，本方法可以准确确定两个查询词之间的相似度，以便处理器依据相似度可以快速准确的检索与查询词相关的网页。

为了实现上述目的，可以采用以下技术手段：

一种查询词相似度的计算方法，包括：

确定与第一查询词对应的第一特征向量集合，及，与第二查询词对应的第二特征向量集合；其中，所述第一特征向量集合和所述第二特征向量集合依据历史搜索日志确定，所述历史搜索日志包含真实用户针对所述第一查询词而发生的点击网页行为的日志数据，以及，在真实用户针对所述第二查询词而发生的点击网页行为的日志数据；

计算所述第一特征向量集合和所述第二特征向量集合的特征相似度；

在所述第一查询词和所述第二查询词均满足预设条件的情况下，将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。

优选的，还包括：

计算所述第一查询词和所述第二查询词之间的字样相似度；

在所述第一查询词和所述第二查询词均不满足预设条件的情况下，将所述字样相似度确定为所述第一查询词与所述第二查询词之间的查询词相似度。

优选的，还包括：

计算所述第一查询词和所述第二查询词之间的字样相似度；

在所述第一查询词和所述第二查询词其中一个不满足预设条件的情况下，将所述特征相似度和所述字样相似度的结合结果，确定为所述第一查询词与所述第二查询词之间的查询词相似度。

优选的，所述计算所述第一特征向量集合和所述第二特征向量集合的相似度，包括：

在所述第一特征向量集合和所述第二特征向量集合中，计算每对相同类型的特征向量之间的夹角余弦，得到一个或多个夹角余弦；其中，所述第一特征向量集合包括由历史搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征向量；所述第二特征向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应的所述一个或多个类型的特征向量；

计算所述一个或多个夹角余弦之间的拟合结果；

将所述拟合结果确定为所述第一特征向量集合和所述第二特征向量集合的特征相似度。

优选的，所述第一特征向量集合包括：由第一标题词语集合中每个标题词语的点击次数所构建的第一标题特征向量；

相应的，所述第二特征向量集合包括：由第二标题词语集合中每个标题词语的点击次数所构建的第二标题特征向量；

其中，所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题的集合，所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题的集合；或者，所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题，并将所有网页标题进行二元分词后得到的分词结果的集合；所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题，并将所有网页标题进行二元分词后得到的分词结果的集合。

优选的，所述第一特征向量集合包括：由第一网页网址集合中每个网页网址的点击次数所构建的第一网址特征向量；其中，所述第一网页网址集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页的网址的集合；

相应的，所述第二特征向量集合包括：由第二网页网址集合中每个网页网址的点击次数所构建的第二网址特征向量；其中，所述第二网页网址集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页的网址的集合。

优选的，所述第一特征向量集合包括：由第一相关查询词词语集合中每个相关查询词词语的点击次数所构建的第一相关查询词特征向量；

相应的，所述第二特征向量集合包括：由第二相关查询词词语集合中每个相关查询词词语的点击次数所构建的第二相关查询词特征向量；

其中，所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词的集合，所述第二相关查询词词语集合为：与所述第二查询词相关联的相关查询词的集合；或者，所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词进行二元分词后得到分词结果的集合；与所述第二查询词相关联的相关查询词进行二元分词后得到分词结果的集合；其中，在所述历史搜索日志中所述第一查询词和所述第一查询词的相关查询词对应的点击网页相同，在所述历史搜索日志中所述第二查询词和所述第二查询词的相关查询词对应的点击网页相同。

优选的，所述计算所述第一查询词和所述第二查询词之间的字样相似度，包括：

确定与所述第一查询词对应的第一查询词集合，及，与所述第二查询词对应的第二查询词集合；

将所述第一查询词集合和所述第二查询词集合之间的字样重叠度，确定为所述第一查询词和所述第二查询词的字样相似度。

确定与所述第一查询词对应的第一查询词集合中每个词语的出现次数所构建的第一查询词特征向量，和，与所述第二查询词对应的第二查询词集合中每个词语的出现次数所构建的第二查询词特征向量；

将所述第一查询词特征向量和所述第二查询词特征向量之间的夹角余弦，确定为所述第一查询词和所述第二查询词的字样相似度。

优选的，所述第一查询词集合包含所述第一查询词或所述第一查询词进行二元分词的分词结果，相应的，所述第二查询词特征向量中包含所述第二查询词或所述第二查询词进行二元分词的分词结果；

和/或，

所述第一查询词集合包含与所述第一查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果，所述第二查询词集合包含与所述第二查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果；

和/或，

所述第一查询词集合包含所述第一查询词的近义词集或该近义词集进行二元分词后的分词结果；所述第二查询词集合包含所述第二查询词的近义词集或该近义词集进行二元分词后的分词结果。

优选的，所述预设条件包括：

查询词的搜索次数大于预设次数。

一种查询词搜索方法，其特征在于，包括：

获取待查询查询词；

在查询词相似度数据库中，查找与所述待查询查询词相似度最大的目标查询词；其中，所述查询词相似度数据库包含各个查询查询词之间查询词相似度，各个查询查询词之间的查询词相似度为依据权利要求1所述的方法得到的；

将所述目标查询词代替所述待查询查询词，搜索与所述待查询查询词相关的网页。

一种查询词相似度的计算装置，包括：

确定集合单元，用于确定与第一查询词对应的第一特征向量集合，及，与第二查询词对应的第二特征向量集合；其中，所述第一特征向量集合和所述第二特征向量集合依据历史搜索日志确定，所述历史搜索日志包含真实用户针对所述第一查询词而发生的点击网页行为的日志数据，以及，在真实用户针对所述第二查询词而发生的点击网页行为的日志数据；

计算特征相似度单元，用于计算所述第一特征向量集合和所述第二特征向量集合的特征相似度；

第一确定相似度单元，用于在所述第一查询词和所述第二查询词均满足预设条件的情况下，将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。

优选的，还包括：

计算字样相似度单元，用于计算所述第一查询词和所述第二查询词之间的字样相似度；

第二确定相似度单元，用于在所述第一查询词和所述第二查询词均不满足预设条件的情况下，将所述字样相似度确定为所述第一查询词与所述第二查询词之间的查询词相似度。

优选的，还包括：

第三确定相似度单元，用于在所述第一查询词和所述第二查询词其中一个不满足预设条件的情况下，将所述特征相似度和所述字样相似度的结合结果，确定为所述第一查询词与所述第二查询词之间的查询词相似度。

优选的，所述计算特征相似度单元，包括：

计算余弦单元，用于在所述第一特征向量集合和所述第二特征向量集合中，计算每对相同类型的特征向量之间的夹角余弦，得到一个或多个夹角余弦；其中，所述第一特征向量集合包括由历史搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征向量；所述第二特征向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应的所述一个或多个类型的特征向量；

拟合单元，用于计算所述一个或多个夹角余弦之间的拟合结果；

确定特征相似度单元，用于将所述拟合结果确定为所述第一特征向量集合和所述第二特征向量集合的特征相似度。

优选的，所述计算字样相似度单元，包括：

确定查询词集合单元，用于确定与所述第一查询词对应的第一查询词集合，及，与所述第二查询词对应的第二查询词集合；

第一确定字样相似度单元，用于将所述第一查询词集合和所述第二查询词集合之间的字样重叠度，确定为所述第一查询词和所述第二查询词的字样相似度。

优选的，所述计算字样相似度单元，包括：

确定查询词特征向量单元，用于确定与所述第一查询词对应的第一查询词集合中每个词语的出现次数所构建的第一查询词特征向量，和，与所述第二查询词对应的第二查询词集合中每个词语的出现次数所构建的第二查询词特征向量；

第二确定字样相似度单元，用于将所述第一查询词特征向量和所述第二查询词特征向量之间的夹角余弦，确定为所述第一查询词和所述第二查询词的字样相似度。

和/或，

优选的，所述预设条件包括：

查询词的搜索次数大于预设次数。

一种查询词搜索装置，包括：

获取单元，用于获取待查询查询词；

查找单元，用于在查询词相似度数据库中，查找与所述待查询查询词相似度最大的目标查询词；其中，所述查询词相似度数据库包含各个查询查询词之间查询词相似度，各个查询查询词之间的查询词相似度为依据权利要求1所述的方法得到的；

搜索单元，用于将所述目标查询词代替所述待查询查询词，搜索与所述待查询查询词相关的网页。

通过以上技术内容，可以具有以下有益效果：

本申请提供的查询词相似度计算方法，本申请在计算两个查询词的相似度之前，首先利用第一特征向量集合代表第一查询词，利用第二特征向量代表第二查询词。由于第一特征向量和第二特征向量是依据真实用户对第一查询词和第二查询词的点击网页的日志数据确定的，所以，第一特征向量能够真实反应真实用户认为第一查询词所代表实际含义，第二特征向量也能够真实反应真实用户认为第二查询词所代表的实际含义。

因此，不论第一查询词和第二查询词的字样是否相同，只要真实用户认为两者所代表实际含义是一致的，第一查询词和第二查询词的相似度便应该较高。所以，本申请将第一特征向量集合和第二特征向量集合之间的相似度(真实用户认为两者之间含义的相似度)，作为第一查询词和第二查询词之间的相似度。所以，本申请可以准确确定两个查询词之间的相似度，以便处理器依据相似度可以快速准确的检索与查询词相关的网页。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现本申请实施例公开的查询词相似度计算方法的实施例；

图2为本申请实施例公开的又一种查询词相似度计算方法的实施例；

图3为本申请实施例公开的又一种查询词相似度计算方法的实施例；

图4为本申请实施例公开的又一种查询词相似度计算方法的实施例；

图5为本申请实施例公开的又一种查询词相似度计算方法的实施例；

图6为本申请实施例公开的又一种查询词相似度计算方法的实施例；

图7为本申请实施例公开的又一种查询词相似度计算方法的实施例；

图8为本申请实施例公开的一种查询词搜索方法的实施例；

图9为现本申请实施例公开的一种查询词相似度计算装置的结构示意图；

图10为现本申请实施例公开的又一种查询词相似度计算装置的结构示意图；

图11为现本申请实施例公开的一种查询词相似度计算装置中计算特征相似度单元的结构示意图；

图12为现本申请实施例公开的一种查询词相似度计算装置中计算字样相似度单元的结构示意图；

图13为现本申请实施例公开的一种查询词相似度计算装置中又一计算字样相似度单元的结构示意图；

图14为现本申请实施例公开的一种查询词搜索装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

真实用户在搜索引擎上依据查询词搜索相关网页的一次搜索行为可以为：在搜索引擎的输入栏内输入查询词，搜索引擎查找到与查询词相关的多个网页链接，并将多个网页链接以及每个网页链接的部分内容显示至用户。用户依据每个网页链接的部分内容和自己对查询词的理解进行合理推测和判断，并确定一个与查询词语义最接近的网页链接，然后点击这个网页链接以查看其中的具体内容。

搜索引擎均有日志记录功能，因此可以记录真实用户在搜索引擎上的搜索行为。只有在真实用户搜索之后才能够记录真实用户的搜索行为，因此记录真实用户的搜索行为的日志也被称为历史搜索日志。历史搜索日志中记录用户输入的查询词，点击网页的网址和点击网页的主题等内容。

历史搜索日志中记录有真实用户针对不同查询词的真实点击行为，所以，历史搜索日志中可以反映真实用户认为查询词所代表的含义。例如，真实用户输入查询词为“stnb”，用户最终点击的网页标题为“神偷奶爸”，则真实用户认为查询词“stnb”代表“神偷奶爸”。即查询词“stnb”与查询词“神偷奶爸”的代表的含义是相同，查询词“stnb”与查询词“神偷奶爸”的相似度较高。

所以，本申请采用历史搜索日志中提取的信息来确定两个查询词的相似度。首先确定计算查询词相似度的两个查询词：第一查询词和第二查询词。为了清楚地利用历史搜索日志来代表第一查询词和第二查询词，在历史搜索日志中提取与第一查询词对应的信息并将信息向量化得到第一特征向量集合，在历史搜索日志中提取与第二查询词对应的信息并将信息向量化得到第二特征向量集合。

第一特征向量集合中包含一个或多个第一特征向量，第二特征向量集合中包含一个或多个第二特征向量。下面介绍第一特征向量和与第二特征向量的几种表现形式：

第一种表现形式：标题特征向量。

所述第一特征向量包括：由第一标题词语集合中每个标题词语的点击次数所构建的第一标题特征向量；相应的，所述第二特征向量包括：由第二标题词语集合中每个标题词语的点击次数所构建的第二标题特征向量。

第一标题词语集合有两种情况：

在第一种情况下，所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题的集合，所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题的集合。

以第一查询词为例，在历史搜索日志中第一查询词可以被不同真实用户赋予不同的含义，即，不同用户针对第一查询词最终的点击网页可以不同。为了综合考虑不同用户对第一查询词的点击行为，本申请提取在历史搜索日志中提取与第一查询词对应所有网页的网页标题并统计各个网页标题的点击次数，然后将所有网页的网页标题作为第一标题词语集合。

在此情况下，可以将第一标题词语集合中按顺序排列所有网页标题作为特征向量的元素，将按顺序排列的所有网页标题的点击次数形成的一维特征向量作为第一查询词的第一标题特征向量。

例如，第一查询词为“stnb”，则真实用户针对第一查询词“stnb”点击网页可以为“神偷奶爸1”、“神偷奶爸2”、和“神偷奶爸电影”等网页标题；其中，每个网页标题的点击次数为100、90和70。然后将“神偷奶爸1”、“神偷奶爸2”和“神偷奶爸电影”依次作为第一特征向量的各个元素，将各个网页标题的点击次数依次排列，组成第一标题特征向量[1009070]。

上述内容为第一标题词语集合的第一种情况，下面介绍第一标题词语的第二种情况。

在第二种情况下，所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题，并将所有网页标题进行二元分词后得到的分词结果的集合；所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题，并将所有网页标题进行二元分词后得到的分词结果的集合。

继续以第一查询词为例，在历史搜索日志中获得与第一查询词对应的各个网页标题之后，将每个网页标题进行二元分词得到若干个分词结果。一个网页标题的每个分词结果的点击次数与该网页标题的点击次数相同。例如，网页标题“神偷奶爸”的点击次数为100，则对“神偷奶爸”进行二元分词得到“神偷”、“偷奶”和“奶爸”三个分词结果，并且每个分词结果的点击次数均为100。

在得到各个网页标题分词结果后，将各个网页标题中相同分词结果的点击次数进行合并，然后统计各个分词结果总的点击次数。将合并后的分词结果确定为第一标题词语集合。

在此情况下，可以将第一标题词语集合中按顺序排列所有分词结果作为特征向量的元素，将按顺序排列的所有分词结果的点击次数形成的一维特征向量作为第一查询词的第一标题特征向量。

例如：第一查询词为“stnb”，则真实用户针对查询词“stnb”搜索的网页标题可以为“神偷奶爸1”、“神偷奶爸2”、和“神偷奶爸电影”三个网页标题；其中，三个网页标题的点击次数为100、90和70。

然后对三个网页标题进行二元分词：对“神偷奶爸1”进行二元分词得到“神偷”、“偷奶”、“奶爸”和“爸1”四个分词结果；每个分词结果的点击次数均为100。对“神偷奶爸2”进行二元分词，“神偷”、“偷奶”、“奶爸”和“爸2”四个分词结果；每个分词结果的点击次数均为90。对“神偷奶爸电影”进行二元分词，得到“神偷”、“偷奶”、“奶爸”、“爸电”和“电影”五个分词结果；每个分词结果的点击次数均为70。

对各个网页标题的分词结果进行整理，以合并重复的分词结果，然后得到“神偷”(100+90+70＝160)、“偷奶”(100+90+70＝160)、“奶爸”(100+90+70＝160)、“爸1”(100)、“爸2”(90)、“爸电”(70)和“电影”(70)七个分词结果，各个分词结果总的点击次数分别为160、160、160、100、90和70。

设置第一标题特征向量的各个元素分为“神偷”、“偷奶”、“奶爸”、“爸1”、“爸2”、“爸电”和“电影”，则构建的第一标题特征向量为[1601601601009070]。

确定第二查询词的第二特征向量的过程与第一查询词类似，在此不再赘述。

在第一种表现形式的第一种情况中，由于网页标题的数量较少，导致第一标题词语集合中的元素较少，进而使得第一特征向量和第二特征向量的具有相同元素的概率减小；这不利于后续计算第一查询词和第二查询词的相似度。在第二种情况中网页标题进行二元分词，使得第一标题词语集合中的元素简单化和稠密化，从而增加第一特征向量和第二特征向量具有相同元素的概率，以便利于计算第一查询词和第二查询词的相似度。

上述内容为确定第一特征向量集合和第二特征向量集合的第一种表现形式，下面介绍实例化第一特征向量集合和第二特征向量集合的第二种表现形式。

第二种表现形式：网址特征向量。

所述第一特征向量包括：由第一网页网址集合中每个网页网址的点击次数所构建的第一网址特征向量；相应的，所述第二特征向量包括：由第二网页网址集合中每个网页网址的点击次数所构建的第二网址特征向量。

其中，所述第一网页网址集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页的网址的集合；其中，所述第二网页网址集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页的网址的集合。

以第一查询词为例，在历史搜索日志中提取与第一查询词对应的多个网页的网址以及统计每个网址的点击次数。将各个网址作为特征向量的元素，并将各个网址的点击次数构建一维特征向量，将一维特征向量组成网址特征向量。

例如，第一查询词在历史搜索日志中对应点击网页的为网址1、网址2和网址3，各个网址的点击次数分别为80、50和70，则可以将网址1、网址2和网址3分别作为特征向量的元素，将各个网址的点击次数依次作为特征向量的内容，从而得到网址特征向量为[805070]。

第二查询词确定网址特征向量的过程与第一查询词类似，在此不再赘述。

下面介绍第一特征向量和第二特征向量的第三种表现形式。

第三种表现形式：相关查询词特征向量。

所述第一特征向量包括：由第一相关查询词词语集合中每个相关查询词词语的点击次数所构建的第一相关查询词特征向量；相应的，所述第二特征向量包括：由第二相关查询词词语集合中每个相关查询词词语的点击次数所构建的第二相关查询词特征向量。

在第一种情况下，所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词的集合，所述第二相关查询词词语集合为：与所述第二查询词相关联的相关查询词的集合。

以第一查询词为例，为了增加第一特征向量中元素的内容，本申请获取与第一查询词的相关查询词集以及相关查询词集的点击次数，并将相关查询词组成第一特征向量的元素，将相关查询词的点击次数组成第一特征向量。

在确定与第一查询词相关联的相关查询词时，可以先确定第一查询词在历史搜索日志中对应点击网页的为网址1、网址2和网址3，然后将网址1、网址2和网址3对应的查询查询词作为与第一查询词相关联的相关查询词，以及每个相关查询词针对网址的点击次数。然后，将与各个网址相关的相关查询词进行合并，得到第二相关查询词词语集合。

本申请这样做的目的为提高第一特征向量集合中元素数量，从而尽可能的提升第一查询词和第二查询词的相似度。

例如，网址1对应的搜索查询词可以为查询词1和查询词2，并且，查询词1相对于网址1的点击次数为20，查询词2相对于网址1的点击次数为30；网址2对应的搜索查询词可以为查询词2和查询词3，查询词2相对于网址2的点击次数为35，查询词3相对于网址2的点击次数为40；网址3对应的搜索查询词可以为查询词1和查询词4，查询词1相对于网址3的点击次数为45，查询词4相对于网址3的点击次数为50。

整合第一查询词各个网址的相关查询词为查询词1(20+45＝65)、查询词2(30+35＝65)、查询词3(40)和查询词4(50)，则第一相关查询词词语集合为查询词1、查询词2、查询词3和查询词4。由第一相关查询词词语集合形成的第一特征向量集合为[65654050]。

在第二种情况下，所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词进行二元分词后得到分词结果的集合；与所述第二查询词相关联的相关查询词进行二元分词后得到分词结果的集合；其中，在所述历史搜索日志中所述第一查询词和所述第一查询词的相关查询词对应的点击网页相同，在所述历史搜索日志中所述第二查询词和所述第二查询词的相关查询词对应的点击网页相同。

例如，在得到与第一查询词相关的查询词1、查询词2、查询词3和查询词4之后，还可以再对每个相关查询词进行二元分词得到分词结果，再对分词结果进行整理合并，得到去除相同分词结果后的第一相关查询词词语集合，及每个分词结果的总的点击次数。

在此情况下，将第一相关查询词词语集合中每个分词结果作为第一特征向量集合的元素，将各个分词结果的点击次数作为第一特征向量集合。该过程的执行步骤与第一种表现形式的第二种情况类似，在此不再赘述。

确定第二查询词的相关查询词特征向量的过程与第一查询词类似，在此不再赘述。

上述详细介绍了第一特征向量和第二特征向量的三种表现形式。可以理解的是，第一特征向量集合和第二特征向量可以包含三种表现形式中一种或多种表现形式，并且，第一特征向量集合和第二特征向量集合中包含特征向量的表现形式是相同的。

下面介绍本申请一种查询词相似度计算方法的实施例，如图1所示，包括步骤S101～S103：

步骤S101：确定与第一查询词对应的第一特征向量集合，及，与第二查询词对应的第二特征向量集合。第一特征向量集合和所述第二特征向量集合由所述历史搜索日志确定的，所述历史搜索日志中包含在预设时间内所有真实用户针对所述第一查询词而发生的点击网页行为的日志数据，以及，在所述预设时间内所有真实用户针对所述第二查询词而发生的点击网页行为的日志数据。

本申请采用第一特征向量集合表示第一查询词，采用第二特征向量集合表示第二查询词。第一特征向量集合和第二特征向量集合均从历史搜索日志中提取的，所以，第一特征向量集合和第二特征向量集合能够准确反应真实用户的对于第一查询词和第二查询词的点击行为，即第一特征向量集合和第二特征向量集合能够准确反应第一查询词和第二查询词的真实含义，而非字样上的含义。

第一特征向量集合可以包含第一标题特征向量，第一网址特征向量和/或第一相关查询词特征向量。第二特征向量集合可以包含第二标题特征向量，第二网址特征向量和/或第二相关查询词特征向量。第一特征向量集合和第二特征向量集合中所包含的特征向量的类型是相同的，即第一特征向量集合包含第一标题特征向量，第二特征向量集合中同样包含第二标题特征向量。

第一特征向量集合和第二特征向量集合的确定过程已在前述内容进行详细介绍，本步骤中不再赘述。

步骤S102：计算所述第一特征向量集合和所述第二特征向量集合的特征相似度。

计算第一特征向量和第二特征向量的特征相似度，即为计算两个特征向量之间的距离是否相近，如果两个特征向量的距离较近，则表征两者的特征相似度较高，如果两者的距离较远，则表征两者的相似度较低。

计算两个特征向量之间的相似度可以包括：(1)计算两个特征向量的欧氏距离、并将欧式距离转换为相似度；(2)计算两个特征向量的曼哈顿距离、并将曼哈顿距离转换为相似度；(3)计算两个特征向量的夹角余弦、夹角余弦即为两者的相似度(两个特征向量越相似，距离越近，两者的夹角余弦越大)。当然可以理解的是，还可以采用其它方式来计算两个特征向量之间的相似度，在此不再一一列举。

由于在方式(3)中计算两个特征向量的夹角余弦即为两个特征向量的相似度；相对于方式(1)和方式(2)而言，仅需一步便可以得到两个特征向量之间的相似度，该方式较为简单方便。

下面以方式(3)为例，对本步骤进行详细说明。如图2所示，具体包括以下步骤：

步骤S201：在所述第一特征向量集合和所述第二特征向量集合中，计算每对相同类型的特征向量之间的夹角余弦，得到一个或多个夹角余弦；其中，所述第一特征向量集合包括由历史搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征向量；所述第二特征向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应的所述一个或多个类型的特征向量。

以第一特征向量集合的第一网址特征向量和第二特征向量集合中第二网址特征向量为例，对本步骤进行说明：

以第一网址特征向量为[805070]为例，且各个元素分别对应网址1、网址2和网址3。第二网址特征向量为[50607580]为例，且各个元素分别对应网址1、网址2和网址4、网址5。

为了计算第一网址特征向量和第二网址特征向量的夹角余弦，需要重新计算第一网址特征向量和第二网址特征向量。整合第一网址特征向量和第二网址特征向量两者所包含所有元素得到特征元素为网址1、网址2、网址3、网址4和网址5。对于第一网址特征向量而言，新的第一网址特征向量为A＝[80507000]，由于原有的第一网址特征向量中没有网址4和网址5，所以对应的特征元素上的数值为零；同理可以得到新的第二网址特征向量为B＝[506007580]。

则按照夹角余弦的计算公式计算向量A和向量B之间的网址夹角余弦：

夹角余弦为一个0到1之间的数值，如果数值越接近1，表示两个向量的夹角越小，即表示第一查询词(向量A)和第二查询词(向量B)越相似；如果越接近0，表示两个向量夹角越大，也就是即表示第一查询词(向量A)和第二查询词(向量B)越不相似。

当第一特征向量集合和第二标题特征向量集合中包含第一标题特征向量和第二标题特征向量时，也可以按照类似的计算方式来计算与两者的标题向量对应的标题夹角余弦。同理，当第一特征向量集合和第二标题特征向量集合中包含第一相关查询词特征向量和第二相关查询词特征向量时，也可以按照类似的计算方式来计算与两者的相关查询词向量对应的相关夹角余弦。

步骤S202：计算所述一个或多个夹角余弦之间的拟合结果。

如果第一特征向量集合第二特征向量集合中只有一个类型的特征向量，则计算得到一个夹角余弦，因此无需进行拟合直接将一个夹角余弦作为拟合结果。如果第一特征向量集合第二特征向量集合中包含两个及以上类型的特征向量，则可以得到两个及以上夹角余弦，需要将两个及以上夹角余弦进行拟合。

以步骤S201中得到三个夹角余弦，分别为标题夹角余弦a、网址夹角余弦b和相关夹角余弦c。

那么，拟合结果＝x*a+y*b+z*c………………公式2

其中，x，y，z则表示各个夹角余弦对应的系数。具体在应用时可以取x＝0.1，y＝0.8，z＝0.1。

当然，还可以对多个夹角余弦进行拟合的方式有多种，例如线性拟合、非线性拟合或其它拟合方式，在此不再一一列举。

步骤S203：将所述拟合结果确定为所述第一特征向量集合和所述第二特征向量集合的特征相似度。

将一个或多个夹角余弦的拟合结果，作为第一特征向量集合第二特征向量集合的相似度。两个特征向量集合的特征相似度可以反映第一查询词和第二查询词之间的相似度。

接着返回图1，进入步骤S103：在所述第一查询词和所述第二查询词均满足预设条件的情况下，将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。

预设条件可以为空条件，即在步骤S102中计算得到可以直接将特征相似度确定为查询词相似度。

预设条件还可以为搜索次数大于预设次数，即在第一查询词的搜索次数和第二查询词的搜索次数均大于预设次数的情况下，将特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。

第一查询词的搜索次数和第二查询词的搜索次数可以为在历史搜索日志中统计得到的，当第一查询词的搜索次数和第二查询词的搜索次数均大于预设次数时，才能够充分利用历史搜索日志中提取的第一特征向量集合和第二特征向量集合，准确代表第一查询词和第二查询词。否则，则会由于历史搜索日志中包含的与第一查询词和第二查询词相关的搜索数据过少，无法准确形成代表第一查询词的第一特征向量集合和代表第二查询词的第二特征向量集合。

那么，在第一查询词的搜索次数和第二查询词的次数均不大于预设次数的情况，即第一特征向量集合和第二特征向量集合不能准确表示第一查询词和第二查询词的情况下，本申请计算第一查询词和第二查询词的字样相似度，从字样相似度上计算第一查询词和第二查询词的查询词相似度。

下面介绍本申请查询词相似度计算方法的另一实施例。如图3所示，包括：

步骤S301：计算所述第一查询词和所述第二查询词之间的字样相似度。

其中，计算两个查询词的字样相似度的方式可以有多种：

下面列举三种计算字样相似度的方式：

如图4所示，第一种方式具体包括：

步骤S401：确定与所述第一查询词对应的第一查询词集合，及，与所述第二查询词对应的第二查询词集合。

首先，确定第一查询词的第一查询词集合以及第二查询词的第二查询词集合。两个查询词集合中均包含与各自查询词对应的相关词语，利用第一查询词集合与第二查询词集合的字样相似度，来确定第一查询词和第二查询词之间的相似度。

下面介绍确定第一查询词集合和第二查询词集合的三种情况：

第一种情况：所述第一查询词集合包含所述第一查询词或所述第一查询词进行二元分词的分词结果，相应的，所述第二查询词特征向量中包含所述第二查询词或所述第二查询词进行二元分词的分词结果。

对第一查询词和第二查询词进行二元分词得到各自的分词结果，将第一查询词的分词结果作为第一查询词集合，将第二查询词的分词结果作为第二查询词集合。

第二种情况：所述第一查询词集合包含与所述第一查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果，所述第二查询词集合包含与所述第二查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果。

对第一查询词进行分词的分词结果仅能够代表第一查询词的字样，为了尽可能增加第一查询词与第二查询词之间的相似度；本市实施例可以获取与第一查询词相关的相关词语，然后将第一查询词以及与第一查询词相关的相关词语共同组成第一查询词集合。

或者，将第一查询词和与第一查询词相关的相关词语均进行二元分词，将二元分词的结果作为第一查询词集合。同理也可以对第二查询词进行同样的处理，得到第二查询词集合。

第三种情况：述第一查询词集合包含所述第一查询词的近义词集或该近义词集进行二元分词后的分词结果；所述第二查询词集合包含所述第二查询词的近义词集或该近义词集进行二元分词后的分词结果。

与第二种情况类似，在此不再赘述。

步骤S402：将所述第一查询词集合和所述第二查询词集合之间的字样重叠度，确定为所述第一查询词和所述第二查询词的字样相似度。

本步骤中以第一查询词集合和第二查询词集合中字样重叠度，来表示第一查询词和第二查询词的字样相似度。可以理解的是，字样重叠相似度越高，则第一查询词和第二查询词之间的字样相似度越高。

其中，计算重叠相似度时可以首先确定第一查询词集合和第二查询词集合共同拥有的词语数量C，再确定第一查询词集合和第二查询词集合中词语最大的词语数量D；计算C与D的商C/D。将商值作为第一查询词集合和第二查询词集合的字样重叠度；进而将字样重叠度作为第一查询词和第二查询词的字样相似度。

如图5所示，第二种方式包括：

步骤S501：确定与所述第一查询词对应的第一查询词集合中每个词语的出现次数所构建的第一查询词特征向量，和，与所述第二查询词对应的第二查询词集合中每个词语的出现次数所构建的第二查询词特征向量。

按步骤S401确定与第一查询词对应的第一查询词集合，以及与第二查询词对应的第二查询词集合。第一查询词特征向量集合中每个元素与第一查询词集合中元素相同，并且每个特征元素的值则默认为1。如果第一查询词集合中有第一查询词的相关词或近义词，则元素的值设为第一查询词与该相关词或近义词的置信度。其中，置信度是用来表征相关词或近义词与第一查询词的语义相同程度，如语义不同，则置信度趋近于0，如语义完全相同，则置信度趋近于1。可以依据现有技术中计算的方式计算第一查询词和相关词(近义词)的置信度，在此不再赘述。

步骤S502：将所述第一查询词特征向量和所述第二查询词特征向量之间的夹角余弦，确定为所述第一查询词和所述第二查询词的字样相似度。

按步骤S201的方式，计算第一查询词特征向量与所述第二查询词特征向量之间的夹角余弦，并将夹角余弦确定作为第一查询词和第二查询词之间的字样相似度。

如图6所示，第三种方式为第一种方式和第二种方式的总和。

步骤S601：计算第一查询词特征向量和第二查询词特征向量的夹角余弦，计算第一查询词集合与所述第二查询词集合的字样重叠度。

单单考虑一方面的相似度有一些单薄，所以第三种方式中综合考虑第一查询词与第二查询词之间的字样重叠度以及夹角余弦。参见图4和图5所示的计算方式，在此不再赘述。

步骤S602：将所述夹角余弦和字样相似度的结合结果作为第一查询词和第二查询词的字样相似度。

对夹角余弦d和字样重叠度f进行线性加权拟合，得到第一查询词和第二查询词最终的字样相似度，具体可以为：字样相似度＝x*d+y*f，其中，x，y则表示对应的系数，按照经验值x、y的值可以为x＝0.8，y＝0.2。具体数值可以依据具体情况而定，在此不做限定。

当然，还可以采用其他方式来计算第一查询词和第二查询词之间的字样相似度，再次不再一一列举。

接着返回图3，进入步骤S302：在所述第一查询词和所述第二查询词均不满足预设条件的情况下，将所述字样相似度确定为所述第一查询词与所述第二查询词之间的查询词相似度。

在图1所示的实施例的基础上，下面介绍本申请查询词相似度计算方法的另一实施例。如图7所示，本申请实施例还包括：

步骤S701：计算所述第一查询词和所述第二查询词之间的字样相似度。

在图3所示的实施例中已经详细介绍字样相似度的计算过程，在此不再赘述。

步骤S702：在所述第一查询词和所述第二查询词其中一个不满足预设条件的情况下，将所述特征相似度和所述字样相似度的结合结果，确定为所述第一查询词与所述第二查询词之间的查询词相似度。

在第一查询词的搜索次数和第二查询词的搜索次数其中有一个不满足预设条件时，则说明其中一个查询词的利用历史搜索日志生成的特征向量集合可能不准确。因此，为了保证结果的准确性，本实施例综合考虑特征相似度和字样相似度，来决定查询词相似度。

具体的，可以为查询词相似度＝x*特征相似度+y*字样相似度；其中，x，y则表示对应的系数，按照经验值x、y的值可以为x＝0.6，y＝0.4。具体数值可以依据具体情况而定，在此不做限定。

在搜索引擎中，查询词的点击次数往往随着在显示界面上位置的下降，而呈指数级下降。在进行相似度计算时这种次数差异会被过分放大，这样不利于后续的相似度计算。所以，本申请上述实施例中所有涉及的到次数时，为了保证消除点击次数的差距过大对相似度的影响，可以预先对次数进行平滑处理。

平滑处理的方式可以为：平滑次数＝(真实次数*固定参数)/(真实次数+固定参数)；固定参数可以为100，当然还可以根据实际情况进行选择，在此不做限定。当然，还可以选择其它平滑的处理方式，在此不再一一列举。

综上所述，本申请具有以下有益效果：

本申请在整个相似度的计算过程中，较大程度的依赖用户真实的点击行为，也就是较大程度贴近第一查询词和第二查询词语义。即本申请计算第一查询词和第二查询词的语义特征之间的相似度，而非字样之间的相似度，因此本申请可以提高查询词相似度准确性。本申请使得一些字面上毫不相关，但实际含义近似的两个查询词，通本申请可以得到很高的相似度。比如：经过计算查询词“stnb”和查询词“神偷奶爸”为0.91。

此外，本申请采取多种不同纬度的特征向量来计算特征相似度和查询词相似度，并且根据第一查询词和第二查询词的查询次数的不同情况，采取不同的计算查询词相似度的方式，从而较大程度提高算法的鲁棒性和实用性。

如图8所示，本申请还提供了一种查询词搜索方法，包括：

步骤S801：获取待查询查询词。

在查询查询词过段时，则控制器无法准确查找与待查询查询词相关的网页，当查询查询词过长时，则控制器会将多个重复的信息进行重复查询，降低查询效率。所以，在此情况下，可以查找与待查询查询词相似度最高的查询词。

步骤S802：在查询词相似度数据库中，查找与所述待查询查询词相似度最大的目标查询词；其中，所述查询词相似度数据库包含各个查询查询词之间查询词相似度，各个查询查询词之间的查询词相似度为图1-图7所述的方法得到的。

按图1-图7所示的方式，计算两两查询词之间的相似度并对应存储，形成查询词相似度数据库。在查询词相似度数据库中查找与待查询查询词相似度最高的目标查询词。目标查询词为合适长短的词语，既不会过短又不会过长，因此适用于控制器进行搜索。

步骤S803：将所述目标查询词代替所述待查询查询词，搜索与所述待查询查询词相关的网页。

将目标查询词代替待查询查询词，在搜索数据库中进行查询，从而查找到与待查询查询词相关的网页。

本实施例由于更换了不适用于控制器查询的待查询查询词，所以，可以提高控制器的查询效率和准确度。

如图9所示，本申请提供了一种查询词相似度的计算装置，包括：

确定集合单元91，用于确定与第一查询词对应的第一特征向量集合，及，与第二查询词对应的第二特征向量集合；其中，所述第一特征向量集合和所述第二特征向量集合依据历史搜索日志确定，所述历史搜索日志包含真实用户针对所述第一查询词而发生的点击网页行为的日志数据，以及，在真实用户针对所述第二查询词而发生的点击网页行为的日志数据；

计算特征相似度单元92，用于计算所述第一特征向量集合和所述第二特征向量集合的特征相似度；

第一确定相似度单元93，用于在所述第一查询词和所述第二查询词均满足预设条件的情况下，将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。

如图10所示，本申请提供的装置，还包括：

计算字样相似度单元94，用于计算所述第一查询词和所述第二查询词之间的字样相似度；

第二确定相似度单元95，用于在所述第一查询词和所述第二查询词均不满足预设条件的情况下，将所述字样相似度确定为所述第一查询词与所述第二查询词之间的查询词相似度。

第三确定相似度单元96，用于在所述第一查询词和所述第二查询词其中一个不满足预设条件的情况下，将所述特征相似度和所述字样相似度的结合结果，确定为所述第一查询词与所述第二查询词之间的查询词相似度。

其中，所述预设条件包括：查询词的搜索次数大于预设次数。

如图11所示，在图9中所述计算特征相似度单元92，包括：

计算余弦单元111，用于在所述第一特征向量集合和所述第二特征向量集合中，计算每对相同类型的特征向量之间的夹角余弦，得到一个或多个夹角余弦；其中，所述第一特征向量集合包括由历史搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征向量；所述第二特征向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应的所述一个或多个类型的特征向量；

拟合单元112，用于计算所述一个或多个夹角余弦之间的拟合结果；

确定特征相似度单元113，用于将所述拟合结果确定为所述第一特征向量集合和所述第二特征向量集合的特征相似度。

第一特征向量集合和第二特征向量集合有三种情况：

第一种情况：

所述第一特征向量集合包括：由第一标题词语集合中每个标题词语的点击次数所构建的第一标题特征向量；相应的，所述第二特征向量集合包括：由第二标题词语集合中每个标题词语的点击次数所构建的第二标题特征向量；

第二种情况：

所述第一特征向量集合包括：由第一网页网址集合中每个网页网址的点击次数所构建的第一网址特征向量；其中，所述第一网页网址集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页的网址的集合；相应的，所述第二特征向量集合包括：由第二网页网址集合中每个网页网址的点击次数所构建的第二网址特征向量；其中，所述第二网页网址集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页的网址的集合。

第三种情况：所述第一特征向量集合包括：由第一相关查询词词语集合中每个相关查询词词语的点击次数所构建的第一相关查询词特征向量；相应的，所述第二特征向量集合包括：由第二相关查询词词语集合中每个相关查询词词语的点击次数所构建的第二相关查询词特征向量。

计算字样相似度有以下两种情况：

第一种情况：如图12所示，所述计算字样相似度单元94，包括：

确定查询词集合单元121，用于确定与所述第一查询词对应的第一查询词集合，及，与所述第二查询词对应的第二查询词集合；

第一确定字样相似度单元122，用于将所述第一查询词集合和所述第二查询词集合之间的字样重叠度，确定为所述第一查询词和所述第二查询词的字样相似度。

第二种情况：如图13所示，所述计算字样相似度单元94，包括：

确定查询词特征向量单元131，用于确定与所述第一查询词对应的第一查询词集合中每个词语的出现次数所构建的第一查询词特征向量，和，与所述第二查询词对应的第二查询词集合中每个词语的出现次数所构建的第二查询词特征向量；

第二确定字样相似度单元132，用于将所述第一查询词特征向量和所述第二查询词特征向量之间的夹角余弦，确定为所述第一查询词和所述第二查询词的字样相似度。

其中，所述第一查询词集合包含所述第一查询词或所述第一查询词进行二元分词的分词结果，相应的，所述第二查询词特征向量中包含所述第二查询词或所述第二查询词进行二元分词的分词结果；

和/或，

从以上内容可以看出本申请具有以下有益效果：

如图14所示，本申请还提供了一种查询词搜索装置，包括：

获取单元141，用于获取待查询查询词；

查找单元142，用于在查询词相似度数据库中，查找与所述待查询查询词相似度最大的目标查询词；其中，所述查询词相似度数据库包含各个查询查询词之间查询词相似度，各个查询查询词之间的查询词相似度为依据权利要求1所述的方法得到的；

搜索单元143，用于将所述目标查询词代替所述待查询查询词，搜索与所述待查询查询词相关的网页。

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种查询词相似度的计算方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，还包括：

计算所述第一查询词和所述第二查询词之间的字样相似度；

3.如权利要求1所述的方法，其特征在于，还包括：

计算所述第一查询词和所述第二查询词之间的字样相似度；

4.如权利要求1所述的方法，其特征在于，所述计算所述第一特征向量集合和所述第二特征向量集合的相似度，包括：

计算所述一个或多个夹角余弦之间的拟合结果；

5.如权利要求1所述的方法，其特征在于，

所述第一特征向量集合包括：由第一标题词语集合中每个标题词语的点击次数所构建的第一标题特征向量；

6.如权利要求1所述的方法，其特征在于，

所述第一特征向量集合包括：由第一网页网址集合中每个网页网址的点击次数所构建的第一网址特征向量；其中，所述第一网页网址集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页的网址的集合；

7.如权利要求1所述的方法，其特征在于，

所述第一特征向量集合包括：由第一相关查询词词语集合中每个相关查询词词语的点击次数所构建的第一相关查询词特征向量；

8.如权利要求2所述的方法，其特征在于，所述计算所述第一查询词和所述第二查询词之间的字样相似度，包括：

9.如权利要求2或8所述的方法，其特征在于，所述计算所述第一查询词和所述第二查询词之间的字样相似度，包括：

10.如权利要求9所述的方法，其特征在于，

所述第一查询词集合包含所述第一查询词或所述第一查询词进行二元分词的分词结果，相应的，所述第二查询词特征向量中包含所述第二查询词或所述第二查询词进行二元分词的分词结果；

和/或，

11.如权利要求1-3任一项所述的方法，其特征在于，所述预设条件包括：

查询词的搜索次数大于预设次数。

12.一种查询词搜索方法，其特征在于，包括：

获取待查询查询词；

13.一种查询词相似度的计算装置，其特征在于，包括：

14.如权利要求13所述的装置，其特征在于，还包括：

15.如权利要求13所述的装置，其特征在于，还包括：

16.如权利要求13所述的装置，其特征在于，所述计算特征相似度单元，包括：

17.如权利要求13所述的装置，其特征在于，

18.如权利要求13所述的装置，其特征在于，

19.如权利要求13所述的装置，其特征在于，

20.如权利要求14所述的装置，其特征在于，所述计算字样相似度单元，包括：

21.如权利要求13或20所述的装置，其特征在于，所述计算字样相似度单元，包括：

22.如权利要求21所述的装置，其特征在于，

和/或，

23.如权利要求13-15任一项所述的装置，其特征在于，所述预设条件包括：

查询词的搜索次数大于预设次数。

24.一种查询词搜索装置，其特征在于，包括：

获取单元，用于获取待查询查询词；