CN104199833B

CN104199833B - 一种网络搜索词的聚类方法和聚类装置

Info

Publication number: CN104199833B
Application number: CN201410377357.1A
Authority: CN
Inventors: 孙鹏飞
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-08-01
Filing date: 2014-08-01
Publication date: 2017-09-01
Anticipated expiration: 2034-08-01
Also published as: CN104199833A

Abstract

本发明公开了一种网络搜索词的聚类方法和聚类装置，所述方法包括：对相同URL的网络搜索词，根据URL抓取网页相关内容，生成短文本信息；对短文本信息提取关键词，并根据关键词获取每条短文本信息对应的关键词向量；判断任两个关键词向量是否为相似的关键词向量；当存在相似的两个关键词向量时，对相似的两个关键词向量进行合并，生成一个新的关键词向量代替所述相似的两个关键词向量，并继续判断任两个关键词向量是否为相似的关键词向量；当不存在相似的关键词向量时，从互不相似的各关键词向量中提取网络搜索词，将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。本发明能够取得提升聚类速度和精度的有益效果。

Description

一种网络搜索词的聚类方法和聚类装置

技术领域

本发明涉及数据分析技术领域，特别涉及一种网络搜索词的聚类方法和聚类装置。

背景技术

聚类分析是数据分析中的一种重要技术，在网站信息分类问题、网页的点击行为关联性问题及用户搜索词(query)分类问题等多个领域得到广泛的关注和研究。它可以将看似无序的对象进行分组、归类，以达到更好地理解研究对象的目的。

现有方案在对用户搜索词进行聚类时，根据用户共同点击的URL(UniformResource Locator，统一资源定位符)进行聚类分析，将具有相同URL的用户搜索词划分为同一类。

然而，单纯依靠共同点击的URL进行聚类是片面的、不准确的，例如，仅依赖用户共同点击的URL得到的聚类结果中会出现长尾现象，也就是说，只有少数20％的高频搜索词，才会对应相同的URL，而其他80％的搜索词没有共同的URL。再如，一些搜索词虽然没有共同的URL，但是却应该聚到一起，如“金融”和“股票”。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网络搜索词的聚类方法和相应的聚类装置。

依据本发明的一个方面，本发明实施例提供了一种网络搜索词的聚类方法，包括：

从搜索日志中提取出需要进行聚类的网络搜索词；

对相同统一资源定位符URL的网络搜索词，根据所述URL抓取网页相关内容，生成短文本信息；

对所述短文本信息提取关键词，并根据所述关键词获取每条短文本信息对应的关键词向量；

判断任两个所述关键词向量是否为相似的关键词向量；

当存在相似的两个关键词向量时，对相似的两个关键词向量进行合并，生成一个新的关键词向量代替所述相似的两个关键词向量，并继续判断任两个关键词向量是否为相似的关键词向量；

当不存在相似的关键词向量时，从互不相似的各关键词向量中提取网络搜索词，将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。

可选地，所述对相同统一资源定位符URL的网络搜索词，根据所述URL抓取网页相关内容，生成短文本信息包括：

将对应于相同URL的网络搜索词设置在短文本信息中，其中，当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时，从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中；

从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值，将所述属性值设置在在所述短文本信息中。

可选地，在对所述短文本信息提取关键词之前，所述方法还包括：

剔除所述短文本信息中的停用词，并对剔除停用词后的短文本信息中的词项进行词性分析，得到各词项的词性。

其中，对所述短文本信息提取关键词包括：

将预定词性的词项选取为所述关键词，所述词性包括名词、形容词、副词和动词。

可选地，所述根据所述关键词得到每条短文本信息对应的关键词向量包括：

利用关键词在关键词向量中的词频值，计算所述关键词在每条短文本信息中的权重值；

根据所述关键词和关键词在本条短文本信息中的权重值，得到本条短文本信息对应的关键词向量。

并且，所述判断任两个所述关键词向量是否为相似的关键词向量包括：

根据两个关键词向量中各关键词的权重值，计算两个关键词向量之间的余弦相似度，当计算出的余弦相似度大于预定阀值时，判断所述两个关键词向量为相似的关键词向量，当计算出的余弦相似度不大于预定阀值时，判断所述两个关键词向量不是相似的关键词向量。

其中，所述计算两个关键词向量之间的余弦相似度包括：

对第一关键词向量中的第一关键词，在设置的词项倒排索引表中查询该第一关键词对应的关键词向量，当对应的关键词向量包括第二关键词向量时，获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词；

利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度；

上述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表，所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。

可选地，所述方法还包括建立关键词向量和短文本信息的对应关系：

将所述对应关系和向量合并关系记录在向量正排索引表中，其中，所述对应关系指示向量编号与文本编号的对应关系，每个关键词向量设置有向量编号，每个短文本信息设置有文本编号，所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系；

所述向量正排索引表包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表，所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。

可选地，所述对相似的两个关键词向量进行合并，生成一个新的关键词向量包括：

利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词；

当关键词为相似的两个关键词向量的共同关键词时，由所述共同关键词在两个关键词向量中的权重值的平均值，得到该共同关键词在新的关键词向量中的权重值；

当关键词不是相似的两个关键词向量的共同关键词时，将该关键词在原关键词向量中的权重值作为该关键词在新的关键词向量中的权重值；以及，

将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。

根据本发明的另一方面，本发明实施例提供了一种网络搜索词的聚类装置，包括：

网络搜索词提取单元，适于从搜索日志中提取出需要进行聚类的网络搜索词；

短文本信息生成单元，适于对相同统一资源定位符URL的网络搜索词，根据所述URL抓取网页相关内容，生成短文本信息；

关键词向量获取单元，适于对所述短文本信息提取关键词，并根据所述关键词获取每条短文本信息对应的关键词向量；

判断单元，适于判断任两个所述关键词向量是否为相似的关键词向量；

聚类单元，适于当存在相似的两个关键词向量时，对相似的两个关键词向量进行合并，生成一个新的关键词向量代替所述相似的两个关键词向量，并继续判断任两个关键词向量是否为相似的关键词向量；

提取划分单元，适于当不存在相似的关键词向量时，从互不相似的各关键词向量中提取网络搜索词，将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。

可选地，所述短文本信息生成单元，适于将对应于相同URL的网络搜索词设置在短文本信息中，其中，当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时，从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中；从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值，将所述属性值设置在在所述短文本信息中。

可选地，所述关键词向量获取单元，适于在对所述短文本信息提取关键词之前，剔除所述短文本信息中的停用词，并对剔除停用词后的短文本信息中的词项进行词性分析，得到各词项的词性。

可选地，所述关键词向量获取单元，还适于将预定词性的词项选取为所述关键词，所述词性包括名词、形容词、副词和动词。

可选地，所述关键词向量获取单元，适于利用关键词在关键词向量中的词频值，计算所述关键词在每条短文本信息中的权重值；根据所述关键词和关键词在本条短文本信息中的权重值，得到本条短文本信息对应的关键词向量。

可选地，所述判断单元，适于根据两个关键词向量中各关键词的权重值，计算两个关键词向量之间的余弦相似度，当计算出的余弦相似度大于预定阀值时，判断所述两个关键词向量为相似的关键词向量，当计算出的余弦相似度不大于预定阀值时，判断所述两个关键词向量不是相似的关键词向量。

可选地，所述判断单元，还适于对第一关键词向量中的第一关键词，在设置的词项倒排索引表中查询该第一关键词对应的关键词向量，当对应的关键词向量包括第二关键词向量时，获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词；利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度；其中，所述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表，所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。

可选地，所述装置还包括对应关系建立单元，所述对应关系建立单元适于将所述对应关系和向量合并关系记录在向量正排索引表中，其中，所述对应关系指示向量编号与文本编号的对应关系，每个关键词向量设置有向量编号，每个短文本信息设置有文本编号，所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系；所述向量正排索引表包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表，所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。

可选地，所述聚类单元，适于利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词；当关键词为相似的两个关键词向量的共同关键词时，由所述共同关键词在两个关键词向量中的权重值的平均值，得到该共同关键词在新的关键词向量中的权重值；当关键词不是相似的两个关键词向量的共同关键词时，将该关键词在原关键词向量中的权重值作为该关键词在新的关键词向量中的权重值；以及，将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。

根据本发明的网络搜索词的聚类方法和聚类装置，通过利用用户点击url对应的网页信息，将网络搜索词的信息进行补全，形成短文本，从而增加网络搜索词的识别度；通过在传统的向量表述方法中，引入词性分析来提取关键词向量，从而减少了向量空间的维数，节省了内存占用空间；通过对相似的两个关键词向量进行合并，生成一个新的关键词向量代替相似的两个关键词向量，从而减少了网络搜索词的聚类类别，本发明能够取得提升聚类速度和精度的有益效果，更加精确的获取用户感兴趣的搜索内容。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例提供的一种网络搜索词的聚类方法的流程图；

图2示出了根据本发明一个实施例提供的词项倒排索引表TIIT基本机制结构示意图；

图3示出了根据本发明一个实施例提供的向量正排索引表VFIT基本机制结构示意图；以及

图4示出了根据本发明一个实施例提供的一种网络搜索词的聚类装置的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，根据本发明一个实施例提供的一种网络搜索词的聚类方法，该方法包括如下步骤：

S11，从搜索日志中提取出需要进行聚类的网络搜索词。

例如，对原始的搜索引擎点击日志进行分析，可以得到需要进行聚类的网络搜索词query的短文本信息。

S12，对相同URL的网络搜索词，根据所述URL抓取网页相关内容，生成短文本信息。

该步骤的一个具体实施例是：将对应于相同URL的网络搜索词设置在短文本信息中，其中，当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时，对这些相同的网络搜索词中进行合并去重，从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中；从具有所述URL的网页中抓取元标签中关键词属性和/或描述属性对应的属性值，将所述属性值设置在在所述短文本信息中。

由于query的短文本信息长度较短、表达内容丰富、组合比较灵活，所以单纯依靠query进行短文本聚类无法完成。通过分析可知，用户对搜索结果满意或者比较符合他搜索的意愿的时候才会进行点击，所以用户的这个行为在一定程度上给我们提供了更多的关于搜索词的信息，因此，我们可以首先得到每个query对应的url，对这些url进行分析，发现url相同对应的query或相同或相似，所以将这些url进行一次数据预处理，将相同url对应的query进行合并去重，形成一些<url,query>对；然后，我们根据每一个<url,query>对中的url进行网页抓取，为了减少存储空间，我们在抓取的同时进行网页解析，找到网页中<meta>(元)标签，查找name(名字)属性值为keywords(关键字)参数和description(网站内容描述)参数，并获得这些参数相应的content属性的值，将这些信息与query合并组成短文本信息。

meta是html语言head区的一个辅助性标签。meta标签共有两个属性，它们分别是http-equiv属性和name属性，不同的属性又有不同的参数值，这些不同的参数值就实现了不同的网页功能。其中name属性主要用于描述网页，与之对应的属性值为content，content中的内容主要是便于搜索引擎机器人查找信息和分类信息用的。在name属性中包括用来告诉搜索引擎你网页的关键字是什么的参数Keywords和用来告诉搜索引擎你的网站主要内容的参数description。

S13，对所述短文本信息提取关键词，并根据所述关键词获取每条短文本信息对应的关键词向量。

该步骤具体方法是：首先将预定词性的词项选取为关键词，所述词性包括名词、形容词、副词和动词；接着利用关键词在关键词向量中的词频(Term Frequency，TF)值，计算所述关键词在每条短文本信息中的权重值；然后根据所述关键词和关键词在本条短文本信息中的权重值，得到本条短文本信息对应的关键词向量。

需要说明的是，上述步骤S12形成的这些短文本信息尽管包含了query对应的完备信息，然而目前的自然语言处理技术无法完全处理这些文本信息。因此，在对短文本建立词频向量之前需要删除短文本中对应的停用词，如中文的“的”、“了”、英文的“a”、“is”等。由于本方案提出的方法需要对词项进行语义分析，除了删除停用词外还需要进行关键词的选取，这些关键词就是最能表征文本含义的实词，即该词项的词性是名词、动词、形容词和副词等。

文本预处理后，需要对每篇短文本的词项进行TF值的计算，将短文本中的各个词项的TF值表示成一个向量，以此来计算文本间的相似度。由于这个文本向量是高维的，所以我们可以从每篇短文本中挑选关键词，以此来表征文本，从而最大可能地减少短文本向量的维度。具体做法是：选取每篇短文本中的动词、名词、形容词和副词作为关键词项，如果设关键词项个数占整个短文本百分比为p，这样一篇短文本向量的维度可以下降1-p，这可以提高本方案的效率。

S14，判断任两个所述关键词向量是否为相似的关键词向量。

得到了每篇短文本的关键词向量之后，接下来需要考虑如何计算两篇短文本之间的相似度。由于关键词项代表了一篇文本中最重要的信息，因此文本的相似度就可以用关键词项向量间的相似度来描述。

判断任两个关键词向量是否为相似的关键词向量的具体方法可以是：根据两个关键词向量中各关键词的权重值，计算两个关键词向量之间的余弦相似度，当计算出的余弦相似度大于预定阀值时，判断所述两个关键词向量为相似的关键词向量，当计算出的余弦相似度不大于预定阀值时，判断所述两个关键词向量不是相似的关键词向量。

其中，计算两个关键词向量之间的余弦相似度包括：

对第一关键词向量中的第一关键词，在设置的词项倒排索引表(Term InvertedIndex Table，TIIT)中查询该第一关键词对应的关键词向量，当对应的关键词向量包括第二关键词向量时，获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词；

下面是计算两个关键词向量之间的余弦相似度的具体说明：

设t_i，t_j是两个不同的短文本关键词向量，p_i和p_j分别对应关键词在i文本和j文本中的占比。其中，t_i＝(w_i1,w_i2,…,w_in)，t_j＝(w_j1,w_j2,…,w_jm)，相似度定义为：

Sim(t_i,t_j)＝wf×CosSim(t_i,t_j) (1)

其中wf表示关键词向量t_i和t_j之间相似度的加权因子，这里我们定义CosSim(t_i,t_j)表示关键词向量t_i和t_j之间的余弦相似度。

具体的余弦相似度计算公式由式(2)给出：

式(2)中w_im表示每一个关键词的TF值，本方案中，我们定义为：

式(3)f_ij表示向量i中关键词j对应的词频，表示所有向量包含关键词j的总词频，表示关键词的总词频最大值。

将式(3)代入式(2)得到式(4)：

由式(4)知，余弦相似度CosSim(t_i,t_j)是由向量t_i和t_j之间的共同关键词及每个向量的模长所决定的。

S15，当存在相似的两个关键词向量时，对相似的两个关键词向量进行合并，生成一个新的关键词向量代替所述相似的两个关键词向量，并继续判断任两个关键词向量是否为相似的关键词向量。

本步骤中对相似的两个关键词向量进行合并，生成一个新的关键词向量包括：利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词；当关键词为相似的两个关键词向量的共同关键词时，由所述共同关键词在两个关键词向量中的权重值的平均值，得到该共同关键词在新的关键词向量中的权重值；当关键词不是相似的两个关键词向量的共同关键词时，将该关键词在原关键词向量中的权重值作为该关键词在新的关键词向量中的权重值；以及，将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。

S16，当不存在相似的关键词向量时，从互不相似的各关键词向量中提取网络搜索词，将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。

本发明的网络搜索词的聚类方法，通过利用用户点击url对应的网页信息，将网络搜索词的信息进行补全，形成短文本，从而增加网络搜索词的识别度；通过在传统的向量表述方法中，引入词性分析来提取关键词向量，从而减少了向量空间的维数，节省了内存占用空间；通过对相似的两个关键词向量进行合并，生成一个新的关键词向量代替相似的两个关键词向量，从而减少网络搜索词的聚类类别，本发明的网络搜索词的聚类方法能够取得提升聚类速度和精度的有益效果。

在一较佳实施方式中，本发明的网络搜索词的聚类方法还包括建立关键词向量和短文本信息的对应关系。具体地，将所述对应关系和向量合并关系记录在向量正排索引表(Vector Forward Index Table，VFIT)中，其中，所述对应关系指示向量编号与文本编号的对应关系，每个关键词向量设置有向量编号，每个短文本信息设置有文本编号，所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系。

上述向量正排索引表包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表，所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。

为了更好地根据词项计算相似度，本发明方案设计了一个词项倒排索引表(TermInverted Index Table，TIIT)和一个向量正排索引表(Vector Forward Index Table，VFIT)。

TIIT可分为词典正文表、向量索引表、词项信息表3级。通过词典表可以将指定词定位到向量索引表，在向量索引表中很容易定位到指定词在指定向量中的TF和向量的模长。TIIT基本机制结构示意如附图2所示。

VFIT可分为向量索引表、向量内容索引表、词项信息表3级。在向量索引表中，我们可以很容易通过指定向量号找到对应的向量内容索引表，后通过指定词在向量内容索引表中找到词项信息表，从而更新两个向量合并后的信息。VFIT基本机制结构示意如附图3所示。

通过以下方法，可以自动地构建词项倒排索引表TIIT和向量正排索引表VFIT：

(1)初始化

为了提高计算速度，我们对原始日志按1w行的粒度切分，对原始日志建立文件hash表，在文件hash表中key为文件编号(FileNum)，value为文件路径(FilePath)，其中文件编号(FileNum)与向量编号(VecNum)之间的对应关系为FileNum＝(VecNum-1)/10000，这样很容易通过向量编号(VecNum)找到对应的文件路径。用该文件分别构建词项倒排索引表TIIT和向量正排索引表VFIT。

(2)相似度计算

利用上述式(4)计算两关键词向量的相似度。

算法描述：Sim算法

输入：关键词向量t_i和t_j，词项倒排索引表TIIT，向量正排索引表VFIT，相似度阀值μ。

输出：关键词向量t_i和t_j的相似度Sim(t_i,t_j)。

1)初始化词项倒排索引表TIIT和向量正排索引表VFIT。

2)由式(4)知，分子是向量t_i和t_j所有共同词项w_im与w_jn的乘积和，分母是向量t_i和t_j模长乘积。因此，只要从向量t_i中的词项w₁开始，在TIIT中查找词项w₁对应的向量，判断是否包含t_j，如果包含，则计算TF值w_i1与w_j1的乘积，并得到向量t_i和t_j的模长；否则，乘积为0。

3)累加上述2)结果，计算式(4)的分子、分母，得到相似度，以此作为向量t_i和t_j的相似度CosSim(t_i,t_j)。

4)根据前述步骤，对关键词向量t_i和t_j的相似度进行加权处理后得到短文本相似度Sim(t_i,t_j)。

(3)更新索引表

Sim算法要求预先确定阀值，计算两向量t_i和t_j的相似度，如果相似度Sim(t_i,t_j)＞μ，将t_i和t_j合并为一个新的簇t_k＝Simt_i∪t_j，则组成的新簇的关键向量为即如果两向量t_i和t_j有共同词w₁，则将t_k新向量中词w₁的权值表示为否则，保留t_i和t_j；为了减少存储空间，这里我们将向量t_i和t_j合并到向量t_j。从而需要调整词项倒排索引表TIIT和向量正排索引VFIT，以减少存储空间，加快计算速度。

调整索引表的具体步骤如下：

第一步，在VFIT表中，建立临时变量，将向量t_i中词w_in与向量t_j中词wj_m合并，同时更新向量的模长，保存到临时变量中，然后在VFIT表中将向量t_i和向量t_j删除，再将临时变量插入到VFIT表中，向量编号为t_j。第二步，在TIIT表，依据更新后的VFIT表，查找向量t_j对应在每个词w_jm，删除词w_jm对应向量t_i，同时更新对应的向量t_j，完成对TIIT表的更新。

上述较佳实施例，通过建立倒排索引表及向量正排索引表，利用这些索引表，能够加快向量相似度的计算，提高网络搜索词聚类的执行速度；通过变换余弦相似度的计算公式，改进关键词向量权值的表示，能够进一步减少存储空间，加快计算速度。

下面用实验数据验证本发明网络搜索词的聚类方法的有效性。

实验数据来源于搜索引擎的点击日志，随机选取1000条原始数据作为测试用例。

(1)数据预处理

将原始数据整理成<url,query>对，在整理过程中，我们发现由于query的信息量少、表述随意，如3D村(黄页)、牛仔网(金融)等，人为都无法单纯从query信息中获知其类别，因此，本方案采用通过URL获得网页中<meta>属性值后，补全query信息，形成短文本。

例如将“牛仔网”补全后为“牛仔网，牛仔网，股票，股票网，牛仔网是中国第一股民社区，我们秉承专业、互助、诚信的原则，与市场最与时俱进的实战高手、专家，通过互动与交流的方式让股民更加了解股票，用股票直播，股票操盘，股票大赛，股票博客，中证内参等全面立体的产品服务，让中国股民共享财富生活。”，这样，增加信息量，致使我们人为也可以区分。

(2)关键词向量

利用汉语词法分析系统ICTCLAS(Institute of Computing Technology,ChineseLexical Analysis System)，将短文本信息进行一级标注的词语切分，并统计标注好的切分词语的词频。同时，这里我们采用基于语义分析的方法，对切分后的词语进行词性分析，只保留被标注为名词、形容词、副词、动词的词语。根据确定的切分词语构造关键向量。将1000条原始数据都表示成关键词向量。

(3)初始化索引表

对关键词向量建模，将原始短文表示成一个个关键词向量，然后分别初始化词项倒排索引表TIIT和向量正排索引表VFIT。

(4)聚类

在实验中，采用上述式(4)来计算两向量之间的相似性。另外，本方案采用的阀值策略是：先制定初始值，然后根据实验的效果多次调整，最终确定相似度阀值为0.5。

(5)聚类效果分析

建立对比模型，对它们的优劣在实验层面上做了对比研究。

A：所有类型词语都用于构建空间向量。

B：只采用名词、动词、形容词、副词构建空间向量。

C：不利用索引表计算相似度。

D：利用索引表计算相似度。

表1是实验结果。其中，t(time)表示聚类消耗的时间，单位为ms；c(classify)表示聚类类别，由于聚类消耗时间依赖于执行情况，因而每次有一定的差异，这里我们采用多次实验结果的平均值。

表1 聚类实验效果

对实验结果分析，可以得出以下几点：

(1)A、B的对比可知，由于B模型采用的是关键词向量，这样减少了向量空间的维度，节约了内存空间，且加快了聚类速度。

(2)C、D的对比可知，由于D使用索引表，提高了两向量之间的相似度计算速度，加快了聚类速度，但精度变化不大。

如图4所示，根据本发明一个实施例提供的一种网络搜索词的聚类装置，该装置400包括：

网络搜索词提取单元401，适于从搜索日志中提取出需要进行聚类的网络搜索词；

短文本信息生成单元402，适于对相同统一资源定位符URL的网络搜索词，根据所述URL抓取网页相关内容，生成短文本信息；

关键词向量获取单元403，适于对所述短文本信息提取关键词，并根据所述关键词获取每条短文本信息对应的关键词向量；

判断单元404，适于判断任两个所述关键词向量是否为相似的关键词向量；

聚类单元405，适于当存在相似的两个关键词向量时，对相似的两个关键词向量进行合并，生成一个新的关键词向量代替所述相似的两个关键词向量，并继续判断任两个关键词向量是否为相似的关键词向量；

提取划分单元406，适于当不存在相似的关键词向量时，从互不相似的各关键词向量中提取网络搜索词，将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。

其中，所述短文本信息生成单元402，适于将对应于相同URL的网络搜索词设置在短文本信息中，其中，当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时，从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中；从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值，将所述属性值设置在在所述短文本信息中。

一种实施例，所述关键词向量获取单元403，适于在对所述短文本信息提取关键词之前，剔除所述短文本信息中的停用词，并对剔除停用词后的短文本信息中的词项进行词性分析，得到各词项的词性。

并且优选地，所述关键词向量获取单元403，还适于将预定词性的词项选取为所述关键词，所述词性包括名词、形容词、副词和动词。

一种实施例，所述关键词向量获取单元403，适于利用关键词在关键词向量中的词频值，计算所述关键词在每条短文本信息中的权重值；根据所述关键词和关键词在本条短文本信息中的权重值，得到本条短文本信息对应的关键词向量。

优选地，所述判断单元404，适于根据两个关键词向量中各关键词的权重值，计算两个关键词向量之间的余弦相似度，当计算出的余弦相似度大于预定阀值时，判断所述两个关键词向量为相似的关键词向量，当计算出的余弦相似度不大于预定阀值时，判断所述两个关键词向量不是相似的关键词向量。

可选地，所述判断单元404，还适于对第一关键词向量中的第一关键词，在设置的词项倒排索引表中查询该第一关键词对应的关键词向量，当对应的关键词向量包括第二关键词向量时，获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词；利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度；其中，所述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表，所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。

在一较佳实施方式中，本发明的网络搜索词的聚类装置还包括对应关系建立单元，所述对应关系建立单元适于将所述对应关系和向量合并关系记录在向量正排索引表中，其中，所述对应关系指示向量编号与文本编号的对应关系，每个关键词向量设置有向量编号，每个短文本信息设置有文本编号，所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系；所述向量正排索引表包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表，所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。

一种实施例，所述聚类单元405，适于利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词；当关键词为相似的两个关键词向量的共同关键词时，由所述共同关键词在两个关键词向量中的权重值的平均值，得到该共同关键词在新的关键词向量中的权重值；当关键词不是相似的两个关键词向量的共同关键词时，将该关键词在原关键词向量中的权重值作为该关键词在新的关键词向量中的权重值；以及，将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。

本发明的装置实施例的上述单元，与本发明的方法实施例具有相同的发明构思，分别对应本发明的方法实施例的步骤，在此不再赘述。

综上所述，本发明实施例的网络搜索词的聚类方法和聚类装置，能够取得提升聚类速度和精度的有益效果。具体地，通过利用用户点击url对应的网页信息，将网络搜索词的信息进行补全，形成短文本，从而增加网络搜索词的识别度；通过在传统的向量表述方法中，引入词性分析来提取关键词向量，从而减少了向量空间的维数，节省了内存占用空间；通过对相似的两个关键词向量进行合并，生成一个新的关键词向量代替相似的两个关键词向量，从而减少网络搜索词的聚类类别。

进一步地，本发明通过建立倒排索引表及向量正排索引表，利用这些索引表，能够加快向量相似度的计算，提高网络搜索词聚类的执行速度；通过变换余弦相似度的计算公式，改进关键词向量权值的表示，能够进一步减少存储空间，加快计算速度。

需要说明的是，在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的×××设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种网络搜索词的聚类方法，包括：

从搜索日志中提取出需要进行聚类的网络搜索词；

对相同统一资源定位符URL的网络搜索词，根据所述URL抓取网页相关内容，根据抓取的内容以及所述网络搜索词生成短文本信息；

对所述短文本信息提取关键词，并根据所述关键词的词频获取每条短文本信息对应的关键词向量；

判断任两个所述关键词向量是否为相似的关键词向量；

当不存在相似的关键词向量时，从互不相似的各关键词向量中提取网络搜索词，将从同一个关键词向量中提取到的网络搜索词划分为同一聚类；

所述对相同统一资源定位符URL的网络搜索词，根据所述URL抓取网页相关内容，生成短文本信息包括：

将对应于相同URL的网络搜索词设置在短文本信息中，

从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值，将所述属性值设置在所述短文本信息中。

2.根据权利要求1所述的方法，其中，当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时，从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中。

3.根据权利要求1所述的方法，其中，在对所述短文本信息提取关键词之前，所述方法还包括：

4.根据权利要求3所述的方法，其中，对所述短文本信息提取关键词包括：

5.根据权利要求1所述的方法，其中，所述根据所述关键词的词频获取每条短文本信息对应的关键词向量包括：

6.根据权利要求5所述的方法，其中，所述判断任两个所述关键词向量是否为相似的关键词向量包括：

7.根据权利要求6所述的方法，其中，所述计算两个关键词向量之间的余弦相似度包括：

其中，所述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表，所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。

8.根据权利要求1所述的方法，其中，所述方法还包括建立关键词向量和短文本信息的对应关系：

9.根据权利要求1所述的方法，其中，所述对相似的两个关键词向量进行合并，生成一个新的关键词向量包括：

10.一种网络搜索词的聚类装置，包括：

短文本信息生成单元，适于对相同统一资源定位符URL的网络搜索词，根据所述URL抓取网页相关内容，根据抓取的内容以及所述网络搜索词生成短文本信息；

关键词向量获取单元，适于对所述短文本信息提取关键词，并根据所述关键词的词频获取每条短文本信息对应的关键词向量；

提取划分单元，适于当不存在相似的关键词向量时，从互不相似的各关键词向量中提取网络搜索词，将从同一个关键词向量中提取到的网络搜索词划分为同一聚类；所述短文本信息生成单元，适于将对应于相同URL的网络搜索词设置在短文本信息中，

11.根据权利要求10所述的装置，其中，所述短文本信息生成单元，适于当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时，从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中。

12.根据权利要求10所述的装置，其中，所述关键词向量获取单元，适于在对所述短文本信息提取关键词之前，剔除所述短文本信息中的停用词，并对剔除停用词后的短文本信息中的词项进行词性分析，得到各词项的词性。

13.根据权利要求12所述的装置，其中，所述关键词向量获取单元，还适于将预定词性的词项选取为所述关键词，所述词性包括名词、形容词、副词和动词。

14.根据权利要求10所述的装置，其中，所述关键词向量获取单元，适于利用关键词在关键词向量中的词频值，计算所述关键词在每条短文本信息中的权重值；根据所述关键词和关键词在本条短文本信息中的权重值，得到本条短文本信息对应的关键词向量。

15.根据权利要求14所述的装置，其中，所述判断单元，适于根据两个关键词向量中各关键词的权重值，计算两个关键词向量之间的余弦相似度，当计算出的余弦相似度大于预定阀值时，判断所述两个关键词向量为相似的关键词向量，当计算出的余弦相似度不大于预定阀值时，判断所述两个关键词向量不是相似的关键词向量。

16.根据权利要求15所述的装置，其中，所述判断单元，还适于对第一关键词向量中的第一关键词，在设置的词项倒排索引表中查询该第一关键词对应的关键词向量，当对应的关键词向量包括第二关键词向量时，获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词；利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度；其中，所述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表，所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。

17.根据权利要求10所述的装置，其中，所述装置还包括对应关系建立单元，所述对应关系建立单元适于将所述对应关系和向量合并关系记录在向量正排索引表中，其中，所述对应关系指示向量编号与文本编号的对应关系，每个关键词向量设置有向量编号，每个短文本信息设置有文本编号，所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系；所述向量正排索引表包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表，所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。

18.根据权利要求10所述的装置，其中，所述聚类单元，适于利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词；当关键词为相似的两个关键词向量的共同关键词时，由所述共同关键词在两个关键词向量中的权重值的平均值，得到该共同关键词在新的关键词向量中的权重值；当关键词不是相似的两个关键词向量的共同关键词时，将该关键词在原关键词向量中的权重值作为该关键词在新的关键词向量中的权重值；以及，将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。