CN104391958A

CN104391958A - 网页搜索关键词的相关性检测方法及装置

Info

Publication number: CN104391958A
Application number: CN201410713686.9A
Authority: CN
Inventors: 何鑫
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2015-03-04
Anticipated expiration: 2034-11-28
Also published as: CN104391958B

Abstract

本发明公开了一种网页搜索关键词的相关性检测方法及装置。该网页搜索关键词的相关性检测方法包括：获取多个网页搜索关键词；分别获取多个网页搜索关键词对应的网页的统一资源定位符；统计第一数量；统计第二数量；根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测，解决了网页搜索关键词之间的相关性检测不准确的问题，进而通过第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的相关性，达到了提高网页搜索关键词之间的相关性检测的准确性的效果。

Description

网页搜索关键词的相关性检测方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种网页搜索关键词的相关性检测方法和装置。

背景技术

用户通常会抱有一定的目的和意图浏览网站。对于一个网站而言，了解用户访问的真实意图非常重要。通常，网站会根据用户浏览网站的行为轨迹构造模型，以训练分类器的方法对访问网站的用户进行分类，或是通过分析网站站内搜索词的热度来了解用户的需求。

由于进行站内搜索是用户主动寻找信息的行为，因此，在一定程度上可以描述用户的需求。用户需求可以通过对用户在网站中的站内搜索词进行聚类的方式来加以识别。传统的站内搜索词聚类方法依赖于搜索词本身，通过词语间字面上的重叠进行计算，实现方法如下：首先，对搜索关键词进行字面上的拆解(包括逐子或分词)，拆解以后的搜索关键词可以表示为以词(字)为单元的序列串；然后，逐一计算每一对搜索关键词的相似度，即比较两个搜索词的词串的吻合程度，并获取二者的相似度；最后，使用聚类算法进行关键词聚类。

用户需求与站内搜索词之间应存在多对多的关系，即一种用户需求可以通过多个站内搜索词来表示，一个站内搜索词也可以表示多种不同的用户需求。现有的搜索词聚类方法仅仅通过搜索关键词字面上的吻合程度建立联系并不符合实际情况；同时，生硬地构造了一种搜索关键词间的相关关系，聚类结果可信度差，比如，“三星”和“苹果”不包含任何字面上的匹配，但是相关性应该很高，而“本田”和“本源”是完全无关的两个词，但是字面上仍然存在着相关关系；另外，现有方法需要计算每两个搜索关键词之间的相似度，因此时间复杂度为o(n2)，不适用于大规模数据挖掘。

针对相关技术中网页搜索关键词之间的相关性检测不准确的问题，目前尚未提出有效的解决方案。

发明内容

针对现有的网页搜索关键词之间的相关性检测不准确的问题而提出本发明，为此，本发明的主要目的在于提供一种网页搜索关键词的相关性检测方法及装置，以解决上述问题。

为了实现上述目的，根据本发明的一个方面，提供了一种网页搜索关键词的相关性检测方法。该方法包括：获取多个网页搜索关键词，其中，多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词，第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词；分别获取多个网页搜索关键词对应的网页的统一资源定位符，其中，第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合，第一统一资源定位符集合包括第一统一资源定位符，第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合，第二统一资源定位符集合包括第二统一资源定位符；统计第一数量，其中，第一数量为第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符的个数；统计第二数量，其中，第二数量为第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符的个数；根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测。

进一步地，第一统一资源定位符集合还包括第三统一资源定位符，第二统一资源定位符集合还包括第四统一资源定位符，根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测之前，该方法还包括：统计第三数量，其中，第三数量为第一网页搜索关键词对应的网页的统一资源定位符为第三统一资源定位符的个数；统计第四数量，其中，第四数量为第二网页搜索关键词对应的网页的统一资源定位符为第四统一资源定位符的个数；根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测包括：根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第一相关性数值；根据第一统一资源定位符、第四统一资源定位符、第一数量和第四数量获取第一网页搜索关键词和第二网页搜索关键词之间的第二相关性数值；根据第三统一资源定位符、第二统一资源定位符、第三数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第三相关性数值；根据第三统一资源定位符、第四统一资源定位符、第三数量和第四数量获取第一网页搜索关键词和第二网页搜索关键词之间的第四相关性数值；确定第一相关性数值、第二相关性数值、第三相关性数值和第四相关性数值之和为第一网页搜索关键词和第二网页搜索关键词之间的相关性对应的数值。

进一步地，根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第一相关性数值包括：判断第一统一资源定位符和第二统一资源定位符是否相同；如果第一统一资源定位符和第二统一资源定位符不相同，则确定第一相关性数值为0；如果第一统一资源定位符和第二统一资源定位符相同，则将第一数量和第二数量进行比较，根据比较结果获取目标数量，其中，目标数量为第一数量和第二数量中较小的数量值；确定目标数量为第一相关性数值。

进一步地，在对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测之后，该方法还包括：根据第一网页搜索关键词和第二网页搜索关键词之间的相关性，获取第一网页搜索关键词和第二网页搜索关键词之间的从属概率，其中，从属概率为第一网页搜索关键词和第二网页搜索关键词属于一个关键词类的概率；根据从属概率将多个网页搜索关键词划分为关键词类。

进一步地，根据第一网页搜索关键词和第二网页搜索关键词之间的相关性，获取第一网页搜索关键词和第二网页搜索关键词之间的从属概率包括：确定第一数值，其中，第一数值为第一网页搜索关键词和第二网页搜索关键词之间的相关性对应的数值；分别获取第二网页搜索关键词与除第二网页搜索关键词之外的多个网页搜索关键词之间的相关性；分别确定多个相关性对应的数值；确定第二数值，其中，第二数值为多个相关性对应的数值之和；确定第一数值和第二数值之商为第一网页搜索关键词和第二网页搜索关键词之间的从属概率。

进一步地，根据从属概率将多个网页搜索关键词划分为关键词类包括：确定第一关键词簇，其中，第一关键词簇仅包括第一网页搜索关键词；根据从属概率和第一关键词簇获取第二关键词簇；判断第一关键词簇和第二关键词簇之间的差异是否小于预设阈值；如果第一关键词簇和第二关键词簇之间的差异不小于预设阈值，则根据从属概率和第二关键词簇获取第三关键词簇；确定第二关键词簇为第一关键词簇，第三关键词簇为第二关键词簇，继续判断第一关键词簇和第二关键词簇之间的差异是否小于预设阈值；如果第一关键词簇和第二关键词簇之间的差异小于预设阈值，则确定第二关键词簇为一个关键词类。

进一步地，关键词类包括多个关键词类，多个关键词类包括第一关键词类和第二关键词类，根据从属概率将多个网页搜索关键词划分为关键词类之后，该方法还包括：分别对第一关键词类和第二关键词类进行标识；统计第五数量，其中，第五数量为第一关键词类包含的网页搜索关键词的个数；统计第六数量，其中，第六数量为第二关键词类包含的网页搜索关键词的个数；比较第五数量和第六数量，按照比较结果对第一关键词类和第二关键词类进行排序。

为了实现上述目的，根据本发明的另一方面，提供了一种网页搜索关键词的相关性检测装置。根据本发明的网页搜索关键词的相关性检测装置包括：第一获取单元，用于获取多个网页搜索关键词，其中，多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词，第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词；第二获取单元，用于分别获取多个网页搜索关键词对应的网页的统一资源定位符，其中，第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合，第一统一资源定位符集合包括第一统一资源定位符，第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合，第二统一资源定位符集合包括第二统一资源定位符；第一统计单元，用于统计第一数量，其中，第一数量为第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符的个数；第二统计单元，用于统计第二数量，其中，第二数量为第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符的个数；检测单元，用于根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测。

进一步地，第一统一资源定位符集合还包括第三统一资源定位符，第二统一资源定位符集合还包括第四统一资源定位符，该装置还包括：第三统计单元，用于统计第三数量，其中，第三数量为第一网页搜索关键词对应的网页的统一资源定位符为第三统一资源定位符的个数；第四统计单元，用于统计第四数量，其中，第四数量为第二网页搜索关键词对应的网页的统一资源定位符为第四统一资源定位符的个数，检测单元包括：第一获取模块，用于根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第一相关性数值；第二获取模块，用于根据第一统一资源定位符、第四统一资源定位符、第一数量和第四数量获取第一网页搜索关键词和第二网页搜索关键词之间的第二相关性数值；第三获取模块，用于根据第三统一资源定位符、第二统一资源定位符、第三数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第三相关性数值；第四获取模块，用于根据第三统一资源定位符、第四统一资源定位符、第三数量和第四数量获取第一网页搜索关键词和第二网页搜索关键词之间的第四相关性数值；确定模块，用于确定第一相关性数值、第二相关性数值、第三相关性数值和第四相关性数值之和为第一网页搜索关键词和第二网页搜索关键词之间的相关性对应的数值。

进一步地，第一获取模块包括：判断子模块，用于判断第一统一资源定位符和第二统一资源定位符是否相同；第一确定子模块，用于在第一统一资源定位符和第二统一资源定位符不相同时，确定第一相关性数值为0；获取子模块，用于在第一统一资源定位符和第二统一资源定位符相同时，将第一数量和第二数量进行比较，根据比较结果获取目标数量，其中，目标数量为第一数量和第二数量中较小的数量值；第二确定子模块，用于确定目标数量为第一相关性数值。

通过本发明，采用包括以下步骤的方法：获取多个网页搜索关键词，其中，多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词，第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词；分别获取多个网页搜索关键词对应的网页的统一资源定位符，其中，第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合，第一统一资源定位符集合包括第一统一资源定位符，第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合，第二统一资源定位符集合包括第二统一资源定位符；统计第一数量，其中，第一数量为第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符的个数；统计第二数量，其中，第二数量为第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符的个数；根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测，解决了网页搜索关键词之间的相关性检测不准确的问题，进而通过第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的相关性，达到了提高网页搜索关键词之间的相关性检测的准确性的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明的网页搜索关键词的相关性检测方法的第一实施例的示意图；

图2是根据本发明的网页搜索关键词的相关性检测方法的第二实施例的示意图；以及

图3是根据本发明的网页搜索关键词的相关性检测装置的第一实施例的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1是根据本发明的网页搜索关键词的相关性检测方法的第一实施例的示意图。如图1所示，该方法包括步骤S102至步骤S110。

步骤S102，获取多个网页搜索关键词，其中，多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词，第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词。

用户通过在网站内输入网页搜索关键词来浏览目标网页。通常情况下，网页搜索关键词和该关键词对应的目标网页之间是多对多的关系，具体地，一个网页搜索关键词可能对应多个目标网页，多个网页搜索关键词可能对应同一个目标网页。一般来说，当用户输入一个网页搜索关键词，首先会出现一个搜索结果页面，在该页面中包含多个对应该搜索关键词的链接，用户会点击某一链接，进入目标页面。在步骤S102中，获取的多个网页搜索关键词中可以包括多个不同的网页搜索关键词，每一个关键词可能出现重复的现象。用户在进行网页浏览时的网页搜索关键词，可以通过在网站中添加脚本文件代码的方式来获得，比如javascript代码。通过脚本文件，可以获取一个预设时间段之内的用户浏览网页时输入的网页搜索关键词。这里，我们设定第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词。

步骤S104，分别获取多个网页搜索关键词对应的网页的统一资源定位符，其中，第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合，第一统一资源定位符集合包括第一统一资源定位符，第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合，第二统一资源定位符集合包括第二统一资源定位符。

用户在浏览网页时进行的站内搜索行为目的是为了获取目标网页，每一个目标网页对应一个特定的统一资源定位符，即URL。根据用户的网页搜索关键词和对网页搜索结果的点击行为(对应搜索结果页面中包含多个链接，每个链接对应的页面对应一个URL)，可以确定一个对应关系{Query，Url}，其中，Query为网页搜索关键词。需要说明的是，不同的网页搜索关键词可能对应同一个URL，一个网页搜索关键词也可能对应多个不同的URL。这里，设定第一网页搜索关键词对应第一统一资源定位符，第二网页搜索关键词对应第二统一资源定位符。第一统一资源定位符和第二统一资源定位符可能相同，也可能不同。

例如，网页搜索关键词分别为A和B，搜索关键词A对应的网页的URL为URL1、URL2和URL3，搜索关键词B对应的网页的URL为URL2和URL4。则可以确定网页搜索关键词和URL之间的对应关系为{A，URL1}、{A，URL2}、{A，URL3}、{B，URL2}、{B，URL4}。

步骤S106，统计第一数量，其中，第一数量为第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符的个数。

需要说明的是，第一统一资源定位符可以包括多个统一资源定位符，同时，第一网页搜索关键词在步骤S102中获取的多个网页搜索关键词中可能出现多次。第一数量可以为第一网页搜索关键词分别和多个统一资源定位符之间存在对应关系的数量。第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符的次数越多，说明第一网页搜索关键词和第一统一资源定位符之间的联系越紧密。根据步骤S102获取到的多个网页搜索关键词，能够统计出相同的{Query，Url}的数量，即第一数量，该数量用于表示Query被确定为指向Url链接的强度。假设第一数量为d，则原对应关系{Query，Url}可以被汇总为{Query，Url，d}三元素构成的对应关系，其中任何两个三元素构成的对应关系中{Query，Url}均不完全相同。

例如，网页搜索关键词分别为A对应URL1出现的次数为3，则{Query，Url，d}三元素构成的对应关系可以描述为{A，URL1，3}。

步骤S108，统计第二数量，其中，第二数量为第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符的个数。

同样地，第二统一资源定位符可以包括多个统一资源定位符，第二网页搜索关键词在步骤S102中获取的多个网页搜索关键词中可能出现多次。第二数量可以为第二网页搜索关键词分别和多个统一资源定位符之间存在对应关系的数量。第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符的次数越多，说明第二网页搜索关键词和第二统一资源定位符之间的联系越紧密。

步骤S110，根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测。

第一网页搜索关键词和第二网页搜索关键词之间的相关性的强弱，取决于第一网页搜索关键词和第二网页搜索关键词分别对应的URL之间的关系，以及第一网页搜索关键词和第二网页搜索关键词分别对应第一统一资源定位符和第二统一资源定位符的频数，即第一数量和第二数量。因此，根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量可以对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测。

优选地，可以通过以下方式对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测。假定第一统一资源定位符集合还包括第三统一资源定位符，第二统一资源定位符集合还包括第四统一资源定位符。统计第三数量，其中，第三数量为第一网页搜索关键词对应的网页的统一资源定位符为第三统一资源定位符的个数；统计第四数量，其中，第四数量为第二网页搜索关键词对应的网页的统一资源定位符为第四统一资源定位符的个数；根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测包括：根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第一相关性数值；根据第一统一资源定位符、第四统一资源定位符、第一数量和第四数量获取第一网页搜索关键词和第二网页搜索关键词之间的第二相关性数值；根据第三统一资源定位符、第二统一资源定位符、第三数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第三相关性数值；根据第三统一资源定位符、第四统一资源定位符、第三数量和第四数量获取第一网页搜索关键词和第二网页搜索关键词之间的第四相关性数值；确定第一相关性数值、第二相关性数值、第三相关性数值和第四相关性数值之和为第一网页搜索关键词和第二网页搜索关键词之间的相关性对应的数值。

其中，根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第一相关性数值可以通过如下步骤实现：判断第一统一资源定位符和第二统一资源定位符是否相同；如果第一统一资源定位符和第二统一资源定位符不相同，则确定第一相关性数值为0；如果第一统一资源定位符和第二统一资源定位符相同，则将第一数量和第二数量进行比较，根据比较结果获取目标数量，其中，目标数量为第一数量和第二数量中较小的数量值；确定目标数量为第一相关性数值。两个网页搜索关键词共同指向同一个URL时，两个网页搜索关键词之间的相关性的数值可以表示为下式：

S_ij＝Σ_u∈Umin(d_iu，d_ju)

其中，Sij表示网页搜索关键词i和网页搜索关键词j之间的相关性的数值，U表示网页搜索关键词i和网页搜索关键词j对应的全部URL的集合，diu表示网页搜索关键词i指向URL集合中u的次数，dju表示网页搜索关键词j指向URL集合中u的次数。

同样地，第二相关性数值、第三相关性数值和第四相关性数值可以利用相同的方法计算得到。

例如，网页搜索关键词、网页搜索关键词对应的URL以及网页搜索关键词对应URL的出现次数，三者构成的对应关系如下所示：Q1、Q2、Q3、Q4分别为网页搜索关键词，U1、U2、U3、U4分别为URL。

{Q1，U1，3}、{Q1，U2，5}、{Q1，U3，1}、{Q2，U2，3}、{Q2，U3，6}、{Q3，U1，1}、{Q3，U4，3}、{Q4，U1，4}。

因此根据上述方法可以得到：

Q1与Q2之间的相关性对应的数值为S12＝0+3+1+0＝4；

Q1与Q3之间的相关性对应的数值为S13＝1+0+0+0＝1；

Q1与Q4之间的相关性对应的数值为S14＝3+0+0+0＝3；

Q2与Q3之间的相关性对应的数值为S23＝0+0+0+0＝0；

Q2与Q4之间的相关性对应的数值为S24＝0+0+0+0＝0；

Q3与Q4之间的相关性对应的数值为S34＝1+0+0+0＝1。

该实施例由于采取了以下步骤：获取多个网页搜索关键词，其中，多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词，第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词；分别获取多个网页搜索关键词对应的网页的统一资源定位符，其中，第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合，第一统一资源定位符集合包括第一统一资源定位符，第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合，第二统一资源定位符集合包括第二统一资源定位符；统计第一数量，其中，第一数量为第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符的个数；统计第二数量，其中，第二数量为第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符的个数；根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测，解决了网页搜索关键词之间的相关性检测不准确的问题，进而通过第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的相关性，达到了提高网页搜索关键词之间的相关性检测的准确性的效果。

图2是根据本发明的网页搜索关键词的相关性检测方法的第一实施例的示意图，该实施例可以作为图1所示实施例的一种优选实施方式。如图1所示，该方法包括步骤S201至步骤S207。

步骤S201，获取多个网页搜索关键词，其中，多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词，第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词。

该步骤同步骤S102，这里不再赘述。

步骤S202，分别获取多个网页搜索关键词对应的网页的统一资源定位符，其中，第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合，第一统一资源定位符集合包括第一统一资源定位符，第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合，第二统一资源定位符集合包括第二统一资源定位符。

该步骤同步骤S104，这里不再赘述。

步骤S203，统计第一数量，其中，第一数量为第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符的个数。

该步骤同步骤S106，这里不再赘述。

步骤S204，统计第二数量，其中，第二数量为第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符的个数。

该步骤同步骤S108，这里不再赘述。

步骤S205，根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测。

该步骤同步骤S110，这里不再赘述。

步骤S206，根据第一网页搜索关键词和第二网页搜索关键词之间的相关性，获取第一网页搜索关键词和第二网页搜索关键词之间的从属概率，其中，从属概率为第一网页搜索关键词和第二网页搜索关键词属于一个关键词类的概率。

基于上述提及的对应关系{Query，URL，d}，考虑到Query包含多个网页搜索关键词，可以构建无向图模型{G，S}，其中，G表示网页搜索关键词(Query)的集合，每一个网页搜索关键词可以表示为图模型中的一个节点，S表示图模型中网页搜索关键词之间相关关系的集合，表示图模型中两个节点之间相连的一条边，其中，边无方向，强度即为网页搜索关键词之间相关性的数值。

这里，根据第一网页搜索关键词和第二网页搜索关键词之间的相关性，可以获取第一网页搜索关键词和第二网页搜索关键词之间的从属概率，即第一网页搜索关键词和第二网页搜索关键词属于一个关键词类的概率。当第一网页搜索关键词和第二网页搜索关键词之间的相关性越强，可以认为第一网页搜索关键词和第二网页搜索关键词越能表达同样的用户需求。再次利用步骤S110中的例子进行说明。由于S12＝4、S13＝1，则可以认为关键词Q1与Q2之间的相关性强于所述关键词Q1与Q3之间的相关性，因此，可以认为Q1与Q2可以归为一个关键词类的概率比Q1与Q3归为一个关键词类的概率大。

优选地，可以通过以下方式获取第一网页搜索关键词和第二网页搜索关键词之间的从属概率：确定第一数值，其中，第一数值为第一网页搜索关键词和第二网页搜索关键词之间的相关性对应的数值；分别获取第二网页搜索关键词与除第二网页搜索关键词之外的多个网页搜索关键词之间的相关性；分别确定多个相关性对应的数值；确定第二数值，其中，第二数值为多个相关性对应的数值之和；确定第一数值和第二数值之商为第一网页搜索关键词和第二网页搜索关键词之间的从属概率。

具体地，可以通过如下公式计算从属概率：

p(ni|nj)＝c(ni，nj)/c(nj)

其中，c(ni，nj)表示边nij的强度，即网页搜索关键词i和网页搜索关键词j之间的相关性的数值，c(nj)表示点nj的全部依存边的强度和，即第二网页搜索关键词分别与除第二网页搜索关键词之外的多个网页搜索关键词之间的相关性的数值之和。

步骤S207，根据从属概率将多个网页搜索关键词划分为关键词类。

优选地，可以通过以下方式将多个网页搜索关键词划分为关键词类：确定第一关键词簇，其中，第一关键词簇仅包括第一网页搜索关键词；根据从属概率和第一关键词簇获取第二关键词簇；判断第一关键词簇和第二关键词簇之间的差异是否小于预设阈值；如果第一关键词簇和第二关键词簇之间的差异不小于预设阈值，则根据从属概率和第二关键词簇获取第三关键词簇；确定第二关键词簇为第一关键词簇，第三关键词簇为第二关键词簇，继续判断第一关键词簇和第二关键词簇之间的差异是否小于预设阈值；如果第一关键词簇和第二关键词簇之间的差异小于预设阈值，则确定第二关键词簇为一个关键词类。

在初始化时，假设图模型中所有的节点(网页搜索关键词)都各自属于一个簇，在迭代的过程中，每一个节点都以从属概率随机地移动到其依存的节点中去；然后，计算迭代后该节点所属于的簇，然后判断当前簇与前一个簇之间的差异，如果差异值小于一个预设值，则终止迭代，否则进行下一次迭代，依此重复执行。重复进行上述随机游走的过程，根据大数定律可以得到最终节点属于簇的判定。可以将最终迭代得到的多个关键词簇作为多个关键词类，对关键词类进行分析。这里，重复进行迭代的次数可以按照预设需求自行设定(或者按照经验参数进行拟定)。

可选地，当前簇与前一个簇之间的差异值可以定义为：差异值＝本次改变所属簇的节点的个数/总节点数。

需要说明的是，在迭代过程中，当两个关键词簇中全部节点在两次迭代中所属于的簇交换了位置，则将该两个簇进行合并处理。例如，关键词簇1包括节点{A，B}，关键词簇2包括节点{C}，当进行一次迭代后，关键词簇1包括节点{C}，关键词簇2包括节点{A,B}，此时可以将关键词簇1和关键词簇2进行合并，生成新的关键词簇{A，B，C}，并且，在之后的操作中不再考虑关键词簇1和关键词簇2(或者将关键词簇1和关键词簇2删除)。

可选地，假设关键词类包括多个关键词类，多个关键词类包括第一关键词类和第二关键词类，在根据从属概率将多个网页搜索关键词划分为关键词类之后，还可以执行如下操作：分别对第一关键词类和第二关键词类进行标识；统计第五数量，其中，第五数量为第一关键词类包含的网页搜索关键词的个数；统计第六数量，其中，第六数量为第二关键词类包含的网页搜索关键词的个数；比较第五数量和第六数量，按照比较结果对第一关键词类和第二关键词类进行排序。

如前所述，不同的关键词类用于反映不同的用户需求，为对用户需求进行描述，可以对多个关键词类分别进行标识，以区别不同的关键词类。例如，可以对关键词类分别进行命名。命名方法可以利用基于规则的命名方法、基于统计的命名方法，或者将两种方法相结合，即混合的命名方法。关键词类的命名方法包括但不限于：基于用户搜索次数或用户搜索点击次数等行为进行命名，即选取次数排序较高的关键词作为关键词类的名称；或者，根据图模型收敛时的聚集点进行最大似然估计，取集中收敛的关键词作为关键词类的名称等。

对关键词类进行排序是按照关键词类的统计量进行排序，统计量越高的关键词类所对应的用户需求越强烈。可以采用的统计量包括但不限于：关键词类内包含的网页搜索关键词的搜索次数之和，或者关键词类内包含的网页搜索关键词所属的会话个数等。

通过关键词类的划分，能够挖掘出关键词之间深层次的关系，从而准确地表现用户需求。例如，能发现“违章”、“电子眼”、“电子jin”和“电子敬察”的关系，并且，采用简单的图模型寻找簇的算法进行关键词的聚类，复杂度为O(nlgn)。

该实施例由于采取了以下步骤：获取多个网页搜索关键词，其中，多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词，第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词；分别获取多个网页搜索关键词对应的网页的统一资源定位符，其中，第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合，第一统一资源定位符集合包括第一统一资源定位符，第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合，第二统一资源定位符集合包括第二统一资源定位符；统计第一数量，其中，第一数量为第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符的个数；统计第二数量，其中，第二数量为第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符的个数；根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测；根据第一网页搜索关键词和第二网页搜索关键词之间的相关性，获取第一网页搜索关键词和第二网页搜索关键词之间的从属概率，其中，从属概率为第一网页搜索关键词和第二网页搜索关键词属于一个关键词类的概率；根据从属概率将多个网页搜索关键词划分为关键词类，通过基于网页搜索关键词之间的相关性，获取网页搜索关键词之间的从属关系，并利用从属关系对多个网页搜索关键词进行分类，获取能代表不同的用户需求的关键词类，提高了网页搜索关键词聚类的准确性，使得获取的网页搜索关键词类能够准确体现用户需求。

需要说明的是，本发明实施例的网页搜索关键词的相关性检测装置可以用于执行本发明实施例所提供的网页搜索关键词的相关性检测方法，本发明实施例的网页搜索关键词的相关性检测方法也可以通过本发明实施例所提供的网页搜索关键词的相关性检测装置来执行。

图3是根据本发明的网页搜索关键词的相关性检测装置的第一实施例的示意图。如图3所示，该装置结构包括：第一获取单元10、第二获取单元20、第一统计单元30、第二统计单元40和检测单元50。

第一获取单元10，用于获取多个网页搜索关键词，其中，多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词，第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词。

第二获取单元20，用于分别获取多个网页搜索关键词对应的网页的统一资源定位符，其中，第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合，第一统一资源定位符集合包括第一统一资源定位符，第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合，第二统一资源定位符集合包括第二统一资源定位符。

第一统计单元30，用于统计第一数量，其中，第一数量为第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符的个数。

第二统计单元40，用于统计第二数量，其中，第二数量为第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符的个数。

检测单元50，用于根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测。

可选地，第一统一资源定位符集合还包括第三统一资源定位符，第二统一资源定位符集合还包括第四统一资源定位符，该装置还可以包括：第三统计单元，用于统计第三数量，其中，第三数量为第一网页搜索关键词对应的网页的统一资源定位符为第三统一资源定位符的个数；第四统计单元，用于统计第四数量，其中，第四数量为第二网页搜索关键词对应的网页的统一资源定位符为第四统一资源定位符的个数，检测单元50包括：第一获取模块，用于根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第一相关性数值；第二获取模块，用于根据第一统一资源定位符、第四统一资源定位符、第一数量和第四数量获取第一网页搜索关键词和第二网页搜索关键词之间的第二相关性数值；第三获取模块，用于根据第三统一资源定位符、第二统一资源定位符、第三数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的第三相关性数值；第四获取模块，用于根据第三统一资源定位符、第四统一资源定位符、第三数量和第四数量获取第一网页搜索关键词和第二网页搜索关键词之间的第四相关性数值；确定模块，用于确定第一相关性数值、第二相关性数值、第三相关性数值和第四相关性数值之和为第一网页搜索关键词和第二网页搜索关键词之间的相关性对应的数值。

第一获取模块还可以包括：判断子模块，用于判断第一统一资源定位符和第二统一资源定位符是否相同；第一确定子模块，用于在第一统一资源定位符和第二统一资源定位符不相同时，确定第一相关性数值为0；获取子模块，用于在第一统一资源定位符和第二统一资源定位符相同时，将第一数量和第二数量进行比较，根据比较结果获取目标数量，其中，目标数量为第一数量和第二数量中较小的数量值；第二确定子模块，用于确定目标数量为第一相关性数值。

本实施例提供的网页搜索关键词的相关性检测装置包括：第一获取单元10、第二获取单元20、第一统计单元30、第二统计单元40和检测单元50。该装置通过检测单元50利用第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的相关性，解决了网页搜索关键词之间的相关性检测不准确的问题，达到了提高网页搜索关键词之间的相关性检测的准确性的效果。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页搜索关键词的相关性检测方法，其特征在于，包括：

获取多个网页搜索关键词，其中，所述多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词，所述第一网页搜索关键词和所述第二网页搜索关键词为不同的网页搜索关键词；

分别获取所述多个网页搜索关键词对应的网页的统一资源定位符，其中，所述第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合，所述第一统一资源定位符集合包括第一统一资源定位符，所述第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合，所述第二统一资源定位符集合包括第二统一资源定位符；

统计第一数量，其中，所述第一数量为所述第一网页搜索关键词对应的网页的统一资源定位符为所述第一统一资源定位符的个数；

统计第二数量，其中，所述第二数量为所述第二网页搜索关键词对应的网页的统一资源定位符为所述第二统一资源定位符的个数；以及

根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性进行检测。

2.根据权利要求1所述的方法，其特征在于，

所述第一统一资源定位符集合还包括第三统一资源定位符，所述第二统一资源定位符集合还包括第四统一资源定位符，根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性进行检测之前，所述方法还包括：

统计第三数量，其中，所述第三数量为所述第一网页搜索关键词对应的网页的统一资源定位符为所述第三统一资源定位符的个数；以及

统计第四数量，其中，所述第四数量为所述第二网页搜索关键词对应的网页的统一资源定位符为所述第四统一资源定位符的个数，

根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性进行检测包括：

根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第一相关性数值；

根据所述第一统一资源定位符、所述第四统一资源定位符、所述第一数量和所述第四数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第二相关性数值；

根据所述第三统一资源定位符、所述第二统一资源定位符、所述第三数量和所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第三相关性数值；

根据所述第三统一资源定位符、所述第四统一资源定位符、所述第三数量和所述第四数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第四相关性数值；以及

确定所述第一相关性数值、所述第二相关性数值、所述第三相关性数值和所述第四相关性数值之和为所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性对应的数值。

3.根据权利要求2所述的方法，其特征在于，根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第一相关性数值包括：

判断所述第一统一资源定位符和所述第二统一资源定位符是否相同；

如果所述第一统一资源定位符和所述第二统一资源定位符不相同，则确定所述第一相关性数值为0；

如果所述第一统一资源定位符和所述第二统一资源定位符相同，则将所述第一数量和所述第二数量进行比较，根据比较结果获取目标数量，其中，所述目标数量为所述第一数量和所述第二数量中较小的数量值；以及

确定所述目标数量为所述第一相关性数值。

4.根据权利要求1所述的方法，其特征在于，在对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性进行检测之后，所述方法还包括：

根据所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性，获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的从属概率，其中，所述从属概率为所述第一网页搜索关键词和所述第二网页搜索关键词属于一个关键词类的概率；以及

根据所述从属概率将所述多个网页搜索关键词划分为关键词类。

5.根据权利要求4所述的方法，其特征在于，根据所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性，获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的从属概率包括：

确定第一数值，其中，所述第一数值为所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性对应的数值；

分别获取所述第二网页搜索关键词与除所述第二网页搜索关键词之外的多个网页搜索关键词之间的相关性；

分别确定所述多个相关性对应的数值；

确定第二数值，其中，所述第二数值为所述多个相关性对应的数值之和；以及

确定所述第一数值和所述第二数值之商为所述第一网页搜索关键词和所述第二网页搜索关键词之间的从属概率。

6.根据权利要求4所述的方法，其特征在于，根据所述从属概率将所述多个网页搜索关键词划分为关键词类包括：

确定第一关键词簇，其中，所述第一关键词簇仅包括所述第一网页搜索关键词；

根据所述从属概率和所述第一关键词簇获取第二关键词簇；

判断所述第一关键词簇和所述第二关键词簇之间的差异是否小于预设阈值；

如果所述第一关键词簇和所述第二关键词簇之间的差异不小于所述预设阈值，则根据所述从属概率和所述第二关键词簇获取第三关键词簇；

确定所述第二关键词簇为所述第一关键词簇，所述第三关键词簇为所述第二关键词簇，继续判断所述第一关键词簇和所述第二关键词簇之间的差异是否小于所述预设阈值；以及

如果所述第一关键词簇和所述第二关键词簇之间的差异小于所述预设阈值，则确定所述第二关键词簇为一个关键词类。

7.根据权利要求4所述的方法，其特征在于，所述关键词类包括多个关键词类，所述多个关键词类包括第一关键词类和第二关键词类，根据所述从属概率将所述多个网页搜索关键词划分为关键词类之后，所述方法还包括：

分别对所述第一关键词类和所述第二关键词类进行标识；

统计第五数量，其中，所述第五数量为所述第一关键词类包含的网页搜索关键词的个数；

统计第六数量，其中，所述第六数量为所述第二关键词类包含的网页搜索关键词的个数；以及

比较所述第五数量和所述第六数量，按照比较结果对所述第一关键词类和所述第二关键词类进行排序。

8.一种网页搜索关键词的相关性检测装置，其特征在于，包括：

第一获取单元，用于获取多个网页搜索关键词，其中，所述多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词，所述第一网页搜索关键词和所述第二网页搜索关键词为不同的网页搜索关键词；

第二获取单元，用于分别获取所述多个网页搜索关键词对应的网页的统一资源定位符，其中，所述第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合，所述第一统一资源定位符集合包括第一统一资源定位符，所述第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合，所述第二统一资源定位符集合包括第二统一资源定位符；

第一统计单元，用于统计第一数量，其中，所述第一数量为所述第一网页搜索关键词对应的网页的统一资源定位符为所述第一统一资源定位符的个数；

第二统计单元，用于统计第二数量，其中，所述第二数量为所述第二网页搜索关键词对应的网页的统一资源定位符为所述第二统一资源定位符的个数；以及

检测单元，用于根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性进行检测。

9.根据权利要求8所述的装置，其特征在于，

所述第一统一资源定位符集合还包括第三统一资源定位符，所述第二统一资源定位符集合还包括第四统一资源定位符，所述装置还包括：

第三统计单元，用于统计第三数量，其中，所述第三数量为所述第一网页搜索关键词对应的网页的统一资源定位符为所述第三统一资源定位符的个数；以及

第四统计单元，用于统计第四数量，其中，所述第四数量为所述第二网页搜索关键词对应的网页的统一资源定位符为所述第四统一资源定位符的个数，

所述检测单元包括：

第一获取模块，用于根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第一相关性数值；

第二获取模块，用于根据所述第一统一资源定位符、所述第四统一资源定位符、所述第一数量和所述第四数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第二相关性数值；

第三获取模块，用于根据所述第三统一资源定位符、所述第二统一资源定位符、所述第三数量和所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第三相关性数值；

第四获取模块，用于根据所述第三统一资源定位符、所述第四统一资源定位符、所述第三数量和所述第四数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第四相关性数值；以及

确定模块，用于确定所述第一相关性数值、所述第二相关性数值、所述第三相关性数值和所述第四相关性数值之和为所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性对应的数值。

10.根据权利要求9所述的装置，其特征在于，所述第一获取模块包括：

判断子模块，用于判断所述第一统一资源定位符和所述第二统一资源定位符是否相同；

第一确定子模块，用于在所述第一统一资源定位符和所述第二统一资源定位符不相同时，确定所述第一相关性数值为0；

获取子模块，用于在所述第一统一资源定位符和所述第二统一资源定位符相同时，将所述第一数量和所述第二数量进行比较，根据比较结果获取目标数量，其中，所述目标数量为所述第一数量和所述第二数量中较小的数量值；以及

第二确定子模块，用于确定所述目标数量为所述第一相关性数值。