CN105589892A

CN105589892A - 基于锚文本回溯链的网页主题分析方法

Info

Publication number: CN105589892A
Application number: CN201410634936.XA
Authority: CN
Inventors: 张琦; 尹亚伟; 张上誉
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2016-05-18
Anticipated expiration: 2034-11-12
Also published as: CN105589892B

Abstract

本发明提出了基于锚文本回溯链的网页主题分析方法，所述方法包括：在确定待搜索的目标主题之后，搜索引擎触发网页追逐器在由HTML文档借助于超链接组成的网络上行进以形成行进链；基于所述行进链，所述网页追逐器针对每个当前正经过的网页形成锚文本回溯链；所述搜索引擎基于所形成的锚文本回溯链分析当前正经过的网页的主题。本发明所公开的基于锚文本回溯链的网页主题分析方法能够在搜索过程中更准确地分析网页主题。

Description

基于锚文本回溯链的网页主题分析方法

技术领域

本发明涉及网页主题分析方法，更具体地，涉及基于锚文本回溯链的网页主题分析方法。

背景技术

目前，随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富，通过搜索引擎获取特定的网页以及网页内容变得越来越重要。

现有的技术方案的基本工作原理如下：在确定特定的目标主题之后，搜索引擎在由HTML文档借助于超链接(其将不同的HTML文档相链接)组成的网络上行进，并且每到一个网页就用抓取程序抓取该网页以及随之抽取该网页的内容，同时抽取该网页的超链接作为进一步行进的线索，随后，通过网页分析算法过滤掉与目标主题无关的超链接，从而仅提取出与目标主题相关的网页，其中，常常采用分析超链接对应的锚文本(其是引导用户点击该超链接的文字描述，该文字描述是对该超链接对应的网页内容的高度概括和描述)来分析网页的主题，即基于当前超链接及其对应的锚文本，通过比较当前锚文本和特定主题的相关程度来确定当前超链接所对应的网页的主题内容。

然而，现有的技术方案存在如下问题：虽然锚文本通常是网页内容的高度概括和描述，然而，在一些特定的情况下(例如，如果锚文本的内容是“最受欢迎”，并且该锚文本对应某个商品的网页，则难以从锚文本的内容“最受欢迎”分析出该网页的主题)，仅依靠当前锚文本的信息不能准确地描述其所对应的网页的主题。

因此，存在如下需求：提供能够在搜索过程中准确地分析网页主题的基于锚文本回溯链的网页主题分析方法。

发明内容

为了解决上述现有技术方案所存在的问题，本发明提出了能够在搜索过程中准确地分析网页主题的基于锚文本回溯链的网页主题分析方法。

本发明的目的是通过以下技术方案实现的：

一种基于锚文本回溯链的网页主题分析方法，所述基于锚文本回溯链的网页主题分析方法包括下列步骤：

(A1)在确定待搜索的目标主题之后，搜索引擎触发网页追逐器在由HTML文档借助于超链接组成的网络上行进以形成行进链；

(A2)基于所述行进链，所述网页追逐器针对每个当前正经过的网页形成锚文本回溯链；

(A3)所述搜索引擎基于所形成的锚文本回溯链分析当前正经过的网页的主题。

在上面所公开的方案中，优选地，所述步骤(A2)进一步包括：通过记录和回溯所述网页追逐器所形成的行进链上的每个超链接所对应的锚文本的信息来形成所述锚文本回溯链。

在上面所公开的方案中，优选地，所述锚文本回溯链包含到达当前正经过的网页时所述网页追逐器最近N次行进所历经的每个超链接所对应的锚文本的信息，其中，N是预先设定的回溯链最大路径长度。

在上面所公开的方案中，优选地，所述步骤(A2)进一步包括：所述网页追逐器在行进过程中不断记录所经过的超链接对应的锚文本的信息，并且在到达新的超链接时，将上个超链接所对应的锚文本回溯链中的最远一个锚文本的信息去掉，并同时将当前的新的超链接所对应的锚文本的信息添加到锚文本回溯链中，以形成与当前的新的超链接对应的锚文本回溯链。

在上面所公开的方案中，优选地，所述搜索引擎以如下方式分析当前正经过的网页的主题：(1)从当前正经过的超链接所对应的锚文本的信息出发遍历该超链接对应的锚文本回溯链，以计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值；(2)计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值，并且基于该平均值确定当前正经过的网页的主题是否与所述目标主题相关。

在上面所公开的方案中，优选地，以如下公式计算锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值：

URL_SIM = \frac{1}{N} Σ_{i = 1}^{N} w_{i}

其中，W_i为锚文本回溯链中第i个锚文本与目标主题的相关度的值，N为预先设定的回溯链最大路径长度。

在上面所公开的方案中，优选地，通过计算锚文本和所述目标主题的特征词之间的语义相似度来计算锚文本回溯链中的每个锚文本与目标主题的相关度的值，其中，以如下公式计算锚文本和目标主题的特征词之间的语义相似度：

Sim (C_{1}, C_{2}) = \frac{λ}{Dis (C_{1}, C_{2}) + λ}

其中λ是可调节的参数，Dis(C₁,C₂)表示两个词语C₁和C₂在语义字典中的距离。

在上面所公开的方案中，优选地，通过计算锚文本与目标主题的特征词库中的所有特征词之间的语义相似度并取用最大值作为该锚文本与目标主题的相关度的值，其中，以如下公式计算锚文本回溯链中第i个锚文本K_i与目标主题的相关度的值：

w_{i} = \max_{j = 1 &RightArrow; K} Sim (K_{i}, T_{j}) = \max_{j = 1 &RightArrow; K} \frac{λ}{Dis (K_{i}, T_{j}) + λ}

其中，W_i为锚文本回溯链中第i个锚文本与目标主题的相关度的值，T_j为目标主题的特征词库中第j个特征词，K为目标主题的特征词库的大小，λ是可调节的参数，Dis(K_i,T_j)表示两个词语K_i和T_j在语义字典中的距离。

在上面所公开的方案中，优选地，所述步骤(A3)进一步包括：将锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值与预定的阈值相比较，如果所述平均值小于所述阈值，则判定当前正经过的网页的主题与所述目标主题相关，否则，判定当前正经过的网页的主题与所述目标主题不相关。

本发明所公开的基于锚文本回溯链的网页主题分析方法具有以下优点：能够在搜索过程中更准确地分析网页主题与目标主题的相关性。

附图说明

结合附图，本发明的技术特征以及优点将会被本领域技术人员更好地理解，其中：

图1是根据本发明的实施例的基于锚文本回溯链的网页主题分析方法的流程图；

图2是根据本发明的实施例的基于锚文本回溯链的网页主题分析方法而形成的锚文本回溯链的原理示意图。

具体实施方式

图1是根据本发明的实施例的基于锚文本回溯链的网页主题分析方法的流程图。如图1所示，本发明所公开的基于锚文本回溯链的网页主题分析方法包括下列步骤：(A1)在确定待搜索的目标主题之后，搜索引擎触发网页追逐器(例如网络爬虫程序或脚本)在由HTML文档借助于超链接组成的网络上行进(即不断地从一个链接爬行到另一个链接)以形成行进链；(A2)基于所述行进链，所述网页追逐器针对每个当前正经过的网页形成锚文本回溯链；(A3)所述搜索引擎基于所形成的锚文本回溯链分析当前正经过的网页的主题。

优选地，在本发明所公开的基于锚文本回溯链的网页主题分析方法中，所述步骤(A2)进一步包括：通过记录和回溯所述网页追逐器所形成的行进链上的每个超链接所对应的锚文本的信息来形成所述锚文本回溯链。

优选地，在本发明所公开的基于锚文本回溯链的网页主题分析方法中，所述锚文本回溯链包含到达当前正经过的网页时所述网页追逐器最近N次行进所历经的每个超链接所对应的锚文本的信息，其中，N是预先设定的回溯链最大路径长度(即到达当前正经过的网页时所述网页追逐器最近经过的超链接的个数)。例如，当使用逻辑结构{URL,K₁,K₂,……,K_N}(其中，URL为当前正经过的网页的超链接，K₁为当前正经过的网页的超链接对应的锚文本，K₂～k_N为依次对应回溯路径上的各个网页的锚文本信息，N为预先设定的回溯链最大路径长度)表示与当前正经过的网页相对应的锚文本回溯链，则从当前正经过的网页的超链接(URL)触发行进到下一个超链接时，与该超链接所对应的新的网页相对应的锚文本回溯链的逻辑结构为{URL`,K`,K₁,K₂,……,K_N-1}(其中，URL`为当前正经过的新的网页的超链接，K`为当前正经过的新的网页的超链接对应的锚文本，K₁～k_N-1为依次对应回溯路径上的各个网页的锚文本信息)。

图2是根据本发明的实施例的基于锚文本回溯链的网页主题分析方法而形成的锚文本回溯链的原理示意图。如图2所示，优选地，在本发明所公开的基于锚文本回溯链的网页主题分析方法中，所述步骤(A2)进一步包括：所述网页追逐器在行进过程中不断记录所经过的超链接对应的锚文本的信息，并且在到达新的超链接时，将上个超链接所对应的锚文本回溯链中的最远一个锚文本的信息去掉，并同时将当前的新的超链接所对应的锚文本的信息添加到锚文本回溯链中，以形成与当前的新的超链接对应的锚文本回溯链。由上可见，在本发明所公开的基于锚文本回溯链的网页主题分析方法中，在网页追逐器行进过程中，在到达新的超链接时能够简单而快捷地形成该超链接所对应的锚文本回溯链，从而避免了具体的回溯过程，因而显著地提高了效率。

优选地，在本发明所公开的基于锚文本回溯链的网页主题分析方法中，所述搜索引擎以如下方式分析当前正经过的网页的主题：(1)从当前正经过的超链接所对应的锚文本的信息出发遍历该超链接对应的锚文本回溯链，以计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值；(2)计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值，并且基于该平均值确定当前正经过的网页的主题是否与所述目标主题相关。

优选地，在本发明所公开的基于锚文本回溯链的网页主题分析方法中，以如下公式计算锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值：

URL_SIM = \frac{1}{N} Σ_{i = 1}^{N} w_{i}

优选地，在本发明所公开的基于锚文本回溯链的网页主题分析方法中，通过计算锚文本和所述目标主题的特征词之间的语义相似度来计算锚文本回溯链中的每个锚文本与目标主题的相关度的值，其中，以如下公式计算锚文本和目标主题的特征词之间的语义相似度：

Sim (C_{1}, C_{2}) = \frac{λ}{Dis (C_{1}, C_{2}) + λ}

其中λ是可调节的参数，Dis(C₁,C₂)表示两个词语C₁和C₂在语义字典(其被预先设定或构建)中的距离。

优选地，在本发明所公开的基于锚文本回溯链的网页主题分析方法中，通过计算锚文本与目标主题的特征词库中的所有特征词之间的语义相似度并取用最大值作为该锚文本与目标主题的相关度的值，其中，以如下公式计算锚文本回溯链中第i个锚文本K_i与目标主题的相关度的值：

w_{i} = \max_{j = 1 &RightArrow; K} Sim (K_{i}, T_{j}) = \max_{j = 1 &RightArrow; K} \frac{λ}{Dis (K_{i}, T_{j}) + λ}

优选地，在本发明所公开的基于锚文本回溯链的网页主题分析方法中，所述步骤(A3)进一步包括：将锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值与预定的阈值相比较，如果所述平均值小于所述阈值，则判定当前正经过的网页的主题与所述目标主题相关，否则，判定当前正经过的网页的主题与所述目标主题不相关。

由上可见，本发明所公开的基于锚文本回溯链的网页主题分析方法具有下列优点：能够在搜索过程中更准确地分析网页主题与目标主题的相关性。

尽管本发明是通过上述的优选实施方式进行描述的，但是其实现形式并不局限于上述的实施方式。应该认识到：在不脱离本发明主旨和范围的情况下，本领域技术人员可以对本发明做出不同的变化和修改。

Claims

1.一种基于锚文本回溯链的网页主题分析方法，所述基于锚文本回溯链的网页主题分析方法包括下列步骤：

2.根据权利要求1所述的基于锚文本回溯链的网页主题分析方法，其特征在于，所述步骤(A2)进一步包括：通过记录和回溯所述网页追逐器所形成的行进链上的每个超链接所对应的锚文本的信息来形成所述锚文本回溯链。

3.根据权利要求2所述的基于锚文本回溯链的网页主题分析方法，其特征在于，所述锚文本回溯链包含到达当前正经过的网页时所述网页追逐器最近N次行进所历经的每个超链接所对应的锚文本的信息，其中，N是预先设定的回溯链最大路径长度。

4.根据权利要求3所述的基于锚文本回溯链的网页主题分析方法，其特征在于，所述步骤(A2)进一步包括：所述网页追逐器在行进过程中不断记录所经过的超链接对应的锚文本的信息，并且在到达新的超链接时，将上个超链接所对应的锚文本回溯链中的最远一个锚文本的信息去掉，并同时将当前的新的超链接所对应的锚文本的信息添加到锚文本回溯链中，以形成与当前的新的超链接对应的锚文本回溯链。

5.根据权利要求4所述的基于锚文本回溯链的网页主题分析方法，其特征在于，所述搜索引擎以如下方式分析当前正经过的网页的主题：(1)从当前正经过的超链接所对应的锚文本的信息出发遍历该超链接对应的锚文本回溯链，以计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值；(2)计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值，并且基于该平均值确定当前正经过的网页的主题是否与所述目标主题相关。

6.根据权利要求5所述的基于锚文本回溯链的网页主题分析方法，其特征在于，以如下公式计算锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值：

URL_SIM = \frac{1}{N} Σ_{i = 1}^{N} w_{i}

7.根据权利要求6所述的基于锚文本回溯链的网页主题分析方法，其特征在于，通过计算锚文本和所述目标主题的特征词之间的语义相似度来计算锚文本回溯链中的每个锚文本与目标主题的相关度的值，其中，以如下公式计算锚文本和目标主题的特征词之间的语义相似度：

Sim (C_{1}, C_{2}) = \frac{λ}{Dis (C_{1}, C_{2}) + λ}

8.根据权利要求7所述的基于锚文本回溯链的网页主题分析方法，其特征在于，通过计算锚文本与目标主题的特征词库中的所有特征词之间的语义相似度并取用最大值作为该锚文本与目标主题的相关度的值，其中，以如下公式计算锚文本回溯链中第i个锚文本K_i与目标主题的相关度的值：

w_{i} = \underset{j = 1 &RightArrow; K}{man} Sim (K_{i}, T_{j}) = \max_{j = 1 &RightArrow; K} \frac{λ}{Dis (K_{i}, T_{j}) + λ}

9.根据权利要求8所述的基于锚文本回溯链的网页主题分析方法，其特征在于，所述步骤(A3)进一步包括：将锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值与预定的阈值相比较，如果所述平均值小于所述阈值，则判定当前正经过的网页的主题与所述目标主题相关，否则，判定当前正经过的网页的主题与所述目标主题不相关。