CN102298622B

CN102298622B - 基于锚文本的聚焦网络爬虫搜索方法及其系统

Info

Publication number: CN102298622B
Application number: CN201110230220.XA
Authority: CN
Inventors: 郝红卫; 台宪青; 王艳军; 殷绪成
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-08-11
Filing date: 2011-08-11
Publication date: 2013-01-02
Anticipated expiration: 2031-08-11
Also published as: CN102298622A

Abstract

本发明公开了一种基于锚文本的聚焦网络爬虫搜索方法及其系统，所述方法主要包括：从URL优先级队列中获取URL，并依据URL从Internet下载得到Web页面；对下载的Web页面进行解析，提取URL及其锚文本；对提取出的URL及其锚文本进行筛选；采用TF-IDF与LSI相结合的算法来计算URL的主题相关度，并将符合条件的URL放入优先级队列中；所述系统包括：URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器。通过采用所述基于锚文本的聚焦网络爬虫搜索方法及其系统，本发明提高了聚焦网络爬虫爬行结果的主题相关度及爬行效率。

Description

基于锚文本的聚焦网络爬虫搜索方法及其系统

技术领域

本发明涉及一种爬虫搜索方法及其系统，尤其涉及一种聚焦网络爬虫搜索方法及其系统。

背景技术

当前，网络越来越成为人们获取信息的主要渠道，传统搜索引擎已经不能完全满足人们的需求。随着人工智能技术的进一步成熟和信息服务的多样化，搜索引擎技术正向智能化、个性化、领域化方向发展。

垂直搜索引擎是面向特定领域的专业搜索引擎，旨在缩小搜索的总范围，从而获得更高的搜索精度，并提高搜索引擎对于网络资源的跟踪能力。作为垂直搜索引擎的核心部分，聚焦网络爬虫担任了从Internet收集和更新信息的重要任务。与传统的广度优先的爬虫相比，主题爬虫最重要的特点就是采用了不同的优先级计算方法，有选择地爬行符合特定主题的网页。

现有的大部分主题爬虫是采用基于向量空间模型VSM(Vector SpaceModel)和词频-逆文档频率TF-IDF(Term Frequency-Inverse DocumentFrequency)或其改进算法来指导爬行。由于TF-IDF本质上是一种严格的字符串匹配算法，无法处理字符意义层面上的近似，因此很多文献都通过查询扩展来增加主题包含的关键词范围来解决“隧道贯穿”的问题。潜在语义索引LSI(Latent Semantic Indexing)算法利用线性代数中的奇异值分解来处理潜在语义的问题，但目前LSI在垂直爬行算法中被研究较少。我们认为网络上的超链接锚文本与主题网页正文文本之间存在某种潜在语义关系，因此LSI算法在指导主题爬虫爬行方面应该具有更优越的性能。因此，本发明结合TF-IDF和LSI两者的优势，将TF-IDF+LSI算法应用于主题相关度计算提出了基于锚文本的聚焦网络爬虫搜索方法及其系统。

发明内容

本发明提出了基于锚文本的聚焦网络爬虫搜索方法及其系统，以解决现有技术中主题相关度算法存在的以下技术问题：现有的广度优先算法指导的爬虫其积累主题相关度虽然能稳定增长，但增长速度缓慢；TD-IDF指导的爬虫虽然在爬行启动阶段有很高的性能，但在爬行了大约20个页面后其积累的主题相关度不再增长；LSI指导的爬虫虽然具有穿越隧道的能力，但是在爬行开始时速度较慢。

为解决上述技术问题，本发明所述的基于锚文本的聚焦网络爬虫搜索方法包括以下步骤：

(1.1)网络爬虫下载器从URL优先级队列中获取URL，并依据URL从Internet下载Web页面；

(1.2)使用URL解析器对下载的Web页面进行解析，提取出URL及其锚文本；

(1.3)使用URL筛选器对提取出的URL及其锚文本进行筛选；

(1.4)主题相关性判断器采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对筛选出的URL计算其主题相关度，并将符合条件的URL放入优先级队列中；

(1.5)重复执行步骤(1.1)到(1.4)，直到达到停止条件为止。

本发明所述的基于锚文本的聚焦网络爬虫系统包括：URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器，其中，

网络爬虫下载器与URL优先级队列相连，用于从URL优先级队列中获取URL，依据URL从Internet下载Web页面，并将下载的Web页面存入Web页面库中；

URL解析器用于对Web页面库中下载的Web页面进行解析，提取URL及其锚文本；

URL筛选器用于对提取出的URL及其锚文本进行筛选；

主题相关性判断器用于采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对URL筛选器筛选出的URL计算其主题相关度，并将符合条件的URL放入优先级队列中。

本发明的有益效果是：本发明所构建的聚焦网络爬虫搜索方法及其系统与一般的爬虫搜索方法及其系统相比，能更好地满足特定用户对于特定领域资源的准确、全面、高效的信息搜集需求。

附图说明

图1是本发明所述的搜索方法流程图。

图2是本发明中的主题相关度计算方法的流程图。

图3是本发明所述的系统框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为本发明所述的基于锚文本的聚焦网络爬虫搜索方法流程图。该方法包括以下步骤：

步骤1：网络爬虫下载器从URL优先级队列中获取URL，并依据URL从Internet下载得到Web页面，并将其放入Web页面库中，其中，Web页面库用于存放下载的Web页面：

URL优先级队列分为URL主要优先级队列和URL备用优先级队列；当系统启动时，主要优先级队列中存放的是用户指定的种子URL，备用优先级队列为空；下载器从URL优先级队列中获取URL时，按主题相关度从大到小的顺序，先依次取出主要优先级队列中的URL，当主要优先级队列为空时则取出备用优先级队列中的URL。

步骤2：使用URL解析器对下载的Web页面进行解析，提取URL及其锚文本；

步骤3：若提取出的URL已经被访问过，则转向步骤1；若提取出的URL未被访问过，则继续步骤4；

步骤4：构建领域知识库，URL筛选器根据该领域知识库判断URL及其锚文本是否与主题相关。领域知识库包括页面导航词汇、专有词汇和禁用词汇。URL筛选器的工作过程如下：

(1)如果URL中包含页面导航词汇，如“index”、“list”、“load”等，说明此页面为导航页面或登录页面，页面不具有主题相关性；

(2)如果锚文本内含有规定的禁用词汇，如包含反动意义的词汇和淫秽词汇等，则说明此页面为非法页面，不具有主题相关性；

(3)如果锚文本中含有知识库中的专有词汇(由用户根据需下载的网页内容所涉及的领域确定)，则页面具有主题相关性。

通过URL筛选器将与主题相关的URL及其锚文本提交给主题相关性判断器；与主题无关的则舍弃，返回步骤3。

步骤5：在主题相关性判断器中分别利用TF-IDF算法和LSI算法计算URL的主题相关度，并将符合条件的URL分别放入相应的优先级队列中。

如图2所示，在主题相关性判断器中，主题相关度计算方法流程为：

首先，对与主题相关的URL所对应的锚文本进行TF-IDF主题相关度计算。

在向量空间模型中，锚文本和关键词集合被表示为向量，向量由一系列特征权重组成，特征空间维数对应所有锚文本和关键词中不同术语的数量。

锚文本向量表示为：

d_j＝(w_1，j，w_2，j，…，w_m，j) (1)

关键词向量表示为：

q＝(w_1，q，w_2，q，…，w_n，q) (2)

式(1)、(2)中，j表示锚文本的个数，m表示锚文本中术语的个数，n表示关键词中术语的个数，w_m，j表示锚文本d_j的第m个术语的权重，w_n，q表示关键词q的第n个术语的权重。

本发明中采用TF-IDF算法来进行主题相关度计算，锚文本d_j的主题相关度计算公式如下：

w_{j} = Σ_{i = 1}^{m} ({tf}_{i} * \log (\frac{N}{{df}_{i}})) - - - (3)

式(3)中，tf_i为术语(项)频率，是术语i在某一文档中出现的次数；N为文档集大小，是文档集包含的文档的数目；df_i为术语的文档频率，是包含了术语i的文档的总个数。

其次，对采用TF-IDF公式(3)计算出的主题相关度w_j与阈值1进行比较。若计算出的主题相关度大于预先设定的阈值1，则将对应的URL根据主题相关度的大小放入主要优先级队列中的相应位置；否则，对所述与主题相关的URL所对应的锚文本进行LSI主题相关度的计算。

LSI主题相关度计算的步骤如下：

(1)以术语为行，锚文本为列形成矩阵X，共t行d列，矩阵的元素为术语在锚文本中的出现频度或其他权重值。将该矩阵进行奇异值分解，如公式(4)所示。

X＝T₀S₀D₀′ (4)

式中，T₀和D₀分别是左奇异矩阵和右奇异矩阵，S₀是奇异值的对角矩阵，其中S₀由正值组成且递减排列。

(2)把矩阵S₀(m×m)的m个对角线元素的前k个保留，后m-k个置0，得到近似分解，如公式(5)所示。

为在最小二乘意义下对X的最佳近似，其中k依据实际问题要求进行平衡选择。

从S₀中删除“0”行和“0”列获取一个新的对角矩阵S，然后分别从T₀和D₀中删除相应的行和列来获取T和D。

(3)进行关键词、锚文本之间相关度计算。

比较关键词与锚文本的相关度时，先求解关键词术语向量q在降维空间上的向量表示X_q，如下公式(6)(7)所示。

q = TS {X_{q}}^{'} &DoubleRightArrow; (S^{- 1} T^{'}) q = (S^{- 1} T^{'}) {TSX}_{q}^{'} = {X_{q}}^{'} - - - (6)

即，X_q＝q′TS^-1 (7)

式中，X_q表示q在对应的降维空间上的向量表示，为X_q的转置矩阵，S^-1为S的逆矩阵。

然后计算关键词向量降维后的向量表示X_q与锚文本向量d_j的主题相关度，如公式(8)所示，当然也可以选择其他相关度计算公式，其中，q_i表示第i个术语在关键词向量降维后的向量表示X_q中的标准化权重，d_ij表示第i个术语在锚文本d_j中的标准化权重。

Sim (X_{q}, d_{j}) = \frac{Σ_{i = 1}^{t} q_{i} d_{ij}}{\sqrt{Σ_{i = 1}^{t} {q_{i}}^{2} Σ_{i = 1}^{t} {d_{ij}}^{2}}} - - - (8)

最后，对采用公式(8)计算出的主题相关度与阈值2进行比较。若计算出的主题相关度大于预先设定的阈值2，则将对应的URL根据主题相关度的大小放入备用优先级队列中的相应位置；否则，将此URL及其锚文本舍弃。

步骤6：重复执行步骤1到5，直到下载的Web页面数量达到设定的阈值3为止。

图3为本发明所述的基于锚文本的聚焦网络爬虫系统框架示意图，所述系统包括：URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器、主题相关性判断器以及领域知识库。

所述网络爬虫下载器与URL优先级队列相连，用于从URL优先级队列中获取URL，并依据URL从Internet下载Web页面存入Web页面库中；所述URL优先级队列分为URL主要优先级队列和URL备用优先级队列，当系统启动时，主要优先级队列中存放的是用户指定的种子URL，备用优先级队列为空；网络爬虫下载器从URL优先级队列中获取URL时，按主题相关度从大到小的顺序，先依次取出主要优先级队列中的URL，当主要优先级队列为空时则取出备用优先级队列中的URL。

所述URL解析器用于对Web页面库中下载的Web页面进行解析，提取URL及其锚文本。

所述URL筛选器用于根据领域知识库中所包含的词汇对于提取出的URL及其锚文本进行是否与主题相关的判断和筛选；所述领域知识库包括页面导航词汇、专有词汇和禁用词汇。

所述主题相关性判断器用于采用TF-IDF与LSI相结合的算法对URL筛选器筛选出的URL计算其主题相关度，并将符合条件的URL放入优先级队列中，具体地，主题相关性判断器将符合TF-IDF主题相关度条件的URL放入URL主要优先级队列中，将符合LSI主题相关度条件的URL放入URL备用优先级队列中。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于锚文本的聚焦网络爬虫搜索方法，其特征在于，该方法包括以下步骤：

(1.3)使用URL筛选器对提取出的URL及其锚文本进行筛选；

(1.4)主题相关性判断器采用词频-逆文档频率TF-IDF与潜在语义索引L SI相结合的算法对筛选出的URL计算其主题相关度，并将符合条件的URL放入优先级队列中；

(1.5)重复执行步骤(1.1)到(1.4)，直到达到停止条件为止；其中，

所述步骤(1.1)中的所述URL优先级队列分为URL主要优先级队列和URL备用优先级队列；所述方法开始时，所述URL主要优先级队列中存放的是用户指定的种子URL，所述URL备用优先级队列为空；

所述网络爬虫下载器从所述URL优先级队列中获取URL时，按主题相关度从大到小的顺序，先依次取出所述URL主要优先级队列中的URL，当所述URL主要优先级队列为空时再取出所述URL备用优先级队列中的URL；

所述步骤(1.4)包括以下步骤：

(6.1)对与主题相关的URL所对应的锚文本进行TF-IDF主题相关度计算，并将主题相关度大于阈值1的URL按其相关度大小依次加入到所述URL主要优先级队列中，相关度大的排在前面；

(6.2)然后将其余的URL所对应的锚文本使用L SI算法进行主题相关度计算，并将主题相关度高于阈值2的URL按其相关度大小加入到所述URL备用优先级队列中，相关度大的排在前面，并舍弃主题相关度不高于阈值2的URL。

2.根据权利要求1所述的基于锚文本的聚焦网络爬虫搜索方法，其特征在于，步骤(1.3)中使用URL筛选器对提取出的URL及其锚文本进行筛选具体为根据URL及其锚文本是否与主题相关来对其进行筛选。

3.根据权利要求2所述的基于锚文本的聚焦网络爬虫搜索方法，其特征在于，根据URL及其锚文本是否与主题相关来对其进行筛选包括以下步骤：

(4.1)构建领域知识库，所述领域知识库包括页面导航词汇、专有词汇和禁用词汇；

(4.2)根据领域知识库所包含的词汇判断所述URL及其锚文本是否与主题相关。

4.根据权利要求3所述的基于锚文本的聚焦网络爬虫搜索方法，其特征在于，根据领域知识库所包含的词汇判断所述URL及其锚文本是否与主题相关具体为：

(5.1)如果URL中包含有领域知识库中的页面导航词汇，则说明此页面为导航页面或登录页面，页面不具有主题相关性；

(5.2)如果锚文本内含有领域知识库中的禁用词汇，则说明此页面为非法页面，不具有主题相关性；

(5.3)如果锚文本中含有领域知识库中的专有词汇，则页面具有主题相关性。

5.根据权利要求1所述的基于锚文本的聚焦网络爬虫搜索方法，其特征在于，步骤(1.5)中的停止条件为：所下载的Web页面数量达到设定的阈值3。

6.一种基于锚文本的聚焦网络爬虫系统，其特征在于，该系统包括：URL优先级队列模块、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器，其中，

网络爬虫下载器与URL优先级队列模块相连，用于从URL优先级队列模块中获取URL，依据URL从Internet下载Web页面，并将下载的Web页面存入Web页面库中；

URL筛选器用于对提取出的URL及其锚文本进行筛选；

主题相关性判断器用于采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对URL筛选器筛选出的URL计算其主题相关度，并将符合条件的URL放入优先级队列模块中。

7.根据权利要求6所述的基于锚文本的聚焦网络爬虫系统，其特征在于，该系统还包括领域知识库，所述领域知识库包括页面导航词汇、专有词汇和禁用词汇，其中，URL筛选器根据领域知识库中所包含的词汇对于提取出的URL及其锚文本进行是否与主题相关的判断以及筛选。

8.根据权利要求6所述的基于锚文本的聚焦网络爬虫系统，其特征在于，所述URL优先级队列模块分为URL主要优先级队列模块和URL备用优先级队列模块，其中，

当系统启动时，所述URL主要优先级队列模块中存放的是用户指定的种子URL，所述URL备用优先级队列模块为空；

所述网络爬虫下载器从所述URL优先级队列模块中获取URL时，按主题相关度从大到小的顺序，先依次取出所述URL主要优先级队列模块中的URL，当所述URL主要优先级队列模块为空时则取出所述URL备用优先级队列模块中的URL；

主题相关性判断器将符合TF-IDF主题相关度条件的URL放入所述URL主要优先级队列模块中，将符合LSI主题相关度条件的URL放入所述URL备用优先级队列模块中。