CN109766486A

CN109766486A - 一种基于变异思想改进粒子群算法的主题爬虫系统及方法

Info

Publication number: CN109766486A
Application number: CN201811488041.4A
Authority: CN
Inventors: 徐光侠; 蒋鹏; 马创; 张业; 程金伟; 胡梦潇; 李林峰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-05-17
Anticipated expiration: 2038-12-06
Also published as: CN109766486B

Abstract

本发明公开了一种基于变异思想改进粒子群算法的主题爬虫系统及方法，涉及种子集选取、页面初始权值计算与算法改进三个部分。种子集选取模块主要是基于主题相关页面的点击率获取3种不同类型的种子页面，其中包括人工去重操作；页面初始权值计算模块包括网页文本预处理、关键词选择及权值计算三个步骤；算法改进模块是基于变异思想改进粒子群算法。本爬虫系统对主题爬虫寻优精度不高的问题提供了思路。

Description

一种基于变异思想改进粒子群算法的主题爬虫系统及方法

技术领域

本发明属于数据挖掘领域。涉及一种基于变异思想改进粒子群算法的主题爬虫系统，主要从种子集的选取和算法改进两个方面为主题爬虫领域提供一种新的思路。

背景技术

随着网页增长，搜索引擎的性能遭遇巨大的挑战，网络爬虫作为搜索引擎的重要组件，由于搜索结果列表长、检索信息量大等问题，出现了检索精度低、查全率低、检索速度慢等问题。为了克服这些问题，我们引入了垂直搜索引擎，其核心组件被称之为主题爬虫。

主题爬虫的目标是消耗更少的时间和空间资源来检索与给定主题相关的更多数量和更高质量的页面。它按照预先定义的爬行主题，在给定初始URL种子集后，根据一定的分析算法，对爬行网页进行主题相关分析，过滤与主题不相关的网页，在不断抓取相关网页的过程中，将与主题相关的链接放进待爬行队列中，重复这个过程，直到达到一定条件为止。主题爬虫不同于普通的网络爬虫，它的初始URL种子集必须是事先定义的主题高度相关的页面，而且它不必收集所有的网页，只爬取那些与主题相关的页面，减少无关页面的下载，明显地减少了大量的时间和空间资源，满足了用户需求。

根据主题爬虫的搜索策略的不同可以将主题爬虫分为三类：传统主题爬虫、语义主题爬虫(Semantic Focused Crawler)和学习主题爬虫(Learning Focused Crawler)。传统主题爬虫是利用网页文本信息分析、链接结构分析或者两者结合来预测未访问链接的主题相关值；语义主题爬虫是利用本体的语义相似度预测未访问链接的主题相关值；而学习主题爬虫是利用机器学习理论预测未访问链接的主题相关值。

传统主题爬虫中，基于网页文本内容分析的代表方法有鱼群搜索策略(Fish-Search)、鲨鱼搜索策略(Shark-Search)等，该方法普遍存在“近视”的缺点，它忽视了链接结构的作用，难以得到全局范围内的最优解；基于链接结构分析的代表方法有PageRank算法和HITS(Hyperlink-Induced Topic Search)算法，该方法容易造成“主题漂移(TopicDrift)”现象，即查询结果与用户想要的主题无关,而且计算量大，容易造成爬行速度缓慢；基于文本内容和链接结合的方法是近几年研究的热门，这种综合的策略既考虑了网页内容与主题的相关性，也考虑了网页在网络中的权威程度从而能够有效指导爬虫爬行。但是其中也存在一些问题，例如，很多研究者提出的方法大都使用向量空间模型来计算网页的相似度而没有考虑特征词项的语义信息，或者是将链接评价和内容评价结果简单线性相加而没有考虑它们更深层次的关系，导致一些相关网页不能被发现和采集。

语义主题爬虫是传统主题爬虫的一个变种，它在判定主题相关度问题时会充分利用本体中的概念以及概念之间的关系从而模拟人类语言认知。主要分为两种方法：基于本体的分析方法和基于叙词表的分析方法。基于本体的分析方法能够很好地描述主题，并且在网页相关度计算时能极大地提高其准确性，但是目前仅有有少量通用的本体库，如HowNet,WordNet和ODP等，而重建本体往往比较复杂，需要领域专家的协助，构建成本比较高，因此其应用领域会受到限制，但随着本体库的建立，该方法将极具研究价值。采用叙词表的方式则不会受到本体库的限制，但很难在语义和知识层次上描述信息，应用前景不如本体。

学习主题爬虫主要是通过训练学习来指导主题爬虫的爬行。首先由用户提供样本网页组成训练集并且指明相关网页，利用遗传算法、神经网络算法、贝叶斯分类算法和支持向量机算法等机器学习的方法进行分类训练，然后在爬行阶段根据训练分类结果来判定网页的下载优先级，最后多数研究都采用并行式方法下载网页。这种方法在训练集小的情况下，爬行效果不够理想，同时机器学习的相关算法实现起来比较复杂，而且随着样本空间的增大，算法所花费时间也将增大。

上面提到的主题爬虫在很大程度上可以从Internet上检索与给定主题相关的页面，然而，在主题爬虫研究领域，目前还存在一些关键问题：

(1)自适应性差。在互联网中，不同类型网站的网页间组织形式相差很大，而目前的网络爬虫通常采用固定的搜索策略，并不能有效地搜集各类型网页。

(2)初始URL种子集选取不合理。一般情况下，初始URL种子集的选取往往需要人工与计算机结合来选取，以保证主题爬虫的效率。但是，网页爬取涉及的领域甚多，每次采用人工与计算机结合的方式耗时耗力，如何设计算法使得主题爬虫在面向不同领域时能够自动生成相应的初始URL种子集是未来的一个研究热点。

(3)对URL预测精准度不够。主题爬虫与通用爬虫的主要区别之一是，能够有选择性地过滤与主题无关的链接，选择与主题相关的页面进行挖掘。因此，在对待爬行URL进行主题相关度预测时，如果能够准确地判断待爬行URL与主题的相关度，过滤不相关链接，能够大大节省时间，提高效率。

发明内容

本发明旨在解决以上现有技术的问题，提出了一种基于变异思想改进粒子群算法的主题爬虫系统。本发明的技术方案如下：

一种基于变异思想改进粒子群算法的主题爬虫系统，包括种子集选取模块、页面初始权值计算模块和基于变异思想改进粒子群算法模块，所述种子集选取模块用于根据主题相关页面的点击率获取3种不同类型的种子页面；所述页面初始权值计算模块用于构建主题向量和权值计算；所述基于变异思想改进粒子群算法模块用于计算并输出局部极值。本爬虫系统对主题爬虫寻优精度不高的问题提供了思路。

具体地，上述3种不同类型的种子页面包括关键字对应的官网或权威机构，关键字的维基百科，关键字在Google搜索的结果中点击率最高的网页，每种页面选取一个。还包括人工去重，即对于类型接近，权重因子相似的网页只选其中具有代表性的一个页面。

上述页面初始权值计算模块包括网页文本预处理模块、关键词选择模块及权值计算模块；其中网页文本预处理模块：包括去停用词模块和词形归并模块，去停用词模块去掉了对网页的主题没有贡献的最常见单词，词形归并模块中整合源于同一个词根的词。关键词选择模块：采用TFIDF算法得到各个词项的权重并按照大小排序，选择前30％的名词和动词作为特征词项并以此为基础作为网页的特征向量。权值计算模块：计算给定主题的网页URL、网页全文、网页锚文本和网页周边文本的权重。

一种基于变异思想改进粒子群算法的主题爬虫方法，包括根据主题相关页面的点击率获取3种不同类型的种子页面的步骤；构建主题向量和权值计算步骤；基于变异思想改进粒子群算法步骤。

构建主题向量和权值计算步骤具体步骤如下：

网页文本预处理：去掉对网页的主题没有贡献的最常见单词，整合源于同一个词根的词；

关键词选择：采用TFIDF算法得到各个词项的权重并按照大小排序，选择前30％的名词和动词作为特征词项并以此为基础作为网页的特征向量；

权值计算：计算给定主题的网页URL、网页全文、网页锚文本和网页周边文本的权重。

基于变异思想改进粒子群算法包括以下步骤：

(1)初始化种群位置和速度：其中x_i是粒子的位置，v_i是粒子的速度，v_i1,v_i2,...,v_id为每一个维度的速度，本文中初始值为x_id＝v_id，初始位置计算公式如下：初始速度计算公式：其中，d表示粒子群总数，本发明中值为4，x_i1,x_i2,...,x_id表示各个粒子的位置。

(2)计算权值：计算公式为v_i2是网页全文在网页i中的加权值，tf_i和idf_i是网页全文在网页i中的术语频率和逆文档频率，f_i指给定关键词出现的次数，f_max是所有词出现的次数总和，N为语料库中的文件总数，N_i是包含词语的文件数目；

(3)更新速度和位置：

更新的位置计算公式如下：x₁(t+1)＝x₁(t)+v_i(t+1)，更新的速度计算公式如下：v₁(t+1)＝v₁(t)+c₁r₁(t)(pbest_i(t)-x_i(t))+c₂r₂(t)(gbest_i(t)-x_i(t))，C₁和C₂表示两个独立的加速度系数，r₁(t)和r₂(t)为两个独立的随机数，其取值范围均为(0，1)。其中，v₁(t+1)表示粒子更新后的速度值，v₁(t)表示粒子现在的速度值，pbest_i(t)表示对于i粒子方向的局部极值，x_i(t)表示粒子当前的位置，gbest_i(t)表示t时刻的全局极值。

(4)变异操作：首先采用PSO算法搜索网页，当PSO算法陷入局部极值时，引入GA算法只对陷入局部极值的粒子进行变异操作，再继续进行全局搜索，直到满足终止条件。

(5)更新局部极值：根据步骤(2)计算出各权重因子的权值，将最大的速度值v_ik依据比例变成1，其他权值依据比例1/v_ik增加；

(6)迭代计算，输出局部极值：需要计算粒子和当前网页的相似性，且设置了相似度的阈值，取值范围为[0,1]，如果网页和全局极值的相似度低于阈值，则下载。

本发明的优点及有益效果如下：

本发明提出了一种基于变异思想改进粒子群算法的主题爬虫系统，为数据挖掘提供了新的思路。技术效果如下：(1)提出了一种种子页面选择思路：根据用户访问习惯选取3种不同结构的权威种子页面，通过这种方法尽量全面爬取不同类型的网页，避免由于种子网页过于单一所造成的偏移问题；(2)选择四个网页特征：网页URL、网页全文、网页锚文本和网页周边文本，使其尽可能全面地表征网页。采用TFIDF算法进行页面初始权值的计算，简洁有效。(3)基于变异思想改进了粒子群算法，避免爬虫陷入局部极值。去掉了交叉的思想，避免爬取网页的同质化。

附图说明

图1是本发明的系统结构图；

图2是本发明的主题向量构建流程图；

图3是本发明的基于变异思想改进粒子群算法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

图1是本发明的系统结构图。涉及种子集选取、页面初始权值计算与算法改进三个部分。种子集选取模块主要是基于主题相关页面的点击率获取3种不同类型的种子页面，其中包括人工去重操作；页面初始权值计算模块包括网页文本预处理、关键词选择及权值计算三个步骤；算法改进模块是基于变异思想改进粒子群算法。

图2是本发明的主题向量构建流程图。主要有以下三个步骤：

(1)网页文本预处理：此过程包括去停用词模块和词形归并模块。去停用词中去掉了最常见的单词，如“The”、“and”和“for”，它们对网页的主题没有什么贡献。而词形归并中整合源于同一个词根的词。例如，“tree”、“trees”和“treeing”可以整合为“tree”。在此预处理之后，可以很容易地提取出许多主题术语和文本术语。

(2)关键词选择：网页预处理之后得到了文本词项的集合，接着就要找出能够表征文本主题的特征向量，这一步也可以叫做特征提取。本文采用TFIDF算法得到各个词项的权重并按照大小排序，选择前30％的名词和动词作为特征词项并以此为基础作为网页的特征向量。这种方法能够有效地降低特征向量的维度，而且实验结果表明前30％的关键词项能够很好地表达文本的主题。

(3)权值计算：计算给定主题的网页URL、网页全文、网页锚文本和网页周边文本的权重，以网页全文权值计算为例，具体计算公式如下：其中v_i2是网页全文在网页i中的加权值，tf_i和idf_i是网页全文在网页i中的术语频率和逆文档频率，f_i指给定关键词出现的次数，f_max是所有词出现的次数总和，N为语料库中的文件总数，N_i是包含词语的文件数目，如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用N_i+1。经过TFIDF计算，得出每个种子页面对应的权值不一样，最后进行归一化处理得到最终权值v_i2，使得权值的范围[0,1]。

图3是本发明的基于变异思想改进粒子群算法流程图；具体实施如下：

(1)初始化种群位置和速度：其中x_i是粒子的位置，v_i是粒子的速度。v_i1,v_i2,...,v_id为每一个维度的速度，本文中初始值为x_id＝v_id。初始位置计算公式如下：初始速度计算公式：其中，d表示粒子群总数，本发明中值为4，x_i1,x_i2,...,x_id表示各个粒子的位置。

(2)计算权值：术语权重可以量化地表达整个网页，本文的权重是基于公式计算的。v_i2是网页全文在网页i中的加权值，tf_i和idf_i是网页全文在网页i中的术语频率和逆文档频率，f_i指给定关键词出现的次数，f_max是所有词出现的次数总和，N为语料库中的文件总数，N_i是包含词语的文件数目，如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用N_i+1。经过TFIDF计算，得出每个种子页面对应的权值不一样，最后进行归一化处理得到最终权值v_i2，使得权值的范围[0,1]。需要特别说明的是，网页URL的词数过少，不能采用TFIDF进行计算。

(3)更新速度和位置：计算权值需要两个值为2加速度系数：C₁和C₂以及两个独立的随机数：r₁(t)和r₂(t)，其取值范围为(0，1)。更新的位置计算公式如下：x₁(t+1)＝x₁(t)+v_i(t+1)，更新的速度计算公式如下：v₁(t+1)＝v₁(t)+c₁r₁(t)(pbest_i(t)-x_i(t))+c₂r₂(t)(gbest_i(t)-x_i(t))。其中，v₁(t+1)表示粒子更新后的速度值，v₁(t)表示粒子现在的速度值，pbest_i(t)表示对于i粒子方向的局部极值，x_i(t)表示粒子当前的位置，gbest_i(t)表示t时刻的全局极值。

(4)变异操作：首先采用PSO算法搜索网页，当PSO算法陷入局部极值时，引入GA算法的变异思想，只对陷入局部极值的粒子进行变异操作，再继续进行全局搜索，直到满足终止条件。经过大量的实验观察，我们将判断操作定义为:使用动态数组记录每步迭代的解，并与前一步进行比较。若发现数组中记录的解的相似度在10步以上，启动变异操作。以较小的概率随机小范围改变权值，本发明中权值的初始更改范围是(-0.5,0.5)。

(5)更新局部极值(pbest_i(t))：根据步骤(2)计算出各权重因子的权值，将最大的速度值v_ik依据比例变成1，其他权值依据比例1/v_ik增加。具体计算如下：

(6)迭代计算，输出局部极值。粒子群在行进过程中，需要计算粒子和当前网页的相似性，本系统设置了相似度的阈值radius，取值范围为[0,1]，如果网页和全局极值的相似度低于阈值，则下载。具体计算公式如下：

Claims

1.一种基于变异思想改进粒子群算法的主题爬虫系统，其特征在于：包括种子集选取模块、页面初始权值计算模块和基于变异思想改进粒子群算法模块，所述种子集选取模块用于根据主题相关页面的点击率获取3种不同类型的种子页面；所述页面初始权值计算模块用于构建主题向量和权值计算；所述基于变异思想改进粒子群算法模块用于计算并输出局部极值。

2.根据权利要求1所述一种基于变异思想改进粒子群算法的主题爬虫系统，其特征在于：所述3种不同类型的种子页面包括关键字对应的官网或权威机构，关键字的维基百科，关键字在Google搜索的结果中点击率最高的网页。

3.根据权利要求2所述一种基于变异思想改进粒子群算法的主题爬虫系统，其特征在于：所述3种不同类型的种子页面每种页面选取一个。

4.根据权利要求2或3所述一种基于变异思想改进粒子群算法的主题爬虫系统，其特征在于：所述种子集选取模块还包括人工去重，即对于类型接近，权重因子相似的网页只选其中具有代表性的一个页面。

5.根据权利要求1所述一种基于变异思想改进粒子群算法的主题爬虫系统，其特征在于：所述页面初始权值计算模块包括网页文本预处理模块、关键词选择模块及权值计算模块；

网页文本预处理模块：包括去停用词模块和词形归并模块，去停用词模块去掉了对网页的主题没有贡献的最常见单词，词形归并模块中整合源于同一个词根的词；

关键词选择模块：采用TFIDF算法得到各个词项的权重并按照大小排序，选择前30％的名词和动词作为特征词项并以此为基础作为网页的特征向量；

权值计算模块：计算给定主题的网页URL、网页全文、网页锚文本和网页周边文本的权重。

6.一种基于变异思想改进粒子群算法的主题爬虫方法，其特征在于：包括根据主题相关页面的点击率获取3种不同类型的种子页面的步骤；构建主题向量和权值计算步骤；基于变异思想改进粒子群算法步骤。

7.根据权利要求6所述一种基于变异思想改进粒子群算法的主题爬虫方法，其特征在于：所述3种不同类型的种子页面包括关键字对应的官网或权威机构，关键字的维基百科，关键字在Google搜索的结果中点击率最高的网页，每种页面选取一个。

8.根据权利要求7所述一种基于变异思想改进粒子群算法的主题爬虫方法，其特征在于：还包括人工去重步骤，人工去重原则为对于类型接近，权重因子相似的网页只选其中具有代表性的一个页面。

9.根据权利要求6所述一种基于变异思想改进粒子群算法的主题爬虫方法，其特征在于：所述构建主题向量和权值计算步骤具体步骤如下：

10.根据权利要求6所述一种基于变异思想改进粒子群算法的主题爬虫方法，其特征在于：所述基于变异思想改进粒子群算法包括以下步骤：

(1)初始化种群位置和速度：其中x_i是粒子的位置，v_i是粒子的速度，v_i1,v_i2,...,v_id为每一个维度的速度，初始值为x_id＝v_id，初始位置计算公式如下：初始速度计算公式：其中d表示粒子群总数，x_i1,x_i2,...,x_id表示各个粒子的位置；

(3)更新速度和位置：更新的位置计算公式如下：x₁(t+1)＝x₁(t)+v_i(t+1)，更新的速度计算公式如下：v₁(t+1)＝v₁(t)+c₁r₁(t)(pbest_i(t)-x_i(t))+c₂r₂(t)(gbest_i(t)-x_i(t))，C₁和C₂表示两个独立的加速度系数，r₁(t)和r₂(t)为两个独立的随机数，其取值范围均为(0，1)，其中，v₁(t+1)表示粒子更新后的速度值，v₁(t)表示粒子现在的速度值，pbest_i(t)表示对于i粒子方向的局部极值，x_i(t)表示粒子当前的位置，gbest_i(t)表示t时刻的全局极值；

(4)变异操作：首先采用PSO算法搜索网页，当PSO算法陷入局部极值时，引入GA算法只对陷入局部极值的粒子进行变异操作，再继续进行全局搜索，直到满足终止条件；