CN102662954B

CN102662954B - 一种基于url字符串信息学习的主题爬虫系统的实现方法

Info

Publication number: CN102662954B
Application number: CN201210052902.0A
Authority: CN
Inventors: 徐向华; 任祖杰; 万健; 殷昱煜; 胡昔祥
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2012-03-02
Filing date: 2012-03-02
Publication date: 2014-08-13
Anticipated expiration: 2032-03-02
Also published as: CN102662954A

Abstract

本发明公开一种基于URL字符串信息学习的主题爬虫系统的实现方法，首先，改进了传统的主题爬虫的相关度判断方法，提出了基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度的方法，并采用机器学习对URL字符串携带的信息不断学习，动态的更新主题相关向量，提高了目标URL主题相关度判断的准确性。最后，在不增加计算复杂度的同时，利用内容分析和链接分析相结合的爬虫策略，防止了主题爬虫陷入局部最优，提高了爬虫爬取时的全局性，改善了爬虫的效率。本发明可以用于垂直搜索引擎中爬虫模块用于爬取特定领域的网页。

Description

一种基于URL字符串信息学习的主题爬虫系统的实现方法

技术领域

本发明属于数据挖掘和搜索引擎技术领域，特别涉及一种基于URL字符串信息学习的主题爬虫系统的实现方法。

背景技术

随着互联网的信息量飞速增长以及人们对搜索引擎的要求越来越高，传统搜索引擎的局限性，如覆盖率低、时效性差、结果不准确、返回不相关的结果太多等缺点逐渐体现。为解决这些问题，研究人员提出垂直搜索引擎，专注与某个特定领域的内容搜索。其中，主题爬虫系统是垂直搜索引擎的核心部分，其主要目标是在有限的时间与网络带宽限制下尽可能多地采集与某个指定主题相关的高质量网页，忽略与指定主题无关或一些低质量的网页。主题爬虫系统要解决的主要问题有主题是否定义的明确；主题相关的URL是否被优先抓取；怎样去判断一个未知URL的主题相关性；主题网页是否都被抓取，有没有数据丢失。

目前存在的主题爬虫采用的爬行策略主要有基于文本内容的爬行策略，基于链接的爬行策略和基于分类的爬行策略。基于文本内容的爬行策略，在主题相关网页附近爬行时表现出较好的性能，但当离主题相关网页较远时容易迷失爬行方向，很难反映Web的整体情况。基于链接的爬行策略，在通用爬虫中有很好的指导效果，更适合发现权威网页，但不适合发现主题资源，而且其计算量一般都很大，导致更新周期较长，严重影响了爬行器的爬行效率。基于分类的爬虫，比较明确的定位用户查询串的主题信息，也可以将爬虫限定在特定类别的页面可以更为准确的提取用户查询主题，相似度计算也更方便。但不能反映Web的整体结构，存在计算复杂度较高，阈值不易确定等副作用。

发明内容

本发明的目的在于针对现有方法存在的上述问题，提出在挖掘URL字符串信息的同时结合网页内容分析和链接分析来提高主题爬虫的整体性能。在计算主题相关度的时候，结合了URL字符串信息、网页内容、锚信息去计算目标URL的主题相关度，同时还采用机器的自主学习对URL字符串所携带的信息进行学习，从而使URL主题相关度的计算更精确。另外，提出了基于文本内容分析和链接分析相结合的爬行策略，在防止爬虫只在局部最优的同时，还避免了较高的计算复杂度。

本发明解决其技术问题的技术方案是：

本发明是基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度，采用机器学习对URL字符串携带的信息不断学习，动态的更新主题相关向量，利用内容分析和链接分析相结合的爬虫策略。其具体步骤为：

步骤1--选择种子URL：

依据给定的主题，结合机器学习和人工选择，选定与主题相关的K个网页的URL作为种子URL，网页下载器从选定的种子URL开始下载网页。

步骤2--分析下载页面：

网页分析器对下载的网页内容和链接进行分析，提取网页的URL字符串信息、网页内容、锚信息。

步骤3--主题相关度计算：

根据URL字符串信息、网页内容、锚信息进行主题相关度计算。

步骤4--过滤不相关网页：

根据主题相关度，把低于主题相关度某个阀值的URL过滤掉。

步骤5--URL字符串信息学习：

URL字符串信息学习的基本过程是，先从给定网页的URL中得到一个训练数据集。URL字符串信息学习部分利用选取的学习算法对已经下载的网页URL字符串信息进行学习，得到一个主题知识库，主题知识库去指导URL主题相关度的计算，URL主题相关度的值再反馈给URL字符串信息学习部分从而去指导URL字符串信息的学习，经过URL字符串信息学习后，再去更新主题知识库，以便进一步学习，改进系统的性能。

步骤6—确定待下载的URL队列：

采用内容分析与链接分析相结合的爬虫策略，得出一个待下载的具有优先级的URL队列。

本发明具有的有益效果是：

1、本发明通过URL字符串信息、网页内容、锚信息去计算目标URL的主题相关度，提高了URL相关度计算的准确性。

2、本发明通过对URL字符串信息不断学习动态的改变主题相关向量，提高了主题相关向量判断的准确性。

3、本发明采用的内容分析和链接分析相结合的爬虫策略在减少计算复杂度的同时，能爬取更多的与主题相关的网页。

4、本发明可用于垂直搜索引擎的爬虫系统中，也可以用于网页的自动分类中。

附图说明

图1是本发明主题爬虫系统的总体框架图。

图2是本发明URL字符串信息学习的原理图。

具体实施方式

下面结合附图和具体实施应用过程对本发明进一步说明：

参照图1执行步骤来说明本发明的实施过程：

步骤1--选择种子URL：

依据给定的主题，结合机器学习和人工选择，选定与主题相关的K个网页的URL作为种子URL，网页下载器从种子URL开始下载网页。

步骤2--分析下载页面：

步骤3--主题相关度计算：

1) 相关度计算模型:

主题相关度计算模型采用空间向量模型如下：:

（1）

其中表示特征向量在文本中的权重值，表示特征向量i在主题特征库中的权值，N代表主题的特征向量，表示文本与给定主题向量的相关度。常用的计算文本权重值算法是 TF-IDF。其中TF部分表明了一个词组在给定链接上下文中出现的次数，IDF则使是在页面中出现次数很多的词组权值下降。链接上下文中没有出现的词组在向量中的对应元素其权值为0。

2) 主题向量的建立：

主题向量关系到网页主题相关度判断的准确性，直接决定了一个主题网络爬虫的爬行效果。主题向量是通过分析权威和中心主题资源，抽取出该领域比较有代表性的关键词组成一个向量。主题特征词的设置结合了手工设置和机器学习两种方法，根据需求建立了两个主题向量，一个是计算内容和锚的相关度时需要的特征向量，另一个是计算URL字符串相关度时需要的特征向量。在建立第一个特征向量的时候我们结合了上面两种方法的优缺点，在基于机器学习的基础上再进行人工选取从而确定主题特征词和其权值。第二个特征向量的建立是人工分析一些主题相关的网页得到一个初始的特征向量，再经过机器学习并不断地更新特征向量里的特征词和对应的权值。

3) 目标URL主题相关度计算：

根据1）中的相关度计算模型以及URL字符串信息、网页内容、锚信息对目标URL进行相关度计算。计算如式（2）

（2）

其中、、分别表示父网页、锚信息、URL字符串的主题相关度，相关度的计算使用上面的空间向量模型，、、是各部分所占的分数比例，、、满足。

步骤4--过滤不相关网页：

根据步骤3计算出的URL主题相关度，主题过滤器把主题相关度低于阈值的URL都过滤掉。

步骤5--URL字符串信息学习：

URL学习器是学习URL字符串信息，不断更新主题相关向量。由图2来说明URL字符串信息学习的基本过程是，先从给定网页的一些URL中得到一个训练数据集。URL字符串信息学习部分利用选取的学习算法对URL字符串信息进行学习，得到一个主题知识库，主题知识库去指导URL主题相关度的计算，URL主题相关度的值再反馈给URL字符串信息学习部分从而去指导URL字符串信息的学习，经过URL字符串信息学习后，再去更新主题知识库，以便进一步学习，改进系统的性能。URL字符串信息学习详细过程：

1) 训练数据：取100个网页，这些网页中有与主题相关的权威网页和中心网页，也有与主题不相关的一些网页，对这100个网页的URL进行训练，得出两个样本URL，样本一是与主题相关的URL集合，样本2是与主题不相关的URL集合。

2) 数据处理：对样本中的URL进行分割提取处理。URL分割提取处理过程为：把URL分割成一个个的关键词语，去掉那些不含信息的词语，得到能够反馈一些信息的词语。

例如：对URL http://sports.sina.com.cn/nba/进行分词后有http 、sports、sina、com、cn、nba，去掉不含信息的词语http、com、cn后得到sports、sina，nba这些能反馈信息的词语。

对上面的样本1和样本2中的URL进行分割提取处理之后得到一系列的词语，样本1中得到的是与主题相关词语，给每个词语一个权重，形成一个主题相关性词库，样本2中得到的是与主题不相关的词语，给他们初始权重为0，形成一个主题无关性词库。另外再建个学习词库，用来记录URL字符串信息学习得来的与主题相关词和该词出现次数。

3) URL相关度反馈学习：对URL进行上面的分割提取处理，得到一些词语，并给的值作为权重传给这些词语。其具体的过程如下：

（1）当（阈值）时把这些词组加入主题无关性词库，同时更改这些词语的权重值，得到更新的权重:

（3）

（2）当（阈值）时把URL相关度值传递给这些词语作为权重。对这些词语的处理如下：

①如果主题无关性词库有该词语，则不处理并丢弃该词语。

②如果主题无关性词库没有该词语，主题相关性词库里有，学习词库里没有，则更新主题相关性词库中该词语的权重，得到更新后的权重：

（4）

③如果主题无关性词库没有该词语且学习词库和主题相关性词库都没有该词语，首先把该词加入学习词库，并记录该词语出现次数为1，然后把该词语加入主题相关性词库，并把它的权重值的作为该词语的新权重加入主题相关词库。得到该词的权重：

（5）

④如果学习词库和主题相关性词库都有，首先查看学习词库中该词出现的次数m，并把该词出现的次数加1。

当时，得到更新的权重:

（6）

当时，得到更新的权重:

（7）

其中式(4)(5)(6)(7)中的是主题相关性词库中原有权重，是URL传递给词i的权重，是该词语更新后的权重。上面式(5)和式(7)中的n是自己定义的阀值。式(5)和式(7)中和处理是为了减少误判，只有当学习词库中通过学习得到的词语达到n次的时候才充分判定它和主题相关，从而按式(6)中的方法去更新权重值，这样使学习得到的结果更精确。

4) 主题知识库更新

为了使学习得到的结果更好，让主题相关性词库中尽量不包含与主题不相关的词语，主题无关性词库不包含与主题相关的词语。定时的对主题知识库进行处理，对主题相关性词库，分析主题相关性词库中每个词语的权重值，把权重值小于s（阈值）的词语从该词库中移除，这样进一步降低了把主题不相关的词语误判为主题相关词语的概率。对主题无关性词库，统计每个词语的权重，按其权重值的大小进行排名，把排名靠前的按一个比例H（阈值）删除，这样可以减少把那些主题相关词语误判为与主题不相关词语概率。

步骤6--主题爬虫的爬行策略：

爬行策略处理器指定一个内容分析与链接分析相结合的爬虫策略，具体过程如下：

1) 首先根据URL字符串信息、网页内容、锚信息去计算一个URL的主题相关度得到一个相关度值，滤除相关度值小于一个给定阈值的URL。

2) 创建一个队列List，记录已经访问过的来自不同主机的URL的主机名。

3) 当一个网页向外引出的与主题相关网页数大于一个阈值时，给它该网页URL一个奖励分数。

4) 当一个网页主机名不在List队列中，就给该网页URL一个奖励分数，并把该网页的主机名加入List队列。

5) 当一个网页的主机名与父网页的主机名不同，再给该网页URL一个奖励分数。

6) 由上面1—5中我们得到一个URL的最终的得分为：

（8）

7) 根据6)中得到URL最终得分产生一个优先级队列，这个优先级队列指导着网络爬虫的爬行。

Claims

1.一种基于URL字符串信息学习的主题爬虫系统的实现方法，其特征在于：基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度，采用机器学习对URL字符串携带的信息不断学习，动态的更新主题相关向量，利用内容分析和链接分析相结合的爬虫策略；其具体步骤为：

步骤1.选择种子URL：依据给定的主题，结合机器学习和人工选择，选定与主题相关的K个网页的URL作为种子URL，网页下载器从选定的种子URL开始下载网页；

步骤2.分析下载页面：网页分析器对下载的网页内容和链接进行分析，提取网页的URL字符串信息、网页内容、锚信息；

步骤3.主题相关度计算：根据URL字符串信息、网页内容、锚信息进行主题相关度计算；

步骤4.过滤不相关网页：根据主题相关度，把低于主题相关度某个阀值的URL过滤掉；

步骤5.URL字符串信息学习：URL字符串信息学习的基本过程是，先从给定网页的URL中得到一个训练数据集；URL字符串信息学习部分利用选取的学习算法对已经下载的网页URL字符串信息进行学习，得到一个主题知识库，主题知识库去指导URL主题相关度的计算，URL主题相关度的值再反馈给URL字符串信息学习部分从而去指导URL字符串信息的学习，经过URL字符串信息学习后，再去更新主题知识库，以便进一步学习，改进系统的性能；具体是：

1)训练数据：取100个网页，对这100个网页的URL进行训练，得出两个样本，样本1是与主题相关的URL集合，样本2是与主题不相关的URL集合；

2)数据处理：对样本中的URL进行分割提取处理，得到一系列的词语，样本1中得到的是与主题相关词语，给每个词语一个权重，形成一个主题相关性词库，样本2中得到的是与主题不相关的词语，给他们初始权重为0，形成一个主题无关性词库；另外再建个学习词库，用来记录URL字符串信息学习得来的与主题相关词语和与主题相关词语出现次数；

3)URL相关度反馈学习：

（3-1）当Score(URL)小于等于阈值的最小值时，把对应的词组加入主题无关性词库，同时更改这些词语的权重值，得到更新的权重:

New(w_i)=0.5×old(w_i)+0.5×Score(URL) （3）

（3-2）当Score(URL)大于等于阈值的最大值时，把URL字符串的主题相关度传递给对应的词语作为权重，对该词语的处理如下：

①如果主题无关性词库有该词语，则不处理并丢弃该词语；

New(w_i)=0.5×old(w_i)+0.5×Score(URL) （4）

③如果主题无关性词库没有该词语且学习词库和主题相关性词库都没有该词语，首先把该词语加入学习词库，并记录该词语出现次数为1，然后把该词语加入主题相关性词库，并把它的权重值的作为该词语的新权重加入主题相关词库；得到该词语的权重：

w_{j} = \frac{1}{n^{2}} Score (URL) - - - (5)

④如果学习词库和主题相关性词库都有，首先查看学习词库中该词语出现的次数m，并把该词出现的次数加1；

当m>n时，得到更新的权重:

New(w_i)=0.5×old(w_i)+0.5×Score(URL) （6）

当m≤n时，得到更新的权重:

New (w_{i}) = 0.5 \times old (w_{i}) + 0.5 \times \frac{{(m - 1)}^{2}}{n} Score (URL) - - - (7)

其中式(4)(5)(6)(7)中的old(w_i)是主题相关性词库中原有权重，Score(URL)是URL传递给词i的权重，New(w_i)是该词语更新后的权重；上面式(5)和式(7)中的n是设定的阀值；式(5)和式(7)中和处理是为了减少误判，只有当学习词库中通过学习得到的词语达到n次的时候才充分判定它和主题相关，从而按式(6)中的方法去更新权重值，这样使学习得到的结果更精确；

4)主题知识库更新

为了使学习得到的结果更好，让主题相关性词库中尽量不包含与主题不相关的词语，主题无关性词库不包含与主题相关的词语；定时的对主题知识库进行处理，对主题相关性词库，分析主题相关性词库中每个词语的权重值，把权重值小于阈值s的词语从该词库中移除，这样进一步降低了把主题不相关的词语误判为主题相关词语的概率；对主题无关性词库，统计每个词语的权重，按其权重值的大小进行排名，把排名靠前的按一个比例阈值H删除，这样可以减少把那些主题相关词语误判为与主题不相关词语概率；

步骤6.确定待下载的URL队列：采用内容分析与链接分析相结合的爬虫策略，得出一个待下载的具有优先级的URL队列，具体是：

1)首先根据URL字符串信息、网页内容、锚信息去计算一个URL的主题相关度得到一个相关度值s₀，滤除相关度值小于一个给定阈值的URL；

2)创建一个队列List，记录已经访问过的来自不同主机的URL的主机名；

3)当一个网页向外引出的与主题相关网页数大于一个阈值时，给它该网页URL一个奖励分数k₀；

4)当一个网页主机名不在List队列中，就给该网页URL一个奖励分数k₁，并把该网页的主机名加入List队列；

5)当一个网页的主机名与父网页的主机名不同，再给该网页URL一个奖励分数k₂；

6)由1)-5)中得到一个URL的最终的得分为：

s=s₀+k₀+k₁+k₂ （8）

7)根据6)中得到URL最终得分产生一个优先级队列，这个优先级队列指导着网络爬虫的爬行。

2.根据权利要求1所述的一种基于URL字符串信息学习的主题爬虫系统的实现方法，其特征在于：提取分析网页的URL字符串信息、网页内容、锚信息，URL相关度计算综合了URL字符串信息、网页内容、锚信息，使URL主题相关的计算更精确。

3.根据权利要求1所述的一种基于URL字符串信息学习的主题爬虫系统的实现方法，其特征在于：在步骤2分析下载页面过程中，对URL所携带的信息不断学习，动态的更新主题相关向量，用于更好地指导主题相关度的计算。

4.根据权利要求1所述的一种基于URL字符串信息学习的主题爬虫系统的实现方法，其特征在于：在步骤6确定待下载的具有优先级的URL队列过程中，利用内容分析和链接分析相结合的爬虫策略，内容分析得出URL的主题相关度，再通过链接分析调整URL的下载优先级，最后得出一个待下载的具有优先级的URL队列。