CN109815388A

CN109815388A - 一种基于遗传算法的智能聚焦爬虫系统

Info

Publication number: CN109815388A
Application number: CN201910072237.3A
Authority: CN
Inventors: 王磊; 倪林
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-05-28

Abstract

本发明涉及一种基于遗传算法的智能聚焦爬虫系统，其特征在于，包括：初始化模块；主题相似性判断模块，用于确定种子URL集中各被浏览网页的网页主题，计算网页主题与用户查找主题相关性；任务模块，将主题相似性判断模块获得的网页适应度值较高的网页的链接存储到URL结果集中，并根据URL结果集生成待爬取任务；爬虫模块。本发明将智能算法应用到爬虫系统中，使爬虫系统自适应能力增强，提高爬取信息的准确度。本发明提供的智能聚焦爬虫系统弥补了传统爬虫的不足，它是一种面向特定主题的爬虫系统。智能聚焦爬虫系统能够有目的的提取互联网中用户所需要的资源。

Description

一种基于遗传算法的智能聚焦爬虫系统

技术领域

本发明涉及一种智能聚焦爬虫系统，属于网页搜索技术领域。

背景技术

当前信息技术正在以前所未有的速度不断发展，互联网上的信息呈指数级增长，如何在海量数据中检索出用户需要的信息变得越来越困难。因此，搜索引擎技术应运而生并在人们日常生活中起着举足轻重的作用，成为从互联网上获取信息的重要途径。通用搜索引擎在搜索信息精准度方面有一定局限性，无法满足用户对复杂资源的需求，不能适应用户个性化和多样化的需要。因此，垂直搜索引擎成为未来发展趋势。

网络爬虫则是一个自动提取网页的程序，它为搜索引擎从互联网(Internet)上下载网页，是搜索引擎的重要组成部分。传统爬虫是从一个种子URL开始爬取网页资源，存储种子网页上的所有URL地址，不可避免的提取和存储大量与主题无关的网页，使得网页搜索效率大大降低，且不能满足人们对信息精准度的要求。

发明内容

本发明的目的是：将爬虫系统与人工智能算法相结合，利用人工智能算法全面分析网页结构，在一定程度上提高了预测网页与主题相关度。

为了达到上述目的，本发明的技术方案是提供了一种基于遗传算法的智能聚焦爬虫系统，其特征在于，包括：

初始化模块，根据用户提交的查找主题在互联网上搜索起始网页集生成种子URL集，确定交叉概率P_c、遗传概率P_m、爬虫深度d以及网页适应度值的阈值；

主题相似性判断模块，用于确定种子URL集中各被浏览网页的网页主题，计算网页主题与用户查找主题相关性，并计算网页适应度值，根据将计算得到的网页适应度值与初始化模块设定的网页适应度值的阈值相比较，得到网页适应度值较高的网页；

任务模块，将主题相似性判断模块获得的网页适应度值较高的网页的链接存储到URL结果集中，并根据URL结果集生成待爬取任务

爬虫模块，利用初始化模块确定的爬虫深度d初始化后，不断从URL结果集获取任务模块生成的待爬取任务，然后发送http请求，下载指定的网页链接到本地抓取相应网页数据直到URL结果集为空时，终止整个循环。

优选地，所述主题相似性判断模块和所述爬虫模块在不同进程或线程中进行。

优选地，所述主题相似性判断模块包括：

浏览单元，用于浏览所述初始化模块中的种子URL集；

解析单元，用于对种子URL集进行解析，分别从内容重要性和链接权重方面对网页进行解析，计算所述网页适应度值。

优选地，所述解析单元分别采用PageRank算法和贝叶斯分类算法计算网页链接的权重和网页内容的重要程度。

优选地，所述主题相似性判断模块同时启用多个线程进行网页解析。

优选地，所述任务模块包括：

选择单元，用于根据所述初始化模块设置的网页适应度值的阈值从种子URL集中选择出具有较高网页适应度值的网页链接存储到URL结果集中；

交叉单元，用于选择未被存储到URL结果集中的网页链接，扩大搜索范围；

变异单元，用于重组关键关键字，选择由交叉单元获得的网页链接进行重新检索。

优选地，所述交叉单元根据所述交叉概率P_c在已浏览的初始网站链接中提取的网站链接按主题相似度降序排列选出前m×P_c个网站链接作为所述URL结果集。

优选地，所述任务模块采用MongoDB数据库存储所述URL结果集，同时，采用Set或者Hash Set数据结构进行保存网页链接。

优选地，所述爬虫深度d与所述URL结果集中设置的存储数量有关。

本发明将智能算法应用到爬虫系统中，使爬虫系统自适应能力增强，提高爬取信息的准确度。本发明提供的智能聚焦爬虫系统弥补了传统爬虫的不足，它是一种面向特定主题的爬虫系统。智能聚焦爬虫系统能够有目的的提取互联网中用户所需要的资源。

附图说明

图1为本发明实施例的爬虫框架；

图2为本发明实施例的主流程图；

图3为本发明实施例的主题分类原理图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

图1为本实施实例的具体爬虫框架。本发明共包含四个模块，分别为：初始化模块、主题相似性判断模块、任务模块以及爬虫模块。

初始化模块主要负责选取种子URL集合以及确定初始化参数。初始化模块根据用户提交的查找主题在互联网上搜索起始网页集生成种子URL集，随后将种子URL集合中的URL发送到主题相似性判断模块进行后续处理。

由初始化模块确定的初始化参数包括交叉概率P_c、遗传概率P_m、爬虫深度d以及网页适应度值的阈值。其中，爬虫深度d与后续介绍的URL结果集中设置的存储数量有关。

主题相似性判断模块主要是对接收到的URL的主题进行确定，其中采用朴素贝叶斯算法确定网页主题。其次主题相似性判断模块判断网页主题与用户欲查找主题的相关性，此时采用优化的遗传算法计算各URL的网页适应度值。本发明中所使用的优化的遗传算法改进了传统遗传算法的适应度函数，将基于网页链接结构的搜索策略与基于内容评价的搜索策略相结合，有效地避免了单一算法对网页主题判断的片面性。

任务模块主要是加入了遗传算法的选择操作，根据主题相似性判断模块计算得到的网页适应度值，再与初始化模块确定的网页适应度值的阈值相结合，选出适应度较高的URL作为下一代的种子，以缩小种子数量，提高速度。

爬虫模块主要是针对任务模块选出的URL进行网页信息的抓取，将网页内容呈现给用户。

图2是本实施例的流程图。首先将用户提问的表达方式提交给搜索引擎，获得起始网页集。然后在领域专家的指导下进行人工筛选，选出与主题相关的URL作为种子集合S。访问种子集合S中未被访问的URL并下载网页内容，确定网页主题。确定网页主题后预测与用户欲查找主题相关度R，若相关，则计算此URL的适应度F，若不相关，则从种子集合S中删除此URL。选择单元选出适应度值大于阈值F₀的URL并提取网页内容并保存其中的URL至集合M等待被浏览。根据适应度值进行降序排列得S₁＝n*P_c。其中n为集合M的数量。采用随机函数选择主题中几个重要关键词，将这些关键词组合为搜索的关键字在搜索引擎中进行搜索，在搜索结果中选择S₂＝m*P_m个未被浏览的URL地址，其中m为未被浏览的URL数量。将S₁和S₂中的URL采用布隆过滤器去重后保存到URL结果集中。最后，当种子集合S为空时，则结束循环。

图3为分类器原理图。采用朴素贝叶斯分类算法对网页内容进行分类。首先，确定某主题的先验概率，然后将下载网页内容进行分词处理，统计词频，计算每个特征在每个类别下的概率，最后计算出后验概率，选择最大的后验概率即为该网页的主题类别。

在一个优选的实施例中，主题相关性判断模块与爬虫模块分别在两个不同的进程或线程中工作，通过任务模块为其传递消息，提高爬取信息的效率，同时避免异步操作阻塞。

Claims

1.一种基于遗传算法的智能聚焦爬虫系统，其特征在于，包括：

2.如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统，其特征在于，所述主题相似性判断模块和所述爬虫模块在不同进程或线程中进行。

3.如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统，其特征在于，所述主题相似性判断模块包括：

浏览单元，用于浏览所述初始化模块中的种子URL集；

4.如权利要求3所述的一种基于遗传算法的智能聚焦爬虫系统，其特征在于，所述解析单元分别采用PageRank算法和贝叶斯分类算法计算网页链接的权重和网页内容的重要程度。

5.如权利要求3所述的一种基于遗传算法的智能聚焦爬虫系统，其特征在于，所述主题相似性判断模块同时启用多个线程进行网页解析。

6.如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统，其特征在于，所述任务模块包括：

7.如权利要求6所述的一种基于遗传算法的智能聚焦爬虫系统，其特征在于，所述交叉单元根据所述交叉概率P_c在已浏览的初始网站链接中提取的网站链接按主题相似度降序排列选出前m×P_c个网站链接作为所述URL结果集。

8.如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统，其特征在于，所述任务模块采用MongoDB数据库存储所述URL结果集，同时，采用Set或者Hash Set数据结构进行保存网页链接。

9.如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统，其特征在于，所述爬虫深度d与所述URL结果集中设置的存储数量有关。