CN109815388A - 一种基于遗传算法的智能聚焦爬虫系统 - Google Patents

一种基于遗传算法的智能聚焦爬虫系统 Download PDF

Info

Publication number
CN109815388A
CN109815388A CN201910072237.3A CN201910072237A CN109815388A CN 109815388 A CN109815388 A CN 109815388A CN 201910072237 A CN201910072237 A CN 201910072237A CN 109815388 A CN109815388 A CN 109815388A
Authority
CN
China
Prior art keywords
url
webpage
module
intelligent
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910072237.3A
Other languages
English (en)
Inventor
王磊
倪林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
National Dong Hwa University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201910072237.3A priority Critical patent/CN109815388A/zh
Publication of CN109815388A publication Critical patent/CN109815388A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于遗传算法的智能聚焦爬虫系统,其特征在于,包括:初始化模块;主题相似性判断模块,用于确定种子URL集中各被浏览网页的网页主题,计算网页主题与用户查找主题相关性;任务模块,将主题相似性判断模块获得的网页适应度值较高的网页的链接存储到URL结果集中,并根据URL结果集生成待爬取任务;爬虫模块。本发明将智能算法应用到爬虫系统中,使爬虫系统自适应能力增强,提高爬取信息的准确度。本发明提供的智能聚焦爬虫系统弥补了传统爬虫的不足,它是一种面向特定主题的爬虫系统。智能聚焦爬虫系统能够有目的的提取互联网中用户所需要的资源。

Description

一种基于遗传算法的智能聚焦爬虫系统
技术领域
本发明涉及一种智能聚焦爬虫系统,属于网页搜索技术领域。
背景技术
当前信息技术正在以前所未有的速度不断发展,互联网上的信息呈指数级增长,如何在海量数据中检索出用户需要的信息变得越来越困难。因此,搜索引擎技术应运而生并在人们日常生活中起着举足轻重的作用,成为从互联网上获取信息的重要途径。通用搜索引擎在搜索信息精准度方面有一定局限性,无法满足用户对复杂资源的需求,不能适应用户个性化和多样化的需要。因此,垂直搜索引擎成为未来发展趋势。
网络爬虫则是一个自动提取网页的程序,它为搜索引擎从互联网(Internet)上下载网页,是搜索引擎的重要组成部分。传统爬虫是从一个种子URL开始爬取网页资源,存储种子网页上的所有URL地址,不可避免的提取和存储大量与主题无关的网页,使得网页搜索效率大大降低,且不能满足人们对信息精准度的要求。
发明内容
本发明的目的是:将爬虫系统与人工智能算法相结合,利用人工智能算法全面分析网页结构,在一定程度上提高了预测网页与主题相关度。
为了达到上述目的,本发明的技术方案是提供了一种基于遗传算法的智能聚焦爬虫系统,其特征在于,包括:
初始化模块,根据用户提交的查找主题在互联网上搜索起始网页集生成种子URL集,确定交叉概率Pc、遗传概率Pm、爬虫深度d以及网页适应度值的阈值;
主题相似性判断模块,用于确定种子URL集中各被浏览网页的网页主题,计算网页主题与用户查找主题相关性,并计算网页适应度值,根据将计算得到的网页适应度值与初始化模块设定的网页适应度值的阈值相比较,得到网页适应度值较高的网页;
任务模块,将主题相似性判断模块获得的网页适应度值较高的网页的链接存储到URL结果集中,并根据URL结果集生成待爬取任务
爬虫模块,利用初始化模块确定的爬虫深度d初始化后,不断从URL结果集获取任务模块生成的待爬取任务,然后发送http请求,下载指定的网页链接到本地抓取相应网页数据直到URL结果集为空时,终止整个循环。
优选地,所述主题相似性判断模块和所述爬虫模块在不同进程或线程中进行。
优选地,所述主题相似性判断模块包括:
浏览单元,用于浏览所述初始化模块中的种子URL集;
解析单元,用于对种子URL集进行解析,分别从内容重要性和链接权重方面对网页进行解析,计算所述网页适应度值。
优选地,所述解析单元分别采用PageRank算法和贝叶斯分类算法计算网页链接的权重和网页内容的重要程度。
优选地,所述主题相似性判断模块同时启用多个线程进行网页解析。
优选地,所述任务模块包括:
选择单元,用于根据所述初始化模块设置的网页适应度值的阈值从种子URL集中选择出具有较高网页适应度值的网页链接存储到URL结果集中;
交叉单元,用于选择未被存储到URL结果集中的网页链接,扩大搜索范围;
变异单元,用于重组关键关键字,选择由交叉单元获得的网页链接进行重新检索。
优选地,所述交叉单元根据所述交叉概率Pc在已浏览的初始网站链接中提取的网站链接按主题相似度降序排列选出前m×Pc个网站链接作为所述URL结果集。
优选地,所述任务模块采用MongoDB数据库存储所述URL结果集,同时,采用Set或者Hash Set数据结构进行保存网页链接。
优选地,所述爬虫深度d与所述URL结果集中设置的存储数量有关。
本发明将智能算法应用到爬虫系统中,使爬虫系统自适应能力增强,提高爬取信息的准确度。本发明提供的智能聚焦爬虫系统弥补了传统爬虫的不足,它是一种面向特定主题的爬虫系统。智能聚焦爬虫系统能够有目的的提取互联网中用户所需要的资源。
附图说明
图1为本发明实施例的爬虫框架;
图2为本发明实施例的主流程图;
图3为本发明实施例的主题分类原理图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
图1为本实施实例的具体爬虫框架。本发明共包含四个模块,分别为:初始化模块、主题相似性判断模块、任务模块以及爬虫模块。
初始化模块主要负责选取种子URL集合以及确定初始化参数。初始化模块根据用户提交的查找主题在互联网上搜索起始网页集生成种子URL集,随后将种子URL集合中的URL发送到主题相似性判断模块进行后续处理。
由初始化模块确定的初始化参数包括交叉概率Pc、遗传概率Pm、爬虫深度d以及网页适应度值的阈值。其中,爬虫深度d与后续介绍的URL结果集中设置的存储数量有关。
主题相似性判断模块主要是对接收到的URL的主题进行确定,其中采用朴素贝叶斯算法确定网页主题。其次主题相似性判断模块判断网页主题与用户欲查找主题的相关性,此时采用优化的遗传算法计算各URL的网页适应度值。本发明中所使用的优化的遗传算法改进了传统遗传算法的适应度函数,将基于网页链接结构的搜索策略与基于内容评价的搜索策略相结合,有效地避免了单一算法对网页主题判断的片面性。
任务模块主要是加入了遗传算法的选择操作,根据主题相似性判断模块计算得到的网页适应度值,再与初始化模块确定的网页适应度值的阈值相结合,选出适应度较高的URL作为下一代的种子,以缩小种子数量,提高速度。
爬虫模块主要是针对任务模块选出的URL进行网页信息的抓取,将网页内容呈现给用户。
图2是本实施例的流程图。首先将用户提问的表达方式提交给搜索引擎,获得起始网页集。然后在领域专家的指导下进行人工筛选,选出与主题相关的URL作为种子集合S。访问种子集合S中未被访问的URL并下载网页内容,确定网页主题。确定网页主题后预测与用户欲查找主题相关度R,若相关,则计算此URL的适应度F,若不相关,则从种子集合S中删除此URL。选择单元选出适应度值大于阈值F0的URL并提取网页内容并保存其中的URL至集合M等待被浏览。根据适应度值进行降序排列得S1=n*Pc。其中n为集合M的数量。采用随机函数选择主题中几个重要关键词,将这些关键词组合为搜索的关键字在搜索引擎中进行搜索,在搜索结果中选择S2=m*Pm个未被浏览的URL地址,其中m为未被浏览的URL数量。将S1和S2中的URL采用布隆过滤器去重后保存到URL结果集中。最后,当种子集合S为空时,则结束循环。
图3为分类器原理图。采用朴素贝叶斯分类算法对网页内容进行分类。首先,确定某主题的先验概率,然后将下载网页内容进行分词处理,统计词频,计算每个特征在每个类别下的概率,最后计算出后验概率,选择最大的后验概率即为该网页的主题类别。
在一个优选的实施例中,主题相关性判断模块与爬虫模块分别在两个不同的进程或线程中工作,通过任务模块为其传递消息,提高爬取信息的效率,同时避免异步操作阻塞。

Claims (9)

1.一种基于遗传算法的智能聚焦爬虫系统,其特征在于,包括:
初始化模块,根据用户提交的查找主题在互联网上搜索起始网页集生成种子URL集,确定交叉概率Pc、遗传概率Pm、爬虫深度d以及网页适应度值的阈值;
主题相似性判断模块,用于确定种子URL集中各被浏览网页的网页主题,计算网页主题与用户查找主题相关性,并计算网页适应度值,根据将计算得到的网页适应度值与初始化模块设定的网页适应度值的阈值相比较,得到网页适应度值较高的网页;
任务模块,将主题相似性判断模块获得的网页适应度值较高的网页的链接存储到URL结果集中,并根据URL结果集生成待爬取任务
爬虫模块,利用初始化模块确定的爬虫深度d初始化后,不断从URL结果集获取任务模块生成的待爬取任务,然后发送http请求,下载指定的网页链接到本地抓取相应网页数据直到URL结果集为空时,终止整个循环。
2.如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述主题相似性判断模块和所述爬虫模块在不同进程或线程中进行。
3.如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述主题相似性判断模块包括:
浏览单元,用于浏览所述初始化模块中的种子URL集;
解析单元,用于对种子URL集进行解析,分别从内容重要性和链接权重方面对网页进行解析,计算所述网页适应度值。
4.如权利要求3所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述解析单元分别采用PageRank算法和贝叶斯分类算法计算网页链接的权重和网页内容的重要程度。
5.如权利要求3所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述主题相似性判断模块同时启用多个线程进行网页解析。
6.如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述任务模块包括:
选择单元,用于根据所述初始化模块设置的网页适应度值的阈值从种子URL集中选择出具有较高网页适应度值的网页链接存储到URL结果集中;
交叉单元,用于选择未被存储到URL结果集中的网页链接,扩大搜索范围;
变异单元,用于重组关键关键字,选择由交叉单元获得的网页链接进行重新检索。
7.如权利要求6所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述交叉单元根据所述交叉概率Pc在已浏览的初始网站链接中提取的网站链接按主题相似度降序排列选出前m×Pc个网站链接作为所述URL结果集。
8.如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述任务模块采用MongoDB数据库存储所述URL结果集,同时,采用Set或者Hash Set数据结构进行保存网页链接。
9.如权利要求1所述的一种基于遗传算法的智能聚焦爬虫系统,其特征在于,所述爬虫深度d与所述URL结果集中设置的存储数量有关。
CN201910072237.3A 2019-01-25 2019-01-25 一种基于遗传算法的智能聚焦爬虫系统 Pending CN109815388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910072237.3A CN109815388A (zh) 2019-01-25 2019-01-25 一种基于遗传算法的智能聚焦爬虫系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910072237.3A CN109815388A (zh) 2019-01-25 2019-01-25 一种基于遗传算法的智能聚焦爬虫系统

Publications (1)

Publication Number Publication Date
CN109815388A true CN109815388A (zh) 2019-05-28

Family

ID=66605072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910072237.3A Pending CN109815388A (zh) 2019-01-25 2019-01-25 一种基于遗传算法的智能聚焦爬虫系统

Country Status (1)

Country Link
CN (1) CN109815388A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507341A (zh) * 2020-12-03 2021-03-16 广州万方计算机科技有限公司 基于网络爬虫的漏洞扫描方法、装置、设备和存储介质
CN112612944A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及系统
CN113704589A (zh) * 2021-09-03 2021-11-26 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫系统的构建方法
CN104182412A (zh) * 2013-05-24 2014-12-03 中国移动通信集团安徽有限公司 一种网页爬取方法及系统
CN106528654A (zh) * 2016-10-17 2017-03-22 中国电子技术标准化研究院 一种基于布谷鸟搜索的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫系统的构建方法
CN104182412A (zh) * 2013-05-24 2014-12-03 中国移动通信集团安徽有限公司 一种网页爬取方法及系统
CN106528654A (zh) * 2016-10-17 2017-03-22 中国电子技术标准化研究院 一种基于布谷鸟搜索的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曾广朴 等: "基于遗传算法的聚焦爬虫搜索策略", 《计算机工程》 *
陈一峰 等: "基于遗传算法的主题爬虫策略改进", 《计算机仿真》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507341A (zh) * 2020-12-03 2021-03-16 广州万方计算机科技有限公司 基于网络爬虫的漏洞扫描方法、装置、设备和存储介质
CN112612944A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及系统
CN112612944B (zh) * 2020-12-07 2024-05-31 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及系统
CN113704589A (zh) * 2021-09-03 2021-11-26 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网系统
CN113704589B (zh) * 2021-09-03 2023-10-13 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网系统

Similar Documents

Publication Publication Date Title
US11288573B2 (en) Method and system for training and neural network models for large number of discrete features for information rertieval
US8255386B1 (en) Selection of documents to place in search index
CN100452054C (zh) 用于深层网页数据源集成的数据源发现方法
US20090198676A1 (en) Indexing Documents for Information Retrieval
US20090248661A1 (en) Identifying relevant information sources from user activity
US20080222725A1 (en) Graph structures and web spam detection
CN104035999B (zh) 基于家长个性化推荐管控的安全网络浏览系统
CA2500035A1 (en) User intent discovery
CN102930059A (zh) 一种聚焦爬虫的设计方法
CN109815388A (zh) 一种基于遗传算法的智能聚焦爬虫系统
CN103914538B (zh) 基于锚文本上下文和链接分析的主题抓取方法
CN108681571B (zh) 基于Word2Vec的主题爬虫系统和方法
CN108768982A (zh) 钓鱼网站的检测方法、装置、计算设备及计算机存储介质
Liu et al. Malicious websites detection via cnn based screenshot recognition
Alhaidari et al. User preference based weighted page ranking algorithm
Dalvi et al. SpyDark: surface and dark web crawler
Kaur et al. SIMHAR-smart distributed web crawler for the hidden web using SIM+ hash and redis server
Bhatt et al. Focused web crawler
Alfarisy et al. Focused web crawler for Indonesian recipes
Wahsheh et al. Evaluating Arabic spam classifiers using link analysis
Kaur et al. SmartCrawler: A Three-Stage Ranking Based Web Crawler for Harvesting Hidden Web Sources.
KR20010102687A (ko) 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템
Ganguly et al. A review of focused web crawling strategies
WO2017113324A1 (zh) 基于正则表达式的url过滤方法
Zhang et al. Refining web search engine results using incremental clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528

RJ01 Rejection of invention patent application after publication