CN103902667A - 一种基于元搜索的网络信息采集器简单实现方法 - Google Patents

一种基于元搜索的网络信息采集器简单实现方法 Download PDF

Info

Publication number
CN103902667A
CN103902667A CN201410092387.8A CN201410092387A CN103902667A CN 103902667 A CN103902667 A CN 103902667A CN 201410092387 A CN201410092387 A CN 201410092387A CN 103902667 A CN103902667 A CN 103902667A
Authority
CN
China
Prior art keywords
search
module
url
text
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410092387.8A
Other languages
English (en)
Inventor
刘粉粉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410092387.8A priority Critical patent/CN103902667A/zh
Publication of CN103902667A publication Critical patent/CN103902667A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于元搜索的网络信息采集器简单实现方法,集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块。能及时发现最新信息,提供给用户用作分析的基础数据源。

Description

一种基于元搜索的网络信息采集器简单实现方法
 
技术领域   
    本发明是一种基于元搜索的网络信息采集器简单实现方法,通常适于用企业或者政府单位在网络上搜索相关的新闻信息,通过对数据的分析得到决策性的结果。
背景技术
 现在的网络信息采集系统大多采用直接对网站进行采集的方式,实现不仅复杂,而且由于网站模块的不同,ulr的频繁变化,需要不断的对采集的采集网站的url进行监控维护;而且采集的范围也有限,对采集系统的负载要求也较高,降低了采集效率。
 元搜索引擎就是对多个搜索引擎的整合、调用、控制和优化利用,简单的说,就是通过一站式的搜索,将输入的关键词在多个搜索引擎的查询结果统一返回,用户只需要通过一次搜索就可以看到多个搜索引擎的搜索结果,较好的解决了单个搜索引擎覆盖范围窄的问题。
 目前,基于元搜索的采集实现都非常的复杂,实际使用时实现非常的复杂,没有一个简单的统一的方法。
发明内容
    本发明就是实现一种基于元搜索的网络信息采集器简单实现方法,能够根据此方法快速高效的实现一个元搜索采集器。
    集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块。
生成采集起始URL模块对每个搜索引擎的搜索采集任务都设置为是一个爬虫任务,每个爬虫任务对应一个配置文件,配置文件中配置:搜索URL的中文字符编码格式,搜索页的其实页码,每页返回的搜索结果的数据,翻页时页码的增长的步长,该搜索引擎返回结果的总数,结果列表页的编码格式,URL语法格式,抽取结果列表页抽取规则。根据每个搜索引擎的不同的URL语法格式,将中文关键词进行对应的编码,在填充入其中的参数值,就构造出了每个搜索引擎对应的采集起始URL。
模拟浏览器行为模块实现网页采集反屏蔽,通过如下方法:对采集任务间隔进行控制,固定间隔加上随机间隔;构造代理头池和IP池,每次爬取网页时,随机切换一个userAgent和IP。
网页去重采用 REDIS 内存数据库来存储已下载的 URL,通过REDIS的set数据结构构造一个URL非重复队列,排除URL重复,如URL重复则不对网页再次进行下载。
网页正文抽模块,可设置不同的规则对不同的网站的网页进行正文抽取,并且过滤掉垃圾信息。该模块还可以将抽取到的网页中的链接继续进行采集,实现多层的采集。
本发明可实现一种简单的基于元搜索的通用采集器,集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据。
附图说明
附图1为本发明中的实现流程示意图。
具体实施方式
参照附图1,一种基于元搜索的网络信息采集器实现方法流程如下:
(1)    首先,通过生成采集起始URL模块(1)读取配置文件中的关键词、搜索属性,生成URL。
关键词配置文件可采用txt、excel、xml格式,举例如下:
Figure 2014100923878100002DEST_PATH_IMAGE001
搜索属性配置文件可采用txt、xml格式,举例如下
Figure 2014100923878100002DEST_PATH_IMAGE003
(2)    模拟浏览器行为模块(2)对采集任务间隔进行控制,构造代理头池和IP池实现网页访问的反屏蔽。
(3)    如果要进行采集下载的URL是初始URL,则下面的操作是向各搜索引擎发出搜索请求并下载搜索结果列表页,则执行搜索结果列表页下载并结构化信息提取模块(3);否则的话,则是对从正文中提取的链接进行采集,无需再经过向搜索引擎发出搜索请求的操作,直接进入网页去重模块(4)。
(4)    然后搜索结果列表页下载并结构化信息提取模块(3)将采用模拟浏览器行为的方式通过不同搜索引擎进行搜索,并下载搜索到的结果列表页,然后进行结构化信息(标题、来源、发布时间、摘要、URL)提取。
(5)    网页去重模块(4)将对所有搜索引擎返回的搜索结果中提取的URL进行是否重复检查,如果URL无重复,则对网页进行下载;否则,只计算每个URL的重复次数。
(6)    URL去重后,网页正文抽模块(5)将每个搜索结果根据URL进行下载并且提取其正文。
(7)    将搜索结果列表页下载并结构化信息提取模块(3)结构化的信息和网页正文抽模块(5)提取的正文保存到数据中。
(8)网页正文抽模块(5)若对提取的正文中的超链接继续进行采集,需返回到(2)步骤继续进行。

Claims (6)

1.一种基于元搜索的网络信息采集器简单实现方法,其特征在于集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块;
生成采集起始URL模块生成搜索引擎搜索URL;
模拟浏览器行为模块将访问网站行为伪装成浏览器的行为,实现采集的反屏蔽;
搜索结果列表页下载并结构化信息提取模块将搜索并下载到的结果进行结构信息(标题、来源、发布时间、摘要、URL)提取;
网页去重将提取到的搜索结果的URL进行去重,避免相同网站进行重复下载;
网页正文抽模块下载并提取搜索结果的正文,将正文以及模块结构化的信息存储到数据库中。
2.根据权利要求1所述的方法,其特征在于所述生成采集起始URL模块,可支持若干的主流搜索引擎,对同样的关键词进行并行搜索。
3.根据权利要求1所述的方法,其特征在于所述的模拟浏览器行为模块,可通过不同的手段实现模拟浏览器行为,包括:对采集任务间隔进行控制,固定间隔加上随机间隔;够着代池 和IP池,随机切换userAgent和IP。
4.根据权利要求1所述的方法,其特征在于所述的网页去重,可通过内存数据库实现url的去重,并可计算某个网页的重复次数,为计算网页重要程度提供数据。
5.根据权利要求1所述的方法,其特征在于所述的网页正文抽模块,可设置不同的规则对不同的网站的网页进行正文抽取,并且过滤掉垃圾信息;该模块还可以将抽取到的网页中的链接继续进行采集,实现多层的采集。
6.根据权利要求1所述的方法,其特征在于所述的网页正文抽模块,可设置不同的规则对不同的网站的网页进行正文抽取,并且过滤掉垃圾信息;该模块还可以将抽取到的网页中的链接继续进行采集,实现多层的采集。
CN201410092387.8A 2014-03-14 2014-03-14 一种基于元搜索的网络信息采集器简单实现方法 Pending CN103902667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410092387.8A CN103902667A (zh) 2014-03-14 2014-03-14 一种基于元搜索的网络信息采集器简单实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410092387.8A CN103902667A (zh) 2014-03-14 2014-03-14 一种基于元搜索的网络信息采集器简单实现方法

Publications (1)

Publication Number Publication Date
CN103902667A true CN103902667A (zh) 2014-07-02

Family

ID=50993989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410092387.8A Pending CN103902667A (zh) 2014-03-14 2014-03-14 一种基于元搜索的网络信息采集器简单实现方法

Country Status (1)

Country Link
CN (1) CN103902667A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765786A (zh) * 2014-09-30 2015-07-08 贵阳朗玛信息技术股份有限公司 关键词过滤系统及其应用方法
CN104951539A (zh) * 2015-06-19 2015-09-30 成都艾尔普科技有限责任公司 互联网数据中心有害信息监测系统
CN106294623A (zh) * 2016-08-01 2017-01-04 北京金和网络股份有限公司 基于html标签的网页数据格式化方法
CN107704515A (zh) * 2017-09-01 2018-02-16 安徽简道科技有限公司 基于互联网数据抓取系统的数据抓取方法
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN109150965A (zh) * 2018-07-06 2019-01-04 百度在线网络技术(北京)有限公司 信息资源反屏蔽方法、装置、计算机设备及存储介质
CN112287254A (zh) * 2020-11-23 2021-01-29 武汉虹旭信息技术有限责任公司 网页结构化信息提取方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477554A (zh) * 2009-01-16 2009-07-08 西安电子科技大学 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN102081604A (zh) * 2009-11-27 2011-06-01 上海电机学院 一种用于元搜索引擎的搜索方法及其装置
CN102393858A (zh) * 2011-11-17 2012-03-28 陈洪 一种基于客户端实时聚合的元搜索引擎系统
CN102426600A (zh) * 2011-11-08 2012-04-25 军工思波信息科技产业有限公司 一种基于元搜索的内网信息采集方法
CN102902800A (zh) * 2012-10-12 2013-01-30 西安电子科技大学 基于Agent的智能元搜索引擎系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477554A (zh) * 2009-01-16 2009-07-08 西安电子科技大学 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN102081604A (zh) * 2009-11-27 2011-06-01 上海电机学院 一种用于元搜索引擎的搜索方法及其装置
CN102426600A (zh) * 2011-11-08 2012-04-25 军工思波信息科技产业有限公司 一种基于元搜索的内网信息采集方法
CN102393858A (zh) * 2011-11-17 2012-03-28 陈洪 一种基于客户端实时聚合的元搜索引擎系统
CN102902800A (zh) * 2012-10-12 2013-01-30 西安电子科技大学 基于Agent的智能元搜索引擎系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘晓东: ""基于元搜索引擎的网页采集技术的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765786A (zh) * 2014-09-30 2015-07-08 贵阳朗玛信息技术股份有限公司 关键词过滤系统及其应用方法
CN104951539A (zh) * 2015-06-19 2015-09-30 成都艾尔普科技有限责任公司 互联网数据中心有害信息监测系统
CN104951539B (zh) * 2015-06-19 2017-12-22 成都艾尔普科技有限责任公司 互联网数据中心有害信息监测系统
CN106294623A (zh) * 2016-08-01 2017-01-04 北京金和网络股份有限公司 基于html标签的网页数据格式化方法
CN107704515A (zh) * 2017-09-01 2018-02-16 安徽简道科技有限公司 基于互联网数据抓取系统的数据抓取方法
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN109150965A (zh) * 2018-07-06 2019-01-04 百度在线网络技术(北京)有限公司 信息资源反屏蔽方法、装置、计算机设备及存储介质
CN112287254A (zh) * 2020-11-23 2021-01-29 武汉虹旭信息技术有限责任公司 网页结构化信息提取方法、装置、电子设备及存储介质
CN112287254B (zh) * 2020-11-23 2023-10-27 武汉虹旭信息技术有限责任公司 网页结构化信息提取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103902667A (zh) 一种基于元搜索的网络信息采集器简单实现方法
CN104951539B (zh) 互联网数据中心有害信息监测系统
Kausar et al. Web crawler: a review
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN104077402B (zh) 数据处理方法和数据处理系统
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN104899324B (zh) 一种基于idc有害信息监测系统的样本训练系统
CN104516982A (zh) 一种基于Nutch的Web信息提取方法和系统
CN101694658A (zh) 基于新闻去重的网页爬虫的构建方法
CN105468737A (zh) 一种网络服务大数据分析方法、云计算平台及挖掘系统
CN104182506A (zh) 日志管理方法
CN102710795A (zh) 热点聚合方法及装置
CN104899323A (zh) 一种用于idc有害信息监测平台的爬虫系统
Shi et al. The implementation of crawling news page based on incremental web crawler
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN104598536B (zh) 一种分布式网络信息结构化处理方法
CN104850549A (zh) 一种网络舆情的监控方法
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN105824880A (zh) 一种网页抓取方法及装置
CN103198078B (zh) 一种互联网新闻事件报道趋势分析方法及系统
CN105426407A (zh) 一种基于内容分析的web数据采集方法
Jin Research on data retrieval and analysis system based on Baidu reptile technology in big data era
CN103377207B (zh) 基于脚本引擎的微博用户关系采集方法
Su et al. Web crawler model of fetching data speedily based on Hadoop distributed system
CN109522466B (zh) 一种分布式爬虫系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140702

WD01 Invention patent application deemed withdrawn after publication