CN102654886A - 一种b/s结构系统的数据抓取系统 - Google Patents

一种b/s结构系统的数据抓取系统 Download PDF

Info

Publication number
CN102654886A
CN102654886A CN2012101415173A CN201210141517A CN102654886A CN 102654886 A CN102654886 A CN 102654886A CN 2012101415173 A CN2012101415173 A CN 2012101415173A CN 201210141517 A CN201210141517 A CN 201210141517A CN 102654886 A CN102654886 A CN 102654886A
Authority
CN
China
Prior art keywords
data
module
order
webpage
hook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101415173A
Other languages
English (en)
Inventor
吴卫平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI INTERSOFT INFORMATION TECHNOLOGY CO LTD
SHANGHAI INTERNET SODTWARE CO Ltd
Original Assignee
SHANGHAI INTERSOFT INFORMATION TECHNOLOGY CO LTD
SHANGHAI INTERNET SODTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI INTERSOFT INFORMATION TECHNOLOGY CO LTD, SHANGHAI INTERNET SODTWARE CO Ltd filed Critical SHANGHAI INTERSOFT INFORMATION TECHNOLOGY CO LTD
Priority to CN2012101415173A priority Critical patent/CN102654886A/zh
Publication of CN102654886A publication Critical patent/CN102654886A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明揭示了一种B/S结构系统的数据抓取系统,所述系统包括:地址列表获取模块、网页数据请求模块、网页数据抓取模块。地址列表获取模块用以获取需要抓取的网页的地址列表信息;网页数据请求模块用以根据网页的地址列表信息提出请求,得到网页的内容;网页数据抓取模块用以分析网页的结构,并提取出想要的内容。本发明提出的B/S结构系统的数据抓取系统,可方便快捷地抓取其他B/S结构业务系统的数据,并提供给其他业务系统录入。

Description

一种B/S结构系统的数据抓取系统
技术领域
本发明属于计算机及互联网技术领域,涉及一种数据抓取系统,尤其涉及一种B/S结构系统的数据抓取系统。
背景技术
目前在电子政务的推动工作中,往往要遇到这样一个问题:各政府部门条线系统在建设各自的信息系统时,对于与其他部门的信息系统的对接问题的考虑不周,这导致了各个系统之间缺乏横向联系,无法共享一些公共的数据信息。
这种现象引发了一系列的问题:包括系统数据的冗余,数据的缺失,甚至是不同系统中相通对象的描述数据严重不符;还存在二次数据录入的问题,相关系统数据维护者可能要向多个系统录入相关的数据,客观上加重了系统数据维护者的工作量。这一现象是与系统建设推动工作效率、减轻工作强度的初衷相违背的。但是要合理解决上述问题,不仅仅要靠技术上突破,还往往需要政府拿出切实可行政务电子化的发展方针,要有一个合理并弹性的,能协调各条线部门联横发展的路线来。
例如,上海各区县镇都在进行电子政务的建设,大都遇到一个问题,民政和劳保两条线中都有各自先前建设的老系统,一个是B/S结构的,一个是C/S结构的。遇到的实际困难是:这两个系统的后台数据库是无法向第三方公开的,也就是说,第三方无法直接向这些数据库中读写维护相关数据,所以客观上讲,第三方只有通过现有这两个系统来(合法地)完成数据维护。同时由于第三方要建立由上海区县政府所使用信息系统,这不可避免的会使用到民政和劳保的数据信息。如果采用同步录入数据,也就出现了前节所提到的二次录入的问题。
此外,还有一些业务数据只能通过网页的方式访问、查看,很难成为可以直接利用的数据资源,数据展示格式已固定不变,不能够灵活运用。
发明内容
本发明所要解决的技术问题是:提供一种B/S结构系统的数据抓取系统,可方便快捷地抓取其他B/S结构业务系统的数据,并提供给其他业务系统录入。
为解决上述技术问题,本发明采用如下技术方案:
一种B/S结构系统的数据抓取系统,所述数据抓取系统包括:
地址列表获取模块,用以获取需要抓取的网页的地址列表信息;
网页数据请求模块,用以根据网页的地址列表信息提出请求,得到网页的内容;
网页数据抓取模块,用以分析网页的结构,并提取出想要的内容。
作为本发明的一种优选方案,所述数据抓取系统进一步包括:模拟登录模块,用以根据登录验证信息模拟登录;登录后,再进行数据的抓取。
作为本发明的一种优选方案,所述网页数据抓取模块用以根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
作为本发明的一种优选方案,所述数据抓取系统还包括第一数据抓取子系统,用以抓取C/S结构系统的数据,包括钩子加载模块、抓取钩子模块、配置文件生成模块;
所述钩子加载模块用以根据进程数量生成设定数量的抓取钩子模块,配置给需要抓取的进程;一个进程配置一个抓取钩子模块,或者多个进程配置一个抓取钩子模块,或者一个进程配置多个抓取钩子模块;
所述抓取钩子模块用以监控其对应进程中业务数据的传递,并抓取相应的业务数据;
所述配置文件生成模块用以将所述抓取钩子模块抓取的业务数据按照可配置的格式写入配置文件中,供其他系统进行数据录入;
所述钩子加载模块、抓取钩子模块、配置文件生成模块设置于第一C/S业务系统对应的计算机中;所述系统还包括设置于第二C/S业务系统对应的计算机中的数据利用模块,用以根据所述配置文件生成模块生成的配置文件获取相应数据,并进行数据录入。
本发明的有益效果在于:本发明提出的B/S结构系统的数据抓取系统,可方便快捷地抓取其他B/S结构业务系统的数据,并提供给其他业务系统录入。
本发明使用WINDOWS SOCKET的方法抓取流经网络的网页中的数据,当用户提交网页数据时,B/S程序就能够根据数据发送的源地址与目标地址抓取所需的网页中的数据,因为是抓取的TCP/IP数据包,需要对其进行解析从而获得HTTP协议中的文本数据。
附图说明
图1为实施例一中数据抓取系统的框架图。
图2为实施例一中数据抓取系统的组成示意图。
图3为实施例一中第一数据抓取子系统的组成示意图。
图4为实施例一中第一数据抓取流程的流程图。
图5为实施例一中第二数据抓取流程的流程图。
图6为实施例二中B/S结构系统的数据抓取系统的组成示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例一
请参阅图1、图2,本发明揭示了一种数据抓取系统,所述系统包括两大子系统:第一数据抓取子系统10、第二数据抓取子系统20。即,本实施例中,本发明可方便快捷地抓取其他B/S结构业务系统、C/S结构业务系统的数据。
第一数据抓取子系统10用以抓取C/S结构系统30的数据,包括所述钩子加载模块11、抓取钩子模块12、配置文件生成模块13;第二数据抓取子系统20用以抓取B/S结构系统40的数据;所述第二数据抓取子系统20包括:地址列表获取模块21、网页数据请求模块22、网页数据抓取模块23。
【第一数据抓取子系统】
请参阅图2、图3,第一数据抓取子系统10中,钩子加载模块11用以根据进程数量生成设定数量的抓取钩子模块,配置给需要抓取的进程;一个进程配置一个抓取钩子模块,或者多个进程配置一个抓取钩子模块,或者一个进程配置多个抓取钩子模块。
抓取钩子模块12用以监控其对应进程中业务数据的传递,并抓取相应的业务数据。
配置文件生成模块13用以将所述抓取钩子模块抓取的业务数据按照可配置的格式写入配置文件中,供其他系统进行数据录入。
所述钩子加载模块11、抓取钩子模块12、配置文件生成模块13设置于第一C/S业务系统对应的计算机中;所述系统还包括设置于第二C/S业务系统对应的计算机中的数据利用模块50,用以根据所述配置文件生成模块生成的配置文件获取相应数据,并进行数据录入。
【第二数据抓取子系统】
第二数据抓取子系统20中,地址列表获取模块21用以获取需要抓取的网页的地址列表信息。
网页数据请求模块22用以根据网页的地址列表信息提出请求,得到网页的内容。
网页数据抓取模块23用以分析网页的结构,并提取出想要的内容。所述网页数据抓取模块用以根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
由于某些网站的数据需要登录后才能够访问,对于这类安全性高的数据,需要模拟登录,对数据页面进行解析,然后才能抓取利用。所述第二数据抓取子系统包括模拟登录模块,用以根据登录验证信息模拟登录;登录后,再进行数据的抓取。
以上介绍了本发明数据抓取系统的组成,本发明在揭示上述数据抓取系统的同时,还揭示一种上述数据抓取系统的数据抓取方法,所述方法包括:第一数据抓取流程、第二数据抓取流程。
请参阅图4,第一数据抓取流程具体包括如下步骤:
钩子加载步骤:钩子加载模块根据进程数量生成设定数量的抓取钩子模块,配置给需要抓取的进程;一个进程配置一个抓取钩子模块,或者多个进程配置一个抓取钩子模块,或者一个进程配置多个抓取钩子模块;
数据抓取步骤:抓取钩子模块监控其对应进程中业务数据的传递,并抓取相应的业务数据;
配置文件生成步骤:配置文件生成模块将所述抓取钩子模块抓取的业务数据按照可配置的格式写入配置文件中,供其他系统进行数据录入。
数据利用步骤,根据所述配置文件生成模块生成的配置文件获取相应数据,并进行数据录入。
请参阅图5,第二数据抓取流程具体包括如下步骤:
地址列表获取步骤,获取需要抓取的网页的地址列表信息。
模拟登录步骤,根据登录验证信息模拟登录;登录后,再进行数据的抓取。本步骤主要是针对一些需要登录后才能够访问数据的网站,对于这类安全性高的数据,需要模拟登录,对数据页面进行解析,然后才能抓取利用。
网页数据请求步骤,根据网页的地址列表信息提出请求,得到网页的内容。
网页数据抓取步骤,分析网页的结构,并提取出想要的内容。具体地,根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
实施例二
请参阅图6,本发明揭示了一种B/S结构系统的数据抓取系统200,所述系统包括:地址列表获取模块210、网页数据请求模块220、网页数据抓取模块230。
地址列表获取模块210用以获取需要抓取的网页的地址列表信息。
网页数据请求模块220用以根据网页的地址列表信息提出请求,得到网页的内容。
网页数据抓取模块230用以分析网页的结构,并提取出想要的内容。所述网页数据抓取模块用以根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
由于某些网站的数据需要登录后才能够访问,对于这类安全性高的数据,需要模拟登录,对数据页面进行解析,然后才能抓取利用。所述第二数据抓取子系统包括模拟登录模块,用以根据登录验证信息模拟登录;登录后,再进行数据的抓取。
以上介绍了本发明B/S结构系统的数据抓取系统的组成,本发明在揭示上述数据抓取系统的同时,还揭示一种上述数据抓取系统的数据抓取方法,具体包括如下步骤:
地址列表获取步骤,获取需要抓取的网页的地址列表信息。
模拟登录步骤,根据登录验证信息模拟登录;登录后,再进行数据的抓取。本步骤主要是针对一些需要登录后才能够访问数据的网站,对于这类安全性高的数据,需要模拟登录,对数据页面进行解析,然后才能抓取利用。
网页数据请求步骤,根据网页的地址列表信息提出请求,得到网页的内容。
网页数据抓取步骤,分析网页的结构,并提取出想要的内容。具体地,根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
综上所述,本发明提出的B/S结构系统的数据抓取系统,可方便快捷地抓取其他B/S结构业务系统的数据,并提供给其他业务系统录入。
本发明使用WINDOWS SOCKET的方法抓取流经网络的网页中的数据,当用户提交网页数据时,B/S程序就能够根据数据发送的源地址与目标地址抓取所需的网页中的数据,因为是抓取的TCP/IP数据包,需要对其进行解析从而获得HTTP协议中的文本数据。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (4)

1.一种B/S结构系统的数据抓取系统,其特征在于,所述数据抓取系统包括:
地址列表获取模块,用以获取需要抓取的网页的地址列表信息;
网页数据请求模块,用以根据网页的地址列表信息提出请求,得到网页的内容;
网页数据抓取模块,用以分析网页的结构,并提取出想要的内容。
2.根据权利要求1所述的B/S结构系统的数据抓取系统,其特征在于:
所述数据抓取系统进一步包括:模拟登录模块,用以根据登录验证信息模拟登录;登录后,再进行数据的抓取。
3.根据权利要求1所述的B/S结构系统的数据抓取系统,其特征在于:
所述网页数据抓取模块用以根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
4.根据权利要求3所述的B/S结构系统的数据抓取系统,其特征在于:
所述数据抓取系统还包括第一数据抓取子系统,用以抓取C/S结构系统的数据,包括钩子加载模块、抓取钩子模块、配置文件生成模块;
所述钩子加载模块用以根据进程数量生成设定数量的抓取钩子模块,配置给需要抓取的进程;一个进程配置一个抓取钩子模块,或者多个进程配置一个抓取钩子模块,或者一个进程配置多个抓取钩子模块;
所述抓取钩子模块用以监控其对应进程中业务数据的传递,并抓取相应的业务数据;
所述配置文件生成模块用以将所述抓取钩子模块抓取的业务数据按照可配置的格式写入配置文件中,供其他系统进行数据录入;
所述钩子加载模块、抓取钩子模块、配置文件生成模块设置于第一C/S业务系统对应的计算机中;所述系统还包括设置于第二C/S业务系统对应的计算机中的数据利用模块,用以根据所述配置文件生成模块生成的配置文件获取相应数据,并进行数据录入。
CN2012101415173A 2012-05-08 2012-05-08 一种b/s结构系统的数据抓取系统 Pending CN102654886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101415173A CN102654886A (zh) 2012-05-08 2012-05-08 一种b/s结构系统的数据抓取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101415173A CN102654886A (zh) 2012-05-08 2012-05-08 一种b/s结构系统的数据抓取系统

Publications (1)

Publication Number Publication Date
CN102654886A true CN102654886A (zh) 2012-09-05

Family

ID=46730512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101415173A Pending CN102654886A (zh) 2012-05-08 2012-05-08 一种b/s结构系统的数据抓取系统

Country Status (1)

Country Link
CN (1) CN102654886A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915269A (zh) * 2012-09-20 2013-02-06 山东浪潮齐鲁软件产业股份有限公司 一种b/s软件系统的通用日志分析方法
CN103927384A (zh) * 2014-04-30 2014-07-16 国家电网公司 利用html脚本解析的异构系统间多层级数据同步方法及系统
CN104361079A (zh) * 2014-11-13 2015-02-18 国网山东省电力公司 一种重复数据自动提取方法及系统
CN109146281A (zh) * 2018-08-15 2019-01-04 国网江西省电力有限公司上饶供电分公司 用于快速计算同业对标排名的计算方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915269A (zh) * 2012-09-20 2013-02-06 山东浪潮齐鲁软件产业股份有限公司 一种b/s软件系统的通用日志分析方法
CN102915269B (zh) * 2012-09-20 2016-07-27 浪潮软件股份有限公司 一种b/s软件系统的通用日志分析方法
CN103927384A (zh) * 2014-04-30 2014-07-16 国家电网公司 利用html脚本解析的异构系统间多层级数据同步方法及系统
CN104361079A (zh) * 2014-11-13 2015-02-18 国网山东省电力公司 一种重复数据自动提取方法及系统
CN109146281A (zh) * 2018-08-15 2019-01-04 国网江西省电力有限公司上饶供电分公司 用于快速计算同业对标排名的计算方法

Similar Documents

Publication Publication Date Title
CN103905497B (zh) 实现第三方应用业务网站登录的方法、装置及应用平台
NO20085142L (no) Fremgangsmater, systemer og datamaskinlesbare medier for a fremvise hoyopploselig innhold som angar utforsking og produksjon av geografiske ressurser i et nettverk av tynnklientdatamaskiner
CN104125240A (zh) 一种信息外网、信息内网及内外网数据交互系统和方法
CN103200215A (zh) 一种在https上实现XenServer虚拟机远程控制的方法
CN205408020U (zh) 一种远程会议系统
CN102654886A (zh) 一种b/s结构系统的数据抓取系统
CN103854134A (zh) 电子政务网内电子证照的生成方法
CN102646031A (zh) 一种移动终端控制大屏幕显示内容的方法
CN102750319A (zh) 一种数据抓取系统的数据抓取方法
CN102708178A (zh) 一种b/s结构系统的数据抓取方法
CN102654887A (zh) 一种数据抓取系统
CN103617501B (zh) 一种变电站运维检修方法
CN102520893A (zh) 基于云网络的移动终端网页打印方法
CN104869045A (zh) 一种页面推送方法、装置、服务器和系统
JP2013003630A5 (zh)
CN106357466A (zh) 一种互联网产品监控方法及监控系统
CN106161066A (zh) 一种日志采集方法及服务器
CN103516789B (zh) 从办公网到生产网的传输数据的管理方法和系统
CN202475491U (zh) 一种企业人才测评系统
CN102724228A (zh) 一种云计算saas模式客户关系管理系统
CN102053808A (zh) 一种打印软件信息的方法、装置及带网口的设备
CN106027558A (zh) 一种强安全性系统日志实现方法
CN104283705A (zh) 集中器配置调试方法及集中器
CN102509196A (zh) 面向学校计算机机房的学生上机课程考勤管理方法
CN102693595A (zh) 一种基于csoi技术的云网开终端在线发票开具方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120905