CN102708178A - 一种b/s结构系统的数据抓取方法 - Google Patents

一种b/s结构系统的数据抓取方法 Download PDF

Info

Publication number
CN102708178A
CN102708178A CN2012101410108A CN201210141010A CN102708178A CN 102708178 A CN102708178 A CN 102708178A CN 2012101410108 A CN2012101410108 A CN 2012101410108A CN 201210141010 A CN201210141010 A CN 201210141010A CN 102708178 A CN102708178 A CN 102708178A
Authority
CN
China
Prior art keywords
data
grasp
webpage
module
hook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101410108A
Other languages
English (en)
Inventor
吴卫平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI INTERSOFT INFORMATION TECHNOLOGY CO LTD
SHANGHAI INTERNET SODTWARE CO Ltd
Original Assignee
SHANGHAI INTERSOFT INFORMATION TECHNOLOGY CO LTD
SHANGHAI INTERNET SODTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI INTERSOFT INFORMATION TECHNOLOGY CO LTD, SHANGHAI INTERNET SODTWARE CO Ltd filed Critical SHANGHAI INTERSOFT INFORMATION TECHNOLOGY CO LTD
Priority to CN2012101410108A priority Critical patent/CN102708178A/zh
Publication of CN102708178A publication Critical patent/CN102708178A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明揭示了一种B/S结构系统的数据抓取方法,所述方法包括:地址列表获取步骤,获取需要抓取的网页的地址列表信息;网页数据请求步骤,根据网页的地址列表信息提出请求,得到网页的内容;网页数据抓取步骤,分析网页的结构,并提取出想要的内容。本发明提出的B/S结构系统的数据抓取方法,可方便快捷地抓取其他B/S结构业务系统的数据,并提供给其他业务系统录入。

Description

一种B/S结构系统的数据抓取方法
技术领域
本发明属于计算机及互联网技术领域,涉及一种数据抓取方法,尤其涉及一种B/S结构系统的数据抓取方法。
背景技术
目前在电子政务的推动工作中,往往要遇到这样一个问题:各政府部门条线系统在建设各自的信息系统时,对于与其他部门的信息系统的对接问题的考虑不周,这导致了各个系统之间缺乏横向联系,无法共享一些公共的数据信息。
这种现象引发了一系列的问题:包括系统数据的冗余,数据的缺失,甚至是不同系统中相通对象的描述数据严重不符;还存在二次数据录入的问题,相关系统数据维护者可能要向多个系统录入相关的数据,客观上加重了系统数据维护者的工作量。这一现象是与系统建设推动工作效率、减轻工作强度的初衷相违背的。但是要合理解决上述问题,不仅仅要靠技术上突破,还往往需要政府拿出切实可行政务电子化的发展方针,要有一个合理并弹性的,能协调各条线部门联横发展的路线来。
例如,上海各区县镇都在进行电子政务的建设,大都遇到一个问题,民政和劳保两条线中都有各自先前建设的老系统,一个是B/S结构的,一个是C/S结构的。遇到的实际困难是:这两个系统的后台数据库是无法向第三方公开的,也就是说,第三方无法直接向这些数据库中读写维护相关数据,所以客观上讲,第三方只有通过现有这两个系统来(合法地)完成数据维护。同时由于第三方要建立由上海区县政府所使用信息系统,这不可避免的会使用到民政和劳保的数据信息。如果采用同步录入数据,也就出现了前节所提到的二次录入的问题。
此外,还有一些业务数据只能通过网页的方式访问、查看,很难成为可以直接利用的数据资源,数据展示格式已固定不变,不能够灵活运用。
发明内容
本发明所要解决的技术问题是:提供一种B/S结构系统的数据抓取方法,可方便快捷地抓取其他B/S结构业务系统的数据,并提供给其他业务系统录入。
为解决上述技术问题,本发明采用如下技术方案:
一种上述数据抓取系统的数据抓取方法,所述方法包括:
地址列表获取步骤,获取需要抓取的网页的地址列表信息;
网页数据请求步骤,根据网页的地址列表信息提出请求,得到网页的内容;
网页数据抓取步骤,分析网页的结构,并提取出想要的内容。
作为本发明的一种优选方案,所述方法进一步包括:模拟登录步骤,根据登录验证信息模拟登录;登录后,再进行数据的抓取。
作为本发明的一种优选方案,所述网页数据抓取步骤中,根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
作为本发明的一种优选方案,所述方法包括C/S数据抓取流程,抓取C/S结构系统的数据;包括如下步骤:
钩子加载步骤:钩子加载模块根据进程数量生成设定数量的抓取钩子模块,配置给需要抓取的进程;一个进程配置一个抓取钩子模块,或者多个进程配置一个抓取钩子模块,或者一个进程配置多个抓取钩子模块;
数据抓取步骤:抓取钩子模块监控其对应进程中业务数据的传递,并抓取相应的业务数据;
配置文件生成步骤:配置文件生成模块将所述抓取钩子模块抓取的业务数据按照可配置的格式写入配置文件中,供其他系统进行数据录入。
数据利用步骤,根据所述配置文件生成模块生成的配置文件获取相应数据,并进行数据录入。
本发明的有益效果在于:本发明提出的B/S结构系统的数据抓取方法,可方便快捷地抓取其他B/S结构业务系统的数据,并提供给其他业务系统录入。
本发明使用WINDOWS SOCKET的方法抓取流经网络的网页中的数据,当用户提交网页数据时,B/S程序就能够根据数据发送的源地址与目标地址抓取所需的网页中的数据,因为是抓取的TCP/IP数据包,需要对其进行解析从而获得HTTP协议中的文本数据。
附图说明
图1为实施例一中数据抓取系统的框架图。
图2为实施例一中数据抓取系统的组成示意图。
图3为实施例一中第一数据抓取子系统的组成示意图。
图4为实施例一中第一数据抓取流程的流程图。
图5为实施例一中第二数据抓取流程的流程图。
图6为实施例二中B/S结构系统的数据抓取系统的组成示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例一
请参阅图1、图2,本发明揭示了一种数据抓取系统,所述系统包括两大子系统:第一数据抓取子系统10、第二数据抓取子系统20。即,本实施例中,本发明可方便快捷地抓取其他B/S结构业务系统、C/S结构业务系统的数据。
第一数据抓取子系统10用以抓取C/S结构系统30的数据,包括所述钩子加载模块11、抓取钩子模块12、配置文件生成模块13;第二数据抓取子系统20用以抓取B/S结构系统40的数据;所述第二数据抓取子系统20包括:地址列表获取模块21、网页数据请求模块22、网页数据抓取模块23。
【第一数据抓取子系统】
请参阅图2、图3,第一数据抓取子系统10中,钩子加载模块11用以根据进程数量生成设定数量的抓取钩子模块,配置给需要抓取的进程;一个进程配置一个抓取钩子模块,或者多个进程配置一个抓取钩子模块,或者一个进程配置多个抓取钩子模块。
抓取钩子模块12用以监控其对应进程中业务数据的传递,并抓取相应的业务数据。
配置文件生成模块13用以将所述抓取钩子模块抓取的业务数据按照可配置的格式写入配置文件中,供其他系统进行数据录入。
所述钩子加载模块11、抓取钩子模块12、配置文件生成模块13设置于第一C/S业务系统对应的计算机中;所述系统还包括设置于第二C/S业务系统对应的计算机中的数据利用模块50,用以根据所述配置文件生成模块生成的配置文件获取相应数据,并进行数据录入。
【第二数据抓取子系统】
第二数据抓取子系统20中,地址列表获取模块21用以获取需要抓取的网页的地址列表信息。
网页数据请求模块22用以根据网页的地址列表信息提出请求,得到网页的内容。
网页数据抓取模块23用以分析网页的结构,并提取出想要的内容。所述网页数据抓取模块用以根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
由于某些网站的数据需要登录后才能够访问,对于这类安全性高的数据,需要模拟登录,对数据页面进行解析,然后才能抓取利用。所述第二数据抓取子系统包括模拟登录模块,用以根据登录验证信息模拟登录;登录后,再进行数据的抓取。
以上介绍了本发明数据抓取系统的组成,本发明在揭示上述数据抓取系统的同时,还揭示一种上述数据抓取系统的数据抓取方法,所述方法包括:第一数据抓取流程、第二数据抓取流程。
请参阅图4,第一数据抓取流程具体包括如下步骤:
钩子加载步骤:钩子加载模块根据进程数量生成设定数量的抓取钩子模块,配置给需要抓取的进程;一个进程配置一个抓取钩子模块,或者多个进程配置一个抓取钩子模块,或者一个进程配置多个抓取钩子模块;
数据抓取步骤:抓取钩子模块监控其对应进程中业务数据的传递,并抓取相应的业务数据;
配置文件生成步骤:配置文件生成模块将所述抓取钩子模块抓取的业务数据按照可配置的格式写入配置文件中,供其他系统进行数据录入。
数据利用步骤,根据所述配置文件生成模块生成的配置文件获取相应数据,并进行数据录入。
请参阅图5,第二数据抓取流程具体包括如下步骤:
地址列表获取步骤,获取需要抓取的网页的地址列表信息。
模拟登录步骤,根据登录验证信息模拟登录;登录后,再进行数据的抓取。本步骤主要是针对一些需要登录后才能够访问数据的网站,对于这类安全性高的数据,需要模拟登录,对数据页面进行解析,然后才能抓取利用。
网页数据请求步骤,根据网页的地址列表信息提出请求,得到网页的内容。
网页数据抓取步骤,分析网页的结构,并提取出想要的内容。具体地,根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
实施例二
请参阅图6,本发明揭示了一种B/S结构系统的数据抓取系统200,所述系统包括:地址列表获取模块210、网页数据请求模块220、网页数据抓取模块230。
地址列表获取模块210用以获取需要抓取的网页的地址列表信息。
网页数据请求模块220用以根据网页的地址列表信息提出请求,得到网页的内容。
网页数据抓取模块230用以分析网页的结构,并提取出想要的内容。所述网页数据抓取模块用以根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
由于某些网站的数据需要登录后才能够访问,对于这类安全性高的数据,需要模拟登录,对数据页面进行解析,然后才能抓取利用。所述第二数据抓取子系统包括模拟登录模块,用以根据登录验证信息模拟登录;登录后,再进行数据的抓取。
以上介绍了本发明B/S结构系统的数据抓取系统的组成,本发明在揭示上述数据抓取系统的同时,还揭示一种上述数据抓取系统的数据抓取方法,具体包括如下步骤:
地址列表获取步骤,获取需要抓取的网页的地址列表信息。
模拟登录步骤,根据登录验证信息模拟登录;登录后,再进行数据的抓取。本步骤主要是针对一些需要登录后才能够访问数据的网站,对于这类安全性高的数据,需要模拟登录,对数据页面进行解析,然后才能抓取利用。
网页数据请求步骤,根据网页的地址列表信息提出请求,得到网页的内容。
网页数据抓取步骤,分析网页的结构,并提取出想要的内容。具体地,根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
综上所述,本发明提出的B/S结构系统的数据抓取方法,可方便快捷地抓取其他B/S结构业务系统的数据,并提供给其他业务系统录入。
本发明使用WINDOWS SOCKET的方法抓取流经网络的网页中的数据,当用户提交网页数据时,B/S程序就能够根据数据发送的源地址与目标地址抓取所需的网页中的数据,因为是抓取的TCP/IP数据包,需要对其进行解析从而获得HTTP协议中的文本数据。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (4)

1.一种B/S结构系统的数据抓取方法,其特征在于,所述方法包括:
地址列表获取步骤,获取需要抓取的网页的地址列表信息;
网页数据请求步骤,根据网页的地址列表信息提出请求,得到网页的内容;
网页数据抓取步骤,分析网页的结构,并提取出想要的内容。
2.根据权利要求1所述的数据抓取方法,其特征在于:
所述方法进一步包括:模拟登录步骤,根据登录验证信息模拟登录;登录后,再进行数据的抓取。
3.根据权利要求1所述的数据抓取方法,其特征在于:
所述网页数据抓取步骤中,根据数据发送的源地址与目标地址抓取所需的网页中的数据,抓取的数据为TCP/IP数据包,对TCP/IP数据包进行解析后获得HTTP协议中的文本数据。
4.根据权利要求3所述的数据抓取方法,其特征在于:
所述方法包括C/S数据抓取流程,抓取C/S结构系统的数据;包括如下步骤:
钩子加载步骤:钩子加载模块根据进程数量生成设定数量的抓取钩子模块,配置给需要抓取的进程;一个进程配置一个抓取钩子模块,或者多个进程配置一个抓取钩子模块,或者一个进程配置多个抓取钩子模块;
数据抓取步骤:抓取钩子模块监控其对应进程中业务数据的传递,并抓取相应的业务数据;
配置文件生成步骤:配置文件生成模块将所述抓取钩子模块抓取的业务数据按照可配置的格式写入配置文件中,供其他系统进行数据录入。
数据利用步骤,根据所述配置文件生成模块生成的配置文件获取相应数据,并进行数据录入。
CN2012101410108A 2012-05-08 2012-05-08 一种b/s结构系统的数据抓取方法 Pending CN102708178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101410108A CN102708178A (zh) 2012-05-08 2012-05-08 一种b/s结构系统的数据抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101410108A CN102708178A (zh) 2012-05-08 2012-05-08 一种b/s结构系统的数据抓取方法

Publications (1)

Publication Number Publication Date
CN102708178A true CN102708178A (zh) 2012-10-03

Family

ID=46900944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101410108A Pending CN102708178A (zh) 2012-05-08 2012-05-08 一种b/s结构系统的数据抓取方法

Country Status (1)

Country Link
CN (1) CN102708178A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982161A (zh) * 2012-12-05 2013-03-20 北京奇虎科技有限公司 网页信息的获取方法和装置
CN103246709A (zh) * 2013-04-19 2013-08-14 浪潮集团山东通用软件有限公司 一种网页数据抓取的方法
CN105760550A (zh) * 2016-03-23 2016-07-13 江苏物联网研究发展中心 面向大数据存储中心的互联网数据采集系统和采集方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982161A (zh) * 2012-12-05 2013-03-20 北京奇虎科技有限公司 网页信息的获取方法和装置
CN103246709A (zh) * 2013-04-19 2013-08-14 浪潮集团山东通用软件有限公司 一种网页数据抓取的方法
CN105760550A (zh) * 2016-03-23 2016-07-13 江苏物联网研究发展中心 面向大数据存储中心的互联网数据采集系统和采集方法

Similar Documents

Publication Publication Date Title
US10171294B2 (en) Information processing device and system design support method
CN103281359A (zh) 云桌面系统及运行方法
CN104125240A (zh) 一种信息外网、信息内网及内外网数据交互系统和方法
RU2008109251A (ru) Начальное воспроизведение контента серверной стороны для web-страниц клинического сценария
CN102654886A (zh) 一种b/s结构系统的数据抓取系统
CN108182138A (zh) Bmc sel日志的获取方法、系统、装置及存储介质
CN102750319A (zh) 一种数据抓取系统的数据抓取方法
CN103324532A (zh) 虚拟机的动态迁移方法及系统
CN102708178A (zh) 一种b/s结构系统的数据抓取方法
GB2529097A (en) Method of website optimisation for a website hosted on a server system, and a server system
CN102654887A (zh) 一种数据抓取系统
US9621632B2 (en) Scaling of stateful enterprise services
Itakura et al. Incorporating firm heterogeneity into the GTAP Model
JP6917758B2 (ja) フロー変換システム及びフロー変換方法
CN202364244U (zh) 分布式日志分析系统处理装置
CN106161066A (zh) 一种日志采集方法及服务器
CN103955795A (zh) 一种工程管理系统
CN103856373A (zh) 基于HTTP协议变异的Web系统健壮性测试方法
CN102509196A (zh) 面向学校计算机机房的学生上机课程考勤管理方法
CN103973805A (zh) 一种动态网页与服务器交互方法
Lee et al. A Design and Implementation of N-Screen Emulator Based on Cloud
CN108551484A (zh) 用户信息同步方法、装置、计算机装置及存储介质
CN104158847A (zh) 一种通过模拟实现数据动态共享的方法及系统
Leung et al. Interactive Communication in Value Management Workshop
CN104361079A (zh) 一种重复数据自动提取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121003