CN103246709A - 一种网页数据抓取的方法 - Google Patents

一种网页数据抓取的方法 Download PDF

Info

Publication number
CN103246709A
CN103246709A CN2013101371771A CN201310137177A CN103246709A CN 103246709 A CN103246709 A CN 103246709A CN 2013101371771 A CN2013101371771 A CN 2013101371771A CN 201310137177 A CN201310137177 A CN 201310137177A CN 103246709 A CN103246709 A CN 103246709A
Authority
CN
China
Prior art keywords
data
web
web page
webpage
grasps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013101371771A
Other languages
English (en)
Inventor
李海啸
付传伟
肖祝川
刘清华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Shandong General Software Co Ltd
Original Assignee
Inspur Group Shandong General Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Shandong General Software Co Ltd filed Critical Inspur Group Shandong General Software Co Ltd
Priority to CN2013101371771A priority Critical patent/CN103246709A/zh
Publication of CN103246709A publication Critical patent/CN103246709A/zh
Pending legal-status Critical Current

Links

Abstract

本发明涉及数据解析及采集技术领域,特别涉及一种网页数据抓取的方法。本发明通过建立并发执行的数据通道以及定义网站的数据抓取流程,实现快速有效抓取一些有访问权限网站的数据信息。本发明面向ERP软件开发人员,提供了方便快捷定义对应网站数据抓取的方案,后台的定时自动执行数据抓取省去了人工访问网站下载信息的烦恼。

Description

一种网页数据抓取的方法
技术领域
本发明涉及数据解析及采集技术领域,特别涉及一种网页数据抓取的方法。 
背景技术
随着信息技术的不断发展,企业拥有的系统数量也在不断增多,多个系统相对独立的数据存储机制对将来数据的整合分析都会造成一定的难度,特别是一些经销商技术实力雄厚,通过网站对企业公开数据查询,但一个企业对应于众多的经销商,挨家登录并查询数据比较困难,本发明主要完成对此问题的解决。 
发明内容
为了解决现有技术的问题,本发明提供了一种网页数据抓取的方法,可以通过本发明在数据采集过程中快速有效抓取一些有访问权限网站的数据信息。 
本发明所采用的技术方案如下: 
一种网页数据抓取的方法,包括以下步骤: 
A、建立对网页数据说明的配置文件,描述获取网页数据的所需要的登录信息、页面结构、数据获取的区域;
B、实现对所述的配置文件的处理程序;
C、建立定时任务处理程序,通过定时对所有配置信息调用网页抽取程序,完成任务的自动化,在对每次获取的数据进行比对,去除重复获得的信息。 
步骤B具体包括: 
B1、程序首先通过登录信息连接至指定网页,针对网页进行解析,提取网页文本信息;
B2、根据配置文件中所描述的网页结构进行网页文本的字符串截取,获得形成二维表格数据,程序将按照表格数据在数据库中建立同等结构的数据表,并将数据内容存储至数据表。
步骤B1中对于网页进行解析包括对于采用AJAX技术的网页的解析。 
步骤B2中,在每次存储时采用全局唯一标识符作为本次存储数据的标识,并将该全局唯一标识符传递给后续的数据处理程序。 
本发明提供的技术方案带来的有益效果是: 
本发明面向ERP软件开发人员提供了方便快捷定义对应网站数据抓取的方案,后台的定时自动执行数据抓取省去了人工访问网站下载信息的烦恼。通过本发明的方法可以在数据采集过程中快速有效抓取一些有访问权限网站的数据信息。
本发明适用于数据采集,尤其是对于制药企业,其经销商流向数据经常存在于其自身的一些网站系统,因此给流向数据的抓取造成很大的困难(经销商数据库无法开放),通过网页数据抓取工具就可以做到自动输入用户名和密码登陆经销商系统,然后打开指定的页面地址,下载网页的HTML数据,并解析成普通的二维表的形式,存储到本地数据库,这样就很大程度上自动化处理了流向数据的抓取,解决了问题。 
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。 
一种网页数据抓取的方法,包括以下步骤: 
A、建立对网页数据说明的配置文件,描述获取网页数据的所需要的登录信息、页面结构、数据获取的区域;
B、实现对所述的配置文件的处理程序,程序首先通过登录信息连接至指定网页,针对普通网页或者采用AJAX技术的网页进行分别解析,提取网页文本信息;根据配置文件中所描述的网页结构进行网页文本的字符串截取,获得形成二维表格数据,程序将按照表格数据在数据库中建立同等结构的数据表,并将数据内容存储至数据表。在每次存储时采用全局唯一标识符作为本次存储数据的标识,并将该全局唯一标识符传递给后续的数据处理程序;
C、建立定时任务处理程序,通过定时对所有配置信息调用网页抽取程序,完成任务的自动化,在对每次获取的数据进行比对,去除重复获得的信息。 
本实施例的技术任务可通过以下方式来实现: 
1、建立并发执行的数据通道;
通过委托方式进行信息的异步执行调用;
2、定义网站的数据抓取流程;
2.1定义流程编号和名称及当前步骤序号;
2.2在每一步中指定需要打开的网址,如果需要输入用户名和密码,则也需要同时指定;
2.3指定需要最终打开查询页面的地址,同时可以定义查询页面上的查询条件;
2.4通过查看后台HTML源码来找出需要获取信息的特征,通过特征来定义数据抓取模板及后台数据存储表结构。
开发人员通过在软件实现时定义数据抓取模板,实现网页数据的自动解析。 
解析模板格式如下: 
<root>
<tabledef name="****网站">
      <col length="300">产品</col>
      <col length="20">客户代码</col>
      <col length="120">客户名称</col>
      <col length="20">销售数量</col>
      <col length="120">送货地址</col>
      <col length="20">销售代表</col>
      <col length="20">批号</col>
      <col length="20">制单日期</col>
      <col length="80">客户区域</col>
      <col length="20">单位</col>
</tabledef>
<area id="gv_DXMainTable" tagname="table">
      <flag name="gv_DXMainTable"/>
      <html>
             <tr class="dxgvGroupRow_Glass" repeat="true">
                    <td colname="产品" class="dxgv" colspan="10"></td>
             </tr>
             <tr class="dxgvDataRow_Glass">
                    <td></td>
                    <td></td>
                    <td colname="客户代码"></td>
                    <td colname="客户名称"></td>
                    <td colname="销售数量"></td>
                    <td colname="送货地址"></td>
                    <td colname="销售代表"></td>
                    <td colname="批号"></td>
                    <td colname="制单日期"></td>
                    <td colname="客户区域"></td>
                    <td colname="单位"></td>
             </tr>
      </html>
</area>
</root> 。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。 

Claims (4)

1.一种网页数据抓取的方法,包括以下步骤: 
A、建立对网页数据说明的配置文件,描述获取网页数据的所需要的登录信息、页面结构、数据获取的区域;
B、实现对所述的配置文件的处理程序;
C、建立定时任务处理程序,通过定时对所有配置信息调用网页抽取程序,完成任务的自动化,在对每次获取的数据进行比对,去除重复获得的信息。
2.根据权利要求1所述的一种网页数据抓取的方法,其特征在于,所述的步骤B具体包括:
B1、程序首先通过登录信息连接至指定网页,针对网页进行解析,提取网页文本信息;
B2、根据配置文件中所描述的网页结构进行网页文本的字符串截取,获得形成二维表格数据,程序将按照表格数据在数据库中建立同等结构的数据表,并将数据内容存储至数据表。
3.根据权利要求2所述的一种网页数据抓取的方法,其特征在于,所述的步骤B1中对于网页进行解析包括对于采用AJAX技术的网页的解析。
4.根据权利要求2所述的一种网页数据抓取的方法,其特征在于,所述的步骤B2中,在每次存储时采用全局唯一标识符作为本次存储数据的标识,并将该全局唯一标识符传递给后续的数据处理程序。
CN2013101371771A 2013-04-19 2013-04-19 一种网页数据抓取的方法 Pending CN103246709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013101371771A CN103246709A (zh) 2013-04-19 2013-04-19 一种网页数据抓取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013101371771A CN103246709A (zh) 2013-04-19 2013-04-19 一种网页数据抓取的方法

Publications (1)

Publication Number Publication Date
CN103246709A true CN103246709A (zh) 2013-08-14

Family

ID=48926229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013101371771A Pending CN103246709A (zh) 2013-04-19 2013-04-19 一种网页数据抓取的方法

Country Status (1)

Country Link
CN (1) CN103246709A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927384A (zh) * 2014-04-30 2014-07-16 国家电网公司 利用html脚本解析的异构系统间多层级数据同步方法及系统
CN104361079A (zh) * 2014-11-13 2015-02-18 国网山东省电力公司 一种重复数据自动提取方法及系统
CN104462566A (zh) * 2014-12-26 2015-03-25 中科宇图天下科技有限公司 一种环保信息网格抓取方法
CN105204922A (zh) * 2014-06-30 2015-12-30 金电联行(北京)信息技术有限公司 一种数据采集平台客户端采集方法
CN106528510A (zh) * 2016-11-18 2017-03-22 山东浪潮云服务信息科技有限公司 一种数据处理的方法及装置
CN107506425A (zh) * 2017-08-18 2017-12-22 广东电网有限责任公司信息中心 一种网页文件采集归档方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063477A (zh) * 2010-12-13 2011-05-18 百度在线网络技术(北京)有限公司 一种网站数据抓取装置及方法
CN102708178A (zh) * 2012-05-08 2012-10-03 上海互联网软件有限公司 一种b/s结构系统的数据抓取方法
CN103020088A (zh) * 2011-09-27 2013-04-03 腾讯科技(深圳)有限公司 一种数据处理装置及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063477A (zh) * 2010-12-13 2011-05-18 百度在线网络技术(北京)有限公司 一种网站数据抓取装置及方法
CN103020088A (zh) * 2011-09-27 2013-04-03 腾讯科技(深圳)有限公司 一种数据处理装置及方法
CN102708178A (zh) * 2012-05-08 2012-10-03 上海互联网软件有限公司 一种b/s结构系统的数据抓取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨超: "基于网格的大规模网页采集技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
苏马婧: "BitTorrent种子文件获取技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927384A (zh) * 2014-04-30 2014-07-16 国家电网公司 利用html脚本解析的异构系统间多层级数据同步方法及系统
CN105204922A (zh) * 2014-06-30 2015-12-30 金电联行(北京)信息技术有限公司 一种数据采集平台客户端采集方法
CN105204922B (zh) * 2014-06-30 2018-12-07 金电联行(北京)信息技术有限公司 一种数据采集平台客户端采集方法
CN104361079A (zh) * 2014-11-13 2015-02-18 国网山东省电力公司 一种重复数据自动提取方法及系统
CN104462566A (zh) * 2014-12-26 2015-03-25 中科宇图天下科技有限公司 一种环保信息网格抓取方法
CN104462566B (zh) * 2014-12-26 2017-11-21 中科宇图天下科技有限公司 一种环保信息网格抓取方法
CN106528510A (zh) * 2016-11-18 2017-03-22 山东浪潮云服务信息科技有限公司 一种数据处理的方法及装置
CN107506425A (zh) * 2017-08-18 2017-12-22 广东电网有限责任公司信息中心 一种网页文件采集归档方法

Similar Documents

Publication Publication Date Title
US10705803B2 (en) Method and system for realizing data tracking by means of software development kit
CN103246709A (zh) 一种网页数据抓取的方法
CN108304172B (zh) 一种web开发方法及web开发引擎
CN107808010A (zh) 一种弹窗页面生成方法、装置、浏览器及存储介质
CN102184184B (zh) 一种网页动态信息获取方法
WO2018045750A1 (zh) 用户的评论数据展现方法、系统、服务器和用户终端
EP2924633A1 (en) A system and method for extracting a business rule embedded in an application source code
CN102254027B (zh) 批量获取网页内容的方法
CN104462547B (zh) 一种可配置的网页数据采集的方法及系统
US9177005B2 (en) Resolving in-memory foreign keys in transmitted data packets from single-parent hierarchies
CN101370024A (zh) 信息的分布式采集方法及系统
CN109739725A (zh) 基于浏览器的监控方法、装置、系统及存储介质
CN104346466A (zh) 数据库中添加新属性数据的方法和装置
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN111078702A (zh) 一种sql语句分类管理及统一查询方法和装置
CN104484424A (zh) 基于互联网建筑施工企业资源价格信息库的构建方法
CN108062368A (zh) 全量数据翻译方法、装置、服务器及存储介质
CN110808868A (zh) 测试数据获取方法、装置、计算机设备及存储介质
CN104899134A (zh) 域名注册服务器自动化测试系统和方法
US20140156799A1 (en) Method and System for Extracting Post Contents From Forum Web Page
CN104298761A (zh) 一种异构软件系统间主数据匹配的实现方法
CN103744987A (zh) 基于dom树匹配的视频网站媒资聚合方法和系统
CN105653678A (zh) 数据图表订阅方法及数据图表订阅系统
CN104166545A (zh) 一种网页资源的嗅探方法以及装置
CN113901073A (zh) 数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130814