CN103927384A - 利用html脚本解析的异构系统间多层级数据同步方法及系统 - Google Patents
利用html脚本解析的异构系统间多层级数据同步方法及系统 Download PDFInfo
- Publication number
- CN103927384A CN103927384A CN201410179995.2A CN201410179995A CN103927384A CN 103927384 A CN103927384 A CN 103927384A CN 201410179995 A CN201410179995 A CN 201410179995A CN 103927384 A CN103927384 A CN 103927384A
- Authority
- CN
- China
- Prior art keywords
- data
- url
- request
- webpage
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种利用HTML脚本解析的异构系统间多层级数据同步方法及系统,其特征是所述的方法包括后台程序模拟用户登录,通过指定URL页面发送请求;接收页面发送的URL请求;解析URL,抽取数据;判断当前页面是否有更新;查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤106;否则,执行步骤105;忽略本次URL请求;对所述URL请求不作处理,直接忽略,结束流程;采集网页数据并存储;采集所述URL对应的网页数据,交给数据存储服务器进行存储;判断下一层级数据;根据所述URL,判断其对应页面是否有下一层级数据链接,如果有,获取该链接URL,执行步骤101;否则,结束流程。本发明解决了跨系统数据同步共享问题,具有速度快,准确性高的优点。
Description
技术领域
本发明涉及一种数据解析及数据采集技术,尤其涉及一种利用HTML脚本解析的异构系统间多层级数据同步方法及系统。
背景技术
目前,随着信息技术的不断发展,现今各大行业企事业单位在经过多年的信息化建设,形成了基于自己公司实际情况的面向各个职能、业务部门的专业系统,而多个系统拥有相对独立的数据存储结构与方案,这对跨系统数据的共享及整合分析造成一定的难度。针对此类问题,现有解决方案通常是通过开发数据接口或生成特定的数据交换文件方式解决。此种解决方案无法脱离业务系统,需要系统开发方根据需求配合开发诸多接口,为一种双向都要开发的系统,协调工作较为繁琐。若将双向开发变为单向需求方开发,无疑将降低数据同步工作的开发难度,节约大量协调成本。
发明内容
本发明的目的是针对目前跨系统数据同步共享不便的问题,发明一种利用HTML脚本解析的异构系统间多层级数据同步方法,同时提供一种相匹配的系统。
本发明的技术方案之一是:
一种利用HTML脚本解析的异构系统间多层级数据同步方法,其特征是它包括以下步骤:
步骤101:后台程序模拟用户登录,通过指定URL页面发送请求;
步骤102:接收页面发送的URL请求;
步骤103:解析URL,抽取数据;
步骤104:判断当前页面是否有更新;查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤106;否则,执行步骤105;
步骤105:忽略本次URL请求;对所述URL请求不作处理,直接忽略,结束流程;
步骤106:采集网页数据并存储;采集所述URL对应的网页数据,交给数据存储服务器进行存储;
步骤107:判断下一层级数据;根据所述URL,判断其对应页面是否有下一层级数据链接,如果有,获取该链接URL,执行步骤101;否则,结束流程。
所述指定URL为异构系统上某个预知的链接的URL,该URL对应网页所包含的数据即所述业务系统需要同步的数据。
所述解析URL是指生成HTML源文件,取出包含目标数据的源码块,生成DOM文档对象,解析DOM文档对象并抽取出目标数据。
本发明的技术方案之二是:
一种利用HTML脚本解析的异构系统间多层级数据同步异构系统间多层级数据同步系统,其特征是它包括数据采集服务器200和数据存储服务器300,其中数据存储服务器300用于存储数据采集服务器200所采集的数据;所述的数据采集服务器200用于采集目标网页数据,包括用于通过后台程序模拟用户登录指定 URL 的网页并向后台发送请求的发送请求模块201、用于接收指定URL的网页所发送的请求的接收请求模块202和用于判断指定URL的网页是否有更新,在有更新时触发采集模块的判断模块203和用于采集指定URL网页的数据的数据采集模块204。
本发明的有益效果:
本发明解决了跨系统数据同步共享问题,具有速度快,准确性高的优点。同时通过异构系统间多层级数据同步系统将数据采集服务器与数据存储服务器分离,有利于减轻自身系统的负担,提高数据同步的效率。
附图说明
图 1 为本发明同步方法的流程图。
图2 为本发明同步系统的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
实施例一。
如图1所示。
一种利用HTML脚本解析的异构系统间多层级数据同步方法包括以下步骤:
步骤101:后台程序模拟用户登录,通过指定URL页面发送请求;
所述指定URL为异构系统上某个预知的链接的URL,该URL对应网页所包含的数据即所述业务系统需要同步的数据。
步骤102:接收页面发送的URL请求;
步骤103:解析URL,抽取数据;
解析所述URL,生成HTML源文件,取出包含目标数据的源码块,生成DOM文档对象解析DOM文档对象并抽取出目标数据。
步骤104:判断当前页面是否有更新;
查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤016;否则,执行步骤015。
步骤105:忽略本次URL请求;
对所述URL请求不作处理,直接忽略,结束流程。
步骤106:采集网页数据并存储;
采集所述URL对应的网页数据,交给数据存储服务器进行存储。
步骤107:判断下一层级数据;
根据所述URL,判断其对应页面是否有下一层级数据链接,如果有,获取该链接URL,执行步骤101;否则,结束流程。
实施例二。
一种利用HTML脚本解析的异构系统间多层级数据同步异构系统间多层级数据同步系统,它包括数据采集服务器200和数据存储服务器300,如图2所示,其中数据存储服务器300用于存储数据采集服务器200所采集的数据;所述的数据采集服务器200用于采集目标网页数据,包括用于通过后台程序模拟用户登录指定 URL 的网页服务器400并向后台发送请求的发送请求模块201、用于接收指定URL的网页服务器400所发送的请求的接收请求模块202和用于判断指定URL的网页是否有更新,在有更新时触发采集模块的判断模块203和用于采集指定URL网页服务器400的数据的数据采集模块204,判断模块203与数据存储服务器300双向连接,数据采集模块204的输出接数据存储服务器300的输入。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
Claims (4)
1.一种利用HTML脚本解析的异构系统间多层级数据同步方法,其特征是它包括以下步骤:
步骤101:后台程序模拟用户登录,通过指定URL页面发送请求;
步骤102:接收页面发送的URL请求;
步骤103:解析URL,抽取数据;
步骤104:判断当前页面是否有更新;查询数据存储服务器,判断步骤103所述目标数据是否有更新,如果有更新,执行步骤106;否则,执行步骤105;
步骤105:忽略本次URL请求;对所述URL请求不作处理,直接忽略,结束流程;
步骤106:采集网页数据并存储;采集所述URL对应的网页数据,交给数据存储服务器进行存储;
步骤107:判断下一层级数据;根据所述URL,判断其对应页面是否有下一层级数据链接,如果有,获取该链接URL,执行步骤101;否则,结束流程。
2.根据权利要求1所述方法,其特征是所述指定URL为异构系统上某个预知的链接的URL,该URL对应网页所包含的数据即所述业务系统需要同步的数据。
3.根据权利要求1所述方法,其特征是所述解析URL是指生成HTML源文件,取出包含目标数据的源码块,生成DOM文档对象,解析DOM文档对象并抽取出目标数据。
4.一种利用HTML脚本解析的异构系统间多层级数据同步异构系统间多层级数据同步系统,其特征是它包括数据采集服务器(200)和数据存储服务器(300),其中数据存储服务器(300)用于存储数据采集服务器(200)所采集的数据;所述的数据采集服务器(200)用于采集目标网页数据,包括用于通过后台程序模拟用户登录指定 URL 的网页并向后台发送请求的发送请求模块(201)、用于接收指定URL的网页所发送的请求的接收请求模块(202)和用于判断指定URL的网页是否有更新,在有更新时触发采集模块的判断模块(203)和用于采集指定URL网页的数据的数据采集模块(204)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410179995.2A CN103927384A (zh) | 2014-04-30 | 2014-04-30 | 利用html脚本解析的异构系统间多层级数据同步方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410179995.2A CN103927384A (zh) | 2014-04-30 | 2014-04-30 | 利用html脚本解析的异构系统间多层级数据同步方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103927384A true CN103927384A (zh) | 2014-07-16 |
Family
ID=51145604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410179995.2A Pending CN103927384A (zh) | 2014-04-30 | 2014-04-30 | 利用html脚本解析的异构系统间多层级数据同步方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103927384A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104270447A (zh) * | 2014-10-09 | 2015-01-07 | 浪潮通用软件有限公司 | 一种html页面上内容的同步模块化加载方法 |
CN109002459A (zh) * | 2018-05-30 | 2018-12-14 | 珠海市君天电子科技有限公司 | 一种用户喜好的商品类型识别方法以及装置 |
CN110737645A (zh) * | 2019-10-15 | 2020-01-31 | 深圳金蝶账无忧网络科技有限公司 | 一种不同系统间数据迁移方法、数据迁移系统及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556592A (zh) * | 2008-04-09 | 2009-10-14 | 北京闻言科技有限公司 | 一种智能解析互联网内容的方法 |
CN102654886A (zh) * | 2012-05-08 | 2012-09-05 | 上海互联网软件有限公司 | 一种b/s结构系统的数据抓取系统 |
CN102654887A (zh) * | 2012-05-08 | 2012-09-05 | 上海互联网软件有限公司 | 一种数据抓取系统 |
KR101287371B1 (ko) * | 2011-04-29 | 2013-07-19 | (주)나모인터랙티브 | 웹 컨텐츠 수집방법 및 수집장치, 그 기록매체 |
CN103246709A (zh) * | 2013-04-19 | 2013-08-14 | 浪潮集团山东通用软件有限公司 | 一种网页数据抓取的方法 |
-
2014
- 2014-04-30 CN CN201410179995.2A patent/CN103927384A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556592A (zh) * | 2008-04-09 | 2009-10-14 | 北京闻言科技有限公司 | 一种智能解析互联网内容的方法 |
KR101287371B1 (ko) * | 2011-04-29 | 2013-07-19 | (주)나모인터랙티브 | 웹 컨텐츠 수집방법 및 수집장치, 그 기록매체 |
CN102654886A (zh) * | 2012-05-08 | 2012-09-05 | 上海互联网软件有限公司 | 一种b/s结构系统的数据抓取系统 |
CN102654887A (zh) * | 2012-05-08 | 2012-09-05 | 上海互联网软件有限公司 | 一种数据抓取系统 |
CN103246709A (zh) * | 2013-04-19 | 2013-08-14 | 浪潮集团山东通用软件有限公司 | 一种网页数据抓取的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104270447A (zh) * | 2014-10-09 | 2015-01-07 | 浪潮通用软件有限公司 | 一种html页面上内容的同步模块化加载方法 |
CN109002459A (zh) * | 2018-05-30 | 2018-12-14 | 珠海市君天电子科技有限公司 | 一种用户喜好的商品类型识别方法以及装置 |
CN110737645A (zh) * | 2019-10-15 | 2020-01-31 | 深圳金蝶账无忧网络科技有限公司 | 一种不同系统间数据迁移方法、数据迁移系统及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102662993A (zh) | 一种页面数据提供方法 | |
CN108259598B (zh) | 一种基于异构融合及云解析技术的感知设备统一接入方法 | |
CN104573122A (zh) | 一种从AIX平台向K-UX平台迁移的Oracle数据库迁移工具 | |
CN111368520A (zh) | 一种电子表格的编辑方法及设备 | |
CN103389895A (zh) | 一种前端页面的生成方法及系统 | |
CN102508908A (zh) | 一种下级财政业务数据的采集方法和系统 | |
CN103853743A (zh) | 一种分布式系统及其日志查询方法 | |
CN103927368A (zh) | 一种轻量级架构的利用流数据概念生成热力图的方法 | |
CN108197091B (zh) | 一种创建数据表的方法、系统及相关设备 | |
CN103414737B (zh) | 一种在设备间进行输入同步的方法与系统 | |
GB2529097A (en) | Method of website optimisation for a website hosted on a server system, and a server system | |
CN103927384A (zh) | 利用html脚本解析的异构系统间多层级数据同步方法及系统 | |
CN104601672A (zh) | 基于不同应用客户端的分享网络资源的方法和装置 | |
CN104917786A (zh) | 一种节省客户端和服务器交互时的传输流量的方法和模块 | |
CN102752294A (zh) | 基于设备能力的多终端数据同步方法和系统 | |
CN105045391A (zh) | 智能手表手势输入方法及智能手表 | |
CN103761257A (zh) | 基于移动浏览器的网页处理方法及系统 | |
CN109471957B (zh) | 一种基于统一标签的元数据转换方法及装置 | |
CN105337850A (zh) | 一种物联网数据处理方法及物联网网关 | |
CN104320162A (zh) | 同步联系人的方法、智能移动终端以及移动终端 | |
CN104750812A (zh) | 一种基于网页标签分析的数据自动采集方法 | |
CN105426407A (zh) | 一种基于内容分析的web数据采集方法 | |
CN204790999U (zh) | 一种工业大数据收集和处理系统 | |
CN104331512A (zh) | 一种bbs页面自动采集方法 | |
CN202364244U (zh) | 分布式日志分析系统处理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140716 |
|
RJ01 | Rejection of invention patent application after publication |