CN104361079A - 一种重复数据自动提取方法及系统 - Google Patents
一种重复数据自动提取方法及系统 Download PDFInfo
- Publication number
- CN104361079A CN104361079A CN201410639460.9A CN201410639460A CN104361079A CN 104361079 A CN104361079 A CN 104361079A CN 201410639460 A CN201410639460 A CN 201410639460A CN 104361079 A CN104361079 A CN 104361079A
- Authority
- CN
- China
- Prior art keywords
- data
- system server
- xml form
- server
- xml
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种重复数据自动提取方法及系统,系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;系统服务器利用数据库技术对重复的数据进行去重。本发明能够实现对多个系统间重复数据的提取,用于发现系统信息间数据重复的问题,同时可以基于此进行分析、发现数据流转和业务工作重复问题等。
Description
技术领域
本发明涉及一种重复数据自动提取方法及系统。
背景技术
公司信息化建设的逐步深入,一线班组的业务越来越依托于信息应用系统的支撑,但是也出现了一些新的情况,随着各业务部门需求增大,作为电力基层的班组工作越来越突显出系统化工作内容繁杂,各系统由于业务原因、建设规划或数据颗粒度不一致等原因,造成工作的重复,数据的重复录入的问题。
传统的业务梳理,调研工作采用访谈,系统数据收集采用以列表形式记录,通过人工的对比,找出系统间数据的重叠部分,由于大量的数据需要人工来做,效率低下,且精确度不高。
发明内容
为解决现有技术存在的不足,为解决传统业务梳理和数据整理分析的效率低下问题,研究系统网页数据动态提取的方法,本发明公开了一种重复数据自动提取方法及系统,实现对多个系统间重复数据的提取,用于发现系统信息间数据重复的问题,同时可以基于此进行分析、发现数据流转和业务工作重复问题等。
为实现上述目的,本发明的具体方案如下:
一种重复数据自动提取方法,包括以下步骤:
步骤一:系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
步骤二:系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;
步骤三:系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;
步骤四:系统服务器利用数据库技术对重复的数据进行去重。
所述系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器获取各个应用服务器xml格式的网页页面。
所述系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出需要的数据并将数据存入已经定义好的数据模型中。
所述数据库技术为数据库触发器或定时任务。
一种重复数据自动提取系统,包括:
请求处理模块,用于系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
解析封装模块,用于系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;
数据存储模块,用于系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;
数据去重模块,用于系统服务器利用数据库技术对重复的数据进行去重。
所述请求处理模块,系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器获取各个应用服务器xml格式的网页页面。
所述数据存储模块,系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出需要的数据并将数据存入已经定义好的数据模型中。
所述数据去重模块,数据库技术为数据库触发器或定时任务。
系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器请求获取各大系统网页页面(xml格式的),系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出有用的数据并将数据存入已经定义好的数据模型(存入数据库)。系统服务器利用数据库技术对重复数据进行分析去重。
本发明的有益效果:
本发明能够实现对多个系统间重复数据的提取,用于发现系统信息间数据重复的问题,同时可以基于此进行分析、发现数据流转和业务工作重复问题等。
附图说明
图1本发明的硬件架构示意图;
图2本发明的流程示意图。
具体实施方式:
下面结合附图对本发明进行详细说明:
如图1-2所示,一种重复数据自动提取方法,包括以下步骤:
步骤一:系统服务器通过Http协议向各大应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
步骤二:系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器后台程序根据业务需求截取出有用的xml格式的源码文件,后台程序利用jdom(java开源解析xml文件框架)技术对xml格式的文件进行解析封装。
步骤三:系统服务器程序将从各大应用服务器解析出来的数据,根据已设计好的数据结构进行进行存储。
步骤四:系统服务器利用数据库技术(数据库触发器或定时任务)对重复的数据进行去重。
一种重复数据自动提取系统,包括:
请求处理模块,用于系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
解析封装模块,用于系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;
数据存储模块,用于系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;
数据去重模块,用于系统服务器利用数据库技术对重复的数据进行去重。
系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器请求获取各大系统网页页面(xml格式的),系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出有用的数据并将数据存入已经定义好的数据模型(存入数据库)。系统服务器利用数据库技术对重复数据进行分析去重。
Claims (8)
1.一种重复数据自动提取方法,其特征是,包括以下步骤:
步骤一:系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
步骤二:系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;
步骤三:系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;
步骤四:系统服务器利用数据库技术对重复的数据进行去重。
2.如权利要求1所述的一种重复数据自动提取方法,其特征是,所述系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器获取各个应用服务器xml格式的网页页面。
3.如权利要求1所述的一种重复数据自动提取方法,其特征是,所述系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出需要的数据并将数据存入已经定义好的数据模型中。
4.如权利要求1所述的一种重复数据自动提取方法,其特征是,所述数据库技术为数据库触发器或定时任务。
5.如权利要求1所述的一种重复数据自动提取方法的系统,其特征是,包括:
请求处理模块,用于系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
解析封装模块,用于系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;
数据存储模块,用于系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;
数据去重模块,用于系统服务器利用数据库技术对重复的数据进行去重。
6.如权利要求5所述的一种重复数据自动提取方法的系统,其特征是,所述请求处理模块,系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器获取各个应用服务器xml格式的网页页面。
7.如权利要求5所述的一种重复数据自动提取方法的系统,其特征是,所述数据存储模块,系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出需要的数据并将数据存入已经定义好的数据模型中。
8.如权利要求5所述的一种重复数据自动提取方法的系统,其特征是,所述数据去重模块,数据库技术为数据库触发器或定时任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410639460.9A CN104361079A (zh) | 2014-11-13 | 2014-11-13 | 一种重复数据自动提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410639460.9A CN104361079A (zh) | 2014-11-13 | 2014-11-13 | 一种重复数据自动提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104361079A true CN104361079A (zh) | 2015-02-18 |
Family
ID=52528339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410639460.9A Pending CN104361079A (zh) | 2014-11-13 | 2014-11-13 | 一种重复数据自动提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104361079A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095462A (zh) * | 2015-07-30 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 处理网页重复请求的方法和系统 |
CN106528510A (zh) * | 2016-11-18 | 2017-03-22 | 山东浪潮云服务信息科技有限公司 | 一种数据处理的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102654886A (zh) * | 2012-05-08 | 2012-09-05 | 上海互联网软件有限公司 | 一种b/s结构系统的数据抓取系统 |
CN103246709A (zh) * | 2013-04-19 | 2013-08-14 | 浪潮集团山东通用软件有限公司 | 一种网页数据抓取的方法 |
CN103927167A (zh) * | 2014-03-31 | 2014-07-16 | 国网山东省电力公司 | 一种功能粒度的高度定制化的系统集成方法 |
-
2014
- 2014-11-13 CN CN201410639460.9A patent/CN104361079A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102654886A (zh) * | 2012-05-08 | 2012-09-05 | 上海互联网软件有限公司 | 一种b/s结构系统的数据抓取系统 |
CN103246709A (zh) * | 2013-04-19 | 2013-08-14 | 浪潮集团山东通用软件有限公司 | 一种网页数据抓取的方法 |
CN103927167A (zh) * | 2014-03-31 | 2014-07-16 | 国网山东省电力公司 | 一种功能粒度的高度定制化的系统集成方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095462A (zh) * | 2015-07-30 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 处理网页重复请求的方法和系统 |
CN105095462B (zh) * | 2015-07-30 | 2018-09-28 | 北京京东尚科信息技术有限公司 | 处理网页重复请求的方法和系统 |
CN106528510A (zh) * | 2016-11-18 | 2017-03-22 | 山东浪潮云服务信息科技有限公司 | 一种数据处理的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9876696B2 (en) | Method and system for processing browser crash information | |
SG11201903367WA (en) | Contract generation method and apparatus, server and storage medium | |
CN103838867A (zh) | 日志处理方法和装置 | |
CN103744985A (zh) | 网页适配的方法和系统 | |
EP3321821B1 (en) | Big data exchange method and device | |
CN105302885B (zh) | 一种全文数据的提取方法和装置 | |
CN104869009A (zh) | 网站数据统计的系统和方法 | |
WO2014173151A1 (en) | Method, device and terminal for data processing | |
CN103678718A (zh) | 数据库同步方法及系统 | |
CN103347092A (zh) | 一种识别缓存文件的方法及装置 | |
CN103793318A (zh) | 一种模块稳定性的分布式测试方法及装置 | |
CN105262812A (zh) | 一种基于云计算平台的日志数据处理方法、装置及系统 | |
CN110798445A (zh) | 公共网关接口测试方法、装置、计算机设备及存储介质 | |
CN103428249B (zh) | 一种http请求包的收集及处理方法、系统和服务器 | |
CN104702629A (zh) | 一种资源访问信息的收集方法和装置 | |
CN103117878A (zh) | 一种基于Nagios的分布式监控系统的设计方法 | |
CN105550179A (zh) | 一种网页收藏方法和浏览器插件 | |
CN104361079A (zh) | 一种重复数据自动提取方法及系统 | |
CN104778252A (zh) | 索引的存储方法和装置 | |
CN107517237B (zh) | 一种视频识别方法和装置 | |
CN102609864A (zh) | 一种广告发布方法、装置、服务器和系统 | |
CN107544991B (zh) | 服务器处理访问请求的方法和装置 | |
CN103577604A (zh) | 一种用于Hadoop分布式环境的图像索引结构 | |
JP2015064636A (ja) | 情報処理システム、分散処理方法、及び、プログラム | |
CN101304565B (zh) | 移动终端识别方法和单元以及增值服务提供方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150218 |