CN104361079A - 一种重复数据自动提取方法及系统 - Google Patents

一种重复数据自动提取方法及系统 Download PDF

Info

Publication number
CN104361079A
CN104361079A CN201410639460.9A CN201410639460A CN104361079A CN 104361079 A CN104361079 A CN 104361079A CN 201410639460 A CN201410639460 A CN 201410639460A CN 104361079 A CN104361079 A CN 104361079A
Authority
CN
China
Prior art keywords
data
system server
xml form
server
xml
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410639460.9A
Other languages
English (en)
Inventor
杜军
李红梅
张学俊
宋士峰
李冬
常英贤
石鑫磊
戚鲁凤
孙海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
State Grid Shandong Electric Power Co Ltd
Shandong Luneng Software Technology Co Ltd
Original Assignee
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
State Grid Shandong Electric Power Co Ltd
Shandong Luneng Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd, State Grid Shandong Electric Power Co Ltd, Shandong Luneng Software Technology Co Ltd filed Critical Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority to CN201410639460.9A priority Critical patent/CN104361079A/zh
Publication of CN104361079A publication Critical patent/CN104361079A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种重复数据自动提取方法及系统,系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;系统服务器利用数据库技术对重复的数据进行去重。本发明能够实现对多个系统间重复数据的提取,用于发现系统信息间数据重复的问题,同时可以基于此进行分析、发现数据流转和业务工作重复问题等。

Description

一种重复数据自动提取方法及系统
技术领域
本发明涉及一种重复数据自动提取方法及系统。
背景技术
公司信息化建设的逐步深入,一线班组的业务越来越依托于信息应用系统的支撑,但是也出现了一些新的情况,随着各业务部门需求增大,作为电力基层的班组工作越来越突显出系统化工作内容繁杂,各系统由于业务原因、建设规划或数据颗粒度不一致等原因,造成工作的重复,数据的重复录入的问题。
传统的业务梳理,调研工作采用访谈,系统数据收集采用以列表形式记录,通过人工的对比,找出系统间数据的重叠部分,由于大量的数据需要人工来做,效率低下,且精确度不高。
发明内容
为解决现有技术存在的不足,为解决传统业务梳理和数据整理分析的效率低下问题,研究系统网页数据动态提取的方法,本发明公开了一种重复数据自动提取方法及系统,实现对多个系统间重复数据的提取,用于发现系统信息间数据重复的问题,同时可以基于此进行分析、发现数据流转和业务工作重复问题等。
为实现上述目的,本发明的具体方案如下:
一种重复数据自动提取方法,包括以下步骤:
步骤一:系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
步骤二:系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;
步骤三:系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;
步骤四:系统服务器利用数据库技术对重复的数据进行去重。
所述系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器获取各个应用服务器xml格式的网页页面。
所述系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出需要的数据并将数据存入已经定义好的数据模型中。
所述数据库技术为数据库触发器或定时任务。
一种重复数据自动提取系统,包括:
请求处理模块,用于系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
解析封装模块,用于系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;
数据存储模块,用于系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;
数据去重模块,用于系统服务器利用数据库技术对重复的数据进行去重。
所述请求处理模块,系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器获取各个应用服务器xml格式的网页页面。
所述数据存储模块,系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出需要的数据并将数据存入已经定义好的数据模型中。
所述数据去重模块,数据库技术为数据库触发器或定时任务。
系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器请求获取各大系统网页页面(xml格式的),系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出有用的数据并将数据存入已经定义好的数据模型(存入数据库)。系统服务器利用数据库技术对重复数据进行分析去重。
本发明的有益效果:
本发明能够实现对多个系统间重复数据的提取,用于发现系统信息间数据重复的问题,同时可以基于此进行分析、发现数据流转和业务工作重复问题等。
附图说明
图1本发明的硬件架构示意图;
图2本发明的流程示意图。
具体实施方式:
下面结合附图对本发明进行详细说明:
如图1-2所示,一种重复数据自动提取方法,包括以下步骤:
步骤一:系统服务器通过Http协议向各大应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
步骤二:系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器后台程序根据业务需求截取出有用的xml格式的源码文件,后台程序利用jdom(java开源解析xml文件框架)技术对xml格式的文件进行解析封装。
步骤三:系统服务器程序将从各大应用服务器解析出来的数据,根据已设计好的数据结构进行进行存储。
步骤四:系统服务器利用数据库技术(数据库触发器或定时任务)对重复的数据进行去重。
一种重复数据自动提取系统,包括:
请求处理模块,用于系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
解析封装模块,用于系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;
数据存储模块,用于系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;
数据去重模块,用于系统服务器利用数据库技术对重复的数据进行去重。
系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器请求获取各大系统网页页面(xml格式的),系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出有用的数据并将数据存入已经定义好的数据模型(存入数据库)。系统服务器利用数据库技术对重复数据进行分析去重。

Claims (8)

1.一种重复数据自动提取方法,其特征是,包括以下步骤:
步骤一:系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
步骤二:系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;
步骤三:系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;
步骤四:系统服务器利用数据库技术对重复的数据进行去重。
2.如权利要求1所述的一种重复数据自动提取方法,其特征是,所述系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器获取各个应用服务器xml格式的网页页面。
3.如权利要求1所述的一种重复数据自动提取方法,其特征是,所述系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出需要的数据并将数据存入已经定义好的数据模型中。
4.如权利要求1所述的一种重复数据自动提取方法,其特征是,所述数据库技术为数据库触发器或定时任务。
5.如权利要求1所述的一种重复数据自动提取方法的系统,其特征是,包括:
请求处理模块,用于系统服务器通过Http协议向多个应用服务器发送Http服务请求,应用服务器接收到请求报文后进行逻辑处理,返回xml格式的系统网页源文件;
解析封装模块,用于系统服务器从源文件中取出包含数据的xml格式的数据包,系统服务器根据业务需求截取出有用的xml格式的源码文件,系统服务器对xml格式的文件进行解析封装;
数据存储模块,用于系统服务器将从各个应用服务器解析出来的数据,根据已设计好的数据结构进行存储;
数据去重模块,用于系统服务器利用数据库技术对重复的数据进行去重。
6.如权利要求5所述的一种重复数据自动提取方法的系统,其特征是,所述请求处理模块,系统服务器需要利用Http协议,通过java发送Http协议请求报文头模拟浏览器获取各个应用服务器xml格式的网页页面。
7.如权利要求5所述的一种重复数据自动提取方法的系统,其特征是,所述数据存储模块,系统服务器将得到的xml格式的页面信息通过xml解析技术,整理出需要的数据并将数据存入已经定义好的数据模型中。
8.如权利要求5所述的一种重复数据自动提取方法的系统,其特征是,所述数据去重模块,数据库技术为数据库触发器或定时任务。
CN201410639460.9A 2014-11-13 2014-11-13 一种重复数据自动提取方法及系统 Pending CN104361079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410639460.9A CN104361079A (zh) 2014-11-13 2014-11-13 一种重复数据自动提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410639460.9A CN104361079A (zh) 2014-11-13 2014-11-13 一种重复数据自动提取方法及系统

Publications (1)

Publication Number Publication Date
CN104361079A true CN104361079A (zh) 2015-02-18

Family

ID=52528339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410639460.9A Pending CN104361079A (zh) 2014-11-13 2014-11-13 一种重复数据自动提取方法及系统

Country Status (1)

Country Link
CN (1) CN104361079A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095462A (zh) * 2015-07-30 2015-11-25 北京京东尚科信息技术有限公司 处理网页重复请求的方法和系统
CN106528510A (zh) * 2016-11-18 2017-03-22 山东浪潮云服务信息科技有限公司 一种数据处理的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654886A (zh) * 2012-05-08 2012-09-05 上海互联网软件有限公司 一种b/s结构系统的数据抓取系统
CN103246709A (zh) * 2013-04-19 2013-08-14 浪潮集团山东通用软件有限公司 一种网页数据抓取的方法
CN103927167A (zh) * 2014-03-31 2014-07-16 国网山东省电力公司 一种功能粒度的高度定制化的系统集成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654886A (zh) * 2012-05-08 2012-09-05 上海互联网软件有限公司 一种b/s结构系统的数据抓取系统
CN103246709A (zh) * 2013-04-19 2013-08-14 浪潮集团山东通用软件有限公司 一种网页数据抓取的方法
CN103927167A (zh) * 2014-03-31 2014-07-16 国网山东省电力公司 一种功能粒度的高度定制化的系统集成方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095462A (zh) * 2015-07-30 2015-11-25 北京京东尚科信息技术有限公司 处理网页重复请求的方法和系统
CN105095462B (zh) * 2015-07-30 2018-09-28 北京京东尚科信息技术有限公司 处理网页重复请求的方法和系统
CN106528510A (zh) * 2016-11-18 2017-03-22 山东浪潮云服务信息科技有限公司 一种数据处理的方法及装置

Similar Documents

Publication Publication Date Title
US9876696B2 (en) Method and system for processing browser crash information
SG11201903367WA (en) Contract generation method and apparatus, server and storage medium
CN103838867A (zh) 日志处理方法和装置
CN103744985A (zh) 网页适配的方法和系统
EP3321821B1 (en) Big data exchange method and device
CN105302885B (zh) 一种全文数据的提取方法和装置
CN104869009A (zh) 网站数据统计的系统和方法
WO2014173151A1 (en) Method, device and terminal for data processing
CN103678718A (zh) 数据库同步方法及系统
CN103347092A (zh) 一种识别缓存文件的方法及装置
CN103793318A (zh) 一种模块稳定性的分布式测试方法及装置
CN105262812A (zh) 一种基于云计算平台的日志数据处理方法、装置及系统
CN110798445A (zh) 公共网关接口测试方法、装置、计算机设备及存储介质
CN103428249B (zh) 一种http请求包的收集及处理方法、系统和服务器
CN104702629A (zh) 一种资源访问信息的收集方法和装置
CN103117878A (zh) 一种基于Nagios的分布式监控系统的设计方法
CN105550179A (zh) 一种网页收藏方法和浏览器插件
CN104361079A (zh) 一种重复数据自动提取方法及系统
CN104778252A (zh) 索引的存储方法和装置
CN107517237B (zh) 一种视频识别方法和装置
CN102609864A (zh) 一种广告发布方法、装置、服务器和系统
CN107544991B (zh) 服务器处理访问请求的方法和装置
CN103577604A (zh) 一种用于Hadoop分布式环境的图像索引结构
JP2015064636A (ja) 情報処理システム、分散処理方法、及び、プログラム
CN101304565B (zh) 移动终端识别方法和单元以及增值服务提供方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150218