CN109684515A - 一种基于xml的关键断面在线辨识数据数据分析方法及系统 - Google Patents

一种基于xml的关键断面在线辨识数据数据分析方法及系统 Download PDF

Info

Publication number
CN109684515A
CN109684515A CN201811641285.1A CN201811641285A CN109684515A CN 109684515 A CN109684515 A CN 109684515A CN 201811641285 A CN201811641285 A CN 201811641285A CN 109684515 A CN109684515 A CN 109684515A
Authority
CN
China
Prior art keywords
data
xml
format
line identification
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811641285.1A
Other languages
English (en)
Inventor
李伟
康建东
胡迪军
鲁广明
陆俊
高强
谢昶
戴红阳
张志坚
于之虹
严剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Hunan Electric Power Co Ltd
State Grid Beijing Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Hunan Electric Power Co Ltd
State Grid Beijing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Hunan Electric Power Co Ltd, State Grid Beijing Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201811641285.1A priority Critical patent/CN109684515A/zh
Publication of CN109684515A publication Critical patent/CN109684515A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种基于XML的关键断面在线辨识数据数据分析方法及系统,其中,分析方法包括如下步骤:A:定制标准XML文件格式;B:从系统数据源中收集现有在线数据;C:清理数据中的噪音数据;D:解析标准XML文件数据;E:生成运行分析数据报表。本发明提供的一种基于XML的关键断面在线辨识数据数据分析方法及系统,根据在线运行数据格式定义了程序特定结构,提高了数据处理效率和可扩展性,可以从多套系统中生成统一的标准数据格式,以及通过有生成调度员需要的运行分析报告。

Description

一种基于XML的关键断面在线辨识数据数据分析方法及系统
技术领域
本发明涉及在线数据报表分析方法技术领域,尤其是一种基于XML的关键断面在线辨识数据数据分析方法及系统。
背景技术
随着电网规模的不断扩大,对电网运行的安全分析报告显得尤为重要,之前通过调度员人工统计分析编写安全运行分析报告,大大增加了调度员的日常工作量,由于多系统的数据格式不统一导致很难生成一套统一的数据分析报告,因此在实际工作中,面临如何从多套系统中生成统一的标准数据格式,以及通过有一种方法将其生成调度员需要的运行分析报告尤为重要。
发明内容
本发明要解决的技术问题是提供一种基于XML的关键断面在线辨识数据数据分析方法及系统,可以从多套系统中生成统一的标准数据格式,以及通过有生成调度员需要的运行分析报告。
本发明提供了一种基于XML的关键断面在线辨识数据数据分析方法,包括如下步骤:
A:定制标准XML文件格式;
B:从系统数据源中收集现有在线数据;
C:清理数据中的噪音数据;
D:解析标准XML文件数据;
E:生成运行分析数据报表。
进一步地,所述步骤B中,收集现有在线数据的方法包括:全量抽取和/或增量抽取。
进一步地,所述步骤C中,清理数据中的噪音数据的方法包括:
空值处理:系统捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库;
规范化数据格式:实现字段格式约束定义,对于数据源中时间、数值、字符数据自定义加载格式;
拆分数据:依据业务需求对字段可进行分解;
验证数据正确性:系统在数据加载时自动利用查询相关的主数据表或字典表,对新数据进行数据验证口;
数据替换:对无效数据、缺失数据替换。
进一步地,所述步骤D中,解析标准XML文件数据具体包括如下步骤:
D1:创建SAXReader对象;
D2:读取XML文件转换成Document对象;
D3:获取根节点元素对象;
D4:遍历当前节点下的所有节点。
进一步地,所述步骤E中,生成运行分析数据报表具体包括如下步骤:
E1:设置word生成路径;
E2:使用XWPFDocument创建Word对象;
E3:将标准在线数据格式XML内容写入Word文件;
E4:关闭相关资源并最终生成报表。
本发明还提供了一种基于XML的关键断面在线辨识数据数据分析系统,包括:
定制标准文件模块,用于定制标准XML文件格式;
收集数据模块,用于从系统数据源中收集现有在线数据;
清理数据模块,用于清理数据中的噪音数据;
解析数据模块,用于解析标准XML文件数据;
生成报表模块,用于生成运行分析数据报表。
进一步地,所述清理数据模块中,收集现有在线数据的方法包括:全量抽取和/或增量抽取。
进一步地,所述清理数据模块中,清理数据中的噪音数据的方法包括:
空值处理:系统捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库;
规范化数据格式:实现字段格式约束定义,对于数据源中时间、数值、字符数据自定义加载格式;
拆分数据:依据业务需求对字段可进行分解;
验证数据正确性:系统在数据加载时自动利用查询相关的主数据表或字典表,对新数据进行数据验证口;
数据替换:对无效数据、缺失数据替换。
进一步地,所述解析数据模块中,解析标准XML文件数据具体包括如下步骤:
D1:创建SAXReader对象;
D2:读取XML文件转换成Document对象;
D3:获取根节点元素对象;
D4:遍历当前节点下的所有节点。
进一步地,所述生成报表模块中,生成运行分析数据报表具体包括如下步骤:
E1:设置word生成路径;
E2:使用XWPFDocument创建Word对象;
E3:将标准在线数据格式XML内容写入Word文件;
E4:关闭相关资源并最终生成报表。
本发明提供的一种基于XML的关键断面在线辨识数据数据分析方法及系统,根据在线运行数据格式定义了程序特定结构,提高了数据处理效率和可扩展性,可以从多套系统中生成统一的标准数据格式,以及通过有生成调度员需要的运行分析报告。
附图说明
图1 是本发明基于XML的关键断面在线辨识数据数据分析方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
XML是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。是Internet环境中跨平台的、依赖于内容的技术,也是当今处理分布式结构信息的有效工具。
一种基于XML的关键断面在线辨识数据数据分析方法,包括如下步骤:
A:定制标准XML文件格式。
XML 指可扩展标记语言, 是一种标记语言,很类似 HTML, 被设计用来描述数据,标签没有被预定义,需要自行定义标签。我们根据实际应用的需求,制定了报表中要生成内容需要的基本格式。定义了根节点<word></word>标记了要生成Word文件。定义了<body></body>节点标记了报表的主体结构。定义了<text></text>节点标记了报表中文本内容。定义了<img></img>节点标记了文本中引用了图片信息。定义了<table></table>节点标记了文本中引用表格编辑功能。并且定义了spaceafter、spacebefore、fonttype、alignment、fontsize、backspace、fonttype、width、height等属性对标签中的内容进行规范修饰。
B:从系统数据源中收集现有在线数据。
收集现有在线数据主要是从SCADA/EMS、MIS、DBMS等系统数据源中获得。数据收集方式主要有以下几种:
全量抽取:
全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己可以识别的格式。全量抽取比较简单。
增量抽取:
增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据按一定的频率准确地捕获到;性能,不能对业务系统造成太大的压力,影响现有业务。
C:清理数据中的噪音数据。
清理数据中的噪音数据应该能够从技术方面保证对数据质量的自动检验,屏蔽掉烦琐的技术细节,使用户可以把更多的精力花在业务逻辑的设计上面。在清理数据中的噪音数据过程中,对数据质量的控制可以从以下五个方面着手:
空值处理:系统可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库;
规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式;
拆分数据:可以依据业务需求对字段可进行分解;
验证数据正确性:系统在数据加载时可以自动利用查询相关的主数据表或字典表,对新数据进行数据验证口;
数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。能缺失数据通过子查询,并返回用其他手段获取的缺失字段,保证字段完整性。
D:解析标准XML文件数据。
对于之前定义的面向电网在线运行数据格式XML文件的解析主要通过DOM4j来完成的,解析XML过程是通过获取Document对象,然后继续获取各个节点以及属性等操作,因此获取Document对象是第一步。解析XML过程主要分为以下几个步骤。
D1:创建SAXReader对象;
D2:读取XML文件转换成Document对象;
D3:获取根节点<word></word>元素对象;
D4:遍历当前节点下的所有节点。
E:生成运行分析数据报表,具体包括如下步骤:
E1:设置word生成路径;
E2:使用XWPFDocument创建Word对象;
E3:将标准在线数据格式XML内容写入Word文件;
E4:关闭相关资源并最终生成报表。
本发明还提供了一种基于XML的关键断面在线辨识数据数据分析系统,包括:
定制标准文件模块,用于定制标准XML文件格式;
收集数据模块,用于从系统数据源中收集现有在线数据;
清理数据模块,用于清理数据中的噪音数据;
解析数据模块,用于解析标准XML文件数据;
生成报表模块,用于生成运行分析数据报表。
基于XML的关键断面在线辨识数据数据分析系统使用的线数据报表分析方法与上述基于XML的关键断面在线辨识数据数据分析方法相同,此处不再赘述。
本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种基于XML的关键断面在线辨识数据数据分析方法,其特征在于,包括如下步骤:
A:定制标准XML文件格式;
B:从系统数据源中收集现有在线数据;
C:清理数据中的噪音数据;
D:解析标准XML文件数据;
E:生成运行分析数据报表。
2.如权利要求1所述的基于XML的关键断面在线辨识数据数据分析方法,其特征在于,所述步骤B中,收集现有在线数据的方法包括:全量抽取和/或增量抽取。
3.如权利要求1所述的基于XML的关键断面在线辨识数据数据分析方法,其特征在于,所述步骤C中,清理数据中的噪音数据的方法包括:
空值处理:系统捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库;
规范化数据格式:实现字段格式约束定义,对于数据源中时间、数值、字符数据自定义加载格式;
拆分数据:依据业务需求对字段可进行分解;
验证数据正确性:系统在数据加载时自动利用查询相关的主数据表或字典表,对新数据进行数据验证口;
数据替换:对无效数据、缺失数据替换。
4.如权利要求1所述的基于XML的关键断面在线辨识数据数据分析方法,其特征在于,所述步骤D中,解析标准XML文件数据具体包括如下步骤:
D1:创建SAXReader对象;
D2:读取XML文件转换成Document对象;
D3:获取根节点元素对象;
D4:遍历当前节点下的所有节点。
5.如权利要求1所述的基于XML的关键断面在线辨识数据数据分析方法,其特征在于,所述步骤E中,生成运行分析数据报表具体包括如下步骤:
E1:设置word生成路径;
E2:使用XWPFDocument创建Word对象;
E3:将标准在线数据格式XML内容写入Word文件;
E4:关闭相关资源并最终生成报表。
6.一种基于XML的关键断面在线辨识数据数据分析系统,其特征在于,包括:
定制标准文件模块,用于定制标准XML文件格式;
收集数据模块,用于从系统数据源中收集现有在线数据;
清理数据模块,用于清理数据中的噪音数据;
解析数据模块,用于解析标准XML文件数据;
生成报表模块,用于生成运行分析数据报表。
7.如权利要求6所述的基于XML的关键断面在线辨识数据数据分析系统,其特征在于,所述清理数据模块中,收集现有在线数据的方法包括:全量抽取和/或增量抽取。
8.如权利要求6所述的基于XML的关键断面在线辨识数据数据分析系统,其特征在于,所述清理数据模块中,清理数据中的噪音数据的方法包括:
空值处理:系统捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库;
规范化数据格式:实现字段格式约束定义,对于数据源中时间、数值、字符数据自定义加载格式;
拆分数据:依据业务需求对字段可进行分解;
验证数据正确性:系统在数据加载时自动利用查询相关的主数据表或字典表,对新数据进行数据验证口;
数据替换:对无效数据、缺失数据替换。
9.如权利要求6所述的基于XML的关键断面在线辨识数据数据分析系统,其特征在于,所述解析数据模块中,解析标准XML文件数据具体包括如下步骤:
D1:创建SAXReader对象;
D2:读取XML文件转换成Document对象;
D3:获取根节点元素对象;
D4:遍历当前节点下的所有节点。
10.如权利要求6所述的基于XML的关键断面在线辨识数据数据分析系统,其特征在于,所述生成报表模块中,生成运行分析数据报表具体包括如下步骤:
E1:设置word生成路径;
E2:使用XWPFDocument创建Word对象;
E3:将标准在线数据格式XML内容写入Word文件;
E4:关闭相关资源并最终生成报表。
CN201811641285.1A 2018-12-29 2018-12-29 一种基于xml的关键断面在线辨识数据数据分析方法及系统 Pending CN109684515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811641285.1A CN109684515A (zh) 2018-12-29 2018-12-29 一种基于xml的关键断面在线辨识数据数据分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811641285.1A CN109684515A (zh) 2018-12-29 2018-12-29 一种基于xml的关键断面在线辨识数据数据分析方法及系统

Publications (1)

Publication Number Publication Date
CN109684515A true CN109684515A (zh) 2019-04-26

Family

ID=66190298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811641285.1A Pending CN109684515A (zh) 2018-12-29 2018-12-29 一种基于xml的关键断面在线辨识数据数据分析方法及系统

Country Status (1)

Country Link
CN (1) CN109684515A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950248A (zh) * 2020-08-10 2020-11-17 中国工商银行股份有限公司 基于xml的产品报告生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290570A (zh) * 2007-04-17 2008-10-22 高丹 不同语言环境下异构数据库数据的统合中间件
CN103092890A (zh) * 2011-11-08 2013-05-08 苏州中茵泰格科技有限公司 报表自动生成及发送的系统及方法
CN105426394A (zh) * 2015-10-18 2016-03-23 广州赛意信息科技股份有限公司 基于跨平台的移动报表生成方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290570A (zh) * 2007-04-17 2008-10-22 高丹 不同语言环境下异构数据库数据的统合中间件
CN103092890A (zh) * 2011-11-08 2013-05-08 苏州中茵泰格科技有限公司 报表自动生成及发送的系统及方法
CN105426394A (zh) * 2015-10-18 2016-03-23 广州赛意信息科技股份有限公司 基于跨平台的移动报表生成方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950248A (zh) * 2020-08-10 2020-11-17 中国工商银行股份有限公司 基于xml的产品报告生成方法及系统
CN111950248B (zh) * 2020-08-10 2023-10-10 中国工商银行股份有限公司 基于xml的产品报告生成方法及系统

Similar Documents

Publication Publication Date Title
CN106325969B (zh) 需求变更的逆向追踪系统
CN105550378A (zh) 一种复杂网络体系下异构安全日志信息的提取与分析方法
US8112816B2 (en) Document verification apparatus and document verification method
CN101290624B (zh) 一种新闻网页元数据自动抽取方法
CN102496083B (zh) 信用评级报告底稿制作方法
CN108804136A (zh) 一种基于名称语义的配置项类型约束推断方法
CN108665141B (zh) 一种从突发事件预案中自动抽取应急响应流程模型的方法
CN110688830B (zh) 征信模板的转换方法及装置
CN107515771A (zh) 基于SpringMVC的API文档生成方法及系统
Jiang et al. Towards reengineering web sites to web-services providers
CN112948436A (zh) 告警工单合并方法、装置、设备及存储介质
CN109766416A (zh) 一种新能源政策信息抽取方法及系统
CN105260300A (zh) 基于会计准则通用分类标准应用平台的业务测试方法
CN108241658A (zh) 一种日志模式发现方法及系统
CN106981876A (zh) 基于线段模型的配电网可靠性评估方法
CN109684515A (zh) 一种基于xml的关键断面在线辨识数据数据分析方法及系统
CN114282010A (zh) 基于知识图谱的电网运行故障识别方法、系统及存储介质
CN108733332B (zh) 一种通用的打印模板元数据设计方法
CN104331512B (zh) 一种bbs页面自动采集方法
CN107301593A (zh) 一种财务信息系统
Khare et al. Patterns and practices for CIM applications
CN111340253B (zh) 一种主网检修申请单的解析方法及系统
CN103593182A (zh) 一种采用聚类方式进行软件重构的方法
CN1804870B (zh) 上下文树中的分析替换
CN110175917A (zh) 参数图形化处理的装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190426