CN104992379A - 一种电力行业大数据动态文本交换格式管理方法 - Google Patents

一种电力行业大数据动态文本交换格式管理方法 Download PDF

Info

Publication number
CN104992379A
CN104992379A CN201510401443.6A CN201510401443A CN104992379A CN 104992379 A CN104992379 A CN 104992379A CN 201510401443 A CN201510401443 A CN 201510401443A CN 104992379 A CN104992379 A CN 104992379A
Authority
CN
China
Prior art keywords
data
template
format
model
java
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510401443.6A
Other languages
English (en)
Inventor
李飞
陈朝银
张翔
晏正腾
杨建�
王鹏
周永吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INFORMATION & COMMUNICATION BRANCH OF GUIZHOU GRID COMPANY
Original Assignee
GUIZHOU GUANGSI INFORMATION NETWORK CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUIZHOU GUANGSI INFORMATION NETWORK CO Ltd filed Critical GUIZHOU GUANGSI INFORMATION NETWORK CO Ltd
Priority to CN201510401443.6A priority Critical patent/CN104992379A/zh
Publication of CN104992379A publication Critical patent/CN104992379A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Stored Programmes (AREA)

Abstract

本发明公开了一种电力行业大数据动态文本交换格式管理方法,包括分析数据结构,生成数据模型;编写数据格式规则,编写加载类,编写数据模型加载类以及数据格式规则加载类两个类;编写数据驱动类,两个加载类的输出结果作为数据驱动类的输入,通过驱动类生成最终的动态文本交换格式,该方法解决了在大数据挖掘分析过程中数据传输格式需要能灵活的根据项目对于传输时间、数据体量、异构系统之间数据传输格式多样,使数据交换能有侧重的进行转换的实际需求,并满足了系统间对于动态的管理数据传输格式的需求,使得在兼容传统数据传输格式的同时又能自定义任何格式的文本数据,极大的提高了动态文本数据交换格式的管理能力。

Description

一种电力行业大数据动态文本交换格式管理方法
技术领域
本发明涉及一种电力行业大数据动态文本交换格式管理方法,属于电力技术领域。
背景技术
在对电力行业大数据进行挖掘分析的过程中,经常会遇到要在各种数据格式之间进行转换,有些时候为了得到比较高的效率和处理性能,数据分析过程中的大量中间缓存格式是非标准结构的自定义格式。我们不得进行大量的重复性的数据格式转换工作,大部分情况下而格式转换工作通过直接编码的方式进行,由于直接编码转换会导致代码缺乏标准数据与格式强耦合不可重复利用,这样就导致了工作效率低下。
发明内容
本发明的目的是:针对现有技术的上的缺陷,提供一种电力行业大数据动态文本交换格式管理方法,用于解决不能数据交换过程中动态灵活处理数据交换格式的难点,以克服现有技术的不足。
本发明的技术方案
一种电力行业大数据动态文本交换格式管理方法,该方法包括以下步骤,
步骤1:分析数据结构,分析需要用于数据交换的电力行业数据进行数据结构分析,生成数据模型;
       步骤2:编写数据格式规则,通过Velocity语法编写符合实际需求的定义的灵活的数据传输交换格式,并生成数据格式交换模板;
       步骤3:编写加载类,利用Java语言编写数据模型加载类以及数据格式规则加载类两个类;
步骤4:利用Java语言并采用Velocity模板引擎编写数据驱动类,将步骤3中的两个加载类的输出结果作为数据驱动类的输入,通过驱动类生成最终的动态文本交换格式。
前述的电力行业大数据动态文本交换格式管理方法中,所述步骤1(分析数据结构)包括以下子步骤:
      S1.1:从电力营销系统、计量自动化系统、电网GIS空间信息服务平台等抽取文本类型的数据到电网行业Hadoop大数据平台的HDFS文件系统上;
      S1.2:分析抽取到Hadoop大数据处理平台上的文本数据,通过将原有的数据结构进行精简适合于数据挖掘的简单结构保存于hive数据仓库之中;
      S1.3:通过编写MapReduce、Spark任务、Storm流处理任务等手段操作hive数据仓库生成数据模型,并将输出结果以hdfs上带有特定特定列式结构的数据模型;
S1.4:通过编写MapReduce、Spark任务、Storm流处理任务等手段操作hive数据仓库生成数据模型,并将输出结果以hdfs上带有特定列式结构的数据模型。
前述的电力行业大数据动态文本交换格式管理方法中,所述步骤2(编写数据格式规则)包括以下子步骤:
      S2.1:根据步骤1的数据模型,编写数据格式模板,该模板包含最终数据交换格式的基本格式。
      S2.2:将步骤S2.1中数据格式模板的基本模板中需要用数据填充的部分使用Velocity语法用占位符号进行修改,形成带有基本数据结构的格式模板;
      S2.3:将步骤S2.2中的编写的模板进一步修改,将带有数据集合的模板区块使用Velocity条件控制、循环语法进行控制输出,形成数据格式模板;
      S2.4:将步骤S2.3中的编写的模板首行之前增加额外一行头信息,该部分按顺序用“,”号分割,包含如下顺序的信息;
1、  数据模型文件hdfs地址;
2、  数据模型加载类名称全路径;
3、  数据格式规则加载类全路径;
S2.5:将步骤S2.4中的编写的模板保存在hdfs上。
前述的电力行业大数据动态文本交换格式管理方法中,步骤S2.1中数据交换格式根据使用者对数据交换格式的实际需求,将数据交换格式定义为xml、json、csv等行业标准格式或定义成非标准格式。
前述的电力行业大数据动态文本交换格式管理方法中,所述步骤3(编写加载类)利用Java语言编写数据模型加载类以及数据格式规则加载类两个类,包括以下子步骤:
       S3.1:编写数据模型加载类,该类包含的功能特征是:
       1)读取hdfs文件系统上的数据模型文件;
       2)遍历数据模型列式结构;
       3)生成用于填充数据规则模板的Java数据对象模型;
       S3.2:数据格式规则加载类,该类包含的功能特征是:
       1)读取hdfs数据格式规则模板文件;
       2)解析数据格式规则模板,将头信息以及数据格式信息分离;
       3)生成头信息Java对象;
4)生成数据格式模板的Java映射对象。
前述的电力行业大数据动态文本交换格式管理方法中,所述步骤4包括以下子步骤:
       S4.1:根据步骤3的输出的Java数据对象、头信息Java对象、数据格式模板Java映射对象做为数据驱动类的输入参数传入数据驱动类;
       S4.2:根据步骤S4.1数据驱动类将组合并整理以上输入参数形成统一的Java数据对象模型以及模板文件描述对象。
       S4.3:数据驱动类调用Velocity模板引擎的相应模板生成方法,生成最终符合需求的数据结构文本。
S4.4:数据驱动类输出的结果可以根据需求放置于hdfs、数据库、本地文件系统上,也可以作为输入源直接输出至下一个MapReduce任务、Spark任务、Storm流任务中去。
由于采用了上述技术方案,与现有技术相比,本发明解决了在大数据挖掘分析过程中数据传输格式需要能灵活的根据项目对于传输时间、数据体量、异构系统之间数据传输格式多样,使数据交换能有侧重的进行转换的实际需求,并满足了系统间对于动态的管理数据传输格式的需求。使得在兼容传统数据传输格式(xml、json、csv等)的同时又能自定义任何格式的文本数据,极大的提高了动态文本数据交换格式的管理能力。
附图说明
附图1是本发明所描述的数据格式转换器在整个数据格式处理流程图;
附图2是本发明所描述的数据格式转换器的内部工作流程。
具体实施方式
下面结合附图对本发明用作进一步的详细说明,但不作为对本发明的任何限制。
本发明的实施例:通过结合附图1、附图2以及上述提到的基于Velocity模板引擎的电力行业大数据动态文本交换格式管理方法,按照以下步骤即可完成实施:
      步骤1:分析数据结构,分析需要用于数据交换的电力行业数据进行数据结构分析,生成数据模型;
    该步骤1(分析数据结构)包括以下子步骤:
       S1.1:从电力营销系统、计量自动化系统、电网GIS空间信息服务平台等抽取文本类型的数据到电网行业Hadoop大数据平台的HDFS文件系统上(这一步骤仅包含脱敏后的用于数据挖掘的文本类型数据);
S1.2:分析抽取到Hadoop大数据处理平台上的文本数据,通过将原有的数据结构进行精简适合于数据挖掘的简单结构保存于hive数据仓库之中。
       S1.3:通过编写MapReduce、Spark任务、Storm流处理任务等手段操作hive数据仓库生成数据模型,并将输出结果以hdfs上带有特定特定列式结构的数据模型。
S1.4:通过编写MapReduce、Spark任务、Storm流处理任务等手段操作hive数据仓库生成数据模型,并将输出结果以hdfs上带有特定列式结构的数据模型。
       步骤2:编写数据格式规则,通过Velocity语法编写符合实际需求的定义的灵活的数据传输交换格式,并生成数据格式交换模板;
步骤2(编写数据格式规则)包括以下子步骤:
       S2.1:根据步骤1的数据模型,编写数据格式模板,该模板包含最终数据交换格式的基本格式(数据交换格式根据使用者对数据交换格式的实际需求,将数据交换格式定义为xml、json、csv等行业标准格式或定义成非标准格式)。
      S2.2:将步骤S2.1中数据格式模板的基本模板中需要用数据填充的部分使用Velocity语法用占位符号进行修改,形成带有基本数据结构的格式模板;
      S2.3:将步骤S2.2中的编写的模板进一步修改,将带有数据集合的模板区块使用Velocity条件控制、循环语法进行控制输出,形成数据格式模板;
      S2.4:将步骤S2.3中的编写的模板首行之前增加额外一行头信息,该部分按顺序用“,”号分割,包含如下顺序的信息;
4、  数据模型文件hdfs地址;
5、  数据模型加载类名称全路径;
6、  数据格式规则加载类全路径;
S2.5:将步骤S2.4中的编写的模板保存在hdfs上。
       步骤3:编写加载类,利用Java语言编写数据模型加载类以及数据格式规则加载类两个类;
该步骤3(编写加载类)利用Java语言编写数据模型加载类以及数据格式规则加载类两个类,包括以下子步骤:
       S3.1:编写数据模型加载类,该类包含的功能特征是:
       1)读取hdfs文件系统上的数据模型文件;
       2)遍历数据模型列式结构;
       3)生成用于填充数据规则模板的Java数据对象模型;
       S3.2:数据格式规则加载类,该类包含的功能特征是:
       1)读取hdfs数据格式规则模板文件;
       2)解析数据格式规则模板,将头信息以及数据格式信息分离;
       3)生成头信息Java对象;
4)生成数据格式模板的Java映射对象。
步骤4:利用Java语言并采用Velocity模板引擎编写数据驱动类,将步骤3中的两个加载类的输出结果作为数据驱动类的输入,通过驱动类生成最终的动态文本交换格式。
步骤4(利用Java语言并采用Velocity模板引擎编写数据驱动类)包括以下子步骤:
       S4.1:根据步骤3的输出的Java数据对象、头信息Java对象、数据格式模板Java映射对象做为数据驱动类的输入参数传入数据驱动类;
       S4.2:根据步骤S4.1数据驱动类将组合并整理以上输入参数形成统一的Java数据对象模型以及模板文件描述对象。
       S4.3:数据驱动类调用Velocity模板引擎的相应模板生成方法,生成最终符合需求的数据结构文本。
S4.4:数据驱动类输出的结果可以根据需求放置于hdfs、数据库、本地文件系统上,也可以作为输入源直接输出至下一个MapReduce任务、Spark任务、Storm流任务中去。

Claims (6)

1.一种电力行业大数据动态文本交换格式管理方法,其特征在于:该方法包括以下步骤,
步骤1:分析数据结构,分析需要用于数据交换的电力行业数据进行数据结构分析,生成数据模型;
       步骤2:编写数据格式规则,通过Velocity语法编写符合实际需求的定义的灵活的数据传输交换格式,并生成数据格式交换模板;
       步骤3:编写加载类,利用Java语言编写数据模型加载类以及数据格式规则加载类两个类;
步骤4:利用Java语言并采用Velocity模板引擎编写数据驱动类,将步骤3中的两个加载类的输出结果作为数据驱动类的输入,通过驱动类生成最终的动态文本交换格式。
2.根据权利要求1所述的电力行业大数据动态文本交换格式管理方法,其特征在于:
       所述步骤1包括以下子步骤:
       S1.1:从电力营销系统、计量自动化系统、电网GIS空间信息服务平台等抽取文本类型的数据到电网行业Hadoop大数据平台的HDFS文件系统上;
       S1.2:分析抽取到Hadoop大数据处理平台上的文本数据,通过将原有的数据结构进行精简适合于数据挖掘的简单结构保存于hive数据仓库之中;
       S1.3:通过编写MapReduce、Spark任务、Storm流处理任务等手段操作hive数据仓库生成数据模型,并将输出结果以hdfs上带有特定特定列式结构的数据模型;
S1.4:通过编写MapReduce、Spark任务、Storm流处理任务等手段操作hive数据仓库生成数据模型,并将输出结果以hdfs上带有特定列式结构的数据模型。
3.根据权利要求1所述电力行业大数据动态文本交换格式管理方法,其特征在于:
所述步骤2包括以下子步骤:
       S2.1:根据步骤1的数据模型,编写数据格式模板,该模板包含最终数据交换格式的基本格式;
       S2.2:将步骤S2.1中数据格式模板的基本模板中需要用数据填充的部分使用Velocity语法用占位符号进行修改,形成带有基本数据结构的格式模板;
       S2.3:将步骤S2.2中的编写的模板进一步修改,将带有数据集合的模板区块使用Velocity条件控制、循环语法进行控制输出,形成数据格式模板;
       S2.4:将步骤S2.3中的编写的模板首行之前增加额外一行头信息,该部分按顺序用“,”号分割,包含如下顺序的信息;
数据模型文件hdfs地址;
数据模型加载类名称全路径;
数据格式规则加载类全路径;
S2.5:将步骤S2.4中的编写的模板保存在hdfs上。
4.根据权利要求3所述电力行业大数据动态文本交换格式管理方法,其特征在于:步骤S2.1中数据交换格式根据使用者对数据交换格式的实际需求,将数据交换格式定义为xml、json、csv等行业标准格式或定义成非标准格式。
5.根据权利要求1所述电力行业大数据动态文本交换格式管理方法,其特征在于:
所述步骤3利用Java语言编写数据模型加载类以及数据格式规则加载类两个类,包括以下子步骤:
        S3.1:编写数据模型加载类,该类包含的功能特征是:
        1)读取hdfs文件系统上的数据模型文件;
        2)遍历数据模型列式结构;
        3)生成用于填充数据规则模板的Java数据对象模型;
        S3.2:数据格式规则加载类,该类包含的功能特征是:
        1)读取hdfs数据格式规则模板文件;
        2)解析数据格式规则模板,将头信息以及数据格式信息分离;
        3)生成头信息Java对象;
4)生成数据格式模板的Java映射对象。
6.根据权利要求1所述电力行业大数据动态文本交换格式管理方法,其特征在于:
所述步骤4包括以下子步骤:
        S4.1:根据步骤3的输出的Java数据对象、头信息Java对象、数据格式模板Java映射对象做为数据驱动类的输入参数传入数据驱动类;
        S4.2:根据步骤S4.1数据驱动类将组合并整理以上输入参数形成统一的Java数据对象模型以及模板文件描述对象;
        S4.3:数据驱动类调用Velocity模板引擎的相应模板生成方法,生成最终符合需求的数据结构文本;
S4.4:数据驱动类输出的结果可以根据需求放置于hdfs、数据库、本地文件系统上,也可以作为输入源直接输出至下一个MapReduce任务、Spark任务、Storm流任务中去。
CN201510401443.6A 2015-07-10 2015-07-10 一种电力行业大数据动态文本交换格式管理方法 Pending CN104992379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510401443.6A CN104992379A (zh) 2015-07-10 2015-07-10 一种电力行业大数据动态文本交换格式管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510401443.6A CN104992379A (zh) 2015-07-10 2015-07-10 一种电力行业大数据动态文本交换格式管理方法

Publications (1)

Publication Number Publication Date
CN104992379A true CN104992379A (zh) 2015-10-21

Family

ID=54304187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510401443.6A Pending CN104992379A (zh) 2015-07-10 2015-07-10 一种电力行业大数据动态文本交换格式管理方法

Country Status (1)

Country Link
CN (1) CN104992379A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843899A (zh) * 2016-03-23 2016-08-10 炫彩互动网络科技有限公司 一种可简化编程的大数据自动化解析方法及系统
CN105956932A (zh) * 2016-04-29 2016-09-21 中国南方电网有限责任公司电网技术研究中心 配用电数据融合方法和系统
CN106708791A (zh) * 2017-01-04 2017-05-24 竹间智能科技(上海)有限公司 数据格式转换方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843899A (zh) * 2016-03-23 2016-08-10 炫彩互动网络科技有限公司 一种可简化编程的大数据自动化解析方法及系统
CN105956932A (zh) * 2016-04-29 2016-09-21 中国南方电网有限责任公司电网技术研究中心 配用电数据融合方法和系统
CN106708791A (zh) * 2017-01-04 2017-05-24 竹间智能科技(上海)有限公司 数据格式转换方法及装置
CN106708791B (zh) * 2017-01-04 2020-03-17 竹间智能科技(上海)有限公司 数据格式转换方法及装置

Similar Documents

Publication Publication Date Title
CN108885545B (zh) 用于实时数据流编程语言的工具和方法
CN109710215B (zh) 分布式流计算的可视化流程处理引擎及其使用方法
CN108351636B (zh) 工程设计工具、系统及模块
CN102541521B (zh) 基于结构化查询语言的操作指令自动生成装置及方法
CN104778124A (zh) 一种软件应用自动化测试方法
US9405518B2 (en) Leveraging legacy applications for use with modern applications
CN104932905A (zh) 一种aadl到c语言的代码自动生成方法
CN102289593A (zh) 多学科虚拟实验交互式仿真解算系统
CN102945287A (zh) Jsp数据自动分页jstl标签技术及应用
CN104992379A (zh) 一种电力行业大数据动态文本交换格式管理方法
CN108153522B (zh) 基于模型转换由midcore生成Spark和Hadoop程序代码的方法
CN102789450A (zh) 基于规则的可定义式语义解析系统及方法
CN112464620A (zh) 一种财务规则引擎的实现方法及实现系统
CN113806429A (zh) 基于大数据流处理框架的画布式日志分析方法
CN102707934B (zh) 一种以脚本形式表示增值业务流程的实现方法和系统
CN110334001A (zh) 一种批量自动生成回声测试的方法和装置
CN103051728A (zh) 一种远程过程调用方法
CN109885493A (zh) 一种基于Android平台和Java反射的自动化混合框架
CN113553055A (zh) 一种基于机器学习的可视化图表代码自动生成方法
CN103677841A (zh) 基于元素级模板的ietm的代码生成方法及装置
CN106681781A (zh) 实时计算业务的实现方法和系统
CN115202663A (zh) 一种数据处理方法、装置和存储介质
CN112199626A (zh) 基于dsl布局引擎的动态表单生成方法
CN109960590A (zh) 一种优化嵌入式系统诊断打印的方法
CN112417844A (zh) 一种并行的cim/e文件结构化解析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
CB03 Change of inventor or designer information

Inventor after: Huang Liya

Inventor after: Zhu Zhou

Inventor after: Wu Yang

Inventor after: Wang Wei

Inventor after: Luo Nianhua

Inventor after: Ma Yanjie

Inventor after: Ma Mingjian

Inventor after: Wang Peng

Inventor before: Li Fei

Inventor before: Chen Chaoyin

Inventor before: Zhang Xiang

Inventor before: Yan Zhengteng

Inventor before: Yang Jian

Inventor before: Wang Peng

Inventor before: Zhou Yongji

COR Change of bibliographic data
TA01 Transfer of patent application right

Effective date of registration: 20151112

Address after: 550002 Guizhou Province, Guiyang city Nanming District Xinhua Road grand Vista C building 703

Applicant after: INFORMATION & COMMUNICATION BRANCH OF GUIZHOU GRID COMPANY

Applicant after: GUIZHOU GUANGSI INFORMATION NETWORK CO., LTD.

Address before: 550002 Guizhou Province, Guiyang city Nanming District Xinhua Road grand Vista C building 703

Applicant before: GUIZHOU GUANGSI INFORMATION NETWORK CO., LTD.

RJ01 Rejection of invention patent application after publication

Application publication date: 20151021

RJ01 Rejection of invention patent application after publication