CN109977091A - 一种分布式计算和存储系统 - Google Patents

一种分布式计算和存储系统 Download PDF

Info

Publication number
CN109977091A
CN109977091A CN201910138405.4A CN201910138405A CN109977091A CN 109977091 A CN109977091 A CN 109977091A CN 201910138405 A CN201910138405 A CN 201910138405A CN 109977091 A CN109977091 A CN 109977091A
Authority
CN
China
Prior art keywords
data
distributed computing
distributed
frame
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910138405.4A
Other languages
English (en)
Inventor
代湘蓉
王永军
杨爱冰
欧家祥
吴才远
安江
宋强
杨婧
林晓庆
付卿卿
余飞娅
唐贤敏
石云辉
陈泰屹
杨秀江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN201910138405.4A priority Critical patent/CN109977091A/zh
Publication of CN109977091A publication Critical patent/CN109977091A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种分布式计算和存储系统,属于计算机领域。包括分布式计算子系统和分布式存储子系统;分布式计算子系统包括运行框架I、核心应用和管理控制台;分布式存储子系统包括运行框架II和数据部分;运行框架II为Hadoop框架,实现采集数据的分布式存储,以及存储节点横行线性扩展;数据部分包括业务数据、平台基础数据和非结构化文件数据。本发明能够对电量、负荷、终端状态等业务数据进行批处理计算,且数据计算服务的性能要有一定的保证,在满足业务需求的情况下,通过基于分布式计算技术,搭建分布式存储与分布式计算环境,满足计量自动化系统业务需求,保证后台数据计算准确性、实时性。

Description

一种分布式计算和存储系统
技术领域
本发明属于计算机领域,涉及一种分布式计算和存储系统。
背景技术
计量自动化系统支持业务数据的统计和分析功能,包括考核单元线损计算、电量和负荷计算、终端采集成功率统计、终端在线率统计、采集数据异常分析、停电时间管理统计等。为支持这部分功能,后台数据计算服务需要对电量、负荷、终端状态等业务数据进行批处理计算,数据计算服务的性能要有一定的保证。
发明内容
有鉴于此,本发明基于分布式相关存储和计算技术,搭建分布式环境下的计量自动化系统,以满足计量自动化系统业务需求。
本发明的目的是通过以下技术方案实现的:。
一种分布式计算和存储系统,包括分布式计算子系统和分布式存储子系统;
所述分布式计算子系统包括运行框架I、核心应用和管理控制台;
所述运行框架I为Hadoop框架,为分布式计算框架Mapreduce、内存计算Spark提供运行支撑,包括运行时容器、抽象接口框架、监控框架、拦截器、运行参数管理和公共基础库;业务计算组件由运行框架管理生命周期,通过运行框架加载并运行;
所述核心应用包括集成封装、核心服务、服务组件和服务访问代理;
所述业务应用包括离线计算应用、海量数据查询应用、在线计算应用;
所述分布式存储子系统包括运行框架II和数据部分;
所述运行框架II为Hadoop框架,实现采集数据的分布式存储,以及存储节点横行线性扩展;
所述数据部分包括业务数据、平台基础数据和非结构化文件数据。
进一步,所述集成封装是基于分布式计算环境框架进行封装,形成一套底层交互api,包括:sqoop、impala、hbase、mapreduce、spark和hdfs交互API;
所述核心服务是基于集成封装API实现,提供核心平台服务,包括启动引导、参数及配置管理、接口框架、任务调度、访问权限控制和公共基础库基础功能;
所述服务组件负责部署计量自动化系统的各类计算任务组件,根据计算业务特点,分为数据导入服务组件、文件操作、数据计算任务服务组件和查询服务组件,各服务组件由服务代理层通过Socket、Webservice和RESTful交互方式供管理控制台调用。
所述管理控制台为平台核心应用提供管理控制界面,通过管理控制台提供的界面操作功能,监控平台核心中各组件的运行情况,且支持外部数据人工导入、人工任务调度和文件管理功能。
进一步,所述业务数据包括采集数据、档案数据和计算数据,均从计量自动化生产库数据源中同步过来。
进一步,所述平台基础数据包括元数据和平台支撑数据;其中,
元数据是分布式数据存储环境运行时所需的各种基础数据;
平台支撑数据是支撑分布式数据存储环境功能运行的配置数据。
进一步,所述非结构化文件数据为文件类型数据,包括原始报文和日志文件。
进一步,所述离线计算应用通过集成封装的API对Spark提出Spark SQL请求,通过RDD Partion就近读取分布式文件系统中的数据块到各个节点内存中进行计算,对数据统计进行分级汇总统计,对于统计过程中产生的轻度汇总及明细数据进行保存,将计算结果保存到分布式数据存储和生产数据块中。
进一步,所述在线计算应用采用Redis和SparkStreaming技术,实现采集数据的实时分析与数据计算,包括计量点实时负荷叠加、计量点实时电量叠加。
进一步,所述海量数据查询应用采用Spark内存并行计算技术,结合Hadoop框架中HDFS的分布式存储结构实现,提供高效的数据查询服务。
本发明的有益效果是:本发明能够对电量、负荷、终端状态等业务数据进行批处理计算,且数据计算服务的性能要有一定的保证,在满足业务需求的情况下,通过基于分布式计算技术,搭建分布式存储与分布式计算环境,满足计量自动化系统业务需求,保证后台数据计算准确性、实时性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1是一种分布式计算和存储系统流程图。
图2是分布式数据存储环境设计图。
图3是分布式计算环境的技术逻辑架构图。
图4是数据计算功能实现逻辑架构图。
图5是海量数据查询功能设计图。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
如图1所示,一种分布式计算和存储系统分为外部数据源、分布式存储环境和业务应用。分布式存储环境中的采集数据、档案数据、非结构化文件通过从外部数据源中获取并存储在平台中。结构化数据中的采集数据通过采集通道写入分布式存储环境,档案数据通过Sqoop技术定时写入分布式存储环境中,原始报文数据和系统日志数据通过API接口定时写入分布式环境的非结构化文件中。采集数据做分析计算后,生成计算结果存储为业务数据,供外部访问或通过API接口提供给外部系统应用。元数据和平台基本数据为分布式存储环境使用,属于平台运行过程中所需的基础配置数据。
如图2所示,分布式存储采用Hadoop框架,实现采集数据的分布式存储,实现存储节点横行线性扩展。分布式存储环境中的数据分为业务数据、平台基础数据和非结构化文件数据三大类型。业务数据包括采集数据、档案数据、计算数据。业务数据从计量自动化生产库数据源中同步过来。平台基础数据包括元数据、平台支撑数据。元数据为分布式数据存储环境运行时所需的各种基础数据;平台支撑数据为支撑分布式数据存储环境功能运行的配置数据。非结构化文件数据主要为文件类型数据,如采集原始报文、日志文件等。
如图3所示,分布式计算环境由运行框架、核心应用、管理控制台应用三部分组成。运行框架基于Hadoop架构进行搭建,为Mapreduce(分布式计算框架)、Spark(内存计算)提供运行支撑,包括运行时容器、抽象接口框架、监控框架、拦截器、运行参数管理、公共基础库等。业务计算组件由运行框架管理生命周期,通过运行框架加载并运行。核心应用服务层包括集成封装、核心服务、服务组件、服务访问代理等4个部分:集成封装是基于分布式计算环境框架进行封装,形成一套底层交互api,包括:sqoop、impala、hbase、mapreduce、spark、hdfs等交互API;核心应用框架基于集成封装API实现,提供核心平台服务,包括启动引导、参数及配置管理、接口框架、任务调度、访问权限控制、公共基础库等基础功能;服务组件部署计量自动化系统的各类计算任务组件,根据计算业务特点,又分为数据导入服务组件、文件操作、数据计算任务服务组件和查询服务组件,各服务组件由服务代理层通过Socket、Webservice、RESTful等交互方式供管理控制台调用。平台管理控制应用为平台核心应用提供管理控制界面,通过管理控制台提供的界面操作功能,监控平台核心中各组件的运行情况,且支持外部数据人工导入、人工任务调度和文件管理等功能。
如图4所示,本系统通过API对SPARK提出SPARK SQL请求,通过RDD Partition就近读取分布式文件系统中的数据块到各个节点内存中进行计算,对数据统计进行分级汇总统计,对于统计过程中产生的轻度汇总及明细数据进行保存,将计算结果保存到分布式数据存储和生产数据库中。本系统支持以下计算任务应用场景,计算任务的功能清单如表1所示。
表1详细场景的功能清单
特别地,对于在线计算服务(缓存计算),本系统采用Redis+SparkStreaming技术搭建基于内存的在线计算服务,在线计算服务主要用来实现采集数据的实时分析与数据计算,包括计量点实时负荷叠加、计量点实时电量叠加等实时性较强的业务。此外,在线计算服务通过订阅停复电事件,实现按供电单位、台区、线路、区域的停电统计,以便于管理人员能够即时分析停电范围。同样也适用于复电情况的实时监控与统计。对于采集故障以及采集异常的及时统计分析,也同样适用于流式计算服务的应用,能够辅助采集运维管理人员实时监控管理单位、线路、台区的采集异常及采集故障情况,结合可视化展现技术,一目了然的实时掌控采集故障的分布情况,及时采取措施启动现场维护工作。
如图5所示,本系统的海量查询通过SPARK内存并行计算技术,结合HADOOP框架中HDFS的分布式存储结构实现,提供高效的数据查询服务。当前端查询功能提交查询请求时,基于SPARK技术的分布式查询API提出SPARK SQL请求,通过RDD Partition就近读取分布式文件系统中的数据块到各个节点内存中进行查询计算,并提供Cache机制来支持多次迭代计算或者数据共享,大大减少迭代计算之间读取数据的开销,对于需要进行多次迭代的数据分析性能有很大提升。同时分布在一组节点中的只读对象的内存集合,同时集合是弹性的,如果数据集一部分丢失,则可以根据“血统”对它们进行重建,保证了数据的高容错性。系统提供以下海量数据查询应用功能,详细功能清单如表2所示。
表2详细场景的功能清单
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种分布式计算和存储系统,其特征在于:包括分布式计算子系统和分布式存储子系统;
所述分布式计算子系统包括运行框架I、核心应用和管理控制台;
所述运行框架I为Hadoop框架,为分布式计算框架Mapreduce、内存计算Spark提供运行支撑,包括运行时容器、抽象接口框架、监控框架、拦截器、运行参数管理和公共基础库;业务计算组件由运行框架管理生命周期,通过运行框架加载并运行;
所述核心应用包括集成封装、核心服务、服务组件和服务访问代理;
所述业务应用包括离线计算应用、海量数据查询应用、在线计算应用;
所述分布式存储子系统包括运行框架II和数据部分;
所述运行框架II为Hadoop框架,实现采集数据的分布式存储,以及存储节点横行线性扩展;
所述数据部分包括业务数据、平台基础数据和非结构化文件数据。
2.根据权利要求1所述的一种分布式计算和存储系统,其特征在于:所述集成封装是基于分布式计算环境框架进行封装,形成一套底层交互api,包括:sqoop、impala、hbase、mapreduce、spark和hdfs交互API;
所述核心服务是基于集成封装API实现,提供核心平台服务,包括启动引导、参数及配置管理、接口框架、任务调度、访问权限控制和公共基础库基础功能;
所述服务组件负责部署计量自动化系统的各类计算任务组件,根据计算业务特点,分为数据导入服务组件、文件操作、数据计算任务服务组件和查询服务组件,各服务组件由服务代理层通过Socket、Webservice和RESTful交互方式供管理控制台调用。
所述管理控制台为平台核心应用提供管理控制界面,通过管理控制台提供的界面操作功能,监控平台核心中各组件的运行情况,且支持外部数据人工导入、人工任务调度和文件管理功能。
3.根据权利要求1所述的一种分布式计算和存储系统,其特征在于:所述业务数据包括采集数据、档案数据和计算数据,均从计量自动化生产库数据源中同步过来。
4.根据权利要求3所述的一种分布式计算和存储系统,其特征在于:所述平台基础数据包括元数据和平台支撑数据;其中,
元数据是分布式数据存储环境运行时所需的各种基础数据;
平台支撑数据是支撑分布式数据存储环境功能运行的配置数据。
5.根据权利要求4所述的一种分布式计算和存储系统,其特征在于:所述非结构化文件数据为文件类型数据,包括原始报文和日志文件。
6.根据权利要求1所述的一种分布式计算和存储系统,其特征在于:所述离线计算应用通过集成封装的API对Spark提出Spark SQL请求,通过RDD Partion就近读取分布式文件系统中的数据块到各个节点内存中进行计算,对数据统计进行分级汇总统计,对于统计过程中产生的轻度汇总及明细数据进行保存,将计算结果保存到分布式数据存储和生产数据块中。
7.根据权利要求6所述的一种分布式计算和存储系统,其特征在于:所述在线计算应用采用Redis和SparkStreaming技术,实现采集数据的实时分析与数据计算,包括计量点实时负荷叠加、计量点实时电量叠加。
8.根据权利要求7所述的一种分布式计算和存储系统,其特征在于:所述海量数据查询应用采用Spark内存并行计算技术,结合Hadoop框架中HDFS的分布式存储结构实现,提供高效的数据查询服务。
CN201910138405.4A 2019-02-25 2019-02-25 一种分布式计算和存储系统 Pending CN109977091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910138405.4A CN109977091A (zh) 2019-02-25 2019-02-25 一种分布式计算和存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910138405.4A CN109977091A (zh) 2019-02-25 2019-02-25 一种分布式计算和存储系统

Publications (1)

Publication Number Publication Date
CN109977091A true CN109977091A (zh) 2019-07-05

Family

ID=67077231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910138405.4A Pending CN109977091A (zh) 2019-02-25 2019-02-25 一种分布式计算和存储系统

Country Status (1)

Country Link
CN (1) CN109977091A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727715A (zh) * 2019-10-22 2020-01-24 南方电网科学研究院有限责任公司 基于高可靠性的电力用户日电量计算方法
CN110764747A (zh) * 2019-10-22 2020-02-07 南方电网科学研究院有限责任公司 基于Airflow的数据计算调度方法
CN110781224A (zh) * 2019-10-22 2020-02-11 南方电网科学研究院有限责任公司 基于电力大数据的数据监视方法
CN112348208A (zh) * 2020-10-13 2021-02-09 贵州电网有限责任公司 一种计量采集关键业务全链路监测系统及方法
CN113238283A (zh) * 2021-05-10 2021-08-10 南京大学 一种基于分布式并进计算框架的逆时偏移成像方法
CN114579604A (zh) * 2022-03-15 2022-06-03 北京梦诚科技有限公司 一种应用层的数据库事务实现方法和系统
CN110543296B (zh) * 2019-08-26 2023-10-13 成都市知用科技有限公司 一种智慧校园微服务平台架构体系

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326331A (zh) * 2016-06-29 2017-01-11 河南许继仪表有限公司 一种基于云计算的智能用电数据服务系统
CN107341205A (zh) * 2017-06-23 2017-11-10 国网上海市电力公司 一种基于大数据平台的智能配用电系统
CN107832876A (zh) * 2017-10-27 2018-03-23 国网江苏省电力公司南通供电公司 基于MapReduce框架的分区最大负荷预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326331A (zh) * 2016-06-29 2017-01-11 河南许继仪表有限公司 一种基于云计算的智能用电数据服务系统
CN107341205A (zh) * 2017-06-23 2017-11-10 国网上海市电力公司 一种基于大数据平台的智能配用电系统
CN107832876A (zh) * 2017-10-27 2018-03-23 国网江苏省电力公司南通供电公司 基于MapReduce框架的分区最大负荷预测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543296B (zh) * 2019-08-26 2023-10-13 成都市知用科技有限公司 一种智慧校园微服务平台架构体系
CN110727715A (zh) * 2019-10-22 2020-01-24 南方电网科学研究院有限责任公司 基于高可靠性的电力用户日电量计算方法
CN110764747A (zh) * 2019-10-22 2020-02-07 南方电网科学研究院有限责任公司 基于Airflow的数据计算调度方法
CN110781224A (zh) * 2019-10-22 2020-02-11 南方电网科学研究院有限责任公司 基于电力大数据的数据监视方法
CN112348208A (zh) * 2020-10-13 2021-02-09 贵州电网有限责任公司 一种计量采集关键业务全链路监测系统及方法
CN113238283A (zh) * 2021-05-10 2021-08-10 南京大学 一种基于分布式并进计算框架的逆时偏移成像方法
CN114579604A (zh) * 2022-03-15 2022-06-03 北京梦诚科技有限公司 一种应用层的数据库事务实现方法和系统
CN114579604B (zh) * 2022-03-15 2022-09-20 北京梦诚科技有限公司 一种应用层的数据库事务实现方法和系统

Similar Documents

Publication Publication Date Title
CN109977091A (zh) 一种分布式计算和存储系统
CN105224445B (zh) 分布式跟踪系统
US7962440B2 (en) Adaptive industrial systems via embedded historian data
CN106126641A (zh) 一种基于Spark的实时推荐系统及方法
CN111077870A (zh) 一种基于流计算的opc数据实时采集监控智能系统及方法
US20170131757A1 (en) Real-time data management for a power grid
CN107256443A (zh) 基于业务和数据集成的线损实时计算方法
CN101354758A (zh) 整合实时数据和关系数据的系统和方法
US20090083204A1 (en) Historians embedded in industrial units
US7672740B1 (en) Conditional download of data from embedded historians
CN103677759B (zh) 一种用于信息系统性能提升的对象化并行计算方法及系统
CN109885617A (zh) 分布式异构数据库系统的数据同步方法及装置
CN109325008A (zh) 面向消息中间件的跨域数据同步方法与系统
CN1763774A (zh) 一种流程工业可视化生产工艺流程描述的建模方法
CN108572612A (zh) 控制装置以及非易失性存储媒体
CN110209646A (zh) 一种基于实时流式计算的数据平台系统
CN102137125A (zh) 在分布式网络系统中处理跨任务数据的方法
CN108595605A (zh) 一种车联网平台数据库的构建方法
CN110209668A (zh) 基于流计算的维表关联方法、装置、设备及可读存储介质
US7974937B2 (en) Adaptive embedded historians with aggregator component
CN111724046B (zh) 一种购电管理系统
CN112559634A (zh) 一种基于计算机云计算大数据用数据管理系统
CN109669975A (zh) 一种工业大数据处理系统及方法
CN113094406A (zh) 一种电力营销数据治理方法以及系统
CN116340114A (zh) 一种流式处理日志告警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705

RJ01 Rejection of invention patent application after publication