CN109977091A

CN109977091A - 一种分布式计算和存储系统

Info

Publication number: CN109977091A
Application number: CN201910138405.4A
Authority: CN
Inventors: 代湘蓉; 王永军; 杨爱冰; 欧家祥; 吴才远; 安江; 宋强; 杨婧; 林晓庆; 付卿卿; 余飞娅; 唐贤敏; 石云辉; 陈泰屹; 杨秀江
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2019-07-05

Abstract

本发明涉及一种分布式计算和存储系统，属于计算机领域。包括分布式计算子系统和分布式存储子系统；分布式计算子系统包括运行框架I、核心应用和管理控制台；分布式存储子系统包括运行框架II和数据部分；运行框架II为Hadoop框架，实现采集数据的分布式存储，以及存储节点横行线性扩展；数据部分包括业务数据、平台基础数据和非结构化文件数据。本发明能够对电量、负荷、终端状态等业务数据进行批处理计算，且数据计算服务的性能要有一定的保证，在满足业务需求的情况下，通过基于分布式计算技术，搭建分布式存储与分布式计算环境，满足计量自动化系统业务需求，保证后台数据计算准确性、实时性。

Description

一种分布式计算和存储系统

技术领域

本发明属于计算机领域，涉及一种分布式计算和存储系统。

背景技术

计量自动化系统支持业务数据的统计和分析功能，包括考核单元线损计算、电量和负荷计算、终端采集成功率统计、终端在线率统计、采集数据异常分析、停电时间管理统计等。为支持这部分功能，后台数据计算服务需要对电量、负荷、终端状态等业务数据进行批处理计算，数据计算服务的性能要有一定的保证。

发明内容

有鉴于此，本发明基于分布式相关存储和计算技术，搭建分布式环境下的计量自动化系统，以满足计量自动化系统业务需求。

本发明的目的是通过以下技术方案实现的：。

一种分布式计算和存储系统，包括分布式计算子系统和分布式存储子系统；

所述分布式计算子系统包括运行框架I、核心应用和管理控制台；

所述运行框架I为Hadoop框架，为分布式计算框架Mapreduce、内存计算Spark提供运行支撑，包括运行时容器、抽象接口框架、监控框架、拦截器、运行参数管理和公共基础库；业务计算组件由运行框架管理生命周期，通过运行框架加载并运行；

所述核心应用包括集成封装、核心服务、服务组件和服务访问代理；

所述业务应用包括离线计算应用、海量数据查询应用、在线计算应用；

所述分布式存储子系统包括运行框架II和数据部分；

所述运行框架II为Hadoop框架，实现采集数据的分布式存储，以及存储节点横行线性扩展；

所述数据部分包括业务数据、平台基础数据和非结构化文件数据。

进一步，所述集成封装是基于分布式计算环境框架进行封装，形成一套底层交互api，包括：sqoop、impala、hbase、mapreduce、spark和hdfs交互API；

所述核心服务是基于集成封装API实现，提供核心平台服务，包括启动引导、参数及配置管理、接口框架、任务调度、访问权限控制和公共基础库基础功能；

所述服务组件负责部署计量自动化系统的各类计算任务组件，根据计算业务特点，分为数据导入服务组件、文件操作、数据计算任务服务组件和查询服务组件，各服务组件由服务代理层通过Socket、Webservice和RESTful交互方式供管理控制台调用。

所述管理控制台为平台核心应用提供管理控制界面，通过管理控制台提供的界面操作功能，监控平台核心中各组件的运行情况，且支持外部数据人工导入、人工任务调度和文件管理功能。

进一步，所述业务数据包括采集数据、档案数据和计算数据，均从计量自动化生产库数据源中同步过来。

进一步，所述平台基础数据包括元数据和平台支撑数据；其中，

元数据是分布式数据存储环境运行时所需的各种基础数据；

平台支撑数据是支撑分布式数据存储环境功能运行的配置数据。

进一步，所述非结构化文件数据为文件类型数据，包括原始报文和日志文件。

进一步，所述离线计算应用通过集成封装的API对Spark提出Spark SQL请求，通过RDD Partion就近读取分布式文件系统中的数据块到各个节点内存中进行计算，对数据统计进行分级汇总统计，对于统计过程中产生的轻度汇总及明细数据进行保存，将计算结果保存到分布式数据存储和生产数据块中。

进一步，所述在线计算应用采用Redis和SparkStreaming技术，实现采集数据的实时分析与数据计算，包括计量点实时负荷叠加、计量点实时电量叠加。

进一步，所述海量数据查询应用采用Spark内存并行计算技术，结合Hadoop框架中HDFS的分布式存储结构实现，提供高效的数据查询服务。

本发明的有益效果是：本发明能够对电量、负荷、终端状态等业务数据进行批处理计算，且数据计算服务的性能要有一定的保证，在满足业务需求的情况下，通过基于分布式计算技术，搭建分布式存储与分布式计算环境，满足计量自动化系统业务需求，保证后台数据计算准确性、实时性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1是一种分布式计算和存储系统流程图。

图2是分布式数据存储环境设计图。

图3是分布式计算环境的技术逻辑架构图。

图4是数据计算功能实现逻辑架构图。

图5是海量数据查询功能设计图。

具体实施方式

以下将参照附图，对本发明的优选实施例进行详细的描述。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

如图1所示，一种分布式计算和存储系统分为外部数据源、分布式存储环境和业务应用。分布式存储环境中的采集数据、档案数据、非结构化文件通过从外部数据源中获取并存储在平台中。结构化数据中的采集数据通过采集通道写入分布式存储环境，档案数据通过Sqoop技术定时写入分布式存储环境中，原始报文数据和系统日志数据通过API接口定时写入分布式环境的非结构化文件中。采集数据做分析计算后，生成计算结果存储为业务数据，供外部访问或通过API接口提供给外部系统应用。元数据和平台基本数据为分布式存储环境使用，属于平台运行过程中所需的基础配置数据。

如图2所示，分布式存储采用Hadoop框架，实现采集数据的分布式存储，实现存储节点横行线性扩展。分布式存储环境中的数据分为业务数据、平台基础数据和非结构化文件数据三大类型。业务数据包括采集数据、档案数据、计算数据。业务数据从计量自动化生产库数据源中同步过来。平台基础数据包括元数据、平台支撑数据。元数据为分布式数据存储环境运行时所需的各种基础数据；平台支撑数据为支撑分布式数据存储环境功能运行的配置数据。非结构化文件数据主要为文件类型数据，如采集原始报文、日志文件等。

如图3所示，分布式计算环境由运行框架、核心应用、管理控制台应用三部分组成。运行框架基于Hadoop架构进行搭建，为Mapreduce(分布式计算框架)、Spark(内存计算)提供运行支撑，包括运行时容器、抽象接口框架、监控框架、拦截器、运行参数管理、公共基础库等。业务计算组件由运行框架管理生命周期，通过运行框架加载并运行。核心应用服务层包括集成封装、核心服务、服务组件、服务访问代理等4个部分：集成封装是基于分布式计算环境框架进行封装，形成一套底层交互api，包括：sqoop、impala、hbase、mapreduce、spark、hdfs等交互API；核心应用框架基于集成封装API实现，提供核心平台服务，包括启动引导、参数及配置管理、接口框架、任务调度、访问权限控制、公共基础库等基础功能；服务组件部署计量自动化系统的各类计算任务组件，根据计算业务特点，又分为数据导入服务组件、文件操作、数据计算任务服务组件和查询服务组件，各服务组件由服务代理层通过Socket、Webservice、RESTful等交互方式供管理控制台调用。平台管理控制应用为平台核心应用提供管理控制界面，通过管理控制台提供的界面操作功能，监控平台核心中各组件的运行情况，且支持外部数据人工导入、人工任务调度和文件管理等功能。

如图4所示，本系统通过API对SPARK提出SPARK SQL请求，通过RDD Partition就近读取分布式文件系统中的数据块到各个节点内存中进行计算，对数据统计进行分级汇总统计，对于统计过程中产生的轻度汇总及明细数据进行保存，将计算结果保存到分布式数据存储和生产数据库中。本系统支持以下计算任务应用场景，计算任务的功能清单如表1所示。

表1详细场景的功能清单

特别地，对于在线计算服务(缓存计算)，本系统采用Redis+SparkStreaming技术搭建基于内存的在线计算服务，在线计算服务主要用来实现采集数据的实时分析与数据计算，包括计量点实时负荷叠加、计量点实时电量叠加等实时性较强的业务。此外，在线计算服务通过订阅停复电事件，实现按供电单位、台区、线路、区域的停电统计，以便于管理人员能够即时分析停电范围。同样也适用于复电情况的实时监控与统计。对于采集故障以及采集异常的及时统计分析，也同样适用于流式计算服务的应用，能够辅助采集运维管理人员实时监控管理单位、线路、台区的采集异常及采集故障情况，结合可视化展现技术，一目了然的实时掌控采集故障的分布情况，及时采取措施启动现场维护工作。

如图5所示，本系统的海量查询通过SPARK内存并行计算技术，结合HADOOP框架中HDFS的分布式存储结构实现，提供高效的数据查询服务。当前端查询功能提交查询请求时，基于SPARK技术的分布式查询API提出SPARK SQL请求，通过RDD Partition就近读取分布式文件系统中的数据块到各个节点内存中进行查询计算，并提供Cache机制来支持多次迭代计算或者数据共享，大大减少迭代计算之间读取数据的开销，对于需要进行多次迭代的数据分析性能有很大提升。同时分布在一组节点中的只读对象的内存集合，同时集合是弹性的，如果数据集一部分丢失，则可以根据“血统”对它们进行重建，保证了数据的高容错性。系统提供以下海量数据查询应用功能，详细功能清单如表2所示。

表2详细场景的功能清单

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种分布式计算和存储系统，其特征在于：包括分布式计算子系统和分布式存储子系统；

所述分布式存储子系统包括运行框架II和数据部分；

2.根据权利要求1所述的一种分布式计算和存储系统，其特征在于：所述集成封装是基于分布式计算环境框架进行封装，形成一套底层交互api，包括：sqoop、impala、hbase、mapreduce、spark和hdfs交互API；

3.根据权利要求1所述的一种分布式计算和存储系统，其特征在于：所述业务数据包括采集数据、档案数据和计算数据，均从计量自动化生产库数据源中同步过来。

4.根据权利要求3所述的一种分布式计算和存储系统，其特征在于：所述平台基础数据包括元数据和平台支撑数据；其中，

元数据是分布式数据存储环境运行时所需的各种基础数据；

5.根据权利要求4所述的一种分布式计算和存储系统，其特征在于：所述非结构化文件数据为文件类型数据，包括原始报文和日志文件。

6.根据权利要求1所述的一种分布式计算和存储系统，其特征在于：所述离线计算应用通过集成封装的API对Spark提出Spark SQL请求，通过RDD Partion就近读取分布式文件系统中的数据块到各个节点内存中进行计算，对数据统计进行分级汇总统计，对于统计过程中产生的轻度汇总及明细数据进行保存，将计算结果保存到分布式数据存储和生产数据块中。

7.根据权利要求6所述的一种分布式计算和存储系统，其特征在于：所述在线计算应用采用Redis和SparkStreaming技术，实现采集数据的实时分析与数据计算，包括计量点实时负荷叠加、计量点实时电量叠加。

8.根据权利要求7所述的一种分布式计算和存储系统，其特征在于：所述海量数据查询应用采用Spark内存并行计算技术，结合Hadoop框架中HDFS的分布式存储结构实现，提供高效的数据查询服务。