CN111506660B - 一种热网实时数据仓系统 - Google Patents
一种热网实时数据仓系统 Download PDFInfo
- Publication number
- CN111506660B CN111506660B CN202010315921.2A CN202010315921A CN111506660B CN 111506660 B CN111506660 B CN 111506660B CN 202010315921 A CN202010315921 A CN 202010315921A CN 111506660 B CN111506660 B CN 111506660B
- Authority
- CN
- China
- Prior art keywords
- data
- real
- unit
- application
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种热网实时数据仓系统。该系统包括:数据接入模块、实时计算模块、大数据存储子系统和数据应用模块;数据接入模块用于将采集数据以标准格式进行分区存储;实时计算模块用于根据采集数据进行明细汇总和应用处理,并将汇总结果和应用处理结果输出至大数据存储子系统;明细汇总为将机组实时数据和相关维度数据进行关联的过程,应用处理为根据业务需求进行数据加工处理的过程;大数据存储子系统用于采用数据模型对实时计算模块输出的数据进行存储;数据应用模块用于根据对大数据存储子系统中存储的数据进行多维分析、人工智能应用或商业智能应用。本发明可以实现热网数据的整合,实现数据的标准化多维分析。
Description
技术领域
本发明涉及供热数据分析领域,特别是涉及一种热网实时数据仓系统。
背景技术
目前大多数通过不同业务系统进行供热领域的数据分析。然而通常业务系统是定制开发的,其只能满足某一方面的数据查询分析。随着大数据人工智能时代的来临,热网数据深入应用分析研判,此时存在以下问题:
数据基于单个系统的应用,存在数据孤岛现象;
海量热网数据以关系型数据存储为主,创新游离在NoSQL服务存储技术,存储瓶颈日益凸显,主流标准化方案摇摆不定;
缺乏数据标准化方案,数据处理手段都是粗放采用传统的工具技术;
没有针对供热领域的数仓-数据模型标准化设计;
没有标准化的、基于实时数据的多维分析方法。
因此,现有技术中热网数据为孤岛数据,无法进行标准化的多维分析。
发明内容
本发明的目的是提供一种热网实时数据仓系统,以实现热网数据的整合,实现数据的标准化多维分析。
为实现上述目的,本发明提供了如下方案:
一种热网实时数据仓系统,包括:数据接入模块、实时计算模块、大数据存储子系统和数据应用模块;所述数据接入模块的输入端与业务系统或热网终端的数据输出端连接,所述数据输入模块的输出端与所述实时计算模块的输入端连接,所述实时计算模块的输出端与所述大数据存储子系统的输入端连接,所述大数据存储子系统的输出端与所述数据应用模块的输入端连接;
所述数据接入模块用于将采集数据以标准格式进行分区存储;所述采集数据为从所述业务系统或所述热网终端上采集的数据,所述采集数据包括机组实时数据和相关维度数据;
所述实时计算模块用于根据所述采集数据进行明细汇总和应用处理,并将汇总结果和应用处理结果输出至所述大数据存储子系统;所述明细汇总为将所述机组实时数据和所述相关维度数据进行关联的过程,所述应用处理为根据业务需求进行数据加工处理的过程;
所述大数据存储子系统用于采用数据模型对所述实时计算模块输出的数据进行存储;
所述数据应用模块用于根据对所述大数据存储子系统中存储的数据进行多维分析、人工智能应用或商业智能应用。
可选的,所述数据接入模块包括:数据采集单元和消息队列服务单元;
所述数据采集单元用于将所述采集数据按照热网机组数据立方需求加工成标准格式,并将标准格式的数据上传至消息队列服务单元中对应的主题中;
所述消息队列服务单元用于按照时序采用随机存储方式将标准格式的采集数据存储至每个主题下的分区中。
可选的,所述数据采集单元以DataX同步工具为基础,结合热网数据读入插件和Kafka写数据插件,实现数据加工过程;
所述消息队列服务单元采用kafka技术组件实现主题创建和多分区存储过程。
可选的,所述实时计算模块包括:清洗单元、明细汇总单元和应用处理单元;
所述清洗单元用于按主题订阅所述数据接入模块中分区存储的数据,并进行数据清洗,得到用于大数据存储子系统的机组实时数据表和相关维度表;所述机组实时数据表用于存放机组实时数据主题下的数据,所述相关维度表用于存放相关维度主题下的数据,所述相关维度表包括热源表、换热站表、机组表和管理机构表;
所述明细汇总单元用于将所述机组实时数据表和所述相关维度表进行关联,得到用于大数据存储子系统的明细表;
所述应用处理单元用于根据所述机组实时数据表、所述相关维度表和所述明细表,结合业务需求进行应用分析,筛选符合应用条件的数据应用表。
可选的,所述大数据存储子系统包括:原始表模型、明细表模型和应用表模型;
所述原始表模型用于存储所述机组实时数据表和所述相关维度表;
所述明细表模型用于存储所述明细表;
所述应用表模型用于存储所述数据应用表。
可选的,所述大数据存储子系统采用Hadoop技术、HBase技术和MySQL技术,所述Haddop技术提供分布式文件系统和分布式资源管理方面的基础服务;所述HBase技术提供分布式列式存储;所述MYSQL技术提供数量有限的关系型数据存储。
可选的,所述数据应用模块包括:多维分析单元、人工智能应用单元或商业智能应用单元;
所述多维分析单元用于根据所述相关维度表和所述明细表,结合分析需求,确定联机分析处理操作,得到数据库查询分析结果;
所述人工智能应用单元用于根据所述机组实时数据表、所述相关维度表和所述明细表,采用人工智能算法进行应用分析,得到应用分析结果;
所述商业智能应用单元用于根据报表应用需求对所述大数据存储子系统中的数据表进行处理,得到网页格式的报表。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明的热网实时数据仓系统,通过建立热网数据立方体,可以分析整合分散的数据;以大数据技术为基础,可以解决数据存储和计算能力不足的问题。此外,应用最先进主流的实时计算框架,可以快速、高效定制数据流处理,为各种各样数据分析挖掘提供基础服务保障。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明热网实时数据仓系统的结构示意图;
图2为本发明热网实时数据仓系统的架构图;
图3为本发明实时计算模块的框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明热网实时数据仓系统的结构示意图,如图1所示,本发明热网实时数据仓系统包括:数据接入模块1、实时计算模块2、大数据存储子系统3和数据应用模块4。所述数据接入模块1的输入端与业务系统或热网终端的数据输出端连接,所述数据输入模块1的输出端与所述实时计算模块2的输入端连接,所述实时计算模块2的输出端与所述大数据存储子系统3的输入端连接,所述大数据存储子系统3的输出端与所述数据应用模块4的输入端连接。
所述数据接入模块1用于将采集数据以标准格式进行分区存储。所述采集数据为从所述业务系统或所述热网终端上采集的数据,所述采集数据包括机组实时数据和相关维度数据,相关网维度数据包括机组数据、换热站数据、热源数据和管理机构数据。
机组实时数据的核心字段包括:机组ID、采集时间、一次分支供温(℃)、一次分支瞬流(t/h)、二次瞬时流量(t/h)、二次供水温度(℃)、二次回水温度(℃)、二次供水压力(MPa)、二次回水压力(MPa)、二次累计流量(t)、二次累计热量(GJ)、二次瞬时热量(GJ/h)。
机组数据的核心字段包括:机组ID、所属换热站ID、所属气候模型类别、名称、出口管径、采暖类型、设计流量、建筑面积(㎡)、实际供热面积(㎡)、额外供热面积(㎡)、收费面积(㎡)。
换热站数据的核心字段包括:换热站ID、所属热源ID、所属行政机构ID、名称、换热类型、站类型、供热面积、建筑面积、收费面积、设计流量、海拔高度、经度、纬度。
管理机构数据的核心字段包括:机构ID、名称、供热面积。
所述数据接入模块1的作用是将采集数据按照热网机组数据立方需求加工成JSON格式,并将标准格式的数据按照时序随机存储到主题下的分区中。具体的,所述数据接入模块1包括以下结构:
数据采集单元,用于将所述采集数据按照热网机组数据立方需求加工成标准格式,并将标准格式的数据上传至消息队列服务单元中对应的主题中。
消息队列服务单元,用于按照时序采用随机存储方式将标准格式的采集数据存储至每个主题下的分区中。机组实时数据输出到消息队列服务的机组实时数据主题上,相关维度数据分别输出到对应维度数据主题上。具体的,机组实时数据表存放消息队列服务的机组实时数据主题下的数据,热源表存放消息队列服务的热源数据主题下的数据,换热站表存放消息队列服务的换热站数据主题下的数据,机组表存放消息队列服务的机组数据主题下的数据,管理机构表存放消息队列服务的管理机构数据主题下的数据。对于机组实时数据量较大情况,将机组实时数据的机组ID字段作为Key值,根据数据key值,将数据存放在对应的分区中,提高数据存取效率。消息队列服务单元为下游实时计算模块2提供基于主题的数据订阅。
所述实时计算模块2用于根据所述采集数据进行明细汇总和应用处理,并将汇总结果和应用处理结果输出至所述大数据存储子系统。所述明细汇总为将所述机组实时数据和所述相关维度数据进行关联的过程,所述应用处理为根据业务需求进行数据加工处理的过程。具体的,所述实时计算模块2包括以下结构:
清洗单元,用于按主题订阅所述数据接入模块中分区存储的数据,并进行数据清洗,得到用于大数据存储子系统的机组实时数据表和相关维度表。所述机组实时数据表用于存放机组实时数据主题下的数据,所述相关维度表用于存放相关维度主题下的数据,所述相关维度表包括热源表、换热站表、机组表和管理机构表。清洗单元根据需求从消息队列服务单元中订阅主题数据,然后清洗明显异常数据,并作相应的数据加工处理。
明细汇总单元,用于将所述机组实时数据表和所述相关维度表进行关联,输出到一个大宽表(包含相关查询字段的所有字段)中,避免列式存储数据关联缺陷,进而得到用于大数据存储子系统的明细表,从而提高查询效率。具体的,按机组实时数据的外键字段,关联机组、换热站、热源、机构数据,形成“关联宽表数据,即明细表。例如,where机组实时表.stationID=换热站维度表.stationID and换热站维度表.adminID=行政机构表.adminID and换热站维度表.powerId=热源表.powerID。
应用处理单元,用于根据所述机组实时数据表、所述相关维度表和所述明细表,结合业务需求进行应用分析,筛选符合应用条件的数据应用表。例如,在机组实时数据分析过程中涉及到报警数据分析,需要存储报警分析结果数据。此时,根据具体分析应用补充表(报警条件表),然后根据特地业务需求进一步加工处理。例如,机组实时数据的供回水温度数据,结合报警条件表信息(供水温度<50),将供水温度>=50的机组实时数据筛选出来。最后得到业务应用表-报警输出表,即符合应用条件的数据应用表。
所述大数据存储子系统3用于采用数据模型对所述实时计算模块输出的数据进行存储。所述大数据存储子系统3采用Hadoop\HBase\MySQL技术。Haddop提供HDFS(分布式文件系统)和Yarn(分布式资源管理),两个基础服务,HBASE提供了分布式列式存储,支持海量数据高效管理,传统的关系型MYSQL支持数量有限的关系型数据存储。数据存储方面,包括三类数据模型:
原始表模型:对应存放原始数据表(机组实时数据表和相关维度表)。将对应的kafka主题数据,去除空值、脏数据和超过极限范围的,存放到原始表中。
明细表(宽表)模型:对应存放基于主要热网业务数据的宽表。将机组实时数据表和相关维度表中的数据进行关联,存放到宽表中。
应用表模型:对应存放数据应用表。根据报表应用、AI应用及其他的数据化应用,通过实时计算加工处理,将结果数据存放到数据应用表中(数据量大的放在HBase中,小的保存到MYSQL中)。
所述数据应用模块4用于根据对所述大数据存储子系统中存储的数据进行多维分析、人工智能应用或商业智能应用。具体的,包括以下结构:
多维分析单元,用于根据所述相关维度表和所述明细表,结合分析需求,确定联机分析处理操作,得到数据库查询分析结果。
人工智能应用单元,用于根据所述机组实时数据表、所述相关维度表和所述明细表,采用人工智能算法进行应用分析,得到应用分析结果。
商业智能应用单元,用于根据报表应用需求对所述大数据存储子系统中的数据表进行处理,得到网页格式的报表。
图2为本发明热网实时数据仓系统的架构图,结合图1和图2对本发明的热网实时数据仓系统进一步进行说明。本发明热网实时数据仓系统包括:数据接入模块、实时计算模块、大数据存储子系统和数据应用模块。
1、数据接入模块
数据接入模块由数据采集和消息服务两个部分组成。实现数据采集、保存,并通过消息队列服务实现流式输出。
(1)数据采集
以阿里开源的DataX同步工具为基础,补充一些热网设备数据读入及消息队列写入插件,并通过程序对DataX操作做自动化管理,用于采集业务系统和热网终端设备数据。DataX是阿里被广泛使用的数据同步工具/平台,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。
DataX已经实现包括MySQL、SQL Server、OraclePostgreSQL、HDFS、Hive、HBase、OTS、ODPS等数据源同步的Reader和Writer插件,但根据数据同步具体情况,仍然需要补充一些Reader和Writer插件。
Data部署及使用:安装jdk和python;官网下载DataX工具;编译Datax定制化插件,并将编译后的插件放在DataX根目录下;创建并配置作业(Job)配置文件(XXX.json);启动数据同步作业。命令:python datax.py数据同步文件.json。
热网数据读入插件:按照DataX的插件编写规范,定制热网设备数据读入插件,用于接受供热网络通过集中器收集的设备数据。集中器数据上传按照TCP协议进行网络传输,按通信类型分为:客户端连接和服务监听,对应数据读取插件也分为两类:(1)服务器监听:用于接受采集器通过客户端连接发送的设备数据。(2)客户端连接:主动发起数据请求到PLC通信监听器上获取设备数据。
Kafka写数据插件:按照DataX的插件编写规范,定义Kafka写入插件,将按指定格式数据输入到消息队列中。
基于上述架构,本发明可以实现以下功能:
①自动化管理:上述DataX数据同步作业式通过手工命令的方式进行启动调用。为了实现自动化,通过界面收集用户数据同步作业的相关配置,形成json格式配置及作业调度计划,通过java的JSCH(Java Secure Channel)组件技术实现自动化调用,并将每次作业运行的相关信息及运行结果保存到关系型数据库表中。
②日志采集:根据一些经典的数据采集场景(如:日志),可以引入apache Flume或Elastic Logstash组件技术更好的采集日志信息。
数据采集的使用流程如下:
输入:从业务系统或热网终端上采集数据。
处理:将数据按照需求加工标准格式。
输出:将标准格式的数据存放在消息队列服务(kafka)对应的主题中。
(2)消息服务
消息服务采用kafka技术组件。Kafka是Apache软件基金会开发的一款开源分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式消息队列服务组件。本发明的数据接入模块具有以下优点:
持续的消息:为了从大数据中派生出有用的数据,任何数据的丢失都会影响生成的结果,kafka提供了一个复杂度为O(1)的磁盘结构存储数据,即使是对于TB级别的数据都是提供了一个常量时间性能。
高吞吐量:kafka采用普通的硬件支持每秒百万级别的吞吐量。
分布式:明确支持消息的分区,通过kafka服务器和消费者机器的集群分布式消费,维持每一个分区是有序的。
持久性:根据具体应用场景设置消息持久化保存周期。
支持多种语言:java、.net、php、ruby、python。
消息被生成者线程生产就能马上被消费,这种特性和事件驱动的系统是相似的。
关于消息队列管理方面,本发明可以实现:主题创建根据数据量的大小,设置多分区提供并发度,提高吞吐量;最低设置多分区副本保证数据安全不丢失;界面化管理,雅虎开源的Kafka-manager管理工具,实现web页面进行操作。
消息服务的使用流程如下:
输入:受采集的数据,并做一定周期的持久化保存。
处理:根据数据key值,将数据存放在对应的分区中。
输出:下游实时计算模块提供基于主题的数据订阅。
2、实时计算模块
实时计算模块采用Apache Flink,Apache Flink是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。
实时计算模块的框架如图3所示,图3为实时计算模块的框架图。实时计算模块包括以下结构:
(1)分布式资源调度层(Deploy)
本地(Local):本地化框架运行(Single JVM);
集群(Cluste)r:自带Standlone调度器或YARN分布式资源调度器;
云服务(Cloud):GCE(谷歌云服务)、ECS(亚马逊云服务)。
(2)分布式数据流状态计算框架(Core-Distributed Streaming Dataflow),分布式运行Flink程序,对有限和无限数据进行状态计算。
(3)流计算编程API:以DataSet(有限数据流)和DataStream(无限数据流)为核心数据结构,提供了丰富的编程接口(数据源连接器、大量的算子函数及时间窗口),实现流式状态计算。
(4)更高级的应用库
图片处理库-Gelly:提供了图形图像处理API。
关系表处理库-Table:实现通过SQL操作实现关系型数据增删改查。
人工智能处理库-FlinkML:给人工智能提供了常用的API。
(5)编程模式(相对固定),一个Flink程序由Source、Operator、Sink组成。Source:连接不同的数据源(Flink提供了大量的连接器,同时支持自定义Source)。Operator:处理数据(Flink提供了基于CheckPoint状态计算,提供了常用的算子及时间窗口函数)。Sink:将处理后的数据转存到不同的存储系统中(Flink提供了许多Sink方法及对象,也支持自定义Sink类)。
本发明的实时计算模块具有以下优点:
具备统一的框架处理有界和无界两种数据流的能力。
高吞吐、低时延,状态语义完全抽象到框架中。支持本地状态读取,避免了大量网络IO,可以极大提升状态存取的性能。
部署灵活,Flink底层支持多种资源调度器,包括Yarn、Kubernetes等。自身带Standalone的调度器,在部署上也十分灵活。
极高的可伸缩性,可伸缩性对于分布式系统十分重要,阿里巴巴采用Flink处理海量数据,使用过程中测得Flink峰值可达17亿/秒。
使用便捷,提供了标准且丰富的API接口,可快速编写数据实时处理程序。
实时计算模块的使用流程如下:
①清洗加载
清洗主要是获取采集到kafka中的维度和业务实体数据,清洗其中明显不合法的数据并做格式转换,将这些数据转存到维度表和原始表中。
输入:设定消息队列服务地址及数据主题,程序通过Kafka连接器API获取数据。
创建配置对象,将配置信息加入;并将配置对象加入消息队列连接器;并将连接器加入到处理流程中。
数据处理:Flink提供了丰富的数据转换算子对数据进行解析清洗转换。例如:拆分、过滤、分组、汇总等算子。
数据处理:可以自定义实现Sink,将数据通过Phoenix保存到Hbase中。
按照不同流计算框架提供的Sink编程规范(继承父类或实现接口),根据应用需求,定制自定义Sink,将Sink加入到流处理的输出接口中。
②明细汇总
解决大数据环境下,多表关联查询效率低下,甚至会导致集群故障。明细汇总计算主要将将业务实体和维度实体数据进行关联,最终输出到明细宽表中,满足数据快速查询分析需要。
输入:大数据存储系统中的原始表和维度表。这里主要是针对关系型数据进行操作,所以使用FlinkTable较为合适。通过Table将数据流映射成逻辑表结构(例:机组实时表、换热站表、机构表及热源表)。
处理:将原始表和维度表中的数据进行Join。Flink状态计算有利支持数据关联。将输入映射的表进行关联(Flink支持内部连接,外部连接-左连接(Left)和右连接(Right)。
输出:将关联的数据存储到大数据存储系统的宽表中。大数据存储保证了海量存储,快速查询。
③应用处理
根据具体业务需求(AI算法应用或报表应用),将现有的数据进一步加工处理,并保存到对应应用表中提供给应用程序使用。
输入:数据存储系统中的原始表、维度表及明细表(宽表)。
处理:根据特地业务需求进一步加工处理。Flink提供了足够的Source、Sink接口,并提供了大量算子和时间窗口函数。
输出:大数据存储系统中的业务应用表中。
3、大数据存储子系统
大数据存储系统按照数据仓库建设要求,依托于经典的大数据生态技术构建大数据存储和计算系统,为数据应用提供海量存储,高效计算。
大数据存储子系统的数据模型建设以数据仓库理论为指导,以面向分析为主线,结合热网数据应用特点,分为三层:
数据明细层:对应存放原始数据表(业务数据表和维度表)。将对应的kafka主题数据,去除空值,脏数据,超过极限范围的,存放到原始表中。
聚合层:对应存放基于主要热网业务数据的宽表。将业务数据表和维度表中的数据进行关联,存放到宽表中。
服务层:对应存放数据应用表。根据报表应用、AI应用及其他的数据化应用,通过实时计算加工处理,将结果数据存放到数据应用表中。
大数据存储子系统的大数据系统以经典的大数据生态Hadoop技术为主线,并提供传统关系型数据库(MYSQL)作支持。从而实现了结构化,非结构化数据的存储。
HADOOP系统是一个由Apache基金会所开发的分布式系统基础架构。主要包括分布式文件存储(HDFS-Hadoop Distribute File System)和分布式资源管理(YARN-YetAnotherResourceNegotiator)。
HDFS存储系统是由NameNode(主控机)、SecondaryNameNode(备用主控机)及若干个DataNode(数据节点上)三个部分组成,其中NameNode通过Master-Slave(主从架构)实现高可用。数据存放在Block块中,分布在DataNode。DataNode本身运行状态及其管理的Block都交给NameNode进行管理。
YARN资源管理器是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。RM负责整个集群的资源管理和分配,是一个全局的资源管理系统;AM负责每一个具体应用程序的调度和协调;NM负责每一个节点资源的维护。YARN资源使用流程:(1)向YARN中提交应用程序,其中包括AM和用户程序;(2)RM为其分配容器并启动运行;(3)运行的AM程序向RM申请资源;(4)RM实时监控NM资源,一旦有资源就交付给AM,并运行客户端程序。
HBASE系统是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。支持结构化和非结构化数据存储。
本发明的大数据存储子系统具有以下优点:
写入性能高,且几乎可以无限扩展。
海量数据下(100TB级别表)的查询依然能保持在5ms级别。
存储容量大,不需要做分库分表,维护简单。
表的列可以灵活配置,1行可以有多个非固定的列。
4、数据应用模块
数据应用模块主要包括AI应用、OLAP多维分析及商业智能(Web报表)。
(1)AI应用
依据现有存储数据,应用神经网络算法,做AI算法应用,诸如:热源负荷预测,机组调控预测,室温预测。具体过程如下:
输入:从HBASE获取训练数据。
处理:模型训练;基于数据,通过训练后的算法,对热网生产数据进行预测。
输出:结果可保存到MySQL关系型数据库中。
(2)联机分析操作(OLAP)-多维分析
OLAP过程:
输入:数据存储系统中的维度表和宽表。
处理:结合分析需求,确定OLAP操作,通过SQL将分析的数据查询出来。
输出:将SQL查询分析的结果数据,应用表格或不同的图库进行展示。
基本操作:
下探(Drill down):维度是有层次的,下探表示进入维度的下一层,将汇总数据拆分到下一层所在细节数据信息。举例:2019年供暖季的机组运行数据进行钻取来查看2019年11月、12月每个月的机组运行数据。
上钻(Drill up):下探的反向操作,回到更高汇聚层的汇总数据。
举例:将各个换热站或热源下的机组运行实时数据进行汇总,综合对比换热站或热源下机组实时运行平均供水温度和回水温度。
切片(Slice):切片可以理解成把立体按某一个维度进行切分。举例:换热站或机构下对应的机组运行实时数据分析。
旋转(Pivot):维的行列位置交换,换一个视角分析数据。
(3)Web报表
Web报表系统,是经典的BI(商业智能)应用,可以是适应于各种关系型数据库的数据报表展现,可以快速发布,通过浏览器即可访问使用。SQL操作传统的关系型数据库(MySQL),也可通过Phoenix对Hbase进行操作。
输入:HBase和MySQL存储的数据。
处理:报表系统构建数据源,绘制报表样式,将数据源拖放到报表指定位置,预览调整。
输出:发布到报表服务器,可以通过浏览器进行访问。
本发明以数据仓库面向分析为指导,将各个业务系统数据按照数据立方体模型设计,整合成热网数据立方体,用于多维数据分析。改进阿里巴巴DataX技术,将不同业务系统数据采集到大数据存储中;应用主流大数据平台(如:Hadoop和HBase),实现海量、结构化数据存储和基础分布式计算;使用最先进主流的实时计算技术(Flink),实现基于毫秒级实时计算,实现基于数据立方体的实时数据处理;应用多维度数据分析技术,基于热网数据立方体进行各类标准分析操作(钻取、上卷、切片、切块)。
数据仓库是一个面向分析的、集成的、随时间变化的、但信息本身结构相对稳定的数据集合,用于对管理决策过程的支持。实时数仓是引入了大数据和实时计算技术建设的数据仓库。热网实时数仓是通过建立热网数据立方体,将数据整合到实时数仓中,通过实时计算技术,灵活为不同的热网多维数据分析,进行实时数据加工处理。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种热网实时数据仓系统,其特征在于,包括:数据接入模块、实时计算模块、大数据存储子系统和数据应用模块;所述数据接入模块的输入端与业务系统或热网终端的数据输出端连接,所述数据输入模块的输出端与所述实时计算模块的输入端连接,所述实时计算模块的输出端与所述大数据存储子系统的输入端连接,所述大数据存储子系统的输出端与所述数据应用模块的输入端连接;
所述数据接入模块用于将采集数据以标准格式进行分区存储;所述采集数据为从所述业务系统或所述热网终端上采集的数据,所述采集数据包括机组实时数据和相关维度数据;
所述实时计算模块用于根据所述采集数据进行明细汇总和应用处理,并将汇总结果和应用处理结果输出至所述大数据存储子系统;所述明细汇总为将所述机组实时数据和所述相关维度数据进行关联的过程,所述应用处理为根据业务需求进行数据加工处理的过程;
所述大数据存储子系统用于采用数据模型对所述实时计算模块输出的数据进行存储;
所述数据应用模块用于根据对所述大数据存储子系统中存储的数据进行多维分析、人工智能应用或商业智能应用。
2.根据权利要求1所述的热网实时数据仓系统,其特征在于,所述数据接入模块包括:数据采集单元和消息队列服务单元;
所述数据采集单元用于将所述采集数据按照热网机组数据立方需求加工成标准格式,并将标准格式的数据上传至消息队列服务单元中对应的主题中;
所述消息队列服务单元用于按照时序采用随机存储方式将标准格式的采集数据存储至每个主题下的分区中。
3.根据权利要求2所述的热网实时数据仓系统,其特征在于,所述数据采集单元以DataX同步工具为基础,结合热网数据读入插件和Kafka写数据插件,实现数据加工过程;
所述消息队列服务单元采用kafka技术组件实现主题创建和多分区存储过程。
4.根据权利要求1所述的热网实时数据仓系统,其特征在于,所述实时计算模块包括:清洗单元、明细汇总单元和应用处理单元;
所述清洗单元用于按主题订阅所述数据接入模块中分区存储的数据,并进行数据清洗,得到用于大数据存储子系统的机组实时数据表和相关维度表;所述机组实时数据表用于存放机组实时数据主题下的数据,所述相关维度表用于存放相关维度主题下的数据,所述相关维度表包括热源表、换热站表、机组表和管理机构表;
所述明细汇总单元用于将所述机组实时数据表和所述相关维度表进行关联,得到用于大数据存储子系统的明细表;
所述应用处理单元用于根据所述机组实时数据表、所述相关维度表和所述明细表,结合业务需求进行应用分析,筛选符合应用条件的数据应用表。
5.根据权利要求4所述的热网实时数据仓系统,其特征在于,所述大数据存储子系统包括:原始表模型、明细表模型和应用表模型;
所述原始表模型用于存储所述机组实时数据表和所述相关维度表;
所述明细表模型用于存储所述明细表;
所述应用表模型用于存储所述数据应用表。
6.根据权利要求4所述的热网实时数据仓系统,其特征在于,所述大数据存储子系统采用Hadoop技术、HBase技术和MySQL技术,所述Hadoop技术提供分布式文件系统和分布式资源管理方面的基础服务;所述HBase技术提供分布式列式存储;所述MYSQL技术提供数量有限的关系型数据存储。
7.根据权利要求4所述的热网实时数据仓系统,其特征在于,所述数据应用模块包括:多维分析单元、人工智能应用单元或商业智能应用单元;
所述多维分析单元用于根据所述相关维度表和所述明细表,结合分析需求,确定联机分析处理操作,得到数据库查询分析结果;
所述人工智能应用单元用于根据所述机组实时数据表、所述相关维度表和所述明细表,采用人工智能算法进行应用分析,得到应用分析结果;
所述商业智能应用单元用于根据报表应用需求对所述大数据存储子系统中的数据表进行处理,得到网页格式的报表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010315921.2A CN111506660B (zh) | 2020-04-21 | 2020-04-21 | 一种热网实时数据仓系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010315921.2A CN111506660B (zh) | 2020-04-21 | 2020-04-21 | 一种热网实时数据仓系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111506660A CN111506660A (zh) | 2020-08-07 |
CN111506660B true CN111506660B (zh) | 2023-03-31 |
Family
ID=71872970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010315921.2A Active CN111506660B (zh) | 2020-04-21 | 2020-04-21 | 一种热网实时数据仓系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506660B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112306992B (zh) * | 2020-11-04 | 2024-02-13 | 内蒙古证联信息技术有限责任公司 | 一种基于互联网的大数据平台系统 |
CN112506887B (zh) * | 2020-11-30 | 2024-03-08 | 北京公共交通控股(集团)有限公司 | 车辆终端can总线数据处理方法及装置 |
US11983193B2 (en) | 2020-12-25 | 2024-05-14 | Boe Technology Group Co., Ltd. | Data processing method, platform, computer-readable storage medium and electronic device |
CN112860710A (zh) * | 2021-03-18 | 2021-05-28 | 杭州云灵科技有限公司 | 数据处理方法、装置及系统、数据查询方法及系统 |
CN112860711A (zh) * | 2021-03-18 | 2021-05-28 | 杭州云灵科技有限公司 | 数据储存方法及系统、数据查询方法及系统 |
CN113407365A (zh) * | 2021-07-08 | 2021-09-17 | 杭州玳数科技有限公司 | 基于Flink实时任务脏数据插件化管理的方法和系统 |
CN113656370B (zh) * | 2021-08-16 | 2024-04-30 | 南方电网数字电网集团有限公司 | 电力量测系统数据处理方法、装置和计算机设备 |
CN114996300A (zh) * | 2022-05-20 | 2022-09-02 | 上海浦东发展银行股份有限公司 | 一种银行信用卡中心实时大数据可视化分析方法 |
CN116910310B (zh) * | 2023-06-16 | 2024-02-13 | 广东电网有限责任公司佛山供电局 | 一种基于分布式数据库的非结构化数据存储方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169070A (zh) * | 2017-05-08 | 2017-09-15 | 山大地纬软件股份有限公司 | 一种基于大数据的社保指标仓库的构建系统及其方法 |
WO2017198227A1 (zh) * | 2016-05-19 | 2017-11-23 | 中兴通讯股份有限公司 | 一种交互式网络电视系统及用户数据实时获取方法 |
CN110019396A (zh) * | 2017-12-01 | 2019-07-16 | 中国移动通信集团广东有限公司 | 一种基于分布式多维分析的数据分析系统及方法 |
-
2020
- 2020-04-21 CN CN202010315921.2A patent/CN111506660B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017198227A1 (zh) * | 2016-05-19 | 2017-11-23 | 中兴通讯股份有限公司 | 一种交互式网络电视系统及用户数据实时获取方法 |
CN107169070A (zh) * | 2017-05-08 | 2017-09-15 | 山大地纬软件股份有限公司 | 一种基于大数据的社保指标仓库的构建系统及其方法 |
CN110019396A (zh) * | 2017-12-01 | 2019-07-16 | 中国移动通信集团广东有限公司 | 一种基于分布式多维分析的数据分析系统及方法 |
Non-Patent Citations (1)
Title |
---|
杨;韩路;许勤;孙元浩.大型商业银行基于Hadoop分布式数据仓库建设初探.计算机应用与软件.2017,(08),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111506660A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111506660B (zh) | 一种热网实时数据仓系统 | |
Das et al. | Big data analytics: A framework for unstructured data analysis | |
CN109063196B (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN111241078A (zh) | 数据分析系统、数据分析的方法及装置 | |
CN103338135B (zh) | 一种集群存储容量的实时监控方法 | |
CN108874982A (zh) | 一种基于Spark大数据框架离线实时处理数据的方法 | |
Firouzi et al. | Architecting iot cloud | |
CN109639791A (zh) | 一种容器环境下云工作流调度方法及系统 | |
CN110769018A (zh) | 一种消息推送方法及装置 | |
Wang | Stream processing systems benchmark: Streambench | |
CN111126852A (zh) | 一种基于大数据建模的bi应用系统 | |
CN112148578A (zh) | 基于机器学习的it故障缺陷预测方法 | |
Wang et al. | CyberGIS for data-intensive knowledge discovery | |
CN111177237B (zh) | 一种数据处理系统、方法及装置 | |
CN116662441A (zh) | 一种分布式数据血缘构建及展现方法 | |
CN113127526A (zh) | 一种基于Kubernetes的分布式数据存储和检索系统 | |
US20180181621A1 (en) | Multi-level reservoir sampling over distributed databases and distributed streams | |
Henning et al. | Benchmarking scalability of stream processing frameworks deployed as microservices in the cloud | |
Peng et al. | An analysis platform of road traffic management system log data based on distributed storage and parallel computing techniques | |
CN112506887A (zh) | 车辆终端can总线数据处理方法及装置 | |
CN109523235B (zh) | 一种大数据检测云平台 | |
Karakaya | Software engineering issues in big data application development | |
Wu et al. | Research on data sharing architecture for ecological monitoring using Iot streaming data | |
CN116226067A (zh) | 日志管理方法、日志管理装置、处理器和日志平台 | |
Chardonnens | Big data analytics on high velocity streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |