CN111177276B

CN111177276B - 一种基于Spark计算框架的动能数据处理系统及方法

Info

Publication number: CN111177276B
Application number: CN202010010196.8A
Authority: CN
Inventors: 叶志晖; 王文娟; 张成挺; 钱杰
Original assignee: China Tobacco Zhejiang Industrial Co Ltd
Current assignee: China Tobacco Zhejiang Industrial Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2023-10-20
Anticipated expiration: 2040-01-06
Also published as: CN111177276A

Abstract

本发明涉及一种基于Spark计算框架的动能数据处理系统，包括用于监测工业车间动能数据的数据采集模块、对发布至Kafka消息队列的数据流进行数据计算的数据处理分析模块以及分布式数据存储模块。考虑到数据采集终端的多种多样，Kafka集群设置有可接入多种数据采集终端的功能接口，以此建立了灵活可扩展的数据采集系统，避免了多个数据终端接入的问题。其次，由于所需处理的检测数据量大，采用流计算对来自Kafka消息队列的流数据做加工处理，可以大大提高计算性能。再次，工业车间对设备运行的决策要求处理分析数据的实时性高，因而对数据采用分布式的存储方式。

Description

一种基于Spark计算框架的动能数据处理系统及方法

技术领域

本发明涉及对车间各类设备的动能数据处理技术领域，具体涉及一种基于Spark计算框架的动能数据处理系统及方法。

背景技术

卷烟厂动力车间设备会产生海量的动能数据，为了降低生产成本及提高生产质量，需要对这些动能数据进行采集、处理和分析。而在大数据技术的飞速增长过程中会有如下问题：

（1）由于数据量的庞大以及需要对接多方位的系统数据，并不能很好的对这些数据进行采集；

（2）大量的数据在传输过程中也会由于信道质量等多样性、复杂性、各种不确定的因素引入不满足质量要求的噪声数据，如异常、错误、重复以及缺失数据等，使得后续数据的分析环节的结果数据准确性降低；

（3）终端可视化的数据检索实时性不高。针对上述问题，本发明建立了一个灵活可扩展的数据采集系统，在数据存储前采用基于Spark 计算框架对数据进行清洗，并对处理后的数据采用分布式的存储方式，最终保证数据的完整性和可靠性。

发明内容

为了解决上述的技术问题，本发明的第一个目的是提供一种基于Spark 计算框架的动能数据处理系统，该系统采用分布式的存储方式、具有灵活可扩展的数据采集系统，且能大大提高计算性能，本发明的第二个目的是提供一种基于Spark 计算框架的动能数据处理方法。

为了实现上述第一个目的，本发明采用了以下的技术方案：

一种基于Spark 计算框架的动能数据处理系统，包括数据采集模块、数据处理分析模块和数据存储模块；所述数据采集模块内置多个传感器节点，用来对MES、能管、动力集控、设备管理等各系统的数据的采集，以获取卷烟厂动力车间各类动能监测数据；所述数据处理分析模块包括数据接入模块、数据缓存模块和实时计算模块，根据应用场景对动能数据进行实时计算和离线分析；所述数据存储模块采用基于Spark 计算框架将清洗后的数据存于对应的数据库中。

作为优选方案：所述数据处理分析模块对进入 Kafka 的所有采集的数据采用各种方法进行数据的清洗，包括对数据依次进行重复值、错误值、异常值以及缺失值的清洗，为数据分析提供符合要求的基础数据。

作为优选方案：所述数据存储模块提高大数据存储与关系数据库相结合对原始数据、过程数据进行分布式文件存储的同时，将结果保存至关系型数据库Oracle 中，并通过sqoop 实现分布式文件系统与关系型数据库之间的数据传递。

为了实现上述第二个目的，本发明采用了以下的技术方案：

一种基于 Spark 计算框架的动能数据处理方法，采用上述的处理系统，步骤如下：

步骤 1：由无线传感器接收动能数据，对各动能设备的监控数据进行不同主题分区，利用 kafka 消息队列服务，将数据以流的形式发布至缓冲池；

步骤 2：启动Kafka 消息队列集群的用户接入功能，接入用户向系统发布的任务；

步骤 3：构建包括消息生产者、消息缓存节点和消息消费者的Kafka 集群，并对Kafka 集群节点进行主题分区；

步骤 4：由Kafka 集群对消息队列中的数据进行协调服务。消息生产者对用户订阅的任务进行逻辑解析，并推送至Kafka 集群节点的主题分区中缓存；

步骤5：由实时计算模块从Kafka 消息队列的不同主题中按照订阅要求，主动拉取所需主题的分区消息，并由流计算集群节点将数据交由数据计算层进行数据处理。

作为优选方案：所述步骤5 中，采用基于Spark 计算框架的实时计算模块从Kafka消息队列中拉取流数据，并传递给Spark 计算框架的计算组件进行加工处理，先后进行数据转换、数据复制、逻辑判断、异常数据处理、数据比对、数据装载、数据路由、数据整合、数据审核操作。

作为优选方案：所述Spark 计算框架的计算组件进行加工处理，具体涉及以下内容：

（1）可视化配置格式转换，包括字段拆分/合并、不同格式间转换；对字段内或字段间做数学运算；根据一个或几个字段做聚类操作；对数据字典和身份证的转换等；

（2）可视化配置多种逻辑处理，包括：格式匹配检查、字符串逻辑检查、内容为空检查、重复记录检查、范围内检查、表表外键关联检查、逻辑检查、复合逻辑检查、自定义逻辑检查等；

（3）根据逻辑处理情况，对异常数据进行相应的加工策略，策略有三种：一种是将逻辑处理后的数据与目标数据库表内容做比对操作，并根据比对结果做相应的增加、覆盖、删除等处理；第二种是做数据逻辑判断来支持异常情况处理，对于出现异常情况的数据，可以根据逻辑处理设定不同的处理策略，既可以设置为差错数据记录到差错数据库上，供业务人员数据审核处理，也可以路由输入到指定的目标方供业务人员处理，还可以作为异常数据记录到相应日志文件上，并给予监控日志相应提示，供信息操作者根据提示做相应的处理作出对应的判断数据的异常情况；第三种策略是按照字段内容作为路由条件将数据加载到不同的目标上进行处理；

（4）记录数据加工过程中不合规范的数据。

本发明对 Kafka 集群设置了可以扩展多个数据采集终端的功能接口，数据采集模块可以根据需要灵活地接入多个数据采集系统，避免了数据接入的瓶颈；本发明采用基于时间序列特征的数据流异常检测方法对数据流进行预处理，不仅减轻了流计算组件的工作负担，提高了数据处理效率，也能让工作人员提早知道异常数据的环节；本发明涉及的基于Spark 流计算组件，能减少每次计算的数据访问I/O，优化数据加工算法，把彼此关联计算的结果供下一个计算单元使用，在一个处理服务内能实现转换、异常数据处理、数据整合等功能，大大提高了整体性能。

附图说明

图 1 是本发明所述的动能数据处理系统整体架构图；

图 2 是本发明所述的基于Spark 流计算处理流程图；

图 3 是本发明提供的一种基于时间序列特征的数据流异常检测方法流程图。

具体实施方式

为了相关技术人员更清晰的了解本发明的技术方案，现结合附图对本发明做进一步的详细说明。

参见图 1，本实施例公开了一种基于Spark 计算框架的动能数据处理系统，包括三个模块：数据采集模块、数据处理分析模块、数据存储模块，所述数据采集模块内设置接入多数据采集终端的接口，实现动力系统各环节数据的收集与集成，打通与现有信息系统数据交互，包括MES 系统、能管系统、集控系统及基于OPC 的数采服务等；所述数据处理分析模块包括数据接入模块、数据缓存模块和实时计算模块，根据应用场景对动能数据进行实时计算和离线分析，Spark 计算处理流程如图2 所示，具体步骤如下：

步骤 5：由流计算模块的读取模块从Kafka 消息队列的不同主题中按照订阅要求，主动拉取所需主题的分区消息，并由流计算集群节点将数据交由数据计算层进行数据处理。

进一步地，对在数据传输过程中生成的噪音数据进行清洗，主要利用利用数理统计、数据挖掘等方法将噪声数据转换为满足数据质量要求的数据，具体实施内容包括以下几个方面：

（1）错误值的清洗。首先要检测出带有错误数据的元组，再对该元组进行处理。可以使用已有的关于数据性质的知识来发现错误值，通常在定义数据字典时，对数据有一个基本的规定，比如蒸汽温度、蒸汽湿度、空压等都会有阈值规定。另外，由于采集过程中加载缓慢或者采集设备故障，会造成属性值缺失。对于这些数据，一般直接删去；部分错误数据可借用相邻数据。

（2）异常值的清洗。采用基于距离的异常值检测方法、基于密度的异常值检测方法以及基于聚类的异常值检测方法对所获得数据中相对误差较大的数据进行异常检测，对于异常情况的数据由流计算组件进行加工处理。

（3）对人工原因或是记录设备、网络连接故障等问题造成的缺失数据，首先进行缺失数据的识别，然后探索缺失值的模式，由流计算组件进行加工处理。

进一步地，所述数据存储模块采用大数据存储与关系数据库相结合的技术方案，对原始数据、过程数据进行分布式文件存储的同时，将结果保存至关系型数据库Oracle中，并通过sqoop 实现分布式文件系统与关系型数据库之间的数据传递。

进一步地，以 Oracle 建立传统数据仓库来实现对用于结构化数据和元数据的集中存储与管理，并根据需求建立面向应用和主题的数据集市，中央数据仓库划分为三个逻辑存储区间： ODS(Operational Data Store) 、DW(DataWarehourse)、DM(Data Mart)：ODS存放原始数据，包括与原结构相同的业务数据以及经过初步整理后的业务数据；DW 区域存放经过整理过的数据，是大数据分析平台真正的数据中心；DM 区域存放各个应用系统（web应用、BI、OLAP、Data Mining 等）所需的综合数据。

进一步地，当 Oracle 中存有大量数据时，对历史数据通过分库处理或者分表处理的方式进行迁移，或通过sqoop 定期将数据迁移hadoop 文件系统进行数据存储。

进一步地，对于大量的tag 点采集信息的原始数据，以及大量的计算中间数据，利用工具把数据从Kafka 内转存至Hbase 中，利用大数据应用框架Hadoop平台的数据仓库作为传统数据仓库的补充，实现对非结构化数据的存储和管理，并对来自网络的海量数据查询提供支撑。

在一个实施例中，接收的数据流包括监测值和监测时间，直接对大量的数据流进行异常检测是非常困难的，可以根据数据流的时间序列特性对数据流进行分段处理后检测数据的异常情况，如图3 所示，具体包括：（1）提取设定的动能数据流设为，

根据下述方法得到数据流中的极值点：

（2）根据数据流中子序列的特征值如长度、高度、均值、方差等判断异常情况。其中，子序列长度为：子序列的高度为：/>子序列均值为：子序列方差为：/>

（3）采用欧氏距离的计算方法计算两子序列和间的距离：

进一步地，根据上述方法可以对数据流进行初始异常检测，以提高异常情况检测的效率。

以上所述的仅是本发明的优选实施方式。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明原理的情况下，还可以作出若干改进和变型，这也视为本发明的保护范围。

Claims

1.一种基于 Spark 计算框架的动能数据处理方法，其特征在于：采用如下处理系统，包括数据采集模块、数据处理分析模块和数据存储模块；所述数据采集模块内置多个传感器节点，用来对MES、能管、动力集控、设备管理等各系统的数据的采集，以获取卷烟厂动力车间各类动能监测数据；所述数据处理分析模块包括数据接入模块、数据缓存模块和实时计算模块，根据应用场景对动能数据进行实时计算和离线分析；所述数据存储模块采用基于Spark 计算框架将清洗后的数据存于对应的数据库中；步骤如下：

步骤1：由无线传感器接收动能数据，对各动能设备的监控数据进行不同主题分区，利用 kafka 消息队列服务，将数据以流的形式发布至缓冲池；

步骤2：启动Kafka消息队列集群的用户接入功能，接入用户向系统发布的任务；

步骤3：构建包括消息生产者、消息缓存节点和消息消费者的Kafka集群，并对Kafka集群节点进行主题分区；

步骤4：由Kafka集群对消息队列中的数据进行协调服务，消息生产者对用户订阅的任务进行逻辑解析，并推送至Kafka 集群节点的主题分区中缓存；

步骤5：由实时计算模块从Kafka消息队列的不同主题中按照订阅要求，主动拉取所需主题的分区消息，并由流计算集群节点将数据交由数据计算层进行数据处理；

所述步骤5 中，采用基于Spark 计算框架的实时计算模块从Kafka消息队列中拉取流数据，并传递给Spark 计算框架的计算组件进行加工处理，先后进行数据转换、数据复制、逻辑判断、异常数据处理、数据比对、数据装载、数据路由、数据整合、数据审核操作，所述Spark 计算框架的计算组件进行加工处理，具体涉及以下内容：

（4）记录数据加工过程中不合规范的数据。

2.根据权利要求 1 所述的一种基于 Spark 计算框架的动能数据处理方法，其特征在于：所述数据处理分析模块对进入Kafka 的所有采集的数据采用各种方法进行数据的清洗，包括对数据依次进行重复值、错误值、异常值以及缺失值的清洗，为数据分析提供符合要求的基础数据。

3.根据权利要求 1 所述的一种基于 Spark 计算框架的动能数据处理方法，其特征在于：所述数据存储模块提高大数据存储与关系数据库相结合对原始数据、过程数据进行分布式文件存储的同时，将结果保存至关系型数据库Oracle 中，并通过sqoop 实现分布式文件系统与关系型数据库之间的数据传递。