CN109285589A

CN109285589A - 一种基于Spark大数据平台的铝电解过热度预测方法

Info

Publication number: CN109285589A
Application number: CN201811304841.6A
Authority: CN
Inventors: 胡峰; 郭英杰; 于洪; 史明辉; 王津; 康峻玮; 李秋莹; 何倩; 候嘉欣; 潘洪杭; 赵英刚; 朱正鑫
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-01-29

Abstract

本发明请求保护一种基于Spark大数据平台的铝电解过热度预测方法，涉及数据挖掘技术和铝电解工业。首先,读取大规模数据集，每一张表创建分布式数据集RDD，完成初始化操作。其次，对每个RDD，使用相同的方法进行特征提取，得到样本数据集YRDD。再次，使用过热度计算公式对每个样本进行打标。然后，进行过采样操作以达到样本数平衡。YRDD合成一个总样本数据集ZRDD作为样本集。最后，将样本集划分为训练集和测试集，将过热度作为标签，其他作为特征，使用分类算法对训练集进行训练得到分类器。对测试集进行分类，得到分类结果。用户输入一段时间的测试数据，得到未来一段时间的过热度预测值。本发明大幅度提高得到分类结果的时间。

Description

一种基于Spark大数据平台的铝电解过热度预测方法

技术领域

本发明属于信息技术、铝电解工业、数据挖掘等领域，提供了一种基于Spark大数据平台的铝电解过热度预测模型。

背景技术

随着计算机信息领域的飞速发展，大量的数据从生活的各个方面被收集起来，互联网上各种各样信息的规模也在成几何倍数的增大，从海量的数据中迅速分析从而提取隐藏在数据中的信息变得越来越重要。

在铝电解生产过程中,过热度是指电解质温度与初晶温度的差值,是一项很重要的指标。如果电解槽工作在适当的过热度状态下，那么可以提高电流效率，降低电解槽损耗，延长电解槽寿命。但是，由于铝电解在生产过程中会涉及到大量的生产参数以及复杂的环境变化，因此过热度测量难度较大且测量过程复杂。对除过热度外的参数进行分析来预测未来过热度显得意义重大。

Spark是一个基于内存的分布式计算系统，是由UC Berkeley AMPLab实验室于2009年开发的开源数据分析集群计算框架。拥有MapReduce的所有优点，与MapReduce不同的是.Spark将计算的中间结果数据持久地存储在内存中，通过减少磁盘I/O。使后续的数据运算效率更高。Spark的这种架构设计尤其适合于机器学习、交互式数据分析等应用.这些应用都需要重复地利用计算的中间数据。在Spark和Hadoop的性能基准测试对比中，运行基于内存的logistic regression，在迭代次数相同的情况下，Spark的性能超出HadoopMapReduce 100倍以上。两者之间在计算过程中也存在一些不同之处，比如MapReduce输出的中间结果需要读写HDFS，而Spark框架会把中间结果保存在内存中。这些不同之处使Spark在某些工作负载方面表现得更加优越，换句话说，Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。而弹性分布式数据集(RDD，ResilientDistributed Datasets)是Spark框架的核心数据结构，它具备像MapReduce等数据流模型的容错特性，并且允许开发人员在大型集群上执行基于内存的计算。Spark将数据集运行的中间结果保存在内存中能够极大地提高性能，资源开销也极低，非常适合多次迭代的机器学习算法。

Spark的核心概念是RDD(resilient distributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法。RDD的具体描述RDD(弹性数据集)是Spark提供的最重要的抽象的概念，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作，可以将RDD理解为一个具有容错机制的特殊集合它提供了一种只读、只能有已存在的RDD变换而来的共享内存，然后将所有数据都加载到内存中，方便进行多次重用。RDD是分布式的，可以分布在多台机器上，进行计算，并且RDD是弹性的，计算过程中内存不够时它会和磁盘进行数据交换。现有技术存在的问题是：从海量的数据集进行过热度预测容易内存溢出、时间过长和无法运行宕机。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于Spark大数据平台的铝电解过热度预测方法。本发明的技术方案如下：

一种基于Spark大数据平台的铝电解过热度预测方法，其包括步骤：

数据加载阶段：输入需要构建样本的，数据集包括设定电压、槽电压、槽电流、槽电阻、过滤电阻、平滑电阻、设定最高电压、设定最低电压、效应等待间隔、针振、摆动、电阻变化斜率、电阻总变化斜率、基准下料间隔、实际下料间隔等参数，将其转换成Spark平台的分布式数据集RDD，并且完成初始化操作；

样本集构建阶段：对每个分布式数据集RDD，使用处理时间维度样本时常用的滑窗法进行特征提取，得到样本数据集YRDD，使用过热度计算公式对每个样本进行打标；对于每个YRDD，如果正反例样本数量不平衡，则对YRDD进行过采样操作使样本数平衡；将过采样操作后的YRDD合成一个总样本数据集ZRDD作为样本集；

模型训练阶段：将样本集划分为训练集和测试集，将过热度作为标签，其他作为特征，使用Xgboost分类算法对训练集进行训练得到分类器；

过热度预测阶段：使用得到的分类器对测试集进行分类，得到分类结果并保存模型；用户读取存放在关系型数据库(mysql、sqlserver、oracle等)或数据仓库(hive)中的原始数据，去除掉无关属性，保留与模型相关的测量值和人为设定值，作为输入，调用得到模型的预测标签，完成过热度预测。可修改人为设定值进行重复预测直至满足用户需要。

进一步的，所述数据加载阶段将数据集转换成Spark平台的分布式数据集RDD，并且完成初始化操作，具体包括：

首先创建一个SparkContext对象，SparkContext是Spark的入口，负责连接Spark集群、创建RDD、累积量和广播量；

然后调用它的parallelize(DataSet)或textFile(DataSetURL)函数创建分布式数据集RDD，一旦创建完成，这个分布式数据集就可以被并行操作；即，RDD＝sc.textFile(DataSetURL)。

进一步的，所述样本集构建阶段得到样本数据集YRDD具体包括：遍历RDD中的每条数据，找到该数据前9条数据，将每3条数据分为1组，算出每组数据中每个测量属性的均值、方差、最大值作为特征集；算出每组数据中每个测量属性均值与前一组数据对应均值的变化值绝对值和变化率作为特征集；

对于RDD中每条数据中的设定电压、设定最大电压、设定最小电压、效应等待间隔属性，将其作为特征，算出设定电压、设定最大电压、设定最小电压与实际电压均值的变化率和变化值绝对值，作为特征；算出设定电压、设定最大电压、设定最小电压与前9天每一天的对应值的变化率和变化值绝对值，作为特征，将得到的所有特征合起来，得到若干个样本数据集YRDD。

进一步的，找到每个YRDD中每个样本a在RDD中对应位置的样本b，找到b中的电解质温度T和分子比F两个属性，根据过热度计算公式算出样本a的过热度。过热度计算公式为SHD＝T_b-T_liq，其中T_b表示电解槽温度；T_liq表示初晶温度，公式为T_liq＝35MR+846，其中MR表示分子比。T_b和MR均可通过测量获得。如果算出的SHD过热度大于等于25则认为是高过热度，标签为1；反之则认为是低过热度，标签为0。

对于每个YRDD，如果正反例样本数量不为或不近似为1:1，则对YRDD进行smote过采样操作,随机因子为1到10之间的随机数,临近样本数为5，使样本数比例为1:1，将操作后的所有YRDD合成一个ZRDD作为总样本集。

进一步的，所述模型训练阶段将样本集划分为训练集和测试集，将过热度作为标签，其他作为特征，使用分类算法对训练集进行训练得到分类器。使用得到的分类器对测试集进行分类，得到分类结果并保存模型，具体包括：

(1)将ZRDD以8比2的比例划分，其中8为训练集，2为测试集，将过热度作为训练集和测试集的标签，其他作为训练集和测试集的特征；

(2)使用xgboost算法对训练集进行训练，其中max_depth＝5,learning_rate＝0.1,n_estimators＝160，得到一个model，使用得到的分类器对测试集进行分类，调用model.save(sc,modelSavePath)对model进行持久化存储。

进一步的，所述xgboost算法具体包括包括以下步骤：

通过上一步构造出的训练集和测试集建立n_estimators个回归树，使得树群的预测值尽量接近真实值(准确率)而且有尽量大的泛化能力(更为本质的东西)。回归树的目标函数为其中i表示第i个样本，表示第i个样本的预测误差，采用平方损失来表示，公式为表示树的复杂度的函数，越小复杂度越低，泛化能力越强。复杂度函数表达式为其中T表示叶子节点的个数，ω表示节点的数值，γ为L1正则的惩罚项，λ为L2正则的惩罚项。

进一步的，用户输入一段时间的测试数据，得到未来一段时间的过热度预测值，具体包括：

用户读取存放在关系型数据库或数据仓库中的原始数据，去除掉无关属性，保留与模型相关的测量值和人为设定值，作为输入；

调用Model.load(sc,"myModelPath")方法读取存放在HDFS中的已训练好的模型，使用模型对输入的数据进行预测，通过可视化插件将预测结果返回给用户。若用户对预测结果不满意，可通过用户界面修改人为设定值进行重新预测，直到满足用户需要。

本发明的优点及有益效果如下：

已有的传统的过热度预测方法只能得到当前监测数据与当前过热度之间的知识规则，无法对未来时间点的过热度进行有效的预测和防治。而本发明提出的基于Spark大数据平台的过热度预测方法，能够通过已有的历史数据构建出模型来预测未来时间节点的过热度，从而可以通过修改人为设定值对未来可能出现的过热情况进行及时有效的防治。而且Spark计算引擎可以缓存经常用于存储器的中间数据,能有效提高大规模数据的高迭代计算效率，更加符合数据量快速增长的实际生产环境，具有较好的实际应用价值且成本较低。

附图说明

图1是本发明提供优选实施例基于Spark大数据平台的过热度预测模型的流程框图；

图2基于Spark大数据平台的数据加载、样本集构建的流程框图；

图3基于Spark大数据平台的模型训练的流程框图；

图4基于Spark大数据平台的过热度预测部分的流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

图1为本发明流程框图，包括如下步骤：

(1)数据加载阶段

输入需要构建样本的数据集，将其转换成Spark平台的分布式数据集RDD，并且完成初始化操作。首先创建一个SparkContext对象，SparkContext是Spark的入口，负责连接Spark集群，创建RDD，累积量和广播量等。然后调用它的parallelize(DataSet)或textFile(DataSetURL)函数创建分布式数据集RDD，一旦创建完成，这个分布式数据集就可以被并行操作；即，RDD＝sc.textFile(DataSetURL)。

(2)样本集构建阶段

对于一个RDD，遍历RDD中的每条数据，找到该数据前9条数据(如果有的话)，将前1-3条，3-6条，6-9条数据分别作为1个分区，算出每个分区中槽电压、槽电流、槽电阻、过滤电阻、平滑电阻、针振、摆动、电阻变化斜率、电阻总变化斜率、基准下料间隔、实际下料间隔、铁含量、硅含量、铝水平、电解质水平、析出铝等属性的均值、方差、最大值作为特征集；算出每个分区数据中槽电压、槽电流、槽电阻、过滤电阻、平滑电阻、针振、摆动、电阻变化斜率、电阻总变化斜率、基准下料间隔、实际下料间隔、铁含量、硅含量、铝水平、电解质水平、析出铝等属性均值与前一组数据对应均值的变化值绝对值和变化率作为特征集。

对于RDD中每条数据中的设定电压、设定最大电压、设定最小电压、效应等待间隔属性，将其作为特征。算出设定电压、设定最大电压、设定最小电压与实际电压均值的变化率和变化值绝对值，作为特征；算出设定电压、设定最大电压、设定最小电压与前9天每一天的对应值的变化率和变化值绝对值，作为特征。将得到的所有特征合起来，得到若干个样本数据集YRDD。

找到每个YRDD中每个样本a在RDD中对应位置的样本b。找到b中的电解质温度T和分子比F两个属性，根据过热度计算公式算出样本a的过热度。公式为如果过热度大于等于25则认为是高过热度，标签为1；反之则认为是低过热度，标签为0。

对于每个YRDD，如果正反例样本数量不为或不近似为1:1，则对YRDD进行smote过采样操作,随机因子为1到10之间的随机数,临近样本数为5，使样本数比例为1:1。将操作后的所有YRDD合成一个ZRDD作为总样本集。

(3)模型训练阶段

Spark1.6只能用XGBoost0.7之前的版本，最大概率所属类别需自己算出。因此选择了spark2.0与XGBoost0.7。设置max_depth＝5,learning_rate＝0.1,n_estimators＝160，使用训练集进行训练，生成一个XGBoostModel，使用model.save(sc,modelSavePath)对模型进行持久化存储，将其存入HDFS中。

(4)过热度预测阶段

(1)用户读取存放在关系型数据库(mysql、sqlserver、oracle等)或数据仓库(hive)中的原始数据，去除掉无关属性，保留与模型相关的测量值和人为设定值，作为输入。

(2)调用Model.load(sc,"myModelPath")方法读取存放在HDFS中的已训练好的模型。使用模型对输入的数据进行预测，通过可视化插件将预测结果返回给用户。若用户对预测结果不满意，可通过用户界面修改人为设定值进行重新预测，直到满足用户需要。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于Spark大数据平台的铝电解过热度预测方法，其特征在于，包括步骤：

数据加载阶段：输入需要构建样本的数据集，数据集包括设定电压、槽电压、槽电流、槽电阻、过滤电阻、平滑电阻、设定最高电压、设定最低电压、效应等待间隔、针振、摆动、电阻变化斜率、电阻总变化斜率、基准下料间隔及实际下料间隔参数，将其转换成Spark平台的分布式数据集RDD，并且完成初始化操作；

过热度预测阶段：使用得到的分类器对测试集进行分类，得到分类结果并保存模型；用户读取存放在关系型数据库或数据仓库中的原始数据，去除掉无关属性，保留与模型相关的测量值和人为设定值，作为输入，调用得到模型的预测标签，完成过热度预测。可修改人为设定值进行重复预测直至满足用户需要。

2.根据权利要求1所述的一种基于Spark大数据平台的铝电解过热度预测方法，其特征在于，所述数据加载阶段将数据集转换成Spark平台的分布式数据集RDD，并且完成初始化操作，具体包括：

3.根据权利要求1所述的一种基于Spark大数据平台的铝电解过热度预测方法，其特征在于，所述样本集构建阶段得到样本数据集YRDD具体包括：遍历RDD中的每条数据，找到该数据前9条数据，将每3条数据分为1组，算出每组数据中每个测量属性的均值、方差、最大值作为特征集；算出每组数据中每个测量属性均值与前一组数据对应均值的变化值绝对值和变化率作为特征集；

4.根据权利要求3所述的一种基于Spark大数据平台的铝电解过热度预测方法，其特征在于，找到每个YRDD中每个样本a在RDD中对应位置的样本b，找到b中的电解质温度T和分子比F两个属性，根据过热度计算公式算出样本a的过热度，过热度计算公式为SHD＝T_b-T_liq，其中T_b表示电解槽温度；T_liq表示初晶温度，公式为T_liq＝35MR+846，其中MR表示分子比，T_b和MR均可通过测量获得，如果算出的SHD过热度大于等于25则认为是高过热度，标签为1；反之则认为是低过热度，标签为0。

5.根据权利要求4所述的一种基于Spark大数据平台的铝电解过热度预测方法，其特征在于，所述模型训练阶段将样本集划分为训练集和测试集，将过热度作为标签，其他作为特征，使用分类算法对训练集进行训练得到分类器。使用得到的分类器对测试集进行分类，得到分类结果并保存模型，具体包括：

6.根据权利要求5所述的一种基于Spark大数据平台的铝电解过热度预测方法，其特征在于，所述xgboost算法具体包括包括以下步骤：

通过上一步构造出的训练集和测试集建立n_estimators个回归树，使得树群的预测值尽量接近真实值而且有尽量大的泛化能力，回归树的目标函数为其中i表示第i个样本，表示第i个样本的预测误差，采用平方损失来表示，公式为表示树的复杂度的函数，越小复杂度越低，泛化能力越强，复杂度函数表达式为其中T表示叶子节点的个数，ω表示节点的数值，γ为L1正则的惩罚项，λ为L2正则的惩罚项。

7.根据权利要求5所述的一种基于Spark大数据平台的铝电解过热度预测方法，其特征在于，用户输入一段时间的测试数据，得到未来一段时间的过热度预测值，具体包括：

用户读取存放在关系型数据库或数据仓库中的原始数据，去除掉无关属性，保留与模型相关的测量值和人为设定值，作为输入；调用Model.load(sc,"myModelPath")方法读取存放在HDFS中的已训练好的模型，使用模型对输入的数据进行预测，通过可视化插件将预测结果返回给用户。若用户对预测结果不满意，可通过用户界面修改人为设定值进行重新预测，直到满足用户需要。