CN109285589A - 一种基于Spark大数据平台的铝电解过热度预测方法 - Google Patents

一种基于Spark大数据平台的铝电解过热度预测方法 Download PDF

Info

Publication number
CN109285589A
CN109285589A CN201811304841.6A CN201811304841A CN109285589A CN 109285589 A CN109285589 A CN 109285589A CN 201811304841 A CN201811304841 A CN 201811304841A CN 109285589 A CN109285589 A CN 109285589A
Authority
CN
China
Prior art keywords
data
superheat
degree
sample
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811304841.6A
Other languages
English (en)
Inventor
胡峰
郭英杰
于洪
史明辉
王津
康峻玮
李秋莹
何倩
候嘉欣
潘洪杭
赵英刚
朱正鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201811304841.6A priority Critical patent/CN109285589A/zh
Publication of CN109285589A publication Critical patent/CN109285589A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明请求保护一种基于Spark大数据平台的铝电解过热度预测方法,涉及数据挖掘技术和铝电解工业。首先,读取大规模数据集,每一张表创建分布式数据集RDD,完成初始化操作。其次,对每个RDD,使用相同的方法进行特征提取,得到样本数据集YRDD。再次,使用过热度计算公式对每个样本进行打标。然后,进行过采样操作以达到样本数平衡。YRDD合成一个总样本数据集ZRDD作为样本集。最后,将样本集划分为训练集和测试集,将过热度作为标签,其他作为特征,使用分类算法对训练集进行训练得到分类器。对测试集进行分类,得到分类结果。用户输入一段时间的测试数据,得到未来一段时间的过热度预测值。本发明大幅度提高得到分类结果的时间。

Description

一种基于Spark大数据平台的铝电解过热度预测方法
技术领域
本发明属于信息技术、铝电解工业、数据挖掘等领域,提供了一种基于Spark大数据平台的铝电解过热度预测模型。
背景技术
随着计算机信息领域的飞速发展,大量的数据从生活的各个方面被收集起来,互联网上各种各样信息的规模也在成几何倍数的增大,从海量的数据中迅速分析从而提取隐藏在数据中的信息变得越来越重要。
在铝电解生产过程中,过热度是指电解质温度与初晶温度的差值,是一项很重要的指标。如果电解槽工作在适当的过热度状态下,那么可以提高电流效率,降低电解槽损耗,延长电解槽寿命。但是,由于铝电解在生产过程中会涉及到大量的生产参数以及复杂的环境变化,因此过热度测量难度较大且测量过程复杂。对除过热度外的参数进行分析来预测未来过热度显得意义重大。
Spark是一个基于内存的分布式计算系统,是由UC Berkeley AMPLab实验室于2009年开发的开源数据分析集群计算框架。拥有MapReduce的所有优点,与MapReduce不同的是.Spark将计算的中间结果数据持久地存储在内存中,通过减少磁盘I/O。使后续的数据运算效率更高。Spark的这种架构设计尤其适合于机器学习、交互式数据分析等应用.这些应用都需要重复地利用计算的中间数据。在Spark和Hadoop的性能基准测试对比中,运行基于内存的logistic regression,在迭代次数相同的情况下,Spark的性能超出HadoopMapReduce 100倍以上。两者之间在计算过程中也存在一些不同之处,比如MapReduce输出的中间结果需要读写HDFS,而Spark框架会把中间结果保存在内存中。这些不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。而弹性分布式数据集(RDD,ResilientDistributed Datasets)是Spark框架的核心数据结构,它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。Spark将数据集运行的中间结果保存在内存中能够极大地提高性能,资源开销也极低,非常适合多次迭代的机器学习算法。
Spark的核心概念是RDD(resilient distributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法。RDD的具体描述RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作,可以将RDD理解为一个具有容错机制的特殊集合它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行多次重用。RDD是分布式的,可以分布在多台机器上,进行计算,并且RDD是弹性的,计算过程中内存不够时它会和磁盘进行数据交换。现有技术存在的问题是:从海量的数据集进行过热度预测容易内存溢出、时间过长和无法运行宕机。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于Spark大数据平台的铝电解过热度预测方法。本发明的技术方案如下:
一种基于Spark大数据平台的铝电解过热度预测方法,其包括步骤:
数据加载阶段:输入需要构建样本的,数据集包括设定电压、槽电压、槽电流、槽电阻、过滤电阻、平滑电阻、设定最高电压、设定最低电压、效应等待间隔、针振、摆动、电阻变化斜率、电阻总变化斜率、基准下料间隔、实际下料间隔等参数,将其转换成Spark平台的分布式数据集RDD,并且完成初始化操作;
样本集构建阶段:对每个分布式数据集RDD,使用处理时间维度样本时常用的滑窗法进行特征提取,得到样本数据集YRDD,使用过热度计算公式对每个样本进行打标;对于每个YRDD,如果正反例样本数量不平衡,则对YRDD进行过采样操作使样本数平衡;将过采样操作后的YRDD合成一个总样本数据集ZRDD作为样本集;
模型训练阶段:将样本集划分为训练集和测试集,将过热度作为标签,其他作为特征,使用Xgboost分类算法对训练集进行训练得到分类器;
过热度预测阶段:使用得到的分类器对测试集进行分类,得到分类结果并保存模型;用户读取存放在关系型数据库(mysql、sqlserver、oracle等)或数据仓库(hive)中的原始数据,去除掉无关属性,保留与模型相关的测量值和人为设定值,作为输入,调用得到模型的预测标签,完成过热度预测。可修改人为设定值进行重复预测直至满足用户需要。
进一步的,所述数据加载阶段将数据集转换成Spark平台的分布式数据集RDD,并且完成初始化操作,具体包括:
首先创建一个SparkContext对象,SparkContext是Spark的入口,负责连接Spark集群、创建RDD、累积量和广播量;
然后调用它的parallelize(DataSet)或textFile(DataSetURL)函数创建分布式数据集RDD,一旦创建完成,这个分布式数据集就可以被并行操作;即,RDD=sc.textFile(DataSetURL)。
进一步的,所述样本集构建阶段得到样本数据集YRDD具体包括:遍历RDD中的每条数据,找到该数据前9条数据,将每3条数据分为1组,算出每组数据中每个测量属性的均值、方差、最大值作为特征集;算出每组数据中每个测量属性均值与前一组数据对应均值的变化值绝对值和变化率作为特征集;
对于RDD中每条数据中的设定电压、设定最大电压、设定最小电压、效应等待间隔属性,将其作为特征,算出设定电压、设定最大电压、设定最小电压与实际电压均值的变化率和变化值绝对值,作为特征;算出设定电压、设定最大电压、设定最小电压与前9天每一天的对应值的变化率和变化值绝对值,作为特征,将得到的所有特征合起来,得到若干个样本数据集YRDD。
进一步的,找到每个YRDD中每个样本a在RDD中对应位置的样本b,找到b中的电解质温度T和分子比F两个属性,根据过热度计算公式算出样本a的过热度。过热度计算公式为SHD=Tb-Tliq,其中Tb表示电解槽温度;Tliq表示初晶温度,公式为Tliq=35MR+846,其中MR表示分子比。Tb和MR均可通过测量获得。如果算出的SHD过热度大于等于25则认为是高过热度,标签为1;反之则认为是低过热度,标签为0。
对于每个YRDD,如果正反例样本数量不为或不近似为1:1,则对YRDD进行smote过采样操作,随机因子为1到10之间的随机数,临近样本数为5,使样本数比例为1:1,将操作后的所有YRDD合成一个ZRDD作为总样本集。
进一步的,所述模型训练阶段将样本集划分为训练集和测试集,将过热度作为标签,其他作为特征,使用分类算法对训练集进行训练得到分类器。使用得到的分类器对测试集进行分类,得到分类结果并保存模型,具体包括:
(1)将ZRDD以8比2的比例划分,其中8为训练集,2为测试集,将过热度作为训练集和测试集的标签,其他作为训练集和测试集的特征;
(2)使用xgboost算法对训练集进行训练,其中max_depth=5,learning_rate=0.1,n_estimators=160,得到一个model,使用得到的分类器对测试集进行分类,调用model.save(sc,modelSavePath)对model进行持久化存储。
进一步的,所述xgboost算法具体包括包括以下步骤:
通过上一步构造出的训练集和测试集建立n_estimators个回归树,使得树群的预测值尽量接近真实值(准确率)而且有尽量大的泛化能力(更为本质的东西)。回归树的目标函数为其中i表示第i个样本,表示第i个样本的预测误差,采用平方损失来表示,公式为 表示树的复杂度的函数,越小复杂度越低,泛化能力越强。复杂度函数表达式为其中T表示叶子节点的个数,ω表示节点的数值,γ为L1正则的惩罚项,λ为L2正则的惩罚项。
进一步的,用户输入一段时间的测试数据,得到未来一段时间的过热度预测值,具体包括:
用户读取存放在关系型数据库或数据仓库中的原始数据,去除掉无关属性,保留与模型相关的测量值和人为设定值,作为输入;
调用Model.load(sc,"myModelPath")方法读取存放在HDFS中的已训练好的模型,使用模型对输入的数据进行预测,通过可视化插件将预测结果返回给用户。若用户对预测结果不满意,可通过用户界面修改人为设定值进行重新预测,直到满足用户需要。
本发明的优点及有益效果如下:
已有的传统的过热度预测方法只能得到当前监测数据与当前过热度之间的知识规则,无法对未来时间点的过热度进行有效的预测和防治。而本发明提出的基于Spark大数据平台的过热度预测方法,能够通过已有的历史数据构建出模型来预测未来时间节点的过热度,从而可以通过修改人为设定值对未来可能出现的过热情况进行及时有效的防治。而且Spark计算引擎可以缓存经常用于存储器的中间数据,能有效提高大规模数据的高迭代计算效率,更加符合数据量快速增长的实际生产环境,具有较好的实际应用价值且成本较低。
附图说明
图1是本发明提供优选实施例基于Spark大数据平台的过热度预测模型的流程框图;
图2基于Spark大数据平台的数据加载、样本集构建的流程框图;
图3基于Spark大数据平台的模型训练的流程框图;
图4基于Spark大数据平台的过热度预测部分的流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
图1为本发明流程框图,包括如下步骤:
(1)数据加载阶段
输入需要构建样本的数据集,将其转换成Spark平台的分布式数据集RDD,并且完成初始化操作。首先创建一个SparkContext对象,SparkContext是Spark的入口,负责连接Spark集群,创建RDD,累积量和广播量等。然后调用它的parallelize(DataSet)或textFile(DataSetURL)函数创建分布式数据集RDD,一旦创建完成,这个分布式数据集就可以被并行操作;即,RDD=sc.textFile(DataSetURL)。
(2)样本集构建阶段
对于一个RDD,遍历RDD中的每条数据,找到该数据前9条数据(如果有的话),将前1-3条,3-6条,6-9条数据分别作为1个分区,算出每个分区中槽电压、槽电流、槽电阻、过滤电阻、平滑电阻、针振、摆动、电阻变化斜率、电阻总变化斜率、基准下料间隔、实际下料间隔、铁含量、硅含量、铝水平、电解质水平、析出铝等属性的均值、方差、最大值作为特征集;算出每个分区数据中槽电压、槽电流、槽电阻、过滤电阻、平滑电阻、针振、摆动、电阻变化斜率、电阻总变化斜率、基准下料间隔、实际下料间隔、铁含量、硅含量、铝水平、电解质水平、析出铝等属性均值与前一组数据对应均值的变化值绝对值和变化率作为特征集。
对于RDD中每条数据中的设定电压、设定最大电压、设定最小电压、效应等待间隔属性,将其作为特征。算出设定电压、设定最大电压、设定最小电压与实际电压均值的变化率和变化值绝对值,作为特征;算出设定电压、设定最大电压、设定最小电压与前9天每一天的对应值的变化率和变化值绝对值,作为特征。将得到的所有特征合起来,得到若干个样本数据集YRDD。
找到每个YRDD中每个样本a在RDD中对应位置的样本b。找到b中的电解质温度T和分子比F两个属性,根据过热度计算公式算出样本a的过热度。公式为如果过热度大于等于25则认为是高过热度,标签为1;反之则认为是低过热度,标签为0。
对于每个YRDD,如果正反例样本数量不为或不近似为1:1,则对YRDD进行smote过采样操作,随机因子为1到10之间的随机数,临近样本数为5,使样本数比例为1:1。将操作后的所有YRDD合成一个ZRDD作为总样本集。
(3)模型训练阶段
Spark1.6只能用XGBoost0.7之前的版本,最大概率所属类别需自己算出。因此选择了spark2.0与XGBoost0.7。设置max_depth=5,learning_rate=0.1,n_estimators=160,使用训练集进行训练,生成一个XGBoostModel,使用model.save(sc,modelSavePath)对模型进行持久化存储,将其存入HDFS中。
(4)过热度预测阶段
(1)用户读取存放在关系型数据库(mysql、sqlserver、oracle等)或数据仓库(hive)中的原始数据,去除掉无关属性,保留与模型相关的测量值和人为设定值,作为输入。
(2)调用Model.load(sc,"myModelPath")方法读取存放在HDFS中的已训练好的模型。使用模型对输入的数据进行预测,通过可视化插件将预测结果返回给用户。若用户对预测结果不满意,可通过用户界面修改人为设定值进行重新预测,直到满足用户需要。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,包括步骤:
数据加载阶段:输入需要构建样本的数据集,数据集包括设定电压、槽电压、槽电流、槽电阻、过滤电阻、平滑电阻、设定最高电压、设定最低电压、效应等待间隔、针振、摆动、电阻变化斜率、电阻总变化斜率、基准下料间隔及实际下料间隔参数,将其转换成Spark平台的分布式数据集RDD,并且完成初始化操作;
样本集构建阶段:对每个分布式数据集RDD,使用处理时间维度样本时常用的滑窗法进行特征提取,得到样本数据集YRDD,使用过热度计算公式对每个样本进行打标;对于每个YRDD,如果正反例样本数量不平衡,则对YRDD进行过采样操作使样本数平衡;将过采样操作后的YRDD合成一个总样本数据集ZRDD作为样本集;
模型训练阶段:将样本集划分为训练集和测试集,将过热度作为标签,其他作为特征,使用Xgboost分类算法对训练集进行训练得到分类器;
过热度预测阶段:使用得到的分类器对测试集进行分类,得到分类结果并保存模型;用户读取存放在关系型数据库或数据仓库中的原始数据,去除掉无关属性,保留与模型相关的测量值和人为设定值,作为输入,调用得到模型的预测标签,完成过热度预测。可修改人为设定值进行重复预测直至满足用户需要。
2.根据权利要求1所述的一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,所述数据加载阶段将数据集转换成Spark平台的分布式数据集RDD,并且完成初始化操作,具体包括:
首先创建一个SparkContext对象,SparkContext是Spark的入口,负责连接Spark集群、创建RDD、累积量和广播量;
然后调用它的parallelize(DataSet)或textFile(DataSetURL)函数创建分布式数据集RDD,一旦创建完成,这个分布式数据集就可以被并行操作;即,RDD=sc.textFile(DataSetURL)。
3.根据权利要求1所述的一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,所述样本集构建阶段得到样本数据集YRDD具体包括:遍历RDD中的每条数据,找到该数据前9条数据,将每3条数据分为1组,算出每组数据中每个测量属性的均值、方差、最大值作为特征集;算出每组数据中每个测量属性均值与前一组数据对应均值的变化值绝对值和变化率作为特征集;
对于RDD中每条数据中的设定电压、设定最大电压、设定最小电压、效应等待间隔属性,将其作为特征,算出设定电压、设定最大电压、设定最小电压与实际电压均值的变化率和变化值绝对值,作为特征;算出设定电压、设定最大电压、设定最小电压与前9天每一天的对应值的变化率和变化值绝对值,作为特征,将得到的所有特征合起来,得到若干个样本数据集YRDD。
4.根据权利要求3所述的一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,找到每个YRDD中每个样本a在RDD中对应位置的样本b,找到b中的电解质温度T和分子比F两个属性,根据过热度计算公式算出样本a的过热度,过热度计算公式为SHD=Tb-Tliq,其中Tb表示电解槽温度;Tliq表示初晶温度,公式为Tliq=35MR+846,其中MR表示分子比,Tb和MR均可通过测量获得,如果算出的SHD过热度大于等于25则认为是高过热度,标签为1;反之则认为是低过热度,标签为0。
对于每个YRDD,如果正反例样本数量不为或不近似为1:1,则对YRDD进行smote过采样操作,随机因子为1到10之间的随机数,临近样本数为5,使样本数比例为1:1,将操作后的所有YRDD合成一个ZRDD作为总样本集。
5.根据权利要求4所述的一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,所述模型训练阶段将样本集划分为训练集和测试集,将过热度作为标签,其他作为特征,使用分类算法对训练集进行训练得到分类器。使用得到的分类器对测试集进行分类,得到分类结果并保存模型,具体包括:
(1)将ZRDD以8比2的比例划分,其中8为训练集,2为测试集,将过热度作为训练集和测试集的标签,其他作为训练集和测试集的特征;
(2)使用Xgboost算法对训练集进行训练,其中max_depth=5,learning_rate=0.1,n_estimators=160,得到一个model,使用得到的分类器对测试集进行分类,调用model.save(sc,modelSavePath)对model进行持久化存储。
6.根据权利要求5所述的一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,所述xgboost算法具体包括包括以下步骤:
通过上一步构造出的训练集和测试集建立n_estimators个回归树,使得树群的预测值尽量接近真实值而且有尽量大的泛化能力,回归树的目标函数为其中i表示第i个样本,表示第i个样本的预测误差,采用平方损失来表示,公式为 表示树的复杂度的函数,越小复杂度越低,泛化能力越强,复杂度函数表达式为其中T表示叶子节点的个数,ω表示节点的数值,γ为L1正则的惩罚项,λ为L2正则的惩罚项。
7.根据权利要求5所述的一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,用户输入一段时间的测试数据,得到未来一段时间的过热度预测值,具体包括:
用户读取存放在关系型数据库或数据仓库中的原始数据,去除掉无关属性,保留与模型相关的测量值和人为设定值,作为输入;调用Model.load(sc,"myModelPath")方法读取存放在HDFS中的已训练好的模型,使用模型对输入的数据进行预测,通过可视化插件将预测结果返回给用户。若用户对预测结果不满意,可通过用户界面修改人为设定值进行重新预测,直到满足用户需要。
CN201811304841.6A 2018-10-31 2018-10-31 一种基于Spark大数据平台的铝电解过热度预测方法 Pending CN109285589A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811304841.6A CN109285589A (zh) 2018-10-31 2018-10-31 一种基于Spark大数据平台的铝电解过热度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811304841.6A CN109285589A (zh) 2018-10-31 2018-10-31 一种基于Spark大数据平台的铝电解过热度预测方法

Publications (1)

Publication Number Publication Date
CN109285589A true CN109285589A (zh) 2019-01-29

Family

ID=65175355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811304841.6A Pending CN109285589A (zh) 2018-10-31 2018-10-31 一种基于Spark大数据平台的铝电解过热度预测方法

Country Status (1)

Country Link
CN (1) CN109285589A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647942A (zh) * 2019-09-25 2020-01-03 广东电网有限责任公司 一种用于卫星网络的入侵检测方法、装置和设备
CN111309577A (zh) * 2020-02-19 2020-06-19 北京工业大学 一种面向Spark的批处理应用执行时间预测模型构建方法
CN111402195A (zh) * 2020-01-06 2020-07-10 江西铜业股份有限公司 一种电解槽红外智能巡检方法
CN112652365A (zh) * 2020-03-05 2021-04-13 腾讯科技(深圳)有限公司 逆合成处理方法、装置、电子设备及计算机可读存储介质
CN111309577B (zh) * 2020-02-19 2024-04-23 北京工业大学 一种面向Spark的批处理应用执行时间预测模型构建方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130319874A1 (en) * 2009-03-26 2013-12-05 Alcoa Inc. System, method and apparatus for measuring electrolysis cell operating conditions and communicating the same
CN106779219A (zh) * 2016-12-19 2017-05-31 北京中电普华信息技术有限公司 一种用电量预测方法及系统
CN106778033A (zh) * 2017-01-10 2017-05-31 南京邮电大学 一种基于Spark平台的Spark Streaming异常温度数据报警方法
CN107103332A (zh) * 2017-04-07 2017-08-29 武汉理工大学 一种面向大规模数据集的相关向量机分类方法
CN107204004A (zh) * 2017-04-26 2017-09-26 中南大学 一种铝电解槽火眼视频动态特征识别方法及系统
CN107358300A (zh) * 2017-06-19 2017-11-17 北京至信普林科技有限公司 一种基于多平台自主预测的智能运维告警过滤方法及系统
CN107704966A (zh) * 2017-10-17 2018-02-16 华南理工大学 一种基于天气大数据的能源负荷预测系统及方法
CN107704970A (zh) * 2017-10-24 2018-02-16 上海电器科学研究所(集团)有限公司 一种基于Spark的需求侧负荷预测方法
CN108277506A (zh) * 2018-02-07 2018-07-13 中南大学 一种铝电解过热度不平衡数据的自适应过采样方法
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统
CN108647373A (zh) * 2018-03-21 2018-10-12 浙江大学 一种基于xgboost模型的工业过程软测量方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130319874A1 (en) * 2009-03-26 2013-12-05 Alcoa Inc. System, method and apparatus for measuring electrolysis cell operating conditions and communicating the same
CN106779219A (zh) * 2016-12-19 2017-05-31 北京中电普华信息技术有限公司 一种用电量预测方法及系统
CN106778033A (zh) * 2017-01-10 2017-05-31 南京邮电大学 一种基于Spark平台的Spark Streaming异常温度数据报警方法
CN107103332A (zh) * 2017-04-07 2017-08-29 武汉理工大学 一种面向大规模数据集的相关向量机分类方法
CN107204004A (zh) * 2017-04-26 2017-09-26 中南大学 一种铝电解槽火眼视频动态特征识别方法及系统
CN107358300A (zh) * 2017-06-19 2017-11-17 北京至信普林科技有限公司 一种基于多平台自主预测的智能运维告警过滤方法及系统
CN107704966A (zh) * 2017-10-17 2018-02-16 华南理工大学 一种基于天气大数据的能源负荷预测系统及方法
CN107704970A (zh) * 2017-10-24 2018-02-16 上海电器科学研究所(集团)有限公司 一种基于Spark的需求侧负荷预测方法
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统
CN108277506A (zh) * 2018-02-07 2018-07-13 中南大学 一种铝电解过热度不平衡数据的自适应过采样方法
CN108647373A (zh) * 2018-03-21 2018-10-12 浙江大学 一种基于xgboost模型的工业过程软测量方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨吉森 等: "一种铝电解过热度软测量预测模型", 《2017中国自动化大会(CAC2017)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647942A (zh) * 2019-09-25 2020-01-03 广东电网有限责任公司 一种用于卫星网络的入侵检测方法、装置和设备
CN110647942B (zh) * 2019-09-25 2022-05-17 广东电网有限责任公司 一种用于卫星网络的入侵检测方法、装置和设备
CN111402195A (zh) * 2020-01-06 2020-07-10 江西铜业股份有限公司 一种电解槽红外智能巡检方法
CN111309577A (zh) * 2020-02-19 2020-06-19 北京工业大学 一种面向Spark的批处理应用执行时间预测模型构建方法
CN111309577B (zh) * 2020-02-19 2024-04-23 北京工业大学 一种面向Spark的批处理应用执行时间预测模型构建方法
CN112652365A (zh) * 2020-03-05 2021-04-13 腾讯科技(深圳)有限公司 逆合成处理方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112990280B (zh) 面向图像大数据的类增量分类方法、系统、装置及介质
CN108108762B (zh) 一种用于冠心病数据的核极限学习机及随机森林分类方法
CN107358247B (zh) 一种确定流失用户的方法及装置
CN109285589A (zh) 一种基于Spark大数据平台的铝电解过热度预测方法
CN106874478A (zh) 基于Spark的并行化随机标签子集多标签文本分类方法
CN108921188A (zh) 一种基于Spark大数据平台的并行CRF算法
CN106067029B (zh) 面向数据空间的实体分类方法
Peng et al. Hierarchical Harris hawks optimizer for feature selection
WO2022088390A1 (zh) 图像的增量聚类方法、装置、电子设备、存储介质及程序产品
Seghier et al. Performance benchmarking and comparison of NoSQL databases: Redis vs mongodb vs Cassandra using YCSB tool
CN116796141A (zh) 一种基于gbdt回归模型的办公建筑能耗预测方法
CN109727637B (zh) 基于混合蛙跳算法识别关键蛋白质的方法
CN113836822A (zh) 一种基于mclstm模型的航空发动机寿命预测方法
CN105913085A (zh) 一种基于张量模式的多源数据分类优化方法及系统
CN109360598B (zh) 一种基于两阶段采样的蛋白质结构预测方法
CN115208651B (zh) 基于逆习惯化机制的流聚类异常检测方法及系统
CN109033678A (zh) 一种基于虚拟样本生成的飞行器近似优化设计方法
CN111860622B (zh) 一种应用于编程现场大数据的聚类方法及系统
Qin et al. A distributed ensemble of relevance vector machines for large-scale data sets on Spark
Liu et al. A potential-based clustering method with hierarchical optimization
Aghdasi et al. K-harmonic means data clustering using combination of particle swarm optimization and tabu search
Zhang et al. Small files storing and computing optimization in Hadoop parallel rendering
Zhang Data Information Technology Evaluation Algorithm Based on Knowledge Graph and Feature Recognition
CN108446375A (zh) 一种基于Spark平台的多尺度关联规则方法
Ye et al. On Machine Learning-based Stage-aware Performance Prediction of Spark Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190129