CN112687349A - 一种降低辛烷值损失模型的构建方法 - Google Patents

一种降低辛烷值损失模型的构建方法 Download PDF

Info

Publication number
CN112687349A
CN112687349A CN202011561470.7A CN202011561470A CN112687349A CN 112687349 A CN112687349 A CN 112687349A CN 202011561470 A CN202011561470 A CN 202011561470A CN 112687349 A CN112687349 A CN 112687349A
Authority
CN
China
Prior art keywords
data
value
model
steps
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011561470.7A
Other languages
English (en)
Inventor
杨佳丽
李升�
陈宝琴
杨培浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ocean University
Original Assignee
Guangdong Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ocean University filed Critical Guangdong Ocean University
Priority to CN202011561470.7A priority Critical patent/CN112687349A/zh
Publication of CN112687349A publication Critical patent/CN112687349A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种降低辛烷值损失模型的构建方法,涉及能源材料技术领域,能够在保证汽油产品脱硫效果的前提下,降低汽油中辛烷值的损失,从而使汽油中的辛烷值含量增加,这不仅可以使汽油机的动力性更好,还可以获得更高的经济性,具体方案为:包括以下步骤:S1:获取原始数据;S2:对数据进行预处理,包括缺失值处理、数据插补和异常值处理;S3:对预处理后的数据进行分析和特征提取;S4:建立模型;S2过程中,对数据值为0的位点作为缺失数据进行数据的预处理;对缺失数据作删除处理。本发明构建的模型具有更高的精确性,能够有效得生产相应的模型。

Description

一种降低辛烷值损失模型的构建方法
技术领域
本发明涉及能源材料技术领域,更具体地说,它涉及一种降低辛烷值损失模型的构建方法。
背景技术
汽油是一种从石油裏分馏或裂化、裂解出来的具有挥发性、可燃性的烃类混合物液体,主要用作汽车发动机的燃料。随着中国经济的持续发展,汽车的保有量持续增长,截至2019年底,全国汽车保有量达2.6亿辆,与2018年底相比,增加2122万辆,增长率高达8.83%。 2019年的BP世界能源统计年鉴中提到,2018年的全球石油消耗量为4662.1百万吨,全球石油的消耗量每年以1%-2%的速度持续增长。
随着一次性能源的紧缺以及其消耗量的快速增加,提高汽油机的热效率,可以有效的改善汽油使用的经济性。在提高汽油机的热效率中,提高汽油机的压缩比是一种有效提高其热效率的途径,但与此同时对汽油的抗爆震性有了更高的要求。因为汽油机的热功效率与其压缩比有直接关系,但是压缩比受汽油燃料抗爆性的制约,如果汽油的辛烷值过低,汽油机在运转过程中会产生震爆现象,这不仅会影响汽油机的热工效率还会引起缸头、活塞、缸体的损坏。如果汽油燃料具有很好的抗爆性,可以有效的提高经济效益。
辛烷值是衡量汽油在气缸内抗爆震燃烧能力的一种数字表示,其值越高表示抗爆性越好,是汽油最重要的控制指标,所以汽油中的辛烷值要相应的提高。在标准试验条件下,汽油辛烷值的测定是以异辛烷和正庚烷为标准燃料,调节标准燃料组成的比例,使标准燃料产生的爆震强度与试样相同,此时标准燃料中异辛烷所占的体积百分数就是试样的辛烷值。然而对于汽油的清洁化主要依靠对汽油的掺混原料进行脱硫以及降烯烃处理,目前的脱硫工艺流程会导致脱硫后的汽油中的辛烷值降低。
发明内容
为解决上述技术问题,本发明提供一种降低辛烷值损失模型的构建方法,能够在保证汽油产品脱硫效果的前提下,降低汽油中辛烷值的损失,从而使汽油中的辛烷值含量增加,这不仅可以使汽油机的动力性更好,还可以获得更高的经济性。
本发明通过以下技术方案得以实现的:
一种降低辛烷值损失模型的构建方法,包括以下步骤:
S1:获取原始数据;
S2:对数据进行预处理,包括缺失值处理、数据插补和异常值处理;
S3:对预处理后的数据进行分析和特征提取;
S4:建立模型;
S2过程中,对数据值为0的位点作为缺失数据进行数据的预处理;对缺失数据作删除处理;对缺失数据采用均值替换法处理;异常值的判别方法包括简单统计分析法、拉依达准则和箱型图分析;异常值的处理方法包括删除异常值和将异常值视为缺失值。
作为一种优选方案,均值替换法中,缺失数据使用前后两个小时数据的平均值替换。
作为一种优选方案,异常数据处理具体判定方法和处理方法包括如下步骤:将所有数值由小到大排列并分成四等分;其中,处理三个分割点位置的数值为四分位数,较小四分位数为数据的25%分位点所对应的值Q1,中位数为数据的50%分位点所对应的值Q2,较大四分位数为数据的75%分位点所对应的值Q3;上须的计算公式为 Q3+1.5(Q3-Q1);下须的计算公式为Q1-1.5(Q3-Q1);其中, Q3-Q1为四分位差;采用箱线图进行异常数据识别,当变量的数据值大于箱线图的上须或者小于箱线图的下须时,判定该数据点为异常数据;对异常数据进行删除处理。
作为一种优选方案,异常数据还包括普通异常数据和极端异常数据,其中:
数据满足x>Q3+1.5(Q3-Q1)或者x<Q1-1.5(Q3-Q1)为普通异常数据;
数据满足x>Q3+3(Q3-Q1)或者x<Q1-3(Q3-Q1)为极端异常数据;
对普通异常数据保留,对极端异常数据作删除处理。
作为一种优选方案,对极端异常数据作删除处理后,再使用拉依达准则进行异常值处理,具体包括以下步骤:假定一组检测数据只含有随机误差,对该组检测进行计算处理得到标准偏差,按一定概率确定一个区间,处于(μ-3σ,u+3σ)区间内的样本数据可以视为正常值,反之为异常值;对异常值作删除和替换处理。
作为一种优选方案,S3过程具体包括以下步骤:对S2处理后的数据进行标准化和归一化处理,并进行相关性分析,然后通过随机森林和最大信息系数进行特征提取。
作为一种优选方案,数据标准化处理具体包括以下步骤:
假定训练数据集有n条网络连接记录,每个记录中有354个属性向量记作Xij(1≤i≤n,1≤j≤354);
标准化计算具体包括以下步骤:
Figure RE-GDA0002983036040000041
Figure RE-GDA0002983036040000042
其中,AVGj为平均值,STADj为平均绝对偏差,比标准差
Figure RE-GDA0002983036040000043
对于孤立点具有更好的鲁棒性;
公式(1)和(2)计算时,如果AVGj等于0,则Xij=0;如果STADj等于0,则Xij=0。
作为一种优选方案,数值归一化处理具体包括以下步骤:
假定X″ij为X′ij归一化后的值:
Figure RE-GDA0002983036040000044
其中下标变量1≤i≤n,1≤j≤m,Xmax=max{Xij′}为最大值,Xmin=min{Xij′}为最小值。
作为一种优选方案,相关性分析具体包括Pearson相关性分析、 Spearman相关性分析和随机森林权重分析;
Pearson相关性分析计算具体包括以下步骤:
Figure RE-GDA0002983036040000051
其中,取值范围为-1到+1,-1表示完全的负相关,+1表示完全的正相关,0表示没有线性相关;
Spearman相关性分析计算具体包括以下步骤:
由排行差分集合计算得出:
Figure RE-GDA0002983036040000052
由排行集合x、y计算而得:
Figure RE-GDA0002983036040000053
随机森林权重分析具体包括降维和聚类;
降维具体包括以下步骤:对Pearson相关性分析和Spearman相关性分析提出不相关数据后,对剩余特征进行降维,具体计算方法包括以下步骤:
T1:利用随机邻接嵌入算法将数据点之间的欧几里得距离转化为条件概率来表达点与点之间的相似度;假设给定的高维空间数据点集合为X={x1,x2,…,xn},以数据点xi为中心,用高斯分布选择xj作为近邻点的条件概率pj|i
Figure RE-GDA0002983036040000061
其中σi是以数据点xi为均值的高斯分布标准差;
T2:假设维空间数据点集合X={x1,x2,…,xn}在低维空间中对应映射的数据点集合为Y={y1,y2,…,yn},以数据点yi为中心,用高斯分布选择yj作为近邻点的条件概率;
Figure RE-GDA0002983036040000062
T3:使用t分布随机邻域嵌入算法(t-SNE)减轻SNE的拥挤问题,使得同一簇内的点聚合的更紧密,不同簇之间的点更加疏远;
T4:定义条件概率矩阵的困惑度:
Figure RE-GDA0002983036040000063
其中H(pi)为pi的香农熵:
H(pi)=-∑jpj|ilog2pj|i (10)
聚类具体包括以下步骤:
Q1:计算数据间相似度,获取数据的相似度矩阵S,再选取参考度P值;其中,P值取S中值;
Q2:设置一个最大迭代次数,迭代过程开始后,计算每一次的R 值和A值,根据R(k,k)+A(k,k)来判定是否为聚类中心,当迭代次数超过最大值或者当聚类中心连续多少次迭代不发生改变时终止运算;
Q3:根据求出聚类中心,进行数据分类,得到六大类。
作为一种优选方案,随机森林特征提取步骤包括随机选择样本、随机选择特征、构建决策树和随机森林投票,判断每个特征在随机森林中的每棵树上做出的贡献,然后取平均值,最后比较特征之间的贡献大小,具体计算方法包括以下步骤:
W1:对每一颗决策树,选择相应的袋外数据(OOB),计算袋外数据误差,记为errOOB1,然后随机对袋外数据OOB所有样本的特征X加入噪声干扰,再次计算袋外数据误差,记为errOOB2,假设森林中有N棵树,则特征X的重要性由式(11)给出
Figure RE-GDA0002983036040000071
计算出每个特征的重要性后,按降序排序;
W2:确定要剔除的比例,从当前的特征变量中剔除相应比例不重要的指标,得到一个新的特征集;
W3:用新的特征集重复上述过程,直到剩下m个特征;
W4:根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集。
作为一种优选方案,S4过程包括对筛选后的样本数据的信息进行处理和分析,构建辛烷值损失预测模型;
信息处理包括数据的归一化处理,使得实际值映射到[0,1]区间内,具体计算方法包括以下步骤:
Figure RE-GDA0002983036040000072
其中,Y为单测点X的归一化值,Xmin为X的最小值,Xmax为 X的最大值;
然后保留个测点分布参数Xmin和Xmax用于对实际运行状态数据进行归一化;
构建模型具体包括LSTM神经网络和BP神经网络;
LSTM神经网络的训练过程具体包括以下步骤:
E1:将神经网络中的权值矩阵W和偏置向量b进行初始化处理,确定输入数据集x;
E2:输入门用于控制当前输入数据xt流入记忆单元的多少,即在时间步t时,有多少可以保存到记忆单元ct,其值可以由式(13)表示:
it=σ(Wxixt+Whiht-1+bi) (13)
其中,xt和ht分别表示LSTM的隐藏层的输入和输出向量,激活函数选取sigmoid函数,即
Figure RE-GDA0002983036040000081
E3:遗忘门控制自连接单元,决定要从单元状态中丢弃哪些信息, 即上一时刻记忆单元ct-1中的信息对当前记忆单元ct的影响,计算公式由式(14)和式(15)给出:
ft=σ(Wxfxt+Whfht-1+bf) (14)
ct=ft⊙ct-1+i⊙tanh(Wxcxt+Whcht-1+bc) (15)
E4:输出门控制记忆单元ct对当前输出值ht的影响,即记忆单元中的哪一部分会在时间步t输出;输出门的值由式(16)给出,LSTM单元的在t时刻的输出ht可以通过式(17)得到:
ot=σ(Wxoxt+Whoht-1+bo) (16)
ht=ot⊙tanh(ct) (17)
BP神经网络模型的训练过程如下:
R1:将神经网络各层之间的参数和权值进行初始化处理,确定输入数据集x和输出数据集y,输入层层数n,隐含层层数q,输出层层数m,确定BP神经网络的学习速率与神经元的激励函数;
R2:计算BP神经网络模型隐含层输出Hj如式(18)所示,根据输入层的数据集与连接权值wij得到输出值:
Figure RE-GDA0002983036040000091
其中,函数f为隐含层激励函数,激励函数的选择取决于模型的构建方式,BP神经网络模型的激活函数选择sigmoid函数;
R3:输入层计算,根据步骤R2得到的隐含层输出Hj,将其输入到隐含层与输出层网络中,计算神经网络模型的预测输出,其计算公式由式(19)给出:
Figure RE-GDA0002983036040000092
R4:误差反向传播,重新调整连接层之间的权值,用BP神经网络模型的预测输出yp与真实输出Y作比较,将yp与Y作差取绝对值,得到网络模型的误差e;以预测误差e为标准,采用函数求导方式,使得输出结果达到收敛为止,最终完成对权值的迭代替换,更新权值的计算公式由式(20)给出:
Figure RE-GDA0002983036040000101
其中,η为学习率ep=yp-Yp
R5:更新隐含层和输出层的阈值,利用(20)计算得到的预测误差 ep,来更新替换模型的阈值a和b;计算公式由式(21)给出:
Figure RE-GDA0002983036040000102
根据以上步骤来更新调整各参数值,如果已经达到预期误差精度,则跳出循环直接输出结果;否则跳到step2重新计算新一轮的结果,直到达到精度要求。
综上所述,本发明具有以下有益效果:
本发明构建的模型具有更高的精确性,能够有效得生产相应的模型。
附图说明
图1是本发明实施例的模型构建的结构示意图;
图2是本发明实施例中的pearson前5个特征与RON损失比热图;
图3是本发明实施例中的LSTM的结构示意图;
图4是本发明实施例中的BP神经网络结构示意图。
具体实施方式
本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包括”为一开放式用语,故应解释成“包括但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。
本说明书及权利要求的上下左右等方位名词,是结合附图以便于进一步说明,使得本申请更加方便理解,并不对本申请做出限定,在不同的场景中,上下、左右、里外均是相对而言。
以下结合附图对本发明作进一步详细说明。
表1 为符号说明图:
Figure RE-GDA0002983036040000111
表1
问题一分析
采集到的原始数据无法直接使用,大部分变量的数据正常,但是每套装置的数据均有部分位点存在问题。原始数据在采集过程中部分变量只含有部分时间段的数据,部分变量的数据全部为空值或者部分为空值。数据异常、数据缺失等问题会导致数据质量下降,低质量的数据会导致数据挖掘的结果出现偏差,因此要对原始数据进行预处理。
数据预处理
缺失数据处理
将数据值为0的数据作为缺失数据来进行数据的预处理。在数据处理中,缺失值的处理方法通常有三类:删除记录、数据插补、不处理。常用的数据插补方法有个案剔除法、均值替换法、热卡填充法、回归替换法、多重替代法。数据插补只是将我们主观的估计值去填补未知的缺失值,也会带来一定的误差。
(1)删除数据处理
将位点中数据值全为0的位点进行删除处理。
(2)数据插补处理
均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。本申请对于数据的插补采用了均值替换法和前均值替换法。根据缺失值前后两小时数据的平均值进行代替。
异常数据处理
异常值的判别方法通常有三种:简单统计分析法、拉依达准则、箱型图分析。异常值的处理方法通常有四种:删除异常值、将异常值视为缺失值,根据缺失值的处理方法来处理、用平均值修正、不处理。
(1)利用四分位数的异常数据处理
利用四分位数(Quartile)进行最大最小界限剔除异常值,四分位数是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。较小四分位数指的是数据的25%分位点所对应的值(Q1);中位数即为数据的50%分位点所对应的值(Q2);较大四分位数则为数据的75%分位点所对应的值 (Q3);上须的计算公式为Q3+1.5(Q3-Q1);下须的计算公式为 Q1-1.5(Q3-Q1)。其中,Q3-Q1表示四分位差。如果采用箱线图识别异常值,其判断标准是,当变量的数据值大于箱线图的上须或者小于箱线图的下须时,就可以认为这样的数据点为异常点。可以定义某个数值型变量中的异常点和极端异常点,它们的判断表达式如下表 2所示。
表2 异常点的判断标准
Figure RE-GDA0002983036040000131
Figure RE-GDA0002983036040000141
(2)基于拉依达准则的异常数据处理
提供的样本数据持续时间长,积累的数据量大,适用于拉依达准则来进行数据的后期处理及分析。拉依达准则是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,属于粗大误差的数据应予以剔除。这种判别处理原理及方法适用于正态或近似正态分布的样本数据处理,根据拉依达准则处于 (μ-3σ,u+3σ)区间内的样本数据可以视为正常值,反之为异常值。
问题二分析
经过对数据的缺失值和异常值处理后,发现本案例属性较多,因此需要进行主要变量的筛选。在筛选过程中发现线性、非连续型特征属性,各属性的度量方法不一样,为了避免对度量单位选择的依赖,首先需要对属性值进行标准化、归一化处理;然后利用Pearson和 Spearman进行相关性分析;最后利用随机森林和最大信息系数进行主要变量选择。
数据变换
设训练数据集有n条网络连接记录,每个记录中有354个属性向量记作Xij(1≤i≤n,1≤j≤354)。对Xij数据预处理分两步:数值标准化和数值归一化。
数值标准化
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
原料性质、产品性质、待生吸附剂性质、再生吸附剂性质均不属于操作变量,所以我们只需对RON损失值特征以及其后354的特征进行数据变化,标准化公式由式(5.1)和式(5.2)给出。
Figure RE-GDA0002983036040000151
Figure RE-GDA0002983036040000152
其中AVGj为平均值,STADj为平均绝对偏差,比标准差
Figure RE-GDA0002983036040000153
对于孤立点具有更好的鲁棒性。
在上述计算时需做如下判断:
(1)如果AVGj等于0,则Xij=0;
(2)如果STADj等于0,则Xij=0。
数值归一化
数据归一化是为了数据处理方便提出来的,把数据映射到0~1 范围之内处理,更加便捷快速,设X″ij为X′ij归一化后的值,由式(5.3) 给出:
Figure RE-GDA0002983036040000161
其中下标变量1≤i≤n,1≤j≤m,Xmax=max{Xij′}为最大值, Xmin=min{Xij′}为最小值。
特征提取
特征提取是从原始数据中选择对于预测属于而言最好的特征的过程。更正式地说,给定n个特征,我们搜索其中包括k(k<n)个特征的子集来改善机器学习流水线的性能。在这针对对特征提取我们选择了4种方法进行了分析比较,最终利用随机森林计算属性权重和最大互信息分析(MIC)来提取特征,特征提取方法如下。
Pearson相关性分析
皮尔森相关系数(Pearson Correlation Coefficient)是一种最简单的,能帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性,取值范围为-1到+1,-1表示完全的负相关, +1表示完全的正相关,0表示没有线性相关。由式(5.4)给出。
Figure RE-GDA0002983036040000162
Spearman相关性分析
斯皮尔曼等级相关系数(spearman)它是衡量两个变量的依赖性的非参数指标。它利用单调方程评价两个统计变量的相关性。如果数据中没有重复值,并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或-1,其计算方式如下。
由排行差分集合d计算得出,由式(5.5)给出。
Figure RE-GDA0002983036040000171
由排行集合x、y计算而得(斯皮尔曼等级相关系数同时也被认为是经过排行的两个随即变量的皮尔逊相关系数,以下实际是计算x、 y的皮尔逊相关系数),由式(5.6)给出。
Figure RE-GDA0002983036040000172
通过利用Pearson和Spearman相关性算法,将RON损失和354 个属性做相关性比较,提取出相关性大的前29个属性。
随机森林权重分析
(1)降维
由于原料性质、产品性质、待生吸附剂性质、再生吸附剂性质均不属于操作变量,我们需要对剩余已经标准化的特征进行降维,然后通过python中的pandas库合并RON损失。
t-SNE是由Laurens van der Maaten和Geoffrey Hinton在08年提出来一种t分布随机邻域嵌入算法,主要用于高维数据的非线性降维。 t-SNE算法将高维空间的数据映射到二维空间,并且最小化所有数据点在分布间的差距,由于t分布具有较长的尾部,这会使数据点更均匀的分布在二维空间中。
具体计算步骤如下:
Step1:利用随机邻接嵌入(SNE)算法将数据点之间的欧几里得距离转化为条件概率来表达点与点之间的相似度。假设给定的高维空间数据点集合为X={x1,x2,…,xn},以数据点xi为中心,用高斯分布选择xj作为近邻点的条件概率pj|i,由式(5.7)给出。
Figure RE-GDA0002983036040000181
其中σi是以数据点xi为均值的高斯分布标准差。
Step2:假设维空间数据点集合X={x1,x2,…,xn}在低维空间中对应映射的数据点集合为Y={y1,y2,…,yn},以数据点yi为中心,用高斯分布选择yj作为近邻点的条件概率qj|i,由式(5.8)给出。
Figure RE-GDA0002983036040000182
Step3:使用t分布随机邻域嵌入算法(t-SNE)减轻SNE的拥挤问题,使得同一簇内的点聚合的更紧密,不同簇之间的点更加疏远。 Step4:定义条件概率矩阵的困惑度,由式(5.9)给出。
Figure RE-GDA0002983036040000183
其中H(pi)为pi的香农熵,表达式由式(5.10)给出。
H(pi)=-∑jpj|ilog2pj|i (5.10)
(2)聚类
对以上降维的数据进行聚类,聚成来六大类,其聚类方法我采用了AP聚类。
AP算法是在2007年提出的一种新的聚类算法。它的基本思想是将全部数据节点都看作潜在的聚类中心,然后通过数据节点两两之间连接构成一个网络,在通过网络中的各条边的消息传递计算出样本最终的聚类中心。在聚类的过程中,AP算法通过迭代不断更新每一个数据节点的吸引度(responsibility)和归属度(availability)的值,直到产生质心(exemplar)。AP算法在初始时不需要设置聚类中心的个数,这样符合找出合适聚类的需求;而且AP算法允许数据呈非对称,使得数据的适用范围特别大;它对数据的初始值不敏感,省去了进行随机初始值选取的步骤,但是AP算法的复杂度较高,计算耗时较久。
AP算法的流程:
Step1:计算数据间相似度,获取数据的相似度矩阵S。再选取参考度P值(一般取S的中值)
Step2:设置一个最大迭代次数,迭代过程开始后,计算每一次的 R值和A值,根据R(k,k)+A(k,k)来判定是否为聚类中心,当迭代次数超过最大值或者当聚类中心连续多少次迭代不发生改变时终止运算。
Step3:根据求出聚类中心,进行数据分类。分为六大类。
(3)随机森林特征提取
在机器学习中,随机森林主要包括4个部分:随机选择样本、随机选择特征、构建决策树、随机森林投票分类。随机森林中进行特征重要性的评估思想为:判断每个特征在随机森林中的每颗树上做了多大的贡献,然后取个平均值,最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。
随机森林特征选取的具体步骤:
Step1:对每一颗决策树,选择相应的袋外数据(OOB)计算袋外数据误差,记为errOOB1,然后随机对袋外数据OOB所有样本的特征X加入噪声干扰,再次计算袋外数据误差,记为errOOB2,假设森林中有N棵树,则特征X的重要性由式(5.11)给出
Figure RE-GDA0002983036040000201
计算出每个特征的重要性后,按降序排序。
Step2:确定要剔除的比例,从当前的特征变量中剔除相应比例不重要的指标,得到一个新的特征集
Step3:用新的特征集重复上述过程,直到剩下m个特征
Step4:根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集。
本申请将以上分成六大类的数据标签合并到原始的354个属性中,对每一特征进行权重排比,只提取了前29的特征与权重值,其中在 354个属性中前29的特征权重占比34%。
最大互信息分析(MIC)
MIC(Maximal Information Coefficient)即最大信息系数,属于 MaximalInformation-based Nonparametric Exploration(MINE)最大的基于信息的非参数性探索,用于衡量两个变量X和Y之间的关联程度,线性或非线性的强度,常用于机器学习的特征选择。根据MIC的性质,其具有普适性、公平性和对称性。
比较分析特征提取的四种方法,本申请选择了随机森林和MIC共同影响RON损失的特征,以及随机森林权重较高和MIC相关性较大的特征。
通过查阅辛烷值的专业背景,以及在“2020年中国研究生数学建模竞赛B题”的材料中,选取了属于原料性质、产品性质、待生吸附剂性质、再生吸附剂特征中的原料硫含量,μg/g、原料辛烷值RON、烯烃,v%、芳烃,v%、产品硫含量,μg/g、产品辛烷值RON、RON损失 7个属性,总共21个特征。
问题三:建模与分析
问题三分析
通过对问题二的求解,用于建模的主要变量已经从预处理后的采集数据中筛选出来,接下来就是对样本数据的信息进行处理和分析,构建辛烷值(RON)损失预测模型,并进行模型的验证与分析。
模型的建立与求解
数据的归一化
本申请利用问题二中选取的28个主要特征进行建模,来预测 RON损失值,建模之前需要进行数据归一化处理,为了保证模型中非线性运算符能正确衡量不同测点的欧氏距离,需要进行数据归一化处理消除测点的量纲不同,使实际值映射到[0,1]区间内,测点X的归一化公式可由式(6.1)表示:
Figure RE-GDA0002983036040000211
其中Y为单测点X的归一化值,Xmin为X的最小值,Xmax为X 的最大值。最后需要保留各测点分布参数(Xmin和Xmax)用于对实际运行状态数据进行归一化。
进行数据进行归一化处理后,本申请对325个样本数据进行训练集和测试集划分,训练集和测试集划的划分比为8:2,选取265个样本进行训练集训练预测和60个样本进行测试集验证预测。通过 LSTM模型和BP神经网络模型的原理了解,这两个模型对于数值型数据进行预测的效果较好。本申请分别利用LSTM模型和BP神经网络模型对325*28维数据量进行模型构建。
LSTM神经网络
长短期记忆模型(long-short term memory)由Hochreiter& Schmidhuber(1997)提出,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM中引入了3 个门,即输入门(input gate)、遗忘门(forget gate)和输出门(output gate),以及与隐藏状态形状相同的记忆细胞,从而记录额外的信息。 LSTM的结构图如图3所示。
LSTM神经网络模型的训练过程如下:
Step1:将神经网络中的权值矩阵W和偏置向量b进行初始化处理,确定输入数据集x;
Step2:输入门用于控制当前输入数据xt流入记忆单元的多少,即在时间步t时,有多少可以保存到记忆单元ct,其值可以由式(6.2) 表示:
it=σ(Wxixt+Whiht-1+bi) (6.2)
其中,xt和ht分别表示LSTM的隐藏层的输入和输出向量,激活函数选取sigmoid函数,即
Figure RE-GDA0002983036040000231
Step3:遗忘门控制自连接单元,可以决定要从单元状态中丢弃哪些信息。即上一时刻记忆单元ct-1中的信息对当前记忆单元ct的影响。计算公式由式(6.3)和式(6.4)给出。
ft=σ(Wxfxt+Whfht-1+bf) (6.3)
ct=ft⊙ct-1+i⊙tanh(Wxcxt+Whcht-1+bc) (6.4)
Step4:输出门控制记忆单元ct对当前输出值ht的影响,即记忆单元中的哪一部分会在时间步t输出。输出门的值由式(6.5)给出, LSTM单元的在t时刻的输出ht可以通过式(6.6)得到。
ot=σ(Wxoxt+Whoht-1+bo) (6.5)
ht=ot⊙tanh(ct) (6.6)
本申请使用LSTM模型进行15000次训练后,分别对训练集和测试集进行预测。
为了对该模型进一步有效进行评估,利用MAE、MSE、MAPE 预测评价指标和预测准确性对LSTM模型进行预测有效性分析,如表3所示,发现该模型预测效果较好。
表3 LSTM模型预测评价结果
Figure RE-GDA0002983036040000232
Figure RE-GDA0002983036040000241
BP神经网络
BP神经网络,又称反向传播(Backpropagation,BP)网络模型,于1986年由Rumelhant和Hinton等人首次提出,这在神经网络的研究史上是个重大的里程碑。BP神经网络的提出,给非线性系统的研究提供了一个新的解决方法。现如今,BP神经网络已经应用于各个领域。
BP神经网络的原理是逆学习多层网络,虽然该模型的每一层都是通过单向连接的,但是并不影响它双向传输信息的特征。它通过预先设定的算法(通常为梯度下降算法)不断调整各层输入信号的比重以及神经元的阈值,从而反复迭代更新。BP神经网络在应用中主要包括:要对预测前的数据样本进行预处理,包括数据归一化及逆归一化处理等;其次,将数据输入至神经网络中,使其输出结果在训练过程中不断达到收敛。
BP神经网络结构如图4所示,其中x1,x2,...,xn为输入, y1,...,yj,...,ym为输出。设wij为输入层至隐含层的网络权值,wjp为隐含层至输入层的连接权值。BP神经网络模型的本质是非线性函数,当存在n个输入,m个输出时,既表达了从n个输入至m个输出的非线性映射关系。
BP神经网络模型的训练过程如下:
Step1:将神经网络各层之间的参数和权值进行初始化处理,确定输入数据集x和输出数据集y,输入层层数n,隐含层层数q,输出层层数m,确定BP神经网络的学习速率与神经元的激励函数。
Step2:计算BP神经网络模型隐含层输出Hj如式(6.7)所示,根据输入层的数据集与连接权值wij得到输出值。
Figure RE-GDA0002983036040000251
其中,函数f为隐含层激励函数,激励函数的选择取决于模型的构建方式,其中常见的激活函数如下表4所示,在数据样本不是大量规模的情况下,我们不需要考虑过拟合问题,所以BP神经网络模型的激活函数通常选择sigmoid函数。
表4 常见的激活函数
Figure RE-GDA0002983036040000252
Step3:输入层计算。根据步骤2得到的隐含层输出Hj,将他输入到隐含层与输出层网络中,来计算神经网络模型的预测输出,其计算公式由式(6.8)给出。
Figure RE-GDA0002983036040000261
Step4:误差反向传播,就是重新调整连接层之间的权值,用BP 神经网络模型的预测输出yp与真实输出Y作比较,将yp与Y作差取绝对值,得到网络模型的误差e。以预测误差e为标准,采用函数求导方式,使得输出结果达到收敛为止,最终完成对权值的迭代替换,更新权值的计算公式由式(6.9)给出:
Figure RE-GDA0002983036040000262
其中,η为学习率ep=yp-Yp
Step5:更新隐含层和输出层的阈值,利用上试计算得到的预测误差ep,来更新替换模型的阈值a和b。计算公式由式(6.10)给出:
Figure RE-GDA0002983036040000263
根据以上steps来更新调整各参数值,如果已经达到预期误差精度,则可以跳出循环直接输出结果;否则跳到step2重新计算新一轮的结果,直到达到精度要求。
本申请使用BP神经网络模型进行15000次训练后,模型的训练和验证的损失值也无限接近于0,且趋于平稳。
同样为了对该模型进一步有效进行评估,利用MAE、MSE、MAPE预测评价指标和预测准确性对BP神经网络模型进行预测有效性分析,如表5所示,发现该模型预测准确性达到83%。
表5 BP神经网络模型预测评价结果
Figure RE-GDA0002983036040000271
结论:虽然LSTM模型和BP神经网络模型对汽油辛烷损失值的预测效果都比较好,但对照两者的预测评价指标和预测准确性,BP 神经网络模型的效果相对较好,因此选择BP神经网络模型作为该数据训练构建的模型。LSTM模型主要是针对时间序列的数据,本申请数据的类型虽然有时间点,但不是连续时间序列,对于LSTM模型建模的效果较差于BP神经网络。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (10)

1.一种降低辛烷值损失模型的构建方法,其特征在于,包括以下步骤:
S1:获取原始数据;
S2:对数据进行预处理,包括缺失值处理、数据插补和异常值处理;
S3:对预处理后的数据进行分析和特征提取;
S4:建立模型;
S2过程中,对数据值为0的位点作为缺失数据进行数据的预处理;对缺失数据作删除处理;对缺失数据采用均值替换法处理;异常值的判别方法包括简单统计分析法、拉依达准则和箱型图分析;异常值的处理方法包括删除异常值和将异常值视为缺失值;均值替换法中,缺失数据使用前后两个小时数据的平均值替换。
2.根据权利要求1所述的降低辛烷值损失模型的构建方法,其特征在于,所述异常数据处理具体判定方法和处理方法包括如下步骤:将所有数值由小到大排列并分成四等分;其中,处理三个分割点位置的数值为四分位数,较小四分位数为数据的25%分位点所对应的值Q1,中位数为数据的50%分位点所对应的值Q2,较大四分位数为数据的75%分位点所对应的值Q3;上须的计算公式为Q3+1.5(Q3-Q1);下须的计算公式为Q1-1.5(Q3-Q1);其中,Q3-Q1为四分位差;采用箱线图进行异常数据识别,当变量的数据值大于箱线图的上须或者小于箱线图的下须时,判定该数据点为异常数据;对异常数据进行删除处理。
3.根据权利要求2所述的降低辛烷值损失模型的构建方法,其特征在于,所述异常数据还包括普通异常数据和极端异常数据,其中:数据满足x>Q3+1.5(Q3-Q1)或者x<Q1-1.5(Q3-Q1)为普通异常数据;
数据满足x>Q3+3(Q3-Q1)或者x<Q1-3(Q3-Q1)为极端异常数据;
对普通异常数据保留,对极端异常数据作删除处理。
4.根据权利要求3所述的降低辛烷值损失模型的构建方法,其特征在于,对极端异常数据作删除处理后,再使用拉依达准则进行异常值处理,具体包括以下步骤:假定一组检测数据只含有随机误差,对该组检测进行计算处理得到标准偏差,按一定概率确定一个区间,处于(μ-3σ,u+3σ)区间内的样本数据可以视为正常值,反之为异常值;对异常值作删除和替换处理。
5.根据权利要求1所述的降低辛烷值损失模型的构建方法,其特征在于,所述S3过程具体包括以下步骤:对S2处理后的数据进行标准化和归一化处理,并进行相关性分析,然后通过随机森林和最大信息系数进行特征提取。
6.根据权利要求5所述的降低辛烷值损失模型的构建方法,其特征在于,数据标准化处理具体包括以下步骤:
假定训练数据集有n条网络连接记录,每个记录中有354个属性向量记作Xij(1≤i≤n,1≤j≤354);
标准化计算具体包括以下步骤:
Figure FDA0002860557420000031
Figure FDA0002860557420000032
其中,AVGj为平均值,STADj为平均绝对偏差,比标准差
Figure FDA0002860557420000033
Figure FDA0002860557420000034
对于孤立点具有更好的鲁棒性;
公式(1)和(2)计算时,如果AVGj等于0,则Xij=0;如果STADj等于0,则Xij=0。
7.根据权利要求6所述的降低辛烷值损失模型的构建方法,其特征在于,数值归一化处理具体包括以下步骤:
假定X″ij为X′ij归一化后的值:
Figure FDA0002860557420000035
其中下标变量1≤i≤n,1≤j≤m,Xmax=max{Xij′}为最大值,Xmin=min{Xij′}为最小值。
8.根据权利要求7所述的降低辛烷值损失模型的构建方法,其特征在于,所述相关性分析具体包括Pearson相关性分析、Spearman相关性分析和随机森林权重分析;
Pearson相关性分析计算具体包括以下步骤:
Figure FDA0002860557420000036
其中,取值范围为-1到+1,-1表示完全的负相关,+1表示完全的正相关,0表示没有线性相关;
Spearman相关性分析计算具体包括以下步骤:
由排行差分集合计算得出:
Figure FDA0002860557420000041
由排行集合x、y计算而得:
Figure FDA0002860557420000042
随机森林权重分析具体包括降维和聚类;
降维具体包括以下步骤:对Pearson相关性分析和Spearman相关性分析提出不相关数据后,对剩余特征进行降维,具体计算方法包括以下步骤:
T1:利用随机邻接嵌入算法将数据点之间的欧几里得距离转化为条件概率来表达点与点之间的相似度;假设给定的高维空间数据点集合为X={x1,x2,…,xn},以数据点xi为中心,用高斯分布选择xj作为近邻点的条件概率pj|i
Figure FDA0002860557420000043
其中σi是以数据点xi为均值的高斯分布标准差;
T2:假设维空间数据点集合X={x1,x2,…,xn}在低维空间中对应映射的数据点集合为Y={y1,y2,…,yn},以数据点yi为中心,用高斯分布选择yj作为近邻点的条件概率;
Figure FDA0002860557420000051
T3:使用t分布随机邻域嵌入算法(t-SNE)减轻SNE的拥挤问题,使得同一簇内的点聚合的更紧密,不同簇之间的点更加疏远;
T4:定义条件概率矩阵的困惑度:
Figure FDA0002860557420000052
其中H(pi)为pi的香农熵:
H(pi)=-∑jpj|ilog2pj|i (10)
聚类具体包括以下步骤:
Q1:计算数据间相似度,获取数据的相似度矩阵S,再选取参考度P值;其中,P值取S中值;
Q2:设置一个最大迭代次数,迭代过程开始后,计算每一次的R值和A值,根据R(k,k)+A(k,k)来判定是否为聚类中心,当迭代次数超过最大值或者当聚类中心连续多少次迭代不发生改变时终止运算;
Q3:根据求出聚类中心,进行数据分类,得到六大类。
9.根据权利要求7所述的降低辛烷值损失模型的构建方法,其特征在于,随机森林特征提取步骤包括随机选择样本、随机选择特征、构建决策树和随机森林投票,判断每个特征在随机森林中的每棵树上做出的贡献,然后取平均值,最后比较特征之间的贡献大小,具体计算方法包括以下步骤:
W1:对每一颗决策树,选择相应的袋外数据(OOB),计算袋外数据误差,记为errOOB1,然后随机对袋外数据OOB所有样本的特征X加入噪声干扰,再次计算袋外数据误差,记为errOOB2,假设森林中有N棵树,则特征X的重要性由式(11)给出
Figure FDA0002860557420000061
计算出每个特征的重要性后,按降序排序;
W2:确定要剔除的比例,从当前的特征变量中剔除相应比例不重要的指标,得到一个新的特征集;
W3:用新的特征集重复上述过程,直到剩下m个特征;
W4:根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集。
10.根据权利要求9所述的降低辛烷值损失模型的构建方法,其特征在于,所述S4过程包括对筛选后的样本数据的信息进行处理和分析,构建辛烷值损失预测模型;
信息处理包括数据的归一化处理,使得实际值映射到[0,1]区间内,具体计算方法包括以下步骤:
Figure FDA0002860557420000062
其中,Y为单测点X的归一化值,Xmin为X的最小值,Xmax为X的最大值;
然后保留个测点分布参数Xmin和Xmax用于对实际运行状态数据进行归一化;
构建模型具体包括LSTM神经网络和BP神经网络;
LSTM神经网络的训练过程具体包括以下步骤:
E1:将神经网络中的权值矩阵W和偏置向量b进行初始化处理,确定输入数据集x;
E2:输入门用于控制当前输入数据xt流入记忆单元的多少,即在时间步t时,有多少可以保存到记忆单元ct,其值可以由式(13)表示:
it=σ(Wxixt+Whiht-1+bi) (13)
其中,xt和ht分别表示LSTM的隐藏层的输入和输出向量,激活函数选取sigmoid函数,即
Figure FDA0002860557420000071
E3:遗忘门控制自连接单元,决定要从单元状态中丢弃哪些信息,即上一时刻记忆单元ct-1中的信息对当前记忆单元ct的影响,计算公式由式(14)和式(15)给出:
ft=σ(Wxfxt+Whfht-1+bf) (14)
ct=ft⊙ct-1+i⊙tanh(Wxcxt+Whcht-1+bc) (15)
E4:输出门控制记忆单元ct对当前输出值ht的影响,即记忆单元中的哪一部分会在时间步t输出;输出门的值由式(16)给出,LSTM单元的在t时刻的输出ht可以通过式(17)得到:
ot=σ(Wxoxt+Whoht-1+bo) (16)
ht=ot⊙tanh(ct) (17)
BP神经网络模型的训练过程如下:
R1:将神经网络各层之间的参数和权值进行初始化处理,确定输入数据集x和输出数据集y,输入层层数n,隐含层层数q,输出层层数m,确定BP神经网络的学习速率与神经元的激励函数;
R2:计算BP神经网络模型隐含层输出Hj如式(18)所示,根据输入层的数据集与连接权值wij得到输出值:
Figure FDA0002860557420000081
其中,函数f为隐含层激励函数,激励函数的选择取决于模型的构建方式,BP神经网络模型的激活函数选择sigmoid函数;
R3:输入层计算,根据步骤R2得到的隐含层输出Hj,将其输入到隐含层与输出层网络中,计算神经网络模型的预测输出,其计算公式由式(19)给出:
Figure FDA0002860557420000082
R4:误差反向传播,重新调整连接层之间的权值,用BP神经网络模型的预测输出yp与真实输出Y作比较,将yp与Y作差取绝对值,得到网络模型的误差e;以预测误差e为标准,采用函数求导方式,使得输出结果达到收敛为止,最终完成对权值的迭代替换,更新权值的计算公式由式(20)给出:
Figure FDA0002860557420000083
其中,η为学习率ep=yp-Yp
R5:更新隐含层和输出层的阈值,利用(20)计算得到的预测误差ep,来更新替换模型的阈值a和b;计算公式由式(21)给出:
Figure FDA0002860557420000091
根据以上步骤来更新调整各参数值,如果已经达到预期误差精度,则跳出循环直接输出结果;否则跳到step2重新计算新一轮的结果,直到达到精度要求。
CN202011561470.7A 2020-12-25 2020-12-25 一种降低辛烷值损失模型的构建方法 Pending CN112687349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011561470.7A CN112687349A (zh) 2020-12-25 2020-12-25 一种降低辛烷值损失模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011561470.7A CN112687349A (zh) 2020-12-25 2020-12-25 一种降低辛烷值损失模型的构建方法

Publications (1)

Publication Number Publication Date
CN112687349A true CN112687349A (zh) 2021-04-20

Family

ID=75451650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011561470.7A Pending CN112687349A (zh) 2020-12-25 2020-12-25 一种降低辛烷值损失模型的构建方法

Country Status (1)

Country Link
CN (1) CN112687349A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127469A (zh) * 2021-04-27 2021-07-16 国网内蒙古东部电力有限公司信息通信分公司 一种三相不平衡数据的缺失值的填补方法及系统
CN113191496A (zh) * 2021-05-17 2021-07-30 上海应用技术大学 汽油辛烷值损失预测及优化方法
CN113256179A (zh) * 2021-07-06 2021-08-13 大唐环境产业集团股份有限公司 脱硫系统浆液品质在线分类评价方法、系统及装置
CN113408187A (zh) * 2021-05-15 2021-09-17 西安石油大学 基于随机森林的降低汽油辛烷值损失的优化方法
CN113642251A (zh) * 2021-08-31 2021-11-12 佛山众陶联供应链服务有限公司 一种建筑陶瓷喷雾制粉质量的数据分析预测方法及系统
CN114037551A (zh) * 2021-11-15 2022-02-11 中国水产科学研究院渔业机械仪器研究所 池塘养殖pH值缺失数据插补方法
CN114065878A (zh) * 2022-01-17 2022-02-18 国网山东省电力公司泰安供电公司 一种基于多参量物联融合技术的电量缺失值填补方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544904A (zh) * 2017-08-21 2018-01-05 哈尔滨工程大学 一种基于深度cg‑lstm神经网络的软件可靠性预测模型
CN107729943A (zh) * 2017-10-23 2018-02-23 辽宁大学 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用
CN109472321A (zh) * 2018-12-03 2019-03-15 北京工业大学 一种面向时间序列型地表水质大数据的预测与评估模型构建方法
CN110458616A (zh) * 2019-08-02 2019-11-15 深圳索信达数据技术有限公司 一种基于GAMxNN模型的理财产品推荐方法
CN112016734A (zh) * 2020-04-07 2020-12-01 沈阳工业大学 基于lstm栈式自编码多模型荷预测方法及系统
CN112037012A (zh) * 2020-08-14 2020-12-04 百维金科(上海)信息科技有限公司 一种基于pso-bp神经网络的互联网金融信用评价方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544904A (zh) * 2017-08-21 2018-01-05 哈尔滨工程大学 一种基于深度cg‑lstm神经网络的软件可靠性预测模型
CN107729943A (zh) * 2017-10-23 2018-02-23 辽宁大学 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用
CN109472321A (zh) * 2018-12-03 2019-03-15 北京工业大学 一种面向时间序列型地表水质大数据的预测与评估模型构建方法
CN110458616A (zh) * 2019-08-02 2019-11-15 深圳索信达数据技术有限公司 一种基于GAMxNN模型的理财产品推荐方法
CN112016734A (zh) * 2020-04-07 2020-12-01 沈阳工业大学 基于lstm栈式自编码多模型荷预测方法及系统
CN112037012A (zh) * 2020-08-14 2020-12-04 百维金科(上海)信息科技有限公司 一种基于pso-bp神经网络的互联网金融信用评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
官端正等: "汽油精制数学模型", 《区域治理》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127469A (zh) * 2021-04-27 2021-07-16 国网内蒙古东部电力有限公司信息通信分公司 一种三相不平衡数据的缺失值的填补方法及系统
CN113408187A (zh) * 2021-05-15 2021-09-17 西安石油大学 基于随机森林的降低汽油辛烷值损失的优化方法
CN113191496A (zh) * 2021-05-17 2021-07-30 上海应用技术大学 汽油辛烷值损失预测及优化方法
CN113191496B (zh) * 2021-05-17 2024-02-02 上海应用技术大学 汽油辛烷值损失预测及优化方法
CN113256179A (zh) * 2021-07-06 2021-08-13 大唐环境产业集团股份有限公司 脱硫系统浆液品质在线分类评价方法、系统及装置
CN113256179B (zh) * 2021-07-06 2021-09-24 大唐环境产业集团股份有限公司 脱硫系统浆液品质在线分类评价方法、系统及装置
CN113642251A (zh) * 2021-08-31 2021-11-12 佛山众陶联供应链服务有限公司 一种建筑陶瓷喷雾制粉质量的数据分析预测方法及系统
CN113642251B (zh) * 2021-08-31 2024-05-28 佛山众陶联供应链服务有限公司 一种建筑陶瓷喷雾制粉质量的数据分析预测方法及系统
CN114037551A (zh) * 2021-11-15 2022-02-11 中国水产科学研究院渔业机械仪器研究所 池塘养殖pH值缺失数据插补方法
CN114065878A (zh) * 2022-01-17 2022-02-18 国网山东省电力公司泰安供电公司 一种基于多参量物联融合技术的电量缺失值填补方法

Similar Documents

Publication Publication Date Title
CN112687349A (zh) 一种降低辛烷值损失模型的构建方法
CN110147321B (zh) 一种基于软件网络的缺陷高风险模块的识别方法
CN112288191B (zh) 一种基于多类机器学习方法的海洋浮标寿命预测方法
CN110827921B (zh) 一种单细胞聚类方法、装置、电子设备及存储介质
CN111626821B (zh) 基于集成特征选择实现客户分类的产品推荐方法及系统
CN111785329A (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
CN112557034B (zh) 一种基于pca_cnns的轴承故障诊断方法
CN108681742B (zh) 用于分析司机驾驶行为对车辆能耗敏感性的分析方法
CN109766926B (zh) 一种雷达辐射源信号脉内特征综合评估方法及系统
CN113298230A (zh) 一种基于生成对抗网络的不平衡数据集的预测方法
CN113688558A (zh) 一种基于大数据库样本的汽车行驶工况构建方法及系统
CN115470962A (zh) 一种基于LightGBM的企业失信风险预测模型构建方法
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
CN114881343B (zh) 基于特征选择的电力系统短期负荷预测方法及装置
CN114926299A (zh) 一种基于大数据分析的预测车辆事故风险预测方法
CN113468538A (zh) 一种基于相似性度量的漏洞攻击数据库构建方法
CN112651455B (zh) 一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法
CN110083637B (zh) 一种面向桥梁病害评级数据的去噪方法
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN113269217A (zh) 基于Fisher准则的雷达目标分类方法
Jackson et al. Machine learning for classification of economic recessions
CN111104950A (zh) 基于神经网络的k-NN算法中k值预测方法及装置
CN116662859B (zh) 非遗文化数据特征选择方法
CN115017125B (zh) 改进knn方法的数据处理方法和装置
Lishchytovych et al. ANALYSIS OF DOCUMENTS RANKING ALGORITHMS BASED ON THE ARTIFICIAL NEURAL NETWORKS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210420

RJ01 Rejection of invention patent application after publication