CN109523086B

CN109523086B - 基于随机森林的化工产品的质量预测方法及系统

Info

Publication number: CN109523086B
Application number: CN201811418409.XA
Authority: CN
Inventors: 任利锋; 李佳鹤; 徐慧; 陈吉平
Original assignee: Zhejiang Lanzhuo Industrial Internet Information Technology Co ltd
Current assignee: Lanzhuo Digital Technology Co ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2021-08-24
Anticipated expiration: 2038-11-26
Also published as: CN109523086A

Abstract

本发明公开了一种基于随机森林的化工产品的质量预测方法及系统，该方法包括：目标化工产品反应过程中，每间隔预设的时长获取与所述目标化工产品质量存在关联的各个影响因子的生产数据；依据各个生产数据，确定所述目标化工厂品从开始反应到当前时刻的目标有效数据；将所述目标有效数据传递给采用预设的训练方法训练得到的目标质量预测模型中，得到所述目标化工产品的目标质量预测结果。上述的方法，可以在生产过程中获取生产数据，依据生产数据直接对当前时刻产品的质量进行预测，避免了由于无法实时预测当前生产过程的产品质量，会造成良率不高等负面影响的问题。

Description

基于随机森林的化工产品的质量预测方法及系统

技术领域

本发明涉及聚合反应质量预测技术领域，尤其涉及一种基于随机森林的化工产品的质量预测方法及系统。

背景技术

聚合工艺流程通常应用在生产化工产品的过程中，以丙烯酸乳液的生产过程为例，丙烯酸乳液质量会受到多种因素的影响。合成丙烯酸乳液的主要原料是各种单体、分散介质、乳化剂和引发剂等，单体选择和比例选择是影响产品质量的核心因素。整个聚合过程基本在聚合釜中进行，在此过程中滴加辅助试剂的速度、反应温度、反应时间和搅拌速度等多种因素也会对最终质量产生重要影响。这种影响很难用常规的公式来表达。

目前丙烯酸乳液质量控制还处于根据经验预先设置好原料配比和温度等参数，然后对产品进行抽样检测的方法。这种方法虽然也能实现对产品的质量在一定程度的控制，但很大程度依赖主观先验知识，而且无法实时预测当前生产过程的产品质量，会造成良率不高等负面影响。

发明内容

有鉴于此，本发明提供了一种基于随机森林的化工产品的质量预测方法及系统，用以解决现有技术无法实时预测当前生产过程的产品质量，会造成良率不高等负面影响的问题。具体方案如下：

一种基于随机森林的化工产品的质量预测方法，包括：

目标化工产品反应过程中，每间隔预设的时长获取与所述目标化工产品质量存在关联的各个影响因子的生产数据；

依据各个生产数据，确定所述目标化工厂品从开始反应到当前时刻的目标有效数据；

将所述目标有效数据传递给采用预设的训练方法训练得到的目标质量预测模型中，得到所述目标化工产品的目标质量预测结果，其中，所述目标质量预测模型是依据随机森林算法进行构建的，所述目标质量预测模型中包含有第一预设数量的决策树，每一个决策树中包含有第二预设数量的影响因子。

上述的方法，可选的，还包括：

若所述各个生产数据中存在缺失生产数据，获取所述目标质量预测模型各个决策树的质量预测结果，依据各个质量预测结果，对所述目标质量预测模型中的相似度矩阵进行更新，其中，所述缺失生产数据为所述各个影响因子中的至少一个不存在与其对应的数据。

上述的方法，可选的，还包括：

将所述各个生产数据进行保存，并记录与其对应的生产批次。

上述的方法，可选的，采用预设的训练方法训练得到目标质量预测模型包括：

构建第一质量预测模型；

获取所述目标化工产品中各个生产批次对应的历史目标有效数据和对应检测结果；

将各个历史目标有效数据和对应的检测结果分为训练集和验证集；

将所述训练集中的各个历史目标有效数据和对应的检测结果，传递给所述质量预测模型进行训练，得到第二质量预测模型；

将所述验证集中的各个历史目标有效数据传递给所述第二质量预测模型进行验证，当验证的准确率满足预设的准确率阈值时，得到所述目标质量预测模型。

上述的方法，可选的，获取所述目标化工产品中各个生产批次对应的历史目标有效数据和对应检测结果，包括：

获取所述目标化工产品在每一个生产批次的历史生产数据，其中，所述历史生产数据为所述各个影响因子在每一个生产批次中的每个预设时间点产生的生产数据；

针对每一个生产批次，判断该生产批次中的各个历史生产数据中是否存在缺失历史生产数据，所述缺失历史生产数据为所述各个影响因子的至少一个不存在与其对应的数据；

若存在，判断所述第一质量预测模型中是相似度矩阵是否初始化；

若没有初始化，确定与所述缺失历史生产数据对应的影响因子，在各个非缺失历史生产数据中计算与所述影响因子对应的中间值，将所述中间值补充到所述缺失历史生产数据的对应影响因子中，将所述缺失历史生产数据转换为非缺失历史生产数据；

依据所述各个非缺失历史生产数据，计算该批次的历史目标有效数据并获取对应检测结果。

上述的方法，可选的，还包括：

若所述相似度矩阵已经初始化，依据所述相似度矩阵对所述缺失历史生产数据中缺失的数据进行补充。

一种基于随机森林的化工产品的质量预测系统，包括：

获取模块，用于目标化工产品反应过程中，每间隔预设的时长获取与所述目标化工产品质量存在关联的各个影响因子的生产数据；

确定模块，用于依据各个生产数据，确定所述目标化工厂品从开始反应到当前时刻的目标有效数据；

预测模块，用于将所述目标有效数据传递给采用预设的训练方法训练得到的目标质量预测模型中，得到所述目标化工产品的目标质量预测结果，其中，所述目标质量预测模型是依据随机森林算法进行构建的，所述目标质量预测模型中包含有第一预设数量的决策树，每一个决策树中包含有第二预设数量的影响因子。

上述的系统，可选的，所述预测模块包括：

构建单元，用于构建第一质量预测模型；

获取单元，用于获取所述目标化工产品中各个生产批次对应的历史目标有效数据和对应检测结果；

分类单元，用于将各个历史目标有效数据和对应的检测结果分为训练集和验证集；

训练单元，用于将所述训练集中的各个历史目标有效数据和对应的检测结果，传递给所述质量预测模型进行训练，得到第二质量预测模型；

完成单元，用于将所述验证集中的各个历史目标有效数据传递给所述第二质量预测模型进行验证，当验证的准确率满足预设的准确率阈值时，得到所述目标质量预测模型。

上述的系统，可选的，所述获取单元包括：

获取子单元，用于获取所述目标化工产品在每一个生产批次的历史生产数据，其中，所述历史生产数据为所述各个影响因子在每一个生产批次中的每个预设时间点产生的生产数据；

第一判断子单元，用于针对每一个生产批次，判断该生产批次中的各个历史生产数据中是否存在缺失历史生产数据，所述缺失历史生产数据为所述各个影响因子的至少一个不存在与其对应的数据；

第二判断子单元，用于若不存在，判断所述第一质量预测模型中是相似度矩阵是否初始化；

第一补充子单元，用于若没有初始化，确定与所述缺失历史生产数据对应的影响因子，在各个非缺失历史生产数据中计算与所述影响因子对应的中间值，将所述中间值补充到所述缺失历史生产数据的对应影响因子中，将所述缺失历史生产数据转换为非缺失历史生产数据；

计算子单元，用于依据所述各个非缺失历史生产数据，计算该批次的历史目标有效数据并获取对应检测结果。

上述的系统，可选的，还包括：

第二补充子单元，用于若所述相似度矩阵已经初始化，依据所述相似度矩阵对所述缺失历史生产数据中缺失的数据进行补充。

与现有技术相比，本发明包括以下优点：

本发明公开了一种基于随机森林的化工产品的质量预测方法及系统，该方法包括：目标化工产品反应过程中，每间隔预设的时长获取与所述目标化工产品质量存在关联的各个影响因子的生产数据，并将其转换为所述目标化工厂品从开始反应到当前时刻的目标有效数据，将所述目标有效数据传递给采用预设的训练方法训练得到目标质量预测模型中，得到所述目标化工产品的目标质量预测结果，其中，所述目标质量预测模型是依据随机森林算法进行构建的，所述目标质量预测模型中包含有第一预设数量的决策树，每一个决策树中包含有第二预设数量的影响因子。上述的方法，可以在生产过程中获取生产数据，依据生产数据直接对当前时刻产品的质量进行预测，避免了由于无法实时预测当前生产过程的产品质量，会造成良率不高等负面影响的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种基于随机森林的化工产品的质量预测方法流程图；

图2为本申请实施例公开的一种基于随机森林的化工产品的质量预测方法又一流程图；

图3为本申请实施例公开的一种基于随机森林的化工产品的质量预测方法执行示意图；

图4为本申请实施例公开的一种基于随机森林的化工产品的质量预测系统结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明公开了一种基于随机森林的化工产品的质量预测方法及系统，应用在化工产品的质量预测过程中，本发明实施例中以化工产品丙烯酸乳液的生产过程为例进行质量预测，其中，丙烯酸乳液的生产过程是一个聚合工艺流程，产品质量会受到多种因素的影响。所述预测方法的执行流程如图1所示，包括步骤：

S101、目标化工产品反应过程中，每间隔预设的时长获取与所述目标化工产品质量存在关联的各个影响因子的生产数据；

本发明实施例中，所述目标化工产品为丙烯酸乳液，每间隔预设的时长获取与所述目标化工产品质量存在关联的各个影响因子的生产数据，其中，预设的时长的选取可以依据经验值也可以依据具体情况进行确定，与所述丙烯酸乳液存在关联的各个影响因子包括：功能单体比例、硬单体比例、软单体比例、乳化剂比例、引发剂比例、反应温度、反应时间和搅拌速度。

S102、依据各个生产数据，确定所述目标化工厂品从开始反应到当前时刻的目标有效数据；

本发明实施例中，每间隔所述预设的时长会形成一条生产数据记录，在各个生产数据中，除了反应时间的目标有效数据为各个反应时间中的最大值为，其余各个影响因子的目标有效值均为所述各个生产数据中每一个影响因子对应的各条记录数据的平均值。

S103、将所述目标有效数据传递给采用预设的训练方法训练得到的目标质量预测模型中，得到所述目标化工产品的目标质量预测结果，其中，所述目标质量预测模型是依据随机森林算法进行构建的，所述目标质量预测模型中包含有第一预设数量的决策树，每一个决策树中包含有第二预设数量的影响因子。

本发明实施例中，将所述目标有效数据传递给采用预设的训练方法训练得到目标质量预测模型中，得到所述目标化工产品的目标质量预测结果，其中，所述预测结果可以为合格或者不合格，其中，所述目标质量预测模型是依据随机森林算法进行构建的，所述目标质量预测模型中包含有第一预设数量的决策树，每一个决策树中包含有第二预设数量的影响因子。其中，所述第一预设数量和所述第二预设数量可以依据经验值进行设定也可以依据具体情况进行设定，优选的，本发明实施例中，所述第一预设数量为64，所述第二预设数量为4。

本发明实施例中，每一条记录中都应该包含所述各个影响因子对应的数据，但是由于操作失误，仪器故障或者其它原因，可能会导致生产数据中缺少一个或者几个影响因子对应的数据，将该种生产数据定义为缺失生产数据，若所述各个生产数据中存在缺失生产数据，依据所述目标质量预测模型中包含的相似度矩阵，计算所述获缺失生产数据缺少的数据，并且获取所述目标质量预测模型各个决策树的质量预测结果，依据各个质量预测结果，对所述目标质量预测模型中的相似度矩阵进行更新。其中，第i条记录的第n项的值R_i,n如果缺失，则可以用下面的公式填充：

其中，P_i,j表示第i条记录和第j条记录的相似度；

具体的更新原则为：如果数据有缺失，用当前预测树预测所有N条记录，如果记录i和记录j导向同一个叶子节点，则P[i][j]增加1/K。即如果记录i和记录j的预测结果都是合格或都是不合格，则认为它们存在某种相似，它们的相似度增加1/K。

本发明公开了一种基于随机森林的化工产品的质量预测方法，包括：目标化工产品反应过程中，每间隔预设的时长获取与所述目标化工产品质量存在关联的各个影响因子的生产数据，并将其转换为所述目标化工厂品从开始反应到当前时刻的目标有效数据，将所述目标有效数据传递给采用预设的训练方法训练得到目标质量预测模型中，得到所述目标化工产品的目标质量预测结果，其中，所述目标质量预测模型是依据随机森林算法进行构建的，所述目标质量预测模型中包含有第一预设数量的决策树，每一个决策树中包含有第二预设数量的影响因子。上述的方法，可以在生产过程中获取生产数据，依据生产数据直接对当前时刻产品的质量进行预测，避免了由于无法实时预测当前生产过程的产品质量，会造成良率不高等负面影响的问题。

本发明实施例中，将所述各个生产数据进行保存，并记录与其对应的生产批次，可以实现对任意一次预测结果的调取并且可以将不同批次的历史生产数据和对应的预测结果作为所述目标质量预测模型的训练数据。

本发明实施例中，采用预设的训练方法训练得到目标质量预测模型的方法流程如图2所示，包括步骤：

S201、构建第一质量预测模型；

本发明实施例中，首先选取功能单体比例、硬单体比例、软单体比例、乳化剂比例、引发剂比例、反应温度、反应时间、搅拌速度等8(即M)个影响因子的有效值作为决策依据；设定决策树的个数K为64，深度为4(即m)，设k为0，设NxN相似度矩阵P为全零；

所述第一质量预测模型是依据随机森林进行构建的，从M个影响因子中随机抽取m个，从跟节点开始构造决策树，构造过程中用C4.5算法来选择最优分裂特征。一次分裂的选择过程是这样的：对所有影响因子计算其最优分割点，即使得分割后得到的增益率最大的点，然后在m个因子中选增益率最大的。增益率的计算公式如下：

首先计算熵

E＝-p₀×log(p₀)-p₁×log(p₁) (2)

其中p₀和p₁分别是质量符合要求和不符合要求的概率，log(p₀)和log(p₁)是它们的对数。

分割前后熵的差值ΔE称为信息增益。简单地计算增益，会有偏差，因为变化越多，也就是取值的花样种类越多的因子本身的熵就大，根据这个因子做的分割得到的信息增益自然也会比较大。所以需要计算相对增益量，也叫增益率。增益率可由下面的公式计算得出：

其中的IV表示因子的内在价值，

其中|V|样本总数，|V_i|是指因子V的值为V_i样本个数。

S202、获取所述目标化工产品中各个生产批次对应的历史目标有效数据和对应检测结果；

本发明实施例中。获取所述目标化工产品在每一个生产批次的历史生产数据，其中，所述历史生产数据为所述各个影响因子在每一个生产批次中的每个预设时间点产生的生产数据，针对每一个生产批次，判断该生产批次中的各个历史生产数据中是否存在缺失历史生产数据，所述缺失历史生产数据为所述各个影响因子的至少一个不存在与其对应的数据；若不存在，则无需缺失值补全，若存在，判断所述第一质量预测模型中是相似度矩阵是否初始化，若没有初始化，确定与所述缺失历史生产数据对应的影响因子，在各个非缺失历史生产数据中计算与所述影响因子对应的中间值，将所述中间值补充到所述缺失历史生产数据的对应影响因子中，将所述缺失历史生产数据转换为非缺失历史生产数据，若已经初始化，获取非缺失历史生产数据。依据所述各个非缺失历史生产数据，计算该批次的历史目标有效数据并获取对应检测结果，其中，所述历史生产数据中包含的影响因子为功能单体比例、硬单体比例、软单体比例、乳化剂比例、引发剂比例、反应温度、反应时间和搅拌速度，除了反应时间的目标有效数据为各个反应时间中的最大值为，其余各个影响因子的目标有效值均为所述各个历史生产数据中每一个影响因子对应各个条记录数据的平均值，所述预测结果可以为合格或者不合格。若所述相似度矩阵已经初始化，采用公式(1)和所述相似度矩阵对所述缺失历史生产数据中缺失的数据进行补充。

本发明实施例中，若该生产批次中的各个历史生产数据不存在缺失历史生产数据，确定各个生产批次对应的历史目标有效数据并获取对应的检测结果，计算方法为：除了反应时间的目标有效数据为各个反应时间中的最大值为，其余各个影响因子的目标有效值均为所述各个历史生产数据中每一个影响因子对应各个条记录数据的平均值。

S203、将各个历史目标有效数据和对应的检测结果分为训练集和验证集；

本发明实施例中，将各个历史目标有效数据和对应的检测结果分为训练集和验证集，从N条历史记录中有放回地随机抽取N次，抽到的作为训练集，未抽到的作为验证集。依据所述训练集进行训练，所述验证集对训练完成的模型进行验证。

S204、将所述训练集中的各个历史目标有效数据和对应的检测结果，传递给所述质量预测模型进行训练，得到第二质量预测模型；

本发明实施例中，依据所述训练集中的各个历史目标有效数据对所述第一质量预测模型进行预测，每一条历史目标有效数据的迭代次数为5次，如果历史生产数据有缺失，用当前预测树预测所有N条记录，如果记录i和记录j导向同一个叶子节点，则P[i][j]增加1/K。即如果记录i和记录j的预测结果都是合格或都是不合格，则认为它们存在某种相似，它们的相似度增加1/K，当训练集中的各个历史目标有效数据和对应的检测结果传递完成时，得到第二质量预测模型。

S205、将所述验证集中的各个历史目标有效数据传递给所述第二质量预测模型进行验证，当验证的准确率满足预设的准确率阈值时，得到所述目标质量预测模型。

本发明实施例中，将所述验证集中的各个历史目标有效数据传递给所述第二质量预测模型进行预测，将预测结果与检测结果进行对比，当验证的准确率满足预设的准确率阈值时，得到所述目标质量预测模型，其中所述预设的准确率阈值可以依据经验值也可以依据实际情况进行设定。

本发明实施例中，所述预测方法的整体执行过程如图3所示，所述预测方法采用随机森林采用的是分而治之的思路，构造K棵深度为m的树而不是一棵深度为M的大树，把时间复杂度降低到MNLogN，其中M是影响因子的数目，m是预先设定的子集中包含影响因子的数目，N是数据记录的条目数。预测结果为森林中所有决策树的结果的多数，所以根据大数定律，随着决策树个数的增加，误差会逼近一个确定的值。也就是说不必担心过拟合，模型的泛化能力好。在缺失部分资料的情况下，仍可以维持高准确度。缺失的数据项可以由非缺失的条目中的数据项的加权平均来代替，其中权重为两条目的接近度，会在上一次迭代中产生。利用随机森林训练决策树后，再结合实时采集的过程参数就可以在线预测产品的质量，从而提高产品的质量和生产过程的良率。

本发明实施例中，基于上述的取与所述目标化工产品质量存在关联预测方法，本发明实施例中还提供了一种基于随机森林的化工产品的质量预测系统，其结构框图如图4所示，包括：

获取模块301、确定模块302和预测模块303。

其中，

所述获取模块301，用于目标化工产品反应过程中，每间隔预设的时长获的各个影响因子的生产数据；

所述确定模块302，用于依据各个生产数据，确定所述目标化工厂品从开始反应到当前时刻的目标有效数据；

所述预测模块303，用于将所述目标有效数据传递给采用预设的训练方法训练得到的目标质量预测模型中，得到所述目标化工产品的目标质量预测结果，其中，所述目标质量预测模型是依据随机森林算法进行构建的，所述目标质量预测模型中包含有第一预设数量的决策树，每一个决策树中包含有第二预设数量的影响因子。

本发明公开了一种基于随机森林的化工产品的质量预测系统，包括：目标化工产品反应过程中，每间隔预设的时长获取与所述目标化工产品质量存在关联的各个影响因子的生产数据，并将其转换为所述目标化工厂品从开始反应到当前时刻的目标有效数据，将所述目标有效数据传递给采用预设的训练方法训练得到目标质量预测模型中，得到所述目标化工产品的目标质量预测结果，其中，所述目标质量预测模型是依据随机森林算法进行构建的，所述目标质量预测模型中包含有第一预设数量的决策树，每一个决策树中包含有第二预设数量的影响因子。上述的系统，可以在生产过程中获取生产数据，依据生产数据直接对当前时刻产品的质量进行预测，避免了由于无法实时预测当前生产过程的产品质量，会造成良率不高等负面影响的问题。

本发明实施例中，所述预测模块303包括：

构建单元304、获取单元305、分类单元306、训练单元307和完成单元308。

所述构建单元304，用于构建第一质量预测模型；

所述获取单元305，用于获取所述目标化工产品中各个生产批次对应的历史目标有效数据和对应检测结果；

所述分类单元306，用于将各个历史目标有效数据和对应的检测结果分为训练集和验证集；

所述训练单元307，用于将所述训练集中的各个历史目标有效数据和对应的检测结果，传递给所述质量预测模型进行训练，得到第二质量预测模型；

所述完成单元308，用于将所述验证集中的各个历史目标有效数据传递给所述第二质量预测模型进行验证，当验证的准确率满足预设的准确率阈值时，得到所述目标质量预测模型。

本发明实施例中，所述获取单元305包括：

获取子单元309、第一判断子单元310、第二判断子单元311、第一补充子单元312和计算子单元313。

其中，

所述获取子单元309，用于获取所述目标化工产品在每一个生产批次的历史生产数据，其中，所述历史生产数据为所述各个影响因子在每一个生产批次中的每个预设时间点产生的生产数据；

所述第一判断子单元310，用于针对每一个生产批次，判断该生产批次中的各个历史生产数据中是否存在缺失历史生产数据，所述缺失历史生产数据为所述各个影响因子的至少一个不存在与其对应的数据；

所述第二判断子单元311，用于若不存在，判断所述第一质量预测模型中是相似度矩阵是否初始化；

所述第一补充子单元312，用于若没有初始化，确定与所述缺失历史生产数据对应的影响因子，在各个非缺失历史生产数据中计算与所述影响因子对应的中间值，将所述中间值补充到所述缺失历史生产数据的对应影响因子中，将所述缺失历史生产数据转换为非缺失历史生产数据；

所述计算子单元313，用于依据所述各个非缺失历史生产数据，计算该批次的历史目标有效数据并获取对应检测结果

本发明实施例中，所述获取单元305还包括：第二补充子单元314。

其中，

所述第二补充子单元314，用于若所述相似度矩阵已经初始化，依据所述相似度矩阵对所述缺失历史生产数据中缺失数据进行补充。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种基于随机森林的化工产品的质量预测方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于随机森林的化工产品的质量预测方法，其特征在于，包括：

目标化工产品反应过程中，每间隔预设的时长获取与所述目标化工产品质量存在关联的各个影响因子的生产数据，其中，所述生产数据包括：反应时间；

依据各个生产数据，确定所述目标化工厂品从开始反应到当前时刻的目标有效数据，其中，所述反应时间对应的目标有效数据为各个反应时间中的最大值；

将所述目标有效数据传递给采用预设的训练方法训练得到的目标质量预测模型中，得到所述目标化工产品的目标质量预测结果，其中，所述目标质量预测模型是依据随机森林算法进行构建的，所述目标质量预测模型中包含有第一预设数量的决策树，每一个决策树中包含有第二预设数量的影响因子；

若所述各个生产数据中存在缺失生产数据，获取所述目标质量预测模型各个决策树的质量预测结果，依据各个质量预测结果，对所述目标质量预测模型中的相似度矩阵进行更新，其中，所述缺失生产数据为所述各个影响因子中的至少一个不存在与其对应的数据；

其中，采用预设的训练方法训练得到目标质量预测模型包括：

构建第一质量预测模型；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，获取所述目标化工产品中各个生产批次对应的历史目标有效数据和对应检测结果，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.一种基于随机森林的化工产品的质量预测系统，其特征在于，包括：

获取模块，用于目标化工产品反应过程中，每间隔预设的时长获取与所述目标化工产品质量存在关联的各个影响因子的生产数据，其中，所述生产数据包括：反应时间；

确定模块，用于依据各个生产数据，确定所述目标化工厂品从开始反应到当前时刻的目标有效数据，其中，所述反应时间对应的目标有效数据为各个反应时间中的最大值；

预测模块，用于将所述目标有效数据传递给采用预设的训练方法训练得到的目标质量预测模型中，得到所述目标化工产品的目标质量预测结果，其中，所述目标质量预测模型是依据随机森林算法进行构建的，所述目标质量预测模型中包含有第一预设数量的决策树，每一个决策树中包含有第二预设数量的影响因子；

所述获取模块还用于，若所述各个生产数据中存在缺失生产数据，获取所述目标质量预测模型各个决策树的质量预测结果，依据各个质量预测结果，对所述目标质量预测模型中的相似度矩阵进行更新，其中，所述缺失生产数据为所述各个影响因子中的至少一个不存在与其对应的数据；

所述预测模块包括：

构建单元，用于构建第一质量预测模型；

6.根据权利要求5所述的系统，其特征在于，所述获取单元包括：

第二判断子单元，用于若存在，判断所述第一质量预测模型中是相似度矩阵是否初始化；

7.根据权利要求6所述的系统，其特征在于，还包括：

第二补充子单元，用于若所述相似度矩阵已经初始化，依据所述相似度矩阵对所述缺失历史生产数据中缺失数据进行补充。