CN114595781A

CN114595781A - 一种辛烷值损失预测方法、装置、设备及存储介质

Info

Publication number: CN114595781A
Application number: CN202210264774.XA
Authority: CN
Inventors: 张国庆
Original assignee: Nanjing Xinghuan Intelligent Technology Co ltd
Current assignee: Nanjing Xinghuan Intelligent Technology Co ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-06-07
Anticipated expiration: 2042-03-17
Also published as: CN114595781B

Abstract

本发明公开了一种辛烷值损失预测方法、装置、设备及存储介质。该方法包括：接收辛烷值损失预测请求；根据辛烷值损失预测请求获取对应的历史工业样本数据，并根据历史工业样本数据构建辛烷值损失预测模型集合；通过预设模型评估指标对辛烷值损失预测模型集合进行评估，确定目标辛烷值损失预测模型；将辛烷值损失预测请求对应的待测特征数据输入至目标辛烷值损失预测模型中，根据输出结果确定辛烷值损失预测值。本发明实施例的技术方案，解决了汽油精制过程中需要同时考虑多个操作变量，对辛烷值损失预测模型构建难度较大，且采用单一模型构建的方式难以为不同应用场景确定最适宜的辛烷值损失预测模型的问题，提升了辛烷值损失预测的精度。

Description

一种辛烷值损失预测方法、装置、设备及存储介质

技术领域

本发明涉及汽油加工技术领域，尤其涉及一种辛烷值损失预测方法、装置、设备及存储介质。

背景技术

汽油是原油在经过化学加工后获取的一种产品，随着全球范围内的经济发展，汽车保有量正逐步增加，对汽油的需求也在不断增大。原油中的重油由于高度的含硫量无法直接使用，必须经由催化裂化等方式进行精油提取，汽油也即为该过程中的产物。

随着全球范围内环保意识的不断加强，对于汽油中硫含量，以及烯烃含量提出了更高的要求，在对催化裂化汽油进行脱硫和降烯烃的过程中，不可避免地降低了汽油中的辛烷值。为避免辛烷值损失所带来的经济损失，常通过机理建模或数据关联的方式实现对汽油精制过程的建模，并依据建模结果对辛烷值的损失进行确定。

然而，机理建模对原料的分析要求较高，且对过程优化的响应不及时，而由于炼油过程的复杂性和设备的多样性，炼油过程中所具有的操作变量之间常具有高度非线性和强耦联系，在采用数据关联的方式对汽油精制过程进行建模时，需要同时考虑多个操作变量，并使用大量数据样本。

发明内容

本发明提供了一种辛烷值损失预测方法、装置、设备及存储介质，以在保证汽油脱硫效果的基础上，确定最适宜用于对汽油精制过程中辛烷值损失量进行预测的模型，提升了辛烷值损失预测的精度，进以提高了精制所得汽油的质量。

第一方面，本发明实施例提供了一种辛烷值损失预测方法，包括：

接收辛烷值损失预测请求；

根据辛烷值损失预测请求获取对应的历史工业样本数据，并根据历史工业样本数据构建辛烷值损失预测模型集合；

通过预设模型评估指标对辛烷值损失预测模型集合进行评估，确定目标辛烷值损失预测模型；

将辛烷值损失预测请求对应的待测特征数据输入至目标辛烷值损失预测模型中，根据输出结果确定辛烷值损失预测值。

进一步地，根据历史工业样本数据构建辛烷值损失预测模型集合，包括：

对历史工业样本数据进行数据预处理，确定建模样本数据；

通过至少两种预设特征选择方法对建模样本数据进行主要变量提取，确定与各预设特征选择方法对应的建模主要变量样本数据；

针对各建模主要变量样本数据，以及与各建模主要变量样本数据对应的建模主要变量，通过至少两种预设模型构建方法构建辛烷值损失预测模型；

根据各辛烷值损失预测模型确定辛烷值损失预测模型集合。

进一步地，对历史工业样本数据进行数据预处理，包括：

针对历史工业样本数据中每个采集时刻对应的样本原始数据集，

若样本原始数据集中全部数据为空值，则删除采集时刻对应的样本原始数据集；

若样本原始数据集中部分数据为空值，则将采集时刻确定为第一采集时刻，根据历史工业样本数据中位于第一采集时刻前后预设时间段内各采集时刻对应的样本原始数据，对第一采集时刻中为空值的样本原始数据进行填充，并将填充后的样本原始数据集确定为新的样本原始数据集。

进一步地，在将填充后的样本原始数据集确定为新的样本原始数据集之后，还包括：

判断样本原始数据集中是否存在超出预设操作阈值的样本原始数据；

若是，则根据预设操作阈值对各超出预设操作阈值的样本原始数据进行替换，将替换后的样本原始数据集确定为新的样本原始数据集，并根据拉依达准则剔除样本原始数据集中的异常数据；

若否，根据拉依达准则剔除样本原始数据集中的异常数据。

进一步地，确定建模样本数据，包括：

将各剔除异常数据后的样本原始数据集的集合确定为建模样本数据。

进一步地，在通过至少两种预设特征选择方法对建模样本数据进行主要变量提取之前，还包括：

确定建模样本数据中各样本特征间的相关性系数；

根据各相关性系数与预设系数阈值对各样本特征进行筛选，确定初始样本特征；

根据各初始样本特征对建模样本数据进行数据提取，并将提取后的建模样本数据确定为新的建模样本数据。

进一步地，预设特征选择方法至少包括随机森林特征选择方法、单一特征选择方法、方差过滤特征选择方法、主成分分析法、局部线性嵌入特征选择方法、t-分布邻域嵌入特征选择方法和符号转换器特征选择方法中的两种。

进一步地，预设模型构建方法至少包括贝叶斯岭回归模型构建方法、极端梯度提升模型构建方法、弹性网络回归模型构建方法、支持向量回归模型构建方法和梯度提升回归模型构建方法中的两种。

进一步地，通过预设模型评估指标对辛烷值损失预测模型集合进行评估，确定目标辛烷值损失预测模型，包括：

根据解释方差、平均绝对误差、均方误差和可决系数对辛烷值损失预测模型集合中各辛烷值损失预测模型进行预测效果评估；

根据评估结果确定预测效果最优的辛烷值损失预测模型，并将预测效果最优的辛烷值损失预测模型确定为目标辛烷值损失预测模型。

第二方面，本发明实施例还提供了一种辛烷值损失预测装置，包括：

预测请求接收模块，用于接收辛烷值损失预测请求；

模型集合确定模块，用于根据辛烷值损失预测请求获取对应的历史工业样本数据，并根据历史工业样本数据构建辛烷值损失预测模型集合；

目标模型确定模块，用于通过预设模型评估指标对辛烷值损失预测模型集合进行评估，确定目标辛烷值损失预测模型；

损失预测模块，用于将辛烷值损失预测请求对应的待测特征数据输入至目标辛烷值损失预测模型中，根据输出结果确定辛烷值损失预测值。

第三方面，本发明实施例还提供了一种辛烷值损失预测设备，该辛烷值损失预测设备包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，使得至少一个处理器能够实现本发明任一实施例的辛烷值损失预测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现本发明任一实施例的辛烷值损失预测方法。

本发明实施例提供的一种辛烷值损失预测方法、装置、设备及存储介质，通过接收辛烷值损失预测请求；根据辛烷值损失预测请求获取对应的历史工业样本数据，并根据历史工业样本数据构建辛烷值损失预测模型集合；通过预设模型评估指标对辛烷值损失预测模型集合进行评估，确定目标辛烷值损失预测模型；将辛烷值损失预测请求对应的待测特征数据输入至目标辛烷值损失预测模型中，根据输出结果确定辛烷值损失预测值。通过采用上述技术方案，在接收到对汽油精制过程中辛烷值损失进行预测的辛烷值损失预测请求时，根据该请求所对应的应用场景获取对应的历史工业样本数据，进而根据历史工业样本数据采用历史工业样本数据中特征不同的数据，通过不同的模型构建方法构建多种辛烷值损失预测模型，并将各辛烷值损失预测模型的集合依据预设模型评估指标进行评估，得到最适用的目标辛烷值损失预测模型，进而将接收到的辛烷值损失预测请求中的待测特征数据输入至确定出的目标辛烷值损失预测模型中，根据模型的输出结果确定辛烷值损失预测值。解决了汽油精制过程中需要同时考虑多个操作变量，对辛烷值损失预测模型构建难度较大，且采用单一模型构建的方式难以为不同应用场景确定最适宜的辛烷值损失预测模型的问题，利用与辛烷值损失预测请求对应的历史工业样本数据构建多个辛烷值损失预测模型，并根据预设模型评估指标确定与该辛烷值损失预测请求最适宜的目标辛烷值损失预测模型，以最终确定辛烷值损失预测值，提升了辛烷值损失预测的精度，进以提高了精制所得汽油的质量。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一中的一种辛烷值损失预测方法的流程图；

图2是本发明实施例二中的一种辛烷值损失预测方法的流程图；

图3是本发明实施例二中的一种建模样本数据提取的流程示例图；

图4是本发明实施例三中的一种辛烷值损失预测装置的结构示意图；

图5是本发明实施例四中的一种辛烷值损失预测设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的一种辛烷值损失预测方法的流程图，本实施例可适用于汽油精制过程中，对由于脱硫及降烯烃处理所造成的的辛烷值损失进行预测的情况，该方法可以由辛烷值损失预测装置来执行，该辛烷值损失预测装置可以由软件和/或硬件来实现，该辛烷值损失预测装置可以配置在辛烷值损失预测设备上，该辛烷值损失预测设备可以是计算机设备，该计算机设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。

如图1所示，本发明实施例一提供的一种辛烷值损失预测方法，具体包括如下步骤：

S101、接收辛烷值损失预测请求。

在本实施例中，辛烷值损失预测请求具体可理解为在汽油精制过程中需要进行辛烷值损失进行预测时由外界技术人员发起的，携带有本次预测所需预测数据以及适用于本次预测场景信息的预测请求。可选的，辛烷值损失预测请求中可包括用以表征本次应用场景的场景需求信息，以及本次需要进行预测的待测特征数据。

具体的，在汽油精制过程中需要进行辛烷值损失预测时，接收由外界技术人员提供的辛烷值损失预测请求，以明确本次预测所针对的应用场景，并接收需要进行预测的数据值。

S102、根据辛烷值损失预测请求获取对应的历史工业样本数据，并根据历史工业样本数据构建辛烷值损失预测模型集合。

在本实施例中，历史工业样本数据具体可理解为当前采集时刻前一段预设历史采集时间段内，与辛烷值损失预测请求中应用场景所相同或类似场景下所采集的工业样本数据的集合。辛烷值损失预测模型集合具体可理解为依据历史工业样本数据中不同特征数据，通过不同神经网络模型构建方法构建的，多个可用于对辛烷值损失进行预测的辛烷值损失预测模型的集合。

具体的，根据辛烷值损失预测请求中对应的应用场景，由一段预设历史时间段内在汽油精制过程中采集到所有数据中，提取出与该应用场景相同或近似场景对应的多个数据，并将所有提取出数据的集合确定为与辛烷值损失预测请求对应的历史工业样本数据，由于历史工业样本数据中每一个采集时刻对应有多种不同特征类型的数据，故可根据各特征对辛烷值损失预测的重要性进行特征提取，得到多种不同类型的特征组合，并将各特征组合对应的数据依据不同的神经网络模型构建方法进行训练构建，得到多种不同的辛烷值损失预测模型，并将各模型的组合确定为辛烷值损失预测模型集合。

本发明实施例中，通过对同样历史工业样本数据中不同特征类型数据进行提取，并采用不同神经网络模型构建方法进行模型训练构建，可得到多种存在不同偏重的辛烷值损失预测模型，为辛烷值损失预测提供了更充分的选择空间，且不同辛烷值损失预测模型在构建时并未依据全量特征数据，降低了训练所需数据量，提升了模型构建效率。

S103、通过预设模型评估指标对辛烷值损失预测模型集合进行评估，确定目标辛烷值损失预测模型。

在本实施例中，预设模型评估指标具体可理解为预先设置的用于对已构建神经网络模型性能进行评估的指标，需要明确的是，模型评估指标可根据实际应用场景进行适应性调整，也可针对同样的模型评估指标设置不同阈值及权重，以使得根据预设模型评估指标评估所得的模型更符合应用场景的需求。目标辛烷值损失预测模型具体可理解为辛烷值损失预测模型集合中最适宜当前应用场景下对辛烷值损失值进行预测的辛烷值损失预测模型。

具体的，通过预设模型评估指标对辛烷值损失预测模型集合中每个辛烷值损失预测模型进行评估，将各辛烷值损失预测模型针对不同的模型评估指标进行比对，根据各模型评估指标对应的比对结果综合确定评估结果，并根据评估结果确定针对辛烷值损失预测效果最好的辛烷值损失预测模型，将其确定为目标辛烷值损失预测模型。

本发明实施例中，通过预设模型评估指标对辛烷值损失预测模型集合中各模型进行评估，并根据评估结果确定最终用于本次辛烷值损失预测的目标辛烷值损失预测模型，使得确定出的目标辛烷值损失预测模型更适宜当前损失预测所对应的应用场景，提升了辛烷值损失预测的准确性。

S104、将辛烷值损失预测请求对应的待测特征数据输入至目标辛烷值损失预测模型中，根据输出结果确定辛烷值损失预测值。

具体的，由于目标辛烷值损失预测模型为已训练完毕的神经网络模型，故可将辛烷值损失预测请求所对应的待测特征数据直接输入至目标辛烷值损失预测模型中，并将该目标辛烷值损失预测模型的输出结果确定为本次预测的辛烷值损失预测值。

本发明实施例通过接收辛烷值损失预测请求；根据辛烷值损失预测请求获取对应的历史工业样本数据，并根据历史工业样本数据构建辛烷值损失预测模型集合；通过预设模型评估指标对辛烷值损失预测模型集合进行评估，确定目标辛烷值损失预测模型；将辛烷值损失预测请求对应的待测特征数据输入至目标辛烷值损失预测模型中，根据输出结果确定辛烷值损失预测值。通过采用上述技术方案，在接收到对汽油精制过程中辛烷值损失进行预测的辛烷值损失预测请求时，根据该请求所对应的应用场景获取对应的历史工业样本数据，进而根据历史工业样本数据采用历史工业样本数据中特征不同的数据，通过不同的模型构建方法构建多种辛烷值损失预测模型，并将各辛烷值损失预测模型的集合依据预设模型评估指标进行评估，得到最适用的目标辛烷值损失预测模型，进而将接收到的辛烷值损失预测请求中的待测特征数据输入至确定出的目标辛烷值损失预测模型中，根据模型的输出结果确定辛烷值损失预测值。解决了汽油精制过程中需要同时考虑多个操作变量，对辛烷值损失预测模型构建难度较大，且采用单一模型构建的方式难以为不同应用场景确定最适宜的辛烷值损失预测模型的问题，利用与辛烷值损失预测请求对应的历史工业样本数据构建多个辛烷值损失预测模型，并根据预设模型评估指标确定与该辛烷值损失预测请求最适宜的目标辛烷值损失预测模型，以最终确定辛烷值损失预测值，提升了辛烷值损失预测的精度，进以提高了精制所得汽油的质量。

实施例二

图2为本发明实施例二提供的一种辛烷值损失预测方法的流程图，本发明实施例的技术方案在上述各可选技术方案的基础上进一步优化，在根据历史工业样本数据构建辛烷值损失预测模型集合时，首先对历史工业样本数据中各采集时刻对应的数据进行空值删除、填充及异常数据剔除等数据预处理，并通过至少两种预设特征选择方法由预处理后的样本数据中进行主要变量提取，进而根据不同的特征选择方法确定不同的建模主要变量样本数据，针对同样的建模主要样本数据，采用至少两种预设模型构建方法进行辛烷值损失预测模型的构建，以生成可用以进行辛烷值损失预测的辛烷值损失预测模型集合，进而通过解释方差、平均绝对误差、均方误差和可决系数对集合中各模型的预测效果进行评估，确定出预测效果最优的辛烷值损失预测模型，将其作为目标辛烷值损失预测模型对与辛烷值损失预测请求对应的待测特征数据进行辛烷值损失预测，提升了辛烷值损失预测的精度，降低了每个辛烷值损失预测模型构建的复杂度。

如图2所示，本发明实施例二提供的一种辛烷值损失预测方法，具体包括如下步骤：

S201、接收辛烷值损失预测请求。

S202、根据辛烷值损失预测请求获取对应的历史工业样本数据。

具体的，根据辛烷值损失预测请求所对应的适用应用场景，参考一段预设历史时间段内汽油精制过程中所采集的数据，由其中提取与应用场景匹配度最高的数据作为历史工业样本数据。

示例性的，历史工业样本数据可为近4年内所采集到的汽油精制过程数据中的部分采集时刻所对应的数据。需要明确的是，每个采集时刻所对应的数据包含多种不同特征性质，也即每个采集时刻所采集数据可构成一个数据集合，其中可包括辛烷值损失预测所需的原料性质、待生吸附剂性质、再生吸附剂性质、产品性质和操作变量等367个特征数据，示例性的，每个采集时刻所对应特征数据的类型可包括硫含量、饱和烃含量、烯烃含量、芳烃含量、溴值、密度、焦炭含量、氢油比、还原器压力及稳定塔液位等。

S203、对历史工业样本数据进行数据预处理，确定建模样本数据。

在本实施例中，建模样本数据具体可理解为满足辛烷值损失模型构建需求的，经处理后可用于进行建模的历史工业样本数据的集合。

具体的，由于历史工业样本数据中每个采集时刻所对应的数据包括多种不同特征类型的数据，故在该采集时刻对应的数据中可能存在缺失和异常的情况，此时需先对该采集时刻中缺失的数据依据该采集时刻前后预设时间段内采集的数据进行填充，并利用预设阈值及异常值处理方式对异常值进行剔除或修正，并将经上述处理后所得的数据确定为建模样本数据。

进一步地，将历史样本数据中每个采集时刻所对应的数据确定为样本原始数据集，针对其进行数据预处理可分为以下几种情况：

A)若样本原始数据集中全部数据为空值，则删除采集时刻对应的样本原始数据集。

B)若样本原始数据集中部分数据为空值，则将采集时刻确定为第一采集时刻，根据历史工业样本数据中位于第一采集时刻前后预设时间段内各采集时刻对应的样本原始数据，对第一采集时刻中为控制的样本原始数据进行填充，并将填充后的样本原始数据集确定为新的样本原始数据集。

具体的，若一个采集时刻所对应的样本原始数据集中所有数据均为空值，则可认为该采集时刻存在采集失败的情况，该采集时刻所对应的数据没有参考及补充价值，此时直接删除该采集时刻所对应的样本原始数据集即可，无需以将该采集时刻作为辛烷值损失预测模型构建的依据。若一个采集时刻所对应的样本原始数据集中由部分数据为空值，则可认为该采集时刻针对某些特征类型存在数据采集失败的情况，此时可将该采集时刻确定为第一采集时刻，由历史工业样本数据中提取位于其前后预设时间段内的多个采集时刻所对应的样本原始数据，并由提取到的多个样本原始数据中，提取与第一采集时刻中为空值数据特征类型相同的数据，并将各数据的平均值作为第一采集时刻中该特征类型对应的数据填充至空值对应位置，并将完成所有空值填充后的样本原始数据确定为新的样本原始数据。

进一步地，针对上述完成空值填充后的样本原始数据集，或不存在空值的样本原始数据集，针对其进行数据预处理还包括以下几种情况：

C)若样本原始数据集中存在超出预设操作阈值的样本原始数据，则根据预设操作阈值对各超出预设操作阈值的样本原始数据进行替换，将替换后的样本原始数据确定为新的样本原始数据集，并根据拉依达准则剔除样本原始数据集中的异常数据。

D)若样本原始数据集中不存在超出预设操作阈值的样本原始数据，则根据拉依达准则剔除样本原始数据集中的异常数据。

在本实施例中，预设操作阈值具体可理解为样本原始数据集中对应各特征的样本原始数据理论上应处于的数值范围。拉依达准则具体可理解为预先假设一组数据只包含随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡是超过该区间的误差，就不属于随机误差而是粗大误差，对含有粗大误差的数据予以剔除的数据分析准则，也即用以剔除一组数据中不符合正态分布数据的准则。

具体的，若一个采集时刻所对应的样本原始数据集中存在超出预设操作阈值的样本原始数据，则可认为其中超出预设操作阈值的样本原始数据为采集异常的数据，进而在样本原始数据大于预设操作阈值最大值时，将该样本原始数据替换为预设操作阈值中的最大值，在样本原始数据小于预设操作阈值最小值时，将该样本原始数据替换为预设操作阈值中的最小值，在完成所有超出预设操作阈值的样本原始数据的替换后，可认为新的样本原始数据集中所有数据均属于正常执行情况下可被采集的数据，此时可根据拉依达准则对样本原始数据集中不符合正态分布的异常数据进行剔除。若一个采集时刻所对应的样本原始数据集中不存在超出预设操作阈值的样本原始数据，则可认为其中所有数据均属于汽油精制过程正常执行情况下可被采集的数据，此时可根据拉依达准则对样本原始数据集中不符合正态分布的异常数据进行剔除。

进一步地，可将上述完成异常数据剔除后的样本原始数据集的集合确定为建模样本数据。也即将历史工业样本数据中经数据预处理后，未被删除的各采集时刻对应数据的集合确定为建模样本数据。

S204、通过至少两种预设特征选择方法对建模样本数据进行主要变量提取，确定与各预设特征选择方法对应的建模主要变量样本数据。

其中，预设特征选择方法至少包括随机森林特征选择方法、单一特征选择方法、方差过滤特征选择方法、主成分分析法、局部线性嵌入特征选择方法、t-分布邻域嵌入特征选择方法和符号转换器特征选择方法中的两种。

具体的，针对确定出的建模样本数据，依次通过每种预设特征选择方法对其进行特征重要性排序，并根据不同特征选择方法的特性将排序靠前的多个特征确定为建模样本数据中的主要特征，并由建模样本数据中提取与各主要特征相对应的特征数据，将提取得到的数据的集合确定为与该预设特征选择方法对应的建模主要变量样本数据。

示例性的，当预设特征选择方法为随机森林(Random Forest，RF)特征选择方法时，依次计算建模样本数据所对应各特征的重要性，并进行重要性排序，由其中选择预设数量各信息量最大的特征作为主要特征，并将建模样本数据中与主要特征所对应数据确定为建模主要变量样本数据，其中，特征重要性计算公式可通过下式表示：

其中，W为特征重要性值，N为决策树的个数，errOOB₁为决策树的袋外误差，errOOB₂为随即对某一特征加入噪声后计算所得的袋外误差，其中，袋外误差是随机森林泛化误差的一个无偏估计。

接上述示例，当预设特征选择方法为单一特征选择方法时，可对建模样本数据中各单一变量进行统计检验以选择其中重要性最高的几个特征作为主要特征，并将建模样本数据中与主要特征所对应数据确定为建模主要变量样本数据。

接上述示例，当预设特征选择方法为方差过滤特征选择方法时，可首先计算建模样本数据中各特征值的方差，若方差较小则样本差异较小，对辛烷值测量的贡献率较低，进而可通过预先设置的阈值筛除方差较低的样本数据，并将剩余数据对应特征确定为主要特征，将建模样本数据中与主要特征所对应数据确定为建模主要变量样本数据。

接上述示例，当预设特征选择方法为主成分分析法(Principal ComponentAnalysis，PCA)时，对建模样本数据中各特征进行由高维到低维的映射，并利用映射后的变量特征确定原有变量的总体特征，根据总体特征确定主要特征，将建模样本数据中与主要特征所对应数据确定为建模主要变量样本数据。

接上述示例，当预设特征选择方法为局部线性嵌入特征选择方法(LocallyLinear Embedding，LLE)时，其中每一个数据点都有可以由其近邻点的线性加权组合获得，LLE算法主要分为三步：1)利用k近邻算法获得样本数据点x_i的k近邻点；2)由每个样本点计算出局部权重系数矩阵；3)利用局部权重系数矩阵和k近邻点将样本数据点映射至低维空间，将映射后所得的特征确定为主要特征，将建模样本数据中与主要特征所对应数据确定为建模主要变量样本数据。其中，局部权重系数矩阵可通过下式表示：

Cov_i＝(x_i-x_j)(x_i-x_j)^T

其中，Cov_i为局部协方差矩阵，W_i为与局部协方差矩阵对应的权重系数向量，由W_i生成权重系数矩阵，1_k为k维全1向量。

接上述示例，当预设特征选择方法为t-分布邻域嵌入特征选择方法(t-Stochastic Neighbor Embedding，t-SNE)时，可将建模样本数据由高维降低至指定低维度，使用t分布表达两个样本数据点之间的相似度，并将其转换为概率，根据概率选择预设数量个主要特征，并将建模样本数据中与主要特征所对应数据确定为建模主要变量样本数据。

接上述示例，当预设特征选择方法为符号转换器特征选择方法(SymbolicTransformer)时，不直接由建模样本数据中选择特征，而是通过随机公式来表示样本特征间的关系，进而生成新的特征作为主要特征，并将建模样本数据中与主要特征所对应数据确定为建模主要变量样本数据。

进一步地，由于建模样本数据中可能存在多个相关性较强的特征，其对于辛烷值的预测影响近似，仅需选择一个特征进行模型构建即可达到多特征建模的效果，为减少运算数量，可在通过至少两种预设特征选择方法对建模样本数据进行主要变量提取之前对建模样本数据进行处理。图3为本发明实施例二还提供的一种建模样本数据提取的流程示例图，如图3所示，具体包括如下步骤：

S301、确定建模样本数据中各样本特征间的相关性系数。

在本实施例中，样本特征具体可理解为建模样本数据所具有的不同特征类型的特征数据。

具体的，对建模样本数据中各样本特征进行两两特征间的斯皮尔曼相关性系数进行计算，确定不同特征间的相关性。需要明确的是，相关性系数越高，两特征越近似，其对辛烷值预测所作贡献程度越近似。

S302、根据各相关性系数与预设系数阈值对各样本特征进行筛选，确定初始样本特征。

在本实施例中，预设系数阈值具体可理解为预先设置的用以对建模样本数据中相关性较高特征进行筛选的阈值，其可根据实际情况进行适应性设置，本发明实施例对此不进行限制。初始样本特征具体可理解为经筛选后所得的建模样本数据中相互独立性较高，对辛烷值预测贡献交叉性较低的特征。

具体的，确定各相关性系数与预设系数阈值间的大小关系，将大于预设系数阈值的相关性系数所对应的特征提取出来，针对同一相关性系数的两个特征，筛除其中一个特征，并将所有相关性系数均完成筛除后所得的样本特征确定为初始样本特征。

S303、根据各初始样本特征对建模样本数据进行数据提取，并将提取后的建模样本数据确定为新的建模样本数据。

具体的，由建模样本数据中提取各初始样本特征所对应的数据，并将提取出数据的集合确定为新的建模样本数据。

S205、针对各建模主要变量样本数据，以及与各建模主要变量样本数据对应的建模主要变量，通过至少两种预设模型构建方法构建辛烷值损失预测模型。

其中，预设模型构建方法至少包括贝叶斯岭回归模型构建方法、极端梯度提升模型构建方法、弹性网络回归模型构建方法、支持向量回归模型构建方法和梯度提升回归模型构建方法中的两种。

具体的，针对每种确定出的建模主要变量样本数据，以及与该建模主要样本变量数据对应的建模主要变量，依次通过每种预设模型构建方法进行神经网络模型构建，得到预设特征选择方法个数与预设模型构建方法个数乘积个辛烷值损失预测模型。

在本发明实施例中，通过不同模型构建方法以及不同主要特征构建的辛烷值损失预测模型在用以进行辛烷值损失预测时有着不同偏向，进行多种建模使得覆盖面完全，并可由其中选择最适宜当前使用场景的辛烷值损失预测模型进行预测，提升了辛烷值损失预测的准确性。

示例性的，以一种建模主要样本变量数据为例，当预设模型构建方法为贝叶斯岭回归模型(Bayesian Ridge Regression)构建方法时，可假设先验概率分布带有误差和α参数，且先验概率服从伽马分布，该分布与高斯分布成共轭先验的关系。其中，先验参数w由高斯球面公式给出，如下式所示：

p(w|λ)＝N(w|0,λ^-1I_p)

接上述示例，当预设模型构建方法为极端梯度提升模型(XGBoost)构建方法时，可基于建模主要样本变量数据中的特征不断生成回归树，并学习新的函数来拟合之前预测的相应的残差来降低损失函数，而残差的和即为原始样本数据的预测值，通过引入阈值和正则化来减小模型的复杂度，以防止发生过拟合的情况。其中，XGBoost目标函数可通过下式表示：

通过泰勒展开和一阶二阶求导，目标函数进而可通过下式表示：

其中，g_i和h_i分别为一阶和二阶导数，y_i为建模主要样本变量数据的实际值，对于第t棵回归树的第i个样本，

为第t-1棵树的预测结果，f_t(x_i)为第t棵树的模型预测结果，L为损失函数，Ω(f_t)为正则化项，C为阈值常量。

接上述示例，当预设模型构建方法为弹性网络回归模型(ElasticNet回归)构建方法时，通过由岭回归和Lasso回归组成的具有两种惩罚因子的线性回归单模型进行模型构建，其不仅可以像Lasso回归一样学习少参的非零稀疏模型，也可像岭回归一样具有防止过拟合的正则化性质。其中，目标函数可通过下式表示：

其中，J(θ)为ElasticNet回归的目标函数，

为未融合Lasso回归正则化和岭回归正则化的原始目标函数，

为绝对值损失函数，

为平方和损失函数，α和λ为人工调整的超参数，由ElasticNet算法自动生成的θ＝(X^TX)^-1X^TY，其中，X为训练特征矩阵，Y为结果向量。

接上述示例，当预设模型构建方法为支持向量回归模型(Support VactorRegression，SVR)构建方法时，通过确定一个让建模主要样本变量数据中所有数据点到面距离最近的一个回归平面，以使得预测值与原始样本的实际值偏离较小。

接上述示例，当预设模型构建方法为梯度提升回归模型(Gradient BoostingRegression，GBR)构建方法时，通过集成多个效果较差的学习算法，在错误算法中进行学习，在梯度提升回归模型的梯度提升步长m∈[1,M]中，首先寻找一个预测性较差的模型F_m(x)，其残差具体可表示为L(x)＝y-F_m(x)。为减少残差，梯度提升回归模型在残差下降的梯度上建立一个新模型，可通过下式表示：

F_m+1(x)＝F_m(x)+γh(x)

其中，h(x)为估计器；y为原始样本实际值，也即本发明实施例中建模主要样本变量数据的实际值；γ为对应区域的最优值。

S206、根据各辛烷值损失预测模型确定辛烷值损失预测模型集合。

具体的，将经上述预设特征选择方法与预设模型构建方法排列组合构建所得的辛烷值损失预测模型的集合确定为辛烷值损失预测模型集合。

S207、根据解释方差、平均绝对误差、均方误差和可决系数对辛烷值损失预测模型集合中各辛烷值损失预测模型进行预测效果评估。

在本实施例中，解释方差(Explained_variance)具体可理解为用以表示随机变量与其期望之间离散程度的量，也即由多个变量时，分析单个变量与总方差之间的方差比即为该变量的解释方差。平均绝对误差(Mean Absolute Error，MAE)具体可理解为所有单个观测值与算数平均值的偏差的绝对值的平均，在本发明实施例中，具体可理解为一个辛烷值损失预测模型的预测值与其样本中真实值的算数平均值的偏差的绝对值。均方误差(Mean-Square Error，MSE)具体可理解为用以反映估计量与被估计量之间差异程度的度量值，也即为各单个观测值偏离真实值的距离平方和的平均数。可决系数(R-Square，R2)具体可理解为一种用以表示一个随机变量与多个随机变量关系的数字帖子，用以反映回归模式说明因变量变化可靠程度的统计指标。

具体的，针对辛烷值损失预测模型集合中每一个辛烷值损失预测模型，确定其中各预测值与真实值间的偏差确定各辛烷值损失预测模型的解释方差、平均绝对误差、均方误差和可决系数，进而依据上述四种评估指标综合确定该辛烷值损失预测模型的预测效果。可选的，针对不同评估指标可为其设置对应的评分值，并可根据接收到的辛烷值损失预测请求对应应用场景的偏向，为不同评估指标设定不同的权重系数，对各评估指标评分值与对应权重系数的乘积求和，并将和值确定为用以表征该辛烷值损失预测模型预测效果的综合评分，评分值及权重系数的设定方式可根据实际情况适应性的进行设置，本发明实施例对此不进行限制。

S208、根据评估结果确定预测效果最优的辛烷值损失预测模型，并将预测效果最优的辛烷值损失预测模型确定为目标辛烷值损失预测模型。

具体的，比对辛烷值损失预测模型集合中各辛烷值损失预测模型的预测效果评估分值，将最高分值的辛烷值损失预测模型确定为目标辛烷值损失预测模型。

S209、将辛烷值损失预测请求对应的待测特征数据输入至目标辛烷值损失预测模型中，根据输出结果确定辛烷值损失预测值。

具体的，根据辛烷值损失预测请求确定本次所需进行预测的待测特征数据，并将待测特征数据代入至筛选确定的目标辛烷值损失预测模型中，并将目标辛烷值损失预测模型的输出结果确定为辛烷值损失预测值。

本发明实施例的技术方案，首先根据接收到的辛烷值损失预测请求获取与需要进行辛烷值损失预测应用场景相对应的历史工业样本数据，并在获取历史工业样本数据后根据其中各采集时刻对应的特征数据状态进行空值删除、填充及异常数据剔除等数据预处理，并通过至少两种预设特征选择方法由预处理后的样本数据中进行主要变量提取，进而根据不同的特征选择方法确定不同的建模主要变量样本数据，针对同样的建模主要样本数据，采用至少两种预设模型构建方法进行辛烷值损失预测模型的构建，以对上述方法进行排列组合生成可用以进行辛烷值损失预测的辛烷值损失预测模型集合，进而通过解释方差、平均绝对误差、均方误差和可决系数对集合中各模型的预测效果进行评估，确定出预测效果最优的辛烷值损失预测模型，将其作为目标辛烷值损失预测模型对与辛烷值损失预测请求对应的待测特征数据进行辛烷值损失预测，提升了辛烷值损失预测的精度，降低了每个辛烷值损失预测模型构建的复杂度。

实施例三

图4为本发明实施例三提供的一种辛烷值损失预测装置的结构示意图。如图4所示，该辛烷值损失预测装置包括：预测请求接收模块41，模型集合确定模块42，目标模型确定模块43和损失预测模块44。

其中，预测请求接收模块41，用于接收辛烷值损失预测请求；模型集合确定模块42，用于根据辛烷值损失预测请求获取对应的历史工业样本数据，并根据历史工业样本数据构建辛烷值损失预测模型集合；目标模型确定模块43，用于通过预设模型评估指标对辛烷值损失预测模型集合进行评估，确定目标辛烷值损失预测模型；损失预测模块44，用于将辛烷值损失预测请求对应的待测特征数据输入至目标辛烷值损失预测模型中，根据输出结果确定辛烷值损失预测值。

本发明实施例的技术方案，解决了汽油精制过程中需要同时考虑多个操作变量，对辛烷值损失预测模型构建难度较大，且采用单一模型构建的方式难以为不同应用场景确定最适宜的辛烷值损失预测模型的问题，利用与辛烷值损失预测请求对应的历史工业样本数据构建多个辛烷值损失预测模型，并根据预设模型评估指标确定与该辛烷值损失预测请求最适宜的目标辛烷值损失预测模型，以最终确定辛烷值损失预测值，提升了辛烷值损失预测的精度，进以提高了精制所得汽油的质量。

可选的，模型集合确定模块42，包括：

数据预处理单元，用于对历史工业样本数据进行数据预处理，确定建模样本数据。

样本数据确定单元，用于通过至少两种预设特征选择方法对建模样本数据进行主要变量提取，确定与各预设特征选择方法对应的建模主要变量样本数据。

模型构建单元，用于针对各建模主要变量样本数据，以及与各建模主要变量样本数据对应的建模主要变量，通过至少两种预设模型构建方法构建辛烷值损失预测模型。

集合确定单元，用于根据各辛烷值损失预测模型确定辛烷值损失预测模型集合。

可选的，数据预处理单元，具体用于：

若否，则根据拉依达准则剔除样本原始数据集中的异常数据。

进一步地，模型集合确定模块42，还包括：

相关系数确定单元，用于确定建模样本数据中各样本特征间的相关性系数。

初始特征确定单元，用于根据各相关性系数与预设系数阈值对各样本特征进行筛选，确定初始样本特征。

样本数据确定单元，用于根据各初始样本特征对建模样本数据进行数据提取，并将提取后的建模样本数据确定为新的建模样本数据。

可选的，预设特征选择方法包括随机森林特征选择方法、单一特征选择方法、方差过滤特征选择方法、主成分分析法、局部线性嵌入特征选择方法、t-分布邻域嵌入特征选择方法和符号转换器特征选择方法中的至少两种。

可选的，预设模型构建方法包括贝叶斯岭回归模型构建方法、极端梯度提升模型构建方法、弹性网络回归模型构建方法、支持向量回归模型构建方法和梯度提升回归模型构建方法中的至少两种。

可选的，目标模型确定模块43，包括：

预测效果评估单元，用于根据解释方差、平均绝对误差、均方误差和可决系数对辛烷值损失预测模型集合中各辛烷值损失预测模型进行预测效果评估。

目标模型确定单元，用于根据评估结果确定预测效果最优的辛烷值损失预测模型，并将预测效果最优的辛烷值损失预测模型确定为目标辛烷值损失预测模型。

本发明实施例所提供的辛烷值损失预测装置可执行本发明任意实施例所提供的辛烷值损失预测方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5为本发明实施例四提供的一种辛烷值损失预测设备的结构示意图。辛烷值损失预测设备50可为电子设备，旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，辛烷值损失预测设备50包括至少一个处理器51，以及与至少一个处理器51通信连接的存储器，如只读存储器(ROM)52、随机访问存储器(RAM)53等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器51可以根据存储在只读存储器(ROM)52中的计算机程序或者从存储单元58加载到随机访问存储器(RAM)53中的计算机程序，来执行各种适当的动作和处理。在RAM 53中，还可存储辛烷值损失预测设备50操作所需的各种程序和数据。处理器51、ROM 52以及RAM 53通过总线54彼此相连。输入/输出(I/O)接口55也连接至总线54。

辛烷值损失预测设备50中的多个部件连接至I/O接口55，包括：输入单元56，例如键盘、鼠标等；输出单元57，例如各种类型的显示器、扬声器等；存储单元58，例如磁盘、光盘等；以及通信单元59，例如网卡、调制解调器、无线通信收发机等。通信单元59允许辛烷值损失预测设备50通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器51可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器51的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器51执行上文所描述的各个方法和处理，例如辛烷值损失预测方法。

在一些实施例中，辛烷值损失预测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元58。在一些实施例中，计算机程序的部分或者全部可以经由ROM 52和/或通信单元59而被载入和/或安装到辛烷值损失预测设备50上。当计算机程序加载到RAM 53并由处理器51执行时，可以执行上文描述的辛烷值损失预测方法的一个或多个步骤。备选地，在其他实施例中，处理器51可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行辛烷值损失预测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种辛烷值损失预测方法，其特征在于，包括：

接收辛烷值损失预测请求；

根据所述辛烷值损失预测请求获取对应的历史工业样本数据，并根据所述历史工业样本数据构建辛烷值损失预测模型集合；

通过预设模型评估指标对所述辛烷值损失预测模型集合进行评估，确定目标辛烷值损失预测模型；

将所述辛烷值损失预测请求对应的待测特征数据输入至所述目标辛烷值损失预测模型中，根据输出结果确定辛烷值损失预测值。

2.根据权利要求1所述的方法，其特征在于，所述根据所述历史工业样本数据构建辛烷值损失预测模型集合，包括：

对所述历史工业样本数据进行数据预处理，确定建模样本数据；

通过至少两种预设特征选择方法对所述建模样本数据进行主要变量提取，确定与各所述预设特征选择方法对应的建模主要变量样本数据；

针对各所述建模主要变量样本数据，以及与各所述建模主要变量样本数据对应的建模主要变量，通过至少两种预设模型构建方法构建辛烷值损失预测模型；

根据各所述辛烷值损失预测模型确定辛烷值损失预测模型集合。

3.根据权利要求2所述的方法，其特征在于，所述对所述历史工业样本数据进行数据预处理，包括：

若所述样本原始数据集中全部数据为空值，则删除所述采集时刻对应的样本原始数据集；

若所述样本原始数据集中部分数据为空值，则将所述采集时刻确定为第一采集时刻，根据所述历史工业样本数据中位于所述第一采集时刻前后预设时间段内各采集时刻对应的样本原始数据，对所述第一采集时刻中为空值的样本原始数据进行填充，并将填充后的样本原始数据集确定为新的样本原始数据集。

4.根据权利要求3所述的方法，其特征在于，在所述将填充后的样本原始数据集确定为新的样本原始数据集之后，还包括：

判断所述样本原始数据集中是否存在超出预设操作阈值的样本原始数据；

若是，则根据所述预设操作阈值对各所述超出预设操作阈值的样本原始数据进行替换，将替换后的样本原始数据集确定为新的样本原始数据集，并根据拉依达准则剔除所述样本原始数据集中的异常数据；

若否，则根据拉依达准则剔除所述样本原始数据集中的异常数据。

5.根据权利要求4所述的方法，其特征在于，所述确定建模样本数据，包括：

6.根据权利要求2所述的方法，其特征在于，在所述通过至少两种预设特征选择方法对所述建模样本数据进行主要变量提取之前，还包括：

确定所述建模样本数据中各样本特征间的相关性系数；

根据各所述相关性系数与预设系数阈值对各所述样本特征进行筛选，确定初始样本特征；

根据各所述初始样本特征对所述建模样本数据进行数据提取，并将提取后的建模样本数据确定为新的建模样本数据。

7.根据权利要求2所述的方法，其特征在于，所述预设特征选择方法至少包括随机森林特征选择方法、单一特征选择方法、方差过滤特征选择方法、主成分分析法、局部线性嵌入特征选择方法、t-分布邻域嵌入特征选择方法和符号转换器特征选择方法中的两种。

8.根据权利要求2所述的方法，其特征在于，所述预设模型构建方法至少包括贝叶斯岭回归模型构建方法、极端梯度提升模型构建方法、弹性网络回归模型构建方法、支持向量回归模型构建方法和梯度提升回归模型构建方法中的两种。

9.根据权利要求1所述的方法，其特征在于，所述通过预设模型评估指标对所述辛烷值损失预测模型集合进行评估，确定目标辛烷值损失预测模型，包括：

根据解释方差、平均绝对误差、均方误差和可决系数对所述辛烷值损失预测模型集合中各辛烷值损失预测模型进行预测效果评估；

根据评估结果确定预测效果最优的辛烷值损失预测模型，并将所述预测效果最优的辛烷值损失预测模型确定为目标辛烷值损失预测模型。

10.一种辛烷值损失预测装置，其特征在于，包括：

预测请求接收模块，用于接收辛烷值损失预测请求；

模型集合确定模块，用于根据所述辛烷值损失预测请求获取对应的历史工业样本数据，并根据所述历史工业样本数据构建辛烷值损失预测模型集合；

目标模型确定模块，用于通过预设模型评估指标对所述辛烷值损失预测模型集合进行评估，确定目标辛烷值损失预测模型；

损失预测模块，用于将所述辛烷值损失预测请求对应的待测特征数据输入至所述目标辛烷值损失预测模型中，根据输出结果确定辛烷值损失预测值。

11.一种辛烷值损失预测设备，其特征在于，所述辛烷值损失预测设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的辛烷值损失预测方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-9中任一项所述的辛烷值损失预测方法。