CN115330034A

CN115330034A - 一种基于数据降维聚类的生产指标预测方法及存储介质

Info

Publication number: CN115330034A
Application number: CN202210894509.XA
Authority: CN
Inventors: 喻莉; 李君临
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-11

Abstract

本发明公开了一种基于数据降维聚类的生产指标预测方法及存储介质，属于流程工业数据处理领域，包括：计算各输入序列与生产指标序列在不同时间偏移下的时域互信息，并进行积分，得到总时域互信息量；筛选出总时域互信息量最高的m个输入序列，作为目标输入序列；在不同时刻分别获得各目标输入序列的降维特征，得到各时刻的降维特征序列后进行聚类；输入序列的降维特征为该输入序列在时域上的加权求和结果，加权求和的权值与对应时间偏移下的时域互信息正相关，且所有权值之和为1；对于每一个聚类类别，利用其中的降维特征序列及已知的生产指标序列训练机器学习模型，得到对应的生产指标预测模型。本发明能够降低生产指标预测模型的训练复杂度。

Description

一种基于数据降维聚类的生产指标预测方法及存储介质

技术领域

本发明属于流程工业数据处理领域，更具体地，涉及一种基于数据降维聚类的生产指标预测方法及存储介质。

背景技术

流程工业指原材料经过一系列物理或化学变化得到产品的工业生产流程，常见的流程工业包括水泥工业、石油工业、饲料农药生产等。流程工业的产品质量的影响因素较为复杂，包括原料成分、各个子工业系统的物理化学状态等。准确获取生产质量等生产关键指标，可以针对性地指导工业系统的工作状态调整，从而达到节省原料、稳定产品质量、减少碳排放等目的。然而，现有的工业场景下，生产关键指标往往通过工厂实验室化学分析等方式进行，这一类方法往往无法实时进行，导致质量监测和工况调整的滞后性。

随着智能工业的发展，实际工业场景下出现了对生产指标的软测量方法，具体来说，该方法通过分析生产过程中的传感器、入料配比等数据，并将其送入预测模型中，进而对生产指标进行预测。然而，在实际生产中，获得的数据量较大，含有较多的冗余信息。针对这一问题，现有方法提出了计算模型候选的输入信息与待预测的输出信息之间的互信息，用以衡量各候选输入信息与输出信息之间的关联性，并由此筛选出与输出信息关联性较大的候选输入信息，用于实际的预测，例如，在申请公布号为“CN110570030A”的专利文件，即公开了相关的数据降维方法。这种方法一定程度上能够降低模型输入的维度，但是，对于单个输入而言，仍需采集较长的时序数据，而在实际的生产指标预测过程中，某一特定时刻的生产指标只与有限时间段内的传感器数据有关，因此，采用现有的方法对模型输入数据进行降维处理之后，仍然存在一定的数据冗余，这使得预测模型的训练复杂度较高。

此外，工业生产受到气温、气压等外界条件的影响，同时也存在增产、减产等工作状态，会出现多种工况，因此，传统地单一软测量模型不再适用。针对这一问题，在申请公布号为“CN113012766A”的专利文件中，公开了一种基于在线选择性集成的自适应软测量建模方法，其首先结合K-means和KNN的优势构建多样性的局部区域，同时建立相应的局部模型，随后采用概率分析剔除冗余区域和对应的局部模型。此外，在在线预测阶段，采用最近获得的历史样本作为验证集选择最佳候选局部模型，并确定模型集成权重，然后实现局部预测结果的自适应融合。该方法泛化性得到了改善，对于不同工况下的生产指标预测具有较好的效果，但是，其模型过程还涉及到复杂的权重确定及模型融合过程，预测模型的训练难度以及复杂度较高。此外，在实际的工业生产中，不同的工况往往与特定的时序范围相关，该专利文件在建模过程中并没有充分考虑这一特性，预测精度仍有待进一步提高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于数据降维聚类的生产指标预测方法及存储介质，其目的在于，降低生产指标预测模型的训练复杂度。

为实现上述目的，按照本发明的一个方面，提供了一种基于数据降维聚类的生产指标预测方法，包括：预测模型建立步骤；预测模型建立步骤包括：

计算输入序列集合中各输入序列与待预测的生产指标序列在不同时间偏移下的时域互信息；每一个输入序列对应一类生产数据在指定时间段内的检测结果；时域互信息仅包含与时序相关的信息量；

分别对各输入序列对应的时域互信息进行积分，得到各输入序列与生产指标序列的总时域互信息量，并筛选出总时域互信息量最高的m个输入序列，作为目标输入序列；m为正整数；

在不同时刻分别获得每一个目标输入序列的降维特征，得到各时刻的降维特征序列，并对不同时刻的降维特征序列进行聚类；对于任意一个输入序列，其降维特征为该输入序列在时域上的加权求和结果，加权求和过程中，时域互信息越大，对应时间偏移下的权值越大，且所有权值之和为1；

对于聚类得到的每一个类别，利用其中的降维特征序列及已知的生产指标序列训练机器学习模型，得到该类别所对应时序下的生产指标预测模型，用于根据降维特征序列预测生产指标序列。

进一步地，任意一个输入序列x_i(t)与生产指标序列在任意时间偏移Δt下的时域互信息I_t(x_i(t-Δt),y_p(t))为：

其中，y_p(t)表示生产指标序列；I(x_i(t-Δt),y_p(t))表示输入序列x_i(t)与生产指标序列y_p(t)在时间偏移Δt下的互信息量，其计算公式为：

p(x)和p(y)分别表示输入序列x_i(t)和生产指标序列y_p(t)的边缘分布，p(x,y)表示输入序列x_i(t)和生产指标序列y_p(t)在时间偏移Δt下的联合分布。

在一些可选的实施例中，任意一个输入序列x_i(t)与生产指标序列的总时域互信息量I_sumt(t)为：

在一些可选的实施例中，任意一个输入序列x_i(t)在t时刻的降维特征s_i(t)为：

进一步地，本发明提供的基于数据降维聚类的生产指标预测方法，还包括：预测步骤；

预测步骤包括：

在待预测的目标时刻，获得每一个目标输入序列的降维特征，得到目标时刻的降维特征序列；

根据目标时刻所属时序范围，选取对应的生产指标预测模型，将目标时刻的降维特征序列输入至该生产指标预测模型，由该生产指标预测模型输出生产指标序列的预测结果。

按照本发明的另一个方面，提供了一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行本发明提供的基于数据降维聚类的生产指标预测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明估计不同时间偏移下预测模型的各输入与输出之间的互信息，以衡量不同生产数据与待预测的生产指标之间的关联性，并筛选出与生产指标之间关联性最大的部分输入序列，由此能够在保证模型预测效果的基础上，有效降低模型输入的维度；在此基础上，本发明进一步基于预估的互信息设计权值，用于对输入序列在时域上进行加权求和，将筛选出的输入序列转换为了包含序列信息的一维数值，进一步降低了模型的输入维度。总的来说，本发明基于互信息对模型的输入进行了二次降维处理，在保证模型预测效果的基础上，有效降低了生产指标预测模型的训练难度，并降低了模型训练的时间复杂度和空间复杂度。

(2)本发明在对模型输入数据进行二次降维的基础上，对输入数据进行聚类，并对聚类得到的不同类别分别训练对应的生产指标预测模型，分别用于对对应时序范围下的生产指标进行预测，由此能够针对不同工况采用合适的模型进行针对性地预测，进一步提高模型的预测效果。

附图说明

图1为本发明实施例提供的时域互信息随时间偏移的变化关系；

图2为本发明实施例提供的基于数据降维聚类的生产指标预测方法中，预测模型建立步骤的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了解决现有的流程工业中，由于数据冗余，而导致对生产指标进行预测的模型训练的时间、空间复杂度高的问题，本发明提供了一种基于数据降维聚类的生产指标预测方法，其整体思路在于：利用模型输入与输出之间的互信息衡量生产数据与待预测生产指标之间的相关性，并充分利用该信息在保证模型预测效果的基础上对模型输入数据进行充分的降维处理，从而有效降低模型的训练复杂度。

在详细解释本发明的技术方案之前，先对互信息相关的信息进行如下简要介绍。

对于任意两个序列X和Y，统计其边缘分布p(x)和p(y)，以及二者的联合分布p(x,y)，则这两个序列的互信息量I(x,y)可通过如下公式进行计算：

流程工业中，生产指标包括盐分含量等，生产数据包括温度、氧气浓度等传感器数据以及入料氧化钙含量等入料配比数据，考虑到在生产指标预测的过程中，模型输入的工业流程数据与待预测的生产指标序列之间可能存在一定的时间偏移，故本发明在上述互信息量的基础上，提出了时间偏移Δt下的互信息量计算方法。具体来说，对于任意一个输入序列x_i(t)，与生产指标序列y_p(t)在任意时间偏移Δt下的互信息量I(x_i(t-Δt),y_p(t))为：

此时，p(x)和p(y)分别表示输入序列x_i(t)和生产指标序列y_p(t)的边缘分布，p(x,y)表示输入序列x_i(t)和生产指标序列y_p(t)在时间偏移Δt下的联合分布。

上述互信息量I(x_i(t-Δt),y_p(t))同时包含了输入序列x_i(t)与生产指标序列y_p(t)之间的时域相关的互信息，以及时域无关的其他信息；为了能够对输入模型的生产数据进行更为充分地降维处理，本发明进一步分析了输入序列与生产指标序列之间的互信息量随时间偏移的变化关系，如图1所示，结果表明，当输入序列与生产指标序列之间的时间偏移足够大时，互信息量I(x_i(t-Δt),y_p(t))中与时间相关的互信息将趋于零，基于这一特性，本发明从互信息量I(x_i(t-Δt),y_p(t))中提取出了时域相关的互信息作为时域互信息I_t(x_i(t-Δt),y_p(t))，具体计算公式如下：

由于本发明所计算的时域互信息仅包含时序相关的信息量，因此，基于该时域互信息，可充分挖掘生产指标预测模型的输入序列与输出序列在时域上的相关性，并基于此在时域上对输入序列进行降维，以保证在降维的同时不影响模型的预测效果。

以下为实施例。

实施例1：

一种基于数据降维聚类的生产指标预测方法，本实施例具体为针对水泥工业场景下的产品质量预测方法，其中，需要通过软测量预测的生产指标序列定义y_p(t)，以及软测量预测模型的输入序列集合定义为X＝{x₁,x₂,...,x_n}，n表示生产数据的类别总数，本实施例中，n＝3，所选取的生产数据具体包括温度x₁、氧气浓度x₂以及入料氧化钙含量x₃。

本实施例包括：预测模型建立步骤；如图2所示，预测模型建立步骤具体包括：

计算输入序列集合中各输入序列与待预测的生产指标序列在不同时间偏移下的时域互信息；每一个输入序列对应一类生产数据在指定时间段内的检测结果；时域互信息仅包含与时序相关的信息量，具体可根据上述公式(2)～(3)计算。

计算得到时域互信息之后，分别对各输入序列对应的时域互信息进行积分，得到各输入序列与生产指标序列的总时域互信息量，并筛选出总时域互信息量最高的m个输入序列，作为目标输入序列；m为正整数；

基于时域互信息的计算表达式，任意一个输入序列x_i(t)与生产指标序列的总时域互信息量I_sumt(t)为：

为了降低计算复杂度，本实施例在上述公式(4)的基础上，设定固定的时间差T，并按照如下公式计算输入序列x_i(t)与生产指标序列的总时域互信息量I_sumt(t)：

在(-T,T)区间内，以分钟级采样的生产数据x₁、x₂、x₃以及生产指标序列y_p的数量得到了大幅限制，从而有效降低了降维特征的计算复杂度。时间差T可结合统计信息和先验信息设定。

可选地，本实施例中，在计算得到输入序列与生产指标序列的总时域互信息量之后，仅选取总时域互信息量最大的输入序列作为目标输入序列，即m＝1，所筛选出的目标输入序列记为x_k；在后续的模型训练过程中，仅利用所筛选出的目标输入序列。本实施例利用时域互信息计算输入目标序列与生产指标序列之间的总时域互信息量，能够准确衡量输入序列与生产指标序列在时域上的关联性，通过筛选总时域互信息最大的输入序列，能够在保证模型预测效果的情况下，有效减少模型的输入数量。

在不同时刻分别获得每一个目标输入序列的降维特征，得到各时刻的降维特征序列，并对不同时刻的降维特征序列进行聚类；对于任意一个输入序列，其降维特征为该输入序列在时域上的加权求和结果，加权求和过程中，时域互信息越大，对应时间偏移下的权值越大，且所有权值之和为1，由此设计的权值，保证了降维特征收到与预测的生产指标序列强相关的数据具有更高的影响；可选地，任意一个输入序列x_i(t)在t时刻的降维特征s_i(t)为：

在上述公式(6)的基础上，为了进一步降低计算复杂度，本实施例中，设置固定时间差T，并在(-T,T)范围内将上述降维特征近似表示为：

本实施例基于预估的互信息设计权值，并基于该权值对输入序列在时域上进行加权求和，将筛选出的输入序列转换为了包含整个序列信息的一维数值，进一步降低了模型的输入维度；也即是说，本实施例在根据总时域互信息量减少模型输入序列的数量的基础上，对筛选出的各输入序列进一步进行了时域上的压缩，实现对模型输入的二次压缩，有效降低了模型输入的维度。

作为一种可选的实施方式，本实施例中，对于不同时刻的降维特征序列进行聚类时，具体使用K-means聚类算法；由于流程工业中，不同的工况往往与特定的时序范围相关，例如，在冬季和夏季对应不同的工况，因此，本实施中，聚类所得的多个类别所对应的时序范围往往互不重叠。

聚类之后，对于聚类得到的每一个类别，利用其中的降维特征序列及已知的生产指标序列训练机器学习模型，得到该类别所对应时序下的生产指标预测模型，用于根据降维特征序列预测生产指标序列。

在上述预测模型建立步骤的基础上，本实施例还包括：预测步骤；

预测步骤包括：

总的来说，本实施例从数据互信息的角度出发，无论输入序列与生产指标序列之间的线性相关还是非线性相关，都能够准确捕捉到输入序列与生产指标序列之间的相关性；将不同工况的数据聚类，在预测模型之前提取了数据的工况特征，降低了预测模型的训练、测试复杂度，从而显著提升软测量过程的精度。

实施例2：

一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例1提供的基于数据降维聚类的生产指标预测方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据降维聚类的生产指标预测方法，其特征在于，包括：预测模型建立步骤；所述预测模型建立步骤包括：

计算输入序列集合中各输入序列与待预测的生产指标序列在不同时间偏移下的时域互信息；每一个输入序列对应一类生产数据在指定时间段内的检测结果；所述时域互信息仅包含与时序相关的信息量；

2.如权利要求1所述的基于数据降维聚类的生产指标预测方法，其特征在于，任意一个输入序列x_i(t)与生产指标序列在任意时间偏移Δt下的时域互信息I_t(x_i(t-Δt),y_p(t))为：

3.如权利要求2所述的基于数据降维聚类的生产指标预测方法，其特征在于，任意一个输入序列x_i(t)与生产指标序列的总时域互信息量I_sumt(t)为：

4.如权利要求2所述的基于数据降维聚类的生产指标预测方法，其特征在于，任意一个输入序列x_i(t)与生产指标序列的总时域互信息量I_sumt(t)为：

5.如权利要求2所述的基于数据降维聚类的生产指标预测方法，其特征在于，任意一个输入序列x_i(t)在t时刻的降维特征s_i(t)为：

6.如权利要求2所述的基于数据降维聚类的生产指标预测方法，其特征在于，任意一个输入序列x_i(t)在t时刻的降维特征s_i(t)为：

7.如权利要求1～6任一项所述的基于数据降维聚类的生产指标预测方法，其特征在于，还包括：预测步骤；所述预测步骤包括：

根据所述目标时刻所属时序范围，选取对应的生产指标预测模型，将目标时刻的降维特征序列输入至该生产指标预测模型，由该生产指标预测模型输出生产指标序列的预测结果。

8.一种计算机可读存储介质，其特征在于，包括存储的计算机程序；所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行权利要求1～7任一项所述的基于数据降维聚类的生产指标预测方法。