CN112749763B

CN112749763B - 用于玻璃质量影响因素的时间序列分类分析方法及系统

Info

Publication number: CN112749763B
Application number: CN202110111174.5A
Authority: CN
Inventors: 邹承明; 李吉祥
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-06-03
Anticipated expiration: 2041-01-27
Also published as: CN112749763A

Abstract

本发明提供一种用于玻璃质量影响因素的时间序列分类分析方法及系统，包括获取玻璃生产线上各传感器所采集原始的时间序列数据和相应玻璃质量数据，并对玻璃质量数据根据玻璃质量指标添加标签；对时间序列数据进行切分，与玻璃质量标签相对应；通过数据分析，对处理后的时间序列数据进行特征构造，分析找出比较重要的时间序列特征；划分训练集和验证集，分别使用随机森林、xgboost和lightgbm方式构建时间序列分类的模型，迭代训练模型；综合基于Permutation importance特征选择方法所得重要性得分，以及基于随机森林模型、xgboost模型和lightgbm模型的预测准确率对相应模型的特征重要性函数所得结果进行加权所得重要性得分，得到影响玻璃质量的因素分析结果，以相应控制玻璃生产线上的因素。

Description

用于玻璃质量影响因素的时间序列分类分析方法及系统

技术领域

本发明属于玻璃生产质量控制分析领域，特别涉及一种用于时间序列分类以及分析玻璃质量影响因素的方案。

背景技术

玻璃制造工艺是一项很复杂且能耗非常高的工艺。最近几年，随着玻璃工艺的快速发展，玻璃良品率低的问题成为当今备受关注的问题之一。玻璃制造工艺是一项的复杂工艺，而玻璃熔炉作为消耗了整个制造流程消耗总能量约70％～80％的核心生产过程。

玻璃熔窑是工业上一种典型的熔炉，其作为化学工艺非常复杂。它的影响因素众多，如熔窑温度、压强、天然气流量、氧气流量、窑压以及烟道温度等。从技术的角度来看，观察天然气氧气流量、熔窑各位置的温度、熔窑压强很重要。天然气作为熔炉的直接燃料，其流量大小的控制对熔炉的温度造成了直接的影响。氧气在近年来逐渐取代空气，成为玻璃熔炉生产中主要的助燃剂。因此熔炉中氧含量的多少会影响燃料的燃烧情况，太多会加速天然气的燃烧，促使熔炉温度过高，影响玻璃澄清导致质量下降，太低则会导致天然气燃烧不充分，严重时可能造成熔炉内的火焰外泄，从而加速熔炉的烧损，降低其使用寿命。因此，熔炉的生产过程中必须对天然气和氧气流量实时加以监控。温度对玻璃原料的熔化速度、玻璃的成型、燃料的消耗等有非常大的影响。熔窑的各部分所要完成的任务不同，因此各位置的温度要求也有所差别，比如熔炉、窑底和碹顶的温度关系就是，窑底温度高于碹顶温度，而烟道温度则比前两个位置的温度要低得多，其历史温度均值不会超过1000摄氏度。因此，对熔炉温度的监测与管控也是至关重要的部分。另一方面，玻璃的生产质量同样会受到熔窑压力的波动影响。窑压过高会降低窑内的氧含量，造成相应的影响，窑压过低，则会导致窑内进入冷空气，无法达到预设的温度。为了维持温度的稳定，此时必须增加燃料的消耗，从而造成本不必要的能耗。如果过多的冷空气进入了窑内，还会造成还原焰无法正常维持，对生产出的玻璃质量造成更大的影响。因此，对熔炉压力的监测也很重要。

但是，玻璃质量影响因素种类众多，同时涉及多个监测点，如果能够分析出哪些因素对玻璃质量影响比较大，便可以更好的控制其他因素的变化来控制熔窑内温度的变化，从而提高玻璃生产的质量。

发明内容

本发明的目的在于对玻璃熔窑过程中上不同监测点的温度、气体流量、压强等变量进行分析和特征提取，通过基于树模型的随机森林、xgboost和lightgbm机器学习方法，来对玻璃熔窑内的温度、压强、流量等时间序列数据根据玻璃质量进行分类。本发明可以通过预测过程中模型的特征重要性来分析哪些因素对玻璃质量影响比较大，这样便可以更好的控制其他因素的变化来控制熔窑内温度的变化，从而提高玻璃生产的质量。

为了实现上述目的，本发明提出的技术方案为一种用于玻璃质量影响因素的时间序列分类分析方法，包括以下步骤：

步骤1，获取玻璃生产线上各传感器所采集原始的时间序列数据和相应玻璃质量数据，并对玻璃质量数据根据玻璃质量指标添加标签；

步骤2，对时间序列数据进行切分，切分的时间序列片段与玻璃质量标签相对应；

步骤3，通过数据分析，对步骤2处理后的时间序列数据进行特征构造，分析找出比较重要的时间序列特征；

步骤4，将经过步骤3处理所得结果划分为训练集和验证集；

步骤5，分别使用随机森林、xgboost和lightgbm方式构建时间序列分类的模型，并基于训练集和验证集进行迭代训练直到得到性能最优的模型；

步骤6，特征重要性选择，包括综合基于Permutation importance特征选择方法所得重要性得分，以及基于步骤5所得随机森林模型、xgboost模型和lightgbm模型的预测准确率对相应模型的特征重要性函数所得结果进行加权所得重要性得分，得到最终的特征重要性分数，取特征得分最高的若干条特征作为影响玻璃质量的因素分析结果。

而且，步骤1中，对原始的时间序列数据中与预测无关的数据先进行剔除。

而且，所述与预测无关的数据，包括开关、调节阀和设备是否故障的相应数据。

而且，所述添加标签，包括根据玻璃质量的缺陷将玻璃质量划分为5个等级，

玻璃质量缺陷的种类有气泡长度、气泡个数、夹杂物个数、夹杂物长度、点状缺陷密集度，根据5个相应变量进行最大最小值归一化处理后相加的结果对玻璃质量进行划分。

而且，步骤2中，对原始的时间序列数据中的缺失数据利用相邻时刻的数据进行填充，对异常数据用平均值进行填充，然后进行切分。

而且，步骤6中，设随机森林模型预测的准确率是acc1，xgboost模型预测的准确率是acc2，lightgbm模型预测的准确率是acc3，由随机森林模型赋给特征的权重weight1是acc1/(acc1+acc2+acc3),xgboost模型赋给特征的权重weight2是acc2/(acc1+acc2+acc3),lightgbm模型赋给特征的权重weight3是acc3/(acc1+acc2+acc3)；

通过随机森林模型的特征重要性函数求出各个特征的重要性得分，记为score1；通过xgboost模型的特征重要性函数求出各个特征的重要性得分，记为score2；通过lightgbm模型的特征重要性函数求出各个特征的重要性得分，记为score3；

每个特征的最终得分score计算如下，

score＝score0+score1×weight1+score2×weight2+score3×weight3

其中，score0为基于Permutation importance特征选择方法所得重要性得分。

而且，基于Permutation importance特征选择方法提取重要性得分的实现方式为，采用步骤5所得的某个模型，先对原始的验证集进行打分，然后对验证集数据打乱后再进行打分，最后将这两种得分做差得到特征重要性得分score0。

而且，根据步骤6所得影响玻璃质量的因素分析结果，相应控制玻璃生产线上的因素。

另一方法，本发明提供一种用于玻璃质量影响因素的时间序列分类分析系统，用于实现如上所述的一种用于玻璃质量影响因素的时间序列分类分析方法。

而且，包括以下模块，

第一模块，用于获取玻璃生产线上各传感器所采集原始的时间序列数据和相应玻璃质量数据，并对玻璃质量数据根据玻璃质量指标添加标签；

第二模块，用于对时间序列数据进行切分，切分的时间序列片段与玻璃质量标签相对应；

第三模块，用于通过数据分析，对第二模块处理后的时间序列数据进行特征构造，分析找出比较重要的时间序列特征；

第四模块，用于将经过第三模块处理所得结果划分为训练集和验证集；

第五模块，用于分别使用随机森林、xgboost和lightgbm方式构建时间序列分类的模型，并基于训练集和验证集进行迭代训练直到得到性能最优的模型；

第六模块，用于特征重要性选择，包括综合基于Permutation importance特征选择方法所得重要性得分，以及基于第五模块所得随机森林模型、xgboost模型和lightgbm模型的预测准确率对相应模型的特征重要性函数所得结果进行加权所得重要性得分，得到最终的特征重要性分数，取特征得分最高的若干条特征作为影响玻璃质量的因素分析结果。

通过本发明所提供的分析玻璃质量影响因素的熔窑温度预测模型，可以更好地找到玻璃生产线上影响温度预测准确率的特征，从而可以分析出影响玻璃质量的原因，提高玻璃质量。本发明方案实施简单方便，实用性强，解决了相关技术存在的实用性低及实际应用不便的问题，具有重要的市场价值。

附图说明

图1为本发明实施例的方法流程图。

具体实施方式

以下结合附图和实施例具体说明本发明的技术方案。

本发明能够提供一种用于时间序列分类以及分析玻璃质量影响因素的模型。本发明要将机器学习模型和玻璃制造工艺结合起来，对熔窑温度、压强、天然气流量、氧气流量、压强等时间序列数据等进行分析和建模，找到影响玻璃质量的关键因素，从而提高玻璃生产的良品率。本发明随机森林算法和基于树的集成模型xgboost和lightgbm模型，通过对时间序列数据和玻璃质量数据进行分类。基于树的模型在分类过程中会对每个特征进行分裂，寻找最优分裂点来生成树，从而实现时间序列的分类。同时，这三个模型训练后会对特征重要性进行排序，本发明可以对模型选择的重要的特征进行分析和控制，从而可以更好地提高玻璃的质量。

参见图1，本发明实施例提供一种用于分析玻璃质量影响因素的时间序列分类方法，包括以下步骤：

步骤一，数据获取，获取原始时间序列数据和玻璃质量数据，并对玻璃质量数据根据玻璃质量指标添加标签：

数据获取分为原始时间序列数据的获取和玻璃质量数据的获取。

时间序列数据的获取：在玻璃生产线上的熔窑、退火窑等地方安装温度、气体流量、压强等传感器，每10s测量一次数据，通过各传感器将数据采集到数据库，然后从数据库中导出熔窑温度、压强、气体流量等与玻璃质量相关性比较大的数据。

玻璃质量数据的获取：获取玻璃质量数据用来做标签，比如每块玻璃的缺陷类型以及每块玻璃的缺陷数量等。对于玻璃质量的标签，本发明获取到的数据是有关玻璃质量的参数，所以需要根据这些参数对玻璃质量进行等级划分，实施例中优选分为5个等级，也就是5个类别。

玻璃质量缺陷的种类主要有气泡长度、气泡个数、夹杂物个数、夹杂物长度、点状缺陷密集度。实施例提出，根据这五个变量对玻璃质量进行划分，玻璃缺陷越少，玻璃质量越好。将所有玻璃的这5个变量数据进行最大最小值归一化处理，将数据分为缩放到[0,1]区间，然后将每个玻璃这5个变量归一化后的数据相加，在进行一次归一化，这样每块玻璃质量的缺陷就可以用[0,1]区间的数值来表示，玻璃缺陷数值在0～0.2为1等级，数值在0。2～0.4为2等级，数值在0.4～0.6为3等级，数值在0.6～0.8为4等级，数值在0.8～1.0为5等级，等级越高，玻璃质量越差。

在步骤一中，由于传感器采集的数据种类非常多，比如有一些开关、调节阀和设备是否故障之类与预测无关的数据，具体实施时可以首先将其剔除。

步骤二，数据处理，对时间序列数据进行切分，切分成许多时间序列片段用来与玻璃质量标签相对应：

首先，对温度、压强、气体流量等时间序列数据进行分析，比如这段时间序列的最大值、最小值、平均值，是否有缺失值等。然后，对时间序列中缺失数据利用上一个或下一个相邻时刻的数据进行填充，对于异常数据用平均值来填充。填充后，对时间序列数据进行切分，切分成许多时间序列片段用来与玻璃质量标签相对应。对于玻璃质量的标签，本发明跟据玻璃质量的参数，对玻璃质量进行等级划分。

实施例中，温度、气体流量、压强等时间序列数据是由传感器测量并保存，肯定会存在一些缺失数据和异常数据。所以，需要对于些缺失数据，优选利用当前时刻的上一个时刻数据进行填充，因为这些变量变化不是很大。对于一些异常数据用平均值来填充。同时，因为玻璃质量的标签数据可能10分钟才保存一条，而温度、压强、气体流量等传感器数据10s保存一条，需要对温度、压强、气体流量等时间序列数据进行切分，保证一段时间序列数据对应一个玻璃质量标签。

步骤三，特征工程：通过数据分析，对步骤二数据处理后的时间序列数据进行特征构造，分析找出比较重要的特征。

优选地，本发明实施例使用tsfresh时间序列特征工具库，用来进一步分析提取更多比较重要的时间序列特征。

tsfresh是提取时序数据特征的python包，能自动地计算出大量的时间序列特征，这些特征描述了时间序列的基本特征，如峰数、平均值或最大值或更复杂的特征，如时间反转对称统计。

实施例中，对数据处理后的数据进行特征构造，分析找出比较重要的特征，比如一段时间序列的最大值、最小值、均值、方差、峰值数量等等。例如，使用tsfresh库通过extract_features()函数能够从每一段时间序列中提取1000多个特征，然后通过select_features()函数对构造的特征进行选择，最后只会选择大约300个比较重要的特征。

步骤四，划分数据集：为了更好的观察模型的预测结果，将经过特征工程处理后的数据划分为训练集和验证集，切分比例为8:2，80％的数据集为做训练集，用来训练模型，20％的数据集为验证集，用来对训练出来的模型进行验证。

步骤五，模型构建：分别使用随机森林、xgboost和lightgbm算法来构建时间序列分类的模型，根据本发明的数据集，玻璃质量总共有5个类别，输入的每一段时间序列数据会对应一个输出的类别。本发明用训练集来训练模型，用验证集来验证模型训练好的模型的性能。通过改变这三个模型的训练参数来对模型进行多次训练，直至得到性能最优的模型使得模型在验证集上准确率最佳。

其中，随机森林算法是Bagging的扩展变体，它在以决策树为基础学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机特征选择。XGBoost属于集成学习Boosting，是在GBDT的基础上对Boosting算法进行的改进，并加入了模型复杂度的正则项。GBDT是用模型在数据上的负梯度作为残差的近似值，从而拟合残差。XGBoost也是拟合数据残差，并用泰勒展开式对模型损失残差的近似，同时在损失函数上添加了正则化项。LightGBM是一个实现GBDT算法的分布式高效框架。它通过leaf-wise分裂方法进行决策树的生成，通过基于直方图的算法寻找特征分割点，并支持并行学习，能够更高效的处理大数据。通过使用这三个基于树的模型进行模型训练、并对模型训练后的结果进行融合，使得本发明最后得出的结果更具有鲁棒性。

步骤六：特征重要性选择，用置换重要性方法和模型的特征重要性函数对特征进行计算得分，选择特征得分最高的若干条特征作为影响玻璃质量的因素：

(1)Permutation importance(置换特征重要性)特征选择方法：

1)在步骤五训练好模型后，本发明实施例使用步骤五所得的xgboost模型(或者采用随机森林、lightgbm模型)对原始的验证集中每个特征的特征重要性进行打分。

2)然后将验证集的某个特征列的值进行随机打乱，通过模型对此时的验证集重新进行预测得到得分。

3)将上述1)和2)所得得分做差即可得到这个特征对预测的影响，分差越大说明这个特征越重要。

依次将每一个特征按上述方法做，得到每一个特征对预测的得分，记相应重要性得分为score0。

Permutation importance特征选择方法通过打乱某一个特征的顺序来观察模型预测的准确率，准确率下降的越多，则说明这个特征越重要。比如：实施例有一个已经训练好的xgboost玻璃质量分类模型以及该模型的分类准确率(如accuracy)，该模型在验证集上准确率accuracy是100。实施例在验证集上对熔窑内某一位置的温度时间序列数据进行shuffle，用这个重新排序过的时间序列数据在训练好的模型上进行测试，得到预测后的准确率。如果这个模型在验证集上准确率变成了30，那么熔窑内这个位置的温度特征的重要性就可以记为70。

(2)本发明选择训练好的最优的随机森林、xgboost和lightgbm模型，并且记录利用这三个模型在验证集上预测的准确率，用来进行特征加权。

假设随机森林预测的准确率是acc1，xgboost模型预测的准确率是acc2，lightgbm预测的准确率是acc3，那么本发明定义由随机森林模型赋给特征的权重weight1是acc1/(acc1+acc2+acc3),xgboost模型赋给特征的权重weight2是acc2/(acc1+acc2+acc3),lightgbm模型赋给特征的权重weight3是acc3/(acc1+acc2+acc3)。然后通过随机森林模型的特征重要性函数feature_importances_，可求出各个特征的重要性得分，实施例记为score1，通过xgboost模型的特征重要性函数feature_importances_，可求出各个特征的重要性得分，实施例记为score2，通过lightgbm模型的特征重要性函数feature_importances_，可求出各个特征的重要性得分，实施例记为score3。

具体实施时，模型的特征重要性函数可采用现有技术实现。例如，XGBoost中衡量特征重要性的函数可选以下3种之一：

Weight：某个特征被用于在所有树中拆分数据的次数；

Cover：同上，首先得到某个特征被用于在所有树中拆分数据的次数，然后要利用经过这些拆分点的训练数据数量赋予权重；

Gain：使用某个特征进行拆分时，获得的平均训练损失减少量。(3)每个特征的最终得分计算公式如下：

score＝score0+score1×weight1+score2×weight2+score3×weight3

实施例预先设置了选择的重要特征数目，选择特征得分最高的20条特征作为影响玻璃质量的因素。

具体实施时，可以对特征选择出来分数比较高的特征进一步分析进行分析，通过人为控制或者自动控制技术来对一些变量进行控制从而更好地控制玻璃生产线上的因素，提高玻璃质量。

例如，假设影响玻璃质量的因素有100个位置温度、100个位置的湿度和100个位置的压强、通过特征选择能够得出有10个位置的温度特征得分比较高，就认为这10个位置的温度对玻璃质量影响比较大，可以控制这些位置的温度。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

在一些可能的实施例中，提供一种用于玻璃质量影响因素的时间序列分类分析系统，包括以下模块，

在一些可能的实施例中，提供一种用于玻璃质量影响因素的时间序列分类分析系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种用于玻璃质量影响因素的时间序列分类分析方法。

在一些可能的实施例中，提供一种用于玻璃质量影响因素的时间序列分类分析系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种用于玻璃质量影响因素的时间序列分类分析方法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种用于玻璃质量影响因素的时间序列分类分析方法，其特征在于，包括以下步骤：

步骤4，将经过步骤3处理所得结果划分为训练集和验证集；

2.根据权利要求1所述用于玻璃质量影响因素的时间序列分类分析方法，其特征在于：步骤1中，对原始的时间序列数据中与预测无关的数据先进行剔除。

3.根据权利要求2所述用于玻璃质量影响因素的时间序列分类分析方法，其特征在于：所述与预测无关的数据，包括开关、调节阀和设备是否故障的相应数据。

4.根据权利要求1所述用于玻璃质量影响因素的时间序列分类分析方法，其特征在于：所述添加标签，包括根据玻璃质量的缺陷将玻璃质量划分为5个等级，

5.根据权利要求1或2或3或4所述用于玻璃质量影响因素的时间序列分类分析方法，其特征在于：步骤2中，对原始的时间序列数据中的缺失数据利用相邻时刻的数据进行填充，对异常数据用平均值进行填充，然后进行切分。

6.根据权利要求1或2或3或4所述用于玻璃质量影响因素的时间序列分类分析方法，其特征在于：步骤6中，设随机森林模型预测的准确率是acc1，xgboost模型预测的准确率是acc2，lightgbm模型预测的准确率是acc3，由随机森林模型赋给特征的权重weight1是acc1/(acc1+acc2+acc3),xgboost模型赋给特征的权重weight2是acc2/(acc1+acc2+acc3),lightgbm模型赋给特征的权重weight3是acc3/(acc1+acc2+acc3)；

每个特征的最终得分score计算如下，

score＝score0+score1×weight1+score2×weight2+score3×weight3

7.根据权利要求1或2或3或4所述用于玻璃质量影响因素的时间序列分类分析方法，其特征在于：基于Permutation importance特征选择方法提取重要性得分的实现方式为，采用步骤5所得的某个模型，先对原始的验证集进行打分，然后对验证集数据打乱后再进行打分，最后将这两种得分做差得到特征重要性得分score0。

8.根据权利要求1或2或3或4所述用于玻璃质量影响因素的时间序列分类分析方法，其特征在于：根据步骤6所得影响玻璃质量的因素分析结果，相应控制玻璃生产线上的因素。

9.一种用于玻璃质量影响因素的时间序列分类分析系统，其特征在于：用于实现如权利要求1-8任一项所述的一种用于玻璃质量影响因素的时间序列分类分析方法。

10.根据权利要求9所述用于玻璃质量影响因素的时间序列分类分析系统，其特征在于：包括以下模块，