CN116597187B

CN116597187B - 一种高纯生铁制备过程的数据分析方法

Info

Publication number: CN116597187B
Application number: CN202310868422.XA
Authority: CN
Inventors: 刘志勇; 姚忠修
Original assignee: Shandong Yuxin Casting Co ltd
Current assignee: Shandong Yuxin Casting Co ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-09-08
Anticipated expiration: 2043-07-17
Also published as: CN116597187A

Abstract

本发明涉及图像数据处理技术领域，具体涉及一种高纯生铁制备过程的数据分析方法，包括：采集高纯生铁在制备过程中的原始数据，获得第一聚类参数，根据第一聚类参数对记录目标进行聚类获得初始聚簇，根据初始聚簇中数据的协变关联性获得聚簇数据的第二聚类参数，根据第二聚类参数对初始聚簇中的记录目标进行聚类获得压缩聚簇，对压缩聚簇分别进行霍夫曼编码得到压缩数据并进行存储。本发明结合铸铁数据的变化特征获得初始聚簇，并对各初始聚簇结合数据值的重复程度和记录目标的协变程度获得第二聚类参数，使用密度聚类算法对记录品类聚簇，获得压缩数据，达到提高压缩效率降低分析过程中的数据冗余的目的。

Description

一种高纯生铁制备过程的数据分析方法

技术领域

本发明涉及图像数据处理技术领域，具体涉及一种高纯生铁制备过程的数据分析方法。

背景技术

随着制造业的迅猛发展对钢材的需求量逐年上升，使得其原料生铁的需求量和质量标准也逐年提高，而高纯生铁在制备过程中需要钢铁企业使用长期的生产工艺数据作为经验数据分析，控制和提高生铁产量与质量，企业生产自动化程度和产量规模的增加已经积累大量的工艺和生产数据迫切需要对相关数据进行管理和开发应用，为生产操作和工艺优化提供积极支撑，因此产生对生产工艺数据的存储要求。

铸造生铁的企业在生产过程中积累了大量的原始数据作为经验数据用于优化工艺，对存储原始数据的数据库提出了负载要求，原始数据包括原料成分、操作参数、监测数据等，原料成分多为恒定或成比例的量，操作参数通常随工艺固定，监测数据随原料成分和操作参数的变化而产生变化，使得成比例或恒定的原料成分使用同一种标准操作产生的监测数据相同，且数据中存在关联性，在分析数据过程中需要分析监测品类之间的影响，若数据库压缩存储数据不考虑数据存在相同和关联的数据造成冗余，则对无关的冗余数据压缩与解压缩造成数据库的负载。

目前高纯生铁企业在制备过程中的原始数据包括原料成分、过程操作参数和监测数据等在存储到数据库用于分析工艺时，由于数据量巨大对数据库存储带来了负载，因此需要对数据压缩保存。但现有压缩技术不考虑数据之间的关联性和重复性，使得重复度高、成比例的原料成分数据与监测结果产生大量冗余，造成存储空间的浪费。

发明内容

本发明提供一种高纯生铁制备过程的数据分析方法，以解决现有的问题。

本发明的一种高纯生铁制备过程的数据分析方法采用如下技术方案：

本发明一个实施例提供了一种高纯生铁制备过程的数据分析方法，该方法包括以下步骤：

获取原始数据集合，所述原始数据集合中包括若干记录目标的若干监测数据；

根据记录目标的方差、记录目标所有监测数据中数据取值的数量以及数据取值在所有监测数据中的个数，得到记录目标的第一聚类参数；根据记录目标的第一聚类参数对所有记录目标进行初始聚类，得到初始聚簇；

根据每个初始聚簇中监测数据的重复量得到记录目标的监测数据的重复程度；根据每个初始聚簇中同一记录目标相邻次的监测数据差异得到每个初始聚簇中记录目标的监测数据的数据增量；根据每个初始聚簇中记录目标的监测数据的数据增量与数据增量均值差异，得到每个初始聚簇中不同记录目标的协变程度；根据不同记录目标的协变程度以及记录目标的监测数据的重复程度得到记录目标的第二聚类参数；

根据记录目标的第二聚类参数对初始聚簇中的记录目标进行聚类获得压缩聚簇，对压缩聚簇进行编码压缩及存储。

进一步地，所述根据记录目标的方差、记录目标所有监测数据中数据取值的数量以及数据取值在所有监测数据中的个数，得到记录目标的第一聚类参数，包括的具体步骤如下：

式中，为第/>个记录目标的第一聚类参数，/>为第/>个记录目标的方差，/>为数据取值的数量，/>为第/>个数据取值在所有监测数据中的个数，/>为第/>个记录目标的监测数据的总个数，/>为取绝对值，/>为/>函数。

进一步地，所述根据记录目标的第一聚类参数对所有记录目标进行初始聚类，得到初始聚簇，包括的具体步骤如下：

获取所有记录目标的第一聚类参数，根据记录目标的第一聚类参数对所有记录目标使用K-means聚类算法进行初始聚类，其中聚类K值取K=3，获得初始聚簇。

进一步地，所述根据每个初始聚簇中监测数据的重复量得到记录目标的监测数据的重复程度，包括的具体步骤如下：

式中，为第/>个记录目标的第/>次监测数据在初始聚簇中的重复程度，为在初始聚簇中监测数据等于/>的个数，/>为初始聚簇中第/>个记录目标的第/>次监测数据，/>为初始聚簇中记录目标的总个数，/>为任意一个记录目标的监测数据总个数。

进一步地，所述根据每个初始聚簇中同一记录目标相邻次的监测数据差异得到每个初始聚簇中记录目标的监测数据的数据增量，包括的具体步骤如下：

式中，为初始聚簇中第/>个记录目标的第/>次监测数据，/>为初始聚簇中第/>个记录目标的第/>次监测数据，/>为初始聚簇中第/>个记录目标的第/>次监测数据的数据增量，获取所有初始聚簇中记录目标的监测数据的数据增量。

进一步地，所述根据每个初始聚簇中记录目标的监测数据的数据增量与数据增量均值差异，得到每个初始聚簇中不同记录目标的协变程度，包括的具体步骤如下：

式中，为记录目标的监测数据的总次数，/>为初始聚簇中第/>个记录目标的第次监测数据的数据增量，/>为初始聚簇中第/>个记录目标的数据增量均值，/>为初始聚簇中第/>个记录目标的数据增量，/>为初始聚簇中第/>个记录目标的数据增量均值，/>为初始聚簇中第/>个记录目标的数据增量方差，/>为初始聚簇中第/>个记录目标的数据增量方差，/>为初始聚簇中第/>个记录目标与第/>个记录目标的协变程度，获取所有初始聚簇中不同记录目标的协变程度。

进一步地，所述根据不同记录目标的协变程度以及记录目标的监测数据的重复程度得到记录目标的第二聚类参数，包括的具体步骤如下：

式中，为初始聚簇中第/>个记录目标的第二聚类参数，/>为双曲正切函数，用于归一化，/>为记录目标的监测数据的总次数，/>为第/>个记录目标的第/>次监测数据在初始聚簇中的重复程度，/>为初始聚簇中记录目标的总个数，/>为第/>个记录目标与第/>个记录目标的协变程度。

进一步地，所述根据记录目标的第二聚类参数对初始聚簇中的记录目标进行聚类获得压缩聚簇，包括的具体步骤如下：

根据记录目标的第二聚类参数对每个初始聚簇中的记录目标进行聚类，得到的类别记为每个初始聚簇的压缩聚簇集，将压缩聚簇集包含的若干聚类结果作为压缩聚簇。

本发明的技术方案的有益效果是：本发明相较于现有压缩数据不考虑数据之间关联性造成对铸铁数据压缩和解压缩带来的冗余和数据库负载问题，本发明结合铸铁数据的变化特征获得初始聚簇：固定簇、不定簇和成比例簇，并对各初始聚簇结合数据值的重复程度和记录目标的协变程度获得第二聚类参数，使用密度聚类算法对记录品类聚簇，获得压缩数据，达到提高压缩效率降低分析过程中的数据冗余的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种高纯生铁制备过程的数据分析方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种高纯生铁制备过程的数据分析方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种高纯生铁制备过程的数据分析方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种高纯生铁制备过程的数据分析方法的步骤流程图，该方法包括以下步骤：

步骤S001、采集高纯生铁在制备过程中的原始数据。

本实施例针对高纯生铁在铸造冶炼过程中采集的原始数据在用于分析和优化冶炼工艺时，巨量的数据需要压缩存储，因此首先需要采集生铁制备过程中的原始数据。所述原始数据包括原料数据、过程操作数据和冶炼产品的参数数据。原料数据主要为矿石成分、溶剂组成成分、燃料级还原剂成分用量等；过程操作数据主要为配料比、喷煤比、风温风量风压等；冶炼产品的参数数据主要为铁液元素成分占比、铁液温度产量以及炉渣成分煤气成分等。

具体的，获取高纯生铁制备过程的原始数据，以高纯生铁制备过程的原始数据为数据集合，将监测的品类记为记录目标并用表示，所述品类是指原始数据中包含的某一监测名称，例如矿石成分等，获取所有记录目标的所有监测数据，将高纯生铁制备过程中第/>个记录目标的第/>次监测数据记为/>，将高纯生铁制备过程中不同记录目标的不同监测数据构成的数据集合记为原始数据集合并用/>表示，其中/>。

至此，通过采集高纯生铁在制备过程中的监测数据构成原始数据集合。

需要说明的是，原始数据集合中的数据分为成比例变化、固定不变和不定数据簇的数据，例如操作过程数据的温度为固定不变的，原料量数据为成比例的，产量数据是不定的，在分析数据的过程中由于原料和步骤会影响成品的结果，在压缩数据后由于仅部分数据之间存在关联使得分析时需要频繁调用，故而本实施例通过分析同一记录目标数据在多次操作和监测过程中数据的变化方式进行初始聚类获得初始聚簇；通过初始聚簇中各数据的产生的协变关系，分析数据的重复特性和协变关联性获得第二聚类参数，对各初始聚簇二次聚簇获得待压缩聚簇。

步骤S002、根据同一记录目标在多次监测过程中的数据重复性和分布性获得第一聚类参数，根据第一聚类参数对记录目标进行聚类获得初始聚簇。

需要说明的是，原始数据集合中包括比例变化、固定变化和不定变化的数据种类，成比例变化的数据如添加原料时记录的原料量的比例，其特性为变化幅度大但数值多为定值，因此重复性较高；固定不变的数据主要是操作过程中的操作参数，例如预设温度、风温风量等，其特性为数值单一不变；不定数据为混乱数据，即记录目标数据混乱，重复性较低，因此本实施例通过记录目标数据在同一类的紊乱程度获得第一聚类参数对数据集合进行初始聚类。

具体的，原始数据集合中第/>个记录目标的第/>次监测数据为/>，根据同一记录目标在多次监测过程中的数据重复性和分布性获得第一聚类参数，具体计算如下：

将高纯生铁制备过程中第个记录目标所有监测数据的方差作为第/>个记录目标的方差，需要特别说明的是，任意一个监测数据是一个单个的数据值，统计获得高纯生铁制备过程中第/>个记录目标所有监测数据中数据取值的数量，将数据取值的数量记为/>，其中第k个数据取值记为/>；统计每个数据取值在所有监测数据中的个数，将第k个数据取值在所有监测数据中的个数记为/>，也就是说在第/>个记录目标所有监测数据中，有/>个监测数据的值都是f（k），构建第一聚类参数的计算模型：

式中，为高纯生铁制备过程中第/>个记录目标的第一聚类参数，/>为高纯生铁制备过程中第/>个记录目标的方差，/>为数据取值的数量，/>为第/>个数据取值在所有监测数据中的个数，/>为高纯生铁制备过程中第/>个记录目标的监测数据的总个数，/>为取绝对值，为/>函数，用于归一化。其中方差/>越大表明记录目标的数据分布范围越广，数据取值的数量表示所有监测数据中数值的重复性，取值数量越大说明重复性越低，则第一聚类参数越小，取值数量越小说明数值越固定，则后续进行聚类时越趋近于成比例簇或固定簇，监测数据的总次数与数据取值的数量比值表示数据取值个数均值，数据取值在所有监测数据中的个数与数据取值个数均值差异越大，表明高纯生铁制备过程中第/>记录目标的分布越紊乱，则在后续进行聚类时越趋近于不定簇。

进一步地，获取所有记录目标的第一聚类参数，根据记录目标的第一聚类参数对所有记录目标使用K-means聚类算法进行初始聚类，其中聚类K值取K=3，获得初始聚簇，其中初始聚簇包括固定簇、成比例簇和不定簇，将固定簇记为，/>，/>表示固定簇中第/>个记录目标的第/>次监测数据，将成比例簇记为/>，/>，/>表示成比例簇中第/>个记录目标的第/>次监测数据，将不定簇记为/>，/>，/>表示成比例簇中第/>个记录目标的第/>次监测数据，需要说明的是，同一记录目标有多次监测数据。所述第一聚类参数表示任意一个记录目标在原始数据集合中监测数据的重复性，固定簇中数据重复性高，数据分布较少，多为制备过程中的预设值；成比例簇中数据重复较高，数据分布较大，多为原料比例；不定簇中数据紊乱程度高，重复性低，分布较广，多为成品监测的值。

至此，根据同一记录目标在多次监测过程中的数据重复性和分布性获得第一聚类参数，并根据第一聚类参数进行了初始聚类得到初始聚簇。

步骤S003、根据初始聚簇中数据的协变关联性获得聚簇数据的第二聚类参数。

需要说明的是，现有技术对数据压缩过程中并不考虑数据之间的关联性，而分析铸铁数据改进工艺的过程主要是通过不同记录目标的数据关系获得有效信息，因此在对数据库存储的压缩数据解压分析时只用到部分信息，冗余数据较多对分析系统和数据库造成负载。因此本实施例通过分析初始聚簇中记录目标的变化趋势与其他数据协变程度，获得第二聚类参数，根据第二聚类参数对初始聚簇进行聚类获得压缩聚簇。企业在分析生铁制备的生产数据过程中主要通过原料等的使用量、占比等与成品产量、质量之间的关系分析，获得关联信息来改进工艺，在分析过程中仅应用到部分信息，而现有技术在压缩数据时并不考虑数据的关联性，以熵编码为例，以数据的重复程度提高数据的压缩效率，使得存在关联的数据根据重复性分散压缩，在需要提取有效信息时，需要将所有数据提取再分析，造成了存储数据库的内存与性能浪费。因此本实施例通过记录目标的重复性和记录目标之间的协变关联性获得第二聚类参数，对初始聚簇的数据进行聚类。

具体的，以成比例簇为例，成比例簇中第/>个记录目标的第/>次监测数据为/>，则记录目标的监测数据的重复程度为：

式中，为高纯生铁制备过程中第/>个记录目标的第/>次监测数据在成比例簇中的重复程度，/>为在成比例簇/>中统计监测数据等于/>的个数，/>为成比例簇中第/>个记录目标的第/>次监测数据，/>为成比例簇中记录目标的总个数，/>为任意一个记录目标的监测数据总个数，/>表示高纯生铁制备过程中所有记录目标的监测数据总量，重复程度越大，表明监测数据值的重复程度越高，通过熵编码的压缩效率越高。

需要说明的是，使用重复性熵编码并不考虑数据之间的关系，因此本实施例通过获得记录目标的监测数据增量与其他监测数据的变化趋势获得协变程度。

具体的，根据成比例簇中同一记录目标相邻次的监测数据差异得到成比例簇中第个记录目标的第/>次监测数据的数据增量：

式中，为成比例簇中第/>个记录目标的第/>次监测数据，/>为成比例簇中第/>个记录目标的第/>次监测数据，/>为成比例簇中第/>个记录目标的第/>次监测数据的数据增量。

进一步地，根据不同监测数据的数据增量获得成比例簇中第个记录目标的数据增量均值，将成比例簇中第/>个记录目标的数据增量均值记为/>，根据不同监测数据的数据增量获得成比例簇中第/>个记录目标的数据增量方差，将成比例簇中第/>个记录目标的数据增量方差记为/>，获取成比例簇中第/>个记录目标的数据增量均值，将成比例簇中第/>个记录目标的数据增量均值记为/>，获取成比例簇中第/>个记录目标的数据增量方差，将成比例簇中第/>个记录目标的数据增量方差记为/>。

进一步地，根据记录目标的数据增量均值和数据增量方差得到成比例簇中不同记录目标的协变程度，具体如下：

式中，为记录目标的监测数据的总次数，/>为成比例簇中第/>个记录目标的第次监测数据的数据增量，/>为成比例簇中第/>个记录目标的数据增量均值，/>为成比例簇中第/>个记录目标的数据增量，/>为成比例簇中第/>个记录目标的数据增量均值，/>为成比例簇中第/>个记录目标的数据增量方差，/>为成比例簇中第/>个记录目标的数据增量方差，/>为成比例簇中第/>个记录目标与第/>个记录目标的协变程度（/>），当记录目标之间存在协变关系时，记录目标/>和/>各数据值相较于其均值的差异程度相同，则/>和/>越趋近于1，说明其存在协变特性。

进一步地，根据不同记录目标的协变程度以及监测数据的重复程度得到第二聚类参数，具体如下：

式中，为成比例簇中第/>个记录目标的第二聚类参数，/>为双曲正切函数，用于归一化，/>为记录目标的监测数据的总次数，/>为第/>个记录目标的第/>次监测数据在成比例簇中的重复程度，/>为成比例簇中记录目标的总个数，/>为第/>个记录目标与第/>个记录目标的协变程度。

获取初始聚簇内固定簇中第个记录目标的第二聚类参数/>和不定簇中第/>个记录目标的第二聚类参数/>。

需要说明的是，记录目标的监测数据重复程度越高，表明数据中的数据值在簇内经过熵编码的压缩效率越高，通过将重复程度近似的数据聚类到一起，使得聚类后的数据簇之间的重复差距较小；记录目标的协变程度越高，其关联性越大，在解压缩后的分析的利用效率越高，将关联程度高的记录目标聚类到一个簇，在解压缩分析时避免了关联程度低的冗余数据对数据库效率的影响。

至此，获得了初始聚簇中记录目标的第二聚类参数。

步骤S004、根据第二聚类参数对初始聚簇中的记录目标进行聚类获得压缩聚簇。

需要说明的是，步骤S003获得了初始聚簇内不同簇中记录目标的第二聚类参数，将第二聚类参数映射到一维数据空间并使用密度聚类算法对初始聚簇中包括的数据进行聚类，获得待加密数据簇，本实施例使用密度聚类算法将初始聚簇中的记录目标根据第二聚类参数进行聚类，具体使用的密度聚类算法为DNSCAN聚类算法。

具体的，首先获取初始聚簇中所有记录目标的第二聚类参数，将记录目标的第二聚类参数按大小映射至一维数据空间，设置DBSCAN的聚类半径，聚类密度/>，根据记录目标的第二聚类参数对初始聚簇/>中的记录目标进行聚类，得到初始聚簇/>的压缩聚簇集/>，其中/>，/>为压缩聚簇集/>中第/>个聚类结果，需要说明的是，压缩聚簇集/>中有若干聚类结果，根据记录目标的第二聚类参数对初始聚簇/>中的记录目标进行聚类，得到初始聚簇/>的压缩聚簇集/>，其中/>，/>为压缩聚簇集/>中第个聚类结果，再次需要说明的是，压缩聚簇集/>中也有若干聚类结果，根据记录目标的第二聚类参数对初始聚簇/>中的记录目标进行聚类，得到初始聚簇/>的压缩聚簇集/>，其中/>，/>为压缩聚簇集/>中第/>个聚类结果，需要说明的是，压缩聚簇集/>中有若干聚类结果，将/>、/>以及/>中包含的若干聚类结果作为压缩聚簇。

至此，获得了压缩聚簇。

步骤S005、对压缩聚簇分别进行霍夫曼编码得到压缩数据并进行存储。

步骤S004获得了初始聚簇的压缩聚簇集，压缩聚簇集中的聚类结果即为压缩聚簇，将属于同一个压缩聚簇的记录目标的监测数据使用霍夫曼编码压缩并进行存储，在提高压缩效率的同时将关联性强的监测数据压缩到一起，达到降低分析冗余的目的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高纯生铁制备过程的数据分析方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述一种高纯生铁制备过程的数据分析方法，其特征在于，所述根据记录目标的方差、记录目标所有监测数据中数据取值的数量以及数据取值在所有监测数据中的个数，得到记录目标的第一聚类参数，包括的具体步骤如下：

3.根据权利要求1所述一种高纯生铁制备过程的数据分析方法，其特征在于，所述根据记录目标的第一聚类参数对所有记录目标进行初始聚类，得到初始聚簇，包括的具体步骤如下：

4.根据权利要求1所述一种高纯生铁制备过程的数据分析方法，其特征在于，所述根据每个初始聚簇中监测数据的重复量得到记录目标的监测数据的重复程度，包括的具体步骤如下：

5.根据权利要求1所述一种高纯生铁制备过程的数据分析方法，其特征在于，所述根据每个初始聚簇中同一记录目标相邻次的监测数据差异得到每个初始聚簇中记录目标的监测数据的数据增量，包括的具体步骤如下：

6.根据权利要求1所述一种高纯生铁制备过程的数据分析方法，其特征在于，所述根据每个初始聚簇中记录目标的监测数据的数据增量与数据增量均值差异，得到每个初始聚簇中不同记录目标的协变程度，包括的具体步骤如下：

式中，为记录目标的监测数据的总次数，/>为初始聚簇中第/>个记录目标的第/>次监测数据的数据增量，/>为初始聚簇中第/>个记录目标的数据增量均值，/>为初始聚簇中第/>个记录目标的数据增量，/>为初始聚簇中第/>个记录目标的数据增量均值，为初始聚簇中第/>个记录目标的数据增量方差，/>为初始聚簇中第/>个记录目标的数据增量方差，/>为初始聚簇中第/>个记录目标与第/>个记录目标的协变程度，获取所有初始聚簇中不同记录目标的协变程度。

7.根据权利要求1所述一种高纯生铁制备过程的数据分析方法，其特征在于，所述根据不同记录目标的协变程度以及记录目标的监测数据的重复程度得到记录目标的第二聚类参数，包括的具体步骤如下：

8.根据权利要求1所述一种高纯生铁制备过程的数据分析方法，其特征在于，所述根据记录目标的第二聚类参数对初始聚簇中的记录目标进行聚类获得压缩聚簇，包括的具体步骤如下：