CN117196405A - 一种钢铁工业生产数据质量评价方法和评价系统 - Google Patents
一种钢铁工业生产数据质量评价方法和评价系统 Download PDFInfo
- Publication number
- CN117196405A CN117196405A CN202311255861.XA CN202311255861A CN117196405A CN 117196405 A CN117196405 A CN 117196405A CN 202311255861 A CN202311255861 A CN 202311255861A CN 117196405 A CN117196405 A CN 117196405A
- Authority
- CN
- China
- Prior art keywords
- data
- classification rule
- production data
- production
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 167
- 229910000831 Steel Inorganic materials 0.000 title claims abstract description 73
- 239000010959 steel Substances 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 19
- 230000002159 abnormal effect Effects 0.000 claims abstract description 139
- 238000009826 distribution Methods 0.000 claims abstract description 36
- 238000011156 evaluation Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000009776 industrial production Methods 0.000 claims abstract 2
- 230000008569 process Effects 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 22
- 238000005096 rolling process Methods 0.000 claims description 18
- 239000002994 raw material Substances 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 7
- 230000005856 abnormality Effects 0.000 claims description 6
- 238000012098 association analyses Methods 0.000 claims description 6
- 239000000571 coke Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 239000003245 coal Substances 0.000 claims description 3
- 239000000446 fuel Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 claims description 3
- 238000010972 statistical evaluation Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 8
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 239000007789 gas Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000003723 Smelting Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 229910052742 iron Inorganic materials 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- XKRFYHLGVUSROY-UHFFFAOYSA-N Argon Chemical compound [Ar] XKRFYHLGVUSROY-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000956 alloy Substances 0.000 description 1
- 229910045601 alloy Inorganic materials 0.000 description 1
- 229910052786 argon Inorganic materials 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- General Factory Administration (AREA)
Abstract
本发明涉及工业智能化领域,涉及一种钢铁工业生产数据质量评价方法和评价系统。包括:对生产数据进行特征处理,确定其特征属性;基于特征属性在第一分类规则下的特征分布,以确定生产数据在第一分类规则下的第一异常数据;基于生产数据的特征属性在第二分类规则下的特征分布,以确定生产数据在第二分类规则下的第二异常数据;基于第一异常数据和第二异常数据对特征提取的规则进行调整,使第一异常数据通过第二分类规则被正确划分,以及第二异常数据通过第一分类规则被正常划分;基于调整后的第一分类规则或第二分类规则对钢铁生产数据质量进行评价。本发明针对钢铁工业生产数据质量进行客观快速评价。
Description
技术领域
本发明涉及工业智能化领域,尤其涉及一种钢铁工业生产数据质量评价方法和评价系统。
背景技术
大数据技术的意义在于通过对海量数据的分析处理挖掘出其潜在的价值,并将其应用到指导钢铁的生产。
钢铁的生产涉及诸多环节,其中包含了大量的传感器,随着智能化的推进,数据来源增多,数据类型多样,对于数据质量评估以反映已经采集数据质量,以及基于数据质量发现异常生产信息,具有重要的意义。
发明内容
本发明的目的在于克服上述一种或多种现有的技术问题,提供一种钢铁工业生产数据质量评价方法。
为实现上述目的,本发明提供的一种钢铁工业生产数据质量评价方法,包括:
基于已经验证和分类的生产数据进行特征处理,确定若干生产数据的特征属性;
基于生产数据的特征属性在第一分类规则下的特征分布,以确定生产数据在第一分类规则下的第一异常数据;
基于生产数据的特征属性在第二分类规则下的特征分布,以确定生产数据在第二分类规则下的第二异常数据;
基于第一异常数据和第二异常数据对特征提取的规则进行调整,使第一异常数据通过第二分类规则被正确划分,以及第二异常数据通过第一分类规则被正常划分;
基于调整后的第一分类规则或第二分类规则对钢铁生产数据质量进行评价。
根据本发明的一个方面,生产数据包括原料钢比例、轧制压力、轧制速度、压下率过程控制数据、行进速度数据、气体流量数据、压力数据、温度数据,燃料信息、原辅料、气消耗量、煤炭消耗量和/或焦炭产量。
根据本发明的一个方面,第一分类规则和第二分类规则中包含的元素不同,第二分类规则中的特征属性包括第一分类规则特征属性的关联属性。
根据本发明的一个方面,根据钢铁产品的测试数据对数据进行分类,按照钢铁产品生产工艺的标准值点进行生产数据采样距离的计算,并按照采样距离进行排序,获取不高于5%比例的数据作为异常数据,去除异常数据中数值相较于标准值点的偏差值在对应字段的阈值范围内的数据,得到对应于分类字段的疑似异常数据值;
对疑似异常数据值进行聚类分类,进行聚类时,聚类中心的数目不高于分类规则中生产过程控制数据字段的数目,之后将聚类中心以及和聚类中心距离低于阈值疑似异常数据值作为异常数据。
根据本发明的一个方面,分别生产数据中涉及设备操作和原料的波动数据,生产数据按照生产时间对齐;
对生产数据中进行关联度分析,以获取生产数据的多个参考属性以及和参考属性相关联的关联属性;
基于参考属性构建第一分类规则,基于关联属性构建第二分类规则。
根据本发明的一个方面,第一分类规则根据参考属性序列和标准工艺数据中参考值的距离,选择离群性超过阈值的生产数据作为第一异常数据;
第二分类规则根据关联属性序列和标准工艺数据中参考值的距离,选择离群性超过阈值的生产数据作为第二异常数据。
根据本发明的一个方面,关联度分析包括对各个字段进行灰色统计评估分级,得到各个特征属性对于产品质量影响的评级,获得特征属性序列;
基于皮尔逊相关系数将特征属性序列划分为参考特征和关联特征。
根据本发明的一个方面,钢铁生产数据质量进行评价包括:
响应于第一分类规则和第二分类规则确定为异常数据,将生产数据确定为低关联度数据;
响应于第一分类规则或第二分类规则确定为低关联度数据,根据生产数据各序列和标准工艺对应特征属性的标准差差异,确定生产数据潜在的偏差数据源。
根据本发明的一个方面,使用指数归一化处理的方式对生产数据进行特征处理。
为实现上述目的,本发明提供一种钢铁工业生产数据质量评价系统,包括:
特征属性获取单元:用于基于已经验证和分类的生产数据进行特征处理,确定若干生产数据的特征属性;
第一异常获取单元:基于生产数据的特征属性在第一分类规则下的特征分布,以确定生产数据在第一分类规则下的第一异常数据;
第二异常获取单元:基于生产数据的特征属性在第二分类规则下的特征分布,以确定生产数据在第二分类规则下的第二异常数据;
优化评价单元:基于第一异常数据和第二异常数据对特征提取的规则进行调整,使第一异常数据通过第二分类规则被正确划分,以及第二异常数据通过第一分类规则被正常划分;
基于调整后的第一分类规则或第二分类规则对钢铁生产数据质量进行评价。
基于此,本发明的有益效果在于:本发明考虑数据之间的内在联系,可以快速实现对于钢铁工业生产数据质量的评价。
附图说明
图1是本发明一种钢铁工业生产数据质量评价方法的流程图;
图2是本发明一种钢铁工业生产数据质量评价系统的流程图。
具体实施方式
现在将参照示例性实施例来论述本发明的内容,应当理解,论述的实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容,而不是暗示对本发明的范围的任何限制。
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”,术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。
根据本发明的一个实施例,图1为本发明中的一种钢铁工业生产数据质量评价方法的流程图,如图1所示,一种钢铁工业生产数据质量评价方法包括:
为实现上述目的,本发明提供的一种钢铁工业生产数据质量评价方法,包括:
基于已经验证和分类的生产数据进行特征处理,确定若干生产数据的特征属性;
基于生产数据的特征属性在第一分类规则下的特征分布,以确定生产数据在第一分类规则下的第一异常数据;
基于生产数据的特征属性在第二分类规则下的特征分布,以确定生产数据在第二分类规则下的第二异常数据;
基于第一异常数据和第二异常数据对特征提取的规则进行调整,使第一异常数据通过第二分类规则被正确划分,以及第二异常数据通过第一分类规则被正常划分;
基于调整后的第一分类规则或第二分类规则对钢铁生产数据质量进行评价。
根据本发明的一个实施方式,生产数据包括原料钢比例、轧制压力、轧制速度、压下率过程控制数据、行进速度数据、气体流量数据、压力数据、温度数据,燃料信息、原辅料、气消耗量、煤炭消耗量和/或焦炭产量。
根据本发明的一个实施方式,第一分类规则和第二分类规则中包含的元素不同,第二分类规则中的特征属性包括第一分类规则特征属性的关联属性。
根据本发明的一个实施方式,根据钢铁产品的测试数据对数据进行分类,按照钢铁产品生产工艺的标准值点进行生产数据采样距离的计算,并按照采样距离进行排序,获取不高于5%比例的数据作为异常数据,去除异常数据中数值相较于标准值点的偏差值在对应字段的阈值范围内的数据,得到对应于分类字段的疑似异常数据值;
对疑似异常数据值进行聚类分类,进行聚类时,聚类中心的数目不高于分类规则中生产过程控制数据字段的数目,之后将聚类中心以及和聚类中心距离低于阈值疑似异常数据值作为异常数据。
根据本发明的一个实施方式,分别生产数据中涉及设备操作和原料的波动数据,生产数据按照生产时间对齐;
对生产数据中进行关联度分析,以获取生产数据的多个参考属性以及和参考属性相关联的关联属性;
基于参考属性构建第一分类规则,基于关联属性构建第二分类规则。
根据本发明的一个实施方式,第一分类规则根据参考属性序列和标准工艺数据中参考值的距离,选择离群性超过阈值的生产数据作为第一异常数据;
第二分类规则根据关联属性序列和标准工艺数据中参考值的距离,选择离群性超过阈值的生产数据作为第二异常数据。
根据本发明的一个实施方式,关联度分析包括对各个字段进行灰色统计评估分级,得到各个特征属性对于产品质量影响的评级,获得特征属性序列;
基于皮尔逊相关系数将特征属性序列划分为参考特征和关联特征。
根据本发明的一个实施方式,钢铁生产数据质量进行评价包括:
响应于第一分类规则和第二分类规则确定为异常数据,将生产数据确定为低关联度数据;
响应于第一分类规则或第二分类规则确定为低关联度数据,根据生产数据各序列和标准工艺对应特征属性的标准差差异,确定生产数据潜在的偏差数据源。
根据本发明的一个实施方式,使用指数归一化处理的方式对生产数据进行特征处理。
根据本发明的一个实施例,在对钢铁工业生产数据进行质量评价前,首先依据质量规范确定数据采集的范围,以及基于确定的数据范围进行数据集的收集。
由于数据来源的差异,或者由于操作者对于数据的处理差异,数据的字段和实际约定的字段名称会存在差异,因此,可以设置一个字典以对数据的名称进行映射,以消除数据之间的歧义,例如钢水温度Ts可能会存在多个名称,那么可以通过设置一系列的映射,对其进行处理,具体处理过程可以参考如下方式{keyName:{a1,..,an}},即对应于keyName,可以存在多组数据如a1和an和其对应。
在此过程中,可能会出现部分字段的名称冲突,此时可以通过附加标识符或者重新进行字典的调整的方式进行,例如在第一阶段S1和第二阶段S2中均出现了标识符A,则可以使用S1.A和S2.A对其进行引用;或者此阶段可以调整映射的规则,例如更换标识符A的名称以克服此问题。
在进行数据的字段映射后,可以对数据的完备性进行查验。
本领域技术人员应当理解,如果数据的来源唯一可以确认,并且使用了唯一标识符对其进行区分时,则可以省略采集过程中映射的检查环节。
进一步的,在确定了数据映射规则之后,可以对数据的完备性进行检查。
进行数据的完备性检查根据数据的规范进行,例如数据的采样频率是否满足需求,以及相关的数据是否完整了反映了钢铁工业的生产过程,应当理解,数据的采样频率应当是真实的采样频率,在数据的采集规范内真实的采样频率可以通过插值等算法对数据进行扩容,或者根据对应对其的数据进行实际值的填充。例如t1到t2时间中,要求采样6个点值,实际传感器的采样能力为1个,则可以使用采样前的数据和实际采集的数据平均填充此时间段的数值,或者采用拟合的方式,以上一次测量的数值作为起始值,而以测量的数值作为终点值,中间采用线性插值的方法进行填充。此外,数据完整反映了钢铁工业的生产过程,其含义应当被理解为器材样的时间段覆盖了对应的环节,例如进行轧制时数据的起始时间段应当覆盖轧制的时间段,以及数据的类型和数目均覆盖轧制过程中所使用的传感器类型。
而对于非设备原因造成的数据缺失的情形,例如数据传输错误以及录入错误的情形,则应当返回进行数据集的更新。
在进行数据的完备性的检查后,可以根据本发明提供的方法进行数据的质量评价。
特征提取可以为选取代表性的点值,因数据采集过程中会产生大量数据,无区分对其处理会增加计算量,此时可以通过采样的方式进行提取,采样频率可以按照时间进行,例如按照秒采样。或者按照时间段提取特征,例如按照每秒分别计算均值。
本发明提供的数据质量评价方法主要基于对数据进行特征区分,并分别确定数据质量中的计量分布,依据在分类规则下的数据异常分布确定分类规则是否合理,从而使得至少根据两类不同区分规则时,数据可以得到正确的划分。
本发明对数据进行分类依赖于具体的生产数据的特征,其中,第一生产数据和第二生产数据包含的元素对应了不同的区分规则,在进行区分时,主要考虑了其在空间的分布。进行空间的分布时,通过近似度的算法以对元素的近似程度进行区分,以确定正常元素和异常元素。此处的正常元素为在服从数据的分布的常见或者正常数据值,在实际的生产过程中,多数的数据会在一定的范围进行波动,异常数据的即使对应于部分低品控的钢材,其分布在数据空间中也是无规律的,基于此可以将正常的数据和非正常生产状态下的数据进行识别。
进行识别后,依据识别的源和规则的不同,可以获得不同的异常数据,异常数据可以被划分到正确的分类中,如果未满足此需求,则表明数据可以被进一步的划分,可以依据分类的结果进一步调整分类的标准,从而使得按照不同的标准进行分类使得异常数据的识别被满足,得到数据的正确评价结果。
在数据被正确评价后,可以获得数据的评价报告。钢铁产品的测试数据包括钢铁产品的尺寸数据、金相比例数据、探伤数据、平直度数据、强度数据、成分数据和满足的工艺标准类别。
本发明的生产数据可以包括:原料相关数据,例如钢水组成、焦炭性质、加料速度、合金原料的加入速度;生产工艺相关数据,例如轧制过程中温度控制参数、轧制时压下比例、钢水通入气体的深度、气流速度;产品的测试性能数据,例如金相比例、屈服力数据、韧性数据、延长比例,或者对于产品的分类数据。
提供的数据包括和原料相关数据和生产工艺相关数据。由于生产工艺相关数据在生产中会根据实际的生产进行调整,从而使得其反应了针对生产过程中的一些调整性信息,而这些信息和原料相关数据具备直接关联。
进一步的,在本发明的其他实施例内,提供的数据进一步包括测试性能数据。依据测试性能数据可以将钢材进行分类,或者在无明确分类的情况下,依据性能差异对钢材的数据进行差异性的划分。
进一步的,在本发明的其他实施例内,提供的数据进一步包括分类数据,此分类数据为根据技术人员划分或者专业认识确认的,依据分类数据对钢材的数据进行差异性的划分,从而可以提取钢材的性能相关信息。
第一分类规则和第二分类规则中包含的元素不同,第二分类规则中的特征属性包括第一分类规则特征属性的关联属性。
在本发明的部分实施例中,第一分类规则和第二分类规则具有一致的元素。例如均包括原料相关的信息以及性能相关的信息。
进一步的,第一分类规则和第二分类规则具有不一致的元素,且第二分类规则中具有和第一分类规则相关联的元素。此处相关联的元素具有相同的采集时空。例如,轧制过程中,会涉及到温度的控制和压下厚度的控制,此过程中,温度和压下厚度在同一时间和空间获取,因此属于相同的时空。而其和冶炼过程中氩气的通入量不属于同一工序,自然不具有相同的采集时空。
在本发明的一个实施例内,第一分类规则内包含生产过程中的控制数据,第二分类规则包含和生产过程中的控制数据具有关联度的控制数据。
具有关联的数据可以为所有可获取数据的差集,也可以是其中若干元素构成的集合。在为差集时,且具有集合大小时,其可以最大程度反映数据的相关性,但是会明显增加计算量;而在选择性进行计算时,可以降低工作量。
在本发明的部分实施例中,第一分类规则和第二分类规则具有一致的数据类型。此情况中,通过算法引入随机性,以进行数据的划分。例如通过无监督算法进行,在进行选择时,通过选择不一致的中心以进行划分。
根据本发明的一个实施例,第一分类规则或第二分类规则包括:
根据钢铁产品的测试数据对数据进行分类,按照钢铁产品生产工艺的标准值点进行生产数据采样距离的计算,并按照采样距离进行排序,获取不高于5%比例的数据作为异常数据,去除异常数据中数值相较于标准值点的偏差值在对应字段的阈值范围内的数据,得到对应于分类字段的疑似异常数据值;
对疑似异常数据值进行聚类分类,进行聚类时,聚类中心的数目不高于分类规则中生产过程控制数据字段的数目,之后将聚类中心以及和聚类中心距离低于阈值疑似异常数据值作为异常数据。
本实施例提供了具有参考基准的钢铁数据的数据质量评价标准,此处的距离可以选择一维距离(曼哈顿距离)或二维距离(欧氏距离)。其他测度的计算方法可以应用于本申请,但是使用曼哈顿距离和欧式距离可以较为快速的实现数据类别的划分和质量的评估,并提供时间和质量的平衡。
在进行此过程时,对数据特征进行处理可以为进行简单的数值映射,或者省略响应的步骤。
分别生产数据中涉及设备操作和原料的波动数据,生产数据按照生产时间对齐;
对生产数据中进行关联度分析,以获取生产数据的多个参考属性以及和参考属性相关联的关联属性;
基于参考属性构建第一分类规则,基于关联属性构建第二分类规则。
在本发明的一个实施例内,对钢铁轧制过程中采集的传感器数据进行质量评估,在进行评估前,首先根据数据是否连续去除不合格的数据;之后按照5s计算其均值,得到若干数值序列;
按照轧制过程中的预设值作为参考基准,对应序列的下限作为0点对数据进行归一化;将序列随机划分为2组,每组分别随机选择不低于100个字段进行计量,其分别对应第一分类规则和第二分类规则所使用的字段;
将得到的序列按照所选择的字段随机提取对应的数据,分别计算归一化后的数据相较于参考基准的距离,并对其进行K-Means聚类,以确定异常的数值范围;
按照钢铁产品生产工艺的标准值点进行生产数据采样距离的计算,并按照采样距离进行排序,获取不高于5%比例的数据作为异常数据,去除异常数据中数值相较于标准值点的偏差值在对应字段的阈值范围内的数据,得到对应于分类字段的疑似异常数据值;
对疑似异常数据值进行聚类分类,进行聚类时,聚类中心的数目不高于分类规则中生产过程控制数据字段的数目,之后将聚类中心以及和聚类中心距离低于阈值疑似异常数据值作为异常数据;
以正常数据包含数据中最大欧式距离作为阈值,随机选取数据,重复上述步骤,使得按照第一分类规则和第二分类规则确定的异常元素基本一致,即相差不超过5%。
之后,根据标准差确定异常元素对应的异常字段,再使用统计学对其他字段进行计量分布的计算,并输出数据质量的评价报告,其包括异常字段比例、所处的时间分布以及其他正常字段数值的计量分布。
在本发明的一个实施例内,对钢水冶炼中采集的数据进行质量评估,在进行评估前,首先根据数据是否连续去除不合格的数据;之后按照1s计算其均值,得到基础序列;
按照吹炼过程中的预设值作为参考基准,对应序列的下限作为0点对数据进行归一化;
S1,获取吹炼过程的生产工艺相关数据类别C,其中每个数据类别对应了一个采集获取的数据源;
S2,判断生产工艺相关字段C是否为空,如果为空,退出;
S3,随机选取一个字段a加入第一字段集A,并从C中移除字段a;
S4,假设字段a的变化引起其他字段的变化,根据此计算C中其他的字段相对于a的响应度系数,并得到对应的从高到低排序;
S5,选取排序结果中结果前m位,此处推荐m为1,以体现一对一的关联度;
S6,将前m位对应的元素加入至第二字段集B,从生产工艺相关字段中删除前m位对应的字段,之后执行步骤S2。
将得到的序列按照所选择的字段随机提取对应的数据,分别计算归一化后的数据相较于参考基准的距离,并对其进行K-Means聚类,以确定异常的数值范围;
按照钢铁产品生产工艺的标准值点进行生产数据采样距离的计算,并按照采样距离进行排序,获取不高于5%比例的数据作为异常数据,去除异常数据中数值相较于标准值点的偏差值在对应字段的阈值范围内的数据,得到对应于分类字段的疑似异常数据值;
对疑似异常数据值进行聚类分类,进行聚类时,聚类中心的数目不高于分类规则中生产过程控制数据字段的数目,之后将聚类中心以及和聚类中心距离低于阈值疑似异常数据值作为异常数据;
以正常数据包含数据中最大欧式距离作为阈值,随机选取数据,重复上述步骤,使得按照第一分类规则和第二分类规则确定的异常元素基本一致,即相差不超过5%。
之后,根据标准差确定异常元素对应的异常字段,再使用统计学对其他字段进行计量分布的计算,并输出数据质量的评价报告,其包括异常字段比例、所处的时间分布以及其他正常字段数值的计量分布。
本实施例仍然考虑了正常的数据范围,以降低计算的复杂程度,在其他实施例内,这个步骤被省略,用于在复杂场景中挖掘潜在的信息。
在本发明的一个实施例内,对钢水冶炼中采集的数据进行质量评估,在进行评估前,首先根据数据是否连续去除不合格的数据;之后按照1s计算其均值,得到基础序列;
按照吹炼过程中传感器的类型为依据,对其进行分类,得到类别和与类别关联的传感器序列,分别针对每个类别,从传感器序列中随机选择分别加入第一字段集和第二字段集,对于类别中仅有单个传感器的数据类别,则将其同时加入第一字段集和第二字段集;
将得到的序列按照所选择的字段随机提取对应的数据,分别计算归一化后的数据相较于参考基准的距离,并对其进行K-Means聚类,以确定异常的数值范围;
对疑似异常数据值进行聚类分类,进行聚类时,聚类中心的数目不高于分类规则中生产过程控制数据字段的数目,之后将聚类中心以及和聚类中心距离低于阈值疑似异常数据值作为异常数据;
以正常数据包含数据中最大欧式距离作为阈值,随机选取数据,重复上述步骤,使得按照第一分类规则和第二分类规则确定的异常元素基本一致,即相差不超过5%。
之后,根据标准差确定异常元素对应的异常字段,再使用统计学对其他字段进行计量分布的计算,并输出数据质量的评价报告,其包括异常字段比例、所处的时间分布以及其他正常字段数值的计量分布。
在本发明的一个实施例内,对钢水冶炼中采集的数据进行质量评估,在进行评估前,首先根据数据是否连续去除不合格的数据;之后按照1s计算其均值,得到基础序列;
按照吹炼过程中的预设值作为参考基准,对应序列的下限作为0点对数据进行归一化;
S1,获取吹炼过程的生产工艺相关数据类别C,其中每个数据类别对应了一个采集获取的数据源;
S2,判断生产工艺相关字段C是否为空,如果为空,退出;
S3,随机选取一个字段a加入第一字段集A,并从C中移除字段a;
S4,假设字段a的变化引起其他字段的变化,根据此计算C中其他的字段相对于a的响应度系数,并得到对应的从高到低排序;
S5,选取排序结果中结果前m位,此处推荐m为1,以体现一对一的关联度;
S6,将前m位对应的元素加入至第二字段集B,从生产工艺相关字段中删除前m位对应的字段,之后执行步骤S2。
将得到的序列按照所选择的字段随机提取对应的数据,分别计算归一化后的数据相较于参考基准的距离,并对其进行离群分析,选择最大离群值的99%作为阈值,以判断以确定异常的数值范围;
以正常数据包含数据中最大离群性作为阈值,随机选取数据,重复上述步骤确定新的中心,使得按照第一分类规则和第二分类规则确定的异常元素基本一致,即相差不超过5%。
之后,根据标准差确定异常元素对应的异常字段,再使用统计学对其他字段进行计量分布的计算,并输出数据质量的评价报告,其包括异常字段比例、所处的时间分布以及其他正常字段数值的计量分布。
在本发明的一个实施例内,对钢铁轧制过程中采集的传感器数据进行质量评估,在进行评估前,首先根据数据是否连续去除不合格的数据;之后按照5s计算其均值,得到若干数值序列;
按照轧制过程中的预设值作为参考基准,对应序列的下限作为0点对数据进行归一化;将序列随机划分为2组,每组分别随机选择不低于100个字段进行计量,其分别对应第一分类规则和第二分类规则所使用的字段;
将得到的序列按照所选择的字段随机提取对应的数据,分别计算归一化后的数据相较于参考基准的距离,并对其进行离群分析,选择最大离群值的99%作为阈值,以判断以确定异常的数值范围;
以正常数据包含数据中最大离群性作为阈值,随机选取数据,重复上述步骤,使得按照第一分类规则和第二分类规则确定的异常元素基本一致,即相差不超过5%。
之后,根据标准差确定异常元素对应的异常字段,再使用统计学对其他字段进行计量分布的计算,并输出数据质量的评价报告,其包括异常字段比例、所处的时间分布以及其他正常字段数值的计量分布。
根据本发明的一个实施例,第一分类规则根据参考属性序列和标准工艺数据中参考值的距离,选择离群性超过阈值的生产数据作为第一异常数据;
第二分类规则根据关联属性序列和标准工艺数据中参考值的距离,选择离群性超过阈值的生产数据作为第二异常数据。
本实施例提供了具有参考基准的钢铁数据的数据质量评价标准,在确定分类基础和关联分类基准后,可以对数据集进行分类,此处的距离可以选择一维距离(曼哈顿距离)或二维距离(欧氏距离)。其他测度的计算方法可以应用于本申请,但是使用曼哈顿距离和欧式距离可以较为快速的实现数据类别的划分和质量的评估,并提供时间和质量的平衡。
之后,根据无监督的算法进行异常工况数据的标定,离群性也称逸出值,是指在数据中有一个或几个数值与其他数值相比差异较大。如果一个数值偏离观测平均值的概率小于等于1/(2n),则该数据应当被单独标注并划分到异常类别中。
所选择的第一分类规则的阈值和第二分类规则的阈值正常数据计算获得的最大离群性的值。
通过设置欧氏距离阈值可以确定划分的范围,进而使得在使用其他数据进行测试时,异常数据可以被识别。
关联度分析包括对各个字段进行灰色统计评估分级,得到各个特征属性对于产品质量影响的评级,获得特征属性序列;
基于皮尔逊相关系数将特征属性序列划分为参考特征和关联特征。
本实施例通过灰色评价来评判各个因素对于产品分类的影响,或者选择参数(五害元素)或性能参数进行标定,获得一些和选择的参数或分类相关的排序,之后基于相关系数进行。
钢铁生产数据质量进行评价包括:
响应于第一分类规则和第二分类规则确定为异常数据,将生产数据确定为低关联度数据;
响应于第一分类规则或第二分类规则确定为低关联度数据,根据生产数据各序列和标准工艺对应特征属性的标准差差异,确定生产数据潜在的偏差数据源。
通过此方式可以确定低关联度数据,即借助于任一分类规则都无法确定为正确分类的数据;此时可以通过进一步的迭代,确定生产工艺合格数据的中心,即调整分类规则来实现数据的重新划分,或者重新选取字段进行划分。
在进行3次迭代确定的异常数据作为低关联度数据。根据生产数据各序列和标准工艺对应特征属性计算低关联度数据的标准差,确定最大标准差对应的字段,从而获得异常源。
进一步的,可以依赖于计量分布对各数据字段进行评价,在进行评价时,首先剔除异常数据,之后依赖统计计算获得其计量分布。
通过使用指数归一化的方法可以消除数据之间的差异,并使得数据的计算更加具备代表性。
不仅如此,为实现上述发明目的,本发明还提供了一种钢铁工业生产数据质量评价系统,图2为本发明中的一种钢铁工业生产数据质量评价系统的流程图,如图2所示,本发明中的一种钢铁工业生产数据质量评价系统包括:
特征属性获取单元:用于基于已经验证和分类的生产数据进行特征处理,确定若干生产数据的特征属性;
第一异常获取单元:基于生产数据的特征属性在第一分类规则下的特征分布,以确定生产数据在第一分类规则下的第一异常数据;
第二异常获取单元:基于生产数据的特征属性在第二分类规则下的特征分布,以确定生产数据在第二分类规则下的第二异常数据;
优化评价单元:基于第一异常数据和第二异常数据对特征提取的规则进行调整,使第一异常数据通过第二分类规则被正确划分,以及第二异常数据通过第一分类规则被正常划分;
基于调整后的第一分类规则或第二分类规则对钢铁生产数据质量进行评价。
基于此,本发明的有益效果在于:本发明考虑数据之间的内在联系,可以快速实现对于钢铁工业生产数据质量的评价。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。
另外,在本发明实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
应理解,本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
Claims (10)
1.一种钢铁工业生产数据质量评价方法,其特征在于,包括:
基于已经验证和分类的生产数据进行特征处理,确定若干生产数据的特征属性;
基于生产数据的特征属性在第一分类规则下的特征分布,以确定生产数据在第一分类规则下的第一异常数据;
基于生产数据的特征属性在第二分类规则下的特征分布,以确定生产数据在第二分类规则下的第二异常数据;
基于第一异常数据和第二异常数据对特征提取的规则进行调整,使第一异常数据通过第二分类规则被正确划分,以及第二异常数据通过第一分类规则被正常划分;
基于调整后的第一分类规则或第二分类规则对钢铁生产数据质量进行评价。
2.如权利要求1所述的一种钢铁工业生产数据质量评价方法,其特征在于,生产数据包括原料钢比例、轧制压力、轧制速度、压下率过程控制数据、行进速度数据、气体流量数据、压力数据、温度数据,燃料信息、原辅料、气消耗量、煤炭消耗量和/或焦炭产量。
3.如权利要求2所述的一种钢铁工业生产数据质量评价方法,其特征在于,第一分类规则和第二分类规则中包含的元素不同,第二分类规则中的特征属性包括第一分类规则特征属性的关联属性。
4.如权利要求3所述的一种钢铁工业生产数据质量评价方法,其特征在于,根据钢铁产品的测试数据对数据进行分类,按照钢铁产品生产工艺的标准值点进行生产数据采样距离的计算,并按照采样距离进行排序,获取不高于5%比例的数据作为异常数据,去除异常数据中数值相较于标准值点的偏差值在对应字段的阈值范围内的数据,得到对应于分类字段的疑似异常数据值;
对疑似异常数据值进行聚类分类,进行聚类时,聚类中心的数目不高于分类规则中生产过程控制数据字段的数目,之后将聚类中心以及和聚类中心距离低于阈值疑似异常数据值作为异常数据。
5.如权利要求4所述的一种钢铁工业生产数据质量评价方法,其特征在于,分别生产数据中涉及设备操作和原料的波动数据,生产数据按照生产时间对齐;
对生产数据中进行关联度分析,以获取生产数据的多个参考属性以及和参考属性相关联的关联属性;
基于参考属性构建第一分类规则,基于关联属性构建第二分类规则。
6.如权利要求5所述的一种钢铁工业生产数据质量评价方法,其特征在于,第一分类规则根据参考属性序列和标准工艺数据中参考值的距离,选择离群性超过阈值的生产数据作为第一异常数据;
第二分类规则根据关联属性序列和标准工艺数据中参考值的距离,选择离群性超过阈值的生产数据作为第二异常数据。
7.如权利要求6所述的一种钢铁工业生产数据质量评价方法,其特征在于,关联度分析包括对各个字段进行灰色统计评估分级,得到各个特征属性对于产品质量影响的评级,获得特征属性序列;
基于皮尔逊相关系数将特征属性序列划分为参考特征和关联特征。
8.如权利要求7所述的一种钢铁工业生产数据质量评价方法,其特征在于,响应于第一分类规则和第二分类规则确定为异常数据,将生产数据确定为低关联度数据;
响应于第一分类规则或第二分类规则确定为低关联度数据,根据生产数据各序列和标准工艺对应特征属性的标准差差异,确定生产数据潜在的偏差数据源。
9.如权利要求8所述的一种钢铁工业生产数据质量评价方法,其特征在于,使用指数归一化处理的方式对生产数据进行特征处理。
10.一种钢铁工业生产数据质量评价系统,其特征在于,包括:
特征属性获取单元:用于基于已经验证和分类的生产数据进行特征处理,确定若干生产数据的特征属性;
第一异常获取单元:基于生产数据的特征属性在第一分类规则下的特征分布,以确定生产数据在第一分类规则下的第一异常数据;
第二异常获取单元:基于生产数据的特征属性在第二分类规则下的特征分布,以确定生产数据在第二分类规则下的第二异常数据;
优化评价单元:基于第一异常数据和第二异常数据对特征提取的规则进行调整,使第一异常数据通过第二分类规则被正确划分,以及第二异常数据通过第一分类规则被正常划分;
基于调整后的第一分类规则或第二分类规则对钢铁生产数据质量进行评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311255861.XA CN117196405B (zh) | 2023-09-26 | 2023-09-26 | 一种钢铁工业生产数据质量评价方法和评价系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311255861.XA CN117196405B (zh) | 2023-09-26 | 2023-09-26 | 一种钢铁工业生产数据质量评价方法和评价系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117196405A true CN117196405A (zh) | 2023-12-08 |
CN117196405B CN117196405B (zh) | 2024-05-14 |
Family
ID=88992311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311255861.XA Active CN117196405B (zh) | 2023-09-26 | 2023-09-26 | 一种钢铁工业生产数据质量评价方法和评价系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117196405B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117804552A (zh) * | 2024-03-01 | 2024-04-02 | 吉林省柏汇物联科技有限公司 | 一种基于物理数据采集分析的钢铁生产检测评估系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130073594A1 (en) * | 2011-09-19 | 2013-03-21 | Citigroup Technology, Inc. | Methods and Systems for Assessing Data Quality |
CN116308295A (zh) * | 2023-03-29 | 2023-06-23 | 云镝智慧科技有限公司 | 一种工业生产数据管理方法及系统 |
CN116485280A (zh) * | 2023-06-15 | 2023-07-25 | 深圳市蓝巨科技有限公司 | 基于人工智能的uvc-led生产质量评价方法及系统 |
-
2023
- 2023-09-26 CN CN202311255861.XA patent/CN117196405B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130073594A1 (en) * | 2011-09-19 | 2013-03-21 | Citigroup Technology, Inc. | Methods and Systems for Assessing Data Quality |
CN116308295A (zh) * | 2023-03-29 | 2023-06-23 | 云镝智慧科技有限公司 | 一种工业生产数据管理方法及系统 |
CN116485280A (zh) * | 2023-06-15 | 2023-07-25 | 深圳市蓝巨科技有限公司 | 基于人工智能的uvc-led生产质量评价方法及系统 |
Non-Patent Citations (2)
Title |
---|
吴昊, 杨建军: "数据挖掘在质量管理中的应用", 成组技术与生产现代化, no. 01, 28 March 2005 (2005-03-28), pages 28 - 31 * |
张建良;曹维超;国宏伟;苏步新;张涛;: "数据挖掘在炼铁系统中的应用现状及展望(上)", 冶金自动化, no. 05, 25 September 2012 (2012-09-25), pages 6 - 10 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117804552A (zh) * | 2024-03-01 | 2024-04-02 | 吉林省柏汇物联科技有限公司 | 一种基于物理数据采集分析的钢铁生产检测评估系统 |
CN117804552B (zh) * | 2024-03-01 | 2024-05-07 | 吉林省柏汇物联科技有限公司 | 一种基于物理数据采集分析的钢铁生产检测评估系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117196405B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117196405B (zh) | 一种钢铁工业生产数据质量评价方法和评价系统 | |
CN115630847B (zh) | 一种基于数据预测的收发组件检测方法、系统及存储介质 | |
CN108956111B (zh) | 一种机械部件的异常状态检测方法及检测系统 | |
CN105702595B (zh) | 晶圆的良率判断方法以及晶圆合格测试的多变量检测方法 | |
CN115982602B (zh) | 一种光伏变压器电故障检测方法 | |
CN112257963A (zh) | 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置 | |
CN108270636A (zh) | 链路质量评估方法及装置 | |
CN117390591B (zh) | 基于电参量分析的输煤皮带采样机运行监测方法及系统 | |
CN111736567B (zh) | 一种基于故障敏感慢特征的多块故障监测方法 | |
CN112668105A (zh) | 一种基于sae与马氏距离的直升机传动轴异常判定方法 | |
US8271233B2 (en) | Method of multi-level fault isolation design | |
CN111863151B (zh) | 基于高斯过程回归的聚合物分子量分布的预测方法 | |
CN112529112B (zh) | 一种矿物识别的方法和装置 | |
CN116520068B (zh) | 一种电力数据的诊断方法、装置、设备及存储介质 | |
TWI709054B (zh) | 預測模型的建立裝置、建立方法與產品品質監控系統 | |
CN116882762A (zh) | 基于大数据的企业运营风险评估预警方法 | |
CN116502155A (zh) | 一种用于数控电动螺旋压力机的安全监管系统 | |
CN110765668A (zh) | 一种基于偏差指标的混凝土侵彻深度试验数据异常点检测方法 | |
CN115170820A (zh) | 一种应用于数据曲线过渡阶段的特征提取及界限识别方法 | |
CN110119783B (zh) | 焦炭质量预测方法、装置及计算机设备 | |
US11507961B2 (en) | Fabricated data detection method | |
CN108053093A (zh) | 一种基于平均影响值数据变换的k-近邻故障诊断方法 | |
CN114088400A (zh) | 一种基于包络排列熵的滚动轴承故障诊断方法 | |
CN116974788B (zh) | 一种实时分析晶圆缺陷的数据处理方法 | |
CN110189797B (zh) | 一种基于dbn的序列错误数预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |