CN111125082B - 基于关联规则挖掘的水泥工艺参数数据分析方法 - Google Patents

基于关联规则挖掘的水泥工艺参数数据分析方法 Download PDF

Info

Publication number
CN111125082B
CN111125082B CN201911366888.XA CN201911366888A CN111125082B CN 111125082 B CN111125082 B CN 111125082B CN 201911366888 A CN201911366888 A CN 201911366888A CN 111125082 B CN111125082 B CN 111125082B
Authority
CN
China
Prior art keywords
data
cement
parameter
value
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911366888.XA
Other languages
English (en)
Other versions
CN111125082A (zh
Inventor
李世昕
高红雨
苏航
李小青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911366888.XA priority Critical patent/CN111125082B/zh
Publication of CN111125082A publication Critical patent/CN111125082A/zh
Application granted granted Critical
Publication of CN111125082B publication Critical patent/CN111125082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Fuzzy Systems (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Manufacturing & Machinery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关联规则挖掘的水泥工艺参数数据分析方法,输入为水泥厂一段时间生产线上的数据数值以及每步工序下每个工艺参数的判断矩阵数值,输出为水泥工艺的某个特定参数的关联模式。本发明的主要思想是利用基于领域的数据清洗方法和改进的K‑means聚类算法来提高数据的离散化精度,通过计算每个工艺参数的权值,对特定参数进行关联模式的挖掘,得到潜在的关联模式。具体步骤如下:1)将水泥工艺参数原始数据进行基于领域的数据清洗;2)将清洗后的数据进行离散化处理,利用得到的不同类别对应区间数据来代替原数据;3)将离散后的数据输入到数据分析模型中,并按照输入的目标参数进行该参数的关联模式挖掘,输出关联模式。

Description

基于关联规则挖掘的水泥工艺参数数据分析方法
技术领域
本发明涉及计算机应用和信息处理领域,特别涉及一种基于关联规则挖掘的水泥工艺参数数据分析方法。
背景技术
流程工业是我国国民经济重要的组成部分。但随着流程工业的发展,我国流程工业的效益却普遍不佳,主要表现出能耗高和成本高、生产率低和资源利用率低的显著特点。典型流程工业产品的生产会经过许多的工序,每个工序会持续记录大量的工艺参数数据,这些工艺参数数据与能耗及最后产品的质量之间有着复杂又密切的联系,因此流程工业生产过程中的工艺参数数据具有重要的研究价值。
数据挖掘可以通过相关算法对上述的数据进行实时的分析处理,通过挖掘数据中隐藏的相关性,得到潜在的模式,来帮助决策者调整市场策略,减少风险,做出正确的决策。水泥是国民经济的基础原材料,当前针对水泥工艺参数处理的数据挖掘方法主要是传统的关联规则分析算法,这种方法对于水泥生产的数据分析十分有限,只能针对水泥生产的某一方面来进行分析,并且算法的时间效率和数据的离散化精度较低,无法有效的对水泥工艺参数数据进行综合分析。为了具有更强的数据分析能力和更高的时间效率,本发明提出一种适用于水泥工艺参数的计算机应用的数据分析技术。本发明与传统的水泥数据分析方法不同之处在于四个方面:本发明所述方法是基于领域知识的数据清洗方法,为水泥数据属性划分合理区间并清除异常值;本发明所述方法利用了领域专家给出的最优值,进一步清洗边缘数据,提高了数据精度;本发明所述方法利用了改进的动态聚类方法对工业数据进行离散化;本发明所述方法利用了引入“工序权值”参数的特殊关联算法挖掘出特定参数的关联模式。
发明内容
为了提高对水泥参数数据的分析能力,本发明提出一种基于关联规则挖掘的水泥工艺参数数据分析方法。该方法首先将水泥原始数据用领域规则清洗,然后提取到本地数据中心再用改进的K-means算法进行聚类以划分数据,下一步计算水泥生产每道工序下的每个参数的权值,将权值作为关联算法的限制参数之一对已经过划分的数据进行挖掘,最后按照置信度从高到低将挖掘出来的关联模式顺序输出。
为了实现本发明的目的,采用的技术方案概述如下:
一种基于关联规则挖掘的水泥工艺参数数据分析方法,其特征在于:输入为某水泥厂一段时间生产线上的数据数值以及每步工序下每个工艺参数的判断矩阵数值,输出为水泥工艺的某个特定参数的关联模式,包括以下步骤:
(1)将从水泥厂取出的水泥工艺参数原始数据提取到本地,再进行特定的数据清洗,去掉一些影响水泥数据高集中性和理论上极度不合理的数值;
(2)将清洗后的数据进行离散化处理,利用得到的不同类别对应区间数据来代替原数据用以描述水泥工艺参数属性,为后续的关联规则挖掘提供有效的输入;
(3)将水泥离散后的数据、每步工序下每个工艺参数的判断矩阵数值、算法需要参数输入到数据分析模型中,并按照输入的目标参数进行该参数的关联模式挖掘。
所述步骤(1),具体包括以下步骤:
(1-1)获取水泥工艺参数原始数据时,计算数据中每个属性的最大值、最小值、平均值和中位数;
(1-2)输入水泥工艺参数数据每个属性的合理区间范围和区间内最好的点,即合理的最大值、最小值和最优值;
(1-3)去掉水泥数据每个属性合理区间外的所有数据,并判断该属性的平均值和中位数是否与最优值相差10%以内,若没有达到要求,则对此属性的极值点数据再次进行删减,直到达到要求为止。
所述步骤(2),具体包括以下步骤:
(2-1)输入清洗后的水泥工艺参数数据集D,聚类簇数k。对于每个样本点计算起样本分布密度,并计算最小样本密度阈值,将不小于阈值的样本点存入集合X_,小于阈值的离群样本点存入Y_;
(2-2)在数据集X_中划分初始聚类中心域,并选取每个域中样本分布密度最大的样本点;
(2-3)将(2-2)产生的聚类中心作为传统K-means的初始聚类中心,完成聚类;
(2-4)计算隔离群样本点和K-means聚类后的簇中心之间的距离,将其划分到最近的簇中。最后输出簇C={C1,C2,…,Ck}。
所述步骤(3),具体包括以下步骤:
(3-1)输入每步工序下每个工艺参数的判断矩阵数值,并用层次分析法计算每个参数在全局中的权值;
(3-2)输入水泥离散后的数据和待挖掘的特定参数,并使用“置信度-支持度-权值”的改进关联算法挖掘并输出特定参数的关联模式。
本方法的实施环境为Windows10操作系统,装有java1.8编译器。
与现有技术相比,本发明具有以下特点:
(1)本发明所提出的方法是基于领域知识的数据清洗方法,为属性划分合理区间并清除异常值,再利用领域专家给出的最优值,进一步清洗边缘数据,提高数据精度,而现有的数据清洗方法只能进行简单的缺失值和异常值清洗,无法提高数据精度,数据的稳定性会很差,具体表现在标准差的大小上;
(2)本发明所提出的改进的动态聚类方法对工业数据进行离散化,相较于现有传统聚类方法能够进一步的提高数据精度;
(3)本发明所提出的引入“工序权值”参数的关联算法可以将无关参数进行筛选,避免了挖掘时间过长、挖掘结果与所需结果无关的问题,而现有的关联算法并不能自动的帅选合适的关联模式。
附图说明
图1是本发明方法实现的总体流程图;
图2是本发明方法的数据精度与传统方法的对比图;
图3是本发明的特殊关联算法部分流程图。
图4是本发明方法具体步骤简图。
具体实施方式
本发明提出了一种基于关联规则挖掘的水泥数据分析方法,能将某个特定参数的关联模式快速且准确的挖掘出来。
下面结合具体实施对本发明提出的水泥参数数据分析方法进行详细描述。本方法的工作流程如图1所示:
1)数据准备:将从工厂取出的水泥生产过程参数原始数据提取和存储到本地的数据库中。
2)数据预处理:对提取和存储到本地数据库的数据进行基于领域规则的数据清洗,再将处理后的数据用改进的聚类算法进行离散化,从连续型数值变为离散型数值,得到离散数据。
3)关联规则分析:在得到离散数据的基础上,对这些数据用特殊的Apriori算法进行数据的关联规则分析,得到一些关联模式。
本发明的数据精度与传统方法的对比图如图2所示:
其中橙色的线表示经过传统的清洗方法之后数据的标准差,蓝色表示经过基于领域的清洗方法之后数据的标准差,由图2可知,基于水泥数据特点改进的离散化方法的标准差要明显低于传统的离散化方法的标准差,前者数据更加稳定和集中。
本发明的特殊关联算法部分如图3所示:
该算法是一种逐层搜索的迭代方法,它通过搜索产生“频繁1-项目集”,然后在此基础上生成所有的频繁项目集,最后从频繁项目集中找出符合条件的关联规则。从整个算法过程来看,是一种连接和剪枝,以保证后续结果也是频繁的。但是由于传统的Apriori算法仅仅使用了支持度和置信度两个阈值进行规则筛选,挖掘得到的规则很多都是没有意义的,并且在数据量大的情况下,消耗的时间也会更多。本发明在传统的Apriori算法中,引入了“工序权值”的概念,形成了改进的Apriori算法。
综上,本发明提出一种适用于水泥生产的基于关联算法的水泥参数数据分析技术。基于流程工业数据的特点,对水泥的原始数据进行清洗和离散化,得到划分后的高精度的水泥参数数据,并用基于“置信度-支持度-工序权值”的特殊关联算法进行特定参数的关联模式挖掘。该方法能提高挖掘效率,得到传统方法所得不到的关联模式,并应用于水泥的生产和环境的治理。
上文所列出的一系列详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用于限制本发明的保护范围,凡是未脱离发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于关联规则挖掘的水泥工艺参数数据分析方法,其特征在于:输入为水泥厂一段时间生产线上的数据数值以及每步工序下每个工艺参数的判断矩阵数值,输出为水泥工艺的某个特定参数的关联模式,包括以下步骤:
(1)将从水泥厂取出的水泥工艺参数原始数据提取到本地,再进行数据清洗,去掉影响水泥数据高集中性和理论上不合理的数值;
(2)将清洗后的数据进行离散化处理,利用得到的不同类别对应区间数据来代替原数据用以描述水泥工艺参数属性,为后续的关联规则挖掘提供有效的输入;
(3)将水泥离散后的数据、每步工序下每个工艺参数的判断矩阵数值、算法需要参数输入到数据分析模型中,并按照输入的目标参数进行该参数的关联模式挖掘;所述步骤(3)包括以下步骤:
(3-1)输入每步工序下每个工艺参数的判断矩阵数值,并用层次分析法计算每个参数在全局中的权值;
(3-2)输入水泥离散后的数据和待挖掘的特定参数,并使用“置信度-支持度-权值”的改进关联算法挖掘并输出特定参数的关联模式;
计算水泥生产每道工序下的每个参数的权值,将权值作为关联算法的限制参数之一对已经过划分的数据进行挖掘,最后按照置信度从高到低将挖掘出来的关联模式顺序输出。
2.根据权利要求1所述的一种基于关联规则挖掘的水泥工艺参数数据分析方法,其特征在于:所述步骤(1),具体包括以下步骤:
(1-1)获取水泥工艺参数原始数据并提取到本地时,计算数据中每个属性的最大值、最小值、平均值和中位数;
(1-2)输入水泥工艺参数数据每个属性的合理区间范围和区间内最好的点,即合理的最大值、最小值和最优值;
(1-3)去掉水泥数据每个属性合理区间外的所有数据,并判断该属性的平均值和中位数是否与最优值相差10%以内,若没有达到要求,则对此属性的极值点数据再次进行删减,直到达到要求为止。
3.根据权利要求1所述的一种基于关联规则挖掘的水泥工艺参数数据分析方法,其特征在于:所述步骤(2),具体包括以下步骤:
(2-1)输入清洗后的水泥工艺参数数据集D,聚类簇数k;对于每个样本点计算起样本分布密度,并计算最小样本密度阈值,将不小于阈值的样本点存入集合X_,小于阈值的离群样本点存入Y_;
(2-2)在数据集X_中划分初始聚类中心域,并选取每个域中样本分布密度最大的样本点;
(2-3)将(2-2)产生的聚类中心作为传统K-means的初始聚类中心,完成聚类;
(2-4)计算隔离群样本点和K-means聚类后的簇中心之间的距离,将其划分到最近的簇中,最后输出簇C={C1,C2,…,Ck}。
4.根据权利要求1所述的一种基于关联规则挖掘的水泥工艺参数数据分析方法,其特征在于:本方法的实施环境为Windows10操作系统,装有java1.8编译器。
CN201911366888.XA 2019-12-26 2019-12-26 基于关联规则挖掘的水泥工艺参数数据分析方法 Active CN111125082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911366888.XA CN111125082B (zh) 2019-12-26 2019-12-26 基于关联规则挖掘的水泥工艺参数数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911366888.XA CN111125082B (zh) 2019-12-26 2019-12-26 基于关联规则挖掘的水泥工艺参数数据分析方法

Publications (2)

Publication Number Publication Date
CN111125082A CN111125082A (zh) 2020-05-08
CN111125082B true CN111125082B (zh) 2023-09-22

Family

ID=70503129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911366888.XA Active CN111125082B (zh) 2019-12-26 2019-12-26 基于关联规则挖掘的水泥工艺参数数据分析方法

Country Status (1)

Country Link
CN (1) CN111125082B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374572B (zh) * 2022-10-21 2023-02-03 南京安全无忧网络科技有限公司 一种工艺平稳度分析系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106094744A (zh) * 2016-06-04 2016-11-09 上海大学 基于关联规则挖掘的火电厂主运行参数目标值的确定方法
CN108647808A (zh) * 2018-04-11 2018-10-12 济南大学 一种生产参数优化预测方法、装置、设备及存储介质
CN110163511A (zh) * 2019-05-24 2019-08-23 重庆大学 一种基于关联规则挖掘和模糊决策的制造质量控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812543B2 (en) * 2011-03-31 2014-08-19 Infosys Limited Methods and systems for mining association rules

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106094744A (zh) * 2016-06-04 2016-11-09 上海大学 基于关联规则挖掘的火电厂主运行参数目标值的确定方法
CN108647808A (zh) * 2018-04-11 2018-10-12 济南大学 一种生产参数优化预测方法、装置、设备及存储介质
CN110163511A (zh) * 2019-05-24 2019-08-23 重庆大学 一种基于关联规则挖掘和模糊决策的制造质量控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王琳 等.基于二进制粒子群优化的卫星典型件工艺知识挖掘.东北大学学报(自然科学版).2015,36(1),全文. *

Also Published As

Publication number Publication date
CN111125082A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN112987666B (zh) 电厂机组运行优化调控方法及系统
CN112801388B (zh) 一种基于非线性时间序列算法的电力负荷预测方法及系统
CN107818409A (zh) 基于模糊关联规则的水泥生产参数及调节区间的优化方法
CN110134719B (zh) 一种结构化数据敏感属性的识别与分类分级方法
CN110597796B (zh) 基于全生命周期的大数据实时建模方法及系统
Yin et al. Dynamic real–time abnormal energy consumption detection and energy efficiency optimization analysis considering uncertainty
CN114169434A (zh) 一种负荷预测方法
CN111125082B (zh) 基于关联规则挖掘的水泥工艺参数数据分析方法
CN109670695B (zh) 基于离群数据挖掘的机械产品加工工序异常并行检测方法
CN103353895A (zh) 一种配电网线损数据的预处理方法
Zhang et al. A density-center-based automatic clustering algorithm for IoT data analysis
Liu et al. Outlier detection data mining of tax based on cluster
CN109670634A (zh) 一种基于非等长粒度化特征的煤气流量数据预测方法
Perez et al. Optimization of the new DS-u control chart: an application of genetic algorithms
CN115905944A (zh) 一种基于语义元数据实现工业检验数据的智能标注方法
CN112306730B (zh) 基于历史项目伪标签生成的缺陷报告严重程度预测方法
CN113946621A (zh) 一种基于关联规则的制丝车间数据波动关系的挖掘方法
Ompusunggu et al. Implementation of Data Mining To Predict the Value of Indonesian Oil and Non-Oil and Gas Import Exports Using the Linear Regression Method
CN112183642A (zh) 一种基于随机森林模型的水泥烧成煤耗检测方法与系统
CN111143436A (zh) 用于大数据的数据挖掘方法
WO2024077876A1 (zh) 一种基于自适应的局部动态焦炭质量预测方法
Kian The Problem of Uninterrupted Hybrid Flow Shop Scheduling with Regard to the Fuzzy Processing Time
CN116108113A (zh) 一种面向电力客户行为分析的异构数据聚类方法
Zhang et al. An Adaptive Parameters Density Cluster Algorithm for Data Cleaning in Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant