CN111125082B

CN111125082B - 基于关联规则挖掘的水泥工艺参数数据分析方法

Info

Publication number: CN111125082B
Application number: CN201911366888.XA
Authority: CN
Inventors: 李世昕; 高红雨; 苏航; 李小青
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-09-22
Anticipated expiration: 2039-12-26
Also published as: CN111125082A

Abstract

本发明公开了一种基于关联规则挖掘的水泥工艺参数数据分析方法，输入为水泥厂一段时间生产线上的数据数值以及每步工序下每个工艺参数的判断矩阵数值，输出为水泥工艺的某个特定参数的关联模式。本发明的主要思想是利用基于领域的数据清洗方法和改进的K‑means聚类算法来提高数据的离散化精度，通过计算每个工艺参数的权值，对特定参数进行关联模式的挖掘，得到潜在的关联模式。具体步骤如下：1)将水泥工艺参数原始数据进行基于领域的数据清洗；2)将清洗后的数据进行离散化处理，利用得到的不同类别对应区间数据来代替原数据；3)将离散后的数据输入到数据分析模型中，并按照输入的目标参数进行该参数的关联模式挖掘，输出关联模式。

Description

基于关联规则挖掘的水泥工艺参数数据分析方法

技术领域

本发明涉及计算机应用和信息处理领域，特别涉及一种基于关联规则挖掘的水泥工艺参数数据分析方法。

背景技术

流程工业是我国国民经济重要的组成部分。但随着流程工业的发展,我国流程工业的效益却普遍不佳，主要表现出能耗高和成本高、生产率低和资源利用率低的显著特点。典型流程工业产品的生产会经过许多的工序，每个工序会持续记录大量的工艺参数数据，这些工艺参数数据与能耗及最后产品的质量之间有着复杂又密切的联系，因此流程工业生产过程中的工艺参数数据具有重要的研究价值。

数据挖掘可以通过相关算法对上述的数据进行实时的分析处理，通过挖掘数据中隐藏的相关性，得到潜在的模式，来帮助决策者调整市场策略，减少风险，做出正确的决策。水泥是国民经济的基础原材料，当前针对水泥工艺参数处理的数据挖掘方法主要是传统的关联规则分析算法，这种方法对于水泥生产的数据分析十分有限，只能针对水泥生产的某一方面来进行分析，并且算法的时间效率和数据的离散化精度较低，无法有效的对水泥工艺参数数据进行综合分析。为了具有更强的数据分析能力和更高的时间效率，本发明提出一种适用于水泥工艺参数的计算机应用的数据分析技术。本发明与传统的水泥数据分析方法不同之处在于四个方面：本发明所述方法是基于领域知识的数据清洗方法，为水泥数据属性划分合理区间并清除异常值；本发明所述方法利用了领域专家给出的最优值，进一步清洗边缘数据，提高了数据精度；本发明所述方法利用了改进的动态聚类方法对工业数据进行离散化；本发明所述方法利用了引入“工序权值”参数的特殊关联算法挖掘出特定参数的关联模式。

发明内容

为了提高对水泥参数数据的分析能力，本发明提出一种基于关联规则挖掘的水泥工艺参数数据分析方法。该方法首先将水泥原始数据用领域规则清洗，然后提取到本地数据中心再用改进的K-means算法进行聚类以划分数据，下一步计算水泥生产每道工序下的每个参数的权值，将权值作为关联算法的限制参数之一对已经过划分的数据进行挖掘，最后按照置信度从高到低将挖掘出来的关联模式顺序输出。

为了实现本发明的目的，采用的技术方案概述如下：

一种基于关联规则挖掘的水泥工艺参数数据分析方法，其特征在于：输入为某水泥厂一段时间生产线上的数据数值以及每步工序下每个工艺参数的判断矩阵数值，输出为水泥工艺的某个特定参数的关联模式，包括以下步骤：

(1)将从水泥厂取出的水泥工艺参数原始数据提取到本地，再进行特定的数据清洗，去掉一些影响水泥数据高集中性和理论上极度不合理的数值；

(2)将清洗后的数据进行离散化处理，利用得到的不同类别对应区间数据来代替原数据用以描述水泥工艺参数属性，为后续的关联规则挖掘提供有效的输入；

(3)将水泥离散后的数据、每步工序下每个工艺参数的判断矩阵数值、算法需要参数输入到数据分析模型中，并按照输入的目标参数进行该参数的关联模式挖掘。

所述步骤(1)，具体包括以下步骤：

(1-1)获取水泥工艺参数原始数据时，计算数据中每个属性的最大值、最小值、平均值和中位数；

(1-2)输入水泥工艺参数数据每个属性的合理区间范围和区间内最好的点，即合理的最大值、最小值和最优值；

(1-3)去掉水泥数据每个属性合理区间外的所有数据，并判断该属性的平均值和中位数是否与最优值相差10％以内，若没有达到要求，则对此属性的极值点数据再次进行删减，直到达到要求为止。

所述步骤(2)，具体包括以下步骤：

(2-1)输入清洗后的水泥工艺参数数据集D，聚类簇数k。对于每个样本点计算起样本分布密度，并计算最小样本密度阈值，将不小于阈值的样本点存入集合X_，小于阈值的离群样本点存入Y_；

(2-2)在数据集X_中划分初始聚类中心域，并选取每个域中样本分布密度最大的样本点；

(2-3)将(2-2)产生的聚类中心作为传统K-means的初始聚类中心，完成聚类；

(2-4)计算隔离群样本点和K-means聚类后的簇中心之间的距离，将其划分到最近的簇中。最后输出簇C＝{C1,C2,…,Ck}。

所述步骤(3)，具体包括以下步骤：

(3-1)输入每步工序下每个工艺参数的判断矩阵数值，并用层次分析法计算每个参数在全局中的权值；

(3-2)输入水泥离散后的数据和待挖掘的特定参数，并使用“置信度-支持度-权值”的改进关联算法挖掘并输出特定参数的关联模式。

本方法的实施环境为Windows10操作系统，装有java1.8编译器。

与现有技术相比，本发明具有以下特点：

(1)本发明所提出的方法是基于领域知识的数据清洗方法，为属性划分合理区间并清除异常值，再利用领域专家给出的最优值，进一步清洗边缘数据，提高数据精度，而现有的数据清洗方法只能进行简单的缺失值和异常值清洗，无法提高数据精度，数据的稳定性会很差，具体表现在标准差的大小上；

(2)本发明所提出的改进的动态聚类方法对工业数据进行离散化，相较于现有传统聚类方法能够进一步的提高数据精度；

(3)本发明所提出的引入“工序权值”参数的关联算法可以将无关参数进行筛选，避免了挖掘时间过长、挖掘结果与所需结果无关的问题，而现有的关联算法并不能自动的帅选合适的关联模式。

附图说明

图1是本发明方法实现的总体流程图；

图2是本发明方法的数据精度与传统方法的对比图；

图3是本发明的特殊关联算法部分流程图。

图4是本发明方法具体步骤简图。

具体实施方式

本发明提出了一种基于关联规则挖掘的水泥数据分析方法，能将某个特定参数的关联模式快速且准确的挖掘出来。

下面结合具体实施对本发明提出的水泥参数数据分析方法进行详细描述。本方法的工作流程如图1所示：

1)数据准备:将从工厂取出的水泥生产过程参数原始数据提取和存储到本地的数据库中。

2)数据预处理：对提取和存储到本地数据库的数据进行基于领域规则的数据清洗，再将处理后的数据用改进的聚类算法进行离散化，从连续型数值变为离散型数值，得到离散数据。

3)关联规则分析：在得到离散数据的基础上，对这些数据用特殊的Apriori算法进行数据的关联规则分析，得到一些关联模式。

本发明的数据精度与传统方法的对比图如图2所示：

其中橙色的线表示经过传统的清洗方法之后数据的标准差，蓝色表示经过基于领域的清洗方法之后数据的标准差,由图2可知，基于水泥数据特点改进的离散化方法的标准差要明显低于传统的离散化方法的标准差，前者数据更加稳定和集中。

本发明的特殊关联算法部分如图3所示：

该算法是一种逐层搜索的迭代方法，它通过搜索产生“频繁1-项目集”，然后在此基础上生成所有的频繁项目集，最后从频繁项目集中找出符合条件的关联规则。从整个算法过程来看，是一种连接和剪枝，以保证后续结果也是频繁的。但是由于传统的Apriori算法仅仅使用了支持度和置信度两个阈值进行规则筛选，挖掘得到的规则很多都是没有意义的，并且在数据量大的情况下，消耗的时间也会更多。本发明在传统的Apriori算法中，引入了“工序权值”的概念，形成了改进的Apriori算法。

综上，本发明提出一种适用于水泥生产的基于关联算法的水泥参数数据分析技术。基于流程工业数据的特点，对水泥的原始数据进行清洗和离散化，得到划分后的高精度的水泥参数数据，并用基于“置信度-支持度-工序权值”的特殊关联算法进行特定参数的关联模式挖掘。该方法能提高挖掘效率，得到传统方法所得不到的关联模式，并应用于水泥的生产和环境的治理。

上文所列出的一系列详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用于限制本发明的保护范围，凡是未脱离发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于关联规则挖掘的水泥工艺参数数据分析方法，其特征在于：输入为水泥厂一段时间生产线上的数据数值以及每步工序下每个工艺参数的判断矩阵数值，输出为水泥工艺的某个特定参数的关联模式，包括以下步骤：

(1)将从水泥厂取出的水泥工艺参数原始数据提取到本地，再进行数据清洗，去掉影响水泥数据高集中性和理论上不合理的数值；

(3)将水泥离散后的数据、每步工序下每个工艺参数的判断矩阵数值、算法需要参数输入到数据分析模型中，并按照输入的目标参数进行该参数的关联模式挖掘；所述步骤(3)包括以下步骤：

(3-2)输入水泥离散后的数据和待挖掘的特定参数，并使用“置信度-支持度-权值”的改进关联算法挖掘并输出特定参数的关联模式；

计算水泥生产每道工序下的每个参数的权值，将权值作为关联算法的限制参数之一对已经过划分的数据进行挖掘，最后按照置信度从高到低将挖掘出来的关联模式顺序输出。

2.根据权利要求1所述的一种基于关联规则挖掘的水泥工艺参数数据分析方法，其特征在于：所述步骤(1)，具体包括以下步骤：

(1-1)获取水泥工艺参数原始数据并提取到本地时，计算数据中每个属性的最大值、最小值、平均值和中位数；

3.根据权利要求1所述的一种基于关联规则挖掘的水泥工艺参数数据分析方法，其特征在于：所述步骤(2)，具体包括以下步骤：

(2-1)输入清洗后的水泥工艺参数数据集D，聚类簇数k；对于每个样本点计算起样本分布密度，并计算最小样本密度阈值，将不小于阈值的样本点存入集合X_，小于阈值的离群样本点存入Y_；

(2-4)计算隔离群样本点和K-means聚类后的簇中心之间的距离，将其划分到最近的簇中，最后输出簇C＝{C1,C2,…,Ck}。

4.根据权利要求1所述的一种基于关联规则挖掘的水泥工艺参数数据分析方法，其特征在于：本方法的实施环境为Windows10操作系统，装有java1.8编译器。