CN104298778A - 一种基于关联规则树的轧钢产品质量的预测方法及系统 - Google Patents
一种基于关联规则树的轧钢产品质量的预测方法及系统 Download PDFInfo
- Publication number
- CN104298778A CN104298778A CN201410612383.8A CN201410612383A CN104298778A CN 104298778 A CN104298778 A CN 104298778A CN 201410612383 A CN201410612383 A CN 201410612383A CN 104298778 A CN104298778 A CN 104298778A
- Authority
- CN
- China
- Prior art keywords
- correlation rule
- rule
- steel rolling
- rolling product
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Control Of Metal Rolling (AREA)
Abstract
本发明提供一种基于关联规则树的轧钢产品质量的预测方法及系统,有助于提高规则匹配和质量预测的效率。所述方法包括:对轧钢产品数据进行离散化,将离散化后的结果转化为布尔型数据矩阵,根据该矩阵确定关联规则,根据该关联规则构建关联规则树;将新的轧钢产品数据与所述关联规则树进行匹配,确定该新数据的质量类别。所述系统包括:离散化单元,用于对轧钢产品数据进行离散化;第一确定单元,用于将离散化后的结果转化为布尔型数据矩阵,根据该矩阵确定关联规则;构建单元,用于根据该关联规则构建关联规则树;匹配单元,用于将新的轧钢产品数据与所述关联规则树进行匹配,确定该新数据的质量类别。本发明适用于关联规则挖掘技术领域。
Description
技术领域
本发明涉及关联规则挖掘技术领域,特别是指一种基于关联规则树的轧钢产品质量的预测方法及系统。
背景技术
近年来,力学性能是轧钢产品重要的质量指标之一,轧钢产品的好坏在很大程度上就是指它的力学性能指标是否达到一定标准,因此轧钢产品力学性能的预报在实际应用中具有重要的意义。然而轧钢产品力学性能受到材料成分、组织结构、加工过程等因素的影响,是一个影响因素比较多的量,传统的数学公式很难精确描述,计算精度还有待提高。以人工神经网络为代表的人工智能方法由于很强的非线性逼近能力,已经在轧钢产品质量预报中得到了应用。但由于受技术和经济等诸多因素的限制,得到的数据样本通常是有限的,很容易导致神经网络学习算法过拟合现象。
随着计算机和数据库技术的发展,轧钢工业生产过程中数据收集和存储技术也迅猛发展,使快速存储大量生产数据成为可能,这些数据中蕴含着生产过程的运行规律等对操作决策和优化控制有用的信息,基于数据挖掘技术控制生产过程来指导企业制定管理产品质量的技术决策具有巨大的应用价值,可以为企业创造巨大的经济利益。关联规则挖掘是数据挖掘技术中一个重要的分支,通过关联分析发现数据库中项集之间有趣的关联,并根据大量频繁地同时出现的项来找出其中的蕴藏的规律以制定更好的质量决策方案。
目前,在实际应用中,由大量数据挖掘的关联规则比较复杂,基于关联规则进行质量预测比较繁琐,且当数据量很大时时间复杂度很高,关联规则逐条匹配导致学习效率低下。
发明内容
本发明要解决的技术问题是提供一种基于关联规则树的轧钢产品质量的预测方法及系统,以解决现有技术所存在的进行质量预测时,关联规则逐条匹 配导致学习效率低下的问题。
为解决上述技术问题,本发明实施例提供一种基于关联规则树的轧钢产品质量的预测方法,包括:
对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化;
将所述离散化后的结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵确定关联规则;
根据所述确定的关联规则构建具有分层结构的关联规则树;
将新的轧钢产品数据与所述关联规则树中的节点及分支路径进行匹配,确定所述新的轧钢产品数据的质量类别。
可选地,所述对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化包括:
对轧钢产品数据进行归一化处理;
对归一化处理后的轧钢产品数据进行自适应聚类分析;
根据分析结果确定所述轧钢产品数据的离散化结果。
可选地,所述将所述离散化后的结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵确定关联规则包括:
将所述离散化结果转化为布尔型数据矩阵;
对所述布尔型数据矩阵进行矩阵运算,获得各个项集的支持度计数;
若所述项集的支持度计数大于预先设置的最小支持度阈值的项集,则确定所述项集为频繁项集,并记录所述频繁项集的支持度计数;
将包含输出变量相关项的频繁项集确定为候选的规则项集,并确定所述规则项集中各个规则的置信度,若所述置信度大于预先设置的最小置信度阈值,则确定所述规则为关联规则。
可选地,所述根据所述布尔型数据矩阵确定关联规则之后包括:
确定所述关联规则中各个规则重要度,删除所述关联规则中规则重要度小于0的规则;
删除所述关联规则中的冗余规则。
可选地,所述根据所述确定的关联规则构建具有分层结构的关联规则树包括:
根据所述关联规则生成关联规则的项头表;
将关联规则中的项用所述项头表中对应项的序号表示;
逐条扫描所述关联规则中的规则,将所述规则存储在关联规则树中,当扫 描到所述关联规则中各条规则的最后一项时,在关联规则树的相应层新增一个叶节点,并在所述叶节点中记录这条规则的置信度。
本发明实施例所述的基于关联规则树的轧钢产品质量的预测方法,通过对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化,将所述离散化后的结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵确定关联规则,再根据所述确定的关联规则构建具有分层结构的关联规则树,这样,当需要对新的轧钢产品数据进行质量预测时,本发明实施例将其与所述关联规则树中的节点及分支路径进行匹配,能够快速预测新的轧钢产品数据的质量类别,从而提高了规则匹配和质量预测的效率。
另一方面,本发明实施例提供一种基于关联规则树的轧钢产品质量的预测系统,包括:
离散化单元:用于对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化;
第一确定单元:用于将所述离散化后的结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵确定关联规则;
构建单元:用于根据所述确定的关联规则构建具有分层结构的关联规则树;
匹配单元:用于将新的轧钢产品数据与所述关联规则树中的节点及分支路径进行匹配,确定所述新的轧钢产品数据的质量类别。
可选地,所述离散化单元包括:
归一化模块:用于对轧钢产品数据进行归一化处理;
聚类模块:用于对归一化处理后的轧钢产品数据进行自适应聚类分析;
第一确定模块:用于根据分析结果确定所述轧钢产品数据的离散化结果。
可选地,所述第一确定单元包括:
转化模块:用于将所述离散化结果转化为布尔型数据矩阵;
获取模块:用于对所述布尔型数据矩阵进行矩阵运算,获得各个项集的支持度计数;
第二确定模块:用于当所述项集的支持度计数大于预先设置的最小支持度阈值的项集时,则确定所述项集为频繁项集;
第一记录模块:用于记录所述频繁项集的支持度计数;
第三确定模块:用于将包含输出变量相关项的频繁项集确定为候选的规则项集;
第四确定模块:用于确定所述规则项集中各个规则的置信度;
第五确定模块:用于当所述置信度大于预先设置的最小置信度阈值时,则确定所述规则为关联规则。
可选地,所述系统还包括:
第二确定单元:用于确定所述关联规则中各个规则重要度;
第一删除单元:用于删除所述关联规则中规则重要度小于0的规则;
第二删除单元:用于删除所述关联规则中的冗余规则。
可选地,所述构建单元包括:
生成模块:用于根据所述关联规则生成关联规则的项头表;
表示模块:用于将关联规则中的项用所述项头表中对应项的序号表示;
扫描模块:用于逐条扫描所述关联规则中的规则;
存储模块:用于将所述规则存储在关联规则树中;
增加模块:用于当扫描到所述关联规则中各条规则的最后一项时,在关联规则树的相应层新增一个叶节点;
第二记录模块:在所述叶节点中记录本条规则的置信度。
本发明实施例所述的基于关联规则树的轧钢产品质量的预测系统,通过离散化单元对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化,并通过第一确定单元将所述离散化后的结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵确定关联规则,再通过构建单元根据所述确定的关联规则构建具有分层结构的关联规则树,这样,当需要对新的轧钢产品数据进行质量预测时,本发明实施例通过匹配单元将其与所述关联规则树中的节点及分支路径进行匹配,能够快速预测新的轧钢产品数据的质量类别,从而提高了规则匹配和质量预测的效率。
附图说明
图1为本发明实施例一提供的基于关联规则树的轧钢产品质量的预测方法流程图;
图2为图1中S101的具体实施方法流程图;
图3为本发明实施例提供的轧钢产品数据单个维度聚类结果图;
图4为本发明实施例提供的轧钢产品数据离散化的结果图;
图5为本发明实施例提供的轧钢产品部分关联规则;
图6为本发明实施例提供的根据轧钢产品关联规则得到的项头表;
图7为本发明实施例提供的根据轧钢产品关联规则构建的关联规则树;
图8为本发明实施例二提供的基于关联规则树的轧钢产品质量的预测系统结构示意图;
图9为图8中101的详细结构流程图;
图10为图8中102的详细结构流程图;
图11为图8中103的详细结构流程图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的进行质量预测时,关联规则逐条匹配导致学习效率低下的问题,提供一种基于关联规则树的轧钢产品质量的预测方法及系统。
实施例一
参看图1所示,本发明实施例提供的基于关联规则树的轧钢产品质量的预测方法流程图,包括:
S101:对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化;
S102:将所述离散化后的结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵确定关联规则;
S103:根据所述确定的关联规则构建具有分层结构的关联规则树;
S104:将新的轧钢产品数据与所述关联规则树中的节点及分支路径进行匹配,确定所述新的轧钢产品数据的质量类别。
本发明实施例所述的基于关联规则树的轧钢产品质量的预测方法,通过对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化,将所述离散化后的结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵确定关联规则,再根据所述确定的关联规则构建具有分层结构的关联规则树,这样,当需要对新的轧钢产品数据进行质量预测时,本发明实施例将其与所述关联规则树中的节点及分支路径进行匹配,能够快速预测新的轧钢产品数据的质量类别,从而提高了规则匹配和质量预测的效率。
参看图2所示,在前述基于关联规则树的轧钢产品质量的预测方法的具体实施方式中,可选地,所述对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化(S101)包括:
S1011:对轧钢产品数据进行归一化处理;
S1012:对归一化处理后的轧钢产品数据进行自适应聚类分析;
S1013:根据分析结果确定所述轧钢产品数据的离散化结果。
本发明实施例中,例如,可以先确定轧钢产品质量模型的输入变量及输出变量,其中,所述输入变量及输出变量由轧钢生成工艺过程决定,包括:取板坯准备阶段的15个化学元素、粗轧阶段的r1温度、精轧阶段的f1温度、精轧阶段的f7温度、卷取阶段的钢卷厚度、终轧温度平均值、平均温度及终轧速度等22个变量作为输入变量,输出变量是表征轧钢产品力学性能的屈服度;再对所述输入变量及输出变量采用z分数(z-score)归一化方法进行处理,参看式(1):
式(1)中,xip和xip'分别表示归一化前后第i个数据样本的第p维数据,表示第p维数据的平均值,σ.p表示第p维数据方差的平方根。对所述输入变量及输出变量进行归一化处理能够消除所述输入变量及输出变量之间由于量纲不同造成的影响。
本发明实施例中,例如,可以利用密度的模糊聚类算法对归一化处理后的轧钢产品数据的每一维度单独聚类,获取轧钢产品数据的每一维度的聚类结果,并将每一维度的聚类结果的取值范围区间按照最小值从小到大的顺序进行排序,并按照顺序标号。
本发明实施例中,例如,以轧钢产品数据“氢”这一维度为例说明聚类过程:
A1、首先检查当前维度的数据取值是否有很多重复值,如果有大量重复值,实际取值数较少,则直接将取值相等的样本视为一个聚类则完成聚类,否则继续以下步骤;
A2、给聚类数赋初值,令聚类数等于2;
A3、根据当前的聚类数确定邻域半径取值范围和邻域半径迭代的增量,令当前邻域半径等于邻域半径取值范围的最小值以及在当前聚类数条件下对邻域半径进行lk=1迭代,其中,邻域半径的取值范围用式(2)表示,邻域半径迭代增量定义为式(3):
式(3)中,rmax代表轧钢产品数据样本中相距最远的两个数据样本之间距离的一半,定义为:
式(4)中,d(xip,xjp)=|xip-xjp|,xjp表示第j个样本的第p维数据,这里指“氢”这一维度。
A4、计算“氢”这一维度,统计轧钢产品数据的每个数据样本在邻域半径范围内相邻的数据样本数,所述数据样本数作为该数据样本的密度;首先将邻域半径范围内相邻的数据样本数最多的数据样本视为第一个聚类中心,共有k个聚类中心,按照式(5)选出第i1(i1>1)个聚类中心:
式(5)中,表示聚类数为k且第lk次迭代邻域半径时选出的第i1个聚类中心,表示已经选出的聚类中心集合,表示xjp与S集合中聚类中心的距离之和。
A5、计算其余数据样本对这k个聚类中心的隶属度以及当前聚类结果的模糊聚类有效性指标,所述隶属度表示为式(6):
式(6)中,表示聚类数为k且第lk次迭代邻域半径时第j数据点对第i1个聚类中心的隶属度。
所述模糊聚类有效性指标是PBMF聚类有效性指标,具体定义为式(7):
式(7)中,指在聚类数为k且对邻域半径第lk次进行迭代时的模糊聚类有效性指标。
A6、根据所述邻域半径迭代增量扩大所述当前邻域半径,令Eps=Eps+Δr, 其中表示邻域半径迭代增量,如果Eps<rmax,则令lk=lk+1,根据新的邻域半径返回步骤A4再次聚类。否则按照式(8)计算聚类数为k时的聚类质量指标:
A7、比较当前聚类数的聚类质量指标与前一聚类数的聚类质量指标,如果二者的绝对差值足够小,所述绝对差值用式(9)表示,则说明无需继续增加聚类数,则停止对聚类数的迭代,并根据当前各个模糊聚类有效性指标最大值确定最佳聚类数和聚类中心,跳转到步骤A8。否则令聚类数加一,k=k+1,返回步骤A3;
式(9)中,ε是大于0的极小值。
以轧钢产品数据“氢”这一维度变量为例,当聚类数k=3时满足 因此停止继续对聚类数进行迭代。
将模糊聚类有效性指标达到最大值时对应的聚类数kbest和聚类中心 作为最佳聚类结果, lbest表示当聚类数为kbest时,对邻域半径第lbest次迭代时得到的模糊聚类有效性指标最大。 表示聚类效果最佳时第j个数据样本对第i1个聚类中心的隶属度。
A8、根据最佳聚类数,更新聚类中心和隶属度,直到聚类目标函数值满足|J(m-1)-J(m)|<ε。其中,聚类中心、隶属度更新公式分别为式(10)和式(11):
式(10)中,kbest是指模糊聚类有效性指标达到最大值时的聚类数,表示更新m次后得到的聚类中心,表示更新m-1次后xjp对第i1个聚类的隶属度。聚类目标函数定义为式(12):
A9、如果得到的聚类结果只有两个聚类簇,而且两个聚类簇样本数极不均衡,则需要对其中样本数较多的聚类簇按照以上步骤A1至A8的方法继续进行划分,得到最终的聚类结果。
以轧钢产品数据“氢”这一维度为例,在得到最佳聚类数为3时,继续对当前聚类结果更新12次后得到最终聚类结果。所述聚类结果为3个聚类区间分别是(-0.55708,-0.55709],[0.69406,1.31964],[1.44475,3.19637],按照这三个聚类区间的最小值从小到大的顺序,分别标号为“1、2、3”,所述标号为类标号。
本发明实施例中,例如,以轧钢产品数据“氢”这一维度为例,将原始轧钢产品数据中“氢”这一维度各个数据根据所属取值范围映射为相应的类标号,实现轧钢数据“氢”这一维度的离散化,轧钢产品数据部分维度聚类结果和离散化结果分别如图3、图4所示。本发明实施例通过密度的模糊聚类算法将轧钢产品数据进行离散化,该聚类算法无需人为预先确定聚类数或其他聚类参数,能够自适应地调整邻域半径,计算数据样本的密度,并根据数据样本密度确定聚类中心,从而提高了传统密度聚类算法的自适应性。在未知聚类数的情况下,该聚类算法可以根据所述模糊聚类有效性指标得到最佳聚类数,保证聚类结果的正确性。在得到最佳聚类数的情况下,进一步对聚类中心和隶属度进行更新,有利于优化聚类结果,保证最终聚类结果的正确率。
在前述基于关联规则树的轧钢产品质量的预测方法的具体实施方式中,可选的,所述将所述离散化结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵进行关联规则挖掘包括:
将所述离散化结果转化为布尔型数据矩阵;
对所述布尔型数据矩阵进行矩阵运算,获得各个项集的支持度计数;
若所述项集的支持度计数大于预先设置的最小支持度阈值的项集,则确定所述项集为频繁项集,并记录所述频繁项集的支持度计数;
将包含输出变量相关项的频繁项集确定为候选的规则项集,并确定所述规则项集中各个规则的置信度,若所述置信度大于预先设置的最小置信度阈值,则确定所述规则为关联规则。
本发明实施例中,例如,可以先确定所述布尔型数据矩阵行数和列数,所述布尔型数据矩阵的行数等于轧钢产品数据样本个数,所述布尔型数据矩阵的列数等于轧钢产品数据各个维度的聚类数之和,假设第1维度的聚类数为k1个,则布尔型矩阵每一行第1到第k1列中根据实际轧钢数据第一维度所属类别,只有一列为1,说明轧钢产品数据第一维度属于相应的类别,其余列为0。假设第i(i>1)维度的聚类数为ki个,则矩阵每一行第列至第列只有一列为1,其余列为0,以此将所述离散化结果转化为布尔型数据矩阵Db。其中,所述布尔型矩阵数据每一行代表一个轧钢产品数据样本,每一个行向量中的每一位代表轧钢数据的某一维度的某一类别,即关联规则中的1-项集。行向量中某一位为“1”时说明原轧钢数据的该维度属于其所对应的类别,而该维度其他类别在行向量中所对应的位为“0”。
本发明实施例中,例如,可以根据获得的轧钢产品布尔型数据矩阵,将所述轧钢产品布尔型数据矩阵中所有行向量相加,得到一个新的行向量,该行向量中每一位元素表示各个1-项集的支持度计数,即轧钢产品数据某一维度某一类别的支持度计数。并保留支持度计数大于最小支持度阈值的项集作为频繁1-项集,并将频繁1-项集的支持度计数记录在列表中,以避免多次重复扫描数据库,该列表每一位对应一个项集的支持度计数。其中,记录各个项集支持度计数的列表与项集相匹配的方法是,按照轧钢产品数据的离散化结果转化为布尔型数据矩阵的方法将所述项集转为布尔型向量,然后将这一向量视为二进制数,再转化为十进制数,列表这一位就表示该项集的支持度计数。
进一步的,将频繁1-项集两两相连得到候选2-项集,然后将各候选2-项集转换为布尔型数据向量,即令候选2-项集中出现的变量所属类别对应的行向量位置“1”,其余置“0”,形成与轧钢产品布尔型数据矩阵同长度的行向量。所述布尔型数据向量X与轧钢产品布尔型数据矩阵Db相乘(X×Db)获取k-项集的支持度计数Supp(X),其中,X为k-项集布尔型数据向量,例如,将该2项集的布尔型数据向量X与轧钢产品布尔型数据矩阵Db相乘(X×Db)得到 一个新的行向量,所述新的行向量中等于2的元素个数就是该2-项集的支持度计数,具体的,如果行向量中某一位数值等于项集数,则将该项集的支持度计数加一。在得到各个项集的支持度计数后,保留支持度计数大于最小支持度阈值的项集作为频繁2-项集,并将频繁2-项集的支持度计数记录在列表中。令项集数加一,继续搜索频繁项集,直到当前项集数的频繁项集为空时停止。
本发明实施例中,例如,可以根据获取到的频繁项集,删除不包含输出变量相关项的项集,将包含输出变量相关项的频繁项集作为候选的规则项集,令保留的各个规则项集中输入变量相关项为规则前件,输出变量相关项作为规则后件,根据式(13)计算所述规则项集中各个规则的置信度,例如,某一规则项集的布尔型向量为X,规则前件、规则后件分别为XA和XB,则该项集的支持度计数Supp(X)等于X×Db得到的行向量中等于项集数的元素个数,规则 置信度的公式为式(13):
并保留置信度大于最小置信度阈值的规则作为关联规则挖掘的结果。在计算置信度时,可以直接利用列表中记录的各个项集的支持度计数,而无需再次扫描数据库,而且只计算包含输出变量相关项的项集的置信度,将最终符合最小支持度阈值和最小置信度阈值的项集确定为关联规则,以此来提高算法效率。
在前述基于关联规则树的轧钢产品质量的预测方法的具体实施方式中,可选地,所述根据所述布尔型数据矩阵确定关联规则之后包括:
确定所述关联规则中各个规则重要度,删除所述关联规则中规则重要度小于0的规则;
删除所述关联规则中的冗余规则。
本发明实施例中,为了进一步简化规则库,对所述关联规则进行剪枝,获取最终的关联规则。首先计算所述关联规则中各个规则的重要度,并删除规则重要度小于0的规则,规则重要度表示规则前件与规则后件的相关度,即删除规则前件和规则前件相互独立或者负相关的规则。规则重要度的计算公式为式(14):
本发明实施例中,进一步删除冗余规则,假设两条规则中,一条规则的项 集数较少,其规则前件包含于另一条项集数较多的规则前件中,并且这两规则后件相同。如果项集数较少的规则置信度大于项集数较多的规则置信度,则只保留项集数较少的规则,否则两条规则均保留。例如,规则库中存在两条规则,分别记为 如果满足 且 则删除规则 最终得到的轧钢产品部分关联规则,如图5所示。
在前述基于关联规则树的轧钢产品质量的预测方法的具体实施方式中,可选地,所述根据所述确定的关联规则构建具有分层结构的关联规则树包括:
根据所述关联规则生成关联规则的项头表;
将关联规则中的项用所述项头表中对应项的序号表示;
逐条扫描所述关联规则中的规则,将所述规则存储在关联规则树中,当扫描到所述关联规则中各条规则的最后一项时,在关联规则树的相应层新增一个叶节点,并在所述叶节点中记录这条规则的置信度。
本发明实施例中,为了避免关联规则逐条匹配导致学习效率下降的问题,例如,可以在获得的最终的关联规则的基础上,借鉴频繁模式树结构存储关联规则来构建具有分层结构的关联规则树,需要扫描两遍所述最终的关联规则。第一遍扫描生成关联规则的项头表。项头表分为两个部分,第一部分记录各个输入变量相关项,包括:每个输入变量相关项在关联规则中出现的频数、重要度、该项取值范围最小值、最大值以及宽度。按照各个输入变量相关项在关联规则中频数降序的顺序对各个输入变量相关项排序,如果两个输入变量相关项的频数相等则根据输入变量相关项重要度降序的顺序排序。项头表中第二部分是输出变量相关项,它所处的位置位于输入变量相关项之后,按照其频数降序的顺序进行排序,将所述第一部分及第二部分合并形成最终的项头表,如图6所示。其中,输入变量相关项Ii重要度的计算公式为式(15):
式(15)中,Oj表示输出变量的相关项集,kO表示输出变量的类别数。p(Ii,Oj)表示项集(Ii,Oj)的支持度,p(Ii)和p(Oj)分别表示项Ii和Oj的支持度。
第二遍扫描关联规则时,将关联规则中的各个项用项头表中对应项的序号表示,并按照序号从小到大的顺序对关联规则中的项进行排序,同时,创建规则树的根节点T=null。设rule是其中一条关联规则用[p|P]来表示,p即为rule的第一项,P为rule的剩余项。调用insert-tree([p|P],T)。如果T非空,则遍历T 的孩子节点,看是否存在节点Node,使得Node.name=p。若存在,则无需新增节点;否则建立一个新的节点Node,令Node.name=p。将节点Node的父节点指针指向父节点T,并将相同的节点通过节点链指针链接。如果P非空,则递归地调用insert-tree(P,T)直到规则最后一项。当扫描到某条规则的最后一项(假设为该条规则第i项),在树的相应层(第i层)新增一个叶节点,叶节点中记录这条规则的置信度。
在扫描第一条规则时,由于当前规则树为空,所以第一条规则即为规则树的第一个分支,规则中每项按照顺序成为前一个项的子节点,规则中的第一项成为规则树根节点的子节点。继续扫描下一条规则,首先判断规则树中第一层的节点中是否存在这条规则的第一项,如果有则树中第一层无需新增节点,接着判断规则第一项节点的子节点中是否包含第二项,如果满足,则树中第二层无需新增节点,否则第二层需要新增节点,以此类推直到规则最后一项。由于规则中的每一项按照项头表中的顺序进行排序,因此规则最后一项一定是输出变量相关项。当扫描到某条规则的最后一项(假设为该条规则第i项)时,在树的相应层(第i层)新增一个叶节点,并在叶节点中记录这条规则的置信度。按照这样的方法扫描关联规则中的每一条规则,形成最终的关联规则树,如图7所示。
本发明实施例中,当需要对新的轧钢产品数据进行预测时,将其与所述关联规则树中的节点以及分支路径相匹配,选择与所述轧钢产品数据匹配的多条关联规则中置信度最高的规则所表示的预测类别确定为所述新的轧钢产品数据的质量类别,从而能够快速预测新的轧钢产品的质量类别并保证预测结果的唯一性。具体的包括:首先将所述新的轧钢产品数据按照项头表进行离散化,即如果所述新的轧钢产品数据某一维度取值在项头表中某一项的取值范围之内,则用相应的项头表序号来表示这一维度的数据。然后从关联规则树的根节点开始逐一与离散化后的新的轧钢产品数据进行匹配,如果从根节点开始的某一条路径上的节点与新的轧钢产品数据不匹配,则停止对这条路径的查询,否则一直查询到这条路径的叶节点得出质量类别。如果关联规则树中有多个与新的轧钢产品数据匹配的分支路径,则选择置信度最高的叶节点所表示的预测类别为新的轧钢产品数据的质量类别。
本发明实施例中,例如,当有新的轧钢产品数据x输入时,按照以下步骤预测其质量类别:
首先将新的轧钢产品数据x按照项头表离散化,从关联规则树的根节点开 始,找到根节点指向的子节点Nodeij(j=1,...,ni),其中i=1,ni表示第i层共有ni个节点。接着从子节点i层开始查询每一个子节点中是否存在与x相匹配的节点。如果存在,则沿着该节点的分支路径继续查询第i+1层中是否存在与输入数据相匹配的子节点,直到到达叶节点,如果分支路径中有多个预测类别,选择置信度最高的叶节点所表示的预测类别确定为新的轧钢产品数据的质量类别,这样,通过所述关联规则树进行轧钢产品质量预测,能够提高关联规则匹配的速度和质量预测的效率。
实施例二
本发明还提供一种基于关联规则树的轧钢产品质量预测系统的具体实施方式,由于本发明提供的基于关联规则树的轧钢产品质量预测系统与前述基于关联规则树的轧钢产品质量预测方法的具体实施方式相对应,该基于关联规则树的轧钢产品质量的预测系统可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述对基于关联规则树的轧钢产品质量预测方法的具体实施方式中的解释说明,也适用于本发明提供的基于关联规则树的轧钢产品质量预测系统的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
参看图8所示,本发明实施例二提供的基于关联规则树的轧钢产品质量的预测系统,包括:
离散化单元101:用于对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化;
第一确定单元102:用于将所述离散化后的结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵确定关联规则;
构建单元103:用于根据所述确定的关联规则构建具有分层结构的关联规则树;
匹配单元104:用于将新的轧钢产品数据与所述关联规则树中的节点及分支路径进行匹配,确定所述新的轧钢产品数据的质量类别。
参看图9所示,在前述基于关联规则树的轧钢产品质量的预测系统的具体实施方式中,可选的,所述离散化单元101包括:
归一化模块1011:用于对轧钢产品数据进行归一化处理;
聚类模块1012:用于对归一化处理后的轧钢产品数据进行自适应聚类分析;
第一确定模块1013:用于根据分析结果确定所述轧钢产品数据的离散化 结果。
参看图10所示,在前述基于关联规则树的轧钢产品质量的预测系统的具体实施方式中,可选的,所述第一确定单元102包括:
转化模块1021:用于将所述离散化结果转化为布尔型数据矩阵;
获取模块1022:用于对所述布尔型数据矩阵进行矩阵运算,获得各个项集的支持度计数;
第二确定模块1023:用于当所述项集的支持度计数大于预先设置的最小支持度阈值的项集时,则确定所述项集为频繁项集;
第一记录模块1024:用于记录所述频繁项集的支持度计数;
第三确定模块1025:用于将包含输出变量相关项的频繁项集确定为候选的规则项集;
第四确定模块1026:用于确定所述规则项集中各个规则的置信度;
第五确定模块1027:用于当所述置信度大于预先设置的最小置信度阈值时,则确定所述规则为关联规则。
在前述基于关联规则树的轧钢产品质量的预测系统的具体实施方式中,可选的,所述系统还包括:
第二确定单元:用于确定所述关联规则中各个规则重要度;
第一删除单元:用于删除所述关联规则中规则重要度小于0的规则;
第二删除单元:用于删除所述关联规则中的冗余规则。
参看图11所示,在前述基于关联规则树的轧钢产品质量的预测系统的具体实施方式中,可选的,所述构建单元103包括:
生成模块1031:用于根据所述关联规则生成关联规则的项头表;
表示模块1032:用于将关联规则中的项用所述项头表中对应项的序号表示;
扫描模块1033:用于逐条扫描所述关联规则中的规则;
存储模块1034:用于将所述规则存储在关联规则树中;
增加模块1035:用于当扫描到所述关联规则中各条规则的最后一项时,在关联规则树的相应层新增一个叶节点;
第二记录模块1036:在所述叶节点中记录本条规则的置信度。
本发明实施例所述的基于关联规则树的轧钢产品质量的预测系统,通过离散化单元101对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化,并通过第一确定单元102将所述离散化后的结果转化为布尔型数据矩阵, 根据所述布尔型数据矩阵确定关联规则,再通过构建单元103根据所述确定的关联规则构建具有分层结构的关联规则树,这样,当需要对新的轧钢产品数据进行质量预测时,本发明实施例通过匹配单元104将其与所述关联规则树中的节点及分支路径进行匹配,能够快速预测新的轧钢产品数据的质量类别,从而提高了规则匹配和质量预测的效率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于关联规则树的轧钢产品质量的预测方法,其特征在于,包括:
对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化;
将所述离散化后的结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵确定关联规则;
根据所述确定的关联规则构建具有分层结构的关联规则树;
将新的轧钢产品数据与所述关联规则树中的节点及分支路径进行匹配,确定所述新的轧钢产品数据的质量类别。
2.根据权利要求1所述的基于关联规则树的轧钢产品质量的预测方法,其特征在于,所述对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化包括:
对轧钢产品数据进行归一化处理;
对归一化处理后的轧钢产品数据进行自适应聚类分析;
根据分析结果确定所述轧钢产品数据的离散化结果。
3.根据权利要求1所述的基于关联规则树的轧钢产品质量的预测方法,其特征在于,所述将所述离散化后的结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵确定关联规则包括:
将所述离散化结果转化为布尔型数据矩阵;
对所述布尔型数据矩阵进行矩阵运算,获得各个项集的支持度计数;
若所述项集的支持度计数大于预先设置的最小支持度阈值的项集,则确定所述项集为频繁项集,并记录所述频繁项集的支持度计数;
将包含输出变量相关项的频繁项集确定为候选的规则项集,并确定所述规则项集中各个规则的置信度,若所述置信度大于预先设置的最小置信度阈值,则确定所述规则为关联规则。
4.根据权利要求1所述的基于关联规则树的轧钢产品质量的预测方法,其特征在于,所述根据所述布尔型数据矩阵确定关联规则之后包括:
确定所述关联规则中各个规则重要度,删除所述关联规则中规则重要度小于0的规则;
删除所述关联规则中的冗余规则。
5.根据权利要求4所述的基于关联规则树的轧钢产品质量的预测方法,其特征在于,所述根据所述确定的关联规则构建具有分层结构的关联规则树包括:
根据所述关联规则生成关联规则的项头表;
将关联规则中的项用所述项头表中对应项的序号表示;
逐条扫描所述关联规则中的规则,将所述规则存储在关联规则树中,当扫描到所述关联规则中各条规则的最后一项时,在关联规则树的相应层新增一个叶节点,并在所述叶节点中记录这条规则的置信度。
6.一种基于关联规则树的轧钢产品质量的预测系统,其特征在于,包括:
离散化单元:用于对轧钢产品数据进行归一化处理,并对处理后的数据进行离散化;
第一确定单元:用于将所述离散化后的结果转化为布尔型数据矩阵,根据所述布尔型数据矩阵确定关联规则;
构建单元:用于根据所述确定的关联规则构建具有分层结构的关联规则树;
匹配单元:用于将新的轧钢产品数据与所述关联规则树中的节点及分支路径进行匹配,确定所述新的轧钢产品数据的质量类别。
7.根据权利要求6所述的基于关联规则树的轧钢产品质量的预测系统,其特征在于,所述离散化单元包括:
归一化模块:用于对轧钢产品数据进行归一化处理;
聚类模块:用于对归一化处理后的轧钢产品数据进行自适应聚类分析;
第一确定模块:用于根据分析结果确定所述轧钢产品数据的离散化结果。
8.根据权利要求6所述的基于关联规则树的轧钢产品质量的预测系统,其特征在于,所述第一确定单元包括:
转化模块:用于将所述离散化结果转化为布尔型数据矩阵;
获取模块:用于对所述布尔型数据矩阵进行矩阵运算,获得各个项集的支持度计数;
第二确定模块:用于当所述项集的支持度计数大于预先设置的最小支持度阈值的项集时,则确定所述项集为频繁项集;
第一记录模块:用于记录所述频繁项集的支持度计数;
第三确定模块:用于将包含输出变量相关项的频繁项集确定为候选的规则项集;
第四确定模块:用于确定所述规则项集中各个规则的置信度;
第五确定模块:用于当所述置信度大于预先设置的最小置信度阈值时,则确定所述规则为关联规则。
9.根据权利要求6所述的基于关联规则树的轧钢产品质量的预测系统,其特征在于,还包括:
第二确定单元:用于确定所述关联规则中各个规则重要度;
第一删除单元:用于删除所述关联规则中规则重要度小于0的规则;
第二删除单元:用于删除所述关联规则中的冗余规则。
10.根据权利要求9所述的基于关联规则树的轧钢产品质量的预测系统,其特征在于,所述构建单元包括:
生成模块:用于根据所述关联规则生成关联规则的项头表;
表示模块:用于将关联规则中的项用所述项头表中对应项的序号表示;
扫描模块:用于逐条扫描所述关联规则中的规则;
存储模块:用于将所述规则存储在关联规则树中;
增加模块:用于当扫描到所述关联规则中各条规则的最后一项时,在关联规则树的相应层新增一个叶节点;
第二记录模块:在所述叶节点中记录本条规则的置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410612383.8A CN104298778B (zh) | 2014-11-04 | 2014-11-04 | 一种基于关联规则树的轧钢产品质量的预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410612383.8A CN104298778B (zh) | 2014-11-04 | 2014-11-04 | 一种基于关联规则树的轧钢产品质量的预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104298778A true CN104298778A (zh) | 2015-01-21 |
CN104298778B CN104298778B (zh) | 2017-07-04 |
Family
ID=52318503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410612383.8A Active CN104298778B (zh) | 2014-11-04 | 2014-11-04 | 一种基于关联规则树的轧钢产品质量的预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104298778B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590167A (zh) * | 2015-12-18 | 2016-05-18 | 华北电力科学研究院有限责任公司 | 电场多元运行数据分析方法及装置 |
CN106487540A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 一种规则处理方法和设备 |
CN107291716A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种链路数据校验方法及装置 |
CN107507028A (zh) * | 2017-08-16 | 2017-12-22 | 北京京东尚科信息技术有限公司 | 用户偏好确定方法、装置、设备及存储介质 |
CN108268979A (zh) * | 2018-02-01 | 2018-07-10 | 北京科技大学 | 一种基于演化模糊关联规则的中厚板质量预测方法 |
CN108491660A (zh) * | 2018-04-03 | 2018-09-04 | 天津城建大学 | 复杂型面制造质量知识表示云建模方法 |
CN108717786A (zh) * | 2018-07-17 | 2018-10-30 | 南京航空航天大学 | 一种基于普适性元规则的交通事故致因挖掘方法 |
CN109426720A (zh) * | 2017-09-01 | 2019-03-05 | 北京国双科技有限公司 | 接口参数的验证方法及相关装置 |
CN110968618A (zh) * | 2019-11-07 | 2020-04-07 | 华中科技大学 | 一种挖掘焊接参数量化关联规则的方法及应用 |
CN111667178A (zh) * | 2020-06-07 | 2020-09-15 | 中信银行股份有限公司 | 培训机构教师的评估和推荐方法、装置、电子设备及介质 |
CN111782900A (zh) * | 2020-08-06 | 2020-10-16 | 平安银行股份有限公司 | 异常业务检测方法、装置、电子设备及存储介质 |
CN113094557A (zh) * | 2021-04-02 | 2021-07-09 | 中冶赛迪重庆信息技术有限公司 | 一种轧机数据关联方法及系统 |
CN113342855A (zh) * | 2021-06-24 | 2021-09-03 | 汇付天下有限公司 | 一种基于大数据的数据匹配方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289507A (zh) * | 2011-08-30 | 2011-12-21 | 王洁 | 一种基于滑动窗口的数据流加权频繁模式挖掘方法 |
CN102541935A (zh) * | 2010-12-31 | 2012-07-04 | 北京安码科技有限公司 | 一种新的基于特征向量的中文Web文档表示方法 |
CN103258049A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 一种基于海量数据的关联规则挖掘方法 |
CN103605749A (zh) * | 2013-11-20 | 2014-02-26 | 同济大学 | 一种基于多参数干扰的隐私保护关联规则数据挖掘方法 |
CN103823823A (zh) * | 2013-07-08 | 2014-05-28 | 电子科技大学 | 基于频繁项集挖掘算法的反规范化策略选择方法 |
-
2014
- 2014-11-04 CN CN201410612383.8A patent/CN104298778B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102541935A (zh) * | 2010-12-31 | 2012-07-04 | 北京安码科技有限公司 | 一种新的基于特征向量的中文Web文档表示方法 |
CN102289507A (zh) * | 2011-08-30 | 2011-12-21 | 王洁 | 一种基于滑动窗口的数据流加权频繁模式挖掘方法 |
CN103258049A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 一种基于海量数据的关联规则挖掘方法 |
CN103823823A (zh) * | 2013-07-08 | 2014-05-28 | 电子科技大学 | 基于频繁项集挖掘算法的反规范化策略选择方法 |
CN103605749A (zh) * | 2013-11-20 | 2014-02-26 | 同济大学 | 一种基于多参数干扰的隐私保护关联规则数据挖掘方法 |
Non-Patent Citations (3)
Title |
---|
WANG LING. ET AL.: "《Feature Selection Based on Fuzzy Clustering Analysis and》", 《PROCEEDINGS OF THE 33RD CHINESE CONTROL CONFERENCE》 * |
何月顺: "《关联规则挖掘技术的研究及应用》", 《中国博士学位论文全文数据库 信息科技辑》 * |
裴古英: "《一种基于布尔矩阵的关联规则快速挖掘算法》", 《自动化与仪器仪表》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106487540A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 一种规则处理方法和设备 |
CN106487540B (zh) * | 2015-08-25 | 2019-07-30 | 阿里巴巴集团控股有限公司 | 一种规则处理方法和设备 |
CN105590167A (zh) * | 2015-12-18 | 2016-05-18 | 华北电力科学研究院有限责任公司 | 电场多元运行数据分析方法及装置 |
CN107291716A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种链路数据校验方法及装置 |
CN107507028A (zh) * | 2017-08-16 | 2017-12-22 | 北京京东尚科信息技术有限公司 | 用户偏好确定方法、装置、设备及存储介质 |
CN109426720A (zh) * | 2017-09-01 | 2019-03-05 | 北京国双科技有限公司 | 接口参数的验证方法及相关装置 |
CN108268979A (zh) * | 2018-02-01 | 2018-07-10 | 北京科技大学 | 一种基于演化模糊关联规则的中厚板质量预测方法 |
CN108268979B (zh) * | 2018-02-01 | 2021-11-19 | 北京科技大学 | 一种基于演化模糊关联规则的中厚板质量预测方法 |
CN108491660A (zh) * | 2018-04-03 | 2018-09-04 | 天津城建大学 | 复杂型面制造质量知识表示云建模方法 |
CN108717786A (zh) * | 2018-07-17 | 2018-10-30 | 南京航空航天大学 | 一种基于普适性元规则的交通事故致因挖掘方法 |
CN110968618A (zh) * | 2019-11-07 | 2020-04-07 | 华中科技大学 | 一种挖掘焊接参数量化关联规则的方法及应用 |
CN110968618B (zh) * | 2019-11-07 | 2023-04-11 | 华中科技大学 | 一种挖掘焊接参数量化关联规则的方法及应用 |
CN111667178A (zh) * | 2020-06-07 | 2020-09-15 | 中信银行股份有限公司 | 培训机构教师的评估和推荐方法、装置、电子设备及介质 |
CN111667178B (zh) * | 2020-06-07 | 2023-10-20 | 中信银行股份有限公司 | 培训机构教师的评估和推荐方法、装置、电子设备及介质 |
CN111782900A (zh) * | 2020-08-06 | 2020-10-16 | 平安银行股份有限公司 | 异常业务检测方法、装置、电子设备及存储介质 |
CN111782900B (zh) * | 2020-08-06 | 2024-03-19 | 平安银行股份有限公司 | 异常业务检测方法、装置、电子设备及存储介质 |
CN113094557A (zh) * | 2021-04-02 | 2021-07-09 | 中冶赛迪重庆信息技术有限公司 | 一种轧机数据关联方法及系统 |
CN113094557B (zh) * | 2021-04-02 | 2023-04-21 | 中冶赛迪信息技术(重庆)有限公司 | 一种轧机数据关联方法及系统 |
CN113342855A (zh) * | 2021-06-24 | 2021-09-03 | 汇付天下有限公司 | 一种基于大数据的数据匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104298778B (zh) | 2017-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104298778A (zh) | 一种基于关联规则树的轧钢产品质量的预测方法及系统 | |
Aydilek et al. | A novel hybrid approach to estimating missing values in databases using k-nearest neighbors and neural networks | |
CN108320171A (zh) | 热销商品预测方法、系统及装置 | |
Pan et al. | Clustering of designers based on building information modeling event logs | |
CN113779264B (zh) | 基于专利供需知识图谱的交易推荐方法 | |
CN109214449A (zh) | 一种电网投资需求预测方法 | |
Mu et al. | Multi-objective ant colony optimization algorithm based on decomposition for community detection in complex networks | |
CN115545758B (zh) | 城市服务设施自适应增量选址的方法和系统 | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN107944594A (zh) | 一种基于spss与rkelm微网短期负荷预测方法 | |
CN116108984A (zh) | 基于流量-poi因果关系推理的城市流量预测方法 | |
CN105205052A (zh) | 一种数据挖掘方法及装置 | |
CN103455612A (zh) | 基于两阶段策略的非重叠与重叠网络社区检测方法 | |
CN116089595A (zh) | 基于科技成果的数据处理推送方法、装置及介质 | |
Lee et al. | Dynamic BIM component recommendation method based on probabilistic matrix factorization and grey model | |
Gong et al. | Evolutionary computation in China: A literature survey | |
CN115310355A (zh) | 考虑多能耦合的综合能源系统多元负荷预测方法及系统 | |
Han et al. | DeepRouting: A deep neural network approach for ticket routing in expert network | |
CN104217296A (zh) | 一种上市公司绩效综合评价方法 | |
CN104376116A (zh) | 一种人物信息的搜索方法及装置 | |
Singh et al. | An effort to developing the knowledge base in data mining by factor analysis and soft computing methodology | |
Wang | SVR short-term traffic flow forecasting model based on spatial-temporal feature selection | |
CN114943019A (zh) | 一种基于双层权重网络随机游走的top k非重叠多样化社区发现方法 | |
CN116502132A (zh) | 账号集合识别方法、装置、设备、介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |