CN113946621A

CN113946621A - 一种基于关联规则的制丝车间数据波动关系的挖掘方法

Info

Publication number: CN113946621A
Application number: CN202111286338.4A
Authority: CN
Inventors: 施成娟; 阴艳超; 张万达; 张曦; 汪霖宇
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-01-18

Abstract

本发明提供一种基于关联规则的制丝车间数据波动关系的挖掘方法，属于数据挖掘领域。针对制丝工艺参数间波动关系难以描述的问题，本发明借助关联规则充分挖掘不同变量间的波动关系。依托数据离散化设计面向制丝数据关联规则挖掘的数据预处理方法，将制丝数据转换成蕴含原始数据信息的波动数据；进一步利用关联规则原理来设计待挖掘数据的波动规则公式。本发明充分挖掘了不同工艺参数间的波动规则，提高了规则的可解释性和关联结果的准确性，可以准确判断制丝车间各工艺参数之间是否存在波动关系，有利于制丝车间工艺参数的统计与管理，便于制丝产品质量出现问题时可通过调节工艺参数来优化工艺过程。

Description

一种基于关联规则的制丝车间数据波动关系的挖掘方法

技术领域

本发明涉及一种基于关联规则的制丝车间数据波动关系的挖掘方法，属于数据挖掘领域。

背景技术

随着云计算、大数据、物联网、人工智能等信息技术的快速发展和传统产业数字化的转型，我们进入了数据爆炸式增长即大数据的时代。对于制丝数据类似的时序数据挖掘是当今时代的研究热点。但传统方法在时序数据方面挖掘数据要素间的波动关系上略显不足，不能准确判断制丝车间各工艺参数之间是否存在波动关系，而在工业大数据中要素间的变动关系是其中数据挖掘的重要环节。

发明内容

本申请的目的是提供一种基于关联规则的制丝车间数据波动关系的挖掘方法，针对现有技术中制丝车间中各工艺参数间波动关系难以准确直观的描述问题，通过利用关联规则来充分挖掘制丝车间中工艺参数的波动规则，并且所挖掘的规则可解释性强，有效解决了现有方法满足不了制丝车间时序数据关联挖掘分析需求的问题。

本申请实现上述目的的技术方案主要是提供一种基于关联规则的制丝车间数据波动关系的挖掘方法，包括以下步骤：

步骤(1)：根据需要确定波动关系的工艺参数，获取相应的制丝数据，根据各个工艺参数数据的最大波动来进行离散化处理得到待挖掘数据；

步骤(2)：根据待挖掘数据间的波动情况，将工艺参数间的波动细分成四种类型：正向低波动幅度-正负向高波动幅度；正向高波动幅度-正负向强烈波动幅度；负向低波动幅度-正负向高波动幅度；负向高波动幅度-正负向强烈波动幅度；

步骤(3)：设计基于制丝数据和数据波动类型的支持度计算公式，确定工艺参数中的频繁项集；

步骤(4)：设计基于制丝数据和数据波动类型的置信度计算公式；

步骤(5)：根据支持度及置信度的公式计算出的结果和设定的最小支持度阈值和最小置信度阈值，判断所述工艺参数间是否存在波动关系。

具体地，步骤(1)中进行离散化处理的具体步骤包括：

步骤(1.1)：遍历获取到的每一个制丝数据所有时刻的数值与其前一时刻数值的差值，以差值中绝对值最大值作为基准划分成若干等份；

步骤(1.2)：按照各差值的绝对值在各等份区间的划分重新进行赋值，在同一个区间内的数据值相同，具体为：将各等份区间依次顺序的赋予数值，第一个区间内的所有值都为1，第二个区间内的所有值都为2，以此类推；

步骤(1.3)：若制丝数据某一时刻的数值相对于前一个时刻增加，则在重新赋值的数据前添加“+”；若相对于前一时刻减小，则在重新赋值的数据前添加“-”；对制丝数据某一时刻的数值大小相对于前一时刻相同，则全部重新赋值为“0”。

具体地，步骤(2)的具体步骤为：

分析两个参数之间波动关系，只有在某一时刻其中一个参数发生变化同时引发另一个参数发生有效变化的波动关系才能作为关联规则中的波动关系规则；

参数A和参数B的划分区间都为α时，在β时刻参数A的数值为X，参数B的数值为Y：

①当

时，

即当β时刻参数A的正波动幅度较小时引发参数B的正负波动幅度较大；

②当

时，(X≤Y≤α)∩(-α≤Y≤-X),即当β时刻参数A的正波动幅度较大时引发参数B更强烈的正负波动；

③当

时，

即当β时刻参数A的负波动幅度较小时引发参数B的正负波动幅度较大；

④当

时，

即当β时刻参数A的负波动幅度较大时引发参数B更强烈的正负波动。

具体地，步骤(3)中设计的的工艺参数间支持度计算公式如下：

S(A,B)＝s(AB)+s(BA)

其中：

S(A,B)表示制丝车间参数A和参数B的总支持度，s(AB)表示挖掘二阶频繁项集将参数A与对应的某一时刻中的数据进行频繁项挖掘，分别得出以参数A为波动基准，参数A和参数B的支持度，同理，s(BA)则表示挖掘二阶频繁项集将参数B与对应的某一时刻中的数据进行频繁项挖掘，分别得出以参数B为波动基准时，参数A与参数B的支持度。

表示参数A的正波动幅度较小时引发参数B的正负波动幅度较大时的支持度，其他依次类推。

具体地，步骤(4)中设计的工艺参数间置信度计算公式如下：

其中C(A-＞B)表示参数A指向参数B的总置信度，

表示参数A的正波动幅度较小时引发参数B的正负波动幅度较大时的置信度，其他依次类推；N表示满足四种波动情况下参数A的所有类别数值。

具体地，步骤(5)中所得到的参数间波动结果如下：

步骤(5.1)对步骤(1)中需要确定波动关系的每一个工艺参数设定支持度最小阈值和置信度的最小阈值，对于每一个工艺参数，当由支持度公式计算出的数值高于设定的支持度最小阈值时，则这一工艺参数为频繁项；

步骤(5.2)所有得到的频繁项构成频繁项集；

步骤(5.3)从频繁项集中提取两两频繁项利用置信度公式计算置信度，当计算出的结果高于设定的最小置信度阈值时，则该两两工艺参数间具有高置信度波动规则。

本发明的有益效果是：

1、通过数据离散化处理后利用关联规则和不同波动类型挖掘出制丝数据间的波动关联规则。

2、基于制丝车间数据设计支持度和置信度公式，排除了要素间无关联规则和波动强度低的规则同时提高了规则的可解释行以及关联结果的准确性。

3、制丝产品质量出现问题时可通过调节工艺参数来优化工艺过程。

附图说明

图1是本发明所述的一种基于关联规则的制丝车间数据波动关系的挖掘方法的流程图。

图2是本发明所述的制丝部分数据展示；

图3是本发明所述的经离散化后的制丝部分数据展示；

图4是本发明所述的一种基于关联规则的制丝车间数据波动关系的挖掘方法与其他方法的对比测试结果图。

具体实施方式

下面将结合附图和实施例对本发明进一步说明，但本发明的内容并不限于所属范围。

实施例1：如图1-4所示，一种基于关联规则的制丝车间数据波动关系的挖掘方法，主要包括以下步骤：

步骤(3)：设计基于制丝数据和数据波动类型的支持度计算公式，由于工艺参数间的波动是相对的，即参数A对参数B和参数B对参数A的波动情况不同，设计支持度公式来确定工艺参数中的频繁项集；

进一步地，步骤(1)中进行离散化处理的具体步骤包括：

步骤(1.1)：制丝数据属于时序数据，制造生产中涉及工艺众多，在本申请中以比例掺配和加香工艺为例举对象，如图2所示，其中涉及11道加工参数和1道质量指标。加工参数比例掺配中的梗丝瞬时掺配比例、梗丝瞬时配比精度、气流丝瞬时掺配比例、气流丝瞬时配比精度、薄板丝累计量、梗丝累计量及气流丝累计量和加香中的加香累计量、物料累计量、瞬时加香比例及瞬时加香精度；质量指标为加香中的出料含水率。以梗丝瞬时掺配比例为例，遍历每一个制丝数据所有时刻的数值与其前一时刻数值的差值，以差值中绝对值最大值为基准划分成若干等份，即根据具体分析的问题进行等份分组，在实施案例中以差值中绝对值最大值为基准划分成10个等份。

步骤(1.2)：按照各差值的绝对值在各等份区间的划分重新进行赋值，在同一个区间内的数据值相同，具体为：将各等份区间依次顺序的赋予数值，即第一个区间内的所有值都为1，第二个区间内的所有值都为2，以此类推。

步骤(1.3)：若所述制丝数据某一时刻的数值相对于前一个时刻增加，则在重新赋值的数据前添加“+”；若相对于前一时刻减小，则在重新赋值的数据前添加“-”；对所述制丝数据某一时刻的数值大小相对于前一时刻相同，则全部重新赋值为“0”，最后离散化结果如图3所示。

进一步地，步骤(2)的具体步骤为：

①当

时，

②当

③当

时，

④当

时，

进一步地，步骤(3)中设计的的工艺参数间支持度计算公式如下：

S(A,B)＝s(AB)+s(BA)

其中：

表示参数A的正波动幅度较小时引发参数B的正负波动幅度较大时的支持度度，其他依次类推。具体而言，所述挖掘方法限制最大频繁项阶数为2阶，即限制参数网络挖掘阶数为2，即计算每两个参数之间的支持度与置信度。

进一步地，步骤(4)中设计的工艺参数间置信度计算公式如下：

其中C(A-＞B)表示参数A指向参数B的总置信度，

进一步地，步骤(5)中所得到的参数间波动结果如下：

步骤(5.2)所有得到的频繁项构成频繁项集；

参见图4，为本发明所述的一种制丝数据的关联规则挖掘方法的对比测试结果图。将本申请提供的关联规则挖掘方法与传统关联规则算法FP-growth算法及Apriori算法进行对比，将本申请的挖掘方法命名为UNDULA算法，各算法的参数设置如下：

(1)UNDULA：S_min＝5％(其中S_(AB)min＝2.5％,S_(BA)min＝2.5％)，C_min＝75％；

(2)Apriori：S_min＝5％，C_min＝75％；

(3)FP-growth：S_min＝5％，C_min＝75％；

其中，S_min表示最小支持度阈值，C_min表示最小置信度阈值，S_(AB)min表示以参数A为数据间的波动基准，参数A和参数B的最小支持度阈值，S_(BA)min表示以参数A为数据间的波动基准，参数A和参数B的最小支持度阈值。

在相同条件下，采用包含10000条数据的数据库，取S_min＝5％，C_min＝75％对计算出的关联规则进行过滤，由图4可知，在较小规模数据下集中算法挖掘结果三种算法挖掘出的规则数量大致相同，但随着数据规模的增加，UNDULA算法与其余两种算法相比，在相同参数，能够得到较多可解释的关联规则。

本发明充分挖掘了不同工艺参数间的波动规则，提高了规则的可解释性和关联结果的准确性，可以准确判断制丝车间各工艺参数之间是否存在波动关系，有利于制丝车间工艺参数的统计与管理，便于制丝产品质量出现问题时可通过调节工艺参数来优化工艺过程。

上面结合附图对本发明的具体实施方式作了详细说明，上述实施例只是本发明的一个实例，并不是用来限制本发明的实施与权利范围，凡与本发明权利要求所述内容相同或等同的技术方案，均应包括在本发明保护范围内。

Claims

1.一种基于关联规则的制丝车间数据波动关系的挖掘方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于关联规则的制丝车间数据波动关系的挖掘方法，其特征在于：步骤(1)中进行离散化处理的具体步骤包括：

3.根据权利要求1所述的基于关联规则的制丝车间数据波动关系的挖掘方法，其特征在于：步骤(2)的具体步骤为：

①当

时，

②当

③当

时，

④当

时，

4.根据权利要求3所述的基于关联规则的制丝车间数据波动关系的挖掘方法，其特征在于，步骤(3)中设计的的工艺参数间支持度计算公式如下：

S(A,B)＝s(AB)+s(BA)

其中：

S(A,B)表示制丝车间参数A和参数B的总支持度，s(AB)表示挖掘二阶频繁项集将参数A与对应的某一时刻中的数据进行频繁项挖掘，分别得出以参数A为波动基准，参数A和参数B的支持度，同理，s(BA)则表示挖掘二阶频繁项集将参数B与对应的某一时刻中的数据进行频繁项挖掘，分别得出以参数B为波动基准时，参数A与参数B的支持度，

5.根据权利要求3所述的基于关联规则的制丝车间数据波动关系的挖掘方法，其特征在于，步骤(4)中设计的工艺参数间置信度计算公式如下：

其中C(A-＞B)表示参数A指向参数B的总置信度，

6.根据权利要求1所述的基于关联规则的制丝车间数据波动关系的挖掘方法，其特征在于，步骤(5)中所得到的参数间波动结果如下：

步骤(5.2)所有得到的频繁项构成频繁项集；