CN110309200A - 改进的产品质量异常数据FP-Growth关联分析方法 - Google Patents
改进的产品质量异常数据FP-Growth关联分析方法 Download PDFInfo
- Publication number
- CN110309200A CN110309200A CN201910557028.8A CN201910557028A CN110309200A CN 110309200 A CN110309200 A CN 110309200A CN 201910557028 A CN201910557028 A CN 201910557028A CN 110309200 A CN110309200 A CN 110309200A
- Authority
- CN
- China
- Prior art keywords
- data
- item
- list
- frequent
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 15
- 238000012097 association analysis method Methods 0.000 title claims abstract description 8
- 238000004519 manufacturing process Methods 0.000 claims abstract description 22
- 238000005065 mining Methods 0.000 claims abstract description 15
- 238000012098 association analyses Methods 0.000 claims abstract description 14
- 238000003780 insertion Methods 0.000 claims abstract description 3
- 230000037431 insertion Effects 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000009412 basement excavation Methods 0.000 claims description 13
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000007418 data mining Methods 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000013499 data model Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000002265 prevention Effects 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims 1
- 230000002547 anomalous effect Effects 0.000 abstract 1
- 239000000047 product Substances 0.000 description 19
- 238000005457 optimization Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于工业大数据技术领域,具体是一种改进的产品质量异常数据FP‑Growth关联分析方法。本发明主要内容包括:产品质量异常数据关联分析,对产品生产质量与生产过程数据执行多因素关联分析,基于多因素关联分析算法挖掘得到一系列关联规则,从中发现质量数据中某些指标的潜在问题,方便定位造成产品质量异常影响的因素;FP‑Tree数据结构改进,即在FP‑Tree频繁项头表的基础上新增字段tail_Link,记录每一个数据项当前的最后一个节点,以避免插入新节点时的重复遍历链表操作,提高FP‑Tree建树效率;FP‑Growth关联算法并行化策略的改进,对每个事务集组并行执行FP‑Growth算法挖掘频繁模式,打破原有“先建树,后并行”的模式,提高并行化执行中各个节点的计算效率。
Description
技术领域
本发明属于工业大数据技术领域,具体涉及产品质量异常数据FP-Growth关联分析方法。
背景技术
我们生活的“大数据时代”,是在信息化时代基础上升级衍变而来的智能化时代。“大数据时代”不再局限于信息共享,而是更加关注于信息的智能化应用。在这个时代,数据已经不是社会生产中无价值的“副产物”了;相反,数据已经成为一种可再生,并且价值巨大的生产资料。海量的数据蕴含了海量的信息,隐藏着巨大的价值,通过对数据的分析挖掘,不仅可以对现存现象进行描述和深度解释,甚至还能预测未来。大数据已经深入到人们生活的方方面面,赋予人们的生活更多的智能性和便利性。
多数大型制造企业已经陆续实现了生产的自动化与信息化建设,并在生产制造过程中积累了海量的生产数据,但是这些珍贵的生产数据却没有得到充分的利用。产品的各个环节的生产过程数据与质量检测数据缺乏深入的数据分析与数据挖掘。由于制造大数据蕴含了价值巨大的产品制造与设备运行信息,通过对制造大数据的分析挖掘能够定位质量问题源头、优化工艺流程等。
本发明充分利用制造企业各个生产环节的多源异构数据,选用FP-Growth关联分析算法[1][2]进行产品质量异常数据关联规则挖掘,并对该方法进行FP-Tree数据结构的改进和并行化策略的改进,对生产过程中所产生的产品质量不合格品数据进行追溯分析,为制造企业提供精准的质量异常数据追溯分析方法,实践证明本发明方法能够面向产品质量大数据实现较精确的质量缺陷影响因素关联分析,并且对比传统方法计算效率有较明显的提升。
发明内容
本发明的目的在于提供一种计算效率高的针对质量异常数据追溯分析的FP-Growth关联分析方法,帮助企业高效追溯不合格产品的质量问题环节和可能的生产影响因素。
本发明提供的改进的产品质量异常数据FP-Growth关联分析方法,首先,使用企业制造执行MES系统中的产品工序生产数据、外观检测/X光检测/动平衡检测数据数据构建的质量分析数据模型,经过数据清洗、属性特征抽签、连续性数据离散化等数据预处理形成质量分析数据集;统计分析加工设备、操作人员、毛坯(原材料)、生产工艺参数与产品质量合格率之间的单因素影响关系;然后,对产品生产质量与生产过程数据执行多因素关联分析,基于FP-Growth算法的多因素关联分析挖掘得到一系列关联规则,参见图1。挖掘得到一系列类似A->B的关联规则,其中A代表特征取值集合,B代表产品质量检测结果。由于工业产品质量数据分析情境下,总体平均不合格率偏低,即使生产环节存在问题,产品不合格率也是偏低的。为了防止关联分析模型因为不合格率太低而过滤掉某些重要的关联规则,基于FP-Growth算法的多因素关联分析能够通过调整关联分析的支持度与置信度来尽量使挖掘到的关联规则涵盖与产品质量异常的所有相关特征指标,提升关联分析模型的数据挖掘能力。
本发明提出的改进的产品质量异常数据FP-Growth关联分析方法,包括对FP-Tree数据结构的改进、对并行化策略的改进等;具体地,通过给FP-Tree中的频繁项头表数据结构增加一个新的字段,构建新的FP-Tree数据结构;根据Spark的提供的更多类型的操作对并行化策略进行改进,实现各节点负载相对均衡的、效率更高的关联规则挖掘并行化计算。
本发明提出的产品质量异常数据FP-Growth关联分析改进方法,具体包括两个方面:
(1)关于FP-Growth算法中FP-Tree数据结构的改进
FP-Growth算法作为非剪枝算法的代表,被广泛应用于挖掘事务数据集;但它对数据集的计算和规模很敏感;在算法运行过程中,需要利用FP-Tree构造算法生成一个包含完整频繁项信息的FP树,其中FP树的频繁项头表具有 2 个属性:item-Name和next_Node;next_Node指向FP树中当前节点的下一个节点;在此过程中,要循环调用insert_tree()算法插入新的树节点,其中有一个步骤就会利用到频繁项头表这一数据结构,把FP树中的每个与项头表具有相同名称的项进行连接;每次执行上述过程时都需要回到项头表的同名头结点,然后从头结点开始遍历,直至最后一个同名节点的域,再把新的节点插入最后一个节点后,进入项头表结构中;可以看出,在构建FP-tree时,项头表这一数据结构的模型会直接影响到 FP-Growth 算法的性能,当数据集的水平或垂直维度较大时,挖掘效率会降低甚至失败;
(2)关于FP-Growth算法并行化策略改进
传统的FP-Growth并行化策略是选择一个节点当做主节点,在这个主节点上构建匹配数据集的FP-Tree,然后在树的每一个分支上进行并行化频繁模式挖掘;这样做虽然逻辑上清晰,但造成的后果就是,主节点负载压力过大,虽然基于大数据框架能够在一定时间内得到输出结果,不过这个时间很显然是可以被缩短的;由于Spark提供了比MapReduce更多类型更方便的操作,所以能够利用这些操作实现每个节点都能相对均衡、效率更高的关联规则挖掘并行化算法。
所述FP-Tree数据结构改进,具体流程为:
频繁项头表的改进在主要体现在一个新增的属性tail_Link,项头表的主键不变,还是项目名称item_Name。新增属性用于记录每一个数据项当前的最后一个节点。通过这种新的频繁项头表数据结构,执行insert_tree()算法在项头表插入新节点时,就可以避免遍历当前节点的链表使算法效率不佳,直接通过tail_Link属性找到表尾进行新节点的插入即可。参见图2。
FP-Growth算法数据结构改进的核心代码如附件1所示。
引入优化后的频繁项头表后,新的FP-Tree构造算法如下:
FP-Tree(D, minsup)
输入:原始事务集D,最小支持度minsup;
输出:事务集D的FP-Tree;
(1)扫描事务集D,对频繁项的集合F及其支持度进行计算。按照支持度降序的方式整理集合F,获得频繁项头表H;
(2)新建一个FP-Tree的根结点R,用null表示;
(3)对D中的事务进行Trans操作:
按照H中的次序对Trans 中的频繁项进行相应的排序,频繁项表用记作[p|P],第一个元素用p表示,剩余元素的表用P表示。随后执行函数insert_tree([p|P], R)。
执行函数insert_tree([p|P],T)的具体流程为:
(a)假如T的子节点N,满足N.item-name = p.item-name,那么,N的计数相应增加1;
(b)假如T的子节点N,不满足N.item-name = p.item-name,则对新结点N进行创建,将其计数设置1,并和其父结点T进行链接,在与它同名的频繁项头表的tail_Link属性中找到当前最末节点,添加此新节点N,并设新节点N为新的tail_Link;
(c)如果P非空,递归地调用函数insert_tree(P, N)。
利用上述优化后的FP-Tree数据结构,建树过程的效率明显提升。
所述并行化策略改进,具体流程如下。
(1)将原始事务集分布到RDD中。由于Spark的并行计算是以RDD为基础,所以,首先把原始事务集转存在RDD上,并用Trans来表示。
(2)并行计算频繁1-项集。通过两组flapMap和reduceByKey操作获得item_list数据集,该数据集记录了原始事务集中存在的所有项和其对应的支持度,形如<项,项的支持度计数>。另外,还要对item_list执行collect、toArray两个操作,该数据集就能够以list数据结构集合的方式存在,同时,对以上所有项的支持度计数进行降序排序,并将支持度不满足minsup的项删除,得到F_list集合;参见图4。
(3)数据分组;在数据分组前,首先映射F_list中的每一项得到新的集合F_map,该集合记录F_list每个频繁1-项集的位置,便于后续操作,其中项名就是F_map中的key值,该项在F_list中的位置就是F_map中的value值;
利用F_map重新编码事务集Trans,并按照降序的顺序对编号进行排列,同时,将无法变为序号的非频繁项删除,获得集合Trans_list;该数据集的形式为<Tran_list,value>,Tran_list作为key以List[int]的数据结构存储了重新编码并排序后的每条事务,value值不变,依旧表示当前事务出现的次数;通过Trans_list,能够确保并行化执行的频繁模式挖掘不会出现遗漏或者重复的情况;
接着将F_map分组,组的个数为gnum,用唯一的组号标识每个事务组,itemGroup_list表示分组的结果;然后是对Trans_list集合的分组,分组策略是按照上述得到的itemGroup_list将含有对应事务项的所有事务划分到相应的组中,需要对其中的每个Tran_list从末端开始向首部进行遍历,计算每个Tran_list[i]/g_size的值,即为当前事务所属的组号groupId,需要注意的是,如果当前得到的组号已经在之前的循环中出现,意味着当前事务已被分配到相应的组中,为了防止事务的划分冗余,需要跳出当前循环,继续往前遍历,计算下个groupId;如果得到的组号第一次出现,那么就需要把当前的事务先截取i及其之前的片段后分配到该组中,得到集合Group_list,该RDD存储了所有的组号groupId和当前组号下的所有事务及出现次数,即<组号groupId, List(<事务k划分到该组的部分,事务k出现次数>,……)>;参见图5。
(4)并行化频繁模式挖掘;对于Group_list中的每个分组,要经过flatMap操作,执行fp_growth()函数挖掘各个分组的频繁模式,包括以下三步:建树、单路径处理和频繁模式递归挖掘;其中:
建树过程采用如下的策略进行剪枝:对于所有小组FP-Tree中存在的项集,如果其存在频繁1-项集达不到minsup的要求,则以其为前缀的后续节点的支持度在该路径下必然不能够满足minsup的要求,需要剪去这部分路径,通过这样的方式,能够减少算法挖掘的次数,而且不会影响挖掘结果;
单路径处理分为两种情况,递归挖掘前和递归挖掘中,处理方法是single_branch();在递归挖掘前,single_branch()的group参数是某一组的全部项集,该参数保证了只对本组的频繁模式进行挖掘,预防挖掘冗余频繁模式的情况发生;递归挖掘中的single_branch() 参数group接受为空,这样,就能挖掘出当前条件模式树中的所有频繁模式集;
如果FP-Tree中不存在单路径,则执行频繁模式递归挖掘;该过程只是对当前组包含的项进行遍历,通过这样的方式,挖掘也就只能够在当前组中进行,得到的频繁模式也只属于当前组,不会发生有多组挖出同个频繁模式的情况。
(5)聚合;在流程(4)的挖掘过程中,获得了频繁模式的数据集preResult,不过由于在数据分组中利用F_map把事务集都重新编码成序号的形式,所以preResult并不是最终结果形式,需要再次利用F_map把序号映射回具体的项名,得到可用的频繁模式freResult;此时,频繁模式仍然处于不规则分布的状态,把模式长度相同的频繁项集分别进行聚集,得到更加符合习惯的最终结果;参见图6。
附图说明
图1为产品质量异常数据影响因素关联分析流程图。
图2为FP-Tree数据结构优化图。
图3为并行化策略改进方法整体流程图。
图4为并行计算频繁1-项集流程图。
图5为数据分组流程图。
图6为频繁模式聚集流程图。
具体实施方式
下面结合实施实例对本发明做进一步详细阐述。
1、FP-Growth算法中FP-Tree数据结构的改进:在执行FP-Tree构造算法时,利用优化的项头表,避免了繁琐的循环遍历操作,具体按附件2的代码执行。
2、FP-Growth算法并行化策略的改进:
第二步,首先通过flatMap转换,事务集中的每条事务被转换成<key, value>形式,其中key表示事务,value的值设为1,在此基础上,运用reduceByKey操作,把key值相同所有元素的value值进行求和,获得按照<事务list,事务出现的次数>的格式存储的数据集,命名为Trans;再次利用flatMap,把 Trans的key分割形成<项, 事务出现的次数>的数据分片,随后运用reduceByKey转换,把相同key值对应的value求和,获得item_list数据集。
第三步Group_list的获取中,利用flapMap操作,把Trans_list中的每个Tran_list根据上述方法进行截取和组号groupId的计算,处理完毕后,再经过groupByKey转换,将分配在同一个groupId下的事务集合起来,得到集合Group_list。
第四步中按照长度聚集模式是通过map来实现的,执行map操作后会得到形如<长度为k的频繁模式,频繁模式支持度>的结果。
附件1,FP-Growth算法数据结构改进的核心代码。
public class HeadTable{
private String item_Name;//数据项名称
private Node next_Node;//项头表中的下一个同名节点
private Node tail_Link;//该项头表中的最后一个同名节点位置
}//优化后的项头表
附件2, FP-Tree构造算法时的执行代码:
if (HeadTable.tail_Link == null)
then
HeadTable.next_Node = 新节点;
HeadTable.tail_Link = 新节点;
else
HeadTable.tail_Link.next_Node = 新节点;
HeadTable.tail_Link = 新节点。
参考文献
[1] Jiawei Han, Jian Pei, Yiwen Yin. Mining frequent patterns withoutcandidate generation[M]. ACM SIGMOD Record, 2000, 29(2):1-12.
[2] Hao J, He M. A Parallel FP-Growth Algorithm Based on GPU[C]. IEEE,International Conference on E-Business Engineering. IEEE Computer Society,2017, 97-102.。
Claims (2)
1.一种改进的产品质量异常数据FP-Growth关联分析方法,首先,使用企业制造执行MES系统中的产品工序生产数据、外观检测/X光检测/动平衡检测数据数据构建的质量分析数据模型,经过数据清洗、属性特征抽签、连续性数据离散化等数据预处理形成质量分析数据集;统计分析加工设备、操作人员、毛坯、生产工艺参数与产品质量合格率之间的单因素影响关系;然后,对产品生产质量与生产过程数据执行多因素关联分析,基于FP-Growth算法的多因素关联分析挖掘得到一系列关联规则;基于FP-Growth算法的多因素关联分析能够通过调整关联分析的支持度与置信度来尽量使挖掘到的关联规则涵盖与产品质量异常的所有相关特征指标,提升关联分析模型的数据挖掘能力;其特征在于,对FP-Tree数据结构的改进,即通过给FP-Tree中的频繁项头表数据结构增加一个新的字段,构建新的FP-Tree数据结构;改进的具体流程如下:
对频繁项头表新增属性tail_Link,项头表的主键不变,还是项目名称item_Name;新增属性用于记录每一个数据项当前的最后一个节点;根据这种新的频繁项头表数据结构,执行insert_tree()算法在项头表插入新节点时,可以避免遍历当前节点的链表使算法效率不佳,直接通过tail_Link属性找到表尾进行新节点的插入;
引入改进的频繁项头表后,新的FP-Tree构造算法如下:
FP-Tree(D, minsup)
输入:原始事务集D,最小支持度minsup;
输出:事务集D的FP-Tree;
(1)扫描事务集D,对频繁项的集合F及其支持度进行计算;按照支持度降序的方式整理集合F,获得频繁项头表H;
(2)新建一个FP-Tree的根结点R,用null表示;
(3)对D中的事务进行Trans操作:
按照H中的次序对Trans 中的频繁项进行相应的排序,频繁项表用记作[p|P],第一个元素用p表示,剩余元素的表用P表示;随后执行函数insert_tree([p|P], R);
执行函数insert_tree([p|P],T)的具体流程为:
(a)假如T的子节点N,满足N.item-name = p.item-name,那么,N的计数相应增加1;
(b)假如T的子节点N,不满足N.item-name = p.item-name,则对新结点N进行创建,将其计数设置1,并和其父结点T进行链接,在与它同名的频繁项头表的tail_Link属性中找到当前最末节点,添加此新节点N,并设新节点N为新的tail_Link;
(c)如果P非空,递归地调用函数insert_tree(P, N)。
2.根据权利要求1所述的改进的产品质量异常数据FP-Growth关联分析方法,其特征在于,还包括对并行化策略的改进,即根据Spark的提供的更多类型的操作对并行化策略进行改进,实现各节点负载相对均衡的、效率更高的关联规则挖掘并行化计算;并行化策略改进的具体流程为:
(1)将原始事务集分布到RDD中;Spark的并行计算以RDD为基础;首先把原始事务集转存在RDD上,并用Trans来表示;
(2)并行计算频繁1-项集;通过两组flapMap和reduceByKey操作获得item_list数据集,该数据集记录了原始事务集中存在的所有项和其对应的支持度,形式为<项,项的支持度计数>;另外,对item_list执行collect、toArray两个操作,该数据集就能够以list数据结构集合的方式存在,同时,对以上所有项的支持度计数进行降序排序,并将支持度不满足minsup的项删除,得到F_list集合;
(3)数据分组;在数据分组前,首先映射F_list中的每一项得到新的集合F_map,该集合记录F_list每个频繁1-项集的位置,便于后续操作,其中项名就是F_map中的key值,该项在F_list中的位置就是F_map中的value值;
利用F_map重新编码事务集Trans,并按照降序的顺序对编号进行排列,同时,将无法变为序号的非频繁项删除,获得集合Trans_list;该数据集的形式为<Tran_list,value>,Tran_list作为key以List[int]的数据结构存储了重新编码并排序后的每条事务,value值不变,依旧表示当前事务出现的次数;通过Trans_list,确保并行化执行的频繁模式挖掘不会出现遗漏或者重复的情况;
接着将F_map分组,组的个数为gnum,用唯一的组号标识每个事务组,itemGroup_list表示分组的结果;然后是对Trans_list集合的分组,分组策略是按照上述得到的itemGroup_list将含有对应事务项的所有事务划分到相应的组中,对其中的每个Tran_list从末端开始向首部进行遍历,计算每个Tran_list[i]/g_size的值,即为当前事务所属的组号groupId;如果当前得到的组号已经在之前的循环中出现,意味着当前事务已被分配到相应的组中,为了防止事务的划分冗余,需要跳出当前循环,继续往前遍历,计算下个groupId;如果得到的组号第一次出现,那么把当前的事务先截取i及其之前的片段后分配到该组中,得到集合Group_list,该RDD存储了所有的组号groupId和当前组号下的所有事务及出现次数,即<组号groupId, List(<事务k划分到该组的部分,事务k出现次数>,……)>;
(4)并行化频繁模式挖掘;对于Group_list中的每个分组,经过flatMap操作,执行fp_growth()函数挖掘各个分组的频繁模式,包括以下三步:建树、单路径处理和频繁模式递归挖掘;其中:
建树过程采用如下的策略进行剪枝:对于所有小组FP-Tree中存在的项集,如果其存在频繁1-项集达不到minsup的要求,则以其为前缀的后续节点的支持度在该路径下不能够满足minsup的要求,剪去这部分路径;
单路径处理分为两种情况:递归挖掘前和递归挖掘中,处理方法是single_branch();在递归挖掘前,single_branch()的group参数是某一组的全部项集,该参数保证只对本组的频繁模式进行挖掘,预防挖掘冗余频繁模式的情况发生;递归挖掘中的single_branch() 参数group接受为空,这样,挖掘出当前条件模式树中的所有频繁模式集;
如果FP-Tree中不存在单路径,则执行频繁模式递归挖掘;该过程只对当前组包含的项进行遍历,通过这样的方式,使挖掘只在当前组中进行,得到的频繁模式也只属于当前组;
(5)聚合;在流程(4)的挖掘过程中,获得了频繁模式的数据集preResult;再次利用F_map把序号映射回具体的项名,得到可用的频繁模式freResult;最后把模式长度相同的频繁项集分别进行聚集,得到更加符合习惯的最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910557028.8A CN110309200A (zh) | 2019-06-26 | 2019-06-26 | 改进的产品质量异常数据FP-Growth关联分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910557028.8A CN110309200A (zh) | 2019-06-26 | 2019-06-26 | 改进的产品质量异常数据FP-Growth关联分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110309200A true CN110309200A (zh) | 2019-10-08 |
Family
ID=68076143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910557028.8A Pending CN110309200A (zh) | 2019-06-26 | 2019-06-26 | 改进的产品质量异常数据FP-Growth关联分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309200A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461912A (zh) * | 2020-03-18 | 2020-07-28 | 南昌大学 | 一种基于过程构成要素的制造工艺指令规范化方法 |
CN112667827A (zh) * | 2020-12-23 | 2021-04-16 | 北京奇艺世纪科技有限公司 | 一种数据异常分析方法、装置、电子设备及存储介质 |
CN112784899A (zh) * | 2021-01-20 | 2021-05-11 | 中国电力科学研究院有限公司 | 变电运维知识频繁模式挖掘方法、装置、设备及存储介质 |
CN112800101A (zh) * | 2019-11-13 | 2021-05-14 | 中国信托登记有限责任公司 | 一种基于FP-growth算法异常行为检测方法及应用该方法的模型 |
CN113239127A (zh) * | 2021-05-13 | 2021-08-10 | 北方工业大学 | 科技服务关联网络的构建、依赖关系的识别方法及计算机产品 |
CN113546426A (zh) * | 2021-07-21 | 2021-10-26 | 西安理工大学 | 一种针对游戏业务中数据访问事件的安全策略生成方法 |
CN113971542A (zh) * | 2021-10-27 | 2022-01-25 | 福建华鼎智造技术有限公司 | 一种结合EIQ-ABC和FP-growth的钢材存储布局方法 |
CN114444986A (zh) * | 2022-04-11 | 2022-05-06 | 成都数之联科技股份有限公司 | 产品分析方法及系统及装置及介质 |
CN114598527A (zh) * | 2022-03-08 | 2022-06-07 | 江苏大学 | 一种基于最大频繁模式非相似性的异常网络流量检测方法 |
CN118132326A (zh) * | 2024-05-07 | 2024-06-04 | 国网信通亿力科技有限责任公司 | 基于智能增强数据分析的多源异构数据分析方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1924734A (zh) * | 2006-03-23 | 2007-03-07 | 浙江工业大学 | 一种在线质量检测的控制方法 |
CN103258049A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 一种基于海量数据的关联规则挖掘方法 |
CN106570128A (zh) * | 2016-11-03 | 2017-04-19 | 南京邮电大学 | 一种基于关联规则分析的挖掘算法 |
CN106650225A (zh) * | 2016-10-25 | 2017-05-10 | 康美药业股份有限公司 | 基于fp增长算法模型的中药配方数据挖掘方法及系统 |
CN109471877A (zh) * | 2018-11-01 | 2019-03-15 | 中南大学 | 面向流数据的增量式时态频繁模式并行挖掘方法 |
-
2019
- 2019-06-26 CN CN201910557028.8A patent/CN110309200A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1924734A (zh) * | 2006-03-23 | 2007-03-07 | 浙江工业大学 | 一种在线质量检测的控制方法 |
CN103258049A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 一种基于海量数据的关联规则挖掘方法 |
CN106650225A (zh) * | 2016-10-25 | 2017-05-10 | 康美药业股份有限公司 | 基于fp增长算法模型的中药配方数据挖掘方法及系统 |
CN106570128A (zh) * | 2016-11-03 | 2017-04-19 | 南京邮电大学 | 一种基于关联规则分析的挖掘算法 |
CN109471877A (zh) * | 2018-11-01 | 2019-03-15 | 中南大学 | 面向流数据的增量式时态频繁模式并行挖掘方法 |
Non-Patent Citations (2)
Title |
---|
李敏波,丁铎,易泳: "基于FP-Growth改进算法的轮胎质量数据分析", 《中国机械工程》 * |
罗卓雅: "基于Spark的并行化FP-Growth算法研究与应用", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800101A (zh) * | 2019-11-13 | 2021-05-14 | 中国信托登记有限责任公司 | 一种基于FP-growth算法异常行为检测方法及应用该方法的模型 |
CN111461912A (zh) * | 2020-03-18 | 2020-07-28 | 南昌大学 | 一种基于过程构成要素的制造工艺指令规范化方法 |
CN112667827A (zh) * | 2020-12-23 | 2021-04-16 | 北京奇艺世纪科技有限公司 | 一种数据异常分析方法、装置、电子设备及存储介质 |
CN112784899A (zh) * | 2021-01-20 | 2021-05-11 | 中国电力科学研究院有限公司 | 变电运维知识频繁模式挖掘方法、装置、设备及存储介质 |
CN113239127A (zh) * | 2021-05-13 | 2021-08-10 | 北方工业大学 | 科技服务关联网络的构建、依赖关系的识别方法及计算机产品 |
CN113239127B (zh) * | 2021-05-13 | 2024-02-09 | 北方工业大学 | 科技服务关联网络的构建、依赖关系的识别方法及计算机产品 |
CN113546426B (zh) * | 2021-07-21 | 2023-08-22 | 西安理工大学 | 一种针对游戏业务中数据访问事件的安全策略生成方法 |
CN113546426A (zh) * | 2021-07-21 | 2021-10-26 | 西安理工大学 | 一种针对游戏业务中数据访问事件的安全策略生成方法 |
CN113971542A (zh) * | 2021-10-27 | 2022-01-25 | 福建华鼎智造技术有限公司 | 一种结合EIQ-ABC和FP-growth的钢材存储布局方法 |
CN114598527A (zh) * | 2022-03-08 | 2022-06-07 | 江苏大学 | 一种基于最大频繁模式非相似性的异常网络流量检测方法 |
CN114598527B (zh) * | 2022-03-08 | 2024-05-28 | 江苏大学 | 一种基于最大频繁模式非相似性的异常网络流量检测方法 |
CN114444986B (zh) * | 2022-04-11 | 2022-06-03 | 成都数之联科技股份有限公司 | 产品分析方法及系统及装置及介质 |
CN114444986A (zh) * | 2022-04-11 | 2022-05-06 | 成都数之联科技股份有限公司 | 产品分析方法及系统及装置及介质 |
CN118132326A (zh) * | 2024-05-07 | 2024-06-04 | 国网信通亿力科技有限责任公司 | 基于智能增强数据分析的多源异构数据分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309200A (zh) | 改进的产品质量异常数据FP-Growth关联分析方法 | |
CN110300963B (zh) | 大规模数据储存库中的数据管理系统 | |
CN103676645B (zh) | 一种时间序列数据流中的关联规则的挖掘方法 | |
CN103258049A (zh) | 一种基于海量数据的关联规则挖掘方法 | |
CN101606149B (zh) | 用于数据的分类过滤的方法 | |
CN105404637B (zh) | 数据挖掘方法和装置 | |
CN110147387A (zh) | 一种根因分析方法、装置、设备及存储介质 | |
CN109189736A (zh) | 一种告警关联规则的生成方法和装置 | |
CN110471917B (zh) | 一种基于历史数据挖掘的海关报关单智能填报方法 | |
CN104731925A (zh) | 基于MapReduce的FP-Growth的负载均衡并行计算方法 | |
CN114579409A (zh) | 告警方法、装置、设备及存储介质 | |
CN104834557A (zh) | 一种基于Hadoop的数据分析方法 | |
CN106203631A (zh) | 描述型多维度事件序列的并行频繁情节挖掘方法与系统 | |
Ghesmoune et al. | Micro-batching growing neural gas for clustering data streams using spark streaming | |
CN109582714A (zh) | 一种基于时间衰减关联的政务事项数据处理方法 | |
Lipski Jr et al. | Finding the contour of a union of iso-oriented rectangies | |
CN115203290A (zh) | 一种基于多维prefixspan算法的故障诊断方法 | |
Gan et al. | CoUPM: Correlated utility-based pattern mining | |
CN116911671A (zh) | 一种数据资产运营效能评估方法及系统 | |
CN117010697A (zh) | 一种基于人工智能的可视化企业风险评估方法 | |
Lin et al. | Mining high-utility sequential patterns from big datasets | |
CN104834734A (zh) | 一种高效数据分析处理方法 | |
Hu et al. | An incremental rare association rule mining approach with a life cycle tree structure considering time-sensitive data | |
CN104834733A (zh) | 一种大数据挖掘分析方法 | |
CN114780074A (zh) | 一种用于实现大数据分析的信息计算系统及构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191008 |
|
WD01 | Invention patent application deemed withdrawn after publication |