CN105224616A - 一种基于时间序列的apriori算法改进方法 - Google Patents

一种基于时间序列的apriori算法改进方法 Download PDF

Info

Publication number
CN105224616A
CN105224616A CN201510595061.1A CN201510595061A CN105224616A CN 105224616 A CN105224616 A CN 105224616A CN 201510595061 A CN201510595061 A CN 201510595061A CN 105224616 A CN105224616 A CN 105224616A
Authority
CN
China
Prior art keywords
fault
time series
item collection
collection
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510595061.1A
Other languages
English (en)
Inventor
于晓晨
郝伟
王宁
娄海凤
宋增璞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201510595061.1A priority Critical patent/CN105224616A/zh
Publication of CN105224616A publication Critical patent/CN105224616A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于时间序列的APRIORI算法改进方法,Apriori算法改进方法用于关联规则的挖掘,旨在解决基于时间序列的关联规则挖掘问题。(1)对基于一定时间间隔划分的事务集进行去重;(2)同一事务中重复项的主动、被动处理;(3)频繁项集频数统计方法改进。(4)AprioriAppri算法的storm分布式改造。本发明的使用能够有效避免因以一定时间间隔抽取事务时,重复抽取某些事务所带来的重复性统计,保证了频繁事务、频繁项集的唯一性和准确性;基于时间序列,将频繁项集中的项间关系区分为主动诱发与被动诱发,很好的体现了项间的先后诱发顺序。

Description

一种基于时间序列的APRIORI算法改进方法
技术领域
本发明具体地说是一种基于时间序列的APRIORI算法改进方法。
背景技术
频繁模式挖掘,搜索给定数据集中反复出现的联系,频繁模式挖掘的最初、最常用的形式就是得到关联规则,找出关联规则中实体间的相关性。
在频繁模式挖掘中,最常用的算法有Apriori算法、HotSpot关联规则、FP-Tree关联规则和灰色关联法等。设备件故障的相关性和诱发情况分析,与购物篮分析应用具有相似的分析目标,通过频繁项集的搜索,能够挖掘出不同设备件故障的关联情况,通过支持度和置信度的度量,揭示不同设备件故障发生是否有关联,关联的方式及强度等。但现有的关联规则算法忽略了时间、重复元素项对频繁项集的影响,从而影响频繁项集的界定、产生,最终得到无实际业务意义的关联规则。
随着数据量的不断增加,计算效率也是普遍被关注的问题。Storm分布式计算就是用来改进传统计算方法的有效工具。
Storm的核心数据结构是元组。元组是一个简单的命名值列表(键-值对),流是一个无界元组序列。如果你熟悉复杂事件处理(CEP),你可以把Storm元组看作是事件。Spout是storm拓扑的主要数据入口点。Spout像适配器一样连接到一个源的数据,将数据转换为元组,发然后发射出一连串的元组。Storm提供了一个简单的API实现Spout。开发一个Spout主要是编写代码从原始源或API消费数据。主要的数据来源包括:web网站或移动应用程序的点击流;Twitter或其他社交网络输入;传感器输出;应用程序日志事件。
因为Spout通常不实现任何特定的业务逻辑,他们常常可以被多个拓扑重用。Bolts可以被认为是运算操作或函数。它可以任意数量的流作为输入,处理数据,并可选地发出一个或多个流。Bolt可以从Spout或其他bolt订阅流,使它可以形成一个复杂的网络流的转换。像SpoutAPI一样,Bolts可以执行任何形式的处理,而且bolt的接口简单直接。典型的Bolt执行的功能包括:过滤元组;连接和聚合;计算和数据库读/写。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于时间序列的APRIORI算法改进方法,基于时间序列的相关性分析问题提供通用的解决方案,将时间序列事务通过一定的时间间隔来划分,对获取的频繁项集进行去重,并对支持度和置信度进行优化改造。通过Storm分布式计算方法的设计,保证了大数据量故障数据计算的效率。
本发明的技术方案是按以下方式实现的,基于时间序列的Apriori算法改进避免了以时间序列为基准抽取出的重复事务及频繁项,优化了支持度及置信度的计算方法,并以storm分布式改造来计算故障间的相关性,提高了关联规则的质量和运算效率;
故障数据是按一定的时间序列发生并记录下来的,为了分析设备故障发生的相关性,应对故障数据进行划分;经过对以时间为单位划分故障数据及以故障为单位划分方法有确定的优劣对比,确定以一定的时间间隔为标准,对故障数据进行截取;
设定一定的时间间隔区间,以第一个设备故障信息为起点,获取第一个故障序列;
从下一个设备故障数据开始,到规定的时间范围内,生成第二个故障序列;
按照上述方法,获取故障样本数据中的所有故障序列;
扫描所获得的故障序列库,获取所有1-项集,并计算所有一项集的频数,以此获取可能的2-项集;扫描设备故障数据,得到所有2-项集;
确定2-项集的个数及种类,区分(A,B)和(B,A),根据设备故障的时间标识,去除重复的二项集;
计算2-项集的支持度,计算满足最小支持度的2-项集的置信度;需要注意的是,支持度及置信度需以优化后的公式进行计算,其中,N(A)及N(B)分别表示包含A或B的所有2-项集的个数,而不是A或B的1-项集的数目;
将满足所设定的最小置信度的二项集输出,并结合业务作出相应的解释;
Apriori算法的storm分布式改造主要用于大数据量的故障信息的相关性,诱发分析计算需要耗费大量的时间,造成用户长时间的等待,通过分布式改造将相关性计算写在一个拓扑类里面,并且在拓扑类里面定义好程序运行时候的各个spout;bolt节点以及他们的并行度,从而可以让多个机器同时并行执行相关性诱发性分析计算,最后将计算结果汇总,从而大幅度的挺高了运行效率,提高了用户的体验;将拓扑类运行在storm集群环境中,然后通过远程drpc调用获得返回的计算结果,最后将结果汇总。
本发明的优点是:
(一)避免因以一定时间间隔抽取事务时,重复抽取某些事务所带来的重复性统计,保证了频繁事务、频繁项集的唯一性和准确性。
(二)基于时间序列,将频繁项集中的项间关系区分为主动诱发与被动诱发,很好的体现了项间的先后诱发顺序。
(三)频繁项集的优化统计方法,使特定项集(如二项集、三项集等)都在相同的维度进行统计,得到更科学、更精确的满足支持度和置信度的关联规则。
(四)Storm分布式计算方法使大规模故障数据分析有很好的效率保证。
附图说明
图1为Apriori算法改进流程图。
实施方式
下面结合附图对本发明的一种基于时间序列的APRIORI算法改进方法作以下详细说明。
如图1所示,本发明的一种基于时间序列的APRIORI算法改进方法,基于时间序列的Apriori算法改进避免了以时间序列为基准抽取出的重复事务及频繁项,优化了支持度及置信度的计算方法,并以storm分布式改造来计算故障间的相关性,提高了关联规则的质量和运算效率;
故障数据是按一定的时间序列发生并记录下来的,为了分析设备故障发生的相关性,应对故障数据进行划分;经过对以时间为单位划分故障数据及以故障为单位划分方法有确定的优劣对比,确定以一定的时间间隔为标准,对故障数据进行截取;
设定一定的时间间隔区间,以第一个设备故障信息为起点,获取第一个故障序列;
从下一个设备故障数据开始,到规定的时间范围内,生成第二个故障序列;
按照上述方法,获取故障样本数据中的所有故障序列;
扫描所获得的故障序列库,获取所有1-项集,并计算所有一项集的频数,以此获取可能的2-项集;扫描设备故障数据,得到所有2-项集;
确定2-项集的个数及种类,区分(A,B)和(B,A),根据设备故障的时间标识,去除重复的二项集;
计算2-项集的支持度,计算满足最小支持度的2-项集的置信度;需要注意的是,支持度及置信度需以优化后的公式进行计算,其中,N(A)及N(B)分别表示包含A或B的所有2-项集的个数,而不是A或B的1-项集的数目;
将满足所设定的最小置信度的二项集输出,并结合业务作出相应的解释;
Apriori算法的storm分布式改造主要用于大数据量的故障信息的相关性,诱发分析计算需要耗费大量的时间,造成用户长时间的等待,通过分布式改造将相关性计算写在一个拓扑类里面,并且在拓扑类里面定义好程序运行时候的各个spout;bolt节点以及他们的并行度,从而可以让多个机器同时并行执行相关性诱发性分析计算,最后将计算结果汇总,从而大幅度的挺高了运行效率,提高了用户的体验;将拓扑类运行在storm集群环境中,然后通过远程drpc调用获得返回的计算结果,最后将结果汇总。
本发明的一种基于时间序列的APRIORI算法改进方法其加工制作非常简单方便,按照说明书附图所示即可加工。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种基于时间序列的APRIORI算法改进方法,其特征在于基于时间序列的Apriori算法改进避免了以时间序列为基准抽取出的重复事务及频繁项,优化了支持度及置信度的计算方法,并以storm分布式改造来计算故障间的相关性,提高了关联规则的质量和运算效率;
故障数据是按一定的时间序列发生并记录下来的,为了分析设备故障发生的相关性,应对故障数据进行划分;经过对以时间为单位划分故障数据及以故障为单位划分方法有确定的优劣对比,确定以一定的时间间隔为标准,对故障数据进行截取;
设定一定的时间间隔区间,以第一个设备故障信息为起点,获取第一个故障序列;
从下一个设备故障数据开始,到规定的时间范围内,生成第二个故障序列;
按照上述方法,获取故障样本数据中的所有故障序列;
扫描所获得的故障序列库,获取所有1-项集,并计算所有一项集的频数,以此获取可能的2-项集;扫描设备故障数据,得到所有2-项集;
确定2-项集的个数及种类,区分(A,B)和(B,A),根据设备故障的时间标识,去除重复的二项集;
计算2-项集的支持度,计算满足最小支持度的2-项集的置信度;需要注意的是,支持度及置信度需以优化后的公式进行计算,其中,N(A)及N(B)分别表示包含A或B的所有2-项集的个数,而不是A或B的1-项集的数目;
将满足所设定的最小置信度的二项集输出,并结合业务作出相应的解释;
Apriori算法的storm分布式改造主要用于大数据量的故障信息的相关性,诱发分析计算需要耗费大量的时间,造成用户长时间的等待,通过分布式改造将相关性计算写在一个拓扑类里面,并且在拓扑类里面定义好程序运行时候的各个spout;bolt节点以及他们的并行度,从而可以让多个机器同时并行执行相关性诱发性分析计算,最后将计算结果汇总,从而大幅度的挺高了运行效率,提高了用户的体验;将拓扑类运行在storm集群环境中,然后通过远程drpc调用获得返回的计算结果,最后将结果汇总。
CN201510595061.1A 2015-09-18 2015-09-18 一种基于时间序列的apriori算法改进方法 Pending CN105224616A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510595061.1A CN105224616A (zh) 2015-09-18 2015-09-18 一种基于时间序列的apriori算法改进方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510595061.1A CN105224616A (zh) 2015-09-18 2015-09-18 一种基于时间序列的apriori算法改进方法

Publications (1)

Publication Number Publication Date
CN105224616A true CN105224616A (zh) 2016-01-06

Family

ID=54993584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510595061.1A Pending CN105224616A (zh) 2015-09-18 2015-09-18 一种基于时间序列的apriori算法改进方法

Country Status (1)

Country Link
CN (1) CN105224616A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760279A (zh) * 2016-03-09 2016-07-13 北京国电通网络技术有限公司 分布式数据库集群故障预警关联树生成方法及系统
CN106056223A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 用于车辆远程诊断与备件检索的平台
CN106056221A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于FP‑Tree序列模式挖掘和故障码分类的车辆远程诊断与备件检索的方法
CN106294076A (zh) * 2016-08-24 2017-01-04 浪潮(北京)电子信息产业有限公司 一种服务器关联故障预测方法及其系统
CN106874491A (zh) * 2017-02-22 2017-06-20 北京科技大学 一种基于动态关联规则的设备故障信息挖掘方法
CN106970791A (zh) * 2017-03-09 2017-07-21 华东师范大学 一种线性时态逻辑规范的通用并行挖掘系统
CN107084853A (zh) * 2017-03-06 2017-08-22 上海大学 云制造下设备故障预测方法
CN107330041A (zh) * 2017-06-27 2017-11-07 达而观信息科技(上海)有限公司 一种基于时间衰减的相关搜索词挖掘方法及系统
CN108446184A (zh) * 2018-02-23 2018-08-24 北京天元创新科技有限公司 分析故障根原因的方法和系统
CN109299254A (zh) * 2018-09-03 2019-02-01 中新网络信息安全股份有限公司 一种基于时间序列数据的分类算法
CN110334659A (zh) * 2019-07-08 2019-10-15 太原科技大学 一种基于二分类的双峰发射线数据搜寻方法
CN111143101A (zh) * 2019-12-12 2020-05-12 东软集团股份有限公司 用于确定故障根源的方法、装置、存储介质及电子设备
CN113546426A (zh) * 2021-07-21 2021-10-26 西安理工大学 一种针对游戏业务中数据访问事件的安全策略生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
甘超等: ""基于Apriori算法的设备故障诊断技术的研究"", 《组合机床与自动化加工技术》 *
袁腾飞: ""基于数据挖掘的入侵检测系统研究"", 《万方》 *
邱昕等: ""基于云计算环境下Apriori算法的设备故障"", 《组合机床与自动化加工技术》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760279A (zh) * 2016-03-09 2016-07-13 北京国电通网络技术有限公司 分布式数据库集群故障预警关联树生成方法及系统
CN105760279B (zh) * 2016-03-09 2018-09-07 北京国电通网络技术有限公司 分布式数据库集群故障预警关联树生成方法及系统
CN106056223A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 用于车辆远程诊断与备件检索的平台
CN106056221A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于FP‑Tree序列模式挖掘和故障码分类的车辆远程诊断与备件检索的方法
CN106294076B (zh) * 2016-08-24 2019-03-15 浪潮(北京)电子信息产业有限公司 一种服务器关联故障预测方法及其系统
CN106294076A (zh) * 2016-08-24 2017-01-04 浪潮(北京)电子信息产业有限公司 一种服务器关联故障预测方法及其系统
CN106874491A (zh) * 2017-02-22 2017-06-20 北京科技大学 一种基于动态关联规则的设备故障信息挖掘方法
CN107084853A (zh) * 2017-03-06 2017-08-22 上海大学 云制造下设备故障预测方法
CN106970791A (zh) * 2017-03-09 2017-07-21 华东师范大学 一种线性时态逻辑规范的通用并行挖掘系统
CN107330041A (zh) * 2017-06-27 2017-11-07 达而观信息科技(上海)有限公司 一种基于时间衰减的相关搜索词挖掘方法及系统
CN108446184A (zh) * 2018-02-23 2018-08-24 北京天元创新科技有限公司 分析故障根原因的方法和系统
CN108446184B (zh) * 2018-02-23 2021-09-07 北京天元创新科技有限公司 分析故障根原因的方法和系统
CN109299254A (zh) * 2018-09-03 2019-02-01 中新网络信息安全股份有限公司 一种基于时间序列数据的分类算法
CN110334659A (zh) * 2019-07-08 2019-10-15 太原科技大学 一种基于二分类的双峰发射线数据搜寻方法
CN111143101A (zh) * 2019-12-12 2020-05-12 东软集团股份有限公司 用于确定故障根源的方法、装置、存储介质及电子设备
CN111143101B (zh) * 2019-12-12 2023-07-07 东软集团股份有限公司 用于确定故障根源的方法、装置、存储介质及电子设备
CN113546426A (zh) * 2021-07-21 2021-10-26 西安理工大学 一种针对游戏业务中数据访问事件的安全策略生成方法
CN113546426B (zh) * 2021-07-21 2023-08-22 西安理工大学 一种针对游戏业务中数据访问事件的安全策略生成方法

Similar Documents

Publication Publication Date Title
CN105224616A (zh) 一种基于时间序列的apriori算法改进方法
CN104268271A (zh) 一种兴趣和网络结构双内聚的社交网络社区发现方法
CN103761236A (zh) 一种增量式频繁模式增长数据挖掘方法
CN103136331A (zh) 微博网络意见领袖识别方法
CN105138650A (zh) 一种基于孤立点挖掘的Hadoop数据清洗方法及系统
CN104778185A (zh) 异常结构化查询语言sql语句确定方法及服务器
CN104102706A (zh) 一种基于层次聚类的可疑纳税人检测方法
CN103838804A (zh) 一种基于社团划分的社交网络用户兴趣关联规则挖掘方法
CN102663083A (zh) 基于分布式计算的大规模社交网络信息抽取方法
CN102567536A (zh) 一种基于数据统计学的关键绩效指标分析方法
CN103336765B (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
CN102622447B (zh) 一种基于Hadoop的频繁闭项集挖掘方法
CN104700311A (zh) 一种社会网络中的邻域跟随社区发现方法
Zhang et al. Differentially Private Stream Processing at Scale
CN103824161A (zh) 一种云计算可专利技术导航系统及方法
CN104134112A (zh) 一种语义约束下的业务流程模型一致性度量方法
CN103425579A (zh) 基于势函数的移动终端系统安全测评方法
CN106550387B (zh) 一种无线传感器网络路由层服务质量评价方法
CN103491074A (zh) 僵尸网络检测方法及装置
CN103955192B (zh) 一种用于污水处理厂的曲线报表数据采样方法
CN105159922A (zh) 基于标签传播算法面向寄递数据的并行化社团发现方法
CN103377207B (zh) 基于脚本引擎的微博用户关系采集方法
Xu et al. VSMURF: a novel sliding window cleaning algorithm for RFID networks
CN105159886A (zh) 一种基于凭证摘要文本的孤立点检测方法及系统
CN104268270A (zh) 基于MapReduce挖掘海量社交网络数据中三角形的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160106

RJ01 Rejection of invention patent application after publication