CN112818030B - 一种自适应的分布式流数据关联规则挖掘方法 - Google Patents

一种自适应的分布式流数据关联规则挖掘方法 Download PDF

Info

Publication number
CN112818030B
CN112818030B CN202110082760.1A CN202110082760A CN112818030B CN 112818030 B CN112818030 B CN 112818030B CN 202110082760 A CN202110082760 A CN 202110082760A CN 112818030 B CN112818030 B CN 112818030B
Authority
CN
China
Prior art keywords
data
mining
association rule
stream
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110082760.1A
Other languages
English (en)
Other versions
CN112818030A (zh
Inventor
闫波
赵菊文
宿红毅
郑宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110082760.1A priority Critical patent/CN112818030B/zh
Publication of CN112818030A publication Critical patent/CN112818030A/zh
Application granted granted Critical
Publication of CN112818030B publication Critical patent/CN112818030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自适应的分布式流数据关联规则挖掘方法,属于机器学习数据挖掘技术领域。本方法,在分布式计算集群中每个节点使用滑动时间窗口对单位时间内流式数据进行关联规则挖掘,然后对结果进行汇总得到当前一个时间段内的频繁项集。随后,利用深度强化学习方法对系统参数进行调整。本方法将关联规则挖掘技术、流式数据处理以及深度强化学习方法结合起来,不需要人工对数据进行标注,大大节省人工成本。同时,采用流式算法动态维护模型,可快速实时分析,能够广泛应用于物联网设备环境数据分析、电力状态实时监控分析、金融数据实时分析等众多领域。

Description

一种自适应的分布式流数据关联规则挖掘方法
技术领域
本发明涉及一种自适应的分布式流数据关联规则挖掘方法,属于机器学习数据挖掘技术领域。
背景技术
关联规则挖掘是数据挖掘领域的热门应用方向,旨在发现数据集中项与项之间的关系,在生活中有很多应用场景。例如,“购物篮分析”是一个常见的应用场景,利用关联规则挖掘技术,可以从消费者的消费记录中,发掘商品与商品之间的关联关系,进而通过绑定商品销售来提高销量。
传统的关联规则挖掘方法,专注于单机批量静态数据集,通过指定最小置信度进行挖掘。目前,常见的批量关联规则挖掘方法有Apriori、FP-growth等。
分布式关联规则挖掘方法,通过对在分布式计算集群中不同节点的计算结果进行合并,得到当前系统数据分析的最终结果,将大数据分析庞大的计算任务进行拆分,利用集群中多台计算节点进行平均,能够实现超大规模数据的分析处理任务。
数据流,是一个用于支持实时分析的抽象的算法概念,是指一系列数据项以流的方式一个个的访问。数据流的挑战在于:算法要求实时维护模型,同时数据流代表数据是无限的,为了节省时间和空间,往往需要接受近似解决方案。
强化学习是解决马尔科夫决策过程问题的重要方法。相较于机器学习经典的有监督学习、无监督学习,强化学习可以在交互中学习,能够根据与环境交互过程中获得的奖励与惩罚不断学习知识,以动态调整系统参数。因此,强化学习适用于流式数据的分析方法,在数据动态变化的过程中,不断对模型进行调整与修正。
发明内容
本发明的目的是为了解决分布式流式数据中的关联规则挖掘问题,创造性地提出一种自适应的分布式流数据关联规则挖掘方法。本方法将关联规则挖掘技术、流式数据处理以及深度强化学习方法结合起来,可以广泛应用于物联网设备环境数据分析、电力状态实时监控分析、金融数据实时分析等众多领域。
本发明方法的创新点在于:在分布式计算集群中每个节点使用滑动时间窗口对单位时间内流式数据进行关联规则挖掘,然后对结果进行汇总得到当前一个时间段内的频繁项集。随后,利用深度强化学习方法对系统参数进行调整。针对有变化趋势的领域,如股票组合分析量化投资等,能够有较好的效果。
本发明采用以下技术方案实现:
一种自适应的分布式流数据关联规则挖掘方法,包括以下步骤:
步骤1:初始化系统参数。包括关联规则挖掘的最小支持度、最小置信度、数据挖掘最小覆盖率、最小误差,等等。
步骤2:对流式数据进行归一化,将数据流中当前transaction中的数据项进行标量化,生成数据项与标量的映射;
步骤3:使用关联规则挖掘算法,对当前时间窗口内的数据进行处理,得到当前计算节点在一个时间段内的关联规则;
步骤4:对分布式计算集群各计算节点中计算得到的关联规则分析结果进行汇总,利用前缀树进行合并,得到当前时间段内系统处理的数据集的关联规则;
步骤5:将本阶段得到的分析结果相对于历史数据指标,包括准确率、覆盖率等,作为模型样本,可以使用在线演员-评论家方法(Actor-Critic method),对最小置信度、最大误差率等参数进行动态调整,并将调整后的系统参数应用于系统下一个时间段的滑动窗口的数据处理。
有益效果
本发明方法,对比现有技术,具有以下优点:
本方法采用无监督方式,不需要人工对数据进行标注,大大节省人工成本。同时,采用流式算法动态维护模型,可快速实时分析。本方法可适应大规模数据的关联规则挖掘。
附图说明
图1为流式数据标量化的案例;
图2为分布式计算集群合并关联规则挖掘结果的示例;
图3为自适应的关联规则挖掘系统流程图。
具体实施方法
下面结合附图对本发明方法做进一步说明。
一种自适应的分布式流数据关联规则挖掘方法,包括以下步骤:
步骤1:预设系统各项参数。
使用先验知识,对关联规则挖掘处理过程中的各项参数进行预设,包括关联规则挖掘的最小支持度、最小置信度、数据挖掘最小覆盖率、最小误差。
其中,关联规则挖掘的最小置信度为θ(θ∈(0,1]),滑动窗口大小N,针对流式数据中的任一transaction P,若满足:
freq(P,N)≥θ×N (1)
则为最后挖掘所得结果。
设置最大置信度误差ε,ε∈(0,θ),若当前transaction P满足:
freq(P,N)<ε×θ×N (2)
则将其丢弃。
步骤2:方法接入流式数据进行处理。
为提高数据挖掘的精度、降低处理复杂度,将流式数据中的transaction进行标量化,将所有的项进行标量映射。
具体地,对于数据项I(I∈P),有映射F,使得:
IF=F(I) (3)
其中,I为输入数据,IF为对应的归一化之后的标量表示。
步骤3:对关联规则进行挖掘。
对于流式数据中的每一条transaction,根据公式(1)和(2),对当前时间段内滑动窗口内的数据的关联规则进行挖掘。
步骤4:合并分布式计算结果,并对计算结果进行评价。
将分布式计算集群中各节点关联规则挖掘的结果进行合并处理,得到当前时间段内关联规则挖掘的结果,合并过程如图2所示。
评价数据处理的指标包括频繁项集挖掘的覆盖率:
Coverage=σ(stream)/σ(static) (4)
其中,σ(static)表示在静态数据集下关联规则挖掘的频繁项集数量,σ(stream)表示流式数据处理得到的频繁项集数量。
召回率表示挖掘出的频繁项集数目与处理过的数据总数的比值:
Recall=σ(stream)/σ(N) (5)
其中,σ(N)表示处理过的数据总数。
步骤5:深度强化学习,自动调整参数,并将调整后的系统参数应用于系统下一个时间段的滑动窗口的数据处理。
关联规则挖掘得到的结果评价函数为f,而ft表示在时间段t得到的处理结果评价函数的累积奖赏和,设rt为神经网络观测系统执行动作at-1后得到的奖励/惩罚,则:
ft‘=∑γt′-t·rt′ (6)
其中,γ为折扣因子,γ∈(0,1),t′表示流数据关联规则挖掘的下一时间段,ft‘表示下一时间段的评价函数累积奖赏和,rt′表示数据处理下一阶段的奖励/惩罚。
在经过t′-t时间段的学习之后,对于数据变化比较平滑的数据集,使公式(2)中的ε和θ收敛于特定值,即,在此之后的数据挖掘过程的系统参数也将趋于稳定。
本方法实施过程如图3所示。
实施例
本示例详细阐述自适应的分布式流数据关联规则挖掘的详细过程。
步骤1:预设系统参数,根据先验知识,将最小支持度设为3,最小置信度为0.5,允许最大误差为0.5,系统初始最小覆盖率为0.8;
步骤2:使用Groceries数据集,首先利用(3)式将数据集中的商品列数据进行标量化,将每一类商品映射至一个标量,然后根据数据集中的日期列进行排序来构造流式数据,并输入流式处理系统;
步骤3:对处理系统的输出结果进行评价,并将评价指标与系统参数输入神经网络;
步骤4:根据公式(6)得到当前时间段的评价累积奖赏和,再根据该结果对系统参数进行调整;
步骤5:将调整后的系统参数,用于系统下一时间段的滑动窗口的数据处理。

Claims (2)

1.一种自适应的分布式流数据关联规则挖掘方法,其特征在于,包括以下步骤:
步骤1:初始化系统参数:
对关联规则挖掘处理过程中的各项参数进行预设,包括关联规则挖掘的最小支持度、最小置信度、数据挖掘最小覆盖率和最小误差;
令关联规则挖掘的最小置信度为θ(θ∈(0,1]),滑动窗口大小N,针对流式数据中的任一transaction P,若满足:
freq(P,N)≥θ×N (1)
则为最后挖掘所得结果;
设置最大置信度误差ε,ε∈(0,θ),若当前transaction P满足:
freq(P,N)<ε×θ×N (2)
则将其丢弃;
步骤2:对流式数据进行归一化处理:
将数据流中当前transaction中的数据项进行标量化,生成数据项与标量的映射;
步骤3:使用关联规则挖掘算法,对当前时间窗口内的流式数据进行处理,得到当前计算节点在一个时间段内的滑动窗口内的数据的关联规则;
步骤4:合并分布式计算结果,并对计算结果进行评价:
将分布式计算集群各计算节点关联规则挖掘的结果进行合并处理,得到当前时间段内关联规则挖掘的结果,评价数据处理的指标包括频繁项集挖掘的覆盖率:
Coverage=σ(stream)/σ(static) (4)
其中,σ(static)表示在静态数据集下关联规则挖掘的频繁项集数量,σ(stream)表示流式数据处理得到的频繁项集数量;
召回率表示挖掘出的频繁项集数目与处理过的数据总数的比值:
Recall=σ(stream)/σ(N) (5)
其中,σ(N)表示处理过的数据总数;
步骤5:深度强化学习,自动调整参数,并将调整后的系统参数应用于系统下一个时间段的滑动窗口的数据处理;
关联规则挖掘得到的结果评价函数为f,而ft表示在时间段t得到的处理结果评价函数的累积奖赏和,设rt为神经网络观测系统执行动作at-1后得到的奖励/惩罚,则:
ft‘=∑γt′-t·r′t (6)
其中,γ为折扣因子,γ∈(0,1),t′表示流数据关联规则挖掘的下一时间段,ft‘表示下一时间段的评价函数累积奖赏和,r′t表示数据处理下一阶段的奖励/惩罚;
在经过t′-t时间段的学习之后,对于数据变化比较平滑的数据集,使公式(2)中的ε和θ收敛于特定值,即,在此之后的数据挖掘过程的系统参数将趋于稳定。
2.如权利要求1所述的一种自适应的分布式流数据关联规则挖掘方法,其特征在于,步骤2标量化处理的方法如下:
对于数据项I,I∈流式数据中的任一transaction P,有映射F,使得:
IF=F(I) (3)
其中,I为输入数据,IF为对应的归一化之后的标量表示。
CN202110082760.1A 2021-01-21 2021-01-21 一种自适应的分布式流数据关联规则挖掘方法 Active CN112818030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110082760.1A CN112818030B (zh) 2021-01-21 2021-01-21 一种自适应的分布式流数据关联规则挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110082760.1A CN112818030B (zh) 2021-01-21 2021-01-21 一种自适应的分布式流数据关联规则挖掘方法

Publications (2)

Publication Number Publication Date
CN112818030A CN112818030A (zh) 2021-05-18
CN112818030B true CN112818030B (zh) 2022-11-04

Family

ID=75858571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110082760.1A Active CN112818030B (zh) 2021-01-21 2021-01-21 一种自适应的分布式流数据关联规则挖掘方法

Country Status (1)

Country Link
CN (1) CN112818030B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116933895B (zh) * 2023-09-07 2023-12-08 苏州讯途益智能科技有限公司 一种基于机器学习的物联网数据挖掘方法及系统
CN117709806B (zh) * 2024-02-05 2024-05-28 慧新全智工业互联科技(青岛)有限公司 协同工作的多设备异常自动化检测方法及检测系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667197A (zh) * 2009-09-18 2010-03-10 浙江大学 基于滑动窗口的数据流关联规则挖掘方法
CN102945240A (zh) * 2012-09-11 2013-02-27 杭州斯凯网络科技有限公司 一种支持分布式计算的关联规则挖掘算法实现方法及装置
CN104038957A (zh) * 2014-06-13 2014-09-10 杭州大光明通信系统集成有限公司 一种基于一体化结构的4g基站运维信息分析处理方法
CN106066873A (zh) * 2016-05-30 2016-11-02 哈尔滨工程大学 一种基于本体的旅游信息推荐方法
CN107229751A (zh) * 2017-06-28 2017-10-03 济南大学 一种面向流式数据的并行增量式关联规则挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100896528B1 (ko) * 2007-08-20 2009-05-08 연세대학교 산학협력단 데이터 스트림으로부터 연관규칙을 생성하는 방법 및데이터 마이닝 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667197A (zh) * 2009-09-18 2010-03-10 浙江大学 基于滑动窗口的数据流关联规则挖掘方法
CN102945240A (zh) * 2012-09-11 2013-02-27 杭州斯凯网络科技有限公司 一种支持分布式计算的关联规则挖掘算法实现方法及装置
CN104038957A (zh) * 2014-06-13 2014-09-10 杭州大光明通信系统集成有限公司 一种基于一体化结构的4g基站运维信息分析处理方法
CN106066873A (zh) * 2016-05-30 2016-11-02 哈尔滨工程大学 一种基于本体的旅游信息推荐方法
CN107229751A (zh) * 2017-06-28 2017-10-03 济南大学 一种面向流式数据的并行增量式关联规则挖掘方法

Also Published As

Publication number Publication date
CN112818030A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
Montero-Manso et al. FFORMA: Feature-based forecast model averaging
Zhao Futures price prediction of agricultural products based on machine learning
CN109063903B (zh) 一种基于深度强化学习的建筑能耗预测方法及系统
Cheng et al. Modeling the momentum spillover effect for stock prediction via attribute-driven graph attention networks
Cortez et al. Modeling wine preferences by data mining from physicochemical properties
Weng et al. Gold price forecasting research based on an improved online extreme learning machine algorithm
CN112100745B (zh) 基于lda理论的汽车大梁钢力学性能预测方法
CN112818030B (zh) 一种自适应的分布式流数据关联规则挖掘方法
CN110956273A (zh) 融合多种机器学习模型的征信评分方法及系统
Senapati et al. A novel model for stock price prediction using hybrid neural network
CN111738532B (zh) 一种事件对对象影响度的获取方法和系统
CN111275479B (zh) 一种人流量预测方法、装置及系统
Aich et al. A classification approach with different feature sets to predict the quality of different types of wine using machine learning techniques
Wang et al. Stock price prediction based on morphological similarity clustering and hierarchical temporal memory
CN111079856B (zh) 一种基于csjitl-rvm的多时段间歇过程软测量建模方法
Batarseh et al. Application of machine learning in forecasting international trade trends
CN110837929A (zh) 基于自适应遗传算法的最小二乘支持向量机用电预测方法
Ben Amor et al. Forecasting electricity spot price for Nord Pool market with a hybrid k‐factor GARMA–LLWNN model
Hong et al. Exploration of machine learning to predict hot ductility of cast steel from chemical composition and thermal conditions
Júnior et al. An approach for evolving neuro-fuzzy forecasting of time series based on parallel recursive singular spectrum analysis
Liu et al. A stock rank prediction method combining industry attributes and price data of stocks
Billah et al. Stock price prediction: comparison of different moving average techniques using deep learning model
CN113919945A (zh) 基于神经网络的数据分析方法、装置、设备及存储介质
Guo et al. Forecasting the mid-price movements with high-frequency lob: a dual-stage temporal attention-based deep learning architecture
Busari et al. An application of AdaBoost-GRU ensemble model to economic time series prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant