CN105426966A - 基于改进遗传算法的关联规则挖掘方法 - Google Patents

基于改进遗传算法的关联规则挖掘方法 Download PDF

Info

Publication number
CN105426966A
CN105426966A CN201510926972.8A CN201510926972A CN105426966A CN 105426966 A CN105426966 A CN 105426966A CN 201510926972 A CN201510926972 A CN 201510926972A CN 105426966 A CN105426966 A CN 105426966A
Authority
CN
China
Prior art keywords
data
individuality
probability
individual
fitness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510926972.8A
Other languages
English (en)
Inventor
苑明海
邓坤
俞红焱
董蓉
欧一文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201510926972.8A priority Critical patent/CN105426966A/zh
Publication of CN105426966A publication Critical patent/CN105426966A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于改进遗传算法的关联规则挖掘方法,所述遗传算法的改进和关联规则挖掘过程,即通过对遗传算子的改进,进行选择、交叉、变异等操作,不断生成新个体,在得到满足条件的种群中将适应度和浓度较高的个体作为解输出到优化器中,然后由优化器对这些种群进行规则提取生成相应的关联规则,最后再进行个体解码。该方法不仅有效的避免了数据局部最优的缺点,也提高了挖掘的效率和有效性。

Description

基于改进遗传算法的关联规则挖掘方法
技术领域
本发明涉及遗传算法技术领域,尤其涉及一种基于改进遗传算法的关联规则挖掘方法。
背景技术
随着现代网络技术的快速发展,知识经济的挑战和全球信息化的趋势,信息资源的共享和协同已成为时代的主旋律。而对于海量异构式的数据信息资源,对其进行必要的挖掘和相应的分析处理,对其规律和潜在的联系进行挖掘,为用户提供有价值的信息,以此指导其做出相应的技术决策和经营管理。而海量的数据积累到一定程度时,普通的穷举搜索算法显然已经不能满足需求,不仅效率低,而且搜索的信息也不一定具有多少价值,对数据挖掘的效果不是那么有效和明显。
发明内容
本发明所要解决的技术问题在于,提供一种基于改进遗传算法的关联规则挖掘方法,提高了挖掘的效率和有效性。
为了解决上述技术问题,本发明提供了一种基于改进遗传算法的关联规则挖掘方法,包括:
步骤1:根据经预处理的样本数据随机生成初始群体;
步骤2:对初始群体中的个体进行编码,根据用户需求确定属性数据参数以及设定属性阀值;
步骤3:计算个体的适应度和浓度;
步骤4:根据个体的适应度和浓度计算个体的选择概率,根据选择概率对个体进行选择,若个体满足条件:没有小于用户设定的最小置信度和兴趣度阀值,则停止计算,执行步骤11;若不满足则执行步骤5;
步骤5:去除适应度和浓度低于阈值的个体;
步骤6:保留复制中、适应度高于阈值和浓度值高于阈值的个体到交配池;
步骤7:随机从交配池中选择两个个体,随机选取交叉概率对选择的两个个体进行交叉操作,生成新个体;
步骤8:判断新个体和父个体适应度和浓度的大小;若小于父个体,则保留父个体执行步骤10;反之,则执行步骤9;
步骤9:基于Metropolis准则,以接收概率接收新个体;
步骤10:随机选择变异概率进行变异操作,生成新个体,返回执行步骤3;
步骤11:将满足条件的个体作为解输入到优化器中,根据置信度和兴趣度进行关联规则提取;
步骤12:对提取的关联规则进行解码,即为挖掘后得到关联规则。
进一步的,所述步骤1中预处理的具体过程包括:
对原始数据进行数据选样;
将数据选样得到的数据进行数据转换,其中,所述数据转换包括数据聚类、分类以及维规约技术处理;
对数据转换后得到的数据进行数据清洗操作;
对数据清洗早作后得到的样本数据进行无量纲化处理定量属性数据,然后基于模糊隶属度法,将样本数据进行模糊处理,然后再将处理后的属性值划分不同的重要等级;
建立数据虚拟仓库,存储模糊处理后的样本数据,并划分为基础数据、目标数据和细节数据,其中,基础数据D={d1,d2,d3,...,dk,...,dt}为事务数据仓库,目标数据dk={p1,p2,...,pl,...,pw},dk(k=1,2,...,t)为事务,细节数据pl(l=1,2,...,w)为项目。
实施本发明,具有如下有益效果:本发明是一种基于改进遗传算法的关联规则挖掘方法,不仅去除了样本数据中的噪声、干扰因素以及不相关的属性等,还可以提高数据全局搜索的能力,还能较好的处理各属性间的相互关系,实现快速有效的关联规则数据挖掘过程,提高了挖掘的效率和有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于改进遗传算法的关联规则挖掘方法的一个实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的基于改进遗传算法的关联规则挖掘方法的一个实施例的流程示意图,如图1所示,包括:
步骤1:根据经预处理的样本数据随机生成初始群体。
其中,预处理的具体过程包括:
对原始数据进行数据选样;
将数据选样得到的数据进行数据转换,其中,所述数据转换包括数据聚类、分类以及维规约技术处理;
对数据转换后得到的数据进行数据清洗操作;
对数据清洗早作后得到的样本数据进行无量纲化处理定量属性数据,然后基于模糊隶属度法,将样本数据进行模糊处理,然后再将处理后的属性值划分不同的重要等级;
建立数据虚拟仓库,存储模糊处理后的样本数据,并划分为基础数据、目标数据和细节数据,其中,基础数据D={d1,d2,d3,...,dk,...,dt}为事务数据仓库,目标数据dk={p1,p2,...,pl,...,pw},dk(k=1,2,...,t)为事务,细节数据pl(l=1,2,...,w)为项目。
步骤2:对初始群体中的个体进行编码,根据用户需求确定属性数据参数以及设定属性阀值。
其中,所述的编码方法采用实数数组编码方法。
步骤3:计算个体的适应度和浓度。
其中,个体的适应度和浓度的计算过程分别为:
个体的适应度为函数式中,s(x)表示一个个体关联规则的支持度,值越大,关系规则就越重要,smin表示设定的最小支持度,是一个阀值;
个体的浓度个体的浓度概率式中,M为群体规模,rj表示具有相同属性的第j类数目,n为具有相同属性的类数。
步骤4:根据个体的适应度和浓度计算个体的选择概率,根据选择概率对个体进行选择,若个体满足条件:没有小于用户设定的最小置信度和兴趣度阀值,则停止计算,执行步骤11;若不满足则执行步骤5。
其中,个体的选择概率为:
p s = α f ( C j ) Σ j = 1 M f ( C j ) + ( 1 - α ) 1 M × M - r j r j ( n - 1 ) , 式中,f(Cj)为个体Cj的适应度值;α为选择权重系数。
步骤5:去除适应度和浓度低于阈值的个体。
步骤6:保留复制中、适应度高于阈值和浓度值高于阈值的个体到交配池。
步骤7:随机从交配池中选择两个个体,随机选取交叉概率对选择的两个个体进行交叉操作,生成新个体。
其中的交叉概率的计算为:
个体的交叉概率为 p c = p c 1 f < f &OverBar; p c 1 - p c 2 f - f &OverBar; f max - f &OverBar; f &GreaterEqual; f &OverBar; , 式中,pc1,pc2∈(0.2,1)的随机数,f为两个个体中较大的适应度值;fmax为当前种群中最大的适应度值;为当前种群适应度平均值。
步骤8:判断新个体和父个体适应度和浓度的大小;若小于父个体,则保留父个体执行步骤10;反之,则执行步骤9。
步骤9:基于Metropolis准则,以接收概率接收新个体。
其中,接收概率的计算为:
接收概率为 p r = e &zeta; ( Conf i + 1 - Conf i ) T Conf i + 1 < Conf i 1 Conf i + 1 &GreaterEqual; Conf i , 式中ζ为小于1的正数,Confi为父个体的置信度;Confi+1为子个体的置信度,T为温度,随迭代次数增加T逐渐减少。
步骤10:随机选择变异概率进行变异操作,生成新个体,返回执行步骤3。
其中,变异概率的计算为:
变异概率为 p b = p b 1 f &prime; < f &OverBar; p b 1 - p b 2 f &prime; - f &OverBar; f max - f &OverBar; f &prime; &GreaterEqual; f &OverBar; ; pb1,pb2∈(0.0005,0.100)为随机数,f'为要变异个体的适应度值。
步骤11:将满足条件的个体作为解输入到优化器中,根据置信度和兴趣度进行关联规则提取。
步骤12:对提取的关联规则进行解码,即为挖掘后得到关联规则。
实施本发明,具有如下有益效果:本发明是一种基于改进遗传算法的关联规则挖掘方法,不仅去除了样本数据中的噪声、干扰因素以及不相关的属性等,还可以提高数据全局搜索的能力,还能较好的处理各属性间的相互关系,实现快速有效的关联规则数据挖掘过程,提高了挖掘的效率和有效性。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于改进遗传算法的关联规则挖掘方法,其特征在于,包括:
步骤1:根据经预处理的样本数据随机生成初始群体;
步骤2:对初始群体中的个体进行编码,根据用户需求确定属性数据参数以及设定属性阀值;
步骤3:计算个体的适应度和浓度;
步骤4:根据个体的适应度和浓度计算个体的选择概率,根据选择概率对个体进行选择,若个体满足条件:没有小于用户设定的最小置信度和兴趣度阀值,则停止计算,执行步骤11;若不满足则执行步骤5;
步骤5:去除适应度和浓度低于阈值的个体;
步骤6:保留复制中、适应度高于阈值和浓度值高于阈值的个体到交配池;
步骤7:随机从交配池中选择两个个体,随机选取交叉概率对选择的两个个体进行交叉操作,生成新个体;
步骤8:判断新个体和父个体适应度和浓度的大小;若小于父个体,则保留父个体执行步骤10;反之,则执行步骤9;
步骤9:基于Metropolis准则,以接收概率接收新个体;
步骤10:随机选择变异概率进行变异操作,生成新个体,返回执行步骤3;
步骤11:将满足条件的个体作为解输入到优化器中,根据置信度和兴趣度进行关联规则提取;
步骤12:对提取的关联规则进行解码,即为挖掘后得到关联规则。
2.如权利要求1所述的基于改进遗传算法的关联规则挖掘方法,其特征在于,所述步骤1中预处理的具体过程包括:
对原始数据进行数据选样;
将数据选样得到的数据进行数据转换,其中,所述数据转换包括数据聚类、分类以及维规约技术处理;
对数据转换后得到的数据进行数据清洗操作;
对数据清洗早作后得到的样本数据进行无量纲化处理定量属性数据,然后基于模糊隶属度法,将样本数据进行模糊处理,然后再将处理后的属性值划分不同的重要等级;
建立数据虚拟仓库,存储模糊处理后的样本数据,并划分为基础数据、目标数据和细节数据,其中,基础数据D={d1,d2,d3,...,dk,...,dt}为事务数据仓库,目标数据dk={p1,p2,...,pl,...,pw},dk(k=1,2,...,t)为事务,细节数据pl(l=1,2,...,w)为项目。
3.如权利要求1或2所述的基于改进遗传算法的关联规则挖掘方法,其特征在于,所述步骤2中的编码方法采用实数数组编码方法。
4.如权利要求1或2所述的基于改进遗传算法的关联规则挖掘方法,其特征在于,所述步骤3中个体的适应度和浓度的计算过程分别为:
个体的适应度为函数式中,s(x)表示一个个体关联规则的支持度,值越大,关系规则就越重要,smin表示设定的最小支持度,是一个阀值;
个体的浓度个体的浓度概率式中,M为群体规模,rj表示具有相同属性的第j类数目,n为具有相同属性的类数。
5.如权利要求4所述的基于改进遗传算法的关联规则挖掘方法,其特征在于,所述步骤4中个体的选择概率为:
p s = &alpha; f ( C j ) &Sigma; j = 1 M f ( C j ) + ( 1 - &alpha; ) 1 M &times; M - r j r j ( n - 1 ) , 式中,f(Cj)为个体Cj的适应度值;α为选择权重系数。
6.如权利要求1或2或5所述的基于改进遗传算法的关联规则挖掘方法,其特征在于,所述步骤7中的交叉概率的计算为:
个体的交叉概率为 p c = p c 1 f < f &OverBar; p c 1 - p c 2 f - f &OverBar; f max - f &OverBar; f &GreaterEqual; f &OverBar; , 式中,pc1,pc2∈(0.2,1)的随机数,f为两个个体中较大的适应度值;fmax为当前种群中最大的适应度值;为当前种群适应度平均值。
7.如权利要求1或2或5所述的基于改进遗传算法的关联规则挖掘方法,其特征在于,所述步骤9中的接收概率的计算为:
接收概率为 p r = e &zeta; ( Conf i + 1 + Conf i ) T Conf i + 1 < Conf i 1 Conf i + 1 &GreaterEqual; Conf i , 式中ζ为小于1的正数,Confi为父个体的置信度;Confi+1为子个体的置信度,T为温度,随迭代次数增加T逐渐减少。
8.如权利要求6所述的基于改进遗传算法的关联规则挖掘方法,其特征在于,所述步骤10中的变异概率的计算为:
变异概率为 p b = p b 1 f &prime; < f &OverBar; p b 1 - p b 2 f &prime; - f &OverBar; f max - f &OverBar; f &prime; &GreaterEqual; f &OverBar; ; pb1,pb2∈(0.0005,0.100)为随机数,f'为要变异个体的适应度值。
CN201510926972.8A 2015-12-14 2015-12-14 基于改进遗传算法的关联规则挖掘方法 Pending CN105426966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510926972.8A CN105426966A (zh) 2015-12-14 2015-12-14 基于改进遗传算法的关联规则挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510926972.8A CN105426966A (zh) 2015-12-14 2015-12-14 基于改进遗传算法的关联规则挖掘方法

Publications (1)

Publication Number Publication Date
CN105426966A true CN105426966A (zh) 2016-03-23

Family

ID=55505161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510926972.8A Pending CN105426966A (zh) 2015-12-14 2015-12-14 基于改进遗传算法的关联规则挖掘方法

Country Status (1)

Country Link
CN (1) CN105426966A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595711A (zh) * 2018-05-11 2018-09-28 成都华数天成科技有限公司 一种分布式环境下图模式关联规则挖掘方法
CN109389181A (zh) * 2018-10-30 2019-02-26 全球能源互联网研究院有限公司 电网异常事件的关联规则生成方法及装置
CN110019383A (zh) * 2017-07-26 2019-07-16 香港理工大学深圳研究院 一种关联规则挖掘方法、装置及计算机可读存储介质
CN110990460A (zh) * 2019-12-04 2020-04-10 河海大学常州校区 一种动态服务资源的数据挖掘方法
CN112286923A (zh) * 2020-11-05 2021-01-29 河海大学常州校区 一种智能制造资源数据预处理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019383A (zh) * 2017-07-26 2019-07-16 香港理工大学深圳研究院 一种关联规则挖掘方法、装置及计算机可读存储介质
CN108595711A (zh) * 2018-05-11 2018-09-28 成都华数天成科技有限公司 一种分布式环境下图模式关联规则挖掘方法
CN108595711B (zh) * 2018-05-11 2021-11-30 西南石油大学 一种分布式环境下图模式关联规则挖掘方法
CN109389181A (zh) * 2018-10-30 2019-02-26 全球能源互联网研究院有限公司 电网异常事件的关联规则生成方法及装置
CN110990460A (zh) * 2019-12-04 2020-04-10 河海大学常州校区 一种动态服务资源的数据挖掘方法
CN112286923A (zh) * 2020-11-05 2021-01-29 河海大学常州校区 一种智能制造资源数据预处理方法
CN112286923B (zh) * 2020-11-05 2023-06-20 河海大学常州校区 一种智能制造资源数据预处理方法

Similar Documents

Publication Publication Date Title
CN105426966A (zh) 基于改进遗传算法的关联规则挖掘方法
CN106909643A (zh) 基于知识图谱的社交媒体大数据主题发现方法
Pandhiani et al. Time-series prediction of streamflows of Malaysian rivers using data-driven techniques
Haldulakar et al. Optimization of association rule mining through genetic algorithm
Abuiziah et al. A review of genetic algorithm optimization: operations and applications to water pipeline systems
CN102750286B (zh) 一种处理缺失数据的新型决策树分类器方法
Schardong et al. Coupled self-adaptive multiobjective differential evolution and network flow algorithm approach for optimal reservoir operation
Alweshah et al. Solving attribute reduction problem using wrapper genetic programming
CN104268077A (zh) 基于混沌遗传算法的测试用例集约简算法
CN109582714B (zh) 一种基于时间衰减关联的政务事项数据处理方法
Singh et al. Optimum oil production planning using infeasibility driven evolutionary algorithm
CN103927584A (zh) 一种基于遗传算法的资源调度优化方法
CN105550578A (zh) 一种基于特征选择和决策树的网络异常分类规则提取方法
Pop et al. A hybrid based genetic algorithm for solving a capacitated fixed-charge transportation problem
CN115098882B (zh) 基于增量学习的本地差分隐私的多维数据发布方法及系统
Ali et al. Improved differential evolution algorithm with decentralisation of population
Afshar Application of a genetic algorithm to storm sewer network optimization
Munandar et al. Regional development classification model using decision tree approach
CN104765852A (zh) 大数据背景下基于模糊算法的数据挖掘方法
Seol et al. Reduction of association rules for big data sets in socially-aware computing
Li et al. Self-adaptive obtaining water-supply reservoir operation rules: Co-evolution artificial immune system
Pattanaik et al. Opposition-based differential evolution for hydrothermal power system
Li et al. Evolving directed graphs with artificial bee colony algorithm
Zhou et al. Data-driven solutions for building environmental impact assessment
Grimson et al. Scaling up pareto optimization for tree structures with affine transformations: Evaluating hybrid floating solar-hydropower systems in the amazon

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160323