CN110334796A - 一种社会安全事件的关联规则挖掘方法及装置 - Google Patents

一种社会安全事件的关联规则挖掘方法及装置 Download PDF

Info

Publication number
CN110334796A
CN110334796A CN201910575962.2A CN201910575962A CN110334796A CN 110334796 A CN110334796 A CN 110334796A CN 201910575962 A CN201910575962 A CN 201910575962A CN 110334796 A CN110334796 A CN 110334796A
Authority
CN
China
Prior art keywords
project
tree
particle
event
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910575962.2A
Other languages
English (en)
Inventor
许海涛
苏童
周贤伟
林福宏
吕兴
安建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201910575962.2A priority Critical patent/CN110334796A/zh
Publication of CN110334796A publication Critical patent/CN110334796A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种社会安全事件的关联规则挖掘方法及装置,能够提高关联规则的挖掘效率。所述方法包括:获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。本发明涉及社会安全领域。

Description

一种社会安全事件的关联规则挖掘方法及装置
技术领域
本发明涉及社会安全领域,特别是指一种社会安全事件的关联规则挖掘方法及装置。
背景技术
关联规则最早是由Agrawal等人提出的(1993),最初是针对购物篮分析(BasketAnalysis)问题提出的,其目的是为了发现交易数据库中不同商品的关联规则,以此来合理安排商品的摆放位置,增加销量。之后诸多的研究人员对关联规则的挖掘问题进行了大量的研究,主要涉及关联规则的挖掘理论的探索、原有算法的改进和新算法的设计、增量式关联规则的挖掘、并行关联规则的挖掘、模糊关联规则挖掘以及关联规则的应用等问题。
现有技术中,关联规则挖掘算法大致可分为搜索算法、层次算法、数据集划分算法、抽样算法等,但是他们普遍存在的问题是算法效率不高,占用内存特别大。
发明内容
本发明要解决的技术问题是提供一种社会安全事件的关联规则挖掘方法及装置,以解决现有技术所存在的关联规则挖掘算法效率低、占用内存大的问题。
为解决上述技术问题,本发明实施例提供一种社会安全事件的关联规则挖掘方法,包括:
获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
进一步地,所述扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度包括:
S21,扫描一遍事件集,得到项目集,对项目集中每个项目出现的次数进行计数,得到项目频数,删除项目集中项目频数小于最小支持度的项目,将当前的项目集中的项目按照项目频数降序排列;
S22,获取最小支持度上下各N/2个项目,并从获取的项目中随机选择N/20个项目作为粒子群优化算法的粒子,其中,N为预设的最大迭代次数;
S23,计算粒子的适应度值;
S24,当前粒子根据步长进行更新,并计算更新后的粒子的适应度值;
S25,判断当前迭代次数是否达到预设的最大迭代次数,若是,则终止迭代,并获取适应度值最大的粒子,将其位置作为最优支持度;否则,则返回执行S23。
进一步地,所述适应度值表示为:
H(x)=-p(x)log2p(x)
其中,F(x)表示项目x的适应度值,Support(x)表示项目x的支持度,H(x)表示项目x的信息熵,a、b都是常数参数,p(x)表示所有包含项目x的事件中,x出现的概率。
进一步地,当前粒子的更新公式为:
Vi=Vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi)
xi=xi+Vi
其中,Vi表示粒子i的步长,c1和c2都表示学习因子,rand()表示用于生成(0、1)之间的随机数的随机函数,xi表示粒子i的位置,pbesti、gbesti分别表示粒子i遇到的最好的位置、除粒子i以外的其他粒子遇到的最好位置。
进一步地,所述将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则包括:
S31,遍历事件集,生成1-频繁项目集,删除1-频繁项目集中项目频数小于最优支持度的项目,并根据项目频数对当前1-频繁项目集中的项目进行降序排序;
S32,创建标志为NULL的根节点,对于事件集中的每个事件,根据S31中排序后的项目顺序向树中添加节点,形成频繁模式树,其中,NULL表示空;
S33,从频繁模式树中获得条件模式基;
S34,利用获得的条件模式基,构建相应的条件频繁模式树;
S35,按照S33-S34,重复地对每个新构建的条件频繁模式树挖掘出频繁模式,直至获取所有频繁项目、频繁模式树为空,或频繁模式树仅包含单条路径时,通过置信度公式计算项目之间的置信度,确定项目之间的关联规则。
进一步地,在频繁模式树中,事件集中每个事件中的所有项目组成一条从根节点到叶子节点的路径。
进一步地,若大于等于2个事件中的项目按项目频数降序排序后,具有相同的前m个元素,则其在频繁模式树中共享前m个元素代表的节点,其中,频繁模式树中每个节点的计数为路径经过该节点的事件集的个数。
进一步地,在树中插入项目时,若树中不存在该项目对应的节点,则创建分支。
进一步地,所述通过置信度公式,确定项目之间的关联规则包括:
通过置信度公式计算项目之间的置信度,其中,置信度公式表示为:
其中,I1、I2都表示项目集I中的项目;表示项目I1发生的情况下,项目I2发生的概率;∪表示并集;support(I1∪I2)、support(I1)分别表示项目I1、I2并集的支持度、项目I1的支持度;
判断是否大于预设的最小置信度,若是,则输出项目I1、I2之间关联规则,即:项目I1发生的情况下,项目I2发生的概率。
本发明实施例还提供一种社会安全事件的关联规则挖掘装置,包括:
编码模块,用于获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
确定模块,用于扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
挖掘模块,用于将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
本发明的上述技术方案的有益效果如下:
上述方案中,获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则;这样,将粒子群优化算法寻找最优支持度的高效性特点和通过频繁模式树进行全局搜索寻找频繁项目结合起来,实现一种新的关联规则挖掘优化算法--PSOFP-growth算法,通过PSOFP-growth算法能够更加快速地确定项目之间的关联规则,同时节省内存,从而提高关联规则的挖掘效率。
附图说明
图1为本发明实施例提供的社会安全事件的关联规则挖掘方法的流程示意图;
图2为本发明实施例提供的粒子群优化算法的工作流程示意图;
图3为本发明实施例提供的频繁模式树算法的工作流程示意图;
图4为本发明实施例提供的社会安全事件的关联规则挖掘装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的关联规则挖掘算法效率低、占用内存大的问题,提供一种社会安全事件的关联规则挖掘方法及装置。
实施例一
如图1所示,本发明实施例提供的社会安全事件的关联规则挖掘方法,包括:
S1,获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
S2,扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法(PSO)的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
S3,将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树(FP-growth),利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
本发明实施例所述的社会安全事件的关联规则挖掘方法,获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则;这样,将粒子群优化算法寻找最优支持度的高效性特点和通过频繁模式树进行全局搜索寻找频繁项目结合起来,实现一种新的关联规则挖掘优化算法--PSOFP-growth算法,通过PSOFP-growth算法能够更加快速地确定项目之间的关联规则,同时节省内存,从而提高关联规则的挖掘效率。
通过本实施例所述的关联规则挖掘方法对社会安全事件进行关联规则分析,在安全事件的检测、分析、预防起着重要作用,也可以用在商户精准营销、金融行业、气象关联分析、网络安全等其他行业中。
本实施例中,在对事件集中事件的每个属性值进行编码(S1)之前,还需要对事件集中的属性值进行缺失值处理、异常值处理、去重处理、噪音数据处理等预处理操作。
本实施例中,在预处理之后,需要对事件的每个属性值进行编码,由于不同的属性值,其数值范围不一样,因此对不同的属性分别采用不同的编码表示,具体的:
将不同的属性分别用相应的字母或者数字表示,例如,地区属性用字母表示,东城区用字母“D”来表示,西城区用字母“X”来表示,朝阳区用字母“C”来表示,丰台区用字母“F”来表示,通州区用字母“T”来表示,海淀区用字母“H”来表示,顺义区用字母“S”来表示,密云区用字母“M”来表示;年龄段属性划分成“0-20岁”“21-40岁”“41-60岁”“60岁以上”四个区间,分别用二位二进制“00、01、10、11”来表示;事件后果属性根据是否有人身伤害和财产损失,“有”设置成“1”,“没有”设置成“0”,用“00、01、10、11”表示,第一位表示人身伤害,第二位表示财产损失;作案类型属性根据是个人作案还是团体作案,“个人作案”设置成“0”,“团队作案”设置成“1”。
本实施例中,将编码后得到的字母或者数字保存到数据库中,设计成事件数据库,同时做好数据备份。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,如图2所示,所述扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度包括:
S21,扫描一遍事件集,得到项目集,对项目集中每个项目出现的次数进行计数,得到项目频数,删除项目集中项目频数小于最小支持度的项目,将当前的项目集中的项目按照项目频数降序排列;
S22,获取最小支持度上下各N/2个项目,并从获取的项目中随机选择N/20个项目作为粒子群优化算法的粒子,其中,N为预设的最大迭代次数;
S23,计算粒子的适应度值;
S24,当前粒子根据步长进行更新,并计算更新后的粒子的适应度值;
S25,判断当前迭代次数是否达到预设的最大迭代次数,若是,则终止迭代,并获取适应度值最大的粒子,将其位置作为最优支持度;否则,则返回执行S23。
本实施例中,在确定粒子群优化算法的粒子后,首先要进行初始化,即:在可行解空间中粒子群随机设定位置和步长(其中,步长是指隔几个项目取一个粒子),每个粒子均为优化目标问题的一个可行解,每个粒子将在可行解空间中进行运动,粒子的步长将决定其下一步运动的方向和距离。粒子将以迭代的方式接近当前的最优粒子直至最优解,迭代过程中在每个粒子将接近两个最优解:pbesti、gbesti,其中,pbesti、gbesti分别表示粒子i遇到的最好的位置、除粒子i以外的其他粒子遇到的最好位置。
本实施例中,首先扫描一遍事件集,得到频繁项为1的项目集(也可以称为:1-频繁项目集),对项目集中每个项目出现的次数进行计数,得到项目频数;设置最小支持度(每个项目出现的最少次数,例如为5),将项目集小于5的项目删除,然后将当前的项目集中的项目按照项目频数降序排列。
本实施例中,计算粒子的适应度值的公式为:
H(x)=-p(x)log2p(x)
其中,F(x)表示项目x的适应度值,Support(x)表示项目x的支持度,H(x)表示项目x的信息熵,a、b都是常数参数,p(x)表示所有包含项目x的事件中,x出现的概率。
本实施例中,a、b的范围都是[0,1],a+b=1。
本实施例中,为了更好地理解支持度的含义将其定义为:
假设,给定一个项目集I(事件集中的属性值的集合)和事件集D,一个项目在D上的支持度(support)是包含I1的事件在D中所占的百分比:
其中,t表示事件,符合||·||表示集合,例如,||D||表示所有事件的集合。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,当前粒子的更新公式为:
Vi=Vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi)
xi=xi+Vi
其中,Vi表示粒子i的步长,c1和c2都表示学习因子,通常取c1=c2=2,rand()表示用于生成(0、1)之间的随机数的随机函数,xi表示粒子i的位置,pbesti、gbesti分别表示粒子i遇到的最好的位置、除粒子i以外的其他粒子遇到的最好位置。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,如图3所示,所述将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则包括:
S31,遍历事件集,生成1-频繁项目集,删除1-频繁项目集中项目频数小于最优支持度的项目,并根据项目频数对当前1-频繁项目集中的项目进行降序排序;
S32,创建标志为NULL的根节点,对于事件集中的每个事件,根据S31中排序后的项目顺序向树中添加节点,形成频繁模式树,其中,NULL表示空;
S33,从频繁模式树中获得条件模式基;
S34,利用获得的条件模式基,构建相应的条件频繁模式树;
S35,按照S33-S34,重复地对每个新构建的条件频繁模式树挖掘出频繁模式,直至获取所有频繁项目、频繁模式树为空,或频繁模式树仅包含单条路径时,通过置信度公式,确定项目之间的关联规则。
本实施例中,根据S31中排序后的项目顺序向树中添加节点的同时,在每个节点处记录该节点出现的支持度
本实施例中,在构建FP-tree(S32)之后,开始抽取频繁项目了,首先从树末端项目集合开始,然后在此基础上逐步构建更大的集合,大致分为三个步骤:
(1)从FP-tree中获得条件模式基;
(2)利用条件模式基,构建一个条件FP-tree;
(3)按照(1)-(2),重复地对每个新构建的条件频繁模式树挖掘出频繁模式,直至获取所有频繁项目、该频繁模式树为空,或该频繁模式树仅包含单条路径(在单条路径的情况下,生成所有可能的子路径组合,每个子路径都是一个频繁模式)时。
本实施例中,找到所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,在频繁模式树中,事件集中每个事件中的所有项目组成一条从根节点到叶子节点的路径。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,若大于等于2个事件中的项目按项目频数降序排序后,具有相同的前m个元素,则其在频繁模式树中共享前m个元素代表的节点,其中,频繁模式树中每个节点的计数为路径经过该节点的事件集的个数。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,在树中插入项目时,若树中不存在该项目对应的节点,则创建分支。
本实施例中,在构建频繁模式树的过程中,每次插入项目前,都要计算信息熵,只插入能使信息熵减小的项目,以此来节约频繁模式树的空间。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,所述通过置信度公式,确定项目之间的关联规则包括:
通过置信度公式计算项目之间的置信度,其中,置信度公式表示为:
其中,I1、I2都表示项目集I中的项目;表示项目I1发生的情况下,项目I2发生的概率;∪表示并集;support(I1∪I2)、support(I1)分别表示项目I1、I2并集的支持度、项目I1的支持度;
判断是否大于预设的最小置信度,若是,则输出项目I1、I2之间关联规则,即:项目I1发生的情况下,项目I2发生的概率。
本实施例中,一个在项目集I和事件集D上的形如的关联规则通过满足一定的可信度(confidence)来给出,关联规则的可信度是指包含I1和I2的事件与包含I1的事件之比:
本实施例中,判断是否大于预设的最小置信度,若是,则输出项目I1、I2之间关联规则,即:项目I1发生的情况下,项目I2发生的概率,此时的关联规则满足最小支持度和最小可信度,可以称为强关联规则。
实施例二
本发明还提供一种社会安全事件的关联规则挖掘装置的具体实施方式,由于本发明提供的社会安全事件的关联规则挖掘装置与前述社会安全事件的关联规则挖掘方法的具体实施方式相对应,该社会安全事件的关联规则挖掘装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述社会安全事件的关联规则挖掘方法具体实施方式中的解释说明,也适用于本发明提供的社会安全事件的关联规则挖掘装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图4所示,本发明实施例还提供一种社会安全事件的关联规则挖掘装置,包括:
编码模块11,用于获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
确定模块12,用于扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
挖掘模块13,用于将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
本发明实施例所述的社会安全事件的关联规则挖掘装置,获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则;这样,将粒子群优化算法寻找最优支持度的高效性特点和通过频繁模式树进行全局搜索寻找频繁项目结合起来,实现一种新的关联规则挖掘优化算法--PSOFP-growth算法,通过PSOFP-growth算法能够更加快速地确定项目之间的关联规则,同时节省内存,从而提高关联规则的挖掘效率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种社会安全事件的关联规则挖掘方法,其特征在于,包括:
获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
2.根据权利要求1所述的社会安全事件的关联规则挖掘方法,其特征在于,所述扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度包括:
S21,扫描一遍事件集,得到项目集,对项目集中每个项目出现的次数进行计数,得到项目频数,删除项目集中项目频数小于最小支持度的项目,将当前的项目集中的项目按照项目频数降序排列;
S22,获取最小支持度上下各N/2个项目,并从获取的项目中随机选择N/20个项目作为粒子群优化算法的粒子,其中,N为预设的最大迭代次数;
S23,计算粒子的适应度值;
S24,当前粒子根据步长进行更新,并计算更新后的粒子的适应度值;
S25,判断当前迭代次数是否达到预设的最大迭代次数,若是,则终止迭代,并获取适应度值最大的粒子,将其位置作为最优支持度;否则,则返回执行S23。
3.根据权利要求2所述的社会安全事件的关联规则挖掘方法,其特征在于,所述适应度值表示为:
H(x)=-p(x)log2p(x)
其中,F(x)表示项目x的适应度值,Support(x)表示项目x的支持度,H(x)表示项目x的信息熵,a、b都是常数参数,p(x)表示所有包含项目x的事件中,x出现的概率。
4.根据权利要求2所述的社会安全事件的关联规则挖掘方法,其特征在于,当前粒子的更新公式为:
Vi=Vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi)
xi=xi+Vi
其中,Vi表示粒子i的步长,c1和c2都表示学习因子,rand()表示用于生成(0、1)之间的随机数的随机函数,xi表示粒子i的位置,pbesti、gbesti分别表示粒子i遇到的最好的位置、除粒子i以外的其他粒子遇到的最好位置。
5.根据权利要求1所述的社会安全事件的关联规则挖掘方法,其特征在于,所述将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则包括:
S31,遍历事件集,生成1-频繁项目集,删除1-频繁项目集中项目频数小于最优支持度的项目,并根据项目频数对当前1-频繁项目集中的项目进行降序排序;
S32,创建标志为NULL的根节点,对于事件集中的每个事件,根据S31中排序后的项目顺序向树中添加节点,形成频繁模式树,其中,NULL表示空;
S33,从频繁模式树中获得条件模式基;
S34,利用获得的条件模式基,构建相应的条件频繁模式树;
S35,按照S33-S34,重复地对每个新构建的条件频繁模式树挖掘出频繁模式,直至获取所有频繁项目、频繁模式树为空,或频繁模式树仅包含单条路径时,通过置信度公式计算项目之间的置信度,确定项目之间的关联规则。
6.根据权利要求5所述的社会安全事件的关联规则挖掘方法,其特征在于,在频繁模式树中,事件集中每个事件中的所有项目组成一条从根节点到叶子节点的路径。
7.根据权利要求6所述的社会安全事件的关联规则挖掘方法,其特征在于,若大于等于2个事件中的项目按项目频数降序排序后,具有相同的前m个元素,则其在频繁模式树中共享前m个元素代表的节点,其中,频繁模式树中每个节点的计数为路径经过该节点的事件集的个数。
8.根据权利要求7所述的社会安全事件的关联规则挖掘方法,其特征在于,在树中插入项目时,若树中不存在该项目对应的节点,则创建分支。
9.根据权利要求5所述的社会安全事件的关联规则挖掘方法,其特征在于,所述通过置信度公式,确定项目之间的关联规则包括:
通过置信度公式计算项目之间的置信度,其中,置信度公式表示为:
其中,I1, I1、I2都表示项目集I中的项目;表示项目I1发生的情况下,项目I2发生的概率;∪表示并集;support(I1∪I2)、support(I1)分别表示项目I1、I2并集的支持度、项目I1的支持度;
判断是否大于预设的最小置信度,若是,则输出项目I1、I2之间关联规则,即:项目I1发生的情况下,项目I2发生的概率。
10.一种社会安全事件的关联规则挖掘装置,其特征在于,包括:
编码模块,用于获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
确定模块,用于扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
挖掘模块,用于将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
CN201910575962.2A 2019-06-28 2019-06-28 一种社会安全事件的关联规则挖掘方法及装置 Pending CN110334796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910575962.2A CN110334796A (zh) 2019-06-28 2019-06-28 一种社会安全事件的关联规则挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910575962.2A CN110334796A (zh) 2019-06-28 2019-06-28 一种社会安全事件的关联规则挖掘方法及装置

Publications (1)

Publication Number Publication Date
CN110334796A true CN110334796A (zh) 2019-10-15

Family

ID=68144627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910575962.2A Pending CN110334796A (zh) 2019-06-28 2019-06-28 一种社会安全事件的关联规则挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN110334796A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459994A (zh) * 2020-03-06 2020-07-28 中国科学院计算技术研究所 一种面向残疾人大数据的分析方法及系统
CN111782705A (zh) * 2020-05-28 2020-10-16 平安医疗健康管理股份有限公司 频繁数据的挖掘方法、装置、设备及计算机可读存储介质
CN113257429A (zh) * 2021-05-12 2021-08-13 吾征智能技术(北京)有限公司 一种基于关联规则认知发热疾病的系统、设备、存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258049A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 一种基于海量数据的关联规则挖掘方法
CN105808766A (zh) * 2016-03-21 2016-07-27 西南科技大学 一种基于事务项约束扩展的多层关联规则挖掘方法
CN106600100A (zh) * 2016-11-01 2017-04-26 南京航空航天大学 一种基于加权的多种群粒子群优化的危险源原因分析方法
CN106874491A (zh) * 2017-02-22 2017-06-20 北京科技大学 一种基于动态关联规则的设备故障信息挖掘方法
WO2018072711A1 (en) * 2016-10-19 2018-04-26 Huawei Technologies Co., Ltd. Distributed FP-Growth With Node Table For Large-Scale Association Rule Mining
CN108182294A (zh) * 2018-01-31 2018-06-19 湖北工业大学 一种基于频繁项集增长算法的电影推荐方法及系统
CN108363728A (zh) * 2018-01-10 2018-08-03 中国电力科学研究院有限公司 一种挖掘特高压变电设备状态数据关联规则的方法及系统
CN108681660A (zh) * 2018-05-07 2018-10-19 福州大学 一种基于关联规则挖掘的非编码rna与疾病关系预测方法
CN109870988A (zh) * 2019-03-15 2019-06-11 中铁工程服务有限公司 一种基于关联规则的盾构施工故障预警方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258049A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 一种基于海量数据的关联规则挖掘方法
CN105808766A (zh) * 2016-03-21 2016-07-27 西南科技大学 一种基于事务项约束扩展的多层关联规则挖掘方法
WO2018072711A1 (en) * 2016-10-19 2018-04-26 Huawei Technologies Co., Ltd. Distributed FP-Growth With Node Table For Large-Scale Association Rule Mining
CN106600100A (zh) * 2016-11-01 2017-04-26 南京航空航天大学 一种基于加权的多种群粒子群优化的危险源原因分析方法
CN106874491A (zh) * 2017-02-22 2017-06-20 北京科技大学 一种基于动态关联规则的设备故障信息挖掘方法
CN108363728A (zh) * 2018-01-10 2018-08-03 中国电力科学研究院有限公司 一种挖掘特高压变电设备状态数据关联规则的方法及系统
CN108182294A (zh) * 2018-01-31 2018-06-19 湖北工业大学 一种基于频繁项集增长算法的电影推荐方法及系统
CN108681660A (zh) * 2018-05-07 2018-10-19 福州大学 一种基于关联规则挖掘的非编码rna与疾病关系预测方法
CN109870988A (zh) * 2019-03-15 2019-06-11 中铁工程服务有限公司 一种基于关联规则的盾构施工故障预警方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李勇男等: "基于频繁模式树的涉恐情报关联分析", 《情报科学》 *
高杰: "基于DBS-PSO优化算法在关联规则挖掘中的研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459994A (zh) * 2020-03-06 2020-07-28 中国科学院计算技术研究所 一种面向残疾人大数据的分析方法及系统
CN111782705A (zh) * 2020-05-28 2020-10-16 平安医疗健康管理股份有限公司 频繁数据的挖掘方法、装置、设备及计算机可读存储介质
CN113257429A (zh) * 2021-05-12 2021-08-13 吾征智能技术(北京)有限公司 一种基于关联规则认知发热疾病的系统、设备、存储介质

Similar Documents

Publication Publication Date Title
CN110334796A (zh) 一种社会安全事件的关联规则挖掘方法及装置
CN102364498B (zh) 一种基于多标签的图像识别方法
Mythili et al. Performance evaluation of apriori and fp-growth algorithms
CN109522926A (zh) 基于信息熵聚类的异常检测方法
CN104699755B (zh) 一种基于数据挖掘的智能化多目标综合识别方法
Lin et al. Efficiently mining high average utility itemsets with a tree structure
CN102799616A (zh) 大规模社会网络中的离群点检测方法
Xie et al. Feature selection algorithm based on association rules mining method
Feng et al. UT-Tree: Efficient mining of high utility itemsets from data streams
Geerts et al. Tight upper bounds on the number of candidate patterns
Yasir et al. TRICE: Mining frequent itemsets by iterative TRimmed transaction LattICE in sparse big data
Wu et al. High dimensional data clustering algorithm based on sparse feature vector for categorical attributes
Patil et al. Apriori Algorithm against Fp Growth Algorithm: A Comparative Study of Data Mining Algorithms
Dehghani et al. Toward a distinguishing approach for improving the apriori algorithm
Al-Maqaleh et al. An efficient algorithm for mining association rules using confident frequent itemsets
Babu et al. Performance Analysis on Advances in Frequent Pattern Growth Algorithm
Chandra et al. On improving efficiency of SLIQ decision tree algorithm
Tan et al. Mining maximal frequent access sequences based on improved WAP-tree
Fu Dimensionality optimization by heuristic greedy learning vs. genetic algorithms in knowledge discovery and data mining
Raj et al. Mining frequent temporal structures in web graph
Termier et al. Efficient mining of high branching factor attribute trees
Chang et al. A weight-order-based lattice algorithm for mining maximal weighted frequent patterns over a data stream sliding window
Juan et al. Research of an association rule mining algorithm based on FP tree
Duemong et al. FIAST: A novel algorithm for mining frequent itemsets
Gopalan et al. ITL-MINE: Mining Frequent Itemsets More Efficiently.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191015