CN110334796A - 一种社会安全事件的关联规则挖掘方法及装置 - Google Patents
一种社会安全事件的关联规则挖掘方法及装置 Download PDFInfo
- Publication number
- CN110334796A CN110334796A CN201910575962.2A CN201910575962A CN110334796A CN 110334796 A CN110334796 A CN 110334796A CN 201910575962 A CN201910575962 A CN 201910575962A CN 110334796 A CN110334796 A CN 110334796A
- Authority
- CN
- China
- Prior art keywords
- item
- items
- event
- frequent
- particles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005065 mining Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000002245 particle Substances 0.000 claims abstract description 133
- 238000005457 optimization Methods 0.000 claims abstract description 37
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 241000258957 Asteroidea Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Security & Cryptography (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种社会安全事件的关联规则挖掘方法及装置,能够提高关联规则的挖掘效率。所述方法包括:获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。本发明涉及社会安全领域。
Description
技术领域
本发明涉及社会安全领域,特别是指一种社会安全事件的关联规则挖掘方法及装置。
背景技术
关联规则最早是由Agrawal等人提出的(1993),最初是针对购物篮分析(BasketAnalysis)问题提出的,其目的是为了发现交易数据库中不同商品的关联规则,以此来合理安排商品的摆放位置,增加销量。之后诸多的研究人员对关联规则的挖掘问题进行了大量的研究,主要涉及关联规则的挖掘理论的探索、原有算法的改进和新算法的设计、增量式关联规则的挖掘、并行关联规则的挖掘、模糊关联规则挖掘以及关联规则的应用等问题。
现有技术中,关联规则挖掘算法大致可分为搜索算法、层次算法、数据集划分算法、抽样算法等,但是他们普遍存在的问题是算法效率不高,占用内存特别大。
发明内容
本发明要解决的技术问题是提供一种社会安全事件的关联规则挖掘方法及装置,以解决现有技术所存在的关联规则挖掘算法效率低、占用内存大的问题。
为解决上述技术问题,本发明实施例提供一种社会安全事件的关联规则挖掘方法,包括:
获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
进一步地,所述扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度包括:
S21,扫描一遍事件集,得到项目集,对项目集中每个项目出现的次数进行计数,得到项目频数,删除项目集中项目频数小于最小支持度的项目,将当前的项目集中的项目按照项目频数降序排列;
S22,获取最小支持度上下各N/2个项目,并从获取的项目中随机选择N/20个项目作为粒子群优化算法的粒子,其中,N为预设的最大迭代次数;
S23,计算粒子的适应度值;
S24,当前粒子根据步长进行更新,并计算更新后的粒子的适应度值;
S25,判断当前迭代次数是否达到预设的最大迭代次数,若是,则终止迭代,并获取适应度值最大的粒子,将其位置作为最优支持度;否则,则返回执行S23。
进一步地,所述适应度值表示为:
H(x)=-p(x)log2p(x)
其中,F(x)表示项目x的适应度值,Support(x)表示项目x的支持度,H(x)表示项目x的信息熵,a、b都是常数参数,p(x)表示所有包含项目x的事件中,x出现的概率。
进一步地,当前粒子的更新公式为:
Vi=Vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi)
xi=xi+Vi
其中,Vi表示粒子i的步长,c1和c2都表示学习因子,rand()表示用于生成(0、1)之间的随机数的随机函数,xi表示粒子i的位置,pbesti、gbesti分别表示粒子i遇到的最好的位置、除粒子i以外的其他粒子遇到的最好位置。
进一步地,所述将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则包括:
S31,遍历事件集,生成1-频繁项目集,删除1-频繁项目集中项目频数小于最优支持度的项目,并根据项目频数对当前1-频繁项目集中的项目进行降序排序;
S32,创建标志为NULL的根节点,对于事件集中的每个事件,根据S31中排序后的项目顺序向树中添加节点,形成频繁模式树,其中,NULL表示空;
S33,从频繁模式树中获得条件模式基;
S34,利用获得的条件模式基,构建相应的条件频繁模式树;
S35,按照S33-S34,重复地对每个新构建的条件频繁模式树挖掘出频繁模式,直至获取所有频繁项目、频繁模式树为空,或频繁模式树仅包含单条路径时,通过置信度公式计算项目之间的置信度,确定项目之间的关联规则。
进一步地,在频繁模式树中,事件集中每个事件中的所有项目组成一条从根节点到叶子节点的路径。
进一步地,若大于等于2个事件中的项目按项目频数降序排序后,具有相同的前m个元素,则其在频繁模式树中共享前m个元素代表的节点,其中,频繁模式树中每个节点的计数为路径经过该节点的事件集的个数。
进一步地,在树中插入项目时,若树中不存在该项目对应的节点,则创建分支。
进一步地,所述通过置信度公式,确定项目之间的关联规则包括:
通过置信度公式计算项目之间的置信度,其中,置信度公式表示为:
其中,I1、I2都表示项目集I中的项目;表示项目I1发生的情况下,项目I2发生的概率;∪表示并集;support(I1∪I2)、support(I1)分别表示项目I1、I2并集的支持度、项目I1的支持度;
判断是否大于预设的最小置信度,若是,则输出项目I1、I2之间关联规则,即:项目I1发生的情况下,项目I2发生的概率。
本发明实施例还提供一种社会安全事件的关联规则挖掘装置,包括:
编码模块,用于获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
确定模块,用于扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
挖掘模块,用于将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
本发明的上述技术方案的有益效果如下:
上述方案中,获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则;这样,将粒子群优化算法寻找最优支持度的高效性特点和通过频繁模式树进行全局搜索寻找频繁项目结合起来,实现一种新的关联规则挖掘优化算法--PSOFP-growth算法,通过PSOFP-growth算法能够更加快速地确定项目之间的关联规则,同时节省内存,从而提高关联规则的挖掘效率。
附图说明
图1为本发明实施例提供的社会安全事件的关联规则挖掘方法的流程示意图;
图2为本发明实施例提供的粒子群优化算法的工作流程示意图;
图3为本发明实施例提供的频繁模式树算法的工作流程示意图;
图4为本发明实施例提供的社会安全事件的关联规则挖掘装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的关联规则挖掘算法效率低、占用内存大的问题,提供一种社会安全事件的关联规则挖掘方法及装置。
实施例一
如图1所示,本发明实施例提供的社会安全事件的关联规则挖掘方法,包括:
S1,获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
S2,扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法(PSO)的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
S3,将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树(FP-growth),利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
本发明实施例所述的社会安全事件的关联规则挖掘方法,获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则;这样,将粒子群优化算法寻找最优支持度的高效性特点和通过频繁模式树进行全局搜索寻找频繁项目结合起来,实现一种新的关联规则挖掘优化算法--PSOFP-growth算法,通过PSOFP-growth算法能够更加快速地确定项目之间的关联规则,同时节省内存,从而提高关联规则的挖掘效率。
通过本实施例所述的关联规则挖掘方法对社会安全事件进行关联规则分析,在安全事件的检测、分析、预防起着重要作用,也可以用在商户精准营销、金融行业、气象关联分析、网络安全等其他行业中。
本实施例中,在对事件集中事件的每个属性值进行编码(S1)之前,还需要对事件集中的属性值进行缺失值处理、异常值处理、去重处理、噪音数据处理等预处理操作。
本实施例中,在预处理之后,需要对事件的每个属性值进行编码,由于不同的属性值,其数值范围不一样,因此对不同的属性分别采用不同的编码表示,具体的:
将不同的属性分别用相应的字母或者数字表示,例如,地区属性用字母表示,东城区用字母“D”来表示,西城区用字母“X”来表示,朝阳区用字母“C”来表示,丰台区用字母“F”来表示,通州区用字母“T”来表示,海淀区用字母“H”来表示,顺义区用字母“S”来表示,密云区用字母“M”来表示;年龄段属性划分成“0-20岁”“21-40岁”“41-60岁”“60岁以上”四个区间,分别用二位二进制“00、01、10、11”来表示;事件后果属性根据是否有人身伤害和财产损失,“有”设置成“1”,“没有”设置成“0”,用“00、01、10、11”表示,第一位表示人身伤害,第二位表示财产损失;作案类型属性根据是个人作案还是团体作案,“个人作案”设置成“0”,“团队作案”设置成“1”。
本实施例中,将编码后得到的字母或者数字保存到数据库中,设计成事件数据库,同时做好数据备份。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,如图2所示,所述扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度包括:
S21,扫描一遍事件集,得到项目集,对项目集中每个项目出现的次数进行计数,得到项目频数,删除项目集中项目频数小于最小支持度的项目,将当前的项目集中的项目按照项目频数降序排列;
S22,获取最小支持度上下各N/2个项目,并从获取的项目中随机选择N/20个项目作为粒子群优化算法的粒子,其中,N为预设的最大迭代次数;
S23,计算粒子的适应度值;
S24,当前粒子根据步长进行更新,并计算更新后的粒子的适应度值;
S25,判断当前迭代次数是否达到预设的最大迭代次数,若是,则终止迭代,并获取适应度值最大的粒子,将其位置作为最优支持度;否则,则返回执行S23。
本实施例中,在确定粒子群优化算法的粒子后,首先要进行初始化,即:在可行解空间中粒子群随机设定位置和步长(其中,步长是指隔几个项目取一个粒子),每个粒子均为优化目标问题的一个可行解,每个粒子将在可行解空间中进行运动,粒子的步长将决定其下一步运动的方向和距离。粒子将以迭代的方式接近当前的最优粒子直至最优解,迭代过程中在每个粒子将接近两个最优解:pbesti、gbesti,其中,pbesti、gbesti分别表示粒子i遇到的最好的位置、除粒子i以外的其他粒子遇到的最好位置。
本实施例中,首先扫描一遍事件集,得到频繁项为1的项目集(也可以称为:1-频繁项目集),对项目集中每个项目出现的次数进行计数,得到项目频数;设置最小支持度(每个项目出现的最少次数,例如为5),将项目集小于5的项目删除,然后将当前的项目集中的项目按照项目频数降序排列。
本实施例中,计算粒子的适应度值的公式为:
H(x)=-p(x)log2p(x)
其中,F(x)表示项目x的适应度值,Support(x)表示项目x的支持度,H(x)表示项目x的信息熵,a、b都是常数参数,p(x)表示所有包含项目x的事件中,x出现的概率。
本实施例中,a、b的范围都是[0,1],a+b=1。
本实施例中,为了更好地理解支持度的含义将其定义为:
假设,给定一个项目集I(事件集中的属性值的集合)和事件集D,一个项目在D上的支持度(support)是包含I1的事件在D中所占的百分比:
其中,t表示事件,符合||·||表示集合,例如,||D||表示所有事件的集合。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,当前粒子的更新公式为:
Vi=Vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi)
xi=xi+Vi
其中,Vi表示粒子i的步长,c1和c2都表示学习因子,通常取c1=c2=2,rand()表示用于生成(0、1)之间的随机数的随机函数,xi表示粒子i的位置,pbesti、gbesti分别表示粒子i遇到的最好的位置、除粒子i以外的其他粒子遇到的最好位置。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,如图3所示,所述将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则包括:
S31,遍历事件集,生成1-频繁项目集,删除1-频繁项目集中项目频数小于最优支持度的项目,并根据项目频数对当前1-频繁项目集中的项目进行降序排序;
S32,创建标志为NULL的根节点,对于事件集中的每个事件,根据S31中排序后的项目顺序向树中添加节点,形成频繁模式树,其中,NULL表示空;
S33,从频繁模式树中获得条件模式基;
S34,利用获得的条件模式基,构建相应的条件频繁模式树;
S35,按照S33-S34,重复地对每个新构建的条件频繁模式树挖掘出频繁模式,直至获取所有频繁项目、频繁模式树为空,或频繁模式树仅包含单条路径时,通过置信度公式,确定项目之间的关联规则。
本实施例中,根据S31中排序后的项目顺序向树中添加节点的同时,在每个节点处记录该节点出现的支持度
本实施例中,在构建FP-tree(S32)之后,开始抽取频繁项目了,首先从树末端项目集合开始,然后在此基础上逐步构建更大的集合,大致分为三个步骤:
(1)从FP-tree中获得条件模式基;
(2)利用条件模式基,构建一个条件FP-tree;
(3)按照(1)-(2),重复地对每个新构建的条件频繁模式树挖掘出频繁模式,直至获取所有频繁项目、该频繁模式树为空,或该频繁模式树仅包含单条路径(在单条路径的情况下,生成所有可能的子路径组合,每个子路径都是一个频繁模式)时。
本实施例中,找到所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,在频繁模式树中,事件集中每个事件中的所有项目组成一条从根节点到叶子节点的路径。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,若大于等于2个事件中的项目按项目频数降序排序后,具有相同的前m个元素,则其在频繁模式树中共享前m个元素代表的节点,其中,频繁模式树中每个节点的计数为路径经过该节点的事件集的个数。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,在树中插入项目时,若树中不存在该项目对应的节点,则创建分支。
本实施例中,在构建频繁模式树的过程中,每次插入项目前,都要计算信息熵,只插入能使信息熵减小的项目,以此来节约频繁模式树的空间。
在前述社会安全事件的关联规则挖掘方法的具体实施方式中,进一步地,所述通过置信度公式,确定项目之间的关联规则包括:
通过置信度公式计算项目之间的置信度,其中,置信度公式表示为:
其中,I1、I2都表示项目集I中的项目;表示项目I1发生的情况下,项目I2发生的概率;∪表示并集;support(I1∪I2)、support(I1)分别表示项目I1、I2并集的支持度、项目I1的支持度;
判断是否大于预设的最小置信度,若是,则输出项目I1、I2之间关联规则,即:项目I1发生的情况下,项目I2发生的概率。
本实施例中,一个在项目集I和事件集D上的形如的关联规则通过满足一定的可信度(confidence)来给出,关联规则的可信度是指包含I1和I2的事件与包含I1的事件之比:
本实施例中,判断是否大于预设的最小置信度,若是,则输出项目I1、I2之间关联规则,即:项目I1发生的情况下,项目I2发生的概率,此时的关联规则满足最小支持度和最小可信度,可以称为强关联规则。
实施例二
本发明还提供一种社会安全事件的关联规则挖掘装置的具体实施方式,由于本发明提供的社会安全事件的关联规则挖掘装置与前述社会安全事件的关联规则挖掘方法的具体实施方式相对应,该社会安全事件的关联规则挖掘装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述社会安全事件的关联规则挖掘方法具体实施方式中的解释说明,也适用于本发明提供的社会安全事件的关联规则挖掘装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图4所示,本发明实施例还提供一种社会安全事件的关联规则挖掘装置,包括:
编码模块11,用于获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
确定模块12,用于扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
挖掘模块13,用于将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
本发明实施例所述的社会安全事件的关联规则挖掘装置,获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则;这样,将粒子群优化算法寻找最优支持度的高效性特点和通过频繁模式树进行全局搜索寻找频繁项目结合起来,实现一种新的关联规则挖掘优化算法--PSOFP-growth算法,通过PSOFP-growth算法能够更加快速地确定项目之间的关联规则,同时节省内存,从而提高关联规则的挖掘效率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种社会安全事件的关联规则挖掘方法,其特征在于,包括:
获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
2.根据权利要求1所述的社会安全事件的关联规则挖掘方法,其特征在于,所述扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度包括:
S21,扫描一遍事件集,得到项目集,对项目集中每个项目出现的次数进行计数,得到项目频数,删除项目集中项目频数小于最小支持度的项目,将当前的项目集中的项目按照项目频数降序排列;
S22,获取最小支持度上下各N/2个项目,并从获取的项目中随机选择N/20个项目作为粒子群优化算法的粒子,其中,N为预设的最大迭代次数;
S23,计算粒子的适应度值;
S24,当前粒子根据步长进行更新,并计算更新后的粒子的适应度值;
S25,判断当前迭代次数是否达到预设的最大迭代次数,若是,则终止迭代,并获取适应度值最大的粒子,将其位置作为最优支持度;否则,则返回执行S23。
3.根据权利要求2所述的社会安全事件的关联规则挖掘方法,其特征在于,所述适应度值表示为:
H(x)=-p(x)log2p(x)
其中,F(x)表示项目x的适应度值,Support(x)表示项目x的支持度,H(x)表示项目x的信息熵,a、b都是常数参数,p(x)表示所有包含项目x的事件中,x出现的概率。
4.根据权利要求2所述的社会安全事件的关联规则挖掘方法,其特征在于,当前粒子的更新公式为:
Vi=Vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi)
xi=xi+Vi
其中,Vi表示粒子i的步长,c1和c2都表示学习因子,rand()表示用于生成(0、1)之间的随机数的随机函数,xi表示粒子i的位置,pbesti、gbesti分别表示粒子i遇到的最好的位置、除粒子i以外的其他粒子遇到的最好位置。
5.根据权利要求1所述的社会安全事件的关联规则挖掘方法,其特征在于,所述将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则包括:
S31,遍历事件集,生成1-频繁项目集,删除1-频繁项目集中项目频数小于最优支持度的项目,并根据项目频数对当前1-频繁项目集中的项目进行降序排序;
S32,创建标志为NULL的根节点,对于事件集中的每个事件,根据S31中排序后的项目顺序向树中添加节点,形成频繁模式树,其中,NULL表示空;
S33,从频繁模式树中获得条件模式基;
S34,利用获得的条件模式基,构建相应的条件频繁模式树;
S35,按照S33-S34,重复地对每个新构建的条件频繁模式树挖掘出频繁模式,直至获取所有频繁项目、频繁模式树为空,或频繁模式树仅包含单条路径时,通过置信度公式计算项目之间的置信度,确定项目之间的关联规则。
6.根据权利要求5所述的社会安全事件的关联规则挖掘方法,其特征在于,在频繁模式树中,事件集中每个事件中的所有项目组成一条从根节点到叶子节点的路径。
7.根据权利要求6所述的社会安全事件的关联规则挖掘方法,其特征在于,若大于等于2个事件中的项目按项目频数降序排序后,具有相同的前m个元素,则其在频繁模式树中共享前m个元素代表的节点,其中,频繁模式树中每个节点的计数为路径经过该节点的事件集的个数。
8.根据权利要求7所述的社会安全事件的关联规则挖掘方法,其特征在于,在树中插入项目时,若树中不存在该项目对应的节点,则创建分支。
9.根据权利要求5所述的社会安全事件的关联规则挖掘方法,其特征在于,所述通过置信度公式,确定项目之间的关联规则包括:
通过置信度公式计算项目之间的置信度,其中,置信度公式表示为:
其中,I1, I1、I2都表示项目集I中的项目;表示项目I1发生的情况下,项目I2发生的概率;∪表示并集;support(I1∪I2)、support(I1)分别表示项目I1、I2并集的支持度、项目I1的支持度;
判断是否大于预设的最小置信度,若是,则输出项目I1、I2之间关联规则,即:项目I1发生的情况下,项目I2发生的概率。
10.一种社会安全事件的关联规则挖掘装置,其特征在于,包括:
编码模块,用于获取社会安全事件集,对事件集中事件的每个属性值进行编码,其中,每个属性值称为一个项目;
确定模块,用于扫描事件集,得到项目集,从项目集中选取若干个项目作为粒子群优化算法的粒子,通过粒子群优化算法对粒子进行搜索计算,获取适应度值最大的粒子,并将其位置作为最优支持度;
挖掘模块,用于将事件集中项目频数大于等于最优支持度的项目,按照项目频数进行降序排序,事件集中的事件根据项目排序顺序构建频繁模式树,利用构建的构建频繁模式树获取所有频繁项目后,通过置信度公式,确定项目之间的关联规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910575962.2A CN110334796A (zh) | 2019-06-28 | 2019-06-28 | 一种社会安全事件的关联规则挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910575962.2A CN110334796A (zh) | 2019-06-28 | 2019-06-28 | 一种社会安全事件的关联规则挖掘方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334796A true CN110334796A (zh) | 2019-10-15 |
Family
ID=68144627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910575962.2A Pending CN110334796A (zh) | 2019-06-28 | 2019-06-28 | 一种社会安全事件的关联规则挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334796A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459994A (zh) * | 2020-03-06 | 2020-07-28 | 中国科学院计算技术研究所 | 一种面向残疾人大数据的分析方法及系统 |
CN111782705A (zh) * | 2020-05-28 | 2020-10-16 | 平安医疗健康管理股份有限公司 | 频繁数据的挖掘方法、装置、设备及计算机可读存储介质 |
CN113257429A (zh) * | 2021-05-12 | 2021-08-13 | 吾征智能技术(北京)有限公司 | 一种基于关联规则认知发热疾病的系统、设备、存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258049A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 一种基于海量数据的关联规则挖掘方法 |
CN105808766A (zh) * | 2016-03-21 | 2016-07-27 | 西南科技大学 | 一种基于事务项约束扩展的多层关联规则挖掘方法 |
CN106600100A (zh) * | 2016-11-01 | 2017-04-26 | 南京航空航天大学 | 一种基于加权的多种群粒子群优化的危险源原因分析方法 |
CN106874491A (zh) * | 2017-02-22 | 2017-06-20 | 北京科技大学 | 一种基于动态关联规则的设备故障信息挖掘方法 |
WO2018072711A1 (en) * | 2016-10-19 | 2018-04-26 | Huawei Technologies Co., Ltd. | Distributed FP-Growth With Node Table For Large-Scale Association Rule Mining |
CN108182294A (zh) * | 2018-01-31 | 2018-06-19 | 湖北工业大学 | 一种基于频繁项集增长算法的电影推荐方法及系统 |
CN108363728A (zh) * | 2018-01-10 | 2018-08-03 | 中国电力科学研究院有限公司 | 一种挖掘特高压变电设备状态数据关联规则的方法及系统 |
CN108681660A (zh) * | 2018-05-07 | 2018-10-19 | 福州大学 | 一种基于关联规则挖掘的非编码rna与疾病关系预测方法 |
CN109870988A (zh) * | 2019-03-15 | 2019-06-11 | 中铁工程服务有限公司 | 一种基于关联规则的盾构施工故障预警方法及系统 |
-
2019
- 2019-06-28 CN CN201910575962.2A patent/CN110334796A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258049A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 一种基于海量数据的关联规则挖掘方法 |
CN105808766A (zh) * | 2016-03-21 | 2016-07-27 | 西南科技大学 | 一种基于事务项约束扩展的多层关联规则挖掘方法 |
WO2018072711A1 (en) * | 2016-10-19 | 2018-04-26 | Huawei Technologies Co., Ltd. | Distributed FP-Growth With Node Table For Large-Scale Association Rule Mining |
CN106600100A (zh) * | 2016-11-01 | 2017-04-26 | 南京航空航天大学 | 一种基于加权的多种群粒子群优化的危险源原因分析方法 |
CN106874491A (zh) * | 2017-02-22 | 2017-06-20 | 北京科技大学 | 一种基于动态关联规则的设备故障信息挖掘方法 |
CN108363728A (zh) * | 2018-01-10 | 2018-08-03 | 中国电力科学研究院有限公司 | 一种挖掘特高压变电设备状态数据关联规则的方法及系统 |
CN108182294A (zh) * | 2018-01-31 | 2018-06-19 | 湖北工业大学 | 一种基于频繁项集增长算法的电影推荐方法及系统 |
CN108681660A (zh) * | 2018-05-07 | 2018-10-19 | 福州大学 | 一种基于关联规则挖掘的非编码rna与疾病关系预测方法 |
CN109870988A (zh) * | 2019-03-15 | 2019-06-11 | 中铁工程服务有限公司 | 一种基于关联规则的盾构施工故障预警方法及系统 |
Non-Patent Citations (2)
Title |
---|
李勇男等: "基于频繁模式树的涉恐情报关联分析", 《情报科学》 * |
高杰: "基于DBS-PSO优化算法在关联规则挖掘中的研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459994A (zh) * | 2020-03-06 | 2020-07-28 | 中国科学院计算技术研究所 | 一种面向残疾人大数据的分析方法及系统 |
CN111782705A (zh) * | 2020-05-28 | 2020-10-16 | 平安医疗健康管理股份有限公司 | 频繁数据的挖掘方法、装置、设备及计算机可读存储介质 |
CN113257429A (zh) * | 2021-05-12 | 2021-08-13 | 吾征智能技术(北京)有限公司 | 一种基于关联规则认知发热疾病的系统、设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102346829B (zh) | 基于集成分类的病毒检测方法 | |
CN106570128A (zh) | 一种基于关联规则分析的挖掘算法 | |
WO2016029570A1 (zh) | 一种面向电网调度的智能告警分析方法 | |
US20140337315A1 (en) | Method and system for storing, organizing and processing data in a relational database | |
CN110334796A (zh) | 一种社会安全事件的关联规则挖掘方法及装置 | |
CN104699755B (zh) | 一种基于数据挖掘的智能化多目标综合识别方法 | |
CN109325019B (zh) | 数据关联关系网络构建方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
Bertoin et al. | The cut-tree of large Galton–Watson trees and the Brownian CRT | |
CN103020321B (zh) | 近邻搜索方法与系统 | |
CN115544519A (zh) | 对计量自动化系统威胁情报进行安全性关联分析的方法 | |
CN113052225A (zh) | 基于聚类算法和时序关联规则的报警收敛方法及装置 | |
Xie et al. | Feature selection algorithm based on association rules mining method | |
CN113705099A (zh) | 基于对比学习的社交平台谣言检测模型构建方法及检测方法 | |
CN102799616A (zh) | 大规模社会网络中的离群点检测方法 | |
CN115203290A (zh) | 一种基于多维prefixspan算法的故障诊断方法 | |
Gopalan et al. | High performance frequent patterns extraction using compressed FP-tree | |
Petitjean et al. | Discovering significant evolution patterns from satellite image time series | |
CN116821053B (zh) | 数据上报方法、装置、计算机设备和存储介质 | |
KR20120049505A (ko) | 상위 k개의 중요 패턴들을 마이닝 하는 방법 | |
Dhaliwal et al. | Practical efficient string mining | |
CN105653567A (zh) | 一种文本序列数据中快速查找特征字符串的方法 | |
Ahmed et al. | Efficient mining of weighted frequent patterns over data streams | |
Babu et al. | Performance Analysis on Advances in Frequent Pattern Growth Algorithm | |
Grover | Comparative study of various sequential pattern mining algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |