CN110334796A

CN110334796A - 一种社会安全事件的关联规则挖掘方法及装置

Info

Publication number: CN110334796A
Application number: CN201910575962.2A
Authority: CN
Inventors: 许海涛; 苏童; 周贤伟; 林福宏; 吕兴; 安建伟
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-15

Abstract

本发明提供一种社会安全事件的关联规则挖掘方法及装置，能够提高关联规则的挖掘效率。所述方法包括：获取社会安全事件集，对事件集中事件的每个属性值进行编码，其中，每个属性值称为一个项目；扫描事件集，得到项目集，从项目集中选取若干个项目作为粒子群优化算法的粒子，通过粒子群优化算法对粒子进行搜索计算，获取适应度值最大的粒子，并将其位置作为最优支持度；将事件集中项目频数大于等于最优支持度的项目，按照项目频数进行降序排序，事件集中的事件根据项目排序顺序构建频繁模式树，利用构建的构建频繁模式树获取所有频繁项目后，通过置信度公式，确定项目之间的关联规则。本发明涉及社会安全领域。

Description

一种社会安全事件的关联规则挖掘方法及装置

技术领域

本发明涉及社会安全领域，特别是指一种社会安全事件的关联规则挖掘方法及装置。

背景技术

关联规则最早是由Agrawal等人提出的(1993)，最初是针对购物篮分析(BasketAnalysis)问题提出的，其目的是为了发现交易数据库中不同商品的关联规则，以此来合理安排商品的摆放位置，增加销量。之后诸多的研究人员对关联规则的挖掘问题进行了大量的研究，主要涉及关联规则的挖掘理论的探索、原有算法的改进和新算法的设计、增量式关联规则的挖掘、并行关联规则的挖掘、模糊关联规则挖掘以及关联规则的应用等问题。

现有技术中，关联规则挖掘算法大致可分为搜索算法、层次算法、数据集划分算法、抽样算法等，但是他们普遍存在的问题是算法效率不高，占用内存特别大。

发明内容

本发明要解决的技术问题是提供一种社会安全事件的关联规则挖掘方法及装置，以解决现有技术所存在的关联规则挖掘算法效率低、占用内存大的问题。

为解决上述技术问题，本发明实施例提供一种社会安全事件的关联规则挖掘方法，包括：

获取社会安全事件集，对事件集中事件的每个属性值进行编码，其中，每个属性值称为一个项目；

扫描事件集，得到项目集，从项目集中选取若干个项目作为粒子群优化算法的粒子，通过粒子群优化算法对粒子进行搜索计算，获取适应度值最大的粒子，并将其位置作为最优支持度；

将事件集中项目频数大于等于最优支持度的项目，按照项目频数进行降序排序，事件集中的事件根据项目排序顺序构建频繁模式树，利用构建的构建频繁模式树获取所有频繁项目后，通过置信度公式，确定项目之间的关联规则。

进一步地，所述扫描事件集，得到项目集，从项目集中选取若干个项目作为粒子群优化算法的粒子，通过粒子群优化算法对粒子进行搜索计算，获取适应度值最大的粒子，并将其位置作为最优支持度包括：

S21，扫描一遍事件集，得到项目集，对项目集中每个项目出现的次数进行计数，得到项目频数，删除项目集中项目频数小于最小支持度的项目，将当前的项目集中的项目按照项目频数降序排列；

S22，获取最小支持度上下各N/2个项目，并从获取的项目中随机选择N/20个项目作为粒子群优化算法的粒子，其中，N为预设的最大迭代次数；

S23，计算粒子的适应度值；

S24，当前粒子根据步长进行更新，并计算更新后的粒子的适应度值；

S25，判断当前迭代次数是否达到预设的最大迭代次数，若是，则终止迭代，并获取适应度值最大的粒子，将其位置作为最优支持度；否则，则返回执行S23。

进一步地，所述适应度值表示为：

H(x)＝-p(x)log₂p(x)

其中，F(x)表示项目x的适应度值，Support(x)表示项目x的支持度，H(x)表示项目x的信息熵，a、b都是常数参数，p(x)表示所有包含项目x的事件中，x出现的概率。

进一步地，当前粒子的更新公式为：

V_i＝V_i+c₁×rand()×(pbest_i-x_i)+c₂×rand()×(gbest_i-x_i)

x_i＝x_i+V_i

其中，V_i表示粒子i的步长，c₁和c₂都表示学习因子，rand()表示用于生成(0、1)之间的随机数的随机函数，x_i表示粒子i的位置，pbest_i、gbest_i分别表示粒子i遇到的最好的位置、除粒子i以外的其他粒子遇到的最好位置。

进一步地，所述将事件集中项目频数大于等于最优支持度的项目，按照项目频数进行降序排序，事件集中的事件根据项目排序顺序构建频繁模式树，利用构建的构建频繁模式树获取所有频繁项目后，通过置信度公式，确定项目之间的关联规则包括：

S31，遍历事件集，生成1-频繁项目集，删除1-频繁项目集中项目频数小于最优支持度的项目，并根据项目频数对当前1-频繁项目集中的项目进行降序排序；

S32，创建标志为NULL的根节点，对于事件集中的每个事件，根据S31中排序后的项目顺序向树中添加节点，形成频繁模式树，其中，NULL表示空；

S33，从频繁模式树中获得条件模式基；

S34，利用获得的条件模式基，构建相应的条件频繁模式树；

S35，按照S33-S34，重复地对每个新构建的条件频繁模式树挖掘出频繁模式，直至获取所有频繁项目、频繁模式树为空，或频繁模式树仅包含单条路径时，通过置信度公式计算项目之间的置信度，确定项目之间的关联规则。

进一步地，在频繁模式树中，事件集中每个事件中的所有项目组成一条从根节点到叶子节点的路径。

进一步地，若大于等于2个事件中的项目按项目频数降序排序后，具有相同的前m个元素，则其在频繁模式树中共享前m个元素代表的节点，其中，频繁模式树中每个节点的计数为路径经过该节点的事件集的个数。

进一步地，在树中插入项目时，若树中不存在该项目对应的节点，则创建分支。

进一步地，所述通过置信度公式，确定项目之间的关联规则包括：

通过置信度公式计算项目之间的置信度，其中，置信度公式表示为：

其中，I₁、I₂都表示项目集I中的项目；表示项目I₁发生的情况下，项目I₂发生的概率；∪表示并集；support(I₁∪I₂)、support(I₁)分别表示项目I₁、I₂并集的支持度、项目I₁的支持度；

判断是否大于预设的最小置信度，若是，则输出项目I₁、I₂之间关联规则，即：项目I₁发生的情况下，项目I₂发生的概率。

本发明实施例还提供一种社会安全事件的关联规则挖掘装置，包括：

编码模块，用于获取社会安全事件集，对事件集中事件的每个属性值进行编码，其中，每个属性值称为一个项目；

确定模块，用于扫描事件集，得到项目集，从项目集中选取若干个项目作为粒子群优化算法的粒子，通过粒子群优化算法对粒子进行搜索计算，获取适应度值最大的粒子，并将其位置作为最优支持度；

挖掘模块，用于将事件集中项目频数大于等于最优支持度的项目，按照项目频数进行降序排序，事件集中的事件根据项目排序顺序构建频繁模式树，利用构建的构建频繁模式树获取所有频繁项目后，通过置信度公式，确定项目之间的关联规则。

本发明的上述技术方案的有益效果如下：

上述方案中，获取社会安全事件集，对事件集中事件的每个属性值进行编码，其中，每个属性值称为一个项目；扫描事件集，得到项目集，从项目集中选取若干个项目作为粒子群优化算法的粒子，通过粒子群优化算法对粒子进行搜索计算，获取适应度值最大的粒子，并将其位置作为最优支持度；将事件集中项目频数大于等于最优支持度的项目，按照项目频数进行降序排序，事件集中的事件根据项目排序顺序构建频繁模式树，利用构建的构建频繁模式树获取所有频繁项目后，通过置信度公式，确定项目之间的关联规则；这样，将粒子群优化算法寻找最优支持度的高效性特点和通过频繁模式树进行全局搜索寻找频繁项目结合起来，实现一种新的关联规则挖掘优化算法--PSOFP-growth算法，通过PSOFP-growth算法能够更加快速地确定项目之间的关联规则，同时节省内存，从而提高关联规则的挖掘效率。

附图说明

图1为本发明实施例提供的社会安全事件的关联规则挖掘方法的流程示意图；

图2为本发明实施例提供的粒子群优化算法的工作流程示意图；

图3为本发明实施例提供的频繁模式树算法的工作流程示意图；

图4为本发明实施例提供的社会安全事件的关联规则挖掘装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的关联规则挖掘算法效率低、占用内存大的问题，提供一种社会安全事件的关联规则挖掘方法及装置。

实施例一

如图1所示，本发明实施例提供的社会安全事件的关联规则挖掘方法，包括：

S1，获取社会安全事件集，对事件集中事件的每个属性值进行编码，其中，每个属性值称为一个项目；

S2，扫描事件集，得到项目集，从项目集中选取若干个项目作为粒子群优化算法(PSO)的粒子，通过粒子群优化算法对粒子进行搜索计算，获取适应度值最大的粒子，并将其位置作为最优支持度；

S3，将事件集中项目频数大于等于最优支持度的项目，按照项目频数进行降序排序，事件集中的事件根据项目排序顺序构建频繁模式树(FP-growth)，利用构建的构建频繁模式树获取所有频繁项目后，通过置信度公式，确定项目之间的关联规则。

本发明实施例所述的社会安全事件的关联规则挖掘方法，获取社会安全事件集，对事件集中事件的每个属性值进行编码，其中，每个属性值称为一个项目；扫描事件集，得到项目集，从项目集中选取若干个项目作为粒子群优化算法的粒子，通过粒子群优化算法对粒子进行搜索计算，获取适应度值最大的粒子，并将其位置作为最优支持度；将事件集中项目频数大于等于最优支持度的项目，按照项目频数进行降序排序，事件集中的事件根据项目排序顺序构建频繁模式树，利用构建的构建频繁模式树获取所有频繁项目后，通过置信度公式，确定项目之间的关联规则；这样，将粒子群优化算法寻找最优支持度的高效性特点和通过频繁模式树进行全局搜索寻找频繁项目结合起来，实现一种新的关联规则挖掘优化算法--PSOFP-growth算法，通过PSOFP-growth算法能够更加快速地确定项目之间的关联规则，同时节省内存，从而提高关联规则的挖掘效率。

通过本实施例所述的关联规则挖掘方法对社会安全事件进行关联规则分析，在安全事件的检测、分析、预防起着重要作用，也可以用在商户精准营销、金融行业、气象关联分析、网络安全等其他行业中。

本实施例中，在对事件集中事件的每个属性值进行编码(S1)之前，还需要对事件集中的属性值进行缺失值处理、异常值处理、去重处理、噪音数据处理等预处理操作。

本实施例中，在预处理之后，需要对事件的每个属性值进行编码，由于不同的属性值，其数值范围不一样，因此对不同的属性分别采用不同的编码表示，具体的：

将不同的属性分别用相应的字母或者数字表示，例如，地区属性用字母表示，东城区用字母“D”来表示，西城区用字母“X”来表示，朝阳区用字母“C”来表示，丰台区用字母“F”来表示，通州区用字母“T”来表示，海淀区用字母“H”来表示，顺义区用字母“S”来表示，密云区用字母“M”来表示；年龄段属性划分成“0-20岁”“21-40岁”“41-60岁”“60岁以上”四个区间，分别用二位二进制“00、01、10、11”来表示；事件后果属性根据是否有人身伤害和财产损失，“有”设置成“1”，“没有”设置成“0”，用“00、01、10、11”表示，第一位表示人身伤害，第二位表示财产损失；作案类型属性根据是个人作案还是团体作案，“个人作案”设置成“0”，“团队作案”设置成“1”。

本实施例中，将编码后得到的字母或者数字保存到数据库中，设计成事件数据库，同时做好数据备份。

在前述社会安全事件的关联规则挖掘方法的具体实施方式中，进一步地，如图2所示，所述扫描事件集，得到项目集，从项目集中选取若干个项目作为粒子群优化算法的粒子，通过粒子群优化算法对粒子进行搜索计算，获取适应度值最大的粒子，并将其位置作为最优支持度包括：

S23，计算粒子的适应度值；

本实施例中，在确定粒子群优化算法的粒子后，首先要进行初始化，即：在可行解空间中粒子群随机设定位置和步长(其中，步长是指隔几个项目取一个粒子)，每个粒子均为优化目标问题的一个可行解，每个粒子将在可行解空间中进行运动，粒子的步长将决定其下一步运动的方向和距离。粒子将以迭代的方式接近当前的最优粒子直至最优解，迭代过程中在每个粒子将接近两个最优解：pbest_i、gbest_i，其中，pbest_i、gbest_i分别表示粒子i遇到的最好的位置、除粒子i以外的其他粒子遇到的最好位置。

本实施例中，首先扫描一遍事件集，得到频繁项为1的项目集(也可以称为：1-频繁项目集)，对项目集中每个项目出现的次数进行计数，得到项目频数；设置最小支持度(每个项目出现的最少次数，例如为5)，将项目集小于5的项目删除，然后将当前的项目集中的项目按照项目频数降序排列。

本实施例中，计算粒子的适应度值的公式为：

H(x)＝-p(x)log₂p(x)

本实施例中，a、b的范围都是[0,1]，a+b＝1。

本实施例中，为了更好地理解支持度的含义将其定义为：

假设，给定一个项目集I(事件集中的属性值的集合)和事件集D，一个项目在D上的支持度(support)是包含I₁的事件在D中所占的百分比：

其中，t表示事件，符合||·||表示集合，例如，||D||表示所有事件的集合。

在前述社会安全事件的关联规则挖掘方法的具体实施方式中，进一步地，当前粒子的更新公式为：

V_i＝V_i+c₁×rand()×(pbest_i-x_i)+c₂×rand()×(gbest_i-x_i)

x_i＝x_i+V_i

其中，V_i表示粒子i的步长，c₁和c₂都表示学习因子，通常取c₁＝c₂＝2，rand()表示用于生成(0、1)之间的随机数的随机函数，x_i表示粒子i的位置，pbest_i、gbest_i分别表示粒子i遇到的最好的位置、除粒子i以外的其他粒子遇到的最好位置。

在前述社会安全事件的关联规则挖掘方法的具体实施方式中，进一步地，如图3所示，所述将事件集中项目频数大于等于最优支持度的项目，按照项目频数进行降序排序，事件集中的事件根据项目排序顺序构建频繁模式树，利用构建的构建频繁模式树获取所有频繁项目后，通过置信度公式，确定项目之间的关联规则包括：

S33，从频繁模式树中获得条件模式基；

S34，利用获得的条件模式基，构建相应的条件频繁模式树；

S35，按照S33-S34，重复地对每个新构建的条件频繁模式树挖掘出频繁模式，直至获取所有频繁项目、频繁模式树为空，或频繁模式树仅包含单条路径时，通过置信度公式，确定项目之间的关联规则。

本实施例中，根据S31中排序后的项目顺序向树中添加节点的同时，在每个节点处记录该节点出现的支持度

本实施例中，在构建FP-tree(S32)之后，开始抽取频繁项目了，首先从树末端项目集合开始，然后在此基础上逐步构建更大的集合，大致分为三个步骤：

(1)从FP-tree中获得条件模式基；

(2)利用条件模式基，构建一个条件FP-tree；

(3)按照(1)-(2)，重复地对每个新构建的条件频繁模式树挖掘出频繁模式，直至获取所有频繁项目、该频繁模式树为空，或该频繁模式树仅包含单条路径(在单条路径的情况下，生成所有可能的子路径组合,每个子路径都是一个频繁模式)时。

本实施例中，找到所有频繁项目后，通过置信度公式，确定项目之间的关联规则。

在前述社会安全事件的关联规则挖掘方法的具体实施方式中，进一步地，在频繁模式树中，事件集中每个事件中的所有项目组成一条从根节点到叶子节点的路径。

在前述社会安全事件的关联规则挖掘方法的具体实施方式中，进一步地，若大于等于2个事件中的项目按项目频数降序排序后，具有相同的前m个元素，则其在频繁模式树中共享前m个元素代表的节点，其中，频繁模式树中每个节点的计数为路径经过该节点的事件集的个数。

在前述社会安全事件的关联规则挖掘方法的具体实施方式中，进一步地，在树中插入项目时，若树中不存在该项目对应的节点，则创建分支。

本实施例中，在构建频繁模式树的过程中，每次插入项目前，都要计算信息熵，只插入能使信息熵减小的项目，以此来节约频繁模式树的空间。

在前述社会安全事件的关联规则挖掘方法的具体实施方式中，进一步地，所述通过置信度公式，确定项目之间的关联规则包括：

本实施例中，一个在项目集I和事件集D上的形如的关联规则通过满足一定的可信度(confidence)来给出，关联规则的可信度是指包含I₁和I₂的事件与包含I₁的事件之比：

本实施例中，判断是否大于预设的最小置信度，若是，则输出项目I₁、I₂之间关联规则，即：项目I₁发生的情况下，项目I₂发生的概率，此时的关联规则满足最小支持度和最小可信度，可以称为强关联规则。

实施例二

本发明还提供一种社会安全事件的关联规则挖掘装置的具体实施方式，由于本发明提供的社会安全事件的关联规则挖掘装置与前述社会安全事件的关联规则挖掘方法的具体实施方式相对应，该社会安全事件的关联规则挖掘装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述社会安全事件的关联规则挖掘方法具体实施方式中的解释说明，也适用于本发明提供的社会安全事件的关联规则挖掘装置的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

如图4所示，本发明实施例还提供一种社会安全事件的关联规则挖掘装置，包括：

编码模块11，用于获取社会安全事件集，对事件集中事件的每个属性值进行编码，其中，每个属性值称为一个项目；

确定模块12，用于扫描事件集，得到项目集，从项目集中选取若干个项目作为粒子群优化算法的粒子，通过粒子群优化算法对粒子进行搜索计算，获取适应度值最大的粒子，并将其位置作为最优支持度；

挖掘模块13，用于将事件集中项目频数大于等于最优支持度的项目，按照项目频数进行降序排序，事件集中的事件根据项目排序顺序构建频繁模式树，利用构建的构建频繁模式树获取所有频繁项目后，通过置信度公式，确定项目之间的关联规则。

本发明实施例所述的社会安全事件的关联规则挖掘装置，获取社会安全事件集，对事件集中事件的每个属性值进行编码，其中，每个属性值称为一个项目；扫描事件集，得到项目集，从项目集中选取若干个项目作为粒子群优化算法的粒子，通过粒子群优化算法对粒子进行搜索计算，获取适应度值最大的粒子，并将其位置作为最优支持度；将事件集中项目频数大于等于最优支持度的项目，按照项目频数进行降序排序，事件集中的事件根据项目排序顺序构建频繁模式树，利用构建的构建频繁模式树获取所有频繁项目后，通过置信度公式，确定项目之间的关联规则；这样，将粒子群优化算法寻找最优支持度的高效性特点和通过频繁模式树进行全局搜索寻找频繁项目结合起来，实现一种新的关联规则挖掘优化算法--PSOFP-growth算法，通过PSOFP-growth算法能够更加快速地确定项目之间的关联规则，同时节省内存，从而提高关联规则的挖掘效率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种社会安全事件的关联规则挖掘方法，其特征在于，包括：

2.根据权利要求1所述的社会安全事件的关联规则挖掘方法，其特征在于，所述扫描事件集，得到项目集，从项目集中选取若干个项目作为粒子群优化算法的粒子，通过粒子群优化算法对粒子进行搜索计算，获取适应度值最大的粒子，并将其位置作为最优支持度包括：

S23，计算粒子的适应度值；

3.根据权利要求2所述的社会安全事件的关联规则挖掘方法，其特征在于，所述适应度值表示为：

H(x)＝-p(x)log₂p(x)

4.根据权利要求2所述的社会安全事件的关联规则挖掘方法，其特征在于，当前粒子的更新公式为：

V_i＝V_i+c₁×rand()×(pbest_i-x_i)+c₂×rand()×(gbest_i-x_i)

x_i＝x_i+V_i

5.根据权利要求1所述的社会安全事件的关联规则挖掘方法，其特征在于，所述将事件集中项目频数大于等于最优支持度的项目，按照项目频数进行降序排序，事件集中的事件根据项目排序顺序构建频繁模式树，利用构建的构建频繁模式树获取所有频繁项目后，通过置信度公式，确定项目之间的关联规则包括：

S33，从频繁模式树中获得条件模式基；

S34，利用获得的条件模式基，构建相应的条件频繁模式树；

6.根据权利要求5所述的社会安全事件的关联规则挖掘方法，其特征在于，在频繁模式树中，事件集中每个事件中的所有项目组成一条从根节点到叶子节点的路径。

7.根据权利要求6所述的社会安全事件的关联规则挖掘方法，其特征在于，若大于等于2个事件中的项目按项目频数降序排序后，具有相同的前m个元素，则其在频繁模式树中共享前m个元素代表的节点，其中，频繁模式树中每个节点的计数为路径经过该节点的事件集的个数。

8.根据权利要求7所述的社会安全事件的关联规则挖掘方法，其特征在于，在树中插入项目时，若树中不存在该项目对应的节点，则创建分支。

9.根据权利要求5所述的社会安全事件的关联规则挖掘方法，其特征在于，所述通过置信度公式，确定项目之间的关联规则包括：

其中，I₁, I₁、I₂都表示项目集I中的项目；表示项目I₁发生的情况下，项目I₂发生的概率；∪表示并集；support(I₁∪I₂)、support(I₁)分别表示项目I₁、I₂并集的支持度、项目I₁的支持度；

10.一种社会安全事件的关联规则挖掘装置，其特征在于，包括：