CN109657011B

CN109657011B - 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统

Info

Publication number: CN109657011B
Application number: CN201811418421.0A
Authority: CN
Inventors: 王红; 赵丽丽; 王彩雨; 王峰; 俞凤萍; 胡斌; 闫晓燕; 张伟
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2021-10-01
Anticipated expiration: 2038-11-26
Also published as: CN109657011A

Abstract

本公开公开了一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统，通过分析相关数据，进行数据清洗、数据转换实现数据预处理，加入数据融合丰富相关特征，进而挖掘有用信息构建标准化数据集，利用子空间聚类方法实现犯罪团伙划分归类，进而利用相关度模型确定恐怖袭击事件与犯罪团伙的相关关系，以此达到恐怖袭击预警作用。

Description

一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统

技术领域

本公开涉及数据分析挖掘技术领域，特别是涉及一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统。

背景技术

本部分的陈述仅仅是提高了与本公开相关的背景技术，并不必然构成现有技术。

自二十世纪九十年代以来，各种规模不等的恐怖袭击在世界多地发生，有在全球范围内迅速蔓延的趋势，提醒人们不能忽视恐怖主义对人类的威胁。所以相关安全部门十分重视恐怖组织与恐怖袭击事件数据的搜集和相关数据库的建设，同时基于相关数据库在数据挖掘方面进行了一系列的研究。

数据挖掘是一种在大型数据存储库中自动发现有用信息的过程，一般包括数据预处理、数据挖掘和后处理几部分。目前相关领域关于数据挖掘的应用非常多，但是，根据以往恐怖袭击事件的特征，挖掘恐怖袭击事件与犯罪团伙的相关关系方法尚未有成熟的结果和说明。当今社会，经济迅速发展的同时犯罪率也在逐步上升，且有多起恐怖袭击事件作案者尚未确定。如果将可能是同一个恐怖组织或个人在不同时间、不同地点多次作案的若干特征串联起来，不仅有助于统一组织侦查提高破案效率，而且可以尽早发现新生或者隐藏的恐怖分子。因此利用数据挖掘技术解决此类问题就显得尤为重要，为后期犯罪团伙的筛选提供客观依据。

综上所述，利于数据挖掘技术，发现恐怖袭击事件与犯罪团伙的相关关系，提升相关模型性能，尚缺乏有效的解决方案。

发明内容

为了解决现有技术的不足，本公开提供了一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统，本发明根据所给数据，对其进行数据分析、数据清洗和特征提取，从原始数据中获得更多信息和更好的训练数据进行恐怖袭击事件危害程度分级，根据所得级别结合现有特征进行子空间聚类，确定犯罪集团类别，进一步分析恐怖袭击案件与犯罪团伙的相关度。

第一方面，本公开提供了一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法；

一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法，包括：

步骤(1)：对每个历史事件的历史数据进行处理得到若干个历史数据点；每个历史事件都具有唯一的编号；所述对历史数据进行处理包括：对历史数据进行特征提取、对历史数据进行危害等级划分和对历史数据作案动机进行量化处理；每个历史数据点是包括每个历史事件对应历史数据的提取特征的特征值、划分等级和作案动机量化值形成的N*1维向量；

步骤(2)：对待预测事件的待测数据进行处理得到待测数据点；对待测数据进行处理，包括：对待测数据进行特征提取、对待测数据进行危害等级划分和对待测数据作案动机进行量化处理；待测数据点是包括待预测事件对应位置数据的提取特征的特征值、划分等级和作案动机量化值形成的N*1维向量；

步骤(3)：对步骤(1)得到的所有历史数据点进行降维处理；对降维处理后的结果进行子空间聚类，通过子空间聚类获得不同维度的历史数据类簇；

步骤(4)：计算待测数据点与历史数据类簇中每个数据对象之间的距离，把待测数据点到对应类簇中最近的数据对象的距离作为待测数据点到类簇的距离，如果待测数据点到类簇的距离在设定范围内，则匹配成功，否则匹配失败；最后，针对匹配成功的待测数据点，按照待测数据点到类簇的距离从小到大进行排序，排序靠前的M个犯罪团伙的名称作为输出值输出。

作为一些可能的是实现方式，所述步骤(1)的对历史数据进行特征提取的具体步骤为：

数据获取步骤：获取历史恐怖袭击事件的记录数据；每个事件都设有唯一的编号；所述记录数据，包括：地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期；

数据预处理步骤：对历史恐怖袭击事件的记录数据均进行预处理；

数据分类步骤：采用聚类算法对数据预处理后得到的数据进行分类，划分为若干类数据；

特征一次提取步骤：采用主成分分析算法，从每一类数据中提取出若干个特征；

特征整合步骤：对所有类数据提取的所有特征进行特征整合，得到特征集合；将特征集合以及每个特征对应的特征值作为结果输出。

作为一些可能的是实现方式，所述数据预处理步骤，包括：数据筛选子步骤、数据填充子步骤、数据转换子步骤和数据归一化子步骤；

所述数据筛选子步骤，对事件摘要、人质绑架结果和事件的解决日期进行剔除；

所述数据填充子步骤，对恐怖袭击事件发生的凶手数量、死亡总数、抓获的凶手数量、受伤总数、死亡总数、凶手死亡人数和财产损失金额记录缺失值进行填充，对于待测数据进行零填充；

所述数据转换子步骤，对恐怖袭击事件发生的地区、攻击类型，由文本数据转换成数字数据；

所述数据归一化子步骤，对经过数据筛选、数据填充和数据转换得到的数据，采用最大最小归一化算法进行归一化处理，根据归一化处理后的数据，针对每个事件均建立N*1的矩阵，N表示数据的个数，矩阵中每个元素的值是每个记录数据对应的数值归一化后的结果。

作为一些可能的是实现方式，将地区文本数据转换成数字数据的步骤为：将每个地区对应事件的死亡总数和凶手数量进行求和，对求和结果按照从大到小进行排序，排序后，按照从大到小的顺序依次对地区进行数字打分，数字打分依次递减。

将攻击类型文本数据转换成数字数据的步骤为：将每种攻击类型对应事件的死亡总数和凶手数量进行求和，对求和结果按照从大到小进行排序，排序后，按照从大到小的顺序依次对攻击类型进行数字打分，数字打分依次递减。

作为一些可能的是实现方式，所述步骤(1)的对历史数据进行危害等级划分的具体步骤为：

数据预处理步骤：对历史恐怖袭击事件的记录数均据进行预处理；

特征整合步骤：对所有类数据提取的所有特征进行特征整合，得到特征集合；

特征二次提取：采用主成分分析算法，从特征集合中提取出若干个指标特征；

特征权重获取步骤：采用熵权法计算每个指标特征的权重；

风险预警步骤：针对每个事件的每个指标特征的特征值，采用对应的权重进行加权计算，对计算结果按照从大到小进行排序，将排序的序号作为对应历史数据的危害等级输出。

作为一些可能的实现方式，采用熵权法计算每个指标特征的权重W_i：

假设给定k个指标特征X₁,X₂,…,X_k，其中X_i＝{x₁,x₂,…,x_n}；x_n代表不同样本对应的样本数据值；

假设指标特征的样本数据值x_i标准化后的值为Y_ij：

其中，min(X_i)表示X_i的样本数据值的最小值；max(X_i)表示X_i的样本数据值的最大值；

其次，求各指标特征的信息熵E_j，j＝1,2,...,k；假设有k个指标特征，每个指标特征对应n个样本数据值；

其中，

如果p_ij＝0，则定义

根据信息熵的计算公式，计算出k个指标的信息熵为E₁,E₂,…,E_k，然后，确定各指标权重W_i：

作为一些可能的是实现方式，所述步骤(1)的对历史数据作案动机进行量化处理的具体步骤为：

步骤(101)：采集以英文文本形式记录的历史数据作案动机，对历史数据的作案动机进行分词，利用python语言中的正则表达式删除历史数据中非文本内容得到初步处理的集合F₁；

步骤(102)：拼写检查更正，利用python中的pyenchant包检查集合F₁中单词拼写是否正确，将拼写错误的单词修改为拼写正确的单词，最后得到拼写正确的数据集合F₂；

步骤(103)：词型还原，利用python中的nltk包中的WordNetLemmatizer类库，将数据集合F₂中可组合成一个单词的相邻字符还原成对应单词，并利用python中的TextBlob库进行api处理，将所有单词统一为小写，输出还原为单个单词的集合F₃；

步骤(104)：对集合F₃的数据进行向量化处理，采用K均值聚类算法对向量化处理的结果进行关键词提取：

以每个历史事件的历史数据为一个数据对象，依次统计每条数据对象中不同单词出现的频率，作为对应的特征值，输出形式为(P_i,b_ij，c),其中P_i代表集合中第i个历史事件，b_ij代表第i个历史事件中的第j个单词，c代表第i个历史事件中的第j个单词在第i个历史事件中对应的词频，每个历史事件的所有单词的词频以一维向量V_m表示；

对生成的所有历史事件的一维向量进行K均值聚类，通过不断调整K值确定最优分类，最后产生K个类簇，根据类簇半径从大到小对K个类簇进行排序，然后，对排序的结果依次赋值，所述赋值为依次递减的自然数，每个赋值表示对应历史事件的历史数据作案动机的分值。

作为一些可能的是实现方式，所述步骤(2)的对待测数据进行特征提取的具体步骤为：

数据获取步骤：获取待测事件的记录数据；每个事件都设有唯一的编号；所述记录数据，包括：地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期；

数据预处理步骤：对待测事件的记录数均据进行预处理；

特征整合步骤：对所有类数据提取的所有特征进行特征整合，得到特征集合。

作为一些可能的是实现方式，所述步骤(2)的对待测数据进行危害等级划分的具体步骤为：

数据获取步骤：获取历史恐怖袭击事件和待测试事件的记录数据；每个事件都设有唯一的编号；所述记录数据，包括：地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期；

数据预处理步骤：对历史恐怖袭击事件和待测试事件的记录数均据进行预处理；

特征权重获取步骤：采用改进的熵权法计算每个指标特征的权重；

风险预警步骤：针对每个事件的每个指标特征的特征值，采用对应的权重进行加权计算，对计算结果按照从大到小进行排序，将待测试事件在所有排序中的排序序号作为结果输出。

作为一些可能的是实现方式，所述步骤(2)的对待测数据作案动机进行量化处理的具体步骤为：

步骤(201)：对历史数据和待测数据的作案动机分别进行分词，利用python语言中的正则表达式删除历史数据中非文本内容得到初步处理的集合F1；

步骤(202)：拼写检查更正，利用python中的pyenchant包检查集合F1中单词拼写是否正确，最后得到拼写完全正确的数据集合F₂；

步骤(203)：词型还原，利用python中的nltk包中的WordNetLemmatizer类库，将数据集合F₂中可组合成一个单词的相邻字符还原成对应单词，并利用python中的TextBlob库进行api处理，即将所有单词统一为小写，输出还原为单个单词的集合F₃；

步骤(204)：对集合F₃的数据进行向量化处理，采用K均值聚类算法对向量化处理的结果进行关键词提取：

将每个事件的作案动机数据为一个数据对象，依次统计每条数据对象中不同单词出现的频率，作为对应的特征值，输出形式为(P_i,b_ij，c),其中P_i代表集合中第i个事件，b_ij代表第i个事件中的第j个单词，c代表第i个事件中的第j个单词在第i个历史事件中对应的词频，每个事件的所有单词的词频以一维向量V_m表示；

对生成的所有事件的一维向量进行K均值聚类，通过不断调整K值确定最优分类，最后产生K个类簇，根据类簇半径从大到小对K个类簇进行排序，然后，对排序的结果依次赋值，所述赋值为依次递减的自然数，每个赋值表示对应事件的历史数据作案动机的分值；最后输出待测事件的作案动机分值。

作为一些可能的是实现方式，所述步骤(3)对步骤(1)得到的数据进行降维处理是采用主成分分析法进行降维处理。

作为一些可能的是实现方式，所述步骤(3)对降维处理后的结果进行子空间聚类，通过子空间聚类获得历史数据类簇的具体步骤为：

步骤(301)：使用DBSCAN聚类算法在每一维上对所有数据对象进行聚类，将所得一维空间的聚类集合记为X¹，设x¹，x²为所形成的聚类，则x¹，x²∈X¹；

步骤(302)：计算所有聚类的类间相似度，相似度定义为聚类所包含的相同数据对象元素的数目，依次计算集合中两个聚类的类间相似度sim；

步骤(303)：根据类间相似度，对每个类簇选取K个最相似类簇作为合并候选类簇；

步骤(304)：根据子空间的期望密度计算对应子空间的密度阈值；

设dth(S_m)为S_m子空间的密度阈值，

是S_m子空间期望密度，C＝﹛C₁,C₂,…,C_d﹜代表历史数据维集合，C＝C₁×C₂×…×C_d代表一个d维数据空间，其中，d为正整数；

其中，r为自定义值，设为r∈[0,1]，

步骤(305)：采用深度优先搜索的方式搜索子空间产生子空间聚类；

如果当前类簇与合并候选类簇中的类簇之间的距离小于子空间的密度阈值，则将当前类簇与候选类簇进行合并；

如果当前类簇与合并候选类簇中的类簇之间的距离大于等于子空间的密度阈值，则不将当前类簇与候选类簇进行合并；

步骤(306)：删除剩余数据噪声点，通过子空间聚类获得若干个历史数据类簇。

作为一些可能的是实现方式，所述步骤(4)的具体步骤为：

计算待测数据点与历史数据类簇每个数据对象之间的距离d：

其中，b_i表示待测数据点的向量坐标，u_i表示历史数据类簇中数据对象的向量坐标，r_i为对应子空间的半径，由于不同子空间的维度可能不同，所以采用一个基本缩放因子

来调节固定半径r大小，S_i代表对应子空间中数据对象的特征维度。

把待测数据点到对应类簇中最近的数据对象的距离作为待测数据到类簇的距离，如果待测数据在该类簇的设定半径范围内，则匹配成功，否则匹配失败；

最后，针对匹配成功的待测数据点，按照待测数据点到类簇的距离小到大进行排序，排序靠前的M个犯罪团伙的名称作为输出值输出。

一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

一种计算机可读存储介质，其上运行有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

与现有技术相比，本公开的有益效果是：

本发明通过数据清洗、数据变换等预处理方式挖掘有用信息标准化数据集，以便不断优化相关度模型。本发明使用的数据挖掘和子空间聚类实现方法极好的利用和提取了有关恐怖袭击事件的相关特征，具有较高准确率和执行效率，有助于尽快根据待测的恐怖袭击事件提供的待测数据与历史恐怖袭击事件的历史数据之间的数据关系，从历史犯罪团伙中挖掘出最接近的犯罪团伙，为恐怖袭击事件尽快破案提供辅助数据支持。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明整体过程流程图；

图2为历史数据特征初步提取流程图；

图3为历史数据危害等级划分流程图；

图4为历史数据作案动机量化流程图；

图5为待测数据特征初步提取流程图；

图6为待测数据危害等级划分流程图；

图7为待测数据作案动机量化流程图；

图8为本发明的系统聚类的树状图；

图9为本发明的熵权法得分分布图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明的典型实施例是针对恐怖袭击案件中相关数据确定模型进行犯罪团伙相关度预测。

当前世界上尤其是国外恐怖袭击事件常有发生，随着社会快速发展，一些反社会分子也愈发猖狂，且作案手段和作案工具也愈发先进，其带来的危害性更是不容小觑，且大多数案件的作案人员极有可能是同一个恐怖组织或个人在不同时间、不同地点多次作案。若将其串联起来统一组织侦査，有助于提高破案效率，尽早发现新生或者隐藏的恐怖分子。运用熵权法对恐怖袭击事件进行危害等级划分，运用所得结果结合处理后的历史数据进行子空间聚类，旨于将近两年间可能是同一个恐怖组织或个人在不同时间、不同地点多次作案的若干案件归为一类，再利用待测数据测试模型准确度，确定其与特定组织或个人的嫌疑关系。

本实施例采用的数据总共有114184例恐怖袭击事件的相关记录数据，每项事件需记录的指标有135项，表1所列的有20项主要指标。

表1Sepsis特征表

具体实例步骤，如图1所示，包括：

步骤一：历史数据特征初步处理，如图2所示，

(1-1)对获取的历史样本数据进行数据处理：

第一步：缺失值清洗。我们观察数据，计算其缺失值比例，确定缺失值的范围。按照缺失比例和字段重要性，采取不同的处理策略。对于重要性高、缺失率低的特征，通过经验或业务知识估计进行填充；对于重要性高、缺失率高的特征，使用其他比较复杂的模型计算补全。

第二步：进行数据格式转换：由于某些特征对应文本类型，比如地区等特征，对解决问题有一定的重要性的，所以将文本进行数字转换。对导入数据存在的部分列没有对齐的问题，以及多出列的情况，进行优化处理。

第三步：进行非需求数据清洗。数据中的GTD标志号、事件摘要、声称负责和持续事件解决的日期等与本发明无关，属于非需求数据，因此将其直接删除掉。

第四步：对清洗后的数据进行归一化处理，用于采用恐怖袭击事件的记录数据的最大值和最小值对筛选后的恐怖袭击事件的记录数据进行归一化处理，使得预处理的数据被限定在一定的范围内([0,1])，从而消除奇异样本数据导致的不良影响。

(1-2)数据分类：

利用系统聚类方法，将预处理后数据特征分为不同类进行特征提取。具体的，本发明采用最远邻元素聚类法，度量标准以pearson相关性划分区间。树状图(图8所示)显示了所有特征共分为四类，其中第一组特征包括：死亡总数、凶手死亡人数、经度。第二组特征包括：国家、目标/受害者的国籍等特征。第三组特征包括:受害者类型、纬度等特征。第四组特征包括：财产损失、地区、武器类型等特征。

(1-3)特征一次提取：

采用主成分分析法分别对每组数据进行特征一次提取，每组得到N_i个不同的特征。

(1-4)特征整合：

将每组数据一次提取后的特征N_i进行整合，得到N个主成分特征，包括： Main₁，Main₂，Main₃……Main_N。

由上述四步得到初步处理的历史数据。

步骤二：历史数据危害等级划分，如图3所示，

本步对步骤一中的所得数据特征进行进一步处理。

(2-1)特征二次提取：

所述主成分特征分析模块包括相关性检验模块和因子分析模块；所述相关性检验模块，用于检查恐怖袭击事件相关记录数据之间的相关性；所述因子分析模块，根据上述相关性，采用因子分析法对恐怖袭击事件的记录数据进行去相关化，得到若干个主成分特征，分别为 main₁，main₂……main_l。

采用因子分析方法得到主成分特征，具体的首先对处理后的数据N个特征 Main₁，Main₂，Main₃……Main_N进行偏相关性检验。具体的，本发明采用KMO和Bartlett 球形度检验。原始数据相关程度越高，越适合采用因子分析法进行分析。KMO的值越接近于0，表明原始变量相关性越弱；KMO的值越接近于1，则表明原始变量相关性越强。而Bartlett 球形度检验统计量主要看它的显著性，显著性低于0.05时则表明数据分布为球形分布，变量之间具有结构效度，证明原始数据适合进行因子分析。分析结果显示，KMO＝0.793>0.5且Bartlett的显著性为0小于0.05，说明特征变量间具有显著相关性，适合进行因子分析。公因子方差(图3所示)，反映了信息的提取程度((提取值/起始值)/100)和信息的损失量(1-提取程度)。对比起始值和提取值，可以看出信息的损失量。

为了进一步确定主成分特征的个数，本发明对原始N个特征 Main₁，Main₂，Main₃……Main_N进行因子分析，得到说明方差数总计图，其中包含N个特征初始特征值和方差贡献率，以及提取l个主成分的特征值和方差贡献率。按照特征值大于 1的原则可以提取出l个主成分。这l个主成分说明方差：累积方差贡献率达到92.911％>85％, 这样分析出来的主因子令人满意，可以用来训练模型。本发明进一步得到4个特征的旋转成分矩阵，可以直观地反映出哪些原始特征归为了同一类成分，以及初始特征在成分中所具有的载荷大小。

接着对这N个特征进行因子分析，具体采用降维模块进行因子分析，根据要达到的目标，要求低秩子空间对样本具有最大可分性，因此本发明拟对N个指标特征进行降维，去掉特征之间的多重相关性。

主要实现过程包括：对所有样本归一化；求样本的相关性矩阵；对相关性矩阵做特征值分解；取最大的d′特征值所对应的特征向量w₁,w₂,…,w_d′。参数d′可以通过交叉验证的方式获得，也可以设定阈值τ，选取使公式1成立的最小的，其中λ_i,λ_j均为特征值。本文设定阈值为τ＝0.85。i,j均为累加和控制变量，i＝1,2,…,d′,j＝1,2,…,d

最后提取出3个主成分特征，这三个特征值分别为：地域、财产损失和攻击类型。

其中λ_i,λ_j均为特征值。显然，低维空间与原始高维空间必有不同，因为舍弃了最小的 d-d′个特征值对应的特征向量，这是降维的结果。但舍弃这部分信息是必要的，一方面能使样本的采样密度增大，这正是降维的目的所在；另一方面，在一定程度上具有去噪的效果，因为最小的特征值所对应的特征向量往往与噪声有关。

(2-2)改进熵权法确定权重：

根据指标变异性的大小来确定客观权重。一般来说，若某个指标的信息熵E_j越小，表明指标值得变异程度越大，提供的信息量越多，在综合评价中所能起到的作用也越大，其权重也就越大。相反，某个指标的信息熵E_j越大，表明指标值得变异程度越小，提供的信息量也越少，在综合评价中所起到的作用也越小，其权重也就越小。

首先，通过数据标准化得到各指标的值Y_k，通过数据标准化将原始数据进行归一化处理，统一转化至0-1之间。假设给定了k个指标X₁,X₂,…,X_k,其中X_i{x₁,x₂,…,x_n}.假设对各指标数据标准化后的值为Y₁,Y₂,…,Y_k。

其次，求各指标的信息熵。根据信息论中信息熵的定义，一组数据的信息熵

其中

如果p_ij＝0,则定义

然后，确定各指标权重。根据信息熵的计算公式，计算出各个指标的信息熵为 E₁,E₂,…,E_k。指标的信息熵越小，其包含的内容就越多。反之，越少。一般来说，信息熵越小其权重就越大。如果想进一步加强指标的重要程度，可通过增强权重的准确精度来确定。因此改进的熵权法为：

最后，对每个特征进行评分。选取的三个相关特征为：地区、袭击类型和财产损失。设Z_l为第l个事件的最终得分，则

得分分布直方图如图9所示。通过分布直方图发现三个局部最小值点，分别为n₁,n₂,n₃。因此可将事件分为五个级别。分级范围如表2所示。由此产生相应数据的危害等级特征。

表2分级范围指标

等级	等级范围
		一级别	0
二级别	0～n<sub>1</sub>
		三级别	n<sub>1</sub>～n<sub>2</sub>
四级别	n<sub>2</sub>～n<sub>3</sub>
		五级别	n<sub>3</sub>以上

(2-3)方法验证

使用“高分事件”进行验证，发现高分实例基本都集中在得分的前10％，说明模型基本有效。

步骤三：历史数据作案动机量化，如图4所示，

由于该特征以英文文本形式呈现，所以我们需要进行英文文本挖掘预处理，主要包括以下步骤：

(3-1)按空格\符号分词：

提取作案动机特征，将只含一个特征的历史数据对象集合定义为F，利用python语言中的正则表达式，输入F集合，删除历史数据中少量的非文本内容和长度小于2的单词，得到初步处理的集合F₁。

(3-2)拼写检查更正：

输入数据集合F₁，利用python中的pyenchant包，检查集合中单词拼写是否正确，输出得到拼写错误的单词并将其改正，最后得到拼写完全正确的数据集合F₂。

(3-3)词型还原：

输入集合F₂，利用nltk包中的WordNetLemmatizer类库，将集合中可能组合成一个单词的相邻字符还原成对应单词，并利用TextBlob库进行api处理，即将同一条数据对象中同一单词统一为小写，输出还原为单个单词的集合F₃。

(3-4)关键词提取：

对集合F₃的数据进行向量化处理，采用K均值聚类算法对向量化处理的结果进行关键词提取：

步骤四：待测数据特征初步处理，如图5所示，

此步骤采取与步骤一同样的处理操作，最后得到初步处理的特征集合。

步骤五：待测数据危害等级划分，如图6所示，

将步骤四中处理后的待测数据与步骤一所得历史数据进行整合，每个事件都设有唯一的编号，对整合后的数据进行步骤二操作，从所得结果中分离出待测数据，由此得到待测数据集合的危害等级。

步骤六：待测数据作案动机量化，如图7所示，

同样地，将原始待测数据实施步骤三的操作，得到量化后的作案动机特征。

步骤七：降维

对步骤一、步骤二和步骤三所得特征进行整合，整合完成之后，由于特征矩阵过大，导致计算量大，训练时间长的问题，因此需要降低特征矩阵维度。本发明使用的降维方法是主成分分析(PCA)，主要过程包括：特征中心化，即每一维的数据都减去该维的均值；计算协方差矩阵；计算协方差矩阵的特征值和特征向量；选取大的特征值对应的特征向量，得到新的数据集合F_m。

步骤八：子空间聚类

(8-1)数据预处理，在每一维上形成基本聚类。

设C＝﹛C₁,C₂,…,C_d﹜代表历史数据维集合，C＝C₁×C₂×…×C_d代表一个d维数据空间，其中，d为正整数。设A代表由n个位于d维特征空间的数据对象组成的集合，记为A＝{A_i|i ∈[1,n],a_ij＝A_i.C_j},其中，点A_i＝(a_i1,a_i2,…,a_ij,…,a_id)，A_i的第j个属性值a_ij为其在C_j维上的取值。设K维子空间

其中，k≤n。在S_k子空间中的元组集合表示为 T_sk(a_i1，a_i2，…，a_ik)＝{A_i|A_i∈S_k，a_ij＝A_i·C_j|j∈[1，k]}。

输入数据集合F_m，集合中每个数据对象均含有n维属性值。使用DBSCAN方法在每一维上对所有数据对象进行聚类，将所得一维空间的聚类集合记为X¹。

(8-2)计算所有基本聚类间的相似度

给定x¹，x²∈X¹，其中，x¹在C_i维，x²在C_j维，且i≠j，其相似度定义为基本聚类x¹，x²所包含的相同数据对象元素的数目，记为sim(x¹,x²)＝|x¹∩x²|。输入一维聚类集合X¹，依次计算集合中两个元素的类间相似度sim。

(8-3)计算每个基本聚类的k个最相似聚类

给定聚类x∈X¹，若

sim(x,MSC(x))≥sim(x,x^p)，其中MSC(x)∈X¹，则称MSC(x)是x的最相似聚类。

将每个基本聚类x的最相似聚类限定在K个作为该基本聚类的合并候选，选取不同的k 值会对聚类精度产生不同影响，实验结果显示，随着k值增大，聚类精度不断改善，对于本发明的历史数据集，当K取值为8-13之间时，可以达到最好的聚类精度。

(8-4)选取局部密度阈值

由于子空间聚类的特性，子空间密度随着数据维数的增高而降低，在全局应用相同密度阈值是不合理的，因此根据子空间的期望密度为不同的子空间应用不同的密度阈值。

设dth(S_m)为S_m子空间的密度阈值，

是S_m子空间期望密度，则可得公式

其中，r为自定义值，在此设为r∈[0,1]。

(8-5)搜索子空间产生子空间聚类

采用深度优先搜索的方式产生子空间聚类。首先，对于第一步得到的基本聚类x∈X¹，形成S₁子空间；其次，由第三步所得各个基本聚类的K个最相似聚类，对基本聚类相似度大于等于dth(S₂)的基本聚类进行合并，形成S₂子空间；最后，运用递归方式依次搜索产生子空间聚类。

(8-6)删除剩余数据噪声点

(8-7)计算恐怖袭击案件与犯罪团伙之间的相关度

对于一个待分类的待测数据，若数据有多条，则以集合的形式输入，首先将它投影到S_i维空间中提取对应特征集，然后依次计算它与A_i中数据对象之间的距离，具体表示为

其中，b_i、u_i分别表示待测数据和对应数据对象的向量坐标，r_i为S_i子空间的半径，由于不同子空间的维度可能不同，所以采用一个基本缩放因子

本文把待测数据点到对应类簇中最近的数据对象的距离作为待测数据到类簇的距离(即距离的最小值)，如果待测数据在该类簇的预定半径范围内，则匹配成功，否则匹配失败，最后再根据距离大小确定与不同聚类的嫌疑相关度，距离越小则嫌疑相关度越大。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统，其特征是，包括：

第一处理模块：对每个历史事件的历史数据进行处理得到若干个历史数据点；每个历史事件都具有唯一的编号；所述第一处理模块，包括：对历史数据进行特征提取子模块、对历史数据进行危害等级划分子模块和对历史数据作案动机进行量化处理子模块；每个历史数据点是包括每个历史事件对应历史数据的提取特征的特征值、划分等级和作案动机量化值形成的N*1维向量；

所述第一处理模块的对历史数据作案动机进行量化处理子模块，包括：

第一分词单元：采集以英文文本形式记录的历史数据作案动机，对历史数据的作案动机进行分词，利用python语言中的正则表达式删除历史数据中非文本内容得到初步处理的集合F₁；

第一拼写检查更正单元：利用python中的pyenchant包检查集合F₁中单词拼写是否正确，将拼写错误的单词修改为拼写正确的单词，最后得到拼写正确的数据集合F₂；

第一词型还原单元：利用python中的nltk包中的WordNetLemmatizer类库，将数据集合F₂中可组合成一个单词的相邻字符还原成对应单词，并利用python中的TextBlob库进行api处理，将所有单词统一为小写，输出还原为单个单词的集合F₃；

第一关键词提取单元：对集合F₃的数据进行向量化处理，采用K均值聚类算法对向量化处理的结果进行关键词提取：

对生成的所有历史事件的一维向量进行K均值聚类，通过不断调整K值确定最优分类，最后产生K个类簇，根据类簇半径从大到小对K个类簇进行排序，然后，对排序的结果依次赋值，所述赋值为依次递减的自然数，每个赋值表示对应历史事件的历史数据作案动机的分值；

第二处理模块：对待预测事件的待测数据进行处理得到待测数据点；对第二处理模块，包括：对待测数据进行特征提取子模块、对待测数据进行危害等级划分子模块和对待测数据作案动机进行量化处理子模块；待测数据点是包括待预测事件对应位置数据的提取特征的特征值、划分等级和作案动机量化值形成的N*1维向量；

所述第二处理模块的对待测数据作案动机进行量化处理子模块，包括：

第二分词单元：对历史数据和待测数据的作案动机分别进行分词，利用python语言中的正则表达式删除历史数据中非文本内容得到初步处理的集合F1；

第二拼写检查更正单元：利用python中的pyenchant包检查集合F1中单词拼写是否正确，最后得到拼写完全正确的数据集合F₂；

第二词型还原单元：利用python中的nltk包中的WordNetLemmatizer类库，将数据集合F₂中可组合成一个单词的相邻字符还原成对应单词，并利用python中的TextBlob库进行api处理，即将所有单词统一为小写，输出还原为单个单词的集合F₃；

第二关键词提取单元：对集合F₃的数据进行向量化处理，采用K均值聚类算法对向量化处理的结果进行关键词提取：

对生成的所有事件的一维向量进行K均值聚类，通过不断调整K值确定最优分类，最后产生K个类簇，根据类簇半径从大到小对K个类簇进行排序，然后，对排序的结果依次赋值，所述赋值为依次递减的自然数，每个赋值表示对应事件的历史数据作案动机的分值；最后输出待测事件的作案动机分值；

降维模块：对第一处理模块得到的所有历史数据点进行降维处理；对降维处理后的结果进行子空间聚类，通过子空间聚类获得不同维度的历史数据类簇；

输出模块：计算待测数据点与历史数据类簇中每个数据对象之间的距离，把待测数据点到对应类簇中最近的数据对象的距离作为待测数据点到类簇的距离，如果待测数据点到类簇的距离在设定范围内，则匹配成功，否则匹配失败；最后，针对匹配成功的待测数据点，按照待测数据点到类簇的距离从小到大进行排序，排序靠前的M个犯罪团伙的名称作为输出值输出，从历史犯罪团伙中挖掘出最接近的犯罪团伙，输出给相关安全部门，为恐怖袭击事件尽快破案提供辅助数据支持。

2.如权利要求1所述的系统，其特征是，所述第一处理模块的对历史数据进行特征提取子模块包括：

第一数据获取单元：获取历史恐怖袭击事件的记录数据；每个事件都设有唯一的编号；所述记录数据，包括：地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期；

第一数据预处理单元：对历史恐怖袭击事件的记录数据均进行预处理；

第一数据分类单元：采用聚类算法对数据预处理后得到的数据进行分类，划分为若干类数据；

第一特征一次提取单元：采用主成分分析算法，从每一类数据中提取出若干个特征；

第一特征整合单元：对所有类数据提取的所有特征进行特征整合，得到特征集合；将特征集合以及每个特征对应的特征值作为结果输出。

3.如权利要求2所述的系统，其特征是，所述第一数据预处理单元，包括：数据筛选子单元、数据填充子单元、数据转换子单元和数据归一化子单元；

所述数据筛选子单元，对事件摘要、人质绑架结果和事件的解决日期进行剔除；

所述数据填充子单元，对恐怖袭击事件发生的凶手数量、死亡总数、抓获的凶手数量、受伤总数、死亡总数、凶手死亡人数和财产损失金额记录缺失值进行填充，对于待测数据进行零填充；

所述数据转换子单元，对恐怖袭击事件发生的地区、攻击类型，由文本数据转换成数字数据；

所述数据归一化子单元，对经过数据筛选、数据填充和数据转换得到的数据，采用最大最小归一化算法进行归一化处理，根据归一化处理后的数据，针对每个事件均建立N*1的矩阵，N表示数据的个数，矩阵中每个元素的值是每个记录数据对应的数值归一化后的结果。

4.如权利要求1所述的系统，其特征是，所第一处理模块的对历史数据进行危害等级划分子模块包括：

第二数据获取单元：获取历史恐怖袭击事件的记录数据；每个事件都设有唯一的编号；所述记录数据，包括：地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期；

第二数据预处理单元：对历史恐怖袭击事件的记录数均据进行预处理；

第二数据分类单元：采用聚类算法对数据预处理后得到的数据进行分类，划分为若干类数据；

第二特征一次提取单元：采用主成分分析算法，从每一类数据中提取出若干个特征；

第二特征整合单元：对所有类数据提取的所有特征进行特征整合，得到特征集合；

第一特征二次提取单元：采用主成分分析算法，从特征集合中提取出若干个指标特征；

第一特征权重获取单元：采用熵权法计算每个指标特征的权重；

第一风险预警单元：针对每个事件的每个指标特征的特征值，采用对应的权重进行加权计算，对计算结果按照从大到小进行排序，将排序的序号作为对应历史数据的危害等级输出。

5.如权利要求4所述的系统，其特征是，采用熵权法计算每个指标特征的权重W_i：

假设给定k个指标特征X₁,X₂,…,X_k，其中X_i＝{x_1,x₂,…,x_n}；x_n代表不同样本对应的样本数据值；

假设指标特征的样本数据值x_i标准化后的值为Y_ij：

其中，

如果p_ij＝0，则定义

6.如权利要求1所述的系统，其特征是，所述第二处理模块的对待测数据进行特征提取子模块，包括：

第三数据获取单元：获取待测事件的记录数据；每个事件都设有唯一的编号；所述记录数据，包括：地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期；

第三数据预处理单元：对待测事件的记录数均据进行预处理；

第三数据分类单元：采用聚类算法对数据预处理后得到的数据进行分类，划分为若干类数据；

第三特征一次提取单元：采用主成分分析算法，从每一类数据中提取出若干个特征；

第三特征整合单元：对所有类数据提取的所有特征进行特征整合，得到特征集合；

或者，

所述第二处理模块的对待测数据进行危害等级划分子模块，包括：

第四数据获取单元：获取历史恐怖袭击事件和待测试事件的记录数据；每个事件都设有唯一的编号；所述记录数据，包括：地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期；

第四数据预处理单元：对历史恐怖袭击事件和待测试事件的记录数均据进行预处理；

第四数据分类单元：采用聚类算法对数据预处理后得到的数据进行分类，划分为若干类数据；

第四特征一次提取单元：采用主成分分析算法，从每一类数据中提取出若干个特征；

第四特征整合单元：对所有类数据提取的所有特征进行特征整合，得到特征集合；

第二特征二次提取单元：采用主成分分析算法，从特征集合中提取出若干个指标特征；

第二特征权重获取单元：采用改进的熵权法计算每个指标特征的权重；

第二风险预警单元：针对每个事件的每个指标特征的特征值，采用对应的权重进行加权计算，对计算结果按照从大到小进行排序，将待测试事件在所有排序中的排序序号作为结果输出。

7.如权利要求1所述的系统，其特征是，所述降维模块，包括：

聚类单元：使用DBSCAN聚类算法在每一维上对所有数据对象进行聚类，将所得一维空间的聚类集合记为X¹，设x¹，x²为所形成的聚类，则x¹，x²∈X¹；

类间相似度计算单元：计算所有聚类的类间相似度，相似度定义为聚类所包含的相同数据对象元素的数目，依次计算集合中两个聚类的类间相似度sim；

最相似类簇选取单元：根据类间相似度，对每个类簇选取K个最相似类簇作为合并候选类簇；

密度阈值计算单元：根据子空间的期望密度计算对应子空间的密度阈值；

设dth(S_m)为S_m子空间的密度阈值，

其中，r为自定义值，设为r∈[0,1]，

搜索单元：采用深度优先搜索的方式搜索子空间产生子空间聚类；

噪声点删除单元：删除剩余数据噪声点，通过子空间聚类获得若干个历史数据类簇。

8.如权利要求1所述的系统，其特征是，所述输出模块，包括：

计算待测数据点与历史数据类簇每个数据对象之间的距离d：

来调节固定半径r大小，S_i代表对应子空间中数据对象的特征维度；

9.一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统，其特征是，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成的步骤，包括：

所述步骤(1)的对历史数据作案动机进行量化处理的具体步骤为：

所述步骤(2)的对待测数据作案动机进行量化处理的具体步骤为：

步骤(4)：计算待测数据点与历史数据类簇中每个数据对象之间的距离，把待测数据点到对应类簇中最近的数据对象的距离作为待测数据点到类簇的距离，如果待测数据点到类簇的距离在设定范围内，则匹配成功，否则匹配失败；最后，针对匹配成功的待测数据点，按照待测数据点到类簇的距离从小到大进行排序，排序靠前的M个犯罪团伙的名称作为输出值输出，从历史犯罪团伙中挖掘出最接近的犯罪团伙，输出给相关安全部门，为恐怖袭击事件尽快破案提供辅助数据支持。

10.如权利要求9所述的系统，其特征是，所述步骤(1)的对历史数据进行特征提取的具体步骤为：

11.如权利要求10所述的系统，其特征是，所述数据预处理步骤，包括：数据筛选子步骤、数据填充子步骤、数据转换子步骤和数据归一化子步骤；

12.如权利要求9所述的系统，其特征是，所述步骤(1)的对历史数据进行危害等级划分的具体步骤为：

特征权重获取步骤：采用熵权法计算每个指标特征的权重；

13.如权利要求12所述的系统，其特征是，采用熵权法计算每个指标特征的权重W_i：