CN109657011B - 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统 - Google Patents
一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统 Download PDFInfo
- Publication number
- CN109657011B CN109657011B CN201811418421.0A CN201811418421A CN109657011B CN 109657011 B CN109657011 B CN 109657011B CN 201811418421 A CN201811418421 A CN 201811418421A CN 109657011 B CN109657011 B CN 109657011B
- Authority
- CN
- China
- Prior art keywords
- data
- event
- historical
- feature
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007418 data mining Methods 0.000 title claims abstract description 20
- 238000012216 screening Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 76
- 238000000605 extraction Methods 0.000 claims description 45
- 238000004422 calculation algorithm Methods 0.000 claims description 43
- 230000034994 death Effects 0.000 claims description 34
- 231100000517 death Toxicity 0.000 claims description 34
- 230000008450 motivation Effects 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 28
- 230000010354 integration Effects 0.000 claims description 27
- 238000012163 sequencing technique Methods 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 21
- 238000000513 principal component analysis Methods 0.000 claims description 20
- 230000009467 reduction Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000006378 damage Effects 0.000 claims description 17
- 208000027418 Wounds and injury Diseases 0.000 claims description 15
- 208000014674 injury Diseases 0.000 claims description 15
- 238000003064 k means clustering Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000003247 decreasing effect Effects 0.000 claims description 9
- 238000013139 quantization Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 238000004140 cleaning Methods 0.000 abstract description 4
- 238000005065 mining Methods 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract 1
- 238000000556 factor analysis Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 6
- 230000008520 organization Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Computer Security & Cryptography (AREA)
- Human Resources & Organizations (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开公开了一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统,通过分析相关数据,进行数据清洗、数据转换实现数据预处理,加入数据融合丰富相关特征,进而挖掘有用信息构建标准化数据集,利用子空间聚类方法实现犯罪团伙划分归类,进而利用相关度模型确定恐怖袭击事件与犯罪团伙的相关关系,以此达到恐怖袭击预警作用。
Description
技术领域
本公开涉及数据分析挖掘技术领域,特别是涉及一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统。
背景技术
本部分的陈述仅仅是提高了与本公开相关的背景技术,并不必然构成现有技术。
自二十世纪九十年代以来,各种规模不等的恐怖袭击在世界多地发生,有在全球范围内迅速蔓延的趋势,提醒人们不能忽视恐怖主义对人类的威胁。所以相关安全部门十分重视恐怖组织与恐怖袭击事件数据的搜集和相关数据库的建设,同时基于相关数据库在数据挖掘方面进行了一系列的研究。
数据挖掘是一种在大型数据存储库中自动发现有用信息的过程,一般包括数据预处理、数据挖掘和后处理几部分。目前相关领域关于数据挖掘的应用非常多,但是,根据以往恐怖袭击事件的特征,挖掘恐怖袭击事件与犯罪团伙的相关关系方法尚未有成熟的结果和说明。当今社会,经济迅速发展的同时犯罪率也在逐步上升,且有多起恐怖袭击事件作案者尚未确定。如果将可能是同一个恐怖组织或个人在不同时间、不同地点多次作案的若干特征串联起来,不仅有助于统一组织侦查提高破案效率,而且可以尽早发现新生或者隐藏的恐怖分子。因此利用数据挖掘技术解决此类问题就显得尤为重要,为后期犯罪团伙的筛选提供客观依据。
综上所述,利于数据挖掘技术,发现恐怖袭击事件与犯罪团伙的相关关系,提升相关模型性能,尚缺乏有效的解决方案。
发明内容
为了解决现有技术的不足,本公开提供了一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统,本发明根据所给数据,对其进行数据分析、数据清洗和特征提取,从原始数据中获得更多信息和更好的训练数据进行恐怖袭击事件危害程度分级,根据所得级别结合现有特征进行子空间聚类,确定犯罪集团类别,进一步分析恐怖袭击案件与犯罪团伙的相关度。
第一方面,本公开提供了一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法;
一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法,包括:
步骤(1):对每个历史事件的历史数据进行处理得到若干个历史数据点;每个历史事件都具有唯一的编号;所述对历史数据进行处理包括:对历史数据进行特征提取、对历史数据进行危害等级划分和对历史数据作案动机进行量化处理;每个历史数据点是包括每个历史事件对应历史数据的提取特征的特征值、划分等级和作案动机量化值形成的N*1维向量;
步骤(2):对待预测事件的待测数据进行处理得到待测数据点;对待测数据进行处理,包括:对待测数据进行特征提取、对待测数据进行危害等级划分和对待测数据作案动机进行量化处理;待测数据点是包括待预测事件对应位置数据的提取特征的特征值、划分等级和作案动机量化值形成的N*1维向量;
步骤(3):对步骤(1)得到的所有历史数据点进行降维处理;对降维处理后的结果进行子空间聚类,通过子空间聚类获得不同维度的历史数据类簇;
步骤(4):计算待测数据点与历史数据类簇中每个数据对象之间的距离,把待测数据点到对应类簇中最近的数据对象的距离作为待测数据点到类簇的距离,如果待测数据点到类簇的距离在设定范围内,则匹配成功,否则匹配失败;最后,针对匹配成功的待测数据点,按照待测数据点到类簇的距离从小到大进行排序,排序靠前的M个犯罪团伙的名称作为输出值输出。
作为一些可能的是实现方式,所述步骤(1)的对历史数据进行特征提取的具体步骤为:
数据获取步骤:获取历史恐怖袭击事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
数据预处理步骤:对历史恐怖袭击事件的记录数据均进行预处理;
数据分类步骤:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
特征一次提取步骤:采用主成分分析算法,从每一类数据中提取出若干个特征;
特征整合步骤:对所有类数据提取的所有特征进行特征整合,得到特征集合;将特征集合以及每个特征对应的特征值作为结果输出。
作为一些可能的是实现方式,所述数据预处理步骤,包括:数据筛选子步骤、数据填充子步骤、数据转换子步骤和数据归一化子步骤;
所述数据筛选子步骤,对事件摘要、人质绑架结果和事件的解决日期进行剔除;
所述数据填充子步骤,对恐怖袭击事件发生的凶手数量、死亡总数、抓获的凶手数量、受伤总数、死亡总数、凶手死亡人数和财产损失金额记录缺失值进行填充,对于待测数据进行零填充;
所述数据转换子步骤,对恐怖袭击事件发生的地区、攻击类型,由文本数据转换成数字数据;
所述数据归一化子步骤,对经过数据筛选、数据填充和数据转换得到的数据,采用最大最小归一化算法进行归一化处理,根据归一化处理后的数据,针对每个事件均建立N*1的矩阵,N表示数据的个数,矩阵中每个元素的值是每个记录数据对应的数值归一化后的结果。
作为一些可能的是实现方式,将地区文本数据转换成数字数据的步骤为:将每个地区对应事件的死亡总数和凶手数量进行求和,对求和结果按照从大到小进行排序,排序后,按照从大到小的顺序依次对地区进行数字打分,数字打分依次递减。
将攻击类型文本数据转换成数字数据的步骤为:将每种攻击类型对应事件的死亡总数和凶手数量进行求和,对求和结果按照从大到小进行排序,排序后,按照从大到小的顺序依次对攻击类型进行数字打分,数字打分依次递减。
作为一些可能的是实现方式,所述步骤(1)的对历史数据进行危害等级划分的具体步骤为:
数据获取步骤:获取历史恐怖袭击事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
数据预处理步骤:对历史恐怖袭击事件的记录数均据进行预处理;
数据分类步骤:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
特征一次提取步骤:采用主成分分析算法,从每一类数据中提取出若干个特征;
特征整合步骤:对所有类数据提取的所有特征进行特征整合,得到特征集合;
特征二次提取:采用主成分分析算法,从特征集合中提取出若干个指标特征;
特征权重获取步骤:采用熵权法计算每个指标特征的权重;
风险预警步骤:针对每个事件的每个指标特征的特征值,采用对应的权重进行加权计算,对计算结果按照从大到小进行排序,将排序的序号作为对应历史数据的危害等级输出。
作为一些可能的实现方式,采用熵权法计算每个指标特征的权重Wi:
假设给定k个指标特征X1,X2,…,Xk,其中Xi={x1,x2,…,xn};xn代表不同样本对应的样本数据值;
假设指标特征的样本数据值xi标准化后的值为Yij:
其中,min(Xi)表示Xi的样本数据值的最小值;max(Xi)表示Xi的样本数据值的最大值;
其次,求各指标特征的信息熵Ej,j=1,2,...,k;假设有k个指标特征,每个指标特征对应n个样本数据值;
根据信息熵的计算公式,计算出k个指标的信息熵为E1,E2,…,Ek,然后,确定各指标权重Wi:
作为一些可能的是实现方式,所述步骤(1)的对历史数据作案动机进行量化处理的具体步骤为:
步骤(101):采集以英文文本形式记录的历史数据作案动机,对历史数据的作案动机进行分词,利用python语言中的正则表达式删除历史数据中非文本内容得到初步处理的集合F1;
步骤(102):拼写检查更正,利用python中的pyenchant包检查集合F1中单词拼写是否正确,将拼写错误的单词修改为拼写正确的单词,最后得到拼写正确的数据集合F2;
步骤(103):词型还原,利用python中的nltk包中的WordNetLemmatizer类库,将数据集合F2中可组合成一个单词的相邻字符还原成对应单词,并利用python中的TextBlob库进行api处理,将所有单词统一为小写,输出还原为单个单词的集合F3;
步骤(104):对集合F3的数据进行向量化处理,采用K均值聚类算法对向量化处理的结果进行关键词提取:
以每个历史事件的历史数据为一个数据对象,依次统计每条数据对象中不同单词出现的频率,作为对应的特征值,输出形式为(Pi,bij,c),其中Pi代表集合中第i个历史事件,bij代表第i个历史事件中的第j个单词,c代表第i个历史事件中的第j个单词在第i个历史事件中对应的词频,每个历史事件的所有单词的词频以一维向量Vm表示;
对生成的所有历史事件的一维向量进行K均值聚类,通过不断调整K值确定最优分类,最后产生K个类簇,根据类簇半径从大到小对K个类簇进行排序,然后,对排序的结果依次赋值,所述赋值为依次递减的自然数,每个赋值表示对应历史事件的历史数据作案动机的分值。
作为一些可能的是实现方式,所述步骤(2)的对待测数据进行特征提取的具体步骤为:
数据获取步骤:获取待测事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
数据预处理步骤:对待测事件的记录数均据进行预处理;
数据分类步骤:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
特征一次提取步骤:采用主成分分析算法,从每一类数据中提取出若干个特征;
特征整合步骤:对所有类数据提取的所有特征进行特征整合,得到特征集合。
作为一些可能的是实现方式,所述步骤(2)的对待测数据进行危害等级划分的具体步骤为:
数据获取步骤:获取历史恐怖袭击事件和待测试事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
数据预处理步骤:对历史恐怖袭击事件和待测试事件的记录数均据进行预处理;
数据分类步骤:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
特征一次提取步骤:采用主成分分析算法,从每一类数据中提取出若干个特征;
特征整合步骤:对所有类数据提取的所有特征进行特征整合,得到特征集合;
特征二次提取:采用主成分分析算法,从特征集合中提取出若干个指标特征;
特征权重获取步骤:采用改进的熵权法计算每个指标特征的权重;
风险预警步骤:针对每个事件的每个指标特征的特征值,采用对应的权重进行加权计算,对计算结果按照从大到小进行排序,将待测试事件在所有排序中的排序序号作为结果输出。
作为一些可能的是实现方式,所述步骤(2)的对待测数据作案动机进行量化处理的具体步骤为:
步骤(201):对历史数据和待测数据的作案动机分别进行分词,利用python语言中的正则表达式删除历史数据中非文本内容得到初步处理的集合F1;
步骤(202):拼写检查更正,利用python中的pyenchant包检查集合F1中单词拼写是否正确,最后得到拼写完全正确的数据集合F2;
步骤(203):词型还原,利用python中的nltk包中的WordNetLemmatizer类库,将数据集合F2中可组合成一个单词的相邻字符还原成对应单词,并利用python中的TextBlob库进行api处理,即将所有单词统一为小写,输出还原为单个单词的集合F3;
步骤(204):对集合F3的数据进行向量化处理,采用K均值聚类算法对向量化处理的结果进行关键词提取:
将每个事件的作案动机数据为一个数据对象,依次统计每条数据对象中不同单词出现的频率,作为对应的特征值,输出形式为(Pi,bij,c),其中Pi代表集合中第i个事件,bij代表第i个事件中的第j个单词,c代表第i个事件中的第j个单词在第i个历史事件中对应的词频,每个事件的所有单词的词频以一维向量Vm表示;
对生成的所有事件的一维向量进行K均值聚类,通过不断调整K值确定最优分类,最后产生K个类簇,根据类簇半径从大到小对K个类簇进行排序,然后,对排序的结果依次赋值,所述赋值为依次递减的自然数,每个赋值表示对应事件的历史数据作案动机的分值;最后输出待测事件的作案动机分值。
作为一些可能的是实现方式,所述步骤(3)对步骤(1)得到的数据进行降维处理是采用主成分分析法进行降维处理。
作为一些可能的是实现方式,所述步骤(3)对降维处理后的结果进行子空间聚类,通过子空间聚类获得历史数据类簇的具体步骤为:
步骤(301):使用DBSCAN聚类算法在每一维上对所有数据对象进行聚类,将所得一维空间的聚类集合记为X1,设x1,x2为所形成的聚类,则x1,x2∈X1;
步骤(302):计算所有聚类的类间相似度,相似度定义为聚类所包含的相同数据对象元素的数目,依次计算集合中两个聚类的类间相似度sim;
步骤(303):根据类间相似度,对每个类簇选取K个最相似类簇作为合并候选类簇;
步骤(304):根据子空间的期望密度计算对应子空间的密度阈值;
其中,r为自定义值,设为r∈[0,1],
步骤(305):采用深度优先搜索的方式搜索子空间产生子空间聚类;
如果当前类簇与合并候选类簇中的类簇之间的距离小于子空间的密度阈值,则将当前类簇与候选类簇进行合并;
如果当前类簇与合并候选类簇中的类簇之间的距离大于等于子空间的密度阈值,则不将当前类簇与候选类簇进行合并;
步骤(306):删除剩余数据噪声点,通过子空间聚类获得若干个历史数据类簇。
作为一些可能的是实现方式,所述步骤(4)的具体步骤为:
计算待测数据点与历史数据类簇每个数据对象之间的距离d:
其中,bi表示待测数据点的向量坐标,ui表示历史数据类簇中数据对象的向量坐标,ri为对应子空间的半径,由于不同子空间的维度可能不同,所以采用一个基本缩放因子来调节固定半径r大小,Si代表对应子空间中数据对象的特征维度。
把待测数据点到对应类簇中最近的数据对象的距离作为待测数据到类簇的距离,如果待测数据在该类簇的设定半径范围内,则匹配成功,否则匹配失败;
最后,针对匹配成功的待测数据点,按照待测数据点到类簇的距离小到大进行排序,排序靠前的M个犯罪团伙的名称作为输出值输出。
一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
一种计算机可读存储介质,其上运行有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
与现有技术相比,本公开的有益效果是:
本发明通过数据清洗、数据变换等预处理方式挖掘有用信息标准化数据集,以便不断优化相关度模型。本发明使用的数据挖掘和子空间聚类实现方法极好的利用和提取了有关恐怖袭击事件的相关特征,具有较高准确率和执行效率,有助于尽快根据待测的恐怖袭击事件提供的待测数据与历史恐怖袭击事件的历史数据之间的数据关系,从历史犯罪团伙中挖掘出最接近的犯罪团伙,为恐怖袭击事件尽快破案提供辅助数据支持。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明整体过程流程图;
图2为历史数据特征初步提取流程图;
图3为历史数据危害等级划分流程图;
图4为历史数据作案动机量化流程图;
图5为待测数据特征初步提取流程图;
图6为待测数据危害等级划分流程图;
图7为待测数据作案动机量化流程图;
图8为本发明的系统聚类的树状图;
图9为本发明的熵权法得分分布图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明的典型实施例是针对恐怖袭击案件中相关数据确定模型进行犯罪团伙相关度预测。
当前世界上尤其是国外恐怖袭击事件常有发生,随着社会快速发展,一些反社会分子也愈发猖狂,且作案手段和作案工具也愈发先进,其带来的危害性更是不容小觑,且大多数案件的作案人员极有可能是同一个恐怖组织或个人在不同时间、不同地点多次作案。若将其串联起来统一组织侦査,有助于提高破案效率,尽早发现新生或者隐藏的恐怖分子。运用熵权法对恐怖袭击事件进行危害等级划分,运用所得结果结合处理后的历史数据进行子空间聚类,旨于将近两年间可能是同一个恐怖组织或个人在不同时间、不同地点多次作案的若干案件归为一类,再利用待测数据测试模型准确度,确定其与特定组织或个人的嫌疑关系。
本实施例采用的数据总共有114184例恐怖袭击事件的相关记录数据,每项事件需记录的指标有135项,表1所列的有20项主要指标。
表1Sepsis特征表
具体实例步骤,如图1所示,包括:
步骤一:历史数据特征初步处理,如图2所示,
(1-1)对获取的历史样本数据进行数据处理:
第一步:缺失值清洗。我们观察数据,计算其缺失值比例,确定缺失值的范围。按照缺失比例和字段重要性,采取不同的处理策略。对于重要性高、缺失率低的特征,通过经验或业务知识估计进行填充;对于重要性高、缺失率高的特征,使用其他比较复杂的模型计算补全。
第二步:进行数据格式转换:由于某些特征对应文本类型,比如地区等特征,对解决问题有一定的重要性的,所以将文本进行数字转换。对导入数据存在的部分列没有对齐的问题,以及多出列的情况,进行优化处理。
第三步:进行非需求数据清洗。数据中的GTD标志号、事件摘要、声称负责和持续事件解决的日期等与本发明无关,属于非需求数据,因此将其直接删除掉。
第四步:对清洗后的数据进行归一化处理,用于采用恐怖袭击事件的记录数据的最大值和最小值对筛选后的恐怖袭击事件的记录数据进行归一化处理,使得预处理的数据被限定在一定的范围内([0,1]),从而消除奇异样本数据导致的不良影响。
(1-2)数据分类:
利用系统聚类方法,将预处理后数据特征分为不同类进行特征提取。具体的,本发明采用最远邻元素聚类法,度量标准以pearson相关性划分区间。树状图(图8所示)显示了所有特征共分为四类,其中第一组特征包括:死亡总数、凶手死亡人数、经度。第二组特征包括:国家、目标/受害者的国籍等特征。第三组特征包括:受害者类型、纬度等特征。第四组特征包括:财产损失、地区、武器类型等特征。
(1-3)特征一次提取:
采用主成分分析法分别对每组数据进行特征一次提取,每组得到Ni个不同的特征。
(1-4)特征整合:
将每组数据一次提取后的特征Ni进行整合,得到N个主成分特征,包括: Main1,Main2,Main3……MainN。
由上述四步得到初步处理的历史数据。
步骤二:历史数据危害等级划分,如图3所示,
本步对步骤一中的所得数据特征进行进一步处理。
(2-1)特征二次提取:
所述主成分特征分析模块包括相关性检验模块和因子分析模块;所述相关性检验模块,用于检查恐怖袭击事件相关记录数据之间的相关性;所述因子分析模块,根据上述相关性,采用因子分析法对恐怖袭击事件的记录数据进行去相关化,得到若干个主成分特征,分别为 main1,main2……mainl。
采用因子分析方法得到主成分特征,具体的首先对处理后的数据N个特征 Main1,Main2,Main3……MainN进行偏相关性检验。具体的,本发明采用KMO和Bartlett 球形度检验。原始数据相关程度越高,越适合采用因子分析法进行分析。KMO的值越接近于0,表明原始变量相关性越弱;KMO的值越接近于1,则表明原始变量相关性越强。而Bartlett 球形度检验统计量主要看它的显著性,显著性低于0.05时则表明数据分布为球形分布,变量之间具有结构效度,证明原始数据适合进行因子分析。分析结果显示,KMO=0.793>0.5且Bartlett的显著性为0小于0.05,说明特征变量间具有显著相关性,适合进行因子分析。公因子方差(图3所示),反映了信息的提取程度((提取值/起始值)/100)和信息的损失量(1-提取程度)。对比起始值和提取值,可以看出信息的损失量。
为了进一步确定主成分特征的个数,本发明对原始N个特征 Main1,Main2,Main3……MainN进行因子分析,得到说明方差数总计图,其中包含N个特征初始特征值和方差贡献率,以及提取l个主成分的特征值和方差贡献率。按照特征值大于 1的原则可以提取出l个主成分。这l个主成分说明方差:累积方差贡献率达到92.911%>85%, 这样分析出来的主因子令人满意,可以用来训练模型。本发明进一步得到4个特征的旋转成分矩阵,可以直观地反映出哪些原始特征归为了同一类成分,以及初始特征在成分中所具有的载荷大小。
接着对这N个特征进行因子分析,具体采用降维模块进行因子分析,根据要达到的目标,要求低秩子空间对样本具有最大可分性,因此本发明拟对N个指标特征进行降维,去掉特征之间的多重相关性。
主要实现过程包括:对所有样本归一化;求样本的相关性矩阵;对相关性矩阵做特征值分解;取最大的d′特征值所对应的特征向量w1,w2,…,wd′。参数d′可以通过交叉验证的方式获得,也可以设定阈值τ,选取使公式1成立的最小的,其中λi,λj均为特征值。本文设定阈值为τ=0.85。i,j均为累加和控制变量,i=1,2,…,d′,j=1,2,…,d
最后提取出3个主成分特征,这三个特征值分别为:地域、财产损失和攻击类型。
其中λi,λj均为特征值。显然,低维空间与原始高维空间必有不同,因为舍弃了最小的 d-d′个特征值对应的特征向量,这是降维的结果。但舍弃这部分信息是必要的,一方面能使样本的采样密度增大,这正是降维的目的所在;另一方面,在一定程度上具有去噪的效果,因为最小的特征值所对应的特征向量往往与噪声有关。
(2-2)改进熵权法确定权重:
根据指标变异性的大小来确定客观权重。一般来说,若某个指标的信息熵Ej越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵Ej越大,表明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。
首先,通过数据标准化得到各指标的值Yk,通过数据标准化将原始数据进行归一化处理,统一转化至0-1之间。假设给定了k个指标X1,X2,…,Xk,其中Xi{x1,x2,…,xn}.假设对各指标数据标准化后的值为Y1,Y2,…,Yk。
其次,求各指标的信息熵。根据信息论中信息熵的定义,一组数据的信息熵
然后,确定各指标权重。根据信息熵的计算公式,计算出各个指标的信息熵为 E1,E2,…,Ek。指标的信息熵越小,其包含的内容就越多。反之,越少。一般来说,信息熵越小其权重就越大。如果想进一步加强指标的重要程度,可通过增强权重的准确精度来确定。因此改进的熵权法为:
最后,对每个特征进行评分。选取的三个相关特征为:地区、袭击类型和财产损失。设Zl为第l个事件的最终得分,则得分分布直方图如图9所示。通过分布直方图发现三个局部最小值点,分别为n1,n2,n3。因此可将事件分为五个级别。分级范围如表2所示。由此产生相应数据的危害等级特征。
表2分级范围指标
等级 | 等级范围 |
一级别 | 0 |
二级别 | 0~n<sub>1</sub> |
三级别 | n<sub>1</sub>~n<sub>2</sub> |
四级别 | n<sub>2</sub>~n<sub>3</sub> |
五级别 | n<sub>3</sub>以上 |
(2-3)方法验证
使用“高分事件”进行验证,发现高分实例基本都集中在得分的前10%,说明模型基本有效。
步骤三:历史数据作案动机量化,如图4所示,
由于该特征以英文文本形式呈现,所以我们需要进行英文文本挖掘预处理,主要包括以下步骤:
(3-1)按空格\符号分词:
提取作案动机特征,将只含一个特征的历史数据对象集合定义为F,利用python语言中的正则表达式,输入F集合,删除历史数据中少量的非文本内容和长度小于2的单词,得到初步处理的集合F1。
(3-2)拼写检查更正:
输入数据集合F1,利用python中的pyenchant包,检查集合中单词拼写是否正确,输出得到拼写错误的单词并将其改正,最后得到拼写完全正确的数据集合F2。
(3-3)词型还原:
输入集合F2,利用nltk包中的WordNetLemmatizer类库,将集合中可能组合成一个单词的相邻字符还原成对应单词,并利用TextBlob库进行api处理,即将同一条数据对象中同一单词统一为小写,输出还原为单个单词的集合F3。
(3-4)关键词提取:
对集合F3的数据进行向量化处理,采用K均值聚类算法对向量化处理的结果进行关键词提取:
以每个历史事件的历史数据为一个数据对象,依次统计每条数据对象中不同单词出现的频率,作为对应的特征值,输出形式为(Pi,bij,c),其中Pi代表集合中第i个历史事件,bij代表第i个历史事件中的第j个单词,c代表第i个历史事件中的第j个单词在第i个历史事件中对应的词频,每个历史事件的所有单词的词频以一维向量Vm表示;
对生成的所有历史事件的一维向量进行K均值聚类,通过不断调整K值确定最优分类,最后产生K个类簇,根据类簇半径从大到小对K个类簇进行排序,然后,对排序的结果依次赋值,所述赋值为依次递减的自然数,每个赋值表示对应历史事件的历史数据作案动机的分值。
步骤四:待测数据特征初步处理,如图5所示,
此步骤采取与步骤一同样的处理操作,最后得到初步处理的特征集合。
步骤五:待测数据危害等级划分,如图6所示,
将步骤四中处理后的待测数据与步骤一所得历史数据进行整合,每个事件都设有唯一的编号,对整合后的数据进行步骤二操作,从所得结果中分离出待测数据,由此得到待测数据集合的危害等级。
步骤六:待测数据作案动机量化,如图7所示,
同样地,将原始待测数据实施步骤三的操作,得到量化后的作案动机特征。
步骤七:降维
对步骤一、步骤二和步骤三所得特征进行整合,整合完成之后,由于特征矩阵过大,导致计算量大,训练时间长的问题,因此需要降低特征矩阵维度。本发明使用的降维方法是主成分分析(PCA),主要过程包括:特征中心化,即每一维的数据都减去该维的均值;计算协方差矩阵;计算协方差矩阵的特征值和特征向量;选取大的特征值对应的特征向量,得到新的数据集合Fm。
步骤八:子空间聚类
(8-1)数据预处理,在每一维上形成基本聚类。
设C=﹛C1,C2,…,Cd﹜代表历史数据维集合,C=C1×C2×…×Cd代表一个d维数据空间,其中,d为正整数。设A代表由n个位于d维特征空间的数据对象组成的集合,记为A={Ai|i ∈[1,n],aij=Ai.Cj},其中,点Ai=(ai1,ai2,…,aij,…,aid),Ai的第j个属性值aij为其在Cj维上的取值。设K维子空间其中,k≤n。在Sk子空间中的元组集合表示为 Tsk(ai1,ai2,…,aik)={Ai|Ai∈Sk,aij=Ai·Cj|j∈[1,k]}。
输入数据集合Fm,集合中每个数据对象均含有n维属性值。使用DBSCAN方法在每一维上对所有数据对象进行聚类,将所得一维空间的聚类集合记为X1。
(8-2)计算所有基本聚类间的相似度
给定x1,x2∈X1,其中,x1在Ci维,x2在Cj维,且i≠j,其相似度定义为基本聚类x1,x2所包含的相同数据对象元素的数目,记为sim(x1,x2)=|x1∩x2|。输入一维聚类集合X1,依次计算集合中两个元素的类间相似度sim。
(8-3)计算每个基本聚类的k个最相似聚类
将每个基本聚类x的最相似聚类限定在K个作为该基本聚类的合并候选,选取不同的k 值会对聚类精度产生不同影响,实验结果显示,随着k值增大,聚类精度不断改善,对于本发明的历史数据集,当K取值为8-13之间时,可以达到最好的聚类精度。
(8-4)选取局部密度阈值
由于子空间聚类的特性,子空间密度随着数据维数的增高而降低,在全局应用相同密度阈值是不合理的,因此根据子空间的期望密度为不同的子空间应用不同的密度阈值。
其中,r为自定义值,在此设为r∈[0,1]。
(8-5)搜索子空间产生子空间聚类
采用深度优先搜索的方式产生子空间聚类。首先,对于第一步得到的基本聚类x∈X1,形成S1子空间;其次,由第三步所得各个基本聚类的K个最相似聚类,对基本聚类相似度大于等于dth(S2)的基本聚类进行合并,形成S2子空间;最后,运用递归方式依次搜索产生子空间聚类。
(8-6)删除剩余数据噪声点
(8-7)计算恐怖袭击案件与犯罪团伙之间的相关度
对于一个待分类的待测数据,若数据有多条,则以集合的形式输入,首先将它投影到Si维空间中提取对应特征集,然后依次计算它与Ai中数据对象之间的距离,具体表示为
本文把待测数据点到对应类簇中最近的数据对象的距离作为待测数据到类簇的距离(即距离的最小值),如果待测数据在该类簇的预定半径范围内,则匹配成功,否则匹配失败,最后再根据距离大小确定与不同聚类的嫌疑相关度,距离越小则嫌疑相关度越大。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (16)
1.一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统,其特征是,包括:
第一处理模块:对每个历史事件的历史数据进行处理得到若干个历史数据点;每个历史事件都具有唯一的编号;所述第一处理模块,包括:对历史数据进行特征提取子模块、对历史数据进行危害等级划分子模块和对历史数据作案动机进行量化处理子模块;每个历史数据点是包括每个历史事件对应历史数据的提取特征的特征值、划分等级和作案动机量化值形成的N*1维向量;
所述第一处理模块的对历史数据作案动机进行量化处理子模块,包括:
第一分词单元:采集以英文文本形式记录的历史数据作案动机,对历史数据的作案动机进行分词,利用python语言中的正则表达式删除历史数据中非文本内容得到初步处理的集合F1;
第一拼写检查更正单元:利用python中的pyenchant包检查集合F1中单词拼写是否正确,将拼写错误的单词修改为拼写正确的单词,最后得到拼写正确的数据集合F2;
第一词型还原单元:利用python中的nltk包中的WordNetLemmatizer类库,将数据集合F2中可组合成一个单词的相邻字符还原成对应单词,并利用python中的TextBlob库进行api处理,将所有单词统一为小写,输出还原为单个单词的集合F3;
第一关键词提取单元:对集合F3的数据进行向量化处理,采用K均值聚类算法对向量化处理的结果进行关键词提取:
以每个历史事件的历史数据为一个数据对象,依次统计每条数据对象中不同单词出现的频率,作为对应的特征值,输出形式为(Pi,bij,c),其中Pi代表集合中第i个历史事件,bij代表第i个历史事件中的第j个单词,c代表第i个历史事件中的第j个单词在第i个历史事件中对应的词频,每个历史事件的所有单词的词频以一维向量Vm表示;
对生成的所有历史事件的一维向量进行K均值聚类,通过不断调整K值确定最优分类,最后产生K个类簇,根据类簇半径从大到小对K个类簇进行排序,然后,对排序的结果依次赋值,所述赋值为依次递减的自然数,每个赋值表示对应历史事件的历史数据作案动机的分值;
第二处理模块:对待预测事件的待测数据进行处理得到待测数据点;对第二处理模块,包括:对待测数据进行特征提取子模块、对待测数据进行危害等级划分子模块和对待测数据作案动机进行量化处理子模块;待测数据点是包括待预测事件对应位置数据的提取特征的特征值、划分等级和作案动机量化值形成的N*1维向量;
所述第二处理模块的对待测数据作案动机进行量化处理子模块,包括:
第二分词单元:对历史数据和待测数据的作案动机分别进行分词,利用python语言中的正则表达式删除历史数据中非文本内容得到初步处理的集合F1;
第二拼写检查更正单元:利用python中的pyenchant包检查集合F1中单词拼写是否正确,最后得到拼写完全正确的数据集合F2;
第二词型还原单元:利用python中的nltk包中的WordNetLemmatizer类库,将数据集合F2中可组合成一个单词的相邻字符还原成对应单词,并利用python中的TextBlob库进行api处理,即将所有单词统一为小写,输出还原为单个单词的集合F3;
第二关键词提取单元:对集合F3的数据进行向量化处理,采用K均值聚类算法对向量化处理的结果进行关键词提取:
将每个事件的作案动机数据为一个数据对象,依次统计每条数据对象中不同单词出现的频率,作为对应的特征值,输出形式为(Pi,bij,c),其中Pi代表集合中第i个事件,bij代表第i个事件中的第j个单词,c代表第i个事件中的第j个单词在第i个历史事件中对应的词频,每个事件的所有单词的词频以一维向量Vm表示;
对生成的所有事件的一维向量进行K均值聚类,通过不断调整K值确定最优分类,最后产生K个类簇,根据类簇半径从大到小对K个类簇进行排序,然后,对排序的结果依次赋值,所述赋值为依次递减的自然数,每个赋值表示对应事件的历史数据作案动机的分值;最后输出待测事件的作案动机分值;
降维模块:对第一处理模块得到的所有历史数据点进行降维处理;对降维处理后的结果进行子空间聚类,通过子空间聚类获得不同维度的历史数据类簇;
输出模块:计算待测数据点与历史数据类簇中每个数据对象之间的距离,把待测数据点到对应类簇中最近的数据对象的距离作为待测数据点到类簇的距离,如果待测数据点到类簇的距离在设定范围内,则匹配成功,否则匹配失败;最后,针对匹配成功的待测数据点,按照待测数据点到类簇的距离从小到大进行排序,排序靠前的M个犯罪团伙的名称作为输出值输出,从历史犯罪团伙中挖掘出最接近的犯罪团伙,输出给相关安全部门,为恐怖袭击事件尽快破案提供辅助数据支持。
2.如权利要求1所述的系统,其特征是,所述第一处理模块的对历史数据进行特征提取子模块包括:
第一数据获取单元:获取历史恐怖袭击事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
第一数据预处理单元:对历史恐怖袭击事件的记录数据均进行预处理;
第一数据分类单元:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
第一特征一次提取单元:采用主成分分析算法,从每一类数据中提取出若干个特征;
第一特征整合单元:对所有类数据提取的所有特征进行特征整合,得到特征集合;将特征集合以及每个特征对应的特征值作为结果输出。
3.如权利要求2所述的系统,其特征是,所述第一数据预处理单元,包括:数据筛选子单元、数据填充子单元、数据转换子单元和数据归一化子单元;
所述数据筛选子单元,对事件摘要、人质绑架结果和事件的解决日期进行剔除;
所述数据填充子单元,对恐怖袭击事件发生的凶手数量、死亡总数、抓获的凶手数量、受伤总数、死亡总数、凶手死亡人数和财产损失金额记录缺失值进行填充,对于待测数据进行零填充;
所述数据转换子单元,对恐怖袭击事件发生的地区、攻击类型,由文本数据转换成数字数据;
所述数据归一化子单元,对经过数据筛选、数据填充和数据转换得到的数据,采用最大最小归一化算法进行归一化处理,根据归一化处理后的数据,针对每个事件均建立N*1的矩阵,N表示数据的个数,矩阵中每个元素的值是每个记录数据对应的数值归一化后的结果。
4.如权利要求1所述的系统,其特征是,所第一处理模块的对历史数据进行危害等级划分子模块包括:
第二数据获取单元:获取历史恐怖袭击事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
第二数据预处理单元:对历史恐怖袭击事件的记录数均据进行预处理;
第二数据分类单元:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
第二特征一次提取单元:采用主成分分析算法,从每一类数据中提取出若干个特征;
第二特征整合单元:对所有类数据提取的所有特征进行特征整合,得到特征集合;
第一特征二次提取单元:采用主成分分析算法,从特征集合中提取出若干个指标特征;
第一特征权重获取单元:采用熵权法计算每个指标特征的权重;
第一风险预警单元:针对每个事件的每个指标特征的特征值,采用对应的权重进行加权计算,对计算结果按照从大到小进行排序,将排序的序号作为对应历史数据的危害等级输出。
6.如权利要求1所述的系统,其特征是,所述第二处理模块的对待测数据进行特征提取子模块,包括:
第三数据获取单元:获取待测事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
第三数据预处理单元:对待测事件的记录数均据进行预处理;
第三数据分类单元:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
第三特征一次提取单元:采用主成分分析算法,从每一类数据中提取出若干个特征;
第三特征整合单元:对所有类数据提取的所有特征进行特征整合,得到特征集合;
或者,
所述第二处理模块的对待测数据进行危害等级划分子模块,包括:
第四数据获取单元:获取历史恐怖袭击事件和待测试事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
第四数据预处理单元:对历史恐怖袭击事件和待测试事件的记录数均据进行预处理;
第四数据分类单元:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
第四特征一次提取单元:采用主成分分析算法,从每一类数据中提取出若干个特征;
第四特征整合单元:对所有类数据提取的所有特征进行特征整合,得到特征集合;
第二特征二次提取单元:采用主成分分析算法,从特征集合中提取出若干个指标特征;
第二特征权重获取单元:采用改进的熵权法计算每个指标特征的权重;
第二风险预警单元:针对每个事件的每个指标特征的特征值,采用对应的权重进行加权计算,对计算结果按照从大到小进行排序,将待测试事件在所有排序中的排序序号作为结果输出。
7.如权利要求1所述的系统,其特征是,所述降维模块,包括:
聚类单元:使用DBSCAN聚类算法在每一维上对所有数据对象进行聚类,将所得一维空间的聚类集合记为X1,设x1,x2为所形成的聚类,则x1,x2∈X1;
类间相似度计算单元:计算所有聚类的类间相似度,相似度定义为聚类所包含的相同数据对象元素的数目,依次计算集合中两个聚类的类间相似度sim;
最相似类簇选取单元:根据类间相似度,对每个类簇选取K个最相似类簇作为合并候选类簇;
密度阈值计算单元:根据子空间的期望密度计算对应子空间的密度阈值;
其中,r为自定义值,设为r∈[0,1],
搜索单元:采用深度优先搜索的方式搜索子空间产生子空间聚类;
如果当前类簇与合并候选类簇中的类簇之间的距离小于子空间的密度阈值,则将当前类簇与候选类簇进行合并;
如果当前类簇与合并候选类簇中的类簇之间的距离大于等于子空间的密度阈值,则不将当前类簇与候选类簇进行合并;
噪声点删除单元:删除剩余数据噪声点,通过子空间聚类获得若干个历史数据类簇。
9.一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成的步骤,包括:
步骤(1):对每个历史事件的历史数据进行处理得到若干个历史数据点;每个历史事件都具有唯一的编号;所述对历史数据进行处理包括:对历史数据进行特征提取、对历史数据进行危害等级划分和对历史数据作案动机进行量化处理;每个历史数据点是包括每个历史事件对应历史数据的提取特征的特征值、划分等级和作案动机量化值形成的N*1维向量;
所述步骤(1)的对历史数据作案动机进行量化处理的具体步骤为:
步骤(101):采集以英文文本形式记录的历史数据作案动机,对历史数据的作案动机进行分词,利用python语言中的正则表达式删除历史数据中非文本内容得到初步处理的集合F1;
步骤(102):拼写检查更正,利用python中的pyenchant包检查集合F1中单词拼写是否正确,将拼写错误的单词修改为拼写正确的单词,最后得到拼写正确的数据集合F2;
步骤(103):词型还原,利用python中的nltk包中的WordNetLemmatizer类库,将数据集合F2中可组合成一个单词的相邻字符还原成对应单词,并利用python中的TextBlob库进行api处理,将所有单词统一为小写,输出还原为单个单词的集合F3;
步骤(104):对集合F3的数据进行向量化处理,采用K均值聚类算法对向量化处理的结果进行关键词提取:
以每个历史事件的历史数据为一个数据对象,依次统计每条数据对象中不同单词出现的频率,作为对应的特征值,输出形式为(Pi,bij,c),其中Pi代表集合中第i个历史事件,bij代表第i个历史事件中的第j个单词,c代表第i个历史事件中的第j个单词在第i个历史事件中对应的词频,每个历史事件的所有单词的词频以一维向量Vm表示;
对生成的所有历史事件的一维向量进行K均值聚类,通过不断调整K值确定最优分类,最后产生K个类簇,根据类簇半径从大到小对K个类簇进行排序,然后,对排序的结果依次赋值,所述赋值为依次递减的自然数,每个赋值表示对应历史事件的历史数据作案动机的分值;
步骤(2):对待预测事件的待测数据进行处理得到待测数据点;对待测数据进行处理,包括:对待测数据进行特征提取、对待测数据进行危害等级划分和对待测数据作案动机进行量化处理;待测数据点是包括待预测事件对应位置数据的提取特征的特征值、划分等级和作案动机量化值形成的N*1维向量;
所述步骤(2)的对待测数据作案动机进行量化处理的具体步骤为:
步骤(201):对历史数据和待测数据的作案动机分别进行分词,利用python语言中的正则表达式删除历史数据中非文本内容得到初步处理的集合F1;
步骤(202):拼写检查更正,利用python中的pyenchant包检查集合F1中单词拼写是否正确,最后得到拼写完全正确的数据集合F2;
步骤(203):词型还原,利用python中的nltk包中的WordNetLemmatizer类库,将数据集合F2中可组合成一个单词的相邻字符还原成对应单词,并利用python中的TextBlob库进行api处理,即将所有单词统一为小写,输出还原为单个单词的集合F3;
步骤(204):对集合F3的数据进行向量化处理,采用K均值聚类算法对向量化处理的结果进行关键词提取:
将每个事件的作案动机数据为一个数据对象,依次统计每条数据对象中不同单词出现的频率,作为对应的特征值,输出形式为(Pi,bij,c),其中Pi代表集合中第i个事件,bij代表第i个事件中的第j个单词,c代表第i个事件中的第j个单词在第i个历史事件中对应的词频,每个事件的所有单词的词频以一维向量Vm表示;
对生成的所有事件的一维向量进行K均值聚类,通过不断调整K值确定最优分类,最后产生K个类簇,根据类簇半径从大到小对K个类簇进行排序,然后,对排序的结果依次赋值,所述赋值为依次递减的自然数,每个赋值表示对应事件的历史数据作案动机的分值;最后输出待测事件的作案动机分值;
步骤(3):对步骤(1)得到的所有历史数据点进行降维处理;对降维处理后的结果进行子空间聚类,通过子空间聚类获得不同维度的历史数据类簇;
步骤(4):计算待测数据点与历史数据类簇中每个数据对象之间的距离,把待测数据点到对应类簇中最近的数据对象的距离作为待测数据点到类簇的距离,如果待测数据点到类簇的距离在设定范围内,则匹配成功,否则匹配失败;最后,针对匹配成功的待测数据点,按照待测数据点到类簇的距离从小到大进行排序,排序靠前的M个犯罪团伙的名称作为输出值输出,从历史犯罪团伙中挖掘出最接近的犯罪团伙,输出给相关安全部门,为恐怖袭击事件尽快破案提供辅助数据支持。
10.如权利要求9所述的系统,其特征是,所述步骤(1)的对历史数据进行特征提取的具体步骤为:
数据获取步骤:获取历史恐怖袭击事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
数据预处理步骤:对历史恐怖袭击事件的记录数据均进行预处理;
数据分类步骤:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
特征一次提取步骤:采用主成分分析算法,从每一类数据中提取出若干个特征;
特征整合步骤:对所有类数据提取的所有特征进行特征整合,得到特征集合;将特征集合以及每个特征对应的特征值作为结果输出。
11.如权利要求10所述的系统,其特征是,所述数据预处理步骤,包括:数据筛选子步骤、数据填充子步骤、数据转换子步骤和数据归一化子步骤;
所述数据筛选子步骤,对事件摘要、人质绑架结果和事件的解决日期进行剔除;
所述数据填充子步骤,对恐怖袭击事件发生的凶手数量、死亡总数、抓获的凶手数量、受伤总数、死亡总数、凶手死亡人数和财产损失金额记录缺失值进行填充,对于待测数据进行零填充;
所述数据转换子步骤,对恐怖袭击事件发生的地区、攻击类型,由文本数据转换成数字数据;
所述数据归一化子步骤,对经过数据筛选、数据填充和数据转换得到的数据,采用最大最小归一化算法进行归一化处理,根据归一化处理后的数据,针对每个事件均建立N*1的矩阵,N表示数据的个数,矩阵中每个元素的值是每个记录数据对应的数值归一化后的结果。
12.如权利要求9所述的系统,其特征是,所述步骤(1)的对历史数据进行危害等级划分的具体步骤为:
数据获取步骤:获取历史恐怖袭击事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
数据预处理步骤:对历史恐怖袭击事件的记录数均据进行预处理;
数据分类步骤:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
特征一次提取步骤:采用主成分分析算法,从每一类数据中提取出若干个特征;
特征整合步骤:对所有类数据提取的所有特征进行特征整合,得到特征集合;
特征二次提取:采用主成分分析算法,从特征集合中提取出若干个指标特征;
特征权重获取步骤:采用熵权法计算每个指标特征的权重;
风险预警步骤:针对每个事件的每个指标特征的特征值,采用对应的权重进行加权计算,对计算结果按照从大到小进行排序,将排序的序号作为对应历史数据的危害等级输出。
14.如权利要求9所述的系统,其特征是,所述步骤(2)的对待测数据进行特征提取的具体步骤为:
数据获取步骤:获取待测事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
数据预处理步骤:对待测事件的记录数均据进行预处理;
数据分类步骤:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
特征一次提取步骤:采用主成分分析算法,从每一类数据中提取出若干个特征;
特征整合步骤:对所有类数据提取的所有特征进行特征整合,得到特征集合;
或者,
所述步骤(2)的对待测数据进行危害等级划分的具体步骤为:
数据获取步骤:获取历史恐怖袭击事件和待测试事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;
数据预处理步骤:对历史恐怖袭击事件和待测试事件的记录数均据进行预处理;
数据分类步骤:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;
特征一次提取步骤:采用主成分分析算法,从每一类数据中提取出若干个特征;
特征整合步骤:对所有类数据提取的所有特征进行特征整合,得到特征集合;
特征二次提取:采用主成分分析算法,从特征集合中提取出若干个指标特征;
特征权重获取步骤:采用改进的熵权法计算每个指标特征的权重;
风险预警步骤:针对每个事件的每个指标特征的特征值,采用对应的权重进行加权计算,对计算结果按照从大到小进行排序,将待测试事件在所有排序中的排序序号作为结果输出。
15.如权利要求9所述的系统,其特征是,所述步骤(3)对降维处理后的结果进行子空间聚类,通过子空间聚类获得历史数据类簇的具体步骤为:
步骤(301):使用DBSCAN聚类算法在每一维上对所有数据对象进行聚类,将所得一维空间的聚类集合记为X1,设x1,x2为所形成的聚类,则x1,x2∈X1;
步骤(302):计算所有聚类的类间相似度,相似度定义为聚类所包含的相同数据对象元素的数目,依次计算集合中两个聚类的类间相似度sim;
步骤(303):根据类间相似度,对每个类簇选取K个最相似类簇作为合并候选类簇;
步骤(304):根据子空间的期望密度计算对应子空间的密度阈值;
其中,r为自定义值,设为r∈[0,1],
步骤(305):采用深度优先搜索的方式搜索子空间产生子空间聚类;
如果当前类簇与合并候选类簇中的类簇之间的距离小于子空间的密度阈值,则将当前类簇与候选类簇进行合并;
如果当前类簇与合并候选类簇中的类簇之间的距离大于等于子空间的密度阈值,则不将当前类簇与候选类簇进行合并;
步骤(306):删除剩余数据噪声点,通过子空间聚类获得若干个历史数据类簇。
16.如权利要求9所述的系统,其特征是,所述步骤(4)的具体步骤为:
计算待测数据点与历史数据类簇每个数据对象之间的距离d:
其中,bi表示待测数据点的向量坐标,ui表示历史数据类簇中数据对象的向量坐标,ri为对应子空间的半径,由于不同子空间的维度可能不同,所以采用一个基本缩放因子来调节固定半径r大小,Si代表对应子空间中数据对象的特征维度;
把待测数据点到对应类簇中最近的数据对象的距离作为待测数据到类簇的距离,如果待测数据在该类簇的设定半径范围内,则匹配成功,否则匹配失败;
最后,针对匹配成功的待测数据点,按照待测数据点到类簇的距离小到大进行排序,排序靠前的M个犯罪团伙的名称作为输出值输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811418421.0A CN109657011B (zh) | 2018-11-26 | 2018-11-26 | 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811418421.0A CN109657011B (zh) | 2018-11-26 | 2018-11-26 | 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657011A CN109657011A (zh) | 2019-04-19 |
CN109657011B true CN109657011B (zh) | 2021-10-01 |
Family
ID=66111655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811418421.0A Active CN109657011B (zh) | 2018-11-26 | 2018-11-26 | 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657011B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348510B (zh) * | 2019-07-08 | 2021-08-03 | 中国海洋石油集团有限公司 | 一种基于深水油气钻井过程阶段性特征的数据预处理方法 |
CN110348742A (zh) * | 2019-07-12 | 2019-10-18 | 深圳众赢维融科技有限公司 | 用户数据采集方法、装置、电子设备及存储介质 |
CN111369416B (zh) * | 2020-03-03 | 2023-09-22 | 南京信息工程大学 | 一种融合多种数据挖掘技术的恐怖袭击事件评估决策方法 |
CN111861830B (zh) * | 2020-04-03 | 2024-04-26 | 深圳市天彦通信股份有限公司 | 一种情报云平台 |
CN112016004B (zh) * | 2020-08-21 | 2023-03-31 | 重庆邮电大学 | 一种基于多粒度信息融合的职务犯罪筛查系统及方法 |
CN115034388B (zh) * | 2022-07-07 | 2023-04-28 | 北京百度网讯科技有限公司 | 排序模型的量化参数的确定方法、装置及电子设备 |
CN116596353B (zh) * | 2022-09-29 | 2024-06-04 | 中国人民解放军空军工程大学 | 一种恐怖袭击事件记录数据的量化分析方法 |
CN116304117B (zh) * | 2023-05-15 | 2023-09-08 | 北京睿企信息科技有限公司 | 一种获取文本信息的数据处理方法、系统和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520009A (zh) * | 2018-03-19 | 2018-09-11 | 北京工业大学 | 一种英文文本聚类方法及系统 |
-
2018
- 2018-11-26 CN CN201811418421.0A patent/CN109657011B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520009A (zh) * | 2018-03-19 | 2018-09-11 | 北京工业大学 | 一种英文文本聚类方法及系统 |
Non-Patent Citations (5)
Title |
---|
2018年研究生数学建模(C题)-数据挖掘与分析-对恐怖袭击事件记录数据的量化分析;考研电路辅导砖家;《https://zhuanlan.zhihu.com/p/47021206》;20181021;网页全文 * |
Prediction of past unsolved terrorist attacks;Fatih Ozgul 等;《2009 IEEE International Conference on Intelligence and Security Informatics》;20090611;37-42 * |
基于开源情报的恐怖活动及反恐策略研究;付举磊;《中国博士学位论文全文数据库社会科学I辑》;20170215(第02期);G108-26 * |
基于随机子空间的恐怖袭击预测方法研究;罗子娟 等;《第六届中国指挥控制大会论文集(下册)》;20180702;879-881 * |
数据挖掘方法在反恐情报分析中的应用研究;扈翔;《情报探索》;20171115(第11期);1-6 * |
Also Published As
Publication number | Publication date |
---|---|
CN109657011A (zh) | 2019-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657011B (zh) | 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统 | |
KR102020756B1 (ko) | 머신러닝을 이용한 리뷰 분석 방법 | |
CN113657545B (zh) | 用户业务数据的处理方法、装置、设备及存储介质 | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
WO2020243846A1 (en) | System and method for automated file reporting | |
Kim et al. | Ordinal classification of imbalanced data with application in emergency and disaster information services | |
CN104866558B (zh) | 一种社交网络账号映射模型训练方法及映射方法和系统 | |
CN109994215A (zh) | 疾病自动编码系统、方法、设备和存储介质 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN109582743B (zh) | 一种针对恐怖袭击事件的数据挖掘系统 | |
CN109190698B (zh) | 一种网络数字虚拟资产的分类识别系统及方法 | |
CN110046264A (zh) | 一种面向手机文档的自动分类方法 | |
CN105975518A (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
CN111680225A (zh) | 基于机器学习的微信金融消息分析方法及系统 | |
CN109685321A (zh) | 基于数据挖掘的事件风险预警方法、电子设备及介质 | |
KR20160149050A (ko) | 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법 | |
CN112579783A (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN112417152A (zh) | 涉案舆情的话题检测方法和装置 | |
CN114611491A (zh) | 基于文本挖掘技术的智慧政务舆情分析研究方法 | |
CN116187444A (zh) | 一种基于K-means++的专业领域敏感实体知识库构建方法 | |
Hussain et al. | Design and analysis of news category predictor | |
CN115063224A (zh) | 基于用户画像的业务审核方法、装置、设备及存储介质 | |
WO2024020701A1 (en) | System and method for automated file reporting | |
CN116595987A (zh) | 一种基于神经网络模型的扬言文本分类方法、装置及存储介质 | |
CN117077680A (zh) | 问答意图识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |