CN114707685A - 一种基于大数据建模分析的事件预测方法及装置 - Google Patents
一种基于大数据建模分析的事件预测方法及装置 Download PDFInfo
- Publication number
- CN114707685A CN114707685A CN202111553818.2A CN202111553818A CN114707685A CN 114707685 A CN114707685 A CN 114707685A CN 202111553818 A CN202111553818 A CN 202111553818A CN 114707685 A CN114707685 A CN 114707685A
- Authority
- CN
- China
- Prior art keywords
- data
- event
- predicted
- prediction
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004458 analytical method Methods 0.000 title claims abstract description 42
- 238000013145 classification model Methods 0.000 claims abstract description 36
- 238000012360 testing method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 5
- 238000011982 device technology Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000008450 motivation Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 2
- 230000002265 prevention Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003997 social interaction Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于大数据建模分析的事件预测方法及装置,该方法包括:获取并保存待预测事件的历史数据;将待预测事件的历史数据进行标准要素化;利用机器学习中分类或聚类算法对大数据进行建模,利用标准化后的待预测事件的历史数据作为样本训练分类模型,得到训练好的分类模型;获取测试数据,将测试数据进行标准要素化,将标准化后的测试数据输入到训练好的分类模型中进行预测分类,并输出预测预警信息。本发明将已发生事件中待预测事件的规律与包含待预测事件信息的大数据结合,通过对事件构成的“人、时、物、地、事、情、因”要素的跟踪分析,对潜在目标进行实时监控,减少事件发生黑数,降低初期侦查决策的时间成本。
Description
技术领域
本发明属于大数据技术领域,具体涉及一种基于大数据建模分析的事件预测方法及装置。
背景技术
目前大部分都是采用经验进行事件预测,经验预测的缺陷也是比较明显的: (1)不能得到准确的预测值,预测的结果与预测者的经验以及预测者当时的情绪密切相关,因此不同的预测者得到的预测结果可能不同。(2)预测的结果不具备唯一性。经验预测难以纠正个人因素造成的干扰性错误。正确的与否只能通过后期的实践加以验证。
现在基于计算技术的支持,大数据时代的到来,让侦察活动从传统的“现场驱动”演变为“数据驱动”。成为决策和行动的关键因素,大数据为情报侦察的获取、收集、分析和处理等事件预测提供了一系列的技术支持,从而有效的实现对待预测事件的防范控制。科学预测是基于精准的统计数据和信息和依据大数据建模分析进行计算预测。
融合大数据建模预测,一方面可以推动数据管理制度、数据共享制度的转变,打破各部门、各层级的数据壁垒,丰富信息分享渠道,为事件预测提供丰富的数据资源。
发明内容
本发明的目的在于克服现有技术之缺陷,提供了一种基于大数据建模分析的事件预测方法及装置。
本发明将已发生事件中待预测事件的规律与包含待预测事件信息的大数据结合,转换为数据之间的数理关系来预测事件,通过对事件构成的“人、时、物、地、事、情、因”要素的跟踪分析来预测事件。
本发明的技术方案是这样实现的:本发明公开了一种基于大数据建模分析的事件预测方法,包括如下步骤:
获取并保存待预测事件的历史数据;
将待预测事件的历史数据进行标准要素化;
利用机器学习中分类或聚类算法对大数据进行建模,利用标准化后的待预测事件的历史数据作为样本训练分类模型,得到训练好的分类模型;
获取测试数据,将测试数据进行标准要素化,将标准化后的测试数据输入到训练好的分类模型中进行预测分类,得到待预测事件的预测结果,并输出预测预警信息。
进一步地,将待预测事件的历史数据进行标准要素化,具体包括:通过分词器技术对各条数据进行分词处理,分割出多个规律性特征因子,去除规律性特征因子中人为设定的冗余特征因子,保留规律性特征因子中人为设定的关键要素特征因子,得到N维特征向量X={x1,x2…xn},其中,xn为第n个关键要素特征因子。一条历史数据记录通过中文分词器进行分词后得一个n维的特征向量X={x1,x2…xn}。一个n维的特征xi会根据警种和历史经验赋予不同的权重比例值。权重值的赋予开始由人为赋予,具有一定的主观意识,随着后期的数据的训练增多会逐逐步调整,训练数据越多不同的特征向量权重区别越大。
首先可能影响待预测事件产生的因素进行标准化,不同的事件类型会有不同的事件关键要素特征。对大数据仓库中现有的历史事件进行分析,总结和归纳出关于事件构成因素规律。通过中文分词器技术进行分词处理。分割出“何人 (X)、什么时间(Y)、什么地点(Z),什么原因(V),发生了什么事情(Q)……等多个方面呈现出的规律性特征X,Y,Z等特征因子。分词器技术分词后通常会有很多冗余特征数据,这些冗余的特征会干扰本发明后期的模型表现,本发明通过程序粗略去除冗余特征因子。一般保留关键要素因子(事件发生时间 (create_time)、事件发生的地点(经纬度)、事件类别(type),人物(身份证号码sfzh)等。只要去除的冗余特征数据不影响整条数据记录的正确描述都是合理范围的去除。
进一步地,关键要素特征因子包括人物、时间、地点、类别、动机、人物社会关系、金融社交数据。这个特征参数因子可以尽可能的多且有代表性,越有代表性其赋予的权重值就越高。
进一步地,利用标准化后的待预测事件的历史数据作为样本训练分类模型,直至聚类中心趋于稳定不再变化,得到训练好的分类模型,具体包括:一条历史数据记录通过标准化处理后得一个n维的特征向量X={x1,x2…xn},每个特征 xi会被赋予不同的权重比例值;
将事件本体库中的样本集x1,x2,x3....xn的每一个样本X数据点与聚类库中心点的每个类的聚类中心即质心进行相似度算法比较,聚类库中心点中的每个质心Cj有多个属性cj=(cj1,cj2,cj3....cjn),也即为多个特征向量,将每一个本体 X数据点逐个与聚类库的类簇中心计算相异度,找到相异度最小即为相似度最大的类簇中心ci以及该类簇的唯一识别号,相异度最小的质心类簇即为该本体对象所在的类簇,则将该本体数据点分配到该类簇,归类完毕,每确定一个样本点xi所属类簇后重新计算聚类中心点,直到聚类中心点不变,得到训练好的分类模型。
进一步地,簇类成员增加后进行算术平均值计算作为新的聚类中心点。
进一步地,一条历史数据记录通过标准化处理后得一个n维的特征向量 X={x1,x2…xn},每个特征xi会根据警种和历史经验赋予不同的初始权重比例值,这个权重值会随着后期的机器学习进行调整,直到数据收敛为止。
进一步地,本发明的基于大数据建模分析的事件预测方法还包括如下步骤:针对标准化后的每条数据进行关联规则分析,逐个对不同的特征向量横向调用不同第三方接口和搜索引擎关键因子的备份数据,关联出相关的社会活动轨迹和行为,如果关联碰撞出了关联记录则该特征向量对应的权重值会增加。
进一步地,本发明的基于大数据建模分析的事件预测方法还包括如下步骤:搜索引擎关键因子筛选,具体包括:通过人为设定关键因子数据,实时采集网络中各种跨媒体的异构复杂数据,以及社会公众所拥有数据,通过对数据的整合、碰撞、分析从而清洗出可视化程度较高的有效信息,突出待预测事件相关的结构要素,迅速以非接触式的方式对特定人员进行心理侧写与日常活动轨迹描画,并将这些搜索关键结果要素数据存储到大数据仓库中进行数据的备份处理,方便后期的数据关联和命中。
进一步地,将标准化后的测试数据输入到训练好的分类模型中进行预测分类,得到待预测事件的预测结果,具体包括:将标准化后的测试数据输入到训练好的分类模型中与每个类的聚类中心进行欧式距离计算,得到差异性最小的类别即为该测试数据可能发生的概率点。差异性越小命中越高,发生概率越大,预测越准确。
本发明还公开了一种基于大数据建模分析的事件预测装置,包括
数据获取模块、数据处理模块、训练模块、预测模块,
所述数据获取模块用于获取并保存数据;
所述数据处理模块用于将数据进行标准要素化;
所述训练模块用于利用机器学习中分类或聚类算法对大量数据进行建模,利用标准化后的训练数据训练分类模型,得到训练好的分类模型;
所述预测模块用于将标准化后的测试数据输入到训练好的分类模型中进行预测分类,得到待预测事件的预测结果,并输出预测预警信息。
本发明还公开了一种基于大数据建模分析的事件预测装置,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行上述所述的基于大数据建模分析的事件预测方法的步骤。
本发明至少具有如下有益效果:本发明具有非常灵活的可扩展性,具体体现在:数据接口可灵活扩展;针对一类事件或目标,自动提取相关字段,依靠算法进行相关性计算,进而自动筛选关联字段;新增一类事件或目标,或环境、条件改变时,只需重新运行相关字段自动提取程序和模型训练程序,无需多余人工干预和人力投入;通过事件发生活动规律导入关键信息并构建相关模型利用大数据算法模型对待预测事件进行科学预测。系统决策通过两级判断,优化资源配置,不损失判断可靠性的前提下优化系统性能。这一特性进行事件预测,模拟、构建人脑对于外来信息刺激下的神经元工作原理,再现人脑对于信息的处理和挖掘,就可以将工作人员从庞大的情报分析工作中解放出来,降低简单性重复工作的任务量,提升工作人员的工作效率,在情报研判的基础上,统筹海量数据信息,实现侦查决策的科学化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的基于大数据建模分析的事件预测方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
参见图1,本发明实施例提供一种基于大数据建模分析的事件预测方法,包括如下步骤:
获取并保存待预测事件的历史数据;
将待预测事件的历史数据进行标准要素化;
利用机器学习中分类或聚类算法对大数据进行建模,利用标准化后的待预测事件的历史数据作为样本训练分类模型,得到训练好的分类模型;
获取测试数据,将测试数据进行标准要素化,将标准化后的测试数据输入到训练好的分类模型中进行预测分类,得到待预测事件的预测结果,并输出预测预警信息。
获取并保存待预测事件的历史数据,具体包括:获取各个待预测事件的历史数据记录,进行大数据建立数据仓库。
本发明收集相关事件的信息,而非抽取少量的几个具有代表性的数据样本。并将待预测事件数据记录分类量化。
进一步地,将待预测事件的历史数据进行标准要素化,具体包括:通过分词器技术对各条数据进行分词处理,分割出多个规律性特征因子,去除规律性特征因子中人为设定的冗余特征因子,保留规律性特征因子中人为设定的关键要素特征因子,得到N维特征向量X={x1,x2,x3,x4,x5…xn},其中,xn为第n 个关键要素特征因子。
每条待预测事件数据记录都有自己特征要素,由于本发明采取的数据基数比较大,所以降低了随机取样产生的误差。在对现有事件进行分析时,于繁复的表象特征中找寻个案与类案之间的内在逻辑,总结归纳出关于事件构成因素的规律。挖掘出事件发生的案发地点、事件类型、人物以及人物相关信息、案发时间、事件详情、事件描述、事件起因、相关线索。相同的预测类型有着相同的事件要素信息X,Y,Z,W,P,Q等相关要素因子。这样就可找到各种不同预测类型的规律。通过分词器技术将所有历史数据集记录进行分词处理,可以得到相应的特征要素点Xi,同时本发明将数据记录进行串并案关联产生串并关系处理数据记录。本发明主要通过elasticsearch建立串并关系表(relation_case)和特征特征要素表(feature),同时本发明也会共享第三方接口库。
进一步地,进一步地,关键要素特征因子包括人物、时间、地点、类别、动机、人物社会关系、金融社交数据等等。这个特征参数因子可以尽可能的多且有代表性,越有代表性其赋予的权重值就越高。
进一步地,利用标准化后的待预测事件的历史数据作为样本训练分类模型,直至聚类中心趋于稳定不再变化,得到训练好的分类模型,具体包括:
将事件本体库中的样本集x1,x2,x3....xn的每一个样本X数据点与聚类库中心点的每个类的聚类中心(质心)进行相似度算法比较,聚类库中心点Cj中的每个质心Cj有多个属性cj=(cj1,cj2,cj3....cjn),也即为多个特征向量。每一个本体X数据点逐个与聚类库的类簇中心计算相异度,找到相异度最小即为相似度最大的类簇中心ci以及该类簇的唯一识别号,相异度最小的质心类簇即为该本体对象所在的类簇,则将该本体数据点分配到该类簇,归类完毕,每确定一个样本点xi所属类簇后重新计算聚类中心点,直到聚类中心点不变,得到训练好的分类模型。
将数据仓库数据标准化后分为训练集和测试集合数据,训练集合数据用来反复学习训练数据,测试集数据用于进行数据对模型的验证。
将标准化的后的数据分为训练集和测试集,数据分割比例为7:3,即为70%用于用于数据训练建模,30%用于测试验证模型的准确率。本发明用向量机模型来建立模型训练。
本发明将训练集数据进行数据标准化后,每一条事件数据记录会表现出不同的特征向量x={x1,x2,x3,x4,x5……xn}的多维体现。初始化不同权重值。
进一步地,本发明在建模时候会增加关联分析,通过身份证因子关联出社会关、社交数据、出行轨迹。
关联规则分析,逐个对不同的特征向量横向调用不同第三方接口和搜索引擎关键因子的备份数据。关联出相关的社会活动轨迹和行为。如果关联碰撞出了关联记录则该权重值会增加。碰撞出了记录越多则该人的人为画像越标准详细。
不同的特征向量本发明赋予不同的权重值,这个权重值会随着后期的机器学习进行人为干预和调整直到数据收敛为止。
具体如下:
将事件本体库样本集x1,x2,x3....xn的每一个样本X数据点和聚类库进行相似度算法比较,本体(事件记录)对象X包含N维特征向量xi=(xi1,xi2....xin),聚类库类簇质心点(cluster centroids)为c1,c2,c3....ck∈rn进行欧式距离算法作为相异度计算,即为每一个本体X数据点逐个和聚类库的类簇质心计算相异度。本发明根据特征向量的权重值进行欧式距离即计算相异度,找到相异度最小即为相似度最大的类簇质心ci和类簇的唯一识别号类簇编号clusterId。相异度最小的质心类簇即为该本体对象所在的类簇,则该本体数据点分配到了该类簇,归类完毕。
不同的特征向量赋予不同的权重值,特征越明显的向量因子权重越高,占比越大则起到的作用越明显。比如盗抢、上访、维权这些特征向量因子的权重高于普通的其他的向量因子权重。
可以说,类案事件要素的规律总结是大量的个案分析与预测的依据,而大量个案分析是类案事件要素构成规律总结的必要前提基础。个案的数量越多,所提炼的类案特征就越具有普适性,这种普适性的规律可以作为大数据进行事件预测时的标准,筛选出大量符合这一事件要素规律性因素,从而工作人员提前防控干预,可大幅提升工作人员进行事件预测和事件发生预防。
xi=(xi1,xi2,xi3....xin)。聚类库中心点c={c1,c2,c3,c4.....cn},cj∈x。每个聚类中心也有n个属性cj=(cj1,cj2,cj3....cjn)。将xi和cj逐个进行欧氏距离计算,欧式距离最小的聚类中心即该样本点和该聚类中心差异性最小,则该样本点属于该聚类中心对应类簇。
欧式距离xi到cj类库中心点欧式距离d(xi,cj),其计算的数据公式如下:
欧式距离计算本体样本数据点和聚类库中心点的距离,每个本体样本数据点的N维特征向量和聚类库中心点的N维特征向量点进行方差计算。
找到其中欧式距离最小值对应的聚类中心点cj以及xi,xi属于该中心点类簇,归属于该类簇,确定样本点所属类簇xi属于该类簇,样本点x,对象x∈cj。
进一步地,簇类成员增加后进行算术平均值计算作为新的聚类中心点。
算数平均值更新聚类中心:
确定了样本点xi所属类簇后重新计算中心点。簇类成员增加后进行算术平均值计算作为新的中心点,重复上述归类步骤直到中心点不变即为收敛。
K是本发明事先给定的聚类数,c(i)代表样例i与k个类中距离最近的那个类,质心cj是属于同一个类的样本中心点(聚类中心点)。
k-means算法中要保证其是收敛的,表示每个样本点到其聚类中心点的平方和,k-means的优化目标是使欧式距离最小化。假设当前目标没有达到最小值,那么首先可以固定每个类的中心点Ci,调整每个样本的所属的调整每个类的质心Cj也可以使欧式距离减小。这两个过程就是算法中循环使目标单调递减的过程。这时本发明可以多次随机选取质心初始值,然后对结果进行比较,选择使目标最小的聚类和质心。即为每一个质心点则代表一个重点数据,该质心体现了多维的代表性特征向量。同时结合搜索引擎关键因子筛选即预测事件的概率。
进一步地,本发明的基于大数据建模分析的事件预测方法还包括如下步骤:搜索引擎关键因子筛选,具体包括:通过人为设定关键因子数据,实时采集网络中各种跨媒体的异构复杂数据,以及社会公众所拥有数据,通过对数据的整合、碰撞、分析从而清洗出可视化程度较高的有效信息,突出待预测事件相关的结构要素,迅速以非接触式的方式对特定人员进行心理侧写与日常活动轨迹描画,并将这些搜索关键结果要素数据存储到大数据仓库中进行数据的备份处理,方便后期的数据关联和命中。
大数据时代人类的行为很容易数据化,本发明除了可以收集到传统侦察模式下的数据外。本发明同样可以实时采集网络中各种跨媒体的异构复杂数据,主要包括视频、通讯、网络以及各种交易数据,甚至可以采集社会公众所拥有数据。本发明通过人为设定关键因子数据,比如社交媒体数据的“转账”、“聚众”,购物平台的购物偏好等。个人通话记录频率突然激增、人员行为轨迹等信息。通过对数据的整合、碰撞、分析从而清洗出可视化程度较高的有效信息,突出待预测事件相关的结构要素。可以迅速以非接触式的方式对特定人员进行心理侧写与日常活动轨迹描画。这些搜索关键结果要素会进行数据存储到大数据仓库中进行数据的备份处理,方便后期的数据关联和命中。
本发明可以运用网络搜索引擎进行事件预测,并即时调整部署防控事件发生。比如电话、微信、QQ、微博、支付宝、淘宝、京东,均结合了用户的社会交往与日常生活,可以直观体现出用户的偏好和生活轨迹,这其中既包括了用户的人际关系,也会体现出相似人群的共同特征。这些碎片化的数据在利用大数据建模便可以直观地描画出以地缘、血缘、学缘为纽带的关联人群的相似性,也可为寻找类案的目标提供帮助。
本发明还可以通过电话的通话记录分析和即时通讯工具、金融工具、购物软件、交通工具等可以对目标人物进行“数据画像”。通过对大量历史数据、事件发生记录、特定人群敏感词汇、地理位置信息进行相关分析,筛选出一系列有效的检索关键词.可以迅速以非接触式的方式对特定人员进行心理侧写与日常活动轨迹描画。再如微信、QQ、微博这三款我国用户体量最大的app,均结合了用户的社会交往与日常生活,可以直观体现出用户的偏好和生活轨迹,这其中既包括了用户的人际关系,也会体现出相似人群的共同特征。这些碎片化的数据在利用大数据进行关键因子的筛选后,便可以直观地描画出以地缘、血缘、学缘为纽带的关联人群的相似性,也可为寻找类案的目标。
进一步地,将标准化后的测试数据输入到训练好的分类模型中进行预测分类,得到待预测事件的预测结果,具体包括:将标准化后的测试数据输入到训练好的分类模型中与每个类的聚类中心进行欧式距离计算,得到差异性最小的类别即为该测试数据可能发生的概率点。
本发明从测试集中选取一条或多条数据记录。
本发明通过中文分词器技术将测试集数据分析后即可表现出不同的特征向量因子X={x1,x2,x3,x4,x5…xn}。
特征向量通过k-means算法机进行欧式计算,通过和质心数据点进行 K-MEAN进行欧式距离计算,计算比较差异性最小的质心点即为该测试数据的可能发生的概率点。
命中后输出预警数据。提醒责任区或者相关人力提前防控干预。每条数据会得到多个不同欧式距离计算值,取结果值最小的那个则为命中。命中即为可能发生的某个质心点代表的模板数据。
基于情境事件发生预防理论和可利用空间理论,待预测事件的发生频率与地理位置密切相关,不仅在三维空间中表现出不均匀分布的特点,也呈现出在特定时间、特定地点的高频发案规律,通过对历史事件发生热点数据的分析可以预测未来事件发生活动的趋势和走向。现阶段进行事件发生“热点”预测的常见做法主要是基于自激点过程,通过对于事件发生频次、事件发生时刻、事件发生位置的刻画,可以将待预测地区分为若干个面积一致的方块,然后依托已知的罪案数据,使用随机除丛和核密度估计得出每个方块内发生该类事件的概率,从而调配有效人力进行一般预防与特殊预防相结合的预警战略。
需要注意的是,一个区域往往是多种客观因素的混沌整合,如果单纯将一个区域分为面积大小一致的多个方块便意味着人为忽略了多种变量的变化。以基于事件发生“热点”的预测方法为例,其并没有将不同方块中市政建设和人群分布等多种变量囊括其中,因而各个方块所呈现的事件发生发生概率并不能作为人力调配的直接依据。因此,在事件发生“热点”分析中,可以将特定区域的地图依据时空维度进行立体描画,以人口密集度或者已知发案频次将该三维模型划分为面积不等的立方体,通过衡量多种变量,不断加深对各个立方体内高危区域的染色,颜色越深则表示事件发生密度越高。
实施例二
基于与实施例一相同的构思,本发明实施例还公开了一种基于大数据建模分析的事件预测装置,包括
数据获取模块、数据处理模块、训练模块、预测模块,
所述数据获取模块用于获取并保存数据;
所述数据处理模块用于将数据进行标准要素化;
所述训练模块用于利用机器学习中分类或聚类算法对大量数据进行建模,利用标准化后的训练数据训练分类模型,得到训练好的分类模型;
所述预测模块用于将标准化后的测试数据输入到训练好的分类模型中进行预测分类,得到待预测事件的预测结果,并输出预测预警信息。
实施例三
本发明实施例还公开了一种基于大数据建模分析的事件预测装置,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行实施例一所述的基于大数据建模分析的事件预测方法的步骤。
本发明将已发生事件中待预测事件的规律与包含待预测事件信息的大数据结合,转换为数据之间的数理关系来预测事件,过对事件构成的“人、时、物、地、事、情、因”要素的跟踪分析,可以挖掘潜在目标,对潜在目标进行实时监控,减少事件发生,降低初期侦查决策的时间成本,及时发现并制止待预测事件的发生那么对于事件发生的预防将会事半功倍。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于大数据建模分析的事件预测方法,其特征在于,包括如下步骤:
获取并保存待预测事件的历史数据;
将待预测事件的历史数据进行标准要素化;
利用机器学习中分类或聚类算法对大数据进行建模,利用标准化后的待预测事件的历史数据作为样本训练分类模型,得到训练好的分类模型;
获取测试数据,将测试数据进行标准要素化,将标准化后的测试数据输入到训练好的分类模型中进行预测分类,得到待预测事件的预测结果,并输出预测预警信息。
2.如权利要求1所述的基于大数据建模分析的事件预测方法,其特征在于:将待预测事件的历史数据进行标准要素化,具体包括:通过分词器技术对各条数据进行分词处理,分割出多个规律性特征因子,去除规律性特征因子中人为设定的冗余特征因子,保留规律性特征因子中人为设定的关键要素特征因子,得到N维特征向量X={x1,x2…xn}。
3.如权利要求2所述的基于大数据建模分析的事件预测方法,其特征在于:关键要素特征因子包括人物、时间、地点、类别、动机、人物社会关系、金融社交数据。
4.如权利要求1所述的基于大数据建模分析的事件预测方法,其特征在于:利用标准化后的待预测事件的历史数据作为样本训练分类模型,直至聚类中心趋于稳定不再变化,得到训练好的分类模型,具体包括:一条历史数据记录通过标准化处理后得一个n维的特征向量X={x1,x2…xn},每个特征xi会被赋予不同的权重比例值;
将事件本体库中的样本集x1,x2,x3....xn的每一个样本X数据点与聚类库中心点的每个类的聚类中心即质心进行相似度算法比较,聚类库中心点中的每个质心Cj有多个属性cj=(cj1,cj2,cj3....cjn),也即为多个特征向量,将每一个本体X数据点逐个与聚类库的类簇中心计算相异度,找到相异度最小即为相似度最大的类簇中心ci以及该类簇的唯一识别号,相异度最小的质心类簇即为该本体对象所在的类簇,则将该本体数据点分配到该类簇,归类完毕,每确定一个样本点xi所属类簇后重新计算聚类中心点,直到聚类中心点不变,得到训练好的分类模型。
5.如权利要求4所述的基于大数据建模分析的事件预测方法,其特征在于:簇类成员增加后进行算术平均值计算作为新的聚类中心点。
6.如权利要求1所述的基于大数据建模分析的事件预测方法,其特征在于:一条历史数据记录通过标准化处理后得一个n维的特征向量X={x1,x2…xn},每个特征xi会根据警种和历史经验赋予不同的初始权重比例值,这个权重值会随着后期的机器学习进行调整,直到数据收敛为止;
还包括如下步骤:针对标准化后的每条数据进行关联规则分析,逐个对不同的特征向量横向调用不同第三方接口和搜索引擎关键因子的备份数据,关联出相关的社会活动轨迹和行为,如果关联碰撞出了关联记录则该特征向量对应的权重值会增加。
7.如权利要求1所述的基于大数据建模分析的事件预测方法,其特征在于:还包括如下步骤:搜索引擎关键因子筛选,具体包括:通过人为设定关键因子数据,实时采集网络中各种跨媒体的异构复杂数据,以及社会公众所拥有数据,通过对数据的整合、碰撞、分析从而清洗出可视化程度较高的有效信息,突出待预测事件相关的结构要素,迅速以非接触式的方式对特定人员进行心理侧写与日常活动轨迹描画,并将这些搜索关键结果要素数据存储到大数据仓库中进行数据的备份处理,方便后期的数据关联和命中。
8.如权利要求1所述的基于大数据建模分析的事件预测方法,其特征在于:将标准化后的测试数据输入到训练好的分类模型中进行预测分类,得到待预测事件的预测结果,具体包括:将标准化后的测试数据输入到训练好的分类模型中与每个类的聚类中心进行欧式距离计算,得到差异性最小的类别即为该测试数据可能发生的概率点。
9.一种基于大数据建模分析的事件预测装置,其特征在于,包括
数据获取模块、数据处理模块、训练模块、预测模块,
所述数据获取模块用于获取并保存数据;
所述数据处理模块用于将数据进行标准要素化;
所述训练模块用于利用机器学习中分类或聚类算法对大量数据进行建模,利用标准化后的训练数据训练分类模型,得到训练好的分类模型;
所述预测模块用于将标准化后的测试数据输入到训练好的分类模型中进行预测分类,得到待预测事件的预测结果,并输出预测预警信息。
10.一种基于大数据建模分析的事件预测装置,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111553818.2A CN114707685A (zh) | 2021-12-17 | 2021-12-17 | 一种基于大数据建模分析的事件预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111553818.2A CN114707685A (zh) | 2021-12-17 | 2021-12-17 | 一种基于大数据建模分析的事件预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114707685A true CN114707685A (zh) | 2022-07-05 |
Family
ID=82166991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111553818.2A Pending CN114707685A (zh) | 2021-12-17 | 2021-12-17 | 一种基于大数据建模分析的事件预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114707685A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115907144A (zh) * | 2022-11-21 | 2023-04-04 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种事件的预测方法、装置、终端设备以及存储介质 |
CN117061198A (zh) * | 2023-08-30 | 2023-11-14 | 广东励通信息技术有限公司 | 一种基于大数据的网络安全预警系统及方法 |
-
2021
- 2021-12-17 CN CN202111553818.2A patent/CN114707685A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115907144A (zh) * | 2022-11-21 | 2023-04-04 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种事件的预测方法、装置、终端设备以及存储介质 |
CN117061198A (zh) * | 2023-08-30 | 2023-11-14 | 广东励通信息技术有限公司 | 一种基于大数据的网络安全预警系统及方法 |
CN117061198B (zh) * | 2023-08-30 | 2024-02-02 | 广东励通信息技术有限公司 | 一种基于大数据的网络安全预警系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhuang et al. | Crime hot spot forecasting: A recurrent model with spatial and temporal information | |
Rodriguez et al. | Patent clustering and outlier ranking methodologies for attributed patent citation networks for technology opportunity discovery | |
WO2016188380A1 (zh) | 用户设备的确定方法及装置 | |
CN114707685A (zh) | 一种基于大数据建模分析的事件预测方法及装置 | |
CN111292008A (zh) | 一种基于知识图谱的隐私保护数据发布风险评估方法 | |
CN113971527A (zh) | 基于机器学习的数据风险评估方法及装置 | |
CN112528022A (zh) | 主题类别对应的特征词提取和文本主题类别识别方法 | |
Win et al. | PCPD: A parallel crime pattern discovery system for large-scale spatiotemporal data based on fuzzy clustering | |
CN111047173A (zh) | 基于改进d-s证据理论的社团可信度评估方法 | |
CN113205134A (zh) | 一种网络安全态势预测方法及系统 | |
CN113641906A (zh) | 基于资金交易关系数据实现相似目标人员识别处理的系统、方法、装置、处理器及其介质 | |
CN110716957B (zh) | 类案可疑对象智能挖掘分析方法 | |
Singh et al. | Novel framework for anomaly detection using machine learning technique on CIC-IDS2017 dataset | |
CN115438102A (zh) | 时空数据异常识别方法、装置和电子设备 | |
Zubi et al. | Using data mining techniques to analyze crime patterns in the libyan national crime data | |
Khatun et al. | Data mining technique to analyse and predict crime using crime categories and arrest records | |
CN113435101A (zh) | 一种基于粒子群优化的支持向量机停电预测方法 | |
CN116707859A (zh) | 特征规则提取方法和装置、网络入侵检测方法和装置 | |
Das et al. | A geo-statistical approach for crime hot spot prediction | |
CN115619245A (zh) | 一种基于数据降维方法的画像构建和分类方法及系统 | |
Adeyiga et al. | A comparative analysis of selected clustering algorithms for criminal profiling | |
CN113011503B (zh) | 一种电子设备的数据取证方法、存储介质及终端 | |
CN114298245A (zh) | 异常检测方法、装置、存储介质和计算机设备 | |
Kumar et al. | Spatial Clustering Simulation on Analysis of Spatial-Temporal Crime Hotspot for Predicting Crime activities | |
CN114218569A (zh) | 数据分析方法、装置、设备、介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |