CN110674981A - 基于分层岭回归算法的警情预测方法和预测系统 - Google Patents
基于分层岭回归算法的警情预测方法和预测系统 Download PDFInfo
- Publication number
- CN110674981A CN110674981A CN201910864183.4A CN201910864183A CN110674981A CN 110674981 A CN110674981 A CN 110674981A CN 201910864183 A CN201910864183 A CN 201910864183A CN 110674981 A CN110674981 A CN 110674981A
- Authority
- CN
- China
- Prior art keywords
- cell
- community
- attribute
- alpha
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 3
- 230000011218 segmentation Effects 0.000 claims description 6
- 241001622623 Coeliadinae Species 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 239000008399 tap water Substances 0.000 claims description 3
- 235000020679 tap water Nutrition 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于分层岭回归算法的警情预测方法和预测系统,其中警情预测方法包括:1、采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;2、确定训练样本:3、基于分层岭回归模型建立警情预测模型,并采用训练样本对警情预测模型进行训练;4、获取待预测小区的属性数据,将其输入训练好的警情预测模型中,得到待预测小区的警情数量预测值。该方法从派出所、社区、小区三个层次来分析各层属性对小区警情数量的影响,能够实现小区警情数量的准确预测。
Description
技术领域
本发明属于大数据分析技术领域,具体涉及一种采用大数据技术进行警情预测的方法和系统。
背景技术
巡防工作是人民警察的第一勤务,是公安机关的职责所在。在以往的基层实战中,大多高度依赖所队“指挥官”的个人经验预判警情多发区域,对这些区域加强巡防,巡防策略缺少科学决策。随着大数据技术的发展,越来越多的地方公安发挥自身的大数据资源优势,通过机器学习、云计算等手段辅助决策,预测警情多发区域,优化巡防策略。然而,当前警情预测方法大多从历史警情出发,通过时间序列等方法预测特定区域的未来警情。为了预测小区的警情,现有方法通常将每个小区作为独立的样本个体进行分析,没有考虑小区所在社区,及所属派出所等上级区划对小区的影响,预测结果准确度不高。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供了一种警情预测方法,该方法从派出所、社区、小区三个层次来分析各层属性对小区警情数量的影响,能够实现小区警情数量的准确预测。
技术方案:本发明一方面公开了一种基于分层岭回归算法的警情预测方法,包括如下步骤:
(1)采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
(2)确定训练样本:步骤1处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;本发明中按照自然月为单位将采集的数据分为N组;
(3)基于分层岭回归模型建立警情预测模型,所述警情预测模型为:
SI=α0+α1x1+α2x2+…+αlxl
αi=βi0+βi1y1+βi2y2+…+βimym
βij=γij0+γij1z1+γij2z2+…+γijnzn
其中x1,x2,…,xl为小区h的属性数据,y1,y2,…,ym为小区h所属的社区c(h)的属性数据;z1,z2,…,zn为社区c(h)所对应派出所的属性数据,SI为小区h的警情数量;l,m,n分别为小区、社区、派出所的属性数量;αi,βij,γijk为警情预测模型的回归系数;i=0,1,…,l,j=0,1,…,m,k=0,1,…,n;
利用训练样本对警情预测模型进行训练,通过最小化损失函数来确定回归系数;所属损失函数L(α,β,γ)为:
其中SI(p)为警情预测模型根据训练集中第p个训练样本中的属性数据预测得到的警情数量;W(p)为训练集中第p个训练样本中的警情数量;
(4)获取待预测小区的属性数据,将其输入训练好的警情预测模型中,得到待预测小区的警情数量预测值。
所述小区的属性包括:
(a)人口结构信息;所述人口结构信息包括以下(a1)-(a4)的一项或多项:
(a1)流动人口数量;
(a2)流动人口比例;
(a3)重点人员数量;
(a4)流动人口与常住人口中以下信息的一项或多项:
各文化程度人口的比例、平均家庭人口数、党员比例、8岁以下儿童人口比例、8到15岁青少年人口比例、15岁到30岁青年人口比例、30到60岁中年人口比例、60岁以上老年人口比例、少数民族人口比例、拥有社保人数比例、人员居住时长;
所述重点人员是公安根据业务规则制定的人员;所述文化程度包括:文盲,小学,初中,高中,大学及大学以上;
(b)车辆信息;所述车辆信息为小区住户拥有的机动车辆数;
(c)房屋信息;所述房屋信息包括以下一项或多项:小区内部监控点数量、小区房屋均价、在租房屋数量、小区自来水用水量;
(d)治安信息;所述治安信息为巡防频率;
所述社区的属性包括以下一项或多项:房产数量、娱乐场所数量、第一产业从业人口比例、第二产业从业人口比例、第三产业从业人口比例;所述娱乐场所包括洗浴中心、网吧、棋牌室、KTV;
所述派出所的属性包括:接警数量、处警数量、警员人数,巡防人次,过车数量;所述过车数量为所述派出所辖区内车辆卡口采集的每个月外地车辆、本地车辆的车辆数。
所述地址标准化包括:
(1.1)根据待预测地区内的地点名词建立地点名词词库和层级行政区划库;
(1.2)将地点名词词库作为词典库,对采集数据中的地址字段分词,提取分词结果;
(1.3)提取出的分词结果映射到标准地址;所述标准地址包括小区字段、社区字段和派出所字段。
所述步骤(1.1)具体包括:在互联网上爬取待预测地区内的所有小区、路段、厂企、店铺的名称,对爬取的地点名词建立全称和简称词库,将全称和简称词库合并为地点名词词库;
所述层级行政区划库为3层,其中第一层为小区、路段、厂企、店铺;第二层为第一层小区、路段、厂企、店铺所属的社区;第三层为第二层社区所对应的派出所。
作为改进,本发明公开的警情预测方法还包括确定治安的主要影响因素,具体步骤为:
(5)根据待预测小区的属性数据x′1,x′2,…,x′l和训练好的警情预测模型的回归系数αi计算小区属性的不稳定因素值αix′i,i=1,…,l;对αix′i进行排序,其中的最大值αIx′I所对应的属性为待预测小区治安的小区层主要影响因素;
(6)根据待预测小区所属社区的的属性数据y′1,y′2,…,y′m、步骤(5)得到的αI、以及训练好的警情预测模型的回归系数βIj计算社区属性的不稳定因素值βIjy′j,j=1,…,m;对βIjy′j进行排序,其中的最大值βIJy′J所对应的属性为αIx′I的主要影响因素;αIx′I为对待预测小区治安的小区层主要影响因素;
(7)获取待预测小区所属社区所对应的派出所的属性数据z1′,z′2,…,z′n、步骤(6)得到的βIJ、以及训练好的警情预测模型的回归系数γIJk计算派出所属性的不稳定因素值γIJkz′k,k=1,…,n;对γIJkz′k进行排序,其中的最大值γIJKz′K所对应的属性为βIJy′J的主要影响因素;βIJy′J为αIx′I的主要影响因素。
另一方面,本发明公开了一种基于分层岭回归算法的警情预测系统,包括:
数据采集单元,用于采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
训练集确定单元,用于将数据采集单元处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;
警情预测单元,用于根据待预测小区的属性数据和警情预测模型预测警情数量;所述警情预测模型为:
SI=α0+α1x1+α2x2+…+αlxl
αi=βi0+βi1y1+βi2y2+…+βimym
βij=γij0+γij1z1+γij2z2+…+γijnzn
其中x1,x2,…,xl为小区h的属性数据,y1,y2,…,ym为小区h所属的社区c(h)的属性数据;z1,z2,…,zn为社区c(h)所对应派出所的属性数据,SI为小区h的警情数量;l,m,n分别为小区、社区、派出所的属性数量;αi,βij,γijk为警情预测模型的回归系数;i=0,1,…,l,j=0,1,…,m,k=0,1,…,n;
所述警情预测模型采用训练集进行训练得到。
作为改进,还包括主要治安影响因素确定模块,所述主要治安影响因素确定模块采用以下步骤来确定影响待预测小区治安的主要因素:
(5)根据待预测小区的属性数据x′1,x′2,…,x′l和训练好的警情预测模型的回归系数αi计算小区属性的不稳定因素值αix′i,i=1,…,l;对αix′i进行排序,其中的最大值αIx′I所对应的属性为待预测小区治安的小区层主要影响因素;
(6)根据待预测小区所属社区的的属性数据y′1,y′2,…,y′m、步骤(5)得到的αI、以及训练好的警情预测模型的回归系数βIj计算社区属性的不稳定因素值βIjy′j,j=1,…,m;对βIjy′j进行排序,其中的最大值βIJy′J所对应的属性为αIx′I的主要影响因素;αIx′I为对待预测小区治安的小区层主要影响因素;
(7)获取待预测小区所属社区所对应的派出所的属性数据z1′,z′2,…,z′n、步骤(6)得到的βIJ、以及训练好的警情预测模型的回归系数γIJk计算派出所属性的不稳定因素值γIJkz′k,k=1,…,n;对γIJkz′k进行排序,其中的最大值γIJKz′K所对应的属性为βIJy′J的主要影响因素;βIJy′J为αIx′I的主要影响因素。
有益效果:与现有技术相比,本发明公开的警情预测方法通过建立基于分层岭回归模型的警情预测模型,从小区、社区、派出所三个层次来分析各层属性对小区警情数量的影响,实现对小区警情数量的准确预测。
附图说明
图1为本发明公开的警情预测方法的流程图;
图2为警情预测模型的示意图;
图3为本发明公开的警情预测系统的组成图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1所示,本发明公开了一种基于分层岭回归算法的警情预测方法,包括如下步骤:
步骤1、采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
本发明中,综合各种对治安有影响的意思,确定采集小区的属性包括:
(a)人口结构信息,包括:(a1)流动人口数量;(a2)流动人口比例;(a3)重点人员数量;(a4)流动人口与常住人口中的以下信息:
各文化程度人口的比例、平均家庭人口数、党员比例、8岁以下儿童人口比例、8到15岁青少年人口比例、15岁到30岁青年人口比例、30到60岁中年人口比例、60岁以上老年人口比例、少数民族人口比例、拥有社保人数比例、人员居住时长;
所述重点人员是公安根据业务规则制定的人员,如有犯案前科的人员;所述文化程度包括:文盲,小学,初中,高中,大学及大学以上;
(b)车辆信息;所述车辆信息为小区住户拥有的机动车辆数;
(c)房屋信息;包括:小区内部监控点数量、小区房屋均价、在租房屋数量、小区自来水用水量;
(d)治安信息;所述治安信息为巡防频率;
共39个属性;
社区的属性包括:房产数量、娱乐场所数量、第一产业从业人口比例、第二产业从业人口比例、第三产业从业人口比例,所述娱乐场所包括洗浴中心、网吧、棋牌室、KTV;共5个属性;
派出所的属性包括:接警数量、处警数量、警员人数,巡防人次,共4个属性,过车数量;所述过车数量为所述派出所辖区内车辆卡口采集的每个月外地车辆、本地车辆的车辆数。
本实施例中,原始数据是存储在HDFS中的近300张数据表,数据总量达千亿条,日新增数据近三亿条。数据表的质量参差不齐,普遍存在字段格式不规范(如日期、地址等字段)、时间跨度不一致,数据冗余,信息密度低等问题,需要对原始数据进行数据清洗。
对清洗后的数据中的地址字段进行标准化,具体步骤包括:
(1.1)根据待预测地区内的地点名词建立地点名词词库和层级行政区划库;
在互联网上爬取待预测地区内的所有小区、路段、厂企、店铺的名称,对爬取的地点名词建立全称和简称词库,将全称和简称词库合并为地点名词词库;
层级行政区划库为3层,其中第一层为小区、路段、厂企、店铺;第二层为第一层小区、路段、厂企、店铺所属的社区;第三层为第二层社区所对应的派出所。
(1.2)将地点名词词库导入Python中的jieba中文分词工具的自定义词典中,并将地点名词词库中词的词性设置为“ns”;利用jieba中文分词工具,对数据表中的地址字段进行分词,提取分词结果标记为“ns”的地点名词;
(1.3)提取出的地点名词映射到标准地址中的小区字段、社区字段和派出所字段。
步骤2、确定训练样本:步骤1处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;本实施例中按照自然月为单位将采集的数据分为N组;
步骤3、基于分层岭回归模型建立警情预测模型,如图2所示,警情预测模型为:
其中x1,x2,…,xl为小区h的属性数据,y1,y2,…,ym为小区h所属的社区c(h)的属性数据;z1,z2,…,zn为社区c(h)所对应派出所的属性数据,SI为小区h的警情数量;l,m,n分别为小区、社区、派出所的属性数量;αi,βij,γijk为警情预测模型的回归系数;i=0,1,…,l,j=0,1,…,m,k=0,1,…,n。
由此,构建了三层警情预测模型,其中第一层为小区层,小区的属性直接影响到小区的警情发生量。而小区的一些因素是受其所在社区影响的。因此,小区层的回归系数αi不直接确定,而是作为社区层回归方程的因变量,由社区层的属性决定。同样的,社区层的回归系数βij作为派出所层回归方程的因变量,由派出所层的属性通过回归方程得到。
利用训练样本对警情预测模型进行训练,通过最小化损失函数来确定回归系数;所属损失函数L(α,β,γ)为:
其中SI(p)为警情预测模型根据训练集中第p个训练样本中的属性数据预测得到的警情数量;W(p)为训练集中第p个训练样本中的警情数量;
步骤4、获取待预测小区的属性数据,将其输入训练好的警情预测模型中,得到待预测小区的警情数量预测值。根据预测结果,优先巡防预测警情数较高的小区。
为了分析不同属性对治安的影响,从而深入分析警情的引发因素,还包括确定主要治安影响因素,具体步骤为:
步骤5、根据待预测小区的属性数据x′1,x′2,…,x′l和训练好的警情预测模型的回归系数αi计算小区属性的不稳定因素值αix′i,i=1,…,l;对αix′i进行排序,其中的最大值αIx′I所对应的属性为待预测小区治安的小区层主要影响因素;
步骤6、根据待预测小区所属社区的的属性数据y′1,y′2,…,y′m、步骤5得到的αI、以及训练好的警情预测模型的回归系数βIj计算社区属性的不稳定因素值βIjy′j,j=1,…,m;对βIjy′j进行排序,其中的最大值βIJy′J所对应的属性为αIx′I的主要影响因素;αIx′I为对待预测小区治安的小区层主要影响因素;
步骤7、获取待预测小区所属社区所对应的派出所的属性数据z1′,z′2,…,z′n、步骤6得到的βIJ、以及训练好的警情预测模型的回归系数γIJk计算派出所属性的不稳定因素值γIJkz′k,k=1,…,n;对γIJkz′k进行排序,其中的最大值γIJKz′K所对应的属性为βIJy′J的主要影响因素;βIJy′J为αIx′I的主要影响因素。
本发明还公开了实施上述警情预测方法的警情预测系统,如图3所示,包括:
数据采集单元,用于采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
训练集确定单元,用于将数据采集单元处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;
警情预测单元,用于根据待预测小区的属性数据和警情预测模型预测警情数量;所述警情预测模型为式(1)所定义的分层岭回归模型,并采用训练集进行训练得到。
还包括主要治安影响因素确定模块,按照上述步骤5-7来确定影响待预测小区治安的主要因素。
Claims (8)
1.基于分层岭回归算法的警情预测方法,其特征在于,包括如下步骤:
(1)采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
(2)确定训练样本:步骤1处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;
(3)基于分层岭回归模型建立警情预测模型,所述警情预测模型为:
SI=α0+α1x1+α2x2+…+αlxl
αi=βi0+βi1y1+βi2y2+…+βimym
βij=γij0+γij1z1+γij2z2+…+γijnzn
其中x1,x2,…,xl为小区h的属性数据,y1,y2,…,ym为小区h所属的社区c(h)的属性数据;z1,z2,…,zn为社区c(h)所对应派出所的属性数据,SI为小区h的警情数量;l,m,n分别为小区、社区、派出所的属性数量;αi,βij,γijk为警情预测模型的回归系数;i=0,1,…,l,j=0,1,…,m,k=0,1,…,n;
利用训练样本对警情预测模型进行训练,通过最小化损失函数来确定回归系数;所属损失函数L(α,β,γ)为:
其中SI(p)为警情预测模型根据训练集中第p个训练样本中的属性数据预测得到的警情数量;W(p)为训练集中第p个训练样本中的警情数量;
(4)获取待预测小区的属性数据,将其输入训练好的警情预测模型中,得到待预测小区的警情数量预测值。
2.根据权利要求1所述的警情预测方法,其特征在于,所述小区的属性包括:
(a)人口结构信息;所述人口结构信息包括以下(a1)-(a4)的一项或多项:
(a1)流动人口数量;
(a2)流动人口比例;
(a3)重点人员数量;
(a4)流动人口与常住人口中以下信息的一项或多项:
各文化程度人口的比例、平均家庭人口数、党员比例、8岁以下儿童人口比例、8到15岁青少年人口比例、15岁到30岁青年人口比例、30到60岁中年人口比例、60岁以上老年人口比例、少数民族人口比例、拥有社保人数比例、人员居住时长;
所述重点人员是公安根据业务规则制定的人员;所述文化程度包括:文盲,小学,初中,高中,大学及大学以上;
(b)车辆信息;所述车辆信息为小区住户拥有的机动车辆数;
(c)房屋信息;所述房屋信息包括以下一项或多项:小区内部监控点数量、小区房屋均价、在租房屋数量、小区自来水用水量;
(d)治安信息;所述治安信息为巡防频率;
所述社区的属性包括以下一项或多项:房产数量、娱乐场所数量、第一产业从业人口比例、第二产业从业人口比例、第三产业从业人口比例;所述娱乐场所包括洗浴中心、网吧、棋牌室、KTV;
所述派出所的属性包括:接警数量、处警数量、警员人数,巡防人次,过车数量;所述过车数量为所述派出所辖区内车辆卡口采集的每个月外地车辆、本地车辆的车辆数。
3.根据权利要求1所述的警情预测方法,其特征在于,所述地址标准化包括:
(1.1)根据待预测地区内的地点名词建立地点名词词库和层级行政区划库;
(1.2)将地点名词词库作为词典库,对采集数据中的地址字段分词,提取分词结果;
(1.3)提取出的地点名词映射到标准地址;所述标准地址包括小区字段、社区字段和派出所字段。
4.根据权利要求1所述的警情预测方法,其特征在于,所述步骤(2)中按照自然月为单位将采集的数据分为N组。
5.根据权利要求3所述的警情预测方法,其特征在于,所述步骤(1.1)具体包括:在互联网上爬取待预测地区内的所有小区、路段、厂企、店铺的名称,对爬取的地点名词建立全称和简称词库,将全称和简称词库合并为地点名词词库;
所述层级行政区划库为3层,其中第一层为小区、路段、厂企、店铺;第二层为第一层小区、路段、厂企、店铺所属的社区;第三层为第二层社区所对应的派出所。
6.根据权利要求1所述的警情预测方法,其特征在于,还包括确定主要治安影响因素,具体步骤为:
(5)根据待预测小区的属性数据x′1,x′2,…,x′l和训练好的警情预测模型的回归系数αi计算小区属性的不稳定因素值αix′i,i=1,…,l;对αix′i进行排序,其中的最大值αIx′I所对应的属性为待预测小区治安的小区层主要影响因素;
(6)根据待预测小区所属社区的的属性数据y′1,y′2,…,y′m、步骤(5)得到的αI、以及训练好的警情预测模型的回归系数βIj计算社区属性的不稳定因素值βIjy′j,j=1,…,m;对βIjy′j进行排序,其中的最大值βIJy′J所对应的属性为αIx′I的主要影响因素;αIx′I为对待预测小区治安的小区层主要影响因素;
(7)获取待预测小区所属社区所对应的派出所的属性数据z1′,z′2,…,z′n、步骤(6)得到的βIJ、以及训练好的警情预测模型的回归系数γIJk计算派出所属性的不稳定因素值γIJkz′k,k=1,…,n;对γIJkz′k进行排序,其中的最大值γIJKz′K所对应的属性为βIJy′J的主要影响因素;βIJy′J为αIx′I的主要影响因素。
7.基于分层岭回归算法的警情预测系统,其特征在于,包括:
数据采集单元,用于采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
训练集确定单元,用于将数据采集单元处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;
警情预测单元,用于根据待预测小区的属性数据和警情预测模型预测警情数量;所述警情预测模型为:
SI=α0+α1x1+α2x2+…+αlxl
αi=βi0+βi1y1+βi2y2+…+βimym
βij=γij0+γij1z1+γij2z2+…+γijnzn
其中x1,x2,…,xl为小区h的属性数据,y1,y2,…,ym为小区h所属的社区c(h)的属性数据;z1,z2,…,zn为社区c(h)所对应派出所的属性数据,SI为小区h的警情数量;l,m,n分别为小区、社区、派出所的属性数量;αi,βij,γijk为警情预测模型的回归系数;i=0,1,…,l,j=0,1,…,m,k=0,1,…,n;
所述警情预测模型采用训练集进行训练得到。
8.根据权利要求7所述的警情预测系统,其特征在于,还包括主要治安影响因素确定模块,所述主要治安影响因素确定模块采用以下步骤来确定影响待预测小区治安的主要因素:
(5)根据待预测小区的属性数据x′1,x′2,…,x′l和训练好的警情预测模型的回归系数αi计算小区属性的不稳定因素值αix′i,i=1,…,l;对αix′i进行排序,其中的最大值αIx′I所对应的属性为待预测小区治安的小区层主要影响因素;
(6)根据待预测小区所属社区的的属性数据y′1,y′2,…,y′m、步骤(5)得到的αI、以及训练好的警情预测模型的回归系数βIj计算社区属性的不稳定因素值βIjy′j,j=1,…,m;对βIjy′j进行排序,其中的最大值βIJy′J所对应的属性为αIx′I的主要影响因素;αIx′I为对待预测小区治安的小区层主要影响因素;
(7)获取待预测小区所属社区所对应的派出所的属性数据z1′,z′2,…,z′n、步骤(6)得到的βIJ、以及训练好的警情预测模型的回归系数γIJk计算派出所属性的不稳定因素值γIJkz′k,k=1,…,n;对γIJkz′k进行排序,其中的最大值γIJKz′K所对应的属性为βIJy′J的主要影响因素;βIJy′J为αIx′I的主要影响因素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864183.4A CN110674981A (zh) | 2019-09-12 | 2019-09-12 | 基于分层岭回归算法的警情预测方法和预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864183.4A CN110674981A (zh) | 2019-09-12 | 2019-09-12 | 基于分层岭回归算法的警情预测方法和预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674981A true CN110674981A (zh) | 2020-01-10 |
Family
ID=69077920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910864183.4A Pending CN110674981A (zh) | 2019-09-12 | 2019-09-12 | 基于分层岭回归算法的警情预测方法和预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674981A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465229A (zh) * | 2020-11-30 | 2021-03-09 | 安徽力瀚科技有限公司 | 一种综合应用人工智能技术的警情时空预测系统 |
-
2019
- 2019-09-12 CN CN201910864183.4A patent/CN110674981A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465229A (zh) * | 2020-11-30 | 2021-03-09 | 安徽力瀚科技有限公司 | 一种综合应用人工智能技术的警情时空预测系统 |
CN112465229B (zh) * | 2020-11-30 | 2023-06-23 | 安徽力瀚科技有限公司 | 一种综合应用人工智能技术的警情时空预测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ali et al. | A data-driven approach for multi-scale GIS-based building energy modeling for analysis, planning and support decision making | |
WO2020238631A1 (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN104318324B (zh) | 基于出租车gps记录的机场巴士站点及路线规划方法 | |
CN107292417B (zh) | 基于重污染序列案例库的区域重污染判别预报方法及装置 | |
CN109214863B (zh) | 一种基于快递数据预测城市房屋需求的方法 | |
CN110889092A (zh) | 一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法 | |
Baysal et al. | A two phased fuzzy methodology for selection among municipal projects | |
Zou et al. | Passenger flow prediction using smart card data from connected bus system based on interpretable xgboost | |
CN111598333B (zh) | 客流数据的预测方法及装置 | |
Huang et al. | Research on urban modern architectural art based on artificial intelligence and GIS image recognition system | |
CN112800210B (zh) | 基于海量公交数据的人群画像算法 | |
Lymperopoulou | Immigration and ethnic diversity in England and Wales examined through an area classification framework | |
Wang et al. | Prediction and Analysis of Train Passenger Load Factor of High‐Speed Railway Based on LightGBM Algorithm | |
Sharma et al. | A Study on Decision‐Making of the Indian Railways Reservation System during COVID‐19 | |
CN110674981A (zh) | 基于分层岭回归算法的警情预测方法和预测系统 | |
CN111897810B (zh) | 建立定量化不同尺度区域间大气污染联防联控方案的方法 | |
Benito et al. | Efficiency in the Provision of Public Municipal Cultural Facilities. | |
Alizadeh et al. | A new model for efficiency evaluation of a bus fleet by window analysis in DEA and data mining | |
Li et al. | Assignment of seasonal factor categories to urban coverage count stations using a fuzzy decision tree | |
CN115952216A (zh) | 一种养老保险数据挖掘方法、装置、存储介质及电子设备 | |
Hu et al. | How Do Online Public Messages Affect Local Government Responsiveness in China? A Multilevel Analysis Based on the Message Board for Leaders | |
Bogdanova et al. | Valuating the position of the control object based on a universal complex indicator using structured and unstructured data | |
Liu et al. | Understanding the correlation between destination distribution and urban built environment from taxi GPS data | |
Domashova et al. | Detection of non-typical users of the electronic marketplace" Freight transportation" to prevent the competitive intelligence | |
CN111062000B (zh) | 一种基于离散选择模型的犯罪者作案地识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200110 |