CN110674981A - 基于分层岭回归算法的警情预测方法和预测系统 - Google Patents

基于分层岭回归算法的警情预测方法和预测系统 Download PDF

Info

Publication number
CN110674981A
CN110674981A CN201910864183.4A CN201910864183A CN110674981A CN 110674981 A CN110674981 A CN 110674981A CN 201910864183 A CN201910864183 A CN 201910864183A CN 110674981 A CN110674981 A CN 110674981A
Authority
CN
China
Prior art keywords
cell
community
attribute
alpha
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910864183.4A
Other languages
English (en)
Inventor
王海荣
肖万来
李鑫
桑燕五
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Dawning Nanjing Research Institute Co Ltd
Original Assignee
Zhongke Dawning Nanjing Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Dawning Nanjing Research Institute Co Ltd filed Critical Zhongke Dawning Nanjing Research Institute Co Ltd
Priority to CN201910864183.4A priority Critical patent/CN110674981A/zh
Publication of CN110674981A publication Critical patent/CN110674981A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于分层岭回归算法的警情预测方法和预测系统,其中警情预测方法包括:1、采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;2、确定训练样本:3、基于分层岭回归模型建立警情预测模型,并采用训练样本对警情预测模型进行训练;4、获取待预测小区的属性数据,将其输入训练好的警情预测模型中,得到待预测小区的警情数量预测值。该方法从派出所、社区、小区三个层次来分析各层属性对小区警情数量的影响,能够实现小区警情数量的准确预测。

Description

基于分层岭回归算法的警情预测方法和预测系统
技术领域
本发明属于大数据分析技术领域,具体涉及一种采用大数据技术进行警情预测的方法和系统。
背景技术
巡防工作是人民警察的第一勤务,是公安机关的职责所在。在以往的基层实战中,大多高度依赖所队“指挥官”的个人经验预判警情多发区域,对这些区域加强巡防,巡防策略缺少科学决策。随着大数据技术的发展,越来越多的地方公安发挥自身的大数据资源优势,通过机器学习、云计算等手段辅助决策,预测警情多发区域,优化巡防策略。然而,当前警情预测方法大多从历史警情出发,通过时间序列等方法预测特定区域的未来警情。为了预测小区的警情,现有方法通常将每个小区作为独立的样本个体进行分析,没有考虑小区所在社区,及所属派出所等上级区划对小区的影响,预测结果准确度不高。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供了一种警情预测方法,该方法从派出所、社区、小区三个层次来分析各层属性对小区警情数量的影响,能够实现小区警情数量的准确预测。
技术方案:本发明一方面公开了一种基于分层岭回归算法的警情预测方法,包括如下步骤:
(1)采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
(2)确定训练样本:步骤1处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;本发明中按照自然月为单位将采集的数据分为N组;
(3)基于分层岭回归模型建立警情预测模型,所述警情预测模型为:
SI=α01x12x2+…+αlxl
αi=βi0i1y1i2y2+…+βimym
βij=γij0ij1z1ij2z2+…+γijnzn
其中x1,x2,…,xl为小区h的属性数据,y1,y2,…,ym为小区h所属的社区c(h)的属性数据;z1,z2,…,zn为社区c(h)所对应派出所的属性数据,SI为小区h的警情数量;l,m,n分别为小区、社区、派出所的属性数量;αi,βij,γijk为警情预测模型的回归系数;i=0,1,…,l,j=0,1,…,m,k=0,1,…,n;
利用训练样本对警情预测模型进行训练,通过最小化损失函数来确定回归系数;所属损失函数L(α,β,γ)为:
其中SI(p)为警情预测模型根据训练集中第p个训练样本中的属性数据预测得到的警情数量;W(p)为训练集中第p个训练样本中的警情数量;
(4)获取待预测小区的属性数据,将其输入训练好的警情预测模型中,得到待预测小区的警情数量预测值。
所述小区的属性包括:
(a)人口结构信息;所述人口结构信息包括以下(a1)-(a4)的一项或多项:
(a1)流动人口数量;
(a2)流动人口比例;
(a3)重点人员数量;
(a4)流动人口与常住人口中以下信息的一项或多项:
各文化程度人口的比例、平均家庭人口数、党员比例、8岁以下儿童人口比例、8到15岁青少年人口比例、15岁到30岁青年人口比例、30到60岁中年人口比例、60岁以上老年人口比例、少数民族人口比例、拥有社保人数比例、人员居住时长;
所述重点人员是公安根据业务规则制定的人员;所述文化程度包括:文盲,小学,初中,高中,大学及大学以上;
(b)车辆信息;所述车辆信息为小区住户拥有的机动车辆数;
(c)房屋信息;所述房屋信息包括以下一项或多项:小区内部监控点数量、小区房屋均价、在租房屋数量、小区自来水用水量;
(d)治安信息;所述治安信息为巡防频率;
所述社区的属性包括以下一项或多项:房产数量、娱乐场所数量、第一产业从业人口比例、第二产业从业人口比例、第三产业从业人口比例;所述娱乐场所包括洗浴中心、网吧、棋牌室、KTV;
所述派出所的属性包括:接警数量、处警数量、警员人数,巡防人次,过车数量;所述过车数量为所述派出所辖区内车辆卡口采集的每个月外地车辆、本地车辆的车辆数。
所述地址标准化包括:
(1.1)根据待预测地区内的地点名词建立地点名词词库和层级行政区划库;
(1.2)将地点名词词库作为词典库,对采集数据中的地址字段分词,提取分词结果;
(1.3)提取出的分词结果映射到标准地址;所述标准地址包括小区字段、社区字段和派出所字段。
所述步骤(1.1)具体包括:在互联网上爬取待预测地区内的所有小区、路段、厂企、店铺的名称,对爬取的地点名词建立全称和简称词库,将全称和简称词库合并为地点名词词库;
所述层级行政区划库为3层,其中第一层为小区、路段、厂企、店铺;第二层为第一层小区、路段、厂企、店铺所属的社区;第三层为第二层社区所对应的派出所。
作为改进,本发明公开的警情预测方法还包括确定治安的主要影响因素,具体步骤为:
(5)根据待预测小区的属性数据x′1,x′2,…,x′l和训练好的警情预测模型的回归系数αi计算小区属性的不稳定因素值αix′i,i=1,…,l;对αix′i进行排序,其中的最大值αIx′I所对应的属性为待预测小区治安的小区层主要影响因素;
(6)根据待预测小区所属社区的的属性数据y′1,y′2,…,y′m、步骤(5)得到的αI、以及训练好的警情预测模型的回归系数βIj计算社区属性的不稳定因素值βIjy′j,j=1,…,m;对βIjy′j进行排序,其中的最大值βIJy′J所对应的属性为αIx′I的主要影响因素;αIx′I为对待预测小区治安的小区层主要影响因素;
(7)获取待预测小区所属社区所对应的派出所的属性数据z1′,z′2,…,z′n、步骤(6)得到的βIJ、以及训练好的警情预测模型的回归系数γIJk计算派出所属性的不稳定因素值γIJkz′k,k=1,…,n;对γIJkz′k进行排序,其中的最大值γIJKz′K所对应的属性为βIJy′J的主要影响因素;βIJy′J为αIx′I的主要影响因素。
另一方面,本发明公开了一种基于分层岭回归算法的警情预测系统,包括:
数据采集单元,用于采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
训练集确定单元,用于将数据采集单元处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;
警情预测单元,用于根据待预测小区的属性数据和警情预测模型预测警情数量;所述警情预测模型为:
SI=α01x12x2+…+αlxl
αi=βi0i1y1i2y2+…+βimym
βij=γij0ij1z1ij2z2+…+γijnzn
其中x1,x2,…,xl为小区h的属性数据,y1,y2,…,ym为小区h所属的社区c(h)的属性数据;z1,z2,…,zn为社区c(h)所对应派出所的属性数据,SI为小区h的警情数量;l,m,n分别为小区、社区、派出所的属性数量;αi,βij,γijk为警情预测模型的回归系数;i=0,1,…,l,j=0,1,…,m,k=0,1,…,n;
所述警情预测模型采用训练集进行训练得到。
作为改进,还包括主要治安影响因素确定模块,所述主要治安影响因素确定模块采用以下步骤来确定影响待预测小区治安的主要因素:
(5)根据待预测小区的属性数据x′1,x′2,…,x′l和训练好的警情预测模型的回归系数αi计算小区属性的不稳定因素值αix′i,i=1,…,l;对αix′i进行排序,其中的最大值αIx′I所对应的属性为待预测小区治安的小区层主要影响因素;
(6)根据待预测小区所属社区的的属性数据y′1,y′2,…,y′m、步骤(5)得到的αI、以及训练好的警情预测模型的回归系数βIj计算社区属性的不稳定因素值βIjy′j,j=1,…,m;对βIjy′j进行排序,其中的最大值βIJy′J所对应的属性为αIx′I的主要影响因素;αIx′I为对待预测小区治安的小区层主要影响因素;
(7)获取待预测小区所属社区所对应的派出所的属性数据z1′,z′2,…,z′n、步骤(6)得到的βIJ、以及训练好的警情预测模型的回归系数γIJk计算派出所属性的不稳定因素值γIJkz′k,k=1,…,n;对γIJkz′k进行排序,其中的最大值γIJKz′K所对应的属性为βIJy′J的主要影响因素;βIJy′J为αIx′I的主要影响因素。
有益效果:与现有技术相比,本发明公开的警情预测方法通过建立基于分层岭回归模型的警情预测模型,从小区、社区、派出所三个层次来分析各层属性对小区警情数量的影响,实现对小区警情数量的准确预测。
附图说明
图1为本发明公开的警情预测方法的流程图;
图2为警情预测模型的示意图;
图3为本发明公开的警情预测系统的组成图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1所示,本发明公开了一种基于分层岭回归算法的警情预测方法,包括如下步骤:
步骤1、采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
本发明中,综合各种对治安有影响的意思,确定采集小区的属性包括:
(a)人口结构信息,包括:(a1)流动人口数量;(a2)流动人口比例;(a3)重点人员数量;(a4)流动人口与常住人口中的以下信息:
各文化程度人口的比例、平均家庭人口数、党员比例、8岁以下儿童人口比例、8到15岁青少年人口比例、15岁到30岁青年人口比例、30到60岁中年人口比例、60岁以上老年人口比例、少数民族人口比例、拥有社保人数比例、人员居住时长;
所述重点人员是公安根据业务规则制定的人员,如有犯案前科的人员;所述文化程度包括:文盲,小学,初中,高中,大学及大学以上;
(b)车辆信息;所述车辆信息为小区住户拥有的机动车辆数;
(c)房屋信息;包括:小区内部监控点数量、小区房屋均价、在租房屋数量、小区自来水用水量;
(d)治安信息;所述治安信息为巡防频率;
共39个属性;
社区的属性包括:房产数量、娱乐场所数量、第一产业从业人口比例、第二产业从业人口比例、第三产业从业人口比例,所述娱乐场所包括洗浴中心、网吧、棋牌室、KTV;共5个属性;
派出所的属性包括:接警数量、处警数量、警员人数,巡防人次,共4个属性,过车数量;所述过车数量为所述派出所辖区内车辆卡口采集的每个月外地车辆、本地车辆的车辆数。
本实施例中,原始数据是存储在HDFS中的近300张数据表,数据总量达千亿条,日新增数据近三亿条。数据表的质量参差不齐,普遍存在字段格式不规范(如日期、地址等字段)、时间跨度不一致,数据冗余,信息密度低等问题,需要对原始数据进行数据清洗。
对清洗后的数据中的地址字段进行标准化,具体步骤包括:
(1.1)根据待预测地区内的地点名词建立地点名词词库和层级行政区划库;
在互联网上爬取待预测地区内的所有小区、路段、厂企、店铺的名称,对爬取的地点名词建立全称和简称词库,将全称和简称词库合并为地点名词词库;
层级行政区划库为3层,其中第一层为小区、路段、厂企、店铺;第二层为第一层小区、路段、厂企、店铺所属的社区;第三层为第二层社区所对应的派出所。
(1.2)将地点名词词库导入Python中的jieba中文分词工具的自定义词典中,并将地点名词词库中词的词性设置为“ns”;利用jieba中文分词工具,对数据表中的地址字段进行分词,提取分词结果标记为“ns”的地点名词;
(1.3)提取出的地点名词映射到标准地址中的小区字段、社区字段和派出所字段。
步骤2、确定训练样本:步骤1处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;本实施例中按照自然月为单位将采集的数据分为N组;
步骤3、基于分层岭回归模型建立警情预测模型,如图2所示,警情预测模型为:
Figure BDA0002200768280000071
其中x1,x2,…,xl为小区h的属性数据,y1,y2,…,ym为小区h所属的社区c(h)的属性数据;z1,z2,…,zn为社区c(h)所对应派出所的属性数据,SI为小区h的警情数量;l,m,n分别为小区、社区、派出所的属性数量;αi,βij,γijk为警情预测模型的回归系数;i=0,1,…,l,j=0,1,…,m,k=0,1,…,n。
由此,构建了三层警情预测模型,其中第一层为小区层,小区的属性直接影响到小区的警情发生量。而小区的一些因素是受其所在社区影响的。因此,小区层的回归系数αi不直接确定,而是作为社区层回归方程的因变量,由社区层的属性决定。同样的,社区层的回归系数βij作为派出所层回归方程的因变量,由派出所层的属性通过回归方程得到。
利用训练样本对警情预测模型进行训练,通过最小化损失函数来确定回归系数;所属损失函数L(α,β,γ)为:
Figure BDA0002200768280000072
其中SI(p)为警情预测模型根据训练集中第p个训练样本中的属性数据预测得到的警情数量;W(p)为训练集中第p个训练样本中的警情数量;
步骤4、获取待预测小区的属性数据,将其输入训练好的警情预测模型中,得到待预测小区的警情数量预测值。根据预测结果,优先巡防预测警情数较高的小区。
为了分析不同属性对治安的影响,从而深入分析警情的引发因素,还包括确定主要治安影响因素,具体步骤为:
步骤5、根据待预测小区的属性数据x′1,x′2,…,x′l和训练好的警情预测模型的回归系数αi计算小区属性的不稳定因素值αix′i,i=1,…,l;对αix′i进行排序,其中的最大值αIx′I所对应的属性为待预测小区治安的小区层主要影响因素;
步骤6、根据待预测小区所属社区的的属性数据y′1,y′2,…,y′m、步骤5得到的αI、以及训练好的警情预测模型的回归系数βIj计算社区属性的不稳定因素值βIjy′j,j=1,…,m;对βIjy′j进行排序,其中的最大值βIJy′J所对应的属性为αIx′I的主要影响因素;αIx′I为对待预测小区治安的小区层主要影响因素;
步骤7、获取待预测小区所属社区所对应的派出所的属性数据z1′,z′2,…,z′n、步骤6得到的βIJ、以及训练好的警情预测模型的回归系数γIJk计算派出所属性的不稳定因素值γIJkz′k,k=1,…,n;对γIJkz′k进行排序,其中的最大值γIJKz′K所对应的属性为βIJy′J的主要影响因素;βIJy′J为αIx′I的主要影响因素。
本发明还公开了实施上述警情预测方法的警情预测系统,如图3所示,包括:
数据采集单元,用于采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
训练集确定单元,用于将数据采集单元处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;
警情预测单元,用于根据待预测小区的属性数据和警情预测模型预测警情数量;所述警情预测模型为式(1)所定义的分层岭回归模型,并采用训练集进行训练得到。
还包括主要治安影响因素确定模块,按照上述步骤5-7来确定影响待预测小区治安的主要因素。

Claims (8)

1.基于分层岭回归算法的警情预测方法,其特征在于,包括如下步骤:
(1)采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
(2)确定训练样本:步骤1处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;
(3)基于分层岭回归模型建立警情预测模型,所述警情预测模型为:
SI=α01x12x2+…+αlxl
αi=βi0i1y1i2y2+…+βimym
βij=γij0ij1z1ij2z2+…+γijnzn
其中x1,x2,…,xl为小区h的属性数据,y1,y2,…,ym为小区h所属的社区c(h)的属性数据;z1,z2,…,zn为社区c(h)所对应派出所的属性数据,SI为小区h的警情数量;l,m,n分别为小区、社区、派出所的属性数量;αi,βij,γijk为警情预测模型的回归系数;i=0,1,…,l,j=0,1,…,m,k=0,1,…,n;
利用训练样本对警情预测模型进行训练,通过最小化损失函数来确定回归系数;所属损失函数L(α,β,γ)为:
Figure FDA0002200768270000011
其中SI(p)为警情预测模型根据训练集中第p个训练样本中的属性数据预测得到的警情数量;W(p)为训练集中第p个训练样本中的警情数量;
(4)获取待预测小区的属性数据,将其输入训练好的警情预测模型中,得到待预测小区的警情数量预测值。
2.根据权利要求1所述的警情预测方法,其特征在于,所述小区的属性包括:
(a)人口结构信息;所述人口结构信息包括以下(a1)-(a4)的一项或多项:
(a1)流动人口数量;
(a2)流动人口比例;
(a3)重点人员数量;
(a4)流动人口与常住人口中以下信息的一项或多项:
各文化程度人口的比例、平均家庭人口数、党员比例、8岁以下儿童人口比例、8到15岁青少年人口比例、15岁到30岁青年人口比例、30到60岁中年人口比例、60岁以上老年人口比例、少数民族人口比例、拥有社保人数比例、人员居住时长;
所述重点人员是公安根据业务规则制定的人员;所述文化程度包括:文盲,小学,初中,高中,大学及大学以上;
(b)车辆信息;所述车辆信息为小区住户拥有的机动车辆数;
(c)房屋信息;所述房屋信息包括以下一项或多项:小区内部监控点数量、小区房屋均价、在租房屋数量、小区自来水用水量;
(d)治安信息;所述治安信息为巡防频率;
所述社区的属性包括以下一项或多项:房产数量、娱乐场所数量、第一产业从业人口比例、第二产业从业人口比例、第三产业从业人口比例;所述娱乐场所包括洗浴中心、网吧、棋牌室、KTV;
所述派出所的属性包括:接警数量、处警数量、警员人数,巡防人次,过车数量;所述过车数量为所述派出所辖区内车辆卡口采集的每个月外地车辆、本地车辆的车辆数。
3.根据权利要求1所述的警情预测方法,其特征在于,所述地址标准化包括:
(1.1)根据待预测地区内的地点名词建立地点名词词库和层级行政区划库;
(1.2)将地点名词词库作为词典库,对采集数据中的地址字段分词,提取分词结果;
(1.3)提取出的地点名词映射到标准地址;所述标准地址包括小区字段、社区字段和派出所字段。
4.根据权利要求1所述的警情预测方法,其特征在于,所述步骤(2)中按照自然月为单位将采集的数据分为N组。
5.根据权利要求3所述的警情预测方法,其特征在于,所述步骤(1.1)具体包括:在互联网上爬取待预测地区内的所有小区、路段、厂企、店铺的名称,对爬取的地点名词建立全称和简称词库,将全称和简称词库合并为地点名词词库;
所述层级行政区划库为3层,其中第一层为小区、路段、厂企、店铺;第二层为第一层小区、路段、厂企、店铺所属的社区;第三层为第二层社区所对应的派出所。
6.根据权利要求1所述的警情预测方法,其特征在于,还包括确定主要治安影响因素,具体步骤为:
(5)根据待预测小区的属性数据x′1,x′2,…,x′l和训练好的警情预测模型的回归系数αi计算小区属性的不稳定因素值αix′i,i=1,…,l;对αix′i进行排序,其中的最大值αIx′I所对应的属性为待预测小区治安的小区层主要影响因素;
(6)根据待预测小区所属社区的的属性数据y′1,y′2,…,y′m、步骤(5)得到的αI、以及训练好的警情预测模型的回归系数βIj计算社区属性的不稳定因素值βIjy′j,j=1,…,m;对βIjy′j进行排序,其中的最大值βIJy′J所对应的属性为αIx′I的主要影响因素;αIx′I为对待预测小区治安的小区层主要影响因素;
(7)获取待预测小区所属社区所对应的派出所的属性数据z1′,z′2,…,z′n、步骤(6)得到的βIJ、以及训练好的警情预测模型的回归系数γIJk计算派出所属性的不稳定因素值γIJkz′k,k=1,…,n;对γIJkz′k进行排序,其中的最大值γIJKz′K所对应的属性为βIJy′J的主要影响因素;βIJy′J为αIx′I的主要影响因素。
7.基于分层岭回归算法的警情预测系统,其特征在于,包括:
数据采集单元,用于采集小区、社区、派出所的历史属性数据和小区的警情数量,对采集数据进行数据清洗,并将地址字段进行标准化处理;
训练集确定单元,用于将数据采集单元处理后的数据按照时间区间分为N组,将每组数据的属性平均值和警情数量平均值作为训练样本,构成有N个样本的训练集;
警情预测单元,用于根据待预测小区的属性数据和警情预测模型预测警情数量;所述警情预测模型为:
SI=α01x12x2+…+αlxl
αi=βi0i1y1i2y2+…+βimym
βij=γij0ij1z1ij2z2+…+γijnzn
其中x1,x2,…,xl为小区h的属性数据,y1,y2,…,ym为小区h所属的社区c(h)的属性数据;z1,z2,…,zn为社区c(h)所对应派出所的属性数据,SI为小区h的警情数量;l,m,n分别为小区、社区、派出所的属性数量;αi,βij,γijk为警情预测模型的回归系数;i=0,1,…,l,j=0,1,…,m,k=0,1,…,n;
所述警情预测模型采用训练集进行训练得到。
8.根据权利要求7所述的警情预测系统,其特征在于,还包括主要治安影响因素确定模块,所述主要治安影响因素确定模块采用以下步骤来确定影响待预测小区治安的主要因素:
(5)根据待预测小区的属性数据x′1,x′2,…,x′l和训练好的警情预测模型的回归系数αi计算小区属性的不稳定因素值αix′i,i=1,…,l;对αix′i进行排序,其中的最大值αIx′I所对应的属性为待预测小区治安的小区层主要影响因素;
(6)根据待预测小区所属社区的的属性数据y′1,y′2,…,y′m、步骤(5)得到的αI、以及训练好的警情预测模型的回归系数βIj计算社区属性的不稳定因素值βIjy′j,j=1,…,m;对βIjy′j进行排序,其中的最大值βIJy′J所对应的属性为αIx′I的主要影响因素;αIx′I为对待预测小区治安的小区层主要影响因素;
(7)获取待预测小区所属社区所对应的派出所的属性数据z1′,z′2,…,z′n、步骤(6)得到的βIJ、以及训练好的警情预测模型的回归系数γIJk计算派出所属性的不稳定因素值γIJkz′k,k=1,…,n;对γIJkz′k进行排序,其中的最大值γIJKz′K所对应的属性为βIJy′J的主要影响因素;βIJy′J为αIx′I的主要影响因素。
CN201910864183.4A 2019-09-12 2019-09-12 基于分层岭回归算法的警情预测方法和预测系统 Pending CN110674981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910864183.4A CN110674981A (zh) 2019-09-12 2019-09-12 基于分层岭回归算法的警情预测方法和预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910864183.4A CN110674981A (zh) 2019-09-12 2019-09-12 基于分层岭回归算法的警情预测方法和预测系统

Publications (1)

Publication Number Publication Date
CN110674981A true CN110674981A (zh) 2020-01-10

Family

ID=69077920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910864183.4A Pending CN110674981A (zh) 2019-09-12 2019-09-12 基于分层岭回归算法的警情预测方法和预测系统

Country Status (1)

Country Link
CN (1) CN110674981A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465229A (zh) * 2020-11-30 2021-03-09 安徽力瀚科技有限公司 一种综合应用人工智能技术的警情时空预测系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465229A (zh) * 2020-11-30 2021-03-09 安徽力瀚科技有限公司 一种综合应用人工智能技术的警情时空预测系统
CN112465229B (zh) * 2020-11-30 2023-06-23 安徽力瀚科技有限公司 一种综合应用人工智能技术的警情时空预测系统

Similar Documents

Publication Publication Date Title
Ali et al. A data-driven approach for multi-scale GIS-based building energy modeling for analysis, planning and support decision making
WO2020238631A1 (zh) 一种基于手机信令数据的人群类型识别方法
CN104318324B (zh) 基于出租车gps记录的机场巴士站点及路线规划方法
CN107292417B (zh) 基于重污染序列案例库的区域重污染判别预报方法及装置
CN109214863B (zh) 一种基于快递数据预测城市房屋需求的方法
CN110889092A (zh) 一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法
Baysal et al. A two phased fuzzy methodology for selection among municipal projects
Zou et al. Passenger flow prediction using smart card data from connected bus system based on interpretable xgboost
CN111598333B (zh) 客流数据的预测方法及装置
Huang et al. Research on urban modern architectural art based on artificial intelligence and GIS image recognition system
CN112800210B (zh) 基于海量公交数据的人群画像算法
Lymperopoulou Immigration and ethnic diversity in England and Wales examined through an area classification framework
Wang et al. Prediction and Analysis of Train Passenger Load Factor of High‐Speed Railway Based on LightGBM Algorithm
Sharma et al. A Study on Decision‐Making of the Indian Railways Reservation System during COVID‐19
CN110674981A (zh) 基于分层岭回归算法的警情预测方法和预测系统
CN111897810B (zh) 建立定量化不同尺度区域间大气污染联防联控方案的方法
Benito et al. Efficiency in the Provision of Public Municipal Cultural Facilities.
Alizadeh et al. A new model for efficiency evaluation of a bus fleet by window analysis in DEA and data mining
Li et al. Assignment of seasonal factor categories to urban coverage count stations using a fuzzy decision tree
CN115952216A (zh) 一种养老保险数据挖掘方法、装置、存储介质及电子设备
Hu et al. How Do Online Public Messages Affect Local Government Responsiveness in China? A Multilevel Analysis Based on the Message Board for Leaders
Bogdanova et al. Valuating the position of the control object based on a universal complex indicator using structured and unstructured data
Liu et al. Understanding the correlation between destination distribution and urban built environment from taxi GPS data
Domashova et al. Detection of non-typical users of the electronic marketplace" Freight transportation" to prevent the competitive intelligence
CN111062000B (zh) 一种基于离散选择模型的犯罪者作案地识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110