CN110674981A

CN110674981A - 基于分层岭回归算法的警情预测方法和预测系统

Info

Publication number: CN110674981A
Application number: CN201910864183.4A
Authority: CN
Inventors: 王海荣; 肖万来; 李鑫; 桑燕五
Original assignee: Zhongke Dawning Nanjing Research Institute Co Ltd
Current assignee: Zhongke Dawning Nanjing Research Institute Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-01-10

Abstract

本发明公开了一种基于分层岭回归算法的警情预测方法和预测系统，其中警情预测方法包括：1、采集小区、社区、派出所的历史属性数据和小区的警情数量，对采集数据进行数据清洗，并将地址字段进行标准化处理；2、确定训练样本：3、基于分层岭回归模型建立警情预测模型，并采用训练样本对警情预测模型进行训练；4、获取待预测小区的属性数据，将其输入训练好的警情预测模型中，得到待预测小区的警情数量预测值。该方法从派出所、社区、小区三个层次来分析各层属性对小区警情数量的影响，能够实现小区警情数量的准确预测。

Description

基于分层岭回归算法的警情预测方法和预测系统

技术领域

本发明属于大数据分析技术领域，具体涉及一种采用大数据技术进行警情预测的方法和系统。

背景技术

巡防工作是人民警察的第一勤务，是公安机关的职责所在。在以往的基层实战中，大多高度依赖所队“指挥官”的个人经验预判警情多发区域，对这些区域加强巡防，巡防策略缺少科学决策。随着大数据技术的发展，越来越多的地方公安发挥自身的大数据资源优势，通过机器学习、云计算等手段辅助决策，预测警情多发区域，优化巡防策略。然而，当前警情预测方法大多从历史警情出发，通过时间序列等方法预测特定区域的未来警情。为了预测小区的警情，现有方法通常将每个小区作为独立的样本个体进行分析，没有考虑小区所在社区，及所属派出所等上级区划对小区的影响，预测结果准确度不高。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供了一种警情预测方法，该方法从派出所、社区、小区三个层次来分析各层属性对小区警情数量的影响，能够实现小区警情数量的准确预测。

技术方案：本发明一方面公开了一种基于分层岭回归算法的警情预测方法，包括如下步骤：

(1)采集小区、社区、派出所的历史属性数据和小区的警情数量，对采集数据进行数据清洗，并将地址字段进行标准化处理；

(2)确定训练样本：步骤1处理后的数据按照时间区间分为N组，将每组数据的属性平均值和警情数量平均值作为训练样本，构成有N个样本的训练集；本发明中按照自然月为单位将采集的数据分为N组；

(3)基于分层岭回归模型建立警情预测模型，所述警情预测模型为：

SI＝α₀+α₁x₁+α₂x₂+…+α_lx_l

α_i＝β_i0+β_i1y₁+β_i2y₂+…+β_imy_m

β_ij＝γ_ij0+γ_ij1z₁+γ_ij2z₂+…+γ_ijnz_n

其中x₁,x₂,…,x_l为小区h的属性数据，y₁,y₂,…,y_m为小区h所属的社区c(h)的属性数据；z₁,z₂,…,z_n为社区c(h)所对应派出所的属性数据，SI为小区h的警情数量；l,m,n分别为小区、社区、派出所的属性数量；α_i，β_ij，γ_ijk为警情预测模型的回归系数；i＝0,1,…,l，j＝0,1,…,m，k＝0,1,…,n；

利用训练样本对警情预测模型进行训练，通过最小化损失函数来确定回归系数；所属损失函数L(α,β,γ)为：

其中SI(p)为警情预测模型根据训练集中第p个训练样本中的属性数据预测得到的警情数量；W(p)为训练集中第p个训练样本中的警情数量；

(4)获取待预测小区的属性数据，将其输入训练好的警情预测模型中，得到待预测小区的警情数量预测值。

所述小区的属性包括：

(a)人口结构信息；所述人口结构信息包括以下(a1)-(a4)的一项或多项：

(a1)流动人口数量；

(a2)流动人口比例；

(a3)重点人员数量；

(a4)流动人口与常住人口中以下信息的一项或多项：

各文化程度人口的比例、平均家庭人口数、党员比例、8岁以下儿童人口比例、8到15岁青少年人口比例、15岁到30岁青年人口比例、30到60岁中年人口比例、60岁以上老年人口比例、少数民族人口比例、拥有社保人数比例、人员居住时长；

所述重点人员是公安根据业务规则制定的人员；所述文化程度包括：文盲，小学，初中，高中，大学及大学以上；

(b)车辆信息；所述车辆信息为小区住户拥有的机动车辆数；

(c)房屋信息；所述房屋信息包括以下一项或多项：小区内部监控点数量、小区房屋均价、在租房屋数量、小区自来水用水量；

(d)治安信息；所述治安信息为巡防频率；

所述社区的属性包括以下一项或多项：房产数量、娱乐场所数量、第一产业从业人口比例、第二产业从业人口比例、第三产业从业人口比例；所述娱乐场所包括洗浴中心、网吧、棋牌室、KTV；

所述派出所的属性包括：接警数量、处警数量、警员人数，巡防人次，过车数量；所述过车数量为所述派出所辖区内车辆卡口采集的每个月外地车辆、本地车辆的车辆数。

所述地址标准化包括：

(1.1)根据待预测地区内的地点名词建立地点名词词库和层级行政区划库；

(1.2)将地点名词词库作为词典库，对采集数据中的地址字段分词，提取分词结果；

(1.3)提取出的分词结果映射到标准地址；所述标准地址包括小区字段、社区字段和派出所字段。

所述步骤(1.1)具体包括：在互联网上爬取待预测地区内的所有小区、路段、厂企、店铺的名称，对爬取的地点名词建立全称和简称词库，将全称和简称词库合并为地点名词词库；

所述层级行政区划库为3层，其中第一层为小区、路段、厂企、店铺；第二层为第一层小区、路段、厂企、店铺所属的社区；第三层为第二层社区所对应的派出所。

作为改进，本发明公开的警情预测方法还包括确定治安的主要影响因素，具体步骤为：

(5)根据待预测小区的属性数据x′₁,x′₂,…,x′_l和训练好的警情预测模型的回归系数α_i计算小区属性的不稳定因素值α_ix′_i，i＝1,…,l；对α_ix′_i进行排序，其中的最大值α_Ix′_I所对应的属性为待预测小区治安的小区层主要影响因素；

(6)根据待预测小区所属社区的的属性数据y′₁,y′₂，…,y′_m、步骤(5)得到的α_I、以及训练好的警情预测模型的回归系数β_Ij计算社区属性的不稳定因素值β_Ijy′_j，j＝1,…,m；对β_Ijy′_j进行排序，其中的最大值β_IJy′_J所对应的属性为α_Ix′_I的主要影响因素；α_Ix′_I为对待预测小区治安的小区层主要影响因素；

(7)获取待预测小区所属社区所对应的派出所的属性数据z₁′,z′₂,…,z′_n、步骤(6)得到的β_IJ、以及训练好的警情预测模型的回归系数γ_IJk计算派出所属性的不稳定因素值γ_IJkz′_k，k＝1,…,n；对γ_IJkz′_k进行排序，其中的最大值γ_IJKz′_K所对应的属性为β_IJy′_J的主要影响因素；β_IJy′_J为α_Ix′_I的主要影响因素。

另一方面，本发明公开了一种基于分层岭回归算法的警情预测系统，包括：

数据采集单元，用于采集小区、社区、派出所的历史属性数据和小区的警情数量，对采集数据进行数据清洗，并将地址字段进行标准化处理；

训练集确定单元，用于将数据采集单元处理后的数据按照时间区间分为N组，将每组数据的属性平均值和警情数量平均值作为训练样本，构成有N个样本的训练集；

警情预测单元，用于根据待预测小区的属性数据和警情预测模型预测警情数量；所述警情预测模型为：

SI＝α₀+α₁x₁+α₂x₂+…+α_lx_l

α_i＝β_i0+β_i1y₁+β_i2y₂+…+β_imy_m

β_ij＝γ_ij0+γ_ij1z₁+γ_ij2z₂+…+γ_ijnz_n

所述警情预测模型采用训练集进行训练得到。

作为改进，还包括主要治安影响因素确定模块，所述主要治安影响因素确定模块采用以下步骤来确定影响待预测小区治安的主要因素：

(6)根据待预测小区所属社区的的属性数据y′₁,y′₂,…,y′_m、步骤(5)得到的α_I、以及训练好的警情预测模型的回归系数β_Ij计算社区属性的不稳定因素值β_Ijy′_j，j＝1,…,m；对β_Ijy′_j进行排序，其中的最大值β_IJy′_J所对应的属性为α_Ix′_I的主要影响因素；α_Ix′_I为对待预测小区治安的小区层主要影响因素；

有益效果：与现有技术相比，本发明公开的警情预测方法通过建立基于分层岭回归模型的警情预测模型，从小区、社区、派出所三个层次来分析各层属性对小区警情数量的影响，实现对小区警情数量的准确预测。

附图说明

图1为本发明公开的警情预测方法的流程图；

图2为警情预测模型的示意图；

图3为本发明公开的警情预测系统的组成图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

如图1所示，本发明公开了一种基于分层岭回归算法的警情预测方法，包括如下步骤：

步骤1、采集小区、社区、派出所的历史属性数据和小区的警情数量，对采集数据进行数据清洗，并将地址字段进行标准化处理；

本发明中，综合各种对治安有影响的意思，确定采集小区的属性包括：

(a)人口结构信息，包括：(a1)流动人口数量；(a2)流动人口比例；(a3)重点人员数量；(a4)流动人口与常住人口中的以下信息：

所述重点人员是公安根据业务规则制定的人员，如有犯案前科的人员；所述文化程度包括：文盲，小学，初中，高中，大学及大学以上；

(b)车辆信息；所述车辆信息为小区住户拥有的机动车辆数；

(c)房屋信息；包括：小区内部监控点数量、小区房屋均价、在租房屋数量、小区自来水用水量；

(d)治安信息；所述治安信息为巡防频率；

共39个属性；

社区的属性包括：房产数量、娱乐场所数量、第一产业从业人口比例、第二产业从业人口比例、第三产业从业人口比例，所述娱乐场所包括洗浴中心、网吧、棋牌室、KTV；共5个属性；

派出所的属性包括：接警数量、处警数量、警员人数，巡防人次，共4个属性，过车数量；所述过车数量为所述派出所辖区内车辆卡口采集的每个月外地车辆、本地车辆的车辆数。

本实施例中，原始数据是存储在HDFS中的近300张数据表，数据总量达千亿条，日新增数据近三亿条。数据表的质量参差不齐，普遍存在字段格式不规范(如日期、地址等字段)、时间跨度不一致，数据冗余，信息密度低等问题，需要对原始数据进行数据清洗。

对清洗后的数据中的地址字段进行标准化，具体步骤包括：

在互联网上爬取待预测地区内的所有小区、路段、厂企、店铺的名称，对爬取的地点名词建立全称和简称词库，将全称和简称词库合并为地点名词词库；

层级行政区划库为3层，其中第一层为小区、路段、厂企、店铺；第二层为第一层小区、路段、厂企、店铺所属的社区；第三层为第二层社区所对应的派出所。

(1.2)将地点名词词库导入Python中的jieba中文分词工具的自定义词典中，并将地点名词词库中词的词性设置为“ns”；利用jieba中文分词工具，对数据表中的地址字段进行分词，提取分词结果标记为“ns”的地点名词；

(1.3)提取出的地点名词映射到标准地址中的小区字段、社区字段和派出所字段。

步骤2、确定训练样本：步骤1处理后的数据按照时间区间分为N组，将每组数据的属性平均值和警情数量平均值作为训练样本，构成有N个样本的训练集；本实施例中按照自然月为单位将采集的数据分为N组；

步骤3、基于分层岭回归模型建立警情预测模型，如图2所示，警情预测模型为：

其中x₁,x₂,…,x_l为小区h的属性数据，y₁,y₂,…,y_m为小区h所属的社区c(h)的属性数据；z₁,z₂,…,z_n为社区c(h)所对应派出所的属性数据，SI为小区h的警情数量；l,m,n分别为小区、社区、派出所的属性数量；α_i，β_ij，γ_ijk为警情预测模型的回归系数；i＝0,1,…,l，j＝0,1,…,m，k＝0,1,…,n。

由此，构建了三层警情预测模型，其中第一层为小区层，小区的属性直接影响到小区的警情发生量。而小区的一些因素是受其所在社区影响的。因此，小区层的回归系数α_i不直接确定，而是作为社区层回归方程的因变量，由社区层的属性决定。同样的，社区层的回归系数β_ij作为派出所层回归方程的因变量，由派出所层的属性通过回归方程得到。

步骤4、获取待预测小区的属性数据，将其输入训练好的警情预测模型中，得到待预测小区的警情数量预测值。根据预测结果，优先巡防预测警情数较高的小区。

为了分析不同属性对治安的影响，从而深入分析警情的引发因素，还包括确定主要治安影响因素，具体步骤为：

步骤5、根据待预测小区的属性数据x′₁,x′₂,…,x′_l和训练好的警情预测模型的回归系数α_i计算小区属性的不稳定因素值α_ix′_i，i＝1,…,l；对α_ix′_i进行排序，其中的最大值α_Ix′_I所对应的属性为待预测小区治安的小区层主要影响因素；

步骤6、根据待预测小区所属社区的的属性数据y′₁,y′₂,…,y′_m、步骤5得到的α_I、以及训练好的警情预测模型的回归系数β_Ij计算社区属性的不稳定因素值β_Ijy′_j，j＝1,…,m；对β_Ijy′_j进行排序，其中的最大值β_IJy′_J所对应的属性为α_Ix′_I的主要影响因素；α_Ix′_I为对待预测小区治安的小区层主要影响因素；

步骤7、获取待预测小区所属社区所对应的派出所的属性数据z₁′,z′₂,…,z′_n、步骤6得到的β_IJ、以及训练好的警情预测模型的回归系数γ_IJk计算派出所属性的不稳定因素值γ_IJkz′_k，k＝1,…,n；对γ_IJkz′_k进行排序，其中的最大值γ_IJKz′_K所对应的属性为β_IJy′_J的主要影响因素；β_IJy′_J为α_Ix′_I的主要影响因素。

本发明还公开了实施上述警情预测方法的警情预测系统，如图3所示，包括：

警情预测单元，用于根据待预测小区的属性数据和警情预测模型预测警情数量；所述警情预测模型为式(1)所定义的分层岭回归模型，并采用训练集进行训练得到。

还包括主要治安影响因素确定模块，按照上述步骤5-7来确定影响待预测小区治安的主要因素。

Claims

1.基于分层岭回归算法的警情预测方法，其特征在于，包括如下步骤：

(2)确定训练样本：步骤1处理后的数据按照时间区间分为N组，将每组数据的属性平均值和警情数量平均值作为训练样本，构成有N个样本的训练集；

SI＝α₀+α₁x₁+α₂x₂+…+α_lx_l

α_i＝β_i0+β_i1y₁+β_i2y₂+…+β_imy_m

β_ij＝γ_ij0+γ_ij1z₁+γ_ij2z₂+…+γ_ijnz_n

2.根据权利要求1所述的警情预测方法，其特征在于，所述小区的属性包括：

(a1)流动人口数量；

(a2)流动人口比例；

(a3)重点人员数量；

(a4)流动人口与常住人口中以下信息的一项或多项：

(b)车辆信息；所述车辆信息为小区住户拥有的机动车辆数；

(d)治安信息；所述治安信息为巡防频率；

3.根据权利要求1所述的警情预测方法，其特征在于，所述地址标准化包括：

(1.3)提取出的地点名词映射到标准地址；所述标准地址包括小区字段、社区字段和派出所字段。

4.根据权利要求1所述的警情预测方法，其特征在于，所述步骤(2)中按照自然月为单位将采集的数据分为N组。

5.根据权利要求3所述的警情预测方法，其特征在于，所述步骤(1.1)具体包括：在互联网上爬取待预测地区内的所有小区、路段、厂企、店铺的名称，对爬取的地点名词建立全称和简称词库，将全称和简称词库合并为地点名词词库；

6.根据权利要求1所述的警情预测方法，其特征在于，还包括确定主要治安影响因素，具体步骤为：

7.基于分层岭回归算法的警情预测系统，其特征在于，包括：

SI＝α₀+α₁x₁+α₂x₂+…+α_lx_l

α_i＝β_i0+β_i1y₁+β_i2y₂+…+β_imy_m

β_ij＝γ_ij0+γ_ij1z₁+γ_ij2z₂+…+γ_ijnz_n

所述警情预测模型采用训练集进行训练得到。

8.根据权利要求7所述的警情预测系统，其特征在于，还包括主要治安影响因素确定模块，所述主要治安影响因素确定模块采用以下步骤来确定影响待预测小区治安的主要因素：