CN112308316A - 基于线性回归算法的犯罪数量预测方法 - Google Patents

基于线性回归算法的犯罪数量预测方法 Download PDF

Info

Publication number
CN112308316A
CN112308316A CN202011188193.XA CN202011188193A CN112308316A CN 112308316 A CN112308316 A CN 112308316A CN 202011188193 A CN202011188193 A CN 202011188193A CN 112308316 A CN112308316 A CN 112308316A
Authority
CN
China
Prior art keywords
crime
linear regression
regression algorithm
data
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011188193.XA
Other languages
English (en)
Inventor
蔡竞
陈晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Police College
Original Assignee
Zhejiang Police College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Police College filed Critical Zhejiang Police College
Priority to CN202011188193.XA priority Critical patent/CN112308316A/zh
Publication of CN112308316A publication Critical patent/CN112308316A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于线性回归算法的犯罪数量预测方法,首先获取目标区域在预设时间段内的历史犯罪数据,对历史犯罪数据进行维度筛选及构建特征向量,并划分为训练集和测试集;建立基于线性回归算法的犯罪预测模型,利用训练集对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测。本发明可以较为准确的预测出各犯罪类型的发生数量,便于公安机关进行犯罪防控。

Description

基于线性回归算法的犯罪数量预测方法
技术领域
本发明涉及犯罪预测技术领域,特别涉及一种基于线性回归算法的犯罪数量预测方法。
背景技术
随着生活压力的不断增大,越来越多的犯罪事件发生,犯罪率不断提高。那么,如何在发生犯罪之前,事先预测发生犯罪事件高的地区成为一个热点话题。目前由于社会作息规律、社会习俗、天气以及社会活动等原因,犯罪份子的作案动机、作案意愿、作案手段等也会发生改变,因此在我国当前城市化过程中,如何吸取过去大量的经验和教训,运用大数据分析犯罪者的犯罪类型和犯罪数量,以此进行犯罪防控成为了申请人亟待解决的问题。
发明内容
本发明的目的在于,提供一种基于线性回归算法的犯罪数量预测方法。本发明可以较为准确的预测出各犯罪类型的发生数量,便于公安机关进行犯罪防控。
为解决上述技术问题,本发明提供的技术方案如下:基于线性回归算法的犯罪数量预测方法,首先获取目标区域在预设时间段内的历史犯罪数据;其特征在于:对历史犯罪数据进行维度筛选及构建特征向量,并划分为训练集和测试集;
建立基于线性回归算法的犯罪预测模型,利用训练集对犯罪预测
模型进行训练, 利用训练好的犯罪预测模型进行预测;
所述建立基于线性回归算法的犯罪预测模型具体为:
将历史犯罪数据的维度作为变量x,依据线性回归算法得到变量x与因变量h(x)依赖关系式:
h(x)=w1x1+w2x2+w3x3+w4x4…wnxn+b;
式中:w1、w2、w3...wn为变量x的权重,x为历史犯罪数据的维度;b为偏置项;
线性回归算法的的损失函数采用最小平方差误差定义:
Figure BDA0002751938110000021
式中:L(w,b)为损失值;y(i)为真实值;wT为权重值组成的向量;x(i)为特征向量;i表示第i个样本。
随机初始化w和b的值,针对损失函数求w和b的偏导,利用梯度下降迭代算法得到损失函数极值,得到w1、w2、w3...wn和b的值,并将其代入至依赖关系式中得到犯罪预测模型的预测函数。
上述的基于线性回归算法的犯罪数量预测方法,所述历史犯罪数据的维度包括报警时间中的年份、月份、案件类型、报警类别、案件细类编号、经度、纬度和天气数据,将上述维度作为犯罪预测模型的特征向量输入,以特定年月具体案件数量为输出特征。
前述的线性回归算法的犯罪数量预测方法,所述天气数据包括晴天天数、雨天天数、雪天天数、多云天数、平均最高温度和平均最低温度
前述的基于线性回归算法的犯罪数量预测方法,构建特征向量时,将报警时间中的年份、月份和案件类型转成one-hot编码形式;
前述的基于线性回归算法的犯罪数量预测方法,构建特征向量时,将天气数据进行归一化处理。
与现有技术相比,本发明首先获取目标区域在预设时间段内的历史犯罪数据,然后对历史犯罪数据进行维度筛选及构建特征向量,并划分为训练集和测试集;再建立基于线性回归算法的犯罪预测模型,利用训练集对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测。本发明可以较为准确的预测出各犯罪类型的发生数量,便于公安机关进行犯罪防控。本发明历史犯罪数据的维度包括多种,同时利用将报警时间这一维度中的年份、月份和案件类型编号转成one-hot编码形式,使其离散特征便于输入至犯罪预测模型,而且将天气数据进行归一化处理,避免了特征间的差值过大,提高了犯罪预测模型的鲁棒性。
附图说明
图1是本发明实施例将报警时间中的年份、月份和案件类型编号转成one-hot编码形式的示意图;
图2是桐乡市犯罪数量预测精度高于90%的犯罪类型图;
图3是海宁市犯罪数量预测精度高于90%的犯罪类型图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例1:基于线性回归算法的犯罪数量预测方法,首先获取目标区域在预设时间段内的历史犯罪数据;本实施例中的历史犯罪数据为桐乡市时间跨度为2013年1月至2016年12月共48个月24万条犯罪数据,对历史犯罪数据进行维度筛选及构建特征向量,并按7∶3的比例划分为训练集和测试集;训练集和测试集中所述历史犯罪数据的维度包括报警时间中的年份、月份、案件类型、接警单编号、报警时间、案件类型编号、报警类别、案件细类编号、经度、纬度和天气数据,构建特征向量时,将年份、月份和案件类型编号转成one-hot编码形式;one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程,如图1所示,以2013年1月盗窃案件为例,针对所有的案件类型特征,仅在盗窃类特征下数据填充为1,其余案件类型特征均为0;同理,年份与月份特征也仅在2013年类特征与1月类特征下数据填充为1;是否新年月判断当前月份数据是否属于1月或者2月,如是则填充为1,否则填充为0;所述天气数据共分为6类(晴天天数,雨天天数,雪天天数,多云天数,平均最高温度,平均最低温度),为避免输入特征间的差值过大,将6类特征全部采用归一化处理,归一化示例如表1所示,前三排代表原始数据,后三排代表相对应的归一化后的数据。
Figure BDA0002751938110000051
表1
建立基于线性回归算法的犯罪预测模型,将训练集中上述维度作为犯罪预测模型的特征向量输入,以特定年月具体案件数量为输出特征,对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测。
实施例2:基于线性回归算法的犯罪数量预测方法,首先获取目标区域在预设时间段内的历史犯罪数据;本实施例中的历史犯罪数据为海宁市跨度为2013年1月至2016年3月共39个月36万条犯罪数据,对历史犯罪数据进行维度筛选及构建特征向量,并按7∶3的比例划分为训练集和测试集;训练集和测试集中所述历史犯罪数据的维度包括报警时间中的年份、月份、案件类型、接警单编号、报警时间、案件类型编号、报警类别、案件细类编号、经度、纬度和天气数据,构建特征向量时,将年份、月份和案件类型编号转成one-hot编码形式;天气数据共分为6类(晴天天数,雨天天数,雪天天数,多云天数,平均最高温度,平均最低温度),为避免输入特征间的差值过大,将6类特征全部采用归一化处理。
建立基于线性回归算法的犯罪预测模型:
将历史犯罪数据的维度作为变量x,依据线性回归算法得到变量x与因变量h(x)依赖关系式:
h(x)=w1x1+w2x2+w3x3+w4x4…wnxn+b;
式中:w1、w2、w3…wn为变量x的权重,x为历史犯罪数据的维度;b为偏置项;
线性回归算法的的损失函数采用最小平方差误差定义:
Figure BDA0002751938110000061
式中:L(w,b)为损失值;y(i)为真实值;wT为权重值组成的向量;x(i)为特征向量;i表示第i个样本。
随机初始化w和b的值,针对损失函数求w和b的偏导,利用梯度下降迭代算法得到损失函数极值,得到w1、w2、w3...wn和b的值,并将其代入至依赖关系式中得到犯罪预测模型的预测函数。
将训练集中上述维度作为犯罪预测模型的特征向量输入,以特定年月具体案件数量为输出特征,对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测。
申请人利用验证集对实施例1和实施例2中的犯罪预测模型进行验证,得到了如图2所示的桐乡市犯罪数量预测精度高于90%的犯罪类型图和如图3所示的海宁市犯罪数量预测精度高于90%的犯罪类型图;从图2和图3中可以看出,本发明可以较为准确的预测出各犯罪类型的发生数量,准确率较高,虽然具有极少数预测精度在90%左右的犯罪类型,这是因为犯罪数量本身具有一定的随机性,且会受到安保事件等多种不确定因素的影响,因此会造成局部失真,但是整体的不同类型的犯罪数量预测都是较为的准确。
综上所述,本发明首先获取目标区域在预设时间段内的历史犯罪数据,然后对历史犯罪数据进行维度筛选及构建特征向量,并划分为训练集和测试集;再建立基于线性回归算法的犯罪预测模型,利用训练集对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测。本发明可以较为准确的预测出各犯罪类型的发生数量,便于公安机关进行犯罪防控。

Claims (5)

1.基于线性回归算法的犯罪数量预测方法,首先获取目标区域在预设时间段内的历史犯罪数据;其特征在于:对历史犯罪数据进行维度筛选及构建特征向量,并划分为训练集和测试集;
建立基于线性回归算法的犯罪预测模型,利用训练集对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测;
所述建立基于线性回归算法的犯罪预测模型具体为:
将历史犯罪数据的维度作为变量x,依据线性回归算法得到变量x与因变量h(x)依赖关系式:
h(x)=w1x1+w2x2+w3x3+w4x4…wnxn+b;
式中:w1、w2、w3...wn为变量x的权重,x为历史犯罪数据的维度;b为偏置项;
线性回归算法的的损失函数采用最小平方差误差定义:
Figure FDA0002751938100000011
式中:L(w,b)为损失值;y(i)为真实值;wT为权重值组成的向量;x(i)为特征向量;i表示第i个样本。
随机初始化w和b的值,针对损失函数求w和b的偏导,利用梯度下降迭代算法得到损失函数极值,得到w1、W2、w3...wn和b的值,并将其代入至依赖关系式中得到犯罪预测模型的预测函数。
2.根据权利要求1所述的基于线性回归算法的犯罪数量预测方法,其特征在于:所述历史犯罪数据的维度包括报警时间中的年份、月份、案件类型、报警类别、案件细类编号、经度、纬度和天气数据,将上述维度作为犯罪预测模型的特征向量输入,以特定年月具体案件数量为输出特征。
3.根据权利要求2所述的线性回归算法的犯罪数量预测方法,其特征在于:所述天气数据包括晴天天数、雨天天数、雪天天数、多云天数、平均最高温度和平均最低温度。
4.根据权利要求2所述的基于线性回归算法的犯罪数量预测方法,其特征在于:构建特征向量时,将报警时间中的年份、月份和案件类型转成one-hot编码形式。
5.根据权利要求2所述的基于线性回归算法的犯罪数量预测方法,其特征在于:构建特征向量时,将天气数据进行归一化处理。
CN202011188193.XA 2020-10-30 2020-10-30 基于线性回归算法的犯罪数量预测方法 Pending CN112308316A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011188193.XA CN112308316A (zh) 2020-10-30 2020-10-30 基于线性回归算法的犯罪数量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011188193.XA CN112308316A (zh) 2020-10-30 2020-10-30 基于线性回归算法的犯罪数量预测方法

Publications (1)

Publication Number Publication Date
CN112308316A true CN112308316A (zh) 2021-02-02

Family

ID=74332521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011188193.XA Pending CN112308316A (zh) 2020-10-30 2020-10-30 基于线性回归算法的犯罪数量预测方法

Country Status (1)

Country Link
CN (1) CN112308316A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906970A (zh) * 2021-03-03 2021-06-04 上海融港网络科技有限公司 一种犯罪预测方法、装置、终端和存储介质
CN112949923A (zh) * 2021-03-04 2021-06-11 浙江警察学院 基于lstm的犯罪数量预测方法
CN113159445A (zh) * 2021-05-07 2021-07-23 朱小波 犯罪信息预测方法、装置和电子设备
CN113222176A (zh) * 2021-05-08 2021-08-06 西北工业大学 一种基于自激点过程的犯罪事件建模方法
CN113380417A (zh) * 2021-06-17 2021-09-10 哈尔滨理工大学 基于lr-n的心血管疾病预测方法
CN113919160A (zh) * 2021-10-14 2022-01-11 南京审计大学 一种细粒度的城市犯罪预测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949164B1 (en) * 2011-09-08 2015-02-03 George O. Mohler Event forecasting system
CN110750609A (zh) * 2019-10-14 2020-02-04 浙江警察学院 基于时空数据和神经网络的犯罪案件数量预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949164B1 (en) * 2011-09-08 2015-02-03 George O. Mohler Event forecasting system
CN110750609A (zh) * 2019-10-14 2020-02-04 浙江警察学院 基于时空数据和神经网络的犯罪案件数量预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘美霖等: "基于时空序列混合模型的犯罪情报预测分析", 情报杂志, vol. 37, no. 09, pages 27 - 31 *
魏智远: "刑事犯罪回归分析与数量预测", 公安大学学报, no. 01, pages 47 - 51 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906970A (zh) * 2021-03-03 2021-06-04 上海融港网络科技有限公司 一种犯罪预测方法、装置、终端和存储介质
CN112906970B (zh) * 2021-03-03 2022-12-30 上海融港网络科技有限公司 一种犯罪预测方法、装置、终端和存储介质
CN112949923A (zh) * 2021-03-04 2021-06-11 浙江警察学院 基于lstm的犯罪数量预测方法
CN113159445A (zh) * 2021-05-07 2021-07-23 朱小波 犯罪信息预测方法、装置和电子设备
CN113222176A (zh) * 2021-05-08 2021-08-06 西北工业大学 一种基于自激点过程的犯罪事件建模方法
CN113380417A (zh) * 2021-06-17 2021-09-10 哈尔滨理工大学 基于lr-n的心血管疾病预测方法
CN113919160A (zh) * 2021-10-14 2022-01-11 南京审计大学 一种细粒度的城市犯罪预测方法及系统
CN113919160B (zh) * 2021-10-14 2022-09-27 南京审计大学 一种细粒度的城市犯罪预测方法及系统

Similar Documents

Publication Publication Date Title
CN112308316A (zh) 基于线性回归算法的犯罪数量预测方法
WO2021139279A1 (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
CN109523021B (zh) 一种基于长短时记忆网络的动态网络结构预测方法
CN108549817A (zh) 一种基于文本深度学习的软件安全漏洞预测方法
CN109086540B (zh) 一种构建热带气旋路径预报模型的方法及装置
CN111242351A (zh) 基于自编码器和gru神经网络的热带气旋轨迹预测方法
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN110738355A (zh) 一种基于神经网络的城市内涝预测方法
CN107463993A (zh) 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法
CN110414715B (zh) 一种基于社团检测的客流量预警方法
CN114493052B (zh) 多模型融合自适应新能源功率预测方法和系统
CN103955714A (zh) 基于水军检测模型构建方法和系统及水军检测方法
CN114841268B (zh) 基于Transformer和LSTM融合算法的异常电力客户识别方法
CN116307103A (zh) 一种基于硬参数共享多任务学习的交通事故预测方法
CN116029617B (zh) 质量验收表单的生成方法、装置、设备及可读存储介质
CN115470962A (zh) 一种基于LightGBM的企业失信风险预测模型构建方法
CN113537469A (zh) 一种基于LSTM网络和Attention机制的城市需水预测方法
CN106126567A (zh) 基于可信数据推荐服务的方法
CN111723010B (zh) 一种基于稀疏代价矩阵的软件bug分类方法
CN117636183A (zh) 一种基于自监督预训练的小样本遥感图像分类方法
CN117312138A (zh) 软件缺陷检测方法、装置、计算机设备、存储介质和产品
CN116912742A (zh) 一种基于自进化的弱监督的视频异常检测方法
Kordnoori et al. The application of Fourier residual grey Verhulst and grey Markov model in analyzing the global ICT development
CN115018007A (zh) 一种基于改进id3决策树的敏感数据分类方法
CN112541010A (zh) 一种基于逻辑回归的用户性别预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination