CN112308316A - 基于线性回归算法的犯罪数量预测方法 - Google Patents
基于线性回归算法的犯罪数量预测方法 Download PDFInfo
- Publication number
- CN112308316A CN112308316A CN202011188193.XA CN202011188193A CN112308316A CN 112308316 A CN112308316 A CN 112308316A CN 202011188193 A CN202011188193 A CN 202011188193A CN 112308316 A CN112308316 A CN 112308316A
- Authority
- CN
- China
- Prior art keywords
- crime
- linear regression
- regression algorithm
- data
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012417 linear regression Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 210000000056 organ Anatomy 0.000 abstract description 4
- 230000002265 prevention Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于线性回归算法的犯罪数量预测方法,首先获取目标区域在预设时间段内的历史犯罪数据,对历史犯罪数据进行维度筛选及构建特征向量,并划分为训练集和测试集;建立基于线性回归算法的犯罪预测模型,利用训练集对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测。本发明可以较为准确的预测出各犯罪类型的发生数量,便于公安机关进行犯罪防控。
Description
技术领域
本发明涉及犯罪预测技术领域,特别涉及一种基于线性回归算法的犯罪数量预测方法。
背景技术
随着生活压力的不断增大,越来越多的犯罪事件发生,犯罪率不断提高。那么,如何在发生犯罪之前,事先预测发生犯罪事件高的地区成为一个热点话题。目前由于社会作息规律、社会习俗、天气以及社会活动等原因,犯罪份子的作案动机、作案意愿、作案手段等也会发生改变,因此在我国当前城市化过程中,如何吸取过去大量的经验和教训,运用大数据分析犯罪者的犯罪类型和犯罪数量,以此进行犯罪防控成为了申请人亟待解决的问题。
发明内容
本发明的目的在于,提供一种基于线性回归算法的犯罪数量预测方法。本发明可以较为准确的预测出各犯罪类型的发生数量,便于公安机关进行犯罪防控。
为解决上述技术问题,本发明提供的技术方案如下:基于线性回归算法的犯罪数量预测方法,首先获取目标区域在预设时间段内的历史犯罪数据;其特征在于:对历史犯罪数据进行维度筛选及构建特征向量,并划分为训练集和测试集;
建立基于线性回归算法的犯罪预测模型,利用训练集对犯罪预测
模型进行训练, 利用训练好的犯罪预测模型进行预测;
所述建立基于线性回归算法的犯罪预测模型具体为:
将历史犯罪数据的维度作为变量x,依据线性回归算法得到变量x与因变量h(x)依赖关系式:
h(x)=w1x1+w2x2+w3x3+w4x4…wnxn+b;
式中:w1、w2、w3...wn为变量x的权重,x为历史犯罪数据的维度;b为偏置项;
线性回归算法的的损失函数采用最小平方差误差定义:
式中:L(w,b)为损失值;y(i)为真实值;wT为权重值组成的向量;x(i)为特征向量;i表示第i个样本。
随机初始化w和b的值,针对损失函数求w和b的偏导,利用梯度下降迭代算法得到损失函数极值,得到w1、w2、w3...wn和b的值,并将其代入至依赖关系式中得到犯罪预测模型的预测函数。
上述的基于线性回归算法的犯罪数量预测方法,所述历史犯罪数据的维度包括报警时间中的年份、月份、案件类型、报警类别、案件细类编号、经度、纬度和天气数据,将上述维度作为犯罪预测模型的特征向量输入,以特定年月具体案件数量为输出特征。
前述的线性回归算法的犯罪数量预测方法,所述天气数据包括晴天天数、雨天天数、雪天天数、多云天数、平均最高温度和平均最低温度
前述的基于线性回归算法的犯罪数量预测方法,构建特征向量时,将报警时间中的年份、月份和案件类型转成one-hot编码形式;
前述的基于线性回归算法的犯罪数量预测方法,构建特征向量时,将天气数据进行归一化处理。
与现有技术相比,本发明首先获取目标区域在预设时间段内的历史犯罪数据,然后对历史犯罪数据进行维度筛选及构建特征向量,并划分为训练集和测试集;再建立基于线性回归算法的犯罪预测模型,利用训练集对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测。本发明可以较为准确的预测出各犯罪类型的发生数量,便于公安机关进行犯罪防控。本发明历史犯罪数据的维度包括多种,同时利用将报警时间这一维度中的年份、月份和案件类型编号转成one-hot编码形式,使其离散特征便于输入至犯罪预测模型,而且将天气数据进行归一化处理,避免了特征间的差值过大,提高了犯罪预测模型的鲁棒性。
附图说明
图1是本发明实施例将报警时间中的年份、月份和案件类型编号转成one-hot编码形式的示意图;
图2是桐乡市犯罪数量预测精度高于90%的犯罪类型图;
图3是海宁市犯罪数量预测精度高于90%的犯罪类型图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例1:基于线性回归算法的犯罪数量预测方法,首先获取目标区域在预设时间段内的历史犯罪数据;本实施例中的历史犯罪数据为桐乡市时间跨度为2013年1月至2016年12月共48个月24万条犯罪数据,对历史犯罪数据进行维度筛选及构建特征向量,并按7∶3的比例划分为训练集和测试集;训练集和测试集中所述历史犯罪数据的维度包括报警时间中的年份、月份、案件类型、接警单编号、报警时间、案件类型编号、报警类别、案件细类编号、经度、纬度和天气数据,构建特征向量时,将年份、月份和案件类型编号转成one-hot编码形式;one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程,如图1所示,以2013年1月盗窃案件为例,针对所有的案件类型特征,仅在盗窃类特征下数据填充为1,其余案件类型特征均为0;同理,年份与月份特征也仅在2013年类特征与1月类特征下数据填充为1;是否新年月判断当前月份数据是否属于1月或者2月,如是则填充为1,否则填充为0;所述天气数据共分为6类(晴天天数,雨天天数,雪天天数,多云天数,平均最高温度,平均最低温度),为避免输入特征间的差值过大,将6类特征全部采用归一化处理,归一化示例如表1所示,前三排代表原始数据,后三排代表相对应的归一化后的数据。
表1
建立基于线性回归算法的犯罪预测模型,将训练集中上述维度作为犯罪预测模型的特征向量输入,以特定年月具体案件数量为输出特征,对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测。
实施例2:基于线性回归算法的犯罪数量预测方法,首先获取目标区域在预设时间段内的历史犯罪数据;本实施例中的历史犯罪数据为海宁市跨度为2013年1月至2016年3月共39个月36万条犯罪数据,对历史犯罪数据进行维度筛选及构建特征向量,并按7∶3的比例划分为训练集和测试集;训练集和测试集中所述历史犯罪数据的维度包括报警时间中的年份、月份、案件类型、接警单编号、报警时间、案件类型编号、报警类别、案件细类编号、经度、纬度和天气数据,构建特征向量时,将年份、月份和案件类型编号转成one-hot编码形式;天气数据共分为6类(晴天天数,雨天天数,雪天天数,多云天数,平均最高温度,平均最低温度),为避免输入特征间的差值过大,将6类特征全部采用归一化处理。
建立基于线性回归算法的犯罪预测模型:
将历史犯罪数据的维度作为变量x,依据线性回归算法得到变量x与因变量h(x)依赖关系式:
h(x)=w1x1+w2x2+w3x3+w4x4…wnxn+b;
式中:w1、w2、w3…wn为变量x的权重,x为历史犯罪数据的维度;b为偏置项;
线性回归算法的的损失函数采用最小平方差误差定义:
式中:L(w,b)为损失值;y(i)为真实值;wT为权重值组成的向量;x(i)为特征向量;i表示第i个样本。
随机初始化w和b的值,针对损失函数求w和b的偏导,利用梯度下降迭代算法得到损失函数极值,得到w1、w2、w3...wn和b的值,并将其代入至依赖关系式中得到犯罪预测模型的预测函数。
将训练集中上述维度作为犯罪预测模型的特征向量输入,以特定年月具体案件数量为输出特征,对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测。
申请人利用验证集对实施例1和实施例2中的犯罪预测模型进行验证,得到了如图2所示的桐乡市犯罪数量预测精度高于90%的犯罪类型图和如图3所示的海宁市犯罪数量预测精度高于90%的犯罪类型图;从图2和图3中可以看出,本发明可以较为准确的预测出各犯罪类型的发生数量,准确率较高,虽然具有极少数预测精度在90%左右的犯罪类型,这是因为犯罪数量本身具有一定的随机性,且会受到安保事件等多种不确定因素的影响,因此会造成局部失真,但是整体的不同类型的犯罪数量预测都是较为的准确。
综上所述,本发明首先获取目标区域在预设时间段内的历史犯罪数据,然后对历史犯罪数据进行维度筛选及构建特征向量,并划分为训练集和测试集;再建立基于线性回归算法的犯罪预测模型,利用训练集对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测。本发明可以较为准确的预测出各犯罪类型的发生数量,便于公安机关进行犯罪防控。
Claims (5)
1.基于线性回归算法的犯罪数量预测方法,首先获取目标区域在预设时间段内的历史犯罪数据;其特征在于:对历史犯罪数据进行维度筛选及构建特征向量,并划分为训练集和测试集;
建立基于线性回归算法的犯罪预测模型,利用训练集对犯罪预测模型进行训练,利用训练好的犯罪预测模型进行预测;
所述建立基于线性回归算法的犯罪预测模型具体为:
将历史犯罪数据的维度作为变量x,依据线性回归算法得到变量x与因变量h(x)依赖关系式:
h(x)=w1x1+w2x2+w3x3+w4x4…wnxn+b;
式中:w1、w2、w3...wn为变量x的权重,x为历史犯罪数据的维度;b为偏置项;
线性回归算法的的损失函数采用最小平方差误差定义:
式中:L(w,b)为损失值;y(i)为真实值;wT为权重值组成的向量;x(i)为特征向量;i表示第i个样本。
随机初始化w和b的值,针对损失函数求w和b的偏导,利用梯度下降迭代算法得到损失函数极值,得到w1、W2、w3...wn和b的值,并将其代入至依赖关系式中得到犯罪预测模型的预测函数。
2.根据权利要求1所述的基于线性回归算法的犯罪数量预测方法,其特征在于:所述历史犯罪数据的维度包括报警时间中的年份、月份、案件类型、报警类别、案件细类编号、经度、纬度和天气数据,将上述维度作为犯罪预测模型的特征向量输入,以特定年月具体案件数量为输出特征。
3.根据权利要求2所述的线性回归算法的犯罪数量预测方法,其特征在于:所述天气数据包括晴天天数、雨天天数、雪天天数、多云天数、平均最高温度和平均最低温度。
4.根据权利要求2所述的基于线性回归算法的犯罪数量预测方法,其特征在于:构建特征向量时,将报警时间中的年份、月份和案件类型转成one-hot编码形式。
5.根据权利要求2所述的基于线性回归算法的犯罪数量预测方法,其特征在于:构建特征向量时,将天气数据进行归一化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188193.XA CN112308316A (zh) | 2020-10-30 | 2020-10-30 | 基于线性回归算法的犯罪数量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188193.XA CN112308316A (zh) | 2020-10-30 | 2020-10-30 | 基于线性回归算法的犯罪数量预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112308316A true CN112308316A (zh) | 2021-02-02 |
Family
ID=74332521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011188193.XA Pending CN112308316A (zh) | 2020-10-30 | 2020-10-30 | 基于线性回归算法的犯罪数量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308316A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906970A (zh) * | 2021-03-03 | 2021-06-04 | 上海融港网络科技有限公司 | 一种犯罪预测方法、装置、终端和存储介质 |
CN112949923A (zh) * | 2021-03-04 | 2021-06-11 | 浙江警察学院 | 基于lstm的犯罪数量预测方法 |
CN113159445A (zh) * | 2021-05-07 | 2021-07-23 | 朱小波 | 犯罪信息预测方法、装置和电子设备 |
CN113222176A (zh) * | 2021-05-08 | 2021-08-06 | 西北工业大学 | 一种基于自激点过程的犯罪事件建模方法 |
CN113380417A (zh) * | 2021-06-17 | 2021-09-10 | 哈尔滨理工大学 | 基于lr-n的心血管疾病预测方法 |
CN113919160A (zh) * | 2021-10-14 | 2022-01-11 | 南京审计大学 | 一种细粒度的城市犯罪预测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949164B1 (en) * | 2011-09-08 | 2015-02-03 | George O. Mohler | Event forecasting system |
CN110750609A (zh) * | 2019-10-14 | 2020-02-04 | 浙江警察学院 | 基于时空数据和神经网络的犯罪案件数量预测方法 |
-
2020
- 2020-10-30 CN CN202011188193.XA patent/CN112308316A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949164B1 (en) * | 2011-09-08 | 2015-02-03 | George O. Mohler | Event forecasting system |
CN110750609A (zh) * | 2019-10-14 | 2020-02-04 | 浙江警察学院 | 基于时空数据和神经网络的犯罪案件数量预测方法 |
Non-Patent Citations (2)
Title |
---|
刘美霖等: "基于时空序列混合模型的犯罪情报预测分析", 情报杂志, vol. 37, no. 09, pages 27 - 31 * |
魏智远: "刑事犯罪回归分析与数量预测", 公安大学学报, no. 01, pages 47 - 51 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906970A (zh) * | 2021-03-03 | 2021-06-04 | 上海融港网络科技有限公司 | 一种犯罪预测方法、装置、终端和存储介质 |
CN112906970B (zh) * | 2021-03-03 | 2022-12-30 | 上海融港网络科技有限公司 | 一种犯罪预测方法、装置、终端和存储介质 |
CN112949923A (zh) * | 2021-03-04 | 2021-06-11 | 浙江警察学院 | 基于lstm的犯罪数量预测方法 |
CN113159445A (zh) * | 2021-05-07 | 2021-07-23 | 朱小波 | 犯罪信息预测方法、装置和电子设备 |
CN113222176A (zh) * | 2021-05-08 | 2021-08-06 | 西北工业大学 | 一种基于自激点过程的犯罪事件建模方法 |
CN113380417A (zh) * | 2021-06-17 | 2021-09-10 | 哈尔滨理工大学 | 基于lr-n的心血管疾病预测方法 |
CN113919160A (zh) * | 2021-10-14 | 2022-01-11 | 南京审计大学 | 一种细粒度的城市犯罪预测方法及系统 |
CN113919160B (zh) * | 2021-10-14 | 2022-09-27 | 南京审计大学 | 一种细粒度的城市犯罪预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308316A (zh) | 基于线性回归算法的犯罪数量预测方法 | |
WO2021139279A1 (zh) | 基于分类模型的数据处理方法、装置、电子设备及介质 | |
CN109523021B (zh) | 一种基于长短时记忆网络的动态网络结构预测方法 | |
CN108549817A (zh) | 一种基于文本深度学习的软件安全漏洞预测方法 | |
CN109086540B (zh) | 一种构建热带气旋路径预报模型的方法及装置 | |
CN111242351A (zh) | 基于自编码器和gru神经网络的热带气旋轨迹预测方法 | |
CN105354595A (zh) | 一种鲁棒视觉图像分类方法及系统 | |
CN110738355A (zh) | 一种基于神经网络的城市内涝预测方法 | |
CN107463993A (zh) | 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法 | |
CN110414715B (zh) | 一种基于社团检测的客流量预警方法 | |
CN114493052B (zh) | 多模型融合自适应新能源功率预测方法和系统 | |
CN103955714A (zh) | 基于水军检测模型构建方法和系统及水军检测方法 | |
CN114841268B (zh) | 基于Transformer和LSTM融合算法的异常电力客户识别方法 | |
CN116307103A (zh) | 一种基于硬参数共享多任务学习的交通事故预测方法 | |
CN116029617B (zh) | 质量验收表单的生成方法、装置、设备及可读存储介质 | |
CN115470962A (zh) | 一种基于LightGBM的企业失信风险预测模型构建方法 | |
CN113537469A (zh) | 一种基于LSTM网络和Attention机制的城市需水预测方法 | |
CN106126567A (zh) | 基于可信数据推荐服务的方法 | |
CN111723010B (zh) | 一种基于稀疏代价矩阵的软件bug分类方法 | |
CN117636183A (zh) | 一种基于自监督预训练的小样本遥感图像分类方法 | |
CN117312138A (zh) | 软件缺陷检测方法、装置、计算机设备、存储介质和产品 | |
CN116912742A (zh) | 一种基于自进化的弱监督的视频异常检测方法 | |
Kordnoori et al. | The application of Fourier residual grey Verhulst and grey Markov model in analyzing the global ICT development | |
CN115018007A (zh) | 一种基于改进id3决策树的敏感数据分类方法 | |
CN112541010A (zh) | 一种基于逻辑回归的用户性别预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |