CN108874911A

CN108874911A - 基于区域环境与犯罪事件数据的疑犯位置预测方法

Info

Publication number: CN108874911A
Application number: CN201810525149.XA
Authority: CN
Inventors: 段炼; 胡宝清; 韦英岸
Original assignee: Guangxi Teachers College
Current assignee: Guangxi Teachers College
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-23
Anticipated expiration: 2038-05-28
Also published as: CN108874911B

Abstract

本发明公开了一种基于区域环境与犯罪事件数据的疑犯位置预测方法，包括空间网格化、疑犯社会活动时空分布、位置特征抽取、基于案件时空信息的疑犯关联性表达、张量和矩阵的协同分解、疑犯社会活动位置预测等步骤。本发明通过融合区域社会环境数据和犯罪历史数据，进行了疑犯社会活动位置预测建模，为疑犯位置跟踪数据稀疏性带来的问题提供有效的解决方法，对提高位置时空预测的有效性和健壮性有着重要的作用，实现疑犯位置的时空预测。

Description

基于区域环境与犯罪事件数据的疑犯位置预测方法

技术领域

本发明属于地理信息科学、数据挖掘技术领域，涉及疑犯时空位置预测、疑犯时空信息挖掘、尤其涉及基于区域环境与犯罪事件数据的疑犯位置预测方法。

背景技术

受益于当前信息化技术的进步和普及，警方能通过多种信息化途径和设备对重点跟踪对象日常行为的发生位置进行监控，从而了解和掌握他们的行为及行为发生的位置。通过整合网吧监控、出租屋管理、旅店业管理、手机定位、进出港管理等业务系统中的业务数据，警用信息共享平台已经可以记录疑犯社会活动数据，了解疑犯的驻留情况。基于这些跟踪数据进行疑犯位置预测，能为揭示疑犯日常时空分布模式、进行警力配属分析和案件侦破提供重要技术支撑，具有重要的实战价值。

在犯罪地理学中，与犯罪个体位置预测相关的研究称为犯罪地理画像(CrimeGeographicProfiling)，研究者们基于犯罪个体的系列犯罪位置数据，采用平均作案距离、用地类型、犯罪类型、路网结构，同心圆、距离衰减函数、贝叶斯公式、动力学模型和回归模型等模型，估算锚点(住址或下一犯罪地点等预测者感兴趣的位置)在空间上的出现概率。然而，大部分CGP研究是依据系列犯罪分子的历史犯罪位置预测其住址的空间分布概率，目前还没有依据疑犯的日常社会活动数据预测疑犯在多种类型位置上的空间分布概率；其次，由于现实中位置探测源数量和类型有限，疑犯个体位置跟踪数据非常稀疏，仅能反映疑犯日常生活中零碎且片面的时空分布情况，这严重降低了位置预测的准确性；此外，已有CGP模型没有考虑时间因素对预测准确性的影响。因此，已有CGP模型在数据来源、目的和方法都难以满足警方对疑犯位置预测的要求。

近年来，基于车辆定位数据、WIFI信号、移动手机信号数据、公共交通刷卡数据和地理社交网络check-in数据等的位置预测成为学术界和工业界的研究热点。为解决用户位置数据稀疏性的问题，这些研究将社交亲密度、路网密度或社会经济环境等外部信息引入预测模型，有效提高了模型准确性。然而，我们的应用中缺少疑犯间社交或通讯数据，也没有社会经济环境信息的支持，警方很难预测出疑犯的位置。

发明内容

本发明的目的为解决现有技术的上述问题，提供一种基于区域环境与犯罪事件数据的疑犯位置预测方法。本发明融合区域社会环境数据和犯罪历史数据，进行了疑犯社会活动位置预测建模，为疑犯位置跟踪数据稀疏性带来的问题提供有效的解决方法，对提高位置时空预测的有效性和健壮性有着重要的作用，实现疑犯位置的时空预测。

为了达到上述所述技术效果，本发明采用以下技术方案：

一种基于区域环境与犯罪事件数据的疑犯位置预测方法，实施包括以下步骤：

(1)空间网格化：将疑犯位置数据集进行空间网格化得到疑犯位置访问强度网格，获得g×g格网，G＝{p₁,p₂,…,p_i,…,p_g×g}，其中，G表示位置总数，p_i为格网G中的单个网格，每个网格作为样本和结果表达基本空间单元，用以表示疑犯在该位置的时空驻留强度和犯罪事件数量；

(2)疑犯社会活动时空分布：根据疑犯位置访问强度网格，利用张量和矩阵表达疑犯、时间与空间的关系，构建反映疑犯个体的时空位置访问频度“疑犯-位置-时段”张量Q、“位置-时段”矩阵D和“疑犯-位置”矩阵E，以表达疑犯群体的时空分布特征；

(3)位置特征抽取：根据社会经济环境，将POI特征集Fp、路网特征集Fr、建筑物特征集Fb和人口统计特征集Fc按照网格尺度汇集，构建“位置-特征”矩阵；

(4)基于案件时空信息的疑犯关联性表达：根据疑犯历史案情构建案件时空相似性，通过疑犯的犯罪案件时空相似性表达疑犯间的关联性，并据此建立“疑犯-疑犯”关联矩阵，以表达疑犯关联性；

(6)张量和矩阵的协同分解：利用“疑犯-位置”矩阵E、“位置-时段”矩阵D、“位置-特征”矩阵C和“疑犯-疑犯”关联矩阵F信息的交互关系进行协同分解，获得融合疑犯移动趋势和疑犯间关联性的张量因子分解目标函数；

(6)疑犯社会活动位置预测；根据步骤(5)的目标函数，基于PARAFAC-style张量分解方法找出该目标函数的最优解，实现疑犯个体在任意时空节点的驻留强度估算，最终预测出疑犯的所在位置。

进一步地，在步骤(2)中，所述“疑犯-位置-时段”张量的建立过程步骤为：利用每个疑犯在各网格上的驻留次数，构建反映疑犯个体的时空位置访问频度“疑犯-位置-时段”张量：Q∈R^{|U|×|G|×|T|}或Q≈δ×u×J×T，表达疑犯、位置和时间的相互关系；

所述“疑犯-位置”矩阵为E∈R^|U|×|G|或E≈u×J^T，表达各疑犯的全局空间分布模式，该矩阵反映了各位置对所有疑犯的普遍重要程度；

所述“位置-时段”矩阵为D∈R^|G|×|T|或D≈J×T^T，该矩阵刻画所有疑犯的全局时空分布模式，能为那些仅有很少跟踪记录的疑犯提供其时空分布的先验知识；

其中，|U|为疑犯数量；|G|为网格数量；|T|为时段数量；J表示位置低价潜在因子矩阵T表示时间低价潜在因子矩阵δ表示核张量u表示疑犯低价潜在因子矩阵T表示矩阵的转置，d^u、d^l和d^t分别为各自矩阵的潜在因子维度，d^u≤u,d^l≤g,d^t≤t且d^u＝d^l＝d^t。

进一步地，在步骤(3)，所述POI特征集Fp为：该位置内POI的空间密度以及12个类型的POI数量共13个特征；为体现出该区域的独有社会经济环境特性，借鉴文TF-IDF方法，将位置i中类型为j的POI数量q_ij转换为POI类型重要度Y_ij：

其中，O为POI类型数量；|G|表示位置总数；|{q_i:q_ij>0}|表示具有POI类型j的位置个数；

所述路网特征集Fr为：该位置内的路口数量和5个等级(高速公路、一级公路、二级公路、三级公路及四级公路)的道路长度共6个指标；

所述建筑物特征集Fb为：楼房密度、5类房屋(住宅型、商业性、行政型、工业型、其他)的数量分布、3类高度(低层、多层、高层)房屋的数量分布共9个指标；

所述人口统计特征集Fc为：涉及10个指标，分别是人口密度、4个年龄段的人口数量分布、5类教育程度的人口分布；4个年龄段分别为18岁以下、18-40岁，40-60岁，60岁以上；5类教育程度分别为文盲、初中、高中、大学、研究生。

进一步地，在步骤(3)，所述“位置-特征”矩阵：C∈R^G×(p+r+b+c)或其中，p、r、b和c分别表示POI特征集Fp、路网特征集Fr、建筑物特征集Fb和人口统计特征集Fc的特征个数。

进一步地，对于category类型属性，将其转变为1和0表示的one-hot向量结构，放入C中。

进一步地，在步骤(4)，所述“疑犯-疑犯”关联矩阵F∈R^|U|×|U|或F≈u×u^T，其中，|U|为疑犯数量。

进一步地，在步骤(4)，所述案件时空相似性的构建方法为：依据疑犯的历史案件数据隐含的时空位置信息和犯罪类型信息刻画他们的犯罪案件时空相似性，按照时间顺序将疑犯历史案件位置串起来形成轨迹，再通过比较两疑犯历史犯罪轨迹的最短k距离序列计算他们的犯罪案件时空相似性，疑犯m的历史犯罪轨迹H^m。

进一步地，所述疑犯m的历史犯罪轨迹H^m为：

H^m＝s₁(t₁,p₁,c₁)→s₂(t₂,p₂,c₂)→…→s_n(t_n,p_n,c_n)

其中t，p和c表示犯罪事件s发生的时间、地点和犯罪类型；

最短k距离序列：给定轨迹H₁＝[a₁,a₂,…,a_k]和H₂＝[b₁,b₂,…,b_l]，它们的最短k距离序列：s＝(a₁,b_j)→(a₂,b_j+1)→…→(a_k,b_j+k)；

且最短k距离序列遵循下面的三个条件：

(1)k≤l；

(2)

(3)语义距离d(.)的计算公式为：(n_i,n_j)＝a₂t(n_i,n_j)+a₃s(n_i,n_j)

其中，a₂～a₃为权重值；t(n_i,n_j)为犯罪时间相似度，s(n_i,n_j)为犯罪事件间的空间距离；当获取最短k距离序列s，将其各对的时空语义距离累加，即可求得两疑犯的犯罪案件时空相似性。

进一步地，在步骤(5)，所述目标函数为：

其中，||·||为Frobenius范数；(||δ||²+||u||²+||J||²+||T||²)作为正则惩罚项以防止模型过拟合；λ₁，λ₂，λ₃，λ₄和λ₅分别为目标函数中相应项的权重值，以表达各项在目标函数中的重要程度；当λ₁，λ₂，λ₃，λ₄和λ₅都为0时，目标函数退化成普通的tucker分解形式。

本发明由于采用了以上技术方案，具有以下有益效果：

(1)本发明通过融合区域社会环境数据和犯罪历史数据，进行了疑犯社会活动位置预测建模，为疑犯位置跟踪数据稀疏性带来的问题提供有效的解决方法，对提高位置时空预测的有效性和健壮性有着重要的作用，实现疑犯位置的时空预测。

(2)本发明将区域环境相似性和疑犯历史作案时空相似性集成到协同过滤建模，在缺少疑犯间社交或通讯数据，也没有社会经济环境信息的支持的情况下，位置间的潜在因子的相似性能为疑犯时空分布模式的挖掘提供更多信息，充分刻画疑犯位置分布模式，以实现疑犯位置的时空预测，帮助警方准确预测出疑犯的位置。

附图说明

为了更清楚地说明本发明实例或现有技术中的技术方案，下面将对实施实例或现有技术描述中所需要的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实例，对于本领域普通技术人员来说，在不付出创造性的前提下，还可以根据这些附图获得其他的附图：

图1是本发明实施例1的系统流程图；

图2是本发明实施例1研究区域空间网格化的网格划分图；

图3是本发明实施例1的“疑犯-位置-时段”三维张量图；

图4是本发明实施例1的疑犯历史犯罪事件轨迹图；

图5是本发明实施例1疑犯位置对应的POI类型层次树图；

图6是本发明实施例2均方根误差随样本数量变化图；

图7是本发明实施例3均方根误差随各类权重变化图。

具体实施方式

下面将结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1、图2、图3、图4、图5所示，一种基于区域环境与犯罪事件数据的疑犯位置预测方法，实施包括以下步骤：

1、空间格网化：将研究区域网格化，获得g×g格网，G＝{p₁,p₂,…,p_i,…,p_g×g}，其中，G表示位置总数，p_i为格网G中的单个网格，每个网格作为样本和结果表达基本空间单元，用以表示疑犯在该位置的时空驻留强度和犯罪事件数量，一般为g＝100～200。

2、疑犯社会活动时空分布表达：包括“疑犯-位置-时段”张量Q、“位置-时段”矩阵D和“疑犯-位置”矩阵E的建立过程，包括以下步骤：

(1)“疑犯-位置-时段”张量Q：利用每个疑犯在各网格上的驻留次数，构建三维张量——Q∈R^{|U|×|G|×|T|}，表达疑犯、位置和时间的相互关系，其中，|U|为疑犯数量；|G|为网格数量；|T|为时段数量，一天划分为24个时段，每个时段为1个小时，Q中的每个项Q_u,g,t为疑犯u在t时段下位于位置g的驻留次数。

(2)“疑犯-位置”矩阵E：构建“疑犯-位置”矩阵E∈R^|U|×|G|或E≈u×J^T，表达各疑犯的全局空间分布模式；例如，当疑犯u在网格g总共出现了5次，则该矩阵中相应的项ε_u,g＝5，该矩阵反映了各位置对所有疑犯的普遍重要程度。

(3)“位置-时段”矩阵D：为刻画所有疑犯的全局时空分布模式，构建矩阵D∈R^|G|×|T|或D≈J×T^T，其中，|G|表示位置数量，|T|表示时段数量，D中第i行和第j列的项表示所有疑犯在j时段访问i位置的次数，该矩阵能为那些仅有很少跟踪记录的疑犯提供其时空分布的先验知识。

3、位置特征抽取

具有类似社会经济环境的区域往往对疑犯具有类似的吸引力，然而涉及的社会经济环境信息包括4个部分：POI特征集、路网特征集Fr、房屋特征集Fb和人口统计特征集Fc，据此，构建“位置-特征”矩阵C∈R^G×(p+r+b+c)或其中，G表示位置总数，p、r、b和c分别表示POI特征集Fp、路网特征集Fr、房屋特征集Fb和人口统计特征集Fc集的特征个数；特别的，对于category类型的属性，将其转变为1和0表示的one-hot向量结构，放入C中。图5为位置特征抽取示例。

(1)POI特征Fp：该位置内POI的空间密度以及12个类型的POI数量共13个特征；为体现出该区域的独有社会经济环境特性，借鉴文TF-IDF方法，将位置i中类型为j的POI数量q_ij转换为POI类型重要度Y_ij：

其中，O为POI类型数量；|G|表示位置总数；|{q_i:q_ij>0}|表示具有POI类型j的位置个数。POI类型如下表表1所示。

表1POI类型

(2)路网特征Fr：该位置内的路口数量和5个等级公路的道路长度共6个指标，其中，5个等级公路分别为高速公路、一级公路、二级公路、三级公路及四级公路。

(3)建筑物特征Fb：楼房密度、5类房屋的数量分布、3类高度房屋的数量分布共9个指标，其中，5类房屋分别为住宅型、商业性、行政型、工业型、其他，3类高度分别为低层、多层、高层。

(4)人口统计特征Fc：涉及10个指标，分别是人口密度、4个年龄段的人口数量分布、5类教育程度的人口分布，其中，4个年龄段分别为18岁以下、18-40岁、40-60岁、60岁以上，5类教育程度分别为文盲、初中、高中、大学、研究生。

4、基于案件时空信息的疑犯关联性表达

疑犯历史案情关联度表现为疑犯在历史犯罪时空节点上的共现或邻近程度。依据社会日常理论(social conformity theory)，若两疑犯在相同/邻近位置作案次数越多，他们的潜在驻留位置就越可能相近。据此，通过疑犯的犯罪时空共现情况表达疑犯间的关联性，并据此建立“疑犯-疑犯”关联矩阵F∈R^|U|×|U|或F≈u×u^T，其中，|U|为疑犯数量。F[u,v]表示为疑犯u和v的历史犯罪事件时空关联度，下面将阐述F[u,v]的计算过程。

依据疑犯的历史案件数据隐含的时空位置信息和犯罪类型信息刻画他们的犯罪时空共现度。首先按照时间顺序将疑犯历史案件位置(作为轨迹点)串起来形成轨迹，再通过比较两疑犯历史犯罪轨迹的最短k距离序列计算他们的犯罪时空共现度，疑犯m的历史犯罪轨迹定义为H^m：

H^m＝s₁(t₁,p₁,c₁)→s₂(t₂,p₂,c₂)→…→s_n(t_n,p_n,c_n)

其中t，p和c表示犯罪事件s发生的时间、地点和犯罪类型；

最短k距离序列(Shortest k Distance Sequence)：给定轨迹H₁＝[a₁,a₂,…,a_k]和H₂＝[b₁,b₂,…,b_l]，它们的最短k距离序列s＝(a₁,b_j)→(a₂,b_j+1)→…→(a_k,b_j+k)；

最短k距离序列遵循下面的三个条件：

(1)k≤l；

(2)

(3)语义距离d(.)的计算公式为：

(n_i,n_j)＝a₂t(n_i,n_j)+a₃s(n_i,n_j)

其中，a₂～a₃为权重值；t(n_i,n_j)为犯罪时间相似度，s(n_i,n_j)为犯罪事件间的空间距离；当获取最短k距离序列s，将其各对的时空语义距离累加，即可求得两疑犯的犯罪时空相似度。其中，犯罪时间相似度的计算案例如下：

将作案时间分为物理时间(如2015年12月3日)和语义时间(如上午、节假日、冬季等)。其中，物理时间能表达两疑犯作案时间的邻近性；而语义时间能体现疑犯作案的某种时态模式，如夜间作案模式。依据社会作息规律，将语义时间分为三类:

第一类语义时间：将一天划分为四个语义时间，即7-12点(上午)，13-18点(下午)，19-23点(晚上)，0-6点(凌晨)；

第二类语义时间：节日、双休、工作日；

第三类语义时间：春、夏、秋、冬。

则两犯罪事件的时间相似度为：t(n_i,n_j)＝a₆t_p(n_i,n_j)×a₇t_s(n_i,n_j)

其中，

其中，a₆和a₇作为权重分别控制物理时间和语义时间的重要度，t_p(n_i,n_j)表示物理时间差；t_s(n_i,n_j)表示语义时间差，β_t表示第t类语义时间的权重，如两人在第t类的同一语义时间作案，isSameSemanticTime_t(n_i,n_j)则为1，否则为0。

5、张量和矩阵的协同分解

位置预测的准确性十分依赖数据详细程度，而多个矩阵和张量的联合分解，能通过多源数据间的相互约束，提高分解精度。因此，利用“疑犯-位置”矩阵E、“位置-时段”矩阵D、“位置-特征”矩阵C和“疑犯疑犯”关联矩阵F额外信息提高Q因子分解过程中的准确性，进而提高疑犯位置预测性能。

张量Q可因子分解为：Q≈δ×u×J×T，其中，核张量(coretensor)疑犯低价潜在因子矩阵(lowranklatentfactorsmatrix)位置低价潜在因子矩阵和时间低价潜在因子矩阵d^u、d^l和d^t分别为各自矩阵的潜在因子维度，d^u≤u,d^l≤g,d^t≤t且d^u＝d^l＝d^t；

同理，“疑犯-位置”矩阵E≈u×J^T，“位置-时间”矩阵D≈J×T^T，“位置-特征”矩阵疑犯关联矩阵F≈u×u^T，可见，Q与E、D及F共享了潜在因子矩阵u、J和T，依据以上信息交互关系，得到融合疑犯移动趋势和疑犯间关联性的张量因子分解目标函数：

其中，||·||为Frobenius范数(norm)；(||δ||²+||U||²+||J||²+||T||²)作为正则惩罚项以防止模型过拟合；λ₁,λ₂,λ₃和λ₄分别为目标函数中相应项的权重值，以表达各项在目标函数中的重要程度，当它们都为0时，目标函数退化成普通的tucker分解形式(tuckerdecomposition)。由于没有数值解析方法(closed-form solution)能计算出该目标函数的全局最优解，我们基于PARAFAC-style张量分解方法找出该目标函数的最优解，，实现疑犯个体在任意时空节点的驻留强度估算，最终预测出疑犯的所在位置。

实施例2

疑犯位置数据集包括了W市从2012年1月至2012年6月共6个月内210名疑犯的18754个停留点，分布在1083个不同的位置上，该数据集中个体疑犯轨迹数据极为稀疏。其中，70％疑犯的轨迹点少于50个，且80％疑犯仅具有6个以内的不同位置，即疑犯的活动集中出现在少数若干位置；此外，疑犯停留的POI类型中，与ATM机相关的位置类型高达11000多次，其次是网吧、旅店、出租屋、交通站点(机场和车站等)和其他类型(如商场等)。

疑犯历史案情数据集包括这210名疑犯的1208条犯罪记录，平均5.8起/人，中值为3起，最大为12起，最小为1起。每条犯罪记录包括了作案者姓名、身份证号码、案件类型、案情描述、办案派出所、作案时间与地点等信息。

疑犯属性数据库包括了这210名疑犯的出生地、民族、性别、年龄、居住地、教育程度和工作类型等7个指标信息。

采用交叉验证，即随机从源GPS集抽取40～80％为训练数据，其余60～20％作为测试数据。每轮进行10次交叉验证，记录每轮各方法的均方根误差(Root Mean SquareError,RMSE)均值。本实施例中的λ₁＝λ₂＝λ₃＝λ₄＝0.1，潜在因子数量k＝10。由图6可知，我们提出的融合犯罪记录的位置预测(Crime Records enhanced Location Prediction，CReLP)模型方法在RMSE指标上优于其他3个方法，当训练样本达到总数的80％时，其RMSE为1.93，高于第二名MFBH方法33％，高于最差的MF(Most Frequent Model)方法66％。这说明引入疑犯历史犯罪时空信息对疑犯未来时空节点的估算是有效的。MF方法利用多项式分布对疑犯在每个时段的位置分布建模，然而，其在各样本量下的性能值均为最差。有趣的是，缺少时间约束的PMM(Periodic Mobility Model)方法反而比MF的预测性能要好，这可能是时间要素的直接引入导致数据更加稀疏，无法充分刻画疑犯位置分布模式。相比较而言，基于矩阵/张量分解的方法，包括MFBH和我们的CReLP，在各样本量条件下均优于PMM和MF，这表明，在数据稀疏情况下，位置间的潜在环境相似性(潜在因子的相似性)能为疑犯时空分布模式的挖掘提供更多信息。

实施例3

将λ₁～λ₄控制在0-1之间，通过观察RMSE指标的变化，验证疑犯总体位移信息、疑犯关联信息及正则对位置预测性能的影响。默认情况下，λ₁＝λ₂＝λ₃＝λ₄＝0.1。如图7所示，集成了疑犯移动的总体趋势信息和疑犯间关联信息后(各λ_i≠0)，模型预测性能有了明显提升。如λ₁＝λ₂＝λ₃＝λ₄＝0.2时，模型的RMSE都较λ₁＝λ₂＝λ₃＝λ₄＝0时都有所下降，其中以λ₃相关的下降特别明显，表明疑犯历史案情时空相似性的确对疑犯位置的分布具有明显的指示作用。当λ₄为0.4时，其RMSE达到最小值，而λ₁～λ₃都在0.2时，达到各自的最小值，这说明在大量缺失值的情况下，正则化的作用非常重要。但是随着λ₁～λ₄数值的继续增加，RMSE都开始增加，表明总体性的移动趋势和历史犯罪案情的关联性权重一旦过大，该算法容易模糊疑犯间位移模式的差异性。当λ₁～λ₄都为1时，RMSE都达到了各自的最大值，同时，疑犯关联度涉及的λ₃权重造成的RMSE最大，表明过多依靠历史犯罪案情的相似性较过多依赖疑犯位移总体趋势来说，更加不利于性能的提升。

综上所述，本发明通过融合区域社会环境数据和犯罪历史数据，进行了疑犯社会活动位置预测建模，为疑犯位置跟踪数据稀疏性带来的问题提供有效的解决方法，对提高位置时空预测的有效性和健壮性有着重要的作用，实现疑犯位置的时空预测。将区域环境相似性和疑犯历史作案时空相似性集成到协同过滤建模，在缺少疑犯间社交或通讯数据，也没有社会经济环境信息的支持的情况下，位置间的潜在因子的相似性能为疑犯时空分布模式的挖掘提供更多信息，充分刻画疑犯位置分布模式，以实现疑犯位置的时空预测，帮助警方准确预测出疑犯的位置。

以上所述仅为发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于区域环境与犯罪事件数据的疑犯位置预测方法，其特征在于：实施包括以下步骤：

(5)张量和矩阵的协同分解：利用“疑犯-位置”矩阵E、“位置-时段”矩阵D、“位置-特征”矩阵C和“疑犯-疑犯”关联矩阵F信息的交互关系进行协同分解，获得融合疑犯移动趋势和疑犯间关联性的张量因子分解目标函数；

2.根据权利要求1所述的基于区域环境与犯罪事件数据的疑犯位置预测方法，其特征在于：在步骤(2)中，所述“疑犯-位置-时段”张量的建立过程步骤为：利用每个疑犯在各网格上的驻留次数，构建反映疑犯个体的时空位置访问频度“疑犯-位置-时段”张量：Q∈R^{|U|×|G|×|T|}或Q≈δ×u×J×T，表达疑犯、位置和时间的相互关系；

3.根据权利要求1所述的基于区域环境与犯罪事件数据的疑犯位置预测方法，其特征在于：在步骤(3)，所述POI特征集Fp为：该位置内POI的空间密度以及12个类型的POI数量共13个特征；为体现出该区域的独有社会经济环境特性，借鉴文TF-IDF方法，将位置i中类型为j的POI数量q_ij转换为POI类型重要度Y_ij：

4.根据权利要求1所述的基于区域环境与犯罪事件数据的疑犯位置预测方法，其特征在于：在步骤(3)，所述“位置-特征”矩阵：C∈R^G×(p+r+b+c)或其中，p、r、b和c分别表示POI特征集Fp、路网特征集Fr、建筑物特征集Fb和人口统计特征集Fc的特征个数。

5.根据权利要求4所述的基于区域环境与犯罪事件数据的疑犯位置预测方法，其特征在于：对于category类型属性，将其转变为1和0表示的one-hot向量结构，放入C中。

6.根据权利要求1所述的基于区域环境与犯罪事件数据的疑犯位置预测方法，其特征在于：在步骤(4)，所述“疑犯-疑犯”关联矩阵F∈R^|U|×|U|或F≈u×u^T，其中，|U|为疑犯数量。

7.根据权利要求1所述的基于区域环境与犯罪事件数据的疑犯位置预测方法，其特征在于：在步骤(4)，所述案件时空相似性的构建方法为：依据疑犯的历史案件数据隐含的时空位置信息和犯罪类型信息刻画他们的犯罪案件时空相似性，按照时间顺序将疑犯历史案件位置串起来形成轨迹，再通过比较两疑犯历史犯罪轨迹的最短k距离序列计算他们的犯罪案件时空相似性，疑犯m的历史犯罪轨迹H^m。

8.根据权利要求7所述的基于区域环境与犯罪事件数据的疑犯位置预测方法，其特征在于：所述疑犯m的历史犯罪轨迹H^m为：

H^m＝s₁(t₁,p₁,c₁)→s₂(t₂,p₂,c₂)→…→s_n(t_n,p_n,c_n)

其中t，p和c表示犯罪事件s发生的时间、地点和犯罪类型；

且最短k距离序列遵循下面的三个条件：

(1)k≤l；

(2)

9.根据权利要求1所述的基于区域环境与犯罪事件数据的疑犯位置预测方法，其特征在于：在步骤(5)，所述目标函数为：

其中，||·||为Frobenius范数；(||δ²+||u||²+||J||²+||T||²)作为正则惩罚项以防止模型过拟合；λ₁，λ₂，λ₃，λ₄和λ₅分别为目标函数中相应项的权重值，以表达各项在目标函数中的重要程度；当λ₁，λ₂，λ₃，λ₄和λ₅都为0时，目标函数退化成普通的tucker分解形式。