发明内容
发明目的:本发明旨在提供一种细粒度的犯罪预测方法及系统,通过融合时间、空间和类别关联提高预测性能。其中,细粒度是指,预测给定区域在未来某段时间内隶属于每个犯罪类别的案件数。
技术方案:
一种细粒度的城市犯罪预测方法,包括如下步骤:
步骤一:给定P个目标区域、M个犯罪类别(如盗窃、殴打等)和T个时间段(如天、星期等),将历史犯罪数据组织成一个三维张量
其中x
itm∈χ表示第i个区域内第m类案件在第t个时间段的数量;
步骤二:给定目标区域之间的距离信息和目标区域的特征向量,计算拉普拉斯矩阵L1和L2;
步骤三:给定时间间隔K,对每个待预测的时间段t(K+1≤t≤T),将时间段t-K到t-1内的犯罪数据组织成向量Xt;
步骤四:对每个待预测的时间段t(K+1≤t≤T),利用向量自回归模型推断该时间段内每个区域各类案件的数量,所有待预测的时间段对应的预测结果构成张量
步骤五:利用张量χ和
以及拉普拉斯矩阵L
1和L
2,构造目标函数
进而得到优化问题
其中
是向量自回归模型中涉及的回归系数张量,rank(·)表示张量的秩;
步骤七:给定时间段T′>T,将时间段T′-K到T′-1内的犯罪数据组织成向量XT′,利用向量自回归模型推断该时间段内每个区域各类案件的数量。
进一步地,步骤二中,所述给定目标区域之间的距离信息和目标区域的特征向量,计算拉普拉斯矩阵L1和L2,具体包括:
将区域i和i′之间的距离记为d
ii′,构造距离相似性矩阵
其中
μ
1和σ
1是所有区域之间距离的均值和方差;
利用公式L1=D1-S1,计算得到拉普拉斯矩阵L1,其中Dii=∑jSij;
将区域i对应的特征向量记为f
i,构造特征相似性矩阵
其中
Dist(i,i′)是特征向量f
i和f
i′之间的欧氏距离,μ
2和σ
2是所有特征向量之间距离的均值和方差;
利用公式L2=D2-S2,计算得到拉普拉斯矩阵L2,其中Dii=∑jSij。
进一步地,步骤三中,所述给定时间间隔K,对每个待预测的时间段t(K+1≤t≤T),将时间段t-K到t-1内的犯罪数据组织成向量Xt,具体包括:
对每个待预测的时间段t,定义一个K×T的矩阵It,其中Ii,t-(K-i+1)=1,1≤i≤K;
进一步地,步骤四中,所述对每个待预测的时间段t(K+1≤t≤T),利用向量自回归模型推断该时间段内每个区域各类案件的数量,所有待预测的时间段对应的预测结果构成张量
具体包括:
根据公式
计算第m类案件在第t个时间段内的案件数,其中
是待学习的回归系数张量,ξ是噪声张量,服从均值为0、方差为1的多元高斯分布。张量
中包含了所有待预测的时间段对应的预测结果。
进一步地,步骤五中,所述利用张量χ和
以及拉普拉斯矩阵L
1和L
2,构造目标函数
进而得到优化问题
其中
是向量自回归模型中涉及的回归系数张量,rank(·)表示张量的秩,具体包括:
根据公式
构造目标函数
其中,
是从时间段K+1到T的历史犯罪数据对应的张量,α
1和α
2用于平衡两种空间因素的权重,tr(·)表示矩阵的迹。公式中后两项使得距离相近和特征相似的区域,具有相似的案件数;
由于L
1和L
2是对称正定矩阵,所以有HH
T=I
P+α
1L
1+α
2L
2,其中,H是由Cholesky分解得到的下三角矩阵,I
P是P×P的单位矩阵。进而,可以将目标函数简化为
进一步地,步骤六中,所述求解优化问题,得到回归系数张量的估计值
具体包括:
为了求得回归系数张量
对
做CANDECOMP/PARAFAC(CP)分解。具体来说,给定维度n(1≤n≤3),可得优化问题
其中,X′
1=X′
(1),
X′
3=X′
(3),
X
2=X,
Y′
(1)=A(C⊙B)
T,Y′
(2)=(C⊙A)B
T,Y′
(3)=C(A⊙B)
T。X′
(n)是把张量χ′沿着第n维展开得到的矩阵,diag(X,X,…,X)表示以X为对角元素的块对角矩阵,
是对
做CP分解得到的因子矩阵,R是张量
的CP秩,⊙表示Khatri-Rao积;
利用交替最小化算法,可求得因子矩阵A、B、C的值;
利用公式
得到张量
其中refold
1(·)表示将矩阵沿着第1个维度恢复为一个张量;
进一步地,步骤七中,所述给定时间段T′>T,将时间段T′-K到T′-1内的犯罪数据组织成向量XT′,利用向量自回归模型推断该时间段内每个区域各类案件的数量,具体包括:
将第m类案件在时间段T′-K到T′-1内的犯罪数据组织成矩阵
其中
的第i行对应第i个区域在时间段T′-K到T′-1内第m类案件的犯罪数据;
根据公式
计算第m类案件在第T′个时间段内的案件数,其中
表示矩阵
的第m列。矩阵
中包含了第T′个时间段内所有目标区域各类案件的预测结果,其中,
的第i行对应第i个区域M类案件的数量。
一种细粒度的城市犯罪预测系统,包括:数据处理单元、空间建模单元、优化目标建模单元、模型训练单元和犯罪预测单元。
数据处理单元,用于将历史犯罪数据组织成一个三维张量
其中P是目标区域的个数、M是犯罪类别的个数,T是时间段的个数,x
itm∈χ表示第i个区域内第m类案件在第t个时间段的数量;
空间建模单元,用于根据目标区域之间的距离信息和目标区域的特征向量,计算拉普拉斯矩阵L1和L2;
优化目标建模单元,用于根据给定时间间隔K,对每个待预测的时间段t(K+1≤t≤T),将时间段t-K到t-1内的犯罪数据组织成向量Xt;
所述优化目标建模单元还用于,对每个待预测的时间段t(K+1≤t≤T),利用向量自回归模型推断该时间段内每个区域各类案件的数量,所有待预测的时间段对应的预测结果构成张量
所述优化目标建模单元还用于,利用张量χ和
以及拉普拉斯矩阵L
1和L
2,构造目标函数
进而得到优化问题
其中
是向量自回归模型中涉及的回归系数张量,rank(·)表示张量的秩;
模型训练单元,用于求解优化问题,得到回归系数张量的估计值
犯罪预测单元,用于对给定时间段T′>T,将时间段T′-K到T′-1内的犯罪数据组织成向量XT′,利用向量自回归模型推断该时间段内每个区域各类案件的数量。
进一步地,所述空间建模单元具体用于,根据区域i和i′之间的距离d
ii′,构造距离相似性矩阵
其中
μ
1和σ
1是所有区域之间距离的均值和方差;
利用公式L1=D1-S1,计算得到拉普拉斯矩阵L1,其中Dii=∑jSij;
将区域i对应的特征向量记为f
i,构造特征相似性矩阵
其中
Dist(i,i′)是特征向量f
i和f
i′之间的欧氏距离,μ
2和σ
2是所有特征向量之间距离的均值和方差;
利用公式L2=D2-S2,计算得到拉普拉斯矩阵L2,其中Dii=∑jSij。
进一步地,所述优化目标建模单元具体用于,对每个待预测的时间段t,定义一个K×T的矩阵It,其中Ii,t-(K-i+1)=1,1≤i≤K;
根据公式
计算第m类案件在第t个时间段内的案件数,其中
是待学习的回归系数张量,ξ是噪声张量,服从均值为0、方差为1的多元高斯分布。张量
中包含了所有待预测的时间段对应的预测结果;
根据公式
构造目标函数
其中,
是从时间段K+1到T的历史犯罪数据对应的张量,α
1和α
2用于平衡两种空间因素的权重,tr(·)表示矩阵的迹。公式中后两项使得距离相近和特征相似的区域,具有相似的案件数;
由于L
1和L
2是对称正定矩阵,所以有HH
T=I
P+α
1L
1+α
2L
2,其中,H是由Cholesky分解得到的下三角矩阵,I
P是P×P的单位矩阵。进而,可以将目标函数简化为
进一步地,所述模型训练单元具体用于,令χ′
::m=H
-1χ
::m,
那么
等价于
为了求得回归系数张量
对
做CANDECOMP/PARAFAC(CP)分解。具体来说,给定维度n(1≤n≤3),可得优化问题
其中,X′
1=X′
(1),
X′
3=X′
(3),
X
2=X,
Y′
(1)=A(C⊙B)
T,Y′
(2)=(C⊙A)B
T,Y′
(3)=C(A⊙B)
T。X′
(n)是把张量χ′沿着第n维展开得到的矩阵,diag(X,X,…,X)表示以X为对角元素的块对角矩阵,
是对
做CP分解得到的因子矩阵,R是张量
的CP秩,⊙表示Khatri-Rao积;
利用交替最小化算法,可求得因子矩阵A、B、C的值;
利用公式
得到张量
其中refold
1(·)表示将矩阵沿着第1个维度恢复为一个张量;
进一步地,所述犯罪预测单元具体用于,对给定的时间段T′>T,将时间段T′-K到T′-1内的犯罪数据组织成向量XT′,利用向量自回归模型推断该时间段内每个区域各类案件的数量,具体包括:
将第m类案件在时间段T′-K到T′-1内的犯罪数据组织成矩阵
其中
的第i行对应第i个区域在时间段T′-K到T′-1内第m类案件的犯罪数据;
根据公式
计算第m类案件在第T′个时间段内的案件数,其中
表示矩阵
的第m列。矩阵
中包含了第T′个时间段内所有目标区域各类案件的预测结果,其中,
的第i行对应第i个区域M类案件的数量。
有益效果:本发明有效解决了预测给定区域在未来某段时间内隶属于每个犯罪类别的案件数的问题,预测粒度比已有方法更细,并通过综合考虑犯罪数据中的时间、空间和类别关联性,提高模型的预测性能。
具体实施方式
下面结合附图对本发明做更进一步的解释。图1为本发明实施例一提供的一种细粒度的城市犯罪预测方法流程图。如图1所示,本实施例包括以下步骤:
步骤一:给定P个目标区域、M个犯罪类别(如盗窃、殴打等)和T个时间段(如天、星期等),将历史犯罪数据组织成一个三维张量
其中x
itm∈χ表示第i个区域内第m类案件在第t个时间段的数量。
假设有2个目标区域、2个犯罪类别(盗窃和殴打)、5天(2021年8月1日-2021年8月5日),历史犯罪数据如下所示:
将以上历史犯罪数据组织成一个三维张量
则χ沿着第1维展开得到的矩阵为
步骤二:给定目标区域之间的距离信息和目标区域的特征向量,计算拉普拉斯矩阵L1和L2,具体如下:
将区域i和i′之间的距离记为d
ii′,构造距离相似性矩阵
其中
μ
1和σ
1是所有区域之间距离的均值和方差;
利用公式L1=D1-S1,计算得到拉普拉斯矩阵L1,其中Dii=∑jSij;
将区域i对应的特征向量记为f
i,构造特征相似性矩阵
其中
Dist(i,i′)是特征向量f
i和f
i′之间的欧氏距离,μ
2和σ
2是所有特征向量之间距离的均值和方差;
利用公式L2=D2-S2,计算得到拉普拉斯矩阵L2,其中Dii=∑jSij。
这里的特征向量fi反映了区域i的特性。例如,区域1和区域2的各类兴趣点(Points-Of-Interests,POI)数量如下所示:
那么,f1=[102,56,357,89,35,45],f2=[4,0,1,1,0,0]。从区域1和区域2的特征向量可以推断出,这两个区域具有显著差别,区域1很可能位于城区,区域2很可能位于农村。因此,这两个区域的案件数应该差别较大。构建拉普拉斯矩阵L2,为构建目标函数时捕捉这一特性奠定了基础。
步骤三:给定时间间隔K,对每个待预测的时间段t(K+1≤t≤T),将时间段t-K到t-1内的犯罪数据组织成向量Xt,具体如下:
对每个待预测的时间段t,定义一个K×T的矩阵It,其中Ii,t-(K-i+1)=1,1≤i≤K;
假设K=4,t=5,那么X4=[4,7,5,3,2,1,0,0,10,5,4,6,0,1,0,1]。
步骤四:对每个待预测的时间段t(K+1≤t≤T),利用向量自回归模型推断该时间段内每个区域各类案件的数量,所有待预测的时间段对应的预测结果构成张量
具体如下:
根据公式
计算第m类案件在第t个时间段内的案件数,其中
是待学习的回归系数张量,ξ是噪声张量,服从均值为0、方差为1的多元高斯分布。张量
中包含了所有待预测的时间段对应的预测结果。
步骤五:利用张量χ和
以及拉普拉斯矩阵L
1和L
2,构造目标函数
进而得到优化问题
其中
是向量自回归模型中涉及的回归系数张量,rank(·)表示张量的秩,具体如下:
根据公式
构造目标函数
其中,
是从时间段K+1到T的历史犯罪数据对应的张量,α
1和α
2用于平衡两种空间因素的权重,tr(·)表示矩阵的迹。公式中后两项使得距离相近和特征相似的区域,具有相似的案件数;
由于L
1和L
2是对称正定矩阵,所以有HH
T=I
P+α
1L
1+α
2L
2,其中,H是由Cholesky分解得到的下三角矩阵,I
P是P×P的单位矩阵。进而,可以将目标函数简化为
步骤六:求解优化问题,得到回归系数张量的估计值
具体如下:
为了求得回归系数张量
对
做CANDECOMP/PARAFAC(CP)分解。具体来说,给定维度n(1≤n≤3),可得优化问题
其中,X′
1=X′
(1),
X′
3=X′
(3),
X
2=X,
Y′
(1)=A(C⊙B)
T,Y′
(2)=(C⊙A)B
T,Y′
(3)=C(A⊙B)
T。X′
(n)是把张量χ′沿着第n维展开得到的矩阵,diag(X,X,…,X)表示以X为对角元素的块对角矩阵,
是对
做CP分解得到的因子矩阵,R是张量
的CP秩,⊙表示Khatri-Rao积;
利用交替最小化算法,可求得因子矩阵A、B、C的值;
利用公式
得到张量
其中refold
1(·)表示将矩阵沿着第1个维度恢复为一个张量;
步骤七:给定时间段T′>T,将时间段T′-K到T′-1内的犯罪数据组织成向量XT′,利用向量自回归模型推断该时间段内每个区域各类案件的数量,具体如下:
将第m类案件在时间段T′-K到T′-1内的犯罪数据组织成矩阵
其中
的第i行对应第i个区域在时间段T′-K到T′-1内第m类案件的犯罪数据;
根据公式
计算第m类案件在第T′个时间段内的案件数,其中
表示矩阵
的第m列。矩阵
中包含了第T′个时间段内所有目标区域各类案件的预测结果,其中,
的第i行对应第i个区域M类案件的数量。
相应地,本发明提供了一种细粒度的城市犯罪预测系统。图2是本发明实施例二提供的一种细粒度的城市犯罪预测系统结构示意图,该系统包括:数据处理单元110、空间建模单元120,优化目标建模单元130,模型训练单元140,犯罪预测单元150。
数据处理单元110,用于将历史犯罪数据组织成一个三维张量
其中P是目标区域的个数、M是犯罪类别的个数,T是时间段的个数,x
itm∈χ表示第i个区域内第m类案件在第t个时间段的数量;
空间建模单元120,用于根据目标区域之间的距离信息和目标区域的特征向量,计算拉普拉斯矩阵L1和L2;
优化目标建模单元130,用于根据给定时间间隔K,对每个待预测的时间段t(K+1≤t≤T),将时间段t-K到t-1内的犯罪数据组织成向量Xt;
所述优化目标建模单元130还用于,对每个待预测的时间段t(K+1≤t≤T),利用向量自回归模型推断该时间段内每个区域各类案件的数量,所有待预测的时间段对应的预测结果构成张量
所述优化目标建模单元130还用于,利用张量χ和
以及拉普拉斯矩阵L
1和L
2,构造目标函数
进而得到优化问题
其中
是向量自回归模型中涉及的回归系数张量,rank(·)表示张量的秩;
模型训练单元140,用于求解优化问题,得到回归系数张量的估计值
犯罪预测单元150,用于对给定时间段T′>T,将时间段T′-K到T′-1内的犯罪数据组织成向量XT′,利用向量自回归模型推断该时间段内每个区域各类案件的数量。
优选地,所述空间建模单元120具体用于,根据区域i和i′之间的距离d
ii′,构造距离相似性矩阵
其中
μ
1和σ
1是所有区域之间距离的均值和方差;
利用公式L1=D1-S1,计算得到拉普拉斯矩阵L1,其中Dii=∑jSij;
将区域i对应的特征向量记为f
i,构造特征相似性矩阵
其中
Dist(i,i′)是特征向量f
i和f
i′之间的欧氏距离,μ
2和σ
2是所有特征向量之间距离的均值和方差;
利用公式L2=D2-S2,计算得到拉普拉斯矩阵L2,其中Dii=∑jSij。
优选地,所述优化目标建模单元130具体用于,对每个待预测的时间段t,定义一个K×T的矩阵It,其中Ii,t-(K-i+1)=1,1≤i≤K;
根据公式
计算第m类案件在第t个时间段内的案件数,其中
是待学习的回归系数张量,ξ是噪声张量,服从均值为0、方差为1的多元高斯分布。张量
中包含了所有待预测的时间段对应的预测结果;
根据公式
构造目标函数
其中,
是从时间段K+1到T的历史犯罪数据对应的张量,α
1和α
2用于平衡两种空间因素的权重,tr(·)表示矩阵的迹。公式中后两项使得距离相近和特征相似的区域,具有相似的案件数;
由于L
1和L
2是对称正定矩阵,所以有HH
T=I
P+α
1L
1+α
2L
2,其中,H是由Cholesky分解得到的下三角矩阵,I
P是P×P的单位矩阵。进而,可以将目标函数简化为
优选地,所述模型训练单元140具体用于,令χ′
::m=H
-1χ
::m,
那么
等价于
为了求得回归系数张量
对
做CANDECOMP/PARAFAC(CP)分解。具体来说,给定维度n(1≤n≤3),可得优化问题
其中,X′
1=X′
(1),
X′
3=X′
(3),
X
2=X,
Y′
(1)=A(C⊙B)
T,Y′
(2)=(C⊙A)B
T,Y′
(3)=C(A⊙B)
T。X′
(n)是把张量χ′沿着第n维展开得到的矩阵,diag(X,X,…,X)表示以X为对角元素的块对角矩阵,
是对
做CP分解得到的因子矩阵,R是张量
的CP秩,⊙表示Khatri-Rao积;
利用交替最小化算法,可求得因子矩阵A、B、C的值;
利用公式
得到张量
其中refold
1(·)表示将矩阵沿着第1个维度恢复为一个张量;
优选地,所述犯罪预测单元150具体用于,对给定的时间段T′>T,将时间段T′-K到T′-1内的犯罪数据组织成向量XT′,利用向量自回归模型推断该时间段内每个区域各类案件的数量,具体包括:
将第m类案件在时间段T′-K到T′-1内的犯罪数据组织成矩阵
其中
的第i行对应第i个区域在时间段T′-K到T′-1内第m类案件的犯罪数据;
根据公式
计算第m类案件在第T′个时间段内的案件数,其中
表示矩阵
的第m列。矩阵
中包含了第T′个时间段内所有目标区域各类案件的预测结果,其中,
的第i行对应第i个区域M类案件的数量。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM,或技术领域内所公知的任意其它形式的存储介质中。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。