CN107092929B

CN107092929B - 基于聚类技术的刑事犯罪案件关联串并方法及系统

Info

Publication number: CN107092929B
Application number: CN201710256157.4A
Authority: CN
Inventors: 谢晓川
Original assignee: Guangzhou Keduxi Information Technology Co ltd
Current assignee: Guangzhou Keduxi Information Technology Co ltd
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2020-10-20
Anticipated expiration: 2037-04-19
Also published as: CN107092929A

Abstract

本发明公开了一种基于聚类技术的刑事犯罪案件关联串并方法，包括如下步骤：S1、获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量；S2、根据案件数据变量建立描述案件关联程度的相似度模型，根据相似度模型计算相似度矩阵；S3、利用图分解技术，将相似度矩阵转换成的一个图分解为若干连通子图；S4、对连通子图使用聚类算法进行图切割计算，将所有案件准确分组；S5、提取每个案件群组的关键特征参数，将关键特征参数根据优先级高低推送给用户。本发明不仅能处理源数据具有明确、唯一性特征的数据，也能处理仅具有可能性特征的数据，极大的提高了刑事犯罪案件关联串并的效率，并且准确性高。

Description

基于聚类技术的刑事犯罪案件关联串并方法及系统

技术领域

本发明涉及侦查破案技术领域，具体涉及一种基于聚类技术的刑事犯罪案件关联串并方法及系统。

背景技术

对团伙型、系列性犯罪案件的串并关联分析是犯罪案件执法部门侦查破案工作的重要环节。通过分析、提取多个案件之间的共同点，连接关键信息，执法部门可以拓宽侦查视野；将系列案件并案侦查，能够显著减少执法成本，提高打击犯罪的深度和广度，增强整体工作效能。

伴随整个社会的信息化发展，刑事犯罪执法机构建立了犯罪案件计算机管理系统，积累了大量犯罪案件数据。从案件并案分析的角度，每个犯罪案件包含很多特征要素，具有不同程度的确定性(可能性)，主要有两类：

第一种数据的内容具有明确、唯一性特征，例如身份证件号码、公司名称、税务登记号、银行账号、电话号码等。例如，假设一个犯罪嫌疑人的身份证件号码在两个犯罪案件中出现，那么可以确定这两个犯罪案件存在明确关联，进而发起并案侦查。

第二种数据不具有唯一性特征，只能描述可能性(大小)。例如人的外在自然属性，包括身高、年龄等。例如对于两个犯罪案件，如果目击者分别描述的犯罪嫌疑人身高接近或相同，仅凭这个因素并不能确定是否有联系。但是，如果多个数据特征具有接近或者相同的内容，说明这些犯罪案件具有较高的相似程度，可以初步判断为系列犯罪案件，予以并案侦查。例如，多个街面抢劫案发生在邻近的区域、相近的时间段，作案手法、工具类似，多个受害人报称的犯罪嫌疑人身高、年龄接近，执法人员可以初步判断为系列街面抢劫案。

传统上，刑事犯罪调查人员通过查询、比对案件信息系统中案件的特征信息，判断多个刑事犯罪件的相似程度，决定是否发起并案串并侦查。此类人工操作方式的效率、准确率不高。

发明内容

有鉴于此，为了解决现有技术中的上述问题，本发明提出一种基于聚类技术的刑事犯罪案件关联串并方法及系统，融合案件的异构数据类型，建立准确的案件相似度模型，描述案件的关联程度，通过高效、准确的聚类算法，完成案件的关联串并过程。

本发明通过以下技术手段解决上述问题：

一种基于聚类技术的刑事犯罪案件关联串并方法，包括如下步骤：

S1、获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量；

S2、根据案件数据变量建立描述案件关联程度的相似度模型，根据相似度模型计算相似度矩阵；

S3、利用图分解技术，将相似度矩阵转换成的一个图分解为若干连通子图；

S4、对连通子图使用聚类算法进行图切割计算，将所有案件准确分组。

进一步地，所述基于聚类技术的刑事犯罪案件关联串并方法还包括：

S5、提取每个案件群组的关键特征参数，将关键特征参数根据优先级高低推送给用户。

进一步地，步骤S1中，所述案件数据变量从刑事犯罪案件信息管理系统中抽取；案件数据变量的高维度包括嫌疑人身份证号码、手机号码、银行账号、作案手法、作案时间、作案天气、作案地域、作案工具、嫌疑人身高、嫌疑人年龄；案件数据变量的异构数据类型包括数值型、字符串型、树形结构的分层代码型。

进一步地，步骤S2中，建立相似度模型具体包括：

S21、将案件数据变量分为唯一性变量和可能性变量；

S22、定义唯一性变量的相似度模型：

唯一性变量为字符串类型，将一个案件m的所有字符串构成一个集合C_m，案件m，n的相似度表示为

W_a(m，n)＝|C_m∩C_n| (1)

S23、定义可能性变量的相似度模型：

案件m，n的相似度，是多个数据变量的综合贡献，定义为

W_b(m，n)＝∑_Iw_IF_I(m，n) (2)

其中，w_I为归一化权重，表示各数据变量对于整体相似度的贡献比例，I表示数据变量的个数，∑_Iw_I＝1；F_I(m，n)表示案件m，n基于一个特定数据变量的相似度；

步骤S23具体包括：

将可能性变量分为数值型和树形结构的分层代码型；

定义数值型可能性变量的相似度模型：

犯罪嫌疑人的身高范围[h_a，h_b]、年龄范围[a_a，a_b]，对于犯罪嫌疑人的身高和年龄变量，取平均值，即

对案件m，n分别涉及的两个犯罪嫌疑人P_m，P_n，相似度表达式为

其中，h_m，h_n为二人身高，a_m，a_n为年龄，σ_h，σ_a为控制参数，取经验值5cm，5岁；

与两个发案时间t_m，t_n有关的相似度，即犯罪案件的时间相关性为

σ_t为控制参数，根据案件类型选取；

发案地点表示为几何坐标

空间相关性表示为

表示坐标点的几何距离，σ_d为控制参数；

定义树形结构的分层代码型可能性变量的相似度模型：

树形结构的分层代码型表示为一个树形结构，根节点表示代码名称，每下一层节点为对父节点的进一步细分，在树形结构中，从根节点R_o到任意一个节点N_z有唯一的一条路径P_z，表示为

P_z＝R_oN_i1N_j2...N_pq，N_pq＝N_z (7)

N_pq表示在第p层的某个节点，这条路径的长度为q，即节点N_z的高度H(N_z)＝q，节点N_z与路径P_z等效，表示分层代码数据类型的一个唯一代码值，对于两个案件m、n的两个代码值，对应代码树的两条路径P_i，P_j，如果从根节点开始，直到第z层，二者具有相同的节点，那么这两条路径，亦即两个代码的相似度定义为

F₄(P_i，P_j)＝z/max[H(N_i)，H(N_j)] (8)

所有的F_f，f＝1-4满足归一化条件0≤F_f≤1，值为1表示完全匹配，相似度最大；值为0表示最弱的关系，即完全无关。

进一步地，步骤S2中，计算相似度矩阵具体包括：

对任意两个案件，根据(1)或(2)，计算相似度值，对所有案件，根据两两关系，生成N′×N′的相似度矩阵W′，N′是案件数量，W′是一个对称矩阵，其中对角线元素表示案件与自身的相似度，不需计算，只需计算W′的上三角或者下三角矩阵。

进一步地，步骤S3具体包括：

根据社会网络分析理论和图论，将W′矩阵转换为一个无向图G，图的每个节点表示一个案件，边的权值表示案件之间的关联程度；

对于图G，设定一个接近于零的阈值T，若G的元素小于T，表示两个案件不可能有实际联系，直接置零，G由多个连通子图构成，图分解将一个“大”图分解为若干连通子图：

G＝∪_lG_l，∩_lG_l＝φ (9)

其中，l为子图个数；

使用宽度或者深度优先算法完成图分解过程。

进一步地，步骤S4具体包括：

首先，定义以下变量：

图G(V，W)，V为节点集合，节点数L＝|V|；W为边集合，表示为L×L相似度矩阵W，W_ce＝W_ec，W_cc＝0；

任意节点E的度d_E＝∑_ew_ce，E为正整数；

对角矩阵D，D_αα＝d_E，D_αβ＝0，α≠β；

当图G切割为θ个群组

时，每个群组C_ε为一个子图，包括多个存在强关联的案件，可作为系列型犯罪案件处理；

对于群组A，节点数

群组内部的内聚度等于群组内部边权值之和，将群组A的内聚度标识为：M(A，A)，其计算方法为：

群组A与外部的关联程度，为从图G中删除A得到的剩余图像集合X中节点V_X与A中节点V_A的边权值之和，将群组A与外部的关联程度标识为：M(A，X)，其计算方法为：

相互分离的两个群组A，B的关联程度

对于连通子图的一个特定分解，定义Q值

使Q值最大化的解为最优图切割，即

Q_max＝max_θ(Q_θ)，K_max＝argmax_θ(Q_θ) (11)

以下为基于聚类算法的图切割方法：

对于N″×N″矩阵W″，定义相应的Laplacian矩阵以及相应的特征方程

L_W″＝D^-1.W″ (12)

L_W″X＝λX (13)

对于L_W″，提取由高到低特征值对应的特征向量，最大特征值λ₁＝1，对应特征向量J，元素全部为1，如果特征值λ₁的重复度为r，意味着G包括r个连通子图，第一个特征值没有对图进一步“划分切割”的能力，从大到小，取从2到s的s-1个特征值对应的特征向量，构成N×(s-1)矩阵X_s＝{x₂，x₃，...，x_s}，x_s为第s个N维列向量；

对每一个X_s，视为维度为N的s-1个元素组成的集合，对其进行聚类分析，生成k个群组，计算相应的Q(k)，k从2开始迭代到某个预设的最大值，使Q(k)达到最大的分解k_max为最优分解。

进一步地，步骤S5中，关键特征参数表征该群组犯罪案件是否具有并案侦查的实际价值，对于一个犯罪案件群组C，用于并案串并主要的关键特征参数为归一化的内聚度，内聚度表示为：

该数值越高，接近于1，表明所有的案件之间关联度都很强，具有很高的参考价值。

一种基于聚类技术的刑事犯罪案件关联串并系统，包括：

数据变量获取模块，用于获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量；

相似度矩阵计算模块，用于根据案件数据变量建立描述案件关联程度的相似度模型，根据相似度模型计算相似度矩阵；

图分解模块，用于利用图分解技术，将相似度矩阵转换成的一个图分解为若干连通子图；

聚类分析模块，用于对连通子图使用聚类算法进行图切割计算，将所有案件准确分组；

特征提取推送模块，用于提取每个案件群组的关键特征参数，将关键特征参数根据优先级高低推送给用户。

与现有技术相比，本发明的有益效果如下：

本发明不仅能处理源数据具有明确、唯一性特征的数据，也能处理仅具有可能性特征的数据，极大的提高了刑事犯罪案件关联串并的效率，并且准确性高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于聚类技术的刑事犯罪案件关联串并方法的流程框图；

图2是本发明基于聚类技术的刑事犯罪案件关联串并方法的分析流程图；

图3是本发明树形结构的分层代码型数据相似度计算示意图；

图4是本发明基于聚类技术的刑事犯罪案件关联串并系统的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明提供一种基于聚类技术的刑事犯罪案件关联串并方法，包括如下步骤：

S4、对连通子图使用聚类算法进行图切割计算，将所有案件准确分组；

如图2所示，本发明基于聚类技术的刑事犯罪案件关联串并方法的分析流程如下：

1、刑事犯罪案件特征描述

在刑事犯罪案件信息管理系统中，每个案件包含多个数据项，描述案件各种特征或维度，包括嫌疑人身份证号码、手机号码、银行账号、作案手法、作案时间、作案天气、作案地域、作案工具、嫌疑人身高、嫌疑人年龄等。准确的案件关联串并过程需要综合利用这些数据分析案件特点，判断案件之间的相似程度。

这些数据项具有不同的数据类型。包括1)数值型，例如发案时间、嫌疑人身高(范围)，2)字符串型，例如身份证号码、手机号码，3)树形结构的代码，例如作案手法(公安部标准：刑事犯罪信息管理代码第7部分作案手段分类和代码GA 240.7-2000)。这些数据体现不同的确定性(可能性)。例如电话号码等具有唯一性；相反，身高或者作案手法仅能表示可能性。

2、案件相似度模型

根据案件特征变量的确定性程度，设计两种相似度模型

1)由唯一性变量定义的相似度模型

一个案件包括身份证号码、手机号码、银行账号等，通常为字符串类型，每个值具有唯一性。一个案件m的所有这些值(字符串)构成一个集合Cm。案件m，n的相似度表示为

W_a(m，n)＝|C_m∩C_n| (1)

即两个集合交集元素的数量(元素相等定义为字符串值相等)。

2)由可能性变量定义的相似度模型

一个案件包括作案手法、作案时间、作案工具、嫌疑人身高、嫌疑人年龄等特征变量，只能表示一定程度的可能性。数据类型包括数值型和树形结构的分层代码型。案件m，n的相似度，是多个特征因素的综合贡献，定义为

W_b(m，n)＝∑_Iw_IF_I(m，n) (2)

其中，w_I为归一化权重，表示各数据变量对于整体相似度的贡献比例，I表示数据变量的个数，∑_Iw_I＝1；F_I(m，n)表示案件m，n基于一个特定数据变量的相似度。

通常，受害人或者目击者会提供犯罪嫌疑人的身高范围[h_a，h_b]、年龄范围[a_a，a_b]。对于犯罪嫌疑人的身高和年龄变量，取平均值，即

对案件m，n分别涉及的两个犯罪嫌疑人P_m，P_n，身高、年龄差别越小，表示二人相似度越高。相似度表达式为

其中，h_m，h_n为二人身高，a_m，a_n为年龄，σ_h，σ_a为控制参数，可取经验值5cm，5岁。

σ_t为控制参数，可根据案件类型选取。

如果发案地点可以表示为几何坐标

那么空间相关性可以表示为

表示坐标点的几何距离，σ_d为控制参数。

分层代码型数据(图3)可以表示为一个树形结构，根节点表示代码名称，例如作案手法。每下一层节点为对父节点的进一步细分。在树形结构中，从根节点R_o到任意一个节点N_z有唯一的一条路径P_z，表示为

P_z＝R_oN_i1N_j2...N_pq，N_pq＝N_z (7)

F₄(P_i，P_j)＝z/max[H(N_i)，H(N_j)] (8)

所有的F_f，f＝1-4满足归一化条件0≤F_f≤1，值为1表示完全匹配，相似度最大；值为0表示最弱的关系，即完全无关。式(8)可以用于每种树形结构代码，例如作案手法、作案工具等。

计算相似度矩阵

对任意两个案件，根据(1)或(2)，计算相似度值。对所有案件，根据两两关系，生成N′×N′的相似度矩阵W′，N′是案件数量。W′是一个对称矩阵，其中对角线元素表示案件与自身的相似度，不需计算，因此，只需计算W′的上三角或者下三角矩阵。

3、预处理：对W矩阵的图分解

根据社会网络分析理论和图论，将W′矩阵转换为一个无向图G。图的每个节点表示一个案件，边的权值表示案件之间的关联程度(相似度)。案件关联串并过程分解为对图的分解和切割两个步骤，每个最终切割计算生成的子图作为一个案件群组，作为案件关联串并的量化依据。

在随后的聚类分析过程中，涉及稀疏矩阵特征方程求解，以及Q值的迭代计算，计算量、存储量较大。为了提高计算效率，需要进行预处理-图分解。

G＝∪_lG_l，∩_lG_l＝φ (9)

其中，l为子图个数；

使用宽度或者深度优先算法完成图分解过程。

4、对连通子图的聚类分析

首先，定义以下变量：

任意节点E的度d_E＝∑_ew_ce，E为正整数；

对角矩阵D，D_αα＝d_E，D_αβ＝0，α≠β；

当图G切割为θ个群组

对于群组A，节点数

相互分离的两个群组A，B的关联程度

对于连通子图的一个特定分解，定义Q值

使Q值最大化的解为最优图切割，即

Q_max＝max_θ(Q_θ)，K_max＝argmax_θ(Q_θ) (11)

以下为基于聚类算法的图切割方法：

L_W″＝D^-1.W″ (12)

L_W″X＝λX (13)

对每一个X_s，视为维度为N的s-1个元素组成的集合，对其进行聚类分析，生成k个群组，计算相应的Q(k)，k从2开始迭代到某个预设的最大值，使Q(k)达到最大的分解k_max为最优分解。基本流程的伪代码为：

通过以上步骤，最终将所有刑事犯罪案件分为若干群组，群组之间联系弱，群组内部的案件关联强，每个群组初步视为系列性案件，提交人工审核。

5、案件群组关键特征提取及向用户推送分析结果

完成聚类分析后，进一步提取每个犯罪案件群组的关键特征参数，这些参数表征该组犯罪案件是否具有并案侦查的实际价值，系统把特征参数按照优先级高低推送给用户。

对于一个犯罪案件群组C，用于并案串并主要参数为归一化的内聚度，该数值越高，接近于1，表明所有的案件之间关联度都很强，具有很高的参考价值。内聚度表示为：

当然其它参数也有一定参考意义，例如一个高关联案件群组的破案率低、甚至为零，表明并案侦查时应予以高度关注。

实施例2

如图4所示，本发明还提供一种基于聚类技术的刑事犯罪案件关联串并系统，包括：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于聚类技术的刑事犯罪案件关联串并方法，其特征在于，包括如下步骤：

建立相似度模型具体包括：

S21、将案件数据变量分为唯一性变量和可能性变量；

S22、定义唯一性变量的相似度模型：

W_a(m，n)＝|C_m∩C_n| (1)

S23、定义可能性变量的相似度模型：

案件m，n的相似度，是多个数据变量的综合贡献，定义为

W_b(m，n)＝∑_Iw_IF_I(m，n) (2)

步骤S23具体包括：

将可能性变量分为数值型和树形结构的分层代码型；

定义数值型可能性变量的相似度模型：

σ_t为控制参数，根据案件类型选取；

发案地点表示为几何坐标

空间相关性表示为

表示坐标点的几何距离，σ_d为控制参数；

定义树形结构的分层代码型可能性变量的相似度模型：

P_z＝R_oN_i1N_j2...N_pq，N_pq＝N_z (7)

F₄(P_i，P_j)＝z/max[H(N_i)，H(N_j)] (8)

所有的F_f，f＝1-4满足归一化条件0≤F_f≤1，值为1表示完全匹配，相似度最大；值为0表示最弱的关系，即完全无关；

2.根据权利要求1所述的基于聚类技术的刑事犯罪案件关联串并方法，其特征在于，所述基于聚类技术的刑事犯罪案件关联串并方法还包括：

3.根据权利要求2所述的基于聚类技术的刑事犯罪案件关联串并方法，其特征在于，步骤S1中，所述案件数据变量从刑事犯罪案件信息管理系统中抽取；案件数据变量的高维度包括嫌疑人身份证号码、手机号码、银行账号、作案手法、作案时间、作案天气、作案地域、作案工具、嫌疑人身高、嫌疑人年龄；案件数据变量的异构数据类型包括数值型、字符串型、树形结构的分层代码型。

4.根据权利要求3所述的基于聚类技术的刑事犯罪案件关联串并方法，其特征在于，步骤S2中，计算相似度矩阵具体包括：

5.根据权利要求4所述的基于聚类技术的刑事犯罪案件关联串并方法，其特征在于，步骤S3具体包括：

G＝∪_lG_l，∩_lG_l＝φ (9)

其中，l为子图个数；

使用宽度或者深度优先算法完成图分解过程。

6.根据权利要求5所述的基于聚类技术的刑事犯罪案件关联串并方法，其特征在于，步骤S4具体包括：

首先，定义以下变量：

任意节点E的度d_E＝∑_ew_ce，E为正整数；

对角矩阵D，D_αα＝d_E，D_αβ＝0，α≠β；

当图G切割为θ个群组

对于群组A，节点数

相互分离的两个群组A，B的关联程度

对于连通子图的一个特定分解，定义Q值

使Q值最大化的解为最优图切割，即

Q_max＝max_θ(Q_θ)，K_max＝argmax_θ(Q_θ) (11)

以下为基于聚类算法的图切割方法：

L_W″＝D^-1.W″ (12)

L_W″X＝λX (13)

7.根据权利要求6所述的基于聚类技术的刑事犯罪案件关联串并方法，其特征在于，步骤S5中，关键特征参数表征该群组犯罪案件是否具有并案侦查的实际价值，对于一个犯罪案件群组C，用于并案串并主要的关键特征参数为归一化的内聚度，内聚度表示为：

8.一种基于聚类技术的刑事犯罪案件关联串并系统，其特征在于，包括：

特征提取推送模块，用于提取每个案件群组的关键特征参数，将关键特征参数根据优先级高低推送给用户；

所述建立相似度模型具体包括以下步骤：

S21、将案件数据变量分为唯一性变量和可能性变量；

S22、定义唯一性变量的相似度模型：

W_a(m，n)＝|C_m∩C_n| (1)

S23、定义可能性变量的相似度模型：

案件m，n的相似度，是多个数据变量的综合贡献，定义为

W_b(m，n)＝∑_Iw_IF_I(m，n) (2)

步骤S23具体包括：

将可能性变量分为数值型和树形结构的分层代码型；

定义数值型可能性变量的相似度模型：

σ_t为控制参数，根据案件类型选取；

发案地点表示为几何坐标

空间相关性表示为

表示坐标点的几何距离，σ_d为控制参数；

定义树形结构的分层代码型可能性变量的相似度模型：

P_z＝R_oN_i1N_j2...N_pq，N_pq＝N_z (7)

N_pq表示在第p层的某个节点，这条路径的长度为q，即节点N_z的高度H(N_z)＝q，节点N_z与路径P_z等效，表示分层代码数据类型的一个唯一代码值，对于两个案件m、n的两个代码值，对应代码树的两条路径P_i，P_j，如果从根节点开始，直到第z层，二者具有相同的节点，那么这两条路径，亦即两个代码的相似度定义为：

F₄(P_i，P_j)＝z/max[H(N_i)，H(N_j)] (8)