CN106127241A

CN106127241A - 一种串并案分类方法及串并案分类系统

Info

Publication number: CN106127241A
Application number: CN201610440709.2A
Authority: CN
Inventors: 王妍妍; 刘玉龙; 刘旸; 孟剑萍; 孙裔申; 王汉斌; 周鹏飞
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2016-06-17
Filing date: 2016-06-17
Publication date: 2016-11-16

Abstract

本发明公开了一种串并案分类方法及串并案分类系统。所述串并案分类方法包括：统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组；采用聚类分析算法将相似度矩阵数组进行聚类计算，将数量N的案件分为K类；将K类案件中的每类案件均进行如下方法：将每类案件中所包含的各个案件相互进行相似度计算，从而得到每个案件与其他案件的相似度，为每个案件设定预设筛选条件，去除未满足预设筛选条件的案件，则符合预设筛选条件的各个案件之间形成一个族群，该族群为一个串并案族群。本发明中串并案分类方法可以将公安系统的任意一种类案件进行串并案分类。

Description

一种串并案分类方法及串并案分类系统

技术领域

本发明涉及串并案分析技术领域，特别是涉及一种串并案分类方法及串并案分类系统。

背景技术

串案和并案(简称串并案)是侦破系列案件、特别是在个案侦查陷入困境时的常用方法。串并案分析是指通过对不同地域或不同时间的起案件中发现的各种痕迹、线索进行分析，找出其中可能为同一犯罪主体所为的案件，并把看似无关联的线索、物证进行综合分析，找出足够的证据锁定犯罪嫌疑人。当今社会，随着犯罪呈现职业化、团伙化、流窜化的趋势，系列案件占有相当大的比重，因此对若干有内在联系的不同案件进行串并，发现其规律和特征，可变个案侦查为串案侦查，使得侦查工作效益最大化。

公安系统经过多年的建设已经初见成效，但在公安情报工作的研究中尚处于起步阶段，尤其是对公安系统刑事案件的侦查决策方面的深入应用还较少见。目前公安系统已经积累了大量的案事件及其相关数据，但对这些数据的使用方式多数还停留在传统的检索查询上，数据价值正在被浪费，为了避免“数据丰富，知识贫乏”的现象，应积极开展公共安全数据的分析挖掘方面的研究，尽早发现案事件的相似程度、发展趋势，进而探寻犯罪的规律与特点，进行必要的犯罪预测和预防。

现有技术中，通常会将预侦破的案件(待侦破案件)在公安系统里查询，从而得到该案件的串并案，然而，这种方法无法将公安系统内的各个案件相互关联，无法将公安系统内的大量案件进行串并案分类，从而无法更有效的利用公安系统进行串并案分析。

因此，希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。

发明内容

本发明的目的在于提供一种串并案分类方法来克服或至少减轻现有技术的至少一个上述缺陷。

为实现上述目的，本发明提供了一种串并案分类方法，所述串并案分类方法包括：统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组；采用聚类分析算法将相似度矩阵数组进行聚类计算，将数量N的案件分为K类；将K类案件中的每类案件均进行如下方法：将每类案件中所包含的各个案件相互进行相似度计算，从而得到每个案件与其他案件的相似度，为每个案件设定预设筛选条件，去除未满足预设筛选条件的案件，则符合预设筛选条件的各个案件之间形成一个族群，该族群为一个串并案族群。

优选地，所述六维特征信息中每一维特征信息包括一个或多个数据元素。

优选地，所述六维特征信息包括：地理特征信息、天气时间特征信息、嫌疑人特征信息、受害人特征信息、涉案物品特征信息；其中，

所述地理特征信息包括：地域范围元素、行政区划元素、处所特征元素；

所述天气时间特征信息包括：天气元素、按日期的特征元素、按时间的特征元素；

所述嫌疑人特征信息包括：嫌疑人性别元素、嫌疑人年龄特征元素、嫌疑人身高元素、嫌疑人体型元素、嫌疑人职业元素、嫌疑人口音元素、嫌疑人专长元素；嫌疑人体貌特征元素；

所述受害人特征信息包括：受害人性别元素、受害人年龄特征元素、受害人职业元素、受害人对象特征元素、受害人受害形式元素、受害人伤害程度元素；

所述涉案物品特征信息包括：唯一编号元素、物品特征元素；

案件自身特征信息包括：作案特点元素、作案手段元素、侵入方式元素。

优选地，所述统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组具体为：

首先虚拟六个案件作为相似度量化的基础案件，其中，每个案件均自六维特征信息中选取一个一维特征信息，且各个案件所选取的一维特征信息不同，所述六个案件的其他五维特征信息任意赋值或取零值，该六个案件称为相似度计算基础案件；

其次，为六维特征信息赋予权重，并单独为每个一维特征信息内的数据元素赋予权重，并设置不同元素之间的相似度值获取规则；

最后，将数量N下的各个案件与相似度计算基础案件根据权重及相似度获取规则进行相似度计算，从而形成相似度矩阵数组。

优选地，所述单独为每个一维特征信息内的数据元素赋予权重具体为：

为各个数据元素赋予规则，根据规则设置权重，其中，

地域范围元素、行政区划元素、唯一编号元素为规则A；

嫌疑人性别元素、嫌疑人年龄特征元素、嫌疑人身高元素、嫌疑人体型元素、嫌疑人口音元素、受害人性别元素、受害人年龄特征元素、受害人受害形式元素、受害人伤害程度元素为规则B；

处所特征元素、天气元素、按日期的特征元素、按时间的特征元素、嫌疑人职业元素、受害人职业元素、受害人对象特征元素为规则C；

嫌疑人专长元素；嫌疑人体貌特征元素、物品特征元素、作案特点元素、作案手段元素、侵入方式元素为规则D；

所述规则A为：特殊筛选类：输入值！＝对比值，结果分值＝0；输入值＝对比值，直接选出此对比值，并排在所有对比值的最前面；

所述规则B为：一对一完全匹配类，输入值！＝对比值，结果分值＝0，输入值＝对比值，保留对比案件，结果分值＝权重分值；

所述规则C为：多/一对一匹配类；输入值！＝对比值，结果分值＝0，保留对比案件，结果分值＝数据元素对应的权重分值；

所述规则D为：多对多匹配类，输入值∩对比值＝0，结果分值＝0，输入值∩对比值！＝0，保留对比案件，结果分值＝[(输入值∩对比值)/输入值]*数据元素对应的权重分值。

优选地，所述采用聚类分析算法将相似度矩阵数组进行聚类计算，将数量N的案件分为K类具体为：采用K-means算法进行聚类分析。

优选地，所述将每类案件中所包含的各个案件相互进行相似度计算，从而得到每个案件与其他案件的相似度，为每个案件设定预设筛选条件，去除未满足预设筛选条件的案件，则符合预设筛选条件的各个案件之间形成一个族群，该族群为一个串并案族群具体为：

步骤1：将该类案件中的各个案件两两计算相似度，则任意一个案件i与其他案件的相似度值可记为：R_i＝{SS_ij}(i＝1,2…M,j＝1,2…M,i≠j)，其中，SS_ij为任意一个案件i与任意一个案件j的相似度值；R_i代表该任意案件i与其他案件的相似度集合；

步骤2：对任意一个案件i的相似度集合中的相似度值进行从高到低排序；

步骤3：设定预设筛选条件：设置可串并案件的相似度最低门限S_min和串并案件的数量范围h个，获取任意一个案件i的相似度集合中大于S_min且排序不低于h的相似度值，与该相似度值对应的案件与该任意一个案件i形成所述族群，该族群为案件i的串并案族群；

步骤4：重复所述步骤1至所述步骤3，直至获得所述步骤1中的该类案件中的各个案件所形成的串并案族群。

优选地，所述相似度计算公式为：

\begin{matrix} S = λ_{1} \times (r_{1} \times ω_{1} + r_{2} \times ω_{2} + r_{3} \times ω_{3}) \\ + λ_{2} \times (r_{4} \times ω_{4} + r_{5} \times ω_{5} + r_{6} \times ω_{6}) \\ + λ_{3} \times (r_{7} \times ω_{7} + r_{8} \times ω_{8} + r_{9} \times ω_{9} + r_{10} \times ω_{10} + r_{11} \times ω_{11} + r_{12} \times ω_{12} + r_{13} \times ω_{13}) \\ + λ_{4} (r_{14} \times ω_{14} + r_{15} \times ω_{15} + r_{16} \times ω_{16} + r_{17} \times ω_{17} + r_{18} \times ω_{18} + r_{19} \times ω_{19}) \\ + λ_{5} (r_{20} \times ω_{20} + r_{21} \times ω_{21}) \\ + λ_{6} (r_{22} \times ω_{22} + r_{23} \times ω_{23} + r_{24} \times ω_{24}) \end{matrix};

其中，

S表示两个案件的相似度值，λ_i为六维特征信息所对应的权重，ω_j为数据元素d_j对应的权重，r_j为数据元素d_j在两个案件的间的相似度值，i＝(1,2…6)，j＝(1,2,…24)，T_i代表六维特征信息，d_j代表数据元素，具体含义参见图2。

优选地，所述统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组进一步包括：对数量N下的案件进行预处理。

本申请还提供了一种串并案分类系统，所述串并案分类系统用于上所述的串并案分类方法，所述串并案分类系统包括：案件预处理模块，所述案件预处理系统用于统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组；计算模块，所述计算模块用于采用聚类分析算法将相似度矩阵数组进行聚类计算以及将每类案件中所包含的各个案件相互进行相似度计算，从而得到每个案件与其他案件的相似度，为每个案件设定预设筛选条件，去除未满足预设筛选条件的案件，则符合预设筛选条件的各个案件之间形成一个族群，该族群为一个串并案族群。

本发明中串并案分类方法可以将公安系统的任意一种类案件(例如盗窃)进行串并案分类，从而将该一种类案件下的所有案件自动排序、形成各个串并案族群，此时，办案人员一旦想侦破某个案件时，即可知道该案件的串并案族群，从而最有效的利用公安系统资源，方便破案。

附图说明

图1是根据本发明一实施例的串并案分类方法的流程示意图。

图2是图1所示的串并案分类方法中的六维特征含义图。

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。下面结合附图对本发明的实施例进行详细说明。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

图1是根据本发明一实施例的串并案分类方法的流程示意图。图2是图1所示的串并案分类方法中的六维特征含义图。

如图1所示的串并案分类方法包括：统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组；采用聚类分析算法将相似度矩阵数组进行聚类计算，将数量N的案件分为K类；将K类案件中的每类案件均进行如下方法：将每类案件中所包含的各个案件相互进行相似度计算，从而得到每个案件与其他案件的相似度，为每个案件设定预设筛选条件，去除未满足预设筛选条件的案件，则符合预设筛选条件的各个案件之间形成一个族群，该族群为一个串并案族群。

在本实施例中，六维特征信息中每一维特征信息包括一个或多个数据元素。

具体地，六维特征信息包括：地理特征信息、天气时间特征信息、嫌疑人特征信息、受害人特征信息、涉案物品特征信息。上述六维特征信息摘自《中华人民共和国公共安全行业标准GA240.1～240.57》。

本申请之所以采用上述的六维特征信息，主要是为了摒弃案件要素中和串并案分析无关或者关系不紧密的其他要素，从案件的地理特征、天气时间特征、嫌疑人特征、受害人特征、涉案物品特征、案件自身特征六个方面入手，从而使串并案的分类更为简单。

在本实施例中，地理特征信息包括：地域范围元素、行政区划元素、处所特征元素；

天气时间特征信息包括：天气元素、按日期的特征元素、按时间的特征元素；

嫌疑人特征信息包括：嫌疑人性别元素、嫌疑人年龄特征元素、嫌疑人身高元素、嫌疑人体型元素、嫌疑人职业元素、嫌疑人口音元素、嫌疑人专长元素；嫌疑人体貌特征元素；

受害人特征信息包括：受害人性别元素、受害人年龄特征元素、受害人职业元素、受害人对象特征元素、受害人受害形式元素、受害人伤害程度元素；

涉案物品特征信息包括：唯一编号元素、物品特征元素；

在本实施例中，统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组具体为：

具体地，参见图2，单独为每个一维特征信息内的数据元素赋予权重具体为：为各个数据元素赋予规则，根据规则设置权重，其中，

地域范围元素、行政区划元素、唯一编号元素为规则A；

规则A为：特殊筛选类：输入值！＝对比值，结果分值＝0；输入值＝对比值，直接选出此对比值，并排在所有对比值的最前面；

规则B为：一对一完全匹配类，输入值！＝对比值，结果分值＝0，输入值＝对比值，保留对比案件，结果分值＝权重分值；

规则C为：多/一对一匹配类(说明：输入值为多个，也可以为一个)；输入值！＝对比值，结果分值＝0，保留对比案件，结果分值＝数据元素对应的权重分值；

规则D为：多对多匹配类，输入值∩对比值＝0，结果分值＝0，输入值∩对比值！＝0，保留对比案件，结果分值＝[(输入值∩对比值)/输入值]*数据元素对应的权重分值。

参见图1，在本实施例中，所述采用聚类分析算法将相似度矩阵数组进行聚类计算，将数量N的案件分为K类具体为：采用K-means算法进行聚类分析。

举例来说，该算法包括如下步骤：

对含有n个元素(案子)的集合x，假定I表示聚类迭代的次数(I<I_max)，先随机选择k个初始聚类中心，此时I＝0，可以用Z_j(0)来表示，其中j＝1,2,…,k。

分别计算数据元素x_i和聚类中心的距离D(X_i,Z_j(I))，i＝1,2,…,n-k，j＝1,2,…,k，本案例中计算距离的公式采用欧式距离：

其中：

x表示数据元素x_i的所代表的点，x＝(a₁,a₂,…a_m)

y表示第I次聚类中心Z_j(I)所代表的点，y＝(b₁,b₂,…b_m)

d表示x与y之间欧式距离，

ii＝(1,2,…m)，m为数据元素x_i所包含的数据元素维度。

对于满足判断条件的D(X_i,Z_k(I))＝min{D(X_i,Z_j(I)),i＝1,2,…,n-k}，就将数据元素x_i划入Z_j(I)类。

重新计算这k个聚类中心

如果Z_j(I+1)的变化大于设定的阈值且I+1<I_max,就表示聚类算法还在变化，需要继续，令I＝I+1，跳转到步骤(2)继续执行，否则算法结束。

在本实施例中，将每类案件中所包含的各个案件相互进行相似度计算，从而得到每个案件与其他案件的相似度，为每个案件设定预设筛选条件，去除未满足预设筛选条件的案件，则符合预设筛选条件的各个案件之间形成一个族群，该族群为一个串并案族群具体为：

步骤4：重复步骤1至步骤3，直至获得步骤1中的该类案件中的各个案件所形成的串并案族群。

采用这种方式，即可将K类案件中的每类案件中的每个案件及其串并案族群均分类出来。

在本实施例中，相似度计算公式为：

\begin{matrix} S = λ_{1} \times (r_{1} \times ω_{1} + r_{2} \times ω_{2} + r_{3} \times ω_{3}) \\ + λ_{2} \times (r_{4} \times ω_{4} + r_{5} \times ω_{5} + r_{6} \times ω_{6}) \\ + λ_{3} \times (r_{7} \times ω_{7} + r_{8} \times ω_{8} + r_{9} \times ω_{9} + r_{10} \times ω_{10} + r_{11} \times ω_{11} + r_{12} \times ω_{12} + r_{13} \times ω_{13}) \\ + λ_{4} (r_{14} \times ω_{14} + r_{15} \times ω_{15} + r_{16} \times ω_{16} + r_{17} \times ω_{17} + r_{18} \times ω_{18} + r_{19} \times ω_{19}) \\ + λ_{5} (r_{20} \times ω_{20} + r_{21} \times ω_{21}) \\ + λ_{6} (r_{22} \times ω_{22} + r_{23} \times ω_{23} + r_{24} \times ω_{24}) \end{matrix};

其中，

在本实施例中，统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组进一步包括：对数量N下的案件进行预处理。

可以理解的是，该预处理包括针对每个案件的在相关六维特征信息中去除一些记录不完整、不一致或有错误的信息，并利用数据词典提取、人工补录等方式从简要案情中提取模型中所需的数据元素。

为了方便理解，下面以举例的方式对本申请进行详细阐述，可以理解的是，该举例并不构成对本申请的任何限制。

假设现在要进行盗窃案的串并案分类，设定盗窃类的案件总量为300个，此时，获取300个案件中的每个案件的六维特征信息，并进行预处理，从而使每个案件都具有六维特征信息，且每维特征信息中的各个数据元素信息的信息内容也是完整的。

此时，该300个案件记为：(C₁,C₂,…,C₃₀₀)；其中，任意一个案件C_N内含有六维特征信息，包括24个数据元素信息。

下面将这300个案件进行相似度金酸，从而得到300个案件的相似度矩阵数组，在本申请中，采用如下方式进行计算：

首先虚拟六个案件作为相似度量化的基础案件，其中，每个案件均自六维特征信息中选取一个一维特征信息，且各个案件所选取的一维特征信息不同，所述六个案件的其他五维特征信息任意赋值或取零值，该六个案件称为相似度计算基础案件；具体地，将这六个相似度计算基础案件记为：(B₁,B₂,B₃,B₄,B₅,B₆)；其中，任意一个相似度计算基础案件B_N代表的含义为：具有一个维度特征信息，而其他维度特征信息为零值。

例如，我们取：B₁为在地理特征信息上具有信息，而其他五个维度特征信息为零值；

B₂为在天气时间特征信息上具有信息，而其他五个维度特征信息为零值；

B₃为在嫌疑人特征信息上具有信息，而其他五个维度特征信息为零值；

B₄为在受害人特征信息上具有信息，而其他五个维度特征信息为零值；

B₅为在涉案物品特征信息上具有信息，而其他五个维度特征信息为零值；

B₆为在案件自身特征信息上具有信息，而其他五个维度特征信息为零值。

可以理解的是，本实施例中，任何一个B_N的其他五个维度特征信息为零，在其他实施例中，还可以使其他五个维度特征信息为任意值。

设置完六个相似度计算基础案件之后或者在设置六个相似度计算基础案件之前均可，通过人工配置为六维特征信息赋予权重，并单独为每个一维特征信息内的数据元素赋予权重，并设置不同元素之间的相似度值获取规则。

具体地，本申请的权重规则上文已经叙述，在此不再叙述。

将权重设置完成并且将六个相似度计算基础案件设置完成后，将该300个案件(C₁,C₂,…,C₃₀₀)与相似度计算基础案件(B₁,B₂,B₃,B₄,B₅,B₆)根据权重及相似度获取规则进行相似度计算，从而形成相似度矩阵数组S_N×6。

下面将相似度矩阵数组通过聚类分析算法进行聚类，假设我们需要分成5类(假设为A类、B类、C类、D类、E类)，则采用聚类分析算法步骤如下：

对300个案子所组成的相似度矩阵数组S_N×6，设定聚类迭代次数I(I<I_max)，先在该相似度矩阵数组S_N×6中随机选择k个初始聚类中心，本申请假设选取5个初始聚类中心，此时I＝0，可以用Z_j(0)来表示，其中j＝1,2,…,5。

分别计算每个数据元素和聚类中心的距离，假设该数据元素为x_i，则计算该数据元素x_i和聚类中心的距离D(X_i,Z_j(I))，i＝1,2,…,n-k，j＝1,2,…,k，本案例中计算距离的公式采用欧式距离：其中：

x表示数据元素xi的所代表的点，x＝(a₁,a₂,…a₂₄)

y表示第I次聚类中心Z_j(I)所代表的点，y＝(b₁,b₂,…b₂₄)

d表示x与y之间欧式距离，

ii＝(1,2,…24)

对于满足判断条件的D(X_i,Z_k(I))＝min{D(X_i,Z_j(I)),i＝1,2,…,n-k}，就将数据元素x_i划入第I次聚类中心Z_j(I)代表的类。

重新计算这k个聚类中心

通过上述聚类分析，将案件分为5类(假设为A类、B类、C类、D类、E类)。

其中，每类案件均采用如下方法进行：

将每类案件中所包含的各个案件相互进行相似度计算，从而得到每个案件与其他案件的相似度，为每个案件设定预设筛选条件，去除未满足预设筛选条件的案件，则符合预设筛选条件的各个案件之间形成一个族群，该族群为一个串并案族群。

具体地，采用如下步骤进行：

步骤1：将该类案件中的各个案件两两计算相似度，则任意一个案件i与其他案件的相似度值可记为：R_i＝{SS_ij}(i＝1,2…M,j＝1,2…M,i≠j)，其中，SS_ij为任意一个案件i与任意一个案件j的相似度值；R_i代表该任意案件i与其他案件的相似度集合；可以理解的是，该步骤中的相似度计算可是采用上述的相似度计算公式。

步骤3：设定预设筛选条件：设置可串并案件的相似度最低门限S_min和串并案件的数量范围h个，获取任意一个案件i的相似度集合中大于S_min且排序不低于h的相似度值，与该相似度值对应的案件与该任意一个案件i形成所述族群，该族群为案件i的串并案族群。

为了方便叙述，下面以A类案件为例，假设经过聚类分析后，A类案件中包括36个案件，设置可串并案件的相似度最低门限S_min和串并案件的数量范围h个，具体地，设置相似度最低门限S_min大于40，个数10个，通过相似度公式，计算出这36个案件中的1个案件(记为A案件)与其他各个案件(35个)的两两之间的相似度，并将其与其他案件的相似度进行上述预设筛选条件的筛选，从而选出10个相似度最低门限S_min大于40的案件(记为B案件、C案件、D案件、E案件、F案件、G案件、H案件、I案件、J案件、K案件)，此时，B案件、C案件、D案件、E案件、F案件、G案件、H案件、I案件、J案件、K案件与A案件形成族群，该族群为A案件的串并案族群。

采用这种方式，将A类案件中的其他35个案件按照上述方法进行，从而得到剩下35个案件的串并案族群。

同理，将B类、C类、D类以及E类案件按照上述方法进行，从而得到B类、C类、D类以及E类案件下的各个案件的串并案族群。

可以理解的是，在本实施例中，该串并案分类方法还进一步包括向用户(使用该串并案分类方法的使用者)进行推荐的步骤，此时，求得各个已经形成的串并案族群中的总相似度平均值，总相似度平均值高的则优先向用户推荐(认为相似度更高，更有可能是同一个人或者组织作案。举例来说，上述的A案件的串并案族群的10个案件的两两相似度之和除以案件数量(10个)，从而得到A案件的串并案族群中的总相似度平均值，再计算另一个案件的串并案族群中的总相似度平均值，若A案件的串并案族群中的总相似度平均值大于另一个案件的串并案族群中的总相似度平均值，则优先推荐A案件的串并案族群。

本申请还提供了一种串并案分类系统，该串并案分类系统用于如上所述的串并案分类方法，该串并案分类系统包括案件预处理模块以及计算模块，案件预处理系统用于统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组；计算模块用于采用聚类分析算法将相似度矩阵数组进行聚类计算以及将每类案件中所包含的各个案件相互进行相似度计算，从而得到每个案件与其他案件的相似度，为每个案件设定预设筛选条件，去除未满足预设筛选条件的案件，则符合预设筛选条件的各个案件之间形成一个族群，该族群为一个串并案族群。

可以理解的是，在一个实施例中，该串并案分类系统还进一步包括推荐模块，该推荐模块用于向用户推荐各个已经形成的串并案族群中的总相似度平均值高的串并案族群。

在本发明所提供的实施例中，应该理解到，所揭露的相关系统和方法，可以通过其他的方式实现。例如，以上所描述的系统仅仅是示意性的，例如，所述模块和单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信临街，可以是电性、机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使计算机处理器执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种串并案分类方法，其特征在于，所述串并案分类方法包括：

统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组；

采用聚类分析算法将相似度矩阵数组进行聚类计算，将数量N的案件分为K类；

将K类案件中的每类案件均进行如下方法：

2.如权利要求1所述的串并案分类方法，其特征在于，所述六维特征信息中每一维特征信息包括一个或多个数据元素。

3.如权利要求2所述的串并案分类方法，其特征在于，所述六维特征信息包括：地理特征信息、天气时间特征信息、嫌疑人特征信息、受害人特征信息、涉案物品特征信息；其中，

4.如权利要求3所述的串并案分类方法，其特征在于，所述统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组具体为：

5.如权利要求4所述的串并案分类方法，其特征在于，所述单独为每个一维特征信息内的数据元素赋予权重具体为：

为各个数据元素赋予规则，根据规则设置权重，其中，

地域范围元素、行政区划元素、唯一编号元素为规则A；

6.如权利要求1所述的串并案分类方法，其特征在于，所述采用聚类分析算法将相似度矩阵数组进行聚类计算，将数量N的案件分为K类具体为：采用K-means算法进行聚类分析。

7.如权利要求5所述的串并案分类方法，其特征在于，所述将每类案件中所包含的各个案件相互进行相似度计算，从而得到每个案件与其他案件的相似度，为每个案件设定预设筛选条件，去除未满足预设筛选条件的案件，则符合预设筛选条件的各个案件之间形成一个族群，该族群为一个串并案族群具体为：

8.如权利要求7所述的串并案分类方法，其特征在于，所述相似度计算公式为：

\begin{matrix} S = λ_{1} \times (r_{1} \times ω_{1} + r_{2} \times ω_{2} + r_{3} \times ω_{3}) \\ + λ_{2} \times (r_{4} \times ω_{4} + r_{5} \times ω_{5} + r_{6} \times ω_{6}) \\ + λ_{3} \times (r_{7} \times ω_{7} + r_{8} \times ω_{8} + r_{9} \times ω_{9} + r_{10} \times ω_{10} + r_{11} \times ω_{11} + r_{12} \times ω_{12} + r_{13} \times ω_{13}) \\ + λ_{4} \times (r_{14} \times ω_{14} + r_{15} \times ω_{15} + r_{16} \times ω_{16} + r_{17} \times ω_{17} + r_{18} \times ω_{18} + r_{19} \times ω_{19}) \\ + λ_{5} \times (r_{20} \times ω_{20} + r_{21} \times ω_{21}) \\ + λ_{6} \times (r_{22} \times ω_{22} + r_{23} \times ω_{23} + r_{24} \times ω_{24}) \end{matrix};

其中，

S表示两个案件的相似度值，λ_i为六维特征T_i信息所对应的权重，ω_j为数据元素d_j对应的权重，r_j为数据元素d_j在两个案件的间的相似度值，i＝(1,2…6)，j＝(1,2,…24)。

9.如权利要求1所述的串并案分类方法，其特征在于，所述统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组进一步包括：对数量N下的案件进行预处理。

10.一种串并案分类系统，所述串并案分类系统用于如权利要求1至9中任意一项所述的串并案分类方法，其特征在于，所述串并案分类系统包括：

案件预处理模块，所述案件预处理系统用于统计一种类案件的数量N，并获取数量N下的每个案件的六维特征信息，根据各个案件的六维特征信息，进行相似度计算，得到该数量N下的相似度矩阵数组；

计算模块，所述计算模块用于采用聚类分析算法将相似度矩阵数组进行聚类计算以及将每类案件中所包含的各个案件相互进行相似度计算，从而得到每个案件与其他案件的相似度，为每个案件设定预设筛选条件，去除未满足预设筛选条件的案件，则符合预设筛选条件的各个案件之间形成一个族群，该族群为一个串并案族群。