CN107092929B - 基于聚类技术的刑事犯罪案件关联串并方法及系统 - Google Patents

基于聚类技术的刑事犯罪案件关联串并方法及系统 Download PDF

Info

Publication number
CN107092929B
CN107092929B CN201710256157.4A CN201710256157A CN107092929B CN 107092929 B CN107092929 B CN 107092929B CN 201710256157 A CN201710256157 A CN 201710256157A CN 107092929 B CN107092929 B CN 107092929B
Authority
CN
China
Prior art keywords
similarity
case
cases
criminal
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710256157.4A
Other languages
English (en)
Other versions
CN107092929A (zh
Inventor
谢晓川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Keduxi Information Technology Co ltd
Original Assignee
Guangzhou Keduxi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Keduxi Information Technology Co ltd filed Critical Guangzhou Keduxi Information Technology Co ltd
Priority to CN201710256157.4A priority Critical patent/CN107092929B/zh
Publication of CN107092929A publication Critical patent/CN107092929A/zh
Application granted granted Critical
Publication of CN107092929B publication Critical patent/CN107092929B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种基于聚类技术的刑事犯罪案件关联串并方法,包括如下步骤:S1、获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;S2、根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;S3、利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;S4、对连通子图使用聚类算法进行图切割计算,将所有案件准确分组;S5、提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。本发明不仅能处理源数据具有明确、唯一性特征的数据,也能处理仅具有可能性特征的数据,极大的提高了刑事犯罪案件关联串并的效率,并且准确性高。

Description

基于聚类技术的刑事犯罪案件关联串并方法及系统
技术领域
本发明涉及侦查破案技术领域,具体涉及一种基于聚类技术的刑事犯罪案件关联串并方法及系统。
背景技术
对团伙型、系列性犯罪案件的串并关联分析是犯罪案件执法部门侦查破案工作的重要环节。通过分析、提取多个案件之间的共同点,连接关键信息,执法部门可以拓宽侦查视野;将系列案件并案侦查,能够显著减少执法成本,提高打击犯罪的深度和广度,增强整体工作效能。
伴随整个社会的信息化发展,刑事犯罪执法机构建立了犯罪案件计算机管理系统,积累了大量犯罪案件数据。从案件并案分析的角度,每个犯罪案件包含很多特征要素,具有不同程度的确定性(可能性),主要有两类:
第一种数据的内容具有明确、唯一性特征,例如身份证件号码、公司名称、税务登记号、银行账号、电话号码等。例如,假设一个犯罪嫌疑人的身份证件号码在两个犯罪案件中出现,那么可以确定这两个犯罪案件存在明确关联,进而发起并案侦查。
第二种数据不具有唯一性特征,只能描述可能性(大小)。例如人的外在自然属性,包括身高、年龄等。例如对于两个犯罪案件,如果目击者分别描述的犯罪嫌疑人身高接近或相同,仅凭这个因素并不能确定是否有联系。但是,如果多个数据特征具有接近或者相同的内容,说明这些犯罪案件具有较高的相似程度,可以初步判断为系列犯罪案件,予以并案侦查。例如,多个街面抢劫案发生在邻近的区域、相近的时间段,作案手法、工具类似,多个受害人报称的犯罪嫌疑人身高、年龄接近,执法人员可以初步判断为系列街面抢劫案。
传统上,刑事犯罪调查人员通过查询、比对案件信息系统中案件的特征信息,判断多个刑事犯罪件的相似程度,决定是否发起并案串并侦查。此类人工操作方式的效率、准确率不高。
发明内容
有鉴于此,为了解决现有技术中的上述问题,本发明提出一种基于聚类技术的刑事犯罪案件关联串并方法及系统,融合案件的异构数据类型,建立准确的案件相似度模型,描述案件的关联程度,通过高效、准确的聚类算法,完成案件的关联串并过程。
本发明通过以下技术手段解决上述问题:
一种基于聚类技术的刑事犯罪案件关联串并方法,包括如下步骤:
S1、获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;
S2、根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;
S3、利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;
S4、对连通子图使用聚类算法进行图切割计算,将所有案件准确分组。
进一步地,所述基于聚类技术的刑事犯罪案件关联串并方法还包括:
S5、提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。
进一步地,步骤S1中,所述案件数据变量从刑事犯罪案件信息管理系统中抽取;案件数据变量的高维度包括嫌疑人身份证号码、手机号码、银行账号、作案手法、作案时间、作案天气、作案地域、作案工具、嫌疑人身高、嫌疑人年龄;案件数据变量的异构数据类型包括数值型、字符串型、树形结构的分层代码型。
进一步地,步骤S2中,建立相似度模型具体包括:
S21、将案件数据变量分为唯一性变量和可能性变量;
S22、定义唯一性变量的相似度模型:
唯一性变量为字符串类型,将一个案件m的所有字符串构成一个集合Cm,案件m,n的相似度表示为
Wa(m,n)=|Cm∩Cn| (1)
S23、定义可能性变量的相似度模型:
案件m,n的相似度,是多个数据变量的综合贡献,定义为
Wb(m,n)=∑IwIFI(m,n) (2)
其中,wI为归一化权重,表示各数据变量对于整体相似度的贡献比例,I表示数据变量的个数,∑IwI=1;FI(m,n)表示案件m,n基于一个特定数据变量的相似度;
步骤S23具体包括:
将可能性变量分为数值型和树形结构的分层代码型;
定义数值型可能性变量的相似度模型:
犯罪嫌疑人的身高范围[ha,hb]、年龄范围[aa,ab],对于犯罪嫌疑人的身高和年龄变量,取平均值,即
Figure GDA0002590487460000031
对案件m,n分别涉及的两个犯罪嫌疑人Pm,Pn,相似度表达式为
Figure GDA0002590487460000032
其中,hm,hn为二人身高,am,an为年龄,σh,σa为控制参数,取经验值5cm,5岁;
与两个发案时间tm,tn有关的相似度,即犯罪案件的时间相关性为
Figure GDA0002590487460000041
σt为控制参数,根据案件类型选取;
发案地点表示为几何坐标
Figure GDA0002590487460000042
空间相关性表示为
Figure GDA0002590487460000043
Figure GDA0002590487460000044
表示坐标点的几何距离,σd为控制参数;
定义树形结构的分层代码型可能性变量的相似度模型:
树形结构的分层代码型表示为一个树形结构,根节点表示代码名称,每下一层节点为对父节点的进一步细分,在树形结构中,从根节点Ro到任意一个节点Nz有唯一的一条路径Pz,表示为
Pz=RoNi1Nj2...Npq,Npq=Nz (7)
Npq表示在第p层的某个节点,这条路径的长度为q,即节点Nz的高度H(Nz)=q,节点Nz与路径Pz等效,表示分层代码数据类型的一个唯一代码值,对于两个案件m、n的两个代码值,对应代码树的两条路径Pi,Pj,如果从根节点开始,直到第z层,二者具有相同的节点,那么这两条路径,亦即两个代码的相似度定义为
F4(Pi,Pj)=z/max[H(Ni),H(Nj)] (8)
所有的Ff,f=1-4满足归一化条件0≤Ff≤1,值为1表示完全匹配,相似度最大;值为0表示最弱的关系,即完全无关。
进一步地,步骤S2中,计算相似度矩阵具体包括:
对任意两个案件,根据(1)或(2),计算相似度值,对所有案件,根据两两关系,生成N′×N′的相似度矩阵W′,N′是案件数量,W′是一个对称矩阵,其中对角线元素表示案件与自身的相似度,不需计算,只需计算W′的上三角或者下三角矩阵。
进一步地,步骤S3具体包括:
根据社会网络分析理论和图论,将W′矩阵转换为一个无向图G,图的每个节点表示一个案件,边的权值表示案件之间的关联程度;
对于图G,设定一个接近于零的阈值T,若G的元素小于T,表示两个案件不可能有实际联系,直接置零,G由多个连通子图构成,图分解将一个“大”图分解为若干连通子图:
G=∪lGl,∩lGl=φ (9)
其中,l为子图个数;
使用宽度或者深度优先算法完成图分解过程。
进一步地,步骤S4具体包括:
首先,定义以下变量:
图G(V,W),V为节点集合,节点数L=|V|;W为边集合,表示为L×L相似度矩阵W,Wce=Wec,Wcc=0;
任意节点E的度dE=∑ewce,E为正整数;
对角矩阵D,Dαα=dE,Dαβ=0,α≠β;
当图G切割为θ个群组
Figure GDA0002590487460000051
时,每个群组Cε为一个子图,包括多个存在强关联的案件,可作为系列型犯罪案件处理;
对于群组A,节点数
Figure GDA0002590487460000052
群组内部的内聚度等于群组内部边权值之和,将群组A的内聚度标识为:M(A,A),其计算方法为:
Figure GDA0002590487460000053
群组A与外部的关联程度,为从图G中删除A得到的剩余图像集合X中节点VX与A中节点VA的边权值之和,将群组A与外部的关联程度标识为:M(A,X),其计算方法为:
Figure GDA0002590487460000061
相互分离的两个群组A,B的关联程度
Figure GDA0002590487460000062
对于连通子图的一个特定分解,定义Q值
Figure GDA0002590487460000063
使Q值最大化的解为最优图切割,即
Qmax=maxθ(Qθ),Kmax=argmaxθ(Qθ) (11)
以下为基于聚类算法的图切割方法:
对于N″×N″矩阵W″,定义相应的Laplacian矩阵以及相应的特征方程
LW″=D-1.W″ (12)
LW″X=λX (13)
对于LW″,提取由高到低特征值对应的特征向量,最大特征值λ1=1,对应特征向量J,元素全部为1,如果特征值λ1的重复度为r,意味着G包括r个连通子图,第一个特征值没有对图进一步“划分切割”的能力,从大到小,取从2到s的s-1个特征值对应的特征向量,构成N×(s-1)矩阵Xs={x2,x3,...,xs},xs为第s个N维列向量;
对每一个Xs,视为维度为N的s-1个元素组成的集合,对其进行聚类分析,生成k个群组,计算相应的Q(k),k从2开始迭代到某个预设的最大值,使Q(k)达到最大的分解kmax为最优分解。
进一步地,步骤S5中,关键特征参数表征该群组犯罪案件是否具有并案侦查的实际价值,对于一个犯罪案件群组C,用于并案串并主要的关键特征参数为归一化的内聚度,内聚度表示为:
Figure GDA0002590487460000071
该数值越高,接近于1,表明所有的案件之间关联度都很强,具有很高的参考价值。
一种基于聚类技术的刑事犯罪案件关联串并系统,包括:
数据变量获取模块,用于获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;
相似度矩阵计算模块,用于根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;
图分解模块,用于利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;
聚类分析模块,用于对连通子图使用聚类算法进行图切割计算,将所有案件准确分组;
特征提取推送模块,用于提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。
与现有技术相比,本发明的有益效果如下:
本发明不仅能处理源数据具有明确、唯一性特征的数据,也能处理仅具有可能性特征的数据,极大的提高了刑事犯罪案件关联串并的效率,并且准确性高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于聚类技术的刑事犯罪案件关联串并方法的流程框图;
图2是本发明基于聚类技术的刑事犯罪案件关联串并方法的分析流程图;
图3是本发明树形结构的分层代码型数据相似度计算示意图;
图4是本发明基于聚类技术的刑事犯罪案件关联串并系统的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明提供一种基于聚类技术的刑事犯罪案件关联串并方法,包括如下步骤:
S1、获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;
S2、根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;
S3、利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;
S4、对连通子图使用聚类算法进行图切割计算,将所有案件准确分组;
S5、提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。
如图2所示,本发明基于聚类技术的刑事犯罪案件关联串并方法的分析流程如下:
1、刑事犯罪案件特征描述
在刑事犯罪案件信息管理系统中,每个案件包含多个数据项,描述案件各种特征或维度,包括嫌疑人身份证号码、手机号码、银行账号、作案手法、作案时间、作案天气、作案地域、作案工具、嫌疑人身高、嫌疑人年龄等。准确的案件关联串并过程需要综合利用这些数据分析案件特点,判断案件之间的相似程度。
这些数据项具有不同的数据类型。包括1)数值型,例如发案时间、嫌疑人身高(范围),2)字符串型,例如身份证号码、手机号码,3)树形结构的代码,例如作案手法(公安部标准:刑事犯罪信息管理代码第7部分作案手段分类和代码GA 240.7-2000)。这些数据体现不同的确定性(可能性)。例如电话号码等具有唯一性;相反,身高或者作案手法仅能表示可能性。
2、案件相似度模型
根据案件特征变量的确定性程度,设计两种相似度模型
1)由唯一性变量定义的相似度模型
一个案件包括身份证号码、手机号码、银行账号等,通常为字符串类型,每个值具有唯一性。一个案件m的所有这些值(字符串)构成一个集合Cm。案件m,n的相似度表示为
Wa(m,n)=|Cm∩Cn| (1)
即两个集合交集元素的数量(元素相等定义为字符串值相等)。
2)由可能性变量定义的相似度模型
一个案件包括作案手法、作案时间、作案工具、嫌疑人身高、嫌疑人年龄等特征变量,只能表示一定程度的可能性。数据类型包括数值型和树形结构的分层代码型。案件m,n的相似度,是多个特征因素的综合贡献,定义为
Wb(m,n)=∑IwIFI(m,n) (2)
其中,wI为归一化权重,表示各数据变量对于整体相似度的贡献比例,I表示数据变量的个数,∑IwI=1;FI(m,n)表示案件m,n基于一个特定数据变量的相似度。
通常,受害人或者目击者会提供犯罪嫌疑人的身高范围[ha,hb]、年龄范围[aa,ab]。对于犯罪嫌疑人的身高和年龄变量,取平均值,即
Figure GDA0002590487460000101
对案件m,n分别涉及的两个犯罪嫌疑人Pm,Pn,身高、年龄差别越小,表示二人相似度越高。相似度表达式为
Figure GDA0002590487460000102
其中,hm,hn为二人身高,am,an为年龄,σh,σa为控制参数,可取经验值5cm,5岁。
与两个发案时间tm,tn有关的相似度,即犯罪案件的时间相关性为
Figure GDA0002590487460000103
σt为控制参数,可根据案件类型选取。
如果发案地点可以表示为几何坐标
Figure GDA0002590487460000104
那么空间相关性可以表示为
Figure GDA0002590487460000105
Figure GDA0002590487460000106
表示坐标点的几何距离,σd为控制参数。
分层代码型数据(图3)可以表示为一个树形结构,根节点表示代码名称,例如作案手法。每下一层节点为对父节点的进一步细分。在树形结构中,从根节点Ro到任意一个节点Nz有唯一的一条路径Pz,表示为
Pz=RoNi1Nj2...Npq,Npq=Nz (7)
Npq表示在第p层的某个节点,这条路径的长度为q,即节点Nz的高度H(Nz)=q,节点Nz与路径Pz等效,表示分层代码数据类型的一个唯一代码值,对于两个案件m、n的两个代码值,对应代码树的两条路径Pi,Pj,如果从根节点开始,直到第z层,二者具有相同的节点,那么这两条路径,亦即两个代码的相似度定义为
F4(Pi,Pj)=z/max[H(Ni),H(Nj)] (8)
所有的Ff,f=1-4满足归一化条件0≤Ff≤1,值为1表示完全匹配,相似度最大;值为0表示最弱的关系,即完全无关。式(8)可以用于每种树形结构代码,例如作案手法、作案工具等。
计算相似度矩阵
对任意两个案件,根据(1)或(2),计算相似度值。对所有案件,根据两两关系,生成N′×N′的相似度矩阵W′,N′是案件数量。W′是一个对称矩阵,其中对角线元素表示案件与自身的相似度,不需计算,因此,只需计算W′的上三角或者下三角矩阵。
3、预处理:对W矩阵的图分解
根据社会网络分析理论和图论,将W′矩阵转换为一个无向图G。图的每个节点表示一个案件,边的权值表示案件之间的关联程度(相似度)。案件关联串并过程分解为对图的分解和切割两个步骤,每个最终切割计算生成的子图作为一个案件群组,作为案件关联串并的量化依据。
在随后的聚类分析过程中,涉及稀疏矩阵特征方程求解,以及Q值的迭代计算,计算量、存储量较大。为了提高计算效率,需要进行预处理-图分解。
对于图G,设定一个接近于零的阈值T,若G的元素小于T,表示两个案件不可能有实际联系,直接置零,G由多个连通子图构成,图分解将一个“大”图分解为若干连通子图:
G=∪lGl,∩lGl=φ (9)
其中,l为子图个数;
使用宽度或者深度优先算法完成图分解过程。
4、对连通子图的聚类分析
首先,定义以下变量:
图G(V,W),V为节点集合,节点数L=|V|;W为边集合,表示为L×L相似度矩阵W,Wce=Wec,Wcc=0;
任意节点E的度dE=∑ewce,E为正整数;
对角矩阵D,Dαα=dE,Dαβ=0,α≠β;
当图G切割为θ个群组
Figure GDA0002590487460000121
时,每个群组Cε为一个子图,包括多个存在强关联的案件,可作为系列型犯罪案件处理;
对于群组A,节点数
Figure GDA0002590487460000125
群组内部的内聚度等于群组内部边权值之和,将群组A的内聚度标识为:M(A,A),其计算方法为:
Figure GDA0002590487460000126
群组A与外部的关联程度,为从图G中删除A得到的剩余图像集合X中节点VX与A中节点VA的边权值之和,将群组A与外部的关联程度标识为:M(A,X),其计算方法为:
Figure GDA0002590487460000122
相互分离的两个群组A,B的关联程度
Figure GDA0002590487460000123
对于连通子图的一个特定分解,定义Q值
Figure GDA0002590487460000124
使Q值最大化的解为最优图切割,即
Qmax=maxθ(Qθ),Kmax=argmaxθ(Qθ) (11)
以下为基于聚类算法的图切割方法:
对于N″×N″矩阵W″,定义相应的Laplacian矩阵以及相应的特征方程
LW″=D-1.W″ (12)
LW″X=λX (13)
对于LW″,提取由高到低特征值对应的特征向量,最大特征值λ1=1,对应特征向量J,元素全部为1,如果特征值λ1的重复度为r,意味着G包括r个连通子图,第一个特征值没有对图进一步“划分切割”的能力,从大到小,取从2到s的s-1个特征值对应的特征向量,构成N×(s-1)矩阵Xs={x2,x3,...,xs},xs为第s个N维列向量;
对每一个Xs,视为维度为N的s-1个元素组成的集合,对其进行聚类分析,生成k个群组,计算相应的Q(k),k从2开始迭代到某个预设的最大值,使Q(k)达到最大的分解kmax为最优分解。基本流程的伪代码为:
Figure GDA0002590487460000131
通过以上步骤,最终将所有刑事犯罪案件分为若干群组,群组之间联系弱,群组内部的案件关联强,每个群组初步视为系列性案件,提交人工审核。
5、案件群组关键特征提取及向用户推送分析结果
完成聚类分析后,进一步提取每个犯罪案件群组的关键特征参数,这些参数表征该组犯罪案件是否具有并案侦查的实际价值,系统把特征参数按照优先级高低推送给用户。
对于一个犯罪案件群组C,用于并案串并主要参数为归一化的内聚度,该数值越高,接近于1,表明所有的案件之间关联度都很强,具有很高的参考价值。内聚度表示为:
Figure GDA0002590487460000141
当然其它参数也有一定参考意义,例如一个高关联案件群组的破案率低、甚至为零,表明并案侦查时应予以高度关注。
实施例2
如图4所示,本发明还提供一种基于聚类技术的刑事犯罪案件关联串并系统,包括:
数据变量获取模块,用于获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;
相似度矩阵计算模块,用于根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;
图分解模块,用于利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;
聚类分析模块,用于对连通子图使用聚类算法进行图切割计算,将所有案件准确分组;
特征提取推送模块,用于提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。
本发明不仅能处理源数据具有明确、唯一性特征的数据,也能处理仅具有可能性特征的数据,极大的提高了刑事犯罪案件关联串并的效率,并且准确性高。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,包括如下步骤:
S1、获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;
S2、根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;
建立相似度模型具体包括:
S21、将案件数据变量分为唯一性变量和可能性变量;
S22、定义唯一性变量的相似度模型:
唯一性变量为字符串类型,将一个案件m的所有字符串构成一个集合Cm,案件m,n的相似度表示为
Wa(m,n)=|Cm∩Cn| (1)
S23、定义可能性变量的相似度模型:
案件m,n的相似度,是多个数据变量的综合贡献,定义为
Wb(m,n)=∑IwIFI(m,n) (2)
其中,wI为归一化权重,表示各数据变量对于整体相似度的贡献比例,I表示数据变量的个数,∑IwI=1;FI(m,n)表示案件m,n基于一个特定数据变量的相似度;
步骤S23具体包括:
将可能性变量分为数值型和树形结构的分层代码型;
定义数值型可能性变量的相似度模型:
犯罪嫌疑人的身高范围[ha,hb]、年龄范围[aa,ab],对于犯罪嫌疑人的身高和年龄变量,取平均值,即
Figure FDA0002590487450000021
对案件m,n分别涉及的两个犯罪嫌疑人Pm,Pn,相似度表达式为
Figure FDA0002590487450000022
其中,hm,hn为二人身高,am,an为年龄,σh,σa为控制参数,取经验值5cm,5岁;
与两个发案时间tm,tn有关的相似度,即犯罪案件的时间相关性为
Figure FDA0002590487450000023
σt为控制参数,根据案件类型选取;
发案地点表示为几何坐标
Figure FDA0002590487450000024
空间相关性表示为
Figure FDA0002590487450000025
Figure FDA0002590487450000026
表示坐标点的几何距离,σd为控制参数;
定义树形结构的分层代码型可能性变量的相似度模型:
树形结构的分层代码型表示为一个树形结构,根节点表示代码名称,每下一层节点为对父节点的进一步细分,在树形结构中,从根节点Ro到任意一个节点Nz有唯一的一条路径Pz,表示为
Pz=RoNi1Nj2...Npq,Npq=Nz (7)
Npq表示在第p层的某个节点,这条路径的长度为q,即节点Nz的高度H(Nz)=q,节点Nz与路径Pz等效,表示分层代码数据类型的一个唯一代码值,对于两个案件m、n的两个代码值,对应代码树的两条路径Pi,Pj,如果从根节点开始,直到第z层,二者具有相同的节点,那么这两条路径,亦即两个代码的相似度定义为
F4(Pi,Pj)=z/max[H(Ni),H(Nj)] (8)
所有的Ff,f=1-4满足归一化条件0≤Ff≤1,值为1表示完全匹配,相似度最大;值为0表示最弱的关系,即完全无关;
S3、利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;
S4、对连通子图使用聚类算法进行图切割计算,将所有案件准确分组。
2.根据权利要求1所述的基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,所述基于聚类技术的刑事犯罪案件关联串并方法还包括:
S5、提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户。
3.根据权利要求2所述的基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,步骤S1中,所述案件数据变量从刑事犯罪案件信息管理系统中抽取;案件数据变量的高维度包括嫌疑人身份证号码、手机号码、银行账号、作案手法、作案时间、作案天气、作案地域、作案工具、嫌疑人身高、嫌疑人年龄;案件数据变量的异构数据类型包括数值型、字符串型、树形结构的分层代码型。
4.根据权利要求3所述的基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,步骤S2中,计算相似度矩阵具体包括:
对任意两个案件,根据(1)或(2),计算相似度值,对所有案件,根据两两关系,生成N′×N′的相似度矩阵W′,N′是案件数量,W′是一个对称矩阵,其中对角线元素表示案件与自身的相似度,不需计算,只需计算W′的上三角或者下三角矩阵。
5.根据权利要求4所述的基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,步骤S3具体包括:
根据社会网络分析理论和图论,将W′矩阵转换为一个无向图G,图的每个节点表示一个案件,边的权值表示案件之间的关联程度;
对于图G,设定一个接近于零的阈值T,若G的元素小于T,表示两个案件不可能有实际联系,直接置零,G由多个连通子图构成,图分解将一个“大”图分解为若干连通子图:
G=∪lGl,∩lGl=φ (9)
其中,l为子图个数;
使用宽度或者深度优先算法完成图分解过程。
6.根据权利要求5所述的基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,步骤S4具体包括:
首先,定义以下变量:
图G(V,W),V为节点集合,节点数L=|V|;W为边集合,表示为L×L相似度矩阵W,Wce=Wec,Wcc=0;
任意节点E的度dE=∑ewce,E为正整数;
对角矩阵D,Dαα=dE,Dαβ=0,α≠β;
当图G切割为θ个群组
Figure FDA0002590487450000041
时,每个群组Cε为一个子图,包括多个存在强关联的案件,可作为系列型犯罪案件处理;
对于群组A,节点数
Figure FDA0002590487450000043
群组内部的内聚度等于群组内部边权值之和,将群组A的内聚度标识为:M(A,A),其计算方法为:
Figure FDA0002590487450000042
群组A与外部的关联程度,为从图G中删除A得到的剩余图像集合X中节点VX与A中节点VA的边权值之和,将群组A与外部的关联程度标识为:M(A,X),其计算方法为:
Figure FDA0002590487450000051
相互分离的两个群组A,B的关联程度
Figure FDA0002590487450000052
对于连通子图的一个特定分解,定义Q值
Figure FDA0002590487450000053
使Q值最大化的解为最优图切割,即
Qmax=maxθ(Qθ),Kmax=argmaxθ(Qθ) (11)
以下为基于聚类算法的图切割方法:
对于N″×N″矩阵W″,定义相应的Laplacian矩阵以及相应的特征方程
LW″=D-1.W″ (12)
LW″X=λX (13)
对于LW″,提取由高到低特征值对应的特征向量,最大特征值λ1=1,对应特征向量J,元素全部为1,如果特征值λ1的重复度为r,意味着G包括r个连通子图,第一个特征值没有对图进一步“划分切割”的能力,从大到小,取从2到s的s-1个特征值对应的特征向量,构成N×(s-1)矩阵Xs={x2,x3,...,xs},xs为第s个N维列向量;
对每一个Xs,视为维度为N的s-1个元素组成的集合,对其进行聚类分析,生成k个群组,计算相应的Q(k),k从2开始迭代到某个预设的最大值,使Q(k)达到最大的分解kmax为最优分解。
7.根据权利要求6所述的基于聚类技术的刑事犯罪案件关联串并方法,其特征在于,步骤S5中,关键特征参数表征该群组犯罪案件是否具有并案侦查的实际价值,对于一个犯罪案件群组C,用于并案串并主要的关键特征参数为归一化的内聚度,内聚度表示为:
Figure FDA0002590487450000061
该数值越高,接近于1,表明所有的案件之间关联度都很强,具有很高的参考价值。
8.一种基于聚类技术的刑事犯罪案件关联串并系统,其特征在于,包括:
数据变量获取模块,用于获取与案件关联串并分析有关的高维度、异构数据类型的案件数据变量;
相似度矩阵计算模块,用于根据案件数据变量建立描述案件关联程度的相似度模型,根据相似度模型计算相似度矩阵;
图分解模块,用于利用图分解技术,将相似度矩阵转换成的一个图分解为若干连通子图;
聚类分析模块,用于对连通子图使用聚类算法进行图切割计算,将所有案件准确分组;
特征提取推送模块,用于提取每个案件群组的关键特征参数,将关键特征参数根据优先级高低推送给用户;
所述建立相似度模型具体包括以下步骤:
S21、将案件数据变量分为唯一性变量和可能性变量;
S22、定义唯一性变量的相似度模型:
唯一性变量为字符串类型,将一个案件m的所有字符串构成一个集合Cm,案件m,n的相似度表示为
Wa(m,n)=|Cm∩Cn| (1)
S23、定义可能性变量的相似度模型:
案件m,n的相似度,是多个数据变量的综合贡献,定义为
Wb(m,n)=∑IwIFI(m,n) (2)
其中,wI为归一化权重,表示各数据变量对于整体相似度的贡献比例,I表示数据变量的个数,∑IwI=1;FI(m,n)表示案件m,n基于一个特定数据变量的相似度;
步骤S23具体包括:
将可能性变量分为数值型和树形结构的分层代码型;
定义数值型可能性变量的相似度模型:
犯罪嫌疑人的身高范围[ha,hb]、年龄范围[aa,ab],对于犯罪嫌疑人的身高和年龄变量,取平均值,即
Figure FDA0002590487450000071
对案件m,n分别涉及的两个犯罪嫌疑人Pm,Pn,相似度表达式为
Figure FDA0002590487450000072
其中,hm,hn为二人身高,am,an为年龄,σh,σa为控制参数,取经验值5cm,5岁;
与两个发案时间tm,tn有关的相似度,即犯罪案件的时间相关性为
Figure FDA0002590487450000073
σt为控制参数,根据案件类型选取;
发案地点表示为几何坐标
Figure FDA0002590487450000074
空间相关性表示为
Figure FDA0002590487450000075
Figure FDA0002590487450000076
表示坐标点的几何距离,σd为控制参数;
定义树形结构的分层代码型可能性变量的相似度模型:
树形结构的分层代码型表示为一个树形结构,根节点表示代码名称,每下一层节点为对父节点的进一步细分,在树形结构中,从根节点Ro到任意一个节点Nz有唯一的一条路径Pz,表示为
Pz=RoNi1Nj2...Npq,Npq=Nz (7)
Npq表示在第p层的某个节点,这条路径的长度为q,即节点Nz的高度H(Nz)=q,节点Nz与路径Pz等效,表示分层代码数据类型的一个唯一代码值,对于两个案件m、n的两个代码值,对应代码树的两条路径Pi,Pj,如果从根节点开始,直到第z层,二者具有相同的节点,那么这两条路径,亦即两个代码的相似度定义为:
F4(Pi,Pj)=z/max[H(Ni),H(Nj)] (8)
所有的Ff,f=1-4满足归一化条件0≤Ff≤1,值为1表示完全匹配,相似度最大;值为0表示最弱的关系,即完全无关。
CN201710256157.4A 2017-04-19 2017-04-19 基于聚类技术的刑事犯罪案件关联串并方法及系统 Expired - Fee Related CN107092929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710256157.4A CN107092929B (zh) 2017-04-19 2017-04-19 基于聚类技术的刑事犯罪案件关联串并方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710256157.4A CN107092929B (zh) 2017-04-19 2017-04-19 基于聚类技术的刑事犯罪案件关联串并方法及系统

Publications (2)

Publication Number Publication Date
CN107092929A CN107092929A (zh) 2017-08-25
CN107092929B true CN107092929B (zh) 2020-10-20

Family

ID=59637052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710256157.4A Expired - Fee Related CN107092929B (zh) 2017-04-19 2017-04-19 基于聚类技术的刑事犯罪案件关联串并方法及系统

Country Status (1)

Country Link
CN (1) CN107092929B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109426905B (zh) * 2017-08-29 2022-03-18 北京国双科技有限公司 一种刑事文书量刑偏离的判定方法及装置
CN107688830B (zh) * 2017-08-30 2021-02-26 西安邮电大学 一种用于案件串并的现勘视觉信息关联图层生成方法
CN107679201B (zh) * 2017-10-12 2018-08-31 杭州中奥科技有限公司 隐匿人挖掘方法、装置及电子设备
CN110019672A (zh) * 2017-11-09 2019-07-16 北京国双科技有限公司 一种类似案件的推送方法、系统、存储介质和处理器
CN108874911B (zh) * 2018-05-28 2019-06-04 广西师范学院 基于区域环境与犯罪事件数据的疑犯位置预测方法
CN109508395B (zh) * 2018-09-26 2022-03-29 安徽四创电子股份有限公司 一种基于车型检索的智能串并案的方法
CN109710712B (zh) * 2018-12-17 2020-11-03 中国人民公安大学 一种基于案件要素分析的犯罪热点特征挖掘方法及系统
CN111382769B (zh) * 2018-12-29 2023-09-22 阿里巴巴集团控股有限公司 信息处理方法、装置及系统
CN109919781A (zh) * 2019-01-24 2019-06-21 平安科技(深圳)有限公司 团伙欺诈案件识别方法、电子装置及计算机可读存储介质
CN110008362A (zh) * 2019-03-05 2019-07-12 青岛海信网络科技股份有限公司 一种案件归类方法及装置
CN109918674B (zh) * 2019-03-14 2022-12-30 武汉烽火普天信息技术有限公司 一种基于案件要素相似性建模的案件串并方法
CN110609908A (zh) * 2019-09-17 2019-12-24 北京明略软件系统有限公司 案件串并方法及装置
CN111753872A (zh) * 2020-05-12 2020-10-09 高新兴科技集团股份有限公司 串并案关联性分析方法、装置、设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003298655A1 (en) * 2002-11-15 2004-06-15 Bioarray Solutions, Ltd. Analysis, secure access to, and transmission of array images
CN101499928A (zh) * 2009-03-18 2009-08-05 苏州盛世阳科技有限公司 一种基于聚类分析的网络入侵场景图生成方法
US8560605B1 (en) * 2010-10-21 2013-10-15 Google Inc. Social affinity on the web
CN103440275A (zh) * 2013-08-08 2013-12-11 南京邮电大学 一种基于普利姆的k均值聚类方法
CN106127241A (zh) * 2016-06-17 2016-11-16 中国电子科技集团公司第二十八研究所 一种串并案分类方法及串并案分类系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Graph Clustering based on Structural Attribute Neighborhood Similarity (SANS);M. Parimala等;《IEEE》;20150827;第1-4页 *
基于聚类的关联规则算法在刑事犯罪行为分析中的应用;王慧等;《中国人民公安大学学报(自然科学版)》;20100930;第2010年卷(第3期);第64-67页 *

Also Published As

Publication number Publication date
CN107092929A (zh) 2017-08-25

Similar Documents

Publication Publication Date Title
CN107092929B (zh) 基于聚类技术的刑事犯罪案件关联串并方法及系统
CN107070943B (zh) 基于流量特征图和感知哈希的工业互联网入侵检测方法
CN106909643A (zh) 基于知识图谱的社交媒体大数据主题发现方法
CN109871452B (zh) 确定犯罪特征的方法、装置以及存储介质
CN112052940B (zh) 基于向量压缩与重构的社交网络特征动态提取方法
CN113033090B (zh) 推送模型训练方法、数据推送方法、装置及存储介质
Dong et al. Feature extraction through contourlet subband clustering for texture classification
CN113326377A (zh) 一种基于企业关联关系的人名消歧方法及系统
CN109871749A (zh) 一种基于深度哈希的行人重识别方法和装置、计算机系统
CN102521420A (zh) 基于偏好模型的社会化过滤方法
Herrera et al. SAX-quantile based multiresolution approach for finding heatwave events in summer temperature time series
Cai et al. Stereo Attention Cross-Decoupling Fusion-Guided Federated Neural Learning for Hyperspectral Image Classification
CN110910235A (zh) 一种基于用户关系网络的贷中异常行为检测方法
Yuan et al. CSCIM_FS: Cosine similarity coefficient and information measurement criterion-based feature selection method for high-dimensional data
Balafar et al. Active learning for constrained document clustering with uncertainty region
Aouay et al. Feature based link prediction
Luo et al. Kernel Fisher discriminant analysis based on a regularized method for multiclassification and application in lithological identification
CN109376230B (zh) 犯罪定罪预测方法、系统、存储介质及服务器
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
CN114912109A (zh) 一种基于图嵌入的异常行为序列识别方法及系统
Yao Clustering in ratemaking: Applications in territories clustering
Chang et al. Automated feature engineering for fraud prediction in online credit loan services
Chen et al. Experiments with rough set approach to face recognition
CN112949304A (zh) 一种施工案例知识重用查询方法及其装置
ADERO et al. Using apriori algorithm technique to analyze crime patterns for kenyan national crime data: A county perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201020

Termination date: 20210419