CN106294319A

CN106294319A - 一种串并案识别方法

Info

Publication number: CN106294319A
Application number: CN201610631053.2A
Authority: CN
Inventors: 郑胜; 夏明�; 徐涛; 张胜; 周可; 蒋丹
Original assignee: WUHAN SHUWEI TECHNOLOGY Co Ltd
Current assignee: WUHAN SHUWEI TECHNOLOGY Co Ltd
Priority date: 2016-08-04
Filing date: 2016-08-04
Publication date: 2017-01-04

Abstract

本发明公开了一种串并案识别方法及系统，其方法包括预处理步骤，对案件的案情描述进行分词与词性标注，并去除停用词；对预处理后的案情描述，通过基于规则和字典相结合的方法提取案件的重要特征，将案件文本转化成特征向量；根据特征向量，采用案件特征相似度计算方法获得案件的综合相似度，通过综合相似度进行聚类，找到相关案件的密集簇，识别出串并案件；通过本发明提供的方法及系统，基于特征密度进行聚类，改进了传统聚类算法应用于数值型向量的局限性；克服了从案情文本库获取可能的串并案簇的难点；将该方法及系统应用于案件侦查可提高侦查效率。

Description

一种串并案识别方法

技术领域

本发明属于计算机自然语言处理以及数据挖掘技术领域，更具体地，涉及一种串并案识别方法。

背景技术

串并案分析作为打击系列犯罪案件的重要方法，可以挖掘案件之间的内在联系，减轻分析人员的工作量，提高破案效率。刑事案件文本包含了案件时间、案发地点、作案手法和工具等信息，利用这些信息结合数据挖掘方法挖掘案件之间的内在联系，发现案件的聚集簇，可以减轻分析人员的工作量，提高破案效率。

传统的发现密集簇的技术主要是利用聚类方法，其中，基于密度的聚类方法能够发现任意形状的簇。如经典的基于密度的聚类算法DBSCAN，将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，将簇定义为密度相连的点的最大集合；OPTICS算法在经典DBSCAN基础上进行了改进，可以通过该聚类算法得到不同密度的聚类。

传统的聚类算法虽然可以发现任意形状及密度的簇，但其应用对象主要针对数值型多维向量空间中的点；刑事案件文本篇幅短小，包含大量重要信息，但属于自由文本，没有固定格式，无法直接通过传统聚类方法发现案件之间的关联。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种串并案识别方法，根据案情特征把不同地域、不同时间发生的多起案件进行合并分析，识别出其中的串并案。

为实现上述目的，按照本发明的一个方面，提供了一种串并案识别方法，包括案情预处理步骤、案件特征提取步骤和基于特征密度的聚类步骤，具体如下：

(1)案情预处理步骤：对案件的案情描述文本进行分词与词性标注，并去除停用词；

其中，停用词包括无用词、无用词性，以及专有停用词；

(2)案件特征提取步骤：根据预处理后的案情描述文本，通过基于规则和字典相结合的方法提取案件的重要特征，将案情描述文本转化成案件的特征向量；

其中，重要特征包括案件的时间、地点以及案件类别；

其中，案件类别包括一级类别和二级类别；一级类别指案件所属的大类，二级类别指案件所属的大类中的小类；

(3)基于特征密度的聚类步骤：根据上述特征向量，采用案件特征相似度计算方法获得案件的综合相似度；通过综合相似度进行聚类，找到相关案件的密集簇，识别出串并案件。

优选地，上述串并案识别方法，其步骤(1)包括如下子步骤：

(1.1)采用分词器对案情描述文本进行分词与词性标注；

(1.2)根据分词及词性标注的结果，结合无用词性字典以及专业停用词典，去除停用词以及无意义的词，包括拟声词、语气词。

优选地，上述串并案识别方法，其步骤(2)包括如下子步骤：

(2.1)根据预设规则进行特征提取，获得案情的特征向量，包括案件的时间、地点、类别；

(2.2)利用字典从预处理后的案情描述文本中抽取案件的时间、地点、类别；

(2.3)将上述两个步骤抽取到的案件的时间、地点、类别进行合并，并进行去重处理，获得案件的特征向量。

优选地，上述串并案识别方法，其步骤(3)包括如下子步骤：

(3.1)根据案件的时间、地点、类别，获取案件P与案件Q之间的综合相似度相似度

sim(P,Q)＝α*sim_type(P,Q)+β*sim_time(P,Q)+γ*sim_place(P,Q)；

其中，sim_type(P,Q)是指案件之间的类别相似度，sim_time(P,Q)是指案件之间的时间相似度，sim_place(P,Q)是指案件之间的地点相似度；

α是指类别相似度的权重值，β是指时间相似度的权重值，γ是指地点相似度的权重值；

上述各权重值采用层次分析法AHP(Analytic Hierarchy Process)获取，该方法是将与决策相关的元素分解成目标、准则和方案等层次，并在此基础上进行定性和定量的分析；

(3.2)根据上述综合相似度进行聚类处理，识别出相关案件的密集簇；并根据密集簇识别出串并案件。

优选地，上述串并案识别方法，所述类别相似度

优选地，上述串并案识别方法，所述时间相似度

其中，案发时段相同时，λ＝1；案发时段不同时，λ＝0.5。

优选地，上述串并案识别方法，所述地点相似度

其中，μ是指案件场所系数，当案发场所相同时μ＝1，否则μ＝0.5。

为实现本发明目的，按照本发明的另一个方面，提供了一种串并案分析系统，包括预处理模块、特征提取模块和聚类模块；

其中，预处理模块用于对案情进行初始处理，包括进行分词及词性标注，无用词性过滤以及专有停顿词剔除；

特征提取模块用于从案情描述中抽取重要特征，包括案发时间、案发地点以及案件类别，构成案件的特征向量；

聚类模块用于将案件的特征向量进行聚类，找到相关案件的密集簇，识别出串并系案件。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供的串并案识别方法及系统，根据案件的时间、地点、类别获取案件间的综合相似度，将案情中最重要的三个维度：时间、地点和案件类别利用层次分析法同时应用在相似度计算中，使得案件距离的描述更加准确；并根据综合相似度基于特征密度进行聚类，改进了传统聚类算法应用于数值型向量的局限性；通过本发明提供的方法及系统，克服了从案情文本库得到可能的串并案簇的难点；将该方法及系统应用于案件侦查可提高侦查的效率。

附图说明

图1是为本发明实施例提供的串并案识别方法的流程示意图；

图2为本发明实施例中的预处理的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例提供的串并案识别方法，包括案情预处理步骤，案情特征提取步骤，基于特征密度的聚类步骤；首先根据案情语料库得到案情描述文本，对案情描述文本进行分词及词性标注、去除停用词性和专有停顿词等预处理操作；对预处理后的案情描述文本进行特征提取，采用基于规则和字典相结合的抽取方法，得到案情描述的特征向量；然后利用特征向量获取案件的综合相似度，并利用基于特征密度的聚类方法对案情特征向量进行聚类分析；其流程如图1所示，具体如下：

(1)案情预处理：对案情进行初始处理，其流程如图2所示，包括分词及词性标注，无用词性过滤以及专有停顿词剔除；

实施例中，采用中科院分词系统ICTCLAS对文本进行分词及词性标注；

无用词性过滤是指根据词性剔除对文本分类无用的词，例如拟声词、副词、介词和连词；

专用停顿词剔除是指根据应用场景和原始文档集特点，去除出现频率非常高但对分类无用的领域专用停顿词，如“犯罪嫌疑人”、“受害人”、“价值”、“报案”等公安领域专用停顿词；

(2)案情特征提取：采用基于规则和字典相结合的抽取方法进行特征提取：

实施例中，对案发时间采用正则表达式“[\d]{4}年[\d]{2}月([\d]日)？”提取；利用某地区的街道字典提取出案发地点；采用与时间地点相同的基于规则和字典相结合的方法提取出案件类别，或者可以利用案件本身的类别维度提取出案件类别：例如一级案件类别盗窃案包括了若干个二级案件类别，采用二级分类器的分类方法对案情进行二级分类；

将根据规则与字典抽取到的案件的时间、地点、类别进行合并，并进行去重处理，获得案件的特征向量；

(3)基于特征密度进行聚类；其中，案件之间的综合相似度获取方法如下：

(I)时间相似度与案件发生的日期和时段相关，案件发生的日期相差天数越小，发生具体时段越相近，时间相似度越高；

实施例中，时间相似度

其中，当案发时段相同时，λ＝1；当案发时段不同时λ＝0.5；时段字典如以下表1所列；

表1案发时段字典

时段	时钟时间
		凌晨	1:00～4:00
早晨	5:00～7:00
		上午	8:00～10:00
中午	11:00～13:00
		下午	14:00～16:00
傍晚	17:00～19:00
		晚上	20:00～22:00
午夜	23:00～0:00

(II)地点相似度与案件发生的地理位置信息和案发场所信息相关；案件发生地点之间的地表距离越近，表明它们是串并案件的可能性越大；案件发生的场所相同，则是串并案件的可能性较大；

实施例中，地点相似度

其中，μ表示案件场所系数，当案发场所相同时μ＝1，否则μ＝0.5；案发场所包括“学校”、“小区”和“地铁”等；地表距离的基本单位是公里；

(III)类别相似度与案件的一级类别和二级类别相关，若两个案件不属于同一个一级类别，则类别相似度为0；若同属于一个一级案件类别，则计算其二级案件类别的相似度；实施例中，利用JACCARD相似度计算方法获取类别相似度，

(Ⅳ)利用层次分析法获取上述三个维度的相似度的权重；根据权重与各维度的相似度，获取案件之间的综合相似度

sim(P,Q)＝α*sim_type(P,Q)+β*sim_time(P,Q)+γ*sim_place(P,Q)。

根据上述综合相似度采用基于概率密度的聚类算法进行聚类处理，识别出相关案件的密集簇；并根据密集簇识别出串并案件；基于概率密度的聚类算法能够识别任意形状的类簇，克服了其他基于距离的聚类算法仅能发现“类圆形”簇的缺陷，符合刑事案件分布的不规则性特征。

实施例提供的串并案分析系统包括预处理模块，特征提取模块以及聚类模块；

其中，预处理模块用于对案情进行初始处理；主要包括分词及词性标注，无用词性过滤以及专有停顿词剔除；

特征提取模块用于从案情描述中抽取重要特征，包括案发时间、案发地点以及案件类别，构成案件的特征向量；具体是采用基于规则和字典相结合的抽取方法，先根据规则进行特征提取，然后利用字典查漏补缺；

聚类模块用于将案件的特征向量进行聚类，从而找到相关案件的密集簇，发现串并案件；具体的，该模块识别任意形状的簇，在传统聚类算法OPTICS基础上，引入特征相似度计算方法，综合考虑案发时间、案发地点和案件类别三个维度特征，计算综合特征相似度，从而识别出串并案件的密集簇。

以下结合一个公安串并案分析的实例具体阐述本发明提供的串并案识别方法，具体包括如下步骤：

(1)案情预处理：

对案件的案情描述文本进行预处理，包括中文分词及词性标注、停用词去除两部分；

实施例中，原始案情描述文本为：“2013年5月6日上午，青山街13号王某家中遭到撬门入室盗窃，损失人民币两万余元”，经过预处理后得到关键词向量(2013年、5月、6日、上午、青山街、13号、家中、撬门、入室盗窃、损失、人民币、两万、余元)；

(2)案件特征提取：根据预处理后的文本，对案发时间采用正则表达式“[\d]{4}年[\d]{2}月([\d]日)？”提取为“2013年5月6日上午”；利用地区的街道字典可提取出案发地点为“青山街13号家中”；案件类别为撬门入室盗窃；通过案件特征提取步骤，将案件文本转化成特征向量；

(3)基于特征密度的聚类：

实施例中，两个案件特征向量分别为(2013年5月6日上午，青山街13号家中，撬门入室盗窃)；和(2013年5月8日下午，发展大道116号酒店，溜门入室盗窃)；两个案件之间的时间相似度与案件发生的日期和时段相关，案件发生的日期相差天数越小，发生具体时段越相近，时间相似度越高，计算获得案件时间相似度sim_time(P,Q)为0.1667；

地点相似度与案件发生的地理位置信息和案发场所信息相关；案件发生地点之间的地表距离越近，表明它们是串并案件的可能性越大；案件发生的场所相同，也表明是串并案件的可能性较大，计算获得案件地点相似度sim_place(P,Q)为0.05(两地的地表距离为9公里)；

计算获得案件类别相似度sim_type(P,Q)为0.7143；

利用层次分析法AHP，根据初始判断矩阵A确定时间、地点和类别这三个维度相似度的权重分别为0.1676、0.0944和0.7380；其中，

A = (\begin{matrix} a_{c l s, c l s} & a_{c l s, t i m e} & a_{c l s, p l c} \\ a_{t i m e, c l s} & a_{t i m e, t i m e} & a_{t i m e, p l c} \\ a_{p l c, c l s} & a_{p l c, t i m e} & a_{p l c, p l c} \end{matrix}) = (\begin{matrix} 1 & 5 & 7 \\ 1 / 5 & 1 & 2 \\ 1 / 7 & 1 / 2 & 1 \end{matrix})

根据三个维度的权重以及三个维度的相似度，获得两个案件的综合相似度

sim(P,Q)＝0.7380*sim_type(P,Q)+0.1676*sim_time(P,Q)+0.0944*sim_place(P,Q)；其具体值为0.5598，以案件之间的综合相似度作为距离对案情件征向量进行聚类，得到串并案件的密集簇，识别出串并案件。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种串并案识别方法，其特征在于，包括如下步骤：

(1)对案件的案情描述文本进行预处理，包括分词与词性标注、停用词去除；

(2)通过基于规则和字典相结合的方法，从预处理后的案情描述文本中获取案件特征向量；

(3)采用案件特征相似度计算方法，根据所述特征向量获得案件的综合相似度；并通过所述综合相似度进行聚类处理，找到相关案件的密集簇，识别出串并案件。

2.如权利要求1所述的串并案识别方法，其特征在于，所述步骤(1)包括如下子步骤：

(1.1)采用分词器对案情描述文本进行分词与词性标注；

(1.2)根据分词及词性标注的结果，结合无用词性字典以及专业停用词典，去除停用词以及无意义的词。

3.如权利要求1或2所述的串并案识别方法，其特征在于，所述步骤(2)包括如下子步骤：

(2.3)将所述步骤(2.1)与步骤(2.2)抽取到的案件的时间、地点、类别进行合并，并进行去重处理，获得案件的特征向量。

4.如权利要求1或2所述的串并案识别方法，其特征在于，所述步骤(3)包括如下子步骤：

(3.1)根据案件的时间、地点、类别，获取案件P与案件Q之间的综合相似度sim(P,Q)＝α^*sim_type(P,Q)+β^*sim_time(P,Q)+γ^*sim_place(P,Q)；

(3.2)根据所述综合相似度进行聚类处理，识别出相关案件的密集簇；并根据密集簇识别出串并案件。

5.如权利要求4所述的串并案识别方法，其特征在于，所述类别相似度

6.如权利要求4所述的串并案识别方法，其特征在于，所述时间相似度

其中，案发时段相同时，λ＝1；案发时段不同时，λ＝0.5。

7.如权利要求4所述的串并案识别方法，其特征在于，所述地点相似度

8.一种串并案分析系统，其特征在于，包括依次连接的预处理模块、特征提取模块和聚类模块；

所述预处理模块用于对案情进行预处理，包括进行分词及词性标注，无用词性过滤以及专有停顿词剔除；

所述特征提取模块用于从预处理后的案情描述文本中抽取重要特征构成案件的特征向量；

所述聚类模块用于根据所述特征向量进行聚类，找到相关案件的密集簇，识别出串并系案件。