CN109918674B

CN109918674B - 一种基于案件要素相似性建模的案件串并方法

Info

Publication number: CN109918674B
Application number: CN201910193112.6A
Authority: CN
Inventors: 金勇�; 朱其斯
Original assignee: Wuhan Firehome Putian Information Technology Co ltd
Current assignee: Wuhan Firehome Putian Information Technology Co ltd
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2022-12-30
Anticipated expiration: 2039-03-14
Also published as: CN109918674A

Abstract

本发明公开了一种基于案件要素相似性建模的案件串并方法，包括要素相似性计算和综合相似性计算；基于语义相似与规则相似，结合了语义分析和数据建模技术，以及警务研判经验为一体，实现了通过七大要素自动计算案件之间的相似性，再辅以适当的人工分析，就可以大大提高了案件串并的效率。

Description

一种基于案件要素相似性建模的案件串并方法

技术领域

本发明涉及自然语言处理应用技术领域，具体的说是一种基于案件要素相似性建模的案件串并方法。

背景技术

公安部门在长期的警务活动中搜集、保存了大量的数据，然而目前在案件研判过程中对于海量案件信息的相互关联性、规律性不能有效快速的解读，从而使得以案找案，以及以案找人的情报研判分析相当繁琐，需要耗较大的人力，因而一种利用机器自动进行案件的串并则显得尤为重要。具体来说，对于新发未破案件，一方面从已破案件中去寻找相似的案件，从而推荐可能的嫌疑人，另一方面可以从未破案件中搜索相似关联案件，然后作为串案或者系列案件一起去侦破，从而能加强跨地区之间的刑侦合作，共享信息资源，达到并案一串、破案一片的效果。

基于此，针对上述现状中存在的问题，本发明提出一种基于语义相似和规则比对的要素相似性建模技术，实现多维要素分析的案件智能串并方法。

发明内容

为了解决上述现有技术的问题，本发明提供一种基于语义相似和规则比对的要素相似性建模技术，实现多维要素分析的案件智能串并方法。

本发明解决其技术问题所采用的技术方案是：

一种基于案件要素相似性建模的案件串并方法，包括要素相似性计算和综合相似性计算，具体为：

对案件根据建模需求进行抽象出各要素，并对各要素相应的属性进行设定；

根据案件的各要素的属性分别进行相似性建模，并计算得到各要素对应的相似度；

根据各要素的相似度得到权重，以计算案件之间的综合相似性；

根据综合相似性的大小来高低排序，进行有效相似案件推荐。

进一步地，所述案件的要素包括作案手段、作案工具、涉案物品、地域特征、时域特征、人物特征以及选择对象特征，且均基于相同的词向量模型。

更进一步地，所述作案手段的相似度建模的具体过程为：

S101、利用词向量模型，以所有案件信息文本为训练语料，得到所有作案手段词语的词向量；

S102、对作案手段进行分类，得到树形结构，并得到所有共有母节点数组；

S103、比较作案手段的相似度，若比较对象相同，则返回，反之则进入步骤S104；

S104、计算作案手段的相似性，具体为：

找到待比较的两个作案手段的共有母节点，累加共有母节点的权重值，得到基础权重；

通过基础权重计算词向量上限值，记上限值为limit，基础权重为x，其中，limit属于[0, 0.5]，使用的函数为limit=f(x) = 0.5 - 0.3 * x - 0.2 * (x^2)；

分别计算两个作案手段的词向量，并根据所得的两个作案手段的词向量计算余弦相似距离，记为d，返回两个作案手段的相似度sim_method =x + limit * d。

更进一步地，所述作案工具相似度建模的具体过程为：

S201、先将原有工具库中的工具进行分类，设置参数予各类别，所述参数为类别基础相似度和类别词向量相似度；

S202、计算待比较的两个作案工具的类别词向量余弦值，并缩放到类别词向量相似度上限以内，再与类别基础相似度相加得到总相似度，其中，记类别基础相似度为w_c，所述类别词向量相似度上限的范围为[0, 1- w_c]。

更进一步地，所述涉案物品相似度建模的具体过程为：

S301、对物品进行分类得到物品分类词典，并根据物品分类词典设定物品类别相似权重上限limit_w在区间[0, 1]内，词向量相似权重上限limit_v在区间[0, 1]内，且有limit_w + limit_v = 1；

S302、将涉案物品记为物品列表，比较待比较的两个物品列表，分别得到对应物品列表中每个物品的分类，得到各物品列表中包含的所有分类的集合；

S303、计算各包含的所有分类的集合中相同类的个数n以及最多的类别数量m，得到相同物品类别权重值i=n/m；

S304、计算各物品列表的平均词向量，得到待比较的两个物品列表的余弦距离d，根据总相似度 sim_item = limit_w * i + limit_v * d输出得到待比较的两个物品列表的总相似度。

更进一步地，将地域特征分为地点经纬度、案发场所以及案发地区，所述地域特征相似度建模的具体过程为：

记地点经纬度相似度为sim_xy，根据两案件对应案发地址的经纬度，求出两点距离，默认距离大于40km时相似度为0，其它距离相似性通过下述相似性函数进行计算：sim_xy=-1/(1+exp(-(dis-4)))+1，其中dis为通过经纬度计算的距离，此函数映射到[0,1]区间内；

记案发地区相似度为sim_dq，依据地区字段进行对比，如果二者相同，则返回1；若不同，则返回0；

记案发场所相似度对比sim_cs，案发场所分为居民区、银行、超市、街面、商场和其他场所类型，如果类型为其它，相似度为0 .1；如果为相同，相似度为1；如果为不同，相似度为0；

根据不同案件类别，赋予地点经纬度相似度对比权重为a1，案发地区相似度权重为b1，案发场所相似度权重为c1，则地域特征相似度为sim_dy = a1*sim_xy + b1*sim_dq+ c1*sim_cs。

更进一步地，所述时域特征相似度建模的过程包括时间点的相似度建模过程和时间段的相似度建模过程，具体为：

对于时间点的相似度，记为sim_time_point，以一天24小时计，案发时间间隔小于等于1小时或者大于等于23小时，相似度为1；案发时间间隔大于1小时小于等于3小时，相似度为0.6；案发时间间隔大于3小时小于等于5小时，相似度为0.3；时间间隔大于5小时小于19小时，相似度为0；

对于时间段的相似度，记为sim_time_interval，按照时间点划分时间段，并对各个时间段的相似度度量测算；

赋予时间点的相似度权重为a2，时间段的相似度权重为b2，则时域相似度为sim_time = sim_time_point*a2 + sim_time_interval*b2。

更进一步地，所述人物特征相似度建模的具体过程为：

设定人物特征包括的子维度，其中子维度包括性别，并对除去性别的各子维度的相似性进行评估，再把除去性别的各子维度的相似度叠加后除以子维度的数量，最后再乘以性别的相似性，得到人物特征相似度，其中性别相同，则性别相似度为1，性别不同，则性别相似度为0。

更进一步地，所述选择对象特征相似度建模的具体过程为，将选择对象进行分类，在同一类里面，作案对象相似性为1，反之则为0。

进一步地，各要素的相似度的权重之和为1。

与现有技术相比，本发明的有益效果是：

本发明基于语义相似与规则相似，提出了一种机器自动进行案件串并的方法，结合了语义分析和数据建模技术，以及警务研判经验为一体，实现了通过七大要素自动计算案件之间的相似性，再辅以适当的人工分析，就可以大大提高了案件串并的效率。

附图说明

图1为本发明一个实施例中的串并流程示意图；

图2为本发明一个实施例中的作案手段树形示意图；

图3为本发明一个实施例中的涉案物品分类示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例及附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明主要针对案件要素进行相似性建模，一般地，一个案件主要包括七大要素：作案手段、作案工具、涉案物品、地域特征（地点，场所，区域），时域特征（时间点，时间段），人物特征（性别，脸型，发型，口音，年龄，身高，体型），以及选择对象特征。其中地域特征包含三个子维度（地点，场所，区域），其它时域特征和人物特征类同。

对案件要素进行建模，根据图1的串并案流程建立案件相似性模型，对给定待串案件推荐与其关联程度最高的案件。特别地，对于未破案件，系统不仅需要推荐出串并案件，还需要推荐出嫌疑人特征；而对于已破案件，仅仅需要推荐出嫌疑人即可。图1中，本发明主要解决的是左半部分通过要素相似性建模得到案件与案件之间的相似性，对于右半部分的业务目标，此发明中略去。

本发明的案件要素相似性建模，主要包含两个模块：（1）要素相似性计算模块，主要针对案件七大要素，分别建立相似性模型，计算得到各大要素对应的相似度；（2）综合相似性计算模块，根据各要素的权重计算案件之间的综合相似性，然后按照得分高低排序进行有效相似案件推荐。

基于此，作为一个较佳的实施例，本发明的基于要素相似性建模的案件串并方法包括以下三个步骤：

一、要素相似性建模：

1、作案手段相似性建模，作案手段对比的思路是结合词向量和分类权重。该模型的总体思想是在词向量的基础上增加类别相同所带来的权重。例如 “撬门”和“撬窗”的相似性由于门、窗在某种程度上是较为相似的对象，所以在计算词向量之前，模型就给予这两个手段一个基础的相似度，以保证一个相似度的下限。

作案手段对比的实现方法是先对作案手段进行分类，手段的分类依赖于手段的实施对象（门，窗，锁等等）和手段的实施方法（暴力，技术，有工具，无工具等等）。分类为多层分类可以理解为一个树形结构，每个分类点可以理解为树的一个节点，如图2所示。每个节点都设有一个权重值，这个权重值表示如果有任意两个作案手段属于以该节点为根节点的子树中时，这两个作案手段之间的相似度会增加此权重值。因此，两个作案手段对比时的基础权重值为这两个手段所属节点到root根节路径上的共有parent节点的权重值相加。得到基础权重值后，词向量相似度上限由一个函数将基础权重值映射得到，基础权重值越大，词向量上限越小，基础权重值越小，词向量上限越大。最后将基础相似度和经由词向量上限缩放后的词向量近似值相加得到。

具体计算过程如下：

101、利用词向量模型Word2vec，以所有案件信息文本为训练语料，得到所有词语的词向量, 词w的向量为 v_w = Word2vec(w) ；

102、对作案手段进行分类，得到树形结构T, 树节点x记为N_x，节点x的权重为W_x。根节点为N_root。作案手段m所属叶节点N_m = T.find(m), 节点N_x和N_y 的所有共有母节点数组记为 List(cp) = T.common_parents(N_x, N_y)；

103、开始比较手段 m1 和 m2 的相似度，如果m1 = m2，返回1，反之则进入后续步骤；

104、找到 m1 所在叶节点，N_m1 = T.find(m1)，找到m2所在叶节点 N_m2 =T.find(m2)，找到节点 N_m1 和节点 N_m2 的共有母节点， List(cp) = T.common_parents(N_m1, N_m2)；

105、累加N_m1 和 N_m2 共有母节点的权重值

total_weight = SUM(W_x for x in List(cp))；

106、通过得到的基础权重total_weight计算词向量上限值

limit = f(total_weight)，

limit 属于[0, 0.5]，使用函数为f(x) = 0.5- 0.3 * x-0.2 * (x^2) ；

107、计算m1词向量v_m1 = Word2vec(m1)，计算m2词向量v_m2 = Word2vec(m2)，计算m1和m2余弦相似距离 d = CosSim(v_m1, v_m2)；

108、返回m1 和 m2 总相似度为 sim_method = total_weight + limit * d。

2、作案工具相似性建模，与作案手段相似性建模类似，也分为词向量相似与类别相似。作案工具部分先将原有工具库中的工具进行分类，目前根据经验工具类别分为刀，斧，剪，钳，钻，旋具，扳手，锯，枪，锤，撬棒，农用工具，简易工具等。两个工具之间的相似度被分为两个部分，分别为所属类别相似度和词向量相似度。每个类别会有两个参数，一个是该类别内的基础相似度，另一个是该类别下的词向量相似度上限，算出的词向量余弦值会被缩放到词向量相似度上限以内并与基础相似度相加得到总相似度。具体实现方式如下：

201、依赖词向量模型Word2vec，词w的向量为 v_w = Word2vec(w)；

202、对工具进行分类得到类别字典C，工具g的类别c = C(g)，类别基础相似度设为w_c属于[0, 1]，类别词向量上限设为limit_c 属于[0, 1-w_c]；

203、对比工具g1 和 g2，如果g1 = g2，则返回1，反之进入后续步骤；

204、得到g1 所属类别 c1 = C(g1)，得到g2 所属类别 c2 = C(g2)，使用词向量模型计算g1和g2词向量v_g1和v_g2，计算g1 和 g2 之间的词向量余弦距离 d = CosSim(v_g1, v_g2)；

205、如果c1 = c2 返回 sim_tool = w_c1 + limit_c1 * d，如果c1不等于c2 或c1 或 c2 为空，返回sim_tool = d。

3、涉案物品相似性建模，由于涉案物品记录较为杂乱，随机性较强，因而涉案物品相似度主要考虑物品所属类别因素。同样的，根据经验对涉案物品进行了分类，如图3所示，对于两个案件中涉案物品的相似度，该模型在词向量的基础上考虑了两个案件中盗窃物品存在的相同类别的数量，相同的物品类别越多，一定程度上反应了嫌疑人更倾向于偷盗该类型的物品。具体实现方式如下：

301、依赖词向量模型Word2vec，词w的向量为 v_w = Word2vec(w)；

302、对物品进行分类得到物品分类词典C，物品i的类别 c = C(i)，设定物品类别相似权重上限limit_w 属于[0, 1]，设定词向量相似权重上限limit_v 属于[0, 1]，且有limit_w + limit_v = 1；

303、开始比较物品列表list(l1) 和 list(l2)，得到物品列表list(l1)中的每个物品的分类，得到list(l1)中包含所有分类的集合S_l1 = SET(c_x for x in list(l1)),

得到物品列表list(l2)中的每个物品的分类，得到list(l2)中包含的所有分类的集合S_l2 = SET(c_x for x in list(l2))；

304、计算S_l1和S_l2中的相同类个数 n = Num_of_Duplicates(S_l1, S_l2)，计算S_l1和S_l2中最多的类别数量 m = MAX(len(S_l1), len(S_l2))，计算相同物品类别权重值 i = n / m；

305、计算list(l1)平均词向量 v_l1 = Mean(Word2vec(x) for x in list(l1))，计算list(l2)平均词向量 v_l2 = Mean(Word2vec(x) for x in list(l2))，计算list(l1) 和 list(l2) 的余弦距离 d = CosSim(v_l1, vl2)，返回list(l1) 和 list(l2)，总相似度为 sim_item = limit_w * i + limit_v * d。

4、地域特征相似性建模，地域特征的相似度计算由地点经纬度对比、发案处所对比、发案地区对比三部分决定。

（1）函数一：经纬度相似性计算sim_xy

根据两案件对应案发地址的经纬度，求出两点距离，默认距离大于40km时相似度为0，其它距离相似性通过下述相似性函数进行计算：sim_xy=-1/(1+exp(-(dis-4)))+1，其中dis为通过经纬度计算的距离，此函数映射到[0,1]区间内，从而得出两地经纬度之间的相似度。

（2）函数二：地区相似性计算sim_dq

地区相似性主要描述的是案发地所在区县的异同，依据地区字段进行对比，如果二者相同，则返回1；若不同，则返回0。

（3）函数三：场所相似性对比sim_cs

根据案件发生的发案处所进行对比，发案处所主要分为居民区、银行、超市、街面、商场等多种处所类型。如果为“其它”，相似度为0.1；如果为相同，相似度为1；如果为“居民住宅”和“居民区”，相似度为1；如果为不同，相似度为0。

（4）总函数：地域总相似性sim_dy

对于以上三部分赋予地点对比（经纬度）0.4，地区相似性权重为0.3，处所相似性权重为0.3，具体权重随不同案件类别进行不同调整。则得到sim_dy = 0.4*sim_xy + 0.3*sim_dq + 0.3*sim_cs。

5、时域特征相似度建模，时域特征主要分为时间点相似性和时间段相似性，时间点相似性主要是描述两个案件的案发时间间隔对于案件串并的影响性大小（sim_time_point），主要定义如下：以一天24小时计，案发时间间隔小于等于1小时或者大于等于23小时，相似度为1；案发时间间隔大于1小时小于等于3小时，相似度为0.6；案发时间间隔大于3小时小于等于5小时，相似度为0.3；时间间隔大于5小时小于19小时，相似度为0。

另一方面，时间段相似性主要描述的是时间所属段位的相似性（sim_time_interval），如午夜，上半夜，下半夜等，首先需要按照时间点划分时间段，划分如表1所示。

表1

进一步地，各个时间段的相似度度量测算如表2所示。

表2

最后，根据经验，时间段的相似性不及时间点的相似性，分别给予经验权值0.3和0.7，权值可以根据具体的案件类型进行调整，从而总的时域相似度计算方法如下：

sim_time = sim_time_point*0.7 + sim_time_interval*0.3。

6、人物特征相似性建模

人物特征主要包括七个子维度（性别，脸型，发型，口音，年龄，身高，体型），因而人物特征的相似性由这7个自维度的相似性得到。具体计算方式如下：

性别(sex)：性别相同为1，性别不同为0。

脸型(face)：脸型相同为1，不同为0。

发型(hair)：发型相同为0.7，不同为0.2。

口音(accent)：口音相同为0.9，省内不同区域口音为0.8，其余为0.1。

年龄(age)：年龄之差大于等于0而小于等于5，年龄相似度为0.8；大于5而小于等于10，年龄相似度为0.6；大于10小于等于15，年龄相似度为0.3；其余为0。

身高(height)：身高之差小于等于5，则身高相似度为0.9；大于5而小于等于10，身高相似度0.6；大于10而小于等于15，身高相似度为0.3；否则为0。

体型(figure)：体型特征相似度如表3所示。

表3

人物特征总计算方法如下：

sim_person = (face + hair + accent +age + height + figure)/6 * sex

其中，只要性别不同，总相似度就为0。

二、综合相似性建模：

根据各个要素之间的相似性得分，然后根据情报研判经验给每个要素预先设定一个经验权值，最后将七大要素的相似度进行线性综合加权计算，最终得到案件与案件的相似性；然后根据案件综合相似性得分，进行由高到低排序，然后根据不同的研判经验，推荐排名靠前若干名的相似案件，如设定相似性得分阈值，或者排名靠前20%等。

实际情报研判分析中，上述七大主要案件要素对应的相似性占比会有所差异，而且在不同的案件类型中会呈现出不同的权重值，所以假定七大要素作案手段（sim_method）、作案工具（sim_tool）、涉案物品（sim_wp）、地域特征（sim_dy）、时域特征（sim_time）、人物特征（sim_person）、作案对象特征（sim_dx）在案件串并分析中分别占有的权重为w1，w2，w3，w4，w5，w6，w7，其中w1+w2+w3+w4+w5+w6+w7=1。从而得到基于此七大案件要素的案件总相似度如下：

sim_total = w1*sim_method + w2*sim_tool + w3*sim_wp + w4*sim_dy +w5*sim_time + w6*sim_person + w7*sim_dx。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于案件要素相似性建模的案件串并方法，其特征在于，包括要素相似性计算和综合相似性计算，具体为：

给每个要素预先设定一个经验权值，以计算案件之间的综合相似性；

根据综合相似性的大小来高低排序，进行有效相似案件推荐；

其中，所述案件的要素包括作案手段、作案工具、涉案物品、地域特征、时域特征、人物特征以及选择对象特征，且均基于相同的词向量模型；

所述作案手段的相似度建模的具体过程为：

S104、计算作案手段的相似性，具体为：

通过基础权重计算词向量上限值，记上限值为limit，基础权重为x，其中，limit 属于[0, 0.5]，使用的函数为limit=f(x) = 0.5 - 0.3 * x - 0.2 * (x^2)；

分别计算两个作案手段的词向量，并根据所得的两个作案手段的词向量计算余弦相似距离，记为d，返回两个作案手段的相似度sim_method =x + limit * d；

其中，所述涉案物品相似度建模的具体过程为：

2.根据权利要求1所述的一种基于案件要素相似性建模的案件串并方法，其特征在于，所述作案工具相似度建模的具体过程为：

3.根据权利要求1所述的一种基于案件要素相似性建模的案件串并方法，其特征在于，将地域特征分为地点经纬度、案发场所以及案发地区，所述地域特征相似度建模的具体过程为：

根据不同案件类别，赋予地点经纬度相似度对比权重为a1，案发地区相似度权重为b1，案发场所相似度权重为c1，则地域特征相似度为sim_dy = a1*sim_xy + b1*sim_dq + c1*sim_cs。

4.根据权利要求1所述的一种基于案件要素相似性建模的案件串并方法，其特征在于，所述时域特征相似度建模的过程包括时间点的相似度建模过程和时间段的相似度建模过程，具体为：

赋予时间点的相似度权重为a2，时间段的相似度权重为b2，则时域相似度为sim_time= sim_time_point*a2 + sim_time_interval*b2。

5.根据权利要求1所述的一种基于案件要素相似性建模的案件串并方法，其特征在于，所述人物特征相似度建模的具体过程为：

6.根据权利要求1所述的一种基于案件要素相似性建模的案件串并方法，其特征在于，所述选择对象特征相似度建模的具体过程为，将选择对象进行分类，在同一类里面，作案对象相似性为1，反之则为0。

7.根据权利要求1所述的一种基于案件要素相似性建模的案件串并方法，其特征在于：各要素的相似度的权重之和为1。