CN105404890B - 一种顾及轨迹时空语义的犯罪团伙判别方法 - Google Patents
一种顾及轨迹时空语义的犯罪团伙判别方法 Download PDFInfo
- Publication number
- CN105404890B CN105404890B CN201510669504.7A CN201510669504A CN105404890B CN 105404890 B CN105404890 B CN 105404890B CN 201510669504 A CN201510669504 A CN 201510669504A CN 105404890 B CN105404890 B CN 105404890B
- Authority
- CN
- China
- Prior art keywords
- personnel
- time
- space
- key
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004891 communication Methods 0.000 claims abstract description 37
- 238000009826 distribution Methods 0.000 claims description 76
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 13
- 238000012850 discrimination method Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000002035 prolonged effect Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000011840 criminal investigation Methods 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000011524 similarity measure Methods 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 3
- 238000003012 network analysis Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于刑侦与警务研判、警情数据挖掘、公共安全及犯罪地理学方法领域,尤其涉及一种顾及轨迹时空语义的犯罪团伙判别方法。主要包括以下步骤:(1)重点人员轨迹点聚类;(2)重点人员轨迹时空相似性计算;(3)重点人员通信时空频度计算;(4)重点人员关联网络建模;(5)基于社交网群落发现方法的犯罪团伙识别。本发明的有益效果是完善了犯罪团伙关系的判断指标体系,不易造成犯罪团伙关系的误判和漏判,可同时判断出属于多个犯罪团伙的成员,并且能用以识别非犯罪团伙成员,提高了对犯罪团伙识别的准确率。
Description
技术领域
本发明属于刑侦与警务研判、警情数据挖掘、公共安全、犯罪地理学技术领域,尤其涉及一种顾及轨迹时空语义的犯罪团伙判别方法。
背景技术
当前城市内有组织团伙化犯罪的倾向突出,从各地破获的“两抢一盗”案件看,凡大案、要案和系列案件多为犯罪团伙所为。犯罪组织存在时间越长,结构越严密,组织成员越多,实施的犯罪行为也越多,危害性也越大,打击的难度也就越大。因此,提早、快速、准确辨识犯罪团伙成员,挖掘出潜在的犯罪团伙,对犯罪团伙打击效果的提高具有重要价值。然而,通过公安的审讯和共犯情况往往难以发现那些隐藏幕后或未被抓捕到的其他犯罪同伙。
当前,随着传感器技术、全球定位技术的飞速发展和各类社会数据的大规模涌现,如公安的户政数据、银行的账户转账数据、电信运营商的通讯数据、社交网络数据、卡口数据、视频监控数据、GPS数据等,为犯罪团伙判断和潜在团伙成员的挖掘迎来重要的技术契机。但是,仅依靠人工分析海量多源异构的社会数据以识别犯罪团伙是不可能的,迫切需要有高效智能化的大数据分析手段来识别犯罪团伙。
目前,对犯罪成员关系及其关系亲密度侦测的主要技术方法分为两类,利用同时被捕或在同一地区实施犯罪的犯罪人员形成的网络进行识别;利用人员之间的通信或交易形成的网络来进行识别。如基于社交信息和成员位置驻留信息构建犯罪分子间的相似性网络,在该网络上通过谱聚类识别犯罪团伙;利用一段时间内同时被捕的成员或在同一区域实施相同犯罪人员构建网络,利用k-core算法对多个犯罪团伙进行识别。
从已有中国发明专利方面看,目前还未见涉及犯罪团伙成员和犯罪团伙辨识的专利。经过检索,仅有以下专利与本方案有一定的关联性,中国专利号:CN104408149A,专利名称:基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统,摘要:本发明涉及一种基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统,其特征在于包括:对用户输入数据进行预处理,从输入数据提取关键信息;构建社交网络图模型;设置参数;运行社团发现算法;输出发现的结果,列出犯罪嫌疑人员,本发明与现有技术相比,具有以下有益效果:能够从给定的犯罪嫌疑人社交圈内发现潜在的关联犯罪嫌疑人,方法性能好,系统运行快,同时考虑了真实场景的需求,在用户指定的范围进行分析,具有良好的扩展性。该专利力图通过社交网络中人员之间的交流模式进行犯罪嫌疑人的查找,但不是对犯罪团伙或其成员的查找。
目前来看,已有方法还存在如下不足:
1)没有考虑特定时间、事件、位置等关键时空节点,直接采用联络/交易频繁度或网络集聚性等指标来标识人员间的犯罪团伙关系还不够周全,因为仅仅亲戚好友的关系往往也能让通信/交易网络中的相关人员形成集聚状态。
2)以犯罪位置共现为基础的犯罪团伙识别研究没有考虑未留案底人员属于犯罪团伙的可能性。
3)人员之间的联系类型多样,已有研究未考虑不同人员关联类型对犯罪团伙成员关系识别的重要程度,从而容易造成犯罪团伙成员关系的误判和漏判。
4)已有研究仅能判断某成员属于单个犯罪团伙,无法判断从属若干犯罪团伙的成员,或从相关人员网络中发现若干不属于犯罪团伙的组织而加以剔除。
从数据来源看,随着技术的进步,目前除了有案底人员,还有大量其他可疑人员现在也列入了警务跟踪对象范围,他们每天的社会移动数据和社会生活数据形成了大量的人员轨迹数据,如何对这些轨迹数据进行挖掘从而提高犯罪团伙识别的准确率与覆盖率是当面面临的重要挑战之一。就目前来看,利用轨迹数据进行团伙成员判别的技术或研究还未见报道。
发明内容
本发明的发明目的在于针对现有技术中存在的(1)标识人员间的犯罪团伙关系指标不周全、(2)没有考虑未留案底人员属于犯罪团伙的可能性、(3)易造成犯罪团伙成员关系的误判和漏判、(4)无法判断从属若干犯罪团伙的成员的问题,提供一种顾及轨迹时空语义的犯罪团伙判别方法。
为了实现上述目的,本发明采用的技术方案如下:
一种顾及轨迹时空语义的犯罪团伙判别方法,包括以下步骤:
(1)重点人员轨迹点聚类:基于重点人员轨迹数据进行区域地理环境和空间邻近性的轨迹点聚类,即首先将空间划分多个聚类簇,每个聚类簇代表重点人员达到的局部区域;所述的区域地理环境和空间邻近性的轨迹点聚类ωij表示为:
基于所述ωij,采用DBSCAN密度聚类方法,即可得到各聚类簇;其中,li、lj为轨迹点i和j,ρij表示li和lj之间的时空语义差异,d(li,lj)为li和lj的空间距离,δ为阈值;
(2)重点人员轨迹时空相似性计算:包括两重点人员的聚类簇正、反向物理时空节点访问频度及两重点人员的POI语义时空分布差异计算;
(3)重点人员通信时空频度计算:包括两重点人员在时段t内的通信总次数和特定时空节点的通信频度计算,所述两重点人员特定时空节点的通信频度计算公式为:
其中,R为特定时空节点集合,hr,u,v为重点人员u和v在r时空节点通讯的时长;
(4)重点人员关联网络建模:通过表达重点人员之间的关联强度Wu,v,进而对重点人员关联强度Wu,v进行归一化构建重点人员关联网络,所述的Wu,v为:
α1+α2+α3=1
其中,α1、α2、α3为权重系数;σ1、σ2为高斯核函数的带宽;cu,v为两重点人员u和v间在时段t内的通信总次数;au,v表示两重点人员在正向物理时空节点数或其附近汇合的频度;bu,v表示两重点人员在反向物理时空节点或其附近汇合的频度;du,v为两重点人员特定时空节点的通信频度;ΔPu,v表示重点人员u和v的POI语义时空分布差异,ΔQu,v表示重点人员u和v的时空分布差异,ΔQ'u,v为重点人员u和v的物理时空分布差异;
(5)基于社交网群落发现方法的犯罪团伙识别:通过对重点人员关联网络进行数学建模,进而解算出模型中各人员隶属的犯罪团伙概率,从而判别其所属犯罪团伙。
进一步地,上述步骤(1)所述轨迹点li和lj的时空语义差异ρij的表达式为:
ρij=cosin(θi,θj)
其中,θi和θj分别为锚点i和j所在区域的潜在犯罪特征,当两锚点所处社区的潜在犯罪特征相同,ρij为0,反之,ρij趋向于1,从而描述了两区域的潜在犯罪特征相似性。
进一步地,上述步骤(4)所述两重点人员在正向物理时空节点访问频度au,v为:
其中,P表示正向和反向时空节点集合,u和v表示两重点人员,I[hp,u,hp,v]为两重点人员在p时空节点或其邻近处共现的次数,hp,u为用户u在位置p出现的次数,hp,v为用户v在位置p出现的次数。
进一步地,所述步骤(2)或(4)重点人员u和v的POI语义时空分布差异ΔPu,v表示为:
其中,T表示各语义时段集合,pt,u和pt,v分别代表重点人员u和v在时段t时对各类POI的访问强度分布。
进一步地,所述步骤(4)重点人员u和v的时空分布差异ΔQu,v表示为:
其中,qu和qv分别为重点人员u和v在时空分布,qt,u和qt,v分别代表重点人员u和v在语义时间t对聚类簇的访问强度分布。
进一步地,所述步骤(4)重点人员u和v的物理时空分布差异ΔQ'u,v表示为:
其中,q′u和q′v分别为重点人员u和v的物理时空分布模式,q′t,u和q′t,v分别代表重点人员u和v在物理时段t对聚类簇的访问强度分布。
进一步地,基于概率图生成模型,对上述步骤(5)所述重点人员关联网络的生成进行数学建模,进而解算出模型中各人员隶属的犯罪团伙概率;其概率图生成模型的描述如下:
(1)对网络中的每个节点/个体:从先验概率Dirichlet(α)中采样得到某团伙θi:θi~Dirichlet(α);
(2)对每个节点i和j(其中i<j):
a)抽样得到j属于i所在团伙的概率:zi→j~θi;
b)抽样得到i属于j所在团伙的概率:zi←j~θj;
c)从正态分布中采样得到链接权重:δi,j~N(0,σ2);
d)抽样得到i和j之间存在链接的概率;
其中,α为Dirichlet分布的先验参数,θi为多项式分布参数,θj为多项式分布的参数,δi,j为个体i和j之间的链接权重,σ为正态分布的标准差,yij为个体i和j属于同一团伙的概率。
综上所述,本发明首先利用重点人员轨迹数据计算他们之间的时空分布相似性,再利用他们的通信频度获取他们的联系紧密度,进而利用时空分布相似性和联系紧密度这两个指标标识重点人员关联网络中相互之间的链接权重,最后基于社交网络中的社区发现方法,获取不同的犯罪团伙,并提高团伙成员判别的覆盖率和准确率。本发明相对现有技术的有益效果是:
1、利用重点人员社会移动轨迹数据及其所蕴含的时空语义信息进行犯罪团伙识别,尤其是考虑特定时间、事件、位置等关键时空节点,对这些时空节点加以区分,不易造成犯罪团伙关系的误判和漏判,同时,亦使标识人员间的犯罪团伙关系的指标更周全。
2、通过连续语义时间内重点人员在不同聚类簇停留的次数来计算重点人员相似性。该方法较直接采用物理时间和空间坐标进行轨迹序列比较,避免了如LUCC等方法求解两条序列间最近锚点的迭代计算,同时,能依据重点人员在不同语义时间在不同潜在犯罪特征区位上的统计特性,从社会环境角度刻画重点人员间的关联。
3、利用重点人员社会移动轨迹数据分析所得到的时空共现模式,结合重点人员之间的通讯和社交数据,将重点人员到达相近位置看做一种交流或犯罪共谋概率,他们在越近的位置出现,出现的时间间隔越小,则他们的驻留模式越相似,则也预示着他们的交流可能性越大,犯罪目标或行为意图越相似。同理,从时空语义上看,他们所在的位置类型(如网吧、酒吧、居民区)越相似,在这些位置出现的时间类型(如节假日、凌晨等)越相似,他们的犯罪意图越相似,他们成为犯罪团伙的可能性就越高。从而改进重点人员关联网络中的人员之间链接权重,进而判断相关人员为同一犯罪团伙的概率。
4、对具有重叠成员的多个犯罪团伙的发现。在重点人员关联的网络中,个体可能属于多个团伙,因而在数学建模时,将团伙作为潜在主题,个体及个体间的链接作为某潜在主题下的样本数据分布,则该网络总的生成过程为多个潜在主题下每个潜在主题所对应样本的采样生成。进而通过模型可发现具有重叠成员的多个犯罪团伙。
5、基于对非犯罪团伙组织的判断,进而提高对犯罪团伙识别的准确率。重点人员在犯罪团伙关系的指示作用偏弱的时空节点频繁近距离共现,也并不意味着他们成为犯罪团伙的概率很大。故而通过反向时空节点或其附近汇合的频度计算,筛选出此特殊节点,进而提高对犯罪团伙识别的准确率。
附图说明
图1为总体技术流程。
图2为两重点人员进行路网匹配后的社会移动轨迹。
图3为全局重点人员轨迹点聚类。
图4为图3方框内所示的重点人员的局部轨迹点聚类。
图5为仅基于通讯次数构建的重点人员关联网络图。其中7个虚线圈代表该网络的聚类结果,即表达了模型所计算出来的7个犯罪团伙及其所属的成员。
图6为剔除非聚类成员后的重点人员关联网络图。其中节点大小代表该重点人员与其他人员的关联强度和链接数量。单独文字标识出的节点为现实世界中该重点人员的类型。
具体实施方式
本方案具体涉及以下步骤:
1.重点人员轨迹点聚类
顾及区域环境的轨迹点空间聚类。基于区域类型和空间距离进轨迹点密度聚类,即在聚类邻近度计算过程中考虑了轨迹点所在区域的社会经济环境、犯罪水平和地理环境因素。聚类的目的是利用聚类后的区块(称为聚类簇)表达轨迹途径的范围,以在后期表达重点人员的时空分布模式并为其相似度比较提供多尺度的比较手段。
2.重点人员轨迹时空相似性计算
(1)语义时间划分。依据社会生活规律,将对应不同行为类型的时段称为语义时间,通过与重点人员的驻留位置相结合,反映其行为时空分布模式。分为两类语义时间,一类以一天内的时段划分:上午(7—12点),中午(12—14点),下午(14—18点),晚上(18点—24点),凌晨(24点—7点)等;另一类是以双休、工作日、春节、国庆划分。
(2)物理时空访问模式相似性计算。利用重点人员在连续物理时间(以一天内的小时为单位)内访问各个聚类簇的频率构建多项式分布,作为其物理时空分布模式,以反映重点人员的作息规律和行为类型序列,刻画重点人员社会习性。之后,计算重点人员的物理时空分布模式差异,即通过连续语义时间内重点人员在不同聚类簇停留的概率来计算物理时空分布模式的相似性。该相似性将作为后期重点人员关联网络中表达链接权重的指标之一。
(3)语义时段下物理位置的时空访问模式相似性计算。利用重点人员在各语义时间内访问各个聚类簇的频率构建多项式分布,以刻画重点人员社会习性。之后,计算重点人员的物理时空分布模式相似性。该相似性将作为后期重点人员关联网络中表达链接权重的指标之一。
(4)基于POI分布表达轨迹点的空间语义信息。利用各聚类簇内的POI类语义位置(POI类型)和语义时间下的空间访问模式相似性计算。利用重点人员在各语义时间内所在聚类簇的POI类型分布构建多项式分布,作为其物理时空分布模式。之后,计算重点人员的语义时空分布模式相似性。该相似性将作为后期重点人员关联网络中表达链接权重的指标之一。
(5)对特定时空节点访问模式的邻近性计算。特定时空节点,如凌晨、历史犯罪位置、网吧、旅店等(称为正向特殊时空节点),对重点人员间的犯罪团伙关系具有重要指示作用;反之,在某些时空节点的频繁近距离共现,如中午、出租屋、商场等(称为反向特殊时空节点),并不能准确刻画重点人员间的犯罪团伙关系,如果不对这些时空节点加以区分,很容易造成犯罪团伙关系的误判。因此,本方案将计算得到两两重点人员间在一段时间内到达同一正向特殊时空节点的频度、在特殊时空节点或其邻近处共现的频度,以此作为后期重点人员关联网络中表达链接权重的指标之一。
3.重点人员通信时空频度计算
(1)通信总频度计算。两两重点人员间一段时间内的通信(通话、短信)总次数,表达两者间的普通熟悉程度,以此作为后期重点人员关联网络中表达链接权重的指标之一。这一过程是已有研究中涉及过的。
(2)特定时空节点的通信频度计算。在特定时空节点进行通信,如凌晨、假期、历史犯罪位置附近(正向时空节点),对重点人员间的犯罪团伙关系具有重要指示作用;反之,在某些时空节点频繁联络,如上午、下午、商场等联络,并不能很好表达重点人员间的犯罪团伙关系。因此,本方案将计算得到两两重点人员间在正向特殊时空节点的通信频度,以此作为后期重点人员关联网络中表达链接权重的指标之一。
4.重点人员关联网络建模
对以上步骤得到的指标进行加权求和,用以表达重点人员之间的关联强度,进而基于该关联强度构建重点人员关联网络。
5.基于社交网群落发现方法的犯罪团伙识别
基于关联类型和关联强度,通过社交网络中的重叠性社区发现方法,获得重点人员之间的犯罪团伙关系。
以下将结合附图和具体实施例,对本发明提供的技术方案进行说明。
实施例1
步骤1:重点人员轨迹点聚类
基于重点人员轨迹数据进行带有空间语义的锚点聚类,将空间划分多个聚类簇,采用聚类簇代表重点人员锚点。通过比较不同语义时间内两重点人员在不同聚类簇的停留情况,来计算重点人员反映在时空语义上的相似性。
基于区域环境和空间距离进行锚点密度聚类,在聚类邻近度中同时考虑了社会经济环境、犯罪水平和地理空间因素。以下将轨迹点称为锚地。
设锚点li,lj∈S,S为锚点集合,基于余弦公式,表示锚点li和lj的空间语义差异:
ρij=cosin(θi,θj)
其中,θi为锚点i所在区域的潜在犯罪特征。当两锚点所处社区的潜在犯罪特征相同,ρij为0,反之,ρij趋向于1,从而描述了两区域的潜在犯罪特征相似性。
区域的潜在犯罪特征θi由区域内的各POI类型的数量分布以及社会经济环境属性表示。区域的潜在犯罪特征θ可由向量表示:
其中,表示各项指标的具体数值。
定义两锚点的距离量度公式ωij:
其中,d(li,lj)为li和lj的空间距离。如果两锚点间的空间距离超过δ,则他们的距离无穷大,由此控制每个聚类簇的区域类型要尽可能相似,相邻距离要尽可能接近。基于ωij,采用DBSCAN密度聚类方法,即可得到聚类结果。每个聚类簇代表了具有社会经济环境相似的位置集合,表达了重点人员某类行为空间分布状况。其中附图2为两重点人员进行路网匹配后的社会移动轨迹,图3为全局重点人员轨迹锚点聚类,图4为局部轨迹锚点聚类。其中,图3、图4中每个多边形分别为一个聚类簇,多边形外的锚点单独为一个聚类簇。
步骤2:重点人员间的轨迹时空相似性计算
(1)语义时间划分
依据社会作息规律,将一天划分为四个语义时间,分别是早上7点-12点(上午),13点-18点(下午),19点-0点(晚上),1-6点(半夜)。同时,依据社会习俗,将时间划分为节假日、双休、工作日三个语义时间。
(2)语义时段下的聚类簇访问时空分布相似性
设在语义时间t重点人员u对聚类簇s的访问强度为:
其中,ct,u,s为重点人员u是语义时间t访问聚类簇s的频率,bu,t为t语义时间重点人员u访问所有锚点的总次数,bt,u,s为重点人员u在语义时间t访问s的次数,表示在时段t访问过s的重点人员数量。
设qt,u代表重点人员u在语义时间t对聚类簇s(s∈S)的多项式访问强度分布:
qt,u~Muti(qt,u,1,qt,u,2,...,qt,u,|S|)
利用KL距离表达两重点人员u和v在语义时间t的位置分布差异:
但是,KL散度不具有对称性,即从分布qt,u到qt,v的KL距离通常并不等于从qt,v到qt,u的KL距离。此外,用户不可能在某一语义时间内到达过所有的聚类簇,因此qt,u分布中大量参数为0,从而造成KL距离无穷大,或变为0,产生错误的相似度结果。为此,我们对每个语义时间t内聚类簇s的到达概率统一加入极小的背景值τ,并利用KL距离的对称平滑版本——Jensen-Shannon距离表达重点人员u和v在语义时间t内的KL修正距离:
又重点人员u在所有语义时间的访问强度分布集合代表了其社会时空分布模式:
qu=<q1,u,q2,u,...,q|T|,u>
因此,重点人员u和v的时空分布差异表示为:
(3)物理时空访问模式相似性
设在一天内每个小时t重点人员u对聚类簇s的访问强度为:
其中,c′t,u,s为重点人员u是时间t访问聚类簇s的频率,b′u,t为t时间重点人员u访问所有锚点的总次数,b′t,u,s为重点人员u在语义时间t访问s的次数,表示在时间t访问过s的重点人员数量。
重点人员u和v的物理时空分布模式差异表示为:
(4)语义位置(POI类型)和语义时间下的空间访问模式相似性计算
类似上一小节对聚类簇的时态分布比较,设在语义时间t重点人员u对类型为w的POI的访问强度为:
其中,ct,u,w为重点人员u是语义时间t访问POI类型为w的频率,bu,t为语义时间t内重点人员u访问所有锚点的总次数,bt,u,w为重点人员u在语义时间t访问w的次数,表示在时段t访问过w的重点人员数量。
设pt,u代表重点人员u在时段t时对各类POI的多项式访问强度分布:
pt,u~Muti(pt,u,1,pt,u,2,...,pt,u,|V|)
利用Jensen-Shannon距离表达重点人员u和v在语义时间t内的差别:
又重点人员u在所有语义时间的访问强度分布集合:
pu=<p1,u,p2,u,...,p|T|,u>
因此,令T表示各语义时段集合,重点人员u和v的POI时空分布差异表示为:
(5)对特定时空节点访问模式的邻近性计算
给出对重点人员间的犯罪团伙关系具有重要指示作用的特定时空节点:
以上节点称为正向时空节点。重点人员在这些时空节点的近距离共现,往往意味着他们成为犯罪团伙的概率很大。
对重点人员间的犯罪团伙关系的指示作用偏弱的时空节点为:
时间节点 | 中午 | 上午 |
位置节点 | 出租屋 | 高档商场 |
重点人员在这些时空节点的频繁近距离共现,也并不意味着他们成为犯罪团伙的概率很大。
计算两两重点人员在正向时空节点或其附近汇合的频度au,v:
其中,P表示特殊时空节点集合,u和v表示两重点人员,I[hp,u,hp,v]为两重点人员在p时空节点或其邻近处共现的次数。
同理,得到两两重点人员在反向时空节点或其附近汇合的频度bu,v。
最后,对au,v、bu,v归一化。
值得注意的是,这些特殊时空节点的筛选是依据犯罪类型和警务专家决策获取的,在涉及其他犯罪类型和地域时,可做调整,本方案给出的是一种思路及其实现的技术手段。
步骤3:重点人员通信时空频度计算
(1)通信总频度计算
两两重点人员间一段时间内的通信(通话、短信)总次数cu,v,表达两者间的普通熟悉程度。
(2)特定时空节点的通信频度计算
给出特定时空节点:
时间节点 | 两者的历史犯罪时段 | |
位置节点 | 两者的历史犯罪位置 | 两者的住址 |
在以上进行时空节点相互通信,对重点人员间的犯罪团伙关系具有重要指示作用,其公式为:
其中,R为特定时空节点集合,hr,u,v为重点人员u和v在r时空节点通讯的时长。图5为仅基于通讯次数构建的重点人员关联网络图,其中虚线圈代表该网络的聚类结果(共7个),即表达了模型所计算出来的7个犯罪团伙及其所属的成员。
步骤4:重点人员关联网络建模
对以上步骤得到的指标进行加权求和,用以表达重点人员之间的关联强度,进而基于该关联强度构建重点人员关联网络。
对ΔPu,v和ΔQu,v归一化,重点人员差异量度的总公式为:
α1+α2+α3=1
其中,α为权重系数,以控制通信频度、语义时空分布模式、物理时空分布模式对重点人员关联强度产生的影响;σ为高斯核函数的带宽,控制着以上指标差异对权重的影响大小。就此,对Wu,v进行归一化,将其作为重点人员u和v之间的链接权重(值在0—1之间分布),即可构建重点人员关联网络。
步骤5:基于社交网群落发现方法的犯罪团伙识别。
本方案基于概率图模型中的生成模型,对重点人员关联网络的生成进行数学建模,进而解算出模型中各人员隶属的犯罪团伙概率。
在该网络中,个体可能属于多个团伙。因此,我们将团伙作为潜在主题,个体及个体间的链接作为某潜在主题下的样本数据分布,则该网络总的生成过程为多个潜在主题下每个潜在主题所对应样本的采样生成。模型从“个体对”<i,j>出发,从θi主题(个体i所属团伙)中抽取zi→j表示个体i所在团伙为个体j所在团伙的概率,同理zi←j。如果zi→j=zi←j,则i和j个体属于同一团伙。由此,模型需要计算出zi→j和zi←j的边缘概率,以得到特定团伙下θi,i和j的链接概率。
以βk表示i和j同为团伙k时两者之间存在链接的概率。当然i和j所属的团伙不相同时,βk为一个接近0的很小的数值。表达该关系的概率公式为:
该公式表达了个体i和个体j率属于若干相同团伙时具有链接的概率值。然而,人员关联网络中节点间的链接是有权重大小的,从生成模型的角度看,两个体属于相同团伙的概率越大,则他们之间的链接权重也就越大。因此,我们需要引入一个参数,表达同一群体的个体倾向于具有高权重的链接,修改以上公式得:
其中,δij为个体i和j之间的链接权重。
下面给出整个网络生成的概率过程:
(1)对网络中的每个节点/个体:从先验概率Dirichlet(α)中采样得到某团伙θi:θi~Dirichlet(α);
(2)对每个“节点对”i和j(其中i<j):
a)抽样得到j属于i所在团伙的概率:zi→j~θi;
b)抽样得到i属于j所在团伙的概率:zi←j~θj;
c)从正态分布中采样得到链接权重:δi,j~N(0,σ2);
d)抽样得到i和j之间存在链接的概率:
p(yij|zi→j,zi←j,δ)=logit-1(p(yij=1|θi,θj,δ))。
其中,α为Dirichlet分布的先验参数,θi为多项式分布参数,θj为多项式分布的参数,δi,j为个体i和j之间的链接权重,σ为正态分布的标准差,yij为个体i和j属于同一团伙的概率。以上模型定义一个具有n个节点且潜在社区具有覆盖的网络联合概率生成模型,属于在潜在社区条件下的贝叶斯后验概率模型。这个模型中各参数的解算在数据量不大的情况下采用Markov chain Monte Carlo方法或Variational inference方法即可,在数据量很大的情况下采用Poisson community模型,具体解算过程已有相关文献和技术文档给出,这里不再列出。
最终,通过在模型中输入潜在主题(团伙)个数、先验参数α以及个节点间的链接数据,即可解算出各重点人员/个体属于任意一个团伙的概率。将概率超过一定阈值的人员归属于该团伙,即可得到每个团伙的成员,实现了犯罪团伙的识别。图6为剔除非聚类成员后的重点人员关联网络图,其中节点大小代表该重点人员与其他人员的关联强度和链接数量单,独文字标识出的节点为现实世界中该重点人员的类型。
Claims (7)
1.一种顾及轨迹时空语义的犯罪团伙判别方法,其特征在于,包括以下步骤:
(1)重点人员轨迹点聚类:基于重点人员轨迹数据进行区域地理环境和空间邻近性的轨迹点聚类,即首先将空间划分多个聚类簇,每个聚类簇代表重点人员达到的局部区域;所述的区域地理环境和空间邻近性的轨迹点聚类ωij表示为:
基于所述ωij,采用DBSCAN密度聚类方法,即可得到各聚类簇;其中,li、lj为轨迹点i和j,ρij表示li和lj之间的时空语义差异,d(li,lj)为li和lj的空间距离,δ为阈值;
(2)重点人员轨迹时空相似性计算:包括两重点人员的聚类簇正、反向物理时空节点访问频度及两重点人员的POI语义时空分布差异计算;
(3)重点人员通信时空频度计算:包括两重点人员在时段t内的通信总次数和特定时空节点的通信频度计算,所述两重点人员特定时空节点的通信频度计算公式为:
其中,R为特定时空节点集合,hr,u,v为重点人员u和v在r时空节点通讯的时长;
(4)重点人员关联网络建模:通过表达重点人员之间的关联强度Wu,v,进而对重点人员关联强度Wu,v进行归一化构建重点人员关联网络,所述的Wu,v为:
α1+α2+α3=1
其中,α1、α2、α3为权重系数;σ1、σ2为高斯核函数的带宽;cu,v为两重点人员u和v间在时段t内的通信总次数;au,v表示两重点人员在正向物理时空节点或其附近汇合的频度;bu,v表示两重点人员在反向物理时空节点或其附近汇合的频度;du,v为两重点人员特定时空节点的通信频度;ΔPu,v表示重点人员u和v的POI语义时空分布差异,ΔQu,v表示重点人员u和v的时空分布差异,ΔQu',v为重点人员u和v的物理时空分布差异;
(5)基于社交网群落发现方法的犯罪团伙识别:通过对重点人员关联网络进行数学建模,进而解算出模型中各人员隶属的犯罪团伙概率,从而判别其所属犯罪团伙。
2.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法,其特征在于:上述步骤(1)所述轨迹点li和lj的时空语义差异ρij的表达式为:
ρij=cosin(θi,θj)
其中,θi和θj分别为锚点i和j所在区域的潜在犯罪特征,当两锚点所处社区的潜在犯罪特征相同,ρij为0,反之,ρij趋向于1,从而描述了两区域的潜在犯罪特征相似性。
3.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法,其特征在于:上述步骤(4)所述两重点人员在正向物理时空节点访问频度au,v为:
其中,P表示正向和反向时空节点集合,u和v表示两重点人员,I[hp,u,hp,v]为两重点人员在p时空节点或其邻近处共现的次数,hp,u为用户u在位置p出现的次数,hp,v为用户v在位置p出现的次数。
4.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法,其特征在于:所述步骤(2)或(4)重点人员u和v的POI语义时空分布差异ΔPu,v表示为:
其中,T表示各语义时段集合,pt,u和pt,v分别代表重点人员u和v在时段t时对各类POI的访问强度分布。
5.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法,其特征在于:所述步骤(4)重点人员u和v的时空分布差异ΔQu,v表示为:
其中,qu和qv分别为重点人员u和v在时空分布模式,qt,u和qt,v分别代表重点人员u和v在语义时间t对聚类簇的访问强度分布。
6.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法,其特征在于:所述步骤(4)重点人员u和v的物理时空分布差异ΔQ′u,v表示为:
其中,q′u和′v分别为重点人员u和v的物理时空分布,q′t,u和q′t,v分别代表重点人员u和v在物理时段t对聚类簇的访问强度分布。
7.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法,其特征在于:基于概率图生成模型,对上述步骤(5)所述重点人员关联网络的生成进行数学建模,进而解算出模型中各人员隶属的犯罪团伙概率;其概率图生成模型的描述如下:
(1).对网络中的每个节点/个体:从先验概率Dirichlet(α)中采样得到某团伙θi:θi~Dirichlet(α);
(2).对每个节点i和j,其中i<j:
a)抽样得到j属于i所在团伙的概率:zi→j~θi;
b)抽样得到i属于j所在团伙的概率:zi←j~θj;
c)从正态分布中采样得到链接权重:δi,j~N(0,σ2);
d)抽样得到i和j之间存在链接的概率;
其中,α为Dirichlet分布的先验参数,θi为多项式分布参数,θj为多项式分布的参数,δi,j为个体i和j之间的链接权重,σ为正态分布的标准差,yij为个体i和j属于同一团伙的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510669504.7A CN105404890B (zh) | 2015-10-13 | 2015-10-13 | 一种顾及轨迹时空语义的犯罪团伙判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510669504.7A CN105404890B (zh) | 2015-10-13 | 2015-10-13 | 一种顾及轨迹时空语义的犯罪团伙判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105404890A CN105404890A (zh) | 2016-03-16 |
CN105404890B true CN105404890B (zh) | 2018-10-16 |
Family
ID=55470365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510669504.7A Expired - Fee Related CN105404890B (zh) | 2015-10-13 | 2015-10-13 | 一种顾及轨迹时空语义的犯罪团伙判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105404890B (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296537B (zh) * | 2016-08-04 | 2019-11-19 | 武汉数为科技有限公司 | 一种公安情报行业中的群体发现方法 |
WO2018122585A1 (zh) * | 2016-12-30 | 2018-07-05 | 同济大学 | 一种基于浮动车数据的城市道路交通异常检测方法 |
CN106846228A (zh) * | 2017-02-13 | 2017-06-13 | 浪潮通信信息系统有限公司 | 一种基于位置信息及社交关系的公共安全预警方法及系统 |
CN107145897B (zh) * | 2017-03-14 | 2020-01-07 | 中国科学院计算技术研究所 | 一种基于通信时空特征的演变网络特殊群体挖掘方法及系统 |
CN107133646B (zh) * | 2017-05-03 | 2019-09-17 | 山东合天智汇信息技术有限公司 | 一种通过人员行为轨迹识别重点人员的方法及系统 |
CN107180015B (zh) * | 2017-05-16 | 2018-04-20 | 安徽工业大学 | 一种系列犯罪案件地理目标预测方法 |
CN107358158B (zh) * | 2017-06-07 | 2020-04-03 | 浙江大华技术股份有限公司 | 一种团伙作案预警方法及装置 |
CN109144984A (zh) * | 2017-06-27 | 2019-01-04 | 中兴通讯股份有限公司 | 犯罪群体识别方法、设备及存储介质 |
CN107515949B (zh) * | 2017-09-14 | 2021-01-15 | 云南大学 | 兴趣点预测和推荐中的用户时空相似性度量方法 |
CN107633067B (zh) * | 2017-09-21 | 2020-03-27 | 北京工业大学 | 一种基于人员行为规律和数据挖掘方法的群体识别方法 |
CN108009690B (zh) * | 2017-12-22 | 2022-01-14 | 北京工业大学 | 一种基于模块度最优化的地面公交扒窃团体自动检测方法 |
CN110020223B (zh) * | 2017-12-26 | 2021-04-20 | 浙江宇视科技有限公司 | 行为数据分析方法及装置 |
CN108769923B (zh) * | 2018-04-12 | 2021-02-05 | 合肥指南针电子科技有限责任公司 | 一种监所重点区域分析报警系统 |
CN108769922B (zh) * | 2018-04-12 | 2021-02-05 | 合肥指南针电子科技有限责任公司 | 一种监所内重点区域的智能化分析调控系统 |
CN108520471B (zh) * | 2018-04-27 | 2021-06-18 | 广州杰赛科技股份有限公司 | 重叠社区发现方法、装置、设备及存储介质 |
CN108874911B (zh) * | 2018-05-28 | 2019-06-04 | 广西师范学院 | 基于区域环境与犯罪事件数据的疑犯位置预测方法 |
CN108805142A (zh) * | 2018-05-31 | 2018-11-13 | 中国华戎科技集团有限公司 | 一种犯罪高危人员研判方法及系统 |
CN108897777B (zh) * | 2018-06-01 | 2022-06-17 | 深圳市商汤科技有限公司 | 目标对象追踪方法及装置、电子设备和存储介质 |
CN109165245B (zh) * | 2018-09-19 | 2020-06-26 | 北京航空航天大学 | 多源数据融合的移动轨迹生成模型的时空模式挖掘方法 |
CN110929141B (zh) * | 2018-09-20 | 2022-11-01 | 百度在线网络技术(北京)有限公司 | 团伙挖掘方法、装置、设备及存储介质 |
CN109710712B (zh) * | 2018-12-17 | 2020-11-03 | 中国人民公安大学 | 一种基于案件要素分析的犯罪热点特征挖掘方法及系统 |
CN110557722B (zh) * | 2019-07-30 | 2020-12-29 | 深圳市天彦通信股份有限公司 | 目标团伙的识别方法及相关装置 |
CN110634093A (zh) * | 2019-09-26 | 2019-12-31 | 四川科瑞软件有限责任公司 | 针对涉毒人员的出行分析方法 |
CN110766091B (zh) * | 2019-10-31 | 2024-02-27 | 上海观安信息技术股份有限公司 | 一种套路贷团伙的识别方法及系统 |
CN110825785A (zh) * | 2019-11-05 | 2020-02-21 | 佳都新太科技股份有限公司 | 一种数据挖掘方法、装置、电子设备及存储介质 |
CN111090681B (zh) * | 2019-11-12 | 2023-08-15 | 高新兴科技集团股份有限公司 | 一种团伙挖掘方法、装置、设备及存储介质 |
CN110856115B (zh) * | 2019-11-28 | 2021-02-12 | 北京明略软件系统有限公司 | 一种诈骗组织犯案区域的识别方法、识别装置及电子设备 |
CN111310780A (zh) * | 2019-12-18 | 2020-06-19 | 北京明略软件系统有限公司 | 警务业务处理方法和装置 |
CN110956165B (zh) * | 2020-02-25 | 2020-07-21 | 恒大智慧科技有限公司 | 智慧社区未栓绳宠物预警方法及系统 |
CN111950937B (zh) * | 2020-09-01 | 2023-12-01 | 上海海事大学 | 一种基于融合时空轨迹的重点人员风险评估方法 |
CN112115213A (zh) * | 2020-09-29 | 2020-12-22 | 北京师范大学 | 基于在押人员关系网络指导循证矫治工作的方法 |
CN112528749B (zh) * | 2020-11-16 | 2024-09-13 | 浙江大华系统工程有限公司 | 一种聚赌地点确定方法、装置、设备和介质 |
CN112989592A (zh) * | 2021-03-09 | 2021-06-18 | 西北工业大学 | 一种基于动态犯罪网络的事件场景建模方法 |
CN112950357B (zh) * | 2021-03-22 | 2024-03-15 | 工银科技有限公司 | 交易异常团伙识别方法及装置 |
CN114529747A (zh) * | 2022-03-09 | 2022-05-24 | 平安科技(深圳)有限公司 | 保单检测方法、保单检测装置、电子设备及存储介质 |
CN116030417B (zh) * | 2023-02-13 | 2023-08-04 | 四川弘和数智集团有限公司 | 一种员工识别方法、装置、设备、介质及产品 |
CN115840857B (zh) * | 2023-02-22 | 2023-05-09 | 昆明理工大学 | 一种联合多元时空轨迹的群体行为模式挖掘方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880719A (zh) * | 2012-10-16 | 2013-01-16 | 四川大学 | 基于位置社交网络的用户轨迹相似性挖掘方法 |
CN102982110A (zh) * | 2012-11-08 | 2013-03-20 | 中国科学院自动化研究所 | 在物理空间上提取网络空间热点事件信息的方法 |
CN103279887A (zh) * | 2013-04-26 | 2013-09-04 | 华东师范大学 | 一种基于信息理论的微博传播可视化分析方法与系统 |
CN104408149A (zh) * | 2014-12-04 | 2015-03-11 | 威海北洋电气集团股份有限公司 | 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统 |
CN104834669A (zh) * | 2015-03-18 | 2015-08-12 | 广西师范学院 | 一种基于时空语义转移矩阵的疑犯多阶位置预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756685B2 (en) * | 2004-03-15 | 2010-07-13 | The United States Of America As Represented By The Secretary Of The Air Force | Method for automatic community model generation based on uni-parity data |
-
2015
- 2015-10-13 CN CN201510669504.7A patent/CN105404890B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880719A (zh) * | 2012-10-16 | 2013-01-16 | 四川大学 | 基于位置社交网络的用户轨迹相似性挖掘方法 |
CN102982110A (zh) * | 2012-11-08 | 2013-03-20 | 中国科学院自动化研究所 | 在物理空间上提取网络空间热点事件信息的方法 |
CN103279887A (zh) * | 2013-04-26 | 2013-09-04 | 华东师范大学 | 一种基于信息理论的微博传播可视化分析方法与系统 |
CN104408149A (zh) * | 2014-12-04 | 2015-03-11 | 威海北洋电气集团股份有限公司 | 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统 |
CN104834669A (zh) * | 2015-03-18 | 2015-08-12 | 广西师范学院 | 一种基于时空语义转移矩阵的疑犯多阶位置预测方法 |
Non-Patent Citations (2)
Title |
---|
"中国犯罪地理研究述评";姜超等;《地理科学进展》;20140415;第33卷(第4期);第561-573页 * |
"基于关系数据模型的犯罪网络挖掘研究";李万彪等;《中山大学学报(自然科学版)》;20140915;第53卷(第5期);第1-7页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105404890A (zh) | 2016-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105404890B (zh) | 一种顾及轨迹时空语义的犯罪团伙判别方法 | |
Blondel et al. | A survey of results on mobile phone datasets analysis | |
Phillips et al. | Using social media to predict the future: a systematic literature review | |
Steiger et al. | Twitter as an indicator for whereabouts of people? Correlating Twitter with UK census data | |
Zheng et al. | Detecting collective anomalies from multiple spatio-temporal datasets across different domains | |
US20190259033A1 (en) | System and method for using a data genome to identify suspicious financial transactions | |
Hang et al. | Exploring student check-in behavior for improved point-of-interest prediction | |
US10831827B2 (en) | Automatic extraction of user mobility behaviors and interaction preferences using spatio-temporal data | |
Gambs et al. | De-anonymization attack on geolocated data | |
Dong et al. | Inferring unusual crowd events from mobile phone call detail records | |
CN108874911B (zh) | 基于区域环境与犯罪事件数据的疑犯位置预测方法 | |
Gundogdu et al. | Countrywide arrhythmia: emergency event detection using mobile phone data | |
CN111950937A (zh) | 一种基于融合时空轨迹的重点人员风险评估方法 | |
Zhang et al. | Enhancing traffic incident detection by using spatial point pattern analysis on social media | |
Chen et al. | Social event detection with retweeting behavior correlation | |
CN110321424B (zh) | 一种基于深度学习的艾滋病人员行为分析方法 | |
CN109218321A (zh) | 一种网络入侵检测方法及系统 | |
Zhang | Using twitter to enhance traffic incident awareness | |
Thang et al. | Multistage System‐Based Machine Learning Techniques for Intrusion Detection in WiFi Network | |
Zhang et al. | Duplicate report detection in urban crowdsensing applications for smart city | |
CN113254580A (zh) | 一种特殊群体搜索方法及系统 | |
Shi et al. | A graph-based approach for detecting spatial cross-outliers from two types of spatial point events | |
Hamdy et al. | Criminal act detection and identification model | |
de Castro SIlva et al. | Using social group trajectories for potential impersonation detection on smart buildings access control | |
Ozgul et al. | Prediction of past unsolved terrorist attacks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181016 Termination date: 20191013 |
|
CF01 | Termination of patent right due to non-payment of annual fee |