CN105404890B

CN105404890B - 一种顾及轨迹时空语义的犯罪团伙判别方法

Info

Publication number: CN105404890B
Application number: CN201510669504.7A
Authority: CN
Inventors: 段炼; 黄宁宁
Original assignee: Guangxi Teachers College
Current assignee: Guangxi Teachers College
Priority date: 2015-10-13
Filing date: 2015-10-13
Publication date: 2018-10-16
Anticipated expiration: 2035-10-13
Also published as: CN105404890A

Abstract

本发明属于刑侦与警务研判、警情数据挖掘、公共安全及犯罪地理学方法领域，尤其涉及一种顾及轨迹时空语义的犯罪团伙判别方法。主要包括以下步骤：（1）重点人员轨迹点聚类；（2）重点人员轨迹时空相似性计算；（3）重点人员通信时空频度计算；（4）重点人员关联网络建模；（5）基于社交网群落发现方法的犯罪团伙识别。本发明的有益效果是完善了犯罪团伙关系的判断指标体系，不易造成犯罪团伙关系的误判和漏判，可同时判断出属于多个犯罪团伙的成员，并且能用以识别非犯罪团伙成员，提高了对犯罪团伙识别的准确率。

Description

一种顾及轨迹时空语义的犯罪团伙判别方法

技术领域

本发明属于刑侦与警务研判、警情数据挖掘、公共安全、犯罪地理学技术领域，尤其涉及一种顾及轨迹时空语义的犯罪团伙判别方法。

背景技术

当前城市内有组织团伙化犯罪的倾向突出，从各地破获的“两抢一盗”案件看，凡大案、要案和系列案件多为犯罪团伙所为。犯罪组织存在时间越长，结构越严密，组织成员越多，实施的犯罪行为也越多，危害性也越大，打击的难度也就越大。因此，提早、快速、准确辨识犯罪团伙成员，挖掘出潜在的犯罪团伙，对犯罪团伙打击效果的提高具有重要价值。然而，通过公安的审讯和共犯情况往往难以发现那些隐藏幕后或未被抓捕到的其他犯罪同伙。

当前，随着传感器技术、全球定位技术的飞速发展和各类社会数据的大规模涌现，如公安的户政数据、银行的账户转账数据、电信运营商的通讯数据、社交网络数据、卡口数据、视频监控数据、GPS数据等，为犯罪团伙判断和潜在团伙成员的挖掘迎来重要的技术契机。但是，仅依靠人工分析海量多源异构的社会数据以识别犯罪团伙是不可能的，迫切需要有高效智能化的大数据分析手段来识别犯罪团伙。

目前，对犯罪成员关系及其关系亲密度侦测的主要技术方法分为两类，利用同时被捕或在同一地区实施犯罪的犯罪人员形成的网络进行识别；利用人员之间的通信或交易形成的网络来进行识别。如基于社交信息和成员位置驻留信息构建犯罪分子间的相似性网络，在该网络上通过谱聚类识别犯罪团伙；利用一段时间内同时被捕的成员或在同一区域实施相同犯罪人员构建网络，利用k-core算法对多个犯罪团伙进行识别。

从已有中国发明专利方面看，目前还未见涉及犯罪团伙成员和犯罪团伙辨识的专利。经过检索，仅有以下专利与本方案有一定的关联性，中国专利号：CN104408149A，专利名称：基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统，摘要：本发明涉及一种基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统，其特征在于包括：对用户输入数据进行预处理，从输入数据提取关键信息；构建社交网络图模型；设置参数；运行社团发现算法；输出发现的结果，列出犯罪嫌疑人员，本发明与现有技术相比，具有以下有益效果：能够从给定的犯罪嫌疑人社交圈内发现潜在的关联犯罪嫌疑人，方法性能好，系统运行快，同时考虑了真实场景的需求，在用户指定的范围进行分析，具有良好的扩展性。该专利力图通过社交网络中人员之间的交流模式进行犯罪嫌疑人的查找，但不是对犯罪团伙或其成员的查找。

目前来看，已有方法还存在如下不足：

1)没有考虑特定时间、事件、位置等关键时空节点，直接采用联络/交易频繁度或网络集聚性等指标来标识人员间的犯罪团伙关系还不够周全，因为仅仅亲戚好友的关系往往也能让通信/交易网络中的相关人员形成集聚状态。

2)以犯罪位置共现为基础的犯罪团伙识别研究没有考虑未留案底人员属于犯罪团伙的可能性。

3)人员之间的联系类型多样，已有研究未考虑不同人员关联类型对犯罪团伙成员关系识别的重要程度，从而容易造成犯罪团伙成员关系的误判和漏判。

4)已有研究仅能判断某成员属于单个犯罪团伙，无法判断从属若干犯罪团伙的成员，或从相关人员网络中发现若干不属于犯罪团伙的组织而加以剔除。

从数据来源看，随着技术的进步，目前除了有案底人员，还有大量其他可疑人员现在也列入了警务跟踪对象范围，他们每天的社会移动数据和社会生活数据形成了大量的人员轨迹数据，如何对这些轨迹数据进行挖掘从而提高犯罪团伙识别的准确率与覆盖率是当面面临的重要挑战之一。就目前来看，利用轨迹数据进行团伙成员判别的技术或研究还未见报道。

发明内容

本发明的发明目的在于针对现有技术中存在的(1)标识人员间的犯罪团伙关系指标不周全、(2)没有考虑未留案底人员属于犯罪团伙的可能性、(3)易造成犯罪团伙成员关系的误判和漏判、(4)无法判断从属若干犯罪团伙的成员的问题，提供一种顾及轨迹时空语义的犯罪团伙判别方法。

为了实现上述目的，本发明采用的技术方案如下：

一种顾及轨迹时空语义的犯罪团伙判别方法，包括以下步骤：

(1)重点人员轨迹点聚类：基于重点人员轨迹数据进行区域地理环境和空间邻近性的轨迹点聚类，即首先将空间划分多个聚类簇，每个聚类簇代表重点人员达到的局部区域；所述的区域地理环境和空间邻近性的轨迹点聚类ω_ij表示为：

基于所述ω_ij，采用DBSCAN密度聚类方法，即可得到各聚类簇；其中，l_i、l_j为轨迹点i和j，ρ_ij表示l_i和l_j之间的时空语义差异，d(l_i,l_j)为l_i和l_j的空间距离，δ为阈值；

(2)重点人员轨迹时空相似性计算：包括两重点人员的聚类簇正、反向物理时空节点访问频度及两重点人员的POI语义时空分布差异计算；

(3)重点人员通信时空频度计算：包括两重点人员在时段t内的通信总次数和特定时空节点的通信频度计算，所述两重点人员特定时空节点的通信频度计算公式为：

其中，R为特定时空节点集合，h_r,u,v为重点人员u和v在r时空节点通讯的时长；

(4)重点人员关联网络建模：通过表达重点人员之间的关联强度W_u,v，进而对重点人员关联强度W_u,v进行归一化构建重点人员关联网络，所述的W_u,v为：

α₁+α₂+α₃＝1

其中，α₁、α₂、α₃为权重系数；σ₁、σ₂为高斯核函数的带宽；c_u,v为两重点人员u和v间在时段t内的通信总次数；a_u,v表示两重点人员在正向物理时空节点数或其附近汇合的频度；b_u,v表示两重点人员在反向物理时空节点或其附近汇合的频度；d_u,v为两重点人员特定时空节点的通信频度；ΔP_u,v表示重点人员u和v的POI语义时空分布差异，ΔQ_u,v表示重点人员u和v的时空分布差异，ΔQ'_u,v为重点人员u和v的物理时空分布差异；

(5)基于社交网群落发现方法的犯罪团伙识别：通过对重点人员关联网络进行数学建模，进而解算出模型中各人员隶属的犯罪团伙概率，从而判别其所属犯罪团伙。

进一步地，上述步骤(1)所述轨迹点l_i和l_j的时空语义差异ρ_ij的表达式为：

ρ_ij＝cosin(θ_i,θ_j)

其中，θ_i和θ_j分别为锚点i和j所在区域的潜在犯罪特征，当两锚点所处社区的潜在犯罪特征相同，ρ_ij为0，反之，ρ_ij趋向于1，从而描述了两区域的潜在犯罪特征相似性。

进一步地，上述步骤(4)所述两重点人员在正向物理时空节点访问频度a_u,v为：

其中，P表示正向和反向时空节点集合，u和v表示两重点人员，I[h_p,u,h_p,v]为两重点人员在p时空节点或其邻近处共现的次数，h_p,u为用户u在位置p出现的次数，h_p,v为用户v在位置p出现的次数。

进一步地，所述步骤(2)或(4)重点人员u和v的POI语义时空分布差异ΔP_u,v表示为：

其中，T表示各语义时段集合，p_t,u和p_t,v分别代表重点人员u和v在时段t时对各类POI的访问强度分布。

进一步地，所述步骤(4)重点人员u和v的时空分布差异ΔQ_u,v表示为：

其中，q_u和q_v分别为重点人员u和v在时空分布，q_t,u和q_t,v分别代表重点人员u和v在语义时间t对聚类簇的访问强度分布。

进一步地，所述步骤(4)重点人员u和v的物理时空分布差异ΔQ'_u,v表示为：

其中，q′_u和q′_v分别为重点人员u和v的物理时空分布模式，q′_t,u和q′_t,v分别代表重点人员u和v在物理时段t对聚类簇的访问强度分布。

进一步地，基于概率图生成模型，对上述步骤(5)所述重点人员关联网络的生成进行数学建模，进而解算出模型中各人员隶属的犯罪团伙概率；其概率图生成模型的描述如下：

(1)对网络中的每个节点/个体：从先验概率Dirichlet(α)中采样得到某团伙θ_i：θ_i～Dirichlet(α)；

(2)对每个节点i和j(其中i<j)：

a)抽样得到j属于i所在团伙的概率：z_i→j～θ_i；

b)抽样得到i属于j所在团伙的概率：z_i←j～θ_j；

c)从正态分布中采样得到链接权重：δ_i,j～N(0,σ²)；

d)抽样得到i和j之间存在链接的概率；

其中，α为Dirichlet分布的先验参数，θ_i为多项式分布参数，θ_j为多项式分布的参数，δ_i,j为个体i和j之间的链接权重，σ为正态分布的标准差，y_ij为个体i和j属于同一团伙的概率。

综上所述，本发明首先利用重点人员轨迹数据计算他们之间的时空分布相似性，再利用他们的通信频度获取他们的联系紧密度，进而利用时空分布相似性和联系紧密度这两个指标标识重点人员关联网络中相互之间的链接权重，最后基于社交网络中的社区发现方法，获取不同的犯罪团伙，并提高团伙成员判别的覆盖率和准确率。本发明相对现有技术的有益效果是：

1、利用重点人员社会移动轨迹数据及其所蕴含的时空语义信息进行犯罪团伙识别，尤其是考虑特定时间、事件、位置等关键时空节点，对这些时空节点加以区分，不易造成犯罪团伙关系的误判和漏判，同时，亦使标识人员间的犯罪团伙关系的指标更周全。

2、通过连续语义时间内重点人员在不同聚类簇停留的次数来计算重点人员相似性。该方法较直接采用物理时间和空间坐标进行轨迹序列比较，避免了如LUCC等方法求解两条序列间最近锚点的迭代计算，同时，能依据重点人员在不同语义时间在不同潜在犯罪特征区位上的统计特性，从社会环境角度刻画重点人员间的关联。

3、利用重点人员社会移动轨迹数据分析所得到的时空共现模式，结合重点人员之间的通讯和社交数据，将重点人员到达相近位置看做一种交流或犯罪共谋概率，他们在越近的位置出现，出现的时间间隔越小，则他们的驻留模式越相似，则也预示着他们的交流可能性越大，犯罪目标或行为意图越相似。同理，从时空语义上看，他们所在的位置类型(如网吧、酒吧、居民区)越相似，在这些位置出现的时间类型(如节假日、凌晨等)越相似，他们的犯罪意图越相似，他们成为犯罪团伙的可能性就越高。从而改进重点人员关联网络中的人员之间链接权重，进而判断相关人员为同一犯罪团伙的概率。

4、对具有重叠成员的多个犯罪团伙的发现。在重点人员关联的网络中，个体可能属于多个团伙，因而在数学建模时，将团伙作为潜在主题，个体及个体间的链接作为某潜在主题下的样本数据分布，则该网络总的生成过程为多个潜在主题下每个潜在主题所对应样本的采样生成。进而通过模型可发现具有重叠成员的多个犯罪团伙。

5、基于对非犯罪团伙组织的判断，进而提高对犯罪团伙识别的准确率。重点人员在犯罪团伙关系的指示作用偏弱的时空节点频繁近距离共现，也并不意味着他们成为犯罪团伙的概率很大。故而通过反向时空节点或其附近汇合的频度计算，筛选出此特殊节点，进而提高对犯罪团伙识别的准确率。

附图说明

图1为总体技术流程。

图2为两重点人员进行路网匹配后的社会移动轨迹。

图3为全局重点人员轨迹点聚类。

图4为图3方框内所示的重点人员的局部轨迹点聚类。

图5为仅基于通讯次数构建的重点人员关联网络图。其中7个虚线圈代表该网络的聚类结果，即表达了模型所计算出来的7个犯罪团伙及其所属的成员。

图6为剔除非聚类成员后的重点人员关联网络图。其中节点大小代表该重点人员与其他人员的关联强度和链接数量。单独文字标识出的节点为现实世界中该重点人员的类型。

具体实施方式

本方案具体涉及以下步骤：

1.重点人员轨迹点聚类

顾及区域环境的轨迹点空间聚类。基于区域类型和空间距离进轨迹点密度聚类，即在聚类邻近度计算过程中考虑了轨迹点所在区域的社会经济环境、犯罪水平和地理环境因素。聚类的目的是利用聚类后的区块(称为聚类簇)表达轨迹途径的范围，以在后期表达重点人员的时空分布模式并为其相似度比较提供多尺度的比较手段。

2.重点人员轨迹时空相似性计算

(1)语义时间划分。依据社会生活规律，将对应不同行为类型的时段称为语义时间，通过与重点人员的驻留位置相结合，反映其行为时空分布模式。分为两类语义时间，一类以一天内的时段划分：上午(7—12点)，中午(12—14点)，下午(14—18点)，晚上(18点—24点)，凌晨(24点—7点)等；另一类是以双休、工作日、春节、国庆划分。

(2)物理时空访问模式相似性计算。利用重点人员在连续物理时间(以一天内的小时为单位)内访问各个聚类簇的频率构建多项式分布，作为其物理时空分布模式，以反映重点人员的作息规律和行为类型序列，刻画重点人员社会习性。之后，计算重点人员的物理时空分布模式差异，即通过连续语义时间内重点人员在不同聚类簇停留的概率来计算物理时空分布模式的相似性。该相似性将作为后期重点人员关联网络中表达链接权重的指标之一。

(3)语义时段下物理位置的时空访问模式相似性计算。利用重点人员在各语义时间内访问各个聚类簇的频率构建多项式分布，以刻画重点人员社会习性。之后，计算重点人员的物理时空分布模式相似性。该相似性将作为后期重点人员关联网络中表达链接权重的指标之一。

(4)基于POI分布表达轨迹点的空间语义信息。利用各聚类簇内的POI类语义位置(POI类型)和语义时间下的空间访问模式相似性计算。利用重点人员在各语义时间内所在聚类簇的POI类型分布构建多项式分布，作为其物理时空分布模式。之后，计算重点人员的语义时空分布模式相似性。该相似性将作为后期重点人员关联网络中表达链接权重的指标之一。

(5)对特定时空节点访问模式的邻近性计算。特定时空节点，如凌晨、历史犯罪位置、网吧、旅店等(称为正向特殊时空节点)，对重点人员间的犯罪团伙关系具有重要指示作用；反之，在某些时空节点的频繁近距离共现，如中午、出租屋、商场等(称为反向特殊时空节点)，并不能准确刻画重点人员间的犯罪团伙关系，如果不对这些时空节点加以区分，很容易造成犯罪团伙关系的误判。因此，本方案将计算得到两两重点人员间在一段时间内到达同一正向特殊时空节点的频度、在特殊时空节点或其邻近处共现的频度，以此作为后期重点人员关联网络中表达链接权重的指标之一。

3.重点人员通信时空频度计算

(1)通信总频度计算。两两重点人员间一段时间内的通信(通话、短信)总次数，表达两者间的普通熟悉程度，以此作为后期重点人员关联网络中表达链接权重的指标之一。这一过程是已有研究中涉及过的。

(2)特定时空节点的通信频度计算。在特定时空节点进行通信，如凌晨、假期、历史犯罪位置附近(正向时空节点)，对重点人员间的犯罪团伙关系具有重要指示作用；反之，在某些时空节点频繁联络，如上午、下午、商场等联络，并不能很好表达重点人员间的犯罪团伙关系。因此，本方案将计算得到两两重点人员间在正向特殊时空节点的通信频度，以此作为后期重点人员关联网络中表达链接权重的指标之一。

4.重点人员关联网络建模

对以上步骤得到的指标进行加权求和，用以表达重点人员之间的关联强度，进而基于该关联强度构建重点人员关联网络。

5.基于社交网群落发现方法的犯罪团伙识别

基于关联类型和关联强度，通过社交网络中的重叠性社区发现方法，获得重点人员之间的犯罪团伙关系。

以下将结合附图和具体实施例，对本发明提供的技术方案进行说明。

实施例1

步骤1：重点人员轨迹点聚类

基于重点人员轨迹数据进行带有空间语义的锚点聚类，将空间划分多个聚类簇，采用聚类簇代表重点人员锚点。通过比较不同语义时间内两重点人员在不同聚类簇的停留情况，来计算重点人员反映在时空语义上的相似性。

基于区域环境和空间距离进行锚点密度聚类，在聚类邻近度中同时考虑了社会经济环境、犯罪水平和地理空间因素。以下将轨迹点称为锚地。

设锚点l_i,l_j∈S，S为锚点集合，基于余弦公式，表示锚点l_i和l_j的空间语义差异：

ρ_ij＝cosin(θ_i,θ_j)

其中，θ_i为锚点i所在区域的潜在犯罪特征。当两锚点所处社区的潜在犯罪特征相同，ρ_ij为0，反之，ρ_ij趋向于1，从而描述了两区域的潜在犯罪特征相似性。

区域的潜在犯罪特征θ_i由区域内的各POI类型的数量分布以及社会经济环境属性表示。区域的潜在犯罪特征θ可由向量表示：

其中，表示各项指标的具体数值。

定义两锚点的距离量度公式ω_ij：

其中，d(l_i,l_j)为l_i和l_j的空间距离。如果两锚点间的空间距离超过δ，则他们的距离无穷大，由此控制每个聚类簇的区域类型要尽可能相似，相邻距离要尽可能接近。基于ω_ij，采用DBSCAN密度聚类方法，即可得到聚类结果。每个聚类簇代表了具有社会经济环境相似的位置集合，表达了重点人员某类行为空间分布状况。其中附图2为两重点人员进行路网匹配后的社会移动轨迹，图3为全局重点人员轨迹锚点聚类，图4为局部轨迹锚点聚类。其中，图3、图4中每个多边形分别为一个聚类簇，多边形外的锚点单独为一个聚类簇。

步骤2：重点人员间的轨迹时空相似性计算

(1)语义时间划分

依据社会作息规律，将一天划分为四个语义时间，分别是早上7点-12点(上午)，13点-18点(下午)，19点-0点(晚上)，1-6点(半夜)。同时，依据社会习俗，将时间划分为节假日、双休、工作日三个语义时间。

(2)语义时段下的聚类簇访问时空分布相似性

设在语义时间t重点人员u对聚类簇s的访问强度为：

其中，c_t,u,s为重点人员u是语义时间t访问聚类簇s的频率，b_u,t为t语义时间重点人员u访问所有锚点的总次数，b_t,u,s为重点人员u在语义时间t访问s的次数，表示在时段t访问过s的重点人员数量。

设q_t,u代表重点人员u在语义时间t对聚类簇s(s∈S)的多项式访问强度分布：

q_t,u～Muti(q_t,u，1，q_t,u,2，...,q_t,u,|S|)

利用KL距离表达两重点人员u和v在语义时间t的位置分布差异：

但是，KL散度不具有对称性，即从分布q_t,u到q_t,v的KL距离通常并不等于从q_t,v到q_t,u的KL距离。此外，用户不可能在某一语义时间内到达过所有的聚类簇，因此q_t,u分布中大量参数为0，从而造成KL距离无穷大，或变为0，产生错误的相似度结果。为此，我们对每个语义时间t内聚类簇s的到达概率统一加入极小的背景值τ，并利用KL距离的对称平滑版本——Jensen-Shannon距离表达重点人员u和v在语义时间t内的KL修正距离：

又重点人员u在所有语义时间的访问强度分布集合代表了其社会时空分布模式：

q_u＝＜q_1,u，q_2,u，...,q_|T|,u＞

因此，重点人员u和v的时空分布差异表示为：

(3)物理时空访问模式相似性

设在一天内每个小时t重点人员u对聚类簇s的访问强度为：

其中，c′_t,u,s为重点人员u是时间t访问聚类簇s的频率，b′_u,t为t时间重点人员u访问所有锚点的总次数，b′_t,u,s为重点人员u在语义时间t访问s的次数，表示在时间t访问过s的重点人员数量。

重点人员u和v的物理时空分布模式差异表示为：

(4)语义位置(POI类型)和语义时间下的空间访问模式相似性计算

类似上一小节对聚类簇的时态分布比较，设在语义时间t重点人员u对类型为w的POI的访问强度为：

其中，c_t,u,w为重点人员u是语义时间t访问POI类型为w的频率，b_u,t为语义时间t内重点人员u访问所有锚点的总次数，b_t,u,w为重点人员u在语义时间t访问w的次数，表示在时段t访问过w的重点人员数量。

设p_t,u代表重点人员u在时段t时对各类POI的多项式访问强度分布：

p_t,u～Muti(p_t,u，1，p_t,u,2，...,p_t,u,|V|)

利用Jensen-Shannon距离表达重点人员u和v在语义时间t内的差别：

又重点人员u在所有语义时间的访问强度分布集合：

p_u＝＜p_1,u，p_2,u，...,p_|T|,u＞

因此，令T表示各语义时段集合，重点人员u和v的POI时空分布差异表示为：

(5)对特定时空节点访问模式的邻近性计算

给出对重点人员间的犯罪团伙关系具有重要指示作用的特定时空节点：

以上节点称为正向时空节点。重点人员在这些时空节点的近距离共现，往往意味着他们成为犯罪团伙的概率很大。

对重点人员间的犯罪团伙关系的指示作用偏弱的时空节点为：

时间节点	中午	上午
			位置节点	出租屋	高档商场

重点人员在这些时空节点的频繁近距离共现，也并不意味着他们成为犯罪团伙的概率很大。

计算两两重点人员在正向时空节点或其附近汇合的频度a_u,v：

其中，P表示特殊时空节点集合，u和v表示两重点人员，I[h_p,u,h_p,v]为两重点人员在p时空节点或其邻近处共现的次数。

同理，得到两两重点人员在反向时空节点或其附近汇合的频度b_u,v。

最后，对a_u,v、b_u,v归一化。

值得注意的是，这些特殊时空节点的筛选是依据犯罪类型和警务专家决策获取的，在涉及其他犯罪类型和地域时，可做调整，本方案给出的是一种思路及其实现的技术手段。

步骤3：重点人员通信时空频度计算

(1)通信总频度计算

两两重点人员间一段时间内的通信(通话、短信)总次数c_u,v，表达两者间的普通熟悉程度。

(2)特定时空节点的通信频度计算

给出特定时空节点：

时间节点	两者的历史犯罪时段
			位置节点	两者的历史犯罪位置	两者的住址

在以上进行时空节点相互通信，对重点人员间的犯罪团伙关系具有重要指示作用，其公式为：

其中，R为特定时空节点集合，h_r,u,v为重点人员u和v在r时空节点通讯的时长。图5为仅基于通讯次数构建的重点人员关联网络图，其中虚线圈代表该网络的聚类结果(共7个)，即表达了模型所计算出来的7个犯罪团伙及其所属的成员。

步骤4：重点人员关联网络建模

对ΔP_u,v和ΔQ_u,v归一化，重点人员差异量度的总公式为：

α₁+α₂+α₃＝1

其中，α为权重系数，以控制通信频度、语义时空分布模式、物理时空分布模式对重点人员关联强度产生的影响；σ为高斯核函数的带宽，控制着以上指标差异对权重的影响大小。就此，对W_u,v进行归一化，将其作为重点人员u和v之间的链接权重(值在0—1之间分布)，即可构建重点人员关联网络。

步骤5：基于社交网群落发现方法的犯罪团伙识别。

本方案基于概率图模型中的生成模型，对重点人员关联网络的生成进行数学建模，进而解算出模型中各人员隶属的犯罪团伙概率。

在该网络中，个体可能属于多个团伙。因此，我们将团伙作为潜在主题，个体及个体间的链接作为某潜在主题下的样本数据分布，则该网络总的生成过程为多个潜在主题下每个潜在主题所对应样本的采样生成。模型从“个体对”<i,j>出发，从θ_i主题(个体i所属团伙)中抽取z_i→j表示个体i所在团伙为个体j所在团伙的概率，同理z_i←j。如果z_i→j＝z_i←j，则i和j个体属于同一团伙。由此，模型需要计算出z_i→j和z_i←j的边缘概率，以得到特定团伙下θ_i，i和j的链接概率。

以β_k表示i和j同为团伙k时两者之间存在链接的概率。当然i和j所属的团伙不相同时，β_k为一个接近0的很小的数值。表达该关系的概率公式为：

该公式表达了个体i和个体j率属于若干相同团伙时具有链接的概率值。然而，人员关联网络中节点间的链接是有权重大小的，从生成模型的角度看，两个体属于相同团伙的概率越大，则他们之间的链接权重也就越大。因此，我们需要引入一个参数，表达同一群体的个体倾向于具有高权重的链接，修改以上公式得：

其中，δ_ij为个体i和j之间的链接权重。

下面给出整个网络生成的概率过程：

(2)对每个“节点对”i和j(其中i<j)：

a)抽样得到j属于i所在团伙的概率：z_i→j～θ_i；

b)抽样得到i属于j所在团伙的概率：z_i←j～θ_j；

c)从正态分布中采样得到链接权重：δ_i,j～N(0,σ²)；

d)抽样得到i和j之间存在链接的概率：

p(y_ij|z_i→j,z_i←j,δ)＝logit^-1(p(y_ij＝1|θ_i,θ_j,δ))。

其中，α为Dirichlet分布的先验参数，θ_i为多项式分布参数，θ_j为多项式分布的参数，δ_i,j为个体i和j之间的链接权重，σ为正态分布的标准差，y_ij为个体i和j属于同一团伙的概率。以上模型定义一个具有n个节点且潜在社区具有覆盖的网络联合概率生成模型，属于在潜在社区条件下的贝叶斯后验概率模型。这个模型中各参数的解算在数据量不大的情况下采用Markov chain Monte Carlo方法或Variational inference方法即可，在数据量很大的情况下采用Poisson community模型，具体解算过程已有相关文献和技术文档给出，这里不再列出。

最终，通过在模型中输入潜在主题(团伙)个数、先验参数α以及个节点间的链接数据，即可解算出各重点人员/个体属于任意一个团伙的概率。将概率超过一定阈值的人员归属于该团伙，即可得到每个团伙的成员，实现了犯罪团伙的识别。图6为剔除非聚类成员后的重点人员关联网络图，其中节点大小代表该重点人员与其他人员的关联强度和链接数量单，独文字标识出的节点为现实世界中该重点人员的类型。

Claims

1.一种顾及轨迹时空语义的犯罪团伙判别方法，其特征在于，包括以下步骤：

α₁+α₂+α₃＝1

其中，α₁、α₂、α₃为权重系数；σ₁、σ₂为高斯核函数的带宽；c_u,v为两重点人员u和v间在时段t内的通信总次数；a_u,v表示两重点人员在正向物理时空节点或其附近汇合的频度；b_u,v表示两重点人员在反向物理时空节点或其附近汇合的频度；d_u,v为两重点人员特定时空节点的通信频度；ΔP_u,v表示重点人员u和v的POI语义时空分布差异，ΔQ_u,v表示重点人员u和v的时空分布差异，ΔQ_u'_,v为重点人员u和v的物理时空分布差异；

2.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法，其特征在于：上述步骤(1)所述轨迹点l_i和l_j的时空语义差异ρ_ij的表达式为：

ρ_ij＝cosin(θ_i,θ_j)

3.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法，其特征在于：上述步骤(4)所述两重点人员在正向物理时空节点访问频度a_u,v为：

4.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法，其特征在于：所述步骤(2)或(4)重点人员u和v的POI语义时空分布差异ΔP_u,v表示为：

5.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法，其特征在于：所述步骤(4)重点人员u和v的时空分布差异ΔQ_u,v表示为：

其中，q_u和q_v分别为重点人员u和v在时空分布模式，q_t,u和q_t,v分别代表重点人员u和v在语义时间t对聚类簇的访问强度分布。

6.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法，其特征在于：所述步骤(4)重点人员u和v的物理时空分布差异ΔQ′_u,v表示为：

其中，q′_u和′_v分别为重点人员u和v的物理时空分布，q′_t,u和q′_t,v分别代表重点人员u和v在物理时段t对聚类簇的访问强度分布。

7.根据权利要求1所述一种顾及轨迹时空语义的犯罪团伙判别方法，其特征在于：基于概率图生成模型，对上述步骤(5)所述重点人员关联网络的生成进行数学建模，进而解算出模型中各人员隶属的犯罪团伙概率；其概率图生成模型的描述如下：

(1).对网络中的每个节点/个体：从先验概率Dirichlet(α)中采样得到某团伙θ_i：θ_i～Dirichlet(α)；

(2).对每个节点i和j，其中i<j：

a)抽样得到j属于i所在团伙的概率：z_i→j～θ_i；

b)抽样得到i属于j所在团伙的概率：z_i←j～θ_j；

c)从正态分布中采样得到链接权重：δ_i,j～N(0,σ²)；

d)抽样得到i和j之间存在链接的概率；