CN108009690B

CN108009690B - 一种基于模块度最优化的地面公交扒窃团体自动检测方法

Info

Publication number: CN108009690B
Application number: CN201711399120.3A
Authority: CN
Inventors: 张勇; 赵霞; 刘浩; 王文婷; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2022-01-14
Anticipated expiration: 2037-12-22
Also published as: CN108009690A

Abstract

本发明公开一种基于模块度最优化的地面公交扒窃团体自动检测方法，通过度量扒窃个体间交通行为在时空、移动模式维度上的相似性，在采用有监督式分类器验证扒窃个体间相似性的基础上，构建扒窃关联图，以自动检测图中模块度最优化的潜在扒窃团体，最终采用社交网络数据匹配验证上述团体的可靠性。

Description

一种基于模块度最优化的地面公交扒窃团体自动检测方法

技术领域

本发明属于公共交通异常检测领域，尤其涉及一种基于模块度最优化的地面公交扒窃团体自动检测方法。

背景技术

人流密集且流动频繁的公共交通场所极易滋生扒窃事件，在高峰时间、热点区域处尤为严重。近几年的扒窃分子呈现团体作案趋势。团体成员通过作案掩护、转移赃物或反抗拒捕的方式增加作案起数并降低作案风险。有效打击场所内的扒窃团体是保障公共交通安全运营的重要途径。虽然短期警力投入能够显著抑制扒窃团体的聚集，但仍不能从源头上有效遏制其发展态势。究其原因，尚缺乏一套有效的地面公交扒窃团体自动检测方法。

现有学者至今没有专门针对地面公交场所内的扒窃团体检测展开应用研究。但部分研究已分别基于社交媒体数据、视频数据或交通数据检测潜在的群体模式。在社交媒体数据应用方面，申请号为201611035627.6的专利公开了一种基于图扩充的社交群体的确定方法及装置，即采用基于最大扩充图内完全模块的方式检测以多用户为中心的潜在社交群体。目前该方法尚未应用于地面公交扒窃团体的检测中。此外，间接依靠手机通信记录难以检测具有异常交通行为的扒窃团体。申请号为201510882509.8的专利公开了一种基于图凝聚的社交群体的确定方法和系统，在获取全体用户标签的前提下，构建用户关系图，通过图节点迭代凝聚的方式检测潜在社交群体。该方法要求各组别内用户比例均衡且标签已知，并不适用于扒窃个体占比极少且大多数乘客标签未知的公共交通扒窃团体检测。在视频数据应用方面，申请号为201510463318.8的专利公开了一种基于统计分布的异常人群检测方法，提取视频中人群的可视运动特征(如位置、速度、方向等)，将具有代表性的人群模式标定为正常人群模式，再检测出显著偏离于上述模式的其他模式以作为异常人群模式。但视频数据的区域联动性差、分辨率低等问题限定了上述专利只适用于单点异常人群检测，并不适用于公共交通场所内基于大规模人群的异常扒窃团体检测。此外，这类基于统计分布的异常检测方法要求正常模式具有唯一代表性，但对于具有复合出行目的的公共交通出行群体而言，很难构建出唯一的正常模式。在交通数据应用方面，专利201710098940.2 公开了一种基于轨道交通数据分析的异常出行群体识别方法，在基于时序状态序列聚类的基础上率先提取异常个体，并采用时空相似性算子度量异常个体间交通状态的相似性，以检测轨道交通内的异常团体。但该方法忽略了异常团体成员在具备时间或空间同步性的同时，往往还具备移动模式相似性；同时未考虑扒窃团体是成员间社交网络关系的图映射。此外，扒窃团体在不同交通场所内(如轨道或地面公交)的迥异作案方式决定上述专利不适用于地面公交扒窃团体的检测应用。

基于此，本发明提出一种基于模块度最优化的地面公交扒窃团体自动检测方法。研究成果可应用于公共交通行业数据分析平台，为扒窃团体检测、扒窃事件预警及可视化布控提供科学依据。

发明内容

针对现有技术中存在的上述问题，本发明提出一种基于模块度最优化的地面公交扒窃团体自动检测方法。度量扒窃个体间交通行为在时空、移动模式维度上的相似性，在采用有监督式分类器验证扒窃个体间相似性的基础上，构建扒窃关联图，以自动检测图中模块度最优化的潜在扒窃团体，最终采用社交网络数据匹配验证上述团体的可靠性。

为实现上述目的，本发明采用如下的技术方案：

步骤1：扒窃个体间相似性算子度量

扒窃团体间成员间的协作性可能促使两两扒窃个体在移动模式、空间、时间和时空维度呈现出行相似性；此外，两两扒窃个体也可能在移动模式和空间、移动模式和时间或者移动模式和时空维度上具有两两加权相似性。因此，本发明根据相似性算子是否进行mobSim特征组合，将其细分为简单组和加权组相似性算子，从多维度量化扒窃个体间交通模式的相似性。

步骤2：基于扒窃个体对监督学习的优选相似性算子提取

为进一步评估上述19组算子对个体间交通模式相似性的表征效果，本发明进一步设计多组有监督式分类学习实验，即：通过变换分类器和个体间相似性算子来自动检测数据集中的真实两两扒窃个体对，并对自动分类实验下的precision 和recall进行效果评估，以证实步骤1中不同相似性算子下所检测的两两扒窃个体对的精度。最终，选取在评估效果上具有典型代表性的相似性算子，作为步骤 3扒窃团体自动检测中关联图构建环节的边权值优选集。

步骤3：基于Louvain算法的扒窃自动检测

扒窃团体是扒窃个体及其相关关系的集合，是扒窃个体间的扒窃关联网络。扒窃中的各个独立子团被视为一张扒窃关联网络中的聚集模块。基于此，步骤3 考虑采用基于社区发现的方法来识别图中的潜在模块。具体实现方法为：将步骤 1输入的扒窃个体集合和步骤2输出的扒窃个体间的优选相似性算子集合类比为图上的节点和边权值，以构建扒窃关联图；再采用基于模块度最优化的Louvain 算法自动检测扒窃关联图中的潜在扒窃团体。

步骤4：扒窃团体匹配验证

由于抓获的扒窃个体远远少于真实数量，且一般很少抓获多人团体，因此需要引用扒窃相关社交网络数据作为验证数据集，以辅助验证扒窃团体的存在。邀请 10位专家采用社交网络数据对所检测扒窃团体进行真实性验证。具体为采用所提微博扒窃数据库E验证扒窃团体C的真实性。假设e_i是任意一条扒窃事件记录， e_i∈E。

是C中某扒窃个体s_j全体出行记录集合

的任意一条出行记录。

和

分别代表e_i以及s_j ^k案发时所处的公交线路。那么，s_j验证为真实扒窃个体的标准是：某起扒窃事件e_i的发生恰巧伴随着s_j的一条出行记录

即e_i与

在时间或空间上呈现重叠性。当二者在时间和空间上同时具备重叠性则称为精确匹配(ExactMatch)，否则为模糊匹配(FuzzyMatch)。用同样的方式继续验证当前扒窃事件e_i是否仍与C中的其他扒窃个体存在匹配关系。若e_i与C中超过1名扒窃个体存在匹配关系，则认为扒窃团体真实存在。

作为优选，步骤1具体为：

步骤1.1：移动模式相似性度量

扒窃个体间移动模式的相似性算子mobSim是关于个体间出行特征序列的量化函数，从空间、时间和属性维度提取7维出行特征关键指标，为每个扒窃个体构建出行特征序列，即，隐患站点个数(abStas)、站点片区熵值(staZnEn)、站点时间熵值(staTmEn)、高峰时段访问频率(peakTmPct)、频繁出行频率 (freTraPct)、最频繁出行路径比重(maxODPct)、短途出行比重(shortTraPct)，

两两个体间移动模式相似性即为二者间移动模式相异性的反函数，具体计算方式见式(1)，式中，p和q分别表示两个扒窃个体，p和q出行模式的相异性可由二者间出行特征序列m_p和m_q的欧式距离mobDis(p，q)表示，其中，

或

代表m_p或m_q的第d维特征指标，那么，p和q移动模式相似性mobSim(p，q) 即可表示为二者移动模式相异性mobDis(p，q)的指数反函数，其中，δ为幂平衡算子，用于确保mobSim(p，q)介于[0，1]范围内，且

步骤1.2：空间模式相似性度量

采用文本相似性的原理来度量扒窃个体件空间模式上的相似性。定义两个扒窃个体p和q在空间模式上的相似性为spaSim(p，q)，构建p和q在各自站点的访问频率向量，遍历二者共同访问过的站点，计算二者在每一个共同访问站点处的累计余弦相似度，以度量spaSim(p，q)，如公式(2)所示，式中，A_t(t＝p 或q)是个体p或q所访问的站点集合A_p或A_q，其中的第i个站点为a_i。

或

是个体p或q所访问的第i个站点的频数。len(A_t)(t＝p或q)即为个体p或q 所访问的总体加权站点频数len(A_p)或len(A_q)，当二者共同访问过的站点不为空

时，spaSim(p，q)＞0；当A_p＝A_q时，spaSim(u_p，u_q)＝1.

步骤1.3：时间模式相似性度量

使用两个离散的频率直方图

和

来表示两个扒窃个体p和q在不同时段的出行概率，则p和q在时间模式上相似性

可定量表示为两个频率直方图之间的分布差异，可采用运输问题中的供需平衡方法地面移动距离EMD距离计算得到，即：将H_a ^p中的元素看作

处的供应者，将H_a ^q中的元素看作

处的需求者，则

分别代表供应量和需求量。那么，EMD距离就被定义为解决供需运输问题的最小工作量，可用一个流的集合

表示，其计算公式见式(3)，式中，d_ij是位置

和

间的地面距离，

步骤1.4：时空模式相似性度量

度量两个扒窃个体p和q在时空模式上的相似性stSim(p，q)可表示为p和q 在空间、时间上的模式相似性的乘积，如公式(4)所示。

步骤1.5：基于移动模式加权的相似性度量

从mobSpaSim、mobTmSim和mobStSim维度量化扒窃个体间交通模式的加权相似性。

作为优选，步骤3具体为：

步骤3.1：扒窃关联图构建

将扒窃个体间的关联网络类比为一张扒窃关联图G，且G＝(VE)，其中，尸和E是指扒窃关联图G中的所有节点和边的集合，团体中各扒窃个体p或q可类比为图上的节点p′，q′∈V；扒窃个体p、q间的关联性可类比为图上的边 e_p′q′∈E；所述关联性可类比为图上边的权值，可选的边权值即为步骤2输出的扒窃个体间的优选相似性算子集合，包括mobSim、spaSim、tmSim、stSim、 mobSpaSim1、mobTmSim1和mobStSim3，变换这7种边权值构建7张扒窃关联图，并将其作为步骤3.2的输入数据集；

步骤3.2：基于模块度最优化的扒窃团体自动检测

采用基于模块度Q最优的Louvain算法来检测不同边权值量化方式下扒窃关联图上的聚集模块，具体介绍当边权值为mobStSim(p，q)时，模块度Q的计算方式，如式(6)所示，式中，mobStSim(p，q)指的是节点p′和q′的连接边的权值，即扒窃个体p、q间的相似程度。k_p′或k_q′是指所有邻接节点p′或q′的边权值之和，且k_p′＝∑_q′mobStSim(p，q)，m是网络中所有边的权值之和。 m＝1/2×∑_p′q′mobStSim(p，q)。

用来描述节点p′和q′所在图结构是否相同的布尔指针，如果c_p′＝c_q′，则

否则为0，

Louvain算法的实现过程包括2个阶段，

阶段1中，每个节点被视为一个单独团体，节点p′能与邻近的节点q′合并的唯一条件是合并后能带来非负的模块度增益，该阶段结束后将产生一个初步的团体划分结果；

阶段2中，同一团体中的节点被压缩为一个新节点，团体的内部边权值之和转化为新节点的自环边权值，团体间的边权值之和转化为所对应的新节点之间的边权值，之后，运用阶段1中的方法对新的网络图进行划分，并沿着使模块度Q 最优的方向进行节点迭代凝聚，当Q达到最大且不再发生变化时，算法收敛。此时，图G＝(V，E)最终被划分为k个不相交的团体结构G_i＝(V_i，E_i)(i＝1，2，...， k)，其中，每一个团体中仅包含在时空和移动模式上具有强相似性的扒窃个体。这些扒窃个体组成了地面公交场所内具有协作犯案特性的扒窃团体。

综上，本发明具有以下有益效果：

a)基于公交IC卡刷卡大数据事前检测地面公交扒窃团体；

b)研究成果服务于公共交通安全监管领域，为扒窃团体的检测、预警、布控等业务需求提供科学依据。

附图说明

图1为一种基于模块度最优化的地面公交扒窃团体自动检测方法流程图；

图2为基于社交网络数据的扒窃团体匹配验证图；

图3(a)和图3(b)为两两扒窃个体有监督式分类效果评估，其中，图3(a) 为precision，图3(b)为recall；

图4为扒窃关联网络图(含203个节点，368条边)；

图5(a)和图5(b)为扒窃团体匹配验证效果评估，图5(a)匹配率，图5(b)为precision与recall。

具体实施方式

下面结合附图和实例对本发明做进一步说明。

如图1所示，本发明提供一种基于模块度最优化的地面公交扒窃团体自动检测方法，包括以下步骤：

步骤1：扒窃个体间相似性算子度量

扒窃团体间成员间的协作性可能促使两两扒窃个体在移动模式、空间、时间和时空维度呈现出行相似性；此外，两两扒窃个体也可能在移动模式和空间、移动模式和时间或者移动模式和时空维度上具有两两加权相似性。因此，本发明根据相似性算子是否进行mobSim特征组合，将其细分为简单组和加权组相似性算子，从多维度量化扒窃个体间交通模式的相似性。各相似性算子如表1所示，具体介绍如下。

表1.相似性算子

步骤1.1：移动模式相似性度量

扒窃个体间移动模式的相似性算子mobSim是关于个体间出行特征序列的量化函数。本发明从空间、时间和属性维度提取7维出行特征关键指标，为每个扒窃个体构建出行特征序列。具体的出行特征关键指标如下所示。

1)隐患站点个数(abStas)，指某一个体访问所有隐患站点片区的总体次数。其中，站点片区是指个体以最大步行距离(一般为1km)为活动半径所能到达的公交站点及其周边区域。隐患站点片区是指客流量超过给定阈值的站点片区。

2)站点片区熵值(staZnEn)，指某一个体所访问的站点片区的空间紊乱程度。

3)站点时间熵值(StaTmEn)，指某一个体所访问站点的时间紊乱程度。

4)高峰时段访问频率(peakTmPct)，指某一个体在高峰时段(6：00～9：00或 17：00～20：00)的出行次数占总体出行次数的比重。

5)频繁出行频率(freTraPct)，是频繁出行天数占总体出行天数的比重。其中，频繁出行是指某一个体在一天的出行次数超过5次。

6)最频繁出行路径比重(maxODPct)，指某一个体最频繁使用的OD对占总体OD对数的比重。

7)短途出行比重(shortTraPct)，指某一个体短途出行(出行时间不超过 10min)的次数占总体出行次数的比重。

则两两个体间移动模式相似性即为二者间移动模式相异性的反函数，具体计算方式见式(1)。式中，p和q分别表示两个扒窃个体，p和q出行模式的相异性可由二者间出行特征序列m_p和m_q的欧式距离mobDis(p，q)表示。其中，

或

代表m_p或m_q的第d维特征指标。那么，p和q移动模式相似性mobSim(p，q) 即可表示为二者移动模式相异性mobDis(p，q)的指数反函数。其中，δ为幂平衡算子，用于确保mobSim(p，q)介于[0，1]范围内，且

步骤1.2：空间模式相似性度量

采用文本相似性的原理来度量扒窃个体件空间模式上的相似性。定义两个扒窃个体p和q在空间模式上的相似性为spaSim(p，q)。构建p和q在各自站点的访问频率向量，遍历二者共同访问过的站点，计算二者在每一个共同访问站点处的累计余弦相似度，以度量spaSim(p，q)，如公式(2)所示。式中，A_t(t＝p 或q)是个体p或q所访问的站点集合A_p或A_q，其中的第i个站点为a_i。

或

是个体p或q所访问的第i个站点的频数。len(A_t)(t＝p或q)即为个体p或q 所访问的总体加权站点频数len(A_p)或len(A_a)。当二者共同访问过的站点不为空

时，spaSim(p，q)＞0；当A_p＝A_q时，spaSim(u_p，u_q)＝1.

步骤1.3：时间模式相似性度量

使用两个离散的频率直方图

和

来表示两个扒窃个体p和q在不同时段的出行概率。则p和q在时间模式上相似性

可定量表示为两个频率直方图之间的分布差异，可采用运输问题中的供需平衡方法地面移动距离EMD距离(Earth movement distance)计算得到。即：将H_a ^p中的元素看作

处的供应者，将H_a ^q中的元素看作

处的需求者，则

表示。其计算公式见式(3)。式中，d_ij是位置

和

间的地面距离。

步骤1.4：时空模式相似性度量

扒窃个体在时间和空间上的同时存在性是彼此间相互协作的必备条件。因此度量两个扒窃个体p和q在时空模式上的相似性stSin(p，q)可表示为p和q在空间、时间上的模式相似性的乘积，如公式(4)所示。

步骤1.5：基于移动模式加权的相似性度量

由表1可知，我们可从mobSpaSim、mobTmSim和mobStSim维度量化扒窃个体间交通模式的加权相似性。本发明进一步以mobStSim为例，通过加权移动模式相似性算子mobSim与时空模式相似性算子stSim，来度量扒窃个体的相似性，具体计算方式如式(5)所示。式中，两个扒窃个体p和q在移动与时空模式的加权相似性算子为

α和β分别是mobSim和stSim的权重系数，用以表示两种相似性算子在度量时空与移动模式加权值时的重要程度，且α+β＝1。

为每个加权算子之后的数字，代表组合项中mobSim的α对应配比系数，且

针对mobStSim1而言，

α＝0.1，β＝0.9，表示mobSim 和stSim的权重配比为1∶9。其他加权算子以此类推。

经过多组实验发现，mobSim算子在度量扒窃个体间交通模式相似性方面具有双刃剑的作用。一方面，mobSim有利于提高其他相似性算子的度量精度，另一方面，mobSim算子会引发更高的误报率。因此，将mobSi_m的最大权值设置为0.5，即α≤0.5，那么

的最大值为5。

综上，步骤1共提取了19组相似性算子来度量两两扒窃个体在交通模式上的相似性。这些算子也将作为步骤2的输入变量之一，用于有监督式分类学习中。

步骤2：基于扒窃个体对监督学习的优选相似性算子提取

步骤2.1数据预处理

该步骤的输入数据集为：带标签的两两扒窃个体对数据集和任意扒窃个体对的19组相似性算子集合。两两扒窃个体对的标定方式为：首先提取目标个体对的历史出行记录，观察二者是否在时间上和空间上具有并发性，如果并发事件较高，则将二者标定为具有伴随性质的扒窃个体对。考虑到真实情况中扒窃团体的人数一般不超过20人，因此，本发明率先为每个扒窃个体选取了模式相似度排在前20位的潜在伴随个体，以加快后续算法的处理效率。

步骤2.2有监督式分类

进一步采用5种常见的分类器，在19组不同相似性算子下，来自动学习两两扒窃个体对数据集中的具有真实伴随性质的扒窃个体对。这些分类器分别为：一层神经网络(NN)、k近邻填充(KNN)、逻辑回归(LR)、朴素贝叶斯(NB) 和决策树(DT)。在任何一种分类器下，采取10倍交叉验证方式学习两两扒窃个体，选取其中一份样本个体的属性特征数据进行训练估计后，利用第二份未参与训练的个体样本来测试模型对所属类别的判断准确性，并对模型选取的特征属性变量进行修正调整，如此循环迭代10次完成对两两扒窃个体的离线训练。

步骤2.3分类结果评估

采用精度(precision)和召回率(recall)这两类指标来评估有监督式分类的学习效果。其中，精度是指精确性的度量，是所有预测的两两扒窃个体对中真实扒窃个体对所占的百分比。召回率是完全性的度量，是所有真实两两扒窃个体对中被预测出来的百分比。最终，基于3组加权组相似性算子对扒窃个体对的评估效果，各选取1个相似性算子与简单组相似性算子组合为具有典型代表性的相似性算子，作为步骤3扒窃团体自动检测中关联图构建环节的边权值优选集。

步骤3：基于Louvain算法的扒窃自动检测

步骤3.1：扒窃关联图构建

将扒窃个体间的关联网络类比为一张扒窃关联图G，且G＝(V，E)。其中，尸和E是指扒窃关联图G中的所有节点和边的集合。团体中各扒窃个体p或q可类比为图上的节点p′，q′∈V；扒窃个体p、q间的关联性可类比为图上的边 e_p′q′∈E；扒窃个体间的相似性，(即关联强度)可类比为图上边的权值。一般，两两扒窃个体越相似，则二者关联强度越强，边权值越大。可选的边权值即为步骤2输出的扒窃个体间的优选相似性算子集合，包括mobSim、spaSim、tmSim、 stSim、mobSpaSim1、mobTmSim1和mobStSim3。因此，变换这7种边权值构建7张扒窃关联图，并将其作为步骤3.2的输入数据集。

步骤3.2：基于模块度最优化的扒窃团体自动检测

本发明采用一种基于模块度Q最优的Louvain算法来检测不同边权值量化方式下扒窃关联图上的聚集模块(团体)。该算法是目前被公认为运行最快的团体划分算法之一。该算法采用基于模块度Q最优的思想来迭代更新团体的检测性能。具体介绍当边权值为mobStSim(p，q)时，模块度Q的计算方式，如式(6) 所示。式中，mobStSim(p，q)指的是节点p′和q′的连接边的权值，即扒窃个体p、 q间的相似程度。k_p′或k_q′是指所有邻接节点p′或q′的边权值之和，且 k_p′＝∑_q′mobStSin(p，q)。m是网络中所有边的权值之和。 m＝1/2×∑_p′q′mobStSim(p，q)。

用来描述节点p′和q′所在图结构是否相同的布尔指针。如果c_p′＝c_q′，则

否则为0。一般来说，模块度Q越大，得到的团体内部聚集性越好，团体间分离性越大。

Louvain算法的实现过程包括2个阶段。阶段1中，每个节点被视为一个单独团体，节点p’能与邻近的节点q′合并的唯一条件是合并后能带来非负的模块度增益。该阶段结束后将产生一个初步的团体划分结果。阶段2中，同一团体中的节点被压缩为一个新节点，团体的内部边权值之和转化为新节点的自环边权值，团体间的边权值之和转化为所对应的新节点之间的边权值。之后，运用阶段1 中的方法对新的网络图进行划分，并沿着使模块度Q最优的方向进行节点迭代凝聚。当Q达到最大且不再发生变化时，算法收敛。此时，图G＝(V，E)最终被划分为k个不相交的团体结构G_i＝(V_i，E_i)(i＝1，2，...，k)。其中，每一个团体中仅包含在时空和移动模式上具有强相似性的扒窃个体。这些扒窃个体组成了地面公交场所内具有协作犯案特性的扒窃团体。

步骤4：扒窃团体匹配验证

是C中某扒窃个体s_j全体出行记录集合

的任意一条出行记录。

和

即e_i与

在时间或空间上呈现重叠性。当二者在时间和空间上同时具备重叠性则称为精确匹配(ExactMatch)，否则为模糊匹配(FuzzyMatch)。用同样的方式继续验证当前扒窃事件e_i是否仍与C中的其他扒窃个体存在匹配关系。若e_i与C中超过1名扒窃个体存在匹配关系，则认为扒窃团体真实存在。具体的微博验证技术路线如图2所示。

实施例1：

一种基于模块度最优化的地面公交扒窃团体自动检测方法的流程图如图1所示，包括以下步骤：

步骤1：扒窃个体间相似性算子度量；

步骤2：基于扒窃个体对监督学习的优选相似性算子提取；

步骤3：基于Louvain算法的扒窃自动检测；

步骤4：扒窃团体匹配验证。

选取北京市地面公交IC卡刷卡数据、地面公交扒手数据和扒窃相关社交网络为例，介绍本发明的应用实例。

公交IC卡数据集的时段为2015年8月3日至28日的20个工作日，其中包含 407万个体的9505万条出行记录。扒手数据为2015年北京市公安局反扒大队抓获的104位地面公交扒窃个体，其中包含扒手的公交IC卡号。同时，本发明爬取了2013年1月至2017年9月期间发布于新浪微博上的扒窃相关博文数据源，相关公开博文共计1.53万条。基于这些博文数据构建扒窃团体事件数据库，并将其作为验证数据集，验证扒窃团体事件。

(1)扒窃个体间相似性算子度量

表1示例列举了20组两两扒窃卡号在19组相似性算子下的数值分布情况。

表1 19组相似性算子示例

表1 19组相似性算子示例(续)

(2)基于扒窃个体对监督学习的优选相似性算子提取

继续分析基于扒窃个体对监督学习的优选相似性算子提取结果。首先，分析不同分类器下两两扒窃个体自动检测的精度和召回率。如图3( a)所示，LR和 NN分别是简单组相似度算子下precision平均值最高和最低的分类器。但图3( b) 可知，简单组相似度算子下个分类器所得的recall并无显著性差异。当采用加权组相似度算子来度量两两扒窃个体相似性时，各分类器下得到的precision或 recall间的差异性都消失。不论在何种相似性算子下，各分类器对两两扒窃个体的分类效果都具有良好的鲁棒性。

其次，分析不同相似性算子下两两扒窃个体的分类效果。由图3可知，在简单组相似度算子下，采用mobSim对两两扒窃个体的分类效果最差，平均precision 和recall值为简单组中的最低值0.565和0.665。可见，采用mobSim度量两两扒窃个体的相似度会带来较高的误报率。因为仅拥有移动模式相似特性并不能够说明两两扒窃个体是伴随同行者。此外，采用tmSim和spaSim度量两两扒窃个体的相似性均会带来优于mobSim的分类效果，即tmSim算子下precision和recall 平均值分别为0.741和0.742；spaSim算子下precision和recall平均值分别为0.775 和0.774。分类效果的明显提升是由于采用了比mobSim约束性更强的tmSim或 spaSim来度量两两扒窃个体。同时，spaSim比tmSim的分类效果稍高一筹，这是由于扒窃团体中两两成员在实际作案中具有更明显的空间片区聚集性，而并非时间聚集性。由图3所示，简单组中前3项算子下两两扒窃个体的precision或 recall变化都呈现相近的上升趋势，但是，stSim的出现打破了上述两指标一致变化的趋势。stSim算子下，precision平均值虽然极大提升至0.807，但是recall平均值却急剧下降至0.720。这是由于stSim对两两扒窃个体提出时空同步性的强约束能够显著提高分类精度，但同时也正是因为这一强约束性使不具备时空同步性的真实扒窃个体对不能被成功检测出来，最终对真实样本的分类覆盖率较低。

在加权组嵌入mobSim能避免上述各类约束的过拟合性。从理论或实践角度上讲，加权组中相似性算子能够提升两两扒窃个体的分类效果。这是因为：理论上，算子加权能在不丢失时空约束的前提下扩大潜在扒窃伴随团体的搜索范围；实践上，该团体成员在具备时间或空间同步性的基础上，仍应当具备移动模式相似性。因此，进一步分析加权组相似性算子下两两扒窃个体的分类效果。

首先分析mobTmSim相关算子下两两扒窃个体的分类效果。如图3所示， mobTmSim1～mobTmSim5对两两扒窃个体的分类效果均超过原型tmSim的分类效果，相对较好的分类效果出现在mobTmSim1中，precision和recall平均值分别为0.770和0.764。但mobTmSim算子仍没有超过简单组中stSim的分类效果。这种现象再次说明spaSim比mobSim更适合用来学习具有空间聚集性的扒窃团体成员。这一现象可再次被mobSpaSim相关算子对两两扒窃个体较优的分类效果证实。如图3所示，mobSpaSim1～mobSpaSim5对两两扒窃个体的分类效果不仅超过原型spaSim的分类效果，且显著超过mobTmSim相关算子对两两扒窃个体的分类效果。相对较好的分类效果出现在mobSpaSim1中，precision和recall平均值分别为0.808和0.807。最后，在所有相似度算子组中，对两两扒窃个体最优的分类效果出现在本发明所提的mobStSim相关算子中，且最好的分类效果出现在mobStSim3中，precision和recall平均值分别为0.872和0.871。这种分类效果的优越性进一步证实了使用时空和移动模式加权相似性度是量两两扒窃个体相似性的最好方法。

综上，通过步骤2扒窃个体对监督学习分类实验，我们可以明确扒窃关联图中加权组算子对边权值的最优参数，即mobTmSim1、mobSpaSim1、mobStSim3。这3项加权边权值将与简单组中4项基础边权值(mobSim、tmSim、spaSim和stSim) 融合，共同评估扒窃团体的自动检测效果。

(3)基于Louvain算法的扒窃自动检测

基于北京市公安局反扒大队提供的104位地面公交扒窃个体，从公交IC卡数据集中提取了其他99位扒窃个体的潜在同行者，共计203张扒窃IC卡号以及368 条具有两两同行记录的扒窃个体。其中，个体间关联度用最优的mobStSim3算子计算得到。最终基于上述扒窃个体的社会网络关系构建了扒窃关联图，如图4 所示。该图包含203个节点(扒窃个体)，368条节点边(两两扒窃个体关联性)，且几个明显的聚集模块将该图划分成多个不相交的子图，即各自独立的扒窃团体。采用Louvain算法发现扒窃关联图中的潜在扒窃团体。算法最终得到的模块度Q为0.685。只要该值介于0.8以内，则可说明团体检测的性能较好。算法共提取了63个团体，且每个团体成员间均具有时空与移动模式上的相似性。

(4)扒窃团体匹配验证

本发明提取了2013 10位专家采用社交网络数据对扒窃团体进行匹配验证，匹配结果如图5所示。图中，横轴为团体中成员的数据，左侧纵轴为每个团体中成功匹配的成员数量，右侧纵轴为匹配率，即所匹配成员数量在真实团体成员总数的比重。由图可知，专家在31次精确匹配和73次模糊匹配后，认证通过了 104个先验的扒窃个体和34个真实扒窃团体。每个团体的平均成员人数为3.05。此外，5个扒窃团体的成员人数最多，分别包含了24、12、10、9和9人，并被视为最危险的5个扒窃团体。当成员人数超过5人时，匹配率也随着团体成员人数的增多而呈现上升趋势。这是因为团体越大，成员作案率越高，而被抓捕的可能性也就越高。

如图5所示，当mobSim作为边权值度量扒窃团体时，尽管recall较高，为 0.667，但检测精度最差，仅为0.285。这种团体检测的高误报率是由其在两两扒窃个体检测时的高误报率引发。此外，采用tmSim和spaSim边权值检测扒窃团体均会带来优于mobSim的效果，即tmSim边权值下，precision和recall分别为 0.317和0.606；spaSim边权值下，precision和recall分别为0.333和0.617。团体检测效果的显著提升是由于边权值采用了比mobSim约束性更强的tmSim或 spaSim来度量扒窃团体。同时，spaSim比tmSim的团体检测效果稍高一筹，原因也即上述提及的扒窃团体具有空间片区聚集性。对于stSim算子，precision虽然极大提升至0.365，但是recall却急剧下降至0.605。可见，尽管stSim是目前个体间相似性的最佳度量指标，但依然存在一定误报率。究其原因，具有时空相似性而无移动模式相似性的两两扒窃个体未必属于同一扒窃团体。

但是，当简单组中边权值嵌入mobSim后，可有效避免上述各类约束的过拟合性现象。扒窃团体的检测效果出现持续上升的趋势，例如mobTmSim1边权值下，precision和recall分别为0.380和0.667；mobSpaSim1边权值下，precision 和recall分别为0.396和0.694。最好的团体检测效果出现在mobStSim3中， precision和recall分别为0.539和0.85。mobStSim3的优越性是由于时空加权移动模式的边权值能在不丢失时空约束的前提下扩大潜在扒窃伴随团体的搜索范围。可见，当以mobSt3Sim作为图上的边权值用于检测扒窃团体时，能够取得最好的检测效果和覆盖率。实验结果中，无论采用何种相似性算子，所检测团体验证 precision都普遍偏低，最高precision也只有0.539。这是因为通过微博数据只能爬取数量有限的、公开的扒窃团体信息。这些扒窃团体信息一般是由个人或官方安全组织通过新浪微博公开报道。在现实的地面公交场所内，仍有大量的扒窃侵害事件虽然发生，但未被报道；或者未通过微博渠道报道。这些因素是导致本发明检测精度precision偏低的原因。尽管如此，本发明在地面公交扒窃团体事件检测的召回率recall最高值依然可达到0.85，证实本分法的召回稳健性。

Claims

1.一种基于模块度最优化的地面公交扒窃团体自动检测方法，其特征在于，包括以下步骤

步骤1：扒窃个体间相似性算子度量

在一起团伙扒窃事件中，扒窃团体间成员间的协作性促使两两扒窃个体在移动模式、空间、时间和时空维度呈现出行相似性，分别采用mobSim、spaSim、tmSim、stSim予以标记，各算子的计算方式见步骤1.1至步骤1.5，

步骤1.1：移动模式相似性算子mobSim度量

对于移动模式相似性算子mobSim而言，它量化的是个体间以出行特征序列为表征的移动模式相似性，扒窃个体p和q二者的移动模式相似性mobSim(p,q)为其移动模式相异性mobDis(p,q)的指数反函数，计算方式见公式(1)，式中，δ为幂平衡算子，用于确保mobSim(p,q)介于[0，1]范围内，

为mobDis(p,q)标准化后的数值，mobDis(p,q)是用于度量p、q各自出行特征序列f_p和f_q的欧式距离，

和

分别代表f_p和f_q的第d维特征指标，

步骤1.2：空间模式相似性算子spaSim度量

对于空间模式相似性算子spaSim，采用文本相似性的原理度量，分别收集扒窃个体p和q二者所访问过的站点集合A_p或A_q，并为集合内的任一站点a_i计算p或q在该点的访问频数

或

遍历二者共同访问过的站点由此计算二者在每一个共同访问站点的累计余弦相似度，从而完成对二者空间模式相似性spaSim(p,q)的度量，计算方式见公式(2)，式中，len(A_p)或len(A_q)分别为个体p或q的总体加权站点访问频数，当二者共同访问过的站点不为空时，即

spaSim(p,q)＞0；当A_p＝A_q时，spaSim(p,q)＝1，

步骤1.3：时间模式相似性算子tmSim度量

对于时间模式相似性算子tmSim，采用运输问题中的供需平衡原理予以度量，对于扒窃个体p，构建频率直方图

来刻画其在任一时段

的出行频率

转义为运输领域问题“供应商H^p在产地

供应货物量

”；同理，构建频率直方图

来刻画扒窃个体q在时段

的出行频率

转义为运输领域问题“需求商H^q在销地

需求货物量

”，那么p和q在时间模式上的相似性tmSim(p,q)表示为上述以频率直方图为表征的供、需方的最小地面移动距离EMD(H^p,H^q)，本着“供需平衡”的原理，EMD(H^p,H^q)是关于最小运输总量

与产销两地地面运输距离

乘积的指数函数，计算公式见公式(3)，

步骤1.4：时空模式相似性算子stSim度量

时空模式相似性算子stSim是关于空间模式相似性算子spaSim和时间模式相似性算子tmSim的乘积，扒窃个体p和q二者的时空模式相似性算子stSim(p,q)的计算方式见公式(4)，

步骤1.5：移动模式加权相似性算子度量

此外，考虑到扒窃个体间移动模式在空间、在时间或在时空维度上同样具有加权相似性，进一步采用加权算子mobSpaSim、mobTmSim、mobStSim来度量标记，这3种加权算子的定义及计算方式如下，

首先，mobSpaSim是移动模式相似性算子mobSim与空间模式相似性算子spaSim的加权值，计算方式见公式(5)，二者的权重系数分别为

和

θ₁是mobSim权重系数的十倍配比整数，θ₁∈[1,5]，意味着mobSpaSim有5种实例取值，分别为：mobSpaSim1、mobSpaSim2、mobSpaSim3、mobSpaSim4、mobSpaSim5，对应推导出mobSim和spaSim的权重配比分别为1：9、2：8、3：7、4：6、5：5，

其次，mobTmSim是移动模式相似性算子mobSim与时间模式相似性算子tmSim的加权值，计算方式见公式(6)，二者的权重系数分别为

和

θ₂是mobSim权重系数的十倍配比整数，θ₂∈[1,5]，意味着mobTmSim有5种实例取值，分别为：mobTmSim1、mobTmSim2、mobTmSim3、mobTmSim4、mobTmSim5，对应推导出mobSim和tmSim的权重配比分别为1：9、2：8、3：7、4：6、5：5，

最后，mobStSim是移动模式相似性算子mobSim与时空模式相似性算子stSim的加权值，计算方式见公式(7)，二者的权重系数分别为

和

θ₃是mobStSim中分项mobSim权重系数的十倍配比整数，θ₃∈[1,5]，意味着mobStSim有5种实例取值，分别为：mobStSim1、mobStSim2、mobStSim3、mobStSim4、mobStSim5，对应推导出mobSim和stSim的权重配比分别为1：9、2：8、3：7、4：6、5：5，

综上，根据相似性算子是否进行mobSim加权，将其各自归入简单组和加权组，以便从多维度量化扒窃个体间交通模式相似性，其中，简单组算子共计4类，即：mobSim、spaSim、tmSim、stSim；加权组算子共计15类，即：mobSpaSimθ₁、mobTmSimθ₂、mobStSimθ₃，两组算子合计19类；

步骤2：基于扒窃个体对监督学习的优选相似性算子提取

通过变换分类器和个体间相似性算子的方式，设计多组有监督式分类学习实验，来自动检测数据集中的真实两两扒窃个体对，并对每组分类实验下的精度和召回率进行效果评估，最终选出在评估效果上具有典型代表性的相似性算子，以开展后续的团体检测工作，其中，多组分类学习实验的设计方式为：依次变换步骤1中提及的19种相似性度量算子，并同时变换一层神经网络、k近邻填充、逻辑回归、朴素贝叶斯和决策树这5种分类器，累计开展19×5组扒窃个体对的监督学习实验予以施行；

步骤3：基于Louvain算法的扒窃自动检测

将扒窃团体中任一扒窃个体类比为图上的节点，同时，将步骤2中输出的优选相似性算子类比为图上的边权值，构建扒窃关联图，再采用基于模块度最优化的Louvain算法自动检测扒窃关联图中的潜在扒窃团体；其中，根据输出的优选相似性算子的个数对应构建多个扒窃关联图；

步骤4：对步骤3检测的扒窃团体进行匹配验证。

2.如权利要求1所述的基于模块度最优化的地面公交扒窃团体自动检测方法，步骤1提及移动模式相似性由出行特征序列表征，其特征在于：从空间、时间和属性维度提取7维出行特征关键指标，来量化表达每个扒窃个体的出行特征序列，这7维特征分别是：隐患站点个数、站点片区熵值、站点时间熵值、高峰时段访问频率、频繁出行频率、最频繁出行路径比重、短途出行比重，其中，

a)隐患站点个数是指某个体访问所有隐患站点片区的总体次数，其中，站点片区是指个体以最大步行距离1km为活动半径所能到达的公交站点及其周边区域；隐患站点片区是指客流量超过给定阈值的站点片区；

b)站点片区熵值是指某个体所访问站点片区的空间紊乱程度；

c)站点时间熵值是指某个体所访问站点的时间紊乱程度；

d)高峰时段访问频率是指某个体在高峰时段6:00～9:00或17:00～20:00间出行次数占总体出行次数的比重；

e)频繁出行频率是频繁出行天数占总体出行天数的比重，而频繁出行是指某一个体在一天的出行次数超过5次；

f)最频繁出行路径比重是指某一个体最频繁使用的OD对占总体OD对数的比重；

g)短途出行比重是指某一个体出行时间不超过10min的次数占总体出行次数的比重。

3.如权利要求1所述的基于模块度最优化的地面公交扒窃团体自动检测方法，其特征在于，步骤3具体为：

步骤3.1：扒窃关联图构建

将扒窃个体间的关联网络类比为一张扒窃关联图G＝(V,E)，V和E分别指代扒窃关联图G中的所有节点集合和边集合，团体中各扒窃个体p或q类比为图上的节点，其中，p′∈V，q′∈V；若扒窃个体p、q关联，则在图上构建一条边e_p′,q′∈E，而该边的权值为p、q间的关联值，由步骤2中输出的优选相似性算子量化得到，由此完成扒窃关联图的构建，并作为步骤3.2的输入数据集，

步骤3.2：基于模块度最优化的扒窃团体自动检测

采用基于模块度Q最优的Louvain算法来检测不同边权值量化方式下扒窃关联图上的聚集模块，当节点p′和q′的连接边权值为mobStSim3(p′,q′)时，模块度Q的计算方式见公式(10)，式中，k_p′或k_q′是指所有邻接节点p′或q′的边权值之和，

m是网络中所有边的权值之和，

否则为0；模块度Q越大，得到的团体内部聚集性越好，团体间分离性越大，

Louvain算法的实现过程包括2个阶段：

阶段1中，每个节点被视为一个单独团体，节点p′能与邻近节点q′合并的唯一条件是合并后能带来非负的模块度增益，该阶段结束后将产生一个初步的团体划分结果，

阶段2中，同一团体中的节点被压缩为一个新节点，团体的内部边权值之和转化为新节点的自环边权值，团体间的边权值之和转化为所对应的新节点之间的边权值，随后运用阶段1中的方法对新的网络图进行划分，并沿着使模块度Q最优的方向进行节点迭代凝聚，当Q达到最大且不再发生变化时，算法收敛，此时，图G＝(V,E)最终被划分为k个不相交的团体结构G_i＝(V_i,E_i)，i＝1,2,…,k，每一个团体仅包含在时空和移动模式上具有强相似性的扒窃个体，这些扒窃个体组成了地面公交场所内具有协作犯案特性的扒窃团体。

4.如权利要求1所述的基于模块度最优化的地面公交扒窃团体自动检测方法，其特征在于，步骤4具体为：

采用了2013年1月至2017年9月期间发布于新浪微博上的扒窃相关博文数据源，基于博文数据源构建扒窃数据库C_r，邀请10位专家，采用所述扒窃数据库C_r对Louvain算法所检测扒窃团体C_l进行真实性验证，假设Tr_r是扒窃数据库C_r中任意一条扒窃事件记录，Tr_r∈C_r；Tr_l是C_l中某扒窃个体s_l的任意一条出行记录；r_r和r_l分别代表Tr_r以及Tr_l案发时所处的公交线路，那么，s_l验证为真实扒窃个体的标准是：某起扒窃事件Tr_r的发生恰巧伴随着s_l的一条出行记录Tr_l，这意味着Tr_r与Tr_l在时间或空间上呈现重叠性，当二者在时间和空间上同时具备重叠性称为精确匹配，否则为模糊匹配；用同样的方式继续验证当前扒窃事件Tr_r是否仍与C_l中的其他扒窃个体存在匹配关系，若Tr_r与C_l中超过1名扒窃个体存在匹配关系，则认为扒窃团体真实存在。