CN107992902A

CN107992902A - 一种基于监督学习的地面公交扒窃个体自动检测方法

Info

Publication number: CN107992902A
Application number: CN201711399106.3A
Authority: CN
Inventors: 尹宝才; 赵霞; 张勇; 张可; 王文婷
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-05-04
Anticipated expiration: 2037-12-22
Also published as: CN107992902B

Abstract

本发明公开一种基于监督学习的地面公交扒窃个体自动检测方法。针对目前在公共交通安全监管方面尚缺乏一套有效的智能交通数据分析方法以自动检测地面公交扒窃个体的问题，本发明采用地面公交大数据和社交网络有效数据，提出一种基于有监督式分类的地面公交扒窃个体自动检测方法，包括以下步骤：步骤1：提取异常出行关键特征；步骤2：嵌入扒窃组别的聚类分析；步骤3：扒窃个体样本库构建；步骤4：扒窃个体有监督式分类。本发明提出的地面公交扒窃个体自动检测方法可应用于公共交通行业数据分析平台，为扒窃个体检测、扒窃事件预警及可视化布控提供科学依据。

Description

一种基于监督学习的地面公交扒窃个体自动检测方法

技术领域

本发明属于公共交通异常检测领域，尤其涉及一种基于监督学习的地面公交扒窃个体自动检测方法。

背景技术

人流密集且流动频繁的公共交通场所极易滋生扒窃事件，在高峰时间、热点区域处尤为严重。有效打击场所内的扒窃事件是保障公共交通安全运营的重要途径。虽然短期警力投入能够显著抑制扒窃事件的发生，但仍不能从源头上有效遏制其发展态势。究其原因，尚缺乏一套有效的地面公交扒窃个体自动检测方法。

历年针对公共交通异常检测的专利主要是以硬件报警设施为主。例如，申请号为200820052528.3的专利公开了一种公共客运车和轨道客运列车车厢防盗语音报警器的实用新型，可在个体发现扒手时触发使用。但是这类发明通常只适用于事中报警，未考虑报警后车厢内产生的个体骚动、扒窃反击等安全隐患，也无法提前预警异常事件。近年来，大数据的采集为自动检测异常个体提供数据驱动支持。与传统的基于硬件设施报警检测异常个体的方法不同，基于大数据驱动的异常检测方法是在历史数据的基础上，通过训练历史工作模式，应用于现有工作模式的学习中。这类方法能够提前检测显著偏离于正常模式之外的异常工作模式。例如，申请号为201710161500.7的专利公开了一种基于视频分析的打架斗殴异常行为自动检测方法，根据视频中的人体姿态、动作、表情等可视元素准确标定并学习异常事件(如打架斗殴)。但视频数据的区域联动性差、分辨率低等问题决定了上述专利只适用于单点异常事件检测，并不适用于具有大规模网络特性的公共交通异常个体检测。申请号为201510937719.2的专利公开了一种异常行为检测方法，通过观察一定时期内多组别个体在普适环境中的既定行为模式来检测其未来异常行为。这类专利对所学样本的发生率有较高要求。样本间的显著不均衡性(如小概率异常事件)会显著降低这类方法的训练精度，因而不适用于具有小概率特性的公共交通异常扒窃个体的检测。基于此，申请号为201611232408.7的专利公开了一种基于大数据机器学习的异常行为发现方法及系统，提出一套2阶段分类方法来检测异常个体，即：首先有效分离出正常、异常训练样本直至二者达到合理配比后，人工添加样本标签，以便有监督式检测异常样本。实验结果虽证实该框架的高效性，但仍无法准确判定具有复合特征的训练样本的标签。此外，这类方法也无法有效检测不同类型的异常个体，如固定场所作案或游荡型作案的扒窃个体。

基于此，本发明提出一种基于监督学习的地面公交扒窃个体自动检测方法。研究成果可应用于公共交通行业数据分析平台，为扒窃个体检测、扒窃事件预警及可视化布控提供科学依据。

发明内容

针对现有技术中存在的上述问题，本发明采用地面公交大数据和社交网络有效数据，提出一种基于监督学习的地面公交扒窃个体自动检测方法。从空间、时间和属性维度提取异常出行关键特征之后，嵌入先验扒窃类型对全体数据进行组别细分和无监督式聚类，采用ROCF和LOF算子对类和类内潜在异常个体进行标定，以构建扒窃个体样本库，最终应用于有监督式的扒窃个体分类学习中。

为实现上述目的，本发明采用如下的技术方案：

一种基于监督学习的地面公交扒窃个体自动检测方法包括以下步骤：

步骤1：分别从空间、时间和属性维度提取7个表示扒窃个体出行的特征指标；其中，空间维度的异常出行关键特征包含：隐患站点个数(abStas)和站点片区熵值(staZnEn)，时间维度的异常出行关键特征包含：站点时间熵值(staTmEn)和高峰时段访问频率(peakTmPct)，属性维度的异常出行关键特征包含：频繁出行频率(freTraPct)、最频繁出行路径比重(maxODPct)、短途出行比重(shortTraPct)。最终基于上述7维关键出行特征指标为每一个体构建出行特征序列，以量化其移动模式。

步骤2：嵌入扒窃组别的聚类分析

步骤2.1：扒窃组别细分。

根据扒窃先验知识可知，扒窃个体在freTraPct和maxODPct指标上呈现出与正常个体截然不同的分布特性，当某一个体：

·freTraPct＞0.05，为出行频繁个体；

·maxODPct＞0.3，为拥有最频繁使用路径的个体；

根据上述两个指标将全部个体归至G1、G3、G5、G7组别，G1组可表示出行频率高并且有最频繁使用路径的个体，其他组别个体的出行特性依以此类推：

a)G1：freTraPct＞0.05及maxODPct＞0.3；

b)G3：freTraPct≤0.05及maxODPct＞0.3；

c)G5：freTraPct＞0.05及maxODPct≤0.3；

d)G7：freTraPct≤0.05及maxODPct≤0.3。

步骤2.2：无监督式聚类分析

选用基于划分思想的k-means++方法对上述4类组别个体进行聚类，选取k-means++聚集个体的关键出行特征，将具有相近移动模式的个体化为一类，为标定扒窃个体提供便利；如果某类中仅包含异常样本，则称其为纯异常类，否则为复合类。在采用k-means++算法对个体出行特征序列进行聚类之后，最终得到k种具有不同移动模式的个体类别。

步骤2.3：聚类效果评估

k-means++算法收敛的条件是所有类内个体移动模式的累积相异度最小，具体可用聚类评估指标SSE进行量化表征，SSE的计算公式见式(3)，式中，x是第i类的任一样本点，代表第i类移动模式类别下的任一个体的出行特征序列；c_i是第i类的质心，代表第i类移动模式类别下的典型出行特征序列；dist(x，c_i)是x和c_i的欧式距离，代表第i类移动模式类别下所选个体的出行特征序列与典型出行特征序列的相异度，

k-means++算法需要预设聚类数目k，该值达到最优的条件是所有类内个体移动模式的累积相异度最小，且所有类间个体移动模式的累积相异度最大，类内累积相异度可用SSE表示，而类间累积相异度可用聚类评估指标SSB量化表示，SSB是指所有类的类内质心与全体数据集质心的欧式距离的累积和，SSB与类间分离度成正比，SSB的计算公式见式(4)，式中，c是全体数据集的质心，代表全体个体的典型出行特征序列；m_i是第i类的类内样本个数，代表第i类移动模式类别下所有个体的数目，

步骤3：扒窃个体样本库构建

首先采用ROCF算子判别任一移动模式类别的类相对异常特性。如果该类是纯异常类，则将类内全部个体标记为异常个体；否则，继续从中筛选出移动模式显著偏离于类内大多数个体的潜在异常个体，计算相应的LOF算子，并将LOF算子超过某一临界阈值的潜在异常个体标记为异常个体；最后采用社交网络数据验证异常个体的扒窃特性，实现扒窃个体样本库的构建。

步骤4：基于所构建的扒窃个体样本库，采用有监督式分类方法自动检测数据集中的扒窃个体。

作为优选，步骤3中基于特征分布的潜在异常个体筛选如下：某个体成为潜在异常个体的必备条件是：

a)abStas≥10；

b)shortTraPct≥10％；

c)nightTmPct≤30％。

作为优选，步骤3中采用协同社交网络数据的扒窃个体匹配验证，具体为采用所提微博扒窃数据库E验证异常个体集合S的真实性；假设e_i是任意一条扒窃事件记录，e_i∈E，是某异常个体s_j全体出行记录集合的任意一条出行记录，和分别代表e_i以及s_j ^k案发时所处的公交线路；那么，s_j验证为真实扒窃个体的标准是：某起扒窃事件e_i的发生恰巧伴随着s_j的一条出行记录即e_i与在时间或空间上呈现重叠性，当二者在时间和空间上同时具备重叠性则称为精确匹配(ExactMatch)，否则为模糊匹配(FuzzyMatch)。

本发明具有以下有益效果：

a)在保证不丢失扒窃个体多样性的前提下，高效、精准地构建一套地面公交扒窃个体样本库；

b)基于公交IC卡刷卡大数据事前检测地面公交扒窃个体；

c)研究成果服务于公共交通安全监管领域，为扒窃个体的检测、预警、布控等业务需求提供科学依据。

附图说明

图1为基于监督学习的地面公交扒窃个体自动检测方法流程图；

图2为基于社交网络数据的扒窃个体匹配验证图；

图3(a)为聚类数目的确定；

图3(b)为聚类精度评估；

图4(a)为类异常性评估；

图4(b)为类内个体异常性评估。

具体实施方式

下面结合附图和实例对本发明做进一步说明。

如图1所示，本发明提供一种基于监督学习的地面公交扒窃个体自动检测方法，具体包括以下步骤：

步骤1：提取异常出行关键特征

分别从空间、时间和属性维度提取多个表示扒窃个体出行的特征指标。在皮尔逊相关性检验之后，最终保留7个关键特征指标，以有效区分扒窃个体和正常个体。

步骤1.1：提取空间维度的异常出行关键特征

隐患站点个数(abStas)是指某一个体访问所有隐患站点片区的总体次数。其中，站点片区是指个体以最大步行距离(一般为1km)为活动半径所能到达的公交站点及其周边区域。隐患站点片区是指客流量超过给定阈值的站点片区。一般来说，扒窃个体需频繁活动在客流密集的站点以伺机寻找作案目标。因此，abStas越大，成为潜在异常个体的概率越高。

站点片区熵值(staZnEn)是指某一个体所访问的站点片区的空间紊乱程度，其计算公式见式(1)。式中，L_u是个体u所访问的全部站点片区。O_l，u＝{o∈L_u&o∈L}是个体u所访问的特定站点片区l。|·|是u在特定区域的总体访问次数。P_u(l)是个体u访问特定站点片区l的概率，一般来说，根据扒窃形式的多样性，staZnEn呈现多级规律，当该值极大或极小时，成为潜在异常个体的概率越高。

步骤1.2：提取时间维度的异常出行关键特征

站点时间熵值(staTmEn)是指某一个体所访问站点的时间紊乱程度，其计算公式见式(2)。式中，T_u是个体u访问某一站点时的全部时段分布。O_t,u＝{o∈T_u&o∈T}是个体u访问某一站点的特定时段t。|·|是u在特定时段的总体访问次数。P_u(t)是个体u在特定时段t访问某一站点的概率，一般来说，扒窃个体需尾随正常个体伺机作案而无法自由决定下车时间，因此扒窃个体访问特定站点的时间呈现紊乱性，表现在staTmEn极大。

高峰时段访问频率(peakTmPct)是指某一个体在高峰时段(6:00～9:00或17:00～20:00)的出行次数占总体出行次数的比重。一般来说，扒窃个体更倾向选择客流拥挤的高峰时段作案以提高作案成功率。因此，peakTmPct越大，成为潜在异常个体的概率越高。

步骤1.3：提取属性维度的异常出行关键特征

频繁出行频率(freTraPct)是频繁出行天数占总体出行天数的比重。其中，频繁出行是指某一个体在一天的出行次数超过5次。一般来说，在一天内出行次数超过5次的个体占比不到10％。

最频繁出行路径比重(maxODPct)是指某一个体最频繁使用的OD对占总体OD对数的比重。一般而言，根据扒窃形式的多样性，maxODPct呈现多级规律，当该值极大或极小时，成为潜在异常个体的概率越高。

短途出行比重(shortTraPct)是指某一个体短途出行(出行时间不超过10min)的次数占总体出行次数的比重。一般来说，为成功作案，扒窃个体需在作案结束后快速离开公交车厢。因此，shortTraPct越大，成为潜在异常个体的概率越高。

最终基于上述7维关键特征指标(即abStas、staZnEn、staTmEn、peakTmPct、freTraPct、maxODPct和shortTraPct)构建出行特征序列，以量化每一出行个体的移动模式，并将其作为步骤2的输入数据集。

步骤2：嵌入扒窃组别的聚类分析

个体出行目的复合性使出行记录不具备明显的界限，不能有效划分个体。此外，数据的海量、高维特性也遏制了常规聚类方法的计算性能。基于此，提出“分组再聚类”的思想，以实现对复杂交通大数据的聚类。该方案简称为GsegClus。

步骤2.1：扒窃组别细分。

根据扒窃先验知识可知，扒窃个体在freTraPct和maxODPct指标上呈现出与正常个体截然不同的分布特性。一般而言，当某一个体：

·freTraPct＞0.05，为出行频繁个体；

·maxODPct＞0.3，为拥有最频繁使用路径的个体。

因此，根据上述两个指标将全部个体归至G1、G3、G5、G7组别。G1组可表示出行频率高并且有最频繁使用路径的个体。其他组别个体的出行特性依以此类推。

a)G1：freTraPct＞0.05及maxODPct＞0.3；

b)G3：freTraPct≤0.05及maxODPct＞0.3；

c)G5：freTraPct＞0.05及maxODPct≤0.3；

d)G7：freTraPct≤0.05及maxODPct≤0.3。

步骤2.2：无监督式聚类分析

考虑到个体在出行特征上具有不同的分布特性，选用基于划分思想的k-means++算法分别对上述4组内个体的出行特征进行聚类。该算法具有较高的计算性能和分组精度，目前受到学者的广泛青睐，可为步骤2.2标定扒窃个体提供便利。该算法的工作原理为：根据个体在出行特征维度上的相似性，将具有相近移动模式的个体聚集为一类，最终得到k种不同移动模式类别。如果某类中仅包含具有异常移动模式的个体，则称该类为纯异常类；如果某类混杂着异常个体和正常个体，则称该类为复合类。

步骤2.3：聚类效果评估

k-means++算法收敛的条件是所有类内个体移动模式的累积相异度最小，具体可用聚类评估指标SSE进行量化表征。SSE是指所有类的类内任一样本点与中心点的欧式距离的累积和。通常，SSE与类内凝聚度成反比，当SSE越小，类内凝聚度越大，聚类效果越好。SSE的计算公式见式(3)。式中，x是第i类的任一样本点，代表第i类移动模式类别下的任一个体的出行特征序列；c_i是第i类的质心，代表第i类移动模式类别下的典型出行特征序列；dist(x,c_i)是x和c_i的欧式距离，代表第i类移动模式类别下所选个体的出行特征序列与典型出行特征序列的相异度。

由于k-means++算法需要预设聚类数目k。该值达到最优的条件是所有类内个体移动模式的累积相异度最小，且所有类间个体移动模式的累积相异度最大。由上文可知，类内累积相异度可用SSE表示，而类间累积相异度可用聚类评估指标SSB量化表示。SSB是指所有类的类内质心与全体数据集质心的欧式距离的累积和。通常，SSB与类间分离度成正比，当SSB越大，类间分离度越大，聚类效果越好。SSB的计算公式见式(4)。式中，c是全体数据集的质心，代表全体个体的典型出行特征序列；m_i是第i类的类内样本个数，代表第i类移动模式类别下所有个体的数目。

步骤3：扒窃个体样本库构建

从海量交通刷卡数据中逐个判别个体出行记录以获取占比极少的扒窃个体极具低效性。且这一过程几乎不可能通过手工标定实现。基于此，本发明提出一套分级标定异常个体的方法，自动地、高效地构建一套扒窃个体样本库。具体实现方法为：首先，基于步骤2得到的k种具有不同移动模式的个体类别，采用ROCF算子判别某类移动模式的类相对异常程度。如果该类为纯异常类，则将类内全部个体标记为异常个体，此时可直接跳过步骤3.2和3.2，直接进入步骤3.4，即采用社交网络数据来验证所得异常个体是否为真实的扒窃个体。如果当前移动模式类别为复合类时，则需要进入步骤3.2和3.3，即首先从当前复合类中筛选出移动模式显著偏离于类内大多数个体的潜在异常个体，再采用LOF算子自动甄别局部近邻密度超过某一临界阈值的异常个体。最后进入步骤3.4验证异常个体的扒窃特性。最终，步骤3将输出一套验证通过的扒窃个体样本库。

步骤3.1：采用ROCF算子度量类异常性

步骤3.1采用类相对异常算子ROCF(Relative outlier cluster factor)来判别每一类移动模式的类相对异常程度。该算子是建立在“公共交通场所中扒窃个体的存在为小概率事件”的假设上。由此可断，仅包含扒窃个体的纯异常类的类内个体数目极少，而正常类或掺杂着异常个体的复合类的类内个体数目均极大。那么，纯异常类与邻近复合类在类内数目的相对变化率上将产生突变，第i种移动模式类别c_i的相对类异常因子RIFC(c_i)也将发生突变。基于此，步骤3.1将步骤2所得的k种移动模式类别组成为一个类集合C，且C＝{c_i}(i＝1，2，...，k)；将c_i的类内个体数目定义为类体积|c_i|。按类体积升序排列C中各类，即：|c₁|≤|c₂|≤…≤|c_k|。那么，针对两个体积连续的纯异常类c_i和邻近复合类c_i+1，采用TL(c_i)来量化表示类c_i与c_i+1在类体积上的相对变化率，且那么，类c_i的相对异常因子ROCF(c_i)是关于类体积相对变化率TL(c_i)的指数函数，计算方式见式(5)。

由式(5)可知，ROCF(c_i)介于[0，1]范围，当ROCF(c_i)越大，类c_i的异常程度越高。当纯异常类c_i和复合类c_i+1相邻，类c_i的相对异常因子ROCF(c_i)将显著趋于1，可有效表示类c_i的类异常性。经多组实验结果发现，当ROCF(c_i)超过临界阈值0.1时，意味着从c_i到c_i+1的类体积变化较大，集合C中类c₁到c_i(i>1)均为纯异常类，且这些类内的全部个体将标记为异常个体。这种情况下可直接跳过步骤3.2和3.2，直接进入步骤3.4来验证这些异常个体的扒窃特性。倘若ROCF(c_i)小于临界阈值0.1，意味着从c_i到c_i+1的类体积变化微小，集合C中不存在纯异常类，需要进入步骤3.2和3.2以检测复合类内离散个体的异常程度。

步骤3.2：基于特征分布的潜在异常个体筛选

为加快复合类内离散个体的异常判别效率，步骤3.2将基于统计分布思想，从任意复合类中筛选出移动模式显著偏离于类内大多数个体的潜在异常个体。通常，扒窃个体在隐患站点访问频数(abStas)、短途出行比重(shortTraPct)、夜晚(20:00～23:59)出行比重方面(nightTmPct)这些特征上与正常个体存在显著差异。因此，步骤3.2基于上述特征的统计分布特性，快速筛选出潜在异常个体。一般来说，真实扒窃个体在全体数据集的占比不超过1％，但为了极大涵盖这类群体，各项指标阈值的选取均为其50％分位数，即确保50％的个体进入各自的筛选项中进行联合筛选。这一过程允许误报现象的存在。综上，某个体成为疑似异常个体的必备条件是下列a)～c)。每个复合类中筛选所得的疑似异常个体作为步骤3.3的输入，以基于LOF算子判别这些个体在局部邻近密度方面的异常特性。

a)abStas≥10；

b)shortTraPct≥10％；

c)nightTmPct≤30％。

步骤3.3：采用LOF算子度量类内个体异常性

步骤3.3采用局部异常算子LOF(local outlier factor)来判别复合类内疑似异常个体的相对异常程度。LOF的提出是建立在异常个体是一种孤立点的思想上，这种孤立性致使我们很难为具有极端移动模式的异常个体找到k个邻域个体，使其在移动模式上与异常个体相似。假如使用局部可达密度来表示某个体周围具有相似移动模式的样本占其k邻域范围内总体样本的比重，那么，异常个体与其邻域对象周围的局部可达密度将显著不同。基于此，步骤3.3在步骤3.2提取疑似异常个体的基础上，进一步度量任一疑似异常个体o在k邻域范围内的局部异常算子LOF_k(o)。具体实现方式为：首先基于个体间移动模式的相似性，为o选定k个移动模式最相似的邻域对象，并设定任一邻域对象为o′。定义o和o′在其各自k-最近邻范围内的局部可达密度分别为lrd_k(o)和lrd_k(o′)，则LOF_k(o)即为lrd_k(o)与lrd_k(o′)的平均比值，如式(6)所示。由式(6)可知，o的可达密度越低(即lrd_k(o)越小)，o′的局部可达密度越高(即lrd_k(o′)越大)，则LOF_k(o)越大，说明o的局部异常程度越高。

当任一疑似个体o的LOF_k(o)超过给定LOF阈值时，称其为异常个体，否则为正常个体。当任一复合类内所有疑似异常个体均被验证为正常个体时，则该复合类内的其他个体均可推断为正常个体。当复合类内所有疑似异常个体均被验证为异常个体时，则这些异常个体组成了该复合类的全部异常个体。最终，所有检测出的异常个体将输入步骤3.4中，来验证这些异常个体的扒窃特性。

步骤3.4：协同社交网络数据的扒窃个体匹配验证

10位专家将进一步基于社交网络数据，对步骤3.1或步骤3.3中输出的异常个体进行扒窃特性验证。具体为采用所提微博扒窃数据库E验证异常个体集合S的真实性。假设e_i是任意一条扒窃事件记录，e_i∈E。是某异常个体s_j全体出行记录集合的任意一条出行记录。和分别代表e_i以及s_j ^k案发时所处的公交线路。那么，s_j验证为真实扒窃个体的标准是：某起扒窃事件e_i的发生恰巧伴随着s_j的一条出行记录即e_i与在时间或空间上呈现重叠性。当二者在时间和空间上同时具备重叠性则称为精确匹配(ExactMatch)，否则为模糊匹配(FuzzyMatch)。具体的微博验证技术路线如图2所示。

步骤4：扒窃个体有监督式分类

基于步骤3所构建的扒窃个体样本库，该步骤采用5种有监督式的分类器，来自动检测数据集中的扒窃个体，并对自动分类结果进行效果评估。

步骤4.1数据预处理

由于已标定的扒窃个体在全体数据集中的占比极低，有必要对全体数据集进行抽样学习，以避免第2类错误的产生。分别采用以下2种抽样方法提取待学习的数据样本。不管采取何种采样方法，最终将所有组别数据整合为一个数据集，保持各组数据均占约20％的比重。

a)下采样。将所有扒窃个体单独整合为一个组，并根据扒窃组内数量，等比例向下抽取G1、G3、G5、G7组中各复合类内正常个体的数量。

b)混合采样。根据正常个体的数量，按一定比例调整G1、G3、G5、G7组中各复合类内正常个体的数量；在将所有扒窃个体单独整合为一个组后，对其进行一定比例扩样处理。

步骤4.2有监督式分类

步骤4.2进一步采用5种常见的分类器来自动学习扒窃个体。它们分别为：一层神经网络(NN)、k近邻填充(KNN)、逻辑回归(LR)、朴素贝叶斯(NB)和决策树(DT)。在任何一种分类器下，采取10倍交叉验证方式学习异常个体，选取其中一份样本个体的属性特征数据进行训练估计后，利用第二份未参与训练的个体样本来测试模型对所属类别的判断准确性，并对模型选取的特征属性变量进行修正调整，如此循环迭代10次完成扒窃个体的离线训练。利用第二份未参与训练的个体样本来测试模型对所属类别的判断准确性，并对模型选取的特征属性变量进行修正调整，如此循环迭代10次完成扒窃个体的离线训练，预先生成一个带参数的分类器，以应用于对未知标签的出行个体的在线判别。

步骤4.3分类结果评估

采用精度(precision)和召回率(recall)这两类指标来评估有监督式分类的学习效果。其中，精度是指精确性的度量，是所有预测的个体中真实扒窃个体所占的百分比。召回率是完全性的度量，是所有真实扒窃个体中被预测出来的百分比。

实施案例1

基于监督学习的地面公交扒窃个体自动检测方法，包括以下步骤：

步骤1：提取异常出行关键特征；

步骤2：嵌入扒窃组别的聚类分析；

步骤3：扒窃个体样本库构建；

步骤4：扒窃个体有监督式分类。

选取北京市地面公交IC卡刷卡数据与扒窃相关社交网络为例，介绍本发明的应用实例。

公交IC卡数据集的时段为2015年8月3日至28日的20个工作日，其中包含407万个体的9505万条出行记录。同时，本发明爬取了2013年1月至2017年9月期间发布于新浪微博上的扒窃相关博文数据源，相关公开博文共计1.53万条。基于这些博文数据构建扒窃团体事件数据库，并将其作为验证数据集，验证异常个体的扒窃特性。

(1)提取异常出行关键特征

为每一位个体提取了7维出行特征关键指标，以有效区分扒窃个体和正常个体。这些特征为：空间维度上的隐患站点个数(abStas)和站点片区熵值(staZnEn)；时间维度上的站点时间熵值(staTmEn)和高峰时段访问频率(peakTmPct)；属性维度上的频繁出行频率(freTraPct)、最频繁出行路径比重(maxODPct)和短途出行比重(shortTraPct)。

(2)嵌入扒窃组别的聚类分析

为证明本发明所提出的“分组再聚类”GsegClus框架的精度和效度，进一步采用典型的对全体数据集进行直接聚类的方法(简称为Gall)进行对比分析。

首先，以G5子组为例，介绍两类方法下最优聚类数目的确定过程。如图3a)所示，当聚类数目从3变化值15后，SSE逐渐变小，而SSB逐渐变大。当聚类数目为12时，上述两指标第一次出现交集，达到SSE最小而SSB最大。因此，G5组的最佳聚类数目设定为12。同理，G1、G3、G7、Gall的最佳聚类数据分别设定为5、6、10和26。

在此基础上，进一步比较上述两类方法在总体类内扭曲距离(SSE)上的性能。如图3b)所示，Gall的SSE显著高于GsegClus的累计扭曲距离SSE。这说明，与传统的直接聚类方法相比，采用“分组再聚类”的方法可在不丢失扒窃个体多样性的前提下，有效提高数据集的聚类精度，减少聚类误差。除此之外，将全体数据集划分为更细粒度的子类之后，有利于学习每一子类中潜在的异常个体，使异常个体样本库更加丰富。

(3)扒窃个体样本库构建

在获取更精细粒度的子类后，先后采用ROCF算子度量类的异常因子以及采用LOF算子度量复合类内潜在异常个体的异常因子，实现对扒窃个体样本库的构建。

图4a)展示了Gall和GsegClus(G1～G7)方法下ROCF的计算结果。可见，G5组的ROCF最大，为1.03e-4，显著小于ROCF临界阈值0.1。可见，无论是通过何种方法得到的子类，都未获得任何一个纯异常类。这是由个体出行目的复合性和复杂性决定。一般来说，扒窃个体尾随正常个体作案的特性必然会使前者呈现与后者相似的“正常”模式。同时，扒窃个体出行的随机性和复杂性决定其很难有完全相似的一类群体。

通过基于多维特征统计分布的异常筛选流程后，共从407万个体的9505万条出行记录中提取了11.7万异常个体。经过10位专家的匹配验证，最终通过334次精确匹配和764次模糊匹配，构建了一个含1098位真实扒窃个体的样本库。

为进一步证实GsegClus方法下扒窃个体样本库的构建效率，本发明设计多组LOF灵敏性实验，将LOF阈值从95％位分位数(LOF95)以5％的间隔变化到5％分位数(LOF5)，统计当全部扒窃个体被完全检测出来所需遍历的样本数量，实验结果如图4b)所示。由图可知，对GsegClus而言，当类内LOF阈值达到55％分位数(LOF55，即检测5.265万个体)时，可完成扒窃个体样本库的构建。而对Gall而言，当类内LOF阈值达到5％分位数(LOF5，即检测11.11万个体)时，才可实现上述效果。倘若不提前筛选任一潜在异常个体，则需要训练上述11.7万个个体，才能实现上述效果。可见，采用“分组再聚类”的思想可在不丢失扒窃个体多样性的前提下，高效地完成扒窃个体样本库的构建。

(4)扒窃个体有监督式分类

表1展示的是不同分类器及不同数据采样方式下扒窃个体自动检测的精度和召回率。首先分析不同分类器下扒窃个体自动检测的精度和召回率。在所有的分类算法中，LR和DT分类器对扒窃个体的检测精度和召回率相对较高(precision和recall均超过了0.9)。这是由于在构建扒窃个体样本库时采用的是树状数据划分方法引起的。同时，不论在何种数据采样方式下，这两种分类器的检测精度和召回率都具有良好的鲁棒性，两者的平均检测值高达0.935和0.925。其次分析不同数据采样方式下扒窃个体自动检测的精度和召回率。数据显示，采用下采样的抽样方式可取得更好的分类精度和召回率。

表1评估不同数据采样及分类器下扒窃个体自动检测的效果

Claims

1.一种基于监督学习的地面公交扒窃个体自动检测方法，其特征在于，包括以下步骤：

步骤1：分别从空间、时间和属性维度提取多个表示扒窃个体出行的特征指标；其中，空间维度的异常出行关键特征包含：隐患站点个数(abStas)和站点片区熵值(staZnEn)，时间维度的异常出行关键特征包含：站点时间熵值(staTmEn)和高峰时段访问频率(peakTmPct)，属性维度的异常出行关键特征包含：频繁出行频率(freTraPct)、最频繁出行路径比重(maxODPct)、短途出行比重(shortTraPct)；

步骤2：嵌入扒窃组别的聚类分析

步骤2.1：扒窃组别细分。

·freTraPct＞0.05，为出行频繁个体；

·maxODPct＞0.3，为拥有最频繁使用路径的个体；

a)G1：freTraPct＞0.05及maxODPct＞0.3；

b)G3：freTraPct≤0.05及maxODPct＞0.3；

c)G5：freTraPct＞0.05及maxODPct≤0.3；

d)G7：freTraPct≤0.05及maxODPct≤0.3；

步骤2.2：无监督式聚类分析

选用基于划分思想的k-means++方法对上述4类组别个体进行聚类，选取k-means++聚集个体的关键出行特征，将具有相近移动模式的个体化为一类，为标定扒窃个体提供便利；如果某类中仅包含异常样本，则称其为纯异常类，否则为复合类；

步骤2.3：聚类效果评估

<mrow> <mi>S</mi> <mi>S</mi> <mi>E</mi> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>&Sigma;</mi> <mrow> <mi>x</mi> <mo>&Element;</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> </msub> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>S</mi> <mi>S</mi> <mi>B</mi> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>m</mi> <mi>i</mi> </msub> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

步骤3：扒窃个体样本库构建

首先采用ROCF算子判别任一类异常性，如果是纯异常类，则将类内个体全部标记为异常个体，否则，继续从中筛选潜在异常个体，采用LOF算子逐一识别出异常个体；最后采用社交网络数据验证异常个体的真实性，实现扒窃个体样本库的构建；

2.如权利要求1所述的基于监督学习的地面公交扒窃个体自动检测方法，其特征在于，步骤3中基于特征分布的潜在异常个体筛选如下：某个体成为潜在异常个体的必备条件是：

a)abStas≥10；

b)shortTraPct≥10％；

c)nightTmPct≤30％。

3.如权利要求1所述的基于监督学习的地面公交扒窃个体自动检测方法，其特征在于，步骤3采用类相对异常算子ROCF(Relative outlier cluster factor)来判别每一类移动模式的类相对异常程度；将步骤2所得的k种移动模式类别组成为一个类集合C，且C＝{c_i}(i＝1，2，...k)；将c_i的类内个体数目定义为类体积|c_i|。按类体积升序排列C中各类，即：|c₁|≤|c₂|≤…≤|c_k|，那么，针对两个体积连续的纯异常类c_i和邻近复合类c_i+1，采用TL(c_i)来量化表示类c_i与c_i+1在类体积上的相对变化率，且那么，类c_i的相对异常因子ROCF(c_i)是关于类体积相对变化率TL(c_i)的指数函数，计算方式见式(5)。

由式(5)可知，ROCF(c_i)介于[0，1]范围，当ROCF(c_i)越大，类c_i的异常程度越高；当纯异常类c_i和复合类c_i+1相邻，类c_i的相对异常因子ROCF(c_i)将显著趋于1，可有效表示类c_i的类异常性。经多组实验结果发现，当ROCF(c_i)超过临界阈值0.1时，意味着从c_i到c_i+1的类体积变化较大，集合C中类c₁到c_i(i>1)均为纯异常类，且这些类内的全部个体将标记为异常个体。

4.如权利要求3所述的基于监督学习的地面公交扒窃个体自动检测方法，其特征在于，步骤3采用局部异常算子LOF(local outlier factor)来判别复合类内疑似异常个体的相对异常程度；在提取疑似异常个体的基础上，进一步度量任一疑似异常个体o在k邻域范围内的局部异常算子LOF_k(o)；具体实现方式为：首先基于个体间移动模式的相似性，为o选定k个移动模式最相似的邻域对象，并设定任一邻域对象为o′。定义o和o′在其各自k-最近邻范围内的局部可达密度分别为lrd_k(o)和lrd_k(o′)，则LOF_k(o)即为lrd_k(o)与lrd_k(o′)的平均比值，如式(6)所示；由式(6)可知，o的可达密度越低(即lrd_k(o)越小)，o′的局部可达密度越高(即lrd_k(o′)越大)，则LOF_k(o)越大，说明o的局部异常程度越高。

<mrow> <msub> <mi>LOF</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <msup> <mi>o</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <msub> <mi>N</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> </mrow> </msub> <mfrac> <mrow> <msub> <mi>Ird</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>o</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>Ird</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>N</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

当任一疑似个体o的LOF_k(o)超过给定LOF阈值时，称其为异常个体，否则为正常个体。当任一复合类内所有疑似异常个体均被验证为正常个体时，则该复合类内的其他个体均可推断为正常个体。当复合类内所有疑似异常个体均被验证为异常个体时，则这些异常个体组成了该复合类的全部异常个体。

5.如权利要求1所述的基于监督学习的地面公交扒窃个体自动检测方法，其特征在于，步骤3中采用协同社交网络数据的扒窃个体匹配验证，具体为采用所提微博扒窃数据库E验证异常个体集合S的真实性；假设e_i是任意一条扒窃事件记录，e_i∈E，是某异常个体s_j全体出行记录集合的任意一条出行记录，和分别代表e_i以及s_j ^k案发时所处的公交线路；那么，s_j验证为真实扒窃个体的标准是：某起扒窃事件e_i的发生恰巧伴随着s_j的一条出行记录即e_i与在时间或空间上呈现重叠性，当二者在时间和空间上同时具备重叠性则称为精确匹配(ExactMatch)，否则为模糊匹配(FuzzyMatch)。