CN107992902A - 一种基于监督学习的地面公交扒窃个体自动检测方法 - Google Patents

一种基于监督学习的地面公交扒窃个体自动检测方法 Download PDF

Info

Publication number
CN107992902A
CN107992902A CN201711399106.3A CN201711399106A CN107992902A CN 107992902 A CN107992902 A CN 107992902A CN 201711399106 A CN201711399106 A CN 201711399106A CN 107992902 A CN107992902 A CN 107992902A
Authority
CN
China
Prior art keywords
class
individual
individuals
abnormal
stolen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711399106.3A
Other languages
English (en)
Other versions
CN107992902B (zh
Inventor
尹宝才
赵霞
张勇
张可
王文婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201711399106.3A priority Critical patent/CN107992902B/zh
Publication of CN107992902A publication Critical patent/CN107992902A/zh
Application granted granted Critical
Publication of CN107992902B publication Critical patent/CN107992902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Abstract

本发明公开一种基于监督学习的地面公交扒窃个体自动检测方法。针对目前在公共交通安全监管方面尚缺乏一套有效的智能交通数据分析方法以自动检测地面公交扒窃个体的问题,本发明采用地面公交大数据和社交网络有效数据,提出一种基于有监督式分类的地面公交扒窃个体自动检测方法,包括以下步骤:步骤1:提取异常出行关键特征;步骤2:嵌入扒窃组别的聚类分析;步骤3:扒窃个体样本库构建;步骤4:扒窃个体有监督式分类。本发明提出的地面公交扒窃个体自动检测方法可应用于公共交通行业数据分析平台,为扒窃个体检测、扒窃事件预警及可视化布控提供科学依据。

Description

一种基于监督学习的地面公交扒窃个体自动检测方法
技术领域
本发明属于公共交通异常检测领域,尤其涉及一种基于监督学习的地面公交扒窃个体自动检测方法。
背景技术
人流密集且流动频繁的公共交通场所极易滋生扒窃事件,在高峰时间、热点区域处尤为严重。有效打击场所内的扒窃事件是保障公共交通安全运营的重要途径。虽然短期警力投入能够显著抑制扒窃事件的发生,但仍不能从源头上有效遏制其发展态势。究其原因,尚缺乏一套有效的地面公交扒窃个体自动检测方法。
历年针对公共交通异常检测的专利主要是以硬件报警设施为主。例如,申请号为200820052528.3的专利公开了一种公共客运车和轨道客运列车车厢防盗语音报警器的实用新型,可在个体发现扒手时触发使用。但是这类发明通常只适用于事中报警,未考虑报警后车厢内产生的个体骚动、扒窃反击等安全隐患,也无法提前预警异常事件。近年来,大数据的采集为自动检测异常个体提供数据驱动支持。与传统的基于硬件设施报警检测异常个体的方法不同,基于大数据驱动的异常检测方法是在历史数据的基础上,通过训练历史工作模式,应用于现有工作模式的学习中。这类方法能够提前检测显著偏离于正常模式之外的异常工作模式。例如,申请号为201710161500.7的专利公开了一种基于视频分析的打架斗殴异常行为自动检测方法,根据视频中的人体姿态、动作、表情等可视元素准确标定并学习异常事件(如打架斗殴)。但视频数据的区域联动性差、分辨率低等问题决定了上述专利只适用于单点异常事件检测,并不适用于具有大规模网络特性的公共交通异常个体检测。申请号为201510937719.2的专利公开了一种异常行为检测方法,通过观察一定时期内多组别个体在普适环境中的既定行为模式来检测其未来异常行为。这类专利对所学样本的发生率有较高要求。样本间的显著不均衡性(如小概率异常事件)会显著降低这类方法的训练精度,因而不适用于具有小概率特性的公共交通异常扒窃个体的检测。基于此,申请号为201611232408.7的专利公开了一种基于大数据机器学习的异常行为发现方法及系统,提出一套2阶段分类方法来检测异常个体,即:首先有效分离出正常、异常训练样本直至二者达到合理配比后,人工添加样本标签,以便有监督式检测异常样本。实验结果虽证实该框架的高效性,但仍无法准确判定具有复合特征的训练样本的标签。此外,这类方法也无法有效检测不同类型的异常个体,如固定场所作案或游荡型作案的扒窃个体。
基于此,本发明提出一种基于监督学习的地面公交扒窃个体自动检测方法。研究成果可应用于公共交通行业数据分析平台,为扒窃个体检测、扒窃事件预警及可视化布控提供科学依据。
发明内容
针对现有技术中存在的上述问题,本发明采用地面公交大数据和社交网络有效数据,提出一种基于监督学习的地面公交扒窃个体自动检测方法。从空间、时间和属性维度提取异常出行关键特征之后,嵌入先验扒窃类型对全体数据进行组别细分和无监督式聚类,采用ROCF和LOF算子对类和类内潜在异常个体进行标定,以构建扒窃个体样本库,最终应用于有监督式的扒窃个体分类学习中。
为实现上述目的,本发明采用如下的技术方案:
一种基于监督学习的地面公交扒窃个体自动检测方法包括以下步骤:
步骤1:分别从空间、时间和属性维度提取7个表示扒窃个体出行的特征指标;其中,空间维度的异常出行关键特征包含:隐患站点个数(abStas)和站点片区熵值(staZnEn),时间维度的异常出行关键特征包含:站点时间熵值(staTmEn)和高峰时段访问频率(peakTmPct),属性维度的异常出行关键特征包含:频繁出行频率(freTraPct)、最频繁出行路径比重(maxODPct)、短途出行比重(shortTraPct)。最终基于上述7维关键出行特征指标为每一个体构建出行特征序列,以量化其移动模式。
步骤2:嵌入扒窃组别的聚类分析
步骤2.1:扒窃组别细分。
根据扒窃先验知识可知,扒窃个体在freTraPct和maxODPct指标上呈现出与正常个体截然不同的分布特性,当某一个体:
·freTraPct>0.05,为出行频繁个体;
·maxODPct>0.3,为拥有最频繁使用路径的个体;
根据上述两个指标将全部个体归至G1、G3、G5、G7组别,G1组可表示出行频率高并且有最频繁使用路径的个体,其他组别个体的出行特性依以此类推:
a)G1:freTraPct>0.05及maxODPct>0.3;
b)G3:freTraPct≤0.05及maxODPct>0.3;
c)G5:freTraPct>0.05及maxODPct≤0.3;
d)G7:freTraPct≤0.05及maxODPct≤0.3。
步骤2.2:无监督式聚类分析
选用基于划分思想的k-means++方法对上述4类组别个体进行聚类,选取k-means++聚集个体的关键出行特征,将具有相近移动模式的个体化为一类,为标定扒窃个体提供便利;如果某类中仅包含异常样本,则称其为纯异常类,否则为复合类。在采用k-means++算法对个体出行特征序列进行聚类之后,最终得到k种具有不同移动模式的个体类别。
步骤2.3:聚类效果评估
k-means++算法收敛的条件是所有类内个体移动模式的累积相异度最小,具体可用聚类评估指标SSE进行量化表征,SSE的计算公式见式(3),式中,x是第i类的任一样本点,代表第i类移动模式类别下的任一个体的出行特征序列;ci是第i类的质心,代表第i类移动模式类别下的典型出行特征序列;dist(x,ci)是x和ci的欧式距离,代表第i类移动模式类别下所选个体的出行特征序列与典型出行特征序列的相异度,
k-means++算法需要预设聚类数目k,该值达到最优的条件是所有类内个体移动模式的累积相异度最小,且所有类间个体移动模式的累积相异度最大,类内累积相异度可用SSE表示,而类间累积相异度可用聚类评估指标SSB量化表示,SSB是指所有类的类内质心与全体数据集质心的欧式距离的累积和,SSB与类间分离度成正比,SSB的计算公式见式(4),式中,c是全体数据集的质心,代表全体个体的典型出行特征序列;mi是第i类的类内样本个数,代表第i类移动模式类别下所有个体的数目,
步骤3:扒窃个体样本库构建
首先采用ROCF算子判别任一移动模式类别的类相对异常特性。如果该类是纯异常类,则将类内全部个体标记为异常个体;否则,继续从中筛选出移动模式显著偏离于类内大多数个体的潜在异常个体,计算相应的LOF算子,并将LOF算子超过某一临界阈值的潜在异常个体标记为异常个体;最后采用社交网络数据验证异常个体的扒窃特性,实现扒窃个体样本库的构建。
步骤4:基于所构建的扒窃个体样本库,采用有监督式分类方法自动检测数据集中的扒窃个体。
作为优选,步骤3中基于特征分布的潜在异常个体筛选如下:某个体成为潜在异常个体的必备条件是:
a)abStas≥10;
b)shortTraPct≥10%;
c)nightTmPct≤30%。
作为优选,步骤3中采用协同社交网络数据的扒窃个体匹配验证,具体为采用所提微博扒窃数据库E验证异常个体集合S的真实性;假设ei是任意一条扒窃事件记录,ei∈E,是某异常个体sj全体出行记录集合的任意一条出行记录,分别代表ei以及sj k案发时所处的公交线路;那么,sj验证为真实扒窃个体的标准是:某起扒窃事件ei的发生恰巧伴随着sj的一条出行记录即ei在时间或空间上呈现重叠性,当二者在时间和空间上同时具备重叠性则称为精确匹配(ExactMatch),否则为模糊匹配(FuzzyMatch)。
本发明具有以下有益效果:
a)在保证不丢失扒窃个体多样性的前提下,高效、精准地构建一套地面公交扒窃个体样本库;
b)基于公交IC卡刷卡大数据事前检测地面公交扒窃个体;
c)研究成果服务于公共交通安全监管领域,为扒窃个体的检测、预警、布控等业务需求提供科学依据。
附图说明
图1为基于监督学习的地面公交扒窃个体自动检测方法流程图;
图2为基于社交网络数据的扒窃个体匹配验证图;
图3(a)为聚类数目的确定;
图3(b)为聚类精度评估;
图4(a)为类异常性评估;
图4(b)为类内个体异常性评估。
具体实施方式
下面结合附图和实例对本发明做进一步说明。
如图1所示,本发明提供一种基于监督学习的地面公交扒窃个体自动检测方法,具体包括以下步骤:
步骤1:提取异常出行关键特征
分别从空间、时间和属性维度提取多个表示扒窃个体出行的特征指标。在皮尔逊相关性检验之后,最终保留7个关键特征指标,以有效区分扒窃个体和正常个体。
步骤1.1:提取空间维度的异常出行关键特征
隐患站点个数(abStas)是指某一个体访问所有隐患站点片区的总体次数。其中,站点片区是指个体以最大步行距离(一般为1km)为活动半径所能到达的公交站点及其周边区域。隐患站点片区是指客流量超过给定阈值的站点片区。一般来说,扒窃个体需频繁活动在客流密集的站点以伺机寻找作案目标。因此,abStas越大,成为潜在异常个体的概率越高。
站点片区熵值(staZnEn)是指某一个体所访问的站点片区的空间紊乱程度,其计算公式见式(1)。式中,Lu是个体u所访问的全部站点片区。Ol,u={o∈Lu&o∈L}是个体u所访问的特定站点片区l。|·|是u在特定区域的总体访问次数。Pu(l)是个体u访问特定站点片区l的概率,一般来说,根据扒窃形式的多样性,staZnEn呈现多级规律,当该值极大或极小时,成为潜在异常个体的概率越高。
步骤1.2:提取时间维度的异常出行关键特征
站点时间熵值(staTmEn)是指某一个体所访问站点的时间紊乱程度,其计算公式见式(2)。式中,Tu是个体u访问某一站点时的全部时段分布。Ot,u={o∈Tu&o∈T}是个体u访问某一站点的特定时段t。|·|是u在特定时段的总体访问次数。Pu(t)是个体u在特定时段t访问某一站点的概率,一般来说,扒窃个体需尾随正常个体伺机作案而无法自由决定下车时间,因此扒窃个体访问特定站点的时间呈现紊乱性,表现在staTmEn极大。
高峰时段访问频率(peakTmPct)是指某一个体在高峰时段(6:00~9:00或17:00~20:00)的出行次数占总体出行次数的比重。一般来说,扒窃个体更倾向选择客流拥挤的高峰时段作案以提高作案成功率。因此,peakTmPct越大,成为潜在异常个体的概率越高。
步骤1.3:提取属性维度的异常出行关键特征
频繁出行频率(freTraPct)是频繁出行天数占总体出行天数的比重。其中,频繁出行是指某一个体在一天的出行次数超过5次。一般来说,在一天内出行次数超过5次的个体占比不到10%。
最频繁出行路径比重(maxODPct)是指某一个体最频繁使用的OD对占总体OD对数的比重。一般而言,根据扒窃形式的多样性,maxODPct呈现多级规律,当该值极大或极小时,成为潜在异常个体的概率越高。
短途出行比重(shortTraPct)是指某一个体短途出行(出行时间不超过10min)的次数占总体出行次数的比重。一般来说,为成功作案,扒窃个体需在作案结束后快速离开公交车厢。因此,shortTraPct越大,成为潜在异常个体的概率越高。
最终基于上述7维关键特征指标(即abStas、staZnEn、staTmEn、peakTmPct、freTraPct、maxODPct和shortTraPct)构建出行特征序列,以量化每一出行个体的移动模式,并将其作为步骤2的输入数据集。
步骤2:嵌入扒窃组别的聚类分析
个体出行目的复合性使出行记录不具备明显的界限,不能有效划分个体。此外,数据的海量、高维特性也遏制了常规聚类方法的计算性能。基于此,提出“分组再聚类”的思想,以实现对复杂交通大数据的聚类。该方案简称为GsegClus。
步骤2.1:扒窃组别细分。
根据扒窃先验知识可知,扒窃个体在freTraPct和maxODPct指标上呈现出与正常个体截然不同的分布特性。一般而言,当某一个体:
·freTraPct>0.05,为出行频繁个体;
·maxODPct>0.3,为拥有最频繁使用路径的个体。
因此,根据上述两个指标将全部个体归至G1、G3、G5、G7组别。G1组可表示出行频率高并且有最频繁使用路径的个体。其他组别个体的出行特性依以此类推。
a)G1:freTraPct>0.05及maxODPct>0.3;
b)G3:freTraPct≤0.05及maxODPct>0.3;
c)G5:freTraPct>0.05及maxODPct≤0.3;
d)G7:freTraPct≤0.05及maxODPct≤0.3。
步骤2.2:无监督式聚类分析
考虑到个体在出行特征上具有不同的分布特性,选用基于划分思想的k-means++算法分别对上述4组内个体的出行特征进行聚类。该算法具有较高的计算性能和分组精度,目前受到学者的广泛青睐,可为步骤2.2标定扒窃个体提供便利。该算法的工作原理为:根据个体在出行特征维度上的相似性,将具有相近移动模式的个体聚集为一类,最终得到k种不同移动模式类别。如果某类中仅包含具有异常移动模式的个体,则称该类为纯异常类;如果某类混杂着异常个体和正常个体,则称该类为复合类。
步骤2.3:聚类效果评估
k-means++算法收敛的条件是所有类内个体移动模式的累积相异度最小,具体可用聚类评估指标SSE进行量化表征。SSE是指所有类的类内任一样本点与中心点的欧式距离的累积和。通常,SSE与类内凝聚度成反比,当SSE越小,类内凝聚度越大,聚类效果越好。SSE的计算公式见式(3)。式中,x是第i类的任一样本点,代表第i类移动模式类别下的任一个体的出行特征序列;ci是第i类的质心,代表第i类移动模式类别下的典型出行特征序列;dist(x,ci)是x和ci的欧式距离,代表第i类移动模式类别下所选个体的出行特征序列与典型出行特征序列的相异度。
由于k-means++算法需要预设聚类数目k。该值达到最优的条件是所有类内个体移动模式的累积相异度最小,且所有类间个体移动模式的累积相异度最大。由上文可知,类内累积相异度可用SSE表示,而类间累积相异度可用聚类评估指标SSB量化表示。SSB是指所有类的类内质心与全体数据集质心的欧式距离的累积和。通常,SSB与类间分离度成正比,当SSB越大,类间分离度越大,聚类效果越好。SSB的计算公式见式(4)。式中,c是全体数据集的质心,代表全体个体的典型出行特征序列;mi是第i类的类内样本个数,代表第i类移动模式类别下所有个体的数目。
步骤3:扒窃个体样本库构建
从海量交通刷卡数据中逐个判别个体出行记录以获取占比极少的扒窃个体极具低效性。且这一过程几乎不可能通过手工标定实现。基于此,本发明提出一套分级标定异常个体的方法,自动地、高效地构建一套扒窃个体样本库。具体实现方法为:首先,基于步骤2得到的k种具有不同移动模式的个体类别,采用ROCF算子判别某类移动模式的类相对异常程度。如果该类为纯异常类,则将类内全部个体标记为异常个体,此时可直接跳过步骤3.2和3.2,直接进入步骤3.4,即采用社交网络数据来验证所得异常个体是否为真实的扒窃个体。如果当前移动模式类别为复合类时,则需要进入步骤3.2和3.3,即首先从当前复合类中筛选出移动模式显著偏离于类内大多数个体的潜在异常个体,再采用LOF算子自动甄别局部近邻密度超过某一临界阈值的异常个体。最后进入步骤3.4验证异常个体的扒窃特性。最终,步骤3将输出一套验证通过的扒窃个体样本库。
步骤3.1:采用ROCF算子度量类异常性
步骤3.1采用类相对异常算子ROCF(Relative outlier cluster factor)来判别每一类移动模式的类相对异常程度。该算子是建立在“公共交通场所中扒窃个体的存在为小概率事件”的假设上。由此可断,仅包含扒窃个体的纯异常类的类内个体数目极少,而正常类或掺杂着异常个体的复合类的类内个体数目均极大。那么,纯异常类与邻近复合类在类内数目的相对变化率上将产生突变,第i种移动模式类别ci的相对类异常因子RIFC(ci)也将发生突变。基于此,步骤3.1将步骤2所得的k种移动模式类别组成为一个类集合C,且C={ci}(i=1,2,...,k);将ci的类内个体数目定义为类体积|ci|。按类体积升序排列C中各类,即:|c1|≤|c2|≤…≤|ck|。那么,针对两个体积连续的纯异常类ci和邻近复合类ci+1,采用TL(ci)来量化表示类ci与ci+1在类体积上的相对变化率,且那么,类ci的相对异常因子ROCF(ci)是关于类体积相对变化率TL(ci)的指数函数,计算方式见式(5)。
由式(5)可知,ROCF(ci)介于[0,1]范围,当ROCF(ci)越大,类ci的异常程度越高。当纯异常类ci和复合类ci+1相邻,类ci的相对异常因子ROCF(ci)将显著趋于1,可有效表示类ci的类异常性。经多组实验结果发现,当ROCF(ci)超过临界阈值0.1时,意味着从ci到ci+1的类体积变化较大,集合C中类c1到ci(i>1)均为纯异常类,且这些类内的全部个体将标记为异常个体。这种情况下可直接跳过步骤3.2和3.2,直接进入步骤3.4来验证这些异常个体的扒窃特性。倘若ROCF(ci)小于临界阈值0.1,意味着从ci到ci+1的类体积变化微小,集合C中不存在纯异常类,需要进入步骤3.2和3.2以检测复合类内离散个体的异常程度。
步骤3.2:基于特征分布的潜在异常个体筛选
为加快复合类内离散个体的异常判别效率,步骤3.2将基于统计分布思想,从任意复合类中筛选出移动模式显著偏离于类内大多数个体的潜在异常个体。通常,扒窃个体在隐患站点访问频数(abStas)、短途出行比重(shortTraPct)、夜晚(20:00~23:59)出行比重方面(nightTmPct)这些特征上与正常个体存在显著差异。因此,步骤3.2基于上述特征的统计分布特性,快速筛选出潜在异常个体。一般来说,真实扒窃个体在全体数据集的占比不超过1%,但为了极大涵盖这类群体,各项指标阈值的选取均为其50%分位数,即确保50%的个体进入各自的筛选项中进行联合筛选。这一过程允许误报现象的存在。综上,某个体成为疑似异常个体的必备条件是下列a)~c)。每个复合类中筛选所得的疑似异常个体作为步骤3.3的输入,以基于LOF算子判别这些个体在局部邻近密度方面的异常特性。
a)abStas≥10;
b)shortTraPct≥10%;
c)nightTmPct≤30%。
步骤3.3:采用LOF算子度量类内个体异常性
步骤3.3采用局部异常算子LOF(local outlier factor)来判别复合类内疑似异常个体的相对异常程度。LOF的提出是建立在异常个体是一种孤立点的思想上,这种孤立性致使我们很难为具有极端移动模式的异常个体找到k个邻域个体,使其在移动模式上与异常个体相似。假如使用局部可达密度来表示某个体周围具有相似移动模式的样本占其k邻域范围内总体样本的比重,那么,异常个体与其邻域对象周围的局部可达密度将显著不同。基于此,步骤3.3在步骤3.2提取疑似异常个体的基础上,进一步度量任一疑似异常个体o在k邻域范围内的局部异常算子LOFk(o)。具体实现方式为:首先基于个体间移动模式的相似性,为o选定k个移动模式最相似的邻域对象,并设定任一邻域对象为o′。定义o和o′在其各自k-最近邻范围内的局部可达密度分别为lrdk(o)和lrdk(o′),则LOFk(o)即为lrdk(o)与lrdk(o′)的平均比值,如式(6)所示。由式(6)可知,o的可达密度越低(即lrdk(o)越小),o′的局部可达密度越高(即lrdk(o′)越大),则LOFk(o)越大,说明o的局部异常程度越高。
当任一疑似个体o的LOFk(o)超过给定LOF阈值时,称其为异常个体,否则为正常个体。当任一复合类内所有疑似异常个体均被验证为正常个体时,则该复合类内的其他个体均可推断为正常个体。当复合类内所有疑似异常个体均被验证为异常个体时,则这些异常个体组成了该复合类的全部异常个体。最终,所有检测出的异常个体将输入步骤3.4中,来验证这些异常个体的扒窃特性。
步骤3.4:协同社交网络数据的扒窃个体匹配验证
10位专家将进一步基于社交网络数据,对步骤3.1或步骤3.3中输出的异常个体进行扒窃特性验证。具体为采用所提微博扒窃数据库E验证异常个体集合S的真实性。假设ei是任意一条扒窃事件记录,ei∈E。是某异常个体sj全体出行记录集合的任意一条出行记录。分别代表ei以及sj k案发时所处的公交线路。那么,sj验证为真实扒窃个体的标准是:某起扒窃事件ei的发生恰巧伴随着sj的一条出行记录即ei在时间或空间上呈现重叠性。当二者在时间和空间上同时具备重叠性则称为精确匹配(ExactMatch),否则为模糊匹配(FuzzyMatch)。具体的微博验证技术路线如图2所示。
步骤4:扒窃个体有监督式分类
基于步骤3所构建的扒窃个体样本库,该步骤采用5种有监督式的分类器,来自动检测数据集中的扒窃个体,并对自动分类结果进行效果评估。
步骤4.1数据预处理
由于已标定的扒窃个体在全体数据集中的占比极低,有必要对全体数据集进行抽样学习,以避免第2类错误的产生。分别采用以下2种抽样方法提取待学习的数据样本。不管采取何种采样方法,最终将所有组别数据整合为一个数据集,保持各组数据均占约20%的比重。
a)下采样。将所有扒窃个体单独整合为一个组,并根据扒窃组内数量,等比例向下抽取G1、G3、G5、G7组中各复合类内正常个体的数量。
b)混合采样。根据正常个体的数量,按一定比例调整G1、G3、G5、G7组中各复合类内正常个体的数量;在将所有扒窃个体单独整合为一个组后,对其进行一定比例扩样处理。
步骤4.2有监督式分类
步骤4.2进一步采用5种常见的分类器来自动学习扒窃个体。它们分别为:一层神经网络(NN)、k近邻填充(KNN)、逻辑回归(LR)、朴素贝叶斯(NB)和决策树(DT)。在任何一种分类器下,采取10倍交叉验证方式学习异常个体,选取其中一份样本个体的属性特征数据进行训练估计后,利用第二份未参与训练的个体样本来测试模型对所属类别的判断准确性,并对模型选取的特征属性变量进行修正调整,如此循环迭代10次完成扒窃个体的离线训练。利用第二份未参与训练的个体样本来测试模型对所属类别的判断准确性,并对模型选取的特征属性变量进行修正调整,如此循环迭代10次完成扒窃个体的离线训练,预先生成一个带参数的分类器,以应用于对未知标签的出行个体的在线判别。
步骤4.3分类结果评估
采用精度(precision)和召回率(recall)这两类指标来评估有监督式分类的学习效果。其中,精度是指精确性的度量,是所有预测的个体中真实扒窃个体所占的百分比。召回率是完全性的度量,是所有真实扒窃个体中被预测出来的百分比。
实施案例1
基于监督学习的地面公交扒窃个体自动检测方法,包括以下步骤:
步骤1:提取异常出行关键特征;
步骤2:嵌入扒窃组别的聚类分析;
步骤3:扒窃个体样本库构建;
步骤4:扒窃个体有监督式分类。
选取北京市地面公交IC卡刷卡数据与扒窃相关社交网络为例,介绍本发明的应用实例。
公交IC卡数据集的时段为2015年8月3日至28日的20个工作日,其中包含407万个体的9505万条出行记录。同时,本发明爬取了2013年1月至2017年9月期间发布于新浪微博上的扒窃相关博文数据源,相关公开博文共计1.53万条。基于这些博文数据构建扒窃团体事件数据库,并将其作为验证数据集,验证异常个体的扒窃特性。
(1)提取异常出行关键特征
为每一位个体提取了7维出行特征关键指标,以有效区分扒窃个体和正常个体。这些特征为:空间维度上的隐患站点个数(abStas)和站点片区熵值(staZnEn);时间维度上的站点时间熵值(staTmEn)和高峰时段访问频率(peakTmPct);属性维度上的频繁出行频率(freTraPct)、最频繁出行路径比重(maxODPct)和短途出行比重(shortTraPct)。
(2)嵌入扒窃组别的聚类分析
为证明本发明所提出的“分组再聚类”GsegClus框架的精度和效度,进一步采用典型的对全体数据集进行直接聚类的方法(简称为Gall)进行对比分析。
首先,以G5子组为例,介绍两类方法下最优聚类数目的确定过程。如图3a)所示,当聚类数目从3变化值15后,SSE逐渐变小,而SSB逐渐变大。当聚类数目为12时,上述两指标第一次出现交集,达到SSE最小而SSB最大。因此,G5组的最佳聚类数目设定为12。同理,G1、G3、G7、Gall的最佳聚类数据分别设定为5、6、10和26。
在此基础上,进一步比较上述两类方法在总体类内扭曲距离(SSE)上的性能。如图3b)所示,Gall的SSE显著高于GsegClus的累计扭曲距离SSE。这说明,与传统的直接聚类方法相比,采用“分组再聚类”的方法可在不丢失扒窃个体多样性的前提下,有效提高数据集的聚类精度,减少聚类误差。除此之外,将全体数据集划分为更细粒度的子类之后,有利于学习每一子类中潜在的异常个体,使异常个体样本库更加丰富。
(3)扒窃个体样本库构建
在获取更精细粒度的子类后,先后采用ROCF算子度量类的异常因子以及采用LOF算子度量复合类内潜在异常个体的异常因子,实现对扒窃个体样本库的构建。
图4a)展示了Gall和GsegClus(G1~G7)方法下ROCF的计算结果。可见,G5组的ROCF最大,为1.03e-4,显著小于ROCF临界阈值0.1。可见,无论是通过何种方法得到的子类,都未获得任何一个纯异常类。这是由个体出行目的复合性和复杂性决定。一般来说,扒窃个体尾随正常个体作案的特性必然会使前者呈现与后者相似的“正常”模式。同时,扒窃个体出行的随机性和复杂性决定其很难有完全相似的一类群体。
通过基于多维特征统计分布的异常筛选流程后,共从407万个体的9505万条出行记录中提取了11.7万异常个体。经过10位专家的匹配验证,最终通过334次精确匹配和764次模糊匹配,构建了一个含1098位真实扒窃个体的样本库。
为进一步证实GsegClus方法下扒窃个体样本库的构建效率,本发明设计多组LOF灵敏性实验,将LOF阈值从95%位分位数(LOF95)以5%的间隔变化到5%分位数(LOF5),统计当全部扒窃个体被完全检测出来所需遍历的样本数量,实验结果如图4b)所示。由图可知,对GsegClus而言,当类内LOF阈值达到55%分位数(LOF55,即检测5.265万个体)时,可完成扒窃个体样本库的构建。而对Gall而言,当类内LOF阈值达到5%分位数(LOF5,即检测11.11万个体)时,才可实现上述效果。倘若不提前筛选任一潜在异常个体,则需要训练上述11.7万个个体,才能实现上述效果。可见,采用“分组再聚类”的思想可在不丢失扒窃个体多样性的前提下,高效地完成扒窃个体样本库的构建。
(4)扒窃个体有监督式分类
表1展示的是不同分类器及不同数据采样方式下扒窃个体自动检测的精度和召回率。首先分析不同分类器下扒窃个体自动检测的精度和召回率。在所有的分类算法中,LR和DT分类器对扒窃个体的检测精度和召回率相对较高(precision和recall均超过了0.9)。这是由于在构建扒窃个体样本库时采用的是树状数据划分方法引起的。同时,不论在何种数据采样方式下,这两种分类器的检测精度和召回率都具有良好的鲁棒性,两者的平均检测值高达0.935和0.925。其次分析不同数据采样方式下扒窃个体自动检测的精度和召回率。数据显示,采用下采样的抽样方式可取得更好的分类精度和召回率。
表1评估不同数据采样及分类器下扒窃个体自动检测的效果

Claims (5)

1.一种基于监督学习的地面公交扒窃个体自动检测方法,其特征在于,包括以下步骤:
步骤1:分别从空间、时间和属性维度提取多个表示扒窃个体出行的特征指标;其中,空间维度的异常出行关键特征包含:隐患站点个数(abStas)和站点片区熵值(staZnEn),时间维度的异常出行关键特征包含:站点时间熵值(staTmEn)和高峰时段访问频率(peakTmPct),属性维度的异常出行关键特征包含:频繁出行频率(freTraPct)、最频繁出行路径比重(maxODPct)、短途出行比重(shortTraPct);
步骤2:嵌入扒窃组别的聚类分析
步骤2.1:扒窃组别细分。
根据扒窃先验知识可知,扒窃个体在freTraPct和maxODPct指标上呈现出与正常个体截然不同的分布特性,当某一个体:
·freTraPct>0.05,为出行频繁个体;
·maxODPct>0.3,为拥有最频繁使用路径的个体;
根据上述两个指标将全部个体归至G1、G3、G5、G7组别,G1组可表示出行频率高并且有最频繁使用路径的个体,其他组别个体的出行特性依以此类推:
a)G1:freTraPct>0.05及maxODPct>0.3;
b)G3:freTraPct≤0.05及maxODPct>0.3;
c)G5:freTraPct>0.05及maxODPct≤0.3;
d)G7:freTraPct≤0.05及maxODPct≤0.3;
步骤2.2:无监督式聚类分析
选用基于划分思想的k-means++方法对上述4类组别个体进行聚类,选取k-means++聚集个体的关键出行特征,将具有相近移动模式的个体化为一类,为标定扒窃个体提供便利;如果某类中仅包含异常样本,则称其为纯异常类,否则为复合类;
步骤2.3:聚类效果评估
k-means++算法收敛的条件是所有类内个体移动模式的累积相异度最小,具体可用聚类评估指标SSE进行量化表征,SSE的计算公式见式(3),式中,x是第i类的任一样本点,代表第i类移动模式类别下的任一个体的出行特征序列;ci是第i类的质心,代表第i类移动模式类别下的典型出行特征序列;dist(x,ci)是x和ci的欧式距离,代表第i类移动模式类别下所选个体的出行特征序列与典型出行特征序列的相异度,
<mrow> <mi>S</mi> <mi>S</mi> <mi>E</mi> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>x</mi> <mo>&amp;Element;</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> </msub> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
k-means++算法需要预设聚类数目k,该值达到最优的条件是所有类内个体移动模式的累积相异度最小,且所有类间个体移动模式的累积相异度最大,类内累积相异度可用SSE表示,而类间累积相异度可用聚类评估指标SSB量化表示,SSB是指所有类的类内质心与全体数据集质心的欧式距离的累积和,SSB与类间分离度成正比,SSB的计算公式见式(4),式中,c是全体数据集的质心,代表全体个体的典型出行特征序列;mi是第i类的类内样本个数,代表第i类移动模式类别下所有个体的数目,
<mrow> <mi>S</mi> <mi>S</mi> <mi>B</mi> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>m</mi> <mi>i</mi> </msub> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
步骤3:扒窃个体样本库构建
首先采用ROCF算子判别任一类异常性,如果是纯异常类,则将类内个体全部标记为异常个体,否则,继续从中筛选潜在异常个体,采用LOF算子逐一识别出异常个体;最后采用社交网络数据验证异常个体的真实性,实现扒窃个体样本库的构建;
步骤4:基于所构建的扒窃个体样本库,采用有监督式分类方法自动检测数据集中的扒窃个体。
2.如权利要求1所述的基于监督学习的地面公交扒窃个体自动检测方法,其特征在于,步骤3中基于特征分布的潜在异常个体筛选如下:某个体成为潜在异常个体的必备条件是:
a)abStas≥10;
b)shortTraPct≥10%;
c)nightTmPct≤30%。
3.如权利要求1所述的基于监督学习的地面公交扒窃个体自动检测方法,其特征在于,步骤3采用类相对异常算子ROCF(Relative outlier cluster factor)来判别每一类移动模式的类相对异常程度;将步骤2所得的k种移动模式类别组成为一个类集合C,且C={ci}(i=1,2,...k);将ci的类内个体数目定义为类体积|ci|。按类体积升序排列C中各类,即:|c1|≤|c2|≤…≤|ck|,那么,针对两个体积连续的纯异常类ci和邻近复合类ci+1,采用TL(ci)来量化表示类ci与ci+1在类体积上的相对变化率,且那么,类ci的相对异常因子ROCF(ci)是关于类体积相对变化率TL(ci)的指数函数,计算方式见式(5)。
<mrow> <mi>R</mi> <mi>O</mi> <mi>C</mi> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <mrow> <mi>T</mi> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </mfrac> </mrow> </msup> <mo>=</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mfrac> </mrow> </msup> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
由式(5)可知,ROCF(ci)介于[0,1]范围,当ROCF(ci)越大,类ci的异常程度越高;当纯异常类ci和复合类ci+1相邻,类ci的相对异常因子ROCF(ci)将显著趋于1,可有效表示类ci的类异常性。经多组实验结果发现,当ROCF(ci)超过临界阈值0.1时,意味着从ci到ci+1的类体积变化较大,集合C中类c1到ci(i>1)均为纯异常类,且这些类内的全部个体将标记为异常个体。
4.如权利要求3所述的基于监督学习的地面公交扒窃个体自动检测方法,其特征在于,步骤3采用局部异常算子LOF(local outlier factor)来判别复合类内疑似异常个体的相对异常程度;在提取疑似异常个体的基础上,进一步度量任一疑似异常个体o在k邻域范围内的局部异常算子LOFk(o);具体实现方式为:首先基于个体间移动模式的相似性,为o选定k个移动模式最相似的邻域对象,并设定任一邻域对象为o′。定义o和o′在其各自k-最近邻范围内的局部可达密度分别为lrdk(o)和lrdk(o′),则LOFk(o)即为lrdk(o)与lrdk(o′)的平均比值,如式(6)所示;由式(6)可知,o的可达密度越低(即lrdk(o)越小),o′的局部可达密度越高(即lrdk(o′)越大),则LOFk(o)越大,说明o的局部异常程度越高。
<mrow> <msub> <mi>LOF</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <msup> <mi>o</mi> <mo>&amp;prime;</mo> </msup> <mo>&amp;Element;</mo> <msub> <mi>N</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> </mrow> </msub> <mfrac> <mrow> <msub> <mi>Ird</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>o</mi> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>Ird</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>N</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>o</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
当任一疑似个体o的LOFk(o)超过给定LOF阈值时,称其为异常个体,否则为正常个体。当任一复合类内所有疑似异常个体均被验证为正常个体时,则该复合类内的其他个体均可推断为正常个体。当复合类内所有疑似异常个体均被验证为异常个体时,则这些异常个体组成了该复合类的全部异常个体。
5.如权利要求1所述的基于监督学习的地面公交扒窃个体自动检测方法,其特征在于,步骤3中采用协同社交网络数据的扒窃个体匹配验证,具体为采用所提微博扒窃数据库E验证异常个体集合S的真实性;假设ei是任意一条扒窃事件记录,ei∈E,是某异常个体sj全体出行记录集合的任意一条出行记录,分别代表ei以及sj k案发时所处的公交线路;那么,sj验证为真实扒窃个体的标准是:某起扒窃事件ei的发生恰巧伴随着sj的一条出行记录即ei在时间或空间上呈现重叠性,当二者在时间和空间上同时具备重叠性则称为精确匹配(ExactMatch),否则为模糊匹配(FuzzyMatch)。
CN201711399106.3A 2017-12-22 2017-12-22 一种基于监督学习的地面公交扒窃个体自动检测方法 Active CN107992902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711399106.3A CN107992902B (zh) 2017-12-22 2017-12-22 一种基于监督学习的地面公交扒窃个体自动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711399106.3A CN107992902B (zh) 2017-12-22 2017-12-22 一种基于监督学习的地面公交扒窃个体自动检测方法

Publications (2)

Publication Number Publication Date
CN107992902A true CN107992902A (zh) 2018-05-04
CN107992902B CN107992902B (zh) 2021-06-25

Family

ID=62039456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711399106.3A Active CN107992902B (zh) 2017-12-22 2017-12-22 一种基于监督学习的地面公交扒窃个体自动检测方法

Country Status (1)

Country Link
CN (1) CN107992902B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191354A (zh) * 2018-08-21 2019-01-11 安徽讯飞智能科技有限公司 一种基于自然语言处理的全民社管任务分发方法
CN109359670A (zh) * 2018-09-18 2019-02-19 北京工业大学 一种基于交通大数据的个体关联强度自动检测方法
CN109785214A (zh) * 2019-03-01 2019-05-21 宝能汽车有限公司 基于车联网的安全报警方法和装置
CN111798356A (zh) * 2020-07-09 2020-10-20 北京交通大学 一种基于大数据的轨道交通客流异常模式识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103338188A (zh) * 2013-06-08 2013-10-02 北京大学 一种适用于移动云的客户端动态认证方法
CN103678500A (zh) * 2013-11-18 2014-03-26 南京邮电大学 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法
CN106339723A (zh) * 2016-08-30 2017-01-18 天津天地伟业数码科技有限公司 基于视频河道盗采的检测方法
US20170300508A1 (en) * 2014-05-02 2017-10-19 Netapp, Inc. System and method for adaptive data placement within a distributed file system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103338188A (zh) * 2013-06-08 2013-10-02 北京大学 一种适用于移动云的客户端动态认证方法
CN103678500A (zh) * 2013-11-18 2014-03-26 南京邮电大学 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法
US20170300508A1 (en) * 2014-05-02 2017-10-19 Netapp, Inc. System and method for adaptive data placement within a distributed file system
CN106339723A (zh) * 2016-08-30 2017-01-18 天津天地伟业数码科技有限公司 基于视频河道盗采的检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191354A (zh) * 2018-08-21 2019-01-11 安徽讯飞智能科技有限公司 一种基于自然语言处理的全民社管任务分发方法
CN109359670A (zh) * 2018-09-18 2019-02-19 北京工业大学 一种基于交通大数据的个体关联强度自动检测方法
CN109359670B (zh) * 2018-09-18 2022-06-07 北京工业大学 一种基于交通大数据的个体关联强度自动检测方法
CN109785214A (zh) * 2019-03-01 2019-05-21 宝能汽车有限公司 基于车联网的安全报警方法和装置
CN111798356A (zh) * 2020-07-09 2020-10-20 北京交通大学 一种基于大数据的轨道交通客流异常模式识别方法
CN111798356B (zh) * 2020-07-09 2023-11-10 北京交通大学 一种基于大数据的轨道交通客流异常模式识别方法

Also Published As

Publication number Publication date
CN107992902B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN110263846B (zh) 基于故障数据深度挖掘及学习的故障诊断方法
CN107992902B (zh) 一种基于监督学习的地面公交扒窃个体自动检测方法
Ahmed et al. Feature selection–based detection of covert cyber deception assaults in smart grid communications networks using machine learning
CN108009690B (zh) 一种基于模块度最优化的地面公交扒窃团体自动检测方法
Ogwueleka Data mining application in credit card fraud detection system
Yang et al. A Bayesian dynamic updating approach for urban expressway real-time crash risk evaluation
Yu et al. Crime forecasting using data mining techniques
Yao et al. A support vector machine with the tabu search algorithm for freeway incident detection
Nesa et al. Outlier detection in sensed data using statistical learning models for IoT
CN103390154A (zh) 基于进化多特征提取的人脸识别方法
CN106792883A (zh) 传感器网络异常数据检测方法与系统
Xia et al. Incorporating space and time into random forest models for analyzing geospatial patterns of drug-related crime incidents in a major us metropolitan area
Biswas et al. Forecasting the trends and patterns of crime in Bangladesh using machine learning model
Chen et al. Pattern recognition using clustering algorithm for scenario definition in traffic simulation-based decision support systems
AlDhanhani et al. Framework for traffic event detection using Shapelet Transform
Shi et al. Real-time driving risk assessment using deep learning with XGBoost
Prathap Geo-spatial crime density attribution using optimized machine learning algorithms
Blázquez et al. Evaluation of outlier detection algorithms for traffic congestion assessment in smart city traffic data from vehicle sensors
Gahalot et al. Crime prediction and analysis
Pednekar et al. Crime rate prediction using KNN
Boldt et al. Predicting burglars’ risk exposure and level of pre-crime preparation using crime scene data
Kaur et al. Analyzing and displaying of crime hotspots using fuzzy mapping method
Aquize et al. Self-organizing maps for anomaly detection in fuel consumption. Case study: Illegal fuel storage in Bolivia
Jin et al. Robust PCA-based abnormal traffic flow pattern isolation and loop detector fault detection
Yang et al. Anomaly detection of vehicle data based on LOF algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant