CN107730717A - 一种基于特征提取的公共交通可疑卡识别方法 - Google Patents

一种基于特征提取的公共交通可疑卡识别方法 Download PDF

Info

Publication number
CN107730717A
CN107730717A CN201711047767.XA CN201711047767A CN107730717A CN 107730717 A CN107730717 A CN 107730717A CN 201711047767 A CN201711047767 A CN 201711047767A CN 107730717 A CN107730717 A CN 107730717A
Authority
CN
China
Prior art keywords
user
card
thief
sample
trip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711047767.XA
Other languages
English (en)
Other versions
CN107730717B (zh
Inventor
涂来
邴昊天
文菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201711047767.XA priority Critical patent/CN107730717B/zh
Publication of CN107730717A publication Critical patent/CN107730717A/zh
Application granted granted Critical
Publication of CN107730717B publication Critical patent/CN107730717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F7/00Mechanisms actuated by objects other than coins to free or to actuate vending, hiring, coin or paper currency dispensing or refunding apparatus
    • G07F7/08Mechanisms actuated by objects other than coins to free or to actuate vending, hiring, coin or paper currency dispensing or refunding apparatus by coded identity card or credit card or other personal identification means
    • G07F7/0873Details of the card reader
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种基于特征提取的公共交通可疑卡识别方法,属于公共交通用户识别领域,该方法包括离线训练和在线识别两部分。离线训练包括提取样本用户的十二维出行特征值,建立样本用户的特征矩阵,将样本用户中的小偷用户的特征矩阵作为负样本,普通用户的特征矩阵作为正样本,对选定的分类模型进行训练,得到可疑卡分类器;在线识别包括按照构建样本用户的特征矩阵的方法,构建待识别用户的特征矩阵,利用训练后的可疑卡分类器对待识别用户的特征矩阵进行用户类型识别,以识别出疑似小偷使用的可疑卡。本发明能够识别出疑似小偷使用的IC卡,从而能够辅助公安部门依据IC卡号,结合案发的时间地点,调取监控录像,确定犯罪嫌疑人。

Description

一种基于特征提取的公共交通可疑卡识别方法
技术领域
本发明属于公共交通用户识别领域,更具体地,涉及一种在公共交通出行的用户中,利用出行IC卡数据提取用户出行特征,识别出公共交通用户中的疑似小偷的可疑卡识别方法。
背景技术
随着移动互联网、智能交通系统以及基于位置的服务等领域的高速发展,以及公共交通IC卡系统的普及,产生大量公共交通用户的出行数据,包含着丰富的用户位置信息和出行轨迹数据,同时隐含了丰富的出行时空属性信息及用户行为规律与特征,通过对这些信息和特征进行深入的分析与挖掘,不单单可以发现单个用户的公共交通出行规律和用户群体的共同行为特征,还有可能挖掘其社交关系信息及多维用户标签。
与此同时,每年在公交和地铁上面经常发生小偷偷窃手机、钱财等案件,每个案件一一侦破排查的难度很大。常规的侦破方式就是根据案发的时间和地点范围,来调取车内的监控录像来查找犯罪嫌疑人,由于公安系统人力物力有限,同时报案人的上报的案发的时间、地点通常不够准确,这都为案件的侦破带来了很大的困难。
发明内容
针对现有技术中存在的上述问题,本发明提供了一种可疑卡的识别方法,其目的在于,利用公共交通乘坐公交或地铁的刷卡数据进行用户出行特征提取,对使用IC卡出行的公交及地铁的用户进行分类和识别,从而为公安机关调取车载录像提供辅助参考,有利于确定嫌疑人。
为了实现上述目的,本发明提供了一种基于特征提取的公共交通可疑卡识别方法,包括如下步骤:
离线训练步骤:提取样本用户的十二维出行特征值,建立样本用户的特征矩阵,将样本用户中的小偷用户的特征矩阵作为负样本,普通用户的特征矩阵作为正样本,对选定的分类模型进行训练,得到可疑卡分类器;十二维出行特征值包括出行时长、刷卡频次、出行次数、上车站点数、下车站点数、乘坐线路数、功能区域数、陡度、最常上车站点数、最常下车站点数、最常乘坐线路数以及最常出现功能区域数;
在线识别步骤:按照构建样本用户的特征矩阵的方法,构建待识别用户的特征矩阵,利用训练后的可疑卡分类器对待识别用户的特征矩阵进行用户类型识别,以识别出疑似小偷使用的可疑卡。
进一步地,离线训练步骤中,构建样本用户的特征矩阵的方法如下:
首先,获取样本用户的IC卡刷卡数据、公交车和/或地铁的GPS数据以及站点数据;
其次,对上述各数据中的无效字段以及格式或者信息错误的数据进行过滤,保留有效字段和数据,并去除公交GPS数据漂移点;
然后,根据过滤后的IC卡刷卡数据提取上车、下车站点的序号,根据站点序号匹配站点信息,然后结合GPS数据和站点数据,分别计算出公交和地铁的出行OD,并按照IC卡的ID将同一IC卡的公交和地铁的出行记录进行合并处理;
随后,根据合并后的出行记录,以天为时间粒度,分别从时间维度、空间维度提取样本用户的十二维出行特征值;
最后,利用样本用户的十二维出行特征值构建n×13的特征矩阵,每一个用户对应矩阵的一条行向量,第1列为用户分类结果,普通用户分类结果为+1,小偷分类结果为-1,第2~13列为用户的十二维出行特征值,其中,n为样本用户总数量。
进一步地,提取样本用户在工作日的十二维出行特征值,其中,陡度每周计算,其余十一维出行特征值每日计算。
进一步地,在离线训练步骤中,样本用户中的小偷用户为已知,普通用户是按照预定的与小偷用户的比例,从待识别用户中选取;
设定普通用户的特征矩阵为正样本,小偷用户的特征矩阵为负样本;正样本用+1标识,负样本用-1标识,对选定的分类函数进行训练,得到可疑卡训练器。
进一步地,待识别用户中选取普通用户的方法如下:
首先,从待识别用户的十二维出行特征值中随机选取一批数据点,取其平均值作为对应的各个维度的中心点;
然后,根据各用户的十二维出行特征值到该用户各对应维度的中心点的距离进行聚类;
最后,根据已知的小偷用户的数量按预定比例确定普通用户数量,按照聚类后得到的各类别的人数,从每一个类别中选取部分用户,组成普通用户的样本。
进一步地,分类函数选用高斯核函数:
exp(-gamma|u-v|2)
其中,gamma是函数类型,其默认值为类别数的倒数,
u是特征值,
v是交叉验证数。
进一步地,包括在识别出小偷用户后,进一步识别疑似小偷同伙使用的伴随卡的步骤:
首先,对所有待识别用户的出行OD进行聚类;然后,根据指定的时间和地点阈值范围,从与已识别的小偷用户的出行OD类别相同的用户中,识别出疑似小偷同伙使用的伴随卡。
进一步地,识别疑似小偷同伙使用的伴随卡的步骤如下:
首先,根据所有待识别用户的出行特征值对待识别用户的出行OD进行聚类,以分析出与小偷用户的出行OD相同的人群使用的交通卡;
其次,根据已识别的小偷的出行OD所属的类别,以及待识别用户的出行OD的聚类结果,从和小偷出行OD类别相同的出行人群中寻找伴随出行的人群使用的交通卡;
然后,从伴随出行的人群使用的交通卡中筛选出在报案时间段且在报案地点活动过的交通卡,即为疑似小偷同伙的用户使用的伴随卡;
最后,根据小偷的多次出行记录,重复上一步,筛选出小偷每次出行活动的伴随卡,将其卡号做交集,选出经常一起活动的卡号,其对应的用户群即为嫌疑犯罪团伙。
进一步地,出行OD的聚类方法如下:以每个用户样本为初始的簇,将每一个用户样本之间进行距离比较,每一步都将距离最近的两个初始的簇合并,得到新的簇,然后对新的簇重复进行距离比较与合并,直到达到期望的聚类效果。
进一步地,出行OD的聚类方法如下:
首先,对待识别用户的出行OD按照十二维出行特征值进行基于密度的聚类,进行初步的分组,以减少下一步的初始簇个数;
然后,将分组聚类的结果作为单点簇,计算每个单点簇之间的簇间距离,按照簇间距离的大小进行簇与簇之间的层次聚类,直到合并为一个簇。
总体而言,本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
1、本发明利用公共交通用户的刷卡数据,分别对已经确定为小偷的IC卡用户和普通用户进行分析来提取用户的出行特征及规律,采用分类算法对未知的用户进行疑似小偷可疑卡的识别和判断,一旦确认小偷可疑卡,则可辅助公安部门依据IC卡号,结合案发的时间地点,调取监控录像,从而确定犯罪嫌疑人;
2、进一步地,确定小偷后,根据小偷的出行规律将用户出行OD进行聚类分析,找出小偷每次伴随出行的IC卡,再根据小偷每次的出行活动将每次得到的伴随出行的IC卡号进行交集,确定疑似小偷同伴的IC卡,则可辅助公安部门依据IC卡号,调取监控录像,从而找出犯罪团伙。
3、本发明对用户出行OD数据进行了第一次组内的聚类,再将其聚类结果看作单点簇进行第二次聚类,可以提高数据规模缩小的速度,运行效率可提升3倍以上。
附图说明
图1是本发明核心构思的整体流程示意图;
图2是本发明优选实施例的整体流程示意图;
图3是本发明优选实施例中提取用户出行特征的流程示意图;
图4是本发明优选实施例中疑似小偷IC卡识别方法流程示意图;
图5是本发明优选实施例中疑似小偷同伙伴随IC卡识别方法流程;
图6是本发明优选实施例中的用户OD聚类结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
请参照图1,本发明识别可疑卡的主要步骤如下:
离线训练步骤:提取样本用户的十二维出行特征值,建立样本用户的特征矩阵,将样本用户中的小偷用户的特征矩阵作为负样本,普通用户的特征矩阵作为正样本,对选定的分类模型进行训练,得到可疑卡分类器;十二维出行特征值包括出行时长、刷卡频次、出行次数、上车站点数、下车站点数、乘坐线路数、功能区域数、陡度、最常上车站点数、最常下车站点数、最常乘坐线路数以及最常出现功能区域数;
在线识别步骤:按照构建样本用户的特征矩阵的方法,构建待识别用户的特征矩阵,利用训练后的可疑卡分类器对待识别用户的特征矩阵进行用户类型识别,以识别出疑似小偷使用的可疑卡。
请参照图2,其作为本发明的优选实施例,主要包括如下步骤:
1、提取用户出行特征值:出行时长、刷卡频次、出行次数、上车站点数、下车站点数、乘坐线路数、功能区域数、陡度、最常上车站点数、最常下车站点数、最常乘坐线路数以及最常出现功能区域数;根据上述十二维特征值,构建待识别用户的特征矩阵,以在后续根据构造的特征矩阵进行模型训练和用户分类。
2、建立可疑卡分类器:按照与步骤1相同的方法,建立已知为小偷的用户的特征向量矩阵,并按照预定比例从待识别用户中提取出部分用户,构建普通用户的特征向量矩阵;将小偷用户的特征向量矩阵作为负样本,普通用户的特征向量矩阵作为正样本,基于SVM分类算法对分类模型进行训练,得到可疑卡分类器;通过调整算法参数,可以提高对用户进行小偷和普通用户的二分类的准确性。
3、利用可疑卡分类器从待识别用户的特征矩阵中识别出有小偷嫌疑的IC卡。进一步地,可以将有小偷嫌疑的IC卡号提供给公安机关,公安机关可以调取相应IC卡活动范围内的监控录像,从而确认小偷。
4、识别小偷同伙的伴随卡:在识别出小偷用户后,首先对用户的出行OD(即出发地和目的地的连接)进行聚类,然后从与小偷相同的出行类别的用户中,根据指定的时间和地点阈值范围,识别出可能为小偷同伙使用的伴随卡,同样可供公安机关使用,有助于公安机关侦破盗窃团伙作案。
图3是本发明提取和计算用户的出行特征的流程示意图。
请参照图3,步骤1包括如下子步骤:
步骤11是本发明的输入数据类型,是IC卡刷卡数据以及公交车的GPS数据以及站点数据等静态数据。
步骤12是对数据进行数据预处理工作,主要包括两个工作:第一是对数据的无效字段以及格式或者信息错误的数据进行过滤,将计算有效的字段和数据保留,有效的数据指数据字段不缺失不重复、时间为当天、坐标在深圳地图范围内;第二是对公交GPS数据进行漂移点的去除工作,漂移点指的是偏移车辆行驶既定道路的GPS点。
步骤13是利用同线路用户群的层次聚类法处理好的数据进行用户出行OD的提取工作,根据刷卡数据提取上车、下车站点的序号,匹配站点信息以及结合GPS数据,分别计算出公交和地铁的出行OD,并按照用户的ID将公交和地铁的出行记录进行合并处理。
步骤14是对用户的出行特征进行提取和计算,在用户出行OD的基础上进行计算。本发明分别从时间维度、空间维度等以天为时间粒度提取特征值,分别为用户出行时长、出行次数、刷卡频次、上车站点数、下车站点数、乘坐线路数、短途乘车次数、站点覆盖的功能区域数。本实施例的短途乘车是经过数据的统计分析定义单次乘车经过站点两次以下的出行行为定义为短途乘车,根据不同的数据参数可以进行调整。功能区域是将城市划分为不同的区块,根据POI(Point of Interest,信息点)数据应用加权算法为不同的区域定义不同的功能标签。之后按照用户将每一个用户的出行数据合并,按照天数取均值,并加上出行次数陡度、代表站点、代表线路、代表功能区域的特征值。从而构成单个用户的十二维特征向量。出行陡度定义为第i天与i+1天出行次数的绝对值的总和,值越大表示出行越不规律。代表站点和线路定义为出行行为覆盖这些站点和线路的次数占总出行次数比例到达预设的阈值百分比的站点和线路数。
以上下车站点数为例,普通用户由于出行路线一般为上班路线,较为固定,表现出的数据规律通常为上下车站点数少,但是同一站点的上下车次数高;而小偷一般是随机作案,流动性大,所以表现出的数据规律通常为上下车站点数多,但同一站点上下车的次数少。
站点覆盖的功能区域数是对站点数量的优化,例如某用户上班地点附近有多个站点,或者某个商业区、住宅区附近有多个可供选择的站点,则普通用户可能在这多个站点均有上下车活动,但是该上下车活动应当是正常行为。通过将这多个站点划分为同一个功能区域,可以提高统计以及分类的准确度,减少误判。
步骤15是将用户的特征向量构造成特征矩阵。特征矩阵为n×13的矩阵,每一个用户对应矩阵的一条行向量,第1列为用户分类结果,普通用户分类结果为+1,小偷分类结果为-1,第2~13列为用户特征值,用户特征值依次为:出行时长、刷卡频次、出行次数、上车站点数、下车站点数、乘坐线路数、功能区域数、陡度、最常上车站点数、最常下车站点数、最常乘坐线路数、最常出现功能区域数。表1是选取的出行特征向量。
表1 用户出行特征向量
出行陡度每周计算一次,其余十一维特征每日计算一次,考虑到通常人们工作日与休息日的出行规律变化较大,为减少数据误差,提高准确度,仅计算工作日的特征值。
图4是疑似小偷IC卡的识别方法。
请参照图4,步骤2包括如下子步骤:
步骤21是根据图一的方法对已经确认是小偷的用户进行特征矩阵的构造。
步骤22使用同样的方法对普通用户进行特征提取。
步骤23:由于现实应用中确认为小偷的用户数量较少,普通用户数量较大,造成了样本的不平衡,因此步骤23采取Kmeans聚类算法,先从十二维特征向量的特征值中随机选取一批数据点,取其平均值作为对应的各个维度的中心点,根据各用户的十二维出行特征值到该用户各对应维度的中心点的距离(实际上即各特征值的数值差值)进行聚类。按照聚类后得到的各类别的人数,根据一定比例从每一个类别中选取部分样本作为普通用户样本,普通样本的数量根据已知小偷样本的数量按预定比例选取。本实施例中,按照小偷和普通用户1:2的比例构造普通用户的样本集。已知小偷用户可以直接由公安机关提供,然后按照步骤1的方法建立已知小偷用户样本和已知小偷特征矩阵。例如,公安机关提供了55个小偷用户,则按照步骤1的方法可以建立55个已知小偷用户样本,然后在本步骤中,按照小偷和普通用户1:2的比例,应当选择总共110个普通用户样本,这110个普通用户样本从聚类后的各个类别人数中按照一定比例选取得到。
步骤24是采用SVM二分类算法对用户进行分类,目的是能正确将普通用户和小偷进行分类,从而达到识别小偷的IC卡的目的。将构造的普通用户和已知小偷用户的特征矩阵作为训练集的正负样本对模型进行训练,设定普通用户为正样本,已知小偷用户为负样本。正样本用+1标识,负样本用-1标识,相对选取负样本两倍左右的正样本数量来进行训练。常用的分类函数有线性核函数(Linear kernel)、高斯核函数(radical basisfunction,RBF)、多项式核函数(ploynomial kernel)、神经元的非线性作用函数核函数(Sigmoid tanh)等,本实施例的分类器选用高斯核函数,即RBF核函数:
exp(-gamma|u-v|2)
其中gamma是函数类型,默认值是类别数的倒数,u为特征值,v是交叉验证数。通过调节参数gamma、交叉验证数、损失函数值来将分类的准确度调整到最大。
步骤3是利用训练好的可疑卡分类器对步骤1建立的所有用户样本进行小偷嫌疑卡的识别。公安机关可以根据识别出的小偷嫌疑卡号,进行出行的轨迹回放,进行视频查找,从而确定小偷。
图5是对小偷的同伙即小偷得伴随卡进行识别。
步骤4是在确认小偷用户之后,对小偷的同伙进行识别,请参照图3,步骤4包括如下子步骤:
步骤41是采取层次聚类算法对步骤1得到的所有用户的出行OD进行聚类,旨在分析出与小偷用户同路线出行的人群,有两种层次聚类方式:
第一种:以每个用户样本为初始的簇,将每一个用户样本之间进行距离比较,每一步都将距离最近的两个初始的簇合并,得到新的簇,然后对新的簇重复进行距离比较与合并,直到达到期望的聚类效果,即得到的分类已有明显的特点。
第二种:由于本发明选用十二维出行特征值进行评估,而且面向的样本群体为日常出行人员,数据量较大,如果计算每一组OD之间的距离则效率较低,故,作为一个优选的改进方案,本发明提供一种优化的层次聚类方法,其步骤如下:
步骤411:首先对待识别用户的出行OD的十二维出行特征值进行基于密度的聚类,即DBSCAN聚类,对待识别用户的出行OD进行初步的分组,以减少下一步的初始簇个数;
步骤412:按照分好的结果计算每个簇之间的簇间距离,按照距离的大小进行簇与簇之间的层次聚类,直到合并为一个簇。
本发明不但进行了算法上的改进,也将计算模型修改为分布式的并行处理模型。故,相比第一种的经典算法来说,本发明提出的第二种方法,即优化聚类算法效率更高。第二种方法首先对数据集进行了第一次组内的聚类,再将其聚类结果看作单点簇进行第二次聚类,这样可以提高数据规模缩小的速度,提升算法效率。对比第一种的层次聚类的运行时间,改进后的第二种层级聚类算法在运行效率上确有所提高,时间对比如表2所示:
表2 算法改进前后运行时间对比
第一种层次聚类 81.8秒
第二种层次聚类 26.76秒
其中,为体现第二步中簇间所有样本之间的距离,我们使用平均链接法计算:
davg(Ci,Cj)为:簇Ci、Cj之间的平均距离;
|Ci|为簇Ci中对象的数目;
|Cj|为簇Cj中对象的数目;dis(Vi,Vj)为对象Vi和Vj之间的距离,其中Vi取自簇Ci,Vj取自簇Cj,在本发明中,我们将dis(Vi,Vj)定义为对象Vi和Vj的空间距离与余弦距离之和。空间距离是两条OD向量中心点之间的欧氏距离,余弦夹角是这两条OD向量的余弦夹角。
在本发明的一个具体应用中,聚类结果如表3:
表3 聚类结果及人数占比
初始组别标号 人数占比
C1 X13,X26,X12,X25 5.03%
C2 X2,X18,X5,X21,X3,X0,X10,X15,X20 30.88%
C3 X1,X19,X9,X6,X23,X8 40.09%
C4 X17,X11,X14,X24,X4,X16,X7,X22 23.99%
根据层次聚类分成四个类的结果,按照每一类一个颜色映射到地图上面,做空间展示,选取每一个簇中的代表OD做展示,如图6可以看出四个类别的用户之间出行的范围及轨迹还是有很明显的不同,相同类别中的簇的代表OD具有明显的相似性和共同点。0号和4号线路代表的类型明显独立成单独的区域,与其他类别的空间距离相差较远,1号和2号线路代表的两类用户的活动范围较为接近,当空间距离较为接近时,余弦距离的差值导致将相互之间距离较为接近的用户群划分为两类用户。
步骤42是根据小偷的出行特征,在聚类结果的基础上在和小偷同类别的出行人群中寻找伴随出行的人。
步骤43是根据报案的时间地点阈值对伴随出行的人进行筛选,以找出同伙,具体地,本实施例是在步骤43的结果中筛选出在报案时间段且在报案地点活动过的用户群,即为疑似小偷的同伙用户的IC卡;
步骤44是根据小偷的多次出行记录,将每一次活动算得的疑似同伙IC卡号做交集,选出经常一起出行的卡号,即为可能性最大的犯罪团伙。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于特征提取的公共交通可疑卡识别方法,其特征在于,包括如下步骤:
离线训练步骤:提取样本用户的十二维出行特征值,建立样本用户的特征矩阵,将样本用户中的小偷用户的特征矩阵作为负样本,普通用户的特征矩阵作为正样本,对选定的分类模型进行训练,得到可疑卡分类器;十二维出行特征值包括出行时长、刷卡频次、出行次数、上车站点数、下车站点数、乘坐线路数、功能区域数、陡度、最常上车站点数、最常下车站点数、最常乘坐线路数以及最常出现功能区域数;
在线识别步骤:按照构建样本用户的特征矩阵的方法,构建待识别用户的特征矩阵,利用训练后的可疑卡分类器对待识别用户的特征矩阵进行用户类型识别,以识别出疑似小偷使用的可疑卡。
2.如权利要求1所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,离线训练步骤中,构建样本用户的特征矩阵的方法如下:
首先,获取样本用户的IC卡刷卡数据、公交车和/或地铁的GPS数据以及站点数据;
其次,对上述各数据中的无效字段以及格式或者信息错误的数据进行过滤,保留有效字段和数据,并去除公交GPS数据漂移点;
然后,根据过滤后的IC卡刷卡数据提取上车、下车站点的序号,根据站点序号匹配站点信息,然后结合GPS数据和站点数据,分别计算出公交和地铁的出行OD,并按照IC卡的ID将同一IC卡的公交和地铁的出行记录进行合并处理;
随后,根据合并后的出行记录,以天为时间粒度,分别从时间维度、空间维度提取样本用户的十二维出行特征值;
最后,利用样本用户的十二维出行特征值构建n×13的特征矩阵,每一个用户对应矩阵的一条行向量,第1列为用户分类结果,普通用户分类结果为+1,小偷分类结果为-1,第2~13列为用户的十二维出行特征值,其中,n为样本用户总数量。
3.如权利要求2所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,提取样本用户在工作日的十二维出行特征值,其中,陡度每周计算,其余十一维出行特征值每日计算。
4.如权利要求2或3所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,在离线训练步骤中,样本用户中的小偷用户为已知,普通用户是按照预定的与小偷用户的比例,从待识别用户中选取;
设定普通用户的特征矩阵为正样本,小偷用户的特征矩阵为负样本;正样本用+1标识,负样本用-1标识,对选定的分类函数进行训练,得到可疑卡训练器。
5.如权利要求4所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,待识别用户中选取普通用户的方法如下:
首先,从待识别用户的十二维出行特征值中随机选取一批数据点,取其平均值作为对应的各个维度的中心点;
然后,根据各用户的十二维出行特征值到该用户各对应维度的中心点的距离进行聚类;
最后,根据已知的小偷用户的数量按预定比例确定普通用户数量,按照聚类后得到的各类别的人数,从每一个类别中选取部分用户,组成普通用户的样本。
6.如权利要求5所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,分类函数选用高斯核函数:
exp(-gamma|u-v|2)
其中,gamma是函数类型,其默认值为类别数的倒数,
u是特征值,
v是交叉验证数。
7.如权利要求1~6任意一项所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,包括在识别出小偷用户后,进一步识别疑似小偷同伙使用的伴随卡的步骤:
首先,对所有待识别用户的出行OD进行聚类;然后,根据指定的时间和地点阈值范围,从与已识别的小偷用户的出行OD类别相同的用户中,识别出疑似小偷同伙使用的伴随卡。
8.如权利要求7所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,识别疑似小偷同伙使用的伴随卡的步骤如下:
首先,根据所有待识别用户的出行特征值对待识别用户的出行OD进行聚类,以分析出与小偷用户的出行OD相同的人群使用的交通卡;
其次,根据已识别的小偷的出行OD所属的类别,以及待识别用户的出行OD的聚类结果,从和小偷出行OD类别相同的出行人群中寻找伴随出行的人群使用的交通卡;
然后,从伴随出行的人群使用的交通卡中筛选出在报案时间段且在报案地点活动过的交通卡,即为疑似小偷同伙的用户使用的伴随卡;
最后,根据小偷的多次出行记录,重复上一步,筛选出小偷每次出行活动的伴随卡,将其卡号做交集,选出经常一起活动的卡号,其对应的用户群即为嫌疑犯罪团伙。
9.如权利要求8所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,出行OD的聚类方法如下:以每个用户样本为初始的簇,将每一个用户样本之间进行距离比较,每一步都将距离最近的两个初始的簇合并,得到新的簇,然后对新的簇重复进行距离比较与合并,直到达到期望的聚类效果。
10.如权利要求8所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,出行OD的聚类方法如下:
首先,对待识别用户的出行OD按照十二维出行特征值进行基于密度的聚类,进行初步的分组,以减少下一步的初始簇个数;
然后,将分组聚类的结果作为单点簇,计算每个单点簇之间的簇间距离,按照簇间距离的大小进行簇与簇之间的层次聚类,直到合并为一个簇。
CN201711047767.XA 2017-10-31 2017-10-31 一种基于特征提取的公共交通可疑卡识别方法 Active CN107730717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711047767.XA CN107730717B (zh) 2017-10-31 2017-10-31 一种基于特征提取的公共交通可疑卡识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711047767.XA CN107730717B (zh) 2017-10-31 2017-10-31 一种基于特征提取的公共交通可疑卡识别方法

Publications (2)

Publication Number Publication Date
CN107730717A true CN107730717A (zh) 2018-02-23
CN107730717B CN107730717B (zh) 2019-08-30

Family

ID=61203585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711047767.XA Active CN107730717B (zh) 2017-10-31 2017-10-31 一种基于特征提取的公共交通可疑卡识别方法

Country Status (1)

Country Link
CN (1) CN107730717B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274376A (zh) * 2020-01-21 2020-06-12 支付宝(杭州)信息技术有限公司 一种训练标记预测模型的方法和系统
CN112101950A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 可疑交易监测模型特征提取方法及装置
CN111274377B (zh) * 2020-01-23 2023-06-02 支付宝(杭州)信息技术有限公司 一种训练标记预测模型的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793484A (zh) * 2014-01-17 2014-05-14 五八同城信息技术有限公司 分类信息网站中的基于机器学习的欺诈行为识别系统
CN105701180A (zh) * 2016-01-06 2016-06-22 北京航空航天大学 一种基于公交ic卡数据的通勤乘客特征提取及判定方法
CN105718946A (zh) * 2016-01-20 2016-06-29 北京工业大学 一种基于地铁刷卡数据的乘客出行行为分析方法
US20170109221A1 (en) * 2015-10-20 2017-04-20 International Business Machines Corporation Identifying intervals of unusual activity in information technology systems
CN107196844A (zh) * 2016-11-28 2017-09-22 北京神州泰岳信息安全技术有限公司 异常邮件识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793484A (zh) * 2014-01-17 2014-05-14 五八同城信息技术有限公司 分类信息网站中的基于机器学习的欺诈行为识别系统
US20170109221A1 (en) * 2015-10-20 2017-04-20 International Business Machines Corporation Identifying intervals of unusual activity in information technology systems
CN105701180A (zh) * 2016-01-06 2016-06-22 北京航空航天大学 一种基于公交ic卡数据的通勤乘客特征提取及判定方法
CN105718946A (zh) * 2016-01-20 2016-06-29 北京工业大学 一种基于地铁刷卡数据的乘客出行行为分析方法
CN107196844A (zh) * 2016-11-28 2017-09-22 北京神州泰岳信息安全技术有限公司 异常邮件识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈志全 等: "基于单类支持向量机的异常声音检测", 《电子设计工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274376A (zh) * 2020-01-21 2020-06-12 支付宝(杭州)信息技术有限公司 一种训练标记预测模型的方法和系统
CN111274376B (zh) * 2020-01-21 2023-06-02 支付宝(杭州)信息技术有限公司 一种训练标记预测模型的方法和系统
CN111274377B (zh) * 2020-01-23 2023-06-02 支付宝(杭州)信息技术有限公司 一种训练标记预测模型的方法及系统
CN112101950A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 可疑交易监测模型特征提取方法及装置
CN112101950B (zh) * 2020-09-27 2024-05-10 中国建设银行股份有限公司 可疑交易监测模型特征提取方法及装置

Also Published As

Publication number Publication date
CN107730717B (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
Wang et al. Travel mode detection using GPS data and socioeconomic attributes based on a random forest classifier
CN108717790B (zh) 一种基于卡口车牌识别数据的车辆出行分析方法
CN108009690B (zh) 一种基于模块度最优化的地面公交扒窃团体自动检测方法
CN105206048B (zh) 一种基于交通od数据的城市居民群体换乘模式发现系统及方法
CN108022012A (zh) 基于深度学习的车辆位置预测方法
CN106874432A (zh) 一种公共交通乘客出行时空轨迹提取方法
CN107506786A (zh) 一种基于深度学习的属性分类识别方法
CN107092929A (zh) 基于聚类技术的刑事犯罪案件关联串并方法及系统
CN104732237B (zh) 一种车联网中虚假交通信息的识别方法
CN107730717B (zh) 一种基于特征提取的公共交通可疑卡识别方法
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN105335757A (zh) 一种基于局部特征聚合描述符的车型识别方法
Thota et al. Cluster based zoning of crime info
CN109446881A (zh) 一种基于异构数据的高速公路路段交通状态检测方法
CN104269057A (zh) 一种基于浮动车od数据的卡口传感器部署方法
Rodrigues et al. Automatic classification of points-of-interest for land-use analysis
Qi et al. Vehicle trajectory reconstruction on urban traffic network using automatic license plate recognition data
CN112559593A (zh) 一种基于标签聚类的本地化差分隐私保护方法
CN107483451A (zh) 基于串并行结构网络安全数据处理方法及系统、社交网络
Liu et al. An improved fuzzy trajectory clustering method for exploring urban travel patterns
Peng et al. When urban safety index inference meets location-based data
CN113487241A (zh) 企业环保信用等级的分类方法、装置、设备及存储介质
Peng et al. U-safety: Urban safety analysis in a smart city
CN112699955A (zh) 一种用户分类方法、装置、设备及存储介质
CN105930430A (zh) 一种基于非累积属性的实时欺诈检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant