CN113111093A - 一种基于时空成本融合框架的出租车驾驶欺诈检测方法 - Google Patents

一种基于时空成本融合框架的出租车驾驶欺诈检测方法 Download PDF

Info

Publication number
CN113111093A
CN113111093A CN202110301509.XA CN202110301509A CN113111093A CN 113111093 A CN113111093 A CN 113111093A CN 202110301509 A CN202110301509 A CN 202110301509A CN 113111093 A CN113111093 A CN 113111093A
Authority
CN
China
Prior art keywords
track
abnormal
tracks
points
lng
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110301509.XA
Other languages
English (en)
Other versions
CN113111093B (zh
Inventor
沈国江
朱秉�
孔祥杰
季展豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110301509.XA priority Critical patent/CN113111093B/zh
Publication of CN113111093A publication Critical patent/CN113111093A/zh
Application granted granted Critical
Publication of CN113111093B publication Critical patent/CN113111093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Remote Sensing (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于时空成本融合框架的出租车驾驶欺诈检测方法,包括:1)数据收集:使用出租车GPS定位系统作为数据来源,对原始数据进行预处理,保留预处理后的交通流参数,以保证敏感信息的安全性以及分析过程的可靠性;2)异常轨迹检测:选出常用轨迹,将常用轨迹与其他轨迹进行多方面对比,得到异常度指标,从而获得异常轨迹;3)区域异常检测:基于步骤2)所得结果,计算异常轨迹中各个子图的密度,获得区域的异常度指标;4)结果识别:结合步骤2)和3)所得的结果进行综合处理,对异常轨迹进行进一步分类,得到常规异常轨迹与非常规异常轨迹。以西安出租车为例进行的异常轨迹检测实验表明,本发明对处理该问题具有出色表现。

Description

一种基于时空成本融合框架的出租车驾驶欺诈检测方法
技术领域
本发明涉及出租车驾驶欺诈检测方法,属于城市交通异常检测领域,主要功能是判断轨迹欺诈行为,对于检测异常驾驶行为、建设智慧城市等方面具有重要意义。
背景技术
随着GPS定位和无线传感器技术的不断发展和普及,从出租车获得的信息变得越来越丰富和密集,这为理解驾驶员的行驶轨迹提供了机会。在市民的日常出行中,尽管针对出租车规避采取了许多法规,但类似行为仍然很普遍,这表明有些驾驶员在绕行时仍然有不规则行为。因此,检测,监督和纠正驾驶员的异常驾驶轨迹和绕行行为对于提高出租车公司的管理能力和乘客的出行体验具有积极意义。无论如何,我们都需要了解人类的驾驶方式以及如何与环境互动。分析驾驶行为可以帮助我们评估驾驶员的表现,以便深入分析驾驶员绕行行为的根本原因。同时,分析轨迹也可以帮助我们控制和管理交通。在以前的传统出租车行业中,一旦发生绕路,乘客的投诉以及随后由运营公司进行的核查将是一个棘手且耗时的过程,而驾驶员会以道路拥堵为由予以否认,让乘客在维权的道路上举步维艰。幸运的是,随着技术的发展和进步,几乎所有出租车都配备了GPS系统,该系统可以反映每笔订单中行程的出行轨迹与历史定位,这为检测驾驶轨迹离群值提供了新的机会。从一个接客点开始到另一个目的地下车,行程轨迹会按照大部分的驾驶员行驶习惯进行分布,因此我们可以分析不同的轨迹分布来识别绕行轨迹。
但是目前的各种检测方法仍然存在两个主要缺点:一是大多数算法都忽略了影响车辆轨迹特性的客观因素,例如,驾驶员由于前方道路拥堵或封闭而不得不绕道行驶,因此可能导致驾驶员的订单行程变长并且运行时间相对变短的情况;另一方面,大多数算法在算法计算过程中忽略了城市的实际路网情况,并没有将轨迹和实际路网真正匹配。
发明内容
本发明要克服现有技术的上述缺点,提出一种基于时空成本融合框架的出租车驾驶欺诈检测方法。
本发明提出了一种新的异常轨迹识别算法。基于匹配真实路网的功能,通过对出租车轨迹处理,提取出能够反映车辆真实轨迹的采样数据;通过子图密度变化以及时空数据来判断驾驶轨迹异常性,为城市交通异常检测提供有效手段。
本发明是通过以下技术方案达到上述目的:一种基于时空成本融合框架的出租车驾驶欺诈检测方法,包括如下步骤:
(1)对从出租车GPS系统中获得的原始数据进行预处理;
(2)从大量轨迹中识别出常用轨迹,将其与其他轨迹进行对比,寻找异常轨迹;
(3)基于(2)所得的结果,计算异常轨迹中每个子图的密度,获得区域的异常度指标;
(4)结合(2)和(3)所得的结果进行综合处理,分类得到常规异常轨迹与非常规异常轨迹;
其中,所述步骤(1)具体包括如下步骤:
1a).对出租车GPS系统的原始数据进行处理,如去除敏感数据、噪声数据等;
1b).计算GPS相邻两点间的速度。令p1=(lng1,lat1,t1),p2=(lng2,lat2,t2)分别表示相邻两点,d1,2表示一条轨迹中相邻两点的距离,v1,2表示相邻两点的速度,计算公式如下所示:
Figure BDA0002986487870000021
Φ=(cos(lng1+lng2)+sin(lng1)·sin(lng2))·sin2(Δλ) (2)
v1,2=d1,2/(t2-t1) (3)
其中,
Figure BDA0002986487870000022
表示两点经度的平均值,Δλ表示两点纬度的平均值,R表示地球的长半径。
1c).计算GPS相邻两点间的夹角。令θ1,2表示两个相邻点之间的顺时针夹角,计算公式如下所示:
θ1,2=atan2(sin(Δλ)·cos(lng2),ω-γ·cos(Δλ)) (4)
ω=sin(lng2)·cos(lng1) (5)
γ=sin(lng1)·cos(lng2) (6)
1d).根据步骤1b)和1c)所得的GPS相邻两点间的速度与夹角,对原始轨迹数据进行校正,得到和真实路网匹配的轨迹数据。后续步骤所提及的轨迹数据均指当前步骤中校正完毕的轨迹数据。
其中,所述步骤(2)具体包括如下步骤:
2a).使用标准基线模型获得常用轨迹pri。首先使用高斯分布获取正常情况一对节点间N条轨迹下M条常用轨迹,假定在给定M条常用轨迹pri(i=1,2,…,M)的先验条件下,这些轨迹分布具有高斯分布参数的特征:
Figure BDA0002986487870000031
其中,
Figure BDA0002986487870000032
用均值μ和方差σ2表示高斯分布的概率密度函数。对于M对参数,我们使用最大似然估计方法来进行计算;
2b).建模一对源-目的节点<rs,re>间的行驶时间分布。首先在<rs,re>中识别出总共N种不同的行程持续时间,而每个持续时间都被表示为n。行驶时间的观测结果对于给定的先验条件是独立的,因此可将行驶时间的观测值定义为:
Figure BDA0002986487870000033
其中,p(ni|pri)是给定常用轨迹时间pri的行驶时间观测值ni的条件概率。N和PR分别为所有行驶时间观测值和常用轨迹时间的集合。
2c).结合步骤2b)所得结果计算轨迹的行驶时间证据。在对参数进行估计后,对于给定的p(pri)先验概率,定义了行程持续时间为t的轨迹的异常度Abnormal为:
Figure BDA0002986487870000034
2d).使用统计学的方法对<rs,re>间行驶距离的概率分布进行计算。首先在<rs,re>中识别出共有K种不同的行程距离,并将每个距离表示为k,行驶距离的观测结果对于给定的先验条件是独立的。因此可将行驶时间的观测值定义为:
Figure BDA0002986487870000035
其中,p(ki|pri)是给定常用轨迹距离pri的行驶距离观测值ki的条件概率。K和PR分别为所有行驶距离观测值和常用轨迹距离的集合。
2e).结合步骤2d)所得结果计算轨迹的行驶距离证据。在对参数进行估计后,为了避免存在概率为0的情况,在本文中取以e为底的对数。对于给定的p(pri)先验概率,定义了行程距离为d的轨迹的异常度Abnormal为:
Figure BDA0002986487870000041
2f).通过计算两个轨迹的平均速度差,得到两个轨迹的整体运动速度特性的差异度speDis。计算公式如下所示:
Figure BDA0002986487870000042
其中,vk,k+1表示相邻两点间的速度,
Figure BDA0002986487870000043
表示常用轨迹上两点间速度的总数量,
Figure BDA0002986487870000044
表示被检测轨迹上两点间速度的总数量;
2g).通过计算两个轨迹的角度差,得到两个轨迹的内部方向波动程度angDis。计算公式如下所示:
Figure BDA0002986487870000045
其中,θk,k+1表示相邻两点间的角度,
Figure BDA0002986487870000046
表示常用轨迹上两点间角度的总数量,
Figure BDA0002986487870000047
表示被检测轨迹上两点间角度的总数量;
2h).通过计算两个轨迹的运动偏转角度差,得到两个轨迹在运动方向上的整体偏转差异dirDis。计算公式如下所示:
Figure BDA0002986487870000048
其中,dk,k+1表示相邻两点间的距离,
Figure BDA0002986487870000049
表示常用轨迹上两点间距离的总数量,
Figure BDA00029864878700000410
表示被检测轨迹上两点间距离的总数量,α和β分别表示常用轨迹和被检测轨迹的两点间顺时针角度;
2i).结合步骤2f),2g),2h)所得结果计算轨迹的驾驶成本证据。将所得的speDis,angDis和dirDis使用一种加权多特征成本WMFC的计算方法进行综合处理,得到轨迹的成本异常度Abnormal。计算公式如下所示为:
Figure BDA00029864878700000411
Abnormal(c)=WMFC(pri,Trj) (16)
其中,pri表示常用轨迹,Trj表示被检测的轨迹;
2j).结合步骤2c),2e),2i)所得结果计算轨迹的综合证据。首先,令A(t),A(d),A(c)分别表示Abnormal(t),Abnormal(d),Abnormal(c),并对其进行预处理。计算公式如下所示:
Figure BDA0002986487870000051
Figure BDA0002986487870000052
其中,n表示证据源总数。因此,综合证据可以被表达为:
Figure BDA0002986487870000053
Figure BDA0002986487870000054
Figure BDA0002986487870000055
2k).根据步骤2j)所得结果找到异常轨迹。
其中,所述步骤(3)具体包括如下步骤:
3a).以交叉口为分界,将轨迹转换成有向加权子图;
3b).基于步骤(2k)所得结果,计算异常轨迹的每个路段密度。令Gt表示一张有向图,图包括起点St以及终点Dt,另外ρ(Gt(St,Dt))表示密度值。那么可得计算公式,如下所示:
Figure BDA0002986487870000056
Figure BDA0002986487870000057
其中,w1,w2,w3表示各个方向的权重系数,
Figure BDA0002986487870000061
表示两个交叉口间的距离。
3c).基于步骤3b)所得结果获得每个时间戳下密度值的变化。
其中,所述步骤(4)具体包括如下步骤:
a).根据步骤(2),(3)所得结果综合处理。步骤(2)所得结果为异常轨迹,根据步骤(3)所得结果将其进一步分类得到规则异常轨迹和不规则异常轨迹。
本发明的创新之处在于:
(1)提出一种融合异构时空数据信息的冲突证据融合算法。该方法还考虑了轨迹的地理约束和随时间变化的操作模式。
(2)提出一种用于路段异常的新解决方案。该方法按照到达时间的顺序将静态轨迹数据集转换为动态演化图网络,然后检测子图的密度变化。
附图说明
图1是本发明的整体流程图;
图2是本发明的轨迹校正方法效果图;
图3是本发明的实际路网转化演化图的效果图;
图4是本发明实例中出租车起止POI图;
图5(a)~5(f)是本发明实例中本发明与其他方法的异常轨迹检测效果对比图;
图5(a)是所有轨迹图;
图5(b)是本发明检测所得的异常度最高10条轨迹;
图5(c)是iBAT检测所得的异常度最高10条轨迹;
图5(d)是基于密度方法检测所得的异常度最高10条轨迹;
图5(e)是基于时间方法检测所得的异常度最高10条轨迹;
图5(f)是基于TODCSS方法检测所得的异常度最高10条轨迹;
图6是本发明实例中本发明与其他方法在三个评估指标下的效果对比图
图7是本发明实例中根据密度变化判断异常轨迹中异常路段部分
具体实施方式
下面结合附图,以西安火车站与西安交通大学之间出租车轨迹实例对本发明进行进一步描述。
本实例中的出租车异常轨迹检测方法整体框架如图1所示,具体包括以下步骤:
(1)对从出租车GPS系统中获得的原始数据进行预处理:
a).如图4所示,从出租车GPS系统中获得以先火车站和西安交通大学作为起止点的出租车原始数据。该系统数据包括道路网络数据、出租车轨迹数据和POI数据。其中,出租车轨迹数据主要如下表所示:
数据字段 类型 备注
Driver ID String 脱敏处理
Order ID String 脱敏处理
Timestamp String Unix时间戳,以秒为单位
Logitude String GCJ-02坐标系统
Latitude String GCJ-02坐标系统
表1
b).从表1可以注意到需要进行进一步处理的三点内容。
第一点是驾驶员ID和订单ID,这两个信息是与本发明计算过程无关的信息,因此为确保信息安全,要提前对这些信息做脱敏处理。
第二点是数据中仅包含坐标点和时间信息,无法直接获得一些交通基本指标,如车辆速度、车辆转向等信息,因此这些信息需要进一步计算获得。
第三点是经纬度信息是以GCJ-02坐标系统为标准进行存储的,不能直接等同于实际路网数据,因此在计算过程中要按照GCJ-02坐标系统的转换公式进行计算。
b).计算GPS相邻两点间的速度。令p1=(lng1,lat1,t1),p2=(lng2,lat2,t2)分别表示相邻两点,d1,2表示一条轨迹中相邻两点的距离,v1,2表示相邻两点的速度,按照如下转换公式进行处理(
Figure BDA0002986487870000071
表示两点经度的平均值,Δλ表示两点纬度的平均值,R表示地球的长半径):
Figure BDA0002986487870000072
Φ=(cos(lng1+lng2)+sin(lng1)·sin(lng2))·sin2(Δλ)
v1,2=d1,2/(t2-t1)
c).计算GPS相邻两点间的夹角。令θ1,2表示两个相邻点之间的顺时针夹角,按照如下转换公式进行处理:
θ1,2=atan2(sin(Δλ)·cos(lng2),ω-γ·cos(Δλ))
ω=sin(lng2)·cos(lng1)
γ=sin(lng1)·cos(lng2)
d).根据b)和c)所得的GPS相邻两点间的速度与夹角,对原始轨迹数据进行校正,得到和真实路网匹配的轨迹数据。在本发明中,为了确保校正质量,将高频率的GPS点位数据进行采样处理。具体来说就是每隔10秒选取下一个点位,从而使两个点位间距保持在合适的距离,确保多个相邻点位尽可能不会聚集在同一个位置,造成计算过程冗余。轨迹校正的效果如图2所示,本实例使用的所有校正后轨迹如图5(a)所示。
注意,后续步骤所提及的轨迹数据均指当前步骤中校正完毕的轨迹数据。
(2)从大量轨迹中识别出常用轨迹,将其与其他轨迹进行对比,寻找异常轨迹:
a).使用标准基线模型获得常用轨迹pri。我们假定在给定M条常用轨迹pri(i=1,2,…,M)的先验条件下,这些轨迹分布具有高斯分布参数的特征,使用以下公式进行处理(
Figure BDA0002986487870000081
用均值μ和方差σ2表示高斯分布的概率密度函数):
Figure BDA0002986487870000082
使用高斯分布获取正常情况一对节点间N条轨迹下M条常用轨迹。具体来说,就是选择N条出租车轨迹中,密度函数最高的区间内的轨迹作为常用轨迹pri。对于M对参数,我们使用最大似然估计方法来进行计算。
b).建模一对源-目的节点<rs,re>间的行驶时间分布。
具体来说,对于出租车轨迹,我们对每条轨迹进行分别处理。对于每条轨迹,对其相邻点位的间隔时间进行累加,得到一个总行程持续时间,并将其分别表示为ni。而所有轨迹则对应N个总行程持续时间。
行驶时间的观测结果对于给定的先验条件是独立的,因此可将行驶时间的观测值定义为以下公式(p(ni|pri)是给定常用轨迹时间pri的行驶时间观测值ni的条件概率。N和PR分别为所有行驶时间观测值和常用轨迹时间的集合):
Figure BDA0002986487870000083
结合该结果,我们选出以行驶时间为数值的最高密度函数区间内的轨迹作为pri。在对参数进行估计后,对于给定的p(pri)先验概率,定义了行程持续时间为t的轨迹的异常度Abnormal为:
Figure BDA0002986487870000091
根据公式计算每条轨迹对应的行驶时间证据,并以Abnormal(t)表示所有轨迹的行驶时间证据。
c).使用统计学的方法对<rs,re>间行驶距离的概率分布进行计算。
具体来说,对于出租车轨迹,我们对每条轨迹进行分别处理。对于每条轨迹,对其相邻点位的间隔距离进行累加,得到一个总行程距离,并将其分别表示为ki。而所有轨迹则对应K个行程距离。
行驶距离的观测结果对于给定的先验条件是独立的。因此可将行驶时间的观测值定义为以下公式(p(ki|pri)是给定常用轨迹距离pri的行驶距离观测值ki的条件概率。K和PR分别为所有行驶距离观测值和常用轨迹距离的集合):
Figure BDA0002986487870000092
结合该结果,我们选出以行驶路程为数值的最高密度函数区间内的轨迹作为pri。在对参数进行估计后,对于给定的p(pri)先验概率,定义了行程距离为d的轨迹的异常度Abnormal为以下公式(为了避免存在概率为0的情况,取以e为底的对数):
Figure BDA0002986487870000093
根据公式计算每条轨迹对应的行驶距离证据,并以Abnormal(d)表示所有轨迹的行驶距离证据。
d).通过计算两个轨迹的平均速度差,得到两个轨迹的整体运动速度特性的差异度speDis。计算公式如下所示(vk,k+1表示相邻两点间的速度,
Figure BDA0002986487870000094
表示常用轨迹上两点间速度的总数量,
Figure BDA0002986487870000095
表示被检测轨迹上两点间速度的总数量):
Figure BDA0002986487870000096
通过计算两个轨迹的角度差,得到两个轨迹的内部方向波动程度angDis。计算公式如下所示(θk,k+1表示相邻两点间的角度,
Figure BDA0002986487870000101
表示常用轨迹上两点间角度的总数量,
Figure BDA0002986487870000102
表示被检测轨迹上两点间角度的总数量):
Figure BDA0002986487870000103
通过计算两个轨迹的运动偏转角度差,得到两个轨迹在运动方向上的整体偏转差异dirDis。计算公式如下所示(dk,k+1表示相邻两点间的距离,
Figure BDA0002986487870000104
表示常用轨迹上两点间距离的总数量,
Figure BDA0002986487870000105
表示被检测轨迹上两点间距离的总数量,α和β分别表示常用轨迹和被检测轨迹的两点间顺时针角度):
Figure BDA0002986487870000106
将所得的speDis,angDis和dirDis使用一种加权多特征成本WMFC的计算方法进行综合处理,得到轨迹的成本异常度Abnormal。计算公式如下所示为(pri表示常用轨迹,Trj表示被检测的轨迹):
Figure BDA0002986487870000107
Abnormal(c)=WMFC(pri,Trj)
根据公式计算每条轨迹对应的行驶成本证据,并以Abnormal(c)表示所有轨迹的行驶距离证据。
e).结合b),c),d)所得结果计算轨迹的综合证据。首先,令A(t),A(d),A(c)分别表示Abnormal(t),Abnormal(d),Abnormal(c),并对其进行预处理。首先利用以下公式得到信息综合值φ:
Figure BDA0002986487870000108
利用φ对轨迹的证据进行进一步融合处理。该方法主要用于合并不同来源的证据,并在考虑所有可用证据的情况下达到置信度。具体计算公式如下所示(n表示证据源总数):
Figure BDA0002986487870000111
然后对三种证据进行综合处理,综合证据可以被表达为:
Figure BDA0002986487870000112
Figure BDA0002986487870000113
Figure BDA0002986487870000114
f).根据e)所得结果,可以获得所有轨迹的异常度指标。按照降序对异常度指标进行排序,找到排名最靠前的10条轨迹,这10条轨迹就是本发明找到的异常轨迹。本发明找到的前10条异常轨迹如图5(b)所示。
(3)基于(2)所得的异常轨迹,计算异常轨迹中每个子图的密度,获得区域的异常度指标:
a).对于路网中映射的每个轨迹,根据时间戳,我们可以将其经过的交点视为一系列起点-终点进化子图。
具体来说,我们以轨迹的当前交点为原点,选择交点为终点,然后可以在原点的轨迹中连接真实方向和势能方向,并以此为基础构造有向加权子图。根据时间戳记,下一时刻之前的目的地点将成为原点,而潜在方向的选择将成为目的地点,因此我们可以获得一系列此类子图并将它们组合成不断变化的图。具体转换效果如图3所示。
b).对于所有获得的异常轨迹,计算异常轨迹的每个路段密度。
具体来说,首先计算每个路段的起止点,然后计算不同方向上的权重系数,进一步计算当前路段的子图密度。计算完所有路段的子图密度后,按照下述公式得到异常轨迹的整体密度值。那么计算完所有异常轨迹后,将得到所有异常轨迹的整体密度值。该公式首先如下所示(Gt表示一张有向图,图包括起点St以及终点Dt,另外ρ(Gt(St,Dt))表示密度值,w1,w2,w3表示各个方向的权重系数,
Figure BDA0002986487870000115
表示两个交叉口间的距离):
Figure BDA0002986487870000121
Figure BDA0002986487870000122
c).基于异常轨迹的密度值变化图,我们将密度值变化激烈的点位取出,视作造成当前轨迹被检测为异常状态的主要原因,而该点位被称为异常路段。图7展示的是某一个异常路段的检测效果图,图中可以注意到,在此期间,密度急剧增加,因此可以判断此处发生了路段异常,并且这些产物导致了异常轨迹。
(4)结合(2),(3)所得的结果进行综合处理,分类得到常规异常轨迹与非常规异常轨迹:
a).根据(2),(3)所得结果综合处理。(2)所得结果为异常轨迹,根据(3)所得结果将其进一步分类得到规则异常轨迹和不规则异常轨迹。
(*)图6展示的是不同方法在三个评价指标下的效果图。经过对比其它算法,如iBAT、TODCSS等方法,可以发现本发明在准确度、召回率、F1这三个指标上相较于其它方法都具有一定的优势。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.一种基于时空成本融合框架的出租车驾驶欺诈检测方法,包括如下步骤:
(1)对从出租车GPS系统中获得的原始数据进行预处理;
(2)从大量轨迹中识别出常用轨迹,将其与其他轨迹进行对比,寻找异常轨迹;
(3)基于步骤(2)所得的结果,计算异常轨迹中每个子图的密度,获得区域的异常度指标;
(4)结合步骤(2)和步骤(3)所得的结果进行综合处理,分类得到常规异常轨迹与非常规异常轨迹。
2.如权利要求1所述的一种基于时空成本融合框架的出租车驾驶欺诈检测方法,其特征在于:所述步骤(1)具体包括如下步骤:
1a).对出租车GPS系统的原始数据进行处理,如去除敏感数据、噪声数据等;
1b).计算GPS相邻两点间的速度;令p1=(lng1,lat1,t1),p2=(lng2,lat2,t2)分别表示相邻两点,d1,2表示一条轨迹中相邻两点的距离,v1,2表示相邻两点的速度,计算公式如下所示:
Figure FDA0002986487860000011
Φ=(cos(lng1+lng2)+sin(lng1)·sin(lng2))·sin2(Δλ) (2)
v1,2=d1,2/(t2-t1) (3)
其中,lng1和lng2分别表示两点的经度,
Figure FDA0002986487860000012
表示两点经度的平均值,Δλ表示两点纬度的平均值,R表示地球的长半径;
1c).计算GPS相邻两点间的夹角;令θ1,2表示两个相邻点之间的顺时针夹角,计算公式如下所示:
θ1,2=atan2(sin(Δλ)·cos(lng2),ω-γ·cos(Δλ)) (4)
ω=sin(lng2)·cos(lng1) (5)
γ=sin(lng1)·cos(lng2) (6)
其中,lng1和lng2分别表示两点的经度,Δλ表示两点纬度的平均值;
1d).根据步骤1b)和1c)所得的GPS相邻两点间的速度与夹角,对原始轨迹数据进行校正,得到和真实路网匹配的轨迹数据;后续步骤所提及的轨迹数据均指当前步骤中校正完毕的轨迹数据。
3.如权利要求1所述的一种基于时空成本融合框架的出租车驾驶欺诈检测方法,其特征在于:所述步骤(2)具体包括如下步骤:
2a).使用标准基线模型获得常用轨迹pri;首先使用高斯分布获取正常情况一对节点间N条轨迹下M条常用轨迹,假定在给定M条常用轨迹pri(i=1,2,…,M)的先验条件下,这些轨迹分布具有高斯分布参数的特征:
Figure FDA0002986487860000021
其中,
Figure FDA0002986487860000022
用均值μ和方差σ2表示高斯分布的概率密度函数;对于M对参数,我们使用最大似然估计方法来进行计算;
2b).建模一对源-目的节点<rs,re>间的行驶时间分布;首先在<rs,re>中识别出总共N种不同的行程持续时间,而每个持续时间都被表示为n;行驶时间的观测结果对于给定的先验条件是独立的,因此可将行驶时间的观测值定义为:
Figure FDA0002986487860000023
其中,p(ni|pri)是给定常用轨迹时间pri的行驶时间观测值ni的条件概率;N和PR分别为所有行驶时间观测值和常用轨迹时间的集合;
2c).结合步骤2b)所得结果计算轨迹的行驶时间证据;在对参数进行估计后,对于给定的p(pri)先验概率,定义了行程持续时间为t的轨迹的异常度Abnormal为:
Figure FDA0002986487860000024
2d).使用统计学的方法对<rs,re>间行驶距离的概率分布进行计算;首先在<rs,re>中识别出共有K种不同的行程距离,并将每个距离表示为k,行驶距离的观测结果对于给定的先验条件是独立的;因此可将行驶时间的观测值定义为:
Figure FDA0002986487860000025
其中,p(ki|pri)是给定常用轨迹距离pri的行驶距离观测值ki的条件概率;K和PR分别为所有行驶距离观测值和常用轨迹距离的集合;
2e).结合步骤2d)所得结果计算轨迹的行驶距离证据;在对参数进行估计后,为了避免存在概率为0的情况,在本文中取以e为底的对数;对于给定的p(pri)先验概率,定义了行程距离为d的轨迹的异常度Abnormal为:
Figure FDA0002986487860000031
2f).通过计算两个轨迹的平均速度差,得到两个轨迹的整体运动速度特性的差异度speDis;计算公式如下所示:
Figure FDA0002986487860000032
其中,vk,k+1表示相邻两点间的速度,
Figure FDA0002986487860000033
表示常用轨迹上两点间速度的总数量,
Figure FDA0002986487860000034
表示被检测轨迹上两点间速度的总数量;
2g).通过计算两个轨迹的角度差,得到两个轨迹的内部方向波动程度angDis;计算公式如下所示:
Figure FDA0002986487860000035
其中,θk,k+1表示相邻两点间的角度,
Figure FDA0002986487860000036
表示常用轨迹上两点间角度的总数量,
Figure FDA0002986487860000037
表示被检测轨迹上两点间角度的总数量;
2h).通过计算两个轨迹的运动偏转角度差,得到两个轨迹在运动方向上的整体偏转差异dirDis;计算公式如下所示:
Figure FDA0002986487860000038
其中,dk,k+1表示相邻两点间的距离,
Figure FDA0002986487860000039
表示常用轨迹上两点间距离的总数量,
Figure FDA00029864878600000310
表示被检测轨迹上两点间距离的总数量,α和β分别表示常用轨迹和被检测轨迹的两点间顺时针角度;
2i).结合步骤2f),2g),2h)所得结果计算轨迹的驾驶成本证据;将所得的speDis,angDis和dirDis使用一种加权多特征成本WMFC的计算方法进行综合处理,得到轨迹的成本异常度Abnormal;计算公式如下所示为:
Figure FDA0002986487860000041
Abnormal(c)=WMFC(pri,Trj) (16)
其中,pri表示常用轨迹,Trj表示被检测的轨迹;
2j).结合步骤2c),2e),2i)所得结果计算轨迹的综合证据;首先,令A(t),A(d),A(c)分别表示Abnormal(t),Abnormal(d),Abnormal(c),并对其进行预处理;计算公式如下所示:
Figure FDA0002986487860000042
Figure FDA0002986487860000043
其中,n表示证据源总数;因此,综合证据可以被表达为:
Figure FDA0002986487860000044
Figure FDA0002986487860000045
Figure FDA0002986487860000046
2k).根据步骤2j)所得结果找到异常轨迹。
4.如权利要求1所述的一种基于时空成本融合框架的出租车驾驶欺诈检测方法,其特征在于:所述步骤(3)具体包括如下步骤:
3a).以交叉口为分界,将轨迹转换成有向加权子图;
3b).基于步骤(2k)所得结果,计算异常轨迹的每个路段密度;令Gt表示一张有向图,图包括起点St以及终点Dt,另外ρ(Gt(St,Dt))表示密度值;那么可得计算公式,如下所示:
Figure FDA0002986487860000051
Figure FDA0002986487860000052
其中,w1,w2,w3表示各个方向的权重系数,
Figure FDA0002986487860000053
表示两个交叉口间的距离;
3c).基于步骤3b)所得结果获得每个时间戳下密度值的变化。
5.如权利要求1所述的一种基于时空成本融合框架的出租车驾驶欺诈检测方法,其特征在于:所述步骤(4)具体包括:根据步骤(2),(3)所得结果综合处理;步骤(2)所得结果为异常轨迹,根据步骤(3)所得结果将其进一步分类得到规则异常轨迹和不规则异常轨迹。
CN202110301509.XA 2021-03-22 2021-03-22 一种基于时空成本融合框架的出租车驾驶欺诈检测方法 Active CN113111093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110301509.XA CN113111093B (zh) 2021-03-22 2021-03-22 一种基于时空成本融合框架的出租车驾驶欺诈检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110301509.XA CN113111093B (zh) 2021-03-22 2021-03-22 一种基于时空成本融合框架的出租车驾驶欺诈检测方法

Publications (2)

Publication Number Publication Date
CN113111093A true CN113111093A (zh) 2021-07-13
CN113111093B CN113111093B (zh) 2022-05-24

Family

ID=76710268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110301509.XA Active CN113111093B (zh) 2021-03-22 2021-03-22 一种基于时空成本融合框架的出租车驾驶欺诈检测方法

Country Status (1)

Country Link
CN (1) CN113111093B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700646A (zh) * 2015-03-31 2015-06-10 南京大学 一种基于在线gps数据的出租车异常轨迹实时检测方法
CN105976615A (zh) * 2016-06-15 2016-09-28 公安部第三研究所 实现车辆轨迹流数据异常检测的方法
US20170155672A1 (en) * 2015-11-30 2017-06-01 International Business Machines Corporation User state tracking and anomaly detection in software-as-a-service environments
CN108710637A (zh) * 2018-04-11 2018-10-26 上海交通大学 基于时空关系的出租车异常轨迹实时检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700646A (zh) * 2015-03-31 2015-06-10 南京大学 一种基于在线gps数据的出租车异常轨迹实时检测方法
US20170155672A1 (en) * 2015-11-30 2017-06-01 International Business Machines Corporation User state tracking and anomaly detection in software-as-a-service environments
CN105976615A (zh) * 2016-06-15 2016-09-28 公安部第三研究所 实现车辆轨迹流数据异常检测的方法
CN108710637A (zh) * 2018-04-11 2018-10-26 上海交通大学 基于时空关系的出租车异常轨迹实时检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾瑛: "基于BP神经网络的异常轨迹检测方法", 《微型电脑应用》 *

Also Published As

Publication number Publication date
CN113111093B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN110176139B (zh) 一种基于dbscan+的道路拥堵识别可视化方法
CN109410586B (zh) 一种基于多元数据融合的交通状态检测方法
US10728708B2 (en) Verifying sensor data using embeddings
US8731808B2 (en) Road network analysis system
US10262213B2 (en) Learning lanes from vehicle probes
US9564048B2 (en) Origin destination estimation based on vehicle trajectory data
US9721471B2 (en) Learning lanes from radar data
US9508257B2 (en) Road detection logic
CN112669594B (zh) 交通路况预测的方法、装置、设备及存储介质
Kumar et al. A model based approach to predict stream travel time using public transit as probes
CN111768619A (zh) 一种基于卡口数据的快速路车辆od点确定方法
CN106940929B (zh) 交通数据预测方法及装置
Sauerländer-Biebl et al. Evaluation of a transport mode detection using fuzzy rules
CN108665084B (zh) 一种对驾驶风险的预测方法及系统
CN113408833A (zh) 一种公共交通重点区域识别方法、装置及电子设备
CN113111093B (zh) 一种基于时空成本融合框架的出租车驾驶欺诈检测方法
Li et al. Driving performances assessment based on speed variation using dedicated route truck GPS data
US9607509B2 (en) Identification of vehicle parking using data from vehicle sensor network
US20230236020A1 (en) System and Method for Map Matching GNSS Positions of a Vehicle
CN115841765A (zh) 车辆位置盲区监控方法、装置、电子设备及可读存储介质
CN115257803A (zh) 一种适用于高速自动驾驶功能场景提取方法
JP7120239B2 (ja) コンピュータプログラム、走行車線特定装置および走行車線特定システム
Alrassy Map Data Integration Technique with Large-Scale Fleet Telematics Data as Road Safety Surrogate Measures in the New York Metropolitan Area
US20230384104A1 (en) System and method for identifying trip similarities
WO2023047590A1 (ja) 車載器、課金システム、課金サーバ、位置推定方法、課金方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant