CN113436433B

CN113436433B - 一种高效的城市交通离群值检测方法

Info

Publication number: CN113436433B
Application number: CN202110702833.2A
Authority: CN
Inventors: 王兴; 曾睿昊; 雷澳; 何光熠; 李鑫欣; 罗映淞
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-06-21
Anticipated expiration: 2041-06-24
Also published as: CN113436433A

Abstract

本发明涉及一种高效的城市交通离群值检测方法。该方法利用K‑FCM聚类得到道路模式相同的路段，利用肘方法对聚类数量进行优化；利用核密度分布拟合邻居道路和道路流量数据，采用粒子群优化的BP神经网络对道路情况进行概率预测，最终得到道路情况的异常判断结果。本发明能够高效准确地检测城市交通问题中的离群值存在情况，准确发现城市道路中的异常拥堵或异常疏通，对解决城市交通为交管部门的交通疏导、道路规划提供帮助。

Description

一种高效的城市交通离群值检测方法

技术领域

本发明属于信息技术领域，特别涉及一种高效的城市交通离群值检测方法。

背景技术

城市交通车流量分析一直是一个城市交通系统问题中一个重要的研究方向。随着GPS和车载传感器的普及，利用交通流量数据分析城市交通系统设计和规划中存在问题成为可能，其中，利用合适的离群值检测方法检测交通数据中的离群值，发现交通流量在时间线上的异常变动是交通流量数据分析的重要应用，而一个精确的离群值检测无疑会为交管部门和城市规划部门提供高效的决策支持。

离群值的检测在统计学和数据挖掘中一直是一个极为重要的主题，根据Zimek等人的研究，离群值通常被认为是与其余观测值相差较大的值，从而让人们怀疑这些值是由不同的机理产生的，而在此定义下，如果能较好地完成离群值检测既能减小模型拟合的误差，也能检测模型在不同情况下描述数据的能力，而这样的定义也为离群值在真实事件中的意义提供了有价值的参考。

在交通流量数据中，离群值常常具有更为实际的意义，大部分交通离群值是由于突发交通事故、交通管制、异常天气、重大事件等原因导致的，例如北京市的东直门站附近道路由于是其换乘地铁站的属性往往是非常拥堵的，但是某天车辆却通行顺畅，这就被我们认为是交通流量离群值的实际体现。又比如每天晚上11点之后，长安街一般是非常通畅的，但是在某天晚上接近12点时拥堵距离超过800米，这也是我们所认为的“交通离群值”。Djenouri等人也通过一个关于城市交通流量数据的真实案例研究展示了离群值检测在交通问题中的重要意义。

根据Bhowmick对真实交通事件中的离群值检测问题的分析，可能对检测准确率造成影响的除了算法本身的好坏，还有交通问题中独有的数据样式，例如GPS点的低采样频率、城市道路的复杂性(例如在平面上相互重叠的高架桥)、道路匹配算法的准确程度甚至是在实际交通问题中对于离群值的定义。单纯基于距离或密度的方法往往会忽略了时间的因素，而基于统计的方法不但容易受到概率模型拟合程度的影响，同时会忽略每条道路在空间上的关系(例如一旦有一条道路是拥堵的，它的邻近的道路也很可能较为拥堵)。而利用多维度信息去判断交通模式的方法，虽然能够较为真实地还原道路的时空状态变化，但是相比起其他仅需要收集道路的车流情况的方法，这种方法无疑会需要更大的数据量和算力。

轨迹数据的采样率不均匀，两个采样点之间的位置存在固有的不确定性。这种采样点之间的不确定性可以通过使用地图匹配算法来降低。但是现有的地图匹配算法只考虑了空间数据，在高采样的情况下工作效果良好。同时，还要考虑城市道路的复杂性，如多层、复杂的立交、高架路等。在低采样的情况下，这就增加了难度。使用最短路径来寻找轨迹的实际位置是没有帮助的。在此情况下，必须考虑采用混合技术，如将全局方法与基于权重的技术相结合，或将全局方法与高级或概率方法相结合。时间感知启发式方法可以提高低采样数据中地图匹配算法的精度。由于轨迹数据的分布是偏斜的，所以只用基于密度或基于距离的方法进行离群值检测并不是解决问题的方法。现有的许多算法采用混合方法，但没有考虑时间信息。使用基于历史数据的时间相关的流行路线图来处理异常值的变化性质是有益的。检测到的异常值可以用来识别事件，通过每形成模式匹配，并与之前发生不规则事件时看到的类似模式进行比较。

发明内容

本发明的目的在于提供一种高效的城市交通离群值检测方法，该方法能够高效准确地检测城市交通问题中的离群值存在情况，准确发现城市道路中的异常拥堵或异常疏通，对解决城市交通为交管部门的交通疏导、道路规划提供帮助。

为实现上述目的，本发明的技术方案是：一种高效的城市交通离群值检测方法，包括如下步骤：

步骤S1、对车辆的GPS定位数据进行预处理，初步得到道路车流量模式矩阵；

步骤S2、从邻居路段角度对每条道路的车流量模式进行探索，得到邻居路段车流量模式矩阵；

步骤S3、利用道路车流量模式矩阵和邻居路段车流量模式矩阵进行异常检测；

步骤S4、输入实时数据进行离群值检测并进行可视化。

在本发明一实施例中，所述步骤S1具体实现如下：

步骤S11、数据清洗；

步骤S12、匹配地图并得到每天每个时间段中各路段上的车流量矩阵；

步骤S13、对车流量矩阵进行降维得到车流量模式矩阵。

在本发明一实施例中，所述道路车流量模式矩阵公式如下：

在上述矩阵中，m表示路段数，n＝24，表示一天的小时个数；上述矩阵表示一天内，每单位时间内经过每个路段的车辆数。

在本发明一实施例中，所述步骤S2具体实现如下：

步骤S21、结合实际路段距离对聚类算法中的距离进行重定义；

步骤S22、利用DPC和KNN算法初始化聚类中心；

步骤S23、利用K-FCM算法聚类具有相似车流量模式的道路；

步骤S24、利用肘方法优化聚类数量；

步骤S25、得到邻居路段车流量模式矩阵。

在本发明一实施例中，所述邻居路段车流量模式矩阵公式如下：

在上述矩阵中，m表示路段个数，n＝24，表示一天的小时个数；上述矩阵表示一天中，每个具有相似道路车流量模式的邻居路段在每个单位时间内通过的车辆总数。

在本发明一实施例中，所述步骤S21中，重定义的距离公式如下：

在上述公式中，D(i，j晦为重定义的距离，V为降维后的车流量矩阵，被用来计算邻居路段；ω是用来平衡两个路段距离权重的比例系数，D_g(i，j)是路段i和j的中心点的实际距离，

表示两个路段的不同车流量模式的欧式距离，其中V_ik表示第i个路段的第k个系数，为了使两个距离处于同一度量尺度下，引入参数

调整D_g(i，j)的比例。

在本发明一实施例中，所述步骤S3具体实现如下：

步骤S31、利用核密度分布拟合道路车流量概率矩阵和邻居路段车流量概率矩阵；

步骤S32、利用粒子群优化的BP神经网络对概率矩阵进行学习并得到得分矩阵；

步骤S33、引入阈值优化得分矩阵取得最优结果。

在本发明一实施例中，所述道路车流量概率矩阵和邻居路段车流量概率矩阵公式如下：

其中，PRf^T和PNr分别表示T天内的道路车流量概率矩阵和邻居路段车流量概率矩阵，

和

表示第i个路段在d天时段t时的交通流量；N是第i个路段簇中的邻居路段数量；核心密度估计法KDE的内核Φ被设置为带宽

和

高斯模型，其中σ为道路车流量模式矩阵Rf和邻居路段车流量模式矩阵Nr的标准差。

在本发明一实施例中，所述得分矩阵公式如下：

SM为得分矩阵，亦即离群值检测与评价模型的输出矩阵，SM值越大，该路段为离群值路段的可能性越大；神经网络的训练是以道路车流量模式矩阵Rf和邻居路段车流量模式矩阵Nr为输入层，离群值矩阵Os为输出层。在实际的离群点检测中，当输入实时的道路交通流量数据时，可得到实际的输出SM，并通过对SM进行四舍五入得到离群路段；

离群值矩阵Os公式如下：

上述矩阵表示一天中每个单位时间内每个路段的离群值情况，m表示路段个数，n＝24，表示一天的小时个数，相应的矩阵中元素值为1则表示一天中第一个时间段的第一个路段被认定为离群点，为0则意味着在该时间段中，该路段被认为是正常路段。

相较于现有技术，本发明具有以下有益效果：本发明方法能够高效准确地检测城市交通问题中的离群值存在情况，准确发现城市道路中的异常拥堵或异常疏通，对解决城市交通为交管部门的交通疏导、道路规划提供帮助，本申请相比于现有技术具有如下优点：

(1)与现有方法相比，提出的方法具有更高的检测精度；

(2)所提方法的检测时间效率并不理想，未来进一步改进神经网络模型，有望实现更短的检测时间。

附图说明

图1为本发明的高效的城市交通离群值检测框架的总流程图；

图2为本发明的检测流程图；

图3为本发明中K-FCM聚类算法的流程图；

图4为本发明中PSO-BP神经网络算法的流程图；

图5为三值趋势图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明一种高效的城市交通离群值检测方法，包括如下步骤：

步骤S4、输入实时数据进行离群值检测并进行可视化。

以下为本发明的具体实现过程。

为了方便详细阐述本发明，首先统一说明相关基本概念。

定义1(道路交通流量矩阵Rf)Rf是一个具有时间戳的路段流量统计矩阵，对一天来说，Rf可以表示为一个大小为127049×24的数值矩阵，如下式：

在上述矩阵中，m＝127049(表示路段)，n＝24(表示一天的小时个数)。该矩阵表示一天内，每单位时间(小时)内经过每个标记路段的车辆数。例如Rf₁₁＝1表示一辆车在0-1点时经过路段1。

定义2(邻居路段矩阵Nr)Nr是一个具有时间戳的路段数据矩阵。对一天来说，一单位的Nr可以用一个大小为m×24的数值矩阵表示，如下式：

在上述矩阵中，m表示具有相同道路交通流量模式的邻居路段个数，n＝24。该矩阵表示一天中，每个具有相似道路交通流量模式的路段在每个单位时间(小时)内通过的车辆总数。例如Nr₁₁＝1表示第一条与路段1具有相同道路模式的路段在0-1点内通过车辆共1辆。这里，本申请将具有相同道路交通流量模式的路段称为邻居路段。

定义3(离群值矩阵Os)Os是具有时间戳的路段状态统计数据。一单位的Os可以表示为一个具有{0|1}两个状态的、大小为127049×24的数值矩阵，该值一般是由交通管理部门从社会媒体或交通警察处理的交通事故中收集。一单位的Os可以表示为：

矩阵(3)表示一天中每个单位时间(小时)内每个路段的离群值情况。例如，Os₁₁＝1表示一天中第一个时间段的第一个路段被认定为离群点。那么Os₁₁＝0意味着在该时间段中，该路段被认为是正常路段。

定义4(概率矩阵)概率矩阵包含道路交通流量的概率矩阵(Rf的概率矩阵为PRf)和邻近路段的概率矩阵(Nr的概率矩阵为PNr)。两者都是带有时间戳的道路交通流量的概率矩阵。一个单位概率矩阵可以表示为在[0，1]区间、大小为127049×24的数值矩阵。概率是通过核心密度估计法(KDE)计算所得，其定义如下：

其中，

和

表示第i个路段在d天时段t时的交通流量。N是第i个路段簇中的邻居路段数量。KDE的内核Φ被设置为带宽

和

高斯模型，其中σ为Rf和Nr的标准差。

定义5(得分矩阵SM)SM是离群值检测与评价模型的输出矩阵。一个单位的SM可以表示为一个大小为127049×24的数值矩阵。SM_ij的值为[-2，2]。该值越大，该路段为离群值路段的可能性越大。一单位的SM可以表示为下式：

神经网络的训练是以道路交通流量Rf和相邻路段Nr为输入层，Os为输出层。在实际的离群点检测中，当本申请输入实时的道路交通流量数据时，可以得到实际的输出SM。本申请可以通过对SM进行四舍五入得到离群路段。

根据以上定义，交通离群值检测问题可以分为三个部分，如图l、图2所示，主要包括数据预处理、道路交通流模式提取以及离群值检测模型训练和评估。

(1)数据预处理

数据预处理部分主要针对本发明中需要使用的数据进行针对性处理。以北京市的2018年11月1日-30日30天的数据为例，本申请针对设备异常、人为操作不当等原因造成的数据异常制定了几项数据清洗原则。首先去除轨迹在五环的最大、最小经纬度之外的点；其次针对在同一轨迹中的同一时间出现多个点，只保留第一次出现的点；清除超速点，当速度大于90千米/小时，认为其速度异常并去除；清除距离过长的点，当两个相邻采样点的距离超过2千米时，认为其异常并去除；清除时间间隔过长的点，当两个采样点的时间间隔超过10分钟，认为采样异常并将其去除；清除停驻点，当车辆在30分钟内的运动轨迹小于50米，判定其为无效轨迹并去除；清除等乘客点，根据车辆的载客情况去除非正常行进中的点。

路段匹配完成后。本申请设置时间间隔为15分钟。统计单位时间(15分钟)内单日同一路段的车辆数量，得到道路交通流量矩阵。道路交通流量矩阵为127049×96大小的矩阵，表示每天每15分钟(即96次间隔)内127049个不同路段的交通流量。

考虑到北京的交通拥堵时间大多超过15分钟，为了提高检测精度，本申请将相邻的4个时间间隔分别合并为一个单位，即把单位时间由原来的15分钟调整为60分钟(1小时)。因此，道路交通流量矩阵显示为127049×24大小的矩阵。

为了降低评价模型学习的时间复杂度，本申请考虑降低Rf矩阵的维度，采用非负矩阵分解算法(NMF)进行数据维度的降低。对于任何给定的非负矩阵V，该算法可以找到一个非负矩阵W和一个非负矩阵H来满足下式：

V_n×m≈W_n×r×H_r×m# (7)

公式(7)中W和H的函数是相对的。这里将W定义为系数矩阵，H定义为基矩阵。

在H不变的情况下，现在可以用每行的3个数字代表3种基本交通流量模式的线性组合。本申请使用非负矩阵分解的最大意义体现于此，原来的流量矩阵V可以由系数矩阵W代替，列数大大减少且不会损失必要信息，结果中没有负数具有实际意义。因此本申请只需要对系数矩阵进行运算，大大降低了运算的复杂度和时间开销，为下一步聚类分析做好铺垫。

至此，本发明的数据处理部分基本完成。

(2)道路交通流模式提取

在本步骤中，本申请给出了道路交通流模式提取的详细过程，目的是在127049个路段中找到具有相同道路交通流模式的路段，为后续的离群值检测模型提供输入数据。由于矩阵仍具有高维度和数据形式不规则的特点，本申请改进了模糊C-means(FCM)算法来提取道路交通流量模式，并将其命名为最优K簇中心FCM聚类算法(K-FCM)。其中"K"表示的是基于K-最近邻(KNN)算法和密度峰快速搜索与查找(DPC)算法的结合优化方法，它代表了经过KNN算法优化的DPC局部密度表示方法。本申请改进的算法具有较低的时间复杂度，适用于高维数据的聚类分析。

步骤1：综合考虑地理距离和模式变化的影响。本申请根据地理上的距离和交通模式的相似性来选择邻居道路，因此重新定义距离D(i，j)：

在上述公式中，降维后的矩阵V被用来计算邻居路段。ω是用来平衡两个路段距离权重的比例系数。D_g(i，j)是路段i和j的中心点的实际距离。

表示两个路段的不同流量模式的欧式距离，其中V_ik表示第i个路段的第k个系数。为了使两个距离处于同一度量尺度下，这里引入了参数ζ调整D_g(i，j)的比例，取值为1000。

步骤2：使用最近的邻居信息来计算局部密度，如下式：

步骤3：计算样本点x_i与样本点x_j之间的欧氏距离小于其截距的样本点数量，如下式：

步骤4：计算综合变量γ_i的值用于表示第i个样本数据为密度峰值点的可能性(γ_i值越大，该点为密度峰值点的可能性越大)，如下式：

γ_i＝ρ_i*δ_i# (11)

步骤5：根据γ_i值对样本数据降幂排序，选取排序后的前c个样本点，即为初始化的聚类中心集C_i ⁽⁰⁾。

优化后的算法流程见图3。

至此，通过提出的K-FCM聚类算法对具有相同道路交通流量模式的路段进行聚类。采用NMF算法将Rf矩阵的维度缩小为系数矩阵作为样本数据，得到初始聚类中心集。本申请利用K-FCM算法对所有路段进行聚类，在同一聚类中的路段互为相邻路段。据此，得到Nr矩阵。

进一步的，为了减少人为因素对聚类数量的影响，保证聚类结果能够起到一定的降维效果。本发明采用肘算法求出聚类的最优数量k。

在肘算法中，目标函数定义为：

其中，SSE为误差平方和(sum ofthe squared errors，SSE)，是所有样本的聚类误差，度量聚类质量的好坏。C_i是第i个簇，p是C_i中的样本点，m_i是C_i的质心。

显然，随着k的增大，样本聚类数增大，样本划分更加细致，每一类的聚合效果更佳，目标函数值SSE变小。当k小于最佳聚类数时，k的增大会大幅增加每个簇的聚合程度，故SSE的下降速率较快；而当k到达最佳聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降速率会骤减，而后随着k值的继续增大而趋于平缓。故SSE和k的关系图是一个手肘的形状，而肘部对应的k值即为数据的最佳聚类数。

(3)离群值检测模型训练和评估

本步骤根据邻居路段矩阵和历史交通流量矩阵建立评价模型。采用泊松分布来拟合Rf和Nr的概率密度，得到PRf和PNr矩阵。

概率越低，当前流量值在对应时间段出现在Rf和Nr矩阵上的可能性越小，即越有可能是离群值。但由于未知PRf矩阵和PNr矩阵之间是否存在线性关系，本申请采用反向传播神经网络(BPNN)学习算法进行进一步评估和误差修正。

BPNN算法具有数据兼容性强、操作过程简单等优点，同时由于误差函数的选择，该算法仍属于局部最优解。因此，引入粒子群优化(Particle Swarm Optimization，PSO)算法来优化BPNN算法的权值和阈值。PSO算法是一种基于“进化”和“种群”概念的全局搜索优化算法，有助于解决复杂空间的最优解问题。

本申请取Poisson分布拟合的PRf和PNr矩阵作为输入层，Ar矩阵作为输出层。本申请首先在可解空间中初始化粒子和种群，用位置、速度和适应值表示粒子的特征，BPNN得到的适应值代表了粒子的质量，粒子在可解空间中变化的同时，每次都要计算。通过比较粒子的新的健身值与个体极值和群体极值，达到优化的目的。然后利用PSO算法对BPNN中的初始连接权重和阈值进行优化，同时将最优解分配给BPNN进行检测。如图4所示，具体步骤如下：

步骤1：输入PRf和PNr矩阵，并给定BP神经网络拓扑结构。

步骤2：生成粒子群并随机初始化粒子的位置和速度，z表示粒子位置，v表示粒子速度，S为粒子的维度数，R表示输入层节点数，S1表示隐含层节点数，S₂表示输入层节点数，见下式：

z_i＝{z_i1，z_i2，…，z_ij}，i＝1，2，…，n# (13)

v_i＝{v_i1，v_i2，…，v_ij}，i＝1，2，…，n# (14)

S＝R×S₁+S₁×S₂+S+S₂# (15)

步骤3：计算粒子的适应值，下式表示第i个粒子的适应值，n为样本数，N为粒子群规模：

步骤4：计算粒子的个体极值解p_self和全局极值解p_best。

步骤5：更新粒子位置z_(ij)(t+1)和速度v_(ij)(t+1)，表示经过t+1次迭代第i个粒子在j维度上的位置和速度，c₁和c₂为常加速度，r₁和r₂为在[0，1]上的随机数，如下式：

v_(ij)(t+1)＝ψv_(ij)(t)+c₁r₁[p_self-z_(ij)(t)]+c₂r₂[p_best-z_(ij)(t)]# (17)

z_(ij)(t+1)＝z_(ij)(t)+v_(ij)(t+1)# (18)

其中，ψ为线性递减惯性权重，ψ_max和ψ_min分别表示惯性权重的最终值和初始值，iter_max为最大迭代次数，iter表示当前迭代次数，算法如下：

步骤6：更新粒子个体极值解p_self和全局极值解p_best。

步骤7：若iter＜iter_max，则返回步骤5；否则，则将得到的最优粒子赋予BP神经网络的连接权值和阈值进行训练，进行离群值检测得到得分矩阵SM。

考虑到经过BP神经网络计算后，SM_ij的值并不会严格地限定在[0，1]，我们引入阈值ε对SM矩阵进行取整，当得分值为[1-ε，2]时，则认为该路段为离群值路段。否则，则为正常。为了定性判断引入阈值后精度的提高，引入精度率(Precision，P)、召回率(Recall，R)和平均值(Average，F₁)。离群值部分为正值，正常部分为负值。建立混淆矩阵，如下式：

本发明的实验是以北京市数据为例，选择2018年11月21日、23日和29日的数据集“BJ21”、“BJ23”和“BJ29”，从检测准确度、方法效率、鲁棒性等方面检测参数选择、优化方法带来的影响。

参数选择实验

考虑到我们在K-FCM算法中将邻居路段的距离设定为两部分(实际距离和欧氏距离)，这两个距离在总距离中的组成比例必然影响聚类算法对样本点的分类，从而影响离群点的检测。此时，我们将框架中聚类算法的聚类数量设定为c＝300，SM的阈值设定为，对于比例系数ω，我们在其[0，1]区间每隔0.1进行一次实验，实验对象包括精度P、召回率R、F₁值和检测时间。检验结果如表1：

表格1ω参数检验

根据实验结果我们可以发现，在单一变量的情况下，当ω＝1，即路段的实际距离作为样本点之间的距离时，实验结果最差，但检测耗时最短。而当ω逐步收敛至1时，检测效果在取值中段达到峰值后有所下降，而检测时间在增长到25秒后趋于稳定。根据此实验结果，我们在K-FCM算法的距离公式中设定ω＝0.8。

同时，我们验证了参数调整对实验结果造成的影响。我们分别进行了两组实验，在ω＝0.8和ε＝0.18的实验条件下，使用误差平方和(SSE)、Carinski-Harabasz指数(CHI)、Silhouette系数(SC)、P、R和模型训练时间等指标描述实验。考虑到时间的复杂性和结果的准确性，我们仍然在NMF算法中设置r＝6，使用“BJ29”数据集进行实验。

在预实验中，我们利用本发明提出的框架对参数c进行初步试验，得到c的范围大致在[287，306]区间内。利用肘方法对区间内的参数c进行验证，得到结果如表2所示：

表格2c参数实验

结果表明，随着c值的增加，SSE值下降，变化率逐渐减小，尤其是当c＞297时，SSE的变化极为微小。CHI和SC这两个值可以在一定程度上反映聚类效果。我们可以发现，当c＞299时，CHI和SC达到最高值，并在一定范围内略有波动。当c＝299时，P获得最佳值。模型训练时间的趋势基本上是随着c的增加而增加，但当c＞304时，变化率会急剧增加。综上所述，当c取值在[299，300]区间时，实验的整体效果较好，这进一步反映了c的值对本实验有更直接的影响。

接着，我们对阈值ε的最佳取值进行试验分析。我们将要阈值ε的取值范围设定为[0，0.5]，在该范围内每隔0.02对ε进行一次实验取值，对每个值下三天的平均P、R和F1值进行计算。结果如图5所示：

我们可以发现，随着阈值ε的增加，R将变得更大。当ε增大时，被识别为离群值的路段数量会增加，而相应的非离群值的路段将更容易被检测出来。与R不同，P不是单调趋势的函数。随着ε的增加，被误检为离群值的断面数量也相应增加，这就导致P在达到极值后迅速下降。P和R的变化规律导致F₁存在极值点。因此，当F₁达到极值点时，横坐标即为ε的最佳取值。P、R、F₁、ε的对应值及总检测时间如表3所示。

表格3检测结果

算法优化性能测试

为了进一步评价本发明的先进性和准确性，我们进行了两组对比实验。对于我们优化的两种主要算法，我们进行了优化前后的算法验证实验。平均值如表4所示。

表格4优化算法比较

表2的结果表明，优化的FCM算法可以有较少的时间成本，而优化BP算法可以有更好的精度和召回率。该算法结合两种优化算法，得到精度、召回率和模型训练时间的最优值，与没有进行算法优化的实验相比，结果有很大的提高。因此，所提出的框架对实验结果有明显的影响。

框架鲁棒性检验

在本发明的框架下，为了检验其鲁棒性，我们针对不同数据集时间间隔(15、30、45、60分钟)下了框架性能进行检测，详细结果如表5所示：

表格5时间间隔实验结果

根据实验结果，我们可以知道，在时间间隔大于30分钟后，检测精度和计算时间有明显改善。当时间间隔过小时，算法的检测精度处于较低值，计算时间也明显增加。这样的结果也更符合城市地区的道路拥堵时间，这进一步反映了我们的方法具有很强的鲁棒性。

框架优越性检验

最后，为了定量评价所提出的方法的性能，在综合分析相关研究的基础上，我们选取了两类最新的代表性道路异常检测方法。在相同的实验环境下，采用“BJ29”数据集进行对比实验。其中，第一种方法是基于统计学的方法且同样以北京市的交通数据作为实验数据集。他们引入了柏松混合模型(PMM)-耦合隐马尔可夫模型(CHMM)对离群值进行检测，为了验证检测准确性，他们甚至对产生离群值的真实原因进行了调查。第二种方法是基于密度的时空标标签传播离群值检测框架，他们在利用基本标签传播算法的同时，引入了CHMM模型用于增强离群值候选人的影响，在轨道数据中继系统(ODRS)的帮助下，该方法的检测性能有显著提升。平均实验结果如表6所示。

表格6相似算法比较

根据实验结果，我们得出以下结论：

(1)与现有方法相比，提出的方法具有更高的检测精度；

综上所述，本发明提出的框架在检测精度和时间效率方面有良好的表现。更重要的是，该框架能更真实地反映交通事件中离群值的实际意义，这对于理解和利用交通离群值数据具有重要意义。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种高效的城市交通离群值检测方法，其特征在于，包括如下步骤：

步骤S4、输入实时数据进行离群值检测并进行可视化；

所述步骤S2具体实现如下：

步骤S22、利用DPC和KNN算法初始化聚类中心；

步骤S23、利用K-FCM算法聚类具有相似车流量模式的道路；

步骤S24、利用肘方法优化聚类数量；

步骤S25、得到邻居路段车流量模式矩阵；

所述邻居路段车流量模式矩阵公式如下：

在上述矩阵中，m表示路段个数，n＝24，表示一天的小时个数；上述矩阵表示一天中，每个具有相似道路车流量模式的邻居路段在每个单位时间内通过的车辆总数；

所述步骤S21中，重定义的距离公式如下：

在上述公式中，D(i，j)为重定义的距离，V为降维后的车流量矩阵，被用来计算邻居路段；ω是用来平衡两个路段距离权重的比例系数，D_g(i，j)是路段i和j的中心点的实际距离，

表示两个路段的不同车流量模式的欧式距离，其中V_ik表示第i个路段的第k个系数，为了使两个距离处于同一度量尺度下，引入参数ζ调整D_g(i，j)的比例。

2.根据权利要求1所述的一种高效的城市交通离群值检测方法，其特征在于，所述步骤S1具体实现如下：

步骤S11、数据清洗；

步骤S13、对车流量矩阵进行降维得到车流量模式矩阵。

3.根据权利要求2所述的一种高效的城市交通离群值检测方法，其特征在于，所述道路车流量模式矩阵公式如下：

4.根据权利要求1所述的一种高效的城市交通离群值检测方法，其特征在于，所述步骤S3具体实现如下：

步骤S33、引入阈值优化得分矩阵取得最优结果。

5.根据权利要求4所述的一种高效的城市交通离群值检测方法，其特征在于，所述道路车流量概率矩阵和邻居路段车流量概率矩阵公式如下：

和

和

6.根据权利要求4所述的一种高效的城市交通离群值检测方法，其特征在于，所述得分矩阵公式如下：

SM为得分矩阵，亦即离群值检测与评价模型的输出矩阵，SM值越大，该路段为离群值路段的可能性越大；神经网络的训练是以道路车流量模式矩阵Rf和邻居路段车流量模式矩阵Nr为输入层，离群值矩阵Os为输出层；在实际的离群点检测中，当输入实时的道路交通流量数据时，可得到实际的输出SM，并通过对SM进行四舍五入得到离群路段；

离群值矩阵Os公式如下：