CN111081016A

CN111081016A - 一种基于复杂网络理论的城市交通异常识别方法

Info

Publication number: CN111081016A
Application number: CN201911308389.5A
Authority: CN
Inventors: 李大庆; 郑参
Original assignee: Beihang University
Current assignee: Beijing Palmgo Information Technology Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-28
Anticipated expiration: 2039-12-18
Also published as: CN111081016B

Abstract

本发明提供一种基于复杂网络理论的城市交通异常识别方法，其步骤如下：步骤1，基于交通数据构建城市交通网络；步骤2，基于复杂网络理论的特征提取及筛选；步骤3，交通系统的异常识别及预测；步骤4，模型评价及验证；通过以上步骤，本发明基于复杂网络理论及机器学习方法，为城市交通拥堵异常的识别及预测提供了科学可靠的技术支持和理论支撑；本发明提出的技术方案能够高效准确地对城市交通系统的拥堵异常进行识别和预测，对保证城市交通系统健康平稳的运转和提高城市交通系统的可靠性具有重要意义；本发明所述方法科学，工艺性好，具有广阔推广应用价值。

Description

一种基于复杂网络理论的城市交通异常识别方法

技术领域

本发明提出一种基于复杂网络理论的城市交通异常识别方法，基于实证城市交通数据和路网结构信息构建城市交通网络，运用复杂网络理论进行特征提取及筛选，结合机器学习技术进行交通异常的识别及预测，属于机器学习与网络科学交叉领域。

背景技术

近年来，随着城市化的迅速发展，交通已经成为现代社会发展的主要基础设施之一，对于目前“互联网+交通”的发展模式也有着举足轻重的作用。然而，当城市交通随着城市的增长而发展成庞大而复杂的交通网络系统之后，交通拥堵的问题也变得愈发突出。事实上，交通拥堵已经造成了极大的经济、环境等损失。例如北京市2018年月人均拥堵成本约为1049元，处于全国首位。交通拥堵问题如果不能得到有效解决和根本治理，必将成为制约城市经济发展和人民生活水平提高的瓶颈。目前，许多城市内交通供给与交通需求之间的矛盾日益激化，造成严重的交通问题。在趋于饱和的城市道路网络中，交通事故、恶劣天气和道路交通紧急事件等交通异常发生时，均会造成道路交通短时拥堵，甚至会由点到面的迅速发展蔓延，导致整体路网的拥堵或瘫痪。及时、准确地识别交通异常事件并进行积极的响应和处理，是应对道路交通拥堵的有效途径之一。因此交通异常事件的识别也逐步成为交通研究领域的研究热点与难点。交通异常识别也成为智能交通系统研究中的一个重要组成部分。

传统的交通异常事件识别技术依靠传感器技术、计算机技术、人工智能技术和通信技术获取车辆的数量、车速、空间占有率等重要单一参数。检测设备的局限性和数据的不完整性影响着传统交通异常事件识别的准确性和实时性。车载GPS定位设备的普遍应用，在降低车辆相关信息获取难度的同时大大提高了信息的准确性，尤其是车辆GPS设备，每隔一定时间间隔会向管理中心发送一条包含位置、车速、车头朝向等信息的数据。由于城市车辆广泛的、长时间的分布于城市路网中，可以被视为城市路网交通的“流动检测器”，其运行轨迹形态、车载速度、出行流量能够很好的反映出路网的交通运行状况，能够实时、准确的获得识别异常所需的数据。此外，传统的交通异常识别方法多基于交通流量的变化，设计不同算法识别交通流参数的异常情况，没有考虑城市交通网络的结构特性，因此导致交通异常的识别及预测效率较低。因此，本发明从复杂网络的角度出发，运用城市交通系统的时空数据构建城市交通网络，并结合机器学习方法，从城市交通系统的功能和结构出发，考虑城市交通系统的时空演化特征对其异常进行识别及预测。

发明内容

(一)发明的目的

本发明的目的是：针对城市交通系统拥堵的演化及异常问题，本发明提供了一种基于复杂网络理论的城市交通异常识别方法，可以有效地对城市交通系统的拥堵异常进行识别和预测，对保证城市交通系统健康平稳的运转和提高城市交通系统的可靠性具有重要意义。

(二)技术方案

本发明是一种基于复杂网络理论的城市交通异常识别方法，其具体实施步骤如下：

步骤1，基于交通数据构建城市交通网络

(1)在建立城市交通网络过程中，将每个交叉路口抽象为节点；将任意两交叉路口之间的路段抽象为连边；将路段上车载的平均速度作为连边的权重；同时由于不同级别的道路其畅通状况评价标准不同，因此需要采用相对速度表示道路的速度水平，将其作为边权；以交叉路口作为节点、以路段作为边和以路段的相对速度作为边权建立城市交通网络(有向加权网络模型)；

步骤2，基于复杂网络理论的特征提取及筛选

在城市交通系统中运用复杂网络的渗流理论对每个时刻的交通网络选定渗流阈值q_c进行渗流分析，计算交通网络中的弱连通子团作为研究对象，即拥堵子团，同时对每个时刻的拥堵子团计算其度、聚类系数、介数、寿命、地理位置等特征，运用机器学习进行特征选择，筛选包含拥堵子团拥堵信息丰富的特征，从而提高拥堵异常识别及预测的准确率及可靠性；具体包括以下两个子步骤：

2-1确定渗流阈值q_c；

2-2拥堵子团的特征提取及筛选；

步骤3，交通系统的异常识别及预测

为了准确地对城市交通系统中的拥堵异常进行识别及预测，并对其进行有效地控制，本步骤将首先构建孤立森林模型(即iForest模型)，并将步骤2中提取筛选好的拥堵子团特征集分为训练集和测试集，运用训练集数据训练iForest模型，然后，运用已训练好的iForest模型对当前时刻的城市交通系统进行异常拥堵子团的识别及预测；具体包括以下两个子步骤：

3-1构建iForest模型；

3-2运用iForest模型进行异常识别及预测；

步骤4，模型评价及验证

在对城市交通网络进行拥堵子团异常险识别及预测过程中，为了评估模型的性能运用静态评价指标进行评价，如准确率、精准率、召回率、F1值(即F1_score)等，其本质根据混淆矩阵(Confusion Matrix)进行计算；除此之外，动态评价指标能够更加客观的对模型进行评价，如受试者工作特征曲线即ROC曲线(Receiver Operating CharacteristicCurve，简称ROC曲线)及ROC曲线下方的面积(即AUC值，简称AUC)等；为了更好的对iForest模型进行评价，本发明将静态与动态两种评价指标同时运用到模型评价当中，同时，本发明中将对模型进行交叉验证，进一步提高对模型评价的科学性及可靠性；其具体包括以下两个子步骤：

4-1模型的分析与评价；

4-2模型的交叉验证。

其中，在步骤1中所述的“基于交通数据构建城市交通网络”，其具体做法如下：

在构建城市交通网络模型过程中，首先根据城市交通系统的结构信息，即道路路口交叉信息，将城市交通系统的交叉路口抽象为城市交通网络的节点，节点从0开始顺序编号0～N，并且每个节点具有唯一的非重复编号；其次，将任意两个交叉路口之间的路段抽象为连边，对城市交通网络中的所有连边进行编号，即对M条连边按照从0开始顺序编号0～M，由于城市交通系统具有方向性，因此连边为有向连边；最后，针对每个时刻将每条路段上的浮动车的平均车载速度作为有向连边的权重，建立城市交通网络模型，此模型为加权有向网络模型；由于城市交通系统中每条道路的级别不同，不能用绝对速度当做城市交通网络的边权来进行拥堵异常的识别及预测分析，因此，本发明中计算每条道路的相对速度来作为其边权进行研究；在城市交通网络中每条道路在某一天都有表征其限定车辆行驶速度的限速值，针对各个时刻该条道路的运行速度，采用该条道路的实时速度与该条路段的限速值的比值作为该条道路的相对速度，描述该条道路的速度水平；公式如下所示：

上式中，r_ij(t)代表某条道路L_ij在t时刻的相对速度水平，i表示某条道路L_ij的起点，j表示某条道路L_ij的终点，V_ij代表该条道路在t时刻的实测平均速度值，

表示该条道路在当天的最大限速值；某一条道路的限速值为该道路一天中所有时刻的速度数据进行统计并将其按照从大到小的顺序进行排序，选取a％分位点处的速度值作为该条道路在当天的限速值；

结合上述所示，针对每个时刻都能构建一个城市交通网络，由于城市交通系统中每条道路车载的速度在每个时刻是不同的，而其在空间上的结构特性是固定的，即城市交通系统具有时空特性；因此，针对一天中不同的时刻可以构建不用的城市交通网络模型，即构建实时的动态城市交通网络。

其中，在步骤2中所述的“基于复杂网络理论的特征提取及筛选，包括城市交通网络的渗流分析、拥堵子团的特征提取及筛选”，其具体做法如下：

步骤2-1，运用渗流理论对城市交通网络进行研究分析，首先，在每个时刻根据城市交通网络中连边的相对速度r_ij(t)选定初始速度阈值q₀，当速度阈值q₀为当前时刻最大相对速度max(r_ij(t))时，此时城市交通网络处于全畅通状态；在本步骤中，为了将城市交通系统的拥堵抽象为交通网络的拥堵状态，因此，本发明中定义拥堵速度水平q，当两节点的之间的连边大于等于给定的速度水平q时，则删除其连边及剥离节点，则原始城市交通网络中剩余的有向连边及连通子团为拥堵状态；具体而言，即在每一个时刻下，给定某一特定的速度水平q，对于网络中的每一条有向连边，若其相对速度值小于q，则视其处于拥堵状态，则将该条连边出现在该时刻的动态网络中；若其相对速度值大于等于q，则视其处于畅通状态，则将其从原始网络中删除，即该条有向连边不出现在该时刻的动态网络中；即采用如下公式对网络中的连边进行保留或删除，从而构建动态交通拥堵网络：

其中状态1表示在t时刻该条有向连边处于拥堵状态，即在构建动态交通拥堵网络时将该条有向连边保留；状态0表示在t时刻该条有向连边处于畅通状态，即在构建动态交通拥堵网络时将该条有向连边从原始拓扑网络中删除；在t时刻用该判定标准对网络中每一条有向连边进行遍历处理后，即得到t时刻网络在给定速度水平q下的动态交通拥堵网络；

在每个时刻，利用上述公式在给定的速度水平q下建立交通拥堵网络，随着q的变化，城市交通网络出现最大连通子团G^q和次大连通子团SG^q等，其中G^q代表最大连通子团中节点的数量，SG^q代表次大连通子团中节点的数量，如图1所示，在此步骤中可选定渗流阈值q_c对城市交通网络进行渗流分析，并计算每个时刻下的弱连通子团，将其作为研究对象对城市交通系统进行拥堵异常进行识别及预测；

步骤2-2，在每个时刻选定的渗流阈值q_c下求城市交通网络中的弱连通子团，从而在每个时刻找到其城市交通网络中的每个拥堵子团，其示意图如图1所示；在对整个城市交通网络在一定的渗流阈值q_c进行渗流后，每个时刻下交通网络的拥堵子团则会呈现出来，在不同的时刻产生的拥堵子团的数量和规模都具有很大的不同，同时城市交通网络中的拥堵子团在时间和空间上都具有动态演化的特性，即时空特性；本发明从复杂网络及统计物理的角度出发，以每个时刻下交通网络的拥堵子团为研究对象，将每个拥堵子团视为研究的样本，并运用复杂网络理论的相关知识对拥堵子团进行特征提取，具体特征的提取如表1所示；

表1交通网络拥堵子团提取特征汇总表

特征	特征描述
		Cluster平均度	Cluster中每个节点度的平均值；
Cluster平均介数	Cluster中每个节点介数的平均值；
		Cluster规模	Cluster中节点的个数；
Cluster直径	Cluster中每两个节点之间最短路径的最大值；
		Cluster半径	Cluster中每两个节点之间最短路径的最小值；
Cluster平均距离	Cluster中每两个节点之间最短路径的平均值；
		Cluster平均聚类系数	Cluster中每个节点聚类系数的平均值。
......	......

如上表所示，以上特征为拥堵子团的静态特征，因为城市交通网络具有时空演化特征，因此本发明创新性地引入寿命概念，在一定时间区间下，每个拥堵子团都具有不同的寿命，具体公式如下：

T＝t₁-t₀ (3)

在上式中，t₁为拥堵子团消散的时刻，t₀为拥堵子团形成的时刻；由于拥堵子团在不同的时刻会出现增长或消散的趋势，因此本发明设定，在不同时刻拥堵子团内连边的重合达到一定的比例P_e则判定为同一个拥堵子团；相应的动态指标还有拥堵子团的出入速度、中心经纬度等；

后续运用SelectKBest方法、RFE方法、SelectFromModel方法等相关机器学习方法进行特征选择，筛选对交通拥堵异常识别及预测贡献较大的特征，提高城市交通网络的拥堵异常识别及预测的效果。

其中，在步骤3中所述的“交通系统的异常识别及预测主要包括构建iForest模型和运用iForest模型进行异常识别及预测两个步骤”，其具体做法如下：

步骤3-1，构建iForest模型

iForest(Isolation Forest)孤立森林是一个基于Ensemble的快速异常检测方法，具有线性时间复杂度和高精准度，是符合大数据处理要求的模型方法；iForest由t个孤立树(即Isolation Tree，简称iTree)组成，每个iTree是一个二叉树结构，其实现步骤如下：

(1)从训练数据中随机选择ψ个样本点作为子样本集，放入树的根节点；

(2)随机指定一个维度(attribute)，在当前节点数据中随机产生一个切割点P，切割点产生于当前节点数据中指定维度的最大值和最小值之间；

(3)以此切割点生成一个超平面，然后将当前节点数据空间划分为2个子空间，即把指定维度里小于p的数据放在当前节点的左子节点，把大于等于p的数据放在当前节点的右子节点；

(4)在子节点中递归步骤(2)和(3)，不断构造新的子节点，直到子节点中只有一个数据，即无法再继续切割或子节点已到达限定高度；

当基于训练集获得t个iTree之后，iForest模型的训练结束，然后可用已生成的iForest模型在测试集上进行评估；在评估过程中iForest模型针对每个样本会给出异常分数，其公式如下：

上式中，s(x,n)就是样本x在由n个样本的训练数据构成的iTree中的异常分数，其取值范围为[0,1]，当其值越接近1表示是异常点的概率越高，越接近0表示是正常点的概率越高；h(x)为叶子节点到根节点的路径长度；c(n)为平均路径长度，其中H(k)为调和数H(k)＝ln(k)+ξ，

为欧拉常数，取值为0.5772156649；

当运用已训练好的iForest模型对城市交通系统的拥堵异常进行识别及预测过程中，可设定判定异常的阈值q_a，当样本的异常分数s(x,n)≥q_a时，则判定此样本为异常；当s(x,n)＜q_a时，则判定此样本为正常；随着异常阈值q_a的变化，iForest模型的效果不同，可得到当异常阈值q_a为何值时，模型的效果最佳，从而确定异常阈值q_a；

步骤3-2，运用iForest模型进行异常识别及预测

在本步骤中，基于步骤2中已提取筛选好的拥堵子团特征，运用步骤3-1构建的iForest模型对城市交通系统中的拥堵异常进行识别及预测；首先，对步骤2中已筛选好的高质量拥堵子团特征集进行归一化处理，消除高维度特征向量之间量纲不同对模型精度的影响和提高模型的收敛速度；在本发明中运用标准化(Standardization)方法对样本进行归一化处理，特征标准化使每个特征的值有零均值(zero-mean)和单位方差(unit-variance)，这个方法在机器学习的方法中被广泛地使用；其公式如下所示：

上式中，i表示第i个拥堵子团，j表示第i个拥堵子团的第j个特征，y_ij和

分别表示归一化前后第i个拥堵子团第j个特征的值，mean(y_j)和std(y_j)分别表示拥堵子团的第j个特征向量的均值和标准差；

在运用iForest模型对异常拥堵子团进行识别和预测过程中，需要对模型进行训练，让模型学习异常拥堵子团的特征，以用于未来拥堵子团的识别及预测中，因此，在本步骤中将上述已筛选和归一化的拥堵子团特征集分为训练集和测试集，一般比例为7:3，训练集用于训练iForest模型，测试集用于测试已训练好模型的效果；在此过程中，将城市交通系统中的每个拥堵子团表示成特征向量的形式：

x_i表示城市交通系统中第i个拥堵子团，

表示x_i的第j个特征，m表示拥堵子团的特征个数；在城市交通系统中特征可能是拥堵子团的度、介数、规模、寿命及速度差等；异常检测是特殊的二分类问题，因此异常与非异常(正常)类别标签y_i可表示为：

上式中，1代表拥堵子团异常，0代表拥堵子团正常；在本步骤构建能准确描述和表示数据集中拥堵异常的iForest模型模型，并利用已训练好的模型对给定的数据集x_k预测其拥堵子团是否为异常。

其中，在步骤4中所述的“运用静态指标和动态指标对建立的iForest模型进行评价，同时对其进行交叉验证”，其具体做法如下：

步骤4-1，模型的分析与评价

在本步骤中，基于混淆矩阵对上述拥堵子团异常的识别及预测结果进行评价，如表2所示；一般情况下，运用准确率对分类模型进行评价，但是异常识别及预测是数据类别不均衡问题，特别是当有极偏数据存在的情况下，准确率不能客观评价模型的优劣；

表2分类模型混淆矩阵表

表2表述如下：

对于准确率不能很好的评价异常模型，本发明引入精准率(precision)、召回率(recall)、F1值(F1 score)等静态评价指标，其中精准率是预测为正例(异常)的数据中预测正确的数据个数，召回率是真实为正例(异常)的数据里预测正确的数据个数；精准率和召回率是此消彼长的，即精准率高了，召回率就下降，在一些场景下要兼顾精准率和召回率，因此引入F1值(F1 score)；其公式如下：

上式中precision表示精准率，recall表示召回率，F1代表是precision和recall加权调和平均，综合两者的结果；TP是正确预测到的正例的数量，TN是正确预测到的负例的数量，FP是把负例预测成正例的数量，FN是把正例预测成负例的数量；

本发明最终的研究目标是对城市交通系统中的拥堵异常进行识别及预测，在此场景下，本发明将更关注召回率，系统中真正具有异常的单元里将其预测错情况应该越少越好，因为城市交通系统中真正拥堵异常如果没有识别出来，一旦发生则会对城市交通系统造成巨大程度的危害；

对于拥堵异常识别及预测此类样本不平衡的模型中通常预测的是一个概率值P_r，同时设置阈值Th，当P_r≥Th则预测为其中一类，当P_r＜Th定义为另外一类；于是，不同的阈值就对应了不同的假正率(FPR)和真正率(TPR)，其公式如下所示：

以FPR为横坐标，TPR为纵坐标随着阈值Th的变化绘制曲线，此曲线为ROC曲线，ROC曲线下的面积就是AUC，此评价指标为动态评价指标，可进一步确定模型中的关键概率阈值Th_pr；如图5所示，最好的结果是TPR＝1，FPR＝0，即图中(0,1)点，因此ROC曲线越靠拢(0,1)点，即阈值Th，越偏离45度对角线越效果好，并且通常情况下AUC值越大表示算法或者模型的效果越好；

步骤4-2，模型的交叉验证

在本步骤中，为了有效的评估模型的质量及避免模型出现过拟合和欠拟合现象，本发明将运用机器学习中经典的交叉验证方法对模型进行评价，有助于提高模型的泛化能力和得到可靠稳定的模型；交叉验证的经典方法主要有：留一法、K折交叉验证、自助采样法等，在本发明中将运用K折交叉验证法对模型进行评估，如图3所示，具体步骤如下：

(1)不重复抽样将原始数据随机分为K份；

(2)每一次挑选其中1份作为测试集，剩余K-1份作为训练集用于模型训练；

(3)重复第二步K次，保证每个数据子集都有一次机会作为测试集，其余机会作为训练集，在每个训练集上训练后将得到一个模型，运用此模型在相应的测试集上测试，计算并保存模型的评估指标；

(4)计算K组测试结果的评价指标平均值作为模型精度的估计，并作为当前K折交叉验证下模型的性能指标。

通过以上步骤，本发明基于复杂网络理论及机器学习方法，为城市交通拥堵异常的识别及预测提供了科学可靠的技术支持和理论支撑；本发明提出的技术方法能够高效准确地对城市交通系统的拥堵异常进行识别和预测，对保证城市交通系统健康平稳的运转和提高城市交通系统的可靠性具有重要意义。

(三)优点和功效

本发明提供了一种基于复杂网络理论的城市交通异常识别方法，具有以下优点：

(1)将复杂网络理论与机器学习方法相结合对城市交通系统中的异常进行研究分析，为城市交通系统的异常识别及预测问题的研究提供了理论和技术支撑；

(2)利用复杂网络理论将城市交通系统抽象化为交通网络模型，并运用渗流理论对实际网络模型进行渗流分析得到拥堵子团，对拥堵子团的结构特征及时空特性进行提取及筛选，得到高质量的特征集；

(3)网络图模型能够更加直观地对系统的全局信息进行表达，并且能够在高维度与高复杂度的空间下处理数据，表达更丰富的信息，有助于人们从整体上认识拥堵子团的演化过程，丰富人们对系统异常演化的认识，对准确可靠地识别及预测城市交通系统的异常具有重要意义。

(4)本发明所述方法科学，工艺性好，具有广阔推广应用价值。

附图说明

图1是渗流后道路交通网络拥堵子团示意图。

图2是城市道路交通网络示意图。

图3是K折交叉验证流程图。

图4是iForest模型评价指标趋势图。

图5是iForest模型ROC曲线和ACU值变化图。

图6是iForest模型交叉验证评价图。

图7是本发明的一种基于复杂网络理论的城市交通异常识别方法流程图。

图中序号、符号、代号说明如下：

q_c代表渗流阈值；

q₀代表初始速度阈值；

q代表拥堵速度水平；

max(r_ij(t))代表ij路段t时刻最大相对速度；

G^q代表最大连通子团；

SG^q代表次大连通子团；

P_e代表拥堵子团之间连边重合的比例；

q_a代表异常阈值；

具体实施方式

为使本发明要解决的技术问题、技术方案更加清楚，下面将结合附图及具体实施案例进行详细描述。应当理解，此处所描述的实施实例仅用于说明和解释本发明，并不用于限定本发明。

本发明一种基于复杂网络理论的城市交通异常识别方法，见图7所示，其具体实施步骤如下：

步骤1，本发明实施例所使用的实际交通数据由QF科技公司提供的北京市五环区域内所有道路交叉连接信息和一定时间跨度内各条路段上的浮动车实时速度数据统计的时间间隔为1分钟，时间粒度较高，一天共有1440个时刻，在本实施例中运用2015年10月20日的数据进行研究分析。在构建北京市道路交通网络模型过程中，首先根据北京市五环区域内道路的结构信息和路口交叉信息，将北京市五环道路交通系统的交叉路口抽象为节点，共27876个节点，同时将节点从0开始顺序编号0～27875，并且每个节点具有唯一的非重复编号；其次，将任意两个交叉路口之间的路段抽象为连边，对北京市五环道路交通网络中的所有连边进行编号，即对52968条连边按照从0开始顺序编号0～52967，由于城市交通系统具有方向性，因此连边为有向连边；最后，针对每个时刻(1440个时刻)将每条路段上的浮动车的平均车载速度作为有向连边的权重，建立北京市五环交通网络模型，此模型为加权有向网络模型。由于北京市五环道路交通系统中覆盖了多种不同类别的道路，例如京石高速路、三环主路辅路、莲花池路及广安门等主干道以及多种不同级别的小路，不同级别的道路具有的车道数目、车流容量和车辆限速各不相同每条道路的级别不同，因此，不能用绝对速度当做北京市五环道路交通网络的边权来进行拥堵异常的识别及预测分析。本发明中计算每条道路的相对速度来作为其边权进行研究。在北京市五环道路交通网络中每条道路在某一天都有表征其限定车辆行驶速度的限速值，针对各个时刻该条道路的运行速度，采用该条道路的实时速度与该条路段的限速值的比值作为该条道路的相对速度，描述该条道路的速度水平。公式如下所示：

表示该条道路在当天的最大限速值。某一条道路的限速值为该道路一天中所有时刻的速度数据进行统计并将其按照从大到小的顺序进行排序，在本实施例中选取95％分位点处的速度值作为该条道路在当天的限速值。每条道路在t时刻的相对速度r_ij(t)是一个大于0的比值，由于限速值选取并非每条路段一天中的最大速度值，因此r_ij(t)有可能大于1。

结合上述所示，针对每个时刻(1440个时刻)都能构建一个北京市五环道路交通网络，其示意图如图2所示，由于北京市五环道路交通系统中每条道路车载的速度在每个时刻是不同的，而其在空间上的结构特性是固定的，即北京市五环道路交通系统具有时空特性。因此，针对一天中不同的时刻可以构建不用的北京市五环道路交通网络模型，即构建实时的动态北京市五环道路交通网络。

步骤2，基于复杂网络理论的特征提取及筛选

步骤2-1，确定渗流阈值

运用渗流理论对北京市五环道路交通网络进行研究分析，首先，在每个时刻根据北京市五环道路交通网络中连边的相对速度r_ij(t)选定初始速度阈值q₀，当速度阈值q₀为当前时刻最大相对速度max(r_ij(t))时，此时北京市五环道路交通网络处于全畅通状态。在本发明中为了确定渗流阈值，定义拥堵速度水平q，当两节点的之间的连边大于等于给定的速度水平q时，则删除其连边及剥离节点，则原始北京市五环道路交通网络中剩余的有向连边及连通子团为拥堵状态。具体而言，即在每一个时刻下，给定某一特定的速度水平q，对于网络中的每一条有向连边，若其相对速度值小于q，则视其处于拥堵状态，则将该条链接出现在该时刻的动态网络中；若其相对速度值大于等于q，则视其处于畅通状态，则将其从原始网络中删除，即该条有向连边不出现在该时刻的动态交通网络中。即采用如下公式对网络中的连边进行保留或删除，从而构建北京市五环动态道路交通拥堵网络：

其中状态1表示在t时刻该条有向连边处于拥堵状态，即在构建北京市五环动态道路交通拥堵网络时将该条有向连边保留；状态0表示在t时刻该条有向连边处于畅通状态，即在构建北京市五环动态道路交通拥堵网络时将该条有向连边从原始拓扑网络中删除。在t时刻用该判定标准对网络中每一条有向连边进行遍历处理后，即得到t时刻网络在给定速度水平q下的北京市五环动态道路交通拥堵网络。

在本实施例中选取一天中早高峰时刻(7:00-8:00)进行分析，时间粒度为1分钟，针对上述60个时刻，利用上述公式在给定的速度水平q下建立交通拥堵网络，并选定渗流阈值q_c＝0.5对每个时刻的道路交通网络进行渗流分析，并其求弱连通子团得到每个时刻的下的拥堵子团，共求得7051个拥堵子团，并以拥堵子团为研究对象对北京市五环内的道路交通拥堵异常进行识别及预测。

步骤2-2，拥堵子团的特征提取及筛选

在选定的渗流阈值q_c＝0.5下针对60个时刻求北京市五环道路交通网络中的弱连通子团，从而在每个时刻找到其道路交通网络中的每个拥堵子团，其示意图如图1所示。对整个北京市五环道路交通网络在渗流阈值q_c＝0.5进行渗流后，每个时刻下其道路交通网络的拥堵子团则会呈现出来，本实施例从复杂网络及统计物理的角度出发，以北京市五环60个时刻下的道路交通网络的拥堵子团为研究对象，将每个拥堵子团视为研究的样本，并运用复杂网络理论的相关知识对拥堵子团进行静态特征和动态特征提取，如表3所示。

表3北京市五环道理交通网络拥堵子团提取特征汇总表

由于城市道路交通网络具有时空演化特征，在一定时间区间下，每个拥堵子团都具有不同的寿命，因此在求拥堵子团的寿命时需要进行定义，在本发明中的具体定义如下：

T＝t₁-t₀ (16)

在上式中，t₁为24:00，t₀为0:00，共1440个时刻，即拥堵子团的寿命最大为1440分钟；由于拥堵子团在不同的时刻会出现增长或消散的趋势，因此设定在不同时刻拥堵子团内连边的重合达到一定的比例P_e＝30％则判定为同一个拥堵子团，如公式17所示。

为了能够对北京市五环道路交通系统拥堵异常进行识别及预测，本发明运用SelectKBest方法对样本的特征进行特征选择，提高数据特征及的质量。在本实施例中，筛选出度均值、度方差、介数均值、介数方差、中心经纬度6个特征作为拥堵子团的特征；同时以拥堵子团的寿命为异常和正常拥堵子团打标签，其规则如下：

上式中，1代表拥堵子团异常，0代表拥堵子团正常。在此规则下，对步骤2-1中得到的7051个样本进行分类，得到异常拥堵子团2547个，正常拥堵子团4504个。

步骤3，交通系统的异常识别及预测

步骤3-1，构建iForest模型

根据实例数据特征及数据背景知识，构建iForest模型，其具体步骤如下：

(1)从训练数据中随机选择256个样本点作为子样本集，放入树的根节点；

(3)以此切割点生成一个超平面，然后将当前节点数据空间划分为2个子空间，即把指定维度里小于p的数据放在当前节点的左子节点，把大于等于p的数据放在当前节点的右子节点。

(4)在子节点中递归步骤(2)和(3)，不断构造新的子节点，直到子节点中只有一个数据，即无法再继续切割或子节点已到达限定高度。

当基于拥堵子团训练集获得100个iTree之后，iForest模型的训练结束，然后用已生成的iForest模型在测试集上进行评估。在评估过程中iForest模型针对每个样本会给出异常分数，其公式如下：

为欧拉常数，取值为0.5772156649。

当运用已训练好的iForest模型对北京市五环道路交通系统的拥堵异常进行识别及预测过程中，可设定判定异常的阈值q_a，当样本的异常分数s(x,n)≥q_a时，则判定此样本为异常；当s(x,n)＜q_a时，则判定此样本为正常。随着异常阈值q_a的变化，iForest模型的效果不同，可得到当异常阈值q_a为何值时，模型的效果最佳，从而确定异常阈值q_a。在本实施例中，如图4所示，当异常阈值q_a＝0.44时，iForest模型的准确率为50.66％及召回率为78.77％，对北京市五环道路交通系统拥堵异常的识别及预测效果最好。

步骤3-2，运用iForest模型进行异常识别及预测

在本步骤中，基于步骤2中已提取筛选好的拥堵子团特征值，运用步骤3-1构建的iForest模型对北京市五环道路交通系统中的拥堵异常进行识别及预测。首先，对步骤2中已筛选好的高质量拥堵子团特征集进行归一化处理，消除高维度特征向量之间量纲不同对模型精度的影响和提高模型的收敛速度。在本发明中运用标准化(Standardization)方法对样本进行归一化处理，特征标准化使每个特征的值有零均值(zero-mean)和单位方差(unit-variance)，这个方法在机器学习地算法中被广泛地使用。其公式如下所示：

分别表示归一化前后第i个拥堵子团第j个特征的值，mean(y_j)和std(y_j)分别表示拥堵子团的第j个特征向量的均值和标准差。在本实施例中，共有7051个样本，即n＝7051和i的最大值为7050，且每个拥堵子团用6个特征，即j的最大值为6.

在运用iForest模型对异常拥堵子团进行识别和预测过程中，需要对模型进行训练，让模型学习异常拥堵子团的特征，以用于未来拥堵子团的识别及预测中，因此，在本步骤中将上述已筛选和归一化的拥堵子团特征集分为训练集和测试集，一般比例为7:3，在本实施例中训练集和测试集样本量分别为4935和2116；训练集用于训练iForest模型，测试集用于测试已训练好模型的效果。在此过程中，将北京市五环道路交通系统中的拥堵子团表示成特征向量的形式：

x_i表示城市交通系统中第i个拥堵子团，

表示x_i的第j个特征，m表示拥堵子团的特征个数，即m＝6。在本实施例中样本集的6个特征为度均值、度方差、介数均值、介数方差、中心经纬度；异常检测是特殊的二分类问题，因此异常与非异常(正常)类别标签y_i可表示为：

上式中，1代表拥堵子团异常，0代表拥堵子团正常。在本步骤中用已训练好的iForest模型并选定异常阈值q_a＝0.44对测试集中的异常拥堵子团进行识别效果较好，召回率可达到78.77％。

步骤4，模型评价及验证

步骤4-1，模型的分析与评价

本步骤，针对步骤3中构建的iForest模型对北京市五环道路交通系统拥堵异常的识别及预测结果运用混淆矩阵、ROC曲线以及AUC进行评价；

首先根据iFroest模型的识别及预测结果，运用混淆矩阵(如表1所示)计算准确率(Accuracy)召回率Recall(True Positive Rate，or Sensitivity)、F1值(F1 Score)三项静态评价指标随异常阈值q_a的变化，如图4所示，图4表示iForest模型评价指标趋势图，经分析可得，当阈值q_a＝0.44时，模型准确率及召回率同时取得较高的值分别为50.66％和78.77％；召回率高表示模型能够准确地识别的当前道路交通系统中的异常，并能够准确可靠地对其进行预测，对管理者有效的控制系统的异常和保证系统健康平稳地运行具有重要意义。

其次，如图5所示，运用ROC曲线和AUC等动态评价指标对iForest模型的识别结果进行评价，横坐标为假阳率(FPR)，纵坐标为真阳率(TPR)，即召回率；ROC曲线上每一个点代表一个异常阈值q_a，对遍历所有的异常阈值q_a则得到ROC曲线；理想目标为：TPR＝1，FPR＝0,即图中(0,1)点，故ROC曲线越靠拢(0,1)点，即越偏离45度对角线表示iForest模型对当前道路交通系统的异常识别及预测效果越好，即假阳率(FPR)越小、真阳率(TPR)越大效果越好；AUC(Area under Curve)：ROC曲线下的面积，介于0.1和1之间。AUC作为数值可以更加直观的评价分类器的好坏，其值越大越好；

如图6所示，本实施例中，当异常阈值q_a＝0.44时iForest模型的真阳率和假阳率偏离45度对角线最远，并离(0，1)点最近，此时iForest模型的AUC值较大为0.568，因此可进一步确定模型中的关键异常阈值q_a＝0.44。

步骤4-2，模型的交叉验证

在本步骤中，为了有效的评估iForest模型的识别效果及避免其出现过拟合和欠拟合现象，在本实施例中运用机器学习中经典的K折交叉验证方法(K＝10)对模型进行评价，提高模型的泛化能力和得到可靠稳定的模型。如图3所示，具体步骤如下：

(1)不重复抽样将原始数据随机分为10份；

(2)每一次挑选其中1份作为测试集，剩余9份作为训练集用于模型训练；

(3)重复第二步10次，保证每个数据子集都有一次机会作为测试集，其余机会作为训练集，在每个训练集上训练后将得到一个模型，运用此模型在相应的测试集上测试，计算并保存模型的评估指标；

(4)计算10组测试结果的评价指标平均值作为模型精度的估计，并作为当前10折交叉验证下模型的性能指标。

如图6所示，对模型进行10折交叉验证，iForest模型每次的准确率都在50％左右、召回率都在77％以上，两者的平均值分别为50％和80.64％，特别是召回率处于较高的水平。本发明的主要目标是对道路交通系统中的异常进行识别及预测，在此场景下，本发明将更关注召回率，即要求高的召回率，保证最大程度的将交通系统的异常识别出来，并制定相关策略对其进行控制和处理，将其对道路交通系统产生的危害降到最低。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于复杂网络理论的城市交通异常识别方法，其特征在于：其具体实施步骤如下：

步骤1：基于交通数据构建城市交通网络

(1)在建立城市交通网络过程中，将每个交叉路口抽象为节点；将任意两交叉路口之间的路段抽象为连边；将路段上车载的平均速度作为连边的权重；同时由于不同级别的道路其畅通状况评价标准不同，因此需要采用相对速度表示道路的速度水平，将其作为边权；以交叉路口作为节点、以路段作为边和以路段的相对速度作为边权建立城市交通网络即有向加权网络模型；

步骤2：基于复杂网络理论的特征提取及筛选

在城市交通系统中运用复杂网络的渗流理论对每个时刻的交通网络选定渗流阈值q_c进行渗流分析，计算交通网络中的弱连通子团作为研究对象，即拥堵子团，同时对每个时刻的拥堵子团计算其度、聚类系数、介数、寿命和地理位置诸特征，运用机器学习进行特征选择，筛选包含拥堵子团拥堵信息丰富的特征，从而提高拥堵异常识别及预测的准确率及可靠性；具体包括以下两个子步骤：

2-1确定渗流阈值q_c；

2-2拥堵子团的特征提取及筛选；

步骤3：交通系统的异常识别及预测

为了准确地对城市交通系统中的拥堵异常进行识别及预测，并对其进行有效地控制；首先构建孤立森林模型，即iForest模型，并将步骤2中提取筛选好的拥堵子团特征集分为训练集和测试集，运用训练集数据训练iForest模型，然后，运用已训练好的iForest模型对当前时刻的城市交通系统进行异常拥堵子团的识别及预测；具体包括以下两个子步骤：

3-1构建iForest模型；

3-2运用iForest模型进行异常识别及预测；

步骤4：模型评价及验证

在对城市交通网络进行拥堵子团异常险识别及预测过程中，为了评估模型的性能运用静态评价指标进行评价，根据混淆矩阵Confusion Matrix进行计算；将静态与动态两种评价指标同时运用到模型评价当中，同时，将对模型进行交叉验证，其具体包括以下两个子步骤：

4-1模型的分析与评价；

4-2模型的交叉验证。

2.根据权利要求1所述的一种基于复杂网络理论的城市交通异常识别方法，其特征在于：在步骤1中所述的“基于交通数据构建城市交通网络”，其具体做法如下：

在构建城市交通网络模型过程中，首先根据城市交通系统的结构信息，即道路路口交叉信息，将城市交通系统的交叉路口抽象为城市交通网络的节点，节点从0开始顺序编号0～N，并且每个节点具有唯一的非重复编号；其次，将任意两个交叉路口之间的路段抽象为连边，对城市交通网络中的所有连边进行编号，即对M条连边按照从0开始顺序编号0～M，由于城市交通系统具有方向性，因此连边为有向连边；最后，针对每个时刻将每条路段上的浮动车的平均车载速度作为有向连边的权重，建立城市交通网络模型，此模型为加权有向网络模型；由于城市交通系统中每条道路的级别不同，不能用绝对速度当做城市交通网络的边权来进行拥堵异常的识别及预测分析，因此，计算每条道路的相对速度来作为其边权进行研究；在城市交通网络中每条道路在某一天都有表征其限定车辆行驶速度的限速值，针对各个时刻该条道路的运行速度，采用该条道路的实时速度与该条路段的限速值的比值作为该条道路的相对速度，描述该条道路的速度水平；公式如下所示：

上式中，r_ij(t)代表某条道路L_ij在t时刻的相对速度水平，i表示某条道路L_ij的起点，j表示某条道路L_ij的终点，V_ij代表该条道路在t时刻的实测平均速度值，V_ij ^m表示该条道路在当天的最大限速值；某一条道路的限速值为该道路一天中所有时刻的速度数据进行统计并将其按照从大到小的顺序进行排序，选取a％分位点处的速度值作为该条道路在当天的限速值。

3.根据权利要求1所述的一种基于复杂网络理论的城市交通异常识别方法，其特征在于：在步骤2中所述的“基于复杂网络理论的特征提取及筛选，包括城市交通网络的渗流分析、拥堵子团的特征提取及筛选”，其具体做法如下：

步骤2-1，运用渗流理论对城市交通网络进行研究分析，首先，在每个时刻根据城市交通网络中连边的相对速度r_ij(t)选定初始速度阈值q₀，当速度阈值q₀为当前时刻最大相对速度max(r_ij(t))时，此时城市交通网络处于全畅通状态；为了将城市交通系统的拥堵抽象为交通网络的拥堵状态，因此，定义拥堵速度水平q，当两节点的之间的连边大于等于给定的速度水平q时，则删除其连边及剥离节点，则原始城市交通网络中剩余的有向连边及连通子团为拥堵状态；具体而言，即在每一个时刻下，给定某一特定的速度水平q，对于网络中的每一条有向连边，若其相对速度值小于q，则视其处于拥堵状态，则将该条连边出现在该时刻的动态网络中；若其相对速度值大于等于q，则视其处于畅通状态，则将其从原始网络中删除，即该条有向连边不出现在该时刻的动态网络中；即采用如下公式对网络中的连边进行保留及删除，从而构建动态交通拥堵网络：

在每个时刻，利用上述公式在给定的速度水平q下建立交通拥堵网络，随着q的变化，城市交通网络出现最大连通子团G^q和次大连通子团SG^q，其中G^q代表最大连通子团中节点的数量，SG^q代表次大连通子团中节点的数量；在此步骤中能选定渗流阈值q_c对城市交通网络进行渗流分析，并计算每个时刻下的弱连通子团，将其作为研究对象对城市交通系统进行拥堵异常进行识别及预测；

步骤2-2，在每个时刻选定的渗流阈值q_c下求城市交通网络中的弱连通子团，从而在每个时刻找到其城市交通网络中的每个拥堵子团；在对整个城市交通网络在一预定的渗流阈值q_c进行渗流后，每个时刻下交通网络的拥堵子团则会呈现出来，在不同的时刻产生的拥堵子团的数量和规模都具有很大的不同，同时城市交通网络中的拥堵子团在时间和空间上都具有动态演化的特性，即时空特性；从复杂网络及统计物理的角度出发，以每个时刻下交通网络的拥堵子团为研究对象，将每个拥堵子团视为研究的样本，并运用复杂网络理论的相关知识对拥堵子团进行特征提取；因为城市交通网络具有时空演化特征，在一定时间区间下，每个拥堵子团都具有不同的寿命，具体公式如下：

T＝t₁-t₀ (3)

在上式中，t₁为拥堵子团消散的时刻，t₀为拥堵子团形成的时刻；由于拥堵子团在不同的时刻会出现增长及消散的趋势，在不同时刻拥堵子团内连边的重合达到一预定的比例P_e则判定为同一个拥堵子团；相应的动态指标还有拥堵子团的出入速度和中心经纬度。

4.根据权利要求1所述的一种基于复杂网络理论的城市交通异常识别方法，其特征在于：在步骤3中所述的“交通系统的异常识别及预测主要包括构建iForest模型和运用iForest模型进行异常识别及预测两个步骤”，其具体做法如下：

步骤3-1，构建iForest模型

iForest孤立森林是一个基于Ensemble的快速异常检测方法，具有线性时间复杂度和高精准度，是符合大数据处理要求的模型方法；iForest由t个孤立树即iTree组成，每个iTree是一个二叉树结构，其实现步骤如下：

(2)随机指定一个维度，在当前节点数据中随机产生一个切割点P，切割点产生于当前节点数据中指定维度的最大值和最小值之间；

(4)在子节点中递归步骤(2)和(3)，不断构造新的子节点，直到子节点中只有一个数据，即无法再继续切割及子节点已到达限定高度；

当基于训练集获得t个iTree之后，iForest模型的训练结束，然后能用已生成的iForest模型在测试集上进行评估；在评估过程中iForest模型针对每个样本会给出异常分数，其公式如下：

为欧拉常数，取值为0.5772156649；

当运用已训练好的iForest模型对城市交通系统的拥堵异常进行识别及预测过程中，能设定判定异常的阈值q_a，当样本的异常分数s(x,n)≥q_a时，则判定此样本为异常；当s(x,n)＜q_a时，则判定此样本为正常；随着异常阈值q_a的变化，iForest模型的效果不同，可得到当异常阈值q_a为何值时，模型的效果最佳，从而确定异常阈值q_a；

步骤3-2，运用iForest模型进行异常识别及预测

基于步骤2中已提取筛选好的拥堵子团特征，运用步骤3-1构建的iForest模型对城市交通系统中的拥堵异常进行识别及预测；首先，对步骤2中已筛选好的高质量拥堵子团特征集进行归一化处理，消除高维度特征向量之间量纲不同对模型精度的影响和提高模型的收敛速度；运用标准化方法对样本进行归一化处理，特征标准化使每个特征的值有零均值和单位方差，其公式如下所示：

在运用iForest模型对异常拥堵子团进行识别和预测过程中，需要对模型进行训练，让模型学习异常拥堵子团的特征，以用于未来拥堵子团的识别及预测中，因此，将上述已筛选和归一化的拥堵子团特征集分为训练集和测试集，比例为7:3，训练集用于训练iForest模型，测试集用于测试已训练好模型的效果；在此过程中，将城市交通系统中的每个拥堵子团表示成特征向量的形式：

x_i表示城市交通系统中第i个拥堵子团，

表示x_i的第j个特征，m表示拥堵子团的特征个数；在城市交通系统中特征可能是拥堵子团的度、介数、规模、寿命及速度差；异常检测是特殊的二分类问题，因此异常与非异常类别标签y_i能表示为：

上式中，1代表拥堵子团异常，0代表拥堵子团正常；构建能准确描述和表示数据集中拥堵异常的iForest模型，并利用已训练好的模型对给定的数据集x_k预测其拥堵子团是否为异常。

5.根据权利要求1所述的一种基于复杂网络理论的城市交通异常识别方法，其特征在于：在步骤4中所述的“运用静态指标和动态指标对建立的iForest模型进行评价，同时对其进行交叉验证”，其具体做法如下：

步骤4-1，模型的分析与评价

基于混淆矩阵对上述拥堵子团异常的识别及预测结果进行评价；运用准确率对分类模型进行评价，但是异常识别及预测是数据类别不均衡问题，特别是当有极偏数据存在的情况下，准确率不能客观评价模型的优劣；

对于准确率不能很好的评价异常模型，引入精准率、召回率和F1值诸静态评价指标，其中精准率是预测为正例的数据中预测正确的数据个数，召回率是真实为正例的数据里预测正确的数据个数；精准率和召回率是此消彼长的，即精准率高了，召回率就下降，在一些场景下要兼顾精准率和召回率，因此引入F1值，其公式如下：

对于拥堵异常识别及预测此类样本不平衡的模型中通常预测的是一个概率值P_r，同时设置阈值Th，当P_r≥Th则预测为其中一类，当P_r＜Th定义为另外一类；于是，不同的阈值就对应了不同的假正率FPR和真正率TPR，其公式如下所示：

以FPR为横坐标，TPR为纵坐标随着阈值Th的变化绘制曲线，此曲线为ROC曲线，ROC曲线下的面积就是AUC，此评价指标为动态评价指标，能进一步确定模型中的关键概率阈值Th_pr；

步骤4-2，模型的交叉验证

将运用K折交叉验证法对模型进行评估，具体步骤如下：

(1)不重复抽样将原始数据随机分为K份；