CN115035708A

CN115035708A - 交通拥堵预判系统及方法

Info

Publication number: CN115035708A
Application number: CN202210235753.5A
Authority: CN
Inventors: 程娟娟; 宋家豪; 谢晓丽; 陆海红; 李鹏程; 张奥; 许金磊
Original assignee: Nanjing College of Information Technology
Current assignee: Nanjing College of Information Technology
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-09-09

Abstract

本发明公开了一种交通拥堵预判系统及方法，系统包括：数据处理模块，用于读取交通流数据、数据清洗、数据编码，筛选变量特征，变量特征分为训练样本集、验证样本集；模型构建训练模块，用于构建代价敏感神经网络模型，变量特征为输入，定义加权交叉熵损失函数为每批次样本数量的第i个样本数据第k维的真实样本标签与神经网络输出的乘积求总和后平均的值再与权重的乘积，k为类别数；样本真实标签为顺畅状态时的权重等于顺畅权重，顺畅权重为每批拥堵样本数与真实标签每批样本总数的比；样本真实标签为拥堵状态时的权重等于拥堵权重，拥堵权重为每批顺畅样本数与真实标签每批样本总数的比，预测评估模块，用于输出交通流处于拥堵状态的概率。

Description

交通拥堵预判系统及方法

技术领域

本发明涉及智能交通技术领域，特别涉及一种交通拥堵预判系统及方法。

背景技术

随着信息技术在道路交通管理中应用范围的扩大和应用程度的深化，先进的交通管理系统(Advance Traffic Management System,ATMS)受到了广泛的关注，而交通状态判别是交通运行管理的重要组成部分，是交通运输控制和诱导的一个重要前提。

目前，国内外研究者对城市道路和高速公路的交通状态判别做了一些研究。最早投入开发和使用的ACI算法(基于交通检测装置的自动判别技术)是加利福尼亚算法，其通过比较临近环型线圈检测器获得的占有率数据，对可能存在的突发交通事件进行判别；Persaud，etc.根据突变理论，使用流量、占有率历史数据，开发一个流量-占有率分布关系模板，通过将观测数据与模板进行比较，判断交通的状态。史忠科等采用扩展Kalman滤波方法对高速公路交通密度进行预测；王亦兵等采用扩展Kalman滤波方法,建立了高速公路实时交通状态估计器；窦慧丽等提出了一种交通状态改了预报的K近邻非参数回归模型用于城市道路不同预报时长的分级交通状态的概率预报实验；皮晓亮等采用聚类分析方法，实现了一种基于环形线圈检测器采集信息的交通状态分类方法。然而，大部分现有对交通状态判别的研究中一般只着重于对交通状态的整体判别率，多数忽略了交通状态数据集的不平衡性，且很少对不同交通状态间的误判所可能产生的代价进行分析。

而现实中，交通流不同状态在实际中出现的频率存在很大差异,且不同交通状态之间的误判所造成的影响程度是不同的，样本数据中交通非拥堵情况多于拥堵情况，即数据存在不平衡，因此,可以认为交通状态判别是一个数据类别不平衡及代价敏感的分类问题。针对此问题，常见的方法有过采样以及欠采样技术，过采样包括样本插值技术和样本生成技术，如果只是单纯采用欠采样方法训练模型，那么训练集样本量偏少，会导致信息的丢失，训练出的模型的泛化能力以及鲁棒性势必不会太高，同时随机下采样的样本的选择是个问题，不同的采样模型的准确率以及泛化能力差异很大。有很多研究表明，代价敏感学习和样本不平衡问题有很强的联系，可以用相似的方式进行处理，并且使用代价敏感学习的方法解决不平衡学习问题要优于使用随机采样的方法。考虑到交通状态的判别中，交通状态误判情况的不同，所产生的代价不同，如果将顺畅误判为拥堵，可能仅仅增加了交通管理者的工作量，然而将拥堵误判为顺畅，可能会影响导航信息发布和应急措施启动的及时性。

为此，需要提出一种交通拥堵预判系统及方法。

发明内容

发明目的：本发明提供一种交通拥堵预判系统及方法，用于解决因交通状态误判造成影响权重不同导致数据类别不平衡及代价不同的问题。

技术方案如下：本发明提供一种交通拥堵预判系统，包括：数据处理模块，用于读取交通流的数据、对数据进行缺失值处理及异常值处理以进行数据清洗，清洗后的数据包括类别特征数据、连续特征数据；并且数据处理模块用于对类别特征数据进行独热编码，对连续特征数据进行最大最小值归一化处理；以及数据处理模块用于采用Lasso回归方程筛选出编码处理或归一化处理后的交通流的数据中影响交通拥堵的变量特征，变量特征分为训练样本集、验证样本集，Lasso回归方程为：

其中|w|₁是权重向量w中各个元素的绝对值之和，α为用于控制惩罚力度的调节参数，y是真实样本的标签；X_w是指一个样本的估计值，为多项式；X表示特征向量；w是估计参数，也是一个向量；模型构建训练模块，用于构建代价敏感神经网络模型并进行训练，以变量特征作为代价敏感神经网络模型的输入，用于定义加权交叉熵损失函数Loss为动态加权均方误差函数dyn_weight_cross_entropy_error(y,out_x)：

Loss＝dyn_weight_cross_entropy_error(y,out_x)＝Weight*cross_entropy_error；其中，cross_entropy_error为批量交叉熵误差函数：

其中，batchsize为每批次样本的数量；i为某一批次样本的序号，取值为1至batchsize；k表示类别数且相当于维数，y_k表示样本正确的标签值，取值为1；out_xk为神经网络的输出，是0至1之间的一个概率值；y是真实样本的标签，标签表示拥堵状态或顺畅状态，out_x是神经网络的输出；并且，Weight为权重：

Weight＝(1-true_label)*zero_weight+true_label*one_weight，

其中，true_label为样本的真实标签，true_label取值为0或1，true_label取值为0表示训练样本集的真实标签为0且表示为非拥堵状态，true_label取值为1表示训练样本集的真实标签为1且表示为拥堵状态；zero_weight为交通顺畅的权重，one_weight为交通拥堵的权重；N表示真实标签中每批样本总数，N_P表示真实标签中每批拥堵样本数，N_n表示真实标签中每批顺畅样本数；预测评估模块，用于输出交通流处于拥堵状态的概率。

进一步的，所述变量特征包括道路因素、环境因素、人为因素。

进一步的，所述模型构建训练模块用于利用训练样本集中数据对该神经网络预测模型进行训练，用于选取验证样本集中数据对训练好的神经网络预测模型进行验证。

进一步的，所述模型构建训练模块用于采用早停法来防止训练过拟合。

进一步的，输出交通流处于拥堵状态的概率为1时，代表拥堵，输出交通流处于拥堵状态的概率为0时，代表顺畅。

本发明所述的交通拥堵预判系统，通过对交通拥堵样本数据处理，将代价敏感学习引入到神经网络模型中，自定义动态加权交叉熵损失函数，增大预测错交通拥堵的成本代价，验证了人工神经网络对预判的可行性和有效性，实现了有效降低拥堵和缓慢状态的误判率，解决了数据类别的不平衡问题。

本发明还提供一种交通拥堵预判方法，包括以下步骤：

(1)读取交通流的数据，对数据进行缺失值处理及异常值处理以进行数据清洗；数据包括类别特征数据、连续特征数据；

(2)对类别特征数据进行独热编码，对连续特征数据进行最大最小值归一化处理；

(3)采用Lasso回归方程筛选出编码处理或归一化处理后的交通流的数据中影响交通拥堵的变量特征，变量特征分为训练样本集、验证样本集，Lasso回归方程为：

其中，|w|₁是权重向量w中各个元素的绝对值之和，α为用于控制惩罚力度的调节参数，y是真实样本的标签；X_w是指一个样本的估计值；X表示特征向量；w是向量估计参数；

(4)构建代价敏感神经网络模型，以变量特征作为该代价敏感神经网络模型的输入，定义加权交叉熵损失函数Loss为加权均方误差函数dyn_weight_cross_entropy_error(y,out_x)：Loss＝ dyn_weight_cross_entropy_error(y,out_x)＝Weight*cross_entropy_error；

其中，cross_entropy_error为批量交叉熵误差函数：

其中，batchsize为每批次样本的数量；i为某一批次样本的序号，取值为1至batchsize；k表示类别数且相当于维数，y_k表示样本正确的标签值，取值为1；out_xk为神经网络的输出，是0至1之间的一个概率值，k相当于维数；y是真实样本的标签，标签表示拥堵状态或顺畅状态，out_x是神经网络的输出；

并且，Weight为权重：

Weight＝(1-true_label)*zero_weight+true_label*one_weight，

其中，true_label为样本的真实标签，true_label取值为0或1，true_label取值为0表示训练样本集的真实标签为0且表示为非拥堵状态，true_label取值为1表示训练样本集的真实标签为1且表示为拥堵状态；zero_weight为交通顺畅的权重，one_weight为交通拥堵的权重，N表示真实标签中每批样本总数，N_P表示真实标签中每批拥堵样本数，N_n表示真实标签中每批顺畅样本数；

(5)输出交通流处于拥堵状态的概率。

进一步的，在步骤(4)中，变量特征包括道路因素、环境因素、人为因素。

进一步的，步骤(4)还包括以下步骤：利用训练样本集中数据对该神经网络预测模型进行训练，选取验证样本集中数据对训练好的神经网络预测模型进行验证。

进一步的，在步骤(4)中，采用早停法以防止训练过拟合。

进一步的，在步骤(5)中，输出交通流处于拥堵状态的概率为1时，代表拥堵，输出交通流处于拥堵状态的概率为0时，代表顺畅。

技术效果：所述的交通拥堵预判方法，通过读取交通流不同状态下的数据并进行数据清洗，对数据中的类别特征数据进行独热编码，对连续特征数据进行最大最小值归一化处理，利用Lasso回归筛选出影响交通拥堵的变量特征，将变量特征分为训练样本集、验证样本集；通过构建代价敏感神经网络模型，定义动态加权交叉熵损失函数，通过设置权重的类别惩罚引入代价敏感，以筛选出的变量特征作为输入，输出交通流处于拥堵状态的概率，实现对交通流的预测结果进行预测评估的目的。该方法能够克服类别数据不平衡问题，在灵敏度和特异度之间维持一个好的平衡；能够有效降低交通状态总体误判代价，提高代价敏感度高的状态判别率。

附图说明

图1是本发明交通拥堵预判系统方法的算法流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的交通拥堵预判系统，包括数据处理模块、模型构建训练模块、预测评估模块。

所述数据处理模块用于读取交通流不同状态下的数据，对数据进行缺失值处理、异常值处理以进行数据清洗；交通流不同状态下的数据包括类别特征数据、连续特征数据。具体地，在数据清洗方面，对缺失值较多的特征数据，直接弃用；对于缺失值较少的特征数据，采用均值替换或者众数替换，采用箱线图对异常值进行检测并采用替换法进行处理。

在数据编码方面，所述数据处理模块用于对类别特征数据进行独热编码(one-hot编码)，用于最大最小值归一化方法对连续特征数据进行处理。

以及，所述数据处理模块用于采用Lasso回归方程，从编码处理后或归一化处理后的交通流的数据中筛选出影响交通拥堵的变量特征，Lasso回归方程为：

其中，|w|₁是权重向量w中各个元素的绝对值之和，α为用于控制惩罚力度的调节参数，y是真实样本的标签；X_w是指一个样本的估计值，为多项式；X表示特征向量；w是估计参数，w也是一个向量。

筛选出的变量特征包括道路因素、环境因素、人为因素及其他对交通拥堵产生影响的多个特征因素。筛选出的变量特征分为训练样本集和验证样本集。

所述模型构建训练模块用于构建代价敏感神经网络模型，以变量特征作为该代价敏感神经网络模型的输入参数，用于定义加权交叉熵损失函数Loss如下：

Loss＝dyn_weight_cross_entropy_error(y,out_x)，

其中，y是真实样本的标签，标签表示拥堵状态或顺畅状态，out_x是神经网络的输出；并且，动态加权均方误差函数定义为：

dyn_weight_cross_entropy_error(y,out_x)＝Weight*cross_entropy_error；

上式中，Weight为权重，cross_entropy_error为批量交叉熵误差函数；并且，

上式中，batchsize为每一批次样本的数量；batchsize根据模型的深度以及样本总量来确定，一般取值为16或32，本申请实施例中，batchsize取值为16；i为某一批次样本的序号，取值为1至batchsize；k表示类别数且相当于维数，y_k表示样本正确的标签值，取值为1；out_xk为神经网络的输出，是0至1之间的一个概率值。举例为：在一个具体实施例中，假设样本真实标签为1时，则编码为y_k＝[0,1],输出为out_xk＝[0.1,0.9]；那么损失函数为:(0*log0.1+1*log0.9)。

Weight即权重由每一类的平衡动态决定，每一批计算一次权重，权重计算为：

Weight＝(1-true_label)*zero_weight+true_label*one_weight，

其中，zero_weight为交通顺畅的权重，one_weight为交通拥堵的权重，true_label为样本的真实标签，true_label取值为0或1，true_label取值为0表示训练样本集的真实标签为0，且取值为0表示非拥堵状态，true_label取值为1表示训练样本集的真实标签为1，且取值为1表示拥堵状态；因此，当真实标签即true_label为0时，Weight的值是zero_weight，当真实标签即true_label为1时，Weight的值是one_weight。

其中，N表示真实标签中每一批次样本总数，N_P表示真实标签中每一批次拥堵的样本数，N_n表示真实标签中每一批次顺畅的样本数。

所述模型构建训练模块用于利用训练样本集中数据对该神经网络预测模型进行训练，用于选取验证样本集中数据对训练好的神经网络预测模型进行验证。并且，所述模型构建训练模块用于采用早停法以防止训练过拟合。变量特征中80％数据作为训练样本集，其余20％数据作为验证样本集。

所述预测评估模块用于输出交通流处于拥堵状态的概率，以对交通流的预测结果进行预测评估。输出交通流处于拥堵状态的概率为1时，代表拥堵，输出交通流处于拥堵状态的概率为0时，代表顺畅。

该代价敏感的人工神经网络交通拥堵预判系统，通过对交通拥堵样本数据处理，将代价敏感学习引入到神经网络模型中，自定义动态加权交叉熵损失函数，增大预测错交通拥堵的成本代价，验证了人工神经网络对预判的可行性和有效性，实现了有效降低拥堵和缓慢状态的误判率，解决了数据类别的不平衡问题。

本发明还提供一种代价敏感神经网络交通拥堵预判方法，包括以下步骤：

(1)读取交通流不同状态下的数据，对数据进行缺失值处理及异常值处理以进行数据清洗；数据包括类别特征数据、连续特征数据；

在本步骤(1)中，对缺失值较多的特征数据，直接弃用；对于缺失值较少的特征数据，采用均值替换或者众数替换，采用箱线图对异常值进行检测并采用替换法进行处理。

(3)采用Lasso回归方程筛选出编码处理或归一化处理后的交通流的数据中影响交通拥堵的变量特征，变量特征分为训练样本集、测试样本集，Lasso回归方程为：

变量特征中80％数据作为训练样本集，其余20％数据作为验证样本集；

(4)构建代价敏感神经网络模型，以变量特征作为该代价敏感神经网络模型的输入，定义加权交叉熵损失函数Loss为动态加权均方误差函数：

Loss＝dyn_weight_cross_entropy_error(y,out_x)，

计算动态加权均方误差函数为：

dyn_weight_cross_entropy_error(y,out_x)＝Weight*cross_entropy_error；

其中，corss_entropy_error为批量交叉熵误差函数；y是真实样本的标签，out_x是神经网络的输出,Weight为权重；并且，

其中，batchsize为每一批次样本的数量；i为某一批次样本的序号，取值为1至batchsize；k表示类别数且相当于维数，y_k表示样本正确的标签值，取值为1；out_xk为神经网络的输出，且为概率值，k相当于维数；

Weight＝(1-true_label)*zero_weight+true_label*one_weight，

其中，true_label为样本的真实标签，true_label取值为0或1，true_label取值为0表示训练样本集的真实标签为0且表示为非拥堵状态，true_label取值为1表示训练样本集的真实标签为1且表示为拥堵状态；

zero_weight为交通顺畅的权重，one_weight为交通拥堵的权重，

在本步骤中，通过增大少类样本的权重，且降低多类样本的权重，用以达到“惩罚”多类、“扩充”少类的目的。例如，假设一个批次有100个样本，batchsize＝100，其中90个样本的标签为非拥堵状态，10个样本的标签为拥堵状态，样本类别存在不平衡性，如果我们不引入代价敏感，那么在计算损失函数时

这种情况每一种类别每一个样本的权重是均等的，都是

那么拥堵状态权重之和为

非拥堵状态权重之和为

显然这样存在明显的不平衡和不合理，于是我们引入代价敏感，对两种类别赋予不同的权重，少类(拥堵)的权重为

(非拥堵的样本数/总数)，多类(非拥堵)的权重为

(拥堵样本数/总数)，这样少类样本的权重之和为

多类样本的权重之和为

两类样本权重和相同，从而起到平衡的效果。

在步骤(4)中，所述变量特征包括道路因素、环境因素、人为因素等影响交通拥堵的多个特征因素。

本步骤(4)还包括以下步骤：利用训练样本集中数据对该神经网络预测模型进行训练，选取验证样本集中数据对训练好的神经网络预测模型进行验证。

在本申请中，在Tensorflow和Keras框架下设计两层神经网络，输入层具有18个神经元，隐含层有一层，具有64个神经元，输出层具有2个神经元，设学习率learningrate＝0.0005，设样本批量大小batchsize＝16，该模型在python3.7环境中搭建，通过设置权重的类别惩罚引入代价敏感，此外使用早停法避免继续训练导致过拟合的问题。

(5)输出交通流处于拥堵状态的概率，以对交通流的预测结果进行预测评估。

在本步骤(5)中，输出交通流处于拥堵状态的概率为1时，代表拥堵，输出交通流处于拥堵状态的概率为0时，代表顺畅。

本发明所述的交通拥堵预判方法，通过读取交通流不同状态下的数据并进行数据清洗，对数据中的类别特征数据进行独热编码，对连续特征数据进行最大最小值归一化处理，利用Lasso回归从编码后或归一化处理后的交通流的数据中筛选出影响交通拥堵的变量特征；并通过构建代价敏感神经网络模型，定义动态加权交叉熵损失函数，设置权重的类别惩罚引入代价敏感；以及以筛选出的变量特征作为代价敏感神经网络模型的输入，以输出交通流处于拥堵状态的概率，实现对交通流的预测结果进行预测评估的目的。该方法能够克服数据不平衡问题，在灵敏度和特异度之间维持一个好的平衡；能够有效降低交通状态总体误判代价，提高代价敏感度高的状态判别率，如拥堵和缓慢状态；神经网络具有的容错性质以及能根据训练得来的知识和处理问题的经验，能够对缺失的样本数据如缓慢状态等复杂问题做出合理的判断与推理，从而为交通流状态做出较正确的诊断。

本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种交通拥堵预判系统，其特征在于，包括：

数据处理模块，用于读取交通流的数据、对数据进行缺失值处理及异常值处理以进行数据清洗，清洗后的数据包括类别特征数据、连续特征数据；并且数据处理模块用于对类别特征数据进行独热编码，对连续特征数据进行最大最小值归一化处理；以及数据处理模块用于采用Lasso回归方程筛选出编码处理或归一化处理后的交通流的数据中影响交通拥堵的变量特征，变量特征分为训练样本集、验证样本集，Lasso回归方程为：

其中|w|₁是权重向量w中各个元素的绝对值之和，α为用于控制惩罚力度的调节参数，y是真实样本的标签；X_w是指一个样本的估计值，为多项式；X表示特征向量；w是向量估计参数；

模型构建训练模块，用于构建代价敏感神经网络模型，以变量特征作为代价敏感神经网络模型的输入，用于定义加权交叉熵损失函数Loss为动态加权均方误差函数dyn_weight_cross_entropy_error(y，out_x)：

Loss＝dyn_weight_cross_entropy_error(y，out_x)＝Weight*cross_entropy_error；

其中，cross_entropy_error为批量交叉熵误差函数：

其中，batchsize为每批次样本的数量；i为某一批次样本的序号，取值为1至batchsize；k表示类别数且相当于维数，y_k表示样本正确的标签值，取值为1；out_xk为神经网络的输出，是0至1之间的一个概率值；y是真实样本的标签，标签表示拥堵状态或顺畅状态，out_x是神经网络的输出；

并且，Weight为权重：

Weight＝(1-true_label)*zero_weight+true_label*one_weight，

其中，true_label为样本的真实标签，true_label取值为0或1，true_label取值为0表示训练样本集的真实标签为0且表示为非拥堵状态，true_label取值为1表示训练样本集的真实标签为1且表示为拥堵状态；zero_weight为交通顺畅的权重，one_weight为交通拥堵的权重；N表示真实标签中每批样本总数，N_P表示真实标签中每批拥堵样本数，N_n表示真实标签中每批顺畅样本数；

预测评估模块，用于输出交通流处于拥堵状态的概率。

2.根据权利要求1所述的交通拥堵预判系统，其特征在于，所述变量特征包括道路因素、环境因素、人为因素。

3.根据权利要求2所述的交通拥堵预判系统，其特征在于，所述模型构建训练模块用于利用训练样本集中数据对该神经网络预测模型进行训练，用于选取验证样本集中数据对训练好的神经网络预测模型进行验证。

4.根据权利要求3所述的交通拥堵预判系统，其特征在于，所述模型构建训练模块用于采用早停法来防止训练过拟合。

5.根据权利要求1所述的交通拥堵预判系统，其特征在于，输出交通流处于拥堵状态的概率为1时，代表交通流处于拥堵状态，输出交通流处于拥堵状态的概率为0时，代表交通流处于顺畅状态。

6.一种交通拥堵预判方法，其特征在于：包括以下步骤：

其中，|w|₁是权重向量w中各个元素的绝对值之和，α为用于控制惩罚力度的调节参数，y是真实样本的标签，标签表示拥堵状态或顺畅状态；X_w是指一个样本的估计值；X表示特征向量；w是向量估计参数；

(4)构建代价敏感神经网络模型，以变量特征作为该代价敏感神经网络模型的输入，定义加权交叉熵损失函数Loss为加权均方误差函数dyn_weight_cross_entropy_error(y，out_x)，

其中，cross_entropy_error为批量交叉熵误差函数：

其中，batchsize为每批次样本的数量；i为某一批次样本的序号，取值为1至batchsize；k表示类别数且相当于维数，y_k表示样本正确的标签值，取值为1；out_xk为神经网络的输出，是0至1之间的一个概率值，k相当于维数；y是真实样本的标签，out_x是神经网络的输出；

并且，Weight为权重：

Weight＝(1-true_label)*zero_weight+true_label*one_weight，

(5)输出交通流处于拥堵状态的概率。

7.根据权利要求6所述的交通拥堵预判方法，其特征在于，在步骤(4)中，变量特征包括道路因素、环境因素、人为因素。

8.根据权利要求6所述的交通拥堵预判方法，其特征在于，步骤(4)还包括以下步骤：利用训练样本集中数据对该神经网络预测模型进行训练，选取验证样本集中数据对训练好的神经网络预测模型进行验证。

9.根据权利要求8所述的交通拥堵预判方法，其特征在于，在步骤(4)中，采用早停法来防止训练过拟合。

10.根据权利要求6所述的交通拥堵预判方法，其特征在于，在步骤(5)中，输出交通流处于拥堵状态的概率为1时，代表交通流处于拥堵状态，输出交通流处于拥堵状态的概率为0时，代表交通流处于顺畅状态。