CN115035708A - 交通拥堵预判系统及方法 - Google Patents

交通拥堵预判系统及方法 Download PDF

Info

Publication number
CN115035708A
CN115035708A CN202210235753.5A CN202210235753A CN115035708A CN 115035708 A CN115035708 A CN 115035708A CN 202210235753 A CN202210235753 A CN 202210235753A CN 115035708 A CN115035708 A CN 115035708A
Authority
CN
China
Prior art keywords
weight
label
data
batch
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210235753.5A
Other languages
English (en)
Inventor
程娟娟
宋家豪
谢晓丽
陆海红
李鹏程
张奥
许金磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing College of Information Technology
Original Assignee
Nanjing College of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing College of Information Technology filed Critical Nanjing College of Information Technology
Priority to CN202210235753.5A priority Critical patent/CN115035708A/zh
Publication of CN115035708A publication Critical patent/CN115035708A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0145Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Analytical Chemistry (AREA)
  • Economics (AREA)
  • Chemical & Material Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种交通拥堵预判系统及方法,系统包括:数据处理模块,用于读取交通流数据、数据清洗、数据编码,筛选变量特征,变量特征分为训练样本集、验证样本集;模型构建训练模块,用于构建代价敏感神经网络模型,变量特征为输入,定义加权交叉熵损失函数为每批次样本数量的第i个样本数据第k维的真实样本标签与神经网络输出的乘积求总和后平均的值再与权重的乘积,k为类别数;样本真实标签为顺畅状态时的权重等于顺畅权重,顺畅权重为每批拥堵样本数与真实标签每批样本总数的比;样本真实标签为拥堵状态时的权重等于拥堵权重,拥堵权重为每批顺畅样本数与真实标签每批样本总数的比,预测评估模块,用于输出交通流处于拥堵状态的概率。

Description

交通拥堵预判系统及方法
技术领域
本发明涉及智能交通技术领域,特别涉及一种交通拥堵预判系统及方法。
背景技术
随着信息技术在道路交通管理中应用范围的扩大和应用程度的深化,先进的交通管理系统(Advance Traffic Management System,ATMS)受到了广泛的关注,而交通状态判别是交通运行管理的重要组成部分,是交通运输控制和诱导的一个重要前提。
目前,国内外研究者对城市道路和高速公路的交通状态判别做了一些研究。最早投入开发和使用的ACI算法(基于交通检测装置的自动判别技术)是加利福尼亚算法,其通过比较临近环型线圈检测器获得的占有率数据,对可能存在的突发交通事件进行判别;Persaud,etc.根据突变理论,使用流量、占有率历史数据,开发一个流量-占有率分布关系模板,通过将观测数据与模板进行比较,判断交通的状态。史忠科等采用扩展Kalman滤波方法对高速公路交通密度进行预测;王亦兵等采用扩展Kalman滤波方法,建立了高速公路实时交通状态估计器;窦慧丽等提出了一种交通状态改了预报的K近邻非参数回归模型用于城市道路不同预报时长的分级交通状态的概率预报实验;皮晓亮等采用聚类分析方法,实现了一种基于环形线圈检测器采集信息的交通状态分类方法。然而,大部分现有对交通状态判别的研究中一般只着重于对交通状态的整体判别率,多数忽略了交通状态数据集的不平衡性,且很少对不同交通状态间的误判所可能产生的代价进行分析。
而现实中,交通流不同状态在实际中出现的频率存在很大差异,且不同交通状态之间的误判所造成的影响程度是不同的,样本数据中交通非拥堵情况多于拥堵情况,即数据存在不平衡,因此,可以认为交通状态判别是一个数据类别不平衡及代价敏感的分类问题。针对此问题,常见的方法有过采样以及欠采样技术,过采样包括样本插值技术和样本生成技术,如果只是单纯采用欠采样方法训练模型,那么训练集样本量偏少,会导致信息的丢失,训练出的模型的泛化能力以及鲁棒性势必不会太高,同时随机下采样的样本的选择是个问题,不同的采样模型的准确率以及泛化能力差异很大。有很多研究表明,代价敏感学习和样本不平衡问题有很强的联系,可以用相似的方式进行处理,并且使用代价敏感学习的方法解决不平衡学习问题要优于使用随机采样的方法。考虑到交通状态的判别中,交通状态误判情况的不同,所产生的代价不同,如果将顺畅误判为拥堵,可能仅仅增加了交通管理者的工作量,然而将拥堵误判为顺畅,可能会影响导航信息发布和应急措施启动的及时性。
为此,需要提出一种交通拥堵预判系统及方法。
发明内容
发明目的:本发明提供一种交通拥堵预判系统及方法,用于解决因交通状态误判造成影响权重不同导致数据类别不平衡及代价不同的问题。
技术方案如下:本发明提供一种交通拥堵预判系统,包括:数据处理模块,用于读取交通流的数据、对数据进行缺失值处理及异常值处理以进行数据清洗,清洗后的数据包括类别特征数据、连续特征数据;并且数据处理模块用于对类别特征数据进行独热编码,对连续特征数据进行最大最小值归一化处理;以及数据处理模块用于采用Lasso回归方程筛选出编码处理或归一化处理后的交通流的数据中影响交通拥堵的变量特征,变量特征分为训练样本集、验证样本集,Lasso回归方程为:
Figure BDA0003539936320000021
其中|w|1是权重向量w中各个元素的绝对值之和,α为用于控制惩罚力度的调节参数,y是真实样本的标签;Xw是指一个样本的估计值,为多项式;X表示特征向量;w是估计参数,也是一个向量;模型构建训练模块,用于构建代价敏感神经网络模型并进行训练,以变量特征作为代价敏感神经网络模型的输入,用于定义加权交叉熵损失函数Loss为动态加权均方误差函数dyn_weight_cross_entropy_error(y,outx):
Loss=dyn_weight_cross_entropy_error(y,outx)=Weight*cross_entropy_error;其中,cross_entropy_error为批量交叉熵误差函数:
Figure BDA0003539936320000022
其中,batchsize为每批次样本的数量;i为某一批次样本的序号,取值为1至batchsize;k表示类别数且相当于维数,yk表示样本正确的标签值,取值为1;outxk为神经网络的输出,是0至1之间的一个概率值;y是真实样本的标签,标签表示拥堵状态或顺畅状态,outx是神经网络的输出;并且,Weight为权重:
Figure BDA0003539936320000023
Figure BDA0003539936320000024
Weight=(1-true_label)*zero_weight+true_label*one_weight,
Figure BDA0003539936320000025
其中,true_label为样本的真实标签,true_label取值为0或1,true_label取值为0表示训练样本集的真实标签为0且表示为非拥堵状态,true_label取值为1表示训练样本集的真实标签为1且表示为拥堵状态;zero_weight为交通顺畅的权重,one_weight为交通拥堵的权重;N表示真实标签中每批样本总数,NP表示真实标签中每批拥堵样本数,Nn表示真实标签中每批顺畅样本数;预测评估模块,用于输出交通流处于拥堵状态的概率。
进一步的,所述变量特征包括道路因素、环境因素、人为因素。
进一步的,所述模型构建训练模块用于利用训练样本集中数据对该神经网络预测模型进行训练,用于选取验证样本集中数据对训练好的神经网络预测模型进行验证。
进一步的,所述模型构建训练模块用于采用早停法来防止训练过拟合。
进一步的,输出交通流处于拥堵状态的概率为1时,代表拥堵,输出交通流处于拥堵状态的概率为0时,代表顺畅。
本发明所述的交通拥堵预判系统,通过对交通拥堵样本数据处理,将代价敏感学习引入到神经网络模型中,自定义动态加权交叉熵损失函数,增大预测错交通拥堵的成本代价,验证了人工神经网络对预判的可行性和有效性,实现了有效降低拥堵和缓慢状态的误判率,解决了数据类别的不平衡问题。
本发明还提供一种交通拥堵预判方法,包括以下步骤:
(1)读取交通流的数据,对数据进行缺失值处理及异常值处理以进行数据清洗;数据包括类别特征数据、连续特征数据;
(2)对类别特征数据进行独热编码,对连续特征数据进行最大最小值归一化处理;
(3)采用Lasso回归方程筛选出编码处理或归一化处理后的交通流的数据中影响交通拥堵的变量特征,变量特征分为训练样本集、验证样本集,Lasso回归方程为:
Figure BDA0003539936320000031
其中,|w|1是权重向量w中各个元素的绝对值之和,α为用于控制惩罚力度的调节参数,y是真实样本的标签;Xw是指一个样本的估计值;X表示特征向量;w是向量估计参数;
(4)构建代价敏感神经网络模型,以变量特征作为该代价敏感神经网络模型的输入,定义加权交叉熵损失函数Loss为加权均方误差函数dyn_weight_cross_entropy_error(y,outx):Loss= dyn_weight_cross_entropy_error(y,outx)=Weight*cross_entropy_error;
其中,cross_entropy_error为批量交叉熵误差函数:
Figure BDA0003539936320000032
其中,batchsize为每批次样本的数量;i为某一批次样本的序号,取值为1至batchsize;k表示类别数且相当于维数,yk表示样本正确的标签值,取值为1;outxk为神经网络的输出,是0至1之间的一个概率值,k相当于维数;y是真实样本的标签,标签表示拥堵状态或顺畅状态,outx是神经网络的输出;
并且,Weight为权重:
Figure BDA0003539936320000033
Weight=(1-true_label)*zero_weight+true_label*one_weight,
Figure BDA0003539936320000034
其中,true_label为样本的真实标签,true_label取值为0或1,true_label取值为0表示训练样本集的真实标签为0且表示为非拥堵状态,true_label取值为1表示训练样本集的真实标签为1且表示为拥堵状态;zero_weight为交通顺畅的权重,one_weight为交通拥堵的权重,N表示真实标签中每批样本总数,NP表示真实标签中每批拥堵样本数,Nn表示真实标签中每批顺畅样本数;
(5)输出交通流处于拥堵状态的概率。
进一步的,在步骤(4)中,变量特征包括道路因素、环境因素、人为因素。
进一步的,步骤(4)还包括以下步骤:利用训练样本集中数据对该神经网络预测模型进行训练,选取验证样本集中数据对训练好的神经网络预测模型进行验证。
进一步的,在步骤(4)中,采用早停法以防止训练过拟合。
进一步的,在步骤(5)中,输出交通流处于拥堵状态的概率为1时,代表拥堵,输出交通流处于拥堵状态的概率为0时,代表顺畅。
技术效果:所述的交通拥堵预判方法,通过读取交通流不同状态下的数据并进行数据清洗,对数据中的类别特征数据进行独热编码,对连续特征数据进行最大最小值归一化处理,利用Lasso回归筛选出影响交通拥堵的变量特征,将变量特征分为训练样本集、验证样本集;通过构建代价敏感神经网络模型,定义动态加权交叉熵损失函数,通过设置权重的类别惩罚引入代价敏感,以筛选出的变量特征作为输入,输出交通流处于拥堵状态的概率,实现对交通流的预测结果进行预测评估的目的。该方法能够克服类别数据不平衡问题,在灵敏度和特异度之间维持一个好的平衡;能够有效降低交通状态总体误判代价,提高代价敏感度高的状态判别率。
附图说明
图1是本发明交通拥堵预判系统方法的算法流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
本发明所述的交通拥堵预判系统,包括数据处理模块、模型构建训练模块、预测评估模块。
所述数据处理模块用于读取交通流不同状态下的数据,对数据进行缺失值处理、异常值处理以进行数据清洗;交通流不同状态下的数据包括类别特征数据、连续特征数据。具体地,在数据清洗方面,对缺失值较多的特征数据,直接弃用;对于缺失值较少的特征数据,采用均值替换或者众数替换,采用箱线图对异常值进行检测并采用替换法进行处理。
在数据编码方面,所述数据处理模块用于对类别特征数据进行独热编码(one-hot编码),用于最大最小值归一化方法对连续特征数据进行处理。
以及,所述数据处理模块用于采用Lasso回归方程,从编码处理后或归一化处理后的交通流的数据中筛选出影响交通拥堵的变量特征,Lasso回归方程为:
Figure BDA0003539936320000051
其中,|w|1是权重向量w中各个元素的绝对值之和,α为用于控制惩罚力度的调节参数,y是真实样本的标签;Xw是指一个样本的估计值,为多项式;X表示特征向量;w是估计参数,w也是一个向量。
筛选出的变量特征包括道路因素、环境因素、人为因素及其他对交通拥堵产生影响的多个特征因素。筛选出的变量特征分为训练样本集和验证样本集。
所述模型构建训练模块用于构建代价敏感神经网络模型,以变量特征作为该代价敏感神经网络模型的输入参数,用于定义加权交叉熵损失函数Loss如下:
Loss=dyn_weight_cross_entropy_error(y,outx),
其中,y是真实样本的标签,标签表示拥堵状态或顺畅状态,outx是神经网络的输出;并且,动态加权均方误差函数定义为:
dyn_weight_cross_entropy_error(y,outx)=Weight*cross_entropy_error;
上式中,Weight为权重,cross_entropy_error为批量交叉熵误差函数;并且,
Figure BDA0003539936320000052
上式中,batchsize为每一批次样本的数量;batchsize根据模型的深度以及样本总量来确定,一般取值为16或32,本申请实施例中,batchsize取值为16;i为某一批次样本的序号,取值为1至batchsize;k表示类别数且相当于维数,yk表示样本正确的标签值,取值为1;outxk为神经网络的输出,是0至1之间的一个概率值。举例为:在一个具体实施例中,假设样本真实标签为1时,则编码为yk=[0,1],输出为outxk=[0.1,0.9];那么损失函数为:(0*log0.1+1*log0.9)。
Weight即权重由每一类的平衡动态决定,每一批计算一次权重,权重计算为:
Figure BDA0003539936320000053
Weight=(1-true_label)*zero_weight+true_label*one_weight,
其中,zero_weight为交通顺畅的权重,one_weight为交通拥堵的权重,true_label为样本的真实标签,true_label取值为0或1,true_label取值为0表示训练样本集的真实标签为0,且取值为0表示非拥堵状态,true_label取值为1表示训练样本集的真实标签为1,且取值为1表示拥堵状态;因此,当真实标签即true_label为0时,Weight的值是zero_weight,当真实标签即true_label为1时,Weight的值是one_weight。
Figure BDA0003539936320000061
Figure BDA0003539936320000062
其中,N表示真实标签中每一批次样本总数,NP表示真实标签中每一批次拥堵的样本数,Nn表示真实标签中每一批次顺畅的样本数。
所述模型构建训练模块用于利用训练样本集中数据对该神经网络预测模型进行训练,用于选取验证样本集中数据对训练好的神经网络预测模型进行验证。并且,所述模型构建训练模块用于采用早停法以防止训练过拟合。变量特征中80%数据作为训练样本集,其余20%数据作为验证样本集。
所述预测评估模块用于输出交通流处于拥堵状态的概率,以对交通流的预测结果进行预测评估。输出交通流处于拥堵状态的概率为1时,代表拥堵,输出交通流处于拥堵状态的概率为0时,代表顺畅。
该代价敏感的人工神经网络交通拥堵预判系统,通过对交通拥堵样本数据处理,将代价敏感学习引入到神经网络模型中,自定义动态加权交叉熵损失函数,增大预测错交通拥堵的成本代价,验证了人工神经网络对预判的可行性和有效性,实现了有效降低拥堵和缓慢状态的误判率,解决了数据类别的不平衡问题。
本发明还提供一种代价敏感神经网络交通拥堵预判方法,包括以下步骤:
(1)读取交通流不同状态下的数据,对数据进行缺失值处理及异常值处理以进行数据清洗;数据包括类别特征数据、连续特征数据;
在本步骤(1)中,对缺失值较多的特征数据,直接弃用;对于缺失值较少的特征数据,采用均值替换或者众数替换,采用箱线图对异常值进行检测并采用替换法进行处理。
(2)对类别特征数据进行独热编码,对连续特征数据进行最大最小值归一化处理;
(3)采用Lasso回归方程筛选出编码处理或归一化处理后的交通流的数据中影响交通拥堵的变量特征,变量特征分为训练样本集、测试样本集,Lasso回归方程为:
Figure BDA0003539936320000063
其中,|w|1是权重向量w中各个元素的绝对值之和,α为用于控制惩罚力度的调节参数,y是真实样本的标签;Xw是指一个样本的估计值;X表示特征向量;w是向量估计参数;
变量特征中80%数据作为训练样本集,其余20%数据作为验证样本集;
(4)构建代价敏感神经网络模型,以变量特征作为该代价敏感神经网络模型的输入,定义加权交叉熵损失函数Loss为动态加权均方误差函数:
Loss=dyn_weight_cross_entropy_error(y,outx),
计算动态加权均方误差函数为:
dyn_weight_cross_entropy_error(y,outx)=Weight*cross_entropy_error;
其中,corss_entropy_error为批量交叉熵误差函数;y是真实样本的标签,outx是神经网络的输出,Weight为权重;并且,
Figure BDA0003539936320000071
其中,batchsize为每一批次样本的数量;i为某一批次样本的序号,取值为1至batchsize;k表示类别数且相当于维数,yk表示样本正确的标签值,取值为1;outxk为神经网络的输出,且为概率值,k相当于维数;
Figure BDA0003539936320000072
Weight=(1-true_label)*zero_weight+true_label*one_weight,
其中,true_label为样本的真实标签,true_label取值为0或1,true_label取值为0表示训练样本集的真实标签为0且表示为非拥堵状态,true_label取值为1表示训练样本集的真实标签为1且表示为拥堵状态;
zero_weight为交通顺畅的权重,one_weight为交通拥堵的权重,
Figure BDA0003539936320000073
Figure BDA0003539936320000074
其中,N表示真实标签中每一批次样本总数,NP表示真实标签中每一批次拥堵的样本数,Nn表示真实标签中每一批次顺畅的样本数。
在本步骤中,通过增大少类样本的权重,且降低多类样本的权重,用以达到“惩罚”多类、“扩充”少类的目的。例如,假设一个批次有100个样本,batchsize=100,其中90个样本的标签为非拥堵状态,10个样本的标签为拥堵状态,样本类别存在不平衡性,如果我们不引入代价敏感,那么在计算损失函数时
Figure BDA0003539936320000075
这种情况每一种类别每一个样本的权重是均等的,都是
Figure BDA0003539936320000076
那么拥堵状态权重之和为
Figure BDA0003539936320000077
非拥堵状态权重之和为
Figure BDA0003539936320000078
显然这样存在明显的不平衡和不合理,于是我们引入代价敏感,对两种类别赋予不同的权重,少类(拥堵)的权重为
Figure BDA0003539936320000079
(非拥堵的样本数/总数),多类(非拥堵)的权重为
Figure BDA00035399363200000710
(拥堵样本数/总数),这样少类样本的权重之和为
Figure BDA00035399363200000711
多类样本的权重之和为
Figure BDA00035399363200000712
两类样本权重和相同,从而起到平衡的效果。
在步骤(4)中,所述变量特征包括道路因素、环境因素、人为因素等影响交通拥堵的多个特征因素。
本步骤(4)还包括以下步骤:利用训练样本集中数据对该神经网络预测模型进行训练,选取验证样本集中数据对训练好的神经网络预测模型进行验证。
在本申请中,在Tensorflow和Keras框架下设计两层神经网络,输入层具有18个神经元,隐含层有一层,具有64个神经元,输出层具有2个神经元,设学习率learningrate=0.0005,设样本批量大小batchsize=16,该模型在python3.7环境中搭建,通过设置权重的类别惩罚引入代价敏感,此外使用早停法避免继续训练导致过拟合的问题。
(5)输出交通流处于拥堵状态的概率,以对交通流的预测结果进行预测评估。
在本步骤(5)中,输出交通流处于拥堵状态的概率为1时,代表拥堵,输出交通流处于拥堵状态的概率为0时,代表顺畅。
本发明所述的交通拥堵预判方法,通过读取交通流不同状态下的数据并进行数据清洗,对数据中的类别特征数据进行独热编码,对连续特征数据进行最大最小值归一化处理,利用Lasso回归从编码后或归一化处理后的交通流的数据中筛选出影响交通拥堵的变量特征;并通过构建代价敏感神经网络模型,定义动态加权交叉熵损失函数,设置权重的类别惩罚引入代价敏感;以及以筛选出的变量特征作为代价敏感神经网络模型的输入,以输出交通流处于拥堵状态的概率,实现对交通流的预测结果进行预测评估的目的。该方法能够克服数据不平衡问题,在灵敏度和特异度之间维持一个好的平衡;能够有效降低交通状态总体误判代价,提高代价敏感度高的状态判别率,如拥堵和缓慢状态;神经网络具有的容错性质以及能根据训练得来的知识和处理问题的经验,能够对缺失的样本数据如缓慢状态等复杂问题做出合理的判断与推理,从而为交通流状态做出较正确的诊断。
本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种交通拥堵预判系统,其特征在于,包括:
数据处理模块,用于读取交通流的数据、对数据进行缺失值处理及异常值处理以进行数据清洗,清洗后的数据包括类别特征数据、连续特征数据;并且数据处理模块用于对类别特征数据进行独热编码,对连续特征数据进行最大最小值归一化处理;以及数据处理模块用于采用Lasso回归方程筛选出编码处理或归一化处理后的交通流的数据中影响交通拥堵的变量特征,变量特征分为训练样本集、验证样本集,Lasso回归方程为:
Figure FDA0003539936310000011
其中|w|1是权重向量w中各个元素的绝对值之和,α为用于控制惩罚力度的调节参数,y是真实样本的标签;Xw是指一个样本的估计值,为多项式;X表示特征向量;w是向量估计参数;
模型构建训练模块,用于构建代价敏感神经网络模型,以变量特征作为代价敏感神经网络模型的输入,用于定义加权交叉熵损失函数Loss为动态加权均方误差函数dyn_weight_cross_entropy_error(y,outx):
Loss=dyn_weight_cross_entropy_error(y,outx)=Weight*cross_entropy_error;
其中,cross_entropy_error为批量交叉熵误差函数:
Figure FDA0003539936310000012
其中,batchsize为每批次样本的数量;i为某一批次样本的序号,取值为1至batchsize;k表示类别数且相当于维数,yk表示样本正确的标签值,取值为1;outxk为神经网络的输出,是0至1之间的一个概率值;y是真实样本的标签,标签表示拥堵状态或顺畅状态,outx是神经网络的输出;
并且,Weight为权重:
Figure FDA0003539936310000013
Weight=(1-true_label)*zero_weight+true_label*one_weight,
Figure FDA0003539936310000014
其中,true_label为样本的真实标签,true_label取值为0或1,true_label取值为0表示训练样本集的真实标签为0且表示为非拥堵状态,true_label取值为1表示训练样本集的真实标签为1且表示为拥堵状态;zero_weight为交通顺畅的权重,one_weight为交通拥堵的权重;N表示真实标签中每批样本总数,NP表示真实标签中每批拥堵样本数,Nn表示真实标签中每批顺畅样本数;
预测评估模块,用于输出交通流处于拥堵状态的概率。
2.根据权利要求1所述的交通拥堵预判系统,其特征在于,所述变量特征包括道路因素、环境因素、人为因素。
3.根据权利要求2所述的交通拥堵预判系统,其特征在于,所述模型构建训练模块用于利用训练样本集中数据对该神经网络预测模型进行训练,用于选取验证样本集中数据对训练好的神经网络预测模型进行验证。
4.根据权利要求3所述的交通拥堵预判系统,其特征在于,所述模型构建训练模块用于采用早停法来防止训练过拟合。
5.根据权利要求1所述的交通拥堵预判系统,其特征在于,输出交通流处于拥堵状态的概率为1时,代表交通流处于拥堵状态,输出交通流处于拥堵状态的概率为0时,代表交通流处于顺畅状态。
6.一种交通拥堵预判方法,其特征在于:包括以下步骤:
(1)读取交通流的数据,对数据进行缺失值处理及异常值处理以进行数据清洗;数据包括类别特征数据、连续特征数据;
(2)对类别特征数据进行独热编码,对连续特征数据进行最大最小值归一化处理;
(3)采用Lasso回归方程筛选出编码处理或归一化处理后的交通流的数据中影响交通拥堵的变量特征,变量特征分为训练样本集、验证样本集,Lasso回归方程为:
Figure FDA0003539936310000021
其中,|w|1是权重向量w中各个元素的绝对值之和,α为用于控制惩罚力度的调节参数,y是真实样本的标签,标签表示拥堵状态或顺畅状态;Xw是指一个样本的估计值;X表示特征向量;w是向量估计参数;
(4)构建代价敏感神经网络模型,以变量特征作为该代价敏感神经网络模型的输入,定义加权交叉熵损失函数Loss为加权均方误差函数dyn_weight_cross_entropy_error(y,outx),
Loss=dyn_weight_cross_entropy_error(y,outx)=Weight*cross_entropy_error;
其中,cross_entropy_error为批量交叉熵误差函数:
Figure FDA0003539936310000022
其中,batchsize为每批次样本的数量;i为某一批次样本的序号,取值为1至batchsize;k表示类别数且相当于维数,yk表示样本正确的标签值,取值为1;outxk为神经网络的输出,是0至1之间的一个概率值,k相当于维数;y是真实样本的标签,outx是神经网络的输出;
并且,Weight为权重:
Figure FDA0003539936310000031
Weight=(1-true_label)*zero_weight+true_label*one_weight,
Figure FDA0003539936310000032
其中,true_label为样本的真实标签,true_label取值为0或1,true_label取值为0表示训练样本集的真实标签为0且表示为非拥堵状态,true_label取值为1表示训练样本集的真实标签为1且表示为拥堵状态;zero_weight为交通顺畅的权重,one_weight为交通拥堵的权重,N表示真实标签中每批样本总数,NP表示真实标签中每批拥堵样本数,Nn表示真实标签中每批顺畅样本数;
(5)输出交通流处于拥堵状态的概率。
7.根据权利要求6所述的交通拥堵预判方法,其特征在于,在步骤(4)中,变量特征包括道路因素、环境因素、人为因素。
8.根据权利要求6所述的交通拥堵预判方法,其特征在于,步骤(4)还包括以下步骤:利用训练样本集中数据对该神经网络预测模型进行训练,选取验证样本集中数据对训练好的神经网络预测模型进行验证。
9.根据权利要求8所述的交通拥堵预判方法,其特征在于,在步骤(4)中,采用早停法来防止训练过拟合。
10.根据权利要求6所述的交通拥堵预判方法,其特征在于,在步骤(5)中,输出交通流处于拥堵状态的概率为1时,代表交通流处于拥堵状态,输出交通流处于拥堵状态的概率为0时,代表交通流处于顺畅状态。
CN202210235753.5A 2022-03-10 2022-03-10 交通拥堵预判系统及方法 Withdrawn CN115035708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210235753.5A CN115035708A (zh) 2022-03-10 2022-03-10 交通拥堵预判系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210235753.5A CN115035708A (zh) 2022-03-10 2022-03-10 交通拥堵预判系统及方法

Publications (1)

Publication Number Publication Date
CN115035708A true CN115035708A (zh) 2022-09-09

Family

ID=83119819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210235753.5A Withdrawn CN115035708A (zh) 2022-03-10 2022-03-10 交通拥堵预判系统及方法

Country Status (1)

Country Link
CN (1) CN115035708A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115762164A (zh) * 2022-11-21 2023-03-07 重庆邮电大学 一种基于pwsl-kf模型的道路交通拥堵检测方法及系统
CN116311950A (zh) * 2023-05-18 2023-06-23 中汽研(天津)汽车工程研究院有限公司 路径选择方法和基于虚实融合技术的v2x测试系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115762164A (zh) * 2022-11-21 2023-03-07 重庆邮电大学 一种基于pwsl-kf模型的道路交通拥堵检测方法及系统
CN116311950A (zh) * 2023-05-18 2023-06-23 中汽研(天津)汽车工程研究院有限公司 路径选择方法和基于虚实融合技术的v2x测试系统
CN116311950B (zh) * 2023-05-18 2023-08-18 中汽研(天津)汽车工程研究院有限公司 路径选择方法和基于虚实融合技术的v2x测试系统

Similar Documents

Publication Publication Date Title
CN115035708A (zh) 交通拥堵预判系统及方法
CN108023876B (zh) 基于可持续性集成学习的入侵检测方法及入侵检测系统
CN111314331B (zh) 一种基于条件变分自编码器的未知网络攻击检测方法
Dia et al. Development and evaluation of arterial incident detection models using fusion of simulated probe vehicle and loop detector data
CN112085947B (zh) 一种基于深度学习和模糊聚类的交通拥堵预测方法
CN106650797B (zh) 一种基于集成elm的配电网窃电嫌疑用户智能识别方法
CN101216998B (zh) 基于模糊粗糙集的证据理论城市交通流信息融合方法
CN108492555A (zh) 一种城市路网交通状态评价方法及装置
Csikós et al. Traffic speed prediction method for urban networks—An ANN approach
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
Huang et al. Physics-informed deep learning for traffic state estimation: Illustrations with LWR and CTM models
CN111581880A (zh) 基于apso-dbn的滚动轴承剩余寿命预测方法
CN117113236B (zh) 一种智慧城市监控系统及数据处理方法
CN114422184A (zh) 基于机器学习的网络安全攻击类型和威胁等级预测方法
CN112836758A (zh) 基于双层循环神经网络的独立计量区域管网漏损检测方法
CN116415481A (zh) 区域滑坡灾害风险预测方法、装置、计算机设备及存储介质
CN110072205A (zh) 一种用于无线传感网异常数据检测的分层聚合方法
Long Cheu et al. Mobile sensor and sample-based algorithm for freeway incident detection
Lim et al. Using supervised learning techniques to automatically classify vortex-induced vibration in long-span bridges
CN115470850A (zh) 一种基于管网水质时空数据的水质异常事件识别预警方法
Huang et al. Improvement of two-dimensional flow-depth prediction based on neural network models by preprocessing hydrological and geomorphological data
CN114529226A (zh) 基于工业物联网的地下水污染的监测方法与系统
Hussein et al. The impact of data quantity on the performance of neural network freeway incident detection models
Cook et al. Environmental statistical process control using an augmented neural network classification approach
Yang et al. Forecasting model for urban traffic flow with BP neural network based on genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220909