CN114120637A - 一种基于连续监测器的智慧高速交通流量预测方法 - Google Patents

一种基于连续监测器的智慧高速交通流量预测方法 Download PDF

Info

Publication number
CN114120637A
CN114120637A CN202111311231.0A CN202111311231A CN114120637A CN 114120637 A CN114120637 A CN 114120637A CN 202111311231 A CN202111311231 A CN 202111311231A CN 114120637 A CN114120637 A CN 114120637A
Authority
CN
China
Prior art keywords
data
traffic flow
time
feature
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111311231.0A
Other languages
English (en)
Inventor
杨阳
张志祥
刘强
关永胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Sinoroad Engineering Research Institute Co ltd
Original Assignee
Jiangsu Sinoroad Engineering Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Sinoroad Engineering Research Institute Co ltd filed Critical Jiangsu Sinoroad Engineering Research Institute Co ltd
Priority to CN202111311231.0A priority Critical patent/CN114120637A/zh
Publication of CN114120637A publication Critical patent/CN114120637A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/048Detecting movement of traffic to be counted or controlled with provision for compensation of environmental or other condition, e.g. snow, vehicle stopped at detector

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的一种基于连续监测器的智慧高速交通流量预测方法,属于交通流量预测技术领域,高速公路门架采集实时交通流量数据,针对历史流量数据建立特征工程获取多维特征,通过线性和非线性方法进行特征选择,建立基于TCN+GBDT的网络模型,采用历史大数据进行训练,模型可对下一时间间隔交通流量进行预测。本方法较传统模型驱动方法、基于纯序列特征的神经网络方法、基于单一RNN类神经网络等方法提高了预测精度。

Description

一种基于连续监测器的智慧高速交通流量预测方法
技术领域
本发明属于交通流量预测技术领域,更具体来说,涉及一种基于连续监测器的智慧高速交通流量预测方法。
背景技术
随着交通智能化水平的提高,大数据、人工智能技术的快速发展,使得及时、有效的获取交通流量实时数据成为现实,海量的历史数据为交通流量预测提供了坚实的数据基础,为了充分发挥智能交通设备的作用以及最大化利用海量历史数据,更好的服务交通管理和控制,众多专家学者在交通流量预测领域开展了大量研究。
在过往研究中,交通流量预测模型主要存在两种模式:模型驱动和数据驱动。
模型驱动也被称为参数方法,典型模型有历史平均模型(HA)、时间序列模型(ARIMA)、卡尔曼滤波模型等。这类方法寻求一种准确的交通流数学模型进行预测,然而,由于交通流的随机性和非线性特征,难以建立固定的数学模型;
数据驱动也被称为非参数方法,主要采用了机器学习方法,支持向量机(SVM)、贝叶斯、K近邻(KNN)、随机森林,以及一些组合算法如卡尔曼滤波模型+SVM、随机森林+遗传算法等等,相比模型驱动方法,数据驱动方法可以从历史交通数据中学习统计规律,但处理高维度复杂数据以及海量数据时,难以高精度地拟合交通流多因素耦合的复杂非线性特征。
随着硬件水平的提高,学者开始采用深度学习方法代替机器学习方法,如人工神经网络(ANN)、循环神经网络(RNN)及其衍生子类长短时记忆神经网络(LSTM)、门控神经网络(GRU)等,以及一些组合,深度学习方法+模型驱动方法,如RNN+ARIMA、深度学习方法+机器学习方法,如K-means+GRU、深度学习方法+深度学习方法,如CNN+LSTM,深度学习模型通过其强大的非线性拟合和深层特征表达能力可以更精准地表达交通流数据内部的复杂结构。
RNN类神经网络及其衍生子类LSTM、GRU等神经网络是当前最为主流的交通流量预测方法,尽管在多数情况下的预测效果已经较模型驱动方法或机器学习方法有了长足进步,但仍然在以下几个方面存在问题:
(1)多数模型通常仅以单一变量如交通流量序列数据,对交通流量进行预测,忽略多个因素对于交通流量的影响,如天气等,导致对恶劣天气情况下的预测精度不准;
(2)RNN类以及衍生子类LSTM、GRU等,都是循环结构,因此在计算当前的输出时,必须等待之前的神经元完成计算,将隐含层状态传递之后才能继续向前。因此,循环结构的网络模型无法像CNN架构大规模并行计算,对效率有要求的场景不适用;
(3)模型着重于时间维度的学习,在空间维度上,各个节点之间交通流量也存在相互影响。
为此,基于以上现状,提出一种基于连续监测器的智慧高速交通流量预测方法。
发明内容
1.发明要解决的技术问题
本发明的目的在于解决上述的缺陷。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种基于连续监测器的智慧高速交通流量预测方法,该方法包括以下步骤:
S1,采集m个高速公路检测器实时交通流量数据;
S2,对采集的数据进行预处理;
S3,对预处理后的数据进行特征工程得到若干个特征;
S4,对得到的若干个特征进行特征选择;
S5,建立TCN-GBDT模型;
S6,对模型进行训练;
S7,预测交通流量。
优选的,步骤S2的预处理包括如下内容:
S2.1,缺失值处理,是对步骤S1中数据不满足数据量Q的情况,采用KNN进行数据补全,k值通过n折交叉验证计算得到,距离采用标准欧式距离:
Figure BDA0003340759550000031
其中,x1k是指分量1数据,x2k是指分量2数据,sk是指分量标准差;
S2.2,数据核验,是对步骤S1中数据是否满足按照1min统计数据量Q的核验,此外,还包括核验数据中是否包含特殊占道时段,如包括则删除该时段数据:
Figure BDA0003340759550000032
其中,tb为采集数据开始时间,tf为采集数据结束时间,时间都以时间戳表示;
S2.3,归一化,是对步骤S1中补全后的数据进行标准化处理:
Figure BDA0003340759550000041
其中,xi为当前数据,xmin为当前向量最小值,xmax为当前向量最大值。
优选的,步骤S3中的特征包括如下内容:
时间特征:节假日、星期、时间段;
数据统计特征:交通流量统计序列、行车速度、空间占有率、时间占有率;
关联路段特征:上游主路交通流量、下游主路交通流量、上游匝道交通流量、下游匝道交通流量;
环境特征:温度、湿度、能见度、天气、风力、空气质量;
事故情况:事故次数统计、接警次数统计、出警次数统计;
特殊事件:重大会议、庆典等次数;
其中,除时间特征和环境特征外,其他特征按照上周同期、上月同期、去年同期、近一年平均、近一月平均、近一周平均、近一天平均、近一小时平均为时间单位统计;
时间特征、环境特征中的天气取one-hot向量,对其他特征按照步骤S2中归一化方法处理。
输入数据由历史数据的门架标志、时间特征、天气特征、前n个序列等多维数据组成,形成i*j的矩阵X,:
Figure BDA0003340759550000042
其中,i表示数据条数,j表示特征数量。
优选的,步骤S4中的特性选择包括线性特征选择和非线性特征选择,分别如下:
线性特征选择:通过皮尔森相关系数计算,皮尔森相关系数是一种线性相关系数,用来反映两个变量的线性相关程度,其值介于-1到1之间,绝对值越大表明相关性越强:
Figure BDA0003340759550000051
其中,Cov(X,Y)为X和Y的协方差,σX和σY分别为X和Y的标准差,μX是X的平均值,μY是Y的平均值,E为期望;
非线性特性选择:在随机森林迭代过程中使用基尼系数作为评价指标来衡量。将变量重要性评分用VIM表示,将基尼系数用GI表示,假设有m个特征X1,X2,X3,...,Xm,计算每个特征Xj的基尼系数评分VIMj Gini,亦即第j个特征在所有决策树中节点分裂不纯度的平均改变量,评分越高,说明该特征越值得保留。
基尼系数计算公式:
Figure BDA0003340759550000052
其中,K表示类别,pmk表示节点m中随机抽取两个样本,其类别标记不一致的概率。
特征Xj在节点m的重要性,即节点m分枝前后的基尼系数变化量为
VIMjm Gini=GIm-GIl-GIr
其中,GIl和GIr分别表示分枝后两个新节点的基尼系数
如果特征Xj在决策树i中出现的节点集合为M,那么Xj在第i颗树的重要性为
Figure BDA0003340759550000053
假设随机森林中共有n颗树,那么
Figure BDA0003340759550000061
最后,把所有求得的重要性评分做一个归一化处理即可
Figure BDA0003340759550000062
优选的,线性特征选择和非线性特征选择均设有阈值,线性特征阈值设为γ1,非线性特征阈值设为γ2,对满足γ1或者γ2的特征计算结果行步骤S5。
优选的,步骤S5的具体内容为输入数据为经过特征选择的矩阵X,包括i个时刻,j个特征:
Figure BDA0003340759550000063
简化表示为
Figure BDA0003340759550000064
表示ti时刻向量;
卷积核为F=(f1,f2,…,fk),其中k为卷积核大小,序列X在
Figure BDA0003340759550000065
处的因果卷积为:
Figure BDA0003340759550000066
简单因果卷积网络的感受野与网络深度呈线性关系,学习长时间序列依赖关系时网络会变得非常深,引入扩张卷积以减少简单因果卷积的深度,d为扩张卷积的系数:
Figure BDA0003340759550000067
引入残差单元模块以解决网络优化问题,如梯度消散,梯度爆炸等;
Figure BDA0003340759550000068
通过TCN网络自适应提取特征数据,将其作为梯度提升树(GDBT)的输入,通过GDBT对交通流量进行预测。GBDT可看成是由K棵树组成的加法模型,其中F为所有树组成的函数空间,xti对应TCN中间层输出
Figure BDA0003340759550000071
输入是TCN的隐层数据。
Figure BDA0003340759550000072
优选的,步骤S6的具体内容为对于第t个时刻,第m个门架,将前m-1个门架第t时刻前的特征数据等作为模型输入,第t个时刻、第m个门架实际交通流量数据作为模型输出,对模型进行训练。
优选的,步骤S7的具体内容为预测第t+1时刻、第m个门架的交通流量,需要将t+1时刻特征数据进行数据预处理和特征工程后作为模型输入,输出后进行反归一化即为第t+1时刻、第m个门架的预测交通流量。
3.有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
(1)本发明在特征上综合时间、数据统计、关联路段、环境、事故情况、特殊事件等多维特征,考虑多个因素对交通流量的影响,提高了模型预测精度。
(2)本发明在特征上基于线性和非线性方法进行了特征选择,相比全部特征进行训练,在训练效率和针对性上有了提高。
(3)本发明选择了TCN神经网络模型,相比当前主流预测模型RNN类以及衍生子类LSTM、GRU等无法并行计算的缺点,在计算效率上有了显著提升。
本发明在TCN神经网络隐藏层计算后输出数据作为GBDT输入,GBDT参数少、训练过程稳定,提高模型整体鲁棒性。
附图说明
图1为本发明的一种基于连续监测器的智慧高速交通流量预测方法的流程示意图;
图2为本发明的一种基于连续监测器的智慧高速交通流量预测方法的60min时间间隔交通流量预测的拟合图;
图3为本发明的一种基于连续监测器的智慧高速交通流量预测方法的15min时间间隔交通流量预测的拟合图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述,附图中给出了本发明的若干实施例,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件;本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
参照附图1-图3所示,其中,source data为原始观测统计数据,train data为使用本发明模型训练学习阶段的拟合数据,test data为使用本发明模型针对未知数据进行预测的数据,对于预测阶段,test data与source data的拟合度越高,则说明模型的泛化能力越强,图2中60min时间间隔表示每个数据时间步长为60min,图3中15min时间间隔表示每个数据时间步长为15min。
本实施例的一种基于连续监测器的智慧高速交通流量预测方法,该方法包括以下步骤:
S1,采集m个高速公路检测器实时交通流量数据;
S2,对采集的数据进行预处理;
S3,对预处理后的数据进行特征工程得到若干个特征;
S4,对得到的若干个特征进行特征选择;
S5,建立TCN-GBDT模型;
S6,对模型进行训练;
S7,预测交通流量。
本实施例的步骤S2的预处理包括如下内容:
S2.1,缺失值处理,是对步骤S1中数据不满足数据量Q的情况,采用KNN进行数据补全,k值通过n折交叉验证计算得到,距离采用标准欧式距离:
Figure BDA0003340759550000091
其中,x1k是指分量1数据,x2k是指分量2数据,sk是指分量标准差;
S2.2,数据核验,是对步骤S1中数据是否满足按照1min统计数据量Q的核验,此外,还包括核验数据中是否包含特殊占道时段,如包括则删除该时段数据:
Figure BDA0003340759550000092
其中,tb为采集数据开始时间,tf为采集数据结束时间,时间都以时间戳表示;
S2.3,归一化,是对步骤S1中补全后的数据进行标准化处理:
Figure BDA0003340759550000101
其中,xi为当前数据,xmin为当前向量最小值,xmax为当前向量最大值。
本实施例的步骤S3中的特征包括如下内容:
时间特征:节假日、星期、时间段;
数据统计特征:交通流量统计序列、行车速度、空间占有率、时间占有率;
关联路段特征:上游主路交通流量、下游主路交通流量、上游匝道交通流量、下游匝道交通流量;
环境特征:温度、湿度、能见度、天气、风力、空气质量;
事故情况:事故次数统计、接警次数统计、出警次数统计;
特殊事件:重大会议、庆典等次数;
其中,除时间特征和环境特征外,其他特征按照上周同期、上月同期、去年同期、近一年平均、近一月平均、近一周平均、近一天平均、近一小时平均为时间单位统计;
时间特征、环境特征中的天气取one-hot向量,对其他特征按照步骤S2中归一化方法处理。
输入数据由历史数据的门架标志、时间特征、天气特征、前n个序列等多维数据组成,形成i*j的矩阵X,:
Figure BDA0003340759550000102
其中,i表示数据条数,j表示特征数量。
本实施例的步骤S4中的特性选择包括线性特征选择和非线性特征选择,分别如下:
线性特征选择:通过皮尔森相关系数计算,皮尔森相关系数是一种线性相关系数,用来反映两个变量的线性相关程度,其值介于-1到1之间,绝对值越大表明相关性越强:
Figure BDA0003340759550000111
其中,Cov(X,Y)为X和Y的协方差,σX和σY分别为X和Y的标准差,μX是X的平均值,μY是Y的平均值,E为期望;
非线性特性选择:在随机森林迭代过程中使用基尼系数作为评价指标来衡量。将变量重要性评分用VIM表示,将基尼系数用GI表示,假设有m个特征X1,X2,X3,...,Xm,计算每个特征Xj的基尼系数评分VIMj Gini,亦即第j个特征在所有决策树中节点分裂不纯度的平均改变量,评分越高,说明该特征越值得保留。
基尼系数计算公式:
Figure BDA0003340759550000112
其中,K表示类别,pmk表示节点m中随机抽取两个样本,其类别标记不一致的概率。
特征Xj在节点m的重要性,即节点m分枝前后的基尼系数变化量为
VIMjm Gini=GIm-GIl-GIr
其中,GIl和GIr分别表示分枝后两个新节点的基尼系数
如果特征Xj在决策树i中出现的节点集合为M,那么Xj在第i颗树的重要性为
Figure BDA0003340759550000113
假设随机森林中共有n颗树,那么
Figure BDA0003340759550000121
最后,把所有求得的重要性评分做一个归一化处理即可
Figure BDA0003340759550000122
本实施例的线性特征选择和非线性特征选择均设有阈值,线性特征阈值设为γ1,非线性特征阈值设为γ2,对满足γ1或者γ2的特征计算结果行步骤S5。
本实施例的步骤S5的具体内容为输入数据为经过特征选择的矩阵X,包括i个时刻,j个特征:
Figure BDA0003340759550000123
简化表示为
Figure BDA0003340759550000124
表示ti时刻向量;
卷积核为F=(f1,f2,…,fk),其中k为卷积核大小,序列X在
Figure BDA0003340759550000125
处的因果卷积为:
Figure BDA0003340759550000126
简单因果卷积网络的感受野与网络深度呈线性关系,学习长时间序列依赖关系时网络会变得非常深,引入扩张卷积以减少简单因果卷积的深度,d为扩张卷积的系数:
Figure BDA0003340759550000127
引入残差单元模块以解决网络优化问题,如梯度消散,梯度爆炸等;
Figure BDA0003340759550000128
通过TCN网络自适应提取特征数据,将其作为梯度提升树(GDBT)的输入,通过GDBT对交通流量进行预测。GBDT可看成是由K棵树组成的加法模型,其中F为所有树组成的函数空间,xti对应TCN中间层输出
Figure BDA0003340759550000131
输入是TCN的隐层数据。
Figure BDA0003340759550000132
本实施例的步骤S6的具体内容为对于第t个时刻,第m个门架,将前m-1个门架第t时刻前的特征数据等作为模型输入,第t个时刻、第m个门架实际交通流量数据作为模型输出,对模型进行训练,将输入数据分为训练集数据和验证集数据,数据量占比分别为80%、20%。
设置损失函数,hθ(xt)表示t时刻预测值,
Figure BDA0003340759550000133
表示t时刻真实值:
Figure BDA0003340759550000134
采用Adam优化器;
Figure BDA0003340759550000135
Figure BDA0003340759550000136
其中,gt表示第t时间步的梯度,α表示学习率;
对模型进行迭代训练和验证,采用RMSE、MAE、MA等评估指标来测量预测方法效果:
Figure BDA0003340759550000137
Figure BDA0003340759550000138
Figure BDA0003340759550000141
其中yt
Figure BDA0003340759550000142
分别是预测值和真实值,N是所有预测值数量。
本实施例的步骤S7的具体内容为预测第t+1时刻、第m个门架的交通流量,需要将t+1时刻特征数据进行数据预处理和特征工程后作为模型输入,输出后进行反归一化即为第t+1时刻、第m个门架的预测交通流量。交通流量。
xpr=xp*(xmax-xmin)+xmin
其中xp表示输出预测值,xpr表示反归一化后预测值
以下内容针对上文的步骤作补充说明
本发明具体实施环境:在深度神经网络部分采用pyTorch框架,具体开发环境为pyCharm。
本发明数据源:沪宁高速G42K1104+400000002桩号开始连续5个门架持续1年的交通流量数据。
本发明相关模型参数:经过多轮试验比较,最终参数确定为数据补全过程中KNN中K为3,TCN中因果卷积卷积核大小为4,GBDT树深度为12,第i个卷积块的扩展因子d=2i-1,卷积块设置为5,训练过程中学习率为0.01,批量为64,训练周期为3000。
本发明预测过程:
(1)原始数据采集
表1采集数据
Figure BDA0003340759550000143
Figure BDA0003340759550000151
(2)数据预处理
缺失值处理:采用KNN进行数据补全
数据核验:核验数据是否满足按照1min统计
归一化:将所有数据压缩至0-1之间
(3)特征工程
表2特征字段
Figure BDA0003340759550000152
Figure BDA0003340759550000161
(4)特征选择
根据皮尔森相关系数和梯度提升树(GDBT)进行特征选择
表3特征选择结果
Figure BDA0003340759550000162
Figure BDA0003340759550000171
(5)建立TCN-GBDT模型
经过特征选择后,将多个时间时刻组合,数据形式如下,其中j为此时特征数量21:
Figure BDA0003340759550000172
经过TCN网络中间层输出数据形式同上,其中j为此时隐藏层神经元数量64:
Figure BDA0003340759550000173
经过GBDT预测交通流量数据得到
Y=[y1,y2,...,yti]
(6)对模型进行训练
设定训练轮次,或者精度,将TCN-GBDT模型预测结果Y与已知标签
Figure BDA0003340759550000174
进行比较,迭代模型直至训练完成,产生预训练模型,可以对未来时刻进行流量预测。
Figure BDA0003340759550000175
(7)对模型进行预测
输入特征序列,其中j为21,即特征选择后的特征数量
Figure BDA0003340759550000176
输出反归一化后即为下一时刻预测交通流量,具体输出标准依赖训练阶段标签交通流量量级:训练标签为分钟级别流量,则输出为分钟级别预测流量,以此类推。
本发明预测结果:表4是本发明和和使用其他模型测试的结果,实验结果说明本发明优于其他对比算法。
表4本发明和其他模型的预测结果对比
Figure BDA0003340759550000181
以上所述实施例仅表达了本发明的某种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于连续监测器的智慧高速交通流量预测方法,其特征在于,该方法包括以下步骤:
S1,采集m个高速公路检测器实时交通流量数据;
S2,对采集的数据进行预处理;
S3,对预处理后的数据进行特征工程得到若干个特征;
S4,对得到的若干个特征进行特征选择;
S5,建立TCN-GBDT模型;
S6,对模型进行训练;
S7,预测交通流量。
2.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于,所述步骤S2的预处理包括如下内容:
S2.1,缺失值处理,是对步骤S1中数据不满足数据量Q的情况,采用KNN进行数据补全,k值通过n折交叉验证计算得到,距离采用标准欧式距离:
Figure FDA0003340759540000011
其中,x1k是指分量1数据,x2k是指分量2数据,sk是指分量标准差;
S2.2,数据核验,是对步骤S1中数据是否满足按照1min统计数据量Q的核验,此外,还包括核验数据中是否包含特殊占道时段,如包括则删除该时段数据:
Figure FDA0003340759540000012
其中,tb为采集数据开始时间,tf为采集数据结束时间,时间都以时间戳表示;
S2.3,归一化,是对步骤S1中补全后的数据进行标准化处理:
Figure FDA0003340759540000021
其中,xi为当前数据,xmin为当前向量最小值,xma0为当前向量最大值。
3.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于,所述步骤S3中的特征包括如下内容:
时间特征:节假日、星期、时间段;
数据统计特征:交通流量统计序列、行车速度、空间占有率、时间占有率;
关联路段特征:上游主路交通流量、下游主路交通流量、上游匝道交通流量、下游匝道交通流量;
环境特征:温度、湿度、能见度、天气、风力、空气质量;
事故情况:事故次数统计、接警次数统计、出警次数统计;
特殊事件:重大会议、庆典等次数;
其中,除时间特征和环境特征外,其他特征按照上周同期、上月同期、去年同期、近一年平均、近一月平均、近一周平均、近一天平均、近一小时平均为时间单位统计;
时间特征、环境特征中的天气取one-hot向量,对其他特征按照步骤S2中归一化方法处理。
输入数据由历史数据的门架标志、时间特征、天气特征、前n个序列等多维数据组成,形成i*j的矩阵X,:
Figure FDA0003340759540000022
其中,i表示数据条数,j表示特征数量。
4.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于,所述步骤S4中的特性选择包括线性特征选择和非线性特征选择,分别如下:
线性特征选择:通过皮尔森相关系数计算,皮尔森相关系数是一种线性相关系数,用来反映两个变量的线性相关程度,其值介于-1到1之间,绝对值越大表明相关性越强:
Figure FDA0003340759540000031
其中,Cov(X,Y)为X和Y的协方差,σX和σY分别为X和Y的标准差,μX是X的平均值,μY是Y的平均值,E为期望;
非线性特性选择:在随机森林迭代过程中使用基尼系数作为评价指标来衡量。将变量重要性评分用VIM表示,将基尼系数用GI表示,假设有m个特征X1,X2,X3,...,Xm,计算每个特征Xj的基尼系数评分VIMj Gini,亦即第j个特征在所有决策树中节点分裂不纯度的平均改变量,评分越高,说明该特征越值得保留。
基尼系数计算公式:
Figure FDA0003340759540000032
其中,K表示类别,pmk表示节点m中随机抽取两个样本,其类别标记不一致的概率。
特征Xj在节点m的重要性,即节点m分枝前后的基尼系数变化量为
VIMjm Gini=GIm-GIl-GIr
其中,GIl和GIr分别表示分枝后两个新节点的基尼系数
如果特征Xj在决策树i中出现的节点集合为M,那么Xj在第i颗树的重要性为
Figure FDA0003340759540000041
假设随机森林中共有n颗树,那么
Figure FDA0003340759540000042
最后,把所有求得的重要性评分做一个归一化处理即可得到特征得分
Figure FDA0003340759540000043
5.根据权利要求4所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于:所述线性特征选择和非线性特征选择均设有阈值,所述线性特征阈值设为γ1,非线性特征阈值设为γ2,对满足γ1或者γ2的特征计算结果行步骤S5。
6.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于:所述步骤S5的具体内容为输入数据为经过特征选择的矩阵X,包括i个时刻,j个特征:
Figure FDA0003340759540000044
简化表示为
Figure FDA0003340759540000045
Figure FDA0003340759540000046
表示ti时刻向量;
卷积核为F=(f1,f2,…,fk),其中k为卷积核大小,序列X在
Figure FDA0003340759540000047
处的因果卷积为:
Figure FDA0003340759540000048
简单因果卷积网络的感受野与网络深度呈线性关系,学习长时间序列依赖关系时网络会变得非常深,引入扩张卷积以减少简单因果卷积的深度,d为扩张卷积的系数:
Figure FDA0003340759540000051
引入残差单元模块以解决网络优化问题,如梯度消散,梯度爆炸等;
Figure FDA0003340759540000052
通过TCN网络自适应提取特征数据,将其作为梯度提升树(GDBT)的输入,通过GDBT对交通流量进行预测。GBDT可看成是由K棵树组成的加法模型,其中F为所有树组成的函数空间,xti对应TCN中间层输出
Figure FDA0003340759540000053
输入是TCN的隐层数据。
Figure FDA0003340759540000054
7.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于:所述步骤S6的具体内容为对于第t个时刻,第m个门架,将前m-1个门架第t时刻前的特征数据等作为模型输入,第t个时刻、第m个门架实际交通流量数据作为模型输出,对模型进行训练。
8.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于:所述步骤S7的具体内容为预测第t+1时刻、第m个门架的交通流量,需要将t+1时刻特征数据进行数据预处理和特征工程后作为模型输入,输出后进行反归一化即为第t+1时刻、第m个门架的预测交通流量。
CN202111311231.0A 2021-11-05 2021-11-05 一种基于连续监测器的智慧高速交通流量预测方法 Pending CN114120637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111311231.0A CN114120637A (zh) 2021-11-05 2021-11-05 一种基于连续监测器的智慧高速交通流量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111311231.0A CN114120637A (zh) 2021-11-05 2021-11-05 一种基于连续监测器的智慧高速交通流量预测方法

Publications (1)

Publication Number Publication Date
CN114120637A true CN114120637A (zh) 2022-03-01

Family

ID=80381032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111311231.0A Pending CN114120637A (zh) 2021-11-05 2021-11-05 一种基于连续监测器的智慧高速交通流量预测方法

Country Status (1)

Country Link
CN (1) CN114120637A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909748A (zh) * 2023-01-07 2023-04-04 深圳市城市交通规划设计研究中心股份有限公司 节假日公路交通量预测方法、电子设备及存储介质
CN116504076A (zh) * 2023-06-19 2023-07-28 贵州宏信达高新科技有限责任公司 基于etc门架数据的高速公路车流量预测方法
CN117423238A (zh) * 2023-12-19 2024-01-19 北京华录高诚科技有限公司 基于卷积交换网络的交通流量一体式预测装置及预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170063893A1 (en) * 2015-08-28 2017-03-02 Cisco Technology, Inc. Learning detector of malicious network traffic from weak labels
CN111540199A (zh) * 2020-04-21 2020-08-14 浙江省交通规划设计研究院有限公司 一种基于多模态融合和图注意力机制的高速交通流预测方法
CN112350899A (zh) * 2021-01-07 2021-02-09 南京信息工程大学 一种基于图卷积网络融合多特征输入的网络流量预测方法
CN112468326A (zh) * 2020-11-11 2021-03-09 北京工业大学 基于时间卷积神经网络的访问流量预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170063893A1 (en) * 2015-08-28 2017-03-02 Cisco Technology, Inc. Learning detector of malicious network traffic from weak labels
CN111540199A (zh) * 2020-04-21 2020-08-14 浙江省交通规划设计研究院有限公司 一种基于多模态融合和图注意力机制的高速交通流预测方法
CN112468326A (zh) * 2020-11-11 2021-03-09 北京工业大学 基于时间卷积神经网络的访问流量预测方法
CN112350899A (zh) * 2021-01-07 2021-02-09 南京信息工程大学 一种基于图卷积网络融合多特征输入的网络流量预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENTIAN ZHAO ET AL.: "Deep Temporal Convolutional Networks for Short-Term Traffic Flow Forecasting", 《IEEE ACCESS》 *
魏梦媛: "基于时间卷积网络的城市快速路交通流量预测方法研究", 《中国优秀硕士论文全文数据库工程科技Ⅱ辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909748A (zh) * 2023-01-07 2023-04-04 深圳市城市交通规划设计研究中心股份有限公司 节假日公路交通量预测方法、电子设备及存储介质
CN116504076A (zh) * 2023-06-19 2023-07-28 贵州宏信达高新科技有限责任公司 基于etc门架数据的高速公路车流量预测方法
CN117423238A (zh) * 2023-12-19 2024-01-19 北京华录高诚科技有限公司 基于卷积交换网络的交通流量一体式预测装置及预测方法

Similar Documents

Publication Publication Date Title
CN111161535B (zh) 基于注意力机制的图神经网络交通流量预测方法及系统
CN111210633B (zh) 一种基于深度学习的短时交通流预测方法
Shao et al. Traffic flow prediction with long short-term memory networks (LSTMs)
CN114120637A (zh) 一种基于连续监测器的智慧高速交通流量预测方法
CN110046743B (zh) 基于ga-ann的公共建筑能耗预测方法和系统
CN113094357B (zh) 一种基于时空注意力机制的交通缺失数据补全方法
CN114626512B (zh) 一种基于有向图神经网络的高温灾害预报方法
CN108985965A (zh) 一种结合神经网络和参数估计的光伏功率区间预测方法
CN112087442B (zh) 基于注意力机制的时序相关网络入侵检测方法
CN110837888A (zh) 一种基于双向循环神经网络的交通缺失数据补全方法
CN113591728A (zh) 基于集成深度学习的电能质量扰动分类方法
CN113344288B (zh) 梯级水电站群水位预测方法、装置及计算机可读存储介质
CN111352977A (zh) 基于自注意力双向长短期记忆网络的时序数据监测方法
CN110956309A (zh) 基于crf和lstm的流程活动预测方法
CN114580545A (zh) 一种基于融合模型的风电机组齿轮箱故障预警方法
CN115392554A (zh) 基于深度图神经网络和环境融合的轨道客流预测方法
CN112766603A (zh) 一种交通流量预测方法、系统、计算机设备及存储介质
CN113947182A (zh) 基于双阶段堆叠图卷积网络的交通流预测模型构建方法
CN114548591A (zh) 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统
Xiaoning et al. Stock index forecasting by hidden Markov models with trends recognition
Wang et al. A Transformer-based multi-entity load forecasting method for integrated energy systems
CN115481788B (zh) 相变储能系统负荷预测方法及系统
CN115293249A (zh) 一种基于动态时序预测的电力系统典型场景概率预测方法
KR102177728B1 (ko) 합성곱 신경망을 활용한 데이터 확장방법 및 장치
CN115496264A (zh) 一种风电机组发电功率的预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220301