CN111508240A - 一种基于混合特征挖掘的交通流量预测方法 - Google Patents

一种基于混合特征挖掘的交通流量预测方法 Download PDF

Info

Publication number
CN111508240A
CN111508240A CN202010603955.1A CN202010603955A CN111508240A CN 111508240 A CN111508240 A CN 111508240A CN 202010603955 A CN202010603955 A CN 202010603955A CN 111508240 A CN111508240 A CN 111508240A
Authority
CN
China
Prior art keywords
data
traffic flow
value
model
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010603955.1A
Other languages
English (en)
Other versions
CN111508240B (zh
Inventor
黄倩
季玮
宋晓峰
李道勋
季欣凯
吴戡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202010603955.1A priority Critical patent/CN111508240B/zh
Publication of CN111508240A publication Critical patent/CN111508240A/zh
Application granted granted Critical
Publication of CN111508240B publication Critical patent/CN111508240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/065Traffic control systems for road vehicles by counting the vehicles in a section of the road or in a parking area, i.e. comparing incoming count with outgoing count
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于混合特征挖掘的交通流量预测方法,在该方法中,在交通流量数据的基础上引入混合特征数据,具体包括时间特征数据和交通态势特征数据,根据交通流量预测目标从混合特征中挖掘出相应的重要性高且特征之间差异大、相互独立的特征,而剔除相关性低、冗余重复的特征,将挖掘出的特征结合交通流量数据作为模型输入,构建交通流量预测模型,通过模型实现交通流量预测。在实现丰富特征引入的同时,构建了复杂度更低、解释性更强的预测模型,显著提升了模型的预测精准度。

Description

一种基于混合特征挖掘的交通流量预测方法
技术领域
本发明涉及智能交通技术领域,尤其涉及一种基于混合特征挖掘的交通流量预测方法。
背景技术
近年来,智慧交通飞速发展,使用交通预测模型对未来交通状态进行预测,通过提前预知交通状态,促使交通管理者尽早采取有效的交通管控手段,提升交通运输效率和出行体验。现有的交通状态预测模型大多使用历史交通流量信息对未来交通状态进行预测,而缺乏其他的有效信息,使得流量预测的精准度达到一个瓶颈,难以继续提升。
针对以上问题,本发明提出了一种基于混合特征挖掘的交通流量预测方法,在交通流量数据的基础上引入混合特征,具体包括时间特征,交通态势特征等。根据交通流量预测目标从混合特征中挖掘出相应的重要性高且特征之间差异大、相互独立的特征,而去除相关性低、冗余重复的特征,将挖掘出的特征结合交通流量数据作为模型输入。在实现丰富特征引入的同时,构建了复杂度更低、解释性更强的预测模型,显著提升了模型的预测精准度。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于混合特征挖掘的交通流量预测方法,解决现有的交通状态预测模型大多使用历史交通流量信息对未来交通状态进行预测,而缺乏其他的有效信息,使得流量预测的精准度达到一个瓶颈,难以继续提升的问题,在交通流量的基础上引入了混合特征,具体包括时间特征,交通态势特征。根据交通流量预测目标从混合特征中挖掘出相应的重要性高且特征之间差异大、相互独立的特征,将挖掘出的特征结合交通流量数据作为模型输入。在实现丰富特征引入的同时,构建了复杂度更低、解释性更强的预测模型,显著提升了模型的预测精准度。
本发明的目的是通过以下技术方案来实现的:一种基于混合特征挖掘的交通流量预测方法,该方法包括以下步骤:
步骤(1):构建多维初始化原始数据;
初始化原始数据由多维数据组成,包括交通流量数据和混合特征数据,所述交通流量数据为车流量或车速数据;所述混合特征数据包括时间数据和交通态势数据;多维数据中,假设某个当前时间点是T,预测T+t 1, T+t 2,…, T+t K的K个时间点的交通流量,则多维数据具体获取方式如下:
1.1)交通流量数据为T时刻之前的Y个小时的历史数据和相应的预测T+t 1, T+t 2,…, T+t K的K个时间点的交通流量数据;历史数据的采样时间间隔均匀,时间间隔为
Figure 327391DEST_PATH_IMAGE001
,采样交 通流量数据量为
Figure 40132DEST_PATH_IMAGE002
1.2)所述混合特征数据,其中时间数据与要预测的未来交通流量的时间点T+t i 相关,为对应的具体时间戳,1≤i≤K,且为整数;交通态势数据反映道路状况,为采样历史Y小时时间内是否发生交通事故、事故等级、拥堵程度以及拥堵持续时长;
步骤(2):解析步骤(1)中得到的混合特征数据,并将解析后的特征数据向量化;具体步骤如下:
2.1)对混合特征数据中的时间数据进行分解;将时间数据分解为离散值数据特征;
2.2)将交通态势特征数据分解为离散值数据特征和拥挤持续时长的连续值数据特征,所述离散值数据特征包括是否发生交通事故、事故等级和拥堵程度;
2.3)将分解后的数据特征向量化,对连续值数据特征进行标准化,均值为0,方差为1,离散值数据特征独热化one-hot编码,此处特征向量化能够提升特征挖掘效率;
步骤(3):计算分解并向量化后的特征数据的重要性,将重要性小于设定阈值
Figure 433067DEST_PATH_IMAGE003
的特 征去除,具体步骤如下:
3.1)采用简单纯随机抽样方法,将所有数据作为总样本,从M个总样本中不重复抽样出N个样本,使得抽样样本随机包含分解并向量化后的特征数据;N值范围为:
Figure 739415DEST_PATH_IMAGE004
3.2)使用抽样出的N个样本数据构建最大深度为D的提升树tree booster,深度D根据样本数据量大小和各个特征数据的取值特点进行调整;
3.3)分别计算每一个特征数据在提升树中的重要性;使用重要性指标total_gain,即根据某特征数据在每次分裂节点带来的总增益,计算该特征数据的重要性得分;
3.4)将数据特征按步骤3.3)中计算得到的重要性得分排序,去除重要性得分小于阈值
Figure 836684DEST_PATH_IMAGE003
的特征数据,
Figure 544877DEST_PATH_IMAGE003
设置方法如下:
设重要性得分平均数为μ,重要性得分方差为
Figure 436609DEST_PATH_IMAGE005
x j 为第j个特征数据的重要性得分,0 ≤j≤总特征数据数J,则有:
Figure 230253DEST_PATH_IMAGE006
Figure 131213DEST_PATH_IMAGE007
Figure 428333DEST_PATH_IMAGE003
设置为,
Figure 756546DEST_PATH_IMAGE008
其中系数
Figure 771907DEST_PATH_IMAGE009
表示的含义是,当系数取值为
Figure 476558DEST_PATH_IMAGE009
时,重要性得分取值落在以下区间的概率为
Figure 893764DEST_PATH_IMAGE010
Figure 392878DEST_PATH_IMAGE011
式中,
Figure 895535DEST_PATH_IMAGE012
为重要性得分最大值;即有
Figure 138297DEST_PATH_IMAGE010
的重要性得分大于等于
Figure 968649DEST_PATH_IMAGE013
的数据 特征被保留,
Figure 904244DEST_PATH_IMAGE014
的重要性得分小于
Figure 628618DEST_PATH_IMAGE003
的数据特征被剔除;系数
Figure 409492DEST_PATH_IMAGE009
及相应的
Figure 801290DEST_PATH_IMAGE010
应根据实际 应用中重要性取值分布情况进行调整;
步骤(4):对保留下来的特征数据,计算两两特征之间的最大互信息系数,根据最大互信息系数取值分布情况,按实际需求选取阈值;将最大互信息系数大于阈值的两个特征,删除重要性得分小的那个特征,即去除重复冗余特征;
步骤(5):重新构建数据;将步骤(4)最终保留下来的混合特征数据和交通流量数据组合成数据集;
步骤(6):构建基于GRU的交通流量预测模型,将步骤(5)构建的数据集中的特征数据和历史交通流量数据作为模型的输入,模型的输出为相应的要预测的交通流量数据;具体步骤如下:
6.1)模型的输入维度即为特征数据和历史流量数据的综合维度H;
6.2)模型的输出维度即为要预测的K个时间点的流量数据的维度K;
6.3)构建基于GRU时序预测模型,模型层数为N_layers,隐藏层个数为N_hidden_units,输入维度为H,输出维度为K;
6.4)设计模型损失函数为L2损失函数,优化器为Adam优化器;
6.5)训练预测模型使模型损失函数最小,反复迭代直至模型完全收敛,同时根据测试集测试性能优化模型超参数;
6.6)使用训练好的模型对实际道路未来K个时间点的交通流量进行预测。
进一步地,步骤2.1)中,将时间数据分解为离散值数据特征,具体包括年、月、日、小时、分钟、秒钟、年度第几周、年度第几天、本月第几周、本月第几天、星期几、第几季度和一天中的时间段,所述一天中的时间段包括凌晨、早晨、上午、中午、下午、傍晚、晚上和深夜。
进一步地,步骤(4)具体过程如下:
4.1)对步骤3.4)中保留下来的特征数据,将任意两两特征进行组合,组合数量为C;
4.2)将组合中的特征之间的关系离散在二维空间中,并使用散点图来表示;
4.3)将二维空间在X,Y方向分别划分为一定的区间数,穷举所有的划分尺度;对划分尺度进行约束,即对在X,Y方向上的划分格子个数(b x b y ),对任意的b x b y 满足:
Figure 642207DEST_PATH_IMAGE015
其中b max 表示在X,Y方向上的划分格子个数的乘积的最大值,N为样本数量,b max 设置为样本数量的0.6次方;计算出所有划分尺度数为P;
4.4)对所有的划分尺度数P遍历每个划分尺度即划分格子个数(b x b y )的所有网格化划分方案,分别计算各个划分方案的互信息值,求出互信息值的最大值为最大化信息值MI,并对最大互信息值进行归一化,得到MI norm
4.5)计算出每个划分尺度的MI norm ,选择MI norm 值的最大值为最大互信息系数MIC;
4.6)重复步骤4.2)~4.5),分别计算出C个两两特征组合的最大互信息系数MIC;若大的 MIC 取值范围是a1~1.0,小的MIC取值范围是0~a2,则将阈值
Figure 119456DEST_PATH_IMAGE016
设置为a1,最大互信息系数 MIC大于
Figure 704021DEST_PATH_IMAGE017
的删除重要性小的那个特征。
进一步地,步骤4.4)具体步骤如下:
a)对所有的
Figure 950326DEST_PATH_IMAGE018
划分方案,Q为所有可能的划分方案数,分别计算方案
Figure 962144DEST_PATH_IMAGE019
的互信息值,
Figure 661110DEST_PATH_IMAGE020
,划分方案将网格划分成多个分区,方案
Figure 49366DEST_PATH_IMAGE019
的互信息值用散点落在 各个网格中的联合概率来计算,计算公式为:
Figure 150177DEST_PATH_IMAGE021
其中,
Figure 5001DEST_PATH_IMAGE022
即为散点同时落在某个分区中的概率,
Figure 581476DEST_PATH_IMAGE023
即为散点落在某分区水平方 向网格的概率,
Figure 711106DEST_PATH_IMAGE024
即为散点落在某分区垂直方向网格的概率,
Figure 463161DEST_PATH_IMAGE025
即为对散点落在各个 分区X,Y方向做积分;
b)求所有划分方案互信息值的最大值,得出最大互信息值MI;
c)对最大互信息值MI进行归一化;归一化公式:
Figure 957727DEST_PATH_IMAGE026
其中,
Figure 755919DEST_PATH_IMAGE027
即为当前划分尺度在X,Y方向上的划分格子个数b x b y 的最小值。
进一步地,步骤(5)中,对交通流量数据做归一化,并将重新构建的数据按8:2的比例划分成训练集和测试集。
进一步地,步骤(6.3)中,构建基于GRU的时序预测模型,第一层输入为历史交通流量数据,将隐藏层最后一层最后一个step的输出序列和输入特征数据序列进行拼接,并添加一层神经元个数为N_fc_units全连接层,最后输出层大小即为预测的K个时间点的流量数据的维度大小K。
本发明的有益效果:本发明考虑除交通流量外引入了包含时间特征、交通态势特征的混合特征数据,并对混合特征数据进行特征挖掘,获得重要性高且特征差异大、相互独立的特征进行交通流量预测,实现了引入更加丰富的特征构建了复杂度更低、解释性更强的预测模型,显著提高了模型的执行效率和预测精准度。在实际工程中由于构建的流量预测模型的高精度和低复杂度而得到了很好的应用。
附图说明
图1是基于混合特征挖掘的交通状态预测方法流程图;
图2是混合特征数据解析示意图;
图3是模型输入输出数据组成示意图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供的一种基于混合特征挖掘的交通流量预测方法,流程如图1所示,该方法包括以下步骤:
步骤(1):构建多维初始化原始数据;
初始化原始数据由多维数据组成,包括交通流量数据和混合特征数据,所述交通流量数据为车流量或车速数据;所述混合特征数据包括时间数据和交通态势数据;多维数据中,假设某个当前时间点是T,预测T+t 1, T+t 2,…, T+t K的K个时间点的交通流量,则多维数据具体获取方式如下:
1.1)交通流量数据为T时刻之前的Y个小时的历史数据和相应的预测T+t 1, T+t 2,…, T+t K的K个时间点的交通流量数据;历史数据的采样时间间隔均匀,时间间隔为
Figure 361344DEST_PATH_IMAGE001
,采样交 通流量数据量为
Figure 295802DEST_PATH_IMAGE002
1.2)所述混合特征数据,其中时间数据与要预测的未来交通流量的时间点T+t i 相关,为对应的具体时间戳,1≤i≤K,且为整数;交通态势数据反映道路状况,为采样历史Y小时时间内是否发生交通事故、事故等级、拥堵程度以及拥堵持续时长;
步骤(2):解析步骤(1)中得到的混合特征数据,如图2所示,并将解析后的特征数据向量化;具体步骤如下:
2.1)对混合特征数据中的时间数据进行分解;将时间数据分解为离散值数据特征;具体包括年、月、日、小时、分钟、秒钟、年度第几周、年度第几天、本月第几周、本月第几天、星期几、第几季度和一天中的时间段,所述一天中的时间段包括凌晨、早晨、上午、中午、下午、傍晚、晚上和深夜。
2.2)将交通态势特征数据分解为离散值数据特征和拥挤持续时长的连续值数据特征,所述离散值数据特征包括是否发生交通事故、事故等级和拥堵程度;
2.3)将分解后的数据特征向量化,对连续值数据特征进行标准化,均值为0,方差为1,离散值数据特征独热化one-hot编码,此处特征向量化能够提升特征挖掘效率;
步骤(3):计算分解并向量化后的特征数据的重要性,将重要性小于设定阈值
Figure 961269DEST_PATH_IMAGE013
的特 征去除,具体步骤如下:
3.1)采用简单纯随机抽样方法,将所有数据作为总样本,从M个总样本中不重复抽样出N个样本,使得抽样样本随机包含分解并向量化后的特征数据;N值范围为:
Figure 246757DEST_PATH_IMAGE028
3.2)使用抽样出的N个样本数据构建最大深度为D的提升树tree booster,深度D根据样本数据量大小和各个特征数据的取值特点进行调整;
3.3)分别计算每一个特征数据在提升树中的重要性;使用重要性指标total_gain,即根据某特征数据在每次分裂节点带来的总增益,计算该特征数据的重要性得分;
3.4)将数据特征按步骤3.3)中计算得到的重要性得分排序,去除重要性得分小于阈值
Figure 390294DEST_PATH_IMAGE013
的特征数据,
Figure 444838DEST_PATH_IMAGE003
设置方法如下:
设重要性得分平均数为μ,重要性得分方差为
Figure 281206DEST_PATH_IMAGE029
x j 为第j个特征数据的重要性得分,0 ≤j≤总特征数据数J,则有:
Figure 788411DEST_PATH_IMAGE006
Figure 735639DEST_PATH_IMAGE007
Figure 910268DEST_PATH_IMAGE003
设置为,
Figure 651959DEST_PATH_IMAGE008
其中系数
Figure 912039DEST_PATH_IMAGE030
表示的含义是,当系数取值为
Figure 397378DEST_PATH_IMAGE009
时,重要性得分取值落在以下区间的概率为
Figure 426514DEST_PATH_IMAGE010
Figure 73527DEST_PATH_IMAGE031
式中,
Figure 820903DEST_PATH_IMAGE032
为重要性得分最大值;即有
Figure 375513DEST_PATH_IMAGE010
的重要性得分大于等于
Figure 259155DEST_PATH_IMAGE013
的数据 特征被保留,
Figure 342649DEST_PATH_IMAGE033
的重要性得分小于
Figure 311742DEST_PATH_IMAGE003
的数据特征被剔除;系数
Figure 138883DEST_PATH_IMAGE009
及相应的
Figure 142611DEST_PATH_IMAGE010
应根据实际 应用中重要性取值分布情况进行调整;系数
Figure 397006DEST_PATH_IMAGE009
常用的取值有整数[1,2,3]。
步骤(4):对保留下来的特征数据,计算两两特征之间的最大互信息系数,根据最大互信息系数取值分布情况,按实际需求选取阈值;将最大互信息系数大于阈值的两个特征,删除重要性得分小的那个特征,即去除重复冗余特征;具体过程如下:
4.1)对步骤3.4)中保留下来的特征数据,将任意两两特征进行组合,组合数量为C;
4.2)将组合中的特征之间的关系离散在二维空间中,并使用散点图来表示;
4.3)将二维空间在X,Y方向分别划分为一定的区间数,穷举所有的划分尺度;对划分尺度进行约束,即对在X,Y方向上的划分格子个数(b x b y ),对任意的b x b y 满足:
Figure 853396DEST_PATH_IMAGE015
其中b max 表示在X,Y方向上的划分格子个数的乘积的最大值,N为样本数量,b max 设置为样本数量的0.6次方;计算出所有划分尺度数为P;
4.4)对所有的划分尺度数P遍历每个划分尺度即划分格子个数(b x b y )的所有网格化划分方案,分别计算各个划分方案的互信息值,求出互信息值的最大值为最大化信息值MI,并对最大互信息值进行归一化,得到MI norm ;具体步骤如下:
a)对所有的
Figure 280966DEST_PATH_IMAGE018
划分方案,Q为所有可能的划分方案数,分别计算方案
Figure 14567DEST_PATH_IMAGE019
的互信息值,
Figure 830076DEST_PATH_IMAGE020
,划分方案将网格划分成多个分区,方案
Figure 649127DEST_PATH_IMAGE019
的互信息值用散点落在 各个网格中的联合概率来计算,计算公式为:
Figure 942705DEST_PATH_IMAGE034
其中,
Figure 530813DEST_PATH_IMAGE035
即为散点同时落在某个分区中的概率,
Figure 517223DEST_PATH_IMAGE023
即为散点落在某分区水平方 向网格的概率,
Figure 823571DEST_PATH_IMAGE024
即为散点落在某分区垂直方向网格的概率,
Figure 920840DEST_PATH_IMAGE025
即为对散点落在各个 分区X,Y方向做积分;
b)求所有划分方案互信息值的最大值,得出最大互信息值MI;
c)对最大互信息值MI进行归一化;归一化公式:
Figure 97874DEST_PATH_IMAGE026
其中,
Figure 255186DEST_PATH_IMAGE027
即为当前划分尺度在X,Y方向上的划分格子个数b x b y 的最小值。
4.5)计算出每个划分尺度的MI norm ,选择MI norm 值的最大值为最大互信息系数MIC;
4.6)重复步骤4.2)~4.5),分别计算出C个两两特征组合的最大互信息系数MIC;若大的 MIC 取值范围是a1~1.0,小的MIC取值范围是0~a2,则将阈值
Figure 48830DEST_PATH_IMAGE016
设置为a1,最大互信息系数 MIC大于
Figure 949790DEST_PATH_IMAGE017
的删除重要性小的那个特征。
步骤(5):重新构建数据;将步骤(4)最终保留下来的混合特征数据和交通流量数据组合成数据集;对交通流量数据做归一化,并将重新构建的数据按8:2的比例划分成训练集和测试集。
步骤(6):构建基于GRU的交通流量预测模型,将步骤(5)构建的数据集中的特征数据和历史交通流量数据作为模型的输入,模型的输出为相应的要预测的交通流量数据;具体步骤如下:
6.1)模型的输入维度即为特征数据和历史流量数据的综合维度H;
6.2)模型的输出维度即为要预测的K个时间点的流量数据的维度K;
6.3)构建基于GRU时序预测模型,模型层数为N_layers,隐藏层个数为N_hidden_units,输入维度为H,输出维度为K;基于GRU的时序预测模型的第一层输入为历史交通流量数据,将隐藏层最后一层最后一个step的输出序列和输入特征数据序列进行拼接,并添加一层神经元个数为N_fc_units全连接层,最后输出层大小即为预测的K个时间点的流量数据的维度大小K。
6.4)设计模型损失函数为L2损失函数,优化器为Adam优化器;
6.5)训练预测模型使模型损失函数最小,反复迭代直至模型完全收敛,同时根据测试集测试性能优化模型超参数;
6.6)使用训练好的模型对实际道路未来K个时间点的交通流量进行预测。
本发明的具体应用实施例:本发明采集G92高速连续6个卡口双向交通流量数据作为研究对象,采集了2020年3月份至5月份的带时间戳的交通流量数据和交通态势数据。本次应用举例的交通流量数据为卡口通过的车流量数据,车流量数据的采样时间间隔为5分钟,时间特征数据为预测的第一个时间点的时间戳,交通态势数据为是否发生交通事故、事故等级、拥堵程度以及拥堵持续时长。车流量预测模型预测未来15分钟、30分钟、60分钟、120分钟共四个时间点的车流量数据。
具体实施过程如下:
1)将混合特征数据中的时间特征数据和交通态势特征数据进行分解和向量化,向量化可提升后续特征挖掘效率;
2)计算分解后的数据特征的重要性,将重要性小于设定阈值
Figure 246910DEST_PATH_IMAGE003
的特征去除,
Figure 575123DEST_PATH_IMAGE003
设置 为:
Figure 590484DEST_PATH_IMAGE036
即此次,重要性得分平均数为μ,重要性得分方差为
Figure 295135DEST_PATH_IMAGE029
,系数
Figure 712341DEST_PATH_IMAGE009
取值设置为1,重要性得分 大于等于
Figure 211455DEST_PATH_IMAGE003
的数据特征被保留,重要性得分小于
Figure 702393DEST_PATH_IMAGE003
的数据特征被剔除。
3)对保留下来的数据特征,计算两两数据特征之间的最大互信息系数,计算得出MIC取值分布分两个阶段,较大的取值范围是0.91~1.0,较小的MIC取值范围是0~0.35,则可以将阈值
Figure 679576DEST_PATH_IMAGE016
设置为0.91,即两两特征间的MIC大于等于0.91时,删除重要性较小的那个特征。
4)将保留下来的特征数据和车流量数据组合成数据集,按8:2比例划分成训练集和测试集。
5)模型输入输出构成如图3所示,输入包括历史流量数据和特征数据,输出为预测流量数据。特征数据维度为54(注意这里是特征向量化后的维度)。历史流量数据为连续采样的96个车流量数据,维度为96。输出维度为要预测的未来15分钟、30分钟、60分钟、120分钟共四个时间点的车流量数据,维度为4。采用标准归一化方法对车流量数据进行归一化。
6)构建GRU交通流量预测模型,第一层输入维度大小为96,输出维度大小为4,模型层数N_layers设置为4,隐藏层个数N_hidden_units设置为256,最后一层最后一个step拼接的特征数据维度大小为54,全连接层神经元个数N_fc_units设置为512。损失函数为L2损失函数,优化器为Adam优化器,初始学习率为0.02。搭建基于TensorFlow的网络模型,使用训练数据训练模型反复迭代直至模型完全收敛。
7)将训练好的模型使用tensor sever部署在云服务器端,对G92高速路段卡口的流量进行实时预测,预测精准度相比无混合特征数据的预测模型提升了4.94%,且模型在只搭载了CPU的服务器端的平均运行时长为16毫秒。
可以观察到本发明构建的模型在提高了预测精准度的同时,具有优秀的实时性能,在实际工程中为实现高精度高实时性的交通流量预测带来重大效益。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (6)

1.一种基于混合特征挖掘的交通流量预测方法,其特征在于,该方法包括以下步骤:
步骤(1):构建多维初始化原始数据;
初始化原始数据由多维数据组成,包括交通流量数据和混合特征数据,所述交通流量数据为车流量或车速数据;所述混合特征数据包括时间数据和交通态势数据;多维数据中,假设某个当前时间点是T,预测T+t 1, T+t 2,…, T+t K的K个时间点的交通流量,则多维数据具体获取方式如下:
1.1)交通流量数据为T时刻之前的Y个小时的历史数据和相应的预测T+t 1, T+t 2,…, T +t K的K个时间点的交通流量数据;历史数据的采样时间间隔均匀,时间间隔为
Figure 291134DEST_PATH_IMAGE001
,采样交通 流量数据量为
Figure 739433DEST_PATH_IMAGE002
1.2)所述混合特征数据,其中时间数据与要预测的未来交通流量的时间点T+t i 相关,为对应的具体时间戳,1≤i≤K,且为整数;交通态势数据反映道路状况,为采样历史Y小时时间内是否发生交通事故、事故等级、拥堵程度以及拥堵持续时长;
步骤(2):解析步骤(1)中得到的混合特征数据,并将解析后的特征数据向量化;具体步骤如下:
2.1)对混合特征数据中的时间数据进行分解;将时间数据分解为离散值数据特征;
2.2)将交通态势特征数据分解为离散值数据特征和拥挤持续时长的连续值数据特征,所述离散值数据特征包括是否发生交通事故、事故等级和拥堵程度;
2.3)将分解后的数据特征向量化,对连续值数据特征进行标准化,均值为0,方差为1,离散值数据特征独热化one-hot编码,此处特征向量化能够提升特征挖掘效率;
步骤(3):计算分解并向量化后的特征数据的重要性,将重要性小于设定阈值
Figure 925695DEST_PATH_IMAGE003
的特 征去除,具体步骤如下:
3.1)采用简单纯随机抽样方法,将所有数据作为总样本,从M个总样本中不重复抽样出N个样本,使得抽样样本随机包含分解并向量化后的特征数据;N值范围为:
Figure 852062DEST_PATH_IMAGE004
3.2)使用抽样出的N个样本数据构建最大深度为D的提升树tree booster,深度D根据样本数据量大小和各个特征数据的取值特点进行调整;
3.3)分别计算每一个特征数据在提升树中的重要性;使用重要性指标total_gain,即根据某特征数据在每次分裂节点带来的总增益,计算该特征数据的重要性得分;
3.4)将数据特征按步骤3.3)中计算得到的重要性得分排序,去除重要性得分小于阈值
Figure 72959DEST_PATH_IMAGE003
的特征数据,
Figure 426580DEST_PATH_IMAGE003
设置方法如下:
设重要性得分平均数为μ,重要性得分方差为
Figure 100138DEST_PATH_IMAGE005
x j 为第j个特征数据的重要性得分,0≤j≤总特征数据数J,则有:
Figure 830197DEST_PATH_IMAGE006
Figure 905600DEST_PATH_IMAGE007
Figure 430122DEST_PATH_IMAGE003
设置为,
Figure 590977DEST_PATH_IMAGE008
其中系数
Figure 859147DEST_PATH_IMAGE009
表示的含义是,当系数取值为
Figure 789057DEST_PATH_IMAGE010
时,重要性得分取值落在以下区间的概率为
Figure DEST_PATH_IMAGE011
Figure 156584DEST_PATH_IMAGE012
式中,
Figure 929368DEST_PATH_IMAGE013
为重要性得分最大值;即有
Figure 611016DEST_PATH_IMAGE011
的重要性得分大于等于
Figure 785646DEST_PATH_IMAGE003
的数据特 征被保留,
Figure 527337DEST_PATH_IMAGE014
的重要性得分小于
Figure 787417DEST_PATH_IMAGE003
的数据特征被剔除;系数
Figure 272756DEST_PATH_IMAGE010
及相应的
Figure 301892DEST_PATH_IMAGE011
应根据实际应 用中重要性取值分布情况进行调整;
步骤(4):对保留下来的特征数据,计算两两特征之间的最大互信息系数,根据最大互信息系数取值分布情况,按实际需求选取阈值;将最大互信息系数大于阈值的两个特征,删除重要性得分小的那个特征,即去除重复冗余特征;
步骤(5):重新构建数据;将步骤(4)最终保留下来的混合特征数据和交通流量数据组合成数据集;
步骤(6):构建基于GRU的交通流量预测模型,将步骤(5)构建的数据集中的特征数据和历史交通流量数据作为模型的输入,模型的输出为相应的要预测的交通流量数据;具体步骤如下:
6.1)模型的输入维度即为特征数据和历史流量数据的综合维度H;
6.2)模型的输出维度即为要预测的K个时间点的流量数据的维度K;
6.3)构建基于GRU时序预测模型,模型层数为N_layers,隐藏层个数为N_hidden_units,输入维度为H,输出维度为K;
6.4)设计模型损失函数为L2损失函数,优化器为Adam优化器;
6.5)训练预测模型使模型损失函数最小,反复迭代直至模型完全收敛,同时根据测试集测试性能优化模型超参数;
6.6)使用训练好的模型对实际道路未来K个时间点的交通流量进行预测。
2.根据权利要求1所述的一种基于混合特征挖掘的交通流量预测方法,其特征在于,步骤2.1)中,将时间数据分解为离散值数据特征,具体包括年、月、日、小时、分钟、秒钟、年度第几周、年度第几天、本月第几周、本月第几天、星期几、第几季度和一天中的时间段,所述一天中的时间段包括凌晨、早晨、上午、中午、下午、傍晚、晚上和深夜。
3.根据权利要求1所述的一种基于混合特征挖掘的交通流量预测方法,其特征在于,步骤(4)具体过程如下:
4.1)对步骤3.4)中保留下来的特征数据,将任意两两特征进行组合,组合数量为C;
4.2)将组合中的特征之间的关系离散在二维空间中,并使用散点图来表示;
4.3)将二维空间在X,Y方向分别划分为一定的区间数,穷举所有的划分尺度;对划分尺度进行约束,即对在X,Y方向上的划分格子个数(b x b y ),对任意的b x b y 满足:
Figure 480063DEST_PATH_IMAGE015
其中b max 表示在X,Y方向上的划分格子个数的乘积的最大值,N为样本数量,b max 设置为样本数量的0.6次方;计算出所有划分尺度数为P;
4.4)对所有的划分尺度数P遍历每个划分尺度即划分格子个数(b x b y )的所有网格化划分方案,分别计算各个划分方案的互信息值,求出互信息值的最大值为最大化信息值MI,并对最大互信息值进行归一化,得到MI norm
4.5)计算出每个划分尺度的MI norm ,选择MI norm 值的最大值为最大互信息系数MIC;
4.6)重复步骤4.2)~4.5),分别计算出C个两两特征组合的最大互信息系数MIC;若大的 MIC 取值范围是a1~1.0,小的MIC取值范围是0~a2,则将阈值
Figure 696281DEST_PATH_IMAGE016
设置为a1,最大互信息系数 MIC大于
Figure 250890DEST_PATH_IMAGE016
的删除重要性小的那个特征。
4.根据权利要求3所述的一种基于混合特征挖掘的交通流量预测方法,其特征在于,步骤4.4)具体步骤如下:
a)对所有的
Figure 134533DEST_PATH_IMAGE017
划分方案,Q为所有可能的划分方案数,分别计算方案
Figure 483606DEST_PATH_IMAGE018
的互信息值,
Figure 452699DEST_PATH_IMAGE019
,划分方案将网格划分成多个分区,方案
Figure 14261DEST_PATH_IMAGE018
的互信息值用散点落在 各个网格中的联合概率来计算,计算公式为:
Figure 17989DEST_PATH_IMAGE020
其中,
Figure 803542DEST_PATH_IMAGE021
即为散点同时落在某个分区中的概率,
Figure 259932DEST_PATH_IMAGE022
即为散点落在某分区水平方向 网格的概率,
Figure 625185DEST_PATH_IMAGE023
即为散点落在某分区垂直方向网格的概率,
Figure 217840DEST_PATH_IMAGE024
即为对散点落在各个分 区X,Y方向做积分;
b)求所有划分方案互信息值的最大值,得出最大互信息值MI;
c)对最大互信息值MI进行归一化;归一化公式:
Figure 908716DEST_PATH_IMAGE025
其中,
Figure 852401DEST_PATH_IMAGE026
即为当前划分尺度在X,Y方向上的划分格子个数b x b y 的最小值。
5.根据权利要求1所述的一种基于混合特征挖掘的交通流量预测方法,其特征在于,步骤(5)中,对交通流量数据做归一化,并将重新构建的数据按8:2的比例划分成训练集和测试集。
6.根据权利要求1所述的一种基于混合特征挖掘的交通流量预测方法,其特征在于,步骤(6.3)中,构建基于GRU的时序预测模型,第一层输入为历史交通流量数据,将隐藏层最后一层最后一个step的输出序列和输入特征数据序列进行拼接,并添加一层神经元个数为N_fc_units全连接层,最后输出层大小即为预测的K个时间点的流量数据的维度大小K。
CN202010603955.1A 2020-06-29 2020-06-29 一种基于混合特征挖掘的交通流量预测方法 Active CN111508240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010603955.1A CN111508240B (zh) 2020-06-29 2020-06-29 一种基于混合特征挖掘的交通流量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010603955.1A CN111508240B (zh) 2020-06-29 2020-06-29 一种基于混合特征挖掘的交通流量预测方法

Publications (2)

Publication Number Publication Date
CN111508240A true CN111508240A (zh) 2020-08-07
CN111508240B CN111508240B (zh) 2020-09-22

Family

ID=71877232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010603955.1A Active CN111508240B (zh) 2020-06-29 2020-06-29 一种基于混合特征挖掘的交通流量预测方法

Country Status (1)

Country Link
CN (1) CN111508240B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591413A (zh) * 2021-08-10 2021-11-02 南通大学 一种基于鸣笛效应下连续通量差的改良交通流分析方法
CN114118633A (zh) * 2022-01-26 2022-03-01 之江实验室 一种基于先行关系的指标自优化预测方法及装置
CN114579643A (zh) * 2022-05-05 2022-06-03 国家邮政局邮政业安全中心 快递业务量预测方法、装置及电子设备
CN115017990A (zh) * 2022-06-01 2022-09-06 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种交通流量预测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075376A (zh) * 2006-05-19 2007-11-21 北京微视新纪元科技有限公司 基于多视点的智能视频交通监控系统及方法
CN103258427A (zh) * 2013-04-24 2013-08-21 北京工业大学 基于信息物理网络的城市快速路交通实时监控系统与方法
CN103593535A (zh) * 2013-11-22 2014-02-19 南京洛普股份有限公司 基于多尺度融合的城市交通复杂自适应网络平行仿真系统及方法
CN104599500A (zh) * 2015-01-14 2015-05-06 南京信息工程大学 基于灰熵分析和改进贝叶斯融合的交通流预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075376A (zh) * 2006-05-19 2007-11-21 北京微视新纪元科技有限公司 基于多视点的智能视频交通监控系统及方法
CN103258427A (zh) * 2013-04-24 2013-08-21 北京工业大学 基于信息物理网络的城市快速路交通实时监控系统与方法
CN103593535A (zh) * 2013-11-22 2014-02-19 南京洛普股份有限公司 基于多尺度融合的城市交通复杂自适应网络平行仿真系统及方法
CN104599500A (zh) * 2015-01-14 2015-05-06 南京信息工程大学 基于灰熵分析和改进贝叶斯融合的交通流预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王天明 等: "卷积深度人工神经网络在城市交通流量预测中的应用", 《电脑编程技巧与维护》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591413A (zh) * 2021-08-10 2021-11-02 南通大学 一种基于鸣笛效应下连续通量差的改良交通流分析方法
CN114118633A (zh) * 2022-01-26 2022-03-01 之江实验室 一种基于先行关系的指标自优化预测方法及装置
CN114579643A (zh) * 2022-05-05 2022-06-03 国家邮政局邮政业安全中心 快递业务量预测方法、装置及电子设备
CN115017990A (zh) * 2022-06-01 2022-09-06 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种交通流量预测方法、装置、设备及存储介质
CN115017990B (zh) * 2022-06-01 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种交通流量预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111508240B (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN111508240B (zh) 一种基于混合特征挖掘的交通流量预测方法
CN111161535B (zh) 基于注意力机制的图神经网络交通流量预测方法及系统
CN111260249B (zh) 一种基于lstm和随机森林混合模型的电力通信业务可靠性评估预测方法及装置
CN109711636A (zh) 一种基于混沌萤火虫与梯度提升树模型的河流水位预测方法
CN110517482B (zh) 一种基于3d卷积神经网络的短时交通流预测方法
CN111898820B (zh) 基于趋势聚类和集成树的pm2.5小时浓度组合预测方法及系统
CN103150611A (zh) Ii型糖尿病发病概率分层预测方法
CN111292534A (zh) 一种基于聚类与深度序列学习的交通状态估计方法
CN105740643A (zh) 一种基于城市区域网格自适应的pm2.5浓度推测方法
CN115906675B (zh) 基于时序多目标预测模型的井位及注采参数联合优化方法
CN113255986A (zh) 一种基于气象信息和深度学习算法的多步日径流预报方法
CN111145535B (zh) 一种复杂场景下的行程时间可靠性分布预测方法
CN112149922A (zh) 高速公路隧道下行线出入口区域事故严重程度预测方法
CN111723990B (zh) 基于双向长短期记忆神经网络的共享单车流量预测方法
CN111860621B (zh) 一种数据驱动的分布式交通流量预测方法及系统
CN114781704B (zh) 一种基于过站航班保障流程的航班延误预测方法
CN115269758A (zh) 面向乘客诱导的路网客流状态推演方法及系统
Maliyeckel et al. A comparative study of lgbm-svr hybrid machine learning model for rainfall prediction
Cui et al. Enhancing robustness of gradient-boosted decision trees through one-hot encoding and regularization
CN112070129B (zh) 地面沉降风险识别方法、装置以及系统
Helmud et al. Classification Comparison Performance of Supervised Machine Learning Random Forest and Decision Tree Algorithms Using Confusion Matrix
CN115906669A (zh) 一种顾及负样本选取策略的密集残差网络滑坡易发性评价方法
CN116384814A (zh) 基于机器学习对多因素影响下机场跑道容量的评估方法
CN112967495A (zh) 一种基于移动轨迹大数据的短时交通流量预测方法及系统
Prakash et al. Comparative Analysis using K-Nearest Neighbour with Artificial Neural Network to Improve Accuracy for Predicting Road Accidents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant