CN110083802B - 基于多目标回归的高速公路收费站车流量大数据预测方法 - Google Patents

基于多目标回归的高速公路收费站车流量大数据预测方法 Download PDF

Info

Publication number
CN110083802B
CN110083802B CN201910293785.9A CN201910293785A CN110083802B CN 110083802 B CN110083802 B CN 110083802B CN 201910293785 A CN201910293785 A CN 201910293785A CN 110083802 B CN110083802 B CN 110083802B
Authority
CN
China
Prior art keywords
target
equal
data
toll station
traffic flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910293785.9A
Other languages
English (en)
Other versions
CN110083802A (zh
Inventor
王进
高选人
孙开伟
许景益
邓欣
陈乔松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910293785.9A priority Critical patent/CN110083802B/zh
Publication of CN110083802A publication Critical patent/CN110083802A/zh
Application granted granted Critical
Publication of CN110083802B publication Critical patent/CN110083802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Devices For Checking Fares Or Tickets At Control Points (AREA)

Abstract

本发明请求保护一种基于多目标回归的高速公路收费站车流量大数据预测方法,包括:101对数据进行预处理操作;102对数据进行打标操作;103对数据进行特征工程构建操作;104构建一种结合目标特定特征和目标相关性的多目标回归模型;105通过已建立的模型,根据收费站历史车流量数据、天气数据等信息,预测收费站8点到10点每20分钟的车流量。本发明主要是通过对收费站历史车流量数据、天气数据等信息进行预处理和分析提取特征,建立一种结合目标特定特征和目标相关性的多目标回归模型,预测收费站8点到10点每20分钟的车流量,从而使交通管理部门能够利用大数据及时采取措施减少收费站的拥堵。

Description

基于多目标回归的高速公路收费站车流量大数据预测方法
技术领域
本发明属于机器学习、大数据处理技术领域,尤其基于多目标回归的高速公路收费站车流量大数据预测方法。
背景技术
高速公路收费站是交通网络中众所周知的瓶颈。在高峰时段,收费站排长队可能会压倒交通管理部门。采用有效的先发制人对策来解决这一问题非常有必要。这些对策包括加快收费过程、临时开放更多车道、自适应地调整交通信号等等。但是想要采取这些措施,交通管理部门必须要收到对未来车流量的可靠预测。这些流量不仅仅是一个时段,而是多个时段。这是一个典型的多目标回归问题,因此发明一种基于多目标回归的高速公路收费站车流量大数据预测方法,同时考虑到目标特定特征和目标间相关性,更准确地预测未来车流量。
现有技术未考虑到多目标回归,只是分别为每个目标建模。每个目标对应的特征是相同的,无法为每个目标构建目标特定特征,也没有考虑到目标间的相关性。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于多目标回归的高速公路收费站车流量大数据预测方法。本发明的技术方案如下:
一种基于多目标回归的高速公路收费站车流量大数据预测方法,其包括以下步骤:
101.对历史车流量数据和天气数据进行包括清洗异常值在内的预处理操作;
102.获取8点到10点累计20分钟的总车流量,对20分钟的总车流量求和作为对数据进行的打标操作;
103.对数据进行特征工程构建操作从而得到最终的训练集和测试集,特征工程主要采用特征群的方法构建流量特征群、时间特征群、天气特征群、离散特征群、交叉特征群;
104.构建结合目标特定特征和目标相关性的多目标回归模型;在多目标回归模型中,需要对每个目标构建其特定特征从而更好地区别每个目标,但同时,目标间是存在相互关联的,所以需要考虑目标相关性关联每个目标,结合了目标特定特征和目标相关性才能更全面地学习到数据中所包含的信息;
105.通过已建立的模型,根据收费站历史车流量数据、天气数据信息,预测8点到10点两小时每20分钟的车流量。
进一步的,所述步骤101历史车流量数据包括收费站ID、收费站容量等级、收费站是否使用电子收费系统、车辆通过该收费站的方向、车辆通过该收费站的时间点、该车辆是客车还是货车,所述天气数据包括日期、小时、大气压、海平面压力、风向、风速、温度、相对湿度、降雨量。
进一步的,所述步骤101预处理操作包括:
对异常值进行清洗,国庆期间车流量明显增大,属于异常数据,删除国庆期间的样本.
进一步的,所述步骤102累计20分钟的总车流量对数据进行打标操作,具体为累加8点到10点两小时每20分钟的车流量,构造6个目标。
进一步的,所述步骤103特征工程构建包括构建流量特征群、时间特征群、天气特征群、离散特征群、交叉特征群。
进一步的,所述流量特征群包括:7天历史车流量、6点到8点的车流量,以及车流量的均值、方差、中位数、最值在内的统计特征;
所述时间特征群包括:预测当天是周几,是否为周末,是当天的第几小时;
所述天气特征群包括:大气压、海平面压力、风向、风速、温度、相对湿度、降雨量;
所述离散特征群包括:收费站ID、车辆通过收费站的方向、当天是周几、当天的第几个小时进行one-hot离散;
所述交叉特征群包括:上述特征群的两两交叉,
进一步的,所述步骤104构建一种结合目标特定特征和目标相关性的多目标回归模型,具体包括:
给定训练样本集D={(x1,y1),(x2,y2),...,(xn,yn)},即
Figure BDA0002025801590000031
表示训练样本集D有n条样本,d维特征,6个目标;其中,(x1,y1)表示第1条样本,x1表示第1条样本的特征向量,y1表示第1条样本的目标向量,…,(xn,yn)表示第n条样本,xn表示第n条样本的特征向量,yn表示第n条样本的目标向量;
原始特征矩阵X=(x1,x2,...,xn)T,即
Figure BDA0002025801590000032
其中xi=(xi1,xi2,...,xid)T表示第i个样本的原始特征,1≤i≤n;X·,j=(x1j,x2j,...,xnj)T表示第j个原始特征列,1≤j≤d;
目标矩阵Y=(y1,y2,...,yn)T,即
Figure BDA0002025801590000033
其中yi=(流量i1,流量i2,…,流量i6)T表示第i个样本的目标,1≤i≤n;Y·,j=(流量1j,流量2j,...,流量nj)T表示第j个目标列,1≤j≤6。
进一步的,步骤104考虑目标特定特征的具体步骤为:
①对原始特征进行归一化得到
Figure BDA0002025801590000034
构成归一化后的训练样本集
Figure BDA0002025801590000035
对每个目标Y·,j,以数据集Dj′={(X′,Y·,j)}作为输入进行kmeans聚类,其中1≤j≤6,2≤K≤20。即从2到20之间找到最佳聚类簇数bestk
②对每个目标Y·,j,以数据集Dj′={(X′,Y·,j)}作为输入进行kmeans聚类,其中1≤j≤6,K=bestk。由此数据集Dj′被聚为bestk个类,即:
Figure BDA0002025801590000041
其中
Figure BDA0002025801590000042
1≤K≤bestk,表示第K个簇中特征归一化后的所有样本,对应的特征归一化前的所有样本表示为
Figure BDA0002025801590000043
X′K表示第K个簇中所有样本归一化后的特征,对应的归一化前的原始特征则表示为XK
③对
Figure BDA0002025801590000044
进行kmeans聚类,聚为k类:
Figure BDA0002025801590000045
其中1≤K≤bestk,ratio是模型的参数,用以控制目标特定特征的规模,设定为0<ratio≤1,由此
Figure BDA0002025801590000046
进行kmeans聚类后得到k个中心点:
centersjK=(CjK 1,CjK 2,...,CjK k)T
其中CjK q=(CjK1 q,CjK2 q,...,CjKd q)T表示DjK的第q个中心点,1≤q≤k
由此数据集Dj={(X,Y·,j)}就得到了s个中心点centersj,其中s=bestk*k,有
Figure BDA0002025801590000047
即:
Figure BDA0002025801590000051
简化为
Figure BDA0002025801590000052
④对于数据集Dj={(X,Y·,j)},计算X与centersj的欧式距离得到s个目标特定特征Xsp j=(xsp j1,xsp j2,...,xsp jn)T
第i个样本的目标特定特征为xsp ji=(xsp ji1,xsp ji2,...,xsp jia)T,对于其第t个分量,即第i个样本的第t个目标特定特征值,有
Figure BDA0002025801590000053
其中1≤i≤n,1≤t≤s。Cjtd表示第j个目标的第t个聚类中心点的第d个元素;
进一步的,步骤104训练过程所述考虑目标间相关性的具体步骤为:
①对数据集Dj={(X,Y·,j)},训练模型fj(X)≈Y·,j。其中1≤j≤6;
②计算Y·,j与Y·,~j的相关性,给定阈值tkreshold,算出与Y·,j的相关性大于threshold的目标值集合Y·,c,即
Y·,c={y|corr(Y·,j,Y·,~j)>threshold}
其中threshold=0.7。
③调用模型fj,得到Y·,c的预测值矩阵为
Figure BDA0002025801590000061
进一步的,所述结合目标特定特征和目标间相关性的具体步骤为:
对数据集Dj={(X,Y·,j)},训练模型
Figure BDA0002025801590000062
对新样本xnew=(xnew1,xnew2,...,xnewd)T,首先根据中心点centersj算出其目标特定特征,即
xnew sp j=(xnew sp j1,xnew sp j2,...,xnew sp jd)T
对于其第t个分量,即第t个目标特定特征值,有
Figure BDA0002025801590000063
其中1≤i≤n,1≤t≤s;
再调用模型fj,得到Y·,c的预测值矩阵为
Figure BDA0002025801590000064
最后调用模型fj′,得到新样本xnew的第j个目标的预测值为
Figure BDA0002025801590000065
本发明的优点及有益效果如下:
本发明弥补了传统机器学习算法无法完全考虑到多个目标,也就是多个时段车流量的差异以及关联的问题。突出的创新点在于:
①采用分特征群的方式提取特征,使特征提取得更全面;
②预测收费站车流量时考虑到了天气因素,更符合现实场景,使预测更为准确;
③提出一种多目标回归算法,更好地解决了多个时段车流量的预测问题;
④提出的多目标回归算法同时考虑到了目标特定特征和目标间关联性,很好地学习到了目标间的差异以及联系;
⑤现有方法对于每个目标都使用同一套特征,本发明通过无监督学习,对每个目标进行划分,找到每个目标下每个划分的代表性样本点,从而通过计算原始样本与代表性样本点的距离找到每个目标的特定特征;
⑥现有方法未考虑到目标间的相关性,本发明通过计算相关系数,找到了每个目标相关的目标预测值,进一步挖掘出了数据所包含的信息。
附图说明
图1是本发明提供优选实施例一种基于多目标回归的高速公路收费站车流量大数据预测方法的流程图;
图2为本发明实施例一种基于多目标回归的高速公路收费站车流量大数据预测方法中的考虑目标特定特征的多目标回归算法的流程图;
图3为本发明实施例一种基于多目标回归的高速公路收费站车流量大数据预测方法中的考虑目标间相关性的多目标回归算法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
参考图1,图1为本发明实施例一提供一种基于多目标回归的高速公路收费站车流量大数据预测方法的流程图,具体包括:
101.收集历史车流量数据和天气数据并对数据进行预处理操作:收集历史车流量数据、天气数据,具体如下:
收集历史车流量数据包括收费站ID、收费站容量等级、收费站是否使用电子收费系统、车辆通过该收费站的方向、车辆通过该收费站的时间点、该车辆是客车还是货车。
Figure BDA0002025801590000071
Figure BDA0002025801590000081
表1 历史车流量数据
收集天气数据包括日期、小时、大气压、海平面压力、风向、风速、温度、相对湿度、降雨量。
Filed Type Description
date date 日期
hour int 小时
pressure float 大气压
sea_pressure float 海平面压力
wind_direction float 风向
wind_speed float 风速
temperature float 温度
rel_humidity float 相对湿度
precipitation float 降雨量
表2 天气数据
数据预处理包括历史车流量数据和天气数据的处理,根据两个数据表的描述以及物理理解进行如下处理:
对异常值进行清洗,国庆期间车流量明显增大,属于异常数据,删除国庆期间的样本;
102.累计20分钟的总车流量,对数据进行打标操作:具体为累加8点到10点两小时每20分钟的车流量,构造6个目标。
103.对训练集和测试集进行特征工程构建操作:包括流量特征群、时间特征群、天气特征群、离散特征群、交叉特征群。
①流量特征群:7天历史车流量、6点到8点的车流量,以及车流量的均值、方差、中位数、最值等统计特征;
②时间特征群:预测当天是周几,是否为周末,是当天的第几小时;
③天气特征群:大气压、海平面压力、风向、风速、温度、相对湿度、降雨量;
④离散特征群:收费站ID、车辆通过收费站的方向、当天是周几、当天的第几个小时进行one-hot离散;
⑤交叉特征群:上述特征群的两两交叉,例如流量特征群与时间特征群交叉,可以得到周末的车流量,周一到周末的车流量。
104.构建一种结合目标特定特征和目标相关性的多目标回归模型:给定训练样本集D={(x1,y1),(x2,y2),...,(xn,yn)},即
Figure BDA0002025801590000091
表示训练样本集D有n条样本,d维特征,6个目标。
原始特征矩阵X=(x1,x2,...,xn)T,即
Figure BDA0002025801590000092
其中xi=(xi1,xi2,...,xid)T表示第i个样本的原始特征,1≤i≤n;X·,j=(x1j,x2j,...,xnj)T表示第j个原始特征列,1≤j≤d。
目标矩阵Y=(y1,y2,...,yn)T,即
Figure BDA0002025801590000093
其中yi=(yi1,yi2,...,yim)T表示第i个样本的目标,1≤i≤n;Y·,j=(y1j,y2j,...,ynj)T表示第j个目标列,1≤j≤6。
①考虑目标特定特征的具体步骤为:
(1)对原始特征进行归一化得到
Figure BDA0002025801590000101
构成归一化后的训练样本集
Figure BDA0002025801590000102
对每个目标Y·,j,以数据集Dj′={(X′,Y·,j)}作为输入进行kmeans聚类,其中1≤j≤6,2≤K≤20。即从2到20之间找到最佳聚类簇数bestk
(2)对每个目标Y·,j,以数据集Dj′={(X′,Y·,j)}作为输入进行kmeans聚类,其中1≤j≤6,K=bestk。由此数据集Dj′被聚为bestk个类,即:
Figure BDA0002025801590000103
其中
Figure BDA0002025801590000104
1≤K≤bestk,表示第K个簇中特征归一化后的所有样本,对应的特征归一化前的所有样本表示为
Figure BDA0002025801590000105
X′K表示第K个簇中所有样本归一化后的特征,对应的归一化前的原始特征则表示为XK
(3)对
Figure BDA0002025801590000106
进行kmeans聚类,聚为k类:
Figure BDA0002025801590000107
其中1≤K≤bestk,ratio是模型的参数,用以控制目标特定特征的规模,设定为0<ratio≤1。由此
Figure BDA0002025801590000108
进行kmeans聚类后得到k个中心点:
centersjK=(CjK 1,CjK 2,...,CjK k)T
其中CjK q=(CjK1 q,CjK2 q,...,CjKd q)T表示
Figure BDA0002025801590000109
的第q个中心点,1≤q≤k
由此数据集Dj={(X,Y·,j)}就得到了s个中心点centersj,其中s=bestk*k,有
Figure BDA00020258015900001010
即:
Figure BDA0002025801590000111
简化为
Figure BDA0002025801590000112
(4)对于数据集Dj={(X,Y·,j)},计算X与centersj的欧式距离得到s个目标特定特征Xsp j=(xsp j1,xsp j2,...,xsp jn)T
第i个样本的目标特定特征为xsp ji=(xsp ji1,xsp ji2,...,xsp jid)T,对于其第t个分量,即第i个样本的第t个目标特定特征值,有
Figure BDA0002025801590000113
其中1≤i≤n,1≤t≤s。
②考虑目标间相关性的具体步骤为:
(1)对数据集Dj={(X,Y·,j)},训练模型fj(X)≈Y·,j。其中1≤j≤m。
(2)计算Y·,j与Y·,~j的相关性,给定阈值threshold,算出与Y·,j的相关性大于threshold的目标值集合Y·,c,即
Y·,c={y|corr(Y·,j,Y·,~j)>threshold}
其中threshold=0.7。
(3)调用模型fj,得到Y·,c的预测值矩阵为
Figure BDA0002025801590000121
③结合目标特定特征和目标间相关性的具体步骤为:
对数据集Dj={(X,Y·,j)},训练模型
Figure BDA0002025801590000122
对新样本xnew=(xnew1,xnew2,...,xnewd)T,首先根据中心点centersj算出其目标特定特征,即
xnew sp j=(xnew sp j1,xnew sp j2,...,xnewsp jd)T
对于其第t个分量,即第t个目标特定特征值,有
Figure BDA0002025801590000123
其中1≤i≤n,1≤t≤s。
再调用模型fj,得到Y·,c的预测值矩阵为
Figure BDA0002025801590000124
最后调用模型fj′,得到新样本xnew的第j个目标的预测值为
Figure BDA0002025801590000125
105.通过已建立的模型,根据收费站历史车流量数据、天气数据等信息,预测8点到10点两小时每20分钟的车流量,MAPE达到0.08,从而使交通管理部门能够利用大数据及时采取措施减少收费站的拥堵。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,包括以下步骤:
101.对历史车流量数据和天气数据进行包括清洗异常值在内的预处理操作;
102.获取8点到10点累计20分钟的总车流量,对20分钟的总车流量求和作为对数据进行的打标操作;
103.对数据进行特征工程构建操作从而得到最终的训练集和测试集,特征工程采用特征群的方法构建流量特征群、时间特征群、天气特征群、离散特征群、交叉特征群;
104.构建结合目标特定特征和目标相关性的多目标回归模型;在多目标回归模型中,需要对每个目标构建其特定特征从而更好地区别每个目标,但同时,目标间是存在相互关联的,所以需要考虑目标相关性关联每个目标,结合了目标特定特征和目标相关性才能更全面地学习到数据中所包含的信息;
105.通过已建立的模型,根据收费站历史车流量数据、天气数据信息,预测8点到10点两小时每20分钟的车流量;
所述步骤104构建一种结合目标特定特征和目标相关性的多目标回归模型,具体包括:
给定训练样本集D={(x1,y1),(x2,y2),…,(xn,yn)},即
Figure FDA0003502857280000011
表示训练样本集D有n条样本,d维特征,6个目标;其中,(x1,y1)表示第1条样本,x1表示第1条样本的特征向量,y1表示第1条样本的目标向量,…,(xn,yn)表示第n条样本,xn表示第n条样本的特征向量,yn表示第n条样本的目标向量;
原始特征矩阵X=(x1,x2,…,xn)T,即
Figure FDA0003502857280000021
其中xi=(xi1,xi2,…,xid)T表示第i个样本的原始特征,1≤i≤n;X·,j=(x1j,x2j,…,xnj)T表示第j个原始特征列,1≤j≤d;
目标矩阵Y=(y1,y2,…,yn)T,即
Figure FDA0003502857280000022
其中yi=(流量i1,流量i2,…,流量i6)T表示第i个样本的目标,1≤i≤n;Y·,j=(流量1j,流量2j,…,流量nj)T表示第j个目标列,1≤j≤6;
步骤104考虑目标特定特征的具体步骤为:
①对原始特征进行归一化得到
Figure FDA0003502857280000023
构成归一化后的训练样本集
Figure FDA0003502857280000024
对每个目标Y·,j,以数据集Dj′={(X′,Y·,j)}作为输入进行kmeans聚类,其中1≤j≤6,2≤K≤20;即从2到20之间找到最佳聚类簇数bestk
②对每个目标Y·,j,以数据集Dj′={(X′,Y·,j)}作为输入进行kmeans聚类,其中1≤j≤6,K=bestk;由此数据集Dj′被聚为bestk个类,即:
Figure FDA0003502857280000025
其中
Figure FDA0003502857280000026
表示第K个簇中特征归一化后的所有样本,对应的特征归一化前的所有样本表示为
Figure FDA0003502857280000027
X′K表示第K个簇中所有样本归一化后的特征,对应的归一化前的原始特征则表示为XK
③对
Figure FDA0003502857280000028
进行kmeans聚类,聚为k类:
Figure FDA0003502857280000029
其中1≤K≤bestk,ratio是模型的参数,用以控制目标特定特征的规模,设定为0<ratio≤1,由此
Figure FDA0003502857280000031
进行kmeans聚类后得到k个中心点:
centersjK=(CjK 1,CjK 2,…,CjK k)T
其中CjK q=(CjK1 q,CjK2 q,…,CjKd q)T表示DjK的第q个中心点,1≤q≤k
由此数据集Dj={(X,Y·,j)}就得到了s个中心点centersj,其中s=bestk*k,有
Figure FDA0003502857280000032
即:
Figure FDA0003502857280000033
简化为
Figure FDA0003502857280000034
④对于数据集Dj={(X,Y·,j)},计算X与centersj的欧式距离得到s个目标特定特征Xsp j=(xsp j1,xsp j2,…,xsp jn)T
第i个样本的目标特定特征为xsp ji=(xsp ji1,xsp ji2,…,xsp jid)T,对于其第t个分量,即第i个样本的第t个目标特定特征值,有
Figure FDA0003502857280000041
其中1≤i≤n,1≤t≤s,Cjtd表示第j个目标的第t个聚类中心点的第d个元素。
2.根据权利要求1所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述步骤101历史车流量数据包括收费站ID、收费站容量等级、收费站是否使用电子收费系统、车辆通过该收费站的方向、车辆通过该收费站的时间点、该车辆是客车还是货车,所述天气数据包括日期、小时、大气压、海平面压力、风向、风速、温度、相对湿度、降雨量。
3.根据权利要求1或2所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述步骤101预处理操作包括:
对异常值进行清洗,国庆期间车流量明显增大,属于异常数据,删除国庆期间的样本。
4.根据权利要求3所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述步骤102累计20分钟的总车流量对数据进行打标操作,具体为累加8点到10点两小时每20分钟的车流量,构造6个目标。
5.根据权利要求4所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述步骤103特征工程构建包括构建流量特征群、时间特征群、天气特征群、离散特征群、交叉特征群。
6.根据权利要求5所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述流量特征群包括:7天历史车流量、6点到8点的车流量,以及车流量的均值、方差、中位数、最值在内的统计特征;
所述时间特征群包括:预测当天是周几,是否为周末,是当天的第几小时;
所述天气特征群包括:大气压、海平面压力、风向、风速、温度、相对湿度、降雨量;
所述离散特征群包括:收费站ID、车辆通过收费站的方向、当天是周几、当天的第几个小时进行one-hot离散;
所述交叉特征群包括:上述特征群的两两交叉。
7.根据权利要求1所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,步骤104训练过程所述考虑目标间相关性的具体步骤为:
①对数据集Dj={(X,Y·,j)},训练模型fj(X)≈Y·,j,其中1≤j≤6;
②计算Y·,j与Y·,~j的相关性,给定阈值threshold,算出与Y·,j的相关性大于threshold的目标值集合Y·,c,即
Y·,c={y|corr(Y·,j,Y·,~j)>threshold}
其中threshold=0.7;
③调用模型fj,得到Y·,c的预测值矩阵为
Figure FDA0003502857280000051
8.根据权利要求7所述的一种基于多目标回归的高速公路收费站车流量大数据预测方法,其特征在于,所述结合目标特定特征和目标间相关性的具体步骤为:
对数据集Dj={(X,Y·,j)},训练模型
Figure FDA0003502857280000052
对新样本xnew=(xnew1,xnew2,…,xnewd)T,首先根据中心点centersj算出其目标特定特征,即
xnew sp j=(xnew sp j1,xnew sp j2,…,xnew sp jd)T
对于其第t个分量,即第t个目标特定特征值,有
Figure FDA0003502857280000053
其中1≤i≤n,1≤t≤s;
再调用模型fj,得到Y·,c的预测值矩阵为
Figure FDA0003502857280000054
最后调用模型fj′,得到新样本xnew的第j个目标的预测值为
Figure FDA0003502857280000055
CN201910293785.9A 2019-04-12 2019-04-12 基于多目标回归的高速公路收费站车流量大数据预测方法 Active CN110083802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910293785.9A CN110083802B (zh) 2019-04-12 2019-04-12 基于多目标回归的高速公路收费站车流量大数据预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910293785.9A CN110083802B (zh) 2019-04-12 2019-04-12 基于多目标回归的高速公路收费站车流量大数据预测方法

Publications (2)

Publication Number Publication Date
CN110083802A CN110083802A (zh) 2019-08-02
CN110083802B true CN110083802B (zh) 2022-05-03

Family

ID=67414881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910293785.9A Active CN110083802B (zh) 2019-04-12 2019-04-12 基于多目标回归的高速公路收费站车流量大数据预测方法

Country Status (1)

Country Link
CN (1) CN110083802B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634288B (zh) 2019-08-30 2022-06-21 上海电科智能系统股份有限公司 基于三元高斯混合模型的多维城市交通异常事件识别方法
CN112598907B (zh) * 2020-12-17 2021-12-07 东风商用车有限公司 拥堵预测方法、装置、设备及可读存储介质
CN112906993A (zh) * 2021-01-12 2021-06-04 西安石油大学 一种高速公路绿通车过站查验时间预测方法
CN113345252B (zh) * 2021-06-08 2022-07-22 重庆大学 一种收费站下道流量短时预测方法与装置
CN118014719A (zh) * 2024-04-08 2024-05-10 南京启尚数字科技有限公司 一种基于线性回归模型的企业信用智能分析方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127662A (zh) * 2016-06-23 2016-11-16 福州大学 一种针对出租车轨迹数据的K‑means初始聚类中心的选择方法
CN107331164A (zh) * 2017-07-25 2017-11-07 中南大学 一种高速公路收费站入口车辆数的预测方法
CN107598370A (zh) * 2017-08-28 2018-01-19 温州大学 一种钢/铝激光焊接的工艺优化方法
CN107909433A (zh) * 2017-11-14 2018-04-13 重庆邮电大学 一种基于大数据移动电子商务的商品推荐方法
CN107958297A (zh) * 2016-10-17 2018-04-24 华为技术有限公司 一种产品需求预测方法及产品需求预测装置
CN108417034A (zh) * 2018-03-23 2018-08-17 四川高路交通信息工程有限公司 一种基于多变量灰色模型的高速公路节假日车流量预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9875550B2 (en) * 2013-08-28 2018-01-23 Disney Enterprises, Inc. Method and device for tracking sports players with context-conditioned motion models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127662A (zh) * 2016-06-23 2016-11-16 福州大学 一种针对出租车轨迹数据的K‑means初始聚类中心的选择方法
CN107958297A (zh) * 2016-10-17 2018-04-24 华为技术有限公司 一种产品需求预测方法及产品需求预测装置
CN107331164A (zh) * 2017-07-25 2017-11-07 中南大学 一种高速公路收费站入口车辆数的预测方法
CN107598370A (zh) * 2017-08-28 2018-01-19 温州大学 一种钢/铝激光焊接的工艺优化方法
CN107909433A (zh) * 2017-11-14 2018-04-13 重庆邮电大学 一种基于大数据移动电子商务的商品推荐方法
CN108417034A (zh) * 2018-03-23 2018-08-17 四川高路交通信息工程有限公司 一种基于多变量灰色模型的高速公路节假日车流量预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Multi-target regression via input space expansion: treating targets as inputs;Eleftherios Spyromitros-Xioufis等;《Machine Learning 》;20160219;55-98 *
Multi-target regression via target specific features;Jin Wang等;《Knowledge-Based Systems》;20190212;70-78 *
Multi-target support vector regression via correlation regressor chains;GabriellaMelki等;《Information Sciences》;20171101;53-69 *
改进的多目标回归实时人脸检测算法;吴志洋等;《计算机工程与应用》;20180531;第54卷(第11期);1-7 *

Also Published As

Publication number Publication date
CN110083802A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110083802B (zh) 基于多目标回归的高速公路收费站车流量大数据预测方法
CN106650767B (zh) 基于聚类分析和实时校正的洪水预报方法
CN106951976B (zh) 一种基于模式分类的公交客流预测方法
CN108346293B (zh) 一种实时交通流短时预测方法
CN110503104B (zh) 一种基于卷积神经网络的短时剩余车位数量预测方法
CN113744526B (zh) 一种基于lstm和bf的高速公路风险预测方法
CN112613225B (zh) 一种基于神经网络元胞传输模型的交叉口交通状态预测方法
CN109376906B (zh) 基于多维度轨迹的出行时间预测方法、系统及电子设备
CN114023062A (zh) 一种基于深度学习和边缘计算的交通流信息监测方法
CN109767225B (zh) 一种基于自学习滑动时间窗口的网络支付欺诈检测方法
CN112270355A (zh) 基于大数据技术与sae-gru的主动安全预测方法
CN112837533A (zh) 一种考虑风险因素时变特征的公路事故频次预测方法
US20230140289A1 (en) Traffic accident prediction systems and methods
CN108596664B (zh) 一种电子车票的单边交易费用确定方法、系统及装置
CN105678406A (zh) 一种基于云模型的短期负荷预测方法
CN116631186B (zh) 基于危险驾驶事件数据的高速公路交通事故风险评估方法、系统
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN113436433A (zh) 一种高效的城市交通离群值检测方法
CN111125551B (zh) 一种基于选择记忆的马尔可夫模型的用户位置预测方法
CN103324953A (zh) 视频监控多目标检测与跟踪方法
CN114154647A (zh) 一种基于多粒度联邦学习的方法
CN117436653A (zh) 一种网约车出行需求的预测模型构建方法和预测方法
CN113345252B (zh) 一种收费站下道流量短时预测方法与装置
CN112014821B (zh) 一种基于雷达宽带特征的未知车辆目标识别方法
CN113850483A (zh) 一种企业信用风险评级系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230113

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right