CN115953186A - 一种网约车需求模式识别与短时需求预测方法 - Google Patents

一种网约车需求模式识别与短时需求预测方法 Download PDF

Info

Publication number
CN115953186A
CN115953186A CN202310159395.9A CN202310159395A CN115953186A CN 115953186 A CN115953186 A CN 115953186A CN 202310159395 A CN202310159395 A CN 202310159395A CN 115953186 A CN115953186 A CN 115953186A
Authority
CN
China
Prior art keywords
data
demand
time
short
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310159395.9A
Other languages
English (en)
Other versions
CN115953186B (zh
Inventor
李想
陈楠
冯紫嫣
金坤
于海涛
钟园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Intelligent Transportation Development Center Beijing Motor Vehicle Regulation And Management Center
Beijing University of Chemical Technology
Original Assignee
Beijing Intelligent Transportation Development Center Beijing Motor Vehicle Regulation And Management Center
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Intelligent Transportation Development Center Beijing Motor Vehicle Regulation And Management Center, Beijing University of Chemical Technology filed Critical Beijing Intelligent Transportation Development Center Beijing Motor Vehicle Regulation And Management Center
Priority to CN202310159395.9A priority Critical patent/CN115953186B/zh
Publication of CN115953186A publication Critical patent/CN115953186A/zh
Application granted granted Critical
Publication of CN115953186B publication Critical patent/CN115953186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种网约车需求模式识别与短时需求预测方法,一、对城市客运枢纽的网约车需求数据以及相关特征数据进行预处理,形成基础数据集;二、基于基础数据集,开发改进的时间序列K‑means聚类算法,得到网约车的典型需求模式集合;三、面向不同类型的网约车需求模式,设计了ARIMA、XGBoost、RF、BiLSTM、CNN等短时预测方法,构建了数据特征驱动的网约车需求预测系统;四、基于实时获取的特征数据匹配网约车需求模式,并调用该模式下的需求预测算法,预测短时的网约车需求量。本发明采用上述一种网约车需求模式识别与短时需求预测方法,综合利用多源数据,提出了数据特征驱动的网约车需求模式分析和短时需求预测方法,为城市客运枢纽的客流管理提供决策依据。

Description

一种网约车需求模式识别与短时需求预测方法
技术领域
本发明涉及交通需求预测技术领域,尤其是涉及一种网约车需求模式识别与短时需求预测方法。
背景技术
城市客运枢纽是旅客集散的中心,在客运交通运输过程中发挥着组织、协调、服务的重要作用。城市客运枢纽旅客的激增和滞留,不仅给人民群众的出行带来不便,同时存在重大安全隐患。随着互联网技术的提升,基于共享出行理念的网约车服务迅猛发展,成为保障旅客便捷出行的重要手段。
目前,对于城市客运枢纽网约车需求规律和需求预测的相关研究较少,行业主管部门及网约车平台主要凭借经验部署城市客运枢纽的运力调度工作,存在保障不精准、调运不及时等问题。为了有效治理城市客运枢纽客流激增现象,提高网约车调度效率,迫切需要对网约车需求进行精准预测。本发明综合利用多源数据,提出了数据特征驱动的网约车需求模式分析和短时需求预测方法,能够为城市客运枢纽的客流管理提供决策依据。
发明内容
本发明的目的是提供一种网约车需求模式识别与短时需求预测方法,针对机场、火车站等城市交通枢纽,识别出多种网约车需求模式,在不增加运营成本的前提下,利用多源异构的城市级数据资源,对网约车需求模式进行分析,并预测未来一段时间的网约车需求量。
为实现上述目的,本发明提供了一种网约车需求模式识别与短时需求预测方法,包括以下步骤:步骤S1:多源数据预处理及特征提取,筛选出城市客运枢纽的网约车需求模式识别与短时预测场景适用的多源数据,将多源数据作为初始数据,以一天作为一个样本周期,对所述初始数据进行预处理,预处理包括填补缺失值,数据平滑,筛选并修正异常值等操作;将初始数据以特定的时间粒度汇聚,并对相关时间、天气、特殊事件等特征进行全面提取,得到基础数据集;
步骤S2:网约车需求模式识别,基于改进的时间序列K-means聚类算法,以一天作为一个样本周期,对步骤S1中基础数据集进行聚类分析,得到多维特征指标下的典型网约车需求模式集合;
步骤S3:网约车需求短时预测算法,针对步骤S2获得的每种典型网约车需求模式,基于该类别的所有数据样本,分别验证短时需求预测模型的有效性,并从中选择最适合的短时需求预测算法。
步骤S4:需求模式匹配与短时需求预测,基于实时获取的特征数据,匹配步骤S2中得到的网约车需求模式,根据适配的网约车需求模式,调用对应的短时预测算法,预测网约车的短时需求量。
步骤S1中所述多源数据包括:网约车需求数据、城市客运枢纽到站客流数据、温度数据、降水数据、地铁运营状态数据、特殊事件数据、极端天气数据、百度指数数据。
优选的,步骤S1的预处理具体为:
预处理中缺失值处理的实现为,以一天作为一个样本周期,针对连续缺失数据为至多两个的缺失数据,取值为和前一个最近的值;针对连续缺失数据为至少两个的缺失数据,采用线性插值方法对数据缺失值进行填补,假设在连续时间段内检测到缺失值,线性插值方法填补缺失值的公式如下:
Figure SMS_5
其中,
Figure SMS_13
表示在时间段
Figure SMS_21
时记录的数据数值,
Figure SMS_2
表示在时间段
Figure SMS_9
时记录的数据数值;预处理中异常值处理的实现为,采用三倍标准差分解法,首先筛选与样本均值之差大于三倍标准差的异常样本数据,并将其值调整为样本均值与三倍标准差之和;然后筛选与样本均值之差小于负三倍标准差的异常值,调整为样本均值与三倍标准差之差,其中第
Figure SMS_10
种数据在样本周期
Figure SMS_11
Figure SMS_4
个时刻下的样本数据的异常值处理公式为:
Figure SMS_18
其中,
Figure SMS_26
表示第
Figure SMS_27
种数据在样本周期
Figure SMS_6
Figure SMS_12
时刻下的数据;
Figure SMS_14
表示异常值处理后的数据;
Figure SMS_20
表示一个样本周期中样本数据的均值;
Figure SMS_7
表示一个样本周期中样本数据的标准差;
Figure SMS_19
表示一个样本周期的全部样本数量;
Figure SMS_22
表示数据种类的数量;
Figure SMS_24
表示数据集天数;预处理中数据平滑处理的实现为,基于移动平均的网约车需求数据平滑,移动平均法是一种数据平滑技术,基本思想是根据时间序列逐项推移,依次计算包含一定项数的时序平均值,以反映长期趋势的方法,其本质是一种低通滤波,目的是过滤掉时间序列中的高频扰动,保留有用的低频趋势,消除周期变动和不规则变动的影响,显示出长期趋势。设有一个时间序列,基于滑动窗口的思想,按数据点顺序逐点推移求出
Figure SMS_1
个数的平均数,得到一次移动平均数:
Figure SMS_8
其中,
Figure SMS_23
表示
Figure SMS_25
时刻下的网约车需求数据;
Figure SMS_3
表示平滑处理后的网约车需求数据;
Figure SMS_15
表示滑动窗口的大小;
Figure SMS_16
表示一个样本周期的全部样本数量。当
Figure SMS_17
移动一个时刻,就增加一个新进数据,去掉一个远期数据,得到一个新的平均数。
优选的,步骤S1对相关特征进行全面提取操作具体如下:
多源数据融合:统一将多源数据以特定的时间粒度汇聚,并将多源数据整合为结构化数据集;
特征提取:分别提取融合后数据集的日期特征、天气特征、城市客运枢纽到站客流特征、地铁运营特征、特殊事件特征、极端天气特征和百度指数特征;
相关性分析:计算各特征之间的相关性系数,根据皮尔森相关系数
Figure SMS_28
得到各个特征之间的相关程度,计算方法如下:
Figure SMS_29
皮尔森相关系数反映两个变量
Figure SMS_30
Figure SMS_31
的线性相关程度,
Figure SMS_32
值介于-1到1之间。优选的,步骤S2具体包括:步骤S21:对基础数据集进行描述性统计分析,得到网约车下单需求分布规律;
步骤S22:确定聚类指标,根据需求分布规律,选取相应的聚类指标;在进行聚类分析的过程中,为防止数量级别大的指标对结果产生干扰,需要对数据进行归一化处理;
步骤S23:确定权重系数,使用加权变异系数K-means聚类方法,该方法在所有聚类指标之间分配不同的权重;
步骤S24:改进K-means聚类算法识别网约车需求模式:确定最佳聚类数目后,对所述聚类指标使用改进K-means聚类算法识别网约车需求模式。优选的,步骤S2中所述多维特征指标是指根据时间、特殊事件等特征确定的聚类指标,所述网约车需求模式集合包括不同模式下网约车需求的时间序列数据集合。优选的,所述步骤S3中短时需求预测模型包括ARIMA、XGBoost、RF、BiLSTM、CNN等。选择短时需求预测算法,具体如下:分别计算ARIMA、XGBoost、RF、BiLSTM、CNN等不同短时预测模型的RMSE、MAE、MAPE、R2指标,根据评价指标值得到不同模式下的最佳短时需求预测算法及参数值,公式如下:
Figure SMS_33
Figure SMS_34
Figure SMS_35
Figure SMS_36
其中,
Figure SMS_37
为短时预测模型对样本
Figure SMS_38
的预测值,
Figure SMS_39
为真实值。优选的,步骤S23具体为:
数据中具有较高离散程度的聚类指标被赋予更大的权重,以加强其在聚类过程中的作用,相反,数据中离散程度较低的聚类指标则分配较小的权重,以削弱其影响,某个指标对应的变异系数计算如下:
Figure SMS_54
Figure SMS_41
Figure SMS_58
其中,
Figure SMS_46
表示聚类指标
Figure SMS_60
的变异系数,
Figure SMS_53
表示聚类指标
Figure SMS_59
对应的第
Figure SMS_42
个样本值;基于
Figure SMS_56
的值,对网约车需求数据集进行聚类,最小化到聚类中心的总加权偏差
Figure SMS_40
其中,
Figure SMS_57
表示第
Figure SMS_45
类的加权类中心,其计算方式如下:
Figure SMS_51
为了确定最佳聚类数,即K的值,采用轮廓系数来评估与每个K值相关的聚类表现,并选择聚类效果最好的作为最终的K值,对于每个样本,其轮廓系数定义为:
Figure SMS_52
其中,
Figure SMS_55
表示样本
Figure SMS_44
与其所在类中所有其他样本之间的平均欧氏距离,
Figure SMS_48
表示样本
Figure SMS_47
与其距离近的类中所有样本之间的平均欧氏距离。将整个数据集的轮廓系数定义为所有样本的平均轮廓系数,公式如下:
Figure SMS_50
其中,
Figure SMS_43
的取值范围为[-1, 1],其值越接近于1,说明聚类效果越好,必须要注意的是,只有当类的数量大于或等于两个,即
Figure SMS_49
时,轮廓系数才可以被用来衡量聚类效果。优选的,步骤S24中改进K-means聚类算法的具体操作步骤如下:
步骤S241:随机选取K个点,作为聚类中心;步骤S242:计算每个点分别到K个聚类中心的距离,将该点分到最近的聚类中心,形成K个类;
步骤S243:重新计算每个类的聚类中心;
步骤S244:重复以上步骤S242至步骤S243,直到每个类的聚类中心的位置不再发生变化或达到设定的迭代次数。因此,本发明采用上述的一种网约车需求模式识别与短时需求预测方法,具有以下有益效果:
本发明融合并提取多源数据特征,得到多种典型的网约车需求模式;针对不同需求模式,训练短时需求预测算法;基于实时特征数据匹配需求模式,调用预测算法来预测未来一段时间的网约车需求量。本发明的方法将历史数据与实时数据相结合,既能从城市客运枢纽的网约车需求规律的角度出发,通过对历史数据的分析识别出网约车需求模式,又能根据网约车需求模式高效预测网约车需求,更加充分地挖掘数据中的潜在信息和价值,从而有效应对城市客运枢纽激增客流问题。下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明提供的一种网约车需求模式识别与短时需求预测方法的流程图;
图2为本发明提供的各种特征之间的相关性排序示意图;
图3为本发明提供的各种特征之间的相关性热力图示意图;
图4为本发明提供的节假日与非节假日需求分布示意图;
图5为本发明提供的有特殊事件与无特殊事件需求分布示意图;
图6为本发明提供的节假日下有特殊事件与无特殊事件需求分布示意图;图7为本发明提供的非节假日下有特殊事件与无特殊事件需求分布示意图;
图8为本发明提供的有特殊事件下节假日与非节假日需求分布示意图;
图9为本发明提供的轮廓系数示意图;
图10为本发明提供的网约车需求模式示意图;
图11为本发明提供的不同网约车需求模式匹配示意图;
图12为本发明提供的网约车需求量短时预测示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一步,多源数据预处理及特征提取:面向多源异构的城市级数据资源,筛选出城市客运枢纽的网约车需求模式识别与短时预测场景适用的多源数据,将多源数据作为初始数据,初始数据包括城市客运枢纽的网约车需求数据、城市客运枢纽的到站客流数据、节假日数据、周边天气数据、地铁运营状态数据、特殊事件数据、极端天气数据、百度指数等;以一天作为一个样本周期,对初始数据进行预处理,预处理包括填补缺失值,数据平滑,筛选并修正异常值等操作;统一将初始数据以特定的时间粒度汇聚,并对相关时间、天气、特殊事件等特征进行全面提取,得到基础数据集;
第二步,网约车需求模式识别:基于改进的时间序列K-means聚类算法,以一天作为一个样本周期,对第一步中基础数据集进行聚类分析,得到多维特征指标下的典型网约车需求模式集合。多维特征指标是指根据时间、特殊事件等特征确定的聚类指标,网约车需求模式集合包括不同模式下网约车需求的时间序列数据集合;
第三步,网约车需求短时预测算法:针对第二步获得的每种典型网约车需求模式,基于该类别的所有数据样本,分别验证ARIMA、XGBoost、RF、BiLSTM、CNN等短时需求预测模型的有效性,并从中选择最适合的短时需求预测算法;
第四步,需求模式匹配与短时需求预测:基于实时获取的特征数据,匹配第二步中得到的网约车需求模式,根据适配的网约车需求模式,调用对应的短时预测算法,预测网约车的短时需求量。
预处理中的缺失值处理的实现为,针对连续缺失数据为两个及以下的缺失数据,取值为前一个最近的值;针对连续缺失数据为两个以上的缺失数据,采用线性插值方法对数据缺失值进行填补,假设在连续时间段内检测到缺失值,
Figure SMS_66
表示在时间段
Figure SMS_68
时记录的数据数值,
Figure SMS_71
表示在时间段
Figure SMS_62
时记录的数据数值,线性插值方法填补缺失值的公式如下所示:
Figure SMS_77
预处理中的异常值处理的实现为,采用三倍标准差分解法,首先筛选与样本均值之差大于三倍标准差的异常样本数据,并将其值调整为样本均值与三倍标准差之和;然后筛选与样本均值之差小于负三倍标准差的异常值,调整为样本均值与三倍标准差之差,其中第
Figure SMS_63
种数据在样本周期
Figure SMS_74
Figure SMS_70
个时刻下的样本数据的异常值处理公式为:
Figure SMS_79
其中,
Figure SMS_61
表示第
Figure SMS_69
种数据在样本周期
Figure SMS_64
Figure SMS_73
时刻下的数据;
Figure SMS_75
表示异常值处理后的数据;
Figure SMS_76
表示一个样本周期中样本数据的均值;
Figure SMS_65
表示一个样本周期中样本数据的标准差;
Figure SMS_72
表示一个样本周期的全部样本数量;
Figure SMS_67
表示数据种类的数量;
Figure SMS_78
表示数据集天数。
预处理中的数据平滑处理的实现为,基于移动平均的网约车需求数据平滑。移动平均法是一种数据平滑技术,基本思想是根据时间序列逐项推移,依次计算包含一定项数的时序平均值,以反映长期趋势的方法,其本质是一种低通滤波,目的是过滤掉时间序列中的高频扰动,保留有用的低频趋势,消除周期变动和不规则变动的影响,显示出长期趋势。设有一个时间序列,基于滑动窗口的思想,按数据点顺序逐点推移求出
Figure SMS_80
个数的平均数,即可得到一次移动平均数:
Figure SMS_81
其中,
Figure SMS_82
表示
Figure SMS_83
时刻下的网约车需求数据;
Figure SMS_84
表示平滑处理后的网约车需求数据;
Figure SMS_85
表示滑动窗口的大小;
Figure SMS_86
表示一个样本周期的全部样本数量。将预处理后的多源数据进行融合,并对相关日期、天气、到站客流、特殊事件等特征全面提取的实现过程如下:
多源数据融合:统一将多源数据以特定的时间粒度汇聚,并将多源数据整合为结构化数据集;
特征提取:分别提取融合后数据集的日期特征、天气特征、城市客运枢纽到站客流特征、地铁运营特征、特殊事件特征、极端天气特征和百度指数特征;
相关性分析:计算各特征之间的相关性系数。皮尔森相关系数是常用的一种线性相关系数,记为
Figure SMS_87
,用来反映两个变量
Figure SMS_88
Figure SMS_89
的线性相关程度,
Figure SMS_90
值介于-1到1之间,绝对值越大表明相关性越强。根据皮尔森相关系数得到各个特征之间的相关程度,计算方法如下:
Figure SMS_91
第二步中,基于改进K-means聚类算法,对第一步中预处理数据集进行聚类。具体如下:
(1)对数据进行描述性统计分析,得到网约车下单需求分布规律;
(2)确定聚类指标:根据需求分布规律,选取相应的聚类指标;在进行聚类分析的过程中,为防止数量级别大的指标对结果产生干扰,需要对数据进行归一化处理;
(3)确定权重系数:使用加权变异系数K-means聚类方法,该方法在所有聚类指标之间分配不同的权重。具体而言,数据中具有较高离散程度的聚类指标被赋予更大的权重,以加强其在聚类过程中的作用。相反,数据中离散程度较低的聚类指标则分配较小的权重,以削弱其影响。某个指标对应的变异系数计算如下:
Figure SMS_92
Figure SMS_93
Figure SMS_94
其中,
Figure SMS_96
表示聚类指标
Figure SMS_99
的变异系数,
Figure SMS_101
表示聚类指标
Figure SMS_97
对应的第
Figure SMS_98
个样本值。基于
Figure SMS_103
的值,对网约车需求数据集进行聚类,目标是最小化到聚类中心的总加权偏差:
Figure SMS_104
其中,
Figure SMS_95
表示第
Figure SMS_100
类的加权类中心,其计算方式如下:
Figure SMS_102
为了确定最佳聚类数,即K的值,我们采用轮廓系数来评估与每个K值相关的聚类表现,并选择聚类效果最好的作为最终的K值。首先,对于每个样本,其轮廓系数定义为:
Figure SMS_106
其中,
Figure SMS_111
表示样本
Figure SMS_112
与其所在类中所有其他样本之间的平均欧氏距离,
Figure SMS_107
表示样本
Figure SMS_108
与其距离最近的类中所有样本之间的平均欧氏距离。其次,将整个数据集的轮廓系数定义为所有样本的平均轮廓系数,即,
Figure SMS_109
其中,
Figure SMS_110
的取值范围为[-1, 1],其值越接近于1,说明聚类效果越好。必须要注意的是,只有当类的数量大于或等于两个,即
Figure SMS_105
时,轮廓系数才可以被用来衡量聚类效果。
(4)改进K-means聚类算法识别网约车需求模式:确定最佳聚类数目后,对聚类指标使用改进K-means聚类算法识别网约车需求模式,改进K-means聚类算法的具体操作步骤如下:
1)随机选取K个点,作为聚类中心;
2)计算每个点分别到K个聚类中心的距离,将该点分到最近的聚类中心,这样可形成K个类;
3)重新计算每个类的聚类中心,即均值;
4)重复以上2)-3)步,直到每个类的聚类中心的位置不再发生变化或达到设定的迭代次数。
其中,第(2)、(3)步为改进K-means聚类算法的体现,确定聚类指标和确定指标权重系数能体现不同指标对于聚类的影响能力不同,优化聚类的效果。
第三步中,基于每种典型网约车需求模式样本数据选择最适合的短时需求预测算法,具体如下:分别计算ARIMA、XGBoost、RF、BiLSTM、CNN等不同短时预测模型的RMSE、MAE、MAPE、R2指标,根据评价指标值得到不同模式下的最佳短时需求预测算法及参数值,其中
Figure SMS_113
Figure SMS_114
Figure SMS_115
Figure SMS_116
其中,
Figure SMS_117
为短时预测模型对样本
Figure SMS_118
的预测值,
Figure SMS_119
为真实值。
实施例
具体以北京西站客运枢纽为例,现收集获取到106天时间跨度从2021年1月1日至2022年5月4日包含全部节假日和部分工作日的多源数据,以一天作为一个样本周期,具体包含网约车需求数据、天气数据(包含温度、降水数据)、北京西站地铁首末班车数据、北京西站到站客流数据。另外,通过网络爬虫技术爬取了数据集对应的特殊事件数据、极端天气数据和百度指数数据(包含搜索指数、PC端搜索趋势、移动端搜索趋势)。
针对此数据集,本发明对其网约车需求进行模式识别和短时需求预测。具体步骤如下:
(1)多源数据预处理及特征提取:将2021年1月1日至2022年5月4日包含全部节假日和部分工作日的多源数据作为初始数据,对初始数据进行预处理,预处理操作包括对数据填补缺失值,对网约车需求数据平滑处理,
筛选并修正数据异常值。以2021年1月1日0:00-23:00时段的网约车需求数据为例,预处理后网约车需求数据如表1所示。
表1 网约车需求数据
Figure SMS_120
预处理中的缺失值处理的实现为,针对连续缺失数据为两个及以下的缺失数据,取值为前一个最近的值;针对连续缺失数据为两个以上的缺失数据,采用线性插值方法对数据缺失值进行填补。
异常值处理的实现为,采用三倍标准差分解法,首先筛选与样本均值之差大于三倍标准差的异常样本数据,并将其值调整为样本均值与三倍标准差之和;然后筛选与样本均值之差小于负三倍标准差的异常值,调整为样本均值与三倍标准差之差。
数据平滑处理的实现为,基于移动平均的网约车需求数据平滑。滑动窗口设置为3,基于滑动窗口的思想,按数据点顺序逐点推移求出平均值,即可得到一次移动平均数。多源数据融合及特征提取的实现为,将预处理后的多源数据进行融合,统一将全部数据以1小时汇聚,1天可划分为24个相等时段,并分别提取融合后数据集的日期特征、天气特征、到站客流特征、地铁运营特征、特殊事件特征、极端天气特征和百度指数特征。具体如下:
 1、多源数据融合:统一将多源数据以1小时间隔汇聚,将文本数据转为数值型数据,并将多源数据整合为结构化数据集,见表2。
表2 结构化数据集
Figure SMS_121
Figure SMS_122
2、特征提取:分别提取结构化数据集的日期特征、天气特征、到站客流特征、地铁运营特征、特殊事件特征、极端天气特征和百度指数特征,见表3。其中日期特征包括:年份、月份、日期、小时、星期几、是否工作日、是否周末、是否节假日和1-5个步长的滞后周期;天气特征包括:温度、降水;到站客流特征包括:到站客流人数;地铁运营特征包括:地铁是否运营;特殊事件特征包括:当日受特殊事件影响人数,前一日受特殊事件影响人数;百度指数特征包括:搜索指数、PC端搜索趋势、移动端搜索趋势;极端天气特征包括:前一天是否存在极端天气或大量旅客滞留信息。
表3 数据集特征
Figure SMS_123
 3、相关性分析:计算皮尔森相关系数计算各种特征之间的相关性,相关性排序及热力图见图2、图3,选择相关性系数较大的:1-5个步长的滞后期、小时、地铁是否运营、移动端搜索趋势、极端天气、气温、是否节假日、到站客流人数、降水、前一日受特殊事件影响人数作为后续预测的特征变量(2)网约车需求模式识别:基于改进的时间序列K-means聚类算法,以一天作为一个样本周期,对(1)中基础数据集进行聚类分析,得到多维特征指标下的典型网约车需求模式集合。其中多维特征指标是指根据时间、特殊事件等特征确定的聚类指标,网约车需求模式集合包括不同模式下网约车需求的时间序列数据集合。具体如下:1、对数据进行描述性统计分析,得到网约车下单需求分布规律。将数据集根据是否节假日、是否有特殊事件进行划分,对1小时粒度网约车需求量均值进行可视化展示,可以得到对应需求的分布情况,分别如图4-8所示。2、聚类指标的确定:根据网约车需求数据的分布特征,选取全天均值、偏度;20:00-22:00均值;22:00、23:00需求量;20:00-24:00峰值;0:00、1:00需求量、2:00-5:00均值、0:00-5:00峰值、当日特殊事件受影响人数、前一日特殊事件受影响人数、是否极端天气作为共13个指标作为聚类指标;在进行聚类分析的过程中,为防止数量级别大的指标对结果产生干扰,需要对数据进行归一化处理。3、权重的选取:使用每个时间节点的变异系数作为权重赋值给每个时间点下的需求值数据。4、确定最佳聚类数目的:使用轮廓系数来确定最佳聚类数目。从图9中可以看出,当聚类数目为3时,轮廓系数最大,即最佳聚类数目为3类。5、改进K-means聚类识别网约车需求模式:确定最佳聚类数目后,对聚类指标使用改进K-means聚类算法实现网约车需求模式识别,网约车需求模式如图10所示,北京西站网约车需求模式可分为三类:模式1为无特殊事件+非节假日后半段模式(此类模式所包含的日期大多数为特殊事件受影响人数较少的工作日、周末、短节假日及长节假日前半段);模式2为无特殊事件+节假日后半段模式(此类模式所包含的日期大多数为特殊事件受影响人数较少的长节假日的后半段及极端天气或突发事件影响下的特殊日期);模式3为特殊事件严重模式(此类模式所包含的日期为受特殊事件影响较严重的日期)。(3)网约车需求短时预测算法:获得的每种典型网约车需求模式,基于该类别的所有数据样本,分别验证ARIMA、XGBoost、RF、BiLSTM、CNN等短时需求预测模型的有效性,并从中选择适合的短时需求预测算法。具体如下:获得的每种典型网约车需求模式,基于该类别的所有数据样本,按照9:1分为训练集和测试集,将训练集加入到集成了ARIMA、XGBoost、RF、GBDT、BiLSTM、CNN、GRU等多种预测方法预测系统中进行训练并在测试集上测试,分别计算不同预测方法下的RMSE、MAE、MAPE、R2指标,根据RMSE指标得到每种模式下的最优短时需求预测模型及参数。模式1最优预测模型为LSTM,模式2最优预测模型为XGBoost,模式3最优预测模型为BiLSTM。(4)需求模式匹配与短时预测:基于实时获取的特征数据,匹配(2)中得到的网约车需求模式,根据适配的网约车需求模式,调用(3)中对应的短时预测算法,预测网约车的短时需求量。具体如下:分别从特殊事件昨日受影响人数、日期、是否存在极端天气、高铁延误等信息角度出发根据不同网约车需求模式的特征设计标签,如图11所示。对于实时特征数据,如2022年7月14日12:00(星期四,前一日受影响人数0),此时段的特殊事件前一日受影响人数小于30,日期属于非节假日,并且不存在极端天气、高铁延误及大量旅客滞留信息,因此该日期历史模式判别为模式1,基于模式1数据集样本,调用(3)中LSTM短时预测模型,对7月14日12:00的网约车需求量进行预测,得到的网约车需求量预测值为230,见图12。以上应用实例得出本发明所提出的一种数据驱动的城市客运枢纽网约车需求模式识别与短时需求预测方法可以为实时掌握城市客运枢纽交通情况、应对激增客流提供有效信息,对于城市客运枢纽的交通管理具有实用价值。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神。

Claims (9)

1.一种网约车需求模式识别与短时需求预测方法,其特征在于,包括以下步骤:
步骤S1:多源数据预处理及特征提取,筛选出城市客运枢纽的网约车需求模式识别与短时预测场景适用的多源数据,将多源数据作为初始数据,对所述初始数据进行预处理,将初始数据以特定的时间粒度汇聚,并对相关特征进行全面提取,得到基础数据集;
步骤S2:网约车需求模式识别,基于改进的时间序列K-means聚类算法,对基础数据集进行聚类分析,得到多维特征指标下的典型网约车需求模式集合;
步骤S3:网约车需求短时预测算法,针对步骤S2获得的每种典型网约车需求模式,基于每种典型网约车需求模式的数据样本,分别验证短时需求预测模型的有效性,并从中选择适合的短时需求预测算法;
步骤S4:需求模式匹配与短时需求预测,基于实时获取的特征数据,匹配步骤S2中得到的网约车需求模式,根据适配的网约车需求模式,调用对应的短时预测算法,预测网约车的短时需求量。
2.根据权利要求1所述的一种网约车需求模式识别与短时需求预测方法,其特征在于,步骤S1中所述多源数据包括:网约车需求数据、城市客运枢纽到站客流数据、温度数据、降水数据、地铁运营状态数据、特殊事件数据、极端天气数据、百度指数数据。
3.根据权利要求1所述的一种网约车需求模式识别与短时需求预测方法,其特征在于,步骤S1中的预处理具体为:
预处理中缺失值处理的实现为,以一天作为一个样本周期,针对连续缺失数据为至多两个的缺失数据,取值为和前一个最近的值;针对连续缺失数据为至少两个的缺失数据,采用线性插值方法对数据缺失值进行填补,线性插值方法填补缺失值的公式如下:
Figure QLYQS_1
其中,
Figure QLYQS_2
表示在时间段
Figure QLYQS_3
时记录的数据数值,
Figure QLYQS_4
表示在时间段
Figure QLYQS_5
时记录的数据数值;
预处理中异常值处理的实现为,采用三倍标准差分解法,首先筛选与样本均值之差大于三倍标准差的异常样本数据,并将其值调整为样本均值与三倍标准差之和;然后筛选与样本均值之差小于负三倍标准差的异常值,调整为样本均值与三倍标准差之差,其中第
Figure QLYQS_6
种数据在样本周期
Figure QLYQS_7
Figure QLYQS_8
个时刻下的样本数据的异常值处理公式为:
Figure QLYQS_9
其中,
Figure QLYQS_11
表示第
Figure QLYQS_14
种数据在样本周期
Figure QLYQS_17
Figure QLYQS_12
时刻下的数据;
Figure QLYQS_16
表示异常值处理后的数据;
Figure QLYQS_18
表示一个样本周期中样本数据的均值;
Figure QLYQS_19
表示一个样本周期中样本数据的标准差;
Figure QLYQS_10
表示一个样本周期的全部样本数量;
Figure QLYQS_13
表示数据种类的数量;
Figure QLYQS_15
表示数据集天数;
预处理中数据平滑处理的实现为,基于移动平均的网约车需求数据平滑,设有一个时间序列,基于滑动窗口的思想,按数据点顺序逐点推移求出
Figure QLYQS_20
个数的平均数,得到一次移动平均数:
Figure QLYQS_21
其中,
Figure QLYQS_22
表示
Figure QLYQS_23
时刻下的网约车需求数据;
Figure QLYQS_24
表示平滑处理后的网约车需求数据;
Figure QLYQS_25
表示滑动窗口的大小;
Figure QLYQS_26
表示一个样本周期的全部样本数量。
4.根据权利要求1所述的一种网约车需求模式识别与短时需求预测方法,其特征在于,步骤S1中对相关特征进行全面提取操作具体如下:
多源数据融合,统一将多源数据以特定的时间粒度汇聚,并将多源数据整合为结构化数据集;
特征提取,分别提取融合后数据集的日期特征、天气特征、城市客运枢纽到站客流特征、地铁运营特征、特殊事件特征、极端天气特征和百度指数特征;
相关性分析,计算各特征之间的相关性系数,根据皮尔森相关系数
Figure QLYQS_27
得到各个特征之间的相关程度,计算方法如下:
Figure QLYQS_29
皮尔森相关系数反映两个变量
Figure QLYQS_32
Figure QLYQS_35
的线性相关程度,
Figure QLYQS_30
值介于-1到1之间,
Figure QLYQS_33
表示变量
Figure QLYQS_36
Figure QLYQS_37
时刻下的数据,
Figure QLYQS_28
表示变量
Figure QLYQS_31
Figure QLYQS_34
时刻下的数据。
5.根据权利要求1所述的一种网约车需求模式识别与短时需求预测方法,其特征在于,步骤S2具体包括:
步骤S21:以一天作为一个样本周期,对基础数据集进行描述性统计分析,得到网约车下单需求分布规律;
步骤S22:确定聚类指标,根据需求分布规律,选取相应的聚类指标;
步骤S23:确定权重系数,使用加权变异系数K-means聚类方法,该方法在每个聚类指标之间分配相应的权重;
步骤S24:改进K-means聚类算法识别网约车需求模式,确定最佳聚类数目后,对聚类指标使用改进K-means聚类算法识别网约车需求模式。
6.根据权利要求1所述的一种网约车需求模式识别与短时需求预测方法,其特征在于:步骤S2中所述多维特征指标是指根据时间、特殊事件等特征确定的聚类指标,所述网约车需求模式集合包括不同模式下网约车需求的时间序列数据集合。
7.根据权利要求1所述的一种网约车需求模式识别与短时需求预测方法,其特征在于:所述步骤S3中短时需求预测模型包括ARIMA、XGBoost、RF、BiLSTM、CNN;选择短时需求预测算法,具体如下:
分别计算上述短时需求预测模型的RMSE、MAE、MAPE、R2指标,根据评价指标值得到相应模式下的短时需求预测算法及参数值,公式如下:
Figure QLYQS_38
Figure QLYQS_39
Figure QLYQS_40
Figure QLYQS_41
其中,
Figure QLYQS_42
为短时需求预测模型对样本
Figure QLYQS_43
的预测值,
Figure QLYQS_44
为真实值。
8.根据权利要求5所述的一种网约车需求模式识别与短时需求预测方法,其特征在于,步骤S23具体为:
数据中具有高离散程度的聚类指标被分配相应的权重,某个指标对应的变异系数计算如下:
Figure QLYQS_45
Figure QLYQS_46
Figure QLYQS_47
其中,
Figure QLYQS_48
表示聚类指标
Figure QLYQS_49
的变异系数,
Figure QLYQS_50
表示聚类指标
Figure QLYQS_51
对应的第
Figure QLYQS_52
个样本值;基于
Figure QLYQS_53
的值,对网约车需求数据集进行聚类,最小化到聚类中心的总加权偏差
Figure QLYQS_54
其中,
Figure QLYQS_55
表示第
Figure QLYQS_56
类的加权类中心,其计算方式如下:
Figure QLYQS_57
采用轮廓系数来评估与每个K值相关的聚类表现,并选择聚类效果好的作为最终的K值,对于每个样本,其轮廓系数定义为:
Figure QLYQS_58
其中,
Figure QLYQS_59
表示样本
Figure QLYQS_60
与其所在类中所有其他样本之间的平均欧氏距离,
Figure QLYQS_61
表示样本
Figure QLYQS_62
与其距离近的类中所有样本之间的平均欧氏距离;将整个数据集的轮廓系数定义为所有样本的平均轮廓系数,公式如下:
Figure QLYQS_63
其中,
Figure QLYQS_64
的取值范围为[-1, 1]。
9.根据权利要求5所述的一种网约车需求模式识别与短时需求预测方法,其特征在于,步骤S24中改进K-means聚类算法的具体操作步骤如下:
步骤S241:随机选取K个点,作为聚类中心;
步骤S242:计算每个点分别到K个聚类中心的距离,将该点分到最近的聚类中心,形成K个类;
步骤S243:重新计算每个类的聚类中心;
步骤S244:重复以上步骤S242至步骤S243,直到每个类的聚类中心的位置固定或达到设定的迭代次数。
CN202310159395.9A 2023-02-24 2023-02-24 一种网约车需求模式识别与短时需求预测方法 Active CN115953186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310159395.9A CN115953186B (zh) 2023-02-24 2023-02-24 一种网约车需求模式识别与短时需求预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310159395.9A CN115953186B (zh) 2023-02-24 2023-02-24 一种网约车需求模式识别与短时需求预测方法

Publications (2)

Publication Number Publication Date
CN115953186A true CN115953186A (zh) 2023-04-11
CN115953186B CN115953186B (zh) 2023-05-16

Family

ID=85897871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310159395.9A Active CN115953186B (zh) 2023-02-24 2023-02-24 一种网约车需求模式识别与短时需求预测方法

Country Status (1)

Country Link
CN (1) CN115953186B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468469A (zh) * 2023-04-24 2023-07-21 北京化工大学 一种基于改进emd-lstm的网约车需求预测方法
CN116862573A (zh) * 2023-09-05 2023-10-10 华侨大学 基于增量训练的城际网约车短期出行需求预测方法及系统
CN116894522A (zh) * 2023-07-27 2023-10-17 北京化工大学 一种基于深度学习模型的网约车短时需求预测方法
CN117765726A (zh) * 2023-12-11 2024-03-26 广东蓝鱼物联科技有限公司 一种车联网运营数据管理方法及系统
CN117765726B (zh) * 2023-12-11 2024-05-28 广东蓝鱼物联科技有限公司 一种车联网运营数据管理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010123075A1 (ja) * 2009-04-23 2012-10-25 株式会社エヌ・ティ・ティ・ドコモ 移動手段需要予測支援サーバ、移動手段供給システム、及び移動手段需要予測データ作成方法
CN109711640A (zh) * 2019-01-23 2019-05-03 北京工业大学 一种基于模糊c均值交通流量聚类以及误差反馈卷积神经网络的短时交通流预测方法
CN113159374A (zh) * 2021-03-05 2021-07-23 北京化工大学 一种数据驱动的城市交通流速模式识别与实时预测预警方法
CN113902011A (zh) * 2021-10-08 2022-01-07 南威软件股份有限公司 基于循环神经网络的城市轨道交通短时客流预测方法
CN114154695A (zh) * 2021-11-19 2022-03-08 北京交通大学 一种基于迁移学习的城市轨道交通短时客流预测方法
CN114943356A (zh) * 2022-06-06 2022-08-26 南京航空航天大学 一种机场到港旅客乘坐出租车短时需求集成预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010123075A1 (ja) * 2009-04-23 2012-10-25 株式会社エヌ・ティ・ティ・ドコモ 移動手段需要予測支援サーバ、移動手段供給システム、及び移動手段需要予測データ作成方法
CN109711640A (zh) * 2019-01-23 2019-05-03 北京工业大学 一种基于模糊c均值交通流量聚类以及误差反馈卷积神经网络的短时交通流预测方法
CN113159374A (zh) * 2021-03-05 2021-07-23 北京化工大学 一种数据驱动的城市交通流速模式识别与实时预测预警方法
CN113902011A (zh) * 2021-10-08 2022-01-07 南威软件股份有限公司 基于循环神经网络的城市轨道交通短时客流预测方法
CN114154695A (zh) * 2021-11-19 2022-03-08 北京交通大学 一种基于迁移学习的城市轨道交通短时客流预测方法
CN114943356A (zh) * 2022-06-06 2022-08-26 南京航空航天大学 一种机场到港旅客乘坐出租车短时需求集成预测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468469A (zh) * 2023-04-24 2023-07-21 北京化工大学 一种基于改进emd-lstm的网约车需求预测方法
CN116894522A (zh) * 2023-07-27 2023-10-17 北京化工大学 一种基于深度学习模型的网约车短时需求预测方法
CN116862573A (zh) * 2023-09-05 2023-10-10 华侨大学 基于增量训练的城际网约车短期出行需求预测方法及系统
CN116862573B (zh) * 2023-09-05 2023-12-05 华侨大学 基于增量训练的城际网约车短期出行需求预测方法及系统
CN117765726A (zh) * 2023-12-11 2024-03-26 广东蓝鱼物联科技有限公司 一种车联网运营数据管理方法及系统
CN117765726B (zh) * 2023-12-11 2024-05-28 广东蓝鱼物联科技有限公司 一种车联网运营数据管理方法及系统

Also Published As

Publication number Publication date
CN115953186B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN115953186A (zh) 一种网约车需求模式识别与短时需求预测方法
CN103632212B (zh) 一种时变用户均衡动态网络演化客流预测系统和方法
CN109615226A (zh) 一种运营指标异常监测方法
CN106448132A (zh) 一种常规公交服务指数实时评价系统及评价方法
CN112874589A (zh) 一种列车计划运行图自动调整系统及方法
CN112990610B (zh) 一种基于多元线性回归预测火车站出租车运力需求的方法
CN113159374B (zh) 一种数据驱动的城市交通流速模式识别与实时预测预警方法
Gittens et al. Evaluation of bus reliability measures and development of a new composite indicator
CN112036670A (zh) 一种客流综合预测系统及预测方法
CN113496314B (zh) 一种神经网络模型预测道路交通流量的方法
Barabino et al. Regularity diagnosis by automatic vehicle location raw data
CN110348601A (zh) 一种基于双向长短期记忆网络的地铁短期客流量预测方法
CN106779222B (zh) 机场地面等待时间预测方法及装置
CN110690701A (zh) 一种异常线损影响因素的分析方法
CN115359659B (zh) 一种车道开闭配置方法和系统
Wu et al. Predicting peak load of bus routes with supply optimization and scaled Shepard interpolation: A newsvendor model
Wang et al. Modeling weather impact on ground delay programs
CN114399099A (zh) 一种城市轨道交通断面客流的预测方法及装置
Wang et al. Prediction and analysis of train passenger load factor of high-speed railway based on LightGBM algorithm
Liu et al. Understanding urban bus travel time: Statistical analysis and a deep learning prediction
CN107316096A (zh) 一种轨道交通一票通乘客进站量预测方法
CN112669595B (zh) 一种基于深度学习的网约车流量预测方法
CN110796301B (zh) 一种基于ic卡数据的乘客流量预测方法及装置
CN110020666B (zh) 一种基于乘客行为模式的公共交通广告投放方法及系统
Yao et al. Forecasting passenger flow distribution on holidays for urban rail transit based on destination choice behavior analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant