CN112508303B - 一种od客流预测方法、装置、设备及可读存储介质 - Google Patents

一种od客流预测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112508303B
CN112508303B CN202011527543.0A CN202011527543A CN112508303B CN 112508303 B CN112508303 B CN 112508303B CN 202011527543 A CN202011527543 A CN 202011527543A CN 112508303 B CN112508303 B CN 112508303B
Authority
CN
China
Prior art keywords
passenger flow
sparse
characteristic
pairs
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011527543.0A
Other languages
English (en)
Other versions
CN112508303A (zh
Inventor
吕红霞
孙克洋
倪少权
潘金山
陈钉均
吕苗苗
张�杰
文迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202011527543.0A priority Critical patent/CN112508303B/zh
Publication of CN112508303A publication Critical patent/CN112508303A/zh
Application granted granted Critical
Publication of CN112508303B publication Critical patent/CN112508303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及轨道交通技术领域,涉及一种OD客流预测方法、装置、设备及可读存储介质,包括:根据ODFL值筛选出稀疏OD对的集合;挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征;将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及低维属性特征拼接得到多维目标输入属性;利用所述目标输入属性构造训练集和测试集,将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流。本发明用于有效提高OD客流预测精度,而且能够适应于大规模路网OD预测,且预测方法真实可靠,计算效率高,具有很好的通用性。

Description

一种OD客流预测方法、装置、设备及可读存储介质
技术领域
本发明涉及轨道交通技术领域,具体而言,涉及一种OD客流预测方法、装置、设备及可读存储介质。
背景技术
城市轨道交通OD短期客流预测是指基于历史OD客流数据,采用一定的技术方法对未来一定时期内OD客流状态进行推演,为城市轨道交通开行方案和运行图编制与调整提供基础客流数据支撑,预测周期通常为一周至一个月。
现有技术方法通过挖掘客流序列的时序规律、空间关联性等与客流相关的特征实现预测。目前针对城市轨道交通OD客流预测的研究仍存在忽略稀疏OD客流的问题,具体体现在:
(1)现有的城市轨道交通OD客流预测模型多针对小规模路网,且对于不同客流量级的OD对采用的是同一个预测模型,而过大或者过小的客流在不同预测模型下的精度存在很大差异,单一预测模型很难完全挖掘大规模路网不同客流量等级OD对的客流分布特性。
(2)在大规模路网中,小客流OD对占比超80%,且由于小客流 OD的存在,OD客流矩阵呈现明显的稀疏性(导致客流OD矩阵呈现稀疏性的这部分客流称为稀疏OD客流),经验证,客流矩阵稀疏性越强,客流预测难度越高。然而大多数OD客流预测模型重点集中在提高较大客流OD对的预测精度,忽视了稀疏OD客流的存在对预测精度的影响。
(3)客流预测模型多以路网各OD对平均预测精度作为客流预测精度的评估标准,而缺乏对不同客流量级OD对预测精度的分析,导致忽视了稀疏OD客流预测精度提升空间远大于较大客流OD对客流预测精度提升空间的事实。
发明内容
本发明的目的在于提供一种OD客流预测方法、装置、设备及可读存储介质,以改善上述问题。
为了实现上述目的,本申请实施例提供了如下技术方案:
一种OD客流预测方法,包括:
基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL值筛选出稀疏OD对的集合;
挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征;
获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及低维属性特征拼接得到多维目标输入属性;
利用所述目标输入属性构造训练集和测试集,利用所述训练集拟合模型,利用所述测试集测试模型泛化性能;
将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流。
进一步的,所述基于历史OD客流数据计算若干OD对的ODFL值, 根据ODFL值筛选出稀疏OD对的集合,包括:
Figure GDA0003736851610000021
表示第i个OD对第k时段客流值,yi为第i个OD对的ODFL值,则
Figure GDA0003736851610000022
设ODFL的阈值为q,当yi≤q时,所述OD对为稀疏OD对;
将所有的稀疏OD对组成集合A。
进一步的,所述挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征,包括:
挖掘稀疏OD对的64种时间序列特征,其包括763维特征;
分别计算所述特征向量与OD客流均值的pearson相关系数值;
过滤相关系数值较小的特征;
将过滤后的特征映射到10维的低维空间,得到10维属性特征。
进一步的,所述过滤相关系数值较小的特征,包括:
令系数值的阈值为ε,第j个特征的系数值为rj
当|rj|<ε时,所述特征为相关系数值较小的特征,删掉;
当|rj|≥ε时,所述特征为相关系数值较大的特征,保留。
进一步的,所述获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及低维属性特征拼接得到多维目标输入属性,包括:
分析邻近客流模式,获取预测时段的前3个时段客流特征,分别命名为recent1、recent2、recent3;
分析日客流模式,获取预测时段的前三日同一时段客流特征,分别命名为daily1、daily2、daily3;
分析周客流模式,获取预测时段的上一周同一日同一时段客流特征,分别命名为weekly1;
分析时序特征,获取预测时段为周内的第几天和一天内的第几个时段,分别命名为interval和day of week;
将OD对的低维属性特征命名为OD feature1、OD feature2、……、 OD feature10;
将上述特征拼接为所述预测时段的19维目标输入属性。
进一步的,所述利用所述目标输入属性构造训练集和测试集,利用所述训练集拟合模型,利用所述测试集测试模型泛化性能,包括:
获取若干OD对的不同预测时段的真实客流值,
将若干OD对的不同预测时段的目标输入属性和真实客流值作为数据集;
将70%—80%的数据集划分为训练集,剩余的数据集作为测试集;
利用所述训练集训练LightGBM模型,更新LightGBM模型参数;
利用所述测试集测试LightGBM模型的有效性,直至测试集误差符合要求;
保存LightGBM模型。
进一步的,将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流,包括:
根据待预测时段确定邻近客流模式特征、日客流模式特征、周客流模式特征及时序特征;
将所述客流模式特征、时序特征及低维属性特征拼接得到19维目标输入属性;
将所述19维目标输入属性输入LightGBM模型中;
LightGBM模型输出待预测时段的客流值。
一种OD客流预测系统,所述系统包括:
稀疏OD对筛选模块:用于基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL值筛选出稀疏OD对的集合;
特征工程模块:用于挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征;
输入属性构造模块:用于获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及低维属性特征拼接得到多维目标输入属性;
训练模块:用于根据目标输入属性构造训练集和测试集,利用训练集对模型进行训练确定模型参数,再利用测试集测试模型;
预测模块:用于根据所述多维目标输入属性输入模型进行预测,输出预测结果。
一种OD客流预测设备,所述设备包括存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时实现上述OD客流预测方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述OD客流预测方法的步骤。
有益效果为:本发明能有效提高OD客流预测精度,而且能够适应于大规模路网OD预测,该预测方法真实可靠,计算效率高,具有很好的通用性。
本发明通过构建一种考虑客流稀疏性的基于机器学习方法的OD 识别及客流量预测方法,1)对包含大量稀疏OD客流的大规模路网中稀疏OD客流的识别和筛选提出明确的量化标准;
2)利用特征工程充分挖掘稀疏OD对客流分布特征,填补当前稀疏OD对针对性研究的空白;
3)构建大规模路网考虑客流稀疏性的OD客流短期预测模型,实现大规模路网OD客流的精细化预测。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例1中所述的一种OD客流预测方法流程示意图;
图2是本发明实施例1中所述S2的框架示意图;
图3是本发明实施例1中所述S3的框架示意图;
图4是本发明实施例1中所述S4的框架示意图;
图5是本发明实施例1中所述S5的框架示意图;
图6是本发明实施例2中所述一种OD客流预测方法系统的模块结构示意图;
图7是本发明实施例3中所述的一种OD客流预测设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号或字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
因此,本实施例针对对稀疏OD客流精细化预测的研究的不足,构建了一种考虑客流稀疏性的基于机器学习方法的OD识别及客流量预测方法,旨在解决城市轨道交通短期OD客流预测的以下问题:
1、由于稀疏OD对的客流量较小,OD客流本身的随机性较强且时序规律不突出,同时,较大的OD客流与稀疏OD客流对各影响因素的灵敏度存在差异。因此,现有预测方法不能完整地挖掘不同客流量级的OD对客流分布特性。
大规模城市轨道交通路网站点数庞大,稀疏OD对数量过高,然而现有技术方法多应用于小规模路网,计算复杂度较大且耗时较长,无法有效应用于大规模路网的OD客流预测。
如图1所示,本实施例提供了一种OD客流预测方法,该方法包括以下步骤:
S1.基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL 值筛选出稀疏OD对的集合,其中,OD客流:指一定时间范围内具有相同出行起点和目的地的乘客人数,O是origin,指出行的出发地点, D是destination,指出行的终到点;ODFL:表示OD对的客流量级大小。
基于以上实施例,所述S1具体包括:
S11.令
Figure GDA0003736851610000081
表示第i个OD对第k时段客流值,yi为第i个OD对的ODFL 值,则
Figure GDA0003736851610000082
S12.设ODFL的阈值为q,当yi≤q时,第i个OD对为稀疏OD对;
将所有的稀疏OD对组成集合A={OD1,OD2,…,ODn}。
S2.挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征;
如图2所示,基于以上实施例,所述S2具体包括:
S21.利用特征工程挖掘稀疏OD对的64种时间序列特征,其包括 763维特征;
具体的,利用Python第三方库Tsfresh计算包含绝对能量值、一阶差分绝对和等64种时间序列特征,用于描述时间序列的波动性、不可预测性、周期性、平稳性、非线性等;
输入稀疏OD对的64种时间序列特征,输出为稀疏OD对的64 种特征763维向量。
S22.分别计算所述特征向量与OD客流均值的pearson相关系数值;
具体的,Pearson相关系数。计算公式如下:
Figure GDA0003736851610000083
其中,xi和yi分别表示所选择的两个相关变量,
Figure GDA0003736851610000084
Figure GDA0003736851610000085
分别表示所选择相关变量的平均值;
S23.过滤相关系数值较小的特征;
S24.利用ISOmap将过滤后的特征映射到10维的低维空间,得到10维属性特征(SOmap:等距特征映射,是一种非线性降维方法,采用测地线距离近似流形上数据的距离,可以更好地控制信息的流失,能够在低维空间中更加全面地将高维数据表现出来,且能够结合数据的全局和局部信息)。
依次将集合A中的n个稀疏OD对按上述步骤操作,每个稀疏OD 对均可得到一个10维属性特征。
基于以上实施例,所述S23包括:
令相关系数值的阈值为ε,第j个特征的系数值为rj
当|rj|<ε时,所述特征为相关系数值较小的特征,删掉;
当|rj|≥ε时,所述特征为相关系数值较大的特征,保留。
S3.获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及低维属性特征拼接得到多维目标输入属性;
如图3所示,基于以上实施例,所述S3包括:
分析邻近客流模式,获取预测时段的前3个时段客流特征,分别命名为recent1、recent2、recent3;
分析日客流模式,获取预测时段的前三日同一时段客流特征,分别命名为daily1、daily2、daily3;
具体的,在所述日客流模式中,以周为周期,将周内7天分为工作日和休息日两类,并形成日时间序列。
工作日:星期一、星期二、星期三、星期四、星期五、星期一、星期二…,例如,预测时段为星期二,则该预测时段的前三日为星期四、星期五、星期一;
休息日:星期六、星期日、星期六、星期日、星期六…,例如,预测时段为星期天,则该预测时段的前三日未星期天、星期六、星期天。
分析周客流模式,获取预测时段的上一周同一日同一时段客流特征,分别命名为weekly1;
分析时序特征,获取预测时段为周内的第几天和一天内的第几个时段,分别命名为interval和day of week;
具体的,对interval拟定变量:
星期一:0,星期二:1,星期三:2,……,星期日:6;
对和day of week拟定变量:
根据城市轨道交通运营时段,将每日内开始运营的第一个15min 表示为0,第二个时段表示为1,以此类推,直到最后一个运营时段。
将OD对的低维属性特征命名为OD feature1、OD feature2、……、 OD feature10;
如图4所示,将上述特征拼接为所述预测时段的19维目标输入属性。
S4.用所述目标输入属性构造训练集和测试集,利用所述训练集拟合模型,利用所述测试集测试模型泛化性能;
基于以上实施例,所述S4包括:
S41.获取若干OD对的不同预测时段的真实客流值,例如,OD1对周一第5个时段的客流值、OD1对周一第8个时段的客流值、OD3对周二第5个时段的客流值…
S42.将若干OD对的不同预测时段的目标输入属性和真实客流值作为数据集;
具体的,一个OD对有一个固定的通过上述S1-S4计算得出的低维属性特征,而不同时段的OD对的邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征均不同,所以拼接成的目标输入属性不同,因此由若干个稀疏客流对及其不同预测时段的目标输入属性构成多个样本;
S43:将70%—80%的数据集划分为训练集,剩余的数据集作为测试集;
S44.利用所述训练集训练LightGBM模型,更新LightGBM模型参数,
具体的,将所述训练集中的目标输入属性输入LightGBM模型中,得到结果,将所述结果与真实客流值进行比较,利用随机超参数搜索策略对学习速率、叶节点数量和树深度(LightGBM超参数)进行寻优得到最佳超参数组合;
S45.训练结束后,利用所述测试集测试LightGBM模型的有效性,若测试集误差不符合要求,则重新进行模型训练,直至测试集误差符合要求;
S46.保存LightGBM模型。
其中,LightGBM是由微软DMTK团队开源的一个快速、高效、轻量级的梯度提升GBDT框架,是一种基于决策树的机器学习算法。其是基于最速下降法的一种决策树算法,支持并行、分布式计算,其具有运行速度更快和占用内存更小的特点,可有效地适应海量数据,在保持较高模型性能的同时大幅减少运算时间。
如图5所示,S5.将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流;
基于以上实施例,所述S5包括:
S51.根据待预测时段确定邻近客流模式特征、客流模式特征、周客流模式特征及时序特征;
S52.将所述客流模式特征、时序特征及低维属性特征拼接得到 19维目标输入属性;
S53.将所述19维目标输入属性输入LightGBM模型中;
S54.LightGBM模型输出待预测时段的客流值;
具体实施例
本实施例以以下案例进行说明,以对实施例1进行进一步的解释。
S1:基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL 值筛选出稀疏OD对的集合;
1)计算ODFL:
Figure GDA0003736851610000121
假设给定10个OD对,分别计算所述10个OD对的ODFL值,如表 1:
OD OD<sub>1</sub> OD<sub>2</sub> OD<sub>3</sub> OD<sub>4</sub> OD<sub>5</sub> OD<sub>6</sub> OD<sub>7</sub> OD<sub>8</sub> OD<sub>9</sub> OD<sub>10</sub>
ODFL 2 1 0.5 0.7 0.9 2 9 0.6 0.7 3
表1
2)给定阈值1,将ODFL值小于等于1的OD对存储在集合A中,即得到集合A={OD2,OD3,OD4,OD5,OD8,OD9}。
S2:挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征;
1)输入数据格式,如表2所示,
Figure GDA0003736851610000122
Figure GDA0003736851610000131
表2
利用Tsfresh提取OD客流时间序列的64种特征,输出集合A中 OD对的763维特征,输出数据格式,如表3所示。
OD编号 Feature1 Featue2 Feature3 Feature762 Feature763
2
3
...
9
表3
2)计算上述所有OD各特征(Feature1,Feature2,…, Feature763)与OD均值的Pearson相关系数:
Figure GDA0003736851610000132
以OD1为例,输出相关性系数表,如表4所示。
Figure GDA0003736851610000133
表4
3)令相关系数值的阈值ε=0.7,筛选出相关性较大的特征属性:
|rj|≥ε;
式中,rj指第j个特征的相关系数值,ε指特征筛选的阈值;
以OD1为例,输出相关性系数,如表5所示。
Figure GDA0003736851610000141
表5
4)根据特征筛选后的特征(根据特征过滤删去相关性小于的特征,剩余k个特征),输出特征,如表6所示。
OD编号 Feature1 Featue2 Feature3 …… Feature(k-1) Feature(k)
2
3
...
4
表6
选择ISOmap对OD对高维特征进行降维处理,输出数据,如表7 所示。
Figure GDA0003736851610000142
表7
S3:获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及低维属性特征拼接得到多维目标输入属性:
以OD2例,根据第i周第k天第t时段的客流,构造以下属性,如表8所示。
Figure GDA0003736851610000151
表8
S4:利用所述目标输入属性构造训练集和测试集,利用所述训练集拟合模型,利用所述测试集测试模型泛化性能;
1)将OD2对的N个时段、OD3的N个时段、...、OD9的N个时段作为数据集,如表9所示。
Figure GDA0003736851610000152
Figure GDA0003736851610000161
表9
2)按照0.8:0.2=训练集:测试集的比例划分数据集。
S5:将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流。
例如:预测对象一:预测OD1对周一第5个时段的客流值;
预测对象二:预测OD2对周一第6个时段的客流值;
则需分别输入以下特征,如表10所示。
Figure GDA0003736851610000162
表10
分别输出所预测的客流值,如表11:
OD<sub>1</sub> 3
OD<sub>2</sub> 5
表11
实施例2
相应于上面的方法实施例,本公开实施例还提供了一种OD客流预测装置,下文描述的OD客流预测装置与上文描述的OD客流预测方法可相互对应参照。
如图6所示,该装置包括如下模块:
稀疏OD对筛选模块:用于基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL值筛选出稀疏OD对的集合;
特征工程模块:用于挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征;
输入属性构造模块:用于获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及低维属性特征拼接得到多维目标输入属性;
训练模块:用于根据目标输入属性构造训练集和测试集,利用训练集对模型进行训练确定模型参数,再利用测试集测试模型;
预测模块:用于将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流。
需要说明的是,关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
实施例3
相应于上面的方法实施例,本公开实施例还提供了一种OD客流预测设备,下文描述的一种OD客流预测设备与上文描述的一种OD 客流预测方法可相互对应参照。
如图7所示,该电子设备可以包括:处理器,存储器。该电子设备还可以包括多媒体组件,输入/输出(I/O)接口,以及通信组件中的一者或多者。
其中,处理器用于控制该电子设备的整体操作,以完成上述的 OD客流预测方法中的全部或部分步骤。存储器用于存储各种类型的数据以支持在该电子设备的操作,这些数据例如可以包括用于在该电子设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(StaticRandom Access Memory,简称 SRAM),电可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或通过通信组件发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口为处理器和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件用于该电子设备与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件可以包括: Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal ProcessingDevice,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的OD客流预测方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的OD客流预测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由电子设备的处理器执行以完成上述的OD 客流预测方法。
实施例4
相应于上面的方法实施例,本公开实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种OD客流预测方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的OD客流预测方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(Random Access Memory, RAM)、磁盘或者光盘等各种可存储程序代码的可读存储介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种OD客流预测方法,其特征在于,包括:
基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL值筛选出稀疏OD对的集合;
挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征;
获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及所述低维属性特征拼接得到多维目标输入属性;
利用所述目标输入属性构造训练集和测试集,利用所述训练集拟合模型,利用所述测试集测试模型泛化性能;
将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流;
所述ODFL值为OD对的客流量级大小的值;
所述基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL值筛选出稀疏OD对的集合,包括:
Figure FDA0003736851600000011
表示第i个OD对第k时段客流值,yi为第i个OD对的ODFL值,则
Figure FDA0003736851600000012
设ODFL的阈值为q,当yi≤q时,所述OD对为稀疏OD对;
将所有的稀疏OD对组成集合A;
所述挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征,包括:
利用特征工程挖掘稀疏OD对的64种时间序列特征,其包括763维特征;具体包括,利用Python第三方库Tsfresh计算包含绝对能量值、一阶差分绝对和等64种时间序列特征,用于描述时间序列的波动性、不可预测性、周期性、平稳性和非线性;
分别计算特征向量与OD客流均值的pearson相关系数值;
Pearson相关系数的计算公式如下:
Figure FDA0003736851600000021
其中,xi和yi分别表示所选择的两个相关变量,
Figure FDA0003736851600000022
Figure FDA0003736851600000023
分别表示所选择相关变量的平均值;
过滤相关系数值较小的特征;
将过滤后的特征映射到10维的低维空间,得到10维属性特征;
所述利用所述目标输入属性构造训练集和测试集,利用所述训练集拟合模型,利用所述测试集测试模型泛化性能,包括:
获取若干OD对的不同预测时段的真实客流值;
将若干OD对的不同预测时段的目标输入属性和真实客流值作为数据集;
将70%—80%的数据集划分为训练集,剩余的数据集作为测试集;
利用所述训练集训练LightGBM模型,更新LightGBM模型参数;
利用所述测试集测试LightGBM模型的有效性,直至测试集误差符合要求;
保存LightGBM模型;
所述将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流,包括:
根据待预测时段确定邻近客流模式特征、日客流模式特征、周客流模式特征及时序特征;
将所述客流模式特征、时序特征及低维属性特征拼接得到19维目标输入属性;
将所述19维目标输入属性输入LightGBM模型中;
LightGBM模型输出待预测时段的客流值。
2.根据权利要求1所述的OD客流预测方法,其特征在于,所述过滤相关系数值较小的特征,包括:
令系数值的阈值为ε,第j个特征的系数值为rj
当|rj|<ε时,所述特征为相关系数值较小的特征,删掉;
当|rj|≥ε时,所述特征为相关系数值较大的特征,保留。
3.根据权利要求1所述的OD客流预测方法,其特征在于,所述获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及低维属性特征拼接得到多维目标输入属性,包括:
分析邻近客流模式,获取预测时段的前3个时段客流特征,分别命名为recent1、recent2、recent3;
分析日客流模式,获取预测时段的前三日同一时段客流特征,分别命名为daily1、daily2、daily3;
分析周客流模式,获取预测时段的上一周同一日同一时段客流特征,分别命名为weekly1;
分析时序特征,获取预测时段为周内的第几天和一天内的第几个时段,分别命名为interval和day of week;
将OD对的低维属性特征命名为OD feature1、OD feature2、……、OD feature10;
将上述特征拼接为所述预测时段的19维目标输入属性。
4.一种OD客流预测装置,其特征在于,包括:
稀疏OD对筛选模块:用于基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL值筛选出稀疏OD对的集合;
特征工程模块:用于挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征;
输入属性构造模块:用于获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及低维属性特征拼接得到多维目标输入属性;
训练模块:用于根据目标输入属性构造训练集和测试集,利用训练集对模型进行训练确定模型参数,再利用测试集测试模型;
预测模块:用于将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流;
所述ODFL值为OD对的客流量级大小的值;
所述基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL值筛选出稀疏OD对的集合,包括:
Figure FDA0003736851600000041
表示第i个OD对第k时段客流值,yi为第i个OD对的ODFL值,则
Figure FDA0003736851600000042
设ODFL的阈值为q,当yi≤q时,所述OD对为稀疏OD对;
将所有的稀疏OD对组成集合A;
所述挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征,包括:
利用特征工程挖掘稀疏OD对的64种时间序列特征,其包括763维特征;具体包括,利用Python第三方库Tsfresh计算包含绝对能量值、一阶差分绝对和等64种时间序列特征,用于描述时间序列的波动性、不可预测性、周期性、平稳性和非线性;
分别计算特征向量与OD客流均值的pearson相关系数值;
Pearson相关系数的计算公式如下:
Figure FDA0003736851600000051
其中,xi和yi分别表示所选择的两个相关变量,
Figure FDA0003736851600000052
Figure FDA0003736851600000053
分别表示所选择相关变量的平均值;
过滤相关系数值较小的特征;
将过滤后的特征映射到10维的低维空间,得到10维属性特征;
所述利用所述目标输入属性构造训练集和测试集,利用所述训练集拟合模型,利用所述测试集测试模型泛化性能,包括:
获取若干OD对的不同预测时段的真实客流值;
将若干OD对的不同预测时段的目标输入属性和真实客流值作为数据集;
将70%—80%的数据集划分为训练集,剩余的数据集作为测试集;
利用所述训练集训练LightGBM模型,更新LightGBM模型参数;
利用所述测试集测试LightGBM模型的有效性,直至测试集误差符合要求;
保存LightGBM模型;
所述将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流,包括:
根据待预测时段确定邻近客流模式特征、日客流模式特征、周客流模式特征及时序特征;
将所述客流模式特征、时序特征及低维属性特征拼接得到19维目标输入属性;
将所述19维目标输入属性输入LightGBM模型中;
LightGBM模型输出待预测时段的客流值。
5.一种OD客流预测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至3任一项所述OD客流预测方法的步骤。
6.一种可读存储介质,其特征在于:所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述OD客流预测方法的步骤。
CN202011527543.0A 2020-12-22 2020-12-22 一种od客流预测方法、装置、设备及可读存储介质 Active CN112508303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011527543.0A CN112508303B (zh) 2020-12-22 2020-12-22 一种od客流预测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011527543.0A CN112508303B (zh) 2020-12-22 2020-12-22 一种od客流预测方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112508303A CN112508303A (zh) 2021-03-16
CN112508303B true CN112508303B (zh) 2022-09-27

Family

ID=74923060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011527543.0A Active CN112508303B (zh) 2020-12-22 2020-12-22 一种od客流预测方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112508303B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729688A (zh) * 2013-12-18 2014-04-16 北京交通大学 一种基于emd的断面客流神经网络预测方法
CN108022009A (zh) * 2017-11-30 2018-05-11 北京交通大学 一种关于高速铁路客流的组合预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5148416B2 (ja) * 2008-09-03 2013-02-20 公益財団法人鉄道総合技術研究所 乗客流動予測システム
JP5800537B2 (ja) * 2011-03-18 2015-10-28 株式会社日立製作所 旅客流動予測装置
CN105095994B (zh) * 2015-07-29 2018-12-07 西南交通大学 一种基于线性规划的城轨线路客流峰值预测方法
CN108628991A (zh) * 2018-04-28 2018-10-09 上海久誉软件系统有限公司 轨道交通故障对客流影响的分析及可视化系统
CN111401614B (zh) * 2020-03-09 2022-09-02 西南交通大学 一种城市轨道交通动态客流分配方法及系统
CN111242395B (zh) * 2020-04-26 2020-07-31 北京全路通信信号研究设计院集团有限公司 用于od数据的预测模型构建方法及装置
CN112001548B (zh) * 2020-08-25 2023-10-20 北京交通大学 一种基于深度学习的od客流预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729688A (zh) * 2013-12-18 2014-04-16 北京交通大学 一种基于emd的断面客流神经网络预测方法
CN108022009A (zh) * 2017-11-30 2018-05-11 北京交通大学 一种关于高速铁路客流的组合预测方法

Also Published As

Publication number Publication date
CN112508303A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
US11068916B2 (en) Using machine learning to predict retail business volume
CN109034861B (zh) 基于移动端日志行为数据的用户流失预测方法及装置
CN110928993A (zh) 基于深度循环神经网络的用户位置预测方法及系统
US11423325B2 (en) Regression for metric dataset
CN111260249B (zh) 一种基于lstm和随机森林混合模型的电力通信业务可靠性评估预测方法及装置
US9047560B2 (en) Using event stream data to create a decision graph representing a race participant where leaf nodes comprise rates defining a speed of the race participant in a race simulation
Zou et al. Passenger flow prediction using smart card data from connected bus system based on interpretable xgboost
Stolfi et al. Can I park in the city center? Predicting car park occupancy rates in smart cities
CN112508265A (zh) 面向业务流程管理的时间与活动多任务预测方法及系统
CN112990530B (zh) 区域人口数量预测方法、装置、电子设备和存储介质
CN113379457A (zh) 面向金融领域的智能营销方法
CN114037140A (zh) 预测模型训练、数据预测方法、装置、设备及存储介质
CN112612822A (zh) 一种北斗坐标时间序列的预测方法、装置、设备和存储介质
Gong et al. Partial tail-correlation coefficient applied to extremal-network learning
CN111402028A (zh) 一种信息处理方法、装置及设备
Shankar et al. Analyzing attrition and performance of an employee using machine learning techniques
CN112508303B (zh) 一种od客流预测方法、装置、设备及可读存储介质
CN109800887B (zh) 预测流程模型的生成方法、装置、存储介质和电子设备
CN117196105A (zh) 人数预测方法、装置、计算机设备、存储介质
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
Bhaduri On modifications to the Poisson-triggered hidden Markov paradigm through partitioned empirical recurrence rates ratios and its applications to natural hazards monitoring
Ge et al. Traffic speed prediction with missing data based on TGCN
Trinh et al. Traffic flow forecasting using multivariate time-series deep learning and distributed computing
Duval et al. Telematics combined actuarial neural networks for cross-sectional and longitudinal claim count data
Nekipelov et al. Moment forests

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant