CN109670277A - 一种基于多模态数据融合与多模型集成的旅行时间预测方法 - Google Patents

一种基于多模态数据融合与多模型集成的旅行时间预测方法 Download PDF

Info

Publication number
CN109670277A
CN109670277A CN201910123626.4A CN201910123626A CN109670277A CN 109670277 A CN109670277 A CN 109670277A CN 201910123626 A CN201910123626 A CN 201910123626A CN 109670277 A CN109670277 A CN 109670277A
Authority
CN
China
Prior art keywords
trip
model
data
stroke
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910123626.4A
Other languages
English (en)
Other versions
CN109670277B (zh
Inventor
邹志强
杨浩宇
吴家皋
蔡韬
王兴源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910123626.4A priority Critical patent/CN109670277B/zh
Publication of CN109670277A publication Critical patent/CN109670277A/zh
Application granted granted Critical
Publication of CN109670277B publication Critical patent/CN109670277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Geometry (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多模态数据融合与多模型集成的旅行时间预测方法,包括:多模态数据预处理模块:从出租车GPS轨迹数据中根据载客状态提取出租车行程数据;多模态数据分析、特征提取与特征融合模块:从出租车轨迹数据、天气数据、司机画像数据等领域分别提取相应的特征子向量,并完成特征拼接;多模型集成模块:分别建立梯度提升决策树模型和深度神经网络模型,并使用决策树模型对以上模型的预测结果进行集成。本发明的旅行时间预测方法融合了出租车轨迹数据、天气数据、司机画像数据等多模态数据,充分提取与挖掘对旅行时间有影响的因素,建立了基于决策树的集成模型,使得本发明以较小的计算代价获得了较高的行程旅行时间预测准确率。

Description

一种基于多模态数据融合与多模型集成的旅行时间预测方法
技术领域
本发明涉及一种基于多模态数据融合与多模型集成的旅行时间预测方法,属于智能交通信息处理技术领域。
背景技术
在智能交通系统(Intelligent Traffic Systems,ITS)和基于位置的服务中,旅行时间预测是一个关键、复杂且具有挑战性的问题。交通监管机构可以通过旅行时间间接了解城市流量的变化,实时旅行时间的预测和提示一定程度上还可以缓解交通拥堵,旅行时间估计为ITS中的交通流量控制提供了有效的决策支持。旅行时间预测也是地图导航与出行服务软件的重要模块,如百度地图,滴滴出行等,人们可以通过旅行时间估计来合理安排和规划自己的出行活动。
目前旅行时间预测方法可以分为两种类型:包括基于路段的方法和基于路径的方法。传统的旅行时间预测方法最初依赖于环路探测器收集的车辆行驶数据,结合路段的道路交通状况,根据路段实际行驶过程中大量驾驶员的旅行时间消耗来估计特定路段的行驶时间。然而,在大型运输网络中安装和维护环路检测器的成本很高,因此该解决方案无法大规模有效扩展。随着GPS(Global Positioning System,GPS)技术的进步,安装有 GPS设备的出租车收集了大量的出租车轨迹数据,这些数据逐渐开始用于估计路段的行驶速度和行程时间。旅行时间预测方法初步研究侧重于基于路段的研究,固定路段的旅行时间预测被认为是时间序列预测问题。经典的时间序列预测模型,包括差分整合移动平均自回归模型、卡尔曼滤波器以及长短时记忆网络都曾被用来解决旅行时间预测的问题。然而在现实生活中,车辆实际行驶的路线由多个路段组成。基于路径的方法分别计算每个路段的行程时间并进行累积,这些方法虽然考虑了路段的连续性,但是没有考虑交叉路口,交通灯等的影响,已有的基于路段和路径的预测方法将不可避免地产生较大误差。
城市的交通网络涉及极其复杂的情况,然而上述方法仅基于现实世界的物理模型,它还需要考虑交通系统的空间特征,例如交通信号灯和经过道路的数目、速度限制等。近年来随着交通数据的规模越来越大以及机器学习技术的发展,基于行程起讫点的方法尝试忽略行驶过程中的轨迹信息,重新思考旅行时间预测问题。与基于路段和路线的方法不同,基于行程起讫点的旅行时间预测方法主要基于以下三个立足点:(1)部分城市没有完整的轨迹数据集,数据集中仅包括行程的起始地和目的地;(2)如果考虑路线信息,问题将转化为路线选择和时间计算两部分。例如,百度、高德等地图数据服务提供商首先预测路线,然后使用基于路径的方法预测相应的时间,这将会带来较大的计算代价。由于密集的城市道路网络和复杂多变的交通条件,很难考虑行驶过程中可能遇到的交通状况,特别在交叉路口等。另外,乘客在出行时,更关注行程的旅行时间,而非具体的行驶路线。
发明内容
发明目的:旅行时间预测问题存在多种复杂情况,为了克服现有技术中存在的不足,本发明提供一种基于多模态数据融合与多模型集成的旅行时间预测方法,以解决城市中任意起讫点行程的旅行时间难以获得精准预测结果的问题。
要实现上述发明内容,必须要解决几个核心问题:(1)目前存在的旅行时间预测的方法中考虑的数据领域相对单一。不仅应该考虑交通系统的空间特征,还要考虑时间特征,例如早晚峰值的频繁拥堵,以及交通事故造成的意外拥堵。因为交通系统由人和车组成,并受外部因素的影响,旅行时间预测还需要引入个性化特征和外部特征的建模; (2)旅行时间预测的研究大多局限于单一模型。由于交通流变化过程是一个实时的、非线性的、高维的、非平稳的随机过程,旅行时间变化的随机性和不确定性变得越来越强,单个模型容易出现偏差且较难消除。由于单模型固有的缺陷,对于ITS中的各种情况,很难做出良好的预测。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于多模态数据融合与多模型集成的旅行时间预测方法,其特征在于,包括以下步骤:
a.多模态数据预处理
因为本方法忽略了行程过程中的轨迹点,因此首先需要采用行程提取算法对出租车轨迹数据进行预处理,忽略异常轨迹点并根据载客状态提取出租车行程数据;
b.多模态数据分析、特征提取与特征融合
旅行时间受到多个因素的影响,本方法从出租车轨迹数据、天气数据、司机画像数据等领域分别提取相应的特征子向量,将输入特征的离散特征使用独热编码,与其他连续型特征拼接构成特征子向量,完成特征拼接;
c.多模型集成
所述模型建立过程包括子模型建立和模型集成两部分:将描述行程的特征进行特定的处理,分别输入到梯度提升决策树模型和深度神经网络模型中,然后基于子模型的预测结果建立以决策树为基础的集成模型,最终使用该模型预测得到行程的旅行时间。
进一步的,所述行程提取算法具体包括:
输入:一辆出租车轨迹序列T={P1,P2,P3,...,Pn}
输出:行程数据集
a1.对轨迹序列进行遍历,设置循环变量i从1到n-1,n表示轨迹点的总数,初始时i=1,行程状态位为0;
a2.当Pi的载客状态为1,跳转至a3,否则跳转至a4;
a3.当行程状态位为1时,跳转至a6,否则将Pi记录为行程的起始点,行程状态位置1,跳转至a6;
a4.当行程状态位为1时,跳转至a5,否则跳转至a6;
a5.当Pi+1载客状态位为1时当前行程记录完毕,将该行程计入行程数据集中,行程状态位置0,否则跳转到a6;
a6.执行i=i+1;
a7.当i<n时,跳转至a2,否则完成行程数据集的提取。
进一步的,所述b.多模态数据分析、特征提取与特征融合具体包括:
b1.分析出租车行程数据,提取行程空间特征:根据半正矢公式计算在地球上两点之间的大圆距离,进而提取曼哈顿距离和方位角,使用k-means方法进行空间聚类等,构成空间特征子向量trips
b2.分析出租车行程数据,提取行程时间特征:分别提取行程出发时间的月份、日期等离散型周期性信息以及是否为工作日、节假日等状态信息,构成时间特征子向量tript
b3.分析天气数据,提取天气特征:根据天气状况将天气划分为不同的等级,使用独热编码方法得到天气数据的特征,构成天气特征子向量tripw
b4.分析司机画像数据,提取司机特征:获取驾驶出租车的司机编号、性别、年龄、驾龄等信息(从司机画像数据中针对司机编号使用实体嵌入式处理方法,得到每一个司机的特征),构成司机特征子向量tripd
b5.将行程空间特征子向量、行程时间特征子向量、天气特征子向量与司机画像特征子向量进行拼接,并与该行程对应的旅行时间triptraveltime组成描述行程信息的完整特征向量:trip=((trips,tript,tripw,tripd),triptraveltime)。
进一步的,所述c.多模型集成具体包括:
c1.建立梯度提升决策树模型:梯度提升决策树模型结合人工挖掘的特征来获得非线性映射和高阶特征,此处设置梯度提升决策树的损失函数为均方误差损失函数;
c2.建立深度神经网络模型:深度神经网络适用于处理高维稀疏特征;
c3.建立基于决策树的集成模型:集成模型指训练多个基础模型并将它们组合起来,这样的算法可以比单个模型实现更好的预测结果。
其中,c1.梯度提升决策树模型具体包括:
输入:样本集{tripj|trip=((trips,tript,tripw,tripd),triptraveltime),j∈(1,all)},其中all为样本的总数目
输出:梯度提升决策树模型
1.1)初始化第一棵决策树T0(trip)=0;
1.2)设置参与梯度提升决策树模型训练的决策树的总数目为M,分别对 m=1,2,...,M,在生成第m棵决策树时,计算每个样本的残差rmj,其中j=1,2,...,all,通过使用回归决策树模型拟合每个样本的残差rmj,学习得到第m棵决策树Tm(trip;Θm),其中Θm为第m棵决策树中的参数;
1.3)更新
1.4)得到梯度提升决策树模型fM(trip),其输出就是使用梯度提升决策树模型预测出的旅行时间;
c2.深度神经网络模型具体包括:
2.1)基于空间网格划分进一步提取空间特征
为了细化不同区域的特性,将城市细粒度划分为200*200的网格。遍历数据集中的行程,将行程的起始地与目的地归属到对应的网格中,获得出发地编号和目的地编号;
2.2)建立深度神经网络模型
对起始地编号、目的地编号以及司机编号通过实体嵌入层将正整数编号转换为具有固定大小的向量,获得到的实体嵌入向量分别经过多层隐藏层处理后和特征向量提取模块提取出的其余特征进行拼接,通过多层全连接网络进行训练;
2.3)损失函数及优化方法
在上述模型构建后,需要训练该模型,其中设置训练样本的批大小为512,选用均方误差损失函数,然后使用激活函数为修正线性单元(Rectified Linear Unit,ReLU),由激活函数完成非线性变换,增强本模型对特征的学习能力,通过Adam优化算法进行参数寻优以最小化损失函数,其中学习率为0.001,衰减项1e-08,动量0.9。迭代次数设置为100,使用5折交叉验证的获得最佳模型g(trip)。
c3.基于决策树的集成模型具体包括:
对于训练集中的所有样本{tripj|trip=((trips,tript,tripw,tripd),triptraveltime),j∈(1,all)},将tripj分别输入训练后的梯度提升决策树模型fM(trip)得到预测结果yGBDT和深度神经网络模型g(trip)得到预测结果yDNN,构建出集成模型的新的训练样本集 ((yGBDr,yDNN),triptraveltime),在新的样本集所在的输入空间中,使用最小二乘法对切分变量yGBDT与yDNN遍历并计算每个切分点的损失值,选择具有最小损失值的切分变量及切分点,递归地将每个区域划分为两个子区域并决定每个子区域上的输出值,构建回归决策树模型,该模型的输出就是预测的旅行时间。
进一步的,所述深度神经网络模型具体包括:
第一部分:输入数据为起始地编号和目的地编号,包括实体嵌入层和三层隐藏层,嵌入层输入维度为200(空间特征提取中将城市细粒度划分为的200*200的网格),输出维度为16的数据,隐藏层每层有256个神经元节点;
第二部分:输入数据为司机编号1*1,包括实体嵌入层和三层隐藏层,嵌入层输入维度为NumDriver(NumDriver为司机数目),输出维度为32的数据;
第三部分:将第一部分输出的特征向量、第二部分输出的特征向量与其余特征组成的特征向量进行拼接;
第四部分:是一个包含512个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为512的数据;
第五部分:是一个包含256个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为256的数据;
第六部分:是一个包含128个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为128的数据;
第七部分:是一个包含64个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为64的数据;
第八部分:是一个包含1个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为1的数据,该数据就是使用深度神经网络模型预测出的旅行时间。
有益效果:本发明提供的一种基于多模态数据融合与多模型集成的旅行时间预测方法,相对于现有技术,具有以下优点:
(1)由于当前解决旅行时间预测问题,往往需要来自现实生活的大规模车辆轨迹数据,如果所有车辆行驶过程中的轨迹数据都参与建模过程,训练任务将会有很大的计算代价,本发明从大量的轨迹数据中提取少量的行程数据参与模型计算,将大大减小运算代价,提高了运算速度;
(2)由于旅行时间问题受到多个复杂因素的影响,不仅需要从时空角度分析问题,还需要结合天气数据和司机画像等其他数据领域的特征。由于梯度提升决策树在预测短途行程方面具有优势,深度神经网络擅长预测长途或者包含复杂交通状况的行程,本发明提出了一种基于决策树的融合方法,综合了梯度提升决策树和深度神经网络方法两个子模型的优点,有效地提高了模型的预测精度。
附图说明
图1为本发明中一种基于多模态数据融合与多模型集成的旅行时间预测方法的流程图;
图2为本发明中行程提取算法的流程图;
图3为本发明中深度神经网络模型的结构图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为一种基于多模态数据融合与多模型集成的旅行时间预测方法,主要包括以下步骤:
a.多模态数据预处理
因为本方法忽略了行程过程中的轨迹点,因此首先需要采用行程提取算法对出租车 GPS轨迹数据进行预处理,主要包括异常轨迹点的纠正与根据载客状态位提取有效行程两部分;
b.特征子向量提取与特征融合
旅行时间受到多个因素的影响,本方法通过特征向量提取模块从出租车轨迹数据、天气数据、司机画像数据等领域分别提取相应的特征子向量并进行特征拼接;
c.多模型集成
所述模型建立过程包括子模型建立和模型融合两部分:首先根据梯度提升决策树和深度神经网处理回归问题的不同特性,对描述行程的特征进行特定的处理与拼接输入到子模型中,然后使用子模型分别预测旅行时间;然后基于子模型的预测结果建立以决策树为基础的集成模型,最终使用模型预测得到行程的旅行时间。
如图2所示,所述行程提取算法具体包括:
输入:一辆出租车轨迹序列T={P1,P2,P3,...,Pn}
输出:行程数据集
a1.对轨迹序列进行遍历,设置循环变量i从1到n-1,n表示轨迹点的总数,初始时i=1,行程状态位为0;
a2.当Pi的载客状态为1,跳转至a3,否则跳转至a4;
a3.当行程状态位为1时,跳转至a6,否则将Pi记录为行程的起始点,行程状态位置1,跳转至a6;
a4.当行程状态位为1时,跳转至a5,否则跳转至a6;
a5.当Pi+1载客状态位为1时当前行程记录完毕,将该行程计入行程数据集中,行程状态位置0,否则跳转到a6;
a6.执行i=i+1;
a7.当i<n时,跳转至a2,否则完成行程数据集的提取。
进一步的,所述b.多模态数据分析、特征提取与特征融合具体包括:
b1.提取空间特征,设lat1,lng1表示A点的经纬度,lat2,lng2表示B点的经纬度; a=lat1-lat2为两点的纬度之差,b=lng1-lng2为两点的经度之差;r为地球的半径,约为6371km
根据半正矢公式计算在地球上两点之间的大圆距离,半正矢公式如下:
计算曼哈顿距离,曼哈顿距离又称马氏距离(Manhattan distance),计算公式为:
dManhattan=|a|+|b| (2)
提取方位角,从两地的经纬度,我们不仅可以计算两地的距离信息,还可以得到两地的方向信息,计算公式为
α=180°-90°sgn(a)-arctan(b/a) (3)
将输入的起始地坐标与目的地坐标使用k-means方法聚类,将聚类后得到的类簇编号使用独热方式编码,最终构成空间特征子向量trips
b2.提取行程时间特征,分别提取行程出发时间的月份、日期等离散型周期性信息以及是否为工作日、节假日等状态信息,最终构成时间特征子向量tript
b3.提取天气特征,根据天气状况将天气划分为不同的等级,如下表所示
天气状况 量化等级
晴天、阴天 1
雷阵雨、小雨、雾 2
小到中雨、中雨 3
大雨、大雾、小雪 4
中雪、大雪 5
最终构成天气特征子向量tripw
b4.提取司机特征,获取驾驶出租车的司机编号、性别、年龄、驾龄等信息,最终构成司机特征子向量tripd
b5.将行程空间特征子向量、行程时间特征子向量、天气特征子向量与司机画像特征子向量进行拼接,并与该行程对应的旅行时间triptraveltime组成描述行程信息的完整特征向量:trip=((trips,tript,tripw,tripd),triptraveltime)。
进一步的,所述c.多模型集成具体包括:
c1.建立梯度提升决策树模型
梯度提升决策树擅长结合人工挖掘的特征来获得高阶属性或非线性映射,此处设置梯度提升决策树的损失函数为均方误差损失函数。
输入:样本集{tripj|trip=((trips,tript,tripw,tripd),triptraveltime),j∈(1,all)},其中all为样本的总数目
输出:梯度提升决策树模型
1.1)初始化第一棵决策树T0(trip)=0;
1.2)设置参与梯度提升决策树模型训练的决策树的总数目为M,分别对 m=1,2,...,M,在生成第m棵决策树时,计算每个样本的残差rmj,其中j=1,2,...,all,通过使用回归决策树模型拟合每个样本的残差rmj,学习得到第m棵决策树Tm(trip;Θm),其中Θm为第m棵决策树中的参数;
1.3)更新
1.4)得到梯度提升决策树模型fM(trip),其输出就是使用梯度提升决策树模型预测出的旅行时间;
c2.建立深度神经网络模型。
由于梯度提升决策树算法的局限性,处理高维稀疏特征并不容易,而深度神经网络适用于具有高维特征的场景。
1.基于空间网格划分进一步提取空间特征
为了细化不同区域的特性,将城市细粒度划分为200*200的网格。遍历数据集中的行程,将行程的起始地与目的地归属到对应的网格中,获得出发地编号和目的地编号;
2.建立深度神经网络模型
对起始地编号、目的地编号以及司机编号通过实体嵌入层将正整数编号转换为具有固定大小的向量,获得到的实体嵌入向量分别经过多层隐藏层处理后和特征向量提取模块提取出的其余特征进行拼接,通过多层全连接网络进行训练;
3.损失函数及优化方法
在上述模型构建后,需要训练该模型,其中设置训练样本的批大小为512,选用均方误差损失函数,然后使用激活函数为修正线性单元(Rectified Linear Unit,ReLU),由激活函数完成非线性变换,增强本模型对特征的学习能力,通过Adam优化算法进行参数寻优以最小化损失函数,其中学习率为0.001,衰减项1e-08,动量0.9。迭代次数设置为100,使用5折交叉验证的获得最佳模型g(trip)。
其中,如图3所示,所述深度神经网络模型具体包括:
第一部分:输入数据为起始地编号和目的地编号,包括实体嵌入层和三层隐藏层,嵌入层输入维度为200(空间特征提取中将城市细粒度划分为的200*200的网格),输出维度为16的数据,隐藏层每层有256个神经元节点;
第二部分:输入数据为司机编号1*1,包括实体嵌入层和三层隐藏层,嵌入层输入维度为NumDriver(NumDriver为司机数目),输出维度为32的数据;
第三部分:将第一部分输出的特征向量、第二部分输出的特征向量与其余特征组成的特征向量进行拼接;
第四部分:是一个包含512个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为512的数据;
第五部分:是一个包含256个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为256的数据;
第六部分:是一个包含128个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为128的数据;
第七部分:是一个包含64个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为64的数据;
第八部分:是一个包含1个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为1的数据,该数据就是使用深度神经网络模型预测出的旅行时间。
c3.建立基于决策树的集成模型
对于训练集中的所有样本{tripj|trip=((trips,tript,tripw,tripd),triptraveltime),j∈(1,all)},将tripj分别输入训练后的梯度提升决策树模型fM(trip)得到预测结果yGBDT和深度神经网络模型g(trip)得到预测结果yDNN,构建出集成模型的新的训练样本集 ((yGBDT,yDNN),triptraveltime),在新的样本集所在的输入空间中,使用最小二乘法对切分变量yGBDT与yDNN遍历并计算每个切分点的损失值,选择具有最小损失值的切分变量及切分点,递归地将每个区域划分为两个子区域并决定每个子区域上的输出值,构建回归决策树模型,该模型的输出就是预测的旅行时间。
相对于现有技术,在本发明中旅行时间预测的方法融合了轨迹数据、天气数据、司机画像数据等,充分提取与挖掘对旅行时间有影响的因素,融合来自不同模态的信息,使用决策树模型集成了梯度提升决策树模型和深度神经网络模型的预测结果,在计算代价减小的情况下也能获得较高的预测准确率。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于多模态数据融合与多模型集成的旅行时间预测方法,其特征在于,包括以下步骤:
a.多模态数据预处理
采用行程提取算法对出租车轨迹数据进行预处理,提取出租车行程数据;
b.多模态数据分析、特征提取与特征融合
通过分析包括出租车行程数据、天气数据、司机画像数据的多模态数据,分别提取相应的特征子向量,将输入特征的离散特征使用独热编码,与其他连续型特征拼接构成特征子向量,完成特征拼接;
c.多模型集成
所述模型建立过程包括子模型建立和模型集成两部分:将描述行程的特征进行特定的处理,分别输入到梯度提升决策树模型和深度神经网络模型这两个子模型中,然后基于子模型的预测结果建立基于决策树的集成模型,最终使用该模型预测得到行程的旅行时间。
2.根据权利要求1所述的一种基于多模态数据融合与多模型集成的旅行时间预测方法,其特征在于,所述行程提取算法具体包括:
输入:一辆出租车轨迹序列T={P1,P2,P3,...,Pn}
输出:行程数据集
a1.对轨迹序列进行遍历,设置循环变量i从1到n-1,n表示轨迹点的总数,初始时i=1,行程状态位为0;
a2.当Pi的载客状态为1,跳转至a3,否则跳转至a4;
a3.当行程状态位为1时,跳转至a6,否则将Pi记录为行程的起始点,行程状态位置1,跳转至a6;
a4.当行程状态位为1时,跳转至a5,否则跳转至a6;
a5.当Pi+1载客状态位为1时当前行程记录完毕,将该行程计入行程数据集中,行程状态位置0,否则跳转到a6;
a6.执行i=i+1;
a7.当i<n时,跳转至a2,否则完成行程数据集的提取。
3.根据权利要求2所述的一种基于多模态数据融合与多模型集成的旅行时间预测方法,其特征在于,所述b.多模态数据分析、特征提取与特征融合包括:
b1.分析出租车行程数据,提取行程空间特征:根据半正矢公式计算在地球上两点之间的大圆距离,进而提取曼哈顿距离和方位角,使用k-means方法进行空间聚类,将聚类后得到的类簇编号使用独热方式编码,构成空间特征子向量trips
b2.分析出租车行程数据,提取行程时间特征:分别提取行程出发时间的离散型周期性信息以及状态信息,构成时间特征子向量tript
b3.分析天气数据,提取天气特征:根据天气状况将天气划分为不同的等级,构成天气特征子向量tripw
b4.分析司机画像数据,提取司机特征:获取驾驶出租车的司机画像信息,构成司机特征子向量tripd
b5.将行程空间特征子向量、行程时间特征子向量、天气特征子向量与司机特征子向量进行拼接,并与该行程对应的旅行时间triptraveltime组成描述行程信息的完整特征向量:trip=((trips,tript,tripw,tripd),triptraveltime)。
4.根据权利要求3所述的一种基于多模态数据融合与多模型集成的旅行时间预测方法,其特征在于,所述c.多模型集成包括:
c1.建立梯度提升决策树模型:
输入:样本集{tripj|trip=((trips,tript,tripw,tripd),triptraveltime),j∈(1,all)},其中all为样本的总数目
输出:梯度提升决策树模型
1.1)初始化第一棵决策树T0(trip)=0;
1.2)设置参与梯度提升决策树模型训练的决策树的总数目为M,分别对m=1,2,...,M,在生成第m棵决策树时,计算每个样本的残差rmj,其中通过使用回归决策树模型拟合每个样本的残差rmj,学习得到第m棵决策树Tm(trip;Θm),其中Θm为第m棵决策树中的参数;
1.3)更新
1.4)得到梯度提升决策树模型fM(trip),其输出就是使用梯度提升决策树模型预测出的旅行时间;
c2.建立深度神经网络模型:
2.1)基于空间网格划分进一步提取空间特征
将城市细粒度划分为200*200的网格,遍历行程数据集中的行程,将行程的起始地与目的地归属到对应的网格中,获得出发地编号和目的地编号;
2.2)建立深度神经网络模型
对出发地编号、目的地编号以及司机编号通过实体嵌入层将正整数编号转换为具有固定大小的向量,获得的实体嵌入向量分别经过多层隐藏层处理后和特征向量提取模块提取出的其余特征进行拼接,通过多层全连接网络进行训练;
2.3)损失函数及优化方法
在上述模型构建后,训练该模型,其中设置训练样本的批大小为512,选用均方误差损失函数,然后使用激活函数为修正线性单元,由激活函数完成非线性变换,通过Adam优化算法进行参数寻优,其中学习率为0.001,衰减项1e-08,动量0.9,迭代次数设置为100,使用5折交叉验证的获得最佳模型g(trip);
c3.建立基于决策树的集成模型:
对于训练集中的所有样本{tripj|trip=((trips,tript,tripw,tripd),triptraveltime),j∈(1,all)},将tripj分别输入训练后的梯度提升决策树模型fM(trip)得到预测结果yGBDT和深度神经网络模型g(trip)得到预测结果yDNN,构建出集成模型的新的训练样本集((yGBDT,yDNN),triptraveltime),在新的样本集所在的输入空间中,使用最小二乘法对切分变量yGBDT与yDNN遍历并计算每个切分点的损失值,选择具有最小损失值的切分变量及切分点,递归地将每个区域划分为两个子区域并决定每个子区域上的输出值,构建回归决策树模型,该模型的输出就是预测的旅行时间。
5.根据权利要求4所述的一种基于多模态数据融合与多模型集成的旅行时间预测方法,其特征在于,所述深度神经网络模型具体包括:
第一部分:输入数据为出发地编号和目的地编号,包括实体嵌入层和三层隐藏层,嵌入层输入维度为200,输出维度为16的数据,隐藏层每层有256个神经元节点;
第二部分:输入数据为司机编号1*1,包括实体嵌入层和三层隐藏层,嵌入层输入维度为NumDriver,其中NumDriver为司机数目,输出维度为32的数据;
第三部分:将第一部分输出的特征向量、第二部分输出的特征向量与其余特征组成的特征向量进行拼接;
第四部分:是一个包含512个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为512的数据;
第五部分:是一个包含256个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为256的数据;
第六部分:是一个包含128个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为128的数据;
第七部分:是一个包含64个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为64的数据;
第八部分:是一个包含1个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为1的数据,该数据就是使用深度神经网络模型预测出的旅行时间。
CN201910123626.4A 2019-02-19 2019-02-19 一种基于多模态数据融合与多模型集成的旅行时间预测方法 Active CN109670277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910123626.4A CN109670277B (zh) 2019-02-19 2019-02-19 一种基于多模态数据融合与多模型集成的旅行时间预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910123626.4A CN109670277B (zh) 2019-02-19 2019-02-19 一种基于多模态数据融合与多模型集成的旅行时间预测方法

Publications (2)

Publication Number Publication Date
CN109670277A true CN109670277A (zh) 2019-04-23
CN109670277B CN109670277B (zh) 2022-09-09

Family

ID=66151720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910123626.4A Active CN109670277B (zh) 2019-02-19 2019-02-19 一种基于多模态数据融合与多模型集成的旅行时间预测方法

Country Status (1)

Country Link
CN (1) CN109670277B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096647A (zh) * 2019-05-10 2019-08-06 腾讯科技(深圳)有限公司 优化量化模型的方法、装置、电子设备及计算机存储介质
CN110119775A (zh) * 2019-05-08 2019-08-13 腾讯科技(深圳)有限公司 医疗数据处理方法、装置、系统、设备和存储介质
CN110176142A (zh) * 2019-05-17 2019-08-27 佳都新太科技股份有限公司 车辆轨迹预测模型建立及预测方法
CN110367897A (zh) * 2019-07-25 2019-10-25 宁波方太厨具有限公司 智能设备的自动暖碟的控制方法、系统、设备和存储介质
CN110489671A (zh) * 2019-08-20 2019-11-22 南京邮电大学 一种基于encoder-decoder模型的道路充电桩推荐方法
CN110706200A (zh) * 2019-09-02 2020-01-17 杭州深睿博联科技有限公司 数据预测的方法及装置
CN110751395A (zh) * 2019-10-21 2020-02-04 中国民航信息网络股份有限公司 一种旅客行程状态确定方法、装置及服务器
CN110766234A (zh) * 2019-10-29 2020-02-07 济南大学 基于信息融合的水泥冷却过程篦下压力预测方法
CN110827540A (zh) * 2019-11-04 2020-02-21 黄传明 一种多模态数据融合的机动车移动模式识别方法及系统
CN110853349A (zh) * 2019-10-24 2020-02-28 杭州飞步科技有限公司 车辆调度方法、装置及设备
CN111190891A (zh) * 2019-12-27 2020-05-22 武汉长江通信产业集团股份有限公司 一种多语义轨迹数据分段存储方法
CN111292549A (zh) * 2020-02-03 2020-06-16 百度在线网络技术(北京)有限公司 建立路线耗时预估模型的方法、预估路线耗时的方法及对应装置
CN111353009A (zh) * 2020-02-03 2020-06-30 百度在线网络技术(北京)有限公司 建立路线耗时预估模型、预估路线耗时的方法及对应装置
CN111554118A (zh) * 2020-04-24 2020-08-18 深圳职业技术学院 一种公交车到站时间的动态预测方法及系统
CN111582912A (zh) * 2020-04-20 2020-08-25 佛山科学技术学院 一种基于深度嵌入聚类算法的画像建模方法
CN111639270A (zh) * 2020-06-01 2020-09-08 山东汇贸电子口岸有限公司 一种基于时间序列预测与层次分析的路线规划方法
CN111915874A (zh) * 2019-05-08 2020-11-10 中国科学院大学 一种道路平均通行时间预测方法
CN112258223A (zh) * 2020-10-13 2021-01-22 上海数鸣人工智能科技有限公司 一种基于决策树的营销广告点击的预测方法
CN112269948A (zh) * 2020-10-16 2021-01-26 北京百度网讯科技有限公司 估计剩余路线时长的方法、装置、设备和计算机存储介质
CN112329928A (zh) * 2020-12-30 2021-02-05 四川新网银行股份有限公司 基于异构模型的用户满意度分析方法
CN112435462A (zh) * 2020-10-16 2021-03-02 同盾控股有限公司 短时交通流量预测的方法、系统、电子装置和存储介质
CN112633937A (zh) * 2020-12-30 2021-04-09 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合梯度提升决策树的营销预测方法
CN112905912A (zh) * 2021-03-30 2021-06-04 第四范式(北京)技术有限公司 配时方案确定方法及装置
CN113096388A (zh) * 2021-03-22 2021-07-09 北京工业大学 一种基于梯度提升决策树的短时交通流量预测方法
CN113204718A (zh) * 2021-04-22 2021-08-03 武汉大学 一种顾及时空语义及驾驶状态的车辆轨迹目的地预测方法
CN114372627A (zh) * 2022-01-07 2022-04-19 中南大学 基于混合深度学习框架的城市车辆旅行时间估计方法
CN114387782A (zh) * 2022-01-12 2022-04-22 智道网联科技(北京)有限公司 预测交通状态的方法、装置和电子设备
CN115130589A (zh) * 2022-07-01 2022-09-30 四川大学 一种基于卡尔曼滤波的改进pcnn模型空间聚类分析方法
CN117649001A (zh) * 2024-01-29 2024-03-05 南京信息工程大学 基于改进金枪鱼群算法优化gbdt对气温进行偏差订正的方法
CN117744950A (zh) * 2024-01-24 2024-03-22 深圳宇翊技术股份有限公司 出行需求分析方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106981198A (zh) * 2017-05-24 2017-07-25 北京航空航天大学 用于旅行时间预测的深度学习网络模型及其建立方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106981198A (zh) * 2017-05-24 2017-07-25 北京航空航天大学 用于旅行时间预测的深度学习网络模型及其建立方法

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119775A (zh) * 2019-05-08 2019-08-13 腾讯科技(深圳)有限公司 医疗数据处理方法、装置、系统、设备和存储介质
CN111915874A (zh) * 2019-05-08 2020-11-10 中国科学院大学 一种道路平均通行时间预测方法
CN110096647B (zh) * 2019-05-10 2023-04-07 腾讯科技(深圳)有限公司 优化量化模型的方法、装置、电子设备及计算机存储介质
CN110096647A (zh) * 2019-05-10 2019-08-06 腾讯科技(深圳)有限公司 优化量化模型的方法、装置、电子设备及计算机存储介质
CN110176142A (zh) * 2019-05-17 2019-08-27 佳都新太科技股份有限公司 车辆轨迹预测模型建立及预测方法
CN110367897A (zh) * 2019-07-25 2019-10-25 宁波方太厨具有限公司 智能设备的自动暖碟的控制方法、系统、设备和存储介质
CN110489671A (zh) * 2019-08-20 2019-11-22 南京邮电大学 一种基于encoder-decoder模型的道路充电桩推荐方法
CN110489671B (zh) * 2019-08-20 2022-03-11 南京邮电大学 一种基于encoder-decoder模型的道路充电桩推荐方法
CN110706200A (zh) * 2019-09-02 2020-01-17 杭州深睿博联科技有限公司 数据预测的方法及装置
CN110706200B (zh) * 2019-09-02 2022-08-05 杭州深睿博联科技有限公司 数据预测的方法及装置
CN110751395A (zh) * 2019-10-21 2020-02-04 中国民航信息网络股份有限公司 一种旅客行程状态确定方法、装置及服务器
CN110751395B (zh) * 2019-10-21 2023-07-04 中国民航信息网络股份有限公司 一种旅客行程状态确定方法、装置及服务器
CN110853349A (zh) * 2019-10-24 2020-02-28 杭州飞步科技有限公司 车辆调度方法、装置及设备
CN110766234B (zh) * 2019-10-29 2023-06-20 济南大学 基于信息融合的水泥冷却过程篦下压力预测方法
CN110766234A (zh) * 2019-10-29 2020-02-07 济南大学 基于信息融合的水泥冷却过程篦下压力预测方法
CN110827540A (zh) * 2019-11-04 2020-02-21 黄传明 一种多模态数据融合的机动车移动模式识别方法及系统
CN110827540B (zh) * 2019-11-04 2021-03-12 黄传明 一种多模态数据融合的机动车移动模式识别方法及系统
CN111190891A (zh) * 2019-12-27 2020-05-22 武汉长江通信产业集团股份有限公司 一种多语义轨迹数据分段存储方法
US11719550B2 (en) 2020-02-03 2023-08-08 Baidu Online Network Teghnology (Beiiing) Co., Ltd. Method and apparatus for building route time consumption estimation model, and method and apparatus for estimating route time consumption
CN111292549A (zh) * 2020-02-03 2020-06-16 百度在线网络技术(北京)有限公司 建立路线耗时预估模型的方法、预估路线耗时的方法及对应装置
CN111353009A (zh) * 2020-02-03 2020-06-30 百度在线网络技术(北京)有限公司 建立路线耗时预估模型、预估路线耗时的方法及对应装置
CN111582912B (zh) * 2020-04-20 2023-04-25 佛山科学技术学院 一种基于深度嵌入聚类算法的画像建模方法
CN111582912A (zh) * 2020-04-20 2020-08-25 佛山科学技术学院 一种基于深度嵌入聚类算法的画像建模方法
CN111554118B (zh) * 2020-04-24 2022-01-25 深圳职业技术学院 一种公交车到站时间的动态预测方法及系统
CN111554118A (zh) * 2020-04-24 2020-08-18 深圳职业技术学院 一种公交车到站时间的动态预测方法及系统
CN111639270A (zh) * 2020-06-01 2020-09-08 山东汇贸电子口岸有限公司 一种基于时间序列预测与层次分析的路线规划方法
CN112258223B (zh) * 2020-10-13 2021-05-18 上海数鸣人工智能科技有限公司 一种基于决策树的营销广告点击的预测方法
CN112258223A (zh) * 2020-10-13 2021-01-22 上海数鸣人工智能科技有限公司 一种基于决策树的营销广告点击的预测方法
CN112435462A (zh) * 2020-10-16 2021-03-02 同盾控股有限公司 短时交通流量预测的方法、系统、电子装置和存储介质
CN112435462B (zh) * 2020-10-16 2021-12-07 同盾控股有限公司 短时交通流量预测的方法、系统、电子装置和存储介质
CN112269948B (zh) * 2020-10-16 2024-03-22 北京百度网讯科技有限公司 估计剩余路线时长的方法、装置、设备和计算机存储介质
CN112269948A (zh) * 2020-10-16 2021-01-26 北京百度网讯科技有限公司 估计剩余路线时长的方法、装置、设备和计算机存储介质
CN112633937A (zh) * 2020-12-30 2021-04-09 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合梯度提升决策树的营销预测方法
CN112633937B (zh) * 2020-12-30 2023-10-20 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合gbdt的营销预测方法
CN112329928A (zh) * 2020-12-30 2021-02-05 四川新网银行股份有限公司 基于异构模型的用户满意度分析方法
CN113096388B (zh) * 2021-03-22 2022-09-09 北京工业大学 一种基于梯度提升决策树的短时交通流量预测方法
CN113096388A (zh) * 2021-03-22 2021-07-09 北京工业大学 一种基于梯度提升决策树的短时交通流量预测方法
CN112905912B (zh) * 2021-03-30 2024-02-02 第四范式(北京)技术有限公司 配时方案确定方法及装置
CN112905912A (zh) * 2021-03-30 2021-06-04 第四范式(北京)技术有限公司 配时方案确定方法及装置
CN113204718A (zh) * 2021-04-22 2021-08-03 武汉大学 一种顾及时空语义及驾驶状态的车辆轨迹目的地预测方法
CN114372627A (zh) * 2022-01-07 2022-04-19 中南大学 基于混合深度学习框架的城市车辆旅行时间估计方法
CN114372627B (zh) * 2022-01-07 2024-06-07 中南大学 基于混合深度学习框架的城市车辆旅行时间估计方法
CN114387782A (zh) * 2022-01-12 2022-04-22 智道网联科技(北京)有限公司 预测交通状态的方法、装置和电子设备
CN115130589A (zh) * 2022-07-01 2022-09-30 四川大学 一种基于卡尔曼滤波的改进pcnn模型空间聚类分析方法
CN117744950A (zh) * 2024-01-24 2024-03-22 深圳宇翊技术股份有限公司 出行需求分析方法、装置、设备及存储介质
CN117649001A (zh) * 2024-01-29 2024-03-05 南京信息工程大学 基于改进金枪鱼群算法优化gbdt对气温进行偏差订正的方法
CN117649001B (zh) * 2024-01-29 2024-04-16 南京信息工程大学 基于改进金枪鱼群算法优化gbdt对气温进行偏差订正的方法

Also Published As

Publication number Publication date
CN109670277B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN109670277A (zh) 一种基于多模态数据融合与多模型集成的旅行时间预测方法
Kumar et al. Bus travel time prediction using a time-space discretization approach
CN101639978B (zh) 一种动态划分交通控制子区的方法
CN110298500B (zh) 一种基于出租车数据和城市路网的城市交通轨迹数据集生成方法
CN106910199B (zh) 面向城市空间信息采集的车联网众包方法
CN103646560B (zh) 出租车行车轨迹经验知识路径的提取方法
CN105957342A (zh) 基于众包时空大数据的车道级道路测图方法及系统
CN106384509A (zh) 考虑出租车运营状态下的城市道路行程时间分布估算方法
CN113065074B (zh) 一种基于知识图谱和自注意力机制的轨迹目的地预测的方法
CN110836675B (zh) 一种基于决策树的自动驾驶搜索决策方法
CN102087788A (zh) 基于浮动车车速置信度的交通状态参数估计方法
CN110488842A (zh) 一种基于双向内核岭回归的车辆轨迹预测方法
CN112863182B (zh) 基于迁移学习的跨模态数据预测方法
CN112784000B (zh) 基于出租车轨迹数据的寻客方法
CN112991743B (zh) 基于行驶路径的实时交通风险ai预测方法及其系统
CN112633602B (zh) 一种基于gis地图信息的交通拥堵指数预测方法及装置
CN112734176A (zh) 一种充电站建站方法、装置、终端设备和可读存储介质
Olayode et al. Application of adaptive neuro-fuzzy inference system model on traffic flow of vehicles at a signalized road intersections
Chen et al. Gocomfort: Comfortable navigation for autonomous vehicles leveraging high-precision road damage crowdsensing
Kumar et al. Analytical approach to identify the optimum inputs for a bus travel time prediction method
CN111723871B (zh) 一种公交车实时车厢满载率的估算方法
KR20150072470A (ko) 도심 및 고속도로에서의 교통흐름의 시간 및 공간 도메인 의존성 분석 시스템
Bhavani et al. Mapping of GPS logs with typical transportation
Ning Prediction and detection of urban trajectory using data mining and deep neural network
Asaithambi et al. Performance of Self-Organized and Metacognitive Neurofuzzy System for Traffic Flow Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant