CN105225486A - 填补缺失浮动车数据的方法及系统 - Google Patents

填补缺失浮动车数据的方法及系统 Download PDF

Info

Publication number
CN105225486A
CN105225486A CN201510650150.1A CN201510650150A CN105225486A CN 105225486 A CN105225486 A CN 105225486A CN 201510650150 A CN201510650150 A CN 201510650150A CN 105225486 A CN105225486 A CN 105225486A
Authority
CN
China
Prior art keywords
data
decision tree
grid
variable
leaf node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510650150.1A
Other languages
English (en)
Inventor
赵毅
刘璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201510650150.1A priority Critical patent/CN105225486A/zh
Publication of CN105225486A publication Critical patent/CN105225486A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种填补缺失浮动车数据的方法及系统,该方法包括:数据筛选步骤、地图匹配步骤、划分网格步骤、确定插补区域及时间段步骤、以及插补缺失数据步骤。本发明的有益效果是:本发明通过插补使数据得到完整,可以用于估计交通拥挤程度,计算路段通行速度以及发布当前交通公告,为公众的出行提供便利。

Description

填补缺失浮动车数据的方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及填补缺失浮动车数据的方法及系统。
背景技术
GPS(GlobalPositioningSystem)浮动车信息采集技术作为一项新兴的交通信息动态采集技术,具有全天候、实时性强、检测成本小、数据精度高、采集范围广等诸多优点,并得到了国内外ITS专家和企业的一致重视,取得了一定的理论成果和应用实施。1991年,美国提出了基于浮动车的实时路况发布系统ADVANCE,成为动态车辆导航系统的主要试验项目,试验的目的是为了客观地分析驾驶员是否需要实时信息来避免拥堵从而提高通行能力。德国的交通数据系统DDG使用了4000个路面交通传感器和25000辆来自宝马和大众的采集车,分别对每个原始设备制造商(OEM)提供服务.英国的Trafficmaster从1998年私营公司开始收集和处理交通数据,并提供一系列的交通信息服务,数据主要来自于固定的传感器,并由FCD补充。我国的智能交通建设相对而言起步较晚。各大院校、科研机构和企事业单位先后开展了浮动车交通信息采集与处理技术的合作与自主研发工作。目前,北京、上海、广州、杭州、宁波等城市,已经拥有了一定规模的浮动车采集终端。
车速是浮动车数据中重要的数据之一,也是交通流理论研究中的重要参数和交通运行情况的基本量度。国内外现有的关于浮动车采集系统的技术研究较多,大致都集中在成本、浮动车规模、系统结构和精度等方面,但由于浮动车数据特有的流动性以及浮动车规模的限制,实时浮动车数据不能完全覆盖路网,适当的推估拟合方法可以弥补数据缺失引起的路网状态表达的不完整性,提高应用效率.因此,探讨浮动车数据缺失时的信息插补方法具有实际意义,这也是本发明所要解决的主要问题。
发明内容
为了解决现有技术中的问题,本发明提供了一种填补缺失浮动车数据的方法。
本发明提供了一种填补缺失浮动车数据的方法,包括如下步骤:
A.数据筛选步骤,根据筛选规则对数据进行筛选;
B.地图匹配步骤,将FCD记录的GPS点匹配到电子地图数据上,从而得到车辆目前所处路段;
C.划分网格步骤,使用网格对路网进行划分;
D.确定插补区域及时间段步骤,根据划分后的路网,通过固定同一时间段并对比多天数据分布的情况确定需要插补的路段;
E.插补缺失数据步骤,利用多元线性回归模型,选取空间及时间信息作为变量,用训练数据计算出偏回归系数。
作为本发明的进一步改进,在所述步骤C中,从水平和垂直方向将整个地图数据分成n×n的网格,如果设地图区域的长度为L,高为H,划分为n×n份,每个网格长为l=L/n,高为h=H/n,给每个网格标示索引值后,设路网左上角顶点坐标为:P0:(x0,y0),当得到一GPS点落在网格内坐标为p(x,y),那么p所属的网格索引号ID的计算公式为:
ID=floor(n(y0-y)/h)+floor((x-x0)/l)+l
其中,floor()为取整函数,使用该公式能够从GPS点坐标快速定位到所属网格。
作为本发明的进一步改进,在所述步骤E中,多元线性回归的形式为:yi=α01x1i2x2i+…+αkxkiii=1,2,…,n,其中k为解释变量的数目,α01,…αk为待定参数,εi为随机变量,如果b0,b1,…,bk分别为α01,…αk的拟合值,则回归方程为:
y ^ i = b 0 + b 1 x 1 i + b 2 x 2 i + ... + b k x k i
式中:b0为常数,b1,…,bk为偏回归系数,其意义是,当其他自变量xj(j≠i)都固定时,自变量xi每变化一个单位而使因变量yi平均改变的数值。
作为本发明的进一步改进,该方法还包括如下步骤:
F.处理步骤,设θ为随机参数向量,决定决策树的生长,对应的决策树记为T(θ),记B为X的域,即:其中p∈N+是自变量的纬度,决策树的每一个叶节点l=1,…,L都对应一个B的矩形空间,记每一个x∈B,当且仅当一个叶节点l满足x∈Rl,记决策树T(θ)的叶节点为l(x,θ)。
作为本发明的进一步改进,在所述步骤F中,
利用bootstrap方法重采样,随机产生k个训练集θ12,…,θk,利用每个训练集生成对应的决策树{T(x,θ1)},{T(x,θ2)},…,{T(x,θk)};
假设特征有M维,从M维特征中随机抽取m个特征作为当前节点的分裂特征集,并以这m个特征中最好的分裂方式对该节点进行分裂;
每个决策树都得到最大限度的生长,而不进行剪枝;
对于一个新的数据X=x,单棵决策树T(θ)的预测可以通过叶节点l(x,θ)的观测值取平均值获得,假如一个观测值Xi属于叶节点l(x,θ)且不为0,令权重向量ωi(x,θ)为:式中ωi(x,θ)权重之和等于1;
在给定自变量X=x下,单棵决策树的预测通过因变量的观测值Yi(i=1,2,…,n)的加权平均得到,单棵决策树的预测值可由通过决策树权重ωi(x,θ)(i=1,2,…,k)取平均,得到每个观测值i∈(1,2,…,n)的权重ωi(x): ω i ( x ) = k - 1 Σ i = 1 k ω i ( x , θ i ) y ;
对于所有y,随机森林的预测可记为:
因此,在给定X=x的条件下,Y的条件均值的估计等于所有因变量观测值的加权和,权重随自变量X=x的变化而变化,且在给定X=Xi(i∈{1,2,…,n})下Y的条件分布与X=x下Y的条件分布越相似,其权重越大。
本发明还公开了一种填补缺失浮动车数据的系统,包括:
数据筛选模块,用于根据筛选规则对数据进行筛选;
地图匹配模块,用于将FCD记录的GPS点匹配到电子地图数据上,从而得到车辆目前所处路段;
划分网格模块,用于使用网格对路网进行划分;
确定插补区域及时间段模块,用于根据划分后的路网,通过固定同一时间段并对比多天数据分布的情况确定需要插补的路段;
插补缺失数据模块,用于利用多元线性回归模型,选取空间及时间信息作为变量,用训练数据计算出偏回归系数。
作为本发明的进一步改进,在所述划分网格模块中,从水平和垂直方向将整个地图数据分成n×n的网格,如果设地图区域的长度为L,高为H,划分为n×n份,每个网格长为l=L/n,高为h=H/n,给每个网格标示索引值后,设路网左上角顶点坐标为:P0:(x0,y0),当得到一GPS点落在网格内坐标为p(x,y),那么p所属的网格索引号ID的计算公式为:
ID=floor(n(y0-y)/h)+floor((x-x0)/l)+l
其中,floor()为取整函数,使用该公式能够从GPS点坐标快速定位到所属网格。
作为本发明的进一步改进,在所述插补缺失数据模块中,多元线性回归的形式为:yi=α01x1i2x2i+…+αkxkiii=1,2,…,n,其中k为解释变量的数目,α01,…αk为待定参数,εi为随机变量,如果b0,b1,…,bk分别为α01,…αk的拟合值,则回归方程为:
y ^ i = b 0 + b 1 x 1 i + b 2 x 2 i + ... + b k x k i
式中:b0为常数,b1,…,bk为偏回归系数,其意义是,当其他自变量xj(j≠i)都固定时,自变量xi每变化一个单位而使因变量yi平均改变的数值。
作为本发明的进一步改进,该系统还包括:
处理模块,用于设θ为随机参数向量,决定决策树的生长,对应的决策树记为T(θ),记B为X的域,即:其中p∈N+是自变量的纬度,决策树的每一个叶节点l=1,…,L都对应一个B的矩形空间,记每一个x∈B,当且仅当一个叶节点l满足x∈Rl,记决策树T(θ)的叶节点为l(x,θ)。
作为本发明的进一步改进,在所述处理模块中,
利用bootstrap方法重采样,随机产生k个训练集θ12,…,θk,利用每个训练集生成对应的决策树{T(x,θ1)},{T(x,θ2)},…,{T(x,θk)};
假设特征有M维,从M维特征中随机抽取m个特征作为当前节点的分裂特征集,并以这m个特征中最好的分裂方式对该节点进行分裂;
每个决策树都得到最大限度的生长,而不进行剪枝;
对于一个新的数据X=x,单棵决策树T(θ)的预测可以通过叶节点l(x,θ)的观测值取平均值获得,假如一个观测值Xi属于叶节点l(x,θ)且不为0,令权重向量ωi(x,θ)为:式中ωi(x,θ)权重之和等于1;
在给定自变量X=x下,单棵决策树的预测通过因变量的观测值Yi(i=1,2,…,n)的加权平均得到,单棵决策树的预测值可由
通过决策树权重ωi(x,θ)(i=1,2,…,k)取平均,得到每个观测值i∈(1,2,…,n)的权重ωi(x): ω i ( x ) = k - 1 Σ i = 1 k ω i ( x , θ i ) y ;
对于所有y,随机森林的预测可记为:
因此,在给定X=x的条件下,Y的条件均值的估计等于所有因变量观测值的加权和,权重随自变量X=x的变化而变化,且在给定X=Xi(i∈{1,2,…,n})下Y的条件分布与X=x下Y的条件分布越相似,其权重越大。
本发明的有益效果是:本发明通过插补使数据得到完整,可以用于估计交通拥挤程度,计算路段通行速度以及发布当前交通公告,为公众的出行提供便利。
附图说明
图1是本发明的方法流程图。
图2是路网划分网格后的示意图。
图3的实际速度与多元线性模型拟合速度的比较图。
图4是没有结合历史数据的模型及实际速度与模拟速度的对比图。
具体实施方式
交通数据实际上具有时间和空间的相关性。一方面,在同一位置或同一区域,在一定时期内,人们出行以时间为周期实际具有一定的规律性。那么这个规律性体现在周期性和相似性:每个星期之间(周期程度为7)交通数据的变化呈现出明显的周期性;同一星期的周一到到周五的相似,而周六和周日雷同,以及不同星期的同一天的数据极其相似。另一方面,交通数据还具有空间相关性。由于路网是一个有机整体,由路段和节点组成,节点间有路段连接。由于同城市居民出行规律的相似性和出行方式的雷同,使得路网节点的交通流量变化具有类似特点,并且每一个区域的平均通行速度受到其相邻节点所连接路段通行速度的影响。所以充分结合时间和空间的相关性来插补缺失的数据,能够使得插补精确度更高。
如图1所示,本发明公开了一种填补缺失浮动车数据的方法,包括如下步骤:
步骤1:数据筛选步骤,根据筛选规则对数据进行筛选;
由于每天获得的浮动车数据量能够达到上千万条,所以通过步骤1删除以下这些不符合要求的数据对于减少数据量是有很大的必要的。
筛选规则包括如下:
(1)浮动车数据记录中的经纬度不在当前城市的经纬度范围内,则判断为无效数据。大部分情况下,可能是由于定位设备发生故障,或者没有得到卫星信号而数据传回了中心。深圳市的经纬度范围为:东经113.766667°~114.616667°,北纬22.45°~22.866667°。
(2)原数据中有许多重复的数据,这也是数据量过大的原因之一,需要剔除,以减小以后的工作量。
(3)车辆当前状态为空载,剔除该条记录。
(4)短时间内(5s)接收到同一辆车的很多条记录,记录的经纬度相同。
(5)同一辆车以固定频率发送同一位置GPS信息,即处于停车状态,则忽略该记录。
(6)同一辆车前后两条记录的时间间隔为t,记录到的两GPS点间距离为d,设车的最大速度为V。若Vt<d,说明即使直线行驶,车速都已经超过了最大速度V,将这类记录剔除。
步骤2:地图匹配步骤,将FCD记录的GPS点匹配到电子地图数据上,从而得到车辆目前所处路段;该步骤可以使车辆获得更精确的定位。
地图匹配是FCD处理重要步骤,直接影响交通信息获取的准确性,本发明使用一种基于多类SVM学习的FCD地图匹配算法,特征提取是使用SVM的关键,每个样本提取出来的特征组成了一个特征向量,用于SVM训练和分类预测过程。考虑地图匹配问题时,匹配样本为GPS点信息,每条数据包括经度、纬度、行驶方向角和记录时间。对于一个好的匹配结果,匹配GPS点离待匹配路段较近,匹配到同一路段的不同匹配点通常都聚集在一起,在电子地图准确的情况下,在地图上路段中心线处点分布密度较大。另外,路网使用有向图结构表示,每条路段都有方向性,对于平行反向的两条相邻路段,离的非常近,通常这两条路段属于同一条主干道上。这样的情况下GPS点信息中的方向角是区别匹配点属于哪条路段的有效信息,即车辆瞬时行驶方向。因此,对于每个FCD样本,特征向量为:{X,Y,D}。其中,X为经度,Y为纬度,D为方向角。方向角取值为[0,359],以正东方向为0度,逆时针增加。
步骤3:划分网格步骤,使用网格对路网进行划分,是为了将全局搜索转换为局部选择候选路段,可以加快FCD处理速度。
使用网格对路网进行划分,是依据空间相关性的,它以整个路网为基础,从水平和垂直方向将整个地图数据分成n×n的网格。某一网格内的通行速度就会受到相邻网格内通行速度的影响。如果设地图区域的长度为L,高为H,划分为n×n份。每个网格长为l=L/n,高为h=H/n。给每个网格标示索引值后,设路网左上角顶点坐标为:P0:(x0,y0),当得到一GPS点落在网格内坐标为p(x,y),那么p所属的网格索引号ID的计算公式为:
ID=floor(n(y0-y)/h)+floor((x-x0)/l)+l
其中,floor()为取整函数,使用该公式可以从GPS点坐标快速定位到所属网格。
将路网进行网格划分后,就可以在网格的基础上进行SVM多分类器的训练。
训练算法为:从左上角网格开始,依次训练SVM多分类器。对于网格i(1≤i≤n2),将邻域网格所包含的路段加入到训练过程中,使用One-Against-One策略学习SVM多分类器i。
步骤4:需要根据步骤3中划分后的路网,通过固定同一时间段并对比多天数据分布的情况确定需要插补的路段。该时间段将选取早晚高峰时间。
如图2所示,是某一天数据以时间间隔为5min划分网格后的一个示例图,其中每个网格区域的实际路面面积不到0.5平方公里,其内的数字代表该区域内的车辆数,并将车辆数超过15辆以上的进行标注底色。
步骤5:插补缺失数据步骤,利用多元线性回归模型,选取空间及时间信息作为变量,用训练数据计算出偏回归系数,经检验模拟数据与实际数据拟合效果较好,并同时与只选取空间信息作为变量进行对比,结果显示结合空间和时间信息的回归模型,能够使得插补精确度更高。
多元线性回归的一般形式为:
yi=α01x1i2x2i+…+αkxkiii=1,2,…,n
其中k为解释变量的数目,α01,…αk为待定参数,εi为随机变量。
如果b0,b1,…,bk分别为α01,…αk的拟合值,则回归方程为
y ^ i = b 0 + b 1 x 1 i + b 2 x 2 i + ... + b k x k i
式中:b0为常数。b1,…,bk为偏回归系数,其意义是,当其他自变量xj(j≠i)都固定时,自变量xi每变化一个单位而使因变量yi平均改变的数值。
训练数据的选取:
经过多天同一5min时间间隔的数据分布进行对比,找到如上图中黑框标记的示例,作为训练数据即如下:
(1)
中间网格的通行速度yi受八个相邻网格通行速度x1i,x2i,…,x8i及该网格相同位置的之前5分钟的历史通行速度x9i的影响,其第i(i=1,2,…,n)组观测值为yi,x1i,x2i,…,x9i,则多元线性回归模型结构形式为
yi=α01x1i2x2i+…+α9x9ii
该模型充分体现了空间相关性及时间相关性,并对以上的这种模型进行了试验,模拟数据与实际数据拟合效果较好。同时针对以下情况也进行了试验:
(2)
该情况的模型为yi=α01x1i2x2i+…+α8x8ii,经过试验得到模拟数据与实际数据拟合效果较好。也就是说由周围有七个方向及历史数据可以对中间区域进行预测的,即八元线性回归。
(3)
该情况的模型为yi=α01x1i2x2i+…+α7x7ii,经过试验得到模拟数据与实际数据拟合效果较好。也就是说由周围有六个方向及历史数据可以对中间区域进行预测的,即七元线性回归。但是其预测精度不如以上第一、二种情况预测精确度。
步骤6:处理步骤,为了使获得的偏回归系数更精确,减小误差,本发明提出采用如下算法:
RFR算法步骤可归纳如下:
设θ为随机参数向量,决定决策树的生长。对应的决策树记为T(θ)。记B为X的域,即:其中p∈N+是自变量的纬度。决策树的每一个叶节点l=1,…,L都对应一个B的矩形空间。记每一个x∈B,当且仅当一个叶节点l满足x∈Rl,记决策树T(θ)的叶节点为l(x,θ)。
(1)利用bootstrap方法重采样,随机产生k个训练集θ12,…,θk;利用每个训练集生成对应的决策树{T(x,θ1)},{T(x,θ2)},…,{T(x,θk)}。
(2)假设特征有M维,从M维特征中随机抽取m个特征作为当前节点的分裂特征集。并以这m个特征中最好的分裂方式对该节点进行分裂。
(3)每个决策树都得到最大限度的生长,而不进行剪枝。
(4)对于一个新的数据X=x,单棵决策树T(θ)的预测可以通过叶节点l(x,θ)的观测值取平均值获得。假如一个观测值Xi属于叶节点l(x,θ)且不为0,令权重向量ωi(x,θ)为:式中ωi(x,θ)权重之和等于1.
(5)在给定自变量X=x下,单棵决策树的预测通过因变量的观测值Yi(i=1,2,…,n)的加权平均得到。单棵决策树的预测值可由
(6)通过决策树权重ωi(x,θ)(i=1,2,…,k)取平均,得到每个观测值i∈(1,2,…,n)的权重ωi(x):
(7)对于所有y,随机森林的预测可记为:
因此,在给定X=x的条件下,Y的条件均值的估计等于所有因变量观测值的加权和。权重随自变量X=x的变化而变化,且在给定X=Xi(i∈{1,2,…,n})下Y的条件分布与X=x下Y的条件分布越相似,其权重越大。
该算法具有预测精度高、泛化能力好、收敛速度快以及调节参数少等优点,可有效避免“过拟合”现象的发生,适合各种数据集的运算,对数据集特征的提取具有较好的鲁棒性,适用于对大数据进行处理。
本发明还公开了一种填补缺失浮动车数据的系统,包括:
数据筛选模块,用于根据筛选规则对数据进行筛选;
地图匹配模块,用于将FCD记录的GPS点匹配到电子地图数据上,从而得到车辆目前所处路段;
划分网格模块,用于使用网格对路网进行划分;
确定插补区域及时间段模块,用于根据划分后的路网,通过固定同一时间段并对比多天数据分布的情况确定需要插补的路段;
插补缺失数据模块,用于利用多元线性回归模型,选取空间及时间信息作为变量,用训练数据计算出偏回归系数。
在所述划分网格模块中,从水平和垂直方向将整个地图数据分成n×n的网格,如果设地图区域的长度为L,高为H,划分为n×n份,每个网格长为l=L/n,高为h=H/n,给每个网格标示索引值后,设路网左上角顶点坐标为:P0:(x0,y0),当得到一GPS点落在网格内坐标为p(x,y),那么p所属的网格索引号ID的计算公式为:
ID=floor(n(y0-y)/h)+floor((x-x0)/l)+l
其中,floor()为取整函数,使用该公式能够从GPS点坐标快速定位到所属网格。
在所述插补缺失数据模块中,多元线性回归的形式为:yi=α01x1i2x2i+…+αkxkiii=1,2,…,n,其中k为解释变量的数目,α01,…αk为待定参数,εi为随机变量,如果b0,b1,…,bk分别为α01,…αk的拟合值,则回归方程为:
y ^ i = b 0 + b 1 x 1 i + b 2 x 2 i + ... + b k x k i
式中:b0为常数,b1,…,bk为偏回归系数,其意义是,当其他自变量xj(j≠i)都固定时,自变量xi每变化一个单位而使因变量yi平均改变的数值。
该系统还包括:
处理模块,用于设θ为随机参数向量,决定决策树的生长,对应的决策树记为T(θ),记B为X的域,即:其中p∈N+是自变量的纬度,决策树的每一个叶节点l=1,…,L都对应一个B的矩形空间,记每一个x∈B,当且仅当一个叶节点l满足x∈Rl,记决策树T(θ)的叶节点为l(x,θ)。
在所述处理模块中:
利用bootstrap方法重采样,随机产生k个训练集θ12,…,θk,利用每个训练集生成对应的决策树{T(x,θ1)},{T(x,θ2)},…,{T(x,θk)};
假设特征有M维,从M维特征中随机抽取m个特征作为当前节点的分裂特征集,并以这m个特征中最好的分裂方式对该节点进行分裂;
每个决策树都得到最大限度的生长,而不进行剪枝;
对于一个新的数据X=x,单棵决策树T(θ)的预测可以通过叶节点l(x,θ)的观测值取平均值获得,假如一个观测值Xi属于叶节点l(x,θ)且不为0,令权重向量ωi(x,θ)为:式中ωi(x,θ)权重之和等于1;
在给定自变量X=x下,单棵决策树的预测通过因变量的观测值Yi(i=1,2,…,n)的加权平均得到,单棵决策树的预测值可由
通过决策树权重ωi(x,θ)(i=1,2,…,k)取平均,得到每个观测值i∈(1,2,…,n)的权重ωi(x):
对于所有y,随机森林的预测可记为:
因此,在给定X=x的条件下,Y的条件均值的估计等于所有因变量观测值的加权和,权重随自变量X=x的变化而变化,且在给定X=Xi(i∈{1,2,…,n})下Y的条件分布与X=x下Y的条件分布越相似,其权重越大。
利用多元线性回归模型进行了一次试验:
1、建立模型
多元线性模型相关信息示意图
上图为划分完网格的多元线性模型相关信息示意图。中间网格的通行速度yi受8个相邻网格通行速度x1i,x2i,…,x8i及该网格相同位置的之前5分钟的历史通行速度x9i的影响,其第i(i=1,2,…,n)组观测值为yi,x1i,x2i,…,x9i,则多元线性回归模型结构形式为
yi=α01x1i2x2i+…+α9x9ii
2、参数估计
通过软件计算出:
Vy=16.7659+0.7237×Vx1-0.9071×Vx2+0.0989×Vx3+0.1880×Vx4-1.0976×Vx5+0.2144×Vx6-0.2181×Vx7+0.2365×Vx8+0.3574×Vx9
3、模型检验
模型的检验的结果为:r2=0.8887,F-统计量=5.3213,χ0对应的概率为p=0.0273<α=0.05,并且参见图3的实际速度与多元线性模型拟合速度的比较图。可得,该模型拟合效果较好。
以下是没有结合历史数据的多元线性回归模型:
通过模型计算检验得到模型为:
Vy=32.0452+0.4048×Vx1-1.2405×Vx2+0.0557×Vx3+0.0272×Vx4-0.9812×Vx5+0.3034×Vx6-0.3516×Vx7+0.1577×Vx8
经检验r2=0.7482,F-统计量=2.5993,χ0对应的概率为p=0.1128>α=0.05
图4是没有结合历史数据的模型及实际速度与模拟速度的对比,可得此时该模型拟合效果不好。
通过利用随机森林可以使得获得的偏回归系数α12,…,α9更准确,这样就能使得预测精度更高。
由于深圳市安装GPS的出租车数量非常多,以及出租车以2秒的采样间隔记录信息,信息中心设置接收信息的时间间隔是30秒,即正常情况下每30秒获得车辆的位置信息,这样每天将会达到上千万条的数据。但是由于高大建筑、隧道等的遮挡,会造成个别GPS检测盲区。由此影响检测的效果,收集到的原始数据存在不同程度的缺失现象,包括缺失一段时间的数据、缺失较长时间(一天或更长时间)的数据以及数据不同变量缺失异常的情况。需要对浮动车数据进行预处理,是将时间、经纬度等与实际范围不符的浮动车数据记录给剔除,每一条浮动车数据都需要进行一次预处理。故在本发明中需要有内存大且运行速度快的计算机才能对这大量的数据进行处理与筛选。
浮动车交通信息采集与处理过程中的关键技术之一是浮动车数据的地图匹配问题,但由于浮动车地图匹配的目的、对象规模、速度和匹配率要求都与车辆导航地图匹配大不相同,所以这些技术不能简单地移植到浮动车交通信息处理过程中.首先,浮动车地图匹配的目的是将浮动车位置转变为路段通行时间信息,在匹配率方面不如车辆导航地图匹配要求高.其次,浮动车地图匹配的对象规模比较大,要在较短时间内完成几千辆乃至上万辆浮动车的地图匹配工作,匹配速度方面的要求比较高.在本发明中需要将处理后的数据进行地图匹配,并将路网进行网格划分,确定需要填充的路段及时间段。本发明中采用一种“切片”的思想对交通路网数据进行时间和空间上的细化,并提出适合于城市交通数据时空分析的模型。并根据数据的时序特征划分为3个时段:工作日早高峰(8:00-9:00)、工作日平峰(15:00-16:00)、工作日晚高峰(18:00-19:00)。
本发明通过利用机器学习方法进行插补,需要对算法进行充分理解并运用相应软件编程实现,并且可根据完整的数据进行路况分析进行预测,同时将信息反馈给用户。
本发明的有益效果是:
1.根据浮动车数据的特性充分结合空间及时间相关性来插补数据;
2.具有很好的鲁棒性;
3.利用机器学习的方法改进多元线性回归模型能够使得插补精确度更高。
即,通过插补使数据得到完整,可以用于估计交通拥挤程度,计算路段通行速度以及发布当前交通公告等。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种填补缺失浮动车数据的方法,其特征在于,包括如下步骤:
A.数据筛选步骤,根据筛选规则对数据进行筛选;
B.地图匹配步骤,将FCD记录的GPS点匹配到电子地图数据上,从而得到车辆目前所处路段;
C.划分网格步骤,使用网格对路网进行划分;
D.确定插补区域及时间段步骤,根据划分后的路网,通过固定同一时间段并对比多天数据分布的情况确定需要插补的路段;
E.插补缺失数据步骤,利用多元线性回归模型,选取空间及时间信息作为变量,用训练数据计算出偏回归系数。
2.根据权利要求1所述的方法,其特征在于,在所述步骤C中,从水平和垂直方向将整个地图数据分成n×n的网格,如果设地图区域的长度为L,高为H,划分为n×n份,每个网格长为l=L/n,高为h=H/n,给每个网格标示索引值后,设路网左上角顶点坐标为:P0:(x0,y0),当得到一GPS点落在网格内坐标为p(x,y),那么p所属的网格索引号ID的计算公式为:
ID=floor(n(y0-y)/h)+floor((x-x0)/l)+l
其中,floor()为取整函数,使用该公式能够从GPS点坐标快速定位到所属网格。
3.根据权利要求1所述的方法,其特征在于,在所述步骤E中,多元线性回归的形式为:yi=α01x1i2x2i+…+αkxkiii=1,2,…,n,其中k为解释变量的数目,α01,…αk为待定参数,εi为随机变量,如果b0,b1,…,bk分别为α01,…αk的拟合值,则回归方程为:
y ^ i = b 0 + b 1 x 1 i + b 2 x 2 i + ... + b k x k i
式中:b0为常数,b1,…,bk为偏回归系数,其意义是,当其他自变量xj(j≠i)都固定时,自变量xi每变化一个单位而使因变量yi平均改变的数值。
4.根据权利要求1所述的方法,其特征在于,该方法还包括如下步骤:
F.处理步骤,设θ为随机参数向量,决定决策树的生长,对应的决策树记为T(θ),记B为X的域,即:其中p∈N+是自变量的纬度,决策树的每一个叶节点l=1,…,L都对应一个B的矩形空间,记每一个x∈B,当且仅当一个叶节点l满足x∈Rl,记决策树T(θ)的叶节点为l(x,θ)。
5.根据权利要求4所述的方法,其特征在于,在所述步骤F中,
利用bootstrap方法重采样,随机产生k个训练集θ12,…,θk,利用每个训练集生成对应的决策树{T(x,θ1)},{T(x,θ2)},…,{T(x,θk)};
假设特征有M维,从M维特征中随机抽取m个特征作为当前节点的分裂特征集,并以这m个特征中最好的分裂方式对该节点进行分裂;
每个决策树都得到最大限度的生长,而不进行剪枝;
对于一个新的数据X=x,单棵决策树T(θ)的预测可以通过叶节点l(x,θ)的观测值取平均值获得,假如一个观测值Xi属于叶节点l(x,θ)且不为0,令权重向量ωi(x,θ)为:式中ωi(x,θ)权重之和等于1;
在给定自变量X=x下,单棵决策树的预测通过因变量的观测值Yi(i=1,2,…,n)的加权平均得到,单棵决策树的预测值可由通过决策树权重ωi(x,θ)(i=1,2,…,k)取平均,得到每个观测值i∈(1,2,…,n)的权重ωi(x): &omega; i ( x ) = k - 1 &Sigma; i = 1 k &omega; i ( x , &theta; i ) y ;
对于所有y,随机森林的预测可记为:
因此,在给定X=x的条件下,Y的条件均值的估计等于所有因变量观测值的加权和,权重随自变量X=x的变化而变化,且在给定X=Xi(i∈{1,2,…,n})下Y的条件分布与X=x下Y的条件分布越相似,其权重越大。
6.一种填补缺失浮动车数据的系统,其特征在于,包括:
数据筛选模块,用于根据筛选规则对数据进行筛选;
地图匹配模块,用于将FCD记录的GPS点匹配到电子地图数据上,从而得到车辆目前所处路段;
划分网格模块,用于使用网格对路网进行划分;
确定插补区域及时间段模块,用于根据划分后的路网,通过固定同一时间段并对比多天数据分布的情况确定需要插补的路段;
插补缺失数据模块,用于利用多元线性回归模型,选取空间及时间信息作为变量,用训练数据计算出偏回归系数。
7.根据权利要求6所述的系统,其特征在于,在所述划分网格模块中,从水平和垂直方向将整个地图数据分成n×n的网格,如果设地图区域的长度为L,高为H,划分为n×n份,每个网格长为l=L/n,高为h=H/n,给每个网格标示索引值后,设路网左上角顶点坐标为:P0:(x0,y0),当得到一GPS点落在网格内坐标为p(x,y),那么p所属的网格索引号ID的计算公式为:
ID=floor(n(y0-y)/h)+floor((x-x0)/l)+l
其中,floor()为取整函数,使用该公式能够从GPS点坐标快速定位到所属网格。
8.根据权利要求6所述的系统,其特征在于,在所述插补缺失数据模块中,多元线性回归的形式为:yi=α01x1i2x2i+…+αkxkiii=1,2,…,n,其中k为解释变量的数目,α01,…αk为待定参数,εi为随机变量,如果b0,b1,…,bk分别为α01,…αk的拟合值,则回归方程为:
y ^ i = b 0 + b 1 x 1 i + b 2 x 2 i + ... + b k x k i
式中:b0为常数,b1,…,bk为偏回归系数,其意义是,当其他自变量xj(j≠i)都固定时,自变量xi每变化一个单位而使因变量yi平均改变的数值。
9.根据权利要求6所述的系统,其特征在于,该系统还包括:
处理模块,用于设θ为随机参数向量,决定决策树的生长,对应的决策树记为T(θ),记B为X的域,即:其中p∈N+是自变量的纬度,决策树的每一个叶节点l=1,…,L都对应一个B的矩形空间,记每一个x∈B,当且仅当一个叶节点l满足x∈Rl,记决策树T(θ)的叶节点为l(x,θ)。
10.根据权利要求9所述的系统,其特征在于,在所述处理模块中,
利用bootstrap方法重采样,随机产生k个训练集θ12,…,θk,利用每个训练集生成对应的决策树{T(x,θ1)},{T(x,θ2)},…,{T(x,θk)};
假设特征有M维,从M维特征中随机抽取m个特征作为当前节点的分裂特征集,并以这m个特征中最好的分裂方式对该节点进行分裂;
每个决策树都得到最大限度的生长,而不进行剪枝;
对于一个新的数据X=x,单棵决策树T(θ)的预测可以通过叶节点l(x,θ)的观测值取平均值获得,假如一个观测值Xi属于叶节点l(x,θ)且不为0,令权重向量ωi(x,θ)为:式中ωi(x,θ)权重之和等于1;
在给定自变量X=x下,单棵决策树的预测通过因变量的观测值Yi(i=1,2,…,n)的加权平均得到,单棵决策树的预测值可由通过决策树权重ωi(x,θ)(i=1,2,…,k)取平均,得到每个观测值i∈(1,2,…,n)的权重ωi(x): &omega; i ( x ) = k - 1 &Sigma; i = 1 k &omega; i ( x , &theta; i ) y ;
对于所有y,随机森林的预测可记为:
因此,在给定X=x的条件下,Y的条件均值的估计等于所有因变量观测值的加权和,权重随自变量X=x的变化而变化,且在给定X=Xi(i∈{1,2,…,n})下Y的条件分布与X=x下Y的条件分布越相似,其权重越大。
CN201510650150.1A 2015-10-09 2015-10-09 填补缺失浮动车数据的方法及系统 Pending CN105225486A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510650150.1A CN105225486A (zh) 2015-10-09 2015-10-09 填补缺失浮动车数据的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510650150.1A CN105225486A (zh) 2015-10-09 2015-10-09 填补缺失浮动车数据的方法及系统

Publications (1)

Publication Number Publication Date
CN105225486A true CN105225486A (zh) 2016-01-06

Family

ID=54994418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510650150.1A Pending CN105225486A (zh) 2015-10-09 2015-10-09 填补缺失浮动车数据的方法及系统

Country Status (1)

Country Link
CN (1) CN105225486A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869131A (zh) * 2016-04-22 2016-08-17 东南大学 一种对缺失数据修补的位移场重构方法
CN106844290A (zh) * 2015-12-03 2017-06-13 南京南瑞继保电气有限公司 一种基于曲线拟合的时序数据处理方法
CN106908668A (zh) * 2017-01-20 2017-06-30 中国电力科学研究院 一种实测地面合成电场数据的处理方法及系统
CN107356260A (zh) * 2017-05-18 2017-11-17 诺优信息技术(上海)有限公司 应用于自动路测的导航系统及方法
CN107705545A (zh) * 2017-09-14 2018-02-16 王淑芳 一种重点营运车辆轨迹点补充方法和系统
CN108510008A (zh) * 2018-04-11 2018-09-07 国交空间信息技术(北京)有限公司 一种基于浮动车轨迹点空间关系和分布的路网提取方法
CN108780606A (zh) * 2016-03-18 2018-11-09 株式会社电装 车辆用装置
CN109101638A (zh) * 2018-08-20 2018-12-28 河海大学 一种大坝变形监测连续性缺失数据补全方法
CN109859505A (zh) * 2019-03-14 2019-06-07 北京百度网讯科技有限公司 高速站点的预警处理方法、装置、服务器和介质
CN110427357A (zh) * 2018-04-28 2019-11-08 新疆金风科技股份有限公司 测风塔数据处理方法及装置
CN110687553A (zh) * 2016-06-24 2020-01-14 弗里波特-麦克莫兰公司 将卫星位置数据与地面特征相关联的系统和方法
CN110807919A (zh) * 2019-10-22 2020-02-18 浙江大学 基于过车数据的城市路网交通运行态势评价方法
CN111625525A (zh) * 2020-05-26 2020-09-04 哈尔滨工业大学 一种环境数据修复/填充方法及系统
CN113377885A (zh) * 2020-03-10 2021-09-10 株式会社日立制作所 数据补充系统以及数据补充方法
WO2021179742A1 (zh) * 2020-03-10 2021-09-16 中国科学院深圳先进技术研究院 一种臭氧缺失数据的插补方法、装置及插补设备
CN114937369A (zh) * 2022-04-06 2022-08-23 福思(杭州)智能科技有限公司 自主代客泊车方法、系统、车辆、停车场端、装置和介质
CN115223365A (zh) * 2022-07-15 2022-10-21 北京市智慧交通发展中心(北京市机动车调控管理事务中心) 一种基于阻尼Holt模型的路网速度预测及异常识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19605458C1 (de) * 1996-02-14 1997-09-04 Hyundai Motor Co Ltd Fahrzeugnavigationssystem und Verfahren zum Auswählen einer Fahrtstrecke entsprechend dem Kraftstoffverbrauch
CN101325004A (zh) * 2008-08-01 2008-12-17 北京航空航天大学 一种实时交通信息的数据补偿方法
JP2009026307A (ja) * 2007-06-28 2009-02-05 Nec (China) Co Ltd 交通情報処理装置および方法、交通情報統合装置および方法
CN101409011A (zh) * 2008-10-28 2009-04-15 北京世纪高通科技有限公司 一种地图匹配和路径推测方法、装置和系统
CN101477748A (zh) * 2009-01-19 2009-07-08 深圳市同洲电子股份有限公司 交通状况的管理方法及系统
CN101719315A (zh) * 2009-12-23 2010-06-02 山东大学 一种基于中间件的动态交通信息采集方法
CN101739825A (zh) * 2009-11-06 2010-06-16 吉林大学 基于gps浮动车的交通数据故障识别与修复方法
CN101794508A (zh) * 2009-12-30 2010-08-04 北京世纪高通科技有限公司 交通信息填补方法、装置及系统
CN101964941A (zh) * 2010-08-25 2011-02-02 吉林大学 基于动态信息的智能导航与位置服务系统及方法
CN102128628A (zh) * 2010-01-19 2011-07-20 北京四维图新科技股份有限公司 电子地图的差异分析方法及差异分析装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19605458C1 (de) * 1996-02-14 1997-09-04 Hyundai Motor Co Ltd Fahrzeugnavigationssystem und Verfahren zum Auswählen einer Fahrtstrecke entsprechend dem Kraftstoffverbrauch
JP2009026307A (ja) * 2007-06-28 2009-02-05 Nec (China) Co Ltd 交通情報処理装置および方法、交通情報統合装置および方法
CN101325004A (zh) * 2008-08-01 2008-12-17 北京航空航天大学 一种实时交通信息的数据补偿方法
CN101409011A (zh) * 2008-10-28 2009-04-15 北京世纪高通科技有限公司 一种地图匹配和路径推测方法、装置和系统
CN101477748A (zh) * 2009-01-19 2009-07-08 深圳市同洲电子股份有限公司 交通状况的管理方法及系统
CN101739825A (zh) * 2009-11-06 2010-06-16 吉林大学 基于gps浮动车的交通数据故障识别与修复方法
CN101719315A (zh) * 2009-12-23 2010-06-02 山东大学 一种基于中间件的动态交通信息采集方法
CN101794508A (zh) * 2009-12-30 2010-08-04 北京世纪高通科技有限公司 交通信息填补方法、装置及系统
CN102128628A (zh) * 2010-01-19 2011-07-20 北京四维图新科技股份有限公司 电子地图的差异分析方法及差异分析装置
CN101964941A (zh) * 2010-08-25 2011-02-02 吉林大学 基于动态信息的智能导航与位置服务系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘春 等: "浮动车数据缺失道路的速度推估模型与实现", 《同济大学学报(自然科学版)》 *
方匡南 等: "随机森林方法研究综述", 《统计与信息论坛》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844290A (zh) * 2015-12-03 2017-06-13 南京南瑞继保电气有限公司 一种基于曲线拟合的时序数据处理方法
CN106844290B (zh) * 2015-12-03 2019-05-21 南京南瑞继保电气有限公司 一种基于曲线拟合的时序数据处理方法
CN108780606B (zh) * 2016-03-18 2021-12-21 株式会社电装 车辆用装置
CN108780606A (zh) * 2016-03-18 2018-11-09 株式会社电装 车辆用装置
CN105869131A (zh) * 2016-04-22 2016-08-17 东南大学 一种对缺失数据修补的位移场重构方法
CN105869131B (zh) * 2016-04-22 2018-07-17 东南大学 一种对缺失数据修补的位移场重构方法
CN110687553A (zh) * 2016-06-24 2020-01-14 弗里波特-麦克莫兰公司 将卫星位置数据与地面特征相关联的系统和方法
CN106908668A (zh) * 2017-01-20 2017-06-30 中国电力科学研究院 一种实测地面合成电场数据的处理方法及系统
CN107356260A (zh) * 2017-05-18 2017-11-17 诺优信息技术(上海)有限公司 应用于自动路测的导航系统及方法
CN107356260B (zh) * 2017-05-18 2020-05-22 诺优信息技术(上海)有限公司 应用于自动路测的导航系统及方法
CN107705545A (zh) * 2017-09-14 2018-02-16 王淑芳 一种重点营运车辆轨迹点补充方法和系统
CN108510008A (zh) * 2018-04-11 2018-09-07 国交空间信息技术(北京)有限公司 一种基于浮动车轨迹点空间关系和分布的路网提取方法
CN108510008B (zh) * 2018-04-11 2021-05-14 国交空间信息技术(北京)有限公司 一种基于浮动车轨迹点空间关系和分布的路网提取方法
CN110427357A (zh) * 2018-04-28 2019-11-08 新疆金风科技股份有限公司 测风塔数据处理方法及装置
CN109101638A (zh) * 2018-08-20 2018-12-28 河海大学 一种大坝变形监测连续性缺失数据补全方法
CN109101638B (zh) * 2018-08-20 2019-05-28 河海大学 一种大坝变形监测连续性缺失数据补全方法
CN109859505A (zh) * 2019-03-14 2019-06-07 北京百度网讯科技有限公司 高速站点的预警处理方法、装置、服务器和介质
CN110807919A (zh) * 2019-10-22 2020-02-18 浙江大学 基于过车数据的城市路网交通运行态势评价方法
CN113377885A (zh) * 2020-03-10 2021-09-10 株式会社日立制作所 数据补充系统以及数据补充方法
WO2021179742A1 (zh) * 2020-03-10 2021-09-16 中国科学院深圳先进技术研究院 一种臭氧缺失数据的插补方法、装置及插补设备
CN113377885B (zh) * 2020-03-10 2024-05-24 株式会社日立制作所 数据补充系统以及数据补充方法
CN111625525A (zh) * 2020-05-26 2020-09-04 哈尔滨工业大学 一种环境数据修复/填充方法及系统
CN111625525B (zh) * 2020-05-26 2023-05-26 哈尔滨工业大学 一种环境数据修复/填充方法及系统
CN114937369A (zh) * 2022-04-06 2022-08-23 福思(杭州)智能科技有限公司 自主代客泊车方法、系统、车辆、停车场端、装置和介质
CN114937369B (zh) * 2022-04-06 2023-04-04 福思(杭州)智能科技有限公司 自主代客泊车方法、系统、车辆、停车场端、装置和介质
CN115223365A (zh) * 2022-07-15 2022-10-21 北京市智慧交通发展中心(北京市机动车调控管理事务中心) 一种基于阻尼Holt模型的路网速度预测及异常识别方法
CN115223365B (zh) * 2022-07-15 2023-09-29 北京市智慧交通发展中心(北京市机动车调控管理事务中心) 一种基于阻尼Holt模型的路网速度预测及异常识别方法

Similar Documents

Publication Publication Date Title
CN105225486A (zh) 填补缺失浮动车数据的方法及系统
CN110264709B (zh) 基于图卷积网络的道路的交通流量的预测方法
CN102663887B (zh) 基于物联网技术的道路交通信息云计算和云服务实现系统及方法
CN101751777B (zh) 基于空间聚类分析的城市路网交通小区动态划分方法
US20200149914A1 (en) Method and system for utilizing a trip history
US10175054B2 (en) Predicting and utilizing variability of travel times in mapping services
CN104050817B (zh) 限速信息库生成、限速信息检测的方法和系统
CN105206057B (zh) 基于浮动车居民出行热点区域的检测方法及系统
CN107103392A (zh) 一种基于时空地理加权回归的公交客流影响因素识别与预测方法
Wang et al. Estimating dynamic origin-destination data and travel demand using cell phone network data
CN104134349A (zh) 一种基于交通多源数据融合的公交路况处理系统及方法
CN103295414A (zh) 一种基于海量历史gps轨迹数据的公交车到站时间预测方法
CN102110365A (zh) 基于时空关系的路况预测方法和系统
US10445610B2 (en) Method, apparatus, and computer program product for determining vehicle lanes of a road segment based on received probe data
Dumbliauskas et al. Application of Google-based data for travel time analysis: Kaunas city case study
Ram et al. SMARTBUS: A web application for smart urban mobility and transportation
Liu et al. Characterizing three dimensional (3-D) morphology of residential buildings by landscape metrics
CN105513356B (zh) 一种基于轨迹追踪的od矩阵估计方法与系统
Ganti et al. Analysis of data from a taxi cab participatory sensor network
CN104900057A (zh) 一种城市快速路主辅道的浮动车地图匹配方法
CN112087716A (zh) 社区生活圈边界测度方法、系统、计算机设备及存储介质
US20100036793A1 (en) Method and System for Geospatial Forecasting of Events Incorporating Data Error and Uncertainty
Ghandeharioun et al. Link travel time estimation for arterial networks based on sparse GPS data and considering progressive correlations
Yu et al. A bus-arrival time prediction model based on historical traffic patterns
Rieser-Schüssler Capitalising modern data sources for observing and modelling transport behaviour

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160106