CN105225486A

CN105225486A - 填补缺失浮动车数据的方法及系统

Info

Publication number: CN105225486A
Application number: CN201510650150.1A
Authority: CN
Inventors: 赵毅; 刘璐
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2015-10-09
Filing date: 2015-10-09
Publication date: 2016-01-06

Abstract

本发明提供了一种填补缺失浮动车数据的方法及系统，该方法包括：数据筛选步骤、地图匹配步骤、划分网格步骤、确定插补区域及时间段步骤、以及插补缺失数据步骤。本发明的有益效果是：本发明通过插补使数据得到完整，可以用于估计交通拥挤程度，计算路段通行速度以及发布当前交通公告，为公众的出行提供便利。

Description

填补缺失浮动车数据的方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及填补缺失浮动车数据的方法及系统。

背景技术

GPS(GlobalPositioningSystem)浮动车信息采集技术作为一项新兴的交通信息动态采集技术，具有全天候、实时性强、检测成本小、数据精度高、采集范围广等诸多优点,并得到了国内外ITS专家和企业的一致重视,取得了一定的理论成果和应用实施。1991年,美国提出了基于浮动车的实时路况发布系统ADVANCE,成为动态车辆导航系统的主要试验项目,试验的目的是为了客观地分析驾驶员是否需要实时信息来避免拥堵从而提高通行能力。德国的交通数据系统DDG使用了4000个路面交通传感器和25000辆来自宝马和大众的采集车,分别对每个原始设备制造商(OEM)提供服务.英国的Trafficmaster从1998年私营公司开始收集和处理交通数据,并提供一系列的交通信息服务,数据主要来自于固定的传感器,并由FCD补充。我国的智能交通建设相对而言起步较晚。各大院校、科研机构和企事业单位先后开展了浮动车交通信息采集与处理技术的合作与自主研发工作。目前,北京、上海、广州、杭州、宁波等城市,已经拥有了一定规模的浮动车采集终端。

车速是浮动车数据中重要的数据之一，也是交通流理论研究中的重要参数和交通运行情况的基本量度。国内外现有的关于浮动车采集系统的技术研究较多,大致都集中在成本、浮动车规模、系统结构和精度等方面,但由于浮动车数据特有的流动性以及浮动车规模的限制,实时浮动车数据不能完全覆盖路网,适当的推估拟合方法可以弥补数据缺失引起的路网状态表达的不完整性,提高应用效率.因此,探讨浮动车数据缺失时的信息插补方法具有实际意义,这也是本发明所要解决的主要问题。

发明内容

为了解决现有技术中的问题，本发明提供了一种填补缺失浮动车数据的方法。

本发明提供了一种填补缺失浮动车数据的方法，包括如下步骤：

A.数据筛选步骤，根据筛选规则对数据进行筛选；

B.地图匹配步骤，将FCD记录的GPS点匹配到电子地图数据上，从而得到车辆目前所处路段；

C.划分网格步骤，使用网格对路网进行划分；

D.确定插补区域及时间段步骤，根据划分后的路网，通过固定同一时间段并对比多天数据分布的情况确定需要插补的路段；

E.插补缺失数据步骤，利用多元线性回归模型，选取空间及时间信息作为变量，用训练数据计算出偏回归系数。

作为本发明的进一步改进，在所述步骤C中，从水平和垂直方向将整个地图数据分成n×n的网格，如果设地图区域的长度为L，高为H，划分为n×n份，每个网格长为l＝L/n，高为h＝H/n，给每个网格标示索引值后，设路网左上角顶点坐标为：P₀:(x₀,y₀)，当得到一GPS点落在网格内坐标为p(x,y)，那么p所属的网格索引号ID的计算公式为：

ID＝floor(n(y₀-y)/h)+floor((x-x₀)/l)+l

其中，floor()为取整函数，使用该公式能够从GPS点坐标快速定位到所属网格。

作为本发明的进一步改进，在所述步骤E中，多元线性回归的形式为：y_i＝α₀+α₁x_1i+α₂x_2i+…+α_kx_ki+ε_ii＝1,2,…,n，其中k为解释变量的数目，α₀,α₁,…α_k为待定参数，ε_i为随机变量，如果b₀,b₁,…,b_k分别为α₀,α₁,…α_k的拟合值，则回归方程为：

{\hat{y}}_{i} = b_{0} + b_{1} x_{1 i} + b_{2} x_{2 i} + ... + b_{k} x_{k i}

式中：b₀为常数，b₁,…,b_k为偏回归系数，其意义是，当其他自变量x_j(j≠i)都固定时，自变量x_i每变化一个单位而使因变量y_i平均改变的数值。

作为本发明的进一步改进，该方法还包括如下步骤：

F.处理步骤，设θ为随机参数向量，决定决策树的生长，对应的决策树记为T(θ)，记B为X的域，即：其中p∈N₊是自变量的纬度，决策树的每一个叶节点l＝1,…,L都对应一个B的矩形空间，记每一个x∈B,当且仅当一个叶节点l满足x∈R_l，记决策树T(θ)的叶节点为l(x,θ)。

作为本发明的进一步改进，在所述步骤F中，

利用bootstrap方法重采样，随机产生k个训练集θ₁,θ₂,…,θ_k，利用每个训练集生成对应的决策树{T(x,θ₁)},{T(x,θ₂)},…,{T(x,θ_k)}；

假设特征有M维，从M维特征中随机抽取m个特征作为当前节点的分裂特征集，并以这m个特征中最好的分裂方式对该节点进行分裂；

每个决策树都得到最大限度的生长，而不进行剪枝；

对于一个新的数据X＝x，单棵决策树T(θ)的预测可以通过叶节点l(x,θ)的观测值取平均值获得，假如一个观测值X_i属于叶节点l(x,θ)且不为0，令权重向量ω_i(x,θ)为：式中ω_i(x,θ)权重之和等于1；

在给定自变量X＝x下，单棵决策树的预测通过因变量的观测值Y_i(i＝1,2,…,n)的加权平均得到，单棵决策树的预测值可由通过决策树权重ω_i(x,θ)(i＝1,2,…,k)取平均，得到每个观测值i∈(1,2,…,n)的权重ω_i(x)：

ω_{i} (x) = k^{- 1} Σ_{i = 1}^{k} ω_{i} (x, θ_{i}) y;

对于所有y，随机森林的预测可记为：

因此，在给定X＝x的条件下，Y的条件均值的估计等于所有因变量观测值的加权和，权重随自变量X＝x的变化而变化，且在给定X＝X_i(i∈{1,2,…,n})下Y的条件分布与X＝x下Y的条件分布越相似，其权重越大。

本发明还公开了一种填补缺失浮动车数据的系统，包括：

数据筛选模块，用于根据筛选规则对数据进行筛选；

地图匹配模块，用于将FCD记录的GPS点匹配到电子地图数据上，从而得到车辆目前所处路段；

划分网格模块，用于使用网格对路网进行划分；

确定插补区域及时间段模块，用于根据划分后的路网，通过固定同一时间段并对比多天数据分布的情况确定需要插补的路段；

插补缺失数据模块，用于利用多元线性回归模型，选取空间及时间信息作为变量，用训练数据计算出偏回归系数。

作为本发明的进一步改进，在所述划分网格模块中，从水平和垂直方向将整个地图数据分成n×n的网格，如果设地图区域的长度为L，高为H，划分为n×n份，每个网格长为l＝L/n，高为h＝H/n，给每个网格标示索引值后，设路网左上角顶点坐标为：P₀:(x₀,y₀)，当得到一GPS点落在网格内坐标为p(x,y)，那么p所属的网格索引号ID的计算公式为：

ID＝floor(n(y₀-y)/h)+floor((x-x₀)/l)+l

作为本发明的进一步改进，在所述插补缺失数据模块中，多元线性回归的形式为：y_i＝α₀+α₁x_1i+α₂x_2i+…+α_kx_ki+ε_ii＝1,2,…,n，其中k为解释变量的数目，α₀,α₁,…α_k为待定参数，ε_i为随机变量，如果b₀,b₁,…,b_k分别为α₀,α₁,…α_k的拟合值，则回归方程为：

{\hat{y}}_{i} = b_{0} + b_{1} x_{1 i} + b_{2} x_{2 i} + ... + b_{k} x_{k i}

作为本发明的进一步改进，该系统还包括：

处理模块，用于设θ为随机参数向量，决定决策树的生长，对应的决策树记为T(θ)，记B为X的域，即：其中p∈N₊是自变量的纬度，决策树的每一个叶节点l＝1,…,L都对应一个B的矩形空间，记每一个x∈B,当且仅当一个叶节点l满足x∈R_l，记决策树T(θ)的叶节点为l(x,θ)。

作为本发明的进一步改进，在所述处理模块中，

每个决策树都得到最大限度的生长，而不进行剪枝；

在给定自变量X＝x下，单棵决策树的预测通过因变量的观测值Y_i(i＝1,2,…,n)的加权平均得到，单棵决策树的预测值可由

通过决策树权重ω_i(x,θ)(i＝1,2,…,k)取平均，得到每个观测值i∈(1,2,…,n)的权重ω_i(x)：

ω_{i} (x) = k^{- 1} Σ_{i = 1}^{k} ω_{i} (x, θ_{i}) y;

对于所有y，随机森林的预测可记为：

本发明的有益效果是：本发明通过插补使数据得到完整，可以用于估计交通拥挤程度，计算路段通行速度以及发布当前交通公告，为公众的出行提供便利。

附图说明

图1是本发明的方法流程图。

图2是路网划分网格后的示意图。

图3的实际速度与多元线性模型拟合速度的比较图。

图4是没有结合历史数据的模型及实际速度与模拟速度的对比图。

具体实施方式

交通数据实际上具有时间和空间的相关性。一方面，在同一位置或同一区域，在一定时期内，人们出行以时间为周期实际具有一定的规律性。那么这个规律性体现在周期性和相似性：每个星期之间(周期程度为7)交通数据的变化呈现出明显的周期性；同一星期的周一到到周五的相似，而周六和周日雷同，以及不同星期的同一天的数据极其相似。另一方面，交通数据还具有空间相关性。由于路网是一个有机整体，由路段和节点组成，节点间有路段连接。由于同城市居民出行规律的相似性和出行方式的雷同，使得路网节点的交通流量变化具有类似特点，并且每一个区域的平均通行速度受到其相邻节点所连接路段通行速度的影响。所以充分结合时间和空间的相关性来插补缺失的数据，能够使得插补精确度更高。

如图1所示，本发明公开了一种填补缺失浮动车数据的方法，包括如下步骤：

步骤1：数据筛选步骤，根据筛选规则对数据进行筛选；

由于每天获得的浮动车数据量能够达到上千万条，所以通过步骤1删除以下这些不符合要求的数据对于减少数据量是有很大的必要的。

筛选规则包括如下：

(1)浮动车数据记录中的经纬度不在当前城市的经纬度范围内，则判断为无效数据。大部分情况下，可能是由于定位设备发生故障，或者没有得到卫星信号而数据传回了中心。深圳市的经纬度范围为：东经113.766667°～114.616667°，北纬22.45°～22.866667°。

(2)原数据中有许多重复的数据，这也是数据量过大的原因之一，需要剔除，以减小以后的工作量。

(3)车辆当前状态为空载，剔除该条记录。

(4)短时间内(5s)接收到同一辆车的很多条记录，记录的经纬度相同。

(5)同一辆车以固定频率发送同一位置GPS信息，即处于停车状态，则忽略该记录。

(6)同一辆车前后两条记录的时间间隔为t，记录到的两GPS点间距离为d，设车的最大速度为V。若V_t<d，说明即使直线行驶，车速都已经超过了最大速度V，将这类记录剔除。

步骤2：地图匹配步骤，将FCD记录的GPS点匹配到电子地图数据上，从而得到车辆目前所处路段；该步骤可以使车辆获得更精确的定位。

地图匹配是FCD处理重要步骤，直接影响交通信息获取的准确性，本发明使用一种基于多类SVM学习的FCD地图匹配算法，特征提取是使用SVM的关键，每个样本提取出来的特征组成了一个特征向量，用于SVM训练和分类预测过程。考虑地图匹配问题时，匹配样本为GPS点信息，每条数据包括经度、纬度、行驶方向角和记录时间。对于一个好的匹配结果，匹配GPS点离待匹配路段较近，匹配到同一路段的不同匹配点通常都聚集在一起，在电子地图准确的情况下，在地图上路段中心线处点分布密度较大。另外，路网使用有向图结构表示，每条路段都有方向性，对于平行反向的两条相邻路段，离的非常近，通常这两条路段属于同一条主干道上。这样的情况下GPS点信息中的方向角是区别匹配点属于哪条路段的有效信息，即车辆瞬时行驶方向。因此，对于每个FCD样本，特征向量为：{X，Y，D}。其中，X为经度，Y为纬度，D为方向角。方向角取值为[0,359]，以正东方向为0度，逆时针增加。

步骤3：划分网格步骤，使用网格对路网进行划分，是为了将全局搜索转换为局部选择候选路段，可以加快FCD处理速度。

使用网格对路网进行划分，是依据空间相关性的，它以整个路网为基础，从水平和垂直方向将整个地图数据分成n×n的网格。某一网格内的通行速度就会受到相邻网格内通行速度的影响。如果设地图区域的长度为L，高为H，划分为n×n份。每个网格长为l＝L/n，高为h＝H/n。给每个网格标示索引值后，设路网左上角顶点坐标为：P₀:(x₀,y₀)，当得到一GPS点落在网格内坐标为p(x,y)，那么p所属的网格索引号ID的计算公式为：

ID＝floor(n(y₀-y)/h)+floor((x-x₀)/l)+l

其中，floor()为取整函数，使用该公式可以从GPS点坐标快速定位到所属网格。

将路网进行网格划分后，就可以在网格的基础上进行SVM多分类器的训练。

训练算法为：从左上角网格开始，依次训练SVM多分类器。对于网格i(1≤i≤n²)，将邻域网格所包含的路段加入到训练过程中，使用One-Against-One策略学习SVM多分类器i。

步骤4：需要根据步骤3中划分后的路网，通过固定同一时间段并对比多天数据分布的情况确定需要插补的路段。该时间段将选取早晚高峰时间。

如图2所示，是某一天数据以时间间隔为5min划分网格后的一个示例图，其中每个网格区域的实际路面面积不到0.5平方公里，其内的数字代表该区域内的车辆数，并将车辆数超过15辆以上的进行标注底色。

步骤5：插补缺失数据步骤，利用多元线性回归模型，选取空间及时间信息作为变量，用训练数据计算出偏回归系数，经检验模拟数据与实际数据拟合效果较好，并同时与只选取空间信息作为变量进行对比，结果显示结合空间和时间信息的回归模型，能够使得插补精确度更高。

多元线性回归的一般形式为：

y_i＝α₀+α₁x_1i+α₂x_2i+…+α_kx_ki+ε_ii＝1,2,…,n

其中k为解释变量的数目，α₀,α₁,…α_k为待定参数，ε_i为随机变量。

如果b₀,b₁,…,b_k分别为α₀,α₁,…α_k的拟合值，则回归方程为

{\hat{y}}_{i} = b_{0} + b_{1} x_{1 i} + b_{2} x_{2 i} + ... + b_{k} x_{k i}

式中：b₀为常数。b₁,…,b_k为偏回归系数，其意义是，当其他自变量x_j(j≠i)都固定时，自变量x_i每变化一个单位而使因变量yⁱ平均改变的数值。

训练数据的选取：

经过多天同一5min时间间隔的数据分布进行对比，找到如上图中黑框标记的示例，作为训练数据即如下：

(1)

中间网格的通行速度y_i受八个相邻网格通行速度x_1i,x_2i,…,x_8i及该网格相同位置的之前5分钟的历史通行速度x_9i的影响，其第i(i＝1,2,…,n)组观测值为y_i,x_1i,x_2i,…,x_9i,则多元线性回归模型结构形式为

y_i＝α₀+α₁x_1i+α₂x_2i+…+α₉x_9i+ε_i

该模型充分体现了空间相关性及时间相关性，并对以上的这种模型进行了试验，模拟数据与实际数据拟合效果较好。同时针对以下情况也进行了试验：

(2)

该情况的模型为y_i＝α₀+α₁x_1i+α₂x_2i+…+α₈x_8i+ε_i，经过试验得到模拟数据与实际数据拟合效果较好。也就是说由周围有七个方向及历史数据可以对中间区域进行预测的，即八元线性回归。

(3)

该情况的模型为y_i＝α₀+α₁x_1i+α₂x_2i+…+α₇x_7i+ε_i，经过试验得到模拟数据与实际数据拟合效果较好。也就是说由周围有六个方向及历史数据可以对中间区域进行预测的，即七元线性回归。但是其预测精度不如以上第一、二种情况预测精确度。

步骤6：处理步骤，为了使获得的偏回归系数更精确，减小误差，本发明提出采用如下算法：

RFR算法步骤可归纳如下：

设θ为随机参数向量，决定决策树的生长。对应的决策树记为T(θ)。记B为X的域，即：其中p∈N₊是自变量的纬度。决策树的每一个叶节点l＝1,…,L都对应一个B的矩形空间。记每一个x∈B,当且仅当一个叶节点l满足x∈R_l，记决策树T(θ)的叶节点为l(x,θ)。

(1)利用bootstrap方法重采样，随机产生k个训练集θ₁,θ₂,…,θ_k；利用每个训练集生成对应的决策树{T(x,θ₁)},{T(x,θ₂)},…,{T(x,θ_k)}。

(2)假设特征有M维，从M维特征中随机抽取m个特征作为当前节点的分裂特征集。并以这m个特征中最好的分裂方式对该节点进行分裂。

(3)每个决策树都得到最大限度的生长，而不进行剪枝。

(4)对于一个新的数据X＝x，单棵决策树T(θ)的预测可以通过叶节点l(x,θ)的观测值取平均值获得。假如一个观测值X_i属于叶节点l(x,θ)且不为0，令权重向量ω_i(x,θ)为：式中ω_i(x,θ)权重之和等于1.

(5)在给定自变量X＝x下，单棵决策树的预测通过因变量的观测值Y_i(i＝1,2,…,n)的加权平均得到。单棵决策树的预测值可由

(6)通过决策树权重ω_i(x,θ)(i＝1,2,…,k)取平均，得到每个观测值i∈(1,2,…,n)的权重ω_i(x)：

(7)对于所有y，随机森林的预测可记为：

因此，在给定X＝x的条件下，Y的条件均值的估计等于所有因变量观测值的加权和。权重随自变量X＝x的变化而变化，且在给定X＝X_i(i∈{1,2,…,n})下Y的条件分布与X＝x下Y的条件分布越相似，其权重越大。

该算法具有预测精度高、泛化能力好、收敛速度快以及调节参数少等优点，可有效避免“过拟合”现象的发生，适合各种数据集的运算，对数据集特征的提取具有较好的鲁棒性，适用于对大数据进行处理。

本发明还公开了一种填补缺失浮动车数据的系统，包括：

数据筛选模块，用于根据筛选规则对数据进行筛选；

划分网格模块，用于使用网格对路网进行划分；

在所述划分网格模块中，从水平和垂直方向将整个地图数据分成n×n的网格，如果设地图区域的长度为L，高为H，划分为n×n份，每个网格长为l＝L/n，高为h＝H/n，给每个网格标示索引值后，设路网左上角顶点坐标为：P₀:(x₀,y₀)，当得到一GPS点落在网格内坐标为p(x,y)，那么p所属的网格索引号ID的计算公式为：

ID＝floor(n(y₀-y)/h)+floor((x-x₀)/l)+l

在所述插补缺失数据模块中，多元线性回归的形式为：y_i＝α₀+α₁x_1i+α₂x_2i+…+α_kx_ki+ε_ii＝1,2,…,n，其中k为解释变量的数目，α₀,α₁,…α_k为待定参数，ε_i为随机变量，如果b₀,b₁,…,b_k分别为α₀,α₁,…α_k的拟合值，则回归方程为：

{\hat{y}}_{i} = b_{0} + b_{1} x_{1 i} + b_{2} x_{2 i} + ... + b_{k} x_{k i}

该系统还包括：

在所述处理模块中：

每个决策树都得到最大限度的生长，而不进行剪枝；

对于所有y，随机森林的预测可记为：

利用多元线性回归模型进行了一次试验：

1、建立模型

多元线性模型相关信息示意图

上图为划分完网格的多元线性模型相关信息示意图。中间网格的通行速度y_i受8个相邻网格通行速度x_1i,x_2i,…,x_8i及该网格相同位置的之前5分钟的历史通行速度x_9i的影响，其第i(i＝1,2,…,n)组观测值为y_i,x_1i,x_2i,…,x_9i,则多元线性回归模型结构形式为

y_i＝α₀+α₁x_1i+α₂x_2i+…+α₉x_9i+ε_i

2、参数估计

通过软件计算出：

V_y＝16.7659+0.7237×V_x1-0.9071×V_x2+0.0989×V_x3+0.1880×V_x4-1.0976×V_x5+0.2144×V_x6-0.2181×V_x7+0.2365×V_x8+0.3574×V_x9

3、模型检验

模型的检验的结果为：r²＝0.8887,F-统计量＝5.3213，χ₀对应的概率为p＝0.0273<α＝0.05，并且参见图3的实际速度与多元线性模型拟合速度的比较图。可得，该模型拟合效果较好。

以下是没有结合历史数据的多元线性回归模型：

通过模型计算检验得到模型为：

V_y＝32.0452+0.4048×V_x1-1.2405×V_x2+0.0557×V_x3+0.0272×V_x4-0.9812×V_x5+0.3034×V_x6-0.3516×V_x7+0.1577×V_x8

经检验r²＝0.7482,F-统计量＝2.5993，χ₀对应的概率为p＝0.1128>α＝0.05

图4是没有结合历史数据的模型及实际速度与模拟速度的对比，可得此时该模型拟合效果不好。

通过利用随机森林可以使得获得的偏回归系数α₁,α₂,…,α₉更准确，这样就能使得预测精度更高。

由于深圳市安装GPS的出租车数量非常多，以及出租车以2秒的采样间隔记录信息，信息中心设置接收信息的时间间隔是30秒，即正常情况下每30秒获得车辆的位置信息，这样每天将会达到上千万条的数据。但是由于高大建筑、隧道等的遮挡，会造成个别GPS检测盲区。由此影响检测的效果，收集到的原始数据存在不同程度的缺失现象，包括缺失一段时间的数据、缺失较长时间(一天或更长时间)的数据以及数据不同变量缺失异常的情况。需要对浮动车数据进行预处理，是将时间、经纬度等与实际范围不符的浮动车数据记录给剔除，每一条浮动车数据都需要进行一次预处理。故在本发明中需要有内存大且运行速度快的计算机才能对这大量的数据进行处理与筛选。

浮动车交通信息采集与处理过程中的关键技术之一是浮动车数据的地图匹配问题,但由于浮动车地图匹配的目的、对象规模、速度和匹配率要求都与车辆导航地图匹配大不相同,所以这些技术不能简单地移植到浮动车交通信息处理过程中.首先,浮动车地图匹配的目的是将浮动车位置转变为路段通行时间信息,在匹配率方面不如车辆导航地图匹配要求高.其次,浮动车地图匹配的对象规模比较大,要在较短时间内完成几千辆乃至上万辆浮动车的地图匹配工作,匹配速度方面的要求比较高.在本发明中需要将处理后的数据进行地图匹配，并将路网进行网格划分，确定需要填充的路段及时间段。本发明中采用一种“切片”的思想对交通路网数据进行时间和空间上的细化,并提出适合于城市交通数据时空分析的模型。并根据数据的时序特征划分为3个时段:工作日早高峰(8:00-9:00)、工作日平峰(15:00-16:00)、工作日晚高峰(18:00-19:00)。

本发明通过利用机器学习方法进行插补，需要对算法进行充分理解并运用相应软件编程实现，并且可根据完整的数据进行路况分析进行预测，同时将信息反馈给用户。

本发明的有益效果是：

1.根据浮动车数据的特性充分结合空间及时间相关性来插补数据；

2.具有很好的鲁棒性；

3.利用机器学习的方法改进多元线性回归模型能够使得插补精确度更高。

即，通过插补使数据得到完整，可以用于估计交通拥挤程度，计算路段通行速度以及发布当前交通公告等。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种填补缺失浮动车数据的方法，其特征在于，包括如下步骤：

A.数据筛选步骤，根据筛选规则对数据进行筛选；

C.划分网格步骤，使用网格对路网进行划分；

2.根据权利要求1所述的方法，其特征在于，在所述步骤C中，从水平和垂直方向将整个地图数据分成n×n的网格，如果设地图区域的长度为L，高为H，划分为n×n份，每个网格长为l＝L/n，高为h＝H/n，给每个网格标示索引值后，设路网左上角顶点坐标为：P₀:(x₀,y₀)，当得到一GPS点落在网格内坐标为p(x,y)，那么p所属的网格索引号ID的计算公式为：

ID＝floor(n(y₀-y)/h)+floor((x-x₀)/l)+l

3.根据权利要求1所述的方法，其特征在于，在所述步骤E中，多元线性回归的形式为：y_i＝α₀+α₁x_1i+α₂x_2i+…+α_kx_ki+ε_ii＝1,2,…,n，其中k为解释变量的数目，α₀,α₁,…α_k为待定参数，ε_i为随机变量，如果b₀,b₁,…,b_k分别为α₀,α₁,…α_k的拟合值，则回归方程为：

{\hat{y}}_{i} = b_{0} + b_{1} x_{1 i} + b_{2} x_{2 i} + ... + b_{k} x_{k i}

4.根据权利要求1所述的方法，其特征在于，该方法还包括如下步骤：

5.根据权利要求4所述的方法，其特征在于，在所述步骤F中，

每个决策树都得到最大限度的生长，而不进行剪枝；

ω_{i} (x) = k^{- 1} Σ_{i = 1}^{k} ω_{i} (x, θ_{i}) y;

对于所有y，随机森林的预测可记为：

6.一种填补缺失浮动车数据的系统，其特征在于，包括：

数据筛选模块，用于根据筛选规则对数据进行筛选；

划分网格模块，用于使用网格对路网进行划分；

7.根据权利要求6所述的系统，其特征在于，在所述划分网格模块中，从水平和垂直方向将整个地图数据分成n×n的网格，如果设地图区域的长度为L，高为H，划分为n×n份，每个网格长为l＝L/n，高为h＝H/n，给每个网格标示索引值后，设路网左上角顶点坐标为：P₀:(x₀,y₀)，当得到一GPS点落在网格内坐标为p(x,y)，那么p所属的网格索引号ID的计算公式为：

ID＝floor(n(y₀-y)/h)+floor((x-x₀)/l)+l

8.根据权利要求6所述的系统，其特征在于，在所述插补缺失数据模块中，多元线性回归的形式为：y_i＝α₀+α₁x_1i+α₂x_2i+…+α_kx_ki+ε_ii＝1,2,…,n，其中k为解释变量的数目，α₀,α₁,…α_k为待定参数，ε_i为随机变量，如果b₀,b₁,…,b_k分别为α₀,α₁,…α_k的拟合值，则回归方程为：

{\hat{y}}_{i} = b_{0} + b_{1} x_{1 i} + b_{2} x_{2 i} + ... + b_{k} x_{k i}

9.根据权利要求6所述的系统，其特征在于，该系统还包括：

10.根据权利要求9所述的系统，其特征在于，在所述处理模块中，

每个决策树都得到最大限度的生长，而不进行剪枝；

ω_{i} (x) = k^{- 1} Σ_{i = 1}^{k} ω_{i} (x, θ_{i}) y;

对于所有y，随机森林的预测可记为：