CN104183135B

CN104183135B - 车辆行进开销的估计方法及系统

Info

Publication number: CN104183135B
Application number: CN201410453719.0A
Authority: CN
Inventors: 叶子豪; 高民; 谭浩宇; 倪明选
Original assignee: Guangzhou HKUST Fok Ying Tung Research Institute
Current assignee: Guangzhou HKUST Fok Ying Tung Research Institute
Priority date: 2014-09-05
Filing date: 2014-09-05
Publication date: 2016-09-14
Anticipated expiration: 2034-09-05
Also published as: CN104183135A

Abstract

本发明公开了一种车辆行进开销的估计方法，包括步骤：将接收到的交通数据和地图数据分化到各自相应的时空分割路段内，从而形成有数据时空分割路段和无数据时空分割路段并分别提取其对应的特征值；基于特征值将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中，使得同一个聚类中的所有时空分割路段有着相似的特征；通过计算任一有数据时空分割路段的所有数据的车辆行进速度的平均值以作为其车辆行进开销估计值；通过计算任一无数据时空分割路段所在的聚类中的所有有数据时空分割路段的车辆行进开销估计值的平均值以作为其车辆行进开销估计值。本发明还公开了一种车辆行进开销的估计系统。

Description

车辆行进开销的估计方法及系统

技术领域

本发明涉及交通数据处理领域，尤其涉及一种车辆行进开销的估计方法及系统。

背景技术

随着技术的发展，越来越多的交通数据得以被人们所收集并利用。例如，在GPS设备的普及下，大都市出租车辆均装备了GPS设备。通过这些设备以及其他一些相关车辆信息采集设备，出租车可以不断地将自己的位置信息，速度信息以及载客与否信息传送给数据中心。于是，数据中心便可以收集海量的交通数据，从而进行一系列的数据挖掘与分析任务。由于海量交通数据富含的丰富价值，基于交通数据的挖掘工作也变成了时下一个热活跃的热点研究领域。交通数据相关的研究工作主要包含两个目的。其一是通过对海量交通数据的分析，来发掘城市的一些动态特征。这方面的研究包括研究城市规划合理程度，分析城市不同区域的功能模块等等。而第二个目的，则是通过利用海量交通数据，从而为用户提供与交通相关的服务。例如，根据历史交通车辆的行进轨迹对用户做最优路线推荐，以及通过出租车行驶历史数据提供优化的打车推荐服务，帮助用户更加容易打到出租车，也使得出租车更容易找到用户等等。

基于交通数据的研究，一方面，由于大城市出租车数量众多且它们均会频繁发送车辆信息，数据中心会收集到海量数据，对挖掘提出了数据规模上的挑战。而另一方面，由于出租车仅仅占大城市所有车辆中的一个微小的部分，对于这类数据开展的数据挖掘任务同时又面临着数据稀缺的挑战。然而，在众多对于交通数据进行的数据挖掘任务中，对于道路行进开销的数据挖掘任务尤为重要，因为它扮演着对于其他数据挖掘任务提供基础的角色。比如知道各个道路的行进开销有助于城市建设规划，同时，也方便于系统提供合理路线给用户而完成旅行路线推荐的服务。由此，此项对道路行进开销估计与预测的工作有着强烈的动机。

道路行进开销的数据挖掘任务，具体来说，就是通过采集交通数据，将这些交通数据归类到相应的道路上，并通过这些交通数据来计算不同时间段上这条道路的车辆行进单位距离所需要的时间耗费。所以，道路行进开销的数据挖掘也可以理解成对于道路期望的行进速度的计算，因为一旦我们可以掌握道路期望的行进速度，此道路上车辆行进单位距离所需要耗费的时间也可以自然快捷地计算出来。需要指出的是，不同车辆在同一条道路同一个时间段的行进开销有所不同，这跟驾驶员的驾驶习惯，当时道路上的具体道路交通状况有关。这里所说的道路行进开销的计算是相对于此道路在这一特定时间段的车辆行进开销期望而言。这个行进开销值可以对这条路段这个时间的交通状况提供一个合理的参考。

这项工作中设计到的道路行进开销的数据挖掘任务涉及了两方面。第一方面，是对于道路行进开销的估计。这一部分，主要着重于时间点的当下，由于出租车数据的稀疏特性，部分路段在特定时间段并没有出租车覆盖，也没有相应的交通数据，因此其道路行进开销并不能通过简单根据其上车辆行进速度计算而得到。然而，对于收集到交通数据的路段和未收集到交通数据的路段，我们都需要对其当前的车辆行进开销进行估计。第二方面，是对于道路行进开销的预测。这一部分，主要着重于时间点的未来，我们根据当前收集到的交通数据，对于路段在未来时间的车辆行进开销进行预测。这一部分的工作相对第一部分更为重要，因为对于一些行进路径推荐的服务，了解未来的道路行进开销对于优化路径的提出有着重要的意义。

在现有技术中，关于道路车辆行进开销的估计与道路车辆行进开销的预测，均有相关工作展开。其中，对于道路车辆行进开销的估计，之前的工作通过仅仅收集大量出租车行进轨迹路径以及耗费总时间并运用机器学习的方法去推测出租车消耗在各个所经过路段的时间花费。通过这样对大量出租车轨迹的挖掘，进行道路车辆行进开销的估计。这种方法，一方面，只利用了整体交通车辆轨迹的总共时间花费信息与轨迹路径信息，而忽略了轨迹中各个交通车辆信息点的具体信息，因此这种方法得到的行进开销的估计结果可以得到进一步的提升。另一方面，由于根据整体交通车辆轨迹信息进行具体信息的推测，在运用机器学习的方法中进行不断迭代会耗费掉大量计算资源。因此，这种方法在真实世界中对于实际海量交通数据下的道路车辆行进开销的估计很难进行。

发明内容

本发明的目的提供一种车辆行进开销的估计方法及系统，可以运用完整的交通数据信息并且避开反复机器学习迭代造成的计算资源耗费，从而能够更加实际地运用到现实的海量数据场景中。

为实现上述目的，本发明提供了一种车辆行进开销的估计方法，包括步骤：

A、将接收到的交通数据和地图数据分化到各自相应的时空分割路段内，从而形成有数据时空分割路段和无数据时空分割路段；其中，所述时空分割路段定义为给定时间段下的一个路段；

B、基于每一所述有数据时空分割路段和无数据时空分割路段内的交通数据和地图数据，提取其对应的特征值；

C、基于所述特征值将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中，使得同一个聚类中的所有时空分割路段有着相似的特征；

D、对于任一有数据时空分割路段，通过计算该有数据时空分割路段的所有数据的车辆行进速度的平均值，从而作为该有数据时空分割路段的车辆行进开销估计值；

E、对于任一所述无数据时空分割路段，通过计算该无数据时空分割路段所在的聚类中的所有有数据时空分割路段的车辆行进开销估计值的平均值，从而作为该无数据时空分割路段的车辆行进开销估计值。

本发明还提供了另一种车辆行进开销的估计方法，包括步骤：

E、对于任一所述无数据时空分割路段，通过构建并获得该无数据时空分割路段所在的聚类中的所有有数据时空分割路段的特征值和车辆行进开销估计值的对应关系，并根据该无数据时空分割路段的特征值和所述对应关系获得该无数据时空分割路段的车辆行进开销估计值。

本发明提供了一种车辆行进开销的估计系统，包括：

时空分割路段分化单元，用于将接收到的交通数据和地图数据分化到各自相应的时空分割路段内，从而形成有数据时空分割路段和无数据时空分割路段；其中，所述时空分割路段定义为给定时间段下的一个路段；

时空分割路段特征值提取单元，基于每一所述有数据时空分割路段和无数据时空分割路段内的交通数据和地图数据，提取其对应的特征值；

时空分割路段聚类单元，基于所述特征值将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中，使得同一个聚类中的所有时空分割路段有着相似的特征；

有数据时空分割路段的车辆行进开销估计单元，通过计算任一有数据时空分割路段的所有数据的车辆行进速度的平均值，并将该平均值从而作为该有数据时空分割路段的车辆行进开销估计值；以及

无数据时空分割路段的车辆行进开销估计单元，通过计算任一无数据时空分割路段所在的聚类中的所有有数据时空分割路段的车辆行进开销估计值的平均值，并将该平均值作为该无数据时空分割路段车辆行进开销估计值。

本发明还提供了另一种车辆行进开销的估计系统，包括：

有数据时空分割路段的车辆行进开销估计单元，通过计算任一有数据时空分割路段的所有数据的车辆行进速度的平均值，从而作为该有数据时空分割路段车辆行进开销估计值；

无数据时空分割路段的车辆行进开销估计单元，通过构建并获得任一无数据时空分割路段所在的聚类中的所有有数据时空分割路段的特征值和车辆行进开销估计值的对应关系，并根据该无数据时空分割路段的特征值和所述对应关系获得该无数据时空分割路段的车辆行进开销估计值。

与现有技术相比，本发明公开的车辆行进开销的估计方法及系统具有如下有益效果：通过各个交通车辆信息点的具体信息来划分时空分割路段，从而形成有数据时空分割路段和无数据时空分割路段；对于有数据时空分割路段通过计算所有数据的车辆行进速度的平均值即可得该有数据时空分割路段的车辆行进开销估计值；而对于无数据时空分割路段，则通过寻找分类相似的时空分割路段，并基于同一个聚类中的所有时空分割路段有着相似的特征的原则，通过计算同个聚类有数据时空分割路段的车辆行进开销估计值的平均值而得到无数据时空分割路段的车辆行进开销估计值或通过构建同个聚类有数据时空分割路段的特征值和车辆行进开销估计值的对应关系来计算得到无数据时空分割路段的车辆行进开销估计值。因此，可以运用完整的交通数据信息并且避开反复机器学习迭代造成的计算资源耗费，从而能够更加实际地运用到现实的海量数据场景；而且可以克服先前工作没有解决的数据稀疏问题，从而可以完整地对于任意路段都可以完成车辆行进开销的估计。

附图说明

图1是本发明实施例1中一种车辆行进开销的估计方法的流程示意图。

图2是图1所示的一种车辆行进开销的估计方法中的步骤S104的具体流程示意图。

图3是本发明实施例2中一种车辆行进开销的估计方法的流程示意图。

图4是图3所示的一种车辆行进开销的估计方法中的步骤S206的具体流程示意图。

图5是本发明实施例3中一种车辆行进开销的估计系统的结构示意图。

图6是图5所示的一种车辆行进开销的估计系统的时空分割路段聚类单元的结构示意图。

图7是本发明实施例4中一种车辆行进开销的估计系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，是本发明实施例提供的一种车辆行进开销的估计方法的流程示意图，包括步骤：

S101、接收包括交通数据和地图数据的数据；

其中，所述交通数据至少包括车辆不同时间点的当前时间信息、位置经度信息和行进速度信息，所述地图数据包括路段的起始终止经纬度信息。

S102、将接收到的交通数据和地图数据分化到各自相应的时空分割路段内，从而形成有数据时空分割路段和无数据时空分割路段；其中，所述时空分割路段定义为给定时间段下的一个路段；

S103、基于每一所述有数据时空分割路段和无数据时空分割路段内的交通数据和地图数据，提取其对应的特征值；

S104、基于所述特征值将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中，使得同一个聚类中的所有时空分割路段有着相似的特征；

S105、对于任一有数据时空分割路段，通过计算该有数据时空分割路段的所有数据的车辆行进速度的平均值，从而作为该有数据时空分割路段的车辆行进开销估计值；

S106、对于任一无数据时空分割路段，通过计算该无数据时空分割路段所在的聚类中的所有有数据时空分割路段的车辆行进开销估计值的平均值，从而作为该无数据时空分割路段的车辆行进开销估计值。

在步骤S102中，基于步骤S101输入的交通数据与地图数据进行路段的时空分割，同时由于交通数据中有车辆的位置信息和当前时间信息，所以各个数据点可以根据此类时空信息分化到其应该属于的相关时空分割路段中。

其中，“时空分割路段”即是在给定时间段下的一个路段，在本实施例中，这里的时间段长度默认为三十分钟。定义在这个短暂时间段中一个路段的车辆行进开销保持不变或者变化微小可以忽略。所以，每一个时空分割路段，就是本发明进行车辆行进开销估计的最小目标对象，对于车辆行进开销的估计将对于各个不同的时空分割路段而开展。其中，对于路段车辆行进开销的估计主要着重于当前时间片内所有时空分割路段的车辆行进开销的计算。

将所有的交通数据和地图数据的数据点根据其相关的位置信息与时间信息分化到各自相应的时空分割路段内之后，会产生有数据时空分割路段与无数据时空分割路段两种时空分割路段。由于出租车数据的稀疏特性，部分路段在特定时间段并没有出租车覆盖，也没有相应的交通数据，因此会产生有数据的时空分割路段与无数据的时空分割路段两种时空分割路段。

在步骤S103中，本实施例为每一个时空分割路段提取特征值以对其进行描述。在实施例中，每一个时空分割路段提取的特征值包括为静态特征和动态特征两类。其中，静态特征主要用于描述时空分割路段及其附近时空分割路段的路网的结构，这些特征在长期是相对稳定不变的特征，被归为静态特征一类。而动态特征旨在提取该时空分割路段的动态信息，主要包括该时空分割路段及其近邻时空分割路段的车辆平均行进速度的相关信息。该类信息相关于实时的车辆行进情况，会不断地发生变化，被归为动态特征一类。对于每一时空分割路段提取的完整特征其及相关描述总结与表1中：

特征	描述
		T_rid	时空分割路段类型
L_rid	时空分割路段长度
		E_i(rid)	时空分割路段的近邻路段平均类型
E_l(rid)	时空分割路段的近邻路段平均长度
		V_i(rid)	时空分割路段的近邻路段类型方差
V_l(rid)	时空分割路段的近邻路段长度方差
		N_rid	时空分割路段的近邻路段数量
E_i(sid)	时空分割路段的近邻时空分割路段第i个时间段平均行进速度
		V_i(sid)	时空分割路段的近邻时空分割路段第i个时间段行进速度方差

表1

表1中，前七个特征用于描述路网信息，为静态特征。最后两个特征用于描述动态车辆行进情况，属于动态特征。在地图数据中，路段均会根据其道路等级进行编号标示，由此数字编号可以得到路段的类型信息。对于E_i(sid)与V_i(sid)，i＝0使得两个特征分别表示此时空分割路段的近邻路段在同一时间片内的平均车辆行进速度与车辆行进速度方差。而i＝1与i＝-1分别表示下一个时间片内与上一个时间片内相关的特征值，依此类推。

可以理解的，无论是有数据时空分割路段还是无数据时空分割路段，对于表格1中所示的静态特征与动态特征均有有效值。在“时空分割路段特征提取”步骤中，我们对于所有的时空分割路段，进行所有特征值的计算。

至此，对于任一个有数据时空分割路段，可以通过步骤S105，即直接计算任一个有数据时空分割路段内所有数据点的车辆行进速度的平均速度来估计该时空分割路段的期望行进速度，从而获取其车辆行进开销估计值。

而对于任一个无数据时空分割路段，则需要进行步骤S104的时空分割路段聚类和步骤S106的无数据时空分割路段所在的聚类中的所有有数据时空分割路段的车辆行进开销估计值的平均值，从而最后得到无数据时空分割路段车辆行进开销估计的结果。

具体的，结合图2，步骤S104的时空分割路段聚类过程具体包括：

S1041、将每一所述有数据时空分割路段和无数据时空分割路段的特征值进行归一化处理，从而减少各个特征值的大小差距；

S1042、基于经过归一化处理后的特征值并通过K-Means的聚类方法将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中，从而使得同一个聚类中的所有时空分割路段有着相似的特征。

其中，在步骤S1041中，通过公式(1)对所述每一有数据时空分割路段和无数据时空分割路段的特征值进行归一化处理：

F_{norm} = \frac{F_{origin}}{F_{\max}}

公式(1)

其中，F_origin是每个时空分割路段的初始特征值，F_max是此类特征的最大值，F_norm为归一化后的特征值，因此归一化后的特征值均处于零到一之间。经过归一化处理，可以使得各个特征值的大小差距较归一化之前变小，进而使得此后在计算特征相似度时各个特征值的贡献会近似相同，从而避免因为个别特征值的较大贡献使得特征相似度计算失真。

对每个时空分割路段的特征值进行归一化处理后，通过步骤S1042所示的K-Means聚类方法进行时空分割路段聚类，具体包括过程：

(1)、初始化定义K个聚类中心；

(2)、根据公式(2)中定义的时空分割路段与聚类中心的距离，将各个时空分割路段归类到其距离最近的聚类中心处：

{Dis}_{ac} = \sqrt{Σ_{i = 1}^{n} {({f_{i}}^{a} - {f_{i}}^{c})}^{2}}

公式(2)

其中，Dis_ac表示任一时空分割路段到任一个聚类中心的距离，f_i ^a代表该时空分割路段的第i个特征值，而f_i ^c代表该聚类中心的第i个特征值；

由此特征值相似度计算公式(2)可以看出，如果各个特征值的有效范围差距较大，则数值大的特征值可能会较大程度地定义特征值相似性而较小的特征值的相似性会被模糊，使得整个样本相似度计算失真。由此体现出公式(1)中特征值归一化处理的必要性。这使得各个特征值在计算样本相似度时会有着相似的贡献，使得样本相似度可以真实地反映所有特征值的相似度。

(3)、根据每个聚类中的时空分割路段的平均特征值更新该聚类的中心，直至时空分割路段的平均特征值与聚类中心完全重合无法更新为止。

在该步骤中，根据每个聚类中的时空分割路段的平均特征值更新此聚类的中心。如此上述将时空分割路段归类并更新聚类中心的过程会不断进行直到收敛，即时空分割路段的平均特征值与聚类中心完全重合无法更新为不同的聚类中心。这样的聚类过程，可以根据各个时空分割路段的特征值将它们分化到不同的聚类中，使得同一个聚类中的时空分割路段有着相似的特征。在本发明中，定义在这样的每一个聚类中，特征相似的时空分割路段会有着相似的性质，从而有着相似的车辆行进开销值。这也是本发明对无数据时空分割路段进行车辆行进开销估计的基础。根据时空分割路段的相似性，无数据时空分割路段的车辆行进开销可以根据其相似的有数据时空分割路段车辆行进开销值进行估计。

此后，在完成所有时空分割路段的聚类后，通过计算任一无数据时空分割路段所在的聚类中的所有有数据时空分割路段的车辆行进开销估计值的平均值，从而作为该无数据时空分割路段的车辆行进开销估计值。基于同一聚类中时空分割路段的性质相似的原则，因此同一聚类中的有数据时空分割路段和无数据时空分割路段的车辆行进开销值也相近。所以，通过计算一个聚类中所有有数据时空分割路段的平均车辆行进开销估计值，可以以此作为对于同个聚类中无数据时空分割路段车辆行进开销的估计值。至此，所有时空分割路段的车辆行进开销估计均已完成。

可见，在本实施例中，通过各个交通车辆信息点的具体信息来划分时空分割路段，从而形成有数据时空分割路段和无数据时空分割路段；对于有数据时空分割路段通过计算所有数据的车辆行进速度的平均值即可得该有数据时空分割路段的车辆行进开销估计值；而对于无数据时空分割路段，则通过寻找分类相似的时空分割路段，并基于同一个聚类中的所有时空分割路段有着相似的特征的原则，通过计算同个聚类中有数据时空分割路段的车辆行进开销估计值的平均值而得到无数据时空分割路段的车辆行进开销估计值。因此，可以运用完整的交通数据信息并且避开反复机器学习迭代造成的计算资源耗费，从而能够更加实际地运用到现实的海量数据场景；而且可以克服先前工作没有解决的数据稀疏问题，从而可以完整地对于任意路段都可以完成车辆行进开销的估计。

实施例2

参见图3，是本发明实施例提供的一种车辆行进开销的估计方法的流程示意图，包括步骤：

S201、接收包括交通数据和地图数据的数据；

S202、将接收到的交通数据和地图数据分化到各自相应的时空分割路段内，从而形成有数据时空分割路段和无数据时空分割路段；其中，所述时空分割路段定义为给定时间段下的一个路段；

S203、基于每一所述有数据时空分割路段和无数据时空分割路段内的交通数据和地图数据，提取其对应的特征值；

S204、基于所述特征值将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中，使得同一个聚类中的所有时空分割路段有着相似的特征；

S205、对于任一有数据时空分割路段，通过计算该有数据时空分割路段的所有数据的车辆行进速度的平均值，从而作为该有数据时空分割路段的车辆行进开销估计值；

S206、对于任一无数据时空分割路段，通过构建并获得该无数据时空分割路段所在的聚类中的所有有数据时空分割路段的特征值和车辆行进开销估计值的对应关系，并根据该无数据时空分割路段的特征值和所述对应关系获得该无数据时空分割路段的车辆行进开销估计值。

其中，在本实施例中，所述步骤S201～S205与实施例1的步骤S101～S105的过程和原理均相同，在此不再重复描述。

与实施例1不同的是，本实施例在计算任一无数据时空分割路段的车辆行进开销估计值时，通过构建并获得该无数据时空分割路段所在的聚类中的所有有数据时空分割路段的特征值和车辆行进开销估计值的对应关系，并基于同一个聚类中的时空分割路段有着相似的特征(对应关系)，根据获得的对应关系以及该无数据时空分割路段的特征值来计算得到无数据时空分割路段的车辆行进开销估计值。具体的，参考图4，步骤S206具体包括步骤：

S2061、对于每一所述无数据时空分割路段，将该无数据时空分割路段所在的聚类中的每一个有数据时空分割路段的特征值与其车辆行进开销估计值作为一组训练数据和对应的训练标记；

其中，对于每一个时空分割路段聚类来说，其包含了部分有数据时空分割路段与部分无数据时空分割路段。其中，有数据时空分割路段根据属于它的交通数据点，已经计算出了车辆行进开销估计值。由此，我们将每一个有数据时空分割路段的特征值与其车辆行进开销估计值作为一组训练数据和对应的训练标记。对于一个特定的时空分割路段聚类，我们可以得到若干组这样的训练数据与对应标记。

S2062、通过定义神经网络的神经元层数、个数以及神经元间连接边来构建人工神经网络；其中，连接边表示了信息的流动方向，同时连接边上的参数标记了各条连接边上传递的信息对于下一层神经元上新信息合成的贡献权重值；

本实施例通过人工神经网络来学习时空分割路段的特征值与其车辆行进开销的对应关系，从而完成有数据时空分割路段特征值与车辆行进开销估计值的构建。

其中，人工神经网络由若干层神经元以及神经元间的连接边组成。其连接边表示了信息的流动方向，同时连接边上的参数标记了各条连接边上传递的信息对于下一层神经元上新信息合成的贡献权重值。通过定义神经网络的神经元层数，个数以及神经元间连接边来完成人工神经网络的构建。此后，通过得到的若干组训练数据与对应标记对神经网络进行训练。

S2063、向所述人工神经网络输入训练数据，该训练数据经过人工神经网络中的转换函数后输出预测值，该转换函数如公式(3)所示：

Φ (x) = \frac{1}{1 + e^{- x}}

公式(3)

S2064、将输出的预测值与该训练数据对应的训练标记作比较，根据二者的差异修改神经网络中各连接边的参数；

通过不断地输入训练数据，根据神经网络信息传递结构计算最终得出的预测值，并将此预测值与该训练数据对应的训练标记作比较。然后根据二者的差异修改神经网络中各连接边的参数。通过若干训练数据不断地输入对神经网络进行训练直到收敛，即所有输入训练数据根据神经网络的预测值与其真实对应标记差异在合理范围之内。至此，训练的人工神经网络已经记忆下时空分割路段的特征值到其对应车辆行进开销的对应关系。这个记忆过程可以认为是一个从输入特征值到输出预测目标值的拟合。通过人工神经网络完成了这个拟合过程。由于这里神经元中的转换函数我们设定为Sigmoid函数，如公式3所示，所以这里的时空分割路段特征值到其对应车辆行进开销的拟合过程为一个非线性拟合过程。这样的拟合过程在实际中更加合理，更加可以捕捉到特征值与预测目标值间复杂的相关性。

S2065、重复步骤S2063和步骤S2064以将该无数据时空分割路段所在的聚类中的所有训练数据输入对神经网络进行训练直到收敛，从而获得训练的人工神经网络记忆下有数据时空分割路段的特征值到其对应车辆行进开销估计值的对应关系；

S2066、基于同一个聚类的时空分割路段特征相似的原则，根据该无数据时空分割路段的特征值和经过S2065步骤得到的对应关系，获得该无数据时空分割路段的车辆行进开销估计值。

对于同一聚类中的时空分割路段，我们认为它们的性质相似，即具有相似的时空分割路段的特征值到其对应车辆行进开销估计值的对应关系。于是，通过一个聚类中有数据时空分割路段训练得到的特征值与车辆行进开销值间的对应关系同样适用于这个聚类中无数据时空分割路段。因此，根据该无数据时空分割路段的特征值以及训练得出的对应关系，可以得到该无数据时空分割路段的车辆行进开销。这一过程，可以将无数据时空分割路段的特征值理解为函数输入值x，将训练所得的时空分割路段特征值与车辆行进开销值对应关系理解为映射函数f，于是根据f(x)可以得出无数据时空分割路段的车辆行进开销估计。

可见，在本实施例中，通过各个交通车辆信息点的具体信息来划分时空分割路段，从而形成有数据时空分割路段和无数据时空分割路段；对于有数据时空分割路段通过计算所有数据的车辆行进速度的平均值即可得该有数据时空分割路段的车辆行进开销估计值；而对于无数据时空分割路段，则通过寻找分类相似的时空分割路段，并基于同一个聚类中的所有时空分割路段有着相似的特征的原则，通过构建同个聚类有数据时空分割路段的特征值和车辆行进开销估计值的对应关系来计算得到无数据时空分割路段的车辆行进开销估计值。因此，可以运用完整的交通数据信息并且避开反复机器学习迭代造成的计算资源耗费，从而能够更加实际地运用到现实的海量数据场景；而且可以克服先前工作没有解决的数据稀疏问题，从而可以完整地对于任意路段都可以完成车辆行进开销的估计。另外，通过本实施例得到的无数据时空分割路段的车辆行进开销估计值相比实施例1所计算得到的精确度要高。

实施例3

参见图5，是本发明实施例提供的一种车辆行进开销的估计系统的结构示意图，包括：

数据输入单元301，用于接收包括交通数据和地图数据的数据；其中，所述交通数据至少包括车辆不同时间点的当前时间信息、位置经度信息和行进速度信息，所述地图数据包括路段的起始终止经纬度信息。

时空分割路段分化单元302，用于将接收到的交通数据和地图数据分化到各自相应的时空分割路段内，从而形成有数据时空分割路段和无数据时空分割路段；其中，所述时空分割路段定义为给定时间段下的一个路段；

时空分割路段特征值提取单元303，基于每一所述有数据时空分割路段和无数据时空分割路段内的交通数据和地图数据，提取其对应的特征值；

时空分割路段聚类单元304，基于所述特征值将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中，使得同一个聚类中的所有时空分割路段有着相似的特征；

有数据时空分割路段的车辆行进开销估计单元305，通过计算任一有数据时空分割路段的所有数据的车辆行进速度的平均值，并将该平均值从而作为该有数据时空分割路段的车辆行进开销估计值；以及

无数据时空分割路段的车辆行进开销估计单元306，通过计算任一无数据时空分割路段所在的聚类中的所有有数据时空分割路段的车辆行进开销估计值的平均值，并将该平均值作为该无数据时空分割路段车辆行进开销估计值。

在时空分割路段分化单元302中，基于数据输入单元301输入的交通数据与地图数据进行路段的时空分割，同时由于交通数据中有车辆的位置信息和当前时间信息，所以各个数据点可以根据此类时空信息分化到其应该属于的相关时空分割路段中。

在时空分割路段特征值提取单元303中，为每一个时空分割路段提取特征值以对其进行描述。在实施例中，提取每一个时空分割路段的特征值包括为静态特征和动态特征两类。其中，静态特征主要用于描述时空分割路段及其附近时空分割路段的路网的结构，这些特征在长期是相对稳定不变的特征，被归为静态特征一类。而动态特征旨在提取该时空分割路段的动态信息，主要包括该时空分割路段及其近邻时空分割路段的车辆平均行进速度的相关信息。该类信息相关于实时的车辆行进情况，会不断地发生变化，被归为动态特征一类。对于每一时空分割路段提取的完整特征其及相关描述总结与表1中：

特征	描述
		T_rid	时空分割路段类型
L_rid	时空分割路段长度
		E_t(rid)	时空分割路段的近邻路段平均类型
E_l(rid)	时空分割路段的近邻路段平均长度
		V_t(rid)	时空分割路段的近邻路段类型方差
V_l(rid)	时空分割路段的近邻路段长度方差
		N_rid	时空分割路段的近邻路段数量
E_i(sid)	时空分割路段的近邻时空分割路段第i个时间段平均行进速度
		V_i(sid)	时空分割路段的近邻时空分割路段第i个时间段行进速度方差

表1

可以理解的，无论是有数据时空分割路段还是无数据时空分割路段，对于表格1中所示的静态特征与动态特征均有有效值。在时空分割路段特征值提取单元303中，对于所有的时空分割路段，进行所有特征值的计算。

至此，对于任一个有数据时空分割路段，可以通过有数据时空分割路段的车辆行进开销估计单元305，即直接计算任一个有数据时空分割路段内所有数据点的车辆行进速度的平均速度来估计该时空分割路段的期望行进速度，从而获取其车辆行进开销估计值。

而对于任一个无数据时空分割路段，则需要通过时空分割路段聚类单元304进行时空分割路段聚类和通过无数据时空分割路段的车辆行进开销估计单元306计算无数据时空分割路段所在的聚类中的所有有数据时空分割路段的车辆行进开销估计值的平均值，从而最后得到无数据时空分割路段车辆行进开销估计的结果。

具体的，结合图6，该时空分割路段聚类单元304具体包括：

归一化模块3041，用于将每一所述有数据时空分割路段和无数据时空分割路段的特征值进行归一化处理，从而减少各个特征值的大小差距；和

K-Means聚类模块3042，基于经过归一化处理后的特征值并通过K-Means的聚类方法将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中，从而使得同一个聚类中的所有时空分割路段有着相似的特征。

其中，在归一化模块3041中，通过公式(1)对所述每一有数据时空分割路段和无数据时空分割路段的特征值进行归一化处理：

F_{norm} = \frac{F_{origin}}{F_{\max}}

公式(1)

其中，Ｆ_ｏｒigin是每个时空分割路段的初始特征值，F_max是此类特征的最大值，F_norm为归一化后的特征值，因此归一化后的特征值均处于零到一之间。经过归一化处理，可以使得各个特征值的大小差距较归一化之前变小，进而使得此后在计算特征相似度时各个特征值的贡献会近似相同，从而避免因为个别特征值的较大贡献使得特征相似度计算失真。

对每个时空分割路段的特征值进行归一化处理后，通过K-Means聚类模块3042的K-Means聚类方法进行时空分割路段聚类，具体包括过程：

(1)、初始化定义K个聚类中心；

{Dis}_{ac} = \sqrt{Σ_{i = 1}^{n} {({f_{i}}^{a} - {f_{i}}^{c})}^{2}}

公式(2)

此后，在完成所有时空分割路段的聚类后，通过无数据时空分割路段的车辆行进开销估计单元306计算任一无数据时空分割路段所在的聚类中的所有有数据时空分割路段的车辆行进开销估计值的平均值，从而作为该无数据时空分割路段的车辆行进开销估计值。基于同一聚类中时空分割路段的性质相似的原则，因此同一聚类中的有数据时空分割路段和无数据时空分割路段的车辆行进开销值也相近。所以，通过计算一个聚类中所有有数据时空分割路段的平均车辆行进开销估计值，可以以此作为对于同个聚类中无数据时空分割路段车辆行进开销的估计值。至此，所有时空分割路段的车辆行进开销估计均已完成。

可见，在本实施例公开的车辆行进开销的估计系统中，通过各个交通车辆信息点的具体信息来划分时空分割路段，从而形成有数据时空分割路段和无数据时空分割路段；对于有数据时空分割路段通过计算所有数据的车辆行进速度的平均值即可得该有数据时空分割路段的车辆行进开销估计值；而对于无数据时空分割路段，则通过寻找分类相似的时空分割路段，并基于同一个聚类中的所有时空分割路段有着相似的特征的原则，通过计算同个聚类中有数据时空分割路段的车辆行进开销估计值的平均值而得到无数据时空分割路段的车辆行进开销估计值。因此，可以运用完整的交通数据信息并且避开反复机器学习迭代造成的计算资源耗费，从而能够更加实际地运用到现实的海量数据场景；而且可以克服先前工作没有解决的数据稀疏问题，从而可以完整地对于任意路段都可以完成车辆行进开销的估计。

实施例4

参见图7，是本发明实施例提供的一种车辆行进开销的估计系统的结构示意图，包括：

数据输入单元401，用于接收包括交通数据和地图数据的数据；其中，所述交通数据至少包括车辆不同时间点的当前时间信息、位置经度信息和行进速度信息，所述地图数据包括路段的起始终止经纬度信息。

时空分割路段分化单元402，用于将接收到的交通数据和地图数据分化到各自相应的时空分割路段内，从而形成有数据时空分割路段和无数据时空分割路段；其中，所述时空分割路段定义为给定时间段下的一个路段；

时空分割路段特征值提取单元403，基于每一所述有数据时空分割路段和无数据时空分割路段内的交通数据和地图数据，提取其对应的特征值；

时空分割路段聚类单元404，基于所述特征值将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中，使得同一个聚类中的所有时空分割路段有着相似的特征；

有数据时空分割路段的车辆行进开销估计单元405，通过计算任一有数据时空分割路段的所有数据的车辆行进速度的平均值，并将该平均值从而作为该有数据时空分割路段的车辆行进开销估计值；以及

无数据时空分割路段的车辆行进开销估计单元406，通过构建并获得任一无数据时空分割路段所在的聚类中的所有有数据时空分割路段的特征值和车辆行进开销估计值的对应关系，并根据该无数据时空分割路段的特征值和所述对应关系获得该无数据时空分割路段的车辆行进开销估计值。

其中，在本实施例中，所述数据输入单元401、时空分割路段分化单元402、时空分割路段特征值提取单元403和时空分割路段聚类单元404与实施例3的数据输入单元301、时空分割路段分化单元302、时空分割路段特征值提取单元303和时空分割路段聚类单元304的结构和功能一一对应相同，在此不再重复描述。

与实施例3不同的是，本实施例的无数据时空分割路段的车辆行进开销估计单元406在计算任一无数据时空分割路段的车辆行进开销估计值时，通过构建并获得该无数据时空分割路段所在的聚类中的所有有数据时空分割路段的特征值和车辆行进开销估计值的对应关系，并基于同一个聚类中的时空分割路段有着相似的特征(对应关系)，根据获得的对应关系以及该无数据时空分割路段的特征值来计算得到无数据时空分割路段的车辆行进开销估计值。具体的，该无数据时空分割路段的车辆行进开销估计单元406执行的过程具体包括步骤：

(1)、对于每一所述无数据时空分割路段，将该无数据时空分割路段所在的聚类中的每一个有数据时空分割路段的特征值与其车辆行进开销估计值作为一组训练数据和对应的训练标记；

(2)、通过定义神经网络的神经元层数、个数以及神经元间连接边来构建人工神经网络；其中，连接边表示了信息的流动方向，同时连接边上的参数标记了各条连接边上传递的信息对于下一层神经元上新信息合成的贡献权重值；

(3)、向所述人工神经网络输入训练数据，该训练数据经过人工神经网络中的转换函数后输出预测值，该转换函数如公式(3)所示：

Φ (x) = \frac{1}{1 + e^{- x}}

公式(3)

(4)、将输出的预测值与该训练数据对应的训练标记作比较，根据二者的差异修改神经网络中各连接边的参数；

(5)、重复步骤(3)和(4)以将该无数据时空分割路段所在的聚类中的所有训练数据输入对神经网络进行训练直到收敛，从而获得训练的人工神经网络记忆下有数据时空分割路段的特征值到其对应车辆行进开销估计值的对应关系；

(6)、基于同一个聚类的时空分割路段特征相似的原则，根据该无数据时空分割路段的特征值和经过步骤(5)得到的对应关系，获得该无数据时空分割路段的车辆行进开销估计值。

可见，在本实施例公开的车辆行进开销的估计系统中，通过各个交通车辆信息点的具体信息来划分时空分割路段，从而形成有数据时空分割路段和无数据时空分割路段；对于有数据时空分割路段通过计算所有数据的车辆行进速度的平均值即可得该有数据时空分割路段的车辆行进开销估计值；而对于无数据时空分割路段，则通过寻找分类相似的时空分割路段，并基于同一个聚类中的所有时空分割路段有着相似的特征的原则，通过构建同个聚类有数据时空分割路段的特征值和车辆行进开销估计值的对应关系来计算得到无数据时空分割路段的车辆行进开销估计值。因此，可以运用完整的交通数据信息并且避开反复机器学习迭代造成的计算资源耗费，从而能够更加实际地运用到现实的海量数据场景；而且可以克服先前工作没有解决的数据稀疏问题，从而可以完整地对于任意路段都可以完成车辆行进开销的估计。另外，通过本实施例得到的无数据时空分割路段的车辆行进开销估计值相比实施例3所计算得到的精确度要高。

在上述实施例1～实施例4中，基于相似时空分割路段车辆行进开销相似的基础克服交通数据稀疏特性从而对所有时空分割路段进行车辆行进开销的估计。上述实施例的解决方案开始于对各个时空分割路段进行特征提取，并基于特征值进行相似时空分割路段的分类，然后计算有数据时空分割路段车辆行进开销估计值，最后基于相似时空分割路段特征相似可以计算得到无数据时空分割路段的车辆行进开销估计估计值。

另外，本发明技术方案除了可以应用到上述的车辆行进开销的估计外，还可以用于其它类似路网结构中行进开销的估计，例如网络结构中不同网络路径中数据传输开销的估计。另一方面，本技术方案也可以用于城市中对于路段除车辆行进开销外其他属性值的估计，例如对于路段拥塞状况，车辆吞吐量的估计。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种车辆行进开销的估计方法，其特征在于，包括步骤：

E、对于任一无数据时空分割路段，通过计算该无数据时空分割路段所在的聚类中的所有有数据时空分割路段的车辆行进开销估计值的平均值，从而作为该无数据时空分割路段的车辆行进开销估计值。

2.如权利要求1所述的车辆行进开销的估计方法，其特征在于，所述特征值包括静态特征值和动态特征值，所述静态特征值包括但不限于时空分割路段类型、时空分割路段长度、时空分割路段的近邻时空分割路段平均类型、时空分割路段的近邻时空分割路段平均长度、时空分割路段的近邻时空分割路段类型方差、时空分割路段的近邻时空分割路段长度方差以及时空分割路段的近邻时空分割路段数量；所述动态特征值包括但不限于时空分割路段的近邻时空分割路段第i个时间段平均行进速度以及时空分割路段的近邻时空分割路段第i个时间段行进速度方差；其中，i＝0时表示同一时间段内，i＝1与i＝-1分别表示下一个时间段内和上一个时间段内，依此类推。

3.如权利要求1所述的车辆行进开销的估计方法，其特征在于，所述步骤C具体包括：

C1、通过公式(1)对每一所述有数据时空分割路段和无数据时空分割路段的特征值进行归一化处理，从而减少各个特征值的大小差距：

其中，F_origin是每个时空分割路段的初始特征值，F_max是此类特征的最大值，F_norm为归一化后的特征值，因此归一化后的特征值均处于零到一之间；

C2、基于经过归一化处理后的特征值并通过K-Means的聚类方法将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中，从而使得同一个聚类中的所有时空分割路段有着相似的特征，具体包括：

C21、初始化定义K个聚类中心；

C22、根据公式(2)中定义的时空分割路段与聚类中心的距离，将各个时空分割路段归类到其距离最近的聚类中心处：

其中，Dis_ac表示任一时空分割路段到任一个聚类中心的距离，f_i ^a代表该时空分割路段的第i个特征值，而f_i ^c代表该聚类中心的第i个特征值，n表示特征值的数量；

C23、根据每个聚类中的时空分割路段的平均特征值更新该聚类的中心，直至时空分割路段的平均特征值与聚类中心完全重合无法更新为止。

4.一种车辆行进开销的估计方法，其特征在于，包括步骤：

E、对于任一无数据时空分割路段，通过构建并获得该无数据时空分割路段所在的聚类中的所有有数据时空分割路段的特征值和车辆行进开销估计值的对应关系，并根据该无数据时空分割路段的特征值和所述对应关系获得该无数据时空分割路段的车辆行进开销估计值。

5.如权利要求4所述的车辆行进开销的估计方法，其特征在于，所述特征值包括静态特征值和动态特征值，所述静态特征值包括但不限于时空分割路段类型、时空分割路段长度、时空分割路段的近邻时空分割路段平均类型、时空分割路段的近邻时空分割路段平均长度、时空分割路段的近邻时空分割路段类型方差、时空分割路段的近邻时空分割路段长度方差以及时空分割路段的近邻时空分割路段数量；所述动态特征值包括但不限于时空分割路段的近邻时空分割路段第i个时间段平均行进速度以及时空分割路段的近邻时空分割路段第i个时间段行进速度方差；其中，i＝0时表示同一时间段内，i＝1与i＝-1分别表示下一个时间段内和上一个时间段内，依此类推。

6.如权利要求4所述的车辆行进开销的估计方法，其特征在于，所述步骤C具体包括：

其中，F_origin是每个时空分割路段的初始特征值，F_max是此类特征的最大值，F_norm为归一化后的特征值，因此归一化后的特征值均处于零到一之间，n表示特征值的数量；

C21、初始化定义K个聚类中心；

7.如权利要求4所述的车辆行进开销的估计方法，其特征在于，所述步骤E具体包括步骤：

E1、对于每一所述无数据时空分割路段，将该无数据时空分割路段所在的聚类中的每一个有数据时空分割路段的特征值与其车辆行进开销估计值作为一组训练数据和对应的训练标记；

E2、通过定义神经网络的神经元层数、个数以及神经元间连接边来构建人工神经网络；其中，连接边表示了信息的流动方向，同时连接边上的参数标记了各条连接边上传递的信息对于下一层神经元上新信息合成的贡献权重值；

E3、向所述人工神经网络输入训练数据，该训练数据经过人工神经网络中的转换函数后输出预测值，该转换函数如公式(3)所示：

E4、将输出的预测值与该训练数据对应的训练标记作比较，根据二者的差异修改神经网络中各连接边的参数；

E5、重复步骤E3和E4以将该无数据时空分割路段所在的聚类中的所有训练数据输入对神经网络进行训练直到收敛，从而获得训练的人工神经网络记忆下有数据时空分割路段的特征值到其对应车辆行进开销估计值的对应关系；

E6、基于同一个聚类的时空分割路段特征相似的原则，根据该无数据时空分割路段的特征值和经过E5步骤得到的对应关系，获得该无数据时空分割路段的车辆行进开销估计值。

8.一种车辆行进开销的估计系统，其特征在于，包括：

9.如权利要求8所述的车辆行进开销的估计系统，其特征在于，所述特征值包括静态特征值和动态特征值，所述静态特征值包括但不限于时空分割路段类型、时空分割路段长度、时空分割路段的近邻时空分割路段平均类型、时空分割路段的近邻时空分割路段平均长度、时空分割路段的近邻时空分割路段类型方差、时空分割路段的近邻时空分割路段长度方差以及时空分割路段的近邻时空分割路段数量；所述动态特征值包括但不限于时空分割路段的近邻时空分割路段第i个时间段平均行进速度以及时空分割路段的近邻时空分割路段第i个时间段行进速度方差；其中，i＝0时表示同一时间段内，i＝1与i＝-1分别表示下一个时间段内和上一个时间段内，依此类推。

10.如权利要求8所述的车辆行进开销的估计系统，其特征在于，所述时空分割路段聚类单元具体包括：

归一化模块，用于通过公式(1)对所述有数据时空分割路段和无数据时空分割路段的特征值进行归一化处理，从而减少各个特征值的大小差距：

其中，F_origin是每个时空分割路段的初始特征值，F_max是此类特征的最大值，F_norm为归一化后的特征值，因此归一化后的特征值均处于零到一之间，n表示特征值的数量；和

K-Means聚类模块，基于经过归一化处理后的特征值并通过K-Means的聚类方法将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中，从而使得同一个聚类中的所有时空分割路段有着相似的特征；

所述K-Means聚类模块通过以下步骤将每一所述有数据时空分割路段和无数据时空分割路段分化到不同的聚类中：

(1)、初始化定义K个聚类中心；

11.一种车辆行进开销的估计系统，其特征在于，包括：

12.如权利要求11所述的车辆行进开销的估计系统，其特征在于，所述特征包括值静态特征值和动态特征值，所述静态特征值包括但不限于时空分割路段类型、时空分割路段长度、时空分割路段的近邻时空分割路段平均类型、时空分割路段的近邻时空分割路段平均长度、时空分割路段的近邻时空分割路段类型方差、时空分割路段的近邻时空分割路段长度方差以及时空分割路段的近邻时空分割路段数量；所述动态特征值包括但不限于时空分割路段的近邻时空分割路段第i个时间段平均行进速度以及时空分割路段的近邻时空分割路段第i个时间段行进速度方差；其中，i＝0时表示同一时间段内，i＝1与i＝-1分别表示下一个时间段内和上一个时间段内，依此类推。

13.如权利要求11所述的车辆行进开销的估计系统，其特征在于，所述时空分割路段聚类单元具体包括：

(1)、初始化定义K个聚类中心；

14.如权利要求11所述的车辆行进开销的估计系统，其特征在于，所述无数据时空分割路段的车辆行进开销估计单元通过以下步骤计算得到任一无数据时空分割路段的车辆行进开销估计值：

(5)、重复步骤(3)和步骤(4)以将该无数据时空分割路段所在的聚类中的所有训练数据输入对神经网络进行训练直到收敛，从而获得训练的人工神经网络记忆下有数据时空分割路段的特征值到其对应车辆行进开销估计值的对应关系；