CN106547862A

CN106547862A - 基于流形学习的交通大数据降维处理方法

Info

Publication number: CN106547862A
Application number: CN201610931286.4A
Authority: CN
Inventors: 陈长宝; 杜红民; 侯长生; 孔晓阳; 王茹川; 郭振强; 郧刚; 多华娥; 王磊; 王莹莹
Original assignee: Central Plains Wisdom Urban Design Research Institute Co Ltd
Current assignee: Central Plains Wisdom Urban Design Research Institute Co Ltd
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2017-03-29

Abstract

本发明提供一种基于流形学习的交通大数据降维处理方法，包括以下步骤：步骤1，采集城市各类交通的时空轨迹数据，获得交通大数据；步骤2，将所述交通大数据分类并进行统一的属性配置和数据入库；步骤3，采用LLE流形学习方法对所述交通大数据进行数据降维处理。本发明通过采用流形学习算法对高维空间数据进行数据降维，避免过大的计算量，使数据更能反应数据的本质特征，提高了交通数据的挖掘性能。

Description

基于流形学习的交通大数据降维处理方法

技术领域

本发明属于大数据处理技术与智慧交通应用领域，具体的说，涉及了一种基于流形学习的交通大数据降维处理方法。

背景技术

交通流是复杂的物理现象，而由此产生的城市交通大数据具有动态多变、高度随机、非线性、异质性和生命周期较短等特点。例如许多城市在快速发展的过程当中，不可避免地在出现了严重的交通拥堵现象，而这种现象的形成原因受交通主体、管理措施、路网结构和城市格局等多种因素影响，使得城市交通数据形成了高维空间数据结构，而这些高维数据空间结构的交通数据同时也兼具高时效性。传统的交通理论难以处理这种高维空间数据，这是因为当数据位于维数很高的空间时，如果直接对这些数据进行处理会有以下问题：首先会出现所谓的“维数灾难”的问题，产生巨大的运算量；其次，这些数据通常不能反映数据的本质特征，如果直接处理，不能得到理想的结果。

传统的交通理论在高维空间数据的处理上不够完善，交通出行规律难以准确预测，其可靠性也就无法进行有效分析，导致无法对综合数据信息进行深度挖掘，大量交通数据因而无法准确反应真实交通状况。

为了解决以上存在的问题，人们一直在寻求一种理想的技术解决方案。

发明内容

本发明的目的是针对现有技术的不足，从而提供了一种基于流形学习的交通大数据降维处理方法，通过采用流形学习算法对高维空间数据进行数据降维，避免过大的计算量，使数据更能反应数据的本质特征，提高交通数据的挖掘性能。

为了实现上述目的，本发明所采用的技术方案是：一种基于流形学习的交通大数据降维处理方法，包括以下步骤：

步骤1，采集城市各类交通的时空轨迹数据，获得交通大数据；

步骤2，将所述交通大数据分类并进行统一的属性配置和数据入库；

步骤3，采用LLE流形学习方法对所述交通大数据进行数据降维处理。

基于上述，所述交通大数据包括静态交通大数据和动态交通大数据，

所述静态交通大数据，包括城市交通的基础空间数据、城市及周边基础地理信息、道路交通网络基础信息、道路交通客运信息以及交通抽样调查数据；

所述动态交通大数据，包括通过视频、手机、公交卡、地感线圈和移动终端采集到的人、车、路交通要素数据和个人/群体出行发布的微博、微信社交数据以及对应地理位置的天气状况数据。

基于上述，所述步骤2的具体步骤包括：

步骤2.1，将采集到的所述交通大数据分成行人和车辆两类数据；

步骤2.2，将所述行人数据和所述车辆数据分别配置对应的时间与空间轨迹属性后存入数据库中；

步骤2.3，将处理后的所述行人数据和所述车辆数据分别配置地理空间数据并存入数据库中。

基于上述，所述行人数据包括驾驶行为数据、付费行为数据、出行行为数据以及各类评价数据；

所述车辆数据包括车辆信息数据、车辆实时位置数据、公交车运营数据、出租车运营数据和众包路况数据。

基于上述，所述步骤3如下：

1)计算所述交通大数据的每个样本点的k个近邻点；

设所述交通大数据的样本集为其中，表示所述交通大数据的任何一个样本点的向量形式，N表示样本个数；采用K最近邻策略，计算出该样本点的k个近邻点，用表示，k值预先设定；

2)根据每个样本点的k个近邻点计算该样本点的局部重建权值矩阵；

定义重构误差ε为：其中，W_ij是与其邻近点之间的权值；

定义局部协方差矩阵C为:其中x表示一个特定的点，η表示x的k个近邻点；

令重构误差ε最小化同时∑_jW_j＝1，

可得：

3)映射每个交通大数据样本点到低维空间中；

定义映射条件为：并假设M＝(I-W)^T(I-W)，则映射条件转换为：

其中，Φ(Y)为损失函数值，Y_i是X_i的输出向量，Y_j是Y_i的k个近邻点；

在和的限制条件下，得到MY＝λY方程并求解；

将M的特征值从小到大排列，取第2到m+1间的特征值所对应的特征向量组成列向量作为输出结果。

本发明相对现有技术具有突出的实质性特点和显著的进步，具体的说，本发明通过采用流形学习算法对高维空间数据进行数据降维，避免过大的计算量，使数据更能反应数据的本质特征，提高交通数据的挖掘性能；同时还融合了交通地理信息系统研究领域的交叉研究方向，为高维空间数据处理的问题提供有益借鉴，有利于交通出行规律的准确预测和综合数据信息的深度挖掘，减少了不必要的服务资源，改善了有关决策部门工作效率，使得交通管理能力更加智能化。

附图说明

图1是本发明的结构示意图。

具体实施方式

下面通过具体实施方式，对本发明的技术方案做进一步的详细描述。

如图1所示，一种基于流形学习的交通大数据降维处理方法，包括以下步骤：

具体的，所述交通大数据包括静态交通大数据110和动态交通大数据120，

所述静态交通大数据110，包括地表模型、高清正射影像等城市交通的基础空间数据，城市路网、交叉口布局、城市基础交通实施信息等城市及周边基础地理信息，道路等级、长度、收费信息等道路交通网络基础信息、客运班线、客动票务、市区公交信息、车站线路辐射图、客运企业信息、交通换乘点等道路交通客运信息以及交通抽样调查数据；所述静态交通大数据主要通过现有的城市交通GIS数据库和已有的公共交通运行数据获取；

所述动态交通大数据，包括通过视频、手机、公交卡、地感线圈和移动终端采集到的人、车、路交通要素数据121和个人/群体出行发布的微博、微信社交数据以及对应地理位置的天气状况数据122。其中，所述交通要素数据121可以通过现有城市所布设的各类传感器、摄像头来获取，所述社交数据和所述天气状况数据122通过各类抓取软件来实时获取。

具体的，所述步骤2的具体步骤包括：

步骤2.1，将采集到的所述交通大数据分成行人数据210和车辆数据220。

所述行人数据210包括驾驶行为数据、付费行为数据、出行行为数据以及各类评价数据；

步骤2.2，将所述行人数据210和所述车辆数据220分别配置对应的时间与空间轨迹属性后存入数据库中。

步骤2.3，将处理后的所述行人数据210和所述车辆数据220分别配置地理空间数据并存入数据库中。

具体的，所述步骤3如下：

1)计算所述交通大数据的每个样本点的k个近邻点；

设所述交通大数据的样本集为其中，表示所述交通大数据的任何一个样本点的向量形式，N表示样本个数；采用K最近邻策略，把相对于样本点的欧式距离最近的k个样本点规定为样本点的k个近邻点，k值可以预先设定；计算出该样本点的k个近邻点，用表示，k值预先设定；

定义重构误差ε为：其中，W_ij是与其邻近点之间的权值；

令重构误差ε最小化同时

可得：

3)映射每个交通大数据样本点到低维空间中；

定义映射条件为：并假设M＝(I-W)^T(I-W)，则映射条件转换为：

在和的限制条件下，得到MY＝λY方程并求解；

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种基于流形学习的交通大数据降维处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于流形学习的交通大数据降维处理方法，其特征在于：所述交通大数据包括静态交通大数据和动态交通大数据，

3.根据权利要求1所述的基于流形学习的交通大数据降维处理方法，其特征在于，所述步骤2的具体步骤包括：

4.根据权利要求3所述的基于流形学习的交通大数据降维处理方法，其特征在于：所述行人数据包括驾驶行为数据、付费行为数据、出行行为数据以及各类评价数据；

5.根据权利要求1所述的基于流形学习的交通大数据降维处理方法，其特征在于，所述步骤3如下：

1)计算所述交通大数据的每个样本点的k个近邻点；

定义重构误差ε为：其中，W_ij是与其邻近点之间的权值；

令重构误差ε最小化同时∑_jW_j＝1，

可得：

3)映射每个交通大数据样本点到低维空间中；

定义映射条件为：并假设M＝(I-W)^T(I-W)，则映射条件转换为：

在和的限制条件下，得到MY＝λY方程并求解；