CN110674858B

CN110674858B - 一种基于时空关联与大数据挖掘的交通舆情检测方法

Info

Publication number: CN110674858B
Application number: CN201910873997.4A
Authority: CN
Inventors: 廖年冬; 黄显申
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2023-06-09
Anticipated expiration: 2039-09-16
Also published as: CN110674858A

Abstract

本发明公开了一种基于时空关联与大数据挖掘的交通舆情检测方法，属于交通舆情领域。该方法利用网络交通舆情数据的基本特性，通过引入基于文本相似度的近邻聚类与K‑Means聚类相融合的算法，使得单一的地理位置特征转换为空间区域特征，通过引入时间和地理区域关联的交通拥堵状况评价模型，使得模糊的交通拥堵状况表达得以量化，通过引入LSTM和时间序列的交通拥堵状况预测模型，使得未来一定时间区域内的交通拥堵状况能够预测。本发明能够对以地理位置为中心的空间区域在指定时间区间的交通拥堵状况进行实时有效的检测和准确的预测，从而为交通出行提供舆情信息。

Description

一种基于时空关联与大数据挖掘的交通舆情检测方法

技术领域

本发明涉及交通舆情领域，具体一种基于时空关联与大数据挖掘的交通舆情检测方法。

背景技术

随着社会的不断发展，我国城市道路交通也越来越发达，同时呈现出来的问题也越来越多。长沙是湖南省的省会城市，也是支撑沿海、沿江及内陆开发地区的后方先导城市，是整个大中南地区的经济文化中心及交通枢纽。人们很开心地看到了长沙市的日益发展及为人民来带的种种便利，同时也不可避免地感受到了长沙市的交通拥堵问题正日益严重。随着信息技术的飞速发展，智慧交通开始应用于城市交通系统，为城市交通压力的减缓带来了新生动力。智慧交通强调的是系统性，实时性，可预判性，准确性。目前，现有的研究大多数集中在短时交通流预测，从各种新媒体大数据中分离交通事件并监测实时道路交通状况、游客感知、事故分析以及车辆设备故障诊断等方面。但针对城市交通拥堵状况检测方面的问题，仍有所欠缺，主要原因是缺乏有效的数据以及到具体交通问题的解决方案，同时，难以在兼顾实时性和预判性的情况下保证较高的准确性，且关于交通拥堵状况的评价标准不够明确。

发明内容

有鉴于此，本发明的目的在于提供一种基于时空关联与大数据挖掘的交通舆情检测方法，它能够有效的检测到以地理位置为中心的空间区域在指定的时间区间内的交通拥堵状况，且具有一定的实时性和较高的准确性。同时，本发明能够有效的预测到一个地理区域在未来一段时间可能达到的交通拥堵状况。

为实现上述目的，本发明采用以下技术方案：

S1：网络交通舆情数据爬取：针对长沙市的网络交通舆情数据进行实时爬取；

S2：网络交通舆情数据预处理：对爬取的网络交通舆情数据进行特征编码，文本分词，划分子数据集；

S3：基于聚类的地理区域分割：针对划分的每个数据子集分别采用基于文本相似度的近邻聚类与K-Means聚类相融合的算法进行聚类进而分割出多个地理区域，且相似度计算方式采用改进后的Tanimoto测度；

S4：基于时间和地理区域关联的交通拥堵状况评价模型：确定采样指标和抽样目标，进而在聚类后的每个新数据子集上做抽样和采样处理，通过层次分析法(AHP)计算各采样指标的权重系数，对抽样和采样后的数据进行最大最小标准化处理，将各指标权重系数与对应的各指标值进行加权求和，整合有关于交通拥堵状况的所有评价指标，即统一评价标准；

S5：基于LSTM和时间序列的地理区域交通拥堵状况预测模型：生成地理区域在每个时间区间内的基于统一评价标准的时间序列数据，并对时间序列数据进行一阶差分处理，滑动窗口处理，以便得到所述LSTM模型的训练集和测试集，在训练集上对所述的LSTM模型进行训练，然后在测试集上进行验证，预测地理区域在未来一定时间区间内可能出现的交通拥堵状况。

优选的，实时爬取长沙市网络交通舆情数据。

优选的，文本相似度计算方式为改进后的Tanimoto测度。

优选的，对由S2所得数据子集S₁,S₂,...,S_t,...,S_d中的地理位置特征，分别采用基于文本相似度的近邻聚类与K-Means聚类相融合的算法进行聚类，步骤S3包括：

S301：初始化文本相似度阈值ε，从子数据集S_t中任选一个样本点X₁作为聚类中心Z₁，进而选择样本点X₂，并计算X₂与聚类中心Z₁之间的文本相似度Sim₂₁，如式(1)所示：

其中，在计算文本相似度之前，针对参与计算的分词后文本，采用词袋模型进行向量化处理，x,y即为向量化处理之后的样本点，x_i,y_i为x,y的特征分量，min(x_i,y_i)表示对特征分量x_i,y_i作取小操作，max(x_i,y_i)表示对特征分量x_i,y_i作取大操作。

若Sim₂₁＜ε，则定义一个新的聚类中心Z₂＝X₂，否则X₂∈以Z₁为聚类中心的聚类；

S302：假设已有聚类中心Z₁,Z₂，进而选择第三个样本点X₃，并通过公式(1)分别计算X₃与Z₁之间的相似度Sim₃₁，以及X₃与Z₂之间的相似度Sim₃₂；

其中，若Sim₃₁＜ε且Sim₃₂＜ε，则创建第三个聚类中心Z₃＝X₃，否则，若Sim₃₁＝＜Sim₃₂，则X₃∈以Z₂为聚类中心的聚类，否则X₃∈以Z₁为聚类中心的聚类；

S303：依次迭代S302，直到子数据集S_t中的所有样本都已聚类完毕，则完成所述的近邻聚类；

S304：由S301-S303步骤将子数据集S_t分类为

k为所聚类别的数目，

表示数据子集t的第i个类别，即第i个簇，各类别对应的聚类中心分别为

同样的，k表示聚类中心的个数，其中，

为簇

的聚类中心；

S305：计算每个簇

的均值向量

如公式(2)所示。并选择与均值向量相似度最大的样本作为当前簇的聚类中心参与下一次迭代。

其中，在计算簇内均值向量之前，针对参与计算的分词后文本，采用词袋模型进行向量化处理，X即为向量化处理之后的样本，同时，X∈簇

中的一个样本，

表示类别

中样本的数量；

S306：设

为当前的聚类中心，j表示迭代次数，

为所述聚类算法调整的参与下一次迭代的聚类中心；

将当前迭代下的聚类中心与通过计算均值向量所得的参与下一次迭代的聚类中心进行比较，则存在以下两种情况：

若

则跳回S302，并以新的聚类中心

作为S302所述的已有聚类中心；

若

则聚类中心收敛，完成聚类；

S307：针对每个子数据集S_t，依次按照步骤S301-S306进行聚类，直到每个子数据集都完成聚类为止。由聚类后的子数据集组成新的网络交通舆情数据集S^c，其数据子集可分别表示为

然后将新数据子集

中的

标记为

是

的唯一簇标记，而

在

上却并不一定具有唯一性。

优选的，步骤S4包括：

S401：计算由步骤S3所得的网络交通舆情数据中不同簇标记出现的频次，并作排序操作；

S402：将出现频次最高的簇标记作为切入点，分别在步骤S3所得的网络交通舆情数据子集中做抽样操作，即抽取以频繁簇标记为中心的频繁簇；

S403：分别对由步骤S401所抽取的频繁簇进行采样处理，具体地采样指标包括簇内相似度均值，样本点数量以及簇内交通通行状态总值，其中，所述的采样指标，即为交通拥堵状况的评价指标；

S404：通过层次分析法确定步骤S402中所述的评价指标的权重系数；

S405：采用最大最小标准化处理使步骤S402所述的评价指标在量纲上保持统一；

S406：将由步骤S404所得各评价指标的权重系数对应由步骤S405所得标准化之后的各评价指标值进行加权求和，即统一交通拥堵状况的评价标准；

基于步骤S401-S406，进而构建基于时间与地理区域相关联的交通拥堵状况评价模型。

优选的，所述的一种基于时空关联与大数据挖掘的交通舆情检测方法，其特征在于，交通拥堵状况评价标准介于0到1之间，其中0～0.1为畅通，0.1～0.3为轻度拥堵，0.3～0.5为一般拥堵，0.5～0.7为十分拥堵，0.7～1.0为严重拥堵。

优选的，将由步骤S4得到的以地理位置为中心的地理区域在时间序列上所表现的交通拥堵状况评价标准作为基准数据集，并对其做差分处理，对差分处理后的数据集进行滑动窗口处理进而得到所述的LSTM模型的训练集和测试集。

有益效果：

本发明通过网络爬虫有针对性的实时爬取真实的网络交通舆情数据，减少了与交通无关的噪声干扰且具有一定的实时性。同时，本发明由点及面，由个体到整体，从空间的角度出发，通过聚类的手段，将具有较高相似度的样本点聚集起来，并划分区域，即将一个单独的样本点扩展为一个具有空间特征的样本群，那么，由样本群所表现的空间密度，空间聚集度以及交通通行状态则更能从客观的角度反映交通拥堵的状况，而样本群的中心点，则有较大的可能是作为拥堵事件的触发点。本发明所采用的聚类算法，是基于文本相似度的近邻聚类与K-Means聚类相融合的算法，并改进了Tanimoto测度公式，具有较好较快的聚类效果，且避免了K值的选择问题，具有一定的自适应性。本发明从更进一步出发，在聚类的基础上，通过有针对性的对样本簇进行抽样和采样处理，并借助于层次分析法，最大最小标准化，有效的量化了区域交通拥堵状况评价指标，并由此可以构建出基于时间序列的任意一地理区间的交通拥堵状况评价数据集。最后，针对目标地理区域的交通拥堵状况评价的时间序列数据采用LSTM模型进行训练，能够有效的检测到未来一段时间目标地理区域的交通拥堵状况，为交通出行提供预警信息。

附图说明

图1是本发明的实施方式框架图；

图2是本发明的基于聚类的地理区域分割的框架图；

图3是本发明的基于时间与地理区域关联的交通拥堵状况评价模型的框架图；

图4是本发明的基于LSTM和时间序列的地理区域交通拥堵状况预测模型的框架图。

具体实施方式

下面通过附图及具体实施方式对本发明进行详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

本发明所述的一种基于时空关联与大数据挖掘的交通舆情检测方法，从一个全新的角度出发，实现了对地理区域交通拥堵状况的评价，同时，能够预测未来一段时间内的交通拥堵状况，具有一定的实时性，准确性，预判性。

本发明通过网络爬虫技术有针对性的实时爬取网络交通舆情数据，对网络交通舆情数据进行预处理，包括划分数据子集，对每个数据子集采取改进的聚类算法进行聚类，在确定抽样目标和采样指标的前提下实现了基于时间和地理区域关联的交通拥堵状况评价模型的架构，其依赖于最大最小标准化处理，层次分析法，统一评价标准。然后，构建基于时间序列的地理区域交通拥堵状况评价数据集，并对时间序列数据进行差分处理和滑动窗口处理。最后，将预处理之后的时间序列数据划分为训练集和测试集，并将训练集在LSTM模型上进行训练，将测试集在LSTM模型上进行测试，以预测其未来一段时间的交通拥堵状况评价值。

更优选的实施方案如图1所示，包括步骤：

步骤1：采用网络爬虫技术对长沙市的网络交通舆情数据进行实时爬取，其中，每条数据样本包含有时间特征，地理位置特征以及交通通行状态特征，其中，地理位置特征与交通通行状态特征的表现形式为文本类型；

步骤2：将网络交通舆情数据集中表示交通通行状态的文本信息进行特征编码，并对其中的地理位置特征进行文本分词，以网络交通舆情数据集中的时间特征为标准按照时间间隔θ将其划分为若干个具有相同时间隔的数据子集，其中，假设原网络交通舆情数据集为S，则划分后的数据子集分别为S₁,S₂,...,S_t,...,S_d,(t＝1,2,...,d，S_t∈S)，d表示所划分的数据子集的数目；

步骤3：对由步骤2所得数据子集S₁,S₂,...,S_t,...,S_d中的地理位置特征，分别采用聚类算法进行聚类。具体地，如图2所示，所述的聚类算法将k-means聚类的动态调整聚类中心方法融入到了基于文本相似度阈值的近邻聚类之中，且本发明所使用的相似度计算方式为基于改进的Tanimoto测度，所述的聚类算法，一方面，降低了聚类算法计算的复杂度，另一方面，能够自适应聚类中心的数目，避免了k值选择的问题，同时，有效的提升了聚类的效果。具体地实施方式可分为如下几个步骤：

S301：初始化相似度阈值ε，从子数据集S_t中任选一个样本点X₁作为聚类中心Z₁，进而选择样本点X₂，并计算X₂与聚类中心Z₁之间的文本相似度Sim₂₁，如式(1)所示：

S303：依次迭代步骤S302，直到子数据集S_t中的所有样本都已聚类完毕，则完成所述的近邻聚类；

S304：由S301-S303步骤将子数据集S_t分类为

k为所聚类别的数目，

同样的，k表示聚类中心的个数，其中，

为簇

的聚类中心，且每个聚类中心

可描述为完整的地理位置信息，而每个簇

可描述为以

为中心的地理区域；

S305：计算每个簇

的均值向量

中的一个样本，

表示类别

中样本的数量；

S306：设

为当前的聚类中心，j表示迭代次数，

为所述聚类算法调整的参与下一次迭代的聚类中心；

若

则跳回步骤S302，并以新的聚类中心

作为步骤S302所述的已有聚类中心；

若

则聚类中心收敛，完成聚类；

然后将新数据子集

中的

标记为

是

的唯一簇标记，而

在

上却并不一定具有唯一性，如存在

与

那么此两者既可能是相同，也可能是不同的；

步骤4：统计聚类后的网络交通舆情数据中不同簇标记出现的频次，并作排序操作。将出现频次最高的簇标记作为切入点，分别在聚类后的各网络交通舆情数据子集中抽取以频繁簇标记为中心的频繁簇。然后对每个簇进行采样操作，具体地采样指标包括簇内相似度均值，样本点数量以及簇内交通通行状态总值。最后，通过层次分析法确定各指标的权重系数，同时，采用最大最小标准化处理使各指标值在量纲上保持统一，且标准化后的值介于0～1之间，进而构建基于时间与地理区域相关联的交通拥堵状况评价模型。其中，实施方式如图3所示，具体的实施方式可分为如下几个步骤：

S401：对聚类后网络交通舆情数据集S^c中的聚类中心集合可表示为Z＝{Z¹,Z²,...,Z^t,...,Z^d}，其中，Z^t为数据子集

对应的聚类中心集合，且Z^t由

所构成。分别统计不同的

在Z中出现的频次，得到不同簇标记

在Z上的共现次数，并按照从大到小顺序对簇标记进行排序，其排序结果记为frequency(Z)＝{z₁,z₂,...,z_l}，z_o∈Z,(1＝＜o＜＝l)，z_o为不同簇标记组成的集合，且l大于等于子数据集的数量，小于等于样本的总数，其中，z₁即为出现最频繁的簇标记，由于以簇标记为中心的簇具有地理区域的表征性且在

上具有一定的时间区间表征性，因此也可看作以z₁为中心的地理区域在所有记录中出现的最为频繁，同样地，在本实施例中，仅关注最频繁的簇标记，但并不限于其它较频繁的簇标记；

S402：对S^c进行抽样操作，从

中分别提取以最频繁簇标记z₁为中心的簇

若

不存在以z₁为中心的簇，则标记各项信息为0或者无，保留其时间和空间存在性，各频繁簇可表示为q₁,q₂,...,q_t,...,q_d,(1＝＜t＜＝d)；

S403：对聚类后网络交通舆情数据子集中抽取的频繁簇q_t进行采样处理，其中，采样指标包括簇内相似度均值，样本点数量以及簇内交通通行状态总值，分别记为B₁,B₂,B₃，那么簇内相似度均值越大，样本点越多，则说明簇内越聚集，即地理区域内密度越大，同时，若交通通行状态总值越大，则表明地理区域内交通拥堵状况越严重；

通过抽样和采样处理得到以z₁为中心的空间区域在时间序列上所表现的各项评价指标，并由此生成一个基于时间序列的多变量数据集，且数据集中的各项指标可从一定程度上表明空间区域内的聚集状态或交通通行状态，即关于交通拥堵状况的多项评价标准；

S404：层次分析法(AHP)定量各采样指标权重系数：层次分析法(AHP)是一种定量和定性相结合的多目标决策分析方法，其主要思想是将复杂问题分解为若干层次和若干指标，对比两两指标之间的重要程度，建立判断矩阵，通过计算判断矩阵的最大特征值以及对应特征向量，得出不同指标的权重，从而对目标层做出科学评价。本发明将层次分析法应用于解决总体目标所对应评价指标的权重系数计算问题，且本发明的总体目标为交通拥堵状况，对应的评价指标分别为B₁,B₂,B₃；

现有3个评价指标B₁,B₂,B₃对总体目标G有影响，要确定它们对G的影响系数，即各评价指标在总体目标中所占的权重系数。采用成对比较法每次取两个指标B_i和B_j，用a_ij表示B_i与B_j的权重比例，并将全部的比较结果用矩阵A＝(a_ij)_3×3(a_ij＞0)表示。

其中，a_ji＝1/a_ij(i,j＝1,2,3)，因此，A是n阶正互反阵；

由指标间的成对比较所得到的结果A即为判断矩阵，本发明采用如表1所示的9分位标度法通过对评价指标B₁,B₂,B₃进行两两比较，确定其相对重要性关系，进而得到关于评价指标间的判断矩阵A；

表1重要性标度及含义

本发明通过计算判断矩阵的最大特征值λ_max，进而计算一致性指标I_C＝(λ_max-n)/(n-1)，n表示判断矩阵的阶数，若I_C＝0，则该判断矩阵满足完全一致性，若I_C≠0，则需计算随机一致性比率R_C＝I_C/I_R，其中，I_R为判断矩阵的平均一致性指标，其值与判断矩阵的阶数有关，可通过表2的平均随机一致性指标I_R取值表查表得到，本发明判断矩阵的阶数为3，因此对应的I_R值为0.52；若R_C＜0.1，则认为该判断矩阵的一致性是可以接受的，那么最大特征值λ_max所对应的特征向量即为各指标的权重系数，分别记为w₁,w₂,w₃。若未通过一致性检验，可通调整判断矩阵，直到满足一致性判断为止。

表2平均随机一致性指标I_R取值表

其中，所述w₁,w₂,w₃，即为本发明中关于交通拥堵状况的各项评价指标所对应的权重系数。

S405：最大最小标准化处理：对S403所得的基于时间序列的多变量数据集进行最大最小标准化处理，如公式(3)所示：

其中，n表示数据集的维数，即评价指标的数目，X⁽ⁱ⁾表示采样后的评价指标i所对应的时间序列数据，max(X⁽ⁱ⁾),min(X⁽ⁱ⁾)分别表示采样后的评价指标i所对应的时间序列数据的最大值与最小值，Xⁱ为评价指标i的时间序列数据通过标准化之后的值。

S406：统一评价标准：借助层次分析法所得的各指标权重系数对在时间序列上进行标准化处理之后各评价指标值Xⁱ进行加权求和，如式(4)所示，

其中，T为各项评价标准加权求和后的值，·表示点积操作，n为评价指标的数目；

通过步骤S401-S406可得在每个时间区间关于一个地理区域内交通拥堵状况的统一评价标准，即搭建本发明所述的基于时间与地理区域关联的交通拥堵状况评价模型，其中，交通拥堵状况评价标准介于0到1之间，0～0.1为畅通，0.1～0.3为轻度拥堵，0.3～0.5为一般拥堵，0.5～0.7为十分拥堵，0.7～1.0为严重拥堵。

步骤5：LSTM模型是RNN的一种改进模型，不同于RNN的是，它用记忆细胞取代了RNN中的隐藏节点，有效的解决了RNN训练过程中可能出现的梯度消失，梯度爆炸等问题，同时，LSTM能够较好的适用较长的时间序列，LSTM中的核心是记忆细胞，它由输入门、遗忘门、输出门组成，其中，输入门决定当前输入数据对记忆单元状态的影响，遗忘门决定从记忆单元状态中遗忘无用的历史信息，输出门决定输出信息。

本发明对最频繁的簇标记(地理位置)通过步骤4得到以此地理位置为中心的地理区域在时间序列上所表现的交通拥堵状况评价值，进而构建出在此地理区域上基于交通拥堵状况评价标准的时间序列数据集，记为T,且T＝t₁,t₂,...,t_m，则T是一条长度为m的实值序列，其中，实施方式如图4所示，具体地实施方式可分为以下几个步骤：

S501：差分处理：对时间序列数据T进行一阶差分处理，如公式(5)所示：

Δt_i＝t_i+1-t_i,(0＝＜i＜＝m) (5)

即下一个时间间隔的值减去上一个时间间隔的值，其中，当i＝0时，t₀＝0，则由差分处理后得到具有平稳性的时间序列数据ΔT＝Δt₁,Δt₂,...,Δt_m；

S502：滑动窗口处理：设滑动窗口的大小为r，则窗口内的数据可作为LSTM模型的输入数据，而窗口近邻的后一位数据则作为LSTM模型的输出数据，且窗口每次当且仅当向后滑动一个单位的位置，进而基于滑动窗口的基本理论，可构建出一个样本维数为r的具有输入和输出值的新数据集，记为(X,y)。

将数据集中的9份作为训练集，1份作为测试集，并在所述训练集上采用所述LSTM模型进行训练，进而在所述测试集上进行验证，从而实现对以地理位置为中心的空间区域进行交通拥堵状况的预测。

以上对本发明的较佳实施方式进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变型或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。