CN110674858B - 一种基于时空关联与大数据挖掘的交通舆情检测方法 - Google Patents

一种基于时空关联与大数据挖掘的交通舆情检测方法 Download PDF

Info

Publication number
CN110674858B
CN110674858B CN201910873997.4A CN201910873997A CN110674858B CN 110674858 B CN110674858 B CN 110674858B CN 201910873997 A CN201910873997 A CN 201910873997A CN 110674858 B CN110674858 B CN 110674858B
Authority
CN
China
Prior art keywords
cluster
traffic
public opinion
data
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910873997.4A
Other languages
English (en)
Other versions
CN110674858A (zh
Inventor
廖年冬
黄显申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN201910873997.4A priority Critical patent/CN110674858B/zh
Publication of CN110674858A publication Critical patent/CN110674858A/zh
Application granted granted Critical
Publication of CN110674858B publication Critical patent/CN110674858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Fuzzy Systems (AREA)
  • Educational Administration (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于时空关联与大数据挖掘的交通舆情检测方法,属于交通舆情领域。该方法利用网络交通舆情数据的基本特性,通过引入基于文本相似度的近邻聚类与K‑Means聚类相融合的算法,使得单一的地理位置特征转换为空间区域特征,通过引入时间和地理区域关联的交通拥堵状况评价模型,使得模糊的交通拥堵状况表达得以量化,通过引入LSTM和时间序列的交通拥堵状况预测模型,使得未来一定时间区域内的交通拥堵状况能够预测。本发明能够对以地理位置为中心的空间区域在指定时间区间的交通拥堵状况进行实时有效的检测和准确的预测,从而为交通出行提供舆情信息。

Description

一种基于时空关联与大数据挖掘的交通舆情检测方法
技术领域
本发明涉及交通舆情领域,具体一种基于时空关联与大数据挖掘的交通舆情检测方法。
背景技术
随着社会的不断发展,我国城市道路交通也越来越发达,同时呈现出来的问题也越来越多。长沙是湖南省的省会城市,也是支撑沿海、沿江及内陆开发地区的后方先导城市,是整个大中南地区的经济文化中心及交通枢纽。人们很开心地看到了长沙市的日益发展及为人民来带的种种便利,同时也不可避免地感受到了长沙市的交通拥堵问题正日益严重。随着信息技术的飞速发展,智慧交通开始应用于城市交通系统,为城市交通压力的减缓带来了新生动力。智慧交通强调的是系统性,实时性,可预判性,准确性。目前,现有的研究大多数集中在短时交通流预测,从各种新媒体大数据中分离交通事件并监测实时道路交通状况、游客感知、事故分析以及车辆设备故障诊断等方面。但针对城市交通拥堵状况检测方面的问题,仍有所欠缺,主要原因是缺乏有效的数据以及到具体交通问题的解决方案,同时,难以在兼顾实时性和预判性的情况下保证较高的准确性,且关于交通拥堵状况的评价标准不够明确。
发明内容
有鉴于此,本发明的目的在于提供一种基于时空关联与大数据挖掘的交通舆情检测方法,它能够有效的检测到以地理位置为中心的空间区域在指定的时间区间内的交通拥堵状况,且具有一定的实时性和较高的准确性。同时,本发明能够有效的预测到一个地理区域在未来一段时间可能达到的交通拥堵状况。
为实现上述目的,本发明采用以下技术方案:
S1:网络交通舆情数据爬取:针对长沙市的网络交通舆情数据进行实时爬取;
S2:网络交通舆情数据预处理:对爬取的网络交通舆情数据进行特征编码,文本分词,划分子数据集;
S3:基于聚类的地理区域分割:针对划分的每个数据子集分别采用基于文本相似度的近邻聚类与K-Means聚类相融合的算法进行聚类进而分割出多个地理区域,且相似度计算方式采用改进后的Tanimoto测度;
S4:基于时间和地理区域关联的交通拥堵状况评价模型:确定采样指标和抽样目标,进而在聚类后的每个新数据子集上做抽样和采样处理,通过层次分析法(AHP)计算各采样指标的权重系数,对抽样和采样后的数据进行最大最小标准化处理,将各指标权重系数与对应的各指标值进行加权求和,整合有关于交通拥堵状况的所有评价指标,即统一评价标准;
S5:基于LSTM和时间序列的地理区域交通拥堵状况预测模型:生成地理区域在每个时间区间内的基于统一评价标准的时间序列数据,并对时间序列数据进行一阶差分处理,滑动窗口处理,以便得到所述LSTM模型的训练集和测试集,在训练集上对所述的LSTM模型进行训练,然后在测试集上进行验证,预测地理区域在未来一定时间区间内可能出现的交通拥堵状况。
优选的,实时爬取长沙市网络交通舆情数据。
优选的,文本相似度计算方式为改进后的Tanimoto测度。
优选的,对由S2所得数据子集S1,S2,...,St,...,Sd中的地理位置特征,分别采用基于文本相似度的近邻聚类与K-Means聚类相融合的算法进行聚类,步骤S3包括:
S301:初始化文本相似度阈值ε,从子数据集St中任选一个样本点X1作为聚类中心Z1,进而选择样本点X2,并计算X2与聚类中心Z1之间的文本相似度Sim21,如式(1)所示:
Figure GDA0003944271670000021
其中,在计算文本相似度之前,针对参与计算的分词后文本,采用词袋模型进行向量化处理,x,y即为向量化处理之后的样本点,xi,yi为x,y的特征分量,min(xi,yi)表示对特征分量xi,yi作取小操作,max(xi,yi)表示对特征分量xi,yi作取大操作。
若Sim21<ε,则定义一个新的聚类中心Z2=X2,否则X2∈以Z1为聚类中心的聚类;
S302:假设已有聚类中心Z1,Z2,进而选择第三个样本点X3,并通过公式(1)分别计算X3与Z1之间的相似度Sim31,以及X3与Z2之间的相似度Sim32
其中,若Sim31<ε且Sim32<ε,则创建第三个聚类中心Z3=X3,否则,若Sim31=<Sim32,则X3∈以Z2为聚类中心的聚类,否则X3∈以Z1为聚类中心的聚类;
S303:依次迭代S302,直到子数据集St中的所有样本都已聚类完毕,则完成所述的近邻聚类;
S304:由S301-S303步骤将子数据集St分类为
Figure GDA0003944271670000022
k为所聚类别的数目,
Figure GDA0003944271670000023
表示数据子集t的第i个类别,即第i个簇,各类别对应的聚类中心分别为
Figure GDA0003944271670000024
同样的,k表示聚类中心的个数,其中,
Figure GDA0003944271670000025
为簇
Figure GDA0003944271670000026
的聚类中心;
S305:计算每个簇
Figure GDA0003944271670000027
的均值向量
Figure GDA0003944271670000028
如公式(2)所示。并选择与均值向量相似度最大的样本作为当前簇的聚类中心参与下一次迭代。
Figure GDA0003944271670000029
其中,在计算簇内均值向量之前,针对参与计算的分词后文本,采用词袋模型进行向量化处理,X即为向量化处理之后的样本,同时,X∈簇
Figure GDA00039442716700000210
中的一个样本,
Figure GDA00039442716700000211
表示类别
Figure GDA00039442716700000212
中样本的数量;
S306:设
Figure GDA00039442716700000213
为当前的聚类中心,j表示迭代次数,
Figure GDA00039442716700000214
为所述聚类算法调整的参与下一次迭代的聚类中心;
将当前迭代下的聚类中心与通过计算均值向量所得的参与下一次迭代的聚类中心进行比较,则存在以下两种情况:
Figure GDA0003944271670000031
则跳回S302,并以新的聚类中心
Figure GDA0003944271670000032
作为S302所述的已有聚类中心;
Figure GDA0003944271670000033
则聚类中心收敛,完成聚类;
S307:针对每个子数据集St,依次按照步骤S301-S306进行聚类,直到每个子数据集都完成聚类为止。由聚类后的子数据集组成新的网络交通舆情数据集Sc,其数据子集可分别表示为
Figure GDA0003944271670000034
然后将新数据子集
Figure GDA0003944271670000035
中的
Figure GDA0003944271670000036
标记为
Figure GDA0003944271670000037
Figure GDA0003944271670000038
Figure GDA0003944271670000039
的唯一簇标记,而
Figure GDA00039442716700000310
Figure GDA00039442716700000311
上却并不一定具有唯一性。
优选的,步骤S4包括:
S401:计算由步骤S3所得的网络交通舆情数据中不同簇标记出现的频次,并作排序操作;
S402:将出现频次最高的簇标记作为切入点,分别在步骤S3所得的网络交通舆情数据子集中做抽样操作,即抽取以频繁簇标记为中心的频繁簇;
S403:分别对由步骤S401所抽取的频繁簇进行采样处理,具体地采样指标包括簇内相似度均值,样本点数量以及簇内交通通行状态总值,其中,所述的采样指标,即为交通拥堵状况的评价指标;
S404:通过层次分析法确定步骤S402中所述的评价指标的权重系数;
S405:采用最大最小标准化处理使步骤S402所述的评价指标在量纲上保持统一;
S406:将由步骤S404所得各评价指标的权重系数对应由步骤S405所得标准化之后的各评价指标值进行加权求和,即统一交通拥堵状况的评价标准;
基于步骤S401-S406,进而构建基于时间与地理区域相关联的交通拥堵状况评价模型。
优选的,所述的一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,交通拥堵状况评价标准介于0到1之间,其中0~0.1为畅通,0.1~0.3为轻度拥堵,0.3~0.5为一般拥堵,0.5~0.7为十分拥堵,0.7~1.0为严重拥堵。
优选的,将由步骤S4得到的以地理位置为中心的地理区域在时间序列上所表现的交通拥堵状况评价标准作为基准数据集,并对其做差分处理,对差分处理后的数据集进行滑动窗口处理进而得到所述的LSTM模型的训练集和测试集。
有益效果:
本发明通过网络爬虫有针对性的实时爬取真实的网络交通舆情数据,减少了与交通无关的噪声干扰且具有一定的实时性。同时,本发明由点及面,由个体到整体,从空间的角度出发,通过聚类的手段,将具有较高相似度的样本点聚集起来,并划分区域,即将一个单独的样本点扩展为一个具有空间特征的样本群,那么,由样本群所表现的空间密度,空间聚集度以及交通通行状态则更能从客观的角度反映交通拥堵的状况,而样本群的中心点,则有较大的可能是作为拥堵事件的触发点。本发明所采用的聚类算法,是基于文本相似度的近邻聚类与K-Means聚类相融合的算法,并改进了Tanimoto测度公式,具有较好较快的聚类效果,且避免了K值的选择问题,具有一定的自适应性。本发明从更进一步出发,在聚类的基础上,通过有针对性的对样本簇进行抽样和采样处理,并借助于层次分析法,最大最小标准化,有效的量化了区域交通拥堵状况评价指标,并由此可以构建出基于时间序列的任意一地理区间的交通拥堵状况评价数据集。最后,针对目标地理区域的交通拥堵状况评价的时间序列数据采用LSTM模型进行训练,能够有效的检测到未来一段时间目标地理区域的交通拥堵状况,为交通出行提供预警信息。
附图说明
图1是本发明的实施方式框架图;
图2是本发明的基于聚类的地理区域分割的框架图;
图3是本发明的基于时间与地理区域关联的交通拥堵状况评价模型的框架图;
图4是本发明的基于LSTM和时间序列的地理区域交通拥堵状况预测模型的框架图。
具体实施方式
下面通过附图及具体实施方式对本发明进行详细的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
本发明所述的一种基于时空关联与大数据挖掘的交通舆情检测方法,从一个全新的角度出发,实现了对地理区域交通拥堵状况的评价,同时,能够预测未来一段时间内的交通拥堵状况,具有一定的实时性,准确性,预判性。
本发明通过网络爬虫技术有针对性的实时爬取网络交通舆情数据,对网络交通舆情数据进行预处理,包括划分数据子集,对每个数据子集采取改进的聚类算法进行聚类,在确定抽样目标和采样指标的前提下实现了基于时间和地理区域关联的交通拥堵状况评价模型的架构,其依赖于最大最小标准化处理,层次分析法,统一评价标准。然后,构建基于时间序列的地理区域交通拥堵状况评价数据集,并对时间序列数据进行差分处理和滑动窗口处理。最后,将预处理之后的时间序列数据划分为训练集和测试集,并将训练集在LSTM模型上进行训练,将测试集在LSTM模型上进行测试,以预测其未来一段时间的交通拥堵状况评价值。
更优选的实施方案如图1所示,包括步骤:
步骤1:采用网络爬虫技术对长沙市的网络交通舆情数据进行实时爬取,其中,每条数据样本包含有时间特征,地理位置特征以及交通通行状态特征,其中,地理位置特征与交通通行状态特征的表现形式为文本类型;
步骤2:将网络交通舆情数据集中表示交通通行状态的文本信息进行特征编码,并对其中的地理位置特征进行文本分词,以网络交通舆情数据集中的时间特征为标准按照时间间隔θ将其划分为若干个具有相同时间隔的数据子集,其中,假设原网络交通舆情数据集为S,则划分后的数据子集分别为S1,S2,...,St,...,Sd,(t=1,2,...,d,St∈S),d表示所划分的数据子集的数目;
步骤3:对由步骤2所得数据子集S1,S2,...,St,...,Sd中的地理位置特征,分别采用聚类算法进行聚类。具体地,如图2所示,所述的聚类算法将k-means聚类的动态调整聚类中心方法融入到了基于文本相似度阈值的近邻聚类之中,且本发明所使用的相似度计算方式为基于改进的Tanimoto测度,所述的聚类算法,一方面,降低了聚类算法计算的复杂度,另一方面,能够自适应聚类中心的数目,避免了k值选择的问题,同时,有效的提升了聚类的效果。具体地实施方式可分为如下几个步骤:
S301:初始化相似度阈值ε,从子数据集St中任选一个样本点X1作为聚类中心Z1,进而选择样本点X2,并计算X2与聚类中心Z1之间的文本相似度Sim21,如式(1)所示:
Figure GDA0003944271670000051
其中,在计算文本相似度之前,针对参与计算的分词后文本,采用词袋模型进行向量化处理,x,y即为向量化处理之后的样本点,xi,yi为x,y的特征分量,min(xi,yi)表示对特征分量xi,yi作取小操作,max(xi,yi)表示对特征分量xi,yi作取大操作。
若Sim21<ε,则定义一个新的聚类中心Z2=X2,否则X2∈以Z1为聚类中心的聚类;
S302:假设已有聚类中心Z1,Z2,进而选择第三个样本点X3,并通过公式(1)分别计算X3与Z1之间的相似度Sim31,以及X3与Z2之间的相似度Sim32
其中,若Sim31<ε且Sim32<ε,则创建第三个聚类中心Z3=X3,否则,若Sim31=<Sim32,则X3∈以Z2为聚类中心的聚类,否则X3∈以Z1为聚类中心的聚类;
S303:依次迭代步骤S302,直到子数据集St中的所有样本都已聚类完毕,则完成所述的近邻聚类;
S304:由S301-S303步骤将子数据集St分类为
Figure GDA0003944271670000052
k为所聚类别的数目,
Figure GDA0003944271670000053
表示数据子集t的第i个类别,即第i个簇,各类别对应的聚类中心分别为
Figure GDA0003944271670000054
同样的,k表示聚类中心的个数,其中,
Figure GDA0003944271670000055
为簇
Figure GDA0003944271670000056
的聚类中心,且每个聚类中心
Figure GDA0003944271670000057
可描述为完整的地理位置信息,而每个簇
Figure GDA0003944271670000058
可描述为以
Figure GDA0003944271670000059
为中心的地理区域;
S305:计算每个簇
Figure GDA00039442716700000510
的均值向量
Figure GDA00039442716700000511
如公式(2)所示。并选择与均值向量相似度最大的样本作为当前簇的聚类中心参与下一次迭代。
Figure GDA00039442716700000512
其中,在计算簇内均值向量之前,针对参与计算的分词后文本,采用词袋模型进行向量化处理,X即为向量化处理之后的样本,同时,X∈簇
Figure GDA00039442716700000513
中的一个样本,
Figure GDA00039442716700000514
表示类别
Figure GDA00039442716700000515
中样本的数量;
S306:设
Figure GDA00039442716700000516
为当前的聚类中心,j表示迭代次数,
Figure GDA00039442716700000517
为所述聚类算法调整的参与下一次迭代的聚类中心;
将当前迭代下的聚类中心与通过计算均值向量所得的参与下一次迭代的聚类中心进行比较,则存在以下两种情况:
Figure GDA0003944271670000061
则跳回步骤S302,并以新的聚类中心
Figure GDA0003944271670000062
作为步骤S302所述的已有聚类中心;
Figure GDA0003944271670000063
则聚类中心收敛,完成聚类;
S307:针对每个子数据集St,依次按照步骤S301-S306进行聚类,直到每个子数据集都完成聚类为止。由聚类后的子数据集组成新的网络交通舆情数据集Sc,其数据子集可分别表示为
Figure GDA0003944271670000064
然后将新数据子集
Figure GDA0003944271670000065
中的
Figure GDA0003944271670000066
标记为
Figure GDA0003944271670000067
Figure GDA0003944271670000068
Figure GDA0003944271670000069
的唯一簇标记,而
Figure GDA00039442716700000610
Figure GDA00039442716700000611
上却并不一定具有唯一性,如存在
Figure GDA00039442716700000612
Figure GDA00039442716700000613
那么此两者既可能是相同,也可能是不同的;
步骤4:统计聚类后的网络交通舆情数据中不同簇标记出现的频次,并作排序操作。将出现频次最高的簇标记作为切入点,分别在聚类后的各网络交通舆情数据子集中抽取以频繁簇标记为中心的频繁簇。然后对每个簇进行采样操作,具体地采样指标包括簇内相似度均值,样本点数量以及簇内交通通行状态总值。最后,通过层次分析法确定各指标的权重系数,同时,采用最大最小标准化处理使各指标值在量纲上保持统一,且标准化后的值介于0~1之间,进而构建基于时间与地理区域相关联的交通拥堵状况评价模型。其中,实施方式如图3所示,具体的实施方式可分为如下几个步骤:
S401:对聚类后网络交通舆情数据集Sc中的聚类中心集合可表示为Z={Z1,Z2,...,Zt,...,Zd},其中,Zt为数据子集
Figure GDA00039442716700000614
对应的聚类中心集合,且Zt
Figure GDA00039442716700000615
所构成。分别统计不同的
Figure GDA00039442716700000616
在Z中出现的频次,得到不同簇标记
Figure GDA00039442716700000617
在Z上的共现次数,并按照从大到小顺序对簇标记进行排序,其排序结果记为frequency(Z)={z1,z2,...,zl},zo∈Z,(1=<o<=l),zo为不同簇标记组成的集合,且l大于等于子数据集的数量,小于等于样本的总数,其中,z1即为出现最频繁的簇标记,由于以簇标记为中心的簇具有地理区域的表征性且在
Figure GDA00039442716700000618
上具有一定的时间区间表征性,因此也可看作以z1为中心的地理区域在所有记录中出现的最为频繁,同样地,在本实施例中,仅关注最频繁的簇标记,但并不限于其它较频繁的簇标记;
S402:对Sc进行抽样操作,从
Figure GDA00039442716700000619
中分别提取以最频繁簇标记z1为中心的簇
Figure GDA00039442716700000620
Figure GDA00039442716700000621
不存在以z1为中心的簇,则标记各项信息为0或者无,保留其时间和空间存在性,各频繁簇可表示为q1,q2,...,qt,...,qd,(1=<t<=d);
S403:对聚类后网络交通舆情数据子集中抽取的频繁簇qt进行采样处理,其中,采样指标包括簇内相似度均值,样本点数量以及簇内交通通行状态总值,分别记为B1,B2,B3,那么簇内相似度均值越大,样本点越多,则说明簇内越聚集,即地理区域内密度越大,同时,若交通通行状态总值越大,则表明地理区域内交通拥堵状况越严重;
通过抽样和采样处理得到以z1为中心的空间区域在时间序列上所表现的各项评价指标,并由此生成一个基于时间序列的多变量数据集,且数据集中的各项指标可从一定程度上表明空间区域内的聚集状态或交通通行状态,即关于交通拥堵状况的多项评价标准;
S404:层次分析法(AHP)定量各采样指标权重系数:层次分析法(AHP)是一种定量和定性相结合的多目标决策分析方法,其主要思想是将复杂问题分解为若干层次和若干指标,对比两两指标之间的重要程度,建立判断矩阵,通过计算判断矩阵的最大特征值以及对应特征向量,得出不同指标的权重,从而对目标层做出科学评价。本发明将层次分析法应用于解决总体目标所对应评价指标的权重系数计算问题,且本发明的总体目标为交通拥堵状况,对应的评价指标分别为B1,B2,B3
现有3个评价指标B1,B2,B3对总体目标G有影响,要确定它们对G的影响系数,即各评价指标在总体目标中所占的权重系数。采用成对比较法每次取两个指标Bi和Bj,用aij表示Bi与Bj的权重比例,并将全部的比较结果用矩阵A=(aij)3×3(aij>0)表示。
Figure GDA0003944271670000071
其中,aji=1/aij(i,j=1,2,3),因此,A是n阶正互反阵;
由指标间的成对比较所得到的结果A即为判断矩阵,本发明采用如表1所示的9分位标度法通过对评价指标B1,B2,B3进行两两比较,确定其相对重要性关系,进而得到关于评价指标间的判断矩阵A;
表1重要性标度及含义
Figure GDA0003944271670000072
本发明通过计算判断矩阵的最大特征值λmax,进而计算一致性指标IC=(λmax-n)/(n-1),n表示判断矩阵的阶数,若IC=0,则该判断矩阵满足完全一致性,若IC≠0,则需计算随机一致性比率RC=IC/IR,其中,IR为判断矩阵的平均一致性指标,其值与判断矩阵的阶数有关,可通过表2的平均随机一致性指标IR取值表查表得到,本发明判断矩阵的阶数为3,因此对应的IR值为0.52;若RC<0.1,则认为该判断矩阵的一致性是可以接受的,那么最大特征值λmax所对应的特征向量即为各指标的权重系数,分别记为w1,w2,w3。若未通过一致性检验,可通调整判断矩阵,直到满足一致性判断为止。
表2平均随机一致性指标IR取值表
Figure GDA0003944271670000081
其中,所述w1,w2,w3,即为本发明中关于交通拥堵状况的各项评价指标所对应的权重系数。
S405:最大最小标准化处理:对S403所得的基于时间序列的多变量数据集进行最大最小标准化处理,如公式(3)所示:
Figure GDA0003944271670000082
其中,n表示数据集的维数,即评价指标的数目,X(i)表示采样后的评价指标i所对应的时间序列数据,max(X(i)),min(X(i))分别表示采样后的评价指标i所对应的时间序列数据的最大值与最小值,Xi为评价指标i的时间序列数据通过标准化之后的值。
S406:统一评价标准:借助层次分析法所得的各指标权重系数对在时间序列上进行标准化处理之后各评价指标值Xi进行加权求和,如式(4)所示,
Figure GDA0003944271670000083
其中,T为各项评价标准加权求和后的值,·表示点积操作,n为评价指标的数目;
通过步骤S401-S406可得在每个时间区间关于一个地理区域内交通拥堵状况的统一评价标准,即搭建本发明所述的基于时间与地理区域关联的交通拥堵状况评价模型,其中,交通拥堵状况评价标准介于0到1之间,0~0.1为畅通,0.1~0.3为轻度拥堵,0.3~0.5为一般拥堵,0.5~0.7为十分拥堵,0.7~1.0为严重拥堵。
步骤5:LSTM模型是RNN的一种改进模型,不同于RNN的是,它用记忆细胞取代了RNN中的隐藏节点,有效的解决了RNN训练过程中可能出现的梯度消失,梯度爆炸等问题,同时,LSTM能够较好的适用较长的时间序列,LSTM中的核心是记忆细胞,它由输入门、遗忘门、输出门组成,其中,输入门决定当前输入数据对记忆单元状态的影响,遗忘门决定从记忆单元状态中遗忘无用的历史信息,输出门决定输出信息。
本发明对最频繁的簇标记(地理位置)通过步骤4得到以此地理位置为中心的地理区域在时间序列上所表现的交通拥堵状况评价值,进而构建出在此地理区域上基于交通拥堵状况评价标准的时间序列数据集,记为T,且T=t1,t2,...,tm,则T是一条长度为m的实值序列,其中,实施方式如图4所示,具体地实施方式可分为以下几个步骤:
S501:差分处理:对时间序列数据T进行一阶差分处理,如公式(5)所示:
Δti=ti+1-ti,(0=<i<=m) (5)
即下一个时间间隔的值减去上一个时间间隔的值,其中,当i=0时,t0=0,则由差分处理后得到具有平稳性的时间序列数据ΔT=Δt1,Δt2,...,Δtm
S502:滑动窗口处理:设滑动窗口的大小为r,则窗口内的数据可作为LSTM模型的输入数据,而窗口近邻的后一位数据则作为LSTM模型的输出数据,且窗口每次当且仅当向后滑动一个单位的位置,进而基于滑动窗口的基本理论,可构建出一个样本维数为r的具有输入和输出值的新数据集,记为(X,y)。
将数据集中的9份作为训练集,1份作为测试集,并在所述训练集上采用所述LSTM模型进行训练,进而在所述测试集上进行验证,从而实现对以地理位置为中心的空间区域进行交通拥堵状况的预测。
以上对本发明的较佳实施方式进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变型或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims (7)

1.一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,包括步骤:
S1:网络交通舆情数据爬取:针对长沙市的网络交通舆情数据进行实时爬取;
S2:网络交通舆情数据预处理:对爬取的网络交通舆情数据进行特征编码,文本分词,划分子数据集;
S3:基于聚类的地理区域分割:针对划分的每个数据子集分别采用基于文本相似度的近邻聚类与K-Means聚类相融合的算法进行聚类进而分割出多个地理区域,且相似度计算方式采用改进后的Tanimoto测度;
S4:基于时间和地理区域关联的交通拥堵状况评价模型:确定采样指标和抽样目标,进而在聚类后的每个新数据子集上做抽样和采样处理,通过层次分析法(AHP)计算各采样指标的权重系数,对抽样和采样后的数据进行最大最小标准化处理,将各指标权重系数与对应的各指标值进行加权求和,整合有关于交通拥堵状况的所有评价指标,即统一评价标准;
S5:基于LSTM和时间序列的地理区域交通拥堵状况预测模型:生成地理区域在每个时间区间内的基于统一评价标准的时间序列数据,并对时间序列数据进行一阶差分处理,滑动窗口处理,以便得到所述LSTM模型的训练集和测试集,在训练集上对所述的LSTM模型进行训练,然后在测试集上进行验证,预测地理区域在未来一定时间区间内可能出现的交通拥堵状况。
2.根据权利要求1所述的一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,实时爬取长沙市网络交通舆情数据。
3.根据权利要求1所述的一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,文本相似度计算方式为改进后的Tanimoto测度。
4.根据权利要求2所述的一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,对由S2所得数据子集S1,S2,...,St,...,Sd中的地理位置特征,分别采用基于文本相似度的近邻聚类与K-Means聚类相融合的算法进行聚类,步骤S3包括:
S301:初始化文本相似度阈值ε,从子数据集St中任选一个样本点X1作为聚类中心Z1,进而选择样本点X2,并计算X2与聚类中心Z1之间的文本相似度Sim21,如式(1)所示:
Figure FDA0003944271660000011
其中,在计算文本相似度之前,针对参与计算的分词后文本,采用词袋模型进行向量化处理,x,y即为向量化处理之后的样本点,xi,yi为x,y的特征分量,min(xi,yi)表示对特征分量xi,yi作取小操作,max(xi,yi)表示对特征分量xi,yi作取大操作;
若Sim21<ε,则定义一个新的聚类中心Z2=X2,否则X2∈以Z1为聚类中心的聚类;
S302:假设已有聚类中心Z1,Z2,进而选择第三个样本点X3,并通过公式(1)分别计算X3与Z1之间的相似度Sim31,以及X3与Z2之间的相似度Sim32
其中,若Sim31<ε且Sim32<ε,则创建第三个聚类中心Z3=X3,否则,若Sim31=<Sim32,则X3∈以Z2为聚类中心的聚类,否则X3∈以Z1为聚类中心的聚类;
S303:依次迭代S302,直到子数据集St中的所有样本都已聚类完毕,则完成所述的近邻聚类;
S304:由S301-S303步骤将子数据集St分类为
Figure FDA0003944271660000021
k为所聚类别的数目,
Figure FDA0003944271660000022
表示数据子集t的第i个类别,即第i个簇,各类别对应的聚类中心分别为
Figure FDA0003944271660000023
同样的,k表示聚类中心的个数,其中,
Figure FDA0003944271660000024
为簇
Figure FDA0003944271660000025
的聚类中心;
S305:计算每个簇
Figure FDA0003944271660000026
的均值向量
Figure FDA0003944271660000027
如公式(2)所示,并选择与均值向量相似度最大的样本作为当前簇的聚类中心参与下一次迭代;
Figure FDA0003944271660000028
其中,在计算簇内均值向量之前,针对参与计算的分词后文本,采用词袋模型进行向量化处理,X即为向量化处理之后的样本,同时,X∈簇
Figure FDA0003944271660000029
中的一个样本,
Figure FDA00039442716600000210
表示类别
Figure FDA00039442716600000211
中样本的数量;
S306:设
Figure FDA00039442716600000212
为当前的聚类中心,j表示迭代次数,
Figure FDA00039442716600000213
为所述聚类算法调整的参与下一次迭代的聚类中心;
将当前迭代下的聚类中心与通过计算均值向量所得的参与下一次迭代的聚类中心进行比较,则存在以下两种情况:
Figure FDA00039442716600000214
则跳回S302,并以新的聚类中心
Figure FDA00039442716600000215
作为S302所述的已有聚类中心;
Figure FDA00039442716600000216
则聚类中心收敛,完成聚类;
S307:针对每个子数据集St,依次按照步骤S301-S306进行聚类,直到每个子数据集都完成聚类为止;由聚类后的子数据集组成新的网络交通舆情数据集Sc,其数据子集可分别表示为
Figure FDA00039442716600000217
然后将新数据子集
Figure FDA00039442716600000218
中的
Figure FDA00039442716600000219
标记为
Figure FDA00039442716600000220
Figure FDA00039442716600000221
Figure FDA00039442716600000222
的唯一簇标记,而
Figure FDA00039442716600000223
Figure FDA00039442716600000224
上却并不一定具有唯一性。
5.根据权利要求3所述的一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,步骤S4包括:
S401:计算由步骤S3所得的网络交通舆情数据中不同簇标记出现的频次,并作排序操作;
S402:将出现频次最高的簇标记作为切入点,分别在步骤S3所得的网络交通舆情数据子集中做抽样操作,即抽取以频繁簇标记为中心的频繁簇;
S403:分别对由步骤S401所抽取的频繁簇进行采样处理,具体地采样指标包括簇内相似度均值,样本点数量以及簇内交通通行状态总值,其中,所述的采样指标,即为交通拥堵状况的评价指标;
S404:通过层次分析法确定步骤S402中所述的评价指标的权重系数;
S405:采用最大最小标准化处理使步骤S402所述的评价指标在量纲上保持统一;
S406:将由步骤S404所得各评价指标的权重系数对应由步骤S405所得标准化之后的各评价指标值进行加权求和,即统一交通拥堵状况的评价标准;
基于步骤S401-S406,进而构建基于时间与地理区域相关联的交通拥堵状况评价模型。
6.根据权利要求3所述的一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,交通拥堵状况评价标准介于0到1之间,其中0~0.1为畅通,0.1~0.3为轻度拥堵,0.3~0.5为一般拥堵,0.5~0.7为十分拥堵,0.7~1.0为严重拥堵。
7.根据权利要求4所述的一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,将由步骤S4得到的以地理位置为中心的地理区域在时间序列上所表现的交通拥堵状况评价标准作为基准数据集,并对其做差分处理,对差分处理后的数据集进行滑动窗口处理进而得到所述的LSTM模型的训练集和测试集。
CN201910873997.4A 2019-09-16 2019-09-16 一种基于时空关联与大数据挖掘的交通舆情检测方法 Active CN110674858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910873997.4A CN110674858B (zh) 2019-09-16 2019-09-16 一种基于时空关联与大数据挖掘的交通舆情检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910873997.4A CN110674858B (zh) 2019-09-16 2019-09-16 一种基于时空关联与大数据挖掘的交通舆情检测方法

Publications (2)

Publication Number Publication Date
CN110674858A CN110674858A (zh) 2020-01-10
CN110674858B true CN110674858B (zh) 2023-06-09

Family

ID=69078426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910873997.4A Active CN110674858B (zh) 2019-09-16 2019-09-16 一种基于时空关联与大数据挖掘的交通舆情检测方法

Country Status (1)

Country Link
CN (1) CN110674858B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462489B (zh) * 2020-04-01 2021-10-26 腾讯云计算(北京)有限责任公司 交通拥堵区域预测方法及装置
CN111860396A (zh) * 2020-07-28 2020-10-30 江苏中设集团股份有限公司 识别归纳车辆当前区域拥堵状况的方法
CN112085947B (zh) * 2020-07-31 2023-10-24 浙江工业大学 一种基于深度学习和模糊聚类的交通拥堵预测方法
CN112069376A (zh) * 2020-08-27 2020-12-11 武汉理工大学 交通信息可视化的数据处理方法、系统和存储介质
CN112084764B (zh) * 2020-09-02 2022-06-17 北京字节跳动网络技术有限公司 数据检测方法、装置、存储介质及设备
US20220254162A1 (en) * 2021-02-10 2022-08-11 Umm Al-Qura University Deep learning framework for congestion detection and prediction in human crowds

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153846A (zh) * 2017-05-26 2017-09-12 南京邮电大学 一种基于模糊c均值聚类算法的道路交通状态建模方法
WO2018122806A1 (zh) * 2016-12-30 2018-07-05 同济大学 一种基于行程时间分布的多模态交通异常检测方法
CN109377035A (zh) * 2018-10-12 2019-02-22 食品安全与营养(贵州)信息科技有限公司 一种基于大数据的智慧餐厅管理平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018122806A1 (zh) * 2016-12-30 2018-07-05 同济大学 一种基于行程时间分布的多模态交通异常检测方法
CN107153846A (zh) * 2017-05-26 2017-09-12 南京邮电大学 一种基于模糊c均值聚类算法的道路交通状态建模方法
CN109377035A (zh) * 2018-10-12 2019-02-22 食品安全与营养(贵州)信息科技有限公司 一种基于大数据的智慧餐厅管理平台

Also Published As

Publication number Publication date
CN110674858A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110674858B (zh) 一种基于时空关联与大数据挖掘的交通舆情检测方法
CN110674841B (zh) 一种基于聚类算法的测井曲线识别方法
CN112819207B (zh) 基于相似性度量的地质灾害空间预测方法、系统及存储介质
CN109117883B (zh) 基于长短时记忆网络的sar影像海冰分类方法及系统
CN105224872B (zh) 一种基于神经网络聚类的用户异常行为检测方法
CN112085947A (zh) 一种基于深度学习和模糊聚类的交通拥堵预测方法
CN111178611B (zh) 一种日电量预测的方法
CN109034448A (zh) 基于车辆轨迹语义分析和深度信念网络的轨迹预测方法
CN105635762A (zh) 一种基于深度信念网络的视频热度预测方法及其系统
CN104636449A (zh) 基于lsa-gcc的分布式大数据系统风险识别方法
CN105678428A (zh) 一种犯罪嫌疑概率预测的方法和系统
CN111651502B (zh) 一种基于多子空间模型的城市功能区识别方法
CN114694178A (zh) 基于Faster-RCNN算法的电力作业中安全帽监测方法及系统
CN113449111B (zh) 基于时空语义知识迁移的社会治理热点话题自动识别方法
CN116307103A (zh) 一种基于硬参数共享多任务学习的交通事故预测方法
CN116542708A (zh) 一种智能优质商业门店规模推荐及其分级评分方法
Asghari et al. Spatial rainfall prediction using optimal features selection approaches
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
Lei et al. Prediction of PM2. 5 concentration considering temporal and spatial features: A case study of Fushun, Liaoning Province
Keskin et al. Cohort fertility heterogeneity during the fertility decline period in Turkey
Noor et al. Prediction map of rainfall classification using random forest and inverse distance weighted (IDW)
CN116304941A (zh) 一种基于多模型组合的海洋数据质量控制方法及装置
CN115858763A (zh) 多模态数据融合的城管事件分析方法及其应用
CN114626594A (zh) 一种基于聚类分析和深度学习的中长期电量预测方法
Mao et al. Naive Bayesian algorithm classification model with local attribute weighted based on KNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant