CN113378891B - 基于轨迹分布表示的城市区域关系可视分析方法 - Google Patents
基于轨迹分布表示的城市区域关系可视分析方法 Download PDFInfo
- Publication number
- CN113378891B CN113378891B CN202110542378.4A CN202110542378A CN113378891B CN 113378891 B CN113378891 B CN 113378891B CN 202110542378 A CN202110542378 A CN 202110542378A CN 113378891 B CN113378891 B CN 113378891B
- Authority
- CN
- China
- Prior art keywords
- region
- area
- track
- vector
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 71
- 238000004458 analytical method Methods 0.000 title claims abstract description 50
- 230000000007 visual effect Effects 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 176
- 230000033001 locomotion Effects 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 65
- 238000005516 engineering process Methods 0.000 claims abstract description 21
- 230000003993 interaction Effects 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 56
- 238000004422 calculation algorithm Methods 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 36
- 238000010586 diagram Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004040 coloring Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 238000006386 neutralization reaction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 8
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 241000234295 Musa Species 0.000 description 4
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 3
- 230000029305 taxis Effects 0.000 description 3
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001494094 Eucalyptus panda Species 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Tourism & Hospitality (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据分析与建模技术领域,公开了基于轨迹分布表示的城市区域关系可视分析方法;基于轨迹数据的城市区域划分方法,将城市地理空间划分成适当区域,将轨迹转换为区域之间的聚合流;提出基于词嵌入技术的区域向量化模型,考虑结合城市位置和移动对象之间的相互作用,对城市区域进行向量化编码,根据区域间相似性来探索不同区域在轨迹中的位置信息和连接关系;设计并开发分析区域向量和探索人群移动模式的可视分析系统,以区域向量空间为基础,通过可视化视图联动机制,支持分析者针对人群移动模式进行从全局概览、到局部分析、最后到上下文细节探索的推理过程。保障在辅助城市规划者进行相应交通决策时的适用性和有效性。
Description
技术领域
本发明属于数据分析与建模技术领域,具体涉及基于轨迹分布表示的城市区域关系可视分析方法。
背景技术
随着定位跟踪技术的不断发展,城市中大量的时空轨迹数据能够被收集,这些时空轨迹代表着各类移动对象,如人、车辆的移动。大量的时空轨迹数据为我们提供了许多前所未有的信息,在基于位置的社交网络、智能交通系统和城市计算等领域获得了广泛的应用,同时这些应用的普及,也推动着针对轨迹数据挖掘的新技术的发展。因此,针对轨迹数据的数据挖掘任务已经成为智慧城市建设中重要的研究热点。在城市人群移动模式探索方面,通过有效地处理和分析城市中人或车辆的时空轨迹数据,对于诸如估计迁移流量、交通预测、城市规划和流行病建模等应用尤为重要。
轨迹数据中蕴含了潜在的人群移动模式,然而全面高效地探索运动物体的轨迹绝非易事,难点主要体现在以下三个方面:首先,两条途经位置差异很大的轨迹,其内部隐含的移动模式却可能是相同的,因此针对轨迹经过位置进行特征提取对于移动模式的分析而言就变得十分重要。其次,轨迹数据往往规模庞大且结构性复杂,导致了轨迹数据分析的全面性和高效性之间存在矛盾,因此不得不采用折中的手段如基于位置聚合轨迹等方法分析问题。最后,人群的移动模式是与时间相关的,不仅不同时段人们的移动模式不同,对于轨迹数据的处理也应充分考虑其时空连续性。如果仅仅使用来自轨迹的聚合值如位置流量或位置对之间的进出流来表示、分析轨迹,则会极大地忽略掉轨迹时空属性中的时间属性,位置与流动行为之间的相互影响没有被有效考虑和分析。
现阶段缺少以人访问某地的目的性为驱动,并通过轨迹中连续位置的集合信息探究人类移动模式的分析方法,该方法在高效聚合轨迹的同时能细化分析任务,并且支持动态分析人群移动,最终可以使决策者以时空角度观察人群移动模式的变化规律。亟需一种基于轨迹分布表示的城市区域关系可视分析方法来解决上述缺陷。
发明内容
本发明目的在于提供基于轨迹分布表示的城市区域关系可视分析方法,用于解决上述现有技术中存在的技术问题,如:现阶段缺少以人访问某地的目的性为驱动,并通过轨迹中连续位置的集合信息探究人类移动模式的辅助分析方法。
为实现上述目的,本发明的技术方案是:
基于轨迹分布表示的城市区域关系可视分析方法,包括以下步骤:
S1:基于轨迹数据的城市区域划分方法;
考虑轨迹数据的规模、结构,将轨迹数据进行空间泛化和聚合,将城市地理空间划分成适当的各个区域,最终将轨迹转换为各个区域之间的聚合流,即为轨迹区域序列化的表示,并且轨迹区域序列化的表示作为基于词嵌入技术的区域向量化模型的输入;
S2:建立基于词嵌入技术的区域向量化模型;
通过利用词嵌入技术,用向量化表示对城市区域进行编码,考虑结合城市位置和移动对象之间的相互作用,通过将城市区域视为文本处理中的单词,轨迹视为句子,建立区域向量化空间;
S3:分析区域向量和人群移动模式的可视分析系统;
以区域向量化空间为基础,通过使用可视化视图联动机制,支持从全局概览到局部分析,最后到细节分析人群移动模式。
进一步的,步骤S2包括以下子步骤:
S21:城市区域划分;
城市区域划分方法基于轨迹数据,从轨迹数据中提取特征轨迹点,并采用聚类算法根据其空间分布情况进行区域划分;城市空间被划分成单个区域,轨迹可被转化为区域之间的移动;
S22:基于F-Glove模型的区域向量化;
提出基于城市区域向量化表示模型F-Glove,首先利用分布式假设原理将城市区域嵌入到一个连续的向量空间中,结合城市区域与人群移动之间的相互作用;针对词嵌入模型存在的问题进行改进,生成新的区域向量,通过轨迹与区域向量相结合计算出的轨迹向量空间。
进一步的,步骤S21包括以下子步骤:
S211:从轨迹数据中提取特征点;
输入:T=<tp1...tpn>,tpi=(lngi,lati,ti)其中tpi表示该轨迹某时间戳的轨迹点,n表示轨迹点个数(n≥2),ti表示对应轨迹点的时间戳,lngi与lati表示对应时间戳的经纬度;
输出:特征点集合C;
其中,
Step 2:定义j=i+1;
Step 3:若j≥n则进行Step 8,否则下一步;
Step 4:计算tpi与tpj空间距离SD(i,j),若SD(i,j)≥MaxDistance,则将tpj加入特征点集合C,令i=j并返回到Step 2,否则进下一步;
Step 5:在j+1与n之间寻找Min(k),使得SD(j,k)≥MinDistance,若存在k则下一步,否则进行Step 8;
Step 6:计算tpj与tpk时间差异TD(j,k),若TD(j,k)≥MinStopDuration,则将tpj加入特征点集合C,并令i=j,j=k,返回到Step 3;否则计算tpj与tpk之间的平均位置tpp(lngave,latave),寻找tpm使得SD(m,p)最小,令j=m进行下一步
step 7:计算角度,ANGLE=(<(lngi,lati),(lngj,latj)>,<(lngj,latj),(lngk,latk)>),若ANGLE≥MinAngle则将tpj加入C,并令i=j,j=k,否则令j=j+1;该步执行完毕后返回step3;
Step 8:将轨迹点tpn加入C;
Step 9:结束;
其中,MaxDistance表示从轨迹中提取的连续特征点之间允许的最大距离,因为如果轨迹是一条直线段,则必须从这条直线段中挑选有代表性的点,且代表性的点之间距离不能超过该值;MinDistance表示如果两个连续轨迹点之间距离小于该值,则被视为是近似相同位置;MinStopDuration表示如果在近似相同位置停留的时间超过该值,则被视为运动中暂停点;MinAngle表示连续轨迹段之间的角度超过该值,则被视为一次转弯;
S212:特征轨迹点聚类;
输入:C=<p1...pn>,n为特征轨迹点提取算法中提取轨迹点的个数,其中每个特征轨迹点为pi=(lngi,lati);
输出:簇中心集合R;
其中,
step 2:根据lngmax、lngmin、latmax、latmin围成的城市矩形区域,划分为边长为MaxRadius的正方形网格,正方形网格可超出矩形边界;
step 3:遍历C中所有特征轨迹点,对于轨迹点pi=(lngi,lati),计算m=floor((lngi-lngmin)/MaxRadius),n=floor((lati-latmin)/MaxRadius),即根据步长向下取整寻找该点所属网格;
step 4:根据pi所属网格计算其位置相邻网格中,与pi点空间距离最小且大于等于MaxRadius的簇中心g,即寻找点g∈R使SD(pi,g)最小并且SD(pi,g)≥MaxRadius;若不存在,则将点pi加入到R中,返回上一步;
step 5:根据簇中心g所属所有特征轨迹点,重新计算簇中心gnew加入到R并删除g;
step 6:若所有特征轨迹点遍历完成,结束;
其中,MaxRadius表示出所划分区域的面积的大小;
S213:划分城市区域;
使用聚类簇群的质心作为Voronoi图的生成点;在边界附近和轨迹上没有特征点的区域引入额外的生成点,得到大小和形状更均匀的城市区域。
进一步的,步骤S22包括以下子步骤:
S221:轨迹建模;
将每个时间段轨迹数据汇集起来作为训练的原始数据,每条轨迹表示成区域转移序列,即将轨迹点之间的移动转化为城市区域之间的移动;每条轨迹构建成为区域编号的序列后,根据所有轨迹构建共现矩阵X,其中X每一个元素Xij表示区域stj在目标区域sti窗口内出现的次数,为共现矩阵中第i行的和,即在区域sti窗口内所有区域出现的总次数;Pij=P(j|i)=Xij/Xi表示区域stj出现在区域sti周围的概率;
S222:基于词嵌入技术分析区域关系;
共现矩阵X中的第i行j列的值Xij为目标词Wi与上下文词Wj在语料库中的共同出现次数,此处给出该模型损失函数:
f(x)定义为:
在Glove模型中,对目标词向量和上下文向量做区分,最后将两组词向量求和,得到最终的词向量;
其中参数bi、bj为可训练的参数,公式(3)表示公式(1)中损失函数的求解,而公式(4)所示对于模型训练处的词向量加上任意一个常数向量c后,由于偏置项bi、bj的调控,最终结果仍然会是损失函数的解;
基于相同语料库下不同模型训练出的同一维度词向量而言,Glove生成的词向量,噪声词的模长远大于Word2vec词向量的模长;
S223:基于相似性法则过滤共现矩阵;
假设有两个区域sta、stb,它们之间的关系可以在共现矩阵X中通过计算比率得出;
当区域sta与区域stb功能性相似,且也都与上下文区域stk相似时,
当区域sta与区域stb功能性不相似且差异较大,且sta或stb中一个区域与上下文区域stk相似时,
同时当区域sta与区域stb功能性不相似,且也都与上下文区域stk不相似时,也会得到与公式(5)相同的结论;根据公式(5)和公式(6)可以得出以下结论:
当区域sta与区域stb功能性不相似时,
根据公式(7)的结论,首先需要针对区域sta寻找与其相似性低的区域stb,由于区域与区域之间的相似性是基于余弦距离得出的,那么区域sta与区域stb相似性:
其中V(sta)、V(stb)表示区域sta、stb对应的向量;由分布式假设如果两个区域上下文差异性越大则它们的余弦距离越小;即当sim(sta,stb)<0的时候,区域stb为区域sta的不相似区域;当找到区域sta的不相似区域后,即可通过不相似区域结合公式(7)过滤出交通枢纽区域sthub;
即,过滤共现矩阵如下:
输入:根据上述生成的共现矩阵X输入Glove模型得到的词向量集合set(V);
输出:新共现矩阵Xnew;
其中,
Step 1:对于划分后的每个城市区域sti,计算相似性即余弦距离小于0的集合SETi;
Step 2:根据SETi中与区域sti相似度小于0的每个区域stc,根据公式(7)及其结论,寻找||Pik/Pck-1||<α的区域stk,其中α为自定义参数,并将区域stk标记为交通枢纽区域;
Step 3:当所有区域都计算完成后,共现矩阵X过滤出标记的交通枢纽区域stk,生成新的共现矩阵Xnew,结束;
S224:构建时段区域向量;
定义概率分布Qij,表示区域sti在区域stj轨迹中出现的概率,并假设Qij为softmax函数:
其中H(Pi,Qi)是分布Pi与Qi的交叉熵;交叉熵误差是度量概率分布之间差异性中的一个方法,使用最小二乘法度量概率分布之间差异性,忽略分布P与Q的归一化因子,此时Pij=Xij,并使用log函数最小化平方误差,此时目标函数为:
至此,公式(11)与最终目标函数公式(1)的区别仅仅在于更换Xi为加权函数并添加偏置项;采用AdaGrad梯度下降算法,对共现矩阵X中的所有非零元素随机采样;
S225:轨迹类比分析;
当采用DBSCAN聚类算法时;
其中存在两个关键的参数,其一邻域∈定义为对于任意一个点xi,其邻域内点的集合N∈(xi)={xk∈D|dist(xi,xk)≤∈},即xi邻域内所有点与xi的距离都不超过∈;其二Min_samples指当该点为聚类核心点时,该点邻域∈内至少应该存在Min_samples个样本点;
DBSCAN的是从样本中任意一点xi出发,根据∈及Min_samples作为条件判断该样本点是否为核心点,若为核心点则依照密度直达的方式寻找其邻域∈内所有样本点集合,并判断N∈(xi)的其他点是否为核心点,重复该步骤,直至寻找到所有由xi出发密度相连的点构成一个簇;当样本集中所有的点都归为某一簇,或该点已被判定属于非簇集合时,DBSCAN聚类算法结束;
当采用K-means算法时;
使用每个簇中所有样本的中心点当作聚簇中心,其中μi表示第i个簇的中心,xk表示属于该簇的第k个样本点的向量,n表示该簇样本点个数;
通过计算后,选取与聚类中心相似性最高的区域,映射到地图上。
进一步的,步骤S3包括以下子步骤:
S31:区域类别向量计算;
将区域类别划分为6个大类别,针对每一个区域,通过计算每个区域类型占比的类别向量来定义每个区域的功能性;
首先定义区域st的类别频率:
公式(13)中mi表示区域st中第i类区域类别的数量,Mi表示城市所有区域第i类区域类别的总数量;
每个区域的类别向量由每个类别的类别频率所占比重表示:
S32:可视化视图;
可视分析系统通过改进Glove模型生成的城市区域向量对城市区域进行探索,系统界面包含一组可交互的联动视图,分别为:全局概览视图、流量视图、地图、关联热力图、局部趋势视图,以及一个系统配置面板。
进一步的,步骤S32包括以下子步骤:
S321:全局概览图;
全局概览图的上半部分为投影视图,投影视图显示嵌入空间中位置的全局模式;使用t-sne降维技术将特定时段的区域向量投影成二维平面上的点集,二维点的着色越深代表该区域与其近邻区域之间平均相似性越高,二维点越大代表该区域与其k-近邻区域之间平均空间距离越高;
t-sne降维技术的原理是高维空间的区域向量使用高斯分布建模,并在低维空间使用t-分布进行重构;
如公式(15)和公式(16)所示,分布Pij由高斯分布建模将区域向量之间的相似性转换为概率形式,区域vi与区域vj之间的相似性由余弦相似性进行度量,分布Qij由t-分布建模,可将分布Pij和分布Qij之间的KL散度作为损失函数,通过训练得到区域vi在二维空间中的坐标xi;公式(15)中的σi可近似理解为区域vi附近参与高维相似性计算的有效区域个数;
S322:流量视图;
流量视图使用特定时段轨迹数据的静态统计信息;流量视图将每个区域位置编码为提取聚类中心的真实经纬度,同时归类到相应的行政区中并着色,彼此之间存在流入流出的区域予以连接,并在鼠标悬停指定区域时共同显示,同时也显示该区域在当前时段的流量信息;
S323:地图视图;
地图视图从真实空间的全局视角观察城市区域的地理位置分布;
S324:关联热力图;
联热力图展示多个区域之间的相互联系,并展示相似性及流量的时间变化;
S325:局部趋势视图;
局部趋势视图针对单一区域设计,展示该区域轨迹的流入流出方向以及流量,并在内部嵌入弦图展示所有经过该区域轨迹的流动模式;
S326:系统配置面板;
系统配置面板中用于调整参数,以及指定k-近邻参数、过滤矩阵算法,更新参数后将刷新系统界面,重新展示可视化视图。
与现有技术相比,本发明所具有的有益效果为:
本方案的创新点在于,从认知城市区域间关系的角度挖掘并分析城市人群移动模式,主要研究内容包括:(1)研究基于轨迹数据的城市区域划分方法,将城市地理空间划分成适当区域,将轨迹转换为区域之间的聚合流,为后续分析提供数据基础;(2)提出基于词嵌入技术的区域向量化模型,利用词嵌入技术,考虑结合城市位置和移动对象之间的相互作用,对城市区域进行向量化编码,根据区域间相似性来探索不同区域在轨迹中的位置信息和连接关系;(3)设计并开发分析区域向量和探索人群移动模式的可视分析系统,以区域向量空间为基础,通过可视化视图联动机制,支持分析者针对人群移动模式进行从全局概览、到局部分析、最后到上下文细节探索的推理过程。保障了本方法在辅助城市规划者进行相应交通决策时的适用性和有效性。
附图说明
图1是本发明具体实施方式的不同参数实验结果示意图。
图2是本发明具体实施方式的轨迹点提取结果示意图。
图3是本发明具体实施方式的聚类效果对比示意图。
图4是本发明具体实施方式的不同轨迹数据集的区域向量空间示意图。
图5是本发明具体实施方式的过滤交通枢纽区前后的区域向量空间对比示意图。
图6是本发明具体实施方式的轨迹数据集各时段统计信息示意图。
图7是本发明具体实施方式的轨迹聚类结果对比示意图。
图8是本发明具体实施方式的苏坡公交附近流动情况示意图。
图9是本发明具体实施方式的系统概览示意图。
图10是本发明具体实施方式的局部趋势示意图。
图11是本发明具体实施方式的全局概览示意图。
图12是本发明具体实施方式的交通枢纽区概览示意图。
图13是本发明具体实施方式的ID368火车站区域可视分析示意图。
图14是本发明具体实施方式的ID534成都理工区域关联分析示意图。
图15是本发明具体实施方式的交通枢纽区域ID531不同时段流量趋势与移动模式示意图。
图16是本发明具体实施方式的总体步骤示意图。
具体实施方式
下面结合本发明的附图1-16,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图16所示,提出一种基于轨迹分布表示的城市区域关系可视分析方法。基于位置感知设备收集的出租车轨迹数据,探索城市中人群移动模式,发现其中隐含的规律。本申请提取轨迹特征点划分区域,将轨迹建模为区域间的移动,研究基于词嵌入技术的轨迹分布表示模型方法,设计交互式的区域关系可视分析系统,为人群移动模式规律发现与分析提供有效手段。具体的研究内容如下:
(1)研究基于轨迹数据的城市区域划分方法。考虑到轨迹数据规模巨大、结构复杂,本申请将轨迹数据进行空间泛化和聚合,将城市地理空间划分成适当的区域,最终将轨迹转换为区域之间的聚合流。轨迹区域序列化的表示作为基于词嵌入技术的区域向量化模型的输入,最终应用于交互式可视分析。
(2)研究基于词嵌入技术的区域向量化模型。通过利用词嵌入技术,用向量化表示对城市区域进行编码,该方法考虑到了结合城市位置和移动对象之间的相互作用,通过将区域视为文本处理中的单词,轨迹视为句子,建立区域向量空间,帮助分析人员直观高效地感知人群移动模式的时变规律。
(3)研究分析区域向量和探索人群移动模式的可视分析系统。本申请设计并实现了一个支持对城市人群移动模式进行探索和分析的可视分析系统,该系统以区域向量空间为基础,通过使用可视化视图联动机制,支持从全局概览、到局部分析、最后到上下文细节探索的人群移动模式推理过程。
城市区域划分。
本申请城市区域划分方法基于城市出租车轨迹数据,从轨迹数据中提取特征轨迹点,并采用聚类算法根据其空间分布情况进行区域划分。城市空间被划分成单个区域,轨迹可被转化为区域之间的移动。通过该方法划分的城市区域不仅考虑了城市地理属性,同时也考虑了轨迹数据的移动模式。该方法可以概括为以下三个步骤:
从轨迹数据中提取特征点;
基于空间邻近性对特征轨迹点聚类;
提取聚类簇的中心点作为Voronoi图的生成点划分城市区域。
其中,特征轨迹点提取。
轨迹的特征点包括一条轨迹的起始点和终止点、转弯点和运动中的暂停点,以及如果轨迹包含长的直线段,也需要从中提取具有代表性的点。针对一条轨迹T,提取该轨迹的特征点集合算法过程如下:
该算法中有四个参数,其中MaxDistance表示从轨迹中提取的连续特征点之间允许的最大距离,因为如果轨迹是一条直线段,则必须从这条直线段中挑选有代表性的点,且代表性的点之间距离不能超过该值;MinDistance表示如果两个连续轨迹点之间距离小于该值,则被视为是近似相同位置;MinStopDuration表示如果在近似相同位置停留的时间超过该值,则被视为运动中暂停点;MinAngle表示连续轨迹段之间的角度超过该值,则被视为一次转弯。
图1为针对同一条轨迹,基于不同的MaxDistance与MinDistance参数设置得出的结果,图中展示了该轨迹部分区域,提取到的特征轨迹点由半透明圆表示。三个图设置的参数分别为(a)MaxDistance=2000m,MinDistance=100m;(b)MaxDistance=2000m,MinDistance=300m;(c)MaxDistance=1000m,MinDistance=300m;三次实验的MinAngle均为30°,MinStopDuration均为300秒。
可以由图1中左部特征轨迹点较为密集的区域看出,参数MinDistance的作用是为了忽略轨迹点之间的微小波动,由图右部直线段看出参数MaxDistance的作用为控制从没有明显转弯的轨迹段中提取的特征轨迹点的位置与数量,当MaxDistance较大时,直线轨迹段中提取的特征轨迹点位置较为稀疏,同时数量也较少。
图2为成都市某天13605条轨迹根据特征轨迹点提取算法共提取出11761001个特征轨迹点,参数设置为MaxDistance=2000m,MinDistance=100m,MinAngle=30°,MinStopDuration=300秒,每个特征轨迹点由透明度百分之十的圆圈表示,图中越亮的位置表示该位置特征轨迹点越多。可以发现,所提取中的特征轨迹点大多都在交通要道如十字路口上,或者是一些较为频繁的上下车地点,这些地点如火车站也是在城市中具有鲜明特征的。
从所有轨迹中提取特征点后的下一步是在空间中对特征轨迹点进行分组,使分组的空间范围近似于用于泛化的所需区域的面积。
其中,特征轨迹点聚类。
聚类算法能对特征轨迹点进行分组,然而目前比较流行的聚类算法并不能合理完成特征轨迹点分组工作。基于划分的聚类算法如K-means算法需要提前指定所需集群数量即区域数量,然而本申请划分区域的数量不是预先知道的。基于密度的聚类算法如DBSCAN可以生成任意形状范围的簇,而本申请希望划分出来的城市区域是由面积相近的凸多边形包围。
因此,本申请采用的聚类算法实现如下:
该算法中有一个参数MaxRadius,MaxRadius可以近似表示出所划分区域的面积的大小,本申请将MaxRadius设置为700m。如图3所示为都江堰市特征轨迹点聚类情况,不同颜色代表特征轨迹点所属的不同类簇,可以发现,由算法2(a)计算出来的结果与k-means算法(b)相比在空间上更为紧凑。如图3红框处所示,红框范围内的特征轨迹点之间较为紧凑,k-means算法由于质心设定不准确的原因,会将其分成很多段,而算法2由于边界阈值由MaxRadius确定,能够更好地控制每个簇的直径大小,所以算法2能更好地将紧凑的点聚为相同类别。
如表1所示,展示了k-means算法与本申请聚类算法之间关于聚类簇群的统计信息。可以看出,首先本申请算法-2各聚类簇中的特征轨迹点到质心的平均距离和最大距离相差不大,而k-means算法的与质心的最大距离较大;其次,基础的k-means算法得到的簇半径变化很大,比算法-2得到的簇半径大得多;最后,本申请聚类算法-2的集群的最大密度和平均密度都远高于k-means算法。产生差异的主要原因是,随着特征轨迹点规模的扩大,k-means对异常点较为敏感,而导致聚类簇之间的差异很大,聚类算法-2能很好地解决这个问题。
表1算法2与k-means指标对比
因此,聚类算法-2相比k-means算法而言,更符合的需求。能通过参数较为准确地控制划分后区域的大小,并且算法对异常点不敏感。
其中,划分城市区域。
为了适当地划分区域,使用聚类簇群的质心作为Voronoi图的生成点。还在边界附近和轨迹上没有特征点的区域引入额外的生成点,这使可以获得大小和形状更均匀的的区域,并且不会使区域边界无穷大。如果只使用群质心进行分割,而不进行上述的处理,就会导致一些生成的区域形成非常细长的形状,且面积比其他区域大得多。
有关新增点的添加规则是,一个新点只有在它与所有群质心足够远的情况下才会被添加,即当某位置距离最近的质心距离超过两倍的最大半径时,就在该位置添加新点,不断循环迭代直至无法添加新点为止。
Voronoi图的定义为,用X表示一个距离函数为d的空间(一个非空集合)。令K为一个指数集合,(Pk)k∈K为空间X的一个非空子集的有序元组。对应于Pk的Rk称为Voronoi原胞,或称Voronoi区域,是空间X中所有到Pk的距离不大于到其他位置Pj(j≠k)的点集。
对于某些特定情况,如有限维度的欧几里得空间,每一位点对应于一个点。这些点是有限且各异的,则Voronoi区域表现为凸多边形,由它们的顶点、边、二维面等的组合方式加以描述,引入所有的组合结构即被称为Voronoi图。建立泰森多边形算法的关键是对离散数据点合理地连成三角网,即构建Delaunay三角网。该空间分割方法在几何学、地理学、气象学、信息系统等许多领域有广泛的应用。
城市空间被划分单个区域后,区域将拥有属于自己的功能类别,具体基于城市POI数据的区域功能性识别方法,将在本申请后续详细说明,区域类别将会对人类移动模式的识别产生至关重要的作用。
基于F-Glove模型的区域向量化。
提出了一种基于轨迹上下文的城市区域向量化表示模型F-Glove,首先利用分布式假设原理将城市区域嵌入到一个连续的向量空间中,结合了城市区域与人群移动之间的相互作用;下一步,为了支持更好地分析人群的移动模式,本申请针对词嵌入模型存在的问题进行改进,生成新的区域向量,通过轨迹与区域向量相结合计算出的轨迹向量空间证实了方法的有效性。
其中,轨迹建模。
收集了2018年8月3日至2018年8月30日成都市出租车轨迹数据,数据格式如表2所示,每个轨迹点具有五种属性:出租车编号、轨迹点GPS采样时间、经度、维度、以及轨迹点所在区域编号,时间全部在上午六点至夜晚零点之前,共18小时的范围。
首先将一天中18小时的数据分成6个时间段,每个时间段包含3小时的数据,并将每个时间段出租车的载客轨迹汇集起来作为训练的原始数据,每条轨迹表示成区域转移序列,即将轨迹点之间的移动转化为城市区域之间的移动。
表2出租车轨迹数据示例
每条轨迹构建成为区域编号的序列后,根据所有轨迹构建共现矩阵X,其中X每一个元素Xi表示上下文区域stj在目标区域sti窗口内出现的次数,其中本申请将窗口大小设置为10,即在一段区域序列中,目标区域前面10个区域和后面10个区域将称为上下文区域。为共现矩阵中第i行的和,即在区域sti窗口内所有上下文区域出现的总次数。Pij=P(j|i)=Xij/Xi表示区域stj出现在区域sti周围的概率。
其中,基于词嵌入技术分析区域关系。
Glove模型是一种针对“词-上下文”共现矩阵X进行矩阵分解而得到词向量的方法。共现矩阵X中的第i行j列的值Xij为目标词Wi与上下文词Wj在语料库中的共同出现次数,此处给出该模型损失函数:
其中|V|为词典的大小,在本申请中即为区域总个数,wi为目标词的词向量,为上下文词的词向量,bi与bj为共现矩阵X行和列的偏移值,f(x)是针对语料库中的低频词,为减少低频噪声带来的误差而设计的加权函数,并且针对其中的参数α与xmax原论文作者给出了经验值,分别为100和0.75。
f(x)定义为:
在Glove模型中,对目标词向量和上下文向量做了区分,并且最后将两组词向量求和,得到最终的词向量。
本申请即按Glove模型的原理将轨迹中的区域记录编码为具有时空属性的词汇,以实现对人群移动的态势感知分析。如图4所示,每个区域都被编码成一个带数字的圆圈。展示了拥有相同人口流动的两个不同的轨迹数据集计算出的区域向量结果,区域3均作为连接枢纽的区域,而数据集(a)的移动趋势是由区域1到区域3、区域2到区域4;数据集(b)的移动趋势是区域1到区域4、区域2到区域5。可以发现,尽管人口流动相同,但两个轨迹数据集由于位置关系不同,因此区域在向量空间分布差异很大,比如针对数据集(a)而言区域1、5之间,区域2、4之间距离较近,针对数据集(b)而言区域1、4之间,区域2、5之间距离较近。正是由于区域向量的计算考虑到了区域位置与轨迹的上下文之间的相互影响所以得出了有助于分析人员探索区域关系的向量空间结果。
不过依然发现区域向量存在一些问题,首先无论训练拟合程度多高,诸如数据集(a)中的区域1、5和区域2、4之间、数据集(b)中的区域1、4和区域2、5之间的区域向量依然存在较高的差异性;其次针对如同区域3的交通枢纽区域,其存在是会影响模型训练结果的,同时此类连接枢纽由于特征明显,因此该类区域也不是分析人员着重关注的区域。为了解决以上的问题,本申请将从Glove模型原理上给予向量训练规则的改进。
Glove模型本质上是利用了语料库的词频统计数据,即目标词在指定大小窗口内与上下文词之间的共现频率。Glove模型发现了这样一种关系,对于比值Pik/Pjk而言,当上下文词k与目标词i和目标词j都相关或都无关时,比值Pik/Pjk≈1;当上下文词k与目标词i相关但和目标词j无关时,则比值Pik/Pjk>>1;当上下文词k与目标词i无关但和目标词j相关时,比值Pik/Pjk<<1。
如表3所示,当目标词i=apple、j=banana、上下文词k=fruit时,比值p(fruit|apple)/p(fruit|banana)趋近于1,表示apple与banana两词有着较高的相似度。同理当j=guitar时,p(fruit|apple)/p(fruit|guitar)远大于1,原因是单词apple的上下文会经常出现fruit而单词guitar的上下文几乎不可能出现fruit,由于分布式假说,fruit能够代表apple的语义却不能代表guitar的语义。
但是语料库中的部分词如is、the、of等,既不能代表apple、banana等水果类别的语义,也不能代表guitar等乐器类别的语义,此类单词属于噪声单词,会严重影响模型的训练时间和训练质量。
表3目标词概率关系
本模型中噪声词严重干扰模型训练结果的原因在于模型中参数bi、bj也是可训练的参数,这会带来一个严重的问题,公式(3)表示公式(1)中损失函数的求解,而如公式(4)所示对于模型训练处的词向量加上任意一个常数向量c后,由于偏置项bi、bj的调控,导致最终结果仍然会是损失函数的解。这说明,一旦在每个词的词向量上加上一个特别大的常数向量,那么所有词向量之间的差异性就会非常小,从而将失去词向量的意义。
在实践中可发现,基于相同语料库下不同模型训练出的同一维度词向量而言,Glove生成的词向量,噪声词的模长远大于Word2vec词向量的模长。因此如果能有效处理这些噪声词,模型的词向量质量将会得到进一步提高。如图5所示,每个区域同样都被编码成一个带数字的圆圈,图5(a)和图5(b)均使用同一轨迹数据集,可以发现,针对图5(b)将类似于文本处理中的系动词“is”相同作用的连接枢纽区域3过滤后,区域向量的质量得到了明显地提升,区域1和区域5之间,以及区域2和区域4之间的相似性更高,高质量的区域向量结果更有助于进行下一步的分析任务。
其中,基于相似性法则过滤共现矩阵。
根据公式(3)与公式(4)及其结论,可知有效过滤出噪声词是很有必要的。在文本处理中,所谓噪声词多为语言停止词(如系动词is、定冠词the、介词of等)、URL或链接、标点符号、特定行业词汇等,移除这些噪声词通用的做法是准备一个噪声实体的词典,在文本对象上逐词迭代,以此消除在噪声词典中出现的词语。
然而针对本申请工作而言,将区域向量化的目的在于使用区域向量之间的余弦距离来表示区域之间的相似性,如果两个区域经常出现在同一条轨迹之中,它们在模型中训练出的向量空间中的区域向量之间的相似性也就越高,这种方式能保留区域间的空间关系并同时能挖掘隐含移动模式,因此每个区域都是有意义的。所谓的噪声区域则与文本处理中的语言停止词相似,即在所有轨迹中多次出现于其他区域上下文中,本申请将这种区域称之为交通枢纽区。
交通枢纽区的主要特点是,多条几乎毫无相关的轨迹,拥有不同起点与终点,但是却将不可避免地经过该交通枢纽区,交通枢纽区域中往往包含十字路口、道路收费站等对于某些轨迹而言的必经之路,通过Glove模型训练后,其他区域则理所应当地与交通枢纽区域有着较高的相似度,可知如果不能很好地过滤交通枢纽区域,将严重影响生成区域向量的质量。
现假设有两个区域sta、stb,它们之间的关系可以在共现矩阵X中通过计算比率得出。可得出以下结论:
当区域sta与区域stb功能性相似,且也都与上下文区域stk相似时,
当区域sta与区域stb功能性不相似且差异较大,且sta或stb中一个区域与上下文区域stk相似时,
同时当区域sta与区域stb功能性不相似,且也都与上下文区域stk不相似时,也会得到与公式(5)相同的结论。根据公式(5)和公式(6)可以得出以下结论:
当区域sta与区域stb功能性不相似时,
根据公式(7)的结论,首先需要针对区域sta寻找与其相似性低的区域stb,由于区域与区域之间的相似性是基于余弦距离得出的,那么区域sta与区域stb相似性:
其中V(sta)、V(stb)表示区域sta、stb对应的向量。由分布式假设知道如果两个区域上下文差异性越大则它们的余弦距离越小。即当sim(sta,stb)<0的时候,区域stb为区域sta的不相似区域。当找到区域sta的不相似区域后,即可通过不相似区域结合公式(7)过滤出交通枢纽区域sthub。
为了能够过滤出共现矩阵中的交通枢纽区域,提高区域向量的训练质量,并加快区域向量的训练效率,本申请过滤算法如下:
该算法中有一个参数α,α主要影响被标记为交通枢纽区的区域个数,α设置较小时对于词向量的训练质量影响较小,但如果α设置过大,区域向量的准确性则会有所降低。
其中,构建时段区域向量。
F-Glove模型由于存在对初始共现矩阵进行过滤操作,因此针对每一时段将会进行两次区域向量的训练。第一次基于原始共现矩阵X,训练出未标记交通枢纽区域的词向量集合set(V),第二次则是根据算法-3过滤出交通枢纽区域的新共现矩阵Xnew,重新计算每个区域在该时段的区域向量。
虽然该模型属于不需要人为地标注标签的无监督学习,然而如公式(1)所示标签实质上存在且值为logXij。此处定义概率分布Qij,表示区域sti在区域stj轨迹上下文中出现的概率,并假设Qij为softmax函数:
其中vi表示目标区域向量,表示目标区域的上下文区域向量。概率分布Qij的定义与文中共现矩阵Xij类似,由于Xi=∑kXik,则Pij=Xij/Xi,因此训练方式本质上跟监督学习是相同的,都是基于梯度下降的方式,目标函数则为:
其中H(Pi,Qi)是分布Pi与Qi的交叉熵。交叉熵误差是度量概率分布之间差异性中的一个方法,然而交叉熵误差存在缺陷,即对于长尾分布的建模通常很差,导致对低概率事件给予较高权重。因此使用最小二乘法度量概率分布之间差异性,忽略分布P与Q的归一化因子,此时Pij=Xij,并使用log函数最小化平方误差,此时目标函数为:
至此,公式(11)与最终目标函数公式(1)的区别仅仅在于更换Xi为加权函数并添加偏置项。接下来,即可采用AdaGrad梯度下降算法,对共现矩阵X中的所有非零元素随机采样,本申请将学习曲率设为0.01,区域向量的维度设置为50,窗口大小设置为10,迭代100次,在第一次训练完成后,通过本申请算法-3过滤共现矩阵后将会再进行一次相同超参数的训练。
最终针对区域sti得到的是两个区域向量是目标区域vi和上下文区域向量由于初始化时值不一样,而导致最终的值不一样,实际上这两者其实是等价的,都可以作为最终的区域向量结果。为了提高最终结果的鲁棒性,本申请选择作为目标区域sti区域向量,算法-3过滤共现矩阵后,新计算的区域向量同理。区域之间的相似性即使用公式(8)余弦距离计算。
其中,轨迹类比分析。
使用了某一时段的轨迹向量对训练的区域向量结果进行评估,所谓轨迹向量即是由区域向量的加和并对该轨迹长度取平均而得的向量。本申请搜集了2018年8月1日至2018年8月30日成都市出租车轨迹数据,每日分成6个时段,每个时间段包含3h的数据,并统计这一个月来工作日及周末每个时间段的平均每天轨迹数量。从图3-6可知:首先,休息日出租车的轨迹数量均大于工作日,这是由于工作日大部分都忙于工作或学习,无暇外出;其次,在工作日9点-12点时间段以及18点-21点时间段为早高峰与晚高峰,轨迹数量最高,休息日则变化不显著;最后,针对于休息日,人们多选择临近中午或下午的时候外出进行娱乐等行为。
为了更好地验证F-Glove模型训练出的区域向量特异性更明显,选择工作日与休息日的9点-12点时段的轨迹进行实验。
由于训练产生的区域向量难以显式地验证本申请F-Glove模型的有效性,因此本申请使用区域向量构建而成的轨迹向量间接地展示实验效果。轨迹向量可表示该轨迹在区域之间的移动情况,但是获取所有轨迹来展示区域之间的移动模式是不现实的,由于相似的区域向量在向量空间中的距离比较近,轨迹向量也同理,因此本申请选择使用DBSCAN算法对轨迹向量进行聚类,然后通过K-means算法计算每个簇的簇中心,通过选择距离簇中心向量最相似的区域向量的位置定义为该簇的区域移动特征,以下为方便表述,均将计算出的区域近似称为簇中心。
DBSCAN是一个比较有代表性的基于密度的聚类算法,该算法能够将足够高密度的区域划分成簇。DBSCAN不需要指定聚类簇数,算法中存在两个关键的参数,其一邻域∈定义为对于任意一个点xi,其邻域内点的集合N∈(xi)={xk∈D|dist(xi,xk)≤∈},即xi邻域内所有点与xi的距离都不超过∈;其二Min_samples指当该点为聚类核心点时,该点邻域∈内至少应该存在Min_samples个样本点。
DBSCAN的核心思想是从样本中任意一点xi出发,根据∈及Min_samples作为条件判断该样本点是否为核心点,若为核心点则依照密度直达的方式寻找其邻域∈内所有样本点集合,并判断N∈(xi)的其他点是否为核心点,重复该步骤,直至寻找到所有由xi出发密度相连的点构成一个簇。当样本集中所有的点都归为某一簇,或该点已被判定属于非簇集合时,DBSCAN聚类算法结束。
而K-means算法中计算每个簇簇中心的方法较为简单,使用每个簇中所有样本的中心点当作聚簇中心即可,其中μi表示第i个簇的中心,xk表示属于该簇的第k个样本点的向量,n表示该簇样本点个数。
通过计算后,选取与聚类中心相似性最高的区域,映射到地图上。如图7(a)所示为未经过滤交通枢纽区域时计算出的簇中心区域,图7(b)则是经过运算后,计算出的簇中心区域。可以发现,经过过滤共现矩阵这一步后,得出的簇明显增多,说明轨迹更加具有特异性,同时也说明了区域更加具有特异性,相似区域之间的相似性更高,不相似区域之间的差异性更高。
另一方面,位于苏坡立交区域的差异引起了的关注。如图8所示,图8左为在苏坡立交区域附近区域,经本申请F-Glove模型计算轨迹向量得出的簇中心,图8右为标准Glove模型计算轨迹向量得出的簇中心,Word2vec模型计算出的结果与其相似,在此仅仅讨论与标准Glove模型的对比。
首先在F-Glove模型中,苏坡立交区域被认定为交通枢纽区域,因此不具备自己的区域向量,在计算轨迹向量时不参与计算,周围有很多簇中心,而标准Glove模型中周边区域只有苏坡立交区域作为簇中心。在详细观察苏坡立交附近的轨迹后发现,该立交桥只有以东向南行进至客运站的轨迹,以及以南向北向武清桥方向行进的轨迹,如图8左与图8右所示,茶店子客运站区域、草金立交区域均被识别为簇中心,这证明了经过F-Glove模型计算出的轨迹向量,经聚类后能区分出具有不同特征轨迹。
在自然语言处理中,如果对一句话中的每个单词的词向量求平均值,那么这个向量也能表示句子的意思。对应到本申请中,如果不过滤交通枢纽区域,轨迹中仅仅保留了交通枢纽区域的强特征,导致经过交通枢纽区域的轨迹全部具有相同特征,而如果将交通枢纽区域过滤后,轨迹将更具有特异性,因此可以说明经F-Glove模型计算的区域向量与标准Glove与word2vec计算出的区域向量相比,区域向量的质量得到了提高。
即,针对出租车轨迹数据通过使用本申请改进后的Glove模型输出区域向量的整体流程进行了详细介绍。针对出租车轨迹数据提取轨迹点,并将轨迹特征点依据空间邻近性进行聚类,依据聚类簇中心生成Voronoi图区域,所生成的Voronoi图区域即为划分后的城市区域,此方法划分的城市区域既考虑了地理位置,同时也考虑了轨迹的移动模式。城市划分为Voronoi图区域后,将原始轨迹数据进行建模,将轨迹数据构建成每条轨迹经过的区域序列,将区域编号视为单词,每条轨迹视为句子,所有轨迹视为语料库构建共现矩阵X输入Glove模型进行第一次训练。下一步根据本申请定义的交通枢纽区域的特征过滤共现矩阵,将新的共现矩阵Xnew输入Glove模型进行第二次训练,得到每个区域的最终向量,用于下一步的分析任务。
(3)基于区域关系探索移动模式的可视分析系统
在得到区域向量化表示后,本申请将基于区域向量空间分布设计一组可视化视图,用以进一步理解研究城市区域间的关系,挖掘人类移动模式。本申请将可视分析系统的分析任务总结如下:
1.全局模式认知(T1)。城市区域地理空间的分布以及向量空间的分布都应从全局的视角得到观察,同时由于城市区域在向量空间中的分布蕴含了车辆在区域之间的移动情况,因此与地理空间的分布相结合能有助于用户发现人类移动模式的规律性与异常情况。
2.区域关联认知(T2)。通过计算区域间的相似性可以得到城市区域之间的关联程度,同时由于人类行为的变化,区域相似性因此也会随着时间的推移而改变,用户可以通过研究不同区域间相似性随着空间和时间变化的过程从而探索局部细节。
3.移动模式认知(T3)。研究人类移动和区域之间的相互作用是本申请的核心目标之一。由于用户需要理解每个区域在轨迹中扮演的角色,因而需要将区域功能信息与区域向量相结合,以帮助用户理解人类移动模式。
其中,区域类别向量计算。
城市兴趣点POI(point of interest)指与人们生活工作有密切关联的地理实体,如饭店、医院、火车站等,每个POI包含了名称、类别、坐标。每个区域内都存在着大量的POI,这些POI有助于对区域的功能性进行识别。
本申请所使用的POI数据共有13个大类别,每个大类别也有着二级分类和三级分类。为了降低可视化视图及分析任务的复杂性,统一将所有的POI划分为6个大类别,分别是:工作相关、住宿相关、教育相关、娱乐相关、医疗相关、交通相关。针对每一个区域,可以通过计算每个区域POI类型占比的类别向量来定义每个区域的功能性。
首先定义区域st的类别频率:
公式(13)中mi表示区域st中第i类POI的数量,Mi表示城市所有区域第i类POI的总数量。
每个区域的类别向量由每个类别的类别频率所占比重表示:
可视化视图。
可视分析系统支持通过改进Glove模型生成的城市区域向量对城市区域进行探索,并能支持提出的三个分析任务,系统界面包含一组可交互的联动视图,分别为:全局概览视图、流量视图、地图、关联热力图、局部趋势视图,以及一个系统配置面板。
其中,全局概览图。
全局概览图如图9(a)所示,上半部分为投影视图,投影视图显示了嵌入空间中位置的全局模式。使用t-sne降维技术将特定时段的区域向量投影成二维平面上的点集,二维点的着色越深代表该区域与其k-近邻区域之间平均相似性越高,二维点越大代表该区域与其k-近邻区域之间平均空间距离越高。
t-sne降维技术的原理是高维空间的区域向量使用高斯分布建模,并在低维空间使用t-分布进行重构。
如公式(15)和公式(16)所示,分布Pij由高斯分布建模将区域向量之间的相似性转换为概率形式,区域vi与区域vj之间的相似性由余弦相似性进行度量,分布Qij由t-分布建模,可将分布Pij和分布Qij之间的KL散度作为损失函数,通过训练得到区域vi在二维空间中的坐标xi。公式(15)中的σi可近似理解为区域vi附近参与高维相似性计算的有效区域个数。t-sne降维技术优先选择保持局部结构而忽略全局结构,更倾向于生成簇结构。
全局概览图的下半部分为统计柱状图,统计了每个区域与其k-近邻个区域之间的平均余弦相似性与平均空间距离情况,两项指标都进行了归一化操作,在横轴从左到右映射了从0到1的分箱(Bin),柱形的高度则代表符合该Bin指标范围的区域数量。统计柱状图在未刷选投影视图中二维点的情况下展示所有区域的全局统计信息,在刷选一些点后,会重新显示当前刷选点的统计信息而不是全局统计信息。
通常情况下,区域向量之间相似性越高,其空间位置也越邻近,不过也会存在一些空间位置较远的区域之间同样拥有较高的相似性。通过这样的设计,用户能清晰地发现一些感兴趣的区域,这些区域与k-近邻个区域之间平均相似性较高并且平均距离却较远。
其中,流量视图。
流量视图如图9(b)使用了特定时段轨迹数据的静态统计信息。本申请流量视图将每个区域位置编码为算法2中提取聚类中心的真实经纬度,同时归类到相应的行政区中并着色,彼此之间存在流入流出的区域予以连接,并在鼠标悬停指定区域时共同显示,同时也显示该区域在当前时段的流量信息。
流图是时空数据可视化的关键手段,适合本申请的大规模群体移动数据。由于行政区是依据地域划分的,用户可以通过流量视图观察特定区域的交通位置、流量信息等。
其中,地图视图。
如图9(c)所示,地图视图可从真实空间的全局视角观察城市区域的地理位置分布。用户可从全局概览中的投影视图刷选区域,所刷选的区域将在地图中显示为红色;用户也可以从流量视图或者直接在地图中点选来选择单一区域,所选择的单一区域将在地图中显示为蓝色,同时该区域的关联热力图和局部趋势视图也在系统界面中更新;在图9(d)中的系统配置面板中更新本申请算法3的过滤矩阵算法参数α后,能将过滤出的交通枢纽区域在地图中显示为黄色表示。
用户可以通过地图视图真实地研究人群移动模式,并能根据地图中区域内POI、交通道路等判断轨迹行为动机,挖掘潜在信息。
其中,关联热力图。
如图9(e)所示,关联热力图展示了多个区域之间的相互联系,并展示了相似性及流量的时间变化。在地图视图或流量视图中选择一个区域后,关联热力图会显示所选区域与其5个相似性最相近的区域之间的关系。该视图纵轴标识5个相近区域,横轴表示时间的推移,5个相近区域在各个时段的相似性及流量。k-近邻的数值可以在图9(d)中的系统配置面板中调节,默认为5。矩形颜色编码表示为该相近区域在6个时间段与所选区域之间相似性的大小,贯穿6个方格的折线表示该区域与所选区域之间的流量大小。
用户可以通过关联热力图清晰地识别感兴趣的时段或区域,并能立即发现两区域间相似性与流量在相邻时段发生剧烈变化的异常事件。
其中,局部趋势视图。
如图9(f)所示,本申请的局部趋势视图针对单一区域设计,能够展示该区域轨迹的流入流出方向以及流量,并在内部嵌入弦图展示了所有经过该区域轨迹的流动模式。
为了给予用户直观清晰的认知,本申请将局部趋势视图设计为圆形,并能计算每一条流入或流出该区域轨迹的行进角度,角度是由轨迹与区域边界点的经纬度与区域中心的经纬度组成的向量与水平纬度线之间计算的粗略角度,角度可以直观展示轨迹流入或流出的方向,并且在圆环外部补充了热力柱形图,颜色和高度均为该方向流入或流出量的大小,红色外环柱形表示流出,蓝色内环柱形表示流入。
内部的弦图反映了经过该区域轨迹的移动模式,计算了每个区域的类别向量,通过每条轨迹的起始区域的类别向量cO和终点区域类别向量cD,计算该区域的模式转移矩阵加和:
由公式(17)计算出的模式转移矩阵及作为弦图的输入数据,M为6×6的矩阵,其中Mij表示起点为类别i且终点为类别j的转移量。如图10所示,交通-住宅模式的转移量比住宅-交通模式的转移量大,因此弦图中交通与住宅之间的连线由交通模式的颜色进行着色,为了消除弦图中的视觉混乱效果,本申请在弦图中增加了鼠标悬停特效,使所悬停转移模式的连线不透明度较高,其他转移模式的连线不透明度较低。
用户可以通过局部趋势视图判断经过该区域轨迹的目的性,进而分析该区域在轨迹中扮演的角色,以及与其他视图结合分析人群移动模式的变化规律。
其中,系统配置面板。
在系统配置面板中,用户可以调整参数,比如日期、时段,用以研究区域动态变化。用户还可以指定k-近邻参数、过滤矩阵算法,更新参数后将刷新系统界面,重新展示可视化视图。
案例分析
收集并处理了2018年成都市出租车轨迹数据和成都市POI数据,利用本申请方法从不同视图的角度分析结果。
全局概览
首先,在嵌入空间中探索区域向量的全局概览模式(T1)。如图11(a)和(b)所示,在全局概览视图中框选一片区域,无论框选的是一团簇还是一片邻近二维点集,嵌入空间中距离相近的区域在地理空间上也保持相近,这表明区域向量空间保留了地理相似性。如图11(c)所示,在此次框选的区域中发现有一个区域在嵌入空间并没有与地理空间邻近的区域保持在一起,为了深入研究该区域出现的异常情况,在流量视图中进行调查,发现在当前时段中该区域没有轨迹经过,而该区域周边的一些区域均有轨迹经过,因此造成了该区域的区域向量与周边区域之间相似性低的情况,这表明了区域向量空间蕴含了人类的移动过程,不同区域之间是通过轨迹上下文建立联系。
下一步将从真实地图角度观察经过算法3得到的交通枢纽区的情况。如图12所示,将α设置为一个比较低的值0.1,这样能够在提高区域向量质量的同时避免过滤出的交通枢纽区过多,影响分析任务。发现,过滤出的交通枢纽区域存在高速公路入口(图12A区域)或城区十字路口(图12B区域),这些区域通常是轨迹通往目的地的必经之路,承担区域之间的连接作用,因此过滤出的交通枢纽区与预定的假设符合,这些区域通常在轨迹中多次出现于其他区域的上下文中。
远距离区域关联性分析
火车站是城市的重要交通枢纽之一,人们通常在此处集结、转运。同时火车站地处市中心,交通资源丰富,与火车站相关的轨迹具有较高的研究价值。本申请选择成都南站入站口与出站口所在的ID368的区域作为研究对象,时间为默认的凌晨时间段,ID368区域下文简称火车站区域。
首先观察到全局概览视图存在一些面积较大且颜色较深的点,火车站区域恰好也属于此类点,此类点的特点是该区域与其相似度较高的区域之间地理空间位置较远,是值得进一步分析原因的区域。下一步观察火车站区域的关联热力图,查看火车站区域与其他区域之间的关联情况(T2)。如图13(A)所示,可以发现以下信息:ID178区域与火车站区域地理位置较远,但是在每个时间段与火车站区域之间的流量都很高,并且与火车站区域之间的相似性较高且随时间变化不明显。通过上述信息可以得出,在每个时段都存在大量轨迹同时经过ID178区域和火车站区域,导致ID178区域和火车站区域在每个时段都有较高的相似性。
接下来为了从功能性角度了解ID178区域,从地图视图中观察ID178区域的真实情况,可以注意到ID178区域存在一个重要的POI即成都双流国际机场,同火车站一样都是城市的重要交通枢纽之一,都属于交通类别的区域,它们之间的联系非常密切,以下将ID178区域简称为机场区域。
最后想从火车站区域和机场区域中挖掘隐含的人群移动模式(T3),将进一步观察图13(B)中火车站的局部趋势视图,由于火车站区域属于交通类别区域,首先关注交通类别的移动模式,单从观察交通类别圆弧可以发现以下两点:第一,交通-交通移动模式转移量占比大,即经过火车站区域的轨迹大多是从交通类别的区域作为起点,目的地也是交通类别的区域;第二,交通类别流入量低于流出量,即经过火车站区域的轨迹大多从其他类型的区域前往交通类型的区域。
通过以上关于火车站区域人群移动模式的信息与火车站区域和机场区域之间的关联信息,可以得出,在每个时间段火车站区域和机场区域之间的流量都很大,这是因为每个时间段都有大量乘客乘坐出租车从火车站前往机场或从机场前往火车站,导致ID368火车站区域与ID178机场区域在轨迹上下文中有着较强的联系,从而出现了两者相似性一直很高的情况。
校园人群移动模式分析
在此次案例分析选择ID534成都理工大学区域的休息日进行分析,一方面由于此区域附近存在交通枢纽区域,具有流动量大的特点;另一方面此区域附近的人群类型大多数是学生,可以有针对性地分析学生的移动模式,以下将ID534区域简称为成都理工区域。
首先,在系统配置面板中选择下午时间段,首先观察成都理工区域在该时段的区域关联情况(T2),关联热力图展示了该时间段与成都理工区域相似度最高的5个区域如图14(A)所示。其中如图14(B)所示ID1688区域的相似性时序变化引起了极大的关注,因为该区域在当前时段与成都理工区域之间流量骤增,且在清晨时间段与成都理工区域的相似性小于零,这说明该区域有可能解释学生移动模式的时序变化,将成都理工区域与ID1688区域之间的联系作为重点关注对象。
接下来从地图视图中观察ID1688区域的真实情况,可以观察到ID1688区域包含一个重要POI即熊猫体育公园,且周边也存在一些娱乐、饮食场所,该区域属于典型的娱乐相关区域,因此做出初步假设:在周日白天,大量学生会从学校出发去ID1688区域娱乐。
为了验证的假设,选择成都理工区域附近的ID531交通枢纽区域的局部趋势视图验证该学校学生的移动模式(T3)。交通枢纽区域在第二次Glove模型训练时被过滤,因此交通枢纽区域不存在区域向量,不过交通枢纽区域的局部趋势视图却有更好的参考价值,因为它能够准确地反映出周边区域的大体流量走势与移动模式。
清晨时段ID531交通枢纽区域的局部趋势视图如图15(a)所示,下午时段ID531交通枢纽区域的局部趋势视图如图15(b)所示,发现,清晨时段该区域北部的出流和入流都比较低,而在下午时段北部的流量得到了显著地提高。通过进一步观察移动模式,发现清晨时段教育-娱乐的转移量几乎没有,而在下午时段教育-娱乐的转移量很高且多数以教育为起点前往娱乐区域。
由于ID531交通枢纽区域属于人群密集区域,经过该路段的轨迹对周围区域的人群移动模式具有很强的代表性,同时综合成都理工区域与ID1688之间的区域关联情况,可以得出结论:在休息日下午时段是成都理工大学外出娱乐的高峰期,同时ID1688的熊猫体育公园是一个重要的娱乐地点,成都理工大学与该区域之间在下午时段关联性很强。
综上所述,提出了一种基于轨迹分布的城市地理区域向量化表示方法,以支持城市交通和交通信息的分析。该方法包含对于基于轨迹数据对城市空间划分的方法,用以轨迹建模,以及利用F-Glove模型将区域向量化。F-Glove模型考虑到了共现矩阵的特点,基于标准Glove的概率法则过滤出交通枢纽区域,该方法可以在提高区域向量的基础上缩短训练时间,并且更好地捕捉轨迹中区域的特征信息。本申请依据生成的区域向量设计了基于区域关系探索移动模式的可视分析系统,该系统支持从全局到局部的人群移动模式递进式分析,将方法应用在2018成都市出租车的真实轨迹数据集,结合远距离区域关联分析及特定人群的移动模式分析,证明了的方法在辅助城市规划者进行相应交通决策时的适用性和有效性。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (5)
1.基于轨迹分布表示的城市区域关系可视分析方法,其特征在于,包括以下步骤:
S1:基于轨迹数据的城市区域划分方法;
考虑轨迹数据的规模、结构,将轨迹数据进行空间泛化和聚合,将城市地理空间划分成各个区域,最终将轨迹转换为各个区域之间的聚合流,即为轨迹区域序列化的表示,并且轨迹区域序列化的表示作为基于词嵌入技术的区域向量化模型的输入;
S2:建立基于词嵌入技术的区域向量化模型;
通过利用词嵌入技术,用向量化表示对城市区域进行编码,考虑结合城市位置和移动对象之间的相互作用,通过将城市区域视为文本处理中的单词,轨迹视为句子,建立区域向量化空间;
S3:分析区域向量和人群移动模式的可视分析系统;
以区域向量化空间为基础,通过使用可视化视图联动机制,支持从全局概览到局部分析,最后到细节分析人群移动模式;
步骤S1包括子步骤S21,
S21:城市区域划分;
城市区域划分方法基于轨迹数据,从轨迹数据中提取特征轨迹点,并采用聚类算法根据其空间分布情况进行区域划分;城市空间被划分成单个区域,轨迹可被转化为区域之间的移动;
步骤S2包括子步骤S22,
S22:基于F-Glove模型的区域向量化;
提出基于城市区域向量化表示模型F-Glove,首先利用分布式假设原理将城市区域嵌入到一个连续的向量空间中,结合城市区域与人群移动之间的相互作用;针对词嵌入模型进行优化,生成新的区域向量,通过轨迹与区域向量相结合计算出的轨迹向量空间。
2.如权利要求1所述的基于轨迹分布表示的城市区域关系可视分析方法,其特征在于,步骤S21包括以下子步骤:
S211:从轨迹数据中提取特征点;
输入:T=<tp1...tpn>,tpi=(lngi,lati,ti)其中tpi表示该轨迹某时间戳的轨迹点,n表示轨迹点个数(n≥2),ti表示对应轨迹点的时间戳,lngi与lati表示对应时间戳的经纬度;
输出:特征点集合C;
其中,
Step 2:定义j=i+1;
Step 3:若j≥n则进行Step 8,否则下一步;
Step 4:计算tpi与tpj空间距离SD(i,j),若SD(i,j)≥MaxDistance,则将tpj加入特征点集合C,令i=j并返回到Step 2,否则进下一步;
Step 5:在j+1与n之间寻找Min(k),使得SD(j,k)≥MinDistance,若存在k则下一步,否则进行Step 8;
Step 6:计算tpj与tpk时间差异TD(j,k),若TD(j,k)≥MinStopDuration,则将tpj加入特征点集合C,并令i=j,j=k,返回到Step 3;否则计算tpj与tpk之间的平均位置tpp(lngave,latave),寻找tpm使得SD(m,p)最小,令j=m进行下一步
step 7:计算角度,ANGLE=(<(lngi,lati),(lngj,latj)>,<(lngj,latj),(lngk,latk)>),若ANGLE≥MinAngle则将tpj加入C,并令i=j,j=k,否则令j=j+1;该步执行完毕后返回step3;
Step 8:将轨迹点tpn加入C;
Step 9:结束;
其中,MaxDistance表示从轨迹中提取的连续特征点之间允许的最大距离,因为如果轨迹是一条直线段,则必须从这条直线段中挑选有代表性的点,且代表性的点之间距离不能超过该值;MinDistance表示如果两个连续轨迹点之间距离小于该值,则被视为是近似相同位置;MinStopDuration表示如果在近似相同位置停留的时间超过该值,则被视为运动中暂停点;MinAngle表示连续轨迹段之间的角度超过该值,则被视为一次转弯;
S212:特征轨迹点聚类;
输入:C=<p1...pn>,n为特征轨迹点提取算法中提取轨迹点的个数,其中每个特征轨迹点为pi=(lngi,lati);
输出:簇中心集合R;
其中,
step 2:根据lngmax、lngmin、latmax、latmin围成的城市矩形区域,划分为边长为MaxRadius的正方形网格,正方形网格可超出矩形边界;
step 3:遍历C中所有特征轨迹点,对于轨迹点pi=(lngi,lati),计算m=floor((lngi-lngmin)/MaxRadius),n=floor((lati-latmin)/MaxRadius),即根据步长向下取整寻找该点所属网格;
step 4:根据pi所属网格计算其位置相邻网格中,与pi点空间距离最小且大于等于MaxRadius的簇中心g,即寻找点g∈R使SD(pi,g)最小并且SD(pi,g)≥MaxRadius;若不存在,则将点pi加入到R中,返回上一步;
step 5:根据簇中心g所属所有特征轨迹点,重新计算簇中心gnew加入到R并删除g;
step 6:若所有特征轨迹点遍历完成,结束;
其中,MaxRadius表示出所划分区域的面积的大小;
S213:划分城市区域;
使用聚类簇群的质心作为Voronoi图的生成点;在边界附近和轨迹上没有特征点的区域引入额外的生成点,得到大小和形状更均匀的城市区域。
3.如权利要求1所述的基于轨迹分布表示的城市区域关系可视分析方法,其特征在于,步骤S22包括以下子步骤:
S221:轨迹建模;
将每个时间段轨迹数据汇集起来作为训练的原始数据,每条轨迹表示成区域转移序列,即将轨迹点之间的移动转化为城市区域之间的移动;每条轨迹构建成为区域编号的序列后,根据所有轨迹构建共现矩阵X,其中X每一个元素Xij表示区域stj在目标区域sti窗口内出现的次数,为共现矩阵中第i行的和,即在区域sti窗口内所有区域出现的总次数;Pij=P(j|i)=Xij/Xi表示区域stj出现在区域sti周围的概率;
S222:基于词嵌入技术分析区域关系;
共现矩阵X中的第i行j列的值Xij为目标词Wi与上下文词Wj在语料库中的共同出现次数,此处给出该模型损失函数:
f(x)定义为:
在Glove模型中,对目标词向量和上下文向量做区分,最后将两组词向量求和,得到最终的词向量;
其中参数bi、bj为可训练的参数,公式(3)表示公式(1)中损失函数的求解,而公式(4)所示对于模型训练处的词向量加上任意一个常数向量c后,由于偏置项bi、bj的调控,最终结果仍然会是损失函数的解;
基于相同语料库下不同模型训练出的同一维度词向量而言,Glove生成的词向量,噪声词的模长远大于Word2vec词向量的模长;
S223:基于相似性法则过滤共现矩阵;
假设有两个区域sta、stb,它们之间的关系可以在共现矩阵X中通过计算比率得出;
当区域sta与区域stb功能性相似,且也都与上下文区域stk相似时,
当区域sta与区域stb功能性不相似且差异较大,且sta或stb中一个区域与上下文区域stk相似时,
同时当区域sta与区域stb功能性不相似,且也都与上下文区域stk不相似时,也会得到与公式(5)相同的结论;根据公式(5)和公式(6)可以得出以下结论:
当区域sta与区域stb功能性不相似时,
根据公式(7)的结论,首先需要针对区域sta寻找与其相似性低的区域stb,由于区域与区域之间的相似性是基于余弦距离得出的,那么区域sta与区域stb相似性:
其中V(sta)、V(stb)表示区域sta、stb对应的向量;由分布式假设如果两个区域上下文差异性越大则它们的余弦距离越小;即当sim(sta,stb)<0的时候,区域stb为区域sta的不相似区域;当找到区域sta的不相似区域后,即可通过不相似区域结合公式(7)过滤出交通枢纽区域sthub;
即,过滤共现矩阵如下:
输入:根据上述生成的共现矩阵X输入Glove模型得到的词向量集合set(V);
输出:新共现矩阵Xnew;
其中,
Step 1:对于划分后的每个城市区域sti,计算相似性即余弦距离小于0的集合SETi;
Step 2:根据SETi中与区域sti相似度小于0的每个区域stc,根据公式(7)及其结论,寻找||Pik/Pck-1||<α的区域stk,其中α为自定义参数,并将区域stk标记为交通枢纽区域;
Step 3:当所有区域都计算完成后,共现矩阵X过滤出标记的交通枢纽区域stk,生成新的共现矩阵Xnew,结束;
S224:构建时段区域向量;
定义概率分布Qij,表示区域sti在区域stj轨迹中出现的概率,并假设Qij为softmax函数:
其中H(Pi,Qi)是分布Pi与Qi的交叉熵;交叉熵误差是度量概率分布之间差异性中的一个方法,使用最小二乘法度量概率分布之间差异性,忽略分布P与Q的归一化因子,此时Pij=Xij,并使用log函数最小化平方误差,此时目标函数为:
至此,公式(11)与最终目标函数公式(1)的区别仅仅在于更换Xi为加权函数并添加偏置项;采用AdaGrad梯度下降算法,对共现矩阵X中的所有非零元素随机采样;
S225:轨迹类比分析;
当采用DBSCAN聚类算法时;
其中存在两个关键的参数,其一邻域∈定义为对于任意一个点xi,其邻域内点的集合N∈(xi)={xk∈D|dist(xi,xk)≤∈},即xi邻域内所有点与xi的距离都不超过∈;其二Min_samples指当该点为聚类核心点时,该点邻域∈内至少应该存在Min_samples个样本点;
DBSCAN的是从样本中任意一点xi出发,根据∈及Min_samples作为条件判断该样本点是否为核心点,若为核心点则依照密度直达的方式寻找其邻域∈内所有样本点集合,并判断N∈(xi)的其他点是否为核心点,重复该步骤,直至寻找到所有由xi出发密度相连的点构成一个簇;当样本集中所有的点都归为某一簇,或该点已被判定属于非簇集合时,DBSCAN聚类算法结束;
当采用K-means算法时;
使用每个簇中所有样本的中心点当作聚簇中心,其中μi表示第i个簇的中心,xk表示属于该簇的第k个样本点的向量,n表示该簇样本点个数;
通过计算后,选取与聚类中心相似性最高的区域,映射到地图上。
4.如权利要求1所述的基于轨迹分布表示的城市区域关系可视分析方法,其特征在于,步骤S3包括以下子步骤:
S31:区域类别向量计算;
将区域类别划分为6个大类别,针对每一个区域,通过计算每个区域类型占比的类别向量来定义每个区域的功能性;
首先定义区域st的类别频率:
公式(13)中mi表示区域st中第i类区域类别的数量,Mi表示城市所有区域第i类区域类别的总数量;
每个区域的类别向量由每个类别的类别频率所占比重表示:
S32:可视化视图;
可视分析系统通过改进Glove模型生成的城市区域向量对城市区域进行探索,系统界面包含一组可交互的联动视图,分别为:全局概览视图、流量视图、地图、关联热力图、局部趋势视图,以及一个系统配置面板。
5.如权利要求4所述的基于轨迹分布表示的城市区域关系可视分析方法,其特征在于,步骤S32包括以下子步骤:
S321:全局概览图;
全局概览图的上半部分为投影视图,投影视图显示嵌入空间中位置的全局模式;使用t-sne降维技术将特定时段的区域向量投影成二维平面上的点集,二维点的着色越深代表该区域与其近邻区域之间平均相似性越高,二维点越大代表该区域与其k-近邻区域之间平均空间距离越高;
t-sne降维技术的原理是高维空间的区域向量使用高斯分布建模,并在低维空间使用t-分布进行重构;
如公式(15)和公式(16)所示,分布Pij由高斯分布建模将区域向量之间的相似性转换为概率形式,区域vi与区域vj之间的相似性由余弦相似性进行度量,分布Qij由t-分布建模,可将分布Pij和分布Qij之间的KL散度作为损失函数,通过训练得到区域vi在二维空间中的坐标xi;公式(15)中的σi可近似理解为区域vi附近参与高维相似性计算的有效区域个数;
S322:流量视图;
流量视图使用特定时段轨迹数据的静态统计信息;流量视图将每个区域位置编码为提取聚类中心的真实经纬度,同时归类到相应的行政区中并着色,彼此之间存在流入流出的区域予以连接,并在鼠标悬停指定区域时共同显示,同时也显示该区域在当前时段的流量信息;
S323:地图视图;
地图视图从真实空间的全局视角观察城市区域的地理位置分布;
S324:关联热力图;
联热力图展示多个区域之间的相互联系,并展示相似性及流量的时间变化;
S325:局部趋势视图;
局部趋势视图针对单一区域设计,展示该区域轨迹的流入流出方向以及流量,并在内部嵌入弦图展示所有经过该区域轨迹的流动模式;
S326:系统配置面板;
系统配置面板中用于调整参数,以及指定k-近邻参数、过滤矩阵算法,更新参数后将刷新系统界面,重新展示可视化视图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110542378.4A CN113378891B (zh) | 2021-05-18 | 2021-05-18 | 基于轨迹分布表示的城市区域关系可视分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110542378.4A CN113378891B (zh) | 2021-05-18 | 2021-05-18 | 基于轨迹分布表示的城市区域关系可视分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378891A CN113378891A (zh) | 2021-09-10 |
CN113378891B true CN113378891B (zh) | 2022-03-29 |
Family
ID=77571217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110542378.4A Active CN113378891B (zh) | 2021-05-18 | 2021-05-18 | 基于轨迹分布表示的城市区域关系可视分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378891B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808400B (zh) * | 2021-09-16 | 2022-09-06 | 腾讯科技(深圳)有限公司 | 车流迁徙情况的展示方法、装置、设备及介质 |
CN114359774B (zh) * | 2021-11-17 | 2023-04-07 | 山东省国土测绘院 | 行人移动模式分类方法、装置及电子设备 |
CN114297532B (zh) * | 2021-12-31 | 2023-04-07 | 哈尔滨工业大学 | 一种基于人群移动轨迹的高清城市功能区识别方法及系统 |
CN114661393B (zh) * | 2022-03-01 | 2024-03-22 | 重庆邮电大学 | 基于流动人口数据特征聚类的城市集聚效应可视分析方法 |
CN115238834B (zh) * | 2022-09-22 | 2022-12-09 | 中国测绘科学研究院 | 一种基于轨迹数据的用户群体时空异常模式识别方法 |
CN115408452B (zh) * | 2022-11-02 | 2023-04-07 | 中南大学 | 一种城市设施关联模式挖掘方法及相关设备 |
CN116599162B (zh) * | 2023-07-19 | 2023-09-15 | 昆明理工大学 | 一种n-1下新能源渗透率的确定方法 |
CN117539971B (zh) * | 2024-01-10 | 2024-04-26 | 深圳市易甲文技术有限公司 | 一种海量地理坐标聚合方法及相关设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649651A (zh) * | 2016-12-12 | 2017-05-10 | 大连理工大学 | 一种基于出租车轨迹数据的交通出行共现现象的可视化分析方法 |
CN107609107A (zh) * | 2017-09-13 | 2018-01-19 | 大连理工大学 | 一种基于多源城市数据的出行共现现象可视化分析方法 |
CN109165245A (zh) * | 2018-09-19 | 2019-01-08 | 北京航空航天大学 | 多源数据融合的移动轨迹生成模型的时空模式挖掘方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140089036A1 (en) * | 2012-09-26 | 2014-03-27 | Xerox Corporation | Dynamic city zoning for understanding passenger travel demand |
CN109166309B (zh) * | 2018-08-06 | 2021-03-19 | 重庆邮电大学 | 一种面向复杂城市交通网络的缺失流量数据恢复方法 |
US11568266B2 (en) * | 2019-03-15 | 2023-01-31 | Baidu Usa Llc | Systems and methods for mutual learning for topic discovery and word embedding |
CN110826698A (zh) * | 2019-11-04 | 2020-02-21 | 电子科技大学 | 一种通过上下文相关的图嵌入表示人群移动模式的方法 |
CN112738715A (zh) * | 2021-01-15 | 2021-04-30 | 陕西省信息化工程研究院 | 一种基于GloVe模型的移动信令轨迹相关性表示方法 |
CN112800210B (zh) * | 2021-04-06 | 2021-06-18 | 湖南师范大学 | 基于海量公交数据的人群画像算法 |
-
2021
- 2021-05-18 CN CN202110542378.4A patent/CN113378891B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649651A (zh) * | 2016-12-12 | 2017-05-10 | 大连理工大学 | 一种基于出租车轨迹数据的交通出行共现现象的可视化分析方法 |
CN107609107A (zh) * | 2017-09-13 | 2018-01-19 | 大连理工大学 | 一种基于多源城市数据的出行共现现象可视化分析方法 |
CN109165245A (zh) * | 2018-09-19 | 2019-01-08 | 北京航空航天大学 | 多源数据融合的移动轨迹生成模型的时空模式挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113378891A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378891B (zh) | 基于轨迹分布表示的城市区域关系可视分析方法 | |
Zhou et al. | Visual abstraction of large scale geospatial origin-destination movement data | |
CN108629978B (zh) | 一种基于高维路网和循环神经网络的交通轨迹预测方法 | |
Deng et al. | Generating urban road intersection models from low-frequency GPS trajectory data | |
Zheng et al. | Visual analytics in urban computing: An overview | |
Liu et al. | Identifying spatial interaction patterns of vehicle movements on urban road networks by topic modelling | |
Zhu et al. | Location2vec: a situation-aware representation for visual exploration of urban locations | |
CN108427965A (zh) | 一种基于路网聚类的热点区域挖掘方法 | |
Lu et al. | Visual analysis of multiple route choices based on general gps trajectories | |
Yu et al. | Road network generalization considering traffic flow patterns | |
Xu et al. | A framework for urban land use classification by integrating the spatial context of points of interest and graph convolutional neural network method | |
CN111444243A (zh) | 一种基于轨迹信息的用户行为预测画像方法及系统 | |
Tang et al. | Exploring urban travel patterns using density-based clustering with multi-attributes from large-scaled vehicle trajectories | |
Chen et al. | CEM: A convolutional embedding model for predicting next locations | |
CN111814596B (zh) | 一种遥感影像与出租车轨迹融合的自动城市功能分区方法 | |
Li et al. | A trajectory restoration algorithm for low-sampling-rate floating car data and complex urban road networks | |
Chen et al. | An analysis of movement patterns between zones using taxi GPS data | |
Huang et al. | Mining crowdsourced trajectory and geo‐tagged data for spatial‐semantic road map construction | |
Yu et al. | Using information entropy and a multi-layer neural network with trajectory data to identify transportation modes | |
CN113159371B (zh) | 基于跨模态数据融合的未知目标特征建模与需求预测方法 | |
CN115687429A (zh) | 一种社交媒体用户行为模式挖掘方法 | |
Feng et al. | A survey of visual analytics in urban area | |
Luo et al. | FBVA: A flow-based visual analytics approach for citywide crowd mobility | |
Schoier et al. | Individual movements and geographical data mining. Clustering algorithms for highlighting hotspots in personal navigation routes | |
CN116662468A (zh) | 基于地理对象空间模式特征的城市功能区识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |