CN113408640A - 一种顾及多维语义的移动对象时空轨迹聚类方法 - Google Patents
一种顾及多维语义的移动对象时空轨迹聚类方法 Download PDFInfo
- Publication number
- CN113408640A CN113408640A CN202110739011.1A CN202110739011A CN113408640A CN 113408640 A CN113408640 A CN 113408640A CN 202110739011 A CN202110739011 A CN 202110739011A CN 113408640 A CN113408640 A CN 113408640A
- Authority
- CN
- China
- Prior art keywords
- space
- time
- clustering
- matrix
- trajectory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims description 121
- 239000013598 vector Substances 0.000 claims description 25
- 230000009467 reduction Effects 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000003064 k means clustering Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000007667 floating Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 abstract description 11
- 238000005065 mining Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种顾及多维语义的移动对象时空轨迹聚类方法,针对时空轨迹隐藏语义信息难以提取和表达的问题,在顾及时空轨迹数据时间、空间和语义特征的基础上,进行时空轨迹特征筛选、建立时空轨迹相似性度量模型,在此基础上实现基于语义的时空轨迹聚类,解决传统聚类方法只针对地理空间特征聚类的问题,将轨迹聚类与实际语义环境相结合,为深入挖掘轨迹数据高层次语义提供理论支撑。
Description
技术领域
本发明属于数据聚类方法技术领域,具体涉及一种顾及多维语义的移动对象时空轨迹聚类方法。
背景技术
随着定位技术、无线通信技术、网络技术的蓬勃发展及相关研究的推进,为获取生产相关的时空数据创造出有利条件,移动对象的时空数据更时遍布于现实自然及城市时空环境,覆盖到各行各业研究和日常生活,如浮动车数据等。时空轨迹数据具有时间、空间和语义特性,其时空特性及隐含语义特性能反映群体行为模式,体现真实世界流动的本质,因此研究者们不满足于单纯可视化或定性化观察轨迹数据,追求进一步探讨从浩瀚的时空数据中提取具备现实意义和应用价值的信息,由此时空数据挖掘成为一个重要研究领域。
时空轨迹数据挖掘工作包括时空轨迹聚类、伴随模式挖掘、时空轨迹分类、时空轨迹预测等,其中,时空轨迹聚类按照一定条件将轨迹划分成多个簇,簇内相似性高,簇间相似性低。时空轨迹聚类分析可用于识别空间稠密或稀疏区域、检测异常。时空轨迹聚类的目的是将行为相似的时空对象聚合,行为相异的时空对象分隔开来,常见的划分依据是时空对象间相似性,基于选取的度量标准和实际任务目的,不同研究对轨迹相似性的考察角度和采取的度量方法或模型各异,得出的结论和聚类效果具有差异,由此可见,轨迹相似性度量结果会直接影响时空轨迹聚类效果。相似性度量要求轨迹表征结构一致,能够在同一量化空间比对,然而时空轨迹数据是偏态分布的高维稀疏数据,数据本质特征潜藏于高维冗余信息中,需要对轨迹进行特征降维筛选。
根据具体的聚类思路,如图1所示,时空轨迹数据聚类方法可分为:基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法和基于网格的聚类方法。
目前,聚类方法研究已取得一定成果,现今的时空轨迹聚类相关理论研究仍面临诸多挑战。由于时空轨迹是偏态分布的高维稀疏数据,传统聚类方法注重于时空轨迹地理空间特征,忽略轨迹语义特征,时空层面特征与语义层面特征割裂开来,聚类结果无法反映时空轨迹间语义特性。
发明内容
针对现有技术中的上述不足,本发明提供的顾及多维语义的移动对象时空轨迹聚类方法解决了时空轨迹数据中隐藏的语义信息在聚类过程中难以提取和表达的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种顾及多维语义的移动对象时空轨迹聚类方法,包括以下步骤:
S1、获取移动对象时空轨迹,并构建时空轨迹数据集;
其中,移动对象为浮动车,其对应的时空轨迹数据为GPS轨迹数据;
S2、对移动对象时空轨迹依次进行高维语义特征筛选及降维;
S3、计算降维后的时空轨迹对应的顾及语义特征的时空轨迹相似性度;
S4、基于时空轨迹相似性度,进行基于谱聚类的时空轨迹语义聚类,获得时空轨迹数据集聚类结果,实现移动对象时空轨迹聚类。
进一步地,所述步骤S2中的高维语义特征包括POI特征、速度特征和方向特征;
其中,所述POI特征为空间范围内地理事物空间位置和功能类型的语义表达,从语义层面对移动对象所处空间位置进行描述;
所述速度特征为描述移动对象运动变化的特征,包括速率和方向,其中,速率代表移动对象运动快慢,方向代表移动对象瞬时前进朝向;
所述方向特征为描述移动对象运动趋势的物理量,包括局部轨迹点的趋势以及由连续采样点构成的轨迹曲线整体的移动方向,用于决定时空轨迹外部的曲折和波动程度。
进一步地,所述步骤S2中对筛选的高维语义特征降维的方法具体为:
A1、根据筛选的高维语义特征,构建时空多维语义轨迹矩阵;
A2、对时空多维语义轨迹矩阵进行SVD分解,得到降维后的特征向量及特征矩阵。
进一步地,所述步骤S3为:
S31、计算任意两条时空轨迹A和B的特征矩阵的Hadamard乘积;
S32、根据Hadamard乘积,计算对应的加权矩阵UAB;
S33、根据加权矩阵,计算时空轨迹A和B的相似度simAB。
所述步骤S32中,加权矩阵UAB为:
所述步骤S33中,空轨迹A和B的相似度simAB为:
式中,W为奇异值权重矩阵,W=[w1,w2,...wi,...wN],wi为奇异值权重,且wi=(wAi+wBi)/2,wAi为时空轨迹A的第i个奇异值权重,wBi为时空轨迹B的第i个奇异值权重,下标1≤i≤N,N为时空轨迹特征维度数量。
进一步地,所述步骤S4具体为:
S41、基于时空轨迹相似度构建具有多维语义的时空轨迹相似关系图;
S42、利用谱聚类的思想对构建的时空轨迹相似关系图进行切分聚类,获得时空轨迹数据集的聚类结果,实现移动对象时空轨迹聚类。
进一步地,所述步骤S41具体为:
确定时空轨迹数据集T={T1,T2,...,Tn}和时空轨迹相似度集合S={Sab},且simab∈S,其中,Ta和Tb为时空轨迹数据集内的任意两条时空轨迹,长度分别为m和k,a,b为两条不同时空轨迹对应的序号,1≤a,b≤n,其对应的时空轨迹相似度为Sab,将Sab作为无向图权重边构建出具有多维语义的时空轨迹相似关系图G=<T,S>;
在时空轨迹相似度关系图G=<T,S>中,结点和权重边的数量分别n和n2,权重边为时空轨迹Ta和Tb的时空轨迹相似度Sab。
进一步地,所述步骤S42具体为:
T1、将时空轨迹相似度作为权重矩阵元素值,根据权重矩阵元素值依次构建出时空权重矩阵、时空度矩阵和时空拉普拉斯矩阵,将其作为时空轨迹相似关系图进行切分聚类的矩阵数据;
T2、对时空拉普拉斯矩阵进行标准化相似关系处理,并提取特征向量f;
T3、利用特征向量f构建相似关系特征矩阵F,并对F进行标准化处理;
T4、对标准化的相似关系特征矩阵F进行K-Means聚类,获得最优最小化的聚类结果,实现移动对象时空轨迹聚类。
进一步地,所述步骤T1中的时空权重矩阵W中时空轨迹Ta和Tb的时空权重Wab为:
Wab=Sab
所述时空度矩阵D中时空轨迹Ta和Tb的时空度Dab为:
所述时空拉普拉斯矩阵L为:
L=D-W。
进一步地,所述步骤T4中,对标准化的相似关系特征矩阵F进行K-Means聚类的公式为:
式中,Tr(·)表示对角线求和,I为单位对角矩阵,Ap和Aq表示无向图切分后的子图集合A={A1,A2,...,Ak}内任意两个子图,vol(·)表示对子图的权重边求和,Lp,q为L中的元素,Fp,q为F中的元素,p为时空轨迹数据集T={T1,T2,...,Tn}样本下标,q为子图集合A={A1,A2,...,Ak}样本下标,k为子图数量。
本发明的有益效果为:
(1)有利于发掘时空对象隐藏于高维数据中的深层含义,提取本质特征,将轨迹聚类与实际语义环境相结合,为深入挖掘轨迹数据高层次语义提供理论支撑。
(2)有助于发现分析时空环境中浮动车移动对象个体及群体的运动状态及活动规律,为时空数据挖掘领域和实际应用提供辅助决策。
附图说明
图1为本发明提供的聚类算法分类图。
图2为本发明提供的顾及多维语义的移动对象时空轨迹聚类方法流程图。
图3为本发明提供的时空轨迹矩阵SVD降维过程示意图。
图4为本发明提供的时空轨迹相似关系图示例图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图2所示,本实施例提供的顾及多维语义的移动对象时空轨迹聚类方法,包括以下步骤:
S1、获取移动对象时空轨迹,并构建时空轨迹数据集;
其中,移动对象为浮动车,其对应的时空轨迹数据为GPS轨迹数据;
S2、对移动对象时空轨迹依次进行高维语义特征筛选及降维;
S3、计算降维后的时空轨迹对应的顾及语义特征的时空轨迹相似性度;
S4、基于时空轨迹相似性度,进行基于谱聚类的时空轨迹语义聚类,获得时空轨迹数据集聚类结果,实现移动对象时空轨迹聚类。
在本实施例的步骤S2中,时空轨迹的语义特征选择是在最大限度保留原始轨迹整体性质下进行,筛选出的语义特征的记录信息本身未发生变化。特征选择主要应用于轨迹分类,需要人工监督配合。本发明在特征选择时沿用了人工监督的流程,并着眼于实际研究需求,借助先验知识和选择原则进行人工语义筛选,旨在挑选符合任务目标的主要相关特征。因此特征选择工作的前期阶段由人工指明整体方向,后期则利用机器执行重复性操作,在人机交互的协同作用下对获取的时空轨迹进行一定程度上的降维。
具体地,步骤S2中的高维语义特征包括POI特征、速度特征和方向特征;
其中,所述POI特征为空间范围内地理事物空间位置和功能类型的语义表达,从语义层面对移动对象所处空间位置进行描述;不同于空间特征下的具体坐标值或坐标序列,通常POI更多的是对地物本身的功能属性的描述,其信息载体可以为数字序列、字符串、文字或符号,具体的内容可以是地物的名称或功能类别。空间坐标相同的多个位置实体,其POI特征可能不一致;POI特征一致的多个位置实体,其空间坐标不一定相同。在分析移动对象的行为模式时,结合时空轨迹的POI特征,根据移动对象访问不同类型POI的频繁程度和分布规律,可以大致判断出目标对象对不同地物类型的偏好程度。在度量多条时空轨迹的相似性时,引入POI特征,可以切入新的语义角度以辅助参考和理解,从而挖掘出基于时空特征难以获得的深层含义,使得时空轨迹相似性度量结果能同时顾及时空和语义层面特征,更贴近现实意义。
所述速度特征为描述移动对象运动变化的特征,包括速率和方向,其中,速率代表移动对象运动快慢,方向代表移动对象瞬时前进朝向;当移动对象受到外部因素影响时,速度会不断变化或产生突变,形成的时空轨迹在变速点局部会形成突起或凹陷,轨迹整体的形状结构会产生明显变化,因此引入速度特征可以为轨迹相似性度量、轨迹聚类和异常检测等工作提供参考。速度信息可以直接由采集设备获得,或者基于时间和空间信息计算求出,获取容易;速度概念作为具备普适性和统一性的衡量物体运动变化的指标,符合大众普遍认知;速度大小通常以数值表示,易于计算机处理;因此速度特征符合语义特征选择的原则及要求,可以作为时空轨迹数据的典型语义特征之一。
所述方向特征为描述移动对象运动趋势的物理量,包括局部轨迹点的趋势以及由连续采样点构成的轨迹曲线整体的移动方向,用于决定时空轨迹外部的曲折和波动程度。通常,运动方向发生显著变化的轨迹点即转向点会使轨迹局部结构突变,本发明中将方向变化明显的轨迹点作为轨迹的候选特征点或关键点,以提取原始轨迹主要特征。
上述步骤S2中对筛选的高维语义特征进行降维时,原始的高维时空轨迹数据在经过特征选择后,其数据维度已实现一定程度的降维,选择出的特征在具体的表征形式或表征模型后可以得到直观或抽象的表达。由于特征选择后的时空轨迹保留了原始轨迹的主要结构和性质,轨迹的表征形式维度仍存在高维性和高维附带的稀疏和高噪声问题,并且语义特征之间实际上还是彼此独立的,一些蕴含在特征之间交互作用下的时空轨迹隐藏的信息还无法得知,特征选择的降维效果存在局限性。因此在选择出典型语义特征并进行表征之后,还需要对表征后的时空轨迹进行进一步的特征降维。本发明基于特征抽取主要思想,提出基于奇异值分解(Singular Value Decomposition,SVD)的轨迹语义特征抽取方法,对特征选择后的时空轨迹数据进一步降维,为后续时空轨迹相似性度量及聚类工作提供降维数据支撑。
基于此,上述降维方法具体为:
A1、根据筛选的高维语义特征,构建时空多维语义轨迹矩阵;
A2、对时空多维语义轨迹矩阵进行SVD分解,得到降维后的特征向量及特征矩阵。
本实施例中的SVD是有效提取矩阵本质特征的分解方法,由SVD原理推导过程得知,原始高维时空轨迹矩阵经过奇异值分解后,被分解为多个低维特征矩阵,对构建好的多组时空轨迹矩阵进行特征抽取降维,具体包括两个步骤:
由上述公式可知,原始时空轨迹矩阵所构建的实对称方阵的维度与语义特征数量N一致,利用SVD分解方阵,计算处理后的特征矩阵维度和奇异特征向量元素个数同样为N。因此对于多条长度不等的时空轨迹,当选取相同数量的语义特征时,它们所对应的实对称方阵维度一致,同样地,分解后的特征矩阵和特征向量的维度也相等。而确保此一致性的关键则是实对称方阵构建,由公式可以看出,代表轨迹数量的M即矩阵行数,在进行矩阵乘法时已消除,因此无论轨迹点数量取值为多少,最终的方阵维度始终为N。但这并不意味着轨迹数量对方阵的构建毫无作用,因为原始矩阵的行排列是按照轨迹点采样时间先后顺序,保留了时空轨迹时间特征的时序性,轨迹点的数量和排列决定了矩阵行数和矩阵具体元素值,也确定其对应的逆矩阵的列数和元素值,利用矩阵乘法计算得到的方阵元素值也唯一确定,因此,不等长时空轨迹矩阵的实对称方阵虽然维度结构相同,但方阵的具体元素值具有差异,而这些差异正是区分不同时空轨迹特性的关键。
以轨迹T为例,特征降维如图所示3所示,A(M×N)为T的原始时空轨迹矩阵,进行SVD处理后,可近似表达为U、S、UT三个低维特征矩阵的乘积,其中,U=[u1,u2,...,um]为左奇异矩阵,列向量表示左奇异向量;S=diag(σ1,σ2,...,σk)为对角矩阵,主对角元素表示奇异值,按大小排列,即σ1≥σ2≥...≥σk≥0,非主对角元素均为0;V=[v1,v2,...,vm]为右奇异矩阵,列向量表示右奇异向量。
基于以上特征抽取降维步骤对时空特征矩阵进行SVD抽取降维,实现时空轨迹特征降维,为时空轨迹的相似性度量提供模型基础。
本实施例的步骤S3为:
S31、计算任意两条时空轨迹A和B的特征矩阵的Hadamard乘积;
S32、根据Hadamard乘积,计算对应的加权矩阵UAB;
S33、根据加权矩阵,计算时空轨迹A和B的相似度simAB。
上述步骤S31中,对于任意两条时空轨迹A和B,其构成的矩阵分别表示为A(MA×N)和B(MB×N),对其进行SVD处理,运算得到的奇异向量分别为σA=[σA1,σA2,...,σAN]和σB=[σB1,σB2,...,σBN],特征矩阵分别为则两个特征矩阵的Hadamard乘积表示为:
所述步骤S32中,计算特征矩阵UA和UB内各个行向量模长的乘积,将Hadamard乘积矩阵每行的元素相加,并分别与对应的模长乘积进行除法运算,得到加权矩阵UAB为:
所述步骤S33中,实际上,UAB(N×1)即为特征矩阵UA和UB的行向量内积构成的矩阵,UAB(N×1)的矩阵元素值本质上是UA和UB对应行向量和的夹角余弦,即余弦相似度,因此矩阵UAB(N×1)刻画了特征矩阵UA和UB的相似程度。由于奇异值也描述了矩阵的特征,并且值越大,越贴近原矩阵特征,因此引入奇异值权重矩阵W(1×N)=[w1,w2,...wi,...wN]。
得到时空轨迹A和B的相似度simAB为:
式中,W为奇异值权重矩阵,W=[w1,w2,...wi,...wN],wi为奇异值权重,且wi=(wAi+wBi)/2,wAi为时空轨迹A的第i个奇异值权重,wBi为时空轨迹B的第i个奇异值权重,下标1≤i≤N,N为时空轨迹特征维度数量。
由于且特征向量均为单位向量,因此simAB的范围处于[0,1]当中,矩阵相似程度与simAB取值呈正相关,当simAB=1时,说明轨迹A和B完全相似。相似度公式可以理解为:线性空间中,作为基底的特征矩阵UA和UB之间的相似性问题,UA和UB的向量构成线性空间坐标轴,相似性由每个方向上的坐标轴的相似性累加构成,而坐标轴相似性与具体的奇异值相关。
本实施例的步骤S4具体为:
S41、基于时空轨迹相似度构建具有多维语义的时空轨迹相似关系图;
S42、利用谱聚类的思想对构建的时空轨迹相似关系图进行切分聚类,获得时空轨迹数据集的聚类结果,实现移动对象时空轨迹聚类。
上述步骤S41中,时空轨迹相似关系图可以直观传达出时空轨迹之间的连接关系和相似程度,前期具体的构图方式决定了轨迹图模型的结构特点,会直接影响后续切图聚类效果。如图4所示,时空轨迹相似关系图的结点通常为某条轨迹,权重边即为轨迹之间的相似性,因此边的连接方式和取值是决定图结构的关键。
因此,上述步骤S41具体为:
确定时空轨迹数据集T={T1,T2,...,Tn}和时空轨迹相似度集合S={Sab},且simab∈S,其中,Ta和Tb为时空轨迹数据集内的任意两条时空轨迹,长度分别为m和k,a,b为两条不同时空轨迹对应的序号,1≤a,b≤n,其对应的时空轨迹相似度为Sab,将Sab作为无向图权重边构建出具有多维语义的时空轨迹相似关系图G=<T,S>;
在时空轨迹相似度关系图G=<T,S>中,结点和权重边的数量分别n和n2,权重边为时空轨迹Ta和Tb的时空轨迹相似度Sab。为对比无语义、不同单维语义和多维语义特征对时空轨迹相似性度量的影响,在构建了多组时空轨迹矩阵作为相似性度量的模型基础,在进行特征抽取和相似性度量后获得了多组相似度结果。本文将分别利用每组时空轨迹相似度结果,对应构建三组时空轨迹相似关系图模型,包括(1)时空相似关系图;(2)时空单维语义相似关系图,其分为三类:时空-POI相似关系图、时空-速度相似关系图、时空-方向相似关系图;(3)时空多维语义相似关系图。同时基于三组相似度结果和相似关系图模型构建对应的相似关系权重矩阵、度矩阵和拉普拉斯矩阵,为时空关系图切分聚类提供模型基础,时空轨迹关系图模型和切分聚类涉及的符号定义如表1所示。
表1:时空轨迹相似关系图模型符号定义
在上述步骤S42中,构建的图模型可以将散乱的时空轨迹相似度结果进行结构化呈现,基于谱聚类思想,时空轨迹聚类可以转化为图切分问题。依据不同的相似度结果构建出的相似关系图模型的结构性质各异,为了使切分出的子图具有内相似、外相异的平衡效果,且时空轨迹聚类结果具有合理性,需要基于图模型结构特征,结合图理论及相关方法选择合适的切分准则函数进行时空轨迹图切分聚类。
由谱聚类思想可知,子图内部相似表现为该子图内边权重平均较大,子图之间相异,则边权重和低,因此切图目的可转化为最小化问题。实际上,满足最小化的切分方式不止一种,会出现单结点为子图的情况,即轨迹类簇里只有一条轨迹,子图集合离散度高、规模大,不符合实际意义。因此需要优化切分准则使子图集合整体尽量平衡均匀,产生的类簇形状不过度离散割裂,切图目的转化为最优最小化图切分。
由图谱论和谱聚类思想可知,标准化拉普拉斯矩阵的特征矩阵F代表了原图结构的本质特点,对特征矩阵F进行聚类即可实现最优最小化图切分。因此,步骤S42具体为:
T1、将时空轨迹相似度作为权重矩阵元素值,根据权重矩阵元素值依次构建出时空权重矩阵、时空度矩阵和时空拉普拉斯矩阵,将其作为时空轨迹相似关系图进行切分聚类的矩阵数据;
T2、对时空拉普拉斯矩阵进行标准化相似关系处理,并提取特征向量f;
T3、利用特征向量f构建相似关系特征矩阵F,并对F进行标准化处理;
T4、对标准化的相似关系特征矩阵F进行K-Means聚类,获得最优最小化的聚类结果,实现移动对象时空轨迹聚类。
上述步骤T1中的时空权重矩阵W中时空轨迹Ta和Tb的时空权重Wab为:
Wab=Sab所述时空度矩阵D中时空轨迹Ta和Tb的时空度Dab为:
所述时空拉普拉斯矩阵L为:
L=D-W。
上述步骤T4中,对标准化的相似关系特征矩阵F进行K-Means聚类的公式为:
式中,Tr(·)表示对角线求和,I为单位对角矩阵,Ap和Aq表示无向图切分后的子图集合A={A1,A2,...,Ak}内任意两个子图,vol(·)表示对子图的权重边求和,Lp,q为L中的元素,Fp,q为F中的元素,p为时空轨迹数据集T={T1,T2,...,Tn}样本下标,q为子图集合A={A1,A2,...,Ak}样本下标,k为子图数量。
其中,D-1/2LD-1/2这一步操作,即为对拉普拉斯矩阵L的标准化(Normalize)处理,将不同子图集合的权重边缩放到[-1,1]范围内,以提升算法迭代速率和结果精度,并可以统一不同量纲的相似度数据。同时,D-1/2LD-1/2最小的k1个特征值各自对应特征向量f,由这些特征向量组成n×k1维的特征矩阵F,对特征矩阵F做进一步标准化处理。将特征矩阵F中的单条行向量表示成一个k1维样本,n条向量则生成n个样本,结合K-Means方法处理F,并设置类簇数量为k2,由此得到对时空轨迹数据集T的聚类结果C={C1,C2,...Ck2}。
Claims (10)
1.一种顾及多维语义的移动对象时空轨迹聚类方法,其特征在于,包括以下步骤:
S1、获取移动对象时空轨迹,并构建时空轨迹数据集;
其中,移动对象为浮动车,其对应的时空轨迹数据为GPS轨迹数据;
S2、对移动对象时空轨迹依次进行高维语义特征筛选及降维;
S3、计算降维后的时空轨迹对应的顾及语义特征的时空轨迹相似性度;
S4、基于时空轨迹相似性度,进行基于谱聚类的时空轨迹语义聚类,获得时空轨迹数据集聚类结果,实现移动对象时空轨迹聚类。
2.根据权利要求1所述的顾及多维语义的移动对象时空轨迹聚类方法,其特征在于,所述步骤S2中的高维语义特征包括POI特征、速度特征和方向特征;
其中,所述POI特征为空间范围内地理事物空间位置和功能类型的语义表达,从语义层面对移动对象所处空间位置进行描述;
所述速度特征为描述移动对象运动变化的特征,包括速率和方向,其中,速率代表移动对象运动快慢,方向代表移动对象瞬时前进朝向;
所述方向特征为描述移动对象运动趋势的物理量,包括局部轨迹点的趋势以及由连续采样点构成的轨迹曲线整体的移动方向,用于决定时空轨迹外部的曲折和波动程度。
3.根据权利要求1所述的顾及多维语义的移动对象时空轨迹聚类方法,其特征在于,所述步骤S2中对筛选的高维语义特征降维的方法具体为:
A1、根据筛选的高维语义特征,构建时空多维语义轨迹矩阵;
A2、对时空多维语义轨迹矩阵进行SVD分解,得到降维后的特征向量及特征矩阵。
4.根据权利要求1所述的顾及多维语义的移动对象时空轨迹聚类方法,其特征在于,所述步骤S3为:
S31、计算任意两条时空轨迹A和B的特征矩阵的Hadamard乘积;
S32、根据Hadamard乘积,计算对应的加权矩阵UAB;
S33、根据加权矩阵,计算时空轨迹A和B的相似度simAB。
6.根据权利要求5所述的顾及多维语义的移动对象时空轨迹聚类方法,其特征在于,所述步骤S4具体为:
S41、基于时空轨迹相似度构建具有多维语义的时空轨迹相似关系图;
S42、利用谱聚类的思想对构建的时空轨迹相似关系图进行切分聚类,获得时空轨迹数据集的聚类结果,实现移动对象时空轨迹聚类。
7.根据权利要求6所述的顾及多维语义的移动对象时空轨迹聚类方法,其特征在于,所述步骤S41具体为:
确定时空轨迹数据集T={T1,T2,...,Tn}和时空轨迹相似度集合S={Sab},且simab∈S,其中,Ta和Tb为时空轨迹数据集内的任意两条时空轨迹,长度分别为m和k,a,b为两条不同时空轨迹对应的序号,1≤a,b≤n,其对应的时空轨迹相似度为Sab,将Sab作为无向图权重边构建出具有多维语义的时空轨迹相似关系图G=<T,S>;
在时空轨迹相似度关系图G=<T,S>中,结点和权重边的数量分别n和n2,权重边为时空轨迹Ta和Tb的时空轨迹相似度Sab。
8.根据权利要求7所述的顾及多维语义的移动对象时空轨迹聚类方法,其特征在于,所述步骤S42具体为:
T1、将时空轨迹相似度作为权重矩阵元素值,根据权重矩阵元素值依次构建出时空权重矩阵、时空度矩阵和时空拉普拉斯矩阵,将其作为时空轨迹相似关系图进行切分聚类的矩阵数据;
T2、对时空拉普拉斯矩阵进行标准化相似关系处理,并提取特征向量f;
T3、利用特征向量f构建相似关系特征矩阵F,并对F进行标准化处理;
T4、对标准化的相似关系特征矩阵F进行K-Means聚类,获得最优最小化的聚类结果,实现移动对象时空轨迹聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110739011.1A CN113408640A (zh) | 2021-06-30 | 2021-06-30 | 一种顾及多维语义的移动对象时空轨迹聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110739011.1A CN113408640A (zh) | 2021-06-30 | 2021-06-30 | 一种顾及多维语义的移动对象时空轨迹聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113408640A true CN113408640A (zh) | 2021-09-17 |
Family
ID=77680765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110739011.1A Pending CN113408640A (zh) | 2021-06-30 | 2021-06-30 | 一种顾及多维语义的移动对象时空轨迹聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113408640A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114357322A (zh) * | 2022-03-16 | 2022-04-15 | 交通运输部规划研究院 | 一种基于时空分解的船舶轨迹异常检测方法 |
CN114428807A (zh) * | 2022-01-24 | 2022-05-03 | 中国电子科技集团公司第五十四研究所 | 地面机动目标运动轨迹语义体系构建与认知优化方法 |
WO2023123893A1 (zh) * | 2021-12-27 | 2023-07-06 | 深圳云天励飞技术股份有限公司 | 对象轨迹相似度的获得方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679558A (zh) * | 2017-09-19 | 2018-02-09 | 电子科技大学 | 一种基于度量学习的用户轨迹相似性度量方法 |
CN112182410A (zh) * | 2020-11-05 | 2021-01-05 | 西南交通大学 | 基于时空轨迹知识图谱的用户出行模式挖掘方法 |
CN112328721A (zh) * | 2020-11-09 | 2021-02-05 | 东北大学 | 基于自注意力机制的语义轨迹相似度计算系统及方法 |
CN112559587A (zh) * | 2020-12-06 | 2021-03-26 | 复旦大学 | 基于城市语义图谱的轨迹时空语义模式提取方法 |
-
2021
- 2021-06-30 CN CN202110739011.1A patent/CN113408640A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679558A (zh) * | 2017-09-19 | 2018-02-09 | 电子科技大学 | 一种基于度量学习的用户轨迹相似性度量方法 |
CN112182410A (zh) * | 2020-11-05 | 2021-01-05 | 西南交通大学 | 基于时空轨迹知识图谱的用户出行模式挖掘方法 |
CN112328721A (zh) * | 2020-11-09 | 2021-02-05 | 东北大学 | 基于自注意力机制的语义轨迹相似度计算系统及方法 |
CN112559587A (zh) * | 2020-12-06 | 2021-03-26 | 复旦大学 | 基于城市语义图谱的轨迹时空语义模式提取方法 |
Non-Patent Citations (4)
Title |
---|
CHENGCHENG JIANG等: "Similarity Measurement of Spatiotemporal Trajectories Considering Semantic Featur", 《2021 IEEE INTERNATIONAL CONFERENCE ON POWER ELECTRONICS, COMPUTER APPLICATIONS (ICPECA)》 * |
岳梦雪: "多源轨迹数据时空聚类及居民出行模式分析", 《中国优秀硕士学位论文全文数据库_经济与管理科学辑》 * |
蒋程程: "顾及多维语义的移动对象时空轨迹聚类研究", 《中国优秀硕士学位论文全文数据库_信息科技辑》 * |
贾建华: "《谱聚类集成算法研究》", 31 August 2011, 天津大学出版社 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023123893A1 (zh) * | 2021-12-27 | 2023-07-06 | 深圳云天励飞技术股份有限公司 | 对象轨迹相似度的获得方法、装置、电子设备及存储介质 |
CN114428807A (zh) * | 2022-01-24 | 2022-05-03 | 中国电子科技集团公司第五十四研究所 | 地面机动目标运动轨迹语义体系构建与认知优化方法 |
CN114428807B (zh) * | 2022-01-24 | 2023-11-03 | 中国电子科技集团公司第五十四研究所 | 地面机动目标运动轨迹语义体系构建与认知优化方法 |
CN114357322A (zh) * | 2022-03-16 | 2022-04-15 | 交通运输部规划研究院 | 一种基于时空分解的船舶轨迹异常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113408640A (zh) | 一种顾及多维语义的移动对象时空轨迹聚类方法 | |
Achtert et al. | Interactive data mining with 3D-parallel-coordinate-trees | |
CN110096500B (zh) | 一种面向海洋多维数据的可视分析方法及系统 | |
US7043500B2 (en) | Subtractive clustering for use in analysis of data | |
CN107493277B (zh) | 基于最大信息系数的大数据平台在线异常检测方法 | |
CN110377605B (zh) | 一种结构化数据的敏感属性识别与分类分级方法 | |
US20090299646A1 (en) | System and method for biological pathway perturbation analysis | |
Ma et al. | An interactive framework for visualization of weather forecast ensembles | |
CN112101574A (zh) | 一种机器学习有监督模型解释方法、系统及设备 | |
Switzer | Numerical classification | |
KR101182126B1 (ko) | 단일 차원 군집 분석의 분산처리를 이용한 대용량 데이터의 군집 분석 시스템, 방법 및 이를 위한 기록 매체 | |
US20120004858A1 (en) | System for analyzing expression profile, and program therefor | |
Wan et al. | Abnormal patterns recognition in bivariate autocorrelated process using optimized random forest and multi-feature extraction | |
Flåten et al. | Quantifying disturbances in benthic communities—comparison of the community disturbance index (CDI) to other multivariate methods | |
CN113033683B (zh) | 一种基于静态与动态联合分析的工业系统工况监测方法和系统 | |
Rajkumar et al. | Image segmentation method based on finite doubly truncated bivariate gaussian mixture model with hierarchical clustering | |
CN108090514B (zh) | 基于两阶段密度聚类的红外图像识别方法 | |
CN110543908B (zh) | 一种基于动态观测窗口的控制图模式识别方法 | |
Das et al. | Analyzing the performance of anomaly detection algorithms | |
Elnekave et al. | Discovering regular groups of mobile objects using incremental clustering | |
Bagyamani et al. | Biological significance of gene expression data using similarity based biclustering algorithm | |
Powell | How I learned to stop worrying and love the curse of dimensionality: an appraisal of cluster validation in high-dimensional spaces | |
Guiquan et al. | Research on Optimization of Discontinuous Data Path Mining Based on Fuzzy Clustering Algorithm | |
CN113378165B (zh) | 一种基于Jaccard系数的恶意样本相似性判定方法 | |
da Costa et al. | Package ‘statGraph’ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210917 |
|
RJ01 | Rejection of invention patent application after publication |