CN114186582A - 一种基于自然语义处理的同行车辆发现方法 - Google Patents

一种基于自然语义处理的同行车辆发现方法 Download PDF

Info

Publication number
CN114186582A
CN114186582A CN202111347252.8A CN202111347252A CN114186582A CN 114186582 A CN114186582 A CN 114186582A CN 202111347252 A CN202111347252 A CN 202111347252A CN 114186582 A CN114186582 A CN 114186582A
Authority
CN
China
Prior art keywords
track
vector
vehicles
tracks
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111347252.8A
Other languages
English (en)
Inventor
刘宴兵
李俊豪
肖云鹏
卢星宇
何兮
何锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111347252.8A priority Critical patent/CN114186582A/zh
Publication of CN114186582A publication Critical patent/CN114186582A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明属于智能交通领域,涉及一种基于自然语义处理的同行车辆发现方法,包括获取车辆行驶轨迹,并通过POI数据富化原始轨迹;从时间、空间、语义三个维度对轨迹数据进行特征提取,并根据其重要程度对特征进行加权融合,获取轨迹向量化表示;将提取的三维特征量化进行融合后,通过划分轨迹‑子轨迹的轨迹对数据集合,形成轨迹语料库;利用GRU模型建立同行车辆发现模型,进行训练时将轨迹语料库中子轨迹作为输入,源轨迹作为目标输出;得到模型中的隐层向量后,由此计算得到每一条轨迹的实际表达;计算所有轨迹的相似度,相似度大于指定阈值的车辆群组即为同行车辆群组;本发明可应用于物流规划、轨迹聚类及轨迹预测,帮助车辆进行路径规划。

Description

一种基于自然语义处理的同行车辆发现方法
技术领域
本发明属于智能交通领域,涉及一种基于自然语义处理的同行车辆发现方法。
背景技术
轨迹是指某种物体按照某种规律所经过的路线。大数据时代下,移动互联网与各种传感器终端的普及产生了海量的轨迹数据。轨迹数据含有丰富的时空特征信息,通过各种轨迹分析技术,可以挖掘人类活动规律与行为特征,城市车辆移动模式,城市发展规模水平等信息。在智能交通中,轨迹主要指的是车辆轨迹或者行人轨迹,所以海量轨迹数据也潜在的暴露出移动对象的兴趣爱好和社会习惯等隐私信息。所以对轨迹数据的研究可以应用在诸如出租车路线规划,船舶,旅游路线推荐,对轨迹进行聚类等分析也可挖掘移动对象行为画像,可以由此解决社会发展规律中隐含的各类社会问题。
轨迹数据已经遍布的生活。每天使用的各种移动通信设备无时无刻不在记录的位置,在路网中,也有大量的监控摄像头记录着各种移动对象的轨迹。在智能交通中,轨迹数据可以分为两类,一类是GPS数据,是由人造地球卫星为基础的高精度无线电导航定位系统产生的数据;另一方面随着图像识别技术的快速发展,可以对图像进行无损测量,ANPR(Automatic Number Plate Recognition车牌自动识别)数据也开始流行起来。在传统的轨迹数据分析中,大多都采用数据挖掘的方法,比如使用频繁模式挖掘算法等,这类算法往往只关注了轨迹中的时空特征信息,而忽略了轨迹中丰富的文本信息,因此开展基于深度学习的轨迹数据分析模型研究,能够更好的挖掘轨迹数据中隐含的轨迹模式,对智能交通的引导与建设有重要意义。
近年来,许多学者在同行车辆发现领域进行了大量的研究,大部分通过计算轨迹之间的相似度来达到发现同行车辆的目的,主要是基于动态规划模型和机器学习算法模型、以及深度学习算法模型。基于动态规划模型的算法主要有以下几种:LCSS最长公共子序列算法,DTW动态时间规划算法,EDR编辑距离算法。基于机器学习算法的主要是通过挖掘频繁模式来发现同行车辆群组。基于深度学习模型的主要是提取轨迹数据中的时空特征信息,进行特征提取,特征向量表达,将同行车轨迹之间的相似问题转化为比较两个向量之间的相似度问题,此类算法具有处理复杂高维数据的优势能力,适用于处理复杂路网环境的轨迹数据分析难题。
发现轨迹数据是时间序列数据,这和自然语言处理相当类似,由此可以将轨迹类比为一条语句,通过计算语句之间的相似度来达到计算轨迹之间的相似度目标。
虽然众多学者对同行车辆发现模型进行了大量的研究,并取得了相当不错的成果,但仍存在一些挑战:
1.轨迹语义表示。轨迹序列拥有和文本序列相似的上下文关系,所以可以将轨迹类比为文本,通过计算不同“文本”之间相似度来计算轨迹之间的相似度,但如何将轨迹数据进行语义量化却是一个未知领域。
2.轨迹语义理解。同行车辆是指在一段时间内,结伴通行若干个交通监控卡口的车辆群组,现有方法都是对单一车辆进行研究,忽略了车辆之间的影响,从而导致无法做到高效的同行车辆发现。
3.轨迹语义发现。一个词由于上下文的不同,其词义也会有较大不同,所以轨迹语义也面临着同样的问题。影响轨迹语义的因子很多,比如车流量,道路形状等,如何寻找出主要的特征因子,成为一个挑战。
发明内容
针对以上挑战,本发明提出一种基于自然语义处理的同行车辆发现方法,具体包括以下步骤:
S1、获取车辆行驶轨迹,车辆的轨迹表示为T={(l1,t1,m1),(l2,t2,m2),…,(ln,tn,mn)},其中ln表示第n个轨迹点的位置信息,tn表示第n个轨迹点的时间信息,mn表示第n个轨迹点的兴趣点文本信息;
S2、从时间、空间、语义三个维度对轨迹数据进行特征提取,并根据其重要程度对特征进行加权融合,获取轨迹向量化表示;
S3、将提取的三维特征量化进行融合后,通过划分轨迹和子轨迹的轨迹对数据集合,形成轨迹语料库,其中子轨迹是对轨迹进行采样得到的采样序列;
S4、利用GRU模型建立同行车辆发现模型,进行训练时将轨迹语料库中子轨迹作为输入,源轨迹作为目标输出;
S5、将同行车辆发现模型的隐层向量作为每一条轨迹的实际表达,计算所有轨迹的相似度,将相似度大于指定阈值的车辆群组即为同行车辆群组。
进一步的,从空间维度对轨迹数据进行特征提取,即从空间维度提取两条轨迹之间的距离,包括:
Figure BDA0003354449920000031
其中,DTW(T1,T2)代表两条轨迹的DTW空间相似性;head(T1)表示轨迹中的第一个位置;head(T2)表示轨迹中的第二个位置;Rest(T1)表示去除第一个位置点后的轨迹;Rest(T2)表示去除第二个位置点后的轨迹;n和m分别为轨迹T1和轨迹T2的长度,即其中的定位点的个数。
进一步的,从时间维度对轨迹数据进行特征提取,设定一个时间阀值,当两个时刻的差值落在给定的阀值之内,则认定为这两个时刻为相似的;若差值未落在给定的阈值之内,则认定为不相似;或者提取两个轨迹时间片段的交集和并集,并计算交集与并集的比值,该比值越趋近于1,则表明该时间片段相似性越高。
进一步的,从语义维度对轨迹数据进行特征提取包括以下步骤:
将公众场合中的设施进行分类,并根据每个类型的属性构建一个访问点的向量表达式;
采用Glove词向量算法来提取轨迹中的语义特征并进行低维向量化;
对语义特征向量的表达进行优化,优化过程中的代价函数表示为:
Figure BDA0003354449920000041
其中,J为Glove词向量模型对语义特征向量的表达进行优化过程中的损失函数;k为出现在单词i上下文中的其他单词;wk为单词k的向量表示;bi和bk是Glove词向量模型的超参数;Xik表示在整个语料库中单词i和单词k共同出现在同一个滑动窗口中的次数。
进一步的,建立同行车辆发现模型计算两条轨迹的相似的过程包括:
假设一条轨迹T,有n个访问点,即轨迹可以表示为T={v1,v2…vn},vi是第i个访问点在时间、空间、语义三维度特征的融合向量,vi=(li,ti,mi);
将轨迹T输入双向GRU模型,提取得到隐层状态;
将隐层状态作为注意力机制的输入,计算隐层状态中元素的权重;
并将得到的权重与隐层状态进行加权求和,得到语义轨迹的向量表达式;
计算两条轨迹的相似性时,计算两条轨迹的向量表达式之间的余弦距离,若两条轨迹向量表达式之间的余弦距离小于设定的阈值,则判断这两条轨迹相似。
进一步的,注意力机制赋予轨迹中拐点更高的权重,若一个点在滑动窗中与其上、下游的节点之间的拐弯角度之和大于设定的阈值,则该点为拐点。
进一步的,得到语义轨迹的向量表达式的过程包括:
将轨迹输入双向GRU模型提取得到隐层状态时,获得维度为2a的隐层状态向量,n个访问点的隐层状态向量构成2a*n的矩阵S;通过注意力机制获得权向量,将得到的权向量与矩阵相乘,得到一条轨迹的语义轨迹的向量表达式,权向量表示为:
u=softmax(w2tanh(w1S))
其中,w1是b*2a的权重矩阵,w2是b维度的参数向量,b是一个可以任意设置的超参数;双向GRU模型包括前向和后向两个GRU,a为单个GRU隐层状态向量的维度。
进一步的,根据轨迹访问点具有的属性,对w2进行扩展,若从一条轨迹中提取到q个访问点,则将w2扩展成一个q*b的矩阵,选择的q个访问点为轨迹中权重大于设置阈值的访问点。
本发明通过分析各类车辆的移动路径,可发现其中隐含的行为模式以及挖掘出社会演化规律,比如不少特殊车辆在进行特殊活动时,驾车协同,交替,掩护通过交通卡口,特殊车辆就呈现出同行伴随模式,故本模型可应用于公共交通安全,物流规划,轨迹聚类及轨迹预测等领域。
附图说明
图1为本发明一种基于自然语义处理的同行车辆发现方法的算法示意图;
图2为本发明中同行车辆群组示例;
图3为本发明中量化轨迹特征的机制;
图4为本发明重要的轨迹因子示例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于自然语义处理的同行车辆发现方法,具体包括以下步骤:
S1、获取车辆行驶轨迹,车辆的轨迹表示为T={(l1,t1,m1),(l2,t2,m2),…,(ln,tn,mn)},其中ln表示第n个轨迹点的位置信息,tn表示第n个轨迹点的时间信息,mn表示第n个轨迹点的兴趣点文本信息;
S2、从时间、空间、语义三个维度对轨迹数据进行特征提取,并根据其重要程度对特征进行加权融合,获取轨迹向量化表示;
S3、将提取的三维特征量化进行融合后,通过划分轨迹和子轨迹的轨迹对数据集合,形成轨迹语料库,其中子轨迹是对轨迹进行采样得到的采样序列;
S4、利用GRU模型建立同行车辆发现模型,进行训练时将轨迹语料库中子轨迹作为输入,源轨迹作为目标输出;
S5、将同行车辆发现模型的隐层向量作为每一条轨迹的实际表达,计算所有轨迹的相似度,将相似度大于指定阈值的车辆群组即为同行车辆群组。
在本发明中,子轨迹就是轨迹的采样序列,轨迹分为三个级别,第一级轨迹就是理想轨迹,其表示形式就是一条连续的曲线,能够准确无误的代表一个物体的移动路线,这一类型轨迹很难获取;第二级轨迹就是设备采集到的轨迹,为真实轨迹,比如GPS定位数据,ANPR车牌自动识别数据,其表示形式为一条离散的序列,能够大致表示一个物体的移动路径,可能受到设备老化,定位漂移,精度不够等等问题影响,这一级别的轨迹也是本发明采集的轨迹类型;第三级轨迹就是采样轨迹,也就是子轨迹,表示形式为一条离散的序列,是真实轨迹的采样序列。
实施例
在本实施例中,本发明主要包括三个步骤:
S1:在线获取数据。获取数据的方式是从公开的数据网站,或者与交通部门合作得到原始数据。这里需要获取的数据是车辆的行驶记录,包括车牌号,车辆位置,卡口位置,经纬度等信息,同时通过POI数据富化原始轨迹。
S2:提取轨迹特征。根据获取到的数据,提取车辆在每个时刻的时间特征、空间特征,语义特征,并使用CLOVE词向量算法将三者进行量化表达,将深度学习常用的CONCAT操作替换为加权特征向量融合。
S3:建立模型。首先,通过不同时间切片长度,不同采样得到轨迹-子轨迹集合,依据不同的特征得到轨迹低维向量化表达,最终作为语料库保存。将子轨迹作为模型的输入,源轨迹作为模型的输出,得到隐层向量,然后在实际进行发现的时候,输入两条轨迹,分别通过隐层向量转换,得到轨迹的低维向量表达,通过计算轨迹的相似度来发现轨迹数据中的同行车辆群租。
上述步骤S1获取数据源。主要分以下3个步骤。
S11:获取原始数据。通过智能交通数据平台或公开的数据网站都可以得到原始数据。
S12:简单的数据清洗。通常获取的原始数据都是非结构化的,不能直接用于数据分析。通过简单的数据清洗可以使大部分非结构化数据结构化,使得异常值或空值不再出现,减少对于后续计算带来的不便。
S13:数据存储。通过简单数据清晰后的数据需要使用数据库进行存储,因为轨迹数据的数据量十分庞大,通过表结构对数据进行进一步的规范化,并且通过数据库也能够极大的提高数据的检索效率以及表间关系的映射。
上述步骤S2提取轨迹特征。主要分为以下三个步骤。
在路网中,同行车辆群组的形成受到行车时间,行车地点,车流量等多重因子的影响,本文还通过POI数据,富化轨迹数据,提取其中的文本信息,综上所述,本文从时间,空间,语义三个维度对轨迹数据进行了特征提取与表达,具体如下:
S21:提取空间特征Tspace
空间特征是轨迹数据中最原始的特征,计算不同轨迹的空间相似性通常是根据轨迹上位置点的坐标来计算其空间距离或者计算物体的运动轨迹形状的。如果不同轨迹之间的空间距离很相近或者形状很类似,就可以判定这些轨迹是相似的,从而认定这些车辆大概率是同行车辆。空间数据分析中常用的一种策略是将整个区域划分为许多大小相等的单元格,这样每个点都可以表示为一个唯一的标记值。计算空间相似性的算法很多,比如LSD算法,DTW算法,LCSS算法,EDR算法,ERP算法等等。本文采用DTW算法来衡量轨迹之间的相似度,若轨迹T1={p1,1,p1,2,…p1,n},T2={p2,1,p2,2,…p2,n},那么T1和T2的DTW距离由如下公式计算:
Figure BDA0003354449920000081
其中DTW(T1,T2)代表两条轨迹的DTW空间相似性,轨迹中的第一个位置用head(T1)表示,去除第一个位置点后的轨迹用Rest(T1)表示,n和m分别为两条轨迹的长度,即其中的定位点的个数,DTW算法可以计算两条长度不相等的轨迹之间的相似度。
S22:提取时间特征Ttime
在时间相似性度量中,时间的种类分为两种时间,一种为精确的时刻,一种为时间片段,当表示为精确的时刻,有两种方法来判定其相似性:
一、比对两个时刻是否完全相同,若相同则判定它为相似的;若不同,则不相似,此方法太过苛刻,一般不使用。
二、设定一个时间阀值,当两个时刻的差值落在给定的阀值之内,则认定为这两个时刻为相似的;若差值未落在给定的阈值之内,则认定为不相似。对于时间片段的相似性度量,通常是取这辆个时间片段的交集和并集,并计算交集与并集的比值,若该比值越趋近于1,则表明该时间片段相似性越高。
Figure BDA0003354449920000082
Figure BDA0003354449920000083
Figure BDA0003354449920000084
S23:提取语义特征Tsem
轨迹中隐含有大量的文本信息,可以用来精确轨迹位置,提升轨迹向量表示的准确度,这是时空特征所不能比拟的。在常用的空间网格化算法中,受到网格单元大小的影响,轨迹会有不同的表达,比如当空间网格大小为1X1时,轨迹表达可能为(1,3,5),但是当空间网格为10X10时,轨迹表达为(1),原有的三个轨迹点被并为了一个轨迹点,导致轨迹表达很模糊,无法准确的表示一条轨迹,但是只要加上极少的关键文本信息就能定位到这一个点,比如上述位置,加上关键信息-中国银行,那么在该范围内,基本就能唯一确定该点。
通过调查现实生活中公共场所的种类及分布,一共归纳出28种访问点类型,包括体育馆、住宅、超市,宾馆、家具城、医院、停车场、电影院、公园、景点、公交站、茶馆、银行、图书馆、书店、餐厅、学校、机场、工厂、游乐园、网吧、市场、便利店、汽车城、政府机构、娱乐场所、公共场所、私人场所等,本领域技术人员可以根据实际情况对这些场所进行自定义,本发明只提供这一列具体访问点类型。对于访问点类型的向量表达一般有两种表达,one-hot和distributed表达,其中one-hot是一种简单直接的方式,在这个问题中,可以把访问点类型编码为互相独立的向量,即两个访问点类型只有相同和不同两种关系,这对于相似度计算并不是一个好的表达方式,而distributed表达则可以避免这种情况。所以为了更准确地计算语义之间的相似性,选择distributed表达。根据现实生活中人们在不同类型访问点的活动,归纳出访问点的10个属性,分别为公共场地、消费、娱乐、学习、观光、运动、健康、交通、办公、停留时间,这10个属性分别对应语义特征向量的10个维度。对每种访问点,在以上的10个属性打分,将得到一个10维度的向量,这个向量即为该类型访问点的语义特征向量。
综上所述,利用文本信息来衡量两条轨迹之间的相似度是高效且准确的。采用Glove词向量算法来提取轨迹中的语义特征并进行低维向量化。通过最小化如下的代价函数来优化其语义特征向量的表达:
Figure BDA0003354449920000091
其中Xik的意义为在整个语料库中,单词i和单词k共同出现在同一个滑动窗口中的次数,bi和bk是模型的超参数。
上述步骤S3建立模型,主要分为以下几个步骤。
本模型主要分为几个阶段:轨迹语义表示,轨迹语义理解,轨迹语义发现,如图1所示。第一阶段,从轨迹中的多维特征出发,提出Ts2Vec算法,基于深度学习,将时间,空间,语义特征进行向量低维稠密化。第二阶段,综合考虑同行车辆群组形成过程中影响轨迹相似的内外部因素,量化不同的状态因子。第三阶段,建立基于双向GRU模型的同行车辆发现模型。
S31:进行轨迹特征提取和特征融合
基于上文提到的研究动机,的研究方式是将轨迹类比为语句,研究目标是实现深刻的轨迹语义理解,即给定一条轨迹,找到与该轨迹相似的轨迹集合。在完成上述不同的轨迹特征表示之后,为了更加全面的表示一条轨迹的向量,深度学习中常用的方法为CONCAT操作,进行不同特征的融合,也就是将不同的特征向量通过拼接的方式形成最后的表示向量。但通过拼接的方式来进行模型的输入输出无疑是非常朴素且片面的,由此提出了以下的研究思路。
在现实生活中,存在真实轨迹Tbase,设定一个采样率R对其进行采样,形成了一条采样轨迹Tsampling。对于Tbase和Tsampling来说,都能够反应理想轨迹Tideal的部分性质,但显然真实轨迹Tbase更接近Tideal。这样,的研究目标就成为了,将采样轨迹Tsampling作为encoder的输入,而将真实轨迹Tbase作为decoder的输出,进行轨迹补点,完成从采样到真实轨迹的映射。与此类比,在实际进行发现时,输入一条真实轨迹Tbase,以此来发现其他相似的真实轨迹Tbase,。轨迹补点实际上就是由采样轨迹向实际轨迹,实际轨迹向理想轨迹靠齐的,为缺失的轨迹段选择合理的点填入过程。如果同时考虑语义及时空三种特征信息来衡量其接近程度,如果是采用拼接的方式来生成最终的输入,会导致在轨迹补点过程中,默认为三种特征具有同样的重要程度,但实验发现,在不同的情况下,对于轨迹补点的主要特征是不一样的。对于空间特征平稳,此时需要丰富语义特征来进行补点,而对于空间位置变化不大的轨迹来讲,其空间特性比平坦性轨迹鲜明很多,所以在轨迹补点算法中,空间特性需要赋予更多的权重。综上所述,不同的轨迹特征对于轨迹补点的贡献是不同的,通过拼接方式是朴素的,应该通过加权的方式进行向量表示。最终表示的向量为:
T={αT1 sem+βT1 time+γT1 space,…,αTn sem+βTn time+γTn space}
其中Tsem,Ttime,Tspace为对应的时间,空间,语义特征向量,α,β,γ为相应的权重参数,且α+β+γ=1。
S32:量化同行车辆状态因子
在上述过程中,主要是通过结合车辆活动轨迹中丰富的语义信息完善轨迹补点任务,由此训练深度学习模型来学习生成轨迹表示向量。但是却存在一个不足:由于隐层节点数量的限制,模型对长轨迹输入的学习能力不强。而在进行同行车辆求解的过程中,通常轨迹都是冗长的。故需要对长轨迹内部繁杂的定位点进行判别,分离出那些具有强影响力的定位点。如图X中P2和P3,这类点往往决定这轨迹的走向,而P1和P4不会改变其原有的走向,将P2和P3称为拐点,所以在计算轨迹相似度时,P2和P3应该被赋予更高的权重,而略过那些平常的点,这样的方式训练出的向量才能够捕捉到长轨迹中存在的主导特征和信息。根据上文所述提取的三种轨迹特征向量是具有相同维度大小的矩阵(D x T),其中T是指轨迹中记录点的个数,及轨迹的长度,而D是指潜在特征因子的维数。通过按列来拼接三个特征矩阵,轨迹输入可以表达为,为了简化表达,用N表示3d,d为时间、空间或者语义中任一的维度,因此,最终将模型的最终输入表达为一个N行(N个特征)和T列(T个记录点)的矩阵,取并集生成轨迹矩阵E。假定矩阵E的第j列可以用作第j个轨迹点的表示,记为E(·,j)。为了进一步优化轨迹矩阵,在编码阶段首先添加了一层注意力机制。在时间片t下,其实现方式是利用上一层隐藏状态h和记忆单元状态值q来计算权值,从而为每个轨迹点进行加权处理。完成权值计算之后,通过softmax函数对注意力权重进行规范化:
Figure BDA0003354449920000121
Figure BDA0003354449920000122
其中,
Figure BDA0003354449920000123
W(2)=RN*N,b1、v1指代神经网络的参数矩阵,利用随机梯度下降和反向传播等操作来优化参数的学习,最后根据注意力得分和原始轨迹序列得到处理后的轨迹嵌入矩阵。下面列出其第n行加权操作的过程:
Ep(n,.)={E(n,1)αn1,E(n,2)αn2...E(n,T)αnT}
根据第n行可以进一步写出经过注意力机制后的轨迹矩阵为:
Ep={E(1,·)...E(N,·)}
上述的q是从轨迹中提取到的部分访问点,这一部分访问点在该条轨迹中具有较大的权重,这一类型的点一般为拐点或者其他点,本领域技术人员可以根据车辆在某个访问点的停留时间或者具有较大方向上变化的拐点提取出来扩展得到一个与超参数相关的矩阵参数。
S33:建立模型
提出的模型是由两个共享权重的双向GRU组成的,并且引入了自注意力机制,两部分分别得到两条轨迹的低维向量表达用于计算轨迹相似度,轨迹相似度高于阈值的轨迹对即为同行车辆。在双向GRU引入注意力机制,它为GRU的隐层状态提供了一组权向量,这些权向量点乘GRU的隐层状态后求和,得到的加权GRU隐层状态就是轨迹的低维向量表达。
假设有一条轨迹T,它有n个访问点,即T={v1,v2…vn},其中vi是通过上一节得到的k维的访问点时间,空间,语义特征融合向量,因此T为n个k维向量的序列,也就是n*k的二维矩阵。
现以T作为双向GRU模型的属兔,获得轨迹中向量访问点之间的依赖性,可以得到:
Figure BDA0003354449920000124
Figure BDA0003354449920000125
将每个
Figure BDA0003354449920000131
Figure BDA0003354449920000132
连接得到一个隐层向量St,设每个单向GRU的隐层状态向量为a维,把所有的n个St记为S,则S是大小为2a*n的矩阵。S=(s1,s2,s3…sn)。的目标是将一个可变长度的轨迹编码成一个固定大小的向量,由S中n个GRU隐层状态向量的线性组合来实现。线性组合的权重通过引人自注意机制而得到,自注意力机制以整个GRU隐层状态S为输入,输出权向量u:
u=softmax(w2tanh(w1S))
其中w1是b*2a的权重矩阵,w2是b维度的参数向量,这里的b是一个可以任意设置的超参数,softmax确保所有计算的权重之和为1。根据u提供的权值对GRU隐层状态S加权求和,得到输入语义轨迹的向量表示形式m。
这种向量表示的信息集中在轨迹的特定部分,比如一组访问点类型相关联的轨迹点或者空间临近的轨迹点,它能够反映一条轨迹中的局部信息。因此,为了表示完整语义轨迹信息,设计了多角度的注意力机制,关注轨迹的不同部分。假设从轨迹中提取q个不同的部分,需要将w2扩展成一个q*b的矩阵,得到权重矩阵U。
将权重矩阵U和GRU隐层状态S相乘,得到的矩阵为完整轨迹的低维向量表达,于是轨迹的向量表达m变成q*2a的矩阵M:M=US,同理另外一部分用采取相同的策略得到其轨迹的低维表达矩阵,然后通过余弦相似度计算两条轨迹的轨迹相似度
Figure BDA0003354449920000133
只要相似度值大于输入的阈值ε,那么两条轨迹就是相似的,即两条轨迹为同行车辆的轨迹。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于自然语义处理的同行车辆发现方法,其特征在于,具体包括以下步骤:
S1、获取车辆行驶轨迹,车辆的轨迹表示为T={(l1,t1,m1),(l2,t2,m2),…,(ln,tn,mn)},其中ln表示第n个轨迹点的位置信息,tn表示第n个轨迹点的时间信息,mn表示第n个轨迹点的兴趣点文本信息;
S2、从时间、空间、语义三个维度对轨迹数据进行特征提取,并根据其重要程度对特征进行加权融合,获取轨迹向量化表示;
S3、将提取的三维特征量化进行融合后,通过划分轨迹和子轨迹的轨迹对数据集合,形成轨迹语料库,其中子轨迹是对轨迹进行采样得到的采样序列;
S4、利用GRU模型建立同行车辆发现模型,进行训练时将轨迹语料库中子轨迹作为输入,源轨迹作为目标输出;
S5、将同行车辆发现模型的隐层向量作为每一条轨迹的实际表达,计算所有轨迹的相似度,将相似度大于指定阈值的车辆群组即为同行车辆群组。
2.根据权利要求1所述的一种基于自然语义处理的同行车辆发现方法,其特征在于,从空间维度对轨迹数据进行特征提取,即从空间维度提取两条轨迹之间的距离,包括:
Figure FDA0003354449910000011
其中,DTW(T1,T2)代表两条轨迹的DTW空间相似性;head(T1)表示轨迹中的第一个位置;head(T2)表示轨迹中的第二个位置;Rest(T1)表示去除第一个位置点后的轨迹;Rest(T2)表示去除第二个位置点后的轨迹;n和m分别为轨迹T1和轨迹T2的长度,即其中的定位点的个数。
3.根据权利要求1所述的一种基于自然语义处理的同行车辆发现方法,其特征在于,从时间维度对轨迹数据进行特征提取,设定一个时间阀值,当两个时刻的差值落在给定的阀值之内,则认定为这两个时刻为相似的;若差值未落在给定的阈值之内,则认定为不相似;或者提取两个轨迹时间片段的交集和并集,并计算交集与并集的比值,该比值越趋近于1,则表明该时间片段相似性越高。
4.根据权利要求1所述的一种基于自然语义处理的同行车辆发现方法,其特征在于,从语义维度对轨迹数据进行特征提取包括以下步骤:
将公众场合中的设施进行分类,并根据每个类型的属性构建一个访问点的向量表达式;
采用Glove词向量算法来提取轨迹中的语义特征并进行低维向量化;
对语义特征向量的表达进行优化,优化过程中的代价函数表示为:
Figure FDA0003354449910000021
其中,J为Glove词向量模型对语义特征向量的表达进行优化过程中的损失函数;k为出现在单词i上下文中的其他单词;wk为单词k的向量表示;bi和bk是Glove词向量模型的超参数;Xik表示在整个语料库中单词i和单词k共同出现在同一个滑动窗口中的次数。
5.根据权利要求1所述的一种基于自然语义处理的同行车辆发现方法,其特征在于,建立同行车辆发现模型计算两条轨迹的相似的过程包括:
假设一条轨迹T,有n个访问点,即轨迹可以表示为T={v1,v2…vn},vi是第i个访问点在时间、空间、语义三维度特征的融合向量,vi=(li,ti,mi);
将轨迹T输入双向GRU模型,提取得到隐层状态;
将隐层状态作为注意力机制的输入,计算隐层状态中元素的权重;
并将得到的权重与隐层状态进行加权求和,得到语义轨迹的向量表达式;
计算两条轨迹的相似性时,计算两条轨迹的向量表达式之间的余弦距离,若两条轨迹向量表达式之间的余弦距离小于设定的阈值,则判断这两条轨迹相似。
6.根据权利要求5所述的一种基于自然语义处理的同行车辆发现方法,其特征在于,注意力机制赋予轨迹中拐点更高的权重,若一个点在滑动窗中与其上、下游的节点之间的拐弯角度之和大于设定的阈值,则该点为拐点。
7.根据权利要求5所述的一种基于自然语义处理的同行车辆发现方法,其特征在于,得到语义轨迹的向量表达式的过程包括:
将轨迹输入双向GRU模型提取得到隐层状态时,获得维度为2a的隐层状态向量,n个访问点的隐层状态向量构成2a*n的矩阵S;通过注意力机制获得权向量,将得到的权向量与矩阵相乘,得到一条轨迹的语义轨迹的向量表达式,权向量表示为:
u=softmax(w2tanh(w1S))
其中,w1是b*2a的权重矩阵,w2是b维度的参数向量,b是一个可以任意设置的超参数;双向GRU模型包括前向和后向两个GRU,a为单个GRU隐层状态向量的维度。
8.根据权利要求7所述的一种基于自然语义处理的同行车辆发现方法,其特征在于,根据轨迹访问点具有的属性,对w2进行扩展,若从一条轨迹中提取到q个访问点,则将w2扩展成一个q*b的矩阵,选择的q个访问点为轨迹中权重大于设置阈值的访问点。
CN202111347252.8A 2021-11-15 2021-11-15 一种基于自然语义处理的同行车辆发现方法 Pending CN114186582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111347252.8A CN114186582A (zh) 2021-11-15 2021-11-15 一种基于自然语义处理的同行车辆发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111347252.8A CN114186582A (zh) 2021-11-15 2021-11-15 一种基于自然语义处理的同行车辆发现方法

Publications (1)

Publication Number Publication Date
CN114186582A true CN114186582A (zh) 2022-03-15

Family

ID=80602105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111347252.8A Pending CN114186582A (zh) 2021-11-15 2021-11-15 一种基于自然语义处理的同行车辆发现方法

Country Status (1)

Country Link
CN (1) CN114186582A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470872A (zh) * 2022-11-14 2022-12-13 武汉大学 一种基于车辆轨迹数据的司机画像构建方法
CN116776014A (zh) * 2023-07-10 2023-09-19 和智信(山东)大数据科技有限公司 多源轨迹数据表示方法及装置
CN116824866A (zh) * 2023-08-29 2023-09-29 武汉中科通达高新技术股份有限公司 基于时间和地理因素的伴随车分析方法、系统及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470872A (zh) * 2022-11-14 2022-12-13 武汉大学 一种基于车辆轨迹数据的司机画像构建方法
CN116776014A (zh) * 2023-07-10 2023-09-19 和智信(山东)大数据科技有限公司 多源轨迹数据表示方法及装置
CN116776014B (zh) * 2023-07-10 2024-01-16 和智信(山东)大数据科技有限公司 多源轨迹数据表示方法及装置
CN116824866A (zh) * 2023-08-29 2023-09-29 武汉中科通达高新技术股份有限公司 基于时间和地理因素的伴随车分析方法、系统及介质
CN116824866B (zh) * 2023-08-29 2024-01-02 武汉中科通达高新技术股份有限公司 基于时间和地理因素的伴随车分析方法、系统及介质

Similar Documents

Publication Publication Date Title
Zheng et al. Understanding the tourist mobility using GPS: Where is the next place?
CN114186582A (zh) 一种基于自然语义处理的同行车辆发现方法
CN108629978A (zh) 一种基于高维路网和循环神经网络的交通轨迹预测方法
Deng et al. Generating urban road intersection models from low-frequency GPS trajectory data
Zheng et al. U-air: When urban air quality inference meets big data
Quercia et al. The digital life of walkable streets
CN110163439A (zh) 一种基于注意力机制的城市规模出租车轨迹预测方法
Lui et al. Modelling of destinations for data-driven pedestrian trajectory prediction in public buildings
CN109034448A (zh) 基于车辆轨迹语义分析和深度信念网络的轨迹预测方法
Ospina et al. Understanding cycling travel distance: The case of Medellin city (Colombia)
WO2022142418A1 (zh) 一种基于gis地图信息的交通拥堵指数预测方法及装置
Yan et al. xnet+ sc: Classifying places based on images by incorporating spatial contexts
Mackaness et al. Automatic classification of retail spaces from a large scale topographic database
Liao et al. Fusing geographic information into latent factor model for pick-up region recommendation
CN105355038A (zh) 一种利用pma建模预测短期交通流量的方法
Gui et al. In-depth analysis of railway and company evolution of Yangtze River Delta with deep learning
Zhao et al. Learning region similarities via graph-based deep metric learning
Chu et al. Simulating human mobility with a trajectory generation framework based on diffusion model
Li et al. VIS-MM: a novel map-matching algorithm with semantic fusion from vehicle-borne images
CN112650949A (zh) 基于多源特征融合协同过滤的区域poi需求识别方法
Liu et al. Digital twins by physical education teaching practice in visual sensing training system
Lai et al. Travel mode choice prediction based on personalized recommendation model
Zhang et al. SASRM: a semantic and attention spatio-temporal recurrent model for next location prediction
CN113971496A (zh) 活动影响下的城市交通路网状态演化趋势预测方法及系统
Qin et al. Statistical System of Cultural Heritage Tourism Information Based on Image Feature Extraction Technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination