CN116776014B - 多源轨迹数据表示方法及装置 - Google Patents

多源轨迹数据表示方法及装置 Download PDF

Info

Publication number
CN116776014B
CN116776014B CN202310836971.9A CN202310836971A CN116776014B CN 116776014 B CN116776014 B CN 116776014B CN 202310836971 A CN202310836971 A CN 202310836971A CN 116776014 B CN116776014 B CN 116776014B
Authority
CN
China
Prior art keywords
track
data
representation
source
track data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310836971.9A
Other languages
English (en)
Other versions
CN116776014A (zh
Inventor
项阳
闫天一
窦崇铭
司俊俊
羊晋
涂波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hezhixin Shandong Big Data Technology Co ltd
Original Assignee
Hezhixin Shandong Big Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hezhixin Shandong Big Data Technology Co ltd filed Critical Hezhixin Shandong Big Data Technology Co ltd
Priority to CN202310836971.9A priority Critical patent/CN116776014B/zh
Publication of CN116776014A publication Critical patent/CN116776014A/zh
Application granted granted Critical
Publication of CN116776014B publication Critical patent/CN116776014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明提供一种多源轨迹数据表示方法及装置,所述方法包括:获取第一时间段内的多源轨迹数据,将所述第一时间段划分为多个时间区间,确定各所述时间区间内的各轨迹数据的轨迹点的Token值,得到各轨迹数据对应的Token值集合;将各所述Token值集合、各所述轨迹数据的源类别以及时间区间索引信息输入至轨迹表示模型,得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,将所述轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示与位置嵌入表示进行组合得到组合嵌入表示,基于各组合嵌入表示得到各所述轨迹数据的隐状态向量,将各轨迹数据的隐状态向量进行池化得到各轨迹数据的特征表示向量。该多源轨迹数据表示方法可提高轨迹数据表示的准确性。

Description

多源轨迹数据表示方法及装置
技术领域
本发明涉及大数据挖掘技术领域,尤其涉及一种多源轨迹数据表示方法及装置。
背景技术
随着移动设备和定位技术的发展,人在城市空间中移动时产生的轨迹数据类型越来越丰富,如手机信令轨迹、车载GPS轨迹数据,道路卡口监控轨迹,社交媒体行为轨迹等等。这些数据来自不同源头的传感器,虽然记录的是同一个人的移动行为,但不同源的数据的采样率、位置信息准确度等不尽相同。目前在进行轨迹分析时,一般是对单一源的轨迹数据进行分析,而对单一源轨迹数据分析存在着单一数据源轨迹不完整的问题,从而造成轨迹分析结果不准确。
而将多源轨迹数据进行融合分析可以克服单一数据稀疏性强、噪声大等对人类移动的描述和分析所带来的缺点;然而目前多源轨迹分析面临着计算复杂度高、准确性低的问题。Li等虽然研究了利用深度学习技术将原始不均匀的轨迹表示为固定长度数值向量,但其未涉及多源轨迹的问题;且在实际应用中,用户在某一数据源的轨迹可能缺失。因此,针对多源轨迹数据,如何提高轨迹数据表示的准确性是亟待解决的技术问题。
发明内容
有鉴于此,本发明提供了一种多源轨迹数据表示方法及装置,以解决现有技术中存在的一个或多个问题。
根据本发明的一个方面,本发明公开了一种多源轨迹数据表示方法,所述方法包括:
获取第一时间段内的多源轨迹数据,将所述第一时间段划分为多个时间区间,确定各所述时间区间内的各轨迹数据的轨迹点的Token值,得到各轨迹数据对应的Token值集合;
将各所述Token值集合、各所述轨迹数据的源类别以及时间区间索引信息输入至轨迹表示模型,得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,将所述轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示与位置嵌入表示进行组合得到组合嵌入表示,基于各所述组合嵌入表示得到各所述轨迹数据的隐状态向量,将各所述轨迹数据的隐状态向量进行池化得到各所述轨迹数据的特征表示向量。
在本发明的一些实施例中,确定各所述时间区间内的各轨迹数据的轨迹点的Token值,包括:
将各所述轨迹数据的各轨迹点分别分配至各时间区间;
确定各轨迹数据在各时间区间内出现次数最多的轨迹点;
将各时间区间内出现次数最多的轨迹点对应的Token值作为相应时间区间内的Token值。
在本发明的一些实施例中,当所述时间区间内的轨迹点数量为0时,所述时间区间对应的Token值为PAD。
在本发明的一些实施例中,所述方法还包括:
确定所述轨迹表示模型的编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数,基于所述编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数构建模型总损失函数,基于所述模型总损失函数对所述轨迹表示模型的模型参数进行迭代更新;和/或
所述多源轨迹数据包括GPS轨迹数据、手机信令轨迹数据和手机App行为轨迹数据。
在本发明的一些实施例中,所述模型总损失函数为:
L=LBERT+α*LR+β*LG+Lcon
其中,L为模型总损失,LBERT为编码器损失,LR为轨迹还原损失,LG为轨迹生成损失,Lcon为对比学习损失,α和β均为超参数。
在本发明的一些实施例中,确定所述轨迹表示模型的轨迹还原损失函数,包括:
将所述轨迹数据的隐状态向量输入至第一解码器中,得到所述隐状态向量对应的时空轨迹还原数据,基于所述时空轨迹还原数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹还原损失函数。
在本发明的一些实施例中,确定所述轨迹表示模型的轨迹生成损失函数,包括:
将所述轨迹数据的特征表示向量和待生成的其他源的源类别嵌入表示输入至第二解码器,生成与所述轨迹数据不同源的其他源轨迹数据,基于所述其他源轨迹数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹生成损失函数。
在本发明的一些实施例中,所述轨迹还原损失函数为:
LR=Lrec(g)+Lrec(c)+Lrec(a)
其中,Lrec(g)、Lrec(c)、Lrec(a)分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据的轨迹还原损失,tokeni表示轨迹数据在第i个时间区间内的轨迹点的Token值,P1i表示时空轨迹还原数据在第i个时间区间内轨迹点的概率分布,NT表示时间区间总数量,b为g、c或a;
所述轨迹生成损失函数为:
LG=LG(g)+LG(c)+LG(a)
其中,LG(g)、LG(c)和LG(a)分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据相互生成的轨迹生成损失,tokeni表示轨迹数据在第i个时间区间内的轨迹点的Token值,P2i表示所生成的其他源轨迹数据在第i个时间区间内轨迹点的概率分布,NT表示时间区间总数量,b为g、c或a。
根据本发明的另一方面,还公开了一种多源轨迹数据表示系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。
根据本发明的再一方面,还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
本发明上述实施例所公开的多源轨迹数据表示方法及装置,首先确定各时间区间内的各轨迹数据的轨迹点的Token值,然而形成各轨迹数据对应的Token值集合,进而基于轨迹表示模型得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,并根据轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示以及位置嵌入表示形成的组合嵌入表示得到最终的各轨迹数据的特征表示向量。该方法在对轨迹数据进行表示时,考虑了轨迹数据的源类别,因而该方法对于不同类别、大规模、复杂的轨迹数据均可以高效的进行表示,且还提高了轨迹数据表示的准确性。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中:
图1为本发明一实施例的多源轨迹数据表示方法的流程示意图。
图2为本发明一实施例的多源轨迹数据表示系统的架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
图1为本发明一实施例的多源轨迹数据表示方法的流程示意图,参考图1,该多源轨迹数据表示方法至少包括步骤S10和S20。
步骤S10:获取第一时间段内的多源轨迹数据,将所述第一时间段划分为多个时间区间,确定各所述时间区间内的各轨迹数据的轨迹点的Token值,得到各轨迹数据对应的Token值集合。
在该步骤中,是对多源轨迹数据进行数据预处理,多源轨迹数据的类别具有多种,如可为手机信令轨迹数据、车载GPS轨迹数据、道路卡口监控轨迹数据、社交媒体行为轨迹数据等,第一时间段示例性的可为一天、一周等。
另外,对于不同源类别的轨迹数据其采用的坐标系具有差异,因而在确定各所述时间区间内的各轨迹数据的轨迹点的Token值之前,一般的还可将多源轨迹数据中的不同坐标系下的各轨迹点的经纬度转换至同一坐标系下。在一实施例中,获取到的多源轨迹数据为GPS轨迹数据、手机信令轨迹数据和手机App行为轨迹数据,GPS轨迹数据表示为Tg=(g1,g2,...,gi,...gn),手机信令轨迹数据表示为Tc=(c1,c2,...,ci,...cn),手机App行为轨迹数据表示为Ta=(a1,a2,...,ai,...an);gi、ci、ai分别表示三种类别的轨迹数据的第i个轨迹点,且gi、ci、ai均通过三元组(lati,lngi,ti)表示。在该实施例中,第一时间段可为24小时,则获取的第一时间段内的多源轨迹数据为获取到的24小时内的GPS轨迹数据、手机信令轨迹数据和手机App行为轨迹数据。
进一步的,由于不同源类别的轨迹数据采用的坐标系不完全相同,因而为了便于后续进行数据的分析,则将不同坐标系下的三种源类别的数据的经纬度转换至同一坐标系下。具体的,该实施例可采用WGS84坐标系,即将三种源类别的数据的经纬度均转换至WGS84坐标系下。可以理解的,该实施例中所列举的轨迹数据的源类别以及所采用的坐标系的类型仅是一种示例,在其他实施例中,也可根据实际应用场景进行改变。
进一步的,将第一时间段划分为多个时间区间,在该实施例中各时间区间的区间长度均相等,则此时将24小时按照一定的时间间隔均匀划分为NT个时间区间;其中时间间隔可为每分钟、每小时;当时间间隔为每分钟时,则该实施例将24小时均匀划分为NT=1440个时间区间。
其中,确定各所述时间区间内的各轨迹数据的轨迹点的Token值,包括:将各所述轨迹数据的各轨迹点分别分配至各时间区间;确定各轨迹数据在各时间区间内出现次数最多的轨迹点;将各时间区间内出现次数最多的轨迹点对应的Token值作为相应时间区间内的Token值。而若时间区间内的轨迹点数量为0时,所述时间区间对应的Token值为PAD。
示例性的,对于WGS84坐标系下的三种类别的轨迹数据,可利用Google S2或Geohash地理编码将经纬度坐标编码为字符串形式的Token;一般的,可将geohash的精度设置为7到8,误差在19米到76米之间。对于每种轨迹,则将轨迹中的各轨迹点根据时间信息被分配至对应的时间区间内;若某个时间区间内被分配的某条轨迹数据的轨迹点的数量大于1时,则选取该条轨迹的被分配至该时间区间内的出现次数最多的轨迹点的Token值作为相应时间区间内的Token值;而若某个时间区间内被分配的某条轨迹数据的轨迹点的数量为0时,则为该时间区间赋予特殊Token值:PAD。
基于该数据预处理步骤,实现了多源轨迹数据的时空对齐,且得到了各轨迹数据的完整的地理编码Token集合S,而集合S的大小为时间区间数量NS
步骤S20:将各所述Token值集合、各所述轨迹数据的源类别以及时间区间索引信息输入至轨迹表示模型,得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,将所述轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示与位置嵌入表示进行组合得到组合嵌入表示,基于各所述组合嵌入表示得到各所述轨迹数据的隐状态向量,将各所述轨迹数据的隐状态向量进行池化得到各所述轨迹数据的特征表示向量。
在该步骤中,基于轨迹编码模块将原始的时空轨迹数据编码为固定长度的数值向量,以便于后续步骤的计算与分析;其中,Token值集合为在步骤S10中确定的各轨迹数据的Token值集合S。具体的,可采用Transformer编码器实现各轨迹数据的编码;首先在Transformer编码器的嵌入编码层,设置一个嵌入层神经网络,分别用于对轨迹数据的Token值集合、源类别以及时间区间索引进行嵌入编码,得到ET∈Rd、Es∈Rd、Etpye∈Rd;ET表示轨迹嵌入表示,Etpye表示源类别嵌入表示,ES表示时间区间索引嵌入表示,其中d代表的嵌入表示向量的维度,d的大小可设为256。进一步的,基于Transformer编码器得到轨迹数据的位置嵌入表示EPos,则基于Transformer编码器得到的轨迹数据的组合嵌入表示向量为E=ET+ES+Etpye+EPos。可以理解的,当多源轨迹数据包括GPS轨迹数据、手机信令轨迹数据和手机App行为轨迹数据时,则此时得到的不同源类别的轨迹数据的组合嵌入表示向量分别为Eg表示GPS轨迹数据对应的组合嵌入表示向量,Ec表示手机信令轨迹数据对应的组合嵌入表示向量,Ea表示手机App行为轨迹数据对应的组合嵌入表示向量,NT具体的为时间区间的数量,B为同批次轨迹数据的轨迹样本数量,在一实施例中,B的取值为256。
在得到组合嵌入表示向量E之后,则进一步的基于组合嵌入表示向量E得到轨迹数据的隐状态向量H。类似的,GPS轨迹数据、手机信令轨迹数据和手机App行为轨迹数据的隐状态向量H分别被表示为其中,Transformer编码器的层数和头数都可设为2。进一步的,将各所述轨迹数据的隐状态向量进行池化得到各所述轨迹数据的特征表示向量Z,GPS轨迹数据、手机信令轨迹数据和手机App行为轨迹数据的特征表示向量分别被表示为Zg∈RB*d、Zc∈RB*d和Za∈RB*d。示例性的,可将各所述轨迹数据的隐状态向量进行均值池化得到各所述轨迹数据的特征表示向量Z。
为了使本申请的轨迹表示模型获得较好的表示能力,则一实施例的多源轨迹数据表示方法还包括以下步骤:确定所述轨迹表示模型的编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数,基于所述编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数构建模型总损失函数,基于所述模型总损失函数对所述轨迹表示模型的模型参数进行迭代更新。
在一实施例中,可将BERT模型作为本申请的Transformer编码器模型,此时编码器损失函数则具体的为BERT损失函数LBERT。另外,多源轨迹数据的特征表示向量Zg、Zc和Za虽然属于不同的源类别,但其属于同一用户在同一时间段内产生的轨迹数据,因而他们在向量空间应该尽可能相似,因此对于该轨迹表示模型,还可以基于对比学习损失实现模型的优化。轨迹还原损失是指采用解码器对编码器输出的轨迹数据的隐状态向量H进行解码后得到的时空轨迹还原数据与输入至编码器中的原始轨迹数据之间的损失;轨迹生成损失是指采用解码器对源类别嵌入表示和编码器输出的轨迹数据的特征表示向量Z的组合进行解码得到的指定的其他源类别的轨迹数据的损失。
示例性的,模型总损失函数为:
L=LBERT+α*LR+β*LG+Lcon
其中,L为模型总损失,LBERT为编码器损失,LR为轨迹还原损失,LG为轨迹生成损失,Lcon为对比学习损失,α和β均为超参数,具体的可设为1。
示例性的,当多源轨迹数据包括GPS轨迹数据、手机信令轨迹数据和手机App行为轨迹数据时,对比学习损失函数可以表示为:Lcon=InfoNCE(Hg,Hc)+InfoNCE(Hg,Ha)+InfoNCE(Ha,Hc)。Hg、Hc和Ha分别表示GPS轨迹数据、手机信令轨迹数据和手机App行为轨迹数据对应的隐状态向量。可以理解的,在该实施例中,轨迹数据共有三种,而当轨迹数据仅具有两种,如多源轨迹数据仅包括GPS轨迹数据和手机信令轨迹数据时,则对应的对比学习损失函数Lcon=InfoNCE(Hg,Hc)。进一步的,InfoNCE函数可以表示为LInfoNCE=-log(exp(f(xi)Tf(xj)/τ)/∑k[exp(f(xi)Tf(xk)/τ)]);其中f(x)表示编码函数,Xi、Xj表示正样本对,Xk表示负样本,τ为温度参数,用于控制分布的“尖锐度”,在该实施例中温度参数可取0.5。
进一步的,确定所述轨迹表示模型的轨迹还原损失函数,具体可包括:将所述轨迹数据的隐状态向量输入至第一解码器中,得到所述隐状态向量对应的时空轨迹还原数据,基于所述时空轨迹还原数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹还原损失函数。
在该实施例中,首先构建第一解码器,第一解码器的层数和头数与编码器的相同,即第一解码器的层数和头数也均设为2,此时基于编码器输出的隐状态向量利用第一解码器还原编码器输入的原始的轨迹数据。具体的,基于负对数似然损失函数度量第一解码器还原的时空轨迹还原数据和编码器输入的原始的轨迹数据之间的差异。进一步的,当多源轨迹数据包括GPS轨迹数据、手机信令轨迹数据和手机App行为轨迹数据时,轨迹还原损失函数可表示为:
LR=Lrec(g)+Lrec(c)+Lrec(a)
其中,Lrec(g)、Lrec(c)、Lrec(a)分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据的轨迹还原损失,tokeni表示轨迹数据在第i个时间区间内的轨迹点的Token值,P1i表示时空轨迹还原数据在第i个时间区间内轨迹点的概率分布,NT表示时间区间总数量,b为g、c或a。
在其他实施例中,确定所述轨迹表示模型的轨迹生成损失函数,具体可包括:将所述轨迹数据的特征表示向量和待生成的其他源的源类别嵌入表示输入至第二解码器,生成与所述轨迹数据不同源的其他源轨迹数据,基于所述其他源轨迹数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹生成损失函数。
在该实施例中,首先构建第二解码器,第二解码器的结构与第一解码器的结构相同,此时将轨迹数据的特征表示向量Z和所要生成的其他源的源类别嵌入表示Etype进行相加并输入至第二解码器中,第二解码器进而基于其输入生成指定类别的其他源轨迹数据。具体的,基于负对数似然损失函数度量第二解码器生成的其他源轨迹数据和真实轨迹数据之间的差异。示例性的,当多源轨迹数据包括GPS轨迹数据、手机信令轨迹数据和手机App行为轨迹数据时,轨迹生成损失函数可表示为:
LG=LG(g)+LG(c)+LG(a)
其中,LG(g)、LG(c)和LG(a)分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据相互生成的轨迹生成损失,tokeni表示轨迹数据在第i个时间区间内的轨迹点的Token值,P2i表示所生成的其他源轨迹数据在第i个时间区间内轨迹点的概率分布,NT表示时间区间总数量,b为g、c或a。
在其他一些实施例中,基于训练好的轨迹表示模型得到的多源轨迹数据的特征表示向量还可进一步的存储至向量数据库,从而便于进行多源轨迹数据的检索。并且当用户的某一源的轨迹缺失时,则利用本申请的多源轨迹数据表示方法还可进一步的实现轨迹数据的跨源的生成,从而输出用户的伴随轨迹,进而便于解决单一源轨迹数据不完整等问题。
对应的,本发明还提供了一种多源轨迹数据表示系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。
示例性的,图2为本发明一实施例的多源轨迹数据表示系统的架构示意图,参考图2,该多源轨迹数据表示系统可以包括数据预处理模块、轨迹编码模块、轨迹表示模块、对比学习模块、轨迹还原模块以及跨源轨迹数据生成模块。数据预处理模块的主要任务是对来自多种源类别的原始轨迹数据进行预处理,包括数据清洗、归一化等,目的是将不同源的不同时空粒度的轨迹数据进行时空对齐,满足后续分析的需求。轨迹编码模块的主要任务是对预处理过的轨迹数据进行编码,将每个原始轨迹点编码为固定长度的数值向量,从而将不同源类别的轨迹编码到同一向量空间。轨迹表示模块的主要任务是对编码后的轨迹数据进行池化,获取轨迹的特征表示向量。对比学习模块利用多源轨迹数据进行对比学习,提高轨迹表示模型对轨迹数据的时空特征的表达能力。轨迹还原模块的主要任务是基于轨迹数据的隐状态向量对原始轨迹进行还原,以便于训练轨迹表示模型,从而获得表达能力更好的特征表示向量。跨源轨迹数据生成模块的主要任务是根据获得的轨迹数据的特征表示向量和所要生成的轨迹数据的源类别嵌入表示,生成指定的源类别的轨迹数据,该模块用于生成用户在指定数据源空间的伴随轨迹的原始轨迹数据。
另外,为了便于对生成的特征表示向量进行检索,则该多源轨迹数据表示系统还可包括轨迹检索模块,该模块利用向量数据库对多源轨迹数据实现高效检索。
另外,该发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
通过上述实施例可以发现,本申请的多源轨迹数据表示方法及装置,首先确定各时间区间内的各轨迹数据的轨迹点的Token值,然而形成各轨迹数据对应的Token值集合,进而基于轨迹表示模型得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,并根据轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示以及位置嵌入表示形成的组合嵌入表示得到最终的各轨迹数据的特征表示向量。该方法及装置解决了基于原始多源轨迹数据进行分析所面临的复杂性、不一致性等问题;并且该方法在对轨迹数据进行表示时,考虑了轨迹数据的源类别,因而该方法对于不同类别、大规模、高维、复杂、动态的轨迹数据均可以高效的进行表示,且还提高了轨迹数据表示的准确性。该方法及装置还可以根据输入的单一源轨迹数据生成其他源上的伴随轨迹数据,克服单一数据源稀疏性等问题,提高轨迹数据完整性和对用户移动的描述能力。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种多源轨迹数据表示方法,其特征在于,所述方法包括:
获取第一时间段内的多源轨迹数据,将所述第一时间段划分为多个时间区间,确定各所述时间区间内的各轨迹数据的轨迹点的Token值,得到各轨迹数据对应的Token值集合;
将各所述Token值集合、各所述轨迹数据的源类别以及时间区间索引信息输入至轨迹表示模型,得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,将所述轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示与基于Transformer编码器得到的轨迹数据的位置嵌入表示进行组合得到组合嵌入表示,基于各所述组合嵌入表示得到各所述轨迹数据的隐状态向量,将各所述轨迹数据的隐状态向量进行池化得到各所述轨迹数据的特征表示向量;
确定所述轨迹表示模型的编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数,基于所述编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数构建模型总损失函数,基于所述模型总损失函数对所述轨迹表示模型的模型参数进行迭代更新;
其中,确定所述轨迹表示模型的轨迹还原损失函数,包括:
将所述轨迹数据的隐状态向量输入至第一解码器中,得到所述隐状态向量对应的时空轨迹还原数据,基于所述时空轨迹还原数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹还原损失函数;
确定所述轨迹表示模型的轨迹生成损失函数,包括:
将所述轨迹数据的特征表示向量和待生成的其他源的源类别嵌入表示输入至第二解码器,生成与所述轨迹数据不同源的其他源轨迹数据,基于所述其他源轨迹数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹生成损失函数。
2.根据权利要求1所述的多源轨迹数据表示方法,其特征在于,确定各所述时间区间内的各轨迹数据的轨迹点的Token值,包括:
将各所述轨迹数据的各轨迹点分别分配至各时间区间;
确定各轨迹数据在各时间区间内出现次数最多的轨迹点;
将各时间区间内出现次数最多的轨迹点对应的Token值作为相应时间区间内的Token值。
3.根据权利要求2所述的多源轨迹数据表示方法,其特征在于,当所述时间区间内的轨迹点数量为0时,所述时间区间对应的Token值为PAD。
4.根据权利要求1所述的多源轨迹数据表示方法,其特征在于,所述方法还包括:
所述多源轨迹数据包括GPS轨迹数据、手机信令轨迹数据和手机App行为轨迹数据。
5.根据权利要求4所述的多源轨迹数据表示方法,其特征在于,所述模型总损失函数为:
其中,L为模型总损失函数,L BERT 为编码器损失函数,L R 为轨迹还原损失函数,L G 为轨迹生成损失函数,L con 为对比学习损失函数,α和β均为超参数。
6.根据权利要求5所述的多源轨迹数据表示方法,其特征在于,
所述轨迹还原损失函数为:
其中,L rec(g) L rec(c) 、L rec(a) 分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据的轨迹还原损失,token i 表示轨迹数据在第i个时间区间内的轨迹点的Token值,P 1i 表示时空轨迹还原数据在第i个时间区间内轨迹点的概率分布,N T表示时间区间总数量,b为g、c或a;
所述轨迹生成损失函数为:
其中L G(g) L G(c) L G(a) 分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据相互生成的轨迹生成损失,token i 表示轨迹数据在第i个时间区间内的轨迹点的Token值,P 2i 表示所生成的其他源轨迹数据在第i个时间区间内轨迹点的概率分布,N T表示时间区间总数量,b为g、c或a。
7.一种多源轨迹数据表示系统,该系统包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如权利要求1至6中任意一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任意一项所述方法的步骤。
CN202310836971.9A 2023-07-10 2023-07-10 多源轨迹数据表示方法及装置 Active CN116776014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310836971.9A CN116776014B (zh) 2023-07-10 2023-07-10 多源轨迹数据表示方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310836971.9A CN116776014B (zh) 2023-07-10 2023-07-10 多源轨迹数据表示方法及装置

Publications (2)

Publication Number Publication Date
CN116776014A CN116776014A (zh) 2023-09-19
CN116776014B true CN116776014B (zh) 2024-01-16

Family

ID=88011442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310836971.9A Active CN116776014B (zh) 2023-07-10 2023-07-10 多源轨迹数据表示方法及装置

Country Status (1)

Country Link
CN (1) CN116776014B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117062009B (zh) * 2023-10-11 2024-01-23 北京艾瑞数智科技有限公司 一种伴随轨迹的判别方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186582A (zh) * 2021-11-15 2022-03-15 重庆邮电大学 一种基于自然语义处理的同行车辆发现方法
CN114446052A (zh) * 2022-01-17 2022-05-06 东南大学 基于多源数据多级融合的高速公路事件检测方法及装置
CN115563449A (zh) * 2022-09-02 2023-01-03 北京网瑞达科技有限公司 个人轨迹检测方法、装置、电子设备和存储介质
CN115617933A (zh) * 2022-10-11 2023-01-17 厦门市美亚柏科信息股份有限公司 基于时空数据的多维轨迹分析及可视化方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220028262A1 (en) * 2020-07-24 2022-01-27 Lyft, Inc. Systems and methods for generating source-agnostic trajectories

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186582A (zh) * 2021-11-15 2022-03-15 重庆邮电大学 一种基于自然语义处理的同行车辆发现方法
CN114446052A (zh) * 2022-01-17 2022-05-06 东南大学 基于多源数据多级融合的高速公路事件检测方法及装置
CN115563449A (zh) * 2022-09-02 2023-01-03 北京网瑞达科技有限公司 个人轨迹检测方法、装置、电子设备和存储介质
CN115617933A (zh) * 2022-10-11 2023-01-17 厦门市美亚柏科信息股份有限公司 基于时空数据的多维轨迹分析及可视化方法及装置

Also Published As

Publication number Publication date
CN116776014A (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN111400620B (zh) 基于时空嵌入Self-Attention的用户轨迹位置预测方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
US20230018848A1 (en) Anomaly detector, method of anomaly detection and method of training an anomaly detector
US20200117906A1 (en) Space-time memory network for locating target object in video content
CN112767554B (zh) 一种点云补全方法、装置、设备及存储介质
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN112396613B (zh) 图像分割方法、装置、计算机设备及存储介质
CN110210513B (zh) 数据分类方法、装置及终端设备
CN112863180B (zh) 交通速度预测方法、装置、电子设备及计算机可读介质
CN111526119B (zh) 异常流量检测方法、装置、电子设备和计算机可读介质
CN116776014B (zh) 多源轨迹数据表示方法及装置
CN115374375B (zh) 基于深度学习的轨迹聚类方法、系统及存储介质
CN111949877B (zh) 一种个性化兴趣点推荐方法及系统
JP2022018066A (ja) 畳み込み知覚ハッシュアルゴリズムに基づくループ検出方法
CN115083435B (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN112200173B (zh) 多网络模型训练方法、图像标注方法和人脸图像识别方法
Zhao et al. Michelangelo: Conditional 3d shape generation based on shape-image-text aligned latent representation
CN116978011B (zh) 一种用于智能目标识别的图像语义通信方法及系统
CN111460876A (zh) 用于识别视频的方法和装置
CN116186358A (zh) 一种深度轨迹聚类方法、系统及存储介质
CN117216546A (zh) 模型训练方法、装置、电子设备、存储介质及程序产品
CN111027681A (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN115114329A (zh) 数据流异常检测的方法、装置、电子设备和存储介质
CN116030077A (zh) 基于多数据集协作学习的视频显著性区域检测方法
CN116049887A (zh) 基于轨迹预测的隐私轨迹发布方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant