CN113177470B - 行人轨迹预测方法、装置、设备及存储介质 - Google Patents
行人轨迹预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113177470B CN113177470B CN202110466638.4A CN202110466638A CN113177470B CN 113177470 B CN113177470 B CN 113177470B CN 202110466638 A CN202110466638 A CN 202110466638A CN 113177470 B CN113177470 B CN 113177470B
- Authority
- CN
- China
- Prior art keywords
- attribute
- node
- target object
- target
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 230000003993 interaction Effects 0.000 claims abstract description 76
- 238000010586 diagram Methods 0.000 claims abstract description 56
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 22
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请提供一种行人轨迹预测方法、装置、设备及存储介质,构建时空图,时空图包括多个时刻下的当前视频帧对应的空间图,空间图包括目标节点以及各个目标节点之间的连接边。根据目标节点的节点属性以及连接边的连接边属性确定目标对象的最终空间属性值,节点属性包括目标对象的场景特征和轨迹特征,连接边属性包括两个目标对象之间的交互强度。根据多个时刻下的最终空间属性值确定目标对象的时间依赖关系。根据时间依赖关系预测预设时间长度的视频帧中各个目标对象的轨迹。将场景特征和轨迹特征作为节点属性,根据节点属性和连接边属性进行交互强度优化,得到最终空间属性值,提高了复杂场景下的行人轨迹预测结果的准确性。
Description
技术领域
本申请涉及内容制作排版领域,提出了一种行人轨迹预测方法、装置、设备及存储介质。
背景技术
行人轨迹预测是一个非常热门的研究方向,广泛应用于自动驾驶,智慧城市建设以及监控系统等各领域中。
目前,行人轨迹预测方法将行人作为时空图的节点,节点与节点之间的连接边表示行人之间的交互关系,采用欧氏距离的倒数来衡量两个行人的交互程度,通过卷积运算获取每个行人的时间依赖关系,进而预测未来时刻的行人轨迹。
然而,仅用行人间的距离远近来衡量空间上两个行人的交互程度,无法准确预测复杂场景下的行人轨迹。
发明内容
本申请提供一种行人轨迹预测方法、装置、设备及存储介质,用以解决现有技术无法准确预测复杂场景下的行人轨迹的问题。
第一方面,本申请提供一种行人轨迹预测方法,方法包括:
构建时空图,时空图包括多个时刻下的当前视频帧对应的空间图,空间图包括目标节点以及各个目标节点之间的连接边,其中,目标节点用于表征目标对象,连接边用于表征各个目标对象之间的交互关系;
根据目标节点的节点属性以及连接边的连接边属性确定目标对象的最终空间属性值,节点属性包括目标对象的场景特征和轨迹特征,连接边属性包括两个目标对象之间的交互强度;
根据多个时刻下的最终空间属性值确定目标对象的时间依赖关系;
根据时间依赖关系预测预设时间长度的视频帧中各个目标对象的轨迹。
可选地,根据目标节点的节点属性以及连接边的连接边属性确定目标对象的最终空间属性值,包括:
根据节点属性确定第一连接边属性,第一连接边属性为第一阶段两个目标对象之间的交互强度;
根据第一连接边属性确定第一节点属性,第一节点属性为第一阶段各个目标对象的节点属性;
根据第一节点属性确定第二连接边属性,第二连接边属性为第二阶段两个目标对象之间的交互强度;
根据第二连接边属性确定最终空间属性值,最终空间属性值为第二阶段各个目标对象的节点属性。
可选地,根据节点属性确定第一连接边属性,包括:
根据第一公式计算获得第一连接边属性,第一公式包括:
可选地,根据第一连接边属性确定第一节点属性,包括:
根据第二公式计算获得第一节点属性,第二公式包括:
其中,V(1)表示观测序列长度下所有目标对象的第一节点属性,σ(·)是激活函数,Λ={Λt|t∈{1,…,Tobs}}表示观测序列长度下Λt的集合,Λt是At+I的节点度矩阵的对角矩阵,At是由组成的矩阵,I表示自身连接,Tobs表示观测序列长度,A={At|t∈{1,…,Tobs}}表示观测序列长度下At的集合,表示标准化拉普拉斯矩阵,V={Vt|t∈{1,…,Tobs}}表示观测序列长度下Vt的集合,表示的集合,N表示目标对象数量,W1表示线性变换的权重矩阵。
可选地,根据第一节点属性确定第二连接边属性,包括:
根据第三公式计算获得第二连接边属性,第三公式包括:
其中,表示t时刻下目标对象i和目标对象j之间的连接边的第二连接边属性,a表示自注意机制的权向量,W2和W3表示线性变换的共享权值矩阵,||表示拼接过程,表示t时刻下目标对象i的第一节点属性,表示t时刻下目标对象j的第一节点属性,表示t时刻下目标对象q的第一节点属性,N表示目标对象数量。
可选地,根据第二连接边属性确定最终空间属性值,包括:
根据第四公式计算获得最终空间属性值,第四公式包括:
第二方面,本申请提供一种行人轨迹预测装置,装置包括:
构建模块,用于构建时空图,时空图包括多个时刻下的当前视频帧对应的空间图,空间图包括目标节点以及各个目标节点之间的连接边,其中,目标节点用于表征目标对象,连接边用于表征各个目标对象之间的交互关系;
处理模块,用于根据目标节点的节点属性以及连接边的连接边属性确定目标对象的最终空间属性值,节点属性包括目标对象的场景特征和轨迹特征,连接边属性包括两个目标对象之间的交互强度;
处理模块,还用于根据多个时刻下的最终空间属性值确定目标对象的时间依赖关系;
处理模块,还用于根据时间依赖关系预测预设时间长度的视频帧中各个目标对象的轨迹。
第三方面,本申请提供一种电子设备,包括:存储器,处理器;
存储器;用于存储处理器可执行指令的存储器;
处理器,用于根据存储器存储的可执行指令,实现第一方面及可选方案涉及的行人轨迹预测方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现第一方面及可选方案涉及的行人轨迹预测方法。
第五方面,本申请提供一种计算机程序产品,包括指令,该指令被处理器执行时实现第一方面及可选方案涉及的行人轨迹预测方法。
本申请提供一种行人轨迹预测方法、装置、设备及存储介质,构建时空图,时空图包括多个时刻下的当前视频帧对应的空间图,空间图包括目标节点以及各个目标节点之间的连接边。根据目标节点的节点属性以及连接边的连接边属性确定目标对象的最终空间属性值,节点属性包括目标对象的场景特征和轨迹特征,连接边属性包括两个目标对象之间的交互强度。根据多个时刻下的最终空间属性值确定目标对象的时间依赖关系。根据时间依赖关系预测预设时间长度的视频帧中各个目标对象的轨迹。将场景特征和轨迹特征作为节点属性,根据节点属性和连接边属性进行交互强度优化,得到最终空间属性值,提高了复杂场景下的行人轨迹预测结果的准确性。
附图说明
图1为本申请提供的一种行人轨迹预测方法的流程示意图;
图2为本申请提供的一种行人轨迹预测方法的流程示意图;
图3为本申请提供的一种行人轨迹预测方法的流程示意图;
图4为本申请提供的一种交互权重优化第一阶段和第二阶段的示意图;
图5为本申请提供的一种时域卷积网络的示意图;
图6为本申请提供的一种行人轨迹预测装置的结构示意图;
图7为本申请提供的一种电子设备的硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
行人轨迹预测是一个非常热门的研究方向,广泛应用于自动驾驶,智慧城市建设以及监控系统等各领域中。在早期工作中,研究者们多采用传统方法来预测,例如Helbing和Molnar提出了一个包含吸引力和排斥力的社会作用行人运动模型,首次提出行人间的相互作用对行人轨迹的影响。后来的研究发现,仅仅依靠吸引和排斥作用是无法充分建模行人间的相互作用的。因此,研究者们提出了一些手工提取特征的方法,例如连续体动力学,离散选择框架等等。近年来,随着深度学习的发展,大家开始尝试利用神经网络来预测行人轨迹。常见的模型包括循环神经网络(Recurrent Neural Network,简称:RNN),生成对抗网络(Generative Adversarial Networks,简称:GAN),注意力机制(Attention Mechanism),图神经网络(Graph Neural Network,简称:GNN)等。
纵观该领域的技术发展可以发现,行人轨迹预测的两个关键技术在于:(1)交互建模。从空间维度上来看,行人轨迹受到诸如周围行人以及环境等各种交互因素的影响,准确建模这些交互对题轨迹预测非常重要。(2)序列预测。从时间维度上来看,行人轨迹预测技术是要通过过去时刻已经观察到的序列,来推断未来时刻行人的轨迹走向,序列预测的准确性也是影响轨迹预测准确性的一个关键技术。
图1为现有技术提供的行人轨迹预测方法的流程示意图。如图1所示,现有技术利用图卷积网络(Graph Convolutional networks,简称:GCN)预测行人轨迹预测,可以分为三个部分:(1)构建时空图,时空图的节点表示行人,连接节点与节点之间的连接边表示行人之间的交互关系。节点属性用对应行人的二维轨迹坐标表示,连接边属性用于衡量行人间交互强度的强弱。(2)空间交互。在完成时空图的构建之后,在空间维度上,计算行人与行人之间的交互强度。按照常理推断,两个行人之间的距离越远,两个人之间的交互关系越小,因此,采用欧氏距离的倒数来衡量两个行人之间的交互强度,欧氏距离越小,两个人之间的交互强度越大。(3)获取时间依赖。对时间维度上构建的时空图采用简单的卷积网络,获取每个行人的时间依赖关系,即过去时刻的轨迹对现在时刻的影响,进而推断未来时刻的轨迹。
然而,仅用行人间的距离远近来衡量空间上两个行人的交互程度,无法准确预测复杂场景下的行人轨迹。
针对上述问题,本申请提出了一种行人轨迹预测方法,在特征提取阶段,利用轨迹特征和场景特征组成拼接特征。在时空图构建阶段,将拼接特征作为节点属性。在空间交互阶段,采用由粗到细的交互强度优化策略,根据交互强度更新节点属性。在时间依赖获取阶段,采用一种简洁而高效的卷积网络来模拟同一行人在不同时刻的时间依赖关系,并得到最终的行人轨迹预测结果。提高复杂场景下的行人轨迹预测结果的准确性。
图2为本申请根据一示例性实施例示出的行人轨迹预测方法的流程示意图。如图2所示,本实施例提供的行人轨迹预测方法包括如下步骤:
S101、构建时空图,时空图包括多个时刻下的当前视频帧对应的空间图,空间图包括目标节点以及各个目标节点之间的连接边,其中,目标节点用于表征目标对象,连接边用于表征各个目标对象之间的交互关系。
更具体地,多个时刻即为Tobs个时刻,Tobs为观测序列长度。当前视频帧为t时刻下的视频序列,其中,t∈{1,…,Tobs}。时空图包括Tobs个空间图。目标对象为当前视频帧中需要进行轨迹预测的行人,行人数量为N,N为大于等于2的正整数。根据t时刻下的视频序列构建空间图。空间图的连接方式是全连接,即每个目标节点都和其他目标节点连接起来,表示每个行人都和这一帧中的其他行人有交互关系。
与知识图谱和社交网络等常见的图数据不同,视频序列并不是一种天然的图数据。为了实现行人轨迹预测,在空间维度上,根据当前视频帧构建合适的空间图。空间图表示为Gt=(Vt,Et)。其中,Gt表示t时刻下的空间图,Vt表示t时刻下的目标节点,Et表示t时刻下各个目标节点之间的连接边。
在时间维度上,同一个目标节点与在相邻视频帧上的对应目标节点连接起来,得到时空图,时空图表示为G={Gt|t∈{1,…,Tobs}}。
每一时刻每个目标节点都有对应的节点属性,t时刻下所有目标节点的集合表示为其中,表示t时刻下目标节点i节点属性,N表示目标节点数量,即t时刻下的视频序列中的行人数量。每一时刻每条连接边都有对应的连接边属性,t时刻下所有连接边的集合表示为 其中,表示t时刻下目标节点i和目标节点j的连接边属性。
在初始阶段,连接边属性赋值为1,表示为节点属性为目标对象的场景特征和轨迹特征。对于场景特征的提取来说,因为行人经常受到周围场景和物体的影响。在这一社会常识的基础上,提取当前视频帧中每个行人周围环境的特征,来表征人和周围物体及场景的相互作用。对于轨迹特征的提取来说,在提取了当前视频帧中二维坐标的基础上,使用一个卷积核尺寸为1的卷积层将二维坐标嵌入到更深的维度中,得到包含更丰富的信息的轨迹特征。在成功提取场景特征和轨迹特征后,将二者连接作为每个目标节点的节点属性。这样做既能有效融合人、景、物三者之间的交互关系,又能将两种不同模式的交互形式处理成相同维度的紧凑特征,便于后续过程的处理。
S102、根据目标节点的节点属性以及连接边的连接边属性确定目标对象的最终空间属性值,节点属性包括目标对象的场景特征和轨迹特征,连接边属性包括两个目标对象之间的交互强度。
在交互权重优化第一阶段,根据初始阶段的节点属性,使用欧式距离来表征行人间的距离并且使用距离的倒数来简单地模拟距离和交互程度的关系,当两个人太靠近的时候,两个目标节点的交互定义为0,更新连接边属性,得到第一连接边属性。根据第一连接边属性,使用GCN聚合节点属性,更新节点属性,得到第一节点属性。使用GCN得到的第一节点属性是基于欧几里得距离度量下空间相互作用的。然而,这并不足以应对更复杂的情况,因为行人之间的互动以及行人与周围场景和物体的互动是复杂而微妙的,不能仅仅用距离来衡量。此外,交互作用还受多种因素的影响,这些因素并不能一一建模。基于这些考虑,进入交互权重优化第二阶段。
在交互权重优化第二阶段,在GCN的基础上,利用图注意力网络(Graph AttentionNetworks,简称:GAT)挖掘出行人之间更深层次的互动,根据第一节点属性,更新连接边属性,得到第二连接边属性。根据第二连接边属性,更新节点属性,得到最终空间属性。
S103、根据多个时刻下的最终空间属性值确定目标对象的时间依赖关系。
更具体地,多个时刻即为Tobs个时刻,Tobs为观测序列长度。t时刻下目标节点i的最终空间属性值表示为其中,t∈{1,…,Tobs},i∈{1,…,N}。在时间维度上,使用时域卷积网络,将连接起来构成目标对象的时间依赖关系。
S104、根据时间依赖关系预测预设时间长度的视频帧中各个目标对象的轨迹。
例如,当观测序列长度Tobs为8,预设时间长度Tpred为12时,可以先通过观测1-8时刻下的当前视频帧,预测9-12时刻下的视频帧中各个目标对象的轨迹,再通过观测2-9时刻下的当前视频帧,预测13-21时刻下的视频帧中各个目标对象的轨迹。
在本实施例提供的方法中,构建时空图,时空图包括多个时刻下的当前视频帧对应的空间图,空间图包括目标节点以及各个目标节点之间的连接边,其中,目标节点用于表征目标对象,连接边用于表征各个目标对象之间的交互关系。根据目标节点的节点属性以及连接边的连接边属性确定目标对象的最终空间属性值,节点属性包括目标对象的场景特征和轨迹特征,连接边属性包括两个目标对象之间的交互强度。根据多个时刻下的最终空间属性值确定目标对象的时间依赖关系。根据时间依赖关系预测预设时间长度的视频帧中各个目标对象的轨迹。将场景特征和轨迹特征作为节点属性,根据节点属性和连接边属性进行两个阶段的交互强度优化,得到最终空间属性值,提高了复杂场景下的行人轨迹预测结果的准确性。
图3为本申请根据另一示例性实施例示出的行人轨迹预测方法的流程示意图。如图3所示,本实施例提供的行人轨迹预测方法包括如下步骤:
S201、构建时空图,时空图包括多个时刻下的当前视频帧对应的空间图,空间图包括目标节点以及各个目标节点之间的连接边,其中,目标节点用于表征目标对象,连接边用于表征各个目标对象之间的交互关系。
其中,步骤S201与图2实施例中的步骤S101实现方式类似,本实施例此处不再赘述。
S202、根据节点属性确定第一连接边属性,第一连接边属性为第一阶段两个目标对象之间的交互强度。
更具体地,在构建时空图时,获取了行人、场景、物体三者交互的初始状态,即目标对象的场景特征和轨迹特征,将其作为此处的节点属性。在交互权重优化第一阶段,使用欧氏距离来表征行人间的距离,并且使用距离的倒数来简单地模拟距离和交互强度的关系。根据目标对象的场景特征和轨迹特征确定连接边的第一连接边属性。
可选地,根据节点属性确定第一连接边属性,包括:
根据第一公式计算获得第一连接边属性,第一公式包括:
其中,表示t时刻下目标对象i和目标对象j之间的连接边的第一连接边属性,i∈{1,…,N},j∈{1,…,N},表示t时刻下目标对象i的节点属性,表示t时刻下目标对象j的节点属性,表示t时刻下目标对象i和目标对象j之间的欧式距离。当两个人太靠近的时候,他们两个的交互定义为0。
在交互权重优化第一阶段,带权邻接矩阵At表征行人之间的交互强度,At是由组成的矩阵。本申请中At的计算基于这样一个假设:两个行人之间的距离越远,他们之间的互动就越少。例如,当人们走得更近时,他们往往会互相问候。
S203、根据第一连接边属性确定第一节点属性,第一节点属性为第一阶段各个目标对象的节点属性。
更具体地,在交互权重优化第一阶段,根据连接边的第一连接边属性,使用GCN来聚合目标对象之间的特征,确定第一节点属性。
可选地,根据第一连接边属性确定第一节点属性,包括:
根据第二公式计算获得第一节点属性,第二公式包括:
其中,V(1)表示观测序列长度下所有目标对象的第一节点属性,σ(·)是激活函数,Λ={Λt|t∈{1,…,Tobs}}表示观测序列长度下Λt的集合,Λt是At+I的节点度矩阵的对角矩阵,At是由组成的矩阵,I表示自身连接,Tobs表示观测序列长度,A={At|t∈{1,…,Tobs}}表示观测序列长度下At的集合,表示标准化拉普拉斯矩阵,V={Vt|t∈{1,…,Tobs}}表示观测序列长度下Vt的集合,表示的集合,N表示目标对象数量,W1表示线性变换的权重矩阵。
GCN得到的第一节点属性是基于欧几里得距离度量下空间相互作用的。然而,这并不足以应对更复杂的情况,因为行人之间的互动以及行人与周围场景和物体的互动是复杂而微妙的,不能仅仅用距离来衡量。此外,交互作用还受多种因素的影响,这些因素并不能一一建模。基于这些考虑,在交互权重优化第二阶段,利用GAT,基于GCN的先验知识,挖掘出行人之间更深层次的互动。
S204、根据第一节点属性确定第二连接边属性,第二连接边属性为第二阶段两个目标对象之间的交互强度。
更具体地,在交互权重优化第二阶段,GAT利用其邻域特征自适应地学习每个目标节点的交互强度。对于目标节点i来说,它的邻居目标节点j的交互强度通过第三公式计算得到,作为第二连接边属性。
可选地,根据第一节点属性确定第二连接边属性,包括:
根据第三公式计算获得第二连接边属性,第三公式包括:
其中,表示t时刻下目标对象i和目标对象j之间的连接边的第二连接边属性,a表示自注意机制的权向量,W2和W3表示线性变换的共享权值矩阵,||表示拼接过程,表示t时刻下目标对象i的第一节点属性,表示t时刻下目标对象j的第一节点属性,表示t时刻下目标对象q的第一节点属性,N表示目标对象数量。
S205、根据第二连接边属性确定最终空间属性值,最终空间属性值为第二阶段各个目标对象的节点属性。
更具体地,在交互权重优化第二阶段,为了稳定自注意过程,根据第二连接边属性,使用多头注意机制,得到最终空间属性值。
可选地,根据第二连接边属性确定最终空间属性值,包括:
根据第四公式计算获得最终空间属性值,第四公式包括:
图4为交互权重优化第一阶段和第二阶段的示意图。如图4所示,在空间维度上,交互权重优化第一阶段为粗优化,交互权重优化第二阶段为细优化,经过由粗到细的权重优化策略,得到最终空间属性值。最终空间属性值为最终的聚合行人特征,充分体现了空间交互作用。
S206、根据多个时刻下的最终空间属性值确定目标对象的时间依赖关系。
更具体地,经过交互权重优化第一阶段和第二阶段,得到人、景、物三者间的最终空间属性值之后,使用一种紧致而高效的时域卷积网络来捕获时间依赖性。根据多个时刻下的最终空间属性值,使用一个简单的卷积层,通过第五公式将通道数变成5,得到目标对象的时间依赖关系。第五公式如下:
V(3)=V(2)W5
其中,V(3)的维度是(1,5,Tobs,N),Tobs为观测序列长度,N为节点数量,W5表示根据训练得到的第五公式的参数矩阵。
S207、根据时间依赖关系预测预设时间长度的视频帧中各个目标对象的轨迹。
更具体地,根据时间依赖关系,利用第二个卷积操作,通过第六公式将序列长度从观测序列长度Tobs变成预测序列长度Tpred,由此,得到预设时间长度的视频帧中各个目标对象的轨迹,表示为V(4)。第六公式如下:
V(4)=V(3)W6
其中,V(4)的维度是(1,Tpred,5,N),Tpred为预测序列的长度,W6表示根据训练得到的第六公式的参数矩阵。
图5为本申请提供的紧致而高效的时域卷积网络的示意图。如图5所示,本申请使用更少的网络层数获得了更大的感受野,消除了引入丰富的视觉特征带来的信息冗余,使得时域上的计算和预测更加高效。
在本实施例提供的方法中,在空间维度上,利用空间图来描述人、景、物这三要素之间的交互强度。在轨迹特征的基础上,还引入场景特征作为节点属性。通过由粗到细的权重优化策略得到最终空间属性值,以便更好地模拟空间上目标节点的交互,从而更准确地预测。利用时间依赖关系实现了人、景、物三元之间地紧凑表示和有效计算。本申请使用的时间维度上的处理方法,扩展了感受野从而可以获取更多的上下文信息,这样有助于在更少的网络层中实现紧凑的特性,提高了复杂场景下的行人轨迹预测结果的准确性。
图6为本申请根据一示例性实施例示出的行人轨迹预测装置的结构示意图。如图6所示,本申请提供一种行人轨迹预测装置40,装置40包括:
构建模块41,用于构建时空图,时空图包括多个时刻下的当前视频帧对应的时空图,时空图包括目标节点以及各个目标节点之间的连接边,其中,目标节点用于表征目标对象,连接边用于表征各个目标对象之间的交互关系;
处理模块42,用于根据目标节点的节点属性以及连接边的连接边属性确定目标对象的最终空间属性值,节点属性包括目标对象的场景特征和轨迹特征,连接边属性包括两个目标对象之间的交互强度;
处理模块42,还用于根据多个时刻下的最终空间属性值确定目标对象的时间依赖关系;
处理模块42,还用于根据时间依赖关系预测预设时间长度的视频帧中各个目标对象的轨迹。
具体地,本实施例可以参见上述方法实施例,其原理和技术效果类似,不再赘述。
图7为本申请根据一示例性实施例示出的电子设备的硬件结构示意图。如图7所示,本实施例的电子设备50包括:处理器51以及存储器52;其中,
存储器52,用于存储处理器可执行指令的存储器。
处理器51,用于根据存储器存储的可执行指令,以实现上述实施例中的行人轨迹预测方法。具体可以参见前述方法实施例中的相关描述。
可选地,存储器52既可以是独立的,也可以跟处理器51集成在一起。
当存储器52独立设置时,该电子设备50还包括总线53,用于连接存储器52和处理器51。
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机指令,计算机指令被处理器执行时用于实现上述的各种实施方式提供的方法。
其中,计算机可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,计算机可读存储介质耦合至处理器,从而使处理器能够从该计算机可读存储介质读取信息,且可向该计算机可读存储介质写入信息。当然,计算机可读存储介质也可以是处理器的组成部分。处理器和计算机可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits,ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和计算机可读存储介质也可以作为分立组件存在于通信设备中。
上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random-Access Memory,SRAM),电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM),可编程只读存储器(Programmable read-only memory,PROM),只读存储器(Read-OnlyMemory,ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本申请还提供一种计算机程序产品,该程序产品包括执行指令,该执行指令存储在计算机可读存储介质中。设备的至少一个处理器可以从计算机可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (9)
1.一种行人轨迹预测方法,其特征在于,所述方法包括:
构建时空图,所述时空图包括多个时刻下的当前视频帧对应的空间图,所述空间图包括目标节点以及各个目标节点之间的连接边,其中,所述目标节点用于表征目标对象,所述连接边用于表征各个目标对象之间的交互关系;
根据所述目标节点的节点属性以及所述连接边的连接边属性确定所述目标对象的最终空间属性值,所述节点属性包括所述目标对象的场景特征和轨迹特征,所述连接边属性包括两个目标对象之间的交互强度;
根据所述多个时刻下的所述最终空间属性值确定所述目标对象的时间依赖关系;
根据所述时间依赖关系预测预设时间长度的视频帧中各个所述目标对象的轨迹。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标节点的节点属性以及所述连接边的连接边属性确定所述目标对象的最终空间属性值,包括:
根据所述节点属性确定第一连接边属性,所述第一连接边属性为第一阶段所述两个目标对象之间的交互强度;
根据所述第一连接边属性确定第一节点属性,所述第一节点属性为所述第一阶段各个所述目标对象的节点属性;
根据所述第一节点属性确定第二连接边属性,所述第二连接边属性为第二阶段所述两个目标对象之间的交互强度;
根据所述第二连接边属性确定所述最终空间属性值,所述最终空间属性值为所述第二阶段各个所述目标对象的节点属性。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一连接边属性确定第一节点属性,包括:
根据第二公式计算获得所述第一节点属性,所述第二公式包括:
7.一种行人轨迹预测装置,其特征在于,所述装置包括:
构建模块,用于构建时空图,时空图包括多个时刻下的当前视频帧对应的空间图,所述空间图包括目标节点以及各个目标节点之间的连接边,其中,所述目标节点用于表征目标对象,所述连接边用于表征各个目标对象之间的交互关系;
处理模块,用于根据所述目标节点的节点属性以及所述连接边的连接边属性确定所述目标对象的最终空间属性值,所述节点属性包括所述目标对象的场景特征和轨迹特征,所述连接边属性包括两个目标对象之间的交互强度;
处理模块,还用于根据所述多个时刻下的所述最终空间属性值确定所述目标对象的时间依赖关系;
处理模块,还用于根据所述时间依赖关系预测预设时间长度的视频帧中各个所述目标对象的轨迹。
8.一种电子设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
处理器,用于根据所述存储器存储的可执行指令,实现如权利要求1至6中任一项所述的行人轨迹预测方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至6中任一项所述的行人轨迹预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110466638.4A CN113177470B (zh) | 2021-04-28 | 2021-04-28 | 行人轨迹预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110466638.4A CN113177470B (zh) | 2021-04-28 | 2021-04-28 | 行人轨迹预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113177470A CN113177470A (zh) | 2021-07-27 |
CN113177470B true CN113177470B (zh) | 2022-11-01 |
Family
ID=76926763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110466638.4A Active CN113177470B (zh) | 2021-04-28 | 2021-04-28 | 行人轨迹预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113177470B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102537381B1 (ko) * | 2021-04-01 | 2023-05-30 | 광주과학기술원 | 보행경로예측장치 |
CN113781527B (zh) * | 2021-11-10 | 2022-02-08 | 华中科技大学 | 一种基于多交互时空图网络的行人轨迹预测方法和系统 |
CN113920170B (zh) * | 2021-11-24 | 2024-04-16 | 中山大学 | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 |
CN114463687B (zh) * | 2022-04-12 | 2022-07-08 | 北京云恒科技研究院有限公司 | 一种基于大数据的移动轨迹预测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105894542B (zh) * | 2016-04-26 | 2019-06-11 | 深圳大学 | 一种在线目标跟踪方法及装置 |
WO2020150896A1 (zh) * | 2019-01-22 | 2020-07-30 | 深圳大学 | 视频目标的数据关联方法、装置及存储介质 |
WO2021062595A1 (en) * | 2019-09-30 | 2021-04-08 | Beijing Voyager Technology Co., Ltd. | Systems and methods for predicting a pedestrian movement trajectory |
US11205082B2 (en) * | 2019-10-08 | 2021-12-21 | Toyota Research Institute, Inc. | Spatiotemporal relationship reasoning for pedestrian intent prediction |
CN111401233A (zh) * | 2020-03-13 | 2020-07-10 | 商汤集团有限公司 | 轨迹预测方法、装置、电子设备及介质 |
CN111797751B (zh) * | 2020-06-29 | 2023-01-06 | 中国第一汽车股份有限公司 | 行人轨迹预测方法、装置、设备及介质 |
CN111881802B (zh) * | 2020-07-22 | 2023-03-28 | 清华大学 | 基于双分支时空图卷积网络的交警手势识别方法 |
-
2021
- 2021-04-28 CN CN202110466638.4A patent/CN113177470B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113177470A (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113177470B (zh) | 行人轨迹预测方法、装置、设备及存储介质 | |
CN107403430B (zh) | 一种rgbd图像语义分割方法 | |
CN108399373B (zh) | 人脸关键点的模型训练及其检测方法和装置 | |
CN113034380A (zh) | 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置 | |
CN110047095A (zh) | 基于目标检测的跟踪方法、装置及终端设备 | |
CN112052818B (zh) | 无监督域适应的行人检测方法、系统及存储介质 | |
CN103544496A (zh) | 基于空间与时间信息融合的机器人场景识别方法 | |
CN114072809A (zh) | 经由神经架构搜索的小且快速的视频处理网络 | |
CN110569706A (zh) | 一种基于时间和空间网络的深度集成目标跟踪算法 | |
CN111079507A (zh) | 一种行为识别方法及装置、计算机装置及可读存储介质 | |
CN113850135A (zh) | 一种基于时间移位框架的动态手势识别方法及系统 | |
CN115860179A (zh) | 轨迹预测方法、装置、设备、存储介质及程序产品 | |
JP6435049B2 (ja) | 画像検索装置及び方法、撮影時刻推定装置及び方法、反復構造抽出装置及び方法、並びにプログラム | |
CN117456736B (zh) | 基于多尺度时空动态交互网络的交通流量预测方法 | |
CN114445684A (zh) | 车道线分割模型的训练方法、装置、设备及存储介质 | |
CN107729821B (zh) | 一种基于一维序列学习的视频概括方法 | |
CN111726592B (zh) | 获取图像信号处理器的架构的方法和装置 | |
CN113191301A (zh) | 融合时序和空间信息的视频密集人群计数方法及系统 | |
CN110866866B (zh) | 图像仿色处理方法、装置、电子设备及存储介质 | |
CN117193008A (zh) | 面向高维扰动环境的小样本鲁棒模仿学习训练方法、电子设备及存储介质 | |
CN114821248B (zh) | 面向点云理解的数据主动筛选标注方法和装置 | |
CN116975686A (zh) | 训练学生模型的方法、行为预测方法和装置 | |
WO2022127603A1 (zh) | 一种模型处理方法及相关装置 | |
CN115545168A (zh) | 基于注意力机制和循环神经网络的动态QoS预测方法及系统 | |
CN116258923A (zh) | 图像识别模型训练方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |