CN113781527B - 一种基于多交互时空图网络的行人轨迹预测方法和系统 - Google Patents

一种基于多交互时空图网络的行人轨迹预测方法和系统 Download PDF

Info

Publication number
CN113781527B
CN113781527B CN202111324614.1A CN202111324614A CN113781527B CN 113781527 B CN113781527 B CN 113781527B CN 202111324614 A CN202111324614 A CN 202111324614A CN 113781527 B CN113781527 B CN 113781527B
Authority
CN
China
Prior art keywords
pedestrian
interaction
pedestrians
frame
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111324614.1A
Other languages
English (en)
Other versions
CN113781527A (zh
Inventor
杨铀
阚倩
黄馨圣子
刘琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202111324614.1A priority Critical patent/CN113781527B/zh
Publication of CN113781527A publication Critical patent/CN113781527A/zh
Application granted granted Critical
Publication of CN113781527B publication Critical patent/CN113781527B/zh
Priority to US17/835,410 priority patent/US11495055B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开一种基于多交互时空图网络的行人轨迹预测方法和系统,属于行人轨迹预测领域。包括:提取各视频帧中各行人的多交互特征;对视频序列中的每一帧,将该帧中每个行人抽象为顶点,各行人和其他行人连接起来作为边,顶点属性为该行人多交互特征,得到多交互时空图网络;对于每个多交互时空图,获取该时空图中每个行人和其他行人的空间依赖关系,通过各行人之间空间依赖关系优化各顶点属性;将同一行人相邻时间点的顶点连接起来,获取行人时间依赖关系,进而推断未来时刻的轨迹。本发明将多交互行人特征作为顶点属性,模拟行人和环境上下文交互,从空间维度考虑了行人之间的交互,从时间维度上考虑行人本身的交互,提升复杂场景中的预测精度。

Description

一种基于多交互时空图网络的行人轨迹预测方法和系统
技术领域
本发明属于行人轨迹预测领域,更具体地,涉及一种基于多交互时空图网络的行人轨迹预测方法和系统。
背景技术
了解人群中的行人行为对于视觉引导应用(如自动驾驶、智能监控系统等)至关重要。对行人轨迹预测的研究最早可以追溯到Helbing和Molnar的Social Forces[1],这个工作中提出的手工提取的特征模拟了行人之间的排斥效应和吸引效应。最近,许多研究使用深度神经网络来模拟行人之间的相互作用,常用的深度神经网络包括RNN、GAN、GNN、Attention Mechanism等。此外,一些研究认为与上下文的交互作用,在一些复杂场景的预测中起着重要的作用。行人轨迹预测的两个关键技术在于:(1)轨迹是多重交互作用的结果,应该尽可能充分地考虑各种交互因素。(2)需要对这些交互进行建模以充分利用丰富的交互信息。
论文“Spatio-temporal graph transformer networks for pedestriantrajectory prediction”中提出了一种方法,利用Transformer来预测行人轨迹。技术流程如图1所示。主要包括两个部分:时间Transformer和空间Transformer。(1)时间Transformer。时间Transformer模块的输入是行人轨迹特征的一组集合,输出是更新过后的行人轨迹特征。核心技术是利用自注意力机制计算出每个行人对应的query矩阵,key矩阵和value矩阵。然后再利用多头注意力机制,就能够计算出每个行人带有时间依赖关系的注意力权重,进而更新每个行人带有时间依赖关系的轨迹特征。(2)空间Transformer。空间Transformer模块的主要作用是提取行人之间的空间交互。该模块的关键思想就是自注意力机制可以被当作在无向图中传递的信息。因此将同一时刻同一空间内所有行人构成一张图,就可以在这张图上利用空间Transformer更新每个行人带有空间交互的轨迹特征。
但该方法仍然存在如下两个缺点:(1)只考虑了行人之间的交互关系。但是行人的轨迹不止受到其他行人的影响,还会受到环境上下文的影响。例如,行人碰到障碍物会绕开,看到汽车会避让。环境和行人的交互也深刻影响了周围行人,欠缺环境对行人的交互影响,导致在特殊复杂场景下的行人轨迹预测精度低。(2)Transformer对建模行人交互的作用研究得不够深入,尤其是模型中Transformer和图网络结合这一部分得研究还有待加强,对于行人之间的交互影响的模拟不够准确,进一步导致行人轨迹预测精度低。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于多交互时空图网络的行人轨迹预测方法和系统,其目的在于提取更符合行人行走场景的特征,提高行人轨迹预测精度,尤其是复杂室外场景。
为实现上述目的,按照本发明的第一方面,提供了一种多交互行人特征提取方法,对输入视频序列中的每一帧,进行以下操作:通过场景分割和卷积操作,提取该帧的全局上下文特征;通过网格化和位置映射,提取该帧中各行人的局部上下文特征;采用注意力机制融合全局上下文特征和各行人的局部上下文特征,得到该帧中各行人的全局-局部上下文特征;提取该帧中各行人的轨迹特征;拼接该帧中各行人的全局-局部上下文特征和轨迹特征,得到该帧中各行人的多交互特征。
优选地,所述注意力机制如下:
Figure DEST_PATH_IMAGE001
,其中,
Figure 100002_DEST_PATH_IMAGE002
表示第
Figure DEST_PATH_IMAGE003
个行人,
Figure 100002_DEST_PATH_IMAGE004
表示第
Figure DEST_PATH_IMAGE005
个视频帧,
Figure 100002_DEST_PATH_IMAGE006
表示全局-局部上下文特征,
Figure DEST_PATH_IMAGE007
表示全局上下文特征,
Figure 100002_DEST_PATH_IMAGE008
表示局部上下文特征,
Figure DEST_PATH_IMAGE009
表示
Figure 100002_DEST_PATH_IMAGE010
操作,
Figure DEST_PATH_IMAGE011
表示将每个元素加起来。
有益效果:本发明通过一种新颖的注意力机制,通过
Figure 100002_DEST_PATH_IMAGE012
操作为
Figure DEST_PATH_IMAGE013
中每一块局部上下文特征分配自适应权重,并通过
Figure 100002_DEST_PATH_IMAGE014
操作得到进一步压缩的全局信息。此外,还通过
Figure DEST_PATH_IMAGE015
来强调局部信息,这样做进一步提升了在一些复杂场景(例如行人和环境交互比较多的场景)中行人轨迹预测的精度。
为实现上述目的,按照本发明的第二方面,提供了一种基于多交互时空图网络的行人轨迹预测方法,该方法包括:S1.采用如第一方面所述的方法,提取各视频帧中各行人的多交互特征;S2.对视频序列中的每一帧,将该帧中每个行人抽象为顶点,各行人和场景中的其他行人连接起来作为边,顶点属性为对应该行人的多交互特征,得到多交互时空图网络;S3.对于每个多交互时空图,获取该时空图中每个行人和其他行人的空间依赖关系,通过各行人之间的空间依赖关系优化各顶点属性;S4.将同一行人在相邻时间点的顶点连接起来,获取每个行人的时间依赖关系,进而推断未来时刻的轨迹。
优选地,步骤S3中,采用GCN衡量行人之间的交互权重,所述GCN中,空间图的权重邻接矩阵
Figure 100002_DEST_PATH_IMAGE016
所示:
Figure DEST_PATH_IMAGE017
,其中,
Figure 100002_DEST_PATH_IMAGE018
表示时刻,
Figure DEST_PATH_IMAGE019
表示行人序号,
Figure 100002_DEST_PATH_IMAGE020
表示行人
Figure DEST_PATH_IMAGE021
Figure 100002_DEST_PATH_IMAGE022
之间的欧氏距离;顶点特征通过GCN被优化和聚合:
Figure DEST_PATH_IMAGE023
,其中,
Figure 100002_DEST_PATH_IMAGE024
表示
Figure DEST_PATH_IMAGE025
的顶点度矩阵,I表示单位矩阵,
Figure 100002_DEST_PATH_IMAGE026
表示归一化的拉普拉斯矩阵,
Figure DEST_PATH_IMAGE027
表示学习到的线性变换的权重矩阵,
Figure 100002_DEST_PATH_IMAGE028
表示激活函数,
Figure DEST_PATH_IMAGE029
表示GCN过程,
Figure 100002_DEST_PATH_IMAGE030
表示第
Figure DEST_PATH_IMAGE031
帧中所有行人的多交互特征。
有益效果:针对现有的空间维度上行人间交互权重的优化问题,本发明通过GCN来完成该优化过程,由于GCN的邻接矩阵采用行人间的距离来计算的,而行人间的距离直接影响了行人间交互的强弱,因此较为准确地衡量了行人间的交互权重。
优选地,在GCN之后,串联Transformer,Transformer的自注意力机制如下:
Figure 100002_DEST_PATH_IMAGE032
,其中,
Figure DEST_PATH_IMAGE033
表示query向量,
Figure 100002_DEST_PATH_IMAGE034
表示key向量,
Figure DEST_PATH_IMAGE035
是每个query的维数,
Figure DEST_PATH_IMAGE036
表示value向量,
Figure DEST_PATH_IMAGE037
表示注意力头序号,
Figure DEST_PATH_IMAGE038
表示Transformer的自注意力机制过程,
Figure DEST_PATH_IMAGE039
表示多交互特征;多头注意力机制用于通过不同的方面捕获更加丰富的信息:
Figure DEST_PATH_IMAGE040
,其中,
Figure DEST_PATH_IMAGE041
表示注意力的头数,
Figure DEST_PATH_IMAGE042
表示多头注意力机制过程,
Figure DEST_PATH_IMAGE043
表示拼接操作。
有益效果:本发明针对现有的基于图结构的优化方法存在全局信息传递效率低的问题,本发明通过在GCN的基础上结合Transformer,由于Transformer自注意力机制非常适合在顶点之间传输信息,以及它的长距离属性使得从浅层到深层有效地利用全局信息成为可能,因此,Transformer与GCN相结合来优化行人之间的交互权重,更有效地传递全局信息,捕获更丰富的信息,深入挖掘行人之间的交互关系,进而提升行人轨迹预测的准确性。
为实现上述目的,按照本发明的第三方面,提供了一种基于多交互时空图网络的行人轨迹预测系统,该系统包括:计算机可读存储介质和处理器;所述计算机可读存储介质用于存储可执行指令;所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行第二方面所述的基于多交互时空图网络的行人轨迹预测方法。
为实现上述目的,按照本发明的第四方面,提供了一种计算机可读存储介质,包括存储的计算机程序;所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行第一方面所述的多交互行人特征提取方法,或者第二方面所述的基于多交互时空图网络的行人轨迹预测方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)现有技术中通常只使用轨迹特征作为行人特征,导致在一些复杂场景中不能非常精确地预测行人轨迹,本发明提出一种新的行人轨迹特征提取方法,通过引入全局-局部上下文特征,其中,全局上下文特征反映/表征了行人所处的整个场景对行人的交互影响,局部上下文特征反映/表征了行人周围的场景对行人的交互影响,并通过注意力机制来结合局部与全局上下文特征,再结合轨迹特征,得到行人的多交互特征。由于全局-局部上下文特征中包含了行人和环境的交互,提升了在一些复杂场景(例如行人和环境交互比较多的场景)中行人轨迹预测的精度。
(2)行人的轨迹不止受到其他行人的影响,还会受到环境上下文的影响。例如,行人碰到障碍物会绕开,看到汽车会避让。环境和行人的交互也深刻影响了周围行人。但是现有行人轨迹预测方法只考虑了行人之间的交互关系,欠缺环境对行人的交互影响,导致在特殊复杂场景下的行人轨迹预测精度低。本发明提出一种新的行人轨迹预测方法,通过提取多交互行人特征,作为顶点属性,模拟行人和环境上下文的交互,同时,从空间维度考虑了行人之间的交互,从时间维度上考虑行人本身的交互,从而提升了在一些复杂场景中的行人轨迹预测精度。
附图说明
图1是现有技术中利用Transformer来预测行人轨迹方法流程图。
图2是本发明提供的一种基于多交互时空图网络的行人轨迹预测方法流程图。
图3是本发明提供的多交互特征提取过程示意图。
图4是本发明提供的多交互优化过程示意图,其中,点表示行人,点之间的线表示顶点特征更新优化的过程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种基于多交互时空图网络的行人轨迹预测方法,如图2所示,该方法分成三部分:多交互特征提取、多交互图建模和多交互优化,下面将分别详细介绍。假设在观察到的长度为
Figure DEST_PATH_IMAGE044
的视频序列中有X个行人,本发明的目标是预测未来长度为
Figure DEST_PATH_IMAGE045
的序列中这X个行人的轨迹坐。
(1)多交互特征提取
在现有技术中,要么只使用了局部上下文信息,要么只使用了全局上下文信息。如果没有全局上下文,一些远离行人的重要信息可能会丢失。例如,行人想要乘坐远处的公交车,因此公交车的位置在轨迹预测中起着关键作用。另一方面,如果没有局部上下文信息,则很难对与周围场景和对象的交互进行清晰的建模。例如,行人需要绕过他前面的障碍物。
本发明提出了一种新的特征提取方式,如图3所示,首先提取局部和全局上下文信息,然后通过注意机制将它们结合起来。这样,具有丰富全局信息的全局上下文和具有特定行人周围关键局部信息的局部上下文都参与到捕获与上下文的交互中。此外,还从视频中提取了轨迹特征。将轨迹特征和上下文信息特征结合起来,共同表征多交互特征。
为了提取全局上下文信息,本发明使用预先训练好的场景分割模型来提取视频帧的场景特征图,并通过卷积操作对其进行裁剪。通过这样的方式,特定行人周围的上下文特征可以被很容易地提取,同时全局上下文可以在不丢失关键信息的情况下被压缩。经过这些步骤之后,本发明得到了全局上下文特征
Figure DEST_PATH_IMAGE046
为了在视频帧当中提取每个行人的局部上下文特征
Figure DEST_PATH_IMAGE047
,本发明对每个行人和像素网格之间建立了一个联系。例如,将原始视频帧划分为P*P个网格,同样将全局上下文特征分为P*P个网格。如果行人属于原始视频帧划分后的位置为(1,1)的网格,那么其局部上下文特征就用全局上下文特征位置为(1,1)的网格特征来表示。利用这种方式,本发明可以很方便地获得局部上下文特征,这与全局上下文特征是紧密相关的,并且包含着丰富的与该行人相关的周围景物的上下文信息。
在获取全局和局部的上下文特征之后,本发明提出了一种注意力机制,既强调局部信息,又能充分考虑全局信息。首先,本发明利用
Figure DEST_PATH_IMAGE048
操作来优化
Figure DEST_PATH_IMAGE049
当中每个网格的权重,因此,每个网格自适应地分配一个权重,用于衡量对特定行人的影响。其次,本发明将每个网格优化过之后的特征相加来进一步压缩全局上下文信息。第三,本发明将
Figure DEST_PATH_IMAGE050
和处理过后的
Figure DEST_PATH_IMAGE051
加起来得到全局-局部上下文特征
Figure DEST_PATH_IMAGE052
。这步操作将全局和局部信息用一种简洁有效的方式结合起来。另外,局部上下文特征权重被进一步增强,因为全局上下文也包含了局部上下文。注意力机制的定义如公式(1)所示:
Figure DEST_PATH_IMAGE053
(1)
其中,
Figure DEST_PATH_IMAGE054
表示
Figure DEST_PATH_IMAGE055
操作,
Figure DEST_PATH_IMAGE056
表示将每个元素加起来。
(2)多交互图建模
在得到包含上下文交互信息的特征之后,利用时空图对多个交互进行建模。下面将从三个部分来介绍本模块:图的构造,空间聚合机制和时间聚合机制。
(i)图的构造
本发明中行人与上下文的交互体现在图的构造中。图的构造分为三个部分:顶点和边的性质、图的连通性和顶点的特征。
首先,图在时间和空间两个维度被连接。这可以被表示为
Figure DEST_PATH_IMAGE057
Figure DEST_PATH_IMAGE058
,其中,
Figure DEST_PATH_IMAGE059
表示第t帧的空间图,
Figure 86900DEST_PATH_IMAGE059
被定义为
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE061
表示第t帧顶点的集合,
Figure DEST_PATH_IMAGE062
表示第t帧边的集合。其中,
Figure DEST_PATH_IMAGE063
Figure DEST_PATH_IMAGE064
其次,在空间维度上本发明采用全连接的方式,所有行人都和场景中的其他行人连接起来。时间维度上同一行人在相邻时间点的顶点被连接起来。
第三,为了将上下文信息之间的交互引入本发明的方法,本发明将轨迹特征和上下文交互特征拼接起来作为一个顶点特征。通过这种方式,可以以一种有效且简单的方式获得与上下文的交互,并将其合并到图网络结构中,从而便于后续的聚合和预测。
(ii)空间聚合机制
在空间维度上,本发明采用GCN来衡量行人之间的交互权重。具体来说,在GCN中,行人
Figure DEST_PATH_IMAGE065
Figure DEST_PATH_IMAGE066
之间的欧氏距离被用于计算空间图的邻接矩阵。权重邻接矩阵
Figure DEST_PATH_IMAGE067
定义如公式(2)所示:
Figure DEST_PATH_IMAGE068
(2)
其中,
Figure DEST_PATH_IMAGE069
表示时刻,
Figure DEST_PATH_IMAGE070
表示行人序号,
Figure DEST_PATH_IMAGE071
表示行人
Figure 635125DEST_PATH_IMAGE065
Figure 809755DEST_PATH_IMAGE066
之间的欧氏距离。
然后顶点特征通过GCN被优化和聚合,具体方式如公式(3)所示:
Figure DEST_PATH_IMAGE072
(3)
其中,
Figure 833336DEST_PATH_IMAGE067
表示
Figure DEST_PATH_IMAGE073
的顶点度矩阵,I表示单位矩阵,
Figure DEST_PATH_IMAGE074
表示归一化的拉普拉斯矩阵,
Figure DEST_PATH_IMAGE075
表示学习到的线性变换的权重矩阵,
Figure DEST_PATH_IMAGE076
表示激活函数,
Figure DEST_PATH_IMAGE077
表示GCN过程,
Figure DEST_PATH_IMAGE078
表示第
Figure 358996DEST_PATH_IMAGE069
帧中所有行人的多交互特征。
(iii)时间聚合机制
在空间维度上获取包含上下文交互以及和其他行人交互的聚集紧凑特征后,还应该考虑时间上的交互关系,这也对应于与行人本身的交互。因为行人的未来轨迹会受到过去轨迹的深刻影响。时间维度上的构图是将同一行人在不同时间点的顶点连接起来。接下来采用因果卷积、加权归一化、激活函数、dropout和残差连接等操作(改进CNN),更新行人顶点,更新后的顶点特征包括与该行人过去轨迹的交互关系。此外,该时间聚合机制还得到了未来轨迹的高斯分布,便于预测未来多样性的可能路径。
所述改进CNN包括依次串联的:第一层,用于将每个顶点的维度降为5维,分别表示预测轨迹的X/Y均值、X/Y标准差和相关系数;第二层,用于将观测视频帧序列长度变成待预测的序列长度;第三至第五层中的每一层都包括因果卷积、加权归一化、激活函数和残差连接等操作,用于得到行人的时间交互依赖特征。
根据预测轨迹的X/Y均值、X/Y标准差和相关系数,可得到最终的预测轨迹坐标。
(3)多交互优化
通过上述图模型建模获得的行人顶点特征可以处理一些典型和常规场景。然而,现有的基于图结构的优化方法由于全局信息传递效率低的问题,仍有改进的余地。首先,行人之间的相互作用是微妙的,不能用距离一个因素来衡量。其次,图模型在传输全局信息时存在一定的局限性。第三,GCN在融合多模态特征方面存在缺陷。因此,需要一种注意力机制来更好地建模这些因素。此外,它还应完全适应图结构。
在本发明中,将Transformer和GCN以一种区别于现有技术的新颖的方式结合起来做进一步的优化。Transformer在处理多头自我注意机制的序列数据方面非常有效。本发明还需要考虑如何在空间维度上采用Transformer,以及如何适应图结构。首先,自注意力机制非常适合在顶点之间传输信息。然后,与接受野有限的CNN相比,Transformer的长距离属性使得从浅层到深层有效地利用全局信息成为可能。图4显示了多交互优化的过程。
为了说明,本发明只画了一个顶点的优化过程。基于上述考虑,对于
Figure DEST_PATH_IMAGE079
,它的query向量、key向量、value向量相应被标记为
Figure DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE081
Figure DEST_PATH_IMAGE082
。Transformer的自注意力机制如公式(4)所示:
Figure DEST_PATH_IMAGE083
(4)
其中,
Figure DEST_PATH_IMAGE084
表示query向量,
Figure DEST_PATH_IMAGE085
表示key向量,
Figure DEST_PATH_IMAGE086
是每个query的维数,
Figure DEST_PATH_IMAGE087
表示value向量,
Figure DEST_PATH_IMAGE088
表示注意力头序号,
Figure DEST_PATH_IMAGE089
表示Transformer的自注意力机制过程,
Figure DEST_PATH_IMAGE090
表示多交互特征;
Figure DEST_PATH_IMAGE091
(5)
其中,
Figure DEST_PATH_IMAGE092
表示注意力的头数,
Figure DEST_PATH_IMAGE093
表示多头注意力机制过程,
Figure DEST_PATH_IMAGE094
表示拼接操作。
当然,在多交互优化这一模块中,GCN和Transformer结合的方式也可以是先Transformer更新权重,再GCN更新权重。
经过空间聚合和时间聚合后,顶点的属性得到更新。
采用训练样本训练,本实施例中训练样本为相邻8个视频帧,对应标签为观测视频帧之后12个连续帧中行人轨迹。待训练完成,即可使用观测8个视频帧进行轨迹预测。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种多交互行人特征提取方法,其特征在于,对输入视频序列中的每一帧,进行以下操作:
通过场景分割和卷积操作,提取该帧的全局上下文特征;
通过网格化和位置映射,提取该帧中各行人的局部上下文特征;
采用注意力机制融合全局上下文特征和各行人的局部上下文特征,得到该帧中各行人的全局-局部上下文特征;
提取该帧中各行人的轨迹特征;
拼接该帧中各行人的全局-局部上下文特征和轨迹特征,得到该帧中各行人的多交互特征;
所述注意力机制如下:
Figure 717266DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
表示第
Figure 825950DEST_PATH_IMAGE002
个行人,
Figure 277791DEST_PATH_IMAGE003
表示第
Figure 204159DEST_PATH_IMAGE003
个视频帧,
Figure DEST_PATH_IMAGE004
表示全局-局部上下文特征,
Figure 221794DEST_PATH_IMAGE005
表示 全局上下文特征,
Figure DEST_PATH_IMAGE006
表示局部上下文特征,
Figure 122885DEST_PATH_IMAGE007
表示
Figure DEST_PATH_IMAGE008
操作,
Figure 858759DEST_PATH_IMAGE009
表示将每个元素加起来。
2.一种基于多交互时空图网络的行人轨迹预测方法,其特征在于,该方法包括:
S1.采用如权利要求1所述的方法,提取各视频帧中各行人的多交互特征;
S2.对视频序列中的每一帧,将该帧中每个行人抽象为顶点,各行人和场景中的其他行人连接起来作为边,顶点属性为对应该行人的多交互特征,得到多交互时空图网络;
S3.对于每个多交互时空图,获取该时空图中每个行人和其他行人的空间依赖关系,通过各行人之间的空间依赖关系优化各顶点属性;
S4.将同一行人在相邻时间点的顶点连接起来,获取每个行人的时间依赖关系,进而推断未来时刻的轨迹。
3.如权利要求2所述的方法,其特征在于,步骤S3中,采用GCN衡量行人之间的交互权 重,所述GCN中,空间图的权重邻接矩阵
Figure DEST_PATH_IMAGE010
所示:
Figure 995343DEST_PATH_IMAGE011
其中,
Figure 336325DEST_PATH_IMAGE003
表示时刻,
Figure DEST_PATH_IMAGE012
表示行人序号,
Figure 532951DEST_PATH_IMAGE013
表示行人
Figure 959385DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE014
之间的欧氏距离;
顶点特征通过GCN被优化和聚合:
Figure 899659DEST_PATH_IMAGE015
其中,
Figure DEST_PATH_IMAGE016
表示
Figure 626306DEST_PATH_IMAGE017
的顶点度矩阵,
Figure DEST_PATH_IMAGE018
表示单位矩阵,
Figure 134779DEST_PATH_IMAGE019
表示归一化的 拉普拉斯矩阵,
Figure DEST_PATH_IMAGE020
表示学习到的线性变换的权重矩阵,
Figure 579667DEST_PATH_IMAGE021
表示激活函数,
Figure DEST_PATH_IMAGE022
表 示GCN过程,
Figure 58053DEST_PATH_IMAGE023
表示第
Figure 373628DEST_PATH_IMAGE003
帧中所有行人的多交互特征。
4.如权利要求3所述的方法,其特征在于,在GCN之后,串联Transformer,Transformer的自注意力机制如下:
Figure DEST_PATH_IMAGE024
其中,
Figure 177636DEST_PATH_IMAGE025
表示query向量,
Figure DEST_PATH_IMAGE026
表示key向量,
Figure 250765DEST_PATH_IMAGE027
是每个query的维数,
Figure DEST_PATH_IMAGE028
表示value向 量,
Figure 532842DEST_PATH_IMAGE029
表示注意力头序号,
Figure DEST_PATH_IMAGE030
表示Transformer的自注意力机制过程,
Figure 234082DEST_PATH_IMAGE031
表示多交 互特征;
多头注意力机制用于通过不同的方面捕获更加丰富的信息:
Figure DEST_PATH_IMAGE032
其中,
Figure 84357DEST_PATH_IMAGE033
表示注意力的头数,
Figure DEST_PATH_IMAGE034
表示多头注意力机制过程,
Figure 238258DEST_PATH_IMAGE035
表示 拼接操作。
5.一种基于多交互时空图网络的行人轨迹预测系统,其特征在于,该系统包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求2至4任一项所述的基于多交互时空图网络的行人轨迹预测方法。
6.一种计算机可读存储介质,其特征在于,包括存储的计算机程序;所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行权利要求1所述的多交互行人特征提取方法,或者,权利要求2至4任一项所述的基于多交互时空图网络的行人轨迹预测方法。
CN202111324614.1A 2021-11-10 2021-11-10 一种基于多交互时空图网络的行人轨迹预测方法和系统 Active CN113781527B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111324614.1A CN113781527B (zh) 2021-11-10 2021-11-10 一种基于多交互时空图网络的行人轨迹预测方法和系统
US17/835,410 US11495055B1 (en) 2021-11-10 2022-06-08 Pedestrian trajectory prediction method and system based on multi-interaction spatiotemporal graph network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111324614.1A CN113781527B (zh) 2021-11-10 2021-11-10 一种基于多交互时空图网络的行人轨迹预测方法和系统

Publications (2)

Publication Number Publication Date
CN113781527A CN113781527A (zh) 2021-12-10
CN113781527B true CN113781527B (zh) 2022-02-08

Family

ID=78873653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111324614.1A Active CN113781527B (zh) 2021-11-10 2021-11-10 一种基于多交互时空图网络的行人轨迹预测方法和系统

Country Status (2)

Country Link
US (1) US11495055B1 (zh)
CN (1) CN113781527B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311814A (zh) * 2022-04-29 2022-11-08 中煤西北能源有限公司 一种基于机器视觉的危险区域人员识别预警系统及方法
CN116246338B (zh) * 2022-12-20 2023-10-03 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116654022B (zh) * 2023-07-25 2023-10-20 清华大学 基于多重交互的行人轨迹预测方法、系统、设备和介质
CN117409483A (zh) * 2023-12-13 2024-01-16 烟台大学 基于自适应联合时空图卷积的虚拟现实交互方法及系统
CN117493424B (zh) * 2024-01-03 2024-03-22 湖南工程学院 一种不依赖地图信息的车辆轨迹预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法
CN110826698A (zh) * 2019-11-04 2020-02-21 电子科技大学 一种通过上下文相关的图嵌入表示人群移动模式的方法
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN113177470A (zh) * 2021-04-28 2021-07-27 华中科技大学 行人轨迹预测方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180204331A1 (en) * 2016-07-21 2018-07-19 Gopro, Inc. Subject tracking systems for a movable imaging system
US20220101155A1 (en) * 2020-09-25 2022-03-31 Motional Ad Llc Trajectory Generation Using Road Network Model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法
CN110826698A (zh) * 2019-11-04 2020-02-21 电子科技大学 一种通过上下文相关的图嵌入表示人群移动模式的方法
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN113177470A (zh) * 2021-04-28 2021-07-27 华中科技大学 行人轨迹预测方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Trajectory Prediction with Graph-based Dual-scale Context Fusion;Lu Zhang et al.;《arXiv》;20211102;第1-8页 *
融合注意力机制和连接时序分类的多模态手语识别;王军等;《信号处理》;20200930;第1430-1439页 *

Also Published As

Publication number Publication date
CN113781527A (zh) 2021-12-10
US11495055B1 (en) 2022-11-08

Similar Documents

Publication Publication Date Title
CN113781527B (zh) 一种基于多交互时空图网络的行人轨迹预测方法和系统
CN109902798A (zh) 深度神经网络的训练方法和装置
CN108629288B (zh) 一种手势识别模型训练方法、手势识别方法及系统
CN111462324B (zh) 一种在线时空语义融合方法和系统
CN106815563B (zh) 一种基于人体表观结构的人群数量预测方法
CN113408455A (zh) 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质
CN111178284A (zh) 基于地图数据的时空联合模型的行人重识别方法及系统
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
Wang et al. Manufacture assembly fault detection method based on deep learning and mixed reality
CN113408537A (zh) 一种遥感影像域适应语义分割方法
CN110210540A (zh) 基于注意力机制的跨社交媒体用户身份识别方法及系统
CN114463837A (zh) 基于自适应时空卷积网络的人体行为识别方法及系统
CN116563355A (zh) 一种基于时空交互注意力机制的目标跟踪方法
CN113705384B (zh) 一种考虑局部时空特性和全局时序线索的面部表情识别方法
CN114743273A (zh) 基于多尺度残差图卷积网络的人体骨骼行为识别方法及系统
CN107729821B (zh) 一种基于一维序列学习的视频概括方法
CN113850135A (zh) 一种基于时间移位框架的动态手势识别方法及系统
CN116958740A (zh) 基于语义感知和自适应对比学习的零样本目标检测方法
CN110210523A (zh) 一种基于形状图约束的模特穿着衣物图像生成方法及装置
CN116468886A (zh) 一种基于笔画的场景草图语义分割方法和装置
CN116189306A (zh) 基于联合注意力机制的人体行为识别方法
CN110084247A (zh) 一种基于模糊特征的多尺度显著性检测方法及装置
CN113361570B (zh) 基于联合数据增强和网络训练模型的3d人体姿态估计方法
CN116824686A (zh) 一种动作识别方法和相关装置
CN103530656B (zh) 基于隐结构学习的图像摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant