CN113920170A - 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 - Google Patents

结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 Download PDF

Info

Publication number
CN113920170A
CN113920170A CN202111405862.9A CN202111405862A CN113920170A CN 113920170 A CN113920170 A CN 113920170A CN 202111405862 A CN202111405862 A CN 202111405862A CN 113920170 A CN113920170 A CN 113920170A
Authority
CN
China
Prior art keywords
pedestrian
track
space
time
coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111405862.9A
Other languages
English (en)
Other versions
CN113920170B (zh
Inventor
纪庆革
郭珊珊
郭佳俊
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111405862.9A priority Critical patent/CN113920170B/zh
Publication of CN113920170A publication Critical patent/CN113920170A/zh
Application granted granted Critical
Publication of CN113920170B publication Critical patent/CN113920170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及行人轨迹预测技术,具体为结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质,其方法包括:获取行人轨迹预测的公开数据集,划分训练集和测试集;对视频数据和行人轨迹数据进行预处理,获得静态场景图像;对静态场景图像语义分割得到语义分割图像;构建行人轨迹时空图,构建每一帧的空间图,将所有时间序列的空间图组成时空图;对静态场景图像和时空图使用不同卷积网络进行特征提取,得到场景特征张量和行人特征张量,融合得到组合特征张量后输入行人轨迹预测模型,预测行人未来的轨迹。本发明能够把场景上下文中包含的语义信息、行人间关系共同建模,并保留行人与场景之间的空间关系,提高了行人轨迹预测精度。

Description

结合场景上下文和行人社会关系的行人轨迹预测方法、系统 及存储介质
技术领域
本发明涉及行人轨迹预测技术,特别涉及结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质。
背景技术
为了更好地利用智能科技改变人们的生活,依托于人工智能技术发展起来的智能交通、自动驾驶和智能机器人技术成为了时下的重要攻克点。在这些应用领域中,都需要能够准确地判断现实情形下各种运动物体的运动状态,并能预测出运动物体未来可能的情形,以便更好的选择更加有利的行动。行人轨迹预测是对现实场景进行预测的一个典型问题,它的解决方案能够在稍作调整后应用到如车辆等其他物体的轨迹预测中。
现有的行人轨迹预测方法主要分为基于手工建模的传统方法和基于数据驱动的机器学习方法。
手工方法通过抽象出对行人轨迹影响较大的几种因素,并通过建模来模拟它们对行人行走轨迹的作用,通过对目标行人各指标进行计算得到未来目标行人轨迹的预测结果。其中最经典的传统方法是Helbing提出的社会力模型,他将行人运动的驱使因素分为表示行人自身意愿的“自驱力”和代表自身与外界交互的“社会力”。通过牛顿第二定律和对行人自驱力、行人与行人之间的排斥力、行人与障碍物之间的排斥力的计算,更新行人的速度和坐标以估测行人运动轨迹。
和传统方法相比,基于数据驱动的行人轨迹预测方法具有更强的鲁棒性和泛化能力,通过各式神经网络学习数据中已知的行人运动轨迹来预测未来的行人轨迹坐标。其中的经典方法有Social-LSTM、STGCNN等。数据驱动方法大都关注于如何建模场景上下文约束对行人运动的影响或多个行人之间的社会互动的影响,但是同时考虑建模场景约束和社会关系约束的方法并不多。现有的一些结合方法中也仅仅采用一些如SR或者在网络最后一层进行简单连接的方式,不能在建模行人社会关系的同时保持场景与行人之间的空间关系。
同时,广泛应用的使用LSTM网络进行行人轨迹预测方法是通过上一时间的行人坐标作为输入的一部分,逐步预测下一时间的行人坐标,这会造成位移偏差的积累而降低准确度。大部分建模行人社会关系的网络也仅仅能建模目标行人与周围行人之间的关系,而忽略了远处行人的影响,并不能较好的建模全局上的行人社会关系。
总的来说,现有技术中关于行人轨迹预测的方法多专注于建模行人与行人之间的社会关系,一些考虑静态场景对行人轨迹影响的研究仅仅是使用简单的卷积-池化操作直接提取视频中某帧图片的特征向量,再和学习到的行人特征向量做简单的连接用以后续的预测网络。这些方法不能够保留行人当前位置和静态场景之间的空间对应关系,也不能完全把场景与行人位置关系和行人与行人之间社会关系共同提取并适配于后续的预测工作。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供能够同时考虑到静态场景信息和行人之间社会关系,并且结合了时序网络和图卷积网络的行人轨迹预测方法、系统及存储介质,适用于复杂场景下行人未来轨迹的预测。
本发明的轨迹预测方法通过下述技术方案实现:结合场景上下文和行人社会关系的行人轨迹预测方法,包括以下步骤:
S1、获取关于行人轨迹预测的公开数据集,其中包括在不同场景下长度不等的视频数据和视频中对应的行人坐标轨迹数据表;
S2、划分训练集和测试集;
S3、数据预处理,对于视频数据,获取每段不同视频中抹去运动行人后对应的静态场景图像;对于行人轨迹数据,根据时间帧进行采样,得到统一帧间隔和帧数的轨迹,并对不同数据集中行人坐标尺度进行归一化;
S4、对提取出的静态场景图像进行分辨率统一调整后输入预训练好语义分割网络中,并对得到的图像进行统一调整,得到语义分割图像;
S5、构建行人轨迹时空图,使用每一帧中行人的坐标点和该坐标点对应的语义标签作为顶点信息构建该帧对应的空间图,并将行人轨迹中所有时间序列的空间图组成时空图,用来表示轨迹中行人与行人之间的社会关系;
S6、分别对静态场景图像和时空图使用不同的卷积神经网络进行特征提取,得到场景特征张量和行人特征张量,再使用特征融合方法得到最后的组合特征张量;
S7、预测行人轨迹,先对预测网络进行训练,得到训练好的行人轨迹预测模型并保存;再把组合特征张量输入行人轨迹预测模型,预测行人未来的轨迹。
本发明结合场景上下文和行人社会关系的行人轨迹预测系统,包括:
数据获取模块,用于获取关于行人轨迹预测的公开数据集,其中包括在不同场景下长度不等的视频数据和视频中对应的行人坐标轨迹数据表;
数据集划分模块,用于划分训练集和测试集;
数据预处理模块,对于视频数据,获取每段不同视频中抹去运动行人后对应的静态场景图像;对于行人轨迹数据,根据时间帧进行采样,得到统一帧间隔和帧数的轨迹,并对不同数据集中行人坐标尺度进行归一化;
语义分割模块,用于对提取出的静态场景图像进行分辨率统一调整后输入预训练好语义分割网络中,并对得到的图像进行统一调整,得到语义分割图像;
时空图构建模块,用于构建行人轨迹时空图,使用每一帧中行人的坐标点和该坐标点对应的语义标签作为顶点信息构建该帧对应的空间图,并将行人轨迹中所有时间序列的空间图组成时空图,用来表示轨迹中行人与行人之间的社会关系;
特征提取与特征融合模块,用于分别对静态场景图像和时空图使用不同的卷积神经网络进行特征提取,得到场景特征张量和行人特征张量,再使用特征融合方法得到最后的组合特征张量;
行人轨迹预测模块,先对预测网络进行训练,得到训练好的行人轨迹预测模型并保存;再把组合特征张量输入行人轨迹预测模型,预测行人未来的轨迹。
本发明的存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由计算机处理器执行时,用于实现本发明行人轨迹预测方法的各步骤。
本发明相对于现有技术具有如下的优点及效果:
1.本发明提出的结合场景上下文和行人社会关系的行人轨迹预测方法,能够把场景上下文中包含的语义信息、行人与行人之间关系共同建模,并保留行人与场景之间的空间关系,取得了提高行人轨迹预测精度的效果。
2.在本发明中,利用行人位置对应的语义标签和行人坐标共同构建时空图的顶点,并在考虑时空图连接关系时同时考虑行人之间物理距离和语义标签差距,这使得本发明能够联合建模场景中所有行人社会关系和行人与场景之间语义关系,对行人轨迹的预测精度高。
3.在提取场景上下文信息时,本发明没有直接使用视频数据中截取的图像帧作为场景图象信息,而是使用算法提取出消除了视频中所有运动物体而得到的静态场景背景图像;同时,在本发明中使用场景图像的语义分割图帮助构建时空图得到行人特征张量,使用场景图像本身进行场景特征提取。这些设计使得本发明中提取出的场景特征张量以及后续使用方式更加贴近真实需求,符合客观逻辑。
4.本发明通过特征融合的方法,在用场景特征张量和行人特征张量进行融合时考虑了行人和场景之间的空间位置关系,带来了能够充分利用场景上下文信息、行人社会关系、空间信息共同帮助细化预测的技术效果。
5.在本发明中采用TCN网络通过观察到的轨迹数据一次性预测未来时间段内的所有轨迹坐标,而不是使用RNN或者LSTM将上一时间点坐标作为输入逐次得到下一时间点的坐标,具有能有效消除误差累积的优点。
附图说明
图1是本发明的行人轨迹预测方法流程图;
图2是本发明行人轨迹预测过程中的数据处理过程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1、2所示,本实施例中,行人轨迹预测方法具体包括以下步骤:
S1、获取关于行人轨迹预测的公开数据集,其中包括在不同场景下长度不等的视频数据和视频中对应的行人坐标轨迹数据表。
S2、划分训练集和测试集。为了保证静态场景数据对训练好的网络模型起到一定的作用,静态场景信息能够被有效用于行人轨迹的预测,要求测试集所用的视频数据有一部分对应不同时间段但同一场景的视频段存在于训练集中,即对应的测试集和训练集来自具有同一场景的视频的不同时间段,每个视频中有一部分数据在训练集中,一部分数据在测试集中;本实施例中,一共有五个视频,训练数据和测试数据划分的比例为8:2。
S3、进行数据预处理。对于视频数据,使用KNN算法获取每段不同视频中抹去运动行人后对应的静态场景图像;对于行人轨迹数据,根据时间帧进行采样,得到统一帧间隔和帧数的轨迹,并对不同数据集中行人坐标尺度进行归一化。
在数据预处理过程中,对视频数据进行静态场景提取时,先使用KNN算法对视频进行动态对象和静态场景划分,得到静态场景图像,对得到的静态场景图像进行图像过滤处理,并通过不断调整过滤算法中的过滤阈值以保证运动物体在划分后的静态场景图象中留存的噪声和阴影影响最小;再对得到的静态场景图像进行图像处理,消除行人所在区域存留的阴影和椒盐噪声,得到剔除了所有动态行人之后该视频对应的静态场景图象I。
对记载了每个时间帧上所有行人坐标点的行人轨迹数据表,以每m帧作为间隔等距采样,再根据行人在n个采样点上构成的轨迹线性程度提取出非线性的行人轨迹坐标,以此作为行人轨迹预测的坐标数据集,其中行人轨迹坐标的计算公式如下:
Figure BDA0003372201130000041
其中{X,Y}指行人的世界坐标轨迹序列,T1和Tpre分别指轨迹开始和结束的时间;
Figure BDA0003372201130000042
分别指第i个行人在t时间的x坐标和y坐标,t指行人所在的时间帧,i指该行人的编号,N指轨迹中所有行人的总数,T1~pre指轨迹中的时间帧。本实施例中时间采样间隔m取值为10,每条行人坐标轨迹对应的时间帧长度T1~pre取值为15,即n取值为15。
S4、对静态场景图像进行语义分割。对提取出的静态场景图像进行分辨率统一调整后输入预训练好语义分割网络中,并对得到的图像进行统一调整,得到分割后的场景语义图像,即语义分割图像。
本实施例中,使用预训练好的Fast-SCNN网络作为语义分割网络,对提取出的静态场景图像进行分辨率统一调整后,输入Fast-SCNN网络中进行语义分割,并把得到的分割图调整回原来的图片大小,得到语义分割图像I’。
S5、构建行人轨迹时空图。使用每一帧中行人的坐标点和该坐标点对应的语义标签作为顶点信息构建该帧对应的空间图,并将行人轨迹中所有时间序列的空间图组成时空图,用来表示轨迹中行人与行人之间的社会关系。具体包括以下步骤:
S51、设t时刻的时间帧一共有N个行人,以行人的坐标位置
Figure BDA0003372201130000051
和语义分割图像I’中行人所在坐标位置
Figure BDA0003372201130000052
对应的语义标签
Figure BDA0003372201130000053
构成空间图的顶点集:
Vt={Vt i|i=1,2......N}
顶点集中每个顶点
Figure BDA0003372201130000054
包含一个行人坐标位置及其所在位置对应的语义标签
Figure BDA0003372201130000055
S52、以i、j顶点是否有连接关系作为空间图的边集
Figure BDA0003372201130000056
构建t时刻对应的二维空间图Gt;若i、j顶点对应的行人之间的最短距离d(vi,vj)小于等于确定阈值D,则认为i、j顶点之间具有连接关系,
Figure BDA0003372201130000057
否则
Figure BDA0003372201130000058
为了衡量两个顶点i、j之间的相关性,对每条边
Figure BDA0003372201130000059
计算权重值:
Figure BDA00033722011300000510
其中
Figure BDA00033722011300000511
指边
Figure BDA00033722011300000512
对应的权重值,
Figure BDA00033722011300000513
指顶点
Figure BDA00033722011300000514
和顶点
Figure BDA00033722011300000515
的连接边。
S53、对时间0→T所有时刻的行人信息都构造相应的二维空间图G0~T,则得到时空图G。
S6、特征提取和特征融合。分别对静态场景图像和时空图使用不同的卷积神经网络进行特征提取,得到场景特征张量和行人特征张量,再使用特征融合方法得到最后的组合特征张量。
对于静态场景图像,使用在imageNet上预训练好的VGGNet-19作为特征提取网络,把每个视频数据对应的静态场景图像I输入网络进行特征提取,得到场景特征向量Featurescene
S61、特征提取的过程包括:对于时空图,使用图卷积神经网络作为特征提取网络。对于一个时空图G中t时刻对应的空间图Gt,其中有顶点集Vt={Vt i|i=1,2......N},边集
Figure BDA0003372201130000061
对空间图Gt中的每个顶点
Figure BDA0003372201130000062
进行图卷积操作:假设B(vi)={vj|d(vi,vj)≤D}为顶点
Figure BDA0003372201130000063
的邻接节点集,Ω作为对应B(vi)的候选节点集,则图卷积操作公式为:
Figure BDA0003372201130000064
其中p(·)为采样函数,σ为激活函数,l(即英文字母L的小写)表示网络层数。每个空间图Gt的每个顶点
Figure BDA0003372201130000065
在进行图卷积操作后得到长度为P的特征向量
Figure BDA0003372201130000066
则T序列长度的行人轨迹时空图对应了大小为T×N×P的行人时空图特征向量{FeatureG}。
S62、特征融合的过程包括:建立一个和静态场景图像I大小相同的空间张量Vt,把每个行人的特征张量
Figure BDA0003372201130000067
按照坐标位置嵌入Vt中,并与场景特征张量Featurescene连接得到张量FeatureVt=Vt+Featurescene。把FeatureVt添加到行人特征张量
Figure BDA0003372201130000068
中作为残差,得到最后的组合特征张量
Figure BDA0003372201130000069
S7、预测行人轨迹。先对预测网络进行训练,使用轨迹坐标的负对数似然估计作为损失函数,在训练过程中以最小化损失函数为目的进行反向传播和参数迭代得到训练好的行人轨迹预测模型并保存;再把组合特征张量输入行人轨迹预测模型,预测行人未来的轨迹;最后把真实轨迹和预测轨迹进行计算分析,得到模型准确率。
本实施例中,使用时间卷积神经网络TCN作为轨迹预测网络,TCN接受经特征融合产生后的组合特征张量
Figure BDA00033722011300000610
并将时间维度视为特征通道,由一系列残差连接的CNN组成,输出一系列的行人未来轨迹坐标
Figure BDA00033722011300000611
其中,行人未来轨迹是一个遵循以下规律的双变量高斯分布:
Figure BDA00033722011300000612
其中,
Figure BDA00033722011300000613
表示t时间第i个行人的位置,
Figure BDA00033722011300000614
Figure BDA00033722011300000615
分别表示第i行人在t时刻的x坐标和y坐标,
Figure BDA00033722011300000616
为高斯分布函数,
Figure BDA00033722011300000617
分别为分布的均值、方差和偏移值,Tpre为轨迹长度,N为轨迹中行人总数。TCN轨迹预测网络中使用所预测的行人未来轨迹坐标
Figure BDA00033722011300000618
的负对数似然估计作为损失函数。
除了本实施例提及的方式外,还能做如下变换:使用其他算法消除视频中的运动行人而得到静态场景图片,并在其他流程采用和本实施例相同或相似的行人轨迹预测方法;使用其他语义分割方法作为提取静态场景语义分割图像的手段,并在其他流程采用和本实施例相同或相似的行人轨迹预测方法等。
实施例2
本实施例与实施例1基于相同的发明构思,所提出的行人轨迹预测系统具体包括:
数据获取模块,用于获取关于行人轨迹预测的公开数据集,其中包括在不同场景下长度不等的视频数据和视频中对应的行人坐标轨迹数据表;
数据集划分模块,用于划分训练集和测试集;为了保证静态场景数据对训练好的网络模型起到一定的作用,静态场景信息能够被有效用于行人轨迹的预测,要求测试集所用的视频数据有一部分对应不同时间段但同一场景的视频段存在于训练集中,即对应的测试集和训练集来自具有同一场景的视频的不同时间段,每个视频中有一部分数据在训练集中,一部分数据在测试集中;
数据预处理模块,对于视频数据,获取每段不同视频中抹去运动行人后对应的静态场景图像;对于行人轨迹数据,根据时间帧进行采样,得到统一帧间隔和帧数的轨迹,并对不同数据集中行人坐标尺度进行归一化;
语义分割模块,用于对提取出的静态场景图像进行分辨率统一调整后输入预训练好语义分割网络中,并对得到的图像进行统一调整,得到语义分割图像;
时空图构建模块,用于构建行人轨迹时空图,使用每一帧中行人的坐标点和该坐标点对应的语义标签作为顶点信息构建该帧对应的空间图,并将行人轨迹中所有时间序列的空间图组成时空图,用来表示轨迹中行人与行人之间的社会关系;
特征提取与特征融合模块,用于分别对静态场景图像和时空图使用不同的卷积神经网络进行特征提取,得到场景特征张量和行人特征张量,再使用特征融合方法得到最后的组合特征张量;
行人轨迹预测模块,先对预测网络进行训练,得到训练好的行人轨迹预测模型并保存;再把组合特征张量输入行人轨迹预测模型,预测行人未来的轨迹。
实施例3
与实施例1基于相同的发明构思,本实施例提供一种存储介质,存储介质上存储有计算机可执行指令,当计算机可执行指令由计算机处理器执行时,用于实现实施例1的行人轨迹预测方法。其中,存储介质可以是任何各种类型的存储器设备或存储设备。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.结合场景上下文和行人社会关系的行人轨迹预测方法,其特征在于,包括以下步骤:
S1、获取关于行人轨迹预测的公开数据集,其中包括在不同场景下长度不等的视频数据和视频中对应的行人坐标轨迹数据表;
S2、划分训练集和测试集;
S3、数据预处理,对于视频数据,获取每段不同视频中抹去运动行人后对应的静态场景图像;对于行人轨迹数据,根据时间帧进行采样,得到统一帧间隔和帧数的轨迹,并对不同数据集中行人坐标尺度进行归一化;
S4、对提取出的静态场景图像进行分辨率统一调整后输入预训练好语义分割网络中,并对得到的图像进行统一调整,得到语义分割图像;
S5、构建行人轨迹时空图,使用每一帧中行人的坐标点和该坐标点对应的语义标签作为顶点信息构建该帧对应的空间图,并将行人轨迹中所有时间序列的空间图组成时空图,用来表示轨迹中行人与行人之间的社会关系;
S6、分别对静态场景图像和时空图使用不同的卷积神经网络进行特征提取,得到场景特征张量和行人特征张量,再使用特征融合方法得到最后的组合特征张量;
S7、预测行人轨迹,先对预测网络进行训练,得到训练好的行人轨迹预测模型并保存;再把组合特征张量输入行人轨迹预测模型,预测行人未来的轨迹。
2.根据权利要求1所述的行人轨迹预测方法,其特征在于,步骤S3在数据预处理过程中,对视频数据进行静态场景提取时,先使用KNN算法对视频进行动态对象和静态场景划分,得到静态场景图像,对得到的静态场景图像进行图像过滤处理,并通过不断调整过滤算法中的过滤阈值以保证运动物体在划分后的静态场景图象中留存的噪声和阴影影响最小;再对得到的静态场景图像进行图像处理,消除行人所在区域存留的阴影和椒盐噪声,得到剔除了所有动态行人之后该视频对应的静态场景图象。
3.根据权利要求1所述的行人轨迹预测方法,其特征在于,步骤S3在数据预处理过程中,对记载了每个时间帧上所有行人坐标点的行人轨迹数据表,以每m帧作为间隔等距采样,再根据行人在n个采样点上构成的轨迹线性程度提取出非线性的行人轨迹坐标,以此作为行人轨迹预测的坐标数据集。
4.根据权利要求3所述的行人轨迹预测方法,其特征在于,步骤S3中行人轨迹坐标的计算公式如下:
Figure FDA0003372201120000011
其中{X,Y}指行人的世界坐标轨迹序列,T1和Tpre分别指轨迹开始和结束的时间;
Figure FDA0003372201120000012
分别指第i个行人在t时间的x坐标和y坐标,t指行人所在的时间帧,i指该行人的编号,N指轨迹中所有行人的总数,T1~pre指轨迹中的时间帧。
5.根据权利要求1所述的行人轨迹预测方法,其特征在于,步骤S5包括以下步骤:
S51、设t时刻的时间帧一共有N个行人,以行人的坐标位置
Figure FDA0003372201120000021
和语义分割图像中行人所在坐标位置
Figure FDA0003372201120000022
对应的语义标签
Figure FDA0003372201120000023
构成空间图的顶点集:
Vt={Vt i|i=1,2......N}
顶点集中每个顶点
Figure FDA0003372201120000024
包含一个行人坐标位置及其所在位置对应的语义标签
Figure FDA0003372201120000025
S52、以i、j顶点是否有连接关系作为空间图的边集
Figure FDA0003372201120000026
构建t时刻对应的二维空间图Gt;若i、j顶点对应的行人之间的最短距离d(vi,vj)小于等于确定阈值D,则认为i、j顶点之间具有连接关系,
Figure FDA0003372201120000027
否则
Figure FDA0003372201120000028
S53、对时间0→T所有时刻的行人信息都构造相应的二维空间图G0~T,则得到时空图G。
6.根据权利要求5所述的行人轨迹预测方法,其特征在于,步骤S52中为了衡量两个顶点i、j之间的相关性,对每条边
Figure FDA0003372201120000029
计算权重值:
Figure FDA00033722011200000210
其中
Figure FDA00033722011200000211
指边
Figure FDA00033722011200000212
对应的权重值,
Figure FDA00033722011200000213
指顶点
Figure FDA00033722011200000214
和顶点
Figure FDA00033722011200000215
的连接边。
7.根据权利要求1所述的行人轨迹预测方法,其特征在于,步骤S6包括:
S61、特征提取,对于时空图,使用图卷积神经网络作为特征提取网络,对于一个时空图G中t时刻对应的空间图Gt,其中有顶点集Vt={Vt i|i=1,2......N},边集
Figure FDA00033722011200000216
对空间图Gt中的每个顶点
Figure FDA00033722011200000217
进行图卷积操作:假设B(vi)={vj|d(vi,vj)≤D}为顶点
Figure FDA00033722011200000218
的邻接节点集,Ω作为对应B(vi)的候选节点集,则图卷积操作公式为:
Figure FDA00033722011200000219
其中p(·)为采样函数,σ为激活函数,l表示网络层数;每个空间图Gt的每个顶点
Figure FDA0003372201120000031
在进行图卷积操作后得到长度为P的特征向量
Figure FDA0003372201120000032
则T序列长度的行人轨迹时空图对应了大小为T×N×P的行人时空图特征向量{FeatureG};
S62、特征融合,建立一个和静态场景图像大小相同的空间张量Vt,把每个行人的特征张量
Figure FDA0003372201120000033
按照坐标位置嵌入Vt中,并与场景特征张量Featurescene连接得到张量FeatureVt=Vt+Featurescene;把张量FeatureVt添加到行人特征张量
Figure FDA0003372201120000034
中作为残差,得到最后的组合特征张量
Figure FDA0003372201120000035
8.根据权利要求1所述的行人轨迹预测方法,其特征在于,步骤S7中使用时间卷积神经网络TCN作为轨迹预测网络,TCN接受经特征融合产生后的组合特征张量
Figure FDA0003372201120000036
并将时间维度视为特征通道,由一系列残差连接的CNN组成,输出一系列的行人未来轨迹坐标
Figure FDA0003372201120000037
其中,行人未来轨迹是一个遵循以下规律的双变量高斯分布:
Figure FDA0003372201120000038
其中,
Figure FDA0003372201120000039
表示t时间第i个行人的位置,
Figure FDA00033722011200000310
Figure FDA00033722011200000311
分别表示第i行人在t时刻的x坐标和y坐标,
Figure FDA00033722011200000312
为高斯分布函数,
Figure FDA00033722011200000313
分别为分布的均值、方差和偏移值,Tpre为轨迹长度,N为轨迹中行人总数;
TCN轨迹预测网络中使用所预测的行人未来轨迹坐标
Figure FDA00033722011200000314
的负对数似然估计作为损失函数。
9.结合场景上下文和行人社会关系的行人轨迹预测系统,其特征在于,包括:
数据获取模块,用于获取关于行人轨迹预测的公开数据集,其中包括在不同场景下长度不等的视频数据和视频中对应的行人坐标轨迹数据表;
数据集划分模块,用于划分训练集和测试集;
数据预处理模块,对于视频数据,获取每段不同视频中抹去运动行人后对应的静态场景图像;对于行人轨迹数据,根据时间帧进行采样,得到统一帧间隔和帧数的轨迹,并对不同数据集中行人坐标尺度进行归一化;
语义分割模块,用于对提取出的静态场景图像进行分辨率统一调整后输入预训练好语义分割网络中,并对得到的图像进行统一调整,得到语义分割图像;
时空图构建模块,用于构建行人轨迹时空图,使用每一帧中行人的坐标点和该坐标点对应的语义标签作为顶点信息构建该帧对应的空间图,并将行人轨迹中所有时间序列的空间图组成时空图,用来表示轨迹中行人与行人之间的社会关系;
特征提取与特征融合模块,用于分别对静态场景图像和时空图使用不同的卷积神经网络进行特征提取,得到场景特征张量和行人特征张量,再使用特征融合方法得到最后的组合特征张量;
行人轨迹预测模块,先对预测网络进行训练,得到训练好的行人轨迹预测模型并保存;再把组合特征张量输入行人轨迹预测模型,预测行人未来的轨迹。
10.存储介质,其上存储有计算机可执行指令,其特征在于,所述计算机可执行指令由计算机处理器执行时,用于实现权利要求1-8中任一项行人轨迹预测方法。
CN202111405862.9A 2021-11-24 2021-11-24 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 Active CN113920170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111405862.9A CN113920170B (zh) 2021-11-24 2021-11-24 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111405862.9A CN113920170B (zh) 2021-11-24 2021-11-24 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN113920170A true CN113920170A (zh) 2022-01-11
CN113920170B CN113920170B (zh) 2024-04-16

Family

ID=79248192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111405862.9A Active CN113920170B (zh) 2021-11-24 2021-11-24 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN113920170B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861383A (zh) * 2023-02-17 2023-03-28 山西清众科技股份有限公司 一种拥挤空间下多信息融合的行人轨迹预测装置及方法
CN117765226A (zh) * 2024-02-22 2024-03-26 之江实验室 一种轨迹预测方法、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180124423A1 (en) * 2016-10-28 2018-05-03 Nec Laboratories America, Inc. Dynamic scene prediction with multiple interacting agents
CN113177470A (zh) * 2021-04-28 2021-07-27 华中科技大学 行人轨迹预测方法、装置、设备及存储介质
CN113538506A (zh) * 2021-07-23 2021-10-22 陕西师范大学 基于全局动态场景信息深度建模的行人轨迹预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180124423A1 (en) * 2016-10-28 2018-05-03 Nec Laboratories America, Inc. Dynamic scene prediction with multiple interacting agents
CN113177470A (zh) * 2021-04-28 2021-07-27 华中科技大学 行人轨迹预测方法、装置、设备及存储介质
CN113538506A (zh) * 2021-07-23 2021-10-22 陕西师范大学 基于全局动态场景信息深度建模的行人轨迹预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张雪翔;吴训成;史训昂;侍俊;: "LSTGHP:基于分层时空图的异构代理轨迹分布预测", 软件, no. 09, 15 September 2020 (2020-09-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861383A (zh) * 2023-02-17 2023-03-28 山西清众科技股份有限公司 一种拥挤空间下多信息融合的行人轨迹预测装置及方法
CN115861383B (zh) * 2023-02-17 2023-05-16 山西清众科技股份有限公司 一种拥挤空间下多信息融合的行人轨迹预测装置及方法
CN117765226A (zh) * 2024-02-22 2024-03-26 之江实验室 一种轨迹预测方法、装置和存储介质

Also Published As

Publication number Publication date
CN113920170B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
Mane et al. Moving object detection and tracking using convolutional neural networks
CN109146921B (zh) 一种基于深度学习的行人目标跟踪方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
Chen et al. Learning linear regression via single-convolutional layer for visual object tracking
US11640714B2 (en) Video panoptic segmentation
Liu et al. Counting people by estimating people flows
CN111259779A (zh) 一种基于中心点轨迹预测的视频动作检测方法
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
CN113313123B (zh) 一种基于语义推断的扫视路径预测方法
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN113628244A (zh) 基于无标注视频训练的目标跟踪方法、系统、终端及介质
CN116168329A (zh) 基于关键帧筛选像素块的视频动作检测方法、设备及介质
JP2022548187A (ja) 対象再識別方法および装置、端末並びに記憶媒体
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
CN111508000A (zh) 基于参数空间噪声网络的深度强化学习目标跟踪方法
Lv et al. Memory‐augmented neural networks based dynamic complex image segmentation in digital twins for self‐driving vehicle
CN113920170B (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
Singh et al. Fast semantic-aware motion state detection for visual slam in dynamic environment
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN117173607A (zh) 多层级融合多目标跟踪方法、系统及计算机可读存储介质
Gong et al. Research on an improved KCF target tracking algorithm based on CNN feature extraction
CN116958057A (zh) 一种策略引导的视觉回环检测的方法
Firouznia et al. Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant