CN115018134A - 一种基于三尺度时空信息的行人轨迹预测方法 - Google Patents
一种基于三尺度时空信息的行人轨迹预测方法 Download PDFInfo
- Publication number
- CN115018134A CN115018134A CN202210550870.0A CN202210550870A CN115018134A CN 115018134 A CN115018134 A CN 115018134A CN 202210550870 A CN202210550870 A CN 202210550870A CN 115018134 A CN115018134 A CN 115018134A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- lstm
- information
- scale
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Development Economics (AREA)
- Biophysics (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于三尺度时空信息的行人轨迹预测方法,主要任务为使用三个不同的尺度来解决行人轨迹预测问题:行人尺度,捕捉每个行人的历史轨迹信息;社会尺度,捕捉每个行人与周围行人时间空间上的互动信息;场景尺度,捕获行人所处场景布局的信息。搭建基于这三个尺度信息的网络模型并对其进行训练,最终达到较好的预测效果。其中,使用LSTM与图注意力网络替代RNN用于序列特征提取,使用卷积神经网络(CNN)结合LSTM对场景特征进行提取。此外,同一时刻的空间互动由图注意力网络(GAT)捕获。选择ETH和UCY数据集对模型进行训练和测试,并选择ADE和FDE作为模型性能评估指标,模型在两个数据集上均展现了较好的表现。
Description
技术领域
本发明属于行人轨迹预测技术领域,具体为一种基于三尺度时空信息的行人轨迹预测方法。
背景技术
随着自动驾驶汽车、服务机器人和监控系统等智能系统的快速发展,如何在高度拥挤和混乱的环境中感知、理解和预测行人的运动模式以防止未来发生碰撞是需要重点研究的问题。但由于行人的运动不仅受自身因素的影响,还受到周围行人的影响,此外,复杂的场景也会增加行人轨迹预测的难度,因此行人轨迹预测已成为一个非常具有挑战性的问题。在各类文献中,行人轨迹预测的方法不断发展,从基于物理的模型过渡到基于循环神经网络的数据驱动模型。近年来,轨迹预测得到了广泛关注,并取得了重大进展。由于循环神经网络、卷积神经网络、图注意力网络等诸多新型网络结构在序列处理等问题上取得了很好的成果,研究人员将这些网络应用于行人轨迹预测领域。因此每年都有大量的新型轨迹预测算法被提出,轨迹预测算法的精确度和稳定性也连年提升。
国内外学者对此进行了大量的研究,侧重点既有长期预测也有短期预测。其中,长期预测一般都是以预测行人的移动路线或最终目的地为目标,短期预测主要是预测未来数帧内行人的位置。但是由于行人的运动受其主观意识的影响很大,变化复杂,长期预测很难达到较为理想的结果,因此更多的研究是倾向于短期预测。在算法方面,主要分为传统算法和深度学习算法这两种。传统算法主要采用马尔可夫决策过程框架,静态语义场景,控制论,力学建模等。但是,由于大量的粗、细颗粒性以及行人的主观判断等因素,使行人运动模式难以建模。近年来,深度神经网络(DNN)因其非线性拟合、自组织、自学习等特性,使得其在行人轨迹预测任务中比传统的方法更加精确、多模态化。
随着神经网络的成功,目标检测和语音识别等大量研究利用卷积神经网络(CNN)、循环神经网络(RNN)和自动编码器来提取信息特征,而不是严重依赖手工特征工程,他们通过迭代方式传播相邻信息来学习目标节点的表示,直到达到一个稳定的固定点。随着用于序列预测任务的循环神经网络(RNN)模型的发展,其因时间轴深度过深引起的,例如:训练效率低下、梯度消失、梯度爆炸等问题逐渐显露出来。因此一些变种优化结构被提出,如LSTM、GRU等。许多研究人员尝试利用基于长短期记忆网络(LSTM)的数据驱动方法学习杜会行为,以提高多目标问题的鲁棒性和准确性。
由于长短期记忆模型(LSTM)成功地运用于各种序列预测任务中,AlexandreAlahi等人得到启发,将LSTM扩展到了行人轨迹预测中。尽管LSTM能够学习并重现长序列,但是其并不能捕捉多个相关序列的依赖关系,因此他们提出了一种新的体系结构,这种体系结构将对应于邻近序列的LSTM连接起来。此外,他们引入了一个“社会”池化层,它允许空间近端序列的LSTM彼此共享它们的隐藏状态。这种体系结构称之为“Social-LSTM”,其可以自动学习在时间上重叠的轨迹之间的交互作用。该模型利用现有的行人轨迹数据集,而不需要任何额外的注释来学习人类在社交空间中遵守的常识规则和惯例。也就是所谓的“社会”池化层:它使相邻的LSTM能够分享其隐含的状态,从而使模型能够自动地学习在时间上重叠的轨迹间的交互作用。
发明内容
发明目的:针对上述现有技术,提出一种基于三尺度时空信息的行人轨迹预测方法。
技术方案:一种基于三尺度时空信息的行人轨迹预测方法,包括如下步骤:
6)对数据集中行人轨迹数据的行人尺度信息进行编码,即获取每个行人的运动模式;
7)对数据集中行人轨迹数据的社会尺度信息进行编码,即对行人交互之间的时空相关性进行建模;
8)对数据集中行人轨迹数据的场景尺度信息进行编码,即获取行人轨迹预测的场景全局信息;
9)将获得的三种尺度上的特征信息结合起来,完成了时空信息的融合,得到中间状态向量;
10)将中间状态向量输入解码器中,生成预测的行人轨迹。
优选的,步骤2)的实现过程为:通过堆叠图注意力层构建图注意力网络GAT,图注意力层的输入是其中RF是维度是F的自然数矩阵,N是节点数量,F是每个节点的维度,输出是节点为场景中的行人;在观察阶段,被馈送到图注意力层,Tobs为时间步,一对节点(i,j)在注意力机制中的系数通过以下方式计算:
节点i在时刻t处的一个图注意力层的输出由下式计算而得:
其中:Ws是S-LSTM的权重。
优选的,步骤3)的实现过程为:使用卷积神经网络CNN在时刻t提取每一帧的场景特征Ft,构建场景尺度编码的长短期记忆模型C-LSTM,场景特征Ft被馈送到场景尺度编码的长短期记忆模型C-LSTM以计算第i个行人在时间t的隐藏状态向量
其中:Wc是相应的权重矩阵。
优选的,步骤4)的实现过程为:将获得的三种尺度上的特征信息结合起来,在时间步Tobs处,每个行人的P-LSTM,S-LSTM和C-LSTM中有三个隐藏变量 这三个变量在连接之前被馈送到三个不同的多层感知器(δ1(·)、δ2(·)和δ3(·)),再通过串联操作||得到初步中间状态向量hi:
为实现轨迹预测的多模态化,引入噪声z,因此最终的中间状态向量由四部分组成:P-LSTM的隐藏变量、S-LSTM的隐藏变量、C-LSTM的隐藏变量和添加的噪声,中间状态向量计算公式为:其中||是串联操作,z代表噪声。
有益效果:本发明提供一种基于三尺度时空信息的行人轨迹预测方法,主要任务为使用三个不同的尺度来解决行人轨迹预测问题:行人尺度,捕捉每个行人的历史轨迹信息;社会尺度,捕捉每个行人与周围行人时间空间上的互动信息;场景尺度,捕获行人所处场景布局的信息。搭建基于这三个尺度信息的网络模型并对其进行训练,最终达到较好的预测效果。
附图说明
图1为本发明的三种尺度信息示意图;
图2为本发明的行人交互图结构示意图;
图3为本发明的GAT图注意层示意图;
图4为本发明的CNN结构示意图;
图5为本发明的整体示意图;
图6为本发明的P-LSTM行人尺度信息详细图;
图7为本发明的S-LSTM社会尺度信息详细图;
图8为本发明的C-LSTM场景尺度信息详细图;
图9为本发明的D-LSTM解码器模块详细图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
对观测到的轨迹中的行人尺度信息进行编码,即给每一个行人使用一个长短期记忆模型(LSTM)来获得其运动状态,并用P-LSTM(行人尺度编码的长短期记忆模型)表示这个LSTM。
首先计算每个行人与其前一时刻的相对位置,具体计算公式如下:
接着将场景中的行人当作每个时刻完整图上的节点,通过使用图注意力网络(GAT)对该图结构数据进行操作,并通过关注其邻点来计算每个图节点的特征。GAT是通过堆叠图注意力层来构建的,图注意力层的输入是其中N是节点数量,F是每个节点的特征维度。输出是(F′和F可以不相等)。
其中,||是串联操作,.T代表转置,是节点j在时刻t对i的注意力系数,是图中节点i的邻点。W∈RF′×F是应用于每个节点线性变换的共享权重矩阵(F是的维数,F′是输出的维数)。a∈R2F′是单层前馈神经网络的权重向量,它由带有LeakyReLU的softmax函数进行归一化。
在得到归一化的注意系数后,节点i在t处的一个图注意力层的输出由下式计算而得:
再使用另一个LSTM来对行人交互之间的时间相关性进行建模。将该LSTM称为S-LSTM(社会尺度编码的长短期记忆模型),S-LSTM在t时刻的隐藏状态sit计算公式具体如下:
接着使用卷积神经网络CNN在时刻t提取一帧的场景特征Ft,并引入用于获取场景尺度特征的LSTM来捕获预测场景中的场景特征,将该LSTM称为C-LSTM(场景尺度编码的长短期记忆模型)。场景特征矩阵Ft被馈送到C-LSTM以计算第i个行人在时间t的隐藏状态向量
其中Wc是相应的权重矩阵。
再通过串联操作||得到初步中间状态向量hi:
为实现轨迹预测的多模态化,引入噪声z,因此最终的中间状态向量由四部分组成:P-LSTM的隐藏变量、S-LSTM的隐藏变量、C-LSTM的隐藏变量和添加的噪声,中间状态向量计算公式为:
其中||是串联操作,z代表噪声,hi来自前一个公式。
步骤1、采用UCY和ETH作为训练测试数据集,选取评估指标平均位移误差(ADE)和最终位移误差(FDE)。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于三尺度时空信息的行人轨迹预测方法,其特征在于,包括如下步骤:
1)对数据集中行人轨迹数据的行人尺度信息进行编码,即获取每个行人的运动模式;
2)对数据集中行人轨迹数据的社会尺度信息进行编码,即对行人交互之间的时空相关性进行建模;
3)对数据集中行人轨迹数据的场景尺度信息进行编码,即获取行人轨迹预测的场景全局信息;
4)将获得的三种尺度上的特征信息结合起来,完成了时空信息的融合,得到中间状态向量;
5)将中间状态向量输入解码器中,生成预测的行人轨迹。
3.如权利要求2所述的一种基于三尺度时空信息的行人轨迹预测方法,其特征在于,步骤2)的实现过程为:通过堆叠图注意力层构建图注意力网络GAT,图注意力层的输入是其中RF是维度是F的自然数矩阵,N是节点数量,F是每个节点的维度,输出是节点为场景中的行人;在观察阶段,被馈送到图注意力层,Tobs为时间步,一对节点(i,j)在注意力机制中的系数通过以下方式计算:
节点i在时刻t处的一个图注意力层的输出由下式计算而得:
其中:Ws是S-LSTM的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210550870.0A CN115018134A (zh) | 2022-05-18 | 2022-05-18 | 一种基于三尺度时空信息的行人轨迹预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210550870.0A CN115018134A (zh) | 2022-05-18 | 2022-05-18 | 一种基于三尺度时空信息的行人轨迹预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115018134A true CN115018134A (zh) | 2022-09-06 |
Family
ID=83069301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210550870.0A Pending CN115018134A (zh) | 2022-05-18 | 2022-05-18 | 一种基于三尺度时空信息的行人轨迹预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115018134A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829171A (zh) * | 2023-02-24 | 2023-03-21 | 山东科技大学 | 一种联合时空信息和社交互动特征的行人轨迹预测方法 |
-
2022
- 2022-05-18 CN CN202210550870.0A patent/CN115018134A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829171A (zh) * | 2023-02-24 | 2023-03-21 | 山东科技大学 | 一种联合时空信息和社交互动特征的行人轨迹预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111612243B (zh) | 交通速度预测方法、系统及存储介质 | |
CN114299723B (zh) | 一种交通流量预测方法 | |
CN108876044B (zh) | 一种基于知识增强神经网络的线上内容流行度预测方法 | |
CN113239897B (zh) | 基于时空特征组合回归的人体动作评价方法 | |
CN115273464A (zh) | 一种基于改进的时空Transformer的交通流量预测方法 | |
CN115438856A (zh) | 基于时空交互特征和终点信息的行人轨迹预测方法 | |
CN117077727B (zh) | 基于时空注意力机制和神经常微分方程的轨迹预测方法 | |
CN114611663A (zh) | 一种基于在线更新策略的定制化行人轨迹预测方法 | |
Yang et al. | Long-short term spatio-temporal aggregation for trajectory prediction | |
CN115829171A (zh) | 一种联合时空信息和社交互动特征的行人轨迹预测方法 | |
CN114841072A (zh) | 一种基于差分融合Transformer的时序预测方法 | |
CN116052254A (zh) | 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 | |
CN115018134A (zh) | 一种基于三尺度时空信息的行人轨迹预测方法 | |
CN116485839A (zh) | 一种基于注意力自适应选择Transformer的视觉跟踪方法 | |
CN115082896A (zh) | 基于拓扑图结构和深度自注意力网络的行人轨迹预测方法 | |
CN112241802A (zh) | 一种风电功率的区间预测方法 | |
CN117522920A (zh) | 一种基于改进时空图注意力网络的行人轨迹预测方法 | |
CN116030537B (zh) | 基于多分支注意力图卷积的三维人体姿态估计方法 | |
CN117314956A (zh) | 一种基于图神经网络的交互行人轨迹预测方法 | |
CN116704596A (zh) | 一种基于骨骼序列的人体行为识别方法 | |
CN116403176A (zh) | 基于车道点未来轨迹偏移量辅助监督的车辆轨迹预测方法 | |
CN113408786B (zh) | 一种交通特征预测方法及系统 | |
CN115270917A (zh) | 一种两阶段处理多模态服装图像生成方法 | |
Takano et al. | What do you expect from a robot that tells your future? The crystal ball | |
CN113869170A (zh) | 一种基于图划分卷积神经网络的行人轨迹预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |