CN115071762B - 面向城市场景下行人轨迹预测方法、模型及存储介质 - Google Patents
面向城市场景下行人轨迹预测方法、模型及存储介质 Download PDFInfo
- Publication number
- CN115071762B CN115071762B CN202211002636.0A CN202211002636A CN115071762B CN 115071762 B CN115071762 B CN 115071762B CN 202211002636 A CN202211002636 A CN 202211002636A CN 115071762 B CN115071762 B CN 115071762B
- Authority
- CN
- China
- Prior art keywords
- track
- scene
- sequence
- prediction
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 72
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 58
- 230000003993 interaction Effects 0.000 claims abstract description 51
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 230000002093 peripheral effect Effects 0.000 claims abstract description 27
- 230000002452 interceptive effect Effects 0.000 claims description 30
- 230000004927 fusion Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 12
- 230000002349 favourable effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009625 temporal interaction Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0027—Planning or execution of driving tasks using trajectory prediction for other traffic participants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/402—Type
- B60W2554/4029—Pedestrians
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4045—Intention, e.g. lane change or imminent movement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Traffic Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及自动驾驶技术领域,尤其涉及一种面向城市场景下行人轨迹预测方法、模型及存储介质,方法包括:用向量表示各智能体的轨迹序列,并基于层级的网络结构得到预测目标的空间交互特征;利用LSTM网络提取预测目标历史轨迹中的轨迹时序特征;利用多头注意力机制对空间交互特征和轨迹时序特征进行融合得到场景上下文特征;对场景上下文特征进行解码输出预测目标的未来轨迹。以场景向量特征作为输入,能直接学习场景中的关键交互信息,将空间交互特征和轨迹时序特征有效结合,通过对周边智能体分配不同的注意力,使模型更加关注对预测目标产生较大影响的个体,从而有助于提高复杂城市道路场景中行人轨迹的预测效果。
Description
技术领域
本申请涉及自动驾驶的技术领域,尤其是涉及一种面向城市场景下行人轨迹预测方法、模型及存储介质。
背景技术
随着科技的高速发展和汽车智能化时代的到来,自动驾驶汽车将在未来智能交通系统中占据极其重要的地位。
自动驾驶车辆在人车混行的城市交叉口行驶时需要特别关注行人运动,通过准确预测行人的未来运动轨迹,可以确保自动驾驶车辆及时避让以保证行车安全。行人作为交通场景中最为灵活、随机的个体,其运动高度发散,意图难以确定,与其他交通参与者常存在各种空间和时间上的交互,极易受到周边智能体的影响。对于自动驾驶车辆而言,对行人行为的理解和轨迹的预测是一个难点。
传统的行人轨迹预测方法主要建立在各种时序模型上,例如隐马尔可夫模型、高斯过程等。这类方法一般通过人为地设计时序递推公式来生成未来轨迹,具有严格的数学证明,可解释性强。但这些算法往往会引入一些苛刻的条件假设,在行人轨迹预测这种复杂问题上效果比较差,难以有效帮助自动驾驶车辆进行合理决策并保证行车安全。
发明内容
为了提高复杂城市道路场景中行人轨迹的预测效果,本申请提供一种面向城市场景下行人轨迹预测方法、模型及存储介质。
第一方面,本申请提供的一种面向城市场景下行人轨迹预测方法,采用如下的技术方案:
一种面向自动驾驶的城市场景下行人轨迹预测方法,包括:
用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征;
获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹中的轨迹时序特征;
利用多头注意力机制对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征;
对所述场景上下文特征进行解码,输出预测目标的未来轨迹。
通过采用上述技术方案,以场景向量特征作为输入,能直接学习场景中的关键交互信息。另外,基于多头注意力机制能将空间交互特征和轨迹时序特征有效结合,通过对周边智能体分配不同的注意力,使模型更加关注对预测目标产生较大影响的个体,从而有助于提高复杂城市道路场景中行人轨迹的预测效果。
可选的,所述用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征步骤之前,还包括:
基于Argoverse运动预测数据集获取车辆轨迹序列和高精地图数据;
对所述车辆轨迹序列进行预处理,得到包含预测目标和周边智能体的轨迹片段;
根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,最终得到长度为观测时长的预测目标和周边智能体的轨迹序列。
可选的,所述根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,最终得到长度为观测时长的预测目标和周边智能体的轨迹序列步骤,具体包括:
根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,删除静止目标及长度不足设定长度的轨迹,对不完整的轨迹进行插值补充,得到长度为观测时长的预测目标和周边智能体的轨迹序列。
可选的,所述用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征步骤,具体包括:
用向量表示各智能体的轨迹序列,获取向量特征,并根据不同时刻的向量特征集合生成对应的轨迹序列;
将所述向量特征映射到高维空间,并在时间维度采用最大池化,得到与轨迹序列对应的高阶特征向量;
利用图注意力网络对轨迹序列特征进行高阶交互,得到预测目标的空间交互特征;其中,所述轨迹序列特征为高阶特征向量的集合。
可选的,所述获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹中的轨迹时序特征步骤,具体包括:
获取预测目标的历史轨迹信息;其中,预测目标的历史轨迹信息用位置、速度和航向角组成的多维特征向量表示;
将所述维特征向量映射到高维空间,获得高维特征向量;
将所述高维特征向量输入LSTM网络,输出轨迹时序特征。
可选的,所述利用多头注意力机制对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征步骤,具体包括:
以所述空间交互特征作为多头注意力机制的键和值,所述轨迹时序特征作为多头注意力机制的查询向量,评估预测目标和周边智能体的关联程度;
根据所述关联程度对不同空间区域加权,计算场景上下文特征。
可选的,所述对所述场景上下文特征进行解码,输出预测目标的未来轨迹步骤,具体包括:
利用LSTM网络作为解码器对所述场景上下文特征进行解码,并利用t时刻的隐藏状态预测下一个时间步长t+1时刻的轨迹位置;
通过MLP层对轨迹预测时长内的隐藏状态序列作线性变换,输出预测目标的未来轨迹;其中,所述隐藏状态序列为轨迹预测时长内所有隐藏状态的集合。
第二方面,本申请提供的一种面向城市场景下行人轨迹预测模型,采用如下的技术方案:
一种面向自动驾驶的城市场景下行人轨迹预测模型,包括:
空间交互模块,用于采用向量表示预测目标周边智能体的轨迹,并基于层级的网络结构提取预测目标的空间交互特征;
轨迹编码模块,用于获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹信息中的轨迹时序特征;
特征融合模块,用于对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征;
轨迹输出模块,用于对场景上下文特征进行解码,输出预测目标的未来轨迹。
第三方面,本申请提供的一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,存储有能够被处理器加载并执行如第一方面所述的计算机程序。
综上所述,本申请包括以下至少一种有益技术效果:
以场景向量特征作为输入,能直接学习场景中的关键交互信息。另外,基于多头注意力机制能将空间交互特征和轨迹时序特征有效结合,通过对周边智能体分配不同的注意力,使模型更加关注对预测目标产生较大影响的个体,从而有助于提高复杂城市道路场景中行人轨迹的预测效果。
附图说明
图1是本申请实施例示出的自动驾驶系统架构。
图2是本申请实施例示出的行人轨迹预测方法的流程图。
图3是本申请实施例示出的行人轨迹预测方法中轨迹数据预处理的示意图,其中(a)部分是X方向的对比图,(b)部分是Y方向的对比图。
图4是本申请实施例示出的行人轨迹预测方法中轨迹数据处理的流程图。
图5是本申请实施例示出的行人轨迹预测方法中用于体现步骤400的网络结构图。
图6是本申请实施例示出的行人轨迹预测方法中用于体现步骤500的网络结构图。
图7是本申请实施例示出的行人轨迹预测方法中用于体现步骤600的网络结构图。
图8是本申请实施例示出的行人轨迹预测方法中用于体现步骤700的网络结构图。
图9是本申请实施例示出的行人轨迹预测模型的架构图。
具体实施方式
下面结合图1-图9对本申请作进一步详细说明。
首先,对本申请实施例涉及的名词进行介绍。
FC层,是全连接层(Full Connection)的缩写,在整个卷积神经网络中起到“分类器”的作用;全连接层本质是由一个特征空间线性变换到另一个特征空间,其核心计算是矩阵乘。在卷积神经网络中,全连接层通常出现在最后,用于对前面设计的特征做加权和。
如图1所示,一个完整的自动驾驶系统主要由感知模块、定位模块、决策规划模块和控制模块组成,感知模块通过摄像头、激光雷达等传感器感知自动驾驶车辆周围的环境,对周边环境因素进行检测并对动态目标进行跟踪。定位模块根据惯性导航系统、GPS和高精地图等确定自动驾驶车辆位姿信息。决策规划模块根据感知和定位结果,对动态目标进行运动预测,通过自动驾驶车辆行为决策来规划出一条高效、无碰撞的路径。最后,底层执行机构根据控制信号实现车辆的横纵向控制。运动预测作为决策规划模块的一部分,连接感知模块和决策规划模块,通过订阅上游感知模块对动态目标的跟踪结果、道路结构信息,综合考量高精地图、智能体间交互和目标意图等信息,预测各类动态目标未来一段时间内可能的运动变化,进而影响自动驾驶车辆的行为决策和路径规划。
行人作为交通场景中最为灵活、随机的个体,其运动高度发散,意图难以确定,与其他交通参与者常存在各种空间和时间上的交互,极易受到周边智能体的影响,因此行人轨迹预测需要重点考虑各智能体间的交互。
本申请公开了一种面向城市场景下行人轨迹预测方法,同时提取预测目标的轨迹时序特征和智能体间的空间交互特征,对复杂城市道路场景的行人轨迹具有良好的预测效果。
作为行人轨迹预测方法的一种实施方式,如图2所示,包括以下步骤:
100,基于Argoverse运动预测数据集获取车辆轨迹序列和高精地图数据。
200,对所述车辆轨迹序列进行预处理,得到包含预测目标和周边智能体的轨迹片段。
300,根据观测时长最后一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,最终得到长度为观测时长的预测目标和周边智能体的轨迹序列。
需要说明的是,利用Argoverse运动预测数据集提供车辆轨迹序列和高精地图数据。具体的,使用与Argo AI自动驾驶技术完全集成的采集车收集据,采集车的主传感器包括2个堆叠的VLP-32C激光雷达、7个呈环状分布的200万像素摄像头和1个500万像素双目摄像头;Argo AI自动驾驶技术在接近300公里的城市交通场景中跟踪了近1006个小时的物体,提取了324557个5秒的运动预测场景序列,包括路段行驶,交叉口行驶,行人通行等多种场景。Argoverse 运动预测数据集提供了较为丰富的场景和运动信息,同时增加了交叉口等典型人车交互场景下的行人标注。
本申请基于上述Argoverse运动预测数据集构建行人轨迹预测模型的训练集和验证集。具体的,根据轨迹预测任务的需求,将Argoverse运动预测数据集中每条数据处理成8s的轨迹片段,包含预测目标P、周边智能体的轨迹。行人轨迹的观测时长=3s,预测时长=5s。
结合图3,由于Argoverse原始数据是基于车载传感器的感知结果处理得到,难免会存在一定的误差,本申请采用Savitzky-Golay平滑滤波器对轨迹序列进行预处理。其中,Savitzky-Golay平滑滤波器是一种基于最小二乘法拟合的滤波方式。
结合图4,为了提取有明显的交互的周边智能体,考虑到算法速度和实际需要,交互范围设为=30m,根据观测时长最后一帧的智能体位置,筛选在交互范围R内的周边智能体轨迹,删除静止目标及长度不足0.3的轨迹,对不完整的轨迹进行插值补充,最终得到长度为的预测目标P和周边智能体的轨迹序列数据。
基于车辆轨迹序列和高精地图数据处理Argoverse运动预测数据集,改进后的Argoverse运动预测数据集包含的场景信息包括轨迹信息和地图信息,其中,轨迹信息包括运动信息(位置x、y,速度v,航向角)、尺寸信息(长度L,宽度W,高度H)以及其他信息(目标ID);地图信息包括位置信息(道路点坐标x、y)以及其他信息(是否转弯、是否位于路口以及是否有交通信号灯控制)。
400,用向量表示各智能体的空间位置信息,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征。
具体的,结合图5,步骤200包括:
401,用向量表示各智能体的空间位置信息,获取向量特征,并根据不同时刻的向量特征集合生成对应的轨迹序列;
402,将所述向量特征映射到高维空间,并在时间维度采用最大池化,得到与轨迹序列对应的高阶特征向量;
403,利用图注意力网络对轨迹序列特征进行高阶交互,得到预测目标的空间交互特征;其中,所述轨迹序列特征为高阶特征向量的集合。
需要说明的是,直接用向量表示各智能体的空间位置信息,这种方式能直接学习到有意义的场景特征,有效提取空间中的交互信息。然后利用MLP层将向量特征映射到高维空间,并在时间维度采用最大池化(Pooling),得到与轨迹序列对应的高阶特征向量;并基于图注意力网络对智能体之间的轨迹序列特征进行高阶交互建模,获得场景的空间交互特征。
其中,智能体轨迹序列集合表示为,代表预测目标的轨迹序列,代表预测目标周边m个其他智能体的轨迹序列,每条轨迹序列为不同时刻的向量集合:,,表示历史轨迹的长度20,向量中包含丰富的位置和语义信息,维度为8,。其中,代表向量的起点和终点,对应前后两帧中智能体的位置;代表智能体的长度和宽度外观属性,代表归一化的序列时间戳,表示向量与轨迹序列之间的从属关系,属于同一条轨迹序列的向量具有相同的。
另外,图注意力网络使用注意力机制和邻接矩阵来描述邻接节点对于目标节点的重要性,与图卷积神经网络GCN相比,通过注意力机制来对邻居节点权重自适应分配,提高了图神经网络的表达能力。利用改进后的图注意力网络GAT_v2在对轨迹序列特征进行高阶交互时,每一个序列特征对应于图注意力网络GAT中的一个节点,每条边代表两条轨迹序列之间的关联度。
其中,图注意力网络GAT_v2通过改变线性层Linear和激活函数LeakyReLU的计算顺序,克服了传统GAT只能提供静态注意力的不足,本申请利用改进后的图注意力网络GAT_v2在对轨迹序列特征进行高阶交互:
其中,表示经过图注意力网络聚合后的轨迹序列特征,维度同样为64,代表初始化线性变换的权重矩阵,由MLP层实现,用于计算两个特征之间的相似度;和为激活函数,H为图注意力网络的头数,这里可以设为8;为归一化的注意力分数,为第h头的注意力分数;、分别为与结点相邻的结点的特征向量,表示特征向量第h头的权重矩阵,、、分别表示特征向量、、的权重矩阵。
500,获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹中的轨迹时序特征。
其中,结合图6,步骤500具体包括:
501,获取预测目标的历史轨迹信息;其中,预测目标的历史轨迹信息用位置、速度和航向角组成的多维特征向量表示;
502,将所述维特征向量映射到高维空间,获得高维特征向量;
503,将所述高维特征向量输入LSTM网络,输出轨迹时序特征。
其中,为结点i在观测时长t时的x坐标的位置,为结点i在观测时长t时的y坐标的位置,为结点i在观测时长t时的速度,为结点i在观测时长t时的航向角;和分别代表MLP层和LSTM网络的权重矩阵,h代表LSTM网络的隐藏层状态,维度是64。
600,利用多头注意力机制对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征。
其中,结合图7,步骤600具体包括:
601,以所述空间交互特征作为多头注意力机制的键和值,所述轨迹时序特征作为查询向量,评估预测目标和周边智能体的关联程度;
602,根据所述关联程度对不同空间区域加权,计算场景上下文特征。
需要说明的是,现有技术中常使用各类池化函数或者直接拼接来合并特征,这类方法往往缺乏有效的特征融合机制,可能忽略一些重要的交互信息,导致对最终的预测结果造成负面影响。
本申请采用多头注意力机制对空间交互特征和轨迹时序特征进行交汇融合,以历史轨迹的轨迹时序特征作为查询向量Q,空间交互特征作为多头注意力机制的键K和值V,计算预测目标与其他智能体之间的交互强弱,并分配不同的关注度,使网络更加关注对预测目标产生较大影响的个体,最终得到场景上下文特征。
需要说明的是,多头注意力机制可以看做是一种软寻址操作:输入信息X作为容器中的存储内容,存储内容由键(Key)值(Value)对表示,对于一个键为Query的查询,需要计算容器中对应的Value。软寻址通过计算Query与所有键的相似度来决定从对应值中取出多少,即由Query与Key的相似性来计算每个Value的权重,对所有Value进行加权求和的结果就是最终的注意力分配系数Attention。
以上计算可以归纳为三个过程:
第三步:根据softmax归一化的结果计算Value的加权值。
在Transformer中使用的注意力机制是Scaled Dot-Product Attention,计算公式如下:
其中,分别代表查询向量Query,键Key和值Value,这里之间的映射采用常用的点积方式,这种方式能直接建立关系映射,计算速度更快,能够降低模型的复杂度;来表示被选择信息的索引位置,即表示第个输入信息;表示第个输入信息。F为采用乘法模型计算相似度时对应的可学习参数;表示第个输入信息对应的键;表示第个输入信息对应的键与Query的相似度;表示输入信息向量V中第个信息;代表分数的调节银子,保证点积结果不至于过大。
多头注意力机制将网络分为多个子空间,可以关注不同层次的信息,相较于一般的注意力机制可以有效防止网络过拟合。
具体来说,空间交互特征作为多头注意力机制的K和V,轨迹时序特征作为查询向量Q,评估预测对象和周边智能体的关联程度,这本质上是一种空间软注意力机制,Attention加权作用在空间尺度上,通过对不同空间区域加权,计算场景上下文特征。其中场景上下文特征的计算公式如下:
700,对所述场景上下文特征进行解码,输出预测目标的未来轨迹。
其中,结合图8,步骤700具体包括:
701,利用LSTM网络作为解码器对所述场景上下文特征进行解码,并利用t时刻的隐藏状态预测下一个时间步长t+1时刻的轨迹位置;
702,通过MLP层对轨迹预测时长内的隐藏状态序列作线性变换,输出预测目标的未来轨迹;其中,所述隐藏状态序列为轨迹预测时长内所有隐藏状态的集合。
采用 LSTM网络作为解码器对未来轨迹单步预测,t时刻的预测需要LSTM网络中t-1时刻的隐藏状态作为输入;最后通过MLP层对轨迹预测时长内的隐藏状态序列作线性变换,输出预测目标的未来轨迹。由于中的每个轨迹点服从二元混合高斯分布,由该分布的5个参数表示,MLP层一共输出个参数。
另外,将本申请与现有的主流模型Social LSTM、Social GAN、Sophie、SocialBiGAT以及Social STGCNN进行对比,验证本申请中行人轨迹预测模型的效果。
以ADE、FDE和Recall为评价指标,比较本文模型和上述主流模型的预测性能,基于Argoverse数据集的验证结果如表1.1所示。表1.1中,本申请模型的各个指标在目前主流行人轨迹预测模型中均表现优异,预测误差可以保持较低的水准。分别设置Tpred=3s和Tpred=5s研究预测时长对模型预测效果的影响,结果显示,随着Tpred增加,轨迹预测的难度和不确定性更大,所有网络的精度都显著降低。
因此,本申请的模型输入的是高度抽象的场景向量特征,能直接学习场景中的关键交互信息。另外,基于多头注意力机制的特征融合模块能将空间特征和时序特征有效结合,显著降低轨迹预测的误差。
基于上述面向城市场景下行人轨迹预测方法,本实施例还公开了一种面向城市场景下行人迹预测模型。
作为行人迹预测模型的一种实施方式,如图9所示,包括:
空间交互模块,用于采用向量表示预测目标周边智能体的轨迹,并基于层级的网络结构提取预测目标的空间交互特征;
轨迹编码模块,用于获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹信息中的轨迹时序特征;
特征融合模块,用于对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征;
轨迹输出模块,用于对场景上下文特征进行解码,输出预测目标的未来轨迹。
需要说明的是,训练模型前需要先定义损失函数,需要设计合适的损失函数来评估真实值和预测值间的接近程度,网络损失越小,模型的预测效果越好。对于回归问题,一般可以选用均方根误差(Root Mean Squared Error, RMSE),绝对误差(Absolute Error,AE)等作为损失函数。对于分类问题,可以用准确率,召回率以及ROC曲线等来衡量模型的性能。
其中,是二元混合高斯分布的参数,表示预测轨迹在t时刻的位置,代表轨迹点的标准差,反映了每个轨迹点位置的不确定性,是相关系数,上述5个参数由输出维度为5的FC层对高维特征做线性变换得到;和为该预测目标在时刻t的真实轨迹位置。
一般可以对概率密度函数取负对数得到行人迹预测模型的损失函数:
基于改进的Argoverse 数据集对模型进行训练,数据在输入模型前需要做归一化处理。模型在TESLA V100显卡上进行多GPU训练,单块显卡的显存为32G,具体软件及硬件配置见表1.2。训练采用的Adam优化器,优化器的初始学习率设为0.0005,学习率衰减的步长设置为10,训练次数为200轮,批训练的大小设置为64。模型中每个MLP层后都接L1正则化层和激活函数Relu层。
为验证行人轨迹预测模型各个模块的有效性,本申请基于Argoverse数据集设计了消融实验,实验结果如表1.3所示。平均位移误差(Average Displacement Error,ADE)和最终位移误差(Final Displacement Error,FDE)是轨迹预测任务常用的评价指标。表1.3显示了只有空间交互模块、只有轨迹编码模块和完整结构的消融实验结果,预测时长设为5s。
可以看出,只使用轨迹时序特征,即利用LSTM网络进行特征编码和解码时,模型的推理速度较快,但是预测误差较大。基于空间交互模块的实验结果相比LSTM网络有显著提升,理论上可以取得不错的轨迹预测效果。完整结构虽然一定程度上降低了推理速度,但是有最小的ADE和FDE。消融实验结果表明,本文提出的融合场景时空特征的模型预测精度最高,验证了模型各个模块的有效性。
本申请实施例还公开了一种计算机可读存储介质,存储有能够被处理器加载并执行如上述中央摆渡车运行控制方法的计算机程序,该计算机可读存储介质例如包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (8)
1.一种面向城市场景下行人轨迹预测方法,其特征在于,包括:
用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征;
获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹信息中的轨迹时序特征;
利用多头注意力机制对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征;
对所述场景上下文特征进行解码,输出预测目标的未来轨迹;
所述利用多头注意力机制对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征步骤,具体包括:
以所述空间交互特征作为多头注意力机制的键和值,所述轨迹时序特征作为多头注意力机制的查询向量,评估预测目标和周边智能体的关联程度;
根据所述关联程度对不同空间区域加权,计算场景上下文特征。
2.根据权利要求1所述一种面向城市场景下行人轨迹预测方法,其特征在于,所述用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征步骤之前,还包括:
基于Argoverse运动预测数据集获取车辆轨迹序列和高精地图数据;
对所述车辆轨迹序列进行预处理,得到包含预测目标和周边智能体的轨迹片段;
根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,最终得到长度为观测时长的预测目标和周边智能体的轨迹序列。
3.根据权利要求2所述的一种面向城市场景下行人轨迹预测方法,其特征在于,所述根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,最终得到长度为观测时长的预测目标和周边智能体的轨迹序列步骤,具体包括:
根据观测时长最够一帧的智能体位置,筛选在交互范围内的周边智能体轨迹,删除静止目标及长度不足设定长度的轨迹,对不完整的轨迹进行插值补充,得到长度为观测时长的预测目标和周边智能体的轨迹序列。
4.根据权利要求1所述的一种面向城市场景下行人轨迹预测方法,其特征在于,所述用向量表示各智能体的轨迹序列,并基于层级的网络结构进行交互编码,得到预测目标的空间交互特征步骤,具体包括:
用向量表示各智能体的轨迹序列,获取向量特征,并根据不同时刻的向量特征集合生成对应的轨迹序列;
将所述向量特征映射到高维空间,并在时间维度采用最大池化,得到与轨迹序列对应的高阶特征向量;
利用图注意力网络对轨迹序列特征进行高阶交互,得到预测目标的空间交互特征;其中,所述轨迹序列特征为高阶特征向量的集合。
5.根据权利要求1所述的一种面向城市场景下行人轨迹预测方法,其特征在于,所述获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹中的轨迹时序特征步骤,具体包括:
获取预测目标的历史轨迹信息;其中,预测目标的历史轨迹信息用位置、速度和航向角组成的多维特征向量表示;
将所述多维特征向量映射到高维空间,获得高维特征向量;
将所述高维特征向量输入LSTM网络,输出轨迹时序特征。
6.根据权利要求1所述的一种面向城市场景下行人轨迹预测方法,其特征在于,所述对所述场景上下文特征进行解码,输出预测目标的未来轨迹步骤,具体包括:
利用LSTM网络作为解码器对所述场景上下文特征进行解码,并利用t时刻的隐藏状态预测下一个时间步长t+1时刻的轨迹位置;
通过MLP层对轨迹预测时长内的隐藏状态序列作线性变换,输出预测目标的未来轨迹;其中,所述隐藏状态序列为轨迹预测时长内所有隐藏状态的集合。
7.一种面向城市场景下行人轨迹预测模型,其特征在于,包括:
空间交互模块,用于采用向量表示预测目标周边智能体的轨迹,并基于层级的网络结构提取预测目标的空间交互特征;
轨迹编码模块,用于获取预测目标的历史轨迹信息,并利用LSTM网络提取预测目标历史轨迹信息中的轨迹时序特征;
特征融合模块,用于对所述空间交互特征和轨迹时序特征进行交互融合,得到场景上下文特征;
轨迹输出模块,用于对场景上下文特征进行解码,输出预测目标的未来轨迹;
所述特征融合模块包括:
以所述空间交互特征作为多头注意力机制的键和值,所述轨迹时序特征作为多头注意力机制的查询向量,评估预测目标和周边智能体的关联程度;
根据所述关联程度对不同空间区域加权,计算场景上下文特征。
8.一种计算机可读存储介质,其特征在于:存储有能够被处理器加载并执行如权利要求1-6中任一种方法中的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211002636.0A CN115071762B (zh) | 2022-08-22 | 2022-08-22 | 面向城市场景下行人轨迹预测方法、模型及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211002636.0A CN115071762B (zh) | 2022-08-22 | 2022-08-22 | 面向城市场景下行人轨迹预测方法、模型及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115071762A CN115071762A (zh) | 2022-09-20 |
CN115071762B true CN115071762B (zh) | 2022-12-16 |
Family
ID=83244294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211002636.0A Active CN115071762B (zh) | 2022-08-22 | 2022-08-22 | 面向城市场景下行人轨迹预测方法、模型及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115071762B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115330360B (zh) * | 2022-10-13 | 2022-12-27 | 广东泳华科技有限公司 | 一种基于多智能体仿真技术的行人轨迹推算方法 |
CN116245183B (zh) * | 2023-02-28 | 2023-11-07 | 清华大学 | 基于图神经网络的交通场景泛化理解方法及装置 |
CN116061973B (zh) * | 2023-03-15 | 2023-07-07 | 安徽蔚来智驾科技有限公司 | 车辆轨迹预测方法、控制装置、可读存储介质及车辆 |
CN118212784B (zh) * | 2024-05-22 | 2024-08-06 | 南京邮电大学 | 一种信号交叉口的行人和车辆未来轨迹预测方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256681A (zh) * | 2021-05-26 | 2021-08-13 | 北京易航远智科技有限公司 | 基于时空注意力机制的行人轨迹预测方法 |
CN113362367A (zh) * | 2021-07-26 | 2021-09-07 | 北京邮电大学 | 一种基于多精度交互的人群轨迹预测方法 |
WO2021180130A1 (zh) * | 2020-03-13 | 2021-09-16 | 商汤集团有限公司 | 轨迹预测 |
CN113538506A (zh) * | 2021-07-23 | 2021-10-22 | 陕西师范大学 | 基于全局动态场景信息深度建模的行人轨迹预测方法 |
CN114022847A (zh) * | 2021-11-23 | 2022-02-08 | 清华大学 | 一种智能体轨迹预测方法、系统、设备和存储介质 |
CN114638408A (zh) * | 2022-03-03 | 2022-06-17 | 南京航空航天大学 | 一种基于时空信息的行人轨迹预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11087477B2 (en) * | 2019-07-29 | 2021-08-10 | Honda Motor Co., Ltd. | Trajectory prediction |
-
2022
- 2022-08-22 CN CN202211002636.0A patent/CN115071762B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021180130A1 (zh) * | 2020-03-13 | 2021-09-16 | 商汤集团有限公司 | 轨迹预测 |
CN113256681A (zh) * | 2021-05-26 | 2021-08-13 | 北京易航远智科技有限公司 | 基于时空注意力机制的行人轨迹预测方法 |
CN113538506A (zh) * | 2021-07-23 | 2021-10-22 | 陕西师范大学 | 基于全局动态场景信息深度建模的行人轨迹预测方法 |
CN113362367A (zh) * | 2021-07-26 | 2021-09-07 | 北京邮电大学 | 一种基于多精度交互的人群轨迹预测方法 |
CN114022847A (zh) * | 2021-11-23 | 2022-02-08 | 清华大学 | 一种智能体轨迹预测方法、系统、设备和存储介质 |
CN114638408A (zh) * | 2022-03-03 | 2022-06-17 | 南京航空航天大学 | 一种基于时空信息的行人轨迹预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115071762A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115071762B (zh) | 面向城市场景下行人轨迹预测方法、模型及存储介质 | |
Messaoud et al. | Attention based vehicle trajectory prediction | |
CN110745136B (zh) | 一种驾驶自适应控制方法 | |
Karle et al. | Scenario understanding and motion prediction for autonomous vehicles—review and comparison | |
CN111860155B (zh) | 一种车道线的检测方法及相关设备 | |
CN115009275B (zh) | 面向城市场景下车辆轨迹预测方法、系统及存储介质 | |
Yang et al. | Online multi-object tracking using multi-function integration and tracking simulation training | |
Chen et al. | Driving maneuvers prediction based autonomous driving control by deep Monte Carlo tree search | |
CN112651995B (zh) | 基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法 | |
US12008762B2 (en) | Systems and methods for generating a road surface semantic segmentation map from a sequence of point clouds | |
Bharilya et al. | Machine learning for autonomous vehicle's trajectory prediction: A comprehensive survey, challenges, and future research directions | |
Hu et al. | Vehicle trajectory prediction considering aleatoric uncertainty | |
CN114881339A (zh) | 车辆轨迹预测方法、系统、计算机设备及存储介质 | |
Kawasaki et al. | Multimodal trajectory predictions for autonomous driving without a detailed prior map | |
CN116050245A (zh) | 基于复杂网络理论的高速公路自动驾驶商用车轨迹预测与决策方法与系统 | |
Zuo et al. | Trajectory prediction network of autonomous vehicles with fusion of historical interactive features | |
Yi et al. | End-to-end neural network for autonomous steering using lidar point cloud data | |
Gupta et al. | Object detection for connected and autonomous vehicles using CNN with attention mechanism | |
CN113807457A (zh) | 确定路网表征信息的方法、装置、设备及存储介质 | |
Wang et al. | Real-time Semantic Segmentation of LiDAR Point Clouds on Edge Devices for Unmanned Systems | |
Chen et al. | Trajectory Prediction for Autonomous Driving Based on Structural Informer Method | |
CN115861944A (zh) | 一种基于激光雷达的交通目标检测系统 | |
Gao et al. | Deep learning‐based hybrid model for the behaviour prediction of surrounding vehicles over long‐time periods | |
Wang et al. | LSTM-based prediction method of surrounding vehicle trajectory | |
CN113119996B (zh) | 一种轨迹预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |