CN115272712A - 一种融合运动目标分析的行人轨迹预测方法 - Google Patents
一种融合运动目标分析的行人轨迹预测方法 Download PDFInfo
- Publication number
- CN115272712A CN115272712A CN202210886496.1A CN202210886496A CN115272712A CN 115272712 A CN115272712 A CN 115272712A CN 202210886496 A CN202210886496 A CN 202210886496A CN 115272712 A CN115272712 A CN 115272712A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- sub
- network
- precision
- gru
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004458 analytical method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 52
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 230000000306 recurrent effect Effects 0.000 claims abstract description 5
- 230000033001 locomotion Effects 0.000 claims description 71
- 238000013507 mapping Methods 0.000 claims description 23
- 230000001133 acceleration Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 241000288105 Grus Species 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 4
- 238000013459 approach Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种融合运动目标分析的行人轨迹预测方法,属于行人轨迹预测领域。本发明方法设计了一种多精度的行人特征表示方法,利用门控循环神经网络GRU编码行人历史位置信息,构建了主网络‑子网络联合的行人轨迹预测模型,设计三个子网络完成三种子任务:预测行人终点的细精度坐标和粗精度坐标,以及对场景内各子区域打分;设计主网络预测行人终点坐标,并利用注意力机制融合主网络和子网络的输出向量;最后利用条件变分自动编码器对编码状态进行解码,预测出行人未来的多模态轨迹。本发明提高了行人意图分析的鲁棒性,解决了行人中间意图不明确的问题,预测的终点坐标可以逐步逼近真实目标,与真实轨迹基本完全拟合。
Description
技术领域
本发明属于行人轨迹预测领域,涉及行人运动特征获取、行人运动意图分析以及动态场 景信息的建模,具体涉及一种融合运动目标分析的行人轨迹预测方法。
背景技术
轨迹预测是指根据目标行人、车辆、机器人等智能体的历史运动状态,预测智能体在未 来一段时间内可能的运动轨迹。轨迹预测算法是无人驾驶、机器人导航技术中的重要一环, 也是当前的热点研究方向之一。伴随着5G网络商用和城市现代化的发展,国家高度重视智 慧城市、公共交通、智能机器人等重点方向的建设,工业和信息化部在2021年指出要加强核 心技术攻关,突破机器人信息感知与导航等共性技术。行人轨迹预测算法作为关键的基础性 研究技术,在机器人导航、行人意图分析等现实场景中起到关键作用。为了使机器人在复杂 场景中的移动更接近人类,避免与行人发生碰撞,机器人需要根据行人的位置、运动方向、 速度、加速度等信息,对附近行人进行高效的运动意图预测,再进行有效的避障操作。用于 城市公共安全的监视系统和智能跟踪模块同样需要对人群的运动和行为进行分析来理解人群 相互作用模式,对行人可能进入的禁止区域或发生的违规行为进行预警,从而更好地管理基 础设施,以优化资源配置。因此,人群轨迹预测问题具有现实意义,且比较复杂,具有比较 高的研究价值。
轨迹预测是一项基础性的研究内容,也是路径规划中的一个重要环节,其中一个关键需 求是对行人的意图目标进行分析,如周围车辆是否要需变更车道,前方行人是否要横穿马路 等。行人的终点目标作为运动意图的一种体现,也是影响未来轨迹的重要因素。但是预测行 人的终点目标是一项很有挑战的任务,由于行人所处的场景信息是动态变化的,模型不仅需 要考虑行人自身的历史运动状态,还需要结合不断变化的场景信息对行人可能的未来运动状 态进行动态建模,进而规划行人大致的终点意图目标。
目前,现有轨迹预测方法的流程一般可以分为三个阶段:(1)根据行人的历史位置坐标 对行人运动状态信息编码;(2)根据对第一阶段编码的行人运动状态分析行人的意图目标位 置;(3)根据第一、第二阶段的建模数据进行解码,预测未来轨迹。近几年有许多基于深度 学习的方法被提出用于改进上述流程,其中与本发明相关的技术主要为PECNet模型和SGNet 模型。两种模型可分别参考如下文献1和2。
PECNet(Predicted Endpoint Conditioned Network)为预测终点条件网络模型,将轨迹预 测问题分解为预测行人意图终点与拟合未来完整轨迹两个子问题。首先PECNet利用多层感 知机(MLP)对行人的历史运动状态进行编码,然后利用端点VAE(变分自编码)模块预测 行人终点的潜在分布,模型对可能的终点潜在分布进行采样,得到行人的终点位置。在轨迹 生成阶段,模型同时结合周围的行人交互信息、行人的历史运动信息以及第一阶段预测的行 人意图目标坐标三种特征信息,直接采用MLP模型进行未来轨迹预测。但是,PECNet存在 这样的缺点:该方法有一个简单的假设,即行人的意图目标是确定的,不会随着运动时刻的 变化发生改变,PECNet也只预测了一个固定的目标,并且在测试阶段无法采样最优的候选终 点。但是在现实生活中,行人的运动意图并不是一个固定的二维坐标,相反,行人的运动意 图会随着行人的运动发生动态地改变。随着运动时刻的变化,行人周围的场景布局信息也会 发生变化,行人会动态地关注不同区域的场景信息变化可能会对自己未来运动产生的影响, 进而不断调节自己的终点意图目标。
SGNet(Stepwise goal-driven networks)认为运动过程中行人的意图目标可能会随着时间 的变化而变化,对目标进行建模可以为未来的轨迹估计提供更准确和详细的信息。因此与以 往只对单一长期目标进行建模的工作不同,SGNet强调了一个新的预测方向,提出了一种逐 步预测目标进而驱动轨迹预测的方法,在多个时间尺度上评估和使用目标。SGNet由三部分 组成,包含了一个能捕获历史信息的编码模块,一个能预测未来连续目标的步进目标估计器, 以及一个能预测未来轨迹的解码器模块,并通过注意力机制有效地将这些目标整合到编码器 和解码器中。SGNet虽然提出动态地预测行人的意图目标,进而拟合完整轨迹。但是这种方 法在利用终点目标信息时仅仅利用了二维的空间物理坐标,但本发明认为这种方式无法准确 地分析行人的运动意图。因为在现实生活中,行人的真实意图并不是一个固定的二维坐标, 而是二维坐标所在的局部区域,可观测的终点二维坐标不能完整描述行人的意图。尤其是在 现有的轨迹预测研究中,模型预测的轨迹信息一般是行人完整轨迹的一个轨迹片段,行人的 完整轨迹可能会有一个明确的终点目标位置,但是行人的轨迹片段并没有一个明确的二维坐 标意图指引自身前进。因此需要对仅利用二维终点坐标分析行人意图的方式进行改进,从终 点的二维坐标所在的局部区域中挖掘出更多的信息特征,帮助模型正确预测行人的目标区域。
参考文献1:Mangalam K,Girase H,Agarwal S,et al.It is not the journeybut the destination: Endpoint conditioned trajectory prediction[C]//EuropeanConference on Computer Vision.Springer, Cham,2020:759-776.
参考文献2:Wang C,Wang Y,Xu M,et al.Stepwise goal-driven networks fortrajectory prediction[J].IEEE Robotics and Automation Letters,2022.
发明内容
当行人目标意图预测精度要求较高时,而现有方法存在忽略行人意图的动态变化且仅利 用二维空间坐标分析行人意图、特征不充分的问题,本发明采用深度学习的技术手段提出一 种融合运动目标分析的行人轨迹预测方法,通过主网络运动模式建模与子网络行人意图动态 分析两个模块,使行人的意图分析更加准确合理,达到提升行人轨迹预测精度的效果,具有 能够从多个维度分析行人意图、保证行人意图坐标预测准确的优势。
本发明提供的一种融合运动目标分析的行人轨迹预测方法,包括如下步骤:
步骤一:从行人历史轨迹视频中提取多精度数据,包括行人的粗精度坐标信息、细精度 坐标信息和动态场景信息;
其中,粗精度坐标是将场景区域划分后确定的行人所在的子区域坐标,细精度坐标是指 行人在场景中的坐标;粗精度坐标信息和细精度坐标信息均包括行人坐标位置、速度和加速 度。
步骤二:构建主网络-子网络联合的行人轨迹预测模型;
所述行人轨迹预测模型的子网络,对输入的行人粗精度坐标信息、行人细精度坐标信息 和动态场景信息三种数据进行编码,再利用门控循环神经网络模型GRUsub进行序列建模,预 测输出当前时刻的行人运动意图向量,然后将行人运动意图向量输入三个子任务模型;第一 个子任务模型利用多层感知机ffine对行人运动意图向量进行映射,得到行人终点意图的细精 度坐标;第二个子任务模型利用多层感知机fcoarse对行人运动意图向量进行映射,得到行人终 点的粗精度坐标;第三个子任务模型先利用矩阵Wscore对行人运动意图向量进行映射,再接 ReLU激活函数,然后使用Softmax函数对场景内各区域打分。
所述行人轨迹预测模型的主网络,利用多层感知机fe对输入的行人细精度坐标信息编码 后,再与当前时刻行人的目标意图向量一起输入门控循环神经网络模型GRU中,GRU输出 行人在当前时刻的行人运动状态向量,再利用多层感知机fgoal对GRU的输出进行映射,预测 行人终点坐标。
所述行人的目标意图向量由子网络的GRUsub输出和主网络的GRU输出利用注意力机制 融合计算获得。
步骤三:在轨迹解码阶段,利用条件变分自动编码器CVAE生成多模态轨迹。
本发明方法对步骤二构建的行人轨迹预测模型和步骤三的CVAE进行联合训练,利用训 练后的模型进行行人轨迹预测。
本发明的优点与积极效果在于:
(1)本发明方法提出一种全新的行人数据表示方法,传统的方法通常利用二维的空间坐 标表示行人的意图信息,但是二维坐标无法充分表示行人的意图信息,由于多数情况下,模 型预测的未来轨迹只是行人完整轨迹的一个片段,行人可能拥有一个明确的终点坐标,但是 并没有一个确定的中间点位置。因此本发明提出利用行人细精度坐标、粗精度坐标、邻近局 部场景三种维度的信息来表示行人的位置信息,可以提高行人意图分析的鲁棒性,解决行人 中间意图不明确的问题。
(2)本发明方法提出一种基于多任务的行人意图动态分析子网络,设计了三种子任务的 损失函数用于网络的参数更新,利用注意力机制将子任务的终点预测信息与主干网络的行人 运动信息融合,辅助主干网络拟合完整轨迹,实现了预测意图逐步逼近真实目标的动态效果。 本发明采用专用的子网络对行人意图进行动态预测,模型结合行人运动状态与场景信息在不 同时刻动态调整行人的终点目标,定性实验表明模型预测的终点坐标可以逐步逼近真实目标, 预测轨迹与真实轨迹基本完全拟合,能有效预测行人运动偏移角度,避免发生碰撞满足。
附图说明
图1是本发明实施例提供的行人轨迹预测方法的流程图;
图2是本发明方法中的子网络建模流程图;
图3是本发明方法进行主网络与子网络联合建模和轨迹解码的示意图;
图4是本发明实施例实验的预测轨迹对比图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明利用行人意图信息建模能够帮助提升轨迹预测准确度的特性,提出了一种基于行 人运动模式建模主网络和行人意图动态分析子网络的多任务行人轨迹预测方法,本发明设计 了一种多精度的行人特征表示方法,利用门控循环神经网络GRU(GatedRecurrent Neural Network)编码行人历史位置信息,通过一个目标动态分析子网络对行人的运动目标动态分析, 并设计三种子任务辅助主干网络拟合完整轨迹,同时利用注意力机制融合两个网络的模型输 出向量,最后利用条件变分自动编码器CVAE(ConditionalVAE)对编码状态进行解码,预 测出行人未来的多模态轨迹。
如图1所示,本发明实施例的融合运动目标分析的行人轨迹预测方法,分如下四个步骤 来说明。
步骤1:生成多精度数据。获取行人历史轨迹视频,从中提取图像帧,转换为二维的行 人位置坐标,根据行人的位置生成行人的粗精度坐标、细精度特征和动态场景信息三种数据 形式。
如图1所示,本发明实施例,每个观察时刻为3.2s,在每个观察时刻按照0.4秒时间间隔 提取8帧图像,获取每帧图像中行人的二维位置坐标。行人二维坐标为细精度坐标。
步骤1.1:生成行人的粗精度坐标。
本发明将全局场景分为多个子区域,场景的区域坐标为输入的粗精度坐标,该坐标保留 了场景位置的物理信息,方便与场景信息结合。本发明实施例,首先根据场景的坐标大小得 到场景的细精度分布范围(xmin,xmax,ymin,ymax),设置对应的粗精度坐标精度R=m×n,m和 n均为正整数。设行人i的位置坐标为pi,根据场景的分布范围与设置的区域精度大小计算每 个粗精度区域的长度与宽度,进而根据粗精度的大小计算得到行人的粗精度坐标PR,详细过 程可参考算法1。
如算法1所述,本发明实施例中设场景中有N个行人,对每个行人i,获取在场景中的 二维坐标(pi(x),pi(y)),然后根据设置的粗精度坐标精度和场景的细精度分布范围计算每 个行人i的粗精度坐标位置(PRi(x),PRi(y)),此处i为行人的编号,取值从0到N-1。场景 内N个行人的粗精度坐标组成了矩阵PR。对每帧图像通过执行步骤1.1获得一个行人粗精度 坐标。
步骤1.2:对行人的粗精度坐标和细精度坐标预处理,分别构建粗精度信息和细精度信息。 预处理包括相对坐标转化,计算速度和加速度等。
因为不同场景的坐标分布范围差距过大,为了增加模型的迁移能力,本发明将目标行人 在观察时刻的最后一帧位置设为该行人的坐标原点,这样可以将不同场景的坐标分布控制在 类似的空间。本发明实施例中,一个观察时刻的最后一帧是第8个时刻的位置(x8,y8),将其 作为坐标原点,将行人位置的绝对坐标转化为相对坐标,如下:
xt,new=xt-x8 (1)
yt,new=yt-y8 (2)
其中,(xt,yt)为t时刻的行人坐标,(xt,new,yt,new)表示t时刻的行人细精度坐标转化来的相 对坐标。同理,可对行人的粗精度坐标根据观察时刻的最后一帧中的位置进行相对坐标的转 化。
将行人的粗精度坐标和细精度坐标转化得到相对坐标后,为了对行人的运动模式进行建 模,还需要计算速度和加速度,拼接位置和速度特征形成输入数据,并进行数据增强,扩充 训练数据集。在本发明利用一阶求导与二阶求导的方法计算得到行人的速度信息与加速度信 息,将坐标位置和速度、加速度三种维度特征拼接后共同组成模型新的输入数据,并且同样 利用轨迹旋转的方法进行数据增强,本发明实施例将场景内的所有轨迹每15度进行一次旋转 操作,对训练数据集进行扩增。
步骤1.3:构建动态场景信息。
现有方法常用的场景信息建模方式多为利用场景的图片信息或场景图片的语义分割信息 补充场景布局信息。虽然语义分割信息在三维立体重建等领域中取得了很好的效果,但是这 种语义分割方法具有一定的歧义信息,并且缺少场景与行人的交互语义,如马路边的草坪与 公园的草坪具有相同的语义分割含义,但是公园的草坪一般可以提供行人运动,而马路边的 草坪一般禁止行人运动,二者具有相同的语义信息,但是却拥有截然不同的运动规则。为了 解决语义分割对行人运动的歧义问题,更有效地建模场景信息与行人运动的交互语义,使场 景信息能够更准确地指导行人的未来移动,本发明方法基于历史轨迹统计的方式得到每个场 景位置通过的概率密度图,提供给行人可运动的区域分布以及对应的概率信息。
由于粗精度坐标保留了场景的空间位置信息,本发明利用粗精度坐标天然的位置信息, 将粗精度坐标的区域信息与行人运动的局部场景信息结合,对粗精度坐标划分的区域进一步 细化。场景的粗精度为R=m×n,本发明实施例将每个子区域进一步划分成精度为9×9的精 细区域,得到精度为R=81×m×n的全局场景信息。在每个时刻,本发明根据行人当前的粗精 度坐标,对行人所在的局部场景进行动态建模,指导行人未来运动,避免行人运动到非法区 域。对行人所在的局部场景进行动态建模在下面步骤2中说明。
步骤2:行人运动模式建模。
本发明提出一种主网络-子网络联合建模的行人轨迹预测结构,将行人轨迹预测分为运动 模式建模与行人意图动态分析两部分,利用专用的子网络对行人的意图进行动态预测。并在 动态预测子网络内利用多精度的数据表示方法引入了三个子任务,利用多任务的方式提高模 型对行人的意图分析能力,并采用注意力机制的方法将主网络与子网络进行融合,实现模型 的同步更新。本步骤说明主网络的行人运动模式建模。
主网络的模型主干为GRU模型,模型的输入为行人的细精度坐标信息,该部分用来建模 行人的运动序列信息。如公式(3)所示,对上一步骤构建的位置、速度和加速度三种输入特 征进行编码得到向量et。此外除了行人的运动状态et,如公式(4)所示,本发明方法还引入 了行人的目标意图向量gt,结合行人运动状态与目标意图信息共同编码历史轨迹。在每个观 察时刻的终点,解码模块利用公式(5)所示的多层感知机对GRU的输出进行映射,预测行 人的终点坐标,该目标坐标的表示向量ht+1与子网络的输出融合后生成新的目标意图向量gt+1, 与隐藏状态ht+1一同送入主网络进行下一时刻的模型迭代。
et=fe(xt,yt,Δxt,Δyt,axt,ayt;We) (3)
ht=GRU(ht-1,et,gt-1;WGRU) (4)
其中,xt,yt为行人在t时刻的位置,Δxt,Δyt为行人在t时刻的速度,axt,ayt为行人在t 时刻的加速度,fe为多层感知机,We为多层感知机fe的模型参数,et为模型对细精度运动状 态编码后的向量表示。ht为行人在t时刻的运动状态向量,gt为行人在t时刻目标动态的意 图向量,且第一个时刻的h1和g1初始状态为全零向量,WGRU为主网络中GRU的模型权重。 fgoal为多层感知机,Wgoal为fgoal的模型参数,为模型预测的行人在t时刻的终点意图目标, pg为行人的真实终点坐标,公式(6)为主网络中终点解码模块的损失函数,MSE为计算均 方误差。
步骤3:行人意图动态分析。
在主网络中,虽然每个时刻都利用GRU的输出ht进行行人终点目标预测,但是仅仅利 用公式(6)的均方误差函数作为损失函数更新模型,很难让模型的终点预测模块完全收敛。 为了对行人的目标意图建模并使模型达到较好的收敛效果,本发明设计了一个行人目标动态 预测子网络,对行人的运动意图进行动态更新。
如图3所示,子网络的模型输入由行人的细精度坐标信息粗精度坐标信息以 及行人所在区域的场景信息st三部分组成,首先对模型的三种输入数据进行编码,与公式(3) 相同,模型利用多层感知机对细精度坐标信息和粗精度坐标信息进行编码,并分别得到向量 和如公式(7)所示模型利用卷积神经网络CNN对局部的场景信息st编码得到
其中,Wcnn是卷积神经网络CNN的模型参数。
为了建模时间序列特征并与主网络的建模信息相融合,本发明同样使用GRU对子网络输 入的三种信息进行序列建模。如公式(8)所示,子网络的GRU模型GRUsub的输入包含 三种维度信息,以及子网络在t-1时刻的意图预测向量WGRUsub为模型GRUsub的训练参数。
为了建模行人运动意图的区域特征,本发明除了预测行人终点时刻的细精度坐标外,还 提出了两个额外的子任务建模行人的目标区域特征,分别为预测行人的粗精度终点坐标以及 对行人的意图终点区域打分。
第三个子任务如公式(11)所示,首先利用矩阵Wscore对进行映射,后接ReLU激活函数,然后使用Softmax函数对场景内的R=m×n个子区域打分,获取打分矩阵score,其中每个区域打分的真实值是由行人终点所在的区域决定,本发明将行人终点所在区域的分数设 为1,其他的子区域分数设为0。
其中,bscore为模型参数。
通过上述介绍,子网络的损失函数由公式(12)所示的三部分组成,其中为模型预 测的终点细精度坐标,pfine为真实的终点细精度坐标,pcoarse为模型预测的终点粗精度坐标, pcoarse为真实的终点粗精度坐标,score为模型的区域打分结果,label为真实的区域打分标签, LCE为交叉熵函数。RMSE表示计算均方根误差。
但是由于当前的子网络与主网络是相互解耦的状态,子网络的目标状态向量无法辅助主 网络进行未来轨迹预测,也无法利用子网络的损失函数辅助主网络模型更新。为了利用模型 的反向传播对两个网络同步更新,本发明设计了两种网络融合方案可供选择,将两部分网络 进行耦合。
(1)第一种网络融合方式为将主网络的运动状态与子网络筛选的重要场景信息融合,模 型的子网络在每个时刻对m×n个子区域进行重要性评分,并选取分数最高的Top K个目标子 区域作为重点区域,利用公式(7)所示的CNN卷积网络分别对选取的K个区域进行编码。
对K个区域编码后,利用公式(13)根据重要性分数对编码的K个场景信息进行加权平 均得到行人需要考虑的重要区域信息最后利用公式(14)与(15)所示的多头注意力 机制和残差连接将两个网络进行融合得到目标意图向量gt。
其中<.,.>是内积操作,WQ、WK和WV是可训练的参数矩阵,ht为主网络GRU的输出向量,D为ht的维度数,p为多头注意力机制的表头数量,sr为注意力分数,gt为目标意图向 量。表示将进行多头注意力机制映射得到的第r个映射向量。表示将ht进行多 头注意力机制映射得到的第r个映射向量。本发明利用多头注意力机制将向量ht、映射 为多个向量,再分别计算注意力机制后进行整合,这样做可以更充分的捕捉特征信息。
(2)第一种方法介绍的融合方法直接结合K个重要区域的场景信息,可能过度引入了 人为设置的规则信息,并且参数K难以确定最佳数值。因此本发明尝试直接将子网络的GRU 输出与主网络的GRU输出ht利用公式(14)与(15)介绍的注意力机制融合,即将两公式中的替换为后,计算目标意图向量gt。对主网络与子网络联合建模进行训练的结构如图3所示。
步骤4:未来轨迹解码。
如图3所示,在轨迹解码阶段,本发明利用CVAE模块生成多模态轨迹。CVAE模块分为编码与解码两部分,编码部分分为识别模块qψ(z|x,y)与先验模块pθ(z|x),x表示行人的观察轨迹,y表示行人真实的未来轨迹,z表示高维度潜码向量。qψ(z|x,y)是结合x和y预 测z,pθ(z|x)是根据x预测z。本发明尽可能使这两个模型预测的z分布相似,实现仅利用 x预测的结果与利用x和y预测的结果相似的效果,在测试阶段只使用pθ(z|x)即可。
如公式(16)所示,模型在最后一个观察时刻,根据行人的历史运动状态进行编码,得 到高斯分布对应的均值μ和方差σ,并对高斯分布采样得到高维潜变量z~N(μ,σ),然后利 用公式(17)将采样的高维潜变量z与主网络的GRU输出hobs拼接后得到GRU的初始隐状态将与模型预测的行人当前位置编码后共同送入公式(18)和(19)的GRU解码 模块得到下一时刻的位置向量。
p(y|x)=pφ(y|z,x)pθ(z|x) (16)
其中,fmlp,fpred,fdecoder均是多层感知机;表示拼接操作;表示输入D-GRU网络 的初始向量,D-GRU是解码阶段的GRU,hobs表示行人在时刻Tobs的运动信息,z表示利用CVAE模块生成的潜变量;Wmlp、Wpred、Wdecoder分别是模型fmlp,fpred,fdecoder的参数;表示 解码阶段GRU的输出。
在测试阶段,为了不引入未来信息模型直接从pθ(z|x)中采样潜变量z,不会引入识别模 块qψ(z|x,y)。在训练阶段,本发明利用KL(Kullback-Leibler Divergence)散度将预测的潜 变量分布与真实分布进行拟合,如公式(20)所示。
LossKLD=KLD(qψ(z|x,y),pθ(z|x)) (20)
本发明可对主网络-子网络联合的行人轨迹预测和CVAE模型使用多样性损失(Variety Loss)进行联合训练,生成多模态轨迹,损失函数如公式(21)所示,由四部分组成的损失 函数共同对网络更新。
其中为模型预测的多模态轨迹中第k条行人轨迹在t时刻的位置,pt为行人在t时刻 的真实位置,Lossdes为公式(6)所示的主网络终点预测模块的损失函数,LossKLD为公式(20) 所示的CVAE模块损失函数,Losssub为公式(12)所示的子网络损失函数。Tpre为要预测的 时刻。
下面对本发明方法进行实现:
实验平台参数如下:
CPU:Intel(R)Xeon(R)Gold 6226R CPU@2.90GHz
GPU:NVIDIA Tesla T4 GPU
操作系统:Ubuntu 18.04.6LTS
代码运行环境:Python 3.6.12、Pytorch 1.7.1
在训练过程中本发明使用Adam优化器训练,每批次数量(batchsize)设为64,学习率 为0.0001。感知机神经元的隐藏层维度为256,在粗精度建模中,模型采用了不同精度的划 分策略。在ETH-UCY的小场景数据集上划分精度为5×5的区域,在Stanford DroneDataset 的大场景数据集上划分精度为9×9的区域,每个粗精度区域对应的场景信息精度为9×9,从 CVAE中采样的潜变量维度z为64,模型Variety Loss的超参数设置为20。
本发明以公开数据集上进行实验对比,结果显示本发明的结果优于现有方法,评价指标 为ADE/FDE,ADE为未来12帧(4.8秒),预测位置与真实位置的距离差的平方和,FDE为 预测终点位置与真实终点位置的距离差的平方。ADE和FDE值越小,效果越好。
表1.本发明与其他方法在公开数据集测试结果对比
模型 | ETH | HOTEL | UNIV | ZARA1 | ZARA2 | 平均值 |
PECNet | 0.54/0.87 | 0.18/0.24 | 0.35/0.60 | 0.22/0.39 | 0.17/0.30 | 0.29/0.48 |
Trajectron++ | 0.43/0.86 | 0.12/0.19 | 0.22/0.43 | 0.17/0.32 | 0.12/0.25 | 0.21/0.41 |
SGCN | 0.63/1.03 | 0.32/0.55 | 0.37/0.70 | 0.29/0.53 | 0.25/0.45 | 0.37/0.65 |
本发明 | 0.37/0.67 | 0.13/0.23 | 0.21/0.44 | 0.13/0.26 | 0.12/0.23 | 0.19/0.36 |
通过表1可以看出,本发明方法在平均值上实现了最好的效果,本发明的行人轨迹预测 模型尤其在ZARA1和ZARA2两个场景上取得了较好的效果,经分析发现,这是因为该场景 为开放的街道场景,场景内有许多行人结队而行、多人驻留谈话等群体交互场景,而粗精度 坐标与局部场景信息可以对区域信息进行建模。
如图4所示,本发明在公开数据集上选取四组运动情况,对模型的定性轨迹实验进行可 视化展示。图4分为四个场景,实线为行人的历史观察轨迹,虚线为模型预测的轨迹,场景 中对不同行人轨迹预测。本发明主要选取了群体运动和行人运动避免碰撞两种社会运动模式 进行展示,在图A和图B中,多组行人同向运动,本发明模型预测的结果与真实轨迹基本完 全拟合。在图C和图D中,行人运动轨迹发生偏移,并避免了与周围行人和障碍物发生碰撞, 本发明的模型预测出了行人的转弯运动意图,并有效地预测了行人运动偏移角度,避免与车 辆和过往的行人发生碰撞。
现有一些方法直接采用二维的空间坐标作为行人的意图信息,但可观测的终点二维坐标 不能完整描述行人的意图,直接将终点坐标作为行人的运动意图会使模型的鲁棒性较差。本 发明方法提出一种行人意图动态分析子网络,采用一种全新的数据表示方式,将行人的数据 表示为细精度坐标、粗精度坐标与动态场景信息三部分,并引入三种子任务带动主网络一同 更新,在保证模型轨迹预测效果的情况下,提高行人意图的分析能力,增强模型的鲁棒性。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。本发明省略了对公知组 件和公知技术的描述,以避免赘述和不必要地限制本发明。上述实施例中所描述的实施方式 也并不代表与本申请相一致的所有实施方式,在本发明技术方案的基础上,本领域技术人员 不需要付出创造性的劳动即可做出的各种修改或变形仍在本发明的保护范围内。
Claims (9)
1.一种融合运动目标分析的行人轨迹预测方法,其特征在于,包括如下步骤:
步骤一:从行人历史轨迹视频中提取多精度数据,包括行人的粗精度坐标信息、细精度坐标信息和动态场景信息;
所述粗精度坐标是将场景区域划分后确定的行人所在的子区域坐标,细精度坐标是指行人在场景中的坐标;所述粗精度坐标信息和细精度坐标信息均包括行人坐标位置、速度和加速度;
步骤二:构建主网络-子网络联合的行人轨迹预测模型;
所述行人轨迹预测模型的子网络,对输入的行人粗精度坐标信息、行人细精度坐标信息和动态场景信息三种数据进行编码,再利用门控循环神经网络模型GRUsub进行序列建模,预测输出当前时刻的行人运动意图向量,然后将行人运动意图向量输入三个子任务模型;第一个子任务模型利用多层感知机ffine对行人运动意图向量进行映射,得到行人终点的细精度坐标;第二个子任务模型利用多层感知机fcoarse对行人运动意图向量进行映射,得到行人终点的粗精度坐标;第三个子任务模型先利用矩阵Wscore对行人运动意图向量进行映射,再接ReLU激活函数,然后使用Softmax函数对场景内各子区域进行重要性评分;
所述行人轨迹预测模型的主网络,利用多层感知机fe对输入的行人细精度坐标信息编码后,再与当前时刻行人的目标意图向量一起输入门控循环神经网络模型GRU中,GRU输出行人在当前时刻的行人运动状态向量,再利用多层感知机fgoal对GRU的输出进行映射,预测行人终点坐标;所述行人的目标意图向量由子网络的GRUsub输出和主网络的GRU输出利用注意力机制融合计算获得;
步骤三:在轨迹解码阶段,利用条件变分自动编码器CVAE生成多模态轨迹。
2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,行人的粗精度坐标信息生成方式是:将场景区域按照m×n的粗精度进行划分,根据粗精度和细精度坐标计算每个行人的粗精度坐标;对每位行人,以每个观察时刻最后一帧图像中的坐标位置为原点,将观察时刻中抽取的各帧图像中行人坐标位置转换为相对坐标位置;然后以相对坐标位置计算行人在各时刻的速度和加速度;m和n均为正整数。
3.根据权利要求1所述的方法,其特征在于,所述的步骤2中,将行人在t时刻的粗精度坐标信息和细精度坐标信息,分别利用多层感知机进行编码,对动态场景信息利用卷积神经网络进行编码。
4.根据权利要求1所述的方法,其特征在于,所述的步骤2中,行人的目标意图向量通过如下方式获得:
首先,通过子网络对场景中各子区域的重要性评分,选取分数最高的Top K个子区域作为重点区域,并利用卷积神经网络对K个子区域编码;设对t时刻多精度数据处理,选取的第i个子区域的动态场景信息的编码向量为子区域重要性分数为scorei,i=1,2,…K,则根据重要性分数对K个子区域编码进行加权平均,得到行人的重要区域信息
然后,利用多头注意力机制和残差连接将子网络和主网络的输出进行融合,得到行人在t时刻的目标意图向量gt,如下:
8.根据权利要求1所述的方法,其特征在于,所述的步骤3中,CVAE分为编码与解码两部分,编码部分分为识别模块qψ(z|x,y)与先验模块pθ(z|x),x表示行人的观察轨迹,y表示行人真实的未来轨迹,z为高维潜变量;在最后一个观察时刻,根据行人的历史运动状态进行编码,得到高斯分布对应的均值μ和方差σ,对高斯分布采样得到z~N(μ,σ);
再预测行人下一时刻的位置,如下:
在训练阶段,利用KL散度将预测的高维潜变量分布与真实分布进行拟合;在测试阶段,直接从先验模块pθ(z|x)中采样高维潜变量z。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210886496.1A CN115272712A (zh) | 2022-07-26 | 2022-07-26 | 一种融合运动目标分析的行人轨迹预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210886496.1A CN115272712A (zh) | 2022-07-26 | 2022-07-26 | 一种融合运动目标分析的行人轨迹预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115272712A true CN115272712A (zh) | 2022-11-01 |
Family
ID=83768854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210886496.1A Pending CN115272712A (zh) | 2022-07-26 | 2022-07-26 | 一种融合运动目标分析的行人轨迹预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115272712A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210295531A1 (en) * | 2020-03-18 | 2021-09-23 | Toyota Research Institute, Inc. | System and method for trajectory prediction using a predicted endpoint conditioned network |
CN116259176A (zh) * | 2023-02-17 | 2023-06-13 | 安徽大学 | 一种基于意图随机性影响策略的行人轨迹预测方法 |
-
2022
- 2022-07-26 CN CN202210886496.1A patent/CN115272712A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210295531A1 (en) * | 2020-03-18 | 2021-09-23 | Toyota Research Institute, Inc. | System and method for trajectory prediction using a predicted endpoint conditioned network |
US11878684B2 (en) * | 2020-03-18 | 2024-01-23 | Toyota Research Institute, Inc. | System and method for trajectory prediction using a predicted endpoint conditioned network |
CN116259176A (zh) * | 2023-02-17 | 2023-06-13 | 安徽大学 | 一种基于意图随机性影响策略的行人轨迹预测方法 |
CN116259176B (zh) * | 2023-02-17 | 2024-02-06 | 安徽大学 | 一种基于意图随机性影响策略的行人轨迹预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xue et al. | SS-LSTM: A hierarchical LSTM model for pedestrian trajectory prediction | |
Rempe et al. | Trace and pace: Controllable pedestrian animation via guided trajectory diffusion | |
Peng et al. | MASS: Multi-attentional semantic segmentation of LiDAR data for dense top-view understanding | |
CN114372116B (zh) | 一种基于lstm和时空注意力机制的车辆轨迹预测方法 | |
Hug et al. | Particle-based pedestrian path prediction using LSTM-MDL models | |
CN115272712A (zh) | 一种融合运动目标分析的行人轨迹预测方法 | |
CN112734808B (zh) | 一种车辆行驶环境下易受伤害道路使用者的轨迹预测方法 | |
Sharma et al. | Pedestrian intention prediction for autonomous vehicles: A comprehensive survey | |
Xue et al. | Location-velocity attention for pedestrian trajectory prediction | |
CN111402632B (zh) | 一种交叉口行人运动轨迹的风险预测方法 | |
CN112541449A (zh) | 一种基于无人机航拍视角的行人轨迹预测方法 | |
CN114169241A (zh) | 一种端到端的多目标识别、追踪与预测方法 | |
CN116503446A (zh) | 目标驱动和分布热力图输出的多模态车辆轨迹预测方法 | |
CN115049130A (zh) | 一种基于时空金字塔的自动驾驶轨迹预测方法 | |
CN116595871A (zh) | 基于动态时空交互图的车辆轨迹预测建模方法与装置 | |
Geng et al. | Dynamic-learning spatial-temporal Transformer network for vehicular trajectory prediction at urban intersections | |
Li et al. | STS-DGNN: Vehicle Trajectory Prediction Via Dynamic Graph Neural Network with Spatial-Temporal Synchronization | |
Wang et al. | A multi-modal spatial–temporal model for accurate motion forecasting with visual fusion | |
Ma et al. | Monocular 3D lane detection for Autonomous Driving: Recent Achievements, Challenges, and Outlooks | |
Lian et al. | Causal temporal–spatial pedestrian trajectory prediction with goal point estimation and contextual interaction | |
Cui et al. | Ellipse loss for scene-compliant motion prediction | |
Huang et al. | Learning Pedestrian Actions to Ensure Safe Autonomous Driving | |
Wang et al. | LSTM-based prediction method of surrounding vehicle trajectory | |
Gu et al. | Accelerating online mapping and behavior prediction via direct bev feature attention | |
Jia et al. | DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |