CN114067371A - 一种跨模态行人轨迹生成式预测框架、方法和装置 - Google Patents

一种跨模态行人轨迹生成式预测框架、方法和装置 Download PDF

Info

Publication number
CN114067371A
CN114067371A CN202210052682.5A CN202210052682A CN114067371A CN 114067371 A CN114067371 A CN 114067371A CN 202210052682 A CN202210052682 A CN 202210052682A CN 114067371 A CN114067371 A CN 114067371A
Authority
CN
China
Prior art keywords
modal
cross
pedestrian
module
trajectory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210052682.5A
Other languages
English (en)
Other versions
CN114067371B (zh
Inventor
华炜
苏肇鑫
黄刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210052682.5A priority Critical patent/CN114067371B/zh
Publication of CN114067371A publication Critical patent/CN114067371A/zh
Application granted granted Critical
Publication of CN114067371B publication Critical patent/CN114067371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及行人轨迹预测领域,具体涉及一种跨模态行人轨迹生成式预测框架、方法和装置,该框架包括:多模态数据时域特征提取模块对多模态数据提取时域特征,直接传递给基于跨模态Transformer的特征编码模块;所述基于跨模态Transformer的特征编码模块,输入为多模态的时域特征,输出为跨模态的注意力特征,分别传递给条件变分自动编码模块和轨迹预测模块;所述条件变分自动编码模块,输入为跨模态的注意力特征,输出为隐变量,直接传递给轨迹预测模块;所述轨迹预测模块,输入为跨模态的注意力特征和隐变量,输出为预测的轨迹。本发明有效提升了第一人称视角下的行人轨迹预测的准确率。

Description

一种跨模态行人轨迹生成式预测框架、方法和装置
技术领域
本发明涉及行人轨迹预测领域,具体为一种跨模态行人轨迹生成式预测框架、方法和装置。
背景技术
行人轨迹预测在自动驾驶中是一个重要的任务,因为其预测结果能够给无人车一些指导,帮助无人车判断在未来时刻是否会和行人发生碰撞,有利于减少交通事故的发生,这对于无人车的安全驾驶起到积极作用。在第一人称交通场景下,从安装在车辆上的摄像头拍摄的视频中,除了能估计出行人的轨迹,还能获取到车辆的运动信息(比如GPS信息)和行人的姿态信息。如何巧妙地将行人轨迹、自车运动信息和行人姿态进行建模,是提升行人轨迹预测算法准确率的关键突破点。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种跨模态行人轨迹生成式预测框架、方法和装置,其具体技术方案如下:
一种跨模态行人轨迹生成式预测框架,包括:多模态数据时域特征提取模块、基于跨模态Transformer的特征编码模块、条件变分自动编码模块和轨迹预测模块,所述多模态数据时域特征提取模块对多模态数据提取时域特征,直接传递给基于跨模态Transformer的特征编码模块;所述基于跨模态Transformer的特征编码模块,输入为多模态的时域特征,输出为跨模态的注意力特征,分别传递给条件变分自动编码模块和轨迹预测模块;所述条件变分自动编码模块,输入为跨模态的注意力特征,输出为隐变量,直接传递给轨迹预测模块;所述轨迹预测模块,输入为跨模态的注意力特征和隐变量,输出为预测的轨迹。
进一步的,所述多模态数据包括行人轨迹信息、自车即搭载摄像头的车辆的运动信息和行人姿态信息;
所述行人轨迹信息的训练数据定义为观测阶段数据
Figure 208398DEST_PATH_IMAGE001
和目标阶段数据
Figure 232986DEST_PATH_IMAGE002
,其中,观测阶段的时间长度为
Figure 628064DEST_PATH_IMAGE003
,目标阶 段的时间长度为
Figure 3682DEST_PATH_IMAGE004
,目标阶段对应了需要被预测的轨迹的时间阶段,
Figure 611250DEST_PATH_IMAGE005
Figure 287082DEST_PATH_IMAGE006
时刻行人 轨迹即二维包围盒的向量表示;
所述自车的运动信息的训练数据定义为观测阶段数据
Figure 321903DEST_PATH_IMAGE007
和目标阶段数据
Figure 450396DEST_PATH_IMAGE008
,其中,
Figure 861654DEST_PATH_IMAGE009
Figure 126414DEST_PATH_IMAGE006
时刻自车运动信息的向量表示;
所述行人姿态信息的训练数据定义为观测阶段数据
Figure 614027DEST_PATH_IMAGE010
和目标阶段数据
Figure 479083DEST_PATH_IMAGE011
,其中,
Figure 444765DEST_PATH_IMAGE012
Figure 78878DEST_PATH_IMAGE013
是一个
Figure 737392DEST_PATH_IMAGE014
的热图,代表该行人在
Figure 840478DEST_PATH_IMAGE006
时刻的第
Figure 864977DEST_PATH_IMAGE015
个 姿态关节点。
进一步的,所述多模态数据时域特征提取模块在观测阶段和目标阶段,针对行人轨迹和自车运动信息,采用多层感知器与一维卷积层的组合进行特征提取;针对行人姿态信息即姿态热图,采用卷积LSTM与二维卷积网络的组合来进行特征提取。
进一步的,所述基于跨模态Transformer的特征编码模块具体执行以下步骤:
步骤一:分别为阶段
Figure 369908DEST_PATH_IMAGE016
下的行人轨迹信息、自车运动信息和行人姿态信息的 时域特征添加位置编码,获得
Figure 199324DEST_PATH_IMAGE017
Figure 38973DEST_PATH_IMAGE018
Figure 346457DEST_PATH_IMAGE019
;将添加了位置编码的时域特征组织成 4个特征对
Figure 971474DEST_PATH_IMAGE020
Figure 486637DEST_PATH_IMAGE021
Figure 298736DEST_PATH_IMAGE022
Figure 675490DEST_PATH_IMAGE023
,将这4个特征 对分别输入到公认的跨模态Transformer中,分别输出4对跨模态特征和权重矩阵的组合
Figure 138702DEST_PATH_IMAGE024
Figure 575499DEST_PATH_IMAGE025
Figure 874893DEST_PATH_IMAGE026
Figure 773448DEST_PATH_IMAGE027
步骤二:将所述4对跨模态特征和权重矩阵分配到2个不同的分支中,其中
Figure 107478DEST_PATH_IMAGE028
Figure 715176DEST_PATH_IMAGE029
分配到分支1中,
Figure 16714DEST_PATH_IMAGE030
Figure 469692DEST_PATH_IMAGE031
分配到分支2中;对分支1,使用一个多模态注意力模块,计算跨模态 配置
Figure 392648DEST_PATH_IMAGE032
下的跨模态特征的权重
Figure 420516DEST_PATH_IMAGE033
和跨模态配置
Figure 960082DEST_PATH_IMAGE034
下的跨模态 特征的权重
Figure 216751DEST_PATH_IMAGE035
Figure 509061DEST_PATH_IMAGE036
Figure 192983DEST_PATH_IMAGE037
同理,对分支2,使用相同的多模态注意力模块,计算跨模态配置
Figure 688686DEST_PATH_IMAGE038
下 的跨模态特征的权重
Figure 15892DEST_PATH_IMAGE039
和跨模态配置
Figure 179020DEST_PATH_IMAGE040
下的跨模态特征的权重
Figure 33844DEST_PATH_IMAGE041
Figure 797269DEST_PATH_IMAGE042
Figure 395741DEST_PATH_IMAGE043
步骤三:使用步骤二得到的跨模态特征的权重,分别融合分支1和分支2中的跨模态特征,即:
Figure 147796DEST_PATH_IMAGE044
Figure 953947DEST_PATH_IMAGE045
步骤四:将步骤三中的输出结果
Figure 424243DEST_PATH_IMAGE046
Figure 560826DEST_PATH_IMAGE047
拼接起来,获得
Figure 947814DEST_PATH_IMAGE048
,并在时域 这个维度上对
Figure 144440DEST_PATH_IMAGE048
做最大池化操作,获得阶段
Figure 85720DEST_PATH_IMAGE049
的最终特征
Figure 291573DEST_PATH_IMAGE050
;观测阶段的最终 特征为
Figure 18221DEST_PATH_IMAGE051
,目标阶段的最终特征为
Figure 369437DEST_PATH_IMAGE052
进一步的,所述条件变分自动编码器包含两个网络:网络1和网络2,两个网络均为 多层感知器;网络1仅接收
Figure 814324DEST_PATH_IMAGE053
,将其映射到一组向量集合,用于构造一个概率分布
Figure 807557DEST_PATH_IMAGE054
;网 络2同时接收
Figure 388711DEST_PATH_IMAGE053
Figure 192719DEST_PATH_IMAGE055
,并将其映射到另一组向量集合,用于构造一个和概率分布
Figure 374171DEST_PATH_IMAGE054
相同类型的概率分布
Figure 921827DEST_PATH_IMAGE056
;计算概率分布
Figure 623066DEST_PATH_IMAGE054
和概率分布
Figure 587523DEST_PATH_IMAGE056
之间的KL散度,以此来同时优 化网络1和网络2;采样隐变量:训练时在
Figure 7003DEST_PATH_IMAGE056
中采样隐变量
Figure 92771DEST_PATH_IMAGE057
,应用训练好的模型推理时在
Figure 897785DEST_PATH_IMAGE054
中采样隐变量
Figure 778016DEST_PATH_IMAGE057
进一步的,所述轨迹预测模块,将
Figure 684792DEST_PATH_IMAGE053
和隐变量
Figure 823519DEST_PATH_IMAGE057
进行向量拼接,并输入到一个 多层感知器中,输出n个控制向量
Figure 233771DEST_PATH_IMAGE058
;观测阶段的最后一个时刻的轨迹
Figure 799751DEST_PATH_IMAGE059
作 为控制向量
Figure 928244DEST_PATH_IMAGE060
;每个控制向量均表示为一个二维包围盒;用
Figure 355814DEST_PATH_IMAGE061
这n+1个控 制向量来做n阶样条曲线的插值,插值出一条轨迹:
Figure 135420DEST_PATH_IMAGE062
其中,
Figure 623033DEST_PATH_IMAGE063
由所选择的样条曲线决定,代表了控制向量
Figure 973243DEST_PATH_IMAGE064
对应的权重系数,
Figure 453772DEST_PATH_IMAGE065
代表预测轨迹的所有时刻,且需要归一化到
Figure 573038DEST_PATH_IMAGE066
之间,
Figure 480820DEST_PATH_IMAGE067
作为阶数需要小于预测轨迹的时 刻数。
一种跨模态行人轨迹生成式预测方法,包括如下步骤:
步骤一,构造并连接各个模块:将多模态数据时域特征提取模块、基于跨模态Transformer的特征编码模块、条件变分自动编码模块和轨迹预测模块连接,构成基于跨模态Transformer的行人轨迹生成式预测框架;
步骤二,构建多模态的训练数据,对基于跨模态Transformer的行人轨迹生成式预测框架模型进行训练;训练时采用的损失函数为:
Figure 583905DEST_PATH_IMAGE068
其中,
Figure 353278DEST_PATH_IMAGE069
为目标阶段轨迹真值
Figure 841897DEST_PATH_IMAGE070
和预测的轨迹
Figure 671312DEST_PATH_IMAGE071
之间的L2损失函数,
Figure 261694DEST_PATH_IMAGE072
为与时间相关的权重函数,用于表示L2损失函数在不同时刻的重要程度;
Figure 78166DEST_PATH_IMAGE073
为两个概率分布
Figure 437603DEST_PATH_IMAGE054
Figure 687188DEST_PATH_IMAGE056
之间的KL散度;
步骤三,利用训练好的网络模型,进行行人轨迹的预测:在模型使用过程中,输入观测阶段的多模态数据到训练好的生成式模型中,输出预测的行人轨迹。
一种跨模态行人轨迹生成式预测装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述的跨模态行人轨迹生成式预测方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的跨模态行人轨迹生成式预测方法。
与现有技术相比,本发明具有如下优点:
(1)在本发明中,在第一人称视角的交通场景下,为了预测出更准确的行人轨迹,充分利用了多个模态的序列特征,提出了以跨模态Transformer为基础的编码器。在编码器中,采用了一种“跨模态Transformer+分支分配+多模态注意力机制”的组合,来获得轻量但强大的特征。
(2)在本发明中,使用一种全局的线形插值方法来进行轨迹的预测,考虑到常用的时间序列预测模型具有的“遗忘性”缺点,比如LSTM/GRU模型,本发明不使用这类模型。本发明的方法具体来说:根据编码器在观测阶段的最终特征和条件变分自动编码器的特征,全局地预测出轨迹的若干个控制点,再由这些控制点进行任意类型的样条曲线的插值,这样插值出来的曲线轨迹没有“遗忘性”的问题。
附图说明
图1为基于跨模态Transformer的行人轨迹生成式预测框架的模块连接示意图;
图2为基于跨模态Transformer的特征编码器中采用的特征提取和混合方法的流程图;
图3为基于跨模态Transformer的行人轨迹生成式预测方法的流程图;
图4是本发明一种跨模态行人轨迹生成式预测装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,一种跨模态行人轨迹生成式预测框架,包括:多模态数据时域特征提取模块、基于跨模态Transformer的特征编码模块、条件变分自动编码模块和轨迹预测模块。
所述多模态数据时域特征提取模块对多模态数据提取时域特征,直接传递给基于跨模态Transformer的特征编码模块;所述基于跨模态Transformer的特征编码模块,输入为多模态的时域特征,输出为跨模态的注意力特征,分别传递给条件变分自动编码模块和轨迹预测模块;所述条件变分自动编码模块,输入为跨模态的注意力特征,输出为隐变量,直接传递给轨迹预测模块;所述轨迹预测模块,输入为跨模态的注意力特征和隐变量,输出为预测的轨迹。
所述多模态数据,包括:行人轨迹信息、自车即搭载摄像头的车辆的运动信息和行人姿态信息,这三个模态。本实施例采用公开数据集PIE,该数据集提供了大量第一人称交通场景下的行人轨迹相关的多模态数据,这些数据以30Hz的频率从1842个行人中采样;该数据集提供了行人轨迹即二维包围盒、无人车自车运动的信息和行人图像数据,根据二维包围盒,可以从一整张图片中切割出对应的行人,满足本发明网络模型的输入需求;按照PIE数据集的默认分配,其中23个视频的数据属于训练集,11个视频的数据属于验证集,19个视频的数据属于测试集。
对于行人轨迹预测,给定一段观测阶段的数据,时间长度为
Figure 764865DEST_PATH_IMAGE003
,网络模型以此预 测一段轨迹,预测的轨迹对应的阶段称为目标阶段,时间长度为
Figure 610461DEST_PATH_IMAGE074
;为了满足网络模型 的设计需求,多模态训练数据需包括观测阶段的时间序列数据和与前者对应的目标阶段的 时间序列数据,在本实施例中,时间长度分别为
Figure 73672DEST_PATH_IMAGE075
Figure 244891DEST_PATH_IMAGE076
具体来说,模态一:行人轨迹的训练数据定义为观测阶段数据
Figure 527973DEST_PATH_IMAGE077
和目标阶段数据
Figure 380523DEST_PATH_IMAGE078
,其中,
Figure 963820DEST_PATH_IMAGE079
Figure 571519DEST_PATH_IMAGE080
时刻二维包围盒的向量表示,
Figure 810739DEST_PATH_IMAGE081
代表
Figure 794876DEST_PATH_IMAGE082
时刻的包围盒的 中心点坐标,
Figure 717832DEST_PATH_IMAGE083
代表
Figure 480121DEST_PATH_IMAGE080
时刻的包围盒的宽和高,通过行人检测算法或标注人员标注获 得。
具体来说,模态二:自车即搭载摄像头的车辆运动信息的训练数据定义为观测阶 段数据
Figure 488528DEST_PATH_IMAGE084
和目标阶段数据
Figure 728885DEST_PATH_IMAGE085
,其中,
Figure 699159DEST_PATH_IMAGE086
Figure 648660DEST_PATH_IMAGE080
时刻自车运动信息的向量表示,
Figure 409943DEST_PATH_IMAGE087
代表
Figure 453991DEST_PATH_IMAGE080
时刻的车辆速 度,
Figure 351540DEST_PATH_IMAGE088
代表
Figure 455631DEST_PATH_IMAGE080
时刻的车辆车头的朝向角度,通过车载GPS或IMU获得;在本实施例中,车 辆的速度无需进行处理,但是车辆车头的朝向角度需要预先处理,因为该角度信息是在全 局坐标系下,不符合要求。需要以当前轨迹的第一个时刻的车辆朝向角度
Figure 173051DEST_PATH_IMAGE089
为参考,将所 有时刻的车辆朝向角度转换到局部坐标系中,获得新的车辆朝向角度序列
Figure 771523DEST_PATH_IMAGE090
具体来说,模态三:行人姿态信息的训练数据定义为观测阶段数据
Figure 772846DEST_PATH_IMAGE091
和目标阶段数据
Figure 798571DEST_PATH_IMAGE092
,其中
Figure 518134DEST_PATH_IMAGE093
Figure 185875DEST_PATH_IMAGE094
是一个热图,具体为一个
Figure 58016DEST_PATH_IMAGE095
的矩阵,代表该行人 在
Figure 503910DEST_PATH_IMAGE096
时刻的第
Figure 195923DEST_PATH_IMAGE097
个姿态关节点;行人姿态热图的获取,通过将行人从图像中切割出来,利用 姿态估计算法对行人图像进行姿态估计。在本实施例中,定义一个行人总共有17个姿态关 节点,也就是一个行人在
Figure 667355DEST_PATH_IMAGE096
时刻由17个热图组成姿态信息,每个热图为一个
Figure 643270DEST_PATH_IMAGE098
的矩阵。
所述多模态数据时域特征提取模块:
针对行人轨迹和自车运动信息,采用多层感知器与一维卷积层的组合进行特征提 取,其中,所述多层感知器:input-size:2, output-size:272;一维卷积层:kernel-size: 3, input-size:272, output-size:272;针对行人姿态信息即姿态热图,采用卷积LSTM与 二维卷积网络的组合来进行特征提取,其中,卷积LSTM:kernel-size:3,input-channel: 17, output-channel:17;二维卷积网络:普通VGG网络使用的卷积网络的样式,最后结果 reshape后的特征维数为272;所述的时域特征提取策略均用于观测阶段和目标阶段。在本 实施例中,观测阶段下每个模态的时域特征的大小均为
Figure 10798DEST_PATH_IMAGE099
,目标阶段下每个模态的 时域特征的大小均为
Figure 439374DEST_PATH_IMAGE100
所述基于跨模态Transformer的特征编码模块执行以下步骤,其中步骤一和步骤二的主要内容可由图2表示:
步骤一:分别为阶段
Figure 448918DEST_PATH_IMAGE049
下的行人轨迹信息、自车运动信息和行人姿态信息的 时域特征添加位置编码,获得
Figure 30072DEST_PATH_IMAGE101
Figure 100926DEST_PATH_IMAGE102
Figure 767531DEST_PATH_IMAGE103
;将这3个添加了位置编码的时域特征 组织成4个特征对
Figure 580766DEST_PATH_IMAGE104
Figure 531273DEST_PATH_IMAGE105
Figure 506183DEST_PATH_IMAGE106
Figure 394504DEST_PATH_IMAGE107
;将这4个 特征对分别输入到公认的跨模态Transformer中,分别输出4对跨模态特征和权重矩阵的组 合
Figure 729539DEST_PATH_IMAGE108
Figure 285286DEST_PATH_IMAGE109
Figure 680364DEST_PATH_IMAGE110
Figure 55981DEST_PATH_IMAGE111
步骤二:将上述跨模态特征和权重矩阵分配到2个不同的分支中,其中
Figure 945440DEST_PATH_IMAGE112
Figure 604960DEST_PATH_IMAGE113
分配到分支1中,
Figure 921672DEST_PATH_IMAGE114
Figure 315744DEST_PATH_IMAGE115
分配到分支2中;对分支1,使用一个多模态注意力模块,计算跨模态 配置
Figure 992582DEST_PATH_IMAGE116
下的跨模态特征的权重
Figure 522921DEST_PATH_IMAGE117
和跨模态配置
Figure 10534DEST_PATH_IMAGE118
下的跨模态 特征的权重
Figure 875591DEST_PATH_IMAGE119
:
Figure 372431DEST_PATH_IMAGE120
Figure 740964DEST_PATH_IMAGE121
同理,对分支2,使用相同的多模态注意力模块,计算跨模态配置
Figure 665058DEST_PATH_IMAGE122
下 的跨模态特征的权重
Figure 502564DEST_PATH_IMAGE123
和跨模态配置
Figure 537516DEST_PATH_IMAGE124
下的跨模态特征的权重
Figure 297574DEST_PATH_IMAGE125
:
Figure 126989DEST_PATH_IMAGE126
Figure 701059DEST_PATH_IMAGE127
步骤三:使用以上跨模态特征的权重,分别融合分支1和分支2中的跨模态特征,即:
Figure 539702DEST_PATH_IMAGE128
Figure 633560DEST_PATH_IMAGE129
步骤四:将上述步骤三中的输出结果
Figure 883145DEST_PATH_IMAGE130
Figure 695243DEST_PATH_IMAGE131
拼接起来,获得
Figure 806418DEST_PATH_IMAGE132
,并在 时域维度上对
Figure 535209DEST_PATH_IMAGE132
做最大池化操作,获得阶段
Figure 706427DEST_PATH_IMAGE133
的最终特征
Figure 271401DEST_PATH_IMAGE134
;观测阶段的最终 特征为
Figure 435535DEST_PATH_IMAGE135
,目标阶段的最终特征为
Figure 769564DEST_PATH_IMAGE136
,在本实施例中它们的特征大小均为
Figure 111684DEST_PATH_IMAGE137
所述条件变分自动编码模块:
条件变分自动编码器包含两个网络,设为网络1和网络2,两个网络均为多层感知 器,其中网络1:input-size:544; output-size:32;网络2:input-size:1088,output- size:32。在本实施例中,考虑的概率分布为高斯分布;网络1仅接收
Figure 147642DEST_PATH_IMAGE138
,将其映射到均值 向量
Figure 866199DEST_PATH_IMAGE139
和方差向量
Figure 789156DEST_PATH_IMAGE140
,用于构造一个高斯分布
Figure 551444DEST_PATH_IMAGE141
;网络2同时接收
Figure 91010DEST_PATH_IMAGE142
Figure 347679DEST_PATH_IMAGE143
,将其映射到均值向量
Figure 905568DEST_PATH_IMAGE144
和方差向量
Figure 589490DEST_PATH_IMAGE145
,用于构造一个高斯分布
Figure 350773DEST_PATH_IMAGE146
;计算高斯分 布
Figure 388962DEST_PATH_IMAGE147
和高斯分布
Figure 552090DEST_PATH_IMAGE148
之间的KL散度,以此来同时优化网络1和网络2;采样 因变量:训练时在
Figure 672493DEST_PATH_IMAGE149
中通过公式
Figure 170339DEST_PATH_IMAGE150
来采样隐变量
Figure 503231DEST_PATH_IMAGE151
,应用训练好的 模型推理时在
Figure 786445DEST_PATH_IMAGE152
中通过公式
Figure 61437DEST_PATH_IMAGE153
来采样隐变量
Figure 797312DEST_PATH_IMAGE151
,其中
Figure 199475DEST_PATH_IMAGE154
为标准正 态分布采样出来的随机数,
Figure 320883DEST_PATH_IMAGE155
Figure 251930DEST_PATH_IMAGE156
Figure 193210DEST_PATH_IMAGE157
Figure 133485DEST_PATH_IMAGE158
Figure 843821DEST_PATH_IMAGE154
Figure 476927DEST_PATH_IMAGE151
的长度均取值为16。
所述轨迹预测模块:
在本实施例中,将
Figure 187394DEST_PATH_IMAGE159
和隐变量
Figure 915048DEST_PATH_IMAGE151
进行向量拼接,并输入到一个多层感知器中, 其中,该多层感知器:input-size:560,output-size:12,输出3个控制向量
Figure 27360DEST_PATH_IMAGE160
;观 测阶段的最后一个时刻的轨迹
Figure 565789DEST_PATH_IMAGE161
作为控制向量
Figure 12820DEST_PATH_IMAGE162
;每个控制向量均表示为一个二维包 围盒
Figure 294896DEST_PATH_IMAGE163
;用
Figure 261715DEST_PATH_IMAGE164
这4个控制向量来做3阶贝塞尔曲线的插值,贝塞尔 曲线是样条曲线的一种,插值出一条轨迹:
Figure 491752DEST_PATH_IMAGE165
其中,
Figure 645652DEST_PATH_IMAGE166
,代表了贝塞尔曲线中控制向量
Figure 996999DEST_PATH_IMAGE167
对应 的权重系数,
Figure 802013DEST_PATH_IMAGE168
代表预测轨迹的所有时刻且需要归一化到
Figure 213403DEST_PATH_IMAGE169
之间。
如图3所示,一种跨模态行人轨迹生成式预测方法,包括如下步骤:
步骤一,构造并连接各个模块,将多模态数据时域特征提取模块、基于跨模态Transformer的特征编码模块、条件变分自动编码模块和轨迹预测模块连接,构成基于跨模态Transformer的行人轨迹生成式预测框架。
步骤二,将公开数据集PIE中的原始数据构建成多模态的训练数据,对基于跨模态Transformer的行人轨迹生成式预测框架模型进行训练,采用以L2_Loss和KL散度为基础的损失函数来对该模型进行优化,其中基于L2_Loss的部分的作用在于让预测的轨迹和真实的轨迹尽可能接近,基于KL散度的部分的作用是让预测的概率分布和真实的概率分布尽可能接近。在本实施例中,具体的损失函数可表示为:
Figure 854600DEST_PATH_IMAGE170
其中
Figure 744058DEST_PATH_IMAGE171
Figure 669158DEST_PATH_IMAGE172
用于控制不同时刻损失的权重,
Figure 251449DEST_PATH_IMAGE173
为轨迹 的真值。
Figure 379942DEST_PATH_IMAGE174
随着训练迭代次数的增多而逐渐提升,增长范围为
Figure 322359DEST_PATH_IMAGE175
,迭代次数的范围为
Figure 852698DEST_PATH_IMAGE176
Figure 340311DEST_PATH_IMAGE177
,因为采用的概率分布为高斯分布,故可 以通过以下公式进行计算:
Figure 470947DEST_PATH_IMAGE178
其中
Figure 702208DEST_PATH_IMAGE179
代表训练的批量大小。除此之外,每训练一个epoch,对验证集数据 进行推理验证,总共训练50个epoch,选择其中指标表现最优异的训练模型。
步骤三,利用训练好的网络模型,进行行人轨迹的预测。在模型使用过程中,因为在推理过程中无法获得目标阶段的多模态数据,所以无法使用基于跨模态Transformer的特征编码模块去获得目标阶段的最终特征。因此只需输入观测阶段的多模态数据到训练好的生成式模型中,输出预测的行人轨迹。
与前述跨模态行人轨迹生成式预测方法的实施例相对应,本发明还提供了跨模态行人轨迹生成式预测装置的实施例。
参见图4,本发明实施例提供的一种跨模态行人轨迹生成式预测装置,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的跨模态行人轨迹生成式预测方法。
本发明跨模态行人轨迹生成式预测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明跨模态行人轨迹生成式预测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的跨模态行人轨迹生成式预测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种跨模态行人轨迹生成式预测框架,包括:多模态数据时域特征提取模块、基于跨模态Transformer的特征编码模块、条件变分自动编码模块和轨迹预测模块,其特征在于,所述多模态数据时域特征提取模块对多模态数据提取时域特征,直接传递给基于跨模态Transformer的特征编码模块;所述基于跨模态Transformer的特征编码模块,输入为多模态的时域特征,输出为跨模态的注意力特征,分别传递给条件变分自动编码模块和轨迹预测模块;所述条件变分自动编码模块,输入为跨模态的注意力特征,输出为隐变量,直接传递给轨迹预测模块;所述轨迹预测模块,输入为跨模态的注意力特征和隐变量,输出为预测的轨迹。
2.如权利要求1所述的一种跨模态行人轨迹生成式预测框架,其特征在于,所述多模态数据包括行人轨迹信息、自车即搭载摄像头的车辆的运动信息和行人姿态信息;
所述行人轨迹信息的训练数据定义为观测阶段数据
Figure 672634DEST_PATH_IMAGE001
和目标 阶段数据
Figure 793037DEST_PATH_IMAGE002
,其中,观测阶段的时间长度为
Figure 776037DEST_PATH_IMAGE003
,目标阶段的时 间长度为
Figure 623776DEST_PATH_IMAGE004
,目标阶段对应了需要被预测的轨迹的时间阶段,
Figure 641410DEST_PATH_IMAGE005
Figure 667135DEST_PATH_IMAGE006
时刻行人轨迹即 二维包围盒的向量表示;
所述自车的运动信息的训练数据定义为观测阶段数据
Figure 121119DEST_PATH_IMAGE007
和 目标阶段数据
Figure 523282DEST_PATH_IMAGE008
,其中,
Figure 379111DEST_PATH_IMAGE009
Figure 575737DEST_PATH_IMAGE006
时刻自车运动信息的向量表 示;
所述行人姿态信息的训练数据定义为观测阶段数据
Figure 782596DEST_PATH_IMAGE010
和目 标阶段数据
Figure 722871DEST_PATH_IMAGE011
,其中,
Figure 183939DEST_PATH_IMAGE012
Figure 331892DEST_PATH_IMAGE013
是 一个
Figure 776780DEST_PATH_IMAGE014
的热图,代表该行人在
Figure 255166DEST_PATH_IMAGE006
时刻的第
Figure 616746DEST_PATH_IMAGE015
个姿态关节点。
3.如权利要求1所述的一种跨模态行人轨迹生成式预测框架,其特征在于,所述多模态数据时域特征提取模块在观测阶段和目标阶段,针对行人轨迹和自车运动信息,采用多层感知器与一维卷积层的组合进行特征提取;针对行人姿态信息即姿态热图,采用卷积LSTM与二维卷积网络的组合来进行特征提取。
4.如权利要求3所述的一种跨模态行人轨迹生成式预测框架,其特征在于,所述基于跨模态Transformer的特征编码模块具体执行以下步骤:
步骤一:分别为阶段
Figure 155175DEST_PATH_IMAGE016
下的行人轨迹信息、自车运动信息和行人姿态信息的时域特 征添加位置编码,获得
Figure 352938DEST_PATH_IMAGE017
Figure 890142DEST_PATH_IMAGE018
Figure 591381DEST_PATH_IMAGE019
;将添加了位置编码的时域特征组织成4个特 征对
Figure 831870DEST_PATH_IMAGE020
Figure 235038DEST_PATH_IMAGE021
Figure 320806DEST_PATH_IMAGE022
Figure 876552DEST_PATH_IMAGE023
,将这4个特征对分别 输入到公认的跨模态Transformer中,分别输出4对跨模态特征和权重矩阵的组合
Figure 537210DEST_PATH_IMAGE024
Figure 178407DEST_PATH_IMAGE025
Figure 802286DEST_PATH_IMAGE026
Figure 992965DEST_PATH_IMAGE027
步骤二:将所述4对跨模态特征和权重矩阵分配到2个不同的分支中,其中
Figure 44097DEST_PATH_IMAGE028
Figure 438170DEST_PATH_IMAGE029
分配到分支1中,
Figure 115007DEST_PATH_IMAGE030
Figure 379767DEST_PATH_IMAGE031
分配到分支2中;对分支1,使用一个多模态注意力模块,计算跨模态 配置
Figure 132959DEST_PATH_IMAGE032
下的跨模态特征的权重
Figure 998016DEST_PATH_IMAGE033
和跨模态配置
Figure 963698DEST_PATH_IMAGE034
下的跨模态 特征的权重
Figure 863389DEST_PATH_IMAGE035
Figure 990745DEST_PATH_IMAGE036
Figure 93831DEST_PATH_IMAGE037
同理,对分支2,使用相同的多模态注意力模块,计算跨模态配置
Figure 112471DEST_PATH_IMAGE038
下的跨 模态特征的权重
Figure 617402DEST_PATH_IMAGE039
和跨模态配置
Figure 182505DEST_PATH_IMAGE040
下的跨模态特征的权重
Figure 507307DEST_PATH_IMAGE041
Figure 345950DEST_PATH_IMAGE042
Figure 689075DEST_PATH_IMAGE043
步骤三:使用步骤二得到的跨模态特征的权重,分别融合分支1和分支2中的跨模态特征,即:
Figure 954972DEST_PATH_IMAGE044
Figure 767070DEST_PATH_IMAGE045
步骤四:将步骤三中的输出结果
Figure 658671DEST_PATH_IMAGE046
Figure 872615DEST_PATH_IMAGE047
拼接起来,获得
Figure 43833DEST_PATH_IMAGE048
,并在时域这个 维度上对
Figure 592495DEST_PATH_IMAGE048
做最大池化操作,获得阶段
Figure 772941DEST_PATH_IMAGE049
的最终特征
Figure 106970DEST_PATH_IMAGE050
;观测阶段的最终特征 为
Figure 698357DEST_PATH_IMAGE051
,目标阶段的最终特征为
Figure 485048DEST_PATH_IMAGE052
5.如权利要求4所述的一种跨模态行人轨迹生成式预测框架,其特征在于,所述条件变 分自动编码器包含两个网络:网络1和网络2,两个网络均为多层感知器;网络1仅接收
Figure 203605DEST_PATH_IMAGE053
,将其映射到一组向量集合,用于构造一个概率分布
Figure 641409DEST_PATH_IMAGE054
;网络2同时接收
Figure 420009DEST_PATH_IMAGE053
Figure 693995DEST_PATH_IMAGE055
,并 将其映射到另一组向量集合,用于构造一个和概率分布
Figure 465511DEST_PATH_IMAGE054
相同类型的概率分布
Figure 508553DEST_PATH_IMAGE056
;计算 概率分布
Figure 192476DEST_PATH_IMAGE054
和概率分布
Figure 203026DEST_PATH_IMAGE056
之间的KL散度,以此来同时优化网络1和网络2;采样隐变量: 训练时在
Figure 263386DEST_PATH_IMAGE056
中采样隐变量
Figure 426514DEST_PATH_IMAGE057
,应用训练好的模型推理时在
Figure 536464DEST_PATH_IMAGE054
中采样隐变量
Figure 50622DEST_PATH_IMAGE057
6.如权利要求5所述的一种跨模态行人轨迹生成式预测框架,其特征在于,所述轨迹预 测模块,将
Figure 649094DEST_PATH_IMAGE053
和隐变量
Figure 666728DEST_PATH_IMAGE057
进行向量拼接,并输入到一个多层感知器中,输出n个控制向量
Figure 207300DEST_PATH_IMAGE058
;观测阶段的最后一个时刻的轨迹
Figure 943175DEST_PATH_IMAGE059
作为控制向量
Figure 345337DEST_PATH_IMAGE060
;每个控制向量均 表示为一个二维包围盒;用
Figure 466746DEST_PATH_IMAGE061
这n+1个控制向量来做n阶样条曲线的插值, 插值出一条轨迹:
Figure 928951DEST_PATH_IMAGE062
其中,
Figure 886543DEST_PATH_IMAGE063
由所选择的样条曲线决定,代表了控制向量
Figure 341664DEST_PATH_IMAGE064
对应的权重系数,
Figure 68312DEST_PATH_IMAGE065
代表 预测轨迹的所有时刻,且需要归一化到
Figure 701418DEST_PATH_IMAGE066
之间,
Figure 129994DEST_PATH_IMAGE067
作为阶数需要小于预测轨迹的时刻数。
7.一种跨模态行人轨迹生成式预测方法,其特征在于,包括如下步骤:
步骤一,构造并连接各个模块:将多模态数据时域特征提取模块、基于跨模态Transformer的特征编码模块、条件变分自动编码模块和轨迹预测模块连接,构成基于跨模态Transformer的行人轨迹生成式预测框架;
步骤二,构建多模态的训练数据,对基于跨模态Transformer的行人轨迹生成式预测框架模型进行训练;训练时采用的损失函数为:
Figure 139539DEST_PATH_IMAGE068
其中,
Figure 986272DEST_PATH_IMAGE069
为目标阶段轨迹真值
Figure 39548DEST_PATH_IMAGE070
和预测的轨迹
Figure 971731DEST_PATH_IMAGE071
之间的L2损失函数,
Figure 253808DEST_PATH_IMAGE072
为 与时间相关的权重函数,用于表示L2损失函数在不同时刻的重要程度;
Figure 469895DEST_PATH_IMAGE073
为两 个概率分布
Figure 179225DEST_PATH_IMAGE054
Figure 598705DEST_PATH_IMAGE056
之间的KL散度;
步骤三,利用训练好的网络模型,进行行人轨迹的预测:在模型使用过程中,输入观测阶段的多模态数据到训练好的生成式模型中,输出预测的行人轨迹。
8.一种跨模态行人轨迹生成式预测装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求7所述的跨模态行人轨迹生成式预测方法。
9.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求7所述的跨模态行人轨迹生成式预测方法。
CN202210052682.5A 2022-01-18 2022-01-18 一种跨模态行人轨迹生成式预测框架、方法和装置 Active CN114067371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210052682.5A CN114067371B (zh) 2022-01-18 2022-01-18 一种跨模态行人轨迹生成式预测框架、方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210052682.5A CN114067371B (zh) 2022-01-18 2022-01-18 一种跨模态行人轨迹生成式预测框架、方法和装置

Publications (2)

Publication Number Publication Date
CN114067371A true CN114067371A (zh) 2022-02-18
CN114067371B CN114067371B (zh) 2022-09-13

Family

ID=80231241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210052682.5A Active CN114067371B (zh) 2022-01-18 2022-01-18 一种跨模态行人轨迹生成式预测框架、方法和装置

Country Status (1)

Country Link
CN (1) CN114067371B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898550A (zh) * 2022-03-16 2022-08-12 清华大学 一种行人轨迹预测方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017206345A1 (de) * 2017-04-12 2018-10-18 Continental Automotive Gmbh Vorrichtung und verfahren zur geometrischen konstruktion einer vorhergesagten durch ein fahrzeug belegten fläche
CN112734808A (zh) * 2021-01-19 2021-04-30 清华大学 一种车辆行驶环境下易受伤害道路使用者的轨迹预测方法
CN113269115A (zh) * 2021-06-04 2021-08-17 北京易航远智科技有限公司 一种基于Informer的行人轨迹预测方法
CN113780003A (zh) * 2021-08-31 2021-12-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 时空数据变分编解码跨模态增强方法
CN113849668A (zh) * 2021-09-18 2021-12-28 北京航空航天大学 一种基于视觉语言Transformer的端到端视频时空视觉定位系统
CN113870318A (zh) * 2021-12-02 2021-12-31 之江实验室 一种基于多帧点云的运动目标检测系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017206345A1 (de) * 2017-04-12 2018-10-18 Continental Automotive Gmbh Vorrichtung und verfahren zur geometrischen konstruktion einer vorhergesagten durch ein fahrzeug belegten fläche
CN112734808A (zh) * 2021-01-19 2021-04-30 清华大学 一种车辆行驶环境下易受伤害道路使用者的轨迹预测方法
CN113269115A (zh) * 2021-06-04 2021-08-17 北京易航远智科技有限公司 一种基于Informer的行人轨迹预测方法
CN113780003A (zh) * 2021-08-31 2021-12-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 时空数据变分编解码跨模态增强方法
CN113849668A (zh) * 2021-09-18 2021-12-28 北京航空航天大学 一种基于视觉语言Transformer的端到端视频时空视觉定位系统
CN113870318A (zh) * 2021-12-02 2021-12-31 之江实验室 一种基于多帧点云的运动目标检测系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LINHUI LI ET AL.: "Multi-PPTP: Multiple Probabilistic Pedestrian Trajectory Prediction in the Complex Junction Scene", 《 IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》 *
ZHAOXIN SU ET AL.: "CR-LSTM: Collision-prior Guided Social Refinement for Pedestrian Trajectory Prediction", 《2021 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS)》 *
谭星祥: "基于Lembda网络和LSTM的车辆轨迹预测", 《智能计算机与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898550A (zh) * 2022-03-16 2022-08-12 清华大学 一种行人轨迹预测方法和系统
CN114898550B (zh) * 2022-03-16 2024-03-19 清华大学 一种行人轨迹预测方法和系统

Also Published As

Publication number Publication date
CN114067371B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN111860155B (zh) 一种车道线的检测方法及相关设备
Yin et al. Scale recovery for monocular visual odometry using depth estimated with deep convolutional neural fields
CN111079619B (zh) 用于检测图像中的目标对象的方法和装置
JP2022526513A (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
WO2019213459A1 (en) System and method for generating image landmarks
CN113902926A (zh) 一种基于自注意力机制的通用图像目标检测方法和装置
CN112562001B (zh) 一种物体6d位姿估计方法、装置、设备及介质
WO2024060558A1 (zh) 可行域预测方法、装置、系统和存储介质
CN112639878A (zh) 无监督深度预测神经网络
CN114022799A (zh) 一种自监督单目深度估计方法和装置
CN113781519A (zh) 目标跟踪方法和目标跟踪装置
CN114170325A (zh) 确定单应性矩阵的方法、装置、介质、设备和程序产品
CN114067371B (zh) 一种跨模态行人轨迹生成式预测框架、方法和装置
CN112258565A (zh) 图像处理方法以及装置
CN113592015A (zh) 定位以及训练特征匹配网络的方法和装置
Sun et al. Transformer-based moving target tracking method for Unmanned Aerial Vehicle
CN114792401A (zh) 行为识别模型的训练方法、装置、设备及存储介质
CN114565953A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN114119999B (zh) 基于深度学习的迭代6d位姿估计方法及装置
KR20230071052A (ko) 이미지 처리 방법 및 장치
CN115375742A (zh) 生成深度图像的方法及系统
CN114332509A (zh) 图像处理方法、模型训练方法、电子设备及自动驾驶车辆
CN114140497A (zh) 目标车辆3d实时追踪方法及系统
CN117542122B (zh) 人体位姿估计与三维重建方法、网络训练方法及装置
Huang et al. DASTSiam: Spatio‐temporal fusion and discriminative enhancement for Siamese visual tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant