CN116654022B - 基于多重交互的行人轨迹预测方法、系统、设备和介质 - Google Patents

基于多重交互的行人轨迹预测方法、系统、设备和介质 Download PDF

Info

Publication number
CN116654022B
CN116654022B CN202310911868.6A CN202310911868A CN116654022B CN 116654022 B CN116654022 B CN 116654022B CN 202310911868 A CN202310911868 A CN 202310911868A CN 116654022 B CN116654022 B CN 116654022B
Authority
CN
China
Prior art keywords
pedestrian
vehicle
interaction
environment
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310911868.6A
Other languages
English (en)
Other versions
CN116654022A (zh
Inventor
陈俊杰
江昆
杨蒙蒙
付峥
杨殿阁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202310911868.6A priority Critical patent/CN116654022B/zh
Publication of CN116654022A publication Critical patent/CN116654022A/zh
Application granted granted Critical
Publication of CN116654022B publication Critical patent/CN116654022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0027Planning or execution of driving tasks using trajectory prediction for other traffic participants
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0097Predicting future conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0027Planning or execution of driving tasks using trajectory prediction for other traffic participants
    • B60W60/00276Planning or execution of driving tasks using trajectory prediction for other traffic participants for two or more other traffic participants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0043Signal treatments, identification of variables or parameters, parameter estimation or state estimation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2555/00Input parameters relating to exterior conditions, not covered by groups B60W2552/00, B60W2554/00
    • B60W2555/20Ambient conditions, e.g. wind or rain
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2556/00Input parameters relating to data
    • B60W2556/10Historical data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Mechanical Engineering (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明涉及一种基于多重交互的行人轨迹预测方法、系统、设备和介质,包括:对采集的车辆及环境信息进行提取,得到预设历史时间段内各个时刻的行人特征、车辆特征和环境特征;基于各个时刻的行人特征和车辆特征,利用预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征;基于各个时刻的行人特征和环境特征,利用预先建立的行人与环境交互模型,得到行人与环境的交互特征;基于预设历史时间段内的行人特征、行人与车辆的交互特征、行人与环境的交互特征,利用预先建立的轨迹预测模型,得到行人轨迹预测结果。本发明可以广泛应用于智能汽车的环境感知领域。

Description

基于多重交互的行人轨迹预测方法、系统、设备和介质
技术领域
本发明涉及智能汽车的环境感知领域,具体涉及一种基于多重交互的行人轨迹预测方法、系统、设备和介质。
背景技术
自动驾驶车辆在行驶过程中,对行人的感知极其重要,自动驾驶车辆不仅要对行人进行检测、追踪,而且还要进一步预测出行人轨迹,这样才能帮助自动驾驶车辆做出最优决策,提升自动驾驶车辆的安全性、可靠性。
行人的轨迹预测与车辆的轨迹预测不同,行人的自主性强,在行进过程中会与其他行人、车辆以及环境产生交互,进而改变自己的行进策略。实际中,自动驾驶车辆在行进过程中会与其周围的行人发生交互,交互过程是一个动态博弈过程,而现有的算法并未针对这一本质交互问题进行建模;与此同时,行人与环境之间的交互是由场景的全局信息与局部信息共同决定的,目前针对行人与环境的建模问题大多是将全局的语义分割结果直接与行人特征进行拼接,这种方式不仅忽略了行人所处当前环境的空间对应关系,而且引入全局的语义分割结果也会给行人的轨迹预测带来干扰。所以在实际应用中,行人轨迹预测中的交互建模问题仍然存在较大挑战。
发明内容
针对上述问题,本发明的目的是提供一种基于多重交互的行人轨迹预测方法、系统、设备和介质,通过对行人与车辆的交互特征、行人与环境的交互特征进行研究,对行人轨迹进行预测,提高了行人轨迹预测结果的准确性。
为实现上述目的,本发明采取以下技术方案:
第一方面,本发明提供一种基于多重交互的行人轨迹预测方法,包括以下步骤:
对采集的车辆及环境信息进行提取,得到预设历史时间段内各个时刻的行人特征、车辆特征和环境特征;
基于各个时刻的行人特征和车辆特征,利用预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征;
基于各个时刻的行人特征和环境特征,利用预先建立的行人与环境交互模型,得到行人与环境的交互特征;
基于预设历史时间段内的行人特征、行人与车辆的交互特征、行人与环境的交互特征,利用预先建立的轨迹预测模型,得到行人轨迹预测结果。
进一步,所述基于各个时刻的行人特征和车辆特征,利用预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征,包括:
将行人特征和车辆特征分别进行特征编码处理,得到行人特征编码和车辆特征编码;
将行人特征编码和车辆特征编码输入预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征。
进一步,所述将行人特征和车辆特征分别进行特征编码处理,得到行人特征编码和车辆特征编码,包括:
分别对每一时刻的行人特征进行GRU时序编码和位置编码,并将行人特征的GRU时序编码和位置编码按照时刻对应相加,得到行人特征编码;
分别对每一时刻的车辆特征进行GRU时序编码和位置编码,并将车辆特征的GRU时序编码和位置编码按照时刻对应相加,得到车辆特征编码。
进一步,所述基于时序交叉注意力机制的人车交互模型包括:交叉注意力机制模块和RNN编码器模块,其中,所述交叉注意力机制模块用于根据行人特征编码和车辆特征编码,计算得到基于交叉注意力机制的行人特征;所述RNN编码器模块用于从基于交叉注意力机制的行人特征中提取其时序特征,得到行人与车辆的交互特征。
进一步,所述基于行人特征和环境特征,利用预先建立的行人与环境交互模型,得到行人与环境的交互特征,包括:
利用预设的行人局部高斯核对行人特征进行处理,生成每个时刻的行人热度图;
将环境特征向量和行人热度图输入预先建立的行人与环境交互模型,得到行人与环境的交互特征。
进一步,所述行人局部高斯核表示为:
其中,x,y为遍历特征图的每个特征点坐标;cx,cy分别为行人检测框的中心点坐标,w,h分别为行人检测框的宽和高。
进一步,所述基于预设历史时间段内的行人特征、行人与车辆的交互特征、行人与环境的交互特征,利用预先建立的轨迹预测模型,得到行人轨迹预测结果,包括:
构建轨迹预测模型;
确定网络损失函数及训练参数,并基于训练数据对搭建的轨迹预测模型进行训练,得到训练好的轨迹预测模型;
将预设历史时间段内的行人特征、行人与车辆的交互特征、行人与环境的交互特征,输入训练好的轨迹预测模型,得到行人轨迹预测结果。
第二方面,本发明提供一种基于多重交互的行人轨迹预测系统,包括:
数据获取模块,用于对采集的车辆及环境信息进行提取,得到预设历史时间段内各个时刻的行人特征、车辆特征和环境特征;
人-车交互特征获取模块,用于基于各个时刻的行人特征和车辆特征,利用预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征;
人-环境交互特征获取模块,用于基于各个时刻的行人特征和环境特征,利用预先建立的行人与环境交互模型,得到行人与环境的交互特征;
轨迹预测模块,用于基于行人特征、行人与车辆的交互特征、行人与环境的交互特征,利用预先建立的轨迹预测模型,得到行人轨迹预测结果。
第三方面,本发明提供一种处理设备,所述处理设备至少包括处理器和存储器,所述存储器上存储有计算机程序,所述处理器运行所述计算机程序时执行以实现所述基于多重交互的行人轨迹预测方法的步骤。
第四方面,本发明提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现所述基于多重交互的行人轨迹预测方法的步骤。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明由于利用人-车交互特征、人-环境交互特征以及行人特征共同进行行人轨迹预测,基于多重交互的行人轨迹预测框架可以有效地提升行人轨迹预测精度。
2、本发明由于使用cross-attention机制建模行人与自车之间的交互可以有效捕捉自车与目标行人的动态博弈过程,提升自动驾驶车辆对行人意图的预测。
3、本发明由于采用基于热度图的全局与局部环境信息融合架构来建模行人与当前环境的空间关系,并使用卷积LSTM,利用行人的时空特征来提取行人与环境的交互特征,不仅包含了行人关注到的全局特征,同时也保留了行人在场景中的空间关系。
本发明可以广泛应用于智能汽车的环境感知领域。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在整个附图中,用相同的附图标记表示相同的部件。在附图中:
图1是本发明实施例提供的基于多重交互的行人轨迹预测方法流程图;
图2是本发明实施例提供的基于多重交互的行人轨迹预测框架图;
图3是本发明实施例提供的人-车交互示意图,图中表示行人历史信息,/>表示车辆历史信息;
图4是本发明实施例提供的人-环境交互示意图;
图5是本发明实施例提供的轨迹预测模型网络整体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明的一些实施例中,提供一种基于多重交互的行人轨迹预测方法,利用车载摄像头采集车辆周围信息,对行人坐标信息进行检测,同时记录各时刻的车速信息;对于自车与行人之间的交互关系设计cross-attention (交叉注意力)机制,即对所提取到各个时刻的行人坐标与车速进行特征编码与位置编码,并将车辆对行人的影响权重按照注意力机制进行分配,最后通过GRU(门控循环神经网络)输出车辆与行人之间的交互特征;以swin-transformer为backbone (骨干网络)来提取最后时刻的场景全局特征图,根据行人历史时刻位置设置高斯热度图作为行人的局部环境特征,将全局特征图与局部高斯核融合,最后经过卷积LSTM获得行人与环境的交互特征。该方法不仅可以捕捉行人与车辆交互过程中存在的“此消彼长”的现象,同时也可以在建模行人与环境交互的同时保留行人所在的空间位置;两种交互的引入可以有效提升行人轨迹预测精度,满足实际应用需求。
与之相对应地,本发明的另一些实施例中提供一种基于多重交互的行人轨迹预测系统、设备和介质。
实施例1
如图1、图2所示,本实施例提供一种基于多重交互的行人轨迹预测方法,该方法包括以下步骤:
1)对采集的车辆及环境信息进行提取,得到预设历史时间段内各个时刻的行人特征、车辆特征和环境特征;
2)基于各个时刻的行人特征和车辆特征,利用预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征;
3)基于各个时刻的行人特征和环境特征,利用预先建立的行人与环境交互模型,得到行人与环境的交互特征;
4)基于预设历史时间段内的行人特征、行人与车辆的交互特征、行人与环境的交互特征,利用预先建立的轨迹预测模型,得到行人轨迹预测结果。
优选地,上述步骤1)中,车辆及环境信息可以利用车载摄像头进行采集,本发明对此不做限制。
优选地,上述步骤1)中,对采集的车辆及环境信息进行提取时:
针对行人特征,本实施例首先采用深度卷积网络进行行人目标检测,然后采用YOLOV5算法对检测到的行人目标进行行人坐标提取,并将得到的各个时刻的行人坐标作为行人特征。特别地,也可以根据实际需要选择其他方法,本发明对此不做限制。
针对车辆特征,本实施例将各个时刻车辆的速度信息作为车辆特征,车辆速度信息的采集基于车辆自身系统采集。
针对环境特征,本实施例以swin-transformer作为图像特征提取的骨干网络,具体地,首先采用vision-transformer网络进行图像特征提取,相比较于CNN卷积网络,vision-transformer网络可以学习到全局注意力的视觉特征,因此本实施例中swin-transformer输出的图像特征向量具有了全局信息;然后,由于swin-transformer输出的图像特征向量是(batch_size,49,768)的高维特征向量,为了方便与局部信息结合,本实施例将该高维特征向量reshape(重新设置大小)为(batch_size,112,112,3)的特征向量。
优选地,如图3所示,上述步骤2)中,包括以下步骤:
2.1)将行人特征和车辆特征分别进行编码处理,得到行人特征编码和车辆特征编码。
2.2)将行人特征编码和车辆特征编码输入预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征。
优选地,上述步骤2.1)中,包括以下步骤:
2.1.1)分别对每一时刻的行人特征进行GRU时序编码和位置编码,并将行人特征的GRU时序编码和位置编码按照时刻对应相加,得到行人特征编码。
2.1.2)分别对每一时刻的车辆特征进行GRU时序编码和位置编码,并将车辆特征的GRU时序编码和位置编码按照时刻对应相加,得到车辆特征编码。
实际上,将行人特征和车辆特征分别进行GRU时序编码和位置编码后,可以使得车辆特征、行人特征两种不同模态特征映射到相同的特征空间中。其中,对行人特征和车辆特征进行位置编码时,以时刻的车辆特征为例,编码数值为:
(1)
其中,是一个d维向量,其表示第时刻车辆特征的第k个维度的位置编码数值。
优选地,上述步骤2.2)中,基于时序交叉注意力机制的人车交互模型包括交叉注意力机制模块和RNN编码器模块,其中,交叉注意力机制模块用于根据行人特征编码和车辆特征编码,计算得到基于交叉注意力机制的行人特征;RNN编码器模块用于从基于交叉注意力机制的行人特征中提取其时序特征,得到行人与车辆的交互特征。
考虑实际情况中,行人只受车辆历史时刻的影响,因此本实施例中设计了一个上对角Mask,来强调这种影响。因此,基于交叉注意力机制的行人特征的计算公式为:
(2)
式中,为基于交叉注意力机制的行人特征;Q为问询向量,也即行人特征编码;K,V为健值对,也即车辆速度特征;o表示对应元素相乘;d为向量K,V的维度;Mask为上对角矩阵。
优选地,上述步骤3)中,如图4所示,包括以下步骤:
3.1)利用预设的行人局部高斯核对行人特征进行处理,生成每个时刻的行人热度图;
3.2)将环境特征向量和行人热度图输入预先建立的行人与环境交互模型,得到行人与环境的交互特征。
优选地,上述步骤3.1)中,本实施例设计了行人局部高斯核来生成每个时刻的行人热度图。假设行人坐标为(cx,cy,w,h),其中,cx,cy分别为行人检测框的中心点坐标,w,h分别为检测框的宽和高;则行人局部高斯核的大小与行人的尺度成正比,可以表示为:
(3)
其中,x,y为遍历特征图的每个特征点坐标。
优选地,上述步骤3.2)中,行人与环境交互模型包括融合模块和卷积模块,其中,融合模块用于将环境特征向量与每个时刻生成的行人热度图向量相乘,得到局部与全局融合的环境特征向量;卷积模块用于利用卷积LSTM对局部与全局融合的环境特征向量进行特征提取,得到行人与环境的交互特征。
实际上,将环境特征向量与每个时刻生成的行人热度图向量相乘后得到的局部与全局融合的环境特征,该特征不仅包含了行人关注到的全局特征,同时也保留了行人在场景中的空间关系。
优选地,上述步骤4)中,如图5所示,具体流程包括以下步骤:
4.1)构建轨迹预测模型。
本实施例建立的轨迹预测模型包括条件变分自编码器网络和轨迹解码器。条件变分自编码器网络用于在生成隐变量空间中进行采样,最终生成行人多条轨迹的隐变量;轨迹解码器,用于利用该隐变量,生成行人多条预测轨迹。其中,条件变分自编码器网络的构建,又分为训练阶段网络和推理阶段网络构造。分别介绍如下:
4.1.1)训练阶段网络构造
本实施例中,行人的历史轨迹用X表示,行人的未来轨迹用Y表示,行人与车辆的交互特征用表示,行人与环境之间的交互特征用/>表示,而预测出的行人轨迹用/>表示。在训练阶段,首先,通过行人的未来轨迹Y、行人的历史轨迹X、行人与车辆的交互特征/>以及行人与环境之间的交互特征/>来共同构建行人轨迹生成的隐变量特征/>;然后,基于隐变量特征/>来求解行人轨迹的后验概率分布/>
具体实施时,首先,将行人的未来轨迹Y、行人历史轨迹X、行人与车辆的交互特征以及行人与环境之间的交互特征/>进行拼接;其次,利用四个线性层进行映射并进行高斯采样,得到隐变量特征/>,且/>,隐变量特征/>是从高斯分布中采样得到的,采样符合高斯分布/>,/>、/>分别对应采用的期望和方差;最后,进行模型训练,求解行人轨迹的后验概率分布/>,也即进行模型训练得到四层线性层中的各个参数。
4.1.2)推理阶段网络构造
在推理阶段,行人未来轨迹的真值不可得,因此只能通过行人的历史轨迹X、行人与车辆的交互特征以及行人与环境之间的交互特征/>来共同构建行人轨迹生成的隐变量特征/>,然后基于隐变量来求解行人轨迹的先验概率分布/>
在本实施例中,首先,行人的历史轨迹X、行人与车辆的交互特征以及行人与环境之间的交互特征/>相拼接;其次,利用四个线性层进行映射并进行高斯采样,得到隐变量特征/>。为了预测行人的多条候选轨迹,本实例使用高斯采样来生成多个隐变量/>特征,其中/>,隐变量特征/>是从高斯分布中采样得到的,采样符合高斯分布,/>分别对应采用的期望和方差。
4.1.3)轨迹解码器构造
本实施例中,轨迹解码器为通过使用目的地指导方式构建的双向解码器。其中,双向解码器的正向输入是采样后的隐变量与行人历史特征拼接后的特征,记作/>,而双向解码器的反向输入则是将/>通过MLP单元拟合得到行人目的特征,记作/>。在双向解码过程中,将正反向对应的相同时刻的隐状态特征进行拼接,最终拟合出行人未来轨迹。
4.2)确定网络损失函数及训练参数,并基于训练数据对搭建的轨迹预测模型进行训练,得到训练好的轨迹预测模型。
为了保证端到端的学习过程中网络训练的稳定性,本实例中的网络损失函数设计有三项,分别是对行人目的地的差值、预测轨迹与真值轨迹之间的均方根误差以及衡量轨迹先验概率分布和后验轨迹概率分布相似度的KL散度。
(4)
其中,为预测出的行人t时刻的位置,/>为预测出的行人tn时刻的位置(终点处的位置),/>为实际行人t时刻所在的位置,/>为实际行人所在的终点处位置,为训练阶段行人轨迹的后验概率分布,与推理阶段行人轨迹先验概率分布/>之间的相似度度量函数。
其中,训练参数主要包括SGD优化器参数的设定、学习总代数的设定以及学习率的设定,根据实际需要确定即可。
4.3)将当前时刻的行人特征、行人与车辆的交互特征、行人与环境的交互特征,输入训练好的轨迹预测模型,得到行人轨迹预测结果。
实施例2
为了充分建模行人行走过程中的交互关系,提升行人轨迹预测准确率,本实施例对实施例1提出的基于多重交互的行人轨迹预测方法做进一步介绍。在本实施例中,车载相机的采样频率为30Hz,分辨率大小为[1920,1080]。网络输入数据的帧率为15帧,输出45帧,即通过0.5秒的历史数据预测未来行人1.5秒的轨迹。
在人-车交互部分,通过对15个step的行人特征以及车辆特征编码,其中行人坐标的输入特征为4,车速的输入特征为1,二者特征编码后的特征向量维数为64。在cross_attention阶段,Mask是大小15*15的上三角矩阵,在通过RNN编码器后,人-车交互特征为128维向量。
在人-环境交互部分,siwn-transformer的tiny网络架构作为backbone,网络输入之前将车载图像reshape成大小为[112,112]的图像,经过深度为[2,2,6,2]siwn-transformer的Blocks后输出大小为[49,768],通过reshape后变为[112,112,3]的二维三通道张量。在局部热度图生成过程中,局部特征图的大小为[112,112]。最后将每一帧的局部特征图与全局特征图相乘,得到15个step的三维特征向量。最后通过卷积LSTM输出大小为128维的行人与环境之间的交互特征
在条件变分自编码器部分,隐变量的维度为32,高斯采样分布为正态分布。输入到正向解码器的特征向量维度为96,输入到反向解码器的特征向量/>维度为96,解码出的行人未来轨迹维度为4,即为行人对应最后一帧图像上的包围框坐标。
网络采用SGD优化器训练,学习总代数为50,学习率为0.001。
实施例3
上述实施例1提供了基于多重交互的行人轨迹预测方法,与之相对应地,本实施例提供一种基于多重交互的行人轨迹预测系统。本实施例提供的系统可以实施实施例1的基于多重交互的行人轨迹预测方法,该系统可以通过软件、硬件或软硬结合的方式来实现。例如,该系统可以包括集成的或分开的功能模块或功能单元来执行实施例1各方法中的对应步骤。由于本实施例的系统基本相似于方法实施例,所以本实施例描述过程比较简单,相关之处可以参见实施例1的部分说明即可,本实施例提供的系统的实施例仅仅是示意性的。
本实施例提供的基于多重交互的行人轨迹预测系统,包括:
数据获取模块,用于对采集的车辆及环境信息进行提取,得到各个时刻的行人特征、车辆特征和环境特征;
人-车交互特征获取模块,用于基于各个时刻的行人特征和车辆特征,利用预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征;
人-环境交互特征获取模块,用于基于各个时刻的行人特征和环境特征,利用预先建立的行人与环境交互模型,得到行人与环境的交互特征;
轨迹预测模块,用于基于行人特征、行人与车辆的交互特征、行人与环境的交互特征,利用预先建立的轨迹预测模型,得到行人轨迹预测结果。
实施例4
本实施例提供一种与本实施例1所提供的基于多重交互的行人轨迹预测方法对应的处理设备,处理设备可以是用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行实施例1的方法。
所述处理设备包括处理器、存储器、通信接口和总线,处理器、存储器和通信接口通过总线连接,以完成相互间的通信。存储器中存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行本实施例1所提供的基于多重交互的行人轨迹预测方法。
在一些实施例中,存储器可以是高速随机存取存储器(RAM:Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
在另一些实施例中,处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器,在此不做限定。
实施例5
本实施例1的基于多重交互的行人轨迹预测方法可被具体实现为一种计算机程序产品,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本实施例1所述的基于多重交互的行人轨迹预测方法的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于多重交互的行人轨迹预测方法,其特征在于包括以下步骤:
对采集的车辆及环境信息进行提取,得到预设历史时间段内各个时刻的行人特征、车辆特征和环境特征;
基于各个时刻的行人特征和车辆特征,利用预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征;
基于各个时刻的行人特征和环境特征,利用预先建立的行人与环境交互模型,得到行人与环境的交互特征;
基于预设历史时间段内的行人特征、行人与车辆的交互特征、行人与环境的交互特征,利用预先建立的轨迹预测模型,得到行人轨迹预测结果;
所述基于各个时刻的行人特征和车辆特征,利用预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征,包括:
将行人特征和车辆特征分别进行特征编码处理,得到行人特征编码和车辆特征编码;
将行人特征编码和车辆特征编码输入预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征;
所述将行人特征和车辆特征分别进行特征编码处理,得到行人特征编码和车辆特征编码,包括:
分别对每一时刻的行人特征进行GRU时序编码和位置编码,并将行人特征的GRU时序编码和位置编码按照时刻对应相加,得到行人特征编码;
分别对每一时刻的车辆特征进行GRU时序编码和位置编码,并将车辆特征的GRU时序编码和位置编码按照时刻对应相加,得到车辆特征编码;
所述基于时序交叉注意力机制的人车交互模型包括:交叉注意力机制模块和RNN编码器模块,其中,所述交叉注意力机制模块用于根据行人特征编码和车辆特征编码,计算得到基于交叉注意力机制的行人特征;所述RNN编码器模块用于从基于交叉注意力机制的行人特征中提取其时序特征,得到行人与车辆的交互特征;
所述基于各个时刻的行人特征和环境特征,利用预先建立的行人与环境交互模型,得到行人与环境的交互特征,包括:
利用预设的行人局部高斯核对行人特征进行处理,生成每个时刻的行人热度图;
将环境特征向量和行人热度图输入预先建立的行人与环境交互模型,得到行人与环境的交互特征,其中,所述环境特征向量采用vision-transformer网络进行图像特征提取,并重新设置为预设大小维度后得到。
2.如权利要求1所述的一种基于多重交互的行人轨迹预测方法,其特征在于,所述行人局部高斯核heatmap表示为:
其中,x,y为遍历特征图的每个特征点坐标;cx,cy分别为行人检测框的中心点坐标,w,h分别为行人检测框的宽和高。
3.如权利要求1所述的一种基于多重交互的行人轨迹预测方法,其特征在于,所述基于预设历史时间段内的行人特征、行人与车辆的交互特征、行人与环境的交互特征,利用预先建立的轨迹预测模型,得到行人轨迹预测结果,包括:
构建轨迹预测模型;
确定网络损失函数及训练参数,并基于训练数据对搭建的轨迹预测模型进行训练,得到训练好的轨迹预测模型;
将预设历史时间段内的行人特征、行人与车辆的交互特征、行人与环境的交互特征,输入训练好的轨迹预测模型,得到行人轨迹预测结果。
4.一种基于多重交互的行人轨迹预测系统,其特征在于,包括:
数据获取模块,用于对采集的车辆及环境信息进行提取,得到预设历史时间段内各个时刻的行人特征、车辆特征和环境特征;
人-车交互特征获取模块,用于基于各个时刻的行人特征和车辆特征,利用预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征;
人-环境交互特征获取模块,用于基于各个时刻的行人特征和环境特征,利用预先建立的行人与环境交互模型,得到行人与环境的交互特征;
轨迹预测模块,用于基于行人特征、行人与车辆的交互特征、行人与环境的交互特征,利用预先建立的轨迹预测模型,得到行人轨迹预测结果;
所述基于各个时刻的行人特征和车辆特征,利用预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征,包括:
将行人特征和车辆特征分别进行特征编码处理,得到行人特征编码和车辆特征编码;
将行人特征编码和车辆特征编码输入预先建立的基于时序交叉注意力机制的人车交互模型,得到行人与车辆的交互特征;
所述将行人特征和车辆特征分别进行特征编码处理,得到行人特征编码和车辆特征编码,包括:
分别对每一时刻的行人特征进行GRU时序编码和位置编码,并将行人特征的GRU时序编码和位置编码按照时刻对应相加,得到行人特征编码;
分别对每一时刻的车辆特征进行GRU时序编码和位置编码,并将车辆特征的GRU时序编码和位置编码按照时刻对应相加,得到车辆特征编码;
所述基于时序交叉注意力机制的人车交互模型包括:交叉注意力机制模块和RNN编码器模块,其中,所述交叉注意力机制模块用于根据行人特征编码和车辆特征编码,计算得到基于交叉注意力机制的行人特征;所述RNN编码器模块用于从基于交叉注意力机制的行人特征中提取其时序特征,得到行人与车辆的交互特征;
所述基于各个时刻的行人特征和环境特征,利用预先建立的行人与环境交互模型,得到行人与环境的交互特征,包括:
利用预设的行人局部高斯核对行人特征进行处理,生成每个时刻的行人热度图;
将环境特征向量和行人热度图输入预先建立的行人与环境交互模型,得到行人与环境的交互特征,其中,所述环境特征向量采用vision-transformer网络进行图像特征提取,并重新设置为预设大小维度后得到。
5.一种处理设备,所述处理设备至少包括处理器和存储器,所述存储器上存储有计算机程序,其特征在于,所述处理器运行所述计算机程序时执行以实现权利要求1到3任一项所述基于多重交互的行人轨迹预测方法的步骤。
6.一种计算机存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现根据权利要求1到3任一项所述基于多重交互的行人轨迹预测方法的步骤。
CN202310911868.6A 2023-07-25 2023-07-25 基于多重交互的行人轨迹预测方法、系统、设备和介质 Active CN116654022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310911868.6A CN116654022B (zh) 2023-07-25 2023-07-25 基于多重交互的行人轨迹预测方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310911868.6A CN116654022B (zh) 2023-07-25 2023-07-25 基于多重交互的行人轨迹预测方法、系统、设备和介质

Publications (2)

Publication Number Publication Date
CN116654022A CN116654022A (zh) 2023-08-29
CN116654022B true CN116654022B (zh) 2023-10-20

Family

ID=87715527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310911868.6A Active CN116654022B (zh) 2023-07-25 2023-07-25 基于多重交互的行人轨迹预测方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN116654022B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270226A (zh) * 2020-10-16 2021-01-26 淮阴工学院 一种基于多特征提取和多注意力机制的行人轨迹预测方法
CN113781527A (zh) * 2021-11-10 2021-12-10 华中科技大学 一种基于多交互时空图网络的行人轨迹预测方法和系统
CN115205335A (zh) * 2022-07-19 2022-10-18 苏州挚途科技有限公司 行人轨迹预测方法、装置和电子设备
CN115273015A (zh) * 2021-04-30 2022-11-01 华为技术有限公司 一种预测方法、装置、智能驾驶系统和车辆
CN116071728A (zh) * 2022-12-29 2023-05-05 中国科学技术大学 基于transformer和姿态估计的行人轨迹预测方法及存储介质
CN116129637A (zh) * 2022-12-30 2023-05-16 南京航空航天大学 一种考虑交互的行人轨迹预测系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3706034A1 (en) * 2019-03-06 2020-09-09 Robert Bosch GmbH Movement prediction of pedestrians useful for autonomous driving
US11447129B2 (en) * 2020-02-11 2022-09-20 Toyota Research Institute, Inc. System and method for predicting the movement of pedestrians

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270226A (zh) * 2020-10-16 2021-01-26 淮阴工学院 一种基于多特征提取和多注意力机制的行人轨迹预测方法
CN115273015A (zh) * 2021-04-30 2022-11-01 华为技术有限公司 一种预测方法、装置、智能驾驶系统和车辆
CN113781527A (zh) * 2021-11-10 2021-12-10 华中科技大学 一种基于多交互时空图网络的行人轨迹预测方法和系统
CN115205335A (zh) * 2022-07-19 2022-10-18 苏州挚途科技有限公司 行人轨迹预测方法、装置和电子设备
CN116071728A (zh) * 2022-12-29 2023-05-05 中国科学技术大学 基于transformer和姿态估计的行人轨迹预测方法及存储介质
CN116129637A (zh) * 2022-12-30 2023-05-16 南京航空航天大学 一种考虑交互的行人轨迹预测系统及方法

Also Published As

Publication number Publication date
CN116654022A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN111915663B (zh) 图像深度预测神经网络
US10733482B1 (en) Object height estimation from monocular images
Dewangan et al. Driving behavior analysis of intelligent vehicle system for lane detection using vision-sensor
US20220156483A1 (en) Efficient three-dimensional object detection from point clouds
KR102095152B1 (ko) 상황 인지 방법 및 이를 수행하는 장치
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN111597961A (zh) 面向智能驾驶的移动目标轨迹预测方法、系统、装置
Munir et al. LDNet: End-to-end lane marking detection approach using a dynamic vision sensor
Rasib et al. Pixel level segmentation based drivable road region detection and steering angle estimation method for autonomous driving on unstructured roads
CN110751040B (zh) 一种三维物体的检测方法和装置、电子设备、存储介质
Liu et al. Vehicle-related distance estimation using customized YOLOv7
CN111428566A (zh) 一种形变目标跟踪系统及方法
CN106408593A (zh) 一种基于视频的车辆跟踪方法及装置
Jo et al. Mixture density-PoseNet and its application to monocular camera-based global localization
CN117388870A (zh) 应用于激光雷达感知模型的真值生成方法、装置及介质
CN116189150B (zh) 基于融合输出的单目3d目标检测方法、装置、设备和介质
CN116654022B (zh) 基于多重交互的行人轨迹预测方法、系统、设备和介质
US20220319054A1 (en) Generating scene flow labels for point clouds using object labels
CN117523914A (zh) 碰撞预警方法、装置、设备、可读存储介质及程序产品
CN115345932A (zh) 一种基于语义信息的激光slam回环检测方法
Dos Santos et al. Pedestrian trajectory prediction with pose representation and latent space variables
CN110753239B (zh) 视频预测方法、视频预测装置、电子设备和车辆
CN113538516B (zh) 基于记忆信息的目标对象跟踪方法、装置及电子设备
CN113628238B (zh) 一种目标对象的定位方法、装置及介质
US11922667B2 (en) Object region identification device, object region identification method, and object region identification program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant