CN115049130B - 一种基于时空金字塔的自动驾驶轨迹预测方法 - Google Patents
一种基于时空金字塔的自动驾驶轨迹预测方法 Download PDFInfo
- Publication number
- CN115049130B CN115049130B CN202210695491.0A CN202210695491A CN115049130B CN 115049130 B CN115049130 B CN 115049130B CN 202210695491 A CN202210695491 A CN 202210695491A CN 115049130 B CN115049130 B CN 115049130B
- Authority
- CN
- China
- Prior art keywords
- space
- time
- feature
- feature map
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000010586 diagram Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 13
- 230000010354 integration Effects 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 19
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/93—Lidar systems specially adapted for specific applications for anti-collision purposes
- G01S17/931—Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Remote Sensing (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Radar, Positioning & Navigation (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Astronomy & Astrophysics (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Electromagnetism (AREA)
- Development Economics (AREA)
- Automation & Control Theory (AREA)
Abstract
本发明涉及轨迹预测技术领域,尤其是涉及一种基于时空金字塔的自动驾驶轨迹预测方法,包括对自动驾驶车辆所载传感器收集的雷达点云数据进行预处理,得到BEV图;提取自动驾驶车辆行驶道路的卫星图像,获取局部路径图;构建基于时空金字塔transformer的神经网络模型;将BEV图与局部路径图进行整合,将整合结果输入到神经网络模型进行处理,得到自动驾驶车辆的轨迹与交通参与者的分类结果;本发明在时空金字塔网络模型的基础上添加Transformer机制,利用Transformer机制的简单性使空间交互和上下文信息可以很容易地合并到输入嵌入中,而不增加模型的复杂性,并且提升模型的预测精度。
Description
技术领域
本发明涉及轨迹预测技术领域,尤其是涉及一种基于时空金字塔的自动驾驶轨迹预测方法。
背景技术
轨迹预测是通过传感器收集的车辆历史轨迹数据预测车辆将来一小段时间内的运动轨迹。传统的轨迹预测算法一般假设车辆的速度和方向是恒定的,使用动态和运动学模型进行轨迹预测,如今则通过各种神经网络提取重要的数据特征,将不同的特征进行融合后带入长时间序列运算中,以获得更准确的预测效果。
目前的轨迹预测方法主要分为两类:意图模型和交互感知模型。意图模型首先将车的轨迹分成一系列的簇,每一簇对应一个典型的运动模式;其次对意图进行评估,最后执行预测。意图模型对时间具有定性约束,但是在车辆非常多的情况,不能应用到其它拓扑结构的道路。针对意图模型存在的车辆数量约束问题,交互感知模型将目标车辆及其周围车辆的轨迹历史以及车道结构作为输入,然后将置信度值分配给不同的机动类别,并根据它们预测未来运动的多模态分布。从结果来看,交互感知模型比意图模型的预测更加稳定,且不受限于车辆的数量问题,还能够有效地处理长序列训练过程中的梯度消失问题。比如LSTM(long-short term memory,长短期记忆网络)作为改进后的循环神经网络,通过将遗忘门值选择在[0,1]之间,让梯度能够很好的在LSTM中传递,很大程度上减轻了梯度消失发生的概率。
但是上述基于交互感知模型的单元结构相对单一,不能对数据的多种特征进行提取融合。本发明的目的就是要解决数据的多种特征提取融合问题,输出交通参与者的类别,同时进一步提高轨迹预测的精度。
发明内容
为解决上述问题,本发明提供了一种基于时空金字塔的自动驾驶轨迹预测方法,包括以下步骤:
S1.对自动驾驶车辆所载传感器收集的雷达点云数据进行预处理,得到BEV图;
S2.提取自动驾驶车辆行驶道路的卫星图像,获取局部路径图;
S3.构建基于时空金字塔transformer的神经网络模型;
S4.将BEV图与局部路径图进行整合,将整合结果输入到神经网络模型进行处理,得到自动驾驶车辆的轨迹与交通参与者的分类结果。
进一步的,将雷达点云数据量化为规则体素并形成三维体素格,采用二进制状态表示每个体素格的占用情况,将三维体素格的高度维数对应于二维伪图像的图像通道,从而将三维的雷达点云数据转换为二维伪图像,即所需的BEV图。
进一步的,步骤S2获取局部路径图的过程为:
S11.获取自动驾驶车辆行驶道路对应的谷歌卫星图像,连接谷歌卫星图像中的道路交叉口点与急转弯点构造稀疏全局图;
S12.在稀疏全局图中的每条边上应用线性插值创建稠密的局部路径图;
S13.将稠密的局部路径图投影到具有固定宽度的虚拟路径的激光雷达BEV图上,将接收投影后的激光雷达BEV图转换为二进制图像得到局部路径图。
进一步的,通过CNN网络对BEV图与局部路径图进行整合,得到语义分割图像的过程为:
S21.将鸟瞰图与局部路径图输入到CNN网络的卷积层学习深层抽象特征,局部路径图被用作地面真实值;
S22.将深层抽象特征进行归一化处理,得到归一化特征;
S23.通过ReLU激活函数对归一化特征进行非线性变换;
S24.通过最大池化对非线性变换后的归一化特征进行降采样,提取区域显著性特征;
S25.判断是否得到深层次语义特征,若是,则执行步骤S26,若不是,则将步骤S21中的输入替换为步骤24提取的区域显著性特征,返回步骤S21;
S26.利用双线性插值对深层次语义特征进行上采样;上采样后接入一个分类层识别像素点,识别完成后输出语义分割图像。
进一步的,将鸟瞰图与局部路径图的深层抽象特征进行归一化处理表示为:
其中,c表示输入特征,μ是c的均值,σ2是c的方差,γ是可学习的缩放因子,β是可学习的平移因子。
进一步的,采用神经网络模型处理BEV图与局部路径图整合得到的语义分割图像,得到自动驾驶车辆的轨迹与交通参与者的分类结果的过程包括:
S31.采用第一组合块处理语义分割图像得到第一时空特征图,采用第二组合块处理第一时空特征图得到第二时空特征图,采用第三组合块处理第二时空特征图得到第三时空特征图,采用第四组合块处理第三时空特征图得到第四时空特征图;
S32.将第四时空特征图分别输入到Transformer路径点特征编码器和Transformer路径点位置编码器,输出对应的路径点嵌入和路径点位置嵌入;
S33.将路径点嵌入和路径点位置嵌入输入Transformer编码器;
S34.将Transformer编码器的输出和路径点位置嵌入输入Transformer解码器,输出有序的路径点嵌入;
S35.将反卷积后的第四时空特征图与第三时空特征图融合得到第一融合特征图,将第一融合特征图送入第一特征解码器,将第一特征解码器的输出反卷积后与第二时空特征图融合得到第二融合特征图,将第二融合特征图送入第二特征解码器,将第二特征解码器的输出反卷积后与第一时空特征图融合得到第三融合特征图,将第三融合特征图送入第三特征解码器,将第三特征解码器的输出反卷积后与语义分割图像融合得到第四融合特征图,将第四融合特征图送入第四特征解码器;
S36.通过插值法将第四特征解码器的输出与有序的路径点嵌入结合,得到自动驾驶车辆的轨迹与交通参与者的分类结果。
进一步的,步骤S32中采用Transformer路径点特征编码器得到路径点嵌入的过程为:
S101.将第四时空特征图输入Transformer路径点特征编码器中的第一卷积层,得到第一特征图;
S102.将第四时空特征图输入Transformer路径点特征编码器中的第二卷积层,得到道路分割掩码;
S103.将道路分割掩码输入Transformer路径点特征编码器中的第三卷积层,得到第二特征图;
S104.采用对应元素相加法,将第一特征图与第二特征图相加得到路径点嵌入;
采用Transformer路径点位置特征编码器得到路径点位置嵌入的过程为:
S201.将第四时空特征图输入Transformer路径点位置特征编码器中的第一卷积层,将其输出送入softmax层得到路径点热图;
S202.将路径点热图输入Transformer路径点位置特征编码器中的第二卷积层,得到路径点位置嵌入。
进一步的,步骤S31中的每一个组合块结构相同,包括一个时空卷积层和一个时间池化层,时空卷积层以分层方式沿空间维度和时间维度来提取特征,在空间维度,以2的比例步长来计算不同尺度上的特征图,得到不同尺度的空间特征;在时间维度,每次时间卷积后以1/2的比例逐步降低时间分辨率,得到不同尺度的时间特征。
本发明的有益效果:
本发明在时空金字塔网络模型的基础上添加Transformer机制,利用Transformer机制的简单性使空间交互和上下文信息可以很容易地合并到输入嵌入中,而不增加模型的复杂性,并且提升模型的预测精度。同时,Transformer机制采用位置编码,将输入嵌入与位置编码向量连接起来,使得即使在长时间序列输入的情况下仍能实现计算并行性,减少了模型训练所需要的时间。
本发明将Transformer建模的位置关系特征与时空金字塔网络结合在一起,既考虑了周围交通参与者相互之间的影响,又可以对交通参与者进行类别预测和轨迹预测,减少运动不确定性对轨迹预测的影响。
本发明在训练集上不局限于常见的雷达点云数据,添加了自动驾驶车辆行驶道路的局部路径数据,利用CNN对其进行图像语义分割后,使得训练集包含的内容更加丰富,以此有效增强训练效果,提高了训练后模型的可靠度。
附图说明
图1为本发明的基于时空金字塔Transformer网络的自动驾驶轨迹预测流程图;
图2为本发明的基于时空金字塔Transformer网络的自动驾驶轨迹预测模型框架图;
图3为本发明的CNN网络进行图像语义分割算法的流程图;
图4为本发明的时空金字塔网络构架图;
图5为本发明的Transformer机制的原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于时空金字塔的自动驾驶轨迹预测方法,如图1所示,包括以下步骤:
S1.对自动驾驶车辆所载传感器收集的雷达点云数据进行预处理,得到BEV图;
S2.提取自动驾驶车辆行驶道路的卫星图像,获取局部路径图;
S3.构建基于时空金字塔transformer的神经网络模型;
S4.将BEV图与局部路径图进行整合,将整合结果输入到神经网络模型进行处理,得到自动驾驶车辆的轨迹与交通参与者的分类结果。
在一实施例中,采用如图2所示的网络模型实现自动驾驶车辆的轨迹预测,具体包括:
STEP1、采用自动驾驶车辆中安装的传感器收集雷达点云数据,并对其进行离散化和同步化得到BEV图;
具体地,雷达点云数据是三维的雷达点云图像,本实施例中将三维的雷达点云图像量化为规则体素并形成三维体素格,采用二进制状态来表示每个三维体素格的占用情况,并且将三维体素格的高度维数对应于二维伪图像的图像通道数,从而将三维的雷达点云图像转换为二维伪图像,即所需的BEV图。
STEP2、提取自动驾驶车辆行驶道路的卫星图像,获取局部路径图;
具体地,获取自动驾驶车辆行驶道路对应的谷歌卫星图像,连接谷歌卫星图像中的道路交叉口点与急转弯点构造稀疏全局图;在稀疏全局图中的每条边上应用线性插值创建稠密的局部路径图;将稠密的局部路径图投影到具有固定宽度的虚拟路径的激光雷达BEV图上,将接收投影后的激光雷达BEV图转换为二进制图像得到局部路径图。
STEP3、将BEV图与局部路径图输入CNN网络进行处理,得到语义分割图像,其中局部路径图被用作地面真实值;
具体地,CNN网络如图3所示,处理过程包括:
S21.将鸟瞰图与局部路径图输入到CNN网络的卷积层学习深层抽象特征;其中,卷积层的计算公式为:
f(a)=∑θa+b
其中,θ表示卷积核的权值,a表示输入特征,b表示偏置值;
S22.将深层抽象特征输入批规则化层进行归一化处理,得到归一化特征;其中,归一化计算过程为:
其中,c表示输入特征,μ是c的均值,σ2是c的方差,γ是可学习的缩放因子,β是可学习的平移因子;
S23.通过激活函数层的ReLU激活函数对归一化特征进行非线性变换;
S24.通过最大值池化层对非线性变换后的归一化特征进行降采样,提取区域显著性特征;
S25.将步骤S21中的输入替换为步骤24提取的区域显著性特征,返回步骤S21;
S26.经过多次的21-S25,得到深层次语义特征,利用双线性插值对深层次语义特征进行上采样;
S27.上采样后接入一个分类层识别像素点,识别完成后输出语义分割图像,其中,识别分类过程表示为:
其中,N表示需要分类的种类,表示像素点/>属于第i类的概率。
STEP4、将语义分割图像输入基于时空金字塔transformer的神经网络模型,得到自动驾驶车辆的轨迹交通参与者的分类结果。
具体地,时空金字塔Transformer的神经网络模型框架图如图2所示,包括4个连续的组合块、4个连续的特征融合块、一个Transformer路径点特征编码器、一个Transformer路径点位置特征编码器、一个Transformer编码器和一个Transformer解码器,其中Transformer机制输出矩阵的具体计算公式为:
便于计算,Q、K、V分别表示Query、Key、Value的矩阵,输入Query的维度dq,Key的维度dk,Value维度为dv,其中输出矩阵维度为
具体地,如图2、4所示,每一个组合块结构相同,包括一个时空卷积层和一个时间池化层,4个组合块的处理过程为:采用第一组合块处理语义分割图像(输入:T×C×H×W)得到第一时空特征图采用第二组合块处理第一时空特征图得到第二时空特征图采用第三组合块处理第二时空特征图得到第三时空特征图/>采用第四组合块处理第三时空特征图得到第四时空特征图/>
得到第四时空特征图后分为两个分支同时进行,其中一个分支如图4所示,将反卷积后的第四时空特征图与第三时空特征图融合得到第一融合特征图,将第一融合特征图送入第一特征解码器,将第一特征解码器的输出反卷积后与第二时空特征图融合得到第二融合特征图,将第二融合特征图送入第二特征解码器,将第二特征解码器的输出/>反卷积后与第一时空特征图融合得到第三融合特征图,将第三融合特征图送入第三特征解码器,将第三特征解码器的输出/>反卷积后与语义分割图像融合得到第四融合特征图,将第四融合特征图送入第四特征解码器,输出1×C×H×W;
另一个分支如图2所示,将第四时空特征图分别输入到Transformer路径点特征编码器和Transformer路径点位置编码器,输出对应的路径点嵌入和路径点位置嵌入;接着将路径点嵌入和路径点位置嵌入输入Transformer编码器;然后将Transformer编码器的输出和路径点位置嵌入输入Transformer解码器,输出有序的路径点嵌入。
通过插值法将第四特征解码器的输出与有序的路径点嵌入结合,得到自动驾驶车辆的轨迹与交通参与者的分类结果,即种类识别、轨迹预测和状态估计三部分,种类识别是识别交通参与者,通过不同颜色进行区分,比如蓝色:背景;紫色:车辆;黑色:行人;绿色:自行车;红色:其他,预测交通参与者的类别是使输出结果的内容更加丰富,可以用到无人驾驶系统中的避障系统中,也是为整个无人驾驶系统提供辅助作用;轨迹预测是得到目标自动驾驶车辆未来一段时间的预测轨迹,状态估计是用来判断目标自动驾驶车辆是处于静止状态还是运动状态,通过状态判断结果抑制轨迹预测的抖动,因为即使是背景物体也可能有微小运动,状态估计可以设置阈值来使背景物体为静态,从而提高预测轨迹的精度。
具体地,采用Transformer路径点特征编码器得到路径点嵌入的过程为:
S101.将第四时空特征图输入Transformer路径点特征编码器中的第一卷积层,得到第一特征图;
S102.将第四时空特征输入Transformer路径点特征编码器中的第二卷积层,得到道路分割掩码;
S103.将道路分割掩码输入Transformer路径点特征编码器中的第三卷积层,得到第二特征图;
S104.采用对应元素相加法,将第一特征图与第二特征图相加得到路径点嵌入;
其中,特征图的尺寸表示为Houtput×Woutput×Coutput,每一个变量的计算公式为:
Coutput=K
Hinput为输入特征图的高,Winput为输入特征图的宽,K为卷积层输出通道数,F为卷积层卷积核的边长,S为卷积过程中的步幅,P为补零的行数和列数;
采用Transformer路径点位置特征编码器得到路径点位置嵌入的过程为:
S201.将第四时空特征输入Transformer路径点位置特征编码器中的第一卷积层,将其输出送入softmax层得到路径点热图;
S202.将路径点热图输入将第四时空特征输入Transformer路径点位置特征编码器中的第二卷积层,得到路径点位置嵌入,路径点位置嵌入的计算过程为:
其中,pos表示位置索引,i表示维度索引,dmodel表示输入维度。
具体地,Transformer编码器和Transformer解码器的结构如图5所示,左半部分为Transformer编码器,路径点嵌入和路径点位置嵌入作为输入,将其送入多头注意力机制,将多头注意力机制的输出与输入相加并归一化,将归一化结果送入前向网络,将前向网络的输出与归一化结果相加并归一化;右半部分为Transformer解码器,将路径点位置嵌入输入掩码多头注意力机制,将掩码多头注意力机制的输出与路径点位置嵌入相加并归一化,将归一化结果与Transformer编码器的输出一起送入多头注意力机制,将多头注意力机制的结果送入前向网络,将前向网络的输出与多头注意力机制的结果相加并归一化,得到有序的路径点嵌入。
本实施例应用上述技术方案,其主要过程包括:
1、训练集数据扩充
将传感器采集到的激光雷达数据作为自动驾驶系统的输入并输出控制信号,该过程虽然不需要详细的一一映射过程,且有利于自动驾驶系统做出快速反应,但是缺乏解释能力与可验证的鲁棒性。本发明通过CNN将添加的自动驾驶车辆行驶道路的局部路径数据与处理后的激光雷达数据进行图像语义分割,可以克服这一缺点,而且使得训练集包含的内容更加丰富,有效增强了训练效果,使得训练后的模型更加可靠。
2、Transformer机制优化时空金字塔网络
由于Transformer机制可以有效地对位置关系进行建模,弥补了时空金字塔缺少的位置特征,所以本发明在时空金字塔网络的基础上添加了Transformer机制,在提高模型精度的同时减小了模型训练所需要的时间。其中,时空金字塔网络构架图如图4所示。Transformer机制可以对位置关系进行建模的原因是采用了位置编码,将输入嵌入与位置编码向量连接起来。
综上所述,本发明额外添加局部路径图,通过CNN将BEV地图与局部路径图进行图像语义分割增加了输入的可解释性与鲁棒性,且使得训练集包含的内容更加丰富,有效增强了训练效果,使得训练后的模型更加可靠;
本发明基于时空金字塔Transformer的神经网络模型,通过Transformer机制提取轨迹数据中显著的位置特征,对时空金字塔网络进行了更细致的优化。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (3)
1.一种基于时空金字塔的自动驾驶轨迹预测方法,其特征在于,包括以下步骤:
S1.对自动驾驶车辆所载传感器收集的雷达点云数据进行预处理,得到BEV图;
S2.提取自动驾驶车辆行驶道路的卫星图像,获取局部路径图;
步骤S2获取局部路径图的过程为:
S11.获取自动驾驶车辆行驶道路对应的谷歌卫星图像,连接谷歌卫星图像中的道路交叉口点与急转弯点构造稀疏全局图;
S12.在稀疏全局图中的每条边上应用线性插值创建稠密的局部路径图;
S13.将稠密的局部路径图投影到具有固定宽度的虚拟路径的激光雷达BEV图上,将接收投影后的激光雷达BEV图转换为二进制图像得到局部路径图;
S3.构建基于时空金字塔transformer的神经网络模型;
S4.将BEV图与局部路径图进行整合,将整合结果输入到神经网络模型进行处理,得到自动驾驶车辆的轨迹与交通参与者的分类结果;
通过CNN网络对BEV图与局部路径图进行整合,得到语义分割图像的过程为:
S21.将鸟瞰图与局部路径图输入到CNN网络的卷积层学习深层抽象特征,其中局部路径图被用作地面真实值;
S22.将深层抽象特征进行归一化处理,得到归一化特征;
S23.通过ReLU激活函数对归一化特征进行非线性变换;
S24.通过最大池化对非线性变换后的归一化特征进行降采样,提取区域显著性特征;
S25.判断是否得到深层次语义特征,若是,则执行步骤S26,若不是,则将步骤S21中的输入替换为步骤24提取的区域显著性特征,返回步骤S21;
S26.利用双线性插值对深层次语义特征进行上采样;上采样后接入一个分类层识别像素点,识别完成后输出语义分割图像;
将鸟瞰图与局部路径图的深层抽象特征进行归一化处理表示为:
其中,c表示输入特征,μ是c的均值,σ2是c的方差,γ是可学习的缩放因子,β是可学习的平移因子;
采用神经网络模型处理BEV图与局部路径图整合得到的语义分割图像,得到自动驾驶车辆的轨迹与交通参与者的分类结果的过程包括:
S31.采用第一组合块处理语义分割图像得到第一时空特征图,采用第二组合块处理第一时空特征图得到第二时空特征图,采用第三组合块处理第二时空特征图得到第三时空特征图,采用第四组合块处理第三时空特征图得到第四时空特征图;
S32.将第四时空特征图分别输入到Transformer路径点特征编码器和Transformer路径点位置编码器,输出对应的路径点嵌入和路径点位置嵌入;
S33.将路径点嵌入和路径点位置嵌入输入Transformer编码器;
S34.将Transformer编码器的输出和路径点位置嵌入输入Transformer解码器,输出有序的路径点嵌入;
S35.将反卷积后的第四时空特征图与第三时空特征图融合得到第一融合特征图,将第一融合特征图送入第一特征解码器,将第一特征解码器的输出反卷积后与第二时空特征图融合得到第二融合特征图,将第二融合特征图送入第二特征解码器,将第二特征解码器的输出反卷积后与第一时空特征图融合得到第三融合特征图,将第三融合特征图送入第三特征解码器,将第三特征解码器的输出反卷积后与语义分割图像融合得到第四融合特征图,将第四融合特征图送入第四特征解码器;
S36.通过插值法将第四特征解码器的输出与有序的路径点嵌入结合,得到自动驾驶车辆的轨迹与交通参与者的分类结果;
步骤S32中采用Transformer路径点特征编码器得到路径点嵌入的过程为:
S101.将第四时空特征图输入Transformer路径点特征编码器中的第一卷积层,得到第一特征图;
S102.将第四时空特征图输入Transformer路径点特征编码器中的第二卷积层,得到道路分割掩码;
S103.将道路分割掩码输入Transformer路径点特征编码器中的第三卷积层,得到第二特征图;
S104.采用对应元素相加法,将第一特征图与第二特征图相加得到路径点嵌入;
步骤S32中采用Transformer路径点位置特征编码器得到路径点位置嵌入的过程为:
S201.将第四时空特征图输入Transformer路径点位置特征编码器中的第一卷积层,将其输出送入softmax层得到路径点热图;
S202.将路径点热图输入Transformer路径点位置特征编码器中的第二卷积层,得到路径点位置嵌入。
2.根据权利要求1所述的一种基于时空金字塔的自动驾驶轨迹预测方法,其特征在于,将雷达点云数据量化为规则体素并形成三维体素格,采用二进制状态表示每个体素格的占用情况,将三维体素格的高度维数对应于二维伪图像的图像通道,从而将三维的雷达点云数据转换为二维伪图像,即所需的BEV图。
3.根据权利要求1所述的一种基于时空金字塔的自动驾驶轨迹预测方法,其特征在于,步骤S31中的每一个组合块结构相同,包括一个时空卷积层和一个时间池化层,时空卷积层以分层方式沿空间维度和时间维度来提取特征,在空间维度,以2的比例步长来计算不同尺度上的特征图,得到不同尺度的空间特征;在时间维度,每次时间卷积后以1/2的比例逐步降低时间分辨率,得到不同尺度的时间特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210695491.0A CN115049130B (zh) | 2022-06-20 | 2022-06-20 | 一种基于时空金字塔的自动驾驶轨迹预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210695491.0A CN115049130B (zh) | 2022-06-20 | 2022-06-20 | 一种基于时空金字塔的自动驾驶轨迹预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115049130A CN115049130A (zh) | 2022-09-13 |
CN115049130B true CN115049130B (zh) | 2024-06-04 |
Family
ID=83162953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210695491.0A Active CN115049130B (zh) | 2022-06-20 | 2022-06-20 | 一种基于时空金字塔的自动驾驶轨迹预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115049130B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294406B (zh) * | 2022-09-30 | 2022-12-20 | 华东交通大学 | 基于属性的多模态可解释分类的方法与系统 |
CN117494921B (zh) * | 2023-12-29 | 2024-04-12 | 湖南工商大学 | 一种多目标类型的路径模型求解方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110406530A (zh) * | 2019-07-02 | 2019-11-05 | 宁波吉利汽车研究开发有限公司 | 一种自动驾驶方法、装置、设备和车辆 |
CN110688905A (zh) * | 2019-08-30 | 2020-01-14 | 中山大学 | 一种基于关键帧的三维物体检测与跟踪方法 |
CN112270306A (zh) * | 2020-11-17 | 2021-01-26 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于拓扑路网的无人车轨迹预测与导航方法 |
CN113139446A (zh) * | 2021-04-12 | 2021-07-20 | 长安大学 | 一种端到端自动驾驶行为决策方法、系统及终端设备 |
CN113705636A (zh) * | 2021-08-12 | 2021-11-26 | 重庆邮电大学 | 一种自动驾驶车辆轨迹预测方法、装置及电子设备 |
CN114255260A (zh) * | 2020-09-25 | 2022-03-29 | 动态Ad有限责任公司 | 使用道路网络模型的轨迹生成方法和系统 |
-
2022
- 2022-06-20 CN CN202210695491.0A patent/CN115049130B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110406530A (zh) * | 2019-07-02 | 2019-11-05 | 宁波吉利汽车研究开发有限公司 | 一种自动驾驶方法、装置、设备和车辆 |
CN110688905A (zh) * | 2019-08-30 | 2020-01-14 | 中山大学 | 一种基于关键帧的三维物体检测与跟踪方法 |
CN114255260A (zh) * | 2020-09-25 | 2022-03-29 | 动态Ad有限责任公司 | 使用道路网络模型的轨迹生成方法和系统 |
CN112270306A (zh) * | 2020-11-17 | 2021-01-26 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于拓扑路网的无人车轨迹预测与导航方法 |
CN113139446A (zh) * | 2021-04-12 | 2021-07-20 | 长安大学 | 一种端到端自动驾驶行为决策方法、系统及终端设备 |
CN113705636A (zh) * | 2021-08-12 | 2021-11-26 | 重庆邮电大学 | 一种自动驾驶车辆轨迹预测方法、装置及电子设备 |
Non-Patent Citations (4)
Title |
---|
Spatiotemporal Pyramid Aggregation and Graph Attention for Scene Perception and Tajectory Prediction;jianhong zou 等;2022 6th ACAIT;20230601;1-7 * |
ST‐SIGMA: Spatio‐temporal semantics and interaction graph aggregation for multi‐agent perception and trajectory forecasting;Yang Fang 等;CAAI Transactions on Intelligence Technology;20221008;744-757 * |
基于RRT与MPC的智能车辆路径规划与跟踪控制研究;周维;过学迅;裴晓飞;张震;余嘉星;;汽车工程;20200925(09);10-17 * |
面向车道变换的路径规划及模型预测轨迹跟踪;冀杰;唐志荣;吴明阳;方京城;;中国公路学报;20180415(04);176-183 * |
Also Published As
Publication number | Publication date |
---|---|
CN115049130A (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11221413B2 (en) | Three-dimensional object detection | |
US11531346B2 (en) | Goal-directed occupancy prediction for autonomous driving | |
US11551429B2 (en) | Photorealistic image simulation with geometry-aware composition | |
CN115049130B (zh) | 一种基于时空金字塔的自动驾驶轨迹预测方法 | |
US11768292B2 (en) | Three-dimensional object detection | |
US11245927B2 (en) | Compression of images having overlapping fields of view using machine-learned models | |
US11562490B2 (en) | Systems and methods for video object segmentation | |
CA3158597C (en) | Conditional entropy coding for efficient video compression | |
WO2021178234A1 (en) | System and method for autonomous vehicle systems simulation | |
US20230213643A1 (en) | Camera-radar sensor fusion using local attention mechanism | |
US11620838B2 (en) | Systems and methods for answering region specific questions | |
CN110910327B (zh) | 一种基于掩模增强网络模型的无监督深度补全方法 | |
CN114821507A (zh) | 一种用于自动驾驶的多传感器融合车路协同感知方法 | |
CN117237919A (zh) | 跨模态监督学习下多传感器融合检测的卡车智驾感知方法 | |
CN116128930A (zh) | 一种基于图时空金字塔的自动轨迹预测方法 | |
CN116450761A (zh) | 地图生成方法、装置、电子设备及存储介质 | |
CN117341727A (zh) | 一种基于图注意力的端到端自动驾驶行为规划方法 | |
Wang et al. | Deep Reinforcement Learning based Planning for Urban Self-driving with Demonstration and Depth Completion | |
Loukkal | Deep convolutional neural networks for scene understanding and motion planning for self-driving vehicles | |
US20240071060A1 (en) | Sensor data annotation for training machine perception models | |
Zhang et al. | PilotAttnNet: Multi-modal Attention Network for End-to-End Steering Control | |
Abrosimov et al. | TECHNOLOGIES OF ARTIFICIAL INTELLIGENCE IN THE PROBLEM OF ANALYSIS OF ROAD SITUATION BY AUTONOMOUS VEHICLE | |
CN116176627A (zh) | 一种基于异构节点时空域感知的车辆轨迹预测方法 | |
CN116659525A (zh) | 结合导航地图的实时建图方法、装置、电子设备及存储介质 | |
WO2024098161A1 (en) | Implicit occupancy for autonomous systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |