CN117048638B - 自动驾驶车辆的控制方法、装置、电子设备和存储介质 - Google Patents
自动驾驶车辆的控制方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117048638B CN117048638B CN202311301504.2A CN202311301504A CN117048638B CN 117048638 B CN117048638 B CN 117048638B CN 202311301504 A CN202311301504 A CN 202311301504A CN 117048638 B CN117048638 B CN 117048638B
- Authority
- CN
- China
- Prior art keywords
- target
- spatial
- feature
- features
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 230000004927 fusion Effects 0.000 claims description 69
- 239000013598 vector Substances 0.000 claims description 37
- 238000012544 monitoring process Methods 0.000 claims description 28
- 238000005520 cutting process Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008447 perception Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 22
- 239000011159 matrix material Substances 0.000 description 16
- 230000008569 process Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 241000283070 Equus zebra Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请提供了一种自动驾驶车辆的控制方法、装置、电子设备和存储介质,该方法包括:获取采用感知网络对目标车辆的传感器数据进行编码得到的第一编码特征;采用目标解码网络对上述第一编码特征进行隐式空间特征提取,得到上述目标车辆当前所处的空间位置对应的目标空间特征;其中,上述目标空间特征用于隐式表征上述目标车辆感知到的空间信息;将上述目标空间特征输入目标监督网络,得到上述目标监督网络输出的监督结果;根据上述监督结果,对上述目标车辆进行自动驾驶控制,能够在实现自动驾驶的同时,节省人工成本。
Description
技术领域
本申请涉及自动驾驶领域,并且更具体地,涉及自动驾驶领域中一种自动驾驶车辆的控制方法、装置、电子设备和存储介质。
背景技术
随着经济的发展和生活水平的提高,安全且便利地出行成为人们的主要需求之一,自动驾驶技术随之得到快速发展。
在自动驾驶领域,感知任务非常重要,其中最为关键的是目标检测和语义分割,目的是检测出车辆周围的各种目标以及区分周围空间的属性。相关技术中,为了完成感知任务,需要基于人为定义的数据结构来存储空间信息。然而,人为定义的数据结构成本和更新效率都不理想。比如,人为定义的数据结构可以为:导航地图、高精地图、点云、3D Mesh等。这些人为定义的数据结构中存储的空间信息可以为:红绿灯所处的位置、斑马线的位置,车道线的位置等。以人为定义的数据结构为高精地图为例,由于是人为定义的数据格式,所以需要大量人工投入,成本较高,无法满足变化多端的自动驾驶场景需求。因此,如何避免人为定义数据结构带来的弊端,以在实现自动驾驶的同时,节省人工成本成为亟需解决的问题。
发明内容
本申请提供了一种自动驾驶车辆的控制方法、装置、电子设备和存储介质,该方法能够在实现自动驾驶的同时,节省人工成本。
第一方面,提供了一种自动驾驶车辆的控制方法,该方法包括:获取采用感知网络对目标车辆的传感器数据进行编码得到的第一编码特征;采用目标解码网络对上述第一编码特征进行隐式空间特征提取,得到上述目标车辆当前所处的空间位置对应的目标空间特征;其中,上述目标空间特征用于隐式表征上述目标车辆感知到的空间信息;将上述目标空间特征输入目标监督网络,得到上述目标监督网络输出的监督结果;根据上述监督结果,对上述目标车辆进行自动驾驶控制。
在上述技术方案中,通过在感知网络后接入用于提取得到具有目标维度的空间特征的解码网络即目标解码网络,使得可以从感知网络输出的第一编码特征中提取目标空间特征,由于该目标空间特征能够隐式表征目标车辆感知到的空间信息,因此通过在目标解码网络后接入目标监督网络,并将目标解码网络输出的目标空间特征输入目标监督网络,使得目标监督网络可以基于隐式表征空间信息的目标空间特征输出监督结果。然后,基于该监督结果,对目标车辆进行自动驾驶控制。可见,上述技术方案中可以无需人为定义数据结构,通过提取能够隐式表征目标车辆感知到的空间信息的目标空间特征,再将该目标空间特征输入目标监督网络,即可得到期望得到的监督结果以进行自动驾驶控制。如果需要增加某种新的监督需求,比如期望得到新的监督结果,由于目标解码网络输出的目标空间特征能够隐式表征目标车辆感知到的空间信息,因此可以直接基于新的监督需求,在目标解码网络后接入对应的监督网络,使得新的监督网络可以学习目标空间特征,从而输出对应的监督结果,因此本实施例有利于在实现自动驾驶的同时,节省人工成本。
结合第一方面,在某些可能的实现方式中,上述采用目标解码网络对上述第一编码特征进行空间特征提取,得到上述目标车辆当前所处的空间位置对应的目标空间特征,包括:在空间特征数据库中查询是否存在与上述目标车辆当前所处的空间位置对应的历史空间特征;其中,上述空间特征数据库用于存储若干不同空间位置对应的历史空间特征;若不存在上述历史空间特征,则将上述第一编码特征输入目标解码网络,得到上述目标车辆当前所处的空间位置对应的目标空间特征;若存在上述历史空间特征,则将上述历史空间特征输入目标编码网络,得到上述目标编码网络输出的第二编码特征;其中,上述目标编码网络与上述目标解码网络相对应,上述第二编码特征的维度与上述第一编码特征的维度相同;根据上述第一编码特征和上述第二编码特征进行特征融合,得到融合编码特征;将上述融合编码特征输入目标解码网络,得到上述目标车辆当前所处的空间位置对应的目标空间特征。
在上述技术方案中,融合编码特征相当于是融合了目标车辆当前的传感器数据被编码后得到的第一编码特征与空间特征数据库中存储的与目标车辆的空间位置对应的历史空间特征被编码后的第二编码特征。也就是说,融合编码特征融合了目标车辆所处的空间位置当前的特征和该空间位置过去的特征。因此,将融合编码特征输入目标解码网络,以使得目标解码网络可以对融合编码特征进行隐式空间特征提取,得到该空间位置的目标空间特征,使得该目标空间特征既可以体现该空间位置当前的空间信息,也可以体现该空间位置过去的空间信息。因此,这样的目标空间特征输入到下游的目标监督网络时,可以为下游的目标监督网络提供更有效的目标空间特征,便于下游的目标监督网络输出更准确的监督结果,从而更好的对目标车辆进行自动驾驶控制,以提高自动驾驶控制的精度。并且,即使不存在上述历史空间特征,也能够直接将第一编码特征输入目标解码网络,得到目标空间特征,以进行后续的监督结果的输出,以实现自动驾驶。
结合第一方面和上述实现方式,在某些可能的实现方式中,上述若存在上述历史空间特征,上述方法还包括:确定上述目标车辆的自车位姿和感知空间;根据上述自车位姿和上述感知空间,对上述历史空间特征进行裁剪,得到裁剪后的历史空间特征;上述将上述历史空间特征输入目标编码网络,得到上述目标编码网络输出的第二编码特征,包括:将上述裁剪后的历史空间特征输入目标编码网络,得到上述目标编码网络输出的第二编码特征。
在上述技术方案中,根据上述自车位姿和上述感知空间,对上述历史空间特征进行裁剪,有利于得到目标车辆比较关注的且和目标车辆的自车位姿匹配历史空间特征,因此将裁剪后的历史空间特征输入目标编码网络,得到的第二编码特征也属于目标车辆比较关注的。此种情况下,将第二编码特征和第一编码特征进行特征融合,有利于得到更加符合目标车辆的自车位姿的融合编码特征,进而使得基于该融合编码特征得到的目标空间特征也能够更好的符合目标车辆的自车位姿,从而有利于得到符合目标车辆的自车位姿的监督结果,以进行更精确的自动驾驶控制。
结合第一方面和上述实现方式,在某些可能的实现方式中,上述空间特征数据库通过以下方式生成:获取在预设的历史时间段内经过同一通行空间的N个车辆对应的空间特征;其中,N为大于或等于1的自然数;基于同一坐标系,将上述N个车辆对应的空间特征进行堆叠,得到堆叠后的空间特征;基于预设尺寸的滑窗对上述堆叠后的空间特征进行裁剪,得到位于滑窗内的空间特征;对位于滑窗内的空间特征进行特征融合,得到位于滑窗内的融合空间特征;根据上述位于滑窗内的融合空间特征,生成以上述滑窗对应的空间位置为查询索引的空间特征数据库。
结合第一方面和上述实现方式,在某些可能的实现方式中,在上述得到所述目标车辆当前所处的空间位置对应的目标空间特征之后,上述方法还包括:若上述空间特征数据库中存在与上述目标车辆当前所处的空间位置对应的历史空间特征,则对上述目标空间特征和上述历史空间特征进行特征合并,得到合并后的空间特征,并将上述合并后的空间特征更新为上述空间特征数据库中与上述目标车辆当前所处的空间位置对应的历史空间特征;若上述空间特征数据库中不存在与上述目标车辆当前所处的空间位置对应的历史空间特征,则将上述目标空间特征存入上述空间特征数据库中作为与上述目标车辆当前所处的空间位置对应的历史空间特征。
在上述技术方案中,可以实现对空间特征数据库中存储的历史空间特征进行更新,使得空间特征数据库中存储的历史空间特征处于自适应变化中,能够准确的表征不同空间位置对应的历史空间信息,从而有利于为监督任务提供更加准确的空间先验信息,使得目标监督网络可以输出更加准确的监督结果,为自动驾驶控制提供准确的决策参考,以进行更精确的自动驾驶控制。并且,即使一开始空间特征数据库中为未存储某个空间位置对应的历史空间特征,也可以基于实际得到的目标空间特征对空间特征数据库进行不断扩充,使得空间特征数据库中可以逐渐扩大存储的空间位置对应的历史空间特征的数量,为监督任务提供更加广泛的空间先验信息,即提供更多空间位置对应的历史空间特征,使得目标监督网络可以针对更多空间位置均输出准确的监督结果,为自动驾驶控制提供准确的决策参考,以进行更精确的自动驾驶控制。
结合第一方面和上述实现方式,在某些可能的实现方式中,上述目标空间特征对应有预设的目标分辨率;上述采用目标解码网络对上述第一编码特征进行空间特征提取,得到上述目标车辆当前所处的空间位置对应的目标空间特征,包括:若上述第一编码特征对应的分辨率大于上述目标分辨率,则对上述第一编码特征进行下采样,得到上述目标车辆当前所处的空间位置对应的目标空间特征;若上述第一编码特征对应的分辨率小于上述目标分辨率,则对上述第一编码特征进行上采样,得到上述目标车辆当前所处的空间位置对应的目标空间特征。
结合第一方面和上述实现方式,在某些可能的实现方式中,上述目标车辆的感知空间包括基于预设划分方式划分得到的多个子空间,上述目标空间特征包括:每个上述子空间的坐标位置和用于描述每个上述子空间的特征向量。
结合第一方面和上述实现方式,在某些可能的实现方式中,上述目标空间特征包括:用于描述上述目标车辆的整个感知空间的空间特征的特征向量。
第二方面,提供了一种自动驾驶车辆的控制装置,该控制装置包括:获取模块,用于获取采用感知网络对目标车辆的传感器数据进行编码得到的第一编码特征;空间特征提取模块,用于采用目标解码网络对上述第一编码特征进行隐式空间特征提取,得到上述目标车辆当前所处的空间位置对应的目标空间特征;其中,上述目标空间特征用于隐式表征上述目标车辆感知到的空间信息;监督结果输出模块,用于将上述目标空间特征输入目标监督网络,得到上述目标监督网络输出的监督结果;控制模块,用于根据上述监督结果,对上述目标车辆进行自动驾驶控制。
第三方面,提供一种电子设备,包括存储器和处理器。该存储器用于存储可执行程序代码,该处理器用于从存储器中调用并运行该可执行程序代码,使得该电子设备执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
第四方面,提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
附图说明
图1是本申请实施例提供的一种应用场景的示意图;
图2是本申请实施例提供的一种自动驾驶车辆的控制方法的流程示意图;
图3是本申请实施例提供的一种目前已有的BEV感知大模型的工作原理的示意图;
图4是本申请实施例提供的一种将目标车辆的感知空间划分为多个相同的子空间的示意图;
图5是本申请实施例提供的一种将目标车辆的感知空间划分为多个不完全相同的子空间的示意图;
图6是本申请实施例提供的一种上采样所采用的采样网络结构的示意图;
图7是本申请实施例提供的一种自动驾驶车辆的控制方法的原理示意图;
图8是本申请实施例提供的一种在预设的历史时间段内经过同一通行空间的3个车辆对应的空间特征的堆叠、裁剪、融合的过程的示意图;
图9是本申请实施例提供的目标编码网络的下采样所采用的采样网络结构的示意图;
图10是本申请实施例提供的另一种自动驾驶车辆的控制方法的原理示意图;
图11是本申请实施例提供的一种自动驾驶车辆的控制装置的结构示意图;
图12是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行清楚、详尽地描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B:文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。
自动驾驶汽车,即可以根据乘客计划自主完成出行任务的汽车,在整个出行过程中,完全不需要驾驶员的参与和控制。自动驾驶汽车想要完成出行安排,离不开感知、决策、控制这三大要素,其中,感知作为让汽车“认得路”的重要环节,可以让自动驾驶汽车和驾驶员一样,读懂周围的交通要素。感知系统用于给自动驾驶汽车提供决策依据,简而言之,感知就是根据输入信息进行一系列计算及处理,对自动驾驶汽车周围环境进行感知的系统。因此,感知的结果是否准确是自动驾驶汽车安全行驶的重要因素之一。
相关技术中,为了完成感知任务,需要基于人为定义的数据结构来存储空间信息。然而,人为定义的数据结构成本和更新效率都不理想。比如,人为定义的数据结构可以为:导航地图、高精地图、点云、3D Mesh等。这些人为定义的数据结构中存储的空间信息可以为:红绿灯所处的位置、斑马线的位置,车道线的位置等。以人为定义的数据结构为高精地图为例,由于是人为定义的格式,所以需要大量人工投入,生成制作都是以月为单位,无法满足变化多端的自动驾驶场景需求。而且,在表征空间信息维度上比较单一,只能表征出先前定义好的格式内容,需要增加信息的话,要更改整个格式内容,以及制作流程,在使用上也需要做很多规则开发来适配多种自动驾驶场景。因此,如何避免人为定义数据结构带来的弊端,以在实现自动驾驶感知的同时节省人工成本成为亟需解决的问题。
基于此,本申请实施例提供了一种自动驾驶车辆的控制方法、装置、电子设备和计算机可读存储介质。该自动驾驶车辆的控制方法可以应用于电子设备,该电子设备可以为图1中的自动驾驶车辆110或是服务器120。以下先结合图1对本申请实施例的应用场景进行描述。
图1是申请实施例的应用场景的示意图。如图1所示,该实施例的应用场景100可以包括自动驾驶车辆110和服务器120,自动驾驶车辆110和服务器120之间通信连接。其中,自动驾驶车辆110上可以集成有自动驾驶系统,服务器120例如可以为用于向自动驾驶系统的运行提供支持的后台管理服务器。
在示例性的实施例中,自动驾驶车辆110例如还可以集成有与自动驾驶系统通信连接的多种类型的传感器,例如视觉类摄像机和雷达类测距传感器等。其中,视觉类摄像机例如可以包括单目相机、双目立体视觉相机、全景视觉相机及红外相机等。雷达类测距传感器例如可以包括激光雷达、毫米波雷达、超声波雷达等。自动驾驶系统可以对多种类型的传感器所采集的数据进行处理,以进行自动驾驶车辆110周边环境的感知。
在示例性的实施例中,自动驾驶车辆110中的自动驾驶系统还可以将传感器采集的数据发送给服务器120,由服务器120进行自动驾驶车辆110周边环境的感知,得到感知结果,该感知结果也可以称为监督结果。随后,由服务器120将监督结果下发给自动驾驶系统,由自动驾驶系统根据该监督结果确定针对自动驾驶车辆110的控制信号,并对自动驾驶车辆110进行控制。
需要说明的是,本实施例提供的自动驾驶车辆的控制方法可以由自动驾驶车辆或自动驾驶车辆中的自动驾驶系统执行,也可以由服务器120执行。相应地,本实施例提供的自动驾驶感知装置可以设置在自动驾驶车辆或自动驾驶车辆中的自动驾驶系统中,也可以设置在服务器120中。
需要说明的是,图1中的自动驾驶车辆110和服务器120的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的自动驾驶车辆110和服务器120。
图2是本申请实施例提供的自动驾驶车辆的控制方法的流程示意图。该控制方法可以应用于图1中的自动驾驶车辆110也可以应用于服务器120。
步骤201:获取采用感知网络对目标车辆的传感器数据进行编码得到的第一编码特征。
步骤202:采用目标解码网络对第一编码特征进行隐式空间特征提取,得到目标车辆当前所处的空间位置对应的目标空间特征;其中,目标空间特征用于隐式表征目标车辆感知到的空间信息。
步骤203:将目标空间特征输入目标监督网络,得到目标监督网络输出的监督结果。
步骤204:根据监督结果,对目标车辆进行自动驾驶控制。
在图2所示的实施例中,通过在感知网络后接入用于提取得到具有目标维度的空间特征的解码网络即目标解码网络,使得可以从感知网络输出的第一编码特征中提取目标空间特征,由于该目标空间特征能够隐式表征目标车辆感知到的空间信息,因此通过在目标解码网络后接入目标监督网络,并将目标解码网络输出的目标空间特征输入目标监督网络,使得目标监督网络可以基于隐式表征空间信息的目标空间特征输出监督结果。然后,基于该监督结果,对目标车辆进行自动驾驶控制。可见,上述技术方案中可以无需人为定义数据结构,通过提取能够隐式表征目标车辆感知到的空间信息的目标空间特征,再将该目标空间特征输入目标监督网络,即可得到期望得到的监督结果以进行自动驾驶控制。如果需要增加某种新的监督需求,比如期望得到新的监督结果,由于目标解码网络输出的目标空间特征能够隐式表征目标车辆感知到的空间信息,因此可以直接基于新的监督需求,在目标解码网络后接入对应的监督网络,使得新的监督网络可以学习目标空间特征,从而输出对应的监督结果,因此本实施例有利于在实现自动驾驶的同时,节省人工成本。
下面对图2所示实施例中的各个步骤的具体实现方式进行说明。
在步骤201中,目标车辆可以为图1中的自动驾驶车辆110,目标车辆的传感器数据可以为自动驾驶车辆110上部署的多种不同类型的传感器所采集到的数据。不同类型的传感器可以参见上文中的相关描述,为避免重复此处不再赘述。
感知网络用于对目标车辆的传感器数据进行编码得到的第一编码特征,该第一编码特征可以为鸟瞰图(Bird’s Eye View,BEV)特征,下文中涉及的BEV Feature即是指第一编码特征。其中,鸟瞰图指的是物体在垂直于高度方向的平面上的投影,也就是从空中视角观察车辆周围空间。鸟瞰图方法会将所有的信息融合到鸟瞰图中,每个相机和激光雷达所采集到的信息会被提取到对应的鸟瞰图特征中。
示例性的,感知网络可以采用多传感器融合框架,例如,感知网络以采用基于统一的BEV表征的多任务多传感器融合框架(Multi-Task Multi-Sensor Fusion with UnifiedBird’s-Eye View Representation,BEV Fusion)中的BEV编码器。通过采用BEV作为融合的统一表征,可以对几乎所有的感知数据都进行融合,且将原始数据即上述传感器数据转换至BEV坐标系的过程可以同时保持环境要素的几何结构和语义密度。
示例性的,感知网络可以直接采用目前已有的BEV感知大模型。目前的BEV感知大模型的工作原理的示意图可以参阅图3。
在图3中,从T个时间戳中获取M个周围的摄像头图像,M个周围的摄像头图像包括:图3中的t时刻获取的车辆周围的图像、t-1时刻获取的车辆周围的图像、……、t-T+1时刻获取的车辆周围的图像,并将相应的自车运动变换矩阵Ego-motion transformation作为输入。通过多任务推理,输出包括当前帧的3D边框和语义图,以及后续T帧的未来实例分割和移动。
如图3所示,BEV感知大模型主要包括图像视图编码器(Image-view Encoder)、视图转换器(View Transformer)、时空BEV(鸟瞰图)编码器(Spatio-temporal BEV Encoder)和多任务解码器。时空BEV编码器会输出BEV Feature来表征传感器编码信息,然后将该BEVFeature传给下游的多任务解码器使用。其中,多任务解码器比如可以包括图3示出的用于三维对象检测的解码器(Decoder for 3D Object Detection)、用于语义映射构造的解码器(Decoder for Semantic Map Construction)以及用于运动预测的解码器(Decoder forMotion Prediction)。
本实施例中,可以直接将图3所示的时空BEV编码器输出的BEV Feature作为步骤201中获取到的第一编码特征。
在步骤202中,目标解码网络可以理解为用于提取得到目标空间特征的解码网络,目标空间特征用于隐式表征目标车辆感知到的空间信息。由于,目标空间特征能够隐式表征空间信息,且能给深度学习算法即步骤203中的目标监督网络直接使用,所以目标空间特征可以是由高维特征向量组成的矩阵形式。目标空间特征的提取无需人为参与,该目标空间特征可以从深度学习网络中进行学习得到。也就是说,高维特征向量人类是无法直接解读的,但深度学习网络是可以进行无缝处理。
示例性的,目标车辆的感知空间包括基于预设划分方式划分得到的多个子空间,目标空间特征包括:每个子空间的坐标位置和用于描述每个子空间的特征向量。其中,每个子空间的坐标位置可以为三维坐标位置也可以是二维坐标位置,具体选择三维坐标位置还是二维坐标位置可以根据实际需要进行设定。比如,对于需要三维坐标位置的监督场景,上述子空间的坐标位置可以设置为三维坐标位置,对于需要二维坐标位置的监督场景,上述子空间的坐标位置可以设置为二维坐标位置,然而,本实施例对此不做具体限定。
当目标空间特征包括:每个子空间的二维坐标位置和用于描述每个子空间的特征向量时,该目标空间特征可以设计为二维空间矩阵,表示为(x,y,c)。其中,x,y表示子空间的二维坐标位置,c表示该子空间的c维特征向量。
当目标空间特征包括:每个子空间的三维坐标位置和用于描述每个子空间的特征向量时,该目标空间特征可以设计为三维空间矩阵,表示为(x,y,z,c)。其中,x,y,z表示子空间的三维坐标位置,c表示该子空间的c维特征向量。
为便于理解,下面以目标空间特征设计为三维空间矩阵为例进行说明。
建立三维坐标系,该三维坐标系以目标车辆上的某一个点作为原点,以目标车辆的正前方为X轴,以目标车辆的左方为Y轴,以目标车辆的上方即高度方向为Z轴。基于三维该坐标系,可以将目标车辆能感知到的整个3D空间即目标车辆的感知空间按一定分辨率切分成多个3D子空间,每个子空间均可以采用一个c维的向量表征当前子空间的特征,这样就形成了一个维度为(x,y,z,c)的矩阵,x,y,z表示每个子空间在上述坐标系中的三维坐标位置,c即表示每个子空间中的特征。如图4所示,图4中将目标车辆的感知空间划分为多个子空间,每一个小方格代表划分得到的一个子空间。
需要说明的是,图4中只是以对目标车辆的整个感知空间进行等分得到多个尺寸相同的子空间为例。图4相当于是基于预设划分方式即等分的划分方式,划分得到的多个子空间。在具体实现中,也可以对目标车辆的整个感知空间进行非等分,即预设划分方式为非均匀划分方式,以划分得到多个尺寸不完全相同的子空间。比如,距离车身中心越近的子空间分辨率越高。示例性的,可以参阅图5,图5即是对目标车辆的整个感知空间进行非均匀划分后得到的多个尺寸不完全相同的子空间的示意图。通过图5可以看出,距离车身中心越近的子空间即中间区域的子空间的分辨率越高,距离车身中心越远的子空间即四周区域的子空间分辨率越低。
示例性的,由于不可能把整个感知空间划分的无限细,也为了节省计算量,子空间的划分可以不用那么细,一个子空间的尺寸可以在0.3m左右,一个子空间可以采用一个c维向量表示。如果算法任务非常复杂,需要更多特征,可以提升c维向量的维度,即加大c的值。根据实际需要,c维向量的维度可以设置为64维、128维、256维等,然而本实施例对此不做具体限定。
示例性的,假设目标车辆的感知空间为:横向为60m,纵向为120m,高为30m,以0.3m×0.3m×0.3m为划分单位划分整个感知空间,每个子空间用128维向量表征,则目标空间特征的维度为(400,200,100,128)。其中,由于目标车辆的左方为Y轴,因此Y轴方向上划分得到60/0.3=200个子空间,X轴方向上划分得到120/0.3=400个子空间,Z轴方向上划分得到30/0.3=100个子空间。所以,上述的(400,200,100,128)中的400,200,100可以分别理解为:X、Y、Z轴方向上划分得到的子空间的数量,并且划分得到的子空间的总数量为:(60m×120m×30m)÷(0.3m×0.3m×0.3m)=400×200×100=8000000。
示例性的,可以在图3所示的时空BEV编码器之后接入用于提取空间特征的目标解码网络的Decoder(下文也称为Spatial Decoder)以进行隐式空间特征提取,得到目标车辆当前所处的空间位置对应的目标空间特征,该目标空间特征用于隐式表征目标车辆感知到的空间信息。也就是说,该目标空间特征是指将目标车辆在行驶过程中实时感知到的空间信息,以一种隐性方式表征出来,是一种深度学习中间提取的高维特征向量,区别于人为自己定义的数据结构来存储空间信息,例如:导航地图、高精地图、点云、3D Mesh等,人类无法直观理解和使用,但深度学习算法比如监督网络可以从中得到显性的空间元素,如:车道线、红绿灯、护栏、静态障碍物等等。
示例性的,目标空间特征也可以直接为c维向量,该c维向量用于描述目标车辆的整个感知空间的空间特征,也即空间特征可以不以笛卡尔坐标系即上述的(x,y,c)或是(x,y,z,c)表征,而是采用扁平化向量集合即c维向量代替。本实施例中,目标空间特征可以无需采用笛卡尔坐标系进行细分,该扁平化向量集合的维度可以很大,以更精准的描述整个感知空间中的空间特征。
可选的,如果能够收集到经过该空间位置的车辆的驾驶员的语音信息,还可以将该语音信息输入到预设的生成式预训练模型(Generative Pre-Trained Transformer,GPT)中,使得GPT模型可以输出用于描述该车辆的整个感知空间的空间特征的特征向量。
本实施例中,对于目标空间特征提供了多种表现形式,便于实际应用中的灵活使用。
示例性的,目标空间特征对应有预设的目标分辨率,上述步骤202的实现方式可以包括:若第一编码特征对应的分辨率大于目标分辨率,则对第一编码特征进行下采样,得到目标车辆当前所处的空间位置对应的目标空间特征;若第一编码特征对应的分辨率小于目标分辨率,则对第一编码特征进行上采样,得到目标车辆当前所处的空间位置对应的目标空间特征。
其中,目标空间特征对应的目标分辨率可以根据实际需要进行设定。比如,如果期望目标空间特征对应的目标分辨率更精细,可以将目标分辨率的数值设置的较大。如果期望目标空间特征对应的目标分辨率更粗糙,可以将目标分辨率的数值设置的较小。如果第一编码特征对应的分辨率大于目标分辨率即BEV Feature对应的分辨率比目标分辨率更细,则可以对BEV Feature进行下采样,得到目标车辆当前所处的空间位置对应的SpatialFeature。如果第一编码特征对应的分辨率小于目标分辨率即BEV Feature对应的分辨率比目标分辨率更粗,则对BEV Feature进行上采样,得到目标车辆当前所处的空间位置对应的Spatial Feature。
示例性的,假设目标车辆的感知空间为:横向为60m且纵向为120m的二维感知空间。建立二维坐标系,该二维坐标系以目标车辆上的某一个点作为原点,以目标车辆的正前方为X轴,以目标车辆的左方为Y轴。此种情况下,第一编码特征BEV Feature可以表示为(x1,y1,c1),目标空间特征Spatial Feature可以表示为(x2,y2,c2)。x1,y1分别表示在BEVFeature对应的分辨率下X轴上的子空间的数量以及X轴上的子空间的数量,c1表示每个子空间用c1维向量表征。x2,y2分别表示在Spatial Feature对应的目标分辨率下X轴上的子空间的数量以及X轴上的子空间的数量,c2表示每个子空间用c2维向量表征。
示例性的,分辨率可以被定义为1m内的子空间的数量,1m内的子空间的数量越多,分辨率越大。比如,在目标车辆的感知空间为:横向为60m且纵向为120m的二维感知空间的情况下,假设第一编码特征BEV Feature表示为(100,50,512),表明是以1.2m×1.2m为划分单位划分整个二维感知空间,得到(60÷1.2)×(120÷1.2)=50×100=5000个子空间,每个子空间用512维向量表征。此种情况下,第一编码特征对应的分辨率为1m÷1.2m≈0.83。假设目标空间特征Spatial Feature表示为(400,200,128),表明是以0.3m×0.3m为划分单位划分整个二维感知空间,得到(60÷0.3)×(120÷0.3)=400×200=80000个子空间。此种情况下,目标空间特征Spatial Feature对应的目标分辨率为1m÷0.3m≈3.33。由此可见,在该示例中,Spatial Feature对应的目标分辨率大于BEV Feature对应的分辨率,即BEVFeature对应的分辨率比目标分辨率更粗,则可以基于对BEV Feature进行上采样得到Spatial Feature。
下面结合图6对上述示例中的上采样方式进行说明。图6为上采样网络结构的示意图。图6中,先基于BEV Feature(100,50,512)进行2倍的上采样,得到(200,100,256),再基于(200,100,256)进行2倍的上采样,得到Spatial Feature(400,200,128)。其中,每次进行2倍的上采样可以理解为标准的上采样流程,有利于避免上采样过程中信息量的丢失。
在具体实现中,上采样的过程中,c维向量的维度会压缩,如上述图6的示例中,上采样后c维向量的维度从512维压缩至128维。而在下采样的过程中,c维向量的维度会扩大。
在步骤203中,将目标空间特征Spatial Feature输入目标监督网络,得到目标监督网络输出的监督结果。其中,目标监督网络可以根据实际需要选择,比如可以设置为感知监督网络、语义监督网络、3D空间监督网络等。其中,感知监督网络输出的监督结果可以为目标车辆的感知空间中障碍物、红绿灯、车道线等信息。语义监督网络输出的监督结果可以为车道拓扑、红绿灯拓扑等。3D空间监督网络输出的监督结果可以为神经辐射场 (NeuralRadiance Field, NERF)特征,NeRF特征可用于进行三维重建。本实施例中,目标监督网络只是以感知监督网络、语义监督网络、3D空间监督网络为例,在具体实现中并不以此为限。
示例性的,本实施例中的自动驾驶车辆的控制方法的原理示意图可以参阅图7,图7中,利用目前已有的BEV感知大模型,也即图3所示的模型架构。图3中的时空BEV编码器即为图7中的BEV Encoder(鸟瞰图编码器),图3中的多任务解码器即为图7中的其他任务解码器。图7中,在BEV Encoder之后接入目标解码网络即用于提取目标空间特征的解码器Decoder。目标车辆的传感器数据输入BEV Encoder之后,BEV Encoder输出第一编码特征BEV Feature,该BEV Feature被进一步输入到目标解码网络,从而目标解码网络能够输出目标空间特征Spatial Feature。再将该Spatial Feature输入到下游的监督网络比如感知监督网络、语义监督网络、3D空间监督网络,得到感知监督网络、语义监督网络、3D空间监督网络分别输出的监督结果。
示例性的,步骤203可以理解为:将隐式的目标空间特征Spatial Feature输入目标监督网络,以使得目标监督网络可以输出的显性的空间元素,如:车道线、红绿灯、护栏、静态障碍物等等。
在步骤204中,可以根据监督结果,对目标车辆进行自动驾驶控制。具体的,可以根据监督结果,生成自动驾驶控制指令,从而根据该自动驾驶控制指令,对目标车辆进行自动驾驶控制。不同的监督结果可以对应不同的自动驾驶控制指令。比如,如果监督结果包括目前车辆前方存在障碍物,则自动驾驶控制指令可以为减速、转弯、刹车等指令,以使得目标车辆在自动驾驶的过程中能够避开目前车辆前方存在的障碍物。
在示例性的实施例中,上述步骤202的实现方式可以包括如下的S11至S15。
S11:在空间特征数据库中查询是否存在与目标车辆当前所处的空间位置对应的历史空间特征;如果是,则执行S12,否则执行S15。
其中,空间特征数据库用于存储若干不同空间位置对应的历史空间特征。可选的,该历史空间特征可以为在历史时间段内提取的车辆所经过的空间位置对应的历史空间特征,这些历史空间特征的提取方式可以参阅上文上述的步骤202中目标空间特征的提取方式,为避免重复此处不再赘述。
比如,目标车辆当前所处的空间位置为空间1,则可以在空间特征数据库中查询是否存在与空间1对应的历史空间特征。空间1对应的历史空间特征可以基于在当前时间点之前同样经过空间1的车辆的传感器数据得到。如果在空间特征数据库中查询到存在与空间1对应的历史空间特征,则可以执行S12,否则可以执行S15。
在示例性的实施例中,上述空间特征数据库的生成方式可以参阅如下的S21至S25:
S21:获取在预设的历史时间段内经过同一通行空间的N个车辆对应的空间特征;其中,N为大于或等于1的自然数。
其中,N个车辆对应的空间特征可以基于N个车辆的传感器数据采用上述步骤201至步骤202中的方式得到对应的空间特征。比如,对于N个车辆中的车辆1,可以获取采用感知网络对车辆1的传感器数据进行编码得到的第一编码特征,然后采用目标解码网络对该第一编码特征进行隐式空间特征提取,得到车辆1所处的通行空间对应的空间特征。上述预设的历史时间段可以根据实际需要进行设置,比如可以设置为过去一个周、过去一个月等,本实施例对此不做具体限定。
S22:基于同一坐标系,将N个车辆对应的空间特征进行堆叠,得到堆叠后的空间特征。
具体的,可以将N个车辆对应的空间特征进行堆叠,以使得N个车辆对应的空间特征位于统一坐标系。可以理解的是,如果N个车辆对应的空间特征为二维空间特征,则可以将N个车辆对应的空间特征堆叠至同一二维坐标系中,得到堆叠后的二维空间特征。如果N个车辆对应的空间特征为三维空间特征,则可以将N个车辆对应的空间特征堆叠至同一三维坐标系中,得到堆叠后的三维空间特征。
S23:基于预设尺寸的滑窗对堆叠后的空间特征进行裁剪,得到位于滑窗内的空间特征。
其中,预设尺寸可以根据实际需要进行设置,比如对于感知精度的要求越高,预设尺寸可以设置的越小,对于感知精度的要求越小,预设尺寸可以设置的越大。具体的,可以采用预设尺寸的滑窗在堆叠后的空间特征上滑动,以裁剪得到位于滑窗内的空间特征。位于滑窗之外的空间特征可以理解为不需要关注的空间特征,或者是与滑窗的中心位置偏差较大的位置的空间特征。
S24:对位于滑窗内的空间特征进行特征融合,得到位于滑窗内的融合空间特征。
通过上述阐述可知,空间特征可以是按车身坐标系划分的,因此基于车身的融合定位,可以将经过同一通行空间的车辆对应的空间特征进行堆叠,然后可以按预设方向设定滑窗,基于滑窗对堆叠的空间特征进行裁剪,然后将裁剪后得到的位于同一滑窗内的空间特征进行特征融合。由于空间特征可以是矩阵的形式,所以特征融合可以采用矩阵乘法。
具体的,N个车辆对应的空间特征可以均采用矩阵形式,从而将N个车辆对应的空间特征进行堆叠可以通过矩阵相乘的方式实现。可以理解的是,空间特征包括车辆的感知空间被划分得到的每个子空间的坐标位置和用于描述每个子空间的特征向量。因此,可以将位于滑窗内的N个车辆对应的子空间的特征向量相乘,以得到滑窗内的融合空间特征。如果一个滑窗内包括多个子空间,则位于滑窗内的融合空间特征包括位于滑窗内的多个子空间对应的融合空间特征,且每个子空间对应的融合空间特征为N个车辆对应的子空间的特征向量的乘积。
比如,N个车辆包括车辆1、2、3,假设滑窗内车辆1在子空间A的特征向量为a1,车辆2在子空间A的特征向量为b1,车辆3在子空间A的特征向量为c1,则滑窗内子空间A的融合空间特征为a1×b1×c1。假设滑窗内车辆1在子空间B的特征向量为a2,车辆2在子空间B的特征向量为b2,车辆3在子空间B的特征向量为c2,则滑窗内子空间B的融合空间特征为a2×b2×c2。
S25:根据位于滑窗内的融合空间特征,生成以滑窗对应的空间位置为查询索引的空间特征数据库。
具体的,可以将位于每个滑窗内的融合空间特征作为该滑窗表征的空间位置对应的历史空间特征,生成以滑窗对应的空间位置为查询索引的空间特征数据库,使得该空间特征数据库种存储有不同空间位置对应的历史空间特征。滑窗表征的空间位置也即滑窗对应的空间位置,可以用滑窗的中心位置代表该滑窗对应的空间位置,也可以用滑窗所占的区域范围代表该滑窗对应的空间位置,本实施例对此不做具体限定。
为便于理解上述S21至S25,可以参阅图8,图8为在预设的历史时间段内经过同一通行空间的3个车辆对应的空间特征的堆叠、裁剪、融合的过程。通过图8可以看出,车辆1、2、3均经过同一通行空间,将车辆1、2、3对应的空间特征堆叠在同一坐标系,得到堆叠后的空间特征。然后,可以根据车辆1、2、3的行驶轨迹确定滑窗的滑动路径,以使得滑窗基于该滑动路径滑动时,裁剪掉滑窗外不必要的信息,得到滑窗内完整的空间特征,并且尽可能保留较多的空间特征。图8中,滑窗内的空间特征可以包括滑窗1内的空间特征和滑窗2内的空间特征。从而,可以对滑窗1内的空间特征进行特征融合,得到位于滑窗1内的融合空间特征,对滑窗2内的空间特征进行特征融合,得到位于滑窗2内的融合空间特征。然后,根据位于滑窗内的融合空间特征,生成以滑窗对应的空间位置为查询索引的空间特征数据库,也就是说,可以将滑窗对应的空间位置作为查询索引,在空间特征数据库中查询该空间位置对应的融合空间特征作为该空间位置对应的历史空间特征。
S12:将历史空间特征输入目标编码网络,得到目标编码网络输出的第二编码特征。
其中,目标编码网络与目标解码网络相对应,第二编码特征的维度与第一编码特征的维度相同。也就是说,目标编码网络与目标解码网络互为编解码网络,其实质执行的是相反的操作。由于,历史空间特征与上述的目标空间特征属于同维度的空间特征,因此,将历史空间特征输入目标编码网络,可以得到与第一编码特征BEV Feature同维度的第二编码特征。比如,目标解码网络Decoder用于对输入的BEV Feature进行隐式空间特征提取,得到Spatial Feature,目标编码网络Encoder则可以用于对Spatial Feature进行编码,得到Spatial BEV Feature。Spatial BEV Feature和BEV Feature维度相同,也即尺寸相同。
示例性的,假设目标解码网络Decoder对输入的BEV Feature进行隐式空间特征提取,得到Spatial Feature的过程的示意图为图6所示的上采样过程,则目标编码网络Encoder对Spatial Feature进行编码,得到Spatial BEV Feature的过程的示意图可以为如图9所示的下采样过程。图9可以理解为与图6的上采样网络结构对应的下采样网络结构的示意图。图9中,先基于Spatial Feature(400,200,128)进行第一次下采样,得到(200,100,256),再基于(200,100,256)进行第二次下采样,得到Spatial BEV Feature(100,50,512)。
S13:根据第一编码特征和第二编码特征进行特征融合,得到融合编码特征。
可以理解的是,由于第一编码特征和第二编码特征属于相同维度的特征,其均可以采用矩阵形式表征,因此,将第一编码特征和第二编码特征进行特征融合可以通过将矩阵形式的第一编码特征和第二编码特征相乘得到融合编码特征。
S14:将融合编码特征输入目标解码网络,得到目标车辆当前所处的空间位置对应的目标空间特征。
可以理解的是,融合编码特征相当于是融合了目标车辆上的传感器当前检测到的传感器数据被编码后得到的第一编码特征与过去历史时间段内与目标车辆处于相同空间位置的其他车辆上的传感器检测到的传感器数据被编码后得到的第二编码特征。也就是说,融合编码特征融合了目标车辆所处的空间位置当前的特征和该空间位置过去的特征。因此,将融合编码特征输入目标解码网络,以使得目标解码网络可以对融合编码特征进行隐式空间特征提取,得到该空间位置的目标空间特征,使得该目标空间特征既可以体现该空间位置当前的空间信息,也可以体现该空间位置过去的空间信息。因此,这样的目标空间特征输入到下游的目标监督网络时,可以为下游的目标监督网络提供更有效的目标空间特征,便于下游的目标监督网络输出更准确的监督结果,从而更好的对目标车辆进行自动驾驶控制。
S15:将第一编码特征输入目标解码网络,得到目标车辆当前所处的空间位置对应的目标空间特征。
本实施例中,相当于在空间特征数据库中未查询到与目标车辆当前所处的空间位置对应的历史空间特征时,说明空间特征数据库中之前未存储有该目标车辆当前所处的空间位置对应的历史空间特征。此时,可以直接将第一编码特征输入目标解码网络,得到目标车辆当前所处的空间位置对应的目标空间特征。该第一编码特征与上述S14中的融合编码特征的区别在于,第一编码特征体现的是目标车辆的空间位置当前的特征,融合编码特征可以同时体现目标车辆所处的空间位置当前的特征和该空间位置过去的特征。
在示例性的实施例中,若在空间特征数据库中查询到存在与目标车辆当前所处的空间位置对应的历史空间特征,还可以包括:确定目标车辆的自车位姿和感知空间;根据自车位姿和感知空间,对历史空间特征进行裁剪,得到裁剪后的历史空间特征;对应的,上述S12的实现方式可以包括:将裁剪后的历史空间特征输入目标编码网络,得到目标编码网络输出的第二编码特征。
具体的,上述目标车辆的自车位姿即目标车辆的位置和姿态,该姿态也可以理解为目标车辆的朝向。目标车辆的感知空间可以基于目标车辆上设置的各传感器的感知范围确定,该感知空间的示意图可以参阅图4或是图5。本实施例中,根据自车位姿和感知空间,可以确定目标车辆关注的目标空间范围。比如,目标车辆的朝向为朝南,则目标车辆关注的目标空间范围可以主要包括感知空间内朝南的空间范围。然后,可以根据确定的目标空间范围,对历史空间特征进行裁剪,得到裁剪后的历史空间特征,该裁剪后的历史空间特征可以为位于目标空间范围之内的历史空间特征,也即裁剪后的历史空间特征是目标车辆比较关注的历史空间特征。
由于,裁剪后的历史空间特征是目标车辆比较关注的历史空间特征,因此将裁剪后的历史空间特征输入目标编码网络,得到的第二编码特征也属于目标车辆比较关注的,可以和目标车辆的自车位姿匹配。此种情况下,将第二编码特征和第一编码特征进行特征融合,有利于得到更加符合目标车辆的自车位姿的融合编码特征,进而使得基于该融合编码特征得到的目标空间特征也能够更好的符合目标车辆的自车位姿,从而有利于得到符合目标车辆的自车位姿的监督结果,以进行更精确的自动驾驶控制。
在示例性的实施例中,在得到目标车辆当前所处的空间位置对应的目标空间特征之后,还包括:若空间特征数据库中存在与目标车辆当前所处的空间位置对应的历史空间特征,则对目标空间特征和历史空间特征进行特征合并,得到合并后的空间特征,并将合并后的空间特征更新为空间特征数据库中与目标车辆当前所处的空间位置对应的历史空间特征;若空间特征数据库中不存在与目标车辆当前所处的空间位置对应的历史空间特征,则将目标空间特征存入空间特征数据库中作为与上述目标车辆当前所处的空间位置对应的历史空间特征。
具体的,上述对目标空间特征和历史空间特征进行特征合并也可以理解为特征融合,由于目标空间特征和历史空间特征相当于均是同一空间位置在不同时刻对应的空间特征,且目标空间特征和历史空间特征均可以采用矩阵形式表征,因此可以通过将矩阵形式的目标空间特征和历史空间特征相乘,以得到合并后的空间特征。然后,将合并后的空间特征作为空间特征数据库中与目标车辆当前所处的空间位置对应的历史空间特征,也即是对空间特征数据库中存储的历史空间特征进行更新,使得空间特征数据库中存储的历史空间特征处于自适应变化中,能够准确的表征不同空间位置对应的历史空间信息,从而有利于为监督任务提供更加准确的空间先验信息,使得目标监督网络可以输出更加准确的监督结果,为自动驾驶控制提供准确的决策参考,以进行更精确的自动驾驶控制。
若空间特征数据库中不存在与目标车辆当前所处的空间位置对应的历史空间特征,则可以直接将目标空间特征作为空间特征数据库中与目标车辆当前所处的空间位置对应的历史空间特征。也就是说,即使一开始空间特征数据库中为未存储某个空间位置对应的历史空间特征,也可以基于实际得到的目标空间特征对空间特征数据库进行不断扩充,使得空间特征数据库中可以逐渐扩大存储的空间位置对应的历史空间特征的数量,为监督任务提供更加广泛的空间先验信息,即提供更多空间位置对应的历史空间特征,使得目标监督网络可以针对更多空间位置均输出准确的监督结果,为自动驾驶控制提供准确的决策参考,以进行更精确的自动驾驶控制。
示例性的,本实施例中的自动驾驶车辆的控制方法的另一种原理示意图可以参阅图10,图10中的BEV感知大模型也即图7所示的BEV感知大模型。图10中,在BEV Encoder之后接入目标解码网络即用于提取目标空间特征的解码器Decoder。目标车辆的传感器数据输入BEV Encoder之后,BEV Encoder输出第一编码特征即BEV Feature,该第一编码特征BEVFeature与第二编码特征进行矩阵相乘后得到融合编码特征。第二编码特征是将从空间特征数据库中查询出的与目标车辆当前所处的空间位置对应的历史空间特征SpatialFeature1输入目标编码网络后得到的。将融合编码特征输入目标解码网络后,得到目标解码网络输出的目标空间特征Spatial Feature。然后,对Spatial Feature和SpatialFeature1进行空间特征合并,得到合并后的空间特征,并将合并后的空间特征作为空间特征数据库中与目标车辆当前所处的空间位置对应的历史空间特征,即利用合并后的空间特征对空间特征数据库中存储的历史空间特征进行更新。
需要说明的是,图10中相当于在空间特征数据库中存储有与目标车辆当前所处的空间位置对应的历史空间特征的情况下的原理示意图。在空间特征数据库中未存储有与目标车辆当前所处的空间位置对应的历史空间特征的情况下,可以无需执行将第一编码特征与第二编码特征进行矩阵相乘的步骤,可以将第一编码特征直接作为融合编码特征输入到目标编码网络Encoder,得到目标空间特征Spatial Feature。然后,将目标空间特征Spatial Feature存储到空间特征数据库中作为目标车辆当前所处的空间位置对应的历史空间特征。
最后,目标解码网络Decoder输出的目标空间特征Spatial Feature被进一步输入到下游的监督网络比如感知监督网络、语义监督网络、3D空间监督网络,得到感知监督网络、语义监督网络、3D空间监督网络分别输出的监督结果。参考该监督结果可以进一步对目标车辆进行自动驾驶控制。
可以理解的是,如果需要更换图10中的BEV感知大模型即感知网络,可以只需要替换与之对应的目标解码网络Decoder和目标编码网络Encoder即可,不同的感知网络可复用空间特征提取和使用的流程。比如,可以根据希望使用的BEV感知大模型输出的第一编码特征的维度以及期望提取到的目标空间特征Spatial Feature的维度设计目标解码网络Decoder和目标编码网络Encoder,使得通过目标解码网络Decoder和目标编码网络Encoder可以实现第一编码特征和目标空间特征之间的转换,以提高本实施例中的自动驾驶车辆的控制方法的适用范围。
本实施例中,设计了完整的空间特征定义、提取和使用整条链路。其中,空间特征定义即空间特征隐式表征,去除了人为制定的规则。空间特征的提取即采用目标解码网络对第一编码特征BEV Feature进行隐式空间特征提取,得到目标空间特征SpatialFeature。空间特征的使用即把目标空间特征Spatial Feature输入目标监督网络,得到目标监督网络输出的监督结果,根据监督结果,对目标车辆进行自动驾驶控制。进一步的,通过采用目标空间特征对目标车辆感知到的空间信息进行有效表征、使得车辆在第一次经过一空间位置后,能提取到有效的空间特征(可以存在空间特征数据库中),在下一次有车辆经过同样的空间位置时,可以结合上之前提取的空间特征,提供较强的空间先验信息,以便下游的监督任务可以进行更好的定位和决策。并且,空间特征的提取和使用过程在算法侧自闭环,无人为定义的空间数据结构,避免人为定义数据结构带来的弊端。同时,空间特征的提取和使用上可适配多种BEV感知大模型,只需要重新设计下目标解码网络Decoder和目标编码网络Encoder即可。
图11是本申请实施例提供的一种自动驾驶车辆的控制装置的结构示意图。
示例性的,如图11所示,该控制装置包括:获取模块301,用于获取采用感知网络对目标车辆的传感器数据进行编码得到的第一编码特征。空间特征提取模块302,用于采用目标解码网络对上述第一编码特征进行隐式空间特征提取,得到上述目标车辆当前所处的空间位置对应的目标空间特征;其中,上述目标空间特征用于隐式表征上述目标车辆感知到的空间信息;监督结果输出模块303,用于将上述目标空间特征输入目标监督网络,得到上述目标监督网络输出的监督结果;控制模块304,用于根据上述监督结果,对上述目标车辆进行自动驾驶控制。
一种可能的实现方式中,空间特征提取模块302,具体用于:在空间特征数据库中查询是否存在与上述目标车辆当前所处的空间位置对应的历史空间特征;其中,上述空间特征数据库用于存储若干不同空间位置对应的历史空间特征;若不存在上述历史空间特征,则将上述第一编码特征输入目标解码网络,得到上述目标车辆当前所处的空间位置对应的目标空间特征;若存在上述历史空间特征,则将上述历史空间特征输入目标编码网络,得到上述目标编码网络输出的第二编码特征;其中,上述目标编码网络与上述目标解码网络相对应,上述第二编码特征的维度与上述第一编码特征的维度相同;根据上述第一编码特征和上述第二编码特征进行特征融合,得到融合编码特征;将上述融合编码特征输入目标解码网络,得到上述目标车辆当前所处的空间位置对应的目标空间特征。
一种可能的实现方式中,上述控制装置还包括:历史空间特征裁剪模块,用于若存在历史空间特征,则确定上述目标车辆的自车位姿和感知空间;根据上述自车位姿和上述感知空间,对上述历史空间特征进行裁剪,得到裁剪后的历史空间特征;空间特征提取模块将上述历史空间特征输入目标编码网络,得到上述目标编码网络输出的第二编码特征,包括:将上述裁剪后的历史空间特征输入目标编码网络,得到上述目标编码网络输出的第二编码特征。
一种可能的实现方式中,上述控制装置还包括:空间特征数据库生成模块,用于获取在预设的历史时间段内经过同一通行空间的N个车辆对应的空间特征;其中,N为大于或等于1的自然数;基于同一坐标系,将上述N个车辆对应的空间特征进行堆叠,得到堆叠后的空间特征;基于预设尺寸的滑窗对上述堆叠后的空间特征进行裁剪,得到位于滑窗内的空间特征;对位于滑窗内的空间特征进行特征融合,得到位于滑窗内的融合空间特征;根据上述位于滑窗内的融合空间特征,生成以上述滑窗对应的空间位置为查询索引的空间特征数据库。
一种可能的实现方式中,上述控制装置还包括:空间特征数据库更新模块,用于在得到所述目标车辆当前所处的空间位置对应的目标空间特征之后,若上述空间特征数据库中存在与上述目标车辆当前所处的空间位置对应的历史空间特征,则对上述目标空间特征和上述历史空间特征进行特征合并,得到合并后的空间特征,并将上述合并后的空间特征更新为上述空间特征数据库中与上述目标车辆当前所处的空间位置对应的历史空间特征;若上述空间特征数据库中不存在与上述目标车辆当前所处的空间位置对应的历史空间特征,则将上述目标空间特征存入上述空间特征数据库中作为与上述目标车辆当前所处的空间位置对应的历史空间特征。
一种可能的实现方式中,上述控制目标空间特征对应有预设的目标分辨率;空间特征提取模块302具体用于:若上述第一编码特征对应的分辨率大于上述目标分辨率,则对上述第一编码特征进行下采样,得到上述目标车辆当前所处的空间位置对应的目标空间特征;若上述第一编码特征对应的分辨率小于上述目标分辨率,则对上述第一编码特征进行上采样,得到上述目标车辆当前所处的空间位置对应的目标空间特征。
一种可能的实现方式中,上述目标车辆的感知空间包括基于预设划分方式划分得到的多个子空间,上述目标空间特征包括:每个上述子空间的坐标位置和用于描述每个上述子空间的特征向量。
一种可能的实现方式中,上述目标空间特征包括:用于描述上述目标车辆的整个感知空间的空间特征的特征向量。
图12是本申请实施例提供的一种电子设备的结构示意图。
示例性的,如图12所示,该电子设备包括:存储器401和处理器302,其中,存储器401中存储有可执行程序代码,处理器402用于调用并执行该可执行程序代码执行一种自动驾驶车辆的控制方法。
本实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中,上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,该电子设备可以包括:获取模块、空间特征提取模块、监督结果输出模块、控制模块等。需要说明的是,上述方法实施例涉及的各个步骤的所有相关内容的可以援引到对应功能模块的功能描述,在此不再赘述。
本实施例提供的电子设备,用于执行上述一种自动驾驶车辆的控制方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,电子设备可以包括处理模块、存储模块。其中,处理模块可以用于对电子设备的动作进行控制管理。存储模块可以用于支持电子设备执行相互程序代码和数据等。
其中,处理模块可以是处理器或控制器,其可以实现或执行结合本申请公开内容所藐视的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,数字信号处理(digital signal processing,DSP)和微处理器的组合等等,存储模块可以是存储器。
本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述相关方法步骤实现上述实施例中的一种自动驾驶车辆的控制方法。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的一种自动驾驶车辆的控制方法。
另外,本申请的实施例提供的电子设备具体可以是芯片,组件或模块,该电子设备可包括相连的处理器和存储器;其中,存储器用于存储指令,当电子设备运行时,处理器可调用并执行指令,以使芯片执行上述实施例中的一种自动驾驶车辆的控制方法。
其中,本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种自动驾驶车辆的控制方法,其特征在于,所述方法包括:
获取采用感知网络对目标车辆的传感器数据进行编码得到的第一编码特征;
采用目标解码网络对所述第一编码特征进行隐式空间特征提取,得到所述目标车辆当前所处的空间位置对应的目标空间特征;其中,所述目标空间特征用于隐式表征所述目标车辆感知到的空间信息;
将所述目标空间特征输入目标监督网络,得到所述目标监督网络输出的监督结果;
根据所述监督结果,对所述目标车辆进行自动驾驶控制;
其中,所述采用目标解码网络对所述第一编码特征进行空间特征提取,得到所述目标车辆当前所处的空间位置对应的目标空间特征,包括:
在空间特征数据库中查询是否存在与所述目标车辆当前所处的空间位置对应的历史空间特征;其中,所述空间特征数据库用于存储若干不同空间位置对应的历史空间特征;
若不存在所述历史空间特征,则将所述第一编码特征输入所述目标解码网络,得到所述目标车辆当前所处的空间位置对应的目标空间特征;
若存在所述历史空间特征,则将所述历史空间特征输入目标编码网络,得到所述目标编码网络输出的第二编码特征;其中,所述目标编码网络与所述目标解码网络相对应,所述第二编码特征的维度与所述第一编码特征的维度相同;
根据所述第一编码特征和所述第二编码特征进行特征融合,得到融合编码特征;
将所述融合编码特征输入所述目标解码网络,得到所述目标车辆当前所处的空间位置对应的目标空间特征。
2.根据权利要求1所述的方法,其特征在于,若存在所述历史空间特征,则所述方法还包括:
确定所述目标车辆的自车位姿和感知空间;
根据所述自车位姿和所述感知空间,对所述历史空间特征进行裁剪,得到裁剪后的历史空间特征;
所述将所述历史空间特征输入目标编码网络,得到所述目标编码网络输出的第二编码特征,包括:
将所述裁剪后的历史空间特征输入目标编码网络,得到所述目标编码网络输出的第二编码特征。
3.根据权利要求1所述的方法,其特征在于,所述空间特征数据库通过以下方式生成:
获取在预设的历史时间段内经过同一通行空间的N个车辆对应的空间特征;其中,N为大于或等于1的自然数;
基于同一坐标系,将所述N个车辆对应的空间特征进行堆叠,得到堆叠后的空间特征;
基于预设尺寸的滑窗对所述堆叠后的空间特征进行裁剪,得到位于滑窗内的空间特征;
对位于滑窗内的空间特征进行特征融合,得到位于滑窗内的融合空间特征;
根据所述位于滑窗内的融合空间特征,生成以所述滑窗对应的空间位置为查询索引的空间特征数据库。
4.根据权利要求1所述的方法,其特征在于,在所述得到所述目标车辆当前所处的空间位置对应的目标空间特征之后,所述方法还包括:
若所述空间特征数据库中存在与所述目标车辆当前所处的空间位置对应的历史空间特征,则对所述目标空间特征和所述历史空间特征进行特征合并,得到合并后的空间特征,并将所述合并后的空间特征更新为所述空间特征数据库中与所述目标车辆当前所处的空间位置对应的历史空间特征;
若所述空间特征数据库中不存在与所述目标车辆当前所处的空间位置对应的历史空间特征,则将所述目标空间特征存入所述空间特征数据库中作为与所述目标车辆当前所处的空间位置对应的历史空间特征。
5.根据权利要求1所述的方法,其特征在于,所述目标空间特征对应有预设的目标分辨率;
所述采用目标解码网络对所述第一编码特征进行空间特征提取,得到所述目标车辆当前所处的空间位置对应的目标空间特征,包括:
若所述第一编码特征对应的分辨率大于所述目标分辨率,则对所述第一编码特征进行下采样,得到所述目标车辆当前所处的空间位置对应的目标空间特征;
若所述第一编码特征对应的分辨率小于所述目标分辨率,则对所述第一编码特征进行上采样,得到所述目标车辆当前所处的空间位置对应的目标空间特征。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述目标车辆的感知空间包括基于预设划分方式划分得到的多个子空间,所述目标空间特征包括:每个所述子空间的坐标位置和用于描述每个所述子空间的特征向量。
7.一种自动驾驶车辆的控制装置,其特征在于,所述控制装置包括:
获取模块,用于获取采用感知网络对目标车辆的传感器数据进行编码得到的第一编码特征;
空间特征提取模块,用于采用目标解码网络对所述第一编码特征进行隐式空间特征提取,得到所述目标车辆当前所处的空间位置对应的目标空间特征;其中,所述目标空间特征用于隐式表征所述目标车辆感知到的空间信息;
监督结果输出模块,用于将所述目标空间特征输入目标监督网络,得到所述目标监督网络输出的监督结果;
控制模块,用于根据所述监督结果,对所述目标车辆进行自动驾驶控制;
其中,所述空间特征提取模块,具体用于:在空间特征数据库中查询是否存在与所述目标车辆当前所处的空间位置对应的历史空间特征;其中,所述空间特征数据库用于存储若干不同空间位置对应的历史空间特征;若不存在所述历史空间特征,则将所述第一编码特征输入目标解码网络,得到所述目标车辆当前所处的空间位置对应的目标空间特征;若存在所述历史空间特征,则将所述历史空间特征输入目标编码网络,得到所述目标编码网络输出的第二编码特征;其中,所述目标编码网络与所述目标解码网络相对应,所述第二编码特征的维度与所述第一编码特征的维度相同;根据所述第一编码特征和所述第二编码特征进行特征融合,得到融合编码特征;将所述融合编码特征输入目标解码网络,得到所述目标车辆当前所处的空间位置对应的目标空间特征。
8.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行程序代码;
处理器,用于从所述存储器中调用并运行所述可执行程序代码,使得所述电子设备执行如权利要求1至6中任意一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被执行时,实现如权利要求1至6中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311301504.2A CN117048638B (zh) | 2023-10-10 | 2023-10-10 | 自动驾驶车辆的控制方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311301504.2A CN117048638B (zh) | 2023-10-10 | 2023-10-10 | 自动驾驶车辆的控制方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117048638A CN117048638A (zh) | 2023-11-14 |
CN117048638B true CN117048638B (zh) | 2023-12-29 |
Family
ID=88661171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311301504.2A Active CN117048638B (zh) | 2023-10-10 | 2023-10-10 | 自动驾驶车辆的控制方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117048638B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11521396B1 (en) * | 2019-02-02 | 2022-12-06 | Uatc, Llc | Probabilistic prediction of dynamic object behavior for autonomous vehicles |
CN116168362A (zh) * | 2023-02-27 | 2023-05-26 | 小米汽车科技有限公司 | 车辆感知模型的预训练方法、装置、电子设备及车辆 |
CN116469079A (zh) * | 2023-04-21 | 2023-07-21 | 西安深信科创信息技术有限公司 | 一种自动驾驶bev任务学习方法及相关装置 |
CN116740424A (zh) * | 2023-05-30 | 2023-09-12 | 华南理工大学 | 基于Transformer的时序点云三维目标检测 |
-
2023
- 2023-10-10 CN CN202311301504.2A patent/CN117048638B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11521396B1 (en) * | 2019-02-02 | 2022-12-06 | Uatc, Llc | Probabilistic prediction of dynamic object behavior for autonomous vehicles |
CN116168362A (zh) * | 2023-02-27 | 2023-05-26 | 小米汽车科技有限公司 | 车辆感知模型的预训练方法、装置、电子设备及车辆 |
CN116469079A (zh) * | 2023-04-21 | 2023-07-21 | 西安深信科创信息技术有限公司 | 一种自动驾驶bev任务学习方法及相关装置 |
CN116740424A (zh) * | 2023-05-30 | 2023-09-12 | 华南理工大学 | 基于Transformer的时序点云三维目标检测 |
Also Published As
Publication number | Publication date |
---|---|
CN117048638A (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220343138A1 (en) | Analysis of objects of interest in sensor data using deep neural networks | |
CN112930554A (zh) | 用于确定车辆环境的语义网格的电子设备、系统和方法 | |
CN113348422A (zh) | 用于生成预测占据栅格地图的方法和系统 | |
CN113537445B (zh) | 一种轨迹预测方法、装置、设备和存储介质 | |
CN113228043A (zh) | 移动平台基于神经网络的障碍物检测及关联的系统和方法 | |
CN113895464B (zh) | 融合个性化驾驶风格的智能车驾驶地图生成方法及系统 | |
CN115273002A (zh) | 一种图像处理方法、装置、存储介质及计算机程序产品 | |
Naz et al. | Intelligence of autonomous vehicles: A concise revisit | |
CN114581870B (zh) | 轨迹规划方法、装置、设备和计算机可读存储介质 | |
CN117422629B (zh) | 一种实例感知的单目语义场景补全方法、介质及设备 | |
Shi et al. | Grid-centric traffic scenario perception for autonomous driving: A comprehensive review | |
CN115879060B (zh) | 基于多模态的自动驾驶感知方法、装置、设备和介质 | |
WO2024008086A1 (zh) | 轨迹预测方法及其装置、介质、程序产品和电子设备 | |
Bai et al. | A survey and framework of cooperative perception: From heterogeneous singleton to hierarchical cooperation | |
CN114997307A (zh) | 一种轨迹预测方法、装置、设备及存储介质 | |
Wang et al. | AccidentGPT: Accident analysis and prevention from V2X environmental perception with multi-modal large model | |
CN116880462A (zh) | 自动驾驶模型、训练方法和自动驾驶方法和车辆 | |
CN114913329A (zh) | 一种图像处理方法、语义分割网络的训练方法及装置 | |
You et al. | V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models | |
CN117048638B (zh) | 自动驾驶车辆的控制方法、装置、电子设备和存储介质 | |
CN116300928A (zh) | 针对车辆的数据处理方法和数据处理模型的训练方法 | |
CN116309722A (zh) | 对象的感知结果状态的确定方法、模型训练方法和装置 | |
CN116311114A (zh) | 一种可行驶区域生成方法、装置、电子设备及存储介质 | |
CN117523186A (zh) | 基于超图计算的三维室外场景实例分割方法及装置 | |
CN116665189B (zh) | 基于多模态的自动驾驶任务处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |