CN115578702A

CN115578702A - 道路元素的提取方法、装置、电子设备、存储介质及车辆

Info

Publication number: CN115578702A
Application number: CN202211173533.0A
Authority: CN
Inventors: 叶晓青; 龚石; 李莹莹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-01-06
Anticipated expiration: 2042-09-26
Also published as: CN115578702B

Abstract

本公开提供了道路元素的提取方法、装置、电子设备、存储介质及车辆，涉及人工智能技术领域，具体涉及图像处理、计算机视觉和深度学习等领域，尤其涉及智能交通、智慧城市等技术领域。具体实现方案为：获取目标道路的多个视角的道路图像，得到图像组；对图像组进行特征提取，得到第一特征图；基于第一特征图生成鸟瞰图视角的第二特征图；从第一特征图中，提取出多个目标位置点的特征信息，得到待融合特征图；将待融合特征图和第二特征图进行融合处理，得到目标特征图；基于目标特征图，确定目标道路上的道路元素。将第一特征图和第二特征图进行融合，得到具有较好表达能力的目标特征图，据此进行道路元素提取，能够准确提取出道路元素。

Description

道路元素的提取方法、装置、电子设备、存储介质及车辆

技术领域

本公开涉及人工智能技术领域，具体涉及图像处理、计算机视觉和深度学习等领域，尤其涉及智能交通、智慧城市等技术领域。

背景技术

自动驾驶是人类发明汽车以来的颠覆性创新。随着人工智能、自动驾驶技术的成熟，自动驾驶的影响不只体现在汽车工业。自动驾驶对社会发展、出行体系也都存在巨大影响。

自动驾驶需要感知车辆周围的环境。其中提取道路元素是感知道路环节的重要环节。道路元素一般包括车道线、行人、车辆等。

自动驾驶过程中提取道路元素有利于准确的进行驾驶控制，因此，如何能够准确的提取道路元素至今仍是需要解决的问题。

发明内容

本公开提供了一种道路元素的提取方法、装置、电子设备、存储介质及车辆。

根据本公开的一方面，提供了一种道路元素的提取方法，包括：

获取目标道路的多个视角的道路图像，得到图像组；

对图像组进行特征提取，得到第一特征图；

基于第一特征图生成鸟瞰图视角的第二特征图；

从第一特征图中，提取出多个目标位置点的特征信息，得到待融合特征图；

将待融合特征图和第二特征图进行融合处理，得到目标特征图；

基于目标特征图，确定目标道路上的道路元素。

根据本公开的另一方面，提供了一种道路元素的提取装置，包括：

获取模块，用于获取目标道路的多个视角的道路图像，得到图像组；

特征提取模块，用于对图像组进行特征提取，得到第一特征图；

转换模块，用于基于第一特征图生成鸟瞰图视角的第二特征图；

提取模块，用于从第一特征图中，提取出多个目标位置点的特征信息，得到待融合特征图；

融合模块，用于将待融合特征图和第二特征图进行融合处理，得到目标特征图；

提取模块，用于基于目标特征图，确定目标道路上的道路元素。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一实施例的道路元素的提取方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开中任一实施例的道路元素的提取方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任一实施例的道路元素的提取方法。

根据本公开的另一方面，提供一种车辆，包括能够执行道路元素的提取方法的电子设备。

本公开中，从多个视角的道路图像中提取出第一特征图，然后将第一特征图转换到鸟瞰图视角得到第二特征图，为了提升特征表达能力，本公开中将第一特征图和第二特征图进行融合，得到具有较好表达能力的目标特征图，由此基于目标特征图进行道路元素提取，能够准确的提取出道路元素。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的道路元素的提取方法的应用场景示意图；

图2是根据本公开一实施例的道路元素的提取方法的流程示意图；

图3是根据本公开一实施例的感知的目标可视范围的示意图；

图4是根据本公开一实施例的道路元素的提取方法的流程示意图；

图5是根据本公开一实施例的鸟瞰图视角的对目标可视范围进行划分的示意图；

图6是根据本公开一实施例的将第一特征图和鸟瞰图视角的特征图进行融合的示意图；

图7是根据本公开一实施例的道路元素的提取方法的流程示意图；

图8是根据本公开一实施例的道路元素的提取方法的流程示意图；

图9是根据本公开一实施例的道路元素的提取网络模型的框架图；

图10是根据本公开一实施例的道路元素的提取方法的流程示意图；

图11是根据本公开一实施例的道路元素的提取方法的流程示意图；

图12a是根据本公开一实施例的道路元素的提取网络模型的框架图；

图12b是基于提取的道路元素构建的鸟瞰图的示意图；

图13是根据本公开一实施例的道路元素的提取装置的结构示意图；

图14是根据本公开一实施例的道路元素的提取装置的另一结构示意图；

图15是用来实现本公开实施例的道路元素的提取方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本公开实施例中提供了一种道路元素的提取方法，以期望能够准确的提取道路元素，为自动驾驶提供重要的辅助信息。如图1所示为该方法的应用场景示意图。该方法中，车辆101周围可安装多个图像采集装置。例如图1所示，车辆101中共安装有四种类型的单目相机，包括长距相机1个、中距相机4个、短距相机7个以及鱼眼相机4个。当然图1所示出的相机类型以及数量仅用于说明本公开实施例，并不对本公开实施例进行限定。

基于这些图像采集装置，针对道路，能够采集到多个视角的道路图像。其中每个视角可由一个图像采集装置提供。

在能够得到多个视角的道路图像的基础上，可由车辆101对多个视角的道路图像进行分析处理，提取出道路元素，也可以由车辆101将采集的道路图像发送给云端服务器102，由云端服务器102提取出道路元素，然后发送给车辆101。

无论车辆101提取道路元素还是云端服务器102提取道路元素，本公开实施例提供的道路元素提取方法可如图2所示，包括以下内容：

S201，获取目标道路的多个视角的道路图像，得到图像组。

如图1所示，当需要重点关注车辆前方的环境时，可采用车辆前方的3个鱼眼相机采集目标道路的道路图像，得到图像组。其中每个相机可单独连续不断的采集图像序列，实施时将3个鱼眼相机同时采集的图像归类到同一图像组。在同一图像组中每个鱼眼相机提供一张图像。由此，不同时刻得到不同的图像组。由于各个图像组的处理方式均相同，因此本公开实施例以一个图像组为例，说明如何提取出道路元素。

当然，若关注更大视角范围时，可增加其他视角的相机共同来采集道路图像。也即，对于采用多少个图像采集装置采集道路图像，以及采集多大视角范围的道路图像本公开对此并不限定。

S202，对图像组进行特征提取，得到第一特征图。

本公开实施例中，可采用能够提取图像特征的back bone(骨干)网络来得到第一特征图。可采用的back bone网络例如包括vggnet(Visual Geometry Group Net，计算机视觉网络)、resnet(残差网络)和inception(开端)网络等。当然，本公开实施例对于具体的back bone网络没有限定。

S203，基于第一特征图生成鸟瞰图视角的第二特征图。

S204，从第一特征图中，提取出多个目标位置点的特征信息，得到待融合特征图。

S205，将待融合特征图和第二特征图进行融合处理，得到目标特征图。

S206，基于目标特征图，确定目标道路上的道路元素。

综上，本公开实施例中，对多个视角的道路图像进行特征提取，能够从多个视角感知图像特征，进而使得提取的第一特征图能够有助于提取道路元素。此外，本公开实施例中将第一特征图进行视角转换，得到鸟瞰图视角的第二特征图，然后将第一特征图中的特征信息和鸟瞰图视角的第二特征图进行融合进而得到目标特征图，由此使得目标特征图中能够包含原始的第一特征图的细节信息和鸟瞰图视角的特征信息，使得提取的目标特征图更具表现力，能更好的描述道路元素的特征，以便于准确的提取出道路元素。

本公开实施例中，从多个视角采集道路图像时，这多个视角具有对应的目标可视范围。该目标可视范围可从鸟瞰图视角来描述。例如图3所示，以图1中车辆前方的3个鱼眼相机为例。假设这3个鱼眼相机能够感知的可视范围为左右各30米，前方60米，则目标可视范围为以车辆为中心的左右30米和前方60米范围，其中车辆自身的长度或宽度可忽略不计。

为了在实施时，可采用更多的相机来增加多个视角的目标可视范围。例如采用图1所示的车辆周围的所有相机，目标可视范围可达到前后各60米，以及左右各30米，这样可得到以车辆为中心的左右长60米，前后长120米的目标可视范围。

如前文所阐述的，本公开实施例为了能够融合第一特征图中的信息，需要从第一特征图中提取多个目标位置点的特征信息，以得到待融合特征图。为了便于合理的从第一特征图中提取出多个目标位置点的特征信息，本公开实施例中，如图4所示，可基于以下方法得到待融合特征图，包括：

S401，基于多个视角决定的目标可视范围，确定多个目标位置点。

本公开实施例中目标位置点尽可能遍布目标可视范围。实施时，多个目标位置点可以均匀的分布在目标可视范围内。也即，对目标可视范围进行等间距采样得到多目标位置点。

当然，为了能够更好的和第二特征图进行特征融合，本公开实施例中可以如4所示，基于以下方法确定多个目标位置点：

S4011，将多个视角决定的目标可视范围划分为多个格子。

如图5所示，假设目标可视范围为一个矩形框，宽为X米，长为Y米；则可以将该目标可视范围划分为多个格子，划分的格子可以为正方形也可以为矩形，均适用本公开实施例。以正方形为例，可以按照2m*2m为一个格子对目标可视范围进行划分。具体的格子尺寸可以按照分辨率要求确定，当分辨率要求高时，格子的尺寸可以降低，当分辨率要求低时格子的尺寸可以适当放大。

假设每个格子的尺寸为m*n，即格子宽m米，长n米，则目标可视范围可以视为一个分辨率为(X/m，Y/n)的图像。当格子大小为2m*2m时，相应的分辨率为(X/2，Y/2)。也即，相当于在目标可视范围内每个格子视为一个像素点。

其中，当目标可视范围不能划分成整数个格子时，可适当放大目标可视范围使其能够划分成整数个格子，亦或者可以适当缩小目标可视范围使其能够划分成整数个格子。

本公开实施例中，鸟瞰图视角的第二特征图的分辨率较低，且低于目标可视范围的分辨率。因此，为了能够找到同一空间点在第一特征图中的位置和在第二特征图中的位置，以便于将同一空间点在不同特征图的特征进行融合，在S4012中，将第二特征图中每个位置点分别确定为一个待融合位置点。之后，S4013，从目标可视范围内为每个待融合位置点选择至少一个格子作为目标位置点，得到多个目标位置点。

本公开实施例中，针对任一待融合位置点，可将其投射到目标可视范围内，得到该待融合位置点的投射点，然后从目标可视范围内该投射点的n邻域内选取指定数量的格子作为与该待融合位置点对应的至少一个目标位置点。如图5所示，假设第二特征图中的待融合位置点p在目标可视范围内的投射点为p’，则可以选取p’周围四邻域内的格子，包括格子1、格子2、格子3和格子4作为与该待融合位置点对应的多个目标位置点。

当然，可以基于一定的偏移来选取，例如选取相对p’偏移值为(1,1)、(1,-1)、(-1,1)、(1,1)的四个格子，选取的结果仍是图5中的格子1、格子2、格子3和格子4，也即p’左上角、右上角、右下角和左下角的格子。

本公开实施例中，基于多个视角决定的目标可视范围，为第二特征图中各待融合位置点选取多个目标位置点，能够保证多个目标位置点的选取是参照第二特征图的特性和目标可视范围的空间特性选取的，由此能够提高目标位置点选取的合理性，实现将第一特征图的特征合理的融合到第二特征图中，以提高目标特征图的表现力，进而提高道路元素分割的准确性。

在选取出各个目标位置点后。可以执行下述步骤S402和S403的操作，以得到待融合特征图。

S402，从第一特征图中，提取出多个目标位置点各自的特征值。

实施时，目标位置点是目标可视范围内的空间点，可以将各目标位置点从三维空间映射到图像坐标系中，进而得到各目标位置点的特征值。如图4所示可实施为：

S4021，将多个目标位置点映射到图像组的道路图像上，得到多个图像点。

实施时，可基于图像采集装置的内参和外参将各目标位置点映射到对应的道路图像上。例如鱼眼相机1采集了图像组的图像1，则基于鱼眼相机1的内参和外参，将各目标位置点映射到图像1中。

S4022，从第一特征图中获取多个图像点各自的特征值，得到多个目标位置点各自的特征值。

需要说明的是，因为目标可视范围内是多个图像采集装置能够覆盖的可视范围总和，可能有些目标位置点并不在某些图像采集装置的可视范围内。这将导致该目标位置点在这些图像采集装置的道路图像中找不到相应的图像点。但是该目标位置点会在其他图像采集装置的道路图像中，从图像组的角度而言，每个目标位置点都能找到其对应的图像点。同一目标位置点对应的图像点可能是一个或多个，则同一目标位置点对应的特征值可以是至少一个。

本公开实施例中，通过将目标位置点映射到图像点上，能够准确的识别出每个目标位置点在第一特征图中对应的特征值，从而提高待融合特征图的准确性，有助于提高道路元素提取的准确性。

S403，基于多个目标位置点各自的特征值，生成待融合特征图。

本公开实施例中同一目标位置点可能对应一个或多个特征值，当对应多个特征值时，可以对该多个特征值求均值，或加权求和的方式，以得到该目标点的特征值。

进而，由于第二特征图中每个待融合位置点可能对应至少一个目标位置点，则实施时，针对第二特征图中各待融合位置点分别执行：

在待融合位置点对应多个目标位置点的情况下，将第一特征图中待融合位置点对应的多个目标位置点的特征值进行加权处理，得到待融合位置点对应的待融合特征值；之后，基于各待融合位置点对应的待融合特征值，生成待融合特征图。

例如，继续以图5为例，格子1、格子2、格子3和格子4分别对应特征值a1、a2、a3和a4，然后可以按照每个格子距离待融合位置点p’的距离远近来确定权重。其中，距离越远权重越小。由此可以计算出a1、a2、a3和a4的加权值，得到待融合位置点的待融合特征值。

基于加权处理的方式得到每个待融合特征点的待融合特征值，能将第二特征图中各待融合位置点附近的细节特征，即第一特征图提供的细节特征都融合进第二特征图，由此得到目标特征图的更具表现力，能够提高道路元素提取的准确性。

综上而言，本公开实施例中，目标位置点是基于目标可视范围进行选取的，能够合理的选择出需要融合的目标位置点。进而能够从第一特征图中提取出各目标位置点的特征值，来构建待融合特征图，以便于将待融合特征图融合到鸟瞰图视角的第二特征图，以提高道路元素提取的准确性。

需要说明的是，back bone网络可提取多层次的特征。由此提取得到的第一特征图中可包括多个尺度的第一子特征图。实施时，可从每个目标尺度的第一子特征图中分别提取出多个目标位置点的特征信息，得到各目标尺度分别对应的待融合特征子图，由此由各待融合特征子图共同构成待融合特征图。本公开实施例中，通过多个尺度的第一子特征图，能够将第一特征图中的多个层次的细节特征融合到鸟瞰图视角的第二特征图中，以提高目标特征图的表现力，进而提高道路元素提取的准确性。

如图6所示，假设back bone网络针对图像组中每张道路图像均提取出3个层次的第一子特征图，每个层次的特征图的分辨率不同，即尺度不同。则实施时，可从最大尺度的第一子特征图f1中提取出各目标位置点分别对应的特征值，构建最大尺度的待融合特征子图f1’。同理，从中间尺度的第一子特征图f2中提取出各目标位置点分别对应的特征值，构建中间尺度的待融合特征子图f2’。在与第二特征图融合时，可以如图6所示先采用f2’与第二特征图融合，得到f2”，之后对f2”进行上采样。将其上采样至于待融合特征子图f1’尺度相同得到f2”’。然后，将f2”’与f1’进行特征融合，以完成待融合特征图和第二特征图的融合过程。

基于图6，扩充到多个目标尺度的待融合特征子图的情况，本公开实施例中，将待融合特征图和第二特征图进行融合处理，得到目标特征图可实施为如图7所示：

S701，将最小目标尺度的待融合特征子图和第二特征图进行融合处理，得到第一中间特征图；

S702，循环执行如下操作，直至不存在剩余待融合特征子图的情况下，得到最终输出的第一中间特征图；

S7021，存在剩余待融合特征子图的情况下，将第一中间特征图进行上采样，得到第二中间特征图

S7022，从剩余待融合特征子图中选择最小目标尺度的待融合特征子图和第二中间特征图进行融合处理，得到新的第一中间特征图。

S703，将最终输出的第一中间特征图上采样至指定尺度，得到目标特征图。

由此，本公开实施例中，由于每个尺度的待融合特征子图都是基于第一特征图中不同尺度的第一子特征图生成的，因此通过融合待融合特征子图，能够使得目标特征图中不仅包含了鸟瞰图视角下的高层次特征，还能够融合第一特征图中的多个层次的细节特征，由此提高了目标特征图的表现力，进而提高道路元素提取的准确性。

本公开实施例中，除了能够融合第一特征图中的细节特征之外，还能够基于注意力机制来提取到更具表现力的第二特征图。

如图8所示，基于第一特征图生成鸟瞰图视角的第二特征图，可实施为：

S801，生成图像组中各道路图像的第一位置编码；以及，针对采集多个视角的道路图像的多个图像采集装置，生成第二位置编码。

实施时，针对每张道路图像，对该图像中每个像素点位置进行位置编码，得到第一位置编码。采用使用sine正弦编码方式进行位置编码可表达为如下式(1)所示：

在式(1)中，(u,v)表示像素点在道路图像中的坐标位置；D表示第一位置编码所需的编码维度，通常D是一个给定值；T是调制温度，一般可取10000。

基于式(1)，第一位置编码PE的维度为[f^H,f^W,D]，其中，H*W为道路图像的尺寸。f^H,f^W为第一特征图的尺寸。

类似的，可采用sine正弦编码方式对图像采集装置进行位置编码。例如，图像采集装置可按照0,1,2……,n进行编号，然后基于该编号进行位置编码得到第二位置编码。与式(1)的区别在于，图像采集装置的第二位置编码是对一维数据进行编码，而对道路图像的像素位置进行位置编码，是对二维数据进行编码。其中，第二位置编码所需的编码维度可以与第一位置编码的所需的编码维度D相同。

S802，将第一特征图、第一位置编码和第二位置编码进行融合处理，得到第一查询向量；并将第一特征图分别作为第一键向量和第一值向量。

由于第二位置编码和第一位置编码的特征维度不同，本公开实施例中，可以将第二位置编码扩充至与第一位置编码的特征维度相同。扩充的方式可以选择复制第二位置编码的方式。同样，第一特征图、第一位置编码和第二位置编码调整在同一特征维度上即可完成融合处理，进而得到第一查询向量。其中融合处理的方式可选择在相同位置上对第一特征图、第一位置编码和第二位置编码的特征相加即可。除了相加，也可以选择其他融合方式，例如基于全连接层的融合，或基于注意力机制的融合，或基于交互学习方式的融合也适用于本公开实施例。当第一特征图包括多个尺度的第一子特征图时，可选择尺度最小的第一子特征图和第一位置编码、第二位置编码进行融合。也可以将多个尺度的第一子特征图进行融合后，再和第一位置编码以及第二位置编码进行融合。

S803，对第一查询向量、第一键向量和第一值向量进行编码处理，得到编码特征。

S804，基于编码特征，确定第二特征图。

如图8所示，经过对图像组进行特征提取得到的第一特征图fm，会进一步融合道路图像的第一位置编码PE和图像采集装置的第二位置编码CE，作为第一查询向量Q输入给编码器，其中第一特征图fm同时作为第一键向量K和第一值向量V输入给编码器，编码器基于第一查询向量，第一键向量和第一值向量，采用注意力机制进行编码处理，得到编码特征，然后编码特征输入给解码器得到第二特征图。解码器能够更好的解构编码特征，以便于将第一特征图转换到鸟瞰图视角，得到第二特征图。

由此，本公开实施例中，位置编码中融合了图像采集装置的位置编码，能够在第二特征图中学习图像采集装置的位置特征，由此便于提取出更具表现力的第二特征图，进而提高道路元素提取的准确性。

关于前述的编码器，本公开实施例中采用自注意力模块构建编码器。相应的，针对解码器，为了能够提取出更具表现力的第二特征图，本公开实施例中，如图9所示，解码器包括多个解码块，每个解码块包括自注意力模块和交叉注意力模块。图9中示出了两个编码块，但实施时，编码块的数量可根据需求进行改动。

针对解码器中的第一个解码块：可基于多个视角决定的目标可视范围，来构建该解码块中交叉注意力模块所需的第二查询向量、第二键向量和第二值向量。

针对解码器中第一个解码块之后的每个解码块：会基于该解码块的上一解码块输出的解码特征，构建该解码块中的交叉注意力模块所需的第二查询向量、第二键向量和第二值向量。

也即，第一个解码块的自注意力模块输入的K、Q、V和之后的解码块的自注意力模块存在差别。但就每个解码块的交叉注意力模块而言，各交叉注意力模块的输入基本类似。

在解码器中，每个解码块的自注意力模块基于第二查询向量、第二键向量和第二值向量，得到交叉特征。针对每个解码块的交叉注意力模块而言，该交叉注意力模块的输入包括第三查询向量、第三键向量和第三值向量。其中，基于交叉注意力模块对应的自注意力模块输出的交叉特征和编码特征构建该交叉注意力模块所需的第三查询向量、第三键向量和第三值向量。然后得到该解码块输出的解码特征。以此类推，每个解码块依序处理，最终得到最后一个解码块输出的解码特征。之后，如图9所示将最后一个解码块输出的解码特征进行上采样，得到第二特征图。其中上采样的方式可以选择卷积层、上采样层、反向卷积、超分网络等，本公开实施例对上采样的实现方式不作限定。

由此，本公开实施例中，可以基于目标可视范围构建第一个解码块的输入，使得解码块能够学习到目标可视范围内的特征，然后针对后续的解码块可以基于上一解码块的输出作为输入，以提高第二特征图像的表现力，进而提高道路元素提取的准确性。

下面对如何构建第一个解码块的自注意力模块的第二查询向量、第二键向量和第二值向量进行说明，如图10所示，包括：

S1001，将划分了多个格子的目标可视范围内的每个格子分别进行位置编码，得到第三位置编码。

S1002，对每个格子的特征值进行初始化，得到初始化鸟瞰图。

需要说明的是步骤S1001以及S1002中进行位置编码和初始化的操作的执行顺序不受限。

此外，可以将每个格子视为一个像素点，因此进行位置编码得到第三位置编码的具体实现和第一位置编码相同，这里不再赘述。

其中，对每个格子的特征值进行初始化的实现，可采用随机初始化，也可以设置为默认值，均适用于本公开实施例。本公开实例中，将在后续的解码过程中对初始化鸟瞰图的特征值进行更新，得到最终的第二特征图。可理解为每个解码块都对特征值进行一次更新。

S1003，将初始化鸟瞰图和第三位置编码之间的融合特征作为自注意力模块的第二查询向量，将初始化鸟瞰图分别作为自注意力模块的第二键向量和第二值向量。

如图9所示，初始化鸟瞰图BEV_target和第三位置编码BEV_PE进行融合处理，得到的融合特征作为自注意力模块的第二查询向量，初始化鸟瞰图BEV_target分别作为自注意力模块的第二键向量和第二值向量。

本公开实施例中，自注意力模块的输入中包括了目标可视范围内的初始化鸟瞰图，该初始化鸟瞰图的位置编码，以便于自注意力模块能够将可视范围的特征学习进第二特征图，提高第二特征图的表现力，进而提高道路元素提取的准确性。

类似的，为了能够进一步提高第二特征图的表现力，本公开实施例中，对交叉注意力模块的输入，可采用如图11所示的方式确定：

S1101，将多模态位置编码和编码特征之间的融合特征作为交叉注意力模块的第三键向量；其中，多模态特征是对第一位置编码和第二位置编码进行融合处理得到的。

如图9所示，将道路图像的第一位置编码PE和图像采集装置的第二位置编码CE(Camera PE)进行融合处理，得到多模态位置编码PosCamPE。之后，多模态位置编码PosCamPE和编码器输出的编码特征f_PV进行融合处理，得到交叉注意力模块的第三键向量。

S1102，将自注意力模块输出的交叉特征和第三位置编码之间的融合特征作为交叉注意力模块的第三查询向量。

如图9所示，自注意力模块输出的交叉特征BEV_sa和划分网格后得到的第三位置编码BEV_PE进行融合处理，得到交叉注意力模块的第三查询向量。

S1103，将编码特征作为交叉注意力模块的第三值向量。

如图9所示，编码器输出的编码特征f_PV作为交叉注意力模块的第三查询向量。

当然，实施时第三查询向量和第三键向量的取值也可以相同，本公开对此不作限定。

由此，本公开实施例中，交叉注意力模块能够交互学习并融合鸟瞰图视角的特征以及第一特征图视角的特征，由此提取到具有表现力的第二特征图，以便于提高道路元素提取的准确性。

为便于理解，下面结合图9对本公开实施例提供的道路元素提取方法做进一步说明。

如图9所示，假设采用车辆上三个相机来采集不同视觉的道路图像，得到图像组。图像组中各道路图像共享back bone网络，得到各道路图像的不同层次的第一子特征图。其中，图9示出了每张道路图像得到三个尺度的第一子特征图。所有道路图像的不同尺度的第一子特征图的集合称之为第一特征图

其中

[H,W]是每个相机输入的道路图像的分辨率，nCam是相机个数，在图9中取值为3；C是第一特征图fm的通道数。32表示经过特征提取器(即back bone网络)后的第一特征图是原道路图像尺寸的1/32。当然，需要说明的32仅用于示例，其具体的取值取决于算力。若取值较大则第一特征图的分辨率较高但对算力要求高；相反的，若取值越小第一特征图的分辨率越低但对算力要求低。

本公开实施例中编码器和解码器是基于Transformer实现的特征融合和变换。Transformer是一种常用的特征学习器，包括encoder(编码器)和decoder(解码器)两部分。其中：

encoder部分是一个自注意力模块，让每个相机单独进行自注意力特征融合。自注意力模块的输入包括三部分即Query(查询向量)，Key(键向量)，Value(值向量)。其中Query是图像的positional embedding(即第一位置编码)，与第一特征图fm进行融合。

第一位置编码positional embedding用于标记属于图像的像素坐标编码。如前文所阐述的，通常使用sine正弦编码方式，最终得到的第一位置编码PE的维度为[f^H,f^W,D]。D是embedding特征维度，T是调制温度，一般为10000。

进一步的，本公开实施例为了能够学习到更具表现力的特征，encoder中自注意力模块的Query为CE+PE+fm的特征融合，也即将第一位置编码、第二位置编码和第一特征图进行融合，融合的方式是将第一位置编码、第二位置编码和第一特征图处理到同一特征维度，然后对相同位置进行累加即可。

encoder中自注意力模块的Key和Value为fm。经过encoder的自注意力模块的学习后得到编码特征f_PV＝[nC,f^H×f^W,D]。需要说明的是，实施时，可针对每个相机构建一个编码器，也可以多个相机共享同一编码器，得到的编码特征f_PV都是一样的。

针对解码器而言，采用自注意力(self-attention)模块与交叉注意力(cross-attention)模块来构建。目的是实现不同相机之间的融合以及从相机视图特征变换到BEV((Bird’s Eye View，鸟瞰图)视角下的特征。

与编码器不同的是，由于回归的目标是BEV视角下每个点的道路结构的类别，由此提取出不同的道路元素。因此需要实现从相机视角与BEV视角之间的变换。

假设需要回归的范围为BEV视角下的BX×BYm(即目标可视范围)，设定分辨率为2mx2m的grid(格子)大小，每个格子代表一个像素点，则BEV的分辨率为

同样的，定义BEV的positional embedding为第三位置编码

此处的D可以和encoder部分采用的D相同，也可以不同。若不同的话在输入同一自注意力模块或交叉注意力模块时需要调整为同样维度即可。第三位置编码BEV_PE的计算方法与第一位置编码相同。为了区分来自不同相机的特征，本公开实施例中还对相机进行了位置编码由此得到第二位置编码。

目标要学习的BEV特征定义为初始鸟瞰图BEV_target。BEV_target可通过对目标可视范围内的每个格子进行初始化得到。BEV_target的维度与第三位置编码BEV_PE的维度相同。因此，解码器中self-attention的输入Query是BEV_target+BEV_PE，Key与Value是BEV_target。经过self-attention之后的输出记为中间输出的交叉特征BEV_sa,维度与BEV_PE相同。接着BEV_sa输入cross-attention模块进行交叉注意力特征学习。cross-attention的输入Query是BEV_sa+BEV_PE，输入Key是f_PV+PosCamPE，输入的Value是f_PV。以此类推，经过最后一个cross-attention的输出为BEV视角下融合多视角相机特征之后的特征，记为f_BE。f_BEV的维度为[D,B^H/16,B^W/16]。经过若干层卷积上采样后可以得到用于提取道路元素的待识别特征图，其维度为[D’,B^H,B^W]。其中上采样的方式不局限于卷积上采样，还可以采用反卷积和超分等实现上采样。最后给待识别特征图再接一个卷积层，即图9中虚线框内最后一个特征图即为待识别特征图，将其输入该卷积层(亦可替换为全连接层FC)来预测C个类别的分割置信度，得到图中的Prediction(预测)，即可实现对C个类别的道路元素的提取。其中C个类别例如车道线、停止线、可通行区域、车、行人等。

如图9所示，对f_BE进行上采样，得到第二特征图其维度为[D,B^H/8,B^W/8]。由于鸟瞰图视角的分辨率较低，对细节信息不敏感。故此为了能够融合更多细节特征，本公开实施例中会将第一特征图中的特征信息和第二特征图进行融合处理，以期望融合原相机视角下的高分辨率图像特征的。具体操作为如图12a所示：在BEV视角下每个grid格子点固定选择N个目标格子(即目标位置点)，这目标位置点的高度信息设为地面高度相对主车坐标系的高度。比如主车坐标系的Z轴原点一般离地面上面0.2m，则这些目标位置点的高度均设为-0.2。得到维度为

的三维空间中的目标位置点。其中

中的3表示XYZ坐标，每个目标位置点的XY不同，其取值取决于每个待融合位置点的位置，但Z值相同。

需要说明的是，也可以基于f_BE特征维度中每个特征点选取N个目标位置点。由于f_BE特征尺寸小于第二特征图，故此选取目标位置点构建待融合特征图之后，可以采用双线性差值的方式，将其扩充到与第二特征图尺寸相同，以便于和第二特征图进行融合。

设每个相机相对主车坐标系的外参为Tⁱ,i＝1,…,nC，各自的内参为Kⁱ,i＝1,…,nC。将目标位置点经过相机的内外参投影到道路图像上，从而从第一特征图中采样出对应目标位置点位置的特征值，然后鸟瞰图视角下的特征图进行融合。

如图9和图12a所示，选择了两个尺度的特征图进行融合，实施时可以选择更多尺度，本公开实施例对此不作限定。

将待融合特征图和鸟瞰图视角下的第二特征图进行融合处理之后，得到目标特征图。为了提取道路元素可对目标特征图进行上采样，得到前文所述的待识别特征图，然后对待识别特征图进行分类识别，由此分割出可视范围内的道路元素。

提取道路元素后可对周围环境进行建图，一种建图的效果图如图12b所示。在图12b中目标车辆基于周围安装的相机可感知周围环境。从鸟瞰图视角，感知的目标可视范围为前后L1米，左右L2米。采用本公开实施例提供的道路元素的提取方法，将各相机同一时刻采集的图像作为图像组，输入back bone网络进行特征提取得到第一特征图，然后采用Transformer模型的编码器提取出编码特征，进而采用解码器提取出解码特征，并基于解码特征构建第二特征图。第一特征图中有多个尺寸的第一子特征图，从不同目标尺寸的第一子特征图中进行采样，得到待融合特征子图，待融合特征子图和鸟瞰图视角的特征图实现对同一空间点的特征融合，由此使得目标可视范围内同一空间点的融合特征中包括了鸟瞰图视角的特征和第一特征图中的细节特征，由此提高鸟瞰图视角的特征图的表现力。在之后进行道路元素的提取时，有利于准确的提取出各类道路元素。提取的道路元素如图12b所示，包括目标车辆前方的行人，行人前方的车辆，车道线，道路两侧的障碍物，以及相邻道路上的车辆。

由此基于提取的道路元素构建出如图12所示的图，以便于进行自动驾驶控制。例如，及时感知到目标车辆前方的行人，进行刹车甚至紧急制动，由此避免交通事故。再例如，感知相邻车道的车辆位置，车辆朝向，车辆间距，由此可控制车辆进行变道，甚至跨车道超车。再例如，通过感知道路两侧的障碍物，有助于规划行车路线，保证车辆和驾驶员安全。而且，基于提取的道路元素构建道路图像，还可以显示出来，供驾驶员从鸟瞰图视角了解周围环境，由此辅助驾驶员做出驾驶操作预判，提高驾驶的安全性，避免交通事故。

综上所述，本公开实施例提供的道路元素的提取方法，能够融合不同的特征，并更有价值的查询向量，键向量和值向量来提取鸟瞰图视角的特征，以便于准确的分割出道路元素。

基于相同的技术构思，本公开实施例还提供一种道路元素的提取装置，如图13所示，包括：

获取模块1301，用于获取目标道路的多个视角的道路图像，得到图像组；

特征提取模块1302，用于对图像组进行特征提取，得到第一特征图；

转换模块1303，用于基于第一特征图生成鸟瞰图视角的第二特征图；

提取模块1304，用于从第一特征图中，提取出多个目标位置点的特征信息，得到待融合特征图；

融合模块1305，用于将待融合特征图和第二特征图进行融合处理，得到目标特征图；

提取模块1306，用于基于目标特征图，确定目标道路上的道路元素。

在一些可选的实施例中，在图13所示的基础上，如图14所示，提取模块1304，包括：

确定子模块13041，用于基于多个视角决定的目标可视范围，确定多个目标位置点；

采样子模块13042，用于从第一特征图中，提取出多个目标位置点各自的特征值；

生成子模块13043，用于基于多个目标位置点各自的特征值，生成待融合特征图。

在一些可选的实施例中，执行基于多个视角决定的目标可视范围，确定多个目标位置点，确定子模块13041用于：

将多个视角决定的目标可视范围划分为多个格子；

将第二特征图中每个位置点分别确定为一个待融合位置点；

从目标可视范围内为每个待融合位置点选择至少一个格子作为目标位置点，得到多个目标位置点。

在一些可选的实施例中，执行基于多个目标位置点各自的特征值，生成待融合特征图，生成子模块13043，用于：

针对第二特征图中各待融合位置点分别执行：

在待融合位置点对应多个目标位置点的情况下，将第一特征图中待融合位置点对应的多个目标位置点的特征值进行加权处理，得到待融合位置点对应的待融合特征值；

基于各待融合位置点对应的待融合特征值，生成待融合特征图。

在一些可选的实施例中，执行从第一特征图中，提取出多个目标位置点各自的特征值，采样子模块13042用于：

将多个目标位置点映射到图像组的道路图像上，得到多个图像点；

从第一特征图中获取多个图像点各自的特征值，得到多个目标位置点各自的特征值。

在一些可选的实施例中，如图14所示，转换模块1303，包括：

位置编码子模块13031，用于生成图像组中各道路图像的第一位置编码；以及，针对采集多个视角的道路图像的多个图像采集装置，生成第二位置编码；

融合子模块13032，用于将第一特征图、第一位置编码和第二位置编码进行融合处理，得到第一查询向量；并，将第一特征图分别作为第一键向量和第一值向量；

编码子模块13033，用于对第一查询向量、第一键向量和第一值向量进行编码处理，得到编码特征；

解码子模块13034，用于基于编码特征，确定第二特征图。

在一些可选的实施例中，执行基于编码特征，确定第二特征图，解码子模块13034用于将编码特征输入解码器，得到第二特征图。

在一些可选的实施例中，解码器包括多个解码块，每个解码块包括自注意力模块和交叉注意力模块，其中，执行将编码特征输入解码器，得到第二特征图，解码子模块13034用于：

针对每个解码块执行以下操作，以得到最后一个解码块输出的解码特征：

在解码块为第一个解码块的情况下，基于多个视角决定的目标可视范围，构建解码块中自注意力模块所需的第二查询向量、第二键向量和第二值向量；

在解码块为第一个解码块之后的解码块的情况下，基于解码块的上一解码块输出的解码特征，构建解码块中自注意力模块所需的第二查询向量、第二键向量和第二值向量；

将第二查询向量、第二键向量和第二值向量输入解码块的自注意力模块，得到交叉特征；

基于交叉特征和编码特征构建解码块的交叉注意力模块所需的第三查询向量、第三键向量和第三值向量；

将第三查询向量、第三键向量和第三值向量输入解码块的交叉注意力模块，得到解码块输出的解码特征；

在得到最后一个解码块输出的解码特征的情况下，将最后一个解码块输出的解码特征进行上采样，得到第二特征图。

在一些可选的实施例中，执行基于多个视角决定的目标可视范围，构建解码块中交叉注意力模块所需的第二查询向量、第二键向量和第二值向量，解码子模块13034用于：

将划分了多个格子的目标可视范围内的每个格子分别进行位置编码，得到第三位置编码；以及，

对每个格子的特征值进行初始化，得到初始化鸟瞰图；

将初始化鸟瞰图和第三位置编码之间的融合特征作为自注意力模块的第二查询向量，将初始化鸟瞰图分别作为自注意力模块的第二键向量和第二值向量。

在一些可选的实施例中，执行基于交叉特征和编码特征构建解码块的交叉注意力模块所需的第三查询向量、第三键向量和第三值向量，解码子模块13034用于：

将多模态位置编码和编码特征之间的融合特征作为交叉注意力模块的第三键向量；其中，多模态特征是对第一位置编码和第二位置编码进行融合处理得到的；

将自注意力模块输出的交叉特征和第三位置编码之间的融合特征作为交叉注意力模块的第三查询向量；

将编码特征作为交叉注意力模块的第三值向量。

在一些可选的实施例中，第一特征图中包括多个尺度的第一子特征图，待融合特征图中包括多个目标尺度的待融合特征子图，其中，提取模块1306，用于：

从每个目标尺度的第一子特征图中分别提取出多个目标位置点的特征信息，得到各目标尺度的待融合特征子图。

在一些可选的实施例中，如图14所示，融合模块1305，包括：

中间特征提取子模块13051，用于将最小目标尺度的待融合特征子图和第二特征图进行融合处理，得到第一中间特征图；循环执行如下操作，直至不存在剩余待融合特征子图的情况下，得到最终输出的第一中间特征图：

存在剩余待融合特征子图的情况下，将第一中间特征图进行上采样，得到第二中间特征图；

从剩余待融合特征子图中选择最小目标尺度的待融合特征子图和第二中间特征图进行融合处理，得到新的第一中间特征图；

上采样子模块13052，用于将最终输出的第一中间特征图上采样至指定尺度，得到目标特征图。

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，设备1500包括计算单元1501，其可以根据存储在只读存储器(ROM)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(RAM)1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。

设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506，例如键盘、鼠标等；输出单元1507，例如各种类型的显示器、扬声器等；存储单元1508，例如磁盘、光盘等；以及通信单元1509，例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如道路元素的提取方法。例如，在一些实施例中，道路元素的提取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时，可以执行上文描述的道路元素的提取方法的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行道路元素的提取方法。

基于前述的电子设备，本公开还提供一种车辆，可以包括电子设备，还可以包括通信部件、用于实现人机界面的显示屏以及用于采集周围环境信息的信息采集设备等，通信部件、显示屏、信息采集设备与电子设备之间通信连接。车辆包括的电子设备可以执行本公开实施例提供的道路元素的提取方法。

根据本公开的实施例，电子设备可以与通信部件、显示屏以及信息采集设备一体集成，也可以与通信部件、显示屏以及信息采集设备分体设置。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。本公开实施例可采用服务器执行道路元素的提取方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种道路元素的提取方法，包括：

获取目标道路的多个视角的道路图像，得到图像组；

对所述图像组进行特征提取，得到第一特征图；

基于所述第一特征图生成鸟瞰图视角的第二特征图；

从所述第一特征图中，提取出多个目标位置点的特征信息，得到待融合特征图；

将所述待融合特征图和所述第二特征图进行融合处理，得到目标特征图；

基于所述目标特征图，确定所述目标道路上的道路元素。

2.根据权利要求1所述的方法，其中，所述从所述第一特征图中，提取出多个目标位置点的特征信息，得到待融合特征图，包括：

基于所述多个视角决定的目标可视范围，确定所述多个目标位置点；

从所述第一特征图中，提取出所述多个目标位置点各自的特征值；

基于所述多个目标位置点各自的特征值，生成所述待融合特征图。

3.根据权利要求2所述的方法，其中，所述基于所述多个视角决定的目标可视范围，确定所述多个目标位置点，包括：

将所述多个视角决定的目标可视范围划分为多个格子；

将所述第二特征图中每个位置点分别确定为一个待融合位置点；

从所述目标可视范围内为每个待融合位置点选择至少一个格子作为目标位置点，得到所述多个目标位置点。

4.根据权利要求2或3所述的方法，其中，所述基于所述多个目标位置点各自的特征值，生成所述待融合特征图，包括：

针对所述第二特征图中各待融合位置点分别执行：

在所述待融合位置点对应多个目标位置点的情况下，将所述第一特征图中所述待融合位置点对应的所述多个目标位置点的特征值进行加权处理，得到所述待融合位置点对应的待融合特征值；

基于各待融合位置点对应的待融合特征值，生成所述待融合特征图。

5.根据权利要求2-4中任一项所述的方法，其中，所述从所述第一特征图中，提取出所述多个目标位置点各自的特征值，包括：

将所述多个目标位置点映射到所述图像组的道路图像上，得到多个图像点；

从所述第一特征图中获取所述多个图像点各自的特征值，得到所述多个目标位置点各自的特征值。

6.根据权利要求1-5中任一项所述的方法，其中，所述基于所述第一特征图生成鸟瞰图视角的第二特征图，包括：

生成所述图像组中各道路图像的第一位置编码；以及，针对采集所述多个视角的道路图像的多个图像采集装置，生成第二位置编码；

将所述第一特征图、所述第一位置编码和所述第二位置编码进行融合处理，得到第一查询向量；并，将所述第一特征图分别作为第一键向量和第一值向量；

对所述第一查询向量、所述第一键向量和所述第一值向量进行编码处理，得到编码特征；

基于所述编码特征，确定所述第二特征图。

7.根据权利要求6所述的方法，其中，所述基于所述编码特征，确定所述第二特征图，包括：

将所述编码特征输入解码器，得到所述第二特征图。

8.根据权利要求7所述的方法，所述解码器包括多个解码块，每个解码块包括自注意力模块和交叉注意力模块，其中，所述将所述编码特征输入解码器，得到所述第二特征图，包括：

在所述解码块为第一个解码块的情况下，基于所述多个视角决定的目标可视范围，构建所述解码块中所述自注意力模块所需的第二查询向量、第二键向量和第二值向量；

在所述解码块为第一个解码块之后的解码块的情况下，基于所述解码块的上一解码块输出的解码特征，构建所述解码块中所述自注意力模块所需的第二查询向量、第二键向量和第二值向量；

将所述第二查询向量、所述第二键向量和所述第二值向量输入所述解码块的自注意力模块，得到交叉特征；

基于所述交叉特征和所述编码特征构建所述解码块的交叉注意力模块所需的第三查询向量、第三键向量和第三值向量；

将所述第三查询向量、所述第三键向量和所述第三值向量输入所述解码块的交叉注意力模块，得到所述解码块输出的解码特征；

在得到最后一个解码块输出的解码特征的情况下，将所述最后一个解码块输出的解码特征进行上采样，得到所述第二特征图。

9.根据权利要求8所述的方法，其中，所述基于所述多个视角决定的目标可视范围，构建所述解码块中所述交叉注意力模块所需的第二查询向量、第二键向量和第二值向量，包括：

将划分了多个格子的所述目标可视范围内的每个格子分别进行位置编码，得到第三位置编码；以及，

对每个格子的特征值进行初始化，得到初始化鸟瞰图；

将所述初始化鸟瞰图和所述第三位置编码之间的融合特征作为所述自注意力模块的所述第二查询向量，将所述初始化鸟瞰图分别作为所述自注意力模块的所述第二键向量和所述第二值向量。

10.根据权利要求8所述的方法，其中，所述基于所述交叉特征和所述编码特征构建所述解码块的交叉注意力模块所需的第三查询向量、第三键向量和第三值向量，包括：

将多模态位置编码和所述编码特征之间的融合特征作为所述交叉注意力模块的所述第三键向量；其中，所述多模态特征是对所述第一位置编码和所述第二位置编码进行融合处理得到的；

将所述自注意力模块输出的交叉特征和所述第三位置编码之间的融合特征作为所述交叉注意力模块的所述第三查询向量；

将所述编码特征作为所述交叉注意力模块的所述第三值向量。

11.根据权利要求1-10中任一项所述的方法，所述第一特征图中包括多个尺度的第一子特征图，所述待融合特征图中包括多个目标尺度的待融合特征子图，其中，所述从所述第一特征图中，提取出多个目标位置点的特征信息，得到待融合特征图，包括：

从每个目标尺度的第一子特征图中分别提取出所述多个目标位置点的特征信息，得到各目标尺度的待融合特征子图。

12.根据权利要求11所述的方法，其中，所述将所述待融合特征图和所述第二特征图进行融合处理，得到目标特征图，包括：

将最小目标尺度的待融合特征子图和所述第二特征图进行融合处理，得到第一中间特征图；

循环执行如下操作，直至不存在剩余待融合特征子图的情况下，得到最终输出的第一中间特征图：

存在剩余待融合特征子图的情况下，将所述第一中间特征

图进行上采样，得到第二中间特征图；

从剩余待融合特征子图中选择最小目标尺度的待融合特征

子图和所述第二中间特征图进行融合处理，得到新的第一

中间特征图；

将最终输出的第一中间特征图上采样至指定尺度，得到所述目标特征图。

13.一种道路元素的提取装置，包括：

特征提取模块，用于对所述图像组进行特征提取，得到第一特征图；

转换模块，用于基于所述第一特征图生成鸟瞰图视角的第二特征图；

提取模块，用于从所述第一特征图中，提取出多个目标位置点的特征信息，得到待融合特征图；

融合模块，用于将所述待融合特征图和所述第二特征图进行融合处理，得到目标特征图；

提取模块，用于基于所述目标特征图，确定所述目标道路上的道路元素。

14.根据权利要求13所述的装置，其中，所述提取模块，包括：

确定子模块，用于基于所述多个视角决定的目标可视范围，确定所述多个目标位置点；

采样子模块，用于从所述第一特征图中，提取出所述多个目标位置点各自的特征值；

生成子模块，用于基于所述多个目标位置点各自的特征值，生成所述待融合特征图。

15.根据权利要求14所述的装置，其中，执行所述基于所述多个视角决定的目标可视范围，确定所述多个目标位置点，所述确定子模块用于：

将所述多个视角决定的目标可视范围划分为多个格子；

16.根据权利要求14或15所述的装置，其中，执行所述基于所述多个目标位置点各自的特征值，生成所述待融合特征图，所述生成子模块，用于：

针对所述第二特征图中各待融合位置点分别执行：

17.根据权利要求14-16中任一项所述的装置，其中，执行所述从所述第一特征图中，提取出所述多个目标位置点各自的特征值，所述采样子模块用于：

18.根据权利要求13-17中任一项所述的装置，其中，所述转换模块，包括：

位置编码子模块，用于生成所述图像组中各道路图像的第一位置编码；以及，针对采集所述多个视角的道路图像的多个图像采集装置，生成第二位置编码；

融合子模块，用于将所述第一特征图、所述第一位置编码和所述第二位置编码进行融合处理，得到第一查询向量；并，将所述第一特征图分别作为第一键向量和第一值向量；

编码子模块，用于对所述第一查询向量、所述第一键向量和所述第一值向量进行编码处理，得到编码特征；

解码子模块，用于基于所述编码特征，确定所述第二特征图。

19.根据权利要求18所述的装置，其中，执行所述基于所述编码特征，确定所述第二特征图，所述解码子模块用于：

将所述编码特征输入解码器，得到所述第二特征图。

20.根据权利要求19所述的装置，所述解码器包括多个解码块，每个解码块包括自注意力模块和交叉注意力模块，其中，执行所述将所述编码特征输入解码器，得到所述第二特征图，所述解码子模块用于：

21.根据权利要求20所述的装置，其中，执行所述基于所述多个视角决定的目标可视范围，构建所述解码块中所述交叉注意力模块所需的第二查询向量、第二键向量和第二值向量，所述解码子模块用于：

对每个格子的特征值进行初始化，得到初始化鸟瞰图；

22.根据权利要求20所述的装置，其中，执行所述基于所述交叉特征和所述编码特征构建所述解码块的交叉注意力模块所需的第三查询向量、第三键向量和第三值向量，所述解码子模块用于：

23.根据权利要求13-22中任一项所述的装置，所述第一特征图中包括多个尺度的第一子特征图，所述待融合特征图中包括多个目标尺度的待融合特征子图，其中，所述提取模块，用于：

24.根据权利要求23所述的装置，其中，所述融合模块，包括：

中间特征提取子模块，用于将最小目标尺度的待融合特征子图和所述第二特征图进行融合处理，得到第一中间特征图；循环执行如下操作，直至不存在剩余待融合特征子图的情况下，得到最终输出的第一中间特征图：

存在剩余待融合特征子图的情况下，将所述第一中间特征

图进行上采样，得到第二中间特征图；

从剩余待融合特征子图中选择最小目标尺度的待融合特征

子图和所述第二中间特征图进行融合处理，得到新的第一

中间特征图；

上采样子模块，用于将最终输出的第一中间特征图上采样至指定尺度，得到所述目标特征图。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。

28.一种车辆，包括如权利要求25所述的电子设备。