CN115359460B

CN115359460B - 用于车辆的图像识别方法、装置、车辆和存储介质

Info

Publication number: CN115359460B
Application number: CN202211288067.0A
Authority: CN
Inventors: 陈吕劼
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-02-17
Anticipated expiration: 2042-10-20
Also published as: CN115359460A

Abstract

本公开提出一种用于车辆的图像识别方法、装置、车辆和存储介质，车辆包括：多个摄像装置，该方法包括：获取待处理图像，其中，待处理图像由多个初始图像生成，初始图像由摄像装置采集，确定待处理图像的与每种尺度对应的子图像特征，根据多个子图像特征识别待处理图像的目标图像特征，能够提升图像特征识别效果。

Description

用于车辆的图像识别方法、装置、车辆和存储介质

技术领域

本公开涉及自动驾驶技术领域，具体涉及一种用于车辆的图像识别方法、装置、车辆和存储介质。

背景技术

自动驾驶车辆往往会配备大量的车载式摄像装置，以感知全周向的外部环境，通常先对各摄像装置采集的图像进行独立的特征感知（例如，通过深度学习中的主干（Backbone）网络对每个摄像装置采集的图像进行特征提取，以对每个摄像装置所采集图像进行独立的特征感知），再进一步融合对多个摄像装置所采集图像分别感知所得的多个图像特征，实现特征层面的融合。

这种方式下，会对特征后融合带来较大的挑战，导致图像特征识别效果不佳。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本公开的目的在于提出一种用于车辆的图像识别方法、装置、车辆和存储介质，能够提升图像特征识别效果。

本公开第一方面实施例提出的用于车辆的图像识别方法，所述车辆包括：多个摄像装置，该方法包括：获取待处理图像，其中，所述待处理图像由多个初始图像生成，所述初始图像由所述摄像装置采集；确定所述待处理图像的与每种尺度对应的子图像特征；根据多个所述子图像特征识别所述待处理图像的目标图像特征。

本公开第一方面实施例提出的用于车辆的图像识别方法，通过获取待处理图像，其中，待处理图像由多个初始图像生成，初始图像由摄像装置采集，并确定待处理图像的与每种尺度对应的子图像特征，以及根据多个子图像特征识别待处理图像的目标图像特征，能够提升图像特征识别效果。

本公开第二方面实施例提出的用于车辆的图像识别装置，包括：获取模块，用于获取待处理图像，其中，所述待处理图像由多个初始图像生成，所述初始图像由所述摄像装置采集；确定模块，用于确定所述待处理图像的与每种尺度对应的子图像特征；识别模块，用于根据多个所述子图像特征识别所述待处理图像的目标图像特征。

本公开第二方面实施例提出的用于车辆的图像识别装置，通过获取待处理图像，其中，待处理图像由多个初始图像生成，初始图像由摄像装置采集，并确定待处理图像的与每种尺度对应的子图像特征，以及根据多个子图像特征识别待处理图像的目标图像特征，能够提升图像特征识别效果。

本公开第三方面实施例提出的车辆，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本公开第一方面实施例提出的用于车辆的图像识别方法。

本公开第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开第一方面实施例提出的用于车辆的图像识别方法。

本公开第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本公开第一方面实施例提出的用于车辆的图像识别方法。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本公开一实施例提出的用于车辆的图像识别方法的流程示意图；

图2是本公开另一实施例提出的用于车辆的图像识别方法的流程示意图；

图3是本公开实施例中图像拼接效果示意图；

图4是本公开另一实施例提出的用于车辆的图像识别方法的流程示意图；

图5是本公开实施例中特征提取模型的结构示意图；

图6是本公开实施例中自注意力模块的结构示意图；

图7是本公开实施例中第一特征提取子模型的特征识别过程示意图；

图8是本公开一实施例提出的用于车辆的图像识别装置的结构示意图；

图9是本公开另一实施例提出的用于车辆的图像识别装置的结构示意图；

图10是本公开一实施例提出的车辆的结构示意图；

图11示出了适于用来实现本公开实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本公开，而不能理解为对本公开的限制。相反，本公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本公开一实施例提出的用于车辆的图像识别方法的流程示意图。

车辆包括：多个摄像装置，该多个摄像装置可以是用于全周向的外部环境感知。

其中，需要说明的是，本实施例的用于车辆的图像识别方法的执行主体为用于车辆的图像识别装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在车辆（比如配置在车载设备中，或者集成至车辆的控制装置）中，或者还可以配置在云端设备、终端设备，对此不做限制。

本公开实施例中的用于车辆的图像识别方法可以应用于自动驾驶领域，在车辆的自动驾驶过程中，车辆的多个摄像装置可以分别捕获多个初始图像，本公开实施例支持在特征感知之前，即对多个摄像装置分别采集的多个初始图像进行整合处理，由多个初始图像生成一个整体的图像作为待处理图像，而后可以对整体的图像（即待处理图像）进行特征提取，以实现进行多摄像装置的图像的特征融合学习，能够较大程度地提升特征融合的效率，提升图像特征识别效果。

以基于深度学习中主干（Backbone）网络进行特征提取进行示例，相对于相关技术中车辆的每个相机（即摄像装置）的图像是独立通过主干（Backbone）网络进行特征提取，而后再进行特征层面的融合，本公开实施例在车辆的自动驾驶过程中，对车辆的多个摄像装置分别采集的多个初始图像进行了整合处理，由多个初始图像生成一个整体的图像作为待处理图像，而后，基于主干（Backbone）网络对整体的图像进行特征提取，以实现进行多相机图像的融合学习，其中，基于主干（Backbone）网络对整体的图像进行特征提取，可以例如是基于主干（Backbone）网络对待处理图像进行特征融合学习，即可以是确定待处理图像的与每种尺度对应的子图像特征，根据多个子图像特征识别待处理图像的目标图像特征，可以参见下述描述。

如图1所示，该用于车辆的图像识别方法，包括：

S101：获取待处理图像，其中，待处理图像由多个初始图像生成，初始图像由摄像装置采集。

其中，车辆的各个摄像装置可以动态采集场景的图像，则由摄像装置所采集图像可以被称为初始图像。

本公开实施例中可以对至少部分初始图像进行相应的合成、融合、拼接等处理，该处理所得图像可以被称为待处理图像，并在获得待处理图像之后，基于待处理图像识别图像特征。

由于各个初始图像是相应摄像装置基于自身视角、位置、坐标等信息所采集场景中局部画面的图像，则首先对多个初始图像进行整合处理，能够便于后续准确地识别到场景的全局信息。

S102：确定待处理图像的与每种尺度对应的子图像特征。

可以理解的是，由于场景中可能会包含各种类型不同的对象（比如、道路、树木、周围车辆、车道标识等等），则可以从待处理图像中识别出不同尺度的图像特征（比如图像中对象特征、对象的像素特征等等），该相应尺度的图像特征，即可以被称为一种尺度对应的子图像特征。

S103：根据多个子图像特征识别待处理图像的目标图像特征。

上述在确定待处理图像的与每种尺度对应的子图像特征之后，可以对多个子图像特征再进行融合处理，以得到待处理图像中所包含的场景的全局信息。

本实施例中，通过获取待处理图像，其中，待处理图像由多个初始图像生成，初始图像由摄像装置采集，并确定待处理图像的与每种尺度对应的子图像特征，以及根据多个子图像特征识别待处理图像的目标图像特征，能够提升图像特征识别效果。

图2是本公开另一实施例提出的用于车辆的图像识别方法的流程示意图。

如图2所示，该用于车辆的图像识别方法，包括：

S201：获取多个摄像装置分别采集的多个初始图像。

针对S201的描述说明可以具体参见上述实施例，在此不再赘述。

S202：对多个初始图像进行拼接，得到待处理图像。

可选地，一些实施例中，对多个初始图像进行拼接，得到待处理图像，可以是确定与每个初始图像对应的场景语义，并根据场景语义，确定与初始图像对应的拼接位置，根据多个拼接位置对多个初始图像进行拼接，得到待处理图像，使得拼接所得待处理图像能够准确地呈现出场景的全局信息，保证场景中不同对象的空间语义信息能够被准确地体现。

其中，场景语义可以用于描述初始图像中所包含的场景的局部信息，根据场景语义可以确定出相应初始图像待被拼接至的位置，该待被拼接至的位置，可以被称为拼接位置。

可选地，一些实施例中，初始图像包括：垂直边，对多个初始图像进行拼接，得到待处理图像，可以是对至少两个初始图像的垂直边进行拼接，得到待处理图像，从而提升图像拼接的便捷性。

举例而言，如图3所示，图3是本公开实施例中图像拼接效果示意图，在图3中，是基于每个初始图像的垂直边对图像进行拼接处理，给定 N （在图3所示中，N可以取值为3）张尺寸为h * w 的初始图像（每个初始图像分别由一个摄像装置采集），先将N张图像拼接为一张 H * W 的周视图像，由于进行有重叠区域的水平拼接，因此 H 等于 h，W < N * w。图3中示出了以三张初始图像为例进行拼接的效果（有交叉区域）示意。

S203：将待处理图像输入至特征提取模型之中，得到特征提取模型输出的与每种尺度对应的子图像特征。

其中，特征提取模型可以是人工智能模型，具体例如为神经网络模型、机器学习模型等，该特征提取模型的模型网络，即可以被视为主干（Backbone）网络，用于对整体的图像（即待处理图像）进行特征提取，对此不做限制。

本公开实施例中的特征提取模型可以和卷积神经网络类似，能够输出待处理图像的多尺度特征，便于对不同类型、不同尺寸的对象进行特征学习。

其中，特征提取模型可以是预先训练得到的，并且是对待处理图像进行场景的全局信息的识别，从而使得识别所得子图像特征能够包含场景的全局信息。

一些实施例中，在将待处理图像输入至特征提取模型之前，还可以对待处理图像进行切分处理，得到多个图像切片，而后将多个图像切片一并输入至特征提取模型中，对此不做限制。

S204：根据多个子图像特征识别待处理图像的目标图像特征。

针对S204的描述说明可以具体参见上述实施例，在此不再赘述。

本实施例中，能够提升图像特征识别效果。使得拼接所得待处理图像能够准确地呈现出场景的全局信息，保证场景中不同对象的空间语义信息能够被准确地体现。提升图像拼接的便捷性。能够输出待处理图像的多尺度特征，便于对不同类型、不同尺寸的对象进行特征学习。并且是对待处理图像进行场景的全局信息的识别，从而使得识别所得子图像特征能够包含场景的全局信息。

图4是本公开另一实施例提出的用于车辆的图像识别方法的流程示意图。

如图4所示，该用于车辆的图像识别方法，包括：

S401：获取待处理图像，其中，待处理图像由多个初始图像生成，初始图像由摄像装置采集。

针对S401的描述说明可以具体参见上述实施例，在此不再赘述。

S402：将待处理图像输入至第一特征提取子模型之中，得到第一特征提取子模型输出的与第一尺度对应的子图像特征，其中，第一特征提取子模型属于多个特征提取子模型。

本实施例中的特征提取模型可以包括：多个特征提取子模型，每个特征提取子模型用于提取与一种尺度对应的子图像特征。

如图5所示，图5是本公开实施例中特征提取模型的结构示意图。其中，待处理图像可以被切片得到三个周视图像，而后输入至特征提取模型中，该特征提取模型可以包括多个特征提取子模型（特征提取子模型，例如图5中的特征提取模块1、特征提取模块2、特征提取模块3、特征提取模块4，对特征提取模块的数量不做限制），每个特征提取子模型用于提取与一种尺度对应的子图像特征，前一特征提取子模型所提取的与一种尺度对应的子图像特征，可以被输入至下一个特征提取子模型中，下一个特征提取子模型能够对前一特征提取子模型所提取的与一种尺度对应的子图像特征进行下采样处理，得到每种尺度对应的子图像特征。

其中，特征提取子模型可以包含多层相同的自注意力模块，而自注意力模块的结构可以如图6所示，图6是本公开实施例中自注意力模块的结构示意图，自注意力模块包括：两个归一化层，十字窗式自注意力学习，以及多层感知机，即每个特征提取子模型会有多层相同的自注意力模块对切块后的图像进行特征学习，其中，特征提取子模型，例如上述图5中的特征提取模块1、特征提取模块2、特征提取模块3、特征提取模块4，对特征提取模块的数量不做限制，则每个特征提取模块均可以包含多层相同的自注意力模块。

可选地，一些实施例中，将待处理图像输入至第一特征提取子模型之中，得到第一特征提取子模型输出的与第一尺度对应的子图像特征，可以是确定与待处理图像对应的注意力区域信息，并将待处理图像和注意力区域信息输入至第一特征提取子模型中，以及获取第一特征提取子模型基于注意力区域信息对待处理图像进行特征识别所输出的与第一尺度对应的子图像特征，使得第一特征提取子模型能够基于更大的感知范围来识别子图像特征，与全局自注意力机制相比，能够较大程度降低计算复杂度。

如图7所示，图7是本公开实施例中第一特征提取子模型的特征识别过程示意图，以图7中格状的条形图像块为例，其自注意力的范围为其纵向和横向一定宽度 d （d=3）内的图像块，由于这个宽度 d 远小于图像尺度，所以第一特征提取子模型中的自注意力模块的复杂度由图像尺度的四次方降低为图像尺度的平方，并且自注意力机制能够一次性看到全周向的感知范围，通过一定层数的叠加，能够快速获取全局视野。

图7中的图像块的参数信息，即可以被称为注意力区域信息，比如格状的条形图像块的长度、宽度、位置等等，对此不做限制。

可选地，一些实施例中，确定与待处理图像对应的注意力区域信息，可以是确定从待处理图像中心区域为起始，并向至少一个方向延伸至待处理图像的图像边界的条形图像块，并确定用于描述条形图像块所覆盖的区域范围的信息，以及将区域范围的信息作为注意力区域信息，能够快速地获得注意力区域信息，降低特征提取子模型的特征识别的复杂度，便于特征提取子模型快速获取全局视野。

可选地，一些实施例中，至少一个方向包括：

水平方向，和/或垂直方向。

可选地，一些实施例中，条形图像块的宽度为预设宽度。

本公开实施例中，针对特征提取模型中的每一个特征提取子模型，均可以采用上述图示方式来进行特征识别，从而实现多层次、多尺度的特征识别过程。

S403：将与第一尺度对应的子图像特征输入至第二特征提取子模型之中，得到第二特征提取子模型输出的与第二尺度对应的子图像特征，其中，第二特征提取子模型属于多个特征提取子模型。

上述将待处理图像输入至第一特征提取子模型之中，得到第一特征提取子模型输出的与第一尺度对应的子图像特征之后，可以将与第一尺度对应的子图像特征输入至第二特征提取子模型之中，得到第二特征提取子模型输出的与第二尺度对应的子图像特征，其中，第二特征提取子模型对与第一尺度对应的子图像特征的识别处理过程，可以一并参见上述第一特征提取子模型对图像特征的识别处理过程，在此不再赘述。

S404：将第二特征提取子模型作为第一特征提取子模型，直至获取到多个特征提取子模型中的末一个特征提取子模型所输出相应尺度的子图像特征。

也即是说，针对特征提取模型中的每一个特征提取子模型，均采用如第一特征提取子模型的特征识别过程进行相应的特征识别处理，直至获取到多个特征提取子模型中的末一个特征提取子模型所输出相应尺度的子图像特征，则表示对待处理图像的子图像特征识别完成。

S405：根据多个子图像特征识别待处理图像的目标图像特征。

本实施例中，能够提升图像特征识别效果。能够输出待处理图像的多尺度的子图像特征，便于对场景中不同类型、不同尺寸大小的对象进行特征学习，同时由于各个特征提取子模型可以不断地进行下采样，因此图像特征的尺度逐步缩小，能够减少自注意力机制的显存消耗。在自动驾驶领域实现进行多图像的融合学习，最大限度的提升模型的融合效率。还能够一次性获得所有图像的全局感知野，具有更强的感知能力。并且能够有效降低计算复杂度，使得能够在更大尺度的图像上进行特征学习。特征识别效率更高，仅需要非常少的层数叠加即可获得全局视野。对于下游任务具有非常好的适配性，可以进行无缝替换。

图8是本公开一实施例提出的用于车辆的图像识别装置的结构示意图。

如图8所示，该用于车辆的图像识别装置80，包括：

获取模块801，用于获取待处理图像，其中，待处理图像由多个初始图像生成，初始图像由摄像装置采集；

确定模块802，用于确定待处理图像的与每种尺度对应的子图像特征；

识别模块803，用于根据多个子图像特征识别待处理图像的目标图像特征。

在本公开的一些实施例中，如图9所示，图9是本公开另一实施例提出的用于车辆的图像识别装置的结构示意图，获取模块801，包括：

获取子模块8011，用于获取多个摄像装置分别采集的多个初始图像；

处理子模块8012，用于对多个初始图像进行拼接，得到待处理图像。

在本公开的一些实施例中，处理子模块8012，具体用于：

确定与每个初始图像对应的场景语义；

根据场景语义，确定与初始图像对应的拼接位置；

根据多个拼接位置对多个初始图像进行拼接，得到待处理图像。

在本公开的一些实施例中，初始图像包括：垂直边，处理子模块8012，还用于：

对至少两个初始图像的垂直边进行拼接，得到待处理图像。

在本公开的一些实施例中，确定模块802，具体用于：

将待处理图像输入至特征提取模型之中，得到特征提取模型输出的与每种尺度对应的子图像特征。

在本公开的一些实施例中，特征提取模型包括：多个特征提取子模型，每个特征提取子模型用于提取与一种尺度对应的子图像特征；其中，确定模块802，还用于：

将待处理图像输入至第一特征提取子模型之中，得到第一特征提取子模型输出的与第一尺度对应的子图像特征，其中，第一特征提取子模型属于多个特征提取子模型；

将与第一尺度对应的子图像特征输入至第二特征提取子模型之中，得到第二特征提取子模型输出的与第二尺度对应的子图像特征，其中，第二特征提取子模型属于多个特征提取子模型；

将第二特征提取子模型作为第一特征提取子模型，直至获取到多个特征提取子模型中的末一个特征提取子模型所输出相应尺度的子图像特征。

在本公开的一些实施例中，确定模块802，还用于：

确定与待处理图像对应的注意力区域信息；

将待处理图像和注意力区域信息输入至第一特征提取子模型中；

获取第一特征提取子模型基于注意力区域信息对待处理图像进行特征识别所输出的与第一尺度对应的子图像特征。

在本公开的一些实施例中，确定模块802，还用于：

确定从待处理图像中心区域为起始，并向至少一个方向延伸至待处理图像的图像边界的条形图像块；

确定用于描述条形图像块所覆盖的区域范围的信息；

将区域范围的信息作为注意力区域信息。

在本公开的一些实施例中，至少一个方向包括：

水平方向，和/或垂直方向。

在本公开的一些实施例中，条形图像块的宽度为预设宽度。

需要说明的是，前述对用于车辆的图像识别方法的解释说明也适用于本实施例的用于车辆的图像识别装置，此处不再赘述。

图10是本公开一实施例提出的车辆的结构示意图。

如图10所示，该车辆100，包括：

处理器1001；用于存储处理器1001可执行指令的存储器1002；其中，处理器1001被配置为：实现本公开上述实施例提出的用于车辆的图像识别方法。

与上述图1至图7实施例提供的用于车辆的图像识别方法相对应，本公开还提供一种车辆，由于本公开实施例提供的车辆与上述图1至图7实施例提供的用于车辆的图像识别方法相对应，因此在用于车辆的图像识别方法的实施方式也适用于本公开实施例提供的车辆，在本公开实施例中不再详细描述。

图11示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图11显示的计算机设备12仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（Industry StandardArchitecture；以下简称：ISA）总线，微通道体系结构（Micro Channel Architecture；以下简称：MAC）总线，增强型ISA总线、视频电子标准协会（Video Electronics StandardsAssociation；以下简称：VESA）局域总线以及外围组件互连（Peripheral ComponentInterconnection；以下简称：PCI）总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（Random Access Memory；以下简称：RAM）30和/或高速缓存存储器32。计算机设备12可以进一步包括其他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图11未显示，通常称为“硬盘驱动器”）。

尽管图11中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如：光盘只读存储器（Compact Disc Read OnlyMemory；以下简称：CD-ROM）、数字多功能只读光盘（Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM）或者其他光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其他程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得人体能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络（例如局域网（Local Area Network；以下简称：LAN），广域网（Wide Area Network；以下简称：WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的用于车辆的图像识别方法。

为了实现上述实施例，本公开还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开前述实施例提出的用于车辆的图像识别方法。

为了实现上述实施例，本公开还提出一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行如本公开前述实施例提出的用于车辆的图像识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

需要说明的是，在本公开的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定是指相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于车辆的图像识别方法，其特征在于，所述车辆包括：多个摄像装置，所述方法包括：

获取待处理图像，其中，所述待处理图像由多个初始图像生成，所述初始图像由所述摄像装置采集；

将所述待处理图像输入至特征提取模型之中，得到所述特征提取模型输出的与每种尺度对应的子图像特征；

根据多个所述子图像特征识别所述待处理图像的目标图像特征；

所述特征提取模型包括：多个特征提取子模型，所述特征提取子模型包含多层相同的自注意力模块，所述自注意力模块包括：两个归一化层，十字窗式自注意力学习，以及多层感知机，每个所述特征提取子模型用于提取与一种尺度对应的子图像特征；其中，所述将所述待处理图像输入至特征提取模型之中，得到所述特征提取模型输出的与每种尺度对应的子图像特征，包括：

将所述待处理图像输入至第一特征提取子模型之中，得到所述第一特征提取子模型输出的与第一尺度对应的子图像特征，其中，所述第一特征提取子模型属于所述多个特征提取子模型；

将所述与第一尺度对应的子图像特征输入至第二特征提取子模型之中，得到所述第二特征提取子模型输出的与第二尺度对应的子图像特征，其中，所述第二特征提取子模型属于所述多个特征提取子模型；

将所述第二特征提取子模型作为所述第一特征提取子模型，直至获取到所述多个特征提取子模型中的末一个所述特征提取子模型所输出相应尺度的子图像特征。

2.如权利要求1所述的方法，其特征在于，所述获取待处理图像，包括：

获取所述多个摄像装置分别采集的多个初始图像；

对所述多个初始图像进行拼接，得到所述待处理图像。

3.如权利要求2所述的方法，其特征在于，所述对所述多个初始图像进行拼接，得到所述待处理图像，包括：

确定与每个所述初始图像对应的场景语义；

根据所述场景语义，确定与所述初始图像对应的拼接位置；

根据多个所述拼接位置对所述多个初始图像进行拼接，得到所述待处理图像。

4.如权利要求2所述的方法，其特征在于，所述初始图像包括：垂直边，所述对所述多个初始图像进行拼接，得到所述待处理图像，包括：

对至少两个所述初始图像的所述垂直边进行拼接，得到所述待处理图像。

5.如权利要求1所述的方法，其特征在于，所述将所述待处理图像输入至第一特征提取子模型之中，得到所述第一特征提取子模型输出的与第一尺度对应的子图像特征，包括：

确定与所述待处理图像对应的注意力区域信息；

将所述待处理图像和所述注意力区域信息输入至所述第一特征提取子模型中；

获取所述第一特征提取子模型基于所述注意力区域信息对所述待处理图像进行特征识别所输出的与第一尺度对应的子图像特征。

6.如权利要求5所述的方法，其特征在于，所述确定与所述待处理图像对应的注意力区域信息，包括：

确定从所述待处理图像中心区域为起始，并向至少一个方向延伸至所述待处理图像的图像边界的条形图像块；

确定用于描述所述条形图像块所覆盖的区域范围的信息；

将所述区域范围的信息作为所述注意力区域信息。

7.如权利要求6所述的方法，其特征在于，所述至少一个方向包括：

水平方向，和/或垂直方向。

8.如权利要求6所述的方法，其特征在于，所述条形图像块的宽度为预设宽度。

9.一种用于车辆的图像识别装置，其特征在于，所述车辆包括：多个摄像装置，所述装置包括：

获取模块，用于获取待处理图像，其中，所述待处理图像由多个初始图像生成，所述初始图像由所述摄像装置采集；

确定模块，用于将所述待处理图像输入至特征提取模型之中，得到所述特征提取模型输出的与每种尺度对应的子图像特征；

识别模块，用于根据多个所述子图像特征识别所述待处理图像的目标图像特征；

所述特征提取模型包括：多个特征提取子模型，所述特征提取子模型包含多层相同的自注意力模块，所述自注意力模块包括：两个归一化层，十字窗式自注意力学习，以及多层感知机，每个所述特征提取子模型用于提取与一种尺度对应的子图像特征；其中，所述确定模块，还用于：

10.如权利要求9所述的装置，其特征在于，所述获取模块，包括：

获取子模块，用于获取所述多个摄像装置分别采集的多个初始图像；

处理子模块，用于对所述多个初始图像进行拼接，得到所述待处理图像。

11.如权利要求10所述的装置，其特征在于，所述处理子模块，具体用于：

确定与每个所述初始图像对应的场景语义；

根据所述场景语义，确定与所述初始图像对应的拼接位置；

12.如权利要求10所述的装置，其特征在于，所述初始图像包括：垂直边，所述处理子模块，还用于：

13.如权利要求9所述的装置，其特征在于，所述确定模块，还用于：

确定与所述待处理图像对应的注意力区域信息；

14.如权利要求13所述的装置，其特征在于，所述确定模块，还用于：

确定用于描述所述条形图像块所覆盖的区域范围的信息；

将所述区域范围的信息作为所述注意力区域信息。

15.如权利要求14所述的装置，其特征在于，所述至少一个方向包括：

水平方向，和/或垂直方向。

16.如权利要求14所述的装置，其特征在于，所述条形图像块的宽度为预设宽度。

17.一种车辆，其特征在于，包括：

处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：实现上述权利要求1-8中任一项所述用于车辆的图像识别方法的步骤。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。