CN116189126A

CN116189126A - 场景识别方法、计算机设备、计算机可读存储介质及车辆

Info

Publication number: CN116189126A
Application number: CN202310080254.8A
Authority: CN
Inventors: 徐朋磊
Original assignee: Anhui Weilai Zhijia Technology Co Ltd
Current assignee: Anhui Weilai Zhijia Technology Co Ltd
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-05-30

Abstract

本发明涉及自动驾驶技术领域，具体提供一种场景识别方法、计算机设备、计算机可读存储介质及车辆，旨在解决提高视觉识别失效场景的识别准确性、可扩展性并降低对计算资源消耗的问题。本发明提供的方法包括获取视觉传感器采集到的图像，通过多任务模型的共享特征提取网络提取图像的图像特征，并将图像特征输入至多任务模型的每个场景识别网络，通过每个场景识别网络并根据图像特征，分别对不同类型的视觉识别失效场景进行识别。通过这种方式，可以利用一个多任务模型对多个不同类型的视觉识别失效场景进行识别，无需为每类视觉识别失效场景分别建立任务模型，显著降低了对计算资源的消耗，同时也提高了对视觉识别失效场景识别的扩展性和准确性。

Description

场景识别方法、计算机设备、计算机可读存储介质及车辆

技术领域

本发明涉及自动驾驶技术领域，具体涉及一种场景识别方法、计算机设备、计算机可读存储介质及车辆。

背景技术

在对车辆进行自动驾驶控制时通常会利用视觉传感器采集图像，对图像进行障碍物和车道线等目标进行识别。但是，在车辆行驶过程中可能会遇到雨天、雾天等情况导致视觉传感器的成像质量较差，导致车辆无法从图像中准确地识别出障碍物和车道线等目标，即发生视觉识别失效。对此，需要准确地识别出车辆是否处于会导致视觉识别失效的场景（如雨天），以确定车辆的控制方式，保证车辆安全。但是，目前常规的场景识别方法对计算资源的消耗比较大，可扩展性较低，识别出来的场景不能贴近实际的视觉识别失效场景。

相应地，本领域需要一种新的技术方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决提高视觉识别失效场景的识别准确性、可扩展性并降低对计算资源消耗的技术问题的场景识别方法、计算机设备、计算机可读存储介质及车辆。

在第一方面，提供一种场景识别方法，所述方法包括：

获取视觉传感器采集到的图像；

通过多任务模型的共享特征提取网络提取所述图像的图像特征，并将所述图像特征输入至所述多任务模型的每个场景识别网络；

通过每个场景识别网络并根据所述图像特征，分别对不同类型的视觉识别失效场景进行识别。

在上述场景识别方法的一个技术方案中，“通过多任务模型的共享特征提取网络提取所述图像的图像特征”的步骤包括：

通过所述共享特征提取网络的第一级特征提取网络，提取所述图像的第一级图像特征；

通过所述共享特征提取网络的第二级特征提取网络，对所述第一级图像特征进行特征提取，以获取第二级图像特征。

在上述场景识别方法的一个技术方案中，在“通过多任务模型的共享特征提取网络提取所述图像的图像特征”的步骤之后，所述方法还包括：

将所述第一级图像特征输入至所述多任务模型的每个目标识别网络；

通过每个目标识别网络并根据所述第一级图像特征，分别对不同类型的目标进行识别。

在上述场景识别方法的一个技术方案中，所述方法还包括通过下列方式构建所述第一级特征提取网络：

采用卷积核尺寸大于预设的尺寸阈值的大核卷积，建立大核卷积层；

根据所述大核卷积层，构建所述第一级特征提取网络。

在上述场景识别方法的一个技术方案中，所述方法还包括通过下列方式构建所述第二级特征提取网络：

建立多个残差块；

将多个残差块顺次连接，以构建所述第二级特征提取网络。

在上述场景识别方法的一个技术方案中，所述方法还包括通过下列方式构建所述场景识别网络：

分别建立卷积层、全局池化层和全连接层；

将所述卷积层、所述全局池化层和所述全连接层顺次连接，以构建所述场景识别网络。

在上述场景识别方法的一个技术方案中，所述方法还包括通过下列方式建立所述全连接层：

分别建立多个全连接子层；

将多个全连接子层顺次连接，以建立所述全连接层。

在上述场景识别方法的一个技术方案中，“通过每个场景识别网络并根据所述图像特征，分别对不同类型的视觉识别失效场景进行识别”的步骤具体包括：

通过与每个视觉识别失效场景的类型各自对应的场景识别网络并根据所述图像特征，分别对每个类型的视觉识别失效场景进行识别；

所述视觉识别失效场景的类型包括：雨天和/或视觉传感器的视野被全部遮挡和/或视觉传感器的视野被部分遮挡和/或车辆挡风玻璃存在霜冻。

在上述场景识别方法的一个技术方案中，“通过每个场景识别网络并根据所述图像特征，分别对不同类型的视觉识别失效场景进行识别”的步骤还包括：

通过雨天对应的场景识别网络对雨天进行识别并识别降雨等级。

在第二方面，提供一种计算机设备，该计算机设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述场景识别方法的技术方案中任一项技术方案所述的场景识别方法。

在第三方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述场景识别方法的技术方案中任一项技术方案所述的场景识别方法。

在第四方面，提供一种车辆，该车辆包括上述计算机设备的技术方案所述的计算机设备。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明提供的场景识别方法的技术方案中，可以获取视觉传感器采集到的图像，通过多任务模型的共享特征提取网络提取图像的图像特征，并将图像特征输入至多任务模型的每个场景识别网络，通过每个场景识别网络并根据图像特征，分别对不同类型的视觉识别失效场景进行识别。通过这种方式，可以利用一个多任务模型对多个不同类型的视觉识别失效场景进行识别，无需为每个类型的视觉识别失效场景分别建立一个任务模型，从而可以显著降低对计算资源的消耗。这种方式也提高了对视觉识别失效场景识别的扩展性。比如，如果需要对新增类型的视觉识别失效场景进行识别，只需要再增加一个相应的场景识别网络即可，使用这个新增的场景识别网络对新增类型的视觉识别失效场景进行识别。此外，基于视觉识别失效场景识别的高扩展性，还可以尽可能多地设置贴近实际的视觉识别失效场景的场景识别网络，进一步提高视觉识别失效场景的识别准确性。

进一步，在实施本发明提供的场景识别方法的技术方案中，还可以通过共享特征提取网络的第一级特征提取网络，提取图像的第一级图像特征，通过共享特征提取网络的第二级特征提取网络，对第一级图像特征进行特征提取，以获取第二级图像特征，并将第一级图像特征输入至多任务模型的每个目标识别网络。通过每个目标识别网络并根据第一级图像特征，分别对不同类型的目标进行识别；通过每个场景识别网络并根据第二级图像特征，分别对不同类型的视觉识别失效场景进行识别。

视觉识别失效场景识别与目标识别采用不同级别的图像特征进行识别，可以减小二者之间的相互干扰，因而，通过这种方式，可以在不影响视觉识别失效场景识别与目标识别准确性的前提下，将视觉识别失效场景识别与目标识别的任务融合到同一个任务模型中，避免视觉识别失效场景识别抢占目标识别的计算资源。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。其中：

图1是根据本发明的一个实施例的场景识别方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的通过共享特征提取网络提取图像特征的方法的主要步骤流程示意图；

图3是根据本发明的一个实施例的共享特征提取网络的主要结构示意图；

图4是根据本发明的一个实施例的目标识别方法的主要步骤流程示意图；

图5是根据本发明的一个实施例的计算机设备的主要结构示意图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“处理器”可以包括硬件、软件或者两者的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。

下面对本发明提供的场景识别方法的实施例进行说明。

参阅附图1，图1是根据本发明的一个实施例的场景识别方法的主要步骤流程示意图。如图1所示，本发明实施例中的场景识别方法主要包括下列步骤S101至步骤S103。

步骤S101：获取视觉传感器采集到的图像。

步骤S102：通过多任务模型的共享特征提取网络提取图像的图像特征，并将图像特征输入至多任务模型的每个场景识别网络。

共享特征提取网络是用于提取图像特征的神经网络，其将提取到的图像特征输入至所有场景识别网络，使得这些场景识别网络共享相同的图像特征。

步骤S103：通过每个场景识别网络并根据图像特征，分别对不同类型的视觉识别失效场景进行识别。

视觉识别失效场景是指会导致视觉识别失效的场景，比如雨天、雾天等场景，在这些场景下视觉传感器的成像质量会比较差，无法从图像中准确地识别出障碍物和车道线等目标。

每个场景识别网络与每个类型的视觉识别失效场景一一对应，可以通过与每个视觉识别失效场景的类型各自对应的场景识别网络并根据图像特征，分别对每个类型的视觉识别失效场景进行识别。

在一些实施方式中，视觉识别失效场景的类型可以包括：雨天和/或视觉传感器的视野被全部遮挡和/或视觉传感器的视野被部分遮挡和/或车辆挡风玻璃存在霜冻等。例如，若视觉识别失效场景的类型同时包含上述四种类型，那么就需要在多任务模型建立四个场景识别网络，分别用于对每类视觉识别失效场景进行识别。

由于不同大小的雨量，对视觉传感器成像质量的影响不同，因此，视觉识别失效的程度也会不同。对此，在一些优选实施方式中，在通过雨天对应的场景识别网络对雨天进行识别是还可以识别降雨等级。也就是说，根据降雨等级将雨天这种视觉识别失效场景再次划分成多个视觉识别失效子场景，这些子场景会更加贴近真实的视觉识别失效场景，这样再根据这些子场景进行车辆控制时能够更加可靠地保证车辆安全。

为了保证每个场景识别网络能够准确地识别出是否存在相应类型的视觉识别失效场景，可以将视觉传感器在每类视觉识别失效场景下采集的图像作为训练样本，然后采用这些训练样本分别对每个场景识别网络进行识别训练。在本发明实施例中可以采用机器学习技术领域中常规的网络训练方法对场景识别网络进行训练，本发明实施例对此不进行具体限定。

基于上述步骤S101至步骤S103所述的方法，可以利用一个多任务模型对多个不同类型的视觉识别失效场景进行识别，无需为每个类型的视觉识别失效场景分别建立一个任务模型，从而可以显著降低对计算资源的消耗。如果需要对新增类型的视觉识别失效场景进行识别，只需要再增加一个相应的场景识别网络即可，具备较高的可扩展性。

下面对上述步骤S102作进一步说明。

在本发明实施例中共享特征提取网络可以是一个单独的网络，也可以是由两级网络构成的组合网络。若共享特征提取网络是一个单独的网络可以直接通过这个单独的网络提取图像特征；若共享特征提取网络是组合网络，其可以包括顺次连接的第一级特征提取网络和第二级特征提取网络。参阅附图2，在提取图像特征时可以通过下列步骤S1021至步骤S1022，来提取图像特征。

步骤S1021：通过共享特征提取网络的第一级特征提取网络，提取图像的第一级图像特征。

步骤S1022：通过共享特征提取网络的第二级特征提取网络，对第一级图像特征进行特征提取，以获取第二级图像特征。

基于上述步骤S1021至步骤S1022所述的方法，不仅可以利用第二级特征提取网络得到满足场景识别任务需求的图像特征，还可以利用第一级特征提取网络与其他识别任务（如目标识别任务）的识别网络融合在一起，形成同时包含场景识别任务和其他识别任务的多任务模型。具体地，基于上述方法，可以灵活地设定第一级图像特征和第二级图像特征的特征尺度，既满足了场景识别网络对图像特征尺度的需求，当需要在多任务模型中接入其他识别任务的识别网络时也可以根据这些识别网络对图像特征尺度的需求来设定第一级图像特征的尺度，将第一级图像特征输入至这些识别网络中，完成相应的识别任务，不仅提高了多任务模型的任务扩展性，还可以避免这些识别任务与场景识别任务相互干扰，从而可以同时提高这些识别任务与场景识别任务的准确性。

进一步，参阅附图3，在一些优选实施方式中，除了场景识别网络，多任务模型还包括多个目标识别网络。对此，可以通过下列步骤S201至步骤S202，获取共享特征提取网络提取到的图像特征进行目标识别。

步骤S201：将第一级图像特征输入至多任务模型的每个目标识别网络。

步骤S202：通过每个目标识别网络并根据第一级图像特征，分别对不同类型的目标进行识别。

每个目标识别网络与每个类型的目标一一对应。与场景识别网络类似的是，为了保证每个目标识别网络能够准确地识别出是否存在相应类型的目标，也可以将视觉传感器采集的每类目标的图像作为训练样本，然后采用这些训练样本分别对每个目标识别网络进行识别训练。在本发明实施例中可以采用机器学习技术领域中常规的网络训练方法对目标识别网络进行训练，本发明实施例对此不进行具体限定。

在一些实施方式中，目标类型可以包括：静态障碍物和/或动态障碍物和/或红绿灯和/或车道线和/或交通牌等。例如，若目标类型同时包含上述五种类型，那么就需要在多任务模型建立五个目标识别网络，分别用于对每类目标进行识别。

下面分别对共享特征提取网络和场景识别网络的构建方法进行说明。

一、共享特征提取网络的构建方法

对于由第一级特征提取网络和第二级特征提取网络构建而成的共享特征提取网络，下面分别对第一级特征提取网络和第二级特征提取网络的构建方法进行说明。

1、第一级特征提取网络

在本发明实施例中可以采用卷积核尺寸大于预设的尺寸阈值的大核卷积，建立大核卷积层，再根据这个大核卷积层构建第一级特征提取网络。本领域技术人员可以根据实际需求灵活设置尺寸阈值的具体数值，本发明实施例对此不进行具体限定。例如，尺寸阈值可以是7×7。

通过上述大核卷积层可以提取到图像的浅层图像特征，这样可以根据不同识别任务（如目标识别任务和场景识别任务）对图像特征的尺度需求，再对该浅层图像特征进一步提取，得到满足各个尺度需求的深层图像特征，减少不同识别任务之间的相互干扰。

2、第二级特征提取网络

在本发明实施例中可以建立多个残差块（Residual blocks），再将多个残差块顺次连接，以构建第二级特征提取网络。本领域技术人员可以采用神经网络技术领域中常规结构的残差块构建第二级特征提取网络，本发明实施例不对残差块的结构作具体限定。

通过多个残差块，可以从浅层图像特征上进一步提取到图像的深层图像特征，从而满足场景识别任务对图像特征的尺度需求。

二、场景识别网络

在本发明实施例中可以分别建立卷积层、全局池化层和全连接层，然后将卷积层、全局池化层和全连接层顺次连接，以构建场景识别网络。每个场景识别网络都具备单独的卷积层、全局池化层和全连接层，而不是共享相同的卷积层、全局池化层和全连接层。

由于不同类型的视觉识别失效场景对图像特征的需求可能不同，因而，通过上述方式建立场景识别网络，就可以根据每类视觉识别失效场景对图像特征的需求，分别配置各自对应的场景识别网络中的卷积层、全局池化层和全连接层，避免在识别不同类型的视觉识别失效场景时产生干扰，从而可以提高每类视觉识别失效场景识别的准确性。

在一个优选实施方式中，在构建全连接层时可以分别建立多个全连接子层，然后将多个全连接子层顺次连接，以构建成全连接层。通过这种方式，可以进一步减少卷积层、全局池化层输出的图像特征对场景识别结果的影响，提高场景识别网络的鲁棒性。

需要说明的是，本领域技术人员可以采用神经网络技术领域中常规结构的卷积层、全局池化层和全连接层（或全连接子层），来构建场景识别网络，本发明实施例对此不进行具体限定。

在通过上述方法构建完成共享特征提取网络和场景识别网络之后，可以将共享特征提取网络与场景识别网络连接，形成多任务模型。如图4所示，共享特征提取网络的输出端可以是最后一级残差块的输出端，场景识别网络的输入端可以是卷积层的输入端，将上述残差块的输出端与卷积层的输入端连接，形成多任务模型。其中，在图4所示的场景识别网络中，场景识别网络还包括一个激活函数层，该激活函数层采用Sigmoid函数，全连接层的输出结果会输入至这个激活函数层，激活函数层可以根据全连接层的输出结果输出是否存在视觉识别失效场景的概率，根据概率确定出是否识别到视觉识别失效场景。例如，若概率大于预设的概率阈值，则识别到视觉识别失效场景；否则未识别到视觉识别失效场景。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时（并行）执行或以其他顺序执行，这些调整之后的方案与本发明中描述的技术方案属于等同技术方案，因此也将落入本发明的保护范围之内。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种计算机设备。

参阅附图5，图5是根据本发明的一个计算机设备实施例的主要结构示意图。如图5所示，本发明实施例中的计算机设备主要包括存储装置和处理器，存储装置可以被配置成存储执行上述方法实施例的场景识别方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的场景识别方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。

在本发明实施例中计算机设备可以是包括各种电子设备形成的控制装置设备。在一些可能的实施方式中，计算机设备可以包括多个存储装置和多个处理器。而执行上述方法实施例的场景识别方法的程序可以被分割成多段子程序，每段子程序分别可以由处理器加载并运行以执行上述方法实施例的场景识别方法的不同步骤。具体地，每段子程序可以分别存储在不同的存储装置中，每个处理器可以被配置成用于执行一个或多个存储装置中的程序，以共同实现上述方法实施例的场景识别方法，即每个处理器分别执行上述方法实施例的场景识别方法的不同步骤，来共同实现上述方法实施例的场景识别方法。

上述多个处理器可以是部署于同一个设备上的处理器，例如上述计算机设备可以是由多个处理器组成的高性能设备，上述多个处理器可以是该高性能设备上配置的处理器。此外，上述多个处理器也可以是部署于不同设备上的处理器。

进一步，本发明还提供了一种计算机可读存储介质。

在根据本发明的一个计算机可读存储介质的实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的场景识别方法的程序，该程序可以由处理器加载并运行以实现上述场景识别方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，本发明还提供了一种车辆。

在根据本发明的一个车辆的实施例中，车辆可以包括上述计算机设备实施例所述的计算机设备。在本实施例中车辆可以是自动驾驶车辆、无人车等车辆。此外，按照动力源类型划分，本实施例中车辆可以是燃油车、电动车、电能与燃油混合的混动车或使用其他新能源的车辆等。

至此，已经结合附图所示的一个实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种场景识别方法，其特征在于，所述方法包括：

获取视觉传感器采集到的图像；

2.根据权利要求1所述的场景识别方法，其特征在于，“通过多任务模型的共享特征提取网络提取所述图像的图像特征”的步骤包括：

3.根据权利要求2所述的场景识别方法，其特征在于，在“通过多任务模型的共享特征提取网络提取所述图像的图像特征”的步骤之后，所述方法还包括：

4.根据权利要求2所述的场景识别方法，其特征在于，所述方法还包括通过下列方式构建所述第一级特征提取网络：

根据所述大核卷积层，构建所述第一级特征提取网络。

5.根据权利要求2所述的场景识别方法，其特征在于，所述方法还包括通过下列方式构建所述第二级特征提取网络：

建立多个残差块；

将多个残差块顺次连接，以构建所述第二级特征提取网络。

6.根据权利要求1所述的场景识别方法，其特征在于，所述方法还包括通过下列方式构建所述场景识别网络：

分别建立卷积层、全局池化层和全连接层；

7.根据权利要求6所述的场景识别方法，其特征在于，所述方法还包括通过下列方式建立所述全连接层：

分别建立多个全连接子层；

将多个全连接子层顺次连接，以建立所述全连接层。

8.根据权利要求1所述的场景识别方法，其特征在于，“通过每个场景识别网络并根据所述图像特征，分别对不同类型的视觉识别失效场景进行识别”的步骤具体包括：

9.根据权利要求8所述的场景识别方法，其特征在于，“通过每个场景识别网络并根据所述图像特征，分别对不同类型的视觉识别失效场景进行识别”的步骤还包括：

10.一种计算机设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至9中任一项所述的场景识别方法。

11.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至9中任一项所述的场景识别方法。

12.一种车辆，其特征在于，所述车辆包括权利要求10所述的计算机设备。