CN113743340B

CN113743340B - 用于自动驾驶的计算机视觉网络模型优化方法及相关装置

Info

Publication number: CN113743340B
Application number: CN202111055263.9A
Authority: CN
Inventors: 罗壮; 张雪; 张海强; 李成军
Original assignee: Zhidao Network Technology Beijing Co Ltd
Current assignee: Zhidao Network Technology Beijing Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2023-09-26
Anticipated expiration: 2041-09-09
Also published as: CN113743340A

Abstract

本申请涉及一种用于自动驾驶的计算机视觉网络模型优化方法及相关装置。该方法包括：获取第一计算机视觉网络模型；将第一计算机视觉网络模型改造为第二计算机视觉网络模型；第一计算机视觉网络模型与第二计算机视觉网络模型处理不同的视觉任务；将预设参数向量引入至第二计算机视觉网络模型的主干网络；训练引入有预设参数向量的第二计算机视觉网络模型，得到训练完成后的第二计算机视觉网络模型；提取训练完成后的第二计算机视觉网络模型中的预设参数向量，得到隐式知识参数向量；将隐式知识参数向量引入至第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型。本申请提供的方案，能够提升模型的判别能力，提升检测精度。

Description

用于自动驾驶的计算机视觉网络模型优化方法及相关装置

技术领域

本申请涉及导航技术领域，尤其涉及一种用于自动驾驶的计算机视觉网络模型优化方法及相关装置。

背景技术

计算机视觉（Computer Vision）是研究如何使机器“看”的科学，更进一步的说，是使用摄像机机和电脑代替人眼对目标进行识别、跟踪和测量等的机器视觉，并通过电脑处理成为更适合人眼观察或传送给仪器检测的图像。目前，计算机视觉技术已广泛应用于汽车导航领域，为自动驾驶功能的实现提供了支撑。计算机视觉的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的信息。计算机视觉任务的主要类型有以下几种：目标检测、语义分割、实例分割、图像分类等。不同的计算机视觉任务通过不同的计算机视觉网络模型处理解决，计算机视觉网络模型可以包括：目标检测模型、语义分割模型、实例分割模型、图像分类模型等。以目标检测模型为例，目标检测模型可以检测出输入图像中存在的目标物体的位置、大小及类别。

站在人类视觉处理图像信息的角度而言，人类在查找图像中的目标物体时，除了观察图像本身之外，还会结合自身在处理其它问题时积累的经验来辅助自己的判断。比如在图像中查找一辆真实的汽车，那么汽车的前挡风玻璃应该是透明的，汽车的尺寸应该是比一只狗要大的等等。这些在处理其它问题时积累的经验可以称为隐式知识。

然而，相关技术中，目标检测模型学习到的知识仅来自于图像及其目标检测任务标签，目标检测模型无法利用隐式知识对输入图像进行检测，使得模型的判别能力不足，模型的检测精度低。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种用于自动驾驶的计算机视觉网络模型优化方法及相关装置，能够提升计算机视觉网络模型的判别能力，提升检测精度。

本申请第一方面提供一种用于自动驾驶的计算机视觉网络模型优化方法，包括：

获取第一计算机视觉网络模型；

将所述第一计算机视觉网络模型改造为第二计算机视觉网络模型；其中，所述第一计算机视觉网络模型与所述第二计算机视觉网络模型处理不同的视觉任务；

将预设参数向量引入至所述第二计算机视觉网络模型的主干网络；

训练引入有所述预设参数向量的所述第二计算机视觉网络模型，得到训练完成后的所述第二计算机视觉网络模型；

提取训练完成后的所述第二计算机视觉网络模型中的所述预设参数向量，得到隐式知识参数向量；

将所述隐式知识参数向量引入至所述第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型。

在一种实施方式中，所述将所述隐式知识参数向量引入至所述第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型之后，还包括：

训练所述第三计算机视觉网络模型，得到训练完成后的所述第三计算机视觉网络模型。

在一种实施方式中，所述将所述第一计算机视觉网络模型改造为第二计算机视觉网络模型，包括：

将所述第一计算机视觉网络模型的预测层的结构进行改造，得到第二计算机视觉网络模型。

在一种实施方式中，所述第一计算机视觉网络模型的主干网络中引入所述隐式知识参数向量的位置与所述第二计算机视觉网络模型的主干网络中引入所述预设参数向量的位置相同。

在一种实施方式中，所述将预设参数向量引入至所述第二计算机视觉网络模型的主干网络，包括：

将预设参数向量的每一维相加到所述第二计算机视觉网络模型的主干网络中预设位置部分的特征图的对应通道的每一个元素上；其中，所述预设参数向量为一维参数向量，所述第一计算机视觉网络模型的主干网络中引入所述预设参数向量的预设位置部分的特征图的通道数与所述预设参数向量的长度相同。

将至少两个不同的预设参数向量引入至所述第二计算机视觉网络模型的主干网络中的不同位置部分；

所述提取训练完成后的所述第二计算机视觉网络模型中的所述预设参数向量，得到隐式知识参数向量，包括：

提取训练完成后的所述第二计算机视觉网络模型中的至少两个所述预设参数向量，得到至少两个隐式知识参数向量；

所述将所述隐式知识参数向量引入至所述第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型，包括：

将至少两个所述隐式知识参数向量引入至所述第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型。

在一种实施方式中，所述第一计算机视觉网络模型包括目标检测模型；所述第二计算机视觉网络模型包括语义分割模型。

本申请第二方面提供一种用于自动驾驶的计算机视觉网络模型优化装置，包括：

获取模块，用于获取第一计算机视觉网络模型；

改造模块，用于将所述获取模块获取的第一计算机视觉网络模型改造为第二计算机视觉网络模型；其中，所述第一计算机视觉网络模型与所述第二计算机视觉网络模型处理不同的视觉任务；

第一引入模块，用于将预设参数向量引入至所述改造模块改造的第二计算机视觉网络模型的主干网络；

第一训练模块，用于训练所述第一引入模块处理后的第二计算机视觉网络模型，得到训练完成后的所述第二计算机视觉网络模型；

提取模块，用于提取通过所述第一训练模块训练完成后的所述第二计算机视觉网络模型中的所述预设参数向量，得到隐式知识参数向量；

第二引入模块，用于将所述提取模块提取的隐式知识参数向量引入至所述第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型。

本申请第三方面提供一种计算机视觉网络模型，包括：第三计算机视觉网络模型，所述第三计算机视觉网络模型根据如上所述的方法获得的。

本申请第四方面提供一种电子设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请第五方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本申请提供的技术方案可以包括以下有益效果：

本申请提供的方法，通过将第一计算机视觉网络模型改造为第二计算机视觉网络模型，并将预设参数向量引入至第二计算机视觉网络模型的主干网络；通过提取训练完成后的第二计算机视觉网络模型中的预设参数向量，从而可以得到隐式知识参数向量；通过将隐式知识参数向量引入至第一计算机视觉网络模型的主干网络，可以得到第三计算机视觉网络模型，即引入有隐式知识参数向量的第一计算机视觉网络模型；也就是说，得到了融合有隐式知识的第一计算机视觉网络模型。可以理解，由于第一计算机视觉网络模型与第二计算机视觉网络模型处理不同的视觉任务，那么，在对第二计算机视觉网络模型的训练完成后，第二计算机视觉网络模型学习到了其所属视觉任务的知识，第二计算机视觉网络模型主干网络中的预设参数向量会得到更新，更新后的预设参数向量即是隐式知识参数向量。需要说明的是，该隐式知识参数向量是相对第一计算机视觉网络模型而言的，第一计算机视觉网络模型处理的视觉任务与第二计算机视觉网络模型不同，那么对引入有隐式知识参数向量的第一计算机视觉网络模型进行训练，该隐式知识参数向量不会进行更新。也就是说，可以认为引入有隐式知识参数向量的第一计算机视觉网络模型（即第三计算机视觉网络模型）学习到了其他不同视觉任务的模型（即第二计算机视觉网络模型）所学习到的知识，从而能够有效提升模型的判别能力，提高模型检测精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细地描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请一实施例示出的用于自动驾驶的计算机视觉网络模型优化方法的流程示意图；

图2是本申请另一实施例示出的用于自动驾驶的计算机视觉网络模型优化方法的流程示意图；

图3是本申请另一实施例示出的用于自动驾驶的计算机视觉网络模型优化方法的流程示意图；

图4是本申请另一实施例示出的用于自动驾驶的计算机视觉网络模型优化方法的流程示意图；

图5是本申请图4所示实施例中目标检测模型的结构示意图；

图6是本申请图4所示实施例中语义分割模型的结构示意图；

图7是本申请图4所示实施例中第三计算机视觉网络模型的结构示意图；

图8是本申请实施例示出的用于自动驾驶的计算机视觉网络模型优化装置的结构示意图；

图9是本申请实施例示出的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

相关技术中，目标检测模型学习到的知识仅来自于图像及其目标检测任务标签，目标检测模型无法利用隐式知识对输入图像进行检测，使得模型的判别能力不足，模型的检测精度低。

针对上述问题，本申请实施例提供一种用于自动驾驶的计算机视觉网络模型优化方法，能够提升计算机视觉网络模型的判别能力，提升检测精度。

以下结合附图详细描述本申请实施例的技术方案。

图1是本申请一个实施例示出的用于自动驾驶的计算机视觉网络模型优化方法的流程示意图。

参见图1，该方法包括：

步骤S101、获取第一计算机视觉网络模型。

其中，第一计算机视觉网络模型可以是任意一种计算机视觉任务模型，例如，第一计算机视觉网络模型可以是目标检测模型、语义分割模型、实例分割模型或者图像分类模型。

步骤S102、将第一计算机视觉网络模型改造为第二计算机视觉网络模型；其中，第一计算机视觉网络模型与第二计算机视觉网络模型处理不同的视觉任务。

在一个可选的实施方式中，将第一计算机视觉网络模型改造为第二计算机视觉网络模型，包括：将第一计算机视觉网络模型的预测层（即head）的结构进行改造，得到第二计算机视觉网络模型。也就是说，对第一计算机视觉网络模型的head进行改造，得到第二计算机视觉网络模型。

需要说明的是，基于卷积神经网络的计算机视觉网络模型通常包括三个模块结构：backbone、neck和head。Backbone，即主干网络，指提取特征的网络，其作用是提取输入图像中的信息。head是获取网络输出内容的网络，head利用所提取到的特征，做出预测。neck是放在backbone和head之间的网络结构，是为了更好的利用backbone提取到的特征。

为了便于理解对第一计算机视觉网络模型进行改造的过程，举如下例子进行展开说明。例如，若第一计算机视觉网络模型为目标检测模型，可以将目标检测模型的head的预测模块(Prediction)改造为语义分割的Mask预测模块(Mask prediction)，从而将目标检测模型改造为语义分割模型（即第二计算机视觉网络模型）。显然，目标检测模型与语义分割模型处理不同的视觉任务。也就是说，第一计算机视觉网络模型与第二计算机视觉网络模型处理不同的视觉任务。

步骤S103、将预设参数向量引入至第二计算机视觉网络模型的主干网络。

在一个可选的实施方式中，将预设参数向量引入至第二计算机视觉网络模型的主干网络，包括：

将预设参数向量的每一维相加到第二计算机视觉网络模型的主干网络中预设位置部分的特征图的对应通道的每一个元素上；其中，预设参数向量为一维参数向量，第一计算机视觉网络模型的主干网络中引入预设参数向量的预设位置部分的特征图的通道数与预设参数向量的长度相同。

例如，第二计算机视觉网络模型的主干网络中的预设位置部分的特征图(featuremap)结构为30×30×1024，其中，1024为特征图的通道数(Channel)(又可称为维度或深度)，30×30表示特征图的长与宽均被划为30个单元格长度，特征图的每一层则包括有900个元素。那么，可以将预设参数向量设计为长度是1024的一维参数向量。此处假设，预设参数向量的第一维的参数值是1，第二计算机视觉网络模型的主干网络中的预设位置部分的特征图的第一层中900个元素的值均为0。那么，该预设参数向量引入至第二计算机视觉网络模型的主干网络后，则该特征图的第一层中900个元素的值均为1，该特征图的其他层中的各元素也与预设参数向量对应维度的值相加。即将预设参数向量的每一维相加到第二计算机视觉网络模型的主干网络中预设位置部分的特征图的对应通道的每一个元素上，从而实现将预设参数向量引入至第二计算机视觉网络模型的主干网络中。

进一步的，在该步骤中，可以先利用xavier初始化方法对预设参数向量进行参数初始化，然后在前向计算时将预设参数向量的每一维相加到第二计算机视觉网络模型的主干网络中预设位置部分的特征图的对应通道的每一个元素上。这样，可以利于提升模型的训练速度和分类性能。

需要说明的是，预设参数向量可以是第二计算机视觉网络模型中的任意位置，预设参数向量可以是一个或多个。预设参数向量的具体数量及引入位置，可以根据最终所得到的第三计算机视觉网络模型的测试检验效果而选择决定。

步骤S104、训练引入有预设参数向量的第二计算机视觉网络模型，得到训练完成后的第二计算机视觉网络模型。

在该步骤中，可以利用预设训练数据集对第二计算机视觉网络模型进行训练，从而得到训练完成后的第二计算机视觉网络模型。其中，预设训练数据集包括对应第二计算机视觉网络模型的标注信息。预设训练数据集可以是公开数据集，例如Pascal VOC，COCO等等。预设训练数据集也可以是先行作出了标注的自由数据集。

需要说明的是，第二计算机视觉网络模型的训练过程可以包括：将预设训练数据集输入第二计算机视觉网络模型中，根据第二计算机视觉网络模型的输出预测值与实际值（预设训练数据集中的标注信息），计算损失函数loss，以得到损失值。然后，在该模型中进行反向传播，并在反向传播的过程中，更新该模型的权重参数。对于权重参数更新后的该模型，即认为是训练完成后的第二计算机视觉网络模型。

可以理解，利用预设训练数据集对第二计算机视觉网络模型进行训练，可以提升第二计算机视觉网络模型针对其所属的视觉任务的检测精度，预设参数向量中的参数值在模型训练完成后会得到更新。例如，第二计算机视觉网络模型为语义分割模型，在经过训练后，该语义分割模型针对语义分割的视觉任务的检测精度会得到提升，预设参数向量中的参数值会根据语义分割的视觉任务得到更新调整。

步骤S105、提取训练完成后的第二计算机视觉网络模型中的预设参数向量，得到隐式知识参数向量。

在该步骤中，可以根据第二计算机视觉网络模型中主干网络的权重参数在训练前后的变换，以实现对预设参数向量的提取。由于所提取的预设参数向量是在训练第二计算机视觉网络模型后更新得到的，该步骤所提取的预设参数向量是针对第二计算机视觉网络模型中的第二计算机视觉任务的。那么，相对于第一计算机视觉网络模型而言，由于第一计算机视觉网络模型与第二计算机视觉网络模型处理不同的视觉任务，所提取的预设参数向量可以认为是第一计算机视觉网络模型的隐式知识。具体的，所提取的预设参数向量的参数值可以认为是第二计算机视觉网络模型在预设训练数据集中提取到的隐式知识，因为在推理阶段，其并不需要通过对预设训练数据集中的输入图像进行处理获得。也就是说，得到了相对于第一计算机视觉网络模型的隐式知识参数向量，该隐式知识参数向量是无法通过训练第一计算机视觉网络模型训练而得到的。

步骤S106、将隐式知识参数向量引入至第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型。

其中，第一计算机视觉网络模型可以是步骤S101中所获取的第一计算机视觉网络模型。

在该步骤中，第一计算机视觉网络模型的主干网络中引入隐式知识参数向量的位置可以与第二计算机视觉网络模型的主干网络中引入预设参数向量的位置相同。可以理解，第二计算机视觉网络模型可以是将第一计算机视觉网络模型的预测层进行改造后得到的，第一计算机视觉网络模型的主干网络可以与第二计算机视觉网络模型的主干网络相同，将隐式知识参数向量引入至第一计算机视觉网络模型的主干网络对应位置，即可得到第三计算机视觉网络模型。

其中，第三计算机视觉网络模型，即是引入有隐式知识参数向量的第一计算机视觉网络模型。也就是说，第三计算机视觉网络模型为融合有隐式知识的第一计算机视觉网络模型。第三计算机视觉网络模型与第一计算机视觉网络模型处理相同的计算机视觉任务。例如，若第一计算机视觉网络模型为目标检测模型，则第三计算机视觉网络模型也同样为目标检测模型。

从该实施例可以看出，本申请实施例提供的方法，可以得到第三计算机视觉网络模型，即引入有隐式知识参数向量的第一计算机视觉网络模型。也就是说，可以得到融合有隐式知识的第一计算机视觉网络模型。可以理解，由于第一计算机视觉网络模型与第二计算机视觉网络模型处理不同的视觉任务，那么，在对第二计算机视觉网络模型的训练完成后，第二计算机视觉网络模型学习到了其所属视觉任务的知识，第二计算机视觉网络模型主干网络中的预设参数向量会得到更新，更新后的预设参数向量即是隐式知识参数向量。需要说明的是，该隐式知识参数向量是相对第一计算机视觉网络模型而言的，第一计算机视觉网络模型处理的视觉任务与第二计算机视觉网络模型不同，那么对引入有隐式知识参数向量的第一计算机视觉网络模型进行训练，该隐式知识参数向量不会进行更新。也就是说，可以认为引入有隐式知识参数向量的第一计算机视觉网络模型（即第三计算机视觉网络模型）学习到了其他不同视觉任务的模型（即第二计算机视觉网络模型）所学习到的知识，从而能够有效提升模型的判别能力，提高模型检测精度。

图2是本申请另一个实施例示出的用于自动驾驶的计算机视觉网络模型优化方法的流程示意图。

参见图2，该方法包括：

步骤S201、获取第一计算机视觉网络模型。

该步骤可以参见步骤S101中的描述，此处不再赘述。

步骤S202、将第一计算机视觉网络模型改造为第二计算机视觉网络模型；其中，第一计算机视觉网络模型与第二计算机视觉网络模型处理不同的视觉任务。

该步骤可以参见步骤S102中的描述，此处不再赘述。

步骤S203、将预设参数向量引入至第二计算机视觉网络模型的主干网络。

该步骤可以参见步骤S103中的描述，此处不再赘述。

步骤S204、训练引入有预设参数向量的第二计算机视觉网络模型，得到训练完成后的第二计算机视觉网络模型。

该步骤可以参见步骤S104中的描述，此处不再赘述。

步骤S205、提取训练完成后的第二计算机视觉网络模型中的预设参数向量，得到隐式知识参数向量。

该步骤可以参见步骤S105中的描述，此处不再赘述。

步骤S206、将隐式知识参数向量引入至第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型。

该步骤可以参见步骤S106中的描述，此处不再赘述。

步骤S207、训练第三计算机视觉网络模型，得到训练完成后的第三计算机视觉网络模型。

在该步骤中，可以利用第一训练数据集或者预设训练数据集对第三计算机视觉网络模型进行训练，得到训练完成后的第三计算机视觉网络模型；其中，第一训练数据集包括对应第一计算机视觉网络模型的标注信息，预设训练数据集还包括对应第一计算机视觉网络模型的标注信息。

可以理解，处理不同计算机视觉任务的计算机视觉网络模型，需要用不同标注信息的训练数据集进行训练。由于第三计算机视觉网络模型与第一计算机视觉网络模型所处理的计算机视觉任务相同，而第一计算机视觉网络模型与第二计算机视觉网络模型所处理的计算机视觉任务不相同，因此，针对第三计算机视觉网络模型的训练，可以利用包含有对应第一计算机视觉网络模型的标注信息的第一训练数据集进行训练。当预设训练数据集还包括对应第一计算机视觉网络模型的标注信息时，该预设训练数据集也可以用于训练第三计算机视觉网络模型。

需要说明的是，训练完成后的第三计算机视觉网络模型，其针对所属的视觉任务的检测性能将得到提升。在训练过程中，隐式知识参数向量在第三计算机视觉网络模型中保持参数固定，不进行参数更新。而第三计算机视觉网络模型中其余的权重参数会进行更新，从而得到训练完成后的第三计算机视觉网络模型。举例来说，若第一计算机视觉网络模型为目标检测模型，第二计算机视觉网络模型为语义分割模型，对应的，第三计算机视觉网络模型也属于是目标检测模型。训练完成后的包含有隐性知识参数向量的目标检测模型，则能够利用从语义分割模型中所学习到的知识（即隐性知识参数向量），提升模型的判别能力，提高模型检测精度。

图3是本申请另一个实施例示出的用于自动驾驶的计算机视觉网络模型优化方法的流程示意图。

参见图3，该方法包括：

步骤S301、获取第一计算机视觉网络模型。

该步骤可以参见步骤S101中的描述，此处不再赘述。

步骤S302、将第一计算机视觉网络模型改造为第二计算机视觉网络模型。

该步骤可以参见步骤S102中的描述，此处不再赘述。

步骤S303、将至少两个不同的预设参数向量引入至第二计算机视觉网络模型的主干网络中的不同位置部分。

在该步骤中，可以将多个不同的预设参数向量引入至第二计算机视觉网络模型的主干网络中的不同位置部分。多个不同的预设参数向量的长度分别与所引入的第二计算机视觉网络模型的主干网络中的不同位置部分的特征图的通道数一一对应适配。例如，第二计算机视觉网络模型的主干网络中的三个不同位置部分的特征图的通道数分别为256、512、1024，则可以在对应位置引入长度分别为256、512、1024的三个不同的一维的预设参数向量。

步骤S304、训练引入有预设参数向量的第二计算机视觉网络模型，得到训练完成后的第二计算机视觉网络模型。

该步骤可以参见步骤S104中的描述，此处不再赘述。

步骤S305、提取训练完成后的第二计算机视觉网络模型中的至少两个预设参数向量，得到至少两个隐式知识参数向量。

在该步骤中，可以在第二计算机视觉网络模型中不同位置提取多个不同的隐式知识参数向量。提取多个不同隐式知识参数向量的位置与步骤S303中引入多个不同的预设参数向量的位置相对应。

步骤S306、将至少两个隐式知识参数向量引入至第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型。

在该步骤中，第一计算机视觉网络模型的主干网络中引入多个不同的隐式知识参数向量的位置可以分别与第二计算机视觉网络模型的主干网络中引入多个不同的预设参数向量的位置一一对应。

步骤S307、训练第三计算机视觉网络模型，得到训练完成后的第三计算机视觉网络模型。

该步骤可以参见步骤S207中的描述，此处不再赘述。

从该实施例可以看出，可以通过引入多个不同的预设参数向量，以得到多个不同的隐式知识参数向量，从而可以到融合有多个不同的隐式知识参数向量的第一计算机视觉网络模型（即第三计算机视觉网络模型）。需要说明的是，本申请并无对预设参数向量的数量以及对应模型的引入位置作出限定，也就是说，最终得到的第三计算机视觉网络模型中所包含的隐式知识参数向量的个数及其所在位置可以自由设计，具体可以根据所得到的训练完成后的第三计算机视觉网络模型的实际预测效果而定。

图4是本申请另一个实施例示出的用于自动驾驶的计算机视觉网络模型优化方法的流程示意图。

请一并参见图4至图7，该方法包括：

步骤S401、获取目标检测模型。

其中，目标检测模型可以是Faster RCNN、YOLO-V5或CenterNet。

在本实施方式中，目标检测模型为YOLO-V5，YOLO-V5是一种当前流行的基于卷积神经网络实现的One-Stage目标检测模型，其网络结构如图5所示。

步骤S402、将目标检测模型改造为语义分割模型。

其中，语义分割是一种常见的计算机视觉任务，其任务目标是对图像进行像素级的分类。

在该步骤中，可以将目标检测模型YOLO-V5的其余的两个预测模块去掉（即如图5所示的prediction2与prediction3），仅保留一个预测模块（即如图5所示的prediction1），并将该预测模块改造为语义分割的Mask预测模块（即如图6所示的Mask prediction）。这样，则将目标检测模型YOLO-V5改造成了语义分割模型。

步骤S403、将两个不同的预设参数向量引入至语义分割模型的主干网络中的不同位置部分。

如图5所示的目标检测模型YOLO-V5，其中，合并模块1（Concatblock 1）会将通道数均为512的两个特征图（featuremap）进行合并（Concat），合并后的特征图的通道数为1024。合并模块2（Concatblock2）会将通道数均为256的两个特征图（featuremap）进行合并（Concat），合并后的特征图的通道数为512。

因此，可以将其中一个预设参数向量设计为长度为1024的一维参数向量（即图6所示的implicitknowledge 1），并引入至主干网络2（Backbone part 2）后面的合并模块1（Concatblock 1）处。具体的，可以将该长度为1024的一维参数向量使用xavier初始化方法进行参数初始化，并在前向计算时将该预设参数向量的每一维相叫（add）到特征图对应通道的每一个元素上。同理。可以将另一个预设参数向量设计为长度为512的一维参数向量（即图6所示的implicitknowledge2），并引入至主干网络1（Backbone part 1）后面的合并模块2（Concatblock2）处。具体的，可以将该长度为512的一维参数向量使用xavier初始化方法进行参数初始化，并在前向计算时将该预设参数向量的每一维相加（add）到特征图对应通道的每一个元素上。

步骤S404、训练引入有预设参数向量的语义分割模型，得到训练完成后的语义分割模型。

该步骤可以参见步骤S104中的描述，此处不再赘述。

步骤S405、提取训练完成后的语义分割模型中的两个预设参数向量，得到两个隐式知识参数向量语义分割模型。

该步骤可以参见步骤S105中的描述，此处不再赘述。

步骤S406、将两个隐式知识参数向量引入至目标检测模型的主干网络，得到第三计算机视觉网络模型。

其中，目标检测模型是步骤S401中所获取的目标检测模型YOLO-V5。

在该步骤中，可以将两个隐式知识参数向量分别引入至如图7所示的标识①及标识②处，从而得到融合有两个隐式知识参数向量的目标检测模型（即第三计算机视觉网络模型）。

步骤S407、训练第三计算机视觉网络模型，得到训练完成后的第三计算机视觉网络模型。

从该实施例可以看出，本申请实施例提供的方法，可以通过将YOLO-V5改造为语义分割模型，并将预设参数向量引入至语义分割模型的主干网络；通过提取训练完成后的语义分割模型中的预设参数向量，从而可以得到隐式知识参数向量；通过将隐式知识参数向量引入至YOLO-V5的主干网络，可以得到第三计算机视觉网络模型，即引入有隐式知识参数向量的YOLO-V5；也就是说，得到了融合有隐式知识的YOLO-V5。

可以理解，由于YOLO-V5与语义分割模型处理不同的视觉任务，那么，在对语义分割模型的训练完成后，语义分割模型学习到了语义分割任务的知识，语义分割模型的预设参数向量会得到更新，更新后的预设参数向量即是相对于YOLO-V5而言的隐式知识参数向量。YOLO-V5处理的视觉任务与语义分割模型不同，那么对引入有隐式知识参数向量的YOLO-V5进行训练，该隐式知识参数向量不会进行更新。也就是说，可以认为引入有隐式知识参数向量的YOLO-V5（即第三计算机视觉网络模型）学习到了其他不同视觉任务的模型（即语义分割模型）所学习到的知识，从而能够有效提升模型的判别能力，提高模型检测精度。

本申请还提供了一种计算机视觉网络模型，包括：第三计算机视觉网络模型，第三计算机视觉网络模型是根据如上所述的方法获得的。

与前述应用功能实现方法实施例相对应，本申请还提供了一种用于自动驾驶的计算机视觉网络模型优化装置、电子设备及相应的实施例。

图8是本申请实施例示出的用于自动驾驶的计算机视觉网络模型优化装置的结构示意图。

参见图8，本申请实施例提供一种用于自动驾驶的计算机视觉网络模型优化装置，包括：

获取模块801，用于获取第一计算机视觉网络模型。

改造模块802，用于将获取模块801获取的第一计算机视觉网络模型改造为第二计算机视觉网络模型；其中，第一计算机视觉网络模型与第二计算机视觉网络模型处理不同的视觉任务。

第一引入模块803，用于将预设参数向量引入至改造模块802改造的第二计算机视觉网络模型的主干网络。

第一训练模块804，用于训练第一引入模块803处理后的第二计算机视觉网络模型，得到训练完成后的第二计算机视觉网络模型。

提取模块805，用于提取通过第一训练模块804训练完成后的第二计算机视觉网络模型中的预设参数向量，得到隐式知识参数向量。

第二引入模块806，用于将提取模块805提取的隐式知识参数向量引入至第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型。

可选的，该装置还包括：第二训练模块807，用于训练第二引入模块806处理后的第三计算机视觉网络模型，得到训练完成后的第三计算机视觉网络模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图9是本申请实施例示出的电子设备的结构示意图。

参见图9，电子设备900包括存储器910和处理器920。

处理器920可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器910可以包括各种类型的存储单元，例如系统内存、只读存储器（ROM）和永久存储装置。其中，ROM可以存储处理器920或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置（例如磁或光盘、闪存）作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备（例如软盘、光驱）。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器910可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片（例如DRAM，SRAM，SDRAM，闪存，可编程只读存储器），磁盘和/或光盘也可以采用。在一些实施方式中，存储器910可以包括可读和/或写的可移除的存储设备，例如激光唱片（CD）、只读数字多功能光盘（例如DVD-ROM，双层DVD-ROM）、只读蓝光光盘、超密度光盘、闪存卡（例如SD卡、min SD卡、Micro-SD卡等）、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器910上存储有可执行代码，当可执行代码被处理器920处理时，可以使处理器920执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质（或非暂时性机器可读存储介质或机器可读存储介质），其上存储有可执行代码（或计算机程序或计算机指令代码），当可执行代码（或计算机程序或计算机指令代码）被电子设备（或服务器等）的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于自动驾驶的计算机视觉网络模型优化方法，其特征在于，包括：

获取第一计算机视觉网络模型；

将所述隐式知识参数向量引入至所述第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型；

所述将所述第一计算机视觉网络模型改造为第二计算机视觉网络模型，包括：

将所述第一计算机视觉网络模型的预测层的结构进行改造，得到第二计算机视觉网络模型；

所述第一计算机视觉网络模型的主干网络中引入所述隐式知识参数向量的位置与所述第二计算机视觉网络模型的主干网络中引入所述预设参数向量的位置相同；

所述将预设参数向量引入至所述第二计算机视觉网络模型的主干网络，包括：

将预设参数向量的每一维相加到所述第二计算机视觉网络模型的主干网络中预设位置部分的特征图的对应通道的每一个元素上；其中，所述预设参数向量为一维参数向量，所述第一计算机视觉网络模型的主干网络中引入所述预设参数向量的预设位置部分的特征图的通道数与所述预设参数向量的长度相同；

所述第一计算机视觉网络模型包括目标检测模型；

所述第二计算机视觉网络模型包括语义分割模型。

2.根据权利要求1所述的方法，其特征在于，所述将所述隐式知识参数向量引入至所述第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型之后，还包括：

3.根据权利要求1所述的方法，其特征在于：所述将预设参数向量引入至所述第二计算机视觉网络模型的主干网络，包括：

4.一种用于自动驾驶的计算机视觉网络模型优化装置，其特征在于，包括：

获取模块，用于获取第一计算机视觉网络模型；

第二引入模块，用于将所述提取模块提取的隐式知识参数向量引入至所述第一计算机视觉网络模型的主干网络，得到第三计算机视觉网络模型；

所述将所述获取模块获取的第一计算机视觉网络模型改造为第二计算机视觉网络模型，包括：

所述第一计算机视觉网络模型包括目标检测模型；

所述第二计算机视觉网络模型包括语义分割模型。

5.一种计算机视觉网络模型，其特征在于，包括：第三计算机视觉网络模型，所述第三计算机视觉网络模型根据如权利要求1-3中任一项所述的方法获得的。

6.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-3中任一项所述的方法。