CN111524190B

CN111524190B - 视觉定位网络的训练、无人驾驶设备的控制方法及装置

Info

Publication number: CN111524190B
Application number: CN202010623332.0A
Authority: CN
Inventors: 田咪; 聂琼; 申浩; 夏华夏
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-10-02
Anticipated expiration: 2040-07-01
Also published as: CN111524190A

Abstract

本说明书公开了一种视觉定位网络的训练、无人驾驶设备的控制方法及装置，在对特征‑回归网络进行训练时，无需对道路实采图像进行标注，可直接根据特征‑回归网络输出的输出结果进行自监督训练，这样有效地提高了对特征‑回归网络训练的效率。并且，由于可以将训练后的特征‑回归网络的网络权重进行提取，并对视觉定位网络中包含的特征提取分支网络进行权重初始化，这不仅能够有效地提高视觉定位网络的目标识别能力，而且通过初始网络权重的方式，可以大大提高视觉定位网络的训练效率。

Description

视觉定位网络的训练、无人驾驶设备的控制方法及装置

技术领域

本说明书涉及无人驾驶技术领域，尤其涉及一种视觉定位网络的训练、无人驾驶设备的控制方法及装置。

背景技术

目前，视觉定位技术被广泛的应用在各个领域中，在无人驾驶的技术领域中，无人驾驶设备采用到图像后，可以通过视觉定位技术确定出无人驾驶设备采集图像时所基于的位姿数据，并基于该位姿数据，进行诸如路径规划、无人驾驶设备控制等相关的决策。

在现有技术中，基于深度学习的视觉定位方法，通常是使用训练好的视觉定位网络来实现的。即，将采集到的图像输入到训练好的视觉定位网络中，以得到无人驾驶设备采集该图像时所基于的位姿数据。而为了保证视觉定位网络确定出位姿数据的准确性，通常需要采用多任务训练的方式来训练视觉定位网络。常见的有将语义分割任务、里程计任务等任务与视觉定位任务进行联合训练的方法，通过将网络隐层中的网络权重在多任务训练过程中进行共享，使得视觉定位网络能够学习图像的纹理特征、语义特征等，并将这些特征作为参考来输出位姿数据。

然而在上述训练过程中，通常需要大量的标注好语义的训练样本对视觉定位网络进行训练，而标注工作势必将耗费大量的时间成本，从而增加了视觉定位网络的训练成本。并且，若是所采用的训练样本本身并不适合对无人驾驶技术领域下的语义分割任务进行训练，则可能也会导致训练出的视觉定位网络无法准确输出位姿数据，从而给无人驾驶设备在决策过程中带来不利的影响。

发明内容

本说明书提供一种视觉定位网络的训练、无人驾驶设备的控制方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种视觉定位网络的训练方法，包括：

获取若干道路实采图像以及采集所述若干道路实采图像时采集设备的位姿数据，作为所述若干道路实采图像对应的标注位姿；

针对每个道路实采图像，将该道路实采图像对应的指定通道数据输入到特征-回归网络中，得到输出结果；

根据所述输出结果以及该道路实采图像，对所述特征-回归网络进行训练；

提取训练后的所述特征-回归网络的网络权重；

通过所述网络权重，对视觉定位网络中包含的特征提取分支网络进行权重初始化，得到初始视觉定位网络；

根据所述若干道路实采图像以及所述若干道路实采图像对应的标注位姿，对所述初始视觉定位网络进行训练。

可选地，所述指定通道数据包括：亮度通道数据；

将该道路实采图像对应的指定通道数据输入到特征-回归网络中，得到输出结果，具体包括：

将该道路实采图像转换为Lab色彩空间图像；

将所述Lab色彩空间图像中亮度通道数据输入到所述特征-回归网络中，得到输出结果。

可选地，根据所述输出结果以及该道路实采图像，对所述特征-回归网络进行训练，具体包括：

从所述输出结果中确定除所述指定通道数据以外的其他通道数据，作为第一通道数据；

将所述Lab色彩空间图像中除所述指定通道数据以外的其他通道数据，作为第二通道数据；

以最小化所述第一通道数据和所述第二通道数据之间的差异为优化目标，对所述特征-回归网络进行训练。

可选地，将该道路实采图像对应的指定通道数据输入到特征-回归网络中，得到输出结果，具体包括：

将该道路实采图像对应的指定通道数据分别输入到各特征-回归网络中，得到各特征-回归网络输出的输出结果，不同特征-回归网络的算法相同，网络权重不同；

根据所述输出结果以及该道路实采图像，对所述特征-回归网络进行训练，具体包括：

针对每个特征-回归网络，根据该特征-回归网络输出的输出结果以及该道路实采图像，对该特征-回归网络进行训练；

提取训练后的所述特征-回归网络的网络权重，具体包括：

分别提取训练后的各特征-回归网络的网络权重。

可选地，通过所述网络权重，对视觉定位网络中包含的特征提取分支网络进行权重初始化，得到初始视觉定位网络，具体包括：

获取目标图像；

针对每个特征-回归网络，将所述目标图像输入到该特征-回归网络中，并获取该特征-回归网络基于所述目标图像得到输出结果的过程中所产生的中间图像，作为该特征-回归网络对应的中间图像；

根据各特征-回归网络对应的中间图像，确定各特征-回归网络针对所述目标图像共同关注的图像区域，作为目标图像区域；

根据所述目标图像区域，对将从训练后的各特征-回归网络中提取出的网络权重进行权重融合，得到融合后网络权重；

通过所述融合后网络权重，对视觉定位网络中包含的特征提取分支网络进行权重初始化，得到初始视觉定位网络。

可选地，根据所述目标图像区域，对将从训练后的各特征-回归网络中提取出的网络权重进行权重融合，得到融合后网络权重，具体包括：

将从训练后的各特征-回归网络中提取出的网络权重进行初始融合，得到初始融合权重；

将所述初始融合权重中用于处理所述目标图像区域的网络权重进行调整，得到所述融合后网络权重。

本说明书提供了一种无人驾驶设备的控制方法，包括：

无人驾驶设备采集道路环境图像；

将所述道路环境图像输入到预先训练的视觉定位网络中，以确定出所述无人驾驶设备采集所述道路环境图像时所基于的位姿数据，所述视觉定位网络是通过上述视觉定位网络的训练方法训练得到的；

根据所述位姿数据，对所述无人驾驶设备进行控制。

可选地，将所述道路环境图像输入到预先训练的视觉定位网络中，以确定出所述无人驾驶设备采集所述道路环境图像时所基于的位姿数据，具体包括：

将所述道路环境图像输入到预先训练的各视觉定位网络中，分别得到各视觉定位网络所输出的位姿数据；

根据所述位姿数据，对所述无人驾驶设备进行控制之前，所述方法还包括：

针对每个视觉定位网络，获取该视觉定位网络基于所述道路环境图像确定位姿数据的过程中所产生的中间图像，作为该视觉定位网络对应的中间图像；

根据各视觉定位网络对应的中间图像，确定各视觉定位网络针对所述道路环境图像所关注的图像区域的重合度，作为关注区域重合度；

根据所述位姿数据，对所述无人驾驶设备进行控制，具体包括：

根据所述关注区域重合度以及各视觉定位网络输出的位姿数据，对所述无人驾驶设备进行控制。

可选地，根据所述关注区域重合度以及各视觉定位网络输出的位姿数据，对所述无人驾驶设备进行控制，具体包括：

若确定所述关注区域重合度不小于设定重合度，根据各视觉定位网络输出的位姿数据的均值，对所述无人驾驶设备进行控制；

若确定所述关注区域重合度小于设定重合度，从各视觉定位网络输出的位姿数据中选取位姿数据，并根据选取出的位姿数据，对所述无人驾驶设备进行控制。

本说明书提供了一种视觉定位网络的训练装置，包括：

获取模块，用于若干道路实采图像以及采集所述若干道路实采图像时采集设备的位姿数据，作为所述若干道路实采图像对应的标注位姿；

输入模块，用于针对每个道路实采图像，将该道路实采图像对应的指定通道数据输入到特征-回归网络中，得到输出结果；

第一训练模块，用于根据所述输出结果以及该道路实采图像，对所述特征-回归网络进行训练；

提取模块，用于提取训练后的所述特征-回归网络的网络权重；

初始化模块，用于通过所述网络权重，对视觉定位网络中包含的特征提取分支网络进行权重初始化，得到初始视觉定位网络；

第二训练模块，用于根据所述若干道路实采图像以及所述若干道路实采图像对应的标注位姿，对所述初始视觉定位网络进行训练。

本说明书提供了一种无人驾驶设备的控制装置，包括：

采集模块，用于采集道路环境图像；

位姿确定模块，用于将所述道路环境图像输入到预先训练的视觉定位网络中，以确定出所述装置采集所述道路环境图像时所基于的位姿数据，所述视觉定位网络是通过上述视觉定位网络的训练方法训练得到的；

控制模块，用于根据所述位姿数据，对所述装置进行控制。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述视觉定位网络的训练方法以及无人驾驶设备的控制方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述视觉定位网络的训练方法以及无人驾驶设备的控制方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的视觉定位网络的训练方法中，获取若干道路实采图像以及采集若干道路实采图像时采集设备的位姿数据，作为若干道路实采图像对应的标注位姿，针对每个道路实采图像，将该道路实采图像对应的指定通道数据输入到特征-回归网络中，得到输出结果，并根据该输出结果以及该道路实采图像，对所述特征-回归网络进行训练，而后，提取训练后的特征-回归网络的网络权重；通过提取出的网络权重，对视觉定位网络中包含的特征提取分支网络进行权重初始化，得到初始视觉定位网络，进而根据若干道路实采图像以及若干道路实采图像对应的标注位姿，对该初始视觉定位网络进行训练。

从上述方法可以看出，训练视觉定位网络所采用的图像样本，为实际采集的道路实采图像，并且，在对特征-回归网络进行训练时，无需对道路实采图像进行标注，可直接根据特征-回归网络输出的输出结果进行自监督训练，这样有效地提高了对特征-回归网络训练的效率。并且，由于可以将训练后的特征-回归网络的网络权重进行提取，并对视觉定位网络中包含的特征提取分支网络进行权重初始化，这不仅能够有效地提高视觉定位网络的目标识别能力，而且通过初始网络权重的方式，可以大大提高视觉定位网络的训练效率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书提供的一种视觉定位网络的训练方法流程示意图；

图2为本说明书提供的各障碍物对无人驾驶设备产生干扰的示意图；

图3为本说明书提供的一种无人驾驶设备的控制方法流程示意图；

图4为本说明书提供的一种视觉定位网络的训练装置示意图；

图5为本说明书提供的一种无人驾驶设备的控制装置示意图；

图6为本说明书提供的对应于图1或图3的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书中技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书提供的一种视觉定位网络的训练方法流程示意图，具体包括以下步骤：

S101：获取若干道路实采图像以及采集所述若干道路实采图像时采集设备的位姿数据，作为所述若干道路实采图像对应的标注位姿。

在本说明书中，设置在无人驾驶设备上的视觉定位网络用于通过无人驾驶设备所采集到的图像数据，确定出无人驾驶设备采集该图像数据时所基于的位姿数据。该位姿数据即为无人驾驶设备的三维坐标以及在该三维坐标的各坐标轴上的旋转角度，即一个六自由度的位姿数据。这里提到的无人驾驶设备可以是指无人车、机器人、自动配送设备等能够实现自动驾驶的设备。基于此，本说明书提供的视觉定位网络的训练方法以及无人驾驶设备的控制方法具体可应用于使用无人驾驶设备进行配送的领域，如，使用无人驾驶设备进行快递、物流、外卖等配送的业务场景。而为了保证无人驾驶设备能够在这些业务场景中顺利行进，需要保证无人驾驶设备中设置的视觉定位网络输出的位姿数据的准确性，这就需要预先对该视觉定位网络进行网络训练。

在本说明书中，对视觉定位网络进行网络训练的执行主体可以是无人驾驶设备本身，当然也可以是计算性能更为优异的服务器或是指定的训练设备来执行，下面将仅以服务器为执行主体，对本说明书提供的视觉定位网络的训练方法进行说明。

应用于无人驾驶设备的视觉定位网络可以大致分为两个部分，一个部分为对输入的图像数据进行特征提取的特征提取分支网络，另一部分为基于提取出的特征数据确定位姿数据的位姿确定分支网络。在本说明书中，可以先对特征提取分支网络进行训练，并将训练后得到的网络权重对视觉定位网络进行网络权重初始化，从而可以在一定程度上有效地提高训练效率。

基于此，在对上述视觉定位网络进行训练的过程中，可以先获取若干道路实采图像以及采集这些道路实采图像时采集设备的位姿数据，作为这些道路实采图像所对应的标注位姿。其中，这里提到的道路实采图像可以是采集设备所采集的实际道路环境的图像数据。采集设备可以是指人为控制的专门用于采集实际道路环境图像，并记录位姿数据的数据采集车、遥控车等设备。

S102：针对每个道路实采图像，将该道路实采图像对应的指定通道数据输入到特征-回归网络中，得到输出结果。

S103：根据所述输出结果以及该道路实采图像，对所述特征-回归网络进行训练。

在本说明书中，可以通过训练预设的特征-回归网络，实现对上述特征提取分支网络的训练。其中，特征-回归网络大致分为两个部分，一个部分为该特征提取分支网络，另一部分为色彩解码分支网络，该色彩解码分支网络用于根据特征提取分支网络输出的特征数据，输出基于该特征数据所确定出的图像数据。

基于此，针对获取到的每个道路实采图像，可以将该道路实采图像对应的指定通道数据输入到该特征-回归网络中，得到输出结果，并根据得到的输出结果，对该特征-回归网络进行训练。从这一过程中可以看出，完成对该特征-回归网络的训练，实际上就是完成了上述特征提取分支网络的训练过程。

在实际环境中每个目标物反射光线的波长，决定了目标物是否能够被有效地观测到，这主要是由目标物的颜色来决定的，而与之相比，目标物的纹理通常是较为固定的，所以，为了保证后续视觉定位网络的训练效果，在本说明书中，可以将道路实采图像中的亮度通道数据作为指定通道数据，并输入到特征-回归网络中，得到相应的输出结果。

具体的，服务器可以针对每个道路实采图像，将该道路实采图像转换为国际照明委员会规定光照及颜色（International Commission on Illumination LAB，Lab）色彩空间图像，并从该Lab色彩空间图像提取出亮度通道数据（即L通道数据）输入到该特征-回归网络中，得到其他道路数据对应的图像。这里提到的其他道路数据对应的图像，是指a通道数据对应的图像和b通道数据对应的图像。

这一过程可以视为将该道路实采图像中的亮度图像“拆分”出来，并输入到特征-回归网络中，由于亮度图像不涉及色彩部分，因此可更显著的体现图像中纹理特征。而通过该特征-回归网络输出的彩色图像（即a通道数据对应的图像以及b通道数据对应的图像），即所谓的对图像“上色”的过程。服务器可以通过道路实采图像中包含的除亮度通道数据以外的其他通道数据，以及特征-回归网络所输出的输出结果，对该特征-回归网络实现自监督训练。

当然，也可以将Lab色彩空间图像中的a通道数据作为指定通道数据输入到特征-回归网络中，输出的则是L通道数据对应的图像以及b通道数据对应的图像。抑或是将Lab色彩空间图像中的b通道数据作为指定通道数据输入到特征-回归网络中，输出的则是L通道数据对应的图像以及a通道数据对应的图像。当然，由于在Lab色彩空间图像中亮度通道数据保持的纹理特征更多，训练效果较好，因此可以优先将亮度通道数据作为指定通道数据。

服务器可以从特征-回归网络中确定出指定通道数据以外的其他通道数据，作为第一通道数据，并将该道路实采图像对应的Lab色彩空间图像中除该指定通道数据以外的其他通道数据，作为第二通道数据。而后，可以最小化该第一通道数据和该第二通道数据之间的差异为优化目标，对该特征-回归网络进行训练。可以将每个道路实采图像对应的指定通道数据输入到该特征-回归网络中，以按照上述训练过程对该特征-回归网络进行训练，直至该特征-回归网络中的各项网络权重收敛为止。

以亮度通道数据为指定通道数据为例，服务器可以按照下述损失函数公式，对该特征-回归网络进行训练。

其中，

表示特征-回归网络输出的图像的图像高度，

表示特征-回归网络输出的图像的图像宽度，

表示特征-回归网络输出的a通道数据对应的图像中第

个像素对应的a通道值，

表示该道路实采图像对应的Lab色彩空间图像中第

个像素对应的a通道值，

表示特征-回归网络输出的b通道数据对应的图像中第

个像素对应的b通道值，

表示该道路实采图像对应的Lab色彩空间图像中第

个像素对应的b通道值。

通过上述损失函数公式，整个特征-回归网络的训练过程大致如图2所示。

图2为本说明书提供的对特征-回归网络进行训练的过程示意图。

服务器可以将RGB格式的道路实采图像转换为Lab色彩空间图像，并将Lab色彩空间图像中的亮度通道数据输入到特征-回归网络中。经过特征-回归网络的编码-解码后，可以输出a通道数据的图像以及b通道数据的图像。而后，将输出的a通道数据的图像以及b通道数据的图像，和Lab色彩空间图像中实际的a通道数据的图像和b通道数据的图像作损失，实现对特征-回归网络的训练。

当然，上述用于训练特征-回归网络的损失函数公式并不唯一，本说明书不对损失函数公式的具体形式进行限定。而从上述过程中，在对特征-回归网络进行训练的过程中，并不需要事先对道路实采图像进行通道数据的标注，也就是说，能够提到标注数据作用的数据其实已经记录在了道路实采图像中，因此，服务器可以直接使用道路实采图像中所记录的这部分数据，对特征-回归网络实现自监督训练，从而有效地节省了网络训练过程中的数据标注成本，并提高了训练效率。

在本说明书中，特征-回归网络具体的网络形式可以是现有的常规网络形式，如卷积神经网络（Convolutional Neural Networks，CNN）等。而对于特征-回归网络中包含的特征提取分支网络以及色彩解码分支网络，可以视为是编码器-解码器结构（encode-decode），其中，特征提取分支网络对应encode部分，而色彩解码分支网络则对应decode部分。

S104：提取训练后的所述特征-回归网络的网络权重。

S105：通过所述网络权重，对视觉定位网络中包含的特征提取分支网络进行权重初始化，得到初始视觉定位网络。

完成上述特征-回归网络的训练过程中，可以从训练后的特征-回归网络中提取出相应的网络权重。其中，视觉定位网络与特征-回归网络都拥有相同的特征提取分支网络，所以，服务器实际上只需将特征-回归网络中特征提取分支网络的网络权重进行提取即可。

从训练后的特征-回归网络中提取出网络权重后，服务器可以通过提取出的网络权重，对视觉定位网络中特征提取分支网络进行权重初始化，从而得到初始视觉定位网络。所谓的权重初始化，可以理解为直接将提取出的网络权重替换掉视觉定位网络中特征提取分支网络中的网络权重。当然，也可以根据实际的网络需求，在提取出的网络权重的基础上对其进行一定的调整，并通过调整后的网络权重对视觉定位网络中特征提取分支网络进行权重初始化，从而得到初始视觉定位网络。

S106：根据所述若干道路实采图像以及所述若干道路实采图像对应的标注位姿，对所述初始视觉定位网络进行训练。

服务器可以针对每个道路实采图像，将该道路实采图像输入到上述初始视觉定位网络中，得到该初始视觉定位网络针对该道路实采图像所输出的位姿数据，而后，服务器可以最小化该初始视觉定位网络输出的位姿数据与该道路实采图像对应的标注位姿之间的差异为优化目标，对该视觉定位网络进行训练，具体可以参考如下损失函数公式进行训练。

其中，

表示初始视觉定位网络输出的位姿数据中平移量，

表示该道路实采图像对应的标注位姿中的平移量，

表示初始视觉定位网络输出的位姿数据中旋转量，

表示该道路实采图像对应的标注位姿中的旋转量。

服务器通过上述训练方式对视觉定位网络进行训练后，可以将训练后的视觉定位网络配置在无人驾驶设备，以使无人驾驶设备可以通过训练后的视觉定位网络确定位姿数据，具体过程如图3所示。

图3为本说明书提供的一种无人驾驶设备的控制方法流程示意图。

S301：无人驾驶设备采集道路环境图像。

无人驾驶设备在行驶过程中，可以通过设置在无人驾驶设备上的图像采集装置（如相机、摄像头等）采集道路环境图像，并在后续过程中将采集到的道路环境图像输入到预先训练的视觉定位网络中，以确定出该无人驾驶设备采集该道路环境图像时是基于的位姿数据。

S302：将所述道路环境图像输入到预先训练的视觉定位网络中，以确定出所述无人驾驶设备采集所述道路环境图像时所基于的位姿数据，所述视觉定位网络是通过上述视觉定位网络的训练方法训练得到的。

无人驾驶设备可以将该道路环境图像输入到通过上述训练方法而得到的视觉定位网络中，得到相应的输出结果。视觉定位网络输出的结果即为确定出的无人驾驶设备采集该道路环境图像所基于的位姿数据。

S303：根据所述位姿数据，对所述无人驾驶设备进行控制。

在确定出上述位姿数据后，无人驾驶设备可以通过该位姿数据，执行诸如路径规划等决策，以实现对无人驾驶设备的控制。而由于上述预先训练的视觉定位网络中包含有能够有效提取目标物纹理特征的特征提取分支网络，这样可以在一定程度上提高该视觉定位网络输出位姿数据的准确性，从而为无人驾驶设备基于位姿数据实现对其自身的控制提供了有效地安全保障。

需要说明的是，为了能够在后续实际应用中得到更好的定位效果，在本说明书中，需要训练的特征-回归网络可以有多个，不同的特征-回归网络所采用的算法可以相同的，但是涉及的网络权重有所不同。或是说，不同的特征-回归网络中所包含的特征提取分支网络的网络权重有所不同。

对于这种情况来说，服务器可以将道路实采图像对应的指定通道数据分别输入到各特征-回归网络中，得到各特征-回归网络输出的输出结果。而后，针对每个特征-回归网络，可以根据该特征-回归网络输出的输出结果以及该道路实采图像，对该特征-回归网络进行训练。对于每个特征-回归网络所采用的训练方式与上述相同，在此就不详细赘述了。

相应的，在网络权重提取的阶段，服务器可以将训练后的各特征-回归网络的网络权重分别进行提取，并根据提取出的各网络权重，对需要训练的视觉定位网络进行权重初始化。

具体的，服务器可以获取目标图像，并针对每个特征-回归网络，将该目标图像输入到该特征-回归网络中，并获取该特征-回归网络基于该目标图像得到输出结果的过程中所产生的中间图像，作为该特征-回归网络对应的中间图像。这里提到的目标图像可以是从上述提到的各道路实采图像中随机选取出的图像，也可以是从预设的图像数据集中选取出的图像，在此不做具体的限定。特征-回归网络在得到输出结果的过程中所产生的中间图像可以表征出特征-回归网络在处理该目标图像时会对该目标图像中的哪些图像区域较为关注。例如，如果特征-回归网络对目标图像中的树木较为关注，则树木图像所在的区域相比于中间图像中其他图像区域将被明显区分出来。

服务器可以从各特征-回归网络对应的中间图像中，进一步地确定出各特征-回归网络针对该目标图像共同关注的图像区域，作为目标图像区域，并根据该目标图像区域，对将从训练后的各特征-回归网络中提取出的网络权重进行权重融合，得到融合后网络权重。这里提到的目标图像区域用于表明各特征-回归网络对该目标图像均会关注的图像区域。例如，假设目标图像中包含有树木的图像，并且，各特征-回归网络均会关注树木的图像，则该目标图像区域将至少包括目标图像中包含的树木图像所在的图像区域。

服务器可以通过该融合后网络权重，对视觉定位网络中包含的特征提取分支网络进行权重初始化，得到初始视觉定位网络。其中，服务器先将从训练后的各特征-回归网络中提取出的网络权重进行初始融合，得到初始融合权重，而后将该初始融合权重中用于处理上述目标图像区域的网络权重进行调整，得到融合后网络权重。

即，服务器在确定融合后网络权重的过程中，可以先将不同特征-回归网络中相同位置的网络权重进行均值化，从而得到初始融合权重。而后，服务器可以适当的提高用于处理上述目标图像区域的网络权重的数值，从而得到融合后网络权重。

另外，在实际应用中，无人驾驶设备中也可以设有多个视觉定位网络，这些视觉定位网络均能够通过输入的道路环境图像，来确定出无人驾驶设备采集该道路环境图像时所基于的位姿数据，只不过不同的视觉定位网络中的网络权重有所不同，这样在确定位姿数据时的侧重也有所不同。

基于此，在本说明书中，无人驾驶设备可以将采集到的道路环境图像分别输入到预先训练的各视觉定位网络中，以得到各视觉定位网络输出的位姿数据。同时，针对每个视觉定位网络，获取该视觉定位网络基于该道路环境图像确定位姿数据的过程中所产生的中间图像，作为该视觉定位网络对应的中间图像。无人驾驶设备可以进一步地从各视觉定位网络对应的中间图像中，确定出各视觉定位网络针对该道路环境图像所关注的图像区域的重合度，作为关注区域重合度，并根据该关注区域重合度以及各视觉定位网络输出的位姿数据，实现对自身的控制。

关注区域重合度用于表征各视觉定位网络对同一图像中共同关注的图像区域的重合程度，若是关注区域重合度越大，则说明各视觉定位网络对同一道路环境图像中所关注的图像区域的重合程度越高，反之则说明各视觉定位网络对同一道路环境图像中所关注的图像区域的重合程度越低。

进一步地，若确定该关注区域重合度不小于设定重合度，则无人驾驶设备可以根据各视觉定位网络输出的位姿数据的均值，对自身进行控制，而若是确定该关注区域重合度小于设定重合度，在可以从各视觉定位网络输出的位姿数据中选取位姿数据，并根据选取出的位姿数据，对自身进行控制。

在本说明书中，无人驾驶设备选取位姿数据的方式可以有多种，例如，可以随机选取位姿数据，也可以根据当前所处的地理区域，确定出与该地理区域相适应的视觉定位网络，进而将该视觉定位网络所输出的位姿数据，作为选取出的位姿数据。其他的方式在此就不详细举例说明了。

从这一过程中可以看出，由于无人驾驶设备在实际应用中，可以参考多个视觉定位网络所输出的位姿数据，来确定出适合该道路环境图像的位姿数据，这样在一定程度上可以进一步地提高位姿数据的准确性，从而为无人驾驶设备对其自身的控制提供了更为有效地安全保障。

以上为本说明书的一个或多个实施例提供的视觉定位网络的训练方法以及无人驾驶设备的控制方法，基于同样的思路，本说明书还提供了相应的视觉定位网络的训练装置以及无人驾驶设备的控制装置，如图4、图5所示。

图4为本说明书提供的一种视觉定位网络的训练装置示意图，具体包括：

获取模块401，用于若干道路实采图像以及采集所述若干道路实采图像时采集设备的位姿数据，作为所述若干道路实采图像对应的标注位姿；

输入模块402，用于针对每个道路实采图像，将该道路实采图像对应的指定通道数据输入到特征-回归网络中，得到输出结果；

第一训练模块403，用于根据所述输出结果以及该道路实采图像，对所述特征-回归网络进行训练；

提取模块404，用于提取训练后的所述特征-回归网络的网络权重；

初始化模块405，用于通过所述网络权重，对视觉定位网络中包含的特征提取分支网络进行权重初始化，得到初始视觉定位网络；

第二训练模块406，用于根据所述若干道路实采图像以及所述若干道路实采图像对应的标注位姿，对所述初始视觉定位网络进行训练。

可选地，所述指定通道数据包括：亮度通道数据；

所述输入模块402具体用于，将该道路实采图像转换为Lab色彩空间图像；将所述Lab色彩空间图像中亮度通道数据输入到所述特征-回归网络中，得到输出结果。

可选地，所述第一训练模块403具体用于，从所述输出结果中确定除所述指定通道数据以外的其他通道数据，作为第一通道数据；将所述Lab色彩空间图像中除所述指定通道数据以外的其他通道数据，作为第二通道数据；以最小化所述第一通道数据和所述第二通道数据之间的差异为优化目标，对所述特征-回归网络进行训练。

可选地，所述输入模块402具体用于，将该道路实采图像对应的指定通道数据分别输入到各特征-回归网络中，得到各特征-回归网络输出的输出结果，不同特征-回归网络的算法相同，网络权重不同；

所述第一训练模块403具体用于，针对每个特征-回归网络，根据该特征-回归网络输出的输出结果以及该道路实采图像，对该特征-回归网络进行训练；

所述提取模块404具体用于，分别提取训练后的各特征-回归网络的网络权重。

可选地，所述初始化模块405具体用于，获取目标图像；针对每个特征-回归网络，将所述目标图像输入到该特征-回归网络中，并获取该特征-回归网络基于所述目标图像得到输出结果的过程中所产生的中间图像，作为该特征-回归网络对应的中间图像；根据各特征-回归网络对应的中间图像，确定各特征-回归网络针对所述目标图像共同关注的图像区域，作为目标图像区域；根据所述目标图像区域，对将从训练后的各特征-回归网络中提取出的网络权重进行权重融合，得到融合后网络权重；通过所述融合后网络权重，对视觉定位网络中包含的特征提取分支网络进行权重初始化，得到初始视觉定位网络。

可选地，所述初始化模块405具体用于，将从训练后的各特征-回归网络中提取出的网络权重进行初始融合，得到初始融合权重；将所述初始融合权重中用于处理所述目标图像区域的网络权重进行调整，得到所述融合后网络权重。

图5为本说明书提供的一种无人驾驶设备的控制装置示意图，具体包括：

采集模块501，用于采集道路环境图像；

位姿确定模块502，用于将所述道路环境图像输入到预先训练的视觉定位网络中，以确定出所述装置采集所述道路环境图像时所基于的位姿数据，所述视觉定位网络是通过上述视觉定位网络的训练方法训练得到的；

控制模块503，用于根据所述位姿数据，对所述装置进行控制。

可选地，所述位姿确定模块502具体用于，将所述道路环境图像输入到预先训练的各视觉定位网络中，分别得到各视觉定位网络所输出的位姿数据；

在控制模块503根据所述位姿数据，对所述装置进行控制之前，所述位姿确定模块502还用于，针对每个视觉定位网络，获取该视觉定位网络基于所述道路环境图像确定位姿数据的过程中所产生的中间图像，作为该视觉定位网络对应的中间图像；根据各视觉定位网络对应的中间图像，确定各视觉定位网络针对所述道路环境图像所关注的图像区域的重合度，作为关注区域重合度；

所述控制模块503具体用于，根据所述关注区域重合度以及各视觉定位网络输出的位姿数据，对所述装置进行控制。

可选地，所述控制模块503具体用于，若确定所述关注区域重合度不小于设定重合度，根据各视觉定位网络输出的位姿数据的均值，对所述装置进行控制；若确定所述关注区域重合度小于设定重合度，从各视觉定位网络输出的位姿数据中选取位姿数据，并根据选取出的位姿数据，对所述装置进行控制。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述视觉定位网络的训练方法以及无人驾驶设备的控制方法。

本说明书还提供了图6所示的电子设备的示意结构图。如图6所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所示的视觉定位网络的训练方法或图3所述的无人驾驶设备的控制方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种视觉定位网络的训练方法，其特征在于，包括：

针对每个道路实采图像，将该道路实采图像对应的指定通道数据输入到特征-回归网络中，得到该道路实采图像对应的其他通道数据的图像作为输出结果；

提取训练后的所述特征-回归网络的网络权重；

2.如权利要求1所述的方法，其特征在于，所述指定通道数据包括：亮度通道数据；

将该道路实采图像对应的指定通道数据输入到特征-回归网络中，得到该道路实采图像对应的其他通道数据的图像作为输出结果，具体包括：

将该道路实采图像转换为Lab色彩空间图像；

将所述Lab色彩空间图像中亮度通道数据输入到所述特征-回归网络中，得到该道路实采图像对应的其他通道数据的图像作为输出结果。

3.如权利要求2所述的方法，其特征在于，根据所述输出结果以及该道路实采图像，对所述特征-回归网络进行训练，具体包括：

4.如权利要求1所述的方法，其特征在于，将该道路实采图像对应的指定通道数据输入到特征-回归网络中，得到该道路实采图像对应的其他通道数据的图像作为输出结果，具体包括：

提取训练后的所述特征-回归网络的网络权重，具体包括：

分别提取训练后的各特征-回归网络的网络权重。

5.如权利要求4所述的方法，其特征在于，通过所述网络权重，对视觉定位网络中包含的特征提取分支网络进行权重初始化，得到初始视觉定位网络，具体包括：

获取目标图像；

6.如权利要求5所述的方法，其特征在于，根据所述目标图像区域，对将从训练后的各特征-回归网络中提取出的网络权重进行权重融合，得到融合后网络权重，具体包括：

7.一种无人驾驶设备的控制方法，其特征在于，包括：

无人驾驶设备采集道路环境图像；

将所述道路环境图像输入到预先训练的视觉定位网络中，以确定出所述无人驾驶设备采集所述道路环境图像时所基于的位姿数据，所述视觉定位网络是通过上述权利要求1~6任一项的方法训练得到的；

根据所述位姿数据，对所述无人驾驶设备进行控制。

8.如权利要求7所述的方法，其特征在于，将所述道路环境图像输入到预先训练的视觉定位网络中，以确定出所述无人驾驶设备采集所述道路环境图像时所基于的位姿数据，具体包括：

9.如权利要求8所述的方法，其特征在于，根据所述关注区域重合度以及各视觉定位网络输出的位姿数据，对所述无人驾驶设备进行控制，具体包括：

10.一种视觉定位网络的训练装置，其特征在于，包括：

输入模块，用于针对每个道路实采图像，将该道路实采图像对应的指定通道数据输入到特征-回归网络中，得到该道路实采图像对应的其他通道数据的图像作为输出结果；

11.一种无人驾驶设备的控制装置，其特征在于，包括：

采集模块，用于采集道路环境图像；

位姿确定模块，用于将所述道路环境图像输入到预先训练的视觉定位网络中，以确定出所述装置采集所述道路环境图像时所基于的位姿数据，所述视觉定位网络是通过上述权利要求1~6任一项的方法训练得到的；

控制模块，用于根据所述位姿数据，对所述装置进行控制。

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~6或7~9任一项所述的方法。

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~6或7~9任一项所述的方法。