CN109961509B

CN109961509B - 三维地图的生成及模型训练方法、装置及电子设备

Info

Publication number: CN109961509B
Application number: CN201910155698.7A
Authority: CN
Inventors: 夏华夏; 任冬淳; 穆荣均; 郭潇阳; 钱德恒
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2020-05-05
Anticipated expiration: 2039-03-01
Also published as: CN109961509A

Abstract

本申请提供一种三维地图的生成及模型训练方法、装置及电子设备，所述方法的一具体实施方式包括：确定目标设备在当前环境下对应的目标隐变量；所述目标隐变量用于表示所述目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素；确定视角坐标集合，所述视角坐标集合包括用于生成目标三维地图的多个目标视角坐标；基于所述视角坐标集合中的目标视角坐标及所述目标隐变量，确定每个目标视角坐标对应的目标场景图像；根据每个所述目标场景图像生成所述目标三维地图。该实施方式能够基于当前环境实时生成能够体现当前目标设备周围各种障碍物分布情况的目标三维地图。从而为辅助驾驶提供更准确和丰富的信息，提高了辅助驾驶的辅助效果。

Description

三维地图的生成及模型训练方法、装置及电子设备

技术领域

本申请涉及智能驾驶技术领域，特别涉及一种三维地图的生成及模型训练方法、装置及电子设备。

背景技术

在智能驾驶技术中，一般会涉及驾驶辅助功能(例如，车道保持辅助功能，自动泊车辅助功能，行车辅助功能，倒车辅助功能等)，在实现驾驶辅助功能时，通常需要智能驾驶设备周围环境的地图。目前来说，一般是采用GPS导航地图，但是GPS导航地图只能反映出智能驾驶设备周围长期固定的物体(如建筑物，大型设施等)的分布以及道路等分布情况，无法体现智能驾驶设备当前周围各种活动物体的分布情况。

发明内容

为了解决上述技术问题之一，本申请提供一种三维地图的生成及模型训练方法、装置及电子设备。

根据本申请实施例的第一方面，提供一种三维地图的生成方法，包括：

确定目标设备在当前环境下对应的目标隐变量；所述目标隐变量用于表示所述目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素；

确定视角坐标集合，所述视角坐标集合包括用于生成目标三维地图的多个目标视角坐标；所述目标三维地图为当前环境所对应的三维地图；

基于所述视角坐标集合中的目标视角坐标及所述目标隐变量，确定每个目标视角坐标对应的目标场景图像；

根据每个所述目标场景图像生成所述目标三维地图。

可选的，所述确定目标设备在当前环境下对应的目标隐变量，包括：

在所述目标设备的当前环境下，采集多组样本数据，每组所述样本数据包括视角坐标与场景图像；

将所述多组样本数据输入至目标卷积神经网络，得到所述目标隐变量；

所述基于所述视角坐标集合中的目标视角坐标及所述目标隐变量，确定每个目标视角坐标对应的目标场景图像，包括：

将每个所述目标视角坐标及所述目标隐变量输入至目标循环神经网络，得到每个目标视角坐标对应的目标场景图像。

可选的，所述目标卷积神经网络和所述目标循环神经网络通过如下方式训练：

执行以下目标操作：从样本集中选多组样本数据作为第一数据，以及选一组样本数据作为第二数据；将所述第一数据输入至当前的卷积神经网络，得到隐变量，所述隐变量用于表示视角坐标与场景图像之间的转化影响因素；将所述隐变量和所述第二数据对应的视角坐标输入至当前的循环神经网络，得到预测场景图像；

若基于所述预测场景图像与所述第二数据对应的场景图像，确定未满足预设条件，对所述卷积神经网络和所述循环神经网络的网络参数进行调整，并重新执行所述目标操作；

若基于所述预测场景图像与所述第二数据对应的场景图像，确定满足所述预设条件，输出经过调整后的目标卷积神经网络及目标循环神经网络。

可选的，所述第一数据和所述第二数据为同一智能驾驶设备在同一环境下采集的数据；

所述目标操作还包括：

在将所述隐变量和所述第二数据对应的场景图像输入至当前的循环神经网络的同时，将随机生成的噪声信号也输入至当前的循环神经网络。

可选的，通过如下方式确定满足所述预设条件：

确定目标函数，所述目标函数为所述预测场景图像与所述第二数据对应的场景图像之间的ELBO证据下线函数；

当所述目标函数收敛时，确定满足所述预设条件。

可选的，所述场景图像为感知图像；所述目标场景图像为目标感知图像；

所述根据每个所述目标场景图像生成所述目标三维地图，包括：

将每个所述目标感知图像输入至目标转换模型中，得到每个所述目标感知图像对应的目标视觉图像；

根据所述目标视觉图像生成所述目标三维地图。

根据本申请实施例的第二方面，提供一种用于生成三维地图的模型训练方法，包括：

执行以下目标操作：从样本集中选多组样本数据作为第一数据，以及选一组样本数据作为第二数据；每组所述样本数据包括视角坐标与场景图像；将所述第一数据输入至当前的卷积神经网络，得到隐变量，所述隐变量用于表示视角坐标与场景图像之间的转化影响因素；将所述隐变量和所述第二数据对应的视角坐标输入至当前的循环神经网络，得到预测场景图像；

所述目标操作还包括：

根据本申请实施例的第三方面，提供一种三维地图的生成装置，包括：

第一确定模块，用于确定目标设备在当前环境下对应的目标隐变量；所述目标隐变量用于表示所述目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素；

获取模块，用于确定视角坐标集合，所述视角坐标集合包括用于生成目标三维地图的多个目标视角坐标；所述目标三维地图为当前环境所对应的三维地图；

第二确定模块，用于基于所述视角坐标集合中的目标视角坐标及所述目标隐变量，确定每个目标视角坐标对应的目标场景图像；

生成模块，用于根据每个所述目标场景图像生成所述目标三维地图。

根据本申请实施例的第四方面，提供一种用于生成三维地图的模型训练装置，包括：

执行模块，用于执行以下目标操作：从样本集中选多组样本数据作为第一数据，以及选一组样本数据作为第二数据；每组所述样本数据包括视角坐标与场景图像；将所述第一数据输入至当前的卷积神经网络，得到隐变量，所述隐变量用于表示视角坐标与场景图像之间的转化影响因素；将所述隐变量和所述第二数据对应的视角坐标输入至当前的循环神经网络，得到预测场景图像；

调整模块，用于在基于所述预测场景图像与所述第二数据对应的场景图像，确定未满足预设条件时，对所述卷积神经网络和所述循环神经网络的网络参数进行调整，并指示所述执行模块重新执行所述目标操作；

输出模块，用于在基于所述预测场景图像与所述第二数据对应的场景图像，确定满足所述预设条件时，输出经过调整后的目标卷积神经网络及目标循环神经网络。

根据本申请实施例的第五方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面以及第二方面中任一项所述的方法。

根据本申请实施例的第六方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一方面以及第二方面中任一项所述的方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请的实施例提供的三维地图的生成方法和装置，通过确定目标设备在当前环境下对应的目标隐变量，确定视角坐标集合，基于上述视角坐标集合中的目标视角坐标及目标隐变量，确定每个目标视角坐标对应的目标场景图像，并根据每个目标场景图像生成目标三维地图。其中，目标隐变量用于表示目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素。上述视角坐标集合包括用于生成目标三维地图的多个目标视角坐标。因此，本实施例能够基于当前环境实时生成能够体现当前目标设备周围各种障碍物分布情况的目标三维地图。从而为辅助驾驶提供更准确和丰富的信息，提高了辅助驾驶的辅助效果。

本申请的实施例提供的用于生成三维地图的模型训练的方法和装置，执行以下目标操作：从样本集中选多组样本数据作为第一数据，以及选一组样本数据作为第二数据，每组样本数据包括视角坐标与场景图像。将第一数据输入至当前的卷积神经网络，得到隐变量，该隐变量用于表示视角坐标与场景图像之间的转化影响因素。将该隐变量和第二数据对应的视角坐标输入至当前的循环神经网络，得到预测场景图像。若基于预测场景图像与第二数据对应的场景图像，确定未满足预设条件，则可以对当前的卷积神经网络和循环神经网络的网络参数进行调整，并重新执行目标操作。若确定满足上述预设条件，则输出经过调整后的目标卷积神经网络及目标循环神经网络。由于本实施例引入了表示视角坐标与场景图像之间的转化影响因素的隐变量，并同时对用于构建隐变量的卷积神经网络，和用于预测场景图像的循环神经网络进行训练，使得训练得到的目标卷积神经网络及目标循环神经网络在应用于三维地图的生成时，所生成的三维地图信息更加准确和丰富。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请根据一示例性实施例示出的一种三维地图的生成方法的流程图；

图2是本申请根据一示例性实施例示出的另一种三维地图的生成方法的流程图；

图3是本申请根据一示例性实施例示出的另一种三维地图的生成方法的流程图；

图4是本申请根据一示例性实施例示出的一种用于生成三维地图的模型训练方法的示意图；

图5是本申请根据一示例性实施例示出的一种三维地图的生成装置的框图；

图6是本申请根据一示例性实施例示出的另一种三维地图的生成装置的框图；

图7是本申请根据一示例性实施例示出的另一种三维地图的生成装置的框图；

图8是本申请根据一示例性实施例示出的另一种三维地图的生成装置的框图；

图9是本申请根据一示例性实施例示出的一种用于生成三维地图的模型训练装置的框图；

图10是本申请根据一示例性实施例示出的一种电子设备的结构示意图；

图11是本申请根据一示例性实施例示出的另一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，图1是根据一示例性实施例示出的一种三维地图的生成方法的流程图，该方法可以应用于智能驾驶设备中。本领域技术人员可以理解，该智能驾驶设备可以是无人驾驶设备，也可以是具有智能辅助功能的有人驾驶设备等。智能驾驶设备可以包括但不限于智能车辆、无人车、无人操作机器人、无人机、无人船等等。该方法包括以下步骤：

在步骤101中，确定目标设备在当前环境下对应的目标隐变量，该目标隐变量用于表示目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素。

在本实施例中，目标设备为当前需要实现驾驶辅助功能的智能驾驶设备，目标设备可以是无人驾驶设备，也可以是具有智能辅助功能的有人驾驶设备等。目标设备可以包括但不限于智能车辆、无人车，或者是无人操作机器人，或者是无人机，或者是无人船等等，本申请对目标设备的具体类型方面不限定。

在本实施例中，目标设备在当前环境下对应的目标隐变量能够用于表示目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素，因此，该转化影响因素为针对目标设备以及当前所处环境的转化影响因素。可以基于预先训练好的目标卷积神经网络，确定该目标隐变量。例如，可以在目标设备的当前环境下，采集多组样本数据，每组样本数据包括视角坐标与场景图像。将上述多组样本数据输入至预先训练好的目标卷积神经网络，得到目标卷积神经网络输出的目标隐变量。

在本实施例中，场景图像可以是能够反映目标设备当前所处环境的图像,视角坐标可以是场景图像所对应的图像采集视角的坐标。具体来说，目标设备上可以安装有各种数据采集装置，例如，摄像装置，各种传感器装置等。根据这些数据采集装置采集到的数据，可以得到场景图像。场景图像可以是感知图像(能够表示周围环境中障碍物轮廓的图像)，也可以是视觉图像。其中，采用摄像装置可以得到视觉图像，根据各种传感器装置采集到的数据可以得到感知图像。

在步骤102中，确定视角坐标集合，该视角坐标集合包括用于生成目标三维地图的多个目标视角坐标，目标三维地图为当前环境所对应的三维地图。

一般来说，在生成三维图像时，通常需要先得到大量视角中每个视角下的二维图像，然后，通过将每个视角下的二维图像进行合成，得到三维图像。因此，在本实施例中，可以确定视角坐标集合，该视角坐标集合可以包括用于生成目标三维地图的多个目标视角坐标。该目标三维地图为当前所处环境所对应的三维地图，即目标设备实现驾驶辅助功能时，需要得到的三维地图。

在步骤103中，基于上述视角坐标集合中的目标视角坐标及目标隐变量，确定每个目标视角坐标对应的目标场景图像。

在本实施例中，可以基于上述视角坐标集合中的目标视角坐标及目标隐变量，确定每个目标视角坐标对应的目标场景图像。具体来说，可以将每个目标视角坐标及上述目标隐变量输入至目标循环神经网络，由目标循环神经网络输出每个目标视角坐标对应的目标场景图像(一个目标视角坐标对应一个目标场景图像)。

在步骤104中，根据每个目标场景图像生成目标三维地图。

在本实施例中，可以根据每个目标场景图像生成目标三维地图。在一种实现方式中，场景图像可以是感知图像，因此，目标场景图像为目标感知图像。可以将每个目标感知图像输入至目标转换模型中，由目标转换模型输出每个目标感知图像对应的目标视觉图像，并根据目标视觉图像生成目标三维地图。其中，任意一个目标感知图像对应的目标视觉图像为与该目标感知图像对应相同视角坐标的视觉图像。

在另一种实现方式中，场景图像也可以是视觉图像，因此，目标场景图像为目标视觉图像。可以直接根据每个目标视觉图像生成目标三维地图。

应当注意，尽管在上述图1的实施例中，以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。例如，可以先执行步骤101，然后再执行步骤102，也可以先执行步骤102，再执行步骤101，还可以同时执行步骤101和步骤102。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本申请的上述实施例提供的三维地图的生成方法，通过确定目标设备在当前环境下对应的目标隐变量，确定视角坐标集合，基于上述视角坐标集合中的目标视角坐标及目标隐变量，确定每个目标视角坐标对应的目标场景图像，并根据每个目标场景图像生成目标三维地图。其中，目标隐变量用于表示目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素。上述视角坐标集合包括用于生成目标三维地图的多个目标视角坐标。因此，本实施例能够基于当前环境实时生成能够体现当前目标设备周围各种障碍物分布情况的目标三维地图。从而为辅助驾驶提供更准确和丰富的信息，提高了辅助驾驶的辅助效果。

如图2所示，图2根据一示例性实施例示出的另一种三维地图的生成方法的流程图，该实施例描述了确定目标隐变量以及确定目标场景图像的过程，该方法可以应用于智能驾驶设备中，包括以下步骤：

在步骤201中，在目标设备的当前环境下，采集多组样本数据，每组样本数据包括视角坐标与场景图像。

在本实施例中，当目标设备启动驾驶辅助功能时，可以首先在当前环境下采用数据采集装置采集多组样本数据，每组样本数据可以包括视角坐标和该视角坐标对应的场景图像。其中，该样本数据的组数可以是任意合理的数量，例如，可以是3组，或者5组，或者10组等。可以理解，本申请对样本数据的具体组数方面不限定。

具体来说，可以不断改变图像采集视角，采集多个不同视角下的场景图像，并将每个图像采集视角的视角坐标与该视角坐标对应的场景图像作为一组样本数据。其中，场景图像可以是采用传感器检测得到的感知图像，也可以是采用摄像装置拍摄的视觉图像。

在步骤202中，将多组样本数据输入至目标卷积神经网络，得到目标隐变量。该目标隐变量用于表示目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素。

在本实施例中，可以将上述多组样本数据输入至预先训练好的目标卷积神经网络中，得到目标卷积神经网络输出的目标隐变量。该目标隐变量可以用于表示目标设备在当前环境下，视角坐标与感知图像或视觉图像之间的转化影响因素。

在步骤203中，确定视角坐标集合，该视角坐标集合包括用于生成目标三维地图的多个目标视角坐标，目标三维地图为当前环境所对应的三维地图。

在步骤204中，将每个目标视角坐标及上述目标隐变量输入至目标循环神经网络中，得到每个目标视角坐标对应的目标场景图像。

在本实施例中，可以将上述目标隐变量以及每个目标视角坐标输入至预先训练好的目标循环神经网络中，若场景图像为感知图像，则可以得到每个目标视角坐标对应的目标感知图像。若场景图像为视觉图像，则可以得到每个目标视角坐标对应的目标视觉感知图像。

在步骤205中，根据每个目标场景图像生成目标三维地图。

需要说明的是，对于与图1实施例中相同的步骤，在上述图2实施例中不再进行赘述，相关内容可参见图1实施例。

应当注意，尽管在上述图2的实施例中，以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。例如，步骤203在步骤201之前执行，也可以在步骤201和步骤202之间执行，还可以在步骤202之后执行，还可以同时执行步骤201、步骤202和步骤203。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本申请的上述实施例提供的三维地图的生成方法，通过在目标设备的当前环境下，采集多组样本数据，每组样本数据包括视角坐标与场景图像，将多组样本数据输入至目标卷积神经网络，得到目标隐变量，确定视角坐标集合，将每个目标视角坐标及上述目标隐变量输入至目标循环神经网络中，得到每个目标视角坐标对应的目标场景图像，并根据每个目标场景图像生成目标三维地图。其中，该目标隐变量用于表示目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素。该视角坐标集合包括用于生成目标三维地图的多个目标视角坐标。由于本实施例中，可以在目标设备启动驾驶辅助功能时，实时采集目标设备当前环境下的多组样本数据，通过预先训练的目标卷积神经网络，得到能够表示目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素的目标隐变量。并基于目标隐变量，通过预先训练的目标循环神经网络，得到每个目标视角坐标对应的目标场景图像。因此，提高了目标三维地图所包含的信息的准确度。从而有助于为辅助驾驶提供更为准确和丰富的信息，进一步提高了辅助驾驶的辅助效果。

在一些可选实施方式中，可以通过如下方式训练得到目标卷积神经网络和目标循环神经网络。

具体来说，首先，执行以下目标操作：从样本集中选多组样本数据作为第一数据，以及选一组样本数据作为第二数据，每组样本数据包括视角坐标与场景图像。将第一数据输入至当前的卷积神经网络，得到隐变量，该隐变量用于表示视角坐标与场景图像之间的转化影响因素。将该隐变量和第二数据对应的视角坐标输入至当前的循环神经网络，得到预测场景图像。

接着，基于预测场景图像与第二数据对应的场景图像，确定当前是否满足预设条件。若确定未满足预设条件，则可以对当前的卷积神经网络和循环神经网络的网络参数进行调整，并重新执行目标操作。若确定满足上述预设条件，则可以输出经过调整后的目标卷积神经网络及目标循环神经网络。

需要说明的是，若场景图像是感知图像，则预测场景图像是预测感知图像。若场景图像是视觉图像，则预测场景图像是预测视觉图像。

由于本实施例引入了表示视角坐标与场景图像之间的转化影响因素的隐变量，并同时对用于构建隐变量的卷积神经网络，和用于预测场景图像的循环神经网络进行训练，使得训练得到的目标卷积神经网络及目标循环神经网络在应用于三维地图的生成时，所生成的三维地图信息更加准确和丰富。

在另一些可选实施方式中，在目标操作过程中，在将隐变量和第二数据对应的场景图像输入至当前的循环神经网络的同时，还可以将随机生成的噪声信号也输入至当前的循环神经网络，并且，保证第一数据和第二数据为同一智能驾驶设备在同一环境下采集的数据。

由于本实施例中，在目标操作过程中，在将隐变量和第二数据对应的场景图像输入至当前的循环神经网络的同时，还将随机生成的噪声信号也输入至当前的循环神经网络，并且，第一数据和第二数据为同一智能驾驶设备在同一环境下采集的数据。因此，训练得到的目标卷积神经网络能够实时针对当前环境，得到反映其独特特性的隐变量，提高了模型训练的效率及精确度。

如图3所示，图3根据一示例性实施例示出的另一种三维地图的生成方法的流程图，该实施例详细描述了生成目标三维地图的过程，该方法可以应用于智能驾驶设备中，包括以下步骤：

在步骤301中，在目标设备的当前环境下，采集多组样本数据，每组样本数据包括视角坐标与感知图像。

在步骤302中，将多组样本数据输入至目标卷积神经网络，得到目标隐变量。该目标隐变量用于表示目标设备在当前环境下，视角坐标与感知图像之间的转化影响因素。

在步骤303中，确定视角坐标集合，该视角坐标集合包括用于生成目标三维地图的多个目标视角坐标，目标三维地图为当前环境所对应的三维地图。

在步骤304中，将每个目标视角坐标及上述目标隐变量输入至目标循环神经网络中，得到每个目标视角坐标对应的目标感知图像。

在本实施例中，针对任意一个目标视角坐标，该目标视角坐标对应的目标感知图像可以是在该目标视角坐标下采集的感知图像。

在步骤305中，将每个目标感知图像输入至目标转换模型中，得到每个目标感知图像对应的目标视觉图像。

在本实施例中，目标转换模型可以是预先训练好的模型，可以是一种卷积神经网络。目标转换模型可以将感知图像转换成相应的视觉图像(即相同视角下的视觉图像)。可以将每个目标感知图像输入至目标转换模型中，得到每个目标感知图像对应的目标视觉图像。

在步骤306中，根据目标视觉图像生成目标三维地图。

需要说明的是，对于与图1和图2实施例中相同的步骤，在上述图3实施例中不再进行赘述，相关内容可参见图1和图3实施例。

本申请的上述实施例提供的三维地图的生成方法，通过在目标设备的当前环境下，采集多组样本数据，每组样本数据包括视角坐标与感知图像，将多组样本数据输入至目标卷积神经网络，得到目标隐变量，确定视角坐标集合，将每个目标视角坐标及上述目标隐变量输入至目标循环神经网络中，得到每个目标视角坐标对应的目标感知图像，将每个目标感知图像输入至目标转换模型中，得到每个目标感知图像对应的目标视觉图像，并根据目标视觉图像生成目标三维地图。其中，该目标隐变量用于表示目标设备在当前环境下，视角坐标与感知图像之间的转化影响因素，该视角坐标集合包括用于生成目标三维地图的多个目标视角坐标。由于本实施例引入的目标隐变量表示目标设备在当前环境下，视角坐标与感知图像之间的转化影响因素，并基于目标隐变量确定每个目标视角坐标对应的目标感知图像，然后，通过目标转换模型将目标感知图像转换成相应的目标视觉图像，从而生成目标三维地图。而目标卷积神经网络和目标循环神经网络对感知图像的解析能力更强，因此，提高了目标三维地图的生成效率，并使得所生成的目标三维地图信息更加准确和丰富。

在另一些可选实施方式中，可以通过如下方式训练得到目标转换模型。

具体来说，首先，需要采集大量样本数据，可以通过相同型号的智能驾驶设备在各种环境下，采集不同视角下的感知图像以及相应的视觉图像，得到多组样本，每组样本包括样本感知图像以及该样本感知图像对应的样本视觉图像(样本感知图像与该样本感知图像对应的样本视觉图像为同时在相同视角下采集的)。

然后，执行以下预设操作：将预先采集的样本视觉图像输入至当前的逆转换模型，得到第一仿真感知图像。其中，逆转换模型和转换模型是相互对称的模型，例如，逆转换模型可以将A图像转换成B图像，则转换模型可以将B图像转换成A图像。将样本视觉图像对应的样本感知图像和第一仿真感知图像输入至当前的判断模型中，该判断模型也可以是一种卷积神经网络。该判断模型用于判断样本感知图像和第一仿真感知图像的真伪属性。可以基于该判断模型输出的判断结果，确定参考指标。其中，判断结果可以包括判断模型对样本感知图像进行判断的第一结果以及对第一仿真感知图像进行判断的第二结果。参考指标包括第一结果为正确结果的概率以及第二结果为正确结果的概率。

具体来说，可以通过如下方式确定参考指标：在一种实现方式中，可以将样本感知图像输入至当前的转换模型，并将该转换模型输出的仿真视觉图像输入至当前的逆转换模型(该转换模型与该逆转换模型相对应)，得到第二仿真感知图像。确定样本感知图像与第二仿真感知图像之间的第一差异矩阵所对应的第一二范数。并基于上述判断结果，确定第一结果以及第二结果之间的第二差异矩阵所对应的第二二范数。确定正则化项，该正则化项用于防止过拟合化。可以根据第一二范数、第二二范数以及正则化项，确定参考指标。由于本实现方式引入逆转换模型对应的转换模型，并基于该逆转换模型和对应的转换模型得到第二仿真感知图像，采用第二仿真感知图像得到第二二范数，因此，能够同时对逆转换模型和该逆转换模型对应的转换模型进行训练，使得模型的训练更为准确。

在另一种实现方式中，还可以直接确定样本感知图像与第一仿真感知图像之间的差异矩阵所对应的第三二范数，并确定第二二范数和正则化项。根据第三二范数、第二二范数以及正则化项，确定参考指标。可以理解，本申请对确定参考指标的具体方式方面不限定。

最后，可以基于参考指标确定当前是否满足预设的停止条件，若确定未满足预设的停止条件，进行模型参数的调整，并重新执行上述预设操作。需要说明的是，在进行模型参数的调整时，需要对逆转换模型和该逆转换模型对应的转换模型同时进行相应的调整，使逆转换模型和该逆转换模型对应的转换模型始终保持对应。若确定满足预设的停止条件，则可以将经过调整后得到的逆转换模型所对应的转换模型作为目标转换模型。

在本实施例中，可以基于参考指标确定预设函数，当预设函数收敛时，则可以确定满足预设的停止条件。预设函数可以是任意合理的函数，例如，预设函数可以表示为第一结果为正确结果的数学期望函数与第二结果为错误结果的数学期望函数之和。可以理解，本申请对预设函数的具体表示方式方面不限定。

本实施例通过训练与目标转换模型相对应的逆转换模型，从而得到目标转换模型，由于逆转换模型是将视觉图像转换成相应的感知图像，图像的信息量有所降低，因此，模型训练的效率更高，效果更好。

如图4所示，图4根据一示例性实施例示出的一种用于生成三维地图的模型训练的方法的流程图，该方法可以应用于终端设备中，也可以应用于服务器中。该方法包括以下步骤：

在步骤401中，从样本集中选多组样本数据作为第一数据，以及选一组样本数据作为第二数据，每组样本数据包括视角坐标与场景图像。

在本实施例中，首先，可以预先采用型号相同的智能驾驶设备在各种环境下，采用不同的视角采集大量样本数据得到样本集。其中，样本集中的每组样本数据可以包括视角坐标及该视角坐标对应的场景图像。在进行模型训练时，可以从样本集中选多组样本数据作为第一数据，以及从样本集中选一组样本数据作为第二数据。其中，场景图像可以是感知图像，也可以是视觉图像，本申请对场景图像的具体类型方面不限定。

在步骤402中，将第一数据输入至当前的卷积神经网络，得到隐变量，该隐变量用于表示视角坐标与场景图像之间的转化影响因素。

在步骤403中，将该隐变量和第二数据对应的视角坐标输入至当前的循环神经网络，得到预测场景图像。

在本实施例中，首先，可以将第一数据输入至当前的卷积神经网络中，得到该卷积神经网络输出的隐变量。接着，可以将该隐变量和第二数据所对应的视角坐标输入至当前的循环神经网络，得到该循环神经网络输出的预测场景图像。其中，若场景图像是感知图像，则预测场景图像为预测感知图像，若场景图像是视觉图像，则预测场景图像为预测视觉图像。

在步骤404中，基于该预测场景图像与第二数据所对应的场景图像，确定当前是否满足预设条件。

在本实施例中，可以基于该预测场景图像与第二数据所对应的场景图像，确定目标函数是否收敛，当目标函数收敛时，可以确定当前满足预设条件。当目标函数未收敛时，可以确定当前未满足预设条件。其中，目标函数可以是上述预测场景图像与第二数据对应的场景图像之间的ELBO证据下线函数。具体来说，预测场景图像的分布与第二数据所对应的场景图像的分布服从正态分布，则可以根据ELBO的定义式以及极大似然估计方法，得到预测场景图像与第二数据对应的场景图像之间的ELBO证据下线函数。可以理解，目标函数还可以是其它任意合理的函数，本申请对此方面不限定。

在步骤405中，若未满足预设条件，则对上述卷积神经网络和上述循环神经网络的网络参数进行调整，并重新执行步骤401。

在本实施例中，当确定未满足预设条件时，则可以对上述卷积神经网络和上述循环神经网络的网络参数进行调整。具体来说，可以根据该预测场景图像与第二数据所对应的场景图像，确定上述卷积神经网络和上述循环神经网络的网络参数的调整方向(如，将参数调大，或者将参数调小)，然后按照该调整方向调整上述卷积神经网络和上述循环神经网络的网络参数。从而使得调整后，预测场景图像与第二数据所对应的场景图像之间的差异尽可能减小。

在步骤406中，若满足预设条件，则输出经过调整后的目标卷积神经网络及目标循环神经网络。

在本实施例中，当确定满足预设条件时，可以输出当前经过调整后的卷积神经网络及循环神经网络作为目标卷积神经网络及目标循环神经网络。

需要说明的是，通过上述方式训练得到的目标卷积神经网络及目标循环神经网络可以用于三维地图的生成。具体来说，可以首先基于目标卷积神经网络获取目标设备在当前环境下对应的目标隐变量，并确定视角坐标集合。然后，将视角坐标集合中的目标视角坐标目标隐变量输入至目标循环神经网络中，得到每个目标视角坐标对应的目标场景图像。最后，可以根据每个目标场景图像生成目标三维地图。

本申请的上述实施例提供的用于生成三维地图的模型训练的方法，执行以下目标操作：从样本集中选多组样本数据作为第一数据，以及选一组样本数据作为第二数据，每组样本数据包括视角坐标与场景图像。将第一数据输入至当前的卷积神经网络，得到隐变量，该隐变量用于表示视角坐标与场景图像之间的转化影响因素。将该隐变量和第二数据对应的视角坐标输入至当前的循环神经网络，得到预测场景图像。若基于预测场景图像与第二数据对应的场景图像，确定未满足预设条件，则可以对当前的卷积神经网络和循环神经网络的网络参数进行调整，并重新执行目标操作。若确定满足上述预设条件，则输出经过调整后的目标卷积神经网络及目标循环神经网络。由于本实施例引入了表示视角坐标与场景图像之间的转化影响因素的隐变量，并同时对用于构建隐变量的卷积神经网络，和用于预测场景图像的循环神经网络进行训练，使得训练得到的目标卷积神经网络及目标循环神经网络在应用于三维地图的生成时，所生成的三维地图信息更加准确和丰富。

一般来说，同一型号的智能驾驶设备在任意环境下，所采集的场景图像与图像采集视角之间的关系通常具有一定的共性，通常可以将同一型号的智能驾驶设备所采集的场景图像归为一类进行样本数据采集并进行模型训练。但是，通过上述方式进行训练得到的模型只能体现同一型号的智能驾驶设备所采集的场景图像与图像采集视角之间关系的共性特性。实际上，同一型号的智能驾驶设备在不同的环境下，所采集的场景图像与图像采集视角之间的关系又具有其独特的特性。

在本实施例中，可以采用同一型号的智能驾驶设备在不同的环境下，进行样本数据采集，得到样本集。在每轮训练中，可以从样本集中选多组样本数据作为第一数据，以及选一组样本数据作为第二数据。其中，第一数据和第二数据均为同一智能驾驶设备在同一环境下采集的数据，使得每轮训练均对应同一智能驾驶设备的相同环境。并且，在目标操作过程中，可以随机生成噪声信号，并将噪声信号与隐变量和第二数据对应的场景图像一起输入至当前的循环神经网络中。由于每轮训练对应同一智能驾驶设备的相同环境，并在每轮训练引入随机噪声信号(随机噪声信号可以为循环神经网络提供预设的自由度)。不同轮次的训练对应智能驾驶设备的不同环境。因此，最终训练得到的目标卷积神经网络能够针对智能驾驶设备的不同环境，得到能反映其独特特性的隐变量。

与前述三维地图的生成及模型训练方法实施例相对应，本申请还提供了三维地图的生成及模型训练装置的实施例。

如图5所示，图5是本申请根据一示例性实施例示出的一种三维地图的生成装置框图，该装置可以包括：第一确定模块501，获取模块502，第二确定模块503和生成模块504。

其中，第一确定模块501，用于确定目标设备在当前环境下对应的目标隐变量，目标隐变量用于表示目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素。

获取模块502，用于确定视角坐标集合，该视角坐标集合包括用于生成目标三维地图的多个目标视角坐标，目标三维地图为当前环境所对应的三维地图。

第二确定模块503，用于基于上述视角坐标集合中的目标视角坐标及目标隐变量，确定每个目标视角坐标对应的目标场景图像。

生成模块504，用于根据每个目标场景图像生成目标三维地图。

如图6所示，图6是本申请根据一示例性实施例示出的另一种三维地图的生成装置框图，该实施例在前述图5所示实施例的基础上，第一确定模块501可以包括：采集子模块601和第一输入子模块602。

其中，采集子模块601，用于在目标设备的当前环境下，采集多组样本数据，每组样本数据包括视角坐标与场景图像。

第一输入子模块602，用于将多组样本数据输入至目标卷积神经网络，得到目标隐变量。

如图7所示，图7是本申请根据一示例性实施例示出的另一种三维地图的生成装置框图，该实施例在前述图5所示实施例的基础上，第二确定模块503可以包括：第二输入子模块701。

其中，第二输入子模块701，用于将每个目标视角坐标及目标隐变量输入至目标循环神经网络，得到每个目标视角坐标对应的目标场景图像。

在一些可选实施方式中，目标卷积神经网络和目标循环神经网络通过如下方式训练：

执行以下目标操作：从样本集中选多组样本数据作为第一数据，以及选一组样本数据作为第二数据。将第一数据输入至当前的卷积神经网络，得到隐变量，该隐变量用于表示视角坐标与场景图像之间的转化影响因素。将该隐变量和第二数据对应的视角坐标输入至当前的循环神经网络，得到预测场景图像。

若基于预测场景图像与第二数据对应的场景图像，确定未满足预设条件，对卷积神经网络和循环神经网络的网络参数进行调整，并重新执行目标操作。若基于预测场景图像与第二数据对应的场景图像，确定满足预设条件，输出经过调整后的目标卷积神经网络及目标循环神经网络。

在另一些可选实施方式中，第一数据和第二数据为同一智能驾驶设备在同一环境下采集的数据。

目标操作还包括：在将隐变量和第二数据对应的场景图像输入至当前的循环神经网络的同时，将随机生成的噪声信号也输入至当前的循环神经网络。

在另一些可选实施方式中，可以通过如下方式确定满足预设条件：确定目标函数，目标函数为预测场景图像与第二数据对应的场景图像之间的ELBO证据下线函数。当目标函数收敛时，确定满足预设条件。

如图8所示，图8是本申请根据一示例性实施例示出的另一种三维地图的生成装置框图，该实施例在前述图5所示实施例的基础上，生成模块504可以包括：第三输入子模块801和生成子模块802。

其中，场景图像为感知图像，目标场景图像为目标感知图像。

其中，第三输入子模块801，用于将每个目标感知图像输入至目标转换模型中，得到每个目标感知图像对应的目标视觉图像。

生成子模块802，用于根据目标视觉图像生成目标三维地图。

在另一些可选实施方式中，目标转换模型可以通过如下方式训练：

执行以下预设操作：将预先采集的样本视觉图像输入至当前的逆转换模型，得到第一仿真感知图像。将样本视觉图像对应的样本感知图像和第一仿真感知图像输入至当前的判断模型中，该判断模型用于判断样本感知图像和第一仿真感知图像的真伪属性。基于该判断模型输出的判断结果，确定参考指标。其中，该判断结果可以包括该判断模型对样本感知图像进行判断的第一结果以及对第一仿真感知图像进行判断的第二结果。该参考指标可以包括第一结果为正确结果的概率以及第二结果为正确结果的概率。

若基于参考指标确定未满足预设的停止条件，则进行模型参数的调整，并重新执行上述预设操作。若基于参考指标确定满足所述停止条件，将经过调整后得到的逆转换模型所对应的转换模型确定为目标转换模型。

在另一些可选实施方式中，上述预设操作还可以包括：将样本感知图像输入至当前的转换模型，并将转换模型输出的仿真视觉图像输入至当前的逆转换模型，得到第二仿真感知图像。确定样本感知图像与第二仿真感知图像之间的第一差异矩阵所对应的第一二范数。

可以通过如下方式基于判断模型输出的判断结果，确定参考指标：

基于上述判断结果，确定第一结果以及第二结果之间的第二差异矩阵所对应的第二二范数。根据第一二范数以及第二二范数，确定参考指标。

应当理解，上述装置可以预先设置在智能驾驶设备中，也可以通过下载等方式而加载到智能驾驶设备中。上述装置中的相应模块可以与智能驾驶设备中的模块相互配合以实现三维地图的生成方案。

如图9所示，图9是本申请根据一示例性实施例示出的一种用于生成三维地图的模型训练装置框图，该装置可以包括：执行模块901，调整模块902和输出模块903。

其中，执行模块901，用于执行以下目标操作：从样本集中选多组样本数据作为第一数据，以及选一组样本数据作为第二数据，每组样本数据包括视角坐标与场景图像。将第一数据输入至当前的卷积神经网络，得到隐变量，该隐变量用于表示视角坐标与场景图像之间的转化影响因素。将该隐变量和第二数据对应的视角坐标输入至当前的循环神经网络，得到预测场景图像。

调整模块902，用于在基于预测场景图像与第二数据对应的场景图像，确定未满足预设条件时，对上述卷积神经网络和上述循环神经网络的网络参数进行调整，并指示执行模块901重新执行上述目标操作。

输出模块903，用于在基于预测场景图像与第二数据对应的场景图像，确定满足预设条件时，输出经过调整后的目标卷积神经网络及目标循环神经网络。

所述执行模块901还用于：在将上述隐变量和第二数据对应的场景图像输入至当前的循环神经网络的同时，将随机生成的噪声信号也输入至当前的循环神经网络。

应当理解，上述装置可以预先设置在终端设备或服务器中，也可以通过下载等方式而加载到终端设备或服务器中。上述装置中的相应模块可以与终端设备或服务器中的模块相互配合以实现用于生成三维地图的模型训练的方案。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请实施例还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1至图4任一实施例提供的三维地图的生成及模型训练方法。

对应于上述的三维地图的生成方法，本申请实施例还提出了图10所示的根据本申请的一示例性实施例的电子设备的示意结构图。请参考图10，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成三维地图的生成装置。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对应于上述的用于生成三维地图的模型训练方法，本申请实施例还提出了图11所示的根据本申请的一示例性实施例的电子设备的示意结构图。请参考图11，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成用于生成三维地图的模型训练装置。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种三维地图的生成方法，其特征在于，所述方法包括：

确定目标设备在当前环境下对应的目标隐变量；所述目标隐变量用于表示所述目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素；场景图像是反映目标设备当前所处环境的图像,视角坐标是场景图像所对应的图像采集视角的坐标；

根据每个所述目标场景图像生成所述目标三维地图。

2.根据权利要求1所述的方法，其特征在于，所述确定目标设备在当前环境下对应的目标隐变量，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标卷积神经网络和所述目标循环神经网络通过如下方式训练：

4.根据权利要求3所述的方法，其特征在于，所述第一数据和所述第二数据为同一智能驾驶设备在同一环境下采集的数据；

所述目标操作还包括：

5.根据权利要求3所述的方法，其特征在于，通过如下方式确定满足所述预设条件：

当所述目标函数收敛时，确定满足所述预设条件。

6.根据权利要求1-5中任一所述的方法，其特征在于，所述场景图像为感知图像；所述目标场景图像为目标感知图像；

根据所述目标视觉图像生成所述目标三维地图。

7.一种用于生成三维地图的模型训练方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述第一数据和所述第二数据为同一智能驾驶设备在同一环境下采集的数据；

所述目标操作还包括：

9.一种三维地图的生成装置，其特征在于，所述装置包括：

第一确定模块，用于确定目标设备在当前环境下对应的目标隐变量；所述目标隐变量用于表示所述目标设备在当前环境下，视角坐标与场景图像之间的转化影响因素；场景图像是反映目标设备当前所处环境的图像,视角坐标是场景图像所对应的图像采集视角的坐标；

10.一种用于生成三维地图的模型训练装置，其特征在于，所述装置包括：

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-8中任一项所述的方法。

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1-8中任一项所述的方法。