CN115565155A

CN115565155A - 神经网络模型的训练方法、车辆视图的生成方法和车辆

Info

Publication number: CN115565155A
Application number: CN202211184485.5A
Authority: CN
Inventors: 邱翰; 朱从贤; 王进
Original assignee: Rainbow Software Co ltd
Current assignee: Rainbow Software Co ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-01-03
Also published as: WO2024067732A1

Abstract

本申请公开了一种神经网络模型的训练方法、车辆视图的生成方法和车辆，该训练方法包括：确定样本车辆的第一视图和第二视图作为训练样本对，其中，第一视图的采集角度与第二视图的采集角度不同，然后根据第一视图确定样本车辆的初始目标视图；将第一视图和初始目标视图作为用于生成车辆实景视图的神经网络模型的输入数据，将第二视图作为神经网络模型的目标数据，对神经网络模型进行训练。解决了通过语义分割得到的视图与实际情况相差甚远，真实度较低，导致驾驶员很难将其对应到实际场景的技术问题，提高了车辆视图的真实性，有利于为驾驶员分辨道路中的其他车辆，减少误判，提高驾驶过程的安全性。

Description

神经网络模型的训练方法、车辆视图的生成方法和车辆

技术领域

本文涉及车辆辅助驾驶技术，尤指一种神经网络模型的训练方法、车辆视图的生成方法和车辆。

背景技术

随着人们生活水平的提升，汽车在现代社会中得到了广泛的使用。现代交通变得越来越复杂，行车安全变得越来越重要，如何让用户获得更好的驾驶体验，成为汽车产业竞争的热点，也加速了辅助驾驶、自动驾驶技术的发展。

随着摄像头技术的成熟以及摄像头价格的下降，将计算机视觉技术应用于汽车驾驶，为用户提供更准确、直观的感知，成为了目前主流的辅助驾驶技术。利用计算机视觉技术，在车辆行驶过程中，通过车载相机获取车辆周围信息，并将所述车辆周围信息展示给车辆驾驶员，能够帮助车辆驾驶员快速了解车辆周围情况。

目前已有的获取车辆周围信息的方式包括：通过车载相机拍摄车辆周围的车辆，利用目标检测、测距等技术从所述拍摄图片中获取周围车辆相对本车的位置，将周围车辆按照其相对本车的位置显示在以本车为圆点的二维坐标系下，如图1所示，图1中的方框表示车辆，一个方框代表一辆车。

在该显示方式中，其余车辆与本车距离、位置等信息一目了然，对驾驶员很友好，这无疑将大大减轻驾驶员的驾驶压力，提升驾驶体验。然而这种显示方式强调了统一性忽视了差异性，如对车辆而言，图1的显示方式将所有小汽车(car)归纳为方框，如果同时有多辆车出现在同一个相近位置，驾驶员很难分辨现实场景与俯视图中的车辆对应关系，这给驾驶员造成了额外困扰。

为解决上述问题，目前通常利用语义分割得到车辆视图，但通过语义分割得到的车辆视图与实际情况相差甚远，真实度较低，所以驾驶员很难将其对应到实际场景。

发明内容

本申请提供了一种神经网络模型的训练方法、车辆视图的生成方法和车辆，有利于生成车辆的实景视图。

本申请提供了一种神经网络模型的训练方法，所述方法包括：

确定样本车辆的第一视图和第二视图作为训练样本对，其中，所述第一视图的采集角度与所述第二视图的采集角度不同，所述第二视图为以预设采集角度对所述样本车辆进行采集的视图；

根据所述第一视图确定所述样本车辆的初始目标视图；

将所述第一视图和所述初始目标视图作为用于生成车辆实景视图的神经网络模型的输入数据，将所述第二视图作为所述神经网络模型的目标数据，对所述神经网络模型进行训练。

在一示例性的实施例中，所述第二视图为样本车辆的采集俯视图，所述神经网络模型用于生成车辆实景俯视图，所述根据所述第一视图确定所述样本车辆的初始目标视图包括：

对所述第一视图进行逆投影映射处理得到所述样本车辆的车辆鸟瞰图作为所述初始目标视图。

在一示例性的实施例中，所述神经网络模型为生成对抗网络模型，包括生成网络和判别网络，所述将所述第一视图和所述初始目标视图作为用于生成车辆实景视图的神经网络模型的输入数据，将所述第二视图作为所述神经网络模型的目标数据，对所述神经网络模型进行训练包括：

将所述第一视图与所述车辆鸟瞰图输入所述生成网络，通过所述生成网络得到所述样本车辆的预测俯视图；

将所述预测俯视图与所述采集俯视图输入所述判别网络进行判别，并对所述生成网络和所述判别网络进行交叉训练；

当所述生成对抗网络模型的损失函数收敛或交叉训练的轮次达到预设轮次阈值时，对所述生成网络和所述判别网络的交叉训练完成。

在一示例性的实施例中，所述生成对抗网络模型的损失函数包括所述生成网络的损失函数和所述判别网络的损失函数，所述生成网络的损失函数至少包括以下之一：

内容损失函数，用于评价所述预测俯视图和所述采集俯视图之间的内容差异；

风格损失函数，用于评价所述预测俯视图和所述采集俯视图之间的风格差异。

在一示例性的实施例中，所述内容损失函数至少包括以下之一：

第一特征损失函数，用于评价所述预测俯视图和所述采集俯视图之间在第一特征上的差异，所述第一特征至少包括：像素、纹理、颜色、边缘和棱角中的一种或多种；

第二特征损失函数，用于评价所述预测俯视图和所述采集俯视图之间在第二特征上的差异，所述第二特征至少包括：感知特征。

在一示例性的实施例中，所述第一特征损失函数和/或所述第二特征损失函数的计算方法包括：

对比所述预测俯视图和所述采集俯视图，确定前景差异和背景差异；

对所述前景差异和所述背景差异进行加权计算，确定所述第一特征损失函数和/或所述第二特征损失函数。

在一示例性的实施例中，所述生成网络包括：

注意力模块，用于在所述第一视图与所述车辆鸟瞰图中提取所述样本车辆的全局特征。

在一示例性的实施例中，所述生成网络包括：编码模块和解码模块；

所述将所述第一视图与所述车辆鸟瞰图输入所述生成网络，通过所述生成网络得到所述样本车辆的预测俯视图包括：

所述编码模块包括第一编码单元和第二编码单元，通过所述第一编码单元在所述第一视图中提取所述样本车辆的第一车辆特征，通过所述第二编码单元在所述车辆鸟瞰图中提取所述样本车辆的第二车辆特征，将所述第一车辆特征和所述第二车辆特征进行融合，得到所述样本车辆的融合特征，将所述融合特征输入所述解码模块得到所述预测俯视图；或者，

将所述第一视图和所述车辆鸟瞰图进行融合，得到所述样本车辆的融合图像，将所述融合图像输入所述生成网络的编码模块确定所述样本车辆的融合特征，将所述融合特征输入所述生成网络的解码模块得到所述预测俯视图。

在一示例性的实施例中，对所述第一视图进行逆投影映射处理得到所述样本车辆的车辆鸟瞰图作为所述初始目标视图之后，所述方法还包括：

确定所述样本车辆的外接图形，分别对所述第一视图、所述采集俯视图和所述车辆鸟瞰图中的样本车辆的外接图形进行裁剪，得到多个裁剪图像；

分别对多个所述裁剪图像进行缩放，得到多个缩放后图像；

对所述多个缩放后图像进行数据扩充，其中，所述数据扩充至少包括以下之一：随机水平镜像、水平方向平移、垂直方向平移、水平方向拉伸和垂直方向拉伸。

在一示例性的实施例中，所述对所述神经网络模型进行训练包括：

基于多个所述训练样本对组成的训练样本对集对所述神经网络模型进行训练，其中，所述训练样本对集包括多种不同采集场景下确定的训练样本对；

确定样本车辆的第一视图和第二视图作为训练样本对包括：

同时获取所述样本车辆的第一视图和第二视图作为一个训练样本对，其中，所述第一视图至少为以下之一：所述样本车辆前视图、后视图，以及车身两侧的侧视图，所述第二视图为样本车辆的采集俯视图。

在一示例性的实施例中，所述训练样本对通过样本采集系统得到，所述样本采集系统包括一组或多组图像采集装置，所述图像采集装置包括第一固定部和第二固定部，所述第一固定部与所述第二固定部分立设置或者一体成型；

所述第一固定部用于固定第一图像采集设备，所述第一图像采集设备用于采集所述第一视图；以及

所述第二固定部用于固定第二图像采集设备，所述第二图像采集设备用于采集所述第二视图。

在一示例性的实施例中，所述第一固定部为固定杆，且垂直于地面设置；所述第二固定部为固定杆，与所述第一固定部连接且平行于地面设置。

在一示例性的实施例中，所述第一图像采集设备和所述第二图像采集设备中至少一种为广角摄像头；或者，

所述第一图像采集设备和所述第二图像采集设备中至少一种为红外摄像头。

在一示例性的实施例中，在所述图像采集系统包括多组所述图像采集装置的情况下，多组所述图像采集装置分别位于所述样本车辆的不同方位，并同时采集多组所述训练样本对。

在一示例性的实施例中，所述图像采集装置为固定的图像采集装置或者可移动的图像采集装置。

在一示例性的实施例中，在所述图像采集装置为固定的图像采集装置的情况下，对多种不同采集场景下、处于移动状态的所述样本车辆进行图像采集，以获取所述第一视图和所述第二视图作为所述训练样本对；

在所述图像采集装置为可移动的图像采集装置的情况下，对多种不同采集场景下、处于静止状态的所述样本车辆进行图像采集，以获取所述第一视图和所述第二视图作为所述训练样本对。

本申请实施例还提供了一种车辆视图的生成方法，包括：

获取目标车辆的第三视图；

根据所述第三视图生成所述目标车辆的初始目标视图；

将所述第三视图和所述初始目标视图输入按照如前任一项实施例所述方法训练好的神经网络模型，生成所述目标车辆的实景视图。

在一示例性的实施例中，所述第三视图通过自车的图像采集设备得到。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如前任一项实施例所述的神经网络模型的训练方法或者如前任一项实施例所述的车辆视图的生成方法。

本申请实施例还提供了一种车辆视图的生成装置，包括存储器和处理器，所述存储器存储有程序，所述程序在被所述处理器读取执行时，实现如前任一项实施例所述的车辆视图的生成方法，或，实现如前任一项实施例所述的神经网络模型的训练方法以及如任一项实施例所述的车辆视图的生成方法。

本申请实施例还提供了一种车辆，所述车辆包括：

图像采集装置，设置为采集目标车辆的第三视图；

图像处理器，设置为实现如前实施例所述的车辆视图的生成方法。

与相关技术相比，本申请将实际采集得到的第一视图作为输入数据之一，将实际采集得到的第二视图作为目标数据，基于此对神经网络模型进行训练，因此训练完成后的神经网络模型能够根据输入的图像生成具有车辆细节信息的车辆实景视图，例如包含车辆形状、色彩、线条、大小等信息的车辆图像；利用本申请记载的训练方法对神经网络模型进行训练后，所述神经网络模型可以用于生成车辆实景视图。相较于现有技术通过语义分割法获得所需的车辆视图，本实施例通过神经网络模型获取车辆实景视图，能够得到车辆的更多细节信息，从而解决通过语义分割得到的视图与实际情况相差甚远，只能得到车辆在图中的位置以及大小信息，无法获得真实的车辆信息，真实度较低，导致驾驶员很难将其对应到实际场景的技术问题，所以本申请记载的方案提高了车辆视图的真实性，有利于为驾驶员提供更为直观的周围车辆信息，从而分辨道路中的其他车辆，减少误判，提高驾驶过程的安全性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为相关技术中车辆位置显示示意图；

图2为本申请实施例提供的神经网络模型的训练方法流程图；

图3为本申请实施例提供的生成对抗网络的训练方法流程图；

图4为本申请实施例提供的一种获取预测俯视图的示意图；

图5为本申请实施例提供的另一种获取预测俯视图的示意图；

图6为本申请实施例提供的又一种获取预测俯视图的示意图；

图7A为本申请实施例提供的一种图像采集装置示意图；

图7B为本申请实施例提供的另一种图像采集装置示意图；

图8为本申请实施例提供的一种样本采集系统的示意图；

图9为本申请实施例提供的另一种样本采集系统的示意图；

图10为本申请实施例提供的一种卷积神经网络模型的示意图；

图11为本申请实施例提供的一种车辆视图的生成方法流程图；

图12为本申请实施例提供的一种车辆视图的生成装置结构图；

图13为本申请实施例提供的一种车辆模块图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

本申请实施例提供了一种神经网络模型的训练方法，如图2所示，所述方法包括：

步骤S201，确定样本车辆的第一视图和第二视图作为训练样本对；

所述第一视图的采集角度与所述第二视图的采集角度不同，所述第二视图为以预设采集角度对所述样本车辆进行采集的视图；

其中，样本车辆可以为客车、轿车，也可以是卡车、货车等工程车辆，视图指光线投射至物体所得的投影，本实施例中物体具体为样本车辆，进一步的，第二视图的采集角度可以为任意的预设采集角度，该预设采集角度根据实际应用场景确定，第一视图的采集角度与第二视图的采集角度不同即可；

例如，在想要得到样本车辆俯视图的情况下，第二视图的采集角度即为自上而下的方向，第一视图的采集角度可以为与地面平行、且朝向车身的任何一个方向；在想要得到样本车辆侧视图的情况下，第二视图的采集角度可以为朝向样本车辆左侧车身的方向，第一视图的采集角度可以为朝向样本车辆右侧车身的方向，以此类推；

进一步地，如果考虑到自动驾驶车辆本身与周围的目标车辆存在高度上的差异，也可以从样本车辆的斜上方等特殊角度进行第一视图或者第二视图的采集；

步骤S202，根据所述第一视图确定所述样本车辆的初始目标视图；

由于仅根据第一视图和第二视图进行神经网络模型的训练，会导致模型在应用过程中生成的图像变形，所以本实施例中需要先根据第一视图确定从第一视图到第二视图之间的中间视图，记为初始目标视图，以提高神经网络模型的精度；

步骤S203，将所述第一视图和所述初始目标视图作为用于生成车辆实景视图的神经网络模型的输入数据，将所述第二视图作为所述神经网络模型的目标数据，对所述神经网络模型进行训练。

本实施例中，将实际采集得到的第一视图作为输入数据之一，将实际采集得到的第二视图作为目标数据，基于此对神经网络模型进行训练，因此训练完成后的神经网络模型能够根据输入的图像生成具有车辆细节信息的车辆实景视图，例如包含车辆形状、色彩、线条、大小等信息的车辆图像。

通过上述步骤S201至步骤S203，利用本申请实施例所述的训练方法对神经网络模型进行训练后，所述神经网络模型可以用于生成车辆实景视图。相较于现有技术通过语义分割法获得所需的车辆视图，本实施例通过神经网络模型获取车辆实景视图，能够得到车辆的更多细节信息，从而解决通过语义分割得到的视图与实际情况相差甚远，只能得到车辆在图中的位置以及大小信息，无法获得真实的车辆信息，真实度较低，导致驾驶员很难将其对应到实际场景的技术问题，所以本实施例中的方案提高了车辆视图的真实性，有利于为驾驶员提供更为直观的周围车辆信息，从而分辨道路中的其他车辆，减少误判，提高驾驶过程的安全性。

在一示例性实施例中，考虑到俯视图更能体现车辆周围的实际情况，有利于驾驶员对全局进行把控，所以第二视图为对样本车辆进行实际采集得到的采集俯视图，神经网络模型用于生成车辆实景俯视图。在此基础上，步骤S202根据所述第一视图确定所述样本车辆的初始目标视图，包括：

对所述第一视图进行逆投影映射(Inverse Perspective Mapping，IPM)处理得到所述样本车辆的车辆鸟瞰图作为所述初始目标视图。其中，逆投影映射也称为逆投影变换，可以通过四点计算将图像中本应平行的线条恢复至平行状态，也可以通过相机内外参结合深度信息得到。本实施例中通过IPM计算得到车辆鸟瞰图，对采集到的第一视图和第二视图进行补充，提高车辆实景俯视图的生成精度。

在一示例性实施例中，所述神经网络模型为生成对抗网络模型(GenerativeAdversarial Nets，GAN)，包括生成网络(G网络)和判别网络(D网络)；

其中，生成网络采用encoder-decoder的架构，即包括编码模块(encoder)和解码模块(decoder)，判别网络用来引导生成网络的生成目标。现有技术中存在多种这样的image2image的生成对抗网络，如pixel2pixelHD、UNIT、MUNIT等。

在一示例性实施例中，步骤S203将所述第一视图和所述初始目标视图作为用于生成车辆实景视图的神经网络模型的输入数据，将所述第二视图作为所述神经网络模型的目标数据，对所述神经网络模型进行训练，如图3所示，包括：

步骤S2031，将所述第一视图与所述车辆鸟瞰图输入所述生成网络，通过所述生成网络得到所述样本车辆的预测俯视图；

步骤S2032，将所述预测俯视图与所述采集俯视图输入所述判别网络进行判别，并对所述生成网络和所述判别网络进行交叉训练；

步骤S2033，当所述生成对抗网络模型的损失函数收敛或交叉训练的轮次达到预设轮次阈值时，对所述生成网络和所述判别网络的交叉训练完成；

通过本申请实施例训练后的生成对抗网络模型，可以完成从输入车辆第一视图到输出对应车辆预测俯视图的功能。

在一示例性实施例中，所述生成对抗网络模型的损失函数包括所述生成网络的损失函数和所述判别网络的损失函数；生成网络的损失函数包括loss_g，判别网络的损失函数包括loss_d，其中，loss_g用于训练生成网络的生成能力，loss_d用于训练判别网络对第二视图以及预测俯视图的鉴别能力。

进一步地，本实施例中所述生成网络的损失函数至少还包括以下之一，用来提升生成网络的生成效果：

内容损失函数loss_content，用于评价所述预测俯视图和所述采集俯视图之间的内容差异；

风格损失函数loss_style，用于评价所述预测俯视图和所述采集俯视图之间的风格差异；其中，风格损失函数loss style可以通过如下方式得到：基于包括13个卷积层和3个全连接层的vgg16(Visual Geometry Group Network 16)等类似的神经网络模型来获取预测俯视图和采集俯视图的高级特征图，最后在高级特征图上计算二者的格拉姆损失(gram loss)获得。

因此，本实施例中生成网络的损失函数loss_g_total可以表达为如下公式1：

loss_g_total＝loss_g+a×loss_content+b×loss_style 公式1

在公式1中，a、b为经验加权系数。

判别网络的损失函数loss_d_total可以表达为如下公式2：

loss_d_total＝loss_d 公式2

本实施例中，通过内容损失函数能够从局部和全局两个角度保证预测俯视图和采集俯视图之间的内容一致性，通过风格损失函数能够保证预测俯视图和采集俯视图之间的全局风格相关性。

在一示例性实施例中，所述内容损失函数loss_content至少可以包括以下之一：

第一特征损失函数，用于评价所述预测俯视图和所述采集俯视图之间在第一特征上的差异，所述第一特征为低级特征loss_low_level，至少包括：像素、纹理、颜色、边缘和棱角中的一种或多种；第一特征损失函数可以通过RGB空间或者YUV等空间上的像素级损失函数L1 loss、L2 loss、结构相似性损失(Structural Similarity Loss，SSIM loss)分别得到，也可以通过其中一个或多个联合加权得到；其中，L1 loss、L2 loss可以分别为绝对值损失函数和平方损失函数，用来衡量像素级损失，根据实际要获得的损失的侧重面不同可以有不同的偏重。

第二特征损失函数，用于评价所述预测俯视图和所述采集俯视图之间在第二特征上的差异，所述第二特征为高级特征loss_high_level，其至少包括：感知特征；对应的，所述第二特征损失函数至少包括：感知损失函数perceptual loss；其中，perceptual loss可以由神经网络模型，例如vgg16在高层特征图上逐像素计算L1 loss或者L2 loss生成。

本实施例中，低级特征损失函数能够从局部角度保证内容一致性，高级特征损失函数能够从更大范围甚至局部角度一起保证内容一致性。

在一示例性实施例中，由于采集俯视图和预测俯视图中除了样本车辆，还包括杂乱的环境信息，杂乱环境信息会对预测俯视图和采集俯视图之间的差异造成影响，从而影响损失函数的计算结果，因此第一特征损失函数和/或所述第二特征损失函数的计算方法包括：

对比所述预测俯视图和所述采集俯视图，确定前景差异和背景差异；其中，前景指的是采集俯视图和预测俯视图中样本车辆所在的区域，前景差异为采集俯视图中的前景和预测俯视图中的前景之间的差异，背景指的是采集俯视图和预测俯视图中样本车辆之外的区域，背景差异为采集俯视图中的背景和预测俯视图中的背景之间的差异；

然后，对所述前景差异和所述背景差异进行加权计算，确定所述第一特征损失函数和/或第二特征损失函数，以提高第一特征损失函数和/或第二特征损失函数计算的精确度。其中，前景差异和背景差异的权重可根据实际需要确定，如要求预测俯视图和采集俯视图之间前景差异小的情况，可以加大前景差异的权重，减小背景差异的权重。

第一特征损失函数和/或第二特征损失函数可以通过对前景差异和背景差异赋不同的权重得到，具体的，在第一特征损失函数和/或第二特征损失函数通过L1 loss计算得到时，L1 loss的计算方式如公式3所示：

loss_l1＝alpha×(target_mask＝＝1)×abs(target-pred)+beta×(target_mask＝＝0)×(abs(target-pred)) 公式3

其中，loss_l1即为L1 loss，alpha和beta均为经验加权系数，可以根据经验和偏好来进行调整，且alpha>beta；abs表示绝对值函数；target表示第二视图，target_mask表示第二视图的掩膜，pred表示预测俯视图；target_mask＝＝1表示样本车辆所在的区域，即前景，target_mask＝＝0表示背景，对target_mask中掩膜值等于1和0的地方施加不同的权重，可以进一步优化第一特征损失函数。优选地，第二特征损失函数中的感知特征可以通过公式3计算。

在一示例性实施例中，所述生成网络除包括编码模块和解码模块外，还可以包括一个或者多个注意力(self-attention)模块，此时，生成网络的结构为编码模块-注意力模块-解码模块；所述注意力(self-attention)模块，用于在所述第一视图与所述车辆鸟瞰图中提取所述样本车辆的全局特征，保证样本车辆线条的连续性、以及线条和颜色的全局一致性。具体地，自注意力机制为计算某个位置的特征和其它位置特征的相关系数，通过归一化相关系数作为加权系数，从而得到该位置特征的全局特征加权和，因此可以通过注意力模块提取全局特征。

进一步地，在通过注意力模块进行全局特征提取之前，还可以先通过编码模块对第一视图和/或车辆鸟瞰图进行降采样，以降低尺度，减少全局特征提取过程的计算量，在提取到全局特征之后，再通过解码模块对第一视图和/或车辆鸟瞰图进行升维，以生成更加清晰的预测俯视图。

在一示例性实施例中，步骤S2031将所述第一视图与所述车辆鸟瞰图输入所述生成网络，通过所述生成网络得到所述样本车辆的预测俯视图具体可以通过融合数据处理的方式实现，融合数据处理能够提升预测俯视图的生成质量，该融合可以在编码模块-解码模块的不同阶段进行，包括如下两种方式：

方式一，所述编码模块包括第一编码单元和第二编码单元，先通过所述生成网络的第一编码单元在所述第一视图中提取所述样本车辆的第一车辆特征，再通过所述生成网络的第二编码单元在所述车辆鸟瞰图中提取所述样本车辆的第二车辆特征，其中，第一编码单元和第二编码单元是相互独立的，最后将所述第一车辆特征和所述第二车辆特征进行融合，得到所述样本车辆的融合特征，将所述融合特征输入所述生成网络的解码模块得到所述预测俯视图，如图4所示。本实施例为基于第一车辆特征和第二车辆特征的特征层融合，特征层的融合抽象等级更高，可操作空间更大。

在方式一中，融合的方式可以包括concat、add等传统融合操作，也可以使用诸如transformer来进行融合，例如，将第一视图和车辆鸟瞰图作为key，并同时将第一视图和车辆鸟瞰图作为value，将位置信息和key作为query来获取相应位置的融合特征。

方式二，先将所述第一视图和所述车辆鸟瞰图进行融合，得到所述样本车辆的融合图像，然后将所述融合图像输入所述生成网络的编码模块确定所述样本车辆的融合特征，将所述融合特征输入所述生成网络的解码模块得到所述预测俯视图，如图5所示。本实施例中在生成网络的输入端(即编码模块)对图像进行融合。由于输入端融合的模型简单，只需要一个编码模块，所以通常速度会更快。

在一示例性实施例，当生成网络中包括注意力模块时，步骤S2031将所述第一视图与所述车辆鸟瞰图输入所述生成网络，通过所述生成网络得到所述样本车辆的预测俯视图，可以包括：

通过所述第一编码单元在所述第一视图中提取所述样本车辆的第一车辆特征，通过所述第二编码单元在所述车辆鸟瞰图中提取所述样本车辆的第二车辆特征，将所述第一车辆特征和所述第二车辆特征进行融合，得到所述样本车辆的融合特征，将所述融合特征依次输入所述生成网络的注意力模块、解码模块得到所述预测俯视图，如图6所示。增加注意力模块可以更好的保证预测俯视图中车辆的色彩线条等全局一致性效果。

在一示例性实施例中，对所述第一视图进行逆投影映射处理得到所述样本车辆的车辆鸟瞰图作为所述初始目标视图之后，为了便于神经网络模型的训练，需要对第一视图、第二视图和车辆鸟瞰图进行预处理，具体为，确定所述样本车辆的外接图形，分别对所述第一视图、所述采集俯视图和所述车辆鸟瞰图中的样本车辆的外接图形进行裁剪，得到多个裁剪图像，其中，外接图形优选为矩形；然后，分别对多个所述裁剪图像进行缩放，得到多个缩放后图像，以使得所有的图像被规范到固定尺度。

进一步地，为了得到更多的样本对，需要对所述多个缩放后图像进行数据扩充，其中，所述数据扩充至少包括以下之一：随机水平镜像、水平方向平移、垂直方向平移、水平方向拉伸和垂直方向拉伸。

在一示例性实施例中，对所述神经网络模型进行训练包括：

基于多个所述训练样本对组成的训练样本对集对所述神经网络模型进行训练，其中，所述训练样本对集包括多种不同采集场景下确定的训练样本对；不同的采集场景包括不同的道路场景、样本车辆的不同状态、不同的环境条件，具体的，例如：机动车门禁、道路直角弯、S弯等道路核心出入口；样本车辆类的型、颜色、灯光、角度；天气、光照、季节、早中晚等。

基于此，确定样本车辆的第一视图和第二视图作为训练样本对包括：

本实施例中，通过对不同采集场景下的训练样本对进行神经网络模型的训练，能够提高神经网络模型在不同使用场景下的适用性，能够使得神经网络模型生成更加准确的预测俯视图。另一方面，将样本车辆前视图、后视图以及车身两侧的侧视图作为第一视图，也便于神经网络模型在使用过程中对周围车辆图像的采集。

在一示例性实施例中，所述训练样本对可以通过样本采集系统得到，所述样本采集系统包括一组或多组图像采集装置，所述图像采集装置包括第一固定部和第二固定部，所述第一固定部与所述第二固定部分立设置或者一体成型；其中，所述第一固定部用于固定第一图像采集设备，所述第一图像采集设备用于采集所述第一视图；所述第二固定部用于固定第二图像采集设备，所述第二图像采集设备用于采集所述第二视图。

需要说明的是，如图7A所示，第一固定部71和第二固定部72分立设置是指第一固定部和第二固定部相互独立，二者之间可以通过具体的连接件73连接，也可以通过螺纹连接；如图7B所示，第一固定部71和第二固定部72一体成型，是指第一固定部71和第二固定部72是一个完整的结构，二者之间不需要连接件，例如，可以为直角形的图像采集装置，此外，还可以为门拱形的图像采集装置。

每个图像采集设备都包括两个固定部，用于同时采集样本车辆两个不同采集角度的视图，增强第一视图和第二视图的同时性。

在一示例性实施例中，若第一固定部和第二固定部分立设置，则所述第一固定部为固定杆，且垂直于地面设置，可以采集样本车辆的前视图、后视图、车身两侧的侧视图；所述第二固定部为固定杆，与所述第一固定部连接且平行于地面设置，可以采集样本车辆的俯视图。

图8为本申请实施例给出的一种样本采集系统的示意图，图中a和b分别代表第一图像采集设备和第二图像采集设备，第一图像采集设备a固定在与地面垂直设置的固定杆上，第二图像采集设备b固定在与地面平行设置的固定杆上。优选地，第一图像采集设备a固定在垂直固定杆上的高度，最好能够使得通过第一图像采集设备a采集的侧视图是完整的，进一步地，使得样本车辆中心与采集的第一视图的中心重合。第二图像采集设备b固定在水平固定杆上的位置，最好能够使得通过第二图像采集设备b采集的车辆俯视图是完整的，进一步地，使得样本车辆中心与车辆俯视图的中心重合。由于不同类型的样本车辆，如轿车、工程车，彼此之间高度、宽度不尽相同，为了获得不同类型车辆的符合要求的图像，实际应用时可设置多种样本采集系统，每种样本采集系统用于采集一种类型的车辆图像。

在一示例性实施例中，为了减轻采集压力，同时也能获取不同角度的训练样本对，所述图像采集系统还可以包括多组所述图像采集装置，在此情况下，多组所述图像采集装置分别位于所述样本车辆的不同方位，并同时从不同的采集角度采集多组所述训练样本对，提高训练样本对的采集效率。图9给出了一种包含三组图像采集装置的采集系统的示例。

在一示例性实施例中，第一图像采集设备和第二图像采集设备之间可通过预设的方式实现各自采集到的图像帧在时间上同步；所述预设的方式可以包括：通过打时间戳的方式实现图像帧同步；通过蓝牙、时钟电路等硬件装置同步采集时间以实现图像帧同步。

在一示例性实施例中，所述第一图像采集设备和所述第二图像采集设备中至少一种可以为广角摄像头、鱼眼摄像头等，这些摄像头视角广，有利于在近距离拍摄到完整的被拍摄物体的画面；或者，所述第一图像采集设备和所述第二图像采集设备中至少一种可以为红外摄像头，以得到被拍摄物体的红外图像。

在一示例性实施例中，所述图像采集装置可以为固定的图像采集装置或者可移动的图像采集装置，以适应不同空间大小下的样本采集过程。

在所述图像采集装置为固定的图像采集装置的情况下，对多种不同采集场景下、处于移动状态的所述样本车辆进行图像采集，以获取所述第一视图和所述第二视图作为所述训练样本对。本实施例中，样本车辆以一定的速度通过图像采集装置，通过控制样本车辆的车速、灯光等车辆状态，本实施例中的方案可以模拟真实的场景。

在所述图像采集装置为可移动的图像采集装置的情况下，可以通过移动各图像采集装置对多种不同采集场景下、处于静止状态的所述样本车辆进行图像采集，以获取所述第一视图和所述第二视图作为所述训练样本对。该采集方式，可以有效平衡不同角度不同距离的数据，且成像质量较高。

在一示例性实施例中，在通过本申请实施例所述的图像采集系统采集到训练样本对后，还可以对所述训练样本对进行标注，标注方式如下：分别对训练样本对中的第一视图和第二视图进行实例标注，要求同一样本车辆的第一视图和第二视图的实例标注id(identifier)相同。

下面以一个具体的应用示例，对本申请实施例所述的神经网络模型的训练方法进行说明，本应用示例中神经网络模型用于生成车辆实景俯视图。

1、数据采集和处理阶段：

通过如图8所示的样本采集系统采集样本车辆的侧视图-俯视图训练样本对，其中，侧视图为第一视图，包括样本车辆的前视图、后视图，以及车身两侧的侧视图中的至少一个，俯视图为第二视图。获得多个图像数据后，从数据流中初步构建俯视图-侧视图样本对，需要进行人工筛选样本，筛选原则为：侧视图-俯视图样本对帧需要包含同样的样本车辆，且侧视图中包含车辆水平方向2/3以上部分，平衡车辆类型、车辆颜色、车辆灯光、车辆角度、天气、光照、季节、早中晚等条件，制作训练样本对集，并对训练样本对集中的侧视图-俯视图对进行关联标注。

标注后，对采集到的侧视图-俯视图训练样本对进行图像畸变校正等预处理，得到三通道RGB样本对侧视图(side_view_image)以及俯视图(top_view_image)，对side_view_image进行IPM操作得到车辆鸟瞰图(side_view_bev_image)，IPM的具体方式可根据需求来实现，如：通过相机内外参结合深度信息，或者根据匹配点求单应性矩阵。根据实例标注信息，以及根据side_view_image、side_view_bev_image以及top_view_image中同一id的样本车辆的外接矩形区域进行裁剪，得到包含样本车辆的裁剪后的图像，然后对裁剪后的各图像同比例放缩到预设的固定宽度W，高度H，例如W＝512，H＝256，将规范到固定尺度的多个外接矩形区域进行同样的随机水平镜像、水平方向平移、垂直方向平移、水平方向拉伸、垂直方向拉伸操作中的至少一种操作后，扩充数据集得到侧视图的输入图像(input_orig)、车辆鸟瞰图的输入图像(input_bv)以及俯视图的输入图像(target)。

另一方面，还需要用同样的操作对与top_view_image对应的实例标注中的外接矩形框进行处理，然后对车辆区域标注为1，车辆之外的背景区域标注为0，以制作其二值掩膜得到target_mask，使得上述操作后的掩膜和操作后的实例匹配。

2、神经网络模型生成阶段：

本应用示例中，神经网络模型采用生成对抗网络(GAN)架构。图10给出了一种卷积神经网络模型的示意图，如图10所示，将车辆侧视图input_orig和车辆鸟瞰图input_bv作为输入数据，经过生成网络G生成预测俯视图pred，然后将预测俯视图pred和真实采集的采集俯视图target作为判别网络D的输入，通过交叉训练完成判别网络D和生成网络G的参数训练，最终G网络可以完成根据输入的车辆侧视图来输出对应车辆的俯视图的功能。优选的，本实施例中采用pixel2pixelHD架构实现神经网络模型，其中，pixel2pixelHD架构使用从粗到细的生成网络提升目标分辨率，多尺度的判决网络提升生成质量，是一种经典的image2image生成对抗网络范式。

其中，除了生成对抗网络中基本的损失函数loss_g和loss_d之外，本实施例中卷积神经网络模型的损失函数还包括，基于采集俯视图、预测俯视图、采集俯视图的掩膜得到的第一特征损失函数，以及基于采集俯视图、预测俯视图、采集俯视图的掩膜并通过Vgg网络计算的第二特征损失函数。

需要说明的是，本应用示例可以在生成网络G的编码模块和解码模块之间，加入了注意力模块，以提升全局一致性。

训练阶段，生成对抗网络的损失函数包括生成网络的损失函数和判别网络的损失函数，对生成网络和判别网络进行交叉训练，当损失函数收敛或者交叉训练的轮次达到预设轮次阈值，对所述生成网络和所述判别网络的交叉训练完成，其中，预设轮次阈值可以根据需求进行设置。

本申请实施例还提供了一种车辆视图的生成方法，如图11所示，所述方法包括：

步骤S1101，获取目标车辆的第三视图；

所述第三视图至少为以下之一：

目标车辆的前视图、后视图，以及车身两侧的侧视图，其中，目标车辆为实际行驶过程中，自车周围的任一车辆；

步骤S1102，根据所述第三视图生成所述目标车辆的初始目标视图；

优选地，目标车辆的初始目标视图可以为基于第三视图，通过IPM得到的目标车辆的鸟瞰图。

步骤S1103，将所述第三视图和所述初始目标视图输入按照前述任一项实施例所述方法训练好的神经网络模型，生成所述目标车辆的实景视图。

基于前述记载，利用前述各实施例所述的训练方法对神经网络模型进行训练后，所述神经网络模型可以用于生成车辆实景视图。相较于现有技术通过语义分割法获得所需的车辆视图，所述神经网络模型输出的车辆实景视图，能够提供目标车辆的更多细节信息，从而解决通过语义分割得到的视图与实际情况相差甚远，只能得到车辆在图中的位置以及大小信息，无法获得真实的车辆信息，真实度较低，导致驾驶员很难将其对应到实际场景的技术问题。基于此，本申请实施例将获取的目标车辆的第三视图通过所述训练好的神经网络后，获得的目标车辆的实景视图提高了车辆视图的真实性，有利于为驾驶员提供更为直观的周围车辆信息，从而分辨道路中的其他车辆，减少误判，提高驾驶过程的安全性。

在一示例性实施例中，所述第三视图可以通过自动驾驶车辆自车的图像采集设备得到。所述自车的图像采集设备可以为部署在车前的相机、车载尾部摄像头中的一种或多种。

下面给出两个目标车辆视图的生成示例。

示例一

通过部署在自动驾驶车辆前的相机获取第三视图，例如车身两侧的侧视图，对侧视图进行去畸变后通过目标检测获得侧视图中目标车辆的位置，裁剪目标车辆的外接矩形框，然后将裁剪后的图像放缩到固定长宽后得到input_orig，对input_orig进行IPM变化得到input_bv，将input_orig和input_bv通过前述任一项实施例所述方法训练好的神经网络模型，生成所述目标车辆的俯视图pred，最后将目标车辆的俯视图粘贴到车内显示屏上的俯视场景中，供驾驶员查看。

车载相机采集行驶中前方数据，前述任一项实施例所述方法训练好的神经网络模型得到目标车辆的俯视图，用目标车辆的俯视图结果替换图1中对应车辆示意框，即可得到与真实场景匹配的俯视图，提供给驾驶员，让驾驶员从俯视角度感知更具体的车辆信息，提供便捷驾驶体验。

示例二

车载尾部摄像头在倒车过程中采集目标车辆的第三视图，例如，为目标车辆的前视图或者后视图，对第三视图去畸变后通过目标检测获得第三视图中目标车辆的位置，裁剪目标车辆的外接矩形框，然后将裁剪后的图像放缩到固定长宽后得到input_orig，对input_orig进行IPM变化得到input_bv，将input_orig和input_bv通过前述任一项实施例所述方法训练好的神经网络模型，生成所述目标车辆的俯视图pred，最后将目标车辆的俯视图粘贴到车内显示屏上的俯视场景中，供驾驶员查看。通过车辆俯视图辅助驾驶员在倒车过程中把控车尾附近的状况，从而改善驾驶员入库难的问题。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如前任一实施例所述的神经网络模型的训练方法或者如前任一实施例所述的车辆视图的生成方法。

本申请实施例还提供了一种车辆视图的生成装置，如图12所示，包括存储器1201和处理器1202，所述存储器1201存储有程序，所述程序在被所述处理器1202读取执行时，实现如前一实施例所述的车辆视图的生成方法，或，实现如前任一实施例所述的神经网络模型的训练方法以及如前任一实施例所述的车辆视图的生成方法。

本申请实施例还提供了一种车辆，如图13所示，所述车辆包括：

图像采集装置1301，设置为采集目标车辆的第三视图；

图像处理器1302，设置为实现如前任一实施例所述的车辆视图的生成方法。

基于前述记载，本申请实施例的车辆可以生成周围目标车辆的实景视图，相较于现有技术通过语义分割法获得所需的车辆视图，本实施例的车辆视图能够得到目标车辆的更多细节信息，从而解决相关技术中通过语义分割得到的视图与实际情况相差甚远，只能得到目标车辆在图中的位置以及大小信息，无法获得真实的车辆信息，真实度较低，导致驾驶员很难将其对应到实际场景的技术问题。基于此，本申请实施例将获取的目标车辆的第三视图通过训练好的神经网络后，能够获得目标车辆的实景视图，提高了车辆视图的真实性，有利于为驾驶员提供更为直观的周围车辆信息，从而分辨道路中的其他车辆，减少误判，提高驾驶过程的安全性。

进一步地，图像处理器1302可以根据所述第三视图生成所述目标车辆的初始目标视图；然后将所述第三视图和所述初始目标视图输入前述实施例中训练好的神经网络模型，通过训练好的神经网络模型生成所述目标车辆的实景视图。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种神经网络模型的训练方法，其特征在于，所述方法包括：

根据所述第一视图确定所述样本车辆的初始目标视图；

2.根据权力要求1所述的方法，其特征在于，所述第二视图为样本车辆的采集俯视图，所述神经网络模型用于生成车辆实景俯视图，所述根据所述第一视图确定所述样本车辆的初始目标视图包括：

3.根据权利要求2所述的方法，其特征在于，所述神经网络模型为生成对抗网络模型，包括生成网络和判别网络，所述将所述第一视图和所述初始目标视图作为用于生成车辆实景视图的神经网络模型的输入数据，将所述第二视图作为所述神经网络模型的目标数据，对所述神经网络模型进行训练包括：

4.根据权利要求3所述的方法，其特征在于，所述生成对抗网络模型的损失函数包括所述生成网络的损失函数和所述判别网络的损失函数，所述生成网络的损失函数至少包括以下之一：

5.根据权利要求4所述的方法，其特征在于，所述内容损失函数至少包括以下之一：

6.根据权利要求5所述的方法，其特征在于，所述第一特征损失函数和/或所述第二特征损失函数的计算方法包括：

7.根据权利要求3所述的方法，其特征在于，所述生成网络包括：

8.根据权利要求3所述的方法，其特征在于，

所述生成网络包括：编码模块和解码模块；

9.根据权利要求2所述的方法，其特征在于，对所述第一视图进行逆投影映射处理得到所述样本车辆的车辆鸟瞰图作为所述初始目标视图之后，所述方法还包括：

分别对多个所述裁剪图像进行缩放，得到多个缩放后图像；

10.根据权利要求1所述的方法，其特征在于，所述对所述神经网络模型进行训练包括：

确定样本车辆的第一视图和第二视图作为训练样本对包括：

11.根据权利要求1所述的方法，其特征在于，所述训练样本对通过样本采集系统得到，所述样本采集系统包括一组或多组图像采集装置，所述图像采集装置包括第一固定部和第二固定部，所述第一固定部与所述第二固定部分立设置或者一体成型；

12.根据权利要求11所述的方法，其特征在于，所述第一固定部为固定杆，且垂直于地面设置；所述第二固定部为固定杆，与所述第一固定部连接且平行于地面设置。

13.根据权利要求11或12任一项所述的方法，其特征在于，

所述第一图像采集设备和所述第二图像采集设备中至少一种为广角摄像头；或者，

14.根据权利要求11所述的方法，其特征在于，在所述图像采集系统包括多组所述图像采集装置的情况下，多组所述图像采集装置分别位于所述样本车辆的不同方位，并同时采集多组所述训练样本对。

15.根据权利要求11所述的方法，其特征在于，所述图像采集装置为固定的图像采集装置或者可移动的图像采集装置。

16.根据权利要求15所述的方法，其特征在于，

在所述图像采集装置为固定的图像采集装置的情况下，对多种不同采集场景下、处于移动状态的所述样本车辆进行图像采集，以获取所述第一视图和所述第二视图作为所述训练样本对；

17.一种车辆视图的生成方法，其特征在于，包括：

获取目标车辆的第三视图；

根据所述第三视图生成所述目标车辆的初始目标视图；

将所述第三视图和所述初始目标视图输入按照权利要求1～16中任一项所述方法训练好的神经网络模型，生成所述目标车辆的实景视图。

18.根据权利要求17所述的方法，其特征在于，所述第三视图通过自车的图像采集设备得到。

19.一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～16中任一项所述的神经网络模型的训练方法或者权利要求17～18中任一项所述的车辆视图的生成方法。

20.一种车辆视图的生成装置，包括存储器和处理器，所述存储器存储有程序，所述程序在被所述处理器读取执行时，实现如权利要求17～18中任一项所述的车辆视图的生成方法，或，实现如权利要求1～16中任一项所述的神经网络模型的训练方法以及权利要求17～18中任一项所述的车辆视图的生成方法。

21.一种车辆，其特征在于，所述车辆包括：

图像采集装置，设置为采集目标车辆的第三视图；

图像处理器，设置为实现如权利要求17或18所述的车辆视图的生成方法。