CN114692720A

CN114692720A - 基于鸟瞰图的图像分类方法、装置、设备及存储介质

Info

Publication number: CN114692720A
Application number: CN202210179529.9A
Authority: CN
Inventors: 郭湘; 熊邦国; 韩文韬; 韩旭
Original assignee: Guangzhou Weride Technology Co Ltd
Current assignee: Guangzhou Weride Technology Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-07-01
Anticipated expiration: 2042-02-25
Also published as: CN114692720B

Abstract

本发明涉及人工智能领域，公开了一种基于鸟瞰图的图像分类方法、装置、设备及存储介质。方法包括：获取多帧初始图像及每帧初始图像对应的初始点云，并根据多帧初始图像及每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合；对多个不同尺度的特征图片帧进行虚拟点云映射处理，得到对应的语义虚拟点云；根据语义虚拟点云生成鸟瞰图，并通过预置的卷积神经网络对鸟瞰图进行分类预测，得到鸟瞰图中每一像素点的初始分类预测结果；根据预置的损失函数模型和深度真值集合对鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，得到鸟瞰图中每一像素点对应的目标分类预测结果。

Description

基于鸟瞰图的图像分类方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于鸟瞰图的图像分类方法、装置、设备及存储介质。

背景技术

在无人驾驶场景中，鸟瞰图下的语义分割能够表达多种重要的视觉感知任务，如可行驶区域检测，路沿检测，车道线检测，路面标识检测等。

目前在对鸟瞰图进行语义分割时采用格点级的交叉熵损失函数进行训练，当位置误差较大时，神经网络无法准确判断应当预测正例或负例，导致神经网络最终会倾向于不做有效预测，而是选择占比较大的类别，产生分类误差，同时随距离增加，基于视觉的深度估计误差增大，视觉特征转换到鸟瞰图的位置信息存在较大误差值，导致图像分类结果不准确。

发明内容

本发明实施例提供了一种基于鸟瞰图的图像分类方法、装置、设备及存储介质，用于提高鸟瞰图下的图像分类准确性。

本发明第一方面提供了一种基于鸟瞰图的图像分类方法，包括：获取多帧初始图像及每帧初始图像对应的初始点云，并根据所述多帧初始图像及所述每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合；对所述多个不同尺度的特征图片帧进行虚拟点云映射处理，得到对应的语义虚拟点云；根据所述语义虚拟点云生成鸟瞰图，并通过预置的卷积神经网络对所述鸟瞰图进行分类预测，得到所述鸟瞰图中每一像素点的初始分类预测结果；根据预置的损失函数模型和所述深度真值集合对所述鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，得到所述鸟瞰图中每一像素点对应的目标分类预测结果。

可选的，在本发明第一方面的第一种实现方式中，所述根据预置的损失函数模型和所述深度真值集合对所述鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，得到所述鸟瞰图中每一像素点对应的目标分类预测结果包括：对所述语义虚拟点云进行分析，确定所述鸟瞰图中每一像素点对应的估计深度数据；基于所述深度真值集合通过所述损失函数模型的位置估计误差损失函数对所述鸟瞰图中每一像素点对应的估计深度数据进行第一准确度修正，得到所述鸟瞰图中每一像素点对应的深度真值；基于所述鸟瞰图中每一像素点对应的深度真值通过所述损失函数模型的分类损失函数对鸟瞰图中每一像素点对应的初始分类预测结果进行第二准确度修正，得到鸟瞰图中每一像素点对应的目标分类预测结果。

可选的，在本发明第一方面的第二种实现方式中，所述获取多帧初始图像及每帧初始图像对应的初始点云，并根据所述多帧初始图像及所述每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合包括：通过预置的多个相机进行图像采集，得到多帧初始图像，并通过预置的激光雷达进行数据采集，得到每帧初始图像对应的初始点云；通过预置的视觉分析模型对所述多帧初始图像进行特征提取，得到多个不同尺度的特征图片帧，并根据所述多帧初始图像和所述每帧初始图像对应的初始点云确定每帧初始图像对应的深度真值集合。

可选的，在本发明第一方面的第三种实现方式中，所述对所述多个不同尺度的特征图片帧进行虚拟点云映射处理，得到对应的语义虚拟点云包括：利用预置的深度估计模型分别对所述多个不同尺度的特征图片帧进行深度估计，得到估计深度数据集合；根据所述估计深度数据集合进行3D点映射，得到对应的初始虚拟点云；对所述多个不同尺度的特征图片帧进行语义分割处理，得到语义虚拟点云。

可选的，在本发明第一方面的第四种实现方式中，所述利用预置的深度估计模型分别对所述多个不同尺度的特征图片帧进行深度估计，得到估计深度数据集合包括：从预置数据库中获取与每一所述特征图片帧对应的参考图片帧；基于预设的多个采样深度，通过预置的深度估计模型将每一所述特征图片帧投影至对应的参考图片帧，并根据预置的深度估计模型的匹配代价计算函数计算每一所述采样深度对应的位置匹配代价；基于所述每一所述采样深度对应的位置匹配代价，确定每一所述特征图片帧中每一像素点的估计深度数据并合并为所述估计深度数据集合。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述估计深度数据集合进行3D点映射投影，得到对应的初始虚拟点云包括：根据预设的尺度因子将所述估计深度数据集合中每一所述特征图片帧中每一像素点转换为第一预置坐标系下的2D虚拟点云；对所述2D虚拟点云进行数据转换，得到第二预置坐标系下的3D虚拟点云；将所述的3D虚拟点云进行叠加，得到目标坐标系下的叠加3D虚拟点云；获取目标坐标系下的车辆位姿信息并根据所述车辆位姿信息对所述叠加3D虚拟点云进行逆变换，得到目标坐标系下的初始虚拟点云。

可选的，在本发明第一方面的第六种实现方式中，所述对所述多个不同尺度的特征图片帧进行语义分割处理，得到语义虚拟点云包括：对每一所述特征图片帧中每一像素点进行语义分割处理，得到每一所述特征图片帧中每一像素点对应的语义分割信息并合并为所述语义分割信息集合；根据所述语义分割信息集合，对所述多个不同尺度的特征图片帧中每一像素点进行语义信息配置，并根据所述初始虚拟点云生成对应的语义虚拟点云。

可选的，在本发明第一方面的第七种实现方式中，所述对每一所述特征图片帧中每一像素点进行语义分割处理，得到每一所述特征图片帧中每一像素点对应的语义分割信息并合并为所述语义分割信息集合包括：对每一所述特征图片帧进行分块处理，获得与每一所述特征图片帧对应的子图片帧集合；对每一所述特征图片帧对应的子图片帧集合的每个子图像进行语义分割，获得每个子图像上每一个像素点的分类结果；根据每个子图像上每一个像素点的分类结果确定每一所述特征图片帧中每一像素点对应的语义分割信息并合并为所述语义分割信息集合。

可选的，在本发明第一方面的第八种实现方式中，所述根据所述语义分割信息集合，对所述多个不同尺度的特征图片帧中每一像素点进行语义信息配置，并根据所述初始虚拟点云确定对应的语义虚拟点云包括：根据所述语义分割集合中每一所述特征图片帧中每一像素点对应的语义分割信息确定语义标记转换函数；根据所述语义标记转换函数将所述多个不同尺度的特征图片帧中每一像素点的配置信息进行语义转换，并根据所述初始虚拟点云确定对应的语义虚拟点云。

本发明第二方面提供了一种基于鸟瞰图的图像分类装置，包括：获取模块，用于获取多帧初始图像及每帧初始图像对应的初始点云，并根据所述多帧初始图像及所述每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合；映射模块，用于对所述多个不同尺度的特征图片帧进行虚拟点云映射处理，得到对应的语义虚拟点云；预测模块，用于根据所述语义虚拟点云生成鸟瞰图，并通过预置的卷积神经网络对所述鸟瞰图进行分类预测，得到所述鸟瞰图中每一像素点的初始分类预测结果；修正模块，用于根据预置的损失函数模型和所述深度真值集合对所述鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，得到所述鸟瞰图中每一像素点对应的目标分类预测结果。

可选的，在本发明第二方面的第一种实现方式中，所述修正模块具体用于：对所述语义虚拟点云进行分析，确定所述鸟瞰图中每一像素点对应的估计深度数据；基于所述深度真值集合通过所述损失函数模型的位置估计误差损失函数对所述鸟瞰图中每一像素点对应的估计深度数据进行第一准确度修正，得到所述鸟瞰图中每一像素点对应的深度真值；基于所述鸟瞰图中每一像素点对应的深度真值通过所述损失函数模型的分类损失函数对鸟瞰图中每一像素点对应的初始分类预测结果进行第二准确度修正，得到鸟瞰图中每一像素点对应的目标分类预测结果。

可选的，在本发明第二方面的第二种实现方式中，所述获取模块具体用于：通过预置的多个相机进行图像采集，得到多帧初始图像，并通过预置的激光雷达进行数据采集，得到每帧初始图像对应的初始点云；通过预置的视觉分析模型对所述多帧初始图像进行特征提取，得到多个不同尺度的特征图片帧，并根据所述多帧初始图像和所述每帧初始图像对应的初始点云确定每帧初始图像对应的深度真值集合。

可选的，在本发明第二方面的第三种实现方式中，所述映射模块具体包括：

估计单元，用于利用预置的深度估计模型分别对所述多个不同尺度的特征图片帧进行深度估计，得到估计深度数据集合；

映射单元，用于根据所述估计深度数据集合进行3D点映射，得到对应的初始虚拟点云；

分割单元，用于对所述多个不同尺度的特征图片帧进行语义分割处理，得到语义虚拟点云。

可选的，在本发明第二方面的第四种实现方式中，所述估计单元具体用于：从预置数据库中获取与每一所述特征图片帧对应的参考图片帧；基于预设的多个采样深度，通过预置的深度估计模型将每一所述特征图片帧投影至对应的参考图片帧，并根据预置的深度估计模型的匹配代价计算函数计算每一所述采样深度对应的位置匹配代价；基于所述每一所述采样深度对应的位置匹配代价，确定每一所述特征图片帧中每一像素点的估计深度数据并合并为所述估计深度数据集合。

可选的，在本发明第二方面的第五种实现方式中，所述映射单元具体用于：根据预设的尺度因子将所述估计深度数据集合中每一所述特征图片帧中每一像素点转换为第一预置坐标系下的2D虚拟点云；对所述2D虚拟点云进行数据转换，得到第二预置坐标系下的3D虚拟点云；将所述的3D虚拟点云进行叠加，得到目标坐标系下的叠加3D虚拟点云；获取目标坐标系下的车辆位姿信息并根据所述车辆位姿信息对所述叠加3D虚拟点云进行逆变换，得到目标坐标系下的初始虚拟点云。

可选的，在本发明第二方面的第六种实现方式中，所述分割单元具体包括：

分割子单元，用于对每一所述特征图片帧中每一像素点进行语义分割处理，得到每一所述特征图片帧中每一像素点对应的语义分割信息并合并为所述语义分割信息集合；

配置子单元，用于根据所述语义分割信息集合，对所述多个不同尺度的特征图片帧中每一像素点进行语义信息配置，并根据所述初始虚拟点云生成对应的语义虚拟点云。

可选的，在本发明第二方面的第七种实现方式中，所述分割子单元具体用于：对每一所述特征图片帧进行分块处理，获得与每一所述特征图片帧对应的子图片帧集合；对每一所述特征图片帧对应的子图片帧集合的每个子图像进行语义分割，获得每个子图像上每一个像素点的分类结果；根据每个子图像上每一个像素点的分类结果确定每一所述特征图片帧中每一像素点对应的语义分割信息并合并为所述语义分割信息集合。

可选的，在本发明第二方面的第八种实现方式中，所述配置子单元具体用于：根据所述语义分割集合中每一所述特征图片帧中每一像素点对应的语义分割信息确定语义标记转换函数；根据所述语义标记转换函数将所述多个不同尺度的特征图片帧中每一像素点的配置信息进行语义转换，并根据所述初始虚拟点云确定对应的语义虚拟点云。

本发明第三方面提供了一种计算机设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行上述的基于鸟瞰图的图像分类方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于鸟瞰图的图像分类方法。

本发明提供的技术方案中，服务器通过预置的激光雷达对目标场景进行激光测量，得到每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合，能够提高数据的可靠性，服务器根据损失函数模型中的总损失函数对鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，将距离估计误差与分类误差解耦，即使在距离估计可能有误差的情况下，网络仍能输出正确的分类信息，提升基于鸟瞰图的图像分类的准确度。

附图说明

图1为本发明实施例中基于鸟瞰图的图像分类方法的一个实施例示意图；

图2为本发明实施例中基于鸟瞰图的图像分类方法的另一个实施例示意图；

图3为本发明实施例中基于鸟瞰图的图像分类装置的一个实施例示意图；

图4为本发明实施例中基于鸟瞰图的图像分类装置的另一个实施例示意图；

图5为本发明实施例中计算机设备的一个实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术和机器学习/深度学习等几大方向。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于鸟瞰图的图像分类方法的一个实施例包括：

101、获取多帧初始图像及每帧初始图像对应的初始点云，并根据多帧初始图像及每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合；

可以理解的是，本发明的执行主体可以为基于鸟瞰图的图像分类装置，还可以是服务器，具体此处不作限定。本发明实施例以服务器为执行主体为例进行说明。

需要说明的是，在获取多帧初始图像时，可以利用多个相机设备对目标场景进行采集得到目标场景的多帧初始图像，在具体实施中，目标场景可以根据深度估计应用的具体场景进行确定，在对目标场景进行图像采集时，可以利用安装在目标场景内的图像获取设备，也可以利用能够在目标场景内移动的终端设备中安装的图像获取设备获取目标场景的初始图像，需要说明的是，此处的初始点云是根据激光测量原理得到的点云，包括三维坐标和激光反射强度，具体的，通过预置的激光雷达对目标场景进行激光测量，得到每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合，能够提高数据的可靠性。

102、对多个不同尺度的特征图片帧进行虚拟点云映射处理，得到对应的语义虚拟点云；

需要说明的是，根据预设的点云映射投影关系，对对多个不同尺度的特征图片帧进行虚拟点云映射处理，得到对应的语义虚拟点云，其中，预设的点云映射投影关系主要是通过获取多帧初始图像的相机的位置关系与初始图像中每一像素点的位置相对关系确定的。

103、根据语义虚拟点云生成鸟瞰图，并通过预置的卷积神经网络对鸟瞰图进行分类预测，得到鸟瞰图中每一像素点的初始分类预测结果；

具体的，服务器对点云进行降维采样，利用记录的均匀鸟瞰图的信息，使用二维图像表示三维点云，得到对应的鸟瞰图，需要说明的是，预置的卷积神经网络预先训练完成，进而服务器使用预置的卷积神经网络鸟瞰图进行卷积操作，得到鸟瞰图中每一像素点的初始分类预测结果。

104、根据预置的损失函数模型和深度真值集合对鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，得到鸟瞰图中每一像素点对应的目标分类预测结果。

具体的，服务器根据损失函数模型中的总损失函数对鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，将距离估计误差与分类误差解耦，即使在距离估计可能有误差的情况下，网络仍能输出正确的分类信息，提升基于鸟瞰图的图像分类的准确度。

本发明实施例中，服务器通过预置的激光雷达对目标场景进行激光测量，得到每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合，能够提高数据的可靠性，服务器根据损失函数模型中的总损失函数对鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，将距离估计误差与分类误差解耦，即使在距离估计可能有误差的情况下，网络仍能输出正确的分类信息，提升基于鸟瞰图的图像分类的准确度。

请参阅图2，本发明实施例中基于鸟瞰图的图像分类方法的另一个实施例包括：

201、获取多帧初始图像及每帧初始图像对应的初始点云，并根据多帧初始图像及每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合；

具体的，服务器通过预置的多个相机进行图像采集，得到多帧初始图像，并通过预置的激光雷达进行数据采集，得到每帧初始图像对应的初始点云；服务器通过预置的视觉分析模型对多帧初始图像进行特征提取，得到多个不同尺度的特征图片帧，并根据多帧初始图像和每帧初始图像对应的初始点云确定每帧初始图像对应的深度真值集合。

需要说明的是，初始图像可以是安装于车辆一个摄像机拍摄的全景图像，或者多个安装于车辆的不同位置的摄像头拍摄的多个场景图像。其中，摄像头可以为环视相机，当摄像头的数量为多个时，多个摄像头可以分布于车辆的车前盖、左后视镜、右后视镜以及车后盖，每一个环视相机的横向视场角通常大于180度，四个环视相机的视野可以覆盖车身四周360度的视野，从而获得车辆周围的场景图像，服务器通过预置的多个相机进行图像采集，得到多帧初始图像，并通过预置的激光雷达进行数据采集，得到每帧初始图像对应的初始点云，需要说明的是，深度真值是指在一定的时间及空间(位置或状态)条件下，被测量所体现的真实数值。真值是一个变量本身所具有的真实值，服务器根据服务器通过预置的视觉分析模型对多帧初始图像进行特征提取，得到多个不同尺度的特征图片帧，并根据多帧初始图像和每帧初始图像对应的初始点云进行深度真值扫描，确定每帧初始图像对应的深度真值集合。

202、利用预置的深度估计模型分别对多个不同尺度的特征图片帧进行深度估计，得到估计深度数据集合；

具体的，服务器从预置数据库中获取与每一特征图片帧对应的参考图片帧；服务器基于预设的多个采样深度，通过预置的深度估计模型将每一特征图片帧投影至对应的参考图片帧，并根据预置的深度估计模型的匹配代价计算函数计算每一采样深度对应的位置匹配代价；服务器基于每一采样深度对应的位置匹配代价，确定每一特征图片帧中每一像素点的估计深度数据并合并为估计深度数据集合。

其中，服务器根据每一特征图片帧的时间戳，为每一特征图片帧确定参考图片帧时，例如可以将每一特征图片帧的起始时间戳作为起始时间确定起始时间区间，起始时间区间的时长为预设时长，然后以每一特征图片帧的终止时间戳作为终止时间区间，该终止时间区间的时长为预设时长，将多个特征图片帧中时间戳位于起始时间区间或终止时间区间的图像，作为每一特征图片帧的参考图片帧。

可选的，服务器还可以计算各参考图片帧的时间戳和每一特征图片帧的时间戳的时间差，在该时间差的绝对值小于预设时间差阈值的情况下，将该帧参考图片帧作为每一特征图片帧的参考图片帧，通过确定每一特征图片帧中的像素点在基于多个采样深度中的每个采样深度投影至参考图片帧后，在每个采样深度下的位置匹配代价，确定像素点的深度值，实现了在深度空间中直接对每一特征图片帧中的像素点进行深度估计，得到每一特征图片帧中各个像素点的深度值，有效规避了对图像的立体校正、立体深度反算、以及左右视角深度一致性检查等过程，减少了深度估计过程的耗时，效率更高。

203、根据估计深度数据集合进行3D点映射，得到对应的初始虚拟点云；

具体的，服务器根据预设的尺度因子将估计深度数据集合中每一特征图片帧中每一像素点转换为第一预置坐标系下的2D虚拟点云，服务器对2D虚拟点云进行数据转换，得到第二预置坐标系下的3D虚拟点云，服务器将的 3D虚拟点云进行叠加，得到目标坐标系下的叠加3D虚拟点云，服务器获取目标坐标系下的车辆位姿信息并根据车辆位姿信息对叠加3D虚拟点云进行逆变换，得到目标坐标系下的初始虚拟点云。

需要说明的是，车辆位姿信息还可以通过数据分析平台根据发送的车辆状态信息生成，车辆位姿信息包括车辆的在X轴、Y轴、Z轴上的位置信息，车辆位姿信息包括车辆的俯仰角、航向角以及横滚角，其中，像素点的坐标信息是根据相机参数(焦距、光心位置和畸变系数)确定的，尺度因子是根据相机参数与车辆坐标系预先设置的。3D虚拟点云数据是指一系列带有x、y、z 坐标的目标对象的像素点集，用于描述三维空间上目标对象的几何信息。其中，预置坐标系是指以车辆上的某一个点作为坐标原点建立的三维坐标系，基于车辆不同的点位可划分为对应的第一预置坐标系，第二预置坐标系及目标坐标系，具体的，服务器根据预设的尺度因子将估计深度数据集合中每一特征图片帧中每一像素点转换为第一预置坐标系下的2D虚拟点云；对2D虚拟点云进行数据转换，得到第二预置坐标系下的3D虚拟点云，进而对3D虚拟点云进行叠加，得到目标坐标系下的3D虚拟点云数据，由于车辆位姿信息包括车辆位置信息和车辆姿态信息，因此，即便是车辆位于不平整的道路环境，也能够精确的获取到车辆当前的行驶状态信息，提高数据的准确度，以便于后续进行高精度图像的生成。

204、对多个不同尺度的特征图片帧进行语义分割处理，得到语义虚拟点云；

具体的，服务器对每一特征图片帧中每一像素点进行语义分割处理，得到每一特征图片帧中每一像素点对应的语义分割信息并合并为语义分割信息集合；服务器根据语义分割信息集合，对多个不同尺度的特征图片帧中每一像素点进行语义信息配置，并根据初始虚拟点云生成对应的语义虚拟点云。

需要说明的是，语义分割结合了图像分类、目标检测和图像分割，通过一定的方法将图像分割成具有一定语义含义的区域块，并识别出每个区域块的语义类别，具体的，服务器对每一特征图片帧进行分块处理，获得与每一特征图片帧对应的子图片帧集合，服务器对每一特征图片帧对应的子图片帧集合的每个子图像进行语义分割，获得每个子图像上每一个像素点的分类结果，服务器根据每个子图像上每一个像素点的分类结果确定每一特征图片帧中每一像素点对应的语义分割信息并合并为语义分割信息集合，对多个不同尺度的特征图片帧中每一像素点进行语义信息配置，并根据初始虚拟点云生成对应的语义虚拟点云

可选的，服务器对每一特征图片帧中每一像素点进行语义分割处理，得到每一特征图片帧中每一像素点对应的语义分割信息并合并为语义分割信息集合可以包括：服务器对每一特征图片帧进行分块处理，获得与每一特征图片帧对应的子图片帧集合；服务器对每一特征图片帧对应的子图片帧集合的每个子图像进行语义分割，获得每个子图像上每一个像素点的分类结果；服务器根据每个子图像上每一个像素点的分类结果确定每一特征图片帧中每一像素点对应的语义分割信息并合并为语义分割信息集合。

需要说明的是，在对每一特征图片帧进行分块处理时可以规定分块数量，按照平均划分或者随机的划分的方式得到多个分块，也可以规定分块尺寸，分块尺寸包括一个图像块在横轴方向的像素点数量以及在纵轴方向的像素点数量，具体的，服务器按多种不同的分块尺寸对每一特征图片帧进行分块处理时，所得到的每一个子图像集合中的子图像都具有与分块尺寸相同的像素点数量，例如可以确定每一特征图片帧在横轴方向的像素点数量，然后按照横轴方向的像素点进行划分，得到分块尺寸在横轴方向的像素点数量，且每一特征图片帧在横轴方向的像素点数量是分块尺寸在横轴方向的像素点数量的整数倍，在得到每一特征图片帧对应的子图片帧集合之后，可以使用多种语义分割方法对子图像进行语义分割，对子图像进行语义分割的目的是为图像中所有像素点分配给其对应的标签，获得每个子图像上每个像素点的分类结果，在确定每一特征图片帧上某一像素点的分类结果时，首先要从各个子图像集合中确定与该像素点对应位置的像素点的分类结果，服务器按照每个子图像集合对应的分块方法，将每个子图像集合中的所有子图像拼接起来，形成每个子图像集合对应的拼接图像，其中，每一特征图片帧中像素点的位置与拼接图像的位置也是一一对应的，服务器根据每个子图像上每一个像素点的分类结果确定每一特征图片帧中每一像素点对应的语义分割信息并合并为语义分割信息集合。

可选的，服务器根据语义分割信息集合，对多个不同尺度的特征图片帧中每一像素点进行语义信息配置，并根据初始虚拟点云确定对应的语义虚拟点云可以包括：服务器根据语义分割集合中每一特征图片帧中每一像素点对应的语义分割信息确定语义标记转换函数；服务器根据语义标记转换函数将多个不同尺度的特征图片帧中每一像素点的配置信息进行语义转换，并根据初始虚拟点云确定对应的语义虚拟点云。

其中，服务器在得到语义分割集合中每一特征图片帧中每一像素点对应的语义分割信息之后，从预置的数据库中获取相应的语义标记转换标识，通过该语义标记转换标识获取每一特征图片帧中每一像素点对应语义标记转换函数，服务器根据语义标记转换函数将多个不同尺度的特征图片帧中每一像素点的配置信息进行语义转换，并根据初始虚拟点云确定对应的语义虚拟点云

205、根据语义虚拟点云生成鸟瞰图，并通过预置的卷积神经网络对鸟瞰图进行分类预测，得到鸟瞰图中每一像素点的初始分类预测结果；

具体的，在本实施例中，步骤204的具体实施方式与上述步骤103类似，此处不再赘述。

206、根据预置的损失函数模型和深度真值集合对鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，得到鸟瞰图中每一像素点对应的目标分类预测结果。

具体的，服务器对语义虚拟点云进行分析，确定鸟瞰图中每一像素点对应的估计深度数据；服务器基于深度真值集合通过损失函数模型的位置估计误差损失函数对鸟瞰图中每一像素点对应的估计深度数据进行第一准确度修正，得到鸟瞰图中每一像素点对应的深度真值；服务器基于鸟瞰图中每一像素点对应的深度真值通过损失函数模型的分类损失函数对鸟瞰图中每一像素点对应的初始分类预测结果进行第二准确度修正，得到鸟瞰图中每一像素点对应的目标分类预测结果。

需要说明的是，对于鸟瞰图中的每一个像素，根据深度估计的输出结果能够得到经过深度估计的俯视图格点位置A，而根据深度真值集合信息可以确定俯视图格点位置B，本申请实施例中，通过预置的损失函数模型及相应的深度真值集合进行准确度修正，具体的，该预置的损失函数模型主要包括两种损失函数，一种为位置估计误差损失函数，另一种为真值导引下的分类损失函数，其中，位置估计损失函数正比于格点位置A与格点位置B的距离，公式如下：

L₁＝|pos_A-pos_B|

其中，Pos_A，Pos_B分别表示格点A与格点B的位置坐标，真值导引下的分类损失函数如下所述：

其中，y_A表示格点A的预测分类概率，

表示格点B的真实分类，本发明实施例中，服务器通过深度真值集合可以将格点A的预测分类与格点B的真实分类计算交叉熵，得到总的损失函数如下：

L＝L₁+αL₂

其中，α为一个指定常数，用来平衡L₁与L₂的相对大小。将距离估计误差与分类误差解耦，具体的，服务器基于深度真值集合通过损失函数模型的位置估计误差损失函数对鸟瞰图中每一像素点对应的估计深度数据进行第一准确度修正，得到鸟瞰图中每一像素点对应的深度真值；服务器基于鸟瞰图中每一像素点对应的深度真值通过损失函数模型的分类损失函数对鸟瞰图中每一像素点对应的初始分类预测结果进行第二准确度修正，得到鸟瞰图中每一像素点对应的目标分类预测结果，即使在距离估计可能有误差的情况下，网络仍能输出正确的分类信息，提升分类的准确性。

本发明实施例中，通过确定每一特征图片帧中的像素点在基于多个采样深度中的每个采样深度投影至参考图片帧后，在每个采样深度下的位置匹配代价，确定像素点的深度值，实现了在深度空间中直接对每一特征图片帧中的像素点进行深度估计，得到每一特征图片帧中各个像素点的深度值，有效规避了对图像的立体校正、立体深度反算、以及左右视角深度一致性检查等过程，减少了深度估计过程的耗时，效率更高，服务器根据预设的尺度因子将估计深度数据集合中每一特征图片帧中每一像素点转换为第一预置坐标系下的2D虚拟点云；对2D虚拟点云进行数据转换，得到第二预置坐标系下的 3D虚拟点云，进而对3D虚拟点云进行叠加，得到目标坐标系下的3D虚拟点云数据，由于车辆位姿信息包括车辆位置信息和车辆姿态信息，因此，即便是车辆位于不平整的道路环境，也能够精确的获取到车辆当前的行驶状态信息，提高数据的准确度，以便于后续对图片进行高精度的分类。

请参阅图3，本发明实施例中基于鸟瞰图的图像分类装置的一个实施例包括：

获取模块301，用于获取多帧初始图像及每帧初始图像对应的初始点云，并根据所述多帧初始图像及所述每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合；

映射模块302，用于对所述多个不同尺度的特征图片帧进行虚拟点云映射处理，得到对应的语义虚拟点云；

预测模块303，用于根据所述语义虚拟点云生成鸟瞰图，并通过预置的卷积神经网络对所述鸟瞰图进行分类预测，得到所述鸟瞰图中每一像素点的初始分类预测结果；

修正模块304，用于根据预置的损失函数模型和所述深度真值集合对所述鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，得到所述鸟瞰图中每一像素点对应的目标分类预测结果。

请参阅图4，本发明实施例中基于鸟瞰图的图像分类装置的另一个实施例包括：

可选的，所述修正模块304具体用于：对所述语义虚拟点云进行分析，确定所述鸟瞰图中每一像素点对应的估计深度数据；基于所述深度真值集合通过所述损失函数模型的位置估计误差损失函数对所述鸟瞰图中每一像素点对应的估计深度数据进行第一准确度修正，得到所述鸟瞰图中每一像素点对应的深度真值；基于所述鸟瞰图中每一像素点对应的深度真值通过所述损失函数模型的分类损失函数对鸟瞰图中每一像素点对应的初始分类预测结果进行第二准确度修正，得到鸟瞰图中每一像素点对应的目标分类预测结果。

可选的，所述获取模块301具体用于：通过预置的多个相机进行图像采集，得到多帧初始图像，并通过预置的激光雷达进行数据采集，得到每帧初始图像对应的初始点云；通过预置的视觉分析模型对所述多帧初始图像进行特征提取，得到多个不同尺度的特征图片帧，并根据所述多帧初始图像和所述每帧初始图像对应的初始点云确定每帧初始图像对应的深度真值集合。

可选的，所述映射模块302具体包括：

估计单元3021，用于利用预置的深度估计模型分别对所述多个不同尺度的特征图片帧进行深度估计，得到估计深度数据集合；

映射单元3022，用于根据所述估计深度数据集合进行3D点映射，得到对应的初始虚拟点云；

分割单元3023，用于对所述多个不同尺度的特征图片帧进行语义分割处理，得到语义虚拟点云。

可选的，所述估计单元3021具体用于：从预置数据库中获取与每一所述特征图片帧对应的参考图片帧；基于预设的多个采样深度，通过预置的深度估计模型将每一所述特征图片帧投影至对应的参考图片帧，并根据预置的深度估计模型的匹配代价计算函数计算每一所述采样深度对应的位置匹配代价；基于所述每一所述采样深度对应的位置匹配代价，确定每一所述特征图片帧中每一像素点的估计深度数据并合并为所述估计深度数据集合。

可选的，所述映射单元3022具体用于：根据预设的尺度因子将所述估计深度数据集合中每一所述特征图片帧中每一像素点转换为第一预置坐标系下的2D虚拟点云；对所述2D虚拟点云进行数据转换，得到第二预置坐标系下的3D虚拟点云；将所述的3D虚拟点云进行叠加，得到目标坐标系下的叠加 3D虚拟点云；获取目标坐标系下的车辆位姿信息并根据所述车辆位姿信息对所述叠加3D虚拟点云进行逆变换，得到目标坐标系下的初始虚拟点云。

可选的，所述分割单元3023具体包括：

分割子单元30231，用于对每一所述特征图片帧中每一像素点进行语义分割处理，得到每一所述特征图片帧中每一像素点对应的语义分割信息并合并为所述语义分割信息集合；

配置子单元30232，用于根据所述语义分割信息集合，对所述多个不同尺度的特征图片帧中每一像素点进行语义信息配置，并根据所述初始虚拟点云生成对应的语义虚拟点云。

可选的，所述分割子单元30231具体用于：对每一所述特征图片帧进行分块处理，获得与每一所述特征图片帧对应的子图片帧集合；对每一所述特征图片帧对应的子图片帧集合的每个子图像进行语义分割，获得每个子图像上每一个像素点的分类结果；根据每个子图像上每一个像素点的分类结果确定每一所述特征图片帧中每一像素点对应的语义分割信息并合并为所述语义分割信息集合。

可选的，所述配置子单元30232具体用于：根据所述语义分割集合中每一所述特征图片帧中每一像素点对应的语义分割信息确定语义标记转换函数；根据所述语义标记转换函数将所述多个不同尺度的特征图片帧中每一像素点的配置信息进行语义转换，并根据所述初始虚拟点云确定对应的语义虚拟点云。

图5是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(CentralProcessing Units，CPU)510(例如，一个或一个以上处理器) 和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530 (例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530 可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在计算机设备500上执行存储介质530中的一系列指令操作。

计算机设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD 等等。本领域技术人员可以理解，图5示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于鸟瞰图的图像分类方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于鸟瞰图的图像分类方法的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于鸟瞰图的图像分类方法，其特征在于，包括：

获取多帧初始图像及每帧初始图像对应的初始点云，并根据所述多帧初始图像及所述每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合；

对所述多个不同尺度的特征图片帧进行虚拟点云映射处理，得到对应的语义虚拟点云；

根据所述语义虚拟点云生成鸟瞰图，并通过预置的卷积神经网络对所述鸟瞰图进行分类预测，得到所述鸟瞰图中每一像素点的初始分类预测结果；

根据预置的损失函数模型和所述深度真值集合对所述鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，得到所述鸟瞰图中每一像素点对应的目标分类预测结果。

2.根据权利要求1所述的基于鸟瞰图的图像分类方法，其特征在于，所述根据预置的损失函数模型和所述深度真值集合对所述鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，得到所述鸟瞰图中每一像素点对应的目标分类预测结果包括：

对所述语义虚拟点云进行分析，确定所述鸟瞰图中每一像素点对应的估计深度数据；

基于所述深度真值集合通过所述损失函数模型的位置估计误差损失函数对所述鸟瞰图中每一像素点对应的估计深度数据进行第一准确度修正，得到所述鸟瞰图中每一像素点对应的深度真值；

基于所述鸟瞰图中每一像素点对应的深度真值通过所述损失函数模型的分类损失函数对鸟瞰图中每一像素点对应的初始分类预测结果进行第二准确度修正，得到鸟瞰图中每一像素点对应的目标分类预测结果。

3.根据权利要求1所述的基于鸟瞰图的图像分类方法，其特征在于，所述获取多帧初始图像及每帧初始图像对应的初始点云，并根据所述多帧初始图像及所述每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合包括：

通过预置的多个相机进行图像采集，得到多帧初始图像，并通过预置的激光雷达进行数据采集，得到每帧初始图像对应的初始点云；

通过预置的视觉分析模型对所述多帧初始图像进行特征提取，得到多个不同尺度的特征图片帧，并根据所述多帧初始图像和所述每帧初始图像对应的初始点云确定每帧初始图像对应的深度真值集合。

4.根据权利要求1-3中任一项所述的基于鸟瞰图的图像分类方法，其特征在于，所述对所述多个不同尺度的特征图片帧进行虚拟点云映射处理，得到对应的语义虚拟点云包括：

利用预置的深度估计模型分别对所述多个不同尺度的特征图片帧进行深度估计，得到估计深度数据集合；

根据所述估计深度数据集合进行3D点映射，得到对应的初始虚拟点云；对所述多个不同尺度的特征图片帧进行语义分割处理，得到语义虚拟点云。

5.根据权利要求4所述的基于鸟瞰图的图像分类方法，其特征在于，所述利用预置的深度估计模型分别对所述多个不同尺度的特征图片帧进行深度估计，得到估计深度数据集合包括：

从预置数据库中获取与每一所述特征图片帧对应的参考图片帧；

基于预设的多个采样深度，通过预置的深度估计模型将每一所述特征图片帧投影至对应的参考图片帧，并根据预置的深度估计模型的匹配代价计算函数计算每一所述采样深度对应的位置匹配代价；

基于所述每一所述采样深度对应的位置匹配代价，确定每一所述特征图片帧中每一像素点的估计深度数据并合并为所述估计深度数据集合。

6.根据权利要求4所述的基于鸟瞰图的图像分类方法，其特征在于，所述根据所述估计深度数据集合进行3D点映射投影，得到对应的初始虚拟点云包括：

根据预设的尺度因子将所述估计深度数据集合中每一所述特征图片帧中每一像素点转换为第一预置坐标系下的2D虚拟点云；

对所述2D虚拟点云进行数据转换，得到第二预置坐标系下的3D虚拟点云；

将所述的3D虚拟点云进行叠加，得到目标坐标系下的叠加3D虚拟点云；

获取目标坐标系下的车辆位姿信息并根据所述车辆位姿信息对所述叠加3D虚拟点云进行逆变换，得到目标坐标系下的初始虚拟点云。

7.根据权利要求4所述的基于鸟瞰图的图像分类方法，其特征在于，所述对所述多个不同尺度的特征图片帧进行语义分割处理，得到语义虚拟点云包括：

对每一所述特征图片帧中每一像素点进行语义分割处理，得到每一所述特征图片帧中每一像素点对应的语义分割信息并合并为所述语义分割信息集合；

根据所述语义分割信息集合，对所述多个不同尺度的特征图片帧中每一像素点进行语义信息配置，并根据所述初始虚拟点云生成对应的语义虚拟点云。

8.根据权利要求7所述的基于鸟瞰图的图像分类方法，其特征在于，所述对每一所述特征图片帧中每一像素点进行语义分割处理，得到每一所述特征图片帧中每一像素点对应的语义分割信息并合并为所述语义分割信息集合包括：

对每一所述特征图片帧进行分块处理，获得与每一所述特征图片帧对应的子图片帧集合；

对每一所述特征图片帧对应的子图片帧集合的每个子图像进行语义分割，获得每个子图像上每一个像素点的分类结果；

根据每个子图像上每一个像素点的分类结果确定每一所述特征图片帧中每一像素点对应的语义分割信息并合并为所述语义分割信息集合。

9.根据权利要求7所述的基于鸟瞰图的图像分类方法，其特征在于，所述根据所述语义分割信息集合，对所述多个不同尺度的特征图片帧中每一像素点进行语义信息配置，并根据所述初始虚拟点云确定对应的语义虚拟点云包括：

根据所述语义分割集合中每一所述特征图片帧中每一像素点对应的语义分割信息确定语义标记转换函数；

根据所述语义标记转换函数将所述多个不同尺度的特征图片帧中每一像素点的配置信息进行语义转换，并根据所述初始虚拟点云确定对应的语义虚拟点云。

10.一种基于鸟瞰图的图像分类装置，其特征在于，所述基于鸟瞰图的图像分类装置包括：

获取模块，用于获取多帧初始图像及每帧初始图像对应的初始点云，并根据所述多帧初始图像及所述每帧初始图像对应的初始点云得到多个不同尺度的特征图片帧及每帧初始图像对应的深度真值集合；

映射模块，用于对所述多个不同尺度的特征图片帧进行虚拟点云映射处理，得到对应的语义虚拟点云；

预测模块，用于根据所述语义虚拟点云生成鸟瞰图，并通过预置的卷积神经网络对所述鸟瞰图进行分类预测，得到所述鸟瞰图中每一像素点的初始分类预测结果；

修正模块，用于根据预置的损失函数模型和所述深度真值集合对所述鸟瞰图中每一像素点对应的初始分类预测结果进行准确度修正，得到所述鸟瞰图中每一像素点对应的目标分类预测结果。

11.一种计算机设备，其特征在于，所述计算机设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行如权利要求1-9中任意一项所述的基于鸟瞰图的图像分类方法。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-9中任一项所述基于鸟瞰图的图像分类方法。