CN113902933A

CN113902933A - 一种地面分割网络模型的训练方法、装置、设备和介质

Info

Publication number: CN113902933A
Application number: CN202111137430.4A
Authority: CN
Inventors: 汪鹏飞; 马子昂; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-01-07

Abstract

本发明公开了一种地面分割网络模型的训练方法、装置、设备和介质，由于该方法中基于深度图像确定水平高度角度编码HHA的HHA图像中的地面高度通道H图像，提取原始地面分割网络模型中多个卷积层对应的H图像的H特征向量和RGB图像的RGB特征向量，仅采用H图像的H特征向量与RGB图像的RGB特征向量进行深度注意力机制融合处理，从而减少了计算量；并且本发明中是基于RGB图像和H图像共同进行处理，解决了仅采用包含交通道路信息的原始图像时，图像中颜色形态相近的物体不易分割的问题，从而提高了分割精度。

Description

一种地面分割网络模型的训练方法、装置、设备和介质

技术领域

本发明涉及地面分割技术领域，尤其涉及一种地面分割网络模型的训练方法、装置、设备和介质。

背景技术

现有技术中进行地面分割的方法包括一种RGB-D图像的语义分割方法、以及一种用于路面分割的深度学习方法。

图1为现有技术提供的一种RGB-D图像的语义分割方法的流程示意图，如图1所示，该方法包括以下步骤：S101：提取RGB-D图像多个阶段的RGB编码特征和深度编码特征；S102：将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型，得到与每个阶段对应的各多模态融合特征；S103：使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息；S104：拼接第五阶段多模态融合特征和上下文语义信息，得到上下文语义特征；S105：对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型。

图2为现有技术提供的一种用于路面分割的深度学习方法的流程示意图，如图2所示，该方法包括以下步骤：S201：利用多个预设滤波器对原始特征图像依次进行滤波处理，每个预设滤波器内滤波矩阵的行和列中至少一个大于1，所述原始特征图像是对包含交通道路信息的原始图像进行采样处理后生成的；S202：将滤波处理后的特征图像与所述原始特征图像进行拼接，生成目标特征图像；S203：基于所述目标特征图像进行路面分割计算。

在上述方法中，语义分割方法由于同时进行了多层的数据拼接，导致进行地面分割时的计算量较大，而深度学习方法由于仅采用了包含交通道路信息的原始图像，导致图像中颜色形态相近的物体不易分割，分割精度较低。因此在进行地面分割时，如何提高分割精度并降低计算量就成为亟待解决的技术问题。

发明内容

本发明提供了一种地面分割网络模型的训练方法、装置、设备和介质，用以解决现有技术中的如何提高分割精度并降低计算量的技术问题。

本发明提供了一种地面分割网络模型的训练方法，所述方法包括：

获取包含地面信息的红绿蓝RGB图像和对应的深度图像，基于所述深度图像确定水平高度角度编码HHA图像中的地面高度通道H图像，并输入原始地面分割网络模型进行多阶段特征提取，提取所述原始地面分割网络模型中多个卷积层对应的所述H图像的H特征向量和所述RGB图像的RGB特征向量；

基于所述原始地面分割网络模型，对预设卷积层到末端卷积层中每个卷积层对应的所述H特征向量和所述RGB特征向量进行深度注意力机制融合处理，得到融合后特征向量；

基于所述原始地面分割网络模型，对所述预设卷积层对应的融合后特征向量进行卷积和上采样得到原型特征图，对所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量进行卷积得到预测的类型，其中所述原型为所述RGB图像中待分割目标的初始轮廓，所述类型包括地面轮廓类型，融合所述原型特征图和预测的所述类型得到预测的地面分割图，并根据所述预测的地面分割图得到训练完成的地面分割网络模型。

进一步地，所述提取所述原始地面分割网络模型中多个卷积层对应的所述H图像的H特征向量和所述RGB图像的RGB特征向量包括：

提取所述原始地面分割网络模型中预设卷积层到末端卷积层对应的所述H图像的H特征向量、以及预设卷积层对应的所述RGB图像的RGB特征向量；

所述对预设卷积层到末端卷积层中每个卷积层对应的所述H特征向量和所述RGB特征向量进行深度注意力机制融合处理，得到融合后特征向量包括：

对预设卷积层对应的H特征向量进行自注意力机制处理得到对应的自注意力特征向量，将所述自注意力特征向量和所述预设卷积层对应的所述RGB特征向量进行融合处理，得到所述预设卷积层对应的融合后特征向量，并将所述预设卷积层对应的融合后特征向量作为下一卷积层对应的RGB特征向量，并将所述下一卷积层对应的H特征向量和RGB特征向量进行融合处理，确定出所述下一卷积层对应的融合后特征向量，直到确定出末端卷积层对应的融合后特征向量。

进一步地，所述对预设卷积层对应的H特征向量进行自注意力机制处理得到对应的自注意力特征向量包括：

对预设卷积层对应的H特征向量进行平均池化、卷积、非线性激活和S型生长曲线sigmoid激活，得到所述H特征向量每个维度的权重，将所述权重与所述H特征向量相乘得到对应的自注意力特征向量；

所述将所述自注意力特征向量和所述预设卷积层对应的所述RGB特征向量进行融合处理，得到所述预设卷积层对应的融合后特征向量包括：

将所述自注意力特征向量和所述预设卷积层对应的所述RGB特征向量进行拼接和卷积，得到所述预设卷积层对应的融合后特征向量。

进一步地，所述对所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量进行卷积得到预测的类型包括：

针对所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量，对该融合后特征向量进行卷积，得到该融合后特征向量对应的每个预测区域、类别置信度以及预测的所述原型特征图中每个原型的权重系数；

对该融合后特征向量对应的每个预测区域进行非极大值抑制处理，确定类别置信度最大的预测区域作为该融合后特征向量对应的目标预测区域，并确定该目标预设区域对应的预测的所述原型特征图中每个原型的目标权重系数。

进一步地，所述融合所述原型特征图和预测的所述类型得到预测的地面分割图包括：

根据所述原型特征图中每个原型的宽、高和原型个数，确定标识所述原型特征图的第一矩阵P，其中P＝w*h*numPtoto，w为所述原型的宽，h为所述原型的高，numPtoto为所述原型个数；

根据所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量的所述目标预测区域的个数、所述原型特征图中每个原型的目标权重系数，确定预测的类型的第二矩阵C，其中C＝k*mask，k为所述目标预测区域的个数，mask为每个目标预测区域对应的预测的所述原型特征图中每个原型的目标权重系数；

根据所述第一矩阵P和所述第二矩阵C，采用S型生长曲线sigmoid函数进行融合得到预测的地面分割图M，M＝σ(P*C^T)，其中σ为sigmoid函数。

进一步地，所述根据所述预测的地面分割图得到训练完成的地面分割网络模型包括：

根据所述预测的地面分割图和预先保存的所述RGB图像对应的地面分割图，采用反向传播训练所述地面分割网络模型，更新所述地面分割网络模型的参数，得到训练完成的地面分割网络模型。

进一步地，所述基于所述深度图像确定水平高度角度编码HHA图像中的地面高度通道H图像包括：

根据预先保存的像素坐标系中像素坐标与预设世界坐标系中世界坐标的转换关系、以及所述深度图像中每个像素点的目标像素坐标，确定所述每个像素点的目标世界坐标；

根据所述每个像素点的目标世界坐标、以及预先保存的协方差公式，确定目标协方差矩阵并进行奇异值分解，得到最小特征值对应的目标特征向量；

根据预设的初始重力方向向量、所述预设相机坐标系中XY面的第一预设筛选条件、XZ面的第二预设筛选条件，确定与所述初始重力方向向量的夹角满足所述第一预设筛选条件的所述XY面的每个第一法向量、满足所述第二预设筛选条件的所述XZ面的第二法向量，根据所述每个第一法向量、所述每个第二法向量、以及预先保存的重力方向向量的优化函数关系，确定目标重力方向的目标方向向量；

根据所述目标方向向量、所述预设相机坐标系中Y轴的单位向量，确定所述单位向量对应方向向所述目标方向向量对应方向旋转的旋转矩阵，并确定所述每个像素点的目标世界坐标组成的矩阵与所述旋转矩阵相乘的乘积矩阵；

根据所述乘积矩阵中Y轴对应的每个元素值，确定元素值的最小值，根据所述每个元素值与所述最小值的差值，确定水平高度角度编码HHA图像中的地面高度通道H图像。

相应地，本发明提供了一种地面分割网络模型的训练装置，所述装置包括：

提取模块，用于获取包含地面信息的红绿蓝RGB图像和对应的深度图像，基于所述深度图像确定水平高度角度编码HHA图像中的地面高度通道H图像，并输入原始地面分割网络模型进行多阶段特征提取，提取所述原始地面分割网络模型中多个卷积层对应的所述H图像的H特征向量和所述RGB图像的RGB特征向量；

融合模块，用于基于所述原始地面分割网络模型，对预设卷积层到末端卷积层中每个卷积层对应的所述H特征向量和所述RGB特征向量进行深度注意力机制融合处理，得到融合后特征向量；

预测模块，用于基于所述原始地面分割网络模型，对所述预设卷积层对应的融合后特征向量进行卷积和上采样得到原型特征图，对所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量进行卷积得到预测的类型，其中所述原型为所述RGB图像中待分割目标的初始轮廓，所述类型包括人体轮廓类型、物体轮廓类型以及地面轮廓类型，融合所述原型特征图和预测的所述类型得到预测的地面分割图，并根据所述预测的地面分割图得到训练完成的地面分割网络模型。

进一步地，所述提取模块，具体用于提取所述原始地面分割网络模型中预设卷积层到末端卷积层对应的所述H图像的H特征向量、以及预设卷积层对应的所述RGB图像的RGB特征向量；

所述融合模块，具体用于对预设卷积层对应的H特征向量进行自注意力机制处理得到对应的自注意力特征向量，将所述自注意力特征向量和所述预设卷积层对应的所述RGB特征向量进行融合处理，得到所述预设卷积层对应的融合后特征向量，并将所述预设卷积层对应的融合后特征向量作为下一卷积层对应的RGB特征向量，并将所述下一卷积层对应的H特征向量和RGB特征向量进行融合处理，确定出所述下一卷积层对应的融合后特征向量，直到确定出末端卷积层对应的融合后特征向量。

进一步地，所述融合模块，具体还用于对预设卷积层对应的H特征向量进行平均池化、卷积、非线性激活和S型生长曲线sigmoid函数激活，得到所述H特征向量每个维度的权重，将所述权重与所述H特征向量相乘得到对应的自注意力特征向量；将所述自注意力特征向量和所述预设卷积层对应的所述RGB特征向量进行拼接和卷积，得到所述预设卷积层对应的融合后特征向量。

进一步地，所述预测模块，具体用于针对所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量，对该融合后特征向量进行卷积，得到该融合后特征向量对应的每个预测区域、类别置信度以及预测的所述原型特征图中每个原型的权重系数；对该融合后特征向量对应的每个预测区域进行非极大值抑制处理，确定类别置信度最大的预测区域作为该融合后特征向量对应的目标预测区域，并确定该目标预设区域对应的预测的所述原型特征图中每个原型的目标权重系数。

进一步地，所述预测模块，具体还用于根据所述原型特征图中每个原型的宽、高和原型个数，确定标识所述原型特征图的第一矩阵P，其中P＝w*h*numPtoto，w为所述原型的宽，h为所述原型的高，numPtoto为所述原型个数；根据所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量的所述目标预测区域的个数、所述原型特征图中每个原型的目标权重系数，确定预测的类型的第二矩阵C，其中C＝k*mask，k为所述目标预测区域的个数，mask为每个目标预测区域对应的预测的所述原型特征图中每个原型的目标权重系数；根据所述第一矩阵P和所述第二矩阵C，采用S型生长曲线sigmoid函数进行融合得到预测的地面分割图M，M＝σ(P*C^T)，其中σ为sigmoid函数。

进一步地，所述预测模块，具体还用于根据所述预测的地面分割图和预先保存的所述RGB图像对应的地面分割图，采用反向传播训练所述地面分割网络模型，更新所述地面分割网络模型的参数，得到训练完成的地面分割网络模型。

进一步地，所述提取模块，具体用于根据预先保存的像素坐标系中像素坐标与预设世界坐标系中世界坐标的转换关系、以及所述深度图像中每个像素点的目标像素坐标，确定所述每个像素点的目标世界坐标；根据所述每个像素点的目标世界坐标、以及预先保存的协方差公式，确定目标协方差矩阵并进行奇异值分解，得到最小特征值对应的目标特征向量；根据预设的初始重力方向向量、所述预设相机坐标系中XY面的第一预设筛选条件、XZ面的第二预设筛选条件，确定与所述初始重力方向向量的夹角满足所述第一预设筛选条件的所述XY面的每个第一法向量、满足所述第二预设筛选条件的所述XZ面的第二法向量，根据所述每个第一法向量、所述每个第二法向量、以及预先保存的重力方向向量的优化函数关系，确定目标重力方向的目标方向向量；根据所述目标方向向量、所述预设相机坐标系中Y轴的单位向量，确定所述单位向量对应方向向所述目标方向向量对应方向旋转的旋转矩阵，并确定所述每个像素点的目标世界坐标组成的矩阵与所述旋转矩阵相乘的乘积矩阵；根据所述乘积矩阵中Y轴对应的每个元素值，确定元素值的最小值，根据所述每个元素值与所述最小值的差值，确定水平高度角度编码HHA图像中的地面高度通道H图像。

相应地，本发明提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器实现上述地面分割网络模型的训练方法中任一所述方法的步骤。

相应地，本发明提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述地面分割网络模型的训练方法中任一所述方法的步骤。

本发明提供了一种地面分割网络模型的训练方法、装置、设备和介质，由于该方法中基于深度图像确定水平高度角度编码HHA的HHA图像中的地面高度通道H图像，提取原始地面分割网络模型中多个卷积层对应的H图像的H特征向量和RGB图像的RGB特征向量，仅采用H图像的H特征向量与RGB图像的RGB特征向量进行深度注意力机制融合处理，从而减少了计算量；并且本发明中是基于RGB图像和H图像共同进行处理，解决了仅采用包含交通道路信息的原始图像时，图像中颜色形态相近的物体不易分割的问题，从而提高了分割精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术提供的一种RGB-D图像的语义分割方法的流程示意图；

图2为现有技术提供的一种用于路面分割的深度学习方法的流程示意图；

图3为本发明实施例提供的一种地面分割网络模型的训练方法的过程示意图；

图4为本发明实施例提供的一种原型特征图的确定过程的示意图；

图5为本发明实施例提供的一种对融合后特征向量进行卷积确定预测的类型的过程示意图；

图6为本发明实施例提供的一种对预设卷积层的H特征向量和RGB特征向量进行深度注意力机制融合的过程示意图；

图7为本发明实施例提供的一种地面分割网络模型的示意图；

图8为本发明实施例提供的一种地面分割网络模型的训练装置的结构示意图；

图9为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了实现进行地面分割时可以提高分割精度并降低计算量，本发明实施例提供了一种地面分割网络模型的训练方法、装置、设备和介质。

实施例1：

图3为本发明实施例提供的一种地面分割网络模型的训练方法的过程示意图，该过程包括以下步骤：

S301：获取包含地面信息的红绿蓝(Red Green Blue，RGB)图像和对应的深度图像，基于所述深度图像确定水平高度角度编码(horizontal disparity height aboveground and the angle the pixel’s local surface normal makes with the inferredgravity direction，HHA)图像中的地面高度通道(height above ground，H)图像，并输入原始地面分割网络模型进行多阶段特征提取，提取所述原始地面分割网络模型中多个卷积层对应的所述H图像的H特征向量和所述RGB图像的RGB特征向量。

本发明实施例提供的一种地面分割网络模型的训练方法应用于电子设备,其中该电子设备可以是PC、平板电脑、智能终端、服务器等，其中该服务器可以是本地服务器、也可以是云端服务器。

为了在进行地面分割时提高分割精度并降低计算量，在本发明实施例中，该电子设备获取包含地面信息的RGB图像和对应的深度图像，其中该深度图像为该RGB图像对应的深度图像，该RGB图像可以是由图像采集设备采集预设区域得到的包含地面信息的RGB图像，该深度图像是以图像的形式表示预设区域的环境中深度信息的一种单通道数据表示方式，该深度图像可以是由该RGB图像转换得到的深度图像，也可以是由深度相机采集同一预设区域得到的深度图像。

该电子设备获取到针对预设区域采集的RGB图像和深度图像，根据该深度图像可以采用现有的HHA编码方法生成HHA图像，也可以根据该深度图像中每个像素点的像素坐标进行计算得到HHA图像。该HHA图像中包括水平差异通道图像、地面高度通道图像和表面法向量的角度通道图像，为了减少计算量，该电子设备仅使用HHA图像中的水平差异通道图像、地面高度通道图像和表面法向量的角度通道图像中的一种，为了保证对原始地面分割网络模型的训练，仅使用该HHA图像中的地面高度通道H图像。

将该RGB图像和该H图像输入到原始地面分割网络模型中，分别对该RGB图像和该H图像进行多阶段特征提取，提取到多个阶段的特征向量，即提取到该原始地面分割网络模型中的多个卷积层对应的特征向量，包括多个卷积层对应的H图像的H特征向量和RGB图像的RGB特征向量。其中，该原始地面分割网络模型可以是全卷积(Fully ConvolutionalNetworks for Semantic Segmentation，FCN)网络，在基于该原始地面分割网络模型进行多阶段特征提取时，根据网络计算量和精度要求，该原始地面分割网络模型的核心网络架构(backbone)可以是残差网络(rensnet50/101)、轻量级网络(mobilenet)中的任意一种。

S302：基于所述原始地面分割网络模型，对预设卷积层到末端卷积层中每个卷积层对应的所述H特征向量和所述RGB特征向量进行深度注意力机制融合处理，得到融合后特征向量。

为了实现对原始地面分割网络模型的训练，在本发明实施例中，在初始卷积层到末端卷积层中预先选择有预设卷积层，该预设卷积层可以是该初始卷积层到末端卷积层中的任一卷积层。较佳的，为了减少计算量并且保证训练精度，该预设卷积层为初始卷积层到末端卷积层中的中间卷积层。

例如，该原始地面分割网络模型共由5层卷积层时，该预设卷积层即为中间的第3卷积层，该第三卷积层对应的特征向量即为多阶段特征提取中的第三阶段的特征向量。

基于原始地面分割网络模型，针对预设卷积层到末端卷积层中的每个卷积层，确定该卷积层对应的H特征向量和RGB特征向量，并进行深度注意力机制融合处理，从而得到该卷积层对应的融合后特征向量。

具体的，基于该原始地面分割网络模型的融合(FUSION)模块进行深度注意力机制融合处理，从而得到卷积层对应的融合后特征向量。

S303：基于所述原始地面分割网络模型，对所述预设卷积层对应的融合后特征向量进行卷积和上采样得到原型特征图，对所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量进行卷积得到预测的类型，其中所述原型为所述RGB图像中待分割目标的初始轮廓，所述类型包括人体轮廓类型、物体轮廓类型以及地面轮廓类型，融合所述原型特征图和预测的所述类型得到预测的地面分割图，并根据所述预测的地面分割图得到训练完成的地面分割网络模型。

为了确定出针对该RGB图像预测的地面分割图，在本发明实施例中，基于该原始地面分割网络模型，首先确定出该RGB图像的原型特征图，即确定出该RGB图像中待分割目标的初始轮廓的特征图。具体的，基于该原始地面分割网络模型的原型提取(ProtoType)模块，对该预设卷积层对应的融合后特征向量进行卷积和上采样得到原型特征图，该ProtoType模块中包括卷积层和上采样层。

图4为本发明实施例提供的一种原型特征图的确定过程的示意图，如图4所示，对该预设卷积层对应的融合后特征向量经过3*3卷积层进行卷积处理，经过上采样(UpSample)层进行上采样处理后，再经过2*2卷积层进行卷积处理得到N*N*numProto的原型特征图，其中该numProto为原型个数，N表示原型特征图的维度。示例性地，图4中得到138*138*1的原型特征图，表示该原型特征图的维度为138*138，原型个数为1。

基于该原始地面分割网络模型，针对预设卷积层到末端卷积层中每个卷积层对应的融合后特征向量，对该融合后特征向量进行卷积得到预测的类型。具体的，基于该原始地面分割网络模型的类型预测(PredictionType)模块，对预设卷积层到末端卷积层中每个卷积层对应的融合后特征向量进行卷积，得到预测的类型。其中该类型包括地面轮廓类型。

图5为本发明实施例提供的一种对融合后特征向量进行卷积确定预测的类型的过程示意图，如图5所示，将该融合后特征向量经过2*2卷积层进行卷积，得到预测的类型。

根据原型特征图和预测得到的类型，对原型特征图和预测的类型进行融合得到预测的地面分割图。具体的，使用S型生长曲线(sigmoid)函数对原型特征图和预测的类型进行融合处理得到预测的地面分割图。

根据预测的地面分割图，确定该预测的地面分割图与真实的人工标注的地面分割图的损失值，不断进行迭代直到预测的地面分割图与真实的人工标注的地面分割图的损失值小于阈值，并确定出对应的模型参数更新原始地面分割网络模型的参数，从而得到训练完成的地面分割网络模型。

由于本发明实施例中基于深度图像确定水平高度角度编码HHA的HHA图像中的地面高度通道H图像，提取原始地面分割网络模型中多个卷积层对应的H图像的H特征向量和RGB图像的RGB特征向量，仅采用H图像的H特征向量与RGB图像的RGB特征向量进行深度注意力机制融合处理，从而减少了计算量；并且本发明中是基于RGB图像和H图像共同进行处理，解决了仅采用了包含交通道路信息的原始图像时，图像中颜色形态相近的物体不易分割的问题，从而在减少了计算量时提高了分割精度。

实施例2：

为了确定出融合后特征向量，在上述实施例的基础上，在本发明实施例中，所述提取所述原始地面分割网络模型中多个卷积层对应的所述H图像的H特征向量和所述RGB图像的RGB特征向量包括：

将H图像和RGB图像输入原始地面分割网络模型，基于该原始地面分割网络模型的初始卷积层到末端卷积层，可以确定出初始卷积层到末端卷积层对应的H图像的H特征向量、以及初始卷积层到预设卷积层对应的RGB图像的RGB特征向量。

由于预设卷积层之前的卷积层对应的H特征向量和RGB特征向量属于低级特征向量，为了提高训练地面分割网络模型的准确度，在本发明实施例中，电子设备仅提取预设卷积层到末端卷积层对应的特征向量，即提取预设卷积层到末端卷积层对应的H图像的H特征向量、以及预设卷积层对应的RGB图像的RGB特征向量。

为了确定出预设卷积层到末端卷积层中每个卷积层对应的融合后特征向量，由于RGB图像容易受到光照等外部因素的影响，难以获得较好的自注意力特征向量，而H图像较少受到外界环境因素的影响，因此本发明中对预设卷积层对应的H特征向量进行自注意力机制处理，得到预设卷积层对应的H特征向量的自注意力特征向量。

将预设卷积层对应的H特征向量的自注意力特征向量与预设卷积层对应的RGB特征向量进行融合处理，得到预设卷积层对应的融合后特征向量。

为了实现对预设卷积层对应的H特征向量和RGB特征向量的深度注意力机制融合处理，在本发明实施例中，所述对预设卷积层对应的H特征向量进行自注意力机制处理得到对应的自注意力特征向量包括：

对预设卷积层对应的H特征向量进行平均池化、卷积、非线性激活和sigmoid函数激活，得到所述H特征向量每个维度的权重，将所述权重与所述H特征向量相乘得到对应的自注意力特征向量；

将预设卷积层对应的H特征向量经过平均池化层、1*1卷积层、非线性激活层、1*1卷积层和sigmoid函数激活层，对预设卷积层经过平均池化、1*1卷积、非线性激活、1*1卷积和sigmoid函数激活，得到预设卷积层对应的H特征向量每个维度的权重。

根据预设卷积层对应的H特征向量和确定的每个维度的权重，确定H特征向量与权重相乘的乘积值，该乘积值即为预设卷积层对应的H特征向量的自注意力特征向量。

根据预设卷积层对应的H特征向量的自注意力特征向量、以及预设卷积层对应的RGB特征向量，将自注意力特征向量与RGB特征向量进行拼接，得到拼接后的特征向量，将拼接后的特征向量经过3*3卷积层进行卷积处理，得到预设卷积层对应的融合后特征向量。其中，将自注意力特征向量与RGB特征向量进行拼接时是进行深度方向上的拼接。

确定出预设卷积层对应的融合后特征向量后，将该预设卷积层对应的融合后特征向量作为预设卷积层的下一卷积层对应的RGB特征向量，根据下一卷积层对应的H特征向量和RGB特征向量，对下一卷积层对应的H特征向量进行自注意力机制处理，得到下一卷积层对应的H特征向量的自注意力特征向量，将下一卷积层对应的自注意力特征向量与RGB特征向量进行融合处理，得到下一卷积层对应的融合后特征向量，将下一卷积层对应的融合后特征向量作为再下一卷积层对应的RGB特征向量。

针对下一卷积层之后的每个卷积层，将该卷积层对应的H特征向量和RGB特征向量进行与上述预设卷积层相同的处理过程，直到确定出末端卷积层对应的融合后特征向量。

下面以一个具体的实施例对本发明的确定融合后特征向量的过程进行说明：

将H图像和RGB图像输入原始地面分割网络模型进行多阶段特征提取，该原始地面分割网络模型中包括第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层，该预设卷积层为中间的第三卷积层。

确定出该原始地面分割网络模型的第一卷积层对应的H特征向量H_L1和RGB特征向量RGB_L1，第二卷积层对应的H特征向量H_L2和RGB特征向量RGB_L2，第三卷积层对应的H特征向量H_L3和RGB特征向量RGB_L3，第四卷积层对应的H特征向量H_L4，第五卷积层对应的H特征向量H_L5。

将第三卷积层对应的H特征向量H_L3进行自注意力机制处理，得到对应自注意力特征向量，将自注意力特征向量与第三卷积层对应的RGB特征向量RGB_L3进行融合处理，得到第三卷积层对应的融合后特征向量F3，该融合后特征向量F3即为第四卷积层对应的RGB特征向量RGB_L4。

图6为本发明实施例提供的一种对预设卷积层的H特征向量和RGB特征向量进行深度注意力机制融合的过程示意图，如图6所示，预设卷积层为第三卷积层，将第三卷积层对应的H特征向量H_L3经过平均池化(AvePool)层、1*1卷积(Conv)层、非线性激活(Relu)层、1*1Conv层和sigmoid函数激活层，得到H特征向量H_L3的每个维度的权重，将H特征向量H_L3与权重相乘的乘积值与第三卷积层对应的RGB特征向量RGB_L3进行拼接，将拼接后的特征向量经过3*3卷积(Conv)层，经过卷积处理得带第三卷积层对应的融合后特征向量F3。

将第四卷积层对应的H特征向量H_L4进行自注意力机制处理，得到对应自注意力特征向量，将自注意力特征向量与第四卷积层对应的RGB特征向量RGB_L4进行融合处理，得到第四卷积层对应的融合后特征向量F4，该融合后特征向量F4即为第五卷积层对应的RGB特征向量RGB_L5。

将第五卷积层对应的H特征向量H_L5进行自注意力机制处理，得到对应自注意力特征向量，将自注意力特征向量与第五卷积层对应的RGB特征向量RGB_L5进行融合处理，得到第五卷积层对应的融合后特征向量F5。

实施例3：

为了得到预测的类型，在上述各实施例的基础上，在本发明实施例中，所述对所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量进行卷积得到预测的类型包括：

针对预设卷积层到末端卷积层中每个卷积层对应的融合后特征向量，对该融合后特征向量进行卷积，具体是将该融合后特征向量经过2*2卷积(Conv)层进行卷积，输出W*H*(class+bbox+mask)，其中bbox表示每个预测区域，class表示每个预测区域对应的类别置信度、mask表示每个预测区域对应的类型的标识信息，W表示卷积得到的特征图的宽，H表示卷积得到的特征图的高。

其中，预测区域采用包围框坐标值[dx，dy，pw，ph]表示，其中dx和dy可以是表示包围框的中心点的横坐标和纵坐标，也可以是表示包围框四个角点中任一角点的横坐标和纵坐标；该pw表示包围框的宽，ph表示包围框的高。

对每个预测区域进行非极大值抑制处理，即确定出类别置信度为极大值时的目标预测区域。具体的，根据每个预测区域对应的类别置信度，确定出类别置信度最大的目标类别置信度，将目标类别置信度对应的预测区域确定为目标预测区域，并确定目标预测区域对应的预测的所述原型特征图中每个原型的目标权重系数，其中预设卷积层到末端卷积层中每个卷积层对应的目标预测区域的预测的原型特征图中每个原型的目标权重系数即为预测的类型。

实施例4：

为了确定出预测的地面分割图，在上述各实施例的基础上，在本发明实施例中，所述融合所述原型特征图和预测的所述类型得到预测的地面分割图包括：

根据所述第一矩阵P和所述第二矩阵C，采用S型生长曲线sigmoid函数进行融合得到预测的地面分割图M，M＝σ(P*C^T)，其中σ为sigmoid激活函数。

为了确定出预测的地面分割图，在本发明实施例中，根据原型特征图中每个原型的宽w、高h和原型个数numPtoto，确定标识原型特征图的第一矩阵P，该第一矩阵P，该第一矩阵P＝w*h*numPtoto。

针对预设卷积层到末端卷积层中每个卷积层，确定该卷积层对应的融合后特征向量的目标预测区域的个数，根据每个卷积层对应的融合后特征向量的目标预测区域的个数k、以及每个目标预测区域对应的原型特征图中每个原型的目标权重系数mask，确定出预测的类型的第二矩阵C，该第二矩阵C＝k*mask。

根据第一矩阵P和第二矩阵C，采用sigmoid函数对第一矩阵P和第二矩阵C进行融合，融合时的公式为σ(P*C^T)，其中C^T为第二矩阵C的转置矩阵，σ表示为sigmoid函数，采用上述公式计算得到的结果M即表示为预测的地面分割图。

实施例5：

为了得到训练完成的地面分割网络模型，在上述各实施例的基础上，在本发明实施例中，所述根据所述预测的地面分割图得到训练完成的地面分割网络模型包括：

为了实现对原始地面分割网络模型的训练，得到训练完成的地面分割网络模型，在本发明实施例中，还预先保存有RGB图像对应的地面分割图，该预先保存的RGB图像对应的地面分割图是作为真值，该预测的地面分割图是作为预测值，根据预测的地面分割图和预先保存的RGB图像对应的地面分割图，可以确定出损失值。其中该损失值中包含分类损失值、边界框回归损失值和mask损失值。

根据确定出的损失值，采用反向传播算法训练原始地面分割网络模型，确定出地面分割网络权重，并采用地面分割网络权重更新地面分割网络模型的参数，从而得到训练完成的地面分割网络模型。

实施例6：

为了基于深度图像确定出地面高度通道H图像，在上述各实施例的基础上，在本发明实施例中，所述基于所述深度图像确定水平高度角度编码HHA图像中的地面高度通道H图像包括：

深度图像是以图像的形式表示环境中深度信息的一种单通道数据表示方式，预先设定像素坐标系为

世界坐标系为

世界坐标系到像素坐标系的齐次转换矩阵为

其中[R|T]为世界坐标系与像素坐标系的旋转平移矩阵，由于深度图像的世界坐标系为图像采集设备的坐标系，因此该旋转平移矩阵

z_c为相机坐标系下的z方向深度信息，

为图像采集设备的内参camMatrix，f_x和f_y表示焦距，s表示坐标轴倾斜参数，该坐标轴倾斜参数一般为0，cx和cx表示主点的坐标，该主点为图像采集设备的光轴与图像平面的交点，一般为图像平面的中点。

齐次转换矩阵可以简化为

根据该简化后的其次转换矩阵可以确定出预先保存的像素坐标系中像素坐标与预设世界坐标系中世界坐标的转换关系

根据上述像素坐标与世界坐标的转换关系，以及深度图像中每个像素点的目标像素坐标，将目标像素坐标代入上述转换关系中，可以确定出每个像素点的世界坐标。

根据每个像素点的世界坐标(X，Y，Z)，预先保存的协方差公式

确定出目标协方差矩阵C。其中

其中该x_mean表示第i列的X轴坐标值的均值，该y_mean表示第i列的Y轴坐标值的均值。

对目标协方差矩阵C进行奇异值(Singular Value Decomposition，SVD)分解，从而得到最小特征值对应的目标特征向量。

为了确定出地面高度通道H图像，在本发明实施例中，还要确定出实际的重力高度方向向量，预设有初始重力方向向量Gi，该Gi＝[0,1,0]，预设相机坐标系中XY面的第一预设筛选条件，该第一预设筛选条件为μ₁＝{n:(θ(n，g_i-1))<d||(θ(n，g_i-1))>180°-d}，其中d为预设角度阈值，θ(n，g_i-1)表示XY面的第一法向量与第i次迭代时的重力方向向量之间的夹角，该第一预设筛选条件表示满足与重力方向向量之间的夹角小于预设角度阈值d、或大于(180°-d)的每个第一法向量n。

还预设相机坐标系中XZ面的第二预设筛选条件，该第二预设筛选条件为μ₂＝{m:90°-d<θ(m，g_i-1)<90°+d}，其中d为预设角度阈值，θ(m，g_i-1)表示XZ面的第二法向量与第i次迭代时的重力方向向量之间的夹角，该第二预设筛选条件表示满足与重力方向向量之间的夹角大于(90°-d)且小于(90°+d)的每个第二法向量m。

根据每个第一法向量n和每个第二法向量m、预先保存的重力方向向量的优化函数关系

将每个第一法向量以矩阵形式表示，确定出每个第一法向量的矩阵N₁；将每个第二法向量以矩阵形式表示，确定出每个第一法向量的矩阵N₁；根据每个第一法向量的矩阵N₁、每个第一法向量的矩阵N₁、预先保存的重力方向向量的优化函数关系的矩阵形式M＝N₁N₁ ^T-N₂N₂ ^T，确定出M并进行特征值分解确定出第i次迭代时的重力方向的方向向量。重复上述操作N次，确定出最终的目标重力方向的目标方向向量。

根据确定出的目标方向向量、预设相机坐标系中Y轴的单位向量，确定出单位向量对应方向向目标方向向量对应方向旋转的旋转矩阵Rotate_3×3，目标方向向量和单位向量均为一行三列，该旋转矩阵Rotate为三行三列。

根据每个像素点的目标世界坐标，确定出目标世界坐标组成的n行三列的矩阵pc_n×3，该矩阵pc_n×3中的三列分别对应世界坐标系中的X轴坐标、Y轴坐标和Z轴坐标。将每个像素点的世界坐标与旋转矩阵Rotate相乘得到乘积矩阵pcRotate_n×3。

根据乘积矩阵中Y轴对应的每个像素值，即该乘积矩阵中的第二列元素值，确定出元素值的最小值，根据每个元素值与最小值的差值，确定出水平高度角度编码HHA图像中的地面高度通道H图像。

实施例7：

下面通过一个具体的实施例对本发明的地面分割网络模型的训练过程进行说明，图7为本发明实施例提供的一种地面分割网络模型的示意图，如图7所示，该方法包括以下步骤：

将深度图像Depth通过现有的HHA编码方法得到对应的HHA图像，并确定出HHA图像中的地面高度通道H图像，将H图像和RGB图像输入原始地面分割网络模型中，提取出第一卷积层对应的H图像的H特征向量H_L1和RGB特征向量RGB_L1，第二卷积层对应的H特征向量H_L2和RGB特征向量RGB_L2，第三卷积层对应的H特征向量H_L3和RGB特征向量RGB_L3，第四卷积层对应的H特征向量H_L4，第五卷积层对应的H特征向量H_L5。

将第三卷积层对应的H特征向量H_L3和RGB特征向量RGB_L3输入融合(FUSION)模块，进行深度注意力机制融合，得到第三卷积层对应的融合后特征向量F3，该F3即为第四卷积层对应的RGB特征向量RGB_L4；将第四卷积层对应的H特征向量H_L4和RGB特征向量RGB_L4输入FUSION模块，进行深度注意力机制融合，得到第四卷积层对应的融合后特征向量F4，该F4即为第五卷积层对应的RGB特征向量RGB_L5；将第五卷积层对应的H特征向量H_L5和RGB特征向量RGB_L5输入FUSION模块，进行深度注意力机制融合，得到第五卷积层对应的融合后特征向量F5。

将第三卷积层对应的融合后特征向量F3输入原型提取(ProtoType)模块，进行原型提取确定出原型特征图，将第三卷积层对应的融合后特征向量F3、第四卷积层对应的融合后特征向量F4和第五卷积层对应的融合后特征向量F5输入类型预测(PredictionType)模块进行卷积层得到预测的类型，融合原型特征图和类型得到预测的地面分割图，并进行非极大值抑制处理(non maximum suppression，NMS)，确定出融合后结果最大的地面分割图。

实施例8：

图8为本发明实施例提供的一种地面分割网络模型的训练装置的结构示意图，在上述各实施例的基础上，本发明实施例还提供一种地面分割网络模型的训练装置，所述装置包括：

提取模块801，用于获取包含地面信息的红绿蓝RGB图像和对应的深度图像，基于所述深度图像确定水平高度角度编码HHA图像中的地面高度通道H图像，并输入原始地面分割网络模型进行多阶段特征提取，提取所述原始地面分割网络模型中多个卷积层对应的所述H图像的H特征向量和所述RGB图像的RGB特征向量；

融合模块802，用于基于所述原始地面分割网络模型，对预设卷积层到末端卷积层中每个卷积层对应的所述H特征向量和所述RGB特征向量进行深度注意力机制融合处理，得到融合后特征向量；

预测模块803，用于基于所述原始地面分割网络模型，对所述预设卷积层对应的融合后特征向量进行卷积和上采样得到原型特征图，对所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量进行卷积得到预测的类型，其中所述原型为所述RGB图像中待分割目标的初始轮廓，所述类型包括人体轮廓类型、物体轮廓类型以及地面轮廓类型，融合所述原型特征图和预测的所述类型得到预测的地面分割图，并根据所述预测的地面分割图得到训练完成的地面分割网络模型。

实施例9：

图9为本发明实施例提供的一种电子设备结构示意图，在上述各实施例的基础上，本发明实施例中还提供了一种电子设备，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信；

所述存储器903中存储有计算机程序，当所述程序被所述处理器901执行时，使得所述处理器901执行如下步骤：

基于所述原始地面分割网络模型，对所述预设卷积层对应的融合后特征向量进行卷积和上采样得到原型特征图，对所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量进行卷积得到预测的类型，其中所述原型为所述RGB图像中待分割目标的初始轮廓，所述类型包括人体轮廓类型、物体轮廓类型以及地面轮廓类型，融合所述原型特征图和预测的所述类型得到预测的地面分割图，并根据所述预测的地面分割图得到训练完成的地面分割网络模型。

进一步地，所述处理器901具体用于所述提取所述原始地面分割网络模型中多个卷积层对应的所述H图像的H特征向量和所述RGB图像的RGB特征向量包括：

进一步地，所述处理器901具体用于所述对预设卷积层对应的H特征向量进行自注意力机制处理得到对应的自注意力特征向量包括：

对预设卷积层对应的H特征向量进行平均池化、卷积、非线性激活和S型生长曲线sigmoid函数激活，得到所述H特征向量每个维度的权重，将所述权重与所述H特征向量相乘得到对应的自注意力特征向量；

进一步地，所述处理器901具体用于所述对所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量进行卷积得到预测的类型包括：

进一步地，所述处理器901具体用于所述融合所述原型特征图和预测的所述类型得到预测的地面分割图包括：

进一步地，所述处理器901具体用于所述根据所述预测的地面分割图得到训练完成的地面分割网络模型包括：

进一步地，所述处理器901具体用于所述基于所述深度图像确定水平高度角度编码HHA图像中的地面高度通道H图像包括：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口902用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例10：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行如下步骤：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种地面分割网络模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取所述原始地面分割网络模型中多个卷积层对应的所述H图像的H特征向量和所述RGB图像的RGB特征向量包括：

3.根据权利要求2所述的方法，其特征在于，所述对预设卷积层对应的H特征向量进行自注意力机制处理得到对应的自注意力特征向量包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述预设卷积层到所述末端卷积层中每个卷积层对应的融合后特征向量进行卷积得到预测的类型包括：

5.根据权利要求4所述的方法，其特征在于，所述融合所述原型特征图和预测的所述类型得到预测的地面分割图包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述预测的地面分割图得到训练完成的地面分割网络模型包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述深度图像确定水平高度角度编码HHA图像中的地面高度通道H图像包括：

根据所述目标方向向量、所述预设相机坐标系中Y轴的单位向量，确定所述单位向量对应方向所述目标方向向量对应方向旋转的旋转矩阵，并确定所述每个像素点的目标世界坐标组成的矩阵与所述旋转矩阵相乘的乘积矩阵；

8.一种地面分割网络模型的训练装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1-7一项所述方法。

10.一种计算机可读存储介质，其特征在于，其存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行权利要求1-7任一项所述方法。