CN113936268A

CN113936268A - 用于轨道车辆的障碍物检测方法、计算机设备及存储介质

Info

Publication number: CN113936268A
Application number: CN202111542336.7A
Authority: CN
Inventors: 李宁; 陈国芳
Original assignee: BYD Co Ltd
Current assignee: BYD Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-01-14
Anticipated expiration: 2041-12-16
Also published as: CN113936268B

Abstract

本申请提供用于轨道车辆的障碍物检测方法、计算机设备及存储介质，本申请技术方案基于卷积神经网络构建多任务模型，能够同时给出多个任务目标期望的输出结果，对多任务模型输入样本图像，即可快速输出图像预测，再通过损失函数加权结合方法动态调节不同任务之间的损失值，保证模型的稳定训练，基于完成训练的多任务模型中进行障碍物检测，采用基于目标检测模型的算法和基于语义分割模型的算法相结合的方式，安全性较高，并且简单高效，计算量较低，减轻了系统负担，降低了系统成本。

Description

用于轨道车辆的障碍物检测方法、计算机设备及存储介质

技术领域

本发明涉及轨道车辆技术领域，尤其涉及一种用于轨道车辆的障碍物检测方法、计算机设备及存储介质。

背景技术

目前，为了保障轨道车辆在行驶过程中的安全性，需要在轨道车辆中设置障碍物感知系统，该障碍物感知系统为基于车载视觉传感器和终端处理系统的自主感知系统。应用于该系统的轨道交通障碍物检测算法，目前有基于传统数字图像处理的算法、基于目标检测模型的算法、基于语义分割模型的算法以及三者相互结合的方法。其中，基于传统数字图像处理的方法对于复杂的轨道交通场景，鲁棒性严重不足，不适用于对安全和稳定要求较高的轨道交通。基于目标检测或者语义分割的单模型方法，仅能完成碍物位置和类别的检测任务，无法实现对轨道限界区域的精确划分。基于语义分割模型的算法虽然能从图像中分割出轨道限界区域，但无法对障碍物对象进行计数。结合目标检测和语义分割的多模型方法，尽管可以较好的完成轨道障碍物识别的任务，但是对终端处理系统的算力消耗十分巨大，增加了系统成本，因此，上述算法存在安全性不高、实用性不足、计算消耗巨大以及系统成本高的问题。

发明内容

本发明实施例提供一种用于轨道车辆的障碍物检测方法、计算机设备及存储介质，以解决现有技术中轨道车辆障碍物检测算法存在安全性不高、实用性不足、计算消耗巨大以及系统成本高的问题。

本申请第一方面提供一种用于轨道车辆的障碍物检测方法，包括：

控制轨道车辆上的摄像头进行图像采集获得多个样本图像，并将多个所述样本图像构建数据集，根据所述数据集构建训练集和验证集；

将所述训练集输入多任务模型以对图像进行预测，其中，所述多任务模型包括特征提取模块、融合门控模块、目标检测分支模块以及语义分割分支模块；

根据预测结果和所述验证集对所述多任务模型进行训练；

将实时图像输入至完成训练的多任务模型中进行障碍物检测。

本申请第二方面提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明第一方面所述方法的步骤。

本申请第三方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述方法的步骤。

本申请提供用于轨道车辆的障碍物检测方法、计算机设备及存储介质，障碍物检测方法包括获取样本图像并构建数据集，根据数据集构建训练集和验证集；将训练集输入多任务模型中进行预测，根据预测结果和验证集对多任务模型进行训练；将实时图像输入至完成训练的多任务模型中进行障碍物检测。本申请技术方案基于卷积神经网络构建多任务模型，能够同时给出多个任务目标期望的输出结果，对多任务模型输入样本图像，即可快速输出图像预测，再通过损失函数加权结合方法动态调节不同任务之间的损失值，保证模型的稳定训练，基于完成训练的多任务模型中进行障碍物检测，采用基于目标检测模型的算法和基于语义分割模型的算法相结合的方式，安全性较高，并且简单高效，计算量较低，减轻了系统负担，降低了系统成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中一种用于轨道车辆的障碍物检测方法的一流程图；

图2是本发明一实施例中一种用于轨道车辆的障碍物检测方法中的多任务模块的结构示意图；

图3是本发明一实施例中一种用于轨道车辆的障碍物检测方法中多任务模块中的特征提取模块的工作流程图；

图4是本发明一实施例中一种用于轨道车辆的障碍物检测方法中多任务模块的具体结构示意图；

图5是本发明一实施例中一种用于轨道车辆的障碍物检测方法中多任务模块中的融合门控模块的工作流程图；

图6是本发明一实施例中一种用于轨道车辆的障碍物检测方法中多任务模块中的融合门控模块的结构示意图；

图7是本发明一实施例中一种用于轨道车辆的障碍物检测方法中多任务模块中的目标检测分支模块的工作流程图；

图8是本发明一实施例中一种用于轨道车辆的障碍物检测方法中多任务模块中的语义分割分支模块的工作流程图；

图9是本发明一实施例中一种用于轨道车辆的障碍物检测方法的另一流程图；

图10是本发明一实施例中一种用于轨道车辆的障碍物检测方法中的步骤S104中的障碍物检测示意图；

图11是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供一种用于轨道车辆的障碍物检测方法，可应用于车载控制器中，基于轨道车辆上的摄像头获取图像，构建多任务模型对图像进行预测，基于多任务模型输出的预测结果训练多任务模型，根据训练好的模型对障碍物进行精确检测。

在一实施例中，如图1所示，提供一种用于轨道车辆的障碍物检测方法，包括步骤S101、步骤S102、步骤S103以及步骤S104，具体步骤如下：

步骤S101.控制轨道车辆上的摄像头进行图像采集获得多个样本图像，并将多个样本图像构建数据集，根据数据集构建训练集和验证集。

其中，本步骤的目的是基于采集的多个样本图像构建学习数据集，多个样本图像是由搭载在轨道车辆上的摄像头拍摄车辆前进方向的场景得到的不同轨道场景内容的图像，数据集包括样本图像以及样本图像上的人工标注。

其中，将多个样本图像构建数据集，根据数据集构建训练集和验证集，包括：

步骤S111.对多个样本图像进行标注，根据标注后的样本图像构建数据集。

步骤S112.根据预设比例系数将图像划分为训练集和验证集。

其中，对样本图像进行标注包括对图像上具体的类别对象的位置坐标和类别进行标注，例如，对每幅样本图像的标注包括对人、材料、火车、汽车、自行车、摩托车共计6个类别对象在图像中的位置坐标和类别标签进行标注。其次，对每幅样本图像的标注包括对轨道车辆前方行驶区域的限界在图像中所构成的不规则多边形区域进行标注。预设比例系数是指将数据集划分为训练集和验证集其所包含的图像数据量的比例，例如，该预设比例可以为3:1。

步骤S102.将训练集输入多任务模型中进行预测，其中，多任务模型包括特征提取模块、融合门控模块、目标检测分支模块以及语义分割分支模块。

其中，如图2所示，本步骤的目的是通过构建多任务模型对训练集中的采样图像进行预测，以训练集中的轨道场景样本图像作为输入，依次经过特征提取模块（FEM，Featureextraction module）10，融合门控模块（FG，Fusion gate）20，目标检测分支模块（DB，Detection Branch）30和语义分割分支模块（SB，Segmentataon Branch）40的计算，最终由目标检测分支模块30输出对输入样本图像中存在的类别对象位置预测和类别标签预测，以及由语义分割分支模块40输出输入样本图像对应的像素掩膜预测。

其中，如图3所示，特征提取模块10的工作流程包括：

步骤S121.将训练集中的样本图像进行初步特征提取。

其中，本步骤中将样本图像的维度进行提升，并通过批归一化和非线性整流单元将其激活，以进行初步特征提取。

步骤S122.将经过初步特征提取后的样本图像输入残差神经网络中，对样本图像进行深度特征提取。

其中，残差神经网络包括特征提取和降采样操作阶段，每个阶段残差神经网络均包括残差模块、阶段跳跃连接以及最大值池化层。例如，残差神经网络具体搭建过程是先按照输入层，卷积层1、卷积层2、池化层1，卷积层3、卷积层4、池化层2……卷积层19、卷积层20、池化层10、全连接层1，全连接层2，全连接层3和输出层的形式搭建普通卷积神经网络；然后添加残差模块，使得输入层不但作为卷积层1的输入，还同时作为卷积层3的输入，卷积层1的输出不但作为卷积层2的输入，还同时作为卷积层4的输入；以此类推，通过残差块的跳跃连接使得上一层的输出不但作为下一层的输入还同时跳过中间一层作为后一层的输入，即由传统卷积神经网络的一次输出就是一次输入变成了一次输出为两次输入，进而实现对样本图像进行深度特征提取。

步骤S123.将残差神经网络中每个上采样卷积单元输出的特征图输入至衔接模块，以分别对每个上采样卷积单元输出的特征图按照预设长宽尺度和预设通道维度进行采样，再对每个上采样卷积单元输出的特征图进行拼接。

其中，残差神经网络中相邻的卷积层构成上采样卷积单元，将每个上采样卷积单元输出的特征图输入衔接模块，衔接模块由多个不同膨胀率的空洞卷积构成，衔接模块将其每个上采样卷积单元输出的特征图按照统一长宽尺度和通道维度进行采样，最后对处理后的每个上采样卷积单元的特征图进行拼接。

对于特征提取模块10，参照图4，FEM模块10包括五个阶段，其中第一阶段Input为输入阶段，包含两个核大小为3*3的卷积层，第一阶段将输入图像的维度从3提升到64，并通过批归一化和非线性整流单元将其激活。第二阶段到第四阶段为三个上采样卷积单元通过三次特征提取和降采样操作阶段，将输入图像的维度从64提升到512，这个过程中包括残差模块，残差模块进行阶段跳跃以及经过最大值池化层。第五个阶段为三个上采样卷积单元输出特征图像至衔接模块，衔接模块由三个卷积层不同膨胀率的空洞卷积构成，将每个上层卷积单元输出的特征图像采样到统一长宽尺度和512个通道维度，最后再对其进行拼接，作为后续融合门控模块20的输入。

其中，如图5所示，融合门控模块20的工作过程包括：

步骤S124.将特征提取模块输出的特征图通过残差模块后的输出与嵌入残差模块中的SE子模块的输出进行注意力加权。

其中，SE子模块(残差模块嵌入Sequeeze-and-Excitation子结构)用于通过网络根据LOSS去学习特征权重，对特征提取模块输出的特征图进行注意力加权，使得有效的特征图权重大，无效或效果小的特征图权重小，以达到更好的输出结果。

步骤S125.将注意力加权后的特征图依次经过多个不同层级的CTBL模块得到多个预设长宽尺度的特征图，其中，CTBL模块包括依次连接的反卷积单元、批归一化单元以及激活函数单元。

步骤S126.分别将每个预设长宽尺度的特征图经过与其对应的卷积单元和Sigmoid激活函数后得到空间注意力加权矩阵。

对于融合门控模块20，如图6所示，CBL模块包括依次连接的卷积单元、批归一化单元以及激活函数单元，CTBL模块包括依次连接的反卷积单元、批归一化单元以及激活函数单元，SE子模块包括第一全连接层、激活函数单元、第二全连接层以及池化层，特征提取模块输出的特征图经过残差模块后与SE子模块输出的通道加权向量相乘，进行注意力加权，再分别经过三个不同层级的CTBL模块，将特征图分别反卷积到1024维度、512维度以及256维度，每个维度的特征图再通过两个相同的卷积单元和Sigmoid激活函数，输出用于目标检测分支模块和语义分割分支模块的空间注意力加权矩阵。

其中，如图4所示，目标检测分支模块30包括多个依次连接的下采样卷积单元，如图7所示，目标检测分支模块30的工作过程包括：

步骤S127.通过第一个下采样卷积单元将特征提取模块输出的特征图与空间注意力加权矩阵相乘后输出至第二个下采样卷积单元。

步骤S128.通过第二个下采样卷积单元将与其对应的上采样卷积单元输出的特征图与第一个下采样卷积单元输出的特征图进行叠加，将叠加后的特征图与空间注意力加权矩阵相乘，作为下一个下采样卷积单元的输入，以此类推，直至最后一个下采样卷积单元。

步骤S129.将最后一个下采样卷积单元输出的特征图输入至Anchor-free目标检测模型，得到样本图像的类别预测和位置预测。

其中，残差神经网络包括多个上采样卷积单元，与其对应的下采样卷积单元是指与上采样卷积单元通道数相同的下采样卷积单元，例如，目标检测分支模块中包括三个依次连接的第一下采样卷积单元、第二下采样卷积单元以及第三下采样卷积单元，其中，第一下采样卷积单元将特征提取模块输出的特征图与融合门控模块输出的注意力加权矩阵相乘后输出给第二下采样卷积单元。第二下采样卷积单元接收残差神经网络中与其通道数相同的上采样卷积单元输出的特征图，将该特征图与第一个下采样卷积单元输出的特征图进行叠加，实现特征融合，再将叠加后的特征图与空间注意力加权矩阵相乘，空间注意力加权矩阵对特征图每个位置进行重要程度进行调整，使模型关注到更多值得关注的区域上。

其中，Anchor-free目标检测模型可以为YOLOv1模型、YOLOv2模型或者YOLOv3模型，通过将模型的输出划分成网格形状，每个网格中的格子都可以输出物体的类别和位置坐标。

对于目标检测分支模块30，如图4所示，目标检测分支模块30包括第一下采样卷积单元D3、第二下采样卷积单元D2、第三下采样卷积单元D1，第一下采样卷积单元D3将特征提取模块输出的特征图与融合门控模块输出的注意力加权矩阵相乘后输出给第二下采样卷积单元D2，第二下采样卷积单元D2将残差神经网络中通道数为512的上采样卷积单元输出的特征图与第一下采样卷积单元D3输出的特征图进行叠加后再与空间注意力加权矩阵相乘，并输出给第三下采样卷积单元D1，第三下采样卷积单元D1将残差神经网络中通道数为256的上采样卷积单元输出的特征图与第二下采样卷积单元D2输出的特征图进行叠加后再与空间注意力加权矩阵相乘，并输出输入至Anchor-free目标检测模型，得到样本图像的类别预测和位置预测。

其中，如图4所示，语义分割分支模块包括多个依次连接的下采样卷积单元，如图8所示，语义分割分支模块用于：

步骤S130.通过第一个下采样卷积单元将特征提取模块输出的特征图与空间注意力加权矩阵相乘后输出至第二个下采样卷积单元。

步骤S131.通过第二个下采样卷积单元将与其对应的上采样卷积单元输出的特征图与第一个下采样卷积单元输出的特征图进行叠加，将叠加后的特征图与空间注意力加权矩阵相乘，作为下一个下采样卷积单元的输入，以此类推，直至最后一个下采样卷积单元。

步骤S132.将最后一个下采样卷积单元输出的特征图输入至FCN模型，得到样本图像的每个像素点的分类概率预测。

其中，步骤S130与步骤S127相同，步骤S131与步骤S128相同，在此不再赘述，步骤S132中， FCN 即全卷积神经网络（Fully Convolutional Networks），将特征图输入至FCN模型，得到样本图像的每个像素点的分类概率预测。

对于语义分割分支模块40，如图4所示，语义分割分支模块40包括第四下采样卷积单元S3、第五下采样卷积单元S2、第六下采样卷积单元S1，第四下采样卷积单元S3将特征提取模块输出的特征图与融合门控模块输出的注意力加权矩阵相乘后输出给第五下采样卷积单元S2，第五下采样卷积单元S2将残差神经网络中通道数为512的上采样卷积单元输出的特征图与第四下采样卷积单元S3输出的特征图进行叠加后再与空间注意力加权矩阵相乘，并输出给第六下采样卷积单元S1，第六下采样卷积单元S1将残差神经网络中通道数为256的上采样卷积单元输出的特征图与第五下采样卷积单元S2输出的特征图进行叠加后再与空间注意力加权矩阵相乘，并输出输入至FCN模型，得到样本图像的类别预测和位置预测。

步骤S103.根据验证集和预测结果对预设模型进行训练。

其中，步骤S103包括：

将预测结果与标注图像通过损失函数计算损失值，将损失值在多任务模型中进行反向传播和反复迭代，根据验证集确定最终完成训练的多任务模型。

其中，将预测结果与标注图像通过损失函数计算损失值，包括：

将目标检测分支模块输出的预测结果和其对应的标注图像使用以下公式计算目标检测损失

：

其中，

为分类损失，

为目标检测分支模块输出的将目标预测为某一正确类别的概率，

为调节因子；

为回归损失，P为预测目标框，G为标注的目标框，

表示预测目标框中心点

与标注目标框中心点

之间的距离；

根据语义分割分支模块输出的结果通过以下计算公式计算语义分割损失

：

其中，N为所预测图像的像素个数，

为所预测图像的标签中轨道限界区域的像素个数，

为一个平衡背景与轨道区域前景的权重，

为对于像素位置的真实标签one-hot向量，

为模型预测该像素为正确类别的概率；

根据以下计算公式结算损失值L：

其中，

为动态调节参数。

其中，为了提高多任务模型在训练过程中的稳定性，避免由两个不同任务损失差距较大而造成的部分任务无法优化问题，需要引入平衡系数来计算总的损失L：

上式中，通过将

和

之间的差距映射到0~1之间，来获取动态调节的参数

，最终动态调节

和

也并非仅仅给小值加大，将大值变小，而是通过一种中间调和的方法，使得两部分损失接近。

通过上述损失函数的优化，可得到一个在验证集上评价指标较高的预训练模型，使用该模型进行推理，即可对任意轨道场景图像进行预测，识别其中的可行驶区域限界以及可能存在的物体。

步骤S104.将实时图像输入至完成训练的多任务模型中进行障碍物检测。

其中，如图9所示，将实时图像输入至完成训练的多任务模型中进行障碍物检测，之后还包括：

步骤S141.多任务模型输出多个预测目标框以及预测轨道界限。

步骤S142.判断预测目标框的中心点是否预测轨道界限内。

步骤S143.当判定结果为是时，将预测目标框标记为障碍物。

步骤S144.当判定结果为否时，获取与目标框的中心点与轨道界限的边界点之间的最小距离，当最小距离小于预测目标框对角线长度的一半时，将预测目标框标记为障碍物。

其中，多任务模型输出了轨道场景图像中的限界区域以及可能的目标物类别和位置，为了完成障碍物感知，还需对模型检测出的目标物是否在限界内进行判别，以此来区分障碍物和潜在障碍物。该判断方法分为两个阶段，粗判别阶段和细判别阶段，粗判别阶段首先通过计算潜在障碍物中心点是否在轨道限界内部，在内部的潜在障碍物均将被视为障碍物，如图10中的障碍物1，其他潜在障碍物将被送入细判别阶段。在细判别阶段，首先找到与潜在障碍物中心点最近的限界边界点，若中心点到该边界点的距离D小于潜在障碍物外接矩对角线长度的一半，则将其视为障碍物，如图10中的障碍物2。通过两个判别阶段的筛选，即可快速准确的找出图像中存在的轨道交通障碍物。

本申请提供用于轨道车辆的障碍物检测方法、计算机设备及存储介质，障碍物检测方法包括获取样本图像并构建数据集，根据数据集构建训练集和验证集；将训练集输入多任务模型中进行预测，根据预测结果和验证集对多任务模型进行训练；将实时图像输入至完成训练的多任务模型中进行障碍物检测。本申请技术方案基于卷积神经网络构建多任务模型，能够同时给出多个任务目标期望的输出结果，对多任务模型输入样本图像，即可快速输出图像预测，再通过损失函数加权结合方法动态调节不同任务之间的损失值，保证模型的稳定训练，基于完成训练的多任务模型中进行障碍物检测，本申请提出了一种多任务模型结构，使用一种带有门控加权的分支结构，强化多任务模型的特征融合过程，同时提出了一种多任务模型损失函数加权结合方法，动态调节不同任务之间的损失值，保证模型的稳定训练，最后，提出了基于多任务模型输出结果的障碍物判别方法，完成了轨道交通障碍物感知任务。由于采用基于目标检测模型的算法和基于语义分割模型的算法相结合的方式，安全性较高，并且简单高效，计算量较低，减轻了系统负担，降低了系统成本。

在一个实施例中，如图11所示，提供了一种计算机设备，包括非易失性存储介质、处理器及存储在非易失性存储介质上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的障碍物检测方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的障碍物检测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。