CN111091164A

CN111091164A - 基于ohem的语义分割模型训练方法及其系统

Info

Publication number: CN111091164A
Application number: CN202010215590.5A
Authority: CN
Inventors: 袁施薇; 李发成; 张如高; 虞正华
Original assignee: Motovis Technology Shanghai Co ltd
Current assignee: Motovis Technology Shanghai Co ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-05-01

Abstract

本发明涉及一种基于ohem的语义分割模型训练方法，包括以下步骤：一、计算每个类别的损失函数：二、将每个类别的损失函数进行加权平均，得到最终的分割损失函数；三、使用梯度反传策略对所述语义分割模型进行迭代优化。本发明针对在分割任务中正负样本比例严重不均匀时模型效果较差的问题，提出一种新的分割模型训练方法，该方法平衡正负样本比例对模型进行训练，加大正样本在训练过程中的权重，优选选取难样本，提高了分割任务的效果和训练速度。

Description

基于ohem的语义分割模型训练方法及其系统

技术领域

本发明涉及语义分割技术领域，尤其涉及一种基于ohem的语义分割模型训练方法及其系统。

背景技术

随着计算机视觉的发展，更多基于视觉的感知技术在业界得到了应用，常用的目标识别技术包括目标检测、语义分割、实例分割等，帮助任务定位和识别目标信息，以完成后续工作，例如自动驾驶。如何得到更加精准地检测边界框、如何得到更加精准的分割图，也是学术界和业界的重要研究方向，现已提出很多提升技巧。其中，语义检测任务是指，输入一张图片，分类图片中每个像素点的类别，得到与原图对应的分割图，从而根据这些类别信息完成后续任务。例如我们得到车辆行驶途中前方图片，进而得到行人的分割图，根据相机内参得到与行人的距离，提前做出预警以防撞上。然而，行人相对于图片总体像素而言，所占比例较小，这种不平衡会使得分割模型训练结果比较差。

发明内容

基于此，针对上述技术问题，提供一种基于ohem的语义分割模型训练方法及其系统。

为解决上述技术问题，本发明采用如下技术方案：

一种基于ohem的语义分割模型训练方法，包括以下步骤：

一、计算每个类别的损失函数：

a、将样本图片输入语义分割模型，得到图片中各像素属于各类别的置信度p；

b、取对于当前类别的所有正样本像素点，通过公式（1）计算损失函数：

（1），

其中，

表示样本像素点标签,

表示像素点的像素坐标；

c、从剩下的所有负样本像素点中按置信度由大到小的顺序，且按照正负样本数量1：m的比例取出负样本像素点，并通过公式（1）计算损失函数,m>1；

二、将每个类别的损失函数进行加权平均，得到最终的分割损失函数；

三、通过步骤二得到分割损失函数，使用梯度反传策略对所述语义分割模型进行迭代优化。

所述语义分割模型采用Deeplabv3+模型。

在步骤一中：

若正样本像素点数量过少，即n<

/（1+m）时，则在步骤b中取对于当前类别的所有正样本像素点，在步骤c中按置信度由大到小取出

个负样本像素点，并按置信度由大到小取部分负样本像素点作为正样本像素点，以满足正样本像素点最小选取数

/(m+1)；

若正样本像素点数量过多，即（1+m）*n大于所有像素点的数量，则在步骤c中取出所有负样本像素点；

其中，n为步骤b中所取的正样本像素点的数量，

为预设的负样本像素点最小选取数量。

所述m为3。

本发明还涉及一种基于ohem的语义分割模型训练系统，包括存储模块，所述存储模块包括由处理器加载并执行的多条指令：

一、计算每个类别的损失函数：

（1），

其中，

表示样本像素点标签,

表示像素点的像素坐标；

所述语义分割模型采用Deeplabv3+模型。

在步骤一中：

若正样本像素点数量过少，即n<

/(m+1)；

其中，n为步骤b中所取的正样本像素点的数量，

为预设的负样本像素点最小选取数量。

所述m为3。

本发明针对在分割任务中正负样本比例严重不均匀时模型效果较差的问题，提出一种新的分割模型训练方法，该方法平衡正负样本比例对模型进行训练，加大正样本在训练过程中的权重，优选选取难样本，提高了分割任务的效果和训练速度。

附图说明

下面结合附图和具体实施方式对本发明进行详细说明：

图1为本发明的流程图；

图2为路沿分割图；

图3为车道线分割图。

具体实施方式

如图1所示，一种基于ohem的语义分割模型训练方法，包括以下步骤：

S101、计算每个类别的损失函数：

a、将样本图片输入语义分割模型，得到图片中各像素属于各类别的置信度p。

在本实施例中，语义分割模型采用Deeplabv3+模型。

将像素尺寸为3*H*W样本图片输入Deeplabv3+模型，会得到一个输出N*H*W，其中，H和W是图片的高和宽，N表示图片输出通道（channel）的数量，即模型将该图片分割的语义类别的数量，具体来说，每个输出通道分别表示每个像素点是否属于某个类别的置信度，置信度的值分布在0-1之间。

（1），

其中，

表示样本像素点标签,该标签在采集样本图片之后由人工标注，对于当前类别来说，以路沿为例，路沿的像素点标注为1，非路沿的像素点标注为0，

表示像素点的像素坐标，E是均值函数。

c、对剩下的所有负样本像素点按置信度由大到小进行排序，按置信度由大到小的顺序，以正负样本数量1：m的比例取出负样本像素点，并通过公式（1）计算损失函数。

其中，m是大于1的数，一般取3左右。

以路沿以及车道线为例，在进行分割时，往往是负样本数量远远大于正样本数量的情况，如图2以及图3所示，路沿以及车道线的像素数量远远小于其他像素的数量，对于一个车道线的分割图来说，车道线的像素点是正样本，而其他像素点是负样本。故在本发明中，我们在步骤b中取所有的正样本像素点，正样本的数量为n时，步骤c中取出的负样本像素点数量为m*n，m*n的数量是远远小于负样本总数量的，因此，本发明按照正负样本数量1：m的比例取出负样本，相比传统的训练方法中取出所有正负样本的方式，减少了负样本的数量，达到均衡正负样本的目的，此外，按置信度由大到小的顺序取负样本是为了挑选难样本，这样对模型训练更加有帮助。

若正样本像素点数量过少，即n<

/（1+m）时，则在步骤b中取对于当前类别的所有正样本像素点，在步骤c中按置信度由大到小取出个负样本像素点，并按置信度由大到小取部分负样本像素点作为正样本像素点，以满足正样本像素点最小选取数

/(m+1)，即取所有正样本像素点以及部分负样本像素点计算损失函数，这样可以使样本像素点较为均衡，加速有效训练。n为步骤b中所取的正样本像素点的数量，

为预设的负样本像素点最小选取数量。

若正样本数量过多时，即（1+m）*n大于所有像素点的数量（H*W），则在步骤c中取出所有负样本像素点。

在本实施例中，m取3。若步骤b取的正样本的数量为n，则取出的负样本像素点数量为3*n。

S102、将每个类别的损失函数进行加权平均，得到最终的分割损失函数,该函数用于步骤S103的梯度反传。

其中，进行加权平均的权重为超参数，超参数在训练模型之前进行设定，一般设为1/n，n代表类别的数量，如果某个类的效果不好，则提高该类的权重，所有类的权重和为1。

S103、通过步骤S102得到分割损失函数，使用梯度反传策略对语义分割模型进行迭代优化。

具体来说，损失函数衡量模型的预测和目标差距的度量，更新模型使得该损失函数更小，而梯度反传是通用的模型优化方法，不断迭代优化模型，使得模型的损失函数较小，训练结束。

S101、计算每个类别的损失函数：

在本实施例中，语义分割模型采用Deeplabv3+模型。

（1），

其中，

表示像素点的像素坐标，E是均值函数。

其中，m是大于1的数，一般取3左右。

若正样本像素点数量过少，即n<

/(m+ 1)，即取所有正样本像素点以及部分负样本像素点计算损失函数，这样可以使样本像素点较为均衡，加速有效训练。n为步骤b中所取的正样本像素点的数量，为预设的负样本像素点最小选取数量。

本发明基于在线难样本挖掘技术（OHEM，online hard example mining），针对在分割任务中正负样本比例严重不均衡时模型效果较差的问题，提出一种新的分割模型训练方法，该方法平衡正负样本比例对模型进行训练，优选选取难样本，加大正样本在训练过程中的权重，提高了分割任务的效果和训练速度。

但是，本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。