CN111091164A - 基于ohem的语义分割模型训练方法及其系统 - Google Patents
基于ohem的语义分割模型训练方法及其系统 Download PDFInfo
- Publication number
- CN111091164A CN111091164A CN202010215590.5A CN202010215590A CN111091164A CN 111091164 A CN111091164 A CN 111091164A CN 202010215590 A CN202010215590 A CN 202010215590A CN 111091164 A CN111091164 A CN 111091164A
- Authority
- CN
- China
- Prior art keywords
- pixel points
- sample pixel
- loss function
- semantic segmentation
- segmentation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于ohem的语义分割模型训练方法,包括以下步骤:一、计算每个类别的损失函数:二、将每个类别的损失函数进行加权平均,得到最终的分割损失函数;三、使用梯度反传策略对所述语义分割模型进行迭代优化。本发明针对在分割任务中正负样本比例严重不均匀时模型效果较差的问题,提出一种新的分割模型训练方法,该方法平衡正负样本比例对模型进行训练,加大正样本在训练过程中的权重,优选选取难样本,提高了分割任务的效果和训练速度。
Description
技术领域
本发明涉及语义分割技术领域,尤其涉及一种基于ohem的语义分割模型训练方法及其系统。
背景技术
随着计算机视觉的发展,更多基于视觉的感知技术在业界得到了应用,常用的目标识别技术包括目标检测、语义分割、实例分割等,帮助任务定位和识别目标信息,以完成后续工作,例如自动驾驶。如何得到更加精准地检测边界框、如何得到更加精准的分割图,也是学术界和业界的重要研究方向,现已提出很多提升技巧。其中,语义检测任务是指,输入一张图片,分类图片中每个像素点的类别,得到与原图对应的分割图,从而根据这些类别信息完成后续任务。例如我们得到车辆行驶途中前方图片,进而得到行人的分割图,根据相机内参得到与行人的距离,提前做出预警以防撞上。然而,行人相对于图片总体像素而言,所占比例较小,这种不平衡会使得分割模型训练结果比较差。
发明内容
基于此,针对上述技术问题,提供一种基于ohem的语义分割模型训练方法及其系统。
为解决上述技术问题,本发明采用如下技术方案:
一种基于ohem的语义分割模型训练方法,包括以下步骤:
一、计算每个类别的损失函数:
a、将样本图片输入语义分割模型,得到图片中各像素属于各类别的置信度p;
b、取对于当前类别的所有正样本像素点,通过公式(1)计算损失函数:
c、从剩下的所有负样本像素点中按置信度由大到小的顺序,且按照正负样本数量1:m的比例取出负样本像素点,并通过公式(1)计算损失函数,m>1;
二、将每个类别的损失函数进行加权平均,得到最终的分割损失函数;
三、通过步骤二得到分割损失函数,使用梯度反传策略对所述语义分割模型进行迭代优化。
所述语义分割模型采用Deeplabv3+模型。
在步骤一中:
若正样本像素点数量过少,即n</(1+m)时,则在步骤b中取对于当前类别的所有正
样本像素点,在步骤c中按置信度由大到小取出个负样本像素点,并按置信度由大到小
取部分负样本像素点作为正样本像素点,以满足正样本像素点最小选取数/(m+1);
若正样本像素点数量过多,即(1+m)*n大于所有像素点的数量,则在步骤c中取出所有负样本像素点;
所述m为3。
本发明还涉及一种基于ohem的语义分割模型训练系统,包括存储模块,所述存储模块包括由处理器加载并执行的多条指令:
一、计算每个类别的损失函数:
a、将样本图片输入语义分割模型,得到图片中各像素属于各类别的置信度p;
b、取对于当前类别的所有正样本像素点,通过公式(1)计算损失函数:
c、从剩下的所有负样本像素点中按置信度由大到小的顺序,且按照正负样本数量1:m的比例取出负样本像素点,并通过公式(1)计算损失函数,m>1;
二、将每个类别的损失函数进行加权平均,得到最终的分割损失函数;
三、通过步骤二得到分割损失函数,使用梯度反传策略对所述语义分割模型进行迭代优化。
所述语义分割模型采用Deeplabv3+模型。
在步骤一中:
若正样本像素点数量过少,即n</(1+m)时,则在步骤b中取对于当前类别的所有正
样本像素点,在步骤c中按置信度由大到小取出个负样本像素点,并按置信度由大到小
取部分负样本像素点作为正样本像素点,以满足正样本像素点最小选取数/(m+1);
若正样本像素点数量过多,即(1+m)*n大于所有像素点的数量,则在步骤c中取出所有负样本像素点;
所述m为3。
本发明针对在分割任务中正负样本比例严重不均匀时模型效果较差的问题,提出一种新的分割模型训练方法,该方法平衡正负样本比例对模型进行训练,加大正样本在训练过程中的权重,优选选取难样本,提高了分割任务的效果和训练速度。
附图说明
下面结合附图和具体实施方式对本发明进行详细说明:
图1为本发明的流程图;
图2为路沿分割图;
图3为车道线分割图。
具体实施方式
如图1所示,一种基于ohem的语义分割模型训练方法,包括以下步骤:
S101、计算每个类别的损失函数:
a、将样本图片输入语义分割模型,得到图片中各像素属于各类别的置信度p。
在本实施例中,语义分割模型采用Deeplabv3+模型。
将像素尺寸为3*H*W样本图片输入Deeplabv3+模型,会得到一个输出N*H*W,其中,H和W是图片的高和宽,N表示图片输出通道(channel)的数量,即模型将该图片分割的语义类别的数量,具体来说,每个输出通道分别表示每个像素点是否属于某个类别的置信度,置信度的值分布在0-1之间。
b、取对于当前类别的所有正样本像素点,通过公式(1)计算损失函数:
c、对剩下的所有负样本像素点按置信度由大到小进行排序,按置信度由大到小的顺序,以正负样本数量1:m的比例取出负样本像素点,并通过公式(1)计算损失函数。
其中,m是大于1的数,一般取3左右。
以路沿以及车道线为例,在进行分割时,往往是负样本数量远远大于正样本数量的情况,如图2以及图3所示,路沿以及车道线的像素数量远远小于其他像素的数量,对于一个车道线的分割图来说,车道线的像素点是正样本,而其他像素点是负样本。故在本发明中,我们在步骤b中取所有的正样本像素点,正样本的数量为n时,步骤c中取出的负样本像素点数量为m*n,m*n的数量是远远小于负样本总数量的,因此,本发明按照正负样本数量1:m的比例取出负样本,相比传统的训练方法中取出所有正负样本的方式,减少了负样本的数量,达到均衡正负样本的目的,此外,按置信度由大到小的顺序取负样本是为了挑选难样本,这样对模型训练更加有帮助。
若正样本像素点数量过少,即n</(1+m)时,则在步骤b中取对于当前类别的所
有正样本像素点,在步骤c中按置信度由大到小取出个负样本像素点,并按置信度由大到小
取部分负样本像素点作为正样本像素点,以满足正样本像素点最小选取数/(m+1),即
取所有正样本像素点以及部分负样本像素点计算损失函数,这样可以使样本像素点较为均
衡,加速有效训练。n为步骤b中所取的正样本像素点的数量,为预设的负样本像素点最
小选取数量。
若正样本数量过多时,即(1+m)*n大于所有像素点的数量(H*W),则在步骤c中取出所有负样本像素点。
在本实施例中,m取3。若步骤b取的正样本的数量为n,则取出的负样本像素点数量为3*n。
S102、将每个类别的损失函数进行加权平均,得到最终的分割损失函数,该函数用于步骤S103的梯度反传。
其中,进行加权平均的权重为超参数,超参数在训练模型之前进行设定,一般设为1/n,n代表类别的数量,如果某个类的效果不好,则提高该类的权重,所有类的权重和为1。
S103、通过步骤S102得到分割损失函数,使用梯度反传策略对语义分割模型进行迭代优化。
具体来说,损失函数衡量模型的预测和目标差距的度量,更新模型使得该损失函数更小,而梯度反传是通用的模型优化方法,不断迭代优化模型,使得模型的损失函数较小,训练结束。
本发明还涉及一种基于ohem的语义分割模型训练系统,包括存储模块,所述存储模块包括由处理器加载并执行的多条指令:
S101、计算每个类别的损失函数:
a、将样本图片输入语义分割模型,得到图片中各像素属于各类别的置信度p。
在本实施例中,语义分割模型采用Deeplabv3+模型。
将像素尺寸为3*H*W样本图片输入Deeplabv3+模型,会得到一个输出N*H*W,其中,H和W是图片的高和宽,N表示图片输出通道(channel)的数量,即模型将该图片分割的语义类别的数量,具体来说,每个输出通道分别表示每个像素点是否属于某个类别的置信度,置信度的值分布在0-1之间。
b、取对于当前类别的所有正样本像素点,通过公式(1)计算损失函数:
c、对剩下的所有负样本像素点按置信度由大到小进行排序,按置信度由大到小的顺序,以正负样本数量1:m的比例取出负样本像素点,并通过公式(1)计算损失函数。
其中,m是大于1的数,一般取3左右。
以路沿以及车道线为例,在进行分割时,往往是负样本数量远远大于正样本数量的情况,如图2以及图3所示,路沿以及车道线的像素数量远远小于其他像素的数量,对于一个车道线的分割图来说,车道线的像素点是正样本,而其他像素点是负样本。故在本发明中,我们在步骤b中取所有的正样本像素点,正样本的数量为n时,步骤c中取出的负样本像素点数量为m*n,m*n的数量是远远小于负样本总数量的,因此,本发明按照正负样本数量1:m的比例取出负样本,相比传统的训练方法中取出所有正负样本的方式,减少了负样本的数量,达到均衡正负样本的目的,此外,按置信度由大到小的顺序取负样本是为了挑选难样本,这样对模型训练更加有帮助。
若正样本像素点数量过少,即n</(1+m)时,则在步骤b中取对于当前类别的所
有正样本像素点,在步骤c中按置信度由大到小取出个负样本像素点,并按置信度由大
到小取部分负样本像素点作为正样本像素点,以满足正样本像素点最小选取数/(m+
1),即取所有正样本像素点以及部分负样本像素点计算损失函数,这样可以使样本像素点
较为均衡,加速有效训练。n为步骤b中所取的正样本像素点的数量,为预设的负样本像素点
最小选取数量。
若正样本数量过多时,即(1+m)*n大于所有像素点的数量(H*W),则在步骤c中取出所有负样本像素点。
在本实施例中,m取3。若步骤b取的正样本的数量为n,则取出的负样本像素点数量为3*n。
S102、将每个类别的损失函数进行加权平均,得到最终的分割损失函数,该函数用于步骤S103的梯度反传。
其中,进行加权平均的权重为超参数,超参数在训练模型之前进行设定,一般设为1/n,n代表类别的数量,如果某个类的效果不好,则提高该类的权重,所有类的权重和为1。
S103、通过步骤S102得到分割损失函数,使用梯度反传策略对语义分割模型进行迭代优化。
具体来说,损失函数衡量模型的预测和目标差距的度量,更新模型使得该损失函数更小,而梯度反传是通用的模型优化方法,不断迭代优化模型,使得模型的损失函数较小,训练结束。
本发明基于在线难样本挖掘技术(OHEM,online hard example mining),针对在分割任务中正负样本比例严重不均衡时模型效果较差的问题,提出一种新的分割模型训练方法,该方法平衡正负样本比例对模型进行训练,优选选取难样本,加大正样本在训练过程中的权重,提高了分割任务的效果和训练速度。
但是,本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。
Claims (8)
2.根据权利要求1所述的一种基于ohem的语义分割模型训练方法,其特征在于,所述语义分割模型采用Deeplabv3+模型。
4.根据权利要求1或3所述的一种基于ohem的语义分割模型训练方法,其特征在于,所述m为3。
5.一种基于ohem的语义分割模型训练系统,其特征在于,包括存储模块,所述存储模块包括由处理器加载并执行的多条指令:
一、计算每个类别的损失函数:
a、将样本图片输入语义分割模型,得到图片中各像素属于各类别的置信度p;
b、取对于当前类别的所有正样本像素点,通过公式(1)计算损失函数:
c、从剩下的所有负样本像素点中按置信度由大到小的顺序,且按照正负样本数量1:m的比例取出负样本像素点,并通过公式(1)计算损失函数,m>1;
二、将每个类别的损失函数进行加权平均,得到最终的分割损失函数;
三、通过步骤二得到分割损失函数,使用梯度反传策略对所述语义分割模型进行迭代优化。
6.根据权利要求5所述的一种基于ohem的语义分割模型训练系统,其特征在于,所述语义分割模型采用Deeplabv3+模型。
8.根据权利要求5或7所述的一种基于ohem的语义分割模型训练系统,其特征在于,所述m为3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010215590.5A CN111091164A (zh) | 2020-03-25 | 2020-03-25 | 基于ohem的语义分割模型训练方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010215590.5A CN111091164A (zh) | 2020-03-25 | 2020-03-25 | 基于ohem的语义分割模型训练方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111091164A true CN111091164A (zh) | 2020-05-01 |
Family
ID=70400651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010215590.5A Pending CN111091164A (zh) | 2020-03-25 | 2020-03-25 | 基于ohem的语义分割模型训练方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091164A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666997A (zh) * | 2020-06-01 | 2020-09-15 | 安徽紫薇帝星数字科技有限公司 | 一种样本平衡方法及目标器官分割模型构建方法 |
CN111860568A (zh) * | 2020-05-13 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 数据样本的均衡分布方法、装置及存储介质 |
CN112464914A (zh) * | 2020-12-30 | 2021-03-09 | 南京积图网络科技有限公司 | 一种基于卷积神经网络的护栏分割方法 |
CN114330573A (zh) * | 2021-12-30 | 2022-04-12 | 济南博观智能科技有限公司 | 一种目标检测方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220618A (zh) * | 2017-05-25 | 2017-09-29 | 中国科学院自动化研究所 | 人脸检测方法及装置、计算机可读存储介质、设备 |
CN107665351A (zh) * | 2017-05-06 | 2018-02-06 | 北京航空航天大学 | 基于难样本挖掘的机场检测方法 |
CN108090456A (zh) * | 2017-12-27 | 2018-05-29 | 北京初速度科技有限公司 | 一种车道线识别方法及装置 |
CN108492301A (zh) * | 2018-03-21 | 2018-09-04 | 广东欧珀移动通信有限公司 | 一种场景分割方法、终端及存储介质 |
CN109800778A (zh) * | 2018-12-03 | 2019-05-24 | 浙江工业大学 | 一种基于难分样本挖掘的Faster RCNN目标检测方法 |
CN110334705A (zh) * | 2019-06-25 | 2019-10-15 | 华中科技大学 | 一种结合全局和局部信息的场景文本图像的语种识别方法 |
CN110853011A (zh) * | 2019-11-11 | 2020-02-28 | 河北工业大学 | 用于肺结节检测的卷积神经网络模型的构建方法 |
-
2020
- 2020-03-25 CN CN202010215590.5A patent/CN111091164A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665351A (zh) * | 2017-05-06 | 2018-02-06 | 北京航空航天大学 | 基于难样本挖掘的机场检测方法 |
CN107220618A (zh) * | 2017-05-25 | 2017-09-29 | 中国科学院自动化研究所 | 人脸检测方法及装置、计算机可读存储介质、设备 |
CN108090456A (zh) * | 2017-12-27 | 2018-05-29 | 北京初速度科技有限公司 | 一种车道线识别方法及装置 |
CN108492301A (zh) * | 2018-03-21 | 2018-09-04 | 广东欧珀移动通信有限公司 | 一种场景分割方法、终端及存储介质 |
CN109800778A (zh) * | 2018-12-03 | 2019-05-24 | 浙江工业大学 | 一种基于难分样本挖掘的Faster RCNN目标检测方法 |
CN110334705A (zh) * | 2019-06-25 | 2019-10-15 | 华中科技大学 | 一种结合全局和局部信息的场景文本图像的语种识别方法 |
CN110853011A (zh) * | 2019-11-11 | 2020-02-28 | 河北工业大学 | 用于肺结节检测的卷积神经网络模型的构建方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860568A (zh) * | 2020-05-13 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 数据样本的均衡分布方法、装置及存储介质 |
CN111666997A (zh) * | 2020-06-01 | 2020-09-15 | 安徽紫薇帝星数字科技有限公司 | 一种样本平衡方法及目标器官分割模型构建方法 |
CN111666997B (zh) * | 2020-06-01 | 2023-10-27 | 安徽紫薇帝星数字科技有限公司 | 一种样本平衡方法及目标器官分割模型构建方法 |
CN112464914A (zh) * | 2020-12-30 | 2021-03-09 | 南京积图网络科技有限公司 | 一种基于卷积神经网络的护栏分割方法 |
CN114330573A (zh) * | 2021-12-30 | 2022-04-12 | 济南博观智能科技有限公司 | 一种目标检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091164A (zh) | 基于ohem的语义分割模型训练方法及其系统 | |
CN108830188B (zh) | 基于深度学习的车辆检测方法 | |
WO2019228211A1 (zh) | 基于车道线的智能驾驶控制方法和装置、电子设备 | |
CN110458095B (zh) | 一种有效手势的识别方法、控制方法、装置和电子设备 | |
US20210326609A1 (en) | Object classification using extra-regional context | |
CN111461212A (zh) | 一种用于点云目标检测模型的压缩方法 | |
CN111783844B (zh) | 基于深度学习的目标检测模型训练方法、设备及存储介质 | |
Zheng et al. | Improvement of grayscale image 2D maximum entropy threshold segmentation method | |
CN108960074B (zh) | 基于深度学习的小尺寸行人目标检测方法 | |
CN112150804B (zh) | 一种基于MaskRCNN算法的城市多类型交叉口识别方法 | |
CN114596555B (zh) | 障碍物点云数据筛选方法、装置、电子设备及存储介质 | |
CN111259796A (zh) | 一种基于图像几何特征的车道线检测方法 | |
CN112037268B (zh) | 一种动态场景下的基于概率传递模型的环境感知方法 | |
CN116091892A (zh) | 一种基于卷积神经网络的快速目标检测方法 | |
CN109934096B (zh) | 基于特征时序相关性的自动驾驶视觉感知优化方法 | |
CN109977862B (zh) | 一种车位限位器的识别方法 | |
CN109241893B (zh) | 基于人工智能技术的道路选择方法、装置及可读存储介质 | |
CN114359493B (zh) | 一种用于无人船生成三维语义地图的方法和系统 | |
CN115761698A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN115482277A (zh) | 一种社交距离风险预警方法及装置 | |
CN114092496A (zh) | 一种基于空间加权的唇部分割方法及系统 | |
CN112950655A (zh) | 基于深度学习的土地利用信息自动提取方法 | |
Wei et al. | Research on specific long-term single object tracking algorithms in the context of traffic | |
US20230274526A1 (en) | Automatic Labeling Method for Unlabeled Data of Point Clouds | |
CN116468205B (zh) | 一种机动车环保检测质量监测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200501 |