CN115222945B - 基于多尺度自适应课程学习的深度语义分割网络训练方法 - Google Patents
基于多尺度自适应课程学习的深度语义分割网络训练方法 Download PDFInfo
- Publication number
- CN115222945B CN115222945B CN202211121717.2A CN202211121717A CN115222945B CN 115222945 B CN115222945 B CN 115222945B CN 202211121717 A CN202211121717 A CN 202211121717A CN 115222945 B CN115222945 B CN 115222945B
- Authority
- CN
- China
- Prior art keywords
- training
- sample
- data
- acquiring
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于多尺度自适应课程学习的深度语义分割网络训练方法,包括:S1、获取待处理数据集和深度语义分割网络;S2、获取一初始损失函数以建立总损失函数;S3、获取数据样本;S4、设置总损失函数的参数为第一预设值;S5、基于总损失函数与深度语义分割网络并通过算法对数据样本进行训练;S6、获取数据样本的不确定性图谱;S7、基于不确定性图谱获取数据样本中每一样本的样本分值;S8、基于样本分值对数据样本进行升序排序得到第一训练集;S9、判断累计计数是否小于第二预设值,若是执行S10,否则执行S11;S10、获取第二训练集;S11、更新总损失函数的参数,执行S5。实施本发明能够提高训练效率和分割精度。
Description
技术领域
本发明属于图像处理技术领域,涉及基于深度学习的图像语义分割,具体涉及一种基于多尺度自适应课程学习的深度语义分割网络训练方法。
背景技术
图像语义分割是图像处理和计算机视觉中的一项关键任务,在多个领域具有重要的应用,例如场景理解、医学图像分析、机器人感知、视频监控、增强现实和图像压缩等。早期的语义分割算法包括基于图像的方法和基于模型的方法。基于图像的方法包括阈值化(Threshold)、区域增长(Region Growth)、均值聚类(k-means)、分水岭(watershed)等,基于模型的方法包括活动轮廓模型(active contour/snack)、图割(graph cut)、条件和马尔可夫随机场(CRF/MRF)等。近年来,随着越来越多的数据集被开源和算力的增强,基于神经网络的深度学习算法被提出,在流行的基准测试中达到最高的准确率并被广泛应用到现实生活的各种中。
深度神经网络算法包含两个重要的步骤:神经网络结构的设计和神经网络参数的最优化训练。然而,当前基于深度神经网络的语义分割网络主要集中在网络结构的设计方面,例如,更加高效的多尺度上下文提取,更加高效的内存使用,更加实时的推理预测,神经网络架构搜索等。对于如何高效的训练深度语义分割网络的研究却很少。实际上,随着当前神经网络结构越来越复杂,以及数据集的样本数越来越大和分布的方差越来越大,神经网络的训练和参数的最优化也更加的困难,这阻碍了深度神经分割网络分割精度的提升和实际应用。当前有少量关于课程学习的工作,但是主要集中在无监督域自适应(unsuperviseddomain adaptation)领域。
发明内容
本发明的目的在于克服由复杂的神经网络架构和数据集分布方差大所导致的网络训练难题,提供了一种基于多尺度自适应课程学习的深度语义分割网络的训练方法,进一步提高现有神经网络的分割精度。
具体来讲,该方法从粗到细的在多个尺度上进行课程学习,包括训练集尺度、样本(sample)尺度、类尺度和像素尺度。此外,每个尺度上的课程学习都是自适应于训练过程的,不需要额外的先验信息。如附图1中所示,该多尺度自适应课程学习的训练方法具体包括以下过程:
S1, 设计深度语义分割网络,并选择语义分割数据集。为了显示本发明训练方法的优越性,本发明尽可能的选择结构复杂的深度语义网络,以及分布方差大和稀疏的数据集。
S2,基于交叉熵(cross-entropy)和骰子得分(Dice Score)设计损失函数。对于每
个样本,交叉熵对每个像素点执行计算,骰子得分(Dice score)对每个类别执行计算。每个
像素点的交叉熵应用基于训练轮次和像素位置的自适应权重;每个类的骰子
得分(Dice score)应用基于训练轮次和样本类别的自适应权重。在计算一个批次
(mini batch)总的损失函数时,对每个样本应用基于训练轮次和样本自身的自适应权
重。这些权重的计算和更新在下面的步骤给出。
S7, 基于不确定性图谱,对样本图像中每个位置、样本每个类别和样本进行打
分,分别得到样本图像位置分值、样本类别分值和样本分值。分值度
量的是图片中每个位置、每个类别和样本自身分割的难易程度,分值越高,表示分割越困
难。
步骤S11, 重复S6-S10,直至神经网络收敛,停止训练。
与现有技术相比,本发明所达到的有益效果是:提出了一种多尺度自适应课程学习方法来训练深度语义分割网络。四个尺度----训练集尺度、样本尺度、样本类别尺度、样本图像像素尺度有机的组合在一起,使得深度语义分割网络以细粒度更高的课程顺序展开训练;其次,各个尺度都是自适应的,基于训练的轮次、输入的样本、样本图像的位置、样本对应的类别来动态调整,而非基于某种先验来手动设计,这较传统的课程学习的更加便捷,极大的加速了训练的进程;其中,本发明首次运用了信息熵和蒙特卡洛随机失活(MonteCarlo Dropout)方法计算样本的分割难易程度,该方法计算简单且效果良好,而且只需要对现有的网络做轻微的修改即可。
本发明的方法相对于传统的训练方法,更能适应复杂的网络结构以及分布方差更大的数据集,更有利于找到全局的最优解,提高深度语义分割网络的训练效率和网络的分割精度。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明方法的整体流程图;
图2是实施中本发明采用的深度意义分割网络;
图3是一实施例中本发明的网络原始输入的图像;
图4是图3中类别椅子的不确定性图谱;
图5是图3中类别桌子的不确定性图谱;
图6是图3中是所有类的不确定性图谱。
具体实施方式
下面结合相关附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1至图6所示,本发明的基于多尺度自适应课程学习的深度神经网络的训练方法,包括以下过程:
步骤S1、 设计深度语义分割网络,并选择语义分割数据集。本实施方案中,如图2
所示,本发明选择DeepLabV3+作为本发明的深度语义分割网络,该网络采用编码-解码
(encoder-decoder)结构和虫洞卷积(Atrous Convolution)池化,网络特征提取的主体部
分(backbone)采用Xception网络。为了后面步骤的获取样本的不确定性图,本发明在网络
的每个卷积层中加入dropout,并设置其参数。网络结构的如图1所示。
对于数据集,本发明选择PASCAL Context。该数据集总共有459个标注类别和
10103张图像。通常最广泛地用法是使用其中出现频率最高的 59个类别最为语义标签,其
余类别标记为背景。但是在本实施方案中,本发明采用所有的459个标签,以增加数据集的
分布差异度和复杂度,从而更有效的证明本发明训练方法的优越性。本发明中把选择的数
据集记做,其中为大小图像,为大
小对应的标签,为数据集中样本的总个数。数据集包含的类别总数我门记为。
步骤S2、 设计损失函数。本发明使用基于交叉熵(cross-entropy)和骰子得分(Dice Score)的损失函数。此外,为了实现课程训练,本发明在损失函数中设计了三个自适应的权重。本发明的损失函数可以写为:
其中为第轮次训练时图像位置处交叉熵(cross-entropy)的权重,为第轮次训练时第个类别骰子得分(Dice score)的权重。这些权重在每个轮次的
训练中都会更新。在计算一个批次(min batch)的损失时,本发明对每个样本进行加权,因
此总的损失函数可以表示为:
其中为批训练(batch training)中的样本个数,为第k个样本在进行第个
轮次训练时的权重。度量的是样本图像中每个像素点分割的难易程度,度量的是样
本中每个类别分割难易程度,度量的则是每个样本分割的难易程度。它们的计算方式本
发明会在下面的步骤中分步分别给出。
步骤S6、 计算当前网络下所有样本图像中每个像素点和样本类别的不确定性图谱。本发明基于两种方法来度量不确定性。
第一种度量不确定性的方法是蒙特卡洛随机失活(Monte Carlo Dropout)。具体
来讲,在网络中所有dropout不关闭的情况下,把中每个样本都输入到网络中进行推理
(inference)。对于每个样本,每推理一次得到一张推理图谱,记为。本
发明设置每个样本的推理次数为30,由此得到每个样本的推理图谱集。对于每
一张推理图谱中每个点,本发明计算图谱集上对应位置上图谱集的值的方差作
为该点的不确定性,即
由此得到每个样本基于MC Dropout的不确定性图谱:
最后得到每个样本基于信息熵的不确定性图谱:
本发明最终的不确定性图谱通过基于蒙特卡洛随机失活(MC Dropout)的不确定性图谱和基于交叉熵的不去确定性图谱的加权求和得到,即:
步骤S7: 基于不确定性图谱,对样本图像中每个位置、样本每个类别和样本自身进行打分。本发明首先计算样本图像中每个像素位置对应的分值,通过在所有类别上求均值得到,即
然后,本发明计算每个类的分值,通过在图像上所有位置求均值获得,即:
最后,本发明获得每个样本的分值,通过在所有类熵平均类的分值得到,即:
步骤S10,基于损失函数中新的课程学习参数,利用随机梯度下降算法在上
进行训练。通过步骤S6-S8, 本发明计算得到了衡量样本图像中每个像素点分割的难易程
度、衡量样本中每个类分割的难易程度以及衡量每个样本分割的难易程度,由
此本发明更新损失函数中对应的课程学习参数,即:
步骤S11, 重复S6-S10,直至深度分割神经网络收敛,停止训练。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (6)
1.一种基于多尺度自适应课程学习的深度语义分割网络训练方法,其特征在于,包括步骤:
S1、获取待处理数据集和一深度语义分割网络;
S2、基于交叉熵和骰子得分获取一初始损失函数,并基于所述初始损失函数建立总损失函数;
S3、自所述待处理数据集中随机获取数据样本;
S4、基于所述数据样本设置所述总损失函数的参数为第一预设值;
S5、基于所述总损失函数与所述深度语义分割网络并通过SGD算法对所述数据样本进行训练,并在所述深度语义分割网络不收敛时获取训练次数的累计计数,并执行步骤S6;其中,所述SGD算法为随机梯度下降算法;
S6、获取所述数据样本对应的不确定性图谱;
S7、基于所述不确定性图谱获取所述数据样本中每一样本的样本分值;
S8、基于所述样本分值对所述数据样本进行升序排序,以得到第一训练集;
S9、判断所述累计计数是否小于第二预设值,若是,则执行步骤S10,否则执行步骤S11;
S10、依照所述第一训练集的排序顺序获取预设数量的样本为第二训练集;
S11、更新所述总损失函数的参数,并执行所述步骤S5;
在所述步骤S7中,所述基于所述不确定性图谱获取所述数据样本中每一样本的样本分值;包括:
获取每一数据样本中每个像素点对应的像素点分值;
获取每一数据样本的每一个类对应的类分值;
获取所有数据样本的类分值的熵平均为所述样本分值。
2.根据权利要求1所述的基于多尺度自适应课程学习的深度语义分割网络训练方法,其特征在于,在所述步骤S1中,所述待处理数据集中数据集的分布方差大于第三预设值,且稀疏度大于第四预设值。
3.根据权利要求1所述的基于多尺度自适应课程学习的深度语义分割网络训练方法,其特征在于,在所述步骤S6中,所述获取所述数据样本对应的不确定性图谱,包括:
获取所述数据样本基于蒙特卡洛随机失活的不确定性图谱;或
获取所述数据样本基于信息熵的不确定性图谱。
5.根据权利要求1所述的基于多尺度自适应课程学习的深度语义分割网络训练方法,其特征在于,在所述步骤S5中,还包括:
在所述深度语义分割网络收敛时,结束训练,并输出训练结果。
6.根据权利要求1所述的基于多尺度自适应课程学习的深度语义分割网络训练方法,其特征在于,在所述步骤S3中,所述自所述待处理数据集中随机获取数据样本,包括:
获取大于或等于所述待处理数据集的25%的数据为所述数据样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211121717.2A CN115222945B (zh) | 2022-09-15 | 2022-09-15 | 基于多尺度自适应课程学习的深度语义分割网络训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211121717.2A CN115222945B (zh) | 2022-09-15 | 2022-09-15 | 基于多尺度自适应课程学习的深度语义分割网络训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115222945A CN115222945A (zh) | 2022-10-21 |
CN115222945B true CN115222945B (zh) | 2022-12-06 |
Family
ID=83617772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211121717.2A Active CN115222945B (zh) | 2022-09-15 | 2022-09-15 | 基于多尺度自适应课程学习的深度语义分割网络训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222945B (zh) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537676B (zh) * | 2015-01-12 | 2017-03-22 | 南京大学 | 一种基于在线学习的渐进式图像分割方法 |
KR102243644B1 (ko) * | 2018-12-07 | 2021-04-23 | 서울대학교 산학협력단 | 의료 영상 분획 딥러닝 모델 생성 장치 및 방법과, 그에 따라 생성된 의료 영상 분획 딥러닝 모델 |
US10467500B1 (en) * | 2018-12-31 | 2019-11-05 | Didi Research America, Llc | Method and system for semantic segmentation involving multi-task convolutional neural network |
US20210027098A1 (en) * | 2019-07-22 | 2021-01-28 | Shenzhen Malong Technologies Co., Ltd. | Weakly Supervised Image Segmentation Via Curriculum Learning |
GB201910720D0 (en) * | 2019-07-26 | 2019-09-11 | Tomtom Global Content Bv | Generative adversarial Networks for image segmentation |
US11386298B2 (en) * | 2020-01-09 | 2022-07-12 | International Business Machines Corporation | Uncertainty guided semi-supervised neural network training for image classification |
CN111444914A (zh) * | 2020-03-23 | 2020-07-24 | 复旦大学 | 一种基于PU-Learning的图像语义分割方法 |
EP3937084A1 (en) * | 2020-07-10 | 2022-01-12 | Koninklijke Philips N.V. | Training a model to perform a task on medical data |
CN113420827A (zh) * | 2021-07-08 | 2021-09-21 | 上海浦东发展银行股份有限公司 | 语义分割网络训练和图像语义分割方法、装置及设备 |
CN114819091B (zh) * | 2022-05-07 | 2024-04-16 | 杭州电子科技大学 | 基于自适应任务权重的多任务网络模型训练方法及系统 |
CN114943965B (zh) * | 2022-05-31 | 2024-05-10 | 西北工业大学宁波研究院 | 基于课程学习的无监督域自适应遥感图像语义分割方法 |
-
2022
- 2022-09-15 CN CN202211121717.2A patent/CN115222945B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115222945A (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN108389211B (zh) | 基于改进鲸鱼优化模糊聚类的图像分割方法 | |
CN107392919B (zh) | 基于自适应遗传算法的灰度阈值获取方法、图像分割方法 | |
CN109460793A (zh) | 一种节点分类的方法、模型训练的方法及装置 | |
CN110046634B (zh) | 聚类结果的解释方法和装置 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN109960808B (zh) | 一种文本识别方法、装置、设备及计算机可读存储介质 | |
CN110097060B (zh) | 一种面向树干图像的开集识别方法 | |
CN111723915B (zh) | 一种基于深度卷积神经网络的目标检测方法 | |
CN106157330B (zh) | 一种基于目标联合外观模型的视觉跟踪方法 | |
CN103761726B (zh) | 基于fcm的分块自适应图像分割方法 | |
CN108804577B (zh) | 一种资讯标签兴趣度的预估方法 | |
CN111784595B (zh) | 一种基于历史记录的动态标签平滑加权损失方法及装置 | |
CN110866134B (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN108509996A (zh) | 基于Filter和Wrapper选择算法的特征选择方法 | |
CN102663681B (zh) | 基于排序k-均值算法的灰度图像分割方法 | |
CN112131944B (zh) | 一种视频行为识别方法及系统 | |
CN116662832A (zh) | 一种基于聚类和主动学习的训练样本选择方法 | |
CN109948662B (zh) | 一种基于K-means和MMD的人脸图像深度聚类方法 | |
CN112270696B (zh) | 一种基于融合元分类器的判别性目标跟踪方法 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
CN115081580A (zh) | 一种对预训练的神经网络模型进行剪枝的方法 | |
CN115222945B (zh) | 基于多尺度自适应课程学习的深度语义分割网络训练方法 | |
CN116935057A (zh) | 目标评价方法、电子设备和计算机可读存储介质 | |
CN116523877A (zh) | 一种基于卷积神经网络的脑mri图像肿瘤块分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |