CN116363372B - 弱监督语义分割方法、装置、设备和存储介质 - Google Patents
弱监督语义分割方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN116363372B CN116363372B CN202310636751.1A CN202310636751A CN116363372B CN 116363372 B CN116363372 B CN 116363372B CN 202310636751 A CN202310636751 A CN 202310636751A CN 116363372 B CN116363372 B CN 116363372B
- Authority
- CN
- China
- Prior art keywords
- image
- class
- loss function
- pixel
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000009826 distribution Methods 0.000 claims abstract description 49
- 230000006870 function Effects 0.000 claims description 86
- 239000011159 matrix material Substances 0.000 claims description 64
- 230000004913 activation Effects 0.000 claims description 56
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013215 result calculation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种弱监督语义分割方法、装置、设备和存储介质,通过根据图像的编码特征生成类别概率,通过类别概率与类别标签构建第一损失函数;通过编码特征以及图像像素的颜色距离与空间距离,获得图像的不确定性分布数据与伪标签,根据不确定性分布数据构建第二损失函数;根据图像中对应于不同伪标签的多个像素集合,构建第三损失函数。根据第一损失函数、第二损失函数以及第三损失函数,生成总损失,根据总损失调节分类网络模型与分割网络模型的模型参数,并根据分类结果得到语义分割结果,针对伪标签的不确定性问题进行了优化,从而解决了图像语义分割的准确率较低的问题,提高了图像语义分割的准确率。
Description
技术领域
本申请涉及图像语义分割领域,特别是涉及一种弱监督语义分割方法、装置、设备和存储介质。
背景技术
语义分割在自动驾驶、遥感等多项计算机视觉任务中都发挥着不可替代的作用。近年来,得益于深度学习的快速发展,语义分割领域取得了很大的进步。在语义分割中,数据标注的目的是在监督学习中使机器明确标记对象的类别或属性。由于语义分割需要像素级的分类,然而像素级别的标注成本十分昂贵,迫使研究者需要探索更加廉价的标注来实现语义分割。图像级别的标注成本低且易获得,但其属于弱监督标注,在弱监督标注下实现语义分割需要进行优化。
现有技术中,针对弱监督语义分割算法,主要是先训练分类模型生成类激活图,再基于类激活图构建伪标签实现全监督语义分割。然而,基于类激活图生成的伪标签可能会因为类激活图的过度激活或局部激活的问题,引入一定比例的错误信息。利用存在错误的伪标签训练出的分割模型,必然也会不可避免地存在错误,导致分割效果受限。
现有技术中,对于图像语义分割的准确率较低的问题,暂未提出有效的解决办法。
发明内容
本申请实施例提供了一种弱监督语义分割方法、装置、设备和存储介质,以解决现有技术中图像语义分割的准确率较低的问题。
第一方面,本申请实施例提供了一种弱监督语义分割方法,包括:
将图像输入至分类网络模型,得到所述图像的编码特征;
根据所述编码特征生成类别概率,根据所述类别概率与类别标签,构建第一损失函数,其中,所述类别概率表示所述图像的每个像素在不同所述类别标签下的概率;
根据所述编码特征以及所述图像中像素的颜色距离与空间距离,获得所述图像的不确定性分布数据与伪标签,其中,所述不确定性分布数据包括表示所述图像的每个像素在不同所述类别标签下概率的不确定性;
根据所述不确定性分布数据,构建第二损失函数;
获取所述图像中对应于不同所述伪标签的多个像素集合,根据所述像素集合中像素在所述编码特征上的位置,构建第三损失函数;
根据所述第一损失函数、所述第二损失函数以及所述第三损失函数,生成总损失,根据所述总损失调节所述分类网络模型与分割网络模型的模型参数;
将所述分类网络模型输出的分类结果输入至所述分割网络模型,得到语义分割结果。
在其中一些实施例中,将图像输入至待训练的分类网络模型,得到所述图像的编码特征包括:
将宽度为第一宽度,高度为第一高度的所述图像送入基础网络,生成宽度为第二宽度,高度为第二高度,深度为第一深度的所述编码特征。
在其中一些实施例中,在获得所述图像的不确定性分布数据与伪标签之前,所述方法还包括:
计算第一区域内所述图像像素的颜色方差与位置方差;
根据所述颜色方差与所述位置方差,计算所述图像像素的颜色距离与空间距离;
根据所述颜色距离与所述空间距离,计算不同像素之间的像素关联数据。
在其中一些实施例中,获得所述图像的不确定性分布数据包括:
将所述编码特征输入至分类器,得到类激活矩阵;
根据所述类激活矩阵与所述像素关联数据,得到类关联激活矩阵;
根据所述类关联激活矩阵与所述类别标签的长度,计算所述不确定性分布数据。
在其中一些实施例中,在获得所述图像的不确定性分布数据之后,所述方法还包括:
将所述类关联激活矩阵进行归一化,计算归一化后的所述类关联激活矩阵中最大值对应的类别系数;
获取独热编码形式的类别标签,根据所述类关联激活矩阵、所述类别系数与独热编码形式的所述类别标签,构建第二损失函数。
在其中一些实施例中,构建第三损失函数包括:
基于所述伪标签,将所述图像中的像素划分至不同伪标签对应类别的所述像素集合中;
随机抽取相同的所述像素集合中的两个像素,构建同类像素对;
随机抽取不同的所述像素集合中的两个像素,构建异类像素对;
根据所述同类像素对与所述异类像素对在所述编码特征上的位置,计算对比损失值,其中,所述对比损失值表示所述同类像素对之间的距离与所述异类像素之间相对距离的差值;
根据随机抽取的所述像素的像素位置数目与所述对比损失值,构建第三损失函数。
在其中一些实施例中,将所述分类网络模型输出的分类结果输入至所述分割网络模型,得到语义分割结果包括:
将所述分类结果输入至所述分割网络模型;
根据所述不确定性分布数据、所述伪标签以及所述分割概率,构建分割损失函数;
根据所述分割损失函数,对所述分割网络进行全监督分割训练,得到所述语义分割结果。
第二方面,本申请实施例提供了一种弱监督语义分割装置,包括:
输入模块,用于将图像输入至分类网络模型,得到所述图像的编码特征;
第一损失计算模块,用于根据所述编码特征生成类别概率,根据所述类别概率与类别标签,构建第一损失函数,其中,所述类别概率表示所述图像的每个像素在不同所述类别标签下的概率;
第二损失计算模块,用于根据所述编码特征以及所述图像中像素的颜色距离与空间距离,获得所述图像的不确定性分布数据与伪标签,其中,所述不确定性分布数据包括表示所述图像的每个像素在不同所述类别标签下概率的不确定性,根据所述不确定性分布数据,构建第二损失函数;
第三损失计算模块,用于获取所述图像中对应于不同所述伪标签的多个像素集合,根据所述像素集合中像素在所述编码特征上的位置,构建第三损失函数;
结果计算模块,用于根据所述第一损失函数、所述第二损失函数以及所述第三损失函数,生成总损失,根据所述总损失调节所述分类网络模型与分割网络模型的模型参数,将所述分类网络模型输出的分类结果输入至所述分割网络模型,得到语义分割结果。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的弱监督语义分割方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面中任一项所述的弱监督语义分割方法的步骤。
相比于相关技术,本申请实施例提供的弱监督语义分割方法、装置、设备和存储介质,通过根据图像的编码特征生成类别概率,通过类别概率与类别标签构建第一损失函数;通过编码特征以及图像像素的颜色距离与空间距离,获得图像的不确定性分布数据与伪标签,根据不确定性分布数据构建第二损失函数;根据图像中对应于不同伪标签的多个像素集合,构建第三损失函数。根据第一损失函数、第二损失函数以及第三损失函数,生成总损失,根据总损失调节分类网络模型与分割网络模型的模型参数,并根据分类结果得到语义分割结果,针对伪标签的不确定性问题进行了优化,从而解决了图像语义分割的准确率较低的问题,提高了图像语义分割的准确率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请一个实施例中弱监督语义分割方法的终端的硬件结构框图;
图2是本申请一个实施例中弱监督语义分割方法的流程图;
图3是本申请一个实施例中弱监督语义分割方法的结构图;
图4是本申请一个实施例中弱监督语义分割方法的全监督分割结构图;
图5是本申请一个实施例中弱监督语义分割方法的分割结果图;
图6是本申请一个实施例中弱监督语义分割装置的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“多个”是指两个或两个以上。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的弱监督语义分割方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的弱监督语义分割方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本申请实施例中提供了一种弱监督语义分割方法,图2是本申请实施例的弱监督语义分割方法的流程图,如图2所示,该方法包括如下步骤:
步骤S201,将图像输入至分类网络模型,得到图像的编码特征。
其中,图像来自于Pascal Voc 2012公开数据集,该数据集共有1.2万张图像,涵盖交通工具、家具、动物等共21个类别。以Resnet-50(一种卷积神经网络)为基础结构,以全局平均池化层和全连接层为分类器,构建分类网络模型。将宽、高均为512的图像送入基础结构中,生成对应的编码特征。
步骤S202,根据编码特征生成类别概率,根据类别概率与类别标签,构建第一损失函数,其中,类别概率表示图像的每个像素在不同类别标签下的概率。
其中,在获得编码特征后,将编码特征送入分类器中,生成类别概率。根据图像的类别标签与对应的类别概率构建交叉熵损失函数,即第一损失函数。交叉熵可以看做通过一个概率分布表示另一个概率分布的困难程度,即表明两个概率分布的距离。交叉熵越小,两个概率分布越接近,即分类网络输出的类别概率越精确。
步骤S203,根据编码特征以及图像中像素的颜色距离与空间距离,获得图像的不确定性分布数据与伪标签,其中,不确定性分布数据包括表示图像的每个像素在不同类别标签下概率的不确定性。
其中,结合编码特征与分类网络模型中的分类器,生成类激活矩阵。将类激活矩阵与图像中像素的颜色距离与空间距离进行关联,得到类关联激活矩阵。根据类关联激活矩阵,以矩阵形式生成不确定性分布数据,同时生成分割伪标签。不确定性分布数据表示分类网络输出的类别概率的不确定性,分割伪标签指对于某些不具备类别标签的图像,为了继续进行分割流程,分割网络为这些图像生成的标签。
步骤S204,根据不确定性分布数据,构建第二损失函数。
其中,在图像语义分割中,分类的对象为图像中的多个像素,针对两个不同的像素,如果两个像素的颜色越相似,两个像素为同一类别的概率越高;如果两个像素的空间距离越远,两个像素为同一个类别的概率越低。因此,本申请实施例将类激活矩阵与图像像素的颜色距离与空间距离进行关联,以此构建分割网络的不确定性损失函数,即第二损失函数。
步骤S205,获取图像中对应于不同伪标签的多个像素集合,根据像素集合中像素在编码特征上的位置,构建第三损失函数。
其中,获取每个伪标签对应的类别下的像素集合。显然,对于同一个类别集合中的两个像素,两个像素的特征应该更加相似,因此二者在编码特征上的位置之间的距离应该更小;对于不同类别集合中的两个像素,两个像素的特征应该更加相异,因此二者在编码特征上的位置之间的距离应该更大。根据同类特征像素对的距离小于异类特征像素对的距离这一性质,构建对比损失函数,即第三损失函数。
步骤S206,根据第一损失函数、第二损失函数以及第三损失函数,生成总损失,根据总损失调整分类网络模型和分割网络模型的模型参数。
其中,总损失由第一损失函数、第二损失函数与第三损失函数加和得到,分类网络模型与分割网络模型共享网络层,且共享参数。其中,分类网络的模型训练主要使用第一损失函数,即交叉熵损失;分割网络的模型训练主要使用第二损失函数与第三损失函数,即不确定性损失与对比损失。
步骤S207,将分类网络模型输出的分类结果输入至分割网络模型,得到语义分割结果。
其中,分割网络模型的输入为分类网络模型输出的伪标签与不确定性矩阵,根据不确定性矩阵与伪标签得到像素级别的分割概率,结合不确定性矩阵、伪标签与分割概率,构建分割损失函数,实现分割网络的全监督分割训练。
上述步骤S201至S207,通过根据图像的编码特征生成类别概率,通过类别概率与类别标签构建第一损失函数;通过编码特征以及图像像素的颜色距离与空间距离,获得图像的不确定性分布数据与伪标签,根据不确定性分布数据构建第二损失函数;根据图像中对应于不同伪标签的多个像素集合,构建第三损失函数。根据第一损失函数、第二损失函数以及第三损失函数,生成总损失,根据总损失调节分类网络模型与分割网络模型的模型参数,并根据分类结果得到语义分割结果,针对伪标签的不确定性问题进行了优化,从而解决了图像语义分割的准确率较低的问题,提高了图像语义分割的准确率。
在其中一些实施例中,将图像输入至待训练的分类网络模型,得到图像的编码特征包括:将宽度为第一宽度,高度为第一高度的图像送入基础网络,生成宽度为第二宽度,高度为第二高度,深度为第一深度的编码特征。
其中,自然图像分割数据集包含N=12000张图片和C=21个类别(包含背景),在自然图像分割数据集中,/>,其中xn为第n个图像样本,yn为第n个图像类别标签的独热编码向量,长度为C。若图像中包含第c个类别的像素,则yn的值为1,否则为0。
将宽、高均为512的图像送入分类网络,生成宽、高、深度分别为32、32、2048的编码特征F。将编码特征送入分类器中,生成类别概率。
其中,H、W、D分别为编码特征的高度、宽度与深度。Fi,j,d表示编码特征的第i行,第j列,第d个深度通道上的值。fd表示编码特征全局平均池化后的向量,长度为D。w表示分类器全连接层中的可训练权重矩阵,共D行c列。ε表示网络输出类别向量,长度为C。εc表示向量ε的第c个值,εc越大表示图像属于第c个类别的概率越大。exp ()表示指数运算操作。p表示类别概率,pc表示图片属于类别c的概率。
在其中一个实施例中,在获得图像的不确定性分布数据与伪标签之前,还包括:计算第一区域内图像像素的颜色方差与位置方差;根据颜色方差与位置方差,计算图像像素的颜色距离与空间距离;根据颜色距离与空间距离,计算不同像素之间的像素关联数据。
其中,图像像素的颜色距离表示像素之间颜色的相似度,图像像素的空间距离表示像素之间在空间上的距离。显然,对于两个像素来说,颜色差异越小,空间位置越接近,两者的关联度就越高。
对于颜色距离:
对于空间距离:
对于像素关联数据:
其中,i、i'表示图像的行系数,j、j'表示图像的列系数。和分别表示以
图像x第i行、第j列为中心,以、为宽、高的矩形区域的颜色方差和位置方差。表示图像x的第i行、第j列像素与第i'行、第j'列像素的颜色距离。表示图
像x的第i行、第j列像素与第i'行、第j'列像素的空间距离。表示图像x的第i行、
第j列像素与第i'行、第j'列像素的像素关联数据。
在其中一个实施例中,获得图像的不确定性分布数据包括:
将编码特征输入至分类器,得到类激活矩阵;
根据类激活矩阵与像素关联数据,得到类关联激活矩阵;
根据类关联激活矩阵与类别标签的长度,计算不确定性分布数据。
其中,类激活矩阵Ac由编码特征经分类器处理获得:
其中,表示分类器中全连接层的可训练权重矩阵的第d行,第c列的值。Fd表示编码特征第d个深度通道的矩阵。Ac表示类别c对应的类激活矩阵。类激活矩阵可以用于表征分类网络输出的每个类别下像素概率的不确定性。
根据类激活矩阵与像素关联数据,得到类关联激活矩阵包括:
其中,A表示类激活矩阵,大小为[C,H,W]。Ac表示第c个类别的类激活矩阵,大小为[H,W]。A'c表示第c个类别的类关联激活矩阵。表示第c个类别的类关联激活矩阵第i行、第j列的值。ω=0.005表示权重超参。类关联激活矩阵在类激活矩阵的基础上,根据像素关联数据求取加权和,使不确定性与像素的颜色距离与空间距离关联,同时起到滤波作用,使类关联激活矩阵的数据更加平滑。
根据类关联激活矩阵和类别标签的长度,计算不确定性分布数据包括:
其中,U表示不确定性矩阵,即不确定性分布数据。其用于表征分类网络输出的图像像素在不同类别标签下概率的不确定性。
在其中一些实施例中,在获得图像的不确定性分布数据之后,还包括:将类关联激活矩阵进行归一化,计算归一化后的类关联激活矩阵中最大值对应的类别系数;获取独热编码形式的类别标签,根据类关联激活矩阵、类别系数与独热编码形式的类别标签,构建第二损失函数。
其中,对类关联激活矩阵进行归一化包括:
其中,/>表示第c个类别的类关联激活矩阵第i行、第j列的值,/>表示第c个类别的指数归一化类激活矩阵第i行、第j列的值。
根据类关联激活矩阵、类别系数与独热编码形式的类别标签,构建第二损失函数包括:
其中,Y表示分割伪标签独热编码形式,大小为[H,W,C]。表示分割伪标签独热编码矩阵的第c个类别,第i行、第j列的值。y表示图像分类标签的独热编码形式,长度为C。β 1=0.5、β 2=0.3表示阈值超参。argmax(A''i,j,c)表示A''i,j中最大值对应的类别系数。Lunct表示不确定性损失,即第二损失函数。
在其中一些实施例中,构建第三损失函数包括:基于伪标签,将图像中的像素划分至不同伪标签对应类别的像素集合中;随机抽取相同的像素集合中的两个像素,构建同类像素对;随机抽取不同的像素集合中的两个像素,构建异类像素对;根据同类像素对与异类像素对在编码特征上的位置,计算对比损失值,其中,对比损失值表示同类像素对之间的距离与异类像素之间相对距离的差值;根据随机抽取的像素的像素位置数目与对比损失值,构建第三损失函数。
其中,根据不同的伪标签,将图像像素进行分类,将图像像素划分至伪标签对应类别下的多个像素集合中,随机抽取相同集合的两个像素,作为同类像素对。由于同类像素对中的两个像素属于同一个类别,因此,两个像素在特征上应该更加相似,即在编码特征上的位置应该更加接近。随机抽取不用集合的两个像素,作为异类像素对。由于异类像素对中的两个像素属于不同的类别,因此,两个像素在特征上差异应该更大,即在编码特征上的位置应该间隔更远。基于这一性质,构建对比损失函数,即第三损失函数:
其中,Ω c表示类别为c的所有像素位置的集合。(i,j)c表示位于i行j列的图像像素属于类别c。表示编码特征中一个像素向量,该向量对应图像的第i1、第j1列,类别为c1的位置。Li1,j1表示图像第i1行、第j1列的像素的对比损失值。(i1,j1)∈Ω c表示第i1行、第j1列的像素是从集合Ω c中随机抽取得到。τ=0.5为超参数。NΩ表示从每个特定类别c的集合中随机抽取的像素位置数目。Lcontra表示像素对对比损失函数,即第三损失函数。
图3是本申请一个实施例的弱监督语义分割方法的网络结构图,如图3所示,将原始图片输入至分类网络,其中分类网络包含基础结构以及由全局平均池化层与全连接层组成的分类器,分类网络对图像进行处理,得到分类概率,根据分类概率与分类标签,生成分类交叉熵损失。同时,分类网络输出类激活矩阵,并基于原始图片的颜色空间和像素距离信息,生成类关联激活矩阵。基于类关联激活矩阵,生成不确定性矩阵,并生成不确定性损失。同时,基于类关联激活矩阵,生成分割伪标签,基于分割伪标签对应的类别,对图像的各个像素位置进行聚类,同类像素构成一个集合,根据像素集合,确定像素对的对比损失函数。
在其中一些实施例中,将分类网络模型输出的分类结果输入至分割网络模型,得到语义分割结果包括:将分类结果输入至分割网络模型,根据不确定性分布数据、伪标签以及分割概率,构建分割损失函数;根据分割损失函数,对分割网络进行全监督分割训练,得到语义分割结果。
其中,在得到总损失后,重新构建一个以Resnet-50为基础结构的分割网络,将图片送入分割网络得到像素级别的分割概率。结合不确定性分布数据、分割伪标签和分割概率,构建分割损失函数,实现分割网络的全监督分割训练。
其中,表示图像第i行、第j列的位置,第c个类别的伪标签。/>表示图片送入分割网络后得到的分割概率矩阵缩放到与原图大小一致后,第i行、第j列,第c个类别的概率值。L seg表示分割损失函数。
图4是本申请实施例的弱监督语义分割方法的全监督分割结构图,如图4所示,将原始图片输入至分割网络,得到分割概率,并结合不确定性矩阵(即不确定性分布数据)与分割伪标签,得到分割损失,进而完成对于分割网络的全监督分割训练。
本申请实施例使用Pytorch框架(一种深度学习框架)进行实验,在自然图像数据
上使用以为基础结构的神经网络。训练过程中,图像尺寸调整至,采用AdamW(一种
训练神经网络的方法)优化器。初始学习率和权重衰减分别设置为6e-5和0.01。批数据量为
16,总迭代次数为4万次。最终得到的结果如图5所示,从图5中,可以明显看出,相比于真值
分割图,本申请实施例采用的分割网络模型得到的分割结果的类别概率的准确度更高,分
类的效果更好。
本申请实施例还提供了一种弱监督语义分割装置,图6是本申请实施例的弱监督语义分割装置的结构图,如图6所示,该装置包括:
输入模块61,用于将图像输入至分类网络模型,得到图像的编码特征;
第一损失计算模块62,用于根据编码特征生成类别概率,根据类别概率与类别标签,构建第一损失函数,其中,类别概率表示图像的每个像素在不同类别标签下的概率;
第二损失计算模块63,用于根据编码特征以及图像中像素的颜色距离与空间距离,获得图像的不确定性分布数据与伪标签,其中,不确定性分布数据包括表示图像的每个像素在不同类别标签下概率的不确定性,根据不确定性分布数据,构建第二损失函数;
第三损失计算模块64,用于获取图像中对应于不同伪标签的多个像素集合,根据像素集合中像素在编码特征上的位置,构建第三损失函数;
结果计算模块65,用于根据所述第一损失函数、所述第二损失函数以及所述第三损失函数,生成总损失,根据所述总损失调节所述分类网络模型与分割网络模型的模型参数,将所述分类网络模型输出的分类结果输入至所述分割网络模型,得到语义分割结果。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本申请实施例还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上述各实施例提供的弱监督语义分割方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个实施例提供的弱监督语义分割方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种弱监督语义分割方法,其特征在于,包括:
将图像输入至分类网络模型,得到所述图像的编码特征;
根据所述编码特征生成类别概率,根据所述类别概率与类别标签,构建第一损失函数,其中,所述类别概率表示所述图像的每个像素在不同所述类别标签下的概率;
根据所述编码特征以及所述图像中像素的颜色距离与空间距离,获得所述图像的不确定性分布数据与伪标签,其中,所述不确定性分布数据包括表示所述图像的每个像素在不同所述类别标签下概率的不确定性;
根据所述不确定性分布数据,构建第二损失函数;
获取所述图像中对应于不同所述伪标签的多个像素集合,根据所述像素集合中像素在所述编码特征上的位置,构建第三损失函数;
根据所述第一损失函数、所述第二损失函数以及所述第三损失函数,生成总损失,根据所述总损失调节所述分类网络模型与分割网络模型的模型参数;
将所述分类网络模型输出的分类结果输入至所述分割网络模型,得到语义分割结果;
其中,获得所述图像的所述不确定性分布数据包括:
计算第一区域内所述图像像素的颜色方差与位置方差;
根据所述颜色方差与所述位置方差,计算所述图像像素的颜色距离与空间距离;
根据所述颜色距离与所述空间距离,计算不同像素之间的像素关联数据;
将所述编码特征输入至分类器,得到类激活矩阵;
根据所述类激活矩阵与所述像素关联数据,得到类关联激活矩阵;
根据所述类关联激活矩阵与所述类别标签的长度,计算所述不确定性分布数据。
2.根据权利要求1所述的弱监督语义分割方法,其特征在于,将图像输入至分类网络模型,得到所述图像的编码特征包括:
将宽度为第一宽度,高度为第一高度的所述图像送入基础网络,生成宽度为第二宽度,高度为第二高度,深度为第一深度的所述编码特征。
3.根据权利要求1中所述的弱监督语义分割方法,其特征在于,在获得所述图像的不确定性分布数据之后,所述方法还包括:
将所述类关联激活矩阵进行归一化,计算归一化后的所述类关联激活矩阵中最大值对应的类别系数;
获取独热编码形式的类别标签,根据所述类关联激活矩阵、所述类别系数与独热编码形式的所述类别标签,构建第二损失函数。
4.根据权利要求1所述的弱监督语义分割方法,其特征在于,构建第三损失函数包括:
基于所述伪标签,将所述图像中的像素划分至不同伪标签对应类别的所述像素集合中;
随机抽取相同的所述像素集合中的两个像素,构建同类像素对;
随机抽取不同的所述像素集合中的两个像素,构建异类像素对;
根据所述同类像素对与所述异类像素对在所述编码特征上的位置,计算对比损失值,其中,所述对比损失值表示所述同类像素对之间的距离与所述异类像素之间相对距离的差值;
根据随机抽取的所述像素的像素位置数目与所述对比损失值,构建第三损失函数。
5. 根据权利要求1所述的弱监督语义分割方法,其特征在于,将所述分类网络模型输出的分类结果输入至所述分割网络模型,得到语义分割结果包括:
将所述分类结果输入至所述分割网络模型
根据所述不确定性分布数据、所述伪标签以及分割概率,构建分割损失函数;
根据所述分割损失函数,对所述分割网络进行全监督分割训练,得到所述语义分割结果。
6.一种弱监督语义分割装置,其特征在于,包括:
输入模块,用于将图像输入至分类网络模型,得到所述图像的编码特征;
第一损失计算模块,用于根据所述编码特征生成类别概率,根据所述类别概率与类别标签,构建第一损失函数,其中,所述类别概率表示所述图像的每个像素在不同所述类别标签下的概率;
第二损失计算模块,用于根据所述编码特征以及所述图像中像素的颜色距离与空间距离,获得所述图像的不确定性分布数据与伪标签,其中,所述不确定性分布数据包括表示所述图像的每个像素在不同所述类别标签下概率的不确定性,根据所述不确定性分布数据,构建第二损失函数;
第三损失计算模块,用于获取所述图像中对应于不同所述伪标签的多个像素集合,根据所述像素集合中像素在所述编码特征上的位置,构建第三损失函数;
结果计算模块,用于根据所述第一损失函数、所述第二损失函数以及所述第三损失函数,生成总损失,根据所述总损失调节所述分类网络模型与分割网络模型的模型参数,将所述分类网络模型输出的分类结果输入至所述分割网络模型,得到语义分割结果;
其中,获得所述图像的所述不确定性分布数据包括:
计算第一区域内所述图像像素的颜色方差与位置方差;
根据所述颜色方差与所述位置方差,计算所述图像像素的颜色距离与空间距离;
根据所述颜色距离与所述空间距离,计算不同像素之间的像素关联数据;
将所述编码特征输入至分类器,得到类激活矩阵;
根据所述类激活矩阵与所述像素关联数据,得到类关联激活矩阵;
根据所述类关联激活矩阵与所述类别标签的长度,计算所述不确定性分布数据。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至权利要求5中任一项所述的弱监督语义分割方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至权利要求5中任一项所述的弱监督语义分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310636751.1A CN116363372B (zh) | 2023-06-01 | 2023-06-01 | 弱监督语义分割方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310636751.1A CN116363372B (zh) | 2023-06-01 | 2023-06-01 | 弱监督语义分割方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116363372A CN116363372A (zh) | 2023-06-30 |
CN116363372B true CN116363372B (zh) | 2023-08-15 |
Family
ID=86934825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310636751.1A Active CN116363372B (zh) | 2023-06-01 | 2023-06-01 | 弱监督语义分割方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363372B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883673B (zh) * | 2023-09-08 | 2023-12-26 | 腾讯科技(深圳)有限公司 | 语义分割模型训练方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668579A (zh) * | 2020-12-24 | 2021-04-16 | 西安电子科技大学 | 基于自适应亲和力和类别分配的弱监督语义分割方法 |
WO2021239858A1 (en) * | 2020-05-27 | 2021-12-02 | Tomtom Global Content B.V. | Neural network model for image segmentation |
CN115359254A (zh) * | 2022-07-25 | 2022-11-18 | 华南理工大学 | 基于Vision Transformer网络的弱监督实例分割方法、系统及介质 |
-
2023
- 2023-06-01 CN CN202310636751.1A patent/CN116363372B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021239858A1 (en) * | 2020-05-27 | 2021-12-02 | Tomtom Global Content B.V. | Neural network model for image segmentation |
CN112668579A (zh) * | 2020-12-24 | 2021-04-16 | 西安电子科技大学 | 基于自适应亲和力和类别分配的弱监督语义分割方法 |
CN115359254A (zh) * | 2022-07-25 | 2022-11-18 | 华南理工大学 | 基于Vision Transformer网络的弱监督实例分割方法、系统及介质 |
Non-Patent Citations (1)
Title |
---|
基于加权损失函数的多尺度对抗网络图像语义分割算法;张宏钊;吕启深;党晓婧;李炎裕;代德宇;;计算机应用与软件(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116363372A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111192292B (zh) | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 | |
CN111353512B (zh) | 障碍物分类方法、装置、存储介质和计算机设备 | |
CN113642445B (zh) | 一种基于全卷积神经网络的高光谱影像分类方法 | |
CN113095370B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
CN116363372B (zh) | 弱监督语义分割方法、装置、设备和存储介质 | |
CN111915555B (zh) | 一种3d网络模型预训练方法、系统、终端及存储介质 | |
US20240062426A1 (en) | Processing images using self-attention based neural networks | |
CN112733602B (zh) | 关系引导的行人属性识别方法 | |
US20220012526A1 (en) | Systems and methods for image retrieval | |
US20240136023A1 (en) | Data processing method and apparatus, device, and storage medium | |
CN116978011A (zh) | 一种用于智能目标识别的图像语义通信方法及系统 | |
CN114358109A (zh) | 特征提取模型训练、样本检索方法、装置和计算机设备 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
CN116977714A (zh) | 图像分类方法、装置、设备、存储介质和程序产品 | |
CN111506691B (zh) | 一种基于深度匹配模型的轨迹匹配方法和系统 | |
CN114677578A (zh) | 确定训练样本数据的方法和装置 | |
CN114329065A (zh) | 视频标签预测模型的处理方法、视频标签预测方法和装置 | |
CN112085040B (zh) | 对象标签确定方法、装置和计算机设备 | |
CN112906724A (zh) | 一种图像处理装置、方法、介质及系统 | |
CN118334752B (zh) | 融合3dcnn与注意力机制的行为识别模型训练方法和系统 | |
CN117612206B (zh) | 行人重识别网络模型生成方法、装置、计算机设备及介质 | |
US12125247B2 (en) | Processing images using self-attention based neural networks | |
CN110991548B (zh) | 一种基于位置记录的用户人口学属性预测方法及系统 | |
CN116612287B (zh) | 图像识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |