CN114494693A

CN114494693A - 对图像进行语义分割的方法及装置

Info

Publication number: CN114494693A
Application number: CN202111664168.9A
Authority: CN
Inventors: 张慧; 钱辰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-13
Anticipated expiration: 2041-12-31

Abstract

本发明公开了一种对图像的初始的类激活图进行修正的方法、系统和计算机程序产品，方法包括：获取所述图像的超像素信息；利用所述图像的超像素信息，将所述图像分成多个区域，其中所述多个区域的每个区域的相关信息包括：与该区域相邻的区域以及该区域的所有像素；获取所述图像的所述初始的类激活图，所述类激活图是所述图像中的所有像素分类到所述图像中所含对象的类别中各个类别的概率值，特定类别概率值为特定类别的激活值；以及基于所述图像的所述多个区域的每个区域的相关信息对所述图像的所述初始的类激活图进行修正。修更后的类激活图能够更好地对图像进行语义分割。

Description

对图像进行语义分割的方法及装置

技术领域

本发明涉及图像处理中的语义分割，特别地，本发明涉及对图像进行语义分割的方法和系统。

背景技术

在图像处理中，对图像的语义分割在很多领域都有着重要的应用，比如自动驾驶，人机交互以及虚拟现实等。语义分割的主要任务是对输入图像的每一个像素点进行分类。随着深度学习技术的发展，现在的语义分割任务主要由深度学习技术完成。而深度学习中，使用全监督或弱监督方式进行图像的语义分割获得广泛关注。全监督方式训练分割网络要求的标注成本较高。而弱监督方式训练分割网络能够克服这一问题。例如，在使用弱监督训练分割网络对图像进行的语义分割中，图像级标注需要的标注成本最低：只需要给定输入图像以及给定图像前景中存在类别的标签。实现图像级标注语义分割要使用图像的类激活图，因而类激活图对最终图像分割结果的精度有较大影响。现有方法生成的类激活图精确度不够高造成图像的语义分割结果不够准确。

发明内容

根据本发明的一个方面，公开了一种对图像的初始的类激活图进行修正的方法，包括：获取所述图像的超像素信息；利用所述图像的超像素信息，将所述图像分成多个区域，其中所述多个区域的每个区域的相关信息包括：与该区域相邻的区域以及该区域的所有像素；获取所述图像的所述初始的类激活图，所述类激活图是所述图像中的所有像素分类到所述图像中所含对象的类别中各个类别的概率值，特定类别概率值为特定类别的激活值；以及基于所述图像的所述多个区域的每个区域的相关信息对所述图像的所述初始的类激活图进行修正。

根据本发明的另一个方面，公开了一种对图像进行语义分割的方法，包括：根据多个第一训练样本训练分类网络，所述分类网络的输入为每个第一训练样本，输出为每个第一训练样本对应的初始的类激活图，所述每个第一训练样本包含图像及该图像中所含对象的类别；对所述初始的类激活图使用图像的超像素信息，利用如上所述的对图像的初始的类激活图进行修正的方法进行修正；根据修正的类激活图生成伪标签；修正伪标签；以及利用多个第二训练样本训练分割网络，其中所述多个第二训练样本中的每个训练样本包含所述图像及所述图像所含对象逐像素修正后的伪标签，所述分割网络输出为所述多个第二训练样本包含的多个图像的逐像素标签的分割结果。

根据本发明的又一个方面，公开了一种对图像进行语义分割的方法，包括：根据多个第一训练样本训练分类网络，所述每个第一训练样本包含图像及所述图像中所含对象的类别，在训练过程中对每个第一训练样本：获得分类网络输出的训练中间过程的类激活图；对所述训练中间过程的类激活图使用图像的超像素信息，利用如上所述的对图像的初始的类激活图进行修正的方法进行修正，获得修正后的训练中间过程的类激活图；计算所述训练中间过程的类激活图与修正后的训练中间过程的类激活图之间的损失函数；以及利用所述损失函数指导所述分类网络进行后续迭代训练；响应于迭代训练完成，获得所述多个训练样本中每个训练样本的类激活图；根据获得的每个训练样本的类激活图生成伪标签；修正伪标签；以及利用多个第二训练样本训练分割网络，其中所述多个第二训练样本中的每个训练样本包含所述第一训练样本中的图像及该图像所含对象逐像素修正后的伪标签，所述分割网络输出为多个第二训练样本中包含的图像的逐像素标签的分割结果。

根据本发明的再一个方面，公开了一种对图像的初始的类激活图进行修正的系统，包括：一个或多个处理器，以及存储指令的计算机可读存储介质，所述指令在由所述一个或多个处理器执行时，所述一个或多个处理器执行如上所述的对图像的初始的类激活图进行修正的方法。

根据本发明的再一个方面，公开了一种对图像进行语义分割的系统，包括：一个或多个处理器，以及存储指令的计算机可读存储介质，所述指令在由所述一个或多个处理器执行时，所述一个或多个处理器执行如上所述的对图像进行语义分割的方法。

附图说明

图1示出了根据输入图像完成图像级标注的语义分割的结果示例；

图2示出了一个类激活图的示例；

图3a示出了对一张图像中的前景类别(马)的类激活图；

图3b示出了对一张图像中的前景类别(人)的类激活图；

图4示出了根据本发明实施例的一种对图像的初始的类激活图进行修正的方法的流程图；

图5示出了一幅示例图像修正的整个流程；

图6示出了根据本发明实施例的实现图4中步骤404的流程图；

图7示出了根据本发明实施例的实现图6中步骤613的对图像的域间激活值进行传播的方法的流程图；

图8示出了根据本发明实施例的一种图像语义分割方法的流程图；

图9示出了根据本发明实施例的一种图像语义分割方法的流程图；

图10示出了一种对图像的初始的类激活图进行修正的系统的结构框图；

图11示出了一种图像进行语义分割的系统的结构框图；

图12示出了一种对图像进行语义分割的系统的结构框图；

图13示出了将图9的方法应用到PASCAL VOC 2012的验证集上生成类激活图的效果；以及

图14示出了将图9的方法应用到PASCAL VOC 2012的验证集上生成语义分割图的效果。

具体实施方式

以下描述包括体现本发明技术的示例性方法、系统、和存储介质。然而，应该理解，在一个或多个方面，可以在没有这些具体细节的情况下实践所描述的发明。在其他情况下，没有详细示出公知的协议、结构和技术，以免模糊本发明。本领域普通技术人员将理解，所描述的技术和机制可以应用于利用图像说明训练目标检测模型的系统、方法、以及计算机可读存储介质。

下面参照附图来说明本发明的实施例。在下面的说明中，阐述了许多具体细节以便更全面地了解本发明。但是，对于本技术领域内的技术人员明显的是，本发明的实现可不具有这些具体细节中的一些。此外，应当理解的是，本发明并不限于所介绍的特定实施例。相反，可以考虑用下面的特征和要素的任意组合来实施本发明，而无论它们是否涉及不同的实施例。因此，下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素或限定，除非权利要求中明确提出。

如技术背景所述，全监督方式训练分割网络要求的标注成本较高，而弱监督方式训练分割网络能够克服这一问题。其中图像级标注，作为一种弱监督训练图像语义分割网络的方式，需要的标注成本最低：只需要给定输入图像以及给定图像前景中存在类别的标签。图1示出了根据输入图像完成图像级标注的语义分割的结果示例，其包含一个输入图像110，输入图像级标注120(此例中以文本形式展示，即前景类别，输入图像110中的背景一般不作为一个前景类别考虑)及其对应的输出的语义分割结果130，其中包括分类到前景类别(人)的部分像素140，分类到前景类别(飞机)的部分像素150。

实现图像级标注语义分割的常用流程为：1.根据多个第一训练样本(一个样本包含图像及该图像中所含对象的类别)训练分类网络，该分类网络的输出是图像中的所有像素点分类到当前图像级标注中的各个类别的概率值(本领域技术人员称为类激活值，其为范围为0-1之间的数值)，该图像所有像素的某一类别的类激活值映射到图像的像素数值范围后组成的图像，本领域技术人员称其为类激活图(Class Activation Map,CAM)；2.根据类激活图生成伪标签并完成修正；3.利用多个第二训练样本(一个样本包含图像及该图像所含对象逐像素修正后的伪标签)训练语义分割网络，该语义分割网络输出为图像的逐像素标签。语义分割网络的训练是基于生成的类激活图，因而类激活图对最终图像分割结果的精度有较大影响。图2示出了一个类激活图的示例，为一个图像对应的前景类别(鸟)的类激活图。在该类激活图中，以亮度表示像素点位置分类到当前前景类别(鸟)的概率值(即激活值)的大小。越亮的像素表示该位置像素分类到前景类别(鸟)的概率越大。

现有方法生成的类激活图仍存在两点不足。一是因为用于生成类激活图的网络为分类网络，其识别部分主要是对应前景类别最具特征性的部分而不是整个物体，这导致了类激活图的不连续性，例如图3a示出了对一张图像中的前景类别(马)的类激活图。生成的该类激活图更多的是关注马的眼睛位置的像素310，而马的身体位置像素320则激活值较低，甚至接近于0，这是不利于语义分割识别整个物体的；二是因为没有架构性信息的指导，生成的类激活图的边界不够清晰，即容易将背景类或其他类的像素点赋予错误类别的较高概率，例如图3b示出了对一张图像中的前景类别(人)的类激活图。其中部分边缘处330中本应当属于背景类或属于前景类别(飞机)的像素在前景类别(人)的类激活图中同样有较高的激活值。

所以需要对生成的类激活图进行修正。现有的图像的初始类激活图的修正方法包括在卷积层的不同分支上使用不同的空洞卷积或者在训练分割网络时加入额外的辅助训练任务使得网络探索像素间关系等。这些方法均使用原图像，原图像的各种规则变形以及类别标签作为输入，缺少图像的架构性信息作为网络训练的指导。考虑到超像素作为一种架构性信息能够提供清晰的物体边界，本发明的方法将原图像的超像素信息作为输入的一部分，这样修正后的类激活图将具有清晰的物体边界。

本发明提出了一种对图像的初始的类激活图进行修正的方法，有效提升生成的类激活图的连续性，以及减少在错误类别得到高激活值的像素以使得生成的类激活图获得清晰的物体边缘。通过对输入图像类激活图的修正，可获得准确度更高的伪标签，从而在最终训练语义分割网络时提高图像语义分割结果的精度。

图4示出了根据本发明实施例的一种对图像的初始的类激活图进行修正的方法400的流程图。如图4所述，在步骤401，获取图像的超像素信息。图像的超像素信息即为对图像像素进行聚类的结果。对初始的类激活图的修正的输入包括：图像的初始的类激活图以及该图像的超像素信息。可利用现有技术中OpenCV库函数或单独训练超像素分割网络获得图像的超像素信息。

在步骤402，利用图像的超像素信息，将图像分成多个区域，其中多个区域的每个区域的相关信息包括：与该区域相邻的区域以及该区域的所有像素。利用图像的超像素信息，即聚类的结果，可直接按不同类别将图像分成多个区域。图5示出了一幅示例图像修正的整个流程，其中(a)为原始输入图像，(b)为根据原始输入图像获得的超像素信息获得的区域信息。以(b)中区域1为例，其相邻区域包括：区域2、区域3、区域4及区域5。另外，区域1中的所有像素作为区域1的一项信息进行存储。在一种实施方式中，对图像分成的多个区域的每个区域分别维护两个列表，其中一个列表为与该区域相邻区域的索引，并且另外一个列表包含该区域内所包含的所有像素的索引，这两个列表作为图像多个区域的每个区域的相关信息。

在步骤403，获取图像的初始的类激活图，类激活图是图像中的所有像素分类到图像中所含对象的类别中各个类别的概率值，特定类别概率值为特定类别的激活值。可利用现有技术中的对各种分类网络的训练获得图像初始的类激活图。例如，图1包含两个前景类别：飞机和人，可以获取到两个初始的类激活图；图2包含一个前景类别(鸟)，可以获取到一个初始的类激活图。

在步骤404，基于图像的多个区域的每个区域的相关信息对图像的初始的类激活图进行修正。对从图像的超像素信息获取的多个区域的每个区域的相关信息的充分利用能够使得修正后的类激活图有着清晰的物体边界，也即减少类激活图中像素在错误类别获得高激活值的情况。图像修正后的类激活图相比图像初始的类激活图有着更高的精确度，从而使得图像语义分割结果得到一定性能的提升。下面将具体介绍该步骤的实现。

在一些实施例中，图6示出了根据本发明实施例的实现图4中步骤404的流程图600。流程图600的步骤说明将结合图5中前景类别(羊)为例，给出具体的实现结果。图5中，(c)为从前景类别(羊)的类激活图中选取的部分像素，颜色深度表征激活值的大小。根据图6，在步骤601判断多个前景类别中是否还存在未处理的类别，如果不存在未处理的类别，就结束。如果还存在未处理的类别，则在步骤602选择一个未处理的前景类别，称为第一特定类别。在图5中只有一个未处理的第一特定类别。

在步骤603，将多个区域的每个区域的第一特定类别(图5中为前景类别(羊))处理状态初始化为未处理。一种实施方式是创建一个列表以保存在该类别下每个区域的处理状态并做标记。也可以使用其他数据结构表示。在图5中，对前景类别(羊)这个第一特定类别，每个区域的处理状态初始化为未处理。

对所有未处理区域，循环执行步骤604-610，在步骤604，获得第一特定类别中处理状态为未处理的所有区域中的像素对应第一特定类别上的激活值为最大激活值的第一像素，第一像素在第一特定类别上的激活值为第一激活值。例如，在图5中(b)中所有区域均为未处理状态区域，其中对应第一特定类别(羊)上的激活值最大的像素为510中包含的某个像素。其激活值假设为0.8(激活值范围为[0,1])，则第一激活值为0.8。所有未处理区域中的其他像素在第一特定类别下的激活值均小于0.8。因激活值的数值小数点后有多位数，图像中同一类别下不同像素的激活值几乎均不相同，因而本发明中认为第一特定类别下未处理区域中最大激活值对应的像素一般有且仅有一个。

在步骤605，判断在第一特定类别下，第一激活值是否大于第一预设阈值。在一种实施方式中，所述第一预设阈值由用户指定。假设用户指定为0.6。在其他的实施例中，第一预设阈值也可以采用神经网络训练的方法获得。

在步骤606，如果第一特定类别下第一激活值大于第一预设阈值，根据图像的多个区域的每个区域的相关信息，获得第一像素对应的第一区域。图5中像素510对应的第一特定类别第一激活值0.8大于第一预设阈值0.6，获得第一激活值为0.8的第一像素所在第一区域，此处为区域5。

在步骤607，判断第一区域中包含的所有像素在第一特定类别上的激活值是否满足预设条件。在一种实施方式中，预设条件为第一区域内所有像素的在第一特定类别的激活值均大于用户设定的类激活值。在另一种实施方式中，预设条件第一区域内一定比例像素的在第一特定类别的激活值大于用户设定的类激活值。在另外一种实施方式中，第一区域内所有像素的在第一特定类别的激活值平均值大于用户设定的类激活值。例如，假定图5中预设条件为第一区域内80％像素在第一特定类别(羊)上的激活值大于0.6。

如果第一区域中包含的所有像素在第一特定类别上的激活值满足预设条件，在步骤608，使第一区域中包含的所有像素在第一特定类别上的激活值为区域内像素在第一特定类别上的第一激活值，在步骤609，定义第一区域为域内激活区域，并在步骤610更新第一区域的处理状态为已处理。对应图5中的案例，区域5满足大于80％像素在第一特定类别(羊)上的激活值大于0.6，则将区域5内像素在第一特定类别(羊)上的激活值均改为0.8，并更新区域5状态为已处理，而区域5也就被作为第一特定类别(羊)下的域内激活区域。

若步骤607中第一区域中包含的所有像素在第一特定类别上的激活值不满足预设条件，则在步骤611中使所述第一区域中大于预设阈值的像素在第一特定类别上的激活值设为第二激活值。一种实施方式为，第二激活值设为第一区域内满足预设条件像素之外的其他像素在第一特定类别上激活值的平均值。另一种实施方式为，第二激活值设为第一区域内满足预设条件像素之外的其他像素在第一特定类别上激活值的中间值。另一种实施方式为，第二激活值设为第一区域内满足预设条件像素之外的任意其他像素在第一特定类别上的激活值。另一种实施方式为，第二激活值设为用户的设定值。在步骤612中，同样更新第一区域的处理状态为已处理。例如，假定用户设定第二激活值的值为0.1。若图5中区域5内少于80％的像素在第一特定类别(羊)下的激活值大于0.6，则将区域5中在第一特定类别(羊)激活值大于0.6的像素在第一特定类别(羊)的激活值改为0.1。如图5中520处所示，因不满足预设条件，在第一特定类别(羊)下的大于预设阈值部分像素的激活值被降低。如520所示，因像素在第一特定类别(羊)下的激活值被降低而不再作为羊类别下高激活值像素显示。这样做使得前景物体(羊)内部的像素与外部边缘处像素在第一特定类别(羊)下激活值有较大差异，有利于形成清晰的边缘。

经过多次迭代处理后，就会出现所有未处理的区域的第一激活值不大于第一预设阈值的情况，即图6步骤605的“否”的情况，说明应该归类为第一特定类别(羊)的区域都已经处理，换句话说，域内处理结束，可以到步骤613进行域间处理。具体实践上，可从图5(d)达到图5(e)的效果。其中，存在“连线”的区域530，为经过域内激活值传播的区域，即为步骤609中的域内激活区域。

若步骤605中判断第一特定类别下未处理的最大像素激活值不满足条件，则一种实施方式为，在步骤613中，根据该图像的第一特定类别的域内激活区域中的每个区域中的像素的激活值以及多个区域的每个区域的相关信息中包括的与该区域相邻的区域，执行图像的域间激活值传播。关于域间激活值传播，将在下面详细描述。重复上述过程直到所有图像中的前景类别都完成处理。另一种实施方式为，选定该图像中另一未处理的第一特定类别并执行上述操作，直到所有图像中的前景类别都完成处理，再按照前景类别分别执行步骤613中的域间激活值传播。

在一些实施方式中，图7示出了根据本发明实施例的实现图6中步骤613的对图像的域间激活值进行传播的方法的流程图700。流程图700的步骤说明将结合图5中前景类别(羊)为例，给出具体的实现结果。图5中，(e)为从图6中获取到的处理后的第一特定类别(羊)下的激活图及域内激活区域。

根据图7，在步骤701，将域内激活区域中的每个区域的第一特定类别处理状态初始化为未处理，然后对第一特定类别所有未处理域内激活区域循环执行如下步骤：在步骤702，获取域内激活区域中的所有区域中，在第一特定类别上激活值最大的第二区域，第二区域第一特定类别上的激活值为第三激活值。以图5中图像(e)为例，假定除区域5之外，其他域内激活区域在第一特定类别(羊)上的激活值均小于0.8，则区域5为第二区域，第三激活值为0.8。

在步骤703，判断第三激活值是否大于第二预设阈值。在一种实施方式中，第二预设阈值可以是用户预设阈值。例如，假定图5案例中，用户预设的阈值为0.6。第二预设阈值可以和第一预设阈值相同或者不同。

在步骤704，若第三激活值大于第二预设阈值，根据第二区域的相关信息中包括的与第二区域相邻的区域，获得第二区域的置信相邻区域，其中所述置信相邻区域为所述第二区域的相邻未处理区域中在所述第一特定类别上的激活值最大的区域。例如，图5中第二区域5的相邻区域包括区域1、2、4等，比较区域1、2、4及其他相邻区域在第一特定类别(羊)下的激活值，假定此处获取到的置信相邻区域为区域6，并假设区域6在第一特定类别(羊)上的激活值为0.7。

在步骤705，判断置信相邻区域在第一特定类别上的激活值是否大于第二阈值，即图5案例中，区域6在第一特定类别(羊)上的激活值0.7大于用户预设第二阈值0.6。

在步骤706，若置信相邻区域满足判断条件，则将置信相邻区域包含的所有像素在第一特定类别下的激活值修改为在第一特定类别上第三激活值。在图5的案例中，将区域6中所有像素在第一特定类别(羊)的激活值从0.7更改为0.8。

在步骤707，将第二区域及其置信相邻区域合并为一新区域，在步骤708更新新区域的相关信息，并在步骤709更新第二区域及第二区域的置信相邻区域的处理状态为已处理。在图5的案例中，将第二区域5与置信相邻区域6合并，同时合并两区域的相邻区域信息，以及更该两区域的处理状态为已处理。

不断寻找域内激活区域中新区域的置信相邻区域并完成合并，直到步骤705中无置信相邻区域可满足预设条件。此时重新寻找未合并过的域内激活区域，重复上述过程至选择的域内激活区域在第一特定类别下的激活值小于第二阈值，即进入步骤703的“否”的分支，然后结束过程。

使用图6和图7组成的对图像的初始的类激活图进行修正的方法，能够使得类激活图更加连续，即在同一物体内部的像素在同一类别下的激活值更加具有一致性。同时，该修正方法能够帮助获取边界更加清晰的类激活图，减少误分的可能性。

图8示出了根据本发明实施例的一种图像语义分割方法的流程图800，其中应用用于修正初始的类激活图的方法600。

在步骤801，根据多个第一训练样本训练分类网络，分类网络的输入为每个第一训练样本，输出为每个第一训练样本对应的初始的类激活图，每个第一训练样本包含图像及该图像中所含对象的类别。

在步骤802，对初始的类激活图使用图像的超像素信息，利用上述方法600进行初始的类激活图的修正。

在步骤803，根据修正的类激活图生成伪标签。在一种实施方式中，对修正后的类激活图，根据每一像素位置处各前景类别所获概率大小，并通过argmax函数生成伪标签，即将各像素分类到所获概率最大的前景类别。

在步骤804，修正伪标签。可以利用现有方法，如显著性检测等，完成对生成的伪标签的修正。

在步骤805，利用多个第二训练样本训练分割网络，其中多个第二训练样本中的每个训练样本包含图像及图像所含对象逐像素修正后的伪标签，分割网络输出为多个第二训练样本包含的多个图像的逐像素标签的分割结果。训练好的分割网络能够以单张图片为输入，以最终语义分割结果作为输出。

使用图8所示的方法，能够获得边界更加清晰的语义分割图，并且获取到的语义分割图的精度也更高。

图9示出了根据本发明实施例的一种图像语义分割方法的流程图900，其中迭代地应用用于修正初始的类激活图的方法600。在类激活图的生成训练网络中，接收分类网络输出的训练中间过程的类激活图，对训练中间过程的类激活图应用上述修正方法600。

在步骤901，判断是否完成训练过程中对所有第一训练样本的训练，其中，根据多个第一训练样本训练分类网络，所述每个第一训练样本包含图像及所述图像中所含对象的类别。

在训练过程中对每个第一训练样本迭代执行步骤902-905，其中，在步骤902获得分类网络输出的训练中间过程的类激活图，在步骤903对所述训练中间过程的类激活图使用图像的超像素信息，利用方法600获得修正后的训练中间过程的类激活图，在步骤904计算训练中间过程的类激活图与修正后的训练中间过程的类激活图之间的损失函数，并在步骤905利用损失函数指导分类网络进行后续迭代训练，直到整个网络训练完成所有第一训练样本的训练。

在一种实施方式中，损失函数定义为训练中间过程的类激活图与修正后的训练中间过程的类激活图之间的绝对差值的平均值。

在步骤901判断完成所有第一训练样本训练的网络，在步骤906获得多个训练样本中每个训练样本的类激活图。在步骤907根据获得的每个训练样本的类激活图生成伪标签。可以根据每一像素位置处各前景类别所获概率大小，并通过argmax函数生成伪标签，即将各像素分类到所获概率最大的前景类别。在步骤908，修正伪标签。可以利用现有方法，如显著性检测等，完成对生成的伪标签的修正。

在步骤909，利用多个第二训练样本训练分割网络，其中多个第二训练样本中的每个训练样本包含图像及图像所含对象逐像素修正后的伪标签，分割网络输出为多个第二训练样本包含的多个图像的逐像素标签的分割结果。训练好的分割网络能够以单张图片为输入，以最终语义分割结果作为输出。

利用图9所示的方法，能够在训练生成类激活图的网络中迭代地修改类激活图以指导网络对区域间以至于像素间关系的学习，提升生成类激活图的连续性并使得生成的类激活图具有清晰的物体边缘。

图10示出了一种对图像的初始的类激活图进行修正的系统1000的结构框图。根据图10，系统1000以图像1002、图像超像素信息1004以及图像初始类激活图1006为输入，系统1000具体包括获取模块1008、区域划分模块1010以及初始类激活图修正模块1012。获取模块1008被配置为获取图像，获取所述图像的超像素信息，以及获取所述图像的初始类激活图，类激活图是图像中的所有像素分类到图像中所含对象的类别中各个类别的概率值，特定类别概率值为特定类别的激活值。区域划分模块1010被配置为利用图像的超像素信息，将图像分成多个区域，其中多个区域的每个区域的相关信息包括：与该区域相邻的区域以及该区域的所有像素。初始类激活图修正模块1012被配置为基于图像的多个区域的每个区域的相关信息对图像的初始的类激活图进行修正。

在一种实施方式中，初始类激活图修正模块1012被进一步配置为对所述多个类别的每一第一特定类别执行如下步骤：将所述多个区域的每个区域的第一特定类别处理状态初始化为未处理；对所有未处理区域循环执行如下步骤：获得第一特定类别处理状态为未处理的所有区域中的像素对应的所述第一特定类别上的激活值为最大激活值的第一像素，所述第一像素的所述第一特定类别上的激活值为第一激活值；判断所述第一激活值是否大于第一预设阈值；响应于所述第一激活值不大于第一预设阈值，结束对所有未处理区域循环执行的处理；响应于所述第一激活值大于第一预设阈值，根据所述图像的所述多个区域的每个区域的相关信息，获得所述第一像素对应的第一区域；判断所述第一区域中包含的所有像素所述第一特定类别上的激活值是否满足预设条件；响应于所述第一区域中包含的所有像素所述第一特定类别上的激活值满足预设条件，使所述第一区域中包含的所有像素的所述第一特定类别上的激活值为所述第一激活值，定义所述第一区域为域内激活区域；以及更新所述第一区域的处理状态为已处理；响应于所述第一区域中包含的所有像素所述第一特定类别上的激活值不满足所述预设条件，使所述第一区域中大于预设阈值的像素的所述第一特定类别上的激活值为第二激活值，并更新所述第一区域的第一特定类别处理状态为已处理；以及根据该图像的第一特定类别的域内激活区域中的每个区域中的像素的激活值以及所述多个区域的每个区域的相关信息中包括的与该区域相邻的区域，执行所述图像的域间激活值传播。

在一种实施方式中，执行所述图像的域间激活值传播包括：将所述域内激活区域中的每个区域的第一特定类别处理状态初始化为未处理；对所有未处理域内激活区域循环执行如下步骤：获得所述域内激活区域中的所有区域中所述第一特定类别上的激活值最大的第二区域，所述第二区域所述第二特定类别上的激活值为第三激活值；判断所述第三激活值是否大于第二预设阈值；响应于所述第三激活值不大于第二预设阈值，结束对所有未处理域内激活区域的处理；响应于所述第三激活值大于第二预设阈值，根据所述第二区域的相关信息中包括的与该第二区域相邻的区域，获得所述第二区域的置信相邻区域，其中所述置信相邻区域为所述第二区域的相邻未处理区域中在所述第一特定类别上的激活值最大的区域；判断所述第二区域的置信相邻区域的所述第一特定类别上的激活值是否大于所述第二预设阈值；响应于所述第二区域的置信相邻区域的所述第一特定类别上的激活值大于所述第二预设阈值，使所述第二区域的置信相邻区域包含的所有像素的所述第一特定类别上的激活值为所述第三激活值，将所述第二区域及所述第二区域的置信相邻区域合并为一新区域，以及更新所述新区域的相关信息；以及更新所述第二区域及所述第二区域的置信相邻区域的处理状态为已处理；以及响应于对图像中的每一类别都处理完毕，得到所述图像的初始类激活图的修正图。

在一种实施方式中，预设条件包括以下之一：所述第一区域内所有像素的在第一特定类别的类激活值均大于用户设定的类激活值；所述第一区域内一定比例像素的在第一特定类别的类激活值大于用户设定的类激活值；以及所述第一区域内所有像素的在第一特定类别的类激活值平均值大于用户设定的类激活值。

在一种实施方式中，所述第二激活值为以下之一：所述第一区域内除所述第一特定类别激活值满足所述预设条件的像素之外的其他像素的所述第一特定类别上的激活值的平均值；所述第一区域内除所述第一特定类别激活值满足所述预设条件的像素之外的其他像素的所述第一特定类别上的激活值的中间值；所述第一区域内除所述第一特定类别激活值满足所述预设条件的像素之外的其他任意像素的所述第一特定类别上的激活值；以及用户预设的激活值。

图11示出了一种图像进行语义分割的系统1100的结构框图。如图11所示，系统1100包括分类网络训练模块1102、系统1000、伪标签生成模块1104、伪标签修正模块1106，以及分割网络训练模块1108。其中，分类网络训练模块1102被配置为根据多个第一训练样本训练分类网络，分类网络的输入为每个第一训练样本，输出为每个第一训练样本对应的初始的类激活图，每个第一训练样本包含图像及该图像中所含对象的类别。系统1000将完成对初始类激活图的修正。伪标签生成模块1104被配置为根据修正的类激活图生成伪标签。伪标签修正模块1106被配置为修正生成的伪标签。分割网络训练模块1108被配置为利用多个第二训练样本训练分割网络，其中多个第二训练样本中的每个训练样本包含图像及图像所含对象逐像素修正后的伪标签，分割网络输出为多个第二训练样本包含的多个图像的逐像素标签的分割结果。

图12示出了一种对图像进行语义分割的系统1200的结构框图。如图12所示，系统1200包括分类网络训练模块1202、类激活图获取模块1204、系统1000、损失函数计算模块1206、指导模块1208、伪标签生成模块1210、伪标签修正模块1212，以及分割网络训练模块1214。其中，分类网络训练模块1202被配置为根据多个第一训练样本训练分类网络，每个第一训练样本包含图像及图像中所含对象的类别。类激活图获取模块1204被配置为在训练过程中获取每个第一训练样本在分类网络训练中间过程输出的类激活图。系统1000用于修正获取到的分类网络训练中间过程中输出的类激活图。损失函数计算模块1206被配置为计算训练中间过程的类激活图与修正后的训练中间过程的类激活图之间的损失函数。指导模块1208被配置为利用损失函数指导所述分类网络进行后续迭代训练。当分类网络的迭代训练完成，类激活图获取模块1204可再次获取到所有第一训练样本的类激活图。伪标签生成模块1210倍配置为根据获得的每个训练样本的类激活图生成伪标签。伪标签修正模块1212被配置为修正生成的伪标签。分割网络训练模块1214被配置为利用多个第二训练样本训练分割网络，其中多个第二训练样本中的每个训练样本包含第一训练样本中的图像及该图像所含对象逐像素修正后的伪标签，分割网络输出为多个第二训练样本中包含的图像的逐像素标签的分割结果。

图13示出了将方法900应用到PASCAL VOC 2012的验证集上生成类激活图的效果，即与不添加中间过程修正产生的类激活图的对比效果展示。PASCAL VOC 2012数据集有1.5k的训练图像(常用数据增强后的10k张训练图像)及1.5k的验证图像，其包含20个类别(不包括背景类)，常用于分类、检测和分割任务。如图13所示，(a)行为多个原始图像，(b)为(a)行图像不添加训练中间过程修正生成的对应的类激活图，(c)为(a)行图像添加训练中间过程修正生成的对应的类激活图。值得注意的是，为增加比较的公平性，此处为对中间过程类激活图的修正方法900进行训练时，相应减少训练轮次的结果。从对比效果可以看出，本发明中的方法600对生成类激活图的连续性有所提升，如第四栏中对“羊”类的激活图中，本发明的方法600在羊物体内的像素有更连续的激活值，即像素亮度，它也同时代表了对“羊”类别像素的正确识别，即相较背景类在“羊”类上有更大的激活值。另外，本发明中的方法600减少了类激活图中像素在错误类别上的高激活值，如第一栏对列车的类激活图中，不添加训练中间过程修正生成的类激活图在属于背景类的像素上也有较高的“列车”类激活值，而添加训练中间过程修正生成的类激活图则更注重对前景中列车物体的识别。

同样在生成类激活图量化的比较中，不添加训练中间过程修成生成的类激活图指标为55.41％mIoU，而添加了训练中间过程修正生成的类激活图指标为56.34％mIoU。此处指标上使用的mIoU指平均交并比，即生成结果与真实结果交集中像素点的个数比上生成结果与真实结果并集中像素点的个数并求的总体评价数据集上的平均值，该指标常用于语义分割结果的评价。从指标中可以看到，添加对中间过程类激活图进行修正后的方法900生成的类激活图达到了指标上的提升。

图14示出了将方法900应用到PASCAL VOC 2012的验证集上生成语义分割图的效果。如图14所示，在效果的对比图中，(a)表示原图，(b)表示正确的语义分割结果，(c)和(d)表示其他现存方法的语义分割结果，(e)表示本发明提出的图像语义分割方法的分割结果。从图14中1401可以看出，本发明提出的图像语义分割方法在物体边缘的分割上更加明晰，同时对像素类别的分配更加准确。

表1示出了将方法900应用到PASCAL VOC 2012在验证集和测试集上的语义分割结果与现有存在的本领域技术人员所知的13种方法的指标比较。根据生成的图像伪标签训练完整的语义分割网络，在常用的语义分割数据集PASCAL VOC 2012的验证集和测试集上本发明中的方法900均达到现在图像级标注语义分割的最好效果71.4％mIoU及71.4％mIoU，可见我们的方法明显优于现有存在的各种图像级标注的图像语义分割方法。

方法	骨干网络	验证集	测试集
				SEC	VGG16	50.7	51.1
MDC	VGG16	60.4	60.8
				MCOF	ResNet101	60.3	61.2
DCSP	ResNet101	60.8	61.9
				SeeNet	ResNet101	63.1	62.8
DSRG	ResNet101	61.4	63.2
				AffinityNet	ResNet38	61.7	63.7
IRNET	ResNet50	63.5	64.8
				FickleNet	ResNet101	64.9	65.3
SEAM	ResNet38	64.5	65.7
				MCIS	ResNet101	66.2	66.9
ICD	ResNet101	67.8	68.0
				EDAM	ResNet101	70.9	70.6
我们的方法	ResNet101	71.4	71.4

表1

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种对图像的初始的类激活图进行修正的方法，其特征在于，包括：

获取图像的超像素信息；

利用所述超像素信息将所述图像分成多个区域，并获取所述多个区域中每个区域的相关信息，其中所述相关信息包括：与该区域相邻的区域以及该区域的所有像素；

获取所述图像的初始类激活图，所述类激活图是所述图像中的所有像素分类到所述图像中所含对象的类别中各个类别的概率值，特定类别的概率值为特定类别的激活值；以及

基于所述图像的所述多个区域中每个区域的相关信息对所述图像的所述初始类激活图进行修正。

2.根据权利要求1所述的方法，其特征在于，基于所述图像的所述多个区域中每个区域的相关信息对所述图像的所述初始类激活图进行修正，包括：

所述类别包括多个第一特定类别，对多个类别的每一第一特定类别执行如下步骤：

将所述多个区域的每个区域的第一特定类别处理状态初始化为未处理；

对所有未处理区域循环执行如下步骤：

获得第一特定类别处理状态为未处理的所有区域中的像素对应的所述第一特定类别上的激活值为最大激活值的第一像素，所述第一像素的所述第一特定类别上的激活值为第一激活值；

判断所述第一激活值是否大于第一预设阈值；

响应于所述第一激活值不大于第一预设阈值，结束对所有未处理区域循环执行的处理；

响应于所述第一激活值大于第一预设阈值，根据所述图像的所述多个区域的每个区域的相关信息，获得所述第一像素对应的第一区域；

判断所述第一区域中包含的所有像素所述第一特定类别上的激活值是否满足预设条件；

响应于所述第一区域中包含的所有像素所述第一特定类别上的激活值满足预设条件，

使所述第一区域中包含的所有像素的所述第一特定类别上的激活值为所述第一激活值，

定义所述第一区域为域内激活区域；以及

更新所述第一区域的处理状态为已处理。

3.根据权利要求2所述的方法，其特征在于，其中所述预设条件包括以下之一：

所述第一区域内所有像素的在第一特定类别的类激活值均大于用户设定的类激活值；

所述第一区域内一定比例像素的在第一特定类别的类激活值大于用户设定的类激活值；以及

所述第一区域内所有像素的在第一特定类别的类激活值平均值大于用户设定的类激活值。

4.根据权利要求1所述的方法，其特征在于，基于所述图像的所述多个区域中每个区域的相关信息对所述图像的所述初始类激活图进行修正，进一步包括：

响应于所述第一区域中包含的所有像素所述第一特定类别上的激活值不满足所述预设条件，使所述第一区域中大于预设阈值的像素的所述第一特定类别上的激活值为第二激活值，并更新所述第一区域的第一特定类别处理状态为已处理。

5.根据权利要求4所述的方法，其特征在于，其中所述第二激活值为以下之一：

所述第一区域内除所述第一特定类别激活值满足所述预设条件的像素之外的其他像素的所述第一特定类别上的激活值的平均值；

所述第一区域内除所述第一特定类别激活值满足所述预设条件的像素之外的其他像素的所述第一特定类别上的激活值的中间值；

所述第一区域内除所述第一特定类别激活值满足所述预设条件的像素之外的其他任意像素的所述第一特定类别上的激活值；以及

用户预设的激活值。

6.根据权利要求1所述的方法，其特征在于，基于所述图像的所述多个区域中每个区域的相关信息对所述图像的所述初始类激活图进行修正，进一步包括：

对所述多个类别的每一第一特定类别执行如下步骤：

根据该图像的第一特定类别的域内激活区域中的每个区域中的像素的激活值以及所述多个区域的每个区域的相关信息中包括的与该区域相邻的区域，执行所述图像的域间激活值传播。

7.根据权利要求6所述的方法，其特征在于，其中执行所述图像的域间激活值传播，包括：

将所述域内激活区域中的每个区域的第一特定类别处理状态初始化为未处理；

对所有未处理域内激活区域循环执行如下步骤：

获得所述域内激活区域中的所有区域中所述第一特定类别上的激活值最大的第二区域，所述第二区域所述第二特定类别上的激活值为第三激活值；

判断所述第三激活值是否大于第二预设阈值；

响应于所述第三激活值不大于第二预设阈值，结束对所有未处理域内激活区域的处理；

响应于所述第三激活值大于第二预设阈值，根据所述第二区域的相关信息中包括的与该第二区域相邻的区域，获得所述第二区域的置信相邻区域，其中所述置信相邻区域为所述第二区域的相邻未处理区域中在所述第一特定类别上的激活值最大的区域；

判断所述第二区域的置信相邻区域的所述第一特定类别上的激活值是否大于所述第二预设阈值；

响应于所述第二区域的置信相邻区域的所述第一特定类别上的激活值大于所述第二预设阈值，

使所述第二区域的置信相邻区域包含的所有像素的所述第一特定类别上的激活值为所述第三激活值，

将所述第二区域及所述第二区域的置信相邻区域合并为一新区域，以及

更新所述新区域的相关信息；以及

更新所述第二区域及所述第二区域的置信相邻区域的处理状态为已处理；以及

响应于对图像中的每一类别都处理完毕，得到所述图像的初始类激活图的修正图。

8.一种对图像进行语义分割的方法，其特征在于，包括：

根据多个第一训练样本训练分类网络，所述分类网络的输入为每个第一训练样本，输出为每个第一训练样本对应的初始的类激活图，所述每个第一训练样本包含图像及该图像中所含对象的类别；

对所述初始的类激活图使用图像的超像素信息，利用权利要求1-7任一项所述的方法进行修正；

根据修正的类激活图生成伪标签；

修正伪标签；以及

利用多个第二训练样本训练分割网络，其中所述多个第二训练样本中的每个训练样本包含所述图像及所述图像所含对象逐像素修正后的伪标签，所述分割网络输出为所述多个第二训练样本包含的多个图像的逐像素标签的分割结果。

9.一种对图像进行语义分割的方法，其特征在于，包括：

根据多个第一训练样本训练分类网络，所述每个第一训练样本包含图像及所述图像中所含对象的类别，在训练过程中对每个第一训练样本：

获得所述分类网络输出的训练中间过程的类激活图；

对所述训练中间过程的类激活图使用图像的超像素信息，利用使用权利要求1-7任一项所述的方法进行修正，获得修正后的训练中间过程的类激活图；

计算所述训练中间过程的类激活图与修正后的训练中间过程的类激活图之间的损失函数；

利用所述损失函数指导所述分类网络进行后续迭代训练；

响应于迭代训练完成，获得所述多个训练样本中每个训练样本的类激活图；

根据获得的每个训练样本的类激活图生成伪标签；

修正伪标签；以及

利用多个第二训练样本训练分割网络，其中所述多个第二训练样本中的每个训练样本包含所述第一训练样本中的图像及该图像所含对象逐像素修正后的伪标签，所述分割网络输出为多个第二训练样本中包含的图像的逐像素标签的分割结果。

10.如权利要求9所述的方法，其特征在于，所述损失函数定义为训练中间过程的类激活图与修正后的训练中间过程的类激活图之间的绝对差值的平均值。

11.一种对图像的初始的类激活图进行修正的系统，其特征在于，包括：

一个或多个处理器，以及

存储指令的计算机可读存储介质，所述指令在由所述一个或多个处理器执行时，所述一个或多个处理器执行权利要求1-7任一项所述的方法。

12.一种对图像进行语义分割的系统，其特征在于，包括：

一个或多个处理器，以及

存储指令的计算机可读存储介质，所述指令在由所述一个或多个处理器执行时，所述一个或多个处理器执行权利要求8-10任一项所述的方法。