CN114596435A

CN114596435A - 语义分割标签的生成方法、装置、设备及存储介质

Info

Publication number: CN114596435A
Application number: CN202210010450.3A
Authority: CN
Inventors: 李毛毛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-06-07

Abstract

本申请公开了一种语义分割标签的生成方法、装置、设备及存储介质，涉及人工智能领域。方法包括：基于目标图像的第一类激活图生成初始语义特征图，初始语义特征图用于表征目标图像中目标语义分割对象在特征图中所处的语义区域；基于初始语义特征图和目标图像生成语义延展矩阵，语义延展矩阵用于表征特征图中不同特征位置之间的语义关系；基于初始语义特征图和语义延展矩阵生成目标图像的第二类激活图，第二类激活图中目标语义分割对象对应的类激活区域大于第一类激活图中目标语义分割对象对应的类激活区域；基于第二类激活图生成目标图像对应的语义分割标签。本申请实施例方案在提高语义分割标签生成效率的同时，提高了语义分割标签的生成质量。

Description

语义分割标签的生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种语义分割标签的生成方法、装置、设备及存储介质。

背景技术

语义分割(Semantic Segmentation)作为计算机视觉中的一项基本任务，用于为图像中的每个像素点分配语义类别，被广泛应用于场景识别、自动驾驶等场景。

相关技术中，用于进行语义分割的语义分割模型通常采用全监督方式训练得到。由于语义分割模型用于实现像素级的语义识别，因此在模型训练过程中，需要使用像素级的语义分割标签作为监督，该像素级的语义分割标签中即包含各个像素点对应的语义类别。

然而，像素级的语义分割标签需要人工对图像中的像素点进行逐一标注得到，导致模型训练前期的数据准备需要花费大量时间和人力成本，影响语义分割模型的训练效率。

发明内容

本申请实施例提供了一种语义分割标签的生成方法、装置、设备及存储介质，能够提高语义分割标签的生成效率，进而提高语义分割模型的训练效率。

所述技术方案如下：

一方面，本申请实施例提供了一种语义分割标签的生成方法，所述方法包括：

基于目标图像的第一类激活图生成初始语义特征图，所述初始语义特征图用于表征所述目标图像中目标语义分割对象在特征图中所处的语义区域；

基于所述初始语义特征图和所述目标图像生成语义延展矩阵，所述语义延展矩阵用于表征特征图中不同特征位置之间的语义关系；

基于所述初始语义特征图和所述语义延展矩阵生成所述目标图像的第二类激活图，所述第二类激活图中所述目标语义分割对象对应的类激活区域大于所述第一类激活图中所述目标语义分割对象对应的类激活区域；

基于所述第二类激活图生成所述目标图像对应的语义分割标签。

另一方面，本申请实施例提供了一种语义分割标签的生成装置，所述装置包括：

特征图生成模块，用于基于目标图像的第一类激活图生成初始语义特征图，所述初始语义特征图用于表征所述目标图像中目标语义分割对象在特征图中所处的语义区域；

矩阵生成模块，用于基于所述初始语义特征图和所述目标图像生成语义延展矩阵，所述语义延展矩阵用于表征特征图中不同特征位置之间的语义关系；

语义延展模块，用于基于所述初始语义特征图和所述语义延展矩阵生成所述目标图像的第二类激活图，所述第二类激活图中所述目标语义分割对象对应的类激活区域大于所述第一类激活图中所述目标语义分割对象对应的类激活区域；

标签生成模块，用于基于所述第二类激活图生成所述目标图像对应的语义分割标签。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述方面所述的语义分割标签的生成方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述方面所述的语义分割标签的生成方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的语义分割标签的生成方法。

本申请实施例中，计算机设备基于目标图像的第一类激活图生成初始语义特征图，并以初始语义特征图所表征的目标语义分割对象在特征图中所处的语义区域为参考，生成表征特征图中不同特征位置间语义关系的语义延展矩阵，从而利用语义延展矩阵进行语义延展，得到类激活区域更大的第二类激活图，进而利用第二类激活图生成目标图像的语义分割标签。采用本申请实施例提供的方案，基于类激活图能够在小范围内准确定位图像中目标语义分割对象的特点，采用语义延展的方式扩大类激活图的类激活区域，使语义延展后得到的类激活图能够覆盖目标语义分割对象的更多区域，在提高语义分割标签生成效率的同时，提高了语义分割标签的生成质量，有助于提高后续语义分割模型的训练效率以及训练质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的实施环境的示意图；

图2示出了本申请一个示例性实施例提供的语义分割标签的生成方法的流程图；

图3是本申请一个示例性实施例提供的语义分割标签生成过程的原理图；

图4是本申请一个示例性实施例提供的语义分割标签生成过程的实施示意图；

图5示出了本申请另一个示例性实施例提供的语义分割标签的生成方法的流程图；

图6是本申请一个示例性实施例示出的利用语义延展网络进行辅助语义分割过程的流程；

图7是本申请一个示例性实施例示出的利用语义延展网络进行辅助语义分割过程的实施示意图；

图8是本申请一个示例性实施例示出的利用语义延展网络生成类激活图过程的实施示意图；

图9是本申请一个示例性实施例示出的语义分割效果的对比图；

图10示出了本申请一个示例性实施例提供的语义分割标签的生成装置的结构框图；

图11示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了方便理解，下面对本申请实施例中涉及的名词进行说明。

语义分割标签：用于表征图像中各个像素点对应语义类别的标签，该语义类别可以是图像中语义分割对象的对象类别，比如人、狗、车辆等等。进行语义分割模型训练时，将训练图像输入语义分割模型后，得到预测语义分割结果，语义分割标签即作为预测语义分割结果的监督，指导语义分割模型的训练。

类激活图(Class Activation Map，CAM)：一种由多个特征图经过特征加权后重叠得到的特征图，生成类激活图的过程被称为类激活映射(Class Activation Mapping)。类激活图基于图像的图像级标签生成，该图像级标签即用于指示图像中包含的语义分割对象，并不指示语义分割对象在图像中的像素位置，因此为图像标注图像级标签的时间和人力成本远低于为图像标注像素级的语义分割标签。

类激活图中激活值较大的区域(即类激活区域)与语义分割对象在图像中所处的区域相对应，类激活图的可视化效果类似于热力图，类激活区域与热力图中的热力区域相对应。

本申请实施例中，第一类激活图和第二类激活图对应同一图像，且第二类激活图中类激活区域的范围大于第一类激活图中类激活区域的范围，即第二类激活图能够更加全面地覆盖语义分割对象。因此，基于第二类激活图生成的第二语义分割标签的标签质量高于基于第一类激活图生成的第一语义分割标签的标签质量，相应的，利用第二语义分割标签训练得到的语义分割模型的语义分割准确性也更高。

语义延展矩阵(Semantic Extension Matrix)：一种用于表征特征图中不同特征位置之间语义关系的矩阵，其中，特征位置之间的语义相关度越高，语义延展矩阵中对应的权重值也越高。本申请实施例中，该语义延展矩阵用于对类激活图进行语义延展，从而扩大类激活图中的类激活区域，进而生成更高质量的语义分割标签。

自注意力机制(self-attention)：一种计算特征图中每个特征位置和所有特征位置之间的相似度得分，然后将这些得分归一化为注意力权重，以有效地从整个输入中聚合相似特征的技术，被广泛应用于各种计算机视觉任务，如视频分类、对象检测和实例分割。本申请实施例中，语义延展矩阵即通过自注意力机制生成。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对物体进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语义分割作为计算机视觉中的一项基本任务，用于为图像中的每个像素点分配语义类别，从而分割出不同对象在图像中所处的位置。本申请实施例提供了一种弱监督语义分割(Weakly Supervised Semantic Segmentation)方案，采用该方案能够使用图像级标签生成像素级的语义分割标签，提高语义分割标签的生成效率，进而提高语义分割模型的训练效率。

类激活图的类激活区域通常与语义分割对象中最具辨识度的区域相对应，比如，当语义分割对象为鸟类时，类激活区域通常与鸟的头部区域相对应；当语义分割对象为自行车时，类激活区域通常与车轮区域相对应。因此利用类激活图生成的语义分割标签仅能够覆盖语义分割对象的小部分区域，导致直接该语义分割标签应用于语义分割模型训练的训练效果较差。

为了提高语义分割标签的生成质量，本申请实施例中设计了一种语义延展网络(Semantic Extension Network，SENet)，用于生成类激活区域更大的类激活图，以此提高基于类激活图生成的语义分割标签的覆盖范围。具体来讲，语义延展网络中设置有用于生成语义延展矩阵的语义延展模块，通过语义延展模块生成语义延展矩阵后，进一步利用该语义延展矩阵对原始类激活图中的类激活区域进行延展，得到类激活区域更大的类激活图。

图1示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括标注设备110以及服务器120。其中，标注设备110与服务器120之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

标注设备110是用于为图像设置图像级标签的电子设备，该电子设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等，本申请实施例对此不作限定。比如，标注设备110是标注人员使用的计算机，标注人员根据图像中包含的对象，为各张图像设置图像级标签(即指示图像中包含哪些对象，但并不会标记图像中对象的具体区域)。

可选的，该实施环境中可以包含多个标注设备110，不同标注人员可以通过标注设备110对不同图像集中的图像进行标注，从而提高标注效率；也可以对同一图像集中的图像进行标注，从而根据不同标注人员对同一图像标注结果确定图像的最终图像级标签，提高标注的准确性，本实施例对此不作限定。

服务器120是用于训练语义分割模型的设备，其可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

示例性的，服务器120包括处理器122和存储器124，存储器124又包括接收模块1241、语义分割标签生成模块1242和模型训练模块1243。其中，接收模块1241用于接收标注设备110发送的包含图像级标签的图像；语义分割标签生成模块1242用于基于图像级标签为图像生成像素级的语义分割标签；模型训练模块1243用于基于包含语义分割标签的图像训练语义分割模型。

需要说明的是，上述实施环境中以语义分割标签的生成以及模型训练由服务器120执行为例进行说明，在其他可能的实施方式中，语义分割标签也可以由标注设备110生成，由服务器120基于语义分割标签进行模型训练，或者，语义分割标签的生成以及模型训练均由标注设备110执行，本申请实施例对此不作限定。为了方便表述，下述各个实施例中，以语义分割标签的生成方法由计算机设备执行为例进行说明。

请参考图2，其示出了本申请一个示例性实施例提供的语义分割标签的生成方法的流程图。

步骤201，基于目标图像的第一类激活图生成初始语义特征图，初始语义特征图用于表征目标图像中目标语义分割对象在特征图中所处的语义区域。

在一种可能的实施方式中，计算机设备首先基于目标图像的图像级标签，生成目标图像对应的第一类激活图，该第一类激活图的尺寸与目标图像对应特征图的尺寸一致。

在一些实施例中，第一类激活图通过训练分类网络得到，因此第一类激活图可以被成为分类-类激活图(Classification-CAMs)。

得到目标图像的第一类激活图后，计算机设备进一步基于第一类激活图生成作为后续语义扩展过程中初始种子(initialseeds)的初始语义特征图，其中，该初始语义特征图与第一类激活图的尺寸一致，用于指示特征图中各个目标语义分割对象所处的语义区域，该目标语义分割对象的类型为至少一种。

关于生成初始语义特征图的方式，在一种可能的实施方式中，计算机设备根据设置的阈值确定第一类激活图中的前景区域、背景区域以及不确定区域，得到初始语义特征图，其中，该前景区域即为目标语义分割对象所处的语义区域。

由于第一类激活图是稀疏且不完整的，无法覆盖目标语义分割对象的完整区域，因此基于第一类激活图生成的初始语义特征图中的语义区域仅覆盖目标语义分割对象的部分语义区域，该部分语义区域通常对应目标语义分割对象最具辨识度的区域。

步骤202，基于初始语义特征图和目标图像生成语义延展矩阵，语义延展矩阵用于表征特征图中不同特征位置之间的语义关系。

由于目标图像中同一语义分割对象对应的像素点在语义上存在关联性，而初始语义特征图能够准确定位语义分割对象所处的小范围语义区域，因此计算机设备可以利用初始语义特征图和目标图像，训练生成表征特征图中不同特征位置间语义关系的语义延展矩阵，该语义延展矩阵中的权重值即表示特征图上每个特征位置到其他特征位置的语义传输权重，其中，特征图中两个特征位置之间的语义关联度越大，语义延展矩阵中这两个特征位置对应的语义传输权重也越大。

在一些实施例中，当初始语义特征图的尺寸为H×W时，该语义延展矩阵即为N×N矩阵，其中，N＝H×W，H为特征图高度，W为特征图宽度。

步骤203，基于初始语义特征图和语义延展矩阵生成目标图像的第二类激活图，第二类激活图中目标语义分割对象对应的类激活区域大于第一类激活图中目标语义分割对象对应的类激活区域。

进一步的，计算机设备利用语义延展矩阵对初始语义特征图进行语义延展，扩大目标语义分割对象在特征图中所处的语义区域，得到第二类激活图。相较于第一类激活图，由于经过了语义延展，因此第二类激活图的类激活区域更大，能够更加全面地覆盖目标语义分割对象。

本申请实施例中，第二类激活图通过语义扩展得到，因此第二类激活图可以被称为语义延展-类激活图(Semantic Extension-Class Activation Map，SE-CAM)。

步骤204，基于第二类激活图生成目标图像对应的语义分割标签。

进一步的，计算机设备基于语义延展后得到的第二类激活图生成目标图像的像素级语义分割标签，该像素级语义分割标签的尺寸与目标图像的图像尺寸一致，即能够指示目标图像中各个像素点的语义(即所属的目标语义分割对象)。

可选的，计算机设备可以将生成的语义分割标签作为语义分割模型的训练监督，训练得到用于从图像中分割出目标语义分割对象的语义分割模型。

示意性的，如图3所示，语义分割模型训练过程中，计算机设备首先基于目标图像31及其图像级标签32，得到目标图像31的第一类激活图33，然后基于第一类激活图33生成作为初始种子的初始语义特征图34。进一步的，计算机设备基于目标图像31和初始语义特征图34，训练得到目标图像31的语义延展矩阵35，从而利用语义延展矩阵35和初始语义特征图34生成经过语义延展的第二类激活图36。最后，计算机设备基于第二类激活图36生成像素级的语义分割标签37，进而利用目标图像31和语义分割标签37训练得到语义分割模型38。从上述过程中可以看出，只需要对目标图像进行图像级标注即可完成模型训练，相较于像素级标注能够提高训练样本的标注效率，进而提高模型训练的效率。

综上所述，本申请实施例中，计算机设备基于目标图像的第一类激活图生成初始语义特征图，并以初始语义特征图所表征的目标语义分割对象在特征图中所处的语义区域为参考，生成表征特征图中不同特征位置间语义关系的语义延展矩阵，从而利用语义延展矩阵进行语义延展，得到类激活区域更大的第二类激活图，进而利用第二类激活图生成目标图像的语义分割标签。采用本申请实施例提供的方案，基于类激活图能够在小范围内准确定位图像中目标语义分割对象的特点，采用语义延展的方式扩大类激活图的类激活区域，使语义延展后得到的类激活图能够覆盖目标语义分割对象的更多区域，在提高语义分割标签生成效率的同时，提高了语义分割标签的生成质量，有助于提高后续语义分割模型的训练效率以及训练质量。

关于生成第一类激活图的方式，计算机设备可以基于目标图像以及目标图像对应的图像级标签训练分类网络，该图像级标签用于指示目标图像中包含的目标语义分割对象。

其中，该分类网络的最后一个卷积层之后设置有全局平均池化(Global AveragePooling，GAP)层。在训练过程中，计算机设备以图像级标签为监督，通过多标签分类损失对分类网络进行训练。

在一个示意性的例子中，对于给定的目标图像，将f_k(x,y)定义为最后一个卷积层中第k个特征图中在(x,y)处的值，对第k个特征图进行全局平均池化的结果表示为F_k＝∑_x,yf_k(x,y)。分类网络训练结束后，计算机设备移除全局平均池化层，并将最后的分类层(比如softmax)应用到特征图的每一列。对于给定的类别c，分类层的输入是类别分数

其中，

是与第k个特征图的类别c相关联的分类权重。

将

代入到类别分数S^c中可以得到：

令

是类别c在位置(x,y)处的激活。由于S^c＝∑_x,yM^c(x,y)，因此M^c可以代表空间位置(x,y)使目标图像被分类为类别c的重要性。

完成网络训练后，计算机设备基于分类网络中目标图像对应的原始特征图(即f_k(x,y))以及目标语义分割对象所属类别的分类权重(即

)，生成目标图像的第一类激活图。

在一种可能的实施方式中，计算机设备以初始语义特征图为真值(ground-truth)训练语义延展网络(Semantic Extension Network，SENet)；完成网络训练后，计算机设备通过语义延展网络中的语义延展矩阵对初始语义特征图进行语义延展，得到用于生成语义分割标签的类激活图。

如图4所示，计算机设备利用语义延展网络43对目标图像41进行语义分割，并以初始语义特征图42作为语义分割结果的监督训练语义延展网络43。语义延展网络43训练完成后，计算机设备通过语义延展网络43中的语义延展矩阵进行语义延展，得到语义延展-类激活图44。最后，计算机设备利用语义延展-类激活图44生成语义分割标签45。

请参考图5，其示出了本申请另一个示例性实施例提供的语义分割标签的生成方法的流程图。

步骤501，基于目标图像的第一类激活图生成初始语义特征图，初始语义特征图用于表征目标图像中目标语义分割对象在特征图中所处的语义区域。

在一种可能的实施方式中，计算机设备生成初始语义特征图可以包括如下步骤。

1、基于目标阈值确定第一类激活图中的前景区域。

在一种可能的实施方式中，计算机设备首先对第一类激活图中的激活值进行归一化处理，并基于目标阈值确定第一类激活图中的前景区域。其中，当归一化后的激活值大于等于目标阈值，该激活值对应的位置即属于前景区域。比如，该目标阈值可以为0.1。

2、通过显著性模型对第一类激活图进行背景估计，确定第一类激活图中的背景区域。

在一种可能的实施方式中，计算机设备通过显著性模型对第一类激活图进行显著性检测(saliency detection)，得到第一类激活图中各个位置对应的显著性分数，并基于显著性分数对第一类激活图进行背景估计。其中，计算机设备将显著性分数低于分数阈值的位置确定为背景区域。比如，该分数阈值可以为0.06。

3、基于前景区域和背景区域生成特征空间中的初始语义特征图。

进一步的，计算机设备基于确定出的前景区域和背景区域，生成特征空间中的初始语义特征图。

在一些实施例中，当第一类激活图中某一位置既属于前景区域，又属于背景区域时，计算机设备将该位置确定为未知区域；当第一类激活图中某一位置既不属于前景区域，又不属于背景区域时，计算机设备将该位置确定为未知区域。其中，未知区域在后续过程中将被忽略。

步骤502，通过语义延展网络对目标图像进行语义分割，得到预测语义特征图，语义延展网络中设置有语义延展矩阵。

在一种可能的设计中，语义延展网络设置有用于进行图像特征提取的特征提取层以及分割头(segmentationhead)，特征提取层和分割头充当辅助的语义分割网络，用于产生更好语义分割标签来训练实际的语义分割模型。

可选的，特征提取层采用扩张全卷积网络，且扩张全卷积网络的顶部设置有矩阵生成层，该矩阵生成层即用于根据扩张全卷积网络中最后一层卷积层输出的特征图生成语义延展矩阵。

特征提取层输出的特征图经过语义延展矩阵的语义延展后，进一步被输入分割头，由分割头进行语义分割，得到预测语义特征图，该预测语义特征图即用于表征目标图像中目标语义分割对象在特征图中所处的预测语义区域。

在一种可能的实施方式中，如图6所示，计算机设备利用语义延展网络进行语义分割的过程包括如下步骤。

步骤502A，基于目标图像的原始特征图，通过矩阵生成层生成语义延展矩阵。

可选的，该矩阵生成层采用自注意力机制，即计算机设备通过矩阵生成层对目标图像的原始特征图(由语义延展网络中特征提取层进行特征提取得到)进行自注意力机制处理，得到语义延展矩阵。其中，对原始特征图进行自注意力机制处理的过程可以包括如下步骤：

1、将原始特征图重构为查询特征图和键值特征图。

在一种可能的实施方式中，计算机设备使用1×1卷积将原始特征图重构为两个不同的嵌入，分别为查询(Query)特征图和键值(Key)特征图，其中，查询特征图和键值特征图的尺寸相同，且均小于原始特征图的尺寸。

在一个示意性的例子中，原始特征图F∈R^H×W×K，重构得到的查询特征图

键值特征图

其中，K为通道数，

进一步的，另N＝H×W，查询特征图和键值特征图可以被重构为

如此，查询特征图和键值特征图的空间维度上的每个位置，都可以得到形状为

的向量。

2、基于查询特征图和所述键值特征图生成特征相似度矩阵，特征相似度矩阵用于表征查询特征图与键值特征图中特征位置之间的相似度。

进一步的，计算机设备通过矩阵乘法计算查询特征图和键值特征图中各个特征位置之间的相似度，得到特征相似度矩阵，其中，该特征相似度矩阵可以表示为：

E＝exp(QK^T)∈(0,+∞)^N×N

其中，T表示矩阵的转置。

其中，第i个特征位置和第j个特征位置之间的相似度可以被索引为

i,j∈{0,1,2,…,N-1}。

3、对特征相似度矩阵进行正则化处理，得到语义延展矩阵。

语义延展矩阵可以通过对特征相似度矩阵进行正则化操作得到，得到的语义延展矩阵可以表示为：

其中，A_ij(语义延展矩阵中第i行第j列位置)越大，表明特征图中的两个特征位置的语义越相关。

需要说明的是，计算机设备还可以通过其他方式生成语义延展矩阵，本申请实施例仅以自注意力机制为例进行示意性说明，但并不对此构成限定。

步骤502B，对语义延展矩阵和原始特征图进行矩阵相乘，得到语义聚合特征图。

计算机设备根据语义延展矩阵所指示的特征位置之间的语义关系，对原始特征图中各个特征位置的特征进行聚合，得到语义聚合特征，其中，特征位置之间的语义越相关，特征位置之间特征聚合时的聚合权重越大。

在一种可能的实施方式中，计算机设备通过对语义延展矩阵和原始特征图进行矩阵相乘，得到语义聚合特征图。在一个示意性的例子中，当原始特征图为F∈R^N×K，语义延展矩阵为A∈R^N×N时，聚合特征可以表示为Z＝AF，Z∈R^N×K。

示意性的，如图7所示，计算机设备对原始特征图F和语义延展矩阵A进行矩阵相乘，得到语义聚合特征图Z。

步骤502C，基于语义聚合特征图以及目标语义分割对象所属类别的类别权重，生成预测语义特征图。

在一些实施例中，语义延展网络的分割头中设置有语义分割层，计算机设备基于语义聚合特征图，通过语义分割层进行语义分割，得到预测语义特征图。

在一种可能的实施方式中，计算机设备利用1×1卷积来计算分割头的输出

其中，C是类别的数量。对于特定类别c，初始语义特征图为y^c∈R^N×1，输出的预测语义特征图为

对应的类别权重为w^c∈R^K×1。

示意性的，如图7所示，计算机设备将语义分割层中类别c对应的类别权重w^c与语义聚合特征图Z进行矩阵相乘，并对结果进行softmax处理，得到类别c对应的预测语义特征图为

步骤503，将初始语义特征图作为预测语义特征图的监督，训练语义延展网络。

由于初始语义特征图能够在小范围区域内准确定位语义分割对象，因此本申请实施例中，计算机设备以初始语义特征图作为监督训练语义延展网络，其中，训练语义延展网络的过程即优化语义延展矩阵以及类别权重的过程。

虽然使用粗糙的标签(即初始语义特征图)作为监督来生成一个更优的类激活图看似非常困难，但是由于初始语义特征图能够在小范围区域内准确定位，因此这种高精度但低召回率的标签足以为语义延展提供线索。

在一种可能的实施方式中，计算机设备确定初始语义特征图和预测语义特征图之间的语义分割损失，从而基于语义分割损失训练语义延展网络。其中，该语义分割损失可以为交叉熵损失，本申请实施例对此不作限定。

步骤504，通过语义延展网络中的语义延展矩阵对初始语义特征图进行语义延展，得到语义延展特征图。

在一种可能的设计中，语义延展网络除了设置有分割头(segmentationhead)外，还设置有语义延展头。完成分割头训练后，计算机设备进一步通过语义延展头对初始语义特征图进行语义延展，得到语义延展特征图。

在一种可能的实施方式中，计算机设备对语义延展矩阵和初始语义特征图进行矩阵相乘，得到语义延展特征图。当训练得到的语义延展矩阵为A，且初始语义特征图为y^c时，语义延展特征图可以表示为：

A^c＝A^Ty^c∈R^N×1

步骤505，基于语义延展特征图、目标图像的原始特征图以及目标语义分割对象所属类别的类别权重，生成第二类激活图。

对于第k个特征图中的第i个特征位置，经过语义延展后其特征值Z_i,k可以表示为：

Z_i,k＝A_i,.F_.,k＝∑_x,ya_i(x,y)f_k(x,y) (公式2)

其中，i∈{0,1,2,…,N-1}和k∈{0,1,2,…,K-1}，f_k(x,y)和a_i(x,y)是F_.,k∈R^N×1和A_i,.∈R^1×N的任意空间位置(x,y)处的值。对于给定的类别c和第k个特征图中的第i个位置，语义分割时softmax的输入

将公式(2)带入类别分数S^c可以得到：

将属于类别c的所有点生成的激活图相加，得到类别c在平面上每个位置的激活值为：

其中，Ω^c表示属于类别c的像素点集。

基于上述原理，计算机设备可以对基于语义延展特征图、目标图像的原始特征图以及目标语义分割对象所属类别的类别权重进行矩阵快速计算，得到第二类激活图。其中，第二类激活图可以表示为：

M^c＝Fw^c⊙A^c∈R^N×1 (公式5)

其中，F为原始特征图，w^c为类别c的类别权重，⊙表示矩阵的哈达玛积(Hadamardproduct)。

示意性的，如图8所示，计算机设备基于原始特征图F，类别c的类别权重w^c以及语义延展特征图A^c，计算得到第二类激活图M^c。

步骤506，基于第二类激活图生成目标图像对应的语义分割标签。

在一种可能的实施方式中，计算机设备基于第二类激活图生成语义分割标签可以包括如下步骤。

1、基于目标阈值确定第二类激活图中的前景区域。

与生成初始种子过程类似的，在一种可能的实施方式中，计算机设备首先对第二类激活图中的激活值进行归一化处理，并基于目标阈值确定第二类激活图中的前景区域。其中，当归一化后的激活值大于等于目标阈值，该激活值对应的位置即属于前景区域。比如，该目标阈值可以为0.1。

2、通过显著性模型对所述第二类激活图进行背景估计，确定第二类激活图中的背景区域。

与生成初始种子过程类似的，在一种可能的实施方式中，计算机设备通过显著性模型对第二类激活图进行显著性检测，得到第二类激活图中各个位置对应的显著性分数，并基于显著性分数对第二类激活图进行背景估计。其中，计算机设备将显著性分数低于分数阈值的位置确定为背景区域。比如，该分数阈值可以为0.06。

3、将前景区域和背景区域映射至图像空间中的像素位置，得到目标图像对应的语义分割标签。

由于类激活图的尺寸与目标图像的尺寸不同(类激活图为特征空间，而目标图像为图像空间)，因此计算机设备需要将确定出的前景区域和背景区域，由特征空间映射至图像空间，即确定目标图像中各个像素位置属于背景区域或前景区域，最终生成像素级的语义分割标签。

在一种可能的实施方式中，计算机设备通过上采样的方式对前景区域和背景区域进行像素映射，本实施例对此不作限定。

需要说明的是，当第二类激活图中某一位置既属于前景区域，又属于背景区域时，计算机设备将该位置确定为未知区域；当第二类激活图中某一位置既不属于前景区域，又不属于背景区域时，计算机设备将该位置确定为未知区域。其中，未知区域在映射和后续语义分割过程中被忽略。

为了验证SENet的有效性，我们使用分类-类激活图(Classification-CAMs)生成的初始种子作为监督来训练语义延展网络，并利用语义延展网络生成语义延展-类激活图(SE-CAMs)。如表1所示，基于SE-CAMs生成的伪标签(即语义分割标签)具有更高的质量，准确率比Classification-CAMs生成的伪标签提升9.8％(此处的准确率mIoU是在PASCAL VOC2012训练集上测量的)。

此外，我们对PASCAL VOC数据集上的分割结果进行了比较。直接使用基于分类-类激活图生成的伪标签实现了50.9％的分割mIoU，而使用SENet能够将分割性能提高4.5％。可见，利用SENet能够提高语义分割的分割性能。

表1

为了证明SENet的适用性，我们还使用了三种不同的初始种子，分别由OAA、BES和GWSM生成。图9展示了通过OAA、OAA+SENet、BES、BES+SENet、GESM和GWSM+SENet生成的不同分割标签之间的定性比较。可以明显看出，当用不同的初始种子训练SENet时，生成的伪标签始终比初始种子具有更高的质量。其中，G.T.表示语义分割的真值。

请参考图10，其示出了本申请一个示例性实施例提供的语义分割标签的生成装置的结构框图，该装置包括：

特征图生成模块1001，用于基于目标图像的第一类激活图生成初始语义特征图，所述初始语义特征图用于表征所述目标图像中目标语义分割对象在特征图中所处的语义区域；

矩阵生成模块1002，用于基于所述初始语义特征图和所述目标图像生成语义延展矩阵，所述语义延展矩阵用于表征特征图中不同特征位置之间的语义关系；

语义延展模块1003，用于基于所述初始语义特征图和所述语义延展矩阵生成所述目标图像的第二类激活图，所述第二类激活图中所述目标语义分割对象对应的类激活区域大于所述第一类激活图中所述目标语义分割对象对应的类激活区域；

标签生成模块1004，用于基于所述第二类激活图生成所述目标图像对应的语义分割标签。

可选的，矩阵生成模块1002，包括：

分割单元，用于通过语义延展网络对所述目标图像进行语义分割，得到预测语义特征图，所述语义延展网络中设置有所述语义延展矩阵；

训练单元，用于将所述初始语义特征图作为所述预测语义特征图的监督，训练所述语义延展网络。

可选的，所述语义延展网络中包含矩阵生成层；

所述分割单元，用于：

基于所述目标图像的原始特征图，通过所述矩阵生成层生成所述语义延展矩阵；

对所述语义延展矩阵和所述原始特征图进行矩阵相乘，得到语义聚合特征图；

基于所述语义聚合特征图以及所述目标语义分割对象所属类别的类别权重，生成所述预测语义特征图。

可选的，在基于所述目标图像的原始特征图，通过所述矩阵生成层生成所述语义延展矩阵时，所述分割单元，用于：

通过所述矩阵生成层对所述原始特征图进行自注意力机制处理，得到所述语义延展矩阵。

可选的，所述通过所述矩阵生成层对所述原始特征图进行自注意力机制处理，得到所述语义延展矩阵时，所述分割单元，用于：

将所述原始特征图重构为查询特征图和键值特征图；

基于所述查询特征图和所述键值特征图生成特征相似度矩阵，所述特征相似度矩阵用于表征所述查询特征图与所述键值特征图中特征位置之间的相似度；

对所述特征相似度矩阵进行正则化处理，得到所述语义延展矩阵。

可选的，所述训练单元，用于：

确定所述初始语义特征图和所述预测语义特征图之间的语义分割损失；

基于所述语义分割损失训练所述语义延展网络。

可选的，语义延展模块1003，包括：

语义延展单元，用于通过所述语义延展网络中的所述语义延展矩阵对所述初始语义特征图进行语义延展，得到语义延展特征图；

激活图生成单元，用于基于所述语义延展特征图、所述目标图像的原始特征图以及所述目标语义分割对象所属类别的类别权重，生成所述第二类激活图。

可选的，所述语义延展单元，用于：

对所述语义延展矩阵和所述初始语义特征图进行矩阵相乘，得到所述语义延展特征图。

可选的，所述标签生成模块1004，包括：

第一确定单元，用于基于目标阈值确定所述第二类激活图中的前景区域；

第二确定单元，用于通过显著性模型对所述第二类激活图进行背景估计，确定所述第二类激活图中的背景区域；

映射单元，用于将所述前景区域和所述背景区域映射至图像空间中的像素位置，得到所述目标图像对应的所述语义分割标签。

可选的，所述特征图生成模块1001，包括：

第三确定单元，用于基于目标阈值确定所述第一类激活图中的前景区域；

第四确定单元，用于通过显著性模型对所述第一类激活图进行背景估计，确定所述第一类激活图中的背景区域；

特征图生成单元，用于基于所述前景区域和所述背景区域生成特征空间中的所述初始语义特征图。

可选的，所述装置还包括：

分类网络训练模块，用于基于所述目标图像以及所述目标图像对应的图像级标签训练分类网络，所述图像级标签用于指示所述目标图像中包含的所述目标语义分割对象；

类激活图生成模块，用于基于所述分类网络中所述目标图像对应的原始特征图以及所述目标语义分割对象所属类别的分类权重，生成所述目标图像的所述第一类激活图。

请参考图11，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1100包括中央处理单元(Central Processing Unit，CPU)1101、包括随机存取存储器1102和只读存储器1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还可以包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

在一些实施例中，所述基本输入/输出系统1106可以包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1107可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1101执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述任一实施例所述的语义分割标签的生成方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例所述的语义分割标签的生成方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语义分割标签的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述初始语义特征图和所述目标图像生成语义延展矩阵，包括：

通过语义延展网络对所述目标图像进行语义分割，得到预测语义特征图，所述语义延展网络中设置有所述语义延展矩阵；

将所述初始语义特征图作为所述预测语义特征图的监督，训练所述语义延展网络。

3.根据权利要求2所述的方法，其特征在于，所述语义延展网络中包含矩阵生成层；

所述通过语义延展网络对所述目标图像进行语义分割，得到预测语义特征图，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标图像的原始特征图，通过所述矩阵生成层生成所述语义延展矩阵，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过所述矩阵生成层对所述原始特征图进行自注意力机制处理，得到所述语义延展矩阵，包括：

将所述原始特征图重构为查询特征图和键值特征图；

6.根据权利要求2所述的方法，其特征在于，所述将所述初始语义特征图作为所述预测语义特征图的监督，训练所述语义延展网络，包括：

基于所述语义分割损失训练所述语义延展网络。

7.根据权利要求2所述的方法，其特征在于，所述基于所述初始语义特征图和所述语义延展矩阵生成所述目标图像的第二类激活图，包括：

通过所述语义延展网络中的所述语义延展矩阵对所述初始语义特征图进行语义延展，得到语义延展特征图；

基于所述语义延展特征图、所述目标图像的原始特征图以及所述目标语义分割对象所属类别的类别权重，生成所述第二类激活图。

8.根据权利要求7所述的方法，其特征在于，所述通过所述语义延展网络中的所述语义延展矩阵对所述初始语义特征图进行语义延展，得到语义延展特征图，包括：

9.根据权利要求1至8任一所述的方法，其特征在于，所述基于所述第二类激活图生成所述目标图像对应的语义分割标签，包括：

基于目标阈值确定所述第二类激活图中的前景区域；

通过显著性模型对所述第二类激活图进行背景估计，确定所述第二类激活图中的背景区域；

将所述前景区域和所述背景区域映射至图像空间中的像素位置，得到所述目标图像对应的所述语义分割标签。

10.根据权利要求1至8任一所述的方法，其特征在于，所述基于目标图像的第一类激活图生成初始语义特征图，包括：

基于目标阈值确定所述第一类激活图中的前景区域；

通过显著性模型对所述第一类激活图进行背景估计，确定所述第一类激活图中的背景区域；

基于所述前景区域和所述背景区域生成特征空间中的所述初始语义特征图。

11.根据权利要求1至8任一所述的方法，其特征在于，所述方法还包括：

基于所述目标图像以及所述目标图像对应的图像级标签训练分类网络，所述图像级标签用于指示所述目标图像中包含的所述目标语义分割对象；

基于所述分类网络中所述目标图像对应的原始特征图以及所述目标语义分割对象所属类别的分类权重，生成所述目标图像的所述第一类激活图。

12.一种语义分割标签的生成装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至11任一所述的语义分割标签的生成方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至11任一所述的语义分割标签的生成方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如权利要求1至11任一所述的语义分割标签的生成方法。