CN110363210A

CN110363210A - 一种图像语义分割模型的训练方法和服务器

Info

Publication number: CN110363210A
Application number: CN201810317672.3A
Authority: CN
Inventors: 揭泽群
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2019-10-22
Anticipated expiration: 2038-04-10
Also published as: EP3779774A1; CN110363210B; US11348249B2; WO2019196633A1; US20210035304A1; EP3779774B1

Abstract

本发明实施例公开了一种图像语义分割模型的训练方法和服务器，用于从原始图像中定位出全部物体区域，提高了图像语义分割的分割质量。本发明实施例提供一种图像语义分割模型的训练方法，包括：获取用于模型训练的原始图像；使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注，得到所述原始图像中在不同分散度下的全局物体定位图，所述分散度用于指示通过所述多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布；使用所述全局物体定位图作为图像语义分割网络模型的监督信息，通过所述监督信息对所述图像语义分割网络模型进行训练。

Description

一种图像语义分割模型的训练方法和服务器

技术领域

本发明涉及计算机技术领域，尤其涉及一种图像语义分割模型的训练方法和服务器。

背景技术

图像语义分割是图像理解的基础，图像语义分割在自动驾驶、无人机应用以及穿戴式设备应用中都非常重要。图像是由许多像素组成，而语义分割就是将像素按照图像中表达语义含义的不同进行分组。

现有技术中通常训练一个常规的深度卷积神经网络作为图像语义分割网络，首先对输入图像进行全图分类，再根据该网络定位图像中对应全图分类标注的物体区域，然后利用这些区域作为图像语义分割的监督信息，通过该监督信息原始图像语义分割网络。

现有技术中利用常规的卷积操作定位对应全图分类标注的物体区域，通常只能定位出整个物体的某一个或多个最有判别性的部分，难以定位到全部物体区域，因此现有技术中的图像语义分割存在无法定位出全部物体区域的问题。

发明内容

本发明实施例提供了一种图像语义分割模型的训练方法和服务器，用于从原始图像中定位出全部物体区域，提高了图像语义分割的分割质量。

为解决上述技术问题，本发明实施例提供以下技术方案：

第一方面，本发明实施例提供一种图像语义分割模型的训练方法，包括：

获取用于模型训练的原始图像；

使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注，得到所述原始图像中在不同分散度下的全局物体定位图，所述分散度用于指示通过所述多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布；

使用所述全局物体定位图作为图像语义分割网络模型的监督信息，通过所述监督信息对所述图像语义分割网络模型进行训练。

第二方面，本发明实施例还提供一种服务器，包括：

图像获取模块，用于获取用于模型训练的原始图像；

全局物体定位模块，用于使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注，得到所述原始图像中在不同分散度下的全局物体定位图，所述分散度用于指示通过所述多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布；

模型训练模块，用于使用所述全局物体定位图作为图像语义分割网络模型的监督信息，通过所述监督信息对所述图像语义分割网络模型进行训练。

在第二方面中，服务器的组成模块还可以执行前述第一方面以及各种可能的实现方式中所描述的步骤，详见前述对第一方面以及各种可能的实现方式中的说明。

第三方面，本发明实施例提供一种服务器，该服务器包括：处理器、存储器；存储器用于存储指令；处理器用于执行存储器中的指令，使得服务器执行如前述第一方面中任一项的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第五方面，本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，首先获取用于模型训练的原始图像，然后使用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注，得到原始图像中在不同分散度下的全局物体定位图，分散度用于指示通过多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布。最后使用全局物体定位图作为图像语义分割网络模型的监督信息，通过监督信息对图像语义分割网络模型进行训练。本发明实施例由于采用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注，因此通过多倍率空洞卷积神经网络模型的多倍率空洞卷积可以从原始图像上定位出在不同分散度下的全局物体定位图，该全局物体定位图包括了目标物体的全部区域，因此本发明实施例通过多倍率空洞卷积神经网络模型精确定位出了原始图像中对应全图分类标注的全部物体区域，提高了图像语义分割的分割质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像语义分割模型的训练方法的流程方框示意图；

图2为本发明实施例提供的多倍率空洞卷积网络模型的结构示意图；

图3为本发明实施例提供的在一个空洞倍率下的深度卷积神经网络模型上得到图像中物体区域的过程示意图；

图4为本发明实施例提供的不同空洞倍率的空洞卷积及在图像中定位出的相应物体区域的示意图；

图5为本申请实施例提供的弱监督图像分类标注训练的网络分割结果的示意图；

图6-a为本发明实施例提供的一种服务器的组成结构示意图；

图6-b为本发明实施例提供的一种全局物体定位模块的组成结构示意图；

图6-c为本发明实施例提供的一种池化处理单元的组成结构示意图；

图6-d为本发明实施例提供的一种空洞卷积单元的组成结构示意图；

图6-e为本发明实施例提供的一种模型训练模块的组成结构示意图；

图7为本发明实施例提供的图像语义分割模型的训练方法应用于服务器的组成结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本发明实施例提供的图像语义分割模型的训练方法的一个实施例，具体可以应用于基于空洞卷积神经网络模型对图像的全图分类标注中，本发明实施例提供的图像语义分割模型的训练方法采用弱监督的图像语义分割技术，可以应用于缺乏精细像素级别分割标注数据的情况，仅仅依靠全图分类标注，实现高准确率的图像分割。本发明实施例主要通过空洞卷积神经网络模型依靠全图分类标注获取图像中对应全图分类标注的全局物体定位图。具体而言，先训练一个多倍率空洞卷积神经网络模型实现全图的分类，得到该网络模型之后依靠多倍率空洞卷积精确定位出原始图像中对应全图分类标注的全局物体定位图。然后将上述定位出的全局物体定位图作为分割的监督信息，训练图像语义分割网络模型实现图像分割。本发明实施例提供的图像语义分割模型的训练方法可以在海量用户数据的网站中自动爬取带有用户创建的标签的图像，以此训练弱监督的图像语义分割网络用来实现图像语义分割，语义分割结果则可用于网站的基于图像内容的以图搜图，基于图像内容分析的个性化推荐等。

请参阅图1所示，本发明一个实施例提供的图像语义分割模型的训练方法，可以包括如下步骤：

101、获取用于模型训练的原始图像。

在本发明实施例中，训练样本图像库中可以存储有训练样本图像，这些图像可以用于模型训练，即这些图像可以称为用于模型训练的原始图像，后续实施例简称为原始图像，在原始图像上包括有一个或者多个的目标物体，该目标物体可以是多种形状的物体，例如可以一种工具，或者一个动物，或者一个人物等，此处不做限定。需要说明的是，本发明实施例中，原始图像的存储可以有多种方式，例如服务器从客户端接收到原始图像，存储到服务器的数据库，或者服务器在内存中实时读入原始图像，以提高模型训练效率。

102、使用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注，得到原始图像中在不同分散度下的全局物体定位图，分散度用于指示通过多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布。

在本发明实施例中，采用卷积神经网络模型来进行全图分类，并且本发明实施例中采用的卷积神经网络采用的是多个空洞倍率的空洞卷积，因此本发明实施例采用的是卷积神经网络模型也可以称为“多倍率空洞卷积神经网络模型。具体的，本发明实施例中可以先训练一个多倍率空洞卷积神经网络模型实现全图的分类，得到该网络模型之后依靠多倍率空洞卷积精确定位出训练图像中对应全图分类标注的全局物体定位图，本发明实施例采用的多倍率空洞卷积神经网络模型可以实现全图分类目的，改进现有技术中卷积神经网络只能定位到物体最有判别性的部分区域的缺点，因此本发明实施例提供的多倍率空洞卷积神经网络模型能够定位原始图像中在不同分散度下的全局物体定位图。

需要说明的是，在本发明的上述实施例中，全局物体定位图对应于不同分散度，其中，分散度用于指示通过多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布。倍率空洞卷积神经网络模型定位出的物体区域具体可以通过类别响应定位图(ClassActivation Map，CAM)获取原始图像中对应全图分类标注的高响应物体区域。对于不同的分散度，是指定位出的高响应物体区域在真实物体上的分布，若高响应物体区域比较集中在目标物体某一个小部分，则分散度的取值为较低，若高响应物体区域分布于整个目标物体，则分散度的取值为较高。本发明实施例中通过多倍率空洞卷积神经网络模型可以获取到原始图像中在不同分散度下的全局物体定位图，因此该全局物体定位图不仅能定位到目标物体最有判别性的部分区域，还能同时定位到其他缺乏判别性的区域，以此定位到了目标物体的全部区域。

在本发明的一些实施例中，步骤102使用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注，得到原始图像中在不同分散度下的全局物体定位图，包括：

使用多倍率空洞卷积神经网络模型中的前N-1个卷积层从原始图像中提取出目标物体的特征图，多倍率空洞卷积神经网络模型包括：N个卷积层，其中，第N个卷积层为多倍率空洞卷积层，N为正整数；

使用多倍率空洞卷积层对目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理，得到在不同分散度下的物体区域，d为正整数；

对在不同分散度下的物体区域进行全局平均池化处理，得到原始图像中在不同分散度下的全局物体定位图。

其中，本发明实施例中采用的多倍率空洞卷积神经网络模型共有N个卷积层，其中，使用前N-1个卷积层可以从原始图像中提取出目标物体的特征图，第N个卷积层为最后一个卷积层，并且该第N个卷积层为多倍率空洞卷积层，即第N个卷积层采用的是多倍率的空洞卷积，多倍率空洞卷积神经网络模型的卷积层个数N可以根据具体场景来确定。本发明实施例中利用空洞卷积物体定位可以脱离最有判别性部分的优点，采用多倍率的空洞卷积神经网络模型，该网络模型在常规的卷积神经网络模型的最后一层后引入多倍率空洞卷积层。多倍率空洞卷积层利用多种倍空洞率(例如d＝r₁,r₂…r_k)的空洞卷积(dilatedconvolution)同时进行卷积操作，学习到不同分散度的物体区域,再进行全局平均池化(global average pooling，GAP)处理，可以得到不同分散度下的全局物体定位图，该全局物体定位图中包括有目标物体的整体区域。

进一步的，在本发明的一些实施例中，前述的对在不同分散度下的物体区域进行全局平均池化处理，得到原始图像中在不同分散度下的全局物体定位图，包括：

获取空洞倍率为0时的第一物体区域，以及空洞倍率大于0时的第二物体区域；

获取第一物体区域对应的第一权重，以及第二物体区域对应的第二权重，第一权重的取值大于第二权重的取值；

根据第一权重和第二权重在不同分散度下对第一物体区域和第二物体区域进行融合，得到全局物体定位图。

其中，使用多倍率空洞卷积层对目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理，当空洞倍率为0时得到的物体区域称为第一物体区域，当空洞倍率大于0时得到的物体区域称为第二物体区域，最后进行不同权重的物体区域的融合，在该融合过程将倍率为0的物体区域比重设为高于其他倍率的物体区域，原因在于空洞卷积可能会定位到错误的物体区域。只有当至少两个物体区域都定位到同一个区域，才能说明该区域是正确的有效物体区域。因此，本发明实施例中可以在多倍率空洞卷积物体区域以外固定给没有空洞的卷积物体区域一个高权重，从而能避免没有空洞的卷积定位出的正确的最有判别性的物体区域被空洞卷积物体区域的平均操作所过滤。利用这种融合方式能得到高准确率的物体定位区域，能作为高质量的图像分割监督信息训练后续的图像语义分割网络。

接下来对本发明实施例中不同物体区域按照权重进行融合的方式进行举例说明，进一步的，根据第一权重和第二权重在不同分散度下对第一物体区域和第二物体区域进行融合，得到全局物体定位图，包括：

确定在d等于0时的第一物体区域H₀，以及在d大于0且小于或等于k时的第二物体区域(H₁,H₂,...,H_k)，k为空洞倍率最大值；

通过如下方式对第一物体区域H₀和第二物体区域(H₁,H₂,...,H_k)在不同分散度下进行融合得到全局物体定位图H：

其中，第一权重为1，第二权重为H_i表示第二物体区域(H₁,H₂,...,H_k)中第i个物体区域。

其中，使用多倍率空洞卷积神经网络模型可以获取到在不同空洞倍率下的物体区域，第二物体区域中包括对每个空洞倍率的空洞卷积都能生成物体区域(H₁,H₂,...,H_k)。当d＝0时，可以采用没有空洞的卷积对应的第一物体区域H₀，最终的全局物体定位图H则为不同倍率空洞卷积下所有物体区域的融合。

需要说明的是，上述公式H的融合过程中，第一权重为1，第二权重为在实际应用场景中也可以场景来设置第一物体区域和第二物体区域分别对应的权重。

在本发明实施例中，使用多倍率空洞卷积层对目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理，得到在不同分散度下的物体区域，包括：

获取多倍率空洞卷积层的第t个特征图上坐标为(x,y)处的像素特征点，t为正整数；

获取在空洞倍率d下连接第t个特征图到第c个类别的权重c为正整数；

通过如下方式计算空洞倍率d下对应第c个类别的物体区域H_d ^c：

其中，在每一种空洞倍率下，多倍率空洞卷积层配合类别响应定位图获取原始图像中对应全图分类标注的高响应物体区域。假定f_k(x,y)是最后一个卷积层第k个特征图(feature map)上坐标为(x,y)处的值，是连接第k个特征图到第c个类别的权重。则对应第c个类别的物体区域H_d ^c可以通过前述公式计算出。

103、使用全局物体定位图作为图像语义分割网络模型的监督信息，通过监督信息对图像语义分割网络模型进行训练。

在本发明实施例中，通过多倍率空洞卷积神经网络模型得到原始图像中在不同分散度下的全局物体定位图之后，将上述定位出的全局物体定位图作为分割的监督信息，训练一个图像语义分割网络模型实现图像分割。举例说明，本发明实施例提供的图像语义分割网络模型具体可以为深度卷积神经网络模型。利用定位出的全局物体定位图作为监督信息，训练深度卷积神经网络模型实现图像分割。本发明实施例中对图像语义分割网络模型的训练过程中，可以结合具体场景选择所使用的卷积核大小、多种池化(pooling)核大小，此处不做限定。由于本发明实施例采用全局物体定位图作为图像语义分割网络模型的监督信息，该全局物体定位图包括了高准确率的物体定位区域，能作为高质量的图像分割监督信息训练图像语义分割网络模型，语义分割结果则可用于网站的基于图像内容的以图搜图，基于图像内容分析的个性化推荐等。

在本发明的一些实施例中，步骤103使用全局物体定位图作为图像语义分割网络模型的监督信息，通过监督信息对图像语义分割网络模型进行训练，包括：

将原始图像输入到图像语义分割网络模型，通过图像语义分割网络模型获取到图像分类结果；

根据图像分类结果和全局物体定位图计算交叉熵损失函数，得到损失结果；

将损失结果反向传播到图像语义分割网络模型的所有层中，以继续对图像语义分割网络模型进行训练。

其中，通过图像语义分割网络模型获取到图像分类结果，该结果在给定全图分类标注的监督信息下进行交叉熵损失函数(cross entropy loss)计算，该交叉熵损失函数具体可以是sigmoid函数，然后再通过反向传播将该损失结果回传到图像语义分割网络模型的所有层中进行网络参数的训练。当图像语义分割网络模型训练完成之后，该图像语义分割网络模型的所有层可以用于对输入图像进行图像语义的输出。

通过以上实施例对本发明实施例的描述可知，首先获取用于模型训练的原始图像，然后使用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注，得到原始图像中在不同分散度下的全局物体定位图，分散度用于指示通过多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布。最后使用全局物体定位图作为图像语义分割网络模型的监督信息，通过监督信息对图像语义分割网络模型进行训练。本发明实施例由于采用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注，因此通过多倍率空洞卷积神经网络模型的多倍率空洞卷积可以从原始图像上定位出在不同分散度下的全局物体定位图，该全局物体定位图包括了目标物体的全部区域，因此本发明实施例通过多倍率空洞卷积神经网络模型精确定位出了原始图像中对应全图分类标注的全部物体区域，提高了图像语义分割的分割质量。

为便于更好的理解和实施本发明实施例的上述方案，下面举例相应的应用场景来进行具体说明。

本发明实施例中用于模型训练的原始图像可以有多种来源，例如可以在海量用户数据的网站中自动爬取带有用户创建的标签的图像，以此训练弱监督的图像语义分割网络用来实现图像语义分割，语义分割结果则可用于网站的基于图像内容的以图搜图，基于图像内容分析的个性化推荐等。

本发明实施例包括利用一种多倍率空洞卷积神经网络模型实现全图分类目的，这种网络模型能改进传统的卷积神经网络只能定位到物体最有判别性的部分区域的缺点，本发明实施例中利用多倍率空洞卷积神经网络模型，不仅能定位到物体最有判别性的部分，还能同时定位到其他缺乏判别性的区域，以此定位到全部物体区域。然后利用定位出的物体全部区域作为监督信息，训练一个图像语义分割网络模型实现图像分割。

本发明实施例中可以利用多倍率空洞卷积神经网络定位出全部物体区域，即可以生成全局物体定位图。如图2所示，为本发明实施例提供的多倍率空洞卷积网络模型的结构示意图。利用空洞卷积物体定位可以脱离最有判别性部分的优点，本发明实施例提出了一种多倍率的空洞卷积神经网络，该网络在卷积神经网络模型的最后一层后引入多倍率空洞卷积层。多倍率空洞卷积层利用多种倍率(d＝r₁,r₂…r_k)的空洞卷积同时进行卷积操作，学习到不同分散度的物体区域,再进行全局平均池化处理，得到不同分散度下的全局物体特征。再把该特征融合得到最终的图像分类结果，该结果在给定全图分类标注的监督信息下进行交叉熵的损失函数计算，然后再通过反向传播将该损失(loss)回传到网络所有层进行网络参数的训练。

在本发明的一些实施例中，多倍率空洞卷积网络模型对每个倍率的空洞卷积都能生成如图2所示的物体定位图(H₁,H₂,...,H_k)。当d＝0时，可以生成没有空洞的卷积对应的物体定位图H₀。最终的全局物体定位图H则为不同倍率空洞卷积下所有定位图的融合：

需要说明的是，在本发明实施例中，前述的融合过程将没有空洞的卷积(d＝0)的定位图比重设为高于其他倍率的定位图，原因在于空洞卷积同时会定位到错误的物体区域。只有当至少2个物体定位图都定位到同一个物体区域，才能说明该区域是正确的有效物体区域。因此，在多倍率空洞卷积定位图以外固定给没有空洞的卷积定位图一个高权重能避免没有空洞的卷积定位出的正确的最有判别性的部分被空洞卷积定位图的平均操作所过滤。利用这种融合方式能得到高准确率的物体定位区域，能作为高质量的图像分割监督信息训练后续的图像语义分割网络。

如图3所示，为本发明实施例提供的在一个空洞倍率下的深度卷积神经网络模型上得到图像中物体区域的过程示意图。本发明实施例深度卷积神经网络模型配合类别响应定位图获取原始图像中对应全图分类标注的高响应物体区域。假定f_k(x,y)是最后一个卷积层第k个特征图上坐标为(x,y)处的值，是连接第k个特征图到第c个类别(class)的权重。则对应第c个类别的物体响应图(CAM)可以求得：

本发明实施例中，空洞卷积相比没有空洞的卷积的区别如图4所示，为本发明实施例提供的不同空洞倍率的空洞卷积及在图像中定位出的相应物体区域的示意图。没有空洞的卷积可视为d＝0的空洞卷积。由图4可见，没有空洞的卷积通常由于网络的感受野(receptive field)较小，定位出的物体区域通常集中在最有判别性的部分，而空洞卷积由于感受野更大，定位出的物体区域更加分散，且d越大，区域越分散。d＝0是空洞卷积的空洞倍率，可视为没有空洞，即传统卷积神经网络，若d>0，则为有空洞，即为空洞卷积神经网络。

如图5所示，为本申请实施例提供的弱监督图像分类标注训练的网络分割结果的示意图。本发明实施例中能够提高利用互联网上的海量用户创建了标签的图像数据训练精细的图像语义分割网络，有效地利用了大量以前无法利用的图像数据，并相应减少了图像分割人工标注的成本，对图像语义分割和其应用有潜在经济价值。利用本技术取得的图像分割效果如图5，可见仅仅依靠弱监督标注就能取得接近全监督标注的分割质量。

需要说明的是，本发明实施例中除了适用于上述说明的多倍率空洞卷积网络，还适用于其他多尺度的卷积网络，包括多种卷积核大小的卷积，多种池化(pooling)核大小的池化。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图6-a所示，本发明实施例提供的一种服务器600，可以包括：图像获取模块601、全局物体定位模块602、模型训练模块603，其中，

图像获取模块601，用于获取用于模型训练的原始图像；

全局物体定位模块602，用于使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注，得到所述原始图像中在不同分散度下的全局物体定位图，所述分散度用于指示通过所述多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布；

模型训练模块603，用于使用所述全局物体定位图作为图像语义分割网络模型的监督信息，通过所述监督信息对所述图像语义分割网络模型进行训练。

在本申请的一些实施例中，请参阅图6-b所示，所述全局物体定位模块602，包括：

特征图提取单元6021，用于使用所述多倍率空洞卷积神经网络模型中的前N-1个卷积层从所述原始图像中提取出所述目标物体的特征图，所述多倍率空洞卷积神经网络模型包括：N个卷积层，其中，第N个卷积层为多倍率空洞卷积层，所述N为正整数；

空洞卷积单元6022，用于使用所述多倍率空洞卷积层对所述目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理，得到在不同分散度下的物体区域，所述d为正整数；

池化处理单元6023，用于对所述在不同分散度下的物体区域进行全局平均池化处理，得到所述原始图像中在不同分散度下的全局物体定位图。

在本申请的一些实施例中，请参阅图6-c所示，所述池化处理单元6023，包括：

物体区域获取子单元60231，用于获取所述空洞倍率为0时的第一物体区域，以及所述空洞倍率大于0时的第二物体区域；

权重获取子单元60232，用于获取所述第一物体区域对应的第一权重，以及所述第二物体区域对应的第二权重，所述第一权重的取值大于所述第二权重的取值；

融合子单元60233，用于根据所述第一权重和所述第二权重在不同分散度下对所述第一物体区域和所述第二物体区域进行融合，得到所述全局物体定位图。

在本申请的一些实施例中，所述融合子单元60233，具体用于确定在所述d等于0时的第一物体区域H₀，以及在所述d大于0且小于或等于k时的第二物体区域(H₁,H₂,...,H_k)，所述k为空洞倍率最大值；通过如下方式对所述第一物体区域H₀和所述第二物体区域(H₁,H₂,...,H_k)在不同分散度下进行融合得到所述全局物体定位图H：

其中，所述第一权重为1，所述第二权重为所述H_i表示所述第二物体区域(H₁,H₂,...,H_k)中第i个物体区域。

在本申请的一些实施例中，请参阅图6-d所示，所述空洞卷积单元6022，包括：

像素特征点获取子单元60221，用于获取所述多倍率空洞卷积层的第t个特征图上坐标为(x,y)处的像素特征点f_t(x,y)，所述t为正整数；

类别权重获取子单元60222，用于获取在空洞倍率d下连接所述第t个特征图到第c个类别的权重所述c为正整数；

物体区域计算子单元60223，用于通过如下方式计算在空洞倍率d下对应第c个类别的物体区域H_d ^c：

在本申请的一些实施例中，请参阅图6-e所示，所述模型训练模块603，包括：

模型输出单元6031，用于将所述原始图像输入到所述图像语义分割网络模型，通过所述图像语义分割网络模型获取到图像分类结果；

损失函数计算单元6032，用于根据所述图像分类结果和所述全局物体定位图计算交叉熵损失函数，得到损失结果；

反向传播单元6033，用于将所述损失结果反向传播到所述图像语义分割网络模型的所有层中，以继续对所述图像语义分割网络模型进行训练。

在本申请的一些实施例中，所述图像语义分割网络模型，具体为深度卷积神经网络模型。

通过以上对本发明实施例的描述可知，首先获取用于模型训练的原始图像，然后使用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注，得到原始图像中在不同分散度下的全局物体定位图，分散度用于指示通过多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布。最后使用全局物体定位图作为图像语义分割网络模型的监督信息，通过监督信息对图像语义分割网络模型进行训练。本发明实施例由于采用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注，因此通过多倍率空洞卷积神经网络模型的多倍率空洞卷积可以从原始图像上定位出在不同分散度下的全局物体定位图，该全局物体定位图包括了目标物体的全部区域，因此本发明实施例通过多倍率空洞卷积神经网络模型精确定位出了原始图像中对应全图分类标注的全部物体区域，提高了图像语义分割的分割质量。

图7是本发明实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的图像语义分割模型的训练方法的步骤可以基于该图7所示的服务器结构。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物体上分开的，作为单元显示的部件可以是或者也可以不是物体单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像语义分割模型的训练方法，其特征在于，包括：

获取用于模型训练的原始图像；

2.根据权利要求1所述的方法，其特征在于，所述使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注，得到所述原始图像中在不同分散度下的全局物体定位图，包括：

使用所述多倍率空洞卷积神经网络模型中的前N-1个卷积层从所述原始图像中提取出所述目标物体的特征图，所述多倍率空洞卷积神经网络模型包括：N个卷积层，其中，第N个卷积层为多倍率空洞卷积层，所述N为正整数；

使用所述多倍率空洞卷积层对所述目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理，得到在不同分散度下的物体区域，所述d为正整数；

对所述在不同分散度下的物体区域进行全局平均池化处理，得到所述原始图像中在不同分散度下的全局物体定位图。

3.根据权利要求2所述的方法，其特征在于，所述对所述在不同分散度下的物体区域进行全局平均池化处理，得到所述原始图像中在不同分散度下的全局物体定位图，包括：

获取所述空洞倍率为0时的第一物体区域，以及所述空洞倍率大于0时的第二物体区域；

获取所述第一物体区域对应的第一权重，以及所述第二物体区域对应的第二权重，所述第一权重的取值大于所述第二权重的取值；

根据所述第一权重和所述第二权重在不同分散度下对所述第一物体区域和所述第二物体区域进行融合，得到所述全局物体定位图。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一权重和所述第二权重在不同分散度下对所述第一物体区域和所述第二物体区域进行融合，得到所述全局物体定位图，包括：

确定在所述d等于0时的第一物体区域H₀，以及在所述d大于0且小于或等于k时的第二物体区域(H₁,H₂,...,H_k)，所述k为空洞倍率最大值；

通过如下方式对所述第一物体区域H₀和所述第二物体区域(H₁,H₂,...,H_k)在不同分散度下进行融合得到所述全局物体定位图H：

5.根据权利要求2所述的方法，其特征在于，所述使用所述多倍率空洞卷积层对所述目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理，得到在不同分散度下的物体区域，包括：

获取所述多倍率空洞卷积层的第t个特征图上坐标为(x,y)处的像素特征点f_t(x,y)，所述t为正整数；

获取在空洞倍率d下连接所述第t个特征图到第c个类别的权重所述c为正整数；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述使用所述全局物体定位图作为图像语义分割网络模型的监督信息，通过所述监督信息对所述图像语义分割网络模型进行训练，包括：

将所述原始图像输入到所述图像语义分割网络模型，通过所述图像语义分割网络模型获取到图像分类结果；

根据所述图像分类结果和所述全局物体定位图计算交叉熵损失函数，得到损失结果；

将所述损失结果反向传播到所述图像语义分割网络模型的所有层中，以继续对所述图像语义分割网络模型进行训练。

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述图像语义分割网络模型，具体为深度卷积神经网络模型。

8.一种服务器，其特征在于，包括：

图像获取模块，用于获取用于模型训练的原始图像；

9.根据权利要求8所述的服务器，其特征在于，所述全局物体定位模块，包括：

特征图提取单元，用于使用所述多倍率空洞卷积神经网络模型中的前N-1个卷积层从所述原始图像中提取出所述目标物体的特征图，所述多倍率空洞卷积神经网络模型包括：N个卷积层，其中，第N个卷积层为多倍率空洞卷积层，所述N为正整数；

空洞卷积单元，用于使用所述多倍率空洞卷积层对所述目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理，得到在不同分散度下的物体区域，所述d为正整数；

池化处理单元，用于对所述在不同分散度下的物体区域进行全局平均池化处理，得到所述原始图像中在不同分散度下的全局物体定位图。

10.根据权利要求9所述的服务器，其特征在于，所述池化处理单元，包括：

物体区域获取子单元，用于获取所述空洞倍率为0时的第一物体区域，以及所述空洞倍率大于0时的第二物体区域；

权重获取子单元，用于获取所述第一物体区域对应的第一权重，以及所述第二物体区域对应的第二权重，所述第一权重的取值大于所述第二权重的取值；

融合子单元，用于根据所述第一权重和所述第二权重在不同分散度下对所述第一物体区域和所述第二物体区域进行融合，得到所述全局物体定位图。

11.根据权利要求10所述的服务器，其特征在于，所述融合子单元，具体用于确定在所述d等于0时的第一物体区域H₀，以及在所述d大于0且小于或等于k时的第二物体区域(H₁,H₂,...,H_k)，所述k为空洞倍率最大值；通过如下方式对所述第一物体区域H₀和所述第二物体区域(H₁,H₂,...,H_k)在不同分散度下进行融合得到所述全局物体定位图H：

12.根据权利要求9所述的服务器，其特征在于，所述空洞卷积单元，包括：

像素特征点获取子单元，用于获取所述多倍率空洞卷积层的第t个特征图上坐标为(x,y)处的像素特征点f_t(x,y)，所述t为正整数；

类别权重获取子单元，用于获取在空洞倍率d下连接所述第t个特征图到第c个类别的权重所述c为正整数；

物体区域计算子单元，用于通过如下方式计算在空洞倍率d下对应第c个类别的物体区域H_d ^c：

13.根据权利要求8至12中任一项所述的服务器，其特征在于，所述模型训练模块，包括：

模型输出单元，用于将所述原始图像输入到所述图像语义分割网络模型，通过所述图像语义分割网络模型获取到图像分类结果；

损失函数计算单元，用于根据所述图像分类结果和所述全局物体定位图计算交叉熵损失函数，得到损失结果；

反向传播单元，用于将所述损失结果反向传播到所述图像语义分割网络模型的所有层中，以继续对所述图像语义分割网络模型进行训练。

14.根据权利要求8至12中任一项所述的服务器，其特征在于，所述图像语义分割网络模型，具体为深度卷积神经网络模型。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7任意一项所述的方法。