CN109978893B

CN109978893B - 图像语义分割网络的训练方法、装置、设备及存储介质

Info

Publication number: CN109978893B
Application number: CN201910231466.5A
Authority: CN
Inventors: 揭泽群; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2023-06-20
Anticipated expiration: 2039-03-26
Also published as: EP3951713A4; JP2022505762A; US20210241107A1; JP7375006B2; KR102635987B1; EP3951713A1; CN109978893A; KR20210073569A; WO2020192469A1

Abstract

本申请公开了一种图像语义分割网络的训练方法、装置、设备及存储介质，涉及图像语义分割领域。该方法包括：根据训练图像集训练第一图像语义分割网络，训练图像集中的训练图像包含标注信息；通过掩膜网络对第一图像语义分割网络的网络权重进行掩膜处理，得到第二图像语义分割网络，掩膜网络用于筛选第一图像语义分割网络中对图像的特征分布不敏感的网络权重；根据训练图像集和测试图像集，对第二图像语义分割网络进行训练，训练图像集与测试图像集的分布不同。本申请实施例中，由于掩膜网络能够过滤对特征分布敏感的网络权重，因此经过网络权重筛选的第二图像语义分割网络对测试图像集也具有更好的泛化性，从而提高对测试图像集的测试准确性。

Description

图像语义分割网络的训练方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像语义分割领域，特别涉及一种图像语义分割网络的训练方法、装置、设备及存储介质。

背景技术

图像语义分割是一种区分图像中包含的不同对象，并识别各个对象所属类别的技术。在人工智能领域，图像语义分割网络通常基于卷积神经网络训练得到。

相关技术中，基于卷积神经网络构建出初始图像语义分割网络后，首先利用训练图像集对初始图像语义分割网络进行训练，并在网络训练完成后，利用测试图像集对训练得到的图像语义分割网络进行测试，从而确定图像语义分割网络的图像语义分割效果。其中，训练图像集中的每张训练图像均包含标注信息，而测试图像集中的测试图像则不包含标注信息，该标注信息指图像中像素点所属对象的类别。

然而，采用上述方法训练出的图像语义分割网络对图像的特征分布敏感，当训练图像集与测试图像集的分布不一致时，利用图像语义分割网络对测试图像集进行测试后得到的测试结果的准确度较低。

发明内容

本申请实施例提供了一种图像语义分割网络的训练方法、装置、设备及存储介质，可以解决当训练图像集与测试图像集的分布不同时，利用测试图像集对图像语义分割网络进行测试所得到的测试结果的准确度较低的问题。所述技术方案如下：

一方面，本申请实施例提供了一种图像语义分割网络的训练方法，所述方法包括：

根据训练图像集训练第一图像语义分割网络，所述训练图像集中的训练图像包含标注信息；

通过掩膜网络对所述第一图像语义分割网络的网络权重进行掩膜处理，得到第二图像语义分割网络，所述掩膜网络用于筛选所述第一图像语义分割网络中对图像的特征分布不敏感的网络权重；

根据所述训练图像集和所述测试图像集，对所述第二图像语义分割网络进行训练，所述测试图像集中的测试图像不包含所述标注信息，且所述训练图像集与所述测试图像集的分布不同。

另一方面，本申请实施例提供了一种图像语义分割方法，所述方法用于配置有目标图像语义分割网络的计算机设备，所述目标图像语义分割网络采用如上述方面所述的方法训练得到，所述方法包括：

获取测试图像集中的测试图像；

将所述测试图像输入所述目标图像语义分割网络，并获取所述目标图像语义分割网络输出的目标图像语义分割结果，所述目标图像语义分析结果包括所述测试图像中各个像素点所属对象对应的类别；

根据所述目标图像语义分割结果显示所述测试图像对应的分割图像，所述分割图像中标注有不同类别的对象。

另一方面，本申请实施例提供了一种图像语义分割网络的训练装置，所述装置包括：

第一训练模块，用于根据训练图像集训练第一图像语义分割网络，所述训练图像集中的训练图像包含标注信息；

掩膜模块，用于通过掩膜网络对所述第一图像语义分割网络的网络权重进行掩膜处理，得到第二图像语义分割网络，所述掩膜网络用于筛选所述第一图像语义分割网络中对图像的特征分布不敏感的网络权重；

第二训练模块，用于根据所述训练图像集和所述测试图像集，对所述第二图像语义分割网络进行训练，所述测试图像集中的测试图像不包含所述标注信息，且所述训练图像集与所述测试图像集的分布不同。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的图像语义分割网络的训练方法，或者，实现上述方面所述图像语义分割方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的图像语义分割网络的训练方法，或者，实现上述方面所述图像语义分割方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述方面所述的图像语义分割网络的训练方法，或者，实现上述方面所述图像语义分割方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

基于训练图像集训练得到第一图像语义分割网络后，通过掩膜网络对第一图像语义分割网络进行网络权重筛选，筛选出对特征分布不敏感的网络权重，得到相应的第二图像语义分割网络，进而利用测试图像集和训练图像集对第二图像语义分割网络进行训练；由于掩膜网络能够过滤对特征分布敏感的网络权重，因此即便在训练图像集与测试图像集分布不同的情况下，经过网络权重筛选的第二图像语义分割网络对测试图像集也具有更好的泛化性，从而提高对测试图像集的测试准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境的示意图；

图2示出了本申请一个示例性实施例提供的图像语义分割网络的训练方法的流程图；

图3是图2所示图像语义分割网络的训练方法的原理示意图；

图4示出了本申请另一个示例性实施例提供的图像语义分割网络的训练方法的流程图；

图5是利用实数掩膜对第一权重阵列进行掩膜处理的原理示意图；

图6示出了本申请另一个示例性实施例提供的图像语义分割网络的训练方法的流程图；

图7是判别器根据图像特征对图像所属图像集进行区分的原理示意图；

图8是对第一权重阵列进行掩膜处理并增加扰动的原理示意图；

图9是对测试图像进行语义分割后所得到的语义分割效果的对比图；

图10是本申请一个示例性实施例提供的图像语义分割网络的训练装置的结构框图；

图11示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了便于理解，下面对本申请实施例中涉及的一些名词进行简单介绍。

网络权重：在卷积神经网络中，卷积核的每个单元都对应各自的网络权重，该网络权重通过网络训练得到。以3×3的卷积核为例，该卷积核内包含9个单元，相应的，该卷积核内有9个网络权重。利用卷积核对图像中的像素进行卷积处理(即利用卷积核对图像进行特征提取)时，即将像素值与卷积核中对应的网络权重相乘后，将各个乘积相加后输出。

掩膜：本申请实施例中的掩膜用于对卷积核的网络权重进行筛选。其中，利用掩膜对卷积核进行掩膜处理时，对图像特征分布不敏感的网络权重的通过率高于对图像特征分布敏感的网络权重的通过率，从而达到筛选出对图像特征分布不敏感的网络权重的效果。可选的，该掩膜可以是实数掩膜或者二值化掩膜，其中，二值化掩膜是对实数掩膜进行二值化处理后得到。

判别器：一种用于判别特征所属分布域的机器学习模型。本申请实施例中的判别器用于判别图像语义分割模型输出的图像特征所属的分布域(训练图像集或测试图像集)。

在图像语义分割领域，利用训练图像集进行网络训练，然后利用测试图像集对训练得到的网络进行测试是一种常规方式。相关技术中，利用包含标注信息的训练图像集训练图像语义分割网络后，得到图像语义分割网络的(卷积核的)网络权重符合训练图像集中的训练图像的特征分布，因此，当测试图像集中的测试图像的特征分布与训练图像的特征分布不一致时，图像语义分割网络对测试图像的泛化性较差，进而影响测试的准确度。

比如，在训练应用于无人驾驶领域的图像语义分割网络时，当训练图像集中包括A城市的道路图像，而测试图像集中包括B城市的道路图像时，由于不同城市道路图像的特征分布不同，因此利用图像语义分割网络对测试图像进行语义分割的效果不佳，这并非由于训练方式不当导致，而是由于训练图像集和测试图像集的分布不一致导致。

本申请实施例中，在图像语义分割网络的训练过程中创新性地引入了掩膜网络，利用该掩膜网络对训练得到的图像语义分割网络进行网络权重筛选，从而滤除对图像特征分布敏感的网络权重，保留对图像特征分布不敏感的网络权重，进而提高权重筛选后图像语义分割网络对测试图像(与训练图像分布不一致)的泛化性，提高权重筛选后图像语义分割网络对测试图像的语义分割效果。

本申请实施例提供的图像语义分割网络的训练方法可以用于如下任一场景。

1、该方法可以应用于辅助驾驶领域中道路图像语义分割网络的训练场景。道路图像语义分割网络可以用于识别道路图像中的道路、路标、行人、车辆、交通指示灯等道路元素，并将识别结果传输给车辆的辅助驾驶系统，以便辅助驾驶系统根据道路元素对车辆行驶状态进行控制。在训练道路图像语义分割网络的过程中，可能会出现训练图像集与测试图像集分布不一致的情况，比如训练图像集与测试图像集中的图像从不同城市采集、在不同季节采集或在不同时段采集。利用本申请实施例提供的方法训练道路图像语义分割网络后，能够提高道路图像语义分割网络对不同分布的道路图像的泛化性，以此提高对道路图像中的道路元素的识别准确率。

2、该方法可以应用于人脸识别领域中人脸图像语义分割网络的训练场景。人脸图像语义分割网络可以用于识别图像中的人脸，以便后续对图像中人脸进行标注、美颜、身份验证等等。在训练人脸图像语义分割网络的过程中，可能会出现训练图像集与测试图像集分布不一致的情况，比如训练图像集与测试图像集中的图像对应不同风格。利用本申请实施例提供的方法训练人脸图像语义分割网络后，能够提高人脸图像语义分割网络对不同分布的人脸图像的泛化性，以此提高对图像中的人脸的识别准确率。

3、该方法可以应用于人体检测领域中人体图像语义分割网络的训练场景。人体图像语义分割网络可以用于识别图像中的人体，以便后续对图像中人体区域进行标注、对图像中的人体数量进行统计、对人体姿态进行评估等等。在训练人体图像语义分割网络的过程中，可能会出现训练图像集与测试图像集分布不一致的情况，比如训练图像集与测试图像集中的图像的采集环境不同(室内或室外)、采集人体体态不同，而这将会影响人体识别的准确性。利用本申请实施例提供的方法训练人体图像语义分割网络后，能够提高人体图像语义分割网络对不同分布的人体图像的泛化性，以此提高对图像中的人体的检测准确率。

当然，除了应用于上述场景外，本申请实施例提供方法还可以应用于其他需要训练图像语义分割模型的场景，尤其适用于训练图像集与测试图像集分布不一致的场景，本申请实施例并不对具体的应用场景进行限定。

在一种可能的实施方式中，本申请实施例提供的图像语义分割网络的训练方法可以应用于个人计算机或者服务器等具有较强数据处理能力的计算机设备中。而利用通过上述方法训练得到的图像语义分割网络可以实现成为应用程序或应用程序的一部分，并被安装到终端中，使终端具备图像语义分割能力，或者，该通过上述方法训练得到的图像语义分割网络可以应用于应用程序的后台服务器中，从而由服务器为终端中的应用程序提供图像语义分割服务。

请参考图1，其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端110和服务器120，其中，终端110与服务器120之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端110中安装有具有图像语义分割需求的应用程序，该应用程序可以是辅助驾驶应用程序、拍照应用程序、抠图应用程序等等，本申请实施例对此不做限定。可选的，终端可以是手机、平板电脑、膝上便携式笔记本电脑等移动终端，也可以是台式电脑、投影式电脑、车机等终端，本申请实施例对此不做限定。

服务器120可以实现为一台服务器，也可以实现为一组服务器构成的服务器集群，其可以是物理服务器，也可以实现为云服务器。在一种可能的实施方式中，服务器120是终端110中应用程序的后台服务器。

本申请实施例中，服务器120存储有根据训练图像集121以及测试图像集122训练得到的图像语义分割网络123。在一种可能的应用场景下，当需要对目标图像进行图像语义分割时，应用程序即通过终端110将目标图像传输至服务器120，服务器120接收到目标图像后，将目标图像输入图像语义分割网络123，并将图像语义分割网络123输出的图像语义分割结果反馈给终端110，由终端110中的应用程序对图像语义分割结果进行解析并显示。

在其他可能的实施方式中，当图像语义分割网络123实现成为终端110中应用程序的一部分时，终端110可以在本地对目标图像进行图像语义分割，而无需借助服务器120，从而提高图像语义分割的速度，降低与服务器交互产生的延迟。

下面采用示意性的实施例重点对训练图像语义分割网络的过程进行说明。

请参考图2，其示出了本申请一个示例性实施例提供的图像语义分割网络的训练方法的流程图。本实施例以该训练方法用于计算机设备为例进行说明，该计算机设备可以是图1所示的服务器120，该方法包括如下步骤。

步骤201，根据训练图像集训练第一图像语义分割网络，训练图像集中的训练图像包含标注信息。

不同应用领域下，训练第一图像语义分割网络所使用的训练图像集不同。下面针对几种示意性的应用领域进行说明。

一、辅助驾驶领域：由于训练得到的图像语义分割网络用于识别图像中不同的道路元素，因此训练图像集中的训练图像为包含道路元素的道路图像。

二、人脸识别领域：由于训练得到的图像语义分割网络用于识别图像中包含的人脸，因此训练图像集中的训练图像需要包含不同角度、不同表情的人脸。

三、人体检测领域：由于训练得到的图像语义分割网络用于识别图像中包含的人体，因此训练图像集中的训练图像需要包含不同姿态、不同角度的人体躯干。

可选的，该标注信息包括训练图像中各个像素点对应对象所属的类别。比如，当训练图像是道路图像时，该标注信息包括各个像素对应道路元素所属的类别，该类别可以包括如下至少一种：道路、路标、行人、车辆和交通指示灯。

可选的，训练图像集中的训练图像是实际拍摄的照片(后续需要人工进行类别标注)，或者从游戏画面中截取的画面截图(可以直接从游戏应用中获取各个像素点所属对象的类别)。

针对训练第一图像语义分割网络的方式，在一种可能的实施方式中，计算机设备将训练图像输入构建的初始图像语义分割网络，获取初始图像语义分割网络输出的各个像素点对应的预测类别，从而根据各个像素点的预测类别和标注信息中标注类别之间的误差，通过反向传播算法对初始图像语义分割网络中的参数进行更新，最终训练得到第一图像语义分割模型。

可选的，本申请实施例中的第一图像语义分割网络采用全卷积(fullyconvolutional)网络结构，其中包含输入层、若干个卷积层和输出层，且每个卷积层中又包含多个卷积核。本申请实施例并不对第一图像语义分割网络的具体网络结构进行限定。

示意性的，第一图像语义分割网络的主干结构为VGG16以及残差网络(ResNets)。

示意性的，如图3所示，计算机设备将训练图像集中的训练图像31输入第一图像语义分割网络32，得到输出的图像特征33，从而根据训练图像31的标注信息34与图像特征33，训练第一图像语义分割网络32。

步骤202，通过掩膜网络对第一图像语义分割网络的网络权重进行掩膜处理，得到第二图像语义分割网络，掩膜网络用于筛选第一图像语义分割网络中对图像的特征分布不敏感的网络权重。

本申请实施例中引入了用于进行网络权重筛选的掩膜网络，基于训练图像集训练得到第一图像语义分割网络后，并非直接利用测试图像集对其进行测试，而是利用掩膜网络对第一图像语义分割网络进行网络权重筛选，过滤对图像的特征分布敏感的网络权重，保留对图像的特征分布不敏感的网络权重，从而得到对特征分布不敏感的第二图像语义分割网络。

可选的，该掩膜网络与第一图像语义分割网络采用相同的网络结构，即掩膜网络与第一图像语义分割网络中卷积层的层数相同，且对应卷积层中卷积核的尺寸以及数量均相同。相应的，经过掩膜处理后，第二图像语义分割网络的网络结构与第一图像语义分割网络的网络结构保持一致。

示意性的，如图3所示，计算机设备通过掩膜网络35对第一图像语义分割网络32进行掩膜处理，得到第二图像语义分割网络36。

由于第二图像语义分割网络中保留对特征分布不敏感的网络权重，因此相较于第一图像语义分割网络，第二图像语义分割网络对分布不同的测试图像集具有更好的泛化性。

步骤203，根据训练图像集和测试图像集，对第二图像语义分割网络进行训练，测试图像集中的测试图像不包含标注信息，且训练图像集与测试图像集的分布不同。

经过网络权重筛选得到第二图像语义分割网络后，计算机设备进一步利用分布不同的训练图像集和测试图像集对第二图像语义分割网络进行训练。

其中，不同应用领域下，训练图像集与测试图像集分布不同的含义也不同。下面针对几种示意性的应用领域进行说明。

一、辅助驾驶领域：训练图像集与测试图像集的分布不同指所属城市不同、所属季节不同、所属时段不同中的至少一种。比如，当训练图像集中的训练图像从A城市采集，而测试图像集中的测试图像从B城市采集时，训练图像集和测试图像集的分布不同。

二、人脸识别领域：训练图像集与测试图像集的分布不同指风格不同(训练图像集为写实风格，测试图像集为卡通风格)的至少一种。比如，当训练图像集中的训练图像为包含亚洲人脸的图像，而测试图像集中的测试图像为包含欧美人脸的图像时，训练图像集和测试图像集的分布不同。

三、人体检测领域：训练图像集与所述测试图像集的分布不同指采集环境不同、体态不同中的至少一种。比如，当训练图像集中的训练图像是室内采集的人体图像，而测试图像集中的测试图像是室外采集的人体图像时，训练图像集和测试图像集的分布不同。

在一种可能的实施方式中，计算机设备将训练图像输入第二图像语义分割网络，从而根据训练图像的标注信息以及第二图像语义分割网络的预测类别，通过反向传播算法对第二图像语义分割网络的参数进行更新(保持第一图像语义分割网络的网络权重不变，更新掩膜网络，并利用更新后的掩膜网络对第一图像语义分割网络进行掩膜处理，从而达到更新第二图像语义分割网络的效果)。

示意性的，如图3所示，计算机设备将训练图像31将训练图像31输入第二图像语义分割网络36，得到输出的第一图像特征38，从而根据训练图像31的标注信息34与第一图像特征38，训练第二图像语义分割网络36。

在一种可能的实施方式中，计算机设备将训练图像和测试图像输入第二图像语义分割网络，并采用对抗训练的方式，训练判别器区分第二图像语义分割网络提取出的特征属于训练图像集或测试图像集，从而驱动第二图像语义分割网络进行更新以提取出对分布不敏感的图像特征。

示意性的，如图3所示，计算机设备将训练图像31和测试图像37输入第二图像语义分割网络36，得到训练图像31对应的第一图像特征38以及测试图像37对应的第二图像特征39，从而根据第一图像特征38和第二图像特征39对第二图像语义分割网络36进行对抗训练。

综上所述，本申请实施例中，基于训练图像集训练得到第一图像语义分割网络后，通过掩膜网络对第一图像语义分割网络进行网络权重筛选，筛选出对特征分布不敏感的网络权重，得到相应的第二图像语义分割网络，进而利用测试图像集和训练图像集对第二图像语义分割网络进行训练；由于掩膜网络能够过滤对特征分布敏感的网络权重，因此即便在训练图像集与测试图像集分布不同的情况下，经过网络权重筛选的第二图像语义分割网络对测试图像集也具有更好的泛化性，从而提高对测试图像集的测试准确性。

可选的，计算机设备采用对抗训练的方式，对网络权重筛选后的第二图像语义分割模型进行训练，从而提高第二图像语义分割网络提取分布不敏感特征的能力。请参考图4，其示出了本申请另一个示例性实施例提供的图像语义分割网络的训练方法的流程图。该方法包括如下步骤。

步骤401，根据训练图像集训练第一图像语义分割网络，训练图像集中的训练图像包含标注信息。

本步骤的实施方式可以参考上述步骤201，本实施例在此不再赘述。

步骤402，获取第一图像语义分割网络对应的第一权重阵列，第一权重阵列包括第一图像语义分割网络中各个卷积核对应的网络权重。

在一种可能的实施方式中，计算机设备获取第一图像语义分割网络中各个卷积核对应的网络权重，并根据各个卷积核对应的网络权重构建得到第一权重阵列。可选的，该第一权重阵列是由网络权重构成的权重矩阵。

可选的，训练得到第一图像语义分割网络后，第一图像语义分割网络中的网络权重即被固定(fixed)，后续训练过程中通过训练掩膜网络来筛选第一图像语义分割网络中的网络权重，得到第二图像语义分割网络。

示意性的，如图5所示，计算机设备获取到第一图像语义分割网络对应的第一权重阵列51，该第一权重阵列51中包含9个网络权重(阵列中的圆)，且不同的图案代表不同的网络权重。

需要说明的是，本实施例仅以一个3×3卷积核对应的网络权重为例进行示意性说明，在实际应用过程中，第一权重阵列中包含大量卷积核对应的网络权重，本实施例对此不做限定。

步骤403，通过掩膜网络对应的实数掩膜对第一权重阵列进行掩膜处理，得到第二权重阵列。

本申请实施例中，掩膜网络与第一图像语义分割网络的网络结构相同，且掩膜网络与第一图像语义分割网络中网络权重的数量相同。因此，在一种可能的实施方式中，计算机设备获取掩膜网络中各个卷积核对应的网络权重，从而生成与第一权重阵列尺寸一致的实数掩膜。可选的，该实数掩膜是由(掩膜网络中)网络权重构成的权重矩阵。

针对掩膜处理的过程，可选的，计算机设备将实数掩膜与第一权重阵列中点对点相乘，得到第二权重阵列。其中，实数掩膜中实数的值越大，第一权重阵列中对应网络权重的通过率越高。

示意性的，第一图像语义分割网络对应的第一权重阵列为W_s，掩膜网络对应的实数掩膜为M_real，则经过掩膜处理后得到的第二权重阵列为W_s*M_rwal。

在实施过程中发现，直接利用实数掩膜对第一权重阵列进行掩膜处理的效果不佳，因此，在一种可能的实施方式中，计算机设备首先实数掩膜进行二值化处理(达到滤波的效果)，进而使用二值化处理后的实数掩膜进行掩膜处理。在图4的基础上，如图6所示，本步骤可以包括如下步骤。

步骤403A，通过阈值函数对实数掩膜进行二值化处理，生成二值化掩膜，二值化掩膜是由0和1构成的阵列，且二值化掩膜的尺寸与第一权重阵列的尺寸相同。

其中，阈值函数用于将实数掩膜中的实数值转化为0或1，从而得到实数掩膜对应的二值化掩膜。可选的，该阈值函数可以表示为：

而经过二值化处理后得到的二值化掩膜M_b可以表示为：M_b＝F_thres(M_real)。

在示意性的例子中，掩膜网络的实数掩膜被初始化为0.01，且τ被设置为0.005，即通过阈值函数对初始化的实数掩膜进行二值化处理后，得到的二值化掩膜的值为1。

示意性的，如图5所示，计算机设备获取到实数掩膜52后，通过阈值函数53对其进行二值化处理，得到二值化掩膜54，其中，二值化掩膜54中黑色填充表示为0，白色填充表示为1。

步骤403B，将第一权重阵列与二值化掩膜点对点相乘，得到第二权重阵列。

进一步的，计算机设备将第一权重阵列与二值化掩膜进行点对点相乘，得到第二权重阵列。其中，点对点相乘指将第一权重阵列中第i行第j列的网络权重与二值化掩膜中第i行第j列的掩膜值相乘。

其中，当二值化掩膜对应的掩膜值为1时，第一权重阵列中对应网络权重的通过率为100％，即网络权重被保留；当二值化掩膜对应的掩膜值为0时，第一权重阵列中对应网络权重的通过率为0％，即网络权重被过滤，从而起到了网络权重筛选的效果。

示意性的，如图5所示，利用二值化掩膜54对第一权重阵列51进行掩膜处理时，由于二值化掩膜54中第一行第一列、第一行第三列、第二行第二列、第三行第二列以及第三行第三列对应的掩膜值为1，因此得到的第一权重阵列51中第一行第一列、第一行第三列、第二行第二列、第三行第二列以及第三行第三列的网络权重保留在第二权重阵列55中，而第一行第二列、第二行第一列、第二行第三列以及第三行第一列的网络权重则被过滤。，最终得到第二权重阵列55。

需要说明的是，由于第一图像语义分割网络的网络权重已被固定，因此，后续掩膜网络更新后，计算机设备可以根据更新后的二值化掩膜对第一权重阵列进行掩膜处理，从而得到第二权重阵列。

步骤404，根据第二权重阵列生成第二图像语义分割网络。

得到第二权重阵列后，计算机设备即生成相应的第二图像语义分割网络，其中，该第二图像语义分割网络采用第二权重阵列中包含的网络权重。结合上述步骤中的示例，生成的第二图像语义分割网络W_m可以表示为：W_m＝W_s*M_b，其中，W_s为第一图像语义分割网络。

在图4的基础上，如图6所示，本步骤可以包括如下步骤。

步骤404A，根据第二权重阵列，对第一图像语义分割网络中各个卷积核进行网络权重更新。

由于二值化掩膜与第一权重阵列的尺寸相同，因此得到的第二权重阵列与第一权重阵列的尺寸相同，计算机设备即根据第二权重阵列中包含的各个网络权重，对第一图像语义分割网络中相应的网络权重进行更新。

相较于第一权重阵列，第二权重阵列中对特征分布敏感的网络权重得到过滤，因此，应用第二权重阵列中网络权重的图像语义分割网络提取的图像特征对分布不敏感(相较于应用第一权重阵列)。

步骤404B，将网络权重更新后的第一图像语义分割网络确定为第二图像语义分割网络。

进一步的，计算机设备将网络权重更新后的得到的图像语义分割网络确定为第二图像语义分割网络。相较于第一图像语义分割网络，第二图像语义分割网络中对分布敏感的网络权重被过滤。

步骤405，根据训练图像集和测试图像集计算判别器的判别器损失，判别器用于根据图像特征确定图像所属的图像集。

对于第二图像语义分割网络，本申请实施例中采用对抗训练的方式，训练判别器来区分网络提取到的图像特征属于训练图像集或测试图像集，同时训练第二图像语义分割网络从图像中提取出对分布不敏感的图像特征，使得判别器无法区分图像特征所属的图像集(即属于训练图像集和测试图像集的概率均为0.5)。

在一种可能的实施方式中，计算机设备计算判别器损失的过程可以包括如下步骤。

一、将目标图像输入第二图像语义分割网络，得到目标图像特征，目标图像属于训练图像集或测试图像集。

本申请实施例中，计算机设备构建的判别器用于根据输入的图像特征确定图像所属的图像集，因此，计算判别器的判别器损失前，需要将来自训练图像集或测试图像集的目标图像输入第二图像语义分割网络中，由第二图像语义分割网络对目标图像进行特征提取，得到相应的目标图像特征。

示意性的，如图7所示，计算机设备将训练图像31输入第二图像语义分割网络36，得到第一图像特征38；将测试图像37输入第二图像语义分割网络36，得到第二图像特征39。

二、将目标图像特征输入判别器，得到判别结果。

进一步的，计算机设备将提取到的目标图像特征输入判别器，并获取判别器输出的判别结果，该判别结果中包含目标图像(特征)属于训练图像集的概率以及属于训练图像集的概率。

可选的，该判别器可以采用全连接卷积神经网络结构，本申请实施例并不对判别器的具体结构进行限定。

示意性的，如图7所示，计算机设备将第一图像特征38输入判别器71后，判别器71输出的结果为：目标图像有X的概率属于训练图像集，有1-X的概率属于测试图像集。

三、根据目标图像所属的图像集和判别结果，计算判别器损失。

根据判别结果中目标图像所属的图像集以及目标图像实际所属的图像集，计算机设备通过判别器损失函数计算判别器损失，以便后续基于判别器损失对判别器的参数进行更新，以提高判别器的判别准确性。其中，判别器的目标是判别结果趋向于目标图像实际所属的图像集。

可选的，判别器的判别器损失函数可以表示为：

其中，h,w为目标图像中各个像素点的横纵坐标，z指示目标图像实际所属的图像集(当目标图像属于训练图像集时，z为0，当目标图像属于测试图像集时，z为1)，

为第二图像语义分割网络从训练图像中提取到的图像特征，/>

为第二图像语义分割网络从测试图像中提取到的图像特征，D为判别器。

步骤406，根据训练图像集计算第二图像语义分割网络的分割损失。

在一种可能的实施方式中，计算机设备将训练图像集中的训练图像输入第二图像语义分割网络，获取第二图像语义分割网络输出的语义分割结果，从而根据语义分割结果和标注信息计算交叉熵分类损失。

同时，为了驱动第二图像语义分割网络提取出对分布不敏感的图像特征，在计算第二图像语义分割网络的交叉熵分类损失时，还会引入判别器对测试图像特征(通过第二图像语义分割网络对测试图像提取得到)的判别结果(对抗性损失)，从而将交叉熵分类损失和对抗性损失确定为第二图像语义分割网络的分割损失。

可选的，第二图像语义分割网络的分割损失可以表示为：

/>

为图像中第h行第w列像素点的真值标注(ground-truth)，/>

是对图像中第h行第w列像素点的预测值，/>

为像素级别的交叉熵分类损失，

为判别器D的对抗性损失。

步骤407，根据分割损失和判别器损失对抗训练第二图像语义分割网络和判别器。

确定出判别器的判别器损失以及第二图像语义分割网络的分割损失后，终端根据分割损失和判别器损失对第二图像语义分割网络以及判别器中的参数进行反向传播训练，并在满足收敛条件时，完成第二图像语义分割网络和判别器的训练。

另外，通过阈值函数对掩膜网络的实数掩膜进行二值化处理，从而利用得到的二值化掩膜对图像语义分割网络进行网络权重筛选，在提高权重筛选效果的同时，降低权重筛选时的计算量，进而提高了图像语义分割网络的训练速度。

此外，通过构建判别器，并采用对抗性训练的方式对掩膜处理后的图像语义分割网络和判别器进行训练，进一步提高图像语义分割网络提取对分布不敏感的图像特征的能力，从而提高图像语义分割网络对测试图像集的泛化性。

为了进一步提高对测试图像集中图像的泛化性以及测试精度，在一种可能的实施方式中，通过阈值函数对实数掩膜进行二值化处理，生成二值化掩膜后，计算机设备将第一权重阵列与二值化掩膜点对点相乘，得到中间权重阵列，然后根据中间权重阵列和扰动阵列生成第二权重阵列，其中，扰动阵列用于为中间权重阵列中的网络权重增加扰动，且扰动阵列与第一权重阵列的尺寸相同。

其中，具有上述掩膜以及扰动功能的掩膜网络可以表示为：M_pm＝W_s*W_b+W_p，其中，W_b为掩膜网络的网络权重，W_p为扰动阵列。

示意性的，如图8所示，计算机设备通过阈值函数53对实数掩膜52进行二值化处理，得到二值化掩膜54后，将二值化掩膜54和第一权重阵列51点对点相乘，得到中间权重阵列56。进一步的，计算机设备对中间权重阵列56和扰动阵列57进行点对点相加，最终得到第二权重阵列55。

后续对第二图像语义分割网络进行训练时，即同时对掩膜网络的实数掩膜以及扰动阵列进行更新。

通过上述实施例提供的训练方法完成图像语义分割网络训练后，计算机设备即可利用训练得到的目标图像语义分割网络对测试图像集进行测试，从而根据语义分割结果确定出网络的图像语义分割质量。

在一种可能的实施方式中，计算机设备获取测试图像集中的测试图像后，将测试图像输入目标图像语义分割网络，并获取目标图像语义分割网络输出的目标图像语义分割结果，其中，该目标图像语义分割结果包括测试图像中各个像素点所属对象对应的类别。

进一步的，计算机设备根据目标图像语义分割结果显示测试图像对应的分割图像，从而根据分割图像确定网络的图像语义分割质量，其中，分割图像中标注有不同类别的对象。可选的，计算机设备预先为各个类别分配标记颜色，从而根据各个像素点所属对象对应的类别，采用相应的标记颜色对各个像素点进行填充，从而生成测试图像对应的分割图像。

请参考图9，其示出了对测试图像进行语义分割后所得到的语义分割效果的对比图。从图9中可以看出，相较于未使用本申请实施例提供的训练方法，应用本申请实施例提供的训练方法后，在测试图像集与训练图像集分布不同的情况下，图像语义分割网络对测试图像的语义分割结果更加准确。

图10是本申请一个示例性实施例提供的图像语义分割网络的训练装置的结构框图，该装置可以设置于上述实施例所述的计算机设备，如图10所示，该装置包括：第一训练模块1010、掩膜模块1020和第二训练模块1030；

第一训练模块1010，用于根据训练图像集训练第一图像语义分割网络，所述训练图像集中的训练图像包含标注信息；

掩膜模块1020，用于通过掩膜网络对所述第一图像语义分割网络的网络权重进行掩膜处理，得到第二图像语义分割网络，所述掩膜网络用于筛选所述第一图像语义分割网络中对图像的特征分布不敏感的网络权重；

第二训练模块1030，用于根据所述训练图像集和所述测试图像集，对所述第二图像语义分割网络进行训练，所述测试图像集中的测试图像不包含所述标注信息，且所述训练图像集与所述测试图像集的分布不同。

可选的，所述掩膜网络与所述第一图像语义分割网络的网络结构相同，且所述掩膜网络与所述第一图像语义分割网络中网络权重的数量相同；

所述掩膜模块1020，包括：

获取单元，用于获取所述第一图像语义分割网络对应的第一权重阵列，所述第一权重阵列包括所述第一图像语义分割网络中各个卷积核对应的网络权重；

掩膜单元，用于通过所述掩膜网络对应的实数掩膜对所述第一权重阵列进行掩膜处理，得到第二权重阵列，所述实数掩膜包括所述掩膜网络中各个卷积核对应的网络权重；

生成单元，用于根据所述第二权重阵列生成所述第二图像语义分割网络。

可选的，所述掩膜单元，用于：

通过阈值函数对所述实数掩膜进行二值化处理，生成二值化掩膜，所述二值化掩膜是由0和1构成的阵列，且所述二值化掩膜的尺寸与所述第一权重阵列的尺寸相同；

将所述第一权重阵列与所述二值化掩膜点对点相乘，得到所述第二权重阵列。

可选的，所述掩膜单元，还用于：

将所述第一权重阵列与所述二值化掩膜点对点相乘，得到中间权重阵列；

根据所述中间权重阵列和扰动阵列生成所述第二权重阵列，所述扰动阵列用于为所述中间权重阵列中的网络权重增加扰动。

可选的，所述生成单元，用于：

根据所述第二权重阵列，对所述第一图像语义分割网络中各个卷积核进行网络权重更新；

将网络权重更新后的所述第一图像语义分割网络确定为所述第二图像语义分割网络。

可选的，所述第二训练模块1030，包括：

第一计算单元，用于根据所述训练图像集计算所述第二图像语义分割网络的分割损失；

第二计算单元，用于根据所述训练图像集和所述测试图像集计算判别器的判别器损失，所述判别器用于根据图像特征确定图像所属的图像集；

对抗训练单元，用于根据所述分割损失和所述判别器损失对抗训练所述第二图像语义分割网络和所述判别器。

可选的，所述第二计算单元，用于：

将目标图像输入所述第二图像语义分割网络，得到目标图像特征，所述目标图像属于所述训练图像集或所述测试图像集；

将所述目标图像特征输入所述判别器，得到判别结果；

根据所述目标图像所属的图像集和所述判别结果，计算所述判别器损失。

可选的，用于辅助驾驶领域时，所述训练图像集与所述测试图像集的分布不同包括所属城市不同、所属季节不同、所属时段不同中的至少一种；

或，

用于人脸识别领域时，所述训练图像集与所述测试图像集的分布不同包括风格不同；

或，

用于人体检测领域时，所述训练图像集与所述测试图像集的分布不同包括采集环境不同、体态不同中的至少一种。

需要说明的是：上述实施例提供的图像语义分割网络的训练装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像语义分割网络的训练装置与图像语义分割网络的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图11，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1100包括中央处理单元(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1208和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1107可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1101执行，一个或多个程序包含用于实现上述文本极性识别方法的指令，中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一实施例所述的图像语义分割模型的训练方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的图像语义分割模型的训练方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一方法实施例所述的图像语义分割模型的训练方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像语义分割网络的训练方法，其特征在于，所述方法包括：

将所述训练图像集中的训练图像输入至所述第二图像语义分割网络，获取所述第二图像语义分割网络输出的语义分割结果；

根据所述语义分割结果和标注信息确定交叉熵分类损失；

通过所述第二图像语义分割网络对测试图像集中的测试图像进行提取，得到测试图像特征；所述测试图像集中的测试图像不包含所述标注信息，且所述训练图像集与所述测试图像集的分布不同；

根据将所述测试图像特征通过判别器得到的判别结果确定对抗性损失，所述判别器用于根据图像特征确定图像所属的图像集；将所述交叉熵分类损失和所述对抗性损失确定为第二图像语义分割网络的分割损失，所述分割损失的损失函数如下公式所示：

其中，h,w为输入所述判别器的图像中各个像素点的横纵坐标，

为图像中第h行第w列像素点的真值标注，/>

是对图像中第h行第w列像素点的预测值，

为像素级别的交叉熵分类损失；z指示输入所述判别器的图像实际所属的图像集，当输入所述判别器的图像属于所述训练图像集时，z为0；当输入所述判别器的图像属于所述测试图像集时，z为1，/>

为所述测试图像特征，D为所述判别器，

为判别器D的对抗性损失；

根据所述训练图像集和所述测试图像集计算所述判别器的判别器损失，所述判别器损失的损失函数如下公式所示：

其中，

为所述第二图像语义分割网络从所述训练图像中提取到的图像特征；

根据所述分割损失和所述判别器损失对抗训练所述第二图像语义分割网络和所述判别器。

2.根据权利要求1所述的方法，其特征在于，所述掩膜网络与所述第一图像语义分割网络的网络结构相同，且所述掩膜网络与所述第一图像语义分割网络中网络权重的数量相同；

所述通过掩膜网络对所述第一图像语义分割网络的网络权重进行掩膜处理，得到第二图像语义分割网络，包括：

获取所述第一图像语义分割网络对应的第一权重阵列，所述第一权重阵列包括所述第一图像语义分割网络中各个卷积核对应的网络权重；

通过所述掩膜网络对应的实数掩膜对所述第一权重阵列进行掩膜处理，得到第二权重阵列，所述实数掩膜包括所述掩膜网络中各个卷积核对应的网络权重；

根据所述第二权重阵列生成所述第二图像语义分割网络。

3.根据权利要求2所述的方法，其特征在于，所述通过所述掩膜网络对应的实数掩膜对所述第一权重阵列进行掩膜处理，得到第二权重阵列，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过阈值函数对所述实数掩膜进行二值化处理，生成二值化掩膜之后，还包括：

5.根据权利要求2至4任一所述的方法，其特征在于，所述根据所述第二权重阵列生成所述第二图像语义分割网络，包括：

6.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述训练图像集和所述测试图像集计算判别器的判别器损失，包括：

将所述目标图像特征输入所述判别器，得到判别结果；

7.根据权利要求1至4任一所述的方法，其特征在于，

所述方法用于辅助驾驶领域时，所述训练图像集与所述测试图像集的分布不同包括所属城市不同、所属季节不同、所属时段不同中的至少一种；

或，

所述方法用于人脸识别领域时，所述训练图像集与所述测试图像集的分布不同包括风格不同；

或，

所述方法用于人体检测领域时，所述训练图像集与所述测试图像集的分布不同包括采集环境不同、体态不同中的至少一种。

8.一种图像语义分割方法，其特征在于，所述方法用于配置有目标图像语义分割网络的计算机设备，所述目标图像语义分割网络采用如权利要求1至7任一所述的方法训练得到，所述方法包括：

获取测试图像集中的测试图像；

将所述测试图像输入所述目标图像语义分割网络，并获取所述目标图像语义分割网络输出的目标图像语义分割结果，所述目标图像语义分割结果包括所述测试图像中各个像素点所属对象对应的类别；

9.一种图像语义分割网络的训练装置，其特征在于，所述装置包括：

第一计算单元，用于将所述训练图像集中的训练图像输入至所述第二图像语义分割网络，获取所述第二图像语义分割网络输出的语义分割结果；根据所述语义分割结果和标注信息确定交叉熵分类损失；通过所述第二图像语义分割网络对测试图像集中的测试图像进行提取，得到测试图像特征；所述测试图像集中的测试图像不包含所述标注信息，且所述训练图像集与所述测试图像集的分布不同；根据将所述测试图像特征通过判别器得到的判别结果确定对抗性损失，所述判别器用于根据图像特征确定图像所属的图像集；将所述交叉熵分类损失和所述对抗性损失确定为第二图像语义分割网络的分割损失，所述分割损失的损失函数如下公式所示：