CN109299716B

CN109299716B - 神经网络的训练方法、图像分割方法、装置、设备及介质

Info

Publication number: CN109299716B
Application number: CN201810893155.0A
Authority: CN
Inventors: 祝新革; 周辉; 杨策元; 石建萍; 林达华
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2021-07-06
Anticipated expiration: 2038-08-07
Also published as: CN109299716A

Abstract

本申请的实施方式，公开了一种神经网络的训练方法、图像分割方法、装置、电子设备、计算机可读存储介质以及计算机程序，其中的神经网络的训练方法主要包括：经待训练的神经网络的编码器提取输入的具有标注信息的源域图像的特征信息；经所述神经网络的图像分割器根据所述特征信息对所述源域图像进行图像分割处理，输出图像分割预测结果；根据所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值确定所述图像分割预测结果的损失、并根据所述图像分割预测结果的损失，调整所述神经网络的网络参数。

Description

神经网络的训练方法、图像分割方法、装置、设备及介质

技术领域

本申请涉及计算机视觉技术，尤其是涉及一种神经网络的训练方法、神经网络的训练装置、图像分割方法、图像分割装置、电子设备、计算机可读存储介质以及计算机程序。

背景技术

图像分割是图像识别等计算机视觉任务中的一个非常重要的技术，通常属于像素级别的计算机视觉任务，例如，图像分割会对图像中的像素进行分类等。图像分割的准确性会对计算机视觉任务的结果产生较大影响。

发明内容

本申请实施方式提供一种训练神经网络以及图像分割的技术方案。

根据本申请实施方式的其中一方面，提供一种神经网络的训练方法，该方法包括：经待训练的神经网络的编码器提取输入的具有标注信息的源域图像的特征信息；经所述神经网络的图像分割器根据所述特征信息对所述源域图像进行图像分割处理，输出图像分割预测结果；根据所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值确定所述图像分割预测结果的损失、并根据所述图像分割预测结果的损失调整所述神经网络的网络参数。

在本申请一实施方式中，所述根据所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值确定所述图像分割预测结果的损失、并根据所述图像分割预测结果的损失调整所述神经网络的网络参数包括：在所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值大于预设阈值的情况下，确定所述损失为第一损失，并基于所述第一损失产生所述神经网络反向传播，以使所述神经网络的网络参数按照损失梯度上升的方式更新。

在本申请又一实施方式中，所述根据所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值确定所述图像分割预测结果的损失、并根据所述图像分割预测结果的损失调整所述神经网络的网络参数包括：在所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值小于或等于预设阈值的情况下，确定所述损失为第二损失，并基于所述第二损失产生所述神经网络反向传播，以使所述神经网络的网络参数按照损失梯度下降的方式更新。

在本申请再一实施方式中，对所述神经网络的网络参数进行多次所述调整，以使调整后的所述神经网络的输出结果中，在预定范围内的与所述标注信息中的像素类别对应的概率值的图像分割预测结果的损失等于或接近0，所述预定范围包括：大于等于第一概率值且小于等于第二概率值之间的概率值范围。

在本申请再一实施方式中，所述第一概率值大于等于0.1，所述第二概率值小于等于0.6。

在本申请再一实施方式中，调整后的所述神经网络的输出结果中，在预定范围内的与所述标注信息中的像素类别对应的概率值的图像分割预测结果的损失的绝对值，小于在预定范围外的与所述标注信息中的像素类别对应的概率值的图像分割预测结果的损失的绝对值。

在本申请再一实施方式中，所述方法还包括：经第一生成器根据所述源域图像的特征信息生成源域生成图像；经第一判别器对所述源域生成图像进行判别，获得第一判别结果；根据所述第一判别结果确定第一判别损失；所述根据所述图像分割预测结果的损失调整所述神经网络的网络参数，包括：根据所述第一判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数。

在本申请再一实施方式中，所述根据所述第一判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数，包括：在保持第一生成器和第一判别器的网络参数不变的情况下，根据所述第一判别损失和所述图像分割预测结果的损失，调整所述神经网络的编码器的网络参数。

在本申请再一实施方式中，所述方法还包括：经第一生成器根据所述源域图像的特征信息生成源域生成图像；经第一判别器对所述源域生成图像进行判别，获得第一判别结果；根据所述第一判别结果确定第一判别损失；经待训练的神经网络的编码器提取输入的目标域图像的特征信息；经第二生成器根据所述目标域图像的特征信息生成目标域生成图像；经第二判别器对所述目标域生成图像进行判别，获得第二判别结果；根据所述第二判别结果确定第二判别损失；所述根据所述图像分割预测结果的损失调整所述神经网络的网络参数，包括：根据所述第一判别损失、第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数。

在本申请再一实施方式中，所述根据所述第一判别损失、第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数，包括：在保持第一生成器、第二生成器、第一判别器和第二判别器的网络参数不变的情况下，根据所述第一判别损失、所述第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的编码器的网络参数。

在本申请再一实施方式中，所述根据所述第一判别损失、第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数包括：计算所述图像分割预测结果中多个像素的损失的均值，根据所述均值、所述第一判别损失和第二判别损失之和，调整所述神经网络的网络参数。

在本申请再一实施方式中，所述第一判别器和第二判别器的网络参数不共享，所述第一生成器和第二生成器的网络参数共享。

在本申请再一实施方式中，所述训练方法之前，还包括：在保持编码器、第一生成器和第二生成器的网络参数不变的情况下，根据第一判别损失和第二判别损失，调整所述第一判别器和第二判别器的网络参数。

在本申请再一实施方式中，在保持编码器、第一生成器和第二生成器的网络参数不变的情况下，根据第一判别损失和第二判别损失，调整所述第一判别器和第二判别器的网络参数，之前，所述方法还包括：在对第一判别器和第二判别器成功训练后，在保持编码器、第一判别器和第二判别器的网络参数不变的情况下，根据目标域生成图像与目标域图像之间的差异、以及源域生成图像与源域图像之间的差异，调整对第一生成器和第二生成器的网络参数。

根据本申请实施方式其中另一方面，提供一种图像分割方法，所述方法包括：经神经网络的编码器提取输入的待处理目标域图像的特征信息；经所述神经网络的图像分割器根据所述待处理目标域图像的特征信息对所述待处理目标域图像进行分割处理，输出图像分割预测结果；其中，所述神经网络是，利用源域图像，根据上述的神经网络的训练方法，训练而成的。

在本申请一实施方式中，所述目标域图像包括：真实域图像；和/或，所述源域图像包括：生成域图像。

根据本申请实施方式的其中再一方面，提供一种神经网络的训练装置，所述装置包括：编码器，用于提取输入的具有标注信息的源域图像的特征信息；图像分割器，用于根据所述特征信息对所述源域图像进行图像分割处理，输出图像分割预测结果；网络参数调整模块，用于根据所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值确定所述图像分割预测结果的损失、并根据所述图像分割预测结果的损失调整所述神经网络的网络参数。

在本申请一实施方式中，所述网络参数调整模块进一步用于：在所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值大于预设阈值的情况下，确定所述损失为第一损失，并基于所述第一损失产生所述神经网络反向传播，以使所述神经网络的网络参数按照损失梯度上升的方式更新。

在本申请又一实施方式中，所述网络参数调整模块进一步用于：在所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值小于或等于预设阈值的情况下，确定所述损失为第二损失，并基于所述第二损失产生所述神经网络反向传播，以使所述神经网络的网络参数按照损失梯度下降的方式更新。

在本申请再一实施方式中，所述网络参数调整模块对所述神经网络的网络参数进行多次所述调整，以使调整后的所述神经网络的输出结果中，在预定范围内的与所述标注信息中的像素类别对应的概率值的图像分割预测结果的损失等于或接近0，所述预定范围包括：大于等于第一概率值且小于等于第二概率值之间的概率值范围。

在本申请再一实施方式中，所述装置还包括：第一生成器，用于根据所述源域图像的特征信息生成源域生成图像；第一判别器，用于对所述源域生成图像进行判别，获得第一判别结果；第一判别损失模块，用于根据所述第一判别结果确定第一判别损失；所述网络参数调整模块用于，根据所述第一判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数。

在本申请再一实施方式中，所述网络参数调整模块在保持第一生成器和第一判别器的网络参数不变的情况下，根据所述第一判别损失和所述图像分割预测结果的损失，调整所述神经网络的编码器的网络参数。

在本申请再一实施方式中，所述装置还包括：第一生成器，用于根据所述源域图像的特征信息生成源域生成图像；第一判别器，用于对所述源域生成图像进行判别，获得第一判别结果；第一判别损失模块，用于根据所述第一判别结果确定第一判别损失；所述编码器进一步用于，提取输入的目标域图像的特征信息；第二生成器，用于根据所述目标域图像的特征信息生成目标域生成图像；第二判别器，用于对所述目标域生成图像进行判别，获得第二判别结果；第二判别损失模块，用于根据所述第二判别结果确定第二判别损失；所述网络参数调整模块用于，根据所述第一判别损失、第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数。

在本申请再一实施方式中，所述网络参数调整模块在保持第一生成器、第二生成器、第一判别器和第二判别器的网络参数不变的情况下，根据所述第一判别损失、所述第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的编码器的网络参数。

在本申请再一实施方式中，所述网络参数调整模块计算所述图像分割预测结果中多个像素的损失的均值，根据所述均值、所述第一判别损失和第二判别损失之和，调整所述神经网络的网络参数。

在本申请再一实施方式中，所述网络参数调整模块在执行所述训练方法之前，还用于，在保持编码器、第一生成器和第二生成器的网络参数不变的情况下，根据第一判别损失和第二判别损失，调整所述第一判别器和第二判别器的网络参数。

在本申请再一实施方式中，在保持编码器、第一生成器和第二生成器的网络参数不变的情况下，根据第一判别损失和第二判别损失，调整所述第一判别器和第二判别器的网络参数，之前，所述网络参数调整模块还用于：在对第一判别器和第二判别器成功训练后，在保持编码器、第一判别器和第二判别器的网络参数不变的情况下，根据目标域生成图像与目标域图像之间的差异、以及源域生成图像与源域图像之间的差异，调整对第一生成器和第二生成器的网络参数。

根据本申请实施方式其中再一方面，提供一种图像分割装置，所述装置包括：编码器，用于提取输入的待处理目标域图像的特征信息；图像分割器，用于根据所述待处理目标域图像的特征信息对所述待处理目标域图像进行分割处理，输出图像分割预测结果；其中，所述神经网络是，利用源域图像，根据上述神经网络的训练装置，训练而成的。

根据本申请实施方式再一方面，提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本申请任一方法实施方式。

根据本申请实施方式再一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本申请任一方法实施方式。

根据本申请实施方式的再一个方面，提供一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现本申请任一方法实施方式。

基于本申请提供的神经网络训练方法、神经网络训练装置、图像分割方法、图像分割装置、电子设备、计算机可读存储介质及计算机程序，本申请通过利用源域图像样本执行训练操作，有利于提高神经网络的训练灵活性。

下面通过附图和实施方式，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施方式，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请的神经网络的训练方法的一个实施方式的流程图；

图2为本申请的待训练的神经网络的一个实施方式的示意图；

图3为本申请的神经网络的训练方法的另一个实施方式的流程图；

图4为本申请的第一生成器的一个实施方式的结构示意图；

图5为本申请的第一判别器的一个实施方式的结果示意图；

图6为本申请的神经网络的训练方法的再一个实施方式的流程图；

图7为本申请的待训练的神经网络的另一个实施方式的示意图；

图8为本申请的损失函数的曲线示意图；

图9为待训练的神经网络在不同样本集上的性能对比示意图；

图10为本申请的图像分割方法一实施方式的流程示意图；

图11为本申请的神经网络的训练装置一个实施方式的结构示意图；

图12为本申请的图像分割装置一实施方式的结构示意图；

图13为实现本申请实施方式的一示例性设备的框图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应当注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统及服务器等电子设备，其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子，包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性实施例

图1为本申请的神经网络的训练方法的一个实施方式的流程图。如图1所示，该实施方式的方法包括：步骤S100、步骤S110以及步骤S120。图1中的各步骤如下：

S100、经待训练的神经网络的编码器(Encoder)提取输入的具有标注信息的源域图像的特征信息。

在一个可选示例中，本申请中的源域图像也可以称为源域图像样本。本申请可以从一训练样本集中获取源域图像样本。本申请可以按照随机读取方式或者按照训练样本集中的图像样本排列次序顺序读取方式，一次从训练样本集中获取一个或者多个源域图像样本。

在一个可选示例中，本申请中的源域图像样本可以为生成域图像样本，源域图像样本的标注信息是像素级别的标注信息，例如，源域图像样本中的多个像素，甚至每一个像素，均标注有像素类别。一个像素的像素类别可以表示出该像素所属的类别。可选的，像素类别可以为汽车、树木、房屋、行人或者交通标志等。本申请不限制像素类别的具体表现形式。

在一个可选示例中，本申请中的待训练的神经网络包含有：编码器200和图像分割器(Segmentation Classifiers)210，如图2所示。一种可选的实现方式中，编码器可根据特征提取目标并采用但不限于卷积层、非线性层、池化层或其他网络单元构建，图像分割器可根据图像分割目标并采用但不限于卷积层、非线性层、池化层或其他网络单元构建。编码器200用于针对输入的图像形成特征信息。对于输入至待训练的神经网络的源域图像样本而言，待训练的神经网络中的编码器200所提取的源域图像样本的特征信息可以表现为源域图像样本的特征图的形式。本申请不限制编码器200提取特征信息的具体实现方式以及编码器200的具体结构等。

S110、经神经网络的图像分割器，根据特征信息对源域图像进行图像分割处理，输出图像分割预测结果。

在一个可选示例中，本申请中的图像分割器210用于，针对源域图像样本的特征信息(如特征图)进行像素级别的分类处理，从而获得源域图像样本中的多个像素(如所有像素)的分割预测结果。本申请不限制图像分割器210进行图像分割处理的具体实现方式以及图像分割器210的具体结构等。

在一个可选示例中，图像分割器210针对源域图像样本的特征信息所输出的图像分割预测结果的一个例子为：源域图像样本中的每一个像素分别属于N个类别的概率值。其中，N为大于1的整数。

S120、根据图像分割预测结果中与标注信息中的像素类别对应的概率值确定图像分割预测结果的损失、并根据图像分割预测结果的损失调整神经网络的网络参数。

本实施例中，图像分割预测结果的损失是根据图像分割预测结果中与标注信息中的像素类别对应的概率值确定的，基于该损失调整神经网络中如编码器和/或图像分割器等的网络参数，可基于源域图像的标注信息指导神经网络的训练，从而一定程度上将神经网络对源域图像的图像分割能力迁移到目标域图像(如真实域图像)的应用中，有利于提高神经网络进行图像分割任务处理的准确性。

在一个可选示例中，本申请可以通过对图像分割预测结果中的，与标注信息中的像素类别对应的概率值进行相应的处理(如抑制处理，也可以称为惩强扶弱的惩罚处理，下述不再一一说明)，从而形成该概率值对应的损失。本申请根据处理所形成的损失，用于调整待训练的神经网络的网络参数。本申请中的网络参数可以包括但不限于：卷积核参数和/或矩阵权重等。本申请不限制网络参数所包含的具体内容。

在一个可选示例中，由于源域图像样本具有像素级别的标注信息，如源域图像样本中的每一个像素所属的类别，因此，本申请可以根据源域图像样本中的相应像素所属的类别，从该像素的分割预测结果中挑选出该类别所对应的概率值。被挑选出的概率值后续会进行相应的处理，以形成相应的损失。为了便于描述，在下面的描述中，将挑选出的概率值称为特定概率值。

在一个可选示例中，本申请可以针对多个像素(如所有像素)的特定概率值，分别进行相应的处理，并针对处理所形成的损失进行相应计算，例如，计算针对多个或者所有像素的特定概率值进行处理，所形成的损失的平均值，该平均值可以具体包括：加权平均值等。本申请可以将计算出的平均值作为最终的损失。

在一个可选示例中，本申请中的对像素的特定概率值进行相应的处理(如惩罚处理)，可以认为是针对特定概率值的损失计算，以避免出现损失的绝对值过大的现象。通常情况下，特定概率值越大，会使损失的绝对值越大，而特定概率值过大所导致的损失的绝对值过大，通常会导致成功训练的神经网络存在过拟合状态；特定概率值越小，会使损失的绝对值越大，而特定概率值过小所导致的损失的绝对值过大，通常会导致成功训练的神经网络存在其学习到的判别性特征较弱的现象。本申请通过对像素的特定概率值进行相应的处理(如惩罚处理)，可以避免出现损失的绝对值过大的现象，从而有利于避免神经网络存在过拟合状态，并有利于避免神经网络存在判别性特征较弱的现象。

在一个可选示例中，本申请可以针对源域图像样本中的多个像素(如所有像素)的特定概率值的处理所形成的损失进行平均值计算，该计算获得的平均值在大于预定值时，该损失(即计算获得的平均值)可以使待训练的神经网络的网络参数按照损失梯度上升的方式更新；而在计算获得的平均值小于预定值时，该损失(即计算获得的平均值)可以使待训练的神经网络的网络参数按照损失梯度下降的方式更新。

在一个可选示例中，本申请中的用于使待训练的神经网络的网络参数按照损失梯度上升/下降的方式更新的损失，可以通过相应的损失函数来表示，损失函数的一个具体例子如下述公式(1)所示：

CL(p_t)＝(1+log_a(p_t))²×log_a(-log_a(p_t)) 公式(1)

在上述公式(1)中，t表示标注信息中的像素类别，p_t为图像分割预测结果中的，与第t类对应的概率值，即上述特定概率值，(1+log_a(p_t))²可以认为是权重控制因子，a为正数，例如，a可以为2、e、3或者4等。在a分别为2、e、3以及4的情况下，本申请的公式(1)所形成的曲线如图8所示，图8中的横坐标为p_t。

图9中，在p_t为1/2、1/3、1/e、1/4的情况下，损失CL(p_t)为0。

由上述公式(1)可知，在p_t大于1/a的情况下，该损失函数会产生一个负值的损失，在反向传播过程中，该负值的损失会使待训练的神经网络的网络参数按照损失梯度上升的方式更新，从而有利于使待训练的神经网络脱离基于源域图像样本的过拟合状况。在p_t小于1/a的情况下，该损失函数会产生一个正值的损失，在反向传播过程中，该正值的损失会使待训练的神经网络的网络参数按照损失梯度下降的方式更新，从而有利于使待训练的神经网络可以学习到具有较强判别性的特征。由于本申请的上述损失函数有利于避免损失过大或者过小的现象，对神经网络的性能影响，因此，该损失函数可以称为保守损失函数。

在一个可选示例中，本申请也可以采用下述公式(2)至公式(5)所示的保守损失函数：

CL(p_t)＝λ(1+log_a(p_t))²×log_a(-log_a(p_t)) 公式(2)

Loss₁＝-λ₁(p_t-0.5)³ 公式(3)

或者

在上述公式(2)-公式(5)中，λ、λ₁、λ₂、α和β均为平衡因子。

上述公式(1)至公式(5)仅为示例性的保守损失函数，保守损失函数还可以表现为其他形式，只要保守损失函数能够在一定的情况下产生用于使待训练的神经网络的网络参数按照损失梯度上升的方式更新的损失，在另一情况下，产生用于使待训练的神经网络的网络参数按照损失梯度上升的方式更新的损失，即可。在此不再一一举例说明。

在一个可选示例中，本申请可以利用上述S100-S120所示的步骤，多次调整待训练的神经网络的网络参数，从而使调整后的神经网络的输出结果中，在预定范围内的与标注信息中的像素类别对应的概率值的图像分割预测结果的损失等于或接近0。本申请中的接近0是指逼近0，例如，与0的差值小于设定阈值等，该设定阈值可以为0.1-0.3。本申请中的预定范围可以为：大于等于第一概率值且小于等于第二概率值之间的概率值范围。本申请中的第一概率值可以大于等于0.1，而第二概率值可以小于等于0.6。另外，本申请调整后的神经网络的输出结果中，在预定范围内的与标注信息中的像素类别对应的概率值的图像分割预测结果的损失的绝对值，小于在预定范围外的与标注信息中的像素类别对应的概率值的图像分割预测结果的损失的绝对值。

上述实施例训练完成的神经网络对源域图像在将神经网络对源域图像的图像分割预测能力迁移到目标域图像(如真实域图像)处理任务的同时，进一步将神经网络对源域图像中过好和/或过差的图像分割预测结果都进行了有效的抑制，由此提高了神经网络域泛化性，进一步提高了神经网络对真实域图像的图像分割任务处理的准确性，增加了神经网络的普适性和通用性。

图3为本申请的神经网络的训练方法的另一个实施方式的流程图。如图3所示，该实施方式的方法包括：步骤S300、步骤S310、步骤S320、步骤S330、步骤S340以及步骤S350。图3中的各步骤如下：

S300、经待训练的神经网络的编码器提取输入的具有标注信息的源域图像的特征信息。本步骤可以参见上述S100的描述，在此不再详细说明。

S310、经神经网络的图像分割器，根据特征信息对源域图像进行图像分割处理，输出图像分割预测结果。本步骤可以参见上述S110的描述，在此不再详细说明。

S320、经第一生成器根据特征信息生成源域生成图像。

在一个可选示例中，第一生成器根据特征信息(如特征图)生成源域生成图像，可以认为是对该特征信息进行重构处理，从而生成重构的源域图像，从而实现对源域图像样本的重编码。重构的源域图像即重编码后的源域图像。重构的源域图像可以称为源域生成图像。需要特别说明的是，第一生成器并不属于神经网络，即在神经网络成功训练完成，而进行图像分割处理时，神经网络并不包含第一生成器。

在一个可选示例中，本申请中的第一生成器可以包括：至少一个残差模块以及至少一个反卷积模块。反卷积模块可以包括：二维的反卷积层、实例归一化层(Instance Norm层)以及激活层(如LeakyReLU激活层)。第一生成器的一个实施方式的结构如图4所示。

图4中左侧的三个柱体表示三个残差模块，右侧的三个柱体表示反卷积模块。三个残差模块的卷积核数量均为512。右侧第一个反卷积模块的卷积核数量为64，右侧第二个反卷积模块的卷积核数量为128，右侧第三个反卷积模块的卷积核数量为256，三个反卷积模块的卷积核大小均为3×3。本申请不限制第一生成器的具体结构，例如，第一生成器还可以包括更多或者更少数量的反卷积模块或者残差模块，且残差模块和反卷积模块的卷积核数量、以及反卷积模块的卷积核大小等可以根据实际情况进行调整。

S330、经第一判别器对源域生成图像进行判别，获得第一判别结果。

在一个可选示例中，本申请中的第一生成器和第一判别器并不属于待训练的神经网络的一部分，也就是说，本申请引入了包含有第一生成器和第一判别器的对抗网络对神经网络进行训练，在神经网络训练成功之后，用于执行图像分割处理操作的神经网络并不包含有第一生成器和第一判别器。

在一个可选示例中，第一生成器针对源域图像样本的特征信息而生成的源域生成图像，被提供给第一判别器，由第一判别器判别其接收到的源域生成图像是否为源域图像，即第一判别器判断当前接收到的图像是源域图像，还是目标域图像，并输出判别结果(即第一判别结果)，例如，在判断出当前接收到的图像是源域图像时，输出为真的第一判别结果(如1)，否则，输出为假的第一判别结果(如0)。

需要特别说明的是，第一判别器并不属于神经网络，是用于训练神经网络而增设的辅助分支，即在神经网络成功训练完成，而进行图像分割处理时，神经网络并不包含第一判别器。

在一个可选示例中，本申请中的第一判别器可以包括：至少一个卷积模块。卷积模块可以包括：二维的卷积层以及激活层(例如，LeakyReLU激活层)。第一判别器的一个实施方式的结构如图5所示。

图5中的六个柱体分别表示卷积模块。图5左侧第一个卷积模块的卷积核数量为64，左侧第二个卷积模块的卷积核数量为128，左侧第三个卷积模块的卷积核数量为256，左侧第四个卷积模块的卷积核数量为512，左侧第五个卷积模块的卷积核数量为1024，左侧第六个卷积模块的卷积核数量为2048，六个卷积模块的卷积核大小均为3×3。本申请不限制第一判别器的具体结构，例如，第一判别器还可以包括更多或者更少数量的卷积模块，且卷积模块的卷积核数量以及卷积核大小可以根据实际情况进行调整。

S340、根据第一判别结果确定第一判别损失。

在一个可选示例中，本申请可以将第一判别器针对源域生成图像所输出的第一判别结果所对应的交叉熵损失，作为第一判别损失。第一判别损失用于与图像分割预测结果的损失一起，调整神经网络的网络参数。

S350、根据第一判别损失和图像分割预测结果的损失，调整神经网络的网络参数。

在一个可选示例中，本申请对待训练的神经网络的训练过程可以包括多个阶段，例如，第一阶段对第一判别器进行训练，第二阶段对第一生成器进行训练，第三阶段对编码器200进行训练。在对第一判别器进行训练的过程中，应保持第一生成器和编码器200的网络参数不发生变化。在对第一生成器进行训练的过程中，应保持第一判别器和编码器200的网络参数不发生变化。在对编码器200进行训练的过程中，应保持第一判别器和第一生成器的网络参数不发生变化。

在一个可选示例中，本申请在对第一判别器进行训练时，可以根据第一判别器输出的第一判别损失，调整第一判别器的网络参数。可选的，在针对第一判别器的训练达到预定迭代条件时，第一阶段的训练过程结束。第一阶段的预定迭代条件可以包括：第一判别器输出的第一判别结果的错误率，满足预定错误率要求。在第一判别结果的错误率满足该预定错误率要求的情况下，成功完成第一阶段的训练。

在一个可选示例中，本申请在对第一生成器进行训练时，可以根据第一生成器输出的源域生成图像与源域图像样本之间的损失(如利用L1损失函数计算获得的损失)、以及第一判别器输出的第一判别损失，调整第一生成器的网络参数。可选的，在针对第一生成器的训练达到预定迭代条件时，第二阶段的训练过程结束。第二阶段的预定迭代条件可以包括：第一生成器所形成的源域生成图像与源域图像样本之间的损失，满足第一预定要求。在第二阶段的预定迭代条件满足的情况下，成功完成第二阶段的训练。

在一个可选示例中，本申请在对编码器200进行训练时，可以根据第一判别器输出的第一判别结果所对应的第一判别损失、以及上述保守损失函数计算出的数值，调整编码器200的网络参数，例如，根据第一判别器输出的第一判别结果所对应的第一判别损失与上述保守损失函数计算出的数值之和，作为待训练的神经网络的损失，调整编码器200的网络参数。可选的，在针对编码器200的训练达到预定迭代条件时，第三阶段的训练过程结束。第三阶段的预定迭代条件可以包括：待训练的神经网络的损失，属于预定数值范围。在第三阶段的预定迭代条件满足的情况下，成功完成第三阶段的训练。

在成功完成第三阶段的训练之后，可以再次按照第一阶段、第二阶段以及第三阶段的顺序，对待训练的神经网络进行迭代训练，直到满足迭代次数或者神经网络的收敛满足一定的收敛要求。

图6为本申请的神经网络的训练方法的再一个实施方式的流程图。如图6所示，该实施方式的方法包括：步骤S600、步骤S610、步骤S620、步骤S630、步骤S640以及步骤S650。图6中的各步骤如下：

S600、经待训练的神经网络的编码器提取输入的具有标注信息的源域图像的特征信息，并经待训练的神经网络的编码器提取输入的目标域图像的特征信息。

在一个可选示例中，本申请可以从一训练样本集中获取源域图像(也可以称为源域图像样本)，并从另一训练样本集中获取目标域图像(也可以称为目标域图像样本)。本申请可以按照随机读取方式或者按照训练样本集中的图像样本排列次序顺序读取方式，一次从两个训练样本集中获取至少一个源域图像样本以及至少一个目标域图像样本。

在一个可选示例中，本申请的目标域图像样本可以为真实域图像样本，例如，目标域图像样本可以为摄像头拍摄的照片，也可以为摄像头拍摄的视频中的视频帧等。由于本申请中的目标域图像样本可以不具有标注信息，因此，本申请可以避免对目标域图像样本进行标注，而导致的需要投入大量人力物力的现象，从而有利于降低神经网络的训练成本，并有利于缩短神经网络的训练周期。

S610、经神经网络的图像分割器，根据源域图像的特征信息对源域图像进行图像分割处理，输出图像分割预测结果。

在一个可选示例中，本申请也不排除编码器200针对目标域图像样本所形成的特征信息，被提供给图像分割器210的可能性。本步骤可以参见上述S110的描述，在此不再详细说明。

S620、经第一生成器根据特征信息生成源域生成图像，并经第二生成器根据目标域图像的特征信息生成目标域生成图像。

在一个可选示例中，第一生成器根据接收到的特征信息(如特征图)生成源域生成图像，可以认为是对该特征信息进行重构处理，从而生成重构的源域图像，从而实现对源域图像样本的重编码。重构的源域图像即重编码后的源域图像。重构的源域图像可以称为源域生成图像。同样的，第二生成器根据接收到的特征信息(如特征图)生成目标域生成图像，可以认为是对该特征信息进行重构处理，从而生成重构的目标域图像，从而实现对目标域图像样本的重编码。重构的目标域图像即重编码后的目标域图像。重构的目标域图像可以称为目标域生成图像。需要特别说明的是，第二生成器并不属于神经网络，即在神经网络成功训练完成，而进行图像分割处理时，神经网络并不包含第二生成器。

在一个可选示例中，本申请中的第二生成器可以包括：至少一个残差模块以及至少一个反卷积模块。反卷积模块可以包括：二维的反卷积层、实例归一化层以及激活层。第二生成器的一个实施方式的结构如图4所示。另外需要特别说明的是，第一生成器和第二生成器实际上可以为同一个生成器。如果第一生成器和第二生成器为两个生成器，则第一生成器和第二生成器的网络参数是可以共享的。

本申请通过提取源域图像样本的特征信息以及目标域图像样本的特征信息，并根据特征信息重建出源域图像和目标域图像，有利于降低源域图像和目标域图像之间的分布差异(例如，高斯分布差异或者均匀分布差异等)，从而在后续的调整神经网络的网络参数的过程中，有利于提高编码器200的泛化能力，也就是说，有利于提高编码器200对新鲜样本的适应能力。

S630、经第一判别器对源域生成图像进行判别，获得第一判别结果，并经第二判别器对目标域生成图像进行判别，获得第二判别结果。

在一个可选示例中，第一生成器针对源域图像样本的特征信息，所重构的源域图像，被提供给第一判别器，由第一判别器判别，其接收到的源域图像是否为源域图像，即第一生成器判断当前接收到的图像是源域图像，还是目标域图像，并输出第一判别结果，例如，第一判别器在判断出当前接收到的图像是源域图像时，输出为真的第一判断结果(如1)，否则，第一判别器输出为假的第一判断结果(如0)。第二生成器针对目标域图像样本的特征信息重构的目标域图像，被提供给第二判别器，由第二判别器判别，其接收到的目标域图像是否为目标域图像，即第二生成器判断当前接收到的图像是目标域图像，还是源域图像，并输出第二判别结果，例如，第二判别器在判断出当前接收到的图像是目标域图像时，输出为真的第二判断结果(如1)，否则，第二判别器输出为假的第二判断结果(如0)。需要特别说明的是，第二生成器并不属于神经网络，即在神经网络成功训练完成，而进行图像分割处理时，神经网络并不包含第二判别器。

在一个可选示例中，本申请中的第一判别器和第二判别器均可以包括：至少一个卷积模块。卷积模块可以包括：二维的卷积层以及激活层(如LeakyReLU激活层)。第一判别器和第二判别器的一个结构的实施方式均可以如图5所示(参见上述实施例中针对图5的描述)。本申请不限制第一判别器和第二判别器的具体结构，例如，第一判别器和第二判别器还可以包括更多或者更少数量的卷积模块，且卷积模块的卷积核数量以及卷积核大小可以根据实际情况进行调整。

第一判别器所在的支路和第二判别器所在的支路可以形成对抗，从而使本申请的神经网络的训练过程包含有对抗学习的过程，有利于提高神经网络的域适应性，进而有利于使神经网络具有域不变性。例如，神经网络可以针对不同域的图像均能够较好的执行图像分割处理，即针对不同域的图像的图像分割处理的准确性大致相同。

需要特别说明的是，虽然第一判别器以及第二判别器的具体结构可以相同，然而，在对待训练的神经网络进行训练的过程中，第一判别器和第二判别器是各自独立训练的，因此，第一判别器和第二判别器的网络参数通常并不相同。这样通常会有利于提高神经网络中的编码器的编码性能。也就是说，第一判别器和第二判别器的网络参数通常并不共享，但是，本申请也不排除第一判别器和第二判别器的网络参数共享的可能性。

在一个可选示例中，包括第一判别器和第二判别器的待训练的神经网络的结构的一个例子如图7所示。图7中最右侧的两个D即为第一判别器和第二判别器。图7中的两个G为第一生成器和第二生成器，且第一生成器和第二生成器共享网络参数。图7中左侧的E为编码器200。图7中下侧的S为图像分割器210。

S640、根据第一判别结果确定第一判别损失，并根据第二判别结果确定第二判别损失。

在一个可选示例中，本申请可以将第一判别器针对源域生成图像所输出的第一判别结果所对应的交叉熵损失，作为第一判别损失。本申请可以将第二判别器针对目标域生成图像所输出的第二判别结果所对应的交叉熵损失，作为第二判别损失。第一判别损失和第二判别损失用于与图像分割预测结果的损失一起，调整神经网络的网络参数。

S650、根据第一判别损失、第二判别损失和图像分割预测结果的损失，调整神经网络的网络参数。

在一个可选示例中，图像分割器210针对源域图像样本的特征图所输出的图像分割预测结果的一个例子为：源域图像样本中的每一个像素分别属于N个类别的概率值。由于源域图像样本具有像素级别的标注信息，如源域图像样本中的每一个像素所属的类别，因此，本申请可以根据源域图像样本中的相应像素所属的类别，从该像素的分割预测结果中挑选出该类别所对应的概率值。被挑选出的概率值后续会进行相应的处理(如惩罚处理)，以确定该像素的分割预测结果的损失。

在一个可选示例中，假设图像分割器210输出的源域图像样本中的位于(x1，y1)位置处的像素的分割预测结果为：属于第一类的概率值k1、属于第二类的概率值k2、属于第三类的概率值k3、……、以及属于第N类的概率值kN，假设源域图像样本中的位于(x1，y1)位置处的像素的标注信息为第三类；在上述假设的条件下，本申请会从概率值k1、概率值k2、概率值k3、……、以及概率值kN中挑选出概率值k3，并将概率值k3作为上述记载的，图像分割预测结果中的，与标注信息中的像素类别对应的概率值。为了便于描述，在下述描述中，将挑选出的概率值(如概率值k3)称为特定概率值。

在一个可选示例中，本申请可以针对多个像素(如所有像素)的特定概率值，分别进行相应的处理(如惩罚处理)，以形成多个像素的分割预测结果的损失；之后，针对处理所形成的多个损失进行计算，例如，计算多个或者所有像素的惩罚处理后的损失的平均值，该平均值可以具体包括：加权平均值等。计算出的平均值可以认为是最终的损失。本申请中的惩罚处理可以认为是针对概率值的损失计算，以避免出现损失过大或者损失过小的现象。损失过大，通常会导致成功训练的神经网络存在过拟合状态，然而，损失过小，通常会导致成功训练的神经网络存在其学习到的判别性特征较弱的现象。本申请通过对概率值进行抑制处理，可以避免出现损失过大或者过小的现象，从而有利于避免神经网络存在过拟合状态，并有利于避免神经网络存在判别性特征较弱的现象。

在一个可选示例中，本申请可以针对源域图像样本中的多个像素(如所有像素)的图像分割预测结果所对应的损失进行平均值计算，该计算获得的平均值在大于预定值时，可以使待训练的神经网络的网络参数按照损失梯度上升的方式更新，而在计算获得的平均值小于预定值时，会使待训练的神经网络的网络参数按照损失梯度下降的方式更新。该损失可以用于调整第一判别器、第一生成器以及编码器200的网络参数。本申请可以通过相应的损失函数来获得像素的图像分割预测结果所对应的损失，损失函数的一个具体例子如上述公式(1)至公式(5)所示，在此不再重复说明。

在一个可选示例中，本申请对待训练的神经网络的训练过程可以包括多个阶段，例如，第一阶段对第一判别器和第二判别器进行训练，第二阶段对第一生成器和第二生成器进行训练，第三阶段对编码器200进行训练。在对第一判别器和第二判别器进行训练的过程中，应保持第一生成器、第二生成器和编码器200的网络参数不发生变化。在对第一生成器和第二生成器进行训练的过程中，应保持第一判别器、第二判别器和编码器200的网络参数不发生变化。在对编码器200进行训练的过程中，应保持第一判别器、第二判别器、第一生成器和第二生成器的网络参数不发生变化。

在一个可选示例中，本申请在对第一判别器和第二判别器进行训练时，可以根据第一判别器和第二判别器所输出的判别结果所对应的损失(如交叉熵损失)，调整第一判别器和第二判别器的网络参数。可选的，在针对第一判别器和第二判别器的训练达到预定迭代条件时，第一阶段的训练过程结束。

第一阶段的预定迭代条件可以包括：第一判别器和第二判别器输出的判别结果的错误率，满足预定错误率要求。在判别结果的错误率满足该预定错误率要求的情况下，成功完成第一阶段的训练。

在一个可选示例中，本申请在对第一生成器和第二生成器进行训练时，可以根据第一生成器和第二生成器输出的源域生成图像与源域图像样本之间的损失(如利用L1损失函数计算获得的损失)、目标域生成图像与目标域图像样本之间的损失(如利用L1损失函数计算获得的损失)、第一判别器输出的判别结果所对应的损失(如交叉熵损失)以及第二判别器输出的判别结果所对应的损失，调整第一生成器和第二生成器的网络参数。可选的，在针对第一生成器和第二生成器的训练达到预定迭代条件时，第二阶段的训练过程结束。第二阶段的预定迭代条件可以包括：第一生成器形成的源域生成图像与源域图像样本之间的损失，满足第一预定要求；第二生成器形成的目标域生成图像与目标域图像样本之间的损失，满足第一预定要求。在第二阶段的预定迭代条件满足的情况下，成功完成第二阶段的训练。

在一个可选示例中，本申请在对编码器200进行训练时，可以根据第一判别器输出的判别结果所对应的损失、第二判别器输出的判别结果所对应的损失以及上述保守损失函数计算出的数值，调整编码器200的网络参数，例如，根据第一判别器输出的判别结果所对应的损失、第二判别器输出的判别结果所对应的损失与上述保守损失函数计算出的数值之和，作为待训练的神经网络的损失，调整编码器200的网络参数。可选的，在针对编码器200的训练达到预定迭代条件时，第三阶段的训练过程结束。第三阶段的预定迭代条件可以包括：待训练的神经网络的损失，属于预定数值范围。在第三阶段的预定迭代条件满足的情况下，成功完成第三阶段的训练。

在一个可选示例中，目前，利用源域图像样本对待训练的神经网络进行训练后，神经网络在训练样本集(即源域图像样本集合)上取得最优点时，在测试样本集(即目标域图像样本集合)上并不能取得最优点。如图9中，横坐标表示训练的轮数(即使用所有的图像样本完成一次训练)，纵坐标表示图像分割任务中的评价指标，如平均交并集(mIoU)等,上面一条曲线对应源域图像样本，下面一条曲线对应目标域图像样本。由图9可知，神经网络在训练样本集上取得最优点时，在测试样本集上，神经网络的基于特征的域不变性已经开始变弱。然而，利用本申请的神经网络的训练技术，所获得的神经网络，在利用目标域图像对其进行测试，可以获得较好的测试效果，即本申请的成功训练后的神经网络是一种基于迁移学习的神经网络。

图10为本申请的图像分割方法的一个实施例的流程图。如图10所示，该实施例方法包括：步骤S1000以及步骤S1010。图10中的各步骤如下：

S1000、经神经网络的编码器提取输入的待处理目标域图像的特征信息。

S1010、经神经网络的图像分割器根据待处理目标域图像的特征信息对待处理目标域图像进行分割处理，输出图像分割预测结果。

本申请中的神经网络是，基于源域图像利用上述神经网络的训练方法的实施方式，训练而成的。本申请中的目标域图像通常是指属于目标域的图像，而源域图像通常是指属于源域的图像，用于神经网络训练的源域图像即为源域图像样本。本申请中的目标域和源域通常是两个不同的域。目标域可以对应神经网络的训练场景、测试场景以及实际应用场景，而源域通常对应神经网络的训练场景。也就是说，本申请通常会采用目标域图像对神经网络进行测试，神经网络在投入实际应用时，提供给神经网络的待处理图像通常是目标域图像，而在训练神经网络的过程中，通常会使用属于源域的图像样本(即源域图像样本)和属于目标域的图像样本(即目标域图像样本)。本申请中的源域图像样本带有像素级别的标注信息，而无论是在训练场景中，还是在测试场景中，亦或是在实际应用场景中，所使用的目标域图像样本以及目标域图像通常不带有标注信息。

目标域图像和源域图像之间通常在分布(例如，高斯分布或者均匀分布等)上存在差异。利用源域图像样本对神经网络进行训练的方式，有时会使训练成功的神经网络在目标域图像上的测试效果并不理想，即神经网络可能会存在域适应问题。本申请在利用源域图像样本进行训练而形成神经网络的过程中，会对待训练的神经网络输出的多个像素的分割预测结果，进行抑制处理(也可以认为是惩强扶弱的惩罚处理)，并基于处理结果，调整待训练的神经网络的网络参数，有利于降低神经网络对域的敏感度，从而有利于提高神经网络的域适应性，进而有利于使神经网络具有域不变性。由此可知，本申请的神经网络可以在目标域图像上，取得较好的图像分割效果。

在一个可选示例中，本申请中的源域图像可以为生成域图像，例如，可以将计算机游戏等领域中的具有像素级别的标注信息的逼真图像，作为生成域图像。本申请中的目标域图像可以为真实域图像，例如，利用摄像头(如设置于车辆中的摄像头，再如设置于房间中的摄像头等)拍摄的照片或者拍摄的视频中的视频帧等。本申请不限制源域图像和生成域图像的具体形成方式。

在一个可选示例中，本申请的神经网络可以根据待处理目标域图像的特征信息(如特征图)，确定出待处理目标域图像中的多个(如所有)像素的分割预测结果。像素的分割预测结果可以包括：像素属于至少一个类别的概率值，可选的，在预先设置有N(N为大于1的整数)个类别的情况下，任一个像素的分割预测结果可以包括：该像素属于第一类的概率值、该像素属于第二类的概率值、……、以及该像素属于第N类的概率值。本申请不限制类别的具体数量以及分割预测结果的具体表现形式。

在一个可选示例中，编码器200用于形成神经网络接收到的待处理目标域图像(如待处理真实域图像)的特征信息，并输出该特征信息。编码器200输出的特征信息被提供给图像分割器210。图像分割器210用于根据接收到的特征信息，确定待处理目标域图像中的多个像素的分割预测结果。本申请中的编码器200的网络参数是在训练神经网络的过程中确定的。编码器200可以包括但不限于卷积层、非线性Relu层、池化层以及全连接层等，编码器200所包含的层数越多，则网络越深。编码器200可以采用但不限于VGG16(VisualGeometry Group Network，视觉几何组网络)等神经网络的网络结构。本申请中的图像分割器210可以为一分类器(如基于N个类别的分类器)，该分类器可以通过双线性插值操作(Bilinear-Unsampling)实现图像的上采样，然后利用softmax函数来实现多类别的分类。本申请不限制编码器200和图像分割器210的具体表现形式。

图11为本申请的神经网络的训练装置一个实施例的结构示意图。如图11所示，该实施例的装置主要包括：编码器1100、图像分割器1110以及网络参数调整模块1120。可选的，该装置还可以包括：第一生成器1130、第一判别器1140、第一判别损失模块1150。

所执行的具体操作，可以参见上述方法实施方式中针对图1中的步骤120的描述。在此不再重复说明。

编码器1100用于提取输入的具有标注信息的源域图像的特征信息。

图像分割器1110用于根据特征信息对源域图像进行图像分割处理，输出图像分割预测结果。

网络参数调整模块1120用于根据图像分割预测结果中与标注信息中的像素类别对应的概率值确定图像分割预测结果的损失、并根据图像分割预测结果的损失调整神经网络的网络参数。

在一个可选示例中，网络参数调整模块1120进一步用于：在图像分割预测结果中与标注信息中的像素类别对应的概率值大于预设阈值的情况下，确定损失为第一损失，并基于第一损失产生神经网络反向传播，以使神经网络的网络参数按照损失梯度上升的方式更新。

在一个可选示例中，网络参数调整模块1120进一步用于：在图像分割预测结果中与标注信息中的像素类别对应的概率值小于或等于预设阈值的情况下，确定损失为第二损失，并基于第二损失产生神经网络反向传播，以使神经网络的网络参数按照损失梯度下降的方式更新。

在一个可选示例中，网络参数调整模块1120对神经网络的网络参数进行多次上述调整，以使调整后的神经网络的输出结果中，在预定范围内的与标注信息中的像素类别对应的概率值的图像分割预测结果的损失等于或接近0，其中的预定范围包括：大于等于第一概率值且小于等于第二概率值之间的概率值范围。其中的第一概率值大于等于0.1，其中的第二概率值小于等于0.6。另外，调整后的神经网络的输出结果中，在预定范围内的与所述标注信息中的像素类别对应的概率值的图像分割预测结果的损失的绝对值，小于在预定范围外的与标注信息中的像素类别对应的概率值的图像分割预测结果的损失的绝对值。

在一个可选示例中，在神经网络的训练装置包含：第一生成器1130、第一判别器1140和第一判别损失模块1150的情况下，第一生成器1130用于根据源域图像的特征信息生成源域生成图像。第一判别器1140用于对源域生成图像进行判别，获得第一判别结果。第一判别损失模块1150用于根据第一判别结果确定第一判别损失。此时，网络参数调整模块1120具体用于，根据第一判别损失和图像分割预测结果的损失，调整神经网络的网络参数。

在一个可选示例中，网络参数调整模块1120可以在保持第一生成器和第一判别器的网络参数不变的情况下，根据第一判别损失和图像分割预测结果的损失，调整神经网络的编码器的网络参数。

在一个可选示例中，在神经网络的训练装置包含：第一生成器1130、第一判别器1140、第一判别损失模块1150、第二生成器1160、第二判别器1170和第二判别损失模块1180的情况下，第一生成器1130用于根据源域图像的特征信息生成源域生成图像。第一判别器1140用于对源域生成图像进行判别，获得第一判别结果。第一判别损失模块1150用于根据第一判别结果确定第一判别损失。此时的编码器1100进一步用于，提取输入的目标域图像的特征信息。第二生成器1160，用于根据目标域图像的特征信息生成目标域生成图像。第二判别器1170用于对目标域生成图像进行判别，获得第二判别结果。第二判别损失模块1180用于根据第二判别结果确定第二判别损失。此时的网络参数调整模块1120用于根据第一判别损失、第二判别损失和图像分割预测结果的损失，调整神经网络的网络参数。另外第一判别器1140和第二判别器1170的网络参数不共享，第一生成器1130和第二生成器1160的网络参数共享。

在一个可选示例中，网络参数调整模块1120可以在保持第一生成器1130、第二生成器1160、第一判别器1140和第二判别器1170的网络参数不变的情况下，根据第一判别损失、第二判别损失和图像分割预测结果的损失，调整神经网络的编码器1100的网络参数。

在一个可选示例中，网络参数调整模块1120可以计算图像分割预测结果中多个像素的损失的均值，并根据该均值、第一判别损失和第二判别损失之和，调整神经网络的网络参数。

在一个可选示例中，网络参数调整模块1120在执行上述训练操作之前，还用于，在保持编码器1100、第一生成器1130和第二生成器1160的网络参数不变的情况下，根据第一判别损失和第二判别损失，调整第一判别器1140和第二判别器1170的网络参数。

在一个可选示例中，网络参数调整模块1120在保持编码器1100、第一生成器1130和第二生成器1160的网络参数不变的情况下，根据第一判别损失和第二判别损失，调整第一判别器1140和第二判别器1170的网络参数，之前，网络参数调整模块1120还用于：在对第一判别器1140和第二判别器1170成功训练后，在保持编码器1100、第一判别器1140和第二判别器1170的网络参数不变的情况下，根据目标域生成图像与目标域图像之间的差异、以及源域生成图像与源域图像之间的差异，调整对第一生成器和第二生成器的网络参数。

编码器1100、图像分割器1110、网络参数调整模块1120、第一生成器1130、第一判别器1140和第一判别损失模块1150分别执行的具体操作，可以参见上述方法实施方式中针对神经网络的训练方法中的描述。在此不再重复说明。

图12为本申请的图像分割装置一个实施例的结构示意图。如图12所示，该实施例的装置为神经网络，该神经网络包括：编码器1200以及图像分割器1210。其中的编码器1200用于提取输入的待处理目标域图像的特征信息。其中的图像分割器1210用于根据待处理目标域图像的特征信息对待处理目标域图像进行分割处理，输出图像分割预测结果。本申请的神经网络是，利用源域图像，通过上述神经网络的训练装置，训练而成的。本申请中的目标域图像包括：真实域图像。本申请中的源域图像包括：生成域图像。

编码器1200以及图像分割器1210所执行的具体操作，可以参见上述图像分割方法实施方式中的相关描述。在此不再重复说明。

示例性设备

图13示出了适于实现本申请的示例性设备1300，设备1300可以是汽车中配置的控制系统/电子系统、移动终端(例如，智能移动电话等)、个人计算机(PC，例如，台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图13中，设备1300包括一个或者多个处理器、通信部等，所述一个或者多个处理器可以为：一个或者多个中央处理单元(CPU)1301，和/或，一个或者多个利用神经网络进行视觉跟踪的图像处理器(GPU)1313等，处理器可以根据存储在只读存储器(ROM)1302中的可执行指令或者从存储部分1308加载到随机访问存储器(RAM)1303中的可执行指令而执行各种适当的动作和处理。通信部1312可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器1302和/或随机访问存储器1303中通信以执行可执行指令，通过总线1304与通信部1312相连、并经通信部1312与其他目标设备通信，从而完成本申请中的相应步骤。

上述各指令所执行的操作可以参见上述方法实施例中的相关描述，在此不再详细说明。此外，在RAM 1303中，还可以存储有装置操作所需的各种程序以及数据。CPU1301、ROM1302以及RAM1303通过总线1304彼此相连。

在有RAM1303的情况下，ROM1302为可选模块。RAM1303存储可执行指令，或在运行时向ROM1302中写入可执行指令，可执行指令使中央处理单元1301执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口1305也连接至总线1304。通信部1312可以集成设置，也可以设置为具有多个子模块(例如，多个IB网卡)，并分别与总线连接。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装在存储部分1308中。

需要特别说明的是，如图13所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图13的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如，GPU1313和CPU1301可分离设置，再如理，可将GPU1313集成在CPU1301上，通信部可分离设置，也可集成设置在CPU1301或GPU1313上等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请的实施方式，下文参考流程图描述的过程可以被实现为计算机软件程序，例如，本申请实施方式包括一种计算机程序产品，其包含有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的步骤的程序代码，程序代码可包括对应执行本申请提供的方法中的步骤对应的指令。

在这样的实施方式中，该计算机程序可以通过通信部分1309从网络上被下载及安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时，执行本申请中记载的实现上述相应步骤的指令。

在一个或多个可选实施方式中，本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任意实施例中所述的视觉跟踪方法或者神经网络的训练方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施方式中，本公开实施例还提供了另一种视觉跟踪方法和神经网络的训练方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中的方法包括：第一装置向第二装置发送视觉跟踪指示或者训练神经网络指示，该指示使得第二装置执行上述任一可能的实施例中的视觉跟踪方法或者训练神经网络方法；第一装置接收第二装置发送的视觉跟踪结果或者神经网络训练结果。

在一些实施例中，该视觉跟踪指示或者训练神经网络指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行视觉跟踪操作或者训练神经网络操作，相应地，响应于接收到调用指令，第二装置可以执行上述视觉跟踪方法或者训练神经网络的方法中的任意实施例中的步骤和/或流程。

应理解，本公开实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本公开实施例的限定。还应理解，在本公开中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。还应理解，对于本公开中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述，是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言，是显然的。选择和描述实施方式是为了更好说明本申请的原理以及实际应用，并且使本领域的普通技术人员能够理解本申请实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。

Claims

1.一种神经网络的训练方法，其特征在于，所述训练方法包括：

经待训练的神经网络的编码器提取输入的具有标注信息的源域图像的特征信息；

经所述神经网络的图像分割器根据所述特征信息对所述源域图像进行图像分割处理，输出图像分割预测结果；

根据所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值确定所述图像分割预测结果的损失、并根据所述图像分割预测结果的损失调整所述神经网络的网络参数；

所述方法还包括：

经第一生成器根据所述源域图像的特征信息生成源域生成图像；

经第一判别器对所述源域生成图像进行判别，获得第一判别结果；

根据所述第一判别结果确定第一判别损失；

经待训练的神经网络的编码器提取输入的目标域图像的特征信息；

经第二生成器根据所述目标域图像的特征信息生成目标域生成图像；

经第二判别器对所述目标域生成图像进行判别，获得第二判别结果；

根据所述第二判别结果确定第二判别损失；

所述根据所述图像分割预测结果的损失调整所述神经网络的网络参数，包括：

根据所述第一判别损失、第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数。

2.根据权利要求1所述的方法，其特征在于，所述根据所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值确定所述图像分割预测结果的损失、并根据所述图像分割预测结果的损失调整所述神经网络的网络参数包括：

在所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值大于预设阈值的情况下，确定所述损失为第一损失，并基于所述第一损失产生所述神经网络反向传播，以使所述神经网络的网络参数按照损失梯度上升的方式更新。

3.根据权利要求1所述的方法，其特征在于，所述根据所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值确定所述图像分割预测结果的损失、并根据所述图像分割预测结果的损失调整所述神经网络的网络参数包括：

在所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值小于或等于预设阈值的情况下，确定所述损失为第二损失，并基于所述第二损失产生所述神经网络反向传播，以使所述神经网络的网络参数按照损失梯度下降的方式更新。

4.根据权利要求1-3任一所述的方法，其特征在于，对所述神经网络的网络参数进行多次所述调整，以使调整后的所述神经网络的输出结果中，在预定范围内的与所述标注信息中的像素类别对应的概率值的图像分割预测结果的损失等于或接近0，所述预定范围包括：大于等于第一概率值且小于等于第二概率值之间的概率值范围。

5.根据权利要求4所述的方法，其特征在于，所述第一概率值大于等于0.1，所述第二概率值小于等于0.6。

6.根据权利要求4所述的方法，其特征在于，调整后的所述神经网络的输出结果中，在预定范围内的与所述标注信息中的像素类别对应的概率值的图像分割预测结果的损失的绝对值，小于在预定范围外的与所述标注信息中的像素类别对应的概率值的图像分割预测结果的损失的绝对值。

7.根据权利要求1-3任一所述的方法，其特征在于，所述方法还包括：

根据所述第一判别结果确定第一判别损失；

根据所述第一判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数，包括：

在保持第一生成器和第一判别器的网络参数不变的情况下，根据所述第一判别损失和所述图像分割预测结果的损失，调整所述神经网络的编码器的网络参数。

9.根据权利要求1-3任一所述的方法，其特征在于，所述根据所述第一判别损失、第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数，包括：

在保持第一生成器、第二生成器、第一判别器和第二判别器的网络参数不变的情况下，根据所述第一判别损失、所述第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的编码器的网络参数。

10.根据权利要求1-3任一所述的方法，其特征在于，所述根据所述第一判别损失、第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数包括：

计算所述图像分割预测结果中多个像素的损失的均值，根据所述均值、所述第一判别损失和第二判别损失之和，调整所述神经网络的网络参数。

11.根据权利要求1-3任一所述的方法，其特征在于，所述第一判别器和第二判别器的网络参数不共享，所述第一生成器和第二生成器的网络参数共享。

12.根据权利要求1-3任一所述的方法，其特征在于，所述训练方法之前，还包括：

在保持编码器、第一生成器和第二生成器的网络参数不变的情况下，根据第一判别损失和第二判别损失，调整所述第一判别器和第二判别器的网络参数。

13.根据权利要求12所述的方法，其特征在于，在保持编码器、第一生成器和第二生成器的网络参数不变的情况下，根据第一判别损失和第二判别损失，调整所述第一判别器和第二判别器的网络参数，之前，所述方法还包括：

在对第一判别器和第二判别器成功训练后，在保持编码器、第一判别器和第二判别器的网络参数不变的情况下，根据目标域生成图像与目标域图像之间的差异、以及源域生成图像与源域图像之间的差异，调整对第一生成器和第二生成器的网络参数。

14.一种图像分割方法，其特征在于，包括：

经神经网络的编码器提取输入的待处理目标域图像的特征信息；

经所述神经网络的图像分割器根据所述待处理目标域图像的特征信息对所述待处理目标域图像进行分割处理，输出图像分割预测结果；

其中，所述神经网络是，利用源域图像，根据权利要求1至13任一项所述的神经网络的训练方法，训练而成的。

15.根据权利要求14所述的方法，其特征在于：

所述目标域图像包括：真实域图像；和/或

所述源域图像包括：生成域图像。

16.一种神经网络的训练装置，其特征在于，所述训练装置包括：

编码器，用于提取输入的具有标注信息的源域图像的特征信息；

图像分割器，用于根据所述特征信息对所述源域图像进行图像分割处理，输出图像分割预测结果；

网络参数调整模块，用于根据所述图像分割预测结果中与所述标注信息中的像素类别对应的概率值确定所述图像分割预测结果的损失、并根据所述图像分割预测结果的损失调整所述神经网络的网络参数；

所述装置还包括：

第一生成器，用于根据所述源域图像的特征信息生成源域生成图像；

第一判别器，用于对所述源域生成图像进行判别，获得第一判别结果；

第一判别损失模块，用于根据所述第一判别结果确定第一判别损失；

所述编码器进一步用于，提取输入的目标域图像的特征信息；

第二生成器，用于根据所述目标域图像的特征信息生成目标域生成图像；

第二判别器，用于对所述目标域生成图像进行判别，获得第二判别结果；

第二判别损失模块，用于根据所述第二判别结果确定第二判别损失；

所述网络参数调整模块用于，根据所述第一判别损失、第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数。

17.根据权利要求16所述的装置，其特征在于，所述网络参数调整模块进一步用于：

18.根据权利要求16所述的装置，其特征在于，所述网络参数调整模块进一步用于：

19.根据权利要求16-18任一所述的装置，其特征在于，所述网络参数调整模块对所述神经网络的网络参数进行多次所述调整，以使调整后的所述神经网络的输出结果中，在预定范围内的与所述标注信息中的像素类别对应的概率值的图像分割预测结果的损失等于或接近0，所述预定范围包括：大于等于第一概率值且小于等于第二概率值之间的概率值范围。

20.根据权利要求19所述的装置，其特征在于，所述第一概率值大于等于0.1，所述第二概率值小于等于0.6。

21.根据权利要求19所述的装置，其特征在于，调整后的所述神经网络的输出结果中，在预定范围内的与所述标注信息中的像素类别对应的概率值的图像分割预测结果的损失的绝对值，小于在预定范围外的与所述标注信息中的像素类别对应的概率值的图像分割预测结果的损失的绝对值。

22.根据权利要求16-18任一所述的装置，其特征在于，所述网络参数调整模块用于，根据所述第一判别损失和所述图像分割预测结果的损失，调整所述神经网络的网络参数。

23.根据权利要求22所述的装置，其特征在于，所述网络参数调整模块在保持第一生成器和第一判别器的网络参数不变的情况下，根据所述第一判别损失和所述图像分割预测结果的损失，调整所述神经网络的编码器的网络参数。

24.根据权利要求16-18任一所述的装置，其特征在于，所述网络参数调整模块在保持第一生成器、第二生成器、第一判别器和第二判别器的网络参数不变的情况下，根据所述第一判别损失、所述第二判别损失和所述图像分割预测结果的损失，调整所述神经网络的编码器的网络参数。

25.根据权利要求16-18任一所述的装置，其特征在于，所述网络参数调整模块计算所述图像分割预测结果中多个像素的损失的均值，根据所述均值、所述第一判别损失和第二判别损失之和，调整所述神经网络的网络参数。

26.根据权利要求16-18任一所述的装置，其特征在于，所述第一判别器和第二判别器的网络参数不共享，所述第一生成器和第二生成器的网络参数共享。

27.根据权利要求16-18任一所述的装置，其特征在于，所述网络参数调整模块在执行所述训练方法之前，还用于，在保持编码器、第一生成器和第二生成器的网络参数不变的情况下，根据第一判别损失和第二判别损失，调整所述第一判别器和第二判别器的网络参数。

28.根据权利要求27所述的装置，其特征在于，在保持编码器、第一生成器和第二生成器的网络参数不变的情况下，根据第一判别损失和第二判别损失，调整所述第一判别器和第二判别器的网络参数，之前，所述网络参数调整模块还用于：

29.一种图像分割装置，其特征在于，所述装置为神经网络，所述神经网络包括：

编码器，用于提取输入的待处理目标域图像的特征信息；

图像分割器，用于根据所述待处理目标域图像的特征信息对所述待处理目标域图像进行分割处理，输出图像分割预测结果；

其中，所述神经网络是，利用源域图像，根据权利要求16至28任一项所述的神经网络的训练装置，训练而成的。

30.根据权利要求29所述的装置，其特征在于：

所述目标域图像包括：真实域图像；和/或

所述源域图像包括：生成域图像。

31.一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-15中任一项所述的方法。

32.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1-15中任一项所述的方法。