CN112750128B

CN112750128B - 图像语义分割方法、装置、终端及可读存储介质

Info

Publication number: CN112750128B
Application number: CN201911282055.5A
Authority: CN
Inventors: 杨霁晗; 李睿宇; 李冠彬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-08-01
Anticipated expiration: 2039-12-13
Also published as: CN112750128A

Abstract

本发明实施例提供了一种图像语义分割方法、装置、终端及可读存储介质，其中，所述方法包括：获取待分类图像，所述待分类图像中包括m个待分类对象；调用图像语义分割模型对所述待分类图像中的m个待分类对象进行分类和标注处理，得到标注结果，其中，所述标注结果用于指示所述m个待分类对象各自所属的类别，所述图像语义分割模型为根据源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像对初始分割模型进行训练得到的，所述对抗扰动特征图像为基于对应图像的特征图像进行对抗扰动生成得到的。通过实施本发明实施例，可以在对目标图像进行语义分割时，提升对小物体类别的分割性能。

Description

图像语义分割方法、装置、终端及可读存储介质

技术领域

本发明涉及人工智能技术，尤其涉及一种图像语义分割方法、装置、终端及可读存储介质。

背景技术

对交通场景的有效认知是自动驾驶技术中的关键一环，而快速准确的图像语义分割可极大的提升自动驾驶汽车对交通场景的认知。目前，大多方法都基于对抗对齐来解决图像语义分割任务，这些方法融合了对抗学习，尝试从特征层面匹配源领域和目标域的特征分布。由于交通场景的图像数据长尾分布情况较严重，领域间对齐的最终会被大物体类别(如公路、建筑等)主导，容易忽略小物体类别(如红绿灯、自行车等)的特征表达，从而导致在小物体上的分割性能较差。

发明内容

本发明实施例提供了一种图像语义分割方法、装置、终端及可读存储介质，可以在对目标图像进行语义分割时，提升对小物体类别的分割性能。

第一方面，本发明实施例提供了一种图像语义分割方法、装置、设备及可读存储介质，该图像语义分割方法包括：获取待分类图像，该分类图像中包括m个待分类对象，m为正整数；调用图像语义分割模型对待分类图像中的m个待分类对象进行分类和标注处理，得到标注结果；其中，标注结果用于指示m个待分类对象各自所属的类别，图像语义分割模型为根据源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像对初始分割模型进行训练得到的，该抗扰动特征图像为基于对应图像的特征图像进行对抗扰动生成得到的，源图像和目标图像来自样本图像集。

在一种实现方式中，图像语义分割模型包括特征提取网络、对象分类网络及对象鉴别网络，调用图像语义分割模型对目标图像中的m个待分类对象进行分类和标注处理之前还包括：获取样本图像集，该本图像集包括源图像和目标图像，源图像与目标图像至少具备属于同一类别的样本对象；利用样本图像集对初始分割模型进行训练，得到训练分割模型和特征提取网络输出的源特征图像和目标特征图像，该特征图像与源图像一一对应，该标特征图像与目标图像一一对应；调用训练分割模型中的对象分类网络和对象鉴别网络，对源特征图像和目标特征图像进行对抗扰动特征提取，得到源图像和目标图像各自对应的对抗扰动特征图像；利用源图像和目标图像各自对应的对抗扰动特征图像对训练分割模型进行再训练，得到图像语义分割模型。

在一种实现方式中，调用训练分割模型中的对象分类网络和对象鉴别网络，对源特征图像和目标特征图像进行对抗扰动特征提取，得到源图像和目标图像各自对应的对抗扰动特征图像包括：调用训练分割模型中的对象分类网络和对象鉴别网络，对源特征图像和目标特征图像进行k次迭代运算，得到源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像/>对象分类网络第k次输出的源分类图像/>和目标分类图像/>对源图像对应的对抗扰动特征图像/>对象分类网络第k次输出的源分类图像/>和源特征图像f_s进行特征提取，得到源图像对应的对抗扰动特征图像/>对目标图像对应的对抗扰动特征图像/>对象分类网络第k次输出的目标分类图像/>和目标特征图像f_t进行特征提取，得到目标图像对应的对抗扰动特征图像/>

在一种实现方式中，对源图像对应的对抗扰动特征图像对象分类网络第k次输出的源分类图像/>和源特征图像f_s进行特征提取，得到源图像对应的对抗扰动特征图像包括：采用如下公式，计算得到源图像对应的对抗扰动特征图像/>

其中，ε₁表示第一扰动强度、ε₂表示第二扰动强度，ε₃表示第三扰动强度，表示源图像对应的对抗扰动特征图像，/>表示第k次迭代运算得到的源图像对应的对抗扰动特征图像，/>表示对象分类网络第k次输出的源分类图像，f_s表示源特征图像，y_s表示包括真实标注结果的源图像。

在一种实现方式中，对目标图像对应的对抗扰动特征图像对象分类网络第k次输出的目标分类图像/>和目标特征图像f_t进行特征提取，得到目标图像对应的对抗扰动特征图像包括：采用如下公式，计算得到目标图像对应的对抗扰动特征图像/>

其中，ε₁表示第一扰动强度、ε₂表示第二扰动强度，表示目标图像对应的对抗扰动特征图像，/>表示第k次迭代运算得到的目标图像对应的对抗扰动特征图像，/>表示对象分类网络第k次输出的目标分类图像，f_t表示目标特征图像。

在一种实现方式中，图像语义分割模型包括对象分类网络，图像语义分割模型的对象分类网络为利用优化目标函数对预训练分类模型中包括的对象分类网络的网络参数进行更新获得的；优化目标函数为至少一个损失函数之和，该化目标函数用于指示图像语义分割模型中的对象分类网络对源图像和目标图像处理时的损失。

在一种实现方式中，优化目标函数为：

其中，表示对象分类网络输出的源分类图像，y_s表示包括真实标注结果的源图像，P_s表示对象分类网络输出的源分类图像，/>表示对象分类网络输出的目标分类图像，P_t表示对象分类网络输出的目标分类图像，/>用于指示源图像对应的抗扰动特征图像与包括真实标注结果的源图像之间的损失，L_seg(P_s,y_s)用于指示源特征图像与包括真实标注结果的源图像之间的损失，/>用于指示目标特征图像与目标图像对应的对抗扰动特征图像之间的损失，L_ent(P_t)用于指示目标特征图像与目标图像之间的损失，用于指示目标图像对应的对抗扰动特征图像与目标图像之间的损失。

在一种实现方式中，图像语义分割模型包括对象鉴别网络，图像语义分割模型中的对象鉴别网络为利用交叉熵损失函数对训练分割模型中包括的对象鉴别网络的网络参数进行更新获得的；该叉熵损失函数用于指示图像语义分割模型中的对象鉴别网络对源图像和目标图像处理时的损失。

在一种实现方式中，交叉熵损失函数为：

其中，P_*表示对象分类网络输出的对抗扰动特征图像对应的目标分类图像和源分类图像，P表示对象分类网络输出的目标分类图像和源分类图像/>L_adv(P_*)用于指示源图像对应的对抗扰动特征图像与目标图像对应的对抗扰动特征图像之间的损失，L_adv(P)用于指示源特征图像与目标特征图像之间的损失。

第二方面，本发明实施例提供了一种图像语义分割装置，该图像语义分割装置包括：

获取单元：用于获取待分类图像，该分类图像中包括m个待分类对象，m为正整数；

处理单元：用于调用图像语义分割模型对待分类图像中的m个待分类对象进行分类和标注处理，得到标注结果；其中，标注结果用于指示m个待分类对象各自所属的类别，图像语义分割模型为根据源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像对初始分割模型进行训练得到的，该抗扰动特征图像为基于对应图像的特征图像进行对抗扰动生成得到的，源图像和目标图像来自样本图像集。

第三方面，本发明实施例提供了一种计算机设备，该计算机设备包括：

存储器，该存储器包括计算机可读指令；

与存储器相连的处理器，该处理器用于执行所述计算机可读指令，从而使得计算机设备执行如上第一方面或第一方面的任意可能的实施方式中所描述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如上第一方面或第一方面的任意可能的实施方式中所描述的方法。

本发明实施例中，终端设备获取待分类图像，该待分类图像中包括m个待分类对象；终端设备调用图像语义分割模型对该待分类图像中的m个待分类对象进行分类和标注处理，得到标注结果，该标注结果用于指示m个待分类对象各自所属的类别；其中，图像语义分割模型为根据源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像对初始分割模型进行训练得到的，该对抗扰动特征图像为基于对应图像的特征图像进行对抗扰动生成得到的。由此可见，终端设备可以在对目标图像进行语义分割时，提升对小物体类别的分割性能。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种对抗对齐特征空间方法的框架示意图；

图2是一种对抗对齐输出空间方法的框架示意图；

图3是一种对抗对齐和最小化熵的方法的框架示意图；

图4是一种协同训练的方法的框架示意图；

图5是本发明实施例提供的一种图像语义分割方法流程示意图；

图6是本发明实施例提供的一种标注结果示意图；

图7是本发明实施例提供的一种图像语义分割方法流程示意图；

图8是本发明实施例提供的一种图像语义分割模型的框架示意图；

图9是本发明实施例提供的一种生成源图像对应的对抗扰动特征方法的示意图；

图10是本发明实施例提供的一种生成目标图像对应的对抗扰动特征方法的示意图；

图11是本发明实施例提供的一种图像语义分割装置的结构示意图；

图12是本发明实施例提供的一种终端设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本发明使用的术语仅仅是出于描述特定实施例的目的，而非限制本发明。本发明和权利要求书所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。应当理解的是，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

目前，大多方法都基于对抗对齐来解决图像语义分割任务，以下为几种常见的对抗对齐方法。请参见图1，图1是一种对抗对齐特征空间方法的框架示意图，该方法采用的模型包括特征提取器，逐像素分类器和鉴别器。鉴别器判断输入的样本图像来自于源领域还是目标域，而特征提取器需要欺骗鉴别器，使该鉴别器无法分辨提取的特征是来自源领域还是目标领域的样本图像。通过特征提取器和鉴别器之间的对抗，最终会缩小两个领域图像通过特征提取器所提取的特征差异。请参见图2，图2是一种对抗对齐输出空间方法的框架示意图，该方法在对抗对齐特征空间方法上进行了改进，考虑到由分类器得到的输出空间含有较丰富的空间信息，将鉴别器的位置由特征提取器之后，调整到了分类器之后，在分割性能上取得了提升。请参见图3，图3是一种对抗对齐和最小化熵的方法的框架示意图，该方法在最小化熵的同时，对抗对齐源领域和目标域中图像的熵，通过这种方式能在减小无标注样本图像无序性的同时，保留一定的语义信息。请参见图4，图4是一种协同训练的方法的框架示意图，该方法借助两个分类器，强制两个分类器从不同的角度学习特征分布，能够学习到领域不变的特征表达，并加上了逐类别对齐的损失函数，能够提升小物体的分割性能。

上述基于对抗对齐的方法存在一个共同的问题：只能全局地对齐两个领域间特征表达的边缘分布。但是，由于语义分割任务上数据的长尾分布严重且缺乏类别上的领域适配监督，领域间对齐的过程最终会被大物体类别(如道路、建筑)主导，从而导致这种策略容易忽略尾部类别或小物体(如红绿灯、自行车)的特征表达。而协同训练的方法，需要额外的参数，即多个分类器，会增大网络的训练成本，而且很难保证分类器能够从不同角度学习到不变的特征，对于小物体的性能虽然有所提升，但并不够显著。

为解决上述问题，本发明实施例提出了一种图像语义分割方法。终端设备根据源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像对初始分割模型进行训练得到图像语义分割模型。进而终端设备获取待分类图像，该待分类图像中包括m个待分类对象。并调用图像语义分割模型对待分类图像中的m个待分类对象进行分类和标注处理，得到标注结果，该标注结果用于指示m个待分类对象各自所属的类别。从而实现提升小物体的分割性能。

其中，终端设备可以包括但不限于：服务器、台式电脑、智能手机、平板电脑、膝上计算机等具有通信和存储记忆功能的设备。

请参见图5，图5是本发明实施例提供的一种图像语义分割方法流程示意图，图像语义分割方法可包括以下步骤S501-S502：

S501：终端设备获取待分类图像。

终端设备获取待分类图像，该待分类图像中包括m个待分类对象，m为正整数。其中，待分类图像为真实世界的图像，如以图像语义分割方法应用于自动驾驶技术为例，该待分类图像可为自动驾驶汽车在行驶过程中通过摄像头拍摄的实时交通场景图像。进而目标图像中包括的m个待分类对象可为道路、建筑物、行人、自行车、汽车、路标、红绿灯等等。

S502：终端设备调用图像语义分割模型对待分类图像中的m个待分类对象进行分类和标注处理，得到标注结果。

终端设备调用图像语义分割模型对待分类图像中的m个待分类对象进行分类和标注处理，得到标注结果。其中，标注结果用于指示m个待分类对象各自所属的类别；图像语义分割模型为根据源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像对初始分割模型进行训练得到的，该对抗扰动特征图像为基于对应图像的特征图像进行对抗扰动生成得到的，源图像和目标图像来自样本图像集，得到图像语义分割模型的具体实施方式可参照下文详述。

举例来说，以图像语义分割方法应用于自动驾驶技术为例，请参见图6，图6是本发明实施例提供的一种标注结果示意图。如图所示，图6第一列表示待分类图像(RGB Image)，该待分类图像中包括行人、自行车、汽车、建筑物、红绿灯、道路等m个待分类对象。终端设备将m个待分类对象以行人、自行车、汽车、建筑物、红绿灯、道路等作为类别，对待分类图像进行分类并标注处理，其标注结果如第五列图像语义分割方法(Ours)所示，将同一类别的待分类对象标注为同一颜色。图6第二列表示真实标注结果(GT)，该真实标注结果可为人工对待分类图像进行标注得到的，可作为标注结果的标准。图6第三列无自适应(WithoutAdaptation)和图6第四列自适应结构输出空间(ASN)表示采用现有方法对待分类图像进行标注处理的标注结果。由图6可以看出，采用本发明实施例提供的图像语义分割方法得到的标注结果与真实标注结果最接近。

请参见图7，图7是本发明实施例提供的一种图像语义分割方法流程示意图，图像语义分割方法可包括以下步骤S701-S704：

S701：终端设备获取样本图像集。

样本图像集中包括源图像和目标图像，源图像与目标图像至少具备属于同一类别的样本对象，并且源图像与目标图像一一对应。其中，源图像来自源领域，该源领域中的源图像可为采用图像合成技术合成的图像，该源图像携带有标签；由于解决图像语义分割任务需要大量有标注的图像对图像语义分割模型进行训练，目前通常常用人工进行标注，合成的图像可以避免人工对图像进行标注形成标签，可降低成本和工作量。目标图像来自目标域，该目标域中的目标图像可为通过采集真实世界中的场景得到的图像，该目标图像没有携带标签。样本对象为源图像和目标图像包括的对象，该对象可为物体。如以图像语义分割方法应用于自动驾驶技术为例，源图像可通过将多个行人、多个自行车、多个汽车、多个建筑物、红绿灯、道路等样本对象合成在一张图像上得到；目标图像可为通过摄像头拍摄的道路场景的图像。源图像与目标图像至少如道路、行人、汽车等属于同一类别的样本对象。

S702：终端设备利用样本图像集对初始分割模型进行训练，得到训练分割模型和特征提取网络输出的源特征图像和目标特征图像，该源特征图像与源图像一一对应，该目标特征图像与目标图像一一对应。

请参见图8，图8是本发明实施例提供的一种图像语义分割模型的框架示意图。如图所示初始分割模型包括特征提取网络G(也可称为特征提取器)、对象分类网络F(也可称为分类器)和对象鉴别网络D(也可称为鉴别器)。该特征提取网络G、对象分类网络F和对象鉴别网络D均为神经网络，该神经网络可以包括但不限于卷积神经网络(ConvolutionalNeural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep Neural Networks，DNN)、残差网络(Residual Networks)等等。特征提取网络G用于对样本图像集中的源图像和目标图像进行特征提取；对象分类网络F根据提取到的特征进行逐像素的分类，构成输出空间；对象鉴别网络D根据对象分类网络F输出的分类结果，判断该分类结果对应的特征是来自于源图像还是目标图像。具体地，终端设备利用样本图像集对初始分割模型进行训练，得到训练分割模型。并且初始分割模型中的特征提取网络G对源图像和目标图像进行特征提取，可分别得到源图像对应的源特征图像和目标图像对应的目标特征图像，为方便描述，源特征图像和目标特征图像可统称为原特征图像。其中，终端设备利用样本图像集对初始分割模型进行训练时，可选取样本图像集中的部分源图像和目标图像，得到一次批(batch)，该批的批尺寸(batch_size)大于等于1，即一次批中包括至少一对样本图像集中的源图像和目标图像，并且输入初始分割模型的源图像和目标图像一一对应。

可选地，终端设备可采用源领域中的源图像对初始分割模型进行预训练，以使初始分割模型对图像语义分割任务有初步的认识。具体地，采用交叉熵损失函数对初始分割模型进行预训练，如下公式(1)：

其中，W和H表示源图像的宽和高，C表示源图像具有的样本对象的类别个数。

S703：终端设备调用训练分割模型中的对象分类网络和对象鉴别网络，对源特征图像和目标特征图像进行对抗扰动特征提取，得到源图像和目标图像各自对应的对抗扰动特征图像。

终端设备调用训练分割模型中的对象分类网络和对象鉴别网络，对源特征图像和目标特征图像进行K次迭代运算，得到源图像和目标图像各自对应的对抗扰动特征图像。其中，K为自定义设置的，例如，研发人员根据训练过程中图像语义分割模型表现的性能好坏而对K进行取值，K取值过大会增加计算资源的耗费，如K值可以为3。具体地，终端设备调用训练分割模型中的对象分类网络和对象鉴别网络，对源特征图像和目标特征图像进行k次迭代运算，其中k∈{0,1,…,K-1}；得到源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像/>对象分类网络第k次输出的源分类图像/>和目标分类图像/>进而终端设备对源图像对应的对抗扰动特征图像/>对象分类网络第k次输出的源分类图像和源特征图像f_s进行特征提取，得到源图像对应的对抗扰动特征图像/>终端设备对目标图像对应的对抗扰动特征图像/>对象分类网络第k次输出的目标分类图像/>和目标特征图像f_t进行特征提取，得到目标图像对应的对抗扰动特征图像/>

具体地，本发明实施例中生成对抗特征图像用于达到两个目的：1)缩小源图像对应的源特征图像和目标图像对应的目标特征图像在特征层面的差距；2)生成的对抗扰动特征图像能够含有对象分类网络的一些弱点信息。

1)缩小源图像对应的源特征图像和目标图像对应的目标特征图像在特征层面的差距。若源图像为合成的图像，与来自真实世界的目标图像相比图像特征会产生失真，进而导致自动驾驶汽车在真实世界的交通场景中识别率较低。举例来说，源图像中包括样本对象道路，但道路的颜色失真了，与目标图像中的样本对象道路的颜色差异过大，此时图像语义分割模型可能将该目标图像中的样本对象道路分类成一个新的类别，因此需要缩小源图像对应的源特征图像和目标图像对应的目标特征图像在特征层面的差距。本发明实施例中，终端设备通过对对象鉴别网络进行对抗攻击，以达到缩小特征层面差距的目的。具体可采用如下公式(2)所示的损失函数：

L_adv(P)＝-E[log(D(P_s))]-E[log(1-D(P_t))] 公式(2)

其中，P_s表示对象分类网络输出的源分类图像，P_t表示对象分类网络输出的目标分类图像。

2)生成的对抗扰动特征图像能够含有对象分类网络的一些弱点信息，通过抗扰动特征图像对对象分类网络进行训练后，该网络就会对该弱点信息更加鲁棒。其中，该弱点信息为对象分类网络容易忽略的一些信息，例如样本对象为小物体，如自行车、红绿灯等。具体可采用如下公式(3)所示的损失函数：

L_seg(P_s,y_s)＝Lov'asz-Softmax(P_s,y_s) 公式(3)

其中，y_s表示包括真实标注结果的源图像，Lov'asz表示平滑的雅卡尔系数(Jaccard index)，Softmax表示归一化指数函数。

可选地，终端设备实现自适应控制生成的对抗扰动特征图像与对应的源特征图像和目标特征图像的差异，保证原特征图像的语义信息不要过多的损失。因此控制该对抗扰动特征图像与原特征图像间的二范数(L₂距离)。

请参见图9，图9是本发明实施例提供的一种生成源图像对应的对抗扰动特征方法的示意图，如图9所示，将源特征图像f_s输入对象分类网络，得到该对象分类网络的梯度图和该对象分类网络对应的输出结果，并将该输出结果输入对象鉴别器网络得到该对象鉴别器的梯度图，利用扰动强度对该源特征图像f_s、对象分类网络的梯度图和对象鉴别器的梯度图进行K次迭代运算，得到源图像对应的对抗扰动特征图像。具体可采用如下如公式(4)计算得到图像对应的对抗扰动特征图像

其中，ε₁表示第一扰动强度、ε₂表示第二扰动强度，ε₃表示第三扰动强度，表示第k次迭代后源图像对应的对抗扰动特征图像，/>表示对象分类网络第k次输出的对抗扰动特征图像对应的源分类图像，f_s表示源特征图像，y_s表示包括真实标注结果的源图像。

请参见图10，图10是本发明实施例提供的一种生成目标图像对应的对抗扰动特征方法的示意图。如图10所示，将目标特征图像f_t输入对象鉴别器网络得到该对象鉴别器的梯度图，利用扰动强度对目标特征图像f_t和对象鉴别器的梯度图进行K次迭代运算，得到目标图像对应的对抗扰动特征图像。具体可采用如下公式(5)计算目标图像对应的对抗扰动特征图像

其中，ε₁表示第一扰动强度、ε₂表示第二扰动强度，表示第k次迭代后目标图像对应的对抗扰动特征图像，/>表示对象分类网络第k次输出的对抗扰动特征图像对应的目标分类图像，f_t表示目标特征图像。

可选地，该ε₁、ε₂、ε₃的取值为自定义设置的，例如研发人员根据训练过程中图像语义分割模型表现的分割性能好坏而对ε₁、ε₂、ε₃进行取值，例如取值分别为0.2、0.002、0.0005时，图像语义分割模型表现的分割性能最好。

S704：终端设备利用源图像和目标图像各自对应的对抗扰动特征图像对训练分割模型进行再训练，得到图像语义分割模型。

当终端设备得到源图像和目标图像各自对应的对抗扰动特征图像后，对训练分割模型进行再训练，由于该对抗扰动特征图像含有弱点信息，如果能在恰当的监督下进行训练，那么图像语义分割模型就能够更具鲁棒性。

具体地，源领域中的源图像由于携带有标签，可以直接采用图像语义分割模型对源图像进行处理时的损失进行监督。但是目标域的目标图像由于没有携带标签，需要合适的损失函数进行监督。因此，如果原特征图像和对抗扰动特征图像经过对象分类网络后，能够保持相同的输出结果，即分类结果相同。那么对象分类网络就能够较好的对抗该对抗扰动特征图像产生的扰动，具体可采用如下公式(6)所示的损失函数：

其中，P_t表示对象分类网络输出的目标分类图像，表示对象分类网络输出的对抗扰动特征图像对应的目标分类图像。

但是，这种监督并没有语义信息层面和对样本对象进行分类时分辨力上的保证。对抗扰动特征图像产生的扰动会增加对象分类网络的不确定性，而最小化熵能很好的降低该对象分类网络的不确定性，提高图像语义分割时的置信度。具体可采用如下公式(7)所示的损失函数：

其中，w和h表示对象分类网络输出的图像对应的宽和高，C表示样本图像中源图像或目标图像具有的样本对象的类别个数。

结合上述的损失函数，可得到优化目标函数。图像语义分割模型中的对象分类网络可利用该优化目标函数对预训练分类模型中包括的对象分类网络的网络参数进行更新获得的。该优化目标函数为至少一个损失函数之和，优化目标函数用于指示图像语义分割模型中的对象分类网络对源图像和目标图像处理时的差异。该优化目标函数如公式(8)所示：

其中，表示对象分类网络输出的对抗扰动特征图像对应的源分类图像，y_s表示包括真实标注结果的源图像，P_s表示对象分类网络输出的源分类图像，/>表示对象分类网络输出的对抗扰动特征图像对应的目标分类图像，P_t表示对象分类网络输出的目标分类图像，/>用于指示源图像对应的抗扰动特征图像与包括真实标注结果的源图像之间的损失，L_seg(P_s,y_s)用于指示源特征图像与包括真实标注结果的源图像之间的损失，用于指示目标特征图像与目标图像对应的对抗扰动特征图像之间的损失，L_ent(P_t)用于指示目标特征图像与目标图像之间的损失，/>用于指示目标图像对应的对抗扰动特征图像与目标图像之间的损失。

进一步地，图像语义分割模型中的对象鉴别网络可利用交叉熵损失函数对训练分割模型中包括的对象鉴别网络的网络参数进行更新获得的。该交叉熵损失函数用于指示图像语义分割模型中的对象鉴别网络对源图像和目标图像处理时的差异。该交叉熵损失函数如公式(9)所示：

其中，P_*表示对象分类网络输出的对抗扰动特征图像对应的目标分类图像和源分类图像，P表示对象分类网络输出的目标分类图像和源分类图像，L_adv(P_*)用于指示源图像对应的对抗扰动特征图像与目标图像对应的对抗扰动特征图像之间的损失，L_adv(P)用于指示源特征图像与目标特征图像之间的损失。

可选地，步骤S703与步骤S704为两个交替进行的步骤，并不断迭代。即终端设备利用源图像和目标图像各自对应的对抗扰动特征图像对训练分割模型进行再训练后，终端设备调用再训练后的训练分割模型中的对象分类网络和对象鉴别网络，对源特征图像和目标特征图像进行对抗扰动特征提取，得到源图像和目标图像各自对应的对抗扰动特征图像，并不断迭代最后得到图像语义分割模型。

进一步地，如以图像语义分割方法应用于自动驾驶技术为例，可在城市景观数据集(GTA5->Cityscapes)和图像分割数据集(SYNTHIA->Cityscapes)两个公开数据集上对本发明实施例提供的图像语义分割方法进行测试。

表1.GTA5->Cityscapes数据集上的分割性能对比

具体地，如表1所示，表1为在GTA5->Cityscapes数据集上进行测试的分割性能对比结果，表1中第二行至第四行为使用卷积神经网络(VGG16)作为图像语义分割模型的网络结构的分割性能结果，第五行至第十一行为使用残差网络(ResNet)作为图像语义分割模型的网络结构的分割性能结果。其中，第一列(Method)表示用于解决语义分割任务的方法，Ours表示本发明实施例提供的语义分割方法。采用语义分割的标准度量均交并比(MeanIntersection over Union，MIoU)作为评价指标，可以看出本发明实施例提出的图像语义分割方法得到MIoU值更大，即整体分割性能更优。

如表2所示，表2为在SYNTHIA->Cityscapes数据集上进行测试的分割性能对比结果。同理，表2分别为使用卷积神经网络(VGG16)和残差网络(ResNet)作为图像语义分割模型的网络结构的分割性能结果。其中，第一列(Method)表示用于解决语义分割任务的方法，Ours表示本发明实施例提供的语义分割方法。采用语义分割的标准度量均交并比(MeanIntersection over Union，MIoU)作为评价指标，可以看出本发明实施例提出的图像语义分割方法得到MIoU₁₃值更大，即整体分割性能更优。

表2.SYNTHIA->Cityscapes数据集上的分割性能对比

由表1和表2可以看出本发明实施例提出的图像语义分割方法在小物体(如人、骑行者、汽车、公交车、自行车等)的分割性能上明显优于其他方法。

本发明实施例中，终端设备获取目标图像，该目标图像中包括m个待分类对象；终端设备调用图像语义分割模型对该目标图像中的m个待分类对象进行分类和标注处理，得到标注结果，该标注结果用于指示m个待分类对象各自所属的类别；其中，图像语义分割模型为根据源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像对初始分割模型进行训练得到的，该对抗扰动特征图像为基于对应图像的特征图像进行对抗扰动生成得到的。由此可见，终端设备可以在对目标图像进行语义分割时，提升对小物体类别的分割性能。

请参见图11，图11是本发明实施例提供的一种图像语义分割装置的结构示意图，该图像语义分割装置具体可为一种计算机设备，用于执行图5-图10任一所示方法步骤，所述图像语义分割装置11可以包括获取单元1101和处理单元1102。其中：

获取单元1101：用于获取待分类图像，该分类图像中包括m个待分类对象，m为正整数；

处理单元1102：用于调用图像语义分割模型对待分类图像中的m个待分类对象进行分类和标注处理，得到标注结果；其中，标注结果用于指示m个待分类对象各自所属的类别，图像语义分割模型为根据源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像对初始分割模型进行训练得到的，该抗扰动特征图像为基于对应图像的特征图像进行对抗扰动生成得到的，源图像和目标图像来自样本图像集。

在一种实现方式中，图像语义分割模型包括特征提取网络、对象分类网络及对象鉴别网络，处理单元1102具体用于：

获取样本图像集，该本图像集包括源图像和目标图像，源图像与目标图像至少具备属于同一类别的样本对象；

利用样本图像集对初始分割模型进行训练，得到训练分割模型和特征提取网络输出的源特征图像和目标特征图像，该特征图像与源图像一一对应，该标特征图像与目标图像一一对应；

调用训练分割模型中的对象分类网络和对象鉴别网络，对源特征图像和目标特征图像进行对抗扰动特征提取，得到源图像和目标图像各自对应的对抗扰动特征图像；

利用源图像和目标图像各自对应的对抗扰动特征图像对训练分割模型进行再训练，得到图像语义分割模型。

在一种实现方式中，处理单元1102具体用于：

调用训练分割模型中的对象分类网络和对象鉴别网络，对源特征图像和目标特征图像进行k次迭代运算，得到源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像/>对象分类网络第k次输出的源分类图像/>和目标分类图像/>

对源图像对应的对抗扰动特征图像对象分类网络第k次输出的源分类图像/>和源特征图像f_s进行特征提取，得到源图像对应的对抗扰动特征图像/>

对目标图像对应的对抗扰动特征图像对象分类网络第k次输出的目标分类图像/>和目标特征图像f_t进行特征提取，得到目标图像对应的对抗扰动特征图像/>

在一种实现方式中，处理单元1102具体用于：

采用如下公式，计算得到源图像对应的对抗扰动特征图像

在一种实现方式中，处理单元1102具体用于：

采用如下公式，计算得到目标图像对应的对抗扰动特征图像

在一种实现方式中，优化目标函数为：

在一种实现方式中，交叉熵损失函数为：

根据本发明的另一个实施例，图11所示的图像语义分割装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于图像语义分割方法的装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种终端设备的结构示意图。请参见图12，该终端设备120至少包括处理器1201、输入设备1202、输出设备1203以及计算机存储介质1204。其中，终端设备内的处理器1201、输入设备1202、输出设备1203以及计算机存储介质1204可通过总线或其他方式连接。

计算机存储介质1204可以存储在终端设备的存储器中，所述计算机存储介质1204用于存储计算机程序，所述计算机程序包括程序指令，所述处理器1201用于执行所述计算机存储介质1204存储的程序指令。处理器1201(或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能。

本发明实施例还提供了一种计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备的记忆终端设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端设备的操作系统。并且，在该存储空间中还存放了适于被处理器1201加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非易失的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器1201加载并执行计算机存储介质中存放的一条或一条以上指令，以实现上述有关图像语义分割识别方法实施例中的方法的相应步骤；具体实现中，计算机可读存储介质中的一条或一条以上指令由处理器1201加载并执行如下步骤：

获取待分类图像，该分类图像中包括m个待分类对象，m为正整数；

调用图像语义分割模型对待分类图像中的m个待分类对象进行分类和标注处理，得到标注结果；其中，标注结果用于指示m个待分类对象各自所属的类别，图像语义分割模型为根据源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像对初始分割模型进行训练得到的，该抗扰动特征图像为基于对应图像的特征图像进行对抗扰动生成得到的，源图像和目标图像来自样本图像集。

在一种实现方式中，图像语义分割模型包括特征提取网络、对象分类网络及对象鉴别网络，计算机可读存储介质中的一条或一条以上指令由处理器1201加载并执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或一条以上指令由处理器1201加载并执行如下步骤：

采用如下公式，计算得到源图像对应的对抗扰动特征图像

采用如下公式，计算得到目标图像对应的对抗扰动特征图像

在一种实现方式中，优化目标函数为：

其中，表示对象分类网络输出的源分类图像，y_s表示包括真实标注结果的源图像，P_s表示对象分类网络输出的源分类图像，/>表示对象分类网络输出的目标分类图像，P_t表示对象分类网络输出的目标分类图像，/>用于指示源图像对应的抗扰动特征图像与包括真实标注结果的源图像之间的损失，L_seg(P_s,y_s)用于指示源特征图像与包括真实标注结果的源图像之间的损失，/>用于指示目标特征图像与目标图像对应的对抗扰动特征图像之间的损失，L_ent(P_t)用于指示目标特征图像与目标图像之间的损失，/>用于指示目标图像对应的对抗扰动特征图像与目标图像之间的损失。

在一种实现方式中，交叉熵损失函数为：

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像语义分割方法，其特征在于，所述方法包括：

获取样本图像集，所述样本图像集包括源图像和目标图像，所述源图像与所述目标图像至少具备属于同一类别的样本对象；

利用所述样本图像集对初始分割模型进行训练，得到训练分割模型和特征提取网络输出的源特征图像和目标特征图像，所述源特征图像与所述源图像一一对应，所述目标特征图像与所述目标图像一一对应；

调用所述训练分割模型中的对象分类网络和对象鉴别网络，对所述源特征图像和所述目标特征图像进行k次迭代运算，得到所述源图像对应的对抗扰动特征图像和所述目标图像对应的对抗扰动特征图像/>所述对象分类网络第k次输出的源分类图像/>和目标分类图像/>

对所述源图像对应的对抗扰动特征图像所述对象分类网络第k次输出的源分类图像/>和所述源特征图像f_s进行特征提取，得到所述源图像对应的对抗扰动特征图像/>

采用如下公式，计算得到所述目标图像对应的对抗扰动特征图像

其中，ε₁表示第一扰动强度、ε₂表示第二扰动强度，表示所述目标图像对应的对抗扰动特征图像，/>表示第k次迭代运算得到的所述目标图像对应的对抗扰动特征图像，/>表示所述对象分类网络第k次输出的目标分类图像，f_t表示所述目标特征图像利用所述源图像和所述目标图像各自对应的对抗扰动特征图像对所述训练分割模型进行再训练，得到图像语义分割模型；

获取待分类图像，所述待分类图像中包括m个待分类对象，m为正整数；

调用图像语义分割模型对所述待分类图像中的m个待分类对象进行分类和标注处理，得到标注结果；

其中，所述标注结果用于指示所述m个待分类对象各自所属的类别，所述图像语义分割模型为根据源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像对初始分割模型进行训练得到的，所述对抗扰动特征图像为基于对应图像的特征图像进行对抗扰动生成得到的，所述源图像和所述目标图像来自样本图像集。

2.如权利要求1所述的方法，其特征在于，所述对所述源图像对应的对抗扰动特征图像所述对象分类网络第k次输出的源分类图像/>和所述源特征图像f_s进行特征提取，得到所述源图像对应的对抗扰动特征图像/>包括：

采用如下公式，计算得到所述源图像对应的对抗扰动特征图像

其中，ε₁表示第一扰动强度、ε₂表示第二扰动强度，ε₃表示第三扰动强度，表示所述源图像对应的对抗扰动特征图像，/>表示第k次迭代运算得到的所述源图像对应的对抗扰动特征图像，/>表示所述对象分类网络第k次输出的源分类图像，f_s表示所述源特征图像，y_s表示包括真实标注结果的所述源图像。

3.如权利要求1所述的方法，其特征在于，所述图像语义分割模型包括对象分类网络，所述图像语义分割模型的对象分类网络为利用优化目标函数对预训练分类模型中包括的对象分类网络的网络参数进行更新获得的；

所述优化目标函数为至少一个损失函数之和，所述优化目标函数用于指示所述图像语义分割模型中的对象分类网络对所述源图像和所述目标图像处理时的损失。

4.如权利要求3所述的方法，其特征在于，所述优化目标函数为：

其中，表示所述对象分类网络输出的源分类图像，y_s表示包括真实标注结果的源图像，P_s表示所述对象分类网络输出的源分类图像，/>表示所述对象分类网络输出的目标分类图像，P_t表示所述对象分类网络输出的目标分类图像，/>用于指示所述源图像对应的抗扰动特征图像与包括真实标注结果的源图像之间的损失，L_seg(P_s,y_s)用于指示所述源特征图像与包括真实标注结果的源图像之间的损失，/>用于指示所述目标特征图像与所述目标图像对应的对抗扰动特征图像之间的损失，L_ent(P_t)用于指示所述目标特征图像与所述目标图像之间的损失，/>用于指示所述目标图像对应的对抗扰动特征图像与所述目标图像之间的损失。

5.如权利要求1所述的方法，其特征在于，所述图像语义分割模型包括对象鉴别网络，所述图像语义分割模型中的对象鉴别网络为利用交叉熵损失函数对所述训练分割模型中包括的对象鉴别网络的网络参数进行更新获得的；

所述交叉熵损失函数用于指示所述图像语义分割模型中的对象鉴别网络对所述源图像和所述目标图像处理时的损失。

6.如权利要求5所述的方法，其特征在于，所述交叉熵损失函数为：

其中，P表示所述对象分类网络输出的对抗扰动特征图像对应的目标分类图像和源分类图像，P_*表示所述对象分类网络输出的目标分类图像和所述源分类图像/>L_adv(P)用于指示所述源特征图像与所述目标特征图像之间的损失，L_adv(P_*)用于指示所述源图像对应的对抗扰动特征图像与所述目标图像对应的对抗扰动特征图像之间的损失。

7.一种计算机设备，其特征在于，所述计算机设备包括：

存储器，所述存储器包括计算机可读指令；

与所述存储器相连的处理器，所述处理器用于执行所述计算机可读指令，从而使得所述设备执行权利要求1～6任一项所述的图像语义分割方法。

8.一种图像语义分割装置，其特征在于，所述装置包括

处理单元：用于获取样本图像集，所述样本图像集包括源图像和目标图像，所述源图像与所述目标图像至少具备属于同一类别的样本对象；利用所述样本图像集对初始分割模型进行训练，得到训练分割模型和特征提取网络输出的源特征图像和目标特征图像，所述源特征图像与所述源图像一一对应，所述目标特征图像与所述目标图像一一对应；调用所述训练分割模型中的对象分类网络和对象鉴别网络，对所述源特征图像和所述目标特征图像进行k次迭代运算，得到所述源图像对应的对抗扰动特征图像和所述目标图像对应的对抗扰动特征图像/>所述对象分类网络第k次输出的源分类图像/>和目标分类图像/>对所述源图像对应的对抗扰动特征图像/>所述对象分类网络第k次输出的源分类图像/>和所述源特征图像f_s进行特征提取，得到所述源图像对应的对抗扰动特征图像/>采用如下公式，计算得到所述目标图像对应的对抗扰动特征图像/>

所述处理单元：用于调用图像语义分割模型对待分类图像中的m个待分类对象进行分类和标注处理，得到标注结果；其中，标注结果用于指示m个待分类对象各自所属的类别，图像语义分割模型为根据源图像对应的对抗扰动特征图像和目标图像对应的对抗扰动特征图像对初始分割模型进行训练得到的，该抗扰动特征图像为基于对应图像的特征图像进行对抗扰动生成得到的，源图像和目标图像来自样本图像集。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1至6中任一项所述方法的步骤。