CN112288748B

CN112288748B - 一种语义分割网络训练、图像语义分割方法及装置

Info

Publication number: CN112288748B
Application number: CN201910677858.4A
Authority: CN
Inventors: 黄永祯; 曹春水; 赵帆
Original assignee: Watrix Technology Beijing Co ltd
Current assignee: Watrix Technology Beijing Co ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2024-03-01
Anticipated expiration: 2039-07-25
Also published as: CN112288748A

Abstract

本申请提供了一种语义分割网络训练、图像语义分割方法及装置，获取多张第一样本图像，以及多张第一样本语义分割图像；将第一样本图像，以及第一样本语义分割图像作为训练数据，并将第一样本图像与对应的第一样本语义分割图像之间的第一匹配度作为监督数据，对基础匹配网络进行训练，得到匹配网络；基于基础语义分割网络对第二样本图像进行语义分割，得到第二样本语义分割图像；将第二样本语义分割图像以及第二样本图像输入至匹配网络，得到第二匹配度；基于第二匹配度，对基础语义分割网络进行训练，得到语义分割网络。通过这种方法训练得到的语义分割网络可以在提高图像语义分割的效率的同时，提高图像语义分割的准确率。

Description

一种语义分割网络训练、图像语义分割方法及装置

技术领域

本申请涉及图像处理技术领域，尤其是涉及一种语义分割网络训练、图像语义分割方法及装置。

背景技术

目前，越来越多的应用场景需要对视频图像进行语义分割，如自动驾驶、室内导航、虚拟现实、图像识别等。

现有技术中，主要是通过预先训练好的图像分割网络对视频图像进行语义分割，在对图像分割网络的训练过程中，需要获取大量带标注的样本图像。目前对样本图像进行标注时，其一，可以通过人工进行逐像素标注，但这种方法效率较低；其二，可以通过自动标注软件，基于像素值进行逐像素标注，但这种方法准确率较低。因此，现有技术中，无法在提高图像语义分割网络训练的准确率的同时，提高图像语义分割网络的效率。

发明内容

有鉴于此，本申请的目的在于提供一种语义分割网络训练、图像语义分割方法及装置，以提高图像语义分割网络的准确率和分割效率。

第一方面，本申请实施例提供了一种语义分割网络训练方法，包括：

获取多张第一样本图像，以及与各张第一样本图像分别对应的第一样本语义分割图像；

将所述第一样本图像，以及与所述第一样本图像对应的第一样本语义分割图像作为训练数据，并将所述第一样本图像与对应的第一样本语义分割图像之间的第一匹配度作为监督数据，对基础匹配网络进行训练，得到匹配网络；

基于基础语义分割网络对第二样本图像进行语义分割，得到第二样本语义分割图像；

将所述第二样本语义分割图像以及所述第二样本图像输入至所述匹配网络，得到第二样本图像与第二样本语义分割图像之间的第二匹配度；

基于所述第二匹配度，对所述基础语义分割网络进行训练，得到语义分割网络；

基于所述语义分割网络，得到待分割图像的语义分割结果。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述第一样本图像有多张；

所述将所述第一样本图像，以及与所述第一样本图像对应的第一样本语义分割图像作为训练数据，并将所述第一样本图像与对应的第一样本语义分割图像之间的第一匹配度作为监督数据，对基础匹配网络进行训练，包括：

基于各张所述第一样本图像，以及与各张所述第一样本图像对应的第一样本语义分割图像，构建与各张所述第一样本图像分别对应的第一特征向量矩阵；

将各张所述第一样本图像分别对应的所述第一特征向量矩阵输入至所述基础匹配网络中，获取与各张所述第一样本图像分别对应的匹配结果；

基于各张所述第一样本图像分别对应的所述匹配结果、以及各张所述第一样本图像与对应的第一样本语义分割图像之间的第一匹配度，计算第一交叉熵损失；

基于所述第一交叉熵损失，调整所述基础匹配网络的参数。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述基于所述第一样本图像，以及与所述第一样本图像对应的第一样本语义分割图像，构建与该第一样本图像对应的第一特征向量矩阵，包括：

确定所述第一样本图像的第一样本特征向量，以及确定与所述第一样本图像对应的第一样本语义分割图像的第二样本特征向量；

将所述第一样本特征向量与所述第二样本特征向量进行拼接，得到所诉第一特征向量矩阵。

结合第一方面，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述第二样本图像有多张；

所述基于所述第二匹配度，对所述基础语义分割网络进行训练，包括：

基于各张所述第二样本图像对应的所述第二匹配度，确定第二交叉熵损失；

基于所述第二交叉熵损失，调整所述基础语义分割网络的模型参数。

结合第一方面的第三种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，基础语义分割网络包括：特征提取层、残差网络层、第一上采样层、以及第二上采样层；

所述将所述第二样本图像输入至所述基础语义分割网络中，得到与所述第二样本图像对应的第二样本语义分割图像，包括：

将第二样本图像输入至所述特征提取层，得到第一特征向量；其中，所述特征提取层包括至少N个第一特征提取块，且对第i个第一特征提取块输出的第一中间特征向量进行卷积操作，得到第i+1个第一特征提取块的输入；第N个第一特征提取块输出的第一中间特征向量为所述第一特征向量；N为大于1的整数；i为大于0，且小于N的整数；

将所述第一特征向量输入至残差网络层中，得到所述残差网络层中各个残差块输出的第二中间特征向量；其中，所述残差网络层中包括M个所述残差块；第j个残差块的输入，为第j-1个残差块输出的第二中间特征向量；M为大于0的整数，j为大于1，且小于M的整数；

将各个所述残差块输出的所述第二中间特征向量输入至所述第一上采样层，得到第一上采样向量；

将所述第一上采样向量以及各个所述第一特征提取块输出的第一中间特征向量输入至所述第二上采样层，得到与所述第二样本图像对应的第二样本语义分割图像。

结合第一方面的第四种可能的实施方式，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述第一上采样层包括M-1个第二特征提取块；M-1个所述第二特征提取块，与第1至第M-1个残差块一一对应；

所述将各个所述残差块输出的所述第二中间特征向量输入至所述第一上采样层，得到第一上采样向量，包括：

针对第s个第二特征提取块，将第s+1个第二特征提取块输出的第一中间上采样向量和第s个残差块输出的第二中间特征向量进行拼接后，输入到该第s个第二特征提取块中，获取与该第s个第二特征提取块对应的第一中间上采样向量；其中，s为大于0，且小于M-1的整数；

针对第M-1个第二特征提取块，将第M个第二特征提取块输出的第二中间特征向量，和第M-1个残差块输出的第二中间特征向量进行拼接后，输入到该第M-1个第二特征提取块中，获取与该第M-1个第二特征提取块对应的第一中间上采样向量；

将第1个第二特征提取块输出的第一中间上采样向量作为所述第一上采样向量。

结合第一方面的第四种可能实施方式，本申请实施例提供了第一方面的第六种可能的实施方式，其中，所述第二上采样层包括N个第三特征提取块；N个所述第三特征提取块，与N个所述第一特征提取块一一对应；

所述将所述第一上采样向量以及各个所述第一特征提取块输出的第一中间特征向量输入至所述第二上采样层，得到与所述第二样本图像对应的第二样本语义分割图像，包括：

针对第h个第三特征提取块，将第h+1个第三特征提取块输出的第二中间上采样向量、以及第h个第一特征提取块输出的第一中间特征向量进行拼接后，输入到该第h个第三特征提取块中，获取与该第h个第三特征提取块对应的第二中间上采样向量；其中，第N个第三特征提取块的输入为所述第一上采样向量；h大于0，且小于N的整数；

针对第N个第三特征提取块，将所述第一上采样向量以及第一特征向量进行拼接后，输入到该第N个第三特征提取块中，获取与该第N个第三特征提取块对应的第二中间上采样向量；

基于第1个所述第三特征提取块输出的第二中间上采样向量，得到与所述第二样本图像对应的第二样本语义分割图像。

第二方面，本申请实施例提供了一种图像语义分割方法，包括：

获取待分割图像；

将所述待分割图像输入至通过第一方面或第一方面的任一种可能的实施方式所述语义分割网络训练方法得到的语义分割网络中，得到所述待分割图像对应的语义分割结果。

第三方面，本申请实施例还提供一种语义分割网络训练装置，包括：

获取模块，用于获取多张第一样本图像，以及与各张第一样本图像分别对应的第一样本语义分割图像；

第一训练模块，用于将所述第一样本图像，以及与所述第一样本图像对应的第一样本语义分割图像作为训练数据，并将所述第一样本图像与对应的第一样本语义分割图像之间的第一匹配度作为监督数据，对基础匹配网络进行训练，得到匹配网络；

第一分割模块，用于基于基础语义分割网络对第二样本图像进行语义分割，得到第二样本语义分割图像；

验证模块，用于将所述第二样本语义分割图像以及所述第二样本图像输入至所述匹配网络，得到第二样本图像与第二样本语义分割图像之间的第二匹配度；

第二训练模块，用于基于所述第二匹配度，对所述基础语义分割网络进行训练，得到语义分割网络；

第二分割模块，用于基于所述语义分割网络，得到待分割图像的语义分割结果。

结合第三方面，本申请实施例提供了第三方面的第一种可能的实施方式，其中，所述第一样本图像有多张；

所述第一训练模块，在将所述第一样本图像，以及与所述第一样本图像对应的第一样本语义分割图像作为训练数据，并将所述第一样本图像与对应的第一样本语义分割图像之间的第一匹配度作为监督数据，对基础匹配网络进行训练时，具体用于：

基于所述第一交叉熵损失，调整所述基础匹配网络的参数。

结合第三方面的第一种可能的实施方式，本申请实施例提供了第三方面的第二种可能的实施方式，其中，所述第一训练模块，在基于所述第一样本图像，以及与所述第一样本图像对应的第一样本语义分割图像，构建与该第一样本图像对应的第一特征向量矩阵时，具体用于：

结合第三方面，本申请实施例提供了第三方面的第三种可能的实施方式，其中，所述第二样本图像有多张；

所述第二训练模块，在基于所述第二匹配度，对所述基础语义分割网络进行训练时，具体用于：

结合第三方面的第三种可能的实施方式，本申请实施例提供了第三方面的第四种可能的实施方式，其中，基础语义分割网络包括：特征提取层、残差网络层、第一上采样层、以及第二上采样层；

所述第一分割模块，在将所述第二样本图像输入至所述基础语义分割网络中，得到与所述第二样本图像对应的第二样本语义分割图像时，具体用于：

结合第三方面的第四种可能的实施方式，本申请实施例提供了第三方面的第五种可能的实施方式，其中，所述第一上采样层包括M-1个第二特征提取块；M-1个所述第二特征提取块，与第1至第M-1个残差块一一对应；

所述第一分割模块，在将各个所述残差块输出的所述第二中间特征向量输入至所述第一上采样层，得到第一上采样向量时，具体用于：

结合第三方面的第四种可能的实施方式，本申请实施例提供了第三方面的第五种可能的实施方式，其中，所述第二上采样层包括N个第三特征提取块；N个所述第三特征提取块，与N个所述第一特征提取块一一对应；

所述第一分割模块，在将所述第一上采样向量以及各个所述第一特征提取块输出的第一中间特征向量输入至所述第二上采样层，得到与所述第二样本图像对应的第二样本语义分割图像时，具体用于：

第四方面，本申请实施例提供了一种图像语义分割装置，包括：

图像获取模块，用于获取待分割图像；

图像分割模块，用于将所述待分割图像输入至通过第一方面或第一方面任意一种可能的实施方式所述语义分割网络训练方法得到的语义分割网络中，得到所述待分割图像对应的语义分割结果。

第五方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面的任一种可能的实施方式，或第二方面的步骤。

第六方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面的任一种可能的实施方式，或第二方面的步骤。

本申请实施例提供的语义分割网络训练、图像语义分割方法及装置，首先利用第一样本图像和第一样本图像对应的第一样本语义分割图像训练基础匹配网络得到匹配网络，然后利用匹配网络监督基础语义分割网络的训练过程，当基础语义分割网络训练完成得到语义分割网络后，可以确定待分割图像的语义分割结果。上述方法中，利用训练好的匹配网络来监督基础语义分割网络的训练过程，避免了基础语义分割网络训练过程中样本图像标注的过程，不仅有效地提高了语义分割网络对图像分割的准确率，而且极大的提升了语义分割网络对图像语义分割的分割效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种语义分割网络训练方法的流程示意图；

图2示出了本申请实施例所提供的基础匹配网络训练方法的流程示意图；

图3示出了本申请实施例所提供的一种图像语义分割方法的流程示意图；

图4示出了本申请实施例所提供的一种基础语义分割网络的框架示意图；

图5示出了本申请实施例所提供的一种可能的基础语义分割网络的框架示意图；

图6示出了本申请实施例所提供的一种语义分割网络训练装置的架构示意图；

图7示出了本申请实施例所提供的一种图像语义分割装置的架构示意图；

图8示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种图像语义分割方法进行详细介绍。

实施例一

参见图1所示，为本申请实施例所提供的一种语义分割网络训练方法的流程示意图，包括以下步骤：

步骤101、获取多张第一样本图像，以及与各张第一样本图像分别对应的第一样本语义分割图像。

其中，第一样本图像、以及第一样本图像对应的第一样本语义分割图像可以为正样本，也可以为负样本，正样本为第一样本图像对应的第一样本语义分割图像为将第一样本图像进行语义分割后所得到的图像，负样本为第一样本图像对应的第一样本语义分割图像并非是将第一样本图像进行语义分割后得到的图像。

步骤102、将第一样本图像，以及与第一样本图像对应的第一样本语义分割图像作为训练数据，并将第一样本图像与对应的第一样本语义分割图像之间的第一匹配度作为监督数据，对基础匹配网络进行训练，得到匹配网络。

其中，若与第一样本图像对应的第一样本语义分割图像，为对第一样本图像进行语义分割获得，则第一样本图像与对应的第一样本语义分割图像之间的第一匹配度为1；若与第一样本图像对应的第一样本语义分割图像，并非对第一样本图像进行语义分割获得，则第一样本图像与对应的第一样本语义分割图像之间的第一匹配度为0。

一种可能的实施方式中，第一样本图像有多张，在将第一样本图像、以及与第一样本图像对应的第一样本语义分割图像作为训练数据，并将第一样本图像与对应的第一样本语义分割图像之间的第一匹配度作为监督数据，对基础匹配网络进行训练时，可以参照图2所示的基础匹配网络训练方法，包括以下步骤：

步骤201、基于各张第一样本图像，以及与各张第一样本图像对应的第一样本语义分割图像，构建与各张第一样本图像分别对应的第一特征向量矩阵。

在基于各张第一样本图像，以及与各张第一样本图像对应的第一样本语义分割图像，构建与各张第一样本图像分别对应的第一特征向量矩阵时，可以是先确定第一样本图像的第一样本特征向量，以及确定第一样本图像对应的第一样本语义分割图像的第二样本特征向量，然后将第一样本特征向量和第二样本特征向量进行拼接，得到第一特征向量矩阵。

一种可能的应用场景中，第一样本语义分割图像为单通道的灰度图像，第一样本图像为RGB彩色图像，则第一样本特征向量可以是第一样本图像上的每个像素点在各个通道上的取值，第二样本特征向量可以是第一样本语义图像在单通道上的取值。

在将第一样本特征向量和第二样本向量进行拼接时，示例性的可以参照以下公式：

[a,b,c]+[d]＝[a,b,c,d]

其中，[a,b,c]表示第一样本特征向量，[d]表示第二样本特征向量，[a,b,c,d]表示第一特征向量矩阵。

步骤202、将各张第一样本图像分别对应的第一特征向量矩阵输入至基础匹配网络中，获取与各张第一样本图像分别对应的匹配结果。

一种可能的实施方式中，基础匹配网络包括特征提取层和全连接层，第一样本图像对应的第一特征向量举证输入至基础匹配网络中之后，在特征提取层经过至少一次卷积操作之后，然后输入至全连接层，经过至少一次全连接操作输出得到二维特征矩阵，二维特征矩阵的两个特征值分别表示输入的第一样本语义分割图像是第一样本图像对应的语义分割图像的概率，以及输入的第一样本语义分割图像不是第一样本图像对应的语义分割图像的概率，上述两个概率值相加为1。

具体应用中，当通过基础匹配网络输出的第一样本语义分割图像是第一样本图像对应的语义分割图像的概率大于预设概率值时，则确定的匹配结果为1，当通过基础匹配网络输出的第一样本语义分割图像是第一样本图像对应的语义分割图像的概率不大于预设概率值时，则确定的匹配结果为0。

步骤203、基于各张第一样本图像分别对应的匹配结果、以及各张第一样本图像与对应的第一样本语义分割图像之间的第一匹配度，计算第一交叉熵损失。

具体的，第一交叉熵损失的计算方法可以参照以下公式：

其中，Loss表示第一交叉熵损失，b表示第一样本图像的数量，i取0，或1，X_i表示基础匹配网络输出i的概率，y_i表示输入基础匹配网络的第一样本图像与第一样本语义分割图像之间的第一匹配度。

步骤204、基于第一交叉熵损失，调整基础匹配网络的参数。

在基于第一交叉熵损失调整匹配网络的参数之后，可以基于基础分类网络对输入的第一样本图像和第一样本语义分割图像的匹配结果、以及第一样本图像和第一样本语义分割图像之间的第一匹配度，确定每一次基础分配网络的准确率，并选择准确率符合第一预设条件的基础匹配网络为匹配网络。

步骤103、基于基础语义分割网络对第二样本图像进行语义分割，得到第二样本语义分割图像。

基础语义分割网络对于第二样本图像进行语义分割的具体过程将在实施例二中展开介绍，在此暂不详细介绍。

步骤104、将第二样本语义分割图像以及第二样本图像输入至匹配网络，得到第二样本图像与第二样本语义分割图像之间的第二匹配度。

步骤105、基于第二匹配度，对基础语义分割网络进行训练，得到语义分割网络。

具体的，第二样本图像可以有多张，在基于第二匹配度，对基础语义分割网络进行训练时，可以先基于各张第二样本图像对应的第二匹配度，确定第二交叉熵损失，然后基于第二交叉熵损失，调整基础语义分割网络的模型参数。

其中，第二交叉熵为基础语义分割网络训练过程中所得到的交叉熵，第二交叉熵的计算方法可以和第一交叉熵的计算方法相同。

本实施例还提供了一种图像语义分割方法，参见图3所示，为本申请实施例所提供的一种图像语义分割方法的流程示意图，包括：

步骤301、获取待分割图像。

步骤302、将待分割图像输入至预先训练好的语义分割网络中，得到待分割图像对应的语义分割结果。

其中，语义分割网络为通过图1所示的语义分割网络训练方法训练得到的。

本申请实施例提供的语义分割网络训练、图像语义分割方法，首先利用第一样本图像和第一样本图像对应的第一样本语义分割图像训练基础匹配网络得到匹配网络，然后利用匹配网络监督基础语义分割网络的训练过程，当基础语义分割网络训练完成得到语义分割网络后，可以确定待分割图像的语义分割结果。上述方法中，利用训练好的匹配网络来监督基础语义分割网络的训练过程，避免了基础语义分割网络训练过程中样本图像标注的过程，不仅有效地提高了语义分割网络对图像分割的准确率，而且极大的提升了语义分割网络对图像语义分割的分割效率。

实施例二

在本实施例中，将以第二样本图像输入到基础语义分割网络中为例，对基础语义分割网络的结构展开介绍。

一种可能的实施方式中，基础语义分割网络包括特征提取层、残差网络层、第一上采样层、以及第二上采样层。

参见图4所示，为本申请实施例所提供的一种基础语义分割网络的框架示意图，第二样本图像输入至基础语义分割网络中后，将首先将第二样本图像输入至特征提取层，得到第一特征向量；然后将第一特征向量输入至残差网络层中，得到残差网络层中各个残差块输出的第二中间特征向量；再将各个残差块输出的第二中间特征向量输入至所述第一上采样层，得到第一上采样向量，最后将第一上采样向量和各个第一特征提取块输出的第一中间向量输入至第二上采样层，得到第二样本图像对应的第二样本语义分割图像。

其中，特征提取层包括N个第一特征提取块，且对第i个第一特征提取块输出的第一中间向量进行卷积操作得到第i+1个第一特征提取块的输入，第N个第一特征提取块输出的第一中间向量为第一特征向量，N为大于1的整数，i为大于0且小于N的整数。

残差网络层包括M个残差块，第j个残差块的输入为第j-1个残差块输出的第二中间向量，第1个残差块的输入为第N个第一特征提取块输出的第一中间向量，即第一特征向量，M为大于0的整数，j为大于1，且小于M的整数。

第一上采样层包括M-1个第二特征提取块，M-1个第二特征提取块与第1至第M-1个残差块一一对应。

在将残差块输出的第二中间特征向量输入至第一上采样层之后，针对第s个第二特征提取块，将第s+1个第二特征提取块输出的第一中间上采样向量和第s个残差块输出的第二中间特征向量进行拼接后，输入到该第s个第二特征提取块中，获取与该第s个第二特征提取块对应的第一中间上采样向量；第M-1个第二特征提取块的输入为将第M个残差块输出的第二中间特征向量和第M-1个残差块输出的第二中间特征向量，其中，s为大于0，且小于M-1的整数。

针对第M-1个第二特征提取块，将第M个第二特征提取块输出的第二中间特征向量，和第M-1个残差块输出的第二中间特征向量进行拼接后，输入到该第M-1个第二特征提取块中，获取与该第M-1个第二特征提取块对应的第一中间上采样向量，将第1个第二特征提取块输出的第一中间上采样向量作为第一上采样向量。

第二上采样层包括N个第三特征提取块；N个第三特征提取块，与N个第一特征提取块一一对应。

将第一上采样向量以及各个第一特征提取块输出的第一中间特征向量输入至第二上采样层之后，针对第h个第三特征提取块，将第h+1个第三特征提取块输出的第二中间上采样向量、以及第h个第一特征提取块输出的第一中间特征向量进行拼接后，输入到该第h个第三特征提取块中，获取与该第h个第三特征提取块对应的第二中间上采样向量；其中，第N个第三特征提取块的输入为第一上采样向量；h大于0，且小于N的整数。

针对第N个第三特征提取块，将第一上采样向量以及第一特征向量进行拼接后，输入到该第N个第三特征提取块中，获取与该第N个第三特征提取块对应的第二中间上采样向量；基于第1个第三特征提取块输出的第二中间上采样向量，得到与所述第二样本图像对应的第二样本语义分割图像。

其中，在基于第1个第三特征提取块输出的第二中间上采样向量，得到与所述第二样本图像对应的第二样本语义分割图像时，可以将第1个第三特征提取块对应的第二中间上采样向量的特征值大于预设特征值的像素点的像素值调整为第一数值，将第1个第三特征提取块对应的第二中间上采样向量的特征值不大于预设特征值的像素点的像素值调整为第二数值，并将像素值调整后的图像确定为与第二样本图像对应的第二样本语义分割图像。

其中，第一特征提取块、第二特征提取块、以及第三特征提取块可以相同，示例性的，可以输入到第一特征提取块的特征向量可以先经过卷积操作，然后再进行归一化处理，最后经过激活函数激活处理，得到第一中间特征向量。

参见图5所示，为本实施例所提供的一种可能的基础语义分割网络的框架示意图，特征提取层包括2个第一特征提取块，残差网络层包括4个残差块，第一上采样层包括3个第二特征提取块，第一上采样层包括2个第三特征提取块。

第二样本图像输入至特征提取层之后，经过第1个第一特征提取块输出得到第一中间特征向量，然后经过卷积输入到第2个第一特征提取块，第2个第一特征提取块输出得到第一特征向量。

第一特征向量输入到残差网络层的第1个残差块中，得到第二中间特征向量，然后输入到第2个残差块中，以此类推，直至得到第4个残差块输出的第二中间特征向量，再将每个残差块输出的第二中间特征向量输入至第一上采样层。

将第4个残差块输出的第二中间特征向量和第3个残差块输出的第二中间特征向量进行拼接之后输入至第3个第二特征提取块中，输出得到第3个第二特征提取块对应的第一中间上采样向量；将第2个残差块输出的第二中间特征向量和第3个第二特征提取块对应的第一中间上采样向量进行拼接输入到第2个第二特征提取块，得到第2个第二特征提取块对应的第一中间上采样向量；将第1个残差块输出的第二中间特征向量和第2个第二特征提取块对应的第一中间上采样向量进行拼接输入到第1个第二特征提取块，得到第1个第二特征提取块对应的第一中间上采样向量；第1个第二特征提取块对应的第一中间上采样向量即为第一上采样向量，再将第一上采样向量输入至第二上采样层。

将第2个第一特征提取块输出的第一特征向量和第1个第二特征提取块输出的第一上采样向量进行拼接之后输入第2个第三特征提取块中，输出得到第2个第三特征提取块对应的第二中间上采样向量，然后将第第2个第三特征提取块对应的第二中间上采样向量和第1个第一特征提取块输出的第一中间特征向量进行拼接，输入至第1个第三特征提取块，然后根据第1个第三特征提取块输出的第二中间上采样向量确定为与第二样本图像对应的第二样本语义分割图像。

实施例三

参见图6所示，为本申请实施例所提供的一种语义分割网络训练装置的架构示意图，包括获取模块601、第一训练模块602、第一分割模块603、验证模块604、第二训练模块605、以及第二分割模块606，具体的：

获取模块601，用于获取多张第一样本图像，以及与各张第一样本图像分别对应的第一样本语义分割图像；

第一训练模块602，用于将所述第一样本图像，以及与所述第一样本图像对应的第一样本语义分割图像作为训练数据，并将所述第一样本图像与对应的第一样本语义分割图像之间的第一匹配度作为监督数据，对基础匹配网络进行训练，得到匹配网络；

第一分割模块603，用于基于基础语义分割网络对第二样本图像进行语义分割，得到第二样本语义分割图像；

验证模块604，用于将所述第二样本语义分割图像以及所述第二样本图像输入至所述匹配网络，得到第二样本图像与第二样本语义分割图像之间的第二匹配度；

第二训练模块605，用于基于所述第二匹配度，对所述基础语义分割网络进行训练，得到语义分割网络；

第二分割模块606，用于基于所述语义分割网络，得到待分割图像的语义分割结果。

一种可能的实施方式中，所述第一样本图像有多张；

所述第一训练模块602，在将所述第一样本图像，以及与所述第一样本图像对应的第一样本语义分割图像作为训练数据，并将所述第一样本图像与对应的第一样本语义分割图像之间的第一匹配度作为监督数据，对基础匹配网络进行训练时，具体用于：

基于所述第一交叉熵损失，调整所述基础匹配网络的参数。

一种可能的实施方式中，所述第一训练模块602，在基于所述第一样本图像，以及与所述第一样本图像对应的第一样本语义分割图像，构建与该第一样本图像对应的第一特征向量矩阵时，具体用于：

一种可能的实施方式中，所述第二样本图像有多张；

所述第二训练模块605，在基于所述第二匹配度，对所述基础语义分割网络进行训练时，具体用于：

一种可能的实施方式中，基础语义分割网络包括：特征提取层、残差网络层、第一上采样层、以及第二上采样层；

所述第一分割模块603，在将所述第二样本图像输入至所述基础语义分割网络中，得到与所述第二样本图像对应的第二样本语义分割图像时，具体用于：

一种可能的实施方式中，所述第一上采样层包括M-1个第二特征提取块；M-1个所述第二特征提取块，与第1至第M-1个残差块一一对应；

所述第一分割模块603，在将各个所述残差块输出的所述第二中间特征向量输入至所述第一上采样层，得到第一上采样向量时，具体用于：

一种可能的实施方式中，所述第二上采样层包括N个第三特征提取块；N个所述第三特征提取块，与N个所述第一特征提取块一一对应；

所述第一分割模块603，在将所述第一上采样向量以及各个所述第一特征提取块输出的第一中间特征向量输入至所述第二上采样层，得到与所述第二样本图像对应的第二样本语义分割图像时，具体用于：

参见图7所示，为本申请实施例所提供的一种图像语义分割装置的架构示意图，包括图像获取模块701、图像分割模块702，具体的：

图像获取模块，用于获取待分割图像；

图像分割模块，用于将所述待分割图像输入至通过前述技术方案任一个所述语义分割网络训练方法得到的语义分割网络中，得到所述待分割图像对应的语义分割结果。

实施例四

基于同一技术构思，本申请实施例还提供了一种电子设备。参照图8所示，为本申请实施例提供的电子设备800的结构示意图，包括处理器801、存储器802、和总线803。其中，存储器802用于存储执行指令，包括内存8021和外部存储器8022；这里的内存8021也称内存储器，用于暂时存放处理器801中的运算数据，以及与硬盘等外部存储器8022交换的数据，处理器801通过内存8021与外部存储器8022进行数据交换，当电子设备800运行时，处理器801与存储器802之间通过总线803通信，使得处理器801在执行以下指令：

基于所述语义分割网络，得到待分割图像的语义分割结果。

一种可能的设计中，处理器801执行的指令中，所述第一样本图像有多张；

基于所述第一交叉熵损失，调整所述基础匹配网络的参数。

一种可能的设计中，处理器801执行的指令中，所述基于所述第一样本图像，以及与所述第一样本图像对应的第一样本语义分割图像，构建与该第一样本图像对应的第一特征向量矩阵，包括：

一种可能的设计中，处理器801执行的指令中，所述第二样本图像有多张；

一种可能的设计中，处理器801执行的指令中，基础语义分割网络包括：特征提取层、残差网络层、第一上采样层、以及第二上采样层；

一种可能的设计中，处理器801执行的指令中，所述第一上采样层包括M-1个第二特征提取块；M-1个所述第二特征提取块，与第1至第M-1个残差块一一对应；

一种可能的设计中，处理器801执行的指令中，所述第二上采样层包括N个第三特征提取块；N个所述第三特征提取块，与N个所述第一特征提取块一一对应；

针对第h个第三特征提取块，将第h+1个第三特征提取块输出的第二中间上采样向量、以及第h个第一特征提取块输出的第一中间特征向量进行拼接后，输入到该第h个第三特征提取块中，获取与该第h个第三特征提取块对应的第二中间上采样向量，其中，第N个第三特征提取块的输入为所述第一上采样向量；h大于0，且小于N的整数；

本申请另外一实施方式中，处理器801还可以执行以下指令：

获取待分割图像；

实施例五

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施例中所述的语义分割网络训练、图像语义分割方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述语义分割网络训练、图像语义分割方法的步骤，从而在提高图像语义分割的效率的同时，提高图像语义分割的准确率。

本申请实施例所提供的进行图像语义分割方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语义分割网络训练方法，其特征在于，包括：

获取多张第一样本图像，以及与各张第一样本图像分别对应的第一样本语义分割图像，并构建与各张所述第一样本图像分别对应的第一特征向量矩阵，其中，第一样本语义分割图像为单通道的灰度图像，第一样本图像为RGB彩色图像，第一特征向量矩阵为基于第一样本图像和对应的第一样本语义分割图像所确定的拼接结果；

将各张所述第一样本图像分别对应的所述第一特征向量矩阵输入至基础匹配网络中，对基础匹配网络进行训练，得到匹配网络；

基于所述第二匹配度，对所述基础语义分割网络进行训练，得到语义分割网络。

2.根据权利要求1所述的方法，其特征在于，所述第一样本图像有多张；

通过以下方式得到匹配网络：

基于所述第一交叉熵损失，调整所述基础匹配网络的参数。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一样本图像，以及与所述第一样本图像对应的第一样本语义分割图像，构建与该第一样本图像对应的第一特征向量矩阵，包括：

将所述第一样本特征向量与所述第二样本特征向量进行拼接，得到所诉第一特征向量矩阵；

其中，第一样本特征向量为第一样本图像上的每个像素点在各个通道上的取值，第二样本特征向量为第一样本语义图像在单通道上的取值。

4.根据权利要求1所述的方法，其特征在于，所述第二样本图像有多张；所述基于所述第二匹配度，对所述基础语义分割网络进行训练，包括：

5.根据权利要求4所述的方法，其特征在于，基础语义分割网络包括：特征提取层、残差网络层、第一上采样层、以及第二上采样层；

将所述第二样本图像输入至所述基础语义分割网络中，得到与所述第二样本图像对应的第二样本语义分割图像，包括：

将所述第一特征向量输入至所述残差网络层中，得到所述残差网络层中各个残差块输出的第二中间特征向量；其中，所述残差网络层中包括M个所述残差块；第j个残差块的输入，为第j-1个残差块输出的第二中间特征向量；M为大于0的整数，j为大于1，且小于M的整数；

6.根据权利要求5所述的方法，其特征在于，所述第一上采样层包括M-1个第二特征提取块；M-1个所述第二特征提取块，与第1至第M-1个残差块一一对应；

将各个所述残差块输出的所述第二中间特征向量输入至所述第一上采样层，得到第一上采样向量，包括：

7.根据权利要求5所述的方法，其特征在于，所述第二上采样层包括N个第三特征提取块；N个所述第三特征提取块，与N个所述第一特征提取块一一对应；

8.一种图像语义分割方法，包括：

获取待分割图像；

将所述待分割图像输入至通过权利要求1-权利要求7任一个所述语义分割网络训练方法得到的语义分割网络中，得到所述待分割图像对应的语义分割结果。

9.一种语义分割网络训练装置，其特征在于，包括：

第一训练模块，用于构建与各张所述第一样本图像分别对应的第一特征向量矩阵，其中，第一样本语义分割图像为单通道的灰度图像，第一样本图像为RGB彩色图像，第一特征向量矩阵为基于第一样本图像和对应的第一样本语义分割图像所确定的拼接结果；

10.一种图像语义分割装置，其特征在于，包括：

图像获取模块，用于获取待分割图像；

图像分割模块，用于将所述待分割图像输入至通过权利要求1-权利要求7任一个所述语义分割网络训练方法得到的语义分割网络中，得到所述待分割图像对应的语义分割结果。

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的语义分割网络训练方法或权利要求8所述的图像语义分割方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的语义分割网络训练方法或权利要求8所述的图像语义分割方法的步骤。