CN112232349B

CN112232349B - 模型训练方法、图像分割方法及装置

Info

Publication number: CN112232349B
Application number: CN202011014036.7A
Authority: CN
Inventors: 陈崇泰; 董继贤; 董一军; 高小改
Original assignee: Chengdu Jiahua Chain Cloud Technology Co ltd
Current assignee: Chengdu Jiahua Chain Cloud Technology Co ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2023-11-03
Anticipated expiration: 2040-09-23
Also published as: CN112232349A

Abstract

本申请提供一种模型训练方法、图像分割方法及装置，涉及图像处理技术领域。该方法通过MixUp数据增强算法对初始训练图像进行加权融合处理获得对应的训练图像，这样可增强训练图像之间的线性表达，扩充训练样本，使得模型能够减少对错误标签的记忆，增强对抗样本的鲁棒性，提高了模型的泛化能力。并且由于对初始训练样本采用MixUp数据增强算法处理后，使得训练样本的标签数据变为对应的融合权重，而不是one‑hot形式的类别标签，所以，以KL散度作为损失函数可以产生更稳定的梯度更新方向，以更好地更新模型参数，进而提高了模型训练精度，使得分割效果更好。

Description

模型训练方法、图像分割方法及装置

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种模型训练方法、图像分割方法及装置。

背景技术

在使用神经网络模型对一些对象(如垃圾、行人、车辆等)进行分割之前，需要先对神经网络模型进行训练。现有技术通常是对对象的图像进行标注，然后将这些图像以及对应的标注输入神经网络模型中进行训练。但是当在训练图像存在不清晰或者在样本量较少的情况下，采用常规方式的模型训练方法使得训练获得的模型存在过拟合的问题，从而对对象进行分割的准确度较低。

发明内容

本申请实施例的目的在于提供一种模型训练方法、图像分割方法及装置，用以改善现有技术中模型的分割准确度较低的问题。

第一方面，本申请实施例提供了一种模型训练方法，所述方法包括：

获取多张初始训练图像；

通过MixUp数据增强算法对任意两张初始训练图像进行加权融合处理，获得对应的训练图像；

将多张训练图像输入图像分割模型中，获得所述图像分割模型输出的针对每张训练图像中目标对象的分割结果；

根据所述图像分割模型输出的针对每张训练图像中目标对象的分割结果以及对应的分类标签计算损失函数的损失值；

根据所述损失值更新所述图像分割模型的网络参数，直至满足训练终止条件时，获得训练好的图像分割模型；

其中，所述分类标签为所述加权融合处理过程中的两张初始训练图像对应的融合权重，所述融合权重表征初始训练图像中各个像素属于对应类别的概率，所述损失函数为KL散度。

在上述实现过程中，通过MixUp数据增强算法对初始训练图像进行加权融合处理获得对应的训练图像，这样可增强训练图像之间的线性表达，扩充训练样本，使得模型能够减少对错误标签的记忆，增强对抗样本的鲁棒性，提高了模型的泛化能力。并且由于对初始训练样本采用MixUp数据增强算法处理后，使得训练样本的标签数据变为对应的融合权重，而不是one-hot形式的类别标签，所以，以KL散度作为损失函数可以产生更稳定的梯度更新方向，以更好地更新模型参数，进而提高了模型训练精度，使得分割效果更好。

可选地，所述通过MixUp数据增强算法分别对两张初始训练图像进行加权处理，获得对应的训练图像，包括：

从所述多张初始训练图像中任意选择一张图像，并随机与另一张图像按照预设融合权重比例进行加权融合，获得融合后对应的训练图像；

其中，预设融合权重比例满足贝塔分布。

在上述实现过程中，通过将两张初始训练图像按照预设融合权重比例进行加权融合，从而可以将离散样本连续化，以提高邻域内的平滑性，避免了模型过拟合的问题。

可选地，通过以下公式计算获得KL散度：

L＝∑_ilabel_i×[log(label_i)-pred_i]；

其中，L表示KL散度的值，i表示第i个类别，label表示属于第i个类别的分类标签，pred表示对属于第i个类别的像素的分割结果。

可选地，所述图像分割模型为改进的U-net网络，所述改进的U-net网络包括编码器部分和解码器部分，所述编码器部分采用Resnet网络进行特征提取。

在上述实现过程中，将U-net网络中的编码器部分采用Resnet网络实现，使得编码器可以快速收敛且加深网络层数，可提取更多的深层特征，并解决梯度消失的问题。

可选地，所述获取多张初始训练图像，包括：

采集多张背景图像以及针对所述目标对象的多张对象图像；

对每张对象图像进行随机裁剪，获得多张裁剪图像；

将每张背景图像与每张裁剪图像进行融合，获得融合图像；

将多张所述融合图像输入训练好的生成式对抗网络GAN模型中，获得所述GAN模型输出的多张初始训练图像。

在上述实现过程中，通过对对象图像进行裁剪，将裁剪图像与背景图像进行融合，并输入GAN模型，通过GAN模型可获得更真实的图像，这样可使得训练获得的图像分割模型的识别能力更强，预测结果泛化性也更强。

可选地，所述GAN模型中的激活函数采用Leaky ReLU激活函数，以避免使用ReLU作为激活函数时造成的负神经元输出无法反向传导梯度的问题。

可选地，所述获取多张初始训练图像，包括：

采集多张背景图像以及针对所述目标对象的多张对象图像；

对每张对象图像进行随机裁剪，获得多张裁剪图像；

将每张背景图像与每张裁剪图像进行融合，获得融合图像；

将多张所述融合图像输入训练好的生成式对抗网络GAN模型中，获得所述GAN模型输出的生成图像；

将每张所述融合图像与每张所述生成图像进行高斯泊松融合，获得多张初始训练图像。

在上述实现过程中，将获得的融合图像与GAN输出的生成图像进行融合，从而可获得更高分辨率且更为逼真的图像，以进一步提高图像分割模型的训练精度。

第二方面，本申请实施例提供了一种图像分割方法，所述方法包括：

获取待分割图像；

通过图像分割模型对待分割图像中的各个像素进行分类，获得各个像素的分类结果；

根据分类结果对所述待分割图像进行分割，获得针对目标对象的分割结果；

其中，所述图像分割模型为通过上述第一方面提供的模型训练方法得到。

在上述实现过程中，通过上述训练方法获得的图像分割模型对待分割图像中的目标对象进行分割，可达到更好的分割效果。

第三方面，本申请实施例提供了一种模型训练装置，所述装置包括：

图像获取模块，用于获取多张初始训练图像；

图像增强模块，用于通过MixUp数据增强算法对任意两张初始训练图像进行加权融合处理，获得对应的训练图像；

分割结果获取模块，用于将多张训练图像输入图像分割模型中，获得所述图像分割模型输出的针对每张训练图像中目标对象的分割结果；

损失值计算模块，用于根据所述图像分割模型输出的针对每张训练图像中目标对象的分割结果以及对应的分类标签计算损失函数的损失值；

参数更新模块，用于根据所述损失值更新所述图像分割模型的网络参数，直至满足训练终止条件时，获得训练好的图像分割模型；

可选地，所述图像增强模块，用于从所述多张初始训练图像中任意选择一张图像，并随机与另一张图像按照预设融合权重比例进行加权融合，获得融合后对应的训练图像；

其中，预设融合权重比例满足贝塔分布。

可选地，通过以下公式计算获得KL散度：

L＝∑_ilabel_i×[log(label_i)-pred_i]；

可选地，通过以下公式计算获得KL散度：

L＝∑_ilabel_i×[log(label_i)-pred_i]；

可选地，所述图像获取模块，用于：

采集多张背景图像以及针对所述目标对象的多张对象图像；

对每张对象图像进行随机裁剪，获得多张裁剪图像；

将每张背景图像与每张裁剪图像进行融合，获得融合图像；

可选地，所述GAN模型中的激活函数采用Leaky ReLU激活函数。

可选地，所述图像获取模块，用于：采集多张背景图像以及针对所述目标对象的多张对象图像；

对每张对象图像进行随机裁剪，获得多张裁剪图像；

将每张背景图像与每张裁剪图像进行融合，获得融合图像；

第四方面，本申请实施例提供了一种图像分割装置，所述装置包括：

图像获取模块，用于获取待分割图像；

分类模块，用于通过图像分割模型对待分割图像中的各个像素进行分类，获得各个像素的分类结果；

分割模块，用于根据分类结果对所述待分割图像进行分割，获得针对目标对象的分割结果；

其中，所述图像分割模型为通过第一方面提供的所述的模型训练方法得到。

第五方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面或第二方面提供的所述方法中的步骤。

第六方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面或第二方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种用于执行模型训练方法或者图像分割方法的电子设备的结构示意图；

图2为本申请实施例提供的一种模型训练方法的流程图；

图3为本申请实施例提供的一种对图像进行裁剪的示意图；

图4为本申请实施例提供的一种改进的U-net网络的结构示意图；

图5为本申请实施例提供的一种图像分割方法的流程图；

图6为本申请实施例提供的一种模型训练装置的结构示意图；

图7为本申请实施例提供的一种图像分割装置的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供一种模型训练方法，通过MixUp数据增强算法对初始训练图像进行加权融合处理获得对应的训练图像，然后将训练图像输入图像分割模型进行训练，这样可增强训练图像之间的线性表达，扩充训练样本，使得模型能够减少对错误标签的记忆，增强对抗样本的鲁棒性，提高了模型的泛化能力。模型在训练过程中，采用损失函数为KL(Kullback-Leibler)散度来评价模型的训练结果，由于对初始训练样本采用MixUp数据增强算法处理后，使得训练样本的标签数据变为对应的融合权重，而不是one-hot形式的类别标签，所以，以KL散度作为损失函数可以产生更稳定的梯度更新方向，以更好地更新模型参数，进而提高了模型训练精度，使得分割效果更好。

请参照图1，图1为本申请实施例提供的一种用于执行模型训练方法或者图像分割方法的电子设备的结构示意图，所述电子设备可以包括：至少一个处理器110，例如CPU，至少一个通信接口120，至少一个存储器130和至少一个通信总线140。其中，通信总线140用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器110执行时，电子设备执行下述图2或图5所示方法过程。

可以理解，图1所示的结构仅为示意，所述电子设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，图2为本申请实施例提供的一种模型训练方法的流程图，该方法包括如下步骤：

步骤S110：获取多张初始训练图像。

本申请中训练获得的图像分割模型可以用于对任何场景下的对象进行分割，其中，对象可以如行人、垃圾、动物、车辆等，为了便于理解，下述实施例中以对河道中的垃圾进行检测为例进行说明。

在模型训练前，可采集大量的初始训练图像，其初始训练图像可以是指拍摄获得的大量河道垃圾图像，如针对不同光照、不同角度下对河道进行拍摄获得的图像。

当然，在其他应用场景下，其初始训练图像为拍摄其他对象获得的大量图像，在此不一一进行列举。

步骤S120：通过MixUp数据增强算法对任意两张初始训练图像进行加权融合处理，获得对应的训练图像。

为了扩大训练样本，可以采用MixUp数据增强算法对初始训练图像进行处理，MixUp数据增强算法能规范模型，增强训练样本之间的线性表达，其可以从真实样本中构建虚拟的训练样本，使得模型能够减少对错误标签的记忆，增强对抗样本的鲁棒性，提高了模型的泛化能力。

在具体的实现过程中，可以从多张初始训练图像中任意选择一张图像，并随机与另一张图像按照预设融合权重比例进行加权融合，获得融合后对应的训练图像，其中，预设融合权重比例满足贝塔分布。这样可以将离散样本连续化，以提高邻域内的平滑性，避免了模型过拟合的问题。

MixUp数据增强算法的具体实现如下：

x'＝λx_i+(1-λ)x_j；

其中，x'表示融合后获得的训练图像，x_i表示初始训练图像中的一张图像，x_j表示初始训练图像中的另一张图像，λ满足贝塔分布Beta(a,a)，a∈(0,∞)，其表示两张图像融合时各个对应像素点的融合权重。

这样来看，MixUp数据增强算法是结合先验知识，即样本特征向量的线性差值，来扩展训练分布。

可以理解地，采用MixUp数据增强算法对初始训练图像进行加权融合是指对两张初始训练图像中的各个像素进行加权融合，融合权重表示各个像素属于对应类别的概率。

例如，在河道垃圾检测中，将图像中各个像素分为背景和垃圾两个类别，而每个像素点属于背景和垃圾两个类别的概率以融合权重来表征，如上述的λ为一张初始训练图像中某个像素的融合权重，则1-λ为另外一张初始训练图像中对应像素的融合权重。所以，获得的融合后的训练图像对应的分类标签为这两张初始训练图像对应的融合权重，也就是两张图像中各个对应像素对应的融合权重。

上述进行融合的两张初始训练图像可以看作离散的训练样本图像，将这些初始训练图像进行融合后，可以得到一系列连续的训练样本图像，由此可将离散样本连续化，提高领域内的平滑性。

步骤S130：将多张训练图像输入图像分割模型中，获得所述图像分割模型输出的针对每张训练图像中目标对象的分割结果。

在对初始训练图像进行融合处理后，可将获得的多张训练图像输入图像分割模型中，对图像分割模型进行训练。

其中，图像分割模型可以为卷积神经网络模型、机器学习模型、循环神经网络模型等神经网络模型，在具体实现过程中，可以根据实际需求灵活选择。

在训练过程中，针对每张训练图像获得对应的图像分割模型输出的针对目标对象的分割结果，如针对河道中垃圾的分割结果，其分割结果为垃圾的分割图像。在一些实施方式中，分割结果还可以包括分割图像中各个像素属于垃圾类别的概率以及属于背景类别的概率。

步骤S140：根据所述图像分割模型输出的针对每张训练图像中目标对象的分割结果以及对应的分类标签计算损失函数的损失值。

步骤S150：根据所述损失值更新所述图像分割模型的网络参数，直至满足训练终止条件时，获得训练好的图像分割模型。

在训练过程中，可以将图像分割模型输出的分割结果与对应的真实结果，即分类标签，进行误差计算，也就是计算损失函数。

当损失函数的损失值超出预设范围时，则将损失值传回模型中，利用梯度下降法，获得各个参数误差，然后对模型中的网络参数进行更新，以上述方式继续对图像分割模型进行训练。当损失函数达到收敛，如小于预设值，或者当迭代次数达到预设次数时，表示满足训练终止条件，模型训练完成。

本申请实施例中，由于训练图像对应的标签不是原始的one-hot形式的标签，采用交叉熵函数作为损失函数则无法产生梯度来对模型的网络参数进行更新，所以，本申请中采用KL散度作为损失函数，KL散度要求输入是满足和为1的概率分布，可以用来衡量模型预测结果和真实标签的距离，能够产生更稳健的梯度更新方向，从而使得模型训练效果更好，精度更高。

其中，可以通过以下公式计算获得KL散度：

L＝∑_ilabel_i×[log(label_i)-pred_i]；

其中，L表示KL散度的值，i表示第i个类别，label_i表示属于第i个类别的分类标签，pred_i表示对属于第i个类别的像素的分割结果。

其中，在进行河道垃圾检测场景中，上述的类别i包括背景和垃圾两个类别，当然，在其他应用场景下，也可以根据实际需求设置对应的分类类别。

在一些实施方式中，在河道垃圾检测的场景下，由于户外光照条件在很多情况是不理想的，比如艳阳天、阴天、暴雨、暴雪等气候条件都会造成物体识别的精度显著减小，其次，大多数的河道都只有少数或无漂流垃圾，且垃圾漂浮物由于部分浸泡在水平面下，导致其拍摄的河道垃圾图像存在遮挡的情况。并且，由于垃圾漂浮物材质一般易于形变，在水流冲刷作用下可能会产生多种不规则形变，所以，本申请实施例中，可在数据准备阶段做大量的清洗工作，同时可利用图像融合、神经网络等计算合成一系列图像用作训练样本的补充。

在具体实现过程中，上述获得多张初始训练图像的方式可以如下：

采集多张背景图像以及针对目标对象的多张对象图像；

对每张对象图像进行随机裁剪，获得多张裁剪图像；

将每张背景图像与每张裁剪图像进行融合，获得融合图像；

将多张融合图像输入训练好的生成式对抗网络(Generative AdversarialNetWork，GAN)模型中，获得GAN模型输出的多张初始训练图像。

例如，多张背景图像和针对目标对象的多张对象图像可以是通过摄像头拍摄的不同时间段的河流图像，以及通过网络爬取的方式收集的更加丰富的河流图像和实际生活中的垃圾图像等。其中，背景图像可以是指河道图像，对象图像可以是指垃圾图像。

在进行图像融合时，可以将对象图像缩放至相应的大小，然后进行随机旋转和随机裁剪用于模拟垃圾在河道中的形态。其中使用随机裁剪的方法实现过程如：如图3所示，首先在垃圾图像(如图3中的矩形框所示)上任意选择两个不重合的点确定一条分割线y＝kx+b。其中由于垃圾漂浮时应为上半部分漂浮在河面上，所以斜率k的绝对值不应过大，然后可选取在图像高度的0.5-0.8倍位置处选取直线位置以保证图像分割后的真实性。然后可确定指向上方的直线法向量n＝(-k,l)，对于图像中的任意一点，当该向量x[i,j]与法向量n＝(-k,l)成锐角时，表示该像素点位于直线上方，则将直线上方的所有像素提取出来，即可形成裁剪后的图像，完成对垃圾图像的裁剪。

按照上述的裁剪方式，可获得多张裁剪图像，获得裁剪图像后，可利用掩膜将背景图像与裁剪图像进行融合，融合的方式如下所示：

y＝mask1×x₁+mask2×x₂；

其中，y表示融合图像，mask₁表示背景图像x₁对应的掩膜图像，mask₂表示裁剪图像x₂对应的掩膜图像，其背景图像和裁剪图像各自对应的掩膜图像可根据实际需求灵活设置。

需要说明的是，在将裁剪图像与背景图像进行融合时，考虑到和河道颜色相近的垃圾难以被模型识别，所以，可以优先选择和背景图像的颜色直方图分布相近的裁剪图像进行融合，这样可以融合获得与背景图像接近河道垃圾图像，使得模型可以获得更多的困难样本，以提高识别的准确率。

获得融合图像后，可将融合图像输入GAN模型中，利用GAN模型生成更多的图像，作为初始训练图像。

其中，GAN模型是基于深度学习的一种强大的生成模型，其将生成问题看作判别器和生成器两个网络模型的对抗和博弈，生成器从给定噪声中产生合成数据，判别器分辨生成器的输出和真实数据。生成器可以产生接近真实图像的生成图像，相应地，判别器可以分配真实图像和生成图像，这样，两个网络在对抗中进步，在进步后继续对抗，从而使得生成器生成的图像越来越完美，越来越比较真实图像。

所以，可以根据GAN模型来生成更接近真实图像的初始训练图像，从而可扩展图像分割模型的训练样本，以及训练样本更真实，有利于提高图像分割模型的训练精度。其中通过GAN获得初始训练图像的具体实现过程在此不详细介绍，本领域技术人员可参照现有的GAN的实现原理即可。

在一些实施方式中，由于GAN模型输出的图像可能分辨率较低，比较模糊，为了获得高分辨率且更为逼真的图像，还可以在上述实施例中通过将背景图像与裁剪图像进行融合获得融合图像后，将融合图像输入训练好的GAN模型中，获得GAN模型输出的生成图像，然后将每张融合图像与每张生成图像进行高斯泊松融合，从而获得融合后的多张初始训练图像。

其中，高斯泊松融合的实现过程中，需要优化如下目标函数：

其中，div表示求解散度，v表示前景图(如垃圾)融合区域的梯度场与背景图(如河道)非融合区域梯度场的叠加，x表示融合图像，即初始训练图像，x_g表示GAN模型输出的生成图像，Gauss(x)表示对融合图像使用Gaussian卷积核进行滤波后的图像，λ表示惩罚系数，Δ表示拉帕拉斯算子。在求解上述优化目标得到最优解x_h后，利用拉普拉斯金字塔对图像x_h进行上采样，获取高分辨率图像，即初始训练图像。具体而言，对应每次传入的融合图像，使用GAN模型生成图像x_g，同时利用拉普拉斯金字塔对融合图像进行处理，从拉普拉斯金字塔的最底层开始，利用每层的融合梯度场divv、高斯滤波图像Gauss(x)更新每层的图像，即通过上述目标函数输出每层的x_h。由于拉普拉斯金字塔每层输出的图像的尺寸为上一层输出的图像尺寸的1/2，因此为了能在更高层的拉普拉斯金字塔中使用图像x_g，则可以在更新每层的x_h后，将x_g进行上采样。

所以，上述可以将GAN模型输出的低分辨率图像与融合图像进行高斯泊松融合，使得获得的初始训练图像可以保留融合图像中的梯度信息以及保留GAN模型输出的生成图像中的全局颜色信息，这样可获得颜色类似生成图像且又能保留融合图像的细节的初始训练图像。

在上述实现过程中，将获得的融合图像与GAN输出的生成图像进行融合，从而可获得更高分辨率且更为逼真的图像，以进一步提高后续对图像分割模型的训练精度。

在一些实施方式中，由于GAN模型中的编码器部分的最后一个下采样卷积模块的ReLU激活函数在反向传播的时候，将值为负数的神经元置为零，而根据链式法则，值为零的神经元不产生梯度，而且在很长的时间内神经元处于消亡状态难以再次被激活。所以，为了解决由于使用ReLU激活函数造成的负神经元输出无法反向传导梯度的问题，可以将上述GAN模型中的编码器部分的最后一个下采样卷积模块的ReLU激活函数替换为Leaky ReLU激活函数，也就是说，GAN模型中的激活函数可以采用Leaky ReLU激活函数。Leaky ReLU激活函数是给予负值的神经元一个小于1且大于0的斜率，因此可以允许更好的梯度流反传，从而可有效解决ReLU激活函数无法反向传导梯度的问题。

在一些实施方式中，图像分割模型可以为改进的U-net网络，改进的U-net网络包括编码器部分和解码器部分，编码器部分采用Resnet网络进行特征提取。也就是说，使用Resnet网络和U-net网络结合的方式来实现图像分割模型。

在具体实现过程中，为了检测不同尺寸的河面垃圾，可以通过编码器部分对图像进行多次下采样，如5次下采样，用于捕捉图像不同尺寸的目标，避免在检测小目标时由于浅层特征图上的特征语义信息太少而导致召回率不高的问题。所以，本申请实施例中，U-net网络的编码器部分可以采用Resnet网络，如Resnet18网络。Resnet网络中的残差网络的跳跃连接可有效避免梯度链式更新时造成的梯度消失的问题，从而可获得更有表达力的特征。

在解码器阶段，可采用U-net网络中原始的解码器，对图像进行多次上采样，如3次上采样，并且通过对图像进行填充，以保证特征图的尺寸不变。通过解码器解码特征后，再连接一个卷积层用于预测对象类别，添加一个softmax层用于输出对象所属不同类别的概率，最终实现对对象的分割。

图4示出了完整的改进的U-net网络的结构示意图，其中，将残差网络中下采样得到的图像和U-net网络中上采样得到的图像按通道的维度进行合并，生成新的特征图，这样的设计相比于原有的U-net网络可以学习到更多的语义特征，且残差块能更好地利用不同尺度的特征图信息。而相比于其他深层网络，如ResNet50等，该改进的U-net网络的训练参数更少，能够满足工程应用的要求。

请参照图5，图5为本申请实施例提供的一种图像分割方法的流程图，该方法包括如下步骤：

步骤S210：获取待分割图像。

待分割图像可以是指任意需要进行对象检测和分割的图像，如在对河道图像中的垃圾进行检测和分割时，该待分割图像即为拍摄获得的河道图像。

步骤S220：通过图像分割模型对待分割图像中的各个像素进行分类，获得各个像素的分类结果。

该图像分割模型为通过上述的模型训练方法获得的，如图像分割模型为上述改进的U-net网络时，在具体实现过程中，可通过U-net网络中的编码器部分针对待分割图像中的每个像素提取包含上下文信息的深层特征信息，然后通过解码器部分针对待分割图像中的每个像素提取包含边缘信息的浅层特征信息，将深层特征信息与浅层特征信息进行融合，获得融合特征，然后根据融合特征对待分割图像中的各个像素进行分类，获得各个像素的分类结果。该分类结果即可包括待分割图像中各个像素属于对应类别的概率。

步骤S230：根据分类结果对所述待分割图像进行分割，获得针对目标对象的分割结果。

在获得各个像素所属的类别后，则可将针对目标对象的像素分割出来，从而获得针对目标对象的分割结果，如根据各个像素所属的类别确定属于垃圾类别对应的像素(这里可将像素属于垃圾类别的概率大于预设值时则认为该像素属于垃圾)，从而可利用掩码图像实现对垃圾的分割。

在一些实现方式中，还可以根据掩码图像获得垃圾的轮廓点，从而可获得垃圾的轮廓，以提供更加精确的垃圾位置信息和形状信息。

通过上述训练方法获得的图像分割模型对待分割图像中的目标对象进行分割，可达到更好的分割效果。并且，上述通过对垃圾进行分割而不是检测完成识别任务，对大面积的垃圾漂浮物有更好的识别结果，减少误检。

另外，在获得针对目标对象的分割结果后，若确定待分割图像中存在目标对象时，还可输出相应的提示信息，以供用户知晓。

请参照图6，图6为本申请实施例提供的一种模型训练装置200的结构示意图，该装置200可以是电子设备上的模块、程序段或代码。应理解，该装置200与上述图2方法实施例对应，能够执行图2方法实施例涉及的各个步骤，该装置200具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置200包括：

图像获取模块210，用于获取多张初始训练图像；

图像增强模块220，用于通过MixUp数据增强算法对任意两张初始训练图像进行加权融合处理，获得对应的训练图像；

分割结果获取模块230，用于将多张训练图像输入图像分割模型中，获得所述图像分割模型输出的针对每张训练图像中目标对象的分割结果；

损失值计算模块240，用于根据所述图像分割模型输出的针对每张训练图像中目标对象的分割结果以及对应的分类标签计算损失函数的损失值；

参数更新模块250，用于根据所述损失值更新所述图像分割模型的网络参数，直至满足训练终止条件时，获得训练好的图像分割模型；

可选地，所述图像增强模块220，用于从所述多张初始训练图像中任意选择一张图像，并随机与另一张图像按照预设融合权重比例进行加权融合，获得融合后对应的训练图像；

其中，预设融合权重比例满足贝塔分布。

可选地，通过以下公式计算获得KL散度：

L＝∑_ilabel_i×[log(label_i)-pred_i]；

可选地，通过以下公式计算获得KL散度：

L＝∑_ilabel_i×[log(label_i)-pred_i]；

可选地，所述图像获取模块210，用于：

采集多张背景图像以及针对所述目标对象的多张对象图像；

对每张对象图像进行随机裁剪，获得多张裁剪图像；

将每张背景图像与每张裁剪图像进行融合，获得融合图像；

可选地，所述GAN模型中的激活函数采用Leaky ReLU激活函数。

可选地，所述图像获取模块210，用于：采集多张背景图像以及针对所述目标对象的多张对象图像；

对每张对象图像进行随机裁剪，获得多张裁剪图像；

将每张背景图像与每张裁剪图像进行融合，获得融合图像；

请参照图7，图7为本申请实施例提供的一种图像分割装置300的结构框图，该装置300可以是电子设备上的模块、程序段或代码。应理解，该装置300与上述图5方法实施例对应，能够执行图5方法实施例涉及的各个步骤，该装置300具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置300包括：

图像获取模块310，用于获取待分割图像；

分类模块320，用于通过图像分割模型对待分割图像中的各个像素进行分类，获得各个像素的分类结果；

分割模块330，用于根据分类结果对所述待分割图像进行分割，获得针对目标对象的分割结果；

其中，所述图像分割模型为通过上述的模型训练方法得到。

需要说明的是，本领域技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再重复描述。

本申请实施例提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图2或图5所示方法实施例中电子设备所执行的方法过程。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如，包括：获取多张初始训练图像；通过MixUp数据增强算法对任意两张初始训练图像进行加权融合处理，获得对应的训练图像；将多张训练图像输入图像分割模型中，获得所述图像分割模型输出的针对每张训练图像中目标对象的分割结果；根据所述图像分割模型输出的针对每张训练图像中目标对象的分割结果以及对应的分类标签计算损失函数的损失值；根据所述损失值更新所述图像分割模型的网络参数，直至满足训练终止条件时，获得训练好的图像分割模型；其中，所述分类标签为所述加权融合处理过程中的两张初始训练图像对应的融合权重，所述融合权重表征初始训练图像中各个像素属于对应类别的概率，所述损失函数为KL散度。

综上所述，本申请实施例提供一种模型训练方法、图像分割方法及装置，通过MixUp数据增强算法对初始训练图像进行加权融合处理获得对应的训练图像，这样可增强训练图像之间的线性表达，扩充训练样本，使得模型能够减少对错误标签的记忆，增强对抗样本的鲁棒性，提高了模型的泛化能力。并且由于对初始训练样本采用MixUp数据增强算法处理后，使得训练样本的标签数据变为对应的融合权重，而不是one-hot形式的类别标签，所以，以KL散度作为损失函数可以产生更稳定的梯度更新方向，以更好地更新模型参数，进而提高了模型训练精度，使得分割效果更好。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取多张初始训练图像；

其中，所述分类标签为所述加权融合处理过程中的两张初始训练图像对应的融合权重，所述融合权重表征初始训练图像中各个像素属于对应类别的概率，所述损失函数为KL散度；

其中，所述通过MixUp数据增强算法分别对两张初始训练图像进行加权处理，获得对应的训练图像，包括：

其中，预设融合权重比例满足贝塔分布；

其中，通过以下公式计算获得KL散度：

；

其中，L表示KL散度的值，i表示第i个类别，label表示属于第i个类别的分类标签，pred表示对属于第i个类别的像素的分割结果；

其中，所述获取多张初始训练图像，包括：

采集多张背景图像以及针对所述目标对象的多张对象图像；

对每张对象图像进行随机裁剪，获得多张裁剪图像；

将每张背景图像与每张裁剪图像进行融合，获得融合图像；

将多张所述融合图像输入训练好的生成式对抗网络GAN模型中，获得所述GAN模型输出的多张初始训练图像；

或者，所述获取多张初始训练图像，包括：

采集多张背景图像以及针对所述目标对象的多张对象图像；

对每张对象图像进行随机裁剪，获得多张裁剪图像；

将每张背景图像与每张裁剪图像进行融合，获得融合图像；

2.根据权利要求1所述的方法，其特征在于，所述图像分割模型为改进的U-net网络，所述改进的U-net网络包括编码器部分和解码器部分，所述编码器部分采用Resnet网络进行特征提取。

3.根据权利要求1所述的方法，其特征在于，所述GAN模型中的激活函数采用LeakyReLU激活函数。

4.一种图像分割方法，其特征在于，所述方法包括：

获取待分割图像；

其中，所述图像分割模型为通过权利要求1-3中任一项所述的模型训练方法得到。

5.一种模型训练装置，其特征在于，所述装置包括：

图像获取模块，用于获取多张初始训练图像；

其中，所述图像增强模块，具体用于从所述多张初始训练图像中任意选择一张图像，并随机与另一张图像按照预设融合权重比例进行加权融合，获得融合后对应的训练图像；

其中，预设融合权重比例满足贝塔分布；

其中，通过以下公式计算获得KL散度：

；

其中，所述图像获取模块，具体用于采集多张背景图像以及针对所述目标对象的多张对象图像；对每张对象图像进行随机裁剪，获得多张裁剪图像；将每张背景图像与每张裁剪图像进行融合，获得融合图像；将多张所述融合图像输入训练好的生成式对抗网络GAN模型中，获得所述GAN模型输出的多张初始训练图像；

或者，所述图像获取模块，具体用于采集多张背景图像以及针对所述目标对象的多张对象图像；对每张对象图像进行随机裁剪，获得多张裁剪图像；将每张背景图像与每张裁剪图像进行融合，获得融合图像；将多张所述融合图像输入训练好的生成式对抗网络GAN模型中，获得所述GAN模型输出的生成图像；将每张所述融合图像与每张所述生成图像进行高斯泊松融合，获得多张初始训练图像。

6.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-4任一所述的方法。

7.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-4任一所述的方法。