CN112669342A

CN112669342A - 图像分割网络的训练方法及装置、图像分割方法及装置

Info

Publication number: CN112669342A
Application number: CN202011566556.9A
Authority: CN
Inventors: 王学博; 赵松涛
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-16
Anticipated expiration: 2040-12-25
Also published as: CN112669342B

Abstract

本公开关于一种图像分割网络的训练方法及装置、图像分割方法及装置，该训练方法包括：获取多个样本图像，提取多个样本图像的多个特征图像，将特征图像输入关键点检测网络，以获取人体的目标肩膀区域，将特征图像输入人体分割网络，输出人体预测分割图，获取人体预测分割图与人体标准分割图之间的像素误差，根据目标肩膀区域，对像素误差进行加权，以调整人体分割网络的第一损失函数，基于调整后的第一损失函数和关键点检测网络的第二损失函数，得到图像处理模型调整后的损失函数，根据调整后的损失函数，对图像处理模型进行训练，得到目标图像分割网络。本公开基于肩膀区域调整人体分割网络的损失函数，以提升图像分割的准确率。

Description

图像分割网络的训练方法及装置、图像分割方法及装置

技术领域

本公开涉及图像处理应用技术领域，尤其涉及一种图像分割网络的训练方法及装置、图像分割方法及装置。

背景技术

随着移动终端技术以及图像处理(Image Processing)技术的迅速发展，各种具有对人像分割功能的应用程序(Application，简称APP)应运而生，用户对于图像背景替换、照片合成、增加人体特效等功能的要求也日益提高。

现有技术中，为了实现人像分割功能，通常采用基于语义分割网络，隐式地将“人”的信息编码进神经网络的特征中的方式进行相关图像处理模型的训练，进而利用训练好的图像处理模型对人像进行分割。然而，现有基于语义分割网络的图像处理模型的训练过程中，极易发生误将背景信息误分割为人体，或者误将人体部分分割为背景信息的情况，导致图像处理模型无法准确地将人像与背景进行分割。因此，如何通过确保图像处理模型的训练过程中的有效性和可靠性已成为亟待解决的问题。

发明内容

本公开提供一种图像分割网络的训练方法及装置、图像分割方法及装置，以至少解决相关技术中无法确保图像分割的可靠性的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像分割网络的训练方法，包括：获取包括人体的多个样本图像，将所述多个样本图像输入图像处理模型的特征提取网络，得到所述多个样本图像的多个特征图像；将每个所述特征图像输入所述图像处理模型中的关键点检测网络，以输出所述人体的肩膀关键点，并根据所述肩膀关键点得到目标肩膀区域；将每个所述特征图像输入所述图像处理模型中的人体分割网络，以输出人体预测分割图，并获取所述人体预测分割图与所述样本图像对应的人体标准分割图之间每个像素点的像素误差；根据所述目标肩膀区域，对所述像素误差进行加权处理，以调整所述人体分割网络的第一损失函数；基于调整后的所述第一损失函数和所述关键点检测网络的第二损失函数，得到所述图像处理模型调整后的损失函数；根据所述调整后的损失函数，对所述图像处理模型进行训练，得到目标图像分割网络。

根据本公开的一个实施例，所述根据所述目标肩膀区域，对所述像素误差进行加权处理，以调整所述人体分割网络的第一损失函数，包括：获取未处于所述目标肩膀区域内的每个像素点对应的像素误差，作为第一像素误差；获取处于所述目标肩膀区域内的每个像素点对应的像素误差，作为第二像素误差；根据所述目标肩膀区域内的每个像素点对应的加权权重对所述第二像素误差进行加权；根据所述第一像素误差和加权后的所述第二像素误差，调整所述人体分割网络所述第一损失函数。

根据本公开的一个实施例，所述基于调整后的所述第一损失函数和所述关键点检测网络的第二损失函数，得到所述图像处理模型调整后的损失函数，包括：基于所述关键点检测网络的训练误差，获取所述关键点检测网络的第二损失函数；对所述第一损失函数和所述第二损失函数进行加权求和，以得到所述图像处理模型调整后的损失函数。

根据本公开的一个实施例，所述根据所述肩膀关键点得到目标肩膀区域，包括：根据所述肩膀关键点得到肩膀区域，对所述肩膀区域做膨胀处理，得到目标肩膀区域。

根据本公开的一个实施例，所述方法还包括：根据所述调整后的损失函数，对所述图像处理模型进行训练，直至所述图像处理模型的训练结束时，以生成中间图像分割网络；删除所述中间图像分割网络中的关键点检测网络，得到所述目标图像分割网络。

根据本公开实施例的第二方面，提供一种图像分割方法，包括：获取包括人体的原始图像；将所述原始图像的特征图像输入目标图像分割网络中，以获取所述原始图像的人体预测分割图；其中，所述目标图像分割网络是根据第一方面所述人体分割网络的训练方法进行训练得到的图像分割网络。

根据本公开实施例的第三方面，提供一种图像分割网络的训练装置，所述装置包括：特征获取单元，被配置为执行获取包括人体的多个样本图像，将所述多个样本图像输入图像处理模型的特征提取网络，得到所述多个样本图像的多个特征图像；关键点提取单元，被配置为执行将每个所述特征图像输入所述图像处理模型中的关键点检测网络，以输出所述人体的肩膀关键点，并根据所述肩膀关键点得到目标肩膀区域；像素误差获取单元，被配置为执行将每个所述特征图像输入所述图像处理模型中的人体分割网络，以输出人体预测分割图，并获取所述人体预测分割图与所述样本图像对应的人体标准分割图之间每个像素点的像素误差；损失函数调整单元，被配置为执行根据所述目标肩膀区域，对所述像素误差进行加权处理，以调整所述人体分割网络的第一损失函数，基于调整后的所述第一损失函数和所述关键点检测网络的第二损失函数，得到所述图像处理模型调整后的损失函数；分割网络获取单元，被配置为执行根据所述调整后的损失函数，对所述图像处理模型进行训练，得到目标图像分割网络。

根据本公开的一个实施例，所述损失函数调整单元，还被配置为执行：获取未处于所述目标肩膀区域内的每个像素点对应的像素误差，作为第一像素误差；获取处于所述目标肩膀区域内的每个像素点对应的像素误差，作为第二像素误差；根据所述目标肩膀区域内的每个像素点对应的加权权重对所述第二像素误差进行加权；根据所述第一像素误差和加权后的所述第二像素误差，调整所述人体分割网络所述第一损失函数。

根据本公开的一个实施例，所述损失函数调整单元，还被配置为执行：基于所述关键点检测网络的训练误差，获取所述关键点检测网络的第二损失函数；对所述第一损失函数和所述第二损失函数进行加权求和，以得到所述图像处理模型调整后的损失函数。

根据本公开的一个实施例，所述关键点提取单元，还被配置为执行：根据所述肩膀关键点得到肩膀区域，对所述肩膀区域做膨胀处理，得到目标肩膀区域。

根据本公开的一个实施例，所述分割网络获取单元，还被配置为执行：

根据所述调整后的损失函数，对所述图像处理模型进行训练，直至所述图像处理模型的训练结束时，以生成中间图像分割网络；删除所述中间图像分割网络中的关键点检测网络，得到所述目标图像分割网络。

根据本公开实施例的第四方面，提供一种图像分割装置，包括：获取单元，被配置为执行获取包括人体的原始图像；预测单元，被配置为执行将所述原始图像的特征图像输入目标图像分割网络中，以获取所述原始图像的人体预测分割图；其中，所述目标图像分割网络是根据第一方面所述图像分割网络的训练方法进行得到的图像分割网络。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如本公开第一方面或者第二方面提供的方法。

根据本公开实施例的第六方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如本公开第一方面或第二方面提供的方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如本公开第一方面或第二方面提供的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开在图像分割网络的获取过程中，通过增加关键点检测网络进行辅助训练，并基于人体的肩膀区域对人体分割网络的损失函数进行调整，以增加肩膀区域在损失函数的影响，也就是增大目标肩膀区域在误分割中的惩罚，从而能够在不增加计算量的前提下，提升图像分割的准确率，进而提升图像分割的可靠性。

进一步地，通过训练好的目标图像分割网络，能够实现准确地人体分割，并获取人体分割预测图。尤其在视频会议应用场景下，可以基于获取到的目标图像分割网络准确地对人体的肩膀与背景进行分割，进而能够有效地解决视频会议应用场景下存在的背景干扰问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像分割网络的训练方法的流程图。

图2是根据一示例性实施例示出的另一种图像分割网络的训练方法的流程图。

图3是根据一示例性实施例示出的一种对肩膀关键点做膨胀操作的示意图。

图4是根据一示例性实施例示出的一种图像分割方法的流程图。

图5是根据一示例性实施例示出的图像处理的结果示意图。

图6是根据一示例性实施例示出的另一种图像分割方法的流程图。

图7是根据一示例性实施例示出的另一种图像分割方法的流程图。

图8是根据一示例性实施例示出的一种替换人体预测分割图背景的示意图。

图9是根据一示例性实施例示出的另一种图像分割方法的流程图。

图10是根据一示例性实施例示出的一种图像分割方法应用于视频会议场景下的示意图。

图11是根据一示例性实施例示出的一种图像分割网络的训练装置的框图。

图12是根据一示例性实施例示出的一种图像分割装置的框图。

图13是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种图像分割网络的训练方法的流程图。其中，需要说明的是，本公开的图像分割网络的训练方法的执行主体为图像分割网络的训练装置。本公开实施例的图像分割网络的训练方法可以由本公开实施例的图像分割网络的训练装置执行，图像分割网络的训练装置具体可以为硬件设备，或者硬件设备中的软件等。其中，硬件设备例如终端设备、服务器等。如图1所示，本实施例提出的图像分割网络的训练方法，包括以下步骤：

在步骤101中，获取包括人体的多个样本图像，将多个样本图像输入图像处理模型的特征提取网络，得到多个样本图像的多个特征图像。

其中，样本图像，可以为用户输入的任意的包括人体的图像，又例如，可以对任一视频，例如教学视频和影视剧作品等视频，进行解码、抽帧后，得到一帧帧的包括人体的图像作为样本图像。

其中，特征图像(Image Features)，指的是能够反映图像的颜色特征、纹理特征、形状特征和空间关系等特征的图像。

需要说明的是，在试图获取多个样本图像时，可以获取本地或者远程存储区域中预先存储的包括人体的图像作为样本图像，也可以直接拍摄的包括人体的图像作为样本图像。可选地，可以从本地或者远程图像库、视频库中的至少一处获取存储的包括人体的图像或者视频，以获取包括人体的样本图像；可选地，也可以直接拍摄包括人体的图像作为样本图像。本申请实施例对获取样本图像的方式不作限定，可以根据实际情况进行选取。

本公开实施例中，预先构建图像处理模型，该图像处理模型包括特征提取网络，将多个样本图像输入到图像处理模型中，由该特征提取网络对多个样本图像进行特征提取，可以获取到多个样本图像的多个特征图像。可选地，特征提取网络可以为卷积网络。

作为一种可能的实现方式，特征提取网络可以对样本图像进行下采样，以获取候选特征图像。再对候选图像特征进行上采样，以获取特征图像，其中，下采样的频率和倍数与上采样的频率和倍数相同。其中，上、下采样的频率和倍数可以根据实际情况进行设定。

举例而言，可以将样本图像逐级下采样4次，每次下采样2倍，共下采样16倍，以获取候选特征图像。进一步地，将样本图像逐级上采样4次，每次上采样2倍，共上采样16倍，然后通过特征提取网络获取特征图像。需要说明的是，在对图像进行采样的过程中，保持获取到的特征图像与样本图像大小一致。

在步骤102中，将每个特征图像输入图像处理模型中的关键点检测网络，以输出人体的肩膀关键点，并根据肩膀关键点得到目标肩膀区域。

本公开实施例中，在获取到多个特征图像后，可以将每个特征图像分别输入图像处理模型中的关键点检测网络中，由关键点检测网络基于特征图像，检测出人体的关键点。其中，人体关键点可以包括以下部位：头部、颈部、肩膀、肘部、手部、臂部、膝盖、脚部等。针对不同的实际情况，可以确定不同的需要检测的人体部位，即言，可以定义不同的人体关键点数量。

其中，关键点检测网络，指的是可以定位并返回人体各部位关键点坐标位置的网络。

本公开实施例中，关键点检测网络提取的人体关键点至少包括肩膀。可选地，关键点检测网络可以为直接提取到人体的肩膀关键点的网络，可选地，也可以为提取多个关键点的网络，在获取到人体的多个关键点后可以进一步识别出肩膀关键点。在获取到肩膀关键点后，可以基于肩膀关键点得到目标肩膀区域。需要说明的是，肩膀区域指的是双肩所在区域，即言，包括左肩膀区域和右肩膀区域。

在步骤103中，将每个特征图像输入图像处理模型中的人体分割网络，以输出人体预测分割图，并获取人体预测分割图与样本图像对应的人体标准分割图之间每个像素点的像素误差。

每个样本图像预先有标记的人体标准分割图。人体分割网络可以预测一个样本图像的人体预测分割图。在获取到人体预测分割图之后，可以计算人体预测分割图与对应的人体标准分割图之间的每个像素点的像素误差。需要说明的是，本公开对获取像素误差(Pixel Error)的具体方式不作限定，可以根据实际情况进行选取。可选地，可以通过单应矩阵将人体预测分割图的像素数据映射到人体标准分割图上，以获取人体预测分割图与人体标准分割图之间每个像素点的像素误差。

在步骤104中，根据目标肩膀区域，对像素误差进行加权处理，以调整人体分割网络的第一损失函数。

本公开中，人体分割网络在获取到像素误差后，进一步地结合目标肩膀区域对每个像素点的像素误差进行加权处理，进而增大肩膀区域在网络识别中的影响。经过目标肩膀区域对像素误差的加权后，再基于调整后的像素误差进行损失函数的计算，获取到人体分割网络的第一损失函数。可选地，人体分割网络可以利用采用交叉熵损失函数(CrossEntropy Loss Function)作为人体分割网络的损失函数，基于损失函数调整网络中参数，最终获取一个满足训练要求的目标图像分割网络。通过目标肩膀区域，对像素误差进行加权处理，以增大肩膀区域的比重，加大肩膀区域在误分割中的惩罚，进而可以提高人体分割网络的分割准确率。

在步骤105中，基于调整后的第一损失函数和关键点检测网络的第二损失函数，得到图像处理模型调整后的损失函数。

进一步地，关键点提取网络在每次训练后同样基于网络的误差信息，生成关键点检测网络的第二损失函数。本公开中，图像处理模型的损失函数由人体分割网络的第一损失函数和关键点检测网络的第二损失函数构成。获取到调整后的第一损失函数和第二损失函数后，就可以基于第一损失函数和第二损失函数得到整个图像处理模型的损失函数。可选地你，对第一损失函数和第二损失函数进行加权求和，以得到图像处理模型调整后的损失函数。例如，第一损失函数l_cross_entropy，第二损失函数l_2_loss，两者按照预设的权要进行加权，可以得到图像处理模型的整体损失函数。例如，权重尅为50:1。则loss＝l_2_loss*50+l_cross_entropy*shoulder_weigh。

在步骤106中，根据调整后的损失函数，对图像处理模型进行训练，得到目标图像分割网络。

在获取到调整后的损失函数后，基于该调整后的损失函数后对图像处理模型进行训练，当满足结束训练的条件后停止训练，可以得到最终的目标图像分割网络。也就是说，根据调整后的损失函数，对图像处理模型进行训练，当满足结束训练的条件后停止训练，可以生成中间图像分割网络，删除该中间图像分割网络中的关键点检测网络，就可以得到一个目标图像分割网络，需要说明的是，中间图像分割网络中删除的是结束时生成的关键点检测网络。

本公开通过获取包括人体的多个样本图像，并提取多个样本图像的多个特征图像，并将每个特征图像分别输入关键点检测网络和人体分割网络中进行训练，然后利用关键点检测网络每次输出的目标肩膀区域，对人体分割网络输出的像素误差进行加权，以调整人体分割网络的第一损失函数，进而调整图像处理模型的整体损失函数，直至得到最终的目标图像分割网络。由此，本公开在目标图像分割网络的获取过程中，通过增加关键点检测网络进行辅助训练，并基于人体的肩膀区域对人体分割网络的损失函数进行调整，以增加肩膀区域在损失函数的影响，也就是增大目标肩膀区域在误分割中的惩罚，从而能够在不增加计算量的前提下，提升图像分割的准确率，进而提升图像分割的可靠性。

作为一种可能的实现方式，如图2所示，在上述实施例的基础上，上述步骤S104中利用关键点检测网络每次输出的目标肩膀区域，对人体分割网络的第一损失函数进行调整的过程，具体包括以下步骤：

在步骤201中，获取未处于目标肩膀区域内的每个像素点对应的像素误差，作为第一像素误差。

可选地，可以根据目标肩膀区域，从获取到的像素误差中，提取未处于目标肩膀区域内的每个像素点对应的像素误差，作为第一像素误差，以实现对于关键点检测网络训练的监督。

在步骤202中，获取处于目标肩膀区域内的每个像素点对应的像素误差，作为第二像素误差。

可选地，可以根据目标肩膀区域，从获取到的像素误差中，提取处于目标肩膀区域内的每个像素点对应的像素误差，作为第二像素误差，以实现对于人体分割网络训练的监督。

在步骤203中，根据目标肩膀区域内的每个像素点对应的加权权重对第二像素误差进行加权。

需要说明的是，在对人体分割网络进行训练的过程中，针对人物坐在椅子上、人物身后存在不易区别的背景等场景时，极易导致分割不准确。由此，本公开中提出的人体分割网络能够主要针对肩膀区域进行分割，人体关键点模型主要针对肩膀区域的关键点进行提取。进而可以利用目标肩膀区域内的每个像素点对应的加权权重对第二像素误差进行加权，以加重人体分割网络训练过程中对于目标肩膀区域误分割的惩罚。其中，目标肩膀区域内的每个像素点对应的加权权重，可以根据实际情况进行设定，例如0.3等。

举例而言，目标肩膀区域内的每个像素点对应的加权权重为0.3、第二像素误差为50万，则可以将目标肩膀区域内的每个像素点对应的加权权重与第二像素误差相乘，即0.3*50万，以实现对第二像素误差的加权。

在步骤204中，根据第一像素误差和加权后的第二像素误差，调整第一损失函数。

本公开实施例中，可以根据获取到的第一像素误差和加权后的第二像素误差，基于损失函数计算方法，重新确定人体分割网络的第一损失函数。由于基于目标肩膀区域对像素误差进行了调整，使得第一损失函数的计算过程中考虑肩膀区域对损失函数的影响，从而可以使调整后的第一损失函数能够体现出肩膀区域在误分割中的惩罚。

本公开通过获取人体分割网络训练出的人体预测分割图与样本图像对应的人体标准分割图之间每个像素点的像素误差，并根据目标肩膀区域，对像素误差进行加权处理，以调整人体分割网络的损失函数，从而加重人体分割网络训练过程中对于目标肩膀区域误分割的惩罚，减少因目标肩膀区域内的每个像素点对应的像素误差极大导致分割不准确的问题进一步提升了人体分割网络的分割准确率。

需要说明的是，本公开中，在试图将特征图像分别输入关键点检测网络进行训练时，可以获取人体的肩膀关键点，进而通过执行膨胀操作，以生成目标肩膀区域。

作为一种可能的实现方式，关键点检测网络中设置有沙漏网络，在试图对特征图像进行关键点提取时，可以将特征图像输入沙漏网络中，以对特征图像进行关键点提取，并对关键点进行回归定位，以获取人体的肩膀关键点。

可选地，可以将肩膀关键点先通过连线形成肩膀区域，在对肩膀区域进行扩张到预设尺寸，并将原连线中没有占用的区域进行填充。其中，预设尺寸可以根据实际情况进行设定，以生成目标肩膀区域。

举例而言，可以将如图3(a)中所示的肩膀关键点形成的连线3-1进行扩张，并用白色将原连线中没有占用的区域进行填充，以得到如图3(b)中所示的肩膀关键点形成的连线3-2，并将连线3-2所在的区域作为目标肩膀区域。

本公开中通过对肩膀关键点形成的肩膀区域进行膨胀操作，增加了目标肩膀区域包括的像素点的数量，进一步提升了人体分割网络的分割准确率。

本公开中，在获取目标图像分割网络之后，可以通过该目标图像分割网络，获取原始图像的人体预测分割图。图4是根据一示例性实施例示出的一种图像分割方法的流程图。如图4所示，该图像分割方法具体包括以下步骤：

在步骤401中，获取包括人体的原始图像，并提取原始图像的特征图像。

可选地，可以获取携带有人像的原始图像，并在输入特征提取网络之前，将原始图像逐级下采样4次，每次下采样2倍，共下采样16倍，然后逐级上采样4次，每次上采样2倍，共上采样16倍，再由特征提取网络提取出原始图像的特征图像。

在步骤402中，将原始图像的特征图像输入目标图像分割网络，以获取原始图像的人体预测分割图。

举例而言，如图5(a)所示，原始图像5-1中的人物坐在一把椅子上，由此原始图像5-1中人物身后的背景中有椅子的部分信息。进一步地，通过特征提取可以获取如图5(b)所示的原始图像的特征图像5-2，其中，特征图像5-2中标记有5-2-1～5-2-10，共10个人体关键点。进一步地，将原始图像的特征图像5-2输入目标图像分割网络，可以获取如图5(c)所示的原始图像的人体预测分割图5-3。

本公开通过获取包括人体的原始图像，并提取原始图像的特征图像，然后将原始图像的特征图像输入目标图像分割网络，以获取原始图像的人体预测分割图。由此，本公开通过训练好的目标图像分割网络，能够实现准确地人体分割，并获取人体分割预测图。尤其在视频会议应用场景下，可以基于获取到的目标图像分割网络准确地对人体的肩膀与背景进行分割，进而能够有效地解决视频会议应用场景下存在的背景干扰问题。

进一步地，本公开中，在获取测试图像的人体预测分割图之后，可以根据实际需求，任意替换人体预测分割图中的背景图像。

作为一种可能的实现方式，如图6所示，在上述实施例的基础上，在获取测试图像的人体预测分割图之后的过程，具体包括以下步骤：

在步骤601中，获取预设背景图像。

其中，预设背景图像，可以为用户输入的任意图像，也可以为通过对任一视频进行解码、抽帧后，得到的图像。

需要说明的是，在试图获取背景图像时，可以获取本地或者远程存储区域中预先存储的图像作为背景图像，也可以直接拍摄图像作为背景图像。

在步骤602中，利用预设背景图像，替换人体预测分割图中的背景图像。

作为一种可能的实现方式，如图7所示，在上述实施例的基础上，上述步骤S602中利用预设背景图像，替换人体预测分割图中的背景图像的过程，具体包括以下步骤：

在步骤701中，获取人体预测分割图中背景像素点和每个背景像素点在图像中的位置。

需要说明的是，本公开中，对于获取像素点及其位置的方式不作限定，可以根据实际情况进行选取。可选地，可以获取人体预测分割图中背景的像素点矩阵，然后根据预设顺序获取像素点矩阵中的每个背景像素点和每个背景像素点在图像中的位置。

在步骤702中，根据背景像素点的位置，从预设背景图像中获取与背景像素点处于相同位置的匹配像素点。

可选地，可以获取预设背景图像的像素点矩阵，然后根据预设顺序获取预设像素点矩阵中的每个参考像素点和每个参考像素点在预设背景图像中的位置。进一步地，可以根据背景像素点的位置，从预设背景图像中获取与背景像素点处于相同位置的匹配像素点。

在步骤703中，针对每个背景像素点，获取背景像素点的参考像素点的像素信息，并利用像素信息对背景像素点进行配置。

其中，像素信息中至少包括颜色信息。

可选地，在从预设背景图像中获取与背景像素点处于相同位置的匹配像素点后，可以针对每个背景像素点，获取背景像素点的参考像素点的像素信息，并按照像素信息，重置背景像素点。

举例而言，如图8(a)所示，原始的人体预测分割图8-1中背景图像为8-2，在试图更换背景图像时，可以获取预设背景图像8-4，并利用预设背景图像8-4进行替换，以获取到如图8(b)所示的人体预测分割图8-3。

本公开通过获取预设背景图像，并利用预设背景图像，替换人体预测分割图中的背景图像，能够实现人体预测分割图中背景图像的任意替换。

作为一种可能的实现方式，如图9所示，在上述实施例的基础上，图像分割方法具体包括以下步骤：

在步骤901中，获取多个包括人体的样本图像，将所多个样本图像输入图像处理模型的特征提取网络，得到多个样本图像的多个特征图像。

在步骤902中，将每个特征图像输入图像处理模型中的关键点检测网络，以输出人体的肩膀关键点。

在步骤903中，根据肩膀关键点得到肩膀区域，对肩膀区域做膨胀操作，以生成目标肩膀区域。

在步骤904中，将每个特征图像输入图像处理模型中的人体分割网络，以输出人体预测分割图，并获取人体预测分割图与样本图像对应的人体标准分割图之间每个像素点的像素误差。

需要说明的是，步骤902和步骤904可以并行执行，也可以先执行步骤902再执行步骤904，或者先执行步骤904再执行步骤902，此处不做限制。

在步骤9905中，获取未处于目标肩膀区域内的每个像素点对应的像素误差，作为第一像素误差。

在步骤906中，获取处于目标肩膀区域内的每个像素点对应的像素误差，作为第二像素误差。

在步骤907中，根据目标肩膀区域内的每个像素点对应的加权权重对第二像素误差进行加权。

在步骤908中，根据第一像素误差和加权后的第二像素误差，调整人体分割网络的第一损失函数。

在步骤909中，基于调整后的第一损失函数和第二损失函数，得到图像处理模型调整后的损失函数。

在步骤910中，根据调整后的损失函数，对图像处理模型进行训练，在对图像处理模型的训练结束时，删除关键点检测网络，得到目标图像分割网络。

在步骤911中，获取包括人体的原始图像，并提取原始图像的特征图像。

在步骤912中，将原始图像的特征图像输入目标图像分割网络，以获取原始图像的人体预测分割图。

在步骤913中，获取预设背景图像。

在步骤914中，获取人体预测分割图中背景像素点和每个背景像素点在图像中的位置。

在步骤915中，根据背景像素点的位置，从预设背景图像中获取与背景像素点处于相同位置的匹配像素点。

在步骤916中，针对每个背景像素点，获取背景像素点的参考像素点的像素信息，并利用像素信息对背景像素点进行配置。

需要说明的是，本申请提出的图像分割方法，可以运用于多种图像处理场景中。

针对视频会议应用场景，在用户有参与视频会议的需求时，若用户对当前所处场所不满意，即试图在进行视频会议的过程中替换所显示的背景，则可以触发对应的控件以开启替换背景功能。相应的，可以获取用户图像，并提取特征图像，进而将特征图像输入基于语义分割以及深度学习技术训练好的目标图像分割网络，以获取人体预测分割图。进一步地，可以获取用户上传的，或者系统推荐的预设背景图像，并利用预设背景图像，替换人体预测分割图中的背景图像。由此，用户可以任意替换符合自己需求的背景图像，能够在任意场所中进行视频会议，极大地提高了用户体验。

举例而言，用户甲当前需要参加一次视频面试，然而用户甲当前正在公园内，如图10(a)所示，此种情况下，显示界面上除了可以显示用户甲的人像外，同时也显示了公园长椅、树木等背景。用户甲试图将背景替换为纯白色背景，此时，则可以通过获取用户图像，并提取特征图像，进而将特征图像输入训练好的目标图像分割网络，以获取人体预测分割图。进一步地，可以获取系统推荐的纯白色预设背景图像，并利用预设背景图像，替换人体预测分割图中的背景图像，以得到如图10(b)所示的图像，使用户甲能能够在任意场所中进行视频面试，极大地提高了用户体验。

需要说明的是，本公开中提出的人体分割网络能够主要针对肩膀区域进行分割，能够更加准确地对人体肩膀与背景进行分割，进而能够有效地解决视频会议应用场景下人体分割过程中存在的背景干扰问题。

图11是根据一示例性实施例示出的一种图像分割网络的训练装置的框图。如图11所示，该图像分割网络的训练装置10包括：第一获取单元11、关键点提取单元12、像素误差获取单元13、损失函数调整单元14和分割网络获取单元15。

其中，特征获取单元11，被配置为执行获取包括人体的多个样本图像，将所述多个样本图像输入图像处理模型的特征提取网络，得到所述多个样本图像的多个特征图像；

关键点提取单元12，被配置为执行将每个所述特征图像输入所述图像处理模型中的关键点检测网络，以输出所述人体的肩膀关键点，并根据所述肩膀关键点得到目标肩膀区域；

像素误差获取单元13，被配置为执行将每个所述特征图像输入所述图像处理模型中的人体分割网络，以输出人体预测分割图，并获取所述人体预测分割图与所述样本图像对应的人体标准分割图之间每个像素点的像素误差；

损失函数调整单元14，被配置为执行根据所述目标肩膀区域，对所述像素误差进行加权处理，以调整所述人体分割网络的第一损失函数，基于调整后的所述第一损失函数和所述关键点检测网络的第二损失函数，得到所述图像处理模型调整后的损失函数；

分割网络获取单元15，被配置为执行根据所述调整后的损失函数，对所述图像处理模型进行训练，得到目标图像分割网络。

可选地，损失函数调整单元14，还被配置为执行：

获取未处于所述目标肩膀区域内的每个像素点对应的像素误差，作为第一像素误差；

获取处于所述目标肩膀区域内的每个像素点对应的像素误差，作为第二像素误差；

根据所述目标肩膀区域内的每个像素点对应的加权权重对所述第二像素误差进行加权；

根据所述第一像素误差和加权后的所述第二像素误差，调整所述人体分割网络所述第一损失函数。

可选地，损失函数调整单元14，还被配置为执行：

基于所述关键点检测网络的训练误差，获取所述关键点检测网络的第二损失函数；

对所述第一损失函数和所述第二损失函数进行加权求和，以得到所述图像处理模型调整后的损失函数。

可选地，关键点提取单元12，还被配置为执行：

根据所述肩膀关键点得到肩膀区域，对所述肩膀区域做膨胀处理，得到目标肩膀区域。

可选地，分割网络获取单元15，还被配置为执行：

根据所述调整后的损失函数，对所述图像处理模型进行训练，直至所述图像处理模型的训练结束时，以生成中间图像分割网络；

删除所述中间图像分割网络中的关键点检测网络，得到所述目标图像分割网络。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开通过获取包括人体的多个样本图像，并提取多个样本图像的多个特征图像，并将每个特征图像分别输入关键点检测网络和人体分割网络中进行训练，然后利用关键点检测网络每次输出的目标肩膀区域，对人体分割网络输出的像素误差进行加权，以调整人体分割网络的第一损失函数，进而调整图像处理模型的整体损失函数，直至得到最终的目标图像分割网络。由此，本公开通过增加关键点检测网络进行辅助训练，并基于人体的肩膀区域对人体分割网络的损失函数进行调整，以增加肩膀区域在损失函数的影响，也就是增大目标肩膀区域在误分割中的惩罚，从而能够在不增加计算量的前提下，提升人体分割的准确率，进而提升图像分割的可靠性。

图12是根据一示例性实施例示出的一种图像分割装置的框图。如图12所示，该图像处理装置20包括：获取单元21和预测单元22。

其中，获取单元21，被配置为执行获取包括人体的原始图像；

预测单元22，被配置为执行将所述原始图像的特征图像输入目标图像分割网络中，以获取所述原始图像的人体预测分割图；

需要说明的是，目标图像分割网络是根据上述实施例中提供的图像分割网络的训练方法得到的图像分割网络。

可选地，图像处理装置20中可以包括上述实施例提供的图像分割网络的训练装置10。

为了实现上述实施例，本公开还提供了一种电子设备，如图13所示，所述电子设备8000包括：处理器801；用于存储所述处理器801可执行指令的一个或多个存储器802；其中，所述处理器801被配置为执行上述实施例所述的图像分割网络的训练方法或图像分割方法。处理器801和存储器802通过通信总线连接。

在示例性实施例中，本公开还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器802，上述指令可由装置1000的处理器801执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述实施例所述的图像分割网络的训练方法或图像分割方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像分割网络的训练方法，其特征在于，包括：

获取包括人体的多个样本图像，将所述多个样本图像输入图像处理模型的特征提取网络，得到所述多个样本图像的多个特征图像；

将每个所述特征图像输入所述图像处理模型中的关键点检测网络，以输出所述人体的肩膀关键点，并根据所述肩膀关键点得到目标肩膀区域；

将每个所述特征图像输入所述图像处理模型中的人体分割网络，以输出人体预测分割图，并获取所述人体预测分割图与所述样本图像对应的人体标准分割图之间每个像素点的像素误差；

根据所述目标肩膀区域，对所述像素误差进行加权处理，以调整所述人体分割网络的第一损失函数；

基于调整后的所述第一损失函数和所述关键点检测网络的第二损失函数，得到所述图像处理模型调整后的损失函数；

根据所述调整后的损失函数，对所述图像处理模型进行训练，得到目标图像分割网络。

2.根据权利要求1所述的图像分割网络的训练方法，其特征在于，所述根据所述目标肩膀区域，对所述像素误差进行加权处理，以调整所述人体分割网络的所述损失函数，得到调整后的损失函数，包括：

3.根据权利要求2所述的图像分割网络的训练方法，其特征在于，所述基于调整后的所述第一损失函数和所述关键点检测网络的第二损失函数，得到所述图像处理模型调整后的损失函数，包括：

4.根据权利要求1所述的图像分割网络的训练方法，其特征在于，所述根据所述肩膀关键点得到目标肩膀区域，包括：

5.一种图像分割方法，其特征在于，包括：

获取包括人体的原始图像；

将所述原始图像的特征图像输入目标图像分割网络中，以获取所述原始图像的人体预测分割图；

其中，所述目标图像分割网络是根据权利要求1-5任一项所述的图像分割网络的训练方法进行训练得到的图像分割网络。

6.一种图像分割网络的训练装置，其特征在于，包括：

特征获取单元，被配置为执行获取包括人体的多个样本图像，将所述多个样本图像输入图像处理模型的特征提取网络，得到所述多个样本图像的多个特征图像；

关键点提取单元，被配置为执行将每个所述特征图像输入所述图像处理模型中的关键点检测网络，以输出所述人体的肩膀关键点，并根据所述肩膀关键点得到目标肩膀区域；

像素误差获取单元，被配置为执行将每个所述特征图像输入所述图像处理模型中的人体分割网络，以输出人体预测分割图，并获取所述人体预测分割图与所述样本图像对应的人体标准分割图之间每个像素点的像素误差；

损失函数调整单元，被配置为执行根据所述目标肩膀区域，对所述像素误差进行加权处理，以调整所述人体分割网络的第一损失函数，基于调整后的所述第一损失函数和所述关键点检测网络的第二损失函数，得到所述图像处理模型调整后的损失函数；

分割网络获取单元，被配置为执行根据所述调整后的损失函数，对所述图像处理模型进行训练，得到目标图像分割网络。

7.一种图像分割装置，其特征在于，包括：

获取单元，被配置为执行获取包括人体的原始图像；

预测单元，被配置为执行将所述原始图像的特征图像输入目标图像分割网络中，以获取所述原始图像的人体预测分割图；

其中，所述目标图像分割网络是根据权利要求1-4任一项所述人体分割网络的训练方法得到的图像分割网络。

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至5中任一项所述的方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序/指令被处理器执行时实现如权利要求1至5中任一项所述的方法。