CN114140543A

CN114140543A - 基于U2net的多通道输出方法、系统、计算机设备及存储介质

Info

Publication number: CN114140543A
Application number: CN202111440941.3A
Authority: CN
Inventors: 王健
Original assignee: Shenzhen Wondershare Software Co Ltd
Current assignee: Shenzhen Wondershare Software Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-04

Abstract

本发明公开了基于U2net的多通道输出方法、系统、计算机设备及存储介质，其方法包括：将初始图片输入至U2net网络中的多个连续的编码层和解码层内分别进行特征编码和特征解码，分别得到每个编码层和解码层对应的编码特征图和解码特征图；将最后一层的编码特征图以及每一层的解码特征图分别输入至第一上采样模块进行卷积操作，得到对应的通道特征图；将通道特征图进行特征相加并输入至第二上采样模块进行卷积操作得到单通道的目标特征图；基于pillow库调用相应颜色为目标特征图的像素点进行上色，得到具有多标签的目标特征图。本发明在U2net网络的基础上基于pillow库调用相应颜色为目标特征图的不同像素点进行上色，从而构建多通道输出方式，满足了多通道输出的需求。

Description

基于U2net的多通道输出方法、系统、计算机设备及存储介质

技术领域

本发明涉及图像分割技术领域，尤其涉及基于U2net的多通道输出方法、系统、计算机设备及存储介质。

背景技术

随着视频特效的迅猛发展，基于视频分割的特效玩法逐渐走入大众视野，AI领域的深度学习分割类算法层出不穷，从FCN开始，短短几年时间出现了SegNet系列、Unet系列、deeplab系列，直到2020年，显著性目标检测领域的u2net算法框架的提出，在效果与性能上做到了较好的平衡，因其出色的表现，也被应用到语义分割任务中，包括人头分割、衣服分割、汽车分割等。但是其原始框架是单通道输出的，无法满足多通道输出的需求，例如衣服分割中实现上半身衣服、下半身衣服、全身衣服等多类输出。

发明内容

本发明实施例提供了基于U2net的多通道输出方法、系统、计算机设备及存储介质，旨在解决现有技术中由于U2Net为单通道输出而无法满足多通道输出的需求的问题。

第一方面，本发明实施例提供了一种基于U2net的多通道输出方法，包括以下步骤：

将初始图片输入至U2net网络中的多个连续的编码层内进行特征编码和多个连续的解码层内进行特征解码，得到每个编码层对应的编码特征图和每个解码层对应的解码特征图；

将最后一层编码层的编码特征图以及每一层解码层的解码特征图分别输入至对应的第一上采样模块进行卷积操作，得到对应的通道特征图；

将每个所述通道特征图进行特征相加，并输入至第二上采样模块进行卷积操作得到对应单通道的目标特征图；

基于pillow库调用相应颜色为所述目标特征图的像素点进行上色，得到具有多标签的目标特征图。

第二方面，本发明实施例提供了一种基于U2net的多通道输出系统，其包括：

U2net网络处理单元，用于将初始图片输入至U2net网络中的多个连续的编码层内进行特征编码和多个连续的解码层内进行特征解码，得到每个编码层对应的编码特征图和每个解码层对应的解码特征图；

通道特征图获取单元，用于将最后一层编码层的编码特征图以及每一层解码层的解码特征图分别输入至对应的第一上采样模块进行卷积操作，得到对应的通道特征图；

单通道目标特征图获取单元，用于将每个所述通道特征图进行特征相加，并输入至第二上采样模块进行卷积操作得到对应单通道的目标特征图；

多标签目标特征图获取单元，用于基于pillow库调用相应颜色为所述目标特征图的像素点进行上色，得到具有多标签的目标特征图。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于U2net的多通道输出方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于U2net的多通道输出方法。

本发明实施例提供了基于U2net的多通道输出方法、系统、计算机设备及存储介质。该方法包括：将初始图片输入至U2net网络中的多个连续的编码层内进行特征编码和多个连续的解码层内进行特征解码，得到每个编码层对应的编码特征图和每个解码层对应的解码特征图；将最后一层编码层的编码特征图以及每一层解码层的解码特征图分别输入至对应的第一上采样模块进行卷积操作，得到对应的通道特征图；将每个所述通道特征图进行特征相加，并输入至第二上采样模块进行卷积操作得到对应单通道的目标特征图；基于pillow库调用相应颜色为所述目标特征图的像素点进行上色，得到具有多标签的目标特征图。本发明实施例在U2net网络的基础上基于pillow库调用相应颜色为目标特征图的不同像素点进行上色，从而构建多通道输出方式，使得在分割任务中可以根据输入图片分割出多种目标，满足了多通道输出的需求。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于U2net的多通道输出方法的流程示意图；

图2为本发明实施例提供的基于U2net的多通道输出系统的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种基于U2net的多通道输出方法的流程示意图，该方法包括步骤S101～S104。

S101、将初始图片输入至U2net网络中的多个连续的编码层内进行特征编码和多个连续的解码层内进行特征解码，得到每个编码层对应的编码特征图和每个解码层对应的解码特征图；

S102、将最后一层编码层的编码特征图以及每一层解码层的解码特征图分别输入至对应的第一上采样模块进行卷积操作，得到对应的通道特征图；

S103、将每个所述通道特征图进行特征相加，并输入至第二上采样模块进行卷积操作得到对应单通道的目标特征图；

S104、基于pillow库调用相应颜色为所述目标特征图的像素点进行上色，得到具有多标签的目标特征图。

在本实施例中，先获取U2net网络中每一层编码层和解码层所对应的编码特征图和解码特征图，然后再获取最后一层编码层与每一层解码层各自对应的通道特征图，并将所有通道特征图进行特征相加操作，再经过上采样卷积得到目标特征图，然后利用pillow库调用相应颜色对所述目标特征图的像素点进行颜色处理，得到具有多标签的目标特征图。

具体的，先将初始图片输入至U2net网络中的多个连续的编码层进行特征编码，得到每个编码层的编码特征图，并将最后一层编码层的编码特征图输入至第一上采样模块进行卷积操作，得到对应的通道特征图；然后将每个编码层的编码特征图作为输入数据，输入至对应的解码层内进行特征解码，得到每个解码层的解码特征图，并依次将每一层解码层的解码特征图输入至第一上采样模块进行卷积操作，得到对应的通道特征图；在将所有的通道特征图进行特征相加之前，还需要对所有的通道特征图进行上采样处理，使所有的通道特征图大小与所述初始图片大小一致，然后再进行特征相加，并输入至第二上采样模块进行卷积操作，得到单通道的目标特征图，最后基于pillow库调用相应颜色为单通道的目标特征图进行上色，得到多标签的目标特征图。

在一实施例中，所述步骤S101包括：

将初始图片输入至多个连续的编码层内进行特征编码，得到每一层编码层对应的编码特征图；

将最后一层编码层的编码特征图与倒数第二层编码层的编码特征图进行特征融合以及上采样处理，并输入至第一层解码层中进行解码操作，得到第一层解码层的解码特征图；

将第一层解码层的解码特征图与倒数第三层编码层的编码特征图进行特征融合以及上采样处理，并输入至第二层解码层中进行解码操作，得到第二层解码层的解码特征图；依次类推得到每一层解码层的解码特征图。

在本实施例中，所述编码层的层数比所述解码层的层数多一层，具体的，本实施例采用的编码层共有6层，解码层共有5层，将最后一层编码层和倒数第二层编码层所对应的编码特征图进行特征融合处理并进行上采样处理后，输入至第一层解码层内进行解码操作，得到第一层解码层的解码特征图，然后再将第一层解码层的解码特征图与倒数第三层编码层的编码特征图进行特征融合以及上采样处理处理，再输入至第二层解码层内进行解码操作，依次类推，直到将第一层编码层的编码特征图与倒数第二层解码层的解码特征图进行特征融合并进行上采样处理，再输入至最后一层解码层内进行解码操作，得出最后一层解码层的解码特征图。

在一实施例中，所述第一上采样模块和第二上采样模块的卷积过程包括：

将待处理特征图输入至卷积层中进行卷积处理，利用sigmod函数对卷积结果进行计算，并将计算结果输入至上采样层中进行上采样操作，得到通道特征图。

在本实施例中，所述第一上采样模块与第二上采样模块整体结构相同，均包括卷积层、sigmod函数层以及上采样层，所述第一上采样模块与第二上采样模块的区别在于各自的卷积层对应的卷积核大小不同，其中所述第一卷积模块中卷积层的卷积核为3×3卷积核，所述第二卷积模块中卷积层的卷积核为1×1卷积核。

在一实施例中，所述步骤S104包括：

建立空白颜色版，根据输入的标签类别的数量生成颜色版的颜色信息，并为每一种颜色设置对应的颜色阈值范围；

获取所述目标特征图内每个像素点的像素值，判断每个像素点对应的像素值是否位于颜色阈值范围内；

若所述像素点对应的像素值位于颜色阈值范围内，则基于pillow库调用相应颜色为该像素点进行上色，得到具有多标签的目标特征图。

在本实施例中，先建立空白颜色版，然后根据输入的标签类别的数量生成空白颜色版中的颜色信息，得到具有颜色的颜色版，并为每一种颜色设置对应的颜色阈值范围，通过判断目标特征图中每个像素点的像素值是否位于颜色阈值范围内，从而对位于各颜色阈值范围内的像素值所对应的像素点涂上对应的颜色，得到具有多标签的目标特征图。本实施例输入的标签类别的数量为4类，分别是上半身、下半身、全身以及背景，通过判断目标特征图中像素点的像素值是否位于对应的颜色阈值范围内，从而进行上色。具体的，建立空白颜色版[0,0,0,0,0,0,0,0,0,0,0,0]，根据本实施例中输入的标签类别4，对应生成的颜色版信息为[0,0,0,128,0,0,0,128,0,128,128,0]，然后基于pillow库调用相应颜色为该像素点进行上色，得到具有多标签的目标特征图。

在一实施例中，所述建立空白颜色版，根据输入的标签类别的数量生成颜色版的颜色信息，并为每一种颜色设置对应的颜色阈值范围，包括：

获取输入的标签类别的数量n；

根据输入的n生成一个包含n*3个元素的数组，利用所述数组表示空白颜色版，其中，在所述空白颜色版中每三个元素分别代表一种颜色的RGB值；

为每一种颜色设置对应的颜色阈值范围。

在本实施例中，首先输入标签类别的数量n，然后根据输入的n生成一个包含n*3个元素的数组，每三个元素分别代表一种颜色的RGB值，然后将颜色版赋值。

请参阅图2，图2为本发明实施例提供的一种基于U2net的多通道输出系统的示意性框图，该基于U2net的多通道输出系统200包括：

U2net网络处理单元201，用于将初始图片输入至U2net网络中的多个连续的编码层内进行特征编码和多个连续的解码层内进行特征解码，得到每个编码层对应的编码特征图和每个解码层对应的解码特征图；

通道特征图获取单元202，用于将最后一层编码层的编码特征图以及每一层解码层的解码特征图分别输入至对应的第一上采样模块进行卷积操作，得到对应的通道特征图；

单通道目标特征图获取单元203，用于将每个所述通道特征图进行特征相加，并输入至第二上采样模块进行卷积操作得到对应单通道的目标特征图；

多标签目标特征图获取单元204，用于基于pillow库调用相应颜色为所述目标特征图的像素点进行上色，得到具有多标签的目标特征图。

在一实施例中，所述U2net网络处理单元，包括：

编码特征图获取单元，用于将初始图片输入至多个连续的编码层内进行特征编码，得到每一层编码层对应的编码特征图；

编码层数据输入单元，用于将最后一层编码层的编码特征图与倒数第二层编码层的编码特征图进行特征融合以及上采样处理，并输入至第一层解码层中进行解码操作，得到第一层解码层的解码特征图；

解码特征图获取单元，用于将第一层解码层的解码特征图与倒数第三层编码层的编码特征图进行特征融合以及上采样处理，并输入至第二层解码层中进行解码操作，得到第二层解码层的解码特征图；依次类推得到每一层解码层的解码特征图。

在一实施例中，上采样模块卷积单元包括：将待处理特征图输入至卷积层中进行卷积处理，利用sigmod函数对卷积结果进行计算，并将计算结果输入至上采样层中进行上采样操作，得到通道特征图。

在一实施例中，所述多标签目标特征图获取单元，包括：

颜色阈值范围确定单元，用于建立空白颜色版，根据输入的标签类别的数量生成颜色版的颜色信息，并为每一种颜色设置对应的颜色阈值范围；

像素值位置判断单元，用于获取所述目标特征图内每个像素点的像素值，判断每个像素点对应的像素值是否位于颜色阈值范围内；

像素点上色单元，用于若所述像素点对应的像素值位于颜色阈值范围内，则基于pillow库调用相应颜色为该像素点进行上色，得到具有多标签的目标特征图。

在一实施例中，所述颜色阈值范围确定单元，包括：

标签类别数量获取单元，用于获取输入的标签类别的数量n；

颜色数组确定单元，用于根据输入的n生成一个包含n*3个元素的数组，利用所述数组表示空白颜色版，其中，在所述空白颜色版中每三个元素分别代表一种颜色的RGB值；

颜色阈值范围设置单元，用于为每一种颜色设置对应的颜色阈值范围。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于U2net的多通道输出方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于U2net的多通道输出方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于U2net的多通道输出方法，其特征在于，包括：

2.根据权利要求1所述的基于U2net的多通道输出方法，其特征在于，所述将初始图片输入至U2net网络中的多个连续的编码层内进行特征编码和多个连续的解码层内进行特征解码，得到每个编码层对应的编码特征图和每个解码层对应的解码特征图，包括：

3.根据权利要求1所述的基于U2net的多通道输出方法，其特征在于，所述第一上采样模块和第二上采样模块的卷积过程包括：

4.根据权利要求1所述的基于U2net的多通道输出方法，其特征在于，所述基于pillow库调用相应颜色为所述目标特征图的像素点进行上色，得到具有多标签的目标特征图，包括：

5.根据权利要求4所述的基于U2net的多通道输出方法，其特征在于，所述建立空白颜色版，根据输入的标签类别的数量生成颜色版的颜色信息，并为每一种颜色设置对应的颜色阈值范围，包括：

获取输入的标签类别的数量n；

为每一种颜色设置对应的颜色阈值范围。

6.一种基于U2net的多通道输出系统，其特征在于，包括：

7.根据权利要求6所述的基于U2net的多通道输出系统，其特征在于，所述U2net网络处理单元，包括：

8.根据权利要求6所述的基于U2net的多通道输出系统，其特征在于，所述多标签目标特征图获取单元，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于U2net的多通道输出方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的基于U2net的多通道输出方法。