CN118135219A

CN118135219A - 一种图像抠图的方法、设备和存储介质

Info

Publication number: CN118135219A
Application number: CN202410250500.4A
Authority: CN
Inventors: 万林; 马妙聪; 马成龙; 陈思远
Original assignee: Suzhou Dachuang Technology Co ltd
Current assignee: Suzhou Dachuang Technology Co ltd
Priority date: 2024-03-05
Filing date: 2024-03-05
Publication date: 2024-06-04

Abstract

本发明实施例公开了一种图像抠图的方法、设备和存储介质，该方法包括生成标识检测模型和标识抠图模型，对于用户的带有标识的图像，根据标识检测模型，将其中检测到的标识区域裁剪下来，获得第二图像；根据标识抠图模型，对第二图像进行抠图，获得标识的掩码图；新建一张与用户的带有标识的图像同样大小的像素值都为0的掩码图，将标识的掩码图替换用户带有标识的掩码图中标识区域位置的内容；将新的掩码图作为透明通道a，合在用户的带有标识的图像的rgb图上，形成带有透明通道的rgba图，获得最终的抠图结果。采用了本发明的技术方案，能够提高标识抠取的精度，加大标识图像的分辨率，而且减少显卡消耗，提升推理速度。

Description

一种图像抠图的方法、设备和存储介质

技术领域

本发明涉及图像抠图技术领域，尤其涉及一种图像抠图的方法、设备和存储介质。

背景技术

目前通用的标识抠图模型抠物的种类很多，但是对于一些特定类型的目标，如标识(logo)，抠取精度不够，没法满足用户需求，特别是当logo较小时，logo抠取结果的精度损失严重。

同时常用的标识抠图模型，如u2net,模型输入的图像尺寸过小(像素为320*320)。当用户图像较大时，如果将用户图像缩小尺度太大，会损失很多原图的细节信息，导致抠图结果很多细节抠不好；但是如果改大模型的输入尺寸，训练模型对显卡的要求急剧增加。

发明内容

为了解决上述技术问题，本发明提出了一种图像抠图的方法、设备和存储介质。

本发明实施例提供的一种图像抠图的方法，包括以下步骤：

从网络中爬取带有标识的图像，对所述带有标识的图像中的标识区域进行标注，标注信息包括标识区域的位置信息和标识的类别标签，采用目标检测方法生成标识检测模型；

将所述带有标识的图像中的标识区域裁剪下来，再对所述标识进行标注，生成标识抠图模型，所述标识抠图模型采用1个卷积层、5个编码器和4个解码器，其中卷积层用于使用更大分辨率的标识区域，所述5个编码器和4个解码器进行所述标识抠图模型的训练和推理；

对于用户的带有标识的图像，根据所述标识检测模型，将其中检测到的标识区域裁剪下来，获得第二图像；

根据所述标识抠图模型，对所述第二图像进行抠图，获得所述标识的掩码图；

新建一张与所述用户的带有标识的图像同样大小的像素值都为0的掩码图，将所述标识的掩码图替换用户带有标识的掩码图中标识区域位置的内容，生成新的掩码图；

将所述新的掩码图作为透明通道a，合在所述用户的带有标识的图像的rgb图上，形成带有透明通道的rgba图，获得最终的抠图结果。

所述位置信息进一步包括标识区域的矩形左上坐标点位置和右下坐标点位置。

进一步地，所述标识检测模型采用yolov7。

进一步地，还包括以下步骤：

将所述用户的带有标识的图像缩放为640*640分辨率的图像，作为yolov7标识检测模型的输入。

进一步地，还包括以下步骤：

将裁剪下来的标识区域长边大小改为512，短边按照比例对应缩放，再将短边补齐到512，所述标识位置居中，形成第二图像，使得所述标识抠图模型输入使用的是512*512分辨率的图像。

进一步地，所述标识抠图模型采用的5个编码器和4个解码器均为残差U型模块，所述残差U型模块使用U型结构连接。

进一步地，所述从网络中爬取带有标识的图像，按照4:1:1分成训练集、验证集和测试集，其中训练集用于训练标识检测模型，验证集用于在训练过程中测试标识检测模型质量来保留最优的模型参数以及观察标识检测模型处于何种状态，用于终止训练，测试集用来测试标识检测模型的泛化性。

进一步地，所述带有标识的图像中的标识区域，按照4:1:1分成训练集、验证集和测试集，其中训练集用于训练标识抠图模型，验证集用于在训练过程中测试标识抠图模型质量来保留最优的模型参数以及观察标识抠图模型处于何种状态，用于终止训练，测试集用来测试标识抠图模型的泛化性。

本发明实施例提供的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述图像抠图的方法。

本发明实施例提供的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述图像抠图的方法。

上述技术方案中，由于采用了标识检测模型将标识区域从图像中裁剪出来再进行抠图，能够提高标识抠取的精度，相比u2net，标识抠图模型的卷积层使得模型能够输入更大分辨率的标识区域，并且标识抠图模型采用5个编码器和4个解码器的结构进行训练和推理，能够减少显卡消耗，提升推理速度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例中图像抠图的流程示意图。

图2是本发明实施例中电子设备的结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本发明实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本发明实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

图1是本发明实施例中图像抠图的流程示意图。如图1所示，该图像抠图的流程包括以下步骤：

步骤101、从网络中爬取带有标识logo的图像，例如从百度图片、花瓣网等图片网站上爬取带有标识logo的图像，这些标识logo可以是校徽、印章、商标等。

对这些带有标识logo的图像中的标识区域进行标注，标注信息包括标识区域的位置信息和标识的类别标签，其中位置信息是指标识区域所在矩形的左上坐标点位置和右下坐标点位置，类别标签是标注这个图像中的目标是logo、人、车等，本实施例中因为只检测logo，所以输出的目标类别就只有logo。

本步骤是采用目标检测方法生成标识检测模型，标识检测模型采用轻量模型yolov7。

本步骤中，从网络中爬取带有标识的图像，按照4:1:1分成训练集、验证集和测试集，其中训练集用于训练标识检测模型，验证集用于在训练过程中测试标识检测模型质量来保留最优的模型参数以及观察标识检测模型处于何种状态，用于终止训练，测试集用来测试标识检测模型的泛化性。

步骤102、将带有标识的图像中的标识区域裁剪下来，再对所述标识进行标注，生成标识抠图模型。

本实施例中，标识抠图模型采用1个卷积层、5个编码器和4个解码器，其中卷积层用于使用更大分辨率的标识区域，5个编码器和4个解码器进行标识抠图模型的训练和推理；

这里的编码器和解码器都是神经网络模块，由多个编码模块和解码模块组成，编码器用于提取图像的特征向量，解码器将特征向量转换成输出图像。

所有编码和解码器均使用残差U型模块(ReSidual U-blocks，RSU)，所有的RSU使用U型结构连接。经典u2net模型使用6个编码器和5个解码器，本实施例去掉了经典u2net模型最上层的编码器和解码器，且编码器和解码器里所有卷积数量减少为原卷积数量的一半。并在最上层的编码器之前加入3*3的卷积。

带有标识的图像中的标识区域，按照4:1:1分成训练集、验证集和测试集，其中训练集用于训练标识抠图模型，验证集用于在训练过程中测试标识抠图模型质量来保留最优的模型参数以及观察标识抠图模型处于何种状态，用于终止训练，测试集用来测试标识抠图模型的泛化性。

标识检测模型和标识抠图模型生成后，就可以对用户的图像进行抠图了。

步骤103、对于用户的带有标识的图像，根据标识检测模型，将其中检测到的标识区域裁剪下来，获得第二图像。本步骤中，首先需要将用户的带有标识的图像缩放为640*640分辨率的图像，作为yolov7标识检测模型的输入。

如果直接将带有标识logo的图像缩放到320*320，那么图像中的标识logo细节信息损失严重，无法抠出精确的标识logo，因此将检测到的标识区域裁减下来，再对裁减下来的标识区域进行logo抠图。

步骤104、根据标识抠图模型，对第二图像进行抠图，获得标识logo的掩码(掩码)图。

首先将裁剪下来的标识区域长边大小改为512，短边按照比例对应缩放，再将短边补齐到512，标识位置居中，形成第二图像，使得标识抠图模型的输入使用的是512*512分辨率的图像，相比经典u2net模型，在提高分辨率的同时不会导致显卡资源需求上升。

步骤105、新建一张与用户的带有标识的图像同样大小的像素值都为0的掩码图，将标识的掩码图替换用户带有标识的掩码图中标识区域位置的内容，生成新的掩码图。

步骤106、将新的掩码图作为透明通道a，合在用户的带有标识的图像的rgb图上，形成带有透明通道的rgba图，获得最终的抠图结果。

本发明的另一个实施例提供了一种电子设备，图2是本发明实施例中电子设备的结构示意图。如图2所示，该电子设备30包括存储器301、处理器302及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述图像抠图的流程。

该电子设备还包括输入装置303和输出装置304，分别用于信息的输入和输出。

本发明的另一个实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述图像抠图的流程。

上述实施例中，由于采用了标识检测模型将标识区域从图像中裁剪出来再进行抠图，能够提高标识抠取的精度，标识抠图模型采用1个卷积层、5个编码器和4个解码器，通过在标识抠图模型中加入卷积层，能够使用更大分辨率的标识区域，并且标识抠图模型采用5个编码器和4个解码器进行标识抠图模型的训练和推理，减少了网络的层数，不仅可以加大标识图像的分辨率，而且减少显卡消耗，提升推理速度。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种图像抠图的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的图像抠图的方法，其特征在于，所述位置信息进一步包括标识区域的矩形左上坐标点位置和右下坐标点位置。

3.根据权利要求1所述的图像抠图的方法，其特征在于，所述标识检测模型采用yolov7。

4.根据权利要求3所述的图像抠图的方法，其特征在于，还包括以下步骤：

5.根据权利要求4所述的图像抠图的方法，其特征在于，还包括以下步骤：

6.根据权利要求1所述的图像抠图的方法，其特征在于，所述标识抠图模型采用的5个编码器和4个解码器均为残差U型模块，所述残差U型模块使用U型结构连接。

7.根据权利要求1所述的图像抠图的方法，其特征在于，所述从网络中爬取带有标识的图像，按照4:1:1分成训练集、验证集和测试集，其中训练集用于训练标识检测模型，验证集用于在训练过程中测试标识检测模型质量来保留最优的模型参数以及观察标识检测模型处于何种状态，用于终止训练，测试集用来测试标识检测模型的泛化性。

8.根据权利要求1所述的图像抠图的方法，其特征在于，所述带有标识的图像中的标识区域，按照4:1:1分成训练集、验证集和测试集，其中训练集用于训练标识抠图模型，验证集用于在训练过程中测试标识抠图模型质量来保留最优的模型参数以及观察标识抠图模型处于何种状态，用于终止训练，测试集用来测试标识抠图模型的泛化性。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1至8中任一项所述图像抠图的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1至8中任一项所述图像抠图的方法。