CN116452600A

CN116452600A - 实例分割方法、系统、模型训练方法、介质及电子设备

Info

Publication number: CN116452600A
Application number: CN202310706990.XA
Authority: CN
Inventors: 孔欧
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mido Technology Co ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-07-18
Anticipated expiration: 2043-06-15
Also published as: CN116452600B

Abstract

本发明提供一种实例分割方法、系统、模型训练方法、介质及电子设备，所述实例分割方法包括将待分割训练图像和提示信息输入实例分割模型；所述实例分割模型包括图像编码器网络、提示信息编码器网络以及解码器网络；通过所述图像编码器网络与所述提示信息编码器网络获取图像与初始掩膜融合特征；通过所述提示信息编码器网络获取提示信息特征；基于所述图像与初始掩膜融合特征和所述提示信息特征获取最终掩膜；根据所述待分割训练图像和所述最终掩膜对所述实例分割模型进行训练以获取训练好的实例分割模型。本发明能够额外接收矩形框、点、文本的信息，还可以接收前一步的掩膜特征结果，从而提升了分割的精确率。

Description

实例分割方法、系统、模型训练方法、介质及电子设备

技术领域

本发明涉及一种实例分割方法，特别是涉及一种实例分割方法、系统、模型训练方法、介质及电子设备。

背景技术

对于神经网络的实例分割方法，通常仅输入一张图片，从而获取到掩膜图片。掩膜中不同的像素值代表不同的物体类别，基于此进行实例分割。但是，这样只输入一张图片来让模型自动分割的方法，使得模型难以学习，泛化效果差。并且由于现有的实例分割模型只接受图片输入，不能接受其他额外的输入，也导致用户无法自定义想要分割的区域，也没有其他信息来强化模型的分割效果。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种实例分割方法、系统、模型训练方法、介质及设备，用于解决现有技术中仅仅基于图片输入实现实例分割，缺少精确度的问题。

为实现上述目的及其他相关目的，本发明的第一方面提供一种实例分割模型的训练方法，包括将待分割训练图像和提示信息输入实例分割模型；所述实例分割模型包括图像编码器网络、提示信息编码器网络以及解码器网络；通过所述图像编码器网络与所述提示信息编码器网络获取图像与初始掩膜融合特征；通过所述提示信息编码器网络获取提示信息特征；基于所述图像与初始掩膜融合特征和所述提示信息特征获取最终掩膜；根据所述待分割训练图像和所述最终掩膜对所述实例分割模型进行训练以获取训练好的实例分割模型。

于所述第一方面的一实施例中，所述提示信息包括矩形框信息、点信息和文本信息。

于所述第一方面的一实施例中，所述通过所述提示信息编码器网络获取提示信息特征包括：所述提示信息编码器网络包括掩膜编码器、点信息编码器、矩形框信息编码器以及文本信息编码器；基于所述掩膜编码器、所述点信息编码器、所述矩形框信息编码器和所述文本信息编码器获取所述初始掩膜特征、点信息特征、矩形框信息特征和文本信息特征。

于所述第一方面的一实施例中，通过所述图像编码器网络与所述提示信息编码器网络获取图像与初始掩膜融合特征包括：所述图像编码器网络包括视觉变换网络模型；基于所述视觉变换网络模型对所述待分割训练图像编码以获取图像特征；将所述图像特征和所述初始掩膜特征相加以获取图像与初始掩膜融合特征。

于所述第一方面的一实施例中，所述基于所述图像与初始掩膜融合特征和所述提示信息特征获取最终掩膜包括：基于变换网络模型解码器模块将所述图像与初始掩膜融合特征、所述矩形框信息特征、所述点信息特征和所述文本信息特征输入交叉注意力机制以获取分割融合特征；基于所述分割融合特征获取最终掩膜。

于所述第一方面的一实施例中，基于变换网络模型解码器模块将所述图像与初始掩膜融合特征、所述矩形框信息特征、所述点信息特征和所述文本信息特征输入交叉注意力机制以获取分割融合特征包括：依次将所述图像与初始掩膜融合特征、所述矩形框信息特征、所述点信息特征和所述文本信息特征作为查询向量输入对应的交叉注意力机制以得到对应的融合特征；依次将所述对应的融合特征输入多层感知器模型，并将所述多层感知器模型的输出结果作为键向量和值向量输入后一交叉注意力机制。

本发明的第二方面提供一种实例分割方法，包括获取待分割图像和提示信息；基于实例分割模型和所述提示信息对所述待分割图像进行分割；所述实例分割模型为如第一方面所述的训练方法训练好的实例分割模型。

本发明的第三方面提供一种实例分割系统，包括获取模块，用于获取待分割图像和提示信息；分割模块，用于基于实例分割模型和所述提示信息对所述待分割图像进行分割；所述实例分割模型为如第一方面所述的训练方法训练好的实例分割模型。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面所述的实例分割模型的训练方法和/或本发明第二方面所述的实例分割方法。

本发明的第五方面提供一种电子设备，所述电子设备包括：存储器，存储有一计算机程序；处理器，与所述存储器通信相连，调用所述计算机程序时执行本发明第一方面所述的实例分割模型的训练方法和/或本发明第二方面所述的实例分割方法。

如上所述，本发明实施例提供的实例分割方法、系统、模型训练方法、介质及设备，具有以下有益效果：通过训练实例分割模型，提供额外的矩形框、点、文本等信息，并且还能够接收前一步的掩膜结果，从而提升了分割的精确率。同时，用户也可以利用提示信息来自主选择分割位置进而进行分割。

附图说明

图1显示为本发明实施例中实例分割模型的训练方法的流程示意图。

图2显示为本发明实施例中实例分割模型的的流程示意图。

图3显示为本发明实施例中实例分割模型的训练方法的流程示意图。

图4显示为本发明实施例中实例分割方法的流程示意图。

图5显示为本发明实施例中实例分割系统的结构示意图。

图6显示为本发明实施例中电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。此外，在本文中，诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

本发明提供一种实例分割方法、系统、模型训练方法、介质及设备，能够利用额外的矩形框、点、文本等提示信息，并且还能够接收前一步的掩膜结果，提升了分割的精确率。同时也能够利用提示信息来自主选择分割区域。

接下来将通过具体实施例结合附图的方式对本发明提供的实例分割方法、系统、模型训练方法、介质及设备进行描述。

如图 1 所示，于一实施例中，本发明的实例分割模型的训练方法包括步骤S1~S5。

S1：将待分割训练图像和提示信息输入实例分割模型。

其中，提示信息包括矩形框信息、点信息和文本信息。

其中，如图2所示，实例分割模型基于编码器网络和解码器网络构建。

具体的，编码器网络包括图像编码器网络和提示信息编码器网络。

具体的，如图2所示，提示信息编码器网络包括掩膜编码器（Mask Encoder）、点信息编码器（Point Encoder）、矩形框信息编码器（Box Encoder）、文本信息编码器（TextEncoder）。

具体的，图像编码器采用视觉变换网络模型（VIT模型）的架构。

具体的，掩膜编码器采用卷积神经网络模型，其架构为2个2D卷积层+压平参数(faltten)+1个全连接层。

具体的，点信息编码器和矩形框信息编码器采用线性自编码器的架构。其中，点信息编码器的架构为5个全连接层的架构，矩形框信息编码器的架构采用8个全连接层的架构。

具体的，文本信息编码器采用对比语言-图像预训练模型（CLIP）中的文本编码器架构，即Text Transformer模型。

其中，如图2所示，解码器网络部分包括掩膜解码器（Mask Decoder）。

具体的，掩膜解码器采用变换网络模型（Transformer）中的解码器模块。其架构为4个交叉注意力层（Cross-Attention）+3个多层感知器模型（MLP）+1个全连接层。其中，如图2所示，交叉注意力层和多层感知器模型交叉分布。

S2：通过所述图像编码器网络与所述提示信息编码器网络获取图像与初始掩膜融合特征。

具体的，如图3所示，步骤S2包括步骤S21~S23。

S21：基于视觉变换网络模型对所述待分割训练图像编码以获取图像特征。

具体的，输入待分割训练图像的分辨率为1024 * 1024，输出的图像特征为768个值。

S22：基于卷积神经网络模型对所述待分割训练图像的掩膜编码以获取初始掩膜特征。

具体的，输入掩膜的分辨率为1024 * 1024，输出的初始掩膜特征为768个值。

S23：将所述图像特征和所述初始掩膜特征相加以获取图像与初始掩膜融合特征。

具体的，将图像特征和初始掩膜特征直接相加获取图像与初始掩膜融合特征。

S3：通过所述提示信息编码器网络获取提示信息特征。

具体的，输入N个（x，y），形状为（N，（x，y））的点信息至点信息编码器，经过五层全连接层后，输出点信息特征为768个值。

具体的，输入N个（x1，y1，x2，y2），形状为（N，（x1，y1，x2，y2））的矩形框信息至矩形框信息编码器，经过八层全连接层后，输出矩形框信息特征为768个值。

具体的，输入文本信息至文本信息编码器后，输出文本信息特征768个值。

S4：基于所述图像与初始掩膜融合特征和所述提示信息特征获取最终掩膜。

具体的，将图像-初始掩膜融合特征、矩形框信息特征、点信息特征和文本信息特征输入掩膜解码器中。如图2所示，掩膜解码器使用交叉注意力层（Cross-Attention）和多层感知器模型（MLP）。

具体的，图像与初始掩膜融合特征、点信息特征、矩形框信息特征和文本信息特征轮流作为查询向量（Query）输入Cross-Attention得到融合特征。该融合特征再经过一层全连接层，输出最终掩膜，形状为（1000 ，1024 * 1024），再将其重塑为（1000 ，1024 ，1024）的形状，其中10000代表类别数量。

需要说明的是，在一优选实施例中，提示信息还包括由步骤S4得到的最终掩膜。

具体的，步骤S4得到的最终掩膜还可以作为后一次实例分割中的掩膜提示信息，输入至掩膜编码器中，以此进行新一轮的步骤S1~S5。

S5：根据所述待分割训练图像和所述最终掩膜对所述实例分割模型进行训练以获取训练好的实例分割模型。

需要说明的是，当实例分割模型没有接收到掩膜提示信息、矩形框提示信息、点提示信息时，对应的默认值设为0。当实例分割模型没有接收到文本提示信息时，对应的默认设置为空。

如图4所示，本发明还提供了一种实例分割方法，包括步骤S6~S7。

S6：获取待分割图像和提示信息。

S7：基于实例分割模型和所述提示信息对所述待分割图像进行分割。

具体的，实例分割模型为步骤S1~S5训练好的实例分割模型。

如图5所示，本发明还提供了一种实例分割系统，包括获取模块20和分割模块30。

其中，获取模块20用于获取待分割图像和提示信息。

其中，分割模块，用于基于实例分割模型和所述提示信息对所述待分割图像进行分割；所述实例分割模型为步骤S1~S5训练好的实例分割模型。

具体的，获取模块20将待分割图像和提示信息输入实例分割模型中。该模型中通过解码器和编码器网络架构基于待分割图像和提示信息取得最终掩膜，并基于最终掩膜对待分割图像进行分割，以此提升了分割的精确度。同时，也能根据输入的提示信息来自主选择图像分割区域。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序。该计算机程序被处理器执行时实现本发明实施例中提供的实例分割模型的训练方法，和/或实现本发明实施例中提供的实例分割方法。

本发明中，可以采用一个或多个存储介质的任意组合。存储介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、RAM、ROM、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

本发明还提供一种电子设备。图6显示为本发明一实施例中电子设备50的结构示意图。如图6所示，本实施例中电子设备50包括存储器501和处理器502。

存储器501用于存储计算机程序；优选地，存储器501包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

具体地，存储器501可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）和/或高速缓存存储器。电子设备50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器501可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

处理器502与存储器501相连，用于执行存储器501存储的计算机程序，以使电子设备50执行本发明实施例中提供的实例分割模型的训练方法，和/或执行本发明实施例中提供的实例分割方法。

优选地，处理器502可以是通用处理器，包括中央处理器（Central ProcessingUnit，简称CPU）、网络处理器（Network Processor，简称NP）等；还可以是数字信号处理器（Digital Signal Processor，简称DSP）、专用集成电路（Application SpecificIntegrated Circuit，简称ASIC）、现场可编程门阵列（Field Programmable Gate Array，简称FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

优选地，本实施例中电子设备50还可以包括显示器503。显示器503与存储器501和处理器502通信相连，用于显示实例分割模型的训练方法和/或实例分割方法的相关GUI交互界面。

本发明所述的分割模型的训练方法和/或实例分割方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

综上所述，本发明实施例提供了一种实例分割方法、系统、模型训练方法、介质及设备。该实例分割模型能够接收额外的矩形框、点、文本等信息，并且还能够接收前一步的掩膜结果，从而提升了分割的精确率。同时，用户也可以利用提示信息来自主选择分割位置进而进行分割。因此，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种实例分割模型的训练方法，其特征在于，包括：

将待分割训练图像和提示信息输入实例分割模型；所述实例分割模型包括图像编码器网络、提示信息编码器网络以及解码器网络；

通过所述图像编码器网络与所述提示信息编码器网络获取图像与初始掩膜融合特征；

通过所述提示信息编码器网络获取提示信息特征；

基于所述图像与初始掩膜融合特征和所述提示信息特征获取最终掩膜；

根据所述待分割训练图像和所述最终掩膜对所述实例分割模型进行训练以获取训练好的实例分割模型。

2.根据权利要求1所述的实例分割模型的训练方法，其特征在于，所述提示信息包括矩形框信息、点信息和文本信息。

3.根据权利要求2所述的实例分割模型的训练方法，其特征在于，所述通过所述提示信息编码器网络获取提示信息特征包括：

所述提示信息编码器网络包括掩膜编码器、点信息编码器、矩形框信息编码器以及文本信息编码器；

基于所述掩膜编码器、所述点信息编码器、所述矩形框信息编码器和所述文本信息编码器获取初始掩膜特征、点信息特征、矩形框信息特征和文本信息特征。

4.根据权利要求3所述的实例分割模型的训练方法，其特征在于，所述通过所述图像编码器网络与所述提示信息编码器网络获取图像与初始掩膜融合特征包括：

所述图像编码器网络包括视觉变换网络模型；

基于所述视觉变换网络模型对所述待分割训练图像编码以获取图像特征；

将所述图像特征和所述初始掩膜特征相加以获取图像与初始掩膜融合特征。

5.根据权利要求4所述的实例分割模型的训练方法，其特征在于，所述基于所述图像与初始掩膜融合特征和所述提示信息特征获取最终掩膜包括：

基于变换网络模型解码器模块将所述图像与初始掩膜融合特征、所述矩形框信息特征、所述点信息特征和所述文本信息特征输入交叉注意力机制以获取分割融合特征；

基于所述分割融合特征获取最终掩膜。

6.根据权利要求5所述的实例分割模型的训练方法，其特征在于，基于变换网络模型解码器模块将所述图像与初始掩膜融合特征、所述矩形框信息特征、所述点信息特征和所述文本信息特征输入交叉注意力机制以获取分割融合特征包括：

依次将所述图像与初始掩膜融合特征、所述矩形框信息特征、所述点信息特征和所述文本信息特征作为查询向量输入对应的交叉注意力机制以得到对应的融合特征；

依次将所述对应的融合特征输入多层感知器模型，并将所述多层感知器模型的输出结果作为键向量和值向量输入后一交叉注意力机制。

7.一种实例分割方法，其特征在于，包括：

获取待分割图像和提示信息；

基于实例分割模型和所述提示信息对所述待分割图像进行分割；所述实例分割模型为经权利要求1~6任一项所述的训练方法训练好的实例分割模型。

8.一种实例分割系统，其特征在于，包括：

获取模块，用于获取待分割图像和提示信息；

分割模块，用于基于实例分割模型和所述提示信息对所述待分割图像进行分割；所述实例分割模型为经权利要求1~6任一项所述的训练方法训练好的实例分割模型。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现权利要求 1 至 6 中任一项所述的实例分割模型的训练方法和/或权利要求7 所述的实例分割方法。

10.一种电子设备，其特征在于，所述设备包括：

存储器，存储有一计算机程序；

处理器，与所述存储器通信相连，调用所述计算机程序时执行权利要求1 至 6 中任一项所述的实例分割模型的训练方法和/或权利要求7 所述的实例分割方法。