CN117671426B

CN117671426B - 基于概念蒸馏和clip的可提示分割模型预训练方法及系统

Info

Publication number: CN117671426B
Application number: CN202311675435.1A
Authority: CN
Inventors: 唐路路; 潘汀; 王鑫龙; 黄铁军
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-05-28
Anticipated expiration: 2043-12-07
Also published as: CN117671426A

Abstract

一种基于概念蒸馏和CLIP的可提示分割模型预训练方法，可提示分割模型包括一体化的图像解码器、CLIP视觉编码器和CLIP文本编码器；方法包括：获取用于可提示分割模型预训练的图片‑掩码输入，并获得用于概念蒸馏的模板文本描述；将图片输入经过可提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入；将图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入；将模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入；基于分割损失Seg_loss与概念蒸馏损失KL_loss的联合优化损失L_loss进行基于概念蒸馏和CLIP的可提示分割模型预训练；其中概念蒸馏损失KL_loss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。

Description

基于概念蒸馏和CLIP的可提示分割模型预训练方法及系统

技术领域

本发明涉及图像和文本相关的人工智能自主生成内容AIGC技术领域，尤其涉及一种基于概念蒸馏和CLIP的可提示分割模型预训练方法及系统。

背景技术

最近的研究致力于构建一个统一的框架，通过大量的区域-文本对或多模态数据集以实现区域级视觉-语言对齐，在开放语义和交互式分割基准上都取得了显著性能。

然而，与大规模分割图像数据集(如SA-1B)相比，目前可用的区域-文本数据在规模上明显有限。对每个实例进行详尽的语义标注存在显著挑战，尤其当一个对象可归于多个类别时；传统的视觉-语言对齐方法依赖于图像-文本对，这限制了其细粒度的区域理解能力。现有数据集如LVIS倾向于为每个对象分配单一的语义标签。因此，在这些人工标注的数据集上进行有监督学习，可能因其有限的规模、固定的类别，以及偶尔模糊的文本注释而限制模型的零样本迁移能力。

对于基于视觉提示的区域级视觉表征，SAM是一个先进的可提示分割模型，但是其输出中缺乏语义标签。

从预训练的视觉-语言大模型(如CLIP)中提炼语义知识到SAM的架构，为实现零样本区域视觉理解提供了一条可行的路径。早期的尝试(例如{MaskCLIP，MaskCLIP+})主要致力于设计特定的对齐模块，以有效地将CLIP的知识整合到现有的人工标注分割数据集中。而更近期的研究旨在将SAM的详尽分割能力与CLIP的开放词汇分类能力相结合。然而，这类整合方法通常需要对齐的视觉-语言训练数据，并且无法在一个统一的架构下进行。举例来说，SAM-CLIP利用原始SAM和CLIP的部分数据重新训练了一个视觉编码器。虽然它保留了CLIP和SAM的原始优势，但却无法实现一个提示(如点、框)同时完成多个任务的预测。另一方面，RegionSpot通过在物体检测数据集上训练了一个适配器(adapter)，以统一提示，使SAM的掩码标记能够与掩码处图像的CLIP特征进行交互。尽管如此，RegionSpot仍然需要通过执行两个模型来实现多任务预测。

因此，需要建立对于统一可提示分割模型的预训练方法和建立，从而能够使得经过预训练的可提示分割模型在保持SAM的原始能力(尤其是分割能力)的同时，扩展模型的能力范围，包括物体识别和文本描述等新的能力。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案，一种基于概念蒸馏和CLIP的可提示分割模型预训练方法及系统，在SAM架构下的可提示分割任务中，模拟CLIP的视觉编码器(image encoder)，其中掩码解码器(mask decoder)可以为每个预测的掩码生成一个语义标记(semantic token)；然后，从语义标记中预测出视觉嵌入，并利用这些视觉嵌入，在SAM和CLIP之间进行概念词汇表的分布对齐。为了在实际应用中实现强大的区域表征，模型预训练采用了大量的分割掩码(例如SA-1B掩码)以及具有50亿参数的CLIP大模型的语义先验知识，通过概念蒸馏的方法，以有效地利用CLIP进行所提出统一模型的预训练。

本发明一方面提供了一种基于概念蒸馏和CLIP的可提示分割模型预训练方法，所述可提示分割模型基于可提示分割初始模型ProTo预训练获得，所述可提示分割模型包括一体化的图像解码器、CLIP视觉编码器和CLIP文本编码器；

所述方法包括：

S1，获取用于可提示分割模型预训练的图片-掩码输入，并获得用于概念蒸馏的模板文本描述；

S2，将所述图片输入经过可提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入；

S3，将所述图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入；

S4，将所述模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入；

S5，基于分割损失Seg_loss与概念蒸馏损失KL_loss的联合优化损失L_loss进行基于概念蒸馏和CLIP的可提示分割模型预训练；其中所述概念蒸馏损失KL_loss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。

优选的，所述输入为经过掩码剪裁出的图片，记为I_R，所述模板文本描述为T_R；

所述I_R的获取方法包括：

从SA-1B数据集中裁剪出掩码对应的图像；

将其居中粘贴到224×224的空白图像中，最终获得11亿张剪裁图片；

所述T_R的获取方法包括：

基于多个图像数据集的词汇概念整合生成包含用于全景理解的背景与物体类别的标签列表；

基于所述标签列表以及提示模板“a photo of a{class_name}”构建了一个文本描述列表。

优选的，所述第一视觉嵌入操作记为ProTo Image Decoder(I_R)，获得的第一视觉嵌入记为V_P；

所述V_p的获取方法包括：

基于所述图像解码器输出的语义标记Semantic Token经过三层多层感知器投影成1024维的第一视觉嵌入V_P。

优选的，所述第二视觉嵌入操作记为CLIP Visual Encoder(I_R)，获得的第二视觉嵌入记为V_C；所述V_C的获取方法包括：

直接采用CLIP的视觉编码器在I_R上获得1024维度的CLIP图像嵌入作为所述第二视觉嵌入；其中，所述CLIP图像嵌入采用16位浮点数存储在一个键值数据库中，并与图像-掩码数据库同步。

优选的，所述第三文本嵌入操作记为CLIP Text Encoder(T_R)，获得的第三文本嵌入记为T_C；所述T_c的获取方法包括：

基于CLIP文本编码器对提示模板“a{class_name}”生成初始化的目标投影权重；

对提示模板“a photo of a{class_name}”生成最终的目标文本嵌入。

优选的，基于分割损失Seg_loss与概念蒸馏损失KL_loss的联合优化损失表示为：L_loss＝Seg_loss+KL_loss (1)。

优选的，所述概念蒸馏损失KL_loss为可提示分割初始模型ProTo的预测分布ProTo_dist与CLIP目标分布CLIP_dist之间的KL散度损失，表示为公式(2)-(4)：

KL_loss＝D_KL(ProTo_dist||CLIP_dist) (2)；

其中：

其中，τ表示常用的可调制的温度超参数。

本发明的第二方面提供了一种基于概念蒸馏和CLIP的可提示分割模型预训练系统，包括：

输入获取模块，用于获取用于可提示分割模型预训练的图片-掩码输入，并获得用于概念蒸馏的所述模板文本描述；

第一视觉嵌入模块，用于将所述图片输入经过可提示分割初始模型ProIo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入；

第二视觉嵌入模块，用于将所述图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入；

第三文本嵌入模块，用于将所述模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入；

预训练模块，用于基于分割损失Seg_loss与概念蒸馏损失KL_loss的联合优化损失L_loss进行基于概念蒸馏和CLIP的可提示分割模型预训练；其中所述概念蒸馏损失KL_loss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。

本发明的第三方面提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如第一方面所述的方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如第一方面所述的方法。

本发明提供的预训练方法、系统和电子设备，具有如下有益效果：

(1)利用CLIP的知识库，可以避免特定的注释偏见；

(2)使用概念蒸馏而不是特征对齐，避免了在不同架构特征之间进行严格的相似度测量；

(3)反向利用CLIP进行视觉-语言对齐，而不影响SAM的原始几何提示空间。

(4)通过在掩码解码器中整合CLIP，模型获得了基于分割结果的新功能，例如物体识别与文本描述。

附图说明

图1为本发明优选实施例的基于概念蒸馏和CLIP的可提示分割模型预训练方法流程图。

图2为本发明优选实施例的基于概念蒸馏和CLIP的可提示分割模型预训练系统结构示意图；

图3为本发明提供的电子设备一种实施例的结构示意图。

具体实施方式

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

参见图1，本实施例提供了一种基于概念蒸馏和CLIP的可提示分割模型预训练方法，所述可提示分割模型基于可提示分割初始模型ProTo预训练获得，所述可提示分割模型包括一体化的图像解码器、CLIP视觉编码器和CLIP文本编码器；

所述方法包括：

S1，获取用于可提示分割模型预训练的输入，并获得概念蒸馏所需的模板文本描述；

本实施例中，所述输入为经过掩码剪裁出的图片(Mask cropped image)，记为I_R，所述模板文本描述为T_R；

作为优选的实施方式，所述I_R的获取方法包括：

从SA-1B数据集中裁剪出掩码对应的图像；

将其居中粘贴到224×224的空白图像中，最终获得11亿张剪裁图片。

作为优选的实施方式，所述T_R的获取方法包括：

基于多个图像数据集的词汇概念整合生成包含用于全景理解的背景与物体类别的标签列表；本实施例中，所述标签列表包含2560个类别，涵盖了常见的用于全景理解的背景与物体类别；

基于所述标签列表以及提示模板“a photo of a {class_name}”构建了一个文本描述列表。

S2，将所述输入经过可提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入；

本实施例中，所述第一视觉嵌入操作记为ProTo Image Decoder(I_R)，获得的第一视觉嵌入记为V_P；

作为优选的实施方式，所述V_p的获取方法包括：

基于所述图像解码器输出的语义标记Semantic Token经过三层MLP(多层感知器)投影成1024维的第一视觉嵌入V_P。

S3，将所述输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入；

本实施例中，所述第二视觉嵌入操作记为CLIP Visual Encoder(I_R)，获得的第二视觉嵌入记为V_C；

作为优选的实施方式，所述V_C的获取方法包括：

直接采用CLIP的视觉编码器在I_R上获得1024维度的CLIP图像嵌入作为所述第二视觉嵌入；其中，所述CLIP图像嵌入采用16位浮点数存储在一个键值数据库中(例如，TFRecord)，占用大约2250千兆字节，并与图像-掩码数据库同步，图像-掩码数据库约为10550千兆字节。

S4，将所述文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入；

本实施例中，所述第三文本嵌入操作记为CLIP Text Encoder(T_R)，获得的第三文本嵌入记为T_C；

作为优选的实施方式，所述T_C的获取方法包括：

采用CLIP文本编码器，对提示模板“a{class_name}”生成初始化的目标投影权重；

具体的算法伪代码如下所示：

作为优选的实施方式，基于分割损失Seg_loss与概念蒸馏损失KL_loss的联合优化损失表示为：L_10ss＝Seg_loss+KL_loss (1)。

作为优选的实施方式，所述概念蒸馏损失KL_loss为可提示分割初始模型ProTo的预测分布ProTo_dist与CLIP目标分布CLIP_dist之间的KL散度损失，表示为公式(2)-(4)：

KL_loss＝D_KL(ProTo_dist||CLIP_dist) (2)；

其中：

其中，τ表示常用的可调制的温度超参数。

本实施例中，在SA-1B数据集的50％数据上进行预训练，该子数据集包含了550万张高分辨率图像，每张图像大约有100个分割掩码，总计500M个掩码。由于SA-1B缺乏语义注释，利用EVA-CLIP从COCO、ADE20K、LVIS、Objects365、Visual Genome和OpenImagesV4合并的数据集标签空间中获取文本嵌入，构建了一个包含2560个类别的标签列表，涵盖了常见的用于全景理解的背景与物体类别。

在COCO和LVIS上评估零样本实例分割性能。对于零样本实例分类，选择LVIS数据集，因为它涵盖了比COCO更广泛的1203个泛化类别，而COCO只涵盖了80个常见类别，这与开放世界的假设不符。在区域级文本生成任务中，冻结住图像编码器-解码器，在VisualGenome(VG)v1.0训练集上对文本解码器进行微调，并在VG和RefCOCOg的测试集上汇报BLEU@4，METEOR，ROUGE和CIDEr指标。

经过预训练的模型保留了SAM的核心组件，包括图像编码器、提示编码器和用于视觉建模的掩码解码器，同时引入了两个修改。首先，采用convolutional cross-windowblocks(卷积交叉窗口模块)替换了原本繁琐的图像编码器中的全局注意力模块。其次，通过为每个预测的掩码添加了一个语义标记[S]，将掩码解码器修改为通用的图像解码器。对于区域级文本生成器，它主要包括一个线性投影器和一个典型的文本解码器。

给定一个提示(简单点击图片)，如点、框、草图，模型可以自动生成目标物体的分割掩码、语义类别，以及文本描述。

实施例二

如图2所示，本实施例提供了一种基于概念蒸馏和CLIP的可提示分割模型预训练系统，包括：

输入获取模块101，用于获取用于可提示分割模型预训练的输入，并获得概念蒸馏所需的模板文本描述；

第一视觉嵌入模块102，用于将所述图片输入经过可提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入；

第二视觉嵌入模块103，用于将所述图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入；

第三文本嵌入模块104，用于将所述模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入；

预训练模块105，用于基于分割损失Seg_loss与概念蒸馏损失KL_loss的联合优化损失L_loss进行基于概念蒸馏和CLIP的可提示分割模型预训练；其中所述概念蒸馏损失KL_loss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。

本发明还提供了一种存储器，存储有多条指令，指令用于实现如实施例一的方法。

如图3所示，本发明还提供了一种电子设备，包括处理器301和与处理器301连接的存储器302，存储器302存储有多条指令，指令可被处理器加载并执行，以使处理器能够执行如实施例一的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于概念蒸馏和CLIP的提示分割模型预训练方法，其特征在于，所述提示分割模型基于提示分割初始模型ProTo预训练获得，所述提示分割模型包括一体化的图像解码器、CLIP视觉编码器和CLIP文本编码器；

所述方法包括：

S1，获取用于提示分割模型预训练的图片-掩码输入，并获得用于概念蒸馏的模板文本描述；

S2，将所述图片输入经过提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入；

S5，基于分割损失Seg_loss与概念蒸馏损失KL_loss的联合优化损失L_loss进行基于概念蒸馏和CLIP的提示分割模型预训练；其中所述概念蒸馏损失KL_loss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联；

所述输入为经过掩码剪裁出的图片，记为I_R，所述输入对应的模板文本描述为T_R；

所述I_R的获取方法包括：

从SA-1B数据集中裁剪出掩码对应的图像；

所述T_R的获取方法包括：

基于所述标签列表以及提示模板“a photo of a{class_name}”构建了一个文本描述列表；

所述第一视觉嵌入操作记为ProTo Image Decoder(I_R)，获得的第一视觉嵌入记为V_P；

所述第二视觉嵌入操作记为CLIP Visual Encoder(I_R)，获得的第二视觉嵌入记为V_C；

所述第三文本嵌入操作记为CLIP Text Encoder(T_R)，获得的第三文本嵌入记为T_C；

所述概念蒸馏损失KL_loss为提示分割初始模型ProTo的预测分布ProTo_dist与CLIP目标分布CLIP_dist之间的KL散度损失，表示为公式(2)-(4)：

KL_loss＝D_KL(ProTo_dist||CLIP_dist) (2)；

其中：

其中，τ表示常用的可调制的温度超参数。

2.根据权利要求1所述的一种基于概念蒸馏和CLIP的提示分割模型预训练方法，其特征在于，

所述V_P的获取方法包括：

3.根据权利要求2所述的一种基于概念蒸馏和CLIP的提示分割模型预训练方法，其特征在于，所述V_C的获取方法包括：

4.根据权利要求3所述的一种基于概念蒸馏和CLIP的提示分割模型预训练方法，其特征在于，所述T_C的获取方法包括：

5.根据权利要求4所述的一种基于概念蒸馏和CLIP的提示分割模型预训练方法，其特征在于，基于分割损失Seg_loss与概念蒸馏损失KL_loss的联合优化损失表示为：L_loss＝Seg_loss+KL_loss (1)。

6.一种基于概念蒸馏和CLIP的提示分割模型预训练系统，用于实施权利要求1-5任一所述的方法，其特征在于，包括：

输入获取模块(101)，用于获取提示分割模型预训练的图片-掩码输入，并获得概念蒸馏所需的模板文本描述；

第一视觉嵌入模块(102)，用于将所述图片输入经过提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入；

第二视觉嵌入模块(103)，用于将所述图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入；

第三文本嵌入模块(104)，用于将所述模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入；

预训练模块(105)，用于基于分割损失Seg_loss与概念蒸馏损失KL_loss的联合优化损失L_loss进行基于概念蒸馏和CLIP的提示分割模型预训练；其中所述概念蒸馏损失KL_loss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。

7.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如权利要求1-5任一所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如权利要求1-5任一所述的方法。