CN117671426B - 基于概念蒸馏和clip的可提示分割模型预训练方法及系统 - Google Patents
基于概念蒸馏和clip的可提示分割模型预训练方法及系统 Download PDFInfo
- Publication number
- CN117671426B CN117671426B CN202311675435.1A CN202311675435A CN117671426B CN 117671426 B CN117671426 B CN 117671426B CN 202311675435 A CN202311675435 A CN 202311675435A CN 117671426 B CN117671426 B CN 117671426B
- Authority
- CN
- China
- Prior art keywords
- loss
- clip
- embedding
- visual
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 62
- 238000004821 distillation Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 title claims abstract description 41
- 230000000007 visual effect Effects 0.000 claims abstract description 92
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 230000010354 integration Effects 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 239000000306 component Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000004075 alteration Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000019987 cider Nutrition 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
一种基于概念蒸馏和CLIP的可提示分割模型预训练方法,可提示分割模型包括一体化的图像解码器、CLIP视觉编码器和CLIP文本编码器;方法包括:获取用于可提示分割模型预训练的图片‑掩码输入,并获得用于概念蒸馏的模板文本描述;将图片输入经过可提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入;将图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入;将模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入;基于分割损失Segloss与概念蒸馏损失KLloss的联合优化损失Lloss进行基于概念蒸馏和CLIP的可提示分割模型预训练;其中概念蒸馏损失KLloss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。
Description
技术领域
本发明涉及图像和文本相关的人工智能自主生成内容AIGC技术领域,尤其涉及一种基于概念蒸馏和CLIP的可提示分割模型预训练方法及系统。
背景技术
最近的研究致力于构建一个统一的框架,通过大量的区域-文本对或多模态数据集以实现区域级视觉-语言对齐,在开放语义和交互式分割基准上都取得了显著性能。
然而,与大规模分割图像数据集(如SA-1B)相比,目前可用的区域-文本数据在规模上明显有限。对每个实例进行详尽的语义标注存在显著挑战,尤其当一个对象可归于多个类别时;传统的视觉-语言对齐方法依赖于图像-文本对,这限制了其细粒度的区域理解能力。现有数据集如LVIS倾向于为每个对象分配单一的语义标签。因此,在这些人工标注的数据集上进行有监督学习,可能因其有限的规模、固定的类别,以及偶尔模糊的文本注释而限制模型的零样本迁移能力。
对于基于视觉提示的区域级视觉表征,SAM是一个先进的可提示分割模型,但是其输出中缺乏语义标签。
从预训练的视觉-语言大模型(如CLIP)中提炼语义知识到SAM的架构,为实现零样本区域视觉理解提供了一条可行的路径。早期的尝试(例如{MaskCLIP,MaskCLIP+})主要致力于设计特定的对齐模块,以有效地将CLIP的知识整合到现有的人工标注分割数据集中。而更近期的研究旨在将SAM的详尽分割能力与CLIP的开放词汇分类能力相结合。然而,这类整合方法通常需要对齐的视觉-语言训练数据,并且无法在一个统一的架构下进行。举例来说,SAM-CLIP利用原始SAM和CLIP的部分数据重新训练了一个视觉编码器。虽然它保留了CLIP和SAM的原始优势,但却无法实现一个提示(如点、框)同时完成多个任务的预测。另一方面,RegionSpot通过在物体检测数据集上训练了一个适配器(adapter),以统一提示,使SAM的掩码标记能够与掩码处图像的CLIP特征进行交互。尽管如此,RegionSpot仍然需要通过执行两个模型来实现多任务预测。
因此,需要建立对于统一可提示分割模型的预训练方法和建立,从而能够使得经过预训练的可提示分割模型在保持SAM的原始能力(尤其是分割能力)的同时,扩展模型的能力范围,包括物体识别和文本描述等新的能力。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案,一种基于概念蒸馏和CLIP的可提示分割模型预训练方法及系统,在SAM架构下的可提示分割任务中,模拟CLIP的视觉编码器(image encoder),其中掩码解码器(mask decoder)可以为每个预测的掩码生成一个语义标记(semantic token);然后,从语义标记中预测出视觉嵌入,并利用这些视觉嵌入,在SAM和CLIP之间进行概念词汇表的分布对齐。为了在实际应用中实现强大的区域表征,模型预训练采用了大量的分割掩码(例如SA-1B掩码)以及具有50亿参数的CLIP大模型的语义先验知识,通过概念蒸馏的方法,以有效地利用CLIP进行所提出统一模型的预训练。
本发明一方面提供了一种基于概念蒸馏和CLIP的可提示分割模型预训练方法,所述可提示分割模型基于可提示分割初始模型ProTo预训练获得,所述可提示分割模型包括一体化的图像解码器、CLIP视觉编码器和CLIP文本编码器;
所述方法包括:
S1,获取用于可提示分割模型预训练的图片-掩码输入,并获得用于概念蒸馏的模板文本描述;
S2,将所述图片输入经过可提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入;
S3,将所述图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入;
S4,将所述模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入;
S5,基于分割损失Segloss与概念蒸馏损失KLloss的联合优化损失Lloss进行基于概念蒸馏和CLIP的可提示分割模型预训练;其中所述概念蒸馏损失KLloss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。
优选的,所述输入为经过掩码剪裁出的图片,记为IR,所述模板文本描述为TR;
所述IR的获取方法包括:
从SA-1B数据集中裁剪出掩码对应的图像;
将其居中粘贴到224×224的空白图像中,最终获得11亿张剪裁图片;
所述TR的获取方法包括:
基于多个图像数据集的词汇概念整合生成包含用于全景理解的背景与物体类别的标签列表;
基于所述标签列表以及提示模板“a photo of a{class_name}”构建了一个文本描述列表。
优选的,所述第一视觉嵌入操作记为ProTo Image Decoder(IR),获得的第一视觉嵌入记为VP;
所述Vp的获取方法包括:
基于所述图像解码器输出的语义标记Semantic Token经过三层多层感知器投影成1024维的第一视觉嵌入VP。
优选的,所述第二视觉嵌入操作记为CLIP Visual Encoder(IR),获得的第二视觉嵌入记为VC;所述VC的获取方法包括:
直接采用CLIP的视觉编码器在IR上获得1024维度的CLIP图像嵌入作为所述第二视觉嵌入;其中,所述CLIP图像嵌入采用16位浮点数存储在一个键值数据库中,并与图像-掩码数据库同步。
优选的,所述第三文本嵌入操作记为CLIP Text Encoder(TR),获得的第三文本嵌入记为TC;所述Tc的获取方法包括:
基于CLIP文本编码器对提示模板“a{class_name}”生成初始化的目标投影权重;
对提示模板“a photo of a{class_name}”生成最终的目标文本嵌入。
优选的,基于分割损失Segloss与概念蒸馏损失KLloss的联合优化损失表示为:Lloss=Segloss+KLloss (1)。
优选的,所述概念蒸馏损失KLloss为可提示分割初始模型ProTo的预测分布ProTodist与CLIP目标分布CLIPdist之间的KL散度损失,表示为公式(2)-(4):
KLloss=DKL(ProTodist||CLIPdist) (2);
其中:
其中,τ表示常用的可调制的温度超参数。
本发明的第二方面提供了一种基于概念蒸馏和CLIP的可提示分割模型预训练系统,包括:
输入获取模块,用于获取用于可提示分割模型预训练的图片-掩码输入,并获得用于概念蒸馏的所述模板文本描述;
第一视觉嵌入模块,用于将所述图片输入经过可提示分割初始模型ProIo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入;
第二视觉嵌入模块,用于将所述图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入;
第三文本嵌入模块,用于将所述模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入;
预训练模块,用于基于分割损失Segloss与概念蒸馏损失KLloss的联合优化损失Lloss进行基于概念蒸馏和CLIP的可提示分割模型预训练;其中所述概念蒸馏损失KLloss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。
本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
本发明提供的预训练方法、系统和电子设备,具有如下有益效果:
(1)利用CLIP的知识库,可以避免特定的注释偏见;
(2)使用概念蒸馏而不是特征对齐,避免了在不同架构特征之间进行严格的相似度测量;
(3)反向利用CLIP进行视觉-语言对齐,而不影响SAM的原始几何提示空间。
(4)通过在掩码解码器中整合CLIP,模型获得了基于分割结果的新功能,例如物体识别与文本描述。
附图说明
图1为本发明优选实施例的基于概念蒸馏和CLIP的可提示分割模型预训练方法流程图。
图2为本发明优选实施例的基于概念蒸馏和CLIP的可提示分割模型预训练系统结构示意图;
图3为本发明提供的电子设备一种实施例的结构示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
参见图1,本实施例提供了一种基于概念蒸馏和CLIP的可提示分割模型预训练方法,所述可提示分割模型基于可提示分割初始模型ProTo预训练获得,所述可提示分割模型包括一体化的图像解码器、CLIP视觉编码器和CLIP文本编码器;
所述方法包括:
S1,获取用于可提示分割模型预训练的输入,并获得概念蒸馏所需的模板文本描述;
本实施例中,所述输入为经过掩码剪裁出的图片(Mask cropped image),记为IR,所述模板文本描述为TR;
作为优选的实施方式,所述IR的获取方法包括:
从SA-1B数据集中裁剪出掩码对应的图像;
将其居中粘贴到224×224的空白图像中,最终获得11亿张剪裁图片。
作为优选的实施方式,所述TR的获取方法包括:
基于多个图像数据集的词汇概念整合生成包含用于全景理解的背景与物体类别的标签列表;本实施例中,所述标签列表包含2560个类别,涵盖了常见的用于全景理解的背景与物体类别;
基于所述标签列表以及提示模板“a photo of a {class_name}”构建了一个文本描述列表。
S2,将所述输入经过可提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入;
本实施例中,所述第一视觉嵌入操作记为ProTo Image Decoder(IR),获得的第一视觉嵌入记为VP;
作为优选的实施方式,所述Vp的获取方法包括:
基于所述图像解码器输出的语义标记Semantic Token经过三层MLP(多层感知器)投影成1024维的第一视觉嵌入VP。
S3,将所述输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入;
本实施例中,所述第二视觉嵌入操作记为CLIP Visual Encoder(IR),获得的第二视觉嵌入记为VC;
作为优选的实施方式,所述VC的获取方法包括:
直接采用CLIP的视觉编码器在IR上获得1024维度的CLIP图像嵌入作为所述第二视觉嵌入;其中,所述CLIP图像嵌入采用16位浮点数存储在一个键值数据库中(例如,TFRecord),占用大约2250千兆字节,并与图像-掩码数据库同步,图像-掩码数据库约为10550千兆字节。
S4,将所述文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入;
本实施例中,所述第三文本嵌入操作记为CLIP Text Encoder(TR),获得的第三文本嵌入记为TC;
作为优选的实施方式,所述TC的获取方法包括:
采用CLIP文本编码器,对提示模板“a{class_name}”生成初始化的目标投影权重;
对提示模板“a photo of a{class_name}”生成最终的目标文本嵌入。
具体的算法伪代码如下所示:
S5,基于分割损失Segloss与概念蒸馏损失KLloss的联合优化损失Lloss进行基于概念蒸馏和CLIP的可提示分割模型预训练;其中所述概念蒸馏损失KLloss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。
作为优选的实施方式,基于分割损失Segloss与概念蒸馏损失KLloss的联合优化损失表示为:L10ss=Segloss+KLloss (1)。
作为优选的实施方式,所述概念蒸馏损失KLloss为可提示分割初始模型ProTo的预测分布ProTodist与CLIP目标分布CLIPdist之间的KL散度损失,表示为公式(2)-(4):
KLloss=DKL(ProTodist||CLIPdist) (2);
其中:
其中,τ表示常用的可调制的温度超参数。
本实施例中,在SA-1B数据集的50%数据上进行预训练,该子数据集包含了550万张高分辨率图像,每张图像大约有100个分割掩码,总计500M个掩码。由于SA-1B缺乏语义注释,利用EVA-CLIP从COCO、ADE20K、LVIS、Objects365、Visual Genome和OpenImagesV4合并的数据集标签空间中获取文本嵌入,构建了一个包含2560个类别的标签列表,涵盖了常见的用于全景理解的背景与物体类别。
在COCO和LVIS上评估零样本实例分割性能。对于零样本实例分类,选择LVIS数据集,因为它涵盖了比COCO更广泛的1203个泛化类别,而COCO只涵盖了80个常见类别,这与开放世界的假设不符。在区域级文本生成任务中,冻结住图像编码器-解码器,在VisualGenome(VG)v1.0训练集上对文本解码器进行微调,并在VG和RefCOCOg的测试集上汇报BLEU@4,METEOR,ROUGE和CIDEr指标。
经过预训练的模型保留了SAM的核心组件,包括图像编码器、提示编码器和用于视觉建模的掩码解码器,同时引入了两个修改。首先,采用convolutional cross-windowblocks(卷积交叉窗口模块)替换了原本繁琐的图像编码器中的全局注意力模块。其次,通过为每个预测的掩码添加了一个语义标记[S],将掩码解码器修改为通用的图像解码器。对于区域级文本生成器,它主要包括一个线性投影器和一个典型的文本解码器。
给定一个提示(简单点击图片),如点、框、草图,模型可以自动生成目标物体的分割掩码、语义类别,以及文本描述。
实施例二
如图2所示,本实施例提供了一种基于概念蒸馏和CLIP的可提示分割模型预训练系统,包括:
输入获取模块101,用于获取用于可提示分割模型预训练的输入,并获得概念蒸馏所需的模板文本描述;
第一视觉嵌入模块102,用于将所述图片输入经过可提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入;
第二视觉嵌入模块103,用于将所述图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入;
第三文本嵌入模块104,用于将所述模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入;
预训练模块105,用于基于分割损失Segloss与概念蒸馏损失KLloss的联合优化损失Lloss进行基于概念蒸馏和CLIP的可提示分割模型预训练;其中所述概念蒸馏损失KLloss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。
本发明还提供了一种存储器,存储有多条指令,指令用于实现如实施例一的方法。
如图3所示,本发明还提供了一种电子设备,包括处理器301和与处理器301连接的存储器302,存储器302存储有多条指令,指令可被处理器加载并执行,以使处理器能够执行如实施例一的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种基于概念蒸馏和CLIP的提示分割模型预训练方法,其特征在于,所述提示分割模型基于提示分割初始模型ProTo预训练获得,所述提示分割模型包括一体化的图像解码器、CLIP视觉编码器和CLIP文本编码器;
所述方法包括:
S1,获取用于提示分割模型预训练的图片-掩码输入,并获得用于概念蒸馏的模板文本描述;
S2,将所述图片输入经过提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入;
S3,将所述图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入;
S4,将所述模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入;
S5,基于分割损失Segloss与概念蒸馏损失KLloss的联合优化损失Lloss进行基于概念蒸馏和CLIP的提示分割模型预训练;其中所述概念蒸馏损失KLloss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联;
所述输入为经过掩码剪裁出的图片,记为IR,所述输入对应的模板文本描述为TR;
所述IR的获取方法包括:
从SA-1B数据集中裁剪出掩码对应的图像;
将其居中粘贴到224×224的空白图像中,最终获得11亿张剪裁图片;
所述TR的获取方法包括:
基于多个图像数据集的词汇概念整合生成包含用于全景理解的背景与物体类别的标签列表;
基于所述标签列表以及提示模板“a photo of a{class_name}”构建了一个文本描述列表;
所述第一视觉嵌入操作记为ProTo Image Decoder(IR),获得的第一视觉嵌入记为VP;
所述第二视觉嵌入操作记为CLIP Visual Encoder(IR),获得的第二视觉嵌入记为VC;
所述第三文本嵌入操作记为CLIP Text Encoder(TR),获得的第三文本嵌入记为TC;
所述概念蒸馏损失KLloss为提示分割初始模型ProTo的预测分布ProTodist与CLIP目标分布CLIPdist之间的KL散度损失,表示为公式(2)-(4):
KLloss=DKL(ProTodist||CLIPdist) (2);
其中:
其中,τ表示常用的可调制的温度超参数。
2.根据权利要求1所述的一种基于概念蒸馏和CLIP的提示分割模型预训练方法,其特征在于,
所述VP的获取方法包括:
基于所述图像解码器输出的语义标记Semantic Token经过三层多层感知器投影成1024维的第一视觉嵌入VP。
3.根据权利要求2所述的一种基于概念蒸馏和CLIP的提示分割模型预训练方法,其特征在于,所述VC的获取方法包括:
直接采用CLIP的视觉编码器在IR上获得1024维度的CLIP图像嵌入作为所述第二视觉嵌入;其中,所述CLIP图像嵌入采用16位浮点数存储在一个键值数据库中,并与图像-掩码数据库同步。
4.根据权利要求3所述的一种基于概念蒸馏和CLIP的提示分割模型预训练方法,其特征在于,所述TC的获取方法包括:
基于CLIP文本编码器对提示模板“a{class_name}”生成初始化的目标投影权重;
对提示模板“a photo of a{class_name}”生成最终的目标文本嵌入。
5.根据权利要求4所述的一种基于概念蒸馏和CLIP的提示分割模型预训练方法,其特征在于,基于分割损失Segloss与概念蒸馏损失KLloss的联合优化损失表示为:Lloss=Segloss+KLloss (1)。
6.一种基于概念蒸馏和CLIP的提示分割模型预训练系统,用于实施权利要求1-5任一所述的方法,其特征在于,包括:
输入获取模块(101),用于获取提示分割模型预训练的图片-掩码输入,并获得概念蒸馏所需的模板文本描述;
第一视觉嵌入模块(102),用于将所述图片输入经过提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入;
第二视觉嵌入模块(103),用于将所述图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入;
第三文本嵌入模块(104),用于将所述模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入;
预训练模块(105),用于基于分割损失Segloss与概念蒸馏损失KLloss的联合优化损失Lloss进行基于概念蒸馏和CLIP的提示分割模型预训练;其中所述概念蒸馏损失KLloss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。
7.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1-5任一所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1-5任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311675435.1A CN117671426B (zh) | 2023-12-07 | 2023-12-07 | 基于概念蒸馏和clip的可提示分割模型预训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311675435.1A CN117671426B (zh) | 2023-12-07 | 2023-12-07 | 基于概念蒸馏和clip的可提示分割模型预训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117671426A CN117671426A (zh) | 2024-03-08 |
CN117671426B true CN117671426B (zh) | 2024-05-28 |
Family
ID=90084226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311675435.1A Active CN117671426B (zh) | 2023-12-07 | 2023-12-07 | 基于概念蒸馏和clip的可提示分割模型预训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671426B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118350416B (zh) * | 2024-06-17 | 2024-08-20 | 清华大学 | 基于大模型的多模态语义通信方法、系统、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021118697A1 (en) * | 2019-12-10 | 2021-06-17 | Hrl Laboratories, Llc | Process to learn new image classes without labels |
CN115700519A (zh) * | 2021-07-26 | 2023-02-07 | 北京智源人工智能研究院 | 一种文本到图像的生成方法、装置、存储介质及终端 |
CN115761235A (zh) * | 2022-11-22 | 2023-03-07 | 电子科技大学长三角研究院(湖州) | 基于知识蒸馏的零样本语义分割方法、系统、设备及介质 |
CN116778140A (zh) * | 2023-06-29 | 2023-09-19 | 中国人民解放军国防科技大学 | 基于双重知识蒸馏的视觉定位方法、装置、设备和存储器 |
CN116935389A (zh) * | 2023-08-08 | 2023-10-24 | 西安电子科技大学 | 基于自蒸馏算法的文本检测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230154146A1 (en) * | 2021-11-16 | 2023-05-18 | Salesforce.Com, Inc. | Systems and methods for video and language pre-training |
-
2023
- 2023-12-07 CN CN202311675435.1A patent/CN117671426B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021118697A1 (en) * | 2019-12-10 | 2021-06-17 | Hrl Laboratories, Llc | Process to learn new image classes without labels |
CN115700519A (zh) * | 2021-07-26 | 2023-02-07 | 北京智源人工智能研究院 | 一种文本到图像的生成方法、装置、存储介质及终端 |
CN115761235A (zh) * | 2022-11-22 | 2023-03-07 | 电子科技大学长三角研究院(湖州) | 基于知识蒸馏的零样本语义分割方法、系统、设备及介质 |
CN116778140A (zh) * | 2023-06-29 | 2023-09-19 | 中国人民解放军国防科技大学 | 基于双重知识蒸馏的视觉定位方法、装置、设备和存储器 |
CN116935389A (zh) * | 2023-08-08 | 2023-10-24 | 西安电子科技大学 | 基于自蒸馏算法的文本检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117671426A (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
EP3926531B1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
US12039766B2 (en) | Image processing method, apparatus, and computer product for image segmentation using unseen class obtaining model | |
CN111783457B (zh) | 一种基于多模态图卷积网络的语义视觉定位方法及装置 | |
US20230042221A1 (en) | Modifying digital images utilizing a language guided image editing model | |
CN111563502A (zh) | 图像的文本识别方法、装置、电子设备及计算机存储介质 | |
CN117671426B (zh) | 基于概念蒸馏和clip的可提示分割模型预训练方法及系统 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
US20230177810A1 (en) | Performing semantic segmentation training with image/text pairs | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
CN116958512A (zh) | 目标检测方法、装置、计算机可读介质及电子设备 | |
CN114638914A (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
Gunna et al. | Transfer learning for scene text recognition in Indian languages | |
Chen et al. | Cross-lingual text image recognition via multi-task sequence to sequence learning | |
CN117746186A (zh) | 低秩自适应模型的训练方法、文本生成图像方法、系统 | |
CN115391588A (zh) | 视觉语言预训练模型的微调方法和图文检索方法 | |
Fang et al. | SignLLM: Sign Languages Production Large Language Models | |
Van Nguyen et al. | ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images | |
CN115130437A (zh) | 一种文档智能填写方法、装置及存储介质 | |
Newnham | Machine Learning with Core ML: An iOS developer's guide to implementing machine learning in mobile apps | |
Ma et al. | Dance action generation model based on recurrent neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |