CN118155018A - 基于大模型提示的静态图分割数据集制作方法及系统 - Google Patents
基于大模型提示的静态图分割数据集制作方法及系统 Download PDFInfo
- Publication number
- CN118155018A CN118155018A CN202410306972.7A CN202410306972A CN118155018A CN 118155018 A CN118155018 A CN 118155018A CN 202410306972 A CN202410306972 A CN 202410306972A CN 118155018 A CN118155018 A CN 118155018A
- Authority
- CN
- China
- Prior art keywords
- image
- prompt
- feature
- mask
- segmented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003068 static effect Effects 0.000 title claims abstract description 84
- 230000011218 segmentation Effects 0.000 title claims abstract description 83
- 238000010586 diagram Methods 0.000 title claims abstract description 17
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000003993 interaction Effects 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims description 24
- 238000003709 image segmentation Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 abstract description 14
- 238000011161 development Methods 0.000 abstract description 4
- 230000018109 developmental process Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于大模型提示的静态图分割数据集制作方法及系统,主要针对目前像素级标注图像数据获取困难的现象,该方法通过大语言模型以及位置编码等方法对常见的提示信息进行编码,获取高质量提示特征。再构建基于提示的静态图分割模型,最后通过掩码解码器获取最终的分割结果,并且通过构建一个置信度预测网络去预测每一个掩码的置信度,以此来达到自适应挑选掩码的效果。本发明有着输入多样、交互便捷的特点,可以广泛应用于多个提示场景,为标注人员提供优良的标注工具,显著提升标注人员的标注效率,为分割领域的发展提供高质量数据集。
Description
技术领域
本发明属于深度学习领域,具体涉及一种基于大模型提示的静态图分割数据集制作方法及系统。
背景技术
语义分割,是一类图像分割任务,该任务要求对图像中的每一个像素进行分类。基于深度学习的语义分割模型通常分为主干网络(Backbone)和解码头(Decoder Head)两个部分,主干网络通常为前述的分类网络结构去除用于分类的全连接层。通常来说,语义分割任务对模型的感受野有较高的要求,这是因为语义分割作为一个图像像素级分类的任务,单一像素甚至小区域的像素信息无法判断一个像素的分类,所以大多语义分割模型致力于提升模型的感受野。
随着Transformer在视觉领域的发展,其全局感知的特性,使得它也被应用到语义分割任务中,其网络中间的特征包含空间信息和通道信息,分别对中间特征的空间和通道两个维度的特征设计Attention机制可以更好的捕捉空间上点和点,通道与通道之间的关联信息。
语义分割是计算机视觉中的基础任务,在自动驾驶等很多领域存在较大的应用价值,该任务帮助计算系统理解场景中每一处的类别信息。视频分割是语义分割在视频场景下的一个子任务,故此语义分割方法对于其有一定借鉴意义。同时,语义分割预训练模型可为下游任务提供了预训练参数,使得下游任务更加容易训练。
近年来,随着自动驾驶行业的快速发展,大规模分割数据集的需求日益增加。然而由于分割数据集细粒度的标注要求,使得其造价高昂,需要花费大量标注人力成本。应此,高精度的自动标注方法显得尤为重要。
传统的人工手动标注方法(手工画分段轮廓线标注实例)往往存在精度低,效率低的问题,鉴于大规模分割数据集的实际应用需要以及传统标注方法的缺陷,研究一种高效的大规模数据集标注方法对于自动驾驶以及其余领域具有极其重要的意义。
发明内容
本发明的目的在于解决现有技术中存在的问题,并提供一种基于大模型提示的静态图分割数据集制作方法及系统。
本发明所采用的具体技术方案如下:
第一方面,本发明提供一种基于大模型提示的静态图分割数据集制作方法,其包括:
S1.获取一个待分割的图像,所述图像对应带有若干个图像实例,每个图像实例对应一个文本提示;
S2.获取一个经过训练的文本大模型特征提取器,利用所述文本大模型特征提取器对每个文本提示进行编码,每个文本提示对应得到一个文本提示特征;获取一个经过训练的图像大模型特征提取器,利用所述图像大模型特征提取器对所述图像进行编码,所述图像对应得到一个图像提示特征;获取一个经过训练的位置编码特征提取器,将所述图像以及图像的提示点输入到所述位置编码特征提取器中,每个提示点对应得到一个提示点特征,将所述图像以及图像的提示框输入到所述位置编码特征提取器中,每个提示框对应得到一个提示框特征;
S3.获取一个经过训练的基于提示的静态图分割模型,所述基于提示的静态图分割模型包括图像编码器、掩码解码器、上插值网络、交叉注意力网络、映射网络和置信度预测网络,所述掩码解码器由若干个掩码解码块依次级联而成,每个掩码解码块包括自注意力网络、映射网络和所述交叉注意力网络,将所述图像编码器的输出、所述初始图像特征和所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征一起作为第一个掩码解码块的输入,除第一个掩码解码块外的其余掩码解码块输入均为前一个掩码解码块的输出;将待分割的图像输入到所述图像编码器中,待分割的图像对应得到一个初始图像特征;将所述初始图像特征和所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征输入到所述掩码解码器中,输出交互后的掩码特征和提示特征;将交互后的掩码特征输入到所述上插值网络,由上插值网络对交互后的掩码特征进行上插值,得到待分割图像的多个掩码预测结果;将交互后的掩码特征和交互后的提示特征输入到所述交叉注意力网络中,得到待分割图像的置信度特征;将所述置信度特征输入到所述置信度预测网络,得到待分割图像每个掩码预测结果的置信度分数;
S4.在待分割图像的所有掩码预测结果中选择置信度分数最高的掩码预测结果作为待分割图像的最终掩码预测结果;当每个待分割图像均得到最终掩码预测结果后,利用每个待分割图像和与每个待分割图像对应的最终掩码预测结果构建静态图分割数据集。
作为优选,所述文本大模型特征提取器采用CLIP模型中的文本编码器。
作为优选,所述图像大模型特征提取器采用CLIP模型中的视觉编码器。
作为优选,所述位置编码特征提取器采用正余弦位置编码器。
作为优选,所述图像编码器采用Vision Transforner模型。
作为优选,在第一个所述掩码解码块中,将所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征一起输入到所述自注意力网络,得到第一特征;将所述初始图像特征和所述第一特征一起输入到所述交叉注意力网络,得到第二特征;将所述第二特征输入到所述映射网络,得到输出的提示特征;将所述初始图像特征和输出的提示特征一起输入到所述交叉注意力网络,得到输出的图像特征。
作为优选,所述掩码解码器由2个所述掩码解码块依次级联而成。
作为优选,所述上插值网络由2层反卷积层依次级联而成,每个反卷积层的卷积核大小均为2×2。
作为优选,所述映射网络采用多层感知机MLP。
作为优选,所述置信度预测网络采用多层感知机MLP。
第二方面,本发明提供了一种基于大模型提示的静态图分割数据集制作系统,其包括:
数据获取模块,用于获取一个待分割的图像,所述图像对应带有若干个图像实例,每个图像实例对应一个文本提示;
特征获取模块,用于获取一个经过训练的文本大模型特征提取器,利用所述文本大模型特征提取器对每个文本提示进行编码,每个文本提示对应得到一个文本提示特征;获取一个经过训练的图像大模型特征提取器,利用所述图像大模型特征提取器对所述图像进行编码,所述图像对应得到一个图像提示特征;获取一个经过训练的位置编码特征提取器,将所述图像以及图像的提示点输入到所述位置编码特征提取器中,每个提示点对应得到一个提示点特征,将所述图像以及图像的提示框输入到所述位置编码特征提取器中,每个提示框对应得到一个提示框特征;
置信度分数获取模块,用于获取一个经过训练的基于提示的静态图分割模型,所述基于提示的静态图分割模型包括图像编码器、掩码解码器、上插值网络、交叉注意力网络、映射网络和置信度预测网络,所述掩码解码器由若干个掩码解码块依次级联而成,每个掩码解码块包括自注意力网络、映射网络和所述交叉注意力网络,将所述图像编码器的输出、所述初始图像特征和所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征一起作为第一个掩码解码块的输入,除第一个掩码解码块外的其余掩码解码块输入均为前一个掩码解码块的输出;将待分割的图像输入到所述图像编码器中,待分割的图像对应得到一个初始图像特征;将所述初始图像特征和所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征输入到所述掩码解码器中,输出交互后的掩码特征和提示特征;将交互后的掩码特征输入到所述上插值网络,由上插值网络对交互后的掩码特征进行上插值,得到待分割图像的多个掩码预测结果;将交互后的掩码特征和交互后的提示特征输入到所述交叉注意力网络中,得到待分割图像的置信度特征;将所述置信度特征输入到所述置信度预测网络,得到待分割图像每个掩码预测结果的置信度分数;
静态图分割数据集获取模块,用于在待分割图像的所有掩码预测结果中选择置信度分数最高的掩码预测结果作为待分割图像的最终掩码预测结果;当每个待分割图像均得到最终掩码预测结果后,利用每个待分割图像和与每个待分割图像对应的最终掩码预测结果构建静态图分割数据集。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上述第一方面任一方案所述的一种基于大模型提示的静态图分割数据集制作方法。
第四方面,本发明提供了一种计算机电子设备,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,现如上述第一方面任一方案所述的一种基于大模型提示的静态图分割数据集制作方法。
本发明相对于现有技术而言,具有以下有益效果:
本发明提供了一种基于大模型提示的静态图分割数据集制作方法,其有着提示种类丰富,应用场景广泛的特性。随着大模型的发展,目前已有大量性能优越的大模型可以为基于提示的分割模型提供优良的提示信息,与现有技术对比,基于大模型提示的分割模型有着性能优越,提示丰富的特点,其实用性更加广泛。
附图说明
图1为本发明的方法流程图;
图2为本发明的方法示意图;
图3为本发明的系统框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于区分描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
为了解决传统的分割数据标注方法存在的缺陷问题,在本发明的一个较佳实施例中,提供了一种基于大模型提示的静态图分割数据集制作方法,通过训练一个基于提示的静态图分割模型,利用现有的大模型给出具体提示信息,并通过基于提示的静态图分割模型计算提示信息与静态图间的关联性,从而依据提示信息分割出待分割区域。该方法包括S1~S4步骤,如图1所示,下面对S1~S4步骤的具体实现方式进行详细介绍。
S1.获取一个待分割的图像,上述图像对应带有若干个图像实例,每个图像实例对应一个文本提示;
S2.获取一个经过训练的文本大模型特征提取器,利用上述文本大模型特征提取器对每个文本提示进行编码,每个文本提示对应得到一个文本提示特征;获取一个经过训练的图像大模型特征提取器,利用上述图像大模型特征提取器对上述图像进行编码,上述图像对应得到一个图像提示特征;获取一个经过训练的位置编码特征提取器,将上述图像以及图像的提示点输入到上述位置编码特征提取器中,每个提示点对应得到一个提示点特征,将上述图像以及图像的提示框输入到上述位置编码特征提取器中,每个提示框对应得到一个提示框特征。
需要说明的是,在本实施例中,针对不同类型(文本、图像、位置)的提示信息,预先获取提示网络,对应获取每种提示特征:
1)对于文本提示信息,采用目前先进的预训练文本编码大模型(如CLIP中的文本编码器)对文本提示进行编码,获取文本提示特征,例如:一张图像中包含一只猫,以及猫实例对应的文本(“Cat”),则可通过上述文本编码大模型获取文本提示特征T_emb。
2)对于图像提示信息,采用目前先进的预训练图像编码大模型(如CLIP中的视觉编码器)提取图像提示特征。例如:以一张包含猫的图像作为提示图像,通过上述图像编码大模型提取图像提示特征I_emb。
3)对于提示点或者提示框,可采用常见的位置编码器(如正余弦位置编码器)分别获取提示点特征P_emb、以及提示框特征B_emb。
上述获取每种提示特征的过程可由下式表示:
TEmb,Iemb,Pemb,Bemb=P(Text,Img,Point,Box)
其中,Point、Box、Text、Image分别表示提示点、提示框、文本提示、图像,P(.)表示提示网络,Pemb,Bemb,Temb,Iemb分别表示提取到的提示点特征、提示框特征、文本提示特征、与图像对应的图像提示特征。
需要说明的是,在本发明中,上述位置编码器可以根据实际需要进行选择。在本实施例中,采用正余弦位置编码器分别获取提示点特征以及提示框特征,上述正余弦位置编码器的实现方式属于现有技术,具体参见现有技术文献:Tancik,Matthew,et al."Fourierfeatures let networks learn high frequency functions in low dimensionaldomains."Advances in Neural Information Processing Systems 33(2020):7537-7547.,对此不再赘述。
S3.获取一个经过训练的基于提示的静态图分割模型,上述基于提示的静态图分割模型包括图像编码器、掩码解码器、上插值网络、交叉注意力网络、映射网络和置信度预测网络,上述掩码解码器由若干个掩码解码块依次级联而成,每个掩码解码块包括自注意力网络、映射网络和上述交叉注意力网络,将上述图像编码器的输出、上述初始图像特征和上述文本提示特征、上述图像提示特征、上述提示点特征和上述提示框特征一起作为第一个掩码解码块的输入,除第一个掩码解码块外的其余掩码解码块输入均为前一个掩码解码块的输出;将待分割的图像输入到所述图像编码器中,待分割的图像对应得到一个初始图像特征;将上述初始图像特征和上述文本提示特征、上述图像提示特征、上述提示点特征和上述提示框特征输入到掩码解码器中,输出交互后的掩码特征和提示特征;将交互后的掩码特征输入到上述上插值网络,由上插值网络对交互后的掩码特征进行上插值,得到待分割图像的多个掩码预测结果;将交互后的掩码特征和交互后的提示特征输入到上述交叉注意力网络中,得到待分割图像的置信度特征;将上述置信度特征输入到上述置信度预测网络,得到待分割图像每个掩码预测结果的置信度分数。
需要说明的是,在本发明中,基于Transformer结构构建上述静态图分割模型,其包含了提示信息与图像信息交互建模交叉注意力(cross-attention)网络、单独建模的自注意力(self-attention)网络以及前向传播MLP结构的映射网络和置信度预测网络,通过步骤S2获取提示信息特征(提示点特征、提示框特征、文本提示特征、图像提示特征),将这些提示信息特征与待分割图像一同输入上述静态图分割模型(一般为Transformer架构)中,通过常见图像特征提取器(如Vision Transformer,VIT)的图像编码器提取图像特征信息Img_emb,通过上述静态图分割模型中的掩码解码器计算图像特征信息Img_emb与提示信息特征(提示点特征P_emb、提示框特征B_emb、文本提示特征T_emb、图像提示特征I_emb)间的潜在关系,获取实例在图像上的分布区域,最后由上插值网络对输出掩码进行上插值,从而获取待分割图像的掩码预测结果。
下面对本发明静态图分割模型中的各个模块原理进行说明。
在本发明中,上述图像编码器可以是任何输出C×H×W图像嵌入的网络。出于可扩展性和利用强大的预训练的动机,本实施例采用一个MAE预训练的Vision Transformer模型,并进行最小适应以处理高分辨率输入,以ViT-H/16模型为例,其带有14×14窗口化注意力和四个等间距的全局注意块,图像编码器的输出是输入图像的16倍缩小嵌入。由于上述静态图分割模型与提示网络相互独立,运行时目标是实时处理每个提示信息特征,故此针对每个图像只计算一次,而不是基于提示每个信息特征都需要对图像特征进行提取。
需要说明的是,在本发明上述静态图分割模型中,除了图像编码器,还有一个掩码解码器,该掩码解码器接收上述图像编码器输出的图像特征与提示网络提取到的提示特征,将图像特征和一组提示特征(文本提示特征、图像提示特征、提示点特征和提示框特征)有效地映射到输出掩码。为了结合这些输入,掩码解码器由多个掩码解码块组成,每个掩码解码块又包括自注意力网络(Self-Attention)、映射网络以及交叉注意力网络(Cross-Attention)。每个掩码解码块执行4个步骤:(1)对输出掩码token进行自我注意;(2)从输出掩码到图像特征进行交叉注意;(3)通过映射网络以及残差连接更新输出掩码;(4)从图像特征到输出掩码进行交叉注意。
在本实施例中,上述掩码解码器由2个掩码解码块依次级联而成。具体来说,在第一个掩码解码块中,将上述文本提示特征、上述图像提示特征、上述提示点特征和上述提示框特征一起输入到上述自注意力网络,得到第一特征;将上述初始图像特征和上述第一特征一起输入到上述交叉注意力网络,得到第二特征;将上述第二特征输入到上述映射网络,得到输出的提示特征;将上述初始图像特征和输出的提示特征一起输入到上述交叉注意力网络,得到输出的图像特征。由下一个掩码解码块接收来自上一个掩码解码块的输出。
需要说明的是,在本实施例中,上述映射网络采用多层感知机MLP,其包括线性层、ReLU、LN层。考虑到提示网络一般采用现成的大模型(如CLIP),其提取出的提示信息特征与基于提示的静态图分割模型的特征维数往往是不对应的(如提示特征可能是768维,而基于提示的静态图分割模型的特征维数可能是256维),故此还需要一个线性层进行特征映射,将上述提示点特征、提示框特征、文本提示特征、与图像对应的图像提示特征分别映射到分割网络的特征空间中:
TEmb‘,Iemb’,Pemb’,Bemb‘=Linear(TEmb,Iemb,Pemb,Bemb)
其中,Linear(.)为用于特征映射的线性层;TEmb‘,Iemb’,Pemb’,Bemb‘分别表示映射后的文本提示特征、与图像对应的图像提示特征、提示点特征、以及提示框特征,经过特征映射的提示信息特征其特征维数与基于提示的静态图分割模型中的图像特征提取器提取的图像特征维数相同。
需要说明的是,在本发明中,上述置信度预测网络采用多层感知机MLP。考虑到需要对待分割图像的若干个掩码预测结果进行筛选,因此在本实施例中设计一个置信度特征用于预测每个掩码预测结果的置信度,该置信度特征和输出掩码特征一起,与输入图像特征进行交互,最后由置信度预测网络输出每个掩码预测结果的置信度分数,以此使得上述基于提示的静态图分割模型具有自主筛选掩码质量的能力。
Score=S(Scoretoken)
其中,S(.)表示置信度预测网络;Scoretoken表示置信度特征;Score为每个掩码预测结果的置信度分数。
需要说明的是,在本实施例中,上述上插值网络由2层反卷积层依次级联而成,每个反卷积层的卷积核大小均为2×2。
需要说明的是,本发明利用上述提示网络提取提示信息特征,使用上述静态图分割模型提取待分割的静态图像特征,并对提示特征与图像特征进行交互,输出掩码。在本实施例上述静态图分割模型的训练过程中,如图2所示,通过损失反向传播对上述静态图分割模型进行训练,通过人工标注的方式,对上述静态图分割模型进行多轮迭代式训练,训练样本难度由易到难,依次提示上述静态图分割模型的分割性能。具体的,先在训练集上标注大尺寸目标,并且训练上述静态图分割模型,使其有基本的分割能力;其次再标注小尺寸目标,让上述静态图分割模型具有分割小尺寸难目标的能力。对于文本提示,先由CLIP模型中的文本特征提取器提取文本提示特征,然后将其输入上述静态图分割模型,获取分割结果并以此进行训练。对于框提示、图像提示、点提示也是如此。此外,为了对置信度预测网络进行监督,此处通过实际计算掩码与真实类标之间的IOU作为Score的类标,使得置信度预测网络的预测置信度数值在训练过程中逼近真实交并比(IOU),即可以此作为掩码可靠性的评价依据。设计多轮交互式训练框架,基于上一轮分割结果进行迭代式交互,并通过送入上一轮的分割结果以及当前轮的新交互信息对上述静态图分割模型进行充分训练,使得模型性能达到极致。对于点、框提示信息,通过在每一轮上述静态图分割模型预测后,人工输入新的交互点来进行迭代修正。对于文本提示信息和图像提示信息,只需在第一轮迭代时输入即可。每个轮次内,通过梯度反向传播更新上述静态图分割模型权重,最终可获得训练好的基于提示的静态图分割模型。上述多轮交互式训练框架可以表示为:
Mr=U(Sr,Mr-1,I)
其中,U(.)表示上述静态图分割模型;Sr表示第r轮待分割图像的提示信息,Mr-1表示第(r-1)轮迭代的待分割图像的掩码预测结果;I表示图像信息,Mr表示第r轮的迭代的待分割图像的掩码预测结果。
S4.在待分割图像的所有掩码预测结果中选择置信度分数最高的掩码预测结果作为待分割图像的最终掩码预测结果;当每个待分割图像均得到最终掩码预测结果后,利用每个待分割图像和与每个待分割图像对应的最终掩码预测结果构建静态图分割数据集。
需要说明的是,在本发明中,如图2所示,上述静态图分割模型训练好后,即可通过其获取大量静态图分割数据。具体的,先收集大量不含有分割标注的图像数据,再将每个图像数据逐个输入上述静态图分割模型,对其匹配以合适的提示信息。如以64×64的网格点为提示信息,则上述静态图分割模型会输出64×64个掩码。再根据每个掩码的置信度筛选获取置信度高的掩码,从而构建大规模静态图分割数据集。
另外需要说明的是,上述实施例中的一种基于大模型提示的静态图分割数据集制作方法,本质上可以通过计算机程序或者模块来执行。因此同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的一种基于大模型提示的静态图分割数据集制作方法对应的一种基于大模型提示的静态图分割数据集制作系统,如图3所示,其包括:
数据获取模块,用于获取一个待分割的图像,所述图像对应带有若干个图像实例,每个图像实例对应一个文本提示;
特征获取模块,用于获取一个经过训练的文本大模型特征提取器,利用所述文本大模型特征提取器对每个文本提示进行编码,每个文本提示对应得到一个文本提示特征;获取一个经过训练的图像大模型特征提取器,利用所述图像大模型特征提取器对所述图像进行编码,所述图像对应得到一个图像提示特征;获取一个经过训练的位置编码特征提取器,将所述图像以及图像的提示点输入到所述位置编码特征提取器中,每个提示点对应得到一个提示点特征,将所述图像以及图像的提示框输入到所述位置编码特征提取器中,每个提示框对应得到一个提示框特征;
置信度分数获取模块,用于获取一个经过训练的基于提示的静态图分割模型,所述基于提示的静态图分割模型包括图像编码器、掩码解码器、上插值网络、交叉注意力网络、映射网络和置信度预测网络,所述掩码解码器由若干个掩码解码块依次级联而成,每个掩码解码块包括自注意力网络、映射网络和所述交叉注意力网络,将所述图像编码器的输出、所述初始图像特征和所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征一起作为第一个掩码解码块的输入,除第一个掩码解码块外的其余掩码解码块输入均为前一个掩码解码块的输出;将待分割的图像输入到所述图像编码器中,待分割的图像对应得到一个初始图像特征;将所述初始图像特征和所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征输入到所述掩码解码器中,输出交互后的掩码特征和提示特征;将交互后的掩码特征输入到所述上插值网络,由上插值网络对交互后的掩码特征进行上插值,得到待分割图像的多个掩码预测结果;将交互后的掩码特征和交互后的提示特征输入到所述交叉注意力网络中,得到待分割图像的置信度特征;将所述置信度特征输入到所述置信度预测网络,得到待分割图像每个掩码预测结果的置信度分数;
静态图分割数据集获取模块,用于在待分割图像的所有掩码预测结果中选择置信度分数最高的掩码预测结果作为待分割图像的最终掩码预测结果;当每个待分割图像均得到最终掩码预测结果后,利用每个待分割图像和与每个待分割图像对应的最终掩码预测结果构建静态图分割数据集。
同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的一种基于大模型提示的静态图分割数据集制作方法对应的一种计算机电子设备,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现上述实施例中的一种基于大模型提示的静态图分割数据集制作方法。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
由此,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的一种基于大模型提示的静态图分割数据集制作方法对应的一种计算机可读存储介质,该所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现上述实施例中的一种基于大模型提示的静态图分割数据集制作方法。
可以理解的是,上述存储介质可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可以理解的是,上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
另外需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的各实施例中,所述的系统和方法中对于步骤或者模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或步骤可以结合或者可以集成到一起,一个模块或者步骤亦可进行拆分。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种基于大模型提示的静态图分割数据集制作方法,其特征在于,包括以下步骤:
S1.获取一个待分割的图像,所述图像对应带有若干个图像实例,每个图像实例对应一个文本提示;
S2.获取一个经过训练的文本大模型特征提取器,利用所述文本大模型特征提取器对每个文本提示进行编码,每个文本提示对应得到一个文本提示特征;获取一个经过训练的图像大模型特征提取器,利用所述图像大模型特征提取器对所述图像进行编码,所述图像对应得到一个图像提示特征;获取一个经过训练的位置编码特征提取器,将所述图像以及图像的提示点输入到所述位置编码特征提取器中,每个提示点对应得到一个提示点特征,将所述图像以及图像的提示框输入到所述位置编码特征提取器中,每个提示框对应得到一个提示框特征;
S3.获取一个经过训练的基于提示的静态图分割模型,所述基于提示的静态图分割模型包括图像编码器、掩码解码器、上插值网络、交叉注意力网络、映射网络和置信度预测网络,所述掩码解码器由若干个掩码解码块依次级联而成,每个掩码解码块包括自注意力网络、映射网络和所述交叉注意力网络,将所述图像编码器的输出、所述初始图像特征和所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征一起作为第一个掩码解码块的输入,除第一个掩码解码块外的其余掩码解码块输入均为前一个掩码解码块的输出;将待分割的图像输入到所述图像编码器中,待分割的图像对应得到一个初始图像特征;将所述初始图像特征和所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征输入到所述掩码解码器中,输出交互后的掩码特征和提示特征;将交互后的掩码特征输入到所述上插值网络,由上插值网络对交互后的掩码特征进行上插值,得到待分割图像的多个掩码预测结果;将交互后的掩码特征和交互后的提示特征输入到所述交叉注意力网络中,得到待分割图像的置信度特征;将所述置信度特征输入到所述置信度预测网络,得到待分割图像每个掩码预测结果的置信度分数;
S4.在待分割图像的所有掩码预测结果中选择置信度分数最高的掩码预测结果作为待分割图像的最终掩码预测结果;当每个待分割图像均得到最终掩码预测结果后,利用每个待分割图像和与每个待分割图像对应的最终掩码预测结果构建静态图分割数据集。
2.如权利要求1所述的一种基于大模型提示的静态图分割数据集制作方法,其特征在于,所述文本大模型特征提取器采用CLIP模型中的文本编码器;所述图像大模型特征提取器采用CLIP模型中的视觉编码器;所述位置编码特征提取器采用正余弦位置编码器;所述图像编码器采用Vision Transforner模型。
3.如权利要求1所述的一种基于大模型提示的静态图分割数据集制作方法,其特征在于,在第一个所述掩码解码块中,将所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征一起输入到所述自注意力网络,得到第一特征;将所述初始图像特征和所述第一特征一起输入到所述交叉注意力网络,得到第二特征;将所述第二特征输入到所述映射网络,得到输出的提示特征;将所述初始图像特征和输出的提示特征一起输入到所述交叉注意力网络,得到输出的图像特征。
4.如权利要求1所述的一种基于大模型提示的静态图分割数据集制作方法,其特征在于,所述掩码解码器由2个所述掩码解码块依次级联而成。
5.如权利要求1所述的一种基于大模型提示的静态图分割数据集制作方法,其特征在于,所述上插值网络由2层反卷积层依次级联而成,每个反卷积层的卷积核大小均为2×2。
6.如权利要求1所述的一种基于大模型提示的静态图分割数据集制作方法,其特征在于,所述映射网络采用多层感知机MLP。
7.如权利要求1所述的一种基于大模型提示的静态图分割数据集制作方法,其特征在于,所述置信度预测网络采用多层感知机MLP。
8.一种基于大模型提示的静态图分割数据集制作系统,其特征在于,包括:
数据获取模块,用于获取一个待分割的图像,所述图像对应带有若干个图像实例,每个图像实例对应一个文本提示;
特征获取模块,用于获取一个经过训练的文本大模型特征提取器,利用所述文本大模型特征提取器对每个文本提示进行编码,每个文本提示对应得到一个文本提示特征;获取一个经过训练的图像大模型特征提取器,利用所述图像大模型特征提取器对所述图像进行编码,所述图像对应得到一个图像提示特征;获取一个经过训练的位置编码特征提取器,将所述图像以及图像的提示点输入到所述位置编码特征提取器中,每个提示点对应得到一个提示点特征,将所述图像以及图像的提示框输入到所述位置编码特征提取器中,每个提示框对应得到一个提示框特征;
置信度分数获取模块,用于获取一个经过训练的基于提示的静态图分割模型,所述基于提示的静态图分割模型包括图像编码器、掩码解码器、上插值网络、交叉注意力网络、映射网络和置信度预测网络,所述掩码解码器由若干个掩码解码块依次级联而成,每个掩码解码块包括自注意力网络、映射网络和所述交叉注意力网络,将所述图像编码器的输出、所述初始图像特征和所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征一起作为第一个掩码解码块的输入,除第一个掩码解码块外的其余掩码解码块输入均为前一个掩码解码块的输出;将待分割的图像输入到所述图像编码器中,待分割的图像对应得到一个初始图像特征;将所述初始图像特征和所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示框特征输入到所述掩码解码器中,输出交互后的掩码特征和提示特征;将交互后的掩码特征输入到所述上插值网络,由上插值网络对交互后的掩码特征进行上插值,得到待分割图像的多个掩码预测结果;将交互后的掩码特征和交互后的提示特征输入到所述交叉注意力网络中,得到待分割图像的置信度特征;将所述置信度特征输入到所述置信度预测网络,得到待分割图像每个掩码预测结果的置信度分数;
静态图分割数据集获取模块,用于在待分割图像的所有掩码预测结果中选择置信度分数最高的掩码预测结果作为待分割图像的最终掩码预测结果;当每个待分割图像均得到最终掩码预测结果后,利用每个待分割图像和与每个待分割图像对应的最终掩码预测结果构建静态图分割数据集。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~7任一所述的一种基于大模型提示的静态图分割数据集制作方法。
10.一种计算机电子设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~7任一所述的一种基于大模型提示的静态图分割数据集制作方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410306972.7A CN118155018A (zh) | 2024-03-18 | 2024-03-18 | 基于大模型提示的静态图分割数据集制作方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410306972.7A CN118155018A (zh) | 2024-03-18 | 2024-03-18 | 基于大模型提示的静态图分割数据集制作方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118155018A true CN118155018A (zh) | 2024-06-07 |
Family
ID=91288185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410306972.7A Pending CN118155018A (zh) | 2024-03-18 | 2024-03-18 | 基于大模型提示的静态图分割数据集制作方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118155018A (zh) |
-
2024
- 2024-03-18 CN CN202410306972.7A patent/CN118155018A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2691214C1 (ru) | Распознавание текста с использованием искусственного интеллекта | |
CN113011202B (zh) | 基于多任务训练的端到端图像文本翻译方法、系统、装置 | |
CN111079532A (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN112634296A (zh) | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 | |
CN111723238B (zh) | 视频多事件的裁剪及文本描述方法及其装置、设备和介质 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN114266945B (zh) | 一种目标检测模型的训练方法、目标检测方法及相关装置 | |
JP7536893B2 (ja) | 自己注意ベースのニューラルネットワークを使用した画像処理 | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
CN112364933B (zh) | 图像分类方法、装置、电子设备和存储介质 | |
JP2022090633A (ja) | 高解像度画像内の物体検出を改善するための方法、コンピュータ・プログラム製品、およびコンピュータ・システム | |
CN114529917B (zh) | 一种零样本中文单字识别方法、系统、装置及存储介质 | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN117877029A (zh) | 一种基于基础模型的指代图像分割方法、装置及存储介质 | |
CN115984838A (zh) | Poi名称的生成方法、装置、电子设备和存储介质 | |
CN118155018A (zh) | 基于大模型提示的静态图分割数据集制作方法及系统 | |
CN114913382A (zh) | 一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法 | |
Qu et al. | Underwater small target detection under YOLOv8-LA model | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 | |
CN113112454A (zh) | 一种基于任务动态学习部分标记的医学图像分割方法 | |
CN114399708A (zh) | 一种视频动作迁移深度学习系统和方法 | |
CN113283248B (zh) | 散点图描述的自然语言自动生成方法及装置 | |
CN116452600B (zh) | 实例分割方法、系统、模型训练方法、介质及电子设备 | |
CN117058491B (zh) | 基于递归神经网络的结构化网格布局生成方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |