CN116612281A - 基于文本监督的开放词汇图像语义分割系统 - Google Patents

基于文本监督的开放词汇图像语义分割系统 Download PDF

Info

Publication number
CN116612281A
CN116612281A CN202310570960.0A CN202310570960A CN116612281A CN 116612281 A CN116612281 A CN 116612281A CN 202310570960 A CN202310570960 A CN 202310570960A CN 116612281 A CN116612281 A CN 116612281A
Authority
CN
China
Prior art keywords
image
entity
description
group
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310570960.0A
Other languages
English (en)
Inventor
张玥杰
徐际岚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202310570960.0A priority Critical patent/CN116612281A/zh
Publication of CN116612281A publication Critical patent/CN116612281A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,具体为基于文本监督的开放词汇图像语义分割系统。本发明包括图像编码器、文本编码器、跨模态解码器、图像‑描述对齐子模块、屏蔽实体补全子模块、跨图像掩码一致性子模块;图像编码器用于对图像特征进行提取,使用可学习的群组表征对图像进行聚类;文本编码器针对图像描述进行编码,建立与群组表征的对齐关系;跨模态解码器使用交叉注意力机制将群组表征与屏蔽描述表征进行交互融合;学习优化模块,使得模型在仅使用文本监督条件下学习视觉‑文本对齐,得到优化分割的网络模型;本发明在仅使用文本监督条件下学习有效的视觉‑文本对齐,在公共数据集上实验表明,在无掩码训练条件下取得最佳图像语义分割结果。

Description

基于文本监督的开放词汇图像语义分割系统
技术领域
本发明属于图像处理技术领域,具体涉及基于文本监督的开放词汇图像语义分割系统。
背景技术
近些年,深度学习在多种不同的计算机视觉应用中已取得令人欣喜的成果。作为其中一个非常值得探究的问题,图像语义分割旨在对于给定图像分割出感兴趣物体,该任务对于图像内容解析、场景理解等都起到至关重要的作用。在现实场景中,语义分割技术在许多领域都得到广泛应用,如可以帮助自动驾驶汽车和机器人进行环境感知和路径规划,还可以用于医学影像分析、无人机监测和地质勘探等领域。然而,由于现有的基于监督训练的方法存在高昂的成本和局限性,这些问题使得语义分割技术在实际应用中仍面临挑战。在研究中,已有一些研究致力于开发新的神经网络架构,如编码器-解码器架构和空间注意力机制,以提高分割性能和减少训练时间。这些新技术和新方法为未来的语义分割研究和应用提供广阔发展空间。在全监督语义分割问题设定下,衍生出半监督语义分割任务、弱监督语义分割任务、无监督语义分割任务。本发明聚焦使用文本解决弱监督语义分割问题,相比于全监督图像语义分割,该任务在训练过程中没有物体分割标签,只有弱一级语义特征的图像文本描述标签。基于文本监督的语义分割相较传统语义分割任务难度更高,更贴合实际应用。在互联网上存在大量的图像及对应的描述,却少有精细标注物体位置,基于文本监督的图像语义分割技术的发展使大量利用互联网数据进行学习成为可能。
一般而言,语义分割模型设计主要有两种方式。一种方法是将像素分组并为每个组分配一个语义标签;另一种方法是将分割视为像素级分类,将每个像素分配到一个类别中。尽管相关研究已取得巨大进展,但现有基于监督式训练的方法其可扩展性还有根本性的限制:(1)昂贵的标注,即需要耗费大量时间手动完成像素级标注以训练分割模型;(2)闭集分割,即模型仅限于从一组有限对象类别中进行分割,每当引入新的数据集时模型就需要重新训练,泛化性受到极大限制。因此,如何利用低成本的标注(如文本)取代像素级别的标注训练分割模型并提高模型的类别泛化能力亟待解决。
最近的研究如CLIP模型和ALIGN模型已证明,大规模的图像-标题对和简单的噪声对比估计组合可从头开始学习强大的图像、文本嵌入,并显示出强大的开放式分类零样本泛化能力。此外,GroupViT模型通过仅使用文本监督来扩展这一思路,将其扩展至语义分割中。他们对视觉标记进行层次分组,然后通过对比损失将其与相应的文本嵌入对齐。然而,以下问题仍具有挑战性且未解决:首先,文本仅提供粗略的图像级描述,这对于训练语义分割模型通常需要精细的像素级监督的情况并不足够。其次,网络收集数据的多样性非常大,需要模型在提供的弱监督下学习感兴趣对象的视觉不变性,如具有相似描述的两幅图像的视觉外观可能截然不同。因此,在模型过程设计中仍需考虑挖掘细粒度信息。
发明内容
本发明的目的在于提供一种基于文本监督的开放词汇图像语义分割系统,以实现仅利用文本作为监督信息训练图像语义分割模型并具有开放词汇泛化能力。
本发明中,提出了一种基于Transformer的开放词汇语义分割模型,称为OVSegmentor,可通过零样本迁移对任意类别的对象进行分割,仅使用图像-描述的成对数据进行预训练。具体而言,引入可学习的群组表征,本发明使用基于slot-attention的绑定模块将图像块聚类,并将群组表征与相应的描述表征在特征空间实现对齐。本发明既不需要人工标注的掩模标签用于训练,也不需要在目标分割数据集上进行额外的重新训练,大大减轻标注工作量并提高迁移效率。在本发明中,对于在图像-描述数据集上的训练,提出两个代理任务,即屏蔽实体补全和跨图像掩模一致性。前者训练模型根据群组表征推断句子中所有被屏蔽的实体,后者则训练模型对于包含相同实体的图像给出具有一致性的掩模预测。这两个任务都显示出有益于模型学习基于特定实体的、细粒度和视觉不变的群组语义。除此之外,本发明通过设计自动筛选算法过滤经常出现的视觉实体构建一个图像-描述数据集,称为CC4M,显著提高训练效率,同时能保证数据集多样性。
本发明提供的基于文本监督的开放词汇图像语义分割系统,包括图像编码器、文本编码器、跨模态解码器、学习优化模块,学习优化模块包括图像-描述对齐子模块、屏蔽实体补全子模块、跨图像掩码一致性子模块。其中,所述图像编码器用于对图像特征进行提取,同时使用可学习的群组表征对图像进行聚类;所述文本编码器针对图像描述进行编码,建立与群组表征的对齐关系;所述跨模态解码器使用交叉注意力机制将群组表征与屏蔽描述表征进行交互融合;所述学习优化模块,使得模型在仅使用文本监督条件下学习视觉-文本对齐,得到优化分割的网络模型;所述图像-描述对齐子模块将匹配的图像特征与对应的完整描述表征在特征空间中进行对齐;所述屏蔽实体补全模块根据屏蔽描述中的常见实体,通过群组表征补全信息实现细粒度图像-文本对齐;所述跨模态图像掩码一致性子模块约束包含相同实体的不同图像产生相同的实体掩码训练模型学习视觉不变性。
本发明中,所述图像编码器,包括Transformer编码器与绑定模块。Transformer编码器[1],用于对图像进行编码,其输入为拼接过的图像表征与随机初始化的群组表征,输出为微经过编码的图像表征与群组表征;绑定模块用于对编码器的输出进行聚类;
具体地,图像表征与可学习的群组表征首先进行拼接,并迭代地通过Transformer编码器和绑定模块。其中:
所述Transformer编码器,其编码过程可表示为:
其中,与/>分别代表Transformer编码器层;/>代表绑定模块。输出/>是经过编码的群组表征,同时/>代表输出的图像表征。G和I分别表示可学习的初始群组表征以及输入图像。
在Transformer编码器中,与/>同时包含6层Transformer编码器层,其中每层包含一个多头自注意力模块、一个层归一化模块、一个前馈神经网络。/>首先将拼接过的图像表征与随机初始化的群组表征作为输入,并输出经过编码的图像表征与群组表征,分别表示为G′和I′。/>则处理绑定模块的输出。
所述绑定模块,使用slot-attention[2]来实现聚类,具体是使用slot-attention将图像块通过聚类的方式聚合到可学习的群组表征中。即具有相似外观和语义的图像表征更容易被聚合到同一个群组中。绑定模块接受第一个Transformer编码器的输出,并将其分别转换为查询表征、键表征与值表征。整个过程表示为:
其中,和/>分别代表查询表征、键表征与值表征的对应映射。相比于传统的Transformer解码器中的交叉注意力,slot-attention侧重于将归一化操作沿着查询表征维度进行,使得每个图像表征能够被所有群组表征中的一个标识。整个绑定过程可被表示为:
其中,Aj,k代表第j个图像表征属于第k个群组表征的概率,Kj,Qk,Ql分别表示第j个键表征、第k个查询表征和第l个查询表征,Kj·Qk表示两个表征的点积。接下来,每个群组表征被更新为所有被指定到属于该群组的图像表征的加权平均值。绑定模块的输出Gbind可被表示为:
其中,代表输出层线性变换,Vj表示为第j个值表征。通过以上公式获得每个图像块与群组表征的对应关系。
本发明中,所述文本编码器对图像描述进行编码。首先,通过过滤数据集中所有的图像描述,并保留部分只包含特定包含信息量的实体,在此基础上探究三种类型特征表示:(1)完整描述表征;(2)屏蔽描述表征;以及(3)提示实体表征。在所有三种文本特征表示中,采用预训练的BERT作为文本编码器φtext。接下来,首先介绍实体集构建过程,并依次介绍本发明中的三种文本表征。
本发明采用NLTK自然语言处理工具对所有图像描述中的实体进行提取,并以此构建实体集Ω=φentity({T1,…,TN)。该实体集只包含经常出现的实体,如人、猫、衬衫、公交车、房子等,并不包含抽象名词如艺术、视野等。抛弃抽象名词是由于抽象名词通常不包含任何与图像中具体某个区域物体相对应的关系。对于每个图像-描述对,通过该方法可获得图像-描述-实体的三元组(I,T,E),其中,T=(T1,…,TN),E={e|e∈T and e∈Ω}包含所有常见的描述中出现的实体。
完整描述表征即对于每个描述T,通过BERT分词器得到其对应输入,并在句子的开始与结尾部分分别添加[SOT]与[EOT]符号作为标记。完整描述表征被表示为:
其中,M代表经过分词后的文本序列长度,D表示为描述表征的维度。
屏蔽描述表征即通过将描述中所有实体进行遮蔽得到的文本表征。定义遮蔽函数g()将实体词汇转换为特殊[MASK]标记,则屏蔽描述表征可被表示为:
提示实体表征与屏蔽描述表征相对应,通过将所有被屏蔽的实体词汇连接在一起,并使用提示模版进行拼接得到。例如,本发明将随机抽取一个提示模板,并将被屏蔽的实体词汇连接在一起构建出句子A painting of an{entity 1}and{entity 2}and{entity3}的形式。于是,提示实体表征可被计算为:
其中,h()代表构建人工提示模板的函数。至此,三种描述特征均构建完成。
所述学习优化模块,包括图像-描述对齐子模块、屏蔽实体补全子模块、跨图像掩码一致性子模块。这3个子模块对应着三个目标函数:
(1)图像-描述对齐子模块,旨在将匹配的图像特征与对应的完整描述表征在特征空间中进行对齐。设视觉表示zI被定义为所有群组表征的平均值,而文本表示则通过取出完整描述表征的[EOT]符号对应的表征。两者都被映射至256维的低维空间中,并在此基础上经过归一化操作。图像-描述对齐子模块采用对比损失函数Lcontrast,该函数被定义为:
其中,分别表示第i个样本的所有群组表征的平均值、第j个样本的文本表征和第k个样本的所有群组表征的平均值,/>表示两个表征的点积。
(2)屏蔽实体补全子模块,旨在通过推断句子中所有被遮蔽的实体来实现图像语义理解。具体地,本发明采用Transformer解码器作为核心架构,其中经过映射的屏蔽描述表征作为解码器中的查询表征,经过映射的群组表征分别作为解码器中的键表征与值表征。整个解码器可表示为:
其中,和/>分别代表线性映射。/>代表更新过的特征向量,其中被遮蔽的实体信息被群组特征所补全。在训练过程中,通过提取/>和/>对应的[EOT]符号表征,得到zM和zE。屏蔽实体补全损失依然采用对比损失,可被表示为:
其中,分别表示第i个样本的补全实体表征、第i个样本的屏蔽描述表征和第l个样本的补全实体表征,/>表示两个表征的点积。
屏蔽实体补全任务使群组表征与实体表征构建细粒度对齐机制。
(3)跨图像掩码一致性子模块,旨在训练模型针对两幅包含相同实体的图像给出一致性的掩码预测。具体地,对于每个实体可先从数据集中选取多个包含相同实体的图像-描述对。给定其中一个样本三元组(I1,T1,E1),可经过随机采样过程得到另一个样本三元组(I2,T2,E2),E1和E2的交集不为空集,即两者包含至少一个相同的实体。给定经过编码的群组表征通过筛选算法选择两组子群组/>其中子群组满足的条件为与对应实体的文本编码相似度高。定义总共选择KG′=rKG个群组表征,其中r代表选择比例KG代表原始的群组表征个数。于是,该相同实体的掩码可通过使用两组子群组/>分别在图像I1中定位出来。整个过程可被表达为:
其中,σ代表sigmoid激活函数,所得和/>都包含K′个无序的预测掩码。为对齐掩码预测/>和/>本发明首先构建二分图匹配问题以寻找最优的排列p*,使得该排列满足/>和/>匹配的总花费最小:
其中,代表全排列;cos(·)代表余弦相似度。在该公式中,求解最优排列的过程可使用匈牙利算法。得到最优排列的基础上,无序掩码/>保持不变,/>通过最优排列实现顺序变换,使得/>和/>在顺序上依次对应。同时,由于二分图匹配问题本质上可以解决两组数量不同的数据的匹配,在本发明中/>和/>数量相同,可保证每个掩码相互之间唯一的对应关系。至此,本发明使用对称的跨图像掩码一致性损失函数对齐两组掩码:
其中,sg(·)代表梯度截断,目标掩码可通过对原始掩码/>进行二值化与阈值化得到,/>表示模型预测的掩码经过最优排列变换后的结果。为保证掩码对齐的可靠性,掩码是通过另一个动量更新的网络预测得到,主网络通过滑动平均策略更新动量网络。
(4)最终,本发明的总目标函数可表示为:
Ltotal=Lcontrast+Lentity+λLmask #(23)
其中,λ为平衡跨图像掩码一致性损失的权重。
本发明的基于文本监督的开放词汇图像语义分割系统,其工作流程为:
(一)首先,通过选取100个常用实体构建全部实体集合,从数据集中根据构建实体集合筛选出包含指定实体的图像-描述样本对作为训练数据集;
(二)随机初始化群组表征,图像编码器与文本编码器均采用经自监督方式预训练好的模型权重,随机初始化解码器,通过公式(19)训练模型完成图像-描述对齐\屏蔽实体补全、以及跨图像掩码一致性预测任务;
(三)将所训练图像编码器、文本编码器、自动更新的群组表征保留,无需微调直接通过群组表征聚类给定测试图像,并针对给定候选类别实现聚类-类别映射,实现开放词汇的图像语义分割。
本发明整个流程中无需图像语义分割标签,仅用图像-文本描述配对数据完成训练,并取得精准图像语义分割结果。
本发明的特点和优势主要有:
(1)通过筛选现实生活中常用实体,构建针对特定实体集合的图像-描述配对数据集,显著减少无关实体、噪声配对数据对模型训练的影响,并针对训练资源受限条件下的模型训练提供有效数据支撑;
(2)首次提出一种基于Transformer的开放词汇语义分割模型,称为OVSegmentor,可以通过零样本迁移对任意类别的对象进行分割,仅使用图像-描述的成对数据进行预训练。在其中引入可学习的群组表征,使用基于slot-attention的绑定模块将图像块聚类,并将群组表征与相应的描述表征在特征空间实现对齐;
(3)首次在传统图像-描述对齐基础上提出两种全新目标函数,使模型在仅使用文本监督条件下学习有效的视觉-文本对齐,分别为屏蔽实体补全和跨图像掩码一致性;
(4)本发明在公共数据集PASCAL VOC、COCO、PASCAL Context、及ADE20K上,在无需掩码训练条件下取得最佳图像语义分割结果。
附图说明
图1是本发明系统图示。
图2是本发明中的模型完整框架图。
具体实施方式
由背景技术可知,之前的大部分研究都面临问题是:对于语义分割任务需要大量掩码标注训练分割模型,同时模型分割类别被预先限定而难以拓展到未见类别的问题。本发明针对上述问题进行深入研究,提供一种基于文本监督的开放词汇图像语义分割系统,以实现仅利用文本作为监督信息训练图像语义分割模型并具有开放词汇泛化能力。
下面通过实施例结合附图对本发明做进一步阐述。
如图1所示,本发明的基于文本监督的开放词汇图像语义分割系统包括图像编码器、文本编码器、跨模态解码器、屏蔽实体补全模块、及跨图像掩码一致性模块,其工作流程为:
一:所述图像编码器由Transformer编码器与绑定模块组成。具体地,图像表征与可学习的群组表征首先进行拼接,并迭代地通过Transformer编码器和绑定模块,其中绑定模块使用slot-attention实现聚类。整个编码过程可表示为:
模型输出经编码过后的图像特征与群组表征。
二:所述文本编码器对图像描述进行编码。首先,通过过滤数据集中所有的图像描述并保留部分只包含特定包含信息量的实体,在此基础上探究三种类型特征表示:(1)完整描述表征;(2)屏蔽描述表征;及(3)提示实体表征。在所有三种文本特征表示中,采用预训练的BERT作为文本编码器φtext。三种文本表征分别被表示为:
三:所述跨模态解码器接受图像编码器输出的群组表征和文本编码器的屏蔽描述表征作为输入,使用交叉注意力机制实现图像文本特征交互。解码器可表示为:
四:屏蔽实体补全旨在通过推断句子中所有被遮蔽的实体来实现图像语义理解。通过解码器更新过的文本特征向量,其中被遮蔽的实体信息被群组特征所补全。在训练过程中优化如下目标函数:
五:跨图像掩码一致性旨在训练模型针对两幅包含相同实体的图像给出一致性的掩码预测。
首先通过使用匈牙利算法求解不同掩码的匹配关系。
在此基础上,优化跨模态掩码一致性损失:
综上所述,本发明面向图像语义分割问题,在仅使用图像文本描述前提下,提出一种新颖的基于Transformer的开放词汇语义分割模型,称为OVSegmentor,可以通过零样本迁移对任意类别的对象进行分割,且仅使用图像-描述的成对数据进行预训练。该模型包含图像编码器、文本编码器、解码器、以及屏蔽实体补全与跨图像掩码一致性模块,使得利用互联网上大规模粗粒度文本描述标注数据完成图像分割成为可能。
本发明使用Conceptual Captions 12M[3]数据集进行训练,最初由从互联网收集的1200多万张图像-文本对构建。由于某些链接已过期,本发明采用约1000万张图像-文本对。构建的实体集共包含100个频繁出现的实体,抽象名词(如art、view)被过滤掉。过滤CC12M后获得430万张图像-文本对进行预训练,故称之为CC4M。实体示例包括人、汽车、杯子、椅子、T恤、房子、床、猫、球、比萨饼等。验证数据集包括PASCAL VOC、COCO、PASCALContext和ADE20K,分别包含29、80、59和200种类别的物体。由于直接采用验证评估,本发明丢弃了四个数据集的训练集,采用对应的1449、5105、5000和2000张测试集图像用于验证。
在模型中,视觉编码器中的自注意力层使用在ImageNet上预训练的DINO模型初始化。文本编码器使用在BookCorpus和英语维基百科上预训练的BERT模型初始化。解码器包含一个随机初始化的Transformer解码器层。模型训练时,输入图像随机裁剪为224×224,批量大小设置为2048,初始学习率为3.2×10-4。本发明使用Adam优化器和权重衰减0.5训练模型40个epochs。动量模型的更新系数为0.99。组选择比率r设置为0.5。在掩模一致性损失中使用δ=0.65作为阈值。在推理时,图像的较短边调整为448。同时为每个数据集的背景类设置一个阈值,在VOC,Context,COCO和ADE20K上的阈值分别为0.9,0.35,0.9和0.95。评估指标选择分割掩码与标签的交并比。
本发明具体对比对象(1)仅使用图像描述对齐子模块作为基线模型进行对比;(2)先进的GroupViT模型[4]。基线模型在四个数据集上分别取得了19.8/8.8/9.1/3.4的精度;GroupViT取得了51.2/22.3/20.9/3.6的精度。相比之下,本发明在四个数据集上分别取得了53.8/20.4/25.1/5.6的精度,显著超越了基线模型,并优于GroupViT模型,验证了本发明的优越性性。
参考文献:
1.Vaswani,Ashish,et al."Attention is all you need."Advances in neuralinformation processing systems 30
(2017).
2.Locatello,Francesco,et al."Object-centric learning with slotattention."Advances in Neural Information Processing Systems 33(2020):11525-11538.
3.Sharma,Piyush,et al."Conceptual captions:A cleaned,hypernymed,imagealt-text dataset for automatic image captioning."Proceedings of the 56thAnnual Meeting of the Association for Computational Linguistics(Volume 1:LongPapers).2018.
4.Jiarui Xu,Shalini De Mello,Sifei Liu,Wonmin Byeon,Thomas Breuel,JanKautz,and Xiaolong Wang.
Groupvit:Semantic segmentation emerges from text supervision.In CVPR,2022。

Claims (5)

1.基于文本监督的开放词汇图像语义分割系统,其特征在于,包括图像编码器、文本编码器、跨模态解码器、学习优化模块,学习优化模块包括图像-描述对齐子模块、屏蔽实体补全子模块、跨图像掩码一致性子模块;其中,所述图像编码器用于对图像特征进行提取,同时使用可学习的群组表征对图像进行聚类;所述文本编码器针对图像描述进行编码,建立与群组表征的对齐关系;所述跨模态解码器使用交叉注意力机制将群组表征与屏蔽描述表征进行交互融合;所述学习优化模块,使得模型在仅使用文本监督条件下学习视觉-文本对齐,得到优化分割的网络模型;所述图像-描述对齐子模块将匹配的图像特征与对应的完整描述表征在特征空间中进行对齐;所述屏蔽实体补全模块根据屏蔽描述中的常见实体,通过群组表征补全信息实现细粒度图像-文本对齐;所述跨模态图像掩码一致性子模块约束包含相同实体的不同图像产生相同的实体掩码训练模型学习视觉不变性。
2.根据权利要求1所述开放词汇图像语义分割系统,其特征在于,所述图像编码器,包括Transformer编码器与绑定模块;Transformer编码器用于对图像进行编码,其输入为拼接过的图像表征与随机初始化的群组表征,输出为经过编码的图像表征与群组表征;绑定模块用于对编码器的输出进行聚类;具体地,图像表征与可学习的群组表征首先进行拼接,并迭代地通过Transformer编码器和绑定模块;其中:
所述Transformer编码器,其编码过程表示为:
其中,与/>分别代表Transformer编码器层;/>代表绑定模块;输出/>是经过编码的群组表征,同时/>代表输出的图像表征;G和I分别表示可学习的初始群组表征以及输入图像;
在Transformer编码器中,与/>同时包含6层Transformer编码器层,其中每层包含一个多头自注意力模块、一个层归一化模块、一个前馈神经网络;/>首先将拼接过的图像表征与随机初始化的群组表征作为输入,并输出经过编码的图像表征与群组表征,分别表示为G′和I′;/>则处理绑定模块的输出;
所述绑定模块,使用slot-attention来实现聚类,具体是使用slot-attention将图像块通过聚类的方式聚合到可学习的群组表征中,即具有相似外观和语义的图像表征更容易被聚合到同一个群组中;绑定模块接受第一个Transformer编码器的输出,并将其分别转换为查询表征、键表征与值表征;其过程表示为:
其中,和/>分别代表查询表征、键表征与值表征的对应映射;
slot-attention侧重于将归一化操作沿着查询表征维度进行,使得每个图像表征能够被所有群组表征中的一个标识;整个绑定过程表示为:
其中,Aj,k代表第j个图像表征属于第k个群组表征的概率,Kj,Qk,Ql分别表示第j个键表征、第k个查询表征和第l个查询表征,Kj·Qk表示两个表征的点积;接下来,每个群组表征被更新为所有被指定到属于该群组的图像表征的加权平均值;绑定模块的输出Gbind表示为:
其中,代表输出层线性变换,Vj表示为第j个值表征;通过以上公式获得每个图像块与群组表征的对应关系。
3.根据权利要求2所述开放词汇图像语义分割系统,其特征在于,所述文本编码器对图像描述进行编码;首先,过滤数据集中所有的图像描述,并保留部分只包含特定包含信息量的实体,在此基础上构建三种类型特征表示:(1)完整描述表征;(2)屏蔽描述表征;(3)提示实体表征;在所有三种文本特征表示中,采用预训练的BERT作为文本编码器φtext
(一)构建实体集;采用NLTK自然语言处理工具对所有图像描述中的实体进行提取,并以此构建实体集Ω=φentity({T1,…,TN);对于每个图像-描述对,获得图像-描述-实体的三元组(I,T,E),其中,T=(T1,…,TN),E={e|e∈T and e∈Ω}包含所有常见的描述中出现的实体;
(二)构建三种类型特征表示:
完整描述表征,即对于每个描述T,通过BERT分词器得到其对应输入,并在句子的开始与结尾部分分别添加[SOT]与[EOT]符号作为标记;完整描述表征表示为:
其中,M代表经过分词后的文本序列长度,D表示为描述表征的维度;
屏蔽描述表征,即通过将描述中所有实体进行遮蔽得到的文本表征;定义遮蔽函数g()将实体词汇转换为特殊[MASK]标记,则屏蔽描述表征表示为:
提示实体表征,与屏蔽描述表征相对应,通过将所有被屏蔽的实体词汇连接在一起,并使用提示模版进行拼接得到;提示实体表征表示为:
其中,h()代表构建人工提示模板的函数。
4.根据权利要求3所述开放词汇图像语义分割系统,其特征在于,所述学习优化模块,包括图像-描述对齐子模块、屏蔽实体补全子模块、跨图像掩码一致性子模块;这3个子模块对应着三个目标函数:
(1)图像-描述对齐子模块,旨在将匹配的图像特征与对应的完整描述表征在特征空间中进行对齐;设视觉表示zI被定义为所有群组表征的平均值,而文本表示则通过取出完整描述表征的[EOT]符号对应的表征;两者都被映射至256维的低维空间中,在此基础上经过归一化操作;图像-描述对齐子模块采用对比损失函数Lcontrast,该函数定义为:
其中,分别表示第i个样本的所有群组表征的平均值、第j个样本的文本表征和第k个样本的所有群组表征的平均值,/>表示两个表征的点积;
(2)屏蔽实体补全子模块,旨在通过推断句子中所有被遮蔽的实体来实现图像语义理解;具体地,采用Transformer解码器作为核心架构,其中经过映射的屏蔽描述表征作为解码器中的查询表征,经过映射的群组表征分别作为解码器中的键表征与值表征;整个解码器表示为:
其中,和/>分别代表线性映射;/>代表更新过的特征向量,其中被遮蔽的实体信息被群组特征所补全;在训练过程中,通过提取/>和/>对应的[EOT]符号表征,得到zM和zE;屏蔽实体补全损失依然采用对比损失,表示为:
其中,分别表示第i个样本的补全实体表征、第i个样本的屏蔽描述表征和第l个样本的补全实体表征,/>表示两个表征的点积;
屏蔽实体补全任务使群组表征与实体表征构建细粒度对齐机制;
(3)跨图像掩码一致性子模块,旨在训练模型针对两幅包含相同实体的图像给出一致性的掩码预测;具体地:
对于每个实体,先从数据集中选取多个包含相同实体的图像-描述对;给定其中一个样本三元组(I1,T1,E1),经过随机采样过程得到另一个样本三元组(I2,T2,E2),E1和E2的交集不为空集,即两者包含至少一个相同的实体;给定经过编码的群组表征通过筛选算法选择两组子群组/>其中子群组满足的条件为与对应实体的文本编码相似度高;定义总共选择KG =rKG个群组表征,其中r代表选择比例,KG代表原始的群组表征个数;于是,该相同实体的掩码通过使用两组子群组/>分别在图像I1中定位出来;整个过程表达为:
其中,σ代表sigmoid激活函数,所得和/>都包含KG 个无序的预测掩码;为对齐掩码预测/>和/>首先构建二分图匹配问题以寻找最优的排列p*,使得该排列满足/>和/>匹配的总花费最小:
其中,代表全排列;cos(·)代表余弦相似度;求解最优排列的过程使用匈牙利算法;得到最优排列的基础上,无序掩码/>保持不变,/>通过最优排列实现顺序变换,使得/>和/>在顺序上依次对应;由于二分图匹配问题本质上可以解决两组数量不同的数据的匹配,/>和/>数量相同,保证每个掩码相互之间唯一的对应关系;使用对称的跨图像掩码一致性损失函数对齐两组掩码,损失函数表示为:
其中,sg(·)代表梯度截断,目标掩码可通过对原始掩码/>进行二值化与阈值化得到,/>表示模型预测的掩码经过最优排列变换后的结果;为保证掩码对齐的可靠性,掩码是通过另一个动量更新的网络预测得到,主网络通过滑动平均策略更新动量网络;
(4)最终,总目标函数表示为:
Ltotal=Lcontrast+Lentity+λLmask#(23)
其中,λ为平衡跨图像掩码一致性损失的权重。
5.根据权利要求4所述的开放词汇图像语义分割系统,其特征在于,其工作流程为:
(一)选取100个常用实体构建全部实体集合,从数据集中根据构建实体集合筛选出包含指定实体的图像-描述样本对作为训练数据集;
(二)随机初始化群组表征,图像编码器与文本编码器均采用经自监督方式预训练好的模型权重,随机初始化解码器,通过公式(19)训练模型完成图像-描述对齐\屏蔽实体补全、以及跨图像掩码一致性预测任务;
(三)将所训练图像编码器、文本编码器、自动更新的群组表征保留,无需微调直接通过群组表征聚类给定测试图像,并针对给定候选类别实现聚类-类别映射,实现开放词汇的图像语义分割。
CN202310570960.0A 2023-05-20 2023-05-20 基于文本监督的开放词汇图像语义分割系统 Pending CN116612281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310570960.0A CN116612281A (zh) 2023-05-20 2023-05-20 基于文本监督的开放词汇图像语义分割系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310570960.0A CN116612281A (zh) 2023-05-20 2023-05-20 基于文本监督的开放词汇图像语义分割系统

Publications (1)

Publication Number Publication Date
CN116612281A true CN116612281A (zh) 2023-08-18

Family

ID=87684806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310570960.0A Pending CN116612281A (zh) 2023-05-20 2023-05-20 基于文本监督的开放词汇图像语义分割系统

Country Status (1)

Country Link
CN (1) CN116612281A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843162A (zh) * 2023-08-28 2023-10-03 之江实验室 一种矛盾调解方案推荐与评分系统及方法
CN117407557A (zh) * 2023-12-13 2024-01-16 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机
CN117671688A (zh) * 2023-12-07 2024-03-08 北京智源人工智能研究院 基于可提示分割模型的分割识别和文本描述方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843162A (zh) * 2023-08-28 2023-10-03 之江实验室 一种矛盾调解方案推荐与评分系统及方法
CN116843162B (zh) * 2023-08-28 2024-02-09 之江实验室 一种矛盾调解方案推荐与评分系统及方法
CN117671688A (zh) * 2023-12-07 2024-03-08 北京智源人工智能研究院 基于可提示分割模型的分割识别和文本描述方法及系统
CN117407557A (zh) * 2023-12-13 2024-01-16 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机
CN117407557B (zh) * 2023-12-13 2024-05-07 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机

Similar Documents

Publication Publication Date Title
CN111046668B (zh) 多模态文物数据的命名实体识别方法与装置
Kang et al. Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition
Zhang et al. Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition
CN107330032B (zh) 一种基于递归神经网络的隐式篇章关系分析方法
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
CN116612281A (zh) 基于文本监督的开放词汇图像语义分割系统
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN114743020B (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN111680484B (zh) 一种视觉常识推理问答题的答题模型生成方法和系统
CN113486669B (zh) 应急救援输入语音的语义识别方法
Han et al. A survey of transformer-based multimodal pre-trained modals
Bae et al. Flower classification with modified multimodal convolutional neural networks
Gómez et al. Multimodal grid features and cell pointers for scene text visual question answering
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
CN113033438A (zh) 一种面向模态非完全对齐的数据特征学习方法
Huang et al. Zero-shot Chinese text recognition via matching class embedding
CN116775872A (zh) 一种文本处理方法、装置、电子设备及存储介质
CN114529903A (zh) 文本细化网络
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN116383671A (zh) 隐式关系推理对齐的文本图像跨模态行人检索方法及系统
Xiao et al. An extended attention mechanism for scene text recognition
CN115131638A (zh) 视觉文本预训练模型的训练方法、装置、介质和设备
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
Sasibhooshan et al. Image caption generation using visual attention prediction and contextual spatial relation extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination