CN117078942B - 上下文感知的指称图像分割方法、系统、设备及存储介质 - Google Patents

上下文感知的指称图像分割方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN117078942B
CN117078942B CN202311319576.XA CN202311319576A CN117078942B CN 117078942 B CN117078942 B CN 117078942B CN 202311319576 A CN202311319576 A CN 202311319576A CN 117078942 B CN117078942 B CN 117078942B
Authority
CN
China
Prior art keywords
features
text
scale
visual
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311319576.XA
Other languages
English (en)
Other versions
CN117078942A (zh
Inventor
张勇东
刘荪傲
谢洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202311319576.XA priority Critical patent/CN117078942B/zh
Publication of CN117078942A publication Critical patent/CN117078942A/zh
Application granted granted Critical
Publication of CN117078942B publication Critical patent/CN117078942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种上下文感知的指称图像分割方法、系统、设备及存储介质,它们是一一对应的方案,方案中:利用注意力机制进行所述合并多尺度特征与上下文感知的掩膜文本特征之间的交互,能够显著增强了文本特征的视觉上下文感知能力,促进跨模态的特征对齐;同时,本发明还引入多尺度视觉上下文的文本提示,在文本编码阶段进一步融合了上下文信息,并且,针对无法与文本描述有效对齐的非目标像素(即背景像素),本发明所提出的掩膜提示作为文本描述在掩膜解码阶段的扩展向量,用于代替无关的文本特征与非目标像素进行对齐,得益于上述改进,本发明显著提升了图像分割性能,在多个数据集上达到了先进水平。

Description

上下文感知的指称图像分割方法、系统、设备及存储介质
技术领域
本发明涉及图像分割技术领域,尤其涉及一种上下文感知的指称图像分割方法、系统、设备及存储介质。
背景技术
指称图像分割(referring image segmentation)是视觉语言理解中的关键任务,旨在根据自然语言描述,在给定图像中分割被指称目标物体的像素级掩膜。区别于传统的语义或实例分割,指称图像分割的分割目标不再局限于预定义的固定类别,而需要在多个同类实例中根据不限格式的文本描述定位目标实例。文本描述给定了目标的部分判别性信息,例如动作、位置、属性等,并且具有开放的词库。
得益于Transformer(变压器)模型,近年来的指称图像分割方法通过交叉注意力将语言特征与像素级的视觉特征进行对齐,显著提升了分割性能。然而,由于指称图像分割任务中文本描述的高自由度,这一操作存在两个弊端:首先,文本描述可能存在隐式指代,即仅通过描述判别性特征指代分割目标,而不给出目标的显式定义。例如,通过“白色短裤”而非“穿白色短裤的男性”指代特定人物。其次,文本描述通常指提及了图像中的少数物体。针对未提及的目标,缺少合适的文本特征与相关像素特征进行对齐,因此损害了目标与非目标像素之间的区分性。因此,目前的指称图像分割方案难以获得较好的分割性能。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种上下文感知的指称图像分割方法、系统、设备及存储介质,将丰富的视觉上下文信息整合到文本特征中,显著地提高了图像分割能力。
本发明的目的是通过以下技术方案实现的:
一种上下文感知的指称图像分割方法,包括:
步骤1、对输入图像进行多尺度特征的提取,获得多尺度视觉特征;
步骤2、设置文本提示,并结合单一尺度视觉特征生成融合多尺度视觉上下文信息的融合文本提示,再结合所述融合文本提示对输入文本进行特征提取,获得上下文感知的文本特征;
步骤3、将所述多尺度视觉特征中的一部分视觉特征合并,获得合并多尺度特征,使用掩膜提示对所述上下文感知的文本特征进行扩充,获得上下文感知的掩膜文本特征;利用注意力机制进行所述合并多尺度特征与上下文感知的掩膜文本特征之间的交互,获得对齐后的合并多尺度特征与带有掩膜提示的扩充文本特征;利用所述对齐后的合并多尺度特征与所述多尺度视觉特征中的另一部分视觉特征生成掩膜嵌入,再结合所述带有掩膜提示的扩充文本特征计算前景和背景的响应图,并进行像素级的图像分割。
一种上下文感知的指称图像分割系统,包括:上下文感知的指称图像分割模型,所述上下文感知的指称图像分割模型包括:图像编码器、文本编码器与上下文感知掩膜解码器;其中:
所述图像编码器,用于对输入图像进行多尺度特征的提取,获得多尺度视觉特征;
所述文本编码器,用于设置文本提示,并结合单一尺度视觉特征生成融合多尺度视觉上下文信息的融合文本提示,再结合所述融合文本提示对输入文本进行特征提取,获得上下文感知的文本特征;
上下文感知掩膜解码器,用于将所述多尺度视觉特征中的一部分视觉特征合并,获得合并多尺度特征,使用掩膜提示对所述上下文感知的文本特征进行扩充,获得上下文感知的掩膜文本特征;利用注意力机制进行所述合并多尺度特征与上下文感知的掩膜文本特征之间的交互,获得对齐后的合并多尺度特征与带有掩膜提示的扩充文本特征;利用所述对齐后的合并多尺度特征与所述多尺度视觉特征中的另一部分视觉特征生成掩膜嵌入,再结合所述带有掩膜提示的扩充文本特征计算前景和背景的响应图,并进行像素级的图像分割。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,利用注意力机制进行所述合并多尺度特征与上下文感知的掩膜文本特征之间的交互,能够显著增强了文本特征的视觉上下文感知能力,促进跨模态的特征对齐;同时,本发明还引入多尺度视觉上下文的文本提示,在文本编码阶段进一步融合了上下文信息,并且,针对无法与文本描述有效对齐的非目标像素(即背景像素),本发明所提出的掩膜提示作为文本描述在掩膜解码阶段的扩展向量,用于代替无关的文本特征与非目标像素进行对齐,得益于上述改进,本发明显著提升了图像分割性能,在多个数据集上达到了先进水平。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种上下文感知的指称图像分割方法的流程图;
图2为本发明实施例提供的一种上下文感知的指称图像分割方法的示意图;
图3为本发明实施例提供的一种序列视觉语言注意力单元的结构示意图;
图4为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
下面对本发明所提供的一种上下文感知的指称图像分割方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
实施例一
本发明实施例提供一种上下文感知的指称图像分割方法,如图1所示,其主要包括如下步骤:
步骤1、提取多尺度视觉特征。
本发明实施例中,对输入图像进行多尺度特征的提取,获得多尺度视觉特征。
步骤2、提取上下文感知的文本特征。
本发明实施例中,设置文本提示,并结合单一尺度视觉特征生成融合多尺度视觉上下文信息的融合文本提示,再结合所述融合文本提示对输入文本进行特征提取,获得上下文感知的文本特征。
步骤3、利用多尺度视觉特征与上下文感知的文本特征进行像素级的图像分割。
本发明实施例中,将所述多尺度视觉特征中的一部分视觉特征合并,获得合并多尺度特征,使用掩膜提示对所述上下文感知的文本特征进行扩充,获得上下文感知的掩膜文本特征;利用注意力机制进行所述合并多尺度特征与上下文感知的掩膜文本特征之间的交互,获得对齐后的合并多尺度特征与带有掩膜提示的扩充文本特征;利用所述对齐后的合并多尺度特征与所述多尺度视觉特征中的另一部分视觉特征生成掩膜嵌入,再结合所述带有掩膜提示的扩充文本特征计算前景和背景的响应图,并进行像素级的图像分割。
本发明实施例中,前述步骤1通过图像编码器实现,前述步骤2通过文本编码器实现,前述步骤3通过上下文感知掩膜解码器实现,它们三者共同组成上下文感知的指称图像分割模型。该模型需要预先进行训练,在训练阶段,将指称图像分割任务转化为像素级的二分类任务,即将前景和背景的响应图中各位置处像素的响应值转换为概率值,再计算分类损失;结合所述分类损失优化上下文感知的指称图像分割模型,并且,前文所提到的文本提示与掩膜提示都是可学习的向量,因此,也一并进行优化。
本发明实施例提供的上述方案,本发明可以对输入图像按照文本描述进行图像分割,从而用于图像编辑、虚拟现实等场景。在实施上,可以以软件的方式安装于电脑、手机等设备,提供实时分割;也可以安装于服务器,提供大批量后台分割。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。
一、构建上下文感知的指称图像分割模型。
如图2所示,展示了上下文感知的指称图像分割模型的主要结构,它主要包含三个部分:图像编码器、文本编码器与上下文感知掩膜解码器。
图像编码器、文本编码器各种负责从输入图像、输入文本中提取多尺度视觉特征、文本特征。
示例性的:所述图像编码器采用多尺度特征提取网络(如Swin Transformer模型)实现;文本编码器可以采用大规模预训练语言模型(如BERT模型)作为主干网络(即文本编码网络)执行后续的文本特征提取过程。
上下文感知掩膜解码器中设计有M个序列视觉语言注意力单元,其输入为来自图像编码器与文本编码器,负责进行两个模态(视觉模态与文本模态)特征的交互,以实现上下文感知的跨模态对齐。
需要说明的是,图2提供的输入图像与输入文本(卷发)均为举例,并非构成限制,此外,输入文本的语种不做限定,可以中文形式,也可以采用非中文形式(例如,英文)。
二、模型的工作与训练方案。
现有指称图像分割方法中用于实现跨模态特征融合的交叉注意力结构包括单向的语言至视觉注意力以及双向并行的视觉语言注意力。这些结构均使用原始语言特征与像素级视觉特征进行融合,导致文本描述若存在隐式指代等缺乏对图像上下文充分描述的情况,则无法与像素特征进行良好的对齐。此外,图像中存在大量没有被文本描述提及的非目标物体,这些非目标像素在现有的交叉注意力中同样被与目标相关的文本描述进行对齐,从而影响了对齐后目标视觉特征的判别性。针对上述问题,本发明所提出的序列视觉语言注意力通过依次进行视觉至语言注意力以及语言至视觉注意力,首先显著增强了文本特征的视觉上下文感知能力,随后通过对齐增强后的文本特征与像素级视觉特征,有效促进了跨模态的特征对齐。同时,本发明还通过引入多尺度视觉上下文的文本提示,在文本编码阶段进一步融合了上下文信息。针对无法与文本描述有效对齐的非目标像素,本发明所提出的掩膜特征作为文本描述在掩膜解码阶段的扩展向量,用于在交叉注意力阶段与非目标像素进行对齐,并通过分类损失进行监督,有效地提升了对齐后视觉特征的判别性。
1、图像编码器。
图像编码器主要负责从输入图像中提取多尺度视觉特征,/>表示第i个尺度的视觉特征,N为尺度数目。
示例性的,可以设置N=4,即,提取4个尺度的视觉特征,图2也给出了相应的示例,即图像编码器内部的四个矩形框表示4个尺度的视觉特征;作为举例,当N=4时,4个尺度的视觉特征的分辨率可以依次为输入图像的1/4、1/8、1/16、1/32。
2、文本编码器。
本发明实施例中,将输入文本转换为文本嵌入E,并在文本嵌入E中增加一个用于表示文本全局信息的符号(例如,[CLS]符号),再与融合文本提示级联后通过文本编码器中的文本编码网络(例如,前文列举的BERT模型)进行文本特征的提取,获得上下文感知的文本特征。
本发明实施例中,融合文本提示可以通过如下方式产生:设置文本提示,它是一个可学习的向量,其长度记为/>,维度与对输入文本进行特征提取时涉及的文本嵌入E的维度一致;对最后一个尺度的视觉特征进行金字塔平均池化,再与文本提示/>相加以融合多尺度视觉上下文信息,获得融合文本提示,表示为:
其中,为最后一个(第N个)尺度的视觉特征,/>表示输出尺寸为的平均池化,/>为输出尺寸中的宽度与高度,k为池化的级数,/>为池化的总级数(即,/>),Concat表示级联操作,/>表示融合文本提示。
将融合文本提示与文本嵌入E级联后通过文本编码网络进行文本特征的提取,获得上下文感知的文本特征;如图2所示,文本编码网络输出有两个部分,左侧部分为上下文感知的文本特征,右侧部分为文本编码网络对应于文本提示的输出,考虑到引入的文本提示主要用于文本编码网络中与文本特征融合,其对应的输出不会在后续使用,因此,可以舍去。
3、上下文感知掩膜解码器。
本发明实施例中,上下文感知掩膜解码器的输入为多尺度视觉特征,以及上下文感知的文本特征。首先,通过线性映射层将多尺度视觉特征与上下文感知的文本特征统一到相同维度,映射后的上下文感知的文本特征记为/>,映射后的多尺度视觉特征记为/>;将映射后的第2个尺度至最后一个尺度的视觉特征/>展平并级联得到合并多尺度特征/>,其中,/>表示映射后的第i个尺度的视觉特征。
考虑到输入图像中存在大量未被文本描述提及的非目标物体,本发明使用掩膜提示作为文本特征的扩充,用于在掩膜解码过程中代替无关的文本特征与非目标像素进行对齐。掩膜提示包含/>个维度与/>一致的可学习向量,将掩膜提示与映射后的上下文感知的文本特征/>级联,获得上下文感知的掩膜文本特征。
本发明实施例中,上下文感知掩膜解码器中设计有M个序列视觉语言注意力单元,第一个序列视觉语言注意力单元的输入为合并多尺度特征与上下文感知的掩膜文本特征,输出的带有掩膜提示的扩充文本特征、对齐后的合并多尺度特征,作为第二个序列视觉语言注意力单元的输入,最后一个序列视觉语言注意力单元输出的带有掩膜提示的扩充文本特征、对齐后的合并多尺度特征将用于像素级的图像分割;每一序列视觉语言注意力单元设有两类注意力方式,即视觉至语言注意力与语言至视觉注意力,具体的:先通过视觉至语言注意力将多尺度特征中的视觉上下文信息整合到文本特征中,获得带有掩膜提示的扩充文本特征;再通过语言至视觉注意力将多尺度特征中的每个像素与带有掩膜提示的扩充文本特征进行对齐,获得对齐后的合并多尺度特征;其中,对于第一个序列视觉语言注意力单元,视觉至语言注意力与语言至视觉注意力中涉及的多尺度特征为所述合并多尺度特征,非第一个序列视觉语言注意力单元,所述的多尺度特征为上一个序列视觉语言注意力单元输出的对齐后的合并多尺度特征;对于第一个序列视觉语言注意力单元,视觉至语言注意力中涉及的文本特征为上下文感知的掩膜文本特征,非第一个序列视觉语言注意力单元,视觉至语言注意力中涉及的文本特征为上一个序列视觉语言注意力单元输出的带有掩膜提示的扩充文本特征。
图3展示了序列视觉语言注意力单元的主要结构,将双向的交叉注意力改进为两个序列单向注意力(即视觉至语言注意力与语言至视觉注意力),通过视觉至语言注意力,可以将丰富的视觉上下文信息整合到文本特征中,以增强文本特征的上下文感知能力。随后,通过语言至视觉注意力,可以将上下文感知的文本特征与像素级视觉特征进行对齐,并且使用多尺度可变形注意力替换自注意力层,以提高对多尺度视觉特征应用自注意力的计算性能。
以第一个序列视觉语言注意力单元为例,介绍主要结构:(1)视觉至语言注意力部分包含交叉注意力层、三个求和及归一化层、自注意力层与前馈网络;上下文感知的掩膜文本特征与合并多尺度特征输入至交叉注意力层,其中,上下文感知的掩膜文本特征作为查询向量(Q),合并多尺度特征/>作为键向量(K)和与值向量(V)进行交叉注意力计算,交叉注意力层输出连接第一个求和及归一化层,同时上下文感知的掩膜文本特征也输入至求和及归一化层,第一个求和及归一化层输出的归一化特征输入至自注意力层,进行自注意力计算,自注意力层输出以及它的输入(也就是第一个求和及归一化层的输出)连接第二个求和及归一化层,第二个求和及归一化层输出的归一化特征输入至前馈网络,前馈网络的输出以及它的输入连接第三个求和及归一化层,第三个求和及归一化层输出的归一化特征即为带有掩膜提示的扩充文本特征。(2)语言至视觉注意力部分包括:交叉注意力层、三个求和及归一化层、多尺度可变形注意力层与前馈网络;带有掩膜提示的扩充文本特征与合并多尺度特征/>输入至交叉注意力层,其中,合并多尺度特征/>作为查询向量(Q),带有掩膜提示的扩充文本特征作为键向量(K)和与值向量(V)进行交叉注意力计算,交叉注意力层输出连接第一个求和及归一化层,同时合并多尺度特征/>也输入至求和及归一化层,第一个求和及归一化层输出的归一化特征输入至多尺度可变形注意力层,进行自注意力计算,多尺度可变形注意力层输出以及它的输入(也就是第一个求和及归一化层的输出)连接第二个求和及归一化层,第二个求和及归一化层输出的归一化特征输入至前馈网络,前馈网络的输出以及它的输入连接第三个求和及归一化层,第三个求和及归一化层输出的归一化特征即为对齐后的合并多尺度特征。
将最后一个序列视觉语言注意力单元输出的带有掩膜提示的扩充文本特征、对齐后的合并多尺度特征/>用于像素级的图像分割,方式如下:将对齐后的合并多尺度特征进行拆分并取出其中最高尺度的视觉特征,即拆分后变为对齐后的多尺度视觉特征/>,/>为对齐后的第i个尺度的视觉特征,其中第2个尺度为最高尺度,因此,取出对齐后的第2个尺度的视觉特征/>,通过上采样(如双线性插值)后与映射后的第1个尺度的视觉特征/>相加(图3中的符号/>)融合,再经过卷积映射得到掩膜嵌入/>;将所述带有掩膜提示的扩充文本特征进行拆分,获得文本特征部分与掩膜提示特征部分,依次记为/>、/>;取出文本特征部分中的用于表示文本全局信息的符号,作为全局表示/>用于判别前景像素,取掩膜提示特征部分的平均/>用于判别背景像素;将/>与/>级联(图3中的符号/>),再与掩膜嵌入/>通过矩阵乘法(图3中的符号/>)分别得到前景和背景的响应图:
其中,为掩膜嵌入/>中/>位置处像素的掩膜值,x为横轴位置,y为纵轴位置;/>为/>位置处像素属于前景的响应值,/>为/>位置处像素属于背景的响应值;/>和/>分别代表一个映射单元,它们对应的映射单元结构相同,但是参数不同,因此使用不同符号来区分,具体的,映射单元可以包括:若干个(例如,3个)依次连接的线性层,相邻线性层之间设有ReLU(修正线性单元)激活函数。
结合前景和背景的响应图进行像素级的图像分割,即对于每个位置的像素,比较其属于前景的响应值与背景的响应值的大小,选择较大者作为其分割类别,例如,,则认定/>位置处像素属于前景这一分割类别。
本领域技术人员可以理解,前景即为目标物体(即输入文本中指定的物体),背景即为非目标物体。
4、模型训练。
本发明实施例中,在训练阶段,将指称图像分割任务转化为像素级的二分类任务,即将前景和背景的响应图中各位置处像素的响应值转换为概率值,再计算分类损失L(可采用交叉熵损失计算),表示为:
其中,exp表示以自然常数e为底的指数函数,为/>位置处像素属于前景的响应值,/>为/>位置处像素属于背景的响应值,/>为/>位置处像素属于背景的概率值,/>为/>位置处像素属于前景的概率值,x为横轴位置,y为纵轴位置;前景和背景的响应图的尺度与输入图像尺寸相同,H与W分别为输入图像的高度与宽度,为/>位置处像素的标注,若/>位置处像素为前景,则/>,否则,
之后,结合所述分类损失优化上下文感知的指称图像分割模型以及文本提示与掩膜提示。考虑到此部分可通过常规技术来实现,因此,不做赘述。
下面提供更为细致的训练示例说明。
模型输入为RGB(红绿蓝三通道)彩色自然图像与自由形式的文本描述。用于训练的数据集包括RefCOCO、RefCOCO+、RefCOCOg,均为英文描述文本。评价指标可采用总交并比(oIoU)、平均交并比(mIoU)、阈值精确度(P@X),其中P@X代表交并比高于阈值X的测试样本百分比,X可选0.5、0.7、0.9等。
模型在三个数据集上图像的输入尺寸均为448×448。没有采用额外的数据增广策略。使用AdamW(Adaptive Moment Estimation with weight decay,带有权重衰减的自适应动量估计)算法作为优化器,并采用多项式衰减的学习率衰减策略:
其中,、/>、/>分别为初始学习率、当前迭代次数、最大迭代次数。
在上述实验中,图像编码器选用在ImageNet-22K上预训练的Swin-Base模型,文本编码器选用BERT-Base模型。训练过程中,图像编码器与文本编码器的主干网络学习率设置为0.00001,其它可学习参数的学习率设置为0.0001,权重衰减系数设置为0.01,训练总轮数设置为50。
此处提供的Swin-Base模型与BERT-Base模型对应的属于前文提及的SwinTransformer、BERT模型,Base指代模型的规模大小,即基础规模。
针对框架中的超参数,可选地,采用M=6个序列视觉语言注意力单元、两级金字塔池化()、/>、/>。这一系列超参数可在上述三个数据集上取得良好性能。
三、分割性能验证。
本发明提供的上下文感知指称图像分割方法在RefCOCO、RefCOCO+、RefCOCOg的验证和测试集上均取得了目前领先效果,即本方法能够更准确地识别目标物体,且分割结果更完整。以前两个数据集为例:相比于使用单向语言至视觉注意力的方法(LAVT),本发明在RefCOCO的验证集、测试集A、测试集B上分别取得了2.41%、2.28%、2.96% oIoU的提升。相比于使用并行双向视觉语言注意力的方法(CoupAlign),本发明在RefCOCO+的验证集、测试集A、测试集B上分别取得了3.71%、3.70%、1.82% oIoU的提升。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例二
本发明还提供一种上下文感知的指称图像分割系统,其主要用于实现前述实施例提供的方法,该系统主要包括:前文介绍的上下文感知的指称图像分割模型,所述上下文感知的指称图像分割模型包括:图像编码器、文本编码器与上下文感知掩膜解码器;其中:
所述图像编码器,用于对输入图像进行多尺度特征的提取,获得多尺度视觉特征;
所述文本编码器,用于设置文本提示,并结合单一尺度视觉特征生成融合多尺度视觉上下文信息的融合文本提示,再结合所述融合文本提示对输入文本进行特征提取,获得上下文感知的文本特征;
上下文感知掩膜解码器,用于将所述多尺度视觉特征中的一部分视觉特征合并,获得合并多尺度特征,使用掩膜提示对所述上下文感知的文本特征进行扩充,获得上下文感知的掩膜文本特征;利用注意力机制进行所述合并多尺度特征与上下文感知的掩膜文本特征之间的交互,获得对齐后的合并多尺度特征与带有掩膜提示的扩充文本特征;利用所述对齐后的合并多尺度特征与所述多尺度视觉特征中的另一部分视觉特征生成掩膜嵌入,再结合所述带有掩膜提示的扩充文本特征计算前景和背景的响应图,并进行像素级的图像分割。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图4所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种上下文感知的指称图像分割方法,其特征在于,包括:
步骤1、对输入图像进行多尺度特征的提取,获得多尺度视觉特征;
步骤2、设置文本提示,并结合最后一个尺度视觉特征生成融合多尺度视觉上下文信息的融合文本提示,再结合所述融合文本提示对输入文本进行特征提取,获得上下文感知的文本特征;
步骤3、将所述多尺度视觉特征中的除第一个尺度外的剩余其它视觉特征合并,获得合并多尺度特征,使用掩膜提示对所述上下文感知的文本特征进行扩充,获得上下文感知的掩膜文本特征;利用注意力机制进行所述合并多尺度特征与上下文感知的掩膜文本特征之间的交互,获得对齐后的合并多尺度特征与带有掩膜提示的扩充文本特征;利用所述对齐后的合并多尺度特征与所述多尺度视觉特征中的第一个尺度的视觉特征生成掩膜嵌入,再结合所述带有掩膜提示的扩充文本特征计算前景和背景的响应图,并进行像素级的图像分割;
所述利用注意力机制进行所述合并多尺度特征与上下文感知的掩膜文本特征之间的交互,获得对齐后的合并多尺度特征与带有掩膜提示的扩充文本特征包括:
设置M个序列视觉语言注意力单元,第一个序列视觉语言注意力单元的输入为合并多尺度特征与上下文感知的掩膜文本特征,输出的带有掩膜提示的扩充文本特征、对齐后的合并多尺度特征,作为第二个序列视觉语言注意力单元的输入,最后一个序列视觉语言注意力单元输出的带有掩膜提示的扩充文本特征、对齐后的合并多尺度特征将用于像素级的图像分割;
每一序列视觉语言注意力单元设有两类注意力方式,即视觉至语言注意力与语言至视觉注意力,先通过视觉至语言注意力将多尺度特征中的视觉上下文信息整合到文本特征中,获得带有掩膜提示的扩充文本特征;再通过语言至视觉注意力将多尺度特征中的每个像素与带有掩膜提示的扩充文本特征进行对齐,获得对齐后的合并多尺度特征;其中,对于第一个序列视觉语言注意力单元,视觉至语言注意力与语言至视觉注意力中涉及的多尺度特征为所述合并多尺度特征,非第一个序列视觉语言注意力单元,所述的多尺度特征为上一个序列视觉语言注意力单元输出的对齐后的合并多尺度特征;对于第一个序列视觉语言注意力单元,视觉至语言注意力中涉及的文本特征为上下文感知的掩膜文本特征,非第一个序列视觉语言注意力单元,视觉至语言注意力中涉及的文本特征为上一个序列视觉语言注意力单元输出的带有掩膜提示的扩充文本特征。
2.根据权利要求1所述的一种上下文感知的指称图像分割方法,其特征在于,所述设置文本提示,并结合单一尺度视觉特征生成融合多尺度视觉上下文信息的融合文本提示包括:
设置文本提示,它是一个可学习的向量,长度记为/>
对最后一个尺度的视觉特征进行金字塔平均池化,再与文本提示相加,获得融合文本提示,表示为:
其中,为最后一个尺度的视觉特征,/>表示输出尺寸为/>的平均池化,/>为输出尺寸中的宽度与高度,k为池化的级数,/>为池化的总级数,Concat表示级联操作,/>表示融合文本提示。
3.根据权利要求1或2所述的一种上下文感知的指称图像分割方法,其特征在于,所述结合所述融合文本提示对输入文本进行特征提取,获得上下文感知的文本特征包括:
将输入文本转换为文本嵌入E,并在文本嵌入E中增加一个用于表示文本全局信息的符号,再与所述融合文本提示级联后通过文本编码网络进行文本特征的提取,获得上下文感知的文本特征。
4.根据权利要求1所述的一种上下文感知的指称图像分割方法,其特征在于,所述将所述多尺度视觉特征中的一部分视觉特征合并,获得合并多尺度特征,使用掩膜提示对所述上下文感知的文本特征进行扩充,获得上下文感知的掩膜文本特征包括:
将多尺度视觉特征记为,/>表示第i个尺度的视觉特征,N为尺度数目;通过线性映射层将多尺度视觉特征与上下文感知的文本特征统一到相同维度,映射后的上下文感知的文本特征记为/>,映射后的多尺度视觉特征记为/>
将映射后的第2个尺度至最后一个尺度的视觉特征展平并级联得到合并多尺度特征/>,其中,/>表示映射后的第i个尺度的视觉特征;
设置掩膜提示作为映射后的上下文感知的文本特征的扩充, 掩膜提示包含/>个维度与/>一致的可学习向量,将掩膜提示与映射后的上下文感知的文本特征/>级联,获得上下文感知的掩膜文本特征。
5.根据权利要求4所述的一种上下文感知的指称图像分割方法,其特征在于,所述利用所述对齐后的合并多尺度特征与所述多尺度视觉特征中的另一部分视觉特征生成掩膜嵌入,再结合所述带有掩膜提示的扩充文本特征计算前景和背景的响应图,并进行像素级的图像分割包括:
将所述对齐后的合并多尺度特征进行拆分并取出其中最高尺度的视觉特征,即对齐后的第2个尺度的视觉特征,通过上采样后与映射后的第1个尺度的视觉特征/>相加融合,再经过卷积映射得到掩膜嵌入/>
将所述带有掩膜提示的扩充文本特征进行拆分,获得文本特征部分与掩膜提示特征部分,依次记为、/>;取出文本特征部分中的用于表示文本全局信息的符号,作为全局表示/>用于判别前景像素,取掩膜提示特征部分的平均/>用于判别背景像素;
通过矩阵乘法分别得到前景和背景的响应图:
其中,为掩膜嵌入/>中/>位置处像素的掩膜值,x为横轴位置,y为纵轴位置;/>为/>位置处像素属于前景的响应值,/>为/>位置处像素属于背景的响应值;/>和/>分别代表一个映射单元;
结合前景和背景的响应图进行像素级的图像分割。
6.根据权利要求1所述的一种上下文感知的指称图像分割方法,其特征在于,所述步骤1通过图像编码器实现,所述步骤2通过文本编码器实现,所述步骤3通过上下文感知掩膜解码器实现,它们三者共同组成上下文感知的指称图像分割模型;
在训练阶段,将指称图像分割任务转化为像素级的二分类任务,即将前景和背景的响应图中各位置处像素的响应值转换为概率值,之后再计算分类损失L,表示为:
其中,exp表示以自然常数e为底的指数函数,为/>位置处像素属于前景的响应值,/>为/>位置处像素属于背景的响应值,/>为/>位置处像素属于背景的概率值,/>为/>位置处像素属于前景的概率值,x为横轴位置,y为纵轴位置;前景和背景的响应图的尺度与输入图像尺寸相同,H与W分别为输入图像的高度与宽度,/>位置处像素的标注;
结合所述分类损失优化上下文感知的指称图像分割模型以及文本提示与掩膜提示。
7.一种上下文感知的指称图像分割系统,其特征在于,包括:上下文感知的指称图像分割模型,所述上下文感知的指称图像分割模型包括:图像编码器、文本编码器与上下文感知掩膜解码器;其中:
所述图像编码器,用于对输入图像进行多尺度特征的提取,获得多尺度视觉特征;
所述文本编码器,用于设置文本提示,并结合最后一个尺度视觉特征生成融合多尺度视觉上下文信息的融合文本提示,再结合所述融合文本提示对输入文本进行特征提取,获得上下文感知的文本特征;
上下文感知掩膜解码器,用于将所述多尺度视觉特征中的除第一个尺度外的剩余其它视觉特征合并,获得合并多尺度特征,使用掩膜提示对所述上下文感知的文本特征进行扩充,获得上下文感知的掩膜文本特征;利用注意力机制进行所述合并多尺度特征与上下文感知的掩膜文本特征之间的交互,获得对齐后的合并多尺度特征与带有掩膜提示的扩充文本特征;利用所述对齐后的合并多尺度特征与所述多尺度视觉特征中的第一个尺度的视觉特征生成掩膜嵌入,再结合所述带有掩膜提示的扩充文本特征计算前景和背景的响应图,并进行像素级的图像分割;
所述利用注意力机制进行所述合并多尺度特征与上下文感知的掩膜文本特征之间的交互,获得对齐后的合并多尺度特征与带有掩膜提示的扩充文本特征包括:
设置M个序列视觉语言注意力单元,第一个序列视觉语言注意力单元的输入为合并多尺度特征与上下文感知的掩膜文本特征,输出的带有掩膜提示的扩充文本特征、对齐后的合并多尺度特征,作为第二个序列视觉语言注意力单元的输入,最后一个序列视觉语言注意力单元输出的带有掩膜提示的扩充文本特征、对齐后的合并多尺度特征将用于像素级的图像分割;
每一序列视觉语言注意力单元设有两类注意力方式,即视觉至语言注意力与语言至视觉注意力,先通过视觉至语言注意力将多尺度特征中的视觉上下文信息整合到文本特征中,获得带有掩膜提示的扩充文本特征;再通过语言至视觉注意力将多尺度特征中的每个像素与带有掩膜提示的扩充文本特征进行对齐,获得对齐后的合并多尺度特征;其中,对于第一个序列视觉语言注意力单元,视觉至语言注意力与语言至视觉注意力中涉及的多尺度特征为所述合并多尺度特征,非第一个序列视觉语言注意力单元,所述的多尺度特征为上一个序列视觉语言注意力单元输出的对齐后的合并多尺度特征;对于第一个序列视觉语言注意力单元,视觉至语言注意力中涉及的文本特征为上下文感知的掩膜文本特征,非第一个序列视觉语言注意力单元,视觉至语言注意力中涉及的文本特征为上一个序列视觉语言注意力单元输出的带有掩膜提示的扩充文本特征。
8.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~6任一项所述的方法。
9.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~6任一项所述的方法。
CN202311319576.XA 2023-10-12 2023-10-12 上下文感知的指称图像分割方法、系统、设备及存储介质 Active CN117078942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311319576.XA CN117078942B (zh) 2023-10-12 2023-10-12 上下文感知的指称图像分割方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311319576.XA CN117078942B (zh) 2023-10-12 2023-10-12 上下文感知的指称图像分割方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117078942A CN117078942A (zh) 2023-11-17
CN117078942B true CN117078942B (zh) 2024-02-23

Family

ID=88702767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311319576.XA Active CN117078942B (zh) 2023-10-12 2023-10-12 上下文感知的指称图像分割方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117078942B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821050A (zh) * 2022-04-13 2022-07-29 大连理工大学 一种基于transformer的指称图像分割方法
CN115578596A (zh) * 2022-10-21 2023-01-06 大连理工大学 一种多尺度跨媒体信息融合方法
CN115713538A (zh) * 2022-11-18 2023-02-24 电子科技大学 一种基于跨模态对偶图对齐的参考图像分割方法
CN116704506A (zh) * 2023-06-21 2023-09-05 大连理工大学 一种基于交叉环境注意力的指代图像分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11657230B2 (en) * 2020-06-12 2023-05-23 Adobe Inc. Referring image segmentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821050A (zh) * 2022-04-13 2022-07-29 大连理工大学 一种基于transformer的指称图像分割方法
CN115578596A (zh) * 2022-10-21 2023-01-06 大连理工大学 一种多尺度跨媒体信息融合方法
CN115713538A (zh) * 2022-11-18 2023-02-24 电子科技大学 一种基于跨模态对偶图对齐的参考图像分割方法
CN116704506A (zh) * 2023-06-21 2023-09-05 大连理工大学 一种基于交叉环境注意力的指代图像分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Context-based Network For Referring Image Segmentation;Xinyu Li et al.;《2020 IEEE International Conference on Image Processing(ICIP)》;第1436-1440页 *
CoupAlign: CouplingWord-Pixel with Sentence-Mask Alignments for Referring Image Segmentation;Zicheng Zhang et al.;《arXiv.org》;第1-13页 *
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation;Zhao Yang et al.;《arXiv.org》;第1-13页 *
层级语义融合的场景文本检测;王紫霄等;《中国图象图形学报》;第28卷(第8期);第2343-2355页 *

Also Published As

Publication number Publication date
CN117078942A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
US11657230B2 (en) Referring image segmentation
CN111126069B (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
US20200117906A1 (en) Space-time memory network for locating target object in video content
WO2022105125A1 (zh) 图像分割方法、装置、计算机设备及存储介质
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN111737511B (zh) 基于自适应局部概念嵌入的图像描述方法
CN109657054A (zh) 摘要生成方法、装置、服务器及存储介质
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
US20110150328A1 (en) Apparatus and method for blockiing objectionable image on basis of multimodal and multiscale features
CN110619334B (zh) 基于深度学习的人像分割方法、架构及相关装置
CN114926835A (zh) 文本生成、模型训练方法和装置
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
GB2579262A (en) Space-time memory network for locating target object in video content
WO2023197749A9 (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN110263218A (zh) 视频描述文本生成方法、装置、设备和介质
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN117149944A (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN117078942B (zh) 上下文感知的指称图像分割方法、系统、设备及存储介质
CN115565186B (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN113052156B (zh) 光学字符识别方法、装置、电子设备和存储介质
CN115953832A (zh) 一种基于语义解耦的自注意力模型的组合动作识别方法
CN113610080B (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant