CN115713538A - 一种基于跨模态对偶图对齐的参考图像分割方法 - Google Patents

一种基于跨模态对偶图对齐的参考图像分割方法 Download PDF

Info

Publication number
CN115713538A
CN115713538A CN202211445260.0A CN202211445260A CN115713538A CN 115713538 A CN115713538 A CN 115713538A CN 202211445260 A CN202211445260 A CN 202211445260A CN 115713538 A CN115713538 A CN 115713538A
Authority
CN
China
Prior art keywords
graph
text
modal
visual
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211445260.0A
Other languages
English (en)
Inventor
吴庆波
施兆丰
李宏亮
孟凡满
许林峰
潘力立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211445260.0A priority Critical patent/CN115713538A/zh
Publication of CN115713538A publication Critical patent/CN115713538A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于跨模态对偶图对齐的参考图像分割方法,属于多模态图像分割领域。本发明创新性的提出了“部分‑统一‑整体”的范式,即将提取得到的视觉与文本特征先映射至一个统一的潜在表征结构,再进行跨模态融合。这有利于模型提取的显式对齐信息,可以有效增强最终的分割效果。

Description

一种基于跨模态对偶图对齐的参考图像分割方法
技术领域
本发明属于多模态图像分割领域,以文本作为参考,从而生成对应图像中与文本描述最相关的目标的掩膜。该方法通过所提出的对偶图模块与层次化交互模块,提取显式的、详尽的跨模态对齐信息,根据获得的跨模态信息获得良好的分割结果。
背景技术
随着计算机视觉领域的不断发展,许多单模态的图像分割网络已经被陆续提出,其在自动驾驶等领域已经取得了不小的成就。然而,对于其他应用,例如:基于文本的图像编辑、人机交互等,单模态的图像分割无法满足其需求。基于多模态的图像分割方法在实际生活中有着更为广泛的应用与更重要的意义。
在多模态图像分割中,基于文本的参考图像分割是一个受关注的话题。该任务的挑战性在于:一方面,模型需要充分理解两种模态各自的成分和上下文信息;另一方面,还需要模型准确的对齐跨模态的异质信息。所以,在参考图像分割任务中,获取特定模态的初始特征以及进行跨模态融合是十分重要的。
在获取特定模态的初始特征方面,很多优秀的方法已经被提出。对于视觉信息,人们通常使用基于CNN的编码器或者基于视觉Transformer的编码器来提取输入图像对应的视觉特征;对于文本信息,目前主流的方法是使用基于RNN的编码器或者基于Transformer的编码器来提取输入文本对应的文本特征。在跨模态信息融合方面,目前的方法主要采取基于拼接的方法、基于注意力机制的方法,有些工作还会引入句子的句法结构信息来增强文本特征的表示能力,这些跨模态融合方法难以捕获跨模态结构上的层次化关联。此外,由于两种模态的数据风格并不统一,且视觉、文本模态的编码器具有明显不同的结构特点。所以提取出的不同模态的特征具有完全不同的潜在表征空间,如果直接进行跨模态融合,则很难得到准确的跨模态对齐信息。因此,基于对偶图来形成统一的表征结构,并且对跨模态特征进行层次化交互是十分有意义的。
现有技术中发表于计算机视觉顶级会议ECCV2020上的论文:“LinguisticStructure Guided Context Modelling for Refering Image Segmentation”,这篇论文中,作者对文本信息构建了图神经网络,以更好地获取句子中词与词之间的上下文关系。然而,这篇文献只对文本这一单一模态构建了图结构,对于视觉模态,还是通过编码器来提取视觉初始特征,并没有通过构建相同的图结构来实现表征空间的统一。所以在跨模态融合时,两种模态的特征仍处于不同的潜在表征空间,这为捕获模态间对齐信息造成了误差。
发明内容
本发明的目的在于解决以下技术问题:
其一:现有的参考图像分割方法通常使用结构有明显差异的视觉、文本编码器,且输入各自编码器的不同模态的数据本就有着不统一的风格。这导致了提取出的视觉、文本特征具有完全不同的潜在表征空间,一定程度上阻碍了准确的跨模态对齐。针对这项问题,本发明设计了对偶图模块,通过在不同模态内构建图结构,经过图神经网络推理过程中的节点间的信息传播与聚集,将具有不同潜在表征空间的视觉、文本特征映射至统一的图表征空间,这有利于模型捕获显式的、准确的跨模态对齐信息,有效地提升了模态融合的效果。
其二:在现有的参考图像分割方法中,对来自不同模态的全局表征或者异构上下文信息,通常使用基于拼接、注意力机制、句法结构信息引入的方法来获取跨模态的相关信息,这些融合方式对于跨模态相关性的捕获不够全面,因为其忽略了对跨模态的层次化关联的捕获。在本发明中,通过对不同模态的特征进行实体级与图级交互,充分的捕获了跨模态的层次化关联信息,有效地提升了模型的分割性能。
本发明技术方案为:一种基于跨模态对偶图对齐的参考图像分割方法,该方法包括:
步骤1:为了进一步增强文本信息以及促进后续对句子长距离上下文的捕获,首先对输入的文本进行预处理;预处理包括单词词性标注以及基于依赖解析树的方法获取句法结构;
使用现有开源的自然语言处理依赖库:SpaCy来实现,对于单词词性标注,将单词词性类别缩减为7类:名词、形容词、动词、介词、副词、其他词性以及补零位置,并且使用独热编码去表示这7类词性;
采用依赖解析树的方法获得了句子中词与词之间的从属关系,为后续构建图结构做准备;
步骤2:将图像I与文本表达式S分别输入各自模态的编码器,得到4个尺度视觉特征Vi与文本特征L,i=0,1,2,3;随后,将步骤1中提取得到的词性独热编码经过一个多层全连接层编码网络,获得词性特征P,最后,将文本特征L与词性特征P进行元素级相乘,使每个单词对应的特征与它的词性特征得到充分的融合,具体公式如下:
LP=ReLU(Conv(L⊙P)) (0.1)
其中,⊙表示矩阵元素级相乘操作,Conv表示卷积层,ReLU代表激活函数,LP表示融入了词性信息的文本特征;
步骤3:对于最低级别的视觉特征V0,进行跨模态融合;
首先,将从文本编码器中得来的文本初始特征L经过一个线性映射层与Softmax计算函数,得到每个单词特征对应的权重ω;根据权重,对文本特征L中,每一个单词对应的特征向量作加权和操作,得到句子的整体特征向量hc;最后,将hc平铺,并将其与V0以及人为定义的空间坐标O0沿着通道维度作拼接操作,并通过一个卷积层输出这个尺度下最终的多模态特征M0;具体公式可表示为:
M0=Conv([V0;Tile(hc);O0]) (0.2)
其中,Tile表示平铺操作,[;]表示拼接操作,Conv表示卷积层;
步骤4:对于较高级的视觉特征V1、V2与V3,利用对偶图模块与层次化交互模块来进行跨模态融合;对V1、V2与V3的操作均相同,下文中省略各自对应的下标来进行方法阐释;
首先是提取实体,将融入了词性信息的文本特征LP视作文本实体,并且以LE表示,在视觉方面,将空间坐标O与视觉特征V拼接后卷积,得到视觉实体VE;然后使用实体级HIM对不同模态的实体进行交互,得到实体级多模态特征ME;随后,构建视觉图与文本图,对视觉实体VE与文本实体LE分别进行模态内的图推理,更新后的基于图的视觉与文本特征分别用VG与LG表示;接着使用图级HIM对不同模态的基于图的特征进行交互,得到图级多模态特征MG;最后,将ME与MG进行拼接操作,实现实体级交互结果与图级层次化交互结果的整合,得到该尺度下的最终的多模态特征M;
步骤5:经过上述步骤后,获得了不同尺度的多模态特征Mi,i=0,1,2,3,设计了一种由高到低的路径来整个各个尺度上的多模态特征,具体公式为:
Figure BDA0003949446930000031
其中,Upsample代表上采样操作,[;]表示拼接操作,Conv表示卷积层;
步骤6:将Y0输入多层卷积层组成的分割头,并且对输出进行上采样,获得最终的预测结果
Figure BDA0003949446930000032
使用二值交叉熵函数作为损失函数,并用Y表示分割真实值,预测损失可以被表示为:
Figure BDA0003949446930000033
其中,下标i,j表示预测结果和真实值的像素位置;H与W表示真实图像掩码的尺寸。
进一步的,为了增强模型的多层感知能力,额外设置一系列辅助损失;具体方法为:
将每一个尺度下的多模态特征Mi都输入到与上文中相同的分割头,得到多尺度预测值
Figure BDA0003949446930000041
再将真实值Y以不同的倍数下采样,得到不同尺度下的真实值
Figure BDA0003949446930000042
多尺度辅助损失
Figure BDA0003949446930000043
表示为:
Figure BDA0003949446930000044
最终的损失LT表示为:
Figure BDA0003949446930000045
其中,λ、λ0、λ1、λ2以及λ3是为了平衡不同损失的超参数,λ被设为1.0,λ0、λ1、λ2、λ3设为0.5。
进一步的,所述步骤4中对偶图模块分为两个分支:文本图分支与视觉图分支;
在文本图分支中,将词性感知后的文本特征LP视作文本实体,记作LE,随后,将文本实体LE映射为文本图初始节点ΔL,并且根据预处理步骤中依赖解析树的结果构建图的有向边,并且以邻接矩阵的形式表示,记作ML;最后,使用图卷积网络对初始节点和边进行图推理,实现节点之间的信息更新;更新节点
Figure BDA0003949446930000046
的过程公式表示为:
Figure BDA0003949446930000047
其中,
Figure BDA0003949446930000048
Figure BDA0003949446930000049
为可学习参数,d(·)代表节点的度,η(i)代表节点i的子节点集,最终,文本图分支输出的基于图的文本特征被记作LG
在视觉图分支中,将融入了绝对位置信息后的视觉特征视作诗句节点,记作VE,将VE映射为视觉图初始节点ΔV,并且利用两个可学习的矩阵W1与W2与视觉初始节点ΔV构建了图的边,并且以邻接矩阵的形式进行表示,记作MV;最后,同样使用图卷积网络对初始节点和边进行图推理,此过程用公式表示为:
Figure BDA00039494469300000410
其中,
Figure BDA00039494469300000411
为可学习的参数,视觉图分支输出的基于图的视觉特征被记作VG
进一步的,所述步骤4中层次化交互模块是基于注意力机制而实现的,使用两个相同的上述模块,分别实现实体级、图级交互;将输入的视觉特征与文本特征分别记作V与L,将它们分别通过1×1卷积得到Vp与Lp,将其用于计算跨模态仿射矩阵,用公式表示为:
MAffine=Softmax(Lpreshape(Vp)) (0.9)
其中,MAffine表示跨模态仿射矩阵,reshape表示矩阵形状变换操作,Softmax表示Softmax函数;在得到跨模态仿射矩阵后,多模态特征可由如下公式计算得到:
La=Conv(Lq TMAffine) (0.10)
M=ReLU(Conv(La⊙Va)) (0.11)
其中,T表示转置操作,Conv表示卷积层,⊙表示矩阵元素级相乘操作,ReLU代表激活函数,Va与Lq分别由V与L分别通过1×1卷积映射得来,M表示交互后得到的实体级/图级多模态特征。
本发明中,创新地提出了对偶图模块以及层次化交互模块。对偶图模块通过分别对视觉模态与文本模态分别构建图结构,并且利用图卷积网络进行图推理,在捕获模态内长距离上下文关系的同时,将视觉与文本模态处于不同潜在表征结构的特征映射至一个基于图的统一的潜在表征结构中,这有利于后续捕获模态间显式的对齐信息,降低跨模态融合的误差。层次化交互模块方面,将其用于实体级交互与图级交互,这有利于捕获充分的跨模态相关性。得益于提出的对偶图模块以及层次化交互模块,一方面,本发明方法在客观指标上相较于目前其他高性能方法有着很高的增益;另一方面,本发明方法能够根据输入的图像与文本,得到高质量的分割掩码。
附图说明
图1为本发明“部分-统一-整体”范式示意图;
图2为本发明基于跨模态对偶图对齐的参考图像分割方法;
图3为本发明对偶图模块的示意图;
图4为本发明层次化交互模块的示意图;
图5为本发明参考图像分割可视化结果示意图。
具体实施方式
本发明提出了一种基于跨模态对偶图对齐的参考图像分割方法。现有的方法大多采用一种“部分-整体”的范式,即首先使用各自模态的编码器,分别提取视觉与文本特征,再采取多模态融合策略,获取整体的多模态特征。与“部分-整体”范式不同,本发明创新性的提出了“部分-统一-整体”的范式,即将提取得到的视觉与文本特征先映射至一个统一的潜在表征结构,再进行跨模态融合。这有利于模型提取的显式对齐信息,可以有效增强最终的分割效果。“部分-统一-整体”范式如图1所示;
为了实现上述“部分-统一-整体”范式,本发明首先使用两个深度编码器,分别对输入的图像与文本提取初始特征;接着,使用了对偶图模块对视觉与文本模态分别构建图结构,并使用图卷积网络(GCN)分别进行图推理,充分进行节点信息的传播与聚集,在此过程中对不同模态的异质数据形成了统一的表示结构;然后,为了充分提取跨模态的互相关信息,采用基于注意力机制的层次化交互模块,并且将其应用于实体级、图级层次化交互;最后,通过一个由高到低的路径整合多尺度特征,并且通过卷积层输出最终的预测掩码。图2展示了本发明提出方法的整体网路架构;
图2中,Vi(i=0,1,2,3)代表视觉编码器提取得到的多尺度视觉特征、HIM代表层次化交互模块、Softmax代表Softmax函数运算、Mi(i=0,1,2,3)代表模型推理得到的不同尺度上的多模态特征、
Figure BDA0003949446930000061
代表根据不同尺度的多模态特征生成的预测结果、
Figure BDA0003949446930000062
代表不同尺度的掩码真实值、
Figure BDA0003949446930000063
代表不同尺度对应的辅助损失、
Figure BDA0003949446930000064
代表经过自上而下多尺度整合后模型生成的最终预测、Y代表输入图像对应的掩码的真实值、Lseg为最终预测与真实值的损失函数。
将本方法在公开的参考图像分割数据集RefCOCO上,进行了实验评估,并且与目前其他主流参考图像分割方法相比较。如表1所示,对比目前高性能的ReSTR方法,以分割交并比(IoU)为评估指标,本发明方法在RefCOCO数据集的验证集上提升了3.11%,在测试集A上提升了2.99%、在测试集B上提升了2.44%。此外,本发明还对模型预测的掩码进行了可视化,并将它们与真实掩码比较,比较结果如图5所示。结果显示,本发明的模型可以生成高质量的图像分割掩码。
表1本研究方法在RefCOCO数据集上客观性能评估表
方法 图像分辨率 验证集 测试集A 测试集B
RMI 320×320 45.18 45.69 45.57
CMPC 320×320 61.36 64.54 59.64
LSCM 320×320 61.47 64.99 59.55
EFN 320×320 62.76 65.69 59.67
CGAN 416×416 64.86 68.04 62.07
VLT 416×416 65.65 68.29 62.73
ReSTR 480×480 67.22 69.30 64.45
本研究方法 416×416 70.33 72.29 66.89

Claims (4)

1.一种基于跨模态对偶图对齐的参考图像分割方法,该方法包括:
步骤1:为了进一步增强文本信息以及促进后续对句子长距离上下文的捕获,首先对输入的文本进行预处理;预处理包括单词词性标注以及基于依赖解析树的方法获取句法结构;
使用现有开源的自然语言处理依赖库:SpaCy来实现,对于单词词性标注,将单词词性类别缩减为7类:名词、形容词、动词、介词、副词、其他词性以及补零位置,并且使用独热编码去表示这7类词性;
采用依赖解析树的方法获得了句子中词与词之间的从属关系,为后续构建图结构做准备;
步骤2:将图像I与文本表达式S分别输入各自模态的编码器,得到4个尺度视觉特征Vi与文本特征L,i=0,1,2,3;随后,将步骤1中提取得到的词性独热编码经过一个多层全连接层编码网络,获得词性特征P,最后,将文本特征L与词性特征P进行元素级相乘,使每个单词对应的特征与它的词性特征得到充分的融合,具体公式如下:
LP=ReLU(Conv(L⊙P)) (0.1)
其中,⊙表示矩阵元素级相乘操作,Conv表示卷积层,ReLU代表激活函数,LP表示融入了词性信息的文本特征;
步骤3:对于最低级别的视觉特征V0,进行跨模态融合;
首先,将从文本编码器中得来的文本初始特征L经过一个线性映射层与Softmax计算函数,得到每个单词特征对应的权重ω;根据权重,对文本特征L中,每一个单词对应的特征向量作加权和操作,得到句子的整体特征向量hc;最后,将hc平铺,并将其与V0以及人为定义的空间坐标O0沿着通道维度作拼接操作,并通过一个卷积层输出这个尺度下最终的多模态特征M0;具体公式可表示为:
M0=Conv([V0;Tile(hc);O0]) (0.2)
其中,Tile表示平铺操作,[;]表示拼接操作,Conv表示卷积层;
步骤4:对于较高级的视觉特征V1、V2与V3,利用对偶图模块与层次化交互模块来进行跨模态融合;对V1、V2与V3的操作均相同,下文中省略各自对应的下标来进行方法阐释;
首先是提取实体,将融入了词性信息的文本特征LP视作文本实体,并且以LE表示,在视觉方面,将空间坐标O与视觉特征V拼接后卷积,得到视觉实体VE;然后使用实体级HIM对不同模态的实体进行交互,得到实体级多模态特征ME;随后,构建视觉图与文本图,对视觉实体VE与文本实体LE分别进行模态内的图推理,更新后的基于图的视觉与文本特征分别用VG与LG表示;接着使用图级HIM对不同模态的基于图的特征进行交互,得到图级多模态特征MG;最后,将ME与MG进行拼接操作,实现实体级交互结果与图级层次化交互结果的整合,得到该尺度下的最终的多模态特征M;
步骤5:经过上述步骤后,获得了不同尺度的多模态特征Mi,i=0,1,2,3,设计了一种由高到低的路径来整个各个尺度上的多模态特征,具体公式为:
Figure FDA0003949446920000021
其中,Upsample代表上采样操作,[;]表示拼接操作,Conv表示卷积层;
步骤6:将Y0输入多层卷积层组成的分割头,并且对输出进行上采样,获得最终的预测结果
Figure FDA0003949446920000022
使用二值交叉熵函数作为损失函数,并用Y表示分割真实值,预测损失可以被表示为:
Figure FDA0003949446920000023
其中,下标i,j表示预测结果和真实值的像素位置;H与W表示真实图像掩码的尺寸。
2.如权利要求1所述的一种基于跨模态对偶图对齐的参考图像分割方法,其特征在于,为了增强模型的多层感知能力,额外设置一系列辅助损失;具体方法为:
将每一个尺度下的多模态特征Mi都输入到与上文中相同的分割头,得到多尺度预测值
Figure FDA0003949446920000024
再将真实值Y以不同的倍数下采样,得到不同尺度下的真实值
Figure FDA0003949446920000025
多尺度辅助损失
Figure FDA0003949446920000026
表示为:
Figure FDA0003949446920000027
最终的损失LT表示为:
Figure FDA0003949446920000028
其中,λ、λ0、λ1、λ2以及λ3是为了平衡不同损失的超参数,λ被设为1.0,λ0、λ1、λ2、λ3设为0.5。
3.如权利要求1所述的一种基于跨模态对偶图对齐的参考图像分割方法,其特征在于,所述步骤4中对偶图模块分为两个分支:文本图分支与视觉图分支;
在文本图分支中,将词性感知后的文本特征LP视作文本实体,记作LE,随后,将文本实体LE映射为文本图初始节点ΔL,并且根据预处理步骤中依赖解析树的结果构建图的有向边,并且以邻接矩阵的形式表示,记作ML;最后,使用图卷积网络对初始节点和边进行图推理,实现节点之间的信息更新;更新节点
Figure FDA0003949446920000031
的过程公式表示为:
Figure FDA0003949446920000032
其中,
Figure FDA0003949446920000033
Figure FDA0003949446920000034
为可学习参数,d(·)代表节点的度,η(i)代表节点i的子节点集,最终,文本图分支输出的基于图的文本特征被记作LG
在视觉图分支中,将融入了绝对位置信息后的视觉特征视作诗句节点,记作VE,将VE映射为视觉图初始节点ΔV,并且利用两个可学习的矩阵W1与W2与视觉初始节点ΔV构建了图的边,并且以邻接矩阵的形式进行表示,记作MV;最后,同样使用图卷积网络对初始节点和边进行图推理,此过程用公式表示为:
VG=ReLU(MVΔVWc V)+VE (0.8)
其中,Wc V为可学习的参数,视觉图分支输出的基于图的视觉特征被记作VG
4.如权利要求1所述的一种基于跨模态对偶图对齐的参考图像分割方法,其特征在于,所述步骤4中层次化交互模块是基于注意力机制而实现的,使用两个相同的上述模块,分别实现实体级、图级交互;将输入的视觉特征与文本特征分别记作V与L,将它们分别通过1×1卷积得到Vp与Lp,将其用于计算跨模态仿射矩阵,用公式表示为:
MAffine=Softmax(Lpreshape(Vp)) (0.9)
其中,MAffine表示跨模态仿射矩阵,reshape表示矩阵形状变换操作,Softmax表示Softmax函数;在得到跨模态仿射矩阵后,多模态特征可由如下公式计算得到:
La=Conv(Lq TMAffine) (0.10)
M=ReLU(Conv(La⊙Va)) (0.11)
其中,T表示转置操作,Conv表示卷积层,⊙表示矩阵元素级相乘操作,ReLU代表激活函数,Va与Lq分别由V与L分别通过1×1卷积映射得来,M表示交互后得到的实体级/图级多模态特征。
CN202211445260.0A 2022-11-18 2022-11-18 一种基于跨模态对偶图对齐的参考图像分割方法 Pending CN115713538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211445260.0A CN115713538A (zh) 2022-11-18 2022-11-18 一种基于跨模态对偶图对齐的参考图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211445260.0A CN115713538A (zh) 2022-11-18 2022-11-18 一种基于跨模态对偶图对齐的参考图像分割方法

Publications (1)

Publication Number Publication Date
CN115713538A true CN115713538A (zh) 2023-02-24

Family

ID=85233851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211445260.0A Pending CN115713538A (zh) 2022-11-18 2022-11-18 一种基于跨模态对偶图对齐的参考图像分割方法

Country Status (1)

Country Link
CN (1) CN115713538A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502092A (zh) * 2023-06-26 2023-07-28 国网智能电网研究院有限公司 多源异构数据的语义对齐方法、装置、设备及存储介质
CN116978048A (zh) * 2023-09-25 2023-10-31 北京中关村科金技术有限公司 上下文内容获取方法、装置、电子设备和存储介质
CN117078942A (zh) * 2023-10-12 2023-11-17 中国科学技术大学 上下文感知的指称图像分割方法、系统、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502092A (zh) * 2023-06-26 2023-07-28 国网智能电网研究院有限公司 多源异构数据的语义对齐方法、装置、设备及存储介质
CN116978048A (zh) * 2023-09-25 2023-10-31 北京中关村科金技术有限公司 上下文内容获取方法、装置、电子设备和存储介质
CN116978048B (zh) * 2023-09-25 2023-12-22 北京中关村科金技术有限公司 上下文内容获取方法、装置、电子设备和存储介质
CN117078942A (zh) * 2023-10-12 2023-11-17 中国科学技术大学 上下文感知的指称图像分割方法、系统、设备及存储介质
CN117078942B (zh) * 2023-10-12 2024-02-23 中国科学技术大学 上下文感知的指称图像分割方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN115713538A (zh) 一种基于跨模态对偶图对齐的参考图像分割方法
CN113641820A (zh) 基于图卷积神经网络的视角级文本情感分类方法及系统
CN110489395A (zh) 自动获取多源异构数据知识的方法
CN110647632B (zh) 基于机器学习的图像与文本映射技术
CN113486190A (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN114547325B (zh) 一种概率超图驱动的地学知识图谱推理优化系统和方法
CN114091450B (zh) 一种基于图卷积网络的司法领域关系抽取方法和系统
CN111651973A (zh) 一种基于句法感知的文本匹配方法
Sun et al. Joint extraction of entities and overlapping relations by improved graph convolutional networks
CN116244473B (zh) 一种基于特征解耦和图知识蒸馏的多模态情感识别方法
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN113887471A (zh) 基于特征解耦和交叉对比的视频时序定位方法
CN113140023A (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN116822534A (zh) 基于细粒度特征的机翻评估指标的解释方法、解释器模型及计算机可读存储介质
Li et al. Auto completion of user interface layout design using transformer-based tree decoders
CN115329088A (zh) 图神经网络事件检测模型的鲁棒性分析方法
CN118364816A (zh) 基于词法信息增强的开放信息抽取的方法
CN114492458A (zh) 一种基于多头注意力和词共现的方面级情感分析方法
Jiang et al. Hadamard product perceptron attention for image captioning
CN113657125A (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN107633259A (zh) 一种基于稀疏字典表示的跨模态学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination