CN114494813B - 一种基于密集交叉注意力的指称表达生成方法 - Google Patents

一种基于密集交叉注意力的指称表达生成方法 Download PDF

Info

Publication number
CN114494813B
CN114494813B CN202111601881.9A CN202111601881A CN114494813B CN 114494813 B CN114494813 B CN 114494813B CN 202111601881 A CN202111601881 A CN 202111601881A CN 114494813 B CN114494813 B CN 114494813B
Authority
CN
China
Prior art keywords
module
features
attention
target
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111601881.9A
Other languages
English (en)
Other versions
CN114494813A (zh
Inventor
王鹏
孙梦阳
索伟
雷笑语
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202111601881.9A priority Critical patent/CN114494813B/zh
Publication of CN114494813A publication Critical patent/CN114494813A/zh
Application granted granted Critical
Publication of CN114494813B publication Critical patent/CN114494813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于密集交叉注意力的指称表达生成方法,首先构建特征提取模块,从给定图像中提取目标特征;然后构建对象上下文注意模块,通过对象上下文注意模块得到目标的最终特征;然后将最终特征进行平均池化获得最终的视觉特征,使用LSTM作为生成模块,在每个时间步,将单词特征、视觉特征和隐藏状态连接,并将其作为LSTM模型的输入,LSTM模型的输出即为最终结果;损失函数采用生成损失和三元组损失组合。本发明可以对多模态数据进行建模并学习细粒度的特征表示,并能够在没有实例级注释的情况下生成无歧义的表达式。

Description

一种基于密集交叉注意力的指称表达生成方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种指称表达生成方法。
背景技术
指称表达式生成(Referring expression generation,REG)任务是计算机视觉推理中重要的任务之一,是许多视觉和语言任务(例如视觉问答或视觉对话)的必要步骤。与图像描述(Image caption)任务不同,REG需要模型关注特定区域,为目标对象而不是整张图片生成描述。其次,REG要求生成的句子是无歧义的,并包括便于区分对象的属性信息(如颜色、姿态、形状)。对于REG任务来说,当前主流的解决方案是基于两阶段的方法,该方法需要依赖大量额外注释或现成的目标检测器去生成区域建议框(bounding boxes),进而计算得到视觉差异性特征。虽然上述方法已经取得了较好的效果,但这种策略会不可避免的导致错误积累,同时也会影响模型的泛化能力,致使生成描述的质量较差。
发明内容
为了克服现有技术的不足,本发明提供了一种基于密集交叉注意力的指称表达生成方法,首先构建特征提取模块,从给定图像中提取目标特征;然后构建对象上下文注意模块,通过对象上下文注意模块得到目标的最终特征;然后将最终特征进行平均池化获得最终的视觉特征,使用LSTM作为生成模块,在每个时间步,将单词特征、视觉特征和隐藏状态连接,并将其作为LSTM模型的输入,LSTM模型的输出即为最终结果;损失函数采用生成损失和三元组损失组合。本发明可以对多模态数据进行建模并学习细粒度的特征表示,并能够在没有实例级注释的情况下生成无歧义的表达式。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建特征提取模块;
步骤1-1:对于给定的图像I和目标物体O,将目标物体O的位置定义为:bO=(x1,y1,x2,y2),其中(x1,y1)和(x2,y2)分别是目标物体O边界框左上角和右下角坐标;
步骤1-2:使用Resnet-152网络从输入图像中提取视觉特征;
将图像调整至3×W×H的大小,并采用Resnet-152网络提取特征图:其中i代表样本,j代表特征序号,w和h分别是特征图的宽度和高度,特征维度为d维;
步骤1-3:选择目标边界框内的特征作为对象特征其余的特征向量作为上下文特征/>其中w0和h0是目标边界框经缩放后的宽度和高度,表示如下:
w0=(int(x2/scalex)-int(x1/scalex)) (1)
h0=(int(y2/scaley)-int(y1/scaley)) (2)
其中int(·)表示该操作将分数舍入到最接近的整数;
步骤2:构建对象上下文注意模块;
所述对象上下文注意模块由上下文对象交互注意模块和融合模块构成;
上下文对象交互注意模块分为上下文引导CGO子模块和对象引导OGC子模块;每个CGO子模块和OGC子模块都由N个相同的交互注意力层组成;
在OGC子模块中,首先将空间位置编码添加到Oi和Ci中,然后将Ci的每个特征作为查询,以此计算所有上下文网格的注意力权重
其中,Q代表查询向量,K、V分别表示键和值,m表示自注意力的头数;OGC子模块输出目标对象引导的关键上下文信息;
对于CGO子模块,将上下文特征编码为查询,而对象特征用于键和值。
在CGO子模块中,首先添加与OGC模块中一致的空间位置编码,然后将Ci的每个特征作为查询,以此计算所有目标网格的注意力权重
CGO子模块输出上下文信息引导的目标对象;
将OGC子模块和CGO子模块得到的特征进行concat操作,并通过K层自注意力层构成的融合模块进行融合;将融合后最后一层的目标对象部分作为最终的特征表示;
步骤3:对步骤2输出的最终特征进行平均池化获得最终的视觉特征vi;使用LSTM作为生成模块,在每个时间步,将单词特征xt、视觉特征vi和隐藏状态ht连接,并将其作为LSTM模型的输入,表述为:
ht=LSTM([xt;vi;ht-1]) (4)
probt=Softmax(Wpht+bp) (5)
其中Wp和bp是可训练参数,[;]表示连接操作,probt是输出单词标记的概率,i表示样本,t表示时间步;
生成损失函数通过最小化负对数似然定义:
其中θ表示LSTM的参数,Si表示目标句子,表示t-1时间步的目标单词,/>表示第一个时间步的目标单词;
利用三元组损失来增加从对象的网格特征生成句子Si的概率,而降低从其他对象特征生成句子Si的概率;具体而言,给定一个正对(Si,vi),在同一图像中随机采样P个负对(Si,vn)和(Sn,vi),其中Sn和vn分别是其他表达式和对象,三元组损失函数表示为:
其中P为采样数,M为超参数,λ1、λ2为权重;
最后整体损失是生成损失和三元组损失的总和:
LREG(θ)=L1(θ)+L2(θ) (8)
优选地,所述LSTM的时间长度和隐状态大小分别设置为20和768。
优选地,所述P=3,M=3,λ1、λ2都为0.1。
本发明的有益效果如下:
本发明通过一种一阶段方法来解决指称表达生成任务,可以对多模态数据进行建模并学习细粒度的特征表示;其次,本发明可以在没有实例级注释的情况下生成无歧义的表达式。
附图说明
图1为本发明方法的网络结构示意图。
图2为采用本发明方法在指称表达式数据集上的目标区域描述生成结果。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提供了一种基于密集交叉注意力的指称表达生成方法。该方法采用一阶段框架,不需要提取区域建议框或额外的注释信息,只需要通过密集交互注意力和自注意力方法获取上下文细粒度信息,就可以直接生成无歧义的描述。该方法采用端到端的训练方式,无需任何实例级的注释,为指称表达生成提供了一种新的解决思路。
一种基于密集交叉注意力的指称表达生成方法,包括如下步骤:
步骤1:构建特征提取模块;
步骤1-1:对于给定的图像I和目标物体O,将目标物体O的位置定义为:bO=(x1,y1,x2,y2),其中(x1,y1)和(x2,y2)分别是目标物体O边界框左上角和右下角坐标;
步骤1-2:使用Resnet-152网络从输入图像中提取视觉特征;
将图像调整至3×W×H的大小,并采用Resnet-152网络提取特征图:其中i代表样本,j代表特征序号,w和h分别是特征图的宽度和高度,特征维度为d维;
步骤1-3:选择目标边界框内的特征作为对象特征其余的特征向量作为上下文特征/>其中w0和h0是目标边界框经缩放后的宽度和高度,表示如下:
w0=(int(x2/scalex)-int(x1/scalex)) (1)
h0=(int(y2/scaley)-int(y1/scaley)) (2)
其中ibt(·)表示该操作将分数舍入到最接近的整数;
步骤2:构建对象上下文注意模块;
所述对象上下文注意模块由上下文对象交互注意模块和融合模块构成;
上下文对象交互注意模块分为上下文引导(Contexts Guide Objects,CGO)子模块和对象引导(Objects Guide Contexts,OGC)子模块;每个CGO子模块和OGC子模块都由N个相同的交互注意力层组成;
在OGC子模块中,首先将空间位置编码添加到Oi和Ci中,然后将Ci的每个特征作为查询,以此计算所有上下文网格的注意力权重
其中,Q代表查询向量,K、V分别表示键和值,m表示自注意力的头数;OGC子模块输出目标对象引导的关键上下文信息;
在CGO子模块中,首先添加与OGC模块中一致的空间位置编码,然后将Ci的每个特征作为查询,以此计算所有目标网格的注意力权重
CGO子模块输出上下文信息引导的目标对象;
将OGC子模块和CGO子模块得到的特征进行concat操作,并通过K层自注意力层构成的融合模块进行融合;将融合后最后一层的目标对象部分作为最终的特征表示;
步骤3:对步骤2输出的最终特征进行平均池化获得最终的视觉特征vi;使用LSTM作为生成模块,在每个时间步,将单词特征xt、视觉特征vi和隐藏状态ht连接,并将其作为LSTM模型的输入,表述为:
ht=LSTM([xt;vi;ht-1]) (4)
probt=Softmax(Wpht+bp) (5)
其中Wp和bp是可训练参数,[;]表示连接操作,probt是输出单词标记的概率;
生成损失函数通过最小化负对数似然定义:
其中θ表示LSTM的参数;
利用三元组损失来增加从对象的网格特征生成句子Si的概率,而降低从其他对象特征生成句子Si的概率;具体而言,给定一个正对(Si,vi),在同一图像中随机采样P个负对(Si,vn)和(Sn,vi),其中Sn和vn分别是其他表达式和对象,三元组损失函数表示为:
其中P为采样数,M为超参数,λ1、λ2为权重;
最后整体损失是生成损失和三元组损失的总和:
LREG(θ)=L1(θ)+L2(θ) (8)
具体实施例:
1、特征提取
给定一张自然场景中的图像和目标边界框,首先通过线性插值的方法将输入图像调整到512×512×3,边缘区域采用像素值0补全。然后通过主干网络Resnet-152得到16×16×2048维的特征,并选取目标边界框内的特征向量作为目标对象特征,将其余向量作为上下文信息。
2、对象上下文特征交互
为了提取丰富的上下文线索,将从主干网络提取的目标对象特征和上下文特征送入到对象上下文注意模块中。并分别输入到OGC和CGO子模块,以此学习对象特征和上下文特征之间的信息交互来得到线索特征。为整合这些线索特征,本实施例将它们送入到多层(Transformer)构成的融合模块,并基于最后一层提取768维的对象特征表示。
3、指称表达生成
将对象上下文注意模块得到的768维对象特征表示和开始标记单词同时输入到长短时记忆网络中,每一个时间步生成一个单词,最终得到对图像指代区域的自然语言描述。
4、模型训练
该实验选择在ImageNet数据集上预训练的Resnet-152作为主干网络,训练时采用Adam优化器,并设置初始学习率为5×10-5,每10轮减少为原学习率的十分之一。模型训练周期为50,batch size设置为8,LSTM的隐状态大小为768。
5、模型应用
通过上面的训练过程,选取损失函数值最小的模型用于测试。将模型参数固定,输入图像和相应的指代区域框,经过特征提取,对象上下文特征交互、生成操作后可以直接得到对目标区域的自然语言描述。本实验在RefcCOCO,RefCOCO+和RefCOCOg上分别进行了测试,生成结果如图2所示。图像中的长方形框是需要描述的对象,GT/Ours分别表示人工标注的句子和本发明生成的描述。结果表明,即使不使用额外的注释信息,该方法依然可以通过学习目标和上下文之间的细粒度交互来生成明确的表达。

Claims (3)

1.一种基于密集交叉注意力的指称表达生成方法,其特征在于,包括如下步骤:
步骤1:构建特征提取模块;
步骤1-1:对于给定的图像I和目标物体O,将目标物体O的位置定义为:bO=(x1,y1,x2,y2),其中(x1,y1)和(x2,y2)分别是目标物体O边界框左上角和右下角坐标;
步骤1-2:使用Resnet-152网络从输入图像中提取视觉特征;
将图像调整至3×W×H的大小,并采用Resnet-152网络提取特征图:其中i代表样本,j代表特征序号,w和h分别是特征图的宽度和高度,特征维度为d维;
步骤1-3:选择目标边界框内的特征作为对象特征其余的特征向量作为上下文特征/>其中w0和h0是目标边界框经缩放后的宽度和高度,表示如下:
w0=(int(x2/scalex)-int(x1/scalex)) (1)
h0=(int(y2/scaley)-int(y1/scaley)) (2)
其中int(·)表示该操作将分数舍入到最接近的整数;
步骤2:构建对象上下文注意模块;
所述对象上下文注意模块由上下文对象交互注意模块和融合模块构成;
上下文对象交互注意模块分为上下文引导CGO子模块和对象引导OGC子模块;每个CGO子模块和OGC子模块都由N个相同的交互注意力层组成;
在OGC子模块中,首先将空间位置编码添加到Oi和Ci中,然后将Ci的每个特征作为查询,以此计算所有上下文网格的注意力权重
其中,Q代表查询向量,K、V分别表示键和值,m表示自注意力的头数;OGC子模块输出目标对象引导的关键上下文信息;
对于CGO子模块,将上下文特征编码为查询,而对象特征用于键和值。
在CGO子模块中,首先添加与OGC模块中一致的空间位置编码,然后将Ci的每个特征作为查询,以此计算所有目标网格的注意力权重
CGO子模块输出上下文信息引导的目标对象;
将OGC子模块和CGO子模块得到的特征进行concat操作,并通过K层自注意力层构成的融合模块进行融合;将融合后最后一层的目标对象部分作为最终的特征表示;
步骤3:对步骤2输出的最终特征进行平均池化获得最终的视觉特征vi;使用LSTM作为生成模块,在每个时间步,将单词特征xt、视觉特征vi和隐藏状态ht连接,并将其作为LSTM模型的输入,表述为:
ht=LSTM([xt;vi;ht-1]) (4)
probt=Softmax(Wpht+bp) (5)
其中Wp和bp是可训练参数,[;]表示连接操作,probt是输出单词标记的概率,i表示样本,t表示时间步;
生成损失函数通过最小化负对数似然定义:
其中θ表示LSTM的参数,Si表示目标句子,表示t-1时间步的目标单词,/>表示第一个时间步的目标单词;
利用三元组损失来增加从对象的网格特征生成句子Si的概率,而降低从其他对象特征生成句子Si的概率;具体而言,给定一个正对(Si,vi),在同一图像中随机采样P个负对(Si,vn)和(Sn,vi),其中Sn和vn分别是其他表达式和对象,三元组损失函数表示为:
其中P为采样数,M为超参数,λ1、λ2为权重;
最后整体损失是生成损失和三元组损失的总和:
LREG(θ)=L1(θ)+L2(θ) (8)
2.根据权利要求1所述的一种基于密集交叉注意力的指称表达生成方法,其特征在于,所述LSTM的时间长度和隐状态大小分别设置为20和768。
3.根据权利要求1所述的一种基于密集交叉注意力的指称表达生成方法,其特征在于,所述P=3,M=3,λ1、λ2都为0.1。
CN202111601881.9A 2021-12-24 2021-12-24 一种基于密集交叉注意力的指称表达生成方法 Active CN114494813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111601881.9A CN114494813B (zh) 2021-12-24 2021-12-24 一种基于密集交叉注意力的指称表达生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111601881.9A CN114494813B (zh) 2021-12-24 2021-12-24 一种基于密集交叉注意力的指称表达生成方法

Publications (2)

Publication Number Publication Date
CN114494813A CN114494813A (zh) 2022-05-13
CN114494813B true CN114494813B (zh) 2024-03-05

Family

ID=81495109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111601881.9A Active CN114494813B (zh) 2021-12-24 2021-12-24 一种基于密集交叉注意力的指称表达生成方法

Country Status (1)

Country Link
CN (1) CN114494813B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367763B1 (en) * 2015-01-12 2016-06-14 Xerox Corporation Privacy-preserving text to image matching
WO2017212459A1 (en) * 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
CN107729987A (zh) * 2017-09-19 2018-02-23 东华大学 基于深度卷积‑循环神经网络的夜视图像的自动描述方法
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN111444968A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种基于注意力融合的图像描述生成方法
CN113035311A (zh) * 2021-03-30 2021-06-25 广东工业大学 一种基于多模态注意力机制的医学图像报告自动生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100145B2 (en) * 2019-09-11 2021-08-24 International Business Machines Corporation Dialog-based image retrieval with contextual information

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367763B1 (en) * 2015-01-12 2016-06-14 Xerox Corporation Privacy-preserving text to image matching
WO2017212459A1 (en) * 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
CN107729987A (zh) * 2017-09-19 2018-02-23 东华大学 基于深度卷积‑循环神经网络的夜视图像的自动描述方法
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN111444968A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种基于注意力融合的图像描述生成方法
CN113035311A (zh) * 2021-03-30 2021-06-25 广东工业大学 一种基于多模态注意力机制的医学图像报告自动生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨楠 ; 南琳 ; 张丁一 ; 库涛 ; .基于深度学习的图像描述研究.红外与激光工程.2018,(02),全文. *

Also Published As

Publication number Publication date
CN114494813A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN107480206B (zh) 一种基于多模态低秩双线性池化的图像内容问答方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
Zhou et al. A real-time global inference network for one-stage referring expression comprehension
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN109712108B (zh) 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN112949622B (zh) 融合文本与图像的双模态性格分类方法及装置
CN111949824A (zh) 基于语义对齐的视觉问答方法和系统、存储介质
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN113449801A (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN114418032A (zh) 一种基于自协调对比学习的五模态商品预训练方法及检索系统
CN115146100A (zh) 一种基于反事实推理的跨模态检索模型、方法及计算机设备
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN110889505A (zh) 一种图文序列匹配的跨媒体综合推理方法和系统
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
Hafeth et al. Semantic representations with attention networks for boosting image captioning
US20240119716A1 (en) Method for multimodal emotion classification based on modal space assimilation and contrastive learning
CN113240033A (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN112528989A (zh) 一种图像语义细粒度的描述生成方法
Toshevska et al. Exploration into deep learning text generation architectures for dense image captioning
CN114494813B (zh) 一种基于密集交叉注意力的指称表达生成方法
CN116595133A (zh) 一种基于堆叠注意力与门控融合的视觉问答方法
CN116701996A (zh) 基于多元损失函数的多模态情感分析方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant