CN114494813A - 一种基于密集交叉注意力的指称表达生成方法 - Google Patents
一种基于密集交叉注意力的指称表达生成方法 Download PDFInfo
- Publication number
- CN114494813A CN114494813A CN202111601881.9A CN202111601881A CN114494813A CN 114494813 A CN114494813 A CN 114494813A CN 202111601881 A CN202111601881 A CN 202111601881A CN 114494813 A CN114494813 A CN 114494813A
- Authority
- CN
- China
- Prior art keywords
- module
- features
- target
- attention
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000000007 visual effect Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims abstract description 5
- 230000003993 interaction Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于密集交叉注意力的指称表达生成方法,首先构建特征提取模块,从给定图像中提取目标特征;然后构建对象上下文注意模块,通过对象上下文注意模块得到目标的最终特征;然后将最终特征进行平均池化获得最终的视觉特征,使用LSTM作为生成模块,在每个时间步,将单词特征、视觉特征和隐藏状态连接,并将其作为LSTM模型的输入,LSTM模型的输出即为最终结果;损失函数采用生成损失和三元组损失组合。本发明可以对多模态数据进行建模并学习细粒度的特征表示,并能够在没有实例级注释的情况下生成无歧义的表达式。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种指称表达生成方法。
背景技术
指称表达式生成(Referring expression generation,REG)任务是计算机视觉推理中重要的任务之一,是许多视觉和语言任务(例如视觉问答或视觉对话)的必要步骤。与图像描述(Image caption)任务不同,REG需要模型关注特定区域,为目标对象而不是整张图片生成描述。其次,REG要求生成的句子是无歧义的,并包括便于区分对象的属性信息(如颜色、姿态、形状)。对于REG任务来说,当前主流的解决方案是基于两阶段的方法,该方法需要依赖大量额外注释或现成的目标检测器去生成区域建议框(bounding boxes),进而计算得到视觉差异性特征。虽然上述方法已经取得了较好的效果,但这种策略会不可避免的导致错误积累,同时也会影响模型的泛化能力,致使生成描述的质量较差。
发明内容
为了克服现有技术的不足,本发明提供了一种基于密集交叉注意力的指称表达生成方法,首先构建特征提取模块,从给定图像中提取目标特征;然后构建对象上下文注意模块,通过对象上下文注意模块得到目标的最终特征;然后将最终特征进行平均池化获得最终的视觉特征,使用LSTM作为生成模块,在每个时间步,将单词特征、视觉特征和隐藏状态连接,并将其作为LSTM模型的输入,LSTM模型的输出即为最终结果;损失函数采用生成损失和三元组损失组合。本发明可以对多模态数据进行建模并学习细粒度的特征表示,并能够在没有实例级注释的情况下生成无歧义的表达式。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建特征提取模块;
步骤1-1:对于给定的图像I和目标物体O,将目标物体O的位置定义为:bO=(x1,y1,x2,y2),其中(x1,y1)和(x2,y2)分别是目标物体O边界框左上角和右下角坐标;
步骤1-2:使用Resnet-152网络从输入图像中提取视觉特征;
w0=(int(x2/scalex)-int(x1/scalex)) (1)
h0=(int(y2/scaley)-int(y1/scaley)) (2)
步骤2:构建对象上下文注意模块;
所述对象上下文注意模块由上下文对象交互注意模块和融合模块构成;
上下文对象交互注意模块分为上下文引导CGO子模块和对象引导OGC子模块;每个CGO子模块和OGC子模块都由N个相同的交互注意力层组成;
对于CGO子模块,将上下文特征编码为查询,而对象特征用于键和值。
CGO子模块输出上下文信息引导的目标对象;
将OGC子模块和CGO子模块得到的特征进行concat操作,并通过K层自注意力层构成的融合模块进行融合;将融合后最后一层的目标对象部分作为最终的特征表示;
步骤3:对步骤2输出的最终特征进行平均池化获得最终的视觉特征vi;使用LSTM作为生成模块,在每个时间步,将单词特征xt、视觉特征vi和隐藏状态ht连接,并将其作为LSTM模型的输入,表述为:
ht=LSTM([xt;vi;ht-1]) (4)
probt=Softmax(Wpht+bp) (5)
其中Wp和bp是可训练参数,[;]表示连接操作,probt是输出单词标记的概率,i表示样本,t表示时间步;
生成损失函数通过最小化负对数似然定义:
利用三元组损失来增加从对象的网格特征生成句子Si的概率,而降低从其他对象特征生成句子Si的概率;具体而言,给定一个正对(Si,vi),在同一图像中随机采样P个负对(Si,vn)和(Sn,vi),其中Sn和vn分别是其他表达式和对象,三元组损失函数表示为:
其中P为采样数,M为超参数,λ1、λ2为权重;
最后整体损失是生成损失和三元组损失的总和:
LREG(θ)=L1(θ)+L2(θ) (8)
优选地,所述LSTM的时间长度和隐状态大小分别设置为20和768。
优选地,所述P=3,M=3,λ1、λ2都为0.1。
本发明的有益效果如下:
本发明通过一种一阶段方法来解决指称表达生成任务,可以对多模态数据进行建模并学习细粒度的特征表示;其次,本发明可以在没有实例级注释的情况下生成无歧义的表达式。
附图说明
图1为本发明方法的网络结构示意图。
图2为采用本发明方法在指称表达式数据集上的目标区域描述生成结果。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提供了一种基于密集交叉注意力的指称表达生成方法。该方法采用一阶段框架,不需要提取区域建议框或额外的注释信息,只需要通过密集交互注意力和自注意力方法获取上下文细粒度信息,就可以直接生成无歧义的描述。该方法采用端到端的训练方式,无需任何实例级的注释,为指称表达生成提供了一种新的解决思路。
一种基于密集交叉注意力的指称表达生成方法,包括如下步骤:
步骤1:构建特征提取模块;
步骤1-1:对于给定的图像I和目标物体O,将目标物体O的位置定义为:bO=(x1,y1,x2,y2),其中(x1,y1)和(x2,y2)分别是目标物体O边界框左上角和右下角坐标;
步骤1-2:使用Resnet-152网络从输入图像中提取视觉特征;
w0=(int(x2/scalex)-int(x1/scalex)) (1)
h0=(int(y2/scaley)-int(y1/scaley)) (2)
步骤2:构建对象上下文注意模块;
所述对象上下文注意模块由上下文对象交互注意模块和融合模块构成;
上下文对象交互注意模块分为上下文引导(Contexts Guide Objects,CGO)子模块和对象引导(Objects Guide Contexts,OGC)子模块;每个CGO子模块和OGC子模块都由N个相同的交互注意力层组成;
CGO子模块输出上下文信息引导的目标对象;
将OGC子模块和CGO子模块得到的特征进行concat操作,并通过K层自注意力层构成的融合模块进行融合;将融合后最后一层的目标对象部分作为最终的特征表示;
步骤3:对步骤2输出的最终特征进行平均池化获得最终的视觉特征vi;使用LSTM作为生成模块,在每个时间步,将单词特征xt、视觉特征vi和隐藏状态ht连接,并将其作为LSTM模型的输入,表述为:
ht=LSTM([xt;vi;ht-1]) (4)
probt=Softmax(Wpht+bp) (5)
其中Wp和bp是可训练参数,[;]表示连接操作,probt是输出单词标记的概率;
生成损失函数通过最小化负对数似然定义:
其中θ表示LSTM的参数;
利用三元组损失来增加从对象的网格特征生成句子Si的概率,而降低从其他对象特征生成句子Si的概率;具体而言,给定一个正对(Si,vi),在同一图像中随机采样P个负对(Si,vn)和(Sn,vi),其中Sn和vn分别是其他表达式和对象,三元组损失函数表示为:
其中P为采样数,M为超参数,λ1、λ2为权重;
最后整体损失是生成损失和三元组损失的总和:
LREG(θ)=L1(θ)+L2(θ) (8)
具体实施例:
1、特征提取
给定一张自然场景中的图像和目标边界框,首先通过线性插值的方法将输入图像调整到512×512×3,边缘区域采用像素值0补全。然后通过主干网络Resnet-152得到16×16×2048维的特征,并选取目标边界框内的特征向量作为目标对象特征,将其余向量作为上下文信息。
2、对象上下文特征交互
为了提取丰富的上下文线索,将从主干网络提取的目标对象特征和上下文特征送入到对象上下文注意模块中。并分别输入到OGC和CGO子模块,以此学习对象特征和上下文特征之间的信息交互来得到线索特征。为整合这些线索特征,本实施例将它们送入到多层(Transformer)构成的融合模块,并基于最后一层提取768维的对象特征表示。
3、指称表达生成
将对象上下文注意模块得到的768维对象特征表示和开始标记单词同时输入到长短时记忆网络中,每一个时间步生成一个单词,最终得到对图像指代区域的自然语言描述。
4、模型训练
该实验选择在ImageNet数据集上预训练的Resnet-152作为主干网络,训练时采用Adam优化器,并设置初始学习率为5×10-5,每10轮减少为原学习率的十分之一。模型训练周期为50,batch size设置为8,LSTM的隐状态大小为768。
5、模型应用
通过上面的训练过程,选取损失函数值最小的模型用于测试。将模型参数固定,输入图像和相应的指代区域框,经过特征提取,对象上下文特征交互、生成操作后可以直接得到对目标区域的自然语言描述。本实验在RefcCOCO,RefCOCO+和RefCOCOg上分别进行了测试,生成结果如图2所示。图像中的长方形框是需要描述的对象,GT/Ours分别表示人工标注的句子和本发明生成的描述。结果表明,即使不使用额外的注释信息,该方法依然可以通过学习目标和上下文之间的细粒度交互来生成明确的表达。
Claims (3)
1.一种基于密集交叉注意力的指称表达生成方法,其特征在于,包括如下步骤:
步骤1:构建特征提取模块;
步骤1-1:对于给定的图像I和目标物体O,将目标物体O的位置定义为:bO=(x1,y1,x2,y2),其中(x1,y1)和(x2,y2)分别是目标物体O边界框左上角和右下角坐标;
步骤1-2:使用Resnet-152网络从输入图像中提取视觉特征;
w0=(int(x2/scalex)-int(x1/scalex)) (1)
h0=(int(y2/scaley)-int(y1/scaley)) (2)
步骤2:构建对象上下文注意模块;
所述对象上下文注意模块由上下文对象交互注意模块和融合模块构成;
上下文对象交互注意模块分为上下文引导CGO子模块和对象引导OGC子模块;每个CGO子模块和OGC子模块都由N个相同的交互注意力层组成;
对于CGO子模块,将上下文特征编码为查询,而对象特征用于键和值。
CGO子模块输出上下文信息引导的目标对象;
将OGC子模块和CGO子模块得到的特征进行concat操作,并通过K层自注意力层构成的融合模块进行融合;将融合后最后一层的目标对象部分作为最终的特征表示;
步骤3:对步骤2输出的最终特征进行平均池化获得最终的视觉特征vi;使用LSTM作为生成模块,在每个时间步,将单词特征xt、视觉特征vi和隐藏状态ht连接,并将其作为LSTM模型的输入,表述为:
ht=LSTM([xt;vi;ht-1]) (4)
probt=Softmax(Wpht+bp) (5)
其中Wp和bp是可训练参数,[;]表示连接操作,probt是输出单词标记的概率,i表示样本,t表示时间步;
生成损失函数通过最小化负对数似然定义:
利用三元组损失来增加从对象的网格特征生成句子Si的概率,而降低从其他对象特征生成句子Si的概率;具体而言,给定一个正对(Si,vi),在同一图像中随机采样P个负对(Si,vn)和(Sn,vi),其中Sn和vn分别是其他表达式和对象,三元组损失函数表示为:
其中P为采样数,M为超参数,λ1、λ2为权重;
最后整体损失是生成损失和三元组损失的总和:
LREG(θ)=L1(θ)+L2(θ) (8)
2.根据权利要求1所述的一种基于密集交叉注意力的指称表达生成方法,其特征在于,所述LSTM的时间长度和隐状态大小分别设置为20和768。
3.根据权利要求1所述的一种基于密集交叉注意力的指称表达生成方法,其特征在于,所述P=3,M=3,λ1、λ2都为0.1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111601881.9A CN114494813B (zh) | 2021-12-24 | 2021-12-24 | 一种基于密集交叉注意力的指称表达生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111601881.9A CN114494813B (zh) | 2021-12-24 | 2021-12-24 | 一种基于密集交叉注意力的指称表达生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114494813A true CN114494813A (zh) | 2022-05-13 |
CN114494813B CN114494813B (zh) | 2024-03-05 |
Family
ID=81495109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111601881.9A Active CN114494813B (zh) | 2021-12-24 | 2021-12-24 | 一种基于密集交叉注意力的指称表达生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114494813B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9367763B1 (en) * | 2015-01-12 | 2016-06-14 | Xerox Corporation | Privacy-preserving text to image matching |
WO2017212459A1 (en) * | 2016-06-09 | 2017-12-14 | Sentient Technologies (Barbados) Limited | Content embedding using deep metric learning algorithms |
CN107729987A (zh) * | 2017-09-19 | 2018-02-23 | 东华大学 | 基于深度卷积‑循环神经网络的夜视图像的自动描述方法 |
CN108829677A (zh) * | 2018-06-05 | 2018-11-16 | 大连理工大学 | 一种基于多模态注意力的图像标题自动生成方法 |
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
US20210073252A1 (en) * | 2019-09-11 | 2021-03-11 | International Business Machines Corporation | Dialog-based image retrieval with contextual information |
CN113035311A (zh) * | 2021-03-30 | 2021-06-25 | 广东工业大学 | 一种基于多模态注意力机制的医学图像报告自动生成方法 |
-
2021
- 2021-12-24 CN CN202111601881.9A patent/CN114494813B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9367763B1 (en) * | 2015-01-12 | 2016-06-14 | Xerox Corporation | Privacy-preserving text to image matching |
WO2017212459A1 (en) * | 2016-06-09 | 2017-12-14 | Sentient Technologies (Barbados) Limited | Content embedding using deep metric learning algorithms |
CN107729987A (zh) * | 2017-09-19 | 2018-02-23 | 东华大学 | 基于深度卷积‑循环神经网络的夜视图像的自动描述方法 |
CN108829677A (zh) * | 2018-06-05 | 2018-11-16 | 大连理工大学 | 一种基于多模态注意力的图像标题自动生成方法 |
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
US20210073252A1 (en) * | 2019-09-11 | 2021-03-11 | International Business Machines Corporation | Dialog-based image retrieval with contextual information |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
CN113035311A (zh) * | 2021-03-30 | 2021-06-25 | 广东工业大学 | 一种基于多模态注意力机制的医学图像报告自动生成方法 |
Non-Patent Citations (1)
Title |
---|
杨楠;南琳;张丁一;库涛;: "基于深度学习的图像描述研究", 红外与激光工程, no. 02, 25 February 2018 (2018-02-25) * |
Also Published As
Publication number | Publication date |
---|---|
CN114494813B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480206B (zh) | 一种基于多模态低秩双线性池化的图像内容问答方法 | |
CN110111399B (zh) | 一种基于视觉注意力的图像文本生成方法 | |
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN109712108B (zh) | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 | |
CN113297370B (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN111259940A (zh) | 一种基于空间注意力地图的目标检测方法 | |
CN112070114B (zh) | 基于高斯约束注意力机制网络的场景文字识别方法及系统 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN114550223B (zh) | 人物交互检测方法、装置及电子设备 | |
CN111949824A (zh) | 基于语义对齐的视觉问答方法和系统、存储介质 | |
CN114339450B (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN111967272A (zh) | 基于语义对齐的视觉对话生成系统 | |
CN112070040A (zh) | 一种用于视频字幕的文本行检测方法 | |
CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN115953569A (zh) | 一种基于多步推理的一阶段视觉定位模型构建方法 | |
CN113240033B (zh) | 一种基于场景图高阶语义结构的视觉关系检测方法及装置 | |
CN113256543A (zh) | 一种基于图卷积神经网络模型的点云补全方法 | |
Toshevska et al. | Exploration into deep learning text generation architectures for dense image captioning | |
CN114494813B (zh) | 一种基于密集交叉注意力的指称表达生成方法 | |
CN116595133A (zh) | 一种基于堆叠注意力与门控融合的视觉问答方法 | |
CN110717068A (zh) | 一种基于深度学习的视频检索方法 | |
CN116109978A (zh) | 基于自约束动态文本特征的无监督视频描述方法 | |
CN115934932A (zh) | 一种基于多模态关键信息分析的摘要生成系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |