CN110473267A - 基于注意力特征提取网络的社交网络图像描述生成方法 - Google Patents
基于注意力特征提取网络的社交网络图像描述生成方法 Download PDFInfo
- Publication number
- CN110473267A CN110473267A CN201910631320.XA CN201910631320A CN110473267A CN 110473267 A CN110473267 A CN 110473267A CN 201910631320 A CN201910631320 A CN 201910631320A CN 110473267 A CN110473267 A CN 110473267A
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- feature
- language model
- social networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
Abstract
本发明涉及图像理解领域,提出了一种基于注意力特征提取网络的社交网络图像描述生成方法。该方法包括两个部分,基于注意力机制的图像特征提取网络:通过高层图像特征与语言模型上下文计算不同尺度图像的注意力关注区域;基于长短期记忆网络的语言生成模型:通过输入不同尺度的图像特征与前一层语言模型输出生成描述单词。创新性地在描述生成过程中将语言模型的上下文输出用于指导提取图像特征的关注区域,理论系统完备,创新性突出,主要用于对图像自动生成文本描述,在图像理解领域具有很高的实用价值。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及多种深度学习技术,如基于卷积神经网络的图像特征提取,基于循环网络的长短期记忆网络语言模型。构建注意力特征提取网络的图像描述生成方法。
背景技术
随着移动互联网的发展,移动社交平台丰富了人们的日常生活。这些社交平台带来了图像数据的快速增长,社交网络中热点话题数据中包含着大量的图像数据,使用纯人工方法对每张图像进行内容标注成本也随之提高。因此,使用智能方法自动提取出图像特征并对图像表达内容进行描述,已经成为了计算机视觉领域的研究热点。社交网络图像数据由于受拍摄设备、拍摄场景等条件限制,所得图像往往具有分辨率较低、图像主题与背景划分不清晰等问题。国内外的研究现状表明,现有的图像描述生成方法,包括多模态循环神经网络、基于注意力机制的翻译模型等,均存在图像的语义特征利用不足的问题。
本发明提出了一种基于注意力特征提取网络的社交网络图像描述生成方法。将图像描述生成问题转化成编码解码问题,通过对不同深度图像特征进行自适应权重分配,使最终输出的图像特征的目标区域得到增强,同时使图像背景区域对前景特征的影响有所限制。突出不同尺度图像特征中的注意力区域,从而提升语言模型生成图像描述的质量。
发明内容
本发明所提出的社交网络图像描述生成方法,使用改进的卷积神经网络与注意力机制,获得不同尺度的图像特征;将不同尺度的图像特征传入相应层的长短期记忆网络语言模型生成图像描述。
为达到上述目的,如图1所示,本发明的技术方案划分为两个部分:
1.基于注意力机制的卷积神经网络图像特征提取
2.基于多尺度图像特征的长短期记忆网络的图像描述生成
本发明有以下一些技术特征:
(1)在原有卷积神经网络的基础上增加多层采样,并融合采样与卷积生成的特征图,突出每一层特征图的重点区域。
(2)根据语言模型中上下文信息的反馈自适应选取图像特征中的关注区域,提升生成图像描述的针对性与相关性。
(3)使用多层长短期记忆网络结构,充分利用图像特征所蕴含的信息,提高图像描述的精度。
本发明提出了一种基于注意力特征提取网络的社交网络图像描述生成方法,理论系统完备,创新性突出,本发明应用于社交网络图像的自动化描述工作中,可以处理不同分辨率的社交网络图像,排除分辨率与周围背景干扰等问题,提高图像描述的准确性与自然性。
附图说明
图1为方法基本内容流程图
图2为图像特征提取网络中采样分支结构图
图3为语言模型结构图
具体实施方式
为使本发明的目的、算法计算及优点更加清楚明白,以下参照附图对本发明做进一步地详细说明。本发明算法的具体实现分为以下几步:
1.基于注意力机制的卷积神经网络图像特征提取
本发明通过多个注意力结构堆叠来构建图像特征,每个注意力结构由两个分支构成:采样分支与主干分支。主干分支可以适应多种前沿网络结构。采样分支的目的在于为当前输入的特征图计算每个像素的注意力权重,图像的深度特征中可以体现出与图像中重要目标关联性高的区域,因此采样分支首先需要通过多次卷积提取输入特征图xi的深度特征,由于卷积操作使得特征图大小降低,需要在提取深度特征后通过反卷积层将深度特征放大到与输入特征图大小一致。在得到LSTM网络前一个时刻的隐含层状态ht-1后,使用单层神经网络将隐含层状态与卷积生成特征图进行融合。最后接一个Sigmoid激活函数层将特征图归一化到(0,1)之间。输出结果如式(1)、(2)(3)所示。
Vl=CNN(Xl-1) (1)
其中xi,c表示输入特征图,c表示注意力结构层数。Ws,Whs,bs为待学习的线性变换参数,Vl表示对前一个注意力结构输出特征进行卷积,作为下一个注意力结构的输入。ac表示输出的注意力特征。
将采样分支的输出M(xi,c)与主干分支的输出F(xi,c)进行对位相乘,这样主干分支输出的每个像素都经过了注意力权重处理,注意力结构的输出如式(4)所示。
其中,表示对位相乘。
虽然注意力模块有利于增强每一层特征图中的重要的部分,但是多层注意力结构叠加会导致模型的性能大幅下降,原因是采样分支的输出经过了Sigmoid函数进行归一化,再与主干分支进行对位相乘,使得该层中部分特征值遭到抑制。当多个注意力结构进行堆叠计算后可能造成最终输出的特征图中每个像素的特征值都很低,失去了大量语义信息,丧失特征价值。为了解决上述问题,注意力结构输出在采样分支与主干分支对位相乘的基础上再与主干分支进行对位相加,最终注意力结构输出结果如式(5)所示。
其中,表示对位相加。
2.语言生成模型
首先初始化0时刻第一层LSTM的隐含层网络,该层输入为第一个注意力结构输出的图像特征A(xi,1),通过一次线性变换与ReLU激活函数,将输入的图像特征投影为维度为d的初始化隐含层。输出结果如式 (6)、(7)所示。
h'0=W0*A(xi,1)+b0 (6)
h0=ReLU(h'0) (7)
其中W0与b0是待学习的线性变换的参数,式(7)得到的结果即为初始化后的隐含层。每一层LSTM语言模型的输入包括三部分,分别是Winput、V1、表示上一时刻第n层(最终层)LSTM的隐含层状态, t-1表示上一时刻;Winput表示经过编码后的词向量;vi表示经过第i个注意力结构提取的图像特征,将三者连接组合,将三者连接组合输入进LSTM网络中。这些输入数据同时包含了图像特征、文字相关的上下文特征。
将从图像中提取的多尺度特征依次输入每一层LSTM中,最终将语言模型第n-1层隐含层,即hn-1。词向量Winput与最后一层注意力结构输出的图像特征A(xi,c)相结合,输入最后一层LSTM语言模型中,如式(8)所示。
ht=LSTM(hn-1,A(xi,c),Winput) (8)
最后将最后一层LSTM输出的维度为d的隐含层映射成维度为m的向量,其中m表示语义字典中单词的数量。再通过Softmax层选出LSTM模型每一时刻的输出中概率最大的词连接成描述句子,作为模型的最终输出结果,如式(9)所示。
损失函数采用图像描述生成任务常用的交叉熵作为损失函数进行模型训练,本文采用的损失函数形式如式(10)所示:
其中:y1:T与θ分别表示目标描述的真实词序列和图像描述生成模型中解码器的参数;是 LSTM语言模型输出单词的概率。算法实现步骤如下:
步骤1.对于数据集中每张图像;
步骤2.提取第1层图像特征V1;
步骤3.将该层图像特征传入第1层LSTM初始化h0
步骤4.提取第i层图像特征Vi;
步骤5.将词向量Winput,前一层LSTM隐含层图像特征Vi输入下一层LSTM;计算下一个输出的单词;
步骤6.通过交叉熵计算损失Loss,反馈调整参数
步骤7.返回Step4,直到输出为<END>或达到句子最大长度
步骤8.返回图像描述文本。
Claims (3)
1.基于注意力特征提取网络的社交网络图像描述生成方法,其特征在于,将语言模型得到的上下文信息与图像的高层语义信息用于指导图像特征关注区域的提取。主要由基于注意力机制的卷积神经网络特征提取模块与多尺度语言模型的描述生成模块构成,通过将上下文信息用于图像特征提取,将两个模块由各自独立训练改进为融合训练,并在高分辨率与低分辨率图像数据集中均取得了较好的结果。
2.根据权力要求1所述的方法,基于注意力机制的卷积神经网络特征提取模块的特征在于,在卷积过程的同时进行特征采样得到高层语义特征并结合语言模型上下文信息进行图像特征注意力特征提取。
3.根据权利要求1所述的方法,其特征在于,使用多层长短期记忆网络计算不同尺度图像特征,将多尺度图像特征进行融合,从而生成最终的预测词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631320.XA CN110473267A (zh) | 2019-07-12 | 2019-07-12 | 基于注意力特征提取网络的社交网络图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631320.XA CN110473267A (zh) | 2019-07-12 | 2019-07-12 | 基于注意力特征提取网络的社交网络图像描述生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110473267A true CN110473267A (zh) | 2019-11-19 |
Family
ID=68508215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910631320.XA Pending CN110473267A (zh) | 2019-07-12 | 2019-07-12 | 基于注意力特征提取网络的社交网络图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110473267A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991515A (zh) * | 2019-11-28 | 2020-04-10 | 广西师范大学 | 一种融合视觉上下文的图像描述方法 |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
CN112116685A (zh) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 |
CN113343953A (zh) * | 2021-08-05 | 2021-09-03 | 南京信息工程大学 | 一种用于遥感场景识别的fgr-am方法和系统 |
CN113780350A (zh) * | 2021-08-10 | 2021-12-10 | 上海电力大学 | 一种基于ViLBERT和BiLSTM的图像描述方法 |
CN114359741A (zh) * | 2022-03-19 | 2022-04-15 | 江西财经大学 | 基于区域特征的图像描述模型注意力机制评价方法与系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
CN109948691A (zh) * | 2019-03-14 | 2019-06-28 | 齐鲁工业大学 | 基于深度残差网络及注意力的图像描述生成方法和装置 |
-
2019
- 2019-07-12 CN CN201910631320.XA patent/CN110473267A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
CN109948691A (zh) * | 2019-03-14 | 2019-06-28 | 齐鲁工业大学 | 基于深度残差网络及注意力的图像描述生成方法和装置 |
Non-Patent Citations (1)
Title |
---|
李金轩: "基于注意力特征提取网络的图像描述生成算法", 《南京信息工程大学(自然科学版)》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991515A (zh) * | 2019-11-28 | 2020-04-10 | 广西师范大学 | 一种融合视觉上下文的图像描述方法 |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
CN112116685A (zh) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 |
CN113343953A (zh) * | 2021-08-05 | 2021-09-03 | 南京信息工程大学 | 一种用于遥感场景识别的fgr-am方法和系统 |
CN113780350A (zh) * | 2021-08-10 | 2021-12-10 | 上海电力大学 | 一种基于ViLBERT和BiLSTM的图像描述方法 |
CN113780350B (zh) * | 2021-08-10 | 2023-12-19 | 上海电力大学 | 一种基于ViLBERT和BiLSTM的图像描述方法 |
CN114359741A (zh) * | 2022-03-19 | 2022-04-15 | 江西财经大学 | 基于区域特征的图像描述模型注意力机制评价方法与系统 |
CN114359741B (zh) * | 2022-03-19 | 2022-06-17 | 江西财经大学 | 基于区域特征的图像描述模型注意力机制评价方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473267A (zh) | 基于注意力特征提取网络的社交网络图像描述生成方法 | |
Han et al. | A survey on vision transformer | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN110598221B (zh) | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 | |
Wang et al. | Show, recall, and tell: Image captioning with recall mechanism | |
Jiang et al. | Learning to guide decoding for image captioning | |
Liu et al. | Implicit discourse relation classification via multi-task neural networks | |
CN110765966A (zh) | 一种面向手写文字的一阶段自动识别与翻译方法 | |
CN109919174A (zh) | 一种基于门控级联注意力机制的文字识别方法 | |
CN108388900A (zh) | 基于多特征融合和时空注意力机制相结合的视频描述方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN106383816B (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
Zhou et al. | Enhanced SSD with interactive multi-scale attention features for object detection | |
CN106960206A (zh) | 字符识别方法和字符识别系统 | |
CN107391709A (zh) | 一种基于新型注意模型进行图像字幕生成的方法 | |
CN108171198A (zh) | 基于非对称多层lstm的连续手语视频自动翻译方法 | |
CN109062910A (zh) | 基于深度神经网络的句子对齐方法 | |
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN110288029A (zh) | 基于Tri-LSTMs模型的图像描述方法 | |
CN112329760A (zh) | 基于空间变换网络端到端印刷体蒙古文识别翻译的方法 | |
CN110347831A (zh) | 基于自注意力机制的情感分类方法 | |
CN113516152B (zh) | 一种基于复合图像语义的图像描述方法 | |
Zhang et al. | An improved YOLOv3 model based on skipping connections and spatial pyramid pooling | |
Zhang et al. | Image captioning via semantic element embedding | |
CN110717342B (zh) | 一种基于transformer的距离参量对齐翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191119 |
|
WD01 | Invention patent application deemed withdrawn after publication |