CN114708474A - 一种融合局部和全局特征的图像语义理解算法 - Google Patents

一种融合局部和全局特征的图像语义理解算法 Download PDF

Info

Publication number
CN114708474A
CN114708474A CN202210244292.8A CN202210244292A CN114708474A CN 114708474 A CN114708474 A CN 114708474A CN 202210244292 A CN202210244292 A CN 202210244292A CN 114708474 A CN114708474 A CN 114708474A
Authority
CN
China
Prior art keywords
image
features
output
global
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210244292.8A
Other languages
English (en)
Inventor
贾海涛
王云
余梦鹏
李玉琳
张钰琪
李彧
任利
贾宇明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210244292.8A priority Critical patent/CN114708474A/zh
Publication of CN114708474A publication Critical patent/CN114708474A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于图像描述领域,具体为一种融合局部和全局特征的图像语义理解方法。图像中包含丰富的语义信息,包括图像中的目标、目标的属性以及不同目标之间的相互关系等,传统的目标检测、图像分割等技术并不能达到挖掘所有这些信息的目的,给图片生成文字描述的图像语义理解算法可以深入挖掘图片中的各种语义信息,对于理解图片的内容,缩减图片和文字之间的“语义鸿沟”具有重大意义。当前的图像语义理解算法依赖于计算机视觉和自然语言处理技术的发展,主要使用在机器翻译领域流行的编解码框架,其中编码器提取图像特征,解码器将提取的图像特征翻译成文字描述。然而当前的编码器大多采用基于目标检测的方法,这样往往会丢失图像背景和一些细节信息,使得描述效果不够理想。因此本发明对基于编解码框架的的图像语义理解算法进行了相应改进,提高编码器提取图像特征的能力,从而使得生成的描述语句更加准确。

Description

一种融合局部和全局特征的图像语义理解算法
技术领域
本发明属于图像描述领域,具体涉及一种融合局部和全局特征的图像语义理解方法。
背景技术
图像中包含丰富的语义信息,包括图像中的目标、目标的属性以及不同目标之间的相互关系等,传统的目标检测、图像分割等技术并不能达到挖掘所有这些信息的目的,给图片生成文字描述的图像语义理解算法可以深入挖掘图片中的各种语义信息,对于理解图片的内容,缩减图片和文字之间的“语义鸿沟”具有重大意义。当前的图像语义理解算法依赖于计算机视觉和自然语言处理技术的发展,主要使用在机器翻译领域流行的编解码框架,其中编码器提取图像特征,解码器将提取的图像特征翻译成文字描述。
发明内容
本发明要解决的技术问题是:基于编解码框架的图像语义理解算法框架进行改进,改进后算法的效果比原算法更好。
本发明基于Bottom-Up Attention的编解码框架进行改进,包括以下步骤:
步骤1:输入一张图像,使用Resnet101网络对图像提取全局特征;
其中步骤1的具体步骤为:
步骤101:使用在ImageNet上面预训练的Resnet101网络处理图像,取 resnet101第四个卷积块conv4_x的最后一层res4b22c的输出特征图。
步骤2:对提取到的全局特征进行多尺度池化操作;
其中步骤2的具体步骤为:
步骤201:采用平均池化方式,处理步骤101的输出,得到1×1×C、2×2 ×C、3×3×C和6×6×C的结果;
步骤202:使用1×1卷积核对步骤201池化之后的四种不同尺度的特征图进行降维得到1×1×C/4、2×2×C/4、3×3×C/4和6×6×C/4的结果;
步骤203:使用双线性插值的方法对步骤202的输出进行上采样,上采样之后的维度为14×14;
步骤204:将步骤203的输出进行拼接得到14×14×C的输出。
步骤3:将全局特征和多尺度池化操作之后的特征进行拼接操作;
步骤4:对拼接之后的特征进行均匀池化得到与bottom-up同维度的特征向量;
步骤5:将bottom-up特征和步骤4中均匀池化之后的特征一起输入到融合网络进行融合,得到融合特征;
其中步骤5的具体步骤为:
步骤501:融合网络模块在输入LSTM隐藏状态和全局特征与局部特征之后,使用双曲正切tanh激活函数处理得到全局和各个局部特征分量的权重;
步骤502:使用softmax对前面的权重进行归一化处理,将归一化处理得到的权重与对应的特征向量相乘再累加就得到融合特征。
步骤6:将步骤4中均匀池化之后的特征和上一时刻生成的单词的词向量以及第二层LSTM上一时刻的隐藏层的输出拼接之后输入第一层LSTM网络;
步骤7:将步骤5的融合特征和第一层LSTM的输出拼接之后输入第二层 LSTM;
步骤8:将第二层LSTM当前时刻的隐藏层输出输入到softmax层,得到单词的概率分布;
步骤9:根据步骤8的单词的概率分布,将分布值最大的值对应的单词作为输出,得到当前时刻生成的单词;
其中步骤9的具体步骤为:
步骤901:根据步骤8中得到的单词概率分布,使用argmax函数处理概率分布,得到最大概率值对应的索引,从词汇表中输出索引对应的单词即为当前时刻生成的单词。
步骤10:将每个时刻输出的单词按序组合成描述语句,直到输出结束标志符或者输出达到最大长度时,得到的语句为图像的描述语句。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
(1)解决了传统编码器使用目标检测算法提取图像特征时只能提取显著目标特征而忽略图像背景的问题,从而使得生成的描述更加详细;
(2)对提取的全局特征进行多尺度池化操作使得提取的特征包含更多的多尺度和多通道信息,可以更加准确的指导解码器生成图像描述。
(3)对全局特征和局部特征使用自适应分配权重的方法进行融合,可以避免全局特征中引入的噪声对生成的描述产生干扰。
附图说明
图1融合局部和全局特征的图像语义理解算法的网络框架图
图2 Faster R-CNN提取语义特征的结果图
图3多尺度池化框架图
图4融合框架图
图5双层LSTM架构图
具体实施方式
融合局部和全局特征的图像语义理解算法的网络结构如图1所示。
在基于编解码框架的图像语义理解算法中,往往采用基于目标检测的 faster-RCNN网络提取图像特征,然后再将提取的特征输入到解码器解码生成文字描述,但是由于目标检测算法的特点,目标检测算法一般只能检测到图片中显著的目标,而对于一些背景和细小目标却往往会被丢失掉,使用Faster R-CNN 提取语义特征的结果如图2所示,图片中的天空和雪地被忽视了,这样的特征输入到解码器之后,由于缺少图片完整的信息,必然会使得生成的描述语句不能完整准确的描述图片内容。
Resnet网络通过引入残差连接可以极大的增加网络的深度,可以有效的挖掘图像的信息,在图像语义理解领域常被用来提取图像的全局特征,为了充分提取特征的多尺度和多通道信息,这里对resnet提取的特征进行多尺度池化操作,多尺度池化方式如图3所示,从四个不同的尺度来提取图像特征,常见的池化方式有平均池化和最大池化,但是最大池化不能反映特征图的整体分布情况,因此为了能够充分反映特征图的整体分布情况,在我们的模型中,统一采用了平均池化的方式;最上面一个分支,采用全局池化的方式,可以提取全局上下文信息,但是它缺失了图片的空间位置等信息;下面三个分支分别采用不同的尺度进行池化,使得池化之后的特征图的维度分别为2×2×C、3×3×C和6×6×C。池化之后使用1×1卷积核对四种不同尺度的特征图进行降维,使得维度变成C/4,同时还可以挖掘不同通道之间的相互关系,增加非线性。在降维之后,为了方便后续的拼接,采用双线性插值对四种尺度的特征图进行上采样,使四种不同尺度池化的特征图都变成H×W×C/4的尺寸;接着将这四种特征图拼接成一个H×W× C的特征图;最后受残差思想的启发,为了使得最后的特征图保留拼接之前的特征信息,将原图和拼接图再次拼接组合成一个通道数为原特征图两倍的融合特征图Vfuse,其尺寸为H×W×2C,经过前面的分析可知,经过多尺度池化模块处理的特征图Vfuse将包含丰富的全局信息、多尺度信息和通道信息,对比直接提取的特征图来说,前者将能够更好的指导图像生成文字描述。
为了使得经过多尺度池化模块处理的特征图Vfuse可以和bottom-up特征进行融合,将Vfuse特征经过均匀池化和flatten操作转换成1×2048维的特征vglobal,将和bottom-up特征一起输入融合网络进行融合,整个融合过程如图4所示,融合网络为一个感知机,输入为全局特征和局部特征以及LSTM网络的隐藏层输出,融合网络根据每时刻要生成的单词动态的给全局特征和局部特征分配权重,权重分配公式如公式(1),再使用softmax函数对(1)的结果进行归一化处理如公式(2)所示,融合网络的输出为各个特征和对应分配的权重的乘积累加,具体如公式(3)。
αi,t=ωa T tanh(Wvavi+Wha ht 1) (1)
αt=softmax(at) (2)
Figure RE-GDA0003675622820000041
其中ωa T、Wva和Wha为感知机需要训练的参数,vi为局部特征中的L个区域中的一个特征,ht 1为第一层LSTM在当前时刻的输出,通过分配权重的方式进行特征融合可以使得解码器在生成单词的过程中根据特征对单词的重要性自适应的选择重要的特征分配权重,同时由于全局特征中也可能引入噪声,自适应的分配权重可以通过给噪声分配较低的权重或者不分配权重来消除噪声的影响,对比通过直接将全局特征和局部特征做拼接来融合的方式要更加合理。
上述为编码端的改进,解码端使用经典的top-down双层LSTM框架,该解码器的结构如图5所示,将经过融合网络处理的融合特征按照bottom-up and top-down原始连接方式输入top-down双层LSTM网络就可以组成完整的改进的编解码框架。在解码器中使用y1:T表示生成的单词序列(y1,y2……yT),在每个时刻t生成单词yt的条件概率为公式(4):
Figure RE-GDA0003675622820000051
其中Wp∈RN×M为学习参数,bp为偏差项,完整的句子输出的概率可以由概率的乘法公式得出如公式(5)所示:
Figure RE-GDA0003675622820000052
给定指定的图片和对应的语句描述,我们以最小化公式(6)所示的交叉熵损失函数来训练学习参数。
LXE(θ)=-∑log(pθ(yt *|y1:t-1 *)) (6)
在交叉熵损失的训练过程中存在“曝光偏差”的问题,在训练阶段每次都是将标注语句的单词输入解码器指导生成下一个单词,但是在测试阶段,确是将上一时刻生成的单词的词向量输入解码器引导生成下一个单词,如果生成的单词出现错误或者偏差,就会使得后续语句的生成出现累积误差,因此为了进一步提升编解码器的性能,在训练阶段采用强化学习的方法进行训练,具体使用SCST两阶段训练法,以CIDEr作为奖励,进行训练,其中第一阶段使用交叉熵损失预训练,第二阶段在预训练的基础上使用强化学习进行微调训练得到最后的模型参数。

Claims (5)

1.一种融合局部和全局特征的图像语义理解算法,其特征在于,包括下列步骤:
步骤1:输入一张图像,使用Resnet101网络对图像提取全局特征;
步骤2:对提取到的全局特征进行多尺度池化操作;
步骤3:将全局特征和多尺度池化操作之后的特征进行拼接操作;
步骤4:对拼接之后的特征进行均匀池化得到与bottom-up同维度的特征向量;
步骤5:将bottom-up特征和步骤4中均匀池化之后的特征一起输入到融合网络进行融合,得到融合特征;
步骤6:将步骤4中均匀池化之后的特征和上一时刻生成的单词的词向量以及第二层LSTM上一时刻的隐藏层的输出拼接之后输入第一层LSTM网络;
步骤7:将步骤5的融合特征和第一层LSTM的输出拼接之后输入第二层LSTM;
步骤8:将第二层LSTM当前时刻的隐藏层输出输入到softmax层,得到单词的概率分布;
步骤9:根据步骤8的单词的概率分布,将分布值最大的值对应的单词作为输出,得到当前时刻生成的单词;
步骤10:将每个时刻输出的单词按序组合成描述语句,直到输出结束标志符或者输出达到最大长度时,得到的语句为图像的描述语句。
2.根据权利要求1所述的融合局部和全局特征的图像语义理解算法,其特征在于,所述步骤1中提取全局特征的方法具体为:
步骤101:使用在ImageNet上面预训练的Resnet101网络处理图像,取resnet101第四个卷积块conv4_x的最后一层res4b22c的输出特征图。
3.根据权利要求1所述的融合局部和全局特征的图像语义理解算法,其特征在于,所述步骤2中多尺度池化的操作方法具体为:
步骤201:采用平均池化方式,处理步骤101的输出,得到1×1×C、2×2×C、3×3×C和6×6×C的结果;
步骤202:使用1×1卷积核对步骤201池化之后的四种不同尺度的特征图进行降维得到1×1×C/4、2×2×C/4、3×3×C/4和6×6×C/4的结果;
步骤203:使用双线性插值的方法对步骤202的输出进行上采样,上采样之后的维度为14×14;
步骤204:将步骤203的输出进行拼接得到14×14×C的输出。
4.根据权利要求1所述的融合局部和全局特征的图像语义理解算法,其特征在于,所述步骤5中全局特征和局部特征的融合方法具体为:
步骤501:融合网络模块在输入LSTM隐藏状态和全局特征与局部特征之后,使用双曲正切tanh激活函数处理得到全局和各个局部特征分量的权重;
步骤502:使用softmax对前面的权重进行归一化处理,将归一化处理得到的权重与对应的特征向量相乘再累加就得到融合特征。
5.根据权利要求1所述的融合局部和全局特征的图像语义理解算法,其特征在于,所述步骤9中生成单词的方法具体为:
步骤901:根据步骤8中得到的单词概率分布,使用argmax函数处理概率分布,得到最大概率值对应的索引,从词汇表中输出索引对应的单词即为当前时刻生成的单词。
CN202210244292.8A 2022-03-14 2022-03-14 一种融合局部和全局特征的图像语义理解算法 Pending CN114708474A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210244292.8A CN114708474A (zh) 2022-03-14 2022-03-14 一种融合局部和全局特征的图像语义理解算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210244292.8A CN114708474A (zh) 2022-03-14 2022-03-14 一种融合局部和全局特征的图像语义理解算法

Publications (1)

Publication Number Publication Date
CN114708474A true CN114708474A (zh) 2022-07-05

Family

ID=82169574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210244292.8A Pending CN114708474A (zh) 2022-03-14 2022-03-14 一种融合局部和全局特征的图像语义理解算法

Country Status (1)

Country Link
CN (1) CN114708474A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359323A (zh) * 2022-08-31 2022-11-18 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
CN117036967A (zh) * 2023-10-08 2023-11-10 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法
CN117907970A (zh) * 2024-03-19 2024-04-19 清华大学苏州汽车研究院(相城) 激光雷达的目标检测模型的生成、目标检测方法及其装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966090A (zh) * 2015-07-21 2015-10-07 公安部第三研究所 实现面向图像理解的视觉单词生成和评价的系统及方法
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
US20200175053A1 (en) * 2018-11-30 2020-06-04 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description
CN111292330A (zh) * 2020-02-07 2020-06-16 北京工业大学 基于编解码器的图像语义分割方法及装置
CN113516152A (zh) * 2021-04-08 2021-10-19 北京航空航天大学 一种基于复合图像语义的图像描述方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966090A (zh) * 2015-07-21 2015-10-07 公安部第三研究所 实现面向图像理解的视觉单词生成和评价的系统及方法
US20200175053A1 (en) * 2018-11-30 2020-06-04 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN111292330A (zh) * 2020-02-07 2020-06-16 北京工业大学 基于编解码器的图像语义分割方法及装置
CN113516152A (zh) * 2021-04-08 2021-10-19 北京航空航天大学 一种基于复合图像语义的图像描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JERIPOTHULA PRUDVIRAJ 等: "Incorporating attentive multi-scale context information for image captioning", 《MULTIMEDIA TOOLS AND APPLICATIONS》 *
PETER ANDERSON 等: "Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) 》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359323A (zh) * 2022-08-31 2022-11-18 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
CN115359323B (zh) * 2022-08-31 2023-04-25 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
CN117036967A (zh) * 2023-10-08 2023-11-10 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法
CN117036967B (zh) * 2023-10-08 2024-01-19 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法
CN117907970A (zh) * 2024-03-19 2024-04-19 清华大学苏州汽车研究院(相城) 激光雷达的目标检测模型的生成、目标检测方法及其装置
CN117907970B (zh) * 2024-03-19 2024-05-28 清华大学苏州汽车研究院(相城) 激光雷达的目标检测模型的生成、目标检测方法及其装置

Similar Documents

Publication Publication Date Title
CN109508462B (zh) 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
US11281945B1 (en) Multimodal dimensional emotion recognition method
CN114708474A (zh) 一种融合局部和全局特征的图像语义理解算法
CN113205817B (zh) 语音语义识别方法、系统、设备及介质
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110795945A (zh) 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN108228576B (zh) 文本翻译方法及装置
WO2021127817A1 (zh) 一种多语言文本合成语音方法、装置、设备及存储介质
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113574595A (zh) 用于具有触发注意力的端到端语音识别的系统和方法
CN111783478B (zh) 机器翻译质量估计方法、装置、设备及存储介质
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN114998673A (zh) 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN113360610A (zh) 基于Transformer模型的对话生成方法及系统
CN113344036A (zh) 一种基于动态词嵌入的多模态Transformer的图像描述方法
CN110020440B (zh) 一种机器翻译方法、装置、服务器及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN116206596A (zh) 一种垂类领域端到端语音识别方法与装置
CN112668346B (zh) 翻译方法、装置、设备及存储介质
CN114220095A (zh) 一种基于实例分割的图像语义描述改进方法
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN117251562A (zh) 一种基于事实一致性增强的文本摘要生成方法
CN112949284A (zh) 一种基于Transformer模型的文本语义相似度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220705