CN113469260A - 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法 - Google Patents

一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法 Download PDF

Info

Publication number
CN113469260A
CN113469260A CN202110785560.2A CN202110785560A CN113469260A CN 113469260 A CN113469260 A CN 113469260A CN 202110785560 A CN202110785560 A CN 202110785560A CN 113469260 A CN113469260 A CN 113469260A
Authority
CN
China
Prior art keywords
attention
features
neural network
fusion
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110785560.2A
Other languages
English (en)
Other versions
CN113469260B (zh
Inventor
周冕
刘文轩
丛钶伦
朱国强
高毅
戚周铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN202110785560.2A priority Critical patent/CN113469260B/zh
Publication of CN113469260A publication Critical patent/CN113469260A/zh
Application granted granted Critical
Publication of CN113469260B publication Critical patent/CN113469260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法。涉及图像处理、计算机视觉及自然语言处理等领域,本方法研究基于跨场景的图像描述方法中文本语意连续性交较差,场景描述精度较低的问题以及该方法在视觉描述中的应用。本方法提出了一个高效的图像特征注意力网络,即AMNet,直接使用ResNet作为骨干网,使用其全连接层特征。对于图像特征应用了我们的图像特征注意力结构,通过将图像特征拆分为16个子特征,使用改进的循环神经网络在提高精度的同时保留有效前序特征,以解决语意连续性交较差,场景描述精度较低的问题。

Description

一种基于卷积神经网络、注意力机制及自注意力变换器的视 觉描述方法
技术领域
本发明涉及人工智能视觉描述领域,具体而言是一种基于卷积神经网络,注意力机制及transformer的连续视觉场景描述生成网络。
背景技术
视觉描述是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字,可以看作是对图像信息进行描述的任务,它可以为视觉信息自动生成描述。该任务可以理解为是一种动态的目标检测,由全局信息生成图像摘要。近年来,通过卷积神经网络提取图片中词特征的主要趋势。当前大多数的Image Caption方法基于encoder-decoder模型。其中encoder一般为卷积神经网络,利用最后全连接层或者卷积层的特征作为图像的特征,decoder一般为递归神经网络,主要用于图像描述的生成。但是目前主流方法对于连续视觉信息即多张图片图像描述的语义连贯性较差,因而输出结果不够理想。
为了解决这个问题,目前主流方法通过将多张图像叠加作为隐藏层参数,再通过循环神经网络依次处理每张图片依次生成描述。然而,解码模块不能灵活地使用不同图像的特征来维持更好的语义连贯性,导致输出更接近于多段描述而非一段针对全局特征的描述。
发明内容
本发明的目标是提升整体描述的语义连贯性,于是本方法提出了一种有效的增强注意力机制网络,同时对全局特征以及单图像特征进行加权融合。该网络由三部分组成,编码模块,多尺度注意力融合模块以及解码模块。在编码模块中,本方法使用ResNet作为骨干网络,提取全连接层的图像特征并将单张图片特征划分为16个子特征。解码模块中,本方法设计了一种多尺度注意力融合模块,从而融合来自全局以及当前图像的特征,并采用注意力机制来加权区域特征,提升模型的整体准确度。
本发明的一种基于卷积神经网络,注意力机制及transformer的视觉叙事网络,包含以下模块:
第1、整体网络的构建:
第1.1、将ResNet101作为主干网络,使用其全连接层输出作为图像特征输入后续网络;
第1.2、通过将图像特征拆分为16个子特征,将16个子特征分别送入聚合注意力单元即AMNet,进行加权融合,保留有效图片特征,输出全局融合特征;
第1.3、通过循环神经网络模块对多张图的全局融合特征进行级联,随后依次输入transformer结构。
第1.4、利用自注意力transformer解码获得连续文本描述;
2、如权利要求1所述的视觉叙事描述方法,其特征在于,步骤第1.1中构建了基础网络,采用改写的ResNet,使用全连接层的特征获得图像特征。
3、如权利要求1所述的视觉叙事方法,其特征在于,步骤第1.2中将图像特征分割为16个子特征,依次输入融合注意力单元,注意力单元将融合后的特征进行输出。假设xi是注意力模块的输入特征,gi为输出融合图像特征,则上述过程可描述为:
gi=AM(xi),
其中AM为注意力模块,其具体定义如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure BDA0003158614120000031
Figure BDA0003158614120000032
4、如权利要求1所述的视觉叙事方法,其特征在于,步骤第1.3中对于多张图片的全局融合特征方案类如下:将每张图片的融合图像特征gi作为循环神经网络Rnn的输入中并与其输出相拼接得到输出ci
ri=Rnn(gi),
ci=concat(gi,ri),
其中Rnn是用于全局特征融合的循环神经网络,本方案中使用LSTM,concat的作用是拼接gi与ci
5、如权利要求1所述的视觉叙事方法,其特征在于,步骤第1.4中使用transfor-mer作为解码器依次将融合特征ci作为输入进行解码获得输出ti
ti=transformer(ci)
最后,将上述向量通过词嵌入矩阵得到视觉叙事输出。
本发明的优点和积极效果:
本发明的一种基于卷积神经网络,注意力机制及自注意力变换器的连续视觉场景描述生成网络,本发明的一种基于卷积神经网络,注意力机制及自注意力变换器的连续视觉场景描述生成网络,由全局信息生成图像摘要。目前主流方法通过将多张图像叠加作为隐藏层参数,再通过循环神经网络依次处理每张图片依次生成描述。然而,解码模块不能灵活地使用不同图像的特征来维持更好的语义连贯性,导致输出更接近于多段描述而非一段针对全局特征的描述。为了解决上述问题,本发明引入多尺度注意力融合模块,以此改善全局信息丢失不连续的问题。与现有方法相比,本方法有效提高了视觉描述生成的连续性,同时精度具有一定提高,具有一定的实用价值。
附图说明
图1是本发明整体网络的结构图;
图2是注意力融合模块的结构图;
图3是解码模块的transformer的结构图;
图4是实验结果对比图;
具体实施方式
实施例:
本实施例利用Python语言和PyTorch框架构建基于基于卷积神经网络,注意力机制及自注意力变换器的连续视觉场景描述生成方法。主要涉及的实施操作有基础网络和主干网络的构建,其中多尺度注意力融合模块及其权重分配方法是算法最大的创新点。
本实施例基于卷积神经网络,注意力机制及自注意力变换器的连续视觉场景描述生成网络的方法,主要包括如下关键步骤:
第1.1、将ResNet101作为主干网络,使用其全连接层输出作为特征输入后续网络;
第1.2、通过将图像特征拆分为16个子特征,将16个子特征分别送入聚合注意力单元即AMNet,进行加权融合,保留有效图片特征,输出全局融合特征;
第1.3、通过循环神经网络模块对多张图的全局融合特征进行级联,随后依次输入transformer结构。
第1.4、利用自注意力transformer解码获得连续文本描述;
本发明整体网络结构如图1所示,由编码模块,多尺度注意力融合模块以及解码模块组成;主干网络充当编码模块,通过将图像传入主干网络,输出编码后的图像特征;多尺度注意力融合模块包含网络中的融合注意力单元及循环神经网络单元,将编码模块输出的图像特征进行融合;解码模块即transformer单元,将融合后的图像特征进行解码生成视觉叙事。
步骤第1.1中构建了基础网络,主体结构为使用ImageNet预训练的ResNet101模型,本发明的主干网络在其基础上,在,增强模型的语义信息获取能力。
步骤第1.2中如图2所示将图像特征分割为16个子特征,依次输入融合注意力单元,注意力单元将融合后的特征进行输出。假设xi是注意力模块的输入特征,gi为输出融合图像特征,则上述过程可描述为:
gi=AM(xi),
其中AM为注意力模块,其具体定义如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure BDA0003158614120000051
Figure BDA0003158614120000052
其中zt和rt分别表示更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大则前一时刻的状态信息写入越多。重置门控制前一这状态有多少信息被写入到当前的候选集
Figure BDA0003158614120000053
上,重置门越小,前一状态的信息被写入的越少。ht表示通过更新门和重置门控制的注意力模块输出。在本方法中,16个子特征依次输入到融合注意力单元当中,每一个子特征的时间步的输入为当前子特征以及通过注意力模块融合后的前序时间步融合图像特征,输出两个输入的融合图像特征。输入为最后时间步的注意力单元输出即为16个子特征的融合特征。其基本保留完整语义信息,同时对于图像特征中的干扰信息以及无效背景信息进行了有效剔除。
步骤第1.3中对于多张图片的全局融合特征方案类如下:将每张图片的融合图像特征gi作为循环神经网络的输入中并与其输出相拼接得到输出ci
ri=Rnn(gi),
ci=concat(gi,ri),
其中Rnn是用于全局特征融合的循环神经网络,本方案中使用LSTM,即长短记忆神经网络,它解决了一般循环神经网络存在的长期依赖问题,它能够处理序列变化的数据,从而保留不同图像的上下文语义信息。concat的作用是拼接gi与ci,即将包含图像上下文的语义信息的特征向量与当前图像的融合注意力图像特征向量进行拼接,生成新的用于输入到后续网络中的融合特征向量。
步骤第1.4中如图3所示使用transformer作为解码器依次将融合特征ci作为输入进行解码获得输出ti
ti=transformer(ci)
其中如图3所示,transformer由Encoder和Decoder组成。Encoder由6个相同的层组成,每层包含一个Self-attention层以及Feed-forward层。
Self-attention层能够捕获图像特征序列之间的相关性,并以相关性作为权重输出语义特征。Feed-forward层将Self-attention层输出的语义特征进行高维映射,使得位置信息和语义信息充分融合。Decoder同样由6个相同层组成,其每层相比Encoder增加一层Masked Self-attention层。Masked Self-attention层负责将文本信息转换为语义信息。在训练阶段,将完整文本描述作为Masked Self-attention层输入,通过mask操作让模型获得截止当前时间步的信息,隐去后续时间步信息。在翻译阶段,前序时间步的输出作为输入,不进行mask操作。transformer的最终输出即为当前时间步的预测语义信息输出。
最后,将上述向量通过词嵌入矩阵得到视觉叙事输出。
本发明在VIST数据集上进行实验并进行相关对照实验。VIST数据集包含超过200,000张图片,并人工按照一定规则对图片撰写正确描述保存在JSON文件中。在本实验中,我们使用编码模块获取图片特征,多尺度注意力模块过滤信息和简化参数。在解码模块中通过transformer完成图像特征到语言描述的转化。实验参数设置按照Batch size为50,输入图像大小为224x224,dropout rate为0.5,初始learning rate为0.1,并且每经过30epoch下降至当前的70%。实验选取两种当前主流方法进行对照实验,实验结果如图4,其中,BLEU的大意是比较候选译文和参考译文里的n-gram(实践中从unigram取到4-gram)重合程度,重合程度越高就认为译文质量越高。选不同长度的n-gram是因为,unigram的准确率可以用于衡量单词翻译的准确性,更高阶的n-gram的准确率可以用来衡量句子的流畅性,METEOR则是在扩充同义词集的同时考虑单词的词形,能够体现描述的真实准确率。实验结果表明,本发明在BLEU及METEOR两种评价指标中相照对照组有明显提升,在METEOR指标中相较Xuet al.的方法提升幅度达到45.6%。由此可以看出本发明,引入注意力融合模块的方案是有效的,并且达到了在保证语义流畅性和保持准确度上相对优秀的平衡。

Claims (5)

1.一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法,其特征在于包括以下步骤:
第1、整体网络的构建:
第1.1、将ResNet101作为主干网络,使用其全连接层输出作为图像特征输入后续网络;
第1.2、通过将图像特征拆分为16个子特征,将16个子特征分别送入融合注意力单元即AMNet,进行加权融合,保留有效图片特征,输出全局融合特征;
第1.3、通过循环神经网络模块对多张图的全局融合特征进行级联,随后依次输入transformer结构;
第1.4、利用自注意力transformer解码获得连续文本描述。
2.如权利要求1所述的基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法,其特征在于,步骤第1.1中构建了基础网络,采用改写的ResNet,使用全连接层的特征获得图像特征。
3.如权利要求1所述的基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法,其特征在于,步骤第1.2中将图像特征分割为16个子特征,依次输入融合注意力单元,注意力单元将融合后的特征进行输出。假设xi是注意力模块的输入特征,gi为输出融合图像特征,则上述过程描述为:
gi=AM(xi),
其中AM为注意力模块,其具体定义如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure FDA0003158614110000011
Figure FDA0003158614110000012
其中zt和rt分别表示更新门和重置门;ht表示通过更新门和重置门控制的注意力模块输出。
4.如权利要求1所述的基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法,其特征在于,步骤第1.3中对于多张图片的全局融合特征方案类如下:将每张图片的融合图像特征gi作为循环神经网络Rnn的输入中并与其输出相拼接得到输出ci
ri=Rnn(gi),
ci=concat(gi,ri),
其中Rnn是用于全局特征融合的循环神经网络,本方案中使用LSTM,concat的作用是拼接gi与ci
5.如权利要求1所述的基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法,其特征在于,步骤第1.4中使用transformer作为解码器依次将融合特征ci作为输入进行解码获得输出ti
ti=transformer(ci)
最后,将上述向量通过词嵌入矩阵得到视觉叙事输出。
CN202110785560.2A 2021-07-12 2021-07-12 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法 Active CN113469260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110785560.2A CN113469260B (zh) 2021-07-12 2021-07-12 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110785560.2A CN113469260B (zh) 2021-07-12 2021-07-12 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法

Publications (2)

Publication Number Publication Date
CN113469260A true CN113469260A (zh) 2021-10-01
CN113469260B CN113469260B (zh) 2022-10-04

Family

ID=77879852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110785560.2A Active CN113469260B (zh) 2021-07-12 2021-07-12 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法

Country Status (1)

Country Link
CN (1) CN113469260B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169617A (zh) * 2022-09-08 2022-10-11 合肥中科迪宏自动化有限公司 模具保养预测模型训练方法、模具保养预测方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608956A (zh) * 2017-09-05 2018-01-19 广东石油化工学院 一种基于cnn‑grnn的读者情绪分布预测算法
US20180373985A1 (en) * 2017-06-23 2018-12-27 Nvidia Corporation Transforming convolutional neural networks for visual sequence learning
CN110349229A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像描述方法及装置
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法
CN112329794A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于双重自注意力机制的图像描述方法
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373985A1 (en) * 2017-06-23 2018-12-27 Nvidia Corporation Transforming convolutional neural networks for visual sequence learning
CN107608956A (zh) * 2017-09-05 2018-01-19 广东石油化工学院 一种基于cnn‑grnn的读者情绪分布预测算法
CN110349229A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像描述方法及装置
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112329794A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于双重自注意力机制的图像描述方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHENGKUN TIAN ECT.: ""Self-Attention Transducers for End-to-End Speech Recognition"", 《ARXIV:1909.13037V1 [EESS.AS]》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169617A (zh) * 2022-09-08 2022-10-11 合肥中科迪宏自动化有限公司 模具保养预测模型训练方法、模具保养预测方法和系统
CN115169617B (zh) * 2022-09-08 2022-11-11 合肥中科迪宏自动化有限公司 模具保养预测模型训练方法、模具保养预测方法和系统

Also Published As

Publication number Publication date
CN113469260B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
EP4024232A1 (en) Text processing model training method, and text processing method and apparatus
CN110111399B (zh) 一种基于视觉注意力的图像文本生成方法
CN107480206B (zh) 一种基于多模态低秩双线性池化的图像内容问答方法
WO2022057669A1 (zh) 基于结构化上下文信息的知识图谱预训练方法
CN109492202B (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN110738057B (zh) 一种基于语法约束和语言模型的文本风格迁移方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN113158665A (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN112597296B (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN112417092A (zh) 基于深度学习的智能化文本自动生成系统及其实现方法
CN116681810B (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质
CN115630651B (zh) 文本生成方法和文本生成模型的训练方法、装置
CN111402365A (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113469260B (zh) 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法
CN117272237A (zh) 基于多模态融合的专利附图多语言图解生成方法及系统
CN114880527B (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN116977509A (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质
CN116109978A (zh) 基于自约束动态文本特征的无监督视频描述方法
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统
CN113642630B (zh) 基于双路特征编码器的图像描述方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant