CN113095405A - 基于预训练及双层注意力的图像描述生成系统的构建方法 - Google Patents

基于预训练及双层注意力的图像描述生成系统的构建方法 Download PDF

Info

Publication number
CN113095405A
CN113095405A CN202110394217.5A CN202110394217A CN113095405A CN 113095405 A CN113095405 A CN 113095405A CN 202110394217 A CN202110394217 A CN 202110394217A CN 113095405 A CN113095405 A CN 113095405A
Authority
CN
China
Prior art keywords
image
layer
decoder
encoder
label classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110394217.5A
Other languages
English (en)
Other versions
CN113095405B (zh
Inventor
杜权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yaze Network Technology Co ltd
Original Assignee
Shenyang Yaze Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yaze Network Technology Co ltd filed Critical Shenyang Yaze Network Technology Co ltd
Priority to CN202110394217.5A priority Critical patent/CN113095405B/zh
Publication of CN113095405A publication Critical patent/CN113095405A/zh
Application granted granted Critical
Publication of CN113095405B publication Critical patent/CN113095405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于预训练及双层注意力的图像描述生成系统的构建方法,步骤为:训练开源的图像多标签分类模型;对MS COCO图像描述数据集进行处理获得训练数据;使用图像多标签分类模型提取图像特征,得到整张图像的对象信息;将整张图像的对象信息与图像特征合并成编码器的结果;使用双层注意力机制处理编码器和解码器传来的信息;整个解码器最终输出图像的描述性语句;将所有模型封装,并部署在服务器端,完成整个系统的搭建。本发明将预训练的图像多标签分类模型纳入编码器中,并创新性地使用双层注意力机制处理编码器和前层解码器传递来的信息,提升了图像描述生成模型识别对象的准确率,相较于普通的图像描述生成模型获得了更好的性能。

Description

基于预训练及双层注意力的图像描述生成系统的构建方法
技术领域
本发明涉及一种图像描述生成技术,具体为基于预训练及双层注意力的图像描述生成系统的构建方法。
背景技术
作为计算机视觉领域的终极任务之一,图像描述生成任务难度极大,其目标是跟据给定图像,生成一段文字来描述这幅图像。既要求描述语言的语法、语义准确,也需要其语言风格贴近实际生活。这是一个计算机视觉与自然语言处理相结合的任务。正因为图像描述具有像人一样能够将冗杂的图像信息压缩成精炼文字的能力,它在生活中也有着较为广泛的应用——帮助盲人“看见”世界、实现图像和视频到文字语音的转换等。
让机器分析图像,并用自然语言概述图像也是一件极为困难的事情。因为机器需要做的不仅仅是识别出图像中存在的物体,还需要识别出行为、方位等信息,并且需要将上述分析到的信息用符合语法规则和正常逻辑的语言表达出来。除此之外,优秀的描述还需要机器具有归类的能力,即把一些相似的物体划为一个整体。以往的图像描述生成系统往往只基于编码器-解码器构架,卷积神经网络作为编码器提取图像特征,循环神经网络作为解码器生成文字描述。但单靠图像描述生成模型识别不准确,因为如此简单的结构无法充分反映图像的表层信息如对象、方位等信息和隐层信息如动作、情绪等信息。
发明内容
针对现有技术中图像描述生成系统的识别准确率低等不足,本发明要解决的技术问题是提供一种可提升图像描述生成模型识别对象的准确率的基于预训练及双层注意力的图像描述生成系统的构建方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种基于预训练及双层注意力的图像描述生成系统的构建方法,包括以下步骤:
1)训练开源的图像多标签分类模型;
2)使用MS COCO图像描述数据集并对数据进行处理;
3)使用图像多标签分类模型提取图像特征,得到整张图像的对象信息;
4)将整张图像的对象信息与图像特征合并成编码器的结果;
5)使用双层注意力机制处理编码器和解码器传来的信息;
6)整个解码器最终输出图像的描述性语句;
7)将所有模型封装,并部署在服务器端,完成整个系统的搭建。
步骤1)中,选取目前性能优异而且开源的图像多标签模型,使用MS COCO数据集对其进行训练。
步骤2)中,对获取到的MS COCO数据集进行清洗,包括去除数据集中分辨率较低的图像,去除图像描述中包含乱码的数据对,使用清洗后的数据训练图像描述生成模型。
步骤3)中,首先使用图像多标签分类模型提取整张图像的对象,然后将对象编码成词嵌入获取其连续性表示,具体步骤为:
301)使用图像多标签分类模型提取出图像中包含的对象;
302)如果图像多标签分类模型输出的对象的数量少于M个,则使用专用符号填充,使对象数量达到M个;303)如果图像多标签分类模型输出的对象的数量等于M个,则直接输出这M个对象;
304)如果图像多标签分类模型输出的对象的数量超过M个,则选取其中概率最大的5个对象,即模型认为在图像中最可能存在的M个对象;
305)得到图像多标签分类模型输出的对象后,将这些对象转换成图像描述生成模型的词嵌入;
306)根据得到的有效的对象数量计算掩码矩阵Mask来屏蔽掉无用的信息;M的取值范围为5~10;
步骤5)中,采用了双层注意力机制,第一层注意力让解码器根据前一时刻生成的单词,来关注当前时刻应该关注的图像区域;第二层注意力用于对编码器传来的信息和前层解码器传来的信息进行建模。
在第一层注意力机制中,将前一时刻解码器最高层的输出当作Query,将图像特征当作Key和Value,满足以下条件:
Attention1(Q,K,V)=Softmax(FNN(Q,K))V
在第二层注意力机制中,将前层解码器传来的信息视为第二层注意力机制的Query,编码器传来的信息视为Key和Value,满足以下条件:
Figure BDA0003017960650000021
将编码器传来的结果分离出图像特征和对象信息,将图像特征部分经过第一层注意力机制的计算得到结果t,再将t与对象信息合并成m;
将m经过第二层注意力机制计算,最终得到双层注意力机制的结果。
步骤6)中,解码器的总体结构与Transformer相同,是一个单一的结构复制成多份,然后将这多个层堆叠起来最终形成的解码器,具体为:
601)解码器每层输入包含两部分,分别是编码器传来的信息和前层解码器的输出;最底层解码器接受上一时刻生成的单词,最顶层解码器输出当前时刻生成的单词;
602)编码器传来的信息包含两部分,一是卷积神经网络提取出来的图像特征与图像多标签分类模型提取出来对象的词嵌入的联合矩阵;二是对应掩码矩阵;
603)解码器每层内部结构与Transformer相同,辅以原创的双层注意力机制处理来自编码器与前层解码器的信息。
本发明具有以下有益效果及优点:
1.本发明在原本仅使用卷积神经网络作为编码器的前提下,将预训练的图像多标签分类模型纳入编码器中,并创新性地使用双层注意力机制处理编码器和前层解码器传递来的信息,提升了图像描述生成模型识别对象的准确率,相较于普通的图像描述生成模型获得了更好的性能。
2.本发明能够通过引入预训练图像多标签分类模型来帮助图像描述生成模型识别图像中的目标,设计了双层注意力机制处理编码器传来的信息,使解码器生成的语句更加流畅且准确。
3.与此同时,本发明开发了前端网页和服务器后端程序,将模型部署到服务器上,允许用户通过线上的方式访问图像描述生成系统,使用方便快捷。
附图说明
图1为本发明中解码器两个结构的输出图示;
图2A为本发明中第一层注意力机制图示;
图2B为本发明中第二层注意力机制图示;
图3为本发明中解码器整体结构图示。
具体实施方式
针对现有技术在识别准确率方面的不足,本发明先是使用了识别图像性能较强的预训练图像多标签分类模型来提取图像中包含的对象,然后将对象与卷积神经网络提取出来的图像特征合并到一起作为编码器的输出传给解码器。编码器传来的信息先经过双层注意力机制的处理才被解码器利用。通过这种方式提高图像描述生成模型结果的准确率与流畅程度。
图像多标签分类模型由于其本身任务设定较为简单,因此此领域的模型往往具有较高的准确率。本发明使用具有准确识别能力的图像多标签分类模型来提升生成的图像描述的质量。
本发明采用的技术方案是:
1)选取并训练开源的图像多标签分类模型;
2)获取图像描述数据集并对数据进行处理;
3)使用图像多标签分类模型提取得到整张图像的对象信息;
4)将对象信息与图像特征合并成编码器的结果;
5)使用双层注意力,处理编码器和前层解码器传来的信息;
6)解码器最终输出图像的描述性语句。
7)将模型封装,并部署在服务器端,让用户能够通过网页体验图像描述生成系统,完成整个系统的搭建。
步骤1)中,选取目前性能优异而且开源的图像多标签模型,使用MS COCO数据集对其进行训练。
步骤2)中,对获取到的MS COCO数据集进行清洗,包括去除数据集中分辨率较低的图像,还要去除图像描述中包含乱码的数据对,使用清洗后的数据训练图像描述生成模型。
步骤3)中,先使用图像多标签分类模型提取整张图像的对象,例如“computer”、“man”。假设一张图片最多可以提取5(M=5~10,本实施例中M=5)个对象,因此如果遇到图像多标签分类模型输出对象的数量没到5个的话,使用“<pad>”来代替剩余对象,如果输出对象的数量超过5的话,就选取概率最大的前5个对象。最后将对象编码成词嵌入获取其连续性表示。具体步骤如下所示:
301)使用图像多标签分类模型提取出图像中包含的对象,例如“computer”、“man”。
302)如果图像多标签分类模型输出的对象的数量少于5个的话,就使用“<pad>”填充,使对象数量达到5个。例如“computer”、“man”、“<pad>”、“<pad>”、“<pad>”。
303)如果图像多标签分类模型输出的对象的数量等于5个的话,就直接输出这5个对象即可。
304)如果图像多标签分类模型输出的对象的数量超过5个的话,就选取其中概率最大的5个对象,即模型认为在图像中最可能存在的5个对象。
305)得到图像多标签分类模型输出的对象之后,将这些单词转换成图像描述生成模型的词嵌入(因为图像多标签分类模型的词嵌入和图像描述生成模型的词嵌入是不同的)。
306)根据前面得到有效的对象数量计算掩码矩阵Mask。这里的Mask的作用就是屏蔽掉无用的信息,例如将前面用于填充的“<pad>”这个单词屏蔽掉。具体而言就是将需要屏蔽的单词在掩码矩阵上对应的位置设成一个非常小的数即可,如-99999。
步骤4)中,将卷积神经网络提取出的图像特征和图像多标签分类模型提取出的对象信息合并成一个矩阵传递给解码器端的双层注意力机制。如图1所示。
步骤5)中,采用了双层注意力机制,第一层注意力让解码器根据前一时刻生成的单词,来关注当前时刻应该关注的图像区域,例如前一时刻生成了“computer”那么在后面的时刻模型可能会联想到“mouse”而去关注图像中椭圆形的区域。第二层注意力用于对编码器传来的信息和前层解码器传来的信息进行建模。这里采取了源自Google团队发明的Transformer模型中的自注意力机制,也称为缩放的点乘注意力。通过这种方式进行注意力计算并行度高,同时对存储空间的要求也较低。
具体来看,在这两种注意力机制的计算过程中,可以归纳为三个重要的参数,分别是Query,Key和Value。在下面的描述中,分别用Q,K,V对它们进行表示,如图2A和图2B所示。
在第一层注意力机制中,由于要对图像和文字之间的信息建模,因此,将前一时刻解码器最高层的输出当作Q,将图像特征当作K和V。有了Q,K和V就可以完成注意力机制的计算,这个过程可以被形式化为:
Attention1(Q,K,V)=Softmax(FNN(Q,K))V
其中FNN是前馈神经网络,用于计算图像特征每个区域的权重;Softmax用于对相关性矩阵在行的维度上进行归一化操作,使得每一行的权重加和为1。经过Softmax函数的结果就是图像特征的权重,将其与图像特征作点乘就得到经过注意力引导后的图像特征,如图2A所示。
在第二层注意力机制(也称为自注意力)中,由于要对编码器传来的信息和前层解码器传来的信息进行建模,因此,将前层解码器传来的信息视为第二层注意力机制的Q,编码器传来的信息视为K和V。在得到Q,K和V后,便可以进行注意力机制的运算,这个过程可以被形式化为:
Figure BDA0003017960650000051
其中Mask掩码矩阵就是步骤3)中提及的用于屏蔽无关信息的工具;dk的作用是缩放系数,将Q和K的转置进行矩阵乘法的结果用系数
Figure BDA0003017960650000052
进行放缩操作,可以减少相关性矩阵的方差,此举能够让运算过程中实数矩阵中的数值不会过大,有利于模型训练,如图2B所示。
双层注意力的具体步骤如下所示:
501)将编码器传来的结果分离出图像特征和对象信息,将图像特征部分经过第一层注意力机制的计算得到结果t,再将t与对象信息合并成m。
502)将m经过第二层注意力机制计算,最终得到双层注意力机制的结果。
步骤6)中,解码器的总体结构是跟Transformer一样,是一个单一的结构复制成多份,然后将这多个层堆叠起来最终形成的解码器,如图3所示,其具体步骤如下:
601)解码器每层输入包含两部分,分别是编码器传来的信息和前层解码器的输出。最底层解码器接受上一时刻生成的单词,最顶层解码器输出当前时刻生成的单词。
602)编码器传来的信息包含两部分,一是卷积神经网络提取出来的图像特征与图像多标签分类模型提取出来对象的词嵌入的联合矩阵;二是对应掩码矩阵。
603)解码器每层内部结构与Transformer相同,辅以原创的双层注意力机制处理来自编码器与前层解码器的信息。
步骤7)中,将整个图像描述生成模型进行打包封装,并将其部署到服务器端,开发对应的网页允许用户通过线上的方式访问图像描述生成系统。
下面以一个具体图像为例进行说明。
本发明先是从前端网页获取用户想要识别的图像,将图像保存在服务器上,然后使用了识别图像性能较强的预训练图像多标签分类模型来提取图像中包含的对象,将对象与卷积神经网络提取出来的图像特征合并到一起作为编码器的输出传给解码器。编码器传来的信息先经过双层注意力机制的处理才被解码器利用。最终在解码器端生成一段关于图像的描述,系统再将描述在前端显示出来,反馈给用户。
本发明提出一种基于预训练及双层注意力的图像描述生成系统的构建方法,能够利用识别物体性能较强的图像多标签分类模型帮助图像描述生成模型提升描述准确率;同时创新性地使用了双层注意力机制,既能够在每次生成单词时引导模型关注图像中的某一块区域,还能够有效地利用图像多标签分类模型传来的识别对象的结果,从而提高整个模型的流畅程度和抽象信息概括能力。

Claims (7)

1.一种基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于包括以下步骤:
1)训练开源的图像多标签分类模型;
2)使用MS COCO图像描述数据集并对数据进行处理;
3)使用图像多标签分类模型提取图像特征,得到整张图像的对象信息;
4)将整张图像的对象信息与图像特征合并成编码器的结果;
5)使用双层注意力机制处理编码器和解码器传来的信息;
6)整个解码器最终输出图像的描述性语句;
7)将所有模型封装,并部署在服务器端,完成整个系统的搭建。
2.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于:步骤1)中,选取目前性能优异而且开源的图像多标签模型,使用MS COCO数据集对其进行训练。
3.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于:步骤2)中,对获取到的MS COCO数据集进行清洗,包括去除数据集中分辨率较低的图像,去除图像描述中包含乱码的数据对,使用清洗后的数据训练图像描述生成模型。
4.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于:步骤3)中,首先使用图像多标签分类模型提取整张图像的对象,然后将对象编码成词嵌入获取其连续性表示,具体步骤为:
301)使用图像多标签分类模型提取出图像中包含的对象;
302)如果图像多标签分类模型输出的对象的数量少于M个,则使用专用符号填充,使对象数量达到M个;
303)如果图像多标签分类模型输出的对象的数量等于M个,则直接输出这5个对象;
304)如果图像多标签分类模型输出的对象的数量超过M个,则选取其中概率最大的M个对象,即模型认为在图像中最可能存在的M个对象;
305)得到图像多标签分类模型输出的对象后,将这些对象转换成图像描述生成模型的词嵌入;
306)根据得到的有效的对象数量计算掩码矩阵Mask来屏蔽掉无用的信息。
5.按权利要求4所述的基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于:M的取值范围为5~10。
6.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于:步骤5)中,采用了双层注意力机制,第一层注意力让解码器根据前一时刻生成的单词,来关注当前时刻应该关注的图像区域;第二层注意力用于对编码器传来的信息和前层解码器传来的信息进行建模。
在第一层注意力机制中,将前一时刻解码器最高层的输出当作Query,将图像特征当作Key和Value,满足以下条件:
Attention1(Q,K,V)=Softmax(FNN(Q,K))V
在第二层注意力机制中,将前层解码器传来的信息视为第二层注意力机制的Query,编码器传来的信息视为Key和Value,满足以下条件:
Figure FDA0003017960640000021
将编码器传来的结果分离出图像特征和对象信息,将图像特征部分经过第一层注意力机制的计算得到结果t,再将t与对象信息合并成m;
将m经过第二层注意力机制计算,最终得到双层注意力机制的结果。
7.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于:步骤6)中,解码器的总体结构与Transformer相同,是一个单一的结构复制成多份,然后将这多个层堆叠起来最终形成的解码器,具体为:
601)解码器每层输入包含两部分,分别是编码器传来的信息和前层解码器的输出;最底层解码器接受上一时刻生成的单词,最顶层解码器输出当前时刻生成的单词;
602)编码器传来的信息包含两部分,一是卷积神经网络提取出来的图像特征与图像多标签分类模型提取出来对象的词嵌入的联合矩阵;二是对应掩码矩阵;
603)解码器每层内部结构与Transformer相同,辅以原创的双层注意力机制处理来自编码器与前层解码器的信息。
CN202110394217.5A 2021-04-13 2021-04-13 基于预训练及双层注意力的图像描述生成系统的构建方法 Active CN113095405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110394217.5A CN113095405B (zh) 2021-04-13 2021-04-13 基于预训练及双层注意力的图像描述生成系统的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110394217.5A CN113095405B (zh) 2021-04-13 2021-04-13 基于预训练及双层注意力的图像描述生成系统的构建方法

Publications (2)

Publication Number Publication Date
CN113095405A true CN113095405A (zh) 2021-07-09
CN113095405B CN113095405B (zh) 2024-04-30

Family

ID=76677867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110394217.5A Active CN113095405B (zh) 2021-04-13 2021-04-13 基于预训练及双层注意力的图像描述生成系统的构建方法

Country Status (1)

Country Link
CN (1) CN113095405B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709455A (zh) * 2021-09-27 2021-11-26 北京交通大学 一种使用Transformer的多层次图像压缩方法
CN114626430A (zh) * 2021-12-30 2022-06-14 华院计算技术(上海)股份有限公司 情绪识别模型的训练方法、情绪识别方法、设备及介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336683A1 (en) * 2017-05-18 2018-11-22 Mitsubishi Electric Research Laboratories, Inc. Multi-Label Semantic Boundary Detection System
US20190171913A1 (en) * 2017-12-04 2019-06-06 Slice Technologies, Inc. Hierarchical classification using neural networks
US20190325259A1 (en) * 2018-04-12 2019-10-24 Discovery Communications, Llc Feature extraction and machine learning for automated metadata analysis
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110472688A (zh) * 2019-08-16 2019-11-19 北京金山数字娱乐科技有限公司 图像描述的方法及装置、图像描述模型的训练方法及装置
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法
CN111046233A (zh) * 2019-12-24 2020-04-21 浙江大学 一种基于视频评论文本的视频标签确定方法
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111626362A (zh) * 2020-05-28 2020-09-04 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN112257465A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于图像描述生成的多模态机器翻译数据增强方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336683A1 (en) * 2017-05-18 2018-11-22 Mitsubishi Electric Research Laboratories, Inc. Multi-Label Semantic Boundary Detection System
US20190171913A1 (en) * 2017-12-04 2019-06-06 Slice Technologies, Inc. Hierarchical classification using neural networks
US20190325259A1 (en) * 2018-04-12 2019-10-24 Discovery Communications, Llc Feature extraction and machine learning for automated metadata analysis
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法
CN110472688A (zh) * 2019-08-16 2019-11-19 北京金山数字娱乐科技有限公司 图像描述的方法及装置、图像描述模型的训练方法及装置
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN111046233A (zh) * 2019-12-24 2020-04-21 浙江大学 一种基于视频评论文本的视频标签确定方法
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111626362A (zh) * 2020-05-28 2020-09-04 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN112257465A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于图像描述生成的多模态机器翻译数据增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周治平;张威;: "结合视觉属性注意力和残差连接的图像描述生成模型", 计算机辅助设计与图形学学报, no. 08 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709455A (zh) * 2021-09-27 2021-11-26 北京交通大学 一种使用Transformer的多层次图像压缩方法
CN113709455B (zh) * 2021-09-27 2023-10-24 北京交通大学 一种使用Transformer的多层次图像压缩方法
CN114626430A (zh) * 2021-12-30 2022-06-14 华院计算技术(上海)股份有限公司 情绪识别模型的训练方法、情绪识别方法、设备及介质

Also Published As

Publication number Publication date
CN113095405B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
Adaloglou et al. A comprehensive study on deep learning-based methods for sign language recognition
JP7193252B2 (ja) 画像の領域のキャプション付加
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
Adaloglou et al. A comprehensive study on sign language recognition methods
JP2023541119A (ja) 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN108985370B (zh) 图像标注语句自动生成方法
CN113095405A (zh) 基于预训练及双层注意力的图像描述生成系统的构建方法
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN113423004B (zh) 基于解耦译码的视频字幕生成方法和系统
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN113516152A (zh) 一种基于复合图像语义的图像描述方法
CN114612891A (zh) 基于对比学习和自适应注意力的图像描述生成方法及介质
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN116522142A (zh) 用于训练特征提取模型的方法、特征提取方法和装置
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
Hafeth et al. Semantic representations with attention networks for boosting image captioning
CN111639594B (zh) 图像描述模型的训练方法及装置
Song et al. Exploring explicit and implicit visual relationships for image captioning
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
Patankar et al. Image Captioning with Audio Reinforcement using RNN and CNN
Attai et al. A survey on arabic image captioning systems using deep learning models
Nasr et al. SemGAN: Text to Image Synthesis from Text Semantics using Attentional Generative Adversarial Networks
CN113129399A (zh) 纹样生成
Hammad et al. Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant