CN113095405B - 基于预训练及双层注意力的图像描述生成系统的构建方法 - Google Patents
基于预训练及双层注意力的图像描述生成系统的构建方法 Download PDFInfo
- Publication number
- CN113095405B CN113095405B CN202110394217.5A CN202110394217A CN113095405B CN 113095405 B CN113095405 B CN 113095405B CN 202110394217 A CN202110394217 A CN 202110394217A CN 113095405 B CN113095405 B CN 113095405B
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- decoder
- encoder
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000010410 layer Substances 0.000 claims abstract description 73
- 238000013145 classification model Methods 0.000 claims abstract description 41
- 230000007246 mechanism Effects 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 9
- 239000002355 dual-layer Substances 0.000 claims abstract description 7
- 238000010276 construction Methods 0.000 claims abstract description 6
- 238000004806 packaging method and process Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000000873 masking effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于预训练及双层注意力的图像描述生成系统的构建方法,步骤为:训练开源的图像多标签分类模型;对MS COCO图像描述数据集进行处理获得训练数据;使用图像多标签分类模型提取图像特征,得到整张图像的对象信息;将整张图像的对象信息与图像特征合并成编码器的结果;使用双层注意力机制处理编码器和解码器传来的信息;整个解码器最终输出图像的描述性语句;将所有模型封装,并部署在服务器端,完成整个系统的搭建。本发明将预训练的图像多标签分类模型纳入编码器中,并创新性地使用双层注意力机制处理编码器和前层解码器传递来的信息,提升了图像描述生成模型识别对象的准确率,相较于普通的图像描述生成模型获得了更好的性能。
Description
技术领域
本发明涉及一种图像描述生成技术,具体为基于预训练及双层注意力的图像描述生成系统的构建方法。
背景技术
作为计算机视觉领域的终极任务之一,图像描述生成任务难度极大,其目标是跟据给定图像,生成一段文字来描述这幅图像。既要求描述语言的语法、语义准确,也需要其语言风格贴近实际生活。这是一个计算机视觉与自然语言处理相结合的任务。正因为图像描述具有像人一样能够将冗杂的图像信息压缩成精炼文字的能力,它在生活中也有着较为广泛的应用——帮助盲人“看见”世界、实现图像和视频到文字语音的转换等。
让机器分析图像,并用自然语言概述图像也是一件极为困难的事情。因为机器需要做的不仅仅是识别出图像中存在的物体,还需要识别出行为、方位等信息,并且需要将上述分析到的信息用符合语法规则和正常逻辑的语言表达出来。除此之外,优秀的描述还需要机器具有归类的能力,即把一些相似的物体划为一个整体。以往的图像描述生成系统往往只基于编码器-解码器构架,卷积神经网络作为编码器提取图像特征,循环神经网络作为解码器生成文字描述。但单靠图像描述生成模型识别不准确,因为如此简单的结构无法充分反映图像的表层信息如对象、方位等信息和隐层信息如动作、情绪等信息。
发明内容
针对现有技术中图像描述生成系统的识别准确率低等不足,本发明要解决的技术问题是提供一种可提升图像描述生成模型识别对象的准确率的基于预训练及双层注意力的图像描述生成系统的构建方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种基于预训练及双层注意力的图像描述生成系统的构建方法,包括以下步骤:
1)训练开源的图像多标签分类模型;
2)使用MS COCO图像描述数据集并对数据进行处理;
3)使用图像多标签分类模型提取图像特征,得到整张图像的对象信息;
4)将整张图像的对象信息与图像特征合并成编码器的结果;
5)使用双层注意力机制处理编码器和解码器传来的信息;
6)整个解码器最终输出图像的描述性语句;
7)将所有模型封装,并部署在服务器端,完成整个系统的搭建。
步骤1)中,选取目前性能优异而且开源的图像多标签模型,使用MS COCO数据集对其进行训练。
步骤2)中,对获取到的MS COCO数据集进行清洗,包括去除数据集中分辨率较低的图像,去除图像描述中包含乱码的数据对,使用清洗后的数据训练图像描述生成模型。
步骤3)中,首先使用图像多标签分类模型提取整张图像的对象,然后将对象编码成词嵌入获取其连续性表示,具体步骤为:
301)使用图像多标签分类模型提取出图像中包含的对象;
302)如果图像多标签分类模型输出的对象的数量少于M个,则使用专用符号填充,使对象数量达到M个;303)如果图像多标签分类模型输出的对象的数量等于M个,则直接输出这M个对象;
304)如果图像多标签分类模型输出的对象的数量超过M个,则选取其中概率最大的5个对象,即模型认为在图像中最可能存在的M个对象;
305)得到图像多标签分类模型输出的对象后,将这些对象转换成图像描述生成模型的词嵌入;
306)根据得到的有效的对象数量计算掩码矩阵Mask来屏蔽掉无用的信息;M的取值范围为5~10;
步骤5)中,采用了双层注意力机制,第一层注意力让解码器根据前一时刻生成的单词,来关注当前时刻应该关注的图像区域;第二层注意力用于对编码器传来的信息和前层解码器传来的信息进行建模。
在第一层注意力机制中,将前一时刻解码器最高层的输出当作Query,将图像特征当作Key和Value,满足以下条件:
Attention1(Q,K,V)=Softmax(FNN(Q,K))V
在第二层注意力机制中,将前层解码器传来的信息视为第二层注意力机制的Query,编码器传来的信息视为Key和Value,满足以下条件:
将编码器传来的结果分离出图像特征和对象信息,将图像特征部分经过第一层注意力机制的计算得到结果t,再将t与对象信息合并成m;
将m经过第二层注意力机制计算,最终得到双层注意力机制的结果。
步骤6)中,解码器的总体结构与Transformer相同,是一个单一的结构复制成多份,然后将这多个层堆叠起来最终形成的解码器,具体为:
601)解码器每层输入包含两部分,分别是编码器传来的信息和前层解码器的输出;最底层解码器接受上一时刻生成的单词,最顶层解码器输出当前时刻生成的单词;
602)编码器传来的信息包含两部分,一是卷积神经网络提取出来的图像特征与图像多标签分类模型提取出来对象的词嵌入的联合矩阵;二是对应掩码矩阵;
603)解码器每层内部结构与Transformer相同,辅以原创的双层注意力机制处理来自编码器与前层解码器的信息。
本发明具有以下有益效果及优点:
1.本发明在原本仅使用卷积神经网络作为编码器的前提下,将预训练的图像多标签分类模型纳入编码器中,并创新性地使用双层注意力机制处理编码器和前层解码器传递来的信息,提升了图像描述生成模型识别对象的准确率,相较于普通的图像描述生成模型获得了更好的性能。
2.本发明能够通过引入预训练图像多标签分类模型来帮助图像描述生成模型识别图像中的目标,设计了双层注意力机制处理编码器传来的信息,使解码器生成的语句更加流畅且准确。
3.与此同时,本发明开发了前端网页和服务器后端程序,将模型部署到服务器上,允许用户通过线上的方式访问图像描述生成系统,使用方便快捷。
附图说明
图1为本发明中解码器两个结构的输出图示;
图2A为本发明中第一层注意力机制图示;
图2B为本发明中第二层注意力机制图示;
图3为本发明中解码器整体结构图示。
具体实施方式
针对现有技术在识别准确率方面的不足,本发明先是使用了识别图像性能较强的预训练图像多标签分类模型来提取图像中包含的对象,然后将对象与卷积神经网络提取出来的图像特征合并到一起作为编码器的输出传给解码器。编码器传来的信息先经过双层注意力机制的处理才被解码器利用。通过这种方式提高图像描述生成模型结果的准确率与流畅程度。
图像多标签分类模型由于其本身任务设定较为简单,因此此领域的模型往往具有较高的准确率。本发明使用具有准确识别能力的图像多标签分类模型来提升生成的图像描述的质量。
本发明采用的技术方案是:
1)选取并训练开源的图像多标签分类模型;
2)获取图像描述数据集并对数据进行处理;
3)使用图像多标签分类模型提取得到整张图像的对象信息;
4)将对象信息与图像特征合并成编码器的结果;
5)使用双层注意力,处理编码器和前层解码器传来的信息;
6)解码器最终输出图像的描述性语句。
7)将模型封装,并部署在服务器端,让用户能够通过网页体验图像描述生成系统,完成整个系统的搭建。
步骤1)中,选取目前性能优异而且开源的图像多标签模型,使用MS COCO数据集对其进行训练。
步骤2)中,对获取到的MS COCO数据集进行清洗,包括去除数据集中分辨率较低的图像,还要去除图像描述中包含乱码的数据对,使用清洗后的数据训练图像描述生成模型。
步骤3)中,先使用图像多标签分类模型提取整张图像的对象,例如“computer”、“man”。假设一张图片最多可以提取5(M=5~10,本实施例中M=5)个对象,因此如果遇到图像多标签分类模型输出对象的数量没到5个的话,使用“<pad>”来代替剩余对象,如果输出对象的数量超过5的话,就选取概率最大的前5个对象。最后将对象编码成词嵌入获取其连续性表示。具体步骤如下所示:
301)使用图像多标签分类模型提取出图像中包含的对象,例如“computer”、“man”。
302)如果图像多标签分类模型输出的对象的数量少于5个的话,就使用“<pad>”填充,使对象数量达到5个。例如“computer”、“man”、“<pad>”、“<pad>”、“<pad>”。
303)如果图像多标签分类模型输出的对象的数量等于5个的话,就直接输出这5个对象即可。
304)如果图像多标签分类模型输出的对象的数量超过5个的话,就选取其中概率最大的5个对象,即模型认为在图像中最可能存在的5个对象。
305)得到图像多标签分类模型输出的对象之后,将这些单词转换成图像描述生成模型的词嵌入(因为图像多标签分类模型的词嵌入和图像描述生成模型的词嵌入是不同的)。
306)根据前面得到有效的对象数量计算掩码矩阵Mask。这里的Mask的作用就是屏蔽掉无用的信息,例如将前面用于填充的“<pad>”这个单词屏蔽掉。具体而言就是将需要屏蔽的单词在掩码矩阵上对应的位置设成一个非常小的数即可,如-99999。
步骤4)中,将卷积神经网络提取出的图像特征和图像多标签分类模型提取出的对象信息合并成一个矩阵传递给解码器端的双层注意力机制。如图1所示。
步骤5)中,采用了双层注意力机制,第一层注意力让解码器根据前一时刻生成的单词,来关注当前时刻应该关注的图像区域,例如前一时刻生成了“computer”那么在后面的时刻模型可能会联想到“mouse”而去关注图像中椭圆形的区域。第二层注意力用于对编码器传来的信息和前层解码器传来的信息进行建模。这里采取了源自Google团队发明的Transformer模型中的自注意力机制,也称为缩放的点乘注意力。通过这种方式进行注意力计算并行度高,同时对存储空间的要求也较低。
具体来看,在这两种注意力机制的计算过程中,可以归纳为三个重要的参数,分别是Query,Key和Value。在下面的描述中,分别用Q,K,V对它们进行表示,如图2A和图2B所示。
在第一层注意力机制中,由于要对图像和文字之间的信息建模,因此,将前一时刻解码器最高层的输出当作Q,将图像特征当作K和V。有了Q,K和V就可以完成注意力机制的计算,这个过程可以被形式化为:
Attention1(Q,K,V)=Softmax(FNN(Q,K))V
其中FNN是前馈神经网络,用于计算图像特征每个区域的权重;Softmax用于对相关性矩阵在行的维度上进行归一化操作,使得每一行的权重加和为1。经过Softmax函数的结果就是图像特征的权重,将其与图像特征作点乘就得到经过注意力引导后的图像特征,如图2A所示。
在第二层注意力机制(也称为自注意力)中,由于要对编码器传来的信息和前层解码器传来的信息进行建模,因此,将前层解码器传来的信息视为第二层注意力机制的Q,编码器传来的信息视为K和V。在得到Q,K和V后,便可以进行注意力机制的运算,这个过程可以被形式化为:
其中Mask掩码矩阵就是步骤3)中提及的用于屏蔽无关信息的工具;dk的作用是缩放系数,将Q和K的转置进行矩阵乘法的结果用系数进行放缩操作,可以减少相关性矩阵的方差,此举能够让运算过程中实数矩阵中的数值不会过大,有利于模型训练,如图2B所示。
双层注意力的具体步骤如下所示:
501)将编码器传来的结果分离出图像特征和对象信息,将图像特征部分经过第一层注意力机制的计算得到结果t,再将t与对象信息合并成m。
502)将m经过第二层注意力机制计算,最终得到双层注意力机制的结果。
步骤6)中,解码器的总体结构是跟Transformer一样,是一个单一的结构复制成多份,然后将这多个层堆叠起来最终形成的解码器,如图3所示,其具体步骤如下:
601)解码器每层输入包含两部分,分别是编码器传来的信息和前层解码器的输出。最底层解码器接受上一时刻生成的单词,最顶层解码器输出当前时刻生成的单词。
602)编码器传来的信息包含两部分,一是卷积神经网络提取出来的图像特征与图像多标签分类模型提取出来对象的词嵌入的联合矩阵;二是对应掩码矩阵。
603)解码器每层内部结构与Transformer相同,辅以原创的双层注意力机制处理来自编码器与前层解码器的信息。
步骤7)中,将整个图像描述生成模型进行打包封装,并将其部署到服务器端,开发对应的网页允许用户通过线上的方式访问图像描述生成系统。
下面以一个具体图像为例进行说明。
本发明先是从前端网页获取用户想要识别的图像,将图像保存在服务器上,然后使用了识别图像性能较强的预训练图像多标签分类模型来提取图像中包含的对象,将对象与卷积神经网络提取出来的图像特征合并到一起作为编码器的输出传给解码器。编码器传来的信息先经过双层注意力机制的处理才被解码器利用。最终在解码器端生成一段关于图像的描述,系统再将描述在前端显示出来,反馈给用户。
本发明提出一种基于预训练及双层注意力的图像描述生成系统的构建方法,能够利用识别物体性能较强的图像多标签分类模型帮助图像描述生成模型提升描述准确率;同时创新性地使用了双层注意力机制,既能够在每次生成单词时引导模型关注图像中的某一块区域,还能够有效地利用图像多标签分类模型传来的识别对象的结果,从而提高整个模型的流畅程度和抽象信息概括能力。
Claims (6)
1.一种基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于包括以下步骤:
1)训练开源的图像多标签分类模型;
2)使用MS COCO图像描述数据集并对数据进行处理;
3)使用图像多标签分类模型提取图像特征,得到整张图像的对象信息;
4)将整张图像的对象信息与图像特征合并成编码器的输出;
5)使用双层注意力机制处理编码器的输出和解码器传来的信息;
6)解码器最终输出图像的描述性语句;
7)将整个模型封装,并部署在服务器端,完成整个系统的搭建;
步骤5)中,采用了双层注意力机制,第一层注意力让解码器根据前一时刻生成的单词,来关注当前时刻应该关注的图像区域;第二层注意力用于对编码器的输出和前层解码器的输出进行建模;
在第一层注意力机制中,将前一时刻解码器最高层的输出当作Query,将图像特征当作Key和Value,满足以下条件:
Attention1(Q,K,V)=Softmax(FNN(Q,K))V
在第二层注意力机制中,将前一层解码器的输出视为第二层注意力机制的Query,编码器的输出视为Key和Value,满足以下条件:
其中Mask掩码矩阵是用于屏蔽无关信息的工具;dk是缩放系数,将编码器的结果分离出图像特征和对象信息,将图像特征部分经过第一层注意力机制的计算得到结果t,再将t与对象信息合并,并经过第二层注意力机制计算,最终得到双层注意力机制的结果。
2.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于:步骤1)中,选取目前性能优异而且开源的图像多标签模型,使用MS COCO数据集对其进行训练。
3.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于:步骤2)中,对获取到的MS COCO数据集进行清洗,包括去除数据集中分辨率较低的图像,去除图像描述中包含乱码的数据对,使用清洗后的数据训练图像描述生成模型。
4.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于:步骤3)中,首先使用图像多标签分类模型提取整张图像的对象,然后将对象编码成词嵌入获取其连续性表示,具体步骤为:
301)使用图像多标签分类模型提取出图像中包含的对象;
302)如果图像多标签分类模型输出的对象的数量少于M个,则使用专用符号填充,使对象数量达到M个;
303)如果图像多标签分类模型输出的对象的数量等于M个,则直接输出M个对象;
304)如果图像多标签分类模型输出的对象的数量超过M个,则选取其中概率最大的M个对象,即模型认为在图像中最可能存在的M个对象;
305)得到图像多标签分类模型输出的对象后,将这些对象转换成图像描述生成模型的词嵌入;
306)根据得到的有效的对象数量计算掩码矩阵Mask来屏蔽掉无用的信息。
5.按权利要求4所述的基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于:M的取值范围为5~10。
6.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于:步骤6)中,解码器的总体结构与Transformer相同,是一个单一的结构复制成多份,然后将这多个层堆叠起来最终形成的解码器,具体为:
601)解码器每层输入包含两部分,分别是编码器传来的信息和前层解码器的输出;最底层解码器接受上一时刻生成的单词,最顶层解码器输出当前时刻生成的单词;
602)编码器传来的信息包含两部分,一是卷积神经网络提取出来的图像特征与图像多标签分类模型提取出来对象的词嵌入的联合矩阵;二是对应掩码矩阵;
603)解码器每层内部结构与Transformer相同,辅以原创的双层注意力机制处理来自编码器与前层解码器的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110394217.5A CN113095405B (zh) | 2021-04-13 | 2021-04-13 | 基于预训练及双层注意力的图像描述生成系统的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110394217.5A CN113095405B (zh) | 2021-04-13 | 2021-04-13 | 基于预训练及双层注意力的图像描述生成系统的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113095405A CN113095405A (zh) | 2021-07-09 |
CN113095405B true CN113095405B (zh) | 2024-04-30 |
Family
ID=76677867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110394217.5A Active CN113095405B (zh) | 2021-04-13 | 2021-04-13 | 基于预训练及双层注意力的图像描述生成系统的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095405B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113709455B (zh) * | 2021-09-27 | 2023-10-24 | 北京交通大学 | 一种使用Transformer的多层次图像压缩方法 |
CN114626430B (zh) * | 2021-12-30 | 2022-10-18 | 华院计算技术(上海)股份有限公司 | 情绪识别模型的训练方法、情绪识别方法、设备及介质 |
CN114581543A (zh) * | 2022-03-28 | 2022-06-03 | 济南博观智能科技有限公司 | 一种图像描述方法、装置、设备、存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472688A (zh) * | 2019-08-16 | 2019-11-19 | 北京金山数字娱乐科技有限公司 | 图像描述的方法及装置、图像描述模型的训练方法及装置 |
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
CN111046233A (zh) * | 2019-12-24 | 2020-04-21 | 浙江大学 | 一种基于视频评论文本的视频标签确定方法 |
CN111144553A (zh) * | 2019-12-28 | 2020-05-12 | 北京工业大学 | 一种基于时空记忆注意力的图像描述方法 |
CN111626362A (zh) * | 2020-05-28 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN112257465A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于图像描述生成的多模态机器翻译数据增强方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10410353B2 (en) * | 2017-05-18 | 2019-09-10 | Mitsubishi Electric Research Laboratories, Inc. | Multi-label semantic boundary detection system |
US20190171913A1 (en) * | 2017-12-04 | 2019-06-06 | Slice Technologies, Inc. | Hierarchical classification using neural networks |
US10878296B2 (en) * | 2018-04-12 | 2020-12-29 | Discovery Communications, Llc | Feature extraction and machine learning for automated metadata analysis |
-
2021
- 2021-04-13 CN CN202110394217.5A patent/CN113095405B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
CN110472688A (zh) * | 2019-08-16 | 2019-11-19 | 北京金山数字娱乐科技有限公司 | 图像描述的方法及装置、图像描述模型的训练方法及装置 |
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN111046233A (zh) * | 2019-12-24 | 2020-04-21 | 浙江大学 | 一种基于视频评论文本的视频标签确定方法 |
CN111144553A (zh) * | 2019-12-28 | 2020-05-12 | 北京工业大学 | 一种基于时空记忆注意力的图像描述方法 |
CN111626362A (zh) * | 2020-05-28 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN112257465A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于图像描述生成的多模态机器翻译数据增强方法 |
Non-Patent Citations (2)
Title |
---|
周治平 ; 张威 ; .结合视觉属性注意力和残差连接的图像描述生成模型.计算机辅助设计与图形学学报.2018,(第08期),全文. * |
结合视觉属性注意力和残差连接的图像描述生成模型;周治平;张威;;计算机辅助设计与图形学学报(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113095405A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113095405B (zh) | 基于预训练及双层注意力的图像描述生成系统的构建方法 | |
CN109508400B (zh) | 图文摘要生成方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
Nugraha et al. | Generating image description on Indonesian language using convolutional neural network and gated recurrent unit | |
CN110390363A (zh) | 一种图像描述方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN114612891B (zh) | 基于对比学习和自适应注意力的图像描述生成方法及介质 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN115329779A (zh) | 一种多人对话情感识别方法 | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
Su et al. | Sesamebert: Attention for anywhere | |
Zhang et al. | Multi-modal emotion recognition based on deep learning in speech, video and text | |
Akman et al. | Lip reading multiclass classification by using dilated CNN with Turkish dataset | |
CN115171176A (zh) | 对象情绪的分析方法、装置和电子设备 | |
US20210271705A1 (en) | Generating accurate and natural captions for figures | |
CN117033558A (zh) | 一种融合bert-wwm与多特征的影评情感分析方法 | |
KR102524337B1 (ko) | 인공지능을 이용한 청각장애인을 위한 실시간 수어 영상 스트림 생성 방법 | |
Kasi et al. | A deep learning based cross model text to image generation using DC-GAN | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
Patankar et al. | Image Captioning with Audio Reinforcement using RNN and CNN | |
CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 | |
CN113129399A (zh) | 纹样生成 | |
Jaiswal et al. | Enhancing Image Captioning Using Deep Convolutional Generative Adversarial Networks | |
Nasr et al. | SemGAN: Text to Image Synthesis from Text Semantics using Attentional Generative Adversarial Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |