CN109726696B - 基于推敲注意力机制的图像描述生成系统及方法 - Google Patents

基于推敲注意力机制的图像描述生成系统及方法 Download PDF

Info

Publication number
CN109726696B
CN109726696B CN201910004805.6A CN201910004805A CN109726696B CN 109726696 B CN109726696 B CN 109726696B CN 201910004805 A CN201910004805 A CN 201910004805A CN 109726696 B CN109726696 B CN 109726696B
Authority
CN
China
Prior art keywords
image
model
description
training
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910004805.6A
Other languages
English (en)
Other versions
CN109726696A (zh
Inventor
宋井宽
樊凯旋
高联丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910004805.6A priority Critical patent/CN109726696B/zh
Publication of CN109726696A publication Critical patent/CN109726696A/zh
Application granted granted Critical
Publication of CN109726696B publication Critical patent/CN109726696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及图像理解领域,其公开了一种基于推敲注意力机制的图像描述生成系统及方法,解决现有图像描述方案存在的缺少润色过程、训练和测试过程不一致、生成描述辨识度不高的问题。该方法包括:a.数据集的处理:提取图像的全局特征和局部特征,构建数据集,对数据集中的单词进行标记,生成对应的词嵌入向量;b.训练图像描述生成模型:采用第一层基于残差注意力机制的解码器生成粗略的图像描述,采用第二层基于残差注意力机制的解码器对已生成的图像描述进行润色;c.结合强化学习进一步训练模型:在训练过程中模拟模型的测试过程,并且以生成描述的CIDEr分数来引导模型的训练,结合强化学习对模型进行调整。

Description

基于推敲注意力机制的图像描述生成系统及方法
技术领域
本发明涉及图像理解领域,具体涉及基于推敲注意力机制的图像描述生成系统及方法。
背景技术
图像描述的任务是:给定一张图片,自动生成对应的自然语言描述。生成的句子要求流畅,并且可以描述图片中的对象和场景。该研究方向可以应用于很多方面。例如:帮助盲人理解图片的内容。
传统的图像描述模型一般采用编码器-解码器框架结合注意力机制。该框架已经取得了很好的效果。但是其仍然存在以下缺陷:
首先,传统模型的训练和测试过程是通过一个解码器生成描述作为最终的结果。这种方式缺少润色过程,所以生成的图像描述不准确。
其次,编码器-解码器框架存在训练测试过程数据流不一致的问题:在训练过程中,给定源序列,模型逐字生成目标序列。但是在测试过程中,由于源序列是不可知的。那么模型就只能根据之前生成的单词来预测下一个单词。但是已生成的单词中存在的微小错误可能在信息流中被不断放大。
另外,传统的模型只关注生成描述的准确性,所以目标函数只判断生成的描述和真实的描述是否匹配。这种目标函数会忽略相似图片对应的描述之间的区别,所以会导致模型生成的描述辨识度不高。
发明内容
本发明所要解决的技术问题是:提供一种基于推敲注意力机制的图像描述生成系统及方法,解决现有图像描述方案存在的缺少润色过程、训练和测试过程不一致、生成描述辨识度不高的问题。
本发明解决上述技术问题所采用的技术方案是:
基于推敲注意力机制的图像描述生成系统,包括:
编码器、基于推敲注意力机制的解码器和增强学习模块;
所述编码器,用于采用预训练好的ResNet-101来提取图像的全局特征,结合预训练好的Faster R-CNN和ResNet-101来提取局部特征;
所述基于推敲注意力机制的解码器,包括两层基于残差注意力机制的解码器,其中,第一层解码器用于生成粗略的图像描述,第二层解码器应用校正的过程来润色第一层解码器已生成的图像描述;
所述增强学习模块,用于在训练过程中模拟模型的测试过程,并且以生成描述的CIDEr分数来引导模型的训练,结合强化学习对模型进行调整。
此外,本发明还提供了一种应用于上述系统的基于推敲注意力机制的图像描述生成方法,其包括以下步骤:
a.数据集的处理:
提取图像的全局特征和局部特征;构建数据集,对数据集中的单词进行标记,生成对应的词嵌入向量;
b.训练图像描述生成模型:
采用第一层基于残差注意力机制的解码器生成粗略的图像描述,采用第二层基于残差注意力机制的解码器对已生成的图像描述进行润色;
c.结合强化学习进一步训练模型:
在训练过程中模拟模型的测试过程,并且以生成描述的CIDEr分数来引导模型的训练,结合强化学习对模型进行调整。
作为进一步优化,步骤a中,用于采用预训练好的ResNet-101来提取图像的全局特征,结合预训练好的Faster R-CNN和ResNet-101来提取局部特征。
作为进一步优化,步骤a中,所述对数据集中的单词进行标记,生成对应的词嵌入向量,具体包括:根据数据集中单词出现频率的顺序,为每一个单词标上序号作为每个单词的独热编码,以生成对应的词嵌入向量。
作为进一步优化,步骤b具体包括:
将图像的全局特征和描述中单词对应的词嵌入向量输入第一层基于残差注意力的解码器,解码器中的递归神经网络计算隐藏状态,通过隐藏状态计算注意力权重,并加权到图像的局部特征;加权后的局部特征和隐藏状态被输入到第二层基于残差注意力的解码器中执行类似操作,第二层基于残差注意力的解码器生成的隐藏状态和被加权的局部特征输入到归一化指数函数来预测下一个单词;重复上述的步骤,直到生成结束符即可得到一个完整的描述。
作为进一步优化,步骤b中,在计算获得隐藏状态后,通过残差连接结合词嵌入向量和隐藏状态。
作为进一步优化,步骤c具体包括:
利用图像的全局特征和RNN提取的描述特征,通过计算两个特征的相似度,训练一个检索模型;
将训练的图像描述生成模型生成的描述输入检索模型,获取检索图像,通过计算检索图像与训练图像的全局特征之间的相似度,计算对比损失函数CL;
根据训练的图像描述生成模型生成的描述和真实描述计算图像描述评价CIDER;
将CL和CIDER作为奖赏,结合强化学习进一步优化图像描述生成模型。
本发明的有益效果是:
1.生成更加具有辨识度的图像描述:本发明结合了传统的图像描述生成模型和图像文字检索模型,图像描述生成模型得到的自然语言描述用于检索图像。这样的训练过程使得模型不仅关注描述的准确性,同时也关注描述的辨识度,从而准确的检索到原图像。
2.生成的图像描述更加准确:本发明采用了推敲的思想设计了两个解码器,第一个解码器生成粗略的描述,第二个解码器对粗略的描述进行润色生成更加准确的描述,从而提高最终生成描述的准确性。
3.一定程度上缓解了训练和测试过程不一致的问题:本发明中的增强学习模块在训练过程中模拟模型的测试过程,并且以生成描述的CIDEr分数来引导模型的训练。这样的训练方式可以使模型在一定程度上保持训练和测试过的一致性。
附图说明
图1为本发明中基于推敲注意力机制的图像描述生成方法的原理图。
具体实施方式
本发明旨在提供一种基于推敲注意力机制的图像描述生成系统及方法,解决现有图像描述方案存在的缺少润色过程、训练和测试过程不一致、生成描述辨识度不高的问题。
本发明中的基于推敲注意力机制的图像描述生成系统,包括:编码器、基于推敲注意力机制的解码器和增强学习模块三个部分。下面对各个部分进行具体介绍:
①编码器,是图像描述生成模型中的重要组成部分。编码器一般用来提取图像的视觉信息。卷积神经网络一般用来提取图像的全局特征。针对特定的对象,基于R-CNN提取的局部特征比卷积神经网络提取的全局特征包含更加丰富的信息。在本发明中,我们采用预训练好的ResNet-101来提取图像的全局特征,结合预训练好的Faster R-CNN和ResNet-101来提取局部特征。其中每张图片,我们提取36个局部特征,对应图片中的36个不同的区域。
②基于推敲注意力机制的解码器,其中包括两层基于残差注意力机制的解码器。第一层用来生成粗略的图像描述,第二层应用校正的过程来润色已生成的描述。两层解码器都是基于基础的LSTM设计的,LSTM的结构定义如下:
it=σ(Wixt+Uiht-1+bi)
ft=σ(Wfxt+Ufht-1+bf)
ot=σ(Woxt+Uoht-1+bo)
gt=σ(Wgxt+Ught-1+bg)
mt=f⊙mt-1+it⊙gt
ht=ot⊙φ(mt)
在第t步中,xt和ht分别表示LSTM的输入和输出。我们用以下的公式表示LSTM的计算过程:
ht=LSTM(xt,ht-1)
第一层解码器:
我们利用基础的LSTM搭建第一层解码器来生成一个初始的文本序列特征。我们定义LSTM的输入如下:
Figure BDA0001935017670000041
其中,v0表示图片的全局特征,
Figure BDA0001935017670000042
表示第二层LSTM上一步的输出,wt表示当前单词对应的词嵌入向量。显然,当前的状态信息是基于图像的全局特征、上一步的状态信息和第t个单词计算得出的。我们还使用来自第二层LSTM的
Figure BDA0001935017670000043
来获取更加准确的信息,从而引导当前状态信息的学习。然后,我们可以得到:
Figure BDA0001935017670000044
按照传统的做法,LSTM的状态信息是被直接用来指导计算注意力权重的。我们在这里采用了残差连接,提供单词的信息来避免梯度消失问题:
Figure BDA0001935017670000045
其中,
Figure BDA0001935017670000046
表示第t步的状态信息,Wrd是需要学习的参数,[;]表示串联操作。
给定L个局部的图像特征{v1,…,vL}和上下文信息
Figure BDA0001935017670000047
我们的目的是通过定义以下的注意力机制,选择性的关注特定区域的图像特征:
Figure BDA0001935017670000048
Figure BDA0001935017670000049
其中,
Figure BDA00019350176700000410
Wv1、Wh1是需要学习的参数。
Figure BDA00019350176700000411
是一个中间变量。
Figure BDA00019350176700000412
是一个长度为L的向量,表示注意力权重。这些权重被加权到每一个局部的图像特征:
Figure BDA00019350176700000413
其中
Figure BDA0001935017670000051
表示表示加权的特征,可以和
Figure BDA0001935017670000052
一起,生成第t个单词。
第二层解码器:
如果只用第一层解码器的结果,模型可以生成粗略的描述。在这里我们设计了第二层解码器来实现对第一层生成描述的推敲过程。首先,我们在LSTM中定义一个视觉标记:
Figure BDA0001935017670000053
Figure BDA0001935017670000054
其中,Wx和Wh是需要学习的参数。⊙是逐元素相乘。σ是sigmoid激活函数。输入如下:
Figure BDA0001935017670000055
然后,我们就可以从LSTM得到
Figure BDA0001935017670000056
和st。我们根据以上输出计算注意力权重,从而决定在什么时候关注视觉或是上下文信息:
Figure BDA0001935017670000057
Figure BDA0001935017670000058
其中,
Figure BDA0001935017670000059
Wv2、Wh2、Ws、Wh3是需要学习的参数,
Figure BDA00019350176700000510
是对应于局部图像特征和上下文信息的权重。最后,我们得到加权结果:
Figure BDA00019350176700000511
其中,vL+1就是上文中提到的视觉标记st。然后我们结合两层解码器的输出和加权之后的特征,用softmax来计算第t个单词的概率:
Figure BDA00019350176700000512
Figure BDA00019350176700000513
其中,Wsd是需要学习的参数。
③增强学习模块,本发明中,我们分两步训练模型。首先用MLE损失函数来预训练模型,然后结合强化学习对模型进行调整。
MLE损失函数定义如下:
Figure BDA00019350176700000514
其中,θ是模型中需要学习的参数,
Figure BDA00019350176700000515
是数据集中的真实描述。
在强化学习应用到图像描述生成中,CIDEr最常被用作奖励函数。本发明中,为了提高生成描述的辨识度,我们在奖励函数中加入了contrastive损失函数(CL)。
在CL的模型中,我们取全局图像特征v0和用RNN提取的语句特征c0作为输入。然后,我们将两个特征映射到同一空间中:
Figure BDA0001935017670000061
Figure BDA0001935017670000062
然后我们用余弦相似度来计算图像和描述之间的相似度:
Figure BDA0001935017670000063
根据上述的相似度,我们定义CL:
Figure BDA0001935017670000064
其中,[x]+≡max(x,0),(c,I)是相匹配的语句-图片对,(I,c′)、(I′,c)是不匹配的语句-图片对。
我们用以上定义的CL结合CIDEr来定义reinforcement learning中的奖励函数:
Figure BDA0001935017670000065
对应的梯度计算如下:
Figure BDA0001935017670000066
其中
Figure BDA0001935017670000067
是通过对第二层解码器中softamx的输出采样得到的描述,c*是通过模拟模型的测试过程得到的描述。
Figure BDA0001935017670000068
表示生成
Figure BDA0001935017670000069
对应的可能性。
本发明中基于推敲注意力机制的图像描述生成方法的原理如图1所示,其包括:
步骤一、数据集的处理:
首先提取图像全局特征:将图像输入预训练好的ResNet-101模型中,取pool5的输出作为全局图像特征(2048维)。
然后提取局部特征,将图像输入预训练好的Faster R-CNN得到36个边框,然后将对应区域的图像输入ResNet-101,取pool5的输出可以得到36个2048维的特征作为局部特征。
最后构建数据集,统计数据集中出现频率五次以上的单词。根据频率的顺序,为每一个单词标上序号作为每个单词的独热编码,独热编码用来生成对应的词嵌入向量。
步骤二、训练一个图像描述生成模型(对应图1中的推敲注意力网络)。
将图像的全局特征和描述中单词对应的词嵌入向量输入图1中的第一层基于残差注意力的解码器,解码器中的递归神经网络计算隐藏状态。本发明利用残差连接结合词嵌入向量和隐藏状态。随后,注意力权重由隐藏状态计算得到,并加权到图像的局部特征。加权后的局部特征和隐藏状态输入到图1中的第二层残差注意力解码器执行类似的操作,以达到对第一层输出的润色过程。第二层残差注意力生成的隐藏状态和被加权的局部特征输入到归一化指数函数来预测下一个单词。重复上述的步骤,直到生成结束符即可得到一个完整的描述。此步骤利用交叉熵目标函数来引导模型的训练。
步骤三、结合强化学习进一步训练模型:
利用训练图像的全局特征和RNN提取的描述特征,通过计算两个特征的相似度,训练一个检索模型,将描述输入模型可以检索到对应的图像;本发明利用预训练的推敲注意力网络生成描述,将生成的描述输入检索模型,通过检索模型输出推敲注意力网络生成的描述所对应的检索图像,通过计算检索图像和训练图像的全局特征之间的相似度来计算上文所述的对比损失函数,然后根据生成的描述和真实描述计算CIDEr(图像描述评价)。本发明将CL和CIDEr作为奖赏,结合强化学习进一步优化图像描述生成模型。

Claims (5)

1.基于推敲注意力机制的图像描述生成方法,应用于基于推敲注意力机制的图像描述生成系统中,所述系统包括编码器、基于推敲注意力机制的解码器和增强学习模块;
所述编码器,用于采用预训练好的ResNet-101来提取图像的全局特征,结合预训练好的Faster R-CNN和ResNet-101来提取局部特征;
所述基于推敲注意力机制的解码器,包括两层基于残差注意力机制的解码器,其中,第一层解码器用于生成粗略的图像描述,第二层解码器应用校正的过程来润色第一层解码器已生成的图像描述;
所述增强学习模块,用于在训练过程中模拟模型的测试过程,并且以生成描述的CIDEr分数来引导模型的训练,结合强化学习对模型进行调整;
其特征在于,该方法包括以下步骤:
a.数据集的处理:
提取图像的全局特征和局部特征;构建数据集,对数据集中的单词进行标记,生成对应的词嵌入向量;
b.训练图像描述生成模型:
采用第一层基于残差注意力机制的解码器生成粗略的图像描述,采用第二层基于残差注意力机制的解码器对已生成的图像描述进行润色;
c.结合强化学习进一步训练模型:
在训练过程中模拟模型的测试过程,并且以生成描述的CIDEr分数来引导模型的训练,结合强化学习对模型进行调整;
步骤b具体包括:
将图像的全局特征和描述中单词对应的词嵌入向量输入第一层基于残差注意力的解码器,解码器中的递归神经网络计算隐藏状态,通过隐藏状态计算注意力权重,并加权到图像的局部特征;加权后的局部特征和隐藏状态被输入到第二层基于残差注意力的解码器中执行类似操作,第二层基于残差注意力的解码器生成的隐藏状态和被加权的局部特征输入到归一化指数函数来预测下一个单词;重复上述的步骤,直到生成结束符即可得到一个完整的描述。
2.如权利要求1所述的方法,其特征在于,
步骤a中,用于采用预训练好的ResNet-101来提取图像的全局特征,结合预训练好的Faster R-CNN和ResNet-101来提取局部特征。
3.如权利要求1所述的方法,其特征在于,
步骤a中,所述对数据集中的单词进行标记,生成对应的词嵌入向量,具体包括:根据数据集中单词出现频率的顺序,为每一个单词标上序号作为每个单词的独热编码,以生成对应的词嵌入向量。
4.如权利要求1所述的方法,其特征在于,
步骤b中,在计算获得隐藏状态后,通过残差连接结合词嵌入向量和隐藏状态。
5.如权利要求1所述的方法,其特征在于,
步骤c具体包括:
利用图像的全局特征和RNN提取的描述特征,通过计算两个特征的相似度,训练一个检索模型;
将训练的图像描述生成模型生成的描述输入检索模型,获取检索图像,通过计算检索图像与训练图像的全局特征之间的相似度,计算对比损失函数CL;
根据训练的图像描述生成模型生成的描述和真实描述计算图像描述评价CIDER;
将CL和CIDER作为奖赏,结合强化学习进一步优化图像描述生成模型。
CN201910004805.6A 2019-01-03 2019-01-03 基于推敲注意力机制的图像描述生成系统及方法 Active CN109726696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910004805.6A CN109726696B (zh) 2019-01-03 2019-01-03 基于推敲注意力机制的图像描述生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910004805.6A CN109726696B (zh) 2019-01-03 2019-01-03 基于推敲注意力机制的图像描述生成系统及方法

Publications (2)

Publication Number Publication Date
CN109726696A CN109726696A (zh) 2019-05-07
CN109726696B true CN109726696B (zh) 2023-04-07

Family

ID=66298047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910004805.6A Active CN109726696B (zh) 2019-01-03 2019-01-03 基于推敲注意力机制的图像描述生成系统及方法

Country Status (1)

Country Link
CN (1) CN109726696B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119460A (zh) * 2019-05-16 2019-08-13 广东三维家信息科技有限公司 图像检索方法、装置及电子设备
CN110309839B (zh) * 2019-08-27 2019-12-03 北京金山数字娱乐科技有限公司 一种图像描述的方法及装置
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
CN111046966B (zh) * 2019-12-18 2022-04-05 江南大学 基于度量注意力机制的图像字幕生成方法
CN111126479A (zh) * 2019-12-20 2020-05-08 山东浪潮人工智能研究院有限公司 一种基于无监督独特性优化的图像描述生成方法及系统
CN111126282B (zh) * 2019-12-25 2023-05-12 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111144553B (zh) * 2019-12-28 2023-06-23 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111582287B (zh) * 2020-05-06 2022-10-25 西安交通大学 一种基于充足视觉信息与文本信息的图像描述方法
CN111695574A (zh) * 2020-05-21 2020-09-22 清华大学深圳国际研究生院 可生成依存树的图像描述生成方法和装置
CN111898645A (zh) * 2020-07-03 2020-11-06 贵州大学 基于注意力机制的可迁移的对抗样本攻击方法
CN111898456B (zh) * 2020-07-06 2022-08-09 贵州大学 基于多层次注意力机制的文本修改图片网络模型训练方法
CN111898461B (zh) * 2020-07-08 2022-08-30 贵州大学 一种时序行为片段生成方法
CN111916050A (zh) * 2020-08-03 2020-11-10 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN112052889B (zh) * 2020-08-28 2023-05-05 西安电子科技大学 基于双门控递归单元解码的喉镜图像识别方法
CN112528989B (zh) * 2020-12-01 2022-10-18 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN112528883A (zh) * 2020-12-15 2021-03-19 杭州义顺科技有限公司 一种基于反思网络的教学场景视频描述生成方法
CN112307762B (zh) * 2020-12-24 2021-04-30 完美世界(北京)软件科技发展有限公司 搜索结果的排序方法及装置、存储介质、电子装置
CN113220915B (zh) * 2021-04-29 2022-11-22 华中科技大学 一种基于残差注意力的遥感图像检索方法及装置
CN113129122A (zh) * 2021-04-30 2021-07-16 国家电网有限公司 财务风险预警审计方法、装置、电子设备、及存储介质
CN113780350B (zh) * 2021-08-10 2023-12-19 上海电力大学 一种基于ViLBERT和BiLSTM的图像描述方法
CN113807516B (zh) * 2021-09-13 2024-05-14 新长城科技有限公司 神经网络模型的训练方法及图像检索方法
CN114022687B (zh) * 2021-09-24 2024-05-10 之江实验室 一种基于增强学习的图像描述对抗生成方法
CN114972795B (zh) * 2021-12-30 2023-04-07 昆明理工大学 一种结合属性检测和视觉感知的服装图像字幕生成方法
CN114419402B (zh) * 2022-03-29 2023-08-18 中国人民解放军国防科技大学 图像故事描述生成方法、装置、计算机设备和存储介质
CN115359323B (zh) * 2022-08-31 2023-04-25 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108416059A (zh) * 2018-03-22 2018-08-17 北京市商汤科技开发有限公司 图像描述模型的训练方法和装置、设备、介质、程序
CN108764303A (zh) * 2018-05-10 2018-11-06 电子科技大学 一种基于注意力机制的遥感图像自然语言生成方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
WO2018213841A1 (en) * 2017-05-19 2018-11-22 Google Llc Multi-task multi-modal machine learning model
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN108985370A (zh) * 2018-07-10 2018-12-11 中国人民解放军国防科技大学 图像标注语句自动生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
WO2018213841A1 (en) * 2017-05-19 2018-11-22 Google Llc Multi-task multi-modal machine learning model
CN108416059A (zh) * 2018-03-22 2018-08-17 北京市商汤科技开发有限公司 图像描述模型的训练方法和装置、设备、介质、程序
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108764303A (zh) * 2018-05-10 2018-11-06 电子科技大学 一种基于注意力机制的遥感图像自然语言生成方法
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN108985370A (zh) * 2018-07-10 2018-12-11 中国人民解放军国防科技大学 图像标注语句自动生成方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Deliberation Networks: Sequence Generation Beyond One-Pass Decoding;Yingce Xia 等;《31st Conference on Neural Information Processing Systems (NIPS 2017)》;20180206;第1页摘要部分,第3页2.1节,第4页2.2-2.3节,第7-8页3.2节 *
Image captioning with triple-attention and stack parallel LSTM;XinxinZhu 等;《Neurocomputing》;20181130;第319卷;55-65 *
Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning;Jiasen Lu等;《2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20171109;3242-3250 *
Self-Critical Sequence Training for Image Captioning;Steven J. Rennie等;《2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20171109;1179-1195 *
一种改进的全局注意机制图像描述方法;马书磊 等;《西安电子科技大学学报》;20181108;第46卷(第(2019)02期);17-22 *

Also Published As

Publication number Publication date
CN109726696A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN109726696B (zh) 基于推敲注意力机制的图像描述生成系统及方法
CN108415977B (zh) 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
RU2691214C1 (ru) Распознавание текста с использованием искусственного интеллекта
CN106960206B (zh) 字符识别方法和字符识别系统
WO2019047949A1 (zh) 图像质量评估方法及图像质量评估系统
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN110909673A (zh) 一种基于自然语言描述的行人再识别方法
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
CN111259940A (zh) 一种基于空间注意力地图的目标检测方法
CN109461177B (zh) 一种基于神经网络的单目图像深度预测方法
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN111160606B (zh) 试题难度预测方法及相关装置
CN110619313A (zh) 遥感图像判别性描述生成方法
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN117218498B (zh) 基于多模态编码器的多模态大语言模型训练方法及系统
CN116563738A (zh) 一种基于不确定性的多阶段引导的小目标半监督学习检测方法
CN113283336A (zh) 一种文本识别方法与系统
CN114419351A (zh) 图文预训练模型训练、图文预测模型训练方法和装置
CN110046271A (zh) 一种基于声音指导的遥感图像描述方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN116661452A (zh) 一种基于类脑记忆的无人艇环境感知决策方法及系统
CN113420833B (zh) 一种基于问题语义映射的视觉问答方法及装置
CN117291232A (zh) 一种基于扩散模型的图像生成方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant