CN110111399A - 一种基于视觉注意力的图像文本生成方法 - Google Patents
一种基于视觉注意力的图像文本生成方法 Download PDFInfo
- Publication number
- CN110111399A CN110111399A CN201910334588.7A CN201910334588A CN110111399A CN 110111399 A CN110111399 A CN 110111399A CN 201910334588 A CN201910334588 A CN 201910334588A CN 110111399 A CN110111399 A CN 110111399A
- Authority
- CN
- China
- Prior art keywords
- image
- vector
- lstm
- word
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于视觉注意力的图像文本生成方法,包括步骤S1:输入训练样本图像,获取训练样本图像的区域特征向量和区域空间特征向量;步骤S2:对训练样本图像的标注文本进行预处理,构建词汇库,并对词汇库中的单词进行编码得到每个单词的单词向量;步骤S3:将所述的训练样本图像的区域特征向量、区域空间特征向量和单词向量输入基于双向LSTM视觉注意力网络的图像语义理解模型,得到训练图像文本;步骤S4:通过反向传播算法优化训练所述的图像语义理解模型,得到最优模型;步骤S5:将测试图像输入所述最优模型得到测试图像文本。与现有技术相比,本发明能够结合历史信息和结合未来信息,并且能够在一定程度上修正之前关注的错误区域。
Description
技术领域
本发明涉及计算机视觉与图像理解领域,尤其是涉及一种基于视觉注意力的 图像文本生成方法。
背景技术
图像文本描述任务是指以图像为对象,研究图像中的背景、物体、物体属性、 物体间关系,并且生成具有一定结构的语句的工作。该领域的应用前景十分广泛, 可用于图像检索、智能儿童早教机、智能机器人和辅助视觉障碍者等方面。近年来, 研究人员针对图像文本描述问题提出了多种解决方案。
汤鹏杰、谭云兰、李金忠在大规模场景类别数据集上训练场景分类模型中的参数。同时,在大规模物体类别数据集上训练物体分类模型中的参数。然后将两个模 型的参数迁移到文本描述模型中,用于捕捉图像中的背景、物体信息,并将其送入 语言模型LSTM,最终生成图像的描述句子。
汤鹏杰、王瀚漓、许恺晟、首先使用浅层LSTM进行训练,收敛之后,保留 原LSTM模型中的分类层及目标函数,并添加新的LSTM层及目标函数重新对模 型进行训练,对模型原有参数进行微调,使用Softmax函数得到每层对单词的预测 概率分值,最后将多层的概率分值进行加权融合,得到生成的单词。
刘畅、周向东、施伯乐、提出图像语义相似性神经网络,在递归神经网络的输 出层之后添加全连接网络,引入图像间的视觉相似性和文本相似性信息,从而在预 测图像的文本描述时保持相似图像的有效语义信息。
申请号为201611226528.6的专利提出了一种基于深度残差网络注意力的图像 理解方法,使用深度残差网络提取图像的特征,利用前一时刻LSTM的隐含层和 图像特征决定当前关注的区域,并由其引导LSTM生成新的单词。
申请号为201611236901.6的专利提出了一种使用知识迁移生成图像文本描述 的方法。利用现成图像分类器以及语料库中的语法结构和语料关联,通过迁移学习 更加准确的描述图像的内容。
申请号为201810748973.1的专利提出了一种基于图像相似性的图像标注语句 自动生成方法。首先使用卷积神经网络提取图像的全局特征和局部特征,计算目标 图像与训练图像的余弦相似度,寻找多个相似度较高的图像,根据其对应的文本生 成目标图像的文本描述。
随着深度学习的发展,基于注意力机制的图像文本描述方法随之产生,并且取 得了较大的成效。周治平、张威首先改进LSTM结构,并基于此设计了基于图像 视觉语义属性的自适应注意力机制,模型根据上一时刻信息,自动选择下一时刻模 型需要处理的图像区域。此外,构建了基于残差连接的stack-LSTM结构,能够 联合图像视觉特征和语义特征对图像进行描述。
张威、周治平提出了一种结合图像动态语义指导和自适应注意力机制的图像描述模型。使用图像检索方法首先检索到与目标图像相似的图像语义描述,然后将该 语句作为目标图像的指导信息。改进的注意力机制使用的不是均匀分割的图像,而 是基于密度的图像信息。该模型可以联合图像语义信息和注意力信息进行图像内容 描述。
徐守坤、周佳、李宁首先通过卷积神经网络得到图像特征,特征区域与文本标 注序列匹配;然后通过注意力机制给标注词汇加权,结合空间特征提取损失函数得 到基于空间特征注意力的图像文本描述。
申请号为201611207945.6的专利提出一种基于“视觉哨兵”门的自适应注意力 模型,引入了一个新的LSTM产生额外的“视觉哨兵”向量,进一步得到哨兵门, 由该哨兵门决定当前时刻生成的单词是依赖于视觉信息还是依赖于语言模型,从而 生成完整的图像描述。
申请号为201710560024.6的专利提出了一种基于视觉显著性与语义属性跨模 态的图像文本描述方法。首先使用预训练的显著性模型回归出图像的显著性图,并 对原始图像进行加权。其次建立语义属性类别词典,对图像进行语言属性检测,使 用多示例学习计算语义属性,并利用语义属性对图像特征加权。最后使用LSTM 解码,产生图像的文本描述。
申请号为201710632600.3的专利提出了一种新型的注意模型进行图像字幕生 成的方法。由卷积神经网络提取图像特征,递归神经网络生成对应字幕,嵌入显著 度预测模型提高生成字幕的质量。其中,显著度预测模型通过显著图和语义分割结 果决定。
申请号为201710806029.2的专利提出了一种融合视觉注意力和语义注意力的 图像语义理解方法,该方法结合了图像到文本的转换,以及文本和文本之间的转换。 利用视觉注意力模型产生图像的语义信息,将该语义信息和检测出的属性信息共同 输入语义模型LSTM中预测新产生的单词。
申请号为201710806115.3的专利提出一种融合视觉注意力和语义注意力的图 像文本生成方法。首先使用卷积神经网络提取图像的特征,同时将对应的文本通过 LSTM获得时序信息。根据图像特征和时序信息生成视觉注意力模型。根据图像特 征、时序信息和前一时刻单词生成语义注意力模型。使用这两个模型的注意力矩阵 生成自动平衡测略,对LSTM模型进行修正,将生成的单词组合成图像的文本描 述。
申请号为201710969648.3的专利提出了一种基于聚焦机制的深度神经网络图 像标注方法,注意力集中的区域不仅由语言模型隐含层状态决定,而且由前一时刻 的聚焦区域决定。聚焦权重加权后的图像特征输入语言模型LSTM中获得当前产 生的单词,串联每个时刻的单词生成完整的语句。
申请号为201810684426.1的专利提出了一种基于属性增强注意力模型的图像 描述方法。通过对属性词之间的相关关系进行建模,使得模型不仅能够通过图像信 息预测属性词,而且能通过属性词之间的关系预测图像生成的文本。
基于注意力的图像语义理解模型被证明能够较好的生成图像的文本描述,但目前现有的模型只考虑前一时刻关注的信息,而没有结合后续时刻关注的信息。某个 时刻关注的区域除了与语言模型的隐含状态有关,还有可能受到前后注意区域的影 响。针对这个问题,本发明提出了一种结合前后信息的视觉注意力图像文本处理方 法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于视觉注 意力的图像文本生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于视觉注意力的图像文本生成方法,该方法包括以下步骤:
步骤S1:输入训练样本图像,利用卷积神经网络获取训练样本图像的区域特 征向量和区域空间特征向量;
步骤S2:输入训练样本图像的标注文本,对训练样本图像的标注文本进行预 处理,构建词汇库,并对词汇库中的单词进行编码得到每个单词的单词向量;
步骤S3:将所述的训练样本图像的区域特征向量、区域空间特征向量和单词 向量输入基于双向LSTM视觉注意力网络的图像语义理解模型,得到训练图像文 本;
步骤S4:通过反向传播算法优化训练所述的图像语义理解模型,得到最优模 型;
步骤S5:将测试图像输入所述最优模型得到测试图像文本。
步骤S1中卷积神经网络为InceptionV3,获取所述的区域特征向量和区域空间 特征向量包括以下步骤:
步骤S11:输入训练样本图像,使用InceptionV3第一个全连接层前的部分得 到区域特征向量;
步骤S12:将步骤S11中得到的特征向量再经过一个全连接层,得到区域空间 特征向量。
步骤S2中单词向量获取步骤包括:
步骤S21:用空格替换标注文本中的标点符号;
步骤S22:用英文字符替换标注文本中的特殊字符;
步骤S23:将标注文本中的所有单词转换为小写形式;
步骤S24:设置句子的最大长度,删除长度大于最大长度的句子,对于长度小 于最大长度的句子进行填充;
步骤S25:补充句子的开始和结束标签;
步骤S26:根据保留句子的全部单词构建词汇库;
步骤S27:利用独热编码和word embedding方法得到单词向量。
双向LSTM视觉注意力网络包括前向LSTM视觉注意力网络和后向LSTM视 觉注意力网络,步骤S3包括:
步骤S31:将步骤S1得到的区域特征向量分别输入前向LSTM视觉注意力网 络和后向LSTM视觉注意力网络,得到每个时刻前向LSTM视觉注意力网络和后 向LSTM视觉注意力网络的隐含层特征向量;
步骤S32:将步骤S1得到的区域空间特征向量和所述的隐含层特征向量融合, 融合后的结果通过全连接层和归一化层得到每个时刻前向LSTM视觉注意力网络 和后向LSTM视觉注意力网络区域关注系数;
步骤S33:假设前向LSTM视觉注意力网络参与区域关注系数生成的比例为β, 计算得到上下文向量Vt;
步骤S34:建立双层LSTM神经网络,将所述的单词向量输入第一层LSTM 神经网络,得到第一层每个时刻的隐含层特征向量;
步骤S35:将步骤S34得到的第一层每个时刻的隐含层特征向量和步骤S33 得到的上下文向量Vt输入第二层LSTM神经网络,得到第二层每个时刻的隐含层 特征向量;
步骤S36:步骤S35得到的第二层每个时刻的隐含层特征向量通过两个全连接 层和softmax层,得到每个时刻对应的单词向量,根据单词向量与图像文本对应关 系得到每个时刻对应的图像文本。
上下文向量Vt为:
其中,T为所述的双向LSTM视觉注意力网络单元数,L表示区域的个数, 和分别为前向LSTM视觉注意力网络t时刻图像第i个区域的区域特征向量和 区域关注系数,和分别为后向LSTM视觉注意力网络T-t时刻图像第i个区 域的区域特征向量和区域关注系数。
步骤S4中反向传播算法的损失函数为:
其中,S0-St表示0-t时刻图像I的标定图像文本,N为训练样本图像大小,为区域关注系数的正则项,λ为1。
双向LSTM视觉注意力网络的隐含层和存储细胞状态的初始值由输入图像的 平均全局特征决定。
步骤S4中反向传播算法计算梯度时,使用Adam优化算法更新网络参数。
与现有技术相比,本发明具有以下优点:
(1)运用双向LSTM视觉注意力网络,双向LSTM视觉注意力网络包括前向 LSTM视觉注意力网络和后向LSTM视觉注意力网络,能够结合历史信息和结合 未来信息,实现注意力区域的动态提取,能够在一定程度上修正之前关注的错误区 域,使得关注区域更加准确。本发明能有效的增强局部视觉区域与文本的联系,从 而生成符合图像的文本描述。
(2)步骤S34使用两层LSTM,第一层LSTM实现对语言的进行初步建模以 及单词向量的特征变换,第二层LSTM结合图像上下文得到图像对应的文本。这 种结构能够减少有效信息的损失,更加准确的生成图像的文本描述。
(3)使用InceptionV3模型参数,减少了较大调参的个数,实际操作中很简便。
(4)使用Adam优化算法,计算效率高,所需内存少,梯度对角缩放的不变 性,适合解决含大规模数据和参数的优化问题。
(5)使用反向传播训练模型,具有快速方便、容易实现的优点。
附图说明
图1为本发明流程图;
图2为本发明整体模型框架图;
图3为本发明中InceptionV3的结构图;
图4为本发明中LSTM单元结构图;
图5为本发明生成区域关注系数的流程图;
图6(a)-6(h)为本发明测试结果,其中图6(a)为输入原始图像,图6(b) -6(h)是根据原始图像在各个时刻生成的单词以及对应的聚焦区域示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范 围不限于下述的实施例。
实施例
本发明提出了一种基于视觉注意力的图像文本生成方法,具体包括以下步骤:
步骤(1):提取图像特征。获取在Imagenet数据集上预训练的InceptionV3 模型参数,使用该模型的卷积层提取图像的特征向量F,F={F1,F2,F3,...,Fl}, Fi∈RD。即,将图像平均分为L个区域,每一个区域均是D维的向量。
步骤(2):预处理图像对应的标注文本。删除文本中的标点符号以及特殊字 符,将句子中的单词全部转换成小写形式,并且用空格分隔句子中的每个单词。另 外,设置句子的最大长度是19,删除句子长度大于19的句子,对于长度小于19 的句子,用<null>进行填充。在每条语句的第一个单词之前加上<start>标签,在最 后一个单词后面加上<end>标签。根据保留句子中出现的全部单词以及<null>、 <start>、<end>建立词汇库,将词汇库中的每个单词转换成独热编码形式,再利用 word embedding降维,得到每个单词对应的单词向量。
步骤(3):得到图像区域关注系数。将步骤(1)中得到的图像特征向量输入 长度为20的双向长短期记忆网络(Long Short-Term Memory,LSTM)视觉注意力 网络中,在每个LSTM单元后加上一个注意力机制获取图像L个区域分别对应的 区域关注系数,并且设置前向区域关注系数与后向区域关注系数比例β。其中,注 意力机制由LSTM的隐含层状态和输入的图像特征向量决定。由于图像被分为L 个区域,因此每个时刻区域关注系数的维度是L,假设前向区域关注系数 αf={α1,α2,α3,...,αl},αi∈R。
步骤(4):生成上下文向量。根据步骤(3)得到的区域关注系数和图像的特 征向量F计算每个时刻的上下文向量。
步骤(5):得到每个时刻生成的单词。建立两层LSTM模型,将单词向量输 入第一层LTSM中,每个时刻的隐含层向量除了输入到当前层的下一时刻,还与 前一时刻得到的上下文向量一起输入到下一层LSTM。在第二层LSTM后设置两 个全连接层和一个softmax层,用于输出产生的单词向量,并根据词汇表判断当前 的图像文本。
本发明的有益效果在于:
(1)能够结合历史信息和结合未来信息,实现注意力区域的动态提取,能够 在一定程度上修正之前关注的错误区域,使得关注区域更加准确。本发明能有效的 增强局部视觉区域与文本的联系,从而生成符合图像的文本描述。
(2)使用两层LSTM构建语言模型,第一层LSTM实现对语言的进行初步建 模以及单词向量的特征变换,第二层LSTM结合图像上下文进一步构建语言模型。 这种结构能够减少有效信息的损失,更加准确的生成图像的文本描述。
如图1所示,本发明实现图像语义理解整体流程为:使用卷积神经网络提取图 像的特征向量,并且将这些特征输入到双向LSTM视觉注意力网络中获得区域关 注系数,根据区域关注系数和图像特征向量构建上下文向量。对标注文本进行预处 理,获得词汇库,根据词汇库中单词的独热编码和词嵌入技术获得每个单词的向量 表达。将上述处理得到的图像信息和文本信息输入双层的语言模型LSTM,根据 LSTM隐含层向量得到每个时刻生成的图像文本。
本发明的整体流程可概括为以下六个部分:
1.图像预处理。
2.文本预处理。
3.将上述处理得到的图像信息与文本信息输入图像语义理解模型。
4.通过反向传播训练该模型。
5.输入几张测试集中图片,测试训练好的模型生成的文本表述。
6.根据测试集中的标定文本和模型生成的文本计算模型评价得分。
下面将详细描述这六个部分的具体实施方式。
1.图像预处理。图像的语义理解模型常采用卷积神经网络对图像进行编码,常 见的编码模型有VGG19、ResNet、google的Inception系列模型等,在本例中使用 的InceptionV3模型。具体处理步骤如下:
步骤(1):提取图像特征向量。获取在Imagenet数据集上预训练的InceptionV3 模型参数,使用其第一个全连接层前的部分提取图像的特征F。
如图3所示,每张图像经过特征提取后得到的向量维数是64*2048。令图像的 特征向量表示为:F={F1,F2,F3,...,Fl},Fi∈RD,那么,L=64,D=2048。即,将图 像平均分为64个区域,每一个区域均是2048维的向量。
步骤(2):计算图像空间特征。将步骤(1)中得到的局部向量Fi经过一个全 连接层,得到每个局部区域的空间特征向量Fi=WiFi,Wi∈RD那么每张图像的空间 特征向量可表示为F'={F1',F2',F3',...,Fl'},Fi'∈RD。
2.文本预处理。文本处理具体步骤如下:
步骤(1):替换图像标注文本中的标点符号。比如“,”、“.”、“’”、“””、 “(”、“)”、“-”等全部替换为空格“”。
步骤(2):替换图像标注文本中的特殊字符。比如“&”替换成“and”。
步骤(3):将图像标注文本中的所有单词都转换成小写形式。
步骤(4):设置句子的最大长度是19,删除句子长度大于19的句子,对于 长度小于19的句子,用<null>进行填充。
步骤(5):补充开始和结束。标签在每条语句的第一个单词之前加上<start> 标签,在最后一个单词后面加上<end>标签。
步骤(6):构建词汇库。根据保留句子中出现的全部单词以及<null>、<start>、 <end>建立词汇库,设定<null>标签序号为0,<start>标签序号为1,<end>标签序 号为2,其他单词从3开始随机排序。本例中词汇库的大小为7224。
步骤(7):用向量表示词汇库中的单词。将每个单词表示为7224维的独热编 码形式,并且利用word embedding技术降维,得到每个单词对应的向量表达。可 表示为:
其中oi表示wi的独热编码,oi∈RV,V表示词汇库的大小,即7224;使用wordembedding降维得到Si,Si∈RM,M表示词嵌入向量的维度,在本例中为350。
3.将上述处理得到的图像信息与文本信息输入图像语义理解模型。经过图像预处理后得到的特征在图2中表示为Feature,经过文本预处理后得到的单词向量在 图2中表示为S0,S1,S2,...,Sn-1。其中S1,S2,...,Sn-2分别表示一个句子中每个单词对应 的词向量,S0,Sn-1分别表示<start>标签和<end>标签对应的向量。
如图2所示,生成图像的文本描述的过程包括以下两个方面:
a.根据图像预处理得到的特征向量F和空间特征向量Fi'获得每个局部区域的 区域关注系数α,得到加权的图像特征,即上下文向量。
b.将上下文向量和2中得到的文本向量输入语言模型LSTM,根据LSTM隐含 层得到每个时刻生成的单词。
a部分的具体实施方案如下:
步骤(1):得到LSTM隐含层向量。建立时间长度是T,隐含层向量维数是 H的双向LSTM网络,将预处理得到的图像特征向量F输入双向LSTM中,得到 每个时刻的隐含层特征向量。在本例中T=19,H=350。
为了方便理解,将前向网络命名为LSTM_att_f,后向网络命名为LSTM_att_b。LSTM_att_f和LSTM_att_b在t时刻得到的隐含层特征分别表示为和
图4是本例中隐含层向量生成结构,F表示图像的平均特征向量,Ct-1和Ct分 别表示t-1时刻和t时刻的细胞状态,ht-1和ht表示隐含状态。σ表示sigmoid函数, ft表示遗忘门函数,用于控制前一时刻细胞保留下来的信息;it表示输入门函数, 用于更新当前时刻的信息;ot表示输出门函数,控制更新后细胞状态的输出。本例 中,LSTM单元可以通过如下公式来计算t时刻隐藏状态h和细胞状态C:
ft=σ(Wf[ht-1,F]+bf)
it=σ(Wi[ht-1,F]+bi)
Ci=tanh(Wc[ht-1,F]+bc)
Ct=ft*Ct-1+it*Ci
ot=σ(Wo[ht-1,F]+bo)
ht=ot*tanh(Ct)
上述公式中Wf、Wi、Wo分别表示遗忘门、输入门、输出门的参数矩阵,bf、 bi、bo分别为对应的偏置。*表示矩阵点乘。
步骤(2):生成区域关注系数α,具体过程如图5。
如图5所示,图中的上半部分和下半部分分别表示前向LSTM视觉注意力网 络和后向LSTM视觉注意力网络中生成α的过程,图中变量分别以f和b后缀区 别显示。前向LSTM视觉注意力网络中,h_att_f表示该时刻的输出隐含层状态, 含有该时刻关注区域的信息,fc(F)代表图像的空间特征向量,融合两者得到新的 h_att_f。将h_att_f经过一个单元数是64的全连接层和归一化层,得到某个区域关 注的系数αi。
其中,w_att的维数是D*1,得到的ef维数为L,经过归一化处理:
得到每个区域的权重αf={α1,α2,α3,...,αl},αi∈R。
后向LSTM视觉注意力网络生成αb与前向LSTM视觉注意力网络生成αf的过 程相同。
步骤(3):得到加权的图像特征,即上下文向量Vt。因为双向LSTM视觉注 意力网络单元数为T,假设前后向LSTM视觉注意力网络同时从0时刻开始训练, 那么前向LSTM视觉注意力网络在t时刻生成的隐含状态应该与后向LSTM视觉 注意力网络在T-t时刻相融合,用公式表示为:
令前向LSTM视觉注意力网络参与α生成的比例为β,那么t时刻重点关注的 区域Vt为:
其中,T为所述的双向LSTM视觉注意力网络单元数,L表示将图像均分为L 个区域,和分别为前向LSTM视觉注意力网络视觉注意力网络t时刻图像第 i个区域的特征向量和区域关注系数,和分别为后向LSTM视觉注意力网 络视觉注意力网络T-t时刻图像第i个区域的特征向量和区域关注系数。上述公式 前半部分和后半部分分别是LSTM_att_f和LSTM_att_b产生的视觉关注区域,
其中,前后向LSTM视觉注意力网络的隐含层状态h0和存储细胞状态c0由输 入图像的平均全局特征决定:
b部分的具体实施方案如下:
步骤(1):计算第一层LSTM隐含层向量。建立时间长度为20,隐含层数为 350的双层LSTM。将预处理文本得到的单词向量分别输入LSTM的每个时刻,根 据LSTM细胞更新的公式计算得到语言模型第一个层各时间节点的隐含层向量
步骤(2):计算第二层LSTM隐含层向量。分别连接每个时刻的与a部分 得到的上下文向量Vt,将其输入第二层LSTM,如图2,得到第二层各个时间节点 的隐含层向量
步骤(3):生成每个时刻对应的单词向量。在第二层LSTM隐含层向量后分 别连接两个全连接层,得到每个单词的独热编码形式,根据独热编码获得词汇表中 对应的单词。在本例中,第一个全连接层单元数为350,第二个全连接单元数是 7224。由每个时刻的隐含层向量生成单词Yt的具体过程如下:
其中,在单词编码阶段,先采用独热编码得到V维向量,后采用embedding 得到M维向量,因此生成Yt需要经过两个全连接fc1、fc2,由fc1得到一个M维向 量rt,fc2得到一个V维的向量yt,yt经过归一化得到每个单词的概率pt,pt∈RV, 在词汇表中取pt的最大值所对应单词作为最终输出Yt。
4.通过反向传播训练该模型。针对一张图像I,训练模型的最终目的是得到模 型中的最优参数θ*:
上述公式中S表示图像I的标定描述,θ是模型中的自学习参数,训练时模型 的损失函数为:
其中,S0-St表示0-t时刻图像I的标定图像文本,N为训练样本图像大小,为区域关注系数α的正则项。上述公式前半部分表示交叉熵损失函 数,后半部分表示注意力模型中α的正则项。当图像区域的权重预测正确,通过上 下文信息能正确预测生成的文本时,损失函数会相对来说较小,当图像的关注区域 定位不准确时,通过其上下文信息预测到错误的结果时,损失函数较大。本例在通 过反向传播计算梯度时,更新网络参数时,使用Adam优化算法,Adam的参数设 定为alpha=0.001、beta1=0.9、beta2=0.999。
5.输入几张测试集中图片,测试训练好的模型生成的文本表述。测试阶段与训 练阶段的过程稍有不同,训练时模型会输入图像信息和文本信息,根据预测结果与 标定信息的误差训练模型。但测试模型时,只输入图像信息,根据图像的信息依次 生成文本。
在测试时,语言模型输入的第一个向量是<start>标签对应的向量以及通过注意力机制得到的上下文向量V1,根据这两个向量生成第一个单词Y1;将Y1对应的词 嵌入向量与t=2时刻对应的上下文向量V2输入第二个LSTM单元,生成Y2;以此 类推,最终得到一个完整的句子表达。
如图6所示,为本发明测试结果,图6(a)为输入原始图像,图6(b)-6(h) 是根据原始图像在各个时刻生成的单词以及对应聚焦区域示意图,像素值接近255 的区域表示聚焦区域。图6(b)是原始图像在第一时刻生成的单词a;图6(c) 是原始图像在第二个时刻生成的单词dog,并且聚焦到图像中狗的位置;图6(d)、 图6(e)中的聚焦区域与图像中的物体狗相关;图6(f)-6(h)中的聚焦区域与 图像背景有关。在测试集上不仅能够生成准确的描述,而且能够对描述的区域给出 更高的注意力,图中高亮区域表示注意力集中的地方。
6.根据测试集中的标定文本和模型生成的文本计算模型评价得分。
本发明中采用了BLEU和METEOR两种方法对生成的语句进行评价, MSCOCO已提供可下载的评估代码,只需要按照规定格式输入预测结果与标定结 果即可。
BLEU表示候选语句与标定语句中n元组共同出现的程度,是一种基于精确度 的评估方法,包括BLEU-1、BLEU-2、BLEU-3和BLEU-4。METEOR指标同时考 虑了整个语料库上的准确率和召回率,其结果和人工判断的结果有较高相关性。这 两种评价指标得分越高表示模型能够对图像进行更加准确的语义理解,生成的语句 质量越好。
表1在Flickr8K数据集上的模型的评价得分比较
如表1所示,本发明在Flickr8k数据集上BLEU-1~BLEU-4和Meteor得分分 别为:65.9、46.0、32.1、21.8、21.3。表中的对比模型均是该领域权威且正确率较 高的模型,除了BLEU-1指数比hard-attention低以外,其他指数均高于其他模型。
Claims (8)
1.一种基于视觉注意力的图像文本生成方法,其特征在于,该方法包括以下步骤:
步骤S1:输入训练样本图像,利用卷积神经网络获取训练样本图像的区域特征向量和区域空间特征向量;
步骤S2:输入训练样本图像的标注文本,对训练样本图像的标注文本进行预处理,构建词汇库,并对词汇库中的单词进行编码得到每个单词的单词向量;
步骤S3:将所述的训练样本图像的区域特征向量、区域空间特征向量和单词向量输入基于双向LSTM视觉注意力网络的图像语义理解模型,得到训练图像文本;
步骤S4:通过反向传播算法优化训练所述的图像语义理解模型,得到最优模型;
步骤S5:将测试图像输入所述最优模型得到测试图像文本。
2.根据权利要求1所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述的步骤S1中卷积神经网络为InceptionV3,获取所述的区域特征向量和区域空间特征向量包括以下步骤:
步骤S11:输入训练样本图像,使用InceptionV3第一个全连接层前的部分得到区域特征向量;
步骤S12:将步骤S11中得到的特征向量再经过一个全连接层,得到区域空间特征向量。
3.根据权利要求1所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述的步骤S2中单词向量获取步骤包括:
步骤S21:用空格替换标注文本中的标点符号;
步骤S22:用英文字符替换标注文本中的特殊字符;
步骤S23:将标注文本中的所有单词转换为小写形式;
步骤S24:设置句子的最大长度,删除长度大于最大长度的句子,对于长度小于最大长度的句子进行填充;
步骤S25:补充句子的开始和结束标签;
步骤S26:根据保留句子的全部单词构建词汇库;
步骤S27:利用独热编码和word embedding方法得到单词向量。
4.根据权利要求1所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述的双向LSTM视觉注意力网络包括前向LSTM视觉注意力网络和后向LSTM视觉注意力网络,步骤S3包括:
步骤S31:将步骤S1得到的区域特征向量分别输入前向LSTM视觉注意力网络和后向LSTM视觉注意力网络,得到每个时刻前向LSTM视觉注意力网络和后向LSTM视觉注意力网络的隐含层特征向量;
步骤S32:将步骤S1得到的区域空间特征向量和所述的隐含层特征向量融合,融合后的结果通过全连接层和归一化层得到每个时刻前向LSTM视觉注意力网络和后向LSTM视觉注意力网络区域关注系数;
步骤S33:假设前向LSTM视觉注意力网络参与区域关注系数生成的比例为β,计算得到上下文向量Vt;
步骤S34:建立双层LSTM神经网络,将所述的单词向量输入第一层LSTM神经网络,得到第一层每个时刻的隐含层特征向量;
步骤S35:将步骤S34得到的第一层每个时刻的隐含层特征向量和步骤S33得到的上下文向量Vt输入第二层LSTM神经网络,得到第二层每个时刻的隐含层特征向量;
步骤S36:步骤S35得到的第二层每个时刻的隐含层特征向量通过两个全连接层和softmax层,得到每个时刻对应的单词向量,根据单词向量与图像文本对应关系得到每个时刻对应的图像文本。
5.根据权利要求4所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述的上下文向量Vt为:
其中,T为所述的双向LSTM视觉注意力网络单元数,L表示区域的个数,和分别为前向LSTM视觉注意力网络t时刻图像第i个区域的区域特征向量和区域关注系数,和分别为后向LSTM视觉注意力网络T-t时刻图像第i个区域的区域特征向量和区域关注系数。
6.根据权利要求5所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述的步骤S4中反向传播算法的损失函数为:
其中,S0-St表示0-t时刻图像I的标定图像文本,N为训练样本图像大小,为区域关注系数的正则项。
7.根据权利要求1所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述双向LSTM视觉注意力网络的隐含层和存储细胞状态的初始值由输入图像的平均全局特征决定。
8.根据权利要求1所述的一种基于视觉注意力的图像文本生成方法,其特征在于,所述的步骤S4中反向传播算法计算梯度时,使用Adam优化算法更新网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910334588.7A CN110111399B (zh) | 2019-04-24 | 2019-04-24 | 一种基于视觉注意力的图像文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910334588.7A CN110111399B (zh) | 2019-04-24 | 2019-04-24 | 一种基于视觉注意力的图像文本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110111399A true CN110111399A (zh) | 2019-08-09 |
CN110111399B CN110111399B (zh) | 2023-06-30 |
Family
ID=67486633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910334588.7A Active CN110111399B (zh) | 2019-04-24 | 2019-04-24 | 一种基于视觉注意力的图像文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110111399B (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN110610509A (zh) * | 2019-09-18 | 2019-12-24 | 上海大学 | 可指定类别的优化抠图方法及系统 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN110706302A (zh) * | 2019-10-11 | 2020-01-17 | 中山市易嘀科技有限公司 | 一种文本合成图像的系统及方法 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN110796000A (zh) * | 2019-09-18 | 2020-02-14 | 平安科技(深圳)有限公司 | 基于双向lstm的唇形样本生成方法、装置和存储介质 |
CN110851644A (zh) * | 2019-11-04 | 2020-02-28 | 泰康保险集团股份有限公司 | 图像检索方法及装置、计算机可读存储介质、电子设备 |
CN111144410A (zh) * | 2019-12-26 | 2020-05-12 | 齐鲁工业大学 | 一种跨模态的图像语义提取方法、系统、设备及介质 |
CN111402365A (zh) * | 2020-03-17 | 2020-07-10 | 湖南大学 | 一种基于双向架构对抗生成网络的由文字生成图片的方法 |
CN111581961A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN111950586A (zh) * | 2020-07-01 | 2020-11-17 | 银江股份有限公司 | 一种引入双向注意力的目标检测方法 |
CN112016493A (zh) * | 2020-09-03 | 2020-12-01 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN112052906A (zh) * | 2020-09-14 | 2020-12-08 | 南京大学 | 一种基于指针网络的图像描述优化方法 |
CN112183752A (zh) * | 2020-12-01 | 2021-01-05 | 南京智谷人工智能研究院有限公司 | 一种基于自动示例选择的端到端多示例学习方法 |
CN112215303A (zh) * | 2020-11-05 | 2021-01-12 | 北京理工大学 | 一种基于自学属性的图像理解方法及系统 |
CN112257445A (zh) * | 2020-10-19 | 2021-01-22 | 浙大城市学院 | 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法 |
WO2021052358A1 (zh) * | 2019-09-16 | 2021-03-25 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及电子设备 |
CN112580658A (zh) * | 2019-09-29 | 2021-03-30 | 中国移动通信集团辽宁有限公司 | 图像语义描述方法、装置、计算设备及计算机存储介质 |
CN112633008A (zh) * | 2020-12-28 | 2021-04-09 | 中国石油大学(华东) | 基于多特征注意力的卷积神经网络句子相似度计算方法 |
CN112732965A (zh) * | 2019-10-28 | 2021-04-30 | 中国银联股份有限公司 | 基于图像描述生成的异常事件检测方法及检测系统 |
CN112949622A (zh) * | 2021-04-08 | 2021-06-11 | 苏州大学 | 融合文本与图像的双模态性格分类方法及装置 |
CN113128527A (zh) * | 2021-06-21 | 2021-07-16 | 中国人民解放军国防科技大学 | 基于变换器模型和卷积神经网络的图像场景分类方法 |
CN113223120A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 图文生成方法、装置、计算机设备及存储介质 |
CN113240115A (zh) * | 2021-06-08 | 2021-08-10 | 深圳数联天下智能科技有限公司 | 一种生成人脸变化图像模型的训练方法及相关装置 |
CN113361250A (zh) * | 2021-05-12 | 2021-09-07 | 山东师范大学 | 一种基于语义一致性的双向文本生成图像方法及系统 |
CN113420680A (zh) * | 2021-06-25 | 2021-09-21 | 中国人民解放军战略支援部队航天工程大学 | 一种基于gru注意力的遥感影像区域关注与文本生成方法 |
CN113515951A (zh) * | 2021-07-19 | 2021-10-19 | 同济大学 | 基于知识增强注意力网络和组级语义的故事描述生成方法 |
CN113792617A (zh) * | 2021-08-26 | 2021-12-14 | 电子科技大学 | 一种结合图像信息和文本信息的图像解译方法 |
CN114003758A (zh) * | 2021-12-30 | 2022-02-01 | 航天宏康智能科技(北京)有限公司 | 图像检索模型的训练方法和装置以及检索方法和装置 |
CN114036937A (zh) * | 2021-11-04 | 2022-02-11 | 北京达佳互联信息技术有限公司 | 场景布局预测网络的训练方法及场景布局的估计方法 |
CN114972795A (zh) * | 2021-12-30 | 2022-08-30 | 昆明理工大学 | 一种结合属性检测和视觉感知的民族服装图像字幕生成方法 |
CN115035351A (zh) * | 2022-07-18 | 2022-09-09 | 北京百度网讯科技有限公司 | 基于图像的信息提取模型、方法、装置、设备及存储介质 |
CN115858847A (zh) * | 2023-02-22 | 2023-03-28 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN109271537A (zh) * | 2018-08-10 | 2019-01-25 | 北京大学 | 一种基于蒸馏学习的文本到图像生成方法和系统 |
CN109559799A (zh) * | 2018-10-12 | 2019-04-02 | 华南理工大学 | 医学图像语义描述方法、描述模型的构建方法及该模型 |
CN109670576A (zh) * | 2018-11-29 | 2019-04-23 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
-
2019
- 2019-04-24 CN CN201910334588.7A patent/CN110111399B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN109271537A (zh) * | 2018-08-10 | 2019-01-25 | 北京大学 | 一种基于蒸馏学习的文本到图像生成方法和系统 |
CN109559799A (zh) * | 2018-10-12 | 2019-04-02 | 华南理工大学 | 医学图像语义描述方法、描述模型的构建方法及该模型 |
CN109670576A (zh) * | 2018-11-29 | 2019-04-23 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN110472642B (zh) * | 2019-08-19 | 2022-02-01 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
WO2021052358A1 (zh) * | 2019-09-16 | 2021-03-25 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及电子设备 |
US11907637B2 (en) | 2019-09-16 | 2024-02-20 | Tencent Technology (Shenzhen) Company Limited | Image processing method and apparatus, and storage medium |
CN110610509B (zh) * | 2019-09-18 | 2023-07-21 | 上海大学 | 可指定类别的优化抠图方法及系统 |
CN110610509A (zh) * | 2019-09-18 | 2019-12-24 | 上海大学 | 可指定类别的优化抠图方法及系统 |
CN110796000A (zh) * | 2019-09-18 | 2020-02-14 | 平安科技(深圳)有限公司 | 基于双向lstm的唇形样本生成方法、装置和存储介质 |
CN110796000B (zh) * | 2019-09-18 | 2023-12-22 | 平安科技(深圳)有限公司 | 基于双向lstm的唇形样本生成方法、装置和存储介质 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN110717431B (zh) * | 2019-09-27 | 2023-03-24 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN112580658A (zh) * | 2019-09-29 | 2021-03-30 | 中国移动通信集团辽宁有限公司 | 图像语义描述方法、装置、计算设备及计算机存储介质 |
CN112580658B (zh) * | 2019-09-29 | 2024-03-12 | 中国移动通信集团辽宁有限公司 | 图像语义描述方法、装置、计算设备及计算机存储介质 |
CN110706302B (zh) * | 2019-10-11 | 2023-05-19 | 中山市易嘀科技有限公司 | 一种文本合成图像的系统及方法 |
CN110706302A (zh) * | 2019-10-11 | 2020-01-17 | 中山市易嘀科技有限公司 | 一种文本合成图像的系统及方法 |
CN112732965A (zh) * | 2019-10-28 | 2021-04-30 | 中国银联股份有限公司 | 基于图像描述生成的异常事件检测方法及检测系统 |
CN110851644A (zh) * | 2019-11-04 | 2020-02-28 | 泰康保险集团股份有限公司 | 图像检索方法及装置、计算机可读存储介质、电子设备 |
CN111144410B (zh) * | 2019-12-26 | 2023-08-04 | 齐鲁工业大学 | 一种跨模态的图像语义提取方法、系统、设备及介质 |
CN111144410A (zh) * | 2019-12-26 | 2020-05-12 | 齐鲁工业大学 | 一种跨模态的图像语义提取方法、系统、设备及介质 |
CN111402365A (zh) * | 2020-03-17 | 2020-07-10 | 湖南大学 | 一种基于双向架构对抗生成网络的由文字生成图片的方法 |
CN111581961A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN111950586A (zh) * | 2020-07-01 | 2020-11-17 | 银江股份有限公司 | 一种引入双向注意力的目标检测方法 |
CN111950586B (zh) * | 2020-07-01 | 2024-01-19 | 银江技术股份有限公司 | 一种引入双向注意力的目标检测方法 |
CN112016493A (zh) * | 2020-09-03 | 2020-12-01 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN112052906B (zh) * | 2020-09-14 | 2024-02-02 | 南京大学 | 一种基于指针网络的图像描述优化方法 |
CN112052906A (zh) * | 2020-09-14 | 2020-12-08 | 南京大学 | 一种基于指针网络的图像描述优化方法 |
CN112257445A (zh) * | 2020-10-19 | 2021-01-22 | 浙大城市学院 | 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法 |
CN112257445B (zh) * | 2020-10-19 | 2024-01-26 | 浙大城市学院 | 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法 |
CN112215303A (zh) * | 2020-11-05 | 2021-01-12 | 北京理工大学 | 一种基于自学属性的图像理解方法及系统 |
CN112183752A (zh) * | 2020-12-01 | 2021-01-05 | 南京智谷人工智能研究院有限公司 | 一种基于自动示例选择的端到端多示例学习方法 |
CN112633008A (zh) * | 2020-12-28 | 2021-04-09 | 中国石油大学(华东) | 基于多特征注意力的卷积神经网络句子相似度计算方法 |
CN112949622A (zh) * | 2021-04-08 | 2021-06-11 | 苏州大学 | 融合文本与图像的双模态性格分类方法及装置 |
CN112949622B (zh) * | 2021-04-08 | 2023-06-27 | 苏州大学 | 融合文本与图像的双模态性格分类方法及装置 |
CN113361250A (zh) * | 2021-05-12 | 2021-09-07 | 山东师范大学 | 一种基于语义一致性的双向文本生成图像方法及系统 |
CN113223120A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 图文生成方法、装置、计算机设备及存储介质 |
CN113240115A (zh) * | 2021-06-08 | 2021-08-10 | 深圳数联天下智能科技有限公司 | 一种生成人脸变化图像模型的训练方法及相关装置 |
CN113128527A (zh) * | 2021-06-21 | 2021-07-16 | 中国人民解放军国防科技大学 | 基于变换器模型和卷积神经网络的图像场景分类方法 |
CN113420680A (zh) * | 2021-06-25 | 2021-09-21 | 中国人民解放军战略支援部队航天工程大学 | 一种基于gru注意力的遥感影像区域关注与文本生成方法 |
CN113515951A (zh) * | 2021-07-19 | 2021-10-19 | 同济大学 | 基于知识增强注意力网络和组级语义的故事描述生成方法 |
CN113515951B (zh) * | 2021-07-19 | 2022-07-05 | 同济大学 | 基于知识增强注意力网络和组级语义的故事描述生成方法 |
CN113792617B (zh) * | 2021-08-26 | 2023-04-18 | 电子科技大学 | 一种结合图像信息和文本信息的图像解译方法 |
CN113792617A (zh) * | 2021-08-26 | 2021-12-14 | 电子科技大学 | 一种结合图像信息和文本信息的图像解译方法 |
CN114036937A (zh) * | 2021-11-04 | 2022-02-11 | 北京达佳互联信息技术有限公司 | 场景布局预测网络的训练方法及场景布局的估计方法 |
CN114036937B (zh) * | 2021-11-04 | 2024-10-25 | 北京达佳互联信息技术有限公司 | 场景布局预测网络的训练方法及场景布局的估计方法 |
CN114003758A (zh) * | 2021-12-30 | 2022-02-01 | 航天宏康智能科技(北京)有限公司 | 图像检索模型的训练方法和装置以及检索方法和装置 |
CN114003758B (zh) * | 2021-12-30 | 2022-03-08 | 航天宏康智能科技(北京)有限公司 | 图像检索模型的训练方法和装置以及检索方法和装置 |
CN114972795A (zh) * | 2021-12-30 | 2022-08-30 | 昆明理工大学 | 一种结合属性检测和视觉感知的民族服装图像字幕生成方法 |
CN114972795B (zh) * | 2021-12-30 | 2023-04-07 | 昆明理工大学 | 一种结合属性检测和视觉感知的服装图像字幕生成方法 |
CN115035351A (zh) * | 2022-07-18 | 2022-09-09 | 北京百度网讯科技有限公司 | 基于图像的信息提取模型、方法、装置、设备及存储介质 |
CN115858847A (zh) * | 2023-02-22 | 2023-03-28 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
CN115858847B (zh) * | 2023-02-22 | 2023-06-23 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110111399B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111399A (zh) | 一种基于视觉注意力的图像文本生成方法 | |
CN114297473B (zh) | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 | |
CN108073711B (zh) | 一种基于知识图谱的关系抽取方法和系统 | |
CN110555112B (zh) | 一种基于用户正负偏好学习的兴趣点推荐方法 | |
CN110929092B (zh) | 一种基于动态注意力机制的多事件视频描述方法 | |
CN109344288A (zh) | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 | |
CN112579778A (zh) | 基于多层次的特征注意力的方面级情感分类方法 | |
CN110021051A (zh) | 一种基于生成对抗网络通过文本指导的人物图像生成方法 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110334354A (zh) | 一种中文关系抽取方法 | |
CN109344391A (zh) | 基于神经网络的多特征融合中文新闻文本摘要生成方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN111191453A (zh) | 一种基于对抗训练的命名实体识别方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN115017358B (zh) | 一种多模态交互的跨模态检索方法及系统 | |
CN117218498B (zh) | 基于多模态编码器的多模态大语言模型训练方法及系统 | |
Yuan et al. | 3G structure for image caption generation | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN110807069B (zh) | 一种基于强化学习算法的实体关系联合抽取模型构建方法 | |
CN113535904A (zh) | 一种基于图神经网络的方面级情感分析方法 | |
CN111368197B (zh) | 一种基于深度学习的评论推荐系统及方法 | |
CN114445201A (zh) | 一种基于多模态预训练模型的组合商品检索方法及系统 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN111242197A (zh) | 基于双视域语义推理网络的图像文匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |