CN107563498B - 基于视觉与语义注意力相结合策略的图像描述方法及系统 - Google Patents

基于视觉与语义注意力相结合策略的图像描述方法及系统 Download PDF

Info

Publication number
CN107563498B
CN107563498B CN201710806029.2A CN201710806029A CN107563498B CN 107563498 B CN107563498 B CN 107563498B CN 201710806029 A CN201710806029 A CN 201710806029A CN 107563498 B CN107563498 B CN 107563498B
Authority
CN
China
Prior art keywords
attention model
image
semantic
stm
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710806029.2A
Other languages
English (en)
Other versions
CN107563498A (zh
Inventor
王雷全
褚晓亮
魏燚伟
吴春雷
崔学荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201710806029.2A priority Critical patent/CN107563498B/zh
Publication of CN107563498A publication Critical patent/CN107563498A/zh
Application granted granted Critical
Publication of CN107563498B publication Critical patent/CN107563498B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了基于视觉与语义注意力相结合策略的图像描述方法及系统,步骤:利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征;利用图像的视觉注意力模型对图像特征进行处理,将视觉注意力模型处理过的图像特征送入第一LSTM网络产生单词,然后利用语义注意力模型对产生的单词和预定义的标签进行处理得到语义信息,然后利用第二LSTM网络对语义进行处理得到语义注意力模型生成的单词,重复上述步骤,最后将所有得到的单词进行串联组合,产生图像描述;本发明的方法不仅利用了输入图像的概述,而且还丰富了视觉语义方面的信息,让生成的句子更能够真实的反应图像的内容。

Description

基于视觉与语义注意力相结合策略的图像描述方法及系统
技术领域
本发明涉计算机视觉技术和自然语言处理技术,特别是涉及基于视觉与语义注意力相结合策略的图像描述方法及系统。
背景技术
关于图像描述的研究在机器学习和计算机视觉领域备受关注,这项研究之所以意义重大不仅仅是因为它具有重要的实际应用,最重要的是它还是计算机视觉领域中关于图像理解的一项巨大的挑战。生成对图像有意义的语言描述需要计算机对图像具有一定的理解能力,这远比图像分类和对象检测的任务要复杂的多,图像描述成功的将人工智能领域的两个主要技术自然语言处理和计算机视觉相结合在一起。
现有的图像描述方法有两种:自上而下,自下而上。自上而下是从图像的“要点”开始,并将其转化为单词。自下而上则是先从图像入手提取关于图像的单词,然后利用提取的单词来生成描述。语言模型在两种模式中被使用来形成连贯的句子。当前效果比较好的是自上而下的方法,它是基于循环神经网络的一种从图像到句子的端到端的描述,并且这种方法可以从训练数据中学习循环神经网络的所有参数。自上而下的方法的局限性在于它很难看到在图像描述方面很重要的细节问题。自下而上的方法则不会受到此问题的影响。
视觉注意力是人类视觉系统中的重要机制,这是一个反馈的过程,它可以将视觉皮层的早期阶段的表示选择性地映射到场景中特定区域这种选择性映射允许大脑在低级图像属性的指导下将计算资源聚焦在对象上。视觉注意机制也在偏向语义的图像的自然语言描述中起着重要的作用。由于在生成句子的过程中当前时刻生成的单词对于上一时刻生成的词的依赖性比较大,当上一时刻生成的单词不准确时,会影响到整个句子的结构与准确性。
发明内容
为了解决现有技术的不足,本发明提供了基于视觉与语义注意力相结合策略的图像描述方法,提出了新的注意力模型,将自上而下与自下而上的方法有效的串联在一起,具体来讲,本发明首先利用图像的视觉注意力模型产生语义,然后将生成的语义与利用图像及对应的描述检测语义概念或属性作为语义注意模型的候选者,最后通过语义模型来预测新词。
基于视觉与语义注意力相结合策略的图像描述方法,包括:
步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;
步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词Wt-1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt
步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t-1时刻的隐藏层状态
Figure BDA0001402737010000021
和经过视觉注意力模型处理以后的图像特征Vatt送入LSTM1网络,得到视觉注意力模型在t时刻产生的单词Wt';
步骤(4):建立语义注意力模型,将视觉注意力模型在t时刻产生的单词Wt'与预定义的标签A一起输入到语义注意力模型中;得到语义注意力模型在t时刻生成的语义信息Et
步骤(5):建立第二个LSTM网络,称之为LSTM2网络,LSTM2网络是指供语义注意力模型使用的LSTM网络;将LSTM2网络在t-1时刻的隐藏层的状态
Figure BDA0001402737010000022
和语义注意力模型在t时刻生成的语义信息Et输入到LSTM2网络中,得到语义注意力模型在t时刻生成的单词Wt
步骤(6):判断是否检测到停止标识,若是,则将得到的所有单词进行串联组合,产生图像描述;若不是,则用步骤(5)得到的单词Wt更新步骤(2)中的Wt-1;同时返回步骤(2),继续执行步骤(2)-(5),直至检测到停止标识。
所述步骤(2)的公式:
Vatt=fvatt(V),t=0; (1-1)
Vatt=fvatt(V,Wt-1),t≥1; (1-2)
其中,fvatt(·)表示视觉注意力处理函数,t为整数;
所述步骤(2)视觉注意力处理函数:
使用卷积神经网络提取的图像特征V是一个L x D维的向量,即将图像划分为L个区域,每个区域用D维的向量表示:
V={v1,...,vL},vi∈RD
其中,RD表示属于D维度;vi表示第i个图像区域;
对于图像的每个区域,视觉注意力分配函数evatt根据图像特征V和语义注意力模型在t-1时刻的生成的单词Wt-1产生一个权重
Figure BDA0001402737010000031
Figure BDA0001402737010000032
归一化处理:
Figure BDA0001402737010000033
其中,
Figure BDA0001402737010000034
表示视觉注意力模型中第i个图像区域在t时刻的权重;
Figure BDA0001402737010000035
表示视觉注意力模型中第k个图像区域在t时刻的权重;
经过视觉注意力模型处理以后的图像特征Vatt
Figure BDA0001402737010000036
所述步骤(3)的公式为:
Figure BDA0001402737010000037
所述标签是指预先从训练集每幅图像对应的描述图像内容的句子中根据需要提取出的若干个关键词;所述关键词为图像对应的语义信息,所述关键词包括名词和动词;
所述步骤(4)的公式为:
Et=fsatt(Wt',A); (3)
其中,fsatt(·)表示语义注意力处理函数。
所述步骤(4)语义注意力处理函数:
对视觉注意力模型在t时刻产生的单词Wt'和语义辅助的标签A进行权重β的分配:
Figure BDA00014027370100000310
其中,(Wt',A)表示将Wt'与A连接为一个矩阵;
Figure BDA00014027370100000311
表示语义注意力模型中第i个词在t时刻的权重;
对β进行归一化处理:
Figure BDA0001402737010000038
Figure BDA0001402737010000039
表示语义注意力模型中第k个词在t时刻的权重,z表示标签里的词的个数;
生成对当前句子语义的状态Et
Figure BDA0001402737010000041
所述步骤(5)的公式为:
Figure BDA0001402737010000042
语义注意力模型更加注重于生成的句子的语义结构,因为对于句子的分析单凭视觉概念往往导致语义存在偏差,因此将视觉注意力模型在t时刻产生的单词Wt'与标签A一起传入语义模型中进行语义的完善。对于视觉注意力模型在t时刻产生的单词Wt'与标签A及生成的句子中的单词Wt,本发明采用维度为K的one-hot向量来表示:
视觉注意力模型在t时刻产生的单词Wt'的向量的维度为1x K。标签用维度为Z xK的向量A来表示:
A={A1,..,AZ},Ai∈RK
其中K表示词典的大小,Z表示标签的长度,所述标签的长度是固定值。
图像生成的句子用维度为C*K的向量W来表示:
W={w1,...,wc},wi∈RK
其中K表示词典的大小,C表示产生的句子的长度。
为了解决现有技术的不足,本发明还提供了基于视觉与语义注意力相结合策略的图像描述系统,针对每一时刻生成的词,减小对上一次时刻词的依赖,达到更准确的描述图像的效果。
基于视觉与语义注意力相结合策略的图像描述系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令在处理器上运行时完成以下步骤:
步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;
步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词Wt-1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt
步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t-1时刻的隐藏层状态
Figure BDA0001402737010000043
和经过视觉注意力模型处理以后的图像特征Vatt送入LSTM1网络,得到视觉注意力模型在t时刻产生的单词Wt';
步骤(4):建立语义注意力模型,将视觉注意力模型在t时刻产生的单词Wt'与预定义的标签A一起输入到语义注意力模型中;得到语义注意力模型在t时刻生成的语义信息Et
步骤(5):建立第二个LSTM网络,称之为LSTM2网络,LSTM2网络是指供语义注意力模型使用的LSTM网络;将LSTM2网络在t-1时刻的隐藏层的状态
Figure BDA0001402737010000051
和语义注意力模型在t时刻生成的语义信息Et输入到LSTM2网络中,得到语义注意力模型在t时刻生成的单词Wt
步骤(6):判断是否检测到停止标识,若是,则将得到的所有单词进行串联组合,产生图像描述;若不是,则用步骤(5)得到的单词Wt更新步骤(2)中的Wt-1;同时返回步骤(2),继续执行步骤(2)-(5),直至检测到停止标识。
一种计算机存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时完成以下步骤:
步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;
步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词Wt-1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt
步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t-1时刻的隐藏层状态
Figure BDA0001402737010000052
和经过视觉注意力模型处理以后的图像特征Vatt送入LSTM1网络,得到视觉注意力模型在t时刻产生的单词Wt';
步骤(4):建立语义注意力模型,将视觉注意力模型在t时刻产生的单词Wt'与预定义的标签A一起输入到语义注意力模型中;得到语义注意力模型在t时刻生成的语义信息Et
步骤(5):建立第二个LSTM网络,称之为LSTM2网络,LSTM2网络是指供语义注意力模型使用的LSTM网络;将LSTM2网络在t-1时刻的隐藏层的状态
Figure BDA0001402737010000053
和语义注意力模型在t时刻生成的语义信息Et输入到LSTM2网络中,得到语义注意力模型在t时刻生成的单词Wt
步骤(6):判断是否检测到停止标识,若是,则将得到的所有单词进行串联组合,产生图像描述;若不是,则用步骤(5)得到的单词Wt更新步骤(2)中的Wt-1;同时返回步骤(2),继续执行步骤(2)-(5),直至检测到停止标识。
与现有技术相比,本发明的有益效果是:
针对每一时刻生成的词,减小对上一次时刻词的依赖,达到更准确的描述图像的效果。
与以前的工作不同,本发明的方法结合了视觉注意力和语义注意力的结合,从图像中提取更丰富的信息,并将其可以有选择地参与从图像检测到的丰富语义属性的LSTM相结合。因此,本发明的方法不仅利用了输入图像的概述,而且还丰富了视觉语义方面的信息,让生成的句子更能够真实的反应图像的内容。本发明的模型的真正实力在于它能够参与这些方面,将视觉与语义充分的互补与结合从而达到较优的实验结果。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明的整体流程图;
图2为整个模型的设计图;
图3为LSTM网络结构图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
此发明的目的在于针对每一时刻生成的词,减小对上一次时刻词的依赖,已达到更准确的描述图像的效果。实验方案如下:
本发明首先采用卷积神经网络(Convolutional Neural Network,CNN)提取由v表示的图像特征此外,本发明在图像及其对应的描述中提取最有可能在图像中出现的相关标签A,在t时刻,将经过视觉注意力处理后的图像特征Vatt与上一时刻生成词Xt-1传入LSTM1,利用视觉注意力模型产生当前时刻的视觉单词Wt',然后将Wt'与标签A传入LSTM2,再进行语义注意力模型生成当前时刻的单词Wt,,Wt将被反馈到LSTM1中与图像特征V作为下一步的网络输入。整个模型的架构如图1所示,与之前的图像描述不同,本发明将视觉信息的注意力模型与标签对应的语义注意力模型串联在一起,具体来说,本发明模型的主要工作流程由以下公式决定:
Vatt=fvatt(V,Wt-1),t≥1 (1-2)
Figure BDA0001402737010000071
Et=fsatt(Wt',A)(3)
Figure BDA0001402737010000072
公式(1-2)用视觉注意力模型来对图像特征V进行注意力的权重分配得到处理后的特征Vatt,公式(2)将Vatt与t-1时刻生成的单词Wt-1一起传入LSTM1得到Wt',公式(3)将Wt'和图像的标签A经过语义注意力模型分配权重得到Et,公式(4)将Et传入LSTM2生成t时刻的单词Wt。实验过程如图1所示。
LSTM网络:
LSTM网络又称为长短时记忆网络,如图3所示,是循环神经网的特殊形式,它成功解决了循环神经网络的梯度消失和梯度爆炸问题,LSTM的核心是它在每个步骤中的存储单元Cell,每个存储单元由三个Gate(输入门、遗忘门,输出门)和一个cell单元组成。Gate使用一个sigmoid激活函数,而input和cell state通常会使用tanh来转换。
LSTM的cell可以使用下列的等式来定义:
Gates:
it=g(Wxixt+Whiht-1+bi)
ft=g(Wxfxt+Whfht-1+bf)
ot=g(Wx0xt+Wh0ht-1+bo)
输入变换:
c_int=tanh(Wxcxt+Whcht-1+bv_in)
状态更新:
Ct=ft·ct-1+it·c_int
ht=ot·tanh(ct)
W代表训练的参数矩阵,这三个门很好的解决了梯度的消失和爆炸问题。使用图像描述如图2所示。
数据集及实验结果:
本发明选择流行的Flickr30k和MS-COCO评估本发明的模型的性能Flickr30k共有31,783张图像。MS-COCO更具挑战性,其中有123,278幅图像。每个图像至少由不同的AMT工作人员提供五个字幕。
实验结果如:表1
Figure BDA0001402737010000081
实验分析:
在这项工作中,本发明提出了一种新的方法来完成图像描述。在各种普及的标准基准上表现出了较好的效果。与以前的工作不同,本发明的方法结合了视觉注意力和语义注意力的结合,从图像中提取更丰富的信息,并将其可以有选择地参与从图像检测到的丰富语义属性的LSTM相结合。因此,本发明的方法不仅利用了输入图像的概述,而且还丰富了视觉语义方面的信息,让生成的句子更能够真实的反应图像的内容。本发明的模型的真正实力在于它能够参与这些方面,将视觉与语义充分的互补与结合从而达到较优的实验结果。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.基于视觉与语义注意力相结合策略的图像描述方法,其特征是,包括:
步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;
步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词Wt-1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt
步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t-1时刻的隐藏层状态
Figure FDA0002306647050000011
和经过视觉注意力模型处理以后的图像特征Vatt送入LSTM1网络,得到视觉注意力模型在t时刻产生的单词Wt';
步骤(4):建立语义注意力模型,将视觉注意力模型在t时刻产生的单词Wt'与预定义的标签A一起输入到语义注意力模型中;得到语义注意力模型在t时刻生成的语义信息Et;所述标签是指预先从训练集每幅图像对应的描述图像内容的句子中根据需要提取出的若干个关键词;所述关键词为图像对应的语义信息,所述关键词包括名词和动词;
步骤(5):建立第二个LSTM网络,称之为LSTM2网络,LSTM2网络是指供语义注意力模型使用的LSTM网络;将LSTM2网络在t-1时刻的隐藏层的状态
Figure FDA0002306647050000012
和语义注意力模型在t时刻生成的语义信息Et输入到LSTM2网络中,得到语义注意力模型在t时刻生成的单词Wt
步骤(6):判断是否检测到停止标识,若是,则将得到的所有单词进行串联组合,产生图像描述;若不是,则用步骤(5)得到的单词Wt更新步骤(2)中的Wt-1;同时返回步骤(2),继续执行步骤(2)-(5),直至检测到停止标识;
所述步骤(4)语义注意力处理函数:
对视觉注意力模型在t时刻产生的单词Wt'和语义辅助的标签A进行权重β的分配:
Figure FDA0002306647050000013
其中,(Wt',A)表示将Wt'与A连接为一个矩阵;
Figure FDA0002306647050000014
表示语义注意力模型中第i个词在t时刻的权重;
对β进行归一化处理:
Figure FDA0002306647050000021
Figure FDA0002306647050000022
表示语义注意力模型中第k个词在t时刻的权重,z表示标签里的词的个数;
生成对当前句子语义的状态Et
Figure FDA0002306647050000023
所述步骤(5)的公式为:
Figure FDA0002306647050000024
2.如权利要求1所述的基于视觉与语义注意力相结合策略的图像描述方法,其特征是,所述步骤(2)的公式:
Vatt=fvatt(V),t=0; (1-1)
Vatt=fvatt(V,Wt-1),t≥1; (1-2)
其中,fvatt(·)表示视觉注意力处理函数,t为整数。
3.如权利要求2所述的基于视觉与语义注意力相结合策略的图像描述方法,其特征是,所述步骤(2)视觉注意力处理函数:
使用卷积神经网络提取的图像特征V是一个L x D维的向量,即将图像划分为L个区域,每个区域用D维的向量表示:
V={v1,...,vL},vi∈RD
其中,RD表示属于D维度;vi表示第i个图像区域;
对于图像的每个区域,视觉注意力分配函数evatt根据图像特征V和语义注意力模型在t-1时刻的生成的单词Wt-1产生一个权重
Figure FDA0002306647050000025
Figure FDA0002306647050000026
归一化处理:
Figure FDA0002306647050000027
其中,
Figure FDA0002306647050000028
表示视觉注意力模型中第i个图像区域在t时刻的权重;
Figure FDA0002306647050000029
表示视觉注意力模型中第k个图像区域在t时刻的权重;
经过视觉注意力模型处理以后的图像特征Vatt
Figure FDA0002306647050000031
4.如权利要求3所述的基于视觉与语义注意力相结合策略的图像描述方法,其特征是,所述步骤(3)的公式为:
Figure FDA0002306647050000032
5.如权利要求4所述的基于视觉与语义注意力相结合策略的图像描述方法,其特征是,所述步骤(4)的公式为:
Et=fsatt(Wt',A); (3)
其中,fsatt(·)表示语义注意力处理函数。
6.基于视觉与语义注意力相结合策略的图像描述系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令在处理器上运行时完成以下步骤:
步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;
步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词Wt-1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt
步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t-1时刻的隐藏层状态
Figure FDA0002306647050000033
和经过视觉注意力模型处理以后的图像特征Vatt送入LSTM1网络,得到视觉注意力模型在t时刻产生的单词Wt';
步骤(4):建立语义注意力模型,将视觉注意力模型在t时刻产生的单词Wt'与预定义的标签A一起输入到语义注意力模型中;得到语义注意力模型在t时刻生成的语义信息Et;所述标签是指预先从训练集每幅图像对应的描述图像内容的句子中根据需要提取出的若干个关键词;所述关键词为图像对应的语义信息,所述关键词包括名词和动词;
步骤(5):建立第二个LSTM网络,称之为LSTM2网络,LSTM2网络是指供语义注意力模型使用的LSTM网络;将LSTM2网络在t-1时刻的隐藏层的状态
Figure FDA0002306647050000041
和语义注意力模型在t时刻生成的语义信息Et输入到LSTM2网络中,得到语义注意力模型在t时刻生成的单词Wt
步骤(6):判断是否检测到停止标识,若是,则将得到的所有单词进行串联组合,产生图像描述;若不是,则用步骤(5)得到的单词Wt更新步骤(2)中的Wt-1;同时返回步骤(2),继续执行步骤(2)-(5),直至检测到停止标识;
所述步骤(4)语义注意力处理函数:
对视觉注意力模型在t时刻产生的单词Wt'和语义辅助的标签A进行权重β的分配:
Figure FDA0002306647050000042
其中,(Wt',A)表示将Wt'与A连接为一个矩阵;
Figure FDA0002306647050000043
表示语义注意力模型中第i个词在t时刻的权重;
对β进行归一化处理:
Figure FDA0002306647050000044
Figure FDA0002306647050000045
表示语义注意力模型中第k个词在t时刻的权重,z表示标签里的词的个数;
生成对当前句子语义的状态Et
Figure FDA0002306647050000046
所述步骤(5)的公式为:
Figure FDA0002306647050000047
7.一种计算机存储介质,其上存储有计算机指令,其特征是,所述计算机指令被处理器执行时完成以下步骤:
步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;
步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词Wt-1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt
步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t-1时刻的隐藏层状态
Figure FDA0002306647050000051
和经过视觉注意力模型处理以后的图像特征Vatt送入LSTM1网络,得到视觉注意力模型在t时刻产生的单词Wt';
步骤(4):建立语义注意力模型,将视觉注意力模型在t时刻产生的单词Wt'与预定义的标签A一起输入到语义注意力模型中;得到语义注意力模型在t时刻生成的语义信息Et;所述标签是指预先从训练集每幅图像对应的描述图像内容的句子中根据需要提取出的若干个关键词;所述关键词为图像对应的语义信息,所述关键词包括名词和动词;
步骤(5):建立第二个LSTM网络,称之为LSTM2网络,LSTM2网络是指供语义注意力模型使用的LSTM网络;将LSTM2网络在t-1时刻的隐藏层的状态
Figure FDA0002306647050000052
和语义注意力模型在t时刻生成的语义信息Et输入到LSTM2网络中,得到语义注意力模型在t时刻生成的单词Wt
步骤(6):判断是否检测到停止标识,若是,则将得到的所有单词进行串联组合,产生图像描述;若不是,则用步骤(5)得到的单词Wt更新步骤(2)中的Wt-1;同时返回步骤(2),继续执行步骤(2)-(5),直至检测到停止标识;
所述步骤(4)语义注意力处理函数:
对视觉注意力模型在t时刻产生的单词Wt'和语义辅助的标签A进行权重β的分配:
Figure FDA0002306647050000053
其中,(Wt',A)表示将Wt'与A连接为一个矩阵;
Figure FDA0002306647050000054
表示语义注意力模型中第i个词在t时刻的权重;
对β进行归一化处理:
Figure FDA0002306647050000055
Figure FDA0002306647050000056
表示语义注意力模型中第k个词在t时刻的权重,z表示标签里的词的个数;
生成对当前句子语义的状态Et
Figure FDA0002306647050000057
所述步骤(5)的公式为:
Figure FDA0002306647050000058
CN201710806029.2A 2017-09-08 2017-09-08 基于视觉与语义注意力相结合策略的图像描述方法及系统 Expired - Fee Related CN107563498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710806029.2A CN107563498B (zh) 2017-09-08 2017-09-08 基于视觉与语义注意力相结合策略的图像描述方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710806029.2A CN107563498B (zh) 2017-09-08 2017-09-08 基于视觉与语义注意力相结合策略的图像描述方法及系统

Publications (2)

Publication Number Publication Date
CN107563498A CN107563498A (zh) 2018-01-09
CN107563498B true CN107563498B (zh) 2020-07-14

Family

ID=60980231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710806029.2A Expired - Fee Related CN107563498B (zh) 2017-09-08 2017-09-08 基于视觉与语义注意力相结合策略的图像描述方法及系统

Country Status (1)

Country Link
CN (1) CN107563498B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110072142B (zh) 2018-01-24 2020-06-02 腾讯科技(深圳)有限公司 视频描述生成方法、装置、视频播放方法、装置和存储介质
CN108446645B (zh) * 2018-03-26 2021-12-31 天津大学 基于深度学习的车载人脸识别方法
US11055557B2 (en) 2018-04-05 2021-07-06 Walmart Apollo, Llc Automated extraction of product attributes from images
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108829677B (zh) * 2018-06-05 2021-05-07 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN109035233B (zh) * 2018-07-24 2021-09-21 西安邮电大学 视觉注意力网络系统及工件表面缺陷检测方法
CN109344391B (zh) * 2018-08-23 2022-10-21 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN109344288B (zh) * 2018-09-19 2021-09-24 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109635150B (zh) * 2018-12-19 2021-07-02 腾讯科技(深圳)有限公司 文本生成方法、装置以及存储介质
CN109857865B (zh) * 2019-01-08 2021-02-09 北京邮电大学 一种文本分类方法及系统
CN111507141B (zh) * 2019-01-31 2023-04-18 阿里巴巴集团控股有限公司 图片识别方法、服务界面显示方法、系统及设备
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN110111864B (zh) * 2019-04-15 2023-05-26 中山大学 一种基于关系模型的医学报告生成系统及其生成方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110458282B (zh) * 2019-08-06 2022-05-13 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN110472642B (zh) * 2019-08-19 2022-02-01 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN111144410B (zh) * 2019-12-26 2023-08-04 齐鲁工业大学 一种跨模态的图像语义提取方法、系统、设备及介质
CN111324758B (zh) * 2020-02-14 2022-05-17 北京工业大学 基于发散-聚合注意力的图像描述方法
CN111462282B (zh) * 2020-04-02 2023-01-03 哈尔滨工程大学 一种场景图生成方法
CN111582287B (zh) * 2020-05-06 2022-10-25 西安交通大学 一种基于充足视觉信息与文本信息的图像描述方法
CN111818397B (zh) * 2020-06-29 2021-10-08 同济大学 一种基于长短时记忆网络变体的视频描述生成方法
CN113569892A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 图像描述信息生成方法、装置、计算机设备及存储介质
WO2022226723A1 (zh) * 2021-04-26 2022-11-03 华为技术有限公司 一种信息处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BOOSTING IMAGE CAPTIONING WITH ATTRIBUTES;Ting Yao等;《网页在线公开:https://arxiv.org/abs/1611.01646》;20161105;第1-11页 *
Image Captioning with Semantic Attention;Quanzeng You等;《网页在线公开:https://arxiv.org/abs/1603.03925》;20160321;图1,第3节、第5.1节 *
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention;Kelvin Xu等;《网页在线公开:https://arxiv.org/abs/1502.03044》;20160419;图1,第3节、第4.2节 *

Also Published As

Publication number Publication date
CN107563498A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107563498B (zh) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN109213999B (zh) 一种主观题评分方法
CN106919646B (zh) 中文文本摘要生成系统及方法
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
Liu et al. Implicit discourse relation classification via multi-task neural networks
US20210342371A1 (en) Method and Apparatus for Processing Knowledge Graph
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN111460132B (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN111243699A (zh) 基于字词信息融合的中文电子病历实体抽取方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN109388700A (zh) 一种意图识别方法及系统
CN106547737A (zh) 基于深度学习的自然语言处理中的序列标注方法
Lin et al. Deep structured scene parsing by learning with image descriptions
Liu et al. Compact feature learning for multi-domain image classification
CN111914555B (zh) 基于Transformer结构的自动化关系抽取系统
CN109902160B (zh) 电路题目自动解答的方法及系统
EP4116859A3 (en) Document processing method and apparatus and medium
CN107688583A (zh) 创建用于自然语言处理装置的训练数据的方法和设备
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN109376347A (zh) 一种基于主题模型的hsk作文生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200714

Termination date: 20210908