CN108416065A - 基于层级神经网络的图像-句子描述生成系统及方法 - Google Patents
基于层级神经网络的图像-句子描述生成系统及方法 Download PDFInfo
- Publication number
- CN108416065A CN108416065A CN201810267719.XA CN201810267719A CN108416065A CN 108416065 A CN108416065 A CN 108416065A CN 201810267719 A CN201810267719 A CN 201810267719A CN 108416065 A CN108416065 A CN 108416065A
- Authority
- CN
- China
- Prior art keywords
- neural network
- image
- deep
- sentence
- cycle neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000001537 neural effect Effects 0.000 title description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 74
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明提供基于层级神经网络的图像‑句子描述生成系统及方法,本发明提供的基于层级神经网络的图像‑句子描述生成系统包括:深度卷积网络、第一深度循环神经网络、第二深度循环神经网络;所述深度卷积网络获取图像,计算图像特征向量在嵌入空间的嵌入向量;并输出到第一深度循环神经网络和第二深度循环神经网络;所述第一深度循环神经网络识别图像中包含的物体,向第二深度循环神经网络输出物体序列;所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。
Description
技术领域
本发明属于跨媒体生成技术领域,具体涉及基于层级神经网络的图像-句子描述生成系统及方法。
背景技术
在各种多模态信息处理任务中,图像描述自动生成(Image Captioning)是一项非常重要的任务。其任务为给定一幅图像,计算机自动分析图像的视觉内容,并生成可以描述图像主要内容的句子或者文本。图像描述自动生成是一项非常具有挑战性的任务,因为涉及到人工智能两个非常重要的研究领域,计算机视觉和自然语言处理。从计算机视觉的角度看,图像描述在原则上可以涉及到图像中的任何视觉信息,比如图像中所包含的物体以及属性,或者描述图像中的场景类型等等。此外,图像描述还可能涉及到图像中所没有出现的信息或者无法从图像中直接推断出来的背景信息。所以,要生成好的图像描述,需要依靠计算机视觉技术来提取出好的图像特征表示。另一方面,仅仅依靠计算机视觉技术还不足以产生出好的图像描述,因为视觉检测的结果通常只是一些离散的,无结构的标签,而这些标签与描述图像的句子之间仍然有着很大的区别。图像描述应该是简洁的,语法正确并且是可以理解的句子,而这需要使用自然语言处理技术来实现。
早期的研究工作通常会采用分步骤的处理方法,即先通过一些图像识别算法得到图像中所包含的物体以及属性等语义信息,再通过人工设计的句子模板来生成图像描述。然而这类方法需要经过复杂的人工设计,而且生成的句子缺乏自然性,影响了整体的效果。最近几年,神经翻译模型在机器翻译领域取得了巨大的进展,受到其启发,有不少工作尝试将编码-解码模型应用到图像描述自动生成任务当中。具体来说,该模型首先利用编码算法将图像内容用固定长度的特征向量来表示,之后再通过解码算法将编码向量转化为描述图像的句子。在现有的工作中,卷积神经网络(CNN)常常被用做编码器来提取图像的特征向量,而循环神经网络(RNN)则被用来生成图像的描述句子信息。
基于神经网络的方法则通过构建端到端的模型来对整个描述过程进行建模。这些方法通常都会采用编码-解码的框架,比较典型的工作有Kiros等人在2014年提出的多模态逻辑双线性模型(Multimodal Log-Bilinear Models)。该模型利用卷积神经网络来提取图像的特征,之后构建了一个前馈神经语言模型来生成图像的描述信息。Mao等人在2014年的工作也同样使用神经网络来生成图像描述,不同的是,在其工作中使用了循环神经网络作为句子生成模型。
尽管现有的工作在图像自动描述任务上取得了不小的突破,但总体而言,基础的CNN+RNN模型还是处在一个“粗糙”的起始阶段,生成的句子与人类描述习惯不一致。
发明内容
本发明解决的问题是现有CNN+RNN模型在图像-句子描述生成技术生成的句子与人类描述习惯不一致;为解决所述问题,本发明提供基于层级神经网络的图像-句子描述生成系统及方法。
本发明提供的基于层级神经网络的图像-句子描述生成系统,包括:深度卷积网络、第一深度循环神经网络、第二深度循环神经网络;所述深度卷积网络获取图像,计算图像特征向量在嵌入空间的嵌入向量;并输出到第一深度循环神经网络和第二深度循环神经网络;所述第一深度循环神经网络识别图像中包含的物体,向第二深度循环神经网络输出物体序列;所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。
进一步,所述深度卷积网络采用16层VGGNet;所述VGGNet将所述图像转变为一个4096维的全连接层,所述全连接层为所述特征向量,嵌入向量的计算公式为:其中,θc是VGGNet中包含的所有参数,Wv为映射矩阵,bv为偏置权重,I为特征向量,v为嵌入向量。
进一步,所述第一深度循环神经网络采用包括LSTM层和softmax层的两层网络,所述LSTM层的输入包括:之前时刻所输出的状态信息yt-1,和之前时刻所生成的物体词所对应的词向量Ot-1;y0=v,yt=LSTM(yt-1,Weo(Ot-1));其中表示的是词嵌入矩阵,Do是包含所有物体词的词典,dim表示的是词向量的维度;yt对应的是在t时刻LSTM的状态信息,在收到终止符时刻,LSTM层向第一深度循环神经网络输出当前时刻状态信息,softmax层计算当前时刻物体词的概率分布:p(Ot)=softmax(yt)。
进一步,所述第二深度循环神经网络采用包括LSTM层和Softmax层的两层网络,在时刻t,LSTM的输入包含了三部分:之前时刻的隐藏状态ht-1、之前时刻所生成的词St-1所对应的词向量、上下文特征向量ct,其中,
et,i=corr(ht-1,yi)0≤i≤To,corr()用来计算当前状态与多模态信息之间的相关度值,通过一个多层感知器的方式来计算;
h0=0,S0=′<S>′,
p(St)=Softmax(ht),
表示在训练集中的词典对应的词向量矩阵,Ds对应的是词典集合,dim是词向量的维度,ht通过softmax层后输出在词典上的概率分布p(St)。
本发明还提供采用所述的基于层级神经网络的图像-句子描述生成系统的图像-句子描述生成方法,包括:
步骤一、所述深度卷积网络获取图像,利用训练深度CNN模型对图像进行特征表示,提取出图像特征向量在嵌入空间的嵌入向量;并输出到第一深度循环神经网络和第二深度循环神经网络;
步骤二、所述第一深度循环神经网络以所述特征向量为输入,按顺序识别出图像中包含的物体信息,并通过构建RNN模型的方式依次生成物体所对应的文字信息,向第二深度循环神经网络输出物体序列信息;
步骤三、所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。
本发明的优点包括:首先,本发明采用三层网络(深度卷积网络,第一深度循环神经网络,第二深度循环神经网络)的架构来生成图像描述,更加符合人的思维过程。其次,本发明将多模态注意力机制加入到网络构建过程中,从而可以在生成图像描述时能够参考更丰富的信息。最后,本发明在公共数据集Flickr30k与MSCOCO上取得了不错的结果,性能较传统方法有了较大的提升。
附图说明
图1是本发明的框架图。
图2为用于计算多模态注意力的多层感知器网络。
具体实施方式
由背景技术可知,现有的基于层级网络的图像-句子描述生成方法生成的句子与人类的语言习惯不相符;申请人针对所述问题进行研究,认为原因是现有方法并没有考虑人类在图像描述过程中的一般常识信息。比如人类在描述图像的时候通常会有一个级联分段的过程,即首先会去看图像中存在哪些物体,物体的属性以及物体之间的关系,然后根据识别出来的物体组织合适的语言来对图像进行描述。另一方面,人类在进行图像描述的时候通常会使用注意力机制,这意味着在表达过程中人的注意力会动态地变化,在不同的表达时间点可能会侧重于图像不同的区域或者不同的场景。
申请人针对上述问题进行进一步研究,在本发明中提供一种基于层级神经网络的图像-句子描述生成系统及方法。本发明采用两层RNN来生成最终的描述,其中中间层的RNN来生成图像中所包含的物体序列,而之后的RNN则来生成完整的句子。本申请另外一个重要的特点是引入了多模态注意力机制。本申请中假设在句子生成过程中,神经网络可以自动地从多种模态的信息上选择对当前状态最为重要的信息,并将注意力投射到这些信息所对应的位置,其中多模态信息包括中间层所识别得到的物体信息以及整体的图像视觉信息。
下文中,结合附图和实施例对本发明的精深和实质做进一步阐述。
如图1所示,本发明实施例提供的基于层级神经网络的图像-句子描述生成系统,包括:深度卷积网络01、第一深度循环神经网络02、第二深度循环神经网络03;所述深度卷积网络01获取图像,计算图像特征向量在嵌入空间的嵌入向量;并输出到第一深度循环神经网络02和第二深度循环神经网络03;所述第一深度循环神经网络识别图像中包含的物体,向第二深度循环神经网络输出物体序列;在本发明的一个实施例中,所述深度卷积网络01获取的图像的内容为:一位男士带着一只狗在草坪上玩飞盘,第一深度循环神经网络02输出的物体序列为:男士、狗、飞盘、草坪;所述列举仅为示意性说明,输出次序和具体用词可能与列举不同,比如男士可能输出为男人或者人等;所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。
本实施例中,深度卷积网络01采用16层的VGGNet,所述16层的VGGNet首先通过一系列网络层将原始的图像转变为一个4096维的全连接层,所述全连接层位于最终的分类器之前。以所述全连接层作为特征向量来表示输入图像,对应的特征维度是4096维。并通过公式(1)所示的映射过程将经过编码后的特征向量通过线性变换映射到嵌入子空间中,
其中θc是卷积网络中包含的所有参数,映射矩阵Wv和偏置权重bv用于将特征向量I映射到嵌入子空间中,而v是最终得到的嵌入向量,所述嵌入向量将被分别输入到第一循环神经网络、第二深度循环神经网络。
循环神经网络RNN被用来处理句子、视频这样一些具有依赖关系的序列数据。但是,传统的RNN模型存在梯度消失或者爆炸的问题,难以用来建模长距离依赖关系。在本发明中我们引入了长短时记忆网络LSTM作为循环神经网络的基本单元来生成相应的词语和句子。LSTM在结构上对传统的RNN进行了扩展,在RNN的基础上引入了门机制,用于有效控制信息的流入和流程量,通过这种方式可以有效的缓解传统RNN所存在的问题。相应的门以及存储单元的定义如下所示:
it=σ(Wixxt+Wiyyt-1+bi)
ft=σ(Wfxxt+Wfyyt-1+bf)
ot=σ(Woxxt+Woyyt-1+bo)
zt=h(Wzxxt+Wzyyt-1+bz)
ct=it☉zt+ft☉ct-1
yt=ot☉h(ct)
本是实施例中,第一深度循环神经网络的目标是生成在图像中所出现的物体序列,为适应人类进行物体识别的习惯,本实施例中使用序列模型来逐个生成物体,而不是利用分类方法统一识别。通常人类在观察图像当中的物体时,会优先观察到视觉上比较显著的物体,之后才是其他的一些次要物体,同时那些首先被识别出来的物体也会在人脑中形成概念来帮助后续的识别过程。受此启发,本实施例中通过第一深度循环神经网络来模拟图像的识别过程,第一深度循环神经网络包括LSTM层和Softmax层。具体来说,在t时刻,当前物体描述词Ot的生成需要经过两层网络,分别是LSTM层和Softmax层。其中LSTM层的输入包括两部分,第一部分是之前时刻所输出的状态信息yt-1,所述状态信息包含了此时刻之前的语义信息,第二部分是在之前时刻所生成的物体词所对应的词向量Ot-1。需要说明的是,在最开始的时刻t=0,图像嵌入向量v和起始符号′<S>′所对应的词向量将作为初始值被输入到LSTM中,如下所示:
y0=v,O0=′<S>′
yt=LSTM(yt-1,Weo(Ot-1))
p(Ot)=softmax(yt) (2)
其中表示的是词嵌入矩阵,Do是包含所有物体词的词典,而dim表示的是词向量的维度。yt对应的是在t时刻LSTM的状态信息,p(Ot)表示的是在所有物体词上的概率分布。
第二深度循环神经网络生成描述句子,第二深度循环神经网络包括LSTM层和Softmax层。与第一深度循环神经网络不同,第二深度循环神经网络将多模态注意力机制信息引入到了生成描述的过程当中。具体地,对于每一时刻的LSTM单元,输入信息除了上一时刻的状态和当前时刻的词向量之外,还包含了一个新的上下文特征向量。该上下文特征向量与当前的状态相关,具体来说,在每次要生成一个标题词时,都会计算当前状态与描述图像的多模态信息的相关性,从而找到当前的注意力集中在哪些有用的信息上,进而把这些信息整合成为新的上下文特征向量来帮助当前时刻的输出。具体而言,在时刻t,当前LSTM的输入包含了三部分,即之前时刻的隐藏状态ht-1、之前时刻所生成的词St-1所对应的词向量以及上下文特征向量ct,上下文特征向量ct依赖于第一深度循环神经网络的输出信息以及图像的整体内容,其定义如下所示:
其中第一部分意味着当前时刻的注意力集中在图像的整体信息,而第二部分则表示注意力集中在识别出的物体信息上,To表示的是物体序列的长度。此处我们采用了软注意力(soft attention)机制来进行计算,即通过加权平均的方式来得到最终的上下文向量,其中αt,0用来衡量当前状态与图像视觉信息的相关度;αt,i(i>=1)则用来衡量当前状态与第i个物体之间的相关性,αt,i的计算方式如下所示:
et,i=corr(ht-1,yi)0≤i≤To (4)
其中corr()用来计算当前状态与多模态信息之间的相关度值,并且通过一个多层感知器的方式来计算,如图2所示,在此基础上,最终的描述生成过程如下定义:
h0=0,S0=′<S>′
ht=LSTM(ht-1,ct-1,Wes(St-1))
p(St)=softmax(ht) (5)
其中Ds对应的是词典集合,dim是词向量的维度,表示的是在训练集中的词典对应的词向量矩阵。ht表示的是在t时刻的隐层状态信息,ht通过softmax层后输出在词典上的概率分布p(St)。需要注意的是在第一深度循环神经网络的描述物体的词都来自于描述句子中,因此本实施中描述物体词对应的词向量和描述句子的词向量是共享的,即Do∈Ds并且Weo∈Wes。
本实施例中,词向量的来源选择了两个共用的数据集来进行网络的训练,Flickr30k和MSCOCO。Flickr30k是从Flickr网站上进行爬取的,其包含了31,783幅图像以及配对的描述句子,其中每幅图像都包含了5个在语法上类似的句子来对其描述,这些句子都是人工进行标注和检验的。另外一个数据集MSCOCO则比Flickr30k要更大一些,在官方发布的原始集合中包含了82783幅用于训练的图像以及40504幅用于校验的图像。同样每一幅图像也包含了5个语义相关的句子来对其进行描述。为了更好地进行训练和测试,对两个数据集进行了初步的预处理。对于句子描述部分,过滤掉了那些在数据集中出现次数少于5次的单词,通过这样的过滤操作,可以过滤到那些噪音信息,保留更有意义的文本信息。在经过预处理后,对于Flickr30k和MSCOCO两个数据集对应的新的词典大小分别为7414和8791。另外为了提取出用于训练和测试的物体序列,首先使用Stanford NLP发布的词性标注器对数据集中的所有句子进行词性标注,进而提取出句子中所有标记为名词的单词序列来描述图像中出现的物体,其顺序保持了在句子中原有的顺序。而在两个数据集上,本实施例都选择了出现次数最多的256个名词作为描述物体的词典。
为了对本发明实施例提供的基于层级神经网络的图像-句子描述生成系统进行测试,本实施例中使用了Beam Search算法来搜索最优的句子。在每个时刻,LSTM都会产生一个在词表上的概率分布,通过Beam Size的设定,选择两个概率最高的词作为这一时刻的输出和下一时刻的输入。通过在校验集上的测试,在本实施例中将BeamSize的值设置为10。
本实施例中选择了BLEU值来对图像生成的描述进行评价,通常BLEU值以BLEU-n的形式存在,其中n表示的是用于计算的n-gram单位,一般取值为1,2,3和4。
通过在校验集上的实验对比,对于本文提出模型所包含的超参数,我们做了如下设定:对于两个数据集,词嵌入矩阵的维度都设置为256,而在LSTM中隐状态的维度则都设置为512维。我们将本文提出模型在Flickr30k与MSCOCO两个数据集上分别进行了测试,其中在Flickr30k上取得了BLEU值为66.5/45.0/30.6/20.9的结果,而在MSCOCO上则取得了71.0/51.3/37.2/27.1的结果,性能相比较传统方法有较大的提升。
本发明还提供采用本发明实施例提供的基于层级神经网络的图像-句子描述生成系统的图像-句子描述生成方法。
综上所述,本发明面向的是图像与句子级别文本之间的关联建模,对图像句子描述自动生成任务进行了分析和探索,并提出了一种新颖的基于多模态注意力的层级神经网络,采用卷积神经网络用于对图像内容编码,第一深度循环神经网络层用于生成物体序列,第二深度循环神经网络基于多模态注意力机制生成最终的描述句子。所生成的句子与人类的语言习惯相符。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (4)
1.基于层级神经网络的图像-句子描述生成系统,其特征在于,包括:深度卷积网络、第一深度循环神经网络、第二深度循环神经网络;所述深度卷积网络获取图像,计算图像特征向量在嵌入空间的嵌入向量;并输出到第一深度循环神经网络和第二深度循环神经网络;所述第一深度循环神经网络识别图像中包含的物体,向第二深度循环神经网络输出物体序列;所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子;所述深度卷积网络采用16层VGGNet;所述VGGNet将所述图像转变为一个4096维的全连接层,所述全连接层的计算公式为:其中,θc是VGGNet中包含的所有参数,Wv为映射矩阵,bv为偏置权重,I为特征向量,v为嵌入向量。
2.依据权利要求1所述的基于层级神经网络的图像-句子描述生成系统,其特征在于,所述第一深度循环神经网络采用包括LSTM层和Softmax层的两层网络,所述LSTM层的当前输入包括:之前时刻所输出的状态信息yt-1,和之前时刻所生成的物体词所对应的词向量Ot -1;y0=v,yt=LSTM(yt-1,Weo(Ot-1));其中表示的是词嵌入矩阵,Do是包含所有物体词的词典,dim表示的是词向量的维度;yt对应的是在t时刻LSTM的状态信息,在收到终止符时刻,LSTM层向Softmax层输出当前时刻状态信息,Softmax层计算当前时刻物体词的概率分布:p(Ot)=softmax(yt)。
3.依据权利要求1所述的基于层级神经网络的图像-句子描述生成系统,其特征在于,所述第二深度循环神经网络采用包括LSTM层和Softmax层的两层网络,在时刻t,LSTM的输入包含了三部分:之前时刻的隐藏状态ht-1、之前时刻所生成的词St-1所对应的词向量、上下文特征向量ct,其中,
et,i=corr(ht-1,yi)0≤i≤To,corr()用来计算当前状态与多模态信息之
间的相关度值,通过一个多层感知器的方式来计算;
h0=0,S0=′<S>′,
ht=LSTM(ht-1,ct-1,Wes(St-1)),
p(St)=softmax(ht),
表示的是在训练集中的词典对应的词向量矩阵,Ds对应的是词典集合,To表示物体序列长度;dim是词向量的维度,ht通过softmax层后输出在词典上的概率分布p(St)。
4.依据权利要求1至3中任意一项所提供的基于层级神经网络的图像-句子描述生成系统的方法,其特征在于,包括:
步骤一、所述深度卷积网络获取图像,利用训练深度CNN模型对图像进行特征表示,提取出图像特征向量在嵌入空间的嵌入向量;并输出到第一深度循环神经网络和第二深度循环神经网络;
步骤二、所述第一深度循环神经网络以所述特征向量为输入,按顺序识别出图像中包含的物体信息,并通过构建RNN模型的方式依次生成物体所对应的文字信息,向第二深度循环神经网络输出物体序列信息。
步骤三、所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810267719.XA CN108416065B (zh) | 2018-03-28 | 2018-03-28 | 基于层级神经网络的图像-句子描述生成系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810267719.XA CN108416065B (zh) | 2018-03-28 | 2018-03-28 | 基于层级神经网络的图像-句子描述生成系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416065A true CN108416065A (zh) | 2018-08-17 |
CN108416065B CN108416065B (zh) | 2021-08-31 |
Family
ID=63132651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810267719.XA Expired - Fee Related CN108416065B (zh) | 2018-03-28 | 2018-03-28 | 基于层级神经网络的图像-句子描述生成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416065B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109275027A (zh) * | 2018-09-26 | 2019-01-25 | Tcl海外电子(惠州)有限公司 | 视频的语音输出方法、电子播放设备及存储介质 |
CN109299717A (zh) * | 2018-09-13 | 2019-02-01 | 网易(杭州)网络有限公司 | 文字识别模型建立及文字识别方法、装置、介质及设备 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109359214A (zh) * | 2018-10-15 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的视频描述生成方法、存储介质及终端设备 |
CN109522411A (zh) * | 2018-11-12 | 2019-03-26 | 南京德磐信息科技有限公司 | 一种基于神经网络的写作辅助方法 |
CN109558838A (zh) * | 2018-11-29 | 2019-04-02 | 北京经纬恒润科技有限公司 | 一种物体识别方法及系统 |
CN109948691A (zh) * | 2019-03-14 | 2019-06-28 | 齐鲁工业大学 | 基于深度残差网络及注意力的图像描述生成方法和装置 |
CN110705310A (zh) * | 2019-09-20 | 2020-01-17 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
CN111126556A (zh) * | 2018-10-31 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 人工神经网络模型的训练方法和装置 |
CN111950728A (zh) * | 2020-08-17 | 2020-11-17 | 珠海格力电器股份有限公司 | 图像特征提取模型的构建方法、图像检索方法及存储介质 |
CN111967277A (zh) * | 2020-08-14 | 2020-11-20 | 厦门大学 | 基于多模态机器翻译模型的翻译方法 |
CN112016493A (zh) * | 2020-09-03 | 2020-12-01 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN112052906A (zh) * | 2020-09-14 | 2020-12-08 | 南京大学 | 一种基于指针网络的图像描述优化方法 |
CN112085837A (zh) * | 2020-09-10 | 2020-12-15 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
WO2021008145A1 (zh) * | 2019-07-12 | 2021-01-21 | 北京京东尚科信息技术有限公司 | 图像段落描述生成方法、装置、介质及电子设备 |
CN111464881B (zh) * | 2019-01-18 | 2021-08-13 | 复旦大学 | 基于自优化机制的全卷积视频描述生成方法 |
CN113537255A (zh) * | 2020-11-09 | 2021-10-22 | 成都中医药大学 | 一种基于图像标注深度学习算法模型的药材和饮片的识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446782A (zh) * | 2016-08-29 | 2017-02-22 | 北京小米移动软件有限公司 | 图像识别方法及装置 |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN107133354A (zh) * | 2017-05-25 | 2017-09-05 | 北京小米移动软件有限公司 | 图像描述信息的获取方法及装置 |
US20170357716A1 (en) * | 2016-06-11 | 2017-12-14 | Apple Inc. | Data driven natural language event detection and classification |
-
2018
- 2018-03-28 CN CN201810267719.XA patent/CN108416065B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170357716A1 (en) * | 2016-06-11 | 2017-12-14 | Apple Inc. | Data driven natural language event detection and classification |
CN106446782A (zh) * | 2016-08-29 | 2017-02-22 | 北京小米移动软件有限公司 | 图像识别方法及装置 |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN107133354A (zh) * | 2017-05-25 | 2017-09-05 | 北京小米移动软件有限公司 | 图像描述信息的获取方法及装置 |
Non-Patent Citations (1)
Title |
---|
ANDREJ KARPATHY,等: "Deep Visual-Semantic Alignments for Generating Image Descriptions", 《IEEE》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299717A (zh) * | 2018-09-13 | 2019-02-01 | 网易(杭州)网络有限公司 | 文字识别模型建立及文字识别方法、装置、介质及设备 |
CN109299717B (zh) * | 2018-09-13 | 2021-08-17 | 网易(杭州)网络有限公司 | 文字识别模型建立及文字识别方法、装置、介质及设备 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109344288B (zh) * | 2018-09-19 | 2021-09-24 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109275027A (zh) * | 2018-09-26 | 2019-01-25 | Tcl海外电子(惠州)有限公司 | 视频的语音输出方法、电子播放设备及存储介质 |
CN109359214A (zh) * | 2018-10-15 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的视频描述生成方法、存储介质及终端设备 |
WO2020077858A1 (zh) * | 2018-10-15 | 2020-04-23 | 平安科技(深圳)有限公司 | 基于神经网络的视频描述生成方法、介质、终端及装置 |
CN111126556A (zh) * | 2018-10-31 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 人工神经网络模型的训练方法和装置 |
CN109522411A (zh) * | 2018-11-12 | 2019-03-26 | 南京德磐信息科技有限公司 | 一种基于神经网络的写作辅助方法 |
CN109522411B (zh) * | 2018-11-12 | 2022-10-28 | 南京德磐信息科技有限公司 | 一种基于神经网络的写作辅助方法 |
CN109558838A (zh) * | 2018-11-29 | 2019-04-02 | 北京经纬恒润科技有限公司 | 一种物体识别方法及系统 |
CN111464881B (zh) * | 2019-01-18 | 2021-08-13 | 复旦大学 | 基于自优化机制的全卷积视频描述生成方法 |
CN109948691A (zh) * | 2019-03-14 | 2019-06-28 | 齐鲁工业大学 | 基于深度残差网络及注意力的图像描述生成方法和装置 |
CN109948691B (zh) * | 2019-03-14 | 2022-02-18 | 齐鲁工业大学 | 基于深度残差网络及注意力的图像描述生成方法和装置 |
WO2021008145A1 (zh) * | 2019-07-12 | 2021-01-21 | 北京京东尚科信息技术有限公司 | 图像段落描述生成方法、装置、介质及电子设备 |
CN110705310B (zh) * | 2019-09-20 | 2023-07-18 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
CN110705310A (zh) * | 2019-09-20 | 2020-01-17 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
CN111967277A (zh) * | 2020-08-14 | 2020-11-20 | 厦门大学 | 基于多模态机器翻译模型的翻译方法 |
CN111967277B (zh) * | 2020-08-14 | 2022-07-19 | 厦门大学 | 基于多模态机器翻译模型的翻译方法 |
CN111950728A (zh) * | 2020-08-17 | 2020-11-17 | 珠海格力电器股份有限公司 | 图像特征提取模型的构建方法、图像检索方法及存储介质 |
CN112016493A (zh) * | 2020-09-03 | 2020-12-01 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN112085837B (zh) * | 2020-09-10 | 2022-04-26 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
CN112085837A (zh) * | 2020-09-10 | 2020-12-15 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
CN112052906A (zh) * | 2020-09-14 | 2020-12-08 | 南京大学 | 一种基于指针网络的图像描述优化方法 |
CN112052906B (zh) * | 2020-09-14 | 2024-02-02 | 南京大学 | 一种基于指针网络的图像描述优化方法 |
CN113537255A (zh) * | 2020-11-09 | 2021-10-22 | 成都中医药大学 | 一种基于图像标注深度学习算法模型的药材和饮片的识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108416065B (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416065A (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
Lu et al. | Neural baby talk | |
CN108415977B (zh) | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
Fu et al. | Aligning where to see and what to tell: Image captioning with region-based attention and scene-specific contexts | |
US20210034813A1 (en) | Neural network model with evidence extraction | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN109783657A (zh) | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 | |
CN109597891A (zh) | 基于双向长短时记忆神经网络的文本情感分析方法 | |
Wu et al. | Recall what you see continually using gridlstm in image captioning | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
CN109711356B (zh) | 一种表情识别方法和系统 | |
CN108765383A (zh) | 基于深度迁移学习的视频描述方法 | |
CN108804591A (zh) | 一种病历文本的文本分类方法及装置 | |
Alsharid et al. | Captioning ultrasound images automatically | |
CN115861995B (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
EP4116859A3 (en) | Document processing method and apparatus and medium | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
Chandiok et al. | CIT: Integrated cognitive computing and cognitive agent technologies based cognitive architecture for human-like functionality in artificial systems | |
CN117055724A (zh) | 虚拟教学场景中生成式教学资源系统及其工作方法 | |
CN117251057A (zh) | 一种基于aigc构建ai数智人的方法及系统 | |
CN115223021A (zh) | 一种基于视觉问答的果树全生长期农事作业决策方法 | |
Akman et al. | Lip reading multiclass classification by using dilated CNN with Turkish dataset | |
Ishmam et al. | From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities | |
CN116757195A (zh) | 一种基于提示学习的隐性情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210831 |
|
CF01 | Termination of patent right due to non-payment of annual fee |