CN113918754A - 基于场景图更新与特征拼接的图像字幕生成方法 - Google Patents
基于场景图更新与特征拼接的图像字幕生成方法 Download PDFInfo
- Publication number
- CN113918754A CN113918754A CN202111283716.3A CN202111283716A CN113918754A CN 113918754 A CN113918754 A CN 113918754A CN 202111283716 A CN202111283716 A CN 202111283716A CN 113918754 A CN113918754 A CN 113918754A
- Authority
- CN
- China
- Prior art keywords
- updating
- lstm
- node
- attention
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 9
- 230000000007 visual effect Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 2
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000007787 long-term memory Effects 0.000 abstract description 2
- 230000006403 short-term memory Effects 0.000 abstract description 2
- 230000002860 competitive effect Effects 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于场景图更新与特征拼接的图像字幕生成方法,它解决了当前基于场景图的图像字幕模型中长短期记忆神经网络丢失先前输入的细节信息的问题,以及场景图更新机制中结点更新程度过大的问题。本发明首次提出了特征拼接网络,该网络对语言LSTM的输入变量做了改进,目的是尽可能多地保留原始输入信息,减少输入信息在计算过程中的损失。其次,本发明提出一种新的场景图更新机制来更新已访问过的结点权重,避免引起结点信息丢失的问题。同时,本发明设计了图更新系数来指导图更新,以确定更新程度的大小。本发明在官方数据集Microsoft COCO上进行了实验,在各种评估机制的实验中取得了有竞争力的结果。
Description
技术领域
本发明属于图像字幕自动生成方法,涉及计算机视觉和自然语言处理的技术领域。
背景技术
计算机根据给定的图像自动生成简短的描述图像的句子,这个任务被称为图像字幕生成。在当前的计算机视觉领域中,图像字幕生成融合了机器学习、计算机视觉等多个不同领域,是一项具有挑战性的任务。主流的图像字幕生成模型大多数采用卷积神经网络获取图像视觉特征,并对显著区域和对象施加注意力,通过递归模型生成描述。Vinyals等人采用卷积神经网络将图像视觉信息编码为固定长度向量,递归神经网络作为解码器,依次生成单词。Lu等人提出了一种自适应注意力机制,在模型生成单词时判断是否需要关注图像信息及关注的程度。随着对图像字幕生成任务的研究逐渐增多,图像的场景图被用来增强图像字幕生成模型,从而利用场景图的结构语义,如对象、关系和属性。然而当前基于场景图的图像字幕生成模型并未考虑到长短期记忆神经网络对于先前输入信息的保留,目前大部分图像字幕生成任务都是基于编码器-解码器框架结构,但解码器对于输入到LSTM中的信息经过多次计算后可能会丢失部分原始输入信息。原始输入信息中的细节能够指导句子的生成,因为对于模型生成的句子,其中每个单词的生成都要依赖于输入信息,假如丢失了先前的原始输入信息,则很难生成准确的句子。
在使用场景图生成描述的研究中,图更新机制在每一步解码后更新当前的图,改变图结点的权重以保证结点不被重复使用,但是当前的场景图更新机制中存在结点更新程度过大的问题,改变权重的方式容易丢失有效的信息,导致生成句子的准确度降低。
为了在一定程度上解决丢失原始信息和图更新程度过大的问题,本文提出了基于场景图更新与特征拼接的图像字幕生成网络,该网络改进了图更新机制及语言LSTM中的输入信息,目的是使图更新程度的大小更合理,并减少原始信息的细节损失。首先,每张图像对应一个场景图信息,网络对场景图进行编码,对编码后的场景图特征施加注意力,网络将得到的上下文特征传递给双层LSTM进行解码,其中将原始信息注入到语言LSTM中,最后通过场景图更新模块将已访问过的结点权重降低,以既可以使网络关注未关注过的结点,又尽可能保留结点的内容信息。
发明内容
本发明的目的是解决丢失原始信息和图更新程度过大的问题,在更新过程中保持删除信息和保留信息的平衡,使图更新程度的大小更合理,并减少原始信息的细节损失,从而生成与输入图像内容更匹配的句子。
本发明为解决上述技术问题采取的技术方案是:
S1.构建特征拼接网络。
S2.构建场景图更新模块。
S3.结合S1中的特征拼接网络、S2中的场景图更新模块构建基于场景图更新与特征拼接的图像字幕生成网络架构。
S4.基于场景图更新与特征拼接的图像字幕生成网络的训练和字幕生成。
本发明的特征拼接网络采用两层LSTM结构,包括注意力LSTM和语言LSTM。其中注意力LSTM表示视觉注意LSTM,作用是整合视觉信息以及隐藏层信息,并将自身计算得到的隐藏层信息作为模型注意力机制的一部分输入;语言LSTM表示用来生成语言的LSTM,实现顺序地预测单词生成的功能。全局图像特征是通过在ImageNet上预训练的ResNet152来提取的。为了充分利用视觉信息和单词嵌入信息指导句子的生成,本发明将全局图像编码嵌入、已生成的单词嵌入注入到语言LSTM中。
注意力LSTM在每个时间步中会接收输入图像的特征编码嵌入、词嵌入向量以及之前时间步的信息,注意力LSTM将以上输入的信息进行整合得到LSTM的隐藏状态,然后将输出的隐藏层信息作为注意力机制输入的一部分,计算得到上下文特征。最后,计算得出的上下文信息和注意力LSTM的隐藏状态一起作为模型语言LSTM的输入。另外,为了充分利用原始信息,本发明将全局图像编码嵌入已生成的单词嵌入wt-1与经过注意力LSTM所得的特征拼接后得到新特征作为语言LSTM的输入,得到语言LSTM的输出。最后,在t时刻要生成的单词yt由模型利用语言LSTM的隐藏状态预测得到,其具体公式如下:
其中是语言LSTM前一时刻的输出,是注意力LSTM前一时刻的输出,Attn为注意力操作,上下文向量zt经过Attn操作后得到。wt-1是已生成单词的嵌入,是全局编码嵌入,Wu是参数。在时间步长t处单词分布的概率如下:
其中Wp是学习权重,bp是偏差。句子概率分布计算公式如下:
在每一时间步生成单词yt后,将t时刻的结点嵌入Xt重新赋予权重,更新为下一时刻使用的Xt+1,即更新结点的访问状态。每个结点的访问强度用注意力分数αt来表示,当t时刻某一个结点注意力高时代表已经使用过当前结点,为了不重复使用,当前结点的权重应该被更新为较低的权重,注意力分数越高的结点下一时刻权重被降低的幅度应越大。
在生成一些特殊单词如“a”和“this”时,尽管访问了图结点,但这些单词是非可视的,此时不更新结点。因此,我们采用了自适应更新机制,用来修改注意力强度,如下所示:
其中,fvs是一个全连接网络,θvs是参数,该网络输出一个标量来表示当前注意的结点是否由已生成的单词表达的。
我们观察到在更新结点的过程中,结点权重有可能会直接被设置为0即完全被删除,虽然t时刻对注意力分数高的结点Xmax在t+1时刻关注程度应降低,但Xmax中的信息仍是有价值的,如果直接删除会导致结点保存的信息不能对后续生成单词起到任何指导作用。本发明设计了图更新系数GUF来指导图更新,并不会完全删除结点,仅使结点权重降低,计算公式如下:
其中et,i代表t时刻对第i个结点的注意力强度,取值在0-1之间,如果et,i取值为0代表结点在t时刻未被使用因此不应被更新,如果et,i取值为1代表结点需要被更新的程度最大。ut,i是视觉哨门,控制更新的程度,在0到1之间,ut,i的值越高代表更新的程度越大。根据对变量取值的分析,GUF的取值在0.5-1之间。
使用GUF来指导图更新,GUF的取值决定了结点下一时刻被访问的程度,从而实现场景图更新。通过以下公式来更新图结点:
xt+1,i=GUF·xt,i (9)
根据对图更新系数GUF的分析,GUF的取值在0.5-1之间,即使更新程度最大,Xt+1也将更新为0.5Xt,并不会被设为0,即并不会被完全删除。因此更新的幅度比完全删除更小,结点保存的信息仍能在一定程度上起到指导句子生成的作用。通过这种方式,我们将结点嵌入Xt更新为下一个解码步骤使用的Xt+1。
本发明提出的基于场景图更新与特征拼接的图像字幕生成网络包含一个特征拼接网络和一个场景图更新模块。
最后,所述的基于场景图更新与特征拼接的图像字幕生成网络训练方法如下:
在训练阶段,迭代周期设置为100,对于语言解码器,LSTM层的单词嵌入和隐藏层大小设置为512。初始学习率为0.0001,batch size设置为128,训练采用最小化交叉熵损失。在推理单词过程中,我们使用beam search,设置beam size为5。
与现有的技术相比,本发明的有益效果是:
1.本发明提出了特征拼接网络,对基线模型中语言LSTM的输入变量做了改进,将原始特征与经过注意力LSTM所得的特征拼接后得到新特征作为语言LSTM的输入,以充分利用全局图像信息和嵌入信息来生成句子。
2.本发明提出了一种新的图更新机制,改进了现有的基于场景图的图更新方法,它可以使网络关注重要信息的同时尽可能保留原始结点的信息,我们设计了图更新系数来指导图更新,以确定更新程度的大小。
附图说明
图1为特征拼接网络示意图。
图2为场景图更新模块结点更新示意图。
图3为基于场景图更新与特征拼接的图像字幕生成网络结构示意图。
图4为单独使用特征拼接网络、单独使用场景图更新模块以及同时使用特征拼接网络和场景图更新模块的结果对比图。
图5为基于场景图更新与特征拼接的图像字幕生成网络的字幕与其他方法生成字幕的对比图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
以下结合附图和实施例对本发明做进一步的阐述。
图1为特征拼接网络结构示意图。如图1所示,本发明的特征拼接网络采用两层LSTM结构,下方为注意力LSTM,上方为语言LSTM。其中注意力LSTM表示视觉注意LSTM,作用是整合视觉信息以及隐藏层信息,并将自身计算得到的隐藏层信息作为模型注意力机制的一部分输入;语言LSTM表示用来生成语言的LSTM,实现顺序地预测单词生成的功能。将全局图像特征和已生成的单词嵌入wt-1与注意力LSTM隐藏层特征拼接,输入到图上方的语言LSTM中,得到语言LSTM的输出。全局图像特征是通过在ImageNet上预训练的ResNet152来提取的。
在t时刻要生成的单词yt由模型利用语言LSTM的隐藏状态预测得到,其具体公式如下:
其中是语言LSTM前一时刻的输出,是注意力LSTM前一时刻的输出,Attn为注意力操作,上下文向量zt经过Attn操作后得到。wt-1是已生成单词的嵌入,是全局编码嵌入,Wu是参数。在时间步长t处单词分布的概率如下:
其中Wp是学习权重,bp是偏差。句子概率分布计算公式如下:
图2为场景图更新模块示意图。如图2所示,是语言LSTM的输出,更新后得到的Gm+1是下一时刻使用的场景图。在每一时间步生成单词yt后,将t时刻的结点嵌入Xt重新赋予权重,更新为下一时刻使用的Xt+1,即更新结点的访问状态。每个结点的访问强度用注意力分数αt来表示,当t时刻某一个结点注意力高时代表已经使用过当前结点,为了不重复使用,当前结点的权重应该被更新为较低的权重,注意力分数越高的结点下一时刻权重被降低的幅度应越大。
在生成一些特殊单词如“a”和“this”时,尽管访问了图结点,但这些单词是非可视的,此时不更新结点。因此,我们采用了自适应更新机制,用来修改注意力强度,如下所示:
其中,fvs是一个全连接网络,θvs是参数,该网络输出一个标量来表示当前注意的结点是否由已生成的单词表达的。
我们观察到在更新结点的过程中,结点权重有可能会直接被设置为0即完全被删除,虽然t时刻对注意力分数高的结点Xmax在t+1时刻关注程度应降低,但Xmax中的信息仍是有价值的,如果直接删除会导致结点保存的信息不能对后续生成单词起到任何指导作用。本发明设计了图更新系数GUF来指导图更新,并不会完全删除结点,仅使结点权重降低,计算公式如下:
其中et,i代表t时刻对第i个结点的注意力强度,取值在0-1之间,如果et,i取值为0代表结点在t时刻未被使用因此不应被更新,如果et,i取值为1代表结点需要被更新的程度最大。ut,i是视觉哨门,控制更新的程度,在0到1之间,ut,i的值越高代表更新的程度越大。根据对变量取值的分析,GUF的取值在0.5-1之间。
使用GUF来指导图更新,GUF的取值决定了结点下一时刻被访问的程度,从而实现场景图更新。通过以下公式来更新图结点:
xt+1,i=GUF·xt,i (9)
根据对图更新系数GUF的分析,GUF的取值在0.5-1之间,即使更新程度最大,Xt+1也将更新为0.5Xt,并不会被设为0,即并不会被完全删除。因此更新的幅度比完全删除更小,结点保存的信息仍能在一定程度上起到指导句子生成的作用。
通过这种方式,我们将结点嵌入Xt更新为下一个解码步骤使用的Xt+1。
图3为基于场景图更新与特征拼接的图像字幕生成方法结构示意图。如图3所示,模型首先使用图卷积网络集成场景图中的信息得到Gm,经过注意力得到集成上下文信息zt。然后将得到的集成上下文信息输入特征拼接网络进行字幕生成。特征拼接网络包括两层LSTM结构,分别用来处理注意力信息和单词信息。并且本发明将全局图像编码嵌入已生成的单词嵌入wt-1与经过注意力LSTM所得的特征拼接后得到新特征作为语言LSTM的输入,以充分利用全局图像信息和嵌入信息。最后,在生成单词yt后,本发明通过图更新模块将结点嵌入Xt的权重更新,并根据本发明提出的图更新系数作为调整结点权重的依据,使下一时间步的结点Xt+1权重更为合理。
图4为单独使用特征拼接网络、单独使用场景图更新模块以及同时使用特征拼接网络和场景图更新模块的结果对比图。如图4所示,同时使用特征拼接网络和场景图更新模块对于图像字幕生成具有最好的性能,在生成语句的准确度、流畅度上的表现都得到了最高的指标值。
图5为基于场景图更新与特征拼接的图像字幕生成网络生成的字幕与其他模型生成字幕的对比图。如图5所示,基于场景图更新与特征拼接的图像字幕生成网络生成的句子要比图中其他模型更加准确。
本发明提出了一种基于场景图更新与特征拼接的图像字幕生成方法。首先,本发明提出了特征拼接网络,该网络对基线模型中语言LSTM的输入变量做了改进,目的是尽可能多地保留原始输入信息,减少输入信息在计算过程中的损失。其次,本发明提出了一种新的场景图更新机制来更新已访问过的结点权重,避免引起结点信息丢失的问题。同时,本发明设计了一个图更新系数来指导图更新,以确定更新程度的大小。有效解决了当前基于场景图的图像描述模型中长短期记忆神经网络丢失先前输入的细节信息的问题以及场景图更新机制中存在结点更新程度过大的问题。通过训练使得生成的字幕能够准确地描述图像的内容,并且语句流畅。
最后,本发明的上述示例的细节仅为解释说明本发明所做的举例,对于本领域技术人员,对上述实施例的任何修改、改进和替换等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.基于场景图更新与特征拼接的图像字幕生成方法,其特征在于,所述方法包括以下步骤:
S1.构建特征拼接网络。
S2.构建场景图更新模块。
S3.结合S1中的特征拼接网络、S2中的场景图更新模块构建基于场景图更新与特征拼接的图像字幕生成网络架构。
S4.基于场景图更新与特征拼接的图像字幕生成网络的训练和字幕生成。
2.根据权利要求1所述的构建特征拼接网络,其特征在于,所述S1的具体过程为:
首先使用在ImageNet上预训练的ResNet152来提取全局图像特征。本发明的特征拼接网络采用两层LSTM结构,包括注意力LSTM和语言LSTM。其中注意力LSTM表示视觉注意LSTM,作用是整合视觉信息以及隐藏层信息,并将自身计算得到的隐藏层信息作为模型注意力机制的一部分输入;语言LSTM表示用来生成语言的LSTM,实现顺序地预测单词生成的功能。为了充分利用视觉信息和单词嵌入信息指导句子的生成,本发明将全局图像编码嵌入、已生成的单词嵌入注入到语言LSTM中。
注意力LSTM在每个时间步中会接收输入图像的特征编码嵌入、词嵌入向量以及之前时间步的信息,注意力LSTM将以上输入的信息进行整合得到LSTM的隐藏状态,然后将输出的隐藏层信息作为注意力机制输入的一部分,计算得到上下文特征。最后,计算得出的上下文信息和注意力LSTM的隐藏状态一起作为模型语言LSTM的输入。另外,为了充分利用原始信息,本发明将全局图像编码嵌入已生成的单词嵌入wt-1与经过注意力LSTM所得的特征拼接后得到新特征作为语言LSTM的输入,得到语言LSTM的输出。最后,在t时刻要生成的单词yt由模型利用语言LSTM的隐藏状态预测得到,其具体公式如下:
其中是语言LSTM前一时刻的输出,是注意力LSTM前一时刻的输出,Attn为注意力操作,上下文向量zt经过Attn操作后得到。wt-1是已生成单词的嵌入,是全局编码嵌入,Wu是参数。在时间步长t处单词分布的概率如下:
其中Wp是学习权重,bp是偏差。句子概率分布计算公式如下:
3.根据权利要求1所述的场景图更新模块,其特征在于,所述S2的具体过程为:
在每一时间步生成单词yt后,将t时刻的结点嵌入Xt重新赋予权重,更新为下一时刻使用的Xt+1,即更新结点的访问状态。每个结点的访问强度用注意力分数αt来表示,当t时刻某一个结点注意力高时代表已经使用过当前结点,为了不重复使用,当前结点的权重应该被更新为较低的权重,注意力分数越高的结点下一时刻权重被降低的幅度应越大。
在生成一些特殊单词如“a”和“this”时,尽管访问了图结点,但这些单词是非可视的,此时不更新结点。因此,我们采用了自适应更新机制,用来修改注意力强度,如下所示:
其中,fvs是一个全连接网络,θvs是参数,该网络输出一个标量来表示当前注意的结点是否由已生成的单词表达的。
我们观察到在更新结点的过程中,结点权重有可能会直接被设置为0即完全被删除,虽然t时刻对注意力分数高的结点Xmax在t+1时刻关注程度应降低,但Xmax中的信息仍是有价值的,如果直接删除会导致结点保存的信息不能对后续生成单词起到任何指导作用。本发明设计了图更新系数GUF来指导图更新,并不会完全删除结点,仅使结点权重降低,计算公式如下:
其中et,i代表t时刻对第i个结点的注意力强度,取值在0-1之间,如果et,i取值为0代表结点在t时刻未被使用因此不应被更新,如果et,i取值为1代表结点需要被更新的程度最大。ut,i是视觉哨门,控制更新的程度,在0到1之间,ut,i的值越高代表更新的程度越大。根据对变量取值的分析,GUF的取值在0.5-1之间。
使用GUF来指导图更新,GUF的取值决定了结点下一时刻被访问的程度,从而实现场景图更新。通过以下公式来更新图结点:
xt+1,i=GUF·xt,i (9)
根据对图更新系数GUF的分析,GUF的取值在0.5-1之间,即使更新程度最大,Xt+1也将更新为0.5Xt,并不会被设为0,即并不会被完全删除。因此更新的幅度比完全删除更小,结点保存的信息仍能在一定程度上起到指导句子生成的作用。
通过这种方式,我们将结点嵌入Xt更新为下一个解码步骤使用的Xt+1。
4.根据权利要求1所述的基于场景图更新与特征拼接的图像字幕生成方法,其特征在于,所述S3的具体过程为:
所述的基于场景图更新与特征拼接的图像字幕生成网络包含一个特征拼接网络和一个场景图更新模块,网络使用在VisualGenome上预先训练的faster-RCNN来提取场景图结点的视觉特征,使用在ImageNet上预训练的ResNet152来提取全局图像特征。
5.根据权利要求1所述的基于场景图更新与特征拼接的图像字幕生成方法,其特征在于,所述S4的具体过程为:
基于场景图更新与特征拼接的图像字幕网络的训练方法如下:
在训练阶段,迭代周期设置为100,对于语言解码器,LSTM层的单词嵌入和隐藏层大小设置为512。初始学习率为0.0001,batch size设置为128,训练采用最小化交叉熵损失。在推理单词过程中,我们使用beam search,设置beam size为5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111283716.3A CN113918754A (zh) | 2021-11-01 | 2021-11-01 | 基于场景图更新与特征拼接的图像字幕生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111283716.3A CN113918754A (zh) | 2021-11-01 | 2021-11-01 | 基于场景图更新与特征拼接的图像字幕生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113918754A true CN113918754A (zh) | 2022-01-11 |
Family
ID=79244885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111283716.3A Pending CN113918754A (zh) | 2021-11-01 | 2021-11-01 | 基于场景图更新与特征拼接的图像字幕生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113918754A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972774A (zh) * | 2022-04-20 | 2022-08-30 | 平安科技(深圳)有限公司 | 特定区域的图像描述生成方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180143966A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial Attention Model for Image Captioning |
CN110135567A (zh) * | 2019-05-27 | 2019-08-16 | 中国石油大学(华东) | 基于多注意力生成对抗网络的图像字幕生成方法 |
CN111462282A (zh) * | 2020-04-02 | 2020-07-28 | 哈尔滨工程大学 | 一种场景图生成方法 |
CN111741236A (zh) * | 2020-08-24 | 2020-10-02 | 浙江大学 | 基于共识图表征推理的定位自然图像字幕生成方法和装置 |
CN112116685A (zh) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 |
CN113052784A (zh) * | 2021-03-22 | 2021-06-29 | 大连理工大学 | 一种基于多辅助信息下的图像生成方法 |
CN113449741A (zh) * | 2021-07-02 | 2021-09-28 | 西安交通大学 | 一种基于语义推断和图像理解的遥感影像定位方法及系统 |
CN113569932A (zh) * | 2021-07-18 | 2021-10-29 | 湖北工业大学 | 一种基于文本层级结构的图像描述生成方法 |
-
2021
- 2021-11-01 CN CN202111283716.3A patent/CN113918754A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180143966A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial Attention Model for Image Captioning |
CN110135567A (zh) * | 2019-05-27 | 2019-08-16 | 中国石油大学(华东) | 基于多注意力生成对抗网络的图像字幕生成方法 |
CN111462282A (zh) * | 2020-04-02 | 2020-07-28 | 哈尔滨工程大学 | 一种场景图生成方法 |
CN111741236A (zh) * | 2020-08-24 | 2020-10-02 | 浙江大学 | 基于共识图表征推理的定位自然图像字幕生成方法和装置 |
CN112116685A (zh) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 |
CN113052784A (zh) * | 2021-03-22 | 2021-06-29 | 大连理工大学 | 一种基于多辅助信息下的图像生成方法 |
CN113449741A (zh) * | 2021-07-02 | 2021-09-28 | 西安交通大学 | 一种基于语义推断和图像理解的遥感影像定位方法及系统 |
CN113569932A (zh) * | 2021-07-18 | 2021-10-29 | 湖北工业大学 | 一种基于文本层级结构的图像描述生成方法 |
Non-Patent Citations (1)
Title |
---|
段海龙;吴春雷;王雷全: "基于类时序注意力机制的图像描述方法", 计算机系统应用, no. 007, 31 December 2021 (2021-12-31) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972774A (zh) * | 2022-04-20 | 2022-08-30 | 平安科技(深圳)有限公司 | 特定区域的图像描述生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020244287A1 (zh) | 一种图像语义描述的生成方法 | |
CN111160467B (zh) | 一种基于条件随机场和内部语义注意力的图像描述方法 | |
US11714879B2 (en) | Method and device for behavior control of virtual image based on text, and medium | |
CN110209817B (zh) | 文本处理模型的训练方法、装置和文本处理方法 | |
CN110210032B (zh) | 文本处理方法及装置 | |
CN109767759A (zh) | 基于改进型cldnn结构的端到端语音识别方法 | |
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN108665506A (zh) | 图像处理方法、装置、计算机存储介质及服务器 | |
CN108416058A (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN111325323A (zh) | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 | |
CN110457661B (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN109214006A (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN113408430B (zh) | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 | |
CN110688861A (zh) | 一种多特征融合的句子级译文质量估计方法 | |
CN116415170A (zh) | 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质 | |
CN110750652A (zh) | 结合上下文实体词和知识的故事结局生成方法 | |
CN110516724A (zh) | 可视化作战场景的高性能多层字典学习特征图像处理方法 | |
CN115827838A (zh) | 基于故事续写和动态知识库的对话生成方法及系统 | |
CN117216234A (zh) | 基于人工智能的话术改写方法、装置、设备及存储介质 | |
CN117521672A (zh) | 一种基于扩散模型的长文本生成连续图片的方法 | |
CN113918754A (zh) | 基于场景图更新与特征拼接的图像字幕生成方法 | |
CN112116685A (zh) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 | |
CN117522697A (zh) | 一种人脸图像生成方法、系统及模型训练方法 | |
CN117390151A (zh) | 结构健康诊断视觉-语言基础模型和多模态交互系统的建立方法 | |
CN114880527B (zh) | 一种基于多预测任务的多模态知识图谱表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |