CN113628288B - 一种基于编-解码器结构的可控图像字幕生成优化方法 - Google Patents

一种基于编-解码器结构的可控图像字幕生成优化方法 Download PDF

Info

Publication number
CN113628288B
CN113628288B CN202110761130.7A CN202110761130A CN113628288B CN 113628288 B CN113628288 B CN 113628288B CN 202110761130 A CN202110761130 A CN 202110761130A CN 113628288 B CN113628288 B CN 113628288B
Authority
CN
China
Prior art keywords
image
network
optimizing
subtitle
evaluation index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110761130.7A
Other languages
English (en)
Other versions
CN113628288A (zh
Inventor
邵洁
杨润霞
马潇雨
罗岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Electric Power University
Original Assignee
Shanghai Electric Power University
Filing date
Publication date
Application filed by Shanghai Electric Power University filed Critical Shanghai Electric Power University
Priority to CN202110761130.7A priority Critical patent/CN113628288B/zh
Publication of CN113628288A publication Critical patent/CN113628288A/zh
Application granted granted Critical
Publication of CN113628288B publication Critical patent/CN113628288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种基于编‑解码器结构的可控图像字幕生成优化方法,该方法包括:构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;采用排序网络对目标区域进行排序;构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕。与现有技术相比,本发明字幕生成可控性高,生成的字幕的描述更具有多样性,能够应用到复杂的场景中。

Description

一种基于编-解码器结构的可控图像字幕生成优化方法
技术领域
本发明涉及一种图像字幕生成方法,尤其是涉及一种基于编-解码器结构的可控图像字幕生成优化方法。
背景技术
随着信息技术与人类生产生活的交汇融合,互联网在人类日常生活中得到快速普及,越来越多的数据在互联网终端产生,全球数据呈现爆炸式增长。图像和文本作为数据重要的表达方式,图像生动形象,能够给人留下形象深刻的印象,而文本概括性高,能够以简练的形式描绘并传递信息,这两者也分别代表了深度学习的两大领域,计算机视觉和自然语言处理。而图像字幕生成很好地建立了计算机视觉领域和自然语言处理领域的桥梁,使用自然语言对图像进行描述,实现图像的语义理解。
近几年,随着机器翻译以及大数据的兴起,已经出现了图像字幕生成的热潮,它的主流方法是基于编码器-解码器结构的深度学习,利用编码器提取图像特征,利用解码器来生成图像对应的描述文本。然而现有的绝大部分研究方法仍缺乏可控性和可解释性。在实际应用情景中,我们需要能够根据目标和上下文,用多种不同的方式来描述同一张图像。
因此,如何增加生成过程的可控性,根据需要生成相应的描述成为图像字幕的一个新的研究方向。而且该方向明显具有更大的应用潜力和实用价值。不仅可以实现更好的交互性、可解释性,同时也使得生成的描述更具有多样性,能够应用到复杂的场景中。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于编-解码器结构的可控图像字幕生成优化方法。
本发明的目的可以通过以下技术方案来实现:
一种基于编-解码器结构的可控图像字幕生成优化方法,该方法包括:
构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;
采用排序网络对目标区域进行排序;
构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕。
优选地,所述的图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器,所述的第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。
优选地,所述的第一网络包括Faster R-CNN网络。
优选地,所述的第二网络包括VC R-CNN网络。
优选地,所述的图像解码器采用改进激活函数的LSTM神经网络,改进的激活函数为m-Tanh激活函数,表示为:
其中,x为输入,H(x)为输出,m为常数
优选地,利用m-Tanh激活函数更新LSTM神经网络细胞状态的具体方式为:
其中,xt为t时刻输入的目标区域的特征向量,ht-1为t-1时刻隐藏层的状态,Wc分别表示网络的权重和偏差参数,ft、it分别表示t时刻的遗忘门向量和输入门向量,Ct-1、Ct分别表示t-1时刻、t时刻的细胞状态更新向量,/>分别表示t-1时刻、t时刻的细胞状态初始向量。
优选地,利用m-Tanh激活函数更新LSTM神经网络隐藏层状态的具体方式为:
其中,ht为t时刻隐藏层的状态,ot为t时刻输出门向量。
优选地,当采用不同的图像编码器、排序网络、图像解码器生成不同的图像字幕后,多分枝决策输出算法来选出最优的图像字幕。
优选地,多分枝决策输出算法具体为:
对各情况下输出的图像字幕进行评价获取评价指标向量;
基于评价指标向量对图像字幕两两进行比对,选出最优的图像字幕。
优选地,对图像字幕两两比对的具体方式为:
对评价指标向量中的每个指标进行对比,若第一图像字幕中的各个评价指标均大于第二图像字幕的各个评价指标,则优选第一图像字幕,若第二图像字幕中的各个评价指标均小于第二图像字幕的各个评价指标,则优选第二图像字幕,否则,根据各个评价指标的重要程度为各个评价指标设置权重,对评价指标向量中的评价指标进行加权求和,优选加权求和结果较大的图像字幕。
与现有技术相比,本发明具有如下优点:
(1)本发明对图像编码器进行改进,将两种网络进行融合,分别提取图像一般性特征和图像视觉常识性特征,这两种特征具有互补的作用,可以很好地实现对图像信息的提取,由于图像字幕的生成主要依赖于提取的图像特征,因此采用改进后的图像编码器可以得到描述更为准确的图像字幕;
(2)本发明采用排序网络对目标区域进行排序,从而可以实现对图像区域描述顺序的控制,提高图像字幕的准确性;
(3)本发明对图像解码器进行改进,采用m-Tanh激活函数更新LSTM神经网络细胞状态以及隐藏层状态,此种方式使得图像解码器相比传统的采用LSTM神经网络的解码器,在训练时具有更快的收敛速度,且可以有效地缓解梯度消失问题,从而使得生成的图像字幕准确性更高且控制性能更好;
(4)本发明设计多分枝决策输出算法优选图像字幕,从而能根据不同场景获取最优的图像字幕,具有可控性。
附图说明
图1为本发明一种基于编-解码器结构的可控图像字幕生成优化方法的实施流程框图;
图2为本发明采用改进激活函数的LSTM神经网络的结构示意图;
图3为本发明多分枝决策输出算法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
如图1所示,本实施例提供一种基于编-解码器结构的可控图像字幕生成优化方法,该方法包括:
构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;
采用排序网络对目标区域进行排序;
构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕。
图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器,第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。其中,第一网络包括Faster R-CNN网络,第二网络包括VC R-CNN网络。两个网络分别提取了图像的2048维的一般性特征和1024维的常识性特征后,再将其进行拼接得到3072维的图像特征,并检测到一组目标区域R=[r0,r1,...,rN]。
排序网络采用现有的网络结构,将FVC R-CNN输出的目标特征表示,对每个区域类别的嵌入,归一化之后的目标框的位置和大小进行拼接,再通过全连接层进行处理映射得到一个3维的描述向量,当对所有的region进行处理之后,就得到了一个3*3的矩阵,接下来就可以通过Sinkhorn操作将其转化为一个“soft”排列矩阵P,具体就是执行L(在我们的实验中L=20)次连续的行归一化和列归一化。当经过L次处理之后,通过Hungarian算法将结果转换为排列矩阵,就得到了排好序的区域表示,并将其作为解码器的输入。
图像解码器采用改进激活函数的LSTM神经网络,具体结构如图2所示,改进的激活函数为m-Tanh激活函数,表示为:
其中,x为输入,H(x)为输出,m为常数
利用m-Tanh激活函数更新LSTM神经网络细胞状态的具体方式为:
其中,xt为t时刻输入的目标区域的特征向量,ht-1为t-1时刻隐藏层的状态,Wc分别表示网络的权重和偏差参数,ft、it分别表示t时刻的遗忘门向量和输入门向量,Ct-1、Ct分别表示t-1时刻、t时刻的细胞状态更新向量,/>分别表示t-1时刻、t时刻的细胞状态初始向量。
利用m-Tanh激活函数更新LSTM神经网络隐藏层状态的具体方式为:
其中,ht为t时刻隐藏层的状态,ot为t时刻输出门向量。
在编码器部分使用两层的MT-LSTM神经网络模型来生成可控的图像字幕y=[y0,y1,...,yN]。为了使生成的句子更好的与检测到的图像区域相对应,我们将一个句子分解成不同的名词块序列,每个名词块对应一个图像区域。此外,使用块移位门来预测块的结束,然后采用带有视觉哨兵的自适应注意机制来区分视觉词和文本词,块移位门模型与自适应注意力模型共同作用将生成的名词块与图像区域建立联系。其中,块移位门表示为:
当采用不同的图像编码器、排序网络、图像解码器生成不同的图像字幕后,多分枝决策输出算法来选出最优的图像字幕。
多分枝决策输出算法具体为:
对各情况下输出的图像字幕进行评价获取评价指标向量;
基于评价指标向量对图像字幕两两进行比对,选出最优的图像字幕。
对图像字幕两两比对的具体方式为:
对评价指标向量中的每个指标进行对比,若第一图像字幕中的各个评价指标均大于第二图像字幕的各个评价指标,则优选第一图像字幕,若第二图像字幕中的各个评价指标均小于第二图像字幕的各个评价指标,则优选第二图像字幕,否则,根据各个评价指标的重要程度为各个评价指标设置权重,对评价指标向量中的评价指标进行加权求和,优选加权求和结果较大的图像字幕。
具体地,如图3所示,本实施例中评价指标包括Bleu_4,ROUGE,METEOR,Cider,SPICE,NW,各个评价指标Bleu_4,ROUGE,METEOR,Cider,SPICE,NW一起作为一个向量,即V=[Bleu_4,ROUGE,METEOR,Cider,SPICE,NW]。其中,Bleu_4表示译文和参考译文之间n组词的相似的一个占比;ROUGE基于字的对应表示参考译文和待测译文的共现概率,与Bleu_4类似;METEOR基于顺序表示参考译文和待测译文的共现统计;Cider表示得到的候选句子和参考句子的相似度;SPICE表示使用基于图的语义表示来编码字幕中的目标分布和关系;NW表示描述内容与区域序列的一致性。
然后,针对模型改进前后两种情况,我们可以得到向量V1和V2,分别代表了模型改进前后的评价指标结果向量,如果V1中的每个元素都小于V2,则选择第二种情况;如果V1中的每个元素都大于V2,则选择第一种情况。否则,我们令V1=[v11,v12,v13,v14,v15,v16],V2=[v21,v22,v23,v24,v25,v26],根据每个评价指标重要程度的不同分别设置不同的权重,最后分别计算V1和V2的最终得分,即:
如果sum1>=sum2,选择第一种情况,否则,选择第二种情况。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (9)

1.一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,该方法包括:
构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;
采用排序网络对目标区域进行排序;
构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕;
所述的图像解码器采用改进激活函数的LSTM神经网络,改进的激活函数为m-Tanh激活函数,表示为:
其中,x为输入,H(x)为输出,m为常数。
2.根据权利要求1所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,所述的图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器,所述的第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。
3.根据权利要求2所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,所述的第一网络包括Faster R-CNN网络。
4.根据权利要求2所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,所述的第二网络包括VC R-CNN网络。
5.根据权利要求1所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,利用m-Tanh激活函数更新LSTM神经网络细胞状态的具体方式为:
其中,xt为t时刻输入的目标区域的特征向量,ht-1为t-1时刻隐藏层的状态,Wc分别表示网络的权重和偏差参数,ft、it分别表示t时刻的遗忘门向量和输入门向量,Ct-1、Ct分别表示t-1时刻、t时刻的细胞状态更新向量,/>分别表示t-1时刻、t时刻的细胞状态初始向量。
6.根据权利要求5所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,利用m-Tanh激活函数更新LSTM神经网络隐藏层状态的具体方式为:
其中,ht为t时刻隐藏层的状态,ot为t时刻输出门向量。
7.根据权利要求1所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,当采用不同的图像编码器、排序网络、图像解码器生成不同的图像字幕后,多分枝决策输出算法来选出最优的图像字幕。
8.根据权利要求7所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,多分枝决策输出算法具体为:
对各情况下输出的图像字幕进行评价获取评价指标向量;
基于评价指标向量对图像字幕两两进行比对,选出最优的图像字幕。
9.根据权利要求8所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,对图像字幕两两比对的具体方式为:
对评价指标向量中的每个指标进行对比,若第一图像字幕中的各个评价指标均大于第二图像字幕的各个评价指标,则优选第一图像字幕,若第二图像字幕中的各个评价指标均小于第二图像字幕的各个评价指标,则优选第二图像字幕,否则,根据各个评价指标的重要程度为各个评价指标设置权重,对评价指标向量中的评价指标进行加权求和,优选加权求和结果较大的图像字幕。
CN202110761130.7A 2021-07-06 一种基于编-解码器结构的可控图像字幕生成优化方法 Active CN113628288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110761130.7A CN113628288B (zh) 2021-07-06 一种基于编-解码器结构的可控图像字幕生成优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110761130.7A CN113628288B (zh) 2021-07-06 一种基于编-解码器结构的可控图像字幕生成优化方法

Publications (2)

Publication Number Publication Date
CN113628288A CN113628288A (zh) 2021-11-09
CN113628288B true CN113628288B (zh) 2024-05-31

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
CN111753078A (zh) * 2019-07-12 2020-10-09 北京京东尚科信息技术有限公司 图像段落描述生成方法、装置、介质及电子设备
CN112560454A (zh) * 2020-12-22 2021-03-26 广东工业大学 双语图像字幕生成方法、系统、储存介质及计算机设备
CN113052090A (zh) * 2021-03-30 2021-06-29 京东数字科技控股股份有限公司 用于生成字幕器以及输出字幕的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
CN111753078A (zh) * 2019-07-12 2020-10-09 北京京东尚科信息技术有限公司 图像段落描述生成方法、装置、介质及电子设备
CN112560454A (zh) * 2020-12-22 2021-03-26 广东工业大学 双语图像字幕生成方法、系统、储存介质及计算机设备
CN113052090A (zh) * 2021-03-30 2021-06-29 京东数字科技控股股份有限公司 用于生成字幕器以及输出字幕的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于图深度学习的图像描述技术研究;王振;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210215(第02期);第3-5章 *

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
Cheng et al. Fully convolutional networks for continuous sign language recognition
CN110825845B (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN107480206B (zh) 一种基于多模态低秩双线性池化的图像内容问答方法
CN110795556A (zh) 一种基于细粒度插入式解码的摘要生成方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN111598183A (zh) 一种多特征融合图像描述方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
Zhang et al. A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews
CN110084297A (zh) 一种面向小样本的影像语义对齐结构
CN111274412A (zh) 信息提取方法、信息提取模型训练方法、装置及存储介质
CN110489551A (zh) 一种基于写作习惯的作者识别方法
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN115374325A (zh) 网站分类方法、装置、分类设备及存储介质
Guo et al. NUAA-QMUL at SemEval-2020 task 8: Utilizing BERT and DenseNet for Internet meme emotion analysis
CN114048290A (zh) 一种文本分类方法及装置
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN111428801B (zh) 改进融合层与损失函数交替更新的图文匹配方法
CN113628288B (zh) 一种基于编-解码器结构的可控图像字幕生成优化方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant