CN112884019A - 一种基于融合门循环网络模型的图像转语言方法 - Google Patents

一种基于融合门循环网络模型的图像转语言方法 Download PDF

Info

Publication number
CN112884019A
CN112884019A CN202110123810.6A CN202110123810A CN112884019A CN 112884019 A CN112884019 A CN 112884019A CN 202110123810 A CN202110123810 A CN 202110123810A CN 112884019 A CN112884019 A CN 112884019A
Authority
CN
China
Prior art keywords
image
vector
gate
output
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110123810.6A
Other languages
English (en)
Other versions
CN112884019B (zh
Inventor
周自维
王朝阳
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Liaoning USTL
Original Assignee
University of Science and Technology Liaoning USTL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Liaoning USTL filed Critical University of Science and Technology Liaoning USTL
Priority to CN202110123810.6A priority Critical patent/CN112884019B/zh
Publication of CN112884019A publication Critical patent/CN112884019A/zh
Application granted granted Critical
Publication of CN112884019B publication Critical patent/CN112884019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于融合门循环网络模型的图像转语言方法,包括:将图像数据集中的图像随机纳入训练集,将训练集中的图像数据进行预处理获得适应卷积网络尺寸的图像和包含所有词向量的集合,并将预处理后的图像进行卷积得到图像输出向量;将图像输出向量与集合中的起始符合并作为融合门循环网络模型的输入,进入融合门循环网络模型后经过t0时间步产生第一隐藏层输出;将第一隐藏层输出与集合中的第一个词向量合并作为t1时间步的输入,进入融合门循环网络模型经过t1时间步获得第二隐藏层输出,如此循环迭代直至集合中所有词向量全部参与循环迭代过程,融合门循环网络模型训练完成;将待处理图像输入到训练完成的融合门循环网络模型中生成语言信息。

Description

一种基于融合门循环网络模型的图像转语言方法
技术领域
本发明涉及图像识别技术领域,具体涉及一种基于融合门循环网络模型的图像转语言方法。
背景技术
图像理解是计算机视觉领域研究中的核心和热点问题,该问题的核心是如何将一幅图像转化成一句话,这句话就描述了这幅图像的内容。使用计算机程序达到类似的效果面临诸多问题,因为图像理解需要考虑多方面的因素,比如如何利用图像的特征信息、如何将理解的知识转换成一段文字描述以及如何将这些过程转换成逻辑代码,对于传统的计算机算法而言,实现这项工作的难度巨大。
发明内容
鉴于现有技术存在的上述问题,本发明提供一种基于融合门循环网络模型的图像转语言方法,所采用的网络模型以编码器-解码器作为整体结构框架,并将注意力机制嵌入到语言模型之中,该网络模型是图像的空间信息与时间信息的融合,相对于以前的研究,本发明在实现图像理解上的效果更好,速度更快。本发明的技术方案为:
一种基于融合门循环网络模型的图像转语言方法,包括:
(1)将图像数据集中的图像随机纳入训练集,将训练集中的图像数据进行预处理获得适应卷积网络尺寸的图像和包含所有词向量的集合,并将预处理后的图像进行卷积得到图像输出向量;
(2)将所述图像输出向量与所述集合中的起始符合并作为融合门循环网络模型的输入,进入所述融合门循环网络模型后经过t0时间步产生第一隐藏层输出;将所述第一隐藏层输出与所述集合中的第一个词向量合并作为t1时间步的输入,进入所述融合门循环网络模型经过t1时间步获得第二隐藏层输出,如此循环迭代直至所述集合中所有词向量全部参与循环迭代过程,融合门循环网络模型训练完成;
(3)将待处理图像输入到训练完成的融合门循环网络模型中生成语言信息。
可选地,所述步骤(1)中图像数据集为MSCOCO2014数据集或者MSCOCO2017数据集。
进一步地,所述步骤(1)中将训练集中的图像数据进行预处理,包括:
(1-1)将每一张图像处理成224×224大小,并将每张图像中的每一个自然语言语句与该图像成对保存,一个图像-自然语言语句作为一个图像理解数据;
(1-2)获取所有图像理解数据中具有最长序列的自然语言语句的长度,然后采用填充符将剩下的自然语言语句的序列填充至该长度,并且重新保存填充完毕的图像理解数据;
(1-3)统计所有自然语言语句中出现5次以上的单词,依次去重、排序后统计单词总个数k,给予每个单词唯一的序号,将所有自然语言语句转变为序号序列,并用维度大小为k×1的列向量d表示所有单词,列向量中对应单词序号的位置置为1,其余置为0,将该列向量送入维度大小为k×512词嵌入矩阵Wd中转换成维度大小为512的向量,一个这样的向量称为词向量x,x=dTWd;该词向量x作为循环神经网络的输入。
进一步地,所述步骤(2)中融合门循环网络模型包括:输入门、融合门和输出门;所述输入门作为所述融合门循环网络模型的输入通道;所述融合门用于合并后向量的循环迭代并产生隐藏状态;所述输出门包括中间输出门和最终输出门,所述中间输出门用于控制每次迭代产生的隐藏状态是否应用本时间步记忆细胞信息,所述最终输出门用于输出每次迭代产生的隐藏状态相匹配的词向量,该词向量组成图像转化后的语言。
优选地,所述融合门中设有监听门,所述监听门用于监测循环迭代过程中图像输出向量的使用比例。
进一步地,所述循环迭代过程具体包括:
(2-1)生成每一次迭代各个时间步的隐藏状态ht
利用t-1时间步获得的隐藏状态ht-1和t时间步的词向量xt计算出该时间步的隐藏状态ht,具体涉及的计算公式如下:
it=σ(xt*Wx+ht-1*Wh+bi), I
ft=σ(xt*Wx+ht-1*Wh+bf), II
ot=σ(xt*Wx+ht-1*Wh+bo), III
Figure BDA0002923177380000031
Figure BDA0002923177380000032
ht=ot·tanh(ct), VI
式子I~VI中,σ代表sigmoid激活函数,公式为1/(1+e-x),阈值为(0,1);tanh激活函数公式代表(1-e-2x)/(1+e-2x);*代表矩阵相乘;·代表按元素相乘;it、ft、ot分别为输入门、遗忘门和输出门;
Figure BDA0002923177380000033
表示候选的记忆细胞信息;ct表示记忆细胞信息;Wx和Wh均是可学习的权重系数;其余均为可学习的偏置系数;
(2-2)生成用于各个时间步预测模型输出词的向量ht
(2-2-1)利用t-1时间步获得的隐藏状态ht-1和t时间步的词向量xt计算监听门pt的数值,pt的计算公式如下:
pt=σ(xt*Wx+ht-1*Wh+bp), VII
式VII中,xt代表t时刻标注语句词向量输入层的词向量;bp为可学习的偏置系数;0<pt<1;
(2-2-2)进一步计算迭代过程中t时间步需要使用的图像信息和语义向量在两者汇总中各自占的比例值,所述图像信息包括图像输出向量Vg和当前时间步的隐藏层输出信息,所述语义向量包括记忆细胞信息ct和当前时间步的隐藏层输出信息,计算公式如下:
at=(pt·tanh(ct))*Wac+ht*Wah, VIII
et=Vg*Wv+ht*Wh, IX
Figure BDA0002923177380000041
Figure BDA0002923177380000042
式VIII~XI中,at代表t时刻可用的语义向量;ht代表t时刻的获得的隐藏层输出信息;et代表t时刻可用的图像向量;Vg代表图像的全局向量;
Figure BDA0002923177380000043
代表中间变量,
Figure BDA0002923177380000044
代表二维向量,其第二个维度的值就是下文的β;其余均是可学习的权重系数。
(2-2-3)进一步计算t时间步的上下文向量ut,计算公式为:
ut=(1-β)·(pt·tanh(ct))+β·Vg, XII
式XII中,β为图像输出向量的使用比例;
(2-2-4)利用t时间步的隐藏状态ht和ut计算最终用于预测t时间步输出词的向量h′t,计算公式如下:
h′t=(ht+ut)*Wh′, XIII
(2-3)获得各个时间步的输出词序号
在每一个时间步,将预测当前时间步输出词的向量h′t代入softmax计算获得词向量集合中所有词向量作为当前时间步输出词向量时所占的概率,然后将概率最大的词向量作为当前时间步的输出词;直到预测出结束符后结束。
可选地,所述循环迭代次数为8~10万次。
优选地,所述循环迭代次数9万次。
本发明的有益效果是:
本发明可以针对任意一张输入图像将其转换成英文语言进行描述。测试结果表明:采用业界最权威的CIDEr评价指标来评估本发明方法获得的图像理解预测结果,其CIDEr值比Neural Talk网络提高10.56%,其他相关评价指标均有较大提高。因此,本发明不但预测指标高,而且网络参数比“注意力机制”网络参数少21.1%,算法运行需要的计算机资源更少,使用2G显存的NVIDIA Quadro P620 GPU即可完成图像理解的预测,这种结构也使得将该神经网络部署到移动处理器中成为可能,对推动图像理解的广泛使用起到关键作用。
附图说明
图1是本发明的基于融合门循环网络模型的图像转语言方法的流程设计框架。
图2是本发明的融合门循环网络模型的结构示意图。
图3是融合门循环网络模型训练过程中的损失曲线图。
图4是融合门循环网络模型训练过程中B-1、B-2、B-3和B-4评价指标变化曲线图。
图5是融合门循环网络模型训练过程中METEOR、ROUGE、CIDEr和SPICE评价指标变化曲线。
图6是本发明实施例1中预测结果I。
图7是本发明实施例1中预测结果II。
图8是本发明实施例1中预测结果III。
图9是本发明实施例1中预测结果IV。
图10是本发明实施例1中预测结果V。
图11是本发明实施例1中预测结果VI。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
如图1所示,本实施例提供一种基于融合门循环网络模型的图像转语言方法,具体操作如下:
步骤1,将图像数据集中的图像随机分为训练集和测试集,将训练集中的图像数据进行预处理获得适应卷积网络尺寸的图像和包含所有词向量的集合,并将预处理后的图像输入VGGNet-16卷积神经网络进行卷积得到图像输出向量。
在本实施例中,使用的图像数据集为MSCOCO 2014数据集,该数据集包含80000多张训练数据集和40000多张验证数据集。其中,数据集中每一幅图像大多都是尺寸为256×256的彩色图像,并且每一幅图像都对应5句长短不一的英文图像描述。先将该图像数据集中的图像打乱,随机选取5000张图像用于验证,5000张图像用于测试,其余图像用于训练模型。在模型训练的过程中,每迭代1万次时使用3200张验证图像对模型进行一次验证与评估,获得评估结果,并在迭代10万次后停止训练该模型。在模型测试过程中,使用3200张测试集中的图像作为输入,获得模型的最终评估结果。
该步骤中将训练集中的图像数据进行预处理的过程具体包括:
步骤1-1,将每一张图像处理成224×224大小,并将每张图像中的每一个自然语言语句与该图像成对保存,一个图像-自然语言语句作为一个图像理解数据;
步骤1-2,获取所有图像理解数据中具有最长序列的自然语言语句的长度,然后采用填充符将剩下的自然语言语句的序列填充至该长度,并且重新保存填充完毕的图像理解数据;
步骤1-3,统计所有自然语言语句中出现5次以上的单词,依次去重、排序后统计单词总个数k,给予每个单词唯一的序号,将所有自然语言语句转变为序号序列,并用维度大小为k×1的列向量d表示所有单词,列向量中对应单词序号的位置置为1,其余置为0,将该列向量送入维度大小为k×512词嵌入矩阵Wd中转换成维度大小为512的向量,一个这样的向量称为词向量x,x=dTWd;该词向量x作为循环神经网络的输入。
步骤2,开始模型训练,将所述图像输出向量与所述集合中的起始符合并作为融合门循环网络模型的输入,进入所述融合门循环网络模型后经过t0时间步产生第一隐藏层输出;将所述第一隐藏层输出与所述集合中的第一个词向量合并作为t1时间步的输入,进入所述融合门循环网络模型经过t1时间步获得第二隐藏层输出,如此循环迭代直至所述集合中所有词向量全部参与循环迭代过程,融合门循环网络模型训练完成。
在上述的模型训练过程中,实际采用了不同配置的服务器验证不同阶段的功能。在图像理解的测试阶段,使用配置最低的NVIDIA Quadro P620 GPU服务器测试不同算法的预测效果,其目的是确定网络运行所需的最小计算机配置;而在数据集的训练和评估阶段,使用性能更好的NVIDIA Titan X GPU服务器完成训练与评估。实验中尝试了多种网络的改进方法,尽管多数方案的评估效果不理想,但是在多次尝试中逐渐找到更好的方向,对图像理解有了更深入的理解。
网络训练中,采用一种新的融合门循环网络模型,其结构如图2所示,该网络模型包括:输入门、融合门和输出门;所述输入门作为所述融合门循环网络模型的输入通道;所述融合门用于合并后向量的循环迭代并产生隐藏状态;所述输出门包括中间输出门和最终输出门,所述中间输出门用于控制每次迭代产生的隐藏状态是否应用本时间步记忆细胞信息,所述最终输出门用于输出每次迭代产生的隐藏状态相匹配的词向量,该词向量组成图像转化后的语言。所述融合门中设有监听门,所述监听门用于监测循环迭代过程中图像输出向量的使用比例。将该网络模型设置10万次迭代,总训练时间约87个小时。设置每次迭代读取图像的批量大小为64,使用学习率为4E-4的Adam优化算法来对模型进行训练,同时在模型中适当的添加丢弃层(Dropout Layer)来避免模型出现过拟合的现象。为避免卷积神经网络对模型的影响,所有实验中未对其网络参数进行微调,采用有监督学习且端到端的方式训练模型,使得模型能更快的获得较优的结果。其循环迭代过程具体包括:
步骤2-1,生成每一次迭代各个时间步的隐藏状态ht
利用t-1时间步获得的隐藏状态ht-1和t时间步的词向量xt计算出该时间步的隐藏状态ht,具体涉及的计算公式如下:
it=σ(xt*Wx+ht-1*Wh+bi), I
ft=σ(xt*Wx+ht-1*Wh+bf), II
ot=σ(xt*Wx+ht-1*Wh+bo), III
Figure BDA0002923177380000081
Figure BDA0002923177380000082
ht=ot·tanh(ct), VI
式子I~VI中,σ代表sigmoid激活函数,公式为1/(1+e-x),阈值为(0,1);tanh激活函数公式代表(1-e-2x)/(1+e-2x);*代表矩阵相乘;·代表按元素相乘;it、ft、ot分别为输入门、遗忘门和输出门;
Figure BDA0002923177380000083
表示候选的记忆细胞信息;ct表示记忆细胞信息;Wx和Wh均是可学习的权重系数;其余均为可学习的偏置系数;
步骤2-2,生成用于各个时间步预测模型输出词的向量h′t
步骤2-2-1,利用t-1时间步获得的隐藏状态ht-1和t时间步的词向量xt计算监听门pt的数值,pt的计算公式如下:
pt=σ(xt*Wx+ht-1*Wh+bp), VII
式VII中,xt代表t时刻标注语句词向量输入层的词向量;bp为可学习的偏置系数;0<pt<1;
步骤2-2-2,进一步计算迭代过程中t时间步需要使用的图像信息和语义向量在两者汇总中各自占的比例值,所述图像信息包括图像输出向量Vg和当前时间步的隐藏层输出信息,所述语义向量包括记忆细胞信息ct和当前时间步的隐藏层输出信息,计算公式如下:
at=(pt·tanh(ct))*Wac+ht*Wah, VIII
et=Vg*Wv+ht*Wh, IX
Figure BDA0002923177380000084
Figure BDA0002923177380000085
式VIII~XI中,at代表t时刻可用的语义向量;ht代表t时刻的获得的隐藏层输出信息;et代表t时刻可用的图像向量;Vg代表图像的全局向量;
Figure BDA0002923177380000086
代表中间变量,
Figure BDA0002923177380000087
代表二维向量,其第二个维度的值就是下文的β;其余均是可学习的权重系数。
步骤2-2-3,进一步计算t时间步的上下文向量ut,计算公式为:
ut=(1-β)·(pt·tanh(ct))+β·Vg, XII
式XII中,β为图像输出向量的使用比例;
步骤2-2-4,利用t时间步的隐藏状态ht和ut计算最终用于预测t时间步输出词的向量h′t,计算公式如下:
h′t=(ht+ut)*Wh′, XIII
步骤2-3,获得各个时间步的输出词序号
在每一个时间步,将预测当前时间步输出词的向量h′t代入softmax计算获得词向量集合中所有词向量作为当前时间步输出词向量时所占的概率,然后将概率最大的词向量作为当前时间步的输出词;直到预测出结束符后结束。
在模型训练的过程中,每迭代200次时记录一次训练损失,每迭代10000次时使用验证集中的3200张验证图像对模型进行一次验证与评估,获得评估结果,在迭代10万次后停止训练该模型,模型训练过程中的损失曲线如图3所示。并且循环迭代过程采用梯度下降算法修正损失函数,所述梯度下降算法的参数迭代公式如下:
Figure BDA0002923177380000091
式XIV中,α称为学习率,学习率用来控制函数值下降的步长;θj为某一权重或偏差;θ表示所有权重和偏差;L(θ)表示以θ为变量的损失函数。
所述损失函数为交叉熵损失函数:
Figure BDA0002923177380000092
式XV中,y为样本真实标签,
Figure BDA0002923177380000093
为预测结果。
在本实施例中,针对模型训练过程中的验证与评估,采用coco-caption代码计算5种不同的评价指标,分别是BLEU1-4、ROUGE、METEOR、SPICE和CIDEr评价指标。
BLEU关注准确率,它是一种通过对比预测序列中的n元组在真实标签中出现的次数来分析文本相似性的一种评价指标;ROUGE关注召回率,它是一种通过对比真实标签中的n元组未出现在预测序列中的次数来分析文本相似性的一种评价指标;METEOR是综合考虑召回率和准确率的一种评价指标;SPICE使用Probabilistic Context-Free Grammar(PCFG)将预测的序列和真实的标签编码成一种语义依赖树,并通过一定的规则将其进行映射,利用这种方式来获取评价分数。
CIDEr采用TF-IDF和余弦相似度结合的方式来预测描述与参考句子的相似性,更适宜于评价句子描述的好坏。模型训练时各项评价指标的变化曲线如图4和图5所示。
步骤3,将待处理图像输入到训练完成的融合门循环网络模型中生成语言信息。
实施例2
本实施例是将各种网络模型进行图像转语言的结果对比。第一种模型采用的是实施例1的融合门循环网络模型,与实施例1的区别在于迭代次数为9万次。在实施例1的模型训练结束后,通过观察和比较发现9万次迭代时生成的权重模型相较于10万次而言更好一些,故而选用9万次迭代生成的权重来对实验结果进行评估报告。在实验评估过程中,若按照贪婪搜索的方式,每次只选择最高分数的词,最终得到的往往不是最优的句子描述,为此引入束搜索方式,每次选择当前概率最高的几个词,并依次进行递推,直到选出结束符。通过这种方式可以得到更好的句子描述。通过不断地调整参数,最终选择设置束搜索的尺寸为3。
在模型结果的测试和评估中,还选择了目前比较典型的三个网络模型进行对比,分别是Google NIC网络,Neural Talk网络,和注意力机制模型Attention Model。由于本次试验的目的是验证融合门循环网络模型,因此在进行图像理解中,所有进行对比的网络模型,其图像理解的编码部分都采用VGGNet-16卷积神经网络模型,并且未对VGGNet-16网络进行微调。在此条件下对比解码部分的效果进行对比,评价更加准确。测试过程中使用3200张测试集中的图像作为输入,并设置每次迭代读取一幅图像,以此获得的评估结果如表1和表2所示。
表1实验评估数据表
Methods BLEU_1 BLEU_2 BLEU_3 BLEU_4
Google NIC 66.6 46.1 32.9 24.6
Neural Talk 62.5 45.0 32.1 23.0
Attention Model 56.7 37.1 24.5 17.0
Our model 64.7 46.0 32.9 24.0
表2实验评估数据表
Methods METEOR CIDEr
Google NIC - -
Neural Talk 19.5 66.0
Attention Model 16.7 46.5
Our model 21.3 73.8
从表1和表2的数据可以看到,融合门循环网络模型CIDEr值为73.8,Neural Talk的CIDEr值为66.0,指标提高幅度达到10.56%(73.8-66.0/73.8),而Attention Model模型CIDEr值为46.5,融合门循环网络模型预测效果有明显提高。最后实验选取了4张COCO数据集中的图像和2张非COCO数据集中的图像进行预测。预测效果图分别为图6~11。融合门循环网络模型的模型参数个数为改进后的LSTM模型中的参数个数为:13,747,553,而Attention Model模型网络参数个数为17,684,320,参数个数减少了3,936,767个,减少幅度为22.1%。实验结果表明,融合门模型使用更简单的网络结构取得了更好的预测效果。
综上,测试结果表明:采用业界最权威的CIDEr评价指标来评估本发明方法获得的图像理解预测结果,其CIDEr值比Neural Talk网络提高10.56%,其他相关评价指标均有较大提高。因此,本发明不但预测指标高,而且网络参数比“注意力机制”网络参数少21.1%,算法运行需要的计算机资源更少,使用2G显存的NVIDIA Quadro P620 GPU即可完成图像理解的预测,这种结构也使得将该神经网络部署到移动处理器中成为可能,对推动图像理解的广泛使用起到关键作用。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种基于融合门循环网络模型的图像转语言方法,其特征在于:包括:
(1)将图像数据集中的图像随机纳入训练集,将训练集中的图像数据进行预处理获得适应卷积网络尺寸的图像和包含所有词向量的集合,并将预处理后的图像进行卷积得到图像输出向量;
(2)将所述图像输出向量与所述集合中的起始符合并作为融合门循环网络模型的输入,进入所述融合门循环网络模型后经过t0时间步产生第一隐藏层输出;将所述第一隐藏层输出与所述集合中的第一个词向量合并作为t1时间步的输入,进入所述融合门循环网络模型经过t1时间步获得第二隐藏层输出,如此循环迭代直至所述集合中所有词向量全部参与循环迭代过程,融合门循环网络模型训练完成;
(3)将待处理图像输入到训练完成的融合门循环网络模型中生成语言信息。
2.根据权利要求1所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(1)中图像数据集为MSCOCO2014数据集或者MSCOCO2017数据集。
3.根据权利要求1或2所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(1)中将训练集中的图像数据进行预处理,包括:
(1-1)将每一张图像处理成224×224大小,并将每张图像中的每一个自然语言语句与该图像成对保存,一个图像-自然语言语句作为一个图像理解数据;
(1-2)获取所有图像理解数据中具有最长序列的自然语言语句的长度,然后采用填充符将剩下的自然语言语句的序列填充至该长度,并且重新保存填充完毕的图像理解数据;
(1-3)统计所有自然语言语句中出现5次以上的单词,依次去重、排序后统计单词总个数k,给予每个单词唯一的序号,将所有自然语言语句转变为序号序列,并用维度大小为k×1的列向量d表示所有单词,列向量中对应单词序号的位置置为1,其余置为0,将该列向量送入维度大小为k×512词嵌入矩阵Wd中转换成维度大小为512的向量,一个这样的向量称为词向量x,x=dTWd;该词向量x作为循环神经网络的输入。
4.根据权利要求1所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(2)中融合门循环网络模型包括:输入门、融合门和输出门;所述输入门作为所述融合门循环网络模型的输入通道;所述融合门用于合并后向量的循环迭代并产生隐藏状态;所述输出门包括中间输出门和最终输出门,所述中间输出门用于控制每次迭代产生的隐藏状态是否应用本时间步记忆细胞信息,所述最终输出门用于输出每次迭代产生的隐藏状态相匹配的词向量,该词向量组成图像转化后的语言。
5.根据权利要求4所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述融合门中设有监听门,所述监听门用于监测循环迭代过程中图像输出向量的使用比例。
6.根据权利要求5所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述循环迭代过程具体包括:
(2-1)生成每一次迭代各个时间步的隐藏状态ht
利用t-1时间步获得的隐藏状态ht-1和t时间步的词向量xt计算出该时间步的隐藏状态ht,具体涉及的计算公式如下:
it=σ(xt*Wx+ht-1*Wh+bi), I
ft=σ(xt*Wx+ht-1*Wh+bf), II
ot=σ(xt*Wx+ht-1*Wh+bo), III
Figure FDA0002923177370000021
Figure FDA0002923177370000022
ht=ot·tanh(ct), VI
式子I~VI中,σ代表sigmoid激活函数,公式为1/(1+e-x),阈值为(0,1);tanh激活函数公式代表(1-e-2x)/(1+e-2x);*代表矩阵相乘;·代表按元素相乘;it、ft、ot分别为输入门、遗忘门和输出门;
Figure FDA0002923177370000023
表示候选的记忆细胞信息;ct表示记忆细胞信息;Wx和Wh均是可学习的权重系数;其余均为可学习的偏置系数;
(2-2)生成用于各个时间步预测模型输出词的向量h′t
(2-2-1)利用t-1时间步获得的隐藏状态ht-1和t时间步的词向量xt计算监听门pt的数值,pt的计算公式如下:
pt=σ(xt*Wx+ht-1*Wh+bp), VII
式VII中,xt代表t时刻标注语句词向量输入层的词向量;bp为可学习的偏置系数;0<pt<1;
(2-2-2)进一步计算迭代过程中t时间步需要使用的图像信息和语义向量在两者汇总中各自占的比例值,所述图像信息包括图像输出向量Vg和当前时间步的隐藏层输出信息,所述语义向量包括记忆细胞信息ct和当前时间步的隐藏层输出信息,计算公式如下:
at=(pt·tanh(ct))*Wac+ht*Wah, VIII
et=Vg*Wv+ht*Wh, IX
Figure FDA0002923177370000031
Figure FDA0002923177370000032
式VIII~XI中,at代表t时刻可用的语义向量;ht代表t时刻的获得的隐藏层输出信息;et代表t时刻可用的图像向量;Vg代表图像的全局向量;
Figure FDA0002923177370000033
代表中间变量,
Figure FDA0002923177370000034
代表二维向量,其第二个维度的值就是下文的β;其余均是可学习的权重系数。
(2-2-3)进一步计算t时间步的上下文向量ut,计算公式为:
ut=(1-β)·(pt·tanh(ct))+β·Vg, XII
式XII中,β为图像输出向量的使用比例;
(2-2-4)利用t时间步的隐藏状态ht和ut计算最终用于预测t时间步输出词的向量h′t,计算公式如下:
h′t=(ht+ut)*Wh′, XIII
(2-3)获得各个时间步的输出词序号:
在每一个时间步,将预测当前时间步输出词的向量h′t代入softmax计算获得词向量集合中所有词向量作为当前时间步输出词向量时所占的概率,然后将概率最大的词向量作为当前时间步的输出词;直到预测出结束符后结束。
7.根据权利要求6所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述循环迭代次数为8~10万次。
8.根据权利要求7所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述循环迭代次数9万次。
CN202110123810.6A 2021-01-29 2021-01-29 一种基于融合门循环网络模型的图像转语言方法 Active CN112884019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110123810.6A CN112884019B (zh) 2021-01-29 2021-01-29 一种基于融合门循环网络模型的图像转语言方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110123810.6A CN112884019B (zh) 2021-01-29 2021-01-29 一种基于融合门循环网络模型的图像转语言方法

Publications (2)

Publication Number Publication Date
CN112884019A true CN112884019A (zh) 2021-06-01
CN112884019B CN112884019B (zh) 2023-11-21

Family

ID=76053477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110123810.6A Active CN112884019B (zh) 2021-01-29 2021-01-29 一种基于融合门循环网络模型的图像转语言方法

Country Status (1)

Country Link
CN (1) CN112884019B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792860A (zh) * 2021-09-15 2021-12-14 中国人民解放军陆军军医大学第二附属医院 基于常微分方程的gru网络模型及特征提取方法、装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358948A (zh) * 2017-06-27 2017-11-17 上海交通大学 基于注意力模型的语言输入关联性检测方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN110363290A (zh) * 2019-07-19 2019-10-22 广东工业大学 一种基于混合神经网络模型的图像识别方法、装置及设备
WO2020077858A1 (zh) * 2018-10-15 2020-04-23 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、介质、终端及装置
CN111797219A (zh) * 2020-07-07 2020-10-20 苏州大学 使用多通道融合模型处理答案的神经问题生成方法及系统
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN107358948A (zh) * 2017-06-27 2017-11-17 上海交通大学 基于注意力模型的语言输入关联性检测方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
WO2020077858A1 (zh) * 2018-10-15 2020-04-23 平安科技(深圳)有限公司 基于神经网络的视频描述生成方法、介质、终端及装置
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN110363290A (zh) * 2019-07-19 2019-10-22 广东工业大学 一种基于混合神经网络模型的图像识别方法、装置及设备
CN111797219A (zh) * 2020-07-07 2020-10-20 苏州大学 使用多通道融合模型处理答案的神经问题生成方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HARSHIT PARIKH 等: "Encoder-Decoder Architecture for Image Caption Generation", 《2020 3RD INTERNATIONAL CONFERENCE ON COMMUNICATION SYSTEM, COMPUTING AND IT APPLICATIONS (CSCITA)》, pages 174 - 179 *
JIASEN LU 等: "Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 3242 - 3250 *
SAVVAS VARSAMOPOULOS 等: "Designing neural network based decoders for surface codes", 《 HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/329362532》, pages 1 - 12 *
XULIANG-A: "fusion-attention", 《HTTPS://GITHUB.COM/XULIANG-A/FUSION-ATTENTION/TREE/MAIN/SOURCE》 *
周自维 等: "基于融合门网络的图像理解算法设计与应用", 《光学精密工程》, vol. 29, no. 4, pages 906 - 915 *
王毅 等: "结合LSTM和CNN混合架构的深度神经网络语言模型", 《情报学报》, vol. 37, no. 2, pages 194 - 205 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792860A (zh) * 2021-09-15 2021-12-14 中国人民解放军陆军军医大学第二附属医院 基于常微分方程的gru网络模型及特征提取方法、装置

Also Published As

Publication number Publication date
CN112884019B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112487807A (zh) 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111695052A (zh) 标签分类方法、数据处理设备、可读存储介质
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN110210032A (zh) 文本处理方法及装置
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN110569505A (zh) 一种文本输入方法及装置
CN113723070B (zh) 文本相似度模型训练方法、文本相似度检测方法及装置
CN109885830A (zh) 语句释义方法、装置、计算机设备
CN109614611B (zh) 一种融合生成非对抗网络与卷积神经网络的情感分析方法
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN115759254A (zh) 基于知识增强生成式语言模型的问答方法、系统及介质
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法
CN117648950A (zh) 神经网络模型的训练方法、装置、电子设备及存储介质
Kong et al. Fast and simple mixture of softmaxes with bpe and hybrid-lightrnn for language generation
Eyraud et al. TAYSIR Competition: Transformer+\textscrnn: Algorithms to Yield Simple and Interpretable Representations
CN112884019A (zh) 一种基于融合门循环网络模型的图像转语言方法
CN113806543A (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant