CN108052512B - 一种基于深度注意力机制的图像描述生成方法 - Google Patents

一种基于深度注意力机制的图像描述生成方法 Download PDF

Info

Publication number
CN108052512B
CN108052512B CN201711073398.1A CN201711073398A CN108052512B CN 108052512 B CN108052512 B CN 108052512B CN 201711073398 A CN201711073398 A CN 201711073398A CN 108052512 B CN108052512 B CN 108052512B
Authority
CN
China
Prior art keywords
short term
long
term memory
network model
memory network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711073398.1A
Other languages
English (en)
Other versions
CN108052512A (zh
Inventor
王瀚漓
方芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201711073398.1A priority Critical patent/CN108052512B/zh
Publication of CN108052512A publication Critical patent/CN108052512A/zh
Application granted granted Critical
Publication of CN108052512B publication Critical patent/CN108052512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度注意力机制的图像描述生成方法,所述方法包括:深度长短期记忆网络模型建立步骤,通过在长短期记忆网络模型的单元之间添加注意力机制函数,并利用卷积神经网络提取的训练图片特征和训练图片的描述信息对添加了注意力机制函数的长短期记忆网络进行训练,得到深度长短期记忆网络模型;图像描述生成步骤,将待生成描述的图像依次通过卷积神经网络模型和深度长短期记忆网络模型,生成与图像对应的描述。与现有技术相比,本发明具有信息提取有效性强、深度表达能力高以及描述准确等优点。

Description

一种基于深度注意力机制的图像描述生成方法
技术领域
本发明涉及图像理解领域,尤其是涉及一种基于深度注意力机制的图像描述生成方法。
背景技术
图像标题生成是一项极具挑战性的工作,在婴幼儿早期教育、视觉障碍辅助、人机交互等领域具有广泛的应用前景。它结合了自然语言处理与计算机视觉两个领域,将一副自然图像使用自然语言的形式描述出来,或者说将图像翻译成自然语言。它首先要求系统能够准确理解图像中的内容,如识别出图像中的场景、各种对象、对象的属性、正在发生的动作及对象之间的关系等;然后根据语法规则及语言结构,生成人们能够理解的句子。
人们已提出多种方法来解决这一难题,包括基于模板的方法、基于语义迁移的方法,基于神经机器翻译的方法及混合方法等。随着深度学习技术,尤其是CNN技术在语言识别和视觉领域连续取得突破,目前基于神经机器翻译及其与其他视觉技术混合的方法已成为解决该问题的主流。这类方法考虑了CNN模型能够提取抽象性及表达能力更强的图像特征,能够为后续的语言生成模型提供可靠的可视化信息。但这些方法过于依赖前期的视觉技术,处理过程复杂,对系统后端生成句子的语言模型优化不足;在使用LSTM单元生成句子时,其模型深度较浅(常使用1层或2层LSTM),生成的句子语义信息不强,整体性能难以改善。
发明内容
本发明的目的是针对上述问题提供一种基于深度注意力机制的图像描述生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度注意力机制的图像描述生成方法,所述方法包括:
深度长短期记忆网络模型建立步骤,通过在长短期记忆网络模型的单元之间添加注意力机制函数,并利用卷积神经网络提取的训练图片特征和训练图片的描述信息对添加了注意力机制函数的长短期记忆网络进行训练,得到深度长短期记忆网络模型;
图像描述生成步骤,将待生成描述的图像依次通过卷积神经网络模型和深度长短期记忆网络模型,生成与图像对应的描述。
优选地,所述深度长短期记忆网络模型建立步骤包括:
A1)将训练图片通过卷积神经网络,得到训练图片的特征图和特征向量;
A2)建立长短期记忆网络模型,并在长短期记忆网络模型的每两个连接层之间添加注意力机制函数;
A3)将训练图片的描述信息和步骤A1)中得到的特征图与特征向量,输入到步骤A2)中添加了注意力机制函数的长短期记忆网络模型后,对长短期记忆网络模型进行训练,得到深度长短期记忆网络模型。
优选地,所述步骤A2)包括:
A21)通过设置输入门、输出门、遗忘门和记忆单元,构建长短期记忆网络模型中的长短期记忆单元;
A22)设置长短期记忆网络模型中每一个连接层的时间步长和隐层单元的个数;
A23)在长短期记忆网络模型的每一个连接层的长短期记忆单元后添加注意力机制函数,所述注意力机制函数包括两个输入端和一个输出端,所述两个输入端的维度分别与通过卷积神经网络的特征图的维度和隐层单元参数的维度相等,所述输出端的维度与通过卷积神经网络提取的训练图片特征向量维度相等。
优选地,所述长短期记忆网络模型中每一个连接层的时间步长与所有训练图片的描述信息的平均句子长度相等。
优选地,所述隐层单元的个数为512个。
优选地,所述注意力机制函数具体为:
Figure BDA0001457123560000021
Figure BDA0001457123560000022
Figure BDA0001457123560000023
其中,k表示第k层长短期记忆单元,t表示时间步,ai表示特征图的第i部分,整个特征图为{a1,a2,…,ai,…aL},
Figure BDA0001457123560000031
表示第k-1层长短期记忆单元的隐层输出,fatt表示多层感知机,
Figure BDA0001457123560000032
为特征图第i部分与当前时间步有关的相似性结果,
Figure BDA0001457123560000033
为特征图第i部分所占的全局比重,
Figure BDA0001457123560000034
为注意力,Φ为Φ函数。
优选地,所述步骤A3)包括:
A31)将所有训练图片的描述信息对应的所有单词编码后映射为嵌入式向量;
A32)在第一个时间步,将步骤A1)中得到的特征向量作为全局信息输入到长短期记忆网络模型中;
A33)每一层的长短期记忆单元的输入包括上一层的长短期记忆单元输出、特征注意力计算值和与该层顺序相对应的单词的嵌入式向量,依层传递得到训练图片的输出描述信息;
A34)根据输出描述信息与实际描述信息的误差,对长短期记忆网络模型的参数进行优化,得到深度长短期记忆网络模型。
优选地,所述特征注意力计算值的计算方式具体为:将相应的长短期记忆单元的输出和步骤A1)中得到的特征图作为输入,通过注意力机制函数进行计算,得到特征注意力计算值。
优选地,所述相应的长短期记忆单元的输出包括上一层的长短期记忆单元的输出、当前长短期单元以前所有层的长短期记忆单元的输出或当前长短期单元的前两层的长短期记忆单元的输出。
优选地,所述步骤A34)包括:
A341)通过交叉熵函数计算输出描述信息中每个单词与实际值之间的误差,并对计算得到的所有误差进行求和;
A342)将步骤A341)求和得到的结果相对于添加了注意力机制函数的长短期记忆网络模型进行求导,并将求导的结果传递回添加了注意力机制函数的长短期记忆网络模型中;
A343)将添加了注意力机制函数的长短期记忆网络模型关于求导的结果的输出作为训练后的模型参数,得到深度长短期记忆网络模型。
与现有技术相比,本发明具有以下有益效果:
(1)通过在现有的长短期记忆网络中添加注意力机制函数,在每层长短期记忆网络单元之间,利用当前时间步的语言模型参数计算所需的图像特征,并提取出来到下一层长短期记忆网络单元中,采用当前时间步的参数,可以保证注意力从当前词逐步过渡到预测词,逐层以此提取,直到最后的预测结果,从而可以有效提取相关信息,提升图像描述的准确程度。
(2)通过添加注意力机制函数,在每一层之间都加入所需的经过卷积神经网络提取的图像特征,与单词信息一起预测下一个单词,从而使得输出的单词更加准确,进一步提升了图像描述生成的方法性能,通过试验可以证明,本方法最终的图像描述准确程度,在不同的数据集上均超过同类的其他模型。
(3)由于本申请提出的方法是通过构建多层长短期记忆网络并在网络之间添加注意力机制函数,因此本方法可以通过逐层提取相关图片信息,对可视化信息和语言信息进行更多层次的变换,从而提高生成句子的语义表达能力,深度表达能力得到了大大的提高。
附图说明
图1为高认知度的神经网络训练模型建立步骤的方法流程图;
图2为三种注意力传递方法的示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提出了一种基于深度注意力机制的图像描述生成方法,包括:
深度长短期记忆网络模型建立步骤,通过在长短期记忆网络模型的单元之间添加注意力机制函数,并利用卷积神经网络提取的训练图片特征和训练图片的描述信息对添加了注意力机制函数的长短期记忆网络进行训练,得到深度长短期记忆网络模型;
图像描述生成步骤,将待生成描述的图像依次通过卷积神经网络模型和深度长短期记忆网络模型,生成与图像对应的描述。
其中,深度长短期记忆网络模型建立步骤如图1所示,包括:
A1)将训练图片通过卷积神经网络(CNN),得到训练图片的特征图和特征向量;
A2)建立长短期记忆网络模型(LSTM),并在长短期记忆网络模型的每两个连接层之间添加注意力机制函数,具体包括:
A21)通过设置输入门、输出门、遗忘门和记忆单元,构建长短期记忆网络模型中的长短期记忆单元;
A22)设置长短期记忆网络模型中每一个连接层的时间步长和隐层单元的个数,具体为:每一个连接层的时间步长与所有训练图片的描述信息的平均句子长度相等,隐层单元的个数通过人为确定,一般为512个;
A23)在长短期记忆网络模型的每一个连接层的长短期记忆单元后添加注意力机制函数,注意力机制函数包括两个输入端和一个输出端,两个输入端的维度分别与通过卷积神经网络的特征图的维度和隐层单元参数的维度相等,输出端的维度与通过卷积神经网络提取的训练图片特征向量维度相等,该注意力函数具体为:
Figure BDA0001457123560000051
Figure BDA0001457123560000052
Figure BDA0001457123560000053
其中,k表示第k层长短期记忆单元,t表示时间步,ai表示特征图的第i部分,整个特征图为{a1,a2,…,ai,…aL},
Figure BDA0001457123560000054
表示第k-1层长短期记忆单元的隐层输出,fatt表示多层感知机,
Figure BDA0001457123560000055
为特征图第i部分与当前时间步有关的相似性结果,
Figure BDA0001457123560000056
为特征图第i部分所占的全局比重,
Figure BDA0001457123560000057
为注意力,Φ为Φ函数;
A3)将训练图片的描述信息和步骤A1)中得到的特征图与特征向量,输入到步骤A2)中添加了注意力机制函数的长短期记忆网络模型后,对长短期记忆网络模型进行训练,得到深度长短期记忆网络模型,具体包括:
A31)将所有训练图片的描述信息对应的所有单词编码后映射为嵌入式向量;
A32)在第一个时间步,将步骤A1)中得到的特征向量作为全局信息输入到长短期记忆网络模型中;
A33)每一层的长短期记忆单元的输入包括上一层的长短期记忆单元输出、特征注意力计算值和与该层顺序相对应的单词的嵌入式向量,依层传递得到训练图片的输出描述信息,其中的特征注意力计算值的计算方式具体为:将相应的长短期记忆单元的输出和步骤A1)中得到的特征图作为输入,通过注意力机制函数进行计算,得到特征注意力计算值,而所谓的相应的长短期记忆单元的输出包括上一层的长短期记忆单元的输出、当前长短期单元以前所有层的长短期记忆单元的输出或当前长短期单元的前两层的长短期记忆单元的输出;
A34)根据输出描述信息与实际描述信息的误差,对长短期记忆网络模型的参数进行优化,得到深度长短期记忆网络模型,包括:
A341)通过交叉熵函数计算输出描述信息中每个单词与实际值之间的误差,并对计算得到的所有误差进行求和;
A342)将步骤A341)求和得到的结果相对于添加了注意力机制函数的长短期记忆网络模型进行求导,并将求导的结果传递回添加了注意力机制函数的长短期记忆网络模型中;
A343)将添加了注意力机制函数的长短期记忆网络模型关于求导的结果的输出作为训练后的模型参数,得到深度长短期记忆网络模型。
根据上述步骤,进行具体的图像描述信息提取,在这一过程中建立的深度长短期记忆网络模型的过程如下:
(1)制作训练集、验证集和测试集,使用ResNet-101或GoogLeNet模型提取图像的CNN特征;具体过程包括:
(11)将训练集、验证集和测试集转换为hdf5格式,每张图像对应五个标签,每个标签为该图像所对应的参考句子;
(12)读取图像,将图像描述数据集中的图像缩放至224×224大小;
(13)调用GoogLeNet在Imagenet大规模数据集上已优化完毕的参数集合做为预训练模型,对GoogLeNet进行初始化;
(14)将图像块输入CNN网络,提取图像的CNN特征图及特征向量,该CNN特征图维度为7×7×512维,特征向量维度为512维。
(2)建立深层LSTM网络,层数可调,在每两层LSTM之间加入注意力函数:
(21)构建LSTM单元,其中输入门、遗忘门、输出门、记忆单元和输出依次为it、ft、ot、ct和ht,其中k、j表示第几层LSTM,当k=1时,注意力函数不起作用:
Figure BDA0001457123560000071
Figure BDA0001457123560000072
Figure BDA0001457123560000073
Figure BDA0001457123560000074
Figure BDA0001457123560000075
Figure BDA0001457123560000076
在上述公式中,t表示第t个时间步,t与句子长度有关;其中k、j表示第几层LSTM(以下参数解释k、j省略),当k=1时,注意力函数不起作用。xt、gt、ht-1分别表示第t个时间步输入的单词、第t个时间步计算的注意力与第t-1个时间步LSTM隐层的输出;(wx)i、(wg)i、(wh)i、bi分别表示输入门xt、gt、ht-1(第t个时间步输入的单词、第t个时间步计算的注意力与第t-1个时间步LSTM隐层的输出)在sigma函数中的权重和偏置,同理:(wx)f、(wg)f、(wh)f、bf分别表示遗忘门xt、gt、ht-1在sigma函数中的权重和偏置,(wx)o、(wg)o、(wh)o、bo分别表示输出门xt、gt、ht-1在sigma函数中的权重和偏置,(wx)c、(wg)c、(wh)c、bc分别表示记忆单元其中一个单项式中
Figure BDA0001457123560000077
中,xt、gt、ht-1在Tanh函数中的权重和偏置,
Figure BDA0001457123560000078
表示乘积操作。
(22)根据训练集中参考句子的情况,生成单词表,对于MSCOCO数据集,单词表长度为9567,对于Flickr30K数据集,单词表长度为7050;并统计数据集中参考句子的长度,根据该长度设置步长,本实施例中将每层LSTM的步长设置为16;在MSCOCO数据集和Flickr30K数据集上,其隐层输出设置为512;
(23)在每层LSTM单元后面加上注意力机制函数,设置输入(输入有两个)维度分别同等于CNN处理后的特征图与LSTM隐层状态,输出维度为等同于CNN处理后的特征向量。
(3)将经过全连接层处理的特征向量作为图片全局信息输入到LSTM中,特征图输入到注意力函数中,采用三种不同的连接方式处理注意力,对深度LSTM模型进行训练,注意力函数为:
Figure BDA0001457123560000081
Figure BDA0001457123560000082
Figure BDA0001457123560000083
其中,以下k均表示第k层LSTM单元,t表示时间步。这里用ai表示图片特征图的第i部分,整个特征图为{a1,a2,…,ai,…aL},
Figure BDA0001457123560000084
表示第k-1层LSTM的隐层输出,fatt表示一个多层感知机(一种前馈人工神经网络模型),该感知机处理得到
Figure BDA0001457123560000085
为图片特征图第i部分与当前时间步有关的相似性的结果,经过指数函数处理后,计算
Figure BDA0001457123560000086
即第i部分所占全局的比重,最后利用Φ函数,根据特征图与对应部分的所得权重计算注意力
Figure BDA0001457123560000087
(31)对单词表中的每个单词采用One-Hot方式进行编码,编码维度为单词表的长度;
(32)将描述参考句子中每个单词的One-Hot编码映射为一个嵌入式向量,并设置向量维度;
(33)在第一个时间步,将经过CNN全连接层处理的特征向量作为图片全局信息输入到LSTM中,之后将每个单词的嵌入式向量作为第一层LSTM的输入,并将第一层LSTM的输出和图像CNN特征图输入到注意力函数中计算特征注意力,以此类推,每一层采用相同的方式计算。
(34)从第二层开始,采用三种方式处理注意力机制,将注意力机制作为输入所需层增加额外的图片信息,如图2所示。第一种方式逐层传递注意力,即第一层计算的注意力转给第二层,第二层计算的注意力传给第三层,以此类推,图(2a);第二种方式是将前面所有层的注意力信息一起传给下一层,即第一层给第二层,第一层和第二层一起给第三层,第一层到第三层一起给第四层,以此类推,图(2b);第三种方法是借鉴ResNet-101的方法,隔层增加注意力机制,即在第一种的方法上,隔层的注意力也传递给下一层,即第一层给第三层,之后类似,图(2c)。
(35)使用交叉熵函数计算网络输出的每个单词与实际值之间的误差,并对每张图像中生成句子的每个单词与所有参考句子中单词的误差进行求和,具体表现为:
Figure BDA0001457123560000088
则,系统目标为优化整个模型的参数θ,使得预测的句子概率最大,损失函数L最小。其中,S表示预测的句子,I表示图片信息(包含特征图与特征向量),p表示输出的概率,log为取对数操作。采用链式法则计算预测句子的概率为:
Figure BDA0001457123560000091
st表示第t时间步预测的单词,s1:t-1表示第1时间步到t-1时间步预测的单词,N为预测句子的总的时间步(第0时间步为输入图像,即图片I中的特征向量),并采用随机梯度下降的方法对误差进行修正,优化整个模型的参数
Figure BDA0001457123560000092
其中α表示学习率。
通过上述步骤,即可完成对深度长短期记忆网络模型的训练,从而可以使用训练好的模型对测试集上的图片进行预测,生成图片描述。
为了验证上述方法的性能,设计了以下实验。
在两个公开数据集上(MSCOCO、Flickr30K)采用两个网络模型(ResNet-101与GoogleNet)使用本方法进行训练以及测试,使用BLEU、METEOR和CIDEr标准来对生成的句子进行评价。为便于对比,使用Google的NIC模型作为基准模型(baseline),分别设置语言模型层数为1、2和3(NIC-1、NIC-2和NIC-3);并将注意力机制作为另一个基准模型(Attention与Attention+fc),该基准即为语言模型只有一层的情况。在MSCOCO数据集上,其训练集有113287张图像,验证集和验证集各有5000张图像,每张图像有5条以上人工标注的参考句子;在Flickr30K数据集上,共有31783张图像,使用其中的29000张图像作为训练集,1000张图像作为测试集,其他作为验证集。在各数据集上不同网络模型上的实验结果如表1、表2、表3所示。
表1在ResNet-101两个数据集上性能表现
Figure BDA0001457123560000093
Figure BDA0001457123560000101
表2在GoogleNet两个数据集上性能表现
Figure BDA0001457123560000102
表3采用ResNet-101在MSCOCO数据集与前一时间步注意力对比
method CIDEr B-3 B-4 METEOR
Previous-attention-3 103.1 43.6 33.2 25.9
Previous-attention-4 104.3 43.9 33.6 25.8
Previous-attention-5 103.6 44.2 34.0 26.0
S-Attention-3 105.2 43.7 33.7 26.4
S-Attention-4 105.6 44.3 34.5 26.5
S-Attention-5 104.1 44.0 33.8 26.4
通过实验可以证实,在ResNet-101模型中:在MSCOCO上,其CIDEr和BLEU4分别达到了105.9和34.5,在Flickr30K上,其B-4达到了24.0;在GoogleNet中,在MSCOCO上,其CIDEr和BLEU4分别达到了102.0和32.7,在Flickr30K上,其B-4达到了24.0,均超过同类其他模型。

Claims (8)

1.一种基于深度注意力机制的图像描述生成方法,其特征在于,所述方法包括:
深度长短期记忆网络模型建立步骤,通过在长短期记忆网络模型的单元之间添加注意力机制函数,并利用卷积神经网络提取的训练图片特征和训练图片的描述信息对添加了注意力机制函数的长短期记忆网络进行训练,得到深度长短期记忆网络模型,
图像描述生成步骤,将待生成描述的图像依次通过卷积神经网络模型和深度长短期记忆网络模型,生成与图像对应的描述;
所述深度长短期记忆网络模型建立步骤包括:
A1)将训练图片通过卷积神经网络,得到训练图片的特征图和特征向量,
A2)建立长短期记忆网络模型,并在长短期记忆网络模型的每两个连接层之间添加注意力机制函数,
A3)将训练图片的描述信息和步骤A1)中得到的特征图与特征向量,输入到步骤A2)中添加了注意力机制函数的长短期记忆网络模型后,对长短期记忆网络模型进行训练,得到深度长短期记忆网络模型;
所述步骤A2)包括:
A21)通过设置输入门、输出门、遗忘门和记忆单元,构建长短期记忆网络模型中的长短期记忆单元,
A22)设置长短期记忆网络模型中每一个连接层的时间步长和隐层单元的个数,
A23)在长短期记忆网络模型的每一个连接层的长短期记忆单元后添加注意力机制函数,所述注意力机制函数包括两个输入端和一个输出端,所述两个输入端的维度分别与通过卷积神经网络的特征图的维度和隐层单元参数的维度相等,所述输出端的维度与通过卷积神经网络提取的训练图片特征向量维度相等。
2.根据权利要求1所述的基于深度注意力机制的图像描述生成方法,其特征在于,所述长短期记忆网络模型中每一个连接层的时间步长与所有训练图片的描述信息的平均句子长度相等。
3.根据权利要求1述的基于深度注意力机制的图像描述生成方法,其特征在于,所述隐层单元的个数为512个。
4.根据权利要求1所述的基于深度注意力机制的图像描述生成方法,其特征在于,所述注意力机制函数具体为:
Figure FDA0002992708750000021
Figure FDA0002992708750000022
Figure FDA0002992708750000023
其中,k表示第k层长短期记忆单元,t表示时间步,ai表示特征图的第i部分,整个特征图为{a1,a2,…,ai,…aL},
Figure FDA0002992708750000024
表示第k-1层长短期记忆单元的隐层输出,fatt表示多层感知机,
Figure FDA0002992708750000025
为特征图第i部分与当前时间步有关的相似性结果,
Figure FDA0002992708750000026
为特征图第i部分所占的全局比重,
Figure FDA0002992708750000027
为注意力,Φ为Φ函数。
5.根据权利要求1所述的基于深度注意力机制的图像描述生成方法,其特征在于,所述步骤A3)包括:
A31)将所有训练图片的描述信息对应的所有单词编码后映射为嵌入式向量;
A32)在第一个时间步,将步骤A1)中得到的特征向量作为全局信息输入到长短期记忆网络模型中;
A33)每一层的长短期记忆单元的输入包括上一层的长短期记忆单元输出、特征注意力计算值和与该层顺序相对应的单词的嵌入式向量,依层传递得到训练图片的输出描述信息;
A34)根据输出描述信息与实际描述信息的误差,对长短期记忆网络模型的参数进行优化,得到深度长短期记忆网络模型。
6.根据权利要求5所述的基于深度注意力机制的图像描述生成方法,其特征在于,所述特征注意力计算值的计算方式具体为:将相应的长短期记忆单元的输出和步骤A1)中得到的特征图作为输入,通过注意力机制函数进行计算,得到特征注意力计算值。
7.根据权利要求6所述的基于深度注意力机制的图像描述生成方法,其特征在于,所述相应的长短期记忆单元的输出包括上一层的长短期记忆单元的输出、当前长短期单元以前所有层的长短期记忆单元的输出或当前长短期单元的前两层的长短期记忆单元的输出。
8.根据权利要求5所述的基于深度注意力机制的图像描述生成方法,其特征在于,所述步骤A34)包括:
A341)通过交叉熵函数计算输出描述信息中每个单词与实际值之间的误差,并对计算得到的所有误差进行求和;
A342)将步骤A341)求和得到的结果相对于添加了注意力机制函数的长短期记忆网络模型进行求导,并将求导的结果传递回添加了注意力机制函数的长短期记忆网络模型中;
A343)将添加了注意力机制函数的长短期记忆网络模型关于求导的结果的输出作为训练后的模型参数,得到深度长短期记忆网络模型。
CN201711073398.1A 2017-11-03 2017-11-03 一种基于深度注意力机制的图像描述生成方法 Active CN108052512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711073398.1A CN108052512B (zh) 2017-11-03 2017-11-03 一种基于深度注意力机制的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711073398.1A CN108052512B (zh) 2017-11-03 2017-11-03 一种基于深度注意力机制的图像描述生成方法

Publications (2)

Publication Number Publication Date
CN108052512A CN108052512A (zh) 2018-05-18
CN108052512B true CN108052512B (zh) 2021-05-11

Family

ID=62119435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711073398.1A Active CN108052512B (zh) 2017-11-03 2017-11-03 一种基于深度注意力机制的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN108052512B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898639A (zh) * 2018-05-30 2018-11-27 湖北工业大学 一种图像描述方法及系统
CN108875807B (zh) * 2018-05-31 2022-05-27 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109284667B (zh) * 2018-07-26 2021-09-03 同济大学 一种面向视频的三流式人体运动行为空间域检测方法
CN109147937A (zh) * 2018-07-31 2019-01-04 中国科学院深圳先进技术研究院 基于图像的康复预测方法及相关产品
CN110851641B (zh) * 2018-08-01 2022-09-16 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质
CN109271628A (zh) * 2018-09-03 2019-01-25 东北大学 一种图像描述生成方法
CN109460483B (zh) * 2018-09-26 2021-05-04 北京理工大学 一种基于深度注意力机制的图片新闻封面自动选择方法
CN111144168B (zh) * 2018-11-02 2023-04-18 阿里巴巴集团控股有限公司 农作物生长周期的识别方法、设备以及系统
US11016495B2 (en) * 2018-11-05 2021-05-25 GM Global Technology Operations LLC Method and system for end-to-end learning of control commands for autonomous vehicle
CN109522017A (zh) * 2018-11-07 2019-03-26 中山大学 一种基于神经网络和自注意力机制的网页截图代码生成方法
CN109544524B (zh) * 2018-11-15 2023-05-23 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价系统
CN111209725B (zh) * 2018-11-19 2023-04-25 阿里巴巴集团控股有限公司 一种文本信息生成方法、装置以及计算设备
CN109543165B (zh) * 2018-11-21 2022-09-23 中国人民解放军战略支援部队信息工程大学 基于循环卷积注意力模型的文本生成方法及装置
CN109711465B (zh) * 2018-12-26 2022-12-06 西安电子科技大学 基于mll和asca-fr的图像字幕生成方法
CN109802430B (zh) * 2018-12-29 2022-06-28 上海电力学院 一种基于LSTM-Attention网络的风电电网控制方法
CN109783657B (zh) * 2019-01-07 2022-12-30 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
US11087175B2 (en) * 2019-01-30 2021-08-10 StradVision, Inc. Learning method and learning device of recurrent neural network for autonomous driving safety check for changing driving mode between autonomous driving mode and manual driving mode, and testing method and testing device using them
CN110119754B (zh) * 2019-02-27 2022-03-29 北京邮电大学 图像生成描述方法、装置及模型
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN109919221B (zh) * 2019-03-04 2022-07-19 山西大学 基于双向双注意力机制图像描述方法
CN109948691B (zh) * 2019-03-14 2022-02-18 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
WO2020186484A1 (zh) * 2019-03-20 2020-09-24 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN110084128B (zh) * 2019-03-29 2021-12-14 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN110135472B (zh) * 2019-04-25 2021-02-09 暗物智能科技(广州)有限公司 用于图像描述模型的奖赏的确定方法及电子设备
CN110033008B (zh) * 2019-04-29 2023-08-04 同济大学 一种基于模态变换与文本归纳的图像描述生成方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110287814A (zh) * 2019-06-04 2019-09-27 北方工业大学 一种基于图像目标特征和多层注意力机制的视觉问答方法
CN110473267A (zh) * 2019-07-12 2019-11-19 北京邮电大学 基于注意力特征提取网络的社交网络图像描述生成方法
CN110598718A (zh) * 2019-09-20 2019-12-20 电子科技大学 基于注意力机制及卷积神经网络的图像特征提取方法
CN111105439B (zh) * 2019-11-28 2023-05-02 同济大学 一种使用残差注意力机制网络的同步定位与建图方法
CN111144553B (zh) * 2019-12-28 2023-06-23 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111243060B (zh) * 2020-01-07 2024-01-23 复旦大学 一种基于手绘图的故事性文本生成方法
CN111241747B (zh) * 2020-01-13 2023-07-25 佛山科学技术学院 机械臂逆运动学求解方法、系统、计算机设备及存储介质
CN111324758B (zh) * 2020-02-14 2022-05-17 北京工业大学 基于发散-聚合注意力的图像描述方法
CN111368898B (zh) * 2020-02-28 2022-10-25 同济大学 一种基于长短时记忆网络变体的图像描述生成方法
CN111598844B (zh) * 2020-04-24 2024-05-07 理光软件研究所(北京)有限公司 一种图像分割方法、装置、电子设备和可读存储介质
CN111640500B (zh) * 2020-04-30 2023-09-05 西北大学 基于双线性融合与注意力机制的脑龄预测模型及方法
CN111582287B (zh) * 2020-05-06 2022-10-25 西安交通大学 一种基于充足视觉信息与文本信息的图像描述方法
CN111611420B (zh) * 2020-05-26 2024-01-23 北京字节跳动网络技术有限公司 用于生成图像描述信息的方法和装置
CN111914897A (zh) * 2020-06-30 2020-11-10 电子科技大学 一种基于孪生长短时间记忆网络的故障诊断方法
CN112149879B (zh) * 2020-09-02 2022-10-18 上海电力大学 一种计及宏观波动性分类的新能源中长期电量预测方法
CN112509129B (zh) * 2020-12-21 2022-12-30 神思电子技术股份有限公司 一种基于改进gan网络的空间视场图像生成方法
CN113515951B (zh) * 2021-07-19 2022-07-05 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法
CN114022687B (zh) * 2021-09-24 2024-05-10 之江实验室 一种基于增强学习的图像描述对抗生成方法
CN114639139A (zh) * 2022-02-16 2022-06-17 南京邮电大学 一种基于强化学习的情绪化图像描述方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
CN107256228A (zh) * 2017-05-02 2017-10-17 清华大学 基于结构化注意力机制的答案选择系统及方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443351B (zh) * 2014-11-14 2021-05-28 谷歌有限责任公司 生成映像的自然语言描述
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
CN105631468B (zh) * 2015-12-18 2019-04-09 华南理工大学 一种基于rnn的图片描述自动生成方法
CN106650789B (zh) * 2016-11-16 2023-04-07 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106599198B (zh) * 2016-12-14 2021-04-06 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106777125B (zh) * 2016-12-16 2020-10-23 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN107092596B (zh) * 2017-04-24 2020-08-04 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256228A (zh) * 2017-05-02 2017-10-17 清华大学 基于结构化注意力机制的答案选择系统及方法
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"LSTM-in-LSTM for generating long descriptions of images";Jun Song 等;《Computational Visual Media》;20161215;第2卷(第4期);第406-410页 *
"一种基于注意力机制的AUV控制层指令理解方法";李岳明 等;《机器人》;20120715;第34卷(第4期);第379-388页 *

Also Published As

Publication number Publication date
CN108052512A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
CN108733792B (zh) 一种实体关系抽取方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
US20180329884A1 (en) Neural contextual conversation learning
US20190130212A1 (en) Deep Network Embedding with Adversarial Regularization
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN108153913B (zh) 回复信息生成模型的训练方法、回复信息生成方法及装置
US11893060B2 (en) Latent question reformulation and information accumulation for multi-hop machine reading
CN110489567B (zh) 一种基于跨网络特征映射的节点信息获取方法及其装置
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN108845990A (zh) 基于双向注意力机制的答案选择方法、装置和电子设备
CN110781302B (zh) 文本中事件角色的处理方法、装置、设备及存储介质
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN113628059B (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN112463924B (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN109271632B (zh) 一种监督的词向量学习方法
CN111767697A (zh) 文本处理方法、装置、计算机设备以及存储介质
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN114239559B (zh) 文本纠错和文本纠错模型的生成方法、装置、设备和介质
WO2023108981A1 (zh) 文本生成模型的训练方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant