CN110598713B - 基于深度神经网络的智能图像自动描述方法 - Google Patents

基于深度神经网络的智能图像自动描述方法 Download PDF

Info

Publication number
CN110598713B
CN110598713B CN201910722270.6A CN201910722270A CN110598713B CN 110598713 B CN110598713 B CN 110598713B CN 201910722270 A CN201910722270 A CN 201910722270A CN 110598713 B CN110598713 B CN 110598713B
Authority
CN
China
Prior art keywords
neural network
attention
image
scene
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910722270.6A
Other languages
English (en)
Other versions
CN110598713A (zh
Inventor
纪荣嵘
陈福海
沈忱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201910722270.6A priority Critical patent/CN110598713B/zh
Publication of CN110598713A publication Critical patent/CN110598713A/zh
Application granted granted Critical
Publication of CN110598713B publication Critical patent/CN110598713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

基于深度神经网络的智能图像自动描述方法,涉及人工智能领域中的智能图像自动描述。包括以下步骤:1)描述数据预处理;2)抽取图像深度卷积特征和语义信息;3)基于多层级视觉语义嵌入的智能图像自动描述。采用因式分解的注意力机制模块,可解决图像自动描述中没有考虑语义信息层次性以及没有考虑场景信息等问题,可以显式地嵌入场景相关的语义信息,用以指导物体相关的语义信息嵌入和图像特征的嵌入。基于多层级视觉语义嵌入的图像自动描述研究,可方便图像自动描述在工业届中的推广与使用。

Description

基于深度神经网络的智能图像自动描述方法
技术领域
本发明涉及人工智能领域中的智能图像自动描述,尤其是涉及一种基于图片用自然语言对图像客观内容进行描述的基于深度神经网络的智能图像自动描述方法。
背景技术
图像自动描述(Image Captioning)是今年来计算机科学界提出的一个机器终极智能任务。它的任务内容为基于一张给定图像,用自然语言对图像客观内容进行描述,如图1所示。随着计算机视觉的发展,不仅局限于让机器能完成检测、识别、分割等任务,要求计算机能对图像的客观内容进行自动描述。与图像分类或者目标检测任务不同,图像自动描述要对图片中重要的场景、物体和它们之间的关系用自然语言进行整体的描述。这是计算机视觉内容理解的重要组成部分。
图像自动描述代表着人工智能研究的一个新顶峰,是人工智能逼近人类智慧的一个重要体现。由于图像自动描述任务内容的特殊性,该研究方向的发展往往基于计算机视觉和自然语言处理等两大领域的最新研究进展。与传统的图像检测、识别、分割任务或者多模态研究问题相比,图像自动描述往往要求机器模型对视觉和文本内容进行了解,并能在内容获取的基础上做出逻辑推理以完成最终的描述。图像自动描述同时具有巨大的工业应用场景,这些场景包括了:社交媒体智能发文、智能装备以及视觉残疾人障碍辅助。
图像自动描述方法采用编码器-解码器结构,使用卷积神经网络对图像进行编码,接着用循环神经网络进行句子的解码。然而由于图像特征的提取与嵌入,无法显式地表示出图像的多层面的语义信息,一些方法提出了基于视觉概念的图像自动描述方法。然而,基于视觉概念的图像自动描述方法不能很好的表示出视觉语义的不同层次,并且只停留在物体为主的语义层面,没有涉及场景语义部分。场景语义信息的上下文捕捉了编码在图片中更高层的语义信息,例如图片被拍摄的地点和图中人物可能进行的活动,并用于影响注意力模块和文本生成。对于特定的场景类型,生成的描述的词语会有所不同。
虽然图像自动描述在近两年中获得了极大的发展,但仍然存在着问题。
发明内容
本发明的目的在于针对当前图像自动描述方法存在的上述问题,提供采用基于场景信息的因式分解的注意力机制下进行全新的深度学习网络设计,可解决图像自动描述中没有考虑语义信息层次性以及没有考虑场景信息等问题的基于深度神经网络的智能图像自动描述方法。
本发明包括以下步骤:
1)描述数据预处理;
2)抽取图像深度卷积特征和语义信息;
3)基于多层级视觉语义嵌入的智能图像自动描述。
在步骤1)中,所述描述数据预处理的具体方法可为:对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到9487 个单词,对数据集描述中出现次数小于5的单词进行了剔除,使用“<UNK>”进行替代,同时加入了开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
在步骤2)中,所述抽取图像深度卷积特征和语义信息的具体步骤可为:
(1)使用残差深度卷积网络对图像卷积特征进行处理,获取每张图像的特征图,表示为 FI∈R14×14×2048;此处14×14为图像的特征区域块,2048表示为每个特征块的特征维度;
(2)对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,再利用NLTK工具进行名词提取,将名词作为物体语义概念,统计物体语义概念出现的频数;利用Sigmoid函数,将名词出现的频数转化为一个0到1之间的小数;最后,一张图片,得到一个物体语义概念词表长度的向量,该表长度为4267;在由此构成的标签上进行多标签分类训练,采用多个Sigmoid交叉熵损失;为了平衡正负样本之间数量的差距,增大了损失上正样本的权重,扩大为原来的十倍;以F1分值作为指标衡量其在验证集上的好坏;采用Adam优化算法,初始学习率为0.4,每10轮进行一次衰减,衰减率为0.9,迭代至收敛;在提取物体语义信息时,在MS COCO图像自动描述数据集上进行输出的是Sigmoid函数层后得到的概率,最后的输出维度为4267;
(3)使用残差深度卷积网络对对图片上保留前5个预测场景的概率,最后的输出维度为 366。
在步骤3)中,所述基于多层级视觉语义嵌入的智能图像自动描述的具体步骤可为:
(1)使用双层循环神经网络处理对于物体语义概念和局部抽象特征的关注和嵌入,循环神经网络中的处理单位为长短时记忆神经网络;第一层长短时记忆神经网络是自上而下注意力的长短时记忆神经网络,用于根据第二层语言长短时记忆神经网络的输出和状态,去处理对于物体语义概念和局部抽象特征的关注和嵌入;在这个注意力长短时记忆神经网络中,每一步的输入是前一个语言长短时记忆神经网络的输出和一个编码过的前一个产生后的单词:
Figure GDA0003519061210000031
Figure GDA0003519061210000032
其中,zt是t时刻下独热编码(one-hot)的输入词汇,而
Figure GDA00035190612100000313
是一个对于Q大小词汇表的词嵌入矩阵,这个词嵌入矩阵是通过随机初始化后学习得到的,没有经过预先训练;
(2)自上而下注意力长短时记忆神经网络接受上一时刻语言长短时记忆神经网络隐层状态
Figure GDA0003519061210000033
和这一时刻单词编码Wezt作为输入,产生的隐层状态
Figure GDA0003519061210000034
送入因式分解的注意力模块中,嵌入转成对角矩阵的场景语义信息S=diag(vscene)引导注意力得到加权后的局部抽象特征和物体语义概念,最后一起送入语言长短时记忆神经网络中得到单词的输出;
为了能将场景语义信息vscene在注意力长短时记忆神经网络输出
Figure GDA0003519061210000035
中进行显式地嵌入,设计了因式分解的注意力机制模块,它将传统注意力机制中隐藏状态权重Wh进行因式分解成为UhSVh,公式如下:
Wh=UhSVh
其中
Figure GDA0003519061210000036
Figure GDA0003519061210000037
S=diag(vscene)是场景语义信息vscene的对角化矩阵;S的作用是对隐藏层状态
Figure GDA0003519061210000038
嵌入描述场景的内容,并直接影响接下来的两个注意力引导和描述生成;
(3)为了能让模型在生成单词的时候动态地去关注图像空间特征,得到更丰富的细节描述,保留了图像局部抽象特征的注意力嵌入方式;对于L个图像局部抽象特征vi,根据注第一层意力长短时记忆神经网络隐藏层状态
Figure GDA0003519061210000039
和对角化后的场景语义信息S,可以通过如下计算方式得到一个经过标准化的权重αi,t
Figure GDA00035190612100000310
αt=Softmax(at)
其中,
Figure GDA00035190612100000311
Figure GDA00035190612100000312
是可学习的参数;
图像局部抽象特征vconv点乘上权重αt进行加权求和后,用在第二层语言长短时记忆神经网络中:
Figure GDA0003519061210000041
(4)对于C维物体语义概念
Figure GDA0003519061210000042
根 据第一层注意力长短时记忆神经网络的输出
Figure GDA0003519061210000043
和对角化后的场景语义信息S,进行计算得到一个经过标准化的权重βi,t,其公式如下:
Figure GDA0003519061210000044
βt=Softmax(bt)
Figure GDA0003519061210000045
其中,
Figure GDA0003519061210000046
Figure GDA0003519061210000047
是可学习的参数;
C维的物体语义概念vobj经过维度变换后点乘权重,得到经过场景语义信息嵌入的高层物体语义概念
Figure GDA0003519061210000048
也用第二层在语言长短时记忆神经网络中;
(5)第二层语言长短时记忆神经网络得到注意力机制处理后的图像信息后,进行当前单词的生成;第二层语言长短时记忆神经网络的输入包含了带场景注意力的图像局部抽象特征
Figure GDA0003519061210000049
带场景注意力的语义概念
Figure GDA00035190612100000410
和第一层注意力长短时记忆神经网络的隐藏层状态
Figure GDA00035190612100000411
Figure GDA00035190612100000412
Figure GDA00035190612100000413
Figure GDA00035190612100000414
其中,
Figure GDA00035190612100000415
Figure GDA00035190612100000416
是可学习的参数和偏置;
第二层长短时记忆神经网络单词概率分布p2不仅参与训练过程中的优化,还进行测试时的“采样”;
完整输出序列的概率分布是条件概率分布的乘积:
Figure GDA0003519061210000051
本发明提供了一种新型的深度学习网络结构,该网络创新性地采用了因式分解的注意力机制模块,可以显式地嵌入场景相关的语义信息,用以指导物体相关的语义信息嵌入和图像特征的嵌入。本发明基于多层级视觉语义嵌入的图像自动描述研究,可方便图像自动描述在工业届中的推广与使用。
附图说明
图1为模型示例图。在给定图像后,模型进行对图像进行描述。
图2为模型框架图。
图3为模型输出可视化效果案例图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
如图2所示,本发明实施例包括以下步骤:
一、描述数据预处理
步骤1对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化。然后对文本内容按空格进行分词,得到9487个单词,对数据集描述中出现次数小于五的单词进行了剔除,使用“<UNK>”进行替代,同时加入了开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
二、图像深度卷积特征和语义信息抽取
步骤1使用残差深度卷积网络对图像卷积特征进行处理,获取每张图像的特征图,表示为FI∈R14×14×2048。此处14×14为图像的特征区域块,2048表示为每个特征块的特征维度。
步骤2对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化。然后对文本内容按空格进行分词,再利用NLTK工具进行名词提取,将名词作为物体语义概念,统计物体语义概念出现的频数。利用Sigmoid函数,将名词出现的频数转化为一个0到1之间的小数。最后,一张图片,得到一个物体语义概念词表长度的向量,该表长度为4267。在由此构成的标签上进行多标签分类训练,采用多个Sigmoid交叉熵损失。为了平衡正负样本之间数量的差距,增大了损失上正样本的权重,扩大为原来的十倍。以F1分值作为指标衡量其在验证集上的好坏。采用Adam优化算法,初始学习率为0.4,每10轮进行一次衰减,衰减率为0.9,迭代至收敛。在提取物体语义信息时,在MS COCO图像自动描述数据集上进行输出的是Sigmoid函数层后得到的概率,最后的输出维度为4267。
步骤3使用残差深度卷积网络对对图片上保留前5个预测场景的概率,最后的输出维度为366。
三、基于多层级视觉语义嵌入的智能图像自动描述
步骤1使用双层循环神经网络去处理对于物体语义概念和局部抽象特征的关注和嵌入,起着循环神经网络中的处理单位为长短时记忆神经网络。第一层长短时记忆神经网络是自上而下注意力的长短时记忆神经网络,其作用是根据第二层语言长短时记忆神经网络的输出和状态,去处理对于物体语义概念和局部抽象特征的关注和嵌入。在这个注意力长短时记忆神经网络中,每一步的输入是前一个语言长短时记忆神经网络的输出,和一个编码过的前一个产生后的单词:
Figure GDA0003519061210000061
Figure GDA0003519061210000062
其中,zi是t时刻下独热编码(one-hot)的输入词汇,而
Figure GDA0003519061210000063
是一个对于Q大小词汇表的词嵌入矩阵,这个词嵌入矩阵是通过随机初始化后学习得到的,没有经过预先训练。
步骤2自上而下注意力长短时记忆神经网络接受上一时刻语言长短时记忆神经网络隐层状态
Figure GDA0003519061210000064
和这一时刻单词编码Wezt作为输入,产生的隐层状态
Figure GDA0003519061210000065
送入因式分解的注意力模块中,嵌入转成对角矩阵的场景语义信息
Figure GDA0003519061210000066
引导注意力得到加权后的局部抽象特征和物体语义概念,最后一起送入语言长短时记忆神经网络中得到单词的输出。
为了能将场景语义信息vscene在注意力长短时记忆神经网络输出
Figure GDA0003519061210000067
中进行显式地嵌入,我们设计了因式分解的注意力机制模块,它将传统注意力机制中隐藏状态权重Wh进行因式分解成为UhSVh,公式如下:
Wh=UhSVh
其中,
Figure GDA0003519061210000068
Figure GDA0003519061210000069
S=diag(vscene)是场景语义信息vscene的对角化矩阵。S的作用是对隐藏层状态
Figure GDA00035190612100000610
嵌入描述场景的内容,并直接影响接下来的两个注意力引导和描述生成。
步骤3为了能让模型在生成单词的时候动态地去关注图像空间特征,得到更丰富的细节描述,保留了图像局部抽象特征的注意力嵌入方式。对于L个图像局部抽象特征vi,根据注第一层意力长短时记忆神经网络隐藏层状态
Figure GDA0003519061210000071
和对角化后的场景语义信息S,可以通过如下计算方式得到一个经过标准化的权重αi,t
Figure GDA0003519061210000072
αt=Softmax(at)
其中,
Figure GDA0003519061210000073
Figure GDA0003519061210000074
是可学习的参数。
图像局部抽象特征vconv点乘上权重αt进行加权求和后,用在第二层语言长短时记忆神经网络中。
Figure GDA0003519061210000075
步骤4对于C维物体语义概念
Figure GDA0003519061210000076
同样可以根据第一层注意力长短时记忆神经网络的输出
Figure GDA0003519061210000077
和对角化后的场景语义信息S,进行计算得到一个经过标准化的权重βi,t,其公式如下所示:
Figure GDA0003519061210000078
βt=Softmax(bt)
Figure GDA0003519061210000079
其中,
Figure GDA00035190612100000710
Figure GDA00035190612100000711
是可学习的参数。
C维的物体语义概念vobj经过维度变换后点乘权重,得到经过场景语义信息嵌入的高层物体语义概念
Figure GDA00035190612100000712
也用第二层在语言长短时记忆神经网络中。
步骤5第二层语言长短时记忆神经网络得到注意力机制处理后的图像信息后,进行当前单词的生成。第二层语言长短时记忆神经网络的输入包含了带场景注意力的图像局部抽象特征
Figure GDA0003519061210000081
带场景注意力的语义概念
Figure GDA0003519061210000082
和第一层注意力长短时记忆神经网络的隐藏层状态
Figure GDA0003519061210000083
Figure GDA0003519061210000084
Figure GDA0003519061210000085
Figure GDA0003519061210000086
其中,
Figure GDA0003519061210000087
Figure GDA0003519061210000088
是可学习的参数和偏置。
第二层长短时记忆神经网络单词概率分布p2不仅参与训练过程中的优化,还进行测试时的“采样”。
完整输出序列的概率分布是条件概率分布的乘积:
Figure GDA0003519061210000089
长短时记忆神经网络被训练为预测整个描述的每一个词。在推理阶段,存在很多方法可以生成给定图片的描述。一种方法是“采样”,根据生成的第一个概率分布p1,采样得到第一个词。再进行对应词的嵌入作为输入,得到第二个概率分布p2,一直如此循环直到采样到“结束标志”或者达到最大长度。第二种方法是进行集束搜索,在t时刻迭代的时候考虑k 个最好的已生成的句子作为候选,去生成t+1时刻的句子并只保留最好的k个。当使用集束搜索(Beam search)解码时,通常会包含至少一个质量特别高(即分数特别高)的句子,尽管通常最好的句子不是生成的对数概率中最高的那个。因此为了增加训练的速度,做了一个额外的近似。相比在整个概率分布中进行采样,选择在集束搜索作为采样的集合。
为了验证提出的模型的可行性和先进性,在通用数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示。
表1
模型 Bleu_1 Bleu_2 Bleu_3 Bleu_4 Meteor Rouge_L CIDEr SPICE
Up-Down 0.798 - - 0.363 0.277 0.569 1.201 0.214
DA - - - 0.375 0.285 0.582 1.256 0.223
本专利 0.803 0.646 0.501 0.381 0.284 0.582 1.268 0.220
可以看出,在多种评估指标上所提出的模型性能都具有很高的优势。
另外,如图3,本发明通过可视化输入图像所生成的文本描述见表2。
表2
Figure GDA0003519061210000091
从图3和表2可以看出,由于本发明的模型考虑了内在场景信息的建模,其在图像描述上取得了很明显的改进。

Claims (2)

1.基于深度神经网络的智能图像自动描述方法,其特征在于包括以下步骤:
1)描述数据预处理;
2)抽取图像深度卷积特征和语义信息,具体方法如下:
(1)使用残差深度卷积网络对图像卷积特征进行处理,获取每张图像的特征图,表示为FI∈R14×14×2048;此处14×14为图像的特征区域块,2048表示为每个特征块的特征维度;
(2)对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,再利用NLTK工具进行名词提取,将名词作为物体语义概念,统计物体语义概念出现的频数;利用Sigmoid函数,将名词出现的频数转化为一个0到1之间的小数;最后,一张图片,得到一个物体语义概念词表长度的向量,该表长度为4267;在由此构成的标签上进行多标签分类训练,采用多个Sigmoid交叉熵损失;为了平衡正负样本之间数量的差距,增大了损失上正样本的权重,扩大为原来的十倍;以F1分值作为指标衡量其在验证集上的好坏;采用Adam优化算法,初始学习率为0.4,每10轮进行一次衰减,衰减率为0.9,迭代至收敛;在提取物体语义信息时,在MS COCO图像自动描述数据集上进行输出的是Sigmoid函数层后得到的概率,最后的输出维度为4267;
(3)使用残差深度卷积网络对图片上保留前5个预测场景的概率,最后的输出维度为366;
3)基于多层级视觉语义嵌入的智能图像自动描述,具体方法如下:
(1)使用双层循环神经网络处理对于物体语义概念和局部抽象特征的关注和嵌入,循环神经网络中的处理单位为长短时记忆神经网络;第一层长短时记忆神经网络是自上而下注意力的长短时记忆神经网络,用于根据第二层语言长短时记忆神经网络的输出和状态,去处理对于物体语义概念和局部抽象特征的关注和嵌入;在这个注意力长短时记忆神经网络中,每一步的输入是前一个语言长短时记忆神经网络的输出和一个编码过的前一个产生后的单词:
Figure FDA0003519061200000011
Figure FDA0003519061200000012
其中,zt是t时刻下独热编码的输入词汇,而
Figure FDA0003519061200000013
是一个对于Q大小词汇表的词嵌入矩阵,这个词嵌入矩阵是通过随机初始化后学习得到的,没有经过预先训练;
(2)自上而下注意力长短时记忆神经网络接受上一时刻语言长短时记忆神经网络隐层状态
Figure FDA0003519061200000021
和这一时刻单词编码Wezt作为输入,产生的隐层状态
Figure FDA0003519061200000022
送入因式分解的注意力模块中,嵌入转成对角矩阵的场景语义信息S=diag(vscene)引导注意力得到加权后的局部抽象特征和物体语义概念,最后一起送入语言长短时记忆神经网络中得到单词的输出;
为了能将场景语义信息vscene在注意力长短时记忆神经网络输出
Figure FDA0003519061200000023
中进行显式地嵌入,设计因式分解的注意力机制模块,将传统注意力机制中隐藏状态权重Wh进行因式分解成为UhSVh,公式如下:
Wh=UhSVh
其中,
Figure FDA0003519061200000024
Figure FDA0003519061200000025
S=diag(vscene)是场景语义信息vscene的对角化矩阵;S的作用是对隐藏层状态
Figure FDA0003519061200000026
嵌入描述场景的内容,并直接影响接下来的两个注意力引导和描述生成;
(3)为了能让模型在生成单词的时候动态地去关注图像空间特征,得到更丰富的细节描述,保留图像局部抽象特征的注意力嵌入方式;对于L个图像局部抽象特征vi,根据注意力第一层长短时记忆神经网络隐藏层状态
Figure FDA0003519061200000027
和对角化后的场景语义信息S,通过如下计算方式得到一个经过标准化的权重αi,t
Figure FDA0003519061200000028
αt=Softmax(at)
其中,
Figure FDA0003519061200000029
Figure FDA00035190612000000210
是可学习的参数;
图像局部抽象特征vconv点乘上权重αt进行加权求和后,用在第二层语言长短时记忆神经网络中:
Figure FDA00035190612000000211
(4)对于C维物体语义概念
Figure FDA00035190612000000212
根据第一层注意力长短时记忆神经网络的输出
Figure FDA00035190612000000213
和对角化后的场景语义信息S,进行计算得到一个经过标准化的权重βi,t,其公式如下:
Figure FDA0003519061200000031
βt=Softmax(bt)
Figure FDA0003519061200000032
其中,
Figure FDA0003519061200000033
Figure FDA0003519061200000034
是可学习的参数;
C维的物体语义概念vobj经过维度变换后点乘权重,得到经过场景语义信息嵌入的高层物体语义概念
Figure FDA0003519061200000035
也用在第二层语言长短时记忆神经网络中;
(5)第二层语言长短时记忆神经网络得到注意力机制处理后的图像信息后,进行当前单词的生成;第二层语言长短时记忆神经网络的输入包含了带场景注意力的图像局部抽象特征
Figure FDA0003519061200000036
带场景注意力的语义概念
Figure FDA0003519061200000037
和第一层注意力长短时记忆神经网络的隐藏层状态
Figure FDA0003519061200000038
Figure FDA0003519061200000039
Figure FDA00035190612000000310
Figure FDA00035190612000000311
其中,
Figure FDA00035190612000000312
Figure FDA00035190612000000313
是可学习的参数和偏置;
第二层长短时记忆神经网络单词概率分布p2不仅参与训练过程中的优化,还进行测试时的“采样”;
完整输出序列的概率分布是条件概率分布的乘积:
Figure FDA00035190612000000314
2.如权利要求1所述基于深度神经网络的智能图像自动描述方法,其特征在于在步骤1)中,所述描述数据预处理的具体方法为:对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到9487个单词,对数据集描述中出现次数小于5的单词进行了剔除,使用“<UNK>”进行替代,同时加入了开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
CN201910722270.6A 2019-08-06 2019-08-06 基于深度神经网络的智能图像自动描述方法 Active CN110598713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910722270.6A CN110598713B (zh) 2019-08-06 2019-08-06 基于深度神经网络的智能图像自动描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910722270.6A CN110598713B (zh) 2019-08-06 2019-08-06 基于深度神经网络的智能图像自动描述方法

Publications (2)

Publication Number Publication Date
CN110598713A CN110598713A (zh) 2019-12-20
CN110598713B true CN110598713B (zh) 2022-05-06

Family

ID=68853579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910722270.6A Active CN110598713B (zh) 2019-08-06 2019-08-06 基于深度神经网络的智能图像自动描述方法

Country Status (1)

Country Link
CN (1) CN110598713B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177461A (zh) * 2019-12-30 2020-05-19 厦门大学 一种根据当前场景及其描述信息生成下一场景的方法
CN111242741B (zh) * 2020-01-15 2023-08-04 新石器慧通(北京)科技有限公司 一种基于场景的商品文案生成方法、系统及无人零售车
CN111325347B (zh) * 2020-02-19 2023-04-11 山东大学 基于可解释视觉推理模型的危险预警描述自动生成方法
CN111753825A (zh) 2020-03-27 2020-10-09 北京京东尚科信息技术有限公司 图像描述生成方法、装置、系统、介质及电子设备
CN111581961B (zh) * 2020-05-06 2022-06-21 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN111598183B (zh) * 2020-05-22 2023-08-15 上海海事大学 一种多特征融合图像描述方法
CN111737511B (zh) * 2020-06-17 2022-06-07 南强智视(厦门)科技有限公司 基于自适应局部概念嵌入的图像描述方法
CN111738186B (zh) * 2020-06-28 2024-02-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111818397B (zh) * 2020-06-29 2021-10-08 同济大学 一种基于长短时记忆网络变体的视频描述生成方法
CN112037239B (zh) * 2020-08-28 2022-09-13 大连理工大学 基于多层次显式关系选择的文本指导图像分割方法
CN112819013A (zh) * 2021-01-29 2021-05-18 厦门大学 基于层内层间联合全局表示的图像描述方法
CN113516152B (zh) * 2021-04-08 2024-04-16 北京航空航天大学 一种基于复合图像语义的图像描述方法
CN113095405B (zh) * 2021-04-13 2024-04-30 沈阳雅译网络技术有限公司 基于预训练及双层注意力的图像描述生成系统的构建方法
CN114154117B (zh) * 2021-06-15 2022-08-23 元橡科技(苏州)有限公司 一种slam方法
CN113408430B (zh) * 2021-06-22 2022-09-09 哈尔滨理工大学 基于多级策略和深度强化学习框架的图像中文描述系统及方法
CN113837230A (zh) * 2021-08-30 2021-12-24 厦门大学 基于自适应注意力机制的图像描述生成方法
CN113837229B (zh) * 2021-08-30 2024-03-15 厦门大学 一种知识驱动型的文本到图像生成方法
CN113986251A (zh) * 2021-12-29 2022-01-28 中奥智能工业研究院(南京)有限公司 基于卷积和循环神经网络的gui原型图转代码方法
CN115086503B (zh) * 2022-05-25 2023-09-22 清华大学深圳国际研究生院 信息隐藏方法、装置、设备及存储介质
CN115063643B (zh) * 2022-05-30 2024-08-23 国网四川省电力公司眉山供电公司 一种电力场景图像数据自动标注方法
CN115083229B (zh) * 2022-08-22 2022-11-08 珠海翔翼航空技术有限公司 基于ai视觉识别的飞行训练设备智能识别与警示系统
CN116740041B (zh) * 2023-06-27 2024-04-26 新疆生产建设兵团医院 基于机器视觉的cta扫描图像分析系统及其方法
CN117612170A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种结合记忆网络和扩散网络的图像到长文本生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
CN109978139A (zh) * 2019-03-20 2019-07-05 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558750B2 (en) * 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
CN109978139A (zh) * 2019-03-20 2019-07-05 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Hierarchical Multimodal Attention-based Neural Network for Image Captioning;Yong Cheng etal.;《SIGIR "17: Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information 》;20170807;第2节 *
Boosted attention: Leveraging human attention for image captioning;Shi Chen etal.;《In Proceedings of the European Conference on Computer Vision》;20181231;全文 *
基于多层次概念格的图像场景语义分类方法;王凯等;《山西师范大学学报(自然科学版)》;20170630;第31卷(第2期);全文 *

Also Published As

Publication number Publication date
CN110598713A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110598713B (zh) 基于深度神经网络的智能图像自动描述方法
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN111651974B (zh) 一种隐式篇章关系分析方法和系统
CN111460883B (zh) 基于深度强化学习的视频行为自动描述方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN113435208A (zh) 学生模型的训练方法、装置及电子设备
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN115292463A (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN114416981A (zh) 一种长文本的分类方法、装置、设备及存储介质
CN113837233A (zh) 基于样本自适应语义引导的自注意力机制的图像描述方法
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN112488111B (zh) 一种基于多层级表达引导注意力网络的指示表达理解方法
CN113178189A (zh) 一种信息分类方法及装置、信息分类模型训练方法及装置
CN117131877A (zh) 一种基于对比学习的文本检测方法及系统
CN112528168A (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN114357166A (zh) 一种基于深度学习的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant