CN110598713A - 基于深度神经网络的智能图像自动描述方法 - Google Patents
基于深度神经网络的智能图像自动描述方法 Download PDFInfo
- Publication number
- CN110598713A CN110598713A CN201910722270.6A CN201910722270A CN110598713A CN 110598713 A CN110598713 A CN 110598713A CN 201910722270 A CN201910722270 A CN 201910722270A CN 110598713 A CN110598713 A CN 110598713A
- Authority
- CN
- China
- Prior art keywords
- neural network
- attention
- image
- scene
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000000007 visual effect Effects 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000015654 memory Effects 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims description 7
- 230000006735 deficit Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 208000013403 hyperactivity Diseases 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 5
- 230000007787 long-term memory Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 235000019987 cider Nutrition 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 235000013599 spices Nutrition 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
基于深度神经网络的智能图像自动描述方法,涉及人工智能领域中的智能图像自动描述。包括以下步骤:1)描述数据预处理;2)抽取图像深度卷积特征和语义信息;3)基于多层级视觉语义嵌入的智能图像自动描述。采用因式分解的注意力机制模块,可解决图像自动描述中没有考虑语义信息层次性以及没有考虑场景信息等问题,可以显式地嵌入场景相关的语义信息,用以指导物体相关的语义信息嵌入和图像特征的嵌入。基于多层级视觉语义嵌入的图像自动描述研究,可方便图像自动描述在工业届中的推广与使用。
Description
技术领域
本发明涉及人工智能领域中的智能图像自动描述,尤其是涉及一种基于图片用自然语言对图像客观内容进行描述的基于深度神经网络的智能图像自动描述方法。
背景技术
图像自动描述(Image Captioning)是今年来计算机科学界提出的一个机器终极智能任务。它的任务内容为基于一张给定图像,用自然语言对图像客观内容进行描述,如图1所示。随着计算机视觉的发展,不仅局限于让机器能完成检测、识别、分割等任务,要求计算机能对图像的客观内容进行自动描述。与图像分类或者目标检测任务不同,图像自动描述要对图片中重要的场景、物体和它们之间的关系用自然语言进行整体的描述。这是计算机视觉内容理解的重要组成部分。
图像自动描述代表这人工智能研究的一个新顶峰,是人工智能逼近人类智慧的一个重要体现。由于图像自动描述任务内容的特殊性,该研究方向的发展往往基于计算机视觉和自然语言处理等两大领域的最新研究进展。与传统的图像检测、识别、分割任务或者多模态研究问题相比,图像自动描述往往要求机器模型对视觉和文本内容进行了解,并能在内容获取的基础上做出逻辑推理以完成最终的描述。图像自动描述同时具有巨大的工业应用场景,这些场景包括了:社交媒体智能发文、智能装备以及视觉残疾人障碍辅助。
图像自动描述方法采用编码器-解码器结构,使用卷积神经网络对图像进行编码,接着用循环神经网络进行句子的解码。然而由于图像特征的提取与嵌入,无法显式地表示出图像的多层面的语义信息,一些方法提出了基于视觉概念的图像自动描述方法。然而,基于视觉概念的图像自动描述方法不能很好的表示出视觉语义的不同层次,并且只停留在物体为主的语义层面,没有涉及场景语义部分。场景语义信息的上下文捕捉了编码在图片中更高层的语义信息,例如图片被拍摄的地点和图中人物可能进行的活动,并用于影响注意力模块和文本生成。对于特定的场景类型,生成的描述的词语会有所不同。
虽然图像自动描述在近两年中获得了极大的发展,但仍然存在着问题。
发明内容
本发明的目的在于针对当前图像自动描述方法存在的上述问题,提供采用基于场景信息的因式分解的注意力机制下进行全新的深度学习网络设计,可解决图像自动描述中没有考虑语义信息层次性以及没有考虑场景信息等问题的基于深度神经网络的智能图像自动描述方法。
本发明包括以下步骤:
1)描述数据预处理;
2)抽取图像深度卷积特征和语义信息;
3)基于多层级视觉语义嵌入的智能图像自动描述。
在步骤1)中,所述描述数据预处理的具体方法可为:对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到9487个单词,对数据集描述中出现次数小于5的单词进行了剔除,使用“<UNK>”进行替代,同时加入了开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
在步骤2)中,所述抽取图像深度卷积特征和语义信息的具体步骤可为:
(1)使用残差深度卷积网络对图像卷积特征进行处理,获取每张图像的特征图,表示为FI∈R14×14×2048;此处14×14为图像的特征区域块,2048表示为每个特征块的特征维度;
(2)对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,再利用NLTK工具进行名词提取,将名词作为物体语义概念,统计物体语义概念出现的频数;利用Sigmoid函数,将名词出现的频数转化为一个0到1之间的小数;最后,一张图片,得到一个物体语义概念词表长度的向量,该表长度为4267;在由此构成的标签上进行多标签分类训练,采用多个Sigmoid交叉熵损失;为了平衡正负样本之间数量的差距,增大了损失上正样本的权重,扩大为原来的十倍;以F1分值作为指标衡量其在验证集上的好坏;采用Adam优化算法,初始学习率为0.4,每10轮进行一次衰减,衰减率为0.9,迭代至收敛;在提取物体语义信息时,在MS COCO图像自动描述数据集上进行输出的是Sigmoid函数层后得到的概率,最后的输出维度为4267;
(3)使用残差深度卷积网络对对图片上保留前5个预测场景的概率,最后的输出维度为366。
在步骤3)中,所述基于多层级视觉语义嵌入的智能图像自动描述的具体步骤可为:
(1)使用双层循环神经网络处理对于物体语义概念和局部抽象特征的关注和嵌入,循环神经网络中的处理单位为长短时记忆神经网络;第一层长短时记忆神经网络是自上而下注意力的长短时记忆神经网络,用于根据第二层语言长短时记忆神经网络的输出和状态,去处理对于物体语义概念和局部抽象特征的关注和嵌入;在这个注意力长短时记忆神经网络中,每一步的输入是前一个语言长短时记忆神经网络的输出和一个编码过的前一个产生后的单词:
其中,zt是t时刻下独热编码(one-hot)的输入词汇,而是一个对于Q大小词汇表的词嵌入矩阵,这个词嵌入矩阵是通过随机初始化后学习得到的,没有经过预先训练;
(2)自上而下注意力长短时记忆神经网络接受上一时刻语言长短时记忆神经网络隐层状态和这一时刻单词编码Wezt作为输入,产生的隐层状态送入因式分解的注意力模块中,嵌入转成对角矩阵的场景语义信息S=diag(vscene)引导注意力得到加权后的局部抽象特征和物体语义概念,最后一起送入语言长短时记忆神经网络中得到单词的输出;
为了能将场景语义信息vscene在注意力长短时记忆神经网络输出中进行显式地嵌入,设计了因式分解的注意力机制模块,它将传统注意力机制中隐藏状态权重Wh进行因式分解成为UhSVh,公式如下:
Wh=UhSVh
其中和S=diag(vscene)是场景语义信息vscene的对角化矩阵;S的作用是对隐藏层状态嵌入描述场景的内容,并直接影响接下来的两个注意力引导和描述生成;
(3)为了能让模型在生成单词的时候动态地去关注图像空间特征,得到更丰富的细节描述,保留了图像局部抽象特征的注意力嵌入方式;对于L个图像局部抽象特征vi,根据注第一层意力长短时记忆神经网络隐藏层状态和对角化后的场景语义信息S,可以通过如下计算方式得到一个经过标准化的权重αi,t:
αt=Softmax(at)
其中,和是可学习的参数;
图像局部抽象特征vconv点乘上权重αt进行加权求和后,用在第二层语言长短时记忆神经网络中:
(4)对于C维物体语义概念根据第一层注意力长短时记忆神经网络的输出和对角化后的场景语义信息S,进行计算得到一个经过标准化的权重βi,t,其公式如下:
βt=Softmax(bt)
其中,和是可学习的参数;
C维的物体语义概念vobj经过维度变换后点乘权重,得到经过场景语义信息嵌入的高层物体语义概念也用第二层在语言长短时记忆神经网络中;
(5)第二层语言长短时记忆神经网络得到注意力机制处理后的图像信息后,进行当前单词的生成;第二层语言长短时记忆神经网络的输入包含了带场景注意力的图像局部抽象特征带场景注意力的语义概念和第一层注意力长短时记忆神经网络的隐藏层状态
其中,和是可学习的参数和偏置;
第二层长短时记忆神经网络单词概率分布p2不仅参与训练过程中的优化,还进行测试时的“采样”;
完整输出序列的概率分布是条件概率分布的乘积:
本发明提供了一种新型的深度学习网络结构,该网络创新性地采用了因式分解的注意力机制模块,可以显式地嵌入场景相关的语义信息,用以指导物体相关的语义信息嵌入和图像特征的嵌入。本发明基于多层级视觉语义嵌入的图像自动描述研究,可方便图像自动描述在工业届中的推广与使用。
附图说明
图1为模型示例图。在给定图像后,模型进行对图像进行描述。
图2为模型框架图。
图3为模型输出可视化效果案例图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
如图2所示,本发明实施例包括以下步骤:
一、描述数据预处理
步骤1对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化。然后对文本内容按空格进行分词,得到9487个单词,对数据集描述中出现次数小于五的单词进行了剔除,使用“<UNK>”进行替代,同时加入了开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
二、图像深度卷积特征和语义信息抽取
步骤1使用残差深度卷积网络对图像卷积特征进行处理,获取每张图像的特征图,表示为FI∈R14×14×2048。此处14×14为图像的特征区域块,2048表示为每个特征块的特征维度。
步骤2对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化。然后对文本内容按空格进行分词,再利用NLTK工具进行名词提取,将名词作为物体语义概念,统计物体语义概念出现的频数。利用Sigmoid函数,将名词出现的频数转化为一个0到1之间的小数。最后,一张图片,得到一个物体语义概念词表长度的向量,该表长度为4267。在由此构成的标签上进行多标签分类训练,采用多个Sigmoid交叉熵损失。为了平衡正负样本之间数量的差距,增大了损失上正样本的权重,扩大为原来的十倍。以F1分值作为指标衡量其在验证集上的好坏。采用Adam优化算法,初始学习率为0.4,每10轮进行一次衰减,衰减率为0.9,迭代至收敛。在提取物体语义信息时,在MS COCO图像自动描述数据集上进行输出的是Sigmoid函数层后得到的概率,最后的输出维度为4267。
步骤3使用残差深度卷积网络对对图片上保留前5个预测场景的概率,最后的输出维度为366。
三、基于多层级视觉语义嵌入的智能图像自动描述
步骤1使用双层循环神经网络去处理对于物体语义概念和局部抽象特征的关注和嵌入,起着循环神经网络中的处理单位为长短时记忆神经网络。第一层长短时记忆神经网络是自上而下注意力的长短时记忆神经网络,其作用是根据第二层语言长短时记忆神经网络的输出和状态,去处理对于物体语义概念和局部抽象特征的关注和嵌入。在这个注意力长短时记忆神经网络中,每一步的输入是前一个语言长短时记忆神经网络的输出,和一个编码过的前一个产生后的单词:
其中,zt是t时刻下独热编码(one-hot)的输入词汇,而是一个对于Q大小词汇表的词嵌入矩阵,这个词嵌入矩阵是通过随机初始化后学习得到的,没有经过预先训练。
步骤2自上而下注意力长短时记忆神经网络接受上一时刻语言长短时记忆神经网络隐层状态和这一时刻单词编码Wezt作为输入,产生的隐层状态送入因式分解的注意力模块中,嵌入转成对角矩阵的场景语义信息引导注意力得到加权后的局部抽象特征和物体语义概念,最后一起送入语言长短时记忆神经网络中得到单词的输出。
为了能将场景语义信息vscene在注意力长短时记忆神经网络输出中进行显式地嵌入,我们设计了因式分解的注意力机制模块,它将传统注意力机制中隐藏状态权重Wh进行因式分解成为UhSVh,公式如下:
Wh=UhSVh
其中和S=diag(vscene)是场景语义信息vscene的对角化矩阵。S的作用是对隐藏层状态嵌入描述场景的内容,并直接影响接下来的两个注意力引导和描述生成。
步骤3为了能让模型在生成单词的时候动态地去关注图像空间特征,得到更丰富的细节描述,保留了图像局部抽象特征的注意力嵌入方式。对于L个图像局部抽象特征vi,根据注第一层意力长短时记忆神经网络隐藏层状态和对角化后的场景语义信息S,可以通过如下计算方式得到一个经过标准化的权重αi,t:
αt=Softmax(at)
其中和是可学习的参数。
图像局部抽象特征vconv点乘上权重αt进行加权求和后,用在第二层语言长短时记忆神经网络中。
步骤4对于C维物体语义概念同样可以根据第一层注意力长短时记忆神经网络的输出和对角化后的场景语义信息S,进行计算得到一个经过标准化的权重βi,t,其公式如下所示:
βt=Softmax(bt)
其中,和是可学习的参数。
C维的物体语义概念vobj经过维度变换后点乘权重,得到经过场景语义信息嵌入的高层物体语义概念也用第二层在语言长短时记忆神经网络中。
步骤5第二层语言长短时记忆神经网络得到注意力机制处理后的图像信息后,进行当前单词的生成。第二层语言长短时记忆神经网络的输入包含了带场景注意力的图像局部抽象特征带场景注意力的语义概念和第一层注意力长短时记忆神经网络的隐藏层状态
其中,和是可学习的参数和偏置。
第二层长短时记忆神经网络单词概率分布p2不仅参与训练过程中的优化,还进行测试时的“采样”。
完整输出序列的概率分布是条件概率分布的乘积:
长短时记忆神经网络被训练为预测整个描述的每一个词。在推理阶段,存在很多方法可以生成给定图片的描述。一种方法是“采样”,根据生成的第一个概率分布p1,采样得到第一个词。再进行对应词的嵌入作为输入,得到第二个概率分布p2,一直如此循环直到采样到“结束标志”或者达到最大长度。第二种方法是进行集束搜索,在t时刻迭代的时候考虑k个最好的已生成的句子作为候选,去生成t+1时刻的句子并只保留最好的k个。当使用集束搜索(Beam search)解码时,通常会包含至少一个质量特别高(即分数特别高)的句子,尽管通常最好的句子不是生成的对数概率中最高的那个。因此为了增加训练的速度,做了一个额外的近似。相比在整个概率分布中进行采样,选择在集束搜索作为采样的集合。
为了验证提出的模型的可行性和先进性,在通用数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示。
表1
模型 | Bleu_1 | Bleu_2 | Bleu_3 | Bleu_4 | Meteor | Rouge_L | CIDEr | SPICE |
Up-Down | 0.798 | - | - | 0.363 | 0.277 | 0.569 | 1.201 | 0.214 |
DA | - | - | - | 0.375 | 0.285 | 0.582 | 1.256 | 0.223 |
本专利 | 0.803 | 0.646 | 0.501 | 0.381 | 0.284 | 0.582 | 1.268 | 0.220 |
可以看出,在多种评估指标上所提出的模型性能都具有很高的优势。
另外,如图3,本发明通过可视化输入图像所生成的文本描述见表2。
表2
从图3和表2可以看出,由于本发明的模型考虑了内在场景信息的建模,其在图像描述上取得了很明显的改进。
Claims (4)
1.基于深度神经网络的智能图像自动描述方法,其特征在于包括以下步骤:
1)描述数据预处理;
2)抽取图像深度卷积特征和语义信息;
3)基于多层级视觉语义嵌入的智能图像自动描述。
2.如权利要求1所述基于深度神经网络的智能图像自动描述方法,其特征在于在步骤1)中,所述描述数据预处理的具体方法为:对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到9487个单词,对数据集描述中出现次数小于5的单词进行了剔除,使用“<UNK>″进行替代,同时加入了开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
3.如权利要求1所述基于深度神经网络的智能图像自动描述方法,其特征在于在步骤2)中,所述抽取图像深度卷积特征和语义信息的具体步骤为:
(1)使用残差深度卷积网络对图像卷积特征进行处理,获取每张图像的特征图,表示为Fl∈R14×14×2048;此处14×14为图像的特征区域块,2048表示为每个特征块的特征维度;
(2)对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,再利用NLTK工具进行名词提取,将名词作为物体语义概念,统计物体语义概念出现的频数;利用Sigmoid函数,将名词出现的频数转化为一个0到1之间的小数;最后,一张图片,得到一个物体语义概念词表长度的向量,该表长度为4267;在由此构成的标签上进行多标签分类训练,采用多个Sigmoid交叉熵损失;为了平衡正负样本之间数量的差距,增大了损失上正样本的权重,扩大为原来的十倍;以F1分值作为指标衡量其在验证集上的好坏;采用Adam优化算法,初始学习率为0.4,每10轮进行一次衰减,衰减率为0.9,迭代至收敛;在提取物体语义信息时,在MS COCO图像自动描述数据集上进行输出的是Sigmoid函数层后得到的概率,最后的输出维度为4267;
(3)使用残差深度卷积网络对对图片上保留前5个预测场景的概率,最后的输出维度为366。
4.如权利要求1所述基于深度神经网络的智能图像自动描述方法,其特征在于在步骤3)中,所述基于多层级视觉语义嵌入的智能图像自动描述的具体步骤为:
(1)使用双层循环神经网络处理对于物体语义概念和局部抽象特征的关注和嵌入,循环神经网络中的处理单位为长短时记忆神经网络;第一层长短时记忆神经网络是自上而下注意力的长短时记忆神经网络,用于根据第二层语言长短时记忆神经网络的输出和状态,去处理对于物体语义概念和局部抽象特征的关注和嵌入;在这个注意力长短时记忆神经网络中,每一步的输入是前一个语言长短时记忆神经网络的输出和一个编码过的前一个产生后的单词:
其中,zt是t时刻下独热编码的输入词汇,而是一个对于Q大小词汇表的词嵌入矩阵,这个词嵌入矩阵是通过随机初始化后学习得到的,没有经过预先训练;
(2)自上而下注意力长短时记忆神经网络接受上一时刻语言长短时记忆神经网络隐层状态和这一时刻单词编码Wezt′作为输入,产生的隐层状态送入因式分解的注意力模块中,嵌入转成对角矩阵的场景语义信息S=diag(vscene)引导注意力得到加权后的局部抽象特征和物体语义概念,最后一起送入语言长短时记忆神经网络中得到单词的输出;
为了能将场景语义信息vscene在注意力长短时记忆神经网络输出中进行显式地嵌入,设计了因式分解的注意力机制模块,它将传统注意力机制中隐藏状态权重Wh进行因式分解成为UhSVh,公式如下:
Wh=UhSVh
其中和S=diag(vscene)是场景语义信息vscene的对角化矩阵;S的作用是对隐藏层状态嵌入描述场景的内容,并直接影响接下来的两个注意力引导和描述生成;
(3)为了能让模型在生成单词的时候动态地去关注图像空间特征,得到更丰富的细节描述,保留了图像局部抽象特征的注意力嵌入方式;对于L个图像局部抽象特征vi,根据注第一层意力长短时记忆神经网络隐藏层状态和对角化后的场景语义信息S,可以通过如下计算方式得到一个经过标准化的权重αi,t:
αt=Softmax(at)
其中,和是可学习的参数;
图像局部抽象特征vconv点乘上权重αt进行加权求和后,用在第二层语言长短时记忆神经网络中:
(4)对于C维物体语义概念根据第一层注意力长短时记忆神经网络的输出和对角化后的场景语义信息S,进行计算得到一个经过标准化的权重βi,t,其公式如下:
βt=Softmax(bt)
其中,和是可学习的参数;
C维的物体语义概念vobj经过维度变换后点乘权重,得到经过场景语义信息嵌入的高层物体语义概念也用第二层在语言长短时记忆神经网络中;
(5)第二层语言长短时记忆神经网络得到注意力机制处理后的图像信息后,进行当前单词的生成;第二层语言长短时记忆神经网络的输入包含了带场景注意力的图像局部抽象特征带场景注意力的语义概念和第一层注意力长短时记忆神经网络的隐藏层状态
其中,和是可学习的参数和偏置;
第二层长短时记忆神经网络单词概率分布p2不仅参与训练过程中的优化,还进行测试时的“采样”;
完整输出序列的概率分布是条件概率分布的乘积:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910722270.6A CN110598713B (zh) | 2019-08-06 | 2019-08-06 | 基于深度神经网络的智能图像自动描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910722270.6A CN110598713B (zh) | 2019-08-06 | 2019-08-06 | 基于深度神经网络的智能图像自动描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598713A true CN110598713A (zh) | 2019-12-20 |
CN110598713B CN110598713B (zh) | 2022-05-06 |
Family
ID=68853579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910722270.6A Active CN110598713B (zh) | 2019-08-06 | 2019-08-06 | 基于深度神经网络的智能图像自动描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598713B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177461A (zh) * | 2019-12-30 | 2020-05-19 | 厦门大学 | 一种根据当前场景及其描述信息生成下一场景的方法 |
CN111242741A (zh) * | 2020-01-15 | 2020-06-05 | 新石器慧通(北京)科技有限公司 | 一种基于场景的商品文案生成方法、系统及无人零售车 |
CN111325347A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 基于可解释视觉推理模型的危险预警描述自动生成方法 |
CN111581961A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN111598183A (zh) * | 2020-05-22 | 2020-08-28 | 上海海事大学 | 一种多特征融合图像描述方法 |
CN111738186A (zh) * | 2020-06-28 | 2020-10-02 | 香港中文大学(深圳) | 目标定位方法、装置、电子设备及可读存储介质 |
CN111737511A (zh) * | 2020-06-17 | 2020-10-02 | 南强智视(厦门)科技有限公司 | 基于自适应局部概念嵌入的图像描述方法 |
CN111818397A (zh) * | 2020-06-29 | 2020-10-23 | 同济大学 | 一种基于长短时记忆网络变体的视频描述生成方法 |
CN112037239A (zh) * | 2020-08-28 | 2020-12-04 | 大连理工大学 | 基于多层次显式关系选择的文本指导图像分割方法 |
CN112819013A (zh) * | 2021-01-29 | 2021-05-18 | 厦门大学 | 基于层内层间联合全局表示的图像描述方法 |
CN113095405A (zh) * | 2021-04-13 | 2021-07-09 | 沈阳雅译网络技术有限公司 | 基于预训练及双层注意力的图像描述生成系统的构建方法 |
CN113408430A (zh) * | 2021-06-22 | 2021-09-17 | 哈尔滨理工大学 | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 |
WO2021190257A1 (zh) * | 2020-03-27 | 2021-09-30 | 北京京东尚科信息技术有限公司 | 图像描述生成方法、装置、系统、介质及电子设备 |
CN113516152A (zh) * | 2021-04-08 | 2021-10-19 | 北京航空航天大学 | 一种基于复合图像语义的图像描述方法 |
CN113837230A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于自适应注意力机制的图像描述生成方法 |
CN113837229A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种知识驱动型的文本到图像生成方法 |
CN113986251A (zh) * | 2021-12-29 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于卷积和循环神经网络的gui原型图转代码方法 |
CN114154117A (zh) * | 2021-06-15 | 2022-03-08 | 元橡科技(苏州)有限公司 | 一种slam方法 |
CN115063643A (zh) * | 2022-05-30 | 2022-09-16 | 国网四川省电力公司眉山供电公司 | 一种电力场景图像数据自动标注方法 |
CN115086503A (zh) * | 2022-05-25 | 2022-09-20 | 清华大学深圳国际研究生院 | 信息隐藏方法、装置、设备及存储介质 |
CN115083229A (zh) * | 2022-08-22 | 2022-09-20 | 珠海翔翼航空技术有限公司 | 基于ai视觉识别的飞行训练设备智能识别与警示系统 |
CN116740041A (zh) * | 2023-06-27 | 2023-09-12 | 新疆生产建设兵团医院 | 基于机器视觉的cta扫描图像分析系统及其方法 |
CN117612170A (zh) * | 2024-01-23 | 2024-02-27 | 中国科学技术大学 | 一种结合记忆网络和扩散网络的图像到长文本生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144208A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
CN108171283A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于结构化语义嵌入的图像内容自动描述方法 |
CN109978139A (zh) * | 2019-03-20 | 2019-07-05 | 深圳大学 | 图片自动生成描述的方法、系统、电子装置及存储介质 |
-
2019
- 2019-08-06 CN CN201910722270.6A patent/CN110598713B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144208A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
CN108171283A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于结构化语义嵌入的图像内容自动描述方法 |
CN109978139A (zh) * | 2019-03-20 | 2019-07-05 | 深圳大学 | 图片自动生成描述的方法、系统、电子装置及存储介质 |
Non-Patent Citations (3)
Title |
---|
SHI CHEN ETAL.: "Boosted attention: Leveraging human attention for image captioning", 《IN PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION》 * |
YONG CHENG ETAL.: "A Hierarchical Multimodal Attention-based Neural Network for Image Captioning", 《SIGIR "17: PROCEEDINGS OF THE 40TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION 》 * |
王凯等: "基于多层次概念格的图像场景语义分类方法", 《山西师范大学学报(自然科学版)》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177461A (zh) * | 2019-12-30 | 2020-05-19 | 厦门大学 | 一种根据当前场景及其描述信息生成下一场景的方法 |
CN111242741B (zh) * | 2020-01-15 | 2023-08-04 | 新石器慧通(北京)科技有限公司 | 一种基于场景的商品文案生成方法、系统及无人零售车 |
CN111242741A (zh) * | 2020-01-15 | 2020-06-05 | 新石器慧通(北京)科技有限公司 | 一种基于场景的商品文案生成方法、系统及无人零售车 |
CN111325347A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 基于可解释视觉推理模型的危险预警描述自动生成方法 |
WO2021190257A1 (zh) * | 2020-03-27 | 2021-09-30 | 北京京东尚科信息技术有限公司 | 图像描述生成方法、装置、系统、介质及电子设备 |
US12073639B2 (en) | 2020-03-27 | 2024-08-27 | Beijing Jingdong Shangke Information Technology Co., Ltd. | Image description generation method, apparatus and system, and medium and electronic device |
CN111581961A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN111598183A (zh) * | 2020-05-22 | 2020-08-28 | 上海海事大学 | 一种多特征融合图像描述方法 |
CN111598183B (zh) * | 2020-05-22 | 2023-08-15 | 上海海事大学 | 一种多特征融合图像描述方法 |
CN111737511A (zh) * | 2020-06-17 | 2020-10-02 | 南强智视(厦门)科技有限公司 | 基于自适应局部概念嵌入的图像描述方法 |
CN111737511B (zh) * | 2020-06-17 | 2022-06-07 | 南强智视(厦门)科技有限公司 | 基于自适应局部概念嵌入的图像描述方法 |
CN111738186A (zh) * | 2020-06-28 | 2020-10-02 | 香港中文大学(深圳) | 目标定位方法、装置、电子设备及可读存储介质 |
CN111738186B (zh) * | 2020-06-28 | 2024-02-02 | 香港中文大学(深圳) | 目标定位方法、装置、电子设备及可读存储介质 |
CN111818397A (zh) * | 2020-06-29 | 2020-10-23 | 同济大学 | 一种基于长短时记忆网络变体的视频描述生成方法 |
CN112037239A (zh) * | 2020-08-28 | 2020-12-04 | 大连理工大学 | 基于多层次显式关系选择的文本指导图像分割方法 |
CN112819013A (zh) * | 2021-01-29 | 2021-05-18 | 厦门大学 | 基于层内层间联合全局表示的图像描述方法 |
CN113516152A (zh) * | 2021-04-08 | 2021-10-19 | 北京航空航天大学 | 一种基于复合图像语义的图像描述方法 |
CN113516152B (zh) * | 2021-04-08 | 2024-04-16 | 北京航空航天大学 | 一种基于复合图像语义的图像描述方法 |
CN113095405A (zh) * | 2021-04-13 | 2021-07-09 | 沈阳雅译网络技术有限公司 | 基于预训练及双层注意力的图像描述生成系统的构建方法 |
CN113095405B (zh) * | 2021-04-13 | 2024-04-30 | 沈阳雅译网络技术有限公司 | 基于预训练及双层注意力的图像描述生成系统的构建方法 |
CN114154117A (zh) * | 2021-06-15 | 2022-03-08 | 元橡科技(苏州)有限公司 | 一种slam方法 |
CN114154117B (zh) * | 2021-06-15 | 2022-08-23 | 元橡科技(苏州)有限公司 | 一种slam方法 |
CN113408430B (zh) * | 2021-06-22 | 2022-09-09 | 哈尔滨理工大学 | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 |
CN113408430A (zh) * | 2021-06-22 | 2021-09-17 | 哈尔滨理工大学 | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 |
CN113837229B (zh) * | 2021-08-30 | 2024-03-15 | 厦门大学 | 一种知识驱动型的文本到图像生成方法 |
CN113837229A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种知识驱动型的文本到图像生成方法 |
CN113837230A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于自适应注意力机制的图像描述生成方法 |
CN113986251A (zh) * | 2021-12-29 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于卷积和循环神经网络的gui原型图转代码方法 |
CN115086503B (zh) * | 2022-05-25 | 2023-09-22 | 清华大学深圳国际研究生院 | 信息隐藏方法、装置、设备及存储介质 |
CN115086503A (zh) * | 2022-05-25 | 2022-09-20 | 清华大学深圳国际研究生院 | 信息隐藏方法、装置、设备及存储介质 |
CN115063643A (zh) * | 2022-05-30 | 2022-09-16 | 国网四川省电力公司眉山供电公司 | 一种电力场景图像数据自动标注方法 |
CN115083229A (zh) * | 2022-08-22 | 2022-09-20 | 珠海翔翼航空技术有限公司 | 基于ai视觉识别的飞行训练设备智能识别与警示系统 |
CN116740041A (zh) * | 2023-06-27 | 2023-09-12 | 新疆生产建设兵团医院 | 基于机器视觉的cta扫描图像分析系统及其方法 |
CN116740041B (zh) * | 2023-06-27 | 2024-04-26 | 新疆生产建设兵团医院 | 基于机器视觉的cta扫描图像分析系统及其方法 |
CN117612170A (zh) * | 2024-01-23 | 2024-02-27 | 中国科学技术大学 | 一种结合记忆网络和扩散网络的图像到长文本生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110598713B (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598713B (zh) | 基于深度神经网络的智能图像自动描述方法 | |
CN111626063B (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN110163181B (zh) | 手语识别方法及装置 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111651974A (zh) | 一种隐式篇章关系分析方法和系统 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN113435208A (zh) | 学生模型的训练方法、装置及电子设备 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN116304984A (zh) | 基于对比学习的多模态意图识别方法及系统 | |
CN115545041B (zh) | 一种增强医疗语句语义向量表示的模型构造方法及系统 | |
JP2024512628A (ja) | キャプション生成器を生成するための方法および装置、並びにキャプションを出力するための方法および装置 | |
CN113837233A (zh) | 基于样本自适应语义引导的自注意力机制的图像描述方法 | |
CN110298046B (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115359323A (zh) | 图像的文本信息生成方法和深度学习模型的训练方法 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN113178189A (zh) | 一种信息分类方法及装置、信息分类模型训练方法及装置 | |
CN115066690A (zh) | 搜索归一化-激活层架构 | |
CN115797952B (zh) | 基于深度学习的手写英文行识别方法及系统 | |
CN115422388B (zh) | 一种视觉对话方法及系统 | |
CN114757310B (zh) | 情感识别模型及其训练方法、装置、设备及可读存储介质 | |
CN113792550B (zh) | 预测答案的确定方法及装置、阅读理解方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |