CN109783666A - 一种基于迭代精细化的图像场景图谱生成方法 - Google Patents
一种基于迭代精细化的图像场景图谱生成方法 Download PDFInfo
- Publication number
- CN109783666A CN109783666A CN201910028169.0A CN201910028169A CN109783666A CN 109783666 A CN109783666 A CN 109783666A CN 201910028169 A CN201910028169 A CN 201910028169A CN 109783666 A CN109783666 A CN 109783666A
- Authority
- CN
- China
- Prior art keywords
- image
- entity
- neural network
- visual
- image scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 96
- 230000000007 visual effect Effects 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims description 54
- 239000011159 matrix material Substances 0.000 claims description 24
- 239000010410 layer Substances 0.000 claims description 13
- 238000007670 refining Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 239000000470 constituent Substances 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000003709 image segmentation Methods 0.000 claims 1
- 238000010200 validation analysis Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 238000001228 spectrum Methods 0.000 abstract 2
- 238000013480 data collection Methods 0.000 abstract 1
- 230000010354 integration Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开一种基于迭代精细化的图像场景图谱生成方法,涉及图像场景图谱领域,包括步骤:输入图像场景图谱数据集及其参数,提取图像的视觉特征;结合训练集中的图像数据以及场景图谱数据,利用视觉信息和语义信息对实体对之间的视觉关系做分类,生成图像场景图谱;产生出若干个区域包围盒和对应的每个区域的特征向量,融合区域特征向量得到图像描述文段的特征向量;将图像描述文段的特征向量输入到图像描述文段生成器中生成图像描述文段;构建精细化图,定义精细化实体对的特征向量和区域特征向量的方法,迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量,至达到最大迭代次数为止。本发明提高了图像场景图谱生成的效果。
Description
技术领域
本发明涉及图像场景图谱表示学习领域,具体公开一种基于迭代精细化的图像场景图谱生成方法。
背景技术
图像场景图谱是对一幅图像所描绘场景的抽象的、结构化的表示。具体来说,图像场景图谱以图像场景图谱关系三元组(头部实体、关系、尾部实体)和图像场景图谱属性三元组(实体、属性类型、属性)的方式记录了图像中的实体、实体的属性以及实体两两之间的关系,并且每个实体在图像中都有一个对应的包围盒。图像场景图谱最先由Johnson等人提出,近来在计算机视觉和人工智能领域受到了关注,并有相关的研究成果,例如:利用图像场景图谱检索图像;从事先外部语料库学习的词向量中检索实体的词向量来辅助视觉问答;利用物体检测器和关系检测器生成图像场景图谱。
近年来,图像生成描述文段的方法也受到了人们的关注。图像生成描述文段涉及到为给定的图像生成人类可读的、非结构化的文本描述文段。图像的描述文段生成是计算机视觉和自然语言处理领域的交叉任务,能够完成从图像到文本的多模态转换,最早由Farhadi等人提出。该任务可具体形式化描述为:给定二元组(I,S),其中I表示图像,S表示图像的描述文段,描述文段可以由若干个句子组成;相关模型完成从图像I到描述文段S的多模态映射。该任务对人类而言非常简单,但是对机器来说非常困难,因为它涉及到理解图像的内容,还涉及到将理解到的内容翻译成自然语言。并且该任务,相较于其他图像理解任务而言,比如一句描述图像中的信息、图像场景分类等,对模型捕捉图像整体信息和细节信息的要求更高。融合自然语言处理技术和计算机视觉技术一直是处理这个任务的一大关键。
但是目前场景图谱表示学习方法存在不足,具体地:
(1)目前场景图谱表示学习没有考虑如何引入与图像有关的文本来提高表示学习的质量,特别是如何处理图像有关文本的实体数据。
(2)场景图谱表示学习的主要目的是用于图像问答,目前的模型仅考虑图像本身,忽略了图像上下文蕴含了图谱中结构信息,也不能融合多种其他异构信息。
(3)图像问答过程主要是利用自然语言来进行查询与推理,未引入文本信息,导致场景知识图谱表示能力较弱,更缺乏图像问答所必须的推理过程。
本发明涉及到的图像场景图谱生成方法的目标是给出一组缺少头部实体、关系或者尾部实体的图像场景图谱三元组查询,利用图像信息和其他可以利用的信息得出缺少部分的答案。上述图像场景图谱三元组生成具有重要的意义,因为任意一组图像场景图谱三元组生成都可以转化成一条自然语言的查询,是视觉问答的基础。
发明内容
本发明针对现有图像场景图谱生成所存在的问题,提出一种基于迭代精细化的图像场景图谱生成方法,利用图像描述文段包含的信息,迭代精细化图像场景图谱的视觉关系分类精度,从而达到提高图像场景图谱生成的效果。
本发明采用如下技术方案来实现:一种基于迭代精细化的图像场景图谱生成方法,包括以下步骤:
步骤1、输入图像场景图谱数据集及其参数,用深度神经网络提取图像场景图谱数据集中图像的视觉特征;
步骤2、结合训练集中的图像数据以及场景图谱数据,利用视觉信息和语义信息对实体对之间的视觉关系做分类,生成图像场景图谱;
步骤3、用区域检测器产生出若干个区域包围盒和对应的每个区域的特征向量,优选地,融合区域特征向量得到图像描述文段的特征向量;将图像描述文段的特征向量输入到图像描述文段生成器中,以生成图像描述文段;
步骤4、构建精细化图,优选地,定义精细化实体对的特征向量和区域特征向量的方法,精细化特征向量后,迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量这三个步骤直到达到最大迭代次数为止。
与现有技术相比,本发明取得了如下有益效果:促进图像场景图谱生成和图像描述文段生成这两个任务的信息交流,利用图像描述文段包含的信息,迭代精细化图像场景图谱的视觉关系分类精度,提高了图像场景图谱生成的效果。
附图说明
图1为本发明基于迭代精细的图像场景图谱生成方法的整体流程图;
图2为图像场景图谱生成中的视觉关系多分类训练流程图;
图3为图像描述文段的生成流程图;
图4为迭代特征精细化处理流程图。
具体实施方式
下面结合附图和实施对本发明做详细描述,但本发明的实施方式不限于此。
本发明综合考虑人工智能领域中图像场景图谱生成和图像描述文段生成这两个重要的图像理解任务,通过迭代的方法促进上述两个任务的信息交流,提高图像场景图谱生成的效果。上述两个任务都涉及图像场景的语义理解,但是对于图像描述文段生成这个任务来说,是图像理解中持续受人们关注的任务,同时也是一个非常有挑战的任务,因为它侧重于解决如何让机器从整体的、一致性的和完整的角度描述图像内容这个问题。而对于图像场景图谱生成这个任务来说,一方面,它的挑战点在如何更好地从有限的信息中学习到正确识别分类实体之间的多种多样的视觉关系,而另一方面,这个任务又能表现出对图像的完整结构化表示。这两个任务理论上可以通过信息交流实现优势互补。
本发明提出一种迭代精细化的生成方法来达到上述两个任务间的信息交流。给定一张图片,本发明的输入包括图像本身和它对应的场景描述文段。首先,在图像描述文段生成任务中,用区域检测器产生出若干个区域包围盒和对应的每个区域的特征向量,用池化的方法融合区域特征向量,得到描述文段的特征向量。接着,将描述文段特征向量输入到图像描述文段生成器中,以生成图像描述文段,其中图像描述文段生成器可采用层级神经网络,层级神经网络结构由一个句循环神经网络S-RNN和一个词循环神经网络W-RNN构成,S-RNN用于决定生成问图像描述文段的句子数目和句子特征向量,而W-RNN取句子特征向量作为输入,生成翻译句子的具体单词。其次,在图像场景图谱生成任务中,利用物体检测器定位到图像中的若干个实体包围盒,每个包围盒标注着预测出来的实体类别。假设实体包围盒的数目为N,初始化一个二维矩阵M,使得矩阵的大小为N乘以N,矩阵中的每个元素M(i,j)表示图像中第i个实体到第j个实体之间的关系分类。当两个实体之间没有关系的时候,M(i,j)的值为0。初始化时矩阵M中的所有元素为0。穷举实体对,合并实体对的包围盒,得到N*N个合并包围盒,然后用训练好的深度神经网络提取图像整体的视觉三维特征矩阵,对于每个合并包围盒,从该视觉三维特征矩阵中对应位置取出局部特征矩阵,用全连接神经网络将取出来的特征矩阵映射为一个向量,得到每一个合并包围盒的特征向量。用所有的合并包围盒特征向量,训练一个视觉关系多分类器。在训练图像描述文段生成器和视觉关系多分类器的时候,使用迭代的方法精细化区域特征向量和合并包围盒的特征向量。最后做实验检测图像场景图谱生成的效果,对本发明提出的方法做评估,验证基于迭代精细化方法的有效性,实验内容包括链接预测和分类测试。
在本实施例中,记输入图像为I,图像场景图谱实体集为E;对应的图像描述文段为P;图像场景图谱的视觉关系集为R;给定一个实体对(i,j),其对应的视觉关系分类标签是yi,j;视觉关系分类矩阵为M。
如图1所示,本发明基于迭代精细化的图像场景图谱生成方法,包括以下步骤:
步骤1、输入图像场景图谱数据集及其参数,图像场景图谱数据集包括训练集、测试集和验证集,用深度神经网络提取图像场景图谱数据集中图像的视觉特征;
(11)、输入训练集的图像数据I,对数据集中的图像进行预处理,将图像的大小调整成统一的规格,设定最大迭代次数。
(12)、随机初始化图像场景图谱实体对编码、视觉关系分类过程和描述文段生成过程中各自的神经网络以及视觉关系分类矩阵M。
(13)、取预训练好的深度神经网络,输入步骤(11)预处理过的图像,得到图像整体的视觉三维特征矩阵。
步骤2、如图2所示,结合训练集中的图像数据以及场景图谱数据,利用视觉信息和语义信息对实体对之间的视觉关系做分类,生成图像场景图谱;
(21)对图像场景图谱实体对进行视觉特征编码,得到实体对的视觉特征向量v(h,t);
a)对于输入的图像数据I,用训练好的物体检测器(object detector)生成若干个实体包围盒,每个实体包围盒标注着被预测出来的实体类别,对应于图像场景图谱的每一个实体,得到图像数据的实体集E。
b)取图像场景图谱的头部实体h的包围盒βh=(xh,yh,x'h,y'h)和尾部实体t的包围盒βt=(xt,yt,x't,y't),其中x,y表示包围盒左上角的坐标,x',y'表示包围盒右下角的坐标,实体对(h,t)的合并包围盒为β(h,t)=(xmin,ymin,xmax,ymax),其中:xmin=min(xh,xt),ymin=min(yh,yt),xmax=max(x'h,x't),ymax=max(y'h,y't)。
c)从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个实体对的合并包围盒β(h,t)的对应区域的特征I(h,t)。
d)将每个实体对的合并包围盒的对应区域的特征I(h,t)用双线性插值法调整为规定的大小后通过卷积神经网络和外加的一层实体全连接神经网络层,编码得到实体对的视觉特征向量v(h,t)。
(22)在图像数据I的实体集E中,任取两个实体,组成一个实体对p=(h,t),取两个实体包围盒的被预测出来的实体类别,在Word2Vec模型中获取到对应语义特征向量wh和wt。
(23)将语义特征向量wh、wt和视觉特征向量v(h,t)共三个向量依次输入到一个单层双向循环神经网络(Bi-RNN)中,得到的输出是一个N+1维度的概率分布向量yh,t;其中维度中的N表示视觉关系集R的大小,1表示“不相关”分类。取出概率分布向量yh,t的组成元素中最大元素的索引作视觉分类的结果。穷取图像数据I的实体集E中的所有实体对,得到图像图像I的所有实体对之间的视觉分类结果。实体对之间的视觉分类结果构成视觉关系矩阵Μ。Μ的大小为||E||*||E||。||E||表示实体集E的大小。
(24)计算视觉关系分类的准确率和平均损失,用随机梯度下降算法进行用于生成图像场景图谱的神经网络中各层参数的反向传播得到梯度值并更新用于生成图像场景图谱的神经网络参数。
步骤3、如图3所示,生成图像描述文段;
(31)输入一张图像数据I,区域检测器输出若干个区域包围盒,从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个区域包围盒对应的特征矩阵Ir。
(32)将特征矩阵Ir用双线性插值法调整为规定的大小后通过卷积神经网络和外加的一层实体全连接神经网络层,编码得到每个区域包围盒的视觉特征向量vi。
(33)用池化的方法将多个视觉特征向量v1,v2,...,vS融合成一个文本特征向量vr,计算方法如下:
其中S为生成的区域包围盒的数目。
(34)使用由句循环神经网络和词循环神经网络构成的层级神经网络生成图像描述文段,具体如下:
a)取文本特征向量vr作为句循环神经网络的输入,输出若干个主题向量ti。在这里,句循环神经网络是一个单层的LSTM结构,初始化时将隐藏层和细胞状态均初始化为零。在每一个时间步长里,句循环神经网络取一个文本特征向量vr作为输入,产生一系列的隐层状态h1,h2,...,hs。每一个隐层状态有两个用途,一是用投影矩阵对隐层状态hi做投影,再通过一个逻辑回归分类器得到分布pi,分布pi的值介于CONTINUE=0和STOP=1之间,可以用于判断当前的句子是不是成段文本描述的最后一句;二是作为输入,输入到一个两层全连接网络的神经网络中,用来生成主题向量ti。一个主题向量对应一个生成的句子。
b)将句循环神经网络输出的主题向量ti作为词循环神经网络的输入,得到对应句子的具体单词。在这里,词循环神经网络由两层标准的LSTM组成,它的第一个输入和第二个输入分别是主题向量ti和START标注,随后的输入为句子中单词的词向量。在每一个时间步长中,LSTM的隐层状态被用于预测此词汇表中单词的分布或者用于预测END这个特殊信号来表述句子的结束。最后,将词循环神经网络生成的所有句子拼接在一起,得到生成的成段图像描述文段。
(35)得到成段图像描述文段后,计算图像描述文段生成器的损失值,用随机梯度下降算法进行层级神经网络中各层参数的反向传播得到梯度值并更新层级神经网络参数。图像描述文段生成器的损失值采用损失函数计算,损失函数定义如下:
其中,x表示给定的图像,y表示图像场景图谱数据集中图像对应的标准图像描述文段,y有C个句子,第i个句子中有Ni个单词,yij表示是第i个句子第j个单词的词向量,pij表示第i个句子在词神经网络的第j个步长的输出。λ(x,y)是句子损失λsent和单词损失λword两个交叉熵的加权和。
步骤4、如图4所示,构建精细化图,定义精细化实体对的特征向量和区域特征向量的方法,精细化特征向量后,迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量这三个步骤直到达到最大迭代次数为止。
(41)构建精细化图:对于给定的图像,图中包含两种节点:区域节点(与区域包围盒一一对应)和实体对节点。其中区域节点有S个(区域节点的数量即区域包围盒的数目),实体对节点有N*N个,N是图像中实体包围盒的数目。任取一个区域节点,如果对应区域包围盒包含某个实体对的两个实体包围盒,那么将该区域节点分别与该实体对的两个实体的节点连一条边。
(42)精细化实体对的特征向量,其计算过程如下:
其中,表示与第i个实体对节点连接的所有区域节点的特征的融合;Er,p表示精细化图中区域节点和实体对节点之间的边的集合;函数σ<r,p>表示“区域-实体对”连接的门控函数;表示精细化后的实体对特征;表示区域特征向量,即步骤(32)中的vi;表示实体对特征向量,即步骤(21)中的v(h,t);表示模板向量,G表示模板向量的个数。
(43)精细化区域特征向量,其计算过程如下:
其中,表示和第k个区域节点连接的所有实体对节点的特征的融合;Ep,r表示精细化图中实体对节点与区域对节点之间的边的集合;函数σ<p,r>表示“实体对-区域”连接的门控函数;表示精细化后的区域特征;表示区域特征向量,即步骤(32)中的vi;表示实体对特征向量,即步骤(21)中的v(h,t);表示模板向量,G表示模板向量的个数。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于迭代精细化的图像场景图谱生成方法,其特征在于,包括以下步骤:
步骤1、输入图像场景图谱数据集及其参数,用深度神经网络提取图像场景图谱数据集中图像的视觉特征;
步骤2、结合训练集中的图像数据以及场景图谱数据,利用视觉信息和语义信息对实体对之间的视觉关系做分类,生成图像场景图谱;
步骤3、用区域检测器产生出若干个区域包围盒和对应的每个区域的特征向量,融合区域特征向量得到图像描述文段的特征向量;将图像描述文段的特征向量输入到图像描述文段生成器中,以生成图像描述文段;
步骤4、构建精细化图,定义精细化实体对的特征向量和区域特征向量的方法,精细化特征向量后,迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量这三个步骤直到达到最大迭代次数为止。
2.根据权利要求1所述的图像场景图谱生成方法,其特征在于,图像场景图谱数据集包括训练集、测试集和验证集;步骤1包括如下步骤:
(11)、输入训练集的图像数据I,对数据集中的图像进行预处理,将图像的大小调整成统一的规格,设定最大迭代次数;
(12)、随机初始化图像场景图谱实体对编码、视觉关系分类过程和描述文段生成过程中各自的神经网络以及视觉关系分类矩阵M;
(13)、取预训练好的深度神经网络,输入步骤(11)预处理过的图像,得到图像整体的视觉三维特征矩阵。
3.根据权利要求2所述的图像场景图谱生成方法,其特征在于,步骤2包括如下步骤:
(21)对图像场景图谱实体对进行视觉特征编码,得到实体对的视觉特征向量v(h,t);
(22)在图像数据I的实体集E中,任取两个实体,组成一个实体对p=(h,t),取两个实体包围盒的被预测出来的实体类别,获取对应语义特征向量wh和wt;
(23)将语义特征向量wh、wt和视觉特征向量v(h,t)依次输入到一个单层双向循环神经网络中,得到一个N+1维度的概率分布向量yh,t输出;取出概率分布向量yh,t的组成元素中最大元素的索引作视觉分类的结果;穷取图像数据I的实体集中的所有实体对,得到所有实体对之间的视觉分类结果,实体对之间的视觉分类结果构成视觉关系矩阵Μ;
(24)计算视觉关系分类的准确率和平均损失,用随机梯度下降算法进行用于生成图像场景图谱的神经网络中各层参数的反向传播得到梯度值,并更新用于生成图像场景图谱的神经网络参数。
4.根据权利要求3所述的图像场景图谱生成方法,其特征在于,步骤(21)包括如下步骤:
(211)对图像数据I用训练好的物体检测器生成若干个实体包围盒,每个实体包围盒标注着被预测出来的实体类别,对应于图像场景图谱的每一个实体;
(212)取图像场景图谱的头部实体h的包围盒βh=(xh,yh,x'h,y'h)和尾部实体t的包围盒βt=(xt,yt,x't,y't),其中x,y表示包围盒左上角的坐标,x',y'表示包围盒右下角的坐标,实体对(h,t)的合并包围盒为β(h,t)=(xmin,ymin,xmax,ymax),其中:xmin=min(xh,xt),ymin=min(yh,yt),xmax=max(x'h,x't),ymax=max(y'h,y't);
(213)从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个实体对的合并包围盒β(h,t)的对应区域的特征I(h,t);
(214)将每个实体对的合并包围盒的对应区域的特征I(h,t)通过卷积神经网络和外加的一层实体全连接神经网络层,编码得到实体对的视觉特征向量v(h,t)。
5.根据权利要求2所述的图像场景图谱生成方法,其特征在于,步骤3包括如下步骤:
(31)输入一张图像,区域检测器输出若干个区域包围盒,从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个区域包围盒对应的特征矩阵Ir;
(32)将特征矩阵Ir通过卷积神经网络和外加的一层实体全连接神经网络层,编码得到每个区域包围盒的视觉特征向量vi;
(33)用池化的方法将多个视觉特征向量v1,v2,...,vS融合成一个文本特征向量vr;
(34)使用层级神经网络生成图像描述文段;
(35)计算图像描述文段生成器的损失值,用随机梯度下降算法进行层级神经网络中各层参数的反向传播得到梯度值并更新层级神经网络参数。
6.根据权利要求5所述的图像场景图谱生成方法,其特征在于,所述层级神经网络由一个句循环神经网络S-RNN和一个词循环神经网络W-RNN构成,S-RNN用于决定生成问图像描述文段的句子数目和句子特征向量,而W-RNN取句子特征向量作为输入,生成翻译句子的具体单词。
7.根据权利要求5所述的图像场景图谱生成方法,其特征在于,所述层级神经网络包括句循环神经网络和词循环神经网络,步骤(34)包括:
a)取文本特征向量vr作为句循环神经网络的输入,输出若干个主题向量ti;
b)将句循环神经网络输出的主题向量ti作为词循环神经网络的输入,得到对应句子的具体单词;将词循环神经网络生成的所有句子拼接在一起,得到生成的成段图像描述文段。
8.根据权利要求6所述的图像场景图谱生成方法,其特征在于,句循环神经网络是一个单层的LSTM结构,初始化时将隐藏层和细胞状态均初始化为零;在每一个时间步长里,句循环神经网络取一个文本特征向量vr作为输入,产生一系列的隐层状态h1,h2,...,hs;词循环神经网络由两层标准的LSTM组成,在每一个时间步长中,LSTM的隐层状态被用于预测此词汇表中单词的分布或者用于预测END来表述句子的结束。
9.根据权利要求1所述的图像场景图谱生成方法,其特征在于,精细化实体对的特征向量的计算过程如下:
其中,表示与第i个实体对节点连接的所有区域节点的特征的融合;Er,p表示精细化图中区域节点和实体对节点之间的边的集合;函数σ<r,p>表示“区域-实体对”连接的门控函数;表示精细化后的实体对特征;表示区域特征向量;表示实体对特征向量;表示模板向量,G表示模板向量的个数。
10.根据权利要求1所述的图像场景图谱生成方法,其特征在于,精细化区域特征向量的计算过程如下:
其中,表示和第k个区域节点连接的所有实体对节点的特征的融合;Ep,r表示精细化图中实体对节点与区域对节点之间的边的集合;函数σ<p,r>表示“实体对-区域”连接的门控函数;表示精细化后的区域特征;表示区域特征向量;表示实体对特征向量;表示模板向量,G表示模板向量的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910028169.0A CN109783666B (zh) | 2019-01-11 | 2019-01-11 | 一种基于迭代精细化的图像场景图谱生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910028169.0A CN109783666B (zh) | 2019-01-11 | 2019-01-11 | 一种基于迭代精细化的图像场景图谱生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109783666A true CN109783666A (zh) | 2019-05-21 |
CN109783666B CN109783666B (zh) | 2023-05-23 |
Family
ID=66500367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910028169.0A Active CN109783666B (zh) | 2019-01-11 | 2019-01-11 | 一种基于迭代精细化的图像场景图谱生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783666B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399518A (zh) * | 2019-06-17 | 2019-11-01 | 杭州电子科技大学 | 一种基于图卷积的视觉问答增强方法 |
CN110851622A (zh) * | 2019-11-12 | 2020-02-28 | 北京搜狐互联网信息服务有限公司 | 文本生成方法和装置 |
CN111104973A (zh) * | 2019-12-06 | 2020-05-05 | 天津大学 | 一种基于知识注意力的细粒度图像分类方法 |
CN111144492A (zh) * | 2019-12-27 | 2020-05-12 | 中山大学 | 面向移动端虚拟现实与增强现实的场景图谱生成方法 |
CN111159407A (zh) * | 2019-12-30 | 2020-05-15 | 北京明朝万达科技股份有限公司 | 训练实体识别和关系分类模型的方法、装置、设备及介质 |
CN111462282A (zh) * | 2020-04-02 | 2020-07-28 | 哈尔滨工程大学 | 一种场景图生成方法 |
CN112070852A (zh) * | 2019-06-10 | 2020-12-11 | 阿里巴巴集团控股有限公司 | 图像的生成方法和系统、数据处理方法 |
CN112612900A (zh) * | 2020-12-10 | 2021-04-06 | 大连理工大学 | 一种知识图谱指导的多张场景图像生成方法 |
CN112800920A (zh) * | 2021-01-21 | 2021-05-14 | 中山大学 | 一种基于多模态知识推理的公交主动安全预警方法 |
CN113449564A (zh) * | 2020-03-26 | 2021-09-28 | 上海交通大学 | 基于人体局部语义知识的行为图像分类方法 |
CN113568983A (zh) * | 2021-02-05 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 场景图生成方法、装置、计算机可读介质及电子设备 |
CN113836339A (zh) * | 2021-09-01 | 2021-12-24 | 淮阴工学院 | 一种基于全局信息和位置嵌入的场景图生成方法 |
CN114677520A (zh) * | 2022-03-22 | 2022-06-28 | 平安科技(深圳)有限公司 | 图像描述方法和装置、计算机设备、存储介质 |
CN115100643A (zh) * | 2022-08-26 | 2022-09-23 | 潍坊现代农业与生态环境研究院 | 融合三维场景语义的单目视觉定位增强方法和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254194A (zh) * | 2011-07-19 | 2011-11-23 | 清华大学 | 基于监督流形学习的场景分类方法及装置 |
CN102542285A (zh) * | 2011-08-03 | 2012-07-04 | 清华大学 | 基于谱图分析的图像集合的场景分类方法及装置 |
WO2016037300A1 (en) * | 2014-09-10 | 2016-03-17 | Xiaoou Tang | Method and system for multi-class object detection |
CN107885760A (zh) * | 2016-12-21 | 2018-04-06 | 桂林电子科技大学 | 一种基于多种语义的知识图谱表示学习方法 |
-
2019
- 2019-01-11 CN CN201910028169.0A patent/CN109783666B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254194A (zh) * | 2011-07-19 | 2011-11-23 | 清华大学 | 基于监督流形学习的场景分类方法及装置 |
CN102542285A (zh) * | 2011-08-03 | 2012-07-04 | 清华大学 | 基于谱图分析的图像集合的场景分类方法及装置 |
WO2016037300A1 (en) * | 2014-09-10 | 2016-03-17 | Xiaoou Tang | Method and system for multi-class object detection |
CN107885760A (zh) * | 2016-12-21 | 2018-04-06 | 桂林电子科技大学 | 一种基于多种语义的知识图谱表示学习方法 |
Non-Patent Citations (2)
Title |
---|
DANFEI XU等: "Scene graph generation by iterative message passing", 《HTTPS://DOI.ORG/10.48550/ARXIV.1701.02426》 * |
HAI WAN等: "Representation learning for scene graph completion via jointly structural and visual embedding", 《PROCEDDINGS OF THE 27TH INTERNATIONAL JOINT CONFERENCE ON ARTIFICAL INTELLIGENCE》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070852A (zh) * | 2019-06-10 | 2020-12-11 | 阿里巴巴集团控股有限公司 | 图像的生成方法和系统、数据处理方法 |
CN110399518B (zh) * | 2019-06-17 | 2021-12-10 | 杭州电子科技大学 | 一种基于图卷积的视觉问答增强方法 |
CN110399518A (zh) * | 2019-06-17 | 2019-11-01 | 杭州电子科技大学 | 一种基于图卷积的视觉问答增强方法 |
CN110851622A (zh) * | 2019-11-12 | 2020-02-28 | 北京搜狐互联网信息服务有限公司 | 文本生成方法和装置 |
CN111104973A (zh) * | 2019-12-06 | 2020-05-05 | 天津大学 | 一种基于知识注意力的细粒度图像分类方法 |
CN111144492A (zh) * | 2019-12-27 | 2020-05-12 | 中山大学 | 面向移动端虚拟现实与增强现实的场景图谱生成方法 |
CN111144492B (zh) * | 2019-12-27 | 2023-03-28 | 中山大学 | 面向移动端虚拟现实与增强现实的场景图谱生成方法 |
CN111159407A (zh) * | 2019-12-30 | 2020-05-15 | 北京明朝万达科技股份有限公司 | 训练实体识别和关系分类模型的方法、装置、设备及介质 |
CN111159407B (zh) * | 2019-12-30 | 2022-01-28 | 北京明朝万达科技股份有限公司 | 训练实体识别和关系分类模型的方法、装置、设备及介质 |
CN113449564B (zh) * | 2020-03-26 | 2022-09-06 | 上海交通大学 | 基于人体局部语义知识的行为图像分类方法 |
CN113449564A (zh) * | 2020-03-26 | 2021-09-28 | 上海交通大学 | 基于人体局部语义知识的行为图像分类方法 |
CN111462282A (zh) * | 2020-04-02 | 2020-07-28 | 哈尔滨工程大学 | 一种场景图生成方法 |
CN111462282B (zh) * | 2020-04-02 | 2023-01-03 | 哈尔滨工程大学 | 一种场景图生成方法 |
CN112612900A (zh) * | 2020-12-10 | 2021-04-06 | 大连理工大学 | 一种知识图谱指导的多张场景图像生成方法 |
CN112800920A (zh) * | 2021-01-21 | 2021-05-14 | 中山大学 | 一种基于多模态知识推理的公交主动安全预警方法 |
CN112800920B (zh) * | 2021-01-21 | 2024-02-23 | 中山大学 | 一种基于多模态知识推理的公交主动安全预警方法 |
CN113568983A (zh) * | 2021-02-05 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 场景图生成方法、装置、计算机可读介质及电子设备 |
CN113568983B (zh) * | 2021-02-05 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 场景图生成方法、装置、计算机可读介质及电子设备 |
CN113836339A (zh) * | 2021-09-01 | 2021-12-24 | 淮阴工学院 | 一种基于全局信息和位置嵌入的场景图生成方法 |
CN113836339B (zh) * | 2021-09-01 | 2023-09-26 | 淮阴工学院 | 一种基于全局信息和位置嵌入的场景图生成方法 |
CN114677520A (zh) * | 2022-03-22 | 2022-06-28 | 平安科技(深圳)有限公司 | 图像描述方法和装置、计算机设备、存储介质 |
CN115100643A (zh) * | 2022-08-26 | 2022-09-23 | 潍坊现代农业与生态环境研究院 | 融合三维场景语义的单目视觉定位增强方法和设备 |
CN115100643B (zh) * | 2022-08-26 | 2022-11-11 | 潍坊现代农业与生态环境研究院 | 融合三维场景语义的单目视觉定位增强方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109783666B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN111488734B (zh) | 基于全局交互和句法依赖的情感特征表示学习系统及方法 | |
CN108829677B (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
JP7128022B2 (ja) | 完全教師あり学習用のデータセットの形成 | |
CN108416065B (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
Kae et al. | Augmenting CRFs with Boltzmann machine shape priors for image labeling | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
WO2014205231A1 (en) | Deep learning framework for generic object detection | |
CN102902821A (zh) | 基于网络热点话题的图像高级语义标注、检索方法及装置 | |
Lin et al. | Deep structured scene parsing by learning with image descriptions | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112949647A (zh) | 三维场景描述方法、装置、电子设备和存储介质 | |
Zhang et al. | Hierarchical scene parsing by weakly supervised learning with image descriptions | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN116611071A (zh) | 一种基于多模态的函数级漏洞检测的方法 | |
CN115221369A (zh) | 视觉问答的实现方法和基于视觉问答检验模型的方法 | |
CN116385937A (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN114880307A (zh) | 一种开放教育领域知识的结构化建模方法 | |
Wu et al. | Sentimental visual captioning using multimodal transformer | |
Wang et al. | Hierarchical GAN-Tree and Bi-Directional Capsules for multi-label image classification | |
Yu | Analysis of task degree of English learning based on deep learning framework and image target recognition | |
Vijayaraju | Image retrieval using image captioning | |
CN114511813B (zh) | 视频语义描述方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |