CN109783666B - 一种基于迭代精细化的图像场景图谱生成方法 - Google Patents

一种基于迭代精细化的图像场景图谱生成方法 Download PDF

Info

Publication number
CN109783666B
CN109783666B CN201910028169.0A CN201910028169A CN109783666B CN 109783666 B CN109783666 B CN 109783666B CN 201910028169 A CN201910028169 A CN 201910028169A CN 109783666 B CN109783666 B CN 109783666B
Authority
CN
China
Prior art keywords
image
entity
neural network
scene graph
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910028169.0A
Other languages
English (en)
Other versions
CN109783666A (zh
Inventor
万海
肖逸凡
曾娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910028169.0A priority Critical patent/CN109783666B/zh
Publication of CN109783666A publication Critical patent/CN109783666A/zh
Application granted granted Critical
Publication of CN109783666B publication Critical patent/CN109783666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开一种基于迭代精细化的图像场景图谱生成方法,涉及图像场景图谱领域,包括步骤:输入图像场景图谱数据集及其参数,提取图像的视觉特征;结合训练集中的图像数据以及场景图谱数据,利用视觉信息和语义信息对实体对之间的视觉关系做分类,生成图像场景图谱;产生出若干个区域包围盒和对应的每个区域的特征向量,融合区域特征向量得到图像描述文段的特征向量;将图像描述文段的特征向量输入到图像描述文段生成器中生成图像描述文段;构建精细化图,定义精细化实体对的特征向量和区域特征向量的方法,迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量,至达到最大迭代次数为止。本发明提高了图像场景图谱生成的效果。

Description

一种基于迭代精细化的图像场景图谱生成方法
技术领域
本发明涉及图像场景图谱表示学习领域,具体公开一种基于迭代精细化的图像场景图谱生成方法。
背景技术
图像场景图谱是对一幅图像所描绘场景的抽象的、结构化的表示。具体来说,图像场景图谱以图像场景图谱关系三元组(头部实体、关系、尾部实体)和图像场景图谱属性三元组(实体、属性类型、属性)的方式记录了图像中的实体、实体的属性以及实体两两之间的关系,并且每个实体在图像中都有一个对应的包围盒。图像场景图谱最先由Johnson等人提出,近来在计算机视觉和人工智能领域受到了关注,并有相关的研究成果,例如:利用图像场景图谱检索图像;从事先外部语料库学习的词向量中检索实体的词向量来辅助视觉问答;利用物体检测器和关系检测器生成图像场景图谱。
近年来,图像生成描述文段的方法也受到了人们的关注。图像生成描述文段涉及到为给定的图像生成人类可读的、非结构化的文本描述文段。图像的描述文段生成是计算机视觉和自然语言处理领域的交叉任务,能够完成从图像到文本的多模态转换,最早由Farhadi等人提出。该任务可具体形式化描述为:给定二元组(I,S),其中I表示图像,S表示图像的描述文段,描述文段可以由若干个句子组成;相关模型完成从图像I到描述文段S的多模态映射。该任务对人类而言非常简单,但是对机器来说非常困难,因为它涉及到理解图像的内容,还涉及到将理解到的内容翻译成自然语言。并且该任务,相较于其他图像理解任务而言,比如一句描述图像中的信息、图像场景分类等,对模型捕捉图像整体信息和细节信息的要求更高。融合自然语言处理技术和计算机视觉技术一直是处理这个任务的一大关键。
但是目前场景图谱表示学习方法存在不足,具体地:
(1)目前场景图谱表示学习没有考虑如何引入与图像有关的文本来提高表示学习的质量,特别是如何处理图像有关文本的实体数据。
(2)场景图谱表示学习的主要目的是用于图像问答,目前的模型仅考虑图像本身,忽略了图像上下文蕴含了图谱中结构信息,也不能融合多种其他异构信息。
(3)图像问答过程主要是利用自然语言来进行查询与推理,未引入文本信息,导致场景知识图谱表示能力较弱,更缺乏图像问答所必须的推理过程。
本发明涉及到的图像场景图谱生成方法的目标是给出一组缺少头部实体、关系或者尾部实体的图像场景图谱三元组查询,利用图像信息和其他可以利用的信息得出缺少部分的答案。上述图像场景图谱三元组生成具有重要的意义,因为任意一组图像场景图谱三元组生成都可以转化成一条自然语言的查询,是视觉问答的基础。
发明内容
本发明针对现有图像场景图谱生成所存在的问题,提出一种基于迭代精细化的图像场景图谱生成方法,利用图像描述文段包含的信息,迭代精细化图像场景图谱的视觉关系分类精度,从而达到提高图像场景图谱生成的效果。
本发明采用如下技术方案来实现:一种基于迭代精细化的图像场景图谱生成方法,包括以下步骤:
步骤1、输入图像场景图谱数据集及其参数,用深度神经网络提取图像场景图谱数据集中图像的视觉特征;
步骤2、结合训练集中的图像数据以及场景图谱数据,利用视觉信息和语义信息对实体对之间的视觉关系做分类,生成图像场景图谱;
步骤3、用区域检测器产生出若干个区域包围盒和对应的每个区域的特征向量,优选地,融合区域特征向量得到图像描述文段的特征向量;将图像描述文段的特征向量输入到图像描述文段生成器中,以生成图像描述文段;
步骤4、构建精细化图,优选地,定义精细化实体对的特征向量和区域特征向量的方法,精细化特征向量后,迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量这三个步骤直到达到最大迭代次数为止。
与现有技术相比,本发明取得了如下有益效果:促进图像场景图谱生成和图像描述文段生成这两个任务的信息交流,利用图像描述文段包含的信息,迭代精细化图像场景图谱的视觉关系分类精度,提高了图像场景图谱生成的效果。
附图说明
图1为本发明基于迭代精细的图像场景图谱生成方法的整体流程图;
图2为图像场景图谱生成中的视觉关系多分类训练流程图;
图3为图像描述文段的生成流程图;
图4为迭代特征精细化处理流程图。
具体实施方式
下面结合附图和实施对本发明做详细描述,但本发明的实施方式不限于此。
本发明综合考虑人工智能领域中图像场景图谱生成和图像描述文段生成这两个重要的图像理解任务,通过迭代的方法促进上述两个任务的信息交流,提高图像场景图谱生成的效果。上述两个任务都涉及图像场景的语义理解,但是对于图像描述文段生成这个任务来说,是图像理解中持续受人们关注的任务,同时也是一个非常有挑战的任务,因为它侧重于解决如何让机器从整体的、一致性的和完整的角度描述图像内容这个问题。而对于图像场景图谱生成这个任务来说,一方面,它的挑战点在如何更好地从有限的信息中学习到正确识别分类实体之间的多种多样的视觉关系,而另一方面,这个任务又能表现出对图像的完整结构化表示。这两个任务理论上可以通过信息交流实现优势互补。
本发明提出一种迭代精细化的生成方法来达到上述两个任务间的信息交流。给定一张图片,本发明的输入包括图像本身和它对应的场景描述文段。首先,在图像描述文段生成任务中,用区域检测器产生出若干个区域包围盒和对应的每个区域的特征向量,用池化的方法融合区域特征向量,得到描述文段的特征向量。接着,将描述文段特征向量输入到图像描述文段生成器中,以生成图像描述文段,其中图像描述文段生成器可采用层级神经网络,层级神经网络结构由一个句循环神经网络S-RNN和一个词循环神经网络W-RNN构成,S-RNN用于决定生成问图像描述文段的句子数目和句子特征向量,而W-RNN取句子特征向量作为输入,生成翻译句子的具体单词。其次,在图像场景图谱生成任务中,利用物体检测器定位到图像中的若干个实体包围盒,每个包围盒标注着预测出来的实体类别。假设实体包围盒的数目为N,初始化一个二维矩阵M,使得矩阵的大小为N乘以N,矩阵中的每个元素M(i,j)表示图像中第i个实体到第j个实体之间的关系分类。当两个实体之间没有关系的时候,M(i,j)的值为0。初始化时矩阵M中的所有元素为0。穷举实体对,合并实体对的包围盒,得到N*N个合并包围盒,然后用训练好的深度神经网络提取图像整体的视觉三维特征矩阵,对于每个合并包围盒,从该视觉三维特征矩阵中对应位置取出局部特征矩阵,用全连接神经网络将取出来的特征矩阵映射为一个向量,得到每一个合并包围盒的特征向量。用所有的合并包围盒特征向量,训练一个视觉关系多分类器。在训练图像描述文段生成器和视觉关系多分类器的时候,使用迭代的方法精细化区域特征向量和合并包围盒的特征向量。最后做实验检测图像场景图谱生成的效果,对本发明提出的方法做评估,验证基于迭代精细化方法的有效性,实验内容包括链接预测和分类测试。
在本实施例中,记输入图像为I,图像场景图谱实体集为E;对应的图像描述文段为P;图像场景图谱的视觉关系集为R;给定一个实体对(i,j),其对应的视觉关系分类标签是yi,j;视觉关系分类矩阵为M。
如图1所示,本发明基于迭代精细化的图像场景图谱生成方法,包括以下步骤:
步骤1、输入图像场景图谱数据集及其参数,图像场景图谱数据集包括训练集、测试集和验证集,用深度神经网络提取图像场景图谱数据集中图像的视觉特征;
(11)、输入训练集的图像数据I,对数据集中的图像进行预处理,将图像的大小调整成统一的规格,设定最大迭代次数。
(12)、随机初始化图像场景图谱实体对编码、视觉关系分类过程和描述文段生成过程中各自的神经网络以及视觉关系分类矩阵M。
(13)、取预训练好的深度神经网络,输入步骤(11)预处理过的图像,得到图像整体的视觉三维特征矩阵。
步骤2、如图2所示,结合训练集中的图像数据以及场景图谱数据,利用视觉信息和语义信息对实体对之间的视觉关系做分类,生成图像场景图谱;
(21)对图像场景图谱实体对进行视觉特征编码,得到实体对的视觉特征向量v(h,t)
a)对于输入的图像数据I,用训练好的物体检测器(object detector)生成若干个实体包围盒,每个实体包围盒标注着被预测出来的实体类别,对应于图像场景图谱的每一个实体,得到图像数据的实体集E。
b)取图像场景图谱的头部实体h的包围盒βh=(xh,yh,x'h,y'h)和尾部实体t的包围盒βt=(xt,yt,x't,y't),其中x,y表示包围盒左上角的坐标,x',y'表示包围盒右下角的坐标,实体对(h,t)的合并包围盒为β(h,t)=(xmin,ymin,xmax,ymax),其中:xmin=min(xh,xt),ymin=min(yh,yt),xmax=max(x'h,x't),ymax=max(y'h,y't)。
c)从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个实体对的合并包围盒β(h,t)的对应区域的特征I(h,t)
d)将每个实体对的合并包围盒的对应区域的特征I(h,t)用双线性插值法调整为规定的大小后通过卷积神经网络和外加的一层实体全连接神经网络层,编码得到实体对的视觉特征向量v(h,t)
(22)在图像数据I的实体集E中,任取两个实体,组成一个实体对p=(h,t),取两个实体包围盒的被预测出来的实体类别,在Word2Vec模型中获取到对应语义特征向量wh和wt
(23)将语义特征向量wh、wt和视觉特征向量v(h,t)共三个向量依次输入到一个单层双向循环神经网络(Bi-RNN)中,得到的输出是一个N+1维度的概率分布向量yh,t;其中维度中的N表示视觉关系集R的大小,1表示“不相关”分类。取出概率分布向量yh,t的组成元素中最大元素的索引作视觉分类的结果。穷取图像数据I的实体集E中的所有实体对,得到图像图像I的所有实体对之间的视觉分类结果。实体对之间的视觉分类结果构成视觉关系矩阵Μ。Μ的大小为||E||*||E||。||E||表示实体集E的大小。
(24)计算视觉关系分类的准确率和平均损失,用随机梯度下降算法进行用于生成图像场景图谱的神经网络中各层参数的反向传播得到梯度值并更新用于生成图像场景图谱的神经网络参数。
步骤3、如图3所示,生成图像描述文段;
(31)输入一张图像数据I,区域检测器输出若干个区域包围盒,从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个区域包围盒对应的特征矩阵Ir
(32)将特征矩阵Ir用双线性插值法调整为规定的大小后通过卷积神经网络和外加的一层实体全连接神经网络层,编码得到每个区域包围盒的视觉特征向量vi
(33)用池化的方法将多个视觉特征向量v1,v2,...,vS融合成一个文本特征向量vr,计算方法如下:
Figure BDA0001943269710000051
其中S为生成的区域包围盒的数目。
(34)使用由句循环神经网络和词循环神经网络构成的层级神经网络生成图像描述文段,具体如下:
a)取文本特征向量vr作为句循环神经网络的输入,输出若干个主题向量ti。在这里,句循环神经网络是一个单层的LSTM结构,初始化时将隐藏层和细胞状态均初始化为零。在每一个时间步长里,句循环神经网络取一个文本特征向量vr作为输入,产生一系列的隐层状态h1,h2,...,hs。每一个隐层状态有两个用途,一是用投影矩阵对隐层状态hi做投影,再通过一个逻辑回归分类器得到分布pi,分布pi的值介于CONTINUE=0和STOP=1之间,可以用于判断当前的句子是不是成段文本描述的最后一句;二是作为输入,输入到一个两层全连接网络的神经网络中,用来生成主题向量ti。一个主题向量对应一个生成的句子。
b)将句循环神经网络输出的主题向量ti作为词循环神经网络的输入,得到对应句子的具体单词。在这里,词循环神经网络由两层标准的LSTM组成,它的第一个输入和第二个输入分别是主题向量ti和START标注,随后的输入为句子中单词的词向量。在每一个时间步长中,LSTM的隐层状态被用于预测此词汇表中单词的分布或者用于预测END这个特殊信号来表述句子的结束。最后,将词循环神经网络生成的所有句子拼接在一起,得到生成的成段图像描述文段。
(35)得到成段图像描述文段后,计算图像描述文段生成器的损失值,用随机梯度下降算法进行层级神经网络中各层参数的反向传播得到梯度值并更新层级神经网络参数。图像描述文段生成器的损失值采用损失函数计算,损失函数定义如下:
Figure BDA0001943269710000061
其中,x表示给定的图像,y表示图像场景图谱数据集中图像对应的标准图像描述文段,y有C个句子,第i个句子中有Ni个单词,yij表示是第i个句子第j个单词的词向量,pij表示第i个句子在词神经网络的第j个步长的输出。λ(x,y)是句子损失λsent和单词损失λword两个交叉熵的加权和。
步骤4、如图4所示,构建精细化图,定义精细化实体对的特征向量和区域特征向量的方法,精细化特征向量后,迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量这三个步骤直到达到最大迭代次数为止。
(41)构建精细化图:对于给定的图像,图中包含两种节点:区域节点(与区域包围盒一一对应)和实体对节点。其中区域节点有S个(区域节点的数量即区域包围盒的数目),实体对节点有N*N个,N是图像中实体包围盒的数目。任取一个区域节点,如果对应区域包围盒包含某个实体对的两个实体包围盒,那么将该区域节点分别与该实体对的两个实体的节点连一条边。
(42)精细化实体对的特征向量,其计算过程如下:
Figure BDA0001943269710000062
Figure BDA0001943269710000063
Figure BDA0001943269710000071
其中,
Figure BDA0001943269710000072
表示与第i个实体对节点连接的所有区域节点的特征的融合;Er,p表示精细化图中区域节点和实体对节点之间的边的集合;函数σ<r,p>表示“区域-实体对”连接的门控函数;/>
Figure BDA0001943269710000073
表示精细化后的实体对特征;/>
Figure BDA0001943269710000074
表示区域特征向量,即步骤(32)中的vi
Figure BDA0001943269710000075
表示实体对特征向量,即步骤(21)中的v(h,t);/>
Figure BDA0001943269710000076
表示模板向量,G表示模板向量的个数。
(43)精细化区域特征向量,其计算过程如下:
Figure BDA0001943269710000077
Figure BDA0001943269710000078
Figure BDA0001943269710000079
其中,
Figure BDA00019432697100000710
表示和第k个区域节点连接的所有实体对节点的特征的融合;Ep,r表示精细化图中实体对节点与区域对节点之间的边的集合;函数σ<p,r>表示“实体对-区域”连接的门控函数;/>
Figure BDA00019432697100000711
表示精细化后的区域特征;/>
Figure BDA00019432697100000712
表示区域特征向量,即步骤(32)中的vi
Figure BDA00019432697100000713
表示实体对特征向量,即步骤(21)中的v(h,t);/>
Figure BDA00019432697100000714
表示模板向量,G表示模板向量的个数。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种基于迭代精细化的图像场景图谱生成方法,其特征在于,包括以下步骤:
步骤1、输入图像场景图谱数据集及其参数,用深度神经网络提取图像场景图谱数据集中图像的视觉特征;
步骤2、结合训练集中的图像数据以及场景图谱数据,利用视觉信息和语义信息对实体对之间的视觉关系做分类,生成图像场景图谱;
步骤3、用区域检测器产生出若干个区域包围盒和对应的每个区域的特征向量,融合区域特征向量得到图像描述文段的特征向量;将图像描述文段的特征向量输入到图像描述文段生成器中,以生成图像描述文段;
步骤4、构建精细化图,定义精细化实体对的特征向量和区域特征向量的方法,精细化特征向量后,迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量这三个步骤直到达到最大迭代次数为止;
其中,步骤2包括如下步骤:
(21)对图像场景图谱实体对进行视觉特征编码,得到实体对的视觉特征向量;
(22)在图像数据I的实体集E中,任取两个实体,组成一个实体对p=(h,t),取两个实体包围盒的被预测出来的实体类别,获取对应语义特征向量wh和wt
(23)将语义特征向量wh、wt和视觉特征向量v(h,t)依次输入到一个单层双向循环神经网络中,得到一个N+1维度的概率分布向量yh,t输出;取出概率分布向量yh,t的组成元素中最大元素的索引作视觉分类的结果;穷取图像数据I的实体集中的所有实体对,得到所有实体对之间的视觉分类结果,实体对之间的视觉分类结果构成视觉关系矩阵Μ;
(24)计算视觉关系分类的准确率和平均损失,用随机梯度下降算法进行用于生成图像场景图谱的神经网络中各层参数的反向传播得到梯度值,并更新用于生成图像场景图谱的神经网络参数;
其中,步骤(21)包括如下步骤:
(211)对图像数据用训练好的物体检测器生成若干个实体包围盒,每个实体包围盒标注着被预测出来的实体类别,对应于图像场景图谱的每一个实体;
(212)取图像场景图谱的头部实体的包围盒和尾部实体的包围盒,根据图像场景图谱的头部实体的包围盒和尾部实体的包围盒,得到实体对的合并包围盒;
(213)从图像的视觉特征中截取出每个实体对的合并包围盒的对应区域的特征;
(214)将每个实体对的合并包围盒的对应区域的特征通过卷积神经网络和外加的一层实体全连接神经网络层,编码得到实体对的视觉特征向量。
2.根据权利要求1所述的图像场景图谱生成方法,其特征在于,图像场景图谱数据集包括训练集、测试集和验证集;步骤1包括如下步骤:
(11)、输入训练集的图像数据I,对数据集中的图像进行预处理,将图像的大小调整成统一的规格,设定最大迭代次数;
(12)、随机初始化图像场景图谱实体对编码、视觉关系分类过程和描述文段生成过程中各自的神经网络以及视觉关系分类矩阵M;
(13)、取预训练好的深度神经网络,输入步骤(11)预处理过的图像,得到图像整体的视觉三维特征矩阵。
3.根据权利要求2所述的图像场景图谱生成方法,其特征在于,步骤(21)包括如下步骤:
(211)对图像数据I用训练好的物体检测器生成若干个实体包围盒,每个实体包围盒标注着被预测出来的实体类别,对应于图像场景图谱的每一个实体;
(212)取图像场景图谱的头部实体h的包围盒βh=(xh,yh,x'h,y'h)和尾部实体t的包围盒βt=(xt,yt,x't,y't),其中x,y表示包围盒左上角的坐标,x',y'表示包围盒右下角的坐标,实体对(h,t)的合并包围盒为β(h,t)=(xmin,ymin,xmax,ymax),其中:xmin=min(xh,xt),ymin=min(yh,yt),xmax=max(x'h,x't),ymax=max(y'h,y't);
(213)从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个实体对的合并包围盒β(h,t)的对应区域的特征I(h,t)
(214)将每个实体对的合并包围盒的对应区域的特征I(h,t)通过卷积神经网络和外加的一层实体全连接神经网络层,编码得到实体对的视觉特征向量v(h,t)
4.根据权利要求2所述的图像场景图谱生成方法,其特征在于,步骤3包括如下步骤:
(31)输入一张图像,区域检测器输出若干个区域包围盒,从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个区域包围盒对应的特征矩阵Ir
(32)将特征矩阵Ir通过卷积神经网络和外加的一层实体全连接神经网络层,编码得到每个区域包围盒的视觉特征向量vi
(33)用池化的方法将多个视觉特征向量v1,v2,...,vS融合成一个文本特征向量vr
(34)使用层级神经网络生成图像描述文段;
(35)计算图像描述文段生成器的损失值,用随机梯度下降算法进行层级神经网络中各层参数的反向传播得到梯度值并更新层级神经网络参数。
5.根据权利要求4所述的图像场景图谱生成方法,其特征在于,所述层级神经网络由一个句循环神经网络S-RNN和一个词循环神经网络W-RNN构成,S-RNN用于决定生成问图像描述文段的句子数目和句子特征向量,而W-RNN取句子特征向量作为输入,生成翻译句子的具体单词。
6.根据权利要求4所述的图像场景图谱生成方法,其特征在于,所述层级神经网络包括句循环神经网络和词循环神经网络,步骤(34)包括:
a)取文本特征向量vr作为句循环神经网络的输入,输出若干个主题向量ti
b)将句循环神经网络输出的主题向量ti作为词循环神经网络的输入,得到对应句子的具体单词;将词循环神经网络生成的所有句子拼接在一起,得到生成的成段图像描述文段。
7.根据权利要求5所述的图像场景图谱生成方法,其特征在于,句循环神经网络是一个单层的LSTM结构,初始化时将隐藏层和细胞状态均初始化为零;在每一个时间步长里,句循环神经网络取一个文本特征向量vr作为输入,产生一系列的隐层状态h1,h2,...,hs;词循环神经网络由两层标准的LSTM组成,在每一个时间步长中,LSTM的隐层状态被用于预测此词汇表中单词的分布或者用于预测END来表述句子的结束。
8.根据权利要求1所述的图像场景图谱生成方法,其特征在于,精细化实体对的特征向量的计算过程如下:
Figure FDA0003831556330000031
/>
Figure FDA0003831556330000032
Figure FDA0003831556330000033
其中,
Figure FDA0003831556330000034
表示与第i个实体对节点连接的所有区域节点的特征的融合;Er,p表示精细化图中区域节点和实体对节点之间的边的集合;函数σ<r,p>表示“区域-实体对”连接的门控函数;/>
Figure FDA0003831556330000035
表示精细化后的实体对特征;/>
Figure FDA0003831556330000036
表示区域特征向量;/>
Figure FDA0003831556330000037
表示实体对特征向量;
Figure FDA0003831556330000038
表示模板向量,G表示模板向量的个数。
9.根据权利要求1所述的图像场景图谱生成方法,其特征在于,精细化区域特征向量的计算过程如下:
Figure FDA0003831556330000041
Figure FDA0003831556330000042
Figure FDA0003831556330000043
其中,
Figure FDA0003831556330000044
表示和第k个区域节点连接的所有实体对节点的特征的融合;Ep,r表示精细化图中实体对节点与区域对节点之间的边的集合;函数σ<p,r>表示“实体对-区域”连接的门控函数;/>
Figure FDA0003831556330000045
表示精细化后的区域特征;/>
Figure FDA0003831556330000046
表示区域特征向量;/>
Figure FDA0003831556330000047
表示实体对特征向量;
Figure FDA0003831556330000048
表示模板向量,G表示模板向量的个数。/>
CN201910028169.0A 2019-01-11 2019-01-11 一种基于迭代精细化的图像场景图谱生成方法 Active CN109783666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910028169.0A CN109783666B (zh) 2019-01-11 2019-01-11 一种基于迭代精细化的图像场景图谱生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910028169.0A CN109783666B (zh) 2019-01-11 2019-01-11 一种基于迭代精细化的图像场景图谱生成方法

Publications (2)

Publication Number Publication Date
CN109783666A CN109783666A (zh) 2019-05-21
CN109783666B true CN109783666B (zh) 2023-05-23

Family

ID=66500367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910028169.0A Active CN109783666B (zh) 2019-01-11 2019-01-11 一种基于迭代精细化的图像场景图谱生成方法

Country Status (1)

Country Link
CN (1) CN109783666B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399518B (zh) * 2019-06-17 2021-12-10 杭州电子科技大学 一种基于图卷积的视觉问答增强方法
CN110851622A (zh) * 2019-11-12 2020-02-28 北京搜狐互联网信息服务有限公司 文本生成方法和装置
CN111104973B (zh) * 2019-12-06 2022-02-15 天津大学 一种基于知识注意力的细粒度图像分类方法
CN111144492B (zh) * 2019-12-27 2023-03-28 中山大学 面向移动端虚拟现实与增强现实的场景图谱生成方法
CN111159407B (zh) * 2019-12-30 2022-01-28 北京明朝万达科技股份有限公司 训练实体识别和关系分类模型的方法、装置、设备及介质
CN113449564B (zh) * 2020-03-26 2022-09-06 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN111462282B (zh) * 2020-04-02 2023-01-03 哈尔滨工程大学 一种场景图生成方法
CN112800920B (zh) * 2021-01-21 2024-02-23 中山大学 一种基于多模态知识推理的公交主动安全预警方法
CN113568983B (zh) * 2021-02-05 2023-11-10 腾讯科技(深圳)有限公司 场景图生成方法、装置、计算机可读介质及电子设备
CN113836339B (zh) * 2021-09-01 2023-09-26 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法
CN115100643B (zh) * 2022-08-26 2022-11-11 潍坊现代农业与生态环境研究院 融合三维场景语义的单目视觉定位增强方法和设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885760A (zh) * 2016-12-21 2018-04-06 桂林电子科技大学 一种基于多种语义的知识图谱表示学习方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254194B (zh) * 2011-07-19 2013-01-30 清华大学 基于监督流形学习的场景分类方法及装置
CN102542285B (zh) * 2011-08-03 2014-01-08 清华大学 基于谱图分析的图像集合的场景分类方法及装置
CN106688011B (zh) * 2014-09-10 2018-12-28 北京市商汤科技开发有限公司 用于多类别物体检测的方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885760A (zh) * 2016-12-21 2018-04-06 桂林电子科技大学 一种基于多种语义的知识图谱表示学习方法

Also Published As

Publication number Publication date
CN109783666A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
WO2020228376A1 (zh) 文本处理方法、模型训练方法和装置
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
US10248664B1 (en) Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
Kae et al. Augmenting CRFs with Boltzmann machine shape priors for image labeling
Felzenszwalb et al. Object detection grammars.
Cai et al. New graph structured sparsity model for multi-label image annotations
WO2014205231A1 (en) Deep learning framework for generic object detection
CN112036276B (zh) 一种人工智能视频问答方法
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN111930894B (zh) 长文本匹配方法及装置、存储介质、电子设备
Huang et al. Vqabq: Visual question answering by basic questions
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN110889505A (zh) 一种图文序列匹配的跨媒体综合推理方法和系统
Huang Robustness analysis of visual question answering models by basic questions
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
US11526757B2 (en) Systems and methods for deep learning with small training sets
Yang et al. Multi-intent text classification using dual channel convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant