CN109359564B - 一种图像场景图生成方法及装置 - Google Patents

一种图像场景图生成方法及装置 Download PDF

Info

Publication number
CN109359564B
CN109359564B CN201811149481.7A CN201811149481A CN109359564B CN 109359564 B CN109359564 B CN 109359564B CN 201811149481 A CN201811149481 A CN 201811149481A CN 109359564 B CN109359564 B CN 109359564B
Authority
CN
China
Prior art keywords
image
relation
candidate
probability
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811149481.7A
Other languages
English (en)
Other versions
CN109359564A (zh
Inventor
林倞
余伟浩
陈添水
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811149481.7A priority Critical patent/CN109359564B/zh
Publication of CN109359564A publication Critical patent/CN109359564A/zh
Application granted granted Critical
Publication of CN109359564B publication Critical patent/CN109359564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像场景图生成方法及装置,所述方法包括:步骤S1,对输入图像进行处理,找出该图像中可能存在物体的各个物体候选区域;步骤S2,统计物体共存的概率,构建物体共存概率矩阵,并根据该图像候选框的数量,动态地构建嵌入了所述物体共存概率矩阵先验知识的知识图网络,利用该知识图网络对图像中各个候选区域进行物体分类;步骤S3,统计物体关系分布的概率,构建关系概率矩阵,并根据该图像候选框的数量和类别,动态地构建嵌入关系概率矩阵先验信息的知识图网络,利用该知识图网络对图像中候选区域两两之间的关系进行分类;步骤S4,整合步骤S3和S4的结果,生成场景图,本发明可提高图像场景图生成的准确率,提升小样本关系分类的准确率。

Description

一种图像场景图生成方法及装置
技术领域
本发明涉及计算机视觉、模式识别领域,特别是涉及一种图像场景图生成方法及装置。
背景技术
场景图是图像内容的结构化表示,不仅提供场景中各个物体的语义和空间信息,还捕获每对物体之间的关系。近年来,推断这种图形已经越来越受到关注,因为它对图像有了更深入的理解,以促进从基本识别和检测到高级任务的各种视觉任务。
视觉场景中的对象自然地符合一些通用的结构化配置。例如,人们倾向于穿衣服,而汽车则倾向于有车轮。对Visual Genome数据集的统计分析表明,直接预测对与给定物体类别标签的最频繁关系的基线方法优于大多数现有的最先进方法。因此,对物体和关系之间的这些统计共存信息进行建模对于场景图生成是至关重要的。另一方面,场景中关系和上下文对象的相互作用也起着重要作用,尤其是在区分相似物体对的关系时。例如,给定一个人和马站在附近的场景,像桶一样的容器对于区分人在喂马还是人站在马旁边是至关重要的。
经分析发现,关系和对象之间的统计共存关系可以由结构化知识图网络来明确表示,并且这两个因素之间的相互作用可以通过在图中节点传播消息来捕获,同样,上下文提示也可以通过具有适当消息传播的类似图网络来挖掘。目前的研究虽然也注意到了统计知识,但它们只是通过关系和对象对的迭代消息传播或者通过编码对象和关系的全局上下文来隐式地挖掘这些信息
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种图像场景图生成方法及装置,以提高图像场景图生成的准确率,提升小样本关系分类的准确率。
为达上述及其它目的,本发明提出一种图像场景图生成方法,包括如下步骤:
步骤S1,对输入图像进行处理,找出该图像中可能存在物体的各个物体候选区域;
步骤S2,统计物体共存的概率,构建物体共存概率矩阵,并根据该图像的候选框的数量,动态地构建嵌入了所述物体共存概率矩阵先验知识的知识图网络,利用该知识图网络对图像中各个候选区域进行物体分类;
步骤S3,统计物体关系分布的概率,构建关系概率矩阵,并根据该图像候选框的数量和类别,动态地构建嵌入关系概率矩阵先验信息的知识图网络,利用该知识图网络对图像中候选区域两两之间的关系进行分类;
步骤S4,整合步骤S3和S4的结果,生成场景图。
优选地,于步骤S1中,对输入图像利用深度神经网络获取该图像的特征图,并利用区域建议网络找出图片中可能存在物体的各个物体候选区域。
优选地,步骤S2进一步包括:
步骤S200,计算目标数据集的训练集上来自不同类别的物体的统计共存概率,构建物体共存概率矩阵;
步骤S201,基于所述物体共存概率矩阵关联来自物体候选区域集的区域;
步骤S202,基于步骤S201的关联结果,根据该图像候选框的数量,动态构建嵌入了物体共存概率矩阵先验知识、连接所有区域的知识图网络,并利用该知识图网络对图像中各个候选区域进行物体分类。
优选地,所述物体共存概率矩阵为二维矩阵,行数和列数等于所需识别的物体类别数,矩阵的元素代表某类别物体存在的情况下,存在另一类别物体的概率。
优选地,所述知识图网络,其邻接矩阵由所述物体共存概率矩阵和该图像的候选区域数量动态构建而成,该邻接矩阵的行数和列数等于该图像的候选区域数量乘以所需识别的物体类别数量,该知识图网络的初始输入为各个候选区域的特征,输出为各个候区域的类别。
优选地,步骤S202进一步包括:
步骤S202a,根据该图像的候选框的数量,动态构建嵌入了物体共存概率矩阵先验知识的知识图网络,所述嵌入了物体共存概率矩阵先验知识的知识图网络为使用门控循环更新机制的图网络;
步骤S202b,在每个时间步t,每个节点根据图结构聚合来自其邻居的信息
Figure BDA0001817596760000031
步骤S202c,以
Figure BDA0001817596760000032
及其先前的隐状态作为输入,通过类似于门控循环单元的门控机制更新其隐藏状态;
步骤S202d,在To步骤之后,通过平均池化得到聚合全局信息的特征,并使用分类器来实现物体分类。
优选地,步骤S3进一步包括:
步骤S300,计算目标数据集的训练集上的统计共存概率来表示物体的相关性,构建关系概率矩阵,并动态地构建嵌入关系概率矩阵先验信息的知识图网络;
步骤S301,学习使用相同的图门控循环更新来探索所述知识图网络的节点交互机制,并利用该知识图网络对图像中候选区域两两之间的关系进行分类。
优选地,所述关系概率矩阵为三维矩阵,第一维长度和第二维长度等于所需识别物体类别数量,第三维长度等于所需识别的关系类别数量,矩阵的元素代表已知主语物体和宾语物体类别的情况下,其关系类别属于某类别的概率。
优选地,所述嵌入关系概率矩阵先验信息的知识图网络,其邻接矩阵由所述关系概率矩阵和该图像的两两候选区域类别动态构建而成,该邻接矩阵的行数和列数等于所需识别的关系类别数量加二,该知识图网络的输入为主语物体区域的特征,宾语物体区域的特征,和主语物体与宾语物体区域合并的区域的特征,输出为两两主语物体和宾语物体之间的关系类别。
为达到上述目的,本发明还提供一种图像场景图生成装置,包括:
物体候选区域获取单元,用于对输入图像进行处理,找出该图像中可能存在物体的各个物体候选区域;
物体分类单元,用于统计物体共存的概率,构建物体共存概率矩阵,并根据该图像候选框的数量,动态地构建嵌入了物体共存概率矩阵先验知识的知识图网络,利用该知识图网络对图像中各个候选区域进行物体分类;
关系分类单元,用于统计物体关系分布的概率,构建关系概率矩阵,并根据该图像候选框的数量和类别,动态地构建嵌入关系概率矩阵先验信息的知识图网络,利用该知识图网络对图像中候选区域两两之间的关系进行分类;
整合单元,用于整合所述物体分类单元与关系分类单元的结果,生成场景图。
与现有技术相比,本发明一种图像场景图生成方法及装置通过利用Faster RCNN检测器对输入图像生成物体候选区域,然后构建根据统计物体共存矩阵来关联这些区域,构建嵌入了先验知识的采用知识图网络并采用传播网络通过图来扩散节点信息以学习带有全局信息的特征表示以及预测关于每个区域的类别标签,对于具有预测标签的每个物体对,构建知识图网络,并采用传播网络来探索关系和相应物体之间的相互作用来预测它们之间的关系,进而生成整个场景图,本发明通过将嵌入了先验知识的知识图网络应用到图像场景图生成中,提高了图像场景图生成的准确率,特别是显著提升了小样本关系分类的准确率。
附图说明
图1为本发明一种图像场景图生成方法的步骤流程图;
图2为本发明一种图像场景图生成装置的系统架构图;
图3为本发明具体实施例之图像场景图生成装置的工作过程图;
图4(a)为本发明具体实施例中图片中各区域关联的图结构;
图4(b)为本发明具体实施例中给定主语物体类别,宾语物体类别的图结构。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种图像场景图生成方法的步骤流程图。如图1所示,本发明一种图像场景图生成方法,包括如下步骤:
步骤S1,对输入图像进行处理,找出该图像中可能存在物体的各个物体候选区域。在本发明具体实施例中,对输入图像利用深度神经网络获取该图像的特征图,并利用区域建议网络找出图片中可能存在物体的各个候选区域。
也就是说,于步骤S1中,利用Faster RCNN卷积神经网络对输入图像I生成物体候选区域集B={b1,b2,...,bn},对于每个区域,除了表示其位置的边界框bi∈R4之外,利用卷积神经网络对各个候选框提取特征,然后利用Faster RCNN的区域建议网络找出图片中可能存在物体的各个候选区域。
一般地,场景图是图像中内容的结构化表示。它由类标签和各个对象的位置以及每个对象之间的关系组成,可以定义为3元组
Figure BDA0001817596760000051
B={b1,b2,...,bn}是候选区域集,其元素bi∈R4表示第i个候选区域的候选框;
O={o1,o2,...,on}是物体集合,其中oi∈N表示对应候选区域bi的物体标签列别;
R={r1→2,r1→3,...,rn→n-1}表示对应的关系集合,其中ri→j是主语物体(bi,oi)∈B×O,宾语物体(bj,oj)∈B×O和关系标签
Figure BDA0001817596760000052
的三元组;
其中,
Figure BDA0001817596760000061
是所有关系类别的集合,包含没有关系这种标签。
在本发明具体实施例中,给定一个图像I,将场景图
Figure BDA0001817596760000062
的概率分布分解为三个部分:
Figure BDA0001817596760000063
在上述等式中,边界框部分p(B|I)生成一组候选区域,覆盖输入图像大多数关键图像,该部分由广泛使用的Faster RCNN卷积神经网络实现,物体部分p(O|B,I)则预测关于每个检测到的区域的物体类别标签。
步骤S2,统计物体共存的概率,构建物体共存概率矩阵,并根据步骤S1得到的该图像的候选框的数量,动态地构建嵌入了物体共存概率矩阵先验知识的知识图网络,利用该知识图网络对图像中各个候选区域进行物体分类。
物体共存概率的统计信息是关联图像中的物体和规范物体标签预测的关键线索。在本发明具体实施例中,通过构建一个图,根据该些统计相关性关联图像中检测到的区域,并使用图神经网络通过图表传播信息,以学习全局信息并预测每个区域的物体类别标签。具体地,步骤S2进一步包括:
步骤S200,计算目标数据集的训练集上来自不同类别的物体的统计共存概率,构建物体共存概率矩阵。具体地说,对于c和c'这两类,统计对一张图片,当物体类别c存在的情况下,物体类别c'存在的概率,并将该概率表示为mcc′,计算所有类别对的这些共存概率并获得物体共存概率矩阵Mc∈RC×C,其中C是对象类别的数量,并且行c和列c'处的元素是mcc′,即,该物体共存概率矩阵Mc为二维矩阵,行数和列数等于所需识别的物体类别数,矩阵的元素代表某类别物体存在的情况下,存在另一类别物体的概率。
步骤S201,基于物体共存概率矩阵Mc关联来自物体候选区域集B的区域。具体地,给定bi和bj的两个区域,将bi复制C次以获得C节点{bi1,bi2,...,biC},其中节点bic表示区域bi与类别c的相关性,并且对bj执行相同的过程。直观地,mcc′可以用于将节点bjc'与bic相关联,反之亦然。因此Mc可以用于关联区域bi的节点和bj的节点。通过这种方式,可以关联所有区域并构建图形。
步骤S202,基于步骤S201的关联结果,根据该图像的候选框的数量,动态构建嵌入了物体共存概率矩阵先验知识、连接所有区域的知识图网络,并利用该知识图网络对图像中各个候选区域进行物体分类。所述知识图网络,其邻接矩阵由所述物体共存概率矩阵和图像的候选区域数量动态构建而成,该邻接矩阵的行数和列数等于该图像的候选区域数量乘以所需识别的物体类别数量。该知识图网络的初始输入为各个候选区域的特征,输出为各个候区域的类别。
具体地,步骤S202进一步包括:
步骤S202a,根据该图像候选框的数量,动态构建嵌入了物体共存概率矩阵先验知识的知识图网络,所述嵌入了物体共存概率矩阵先验知识的知识图网络为使用门控循环更新机制的图网络。
在本发明具体实施例中,受图门控神经网络的启发,本发明通过使用门控循环更新机制的图来传播信息。具体地,每个节点bic在时间步t处具有隐状态
Figure BDA0001817596760000073
因为每个节点对应特定区域,将该特征与该区域的初始分类得分向量一起用于初始化t=0处的隐状态,表示为:
Figure BDA0001817596760000071
其中,φs表示将得分向量转换为特征向量的简单转换,通过简单的全连接层实现,另一个转换φo进一步将此向量和fi的串联映射成初始隐状态,并且它还由全连接层实现。
步骤S202b,在每个时间步t,每个节点根据图结构聚合来自其邻居的信息:
Figure BDA0001817596760000072
步骤S202c,以
Figure BDA0001817596760000074
及其先前的隐状态作为输入,通过类似于门控循环单元的门控机制更新其隐藏状态:
Figure BDA0001817596760000081
Figure BDA0001817596760000082
通过这种方式,每个节点可以聚合来自其邻居的信息,同时将其信息传递给其邻居,从而实现图中所有节点之间的交互。
步骤S202d,在To步骤之后,节点信息已经通过图传播并获得每个区域,也就是
Figure BDA0001817596760000084
的最终隐状态,通过平均池化得到聚合全局信息的特征,并使用分类器来实现物体分类:
Figure BDA0001817596760000083
全局信息ci和预测的物体类别oi=argmax(oi)将被用于下一步的关系推断。
步骤S3,统计物体关系分布的概率,构建关系概率矩阵,并根据该图像候选框的数量和类别,动态地构建嵌入关系概率矩阵先验信息的知识图网络,利用该知识图网络对图像中候选区域两两之间的关系进行分类。
在本发明具体实施例中,以结构图的形式表示物体对及其关系的相关性,并采用另一个图神经网络来探索这两个因素的相互作用来推断关系。因此,步骤S3进一步包括:
步骤S300,计算目标数据集的训练集上的统计共存概率来表示物体的相关性,构建关系概率矩阵,并动态地构建嵌入关系概率矩阵先验信息的知识图网络。具体地说,计算给定类别c的主题和类别c'的对象的所有可能关系的概率,并将它们表示为{mcc'1,mcc'2,...,mcc'K},其中K是关系编号。对于从物体集O中获取的主题oi和对象oj,构造具有主语物体节点,宾语物体节点和K关系节点的图,使用
Figure BDA0001817596760000085
来表示oi和关系节点k之间以及oj和关系节点k之间的相关性,通过这种方式,构建了嵌入了关系概率矩阵先验信息的知识图网络。在本发明具体实施例中,所述关系概率矩阵为三维矩阵,第一维长度和第二维长度等于所需识别物体类别数量,第三维长度等于所需识别的关系类别数量,矩阵的元素代表已知主语物体和宾语物体类别的情况下,其关系类别属于某类别的概率。
步骤S301,学习使用相同的图门控循环更新来探索所述知识图网络的节点交互机制,并利用该知识图网络对图像中候选区域两两之间的关系进行分类。在本发明具体实施例中,所述嵌入关系概率矩阵先验信息的知识图网络,其邻接矩阵由所述关系概率矩阵和该图像的两两候选区域类别动态构建而成,该邻接矩阵的行数和列数等于所需识别的关系类别数量加二,该知识图网络的输入为主语物体区域的特征,宾语物体区域的特征,和主语物体与宾语物体区域合并的区域的特征,输出为两两主语物体和宾语物体之间的关系类别。
在本发明具体实施例中,所述知识图网络学习使用相同的图门控循环更新来探索节点交互机制。类似地,每个节点v∈V={oi,oj,1,2,...,K}在时间步t处有隐状态
Figure BDA0001817596760000093
并相应地初始化它们。具体来说,使用输入具有全局信息的特征向量初始化物体节点,并使用两个物体的联合区域框中的特征及其空间信息初始化关系节点:
Figure BDA0001817596760000091
其中
Figure BDA0001817596760000094
Figure BDA0001817596760000095
是两个简单的变换,两者都是由两个堆叠的全连接层实现的。fij是一个特征向量,它编码bi和bj的联合区域的视觉特征以及空间信息。在每个时间步t,关系节点聚合来自物体节点的消息,而物体节点聚合来自关系节点的消息:
Figure BDA0001817596760000092
然后,将这些聚合特征与先前隐藏状态合并,以使用门控机制更新每个节点的隐藏状态,迭代重复Tr次并到达每个节点的最终隐藏状态,即
Figure BDA0001817596760000096
本发明使用由全连接层实现输出节点特征,并聚合这些特征以推断关系:
Figure BDA0001817596760000101
其中,
Figure BDA0001817596760000102
是通过全连接实现的关系分类器。
步骤S4,整合步骤S3和S4的结果即可生成场景图。
图2为本发明一种图像场景图生成装置的系统架构图,图3为本发明具体实施例之图像场景图生成装置的工作过程图。如图2及图3所示,本发明一种图像场景图生成装置,包括:
物体候选区域获取单元20,用于对输入图像进行处理,找出该图像中可能存在物体的各个物体候选区域。在本发明具体实施例中,物体候选区域获取单元20对输入图像利用深度神经网络获取该图像的特征图,并利用区域建议网络找出图片中可能存在物体的各个候选区域。
也就是说,物体候选区域获取单元20利用Faster RCNN卷积神经网络对输入图像I生成物体候选区域集B={b1,b2,...,bn},对于每个区域,除了表示其位置的边界框bi∈R4之外,利用卷积神经网络对各个候选框提取特征,然后利用Faster RCNN的区域建议网络找出图片中可能存在物体的各个候选区域。
具体地,场景图是图像中内容的结构化表示。它由类标签和各个对象的位置以及每个对象之间的关系组成,可以定义为3元组
Figure BDA0001817596760000103
B={b1,b2,...,bn}是候选区域集,其元素bi∈R4表示第i个候选区域的候选框;
O={o1,o2,...,on}是物体集合,其中oi∈N表示对应候选区域bi的物体标签列别;
R={r1→2,r1→3,...,rn→n-1}表示对应的关系集合,其中ri→j是主语物体(bi,oi)∈B×O,宾语物体(bj,oj)∈B×O和关系标签
Figure BDA0001817596760000104
的三元组;
其中,
Figure BDA0001817596760000105
是所有关系类别的集合,包含没有关系这种标签。
给定一个图像I,将场景图
Figure BDA0001817596760000106
的概率分布分解为三个部分:
Figure BDA0001817596760000107
在上述等式中,边界框部分p(B|I)生成一组候选区域,覆盖输入图像大多数关键图像,该组件由广泛使用的Faster RCNN卷积神经网络实现,物体部分p(O|B,I)预测关于每个检测到的区域的物体类别标签。
物体分类单元21,用于统计物体共存的概率,构建物体共存概率矩阵,并根据物体候选区域获取单元20获得的该图像的候选框的数量,动态地构建嵌入了物体共存概率矩阵先验知识的知识图网络,利用该知识图网络对图像中各个候选区域进行物体分类。
物体共存概率的统计信息是关联图像中的物体和规范物体标签预测的关键线索。在本发明具体实施例中,物体分类单元21通过构建一个图,根据该些统计相关性关联图像中检测到的区域,并使用图神经网络通过图表传播信息,以学习全局信息并预测每个区域的物体类别标签。具体地,物体分类单元21进一步包括:
物体共存概率矩阵构建单元210,用于计算目标数据集的训练集上来自不同类别的物体的统计共存概率,构建物体共存概率矩阵。具体地说,对于c和c'这两类,统计对一张图片,当物体类别c存在的情况下,物体类别c'存在的概率,并将该概率表示为mcc′,计算所有类别对的这些共存概率并获得物体共存概率矩阵Mc∈RC×C,其中C是对象类别的数量,并且行c和列c'处的元素是mcc′,即,该物体共存概率矩阵Mc为二维矩阵,行数和列数等于所需识别的物体类别数,矩阵的元素代表某类别物体存在的情况下,存在另一类别物体的概率。
关联单元211,用于基于物体共存概率矩阵Mc关联来自物体候选区域集B的区域。具体地,给定bi和bj的两个区域,将bi复制C次以获得C节点{bi1,bi2,...,biC},其中节点bic表示区域bi与类别c的相关性,并且对bj执行相同的过程。直观地,mcc′可以用于将节点bjc'与bic相关联,反之亦然。因此Mc可以用于关联区域bi的节点和bj的节点。通过这种方式,可以关联所有区域并构建图形。
知识图网络构建及分类单元212,用于基于关联单元211的关联结果,根据该图像候选框的数量,动态构建嵌入了物体共存概率矩阵先验知识、连接所有区域的知识图网络,并利用该知识图网络对图像中各个候选区域进行物体分类。所述知识图网络,其邻接矩阵由所述物体共存概率矩阵和该图像的候选区域数量动态构建而成,该邻接矩阵的行数和列数等于该图像的候选区域数量乘以所需识别的物体类别数量,该知识图网络的初始输入为各个候选区域的特征,输出为各个候区域的类别。
知识图网络构建及分类单元212具体用于:
基于关联单元的关联结果,根据该图像的候选框的数量,动态构建嵌入了物体共存概率矩阵先验知识的知识图网络,所述嵌入了物体共存概率矩阵先验知识的知识图网络为使用门控循环更新机制的图网络。
在本发明具体实施例中,受图门控神经网络的启发,本发明通过使用门控循环更新机制的图来传播信息。具体地,每个节点bic在时间步t处具有隐状态
Figure BDA0001817596760000121
因为每个节点对应特定区域,将该特征与该区域的初始分类得分向量一起用于初始化t=0处的隐状态,表示为:
Figure BDA0001817596760000122
其中,φs表示将得分向量转换为特征向量的简单转换,通过简单的全连接层实现,另一个转换φo进一步将此向量和fi的串联映射成初始隐状态,并且它还由全连接层实现。
在每个时间步t,每个节点根据图结构聚合来自其邻居的信息:
Figure BDA0001817596760000123
Figure BDA0001817596760000124
及其先前的隐状态作为输入,通过类似于门控循环单元的门控机制更新其隐藏状态:
Figure BDA0001817596760000131
Figure BDA0001817596760000132
通过这种方式,每个节点可以聚合来自其邻居的信息,同时将其信息传递给其邻居,从而实现图中所有节点之间的交互。
在To步骤之后,节点信息已经通过图传播并获得每个区域,也就是
Figure BDA0001817596760000133
的最终隐状态,通过平均池化得到聚合全局信息的特征,并使用分类器来实现物体分类:
Figure BDA0001817596760000134
全局信息ci和预测的物体类别oi=argmax(oi)将被用于下一步的关系推断。
关系分类单元22,用于统计物体关系分布的概率,构建关系概率矩阵,并根据该图像候选框的数量和类别,动态地构建嵌入关系概率矩阵先验信息的知识图网络,利用该知识图网络对图像中候选区域两两之间的关系进行分类。
在本发明具体实施例中,以结构图的形式表示物体对及其关系的相关性,并采用另一个图神经网络来探索这两个因素的相互作用来推断关系。因此,关系分类单元22进一步包括:
关系概率矩阵构建单元221,用于计算目标数据集的训练集上的统计共存概率来表示物体的相关性,构建关系概率矩阵,进而动态地构建嵌入关系概率矩阵先验信息的知识图网络。具体地说,计算给定类别c的主题和类别c'的对象的所有可能关系的概率,并将它们表示为{mcc'1,mcc'2,...,mcc'K},其中K是关系编号。对于从物体集O中获取的主题oi和对象oj,构造具有主语物体节点,宾语物体节点和K关系节点的图,使用
Figure BDA0001817596760000135
来表示oi和关系节点k之间以及oj和关系节点k之间的相关性,通过这种方式,构建了嵌入了关系概率矩阵先验信息的知识图网络。在本发明具体实施例中,所述关系概率矩阵为三维矩阵,第一维长度和第二维长度等于所需识别物体类别数量,第三维长度等于所需识别的关系类别数量,矩阵的元素代表已知主语物体和宾语物体类别的情况下,其关系类别属于某类别的概率。
学习及关系分类单元222,用于学习使用相同的图门控循环更新来探索所述知识图网络的节点交互机制,并利用该知识图网络对图像中候选区域两两之间的关系进行分类。
在本发明具体实施例中,所述知识图网络学习使用相同的图门控循环更新来探索节点交互机制。类似地,每个节点v∈V={oi,oj,1,2,...,K}在时间步t处有隐状态
Figure BDA0001817596760000143
并相应地初始化它们。具体来说,使用输入具有全局信息的特征向量初始化物体节点,并使用两个物体的联合区域框中的特征及其空间信息初始化关系节点:
Figure BDA0001817596760000141
其中
Figure BDA0001817596760000144
Figure BDA0001817596760000145
是两个简单的变换,两者都是由两个堆叠的全连接层实现的。fij是一个特征向量,它编码bi和bj的联合区域的视觉特征以及空间信息。在每个时间步t,关系节点聚合来自物体节点的消息,而物体节点聚合来自关系节点的消息:
Figure BDA0001817596760000142
然后,将这些聚合特征与先前隐藏状态合并,以使用门控机制更新每个节点的隐藏状态,迭代重复Tr次并到达每个节点的最终隐藏状态,即
Figure BDA0001817596760000146
本发明使用由全连接层实现输出节点特征,并聚合这些特征以推断关系:
Figure BDA0001817596760000147
其中,
Figure BDA0001817596760000148
是通过全连接实现的关系分类器。
整合单元23,用于整合物体分类单元21与关系分类单元22的结果,生成场景图。
以下将通过一具体实施例来说明本发明:
在本发明具体实施例中,给定一个图像I,本发明将场景图
Figure BDA0001817596760000151
的概率分布分解为三个部分:
Figure BDA0001817596760000152
在上述等式中,边界框部分p(B|I)生成一组候选区域,覆盖输入图像大多数关键图像,该组件由广泛使用的Faster RCNN检测器实现,然后,物体部分p(O|B,I)预测关于每个检测到的区域的物体类别标签。在这里,将不同区域与统计物体共存信息相关联,并基于这些相关性创建连接所有区域的知识图网络(如图4(a)所示),然后,学习知识图网络以通过图传播信息,通过这种方式,本发明可以通过信息传播学习每个区域的带有全局信息的表示,并在物体共存的统计信息的约束下实现更好的物体标签预测。在预测物体标签的条件下,关系分量p(R|O,B,I)推断出每个物体对的关系,并最终生成整个场景图。对于具有预测标签的每个物体对,本发明也构造一个知识图网络,其中物体和关系的节点以及边表示相应物体对与所有关系之间的统计共存概率(参见图4(b)所示),类似地,学习另一个图神经网络来探索关系和物体之间的相互作用,最后,聚合来自所有节点的特征以预测关系,通过本发明,可以为每个物体对执行此过程并生成整个场景图。
综上所述,本发明一种图像场景图生成方法及装置通过利用Faster RCNN检测器对输入图像生成物体候选区域,然后构建根据统计物体共存矩阵来关联这些区域,构建嵌入了先验知识的采用知识图网络并采用传播网络通过图来扩散节点信息以学习带有全局信息的特征表示以及预测关于每个区域的类别标签,对于具有预测标签的每个物体对,构建知识图网络,并采用传播网络来探索关系和相应物体之间的相互作用来预测它们之间的关系,进而生成整个场景图,本发明通过将嵌入了先验知识的知识图网络应用到图像场景图生成中,提高了图像场景图生成的准确率,特别是显著提升了小样本关系分类的准确率。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (5)

1.一种图像场景图生成方法,包括如下步骤:
步骤S1,对输入图像进行处理,找出该图像中可能存在物体的各个物体候选区域;
步骤S2,统计物体共存的概率,构建物体共存概率矩阵,并根据该图像的候选框的数量,动态地构建嵌入了所述物体共存概率矩阵先验知识的知识图网络,利用该知识图网络对图像中各个候选区域进行物体分类;
步骤S3,统计物体关系分布的概率,构建关系概率矩阵,并根据该图像的候选框的数量和类别,动态地构建嵌入关系概率矩阵先验信息的知识图网络,利用该知识图网络对图像中候选区域两两之间的关系进行分类;
步骤S4,整合步骤S2和S3的结果,生成场景图;
步骤S2进一步包括:
步骤S200,计算目标数据集的训练集上来自不同类别的物体的统计共存概率,构建物体共存概率矩阵;
步骤S201,基于所述物体共存概率矩阵关联来自物体候选区域集的区域;
步骤S202,基于步骤S201的关联结果,根据该图像的候选框的数量,动态构建嵌入了物体共存概率矩阵先验知识、连接所有区域的知识图网络,并利用该知识图网络对图像中各个候选区域进行物体分类;
所述物体共存概率矩阵为二维矩阵,行数和列数等于所需识别的物体类别数,矩阵的元素代表某类别物体存在的情况下,存在另一类别物体的概率;
步骤S3进一步包括:
步骤S300,计算目标数据集的训练集上的统计共存概率来表示物体的相关性,构建关系概率矩阵,并动态地构建嵌入关系概率矩阵先验信息的知识图网络;
步骤S301,学习使用相同的图门控循环更新来探索所述知识图网络的节点交互机制,并利用该知识图网络对图像中候选区域两两之间的关系进行分类;
所述关系概率矩阵为三维矩阵,第一维长度和第二维长度等于所需识别物体类别数量,第三维长度等于所需识别的关系类别数量,矩阵的元素代表已知主语物体和宾语物体类别的情况下,其关系类别属于某类别的概率。
2.如权利要求1所述的一种图像场景图生成方法,其特征在于:于步骤S1中,对输入图像利用深度神经网络获取该图像的特征图,并利用区域建议网络找出图片中可能存在物体的各个物体候选区域。
3.如权利要求1所述的一种图像场景图生成方法,其特征在于:所述知识图网络,其邻接矩阵由所述物体共存概率矩阵和该图像的候选区域数量动态构建而成,该邻接矩阵的行数和列数等于该图像的候选区域数量乘以所需识别的物体类别数量,该知识图网络的初始输入为各个候选区域的特征,输出为各个候区域的类别。
4.如权利要求1所述的一种图像场景图生成方法,其特征在于:所述嵌入关系概率矩阵先验信息的知识图网络,其邻接矩阵由所述关系概率矩阵和该图像的两两候选区域类别动态构建而成,该邻接矩阵的行数和列数等于所需识别的关系类别数量加二,该知识图网络的输入为主语物体区域的特征,宾语物体区域的特征,和主语物体与宾语物体区域合并的区域的特征,输出为两两主语物体和宾语物体之间的关系类别。
5.一种图像场景图生成装置,包括:
物体候选区域获取单元,用于对输入图像进行处理,找出该图像中可能存在物体的各个物体候选区域;
物体分类单元,用于统计物体共存的概率,构建物体共存概率矩阵,并根据该图像的候选框的数量,动态地构建嵌入了物体共存概率矩阵先验知识的知识图网络,利用该知识图网络对图像中各个候选区域进行物体分类;
关系分类单元,用于统计物体关系分布的概率,构建关系概率矩阵,并根据图像候选框的数量和类别,动态地构建嵌入关系概率矩阵先验信息的知识图网络,利用该知识图网络对图像中候选区域两两之间的关系进行分类;
整合单元,用于整合所述物体分类单元与关系分类单元的结果,生成场景图;
在物体分类单元中,按照以下步骤运行:
步骤S200,计算目标数据集的训练集上来自不同类别的物体的统计共存概率,构建物体共存概率矩阵;
步骤S201,基于所述物体共存概率矩阵关联来自物体候选区域集的区域;
步骤S202,基于步骤S201的关联结果,根据该图像的候选框的数量,动态构建嵌入了物体共存概率矩阵先验知识、连接所有区域的知识图网络,并利用该知识图网络对图像中各个候选区域进行物体分类;
所述物体共存概率矩阵为二维矩阵,行数和列数等于所需识别的物体类别数,矩阵的元素代表某类别物体存在的情况下,存在另一类别物体的概率;
在关系分类单元中,按照以下步骤运行:
步骤S300,计算目标数据集的训练集上的统计共存概率来表示物体的相关性,构建关系概率矩阵,并动态地构建嵌入关系概率矩阵先验信息的知识图网络;
步骤S301,学习使用相同的图门控循环更新来探索所述知识图网络的节点交互机制,并利用该知识图网络对图像中候选区域两两之间的关系进行分类;
所述关系概率矩阵为三维矩阵,第一维长度和第二维长度等于所需识别物体类别数量,第三维长度等于所需识别的关系类别数量,矩阵的元素代表已知主语物体和宾语物体类别的情况下,其关系类别属于某类别的概率。
CN201811149481.7A 2018-09-29 2018-09-29 一种图像场景图生成方法及装置 Active CN109359564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811149481.7A CN109359564B (zh) 2018-09-29 2018-09-29 一种图像场景图生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811149481.7A CN109359564B (zh) 2018-09-29 2018-09-29 一种图像场景图生成方法及装置

Publications (2)

Publication Number Publication Date
CN109359564A CN109359564A (zh) 2019-02-19
CN109359564B true CN109359564B (zh) 2022-06-24

Family

ID=65348013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811149481.7A Active CN109359564B (zh) 2018-09-29 2018-09-29 一种图像场景图生成方法及装置

Country Status (1)

Country Link
CN (1) CN109359564B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829517B (zh) * 2019-03-07 2021-01-12 成都医云科技有限公司 目标检测去重方法及装置
CN110084128B (zh) * 2019-03-29 2021-12-14 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
KR102079970B1 (ko) * 2019-04-30 2020-04-07 (주)에스투더블유랩 지식 그래프를 이용하여 사이버 시큐리티를 제공하는 방법, 장치 및 컴퓨터 프로그램
CN110390259A (zh) * 2019-06-11 2019-10-29 中国科学院自动化研究所南京人工智能芯片创新研究院 图数据的识别方法、装置、计算机设备和存储介质
CN110991532B (zh) * 2019-12-03 2022-03-04 西安电子科技大学 基于关系视觉注意机制的场景图产生方法
CN111369688B (zh) * 2020-03-11 2023-05-09 暗物智能科技(广州)有限公司 一种结构化场景表达的认知导航方法及系统
CN111626291B (zh) * 2020-04-07 2023-04-25 上海交通大学 一种图像视觉关系检测方法、系统及终端
CN112183620B (zh) * 2020-09-27 2021-04-23 中国科学院自动化研究所 基于图卷积神经网络的小样本分类模型的发育方法及系统
CN112417961B (zh) * 2020-10-20 2023-02-10 上海大学 一种基于场景先验知识的海面目标检测方法
CN112529038B (zh) * 2020-11-11 2023-07-25 联想(北京)有限公司 一种主板物料的识别方法、装置及存储介质
CN113065587B (zh) * 2021-03-23 2022-04-08 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
CN114627426B (zh) * 2022-05-13 2022-08-23 盈嘉互联(北京)科技有限公司 一种融合建筑数字孪生语义图的图像检测方法及装置
CN114627134B (zh) * 2022-05-18 2022-08-09 深圳元象信息科技有限公司 场景图像生成方法
CN116152647B (zh) * 2023-04-18 2023-07-18 中国科学技术大学 基于多轮迭代策略和差异性感知的场景图生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106682059A (zh) * 2015-11-11 2017-05-17 奥多比公司 根据图像的结构化的知识建模和提取
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN108388923A (zh) * 2018-03-08 2018-08-10 深圳市唯特视科技有限公司 一种基于对象检测器和递归神经网络的统一图解析网络
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9363487B2 (en) * 2005-09-08 2016-06-07 Avigilon Fortress Corporation Scanning camera-based video surveillance system
US9576203B2 (en) * 2015-04-29 2017-02-21 Canon Kabushiki Kaisha Devices, systems, and methods for knowledge-based inference for material recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682059A (zh) * 2015-11-11 2017-05-17 奥多比公司 根据图像的结构化的知识建模和提取
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
CN108388923A (zh) * 2018-03-08 2018-08-10 深圳市唯特视科技有限公司 一种基于对象检测器和递归神经网络的统一图解析网络

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Scene Graph Generation by Iterative Message Passing;Danfei Xu等;《2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20171109;第1-10页 *
融合语义知识的深度表达学习及在视觉理解中的应用;张瑞茂等;《计算机研究与发展》;20170504;第54卷(第6期);第1251-1266页 *
高阶马尔科夫随机场及其在场景理解中的应用;余淼等;《自动化学报》;20150505;第41卷(第7期);第1213-1234页 *

Also Published As

Publication number Publication date
CN109359564A (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
CN109359564B (zh) 一种图像场景图生成方法及装置
Yu et al. A review of recurrent neural networks: LSTM cells and network architectures
Zhang et al. A spatial attentive and temporal dilated (SATD) GCN for skeleton‐based action recognition
Singh et al. A deeply coupled ConvNet for human activity recognition using dynamic and RGB images
Shabbir et al. Satellite and scene image classification based on transfer learning and fine tuning of ResNet50
Yin et al. Region search based on hybrid convolutional neural network in optical remote sensing images
CN108334805B (zh) 检测文档阅读顺序的方法和装置
CN113627557B (zh) 一种基于上下文图注意力机制的场景图生成方法
CN114638960A (zh) 模型的训练方法、图像描述生成方法和装置、设备、介质
Moyano Learning network representations
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
Ramya et al. E-waste management using hybrid optimization-enabled deep learning in IoT-cloud platform
Cao et al. Skeleton-based action recognition with temporal action graph and temporal adaptive graph convolution structure
Xie et al. Temporal‐enhanced graph convolution network for skeleton‐based action recognition
Bhuiyan et al. Hajj pilgrimage video analytics using CNN
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
Hiriyannaiah et al. Deep learning for multimedia data in IoT
Chen et al. Informed Patch Enhanced HyperGCN for skeleton-based action recognition
CN113111917B (zh) 一种基于双重自编码器的零样本图像分类方法及装置
US20230086327A1 (en) Systems and methods of interactive visual graph query for program workflow analysis
Janković Babić A comparison of methods for image classification of cultural heritage using transfer learning for feature extraction
CN113449193A (zh) 基于多分类图像的信息推荐方法及装置
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
Jun et al. Two-view correspondence learning via complex information extraction
Gabdullin et al. Google Coral-based edge computing person reidentification using human parsing combined with analytical method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant