CN111462282A - 一种场景图生成方法 - Google Patents

一种场景图生成方法 Download PDF

Info

Publication number
CN111462282A
CN111462282A CN202010253468.7A CN202010253468A CN111462282A CN 111462282 A CN111462282 A CN 111462282A CN 202010253468 A CN202010253468 A CN 202010253468A CN 111462282 A CN111462282 A CN 111462282A
Authority
CN
China
Prior art keywords
visual
image
information
relation
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010253468.7A
Other languages
English (en)
Other versions
CN111462282B (zh
Inventor
莫宏伟
田朋
姜来浩
许贵亮
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010253468.7A priority Critical patent/CN111462282B/zh
Publication of CN111462282A publication Critical patent/CN111462282A/zh
Application granted granted Critical
Publication of CN111462282B publication Critical patent/CN111462282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种场景图生成方法,将物体检测、视觉关系检测和图像区域描述三种不同层次的语义任务进行相互连接,以端到端的方式共同解决场景理解的不同语义层次的视觉任务。首先将物体、视觉关系和图像区域描述根据其空间特征和语义连接与特征信息传递图对齐,然后通过特征信息传递图将特征信息传递到三个不同层级的语义任务以实现语义特征的同时迭代更新。该方法利用场景图像不同层次的语义特征连接来实现物体检测和视觉关系检测以生成场景图像对应的场景图,并对场景图像的主要区域使用自然语言进行图像描述,同时将图像区域描述作为场景图生成的一种监督方法以提升场景图生成的准确率。

Description

一种场景图生成方法
技术领域
本发明涉及一种场景图生成方法,特别是一种基于多级语义任务的场景图生成方法,属于物体检测、视觉关系检测和图像区域描述领域。
背景技术
场景理解是计算机视觉研究的热点问题之一,视觉场景理解包含多个不同层次的语义任务:物体检测和识别、预测被检测对象之间的视觉关系以及使用自然语言对场景图像所要表示的内容进行描述等。由于物体类别及其视觉关系的复杂多样性,视觉场景理解依然是一个难题,良好的视觉场景理解系统不仅能够识别出不同图像所表示内容的差别,而且还能对不同之处进行重点关注或者表示。理解视觉场景图像的关键是能够将场景图像中的物体及其之间的语义关系进行表示,这些表示不仅能够为场景理解的基本视觉认知任务提供上下文线索,而且可以为高级别的语义视觉任务提供帮助。现有传统的场景图生成方法只对整个场景图像中的部分内容进行物体检测和关系预测,而无法有针对性的对场景图像中的主要内容进行理解的问题。现阶段都是使用卷积神经网络和循环神经网络结构生成图像描述,现有的图像描述方法只是基于场景图像中的目标物体并结合自然语言处理生成对图像内容的整体语言描述,并没有利用场景图的相关信息,也没有突出的显示图像所要表达的物体之间的视觉关系。
发明内容
针对上述现有技术存在的问题,本发明要解决的技术问题是提供一种能够有针对性的对场景图像中的主要内容进行理解,提升图像理解的准确率的场景图生成方法。
为解决上述技术问题,本发明的一种场景图生成方法,包括以下步骤:
S1:针对场景理解中的物体检测、视觉关系检测、图像区域描述这三种不同层次的语义视觉任务对应产生三组不同的提议,包括:
物体区域提议:使用Faster R-CNN网络对输入图像进行物体检测,从输入图像中检测提取出一组候选区域集合B={b1,b2,…,bn},对于每一个区域,模型提取边界框bi表示物体的位置,使用ROI池化层提取出目标物体的特征向量vi送入到后续的网络进行推理;
视觉关系区域提议:对于物体区域提议密集度超过给定值的区域,使用非极大值抑制对物体提议进行选择性删除,将被检测到的物体提议使用有向边进行连接以表示物体之间的视觉关系,将物体区域的边界真实边界框进行集成以生成图像区域描述的区域提议边界框;
图像描述区域提议:将物体真实边界框和视觉关系提议进行组合以生成图像区域描述对应的区域提议;
S2:构造信息传递图来对目标物体、视觉关系和图像区域描述之间的联系进行建模,具体包括:
S2.1:场景图建模:
场景图由物体、物体的类别标签和物体对之间的关系所组成,场景图G由一个三元组G={B,O,R}表示:B={b1,b2,...,bn}是区域候选集合,其中的元素bi表示边界框的第i区域;O={O1,O2,...,on}是物体集合,其中元素oi表示关于区域bi对应的类标签;R={r1→2,r1→3,...,rn→n-1}是物体对之间的关系集合,根据物体之间的视觉关系,每个物体节点都将会有两种连接:主体-关系和关系-对象,边集合R包含物体对与视觉关系之间的有向边集合,这些物体节点及将其连接的有向边所组成的拓扑图就是场景图像所对应的场景图;
S2.2:构建信息传递图:
基于不同语义任务之间的语义连接和空间关系动态地建立特征信息传递图,在构建视觉关系提议的同时将构建的视觉关系和物体进行连接,每个视觉关系提议可视为一个主语-谓词-宾语三元组,并与两个物体提议进行连接,视觉关系提议和图像区域描述提议使用它们之间的相对空间关系进行连接;
S3:将物体、视觉关系和图像区域描述视为场景图像理解的不同语义层次,并根据不同的语义空间和语义关系建立不同层级语义之间的联系,通过信息传递图将不同语义层中的节点进行连接,信息能够通过图中的边在不同的语义特征之间进行传递以对不同层级的语义信息进行特征联合迭代更新,三种不同层次的语义任务分别对应三个特征信息迭代更新:物体特征信息更新,视觉关系特征信息更新和图像区域描述特征信息更新,通过对特征更新过程进行不断的迭代直到语义层的特征收敛,三个不同层次的视觉任务对应三个并行网络分支,将视觉任务各自对应的特征送入到对应的池化层,使用两个全连接层对每个分支网络的输出进行分类,以使得不同的网络分支学习对应视觉任务的特征;
S4:采用图像区域描述对场景图生成进行监督,以检测生成的场景图与图像的内容是否匹配,选取目标物体对应的特征向量以及解码器中长短期记忆网络上一时刻的隐藏状态来决定当前时刻选取的特征向量的权重,将图像中提取到的物体和显著视觉区域的位置和名称信息整合处理后送入解码器,根据长短期记忆网络的隐藏状态从图像局部特征向量集合中动态选择与当前时刻生成单词有关的图像局部特征来指导当前时刻单词的生成,具体为:
S4.1:选取输入图像中目标物体对应的特征向量v={v1,v2,...,vn}和名称属性向量以及解码器中LSTM网络上一时刻的隐藏状态hi-1来决定当前时间选取的特征向量的权重αij
eij=fatt(hi-1,vj)
Figure BDA0002436338870000031
其中,注意机制模型fatt是一个多层感知机模型,上一时刻的隐藏状态hi-1决定各个图像区域特征向量的权重,权重代表模型对图像各区域的重视程度;
S4.2:根据前一时刻的输出yi-1和隐藏状态hi-1以及视觉上下文zi计算得到当前时刻的隐藏状态hi
hi=LSTM(yi-1,hi-1,zi)
Figure BDA0002436338870000032
S4.3:依据当前时刻的隐藏状态hi、视觉上下文zi以及前一时刻的输出yi-1通过一个全连接层可以得到当前输出单词的概率分布:
p(yi|zi,yi-1)=softmax(Eyi-1+Lhhi+Lzzi)
S5:使用更新的语义特征对目标物体和视觉关系进行分类并生成图像区域描述,使用目标物体和预测的视觉关系生成场景图像对应的场景图。
本发明还包括:
1.S3中物体特征信息更新具体为:
每个目标物体节点有两种关系连接:主体-谓词和谓词-对象,目标物体特征更新过程如下:
Figure BDA0002436338870000033
Figure BDA0002436338870000034
其中
Figure BDA0002436338870000035
表示物体节点接收到信息,
Figure BDA0002436338870000036
是对应于候选物体的特征向量,
Figure BDA0002436338870000037
表示两个具有视觉关系的物体之间的关系特征,
Figure BDA0002436338870000038
代表物体节点的邻域,MO→O和MR→O是从物体节点特性中提取有用信息的消息处理函数,上标表示信息传递的方向,GO和GR表示物体集成信息的收集函数,UO是物体的更新函数。
2.S3中视觉关系特征信息更新具体为:
物体的分类特征有助于进行物体之间的关系检测,每个视觉关系节点分别与主语(物体)节点和对象(物体)节点连接形成一个(主语-谓词-宾语)三元组,物体对之间的视觉关系特征更新如下所示:
Figure BDA0002436338870000041
Figure BDA0002436338870000042
其中,
Figure BDA0002436338870000043
表示两个具有视觉关系的物体接收到的信息,MO→R是从节点特征中提取有用信息的消息处理函数,GR表示视觉关系的集成信息收集函数,UR表示视觉关系的更新函数;
3.S3中图像区域描述特征信息更新具体为:
图像区域描述中的每个描述节点会连接多个视觉关系节点,更新具体为:
Figure BDA0002436338870000044
Figure BDA0002436338870000045
其中,
Figure BDA0002436338870000046
表示描述区域接受的信息,MR→C表示从描述区域提取有用信息的消息处理函数,GC表示描述区域集成信息的收集函数,UC是描述区域的更新函数。
本发明的有益效果:1、本发明基于多级语义任务的场景图生成方法,将场景理解任务分为物体检测、视觉关系检测和图像区域描述三个不同的语义层次,将上述三种不同层次的语义层进行相互连接,能够有针对性的对场景图像中的主要内容进行理解,提升图像理解的准确率。
2、现阶段都是使用卷积神经网络和循环神经网络结构生成图像描述,现有的图像描述方法只是基于场景图像中的目标物体并结合自然语言处理生成对图像内容的整体语言描述,并没有利用场景图的相关信息,也没有突出的显示图像所要表达的物体之间的视觉关系。本发明提出的模型将针对场景图像内容生成对应结构化的场景图,选取目标对应的特征向量进行整合后送入解码器以提升生成图像描述的准确性,图像描述任务也可以提供其他的附加信息有助于场景图的生成。
附图说明
图1是本发明多级语义任务的场景图生成方法的原理示意图。
具体实施方式
下面结合附图对本发明具体实施方式做进一步说明。
参照图1具体说明本实施方式,本实施方式所述的基于多级语义任务的场景图生成方法,主要包括Faster R-CNN物体特征提取、信息传递图、特征信息迭代更新、图像区域描述以及场景图生成。
1.针对场景理解中的物体检测、视觉关系检测、图像区域描述这三种不同层次的语义视觉任务对应产生三组不同的提议:
物体区域提议:使用Faster R-CNN网络对输入图像进行物体检测,从输入图像中检测提取出一组候选区域集合B={b1,b2,...,bn}。对于每一个区域,模型不仅提取边界框bi表示物体的位置,而且还会使用ROI池化层提取出目标物体的特征向量vi送入到后续的网络进行推理。
视觉关系区域提议:对于物体区域提议较为密集的区域,使用非极大值抑制(NMS)对物体提议进行选择性删除。将被检测到的多个物体提议使用有向边进行连接以表示物体之间的视觉关系。将多个物体区域的边界真实边界框进行集成以生成图像区域描述的区域提议边界框。
图像描述区域提议:将多个物体真实边界框和视觉关系提议进行组合以生成图像区域描述对应的区域提议。
2.场景图是图像内容的结构化表示,由物体、物体的类别标签和物体对之间的视觉关系所组成,场景图中的节点表示物体,节点之间使用有向边进行连接表示物体之间的视觉关系。根据物体之间的视觉关系为每个物体提议构建视觉关系提议,同时将构建的视觉关系和物体进行连接,基于不同语义任务之间的语义连接和空间关系动态地建立特征信息传递图,视觉关系提议和图像区域描述提议使用它们之间的相对空间关系进行连接。通过上述过程,可以构造一个信息传递图来对目标物体、视觉关系和图像区域描述之间的联系进行建模。
步骤一:场景图建模
场景图由物体、物体的类别标签和物体对之间的关系所组成,场景图G可用一个三元组G={B,O,R}表示:B={b1,b2,...,bn}是区域候选集合,其中的元素bi表示边界框的第i区域;O={o1,o2,...,on}是物体集合,其中元素oi表示关于区域bi对应的类标签;R={r1→2,r1→3,...,rn→n-1}是物体对之间的关系集合。根据物体之间的视觉关系,每个物体节点都将会有两种连接:主体-谓词和谓词-对象,边集合R包含物体对与视觉关系之间的有向边集合,这些物体节点及将其连接的有向边所组成的拓扑图就是场景图像所对应的场景图。
步骤二:构建信息传递图
由于场景图像内容的差异性,所对应场景图的拓扑结构也不尽相同,因此,基于不同语义任务之间的语义连接和空间关系动态地建立特征信息传递图,在构建视觉关系提议的同时将构建的视觉关系和物体进行连接,每个视觉关系提议可视为一个(主语-谓词-宾语)三元组,并与两个物体提议进行连接,视觉关系提议和图像区域描述提议使用它们之间的相对空间关系进行连接。通过上述过程,可以构造一个信息传递图来对目标物体提议、视觉关系提议和图像描述区域提议之间的联系进行建模。
3.将物体、视觉关系和图像区域描述视为场景图像理解的不同语义层次,并根据不同的语义空间和语义关系建立不同层级语义之间的联系。通过信息传递图将不同语义层中的节点进行连接,信息能够通过图中的边在不同的语义特征之间进行传递以对不同层级的语义信息进行特征联合迭代更新。三种不同层次的语义任务分别对应三个特征信息迭代更新:物体特征信息更新,视觉关系特征信息更新和图像区域描述特征信息更新,通过对特征更新过程进行不断的迭代直到语义层的特征收敛。三个不同层次的视觉任务对应三个并行网络分支,将视觉任务各自对应的特征送入到对应的池化层,使用两个全连接层对每个分支网络的输出进行分类,以使得不同的网络分支学习对应视觉任务的特征。
步骤一:物体特征更新
每个目标物体节点有两种关系连接:主体-谓词和谓词-对象,目标物体特征更新过程如下:
Figure BDA0002436338870000061
Figure BDA0002436338870000062
其中
Figure BDA0002436338870000063
表示物体节点接收到信息,
Figure BDA0002436338870000064
是对应于候选物体的特征向量,
Figure BDA0002436338870000065
表示两个具有视觉关系的物体之间的关系特征,
Figure BDA0002436338870000066
代表物体节点的邻域,MO→O和MR→O是从物体节点特性中提取有用信息的消息处理函数。上标表示信息传递的方向(例如:R→O表示从关系到物体)。GO和GR表示物体集成信息的收集函数,UO是物体的更新函数。
步骤二:视觉关系特征更新
物体的分类特征有助于进行物体之间的关系检测,每个视觉关系节点分别与主语(物体)节点和对象(物体)节点连接形成一个(主语-谓词-宾语)三元组,其特征更新过程与目标物体类似。物体对之间的视觉关系特征更新如下所示:
Figure BDA0002436338870000067
Figure BDA0002436338870000068
其中,
Figure BDA0002436338870000069
表示两个具有视觉关系的物体接收到的信息,MO→R是从节点特征中提取有用信息的消息处理函数,GR表示视觉关系的集成信息收集函数,UR表示视觉关系的更新函数。
步骤三:图像区域描述特征更新
图像区域描述中的每个描述节点会连接多个视觉关系节点,其特征更新过程与上述目标物体和视觉关系类似。
Figure BDA0002436338870000071
Figure BDA0002436338870000072
其中,
Figure BDA0002436338870000073
表示描述区域接受的信息,MR→C表示从描述区域提取有用信息的消息处理函数,GC表示描述区域集成信息的收集函数,UC是描述区域的更新函数。
通过这种特征信息传递更新机制使得物体检测、视觉关系和图像区域描述这三个不同层次语义任务的特征进行更新,通过信息传递更新过程,更新后的特征信息将被用于做出预测。
4.场景图是图像内容的一种结构化表示方法,而图像区域描述能更准确的表示图像所展示的内容信息,因此可以将图像区域描述作为场景图生成的一种监督方法,以检测生成的场景图与图像的内容是否匹配。
为了更好地学习图像区域描述的特征以增加图像区域描述的准确性,选取目标物体对应的特征向量以及解码器中长短期记忆网络上一时刻的隐藏状态来决定当前时刻选取的特征向量的权重,将图像中提取到的物体和显著视觉区域的位置和名称信息整合处理后送入解码器,根据长短期记忆网络(LSTM)的隐藏状态从图像局部特征向量集合中动态选择与当前时刻生成单词有关的图像局部特征来指导当前时刻单词的生成。
步骤一:选取输入图像中目标物体对应的特征向量v={v1,v2,...,vn}和名称属性向量以及解码器中LSTM网络上一时刻的隐藏状态hi-1来决定当前时间选取的特征向量的权重αij
eij=fatt(hi-1,vj) (7)
Figure BDA0002436338870000074
其中:注意机制模型fatt是一个多层感知机模型,上一时刻的隐藏状态hi-1决定了各个图像区域特征向量的权重,这些权重就表示了模型对图像各区域的重视程度。
步骤二:根据前一时刻的输出yi-1和隐藏状态hi-1以及视觉上下文zi计算得到当前时刻的隐藏状态hi
hi=LSTM(yi-1,hi-1,zi) (9)
Figure BDA0002436338870000075
步骤三:依据当前时刻的隐藏状态hi、视觉上下文zi以及前一时刻的输出yi-1通过一个全连接层可以得到当前输出单词的概率分布:
p(yi|zi,yi-1)=softmax(Eyi-1+Lhhi+Lzzi) (11)
5.场景图中不同语义层次之间通过信息传递图来更新物体、视觉关系和图像区域描述的表示。在对物体、视觉关系和图像区域描述进行多级任务学习的基础之上,使用更新的语义特征对目标物体和视觉关系进行分类并生成图像区域描述,使用目标物体和预测的视觉关系生成场景图像对应的场景图,不同层次的语义信息相互补充可以提升场景图生成的准确度。
本发明属于视觉关系检测和图像区域描述领域的场景图生成方法,将场景理解任务划分为物体检测、视觉关系检测和图像区域描述三种不同语义层次的视觉任务,以提高场景图生成的准确度。本发明提出一种基于多级语义任务生成场景图方法,将物体检测、视觉关系检测和图像区域描述三种不同层次的语义任务进行相互连接,以端到端的方式共同解决场景理解的不同语义层次的视觉任务。首先将物体、视觉关系和图像区域描述根据其空间特征和语义连接与特征信息传递图对齐,然后通过特征信息传递图将特征信息传递到三个不同层级的语义任务以实现语义特征的同时迭代更新。该方法利用场景图像不同层次的语义特征连接来实现物体检测和视觉关系检测以生成场景图像对应的场景图,并对场景图像的主要区域使用自然语言进行图像描述,同时将图像区域描述作为场景图生成的一种监督方法以提升场景图生成的准确率。
本发明提出一个新的网络模型来检测场景理解视觉任务中的不同语义层次的特征,同时对物体检测、视觉关系检测和图像区域描述这三个视觉任务进行求解;构建一个可以在多级语义层之间传递信息以对不同语义特征同时进行更新的信息传递图,可以将物体检测、视觉关系检测和图像区域描述对齐到图像中;通过信息传递图在不同的语义层次之间传递信息以实现不同层次语义特征的迭代更新,使用信息传递机制将物体检测、视觉关系检测和图像区域描述三个不同的视觉任务集成到一个模型中,实现同时对不同语义层的特征进行迭代更新的作用。
本发明使用一个新的网络模型来检测视觉任务中不同语义层次的特征信息,同时对物体检测、视觉关系检测和图像区域描述进行求解。
本发明构建一个可以在多级语义层之间传递信息以对不同语义特征同时进行更新的信息传递图,可以将物体检测、视觉关系检测和图像区域描述对齐到图像中。
本发明通过信息传递图在不同的语义层次之间传递信息以实现不同层次语义特征的迭代更新,使用信息传递机制将物体检测、视觉关系检测和图像区域描述三个不同的视觉任务集成到一个模型中,实现同时对不同语义层的特征进行迭代更新的作用。
本发明不局限于上述最佳实施方式,任何人应该得知在本发明的启示下作出的结构变化或方法改进,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。

Claims (4)

1.一种场景图生成方法,其特征在于,包括以下步骤:
S1:针对场景理解中的物体检测、视觉关系检测、图像区域描述这三种不同层次的语义视觉任务对应产生三组不同的提议,包括:
物体区域提议:使用Faster R-CNN网络对输入图像进行物体检测,从输入图像中检测提取出一组候选区域集合B={b1,b2,...,bn},对于每一个区域,模型提取边界框bi表示物体的位置,使用ROI池化层提取出目标物体的特征向量vi送入到后续的网络进行推理;
视觉关系区域提议:对于物体区域提议密集度超过给定值的区域,使用非极大值抑制对物体提议进行选择性删除,将被检测到的物体提议使用有向边进行连接以表示物体之间的视觉关系,将物体区域的边界真实边界框进行集成以生成图像区域描述的区域提议边界框;
图像描述区域提议:将物体真实边界框和视觉关系提议进行组合以生成图像区域描述对应的区域提议;
S2:构造信息传递图来对目标物体、视觉关系和图像区域描述之间的联系进行建模,具体包括:
S2.1:场景图建模:
场景图由物体、物体的类别标签和物体对之间的关系所组成,场景图G由一个三元组G={B,O,R}表示:B={b1,b2,...,bn}是区域候选集合,其中的元素bi表示边界框的第i区域;O={o1,o2,...,on}是物体集合,其中元素oi表示关于区域bi对应的类标签;R={r1→2,r1→3,...,rn→n-1}是物体对之间的关系集合,根据物体之间的视觉关系,每个物体节点都将会有两种连接:主体-关系和关系-对象,边集合R包含物体对与视觉关系之间的有向边集合,这些物体节点及将其连接的有向边所组成的拓扑图就是场景图像所对应的场景图;
S2.2:构建信息传递图:
基于不同语义任务之间的语义连接和空间关系动态地建立特征信息传递图,在构建视觉关系提议的同时将构建的视觉关系和物体进行连接,每个视觉关系提议可视为一个主语-谓词-宾语三元组,并与两个物体提议进行连接,视觉关系提议和图像区域描述提议使用它们之间的相对空间关系进行连接;
S3:将物体、视觉关系和图像区域描述视为场景图像理解的不同语义层次,并根据不同的语义空间和语义关系建立不同层级语义之间的联系,通过信息传递图将不同语义层中的节点进行连接,信息能够通过图中的边在不同的语义特征之间进行传递以对不同层级的语义信息进行特征联合迭代更新,三种不同层次的语义任务分别对应三个特征信息迭代更新:物体特征信息更新,视觉关系特征信息更新和图像区域描述特征信息更新,通过对特征更新过程进行不断的迭代直到语义层的特征收敛,三个不同层次的视觉任务对应三个并行网络分支,将视觉任务各自对应的特征送入到对应的池化层,使用两个全连接层对每个分支网络的输出进行分类,以使得不同的网络分支学习对应视觉任务的特征;
S4:采用图像区域描述对场景图生成进行监督,以检测生成的场景图与图像的内容是否匹配,选取目标物体对应的特征向量以及解码器中长短期记忆网络上一时刻的隐藏状态来决定当前时刻选取的特征向量的权重,将图像中提取到的物体和显著视觉区域的位置和名称信息整合处理后送入解码器,根据长短期记忆网络的隐藏状态从图像局部特征向量集合中动态选择与当前时刻生成单词有关的图像局部特征来指导当前时刻单词的生成,具体为:
S4.1:选取输入图像中目标物体对应的特征向量v={v1,v2,...,vn}和名称属性向量以及解码器中LSTM网络上一时刻的隐藏状态hi-1来决定当前时间选取的特征向量的权重αij
eij=fatt(hi-1,vj)
Figure FDA0002436338860000021
其中,注意机制模型fatt是一个多层感知机模型,上一时刻的隐藏状态hi-1决定各个图像区域特征向量的权重,权重代表模型对图像各区域的重视程度;
S4.2:根据前一时刻的输出yi-1和隐藏状态hi-1以及视觉上下文zi计算得到当前时刻的隐藏状态hi
hi=LSTM(yi-1,hi-1,zi)
Figure FDA0002436338860000022
S4.3:依据当前时刻的隐藏状态hi、视觉上下文zi以及前一时刻的输出yi-1通过一个全连接层可以得到当前输出单词的概率分布:
p(yi|zi,yi-1)=softmax(Eyi-1+Lhhi+Lzzi)
S5:使用更新的语义特征对目标物体和视觉关系进行分类并生成图像区域描述,使用目标物体和预测的视觉关系生成场景图像对应的场景图。
2.根据权利要求1所述的一种场景图生成方法,其特征在于:S3所述物体特征信息更新具体为:
每个目标物体节点有两种关系连接:主体-谓词和谓词-对象,目标物体特征更新过程如下:
Figure FDA0002436338860000031
Figure FDA0002436338860000032
其中
Figure FDA0002436338860000033
表示物体节点接收到信息,fi O∈RD是对应于候选物体的特征向量,
Figure FDA0002436338860000034
表示两个具有视觉关系的物体之间的关系特征,
Figure FDA0002436338860000035
代表物体节点的邻域,MO→O和MR →O是从物体节点特性中提取有用信息的消息处理函数,上标表示信息传递的方向,GO和GR表示物体集成信息的收集函数,UO是物体的更新函数。
3.根据权利要求1所述的一种场景图生成方法,其特征在于:S3所述视觉关系特征信息更新具体为:
物体的分类特征有助于进行物体之间的关系检测,每个视觉关系节点分别与主语(物体)节点和对象(物体)节点连接形成一个(主语-谓词-宾语)三元组,物体对之间的视觉关系特征更新如下所示:
Figure FDA0002436338860000036
Figure FDA0002436338860000037
其中,
Figure FDA0002436338860000038
表示两个具有视觉关系的物体接收到的信息,MO→R是从节点特征中提取有用信息的消息处理函数,GR表示视觉关系的集成信息收集函数,UR表示视觉关系的更新函数。
4.根据权利要求1所述的一种场景图生成方法,其特征在于:S3所述图像区域描述特征信息更新具体为:
图像区域描述中的每个描述节点会连接多个视觉关系节点,更新具体为:
Figure FDA0002436338860000039
Figure FDA00024363388600000310
其中,
Figure FDA00024363388600000311
表示描述区域接受的信息,MR→C表示从描述区域提取有用信息的消息处理函数,GC表示描述区域集成信息的收集函数,UC是描述区域的更新函数。
CN202010253468.7A 2020-04-02 2020-04-02 一种场景图生成方法 Active CN111462282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010253468.7A CN111462282B (zh) 2020-04-02 2020-04-02 一种场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010253468.7A CN111462282B (zh) 2020-04-02 2020-04-02 一种场景图生成方法

Publications (2)

Publication Number Publication Date
CN111462282A true CN111462282A (zh) 2020-07-28
CN111462282B CN111462282B (zh) 2023-01-03

Family

ID=71680571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010253468.7A Active CN111462282B (zh) 2020-04-02 2020-04-02 一种场景图生成方法

Country Status (1)

Country Link
CN (1) CN111462282B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085122A (zh) * 2020-09-21 2020-12-15 中国科学院上海微系统与信息技术研究所 一种基于本体的半监督图像场景语义深化方法
CN112149692A (zh) * 2020-10-16 2020-12-29 腾讯科技(深圳)有限公司 基于人工智能的视觉关系识别方法、装置及电子设备
CN112288831A (zh) * 2020-10-29 2021-01-29 中国人民解放军陆军装甲兵学院 基于生成对抗网络的场景图像生成方法和装置
CN112329879A (zh) * 2020-11-16 2021-02-05 浙江大学 基于反事实多智能体学习的图像场景图的生成方法和系统
CN112508048A (zh) * 2020-10-22 2021-03-16 复旦大学 图像描述的生成方法和装置
CN112528989A (zh) * 2020-12-01 2021-03-19 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN112989927A (zh) * 2021-02-03 2021-06-18 杭州电子科技大学 一种基于自监督预训练的场景图生成方法
CN113139423A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113240033A (zh) * 2021-05-25 2021-08-10 清华大学深圳国际研究生院 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN113449741A (zh) * 2021-07-02 2021-09-28 西安交通大学 一种基于语义推断和图像理解的遥感影像定位方法及系统
CN113554129A (zh) * 2021-09-22 2021-10-26 航天宏康智能科技(北京)有限公司 场景图的生成方法和生成装置
CN113792175A (zh) * 2021-08-23 2021-12-14 西南科技大学 一种基于细粒度特征提取的图像理解方法
CN113918754A (zh) * 2021-11-01 2022-01-11 中国石油大学(华东) 基于场景图更新与特征拼接的图像字幕生成方法
CN114677544A (zh) * 2022-03-24 2022-06-28 西安交通大学 一种基于全局上下文交互的场景图生成方法及系统及设备
CN115170449A (zh) * 2022-06-30 2022-10-11 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
WO2023065033A1 (en) * 2021-10-21 2023-04-27 The Toronto-Dominion Bank Co-learning object and relationship detection with density aware loss
CN116152647A (zh) * 2023-04-18 2023-05-23 中国科学技术大学 基于多轮迭代策略和差异性感知的场景图生成方法
CN116912353A (zh) * 2023-09-13 2023-10-20 上海蜜度信息技术有限公司 多任务图像处理方法、系统、存储介质及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110158510A1 (en) * 2009-12-28 2011-06-30 Mario Aguilar Biologically-inspired metadata extraction (bime) of visual data using a multi-level universal scene descriptor (usd)
US20140347388A1 (en) * 2006-05-05 2014-11-27 General Electric Company User interface and method for identifying related information displayed in an ultrasound system
CN107563498A (zh) * 2017-09-08 2018-01-09 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN108171254A (zh) * 2017-11-22 2018-06-15 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
US20180322373A1 (en) * 2017-05-05 2018-11-08 Hrl Laboratories, Llc Zero shot machine vision system via joint sparse representations
CN109344771A (zh) * 2018-09-30 2019-02-15 宁波工程学院 一种基于多重语义交互的递归式场景理解方法
CN109783666A (zh) * 2019-01-11 2019-05-21 中山大学 一种基于迭代精细化的图像场景图谱生成方法
CN109977234A (zh) * 2019-03-28 2019-07-05 哈尔滨工程大学 一种基于主题关键词过滤的知识图谱补全方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140347388A1 (en) * 2006-05-05 2014-11-27 General Electric Company User interface and method for identifying related information displayed in an ultrasound system
US20110158510A1 (en) * 2009-12-28 2011-06-30 Mario Aguilar Biologically-inspired metadata extraction (bime) of visual data using a multi-level universal scene descriptor (usd)
US20180322373A1 (en) * 2017-05-05 2018-11-08 Hrl Laboratories, Llc Zero shot machine vision system via joint sparse representations
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN107563498A (zh) * 2017-09-08 2018-01-09 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN108171254A (zh) * 2017-11-22 2018-06-15 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN109344771A (zh) * 2018-09-30 2019-02-15 宁波工程学院 一种基于多重语义交互的递归式场景理解方法
CN109783666A (zh) * 2019-01-11 2019-05-21 中山大学 一种基于迭代精细化的图像场景图谱生成方法
CN109977234A (zh) * 2019-03-28 2019-07-05 哈尔滨工程大学 一种基于主题关键词过滤的知识图谱补全方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HONGWEI MO: "On control law partitioning for nonlinear control of a quadrotor UAV", 《 2018 15TH INTERNATIONAL BHURBAN CONFERENCE ON APPLIED SCIENCES AND TECHNOLOGY》 *
庄志刚: "一种结合多尺度特征图和环型关系推理的场景图生成模型", 《计算机科学》 *
罗朔锋 等: "高性能面向对象场景图系统", 《系统仿真学报》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085122A (zh) * 2020-09-21 2020-12-15 中国科学院上海微系统与信息技术研究所 一种基于本体的半监督图像场景语义深化方法
CN112085122B (zh) * 2020-09-21 2024-03-15 中国科学院上海微系统与信息技术研究所 一种基于本体的半监督图像场景语义深化方法
CN112149692B (zh) * 2020-10-16 2024-03-05 腾讯科技(深圳)有限公司 基于人工智能的视觉关系识别方法、装置及电子设备
CN112149692A (zh) * 2020-10-16 2020-12-29 腾讯科技(深圳)有限公司 基于人工智能的视觉关系识别方法、装置及电子设备
CN112508048A (zh) * 2020-10-22 2021-03-16 复旦大学 图像描述的生成方法和装置
CN112508048B (zh) * 2020-10-22 2023-06-06 复旦大学 图像描述的生成方法和装置
CN112288831A (zh) * 2020-10-29 2021-01-29 中国人民解放军陆军装甲兵学院 基于生成对抗网络的场景图像生成方法和装置
CN112329879A (zh) * 2020-11-16 2021-02-05 浙江大学 基于反事实多智能体学习的图像场景图的生成方法和系统
CN112528989A (zh) * 2020-12-01 2021-03-19 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN112528989B (zh) * 2020-12-01 2022-10-18 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN112989927A (zh) * 2021-02-03 2021-06-18 杭州电子科技大学 一种基于自监督预训练的场景图生成方法
CN112989927B (zh) * 2021-02-03 2024-03-05 杭州电子科技大学 一种基于自监督预训练的场景图生成方法
CN113139423B (zh) * 2021-03-09 2024-03-01 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113139423A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113240033B (zh) * 2021-05-25 2022-06-28 清华大学深圳国际研究生院 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN113240033A (zh) * 2021-05-25 2021-08-10 清华大学深圳国际研究生院 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN113449741B (zh) * 2021-07-02 2023-05-02 西安交通大学 一种基于语义推断和图像理解的遥感影像定位方法及系统
CN113449741A (zh) * 2021-07-02 2021-09-28 西安交通大学 一种基于语义推断和图像理解的遥感影像定位方法及系统
CN113792175A (zh) * 2021-08-23 2021-12-14 西南科技大学 一种基于细粒度特征提取的图像理解方法
CN113554129A (zh) * 2021-09-22 2021-10-26 航天宏康智能科技(北京)有限公司 场景图的生成方法和生成装置
WO2023065033A1 (en) * 2021-10-21 2023-04-27 The Toronto-Dominion Bank Co-learning object and relationship detection with density aware loss
CN113918754A (zh) * 2021-11-01 2022-01-11 中国石油大学(华东) 基于场景图更新与特征拼接的图像字幕生成方法
CN114677544A (zh) * 2022-03-24 2022-06-28 西安交通大学 一种基于全局上下文交互的场景图生成方法及系统及设备
CN115170449A (zh) * 2022-06-30 2022-10-11 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
CN115170449B (zh) * 2022-06-30 2023-09-22 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
CN116152647B (zh) * 2023-04-18 2023-07-18 中国科学技术大学 基于多轮迭代策略和差异性感知的场景图生成方法
CN116152647A (zh) * 2023-04-18 2023-05-23 中国科学技术大学 基于多轮迭代策略和差异性感知的场景图生成方法
CN116912353B (zh) * 2023-09-13 2023-12-19 上海蜜度信息技术有限公司 多任务图像处理方法、系统、存储介质及电子设备
CN116912353A (zh) * 2023-09-13 2023-10-20 上海蜜度信息技术有限公司 多任务图像处理方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN111462282B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN111462282B (zh) 一种场景图生成方法
WO2023280065A1 (zh) 一种面向跨模态通信系统的图像重建方法及装置
CN111931903A (zh) 一种基于双层图注意力神经网络的网络对齐方法
CN112132197B (zh) 模型训练、图像处理方法、装置、计算机设备和存储介质
CN110837602A (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN108920678A (zh) 一种基于谱聚类与模糊集的重叠社区发现方法
CN112597883A (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN111709410B (zh) 一种强动态视频的行为识别方法
JP2016045943A (ja) シーンの取得画像を意味的にラベル付けする方法
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN112200266B (zh) 基于图结构数据的网络训练方法、装置以及节点分类方法
CN103810266B (zh) 语义网络目标识别判证方法
CN113435520A (zh) 神经网络的训练方法、装置、设备及计算机可读存储介质
CN113627557A (zh) 一种基于上下文图注意力机制的场景图生成方法
CN116010813A (zh) 基于图神经网络融合标签节点影响度的社区检测方法
CN115018999A (zh) 一种多机器人协作的稠密点云地图构建方法及装置
CN111291785A (zh) 目标检测的方法、装置、设备及存储介质
CN112487305A (zh) 一种基于gcn的动态社交用户对齐方法
Hu et al. Panoptic edge detection
CN115631504A (zh) 一种基于双模态图网络信息瓶颈的情感识别方法
CN115577757A (zh) 基于图卷积网络节点标签异构图的社区发现方法
CN115019053A (zh) 一种用于点云分类分割的动态图语义特征提取方法
CN116110074A (zh) 一种基于图神经网络的动态小股行人识别方法
CN113591685B (zh) 一种基于多尺度池化的地理对象空间关系识别方法及系统
CN113824989B (zh) 一种视频处理方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant