CN116152647A - 基于多轮迭代策略和差异性感知的场景图生成方法 - Google Patents

基于多轮迭代策略和差异性感知的场景图生成方法 Download PDF

Info

Publication number
CN116152647A
CN116152647A CN202310413895.0A CN202310413895A CN116152647A CN 116152647 A CN116152647 A CN 116152647A CN 202310413895 A CN202310413895 A CN 202310413895A CN 116152647 A CN116152647 A CN 116152647A
Authority
CN
China
Prior art keywords
edge
node
round
scene graph
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310413895.0A
Other languages
English (en)
Other versions
CN116152647B (zh
Inventor
张勇东
毛震东
赵慧婷
赵博文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310413895.0A priority Critical patent/CN116152647B/zh
Publication of CN116152647A publication Critical patent/CN116152647A/zh
Application granted granted Critical
Publication of CN116152647B publication Critical patent/CN116152647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像理解技术领域,公开了一种基于多轮迭代策略和差异性感知的场景图生成方法,包括:场景图初始化,提取给定图像中目标的特征,得到场景图中节点的节点特征,以及融合了节点特征的边特征;将边特征输入至分类器进行预测,得到预测关系语义和更新后的边特征;将更新后的边特征重新输入至分类器进行预测;采用多轮迭代策略,得到最终的场景图;本发明从关系语义信息挖掘的角度提出了基于多轮迭代策略和差异性感知的场景图生成技术,多轮迭代推理机制模拟了人类回顾再重新推理的过程,差异性感知利用并挖掘了每次预测出的关系包含的丰富的语义信息,有助于提升模型对不同上下文场景的认知理解能力。

Description

基于多轮迭代策略和差异性感知的场景图生成方法
技术领域
本发明涉及图像理解领域,具体涉及一种基于多轮迭代策略和差异性感知的场景图生成方法。
背景技术
场景图生成技术旨在基于给定的图像自动识别其中的目标,并描述目标之间的关系,生成一系列由形如<主语-关系-宾语>的三元组构成的图结构。场景图生成技术可以对视觉图像内容进行充分理解,概括图像的主要语义信息,充当跨越模态间语义鸿沟的桥梁,以便进一步处理和智能创作,因此具有很高的研究价值与实用价值。
对于场景图生成技术来说,一个关键的挑战是如何精确地预测所识别目标之间的关系。因为相比于目标,关系具有更为抽象的语义,并且在图像中并不能严格精确地定位到某个具体区域。最近,文本模态的信息被广泛研究用来辅助增强关系视觉特征,比如统计发现关系和目标之间存在一定的共现分布,主流方法也据此逐渐将引入检测出的目标类别的语义参与到特征融合中。但引入这样少量的文本信息对关系预测的促进作用仍比较有限,因为关系随着视觉上下文变化而变化,共现分布不能为建模视觉上下文提供充分的监督信息。此外,关系类别词本身所蕴含的语义也完全被忽略了,而这些语义信息可为关系预测提供丰富的先验知识。
发明内容
为解决上述技术问题,本发明提出了一种基于多轮迭代策略和差异性感知的场景图生成方法。本发明的创新点体现在两方面,一方面本发明重点考虑并提取了关系本身的语义信息,使其参与到特征融合中,作为额外的先验信息引导模型更好地学习关系预测;另一方面,本发明受人类思考问题的方式启发,提出了多轮迭代预测的策略,并且为了更好地修正预测结果,从差异性感知的角度分别建模每轮之间的上下文信息和预测关系差异,以提升对不同上下文场景的认知理解能力。
为解决上述技术问题,本发明采用如下技术方案:
一种基于多轮迭代策略和差异性感知的场景图生成方法,包括以下步骤:
步骤一、场景图初始化:提取给定图像中目标的特征,得到场景图中节点的节点特征,以及融合了节点特征的边特征;场景图中的节点代表主语或者宾语,边代表主语与宾语之间的关系;
步骤二:将边特征输入至分类器进行预测,得到预测关系语义和更新后的边特征;将更新后的边特征重新输入至分类器进行预测;
步骤三:采用多轮迭代策略,重复运行n轮步骤二,得到最终的场景图;
在相邻的两轮迭代间进行差异性感知:以场景图中节点
Figure SMS_11
的节点特征作为第/>
Figure SMS_4
轮迭代时的上下文信息/>
Figure SMS_8
;以场景图中节点/>
Figure SMS_15
的节点特征作为第/>
Figure SMS_19
轮迭代时的上下文信息/>
Figure SMS_17
;将第/>
Figure SMS_20
轮迭代中得到的节点/>
Figure SMS_9
和相邻节点/>
Figure SMS_13
之间的预测关系语义,输入到预训练的自然语言编码器获得语义向量/>
Figure SMS_2
;将第/>
Figure SMS_5
轮迭代中得到的节点/>
Figure SMS_12
和相邻节点/>
Figure SMS_16
之间的预测关系语义,输入到预训练的自然语言编码器获得语义向量/>
Figure SMS_14
,则:第/>
Figure SMS_18
轮迭代中,上下文信息在本轮迭代和上一轮迭代间的差异向量/>
Figure SMS_3
;第/>
Figure SMS_7
轮迭代中,预测关系语义在本轮迭代和上一轮迭代间的差异向量/>
Figure SMS_6
;/>
Figure SMS_10
代表差异性算子,/>
Figure SMS_1
利用差异性感知结果对节点特征和边特征进行更新,得到步骤二中所述的更新后的边特征:
Figure SMS_21
轮迭代中节点/>
Figure SMS_22
更新后的节点特征
Figure SMS_23
其中,
Figure SMS_25
和/>
Figure SMS_27
为可学习维度转换权重,/>
Figure SMS_30
第/>
Figure SMS_26
轮迭代中节点/>
Figure SMS_29
更新前的节点特征,/>
Figure SMS_32
为sigmoid激活函数,/>
Figure SMS_33
为第/>
Figure SMS_24
轮迭代中节点/>
Figure SMS_28
和节点/>
Figure SMS_31
之间的边的边特征,[;]代表拼接操作;
对于边特征,首先使用差异向量
Figure SMS_34
进行更新:/>
Figure SMS_39
;/>
Figure SMS_41
为融合了差异向量/>
Figure SMS_36
的边特征;/>
Figure SMS_38
为融合方式,/>
Figure SMS_40
Figure SMS_42
代表映射到同一维度空间的权重;之后使用更新后的节点特征/>
Figure SMS_35
对边特征/>
Figure SMS_37
进一步更新:
Figure SMS_43
Figure SMS_44
为使用节点特征更新的边特征,/>
Figure SMS_45
为维度转换权重;将更新后的边特征
Figure SMS_46
重新送入分类器进行重新预测。
进一步地,步骤一具体包括:
对于节点,通过视觉特征提取器提取给定图像中目标的特征,并融合作为节点的特征;对于边,首先基于与边相关的两个节点的目标框计算合并框,根据合并框从视觉特征提取器生成的特征图上获取边的视觉特征;之后将边的视觉特征和空间坐标,以及与边相关的两个节点的节点特征融合,作为边的特征;
采用信息传递机制进行图特征编码,具体地:节点特征的更新采用以节点为中心的自注意力机制,首先计算节点各个相连边的边特征与当前节点特征的注意力系数,之后按注意力系数将各个边的边特征聚合;
边特征更新时,直接将边特征与边两端节点的节点特征进行融合。
进一步地,步骤一中,图像中目标的特征包括目标的空间坐标、类别特征、视觉特征。
进一步地,所述差异性算子
Figure SMS_47
Figure SMS_48
代表元素点乘,[;]代表拼接操作,FC代表全连接层,tanh为激活函数,/>
Figure SMS_49
为变量。
与现有技术相比,本发明的有益技术效果是:
本发明从关系语义信息挖掘的角度提出了基于多轮迭代策略和差异性感知的场景图生成技术,多轮迭代推理机制模拟了人类回顾再重新推理的过程,差异性感知利用并挖掘了每次预测出的关系包含的丰富的语义信息,从关系语义和视觉上下文两方面建模轮间差异,有助于提升模型对不同上下文场景的认知理解能力。此外,本发明提出的多轮迭代策略可适用于任何利用消息传递机制编码的模型,具有良好的通用性和可插拔性。
附图说明
图1为本发明中场景图生成方法的流程图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
场景图生成任务通常被定义为:给定一张图像作为输入,识别其中的目标,预测目标间的关系,最终生成一系列形如<主语-谓语-宾语>的三元组。场景图中,节点代表主语或者宾语,边代表主语与宾语之间的关系。
本发明的流程如图1所示,首先基于常见的消息传递机制进行场景图初始化,之后进行本发明所提出的多轮迭代策略,多轮迭代策略中的创新点主要包括两个部分:差异性感知建模和重新预测。
(1)场景图初始化
本发明首先采用常见的场景图生成范式进行初始化。场景图由节点和边构成,对于节点,基于视觉特征提取器(如目标检测模型Faster RCNN等)提取给定图像中目标的相关特征(空间坐标、类别特征、视觉特征)并融合作为节点的特征。对于边,则首先基于与该边相关的两个节点的目标框计算合并框(两个框的最小外接矩形),根据合并框从视觉特征提取器生成的特征图上获取该边的视觉特征,之后将边的视觉特征、空间坐标以及与该边相关两个节点的特征融合作为边的特征。
之后本发明采用常见的信息传递机制进行图特征编码。具体地,对于节点,其特征更新采用以节点为中心的自注意力机制,首先计算当前节点各个相连边的特征与当前节点特征的注意力系数,之后按注意力系数将各个边的特征聚合,即可实现节点特征的更新;对于边,其特征更新时,直接将该边与两端节点的特征进行融合,以实现信息传递和更新。整个消息传递会持续多轮,以获得信息经过全局充分流通的场景图。在多轮消息传递结束后,将边的特征输入到分类器中以进行第一次的关系预测,得到预测关系语义。
(2)差异性感知建模
关系与上下文信息密切相关,同一对主语和宾语在相似的上下文背景中也可能存在不同的关系。另一方面,现有的关系预测都是采用单步推理的方式,然而直觉上人类在思考问题时总是遵循一种不断回顾并修改的范式,倾向于比较当前和先前的结论以逐渐加深理解,现有的单步模式预测出的关系中还隐含着丰富的潜在线索尚未挖掘。为了更好地建模上下文信息并利用关系自身语义,本发明提出了一种新式的差异性感知的多轮迭代推理机制。
为了更好地利用和挖掘每轮预测结果中的潜在线索,本发明同时考虑上下文特征和预测出的关系语义两方面的差异。具体地,考虑相邻两轮,第
Figure SMS_51
轮(/>
Figure SMS_54
大于等于2)和第/>
Figure SMS_56
轮,首先以场景图中节点/>
Figure SMS_52
的节点特征作为这相邻两轮的上下文信息/>
Figure SMS_55
,将节点/>
Figure SMS_57
和相邻节点/>
Figure SMS_58
之间的预测关系语义,输入到预训练的自然语言编码器(如Glove或Bert)以获得语义向量/>
Figure SMS_50
。最后,计算第/>
Figure SMS_53
轮迭代后,上下文信息在本轮迭代和上一轮迭代间的差异向量
Figure SMS_59
Figure SMS_60
轮迭代后,预测关系语义在本轮迭代和上一轮迭代间的差异向量
Figure SMS_61
Figure SMS_62
代表差异性算子:
Figure SMS_63
Figure SMS_64
代表元素点乘,[;]代表拼接操作,FC代表全连接层,tanh为激活函数。此外,当/>
Figure SMS_65
为1,即第一轮预测时,无法获取和前一轮的差异,所以差异向量置为零。
(3)重新预测
为了充分利用每轮提取的两种差异向量中包含的关键关系的潜在线索,本发明将两种差异向量与当前轮的节点特征和边特征融合以更新信息。对于节点
Figure SMS_66
,其节点特征通过聚合节点/>
Figure SMS_67
连接的边以及上下文差异向量更新:
Figure SMS_68
其中
Figure SMS_69
和/>
Figure SMS_73
为可学习维度转换权重,/>
Figure SMS_75
分别为更新前和更新后的节点特征,/>
Figure SMS_71
为sigmoid激活函数,节点/>
Figure SMS_74
为节点/>
Figure SMS_76
的相邻节点,/>
Figure SMS_77
为节点/>
Figure SMS_70
和节点/>
Figure SMS_72
之间的边的边特征。在首轮预测结束后,由于差异向量为0,所以首轮迭代中,节点特征仅由所连边的边特征更新。
对于边特征,首先使用预测关系语义差异向量
Figure SMS_78
进行更新:
Figure SMS_79
;/>
Figure SMS_80
为融合了预测关系语义差异向量的边特征;/>
Figure SMS_81
为融合方式,具体为:
Figure SMS_82
,/>
Figure SMS_83
代表映射到同一维度空间的权重,这种融合方式在ReLU激活函数融合的基础上加了差值附加项,衡量了映射后两种向量之间的差异,有助于学习到一种对齐的映射。
之后使用更新后的节点特征对边特征进一步更新:
Figure SMS_84
Figure SMS_85
为使用节点特征更新后的边特征,/>
Figure SMS_86
特别地,第一轮预测后,由于暂时没有差异向量,计算/>
Figure SMS_87
时的差异向量/>
Figure SMS_88
被替换为预测的关系语义。
在获得更新后的边特征
Figure SMS_89
后,再次将/>
Figure SMS_90
送入分类器进行重新预测。上述差异性感知建模和重新预测过程将重复迭代多次。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种基于多轮迭代策略和差异性感知的场景图生成方法,包括以下步骤:
步骤一、场景图初始化:提取给定图像中目标的特征,得到场景图中节点的节点特征,以及融合了节点特征的边特征;场景图中的节点代表主语或者宾语,边代表主语与宾语之间的关系;
步骤二:将边特征输入至分类器进行预测,得到预测关系语义和更新后的边特征;将更新后的边特征重新输入至分类器进行预测;
步骤三:采用多轮迭代策略,重复运行n轮步骤二,得到最终的场景图;
在相邻的两轮迭代间进行差异性感知:以场景图中节点
Figure QLYQS_16
的节点特征作为第/>
Figure QLYQS_3
轮迭代时的上下文信息/>
Figure QLYQS_12
;以场景图中节点/>
Figure QLYQS_4
的节点特征作为第/>
Figure QLYQS_11
轮迭代时的上下文信息/>
Figure QLYQS_13
;将第/>
Figure QLYQS_17
轮迭代中得到的节点/>
Figure QLYQS_6
和相邻节点/>
Figure QLYQS_7
之间的预测关系语义,输入到预训练的自然语言编码器获得语义向量/>
Figure QLYQS_1
;将第/>
Figure QLYQS_5
轮迭代中得到的节点/>
Figure QLYQS_8
和相邻节点/>
Figure QLYQS_10
之间的预测关系语义,输入到预训练的自然语言编码器获得语义向量/>
Figure QLYQS_14
,则:第/>
Figure QLYQS_18
轮迭代中,上下文信息在本轮迭代和上一轮迭代间的差异向量/>
Figure QLYQS_9
;第/>
Figure QLYQS_15
轮迭代中,预测关系语义在本轮迭代和上一轮迭代间的差异向量/>
Figure QLYQS_19
;/>
Figure QLYQS_20
代表差异性算子,/>
Figure QLYQS_2
利用差异性感知结果对节点特征和边特征进行更新,得到步骤二中所述的更新后的边特征:
Figure QLYQS_21
轮迭代中节点/>
Figure QLYQS_22
更新后的节点特征
Figure QLYQS_23
其中,
Figure QLYQS_25
和/>
Figure QLYQS_27
为可学习维度转换权重,/>
Figure QLYQS_30
第/>
Figure QLYQS_26
轮迭代中节点/>
Figure QLYQS_29
更新前的节点特征,/>
Figure QLYQS_32
为sigmoid激活函数,/>
Figure QLYQS_33
为第/>
Figure QLYQS_24
轮迭代中节点/>
Figure QLYQS_28
和节点/>
Figure QLYQS_31
之间的边的边特征,[;]代表拼接操作;
对于边特征,首先使用差异向量
Figure QLYQS_34
进行更新:/>
Figure QLYQS_39
;/>
Figure QLYQS_41
为融合了差异向量/>
Figure QLYQS_36
的边特征;/>
Figure QLYQS_37
为融合方式,/>
Figure QLYQS_40
Figure QLYQS_42
代表映射到同一维度空间的权重;之后使用更新后的节点特征/>
Figure QLYQS_35
对边特征/>
Figure QLYQS_38
进一步更新:
Figure QLYQS_43
Figure QLYQS_44
为使用节点特征更新的边特征,/>
Figure QLYQS_45
为维度转换权重;将更新后的边特征/>
Figure QLYQS_46
重新送入分类器进行重新预测。/>
2.根据权利要求1所述的基于多轮迭代策略和差异性感知的场景图生成方法,其特征在于,步骤一具体包括:
对于节点,通过视觉特征提取器提取给定图像中目标的特征,并融合作为节点的特征;对于边,首先基于与边相关的两个节点的目标框计算合并框,根据合并框从视觉特征提取器生成的特征图上获取边的视觉特征;之后将边的视觉特征和空间坐标,以及与边相关的两个节点的节点特征融合,作为边的特征;
采用信息传递机制进行图特征编码,具体地:节点特征的更新采用以节点为中心的自注意力机制,首先计算节点各个相连边的边特征与当前节点特征的注意力系数,之后按注意力系数将各个边的边特征聚合;
边特征更新时,直接将边特征与边两端节点的节点特征进行融合。
3.根据权利要求1或2所述的基于多轮迭代策略和差异性感知的场景图生成方法,其特征在于:步骤一中,图像中目标的特征包括目标的空间坐标、类别特征、视觉特征。
4.根据权利要求1所述的基于多轮迭代策略和差异性感知的场景图生成方法,其特征在于,所述差异性算子
Figure QLYQS_47
Figure QLYQS_48
代表元素点乘,[;]代表拼接操作,FC代表全连接层,tanh为激活函数,/>
Figure QLYQS_49
为变量。/>
CN202310413895.0A 2023-04-18 2023-04-18 基于多轮迭代策略和差异性感知的场景图生成方法 Active CN116152647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310413895.0A CN116152647B (zh) 2023-04-18 2023-04-18 基于多轮迭代策略和差异性感知的场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310413895.0A CN116152647B (zh) 2023-04-18 2023-04-18 基于多轮迭代策略和差异性感知的场景图生成方法

Publications (2)

Publication Number Publication Date
CN116152647A true CN116152647A (zh) 2023-05-23
CN116152647B CN116152647B (zh) 2023-07-18

Family

ID=86358495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310413895.0A Active CN116152647B (zh) 2023-04-18 2023-04-18 基于多轮迭代策略和差异性感知的场景图生成方法

Country Status (1)

Country Link
CN (1) CN116152647B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117350695B (zh) * 2023-12-04 2024-05-07 四川省农业农村人才发展服务中心 一种基于云平台的农业技术培训方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020063704A1 (en) * 1999-09-24 2002-05-30 Henry Sowizral Using render bin parallelism for rendering scene graph based graphics data
CN107480137A (zh) * 2017-08-10 2017-12-15 北京亚鸿世纪科技发展有限公司 用语义迭代提取网络突发事件并识别外延事件关系的方法
CN109214006A (zh) * 2018-09-18 2019-01-15 中国科学技术大学 图像增强的层次化语义表示的自然语言推理方法
CN109359564A (zh) * 2018-09-29 2019-02-19 中山大学 一种图像场景图生成方法及装置
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法
CN111858954A (zh) * 2020-06-29 2020-10-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向任务的文本生成图像网络模型
US20210081780A1 (en) * 2019-09-13 2021-03-18 Honda Motor Co., Ltd. System and method for providing object-level driver attention reasoning with a graph convolution network
CN113627557A (zh) * 2021-08-19 2021-11-09 电子科技大学 一种基于上下文图注意力机制的场景图生成方法
CN114821188A (zh) * 2022-05-20 2022-07-29 京东科技信息技术有限公司 图像处理方法、场景图生成模型的训练方法以及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020063704A1 (en) * 1999-09-24 2002-05-30 Henry Sowizral Using render bin parallelism for rendering scene graph based graphics data
CN107480137A (zh) * 2017-08-10 2017-12-15 北京亚鸿世纪科技发展有限公司 用语义迭代提取网络突发事件并识别外延事件关系的方法
CN109214006A (zh) * 2018-09-18 2019-01-15 中国科学技术大学 图像增强的层次化语义表示的自然语言推理方法
CN109359564A (zh) * 2018-09-29 2019-02-19 中山大学 一种图像场景图生成方法及装置
US20210081780A1 (en) * 2019-09-13 2021-03-18 Honda Motor Co., Ltd. System and method for providing object-level driver attention reasoning with a graph convolution network
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法
CN111858954A (zh) * 2020-06-29 2020-10-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向任务的文本生成图像网络模型
CN113627557A (zh) * 2021-08-19 2021-11-09 电子科技大学 一种基于上下文图注意力机制的场景图生成方法
CN114821188A (zh) * 2022-05-20 2022-07-29 京东科技信息技术有限公司 图像处理方法、场景图生成模型的训练方法以及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOWEN ZHAO ET AL: "Semantically Similarity-Wise Dual-Branch Network for Scene Graph Generation", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 32, no. 7, pages 4573 - 4583 *
庄志刚;许青林;: "一种结合多尺度特征图和环型关系推理的场景图生成模型", 计算机科学, no. 04, pages 136 - 141 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117350695B (zh) * 2023-12-04 2024-05-07 四川省农业农村人才发展服务中心 一种基于云平台的农业技术培训方法和系统

Also Published As

Publication number Publication date
CN116152647B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN112233124B (zh) 基于对抗式学习与多模态学习的点云语义分割方法及系统
Zhao et al. TrajGAT: A map-embedded graph attention network for real-time vehicle trajectory imputation of roadside perception
CN107463953A (zh) 在标签含噪情况下基于质量嵌入的图像分类方法及系统
Xu et al. Model-agnostic multi-agent perception framework
CN109389057B (zh) 一种基于多尺度高级语义融合网络的物体检测方法
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN116152647B (zh) 基于多轮迭代策略和差异性感知的场景图生成方法
CN112200266B (zh) 基于图结构数据的网络训练方法、装置以及节点分类方法
CN115455130B (zh) 一种社交媒体数据与移动轨迹数据的融合方法
Zhang et al. Unifying generative models with GFlowNets and beyond
CN115797606A (zh) 基于深度学习的3d虚拟数字人交互动作生成方法及系统
CN111611367A (zh) 一种引入外部知识的视觉问答方法
CN111000492A (zh) 基于知识图谱的智能扫地机行为决策方法及智能扫地机
Lv et al. Digital twins based VR simulation for accident prevention of intelligent vehicle
Schuster et al. A deep temporal fusion framework for scene flow using a learnable motion model and occlusions
Yang et al. A survey of large language models for autonomous driving
Liu et al. Learning from interaction-enhanced scene graph for pedestrian collision risk assessment
Jiang et al. Multisource hierarchical neural network for knowledge graph embedding
CN110968101A (zh) 基于本体和贝叶斯网络的无人驾驶车辆行为决策方法
CN113744023B (zh) 一种基于图卷积网络的双通道协同过滤推荐方法
Zhong A convolutional neural network based online teaching method using edge-cloud computing platform
CN115294176A (zh) 一种双光多模型长时间目标跟踪方法、系统及存储介质
Bendig et al. Self-superflow: self-supervised scene flow prediction in stereo sequences
CN114821188A (zh) 图像处理方法、场景图生成模型的训练方法以及电子设备
Behera et al. PIDLNet: A physics-induced deep learning network for characterization of crowd videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant