CN113836339A - 一种基于全局信息和位置嵌入的场景图生成方法 - Google Patents

一种基于全局信息和位置嵌入的场景图生成方法 Download PDF

Info

Publication number
CN113836339A
CN113836339A CN202111021629.0A CN202111021629A CN113836339A CN 113836339 A CN113836339 A CN 113836339A CN 202111021629 A CN202111021629 A CN 202111021629A CN 113836339 A CN113836339 A CN 113836339A
Authority
CN
China
Prior art keywords
target
information
scene graph
network
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111021629.0A
Other languages
English (en)
Other versions
CN113836339B (zh
Inventor
胡荣林
赵志勇
董甜甜
张新新
王媛媛
马鸿泰
邵鹤帅
冯万利
朱全银
何旭琴
秦齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202111021629.0A priority Critical patent/CN113836339B/zh
Publication of CN113836339A publication Critical patent/CN113836339A/zh
Application granted granted Critical
Publication of CN113836339B publication Critical patent/CN113836339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,公开了一种基于全局信息和位置嵌入的场景图生成方法,基于大型数据集中的图像,由Faster‑RCNN得到高级特征图和每个实体信息并且对目标位置编码;将特征图和实体信息拼接的特征通过基于自注意力机制的网络得到节点间与其他目标的信息连接;利用LSTM的注意力网络得到目标上下文信息;构建边上下文生成的解码信息和目标图关系的生成融合方式;通过关系计算得到最终场景图。与现有技术相比,本发明将目标特征融入原始图像的视觉信息的方法,加入位置编码信息,连接全局信息和加权信息,提升整体视觉特征对于单一目标的影响,提高了模型推理时对于场景中主要目标的关注度和主宾分类的合理性,召回率有明显提升。

Description

一种基于全局信息和位置嵌入的场景图生成方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于全局信息和位置嵌入的场景图生成方法。
背景技术
在场景图生成研究过程中,由于数据集标注时人为的主观性造成了视觉关系长尾分布,导致自然的数据集偏置问题,其中视觉关系长尾分布是指少数关系在大量数据中聚集,多数关系存在少部分数据集中,在关系推理时,对于依赖数据的模型结构,模型会过拟合少数关系类别,在真正的关系推理上收效甚微。因此在场景图生成方法中除了提出高复杂度的模型结构,更多的是对数据集标注的偏置进行研究。针对数据集标注的偏置问题,现有的解决方法主要从节点消息传递,引入知识先验,联合上下文信息出发,在候选场景图的节点和边上更新信息,对实体视觉特征,语义信息,空间信息进行融合推理。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于全局信息和位置嵌入的场景图生成方法,将目标特征融入原始图像的视觉信息的方法,加入位置编码信息,连接全局信息和加权信息,提升整体视觉特征对于单一目标的影响,提高了模型推理时对于场景中主要目标的关注度和主宾分类的合理性,在与先前工作的实验效果对比上,召回率有明显提升。
技术方案:本发明提供了一种基于全局信息和位置嵌入的场景图生成方法,包括如下步骤:
步骤1:基于数据集中的图像,由Faster-RCNN目标检测模型得到高维视觉特征图和每个实体信息并且对目标位置编码,所述实体信息包括目标视觉特征、目标边界框坐标、类别语义编码信息;
步骤2:将步骤1中高维视觉特征图和实体信息拼接的特征通过基于自注意力机制的网络输出残差连接目标特征;
步骤3:对步骤2得到的目标特征利用基于注意力的LSTM网络得到目标上下文信息,利用LSTM解码获取目标分类矩阵;
步骤4:构建边上下文生成的解码信息,以步骤3中目标分类矩阵为边上下文解码的输入,构建目标特征到边连接特征的主谓宾关系生成融合方式,所述生成融合方式为非线性的的主宾融合方式;
步骤5:根据步骤4中融合方式,得到关系概率分布向量,根据最大分数概率对应的索引,从索引与谓词的一一对应的列表中得到关系谓词,并可视化得到最终场景图表示。
进一步地,所述步骤1中由Faster-RCNN目标检测模型得到高维视觉特征图和每个实体信息的具体步骤为:
步骤1.1:对于整个VG视觉基因组数据集,预处理之后,利用Faster-RCNN模型作为目标检测器,目标检测器的基本网络用VGG16卷积网络,通过VGG16将原始图像映射为高维视觉特征图;
步骤1.2:由Faster-RCNN模型中的RPN网络生成实体信息;
步骤1.3:对边界框进行显示计算得到位置编码。
进一步地,所述步骤2具体方法为:
步骤2.1:将步骤1中映射的高维视觉特征图进行自适应平均池化得到可对齐融合的视觉特征图;
步骤2.2:对步骤2.1中可对齐融合的视觉特征图和实体信息采用拼接的融合方式,得到融合特征,并将其作为自注意力机制网络的输入,并对目标类别进行语义词向量的转换;
步骤2.3:构建自注意力机制网络结构,用三个全连接层分别计算融合特征,得到经过自注意力机制网络计算后的残差连接目标特征,其中输出维度为输入维度的二倍,便于残差连接时的维度对齐。
进一步地,所述步骤3具体方法为:
步骤3.1:对于步骤2中得到的残差连接目标特征利用双向LSTM提取上下文信息,对于每个节点特征其中融入了其他各目标节点的信息特征;
步骤3.2:对于隐层状态在解码前引入注意力机制计算方式,构建注意力机制的可学习参数,得到目标的相关概率度量;
步骤3.3:用LSTM解码得到目标分类矩阵,并将其作为边上下文解码的输入。
进一步地,所述步骤4具体方法为:
步骤4.1:将目标视觉特征、残差连接目标特征、目标分类矩阵进行融合得到全局信息,通过双向LSTM解码得到边上下文特征;
步骤4.2:构建非线性的的主宾融合方式,得到关系度量分数。
进一步地,所述步骤5具体方法为:
步骤5.1:步骤4中的目标图关系索引出其代表的主宾类别,将图关系以主语-谓语-宾语的格式保存为txt文件;
步骤5.2:将步骤1中的目标边界框坐标映射到原始图像中,对目标在原图像中类别和区域标记进行可视化。
有益效果:
本发明基于视觉基因组(VG)数据集,通过目标检测,结合上下文主要关系推理网络,对图像中的目标构建关系的抽象表示,得到场景图的生成结果。本发明将目标特征融入原始图像的视觉信息的方法,加入位置编码信息,连接全局信息和加权信息,提升整体视觉特征对于单一目标的影响,提高了模型推理时对于场景中主要目标的关注度和主宾分类的合理性,在与先前工作的实验效果对比上,召回率有明显提升。
附图说明
图1为基于全局信息和位置嵌入的场景图生成方法整体流程图;
图2为检测目标的可视化和关系的文本表示;
图3为目标检测融合特征结构图;
图4为边上下文编解码生成场景图流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明公开了一种基于全局信息和位置嵌入的场景图生成方法,如图1所示为基于全局位置嵌入的场景图生成方法整体流程图,基于大型数据集中的图像,由Faster-RCNN方法得到高级特征图和每个实体信息并且对目标位置编码;将高级特征图和实体信息拼接的特征通过基于自注意力机制的网络得到节点间与其他目标的信息连接;利用LSTM的注意力网络得到目标上下文信息;构建边上下文生成的解码信息和目标图关系的生成融合方式;通过关系计算得到最终场景图。
下面通过具体实施例说明本发明提供的基于全局位置嵌入的场景图生成方法。
步骤1:基于大型数据集Visual Genome(VG)图像,由Faster-RCNN模型得到高维视觉特征图和每个实体信息并且对目标位置编码;
步骤1.1:对于整个VG视觉基因组数据集,预处理之后的每个图像的场景图平均有11.6个对象和6.2个关系;
步骤1.2:数据被分为一个训练集和一个测试集,训练集包括75651张图像,其中有5000张图像作为验证集,剩余的32422张图像作为测试集;
步骤1.3:Faster-RCNN模型作为目标检测器,检测器的基本网络用VGG16卷积网络,通过VGG16将原始图像映射为高维视觉特征图;
步骤1.4:由Faster-RCNN模型中的RPN网络生成实体信息,包括每个目标视觉特征,目标边界框坐标,类别语义编码信息;
其中,对于位置显示编码,定义每个实体目标对应一个边界框bi,令边界候选框集合B={b1,b2,…,bn},bi=(Xi1,Yi1,Xi2,Yi2),bi∈R4,其中(Xi1,Yi1)相对于原图像位置为目标的左上角坐标,(Xi2,Yi2)为右下角坐标,由于得到的实体信息只有区域范围不能反应目标的位置大小关系,这里对边界框进行显示计算编码得到Pb={p1,p2,…,pn}:
Xc=(Xi1+Xi2)/2
Yc=(Yi1+Yi2)/2
Sxy=(Yi1-Yi2)×(Xi2-Xi1),{Yi1>Yi2,Xi2>Xi1}
pi=(bi,Xc,Yc,Sxy)
为了对齐输入的融合特征和广泛的信息空间,对Pb进行全连接调整,由7维到输出维度大小为128得到Pa,Pa∈Rn×128
步骤2:将高维视觉特征图和实体信息拼接的特征通过基于自注意力机制的网络得到节点间与其他目标的信息连接;
步骤2.1:定义VGG16提取的图像高级视觉特征为C1,C1∈Rn×512×w×h,将C1自适应平均池化得到映射的可对齐融合的视觉特征C2∈Rn×512
步骤2.2:定义检测器得到实体信息集合为O={o1,o2,…,on},oi∈R4096,特征图和实体信息采用拼接的融合方式,得到融合特征,作为自注意力机制网络的输入,具体融合计算方式如下:
C3=[O:Le:Pa:C2],C3∈Rn×4936
其中,Le∈Rn×200为目标类别分布概率的语义词向量;
步骤2.3:构建自注意力机制结构,用三个全连接层分别计算融合特征,其中输出维度为输入维度的二倍,便于残差连接时的维度对齐,计算方式如下:
Figure BDA0003241654360000041
C5i=C3i+FC(C4i(VC3i))),C5i∈R4936
其中,Q,K,V分别为全连接层的学习参数,FC全连接操作将C4i(VC3i)的2468维变换到4936维与C3i逐元素相加。
步骤3:利用基于注意力的LSTM网络得到目标上下文信息;
步骤3.1:对于步骤2.3得到的目标特征用双向LSTM提取上下文信息,特征计算方式如下:
H1i=biLSTM(C5i)
其中,H1i为目标oi在LSTM编码后的隐层状态,此节点特征包含上下文中的各目标信息;
步骤3.2:对于隐层状态在解码前引入注意力机制计算方式,构建注意力机制的可学习参数,具体计算如下:
W2i=tanh(W1H1i)
Figure BDA0003241654360000051
Si=H1iAi,Si∈R256,i={1,…,n}
其中,W1和U为注意力机制结构中的的可学习参数,W1和U由(0,1)区间的均匀分布初始化,tanh为激活函数,对W2i归一化得到Ai权重,与H1i相乘得到目标的相关概率度量。
步骤4:构建边上下文生成的解码信息和目标图关系的生成融合方式;
步骤4.1:对于解码信息,将目标视觉特征oi,自注意力机制输出的残差连接的特征C5i,目标分类矩阵C6i进行融合得到全局信息,通过双向LSTM解码得到边上下文特征,具体计算方式如下:
Ei=biLSTM[oi:C5i:C6i],Ei∈R2×4096
步骤4.2:构建非线性的的主宾融合方式,将Ei分为主语Eoi宾语和Esi特征,计算方式如下:
Ei=[Eoi:Esi]
其中,Eoi,Esi∈R4096,边的表示为Ri具体计算如下:
Ri=max((Eoi+Esi)-(Eoi-Esi)2,0)
步骤5:通过关系索引和可视化得到最终场景图;
步骤5.1:步骤4.2中的图关系索引出其代表的主宾类别,将图关系以(主语-谓语-宾语)的格式保存为txt文件;
步骤5.2:将步骤1.4中的目标边界框坐标映射到原始图像中,对目标在原图像中类别和区域标记进行可视化。
针对上述的场景图生成方法,实验结果在关系分类(PredCls)、场景图分类(SGCls)、场景图生成(SGGen)三个子任务上进行评估,其中,关系分类任务为给定目标的真实位置边框和类别标签,对目标间的关系进行分类,场景图分类任务为给定目标的真实位置边框,首先预测边框中目标的标签,其次对目标对间的关系进行分类,场景图生成任务为只给定一张原始图像,不仅要对图像中的目标进行检测得到目标的边界框信息,目标的标签,还要对目标对间的关系进行分类。采用Top-K召回率作为评价指标,记作Recall@K,是表示在前K个预测关系中,正确预测的分类出现的比例,在本发明中K分别取值为20,50,100;如表1所示在三个子任务上的召回率结果统计。
表1
Recall@20 Recall@50 Recall@100
PredCls 60.5 66.0 67.6
SGCls 36.9 39.4 40.1
SGGen 22.3 27.7 30.5
本发明可与计算机系统结合,从而完成场景中的目标检测和关系识别与分类。
本发明创造性的提出了基于全局位置嵌入的场景图生成方法,将全局信息和位置编码融合作为目标的特征,通过注意力加权的网络得到显著关系组合,并且提高了目标检测的准确度,综合特征融合的方法,在场景图检测生成中得到最终结果。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于全局信息和位置嵌入的场景图生成方法,其特征在于,包括如下步骤:
步骤 1:基于数据集中的图像,由Faster-RCNN目标检测模型得到高维视觉特征图和每个实体信息并且对目标位置编码,所述实体信息包括目标视觉特征、目标边界框坐标、类别语义编码信息;
步骤 2:将步骤1中高维视觉特征图和实体信息拼接的特征通过基于自注意力机制的网络输出残差连接目标特征;
步骤 3:对步骤2得到的目标特征利用基于注意力的LSTM网络得到目标上下文信息,利用LSTM解码获取目标分类矩阵;
步骤 4:构建边上下文生成的解码信息,以步骤3中目标分类矩阵为边上下文解码的输入,构建目标特征到边连接特征的主谓宾关系生成融合方式,所述生成融合方式为非线性的的主宾融合方式;
步骤 5:根据步骤4中融合方式,得到关系概率分布向量,根据最大分数概率对应的索引,从索引与谓词的一一对应的列表中得到关系谓词,并可视化得到最终场景图表示。
2.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法,其特征在于,所述步骤1中由Faster-RCNN目标检测模型得到高维视觉特征图和每个实体信息的具体步骤为:
步骤 1.1:对于整个VG视觉基因组数据集,预处理之后,利用Faster-RCNN模型作为目标检测器,目标检测器的基本网络用VGG16卷积网络,通过VGG16将原始图像映射为高维视觉特征图;
步骤 1.2:由Faster-RCNN模型中的RPN网络生成实体信息;
步骤1.3:对边界框进行显示计算得到位置编码。
3.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法,其特征在于,所述步骤2具体方法为:
步骤 2.1:将步骤1中映射的高维视觉特征图进行自适应平均池化得到可对齐融合的视觉特征图;
步骤 2.2:对步骤2.1中可对齐融合的视觉特征图和实体信息采用拼接的融合方式,得到融合特征,并将其作为自注意力机制网络的输入,并对目标类别进行语义词向量的转换;
步骤 2.3:构建自注意力机制网络结构,用三个全连接层分别计算融合特征,得到经过自注意力机制网络计算后的残差连接目标特征,其中输出维度为输入维度的二倍,便于残差连接时的维度对齐。
4.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法,其特征在于,所述步骤3具体方法为:
步骤 3.1:对于步骤2中得到的残差连接目标特征利用双向LSTM提取上下文信息,对于每个节点特征其中融入了其他各目标节点的信息特征;
步骤 3.2:对于隐层状态在解码前引入注意力机制计算方式,构建注意力机制的可学习参数,得到目标的相关概率度量;
步骤 3.3:用LSTM解码得到目标分类矩阵,并将其作为边上下文解码的输入。
5.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法,其特征在于,所述步骤4具体方法为:
步骤 4.1:将目标视觉特征、残差连接目标特征目标分类矩阵进行融合得到全局信息,通过双向LSTM解码得到边上下文特征;
步骤 4.2:构建非线性的的主宾融合方式,得到关系度量分数。
6.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法,其特征在于,所述步骤5具体方法为:
步骤 5.1:步骤 4中的目标图关系索引出其代表的主宾类别,将图关系以主语-谓语-宾语的格式保存为txt文件;
步骤 5.2:将步骤1中的目标边界框坐标映射到原始图像中,对目标在原图像中类别和区域标记进行可视化。
CN202111021629.0A 2021-09-01 2021-09-01 一种基于全局信息和位置嵌入的场景图生成方法 Active CN113836339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111021629.0A CN113836339B (zh) 2021-09-01 2021-09-01 一种基于全局信息和位置嵌入的场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111021629.0A CN113836339B (zh) 2021-09-01 2021-09-01 一种基于全局信息和位置嵌入的场景图生成方法

Publications (2)

Publication Number Publication Date
CN113836339A true CN113836339A (zh) 2021-12-24
CN113836339B CN113836339B (zh) 2023-09-26

Family

ID=78961940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111021629.0A Active CN113836339B (zh) 2021-09-01 2021-09-01 一种基于全局信息和位置嵌入的场景图生成方法

Country Status (1)

Country Link
CN (1) CN113836339B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241326A (zh) * 2022-02-24 2022-03-25 自然资源部第三地理信息制图院 一种渐进式遥感影像地物要素智能生产方法及系统
CN114413910A (zh) * 2022-03-31 2022-04-29 中国科学院自动化研究所 视觉目标导航方法及装置
CN114612767A (zh) * 2022-03-11 2022-06-10 电子科技大学 一种基于场景图的图像理解与表达方法、系统与存储介质
CN114677544A (zh) * 2022-03-24 2022-06-28 西安交通大学 一种基于全局上下文交互的场景图生成方法及系统及设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100289804A1 (en) * 2009-05-13 2010-11-18 International Business Machines Corporation System, mechanism, and apparatus for a customizable and extensible distributed rendering api
CN109726718A (zh) * 2019-01-03 2019-05-07 电子科技大学 一种基于关系正则化的视觉场景图生成系统及方法
CN109783666A (zh) * 2019-01-11 2019-05-21 中山大学 一种基于迭代精细化的图像场景图谱生成方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
US20190370587A1 (en) * 2018-05-29 2019-12-05 Sri International Attention-based explanations for artificial intelligence behavior
CN110991532A (zh) * 2019-12-03 2020-04-10 西安电子科技大学 基于关系视觉注意机制的场景图产生方法
CN111931928A (zh) * 2020-07-16 2020-11-13 成都井之丽科技有限公司 场景图的生成方法、装置和设备
US20200401835A1 (en) * 2019-06-21 2020-12-24 Adobe Inc. Generating scene graphs from digital images using external knowledge and image reconstruction
CN112270226A (zh) * 2020-10-16 2021-01-26 淮阴工学院 一种基于多特征提取和多注意力机制的行人轨迹预测方法
CN112990202A (zh) * 2021-05-08 2021-06-18 中国人民解放军国防科技大学 基于稀疏表示的场景图生成方法及系统
US20210192274A1 (en) * 2019-12-23 2021-06-24 Tianjin University Visual relationship detection method and system based on adaptive clustering learning
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100289804A1 (en) * 2009-05-13 2010-11-18 International Business Machines Corporation System, mechanism, and apparatus for a customizable and extensible distributed rendering api
US20190370587A1 (en) * 2018-05-29 2019-12-05 Sri International Attention-based explanations for artificial intelligence behavior
CN109726718A (zh) * 2019-01-03 2019-05-07 电子科技大学 一种基于关系正则化的视觉场景图生成系统及方法
CN109783666A (zh) * 2019-01-11 2019-05-21 中山大学 一种基于迭代精细化的图像场景图谱生成方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
US20200401835A1 (en) * 2019-06-21 2020-12-24 Adobe Inc. Generating scene graphs from digital images using external knowledge and image reconstruction
CN110991532A (zh) * 2019-12-03 2020-04-10 西安电子科技大学 基于关系视觉注意机制的场景图产生方法
US20210192274A1 (en) * 2019-12-23 2021-06-24 Tianjin University Visual relationship detection method and system based on adaptive clustering learning
CN111931928A (zh) * 2020-07-16 2020-11-13 成都井之丽科技有限公司 场景图的生成方法、装置和设备
CN112270226A (zh) * 2020-10-16 2021-01-26 淮阴工学院 一种基于多特征提取和多注意力机制的行人轨迹预测方法
CN113065587A (zh) * 2021-03-23 2021-07-02 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
CN112990202A (zh) * 2021-05-08 2021-06-18 中国人民解放军国防科技大学 基于稀疏表示的场景图生成方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROWAN ZELLERS等: "Neural Motifs: Scene Graph Parsing with Global Context", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 5831 - 5840 *
林欣: "基于上下文的场景图生成", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2, pages 138 - 2316 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241326A (zh) * 2022-02-24 2022-03-25 自然资源部第三地理信息制图院 一种渐进式遥感影像地物要素智能生产方法及系统
CN114612767A (zh) * 2022-03-11 2022-06-10 电子科技大学 一种基于场景图的图像理解与表达方法、系统与存储介质
CN114612767B (zh) * 2022-03-11 2022-11-15 电子科技大学 一种基于场景图的图像理解与表达方法、系统与存储介质
CN114677544A (zh) * 2022-03-24 2022-06-28 西安交通大学 一种基于全局上下文交互的场景图生成方法及系统及设备
CN114413910A (zh) * 2022-03-31 2022-04-29 中国科学院自动化研究所 视觉目标导航方法及装置
CN114413910B (zh) * 2022-03-31 2022-07-12 中国科学院自动化研究所 视觉目标导航方法及装置

Also Published As

Publication number Publication date
CN113836339B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN113836339B (zh) 一种基于全局信息和位置嵌入的场景图生成方法
CN111832468B (zh) 基于生物识别的手势识别方法、装置、计算机设备及介质
CN110991532B (zh) 基于关系视觉注意机制的场景图产生方法
CN111325243B (zh) 一种基于区域注意力学习机制的视觉关系检测方法
CN115908908B (zh) 基于图注意力网络的遥感图像聚集型目标识别方法及装置
CN112541639B (zh) 基于图神经网络和注意力机制的推荐系统评分预测方法
CN111611367B (zh) 一种引入外部知识的视觉问答方法
CN112861970B (zh) 一种基于特征融合的细粒度图像分类方法
WO2020240808A1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
Du et al. Polyline simplification based on the artificial neural network with constraints of generalization knowledge
Patel et al. Representing joint hierarchies with box embeddings
CN115631008A (zh) 商品推荐方法、装置、设备及介质
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN113822232A (zh) 一种基于金字塔注意力的场景识别方法、训练方法及装置
CN116662468A (zh) 基于地理对象空间模式特征的城市功能区识别方法及系统
CN114445121A (zh) 一种广告点击率预测模型构建及广告点击率预测方法
CN116796248A (zh) 森林康养环境评估系统及其方法
CN117131348B (zh) 基于差分卷积特征的数据质量分析方法及系统
CN117852644A (zh) 一种基于bert和yolo的多模态视觉推理方法
CN113705159A (zh) 商户名称的标注方法、装置、设备及存储介质
Chong et al. A multiscale bidirectional fuzzy-driven learning network for remote sensing image segmentation
CN116258931B (zh) 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
CN115952438B (zh) 社交平台用户属性预测方法、系统、移动设备及存储介质
CN115934966A (zh) 基于遥感影像推荐信息的自动标注方法
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant