CN113554129A - 场景图的生成方法和生成装置 - Google Patents

场景图的生成方法和生成装置 Download PDF

Info

Publication number
CN113554129A
CN113554129A CN202111103897.7A CN202111103897A CN113554129A CN 113554129 A CN113554129 A CN 113554129A CN 202111103897 A CN202111103897 A CN 202111103897A CN 113554129 A CN113554129 A CN 113554129A
Authority
CN
China
Prior art keywords
visual
vector
feature vector
vectors
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111103897.7A
Other languages
English (en)
Other versions
CN113554129B (zh
Inventor
经小川
刘萱
杜婉茹
王潇茵
孙鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Hongkang Intelligent Technology Beijing Co ltd
Original Assignee
Aerospace Hongkang Intelligent Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Hongkang Intelligent Technology Beijing Co ltd filed Critical Aerospace Hongkang Intelligent Technology Beijing Co ltd
Priority to CN202111103897.7A priority Critical patent/CN113554129B/zh
Publication of CN113554129A publication Critical patent/CN113554129A/zh
Application granted granted Critical
Publication of CN113554129B publication Critical patent/CN113554129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

公开一种场景图的生成方法和生成装置,所述生成方法包括:获取图像数据和文本数据;通过Faster R‑CNN目标检测器,得到所述图像数据的特征向量,并且通过对所述特征向量进行融合,得到视觉特征向量;基于预先训练的fastText模型,得到所述文本数据的词向量,并且通过对所述词向量进行融合,得到语义特征向量;通过对所述视觉特征向量和所述语义特征向量进行匹配,得到视觉关系预测值,并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习,得到最终的视觉关系预测值,从而生成场景图。该生成方法能够有效降低经过人工注释的数据集的标签噪声问题。

Description

场景图的生成方法和生成装置
技术领域
本公开总体说来涉及计算机视觉领域,更具体地讲,涉及一种基于对称学习的场景图的生成方法和生成装置。
背景技术
计算机视觉领域的快速发展使得图像分类、语义分割和视觉关系检测等视觉任务在短时间内获得了许多突破性成果,这些成果是由卷积神经网络(Convolutional NeuralNetworks,CNN),例如区域卷积神经网络(Region-based CNN, R-CNN)以及全卷积网络(Fully Convolutional Network,FCN),驱动的。
在此基础上,图像理解的研究逐渐从低级特征提取发展到高级语义学习,下一步的方向是推断多个对象之间的语义关系,从而推动多模态任务的发展,例如视觉问答、图像描述和视觉常识推理等任务。其中,场景图(Scene Graph Generation,SGG)的出现为图像理解提供了一个推断视觉场景的平台。场景图任务本质上是从给定的图像中解析全连通图,即图像中两两交互的对象作为节点,对象之间交互的视觉关系作为边,这些交互的视觉关系可以是基于动作行为、空间位置或者两两比较等多种形式,最终连通图中的视觉关系表示为包含主语、谓词和宾语的三元组,例如< person-ride-horse >(行为)、< plate-on-table >(空间)和< person1-taller-person2 >(比较)。由于图像中对象之间的交互可以生成一个场景图来探索多个对象之间的关系,因此场景图的生成在高级图像理解任务中起着至关重要的作用。
然而,一方面,现有的视觉关系检测方法是通过将检测到的实体对输入分类器,再结合外观特征和语言先验知识来进行的,例如融合语义词嵌入的语言先验知识来预测视觉关系或者基于上下文感知的交互分类方法来表征视觉关系。但是现有的视觉关系检测方法只是机械地将各类特征融合在一起,缺乏对于目标对象在视觉和语义两方面的联合学习,也没有深入解析目标对象之间的交互关系。
另一方面,视觉关系检测等视觉任务利用卷积神经网络通过监督学习的方式进行训练,需要运用大规模的经过人工注释的数据集,例如ImageNet、MS-Coco和Pascal VOC等数据集。然而,在实际工程中,收集和注释大规模的数据集的代价高昂,而且人工注释容易出错,即使是高质量的数据集也可能包含噪声标签。同时,场景图中的可视化视觉关系具有长尾效应,即大多数现有的场景图模型对于数据集中出现频次高的谓词拟合效果好,但对于标记实例较少的视觉关系学习效果较差。具体来讲,现有的场景图的生成方法对于频繁出现的谓词类别性能稳定,但是对于数据集中的噪声标签和较难学习的关系类别等效果不理想。现有研究虽然通过改善数据集来增强模型的视觉关系检测能力,例如利用生成的缺失标签来训练场景图以及通过概率建模来缓解视觉关系检测中的语义歧义,但是均未考虑大规模的经过人工注释的数据集中普遍存在噪声标签问题,对于包含噪声标签的数据集的视觉关系检测效果有待提升。因此,在包含噪声标签的情况下训练出准确的卷积神经网络模型已经成为计算机视觉领域具有重要现实意义的任务。
发明内容
本公开基于视觉检测和语义表示两方面的相互匹配,以端到端的方式进行对称学习,提供一种场景图的生成方法和生成装置,从而在数据集包含噪声标签的情况下进行更加准确的训练。
在一个总的方面,提供一种场景图的生成方法,所述生成方法包括:获取图像数据和文本数据,其中,所述图像数据包括含有噪声的图像数据集,所述文本数据包括公共爬虫文本数据集;通过Faster R-CNN目标检测器,得到所述图像数据的特征向量,并且通过对所述特征向量进行融合,得到视觉特征向量,其中,所述特征向量包括主体特征向量、客体特征向量和谓词特征向量;基于预先训练的fastText模型,得到所述文本数据的词向量,并且通过对所述词向量进行融合,得到语义特征向量,其中,所述词向量包括主体词向量、客体词向量和谓词向量;通过对所述视觉特征向量和所述语义特征向量进行匹配,得到视觉关系预测值,并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习,得到最终的视觉关系预测值,从而生成场景图。
可选地,所述图像数据包括图像和人工标注的图像视觉关系注释,其中,所述人工标注的图像视觉关系注释包括人工标注的三元组注释。
可选地,通过Faster R-CNN目标检测器,得到所述图像数据的特征向量的步骤包括:通过视觉几何群网络处理所述图像数据,得到全局特征图;通过区域生成网络处理所述全局特征图,得到候选区域和所述候选区域的外观特征;基于所述候选区域和所述外观特征,得到主体、客体和主客体之间交互区域的提取框;使用感兴趣区域池化层对主体、客体和主客体之间交互区域的提取框进行映射,得到所述特征向量。
可选地,通过对所述特征向量进行融合,得到视觉特征向量的步骤包括:通过全连接层将所述特征向量映射到隐藏节点,得到隐层特征向量,其中,所述隐层特征向量包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量;对所述隐层特征向量进行融合,得到视觉关系特征向量;对所述主体特征向量、所述客体特征向量和所述视觉关系特征向量进行匹配,得到所述视觉特征向量。
可选地,基于预先训练的fastText模型,得到所述文本数据的词向量的步骤包括:将所述文本数据投射到嵌入空间,得到所述词向量,其中,在所述嵌入空间中词之间保持高于预定阈值的语义相似度。
可选地,通过对所述词向量进行融合,得到语义特征向量的步骤包括:通过全连接层将所述词向量映射到隐藏节点,得到隐层语义嵌入向量,其中,所述隐层语义嵌入向量包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量;对所述隐层语义嵌入向量进行融合,得到谓词关系向量;对所述主体词向量、所述客体词向量和所述谓词关系向量进行匹配,得到所述语义特征向量。
可选地,所述交叉熵函数表示如下:
Figure 886393DEST_PATH_IMAGE001
其中,M表示所述人工标注的三元组注释的总体类别数,m表示所述人工标注的三元组注释的当前类别,t表示基于所述视觉关系预测值得到的视觉关系三元组,
Figure 273512DEST_PATH_IMAGE002
表示所述视觉关系三元组相对于所述人工标注的三元组注释的预测值,
Figure 908892DEST_PATH_IMAGE003
表示所述视觉关系三元组相对于所述人工标注的三元组注释的真实值;
所述反向交叉熵函数表示如下:
Figure 799488DEST_PATH_IMAGE004
其中,所述反向交叉熵函数将所述交叉熵函数中的所述预测值和所述真实值的计算项互相替换。
可选地,通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习的步骤包括:基于用于降低交叉熵的过拟合的第一超参数、用于降低所述人工标注的三元组注释的标签噪声的第二超参数、交叉熵函数和反向交叉熵函数,确定对称学习的损失函数,其中,所述损失函数表示所述视觉特征向量和所述语义特征向量的匹配过程的损失。
可选地,所述损失函数表示如下:
Figure 596543DEST_PATH_IMAGE005
其中,
Figure 470958DEST_PATH_IMAGE006
表示所述第一超参数,
Figure 644450DEST_PATH_IMAGE007
表示所述第二超参数。
可选地,通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习的步骤还包括:基于所述损失函数,调整所述Faster R-CNN 目标检测器和所述fastText模型的参数,从而使所述最终的视觉关系预测值满足预设要求。
在另一总的方面,提供一种场景图的生成装置,所述生成装置包括:数据获取单元,被配置为获取图像数据和文本数据,其中,所述图像数据包括含有噪声的图像数据集,所述文本数据包括公共爬虫文本数据集;视觉检测单元,被配置为通过Faster R-CNN目标检测器,得到所述图像数据的特征向量,并且通过对所述特征向量进行融合,得到视觉特征向量,其中,所述特征向量包括主体特征向量、客体特征向量和谓词特征向量;语义表示单元,被配置为基于预先训练的fastText模型,得到所述文本数据的词向量,并且通过对所述词向量进行融合,得到语义特征向量,其中,所述词向量包括主体词向量、客体词向量和谓词向量;对称学习单元,被配置为通过对所述视觉特征向量和所述语义特征向量进行匹配,得到视觉关系预测值,并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习,得到最终的视觉关系预测值,从而生成场景图。
可选地,所述图像数据包括图像和人工标注的图像视觉关系注释,其中,所述人工标注的图像视觉关系注释包括人工标注的三元组注释。
可选地,视觉检测单元被配置为:通过视觉几何群网络处理所述图像数据,得到全局特征图;通过区域生成网络处理所述全局特征图,得到候选区域和所述候选区域的外观特征;基于所述候选区域和所述外观特征,得到主体、客体和主客体之间交互区域的提取框;使用感兴趣区域池化层对主体、客体和主客体之间交互区域的提取框进行映射,得到所述特征向量。
可选地,视觉检测单元还被配置为:通过全连接层将所述特征向量映射到隐藏节点,得到隐层特征向量,其中,所述隐层特征向量包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量;对所述隐层特征向量进行融合,得到视觉关系特征向量;对所述主体特征向量、所述客体特征向量和所述视觉关系特征向量进行匹配,得到所述视觉特征向量。
可选地,语义表示单元被配置为:将所述文本数据投射到嵌入空间,得到所述词向量,其中,在所述嵌入空间中词之间保持高于预定阈值的语义相似度。
可选地,语义表示单元还被配置为:通过全连接层将所述词向量映射到隐藏节点,得到隐层语义嵌入向量,其中,所述隐层语义嵌入向量包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量;对所述隐层语义嵌入向量进行融合,得到谓词关系向量;对所述主体词向量、所述客体词向量和所述谓词关系向量进行匹配,得到所述语义特征向量。
可选地,所述交叉熵函数表示如下:
Figure 920711DEST_PATH_IMAGE008
其中,M表示所述人工标注的三元组注释的总体类别数,m表示所述人工标注的三元组注释的当前类别,t表示基于所述视觉关系预测值得到的视觉关系三元组,
Figure 888667DEST_PATH_IMAGE009
表示所述视觉关系三元组相对于所述人工标注的三元组注释的预测值,
Figure 515957DEST_PATH_IMAGE010
表示所述视觉关系三元组相对于所述人工标注的三元组注释的真实值;
所述反向交叉熵函数表示如下:
Figure 227561DEST_PATH_IMAGE011
其中,所述反向交叉熵函数将所述交叉熵函数中的所述预测值和所述真实值的计算项互相替换。
可选地,对称学习单元被配置为:基于用于降低交叉熵的过拟合的第一超参数、用于降低所述人工标注的三元组注释的标签噪声的第二超参数、交叉熵函数和反向交叉熵函数,确定对称学习的损失函数,其中,所述损失函数表示所述视觉特征向量和所述语义特征向量的匹配过程的损失。
可选地,所述损失函数表示如下:
Figure 358328DEST_PATH_IMAGE012
其中,
Figure 497186DEST_PATH_IMAGE006
表示所述第一超参数,
Figure 80614DEST_PATH_IMAGE007
表示所述第二超参数。
可选地,对称学习单元还被配置为:基于所述损失函数,调整所述Faster R-CNN目标检测器和所述fastText模型的参数,从而使所述最终的视觉关系预测值满足预设要求。
在另一总的方面,提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时,实现如上所述的场景图的生成方法。
在另一总的方面,提供一种计算装置,所述计算装置包括:处理器;和存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的场景图的生成方法。
根据本公开的实施例的场景图的生成方法和生成装置能够在视觉检测和语义表示两方面通过对主语和宾语实体的特征进行融合学习,更好地将特征进行整合,实现对交互的视觉关系的准确预测。此外,根据本公开的实施例的场景图的生成方法和生成装置,通过对称学习,以反向监督的方式来反馈修正噪声标签的错误传播,能够有效降低大规模的经过人工注释的数据集的标签噪声问题,与现有的场景图的生成方法相比,具有卓越的视觉关系检测性能。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
通过下面结合示出实施例的附图进行的描述,本公开的实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出根据本公开的实施例的场景图的生成方法的流程图;
图2是示出根据本公开的实施例的获取视觉特征向量的方法的流程图;
图3是示出根据本公开的实施例的获取语义特征向量的方法的流程图;
图4是示出根据本公开的实施例的对视觉关系预测值进行对称学习的方法的流程图;
图5是示出根据本公开的实施例的场景图的生成装置的框图;
图6是示出根据本公开的实施例的计算装置的框图。
具体实施方式
提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的那些顺序,而是除了必须以特定的顺序发生的操作之外,可如在理解本申请的公开之后将是清楚的那样被改变。此外,为了更加清楚和简明,本领域已知的特征的描述可被省略。
在此描述的特征可以以不同的形式来实现,而不应被解释为限于在此描述的示例。相反,已提供在此描述的示例,以仅示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式,所述许多可行方式在理解本申请的公开之后将是清楚的。
如在此使用的,术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。
尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此,在不脱离示例的教导的情况下,在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。
在说明书中,当元件(诸如,层、区域或基底)被描述为“在”另一元件上、“连接到”或“结合到”另一元件时,该元件可直接“在”另一元件上、直接“连接到”或“结合到”另一元件,或者可存在介于其间的一个或多个其他元件。相反,当元件被描述为“直接在”另一元件上、“直接连接到”或“直接结合到”另一元件时,可不存在介于其间的其他元件。
在此使用的术语仅用于描述各种示例,并不将用于限制公开。除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合,但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。
除非另有定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如,在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义,并且不应被理想化或过于形式化地解释。
此外,在示例的描述中,当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时,将省略这样的详细描述。
根据本公开的实施例的场景图的生成方法和生成装置可以联合调整视觉检测和语义表示两方面的主语和宾语对象之间的交互关系,并且视觉特征和语义特征的融合学习不同于简单的特征融合,能够更好地预测视觉关系,进一步通过反向监督的方式来修正数据集中的噪声标签的影响,即使在具有大规模的视觉实体类别、富含噪声且类别分布极不平衡的情况下,也能实现卓越的性能。
下面参照图1至图6对根据本公开的实施例的场景图的生成方法和装置进行详细描述。
图1是示出根据本公开的实施例的场景图的生成方法的流程图。根据本公开的实施例的场景图的生成方法可以在具有足够运算能力的计算装置中实现。
参照图1,在步骤S101中,可获取图像数据和文本数据。这里,图像数据可包括含有噪声的图像数据集,可选择地,图像数据集可以是ImageNet、MS-Coco或Pascal VOC等数据集;文本数据可包括公共爬虫文本数据集等外部知识。
具体地讲,图像数据可包括图像和人工标注的图像视觉关系注释。这里,人工标注的图像视觉关系注释可包括人工标注的三元组注释。三元组的含义如上所述,可包括主语、谓词和宾语,反映了主语和宾语之间的谓词关系。进一步讲,人工标注的三元组注释可作为稍后描述的对称学习的真实值,但是需要注意,人工标注的三元组注释可能包含噪声标签。
接下来,在步骤S102中,可通过更快的区域卷积神经网络(Faster R-CNN)目标检测器,得到图像数据的特征向量,并且通过对特征向量进行融合,得到视觉特征向量。这里,特征向量可包括主体特征向量、客体特征向量和谓词特征向量。下面参照图2描述获取视觉特征向量的方法。
图2是示出根据本公开的实施例的获取视觉特征向量的方法的流程图。
参照图2,在步骤S201中,可通过视觉几何群网络(Visual Geometry GroupNetwork -16,VGG-16)处理图像数据,得到全局特征图。
接下来,在步骤S202中,可通过区域生成网络(Region Proposal Network,RPN)处理全局特征图,得到候选区域和候选区域的外观特征。这里,目标对象在候选区域中,候选区域的外观特征包含了目标对象及其周围特征,并且由于目标对象(即主体和客体)之间的关系通常来自于目标对象之间的交互区域,所以可从目标对象之间的交互区域提取特征作为视觉关系(即谓词)特征。
接下来,在步骤S203中,可基于候选区域和外观特征,得到主体、客体和主客体之间交互区域的提取框。
接下来,在步骤S204中,可使用感兴趣区域池化层(Region of Interest poolinglayer,ROI pooling layer)对主体、客体和主客体之间交互区域的提取框进行映射,得到特征向量。这里,针对主体、客体和主客体之间交互区域的提取框,可通过感兴趣区域池化层从全局特征图中映射得到提取框特征,再从提取框特征中提取得到主体、客体和谓词的特征向量。
接下来,在步骤S205中,可通过全连接层将特征向量映射到隐藏节点,得到隐层特征向量。这里,可将主体、客体和谓词的特征向量输入全连接层,通过特征空间变换的方式提取并整合重要的视觉信息,再将原始的特征向量映射到隐藏节点,得到隐层特征向量。进一步地,隐层特征向量可包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量。
接下来,在步骤S206中,可对隐层特征向量进行融合,得到视觉关系特征向量。这里,可将主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量连接起来作为视觉关系特征向量,从而将主体、客体特征融合到视觉关系中。
接下来,在步骤S207中,可对主体特征向量
Figure 595909DEST_PATH_IMAGE013
、客体特征向量
Figure 581182DEST_PATH_IMAGE014
和视觉关系特征向量
Figure 422099DEST_PATH_IMAGE015
进行匹配,得到视觉特征向量v。这里,可由视觉特征向量构成视觉特征矩阵V,然后通过等式(1)来表示视觉特征向量。
Figure 492823DEST_PATH_IMAGE016
(1)
返回参照图1,在步骤S103中,可基于预先训练的fastText模型,得到文本数据的词向量,并且通过对词向量进行融合,得到语义特征向量。这里,词向量可包括主体词向量、客体词向量和谓词向量。下面参照图3描述获取语义特征向量的方法。
图3是示出根据本公开的实施例的获取语义特征向量的方法的流程图。
参照图3,在步骤S301中,将文本数据投射到嵌入空间,得到词向量。这里,在嵌入空间中词之间保持高于预定阈值的语义相似度,由于语义上相互关联的关系,可从出现频率更高的相似关系中推断出正确的由主体、客体和谓词构成的三元组,从而通过相似的语义表达来更好地解析视觉关系。进一步地,预定阈值可由本领域的技术人员根据实际情况进行设置。
接下来,在步骤S302中,通过全连接层将词向量映射到隐藏节点,得到隐层语义嵌入向量。这里,可将主体、客体和谓词的词向量输入全连接层,通过特征空间变换的方式提取并整合重要的关系信息,再将原始的词向量映射到隐藏节点,得到隐层语义嵌入向量。进一步地,隐层语义嵌入向量可包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量。
接下来,在步骤S303中,可对隐层语义嵌入向量进行融合,得到谓词关系向量。这里,可将主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量连接起来作为谓词关系向量,从而将主体、客体特征融合到谓词关系中。
接下来,在步骤S304中,可对主体词向量
Figure 811809DEST_PATH_IMAGE017
、客体词向量
Figure 651589DEST_PATH_IMAGE018
和谓词关系向量
Figure 132249DEST_PATH_IMAGE019
进行匹配,得到语义特征向量k。这里,可由语义特征向量构成语义特征矩阵K,然后通过等式(2)来表示语义特征向量。
Figure 690270DEST_PATH_IMAGE020
(2)
返回参照图1,在步骤S104中,可通过对视觉特征向量和语义特征向量进行匹配,得到视觉关系预测值,并且通过使用交叉熵函数
Figure 547367DEST_PATH_IMAGE021
和反向交叉熵函数
Figure 507233DEST_PATH_IMAGE022
对视觉关系预测值进行对称学习,得到最终的视觉关系预测值,从而生成场景图。这里,可通过由视觉特征向量构成的视觉特征矩阵V和由语义特征向量构成的语义特征矩阵K两两相乘的方式来匹配视觉特征向量和语义特征向量。
具体地讲,可通过等式(3)来表示交叉熵函数。
Figure 158794DEST_PATH_IMAGE023
(3)
然后,可通过等式(4)来表示反向交叉熵函数。
Figure 735269DEST_PATH_IMAGE024
(4)
这里,M可表示人工标注的三元组注释的总体类别数,m可表示人工标注的三元组注释的当前类别,t可表示基于视觉关系预测值得到的视觉关系三元组,
Figure 130478DEST_PATH_IMAGE025
可表示视觉关系三元组相对于人工标注的三元组注释的预测值,
Figure 944850DEST_PATH_IMAGE026
可表示视觉关系三元组相对于人工标注的三元组注释的真实值。进一步地,反向交叉熵函数将交叉熵函数中的预测值和真实值的计算项互相替换。
具体地讲,可通过等式(5)来表示视觉关系三元组相对于人工标注的三元组注释的预测值。
Figure 32892DEST_PATH_IMAGE027
(5)
这里,
Figure 299925DEST_PATH_IMAGE028
可表示视觉关系三元组相对于各个类别的人工标注的三元组注释的原始预测值,
Figure 764405DEST_PATH_IMAGE029
可表示视觉关系三元组相对于当前类别的人工标注的三元组注释的原始预测值。由于原始预测值分布于正负无穷区间,可通过等式(5)将原始预测值映射到0到1的区间。
更具体地讲,对于一个数据集来说,由于人工标注的三元组注释的真实分布是固定不变的,所以视觉关系三元组相对于人工标注的三元组注释的真实值是一个常数。对此,可基于交叉熵函数,使视觉关系三元组相对于人工标注的三元组注释的预测值不断接近视觉关系三元组相对于人工标注的三元组注释的真实值。
然而,当经过人工注释的数据集包含噪声标签时,单独的视觉关系三元组相对于人工标注的三元组注释的真实值不能准确地表示人工标注的三元组注释的真实分布。对此,可基于反交叉熵函数,使视觉关系三元组相对于人工标注的三元组注释的预测值部分表示人工标注的三元组注释的真实分布。
在此基础上,通过使用交叉熵函数和反向交叉熵函数对视觉关系预测值进行对称学习,能够有效降低大规模的经过人工注释的数据集的标签噪声问题。下面参照图4描述对视觉关系预测值进行对称学习的方法。
图4是示出根据本公开的实施例的对视觉关系预测值进行对称学习的方法的流程图。
参照图4,在步骤S401中,可基于用于降低交叉熵的过拟合的第一超参数
Figure 167704DEST_PATH_IMAGE030
、用于降低人工标注的三元组注释的标签噪声的第二超参数
Figure 957806DEST_PATH_IMAGE031
、交叉熵函数和反向交叉熵函数,确定对称学习的损失函数L。这里,损失函数可表示视觉特征向量和语义特征向量的匹配过程的损失。
具体地讲,可通过等式(6)来表示损失函数。
Figure 712135DEST_PATH_IMAGE032
(6)
接下来,在步骤S402中,可基于损失函数,调整Faster R-CNN 目标检测器和fastText模型的参数,从而使最终的视觉关系预测值满足预设要求。这里,进行调整的参数可以是卷积神经网络本身在训练过程中自行调整的每个节点的权重,也可以是Faster R-CNN和fastText中能够进行人为调整的参数。进一步讲,当损失函数的值连续多次保持不变时,可以确定最终的视觉关系预测值满足预设要求。更进一步讲,损失函数的值连续保持不变的次数可由本领域的技术人员根据实际情况进行设置。
根据本公开的实施例的场景图的生成方法能够在视觉检测和语义表示两方面通过对主语和宾语实体的特征进行融合学习,更好地将特征进行整合,实现对交互的视觉关系的准确预测。同时,通过使用交叉熵函数和反向交叉熵函数进行视觉特征和特征表示的对称学习,以反向监督的方式来反馈修正噪声标签的错误传播,能够有效降低大规模的经过人工注释的数据集的标签噪声问题,与现有的场景图的生成方法相比,具有卓越的视觉关系检测性能。
图5是示出根据本公开的实施例的场景图的生成装置的框图。根据本公开的实施例的场景图的生成装置可以在具有足够运算能力的计算装置中实现。
参照图5,根据本公开的实施例的场景图的生成装置500可包括数据获取单元510、视觉检测单元520、语义表示单元530和对称学习单元540。
数据获取单元510可获取图像数据和文本数据。如上所述,图像数据可包括含有噪声的图像数据集,可选择地,图像数据集可以是ImageNet、MS-Coco或Pascal VOC等数据集;文本数据可包括公共爬虫文本数据集等外部知识。
如上所述,图像数据可包括图像和人工标注的图像视觉关系注释。这里,人工标注的图像视觉关系注释可包括人工标注的三元组注释。
视觉检测单元520可通过Faster R-CNN目标检测器,得到图像数据的特征向量,并且通过对特征向量进行融合,得到视觉特征向量。这里,特征向量可包括主体特征向量、客体特征向量和谓词特征向量。
视觉检测单元520还可通过视觉几何群网络处理图像数据,得到全局特征图;可通过区域生成网络处理全局特征图,得到候选区域和候选区域的外观特征;可基于候选区域和外观特征,得到主体、客体和主客体之间交互区域的提取框;可使用感兴趣区域池化层对主体、客体和主客体之间交互区域的提取框进行映射,得到特征向量。
视觉检测单元520还可通过全连接层将特征向量映射到隐藏节点,得到隐层特征向量。这里,隐层特征向量可包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量。
视觉检测单元520还可对隐层特征向量进行融合,得到视觉关系特征向量;可对主体特征向量、客体特征向量和视觉关系特征向量进行匹配,得到视觉特征向量。
语义表示单元530可基于预先训练的fastText模型,得到文本数据的词向量,并且通过对词向量进行融合,得到语义特征向量。这里,词向量可包括主体词向量、客体词向量和谓词向量。
语义表示单元530还可将文本数据投射到嵌入空间,得到词向量。这里,在嵌入空间中词之间保持高于预定阈值的语义相似度。
语义表示单元530还可通过全连接层将词向量映射到隐藏节点,得到隐层语义嵌入向量。这里,隐层语义嵌入向量可包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量。
语义表示单元530还可对隐层语义嵌入向量进行融合,得到谓词关系向量;可对主体词向量、客体词向量和谓词关系向量进行匹配,得到语义特征向量。
对称学习单元540可通过对视觉特征向量和语义特征向量进行匹配,得到视觉关系预测值,并且通过使用交叉熵函数和反向交叉熵函数对视觉关系预测值进行对称学习,得到最终的视觉关系预测值,从而生成场景图。
如上所述,可通过上述等式(3)来表示交叉熵函数;然后,可通过上述等式(4)来表示反向交叉熵函数。这里,反向交叉熵函数将交叉熵函数中的预测值和真实值的计算项互相替换。
对称学习单元540还可基于用于降低交叉熵的过拟合的第一超参数、用于降低人工标注的三元组注释的标签噪声的第二超参数、交叉熵函数和反向交叉熵函数,确定对称学习的损失函数。这里,损失函数可表示视觉特征向量和语义特征向量的匹配过程的损失。如上所述,可通过上述等式(6)来表示损失函数。
对称学习单元540还可基于损失函数,调整Faster R-CNN 目标检测器和fastText模型的参数,从而使最终的视觉关系预测值满足预设要求。
图6是示出根据本公开的实施例的计算装置的框图。
参照图6,根据本公开的实施例的计算装置600可包括处理器610和存储器620。处理器610可包括(但不限于)中央处理器(CPU)、数字信号处理器(DSP)、微型计算机、现场可编程门阵列(FPGA)、片上系统(SoC)、微处理器、专用集成电路(ASIC)等。存储器620存储将由处理器610执行的计算机程序。存储器620包括高速随机存取存储器和/或非易失性计算机可读存储介质。当处理器610执行存储器620中存储的计算机程序时,可实现如上所述的场景图的生成方法。
根据本公开的实施例的场景图的生成方法可被编写为计算机程序并被存储在计算机可读存储介质上。当所述计算机程序被处理器执行时,可实现如上所述的场景图的生成方法。计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的实施例的场景图的生成方法和生成装置能够在视觉检测和语义表示两方面通过对主语和宾语实体的特征进行融合学习,更好地将特征进行整合,实现对交互的视觉关系的准确预测。同时,通过使用交叉熵函数和反向交叉熵函数进行视觉特征和特征表示的对称学习,以反向监督的方式来反馈修正噪声标签的错误传播,能够有效降低大规模的经过人工注释的数据集的标签噪声问题,与现有的场景图的生成方法相比,具有卓越的视觉关系检测性能。
虽然已表示和描述了本公开的一些实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本公开的原理和精神的情况下,可以对这些实施例进行修改。

Claims (13)

1.一种场景图的生成方法,其特征在于,所述生成方法包括:
获取图像数据和文本数据,其中,所述图像数据包括含有噪声的图像数据集,所述文本数据包括公共爬虫文本数据集;
通过Faster R-CNN目标检测器,得到所述图像数据的特征向量,并且通过对所述特征向量进行融合,得到视觉特征向量,其中,所述特征向量包括主体特征向量、客体特征向量和谓词特征向量;
基于预先训练的fastText模型,得到所述文本数据的词向量,并且通过对所述词向量进行融合,得到语义特征向量,其中,所述词向量包括主体词向量、客体词向量和谓词向量;
通过对所述视觉特征向量和所述语义特征向量进行匹配,得到视觉关系预测值,并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习,得到最终的视觉关系预测值,从而生成场景图。
2.如权利要求1所述的生成方法,其特征在于,所述图像数据包括图像和人工标注的图像视觉关系注释,其中,所述人工标注的图像视觉关系注释包括人工标注的三元组注释。
3.如权利要求1所述的生成方法,其特征在于,通过Faster R-CNN目标检测器,得到所述图像数据的特征向量的步骤包括:
通过视觉几何群网络处理所述图像数据,得到全局特征图;
通过区域生成网络处理所述全局特征图,得到候选区域和所述候选区域的外观特征;
基于所述候选区域和所述外观特征,得到主体、客体和主客体之间交互区域的提取框;
使用感兴趣区域池化层对主体、客体和主客体之间交互区域的提取框进行映射,得到所述特征向量。
4.如权利要求3所述的生成方法,其特征在于,通过对所述特征向量进行融合,得到视觉特征向量的步骤包括:
通过全连接层将所述特征向量映射到隐藏节点,得到隐层特征向量,其中,所述隐层特征向量包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量;
对所述隐层特征向量进行融合,得到视觉关系特征向量;
对所述主体特征向量、所述客体特征向量和所述视觉关系特征向量进行匹配,得到所述视觉特征向量。
5.如权利要求1所述的生成方法,其特征在于,基于预先训练的fastText模型,得到所述文本数据的词向量的步骤包括:
将所述文本数据投射到嵌入空间,得到所述词向量,其中,在所述嵌入空间中词之间保持高于预定阈值的语义相似度。
6.如权利要求5所述的生成方法,其特征在于,通过对所述词向量进行融合,得到语义特征向量的步骤包括:
通过全连接层将所述词向量映射到隐藏节点,得到隐层语义嵌入向量,其中,所述隐层语义嵌入向量包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量;
对所述隐层语义嵌入向量进行融合,得到谓词关系向量;
对所述主体词向量、所述客体词向量和所述谓词关系向量进行匹配,得到所述语义特征向量。
7.如权利要求2所述的生成方法,其特征在于,
所述交叉熵函数表示如下:
Figure 971206DEST_PATH_IMAGE001
其中,
M表示所述人工标注的三元组注释的总体类别数,
m表示所述人工标注的三元组注释的当前类别,
t表示基于所述视觉关系预测值得到的视觉关系三元组,
Figure 999205DEST_PATH_IMAGE002
表示所述视觉关系三元组相对于所述人工标注的三元组注释的预测值,
Figure 711946DEST_PATH_IMAGE003
表示所述视觉关系三元组相对于所述人工标注的三元组注释的真实值;
所述反向交叉熵函数表示如下:
Figure 901619DEST_PATH_IMAGE004
其中,所述反向交叉熵函数将所述交叉熵函数中的所述预测值和所述真实值的计算项互相替换。
8.如权利要求7所述的生成方法,其特征在于,通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习的步骤包括:
基于用于降低交叉熵的过拟合的第一超参数、用于降低所述人工标注的三元组注释的标签噪声的第二超参数、交叉熵函数和反向交叉熵函数,确定对称学习的损失函数,其中,所述损失函数表示所述视觉特征向量和所述语义特征向量的匹配过程的损失。
9.如权利要求8所述的生成方法,其特征在于,
所述损失函数表示如下:
Figure 801442DEST_PATH_IMAGE005
其中,
Figure 633132DEST_PATH_IMAGE006
表示所述第一超参数,
Figure 934800DEST_PATH_IMAGE007
表示所述第二超参数。
10.如权利要求8或9所述的生成方法,其特征在于,通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习的步骤还包括:
基于所述损失函数,调整所述Faster R-CNN 目标检测器和所述fastText模型的参数,从而使所述最终的视觉关系预测值满足预设要求。
11.一种场景图的生成装置,其特征在于,所述生成装置包括:
数据获取单元,被配置为获取图像数据和文本数据,其中,所述图像数据包括含有噪声的图像数据集,所述文本数据包括公共爬虫文本数据集;
视觉检测单元,被配置为通过Faster R-CNN目标检测器,得到所述图像数据的特征向量,并且通过对所述特征向量进行融合,得到视觉特征向量,其中,所述特征向量包括主体特征向量、客体特征向量和谓词特征向量;
语义表示单元,被配置为基于预先训练的fastText模型,得到所述文本数据的词向量,并且通过对所述词向量进行融合,得到语义特征向量,其中,所述词向量包括主体词向量、客体词向量和谓词向量;
对称学习单元,被配置为通过对所述视觉特征向量和所述语义特征向量进行匹配,得到视觉关系预测值,并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习,得到最终的视觉关系预测值,从而生成场景图。
12.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至10中任意一项所述的场景图的生成方法。
13.一种计算装置,其特征在于,所述计算装置包括:
处理器;和
存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至10中任意一项所述的场景图的生成方法。
CN202111103897.7A 2021-09-22 2021-09-22 场景图的生成方法和生成装置 Active CN113554129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111103897.7A CN113554129B (zh) 2021-09-22 2021-09-22 场景图的生成方法和生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111103897.7A CN113554129B (zh) 2021-09-22 2021-09-22 场景图的生成方法和生成装置

Publications (2)

Publication Number Publication Date
CN113554129A true CN113554129A (zh) 2021-10-26
CN113554129B CN113554129B (zh) 2021-12-10

Family

ID=78106644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111103897.7A Active CN113554129B (zh) 2021-09-22 2021-09-22 场景图的生成方法和生成装置

Country Status (1)

Country Link
CN (1) CN113554129B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187387A (zh) * 2021-12-09 2022-03-15 北京达佳互联信息技术有限公司 场景图像生成方法、装置、电子设备及存储介质
CN114511779A (zh) * 2022-01-20 2022-05-17 电子科技大学 场景图生成模型的训练方法、场景图生成方法及装置
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN115170449A (zh) * 2022-06-30 2022-10-11 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
CN115546626A (zh) * 2022-03-03 2022-12-30 中国人民解放军国防科技大学 面向数据双重不平衡的降偏场景图生成方法及系统
CN116524513A (zh) * 2023-07-03 2023-08-01 中国科学技术大学 开放词表场景图生成方法、系统、设备及存储介质
CN117934733A (zh) * 2024-03-22 2024-04-26 暗物智能科技(广州)有限公司 一种全开放词表3d场景图生成方法、装置、设备及介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146786A (zh) * 2018-08-07 2019-01-04 北京市商汤科技开发有限公司 场景图生成方法及装置、电子设备和存储介质
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法
CN111475661A (zh) * 2020-03-23 2020-07-31 深兰科技(上海)有限公司 一种基于有限标签构造场景图的方法、装置及计算机设备
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111931928A (zh) * 2020-07-16 2020-11-13 成都井之丽科技有限公司 场景图的生成方法、装置和设备
US20200401835A1 (en) * 2019-06-21 2020-12-24 Adobe Inc. Generating scene graphs from digital images using external knowledge and image reconstruction
CN112288831A (zh) * 2020-10-29 2021-01-29 中国人民解放军陆军装甲兵学院 基于生成对抗网络的场景图像生成方法和装置
CN112329879A (zh) * 2020-11-16 2021-02-05 浙江大学 基于反事实多智能体学习的图像场景图的生成方法和系统
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN112989088A (zh) * 2021-02-04 2021-06-18 西安交通大学 一种基于强化学习的视觉关系实例学习方法
CN113139423A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113240033A (zh) * 2021-05-25 2021-08-10 清华大学深圳国际研究生院 一种基于场景图高阶语义结构的视觉关系检测方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146786A (zh) * 2018-08-07 2019-01-04 北京市商汤科技开发有限公司 场景图生成方法及装置、电子设备和存储介质
US20200401835A1 (en) * 2019-06-21 2020-12-24 Adobe Inc. Generating scene graphs from digital images using external knowledge and image reconstruction
CN111475661A (zh) * 2020-03-23 2020-07-31 深兰科技(上海)有限公司 一种基于有限标签构造场景图的方法、装置及计算机设备
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111931928A (zh) * 2020-07-16 2020-11-13 成都井之丽科技有限公司 场景图的生成方法、装置和设备
CN112288831A (zh) * 2020-10-29 2021-01-29 中国人民解放军陆军装甲兵学院 基于生成对抗网络的场景图像生成方法和装置
CN112329879A (zh) * 2020-11-16 2021-02-05 浙江大学 基于反事实多智能体学习的图像场景图的生成方法和系统
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN112989088A (zh) * 2021-02-04 2021-06-18 西安交通大学 一种基于强化学习的视觉关系实例学习方法
CN113139423A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113240033A (zh) * 2021-05-25 2021-08-10 清华大学深圳国际研究生院 一种基于场景图高阶语义结构的视觉关系检测方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CEWU LU 等: "Visual Relationship Detection with Language Priors", 《COMPUTER VISION》 *
SARTHAK GARG 等: "Learning to Relate from Captions and Bounding Boxes", 《ARXIV》 *
YIKANG LI等: "Scene Graph Generation from Objects, Phrases and Region Captions", 《ICCV》 *
林欣等: "基于上下文的场景图生成", 《中国硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187387A (zh) * 2021-12-09 2022-03-15 北京达佳互联信息技术有限公司 场景图像生成方法、装置、电子设备及存储介质
CN114511779A (zh) * 2022-01-20 2022-05-17 电子科技大学 场景图生成模型的训练方法、场景图生成方法及装置
CN115546626A (zh) * 2022-03-03 2022-12-30 中国人民解放军国防科技大学 面向数据双重不平衡的降偏场景图生成方法及系统
CN115546626B (zh) * 2022-03-03 2024-02-02 中国人民解放军国防科技大学 面向数据双重不平衡的降偏场景图生成方法及系统
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN114708472B (zh) * 2022-06-06 2022-09-09 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN115170449A (zh) * 2022-06-30 2022-10-11 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
CN115170449B (zh) * 2022-06-30 2023-09-22 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
CN116524513A (zh) * 2023-07-03 2023-08-01 中国科学技术大学 开放词表场景图生成方法、系统、设备及存储介质
CN116524513B (zh) * 2023-07-03 2023-10-20 中国科学技术大学 开放词表场景图生成方法、系统、设备及存储介质
CN117934733A (zh) * 2024-03-22 2024-04-26 暗物智能科技(广州)有限公司 一种全开放词表3d场景图生成方法、装置、设备及介质
CN117934733B (zh) * 2024-03-22 2024-06-11 暗物智能科技(广州)有限公司 一种全开放词表3d场景图生成方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113554129B (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN113554129B (zh) 场景图的生成方法和生成装置
US11200424B2 (en) Space-time memory network for locating target object in video content
CN112070231B (zh) 用于机器学习性能测试和改进的数据分片
US20190147333A1 (en) System and method for semi-supervised conditional generative modeling using adversarial networks
WO2023184918A1 (zh) 一种图像异常检测方法、装置、系统及可读存储介质
US20220156944A1 (en) Apparatus and method with video processing
CN108154191B (zh) 文档图像的识别方法和系统
CN112182230A (zh) 一种基于深度学习的文本数据分类方法和装置
CN112861522B (zh) 基于双重注意力机制的方面级情感分析方法、系统及模型
KR20230107558A (ko) 모델 트레이닝, 데이터 증강 방법, 장치, 전자 기기 및 저장 매체
CN110096617A (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN111681204B (zh) 基于图神经网络的ct肋骨骨折病灶关系建模方法及装置
Yu et al. Robust point cloud normal estimation via neighborhood reconstruction
Tian et al. Vibus: Data-efficient 3d scene parsing with viewpoint bottleneck and uncertainty-spectrum modeling
CN114463603B (zh) 图像检测模型的训练方法、装置、电子设备及存储介质
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN117523218A (zh) 标签生成、图像分类模型的训练、图像分类方法及装置
CN115440384A (zh) 一种基于多任务学习的医疗知识图谱的处理方法及系统
CN112861474B (zh) 一种信息标注方法、装置、设备及计算机可读存储介质
Cao et al. No-reference image quality assessment by using convolutional neural networks via object detection
CN113792132B (zh) 一种目标答案确定方法、装置、设备及介质
CN111008294A (zh) 交通图像处理、图像检索方法及装置
Pölsterl et al. Scalable, axiomatic explanations of deep alzheimer’s diagnosis from heterogeneous data
US11514311B2 (en) Automated data slicing based on an artificial neural network
CN110610185B (zh) 图像的显著目标的检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant