CN117274409A

CN117274409A - 一种场景图生成方法、装置、设备及存储介质

Info

Publication number: CN117274409A
Application number: CN202211261936.0A
Authority: CN
Inventors: 王菡子; 马文熙; 迪倩姬; 祁仲昂; 侯天翔; 单瀛
Original assignee: Xiamen University; Tencent Technology Shenzhen Co Ltd
Current assignee: Xiamen University; Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-12-22

Abstract

本申请提供一种场景图生成方法、装置、设备及存储介质，涉及人工智能技术领域，尤其涉及图像处理技术领域；在本申请中，针对待识别图像，获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词，第一目标对象和第二目标对象均为待识别图像中的目标对象；基于至少一类参考谓词中每类参考谓词，分别确定与第一目标对象之间的第一上下文关联度、与第二目标对象之间的第二上下文关联度，与初始谓词之间的谓词相似度；基于第一上下文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词；基于第一目标对象、第二目标对象和目标谓词，生成场景图。准确确定出用于表征对象之间关联关系的谓词，提升场景图的准确性。

Description

一种场景图生成方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种场景图生成方法、装置、设备及存储介质。

背景技术

为了便于对图像内容的理解与表达，将图像转换为场景图的结构化表示。其中，场景图采用(第一对象，谓词，第二对象)三元组的方式表示。因此，场景图生成即确定图像中包含的第一对象、第二对象，以及用于表征第一对象和第二对象之间关联关系的谓词。

目前，在生成场景图时，第一对象和第二对象可以通过图像识别技术得到，而用于表征第一对象和第二对象之间关联关系的谓词则需要进行预测。然而，通过模型进行谓词预测的过程中，主要依赖于从样本集中学习到的经验，因此会导致预测结果存在偏差，从而导致生成的场景图不够准确。

因此，如何准确确定用于表征图像中对象之间关联关系的谓词，以准确生成场景图是目前需要解决的技术问题。

发明内容

本申请提供一种场景图生成方法、装置、设备及存储介质，用以准确确定用于表征图像中对象之间关联关系的谓词，提升场景图的准确性。

第一方面，本申请实施例提供一种场景图生成方法，该方法包括：

针对待识别图像，获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词；其中，第一目标对象和第二目标对象均为待识别图像中包含的目标对象，且第一目标对象和第二目标对象不同；

基于至少一类参考谓词，分别确定每类参考谓词与第一目标对象之间的第一上下文关联度、每类参考谓词与第二目标对象之间的第二上下文关联度，以及每类参考谓词与初始谓词之间的谓词相似度；

基于第一上文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词；

基于第一目标对象、第二目标对象和目标谓词，生成相应的场景图。

第二方面，本申请实施例提供一种场景图生成装置，该装置包括：

获得单元，用于针对待识别图像，获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词；其中，第一目标对象和第二目标对象均为待识别图像中包含的目标对象，且第一目标对象和第二目标对象不同；

确定单元，用于基于至少一类参考谓词，分别确定每类参考谓词与第一目标对象之间的第一上下文关联度、每类参考谓词与第二目标对象之间的第二上下文关联度，以及每类参考谓词与初始谓词之间的谓词相似度；

选取单元，用于基于第一上下文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词；

生成单元，用于基于第一目标对象、第二目标对象和目标谓词，生成相应的场景图。

在一种可能的实现方式中，获得单元具体用于：

将待识别图像，输入已训练的对象关系预测模型，执行如下操作：

识别待识别图像中包含的至少两个目标对象，以及至少两个目标对象各自对应的检测区域；

分别确定至少两个目标对象中每个目标对象的对象类别信息；以及，分别确定至少两个检测区域中每个检测区域的位置信息，和相应的区域图像特征；

基于对象类别信息、位置信息以及区域图像特征，获得初始谓词。

在一种可能的实现方式中，选取单元具体用于：

基于第一上下文关联度、第二上下文关联度和谓词相似度，确定目标信息；

基于目标信息和参考谓词概率分布，确定谓词索引信息量；

在至少一类参考谓词中，选取出谓词索引信息量最大的参考谓词作为目标谓词。

在一种可能的实现方式中，选取单元具体用于：

对第一上下文关联度和第二上下文关联度进行求和处理，获得目标上下文关联度；

对目标上下文关联度和谓词相似度进行加权求和，获得目标信息。

在一种可能的实现方式中，通过如下方式获得对象关系预测模型：

基于目标样本集，对待训练的对象关系预测模型执行循环迭代训练，获得已训练的对象关系预测模型，其中，在一次循环迭代过程中执行：

从目标样本集中选取目标样本；其中，目标样本，包括：目标样本图像对应的第一三元组；第一三元组，包括：目标样本图像包含的至少两个第一历史对象中任意两个第一历史对象，以及相应的第一历史谓词；

将目标样本图像输入对象关系预测模型，获得目标样本图像中包含的至少两个预测对象，以及至少两个预测对象中任意两个预测对象对应的第一预测谓词；

基于至少两个预测对象和第一预测谓词，构建目标损失函数，并采用目标损失函数进行参数调整。

在一种可能的实现方式中，通过如下方式获得目标样本集：

获取候选样本集；其中，候选样本集，包括：至少一个候选样本图像，以及每个候选样本图像对应的第二三元组；第二三元组，包括：候选样本图像包含的至少两个第二历史对象中任意两个第二历史对象，以及相应的第二历史谓词；

将候选样本集中的每个候选样本图像，分别输入对象关系预测模型，获得候选样本集对应的所有预测结果；其中，每个预测结果，包括：相应候选样本图像对应的所有预测三元组；

基于所有预测结果，以及候选样本集对应的所有第二三元组，在候选样本集中抽取样本，并基于抽取的样本组成目标样本集。

在一种可能的实现方式中，基于所有预测结果，以及候选样本集对应的所有第二三元组，在候选样本集中抽取样本时：

确定所有预测结果包含的至少一类第二预测谓词，以及每类第二预测谓词对应的正确预测三元组的第一数量；以及，确定所有第二三元组包含的至少一类第二历史谓词，以及每类第二历史谓词对应的所有第二三元组的第二数量；

针对每类第二历史谓词，分别基于第二数量，以及相同类别的第二预测谓词对应的第一数量，确定第二历史谓词的召回率；

基于召回率，在候选样本集中抽取样本。

在一种可能的实现方式中，述基于召回率，在候选样本集中抽取样本时：

基于第二历史谓词的召回率，以及第二数量，确定第二历史谓词的采样率；

基于采样率，在第二历史谓词对应的所有第二三元组中，抽取目标数量的第二三元组；

基于抽取的第二三元组，在候选样本集中选择目标样本。

在一种可能的实现方式中，若第二数量小于等于数量阈值，则基于第二数量和召回率确定目标值，并将数量阈值与目标值之间的比值作为采样率；

若第二数量大于数量阈值，则将配置的固定值作为采样率。

在一种可能的实现方式中，目标损失函数是通过如下方式构建的：

基于至少两个预测对象与至少两个第一历史对象之间的信息差异值，构建第一类损失函数；

基于谓词香农信息量，以及第一预测谓词与第一历史谓词之间的谓词差异值，构建第二类损失函数；

基于第一类损失函数和第二类损失函数，确定目标损失函数。

在一种可能的实现方式中，谓词香农信息量是通过如下方式确定的：

基于目标样本集中包含的所有第一三元组，确定所有第一三元组中包含的至少一类第一历史谓词，以及每类第一历史谓词的概率；

针对至少一类第一历史谓词，分别基于每类第一历史谓词的概率，确定相应的第一历史谓词的香农信息量；

将每类第一历史谓词的香农信息量，分别进行归一化处理，获得相应的谓词香农信息量。

第三方面，本申请实施例提供一种电子设备，包括：存储器和处理器，其中，存储器，用于存储计算机指令；处理器，用于执行计算机指令以实现本申请实施例提供的场景图生成方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令被处理器执行时实现本申请实施例提供的场景图生成方法的步骤。

第五方面，本申请实施例提供一种计算机程序产品，其包括计算机指令，计算机指令存储在计算机可读存储介质中；当电子设备的处理器从计算机可读存储介质读取计算机指令时，处理器执行计算机指令，使得电子设备执行本申请实施例提供的场景图生成方法的步骤。

本申请有益效果如下：

本申请实施例提供一种场景图生成方法、装置、设备及存储介质，涉及人工智能领域，尤其涉及图像处理技术领域。在本申请中：首先，确定用于表征第一目标对象和第二目标对象之间关联关系的初始谓词；然后，基于至少一类参考谓词，分别确定每类参考谓词与第一目标对象之间的第一上下文关联度、与第二目标对象之间的第二上下文关联度，以及与初始谓词之间的谓词相似度；接着，基于第一上下文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词；最后，基于第一目标对象、第二目标对象和目标谓词，生成相应的场景图。在确定场景图中用于表征对象之间关联关系的谓词时，加入基于语义信息确定的上下文关联度以及谓词相似度，使确定的目标谓词更加合理准确，进一步提高场景图的准确性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种可生成场景图的图像示例；

图2为本申请实施例提供的一种应用场景示意图；

图3为本申请实施例提供的一种场景图生成方法流程图；

图4为本申请实施例提供的一种通过对象关系预测模型确定初始谓词的方法流程图；

图5为本申请实施例提供的一种目标检测网络的示意图；

图6为本申请实施例提供的一种场景图的示意图；

图7为本申请实施例提供的一种场景图生成的具体实施方式示意图；

图8为本申请实施例提供的一种训练对象关系预测模型的方法流程图；

图9为本申请实施例提供的一种获得目标样本集的方法流程图；

图10为本申请实施例提供的一种获得目标样本集的具体实现方法流程图；

图11为本申请实施例提供的一种训练对象关系预测模型的具体实现方式示意图；

图12为本申请实施例提供的一种结果对比示意图；

图13为本申请实施例提供的一种场景图生成装置结构图；

图14为本申请实施例提供的一种电子设备结构图；

图15为本申请实施例提供的另一种电子设备结构图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的部分概念进行介绍。

场景图生成任务(Scene Graph Generation，SGG)是让计算机自动生成一种语义化的图结构，该图结构称为场景图，作为图像的表示。

场景图(Scene Graph)又称视觉场景图，是连接计算机视觉和自然语言之间的桥梁，包括至少一个由第一对象、谓词和第二对象构成的关系三元组。其中，第一对象和第二对象是图像中一对相关的物体实例，谓词用于表示第一对象和第二对象在图像中的关联关系。如图1所示，图1给出的图像中包括一个骑摩托车的人，则第一对象为“人”，第二对象为“摩托车”，谓词为“骑”，基于“人”、“骑”、“摩托车”生成场景图。其中，谓词也可称为关系词。

长尾问题指某些实例在训练数据中出现次数非常少，导致模型对这部分样本训练效果很差。

类平衡策略(Class Balancing Stratagem，CBS)，是为了解决在分类学习时，因样本集中的多数类与少数类之间占比相差较大，导致的在多数类的分类精度较高而在少数类的分类精度很低，使分类学习在不平衡样本集中具有较大的局限性的问题，提出的一种不同类别的样本数量均衡方式。类平衡策略可以从训练样本的角度出发，主要方法为抽样，既然训练样本是不平衡的，那么可以通过某种策略进行训练样本抽样，从而使训练样本相对均衡。在本申请实施例中，设计的类平衡策略为公平指导抽样法(Fairness GuidedSampling，FGS)进行训练样本抽样，从而使训练样本相对均衡。

熵引导损失(Entropy Guided Learning，EGL)指对象关系预测模型训练过程中的谓词分类损失。

语义引导细化模块(Semantic Guided Refinement，SGR)为了保证图像对应的场景图的准确性，提出的一种基于语义信息，对象关系预测模型输出的谓词进行细化精炼的模块。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

文中的术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

下面对本申请实施例的设计思想进行简要介绍：

为了便于对图像内容的理解与表达，将图像转换为场景图的结构化表示；其中，场景图采用(第一对象，谓词，第二对象)三元组的方式表示。因此，场景图生成即确定图像中包含的第一对象、第二对象，以及用于表征第一对象和第二对象之间关联关系的谓词。

目前，在生成场景图时，第一对象和第二对象可通过图像识别技术得到，而用于表征第一对象和第二对象之间关联关系的谓词则需要进行预测，因此如何进行谓词预测是场景图生成中的关键技术。

相关技术中，通常采用模型进行谓词预测，而通过模型进行谓词预测的过程中，主要依赖于模型训练过程从训练样本集中学习到的经验。但是由于模型自身的特性或训练样本集不均衡等原因，导致预测结果存在偏差。

如，使用IMP、VCTree、MotifNet等模型，基于训练样本集中学习到的经验，预测用于表征对应之间关联关系的谓词时，核心解决思路是进行对象间、对象和谓词间的信息传递，但是最终预测谓词时都是按照分类的方法处理的，此时认为谓词与谓词之间是互斥的，以及由于训练样本集存在严重的长尾问题，导致预测的谓词不够准确；

如，使用TDE模型，基于训练样本集中学习到的经验，预测用于表征对应之间关联关系的谓词时，虽然考虑反事实因果关系，以试图消除不好的偏见，并迫使模型关注对象之间关联关系的主要视觉效果。但训练样本集也存在严重的长尾问题，导致预测的谓词不够准确，依然导致充满偏差的场景图生成结果。

如，使用BA-SGG和BGNN模型，基于训练样本集中学习到的经验预测用于表征对应之间关联关系的谓词时，虽然对训练样本集进行重采样，从而构建一个相对平衡的目标训练样本集，提升模型的精度。但重采样的方式考虑了类别的数量，并且是简单地进行随机降采样或上采样，因此对于目标训练样本集而言，不够相对平衡，依旧会导致预测的谓词不够准确。

显然，模型的训练样本集通常存在严重的长尾问题，使训练样本集中的训练数据不均衡；且在通过模型获得谓词后，直接将模型出的谓词作为生成场景图时使用的谓词，缺少考虑语义信息，因此导致预测结果存在偏差，即预测出的谓词不够准确，从而导致生成的场景图不准确。

因此，如何准确确定用于表征图像中对象之间关联关系的谓词，以生成准确的场景图是本申请需要解决的技术问题。

有鉴于此，本申请实施例提供一种场景图生成方法、装置、设备及存储介质，用以准确确定用于表征图像中对象之间关联关系的谓词，提升场景图的准确性。

考虑到场景图的准确性受用于表征图像中对象之间关联关系的谓词影响，而谓词是通过已训练的对象关系预测模型获得的；因此，已训练的对象关系预测模型的准确性，直接影响输出谓词的准确性。故，提出一种对象关系预测模型的训练方法，且在训练过程中为了避免因训练样本集存在的长尾问题，以及不同类别的样本数量不均衡问题，导致无法获得准确的对象关系预测模型的问题，本申请实施例中，给出一种公平指导抽样法，即在候选训练样本集中抽取训练样本，将抽取的训练样本组成用于训练对象关系预测模型的目标样本集，保持目标样本集中不同类别样本数量的相对均衡，以保证对象关系预测模型的准确性，进一步保证通过已训练的对象关系预测模型获得更加准确的谓词。

同时，考虑到相关技术中直接根据对象关系预测模型输出的谓词，生成场景图，而未考虑语义信息；因此，为了生成更加准确的场景图，本申请实施例中，在通过已训练的对象关系预测模型获得初始谓词后，基于语义信息确定的上下文关联度以及谓词相似度对初始谓词进行细化精炼，以获得更加准确的目标谓词，进一步保证场景图的准确性。

在本申请实施例中，首先，将待识别图像输入已训练的对象关系预测模型，获得待识别图像中的至少两个目标对象，以及用于表征第一目标对象和第二目标对象之间关联关系的初始谓词，第一目标对象和第二目标对象均为至少两个目标对象中任一目标对象，且第一目标对象和第二目标对象不同；然后，基于至少一类参考谓词，分别确定每类参考谓词与第一目标对象之间的第一上下文关联度、每类参考谓词与第二目标对象之间的第二上下文关联度，以及每类参考谓词与初始谓词之间的谓词相似度；接着，基于第一上下文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词；最后，基于第一目标对象、第二目标对象和目标谓词，生成相应的场景图。

在确定场景图中用于表征对象之间关联关系的谓词时，在通过已训练的对象关系预测模型获得初始谓词后，在初始谓词的基础上，又加入语义信息，重新确定目标谓词，以确定更加准确的目标谓词，进一步提高场景图的准确性。

在本申请实施例中，对象关系预测模型，确定上下文关联度、谓词相似度的部分，涉及人工智能(Artificial Intelligence，AI)和机器学习技术，基于人工智能中的语音技术、自然语言处理技术和机器学习(Machine Learning，ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域获得应用，并发挥越来越重要的价值。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间找相互特性而言，机器学习更加注重算法的设计，让计算机能够自动地从数据中“学习”规律，并利用规律对未知数据进行预测。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

参见图2，图2为本申请实施例的应用场景示意图。该应用场景中包括终端设备210和服务器220，终端设备210与服务器220之间可以通过通信网络进行通信。

在一种可选的实施方式中，通信网络可以是有线网络或无线网络。因此，终端设备210和服务器220可以通过有线或无线通信方式进行直接或间接地连接。比如，终端设备210可以通过无线接入点与服务器220间接地连接，或发终端设备210通过因特网与服务器220直接地连接，本申请在此不做限制。

在本申请实施例中，终端设备210包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备；终端设备上可以安装有各种客户端，该客户端可以是支持图像处理等功能的应用程序(例如浏览器、游戏软件等)，也可以是网页、小程序等；

服务器220是与终端设备210中安装的客户端相对应的后台服务器。服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请实施例中的场景图生成方法可以由电子设备执行，该电子设备可以为服务器220或者终端设备210，即，该方法可以由服务器220或者终端设备210单独执行，也可以由服务器220和终端设备210共同执行。

在终端设备210单独执行时，比如，可由终端设备210获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词；然后，基于至少一类参考谓词，分别确定每类参考谓词与第一目标对象之间的第一上下文关联度、每类参考谓词与第二目标对象之间的第二上下文关联度，以及每类参考谓词与初始谓词之间的谓词相似度；接着，基于第一上下文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词；最后，基于第一目标对象、第二目标对象和目标谓词，生成相应的场景图。

在服务器220单独执行时，比如，可由服务器220获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词；然后，基于至少一类参考谓词，分别确定每类参考谓词与第一目标对象之间的第一上下文关联度、每类参考谓词与第二目标对象之间的第二上下文关联度，以及每类参考谓词与初始谓词之间的谓词相似度；接着，基于第一上下文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词；最后，基于第一目标对象、第二目标对象和目标谓词，生成相应的场景图。

在服务器220和终端设备210共同执行时，比如，可由终端设备210针对待识别图像，获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词；然后初始谓词发送给服务器220，由服务器220基于至少一类参考谓词，分别确定每类参考谓词与第一目标对象之间的第一上下文关联度、每类参考谓词与第二目标对象之间的第二上下文关联度，以及每类参考谓词与初始谓词之间的谓词相似度；基于第一上下文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词；基于第一目标对象、第二目标对象和目标谓词，生成相应的场景图。

需要说明的是，在下文中，主要是以服务器单独执行为例进行举例说明的，在此不做具体限定。

在具体实施中，可以在终端设备210中输入待识别图像，终端设备210将待识别图像发送至服务器220，服务器220可以采用本申请实施例的场景图生成方法，确定待识别图像对应的场景图。

需要说明的是，图2所示只是举例说明，实际上终端设备210和服务器220的数量不受限制，在本申请实施例中不做具体限定。

本申请实施例中，当服务器220的数量为多个时，多个服务器220可组成为一区块链，而服务器220为区块链上的节点；如本申请实施例所公开的场景图生成方法，其中所涉及的样本训练集，参考谓词，确定谓词相似度采用的方式等可保存于区块链上。

下面结合上述描述的应用场景，根据附图来描述本申请示例性实施方式提供的场景图生成方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

为了确定待识别图像对应的场景图，需要识别待识别图像中包含的至少两个目标对象，以及至少两个目标对象中任意两个目标对象之间关联关系的目标谓词；并基于第一目标对象，目标谓词，第二目标对象组成的三元组，生成相应的场景图。本申请实施例中，首先，预测用于表征第一目标对象和第二目标对象之间关联关系的初始谓词；然后，基于上下文关联度以及谓词相似度，对初始谓词进行验证，以选择更加准确的目标谓词，保证目标谓词的准确性，进一步保证场景图的准确性。

参见图3，图3为本申请实施例提供的一种场景图生成方法流程图，包括如下步骤：

步骤S300，针对待识别图像，获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词。

其中，第一目标对象和第二目标对象均为待识别图像中包含的至少两个目标对象中的任一目标对象，且第一目标对象和第二目标对象不同。

在一种可能的实施方式中，通过已训练的对象关系预测模型，确定用于表征第一目标对象和第二目标对象之间关联关系的初始谓词。

示例性的，将待识别图像输入已训练的对象关系预测模型，在已训练的对象关系预测模型中执行预测操作，以获得待识别图像对应的初始谓词。参见图4，图4为本申请实施例提供的一种通过对象关系预测模型确定初始谓词的方法流程图，包括如下步骤：

步骤S400，识别待识别图像中包含的至少两个目标对象，以及至少两个目标对象各自对应的检测区域。

步骤S401，分别确定至少两个目标对象中每个目标对象的对象类别信息；以及分别确定至少两个目标对象中每个检测区域的位置信息，和相应的区域图像特征。

在一种可能的实现方式中，对象关系预测模型中包括目标检测网络，目标检测网络用于检测待识别图像中包含的至少两个目标对象，并识别出每个目标对象对应的检测区域；目标检测网络还用于确定每个目标对象的对象类别信息，以及每个检测区域的位置信息，每个检测区域的区域图像特征。

示例性的，目标检测网络为快速区域卷积神经网络(Faster RegionConvolutional Neural Networks，Faster RCNN)，其中，Faster RCNN已经将特征抽取(Feature Extraction)，区域建议(Region Proposal)提取，边框回归(Bounding BoxRegression)，分类(Classification)都整合在了一个网络中，使得综合性能有较大提高，在检测速度方面尤为明显。

参见图5，图5示例性提供本申请实施例中一种目标检测网络的示意图，包括特征图识别网络、感兴趣区域提取网络、感兴趣区域特征识别网络、目标对象类别和位置识别网络。

特征识别网络由卷积层(Conv)+非线性激活函数层(Relu)+池化层(Pooling)组成，用于获得待识别图像的整个图像特征；

感兴趣区域提取网络由区域建议网络(Region Proposal Networks，RPN)组成，用于区域建议，以获得包含目标对象的目标感兴趣区域，即目标对象的检测区域，并主要通过softmax网络判断目标对象待检测区域中是否包含目标对象，再利用边框回归(BoundingBox Regression)确定包含目标对象的目标感兴趣区域；

感兴趣区域特征识别网络由池化层组成，用于基于整个图像特征和包含目标对象的目标感兴趣区域，提取目标感兴趣区域的区域图像特征，即目标对象的检测区域的对应的区域图像特征；

目标对象类别和位置识别网络由全连接层和softmax网络组成，利用区域图像特征确定目标对象的对象类别信息，同时，再利用边框回归检测区域最终的精确位置，即检测区域的位置信息。

步骤S402，基于对象类别信息、位置信息以及区域图像特征，获得初始谓词。

在一种可能的实现方式中，对象关系预测模型中包括场景图生成任务(SceneGraph Generation，SGG)网络；其中，SGG用于确定初始场景图，即获得多组由(第一目标对象，初始谓词，第二目标对象)的三元组关系组成的初始场景图。

示例性的，将对象类别信息、位置信息以及区域图像特征，输入SGG中，由SGG输出相应的初始场景图。由于初始场景图由初始谓词组成，因此获得初始场景图即获得初始谓词。

步骤S301，基于至少一类参考谓词，分别确定每类参考谓词与第一目标对象之间的第一上下文关联度、每类参考谓词与第二目标对象之间的第二上下文关联度，以及每类参考谓词与初始谓词之间的谓词相似度。

其中，至少一类参考谓词是对象关系预测模型在预测确定初始谓词时，使用的所有谓词。比如，对象关系预测模型在确定初始谓词时，对象关系预测模型中包含有50种谓词，则至少一类参考谓词为对象关系预测模型中包含的50种谓词。

为了保证最终生成的场景图的准确性，本申请实施例，在获得初始谓词后，基于至少一类参考谓词的目标信息，通过语义引导细化模块对初始谓词进行细化精炼，以在至少一类参考谓词中选取出目标谓词，从而使用于生成最终场景图的目标谓词更加准确，进一步保证最终生成的场景图的准确性。

其中，目标信息由参考谓词与第一目标对象之间的第一上下文关联度、参考谓词与第二目标对象之间的第二上下文关联度，以及参考谓词与初始谓词之间的谓词相似度组成。

因此，为了获得准确的目标信息，确定第一上下文关联度，第二上下文关联度以及谓词相似度是至关重要的。

在本申请实施例中，考虑到第一上下文关联度，第二上下文关联度以及谓词相似度受到词的语义信息影响，而语义信息是词本身的属性，并不由特定的样本集决定。因此，在语义引导细化模块中，首先，通过Bret模型获得词向量，其中，词向量是根据词的语义在向量空间中分布的，即词向量包含了语义信息；然后，基于词向量与词向量之间的距离，确定第一上下文关联度，第二上下文关联度以及谓词相似度，其中，语义相似度较高的词向量在向量空间中距离比较接近，反之亦然。可见，语义引导细化模块可以减少对样本集的依赖性，提升泛化性。

步骤S302，基于第一上下文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词。

为了获得更合理准确的目标谓词，本申请实施例，通过参考谓词语义信息、初始谓词的语义信息和目标对象的语义信息，来细化精炼初始谓词；即，基于第一上下文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词。

示例性的，在获得第一上下文关联、第二上下文关联度和谓词相似度后，首先基于第一上下文关联度、第二上下文关联度和谓词相似度，确定目标信息，然后基于目标信息，在至少一类参考谓词中选取出目标谓词。

在一种可能的实现方式中，为了获取准确的目标信息，在基于第一上下文关联度、第二上下文关联度和谓词相似度，确定目标信息时，首先，对第一上下文关联度和第二上下文关联度进行求和处理，获得目标上下文关联度；然后，对目标上下文关联度和谓词相似度进行加权求和，获得目标信息。

示例性的，参见如下公式：

其中，v_i表示目标信息，表示第一目标对象，/>表示第二目标对象，/>表示初始谓词，p表示一个参考谓词，d(*，*)表示向量空间中的欧式距离，β表示平衡因子。

因此，设置不同的β值，确定目标谓词时关注的角度不同；比如，当β设为1时，确定目标谓词时更加关注目标谓词与第一目标对象和第二目标对象之间的上下文关联度，即选择目标谓词与第一目标对象和第二目标对象在语义上更加接近的；反之，当β设为0时，确定目标谓词时更加关注目标谓词与初始谓词之间的谓词相似度，即选择目标谓词与初始谓词在语义上更加接近的。

在一种可能的实现方式中，为了获得更加准确的目标谓词，在基于目标信息，在至少一类参考谓词中选取目标谓词时，首先基于目标信息和参考谓词概率分布，确定谓词索引信息量；然后在至少一类参考谓词中，选取出谓词索引信息量最大的参考谓词作为目标谓词。

示例性的，参见如下公式：

其中，p_i表示目标谓词，D_i表示参考谓词概率分布，v_i表示目标信息，⊙表示Hadamard积，是一个映射函数，将谓词索引信息量映射到相应的目标谓词。

需要说明的，参考谓词概率分布是对象关系预测模型确定初始谓词时获得的；由于对象关系预测模型确定初始谓词时使用的是分类网络，在分类网络中会确定第一目标对象和第二目标对象之间的谓词为各个参考谓词的概率，此时会获得参考谓词概率分布。

步骤S303，基于第一目标对象、第二目标对象和目标谓词，生成相应的场景图。

在基于第一目标对象、第二目标对象和目标谓词，生成相应的场景图时，即将第一目标对象、第二目标对象和目标谓词组成(第一目标对象，目标谓词，第二目标对象)三元组，基于三元组，将第一目标对象和第二目标对象通过目标谓词连接。

参见图6，图6为本申请实施例提供的一种场景图的示意图；从图6中可知：待识别图像中包括的目标对象有“狗”、“椅子”、“狗耳朵”、“狗尾巴”，识别出的三元组包括(狗，有，狗尾巴)、(狗，有，狗耳朵)、(狗尾巴，属于，狗)、(狗耳朵，属于，狗)、(狗，坐，椅子)，以及(椅子，在下面，狗)。

参见图7，图7为本申请实施例提供的一种场景图生成的具体实施方式示意图，从图7中可知：

首先，将待识别图像输入已训练的对象关系预测模型中，在对象关系预测模型中执行：通过目标检测网络获得目标对象的对象类别信息(Object Category Embedding)、目标对象的对应的检测区域的位置信息(Bounding Box Embedding)、以及检测区域的区域图像特征(Roi Feature)；将对象类别信息、位置信息以及区域图像特征，输入场景图生成网络中，通过场景图生成网络获得初始谓词。

然后，将获得的初始谓词，以及(第一目标对象，初始谓词，第二目标对象)的三元组输入到语义引导细化模块，通过语义引导细化模块，基于第一目标对象、参考谓词、第二目标对象以及初始谓词的语义信息，对初始谓词进行细化精炼，获得细化精炼后的目标谓词。

最后，基于细化精炼后的目标谓词，第一目标对象以及第二目标对象生成场景图。

在本申请中，首先，确定用于表征第一目标对象和第二目标对象之间关联关系的初始谓词；然后，基于至少一类参考谓词，分别确定每类参考谓词与第一目标对象之间的第一上下文关联度、与第二目标对象之间的第二上下文关联度，以及与初始谓词之间的谓词相似度；接着，基于第一上下文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词；最后，基于第一目标对象、第二目标对象和目标谓词，生成相应的场景图。在确定场景图中用于表征对象之间关联关系的谓词时，加入基于语义信息确定的上下文关联度以及谓词相似度，使确定的目标谓词更加准确，进一步提高场景图的准确性。

场景图生成的实施例中，应用到已训练的对象关系预测模型，通过已训练的对象关系预测模型来确定初始谓词。为了保证已训练的对象关系预测模型的准确性，本申请实施例中，基于目标样本集，对待训练的对象关系预测模型执行循环迭代训练，获得已训练的对象关系预测模型。

由于每次循环迭代过程执行的操作步骤是一致的，因此，以一次训练循环迭代过程为例，对对象关系预测模型训练方法进行详细说明。参见图8，图8为本申请实施例提供的一种训练对象关系预测模型的方法流程图，包括如下步骤：

步骤S800，从目标样本集中选取目标样本；其中，目标样本，包括：目标样本图像对应的第一三元组；第一三元组，包括：目标样本图像包含的至少两个第一历史对象中任意两个第一历史对象，以及相应的第一历史谓词。

考虑到由于在场景图生成任务中，训练样本在数量上通常存在极度不平衡的问题，即头部谓词的数量远远高于尾部谓词的数量，此时模型预测时会偏向头部谓词，导致训练获得的对象关系预测模型不准确，存在预测偏差的问题。本申请实施例中，在训练对象关系预测模型之前，先确定样本数量相对均衡的目标样本集，并使用目标样本集进行对象关系预测模型的训练，以获得准确的对象关系预测模型。

在获得相对均衡的目标样本集时，若直接采用上采样或下采样的方式，则未考虑到因头部谓词的召回率很低，存在谓词没有被完全学习的情况，也就是说谓词的召回率与谓词的数量没有严格的正相关关系。因此，本申请实施例中，提出一种关注谓词数量，及谓词召回率的公平指导抽样法，通过该公平指导抽样法来获得目标样本集，以使目标样本集中不同类别的样本数量相对均衡。

参见图9，图9为本申请实施例提供的一种获得目标样本集的方法流程图，包括如下步骤：

步骤S900，获取候选样本集；其中，候选样本集，包括：至少一个候选样本图像，以及每个候选样本图像对应的第二三元组；第二三元组，包括：候选样本图像包含的至少两个第二历史对象中任意两个第二历史对象，以及相应的第二历史谓词。

其中，候选样本集为样本数量不均衡的初始样本集。

步骤S901，将候选样本集中的每个候选样本图像，分别输入对象关系预测模型，获得候选样本集对应的所有预测结果；其中，每个预测结果，包括：相应候选样本图像对应的所有预测三元组。

示例性的，将候选样本图像Gi输入对象关系预测模型，获得候选样本图像Gi对应的所有预测三元组；即候选样本图像Gi中包含的所有(第一预测对象，预测谓词，第二预测对象)的预测三元组。因此，可以获得候选样本集对应的所有预测结果，即候选样本集对应的所有预测三元组。

比如，候选样本集中包含50个候选样本图像，候选样本图像G1对应2中预测三元组，候选样本图像G2对应6种预测三元组，候选样本图像对应12种预测三元组，以此可确定到候选样本图像G50对应的预测三元组。

需要说明的是，50个候选样本图像仅是举例说明，而实际应用中候选样本数量要远远大于50，可能是万、十万、百万、千万等单位。

步骤S902，基于所有预测结果，以及候选样本集对应的所有第二三元组，在候选样本集中抽取样本，并基于抽取的样本组成目标样本集。

首先，基于确定的所有预测结果，确定候选样本集对应的所有预测三元组，以及每个预测三元组中包含的第二预测谓词，并统计所有预测三元组中出现的每类第二预测谓词，以及每类第二预测谓词对应的正确预测三元组的第一数量；

比如，候选样本集中包含50个候选样本图像，一共存在380个预测三元组，且380个预测三元组中出现的第二预测谓词包括：上、下、左、右、属于、包含、坐、骑等30种第二预测谓词，其中第二预测谓词“上”对应有20个预测三元组，并识别这20预测三元组中正确预测的预测三元组数量为10。

同时，基于候选样本集中每个候选样本图像对应的第二三元组，确定候选样本集中出现的所有第二三元组，以及每个第二三元组中包含的第二历史谓词，并统计所有第二三元组中出现的每类第二历史谓词，以及每类第二历史谓词对应的所有第二三元组的第二数量；

比如，候选样本集中包含50个候选样本图像，一共存在400个第二三元组，且400个第二三元组中出现的第二历史谓词包括：上、下、左、右、属于、包含、坐、骑等30种第二历史谓词，其中第二历史谓词“上”对应有20个第二三元组。

然后，针对每类第二历史谓词，基于相应的第二数量，以及相同类别的第二预测谓词对应的第一数量，确定第二历史谓词的召回率。

示例性的，将第一数量和第二数量的比值，作为第二历史谓词的召回率。

比如，第二历史谓词“上”对应有20个第二三元组，同类别的第二预测谓词对应的第一数量为10，此时第二历史谓词的召回率为50％。

接着，基于第二历史谓词的召回率，以及第二历史谓词的第二数量，确定第二历史谓词的采样率；

在一种可能的实现方式中，若第二历史谓词的第二数量小于等于数量阈值，则基于第二历史谓词的第二数量和第二历史谓词的召回率确定目标值，并将数量阈值与目标值之间的比值作为采样率；

若第二历史谓词的第二数量大于数量阈值，则将配置的固定值作为采样率。

示例性的，参见如下公式：

其中，k_i表示采样率，f_i表示第二数量，τ表示数量阈值，τ用于决定第二历史谓词是否应该被下采样，others表示除f_i≤τ以外的其他情况，c_i表示召回率，α表示标量因子，b表示固定值，一般情况下，b＝1，表示聚合操作，可以通过求和、相乘等方式实现，一般情况下，/>表示相乘操作。

需要说明的是，数量阈值τ和标量因子α根据经验设定为1100和0.2，且在实际应用过程中可调。

最后，基于第二历史谓词的采样率，以及第二历史谓词的第二数量，确定抽取第二三元组的目标数量，并基于目标数量，在第二历史谓词对应的所有第二三元组中，抽取目标数量的第二三元组；并基于抽取的第二三元组，在候选样本集中选取目标样本。

示例性的，确定目标数量参见如下公式：

n_i＝f_i×k_i

其中，n_i表示目标数量，f_i表示第二数量，k_i表示采样率。

比如，在确定目标数量为10，则在第二历史谓词对应的所有第二三元组中，抽取10个第二三元组，并在候选样本集中确定包含这个10个第二三元组的样本作为目标样板。

参见图10，图10为本申请实施例提供的一种获得目标样本集的具体实现方法流程图，包括如下步骤：

步骤S1000，获取候选样本集；其中，候选样本集，包括：至少一个候选样本图像，以及每个候选样本图像对应的第二三元组；第二三元组，包括：候选样本图像包含的至少两个第二历史对象中任意两个第二历史对象，以及相应的第二历史谓词。

步骤S1001，将候选样本集中的每个候选样本图像，分别输入对象关系预测模型，获得候选样本集对应的所有预测结果；其中，每个预测结果，包括：相应候选样本图像对应的所有预测三元组；

步骤S1002，确定所有预测结果包含的至少一类第二预测谓词，以及每类第二预测谓词对应的正确预测三元组的第一数量；以及，确定所有第二三元组包含的至少一类第二历史谓词，以及每类第二历史谓词对应的所有第二三元组的第二数量；

步骤S1003，针对每类第二历史谓词，分别基于第二数量，以及相同类别的第二预测谓词对应的第一数量，确定第二历史谓词的召回率；

步骤S1004，基于第二历史谓词的召回率，以及第二数量，确定第二历史谓词的采样率；

步骤S1005，基于第二历史谓词的采样率，以及第二历史谓词的第二数量，确定抽取第二三元组的目标数量，并基于目标数量，在第二历史谓词对应的所有第二三元组中，抽取目标数量的第二三元组；

步骤S1006，在候选样本集中选取包含抽取的第二三元组的样本，并基于选取的样本组成目标样本集。

在本申请中，针对场景图生成任务中，样本集中样本数量存在极度不平衡的问题，而提出一个公平指导抽样法来构建一个相对平衡的目标样本集，构建方法不再简单地根据不同类别的样本数量进行降采样/上采样，而是融合考虑了不同类别的学习效果，有指导性地进行采样，使目标样本集中的各类别的样本数量相对均衡。

步骤S801，将目标样本图像输入对象关系预测模型，获得目标样本图像中包含的至少两个预测对象，以及至少两个预测对象中任意两个预测对象对应的第一预测谓词。

将目标样本图像输入对象关系预测模型，确定至少两个预测对象，以及至少两个预测对象中任意两个预测对象对应的第一预测谓词的方式，同将待识别图像输入已训练的对象关系预测模型，获得初始谓词的方式类似，在此不再重复赘述。

步骤S802，基于至少两个预测对象和第一预测谓词，构建目标损失函数，并采用目标损失函数进行参数调整。

在一种可能的实现方式中，基于至少两个预测对象与至少两个第一历史对象之间的信息差异值，构建第一类损失函数时：

基于至少两个预测对象与至少两个第一历史对象之间的信息差异值，构建第一类损失函数，其中，第一类损失函数，包括：基于预测对象与相应的第一历史对象之间的对象类别信息差异构建的第一子损失函数，以及预测对象与相应的第一历史对象之间的检测区域特征差异构建的第二子损失函数；

示例性的，目标损失函数参见如下公式：

其中，表示目标损失函数，/>表示第二子损失函数，/>表示第一子损失函数，/>表示第二类损失函数即谓词分类损失。

其中，是基于均方误差损失函数确定的，/>是基于交叉熵损失函数确定的，且/>也是基于交叉熵损失函数确定的。

由于对象识别分类的技术已相对成熟，且本申请实施例中主要关注如何确定谓词，因此本申请实施例中重点考虑谓词分类损失。

若直接基于交叉熵损失函数确定谓词分类损失，即谓词分类损失为：其中，M为目标样本图像中包含的谓词的数量，/>为第一预测谓词，p_i表示与第一预测谓词同类别的第一历史谓词；并未考虑谓词的信息量，因为不同的谓词具有的信息量不同，所以在训练过程中当不同的谓词被预测错误时，给对象关系预测模型带来的损失时不同的，若采用相同的损失对对象关系预测模型进行训练，将导致训练获得的对象关系预测模型不够准确。因此为了保证对象关系预测模型的准确性，本申请实施例中，在确定谓词分类损失函数时，将谓词香农信息量作为训练过程时的损失权重，并基于第一预测谓词与第一历史谓词之间的谓词差异值构建的交叉熵损失函数确定，对应的熵引导损失，即第二类损失函数为：

其中，表示谓词香农信息量；示例性的，谓词香农信息量是通过如下方式确定的：

首先，基于目标样本集中包含的所有第一三元组，确定所有第一三元组中包含的至少一类第一历史谓词，以及每类第一历史谓词的概率，即确定每类第一历史谓词出现的总次数，在所有第一三元组对应的谓词总数量中的占比；

然后，针对至少一类第一历史谓词，分别基于每类第一历史谓词的概率，确定相应的第一历史谓词的香农信息量；示例性的，第一历史谓词的香农信息量为-log2(N)，其中N为第一历史谓词的概率；

最后，将每类第一历史谓词的香农信息量，分别进行归一化处理，获得相应第一历史谓词的谓词香农信息量。

基于本申请实施例提供的第二类损失函数，确定当谓词香农信息量较大的第一历史谓词被预测错误时，其产生的损失值会较大，促使对象关系预测模型更加关注信息量较大的谓词，使其特征学习的更加准确，且基于香农信息论可知，信息量大的谓词数量少，反之数量多，因此抑制了对象关系预测模型偏向于预测数量多的谓词的趋势，减轻了长尾效应，保证了对象关系预测模型的准确性。

需要说明的是，模型训练过程中不会存在无休止的循环迭代训练，因此在模型训练过程中设置终止条件，并在构建目标损失函数后，判断是否终止条件。

在确定未满足终止条件后，可采用梯度下降的方式，对对象关系预测模型进行参数调整，以优化象关系预测模型；其中，终止条件为循环迭代次数满足设置值，或则基于目标损失函数计算的损失值小于设定值；梯度下降的方式包括但不限于：随机梯度下降，带动量项的随机梯度下降，adam，adagard。

在本申请中，训练对象关系预测模型的过程中，提出熵引导损失，在训练过程中有针对性地对不同类别的谓词赋予不同的损失权重，保证对象关系预测模型的准确性。

参见图11，图11为本申请实施例提供的一种训练对象关系预测模型的具体实现方式示意图，从图11中可知：

首先，将候选样本集中的候选样本图像输入对象关系预测模型中，在对象关系预测模型中执行：通过目标检测网络获得目标对象的对象类别信息(Object CategoryEmbedding)、目标对象的对应的检测区域的位置信息(Bounding Box Embedding)、以及检测区域的区域图像特征(Roi Feature)；将对象类别信息、位置信息以及区域图像特征，输入场景图生成网络中，通过场景图生成网络获得预测谓词。

然后，通过本申请实施例提供的公平指导抽样法，基于场景图生成网络获得预测谓词，对候选样本集中的样本进行引导取样，使样本集中不同类别的谓词数量相对均衡。

最后，将引导取样后的目标样本集中的目标样本图像，输入对象关系预测模型中，对对象关系预测模型进行训练。

在本申请中，采用两步训练方式来训练对象关系预测模型，以首先用基本的场景图生成流程进行第一步训练，得到每类历史谓词的召回率；然后基于召回率来调整样本集中样本的分布，得到一个样本分布相对均衡的目标样本集；接着基于目标样本集进行第二步训练，冻结特征提取网络的权重，细化精炼初始谓词分类网络的参数，并在训练过程中使用谓词香农熵引导损失，对对象关系预测模型进行参数调整，较大程度地抑制由于样本集长尾问题带来的偏差分类问题。保证对象关系预测模型的准确性。

需要说明的是，本申请实施例中，还可以将对象关系预测模型与语义引导细化模块进行联合训练，进一步保证场景图生成的准确性。

为了确定本申请实施例提供的场景生成方法的准确性，本申请实施例在实验公开样本集，即视觉基因组(Visual Genome)样本集的基础上，将本申请实施例提供的场景图生成方法，与相关技术中存在的场景图生成方法进行对比。参考图12，图12为本申请实施例提供的一种结果对比示意图，其中，mR@K表top-K预测结果中所有谓词的平均召回率。从图12中可知：与相关技术中最先进的(state-of-the-art)的方法对比，本申请实施例提供的场景图生成方法，在Visual Genome样本集上，生成的场景图更加准确，精确度更高。

与本申请上述方法实施例基于同一发明构思，本申请实施例中还提供了一种场景图生成装置，装置解决问题的原理与上述实施例的方法相似，因此装置的实施可以参见上述方法的实施，重复之处不再赘述。

参见图13，图13示例性提供本申请实施例提供一种场景图生成装置1300，该场景图生成装置1300包括：

获得单元1301，用于针对待识别图像，获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词；其中，第一目标对象和第二目标对象均为待识别图像中包含的目标对象，且第一目标对象和第二目标对象不同；

确定单元1302，用于基于至少一类参考谓词，分别确定每类参考谓词与第一目标对象之间的第一上下文关联度、每类参考谓词与第二目标对象之间的第二上下文关联度，以及每类参考谓词与初始谓词之间的谓词相似度；

选取单元1303，用于基于第一上下文关联度、第二上下文关联度和谓词相似度，在至少一类参考谓词中，选取出目标谓词；

生成单元1304，用于基于第一目标对象、第二目标对象和目标谓词，生成相应的场景图。

在一种可能的实现方式中，获得单元1301具体用于：

在一种可能的实现方式中，选取单元1303具体用于：

基于目标信息和参考谓词概率分布，确定谓词索引信息量；

在一种可能的实现方式中，选取单元1303具体用于：

在一种可能的实现方式中，通过如下方式获得目标样本集：

基于召回率，在候选样本集中抽取样本。

基于抽取的第二三元组，在候选样本集中选择目标样本。

若第二数量大于数量阈值，则将配置的固定值作为采样率。

为了描述的方便，以上各部分按照功能划分为各单元(或模块)分别描述。当然，在实施本申请时可以把各单元(或模块)的功能在同一个或多个软件或硬件中实现。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在介绍了本申请示例性实施方式的场景图生成方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的用于场景图生成的电子设备。

与本申请上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备，该电子设备可以是服务器。在该实施例中，电子设备的结构可以如图14所示，包括存储器1401，通讯模块1403以及一个或多个处理器1402。

存储器1401，用于存储处理器1402执行的计算机程序。存储器1401可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1401可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1401也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器1401是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器1401可以是上述存储器的组合。

处理器1402，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器1402，用于调用存储器1401中存储的计算机程序时实现上述场景图生成方法。

通讯模块1403用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1401、通讯模块1403和处理器1402之间的具体连接介质。本申请实施例在图14中以存储器1401和处理器1402之间通过总线1404连接，总线1404在图14中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1404可以分为地址总线、数据总线、控制总线等。为便于描述，图14中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1401中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的场景图生成方法。处理器1402用于执行上述的场景图生成方法。

在另一种实施例中，电子设备也可以是其他电子设备，如终端设备。在该实施例中，电子设备的结构可以如图15所示，包括：通信组件1510、存储器1520、显示单元1530、摄像头1540、传感器1550、音频电路1560、蓝牙模块1570、处理器1580等部件。

通信组件1510用于与服务器进行通信。在一些实施例中，可以包括电路无线保真(Wireless Fidelity，WiFi)模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi模块可以帮助用户收发信息。

存储器1520可用于存储软件程序及数据。处理器1580通过运行存储在存储器1520的软件程序或数据，从而执行终端设备的各种功能以及数据处理。存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一类磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1520存储有使得终端设备能运行的操作系统。本申请中存储器1520可以存储操作系统及各种应用程序，还可以存储执行本申请实施例场景图生成方法的代码。

显示单元1530还可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种菜单的图形用户界面(graphical user interface，GUI)。具体地，显示单元1530可以包括设置在终端设备正面的显示屏1532。其中，显示屏1532可以采用液晶显示器、发光二极管等形式来配置。显示单元1530可以用于显示本申请实施例中的目标修复图像等。

显示单元1530还可用于接收输入的数字或字符信息，产生与终端设备的用户设置以及功能控制有关的信号输入，具体地，显示单元1530可以包括设置在终端设备正面的触摸屏1531，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触摸屏1531可以覆盖在显示屏1532之上，也可以将触摸屏1531与显示屏1532集成而实现终端设备的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1530可以显示应用程序以及对应的操作步骤。

摄像头1540可用于捕获静态图像。摄像头1540可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupleddevice，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1580转换成数字图像信号。

终端设备还可以包括至少一种传感器1550，比如加速度传感器1551、距离传感器1552、指纹传感器1553、温度传感器1554。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1560、扬声器1561、传声器1562可提供用户与终端设备之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出。终端设备还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1562将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出至通信组件1510以发送给比如另一终端设备，或者将音频数据输出至存储器1520以便进一步处理。

蓝牙模块1570用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1570与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。

处理器1580是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1520内的软件程序，以及调用存储在存储器1520内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1580可包括一个或多个处理单元；处理器1580还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1580中。本申请中处理器1580可以运行操作系统、应用程序、用户界面显示及触控响应，以及本申请实施例的场景图生成方法。另外，处理器1580与显示单元1530耦接。

在一些可能的实施方式中，本申请提供的场景图生成方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的场景图生成方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种场景图生成方法，其特征在于，所述方法包括：

针对待识别图像，获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词；其中，所述第一目标对象和所述第二目标对象均为所述待识别图像中包含的目标对象，且所述第一目标对象和所述第二目标对象不同；

基于至少一类参考谓词，分别确定每类参考谓词与所述第一目标对象之间的第一上下文关联度、每类参考谓词与所述第二目标对象之间的第二上下文关联度，以及每类参考谓词与所述初始谓词之间的谓词相似度；

基于所述第一上下文关联度、所述第二上下文关联度和所述谓词相似度，在所述至少一类参考谓词中，选取出目标谓词；

基于所述第一目标对象、所述第二目标对象和所述目标谓词，生成相应的场景图。

2.如权利要求1所述的方法，其特征在于，所述针对待识别图像，获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词，包括：

将所述待识别图像，输入已训练的对象关系预测模型，执行如下操作：

识别所述待识别图像中包含的至少两个目标对象，以及所述至少两个目标对象各自对应的检测区域；

分别确定所述至少两个目标对象中每个目标对象的对象类别信息；以及，分别确定所述至少两个检测区域中每个检测区域的位置信息，和相应的区域图像特征；

基于所述对象类别信息、所述位置信息以及所述区域图像特征，获得所述初始谓词。

3.如权利要求1所述的方法，其特征在于，所述基于所述第一上下文关联度、所述第二上下文关联度和所述谓词相似度，在所述至少一类参考谓词中，选取出目标谓词，包括：

基于所述第一上下文关联度、所述第二上下文关联度和所述谓词相似度，确定目标信息；

基于所述目标信息和参考谓词概率分布，确定谓词索引信息量；

在所述至少一类参考谓词中，选取出谓词索引信息量最大的参考谓词作为所述目标谓词。

4.如权利要求3所述的方法，其特征在于，所述基于所述第一上下文关联度、第二上下文关联度和所述谓词相似度，确定目标信息，包括：

对所述第一上下文关联度和所述第二上下文关联度进行求和处理，获得目标上下文关联度；

对所述目标上下文关联度和所述谓词相似度进行加权求和，获得所述目标信息。

5.如权利要求2所述的方法，其特征在于，通过如下方式获得所述对象关系预测模型：

从所述目标样本集中选取目标样本；其中，所述目标样本，包括：目标样本图像对应的第一三元组；所述第一三元组，包括：所述目标样本图像包含的至少两个第一历史对象中任意两个第一历史对象，以及相应的第一历史谓词；

将所述目标样本图像输入所述对象关系预测模型，获得所述目标样本图像中包含的至少两个预测对象，以及所述至少两个预测对象中任意两个预测对象对应的第一预测谓词；

基于所述至少两个预测对象和所述第一预测谓词，构建目标损失函数，并采用所述目标损失函数进行参数调整。

6.如权利要求5所述的方法，其特征在于，通过如下方式获得所述目标样本集：

获取候选样本集；其中，所述候选样本集，包括：至少一个候选样本图像，以及每个候选样本图像对应的第二三元组；所述第二三元组，包括：所述候选样本图像包含的至少两个第二历史对象中任意两个第二历史对象，以及相应的第二历史谓词；

将所述候选样本集中的每个候选样本图像，分别输入所述对象关系预测模型，获得所述候选样本集对应的所有预测结果；其中，每个预测结果，包括：相应候选样本图像对应的所有预测三元组；

基于所述所有预测结果，以及所述候选样本集对应的所有第二三元组，在所述候选样本集中抽取样本，并基于抽取的样本组成所述目标样本集。

7.如权利要求6所述的方法，其特征在于，所述基于所述所有预测结果，以及所述候选样本集对应的所有第二三元组，在所述候选样本集中抽取样本，包括：

确定所述所有预测结果包含的至少一类第二预测谓词，以及每类第二预测谓词对应的正确预测三元组的第一数量；以及，确定所述所有第二三元组包含的至少一类第二历史谓词，以及每类第二历史谓词对应的所有第二三元组的第二数量；

针对每类第二历史谓词，分别基于所述第二数量，以及相同类别的第二预测谓词对应的第一数量，确定所述第二历史谓词的召回率；

基于所述召回率，在所述候选样本集中抽取样本。

8.如权利要求7所述的方法，其特征在于，所述基于所述召回率，在所述候选样本集中抽取样本，包括：

基于所述第二历史谓词的召回率，以及所述第二数量，确定所述第二历史谓词的采样率；

基于所述采样率，在所述第二历史谓词对应的所有第二三元组中，抽取目标数量的第二三元组；

基于抽取的第二三元组，在所述候选样本集中选择目标样本。

9.如权利要求8所述的方法，其特征在于，所述基于所述第二历史谓词的召回率，以及所述第二数量，确定所述第二历史谓词的采样率，包括：

若所述第二数量小于等于数量阈值，则基于所述第二数量和所述召回率确定目标值，并将所述数量阈值与所述目标值之间的比值作为所述采样率；

若所述第二数量大于所述数量阈值，则将配置的固定值作为所述采样率。

10.如权利要求5所述的方法，其特征在于，所述目标损失函数是通过如下方式构建的：

基于所述至少两个预测对象与所述至少两个第一历史对象之间的信息差异值，构建第一类损失函数；

基于谓词香农信息量，以及所述第一预测谓词与所述第一历史谓词之间的谓词差异值，构建第二类损失函数；

基于所述第一类损失函数和所述第二类损失函数，确定所述目标损失函数。

11.如权利要求10所述的方法，其特征在于，所述谓词香农信息量是通过如下方式确定的：

基于所述目标样本集中包含的所有第一三元组，确定所述所有第一三元组中包含的至少一类第一历史谓词，以及每类第一历史谓词的概率；

针对所述至少一类第一历史谓词，分别基于每类第一历史谓词的概率，确定相应的第一历史谓词的香农信息量；

将所述每类第一历史谓词的香农信息量，分别进行归一化处理，获得相应的谓词香农信息量。

12.一种场景图生成装置，其特征在于，所述装置包括：

获得单元，用于针对待识别图像，获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词；其中，所述第一目标对象和所述第二目标对象均为所述待识别图像中包含的目标对象，且所述第一目标对象和所述第二目标对象不同；

确定单元，用于基于至少一类参考谓词，分别确定每类参考谓词与所述第一目标对象之间的第一上下文关联度、每类参考谓词与所述第二目标对象之间的第二上下文关联度，以及每类参考谓词与所述初始谓词之间的谓词相似度；

选取单元，用于基于所述第一上下文关联度、所述第二上下文关联度和所述谓词相似度，在所述至少一类参考谓词中，选取出目标谓词；

生成单元，用于基于所述第一目标对象、所述第二目标对象和所述目标谓词，生成相应的场景图。

13.一种电子设备，其特征在于，该电子设备包括：存储器和处理器，其中：

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序，实现权利要求1～11任一所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1～11任一所述方法的步骤。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，计算机程序存储在计算机可读存储介质中；当所述计算机程序被处理器执行时，实现如权利要求1～11任一所述方法的步骤。