CN109711434B

CN109711434B - 获取和评估vqa系统的训练数据的方法、装置、设备和介质

Info

Publication number: CN109711434B
Application number: CN201811453504.3A
Authority: CN
Inventors: 黄苹苹; 乔敏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2021-07-09
Anticipated expiration: 2038-11-30
Also published as: CN109711434A

Abstract

本公开的实施例涉及用于获取和评估视觉问答(VQA)系统的训练数据的方法、装置、设备和介质。一种用于获取VQA系统的训练数据的方法包括识别VQA系统的训练图像中的对象，并从知识图谱中获得与识别的对象有关的信息。该方法还包括向训练数据提供方提供训练图像和信息，并从训练数据提供方获取用于训练VQA系统的一组训练数据，其中每个训练数据包括由训练数据提供方基于该信息而针对训练图像生成的问题和与问题相对应的回答。本公开的实施例借助于来自知识图谱的信息来降低VQA系统训练数据的生成难度，并且增加训练数据的多样性。此外，本公开的实施例还能够评估训练数据集中的问题对知识图谱中的信息的覆盖率，以作为衡量该训练数据集的质量的指标。

Description

获取和评估VQA系统的训练数据的方法、装置、设备和介质

技术领域

本公开的实施例涉及计算机领域，并且更具体地涉及用于获取和评估视觉问答(VQA)系统的训练数据的方法、装置、电子设备和计算机可读存储介质。

背景技术

VQA系统涉及计算机视觉、自然语言处理和知识表示(KR)等多领域，目前已成为人工智能研究的热点。针对给定的图像，VQA系统能够回答围绕该图像的问题。也就是说，VQA系统接收图像和针对该图像的问题作为输入，并且生成针对该问题的自然语言的答案作为输出。当前VQA系统通常基于有监督的机器学习方法来实现，其中利用大量的训练图像和围绕训练图像的问题和答案来作为训练数据，使得所训练的模型能够根据图像内容对问题进行回答。

目前，用于VQA系统的训练数据通常通过人工标注而获得。例如，针对给定训练图像，由标注人员对该图像提出问题并标注相应的答案。这种方式成本较高，并且人工提问的角度通常受到标注人员自身的知识和背景的影响。例如，所提出的问题通常是针对诸如颜色、个数或方向等视觉角度的提问，而缺乏需要常识或知识的推理性问题，因此导致经训练的VQA系统无法回答针对图片的较复杂的推理性问题。此外，传统方案无法实现对训练数据集的质量的量化评估。

发明内容

根据本公开的示例实施例，提供了用于获取和评估VQA系统的训练数据的方案。

在本公开的第一方面中，提供了一种用于获取VQA系统的训练数据的方法。该方法包括识别VQA系统的训练图像中的对象。该方法还包括从知识图谱中获得与识别的对象有关的信息。该方法还包括向训练数据提供方提供训练图像和信息。此外，该方法还包括从训练数据提供方获取用于训练VQA系统的一组训练数据，其中每个训练数据包括由训练数据提供方基于该信息而针对训练图像生成的问题和与问题相对应的回答。

在本公开的第二方面中，提供了一种用于评估VQA系统的训练数据的方法。该方法包括从训练数据提供方获取视觉问答系统的训练数据集，该训练数据集包括由训练数据提供方基于来自知识图谱的信息而针对多个训练图像生成的多组训练数据。该方法还包括确定每组训练数据对于来自知识图谱的信息的信息覆盖率。此外，该方法还包括基于多组训练数据的相应信息覆盖率，来确定训练数据集对于来自知识图谱的信息的信息覆盖率。

在本公开的第三方面中，提供了一种用于获取VQA系统的训练数据的装置。该装置包括：对象识别模块，被配置为识别VQA系统的训练图像中的对象；信息获取模块，被配置为从知识图谱中获得与识别的对象有关的信息；信息提供模块，被配置为向训练数据提供方提供训练图像和信息；以及训练数据获取模块，被配置为从训练数据提供方获取用于训练VQA系统的一组训练数据，其中每个训练数据包括由训练数据提供方基于该信息而针对训练图像生成的问题和与问题相对应的回答。

在本公开的第四方面中，提供了一种用于评估VQA系统的训练数据的装置。该装置包括：训练数据获取模块，被配置为从训练数据提供方获取视觉问答系统的训练数据集，该训练数据集包括由训练数据提供方基于来自知识图谱的信息而针对多个训练图像生成的多组训练数据；第一确定模块，被配置为确定每组训练数据对于来自知识图谱的信息的信息覆盖率；以及第二确定模块，被配置为基于多组训练数据的相应信息覆盖率，来确定训练数据集对于来自知识图谱的信息的信息覆盖率。

在本公开的第五方面中，提供了一种电子设备。该电子设备包括：一个或多个处理器；以及存储装置，用于存储一个或多个程序，当该一个或多个程序被一个或多个处理器执行，使得该一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第六方面中，提供了一种电子设备。该电子设备包括：一个或多个处理器；以及存储装置，用于存储一个或多个程序，当该一个或多个程序被一个或多个处理器执行，使得该一个或多个处理器实现根据本公开的第二方面的方法。

在本公开的第七方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

在本公开的第八方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第二方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了VQA系统的示例训练数据的示意图；

图2示出了本公开的实施例可以在其中实施的示例环境的示意图；

图3示出了根据本公开实施例的用于获取VQA系统的训练数据的方法的流程图；

图4A和图4B示出了根据本公开的实施例的以交互方式向训练数据提供方呈现训练图像及其关联信息的示意图；

图5示出了根据本公开实施例的VQA系统的示例训练数据的示意图；

图6示出了根据本公开的实施例的用于评估VQA系统的训练数据的方法的流程图；

图7示出了根据本公开实施例的用于获取VQA系统的训练数据的装置的框图；

图8示出了根据本公开的实施例的用于评估VQA系统的训练数据的装置的框图；以及

图9示出了可以实施本公开实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在VQA系统中，给定一副图像，需要VQA系统能够回答围绕这图像的问题，以考察系统对该图像的理解能力。当前VQA系统通常基于有监督的机器学习方法来实现，其中利用大量的训练图像和围绕训练图像的问题和答案来作为训练数据，使得所训练的模型能够根据图像内容对问题进行回答。VQA系统的训练数据可以利用图像I、问题Q和答案A组成的三元组{I,Q,A}来表示。

图1示出了VQA系统的示例训练数据的示意图。具体地，图1示出了训练图像110，以及针对该训练图像110的一组训练数据100。训练数据集100包括针对训练图像110而提出的一组问题121-1、121-2、121-3和121-4(统称为问题121)以及相应答案122-1、122-2、122-3和122-4(统称为答案122)。

在图像数据已给定的情况下，训练数据的数量、问题Q的质量和多样性将决定VQA系统的训练数据集的质量。能够全面考察认知能力和推理能力的训练数据集将有助于提供VQA系统对图片的理解能力，从而使得经训练的VQA系统能够回答针对图像的各种类型的问题。

在传统方案中，用于VQA系统的训练数据通常通过人工标注而获得。针对给定训练图像，由标注人员对该图像提出问题并标注相应的答案。这种方式成本较高，并且人工提问的角度通常受到标注人员自身的知识和背景的影响。例如，如图1中的示例所示，针对训练图像110所提出的问题通常是针对诸如个数或方向等视觉角度的简单提问，而缺乏需要常识或知识的推理性问题。这会导致经训练的VQA系统无法回答针对图片的较复杂的推理性问题。

此外，传统方案在对训练数据集进行评估时，缺乏对常识和知识覆盖角度的自动化定量的衡量方法，而仅通过训练数据集中问题的数量、问题类型分布等字面特征进行评估，无法准确衡量训练数据集的质量。

根据本公开的实施例，提出了一种用于获取和评估VQA系统的训练数据的方案。该方案借助于来自知识图谱的信息来降低VQA系统训练数据的生成难度，并且增加训练数据的多样性。此外，该方案能够评估训练数据集中的问题对知识图谱中的信息的覆盖率，以作为衡量该训练数据集的质量的指标。

以下将参照附图来具体描述本公开的实施例。

图2示出了本公开的实施例可以在其中实施的示例环境200的示意图。如图2所示，示例环境200总体上可以包括训练数据获取装置220、VQA模型训练装置240和训练数据评估装置250。例如，训练数据获取装置220、VQA模型训练装置240和训练数据评估装置250中的至少一些装置可以被实现在同一物理设备中。备选地，训练数据获取装置220、VQA模型训练装置240和训练数据评估装置250可以分别被实现在不同的物理设备中。应当理解，在图2中仅出于示例性的目的描述环境200的结构和功能，而不暗示对于本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的环境中。

训练数据获取装置220可以获取针对VQA系统的训练图像(例如，如图1所示的训练图像110)。训练数据获取装置220可以识别该训练图像中的一个或多个对象。在此所述的“对象”包括但不限于人物、动物、物体、场景等。

训练数据获取装置220可以通过查询知识图谱230来获得与所识别的一个或多个对象有关的信息。在此所述的“知识图谱”也被称为“知识库”，其用于描述真实世界中存在的各种实体和概念、它们之间的关系以及它们各自的属性。在此所述的“关系”指代两个实体之间的关联，例如姚明和叶莉之间的关系为夫妻。在此所述的“属性”指代实体本身的性质。以人物为例，其属性可以包括年龄、身高、体重、性别等。例如，知识图谱230可以是任何已有或将要开发的知识图谱，包括但不限于Freebase、DBpedia、YAGO、Open InformationExtraction(Open IE)、Never-Ending Language Learning(NELL)，等等。例如，训练数据获取装置220可以从知识图谱230中获得与训练图像中的对象有关的属性和/或关系信息。

训练数据获取装置220可以将从知识图谱230获得的与所识别对象有关的信息、连同训练图像一起提供给训练数据提供方210。训练数据提供方210可以是能够针对训练图像进行提问并生成答案的任何实体，包括但不限于任何设备、机器、个人或者平台(例如，众包平台等)。在一些情况下，当训练数据提供方210作为设备被实施时，其可以与训练数据获取装置220被实施在同一物理设备处或者不同的物理设备处。

训练数据提供方210可以基于来自知识图谱230的信息针对训练图像进行提问和回答，由此生成训练数据201，并将其返回给训练数据获取装置220。

训练数据获取装置220可以将训练数据201提供给VQA模型训练装置240，以用于训练VQA模型202。例如，经训练的VQA模型202能够被用于回答针对输入图像而提出的问题。附加地或者备选地，训练数据获取装置220还可以将训练数据201提供给训练数据评估装置250，以进行训练数据质量评估。训练数据评估装置250可以对训练数据201进行评估，以生成评估结果203。例如，评估结果203可以指示训练数据201对知识图谱中与训练图像中的对象相关联的信息的覆盖率。

图3示出了根据本公开实施例的用于获取VQA系统的训练数据的方法300的流程图。例如，方法300可以由如图2所示的训练数据获取装置220来执行。以下将结合图2来详细描述方法300。应当理解，方法300还可以包括未示出的附加框和/或可以省略所示出的框。本公开的范围在此方面不受限制。

在框310处，训练数据获取装置220识别VQA系统的训练图像中的对象。在一些实施例中，训练数据获取装置220可以利用任何图像分类和对象检测手段来识别训练图像中的对象。在一些实施例中，训练数据获取装置220可以识别训练图像中的一个或多个对象，包括但不限于人物、动物、物体、场景等。以如图1所示的训练图像110为例，例如，训练数据获取装置220可以识别训练图像110中的诸如长颈鹿、户外场景、动物园等对象。

在框320处，训练数据获取装置220从知识图谱230获得与识别的对象有关的信息。在一些实施例中，训练数据获取装置220可以从知识图谱230中获得对象的属性信息，该属性信息例如指示对象的一个或多个属性及其相应属性值。例如，以如图1所示的训练图像110中的对象“长颈鹿”为例，训练数据获取装置220可以从知识图谱230获得长颈鹿的如下属性信息：其保育状态(conservation status)为“易危”、其所属的界(kindom)为“动物界”、其所属的门(Phylum)为“脊索动物门”等等。附加地或者备选地，除了属性信息之外，训练数据获取装置220还可以从知识图谱230中获得对象的关系信息，该关系信息例如指示该对象与一个或多个其他对象的一个或多个关系。以如图1所示的训练图像110中的对象“长颈鹿”为例，训练数据获取装置220可以从知识图谱230获得例如长颈鹿与树叶的关系，即树叶是长颈鹿的食物。

在框330处，训练数据获取装置220向训练数据提供方210提供训练图像和从知识图谱230获得的信息。然后，在框340处，训练数据获取装置220可以从训练数据提供方210获取用于训练VQA的一组训练数据，其中每个训练数据包括训练数据提供方210基于来自知识图谱230的信息而针对训练图像提出的问题和相应回答。

在一些实施例中，训练数据获取装置220可以向训练数据提供方210提供对象的属性信息和/或关系信息，以作为训练数据提供方210针对训练图像进行提问时的参考。在一些实施例中，训练数据获取装置220可以以可视化方式向训练数据提供方210呈现训练图像及其相关联的信息，以便于训练数据提供方210在针对训练图像进行提问时能够方便地查看。例如，训练数据获取装置220可以利用各种标记将从知识图谱230获得的信息标记在训练图像上，并且将经过标记的训练图像提供给训练数据提供方210。

附加地或者备选地，在一些实施例中，训练数据获取装置220还可以以交互方式向训练数据提供方210呈现训练图像及其关联的信息。例如，在初始情况下，训练数据获取装置220可以以第一标记方式将从知识图谱230获得的信息标记在训练图像上，并且向训练数据提供方210提供以第一标记方式标记的训练图像。训练数据提供方210可以针对以第一标记方式标记的训练图像进行提问和回答，以生成训练数据(本文也称为“第一训练数据”)。训练数据提供方210可以将生成的第一训练数据返回给训练数据获取装置220。

当从训练数据提供方210获取到第一训练数据时，训练数据获取装置220可以确定第一训练数据(例如，第一训练数据中的提问或回答)是否涉及从知识图谱230获得的属性和/或关系信息中的至少一部分信息。如果第一训练数据涉及从知识图谱230获得的属性和/或关系信息中的至少一部分信息，则训练数据获取装置220可以以不同于第一标记方式的第二标记方式来将从知识图谱230获得的信息重新标记在训练图像上。例如，训练数据获取装置220可以以不同方式分别标记训练数据提供方210的提问已涉及的信息和尚未涉及的信息。具体地，训练数据获取装置220可以突出显示训练数据提供方210的提问尚未涉及的属性和/或关系信息。训练数据获取装置220可以将经重新标记的训练图像再次提供给训练数据提供方210，以提示训练数据提供方210尽可能涉及与训练图像的对象有关的更多属性和/或关系，从而提高训练数据的多样性。

图4A和图4B示出了根据本公开的实施例的以交互方式向训练数据提供方呈现训练图像及其关联信息的示意图。如图4A所示，假设训练数据获取装置220可以从知识图谱230中获得关于训练图像110中的“长颈鹿”的信息410，其包括属性411、属性412、属性413、属性414、关系415和关系416等。训练数据获取装置220可以利用各种标记将属性411、属性412、属性413、属性414、关系415和关系416分别标记在训练图像110上。例如，在训练数据获取装置220尚未从训练数据提供方210获取到涉及属性411、属性412、属性413、属性414、关系415和关系416中的任一项的训练数据时，训练数据获取装置220可以以相同方式(如，利用如图4A所示的实线框)来标记这些属性和关系。

当训练数据获取装置220从训练数据提供方210接收到涉及属性411、属性412、属性413、属性414、关系415和关系416中的至少一项的训练数据时，训练数据获取装置220可以更改信息标记方式。如图4B所示，假设训练数据获取装置220已经从训练数据提供方210接收到涉及属性412、属性413和关系415的训练数据。在此情况下，训练数据获取装置220可以以不同方式分别标记训练数据提供方210的提问已涉及的属性和/或关系信息和尚未涉及的属性和/或关系信息。例如，如图4B所示，训练数据获取装置220可以突出显示(如，利用实线框来标记、加粗等)训练数据提供方210的提问尚未涉及的属性411、属性414和关系416，而弱化训练数据提供方210的提问已涉及的属性412、属性413和关系415的显示(如，利用虚线框来标记、淡化等)。

应当理解，图4A和4B中的标记和呈现方式仅出于示例性目的示出，而不旨在限制本公开的范围。可以设想到，在其他实施例中，可以利用与图4A和4B所示不同的标记和呈现方式来向训练数据提供方210提供训练图像及其关联信息，以辅助训练数据的生成。此外，可以利用与图4A和4B所示不同的方式来向训练数据提供方210提示其提问应当尽可能涉及与训练图像中的对象有关的更多类型的信息，从而提高生成的训练数据的多样性。

图5示出了根据本公开的实施例的示例训练数据的示意图。图5示出了基于如图1所示的训练图像110和从知识图谱230中获得关于训练图像110中的对象“长颈鹿”的信息410而生成的一组训练数据500。该组训练数据500包括针对训练图像110的一组问题511-1、511-2、121-1、121-2、121-3和121-4以及相应答案512-1、512-2、122-1、122-2、122-3和122-4。如图5所示，问题511-1和511-2涉及信息410中的两条属性信息，即长颈鹿的保育状态和所属的门。此外，该组训练数据中还包括如图1所示的问题121和答案122。与如图1所示的训练数据集100相比，训练数据集500除了包括视觉角度的提问之外还包括需要常识或知识的推理性问题，因此具有更好的多样性，有助于提供VQA系统对图片的理解能力。

以上描述了如何获取VQA系统的训练数据集。以下将进一步讨论如果对所获取的训练数据集进行评估。如上所述，传统方案在对训练数据集进行评估时，缺乏对常识和知识覆盖角度的自动化定量的衡量方法，而仅通过训练数据集中问题的数量、问题类型分布等字面特征进行评估，无法准确衡量训练数据集的质量。本公开的实施例能够评估训练数据集中的问题对知识图谱中的信息的覆盖率，以作为衡量该训练数据集的质量的指标。

图6示出了根据本公开的实施例的用于评估VQA系统的训练数据的方法600的流程图。例如，方法600可以由如图2所示的训练数据评估装置250来执行。以下将结合图2来详细描述方法600。应当理解，方法600还可以包括未示出的附加框和/或可以省略所示出的框。本公开的范围在此方面不受限制。

在框610处，训练数据评估装置250获取来自训练数据提供方210的训练数据集。例如，训练数据评估装置250可以从训练获取装置220获取通过如图3所示的方法300而得到的训练数据集。该训练数据集可以包括由训练数据提供方210基于来自知识图谱230的信息而针对多个训练图像生成的多组训练数据。针对每个训练图像的一组训练数据包括训练数据提供方210针对该训练图像提出的多个问题和相应回答。应当理解，在一些实施例中，训练数据评估装置250和训练获取装置220可以被实现在同一物理设备处。在此情况下，训练数据评估装置250例如可以直接从训练数据提供方210获取用于训练VQA系统的训练数据。

在框620处，训练数据评估装置250确定针对每个训练图像的一组训练数据对于来自知识图谱230的信息的信息覆盖率。以此方式，训练数据评估装置250能够确定针对多个训练图像的多组训练数据的相应信息覆盖率。

在一些实施例中，针对多个训练图像之一(例如，如图1所示的训练图像110)，训练数据评估装置250可以确定知识图谱230中与训练图像110中的对象相关联的属性的数量(本文中也称为“第一数量”)、关系的数量(本文中也称为“第三数量”)和/或属性和关系的数量总和(即，第一数量和第三数量的总和)。例如，训练数据评估装置250可以从训练数据获取装置220或直接从知识图谱230得到关于第一数量和/或第三数量的信息。训练数据评估装置250可以进一步确定针对该训练图像110的一组训练数据中所涉及的与该训练图像中的对象相关联的属性的数量(本文中也称为“第二数量”)、关系的数量(本文中也称为“第四数量”)和/或属性和关系的数量总和(即，第二数量和第四数量的总和)。训练数据评估装置250可以将第二数量和第一数量的比值、第四数量和第三数量的比值、或者第二数量和第四数量的总和与第一数量和第三数量的总和的比值这三者中的任一项，或者这三者的平均值确定为针对该训练图像的一组训练数据的信息覆盖率。

在框630处，训练数据评估装置250基于多组训练数据的相应信息覆盖率，来确定训练数据集对于来自知识图谱的信息的信息覆盖率。在一些实施例中，训练数据评估装置250可以确定多组训练数据的相应信息覆盖率的平均值，以作为训练数据集的信息覆盖率。

以此方式，本公开的实施例能够从常识和知识覆盖角度来自动定量地衡量训练数据集对于知识图谱中的知识的覆盖率，从而能够准确地衡量训练数据集的质量。

本公开的实施例还提供了用于实现上述方法或过程的相应装置。

图7示出了根据本公开实施例的用于获取VQA系统的训练数据的装置700的示意性框图。该装置700可以在例如图2中的训练数据获取装置220处实施。如图7所示，装置700可以包括对象识别模块710，被配置为识别VQA系统的训练图像中的对象；信息获取模块720，被配置为从知识图谱中获得与识别的对象有关的信息；信息提供模块730，被配置为向训练数据提供方提供训练图像和信息；以及训练数据获取模块740，被配置为从训练数据提供方获取用于训练VQA系统的一组训练数据，其中每个训练数据包括由训练数据提供方基于该信息而针对训练图像生成的问题和与问题相对应的回答。

在一些实施例中，信息获取模块720还被配置为：从知识图谱中获得对象的属性信息，属性信息指示该对象的一个或多个属性和该一个或多个属性的相应值。

在一些实施例中，信息获取模块720还被配置为：从知识图谱中获得对象的关系信息，关系信息指示该对象与其他对象之间的一个或多个关系。

在一些实施例中，信息提供模块730包括：第一标记单元，被配置为以第一标记方式将信息标记在训练图像上；以及第一提供单元，被配置为向训练数据提供方提供以第一标记方式标记的训练图像。训练数据获取模块740包括第一获取单元，被配置为从训练数据提供方获取一组训练数据中的第一训练数据，第一训练数据包括由训练数据提供方针对以第一标记方式标记的训练图像提出的第一问题和与第一问题相对应的第一回答。

在一些实施例中，信息提供模块730还包括：确定单元，被配置为响应于从训练数据提供方获取到第一训练数据，确定第一训练数据是否涉及信息中的至少一部分信息；第二标记单元，被配置为响应于确定第一训练数据涉及信息中的至少一部分信息，以不同于第一标记方式的第二标记方式将信息重新标记在训练图像上；以及第二提供单元，被配置为向训练数据提供方提供以第二标记方式重新标记的训练图像。训练数据获取模块740还包括第二获取单元，被配置为从训练数据提供方获取一组训练数据中的第二训练数据，第二训练数据包括由训练数据提供方针对以第二标记方式重新标记的训练图像提出的第二问题和与第二问题相对应的第二回答。

在一些实施例中，信息至少包括第一信息和第二信息，并且第一标记单元还被配置为：以相同方式将第一信息和第二信息分别标记在训练图像上。

在一些实施例中，信息至少包括第一信息和第二信息，并且第二标记单元还被配置为：响应于确定第一训练数据涉及第一信息而不涉及第二信息，以不同方式将第一信息和第二信息分别标记在训练图像上。

在一些实施例中，第二标记单元还被配置为：相对于第一信息以更突出的方式将第二信息标记在训练图像上。

图8示出了根据本公开实施例的用于评估VQA系统的训练数据的装置800的示意性框图。该装置800可以在例如图2中的训练数据评估装置250处实施。如图8所示，装置800可以包括训练数据获取模块810，被配置为从训练数据提供方获取视觉问答系统的训练数据集，该训练数据集包括由训练数据提供方基于来自知识图谱的信息而针对多个训练图像生成的多组训练数据；第一确定模块820，被配置为确定每组训练数据对于来自知识图谱的信息的信息覆盖率；以及第二确定模块830，被配置为基于多组训练数据的相应信息覆盖率，来确定训练数据集对于来自知识图谱的信息的信息覆盖率。

在一些实施例中，多个训练图像包括第一训练图像，多组训练数据包括针对第一训练图像生成的第一组训练数据，并且第一确定模块820包括：第一确定单元，被配置为确定知识图谱中与第一训练图像中的至少一个对象相关联的属性的第一数量；第二确定单元，被配置为确定第一组训练数据所涉及的与至少一个对象相关联的属性的第二数量；以及第三确定单元，被配置为确定第二数量和第一数量的第一比值，以作为第一组训练数据的第一信息覆盖率。

在一些实施例中，多个训练图像包括第二训练图像，多组训练数据包括针对第二训练图像生成的第二组训练数据，并且第一确定模块820包括：第四确定单元，被配置为确定知识图谱中与第二训练图像中的至少一个对象相关联的关系的第三数量；第五确定单元，被配置为确定第二组训练数据所涉及的与至少一个对象相关联的关系的第四数量；以及第六确定单元，被配置为确定第四数量和第三数量的第二比值，以作为第二组训练数据的第二信息覆盖率。

在一些实施例中，第二确定模块830还被配置为：确定多组训练数据的相应信息覆盖率的平均值，以作为训练数据集的信息覆盖率。

应当理解，装置700和/或800中记载的每个模块分别与参考图3和/或6描述的方法300和/或600中的每个步骤相对应，并且与方法300和/或600中的相应操作和特征具有同样的效果，具体细节不再赘述。

此外，装置700和/或800中所包括的模块和/或单元可以利用各种方式来实现，包括软件、硬件、固件或其任意组合。在一些实施例中，一个或多个单元可以使用软件和/或固件来实现，例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代，装置700和/或800中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制，可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)，等等。

图7和/或图8中所示的这些模块和/或单元可以部分或者全部地实现为硬件模块、软件模块、固件模块或者其任意组合。特别地，在某些实施例中，上文描述的流程、方法或过程可以由存储系统或与存储系统对应的主机或独立于存储系统的其它计算设备中的硬件来实现。

图9示出了可以用来实施本公开的实施例的示例设备900的示意性框图。设备900可以用于实现如图1所述的训练数据获取装置220、VQA模型训练装置240和/或训练数据评估装置250。如图所示，设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元901执行上文所描述的各个方法和处理，例如方法300和/或600。例如，在一些实施例中，方法300和/或600可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由CPU901执行时，可以执行上文描述的方法300和/或600的一个或多个步骤。备选地，在其他实施例中，CPU 901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法300和/或600。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于获取视觉问答系统的训练数据的方法，包括：

识别视觉问答系统的训练图像中的对象；

从知识图谱中获得与识别的所述对象有关的信息；

向训练数据提供方提供以多种标记方式标记有所述信息的所述训练图像；以及

从所述训练数据提供方获取用于训练所述视觉问答系统的一组训练数据，其中每个训练数据包括由所述训练数据提供方针对以所述多种标记方式之一标记有所述信息的所述训练图像提出的问题和与所述问题相对应的回答。

2.根据权利要求1所述的方法，其中从所述知识图谱获得所述信息包括：

从所述知识图谱中获得所述对象的属性信息，所述属性信息指示所述对象的一个或多个属性和所述一个或多个属性的相应值。

3.根据权利要求1所述的方法，其中从所述知识图谱获得所述信息包括：

从所述知识图谱中获得所述对象的关系信息，所述关系信息指示所述对象与其他对象之间的一个或多个关系。

4.根据权利要求1所述的方法，其中

向所述训练数据提供方提供以多种标记方式标记有所述信息的所述训练图像包括：

以第一标记方式将所述信息标记在所述训练图像上；以及

向所述训练数据提供方提供以所述第一标记方式标记的所述训练图像；并且

获取所述一组训练数据包括：

从所述训练数据提供方获取所述一组训练数据中的第一训练数据，所述第一训练数据包括由所述训练数据提供方针对以所述第一标记方式标记的所述训练图像提出的第一问题和与所述第一问题相对应的第一回答。

5.根据权利要求4所述的方法，其中

向所述训练数据提供方提供以多种标记方式标记有所述信息的所述训练图像还包括：

响应于从所述训练数据提供方获取到所述第一训练数据，确定所述第一训练数据是否涉及所述信息中的至少一部分信息；

响应于确定所述第一训练数据涉及所述信息中的所述至少一部分信息，以不同于所述第一标记方式的第二标记方式将所述信息重新标记在所述训练图像上；以及

向所述训练数据提供方提供以所述第二标记方式重新标记的所述训练图像；并且

获取所述一组训练数据还包括：

从所述训练数据提供方获取所述一组训练数据中的第二训练数据，所述第二训练数据包括由所述训练数据提供方针对以所述第二标记方式重新标记的所述训练图像提出的第二问题和与所述第二问题相对应的第二回答。

6.根据权利要求4所述的方法，其中所述信息至少包括第一信息和第二信息，并且以所述第一标记方式对所述训练图像进行标记包括：

以相同方式将所述第一信息和所述第二信息分别标记在所述训练图像上。

7.根据权利要求5所述的方法，其中所述信息至少包括第一信息和第二信息，并且以所述第二标记方式对所述训练图像进行重新标记包括：

响应于确定所述第一训练数据涉及所述第一信息而不涉及所述第二信息，以不同方式将所述第一信息和所述第二信息分别标记在所述训练图像上。

8.根据权利要求7所述的方法，其中以不同方式将所述第一信息和所述第二信息分别标记在所述训练图像上包括：

相对于所述第一信息以更突出的方式将所述第二信息标记在所述训练图像上。

9.一种用于评估视觉问答系统的训练数据的方法，包括：

从训练数据提供方获取视觉问答系统的训练数据集，所述训练数据集包括由所述训练数据提供方基于来自知识图谱的信息而针对多个训练图像生成的多组训练数据；

确定每组训练数据对于来自所述知识图谱的信息的信息覆盖率；以及

基于所述多组训练数据的相应信息覆盖率，来确定所述训练数据集对于来自所述知识图谱的信息的信息覆盖率。

10.根据权利要求9所述的方法，其中所述多个训练图像包括第一训练图像，所述多组训练数据包括针对所述第一训练图像生成的第一组训练数据，并且确定每组训练数据的信息覆盖率包括：

确定所述知识图谱中与所述第一训练图像中的至少一个对象相关联的属性的第一数量；

确定所述第一组训练数据所涉及的与所述至少一个对象相关联的属性的第二数量；以及

确定所述第二数量和所述第一数量的第一比值，以作为所述第一组训练数据的第一信息覆盖率。

11.根据权利要求9所述的方法，其中所述多个训练图像包括第二训练图像，所述多组训练数据包括针对所述第二训练图像生成的第二组训练数据，并且确定每组训练数据的信息覆盖率包括：

确定所述知识图谱中与所述第二训练图像中的至少一个对象相关联的关系的第三数量；

确定所述第二组训练数据所涉及的与所述至少一个对象相关联的关系的第四数量；以及

确定所述第四数量和所述第三数量的第二比值，以作为所述第二组训练数据的第二信息覆盖率。

12.根据权利要求9所述的方法，其中确定所述训练数据集的信息覆盖率包括：

确定所述多组训练数据的相应信息覆盖率的平均值，以作为所述训练数据集的所述信息覆盖率。

13.一种用于获取视觉问答系统的训练数据的装置，包括：

对象识别模块，被配置为识别视觉问答系统的训练图像中的对象；

信息获取模块，被配置为从知识图谱中获得与识别的所述对象有关的信息；

信息提供模块，被配置为向训练数据提供方提供以多种标记方式标记有所述信息的所述训练图像；以及

训练数据获取模块，被配置为从所述训练数据提供方获取用于训练所述视觉问答系统的一组训练数据，其中每个训练数据包括由所述训练数据提供方针对以所述多种标记方式之一标记有所述信息的所述训练图像提出的问题和与所述问题相对应的回答。

14.根据权利要求13所述的装置，其中所述信息获取模块还被配置为：

15.根据权利要求13所述的装置，其中所述信息获取模块还被配置为：

16.根据权利要求13所述的装置，其中

所述信息提供模块包括：

第一标记单元，被配置为以第一标记方式将所述信息标记在所述训练图像上；以及

第一提供单元，被配置为向所述训练数据提供方提供以所述第一标记方式标记的所述训练图像；并且

所述训练数据获取模块包括：

第一获取单元，被配置为从所述训练数据提供方获取所述一组训练数据中的第一训练数据，所述第一训练数据包括由所述训练数据提供方针对以所述第一标记方式标记的所述训练图像提出的第一问题和与所述第一问题相对应的第一回答。

17.根据权利要求16所述的装置，其中

所述信息提供模块还包括：

确定单元，被配置为响应于从所述训练数据提供方获取到所述第一训练数据，确定所述第一训练数据是否涉及所述信息中的至少一部分信息；

第二标记单元，被配置为响应于确定所述第一训练数据涉及所述信息中的所述至少一部分信息，以不同于所述第一标记方式的第二标记方式将所述信息重新标记在所述训练图像上；以及

第二提供单元，被配置为向所述训练数据提供方提供以所述第二标记方式重新标记的所述训练图像；并且

所述训练数据获取模块还包括：

第二获取单元，被配置为从所述训练数据提供方获取所述一组训练数据中的第二训练数据，所述第二训练数据包括由所述训练数据提供方针对以所述第二标记方式重新标记的所述训练图像提出的第二问题和与所述第二问题相对应的第二回答。

18.根据权利要求16所述的装置，其中所述信息至少包括第一信息和第二信息，并且所述第一标记单元还被配置为：

19.根据权利要求17所述的装置，其中所述信息至少包括第一信息和第二信息，并且所述第二标记单元还被配置为：

20.根据权利要求19所述的装置，其中所述第二标记单元还被配置为：

21.一种用于评估视觉问答系统的训练数据的装置，包括：

训练数据获取模块，被配置为从训练数据提供方获取视觉问答系统的训练数据集，所述训练数据集包括由所述训练数据提供方基于来自知识图谱的信息而针对多个训练图像生成的多组训练数据；

第一确定模块，被配置为确定每组训练数据对于来自所述知识图谱的信息的信息覆盖率；以及

第二确定模块，被配置为基于所述多组训练数据的相应信息覆盖率，来确定所述训练数据集对于来自所述知识图谱的信息的信息覆盖率。

22.根据权利要求21所述的装置，其中所述多个训练图像包括第一训练图像，所述多组训练数据包括针对所述第一训练图像生成的第一组训练数据，并且所述第一确定模块包括：

第一确定单元，被配置为确定所述知识图谱中与所述第一训练图像中的至少一个对象相关联的属性的第一数量；

第二确定单元，被配置为确定所述第一组训练数据所涉及的与所述至少一个对象相关联的属性的第二数量；以及

第三确定单元，被配置为确定所述第二数量和所述第一数量的第一比值，以作为所述第一组训练数据的第一信息覆盖率。

23.根据权利要求21所述的装置，其中所述多个训练图像包括第二训练图像，所述多组训练数据包括针对所述第二训练图像生成的第二组训练数据，并且所述第一确定模块包括：

第四确定单元，被配置为确定所述知识图谱中与所述第二训练图像中的至少一个对象相关联的关系的第三数量；

第五确定单元，被配置为确定所述第二组训练数据所涉及的与所述至少一个对象相关联的关系的第四数量；以及

第六确定单元，被配置为确定所述第四数量和所述第三数量的第二比值，以作为所述第二组训练数据的第二信息覆盖率。

24.根据权利要求21所述的装置，其中所述第二确定模块还被配置为：

25.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现根据权利要求1-8中任一项所述的方法。

26.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现根据权利要求9-12中任一项所述的方法。

27.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-8中任一项所述的方法。

28.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求9-12中任一项所述的方法。