CN117690004B

CN117690004B - 图文数据质量的确定方法、装置、电子设备及存储介质

Info

Publication number: CN117690004B
Application number: CN202410137998.3A
Authority: CN
Inventors: 张攀; 张鹏飞; 苏江
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2024-09-06
Anticipated expiration: 2044-02-01
Also published as: CN117690004A

Abstract

本申请提供了图文数据质量的确定方法、装置、电子设备及存储介质，将获取到的目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到与目标图片数据对应的第一场景图；将目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到与目标文本数据对应的第二场景图；计算第一场景图与第二场景图之间的目标F1分数；若目标F1分数大于预设分数阈值，确定目标图文数据的数据质量符合预设数据质量标准。这样，目标图文数据中的目标图片数据以及目标文本数据，得到对应的第一场景图以及第二场景图，直接通过生成的第一场景图以及第二场景图，对图文数据质量进行确定，有助于提升图文数据质量确定的准确率。

Description

图文数据质量的确定方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其是涉及图文数据质量的确定方法、装置、电子设备及存储介质。

背景技术

随着科技的发展，多模态研究方兴未艾，而图像描述技术作为连接不同模态(图像与文本)之间的桥梁变得至关重要。对于图像描述系统生成的描述结果，需要用量化的评判标准评价其生成质量，这就是图像描述的质量评估。图像描述的评估已经成为了图像描述领域一个被广泛研究和讨论的问题。

相关技术中，提出了通过场景图（SG）对图像质量进行判定的方案，通过CLIP模型将图文数据向量化，对于图片SG和文本SG的匹配是基于向量计算的，但是，上述方式对于语义相近但是类别不同的标签的计算是不够精确的，即，相关技术依旧存在对于图文数据质量的判定的准确率较低的问题。

发明内容

有鉴于此，本申请的目的在于提供图文数据质量的确定方法、装置、电子设备及存储介质，将目标图文数据中的目标图片数据以及目标文本数据，得到对应的第一场景图以及第二场景图，直接通过生成的第一场景图以及第二场景图，对图文数据质量进行确定，有助于提升图文数据质量确定的准确率。

第一方面，本申请实施例提供了一种图文数据质量的确定方法，所述确定方法包括：

获取生成的目标图文数据；

将所述目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到与所述目标图片数据对应的第一场景图；

将所述目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到与所述目标文本数据对应的第二场景图；

计算所述第一场景图与所述第二场景图之间的目标F1分数；

若所述目标F1分数大于预设分数阈值，确定所述目标图文数据的数据质量符合预设数据质量标准。

在一种可能的实施方式中，当所述目标图文数据为一对时，所述计算所述第一场景图与所述第二场景图之间的目标F1分数，包括：

计算所述第一场景图生成模型以及所述第二场景图生成模型对应的精确率以及召回率；

基于所述精确率以及所述召回率，确定所述目标F1分数。

在一种可能的实施方式中，当所述目标图文数据为多对时，生成多张第一场景图以及多张第二场景图；所述计算所述第一场景图与所述第二场景图之间的目标F1分数，包括：

计算每张第一场景图以及每张第二场景图从所述第一场景图生成模型以及所述第二场景图生成模型输出后，对应的模型F1分数；

将多个模型F1分数的平均值确定为所述目标F1分数。

在一种可能的实施方式中，通过以下步骤训练所述第一场景图生成模型以及所述第二场景图生成模型：

获取对样本图文数据集筛选后的多个目标样本数据；

对每个所述目标样本数据进行标注，得到每个目标样本数据对应的标签；其中，所述目标样本数据对应的标签包括场景图标签、图片风格标签以及图片属性标签；

将所述目标样本数据中的图片数据以及对应的标签输入至预先构建好的第一神经网络中，对所述第一神经网络进行训练，当所述第一神经网络的损失函数值小于第一预设阈值时，确定所述第一神经网络训练结束，得到所述第一场景图生成模型；

将所述目标样本数据中的文本数据以及对应的标签输入至预先构建好的第二神经网络中，对所述第二神经网络进行训练，当所述第二神经网络的损失函数值小于第二预设阈值时，确定所述第二神经网络训练结束，得到所述第二场景图生成模型。

在一种可能的实施方式中，当所述样本图文数据为图生文类数据时，所述获取对样本图文数据集筛选后的多个目标样本数据，包括：

针对于样本图文数据集中每个样本图文数据，将该样本图文数据的样本文本数据输入至预先训练好的文生图模型中，得到预测图片数据；

针对于每个样本图文数据，分别对所述预测图片数据以及所述样本图文数据中的样本图片数据进行编码，计算编码后的预测图片向量与样本图片向量之间的第一距离；

将所述样本图文数据集中第一距离大于预设距离阈值的样本图文数据滤除，确定多个目标样本数据。

在一种可能的实施方式中，当所述样本图文数据为文生图类数据时，所述获取对样本图文数据集筛选后的多个目标样本数据，包括：

针对于样本图文数据集中每个样本图文数据，将该样本图文数据中的样本图片数据输入至预先训练好的图生文模型中，得到预测文本数据；

针对于每个样本图文数据，分别对所述预测文本数据以及所述样本图文数据中的样本文本数据进行编码，计算编码后的预测文本向量与样本文本向量之间的第二距离；

将所述样本图文数据集中第二距离大于预设距离阈值的样本图文数据滤除，确定多个目标样本数据。

在一种可能的实施方式中，当所述样本图文数据为图文生成图文类数据时，所述获取对样本图文数据集筛选后的多个目标样本数据，包括：

针对于样本图文数据集中每个样本图文数据，将该样本图文数据的样本文本数据输入至预先训练好的文生图模型中，得到预测图片数据后，计算编码后的预测图片向量与样本图片向量之间的第一距离；

针对于样本图文数据集中每个样本图文数据，将该样本图文数据的样本图片数据输入至预先训练好的图生文模型中，得到预测文本数据后，计算编码后的预测文本向量与样本文本向量之间的第二距离；

确定样本图文数据集中第一距离小于预设距离阈值的第一样本数据集，以及样本图文数据集中第二距离小于预设距离阈值的第二样本数据集；

将所述第一样本数据集与所述第二样本数据集交集中包括的多个样本图文数据，确定为多个目标样本数据。

第二方面，本申请实施例还提供了一种图文数据质量的确定装置，所述确定装置包括：

数据获取模块，用于获取生成的目标图文数据；

第一场景图生成模块，用于将所述目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到与所述目标图片数据对应的第一场景图；

第二场景图生成模块，用于将所述目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到与所述目标文本数据对应的第二场景图；

分数计算模块，用于计算所述第一场景图与所述第二场景图之间的目标F1分数；

质量确定模块，用于若所述目标F1分数大于预设分数阈值，确定所述目标图文数据的数据质量符合预设数据质量标准。

第三方面，本申请实施例还提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如第一方面任一项所述的图文数据质量的确定方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面任一项所述的图文数据质量的确定方法。

本申请实施例提供的图文数据质量的确定方法、装置、电子设备及存储介质，获取生成的目标图文数据；将目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到与目标图片数据对应的第一场景图；将目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到与目标文本数据对应的第二场景图；计算第一场景图与第二场景图之间的目标F1分数；若目标F1分数大于预设分数阈值，确定目标图文数据的数据质量符合预设数据质量标准。这样，目标图文数据中的目标图片数据以及目标文本数据，得到对应的第一场景图以及第二场景图，直接通过生成的第一场景图以及第二场景图，对图文数据质量进行确定，有助于提升图文数据质量确定的准确率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种图文数据质量的确定方法的流程图；

图2为本申请实施例所提供的图文数据质量判别的流程图；

图3为本申请实施例所提供的模型训练流程图；

图4为本申请实施例所提供的一种图文数据质量的确定装置的结构示意图之一；

图5为本申请实施例所提供的一种图文数据质量的确定装置的结构示意图之二；

图6为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于数据处理技术领域。

对于图像描述质量评估问题，最直接的解决方法是人工评测，即业内专家逐个对图像描述系统生成的描述句子打分。人工打分的维度主要从一致性、流利性和丰富度来进行考量。但人工评测需要投入大量的人工成本，因此，自动进行图像质量描述的方式出现。

基于此，本申请实施例提供了一种图文数据质量的确定方法，以提升图文数据质量确定的准确率。

请参阅图1，图1为本申请实施例所提供的一种图文数据质量的确定方法的流程图。如图1中所示，本申请实施例提供的图文数据质量的确定方法，包括：

S101、获取生成的目标图文数据。

S102、将所述目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到与所述目标图片数据对应的第一场景图。

S103、将所述目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到与所述目标文本数据对应的第二场景图。

S104、计算所述第一场景图与所述第二场景图之间的目标F1分数。

S105、若所述目标F1分数大于预设分数阈值，确定所述目标图文数据的数据质量符合预设数据质量标准。

本申请实施例所提供的图文数据质量的确定方法，将目标图文数据中的目标图片数据以及目标文本数据，得到对应的第一场景图以及第二场景图，直接通过生成的第一场景图以及第二场景图，对图文数据质量进行确定，有助于提升图文数据质量确定的准确率。

下面对本申请实施例示例性的各步骤进行说明：

S101、获取生成的目标图文数据。

在本申请实施例中，获取到的目标图文数据是图文对形式，可以记为<Image,text>，在计算机视觉领域，存在大量使用图文对进行模型训练的任务，因此，获取到的图文数据的质量将在一定程度上影响模型训练任务的准确性。

在一种可能的实施方式中，获取到的目标图文数据可以是文生图模型和/或图生文模型生成的；还可以是图文生成图文模型生成的；还可以是和直接从网页中提取得到的；或者是生成的场景图对应的图文数据。

其中，文生图模型为输入文本，输出图片的模型。示例性地，当前领域内比较常见的文生图模型为Stable Diffusion、DALL-E等扩散模型；可以基于上述扩散模型得到的图片。

其中，图生文模型为输入图片，按照要求输出文本的模型。示例性地，输入一张图片经由图生文模型后，生成该张图片的详细描述，或者生成一首诗描述图片等。

其中，图文生成图文模型为输入图片和文本，输出图片和文本的模型。示例性地，图像创作领域，在图片的某个位置添加一些物体，最终输出创作后的图片和对创作后图片的文本描述。

其中，场景图是用来描述图像中目标、以及目标之间关系的一种图。常用三元组（Triplet）表示。

在一种可能的实施方式中，三元组定义为：（Subject，Predicate，Object），其中，Subject、Object都是图片中的目标，Predicate（谓词）是目标之间的关系。为区分两个目标，把谓词前面的目标称为Subject（主体），谓词后面的称为Object(客体)。

示例性地，一张图片中包括在滑水板上冲浪的女孩，并且在女孩旁边站着一位男士，那么对于该张图片来说，确定的场景图三元组表示可以为：（滑水板，on，女孩）；（女孩，play，滑水板）；（男士，beside，女孩）……。

进一步的，在获取到目标图文数据之后，需要对目标图文数据进行处理，具体处理方式为将目标图文数据中的文本数据以及图片数据拆开，将目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到目标图片数据对应的第一场景图；将目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到目标文本数据对应的第二场景图。

在本申请实施例中，第一场景图生成模型可以是训练好的CV-SGG模型，第二场景图生成模型可以是训练好的Text-SGG模型。

在一种可能的实施方式中，SSG指生成场景图（SG）的算法，对于SGG来说，需要输出目标类别、目标的位置（Bounding box）、目标之间的关系。

其中，Bounding Box:用坐标表示一个矩形区域，一般存在如下两种格式：（x1,y1,x2,y2）表征矩形左上角以及左下角坐标；（x,y,w,h）表征矩形中心点坐标以及矩形的宽和高。

示例性地，若是图片中存在多个相同的物体，例如，在桌子上放置多个苹果，而通过三元组数据描述苹果时，均是（苹果，on，桌子）无法对苹果进行区分，此时需要根据输出的目标的位置来对相同物体进行区分，以更为准确地描述图片。

在一种可能的实施方式中，请参阅图2，图2为本申请实施例所提供的图文数据质量判别的流程图，如图2中所示，当获取到目标图文数据（图文对）之后，将目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到第一场景图；将目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到第二场景图，需要根据第一场景图以及第二场景图对图文数据的质量进行判定。

在一种可能的实施方式中，可以是通过对第一场景图与所述第二场景图之间的目标F1分数，确定图文数据的质量。

在一种可能的实施方式中，F1分数（F1Score），是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均，它的最大值是1，最小值是0。

在一种可能的实施方式中，模型的精确率为在信息检索、模式识别等领域中用于测试系统性能的指标。是识别或检索结果中的相关样例数与结果中样例总数的比值。

具体地，可以通过以下公式计算模型的精确率：精确率=正确分类的样本数/所有被分类为该类别的样本数。

在一种可能的实施方式中，模型的召回率反映的是分类模型正确预测正样本全度的能力，即正样本被预测为正样本占总的正样本的比例。

具体地，可以通过以下公式计算模型的召回率：召回率=正确分类的样本数/该类别所有的样本数。

在一种可能的实施方式中，当所述目标图文数据为一对时，可以直接根据模型的精确率以及召回率计算目标F1分数。

具体地，当所述目标图文数据为一对时，步骤“计算所述第一场景图与所述第二场景图之间的目标F1分数”，包括：

a1：计算所述第一场景图生成模型以及所述第二场景图生成模型对应的精确率以及召回率。

a2：基于所述精确率以及所述召回率，确定所述目标F1分数。

在本申请实施例中，对于精确率以及召回率的计算方式已在上述对于精确率以及召回率的阐述中进行了描述，在此将不再赘述。

在一种可能的实施方式中，可以通过以下公式基于精确率以及召回率确定目标F1分数：

；

其中，precision表示精确率，recall表示召回率。

在另一种可能的实施方式中，当目标图文数据为多对时，需要逐一计算每张第一场景图以及每张第二场景图从所述第一场景图生成模型以及所述第二场景图生成模型输出后，对应的F1分数，并对多个F1分数求平均值，确定出目标F1分数。

具体地，当所述目标图文数据为多对时，生成多张第一场景图以及多张第二场景图，步骤“计算所述第一场景图与所述第二场景图之间的目标F1分数”，包括：

b1：计算每张第一场景图以及每张第二场景图从所述第一场景图生成模型以及所述第二场景图生成模型输出后，对应的模型F1分数。

b2：将多个模型F1分数的平均值确定为所述目标F1分数。

在本申请实施例中，针对于每个目标图文数据，将该目标图文数据中的目标图片数据输入至第一场景图生成模型中得到第一场景图，将该目标图文数据中的目标文本数据输入至第二场景图生成模型中得到第二场景图后，均会得到对应的精确率以及召回率，可以根据精确率以及召回率，计算出对应的模型F1分数。

进一步的，在得到多个模型F1分数后，需要根据多个模型F1分数以及目标图文数据的数量，计算多个模型F1分数的平均值，进而将多个模型F1分数的平均值确定为目标F1分数。

示例性地，当前目标图文数据的数量为3个，第一个目标图文数据对应的模型F1分数为0.75；第二个目标图文数据对应的模型F1分数为0.50；第三个目标图文数据对应的模型F1分数为0.85，那么，此时计算出的目标F1分数为（0.75+0.50+0.85）/3=0.68（取小数点后两位）。

进一步的，在计算出第一场景图与第二场景图之间的目标F1分数，可以根据目标F1分数，确定图文数据的质量。

在本申请实施例中，在根据第一场景图以及第二场景图确定出目标F1分数后，需要根据目标F1分数与预设分数阈值进行对比，若是目标F1分数大于预设分数阈值，确定目标图文数据的质量符合预设数据质量标准。

在一种可能的实施方式中，预设分数阈值可以是根据不同的目标图文数据以及历史图文数据质量检测的检测数据确定，不同类别的目标图文数据，或者是不同模型（图生文模型或者是文生图模型）对应的预设分数阈值可以不同。

在一种可能的实施方式中，目标图文数据一般是由文生图模型、或者图生文模型或者是图文生图文模型生成的，因此，对于目标图文数据质量的确定以及检测，可以延伸为对生成目标图文数据的文生图模型、或者图生文模型或者是图文生图文模型的模型质量的检测。

其中，可以根据获取到的目标图文数据中数据质量符合预设数据质量标准的图文数据比例，确定生成目标图文数据的文生图模型、或者图生文模型或者是图文生图文模型的模型质量，并在比例低于一定阈值时，选择对文生图模型、或者图生文模型或者是图文生图文模型进行重新训练以及调整，即，本申请实施例中所提供的图文数据质量判断适用于多种获取图文数据的方式，提升了图文数据检测的全面性以及准确性。

在一种可能的实施方式中，在目标图文数据质量的检测过程中，生成第一场景图以及第二场景图，是计算目标图文数据的目标F1分数，进而对图文数据质量进行判定的基础，而第一场景图生成模型以及第二场景图生成模型则是生成第一场景图以及第二场景图的关键，因此，对于第一场景图生成模型以及第二场景图生成模型训练过程将直接影响对于目标图文数据的判定的准确性，下面将对第一场景图生成模型以及第二场景图生成模型的训练过程进行阐述。

具体地，通过以下步骤训练所述第一场景图生成模型以及所述第二场景图生成模型：

c1：获取对样本图文数据集筛选后的多个目标样本数据。

c2：对每个所述目标样本数据进行标注，得到每个目标样本数据对应的标签；其中，所述目标样本数据对应的标签包括场景图标签、图片风格标签以及图片属性标签。

c3：将所述目标样本数据中的图片数据以及对应的标签输入至预先构建好的第一神经网络中，对所述第一神经网络进行训练，当所述第一神经网络的损失函数值小于第一预设阈值时，确定所述第一神经网络训练结束，得到所述第一场景图生成模型。

c4：将所述目标样本数据中的文本数据以及对应的标签输入至预先构建好的第二神经网络中，对所述神经网络进行训练，当所述第二神经网络的损失函数值小于第二预设阈值时，确定所述第二神经网络训练结束，得到所述第二场景图生成模型。

在本申请实施例中，由于获取到的样本图文数据可能存在从网页中直接提取的数据，因此样本图文数据的质量可能参差不齐，质量过于低的样本图文数据可能会影响对第一场景图生成模型以及第二场景图生成模型的训练准确度，因此，在对第一场景图生成模型以及第二场景图生成模型进行训练之前，需要对样本图文数据进行筛选，将样本图文数据中的低质量数据滤除后，剩余高质量目标样本数据，通过高质量目标样本数据对第一场景图生成模型以及第二场景图生成模型进行训练，有助于提升对第一场景图生成模型以及第二场景图生成模型训练的准确性。

示例性地，模型输入文本为“superman”，输出的却是包含一碗汤的图片，这样的文本superman，图片包含一碗汤的图片构成的样本图文数据就是低质量不准确的样本图文数据，需要将该样本图文数据剔除后，再对第一场景图生成模型以及第二场景图生成模型进行训练。

其中，样本图文数据可能包括图生文类数据、文生图类数据以及图文生成图文类数据，对于不同的样本图文数据来说，对样本图文数据的质量的判断过程以及对于目标样本图像的筛选过程可能存在不同，下面将分别按照不同样本图文类型，确定目标样本数据的方式进行阐述。

具体地，第一方面，当所述样本图文数据为图生文类数据时：

步骤“获取对样本图文数据集筛选后的多个目标样本数据”，包括：

d1：针对于样本图文数据集中每个样本图文数据，将该样本图文数据的样本文本数据输入至预先训练好的文生图模型中，得到预测图片数据。

d2：针对于每个样本图文数据，分别对所述预测图片数据以及所述样本图文数据中的样本图片数据进行编码，计算编码后的预测图片向量与样本图片向量之间的第一距离。

d3：将所述样本图文数据集中第一距离大于预设距离阈值的样本图文数据滤除，确定多个目标样本数据。

在本申请实施例中，对于样本图文数据为图生文类数据时，可以采用训练好的文生图模型进行处理，将样本图文数据中的样本文本数据输入至训练好的文生图模型中，输出预测图片数据，并通过对样本图文数据中的样本图片数据以及输出的预测图片数据的比较确定出当前样本图文数据的质量，以及是否需要滤除该样本图文数据。

在一种可能的实施方式中，针对于每一个样本图文数据，可以是分别对预测图片数据以及样本图片数据中进行编码，得到预测图片向量以及样本图片向量，进而计算预测图片向量以及样本图片向量之间的余弦距离（第一距离），其中，两个向量之间的余弦距离值越小，表征两个向量越相似。

在一种可能的实施方式中，需要预先设置预设距离阈值，针对于每一个样本图文数据，若是预测图片向量以及样本图片向量之间的第一距离小于预设距离阈值，确定样本图文数据中的样本图片数据与预测图片数据之间越相似，则表征该样本图文数据是正确的样本图文数据，需要保留该样本图文数据；若是预测图片向量以及样本图片向量之间的第一距离大于预设距离阈值，确定样本图文数据中的样本图片数据与预测图片数据之间相差较大，则表征该样本图文数据是不准确的样本图文数据，需要将该样本图文数据滤除，并在将样本图文数据集中第一距离小于预设距离阈值的样本图文数据滤除后，确定多个目标样本数据。

在一种可能的实施方式中，预设距离阈值可以根据不同的目标图文数据以及历史图文数据距离的检测数据确定，不同类别的目标图文数据，或者是不同模型（图生文模型或者是文生图模型）对应的预设距离阈值可以不同。

第二方面，当所述样本图文数据为文生图类数据时：

e1：针对于样本图文数据集中每个样本图文数据，将该样本图文数据中的样本图片数据输入至预先训练好的图生文模型中，得到预测文本数据。

e2：针对于每个样本图文数据，分别对所述预测文本数据以及所述样本图文数据中的样本文本数据进行编码，计算编码后的预测文本向量与样本文本向量之间的第二距离。

e3：将所述样本图文数据集中第二距离大于预设距离阈值的样本图文数据滤除，确定多个目标样本数据。

在本申请实施例中，对于样本图文数据为文生图类数据时，可以采用训练好的图生文模型进行处理，将样本图文数据中的样本图片数据输入至训练好的图生文模型中，输出预测文本数据，并通过对样本图文数据中的样本文本数据以及输出的预测文本数据的比较确定出当前样本图文数据的质量，以及是否需要滤除该样本图文数据。

在一种可能的实施方式中，针对于每一个样本图文数据，可以是分别对预测文本数据以及样本文本数据中进行编码，得到预测文本向量以及样本文本向量，进而计算预测文本向量以及样本文本向量之间的余弦距离（第二距离），其中，两个向量之间的余弦距离值越小，表征两个向量越相似。

在一种可能的实施方式中，需要预先设置预设距离阈值，针对于每一个样本图文数据，若是预测文本向量以及样本文本向量之间的第二距离小于预设距离阈值，确定样本图文数据中的样本文本数据与预测文本数据之间越相似，则表征该样本图文数据是正确的样本图文数据，需要保留该样本图文数据；若是预测文本向量以及样本文本向量之间的第二距离大于预设距离阈值，确定样本图文数据中的样本文本数据与预测文本数据之间相差较大，则表征该样本图文数据是不准确的样本图文数据，需要将该样本图文数据滤除，并在将样本图文数据集中第二距离大于预设距离阈值的样本图文数据滤除后，确定多个目标样本数据。

在一种可能的实施方式中，同样的，预设距离阈值可以根据不同的目标图文数据以及历史图文数据距离的检测数据确定，不同类别的目标图文数据，或者是不同模型（图生文模型或者是文生图模型）对应的预设距离阈值可以不同。

第三方面，当所述样本图文数据为文生图类数据时：

具体地，步骤“获取对样本图文数据集筛选后的多个目标样本数据”，包括：

f1：针对于样本图文数据集中每个样本图文数据，将该样本图文数据的样本文本数据输入至预先训练好的文生图模型中，得到预测图片数据后，计算编码后的预测图片向量与样本图片向量之间的第一距离。

f2：针对于样本图文数据集中每个样本图文数据，将该样本图文数据的样本图片数据输入至预先训练好的图生文模型中，得到预测文本数据后，计算编码后的预测文本向量与样本文本向量之间的第二距离。

f3：确定样本图文数据集中第一距离小于预设距离阈值的第一样本数据集，以及样本图文数据集中第二距离小于预设距离阈值的第二样本数据集。

f4：将所述第一样本数据集与所述第二样本数据集交集中包括的多个样本图文数据，确定为多个目标样本数据。

在本申请实施例中，当样本图文数据为图文生图文数据时，需要同时对样本图片数据中的样本图片数据以及样本文本数据进行处理，即，将样本图文数据的样本文本数据输入至预先训练好的文生图模型中，并确定输出的预设图片数据与样本图片数据之间的第一距离；将样本图文数据的样本图片数据输入至预先训练好的图生文模型中，并确定输出的预设文本数据与样本文本数据之间的第二距离；进而根据第一距离以及第二距离，确定样本图文数据集中第一距离小于预设距离阈值的第一样本数据集，以及样本图文数据集中第二距离小于预设距离阈值的第二样本数据集；进一步的，对第一样本数据集以及第二样本数据集取交集，并将交集中的多个样本图文数据，确定为多个目标样本数据。

其中，对于第一距离以及第二距离的确定方式在上述第一距离以及第二距离的描述过程中已经阐述，同样的计算方式在此不再赘述。

示例性地，样本图文数据集包括多个样本图文数据（A1、A2、A3、A4、A5、A6、A7、A8）；确定出样本图文数据集中第一距离大于预设距离阈值的第一样本数据集为（A3、A4、A5、A6、A7、A8）；确定出样本图文数据集中第二距离大于预设距离阈值的第一样本数据集为（A1、A6、A7、A8），将第一样本数据集以及第二样本数据集取交集后，得到数据集（A6、A7、A8），样本图文数据A6、A7、A8即为筛选后得到的目标样本数据。

进一步的，在获取到筛选后的多个目标样本数据之后，需要对每个目标样本数据进行标注，为每个目标样本数据赋予相应的标签，以通过带标签的目标样本数据对构建好的模型进行训练。

在一种可能的实施方式中，对于目标样本数据的标注可以是通过人工标注也可以是通过预选训练好的标注模型进行标注，在本申请实施例中不对具体标注方式进行限制。

在一种可能的实施方式中，模型生成的场景图一般带有鲜明的特征，比如，艺术风格，强烈的色彩对比，一般会与真实数据存在差异，为了保证对模型训练的准确性，在对目标样本数据进行标注时，除进行常规的场景图的信息标注，还需要对图片的风格以及图片属性进行标注；即，目标样本数据对应的标签包括场景图标签、图片风格标签以及图片属性标签。

示例性地，一张样本图片数据中包括穿着黑裙子跳舞的女芭蕾演员，对于该样本图片数据的标注可以包括<图片，is，艺术肖像>、<芭蕾演员，wearing，裙子>、<裙子，is，黑色>、<芭蕾演员，walking on，水面>；其中，<图片，is，艺术肖像>以及<裙子，is，黑色>就是对图片风格以及属性的标注，也是通过三元组数据就进行表示，并且谓词使用“is”。

进一步的，在对目标样本数据标注结束后，需要分别对处理图片数据以及文本数据的模型进行训练。

具体地，一方面，将目标样本数据中的图片数据以及对应的标签输入至预先构建好的第一神经网络中，对第一神经网络进行训练，当第一神经网络的损失函数值小于第一预设阈值时，确定第一神经网络训练结束，得到第一场景图生成模型。

在一种可能的实施方式中，第一神经网络可以是RelTR模型，在该模型中输出的目标位置用的Bounding box（矩形区域），也就是该模型训练的过程中，对应目标的特征提取的是一个矩形的区域。

在另一种可能的实施方式中，矩形的区域会包含一些与目标无关的背景信息。如果用语义分割去提取目标的特征，将会更加精准。即，本申请实施例中提取SG的第一神经网络中，还可以将预测目标位置的模块由预测Bounding box改为预测目标的分割（mask）。

另一方面，将目标样本数据中的文本数据以及对应的标签输入至预先构建好的第二神经网络中，对神经网络进行训练，当第二神经网络的损失函数值小于第二预设阈值时，确定第二神经网络训练结束，得到第二场景图生成模型。

在一种可能的实施方式中，第二神经网络可以是端到端神经网络（Seq2Seq）。

在本申请实施例中，第一场景图生成模型和第二场景图生成模型在训练时，用的是同一份标签体系。真实的图片、生成的图片，真实的文本、生成的文本的风格是有比较大的差异的。尽管如此，由于在训练时使用了同一份标签体系，第一场景图生成模型和第二场景图生成模型对风格不同的数据都能获取比较准确的场景图（SG）信息。

在一种可能的实施方式中，第一预设阈值以及第二预设阈值可以根据模型训练需求和/或模型历史训练数据确定，在此不做具体限制。

在另一种可能的实施方式中，对于第一神经网络以及第二神经网络的训练截止条件，还可以是设置迭代次数阈值，当对第一神经网络或者是第二神经网络的迭代优化次数大于预设迭代次数，确定模型训练结束，其中，迭代次数阈值可以是预先设置的基于模型训练需求的次数，具体设置方式在此不进行限定。

示例性地，请参阅图3，图3为本申请实施例所提供的模型训练流程图，如图3中所示，整个流程中包括高质量数据获取模块、人工标注模块以及模型训练模块；高质量数据获取模块通过一种自监督的方式对数据进行筛选，该模块最终的输出为高质量的图文对。通过人工标注，获得样本图文数据集。该样本图文数据集用于第一神经网络、第二神经网络的训练。

其中，如图3所示，在高质量数据获取模块中包括数据处理链路一以及数据处理链路二；数据处理链路一中，将图文数据输入至文生图模型进行图片对比后，生成高质量图生文数据；数据处理链路二中，将图文数据输入至图生文模型进行文本对比后，生成高质量文生图数据。

在一种可能的实施方式中，对于图生文模型生成的图文数据：经由数据处理链路一处理；对于文生图模型生成的图文数据：经由数据处理链路二处理；对于图文生图文模型生成的图文数据，采用混合模式，分别通过数据处理链路一以及数据处理链路二处理；对于直接从网页提取的图文数据，也可以是采用混合模式，分别通过数据处理链路一以及数据处理链路二处理。

值得注意的是，上述处理方式是本申请实施例所提供的一种优选实施例，具体数据处理链路的处理方式以及选择方式可以根据具体数据处理需求进行调整。

本申请实施例提供的图文数据质量的确定方法，获取生成的目标图文数据；将目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到与目标图片数据对应的第一场景图；将目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到与目标文本数据对应的第二场景图；计算第一场景图与第二场景图之间的目标F1分数；若目标F1分数大于预设分数阈值，确定目标图文数据的数据质量符合预设数据质量标准。这样，目标图文数据中的目标图片数据以及目标文本数据，得到对应的第一场景图以及第二场景图，直接通过生成的第一场景图以及第二场景图，对图文数据质量进行确定，有助于提升图文数据质量确定的准确率。

基于同一发明构思，本申请实施例中还提供了与图文数据质量的确定方法对应的图文数据质量的确定装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述图文数据质量的确定方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图4、图5，图4为本申请实施例所提供的一种图文数据质量的确定装置的结构示意图之一，图5为本申请实施例所提供的一种图文数据质量的确定装置的结构示意图之二。如图4中所示，所述确定装置400包括：

数据获取模块410，用于获取生成的目标图文数据。

第一场景图生成模块420，用于将所述目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到与所述目标图片数据对应的第一场景图。

第二场景图生成模块430，用于将所述目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到与所述目标文本数据对应的第二场景图。

分数计算模块440，用于计算所述第一场景图与所述第二场景图之间的目标F1分数。

质量确定模块450，用于若所述目标F1分数大于预设分数阈值，确定所述目标图文数据的数据质量符合预设数据质量标准。

在一种可能的实施方式中，如图5所示，所述确定装置400还包括模型训练模块460，所述模型训练模块460用于通过以下步骤训练所述第一场景图生成模型以及所述第二场景图生成模型：

获取对样本图文数据集筛选后的多个目标样本数据；

在一种可能的实施方式中，当所述目标图文数据为一对时，所述计算模块440在用于计算所述第一场景图与所述第二场景图之间的目标F1分数时，所述计算模块440用于：

基于所述精确率以及所述召回率，确定所述目标F1分数。

在一种可能的实施方式中，当所述目标图文数据为多对时，生成多张第一场景图以及多张第二场景图；所述计算模块440在用于计算所述第一场景图与所述第二场景图之间的目标F1分数时，所述计算模块440用于：

将多个模型F1分数的平均值确定为所述目标F1分数。

在一种可能的实施方式中，当所述样本图文数据为图生文类数据时，所述模型训练模块460在用于获取对样本图文数据集筛选后的多个目标样本数据时，所述模型训练模块460用于：

在一种可能的实施方式中，当所述样本图文数据为文生图类数据时，所述模型训练模块460在用于获取对样本图文数据集筛选后的多个目标样本数据时，所述模型训练模块460用于：

在一种可能的实施方式中，当所述样本图文数据为图文生成图文类数据时，所述模型训练模块460在用于获取对样本图文数据集筛选后的多个目标样本数据时，所述模型训练模块460用于：

本申请实施例提供的图文数据质量的确定装置，获取生成的目标图文数据；将目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到与目标图片数据对应的第一场景图；将目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到与目标文本数据对应的第二场景图；计算第一场景图与第二场景图之间的目标F1分数；若目标F1分数大于预设分数阈值，确定目标图文数据的数据质量符合预设数据质量标准。这样，目标图文数据中的目标图片数据以及目标文本数据，得到对应的第一场景图以及第二场景图，直接通过生成的第一场景图以及第二场景图，对图文数据质量进行确定，有助于提升图文数据质量确定的准确率。

请参阅图6，图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示，所述电子设备600包括处理器610、存储器620和总线630。

所述存储器620存储有所述处理器610可执行的机器可读指令，当电子设备600运行时，所述处理器610与所述存储器620之间通过总线630通信，所述机器可读指令被所述处理器610执行时，可以执行如上述图1所示方法实施例中的图文数据质量的确定方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的图文数据质量的确定方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图文数据质量的确定方法，其特征在于，所述确定方法包括：

获取生成的目标图文数据；所述目标图文数据是文生图模型和/或图生文模型生成的；或者是图文生成图文模型生成的；或者是从网页中提取得到的；或者是生成的场景图对应的图文数据；

将所述目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到与所述目标图片数据对应的第一场景图；所述第一场景图生成模型是基于目标样本数据中的图片数据以及对应的标签训练得到的CV-SGG模型；

将所述目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到与所述目标文本数据对应的第二场景图；所述第二场景图生成模型是基于目标样本数据中的文本数据以及对应的标签训练得到的Text-SGG模型；其中，所述第一场景图生成模型以及所述第二场景图生成模型使用同一份标签体系进行训练；

计算所述第一场景图与所述第二场景图之间的目标F1分数，以根据所述第一场景图与所述第二场景图对所述目标图文数据的数据质量进行判定；

若所述目标F1分数大于预设分数阈值，确定所述目标图文数据的数据质量符合预设数据质量标准；

当所述目标图文数据为一对时，所述计算所述第一场景图与所述第二场景图之间的目标F1分数，包括：

基于所述精确率以及所述召回率，确定所述目标F1分数；

当所述目标图文数据为多对时，生成多张第一场景图以及多张第二场景图；所述计算所述第一场景图与所述第二场景图之间的目标F1分数，包括：

将多个模型F1分数的平均值确定为所述目标F1分数；

通过以下步骤训练所述第一场景图生成模型以及所述第二场景图生成模型：

获取对样本图文数据集筛选后的多个目标样本数据；

2.根据权利要求1所述的确定方法，其特征在于，当所述样本图文数据为图生文类数据时，所述获取对样本图文数据集筛选后的多个目标样本数据，包括：

3.根据权利要求1所述的确定方法，其特征在于，当所述样本图文数据为文生图类数据时，所述获取对样本图文数据集筛选后的多个目标样本数据，包括：

4.根据权利要求1所述的确定方法，其特征在于，当所述样本图文数据为图文生成图文类数据时，所述获取对样本图文数据集筛选后的多个目标样本数据，包括：

5.一种图文数据质量的确定装置，其特征在于，所述确定装置包括：

数据获取模块，用于获取生成的目标图文数据；所述目标图文数据是文生图模型和/或图生文模型生成的；或者是图文生成图文模型生成的；或者是从网页中提取得到的；或者是生成的场景图对应的图文数据；

第一场景图生成模块，用于将所述目标图文数据中的目标图片数据输入至预先训练好的第一场景图生成模型中，得到与所述目标图片数据对应的第一场景图；所述第一场景图生成模型是基于目标样本数据中的图片数据以及对应的标签训练得到的CV-SGG模型；

第二场景图生成模块，用于将所述目标图文数据中的目标文本数据输入至预先训练好的第二场景图生成模型中，得到与所述目标文本数据对应的第二场景图；所述第二场景图生成模型是基于目标样本数据中的文本数据以及对应的标签训练得到的Text-SGG模型；其中，所述第一场景图生成模型以及所述第二场景图生成模型使用同一份标签体系进行训练；

分数计算模块，用于计算所述第一场景图与所述第二场景图之间的目标F1分数，以根据所述第一场景图与所述第二场景图对所述目标图文数据的数据质量进行判定；

质量确定模块，用于若所述目标F1分数大于预设分数阈值，确定所述目标图文数据的数据质量符合预设数据质量标准；

当所述目标图文数据为一对时，所述计算模块在用于计算所述第一场景图与所述第二场景图之间的目标F1分数时，所述计算模块用于：

基于所述精确率以及所述召回率，确定所述目标F1分数；

当所述目标图文数据为多对时，生成多张第一场景图以及多张第二场景图；所述计算模块在用于计算所述第一场景图与所述第二场景图之间的目标F1分数时，所述计算模块用于：

将多个模型F1分数的平均值确定为所述目标F1分数；

所述确定装置还包括模型训练模块，所述模型训练模块用于通过以下步骤训练所述第一场景图生成模型以及所述第二场景图生成模型：

获取对样本图文数据集筛选后的多个目标样本数据；

6.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至4任一项所述的图文数据质量的确定方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至4任一项所述的图文数据质量的确定方法的步骤。