CN117235534A

CN117235534A - 训练内容理解模型和内容生成模型的方法及装置

Info

Publication number: CN117235534A
Application number: CN202311508270.9A
Authority: CN
Inventors: 马子平; 郭清沛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2023-12-15
Anticipated expiration: 2043-11-13
Also published as: CN117235534B

Abstract

本说明书实施例涉及训练内容理解模型和内容生成模型的方法及装置，方法包括：使用目标训练集中由图像和文本构成的图文对，分别训练内容理解模型和内容生成模型，然后，针对含噪样本集进行样本处理，包括：将所述含噪样本集中任意第一图文对中的第一图像输入到所述内容理解模型中，得到若干候选文本，将所述第一图文对中的第一文本与若干候选文本分别输入到所述内容生成模型中，得到多个候选图像，将所述多个候选图像与所述第一图像进行相似度匹配，根据匹配结果确定目标文本，将所述第一图像与目标文本组成第二图文对，添加到所述目标训练集中，用于继续训练所述内容理解模型和内容生成模型。

Description

训练内容理解模型和内容生成模型的方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及训练内容理解模型和内容生成模型的方法及装置。

背景技术

在机器学习模型训练中，内容理解模型和内容生成模型都需要大量的高质量图文对数据进行训练，其中，内容理解模型用于根据输入的图像生成图像描述文本，内容生成模型用于根据输入的描述文本生成对应的图像，用于训练内容理解模型和内容生成模型的数据可以是在获得用户授权的情况下进行采集的隐私数据。然而，现有的大规模图文对数据集都是从互联网上爬取的，这种低质量的数据集中包含大量图文内容不匹配，或者多种语言夹杂的噪声数据。

在低质量含噪数据集上训练内容理解模型和内容生成模型，会强制模型关联不匹配的数据，从而显著影响模型性能，而人工清洗低质量数据既昂贵又耗时。因此，需要一种在低质量训练集上更加优质的训练内容理解模型和内容生成模型的方法。

发明内容

本说明书一个或多个实施例描述了一种训练内容理解模型和内容生成模型的方法及装置，通过在训练内容理解模型和内容生成模型的同时，对低质量训练集进行清洗和重标，以获得高质量的图文对数据集以及在高质量数据集上训练好的内容理解模型和内容生成模型。

第一方面，提供了一种训练内容理解模型和内容生成模型的方法，包括：

使用目标训练集中由图像和文本构成的图文对，分别训练内容理解模型和内容生成模型，所述内容理解模型用于根据输入的图像生成图像描述文本，所述内容生成模型用于根据输入的描述文本生成对应的图像；

针对含噪样本集进行样本处理，所述含噪样本集中的图文对的图文匹配度低于所述目标训练集，所述样本处理包括：

将所述含噪样本集中任意第一图文对中的第一图像输入到所述内容理解模型中，得到若干候选文本；

将所述第一图文对中的第一文本与所述若干候选文本分别输入到所述内容生成模型中，得到多个候选图像；

将所述多个候选图像与所述第一图像进行相似度匹配，根据匹配结果确定目标文本；

将所述第一图像与目标文本组成第二图文对，添加到所述目标训练集中，用于继续训练所述内容理解模型和内容生成模型。

在一种可能的实施方式中，还包括：

使用更新后的所述目标训练集继续训练所述内容理解模型和内容生成模型；或者，

使用所述目标训练集中新增的图文对继续训练所述内容理解模型和内容生成模型。

在一种可能的实施方式中，还包括：

获取所述目标训练集和所述含噪样本集，并将所述含噪样本集划分为第1子集至第N子集，其中，所述第1子集至第N子集中图文对的图文匹配度依次递减；

所述针对含噪样本集进行样本处理，包括：

依次针对第1子集至第N子集，进行所述样本处理。

在一种可能的实施方式中，获取所述目标训练集和所述含噪样本集，并将所述含噪样本集划分为第1子集至第N子集，包括：

获取第一训练集，其中包含若干图像与文本组成的图文对；

将所述第一训练集中的若干图文对按照图文匹配度由高到低的顺序进行排序，根据排序结果将所述第一训练集划分为N+1个子集，将首个子集作为所述目标训练集，其余N个子集依次作为所述第1子集至第N子集。

在一种可能的实施方式中，所述第一训练集中包含第三图文对，所述第三图文对包含第三图像与第三文本；所述第三图文对的图文匹配度通过以下方法确定：

将所述第三图像输入到多模态模型的图像编码器中，得到第三图像表征，所述多模态模型还包括文本编码器，所述图像编码器和文本编码器经过联合预训练，使得它们的编码结果位于同一表征空间中；

将所述第三文本输入到所述文本编码器中，得到第三文本表征；

计算所述第三图像表征和第三文本表征之间的相似度，并将其确定为第三图文对的图文匹配度。

在一种可能的实施方式中，所述多模态模型为CLIP模型。

在一种可能的实施方式中，将所述多个候选图像与所述第一图像进行相似度匹配，包括：

将所述多个候选图像与所述第一图像分别输入到图像编码器中，得到多个候选图像表征和第一图像表征；

分别将所述多个候选图像表征与所述第一图像表征进行相似度匹配。

在一种可能的实施方式中，所述图像编码器为CLIP模型的图像编码器。

在一种可能的实施方式中，根据匹配结果确定目标文本，包括：

将与第一图像相似度最高的候选图像确定为第一目标图像；

将生成所述第一目标图像时所使用的文本确定为目标文本。

在一种可能的实施方式中，所述多个候选图像包含根据所述第一文本生成的种子候选图像；根据匹配结果确定目标文本，包括：

将所述多个候选图像按照与第一图像的相似度从高到低排序，将所述种子候选图像在所述排序中的顺位确定为第一顺位；

如果所述第一顺位小于等于预设的第一阈值，则将第一文本确定为目标文本；

如果所述第一顺位大于等于预设的第二阈值，则将相似度最高的图像确定为第二目标图像，并将生成所述第二目标图像时所使用的文本确定为目标文本；

如果所述第一顺位大于第一阈值且小于第二阈值，则将所述第一文本、第一图像与若干候选文本发送至人工标注平台，将人工标注平台返回的文本确定为目标文本。

第二方面，提供了一种训练内容理解模型和内容生成模型的装置，包括：

第一模型训练单元，配置为，使用目标训练集中由图像和文本构成的图文对，分别训练内容理解模型和内容生成模型，所述内容理解模型用于根据输入的图像生成图像描述文本，所述内容生成模型用于根据输入的描述文本生成对应的图像；

样本处理单元，配置为，针对含噪样本集进行样本处理，所述含噪样本集中的图文对的图文匹配度低于所述目标训练集，所述样本处理包括：

将所述第一图文对中的第一文本与若干候选文本分别输入到所述内容生成模型中，得到多个候选图像；

在一种可能的实施方式中，还包括：

第二模型训练单元，配置为，使用更新后的所述目标训练集继续训练所述内容理解模型和内容生成模型；或者配置为，使用所述目标训练集中新增的图文对继续训练所述内容理解模型和内容生成模型。

在一种可能的实施方式中，还包括：

样本集划分单元，配置为，获取所述目标训练集和所述含噪样本集，并将所述含噪样本集划分为第1子集至第N子集，其中，所述第1子集至第N子集中图文对的图文匹配度依次递减；

所述针对含噪样本集进行样本处理，包括：

依次针对第1子集至第N子集，进行所述样本处理。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

本说明书实施例提出的一种训练内容理解模型和内容生成模型的方法及装置，通过在训练内容理解模型和内容生成模型的同时，对低质量训练集进行清洗和重标，以获得高质量的图文对数据集以及在高质量数据集上训练好的内容理解模型和内容生成模型。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的训练内容理解模型和内容生成模型的方法的实施场景示意图；

图2示出根据另一个实施例的训练内容理解模型和内容生成模型的方法的实施场景示意图；

图3示出根据一个实施例的训练内容理解模型和内容生成模型的方法的流程图；

图4示出根据一个实施例的数据集清洗和模型训练交替进行的场景示意图；

图5示出根据一个实施例的训练内容理解模型和内容生成模型的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

如前所述，训练内容理解模型和内容生成模型需要使用包含图像数据和文本数据的图文对数据，其中，文本数据用于描述对应的图像中包含的内容。然而，现有的大规模图文对数据集都是从互联网上爬取的，这种低质量的数据集中包含大量图文内容不匹配，或者多种语言夹杂的噪声数据。例如，一个图文对中的图像的内容是一辆红色轿车，但是对应的文本内容是“婴儿植物润肤按摩油80ml*3瓶”，造成图文内容不匹配；又例如，另一个图文对中的图像的内容是一架在航展上展示的无人机，但是对应的文本内容是“Arabica醇香咖啡豆”，不仅图文内容不匹配，文本中的内容还是多种语言夹杂，难以直接用于训练模型。

为了解决上述问题，图1示出根据一个实施例的训练内容理解模型和内容生成模型的方法的实施场景示意图。在图1的示例中，初始的大规模低质量图文对数据集中包含n个图文对，图文对中的文本用于对图像中的内容进行描述。将初始数据集中的图文对按照图文匹配度进行从高到低的排序，选取其中匹配程度较高的一部分图文对作为目标训练集（高质量子集），其余的图文对作为含噪数据集（低质量子集）等待后续步骤中的清洗和重标（重新标注）。图文匹配度指的是文本的描述与图像内容的匹配程度，匹配度越高，文本越能准确地描述图像中的内容，图文匹配度的具体衡量方法将在后续描述。然后，使用高质量的目标训练集分别训练内容理解模型和内容生成模型。

然后对含噪样本集中的图文对进行重标。对于含噪样本集中的任意的图文对样本X，其包含图像Px和文本Tx，将图像Px输入到内容理解模型中，根据图像Px生成m个用于描述图像的候选文本，然后将这m个候选文本和文本Tx分别输入到内容生成模型中，根据输入的文本生成对应的m+1个候选图像，其中编号为m+1的候选图像可以是根据文本Tx生成的。然后将这m+1个候选图像分别与图像Px进行相似度匹配，根据匹配结果从前述m个候选文本和文本Tx确定中确定最合适的文本作为目标文本T’，将图像Px与目标文本T’组成新的高质量图文对，并将该高质量图文对添加到目标训练集中，完成对图文对X的重标。

将含噪数据集中任意的图文对都按照上述方法进行重标并加入目标训练集中，即完成对含噪数据集中数据的清洗，得到包含多个高质量图文对的新目标训练集。使用新目标训练集，可以对内容理解模型和内容生成模型进行进一步的训练，得到高质量的内容理解模型和内容生成模型。

进一步地，在一些实施例中，使用上述方法从初始数据集中筛选出来的目标训练集中的数据可能较少，这时，可以将含噪样本集进一步按照图文匹配度的高低分成若干个含噪子集。每完成对一个或多个含噪子集的清洗之后，便使用更新后的目标训练集对内容理解模型和内容生成模型进行再次训练，然后再使用训练后内容理解模型和内容生成模型对图文匹配度更低的含噪子集进行清洗，实现清洗和训练交替进行，以提高对后续含噪子集的清洗效果。图2示出根据另一个实施例的训练内容理解模型和内容生成模型的方法的实施场景示意图。在图2的示例中，在使用与图1相似的方法对初始的大规模低质量图文对数据集进行图文匹配度排序并筛选出高质量目标训练集之后，再将剩余的含噪样本集按照图文匹配度的由高到低的顺序分为N个含噪子集，得到图2所示的依次排列的含躁子集1，含噪子集2，直至含噪子集N。然后按照图1中所述的清洗方法依次对含噪子集1至含噪子集N进行清洗，其中，第s轮对含噪子集s进行清洗。在每进行完一轮或多轮清洗之后，便使用更新后的目标训练集对内容理解模型和内容生成模型进行再次训练，然后再进行下一轮的清洗，直至完成对所有含噪子集的清洗。最后得到包含多个高质量图文对的新目标训练集，以及高质量的内容理解模型和内容生成模型。

以下结合具体的实施例，描述上述训练内容理解模型和内容生成模型的方法的具体实施步骤。图3示出根据一个实施例的训练内容理解模型和内容生成模型的方法的流程图，所述方法的执行主体可以为任何具有计算、处理能力的平台或服务器或设备集群等。如图3所示，所述方法至少包括：步骤304，使用目标训练集中由图像和文本构成的图文对，分别训练内容理解模型和内容生成模型，所述内容理解模型用于根据输入的图像生成图像描述文本，所述内容生成模型用于根据输入的描述文本生成对应的图像；步骤306，针对含噪样本集进行样本处理，所述含噪样本集中的图文对的图文匹配度低于所述目标训练集，所述样本处理包括：步骤3062，将所述含噪样本集中任意第一图文对中的第一图像输入到所述内容理解模型中，得到若干候选文本；步骤3064，将所述第一图文对中的第一文本与若干候选文本分别输入到所述内容生成模型中，得到多个候选图像；步骤3066，将所述多个候选图像与所述第一图像进行相似度匹配，根据匹配结果确定目标文本；步骤3068，将所述第一图像与目标文本组成第二图文对，添加到所述目标训练集中，用于继续训练所述内容理解模型和内容生成模型。下面描述上述各个步骤的具体执行过程。

在步骤304，使用目标训练集中由图像和文本构成的图文对，分别训练内容理解模型和内容生成模型，所述内容理解模型用于根据输入的图像生成图像描述文本，所述内容生成模型用于根据输入的描述文本生成对应的图像。

可以使用多种模型实现内容理解模型和内容生成模型的功能，例如，内容理解模型可以使用BLIP（Bootstrapping Language-Image Pre-training）、ALBEF（ALign theimage and text BEfore Fusing）、OFA（One-For-All）、Flamingo模型，内容生成模型可以使用Stable Diffusion、ERNIE-ViLG、DALL-E、Imagen模型，这里不做限定。

目标训练集中的图文对的图文匹配度较高，用于对内容理解模型和内容生成模型进行初步的训练，以进行后续步骤中对含噪样本集中的低匹配度的图文对进行清洗和重标。

然后，在步骤306，针对含噪样本集进行样本处理，所述含噪样本集中的图文对的图文匹配度低于所述目标训练集，具体地，步骤306所述样本处理包括步骤3062至步骤3068。

在步骤3062，将所述含噪样本集中任意第一图文对中的第一图像输入到所述内容理解模型中，得到若干候选文本。

其中，第一图像可以对应图1中的图像Px。候选文本的数量可以预先设定，例如设定为m个，则，将第一图像输入到内容理解模型中，得到m个用于表述图像内容的候选文本1至候选文本m。

具体地，内容理解模型在生成候选文本时为逐字（逐token）生成。在第K步生成第K个字时，会根据已生成的前K-1个字，生成第K个字的多个候选字，以及每个候选字与前K-1个字组成的字序列对应的概率。在选择候选字时，使用集束搜索（Beam Search），并将集束的宽度（beam size）设定为m，使得模型在每一步生成时都保留前m个当前概率最大的字序列，在生成结束时便能得到概率排名靠前的m个候选文本，即候选文本1至候选文本m。

在步骤3064，将所述第一图文对中的第一文本与若干候选文本分别输入到所述内容生成模型中，得到多个候选图像。

其中，第一文本可以对应图1中的文本Tx。将第一文本Tx与候选文本1至候选文本m分别输入到内容生成模型中，得到m+1个候选图像，即候选图像1至候选图像m+1，其中，候选图像1至候选图像m可以对应候选文本1至候选文本m，候选图像m+1可以对应第一文本Tx。

在步骤3066，将所述多个候选图像与所述第一图像进行相似度匹配，根据匹配结果确定目标文本。

在一个实施例中，将所述多个候选图像与所述第一图像进行相似度匹配可以包括：将所述多个候选图像与所述第一图像分别输入到图像编码器中，得到多个候选图像表征和第一图像表征，然后，分别将所述多个候选图像表征与所述第一图像表征进行相似度匹配。

可以使用多种图像编码器完成对图像的编码，例如，使用预训练的CLIP（Contrastive Language-Image Pre-Training）模型的图像编码器，这里不做限定。在将候选图像1至候选图像m+1与第一图像分别使用图像编码器进行编码，得到候选图像表征1至候选图像表征m+1与第一图像表征后，分别计算候选图像表征1至候选图像表征m+1与第一图像表征之间的相似度，例如点积相似度或余弦相似度，根据相似度计算结果，确定目标文本。

在其它实施例中，还可以使用其它方法计算图像之间的相似度，例如，通过计算两张图像对应的像素之间的均方差，将均方差作为相似度结果，或者，计算两张图像之间的结构相似性指数（Structural Similarity Index, SSIM），作为它们之间的相似度。

在一个实施例中，根据匹配结果确定目标文本可以包括：将与第一图像相似度最高的候选图像确定为第一目标图像，将生成所述第一目标图像时所使用的文本确定为目标文本。

根据该实施例，认为原始数据集中的图文对中的文本是不够可靠的，所以直接将相似度排名最高的候选图像对应的文本确定为目标文本。

在另一个实施例中，前述多个候选图像包含根据所述第一文本生成的种子候选图像。此时，根据匹配结果确定目标文本可以包括：将所述多个候选图像按照与第一图像的相似度从高到低排序，将所述种子候选图像在所述排序中的顺位确定为第一顺位。如果所述第一顺位小于等于预设的第一阈值，则将第一文本确定为目标文本；如果所述第一顺位大于等于预设的第二阈值，则将相似度最高的图像确定为第二目标图像，并将生成所述第二目标图像时所使用的文本确定为目标文本；如果所述第一顺位大于第一阈值且小于第二阈值，则将所述第一文本、第一图像与若干候选文本发送至人工标注平台，将人工标注平台返回的文本确定为目标文本。

具体地，将根据第一文本生成的编号为m+1的候选图像P_m+1作为种子候选图像，将m+1个候选图像与第一图像Px的相似度从高到低进行排序，将候选图像P_m+1在所述排序中的顺位确定为第一顺位r。然后预设第一阈值A与第二阈值B，其中A<B。如果r<=A，则将第一文本确定为目标文本；如果r>=B，则认为是相似度过低，进而将相似度最高的图像对应的文本确定为目标文本；如果A<r<B，即种子候选图像的排名处于一个不上不下的位置时，则使用人工标注平台从第一文本和m个候选文本中选出最为合适的文本确定为目标文本。

本实施例中的方法认为原始数据集中的图文对中的文本是相对可靠的，当该文本在相似度匹配排名中只要大于一定的排名，即认为原始文本更合适，优先选择原始文本，而不是使用由模型生成的、相似度最高的候选文本。

相应的，根据一种实施方式，在根据匹配结果确定目标文本之前，还可以判断任一目标图文对的目标图文匹配度与预设的匹配度阈值之间的大小关系。当目标图文匹配度小于等于该阈值时，即目标图文对不够可靠时，则使用第一个实施例中的方法，直接将相似度最高的候选图像对应的生成文本确定为目标文本；当目标图文匹配度大于该阈值时，即目标图文对相对可靠时，则使用第二个实施例中的方法，根据种子候选图像在相似度排序中的顺位确定目标文本。

最后，在步骤3068，将所述第一图像与目标文本组成第二图文对，添加到所述目标训练集中，用于继续训练所述内容理解模型和内容生成模型。

在使用如步骤3062至步骤3068的方法将含噪样本集中全部的图文对都处理完成后，即完成对含噪样本集的样本处理。

在一些可能的实施方式中，上述方法还包括：

步骤308，使用更新后的所述目标训练集继续训练所述内容理解模型和内容生成模型；或者，使用所述目标训练集中新增的图文对继续训练所述内容理解模型和内容生成模型。

通过步骤308，使用清洗之后的数据集再次训练内容理解模型和内容生成模型，得到在全量数据下训练完成的内容理解模型和内容生成模型。

在一些可能的实施方式中，在步骤304之前，上述方法还包括：

步骤302，获取所述目标训练集和所述含噪样本集，并将所述含噪样本集划分为第1子集至第N子集，其中，所述第1子集至第N子集中图文对的图文匹配度依次递减。

此时，步骤306中的所述针对含噪样本集进行样本处理可以包括：依次针对第1子集至第N子集，进行所述样本处理。

步骤308可以包括：每进行一轮或多轮的样本处理，就使用更新后的所述目标训练集继续训练所述内容理解模型和内容生成模型；或者，使用所述目标训练集中新增的图文对继续训练所述内容理解模型和内容生成模型。

通过步骤302和步骤308，实现数据集清洗和模型训练的交替进行，以提高对图文匹配度较低的含噪子集的清洗效果。

图4示出根据一个实施例的数据集清洗和模型训练交替进行的场景示意图。如图4所示，在将初始数据集中的图文对按照图文匹配度进行从高到低的排序后，选取其中匹配程度较高的一部分图文对作为目标训练集，并将此时的目标训练集的版本记作目标训练集v0，将初始的内容理解模型和内容生成模型的版本分别记作内容理解模型v0和内容生成模型v0。使用目标训练集v0分别训练内容理解模型v0和内容生成模型v0，得到训练完成的内容理解模型v1和内容生成模型v1。然后，使用内容理解模型v1和内容生成模型v1对一个或多个含噪子集a1至含噪子集a2进行样本处理，并将样本处理得到的高质量图文对添加到目标训练集v0中，得到更新后的目标训练集v1。

然后，使用目标训练集v1分别训练内容理解模型v1和内容生成模型v1，得到训练完成的内容理解模型v2和内容生成模型v2。然后，使用内容理解模型v2和内容生成模型v2对一个或多个含噪子集a2至含噪子集a3进行样本处理，并将样本处理得到的高质量图文对添加到目标训练集v1中，得到更新后的目标训练集v2。

重复上述步骤，直到所有的含噪子集都被处理完成，得到目标训练集vn以及内容理解模型vn+1和内容生成模型vn+1。

在一个实施例中，步骤302可以包括：获取第一训练集，其中包含若干图像与文本组成的图文对，所述文本用于对所述图像的内容进行描述；将所述第一训练集中的若干图文对按照图文匹配度由高到低的顺序进行排序，根据排序结果将所述第一训练集划分为N+1个子集，将首个子集作为所述目标训练集，其余N个子集依次作为所述第1子集至第N子集。

第一训练集可以是图2中的大规模低质量图文对训练集，子集的划分可以是按照预设的样本比例进行划分，也可以是按照预设的匹配度阈值进行划分，这里不做限定。

其中，所述第一训练集中包含第三图文对，所述第三图文对包含第三图像与第三文本，所述第三图文对的图文匹配度通过以下方法确定：

将所述第三图像输入到多模态模型的图像编码器中，得到第三图像表征，所述多模态模型还包括文本编码器，所述图像编码器和文本编码器经过联合预训练，使得它们的编码结果位于同一表征空间中；将所述第三文本输入到所述文本编码器中，得到第三文本表征；计算所述第三图像表征和第三文本表征之间的相似度，并将其确定为第三图文对的图文匹配度。

其中，多模态模型可以是预训练的CLIP模型，或者其他包含经过联合预训练的文本编码器和图像编码器的多模态模型；表征之间的相似度可以使用点积相似度或余弦相似度确定。

本说明书实施例对内容理解模型和内容生成模型进行共同训练，能够同时训练两种模型。同时，本方案为低质量图文对生成了更加匹配的图像描述，得到高质量图像对，从而在模型迭代过程中将大规模低质量图文对数据集转化为高质量图文对数据集，有助于后续其他模型的训练。同时，可选地，只需要在清洗的过程中引入少量的人工标注，即可实现对大规模低质量数据集的清洗，产出高质量的大规模数据集。

根据另一方面的实施例，还提供一种训练内容理解模型和内容生成模型的装置。图5示出根据一个实施例的训练内容理解模型和内容生成模型的装置的示意性框图，该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。如图5所示，所述装置500包括：

第一模型训练单元502，配置为，使用目标训练集中由图像和文本构成的图文对，分别训练内容理解模型和内容生成模型，所述内容理解模型用于根据输入的图像生成图像描述文本，所述内容生成模型用于根据输入的描述文本生成对应的图像；

样本处理单元503，配置为，针对含噪样本集进行样本处理，所述含噪样本集中的图文对的图文匹配度低于所述目标训练集，所述样本处理包括：

在一些可能的实施方式中，上述装置500还包括：

第二模型训练单元504，配置为，使用更新后的所述目标训练集继续训练所述内容理解模型和内容生成模型；或者配置为，使用所述目标训练集中新增的图文对继续训练所述内容理解模型和内容生成模型。

在一些可能的实施方式中，上述装置500还包括：

样本集划分单元501，配置为，获取所述目标训练集和所述含噪样本集，并将所述含噪样本集划分为第1子集至第N子集，其中，所述第1子集至第N子集中图文对的图文匹配度依次递减；

此时，所述针对含噪样本集进行样本处理，包括：

依次针对第1子集至第N子集，进行所述样本处理。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一实施例所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一实施例所描述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种训练内容理解模型和内容生成模型的方法，包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求1所述的方法，还包括：

所述针对含噪样本集进行样本处理，包括：

依次针对第1子集至第N子集，进行所述样本处理。

4.根据权利要求3所述的方法，其中，获取所述目标训练集和所述含噪样本集，并将所述含噪样本集划分为第1子集至第N子集，包括：

获取第一训练集，其中包含若干图像与文本组成的图文对；

5.根据权利要求4所述的方法，其中，所述第一训练集中包含第三图文对，所述第三图文对包含第三图像与第三文本；所述第三图文对的图文匹配度通过以下方法确定：

6.根据权利要求5所述的方法，其中，所述多模态模型为CLIP模型。

7.根据权利要求1所述的方法，其中，将所述多个候选图像与所述第一图像进行相似度匹配，包括：

8.根据权利要求7所述的方法，其中，所述图像编码器为CLIP模型的图像编码器。

9.根据权利要求1所述的方法，其中，根据匹配结果确定目标文本，包括：

将与第一图像相似度最高的候选图像确定为第一目标图像；

将生成所述第一目标图像时所使用的文本确定为目标文本。

10.根据权利要求1所述的方法，其中，所述多个候选图像包含根据所述第一文本生成的种子候选图像；根据匹配结果确定目标文本，包括：

11.一种训练内容理解模型和内容生成模型的装置，包括：

12.根据权利要求11所述的装置，还包括：

13.根据权利要求11所述的装置，还包括：

所述针对含噪样本集进行样本处理，包括：

依次针对第1子集至第N子集，进行所述样本处理。

14.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项所述的方法。

15.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。