CN115563335A

CN115563335A - 模型训练方法、图文数据处理方法及装置、设备、介质

Info

Publication number: CN115563335A
Application number: CN202211190883.8A
Authority: CN
Inventors: 黎炳华; 王聪; 黎新
Original assignee: Shenzhen Huantai Technology Co Ltd
Current assignee: Shenzhen Huantai Technology Co Ltd
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-01-03

Abstract

本公开实施例是关于一种模型训练方法、图文数据处理方法及装置、电子设备、存储介质，涉及图像处理技术领域，该模型训练方法包括：获取图文数据对，并根据所述图文数据对获取原始图文数据集；将所述原始图文数据集中的每个图像进行图像标注，得到每个图像对应的标注文本；对所述原始图文数据集中每个图像的原始文本以及标注文本进行组合，得到增强文本；根据每个图像以及所述增强文本构成的图文增强数据集对图文预训练模型进行训练，得到训练好的图文预训练模型。本公开实施例中的技术方案，能够提高模型训练的准确性。

Description

模型训练方法、图文数据处理方法及装置、设备、介质

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种模型训练方法、图文数据处理方法及装置、电子设备以及计算机可读存储介质。

背景技术

在图像处理过程中，可以对图像等数据进行增强，以提高图像处理的准确性。

相关技术中，可单一地对图像或者是文本进行增强。该增强方式具有一定的局限性，对数据的利用效率较低，且模型训练效果较差。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种模型训练方法、图文数据处理方法及装置、电子设备、存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的模型训练效果较差的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种模型训练方法，包括：获取图文数据对，并根据所述图文数据对获取原始图文数据集；将所述原始图文数据集中的每个图像进行图像标注，得到每个图像对应的标注文本；对所述原始图文数据集中每个图像的原始文本以及标注文本进行组合，得到增强文本；根据每个图像以及所述增强文本构成的图文增强数据集对图文预训练模型进行训练，得到训练好的图文预训练模型。

根据本公开的第二方面，提供一种图文数据处理方法，包括：获取待处理图文数据；将所述待处理图文数据输入训练好的图文预训练模型进行特征提取，得到所述待处理图文数据的目标特征；所述训练好的图文预训练模型根据上述任意一项所述的模型训练方法训练得到；基于所述目标特征对所述待处理图文数据进行目标操作，获取目标任务对应的操作结果。

根据本公开的第三方面，提供一种模型训练装置，包括：图文数据对获取模块，用于获取图文数据对，并根据所述图文数据对获取原始图文数据集；图像标注模块，用于将所述原始图文数据集中的每个图像进行图像标注，得到每个图像对应的标注文本；文本增强模块，用于对所述原始图文数据集中每个图像的原始文本以及标注文本进行组合，得到增强文本；模型训练控制模块，用于根据每个图像以及所述增强文本构成的图文增强数据集对图文预训练模型进行训练，得到训练好的图文预训练模型。

根据本公开的第四方面，提供一种图文数据处理装置，包括：数据获取模块，用于获取待处理图文数据；特征提取模块，用于将所述待处理图文数据输入训练好的图文预训练模型进行特征提取，得到所述待处理图文数据的目标特征；所述训练好的图文预训练模型根据上述任意一项所述的模型训练方法训练得到；目标任务执行模块，用于基于所述目标特征对所述待处理图文数据进行目标操作，获取目标任务对应的操作结果。

根据本公开的第五方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面的模型训练方法或第二方面的图文数据处理方法及其可能的实现方式。

根据本公开的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的模型训练方法或第二方面的图文数据处理方法及其可能的实现方式。

本公开实施例中提供的技术方案，一方面，通过将原始图文数据集中的每个图像进行图像标注得到对应的标注文本，并对图像的原始文本与标注文本进行组合，基于多个维度的文本描述得到增强文本以丰富图像的文本描述，使得用于训练模型的图文增强数据集更准确更完整。由于对用于训练模型的数据进行了补充增强，因此能够提升图文预训练模型的训练效果，提升模型训练的准确性，提高模型的准确性。另一方面，由于通过图像标注得到的标注文本对原始文本进行了数据增强，实现了多模态的数据增强，避免了相关技术中只能实现单模态数据增强的局限性，能够利用已有数据增强原始图文数据集，通过数据增强提高了图文数据对的利用效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的模型训练方法及图文数据处理方法的应用场景的示意图。

图2示意性示出本公开实施例一种模型训练方法的示意图。

图3示意性示出本公开实施例中一个图文数据对的示意图。

图4示意性示出本公开实施例中生成标注文本的示意图。

图5示意性示出本公开实施例中通过文本组合方式进行文本增强的流程示意图。

图6示意性示出本公开实施例的通过最大图文相关性选择确定增强文本的流程示意图。

图7示意性示出本公开实施例的获取增强文本的流程示意图。

图8示意性示出本公开实施例的图文数据对的相关性的示意图。

图9示意性示出本公开实施例中模型训练的流程示意图。

图10示意性示出本公开实施例中一种图文数据处理方法的流程示意图。

图11示意性示出本公开实施例中一种模型训练装置的框图。

图12示意性示出本公开实施例中一种图文数据处理装置的框图。

图13示意性示出本公开实施例中电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

相关技术中，提出了利用多模态的图文信息增强文本数据进行机器翻译训练的方法。其中，带标注文本的图像数据集被用于作为扩充数据集。先利用这些带标注文本的图像数据集训练一个生成图片标注的模型，随后利用这个图片标注模型对已有的图文数据中的图像生成文本并进行翻译，得到目标文本。然后将图文数据中的原始文本作为原始数据训练一个新的机器翻译网络，通过图文数据集构造出新的机器翻译样本作为新的扩充数据集，实现数据增强。这属于利用多模态数据增强机器翻译中的文本数据。除此之外，相关技术中，基本是针对图像或文本等单一模态进行数据增强，无法同时将图文数据对等多模态进行数据增强，具有一定的局限性，从而使得模型训练的效果较差，得到的模型的准确性较低。

为了解决相关技术中的技术问题，本公开实施例中提供了一种模型训练方法，可以应用于通过训练好的图文预训练模型进行检索任务或者是生成任务的应用场景中。图1示出了可以应用本公开实施例的模型训练方法及装置的系统架构的示意图。

如图1所示，该系统架构100可以包括：第一端110、网络120和第二端130。第一端110可以为任何类型的能够显示图像的设备，例如可以为计算机、智能手机、平板电脑、智能可穿戴设备(如AR眼镜)、机器人、无人机等设备。第一端110可以通过网络120，与第二端130形成通讯连接，将图文数据对传输至第二端130，由第二端130进行处理。第二端可以为智能设备，也可以为服务器等等。图1示出第一端110与第二端130属于不同设备的情况。在一种实施方式中，第一端110还可以与第二端130属于相同设备，即第一端与第二端均为智能设备，例如可以为智能手机。

需要说明的是，本示例性实施方式中，可通过第二端130获取图文数据对，并根据所述图文数据对获取原始图文数据集；将所述原始图文数据集中的每个图像进行图像标注，得到所述每个图像对应的标注文本；对所述原始图文数据集中每个图像的原始文本以及标注文本进行组合，得到增强文本；根据每个图像以及所述增强文本构成的图文增强数据集对图文预训练模型进行训练，得到训练好的图文预训练模型。进一步地，可以根据图文预训练模型对待处理图文数据进行处理，得到操作结果并返回至第一端110。

需要说明的是，本公开实施例所提供的模型训练方法可以由第二端130执行，也可以由第一端110来执行。

图2中示意性示出了本公开实施例中的模型训练方法，具体包括以下步骤：

步骤S210，获取图文数据对，并根据所述图文数据对获取原始图文数据集；

步骤S220，将所述原始图文数据集中的每个图像进行图像标注，得到每个图像对应的标注文本；

步骤S230，对所述原始图文数据集中每个图像的原始文本以及标注文本进行组合，得到增强文本；

步骤S240，根据每个图像以及所述增强文本构成的图文增强数据集对图文预训练模型进行训练，得到训练好的图文预训练模型。

本公开实施例中，提出了针对图文数据对的数据增强方式，利用开源图像标注模型或图像标注模型直接对原始的图文数据对中的图像生成包括实体且用于描述图像内容的标注文本，并通过文本组合方式与原始文本进行组合。生成的标注文本依赖于图像内容生成，能组成新的图文对(图文增强数据集)供图文预训练模型训练，但是原始的图文数据对也会保留，因此能更大程度地利用已有数据以增广原始图文数据集，获取更多维度的图文描述。进而根据图文增强数据集来对图文预训练模型进行训练，提高模型的准确性和稳定性。

接下来，参考图2所示，对本公开实施例中的模型训练方法的具体步骤进行详细说明。

在步骤S210中，获取图文数据对，并根据所述图文数据对获取原始图文数据集。

本公开实施例中，可以通过开源图文数据集或者是网络爬虫获取图文数据对。每组图文数据对包括图像和图像对应的原始文本。进一步地，可以根据获取的所有图文数据对组成原始图文数据集，原始图文数据集中包含的图像数据对的数量，具体可以根据实际需求确定。对于原始图文数据集中包括的图文数据对的数量，可以根据实际需求进行设定。例如，若电子设备的性能不高，则原始图文数据集中包括的图文数据对的数量可以设置为较小的值；若需要获得较优的预训练模型，则原始图文数据集中包括的图文数据对的数量可以设置为较大的值。

示例性地，原始图文数据集可以表示为Draw＝{(imagei,texti)|i＝1,...,N}，其中imagei是指第i幅图像，texti是第i幅图像对应的原始文本。在一些实施例中，用于图文预训练的大规模开源图文数据集可以包括CC3M、CC12M、YFCC、LAION400M以及Wukong等，开源图文数据集中均包含了若干图像及图像对应的网络文本，网络文本即为原始文本。

举例而言，图3中所示为一个图文数据对，该图文数据对中可以包含图3中所示的图像301以及图像301对应的原始文本(网络文本)302“这是真正的快餐！”。

接下来，在步骤S220中，将所述原始图文数据集中的每个图像进行图像标注，得到每个图像的标注文本。

本公开实施例中，由于原始文本可能只是图像的一部分，对于原始图文数据集中的每个图像而言，为了完整准确地描述图像的内容，可以将每个图像进行图像标注得到表示图像内容的标注文本。图像标注可以用于将一张图像翻译为一段描述性文字，需要机器用模型去理解图像的内容，并且用自然语言去表达这些内容并生成用户可读的句子。标注文本可以与原始文本相同，也可以不同。

在进行图像标注时，可以根据图像标注模型对原始图文数据集中的每个图像进行文本转化，得到每个图像对应的标注文本。图像标注模型Mcap可以为直接获取的开源图像标注模型，也可以为训练得到的图像标注模型。

在对图像标注模型进行训练时，可根据原始图文数据集对图像标注模型的模型参数进行调整，以进行模型训练。图像标注模型可以为BLIP(Bootstrapping Language-ImagePre-training)模型。基于此，可根据获取到的图文数据对组成的原始图文数据集作为训练数据，将原始图文数据集中的每个图像以及图像的真实文本输入至图像标注模型中，以获取每个图像的标注文本，根据真实文本和标注文本之间的差别来调整图像标注模型的模型参数，从而得到训练好的图像标注模型。除此之外，也可以根据开源图像标注数据集来对图像标注模型进行训练，训练过程与上述过程相同，此处不再赘述。

图像标注模型Mcap用于对输入的图像生成能够描述图像内容的标注文本。生成的标注文本与图像之间的相关性可以与原始文本与图像之间的相关性不同。原始文本可为抽象的文本，标注文本一般为详细文本。例如，原始文本一般可以为包含更抽象的高级概念的网络文本，标注文本一般可以为包含低级的实体描述的文本。在一些实施例中，标注文本可以包括但不限于图像中的实体、数量、属性等信息的描述，其中实体可以用于表示包含的物体的类型，例如人或者是食物、餐具等等，属性例如可以为颜色、大小等等。

图3中所示为开源图文数据集CC3M训练集的一条图文数据对所表示的样本，采用BLIP的开源图像标注模型进行图像标注获取生成的标注文本。从文本翻译后的效果可见，表示原始文本302的网络文本包含了“快餐”这一较抽象的高级概念，而生成的标注文本303包含“三明治”、“柠檬菜”和“餐盘”等实体描述。原始文本是概括文本，标注文本是详细文本，因此二者能充分互补，从而更好地训练网络。

本公开实施例中，引入图像标注模型生成标注文本，能为原始的图文数据对增加新的信息。若假设引入开源图像标注模型生成标注文本，生成的标注文本拥有训练开源图像标注模型使用数据的图文对齐能力作为先验信息，能通过开源图像标注模型注入该开源图像标注模型使用的数据集的知识。例如本公开实施例中引入的开源图像标注模型为BLIP模型，利用开源图文数据集CC3M+CC12M+LAION400M训练所得，其生成的标注文本具有上述开源图文数据集中大量数据的图文对齐信息作为先验信息，因此通过引入了新的知识从而更高效地利用原始数据集，提升训练效果。

若采用后续用于进行图文预训练的原始图文数据集训练得到图像标注模型，再通过训练得到的图像标注模型对该原始图文数据集获取标注文本以进行数据增强，则相当于整合了同一个数据集(原始图文数据集)中相似的图文数据对，新获得的标注文本是对数据集中所有图像数据对进行遍历学习的结果，能在原始文本的基础上引入数据集内其他相似图文数据对的知识，在无法获取开源模型的情况下也能使用用于预训练的用户收集的图文对训练图像标注模型进行增强，获取采集的数据集内部的图文信息，提高了数据的利用效率。

参考图4中所示，在对图像401生成标注文本402时，可以采用训练图像标注模型时所使用的原始图文数据集。例如其中一个图像数据对可以包括图像404以及原始文本405“网球运动员在当天的男子双打决赛中获胜后摆好姿势拿着奖杯”。在此基础上，针对于图像401而言，其原始文本403为“这个人最终获得了胜利”，生成的标注文本402可以为“一群男人站在足球场顶上拿着奖杯”。

继续参考图2中所示，在步骤S230中，对所述原始图文数据集中每个图像的原始文本以及标注文本进行组合，得到增强文本。

本公开实施例中，在得到每个图像的标注文本后，由于标注文本可以与原始文本互补，为了提高准确性，可以将每个图像的原始文本以及标注文本进行组合，从而得到增强文本。增强文本可以包括原始文本或标注文本中的至少一种。

在进行组合时，可以通过文本组合方式对所述原始文本以及所述标注文本进行组合，得到所述增强文本。文本组合方式可以包括文本拼接、文本随机选择以及最大图文相关性选择中的一种或多种。

其中，文本拼接指的是直接将原始文本和标注文本进行合并，组合成一个整体得到增强文本。在进行文本拼接时，可以将原始文本和标注文本按照排列顺序进行相加，得到增强文本。排列顺序例如可以为先原始文本再标注文本，也可以为先标注文本再原始文本等等，此处不作具体限定。例如，参考图5中步骤S501所示，对原始文本text以及text_cap进行拼接，得到增强文本text_aug＝text+text_cap。

文本随机选择指的是同时保留两个文本，在原始文本和标注文本中随机选择一个文本作为每个图像的增强文本，例如，参考图5中步骤S502所示，增强文本text_aug＝(text,text_cap)。

最大图文相关性选择指的是，分别计算原始文本和标注文本与图像之间的图文相关性，根据图文相关性的对比结果来选择增强文本。图6中示意性示出了选择增强文本的流程示意图，参考图6中所示，主要包括以下步骤：

在步骤S610中，获取所述原始文本与所述图像的第一图文相关性；

在步骤S620中，获取所述标注文本与所述图像的第二图文相关性；

在步骤S630中，根据所述第一图文相关性和所述第二图文相关性中的最大图文相关性，确定所述增强文本。

本公开实施例中，首先可以计算原始文本与图像的第一图文相关性。第一图文相关性用于表示原始文本与图像之间的关联性，可用于评估原始文本是否准确描述图像的内容。且第一图文相关性与关联性正相关，即第一图文相关性越大，则关联性越大。可以通过图文相关性计算模型计算原始文本与图像之间的相似性，以得到第一图文相关性。

在一些实施例中，通过最大图文相关性选择时，可采用sim(text,image)，采用BriVL或BLIP等开源模型计算原始文本与图像之间的第一图文相关性。最大图文相关性选择是BLIP中提及的数据自举方法，但是设置有预设阈值，低于预设阈值的将会被丢弃。本公开实施例中，为了简化增强算法同时提高数据的利用效率，采用了无阈值的方式，不再丢弃任何数据。

计算标注文本与图像之间的第二图文相关性的方式与步骤S610中计算第一图文相关性的计算步骤相同，此处不再赘述。且第二图文相关性与关联性正相关，即第二图文相关性越大，则关联性越大。一般而言，第二图文相关性和第一图文相关性，可根据具体的原始文本以及标注文本而确定。

在此基础上，可以将第一图文相关性和第二图文相关性对比，确定出最大图文相关性，进一步将最大图文相关性对应的文本确定为增强文本。

举例而言，参考图5中步骤S503所示，第一图文相关性sim_raw＝sim(text,image)，第二图文相关性sim_cap＝sim(text_cap,image)，增强文本text_aug＝text if sim_raw>sim_cap else text_cap。

图7中示意性示出了采用不同文本组合方式获取图像的增强文本的示意图，参考图7中所示，针对于图3中的图像301，其原始文本302为“这是真正的快餐！”，标注文本303为“一盘配三明治和柠檬菜的餐盘”。当采用文本拼接时，针对于图像301的增强文本text_aug＝(图像301,这是真正的快餐！一盘配三明治和柠檬菜的餐盘)。当采用文本随机选择时，针对于图像301的增强文本text_aug＝random.choice([(图像301,这是真正的快餐！),(图像301,一盘配三明治和柠檬菜的餐盘)])。当采用最大图文相关性时，针对于图像301而言，id_i＝argmax([sim(图像301,这是真正的快餐！),sim(图像301,一盘配三明治和柠檬菜的餐盘)])。基于此，针对于图像301的增强文本text_aug＝random.choice(图像301,[这是真正的快餐！,一盘配三明治和柠檬菜的餐盘][id_i])。本公开实施例中，可以文本随机选择方式为例进行说明。

本公开实施例中，通过对原始图文数据集中每个图像生成新的标注文本，为原始文本添加新的信息。新的标注信息来自于使用的图像标注模型的训练数据，在无法获取开源图像标注模型的情况下也能通过用于图文预训练的用户收集的图文数据对，训练图像标注模型，从而生成标注文本，并对原始文本和标注文本进行组合得到增强文本以进行数据增强，能在原始文本的基础上引入其他图文数据对的信息，提高了图文数据对的利用效率。

继续参考图2中所示，在步骤S240中，根据每个图像以及所述增强文本构成的图文增强数据集对图文预训练模型进行训练，得到训练好的图文预训练模型。

本公开实施例中，得到每个图像的增强文本后，可以将每个图像以及与其对应的增强文本重新组成更新后的图文数据对，以构成图文增强数据集，进而根据图文增强数据集对图文预训练模型进行训练，得到训练好的图文预训练模型。需要说明的是，图文增强数据集中的图像的类型可根据实际需求的不同而变化，例如可以为各种风格化的图像，例如卡通化、油画等等。

图文预训练模型指的是多模态预训练模型。图文预训练模型可通过非监督语料，设计一些任务，能够学到比较好的语义/图像表示。图文预训练模型能够通过在大规模数据上的预训练学到不同模态之间的语义对应关系，比如对齐文本形式的“狗”和图片中的“狗”的语义信息。训练好的图文预训练模型，可以用于各种下游任务，比如图文匹配、视觉推理、视觉问答等。

多模态预训练模型根据信息融合的方式可分为两大类，分别是双流类模型Cross-Stream和单流类模型Single-Stream。本公开实施例中以双流类模型为例进行说明。双流类模型是指将不同模态的输入分别处理之后进行交叉融合，可以训练两个单独的编码器来分别获取图像级别和语句级别的特征，利用对比学习来优化特征。

在一些实施例中，双流类模型例如可以为ViLBERT。具体地，将输入的文本经过文本Embedding层后被输入到Transformer编码器中提取上下文信息。使用预训练Faster R-CNN生成特征并送入图像Embedding层，然后将获取到的文本和图像表示通过融合模块进行交互融合，得到向量表征。

在对图文预训练模型进行训练时，可以根据训练策略进行训练。训练策略包括数据增强策略以及标签平滑策略、损失策略中的一种或多种。数据增强策略可以根据步骤S210至步骤S230得到。标签平滑策略指的是对用于训练的数据对应的标签进行平滑处理，即对图文增强数据集中包含的所有图文数据对的标签进行标签平滑，得到对应的平滑后的标签。

基于此，可根据图文增强数据集中每个图文数据对以及每个图文数据对的平滑后的标签，对所述图文预训练模型的模型参数进行调整，直至损失函数满足预设条件为止，以得到训练好的图文预训练模型。

在常规的多模态预训练任务中，一般采用对比损失作为目标函数来进行模型训练。对比损失的思想为：在对输入的图文数据对进行编码后，计算所有图像与文本间的图文相似度，并将输入的一对匹配的图文数据对视为正例，令其相似度数值取为1，将其标签确定为1，即,label(imagei,texti)＝1；相反，不匹配的图文数据对将作为负例，将其标签确定为0，即label(imagei,textj)＝0(i≠j)。

但是在正常的图文对数据集中，不匹配的图文数据对仍可能具有一定的相关性，而不是完全无关，因此从理论上说label(imagei,textj)＝0对一部分的不匹配图文数据对是不应该成立的。图8中展示了开源图文数据集CC3M中的三条图像数据对作为样本。具体地，图像801的文本为“训练期间的足球运动员”，图像802的文本为“足球运动员在比赛中与另一个足球运动员争夺球”，图像803的文本为“足球运动员与足球争夺战”。由图8中的三个图文数据对可知，虽然根据图文数据对中图像与文本的图文相似度确定图文数据对不匹配，但是不匹配的图文数据对的表征之间应该也存在一定的相似度，而不应为0，即相似度大于0。基于此，为了避免相关技术中将图文数据对的标签完全设置为1或者是设置为0而导致的局限性，可以将图文增强数据集中的图文数据对的标签进行标签平滑，以得到准确表示图文相关性的平滑后的标签。

在一些实施例中，可根据标签平滑因子以及类别数量来进行标签平滑。标签平滑因子用于表示平滑的程度，可以根据实际需求而确定。具体地，图文数据对的标签可以如公式(1)所示：可以基于如下公式(2)对标签进行标签平滑：

其中，ε代表标签平滑因子，K表示涉及的类别数量。涉及的类别数量可以根据目标任务的类别而确定。目标任务可以为各种类型的分类任务，此处不作具体限定。

本公开实施例中，对于图文预训练而言，通过对标签进行标签平滑，使用平滑后的标签对图文预训练模型进行训练，避免了只能根据固定的标签进行训练的过程，只考虑到了正确标签的位置的损失，而忽略了错误标签位置的损失所导致的预测错误的概率较大，即过拟合的问题。通过标签平滑，在一定程度上解决图文预训练中的过拟合问题，提高模型训练的准确性。

其次，在本公开实施例提出的图文增强策略中，如采用随机文本选择的方式组合原始文本和标注文本，则对同一张图像会产生两条正例，即label(imagei,texti)＝1，label(imagei,text_capi)＝1。在该情况下，由于图像的编码向量是相对固定的，而文本的编码向量可能随文本的切换而改变，当不采用标签平滑而采用原始的标签时，图片编码器会因为文本编码向量的变化而不利于学习图文关系。在采用标签平滑后，能够准确地学习图文关系。并且实验证明标签平滑的引入能较好缓解该问题。因此，由于文本随机选择方式可能随时切换原始文本和标注文本，标签平滑可以在文本随机选择方式中降低切换文本所带来的影响，提高图文关系的准确性。

在一些实施例中，为了提高训练效果，可以根据对比损失以及语言建模损失确定该图文预训练模型的损失函数。即，在对比损失的基础上增加一个监督信号，以通过该语言建模损失监督数据增强方法中的标注文本，从而训练模型。其中，语言建模损失(LanguageModeling Loss,LM损失)激活了以图像为基础的文本解码器，其目的是生成给定图像的文本描述。它优化了交叉熵损失，训练模型以自回归的方式最大化文本的概率。本公开实施例中，LM损失是通过自回归的方式生成标注文本并判断生成的标注文本与目标文本之间的差异，通过计算二者的交叉熵等参数进行任务监督。在图文预训练中，LM损失能够利用原始文本描述，监督通过图像数据指导生成的标注文本，实现图文数据对中的实体等内容的对齐。基于此，本公开实施例中提出的数据增强方法，能够在原始文本描述的基础上对图像增加标注文本描述，以引入新的内容描述，在LM损失的作用下更好地帮助图文数据对齐。

本公开实施例中提出的针对图文预训练模型的图文数据增强方法，通过引入训练或开源的图像标注模型生成新的文本描述，为原始的图文数据对注入新的信息。新信息来自于使用的图像标注模型的训练数据，在无法获取开源模型的情况下也能使用用于预训练的用户收集的图文对训练图像标注模型进行增强，获取采集的数据集内部的图文信息，从而进一步提高数据集利用效率。通过对使用不同的组合策略进行模型训练的结果进行验证，可以得知，对于多个数据集中的模型训练中的同一个训练过程，将数据增强策略、标签平滑策略以及LM损失策略进行融合的方式，训练的准确性最高。不使用任何策略的训练的准确性最低。将数据增强策略、标签平滑策略进行融合的准确性大于只使用数据增强策略的准确性。因此，通过组合策略，能够提高模型训练的准确性。

图9中示意性示出了模型训练的流程图，参考图9中所示，主要包括以下步骤：

在步骤S901中，获取原始图文数据集，包括图像以及原始文本。

在步骤S902中，获取图像标注模型。通过开源图像标注模型910和训练图像标注模型920获取。

在步骤S903中，通过图像标注模型得到标注文本，并基于文本组合方式，对原始文本以及标注文本进行组合得到增强文本。

在步骤S904中，获取图文增强数据集。

在步骤S905中，基于图文增强数据集，结合标签平滑策略930以及LM损失策略940进行模型训练。

在步骤S906中，得到训练好的图文预训练模型。图文预训练模型可以为双流图文预训练架构。

在本公开实施例中，图文预训练模型中可以包含图像编码器以及文本编码器、文本解码器。可以通过图像编码器对图像数据对中的图像进行编码，得到图像特征；通过文本编码器对图像数据对中的原始文本进行编码，得到文本特征。在图像特征的基础上，将图像编码器输出的图像特征输入至文本解码器生成标注文本。进一步通过原始文本和标注文本进行结合，得到增强文本。进而通过图像以及增强文本进行模型训练。示例性地，可以将图像以及增强文本组成的图文数据对输入至图文预训练模型中获取预测数据，根据损失函数计算预测数据与平滑后的标签表示的真实数据之间的误差；根据损失函数的导数，沿梯度最小方向将误差回传，修正前向计算公式中的各个权重值以调整图文预训练模型的模型参数，直至损失函数满足预设条件时停止迭代。预设条件可以为损失函数最小等等，以完成图文预训练模型的整个训练过程。

本公开实施例中的训练过程，由于有一些图像的原始文本只是片面描述，因此可以用原始图文数据集中与该图像相关的其他文本描述来生成标注文本，以丰富图像的文本描述，提高完整性和准确性。由于增强文本根据原始文本和标注文本组合得到，因此一个图像可以存在两种维度的文本来描述，使得用于训练模型的图文增强数据集更准确。由于对用于训练模型的数据进行了补充增强，因此能够提升图文预训练模型的训练效果，提升模型的准确性。除此之外，由于损失函数是根据对比损失以及语言建模损失共同构建，并且，对作为训练数据的图文数据对的标签进行了标签平滑，未使用传统的标签，而是使用平滑后的标签以及数据增强后的图文增强数据集进行模型训练，从多个维度提高了模型训练的准确性，能够提高模型的准确性和稳定性。

本公开实施例中，还提供了一种图文数据处理方法，参考图10中所示，主要包括以下步骤：

在步骤S1001中，获取待处理图文数据；

在步骤S1002中，将所述待处理图文数据输入训练好的图文预训练模型进行特征提取，得到所述待处理图文数据的目标特征；

在步骤S1003中，基于所述目标特征对所述待处理图文数据进行目标操作，获取目标任务对应的操作结果。

本公开实施例中，待处理图文数据可以为待处理图像或者是待处理文本，具体根据目标任务的类型而确定。目标任务可以为检索任务或者是生成任务等等，也可以为其他类型的任务，具体根据应用场景以及应用系统而确定。检索任务可以为图像检索任务或者是文本检索任务。生成任务可以为图像生成任务以及文本生成任务等等，其中文本生成任务可以为生成广告文本或者是生成描述文本等等，具体根据实际需求而确定。举例而言，若目标任务为图像检索任务，则待处理图文数据可以为待处理文本。若目标任务为文本生成任务，则待处理图文数据可以为待处理图像。

接下来，可以将待处理图文数据输入至训练好的图文预训练模型中，通过图文预训练模型的编码器对待处理图文数据进行编码处理，得到待处理图文数据对应的目标特征。

进一步地，可以将目标特征与存储器中存储的多个参考特征进行对比检索，以得到与该目标特征匹配的参考特征，从而基于参考特征进行目标操作，得到符合目标任务的操作结果。目标任务可以为各种类型的任务，例如检索、生成、问答等等。目标操作可以为目标任务对应，例如可以为检索或者是生成等等。

其中，目标任务不同，则根据目标特征获取操作结果的过程也不同。具体地，若目标任务为检索任务，可将目标特征与存储器中存储的多个参考特征进行对比检索，以得到与该目标特征匹配的参考特征，从而将参考特征对应的图像或文本确定为操作结果，以对待处理图文数据进行检索操作，得到符合目标任务的操作结果。举例而言，待处理图文数据为文本“桌子”，目标任务为图像检索任务，则操作结果为所有桌子的图像。

若目标任务为生成任务，可将目标特征与存储器中存储的多个参考特征进行对比检索，以得到与该目标特征匹配的参考特征，进一步将参考特征输入至解码器得到解码信息，以将解码信息作为操作结果。解码器可以为图像解码器或者是文本解码器，具体根据目标任务要求输出的类型而确定。当目标任务为文本生成时，可以将图像特征与存储器中存储的参考特征进行对比，得到匹配的参考特征，进一步通过文本解码器对参考特征进行解码，得到对应的文本，以将对应的文本确定为操作结果，实现对待处理图文数据进行生成操作，得到符合目标任务的操作结果。例如，文本生成任务中，待处理图文数据为图像，操作结果为“一只小狗坐在草地上”。

本公开实施例中的技术方案，通过数据增强得到的图文数据增强对训练得到的图文预训练模型，对待处理图文数据进行特征提取得到目标特征，进而对目标特征进行拟合，实现目标任务，能够提高获取的操作结果的准确性和真实性。

本公开实施例中提供了一种模型训练装置，参考图11中所示，该模型训练装置1100可以包括：

图文数据对获取模块1101，用于获取图文数据对，并根据所述图文数据对获取原始图文数据集；

图像标注模块1102，用于将所述原始图文数据集中的每个图像进行图像标注，得到每个图像对应的标注文本；

文本增强模块1103，用于对所述原始图文数据集中每个图像的原始文本以及标注文本进行组合，得到增强文本；

模型训练控制模块1104，用于根据每个图像以及所述增强文本构成的图文增强数据集对图文预训练模型进行训练，得到训练好的图文预训练模型。

在本公开的一种示例性实施例中，图像标注模块包括：标注控制模块，用于根据图像标注模型对所述每个图像进行图像标注，得到用于描述每个图像的图像内容的标注文本。

在本公开的一种示例性实施例中，标注控制模块包括：标注文本生成模块，用于根据图像标注模型获取每个图像的图像特征，并对所述图像特征进行文本解码，生成所述标注文本。

在本公开的一种示例性实施例中，所述装置还包括：模型参数调整模块，用于通过开源图像标注数据集或所述原始图文数据集对图像标注模型的模型参数进行调整，以训练所述图像标注模型。

在本公开的一种示例性实施例中，文本增强模块包括：文本组合模块，用于通过文本组合方式对所述原始文本以及所述标注文本进行组合，得到所述增强文本；所述文本组合方式包括文本拼接、文本随机选择以及最大图文相关性选择中的一种或多种。

在本公开的一种示例性实施例中，所述文本组合方式为最大图文相关性选择；文本组合模块包括：第一图文相关性获取模块，用于获取所述原始文本与所述图像的第一图文相关性；第二图文相关性获取模块，用于获取所述标注文本与所述图像的第二图文相关性；增强文本确定模块，用于根据所述第一图文相关性和所述第二图文相关性中的最大图文相关性，确定所述增强文本。

在本公开的一种示例性实施例中，模型训练控制模块包括：标签平滑模块，用于对所述图文增强数据集中每个图文数据对的标签进行标签平滑，得到平滑后的标签；参数调整模块，用于根据图文增强数据集中每个图文数据对以及每个图文数据对的平滑后的标签，对所述图文预训练模型的模型参数进行调整，直至损失函数满足预设条件为止，以得到训练好的图文预训练模型。

在本公开的一种示例性实施例中，标签平滑模块被配置为：根据标签平滑因子以及类别数量，对所述图文增强数据集中的图文数据对的标签进行标签平滑，以获取所述图文增强数据集中每个图文数据对的平滑后的标签。

在本公开的一种示例性实施例中，所述装置还包括：损失函数确定模块，用于根据对比损失以及语言建模损失确定所述损失函数。

本公开实施例中提供了一种图文数据处理装置，参考图12中所示，该图文数据处理装置1200可以包括：

数据获取模块1201，用于获取待处理图文数据；

特征提取模块1202，用于将所述待处理图文数据输入训练好的图文预训练模型进行特征提取，得到所述待处理图文数据的目标特征；所述训练好的图文预训练模型根据上述任意一项所述的模型训练方法训练得到；

目标任务执行模块1203，用于基于所述目标特征对所述待处理图文数据进行目标操作，获取目标任务对应的操作结果。

需要说明的是，上述模型训练装置和图文数据处理装置中各部分的具体细节在模型训练方法以及图文数据处理方法的部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

本公开的示例性实施方式还提供一种电子设备。该电子设备可以是上述终端110。一般的，该电子设备可以包括处理器与存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行上述方法。

下面以图13中的移动终端1300为例，对该电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图13中的构造也能够应用于固定类型的设备。

如图13所示，移动终端1300具体可以包括：处理器1301、存储器1302、总线1303、移动通信模块1304、天线1、无线通信模块1305、天线2、显示屏1306、摄像模块1307、音频模块1308、电源模块1309与传感器模块1310。

处理器1301可以包括一个或多个处理单元，例如：处理器1301可以包括AP(Application Processor，应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit，图形处理器)、ISP(Image Signal Processor，图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor，数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit，神经网络处理器)等。本示例性实施方式中的方法可以由AP、GPU或DSP来执行，当方法涉及到神经网络相关的处理时，可以由NPU来执行，例如NPU可以加载神经网络参数并执行神经网络相关的算法指令。

编码器可以对图像或视频进行编码(即压缩)，以减小数据大小，便于存储或发送。解码器可以对图像或视频的编码数据进行解码(即解压缩)，以还原出图像或视频数据。移动终端1300可以支持一种或多种编码器和解码器，例如：JPEG(Joint PhotographicExperts Group，联合图像专家组)、PNG(Portable Network Graphics，便携式网络图形)、BMP(Bitmap，位图)等图像格式，MPEG(Moving Picture Experts Group，动态图像专家组)1、MPEG10、H.1063、H.1064、HEVC(High Efficiency Video Coding，高效率视频编码)等视频格式。

处理器1301可以通过总线1303与存储器1302或其他部件形成连接。

存储器1302可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器1301通过运行存储在存储器1302的指令，执行移动终端1300的各种功能应用以及数据处理。存储器1302还可以存储应用数据，例如存储图像，视频等文件。

移动终端1300的通信功能可以通过移动通信模块1304、天线1、无线通信模块1305、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块1304可以提供应用在移动终端1300上3G、4G、5G等移动通信解决方案。无线通信模块1305可以提供应用在移动终端1300上的无线局域网、蓝牙、近场通信等无线通信解决方案。

显示屏1306用于实现显示功能，如显示用户界面、图像、视频等。摄像模块1307用于实现拍摄功能，如拍摄图像、视频等，且摄像模块中可以包含色温传感器阵列。音频模块1308用于实现音频功能，如播放音频，采集语音等。电源模块1309用于实现电源管理功能，如为电池充电、为设备供电、监测电池状态等。传感器模块1310可以包括一种或多种传感器，用于实现相应的感应检测功能。例如，传感器模块1310可以包括惯性传感器，其用于检测移动终端1300的运动位姿，输出惯性传感数据。

需要说明的是，本公开实施例中还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种模型训练方法，其特征在于，包括：

获取图文数据对，并根据所述图文数据对获取原始图文数据集；

将所述原始图文数据集中的每个图像进行图像标注，得到每个图像对应的标注文本；

对所述原始图文数据集中每个图像的原始文本以及标注文本进行组合，得到增强文本；

根据每个图像以及所述增强文本构成的图文增强数据集对图文预训练模型进行训练，得到训练好的图文预训练模型。

2.根据权利要求1所述的模型训练方法，其特征在于，所述将所述原始图文数据集中的每个图像进行图像标注，得到所述每个图像对应的标注文本，包括：

根据图像标注模型对所述每个图像进行图像标注，得到用于描述每个图像的图像内容的标注文本。

3.根据权利要求2所述的模型训练方法，其特征在于，所述根据图像标注模型对所述每个图像进行图像标注，得到用于描述每个图像的图像内容的标注文本，包括：

根据图像标注模型获取每个图像的图像特征，并对所述图像特征进行文本解码，生成所述标注文本。

4.根据权利要求2所述的模型训练方法，其特征在于，所述方法还包括：

通过开源图像标注数据集或所述原始图文数据集对图像标注模型的模型参数进行调整，以训练所述图像标注模型。

5.根据权利要求1所述的模型训练方法，其特征在于，所述对所述原始图文数据集中每个图像的原始文本以及标注文本进行组合，得到增强文本，包括：

通过文本组合方式对所述原始文本以及所述标注文本进行组合，得到所述增强文本；所述文本组合方式包括文本拼接、文本随机选择以及最大图文相关性选择中的一种或多种。

6.根据权利要求5所述的模型训练方法，其特征在于，所述文本组合方式为最大图文相关性选择；所述通过文本组合方式对所述原始文本以及所述标注文本进行组合，得到所述增强文本，包括：

获取所述原始文本与所述图像的第一图文相关性；

获取所述标注文本与所述图像的第二图文相关性；

根据所述第一图文相关性和所述第二图文相关性中的最大图文相关性，确定所述增强文本。

7.根据权利要求1所述的模型训练方法，其特征在于，所述根据每个图像以及所述增强文本构成的图文增强数据集对图文预训练模型进行训练，得到训练好的图文预训练模型，包括：

对所述图文增强数据集中每个图文数据对的标签进行标签平滑，得到平滑后的标签；

根据图文增强数据集中每个图文数据对以及每个图文数据对的平滑后的标签，对所述图文预训练模型的模型参数进行调整，直至损失函数满足预设条件为止，以得到训练好的图文预训练模型。

8.根据权利要求7所述的模型训练方法，其特征在于，所述对所述图文增强数据集中每个图文数据对的标签进行标签平滑，得到平滑后的标签，包括：

根据标签平滑因子以及类别数量，对所述图文增强数据集中的图文数据对的标签进行标签平滑，以获取所述图文增强数据集中每个图文数据对的平滑后的标签。

9.根据权利要求7所述的模型训练方法，其特征在于，所述方法还包括：

根据对比损失以及语言建模损失确定所述损失函数。

10.一种图文数据处理方法，其特征在于，包括：

获取待处理图文数据；

将所述待处理图文数据输入训练好的图文预训练模型进行特征提取，得到所述待处理图文数据的目标特征；所述训练好的图文预训练模型根据权利要求1-9任意一项所述的模型训练方法训练得到；

基于所述目标特征对所述待处理图文数据进行目标操作，获取目标任务对应的操作结果。

11.一种模型训练装置，其特征在于，包括：

图文数据对获取模块，用于获取图文数据对，并根据所述图文数据对获取原始图文数据集；

图像标注模块，用于将所述原始图文数据集中的每个图像进行图像标注，得到所述每个图像对应的标注文本；

文本增强模块，用于对所述原始图文数据集中每个图像的原始文本以及标注文本进行组合，得到增强文本；

模型训练控制模块，用于根据每个图像以及所述增强文本构成的图文增强数据集对图文预训练模型进行训练，得到训练好的图文预训练模型。

12.一种图文数据处理装置，其特征在于，包括：

数据获取模块，用于获取待处理图文数据；

特征提取模块，用于将所述待处理图文数据输入训练好的图文预训练模型进行特征提取，得到所述待处理图文数据的目标特征；所述训练好的图文预训练模型根据权利要求1-9任意一项所述的模型训练方法训练得到；

目标任务执行模块，用于基于所述目标特征对所述待处理图文数据进行目标操作，获取目标任务对应的操作结果。

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任意一项所述的模型训练方法或权利要求10所述的图文数据处理方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9任意一项所述的模型训练方法或权利要求10所述的图文数据处理方法。