CN115187839B

CN115187839B - 图文语义对齐模型训练方法及装置

Info

Publication number: CN115187839B
Application number: CN202211118758.6A
Authority: CN
Inventors: 陈畅新; 李展铿
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-16
Anticipated expiration: 2042-09-15
Also published as: CN115187839A

Abstract

本发明公开了一种图文语义对齐模型训练方法及装置，该方法包括：根据若干个原始图像，获取细粒度样本数据集；对所有所述细粒度训练样本组中的所述子图像进行数据增强，获得对应于每个所述子图像的增强子图像；根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型。通过原始图像建立关于各前景目标的细粒度样本数据集，并通过对样本数据集中的前景图像进行数据增强，与原始的细粒度样本数据集结合，获得了与各个前景目标所对称的文本标签，由此训练获得了收敛的细粒度图文语义对齐模型，避免了图文语义不对称的问题，并提升了以图搜文和以文搜图等图文匹配应用场景下的准确度。

Description

图文语义对齐模型训练方法及装置

技术领域

本发明涉及图文信息识别技术领域，尤其涉及一种图文语义对齐模型训练方法及装置。

背景技术

在图文信息检索和识别任务中，可以通过输入的文本匹配相近的图像，或通过输入图像匹配图像内容对应的文本。当前的图文对齐模型在应用中，通常将包含复杂目标和背景的完整图像，及整段描述图像内容的文本直接进行配对。

但是，这种配对方式只能获得整图及对应文本描述中关键词的粗粒度信息，模型难以学习到图像中具体目标对应的所有语义信息。例如，对于包含风景、人物及车辆等大量目标的图像，对应的宣传语文本中仅提到了车辆相关的信息，导致图像中的人物、风景等目标在文本中没有对应的信息表征，导致图文语义对齐存在对齐偏差。因此，由于文本标签与图像目标不对称，导致图文语义对齐模型训练存在困难，且模型效果不好。故需要一种图文语义对齐模型训练方法，以获得收敛的图文语义对齐模型，并提升图文匹配的准确度。

发明内容

本发明所要解决的技术问题在于，图文信息检索和识别任务中，由于文本标签与图像目标不对称，导致图文语义对齐模型训练存在困难，且模型效果不好。

为了解决上述技术问题，本发明第一方面公开了一种图文语义对齐模型训练方法，包括：

根据若干个原始图像，获取细粒度样本数据集；其中，所述细粒度样本数据集包括若干个细粒度训练样本组；每个所述细粒度训练样本组包括：对应的原始图像中各前景目标的子图像及子图像对应的文本标签；每个所述子图像对应的文本标签包括第一标签和第二标签，且每个所述子图像对应的文本标签包括的第二标签为该子图像对应的文本标签包括的第一标签的细粒度标签；

对所有所述细粒度训练样本组中的所述子图像进行数据增强，获得对应于每个所述子图像的增强子图像；

根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型；

其中，所述细粒度图文语义对齐模型用于实现待识别图像中每个前景目标及对应的文本标签的对齐。

作为一种可选的实施方式，所述根据若干个原始图像，获取细粒度样本数据集，包括：

建立前景目标检测网络；

根据所述前景目标检测网络，检测每个原始图像中的所有前景目标；

对于每个所述原始图像，根据该原始图像中的所有前景目标，获得对应于每个前景目标的子图像，并确定每个前景目标对应的子图像的文本标注信息，根据每个前景目标对应的子图像及其文本标注信息，生成该原始图像对应的细粒度训练样本组；

根据所有所述原始图像对应的细粒度训练样本组，生成细粒度样本数据集。

作为一种可选的实施方式，对于每个所述原始图像，所述根据该原始图像中的所有前景目标，获得对应于每个前景目标的子图像之后，所述方法还包括：

对于该原始图像中任一前景目标对应的任一子图像，对该子图像进行缩放处理，得到缩放后的子图像，并将该缩放后的子图像粘贴在预定尺寸的画布上，得到预定尺寸的子图像，并将该预定尺寸的子图像替换为该前景目标对应的子图像。

作为一种可选的实施方式，所述方法还包括：

在训练获得所述细粒度图文语义对齐模型的过程中，计算所述细粒度图文语义对齐模型的损失函数，并根据所述损失函数判断所述细粒度图文语义对齐模型是否收敛；

若判断结果为是，则确定对所述细粒度图文语义对齐模型训练完成；

以及，所述损失函数包括：第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数；

其中，所述第一损失函数为所有所述子图像与对应的第一标签之间的图文对互信息损失函数；所述第二损失函数为所有所述增强子图像与相应子图像对应的第一标签之间的图文对互信息损失函数；所述第三损失函数为所有所述子图像与对应的第二标签之间的图文对互信息损失函数；所述第四损失函数为所有所述增强子图像与相应子图像对应的第二标签之间的图文对互信息损失函数；所述第五损失函数为所有所述子图像与相应增强图像之间的自监督损失函数。

作为一种可选的实施方式，所述确定对所述细粒度图文语义对齐模型训练完成之后，所述方法还包括：

基于构建好的前景目标检测网络，获取待测图像中的各个前景对象；

将每个所述前景对象逐一输入至所述细粒度图文语义对齐模型，获得每个所述前景对象与对应的目标文本标签之间的置信度；

对于每个所述前景对象，判断该前景对象与对应的目标文本标签之间的置信度是否高于预定阈值，则输出该前景对象与对应的目标文本标签。

作为一种可选的实施方式，所述根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型之后，所述方法还包括：

根据预先确定出的粗粒度数据集对所述细粒度图文语义对齐模型进行模型微调操作，得到粗粒度图文语义对齐模型；其中，所述粗粒度数据集包括若干个粗粒度样本组，每个所述粗粒度样本组包括：训练用图像及该训练用图像对应的文本描述信息；

其中，所述粗粒度图文语义对齐模型用于进行输入长文本与输出图像的匹配，或输入图像与输出长文本的匹配。

作为一种可选的实施方式，所述根据预先确定出的粗粒度数据集对所述细粒度图文语义对齐模型进行模型微调操作，得到粗粒度图文语义对齐模型之后，所述方法还包括：

基于标签平滑策略确定每个所述训练用图像与其对应的文本描述信息之间的自相关信息以及每个所述训练用图像与其它文本描述信息之间的它相关信息；

根据每个所述训练用图像对应的自相关信息及每个所述训练用图像对应的它相关信息，计算所述粗粒度图文语义对齐模型的损失函数；

根据所述粗粒度图文语义对齐模型的损失函数判断所述粗粒度图文语义对齐模型是否收敛，若是，则确定完成对所述细粒度图文语义对齐模型的模型微调操作。

本发明第二方面提供一种图文语义对齐模型训练装置，所述装置包括：

数据集获取模块，用于根据若干个原始图像，获取细粒度样本数据集；

其中，所述细粒度样本数据集包括若干个细粒度训练样本组；每个所述细粒度训练样本组包括：对应的原始图像中各前景目标的子图像及子图像对应的文本标签；每个所述子图像对应的文本标签包括第一标签和第二标签，且每个所述子图像对应的文本标签包括的第二标签为该子图像对应的文本标签包括的第一标签的细粒度标签；

数据集增强模块，用于对所有所述细粒度训练样本组中的所述子图像进行数据增强，获得对应于每个所述子图像的增强子图像；

模型训练模块，用于根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型；

作为一种可选的实施方式，所述数据集获取模块根据若干个原始图像，获取细粒度样本数据集的具体方式包括：

建立前景目标检测网络；

作为一种可选的实施方式，所述数据集获取模块根据若干个原始图像，获取细粒度样本数据集的具体方式还包括：

对于每个所述原始图像，在根据该原始图像中的所有前景目标，获得对应于每个前景目标的子图像之后，对于该原始图像中任一前景目标对应的任一子图像，对该子图像进行缩放处理，得到缩放后的子图像，并将该缩放后的子图像粘贴在预定尺寸的画布上，得到预定尺寸的子图像，并将该预定尺寸的子图像替换为该前景目标对应的子图像。

作为一种可选的实施方式，所述装置还包括收敛判断模块；

所述收敛判断模块，用于：

在所述模型训练模块训练获得所述细粒度图文语义对齐模型的过程中，计算所述细粒度图文语义对齐模型的损失函数，并根据所述损失函数判断所述细粒度图文语义对齐模型是否收敛；

作为一种可选的实施方式，所述装置还包括匹配模块；

所述匹配模块，用于：

在所述收敛判断模块确定对所述细粒度图文语义对齐模型训练完成之后，

作为一种可选的实施方式，所述装置还包括调整模块；

其中，所述调整模块，用于：

在所述模型训练模块根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型之后，根据预先确定出的粗粒度数据集对所述细粒度图文语义对齐模型进行模型微调操作，得到粗粒度图文语义对齐模型；其中，所述粗粒度数据集包括若干个粗粒度样本组，每个所述粗粒度样本组包括：训练用图像及该训练用图像对应的文本描述信息；

作为一种可选的实施方式，所述调整模块，还用于：

在根据预先确定出的粗粒度数据集对所述细粒度图文语义对齐模型进行模型微调操作，得到粗粒度图文语义对齐模型之后，基于标签平滑策略确定每个所述训练用图像与其对应的文本描述信息之间的自相关信息以及每个所述训练用图像与其它文本描述信息之间的它相关信息；

本发明第三方面公开了另一种图文语义对齐模型训练装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的图文语义对齐模型训练方法。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的图文语义对齐模型训练方法。

与现有技术相比，本发明实施例具有以下有益效果：通过原始图像建立关于各前景目标的细粒度样本数据集，并通过对样本数据集中的前景图像进行数据增强，与原始的细粒度样本数据集结合，获得了与各个前景目标所对称的文本标签，由此训练获得了收敛的细粒度图文语义对齐模型，避免了图文语义不对称的问题，并提升了以图搜文和以文搜图等图文匹配应用场景下的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种图文语义对齐模型训练的场景示意图；

图2是本发明实施例一公开的一种图文语义对齐模型训练方法的流程示意图；

图3是本发明实施例二公开的一种图文语义对齐模型训练方法的流程示意图；

图4是本发明实施例三公开的一种图文语义对齐模型训练装置的结构示意图；

图5是本发明实施例三公开的另一种图文语义对齐模型训练装置的结构示意图；

图6是本发明实施例四公开的一种图文语义对齐模型训练装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在图文信息检索和识别任务中，可以通过输入的文本匹配相近的图像，或通过输入图像匹配图像内容对应的文本。当前的图文对齐模型在应用中，通常将包含复杂目标和背景的完整图像及整段描述图像内容的文本直接进行配对。

但是，这种配对方式只能获得整图及对应文本描述中关键词的粗粒度信息，模型难以学习到图像中具体目标对应的所有语义信息。由此，会造成图像中的部分前景目标没有对应的语义信息，出现文本标签不对称的现象。同时，由于不对称的文本标签，导致图文语义对齐模型训练存在困难，即使模型最终能够收敛，其模型效果往往不好，对于某些场景难以准确把握图像中的重点目标。由此需要一种图文语义对齐模型训练方法，以获得收敛的图文语义对齐模型，并提升图文匹配的准确度。

请参阅图1，图1是本发明实施例公开的一种图文语义对齐模型训练的场景示意图，用以示例说明前述场景。如图1所示，某汽车广告中包含风景、人物及车辆，而对应的宣传语文本中仅提到了车辆相关的信息，导致图像中的人物、风景等目标在文本中没有对应的信息表征，更进一步的，对于车辆的具体品牌、性能等信息也难以准确定位，导致图文语义对齐存在对齐偏差，特定场景下，这种偏差相对于原本的目标是不可接受的。例如，在不知道匹配文本，通过图像搜索对应文本的场景下，现有的算法可能最终将重点落在人物上，若图中的人物是名人，则更可能将其识别为特定名人相关的语段，导致信息出现偏差；另外，如果用户想通过图像搜索特定车型相关的参数及品牌信息，则现有算法可能仅将图像中的车辆识别为车辆大类，无法准确获知其细粒度品类，因此文本匹配的准确度也可能存在偏差。而对于以文搜图的应用，同样可能存在相应的问题。

本发明提出了一种对所有前景目标进行细粒度标注的语义对齐模型训练及优化方法，其技术构思在于，对于特定的图文对，为图像中的每个可以作为前景目标的子图像加上品类和细粒度标签，以避免文本标签不对称的现象，进而确保能够顺利训练获得收敛的图文语义对齐模型，以此，在应用中能够提升图文匹配的准确度。

本发明公开了一种图文语义对齐模型训练方法及装置，通过原始图像建立关于各前景目标的细粒度样本数据集，并通过对样本数据集中的前景图像进行数据增强，与原始的细粒度样本数据集结合，获得了与各个前景目标所对称的文本标签，由此训练获得了收敛的细粒度图文语义对齐模型，并提升了以图搜文和以文搜图等图文匹配应用场景下的准确度。

实施例一

请参阅图2，图2是本发明实施例一公开的一种图文语义对齐模型训练方法的流程示意图。如图2所示，所述图文语义对齐模型训练方法可以包括以下操作：

S101、根据若干个原始图像，获取细粒度样本数据集；

S102、对所有所述细粒度训练样本组中的所述子图像进行数据增强，获得对应于每个所述子图像的增强子图像；

S103、根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型。

如上所述，本申请技术构思在于，对于特定的图文对，为图像中的每个可以作为前景目标的子图像加上品类和细粒度标签，以避免文本标签不对称的现象，进而确保能够顺利训练获得收敛的图文语义对齐模型。

具体的，首先需要通过用于训练的原始图像数据集，根据若干个原始图像，获取细粒度样本数据集；其中，所述细粒度样本数据集包括若干个细粒度训练样本组；每个所述细粒度训练样本组包括：对应的原始图像中各前景目标的子图像及子图像对应的文本标签；每个所述子图像对应的文本标签包括第一标签和第二标签，且每个所述子图像对应的文本标签包括的第二标签为该子图像对应的文本标签包括的第一标签的细粒度标签。

根据原始图像可以从中提取各个前景目标的子图像，并为每个前景目标进行基本标签及细粒度标签的标注，基本标签即前文所述的第一标签，细粒度标签即前文所述的第二标签。例如，在图1所示的场景下，可将其中的人、车、山、云分别提取出来并进行两个层次标签的标注，对于图中的人，其第一标签可以为人，第二标签可以为男人，或者具体的人名，或者中国人、亚洲人、黄种人等“人”大类下的具体标签。在后续的训练中，还可以在图文语义对齐模型的训练过程中额外准备一批天、山、云等背景意象的图片，以进行图文语义对齐模型的训练。但是，需要说明的是，这个背景数据集不参与前景目标提取模型的训练，除非这些意象作为特定场景下的前景目标出现，换言之，这个背景数据集的主要意义在于提供一批背景意象，以实现和前景目标的区别，在获取细粒度样本数据集的过程中，确保所提取的子图像为前景目标。前景目标的基本标签可以由开源的分类模型或目标识别模型进行预测，以减少人工标注的工作量，之后，可由人工进行基本标签的修正以及细粒度标签的标注，显然，在第一标签和第二标签的标注过程中，均可采用算法自动标注或是人工标注的形式，取决于具体应用场景。

形成若干个细粒度训练样本组之后，可对所述若干个细粒度训练样本组中的对所有所述细粒度训练样本组中的所述子图像进行数据增强，获得对应于每个所述子图像的增强子图像。数据增强则包括对比度变换、颜色空间变换、尺度变换、分辨率变换、位置变换等多种手段。之后，根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型。训练模型的过程同样也可以视作将对应的增强子图像纳入原本的细粒度训练样本组，并对原本的细粒度训练样本组进行内容上的更新，使用更新后的细粒度训练样本组进行模型训练。其中，所述细粒度图文语义对齐模型用于实现待识别图像中每个前景目标及对应的文本标签的对齐。所述细粒度图文语义对齐模型根据所述子图像、所述增强子图像、所述第一标签、所述第二标签四者两两之间的信息关系所计算获得的损失函数，实现模型参数的调整直至模型收敛。进一步的，针对本申请，还可根据需要，相应扩展出二重甚至多重细粒度的各级标签，相应的模型参数及损失函数等需要进行对应调整，通过图像之间、图像和多级的标签文本之间的信息关系设计损失函数，损失函数可以是类似本申请所述的，表征两两之间的信息关系，也可以是多元组的损失函数。

本实施方式通过原始图像建立关于各前景目标的细粒度样本数据集，并通过对样本数据集中的前景图像进行数据增强，与原始的细粒度样本数据集结合，获得了与各个前景目标所对称的文本标签，由此训练获得了收敛的细粒度图文语义对齐模型，避免了图文语义不对称的问题，并提升了图文匹配应用场景下的准确度。

一种示例，在其他任一实施方式的基础上，S101具体包括：

建立前景目标检测网络；

对于细粒度目标的图文语义数据集的构建，可通过前景目标检测网络实现。首先，建立前景目标检测网络，为简化算法，所述前景目标检测网络可以不具备实质上的分类功能，仅具备一个检测功能即可，因此可将网络的输出类别设置为1，或者，不对输出类别进行处理，但在完成输出之后忽视其原始的类别标注，将其视作一个“子图像”大类。

之后，对于每个所述原始图像，根据该原始图像中的所有前景目标，获得对应于每个前景目标的子图像，并确定每个前景目标对应的子图像的文本标注信息，根据每个前景目标对应的子图像及其文本标注信息，生成该原始图像对应的细粒度训练样本组。检测网络可采用轻量级的Yolov5进行实现，如前所述，一种较为简便的方法即把网络的输出类别数改为1，不进行分类任务，把所有的检测目标视为同一个类别。所用的训练数据可以包含多样化的目标，以增强检测模型的泛化性，例如，在类似图1所述的示例中，还可以包含动物、楼房、风筝等一系列复杂的目标。最后，根据所述子图像进行所述文本标签的标注，获得所述细粒度样本数据集。例如，图1中可将车和人分别裁剪并保存，最后得到对应的标注：车的图像-汽车-某品牌某型号汽车；人的图像-人-男人。进一步的，如果采用多级细粒度标签的策略，还可以进行形如车的图像-汽车-某品牌汽车-某品牌某型号汽车的标注，并在之后的图文语义对齐模型中，通过多级细粒度标签进行应用。本示例通过前景网络的设计完成子图像的识别和裁剪，并对得到的子图像进行文本标签的一一标注，避免了图文语义对齐偏差的问题。

一种示例，对于每个所述原始图像，所述根据该原始图像中的所有前景目标，获得对应于每个前景目标的子图像之后，所述方法还包括：

目标检测网络，可将图像中的目标检测并裁剪出来，得到子图像，但是，所获得的子图像的尺寸往往不一致，需要经过缩放并统一尺寸，此外，在对整体图像信息影响不大的条件下，例如，若子图像存在较大的条带状空白区域，还可以对其进行进一步的裁剪。具体的，由于前述目标子图像经过裁剪后，尺寸相比于原图会减小很多，并且其宽高将变得非常不统一，因此需要统一使用相同大小的画布，与网络输入维度进行匹配，例如128*128，随后，再把裁剪后的图像的长边缩放至128，短边则按对应比例进行缩放，例如，1000*500的图片，可将长边缩放至128，短边缩放至64，剩余的128*64的像素用灰度0进行填补。缩放完成的图像粘贴在画布上，此时输入到模型的图像尺寸即统一为128*128。最后，将该前景目标所对应的子图像进行内容的替换，把缩放处理后的，预定尺寸的子图像替换为前述子图像。通过子图像的缩放，完成了输入模型图像维度的统一，确保了模型训练的可行性，避免训练过程中不必要的出错，以获得收敛的图文语义对齐模型。

本实施例提供一种图文语义对齐模型训练方法，方法包括：根据若干个原始图像，获取细粒度样本数据集；对所有所述细粒度训练样本组中的所述子图像进行数据增强，获得对应于每个所述子图像的增强子图像；根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型。通过原始图像建立关于各前景目标的细粒度样本数据集，并通过对样本数据集中的前景图像进行数据增强，与原始的细粒度样本数据集结合，获得了与各个前景目标所对称的文本标签，由此训练获得了收敛的细粒度图文语义对齐模型，避免了图文语义不对称的问题，并提升了以图搜文和以文搜图等图文匹配应用场景下的准确度。

实施例二

请参阅图3，图3是本发明实施例二公开的一种图文语义对齐模型训练方法的流程示意图。如图3所示，在其他任一实施方式的基础上，所述方法还包括：

S201、根据若干个原始图像，获取细粒度样本数据集；

S202、对所有所述细粒度训练样本组中的所述子图像进行数据增强，获得对应于每个所述子图像的增强子图像；

S203、根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型；在训练获得所述细粒度图文语义对齐模型的过程中，计算所述细粒度图文语义对齐模型的损失函数，并根据所述损失函数判断所述细粒度图文语义对齐模型是否收敛；

S204、若判断结果为是，则确定对所述细粒度图文语义对齐模型训练完成。

本发明实施例二中，针对步骤201、步骤202以及步骤203中与步骤103相同部分的描述，请参照实施例一中针对步骤101-步骤103的详细描述，本发明实施例二不再赘述。

由于输入的文本信息包括基础的第一标签和细粒度的第二标签，以及前述获得了子图像对应的增强子图像，因此，可将这些数据两两组合，并根据一定的算法进行叠加，以获得损失函数。

具体的，在训练获得所述细粒度图文语义对齐模型的过程中，计算所述细粒度图文语义对齐模型的损失函数，并根据所述损失函数判断所述细粒度图文语义对齐模型是否收敛；若判断结果为是，则确定对所述细粒度图文语义对齐模型训练完成。

一种最常用、简便的叠加方法，首先依照训练目的，计算损失函数的各个分量，然后直接将损失函数的各个部分进行相加。由于在本申请的场景之下，考虑文本之间的相关性并没有多少实际意义，两个标签文本之间的逻辑关系是比较明确的，为基础标签和细粒度标签的关系，因此，可以仅考虑剩下的五个，由前述子图像、增强子图像、第一标签、第二标签所计算得到的，两两之间的损失函数。

具体的，所述损失函数包括：第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数；其中，所述第一损失函数为所有所述子图像与对应的第一标签之间的图文对互信息损失函数；所述第二损失函数为所有所述增强子图像与相应子图像对应的第一标签之间的图文对互信息损失函数；所述第三损失函数为所有所述子图像与对应的第二标签之间的图文对互信息损失函数；所述第四损失函数为所有所述增强子图像与相应子图像对应的第二标签之间的图文对互信息损失函数；所述第五损失函数为所有所述子图像与相应增强图像之间的自监督损失函数。根据实际需要，还可通过设置权重的方式，以限制损失函数的取值范围，或者突出其中某些损失函数分量的重要性，之后将对此详述。

通过CNN系列的图像编码器以及BERT系列的文本编码器，输出子图像编码特征、增强图像的编码特征以及与这两组图像所对齐的一级文本标签编码特征、二级文本标签编码特征。图像编码器需要去掉原始的分类层，重新为其添加两层全连接层，第一层用来改变特征维度，第二层用来转换特征空间。文本编码器同样去掉原始的分类层。构建图文编码器的时候需要确保二者最终输出的特征维度一致，方便进行之后的特征对齐。需要说明的是，在本申请的场景下，由于输入的图像经过裁剪和缩放后，尺寸通常不大，并且排除了很多背景和其他目标的干扰，特征的学习过程更加容易，因此可采用较轻量级的图像编码器及文本编码器结构，例如，图像编码器可以采用EfficientnetB0，文本编码器采用RBT3，裁剪和缩放可参见其他实施方式，这里不再赘述。

对于图文对互信息的损失函数，一种可行的方式是采用InfoNCELoss函数，比对所有图文对的互信息，每个原始的图文对为正样本，互信息最大；其余图文对为负样本，需要最小化它们的互信息。而图像之间的自监督损失函数可以采用SimSiamLoss，用来衡量原始图像与经过数据增强后的图像之间的相似性。由于前述直接将损失函数相加的办法，在实际应用中，对于每个损失函数还可以乘上一个大于0的权重系数，通常，为限制数据的尺度，将各项权重系数之和设置为1，对于直接叠加的场景可将五个部分均设置为0.2。但是，如果需要突出其中一个部分的重要性，也可以将其权重系数值设置的大一些，对于具体的设置规则，根据实际应用场景而定即可。

通过损失函数的设计，可以充分的表达图文对的相似性以及子图像与增强图像之间的相似性，使得模型的训练过程有明确的目标和可解释性，最终得到收敛的、可实现图像与文本标签对齐的模型。

一种示例，在S204之后，所述方法还包括：

完成模型的训练之后，可据此进行目标识别，即，对标签体系中的目标进行具体种类的识别。输入一张待测图像，首先基于构建好的前景目标检测网络，输出所有前景对象的检测框，以获取待测图像中各个前景对象的子图像，随后将每个所述前景对象逐一输入至所述细粒度图文语义对齐模型，获得每个所述前景对象与对应的目标文本标签之间的置信度，获得置信度以后，对于每个所述前景对象，判断该前景对象与对应的目标文本标签之间的置信度是否高于预定阈值，则输出该前景对象与对应的目标文本标签。若不高于设定阈值，则可以跳过该对象，进行人工处理，或是仅输出一个上层的、粗粒度的标签，待识别完成后通过其他模型或人工手段进行细粒度标签的确定，以确保检测的准确性。

另外，这种方法相对于传统的图像分类算法，模型能够学习到标签本身的含义。以往的图像分类算法，每个类别的数据对应于某个标签，该标签本身不具备实质含义，例如：汽车的图像在标签体系中对应“汽车”标签，如果希望检索“汽车”标签输出相关的所有汽车图像，这是可以实现的，但输入标签检索词“车”、“小车”时，由于标签体系中没有建立“车”、“小车”与“汽车”之间的相关性，因此将无法检索出相关的汽车图像。本案的方法通过图文语义对齐的方式来实现“分类”，但该“分类”标签本身是具备实质含义的，也即输入检索词“车”、“小车”、“轿车”时，由于这些文本本身与“汽车”存在较强的相关性，与其他标签类别“人”、“猫”等存在较大的差异性，因此一样可以输出相关的汽车图像。本实施方式通过构建好的前景目标检测网络获取待测图像中的各前景对象，并以置信度的形式对前景对象与目标文本之间的相关性进行表达，根据置信度阈值的筛选以输出相关性足够高的标签，提升了模型在应用中的准确性。

一种示例，在其他任一实施方式的基础上，S103之后，所述方法还包括：

根据预先确定出的粗粒度数据集对所述细粒度图文语义对齐模型进行模型微调操作，得到粗粒度图文语义对齐模型；

模型完成训练后，还可对此进行微调，以得到效果更佳的图文语义对齐模型。模型微调的预期目的在于，每个先验的文本关键词或图像目标，都能在生成其他模态数据时得到匹配的结果。首先，根据预先确定出的粗粒度数据集对所述细粒度图文语义对齐模型进行模型微调操作，得到粗粒度图文语义对齐模型；其中，所述粗粒度图文语义对齐模型用于进行输入长文本与输出图像的匹配，或输入图像与输出长文本的匹配，所述粗粒度数据集包括若干个粗粒度样本组，每个所述粗粒度样本组包括：训练用图像及该训练用图像对应的文本描述信息。训练用图像通常为类似图1所示的，一个具备多个前景目标，且前景目标之间存在关联和主次关系的图像，而对应的文本描述信息则为一个完整的语句，用于描述图像中的内容及场景。例如，若图1为粗粒度数据集中的一个训练用图像，则对应的描述信息可以是“一个男人站在一辆车牌号为XXXXXXX的A品牌汽车旁边并注视着这辆车”；但是粗粒度数据集中可能还会有类似的其他图像，而其他类似图像的对应描述信息则可能是“一个人站在草地上看着一辆汽车”。简言之，文本描述信息为体现全图内容的，综合性的描述信息。对于文本生成图像的任务，同样可通过本申请所述的预训练模型作为图文语义的先验知识，然后再设计新的生成模型，如GAN对抗网络或Transformer模型去生成相关图像。通过预先确定出的粗粒度数据集，在图文的整体匹配性上对细粒度图文语义对齐模型进行进一步的调整，可提升图文语义对齐模型在应用中的准确性。

一种示例，所述根据预先确定出的粗粒度数据集对所述细粒度图文语义对齐模型进行模型微调操作，得到粗粒度图文语义对齐模型之后，所述方法还包括：

具体的，粗粒度指整体图像与长文本之间的匹配关系，但文中的数据没有和图像的前景目标一一对齐，使用上述训练好的细粒度目标图文语义对齐模型在粗粒度的图文语义对齐数据集中进行微调，由于预训练模型能够做到每个具体目标的图文语义对齐，但其不包含一些口语化的词汇或连接词等，因此无法直接用于以文搜图或以图搜文。需要对粗粒度图文语义对齐模型再进行进一步的参数调整，使得模型具有更好的泛化性，并最终训练获得收敛的模型。所述标签平滑策略是一种通过相关信息计算获得损失函数的方法，首先基于标签平滑策略确定每个所述训练用图像与其对应的文本描述信息之间的自相关信息以及每个所述训练用图像与其它文本描述信息之间的它相关信息，通常情况下，对于所述训练用图像与其对应的文本描述信息的图文对之间的匹配标签为1，但是对于每个所述训练用图像与其它文本描述信息之间的匹配标签为0，这种情况下，模型的泛化性能可能不佳，并且，模型忽略了在粗粒度数据集中，所述训练用图像所对应的文本描述信息，与其它文本描述信息之间可能也会存在语义上一定的关联性。前述的1和0即所述自相关信息和它相关信息，若采用标签平滑策略，每个原始图文对之间的匹配标签不再是1，如标签平滑参数使用0.3，那么优化的匹配标签，即所述自相关信息为0.7，其余的图文对匹配标签，即所述它相关信息为0.3/（n-1），n代表图文对的总数。随后，可根据每个所述训练用图像对应的自相关信息及每个所述训练用图像对应的它相关信息，计算所述粗粒度图文语义对齐模型的损失函数；并在训练过程中，根据所述粗粒度图文语义对齐模型的损失函数判断所述粗粒度图文语义对齐模型是否收敛，若是，则确定完成对所述细粒度图文语义对齐模型的模型微调操作。

由于粗粒度的数据集中会存在很多无法一一对齐的情况，但可以表征整张图和整个长文本的整体匹配性。因此微调模型时，需要使用较小的学习率，防止丢失原始的细粒度图文对齐信息，例如2e-5的学习率是可行的。

通过上述方法微调得到粗粒度的图文语义对齐模型后，即可用于做以文搜图或以图搜文。当使用非常庞大的图文检索数据库时，由于先验的细粒度对齐学习，可以使得在输入例如“图中有个身着白衣T恤的人靠在一辆某品牌某型号的车上”的文本时，能够检索出多个关键词都一一对齐的图像，从而提高检索质量。若没有先验的细粒度对齐学习，则模型会从文本中提取出关键信息“人靠在车上”，从而检索出匹配度相对较低的图像。通过粗粒度损失函数的构建和计算，可防止丢失原始的细粒度图文对齐信息，提升了模型的泛化能力，获得了收敛的图文语义对齐模型，并且，提升了模型在以图搜文和以文搜图等图文匹配应用场景下的准确度。

本实施例提供一种图文语义对齐模型训练方法，通过损失函数的设计，可以充分的表达图文对的相似性以及子图像与增强图像之间的相似性，使得模型的训练过程有明确的目标和可解释性，最终得到收敛的、可实现图像与文本标签对齐的模型。

实施例三

本发明实施例三还提供一种图文语义对齐模型训练装置以实现前述方法，请参阅图4，图4是本发明实施例三公开的一种图文语义对齐模型训练装置的结构示意图。如图4所示，在其他任一实施例的基础上，所述装置包括：

数据集获取模块31，用于根据若干个原始图像，获取细粒度样本数据集；

数据集增强模块32，用于对所有所述细粒度训练样本组中的所述子图像进行数据增强，获得对应于每个所述子图像的增强子图像；

模型训练模块33，用于根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型；

一种示例，数据集获取模块31根据若干个原始图像，获取细粒度样本数据集的具体方式包括：

建立前景目标检测网络；

通过前景网络的设计完成子图像的识别和裁剪，并对得到的子图像进行文本标签的一一标注，避免了图文语义对齐偏差的问题。

一种示例，数据集获取模块31根据若干个原始图像，获取细粒度样本数据集的具体方式还包括：

通过子图像的缩放，完成了输入模型图像维度的统一，确保了模型训练的可行性，避免训练过程中不必要的出错，以获得收敛的图文语义对齐模型。

一种示例，请参阅图5，图5是本发明实施例三公开的另一种图文语义对齐模型训练装置的结构示意图。如图5所示，所述装置还包括收敛判断模块34；

收敛判断模块34，用于：

在模型训练模块33训练获得所述细粒度图文语义对齐模型的过程中，计算所述细粒度图文语义对齐模型的损失函数，并根据所述损失函数判断所述细粒度图文语义对齐模型是否收敛；

一种示例，如图5所示，所述装置还包括匹配模块35；

匹配模块35，用于：

在收敛判断模块34确定对所述细粒度图文语义对齐模型训练完成之后，

本实施方式通过构建好的前景目标检测网络获取待测图像中的各前景对象，并以置信度的形式对前景对象与目标文本之间的相关性进行表达，根据置信度阈值的筛选以输出相关性足够高的标签，提升了模型在应用中的准确性。

一种示例，如图5所示，所述装置还包括调整模块36；

其中，调整模块36，用于：

在模型训练模块33根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型之后，根据预先确定出的粗粒度数据集对所述细粒度图文语义对齐模型进行模型微调操作，得到粗粒度图文语义对齐模型；其中，所述粗粒度数据集包括若干个粗粒度样本组，每个所述粗粒度样本组包括：训练用图像及该训练用图像对应的文本描述信息；

通过预先确定出的粗粒度数据集，在图文的整体匹配性上对细粒度图文语义对齐模型进行进一步的调整，可提升图文语义对齐模型在应用中的准确性。

一种示例，调整模块36，还用于：

通过粗粒度损失函数的构建和计算，可防止丢失原始的细粒度图文对齐信息，提升了模型的泛化能力，获得了收敛的图文语义对齐模型，并且，提升了模型在以图搜文和以文搜图等图文匹配应用场景下的准确度。

实施例四

请参阅图6，图6是本发明实施例四公开的一种图文语义对齐模型训练装置的结构示意图。如图6所示，该图文语义对齐模型训练装置可以包括：

处理器（Processor）291，装置还包括了存储有可执行程序代码的存储器（Memory）292；还可以包括通信接口（Communication Interface）293和总线294。其中，处理器291、存储器292、通信接口293、可以通过总线294完成相互间的通信。通信接口293可以用于信息传输。处理器291与存储器292耦合，处理器291可以调用存储器292中的逻辑指令（可执行程序代码），以执行上述任一实施例所述的图文语义对齐模型训练方法。

此外，上述的存储器292中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器292作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本申请实施例中的方法对应的程序指令/模块。处理器291通过运行存储在存储器292中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器292可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器292可以包括高速随机存取存储器，还可以包括非易失性存储器。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被调用时用于实现任一实施例中所述的方法。

本发明实施例还公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行任一实施例中所描述的图文语义对齐模型训练方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器（Read-Only Memory，ROM）、随机存储器（Random Access Memory，RAM）、可编程只读存储器（Programmable Read-only Memory，PROM）、可擦除可编程只读存储器（ErasableProgrammable Read Only Memory，EPROM）、一次可编程只读存储器（One-timeProgrammable Read-Only Memory，OTPROM）、电子抹除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（CompactDisc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的图文语义对齐模型训练方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种图文语义对齐模型训练方法，其特征在于，所述方法包括：

其中，所述细粒度图文语义对齐模型用于实现待识别图像中每个前景目标及对应的文本标签的对齐；

以及，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所有所述细粒度训练样本组及所有所述细粒度训练样本组中的子图像对应的增强子图像，训练获得细粒度图文语义对齐模型之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预先确定出的粗粒度数据集对所述细粒度图文语义对齐模型进行模型微调操作，得到粗粒度图文语义对齐模型之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据若干个原始图像，获取细粒度样本数据集，包括：

建立前景目标检测网络；

5.根据权利要求4所述的方法，其特征在于，对于每个所述原始图像，所述根据该原始图像中的所有前景目标，获得对应于每个前景目标的子图像之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述确定对所述细粒度图文语义对齐模型训练完成之后，所述方法还包括：

7.一种图文语义对齐模型训练装置，其特征在于，所述装置包括：

收敛判断模块，用于在模型训练模块训练获得所述细粒度图文语义对齐模型的过程中，计算所述细粒度图文语义对齐模型的损失函数，并根据所述损失函数判断所述细粒度图文语义对齐模型是否收敛；

8.一种图文语义对齐模型训练装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-6任一项所述的图文语义对齐模型训练方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-6任一项所述的图文语义对齐模型训练方法。