CN116069905A

CN116069905A - 图像文本模型处理方法及图像文本检索系统

Info

Publication number: CN116069905A
Application number: CN202310221293.5A
Authority: CN
Inventors: 汪诚愚; 王小丹; 黄�俊
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-05-05

Abstract

本公开涉及一种图像文本模型处理方法及图像文本检索系统。输入多个图像文本样本对。从预设的概念图谱中获取用于训练的多个概念图像样本和/或多个概念文本样本。基于文本样本和多个概念图像样本训练图像文本模型，以使得文本样本与其对应的概念图像样本的相似度得分增大，而与其它文本样本对应的概念图像样本的相似度得分降低。基于图像样本和多个概念文本样本训练图像文本模型，以使得图像样本与其对应的概念文本样本的相似度得分增大而与其它图像样本对应的概念文本样本的相似度得分降低。由此，通过在图像文本模型的训练中引入概念知识图谱，能够实现更好的图像与文本之间的对齐，进一步改善图文检索的效果。

Description

图像文本模型处理方法及图像文本检索系统

技术领域

本公开涉及图像文本多模态模型及图像文本多模态检索，特别涉及图像文本模型处理方法及图像文本检索系统。

背景技术

图像文本（下文中也可以简称为“图文”）检索以文本或图像作为检索查询，在候选的知识库中找到最匹配的图像或文本。作为多模态领域的核心任务，图文检索受到了学术界和工业界的广泛关注，并在广泛的工业应用中具有很强的实用价值。

近年来，视觉-语言预训练(VLP)模型的蓬勃发展显著提高了跨不同模态数据的表示学习，从而带来了跨模态检索领域显著的性能提升。

然而，跨模态模型特别是图像文本模型的训练仍然面临着严峻的挑战。

因此，仍然需要一种改进的图像文本模型处理方案及图像文本检索方案，以实现更好的图文对齐，进一步改善图文检索效果。

发明内容

本公开要解决的一个技术问题是提供一种图文检索方案，其能够实现更好的图文对齐，进一步改善图文检索效果。

根据本公开的第一个方面，提供了一种图像文本模型处理方法，包括：输入多个图像文本样本对，其中图像文本样本对包括相对应的文本样本和图像样本；对于文本样本和/或图像样本，从预设的概念图谱中相应获取用于训练的多个概念图像样本和/或多个概念文本样本，所述概念图谱包括多个概念文本和分别与概念文本匹配的概念图像；训练图像文本模型，训练图像文本模型的步骤包括：基于文本样本和多个概念图像样本训练图像文本模型，以使得文本样本与其对应的概念图像样本的相似度得分增大，而与其它文本样本对应的概念图像样本的相似度得分降低；以及/或者基于图像样本和多个概念文本样本训练图像文本模型，以使得图像样本与其对应的概念文本样本的相似度得分增大而与其它图像样本对应的概念文本样本的相似度得分降低。

可选地，获取多个概念图像样本的步骤包括：基于概念图谱，获取与各个文本样本对应的概念文本匹配的概念图像样本；并且/或者获取多个概念文本样本的步骤包括：基于概念图谱，获取与各个文本样本对应的概念文本样本。

可选地，概念图谱包括树状结构，树状结构中的父节点为其子节点的上位概念，获取与各个文本样本对应的概念文本样本的步骤包括：获取各个文本样本中包含的第一概念文本样本以及第一概念文本样本在树状结构中的父节点对应的第二概念文本样本；并且/或者获取与各个文本样本对应的概念文本匹配的概念图像样本的步骤包括：对于每个文本样本，在与其对应的概念文本匹配的多个概念图像中选择与该文本样本相似度得分最高的预定数量个概念图像样本。

可选地，训练图像文本模型的步骤还包括：基于各个文本样本分别与多个图像文本样本对中所有图像样本之间的对比，以优化第一对比匹配损失；以及/或者基于各个图像样本分别与多个图像文本样本对中所有文本样本之间的对比，以优化第二对比匹配损失。

可选地，优化第一对比匹配损失的步骤包括：设置第一损失函数，第一损失函数与各个文本样本和与其相对应的图像样本之间的相似度得分负相关，而与各个文本样本和与其不相对应的图像样本之间的相似度得分正相关；并且/或者优化第二对比匹配损失的步骤包括：设置第二损失函数，第二损失函数与各个图像样本和与其相对应的文本样本之间的相似度得分负相关，而与各个图像样本和与其不相对应的文本样本之间的相似度得分正相关；并且/或者基于文本样本和多个概念图像样本训练图像文本模型的步骤包括：设置第三损失函数，第三损失函数与各个文本样本和与其相对应的概念图像样本之间的相似度得分负相关，而与各个文本样本和与其不相对应的概念图像样本之间的相似度得分正相关；并且/或者基于图像样本和多个概念文本样本训练图像文本模型的步骤包括：设置第四损失函数，第四损失函数与各个图像样本和与其相对应的概念文本样本之间的相似度得分负相关，而与各个图像样本和与其不相对应的概念文本样本之间的相似度得分正相关。

可选地，获得概念图谱的步骤包括：获取多个图像文本对；对多个图像文本对中的文本进行分析，以得到多粒度的概念短语，作为概念文本；对于每个概念文本，从多个图像文本对中的多个图像中检索相似图像，作为该概念文本匹配的概念图像。

可选地，多粒度的概念短语包括根概念短语和在根概念基础上进一步进行描述的下位概念短语，该方法还包括：基于概念文本之间的上下位关系构建树状结构，树状结构中父节点为其子节点的上位概念。

可选地，对于每个概念文本从多个图像文本对中的多个图像中检索相似图像作为该概念文本匹配的概念图像的步骤包括：从多个图像中检索得到多个与该概念文本的上位概念文本相似的候选图像；采用最大边界相关算法从多个候选图像中选择中选图像，作为概念文本匹配的概念图像。

根据本公开的第二个方面，提供了一种构建知识图谱的方法，包括：获取多个图像文本对；对多个图像文本对中的文本进行分析，以得到多粒度的概念短语，作为概念文本；对于每个概念文本，从多个图像文本对中的多个图像中检索相似图像，作为该概念文本匹配的概念图像。

根据本公开的第三个方面，提供了一种图像文本检索系统，包括：查询信息获取模块，用于获取用户输入的文本信息和/或图像信息；以及如本公开第一个方面得到的图像文本模型，用于基于用户输入的文本信息和/或图像信息，输出匹配的图像信息和/或文本信息。

根据本公开的第四个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。

根据本公开的第五个方面，提供了一种计算机程序产品，包括可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上述第一或第二方面所述的方法。

根据本公开的第六个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一或第二方面所述的方法。

本公开在训练图像文本模型时，引入概念知识图谱。与一般文本相比，概念知识图谱中的概念文本具有更加明确清晰的含义。而为从大量图像中为每个概念文本匹配的概念图像可以具有更好的代表性，与对应的概念文本具有相对较高的相似度。通过在图像文本模型的训练过程中引入概念知识图谱，可以对图像文本模型进行更加准确的训练。由此，训练得到的图像文本模型在图像文本检索应用过程中，能够实现更好的图像与文本之间的对齐，进一步改善图文检索的效果。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本公开的图文检索系统的示意性框图。

图2是根据本公开的图像文本模型处理方法的示意性流程图。

图3是根据本公开构建概念知识图谱的方法的示意性流程图。

图4示意性地示出了概念知识图谱中子树的树状结构。

图5至图7示意性地示出了相对粗粒度（上位）概念文本的图像检索结果。

图8至图10示意性地示出了相对细粒度（下位）概念文本的图像检索结果。

图11示出了根据本发明一实施例可用于实现上述方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

就图文数据而言，与一般的通用场景相比，一些特定领域例如电子商务（下文中也可以简称为“电商”）领域中，图文数据具有其自身的特性。

例如，一方面，通用场景的文本大多包含完整的句子结构描述，而电商场景中的文本描述或查询通常由多个形容词性短语组成，描述了产品的材质或风格等细节信息。

另一方面，通用领域的图像通常具有复杂的背景，而相比之下，电商领域的商品图像往往主要包含一个大的商品图，没有很多背景物体。

电商领域的这些特性使得通用领域的模型难以直接用于电商领域的图文检索任务。

现有一些基于电商图文的VLP（Vision-LanguagePre-training，视觉语言预训练）模型大幅提高了电商领域图文检索的性能，但是仍未能解决细粒度的跨模态对齐问题，因而会导致图像和文本之间的细节匹配不准确，模型缺乏跨模态语义级对齐能力。通用领域模型虽然可以通过目标检测、场景图解析或语义分析来实现细粒度交互，但是这些方法难以直接应用于电商场景。

可见，电商领域的图文检索任务仍然面临着巨大的挑战。

本公开的发明人注意到，在现有的图文检索方案中，来自不同模态的对象（图像和文本）之间的细粒度交互远远不够。而在缺乏足够训练数据和细粒度跨模态知识的电子商务领域，这一问题更加突出，不利于实现细粒度的跨模态对齐。

为了缓解这一问题，本公开提出了一种VLP模型，可以基于例如电子商务领域的跨模态知识予以增强，提升图文检索的性能。

首先，可以基于数据驱动的构建策略，从例如大规模电子商务图文语料数据库中自动建立多模态的概念知识图谱。

基于训练融入知识的训练策略，将概念知识图谱（也可以称为“概念图谱”）的先验知识注入到VLP模型中，学习两种模态的图像-文本对的表示对齐，并通过将文本表示与概念知识图谱中的例如时尚概念的视觉原型表示（概念图像）进行匹配，进一步得到概念对齐，可以实现在概念层面上图像文本之间的跨模态对齐。

由此，可以有效地提高例如电商领域的图文检索性能，显著提升检索效果。

本公开可以包括两个方面。

第一方面，构建时尚多模态概念知识图谱。

例如，可以通过分析大量的时尚领域（例如电商领域）的文本来抽取并确定概念集（概念文本集），构建层次树来展示不同粒度下概念之间的关系（上下位关系），并在视觉层次上将每个概念文本与正确的图像（概念图像）匹配。

第二方面，融入跨模态知识的细粒度训练。

例如，可以将输入文本中包含的概念匹配到概念知识图谱中的概念文本。对于每个概念，例如可以选择与输入图像最相似且考虑多样性的前若干个图像作为视觉原型，在概念层面进行对齐优化设计。另外，还可以将从输入文本中提取到的概念知识图谱中尚不存在的新概念挂载到相应的概念层级树中以扩充概念知识图谱。

下面参考附图详细描述根据本公开的图文检索方案。

图1示出了根据本公开的图文检索系统的示意性框图。

如图1所示，根据本公开的图文检索系统1可以包括图像文本模型10和查询信息获取模块20。

查询信息获取模块20用于获取用户输入的文本信息和/或图像信息（查询文本/图像）。

基于用户输入的文本信息和/或图像信息，通过图像文本模型10，可以输出匹配的图像信息和/或文本信息（结果图像/文本），实现图像与文本的跨模态查询检索。

图2是根据本公开的图像文本模型处理方法的示意性流程图。如上文所述，该图像文本模型可以用于图像与文本的跨模态查询检索。

如图2所示，在步骤S210，输入多个图像文本样本对。模型的训练可以分批次进行。每个批次的训练过程中可以输入一个批次的图像文本样本对。

这里，作为模型训练输入样本的图像文本样本对可以包括相对应的文本样本和图像样本。

在步骤S220，对于例如一个批次的多个图像文本样本对中的文本样本和/或图像样本，从预设的概念图谱中获取用于训练的多个概念图像样本和/或多个概念文本样本。

概念图谱，也可以称为“概念知识图谱”，可以包括多个概念文本和分别与概念文本匹配的概念图像。这里的概念文本的语言表述往往是较为精准的，而其匹配的概念图像则可以是相对于该概念文本而言具有较高代表性和相似度。后文中将对概念图谱进一步详细描述。

概念文本样本和概念图像样本分别是从概念图谱中选择的与图像文本样本对对应的概念文本和概念图像，在此称为“概念文本样本”和“概念图像样本”是为了表明挑选用来对模型进行训练，与概念图谱中的一般概念文本和概念图像予以区分。

然后在步骤S230，训练图像文本模型。

本公开的图像文本模型处理方法中，对图像文本模型的训练可以包括基于概念图谱增强实现概念级对齐的概念-视觉对齐学习(CVA)。应当理解，上面步骤S220中获取概念文本样本和/或概念图像样本的步骤也可以视为CVA训练的一部分。

与一般文本相比，概念知识图谱中的概念文本具有更加明确清晰的含义。而为从大量图像中为每个概念文本匹配的概念图像可以具有更好的代表性，与对应的概念文本具有相对较高的相似度。

这样，通过在图像文本模型的训练过程中引入概念知识图谱，可以对图像文本模型进行更加准确的训练。由此，训练得到的图像文本模型在图像文本检索应用过程中，能够实现更好的图像与文本之间的对齐，进一步改善图文检索的效果。

在可选实施例中，对图像文本模型的训练还可以包括用于全局匹配图像和文本的图像文本对比学习(ITC)。

下文中，将对概念图谱的构建及图像文本模型的训练进行更详细的描述。

一、概念图谱。

首先，参考图3描述根据本公开构建概念图谱的方法。

图3是根据本公开构建概念知识图谱的方法的示意性流程图。

本公开的方案可以采用自动构建的方法，建立以特定领域例如电商/时尚领域的概念为中心的多模态概念知识图谱。

与创建基于本体的知识图谱的方案不同，本公开自动构建概念知识图谱以减小与真实世界的图文跨模态查询之间的差距。

概念知识图谱针对的领域可以与相应图文检索系统所针对的领域一致或类似。例如，对于针对电商/时尚领域的图文检索系统，可以基于电商/时尚领域的图文构建该领域所涉及概念的概念图谱，以便用于相应领域的图文检索方案。

概念知识图谱可以涉及概念的文本模态和视觉（图像）模态两方面。

相应地，概念知识图谱的构建过程可以包括首先通过挖掘海量时尚文本（步骤S310），例如提取电商数据库中所有的文本，确定概念集（步骤S320、S330），然后将每个概念与对应的图像进行匹配（步骤S340）。

步骤S310、S320、S330主要涉及文本模态，而步骤S340则主要涉及视觉模态。

1．文本模态。

如图3所示，在步骤S310，可以获取多个图像文本对。

这里的多个图像文本对可以与下文中用于训练模型的图像文本样本对不同，也可以相同，或者两者也可以具有包含或重叠的关系。

在例如电商或时尚领域，可以挖掘海量的时尚/电商文本，例如可以提取电商数据库中的大量图文数据中的文本。所获取/挖掘到的包含多个图像文本对的数据集合例如可以表示为D{T,I}。D表示数据集合，T表示文本（集合），I表示对应的图像（集合）。对于包含多个图像文本对的数据集合D{T,I}，可以首先提取其中所有文本T以进行分析处理。

在步骤S320，对所述多个图像文本对中的文本进行分析，以得到概念短语，作为所述概念文本。

利用自然语言处理（NLP）工具来进行文本分析，例如句子成分分析、词性标注等，得到多个概念短语。

这里，通过将形容词、修饰词等与关键词（名词）连接起来，可以得到多粒度的概念短语。换言之，本公开从输入文本T中获取的概念短语（概念文本）可以是多粒度的。多粒度的概念短语可以包括根概念短语和在根概念基础上进一步进行描述的下位概念短语。粗粒度对应于上位概念，而细粒度对应于下位概念。

例如，对于输入文本“Cotton lounge shorts in blue. Elasticizedwaistbandwith drawstring closure（蓝色棉质休闲短裤。弹力腰部搭配抽绳封口）”，可以提取根概念如“blue（蓝色）”、“shorts（短裤）”、“waistband（腰带）”、“closure（封口）”，还可以提取描述更详细的短语“lounge shorts（休闲短裤）”、“cottonlounge shorts（棉质休闲短裤）”、“cotton lounge shorts in blue（蓝色棉质休闲短裤）”等。

基于所提取结果的不同概念层次粒度，对于不同粒度的概念短语，例如通过判断两个概念是否相互包含，可以以关系三元组的形式建立概念之间的上下位关系。

例如，<'cotton lounge shorts in blue', is-a, 'cottonlounge shorts'>。该关系三元组中可以包括上位概念文本、下文概念文本和两者之间的关系词例如“is-a（是）”。

在抽取出所有关系三元组后，可以将这些时尚概念组织成一个层次结构。

这样，如图3所示，在可选实施例中，还可以在步骤S330，基于概念文本之间的上下位关系构建树状结构。树状结构中，父节点为其子节点的上位概念。

图4以根节点“短裤”为例示意性地示出了一个子树的树状结构。

如图4所示，根节点“短裤”下有多个子节点，对应的概念均为根节点概念“短裤”的下位概念。各子节点还可以分别具有更进一步加以限定的下位概念子节点。

应当理解，图4示出了对中文图文数据进行分析建立的电商/时尚领域中文概念子树的示例。本公开的概念图谱及树状结构中的概念不限于某种语言。

树状结构的概念知识图谱的构建过程可以是动态的。在对例如步骤S310中所挖掘的海量文本进行分析的过程中，在下文描述的训练过程中，在使用训练好的图像文本模型进行跨模态查询的过程中，当出现先前未曾见到过的新概念时，都可以将其添加到现有的层级树状结构中。

例如，如图4所示，虚线框中的“蓝色棉质休闲短裤”为新出现的概念，可以添加到概念知识图谱的根节点为“短裤”的子树的树状结构中，并且可以作为概念知识图谱中已有的上位概念“棉质休闲短裤”的子节点。

2．视觉模态。

进一步地，如图3所示，在步骤S340，对于每个概念文本，可以从多个图像文本对中的多个图像的图像集合I中检索各个概念文本的相似图像，作为与该概念文本匹配的概念图像。

各个概念文本匹配的概念图像可以为1个，也可以多于1个。每个概念文本匹配的概念图像的数量可以相同，也可以不同。

图5至图7以及图8至图10示意性地示出了一些概念的图像检索结果。

其中，图5至图7是一些相对粗粒度（上位）概念文本的图像检索结果，而图8至图10是一些相对细粒度（下位）概念文本的图像检索结果。

具体说来，图5是概念“蓝色”的检索结果，图6是概念“运动”的检索结果，图7是概念“对比条纹”的检索结果；图8是概念“运动游戏”的检索结果，图9是概念“偏光运动太阳镜”的检索结果，图10是概念“运动女装”的检索结果。

可以看到，基于粗粒度概念检索得到的多个图像通常在视觉上是多样的，而当涉及到更具体（细粒度，下位）的概念时，图像往往在语义上更一致。

为了确保各个概念的视觉表示（匹配的概念图像）的相似度和多样性两方面都被考虑到，可以稍微放大候选图像的范围，并采用例如最大边界相关（MMR）算法来提高所选图像的多样性。

例如，可以首先基于当前要确定其匹配的概念图像的概念文本（当前概念）的上位概念文本，从多个图像中检索得到多个与上位概念文本相似的候选图像。

然后，可以采用最大边界相关算法（MMR）从多个候选图像中选择中选图像，作为概念文本匹配的概念图像。

这里，可以对各个概念采用例如基于提示的图像检索方法，并在后续视觉语言训练过程中迭代更新这一处理。

可以利用预训练CLIP（对比图文预训练，ContrastiveLanguage-Image Pre-Training）模型，一种图文相关性匹配模型，通过公式化为“photoof {concept}”（“{概念}的照片”）的查询，来从图像集合I检索得到多个相似图像，作为候选图像。

然后，基于图像和概念文本特征的余弦距离，选择相似度最高的若干个图像作为概念视觉原型（概念图像）。

迭代运行这一过程，直到从多个个候选图像中选出足够数量的中选概念图像。

用C表示候选图像集合，c为当前概念的文本表示，例如上文指出的公式化表示“photo of {concept}”（“{当前概念}的照片”），S表示中选图像集合。每次迭代过程中，可以基于下述公式选择图像 v _i：

其中，Sim(*, *)是对应文本/图像特征之间的余弦相似度，C\S表示集合C中集合S的补集，而λ是用于调节结果的相关度和多样性的系数。例如，可以设置默认λ=0.8。

上述公式右侧“[…]”中的第一项提升本轮迭代中选图像与当前概念的相似度，而第二项降低本轮迭代中选图像与先前已中选图像的相似度，从而增大中选图像集合的多样性。

二、图像文本模型训练。

在模型训练过程中，可以首先从文本样本中提取概念。顺带提一下，如上文所述，如果发现新概念，则可以自动扩充概念知识图谱。

模型训练可以分多个批次进行。每个批次可以包括多个图像文本样本对。图像文本样本对包括相对应的文本样本和图像样本。

为了参数优化，本公开的图像文本模型的训练过程可以包括两个任务：用于全局匹配图像样本和文本样本的图像文本对比学习(ITC)；以及用于概念级对齐的概念视觉对齐学习(CVA)。

1．图像文本对比学习(ITC)。

本公开训练一个CLIP风格的模型来学习图像文本对的全局表示。对于每个训练批次中的多个图文对，优化图像到文本和文本到图像的对比匹配损失。

这里，优化图像到文本的对比匹配损失是为了优化使用模型基于图像来查询文本的性能。相应地，优化文本到图像的对比匹配损失是为了优化使用模型基于文本来查询图像的性能。

1.1文本到图像。

关于文本到图像的对比匹配损失，可以基于各个文本样本分别与所述多个图像文本样本对中所有图像样本之间的对比，以优化文本到图像对比匹配损失（可以称为“第一对比匹配损失”）。

这里，可以设置文本到图像对比匹配损失函数（可以称为“第一损失函数”），第一损失函数可以与各个文本样本和与其相对应的图像样本之间的相似度得分负相关，而与各个文本样本和与其不相对应的图像样本之间的相似度得分正相关。

例如，对于一个批次中b个图像文本样本对中b个文本样本中第k个文本样本，第一损失函数可以定义为：

其中，图像的对应文本为，是和的图像/文本特征之间的余弦相似度。图像/文本特征之间的余弦相似度的计算为本领域所公知，在此不再赘述。

1.2图像到文本。

关于图像到文本的对比匹配损失，可以基于各个图像样本分别与所述多个图像文本样本对中所有文本样本之间的对比，来优化图像到文本对比匹配（可以称为“第二对比匹配损失”）。

这里，可以设置图像到文本对比匹配损失函数（可以称为“第二损失函数”），第二损失函数可以与各个图像样本和与其相对应的文本样本之间的相似度得分负相关，而与各个图像样本和与其不相对应的文本样本之间的相似度得分正相关。

例如，对于一个批次中b个图像文本样本对中b个图像样本中第k个图像样本，第二损失函数的定义可以与第一损失函数对称：

其中，文本的对应图像为，是和的文本/图像特征之间的余弦相似度。

图像文本对比学习ITC的损失函数可以是图像到文本对比匹配损失函数和文本到图像对比匹配损失函数两方面的组合，例如可以为：

。

2．概念视觉对齐学习(CVA)。

本公开利用统一的对比学习框架来进一步对齐时尚概念和概念知识图谱中的视觉表示（视觉原型）。

换言之，本公开除了可以采用上文描述的ITC，对将图像文本样本对中的图像样本和文本样本进行对比学习，还可以从预先获取的概念知识图谱获取多个概念文本样本和多个概念图像样本，用来与输入的图像样本、文本样本对齐，借助预先整理的概念知识图谱向模型注入知识内容，优化图像文本模型。

如上文所述，作为一个批次中输入的多个图像文本样本对，包括相对应的多个图像样本和多个文本样本。

概念视觉对齐学习CVA可以包括两个方面，文本样本与概念图像样本对齐学习和图像样本与概念文本样本对齐学习。

2.1文本样本与概念图像样本对齐。

对于多个文本样本，可以基于概念图谱，获取用于训练的多个概念图像样本。

具体说来，可以基于概念图谱，获取与各个文本样本对应的概念文本，并进一步获取对应概念文本匹配的概念图像样本。

如上文所述，概念图谱包括树状结构，所述树状结构中的父节点为其子节点的上位概念。

在获取与文本样本对应的概念文本时，为了避免将注意力过多地集中在细粒度（下位）概念上，而忽略了对粗粒度（上位）概念的跨模态理解，可以进一步引入父节点的概念。即，可以不但获取各个文本样本中包含的第一概念文本，而且还可以获取第一概念文本在概念图谱的树状结构中的父节点对应的第二概念文本，从而引入各个概念在层次树中的父节点（上位概念）。

这样，对于一个训练批次的b个输入图像文本样本对中的第k个文本样本，可以获得其多粒度概念文本集合。集合中每个概念文本可以具有一个或多个匹配的概念图像。

对于每个文本样本，可以在与其对应的概念文本匹配的多个概念图像中选择与该文本样本相似度得分最高的预定数量个概念图像样本。为每个文本样本选择的概念图像样本的数量可以相同，也可以不同。为便于描述，下文中以数量相同的情形为例进行描述。

这样，对于概念，可以用表示选择用来表示该概念的视觉特性的相似而多样的选中概念图像的集合。

对于每个，合并所有，并选择具有最高相似度得分的q个概念图像样本，以提供给模型学习概念对齐。这q个概念图像样本的集合可以表示为。

由此，对于每个文本样本，可以得到对应的多个概念图像样本。

于是，可以基于文本样本和多个概念图像样本训练图像文本模型，以使得文本样本与其对应的概念图像样本的相似度得分增大，而与其它文本样本对应的概念图像样本的相似度得分降低。

应当理解，在本公开描述的模型训练过程中提到的相似度得分，是指使用经过当前轮次训练的模型计算得到的相应文本特征和相应图像特征之间的余弦相似度。

这里，可以设置第三损失函数。第三损失函数与各个文本样本和与其相对应的概念图像样本之间的相似度得分负相关，而与各个文本样本和与其不相对应的概念图像样本之间的相似度得分正相关。

作为示例，可以使用下述公式，基于文本样本和与其相对应的概念图像样本，以及基于相同训练批次中其它文本样本产生的与文本样本不相对应的概念图像样本，计算第三损失函数：

这使得文本样本的表示与其匹配的概念图像样本相似，而与基于其它文本的得到的概念图像样本不相似。

2.2图像样本与概念文本样本对齐。

类似地，通过将损失函数从文本到图像改为图像到文本，还可以计算对称的损失。

对于多个图像样本，可以基于概念图谱，获取用于训练的多个概念文本样本。

各个图像样本分别具有对应的文本样本。因此，可以基于对应的文本样本来获取图像样本对应的概念文本样本。

这样，基于概念图谱，获取与各个文本样本对应的概念文本样本，作为与相应图像样本对应的概念文本样本。

同样地，获取文本样本对应的概念文本样本的方案可以与前文2.1中获取各个文本样本对应的概念文本的方案相同。

在基于文本样本获取与图像样本对应的概念文本样本时，为了避免将注意力过多地集中在细粒度（下位）概念上，而忽略了对粗粒度（上位）概念的跨模态理解，可以进一步引入父节点的概念。即，可以不但获取各个图像样本对应的文本样本中包含的第一概念文本样本，而且还可以获取第一概念文本样本在概念图谱的树状结构中的父节点对应的第二概念文本样本，从而引入各个概念在层次树中的父节点（上位概念）。

这样，对于一个训练批次的b个输入图像文本样本对中的第k个图像样本，可以获得其多粒度概念文本集合。

对于每个图像样本，可以在与其对应的多个概念文本中选择预定数量个概念文本样本。为每个图像样本选择的概念文本样本的数量可以相同，也可以不同。为便于描述，下文中以数量相同的情形为例进行描述。

设选择q个概念文本样本，以提供给模型学习概念对齐。这q个概念文本样本的集合可以表示为。

由此，对于每个图像样本，可以得到对应的多个概念文本样本。

于是，可以基于图像样本和多个概念文本样本训练图像文本模型，以使得图像样本与其对应的概念文本样本的相似度得分增大而与其它图像样本对应的概念文本样本的相似度得分降低。

这里，可以设置第四损失函数。第四损失函数与各个图像样本和与其相对应的概念文本样本之间的相似度得分负相关，而与各个图像样本和与其不相对应的概念文本样本之间的相似度得分正相关。

作为示例，可以使用下述公式，基于图像样本和与其相对应的概念文本样本，以及基于相同训练批次中其它图像样本产生的与图像样本不相对应的概念文本样本，计算第四损失函数：

这使得图像样本的表示与其匹配的概念文本样本相似，而与基于其它文本的得到的概念文本样本不相似。

由此，概念视觉对齐学习CVA的损失函数可以是第三损失函数和第四损失函数两方面的组合，例如可以为：

。

这里，本公开可以采用加权交叉熵损失，以文本样本与概念图像样本和/或图像样本与概念文本样本之间的相似度作为权重，进行文本样本与最匹配概念图像样本的交叉熵损失和/或图像样本与最匹配概念文本样本进行计算。

至此，已经描述了图像文本对比学习(ITC)和概念视觉对齐学习(CVA)对图像文本模型的两方面训练。

用于图像文本模型训练的总损失函数 L可以是ITC的损失函数和CVA的损失函数的组合，例如可以为：

。

本公开提出了一种数据驱动的例如电商领域的多模态概念知识图谱。从概念知识图谱的先验知识中学习概念级对齐，从而构建例如特别适用于电商领域的知识增强的VLP模型。

本公开的图像文本模型在例如电子商务领域的性能优于现有的VLP模型。在工业场景下的文本检索和图像检索平台也具有显著的性能提升。

从模型架构和训练任务层面，本公开借助可以针对特定领域如时尚/电商领域构建的多模态概念知识图谱，在对比学习的框架上对齐概念和视觉原型，可以解决图像和文本之间概念级的细粒度交互问题。这种对比学习框架相比于现有方案，训练过程中更多地关注概念与其视觉表征之间的对应关系，能够优化跨模态图文检索的微调结果。

从知识注入层面，本公开通过构建可以面向特定领域如时尚/电商领域的图文数据的多模态概念知识图谱，进一步捕捉特定领域如时尚/电商领域中，概念与图像之间的跨模态对应关系，从而能够引入时尚领域文本与视觉原型之间的概念级交互。

本公开上文中主要以时尚/电商领域为例进行了描述，但是本领域技术人员应当理解，本公开的技术方案不限于此。只要是能够预先构建概念图谱的领域都可以适用本公开的方案。

另外，在一些实施例中，还可以根据图文对象进行分类，针对不同类别的图文对象设置多个不同的概念图谱。例如，在电商场景领域下，可以划分为服装对象领域、电器对象领域、家具对象领域等。对于各个对象领域可以分别构建概念图谱。相应地，也可以针对各个对象领域分别构建图像文本模型，采用相应对象领域的概念图谱来参与相应对象领域的图像文本模型的训练。

三、实验验证。

1．概念图谱。

从电商平台采集了90万个产品的图文对，并从这些图文对了抽取时尚概念以构建概念图谱。

表1示出了所构建概念图谱的一些统计数据。

2．实验结果。

2.1基准数据集。

采用一个广泛采用的基准数据集来进行模型评估，其包含约29.3万图文对，涉及6万多个时尚项目，分属121个子类别。其中约26万图文对用于模型训练，而约3.3万图文对用于模型评估。

2.2评估方案。

对于图文检索任务，考虑两种评估设置。例如基于文本查询，一种方案可以标记为“样本”，要求模型从101个样本中找出匹配图像，其中包括1个先验已知正确匹配的图像和属于同一个产品子分类的100个随机选择的图像；另一种方案可以标记为“完整”，其中每个查询与整个数据集中的每个项目进行比对。基于图像查询的情况类似。

以召回率Recall@1/5/10（表中简写为R@1、R@5、R@10）作为评估标准。其中Recall@k是指从最后按得分排序的推荐列表中返回的前k个结果中，检索出的相关结果数和库中所有的相关结果数的比率，用于衡量检索系统的查全率。

2.3总体检索结果。

下表2是“完整”方案的检索评估结果。

从表2可见，对于“完整”评估方案，本公开方案优于现有方案。

下表3是“样本”方案的检索评估结果。

从表3可见，对于“样本”评估方案，本公开方案也优于现有方案。

2.4工业实践。

另外，还在全球电商平台上验证了本公开图像文本模型的有效性。

在同类型产品搜索中，采用了两种检索任务：图像到产品（I2P）检索和文本到产品（T2P）检索。

各产品具有对应的文本和图像。

对于T2P检索，查询文本和产品之间的相似度 Score _t2p按下式计算：

Score _t2p = α×Score _t2t + (1-α)×Score _t2i，

其中， Score _t2t表示查询文本与产品文本之间的相似度得分， Score _t2i表示查询文本与产品图像之间的相似度得分，0< α<1。

同样地，对于I2P检索，查询文本和产品之间的相似度 Score _i2p按下式计算：

Score _i2p = α×Score _i2t + (1-α)×Score _i2i，

其中， Score _i2t表示查询图像与产品文本之间的相似度得分， Score _i2i表示查询图像与产品图像之间的相似度得分，0< α<1。

下表4是电子商务相同类型产品检索实验的检索结果。

从表4可见，本公开方案的效果优于现有方案。

参见图11，计算设备1100包括存储器1110和处理器1120。

处理器1120可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器1120可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器（GPU）、数字信号处理器（DSP）等等。在一些实施例中，处理器1120可以使用定制的电路实现，例如特定用途集成电路（ASIC，Application Specific Integrated Circuit）或者现场可编程逻辑门阵列（FPGA，Field Programmable GateArrays）。

存储器1110可以包括各种类型的存储单元，例如系统内存、只读存储器（ROM），和永久存储装置。其中，ROM可以存储处理器1120或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置（例如磁或光盘、闪存）作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备（例如软盘、光驱）。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1110可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片（DRAM，SRAM，SDRAM，闪存，可编程只读存储器），磁盘和/或光盘也可以采用。在一些实施方式中，存储器1110可以包括可读和/或写的可移除的存储设备，例如激光唱片（CD）、只读数字多功能光盘（例如DVD-ROM，双层DVD-ROM）、只读蓝光光盘、超密度光盘、闪存卡（例如SD卡、min SD卡、Micro-SD卡等等）、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1110上存储有可执行代码，当可执行代码被处理器1120处理时，可以使处理器1120执行上文述及的方法。

上文中已经参考附图详细描述了根据本发明的图文模型处理方法、知识图谱构建方法及图文检索系统。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质（或计算机可读存储介质、或机器可读存储介质），其上存储有可执行代码（或计算机程序、或计算机指令代码），当所述可执行代码（或计算机程序、或计算机指令代码）被电子设备（或计算设备、服务器等）的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种图像文本模型处理方法，包括：

输入多个图像文本样本对，所述图像文本样本对包括相对应的文本样本和图像样本；

对于所述文本样本和/或所述图像样本，从预设的概念图谱中相应获取用于训练的多个概念图像样本和/或多个概念文本样本，所述概念图谱包括多个概念文本和分别与概念文本匹配的概念图像；

训练图像文本模型，所述训练图像文本模型的步骤包括：

基于所述文本样本和所述多个概念图像样本训练图像文本模型，以使得文本样本与其对应的概念图像样本的相似度得分增大，而与其它文本样本对应的概念图像样本的相似度得分降低；以及/或者

基于所述图像样本和所述多个概念文本样本训练图像文本模型，以使得图像样本与其对应的概念文本样本的相似度得分增大而与其它图像样本对应的概念文本样本的相似度得分降低。

2.根据权利要求1所述的方法，其中，

获取多个概念图像样本的步骤包括：基于所述概念图谱，获取与各个文本样本对应的概念文本匹配的概念图像样本；并且/或者

获取多个概念文本样本的步骤包括：基于所述概念图谱，获取与各个文本样本对应的概念文本样本。

3.根据权利要求2所述的方法，其中，所述概念图谱包括树状结构，所述树状结构中的父节点为其子节点的上位概念，

所述获取与各个文本样本对应的概念文本样本的步骤包括：获取各个文本样本中包含的第一概念文本样本以及第一概念文本样本在所述树状结构中的父节点对应的第二概念文本样本；并且/或者

获取与各个文本样本对应的概念文本匹配的概念图像样本的步骤包括：对于每个文本样本，在与其对应的概念文本匹配的多个概念图像中选择与该文本样本相似度得分最高的预定数量个概念图像样本。

4.根据权利要求1所述的方法，其中，训练图像文本模型的步骤还包括：

基于各个文本样本分别与所述多个图像文本样本对中所有图像样本之间的对比，以优化第一对比匹配损失；以及/或者

基于各个图像样本分别与所述多个图像文本样本对中所有文本样本之间的对比，以优化第二对比匹配损失。

5.根据权利要求4所述的方法，其中，

优化第一对比匹配损失的步骤包括：设置第一损失函数，所述第一损失函数与各个文本样本和与其相对应的图像样本之间的相似度得分负相关，而与各个文本样本和与其不相对应的图像样本之间的相似度得分正相关；并且/或者

优化第二对比匹配损失的步骤包括：设置第二损失函数，所述第二损失函数与各个图像样本和与其相对应的文本样本之间的相似度得分负相关，而与各个图像样本和与其不相对应的文本样本之间的相似度得分正相关；并且/或者

基于所述文本样本和所述多个概念图像样本训练图像文本模型的步骤包括：设置第三损失函数，所述第三损失函数与各个文本样本和与其相对应的概念图像样本之间的相似度得分负相关，而与各个文本样本和与其不相对应的概念图像样本之间的相似度得分正相关；并且/或者

基于所述图像样本和所述多个概念文本样本训练图像文本模型的步骤包括：设置第四损失函数，所述第四损失函数与各个图像样本和与其相对应的概念文本样本之间的相似度得分负相关，而与各个图像样本和与其不相对应的概念文本样本之间的相似度得分正相关。

6.根据权利要求1所述的方法，其中，获得概念图谱的步骤包括：

获取多个图像文本对；

对所述多个图像文本对中的文本进行分析，以得到多粒度的概念短语，作为所述概念文本；

对于每个概念文本，从所述多个图像文本对中的多个图像中检索相似图像，作为该概念文本匹配的概念图像。

7.根据权利要求6所述的方法，其中，多粒度的概念短语包括根概念短语和在根概念基础上进一步进行描述的下位概念短语，该方法还包括：

基于概念文本之间的上下位关系构建树状结构，所述树状结构中父节点为其子节点的上位概念。

8.根据权利要求6所述的方法，其中，对于每个概念文本从所述多个图像文本对中的多个图像中检索相似图像作为该概念文本匹配的概念图像的步骤包括：

从所述多个图像中检索得到多个与该概念文本的上位概念文本相似的候选图像；

采用最大边界相关算法从所述多个候选图像中选择中选图像，作为所述概念文本匹配的概念图像。

9.一种图像文本检索系统，包括：

查询信息获取模块，用于获取用户输入的文本信息和/或图像信息；以及

如权利要求1-8中任何一项所述的方法得到的图像文本模型，用于基于用户输入的文本信息和/或图像信息，输出匹配的图像信息和/或文本信息。

10.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至8中任何一项所述的方法。

11.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至8中任何一项所述的方法。