CN113360700B

CN113360700B - 图文检索模型的训练和图文检索方法、装置、设备和介质

Info

Publication number: CN113360700B
Application number: CN202110739104.4A
Authority: CN
Inventors: 龙翔; 贾壮; 郑弘晖; 彭岩; 冯原; 辛颖; 王云浩; 谷祎; 王晓迪; 韩树民
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-09-29
Anticipated expiration: 2041-06-30
Also published as: CN113360700A

Abstract

本公开提供了图文检索模型的训练和图文检索方法、装置、设备和介质，涉及工智能领域，具体涉及计算机视觉和深度学习技术，具体可用于图文检索场景下。具体实现方案为：确定样本图像文本对，以及样本图像文本对的辅助聚类中心；其中，样本图像文本对包括样本图像和样本搜索文本，且样本搜索文本与所述辅助聚类中心所属的类别不同；根据所述样本图像文本对和所述样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型；所述待训练模型包含语言模型部分和图像模型部分。本公开实施例的技术方案，可以实现细粒度的图文检索。

Description

图文检索模型的训练和图文检索方法、装置、设备和介质

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉和深度学习技术，具体可用于图文检索场景下，尤其涉及一种图文检索模型的训练和图文检索方法、装置、设备和介质。

背景技术

图文检索是搜索中非常重要的一类任务，图文检索具体是指输入文本搜索相关图像，或者输入图像搜索相关文本的检索类型，图文检索准确度与垂类划分粒度相关。

如何对多模态信息进行细粒度垂类划分，实现细粒度的跨模态检索受到人们的关注。

发明内容

本公开提供了一种图文检索模型的训练和图文检索方法、装置、设备、介质和程序产品。

根据本公开的一方面，提供了一种图文检索模型的训练方法，所述方法包括：

确定样本图像文本对，以及样本图像文本对的辅助聚类中心；其中，样本图像文本对包括样本图像和样本搜索文本，且样本搜索文本与所述辅助聚类中心所属的类别不同；

根据所述样本图像文本对和所述样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型；所述待训练模型包含语言模型部分和图像模型部分。

根据本公开的另一方面，提供了一种图文检索方法，所述方法包括：

通过图文检索模型中的语言模型部分，提取目标搜索文本对应的目标语义特征向量；所述图文检索模型包含语言模型部分和图像模型部分；

根据所述目标语义特征向量和候选图像的图像特征向量，从候选图中为目标搜索文本选择目标图像；所述候选图像的图像特征向量通过所述图像模型部分提取；

其中，所述图文检索模型通过根据样本图像文本对和所述样本图像文本对的辅助聚类中心对待训练模型进行训练得到。

根据本公开的另一方面，提供了一种图文检索模型的训练装置，所述装置包括：

样本确定模块，用于确定样本图像文本对，以及样本图像文本对的辅助聚类中心；其中，样本图像文本对包括样本图像和样本搜索文本，且样本搜索文本与所述辅助聚类中心所属的类别不同；

模型训练模块，用于根据所述样本图像文本对和所述样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型；所述待训练模型包含语言模型部分和图像模型部分。

根据本公开的另一方面，提供了一种图文检索装置，所述装置包括：

语义特征向量提取模块，用于通过图文检索模型中的语言模型部分，提取目标搜索文本对应的目标语义特征向量；所述图文检索模型包含语言模型部分和图像模型部分；

目标图像确定模块，用于根据所述目标语义特征向量和候选图像的图像特征向量，从候选图中为目标搜索文本选择目标图像；所述候选图像的图像特征向量通过所述图像模型部分提取；

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例中任一项所述的图文检索模型的训练方法或者图文检索方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开实施例中任一项所述的图文检索模型的训练方法或者图文检索方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开实施例中任一项所述的图文检索模型的训练方法或者图文检索方法。

根据本公开的技术，提高了图文检索的准确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种图文检索模型的训练方法的示意图；

图2是根据本公开实施例提供的另一种图文检索模型的训练方法的示意图；

图3是根据本公开实施例提供的又一种图文检索模型的训练方法的示意图；

图4是根据本公开实施例提供的一种图文检索方法的示意图；

图5根据本公开实施例的一种图文检索模型的训练装置的示意图；

图6根据本公开实施例的一种图文检索装置的示意图；

图7是用来实现本公开实施例的图文检索模型的训练方法及图文检索方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是本公开实施例中的一种图文检索模型的训练方法的示意图，本公开实施例的技术方案适用于基于样本搜索文本的聚类结果对图文检索模型进行训练的情况，该方法可以由图文检索模型的训练装置执行，该装置可以通过软件，和/或硬件的方式实现，并一般可以集成在电子设备中，例如终端设备中，本公开实施例的方法具体包括以下：

S110、确定样本图像文本对，以及样本图像文本对的辅助聚类中心；其中，样本图像文本对包括样本图像和样本搜索文本，且样本搜索文本与辅助聚类中心所属的类别不同。

其中，样本图像文本对用于对待训练模型进行训练得到图文检索模型，样本图像文本对包括样本图像和样本搜索文本，具体的，样本图像文本对可以是基于用户历史检索行为获取的，样本图像是用户针对样本搜索文本的搜索结果所选择的图像，示例性的，样本图像文本对包括样本搜索文本“猫的简笔画”，以及一幅展示猫的简笔画的样本图像；辅助聚类中心用于与样本图像文本对共同对待训练模型进行训练，得到图文检索模型，具体的，辅助聚类中心是除样本搜索文本所属类别之外的其他类别的聚类中心，示例性的，当前样本图像文本对属于聚类后得到的类别A，辅助聚类中心为类别B的聚类中心。

本公开实施例中，为了进行图文检索模型训练，根据用户历史图文检索数据中获取多个样本图像文本对，进一步的，为了能够实现细粒度的图文检索，根据图文检索的粒度需求，将多个样本图像文本对进行聚类，具体的，可以基于样本图像文本对中样本搜索文本的语义特征向量和预先设定的类别数量，对样本搜索文本进行聚类，进而根据聚类得到的多个类别的样本搜索文本，得到对应的多个类别的样本图像文本对。在得到多个类别的样本图像文本对后，可以随机选取一个类别的样本图像文本对输入至待训练模型进行模型的第一轮训练，与随机选取的一个类别的样本图像文本对一起输入至待训练模型的还包括除上述类别的样本图像文本对之外，其他类别的样本图像文本对的聚类中心，即辅助聚类中心。在得到多个类别的样本图像文本对后，还可以将预先确定的样本图像文本对和样本图像文本对匹配的辅助聚类中心的组合共同输入至待训练模型进行训练，其中，样本图像文本对匹配的辅助聚类中心为除当前类别样本图像文本对之外其他任意类别的样本图像文本对的聚类中心。

示例性的，在搜索引擎的搜索记录中获取多个样本图像文本对，进而对样本图像文本对中的样本搜索文本进行特征提取，得到语义特征向量，针对语义特征向量，采用k均值聚类算法（K-Means Clustering Algorithm，K-Means算法）对样本搜索文本的语义特征向量进行聚类，将样本搜索文本划分为N个类别，进而得到N个类别的样本图像文本对，进一步的，在每一轮模型训练过程中，可以随机选取一个类别的样本图像文本对和与该样本图像文本对不同类别的聚类中心作为一轮训练的样本进行模型训练。

S120、根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型；待训练模型包含语言模型部分和图像模型部分。

其中，待训练模型包含语言模型部分和图像模型部分，其中，语言模型部分用于对样本搜索文本进行特征提取，得到样本搜索文本对应的语义特征向量，示例性的，语言模型部分可以采用ERNIE（Enhanced Language Representation with Informative Entities，具有信息实体的增强语言表示）模型或者Bert（BidirectionalEncoder Representationsfrom Transformer，基于Transformer的双向编码表示）模型等。图像模型部分用于对样本图像进行特征提取，得到样本图像对应的图像特征向量，示例性的，图像模型部分可以是通过对比学习的方法训练得到。

本公开实施例中，在确定样本图像文本对，以及样本图像文本对的辅助聚类中心后，根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型，具体的，在聚类得到的多个类别的样本图像文本对中，随机选取一类样本图像文本对，在除该类样本图像文本对之外其他类别的聚类中心中确定辅助聚类中心，并将选取的一类样本图像文本及其对应的辅助聚类中心共同输入至待训练模型进行当前轮次的训练，在下一轮模型训练时，在剩余的样本图像文本对中再随机选取一类样本图像文本对，并在除该类样本图像文本对之外其他类别的聚类中心中确定辅助聚类中心，并根据该类样本图像文本对和辅助聚类中心进行下一轮次的模型训练，直至完成针对所有类别的样本图像文本对的待训练模型训练，通过上述样本图像文本对及辅助聚类中心对待训练模型进行训练，可以让各类别内部更具区分度，还可以在细粒度类别条件下，维持各类别之间的区分度，提高图文检索的准确度。

示例性的，在采用样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练时，可以基于样本搜索文本的语义特征向量、样本图像的图像特征向量，以及辅助聚类中心对应的图像特征向量和语义特征向量，构建类内损失函数和类间损失函数，并基于上述损失函数，进行待训练模型的训练，得到图文检索模型。

本公开实施例的技术方案，通过确定样本图像文本对，以及样本图像文本对的辅助聚类中心，进而根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型，通过将样本图像文本对和辅助聚类中心对图文检索模型进行训练，不仅可以提高各类别内部的区分度，还可以维持各类别之间的区分度，提高图文检索准确度。

图2是本公开实施例中的一种图文检索模型的训练方法的示意图，在上述实施例的基础上进一步细化，提供了确定样本图像文本对，以及样本图像文本对的辅助聚类中心的具体步骤。下面结合图2对本公开实施例提供的一种图文检索模型的训练方法进行说明，包括以下：

S210、对样本图像文本对中的样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心。

本实施例中，为了对图文检索模型进行训练，实现细粒度的图文检索，可以对样本图像文本对中的样本搜索文本进行特征提取，得到各样本搜索文本对应的语义特征向量，进而可以基于语义特征向量之间的距离和预先设置的类别数量，将样本搜索文本进行聚类，得到多个类别的样本搜索文本，以及各类样本图像文本所属的聚类中心。

需要说明的是，在对样本搜索文本进行聚类后，根据样本搜索文本的分类结果，以及样本搜索文本和样本图像的对应关系，将样本图像文本对分为多个类别，相应的，可以通过计算各类样本图像文本对中样本搜索文本的语义特征向量的均值，得到聚类中心的语义特征向量，同样，通过计算各类样本图像文本对中样本图像的图像特征向量的均值，得到聚类中心的图像特征向量。

可选的，在确定样本图像文本对，以及样本图像文本对的辅助聚类中心之前，还包括：

采用语料库中的文本，对语义特征提取模型进行训练；

对样本图像文本对中的样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心，包括：

将样本图像文本对中的样本搜索文本输入至语义特征提取模型，得到样本搜索文本对应的语义特征向量；

基于语义特征向量之间的距离，对样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心。

本可选的实施例中，在确定样本图像文本对，以及样本图像文本对的辅助聚类中心之前，为了对样本图像文本对中的样本搜索文本进行特征提取得到语义特征向量，可以采用语料库中的文本，对语义特征提取模型进行训练，其中，语义特提取模型可以是Bert模型或者ERNIE模型等。

相应的，还提供一种对样本图像文本对中的样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心的具体方式，首先将样本图像文本对中的样本搜索文本输入至上述训练完毕的语义特征提取模型中，得到语义特征提取模型输出样本搜索文本对应的语义特征向量，进一步的，基于样本搜索文本对应语义特征向量之间的距离，对样本搜索文本进行聚类，得到多个类别的样本搜索文本以及各类别的聚类中心，进而基于样本搜索文本的划分结果，以及样本搜索文本和样本图像的对应关系，得到多个类别的样本图像文本对，最终基于各类别样本图像文本对中样本搜索文本对应的语义特征向量，得到各类别聚类中心对应的语义特征向量，基于各类别样本图像文本对中样本图层对应的图像特征向量，得到各类别聚类中心的图像特征向量，可以在后续针对聚类结果对待训练模型进行训练，实现细粒度的图文检索。

示例性的，将样本图像文本对（v1，t1）、（v2，t2）和（v3，t3）中的样本搜索文本t1、t2和t3输入至语义特征提取模型中，得到对应语义特征向量F（t1）、F（t2）和F（t3），基于各语义特征向量的距离，采用K-Means聚类方法，实现样本搜索文本的聚类，例如，分为A类和B类共两类，其中，t1和t2属于A类，t3属于B类，进而根据样本搜索文本和样本图像的对应关系，得到多个类别的样本图像文本对，A类中包含（v1，t1）和（v2，t2），B类中包含（v3，t3），最终可以计算各类别中样本搜索文本对应语义特征向量的平均值或者滑动平均值，得到聚类中心的语义特征向量，计算各类别中样本图像对应图像特征向量的平均值或者滑动平均值，得到聚类中心的图像特征向量。

S220、根据每一类样本图像文本对，从除该类样本图像文本对所属聚类中心之外的其他聚类中心选择辅助聚类中心。

本公开实施例中，根据每一类样本图像文本对，可以从除该类样本图像文本对所属聚类中心之外的其他聚类中心选择一个聚类中心作为与该类样本图像文本对匹配的辅助聚类中心。

示例性的，将样本图像文本对划分为A、B、C、D和E共5个类别，在使用A类样本图像文本对进行模型训练时，可以选择除A类之外，其他任意类别的样本图像文本对的聚类中心作为辅助聚类中心，辅助聚类中心与上述A类样本图像文本对共同输入至待训练模型进行训练，可以提高不同类别样本图像文本对之间的区分度，继而优化图文检索效果。

S230、根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型；待训练模型包含语言模型部分和图像模型部分。

可选的，在根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练之前，还包括：

根据样本图像文本对中的样本图像，采用对比学习方法，对图像特征提取模型进行训练；

将待训练模型的参数，与语义特征提取模型和图像特征提取模型的参数对齐。

本可选的实施例中，提供了在根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练之前的具体执行步骤，根据样本图像文本对中的样本图像，采用对比学习方法，对图像特征提取模型进行训练，进而将待训练模型的参数与语义特征提取模型和图像特征提取模型的参数对齐，具体的，将待训练模型中语言模型部分的参数，与训练后的语义特征提取模型的参数进行对齐，将待训练模型中图像模型部分的参数，与训练后的图像特征提取模型的参数进行对齐，提高待训练模型的训练效率。

本公开实施例的技术方案，通过对样本图像文本对中的样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心，并根据每一类样本图像文本对，从除该类样本图像文本对所属聚类中心之外的其他聚类中心选择辅助聚类中心，进而根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型，基于样本搜索文本的聚类结果进行模型训练，可以实现类别的细粒度划分，从而实现细粒度的图文检索。

图3是本公开实施例中的一种图文检索模型的训练方法的示意图，在上述实施例的基础上进一步细化，提供了根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型的具体步骤。下面结合图3对本公开实施例提供的一种图文检索模型的训练方法进行说明，包括以下：

S310、确定样本图像文本对，以及样本图像文本对的辅助聚类中心；其中，样本图像文本对包括样本图像和样本搜索文本，且样本搜索文本与所述辅助聚类中心所属的类别不同。

S320、将样本图像文本对中的样本搜索文本作为语言模型部分的输入，得到样本搜索文本对应的样本语义特征向量。

本公开实施例中，在确定样本图像文本对和样本图像文本对的辅助聚类中心后，将样本图像文本对中的样本搜索文本作为语言模型部分的输入，使得语言模型部分对样本搜索文本进行特征提取，得到样本搜索文本对应的语义特征向量。

S330、将样本图像文本对中的样本图像作为图像模型部分的输入，得到样本图像对应的样本图像特征向量。

本公开实施例中，在确定样本图像文本对和样本图像文本对的辅助聚类中心后，将样本图像文本对中的样本图像作为图像模型部分的输入，使得图像模型部分对样本图像进行特征提取，得到样本图像对应的图像特征向量。

值得注意的是，S320和S330可以是依次执行也可以是同时执行，不受上述步骤顺序的限制。

S340、根据样本语义特征向量和样本图像特征向量之间的距离，构建类内损失函数。

本公开实施例中，为了提高各分类内部的区分度，需要使得一个类别内属于同一样本图像文本对的样本搜索文本和样本图像对应特征向量的距离小于与不属于同一样本图像文本对的样本搜索文本和样本图像文本对应特征向量的距离，例如，同属于A类的样本图像文本对为(v1，t1)和 (v2，t2)，其中v1、v2表示样本图像，t1、t2表示样本搜索文本。提取样本搜索文本对应的语义特征向量为F(t1)和F(t2)，并提取样本图像对应的图像特征向量为G(v1)和G(v2)，需要使得G(v1)和F(t1)的距离小于G(v2)和F(t1)的距离以及G(v1)和F(t2)的距离，使得G(v2)和F(t2)的距离要小于G(v2)和F(t1)以及G(v1)和F(t2)的距离。

具体的，根据样本语义特征向量和样本图像特征向量之间的距离，构建类内损失函数，以达到上述模型训练目标，具体类内损失函数设计如下：

其中，表示G(v2)和F(t1)的距离，/>表示G(v1)和F(t2)的距离，/>表示G(v1)和F(t1)的距离，/>表示G(v2)和F(t2)的距离。

上述类内损失函数的设计可以提高类别内部区分度，提高图文检索准确度。

S350、根据样本语义特征向量和辅助聚类中心对应的图像特征向量之间的距离，以及样本图像特征向量和辅助聚类中心对应的语义特征向量之间的距离，构建类间损失函数。

本公开实施例中，为了提高不同类别之间的区分度，需要使得样本语义特征向量和样本图像特征向量之间的距离，小于样本语义特征向量和辅助聚类中心对应的图像特征向量之间的距离，以及使得样本语义特征向量和样本图像特征向量之间的距离，小于样本图像特征向量和辅助聚类中心对应的语义特征向量之间的距离，例如，类别A的聚类中心对应的图像特征向量为GA，对应的语义特征向量为FA，不属于类别A的样本图像文本对(v3，t3)，其中，v3表示样本图像，t3表示样本搜索文本。提取样本搜索文本对应的语义特征向量为F(t3)，并提取样本图像对应的图像特征向量为G(v3)，则需要使得G(v3)和F(t3)的距离小于G(v3)和FA的距离，同时使得G(v3)和F(t3)的距离小于GA和F(t3)的距离。

具体的，根据样本语义特征向量和辅助聚类中心对应的图像特征向量之间的距离，以及样本图像特征向量和辅助聚类中心对应的语义特征向量之间的距离，构建类间损失函数，以达到上述模型训练目标，具体类间损失函数设计如下：

其中，表示G(v3)和FA的距离，/>表示G(v3)和F(t3)的距离，/>表示GA和F(t3)的距离。

上述类间损失函数的设计可以提高类别之间区分度，实现细粒度图文检索。

S360、基于类内损失函数和类间损失函数，对待训练模型进行训练，得到图文检索模型。

本公开实施例中，可以根据上述类内损失函数和类间损失函数，对待训练模型进行训练得到图文检索模型，示例性的，基于类内损失函数和类间损失函数，采用梯度下降方法，对待训练模型进行训练，直至损失函数收敛，得到图文检索模型。

本公开实施例的技术方案，通过确定样本图像文本对，以及样本图像文本对的辅助聚类中心，并获取样本搜索文本对应的样本语义特征向量及样本图像对应的样本图像特征向量，根据样本语义特征向量和样本图像特征向量之间的距离，构建类内损失函数，并根据样本语义特征向量和辅助聚类中心对应的图像特征向量之间的距离，以及样本图像特征向量和辅助聚类中心对应的语义特征向量之间的距离，构建类间损失函数，最终基于类内损失函数和类间损失函数，对待训练模型进行训练，得到图文检索模型，在提高各类别内部的区分度的同时，还可以维持各类别之间的区分度，实现细粒度图文检索，提高图文检索准确度。

图4是本公开实施例中的一种图文检索方法的示意图，本公开实施例的技术方案适用于通过预先根据样本搜索文本的聚类结果训练得到的图文检索模型进行图文检索的情况，该方法可以由图文检索装置执行，该装置可以通过软件，和/或硬件的方式实现，并一般可以集成在电子设备中，例如终端设备中，本公开实施例的方法具体包括以下：

S410、通过图文检索模型中的语言模型部分，提取目标搜索文本对应的目标语义特征向量；图文检索模型包含语言模型部分和图像模型部分。

其中，图文检索模型包含语言模型部分和图像模型部分，语言模型部分用于对目标搜索文本进行特征提取，得到目标搜索文本对应的语义特征向量，示例性的，语言模型部分可以采用ERNIE模型或者Bert模型等。图像模型部分用于对候选图像进行特征提取，得到候选图像对应的图像特征向量，其中，候选图像可以图像库中的图像。

本公开实施例中，响应于用户输入的目标搜索文本，由图文检索模型中的语言部分对目标搜索文本进行特征提取，得到目标搜索文本对应的目标语义特征向量。

S420、根据目标语义特征向量和候选图像的图像特征向量，从候选图中为目标搜索文本选择目标图像；候选图像的图像特征向量通过图像模型部分提取；

其中，图文检索模型通过根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练得到。

本公开实施例中，在获取到目标语义特征向量后，根据目标语义特征向量和候选图像的图像特征向量，从候选图中为目标搜索文本选择目标图像，具体的，可以分别计算目标语义特征向量和图像库中多个候选图像特征向量之间的距离，根据距离值，在候选图像中确定目标搜索文本对应的目标图像。其中，图像库中的候选图像特征向量是由图文检索模型中的图像模型部分对图像进行特征提取得到。示例性的，可以选择与目标语义特征向量的距离值小于设定距离阈值的候选图像特征向量对应的候选图像作为目标图像。又示例性的，还可以选择与目标语义特征向量的距离值最小的候选图像特征向量对应的候选图像作为目标图像。

本公开实施例的技术方案，通过图文检索模型中的语言模型部分，提取目标搜索文本对应的目标语义特征向量，并根据目标语义特征向量和候选图像的图像特征向量，从候选图中为目标搜索文本选择目标图像，其中，图文检索模型通过根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练得到，可以实现细粒度的图文检索。

可选的，根据目标语义特征向量和候选图像的图像特征向量，从候选图中为目标搜索文本选择目标图像，包括：

计算目标语义特征向量和候选图像的图像特征向量之间的距离，并将候选图像中对应图像特征向量与目标语义特征向量之间的距离小于设定阈值的候选图像确定为目标图像。

本可选的实施例中，提供一种根据目标语义特征向量和候选图像的图像特征向量，从候选图中为目标搜索文本选择目标图像的方式，具体为，计算目标语义特征向量和候选图像的图像特征向量之间的距离，并将候选图像中对应图像特征向量与目标语义特征向量之间的距离小于设定阈值的候选图像确定为目标图像，实现细粒度的图文检索。

图5是本公开实施例中的一种图文检索模型的训练装置的结构示意图，该图文检索模型的训练装置500，包括：样本确定模块510和模型训练模块520。

样本确定模块510，用于确定样本图像文本对，以及样本图像文本对的辅助聚类中心；其中，样本图像文本对包括样本图像和样本搜索文本，且样本搜索文本与所述辅助聚类中心所属的类别不同；

模型训练模块520，用于根据所述样本图像文本对和所述样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型；所述待训练模型包含语言模型部分和图像模型部分。

可选的，所述样本确定模块510，包括：

聚类中心获取单元，用于对样本图像文本对中的样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心；

辅助聚类中心确定单元，用于根据每一类样本图像文本对，从除该类样本图像文本对所属聚类中心之外的其他聚类中心选择辅助聚类中心。

可选的，所述模型训练模块520，包括：

样本语义特征向量获取单元，用于将样本图像文本对中的样本搜索文本作为语言模型部分的输入，得到样本搜索文本对应的样本语义特征向量；

样本图像特征向量获取单元，用于将样本图像文本对中的样本图像作为图像模型部分的输入，得到样本图像对应的样本图像特征向量；

类内损失函数构建单元，用于根据样本语义特征向量和样本图像特征向量之间的距离，构建类内损失函数；

类间损失函数构建单元，用于根据样本语义特征向量和辅助聚类中心对应的图像特征向量之间的距离，以及样本图像特征向量和辅助聚类中心对应的语义特征向量之间的距离，构建类间损失函数；

模型训练单元，用于基于所述类内损失函数和所述类间损失函数，对所述待训练模型进行训练，得到图文检索模型。

可选的，所述图文检索模型的训练装置500，还包括：

语义特征提取模型训练模块，用于在确定样本图像文本对，以及样本图像文本对的辅助聚类中心之前，采用语料库中的文本，对语义特征提取模型进行训练；

所述聚类中心获取单元，包括：

语义特征向量获取子单元，用于将样本图像文本对中的样本搜索文本输入至所述语义特征提取模型，得到样本搜索文本对应的语义特征向量；

聚类中心获取子单元，用于基于语义特征向量之间的距离，对样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心。

可选的，所述图文检索模型的训练装置500，还包括：

图像特征提取模型训练模块，用于在根据所述样本图像文本对和所述样本图像文本对的辅助聚类中心对待训练模型进行训练之前，根据样本图像文本对中的样本图像，采用对比学习方法，对图像特征提取模型进行训练；

参数对齐模块，用于将待训练模型的参数，与所述语义特征提取模型和所述图像特征提取模型的参数对齐。

本公开实施例所提供的图文检索模型的训练装置可执行本公开任意实施例所提供的图文检索模型的训练方法，具备执行方法相应的功能模块和有益效果。

图6是本公开实施例中的一种图文检索装置的结构示意图，该图文检索装置600，包括：语义特征向量提取模块610和目标图像确定模块620。

语义特征向量提取模块610，用于通过图文检索模型中的语言模型部分，提取目标搜索文本对应的目标语义特征向量；所述图文检索模型包含语言模型部分和图像模型部分；

目标图像确定模块620，用于根据所述目标语义特征向量和候选图像的图像特征向量，从候选图中为目标搜索文本选择目标图像；所述候选图像的图像特征向量通过所述图像模型部分提取；

可选的，所述目标图像确定模块620，具体用于：

计算目标语义特征向量和候选图像的图像特征向量之间的距离，并将候选图像中对应图像特征向量与所述目标语义特征向量之间的距离小于设定阈值的候选图像确定为目标图像。

本公开实施例所提供的图文检索装置可执行本公开任意实施例所提供的图文检索方法，具备执行方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器（ROM）702中的计算机程序或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如图文检索模型的训练方法或者图文检索方法。例如，在一些实施例中，图文检索模型的训练方法或者图文检索方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的图文检索模型的训练方法或者图文检索方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行图文检索模型的训练方法或者图文检索方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图文检索模型的训练方法，包括：

确定样本图像文本对，以及样本图像文本对的辅助聚类中心；其中，所述样本图像文本对包括样本图像和样本搜索文本，且所述样本搜索文本与所述辅助聚类中心所属的类别不同；

根据所述样本图像文本对和所述样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型；所述待训练模型包含语言模型部分和图像模型部分；

其中，所述根据所述样本图像文本对和所述样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型，包括：

将所述样本图像文本对中的样本搜索文本作为所述语言模型部分的输入，得到所述样本搜索文本对应的样本语义特征向量；

将所述样本图像文本对中的样本图像作为所述图像模型部分的输入，得到所述样本图像对应的样本图像特征向量；

根据所述样本语义特征向量和所述样本图像特征向量之间的距离，构建类内损失函数；其中，所述类内损失函数使得一个类别内属于同一样本图像文本对的样本搜索文本和样本图像对应特征向量的距离小于与不属于同一样本图像文本对的样本搜索文本和样本图像文本对应特征向量的距离；

根据所述样本语义特征向量和所述辅助聚类中心对应的图像特征向量之间的距离，以及所述样本图像特征向量和所述辅助聚类中心对应的语义特征向量之间的距离，构建类间损失函数；

基于所述类内损失函数和所述类间损失函数，对所述待训练模型进行训练，得到所述图文检索模型。

2.根据权利要求1所述的方法，其中，所述确定样本图像文本对，以及样本图像文本对的辅助聚类中心，包括：

对所述样本图像文本对中的样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心；

根据每一类样本图像文本对，从除该类样本图像文本对所属聚类中心之外的其他聚类中心选择辅助聚类中心。

3.根据权利要求2所述的方法，在确定样本图像文本对，以及样本图像文本对的辅助聚类中心之前，还包括：

采用语料库中的文本，对语义特征提取模型进行训练；

所述对所述样本图像文本对中的样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心，包括：

将所述样本图像文本对中的样本搜索文本输入至所述语义特征提取模型，得到样本搜索文本对应的语义特征向量；

基于所述语义特征向量之间的距离，对所述样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心。

4.根据权利要求3所述的方法，在所述根据所述样本图像文本对和所述样本图像文本对的辅助聚类中心对待训练模型进行训练之前，还包括：

根据所述样本图像文本对中的样本图像，采用对比学习方法，对图像特征提取模型进行训练；

将待训练模型的参数，与所述语义特征提取模型和所述图像特征提取模型的参数对齐。

5.一种图文检索方法，包括：

根据所述目标语义特征向量和候选图像的图像特征向量，从候选图中为所述目标搜索文本选择目标图像；所述候选图像的图像特征向量通过所述图像模型部分提取；

其中，所述图文检索模型通过根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练得到；

其中，所述根据样本图像文本对和样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型，包括：

6.根据权利要求5所述的方法，其中，所述根据所述目标语义特征向量和候选图像的图像特征向量，从候选图中为所述目标搜索文本选择目标图像，包括：

计算所述目标语义特征向量和所述候选图像的图像特征向量之间的距离，并将所述候选图像中对应图像特征向量与所述目标语义特征向量之间的距离小于设定阈值的候选图像确定为所述目标图像。

7.一种图文检索模型的训练装置，包括：

样本确定模块，用于确定样本图像文本对，以及样本图像文本对的辅助聚类中心；其中，所述样本图像文本对包括样本图像和样本搜索文本，且所述样本搜索文本与所述辅助聚类中心所属的类别不同；

模型训练模块，用于根据所述样本图像文本对和所述样本图像文本对的辅助聚类中心对待训练模型进行训练，得到图文检索模型；所述待训练模型包含语言模型部分和图像模型部分；

其中，所述模型训练模块，包括：

样本语义特征向量获取单元，用于将所述样本图像文本对中的样本搜索文本作为所述语言模型部分的输入，得到所述样本搜索文本对应的样本语义特征向量；

样本图像特征向量获取单元，用于将所述样本图像文本对中的样本图像作为所述图像模型部分的输入，得到所述样本图像对应的样本图像特征向量；

类内损失函数构建单元，用于根据所述样本语义特征向量和所述样本图像特征向量之间的距离，构建类内损失函数；其中，所述类内损失函数使得一个类别内属于同一样本图像文本对的样本搜索文本和样本图像对应特征向量的距离小于与不属于同一样本图像文本对的样本搜索文本和样本图像文本对应特征向量的距离；

类间损失函数构建单元，用于根据所述样本语义特征向量和所述辅助聚类中心对应的图像特征向量之间的距离，以及所述样本图像特征向量和所述辅助聚类中心对应的语义特征向量之间的距离，构建类间损失函数；

模型训练单元，用于基于所述类内损失函数和所述类间损失函数，对所述待训练模型进行训练，得到所述图文检索模型。

8.根据权利要求7所述的装置，其中，所述样本确定模块，包括：

聚类中心获取单元，用于对所述样本图像文本对中的样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心；

9.根据权利要求8所述的装置，还包括：

所述聚类中心获取单元，包括：

语义特征向量获取子单元，用于将所述样本图像文本对中的样本搜索文本输入至所述语义特征提取模型，得到样本搜索文本对应的语义特征向量；

聚类中心获取子单元，用于基于所述语义特征向量之间的距离，对所述样本搜索文本进行聚类，得到各类样本搜索文本所属的聚类中心。

10.根据权利要求9所述的装置，还包括：

图像特征提取模型训练模块，用于在所述根据所述样本图像文本对和所述样本图像文本对的辅助聚类中心对待训练模型进行训练之前，根据所述样本图像文本对中的样本图像，采用对比学习方法，对图像特征提取模型进行训练；

11.一种图文检索装置，包括：

目标图像确定模块，用于根据所述目标语义特征向量和候选图像的图像特征向量，从候选图中为所述目标搜索文本选择目标图像；所述候选图像的图像特征向量通过所述图像模型部分提取；

12.根据权利要求11所述的装置，其中，所述目标图像确定模块，具体用于：

13. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述图文检索模型的训练方法，或者权利要求5-6中任一项所述的图文检索方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述图文检索模型的训练方法，或者权利要求5-6中任一项所述的图文检索方法。