CN113656613A

CN113656613A - 训练图文检索模型的方法、多模态图像检索方法及装置

Info

Publication number: CN113656613A
Application number: CN202110965035.9A
Authority: CN
Inventors: 冯原; 龙翔; 郑弘晖; 辛颖; 张滨; 李超; 王晓迪; 谷祎; 王云浩; 彭岩; 贾壮; 韩树民
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-16
Also published as: US20220391587A1

Abstract

本公开提供了一种训练图文检索模型的方法，涉及人工智能技术领域，尤其涉及计算机视觉和深度学习技术。具体实现方案为：获取样本数据，样本数据包括样本文本和样本图像，样本文本包括第一语种样本文本和第二语种样本文本；利用文本编码子模型处理第一语种样本文本和第二语种样本文本，得到样本数据的样本文本特征；利用图像编码子模型处理样本图像，得到样本数据的样本图像特征；以及根据样本文本特征和样本图像特征，对图文检索模型进行训练。本公开还提供了一种多模态图像检索方法、装置、电子设备及存储介质。

Description

训练图文检索模型的方法、多模态图像检索方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉和深度学习技术。具体涉及一种训练图文检索模型的方法、多模态图像检索方法、装置、电子设备及存储介质。

背景技术

图文检索模型可以将采集到的图文对(文本及文本对应的图像)映射到同一个特征空间。通过深度学习等方式，调整图像的特征与文本的特征之间的特征距离，可以学习到单语种文本与图像之间的关系。

发明内容

本公开提供了一种训练图文检索模型的方法、多模态图像检索方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种训练图文检索模型的方法，上述图文检索模型包括文本编码子模型和图像编码子模型，上述方法包括：获取样本数据，上述样本数据包括样本文本和样本图像，上述样本文本包括第一语种样本文本和第二语种样本文本；利用上述文本编码子模型处理上述第一语种样本文本和上述第二语种样本文本，得到上述样本数据的样本文本特征；利用上述图像编码子模型处理上述样本图像，得到上述样本数据的样本图像特征；以及根据上述样本文本特征和上述样本图像特征，对上述图文检索模型进行训练。

根据本公开的另一方面，提供了一种多模态图像检索方法，包括：将图像检索文本输入到图文检索模型，得到上述图像检索文本的文本特征；确定上述文本特征与N个图像特征之间的N个第二相似度；针对上述N个第二相似度中大于预设相似度阈值的M个第二相似度，确定与上述M个第二相似度对应的M个图像，作为检索结果，其中，N≥M；其中，上述图文检索模型是根据本公开提供的方法训练的。

根据本公开的另一方面，提供了一种训练图文检索模型的装置，上述图文检索模型包括文本编码子模型和图像编码子模型，上述装置包括：获取模块，用于获取样本数据，上述样本数据包括样本文本和样本图像，上述样本文本包括第一语种样本文本和第二语种样本文本；第一获得模块，用于利用上述文本编码子模型处理上述第一语种样本文本和上述第二语种样本文本，得到上述样本数据的样本文本特征；第二获得模块，用于利用上述图像编码子模型处理上述样本图像，得到上述样本数据的样本图像特征；以及训练模块，用于根据上述样本文本特征和上述样本图像特征，对上述图文检索模型进行训练。

根据本公开的另一方面，提供了一种多模态图像检索装置，包括：第三获得模块，用于将图像检索文本输入到图文检索模型，得到上述图像检索文本的文本特征；第一确定模块，用于确定上述文本特征与N个图像特征之间的N个第二相似度；以及第二确定模块，用于针对上述N个第二相似度中大于预设相似度阈值的M个第二相似度，确定与上述M个第二相似度对应的M个图像，作为检索结果，其中，N≥M；其中，上述图文检索模型是根据本公开提供的装置训练的。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行本公开提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行本公开提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一个实施例的训练图文检索模型的方法的流程图；

图2是根据本公开另一个实施例的训练图文检索模型的方法的流程图；

图3是根据本公开一个实施例的多模态图像检索方法的流程图；

图4是根据本公开一个实施例的图文检索模型的原理图；

图5是根据本公开一个实施例的训练图文检索模型的装置的框图；

图6是根据本公开一个实施例的多模态图像检索装置的框图；

图7是用来实现本公开实施例的训练图文检索模型的方法和/或多模态图像检索方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图文检索模型，比如CLIP(Contrastive Language-Image Pre-Training，对比图文预训练)模型，可以支持图文联合检索。CLIP模型的图像编码器(Image Encoder)和文本编码器(Text Image)可以基于Transformer模型建立。利用CLIP模型在图像库中进行图像检索时，可以比较图像检索文本的特征与图像库中图像的特征的相似度，将相似度较高的图像作为检索结果。

但CLIP模型目前只支持语种为英文的文本，其他语种的文本需要先翻译为英文才能输入到CLIP模型中。CLIP模型也无法学习到不同语种的文本与图像之间的关系。

图1是根据本公开一个实施例的训练图文检索模型的方法的流程图。

如图1所示，该训练图文检索模型的方法100可以包括操作S110～S140。该图文检索模型可以包括文本编码子模型和图像编码子模型。

在操作S110，获取样本数据，上述样本数据包括样本文本和样本图像，上述样本文本包括第一语种样本文本和第二语种样本文本。

在本公开实施例中，样本数据可以从样本数据库中获取。

例如，样本数据库中存储有文本以及与文本对应的图像。在一个示例中，样本数据库中存储有文本以及与文本一一对应的图像，比如文本是“一个人在踢足球”，与之对应的图像是一个人在踢足球的图像。在一个示例中，样本数据库中存储有文本以及文本对应的至少一个图像，比如文本是“一个人在踢足球”，与之对应的图像可以是某国家队队员在踢足球的图像、某俱乐部球员在踢足球的图像、......、某学校学生在踢足球的图像。

又例如，样本数据库中存储有至少50万个文本，以及与至少50万个文本中每个文本对应的200个图像，即至少1亿个图文对。

本领域技术人员可以理解，样本数据库中存储有多个样本文本以及与每个样本文本对应的样本图像。

本领域技术人员可以理解，获取的样本数据可以是一个样本文本及该样本文本对应的样本图像，也可以是多个样本文本以及与多个样本文本中每个样本文本分别对应的样本图像。

例如，第一语种样本文本可以是英文文本，第二语种样本文本可以是中文文本。

在本公开实施例中，样本图像可以包括与第一语种样本文本对应的第一样本图像，以及与第二语种样本文本对应的第二样本图像。

例如，第一语种样本文本为“A man is playing football”，第一样本图像可以是某俱乐部球员在踢足球的图像；第二语种样本文本可以为“一个人在踢足球”，第二样本图像也可以是某俱乐部球员在踢足球的图像。

本领域技术人员可以理解，第一样本图像与第二样本图像可以是同一图像。在输入图文检索模型时，样本数据以两个图文对的形式输入图文检索模型，比如，(“A man isplaying football”，某俱乐部球员在踢足球的图像)作为一个图文对，(“一个人在踢足球”，某俱乐部球员在踢足球的图像)作为另一个图文对，将这两个图文对一并输入图文检索模型。

在操作S120，利用上述文本编码子模型处理上述第一语种样本文本和上述第二语种样本文本，得到上述样本数据的样本文本特征。

例如，文本编码子模型可以采用Transformer模型。

例如，文本编码子模型可以是经过预训练的模型。

在操作S 130，利用上述图像编码子模型处理上述样本图像，得到上述样本数据的样本图像特征。

例如，图像编码子模型可以采用Transformer模型。又例如，图像编码子模型可以采用ResNet模型。

例如，可以将第一样本图像或第二样本图像中的任一个图像作为样本图像。

例如，图像编码子模型可以是经过预训练的子模型。

在操作S140，根据上述样本文本特征和上述样本图像特征，对上述图文检索模型进行训练。

例如，可以根据样本文本特征与样本图像特征之间的区别或相似性，调整图文检索模型的参数。

本领域技术人员可以理解，可以采用第一语种样本文本和与之对应的第一样本图像对文本编码子模型和图像编码子模型进行预训练。在一个示例中，可以利用文本编码子模型处理第一语种样本文本得到第一语种样本文本的特征，可以利用图像编码子模型处理第一样本图像得到第一样本图像的特征，根据第一语种样本文本的特征和第一样本图像的特征之间的区别或相似性，调整文本编码子模型和图像编码子模型参数。训练目标是缩小第一语种样本文本的特征和第一样本图像的特征之间的区别，或者是增大第一语种样本文本的特征和第一样本图像的特征之间的相似性。

通过本公开实施例，可以有效利用多种语言与图片的关系，可以得到支持多种语言进行检索的图文检索模型，尤其可以提高使用中文进行图像检索的效率。以及可以使用大量的样本数据，比如至少1亿个图文对，进而可以有效提高训练效率。

图2是根据本公开一个实施例的训练图文检索模型的方法流程图。

如图2所示，该训练图文检索模型的方法200可以获取样本数据。下面将参考下述操作S211～操作S212进行详细说明。

在操作S211，确定与上述第一语种样本文本对应的至少一个样本图像。

例如，样本数据库中可以只存储有第一语种样本文本和第一语种样本文本对应的样本图像。

在操作S212，对上述第一语种样本文本进行转换，得到第二语种样本文本。

例如，可以将英文的第一语种样本文本转换为中文的第二语种样本文本。在一个示例中，样本数据库中存储的一个第一语种样本文本可以为“A man is playingfootball”，翻译为“一个人在踢足球”，得到一个第二语种样本文本。与该第一语种样本文本对应的样本图像可以是某俱乐部球员在踢足球的图像。进而，可以建立该第二语种样本文本与该样本图像的对应关系，得到两个图文对，即：(“A man is playing football”，某俱乐部球员在踢足球的图像)这一图文对，以及(“一个人在踢足球”，某俱乐部球员在踢足球的图像)这一图文对。按照相同或类似的方式，也可以将中文的第一语种样本文本转换为英文的第二语种样本文本，本公开在此不再赘述。

接下来，该训练图文检索模型的方法200可以利用利用上述文本编码子模型处理上述第一语种样本文本和上述第二语种样本文本，得到上述样本数据的样本文本特征。下面将参考下述操作S221～操作S222进行详细说明。

在操作S221，利用上述文本编码子模型处理第一语种样本文本和第二语种样本文本，得到第一语种样本文本的特征和第二语种样本文本的特征。

例如，可以利用文本编码子模型处理一个英文的第一语种样本文本，得到第一语种样本文本的特征(T₁，T₂，……，T_i)，i≥3。

例如，可以利用文本编码子模型处理一个中文的第二语种样本文本，得到第二语种样本文本的特征(T_i+1，……，T_K)，i≥3，K≥i。

在操作S222，基于上述第一语种样本文本的特征和第二语种样本文本的特征，确定上述样本数据的样本文本特征。

在本公开实施例中，可以对上述第一语种样本文本的特征和第二语种样本文本的特征执行融合操作，确定上述样本数据的样本文本特征。

例如，融合操作可以是拼接操作，将第一语种样本文本的特征(T₁，T₂，……，T_i)和第二语种样本文本的特征(T_i+1，……，T_K)拼接，得到样本文本特征(T₁，T₂，……，T_i，T_i+1，……，T_K)。

该训练图文检索模型的方法200还可以利用上述图像编码子模型处理上述样本图像，得到上述样本数据的样本图像特征。下面将参考下述操作S231～操作S232进行详细说明。

在操作S231，利用上述图像编码子模型分别确定上述至少一个样本图像中每个样本图像的特征。

在本公开实施例中，样本图像可以为一个。

例如，样本图像可以是某俱乐部球员在踢足球的图像，可以利用上述图像编码子模型确定该样本图像的特征(I₁，I₂，……，I_i，I_i+1，……，I_K)。

在本公开实施例中，样本图像可以为两个及两个以上。

例如，样本图像可以是3个，比如某国家队队员在踢足球的图像、某俱乐部球员在踢足球的图像、某学校学生在踢足球的图像，利用上述图像编码子模型确定分别确定三个样本图像中每个样本图像的特征，分别为(I₁₁，I₁₂，……，I_1i，I_1(i+1)，……，I_1J)，(I₂₁，I₂₂，……，I_2i，I_2(i+1)，……，I_2J)以及(I₃₁，I₃₂，……，I_3i，I_3(i+1)，……，I_3J)，其中J可以等于K，也可以不等于K。

在操作S232，基于上述每个样本图像的特征，确定上述样本数据的样本图像特征。

例如，在样本图像为一个时，可以直接将样本图像的特征(I₁，I₂，……，I_i，I_i+1，……，I_K)作为样本图像特征。

例如，在样本图像为两个或两个以上时，可以对这几个样本图像的特征进行融合，比如拼接或线性相加等，得到样本图像特征。比如，可以将上述(I₁₁，I₁₂，……，I_1i，I_1(i+1)，……，I_1J)，(I₂₁，I₂₂，……，I_2i，I_2(i+1)，……，I_2J)以及(I₃₁，I₃₂，……，I_3i，I_3(i+1)，……，I_3J)融合，得到样本图像特征(I₁’，I₂’，……，I_i’，I_i+1’，……，I_K’)。

接下来，该训练图文模型的方法200可以根据上述样本文本特征和上述样本图像特征，对上述图文检索模型进行训练。下面将参考下述操作S241～操作S242进行详细说明。

在操作S241，计算上述样本文本特征和上述样本图像特征之间的第一相似度。

例如，第一相似度可以是0～1之间的值。

例如，可以计算样本文本特征(T₁，T₂，……，T_i，T_i+1，……，T_K)与样本图像特征(I₁，I₂，……，I_i，I_i+1，……，I_K)的余弦相似度作为第一相似度。

又例如，可以计算样本文本特征(T₁，T₂，……，T_i，T_i+1，……，T_K)与样本图像特征(I₁’，I₂’，……，I_i’，I_i+1’，……，I_K’)的余弦相似度作为第一相似度。

在操作S242，根据上述第一相似度，调整上述文本编码子模型和上述图像编码子模型的参数。

例如，第一相似度为0～1之间的值时，可以调整上述文本编码子模型和上述图像编码子模型的参数，以增大之后得到的第一相似度的值。

本领域技术人员可以理解，在获取一组样本数据进行训练并调整上述文本编码子模型和上述图像编码子模型的参数之后，可以获取下一组样本数据进行下一次训练，直至第一相似度超过预设值(比如0.8)或达到预定的训练次数，完成训练。

本领域技术人员可以理解，上述操作S221～操作S222与操作S231～操作S232可以是并行执行的，也可以是先执行操作S221～操作S222，再执行操作S231～操作S232，或者，也可以先执行S231～操作S232，再执行操作S221～操作S222。

图3是根据本公开一个实施例的多模态图像检索方法的流程图。

如图3所示，该多模态图像检索的方法包括操作S310～操作S330。

在操作S310，将图像检索文本输入到图文检索模型，得到上述图像检索文本的文本特征。

例如，图像检索文本为“苹果”，利用图文检索模型进行处理，得到该图像检索文本的特征。

在操作S320，确定上述文本特征与N个图像特征之间的N个第二相似度。

在本公开实施例中，N个图像特征与N个图像一一对应，上述N个图像存储于在线数据库中。其中，在上述在线数据库中，上述N个图像中每个图像的索引为上述每个图像的图像特征，上述图像特征是利用上述图文检索模型处理上述每个图像得到的。

例如，可以对线上或线下公开的图像进行汇总，得到在线数据库，再利用上述图文检索模型处理在线数据库中每个图像，得到每个图像的特征，并将每个图像的特征作为此次该图像的索引。

又例如，N个第二相似度可以是：“苹果”的文本特征与N个图像特征的N个余弦相似度。

在操作S330，针对上述N个第二相似度中大于预设相似度阈值的M个第二相似度，确定与上述M个第二相似度对应的M个图像，作为检索结果，其中，N≥M。

例如，预设相似度阈值可以为0.6，在线数据库中，有M个图像特征与“苹果”的文本特征的第二相似度大于0.6，可以将这M个图像特征对应的M个图像作为检索结果。

在本公开实施例中，上述图文检索模型可以根据例如图2所示的方法训练得到。

图4是根据本公开一个实施例的图文检索模型的原理图。

如图4所示，该图文检索模型可以包括文本编码子模型410和图像编码子模型420。

输入到图文检索模型的样本数据可以是图文对，比如(样本文本，样本图像)。样本文本401可以包括第一语种样本文本和第二语种样本文本，即输入图文检索模型的样本数据可以是两个图文对(第一语种样本文本，样本图像)以及(第二语种样本文本，样本图像)

文本编码子模型410处理第一语种样本文本和第二语种样本文本，得到文本特征403(T₁，T₂，……，T_i，T_i+1，……，T_K)。其中，文本编码子模型410处理第一语种样本文本得到了T₁至T_i，以及文本编码子模型410处理第二语种样本文本得到了T_i+1至T_K

图像编码子模型420处理样本图像，得到样本图像特征404(I₁，I₂，…，I_i，I_i+1，…，I_K)。

根据样本文本特征403和样本图像特征404，调整图文检索模型的参数。在一个示例中，根据样本文本特征403和样本图像特征404，可以得到第一相似度矩阵405，可以采用一个SoftMax层对第一相似度矩阵405进行处理，得到第一相似度。

图5是根据本公开一个实施例的训练图文检索模型的装置的框图。

如图5所示，该训练图文检索模型的装置500可以包括获取模块510、第一获得模块520、第二获得模块530以及训练模块540。上述图文检索模型包括文本编码子模型和图像编码子模型。

获取模块510，用于获取样本数据，上述样本数据包括样本文本和样本图像，上述样本文本包括第一语种样本文本和第二语种样本文本。

第一获得模块520，用于利用上述文本编码子模型处理上述第一语种样本文本和上述第二语种样本文本，得到上述样本数据的样本文本特征。

第二获得模块530，用于利用上述图像编码子模型处理上述样本图像，得到上述样本数据的样本图像特征。

训练模块540，用于根据上述样本文本特征和上述样本图像特征，对上述图文检索模型进行训练。

在一些实施例中，上述训练模块包括：计算单元，用于计算上述样本文本特征和上述样本图像特征之间的第一相似度；以及调整单元，用于根据上述第一相似度，调整上述文本编码子模型和上述图像编码子模型的参数。

在一些实施例中，上述第一获得模块包括：第一获得单元，用于利用上述文本编码子模型处理第一语种样本文本，得到第一语种样本文本的特征；第二获得单元，用于利用上述文本编码子模型处理第二语种样本文本，得到第二语种样本文本的特征；以及第一确定单元，用于基于上述第一语种样本文本的特征和第二语种样本文本的特征，确定上述样本数据的样本文本特征。

在一些实施例中，上述样本数据包括至少一个样本图像；上述第二获得模块包括：第二确定单元，用于利用上述图像编码子模型分别确定上述至少一个样本图像中每个样本图像的特征；以及第三确定单元，用于基于上述每个样本图像的特征，确定上述样本数据的样本图像特征。

在一些实施例中，上述获取模块包括：第四确定单元，用于确定与上述第一语种样本文本对应的至少一个样本图像；转换单元，用于对上述第一语种样本文本进行转换，得到第二语种样本文本。

图6是根据本公开一个实施例的多模态图像检索装置的框图。

如图6所示，该多模态图像检索装置600可以包括第三获得模块610、第一确定模块620以及第二确定模块630。

第三获得模块610，用于将图像检索文本输入到图文检索模型，得到上述图像检索文本的文本特征。

第一确定模块620，用于确定上述文本特征与N个图像特征之间的N个第二相似度。

第二确定模块630，用于针对上述N个第二相似度中大于预设相似度阈值的M个第二相似度，确定与上述M个第二相似度对应的M个图像，作为检索结果，其中，N≥M；其中，上述图文检索模型是根据本公开提供的装置训练的。

在一些实施例中，上述N个图像特征与N个图像一一对应，上述N个图像存储于在线数据库中；其中，在上述在线数据库中，上述N个图像中每个图像的索引为上述每个图像的图像特征，上述图像特征是利用上述图文检索模型处理上述每个图像得到的。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如训练图文检索模型的方法和/或多模态图像检索方法。例如，在一些实施例中，训练图文检索模型的方法和/或多模态图像检索方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时，可以执行上文描述的训练图文检索模型的方法和/或多模态图像检索方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行训练图文检索模型的方法和/或多模态图像检索方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种训练图文检索模型的方法，所述图文检索模型包括文本编码子模型和图像编码子模型，所述方法包括：

获取样本数据，所述样本数据包括样本文本和样本图像，所述样本文本包括第一语种样本文本和第二语种样本文本；

利用所述文本编码子模型处理所述第一语种样本文本和所述第二语种样本文本，得到所述样本数据的样本文本特征；

利用所述图像编码子模型处理所述样本图像，得到所述样本数据的样本图像特征；以及

根据所述样本文本特征和所述样本图像特征，对所述图文检索模型进行训练。

2.根据权利要求1所述的方法，其中，所述根据所述样本文本特征和所述样本图像特征，对所述图文检索模型进行训练包括：

计算所述样本文本特征和所述样本图像特征之间的第一相似度；以及

根据所述第一相似度，调整所述文本编码子模型和所述图像编码子模型的参数。

3.根据权利要求1或2所述的方法，其中，所述利用所述文本编码子模型处理所述第一语种样本文本和所述第二语种样本文本，得到所述样本数据的样本文本特征包括：

利用所述文本编码子模型处理第一语种样本文本，得到第一语种样本文本的特征；

利用所述文本编码子模型处理第二语种样本文本，得到第二语种样本文本的特征；

基于所述第一语种样本文本的特征和第二语种样本文本的特征，确定所述样本数据的样本文本特征。

4.根据权利要求1所述的方法，其中，所述样本数据包括至少一个样本图像；所述利用所述图像编码子模型处理所述样本图像，得到所述样本数据的样本图像特征包括：

利用所述图像编码子模型分别确定所述至少一个样本图像中每个样本图像的特征；以及

基于所述每个样本图像的特征，确定所述样本数据的样本图像特征。

5.根据权利要求1所述的方法，其中，所述获取样本数据包括：

确定与所述第一语种样本文本对应的至少一个样本图像；以及

对所述第一语种样本文本进行转换，得到第二语种样本文本。

6.一种多模态图像检索方法，包括：

将图像检索文本输入到图文检索模型，得到所述图像检索文本的文本特征；

确定所述文本特征与N个图像特征之间的N个第二相似度；以及

针对所述N个第二相似度中大于预设相似度阈值的M个第二相似度，确定与所述M个第二相似度对应的M个图像，作为检索结果，其中，N≥M；

其中，所述图文检索模型是根据权利要求1至6任一项所述的方法训练的。

7.根据权利要求6所述的方法，其中，所述N个图像特征与N个图像一一对应，所述N个图像存储于在线数据库中；

其中，在所述在线数据库中，所述N个图像中每个图像的索引为所述每个图像的图像特征，所述图像特征是利用所述图文检索模型处理所述每个图像得到的。

8.一种训练图文检索模型的装置，所述图文检索模型包括文本编码子模型和图像编码子模型，所述装置包括：

获取模块，用于获取样本数据，所述样本数据包括样本文本和样本图像，所述样本文本包括第一语种样本文本和第二语种样本文本；

第一获得模块，用于利用所述文本编码子模型处理所述第一语种样本文本和所述第二语种样本文本，得到所述样本数据的样本文本特征；

第二获得模块，用于利用所述图像编码子模型处理所述样本图像，得到所述样本数据的样本图像特征；以及

训练模块，用于根据所述样本文本特征和所述样本图像特征，对所述图文检索模型进行训练。

9.根据权利要求8所述的装置，其中，所述训练模块包括：

计算单元，用于计算所述样本文本特征和所述样本图像特征之间的第一相似度；以及

调整单元，用于根据所述第一相似度，调整所述文本编码子模型和所述图像编码子模型的参数。

10.根据权利要求8或9所述的装置，其中，所述第一获得模块包括：

第一获得单元，用于利用所述文本编码子模型处理第一语种样本文本，得到第一语种样本文本的特征；

第二获得单元，用于利用所述文本编码子模型处理第二语种样本文本，得到第二语种样本文本的特征；以及

第一确定单元，用于基于所述第一语种样本文本的特征和第二语种样本文本的特征，确定所述样本数据的样本文本特征。

11.根据权利要求8所述的装置，其中，所述样本数据包括至少一个样本图像；所述第二获得模块包括：

第二确定单元，用于利用所述图像编码子模型分别确定所述至少一个样本图像中每个样本图像的特征；以及

第三确定单元，用于基于所述每个样本图像的特征，确定所述样本数据的样本图像特征。

12.根据权利要求8所述的装置，其中，所述获取模块包括：

第四确定单元，用于确定与所述第一语种样本文本对应的至少一个样本图像；以及

转换单元，用于对所述第一语种样本文本进行转换，得到第二语种样本文本。

13.一种多模态图像检索装置，包括：

第三获得模块，用于将图像检索文本输入到图文检索模型，得到所述图像检索文本的文本特征；

第一确定模块，用于确定所述文本特征与N个图像特征之间的N个第二相似度；以及

第二确定模块，用于针对所述N个第二相似度中大于预设相似度阈值的M个第二相似度，确定与所述M个第二相似度对应的M个图像，作为检索结果，其中，N≥M；

其中，所述图文检索模型是根据权利要求8至11任一项所述的装置训练的。

14.根据权利要求13所述的装置，其中，所述N个图像特征与N个图像一一对应，所述N个图像存储于在线数据库中；

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。