CN115098722A

CN115098722A - 文本和图像的匹配方法、装置、电子设备和存储介质

Info

Publication number: CN115098722A
Application number: CN202211027426.7A
Authority: CN
Inventors: 付君; 王宇航; 刘锦龙
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-09-23
Anticipated expiration: 2042-08-25
Also published as: CN115098722B

Abstract

本公开关于文本和图像的匹配方法、装置、电子设备和存储介质，该方法包括：获取待匹配文本包括的关键词；利用目标文本编码器提取待匹配文本包括的词元的特征信息，并利用目标图像编码器提取预设的多个候选图像的特征信息；目标文本编码器和目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到；根据词元的特征信息和多个候选图像的特征信息，确定关键词和各个候选图像之间的第一匹配度；根据第二匹配度，从多个候选图像中确定目标图像。本方案可以细粒度地刻画文本内容和图像的配对效果，并且基于对比的自监督学习方法提高了模型的特征表达能力，增强了文本和图像的深层语义匹配能力，提高了匹配精度。

Description

文本和图像的匹配方法、装置、电子设备和存储介质

技术领域

本公开涉及计算机视觉领域，尤其涉及文本和图像的匹配方法、装置、电子设备和存储介质。

背景技术

当前大规模视觉语言预训练模型在图文检索等领域中有着重要的应用。CLIP模型通过双塔结构提取文本和图像特征，利用对比学习策略建模文本和图像的配对关系，从而有效地将跨模态下的文本和图像特征映射到同一特征空间。但由于文本和图像配对中往往文本只有部分内容和图像内容对齐，存在语义不对齐（mis-alignment）的问题，这使得CLIP模型只能粗粒度地刻画文本和图像的匹配关系，匹配精度不高。

发明内容

本公开提供文本和图像的匹配方法、装置、电子设备和存储介质，以至少解决相关技术中文本和图像匹配精度不高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种文本和图像的匹配方法，包括：

获取待匹配文本包括的关键词；

利用目标文本编码器提取所述待匹配文本包括的词元的特征信息，并利用目标图像编码器提取预设的多个候选图像的特征信息；所述目标文本编码器和所述目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到；

根据所述词元的特征信息和所述多个候选图像的特征信息，确定所述关键词和各个所述候选图像之间的第一匹配度；

根据所述第一匹配度，确定所述待匹配文本和所述候选图像之间的第二匹配度；

根据所述第二匹配度，从所述多个候选图像中确定目标图像，所述目标图像用于与所述待匹配文本进行配对。

可选地，所述确定所述关键词和各个所述候选图像之间的第一匹配度，包括：

将所述词元的特征信息和多个所述候选图像的特征信息分别进行匹配，得到多个第一子匹配度；

根据所述多个第一子匹配度，确定所述关键词和所述多个候选图像之间的第一匹配度。

可选地，所述根据所述多个第一子匹配度，确定所述关键词和所述多个候选图像之间的第一匹配度，包括：

获取所述词元在所述待匹配文本中的第一位置信息和所述关键词在所述待匹配文本中的第二位置信息；

根据所述第一位置信息和所述第二位置信息，确定所述关键词包括的多个目标词元；

确定所述多个目标词元对应的第一子匹配度的平均值，将所述平均值作为所述关键词和所述候选图像之间的第一匹配度。

可选地，所述将所述词元的特征信息和多个所述候选图像的特征信息分别进行匹配，包括：

确定由多个所述候选图像的特征信息组成的特征队列；

计算各个所述词元的特征信息和所述特征队列之间的点积，得到多个第一子匹配度。

可选地，所述目标文本编码器和所述目标图像编码器通过以下方法训练得到：

利用第一图像样本的特征信息和第一文本样本的词元特征信息，以及预设的标签图像，对初始文本编码器和动量文本编码器进行初次训练，得到迭代文本编码器和迭代动量文本编码器；

利用第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，对初始图像编码器和动量图像编码器进行初次训练，得到迭代图像编码器和迭代动量图像编码器；

利用所述迭代动量图像编码器和所述迭代文本编码器，对所述迭代文本编码器进行多次训练，直到训练得到的第一损失值小于预设第一阈值，训练结束，得到目标文本编码器；

利用所述迭代动量文本编码器和所述迭代图像编码器，对所述迭代图像编码器进行多次训练，直到训练得到的第二损失值小于预设第二阈值，训练结束，得到目标图像编码器。

可选地，所述利用第一图像样本的特征信息和第一文本样本的词元特征信息，以及预设的标签图像，对初始文本编码器和动量文本编码器进行初次训练，包括：

根据第一图像样本的特征信息和第一文本样本的词元特征信息，以及预设的标签图像，确定本次初始文本编码器训练的第一损失值；所述第一图像样本的特征信息由动量图像编码器输出，所述第一文本样本的词元特征信息由初始文本编码器输出；

基于所述第一损失值，分别对所述初始文本编码器和动量文本编码器的参数进行修改，得到迭代文本编码器和迭代动量文本编码器。

可选地，所述利用第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，对初始图像编码器和动量图像编码器进行初次训练，包括：

根据第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，确定本次初始图像编码器训练的第二损失值；所述词元特征信息由所述迭代动量文本编码器输出，所述第二图像样本的特征信息由初始图像编码器输出；

基于所述第二损失值，分别对所述初始图像编码器和动量图像编码器的参数进行修改，得到迭代图像编码器和迭代动量图像编码器。

可选地，所述基于所述第一损失值，分别对所述初始文本编码器和动量文本编码器的参数进行修改，得到迭代文本编码器和迭代动量文本编码器，包括：

根据所述第一损失值修改所述初始文本编码器的参数，得到迭代文本编码器；

获取所述迭代文本编码器迭代前的第一参数和迭代后的第二参数；

根据所述第一参数和所述第二参数的滑动平均值，修改动量文本编码器的参数，得到迭代动量文本编码器。

可选地，所述基于所述第二损失值，分别对所述初始图像编码器和动量图像编码器的参数进行修改，得到迭代图像编码器和迭代动量图像编码器，包括：

根据所述第二损失值修改所述初始图像编码器的参数，得到迭代图像编码器；

获取所述迭代图像编码器迭代前的第三参数和迭代后的第四参数；

根据所述第三参数和所述第四参数的滑动平均值，修改动量图像编码器的参数，得到迭代动量图像编码器。

可选地，所述根据第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，确定本次初始图像编码器训练的第二损失值，包括：

获取所述第二文本样本的关键词，并根据所述关键词包括的词元，确定所述第二文本样本的关键词特征信息；

将多个所述第二文本样本的关键词特征信息分别存储到词级文本存储模块中；

将第二图像样本输入待训练的初始图像编码器，得到所述第二图像样本的特征信息；

根据所述第二文本样本的关键词特征信息和所述第二图像样本的特征信息，确定所述第二图像样本和多个所述第二文本样本之间的第二样本匹配度；

根据所述第二样本匹配度，从多个所述第二文本样本中确定目标文本样本，并根据所述目标文本样本和预设的标签文本确定本次训练的第二损失值。

可选地，所述将多个所述第二文本样本的关键词特征信息分别存储到词级文本存储模块中，包括：

将每个所述第二文本样本对应的关键词特征信息的存储空间长度设置为目标长度，并将不足所述目标长度的存储空间用初始值填充，并将所述初始值作为非有效特征；

采用关键词标记队列对所述关键词特征队列中所述关键词特征的有效性进行标记。

可选地，所述根据所述第一匹配度，确定所述待匹配文本和所述候选图像之间的第二匹配度，包括：

按照所述关键词在所述待匹配文本中的重要程度，确定各个所述关键词对应的权重；

将各个所述关键词对应的权重和所述关键词对应的第一匹配度进行加权求和，得到所述待匹配文本和所述候选图像之间的第二匹配度。

从所述待匹配文本的各个所述关键词对应的第一匹配度中，选取最大值作为所述待匹配文本和所述候选图像之间的第二匹配度。

可选地，所述方法还包括：

获取待匹配图像的特征信息；

确定所述待匹配图像的特征信息和预设的多个候选文本的特征信息之间的第三匹配度；所述候选文本的特征信息根据所述候选文本的关键词的特征信息和所述关键词在所述候选文本中的重要程度确定；

根据所述第三匹配度，从所述多个候选文本中确定目标文本。

根据本公开实施例的第二方面，提供一种文本和图像的匹配装置，包括：

关键词获取模块，被配置为执行获取待匹配文本包括的关键词；

特征信息提取模块，被配置为执行利用目标文本编码器提取所述待匹配文本包括的词元的特征信息，并利用目标图像编码器提取预设的多个候选图像的特征信息；所述目标文本编码器和所述目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到；

第一匹配度确定模块，被配置为执行根据所述词元的特征信息和所述多个候选图像的特征信息，确定所述关键词和各个所述候选图像之间的第一匹配度；

第二匹配度确定模块，被配置为执行根据所述第一匹配度，确定所述待匹配文本和所述候选图像之间的第二匹配度；

目标图像确定模块，被配置为执行根据所述第二匹配度，从所述多个候选图像中确定目标图像，所述目标图像用于与所述待匹配文本进行配对。

可选地，所述第一匹配度确定模块具体被配置为执行：

可选地，所述第一匹配度确定模块进一步被配置为执行：

确定由多个所述候选图像的特征信息组成的特征队列；

可选地，所述装置还包括模型训练模块，所述模型训练模块被配置为执行：

可选地，所述模型训练模块具体被配置为执行：

可选地，所述第二匹配度确定模块具体被配置为执行：

可选的，所述装置还包括：

第二特征信息获取模块，被配置为执行获取待匹配图像的特征信息；

第三匹配度确定模块，被配置为执行确定所述待匹配图像的特征信息和预设的多个候选文本的特征信息之间的第三匹配度；所述候选文本的特征信息根据所述候选文本的关键词的特征信息和所述关键词在所述候选文本中的重要程度确定；

目标文本确定模块，被配置为执行根据所述第三匹配度，从所述多个候选文本中确定目标文本。

根据本公开实施例的第四方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器;

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的文本和图像的匹配方法。

根据本公开实施例的第五方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如第一方面所述的文本和图像的匹配方法。

根据本公开实施例的第六方面，提供一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现第一方面所述的文本和图像的匹配方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本公开的实施例中，获取待匹配文本包括的关键词；利用目标文本编码器提取所述待匹配文本包括的词元的特征信息，并利用目标图像编码器提取预设的多个候选图像的特征信息；所述目标文本编码器和所述目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到；根据所述词元的特征信息和所述多个候选图像的特征信息，确定所述关键词和各个所述候选图像之间的第一匹配度；根据所述第一匹配度，确定所述待匹配文本和所述候选图像之间的第二匹配度；根据所述第二匹配度，从所述多个候选图像中确定目标图像，所述目标图像用于与所述待匹配文本进行配对。本方案采用待匹配文本中的关键词与候选图像进行匹配，使得关键词语义和图像内容对齐，可以细粒度地刻画文本内容和图像的配对效果，并且用于提取特征信息的目标文本编码器和目标图像编码器，基于对方在迭代训练过程中的输出值交叉训练得到，这种基于对比的自监督学习方法提高了模型的特征表达能力，增强了文本和图像的深层语义匹配能力，提高了匹配精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用于本申请文本和图像的匹配方法的示例性架构；

图2是根据一示例性实施例示出的第一种文本和图像的匹配方法的步骤流程图；

图3是根据一示例性实施例示出的第二种文本和图像的匹配方法的步骤流程图；

图4是根据一示例性实施例示出的目标文本编码器和目标图像编码器的训练方法的步骤流程图；

图5是根据一示例性实施例示出的一种目标文本编码器和目标图像编码器的训练过程示意图；

图6是根据一示例性实施例示出的一种词级存储模块的示意图；

图7是根据一示例性实施例示出的图像和文本的匹配方法的步骤流程图；

图8是根据一示例性实施例示出的一种文本和图片的匹配装置的结构框图；

图9是根据一示例性实施例示出的一种用于文本和图像匹配的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种应用于本申请文本和图像的匹配方法的示例性架构。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。终端设备101、102、103之间通信连接构成拓扑网络，网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103可以是支持网络连接从而进行数据交互和数据处理的硬件设备或软件。当终端设备101、102、103为硬件时，其可以是支持网络连接，信息获取、交互、显示、处理等功能的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如获取用户通过终端设备101、102、103发送的待匹配文本，确定待匹配文本和候选图像之间是否匹配、并从候选图像中确定目标图像的后台处理服务器。可选的，服务器可以将目标图像结果反馈至终端设备。作为示例，服务器105可以是云端服务器。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

还需要说明的是，本申请的实施例所提供的文本和图像的匹配方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，文本和图像的匹配装置包括的各个部分(例如各个模块)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当文本和图像的匹配方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括文本和图像的匹配方法运行于其上的电子设备(例如服务器或终端设备)。

图2是根据一示例性实施例示出的第一种文本和图像的匹配方法的步骤流程图，如图2所示，该方法包括以下步骤。

在步骤S21中，获取待匹配文本包括的关键词。

本实施例中，文本和图像的匹配方法的执行主体(例如图1中的服务器)可以通过有线网络连接方式或无线网络连接方式从远程，或从本地获取待匹配文本，并确定待匹配文本的关键词。

待匹配文本可以是终端设备通过获取语音输入信息、文字输入信息或手势输入信息等方式获取的，上述执行主体通过网络从终端设备获取待匹配文本。在获取待匹配文本后，可以利用分词工具对待匹配文本进行分词，然后通过关键词提取工具对分词结果提取文本关键词。

可以理解，可以根据文本的语言类别和内容选择适合的分词工具和关键词提取工具，本公开对此不作具体限定。例如，中文的分词工具可以选择LTP（Language TechnologyPlatform，语言技术平台），关键词提取工具可以选择基于bert（Bidirectional EncoderRepresentations from Transformer，基于Transformer的双向编码器表征）模型的关键词抽取工具KeyBert。

在步骤S22中，利用目标文本编码器提取所述待匹配文本包括的词元的特征信息，并利用目标图像编码器提取预设的多个候选图像的特征信息；所述目标文本编码器和所述目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到。

词元（token）是指承载文本语义信息的基本单元，待匹配文本由词元组成。

候选图像可以是预先存储在执行主体中的图像库中的图像，也可以是执行主体从网络图像库中实时拉取的图像，候选图像可以是任意主题内容的图像，也可以是根据关键词内容从图像库中选择的与关键词类别对应的待匹配图像。为了提高关键词和候选图像的匹配度，候选图像的数量越多越好。

目标文本编码器可以是基于对Bert（Bidirectional Encoder Representationfrom Transformers，基于转换器的双向编码表征）模型进行特征学习训练得到。Bert模型是用于预训练的语言模型，拥有双向编码能力和强大的特征提取能力。经过学习训练得到的目标文本编码器可以更好的进行文本特征提取。

具体地，将待匹配文本输入目标文本编码器，待匹配文本经过目标文本编码器中的分词器（tokenize）后被分为多个词元，然后目标文本编码器分别提取每个词元的特征信息，得到待匹配文本的词元的特征信息。

例如，若待匹配文本为：Apples in the tree，获取待匹配文本包括的关键词得到：Apples、in、tree。将待匹配文本Apples in the tree输入目标文本编码器，得到词元app、les、 in、tree，并分别输出词元app、les、 in、tree的特征向量，该特征向量即为特征信息。

目标图像编码器可以是基于对Swin transformer（Shifted Windowstransformer，移位窗口转换器）模型进行特征学习训练得到。Swin transformer模型是一种包含滑窗操作，具有层级设计的Transformer模型，可以用于图像语义分割和特征提取。经过学习训练得到的目标图像编码器可以更好的进行图像特征提取。

可以理解，也可以基于其他神经网络预训练模型得到目标文本编码器和目标图像编码器，本公开实施例对此不做具体限定。

具体地，在目标文本编码器和目标图像编码器的训练过程中，两个编码器的训练是交叉进行的：由“词图对比损失”得到迭代动量文本编码器，而迭代动量文本编码器用于输出“图词对比损失”中的词元特征信息，进一步的，由“图词对比损失”得到迭代动量图像编码器，而迭代动量图像编码器用于下一次训练时输出第一图像样本的特征信息，上述过程依次交叉进行。因此，目标文本编码器和目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到。

在步骤S23中，根据所述词元的特征信息和所述多个候选图像的特征信息，确定所述关键词和各个所述候选图像之间的第一匹配度。

具体地，分别确定每个词元的特征信息和各个候选图像的特征信息之间的匹配度，并确定各个词元所属的关键词，进一步根据关键词所包括的词元与各个候选图像的特征信息之间的匹配度，得到关键词和各个候选图像之间的第一匹配度。

在步骤S24中，根据所述第一匹配度，确定所述待匹配文本和所述候选图像之间的第二匹配度。

待匹配文本由多个关键词组成，各个关键词与候选图像的第一匹配度决定了待匹配文本与候选图像的第二匹配度。

考虑到各个关键词在待匹配文本中的重要程度不同，可以根据关键词的重要程度和第一匹配度共同确定待匹配文本与候选图像之间的第二匹配度，这样，得到待匹配文本与各个候选图像之间的第二匹配度。

在步骤S25中，根据所述第二匹配度，从所述多个候选图像中确定目标图像，所述目标图像用于与所述待匹配文本进行配对。

第二匹配度表示待匹配文本的特征信息和候选图像的特征信息之间的相似度。第二匹配度越高，表示待匹配文本和候选图像越匹配。因此，可以从各个候选图像对应的第二匹配度中，选择第二匹配度排序在前N个的候选图像，确定为与待匹配文本进行配对的目标图像，并将目标图像展示在前端页面。

例如，根据上述示例中的第二匹配度，可以得到候选图像的匹配度排序为候选图像2、候选图像1，那么可以将排序在第一的候选图像2确定为目标图像。

综上，在本公开的实施例中，获取待匹配文本包括的关键词；确定所述关键词和各个所述候选图像之间的第一匹配度；按照所述关键词在所述待匹配文本中的重要程度对所述第一匹配度进行调整，得到所述待匹配文本和所述候选图像之间的第二匹配度；根据所述第二匹配度，从所述多个候选图像中确定目标图像。本方案采用待匹配文本中的关键词与候选图像进行匹配，使得关键词语义和图像内容对齐，可以细粒度地刻画文本内容和图像的配对效果，并且用于提取特征信息的目标文本编码器和目标图像编码器，基于对方在迭代训练过程中的输出值交叉训练得到，这种基于对比的自监督学习方法提高了模型的特征表达能力，增强了文本和图像的深层语义匹配能力，提高了匹配精度。

图3是根据一示例性实施例示出的第二种文本和图像的匹配方法的步骤流程图，如图3所示，该方法包括以下步骤。

在步骤S31中，获取待匹配文本包括的关键词。

在本公开实施例中，步骤S31可以参照步骤S21，此处不再赘述。

在步骤S32中，利用目标文本编码器提取所述待匹配文本包括的词元的特征信息，并利用目标图像编码器提取预设的多个候选图像的特征信息；所述目标文本编码器和所述目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到。

在本公开实施例中，步骤S32可以参照步骤S22，此处不再赘述。

在步骤S33中，将所述词元的特征信息和预先获取的多个候选图像的特征信息分别进行匹配，得到多个第一子匹配度。

词元的特征信息和候选图像的特征信息都是指对应的特征向量，计算两个特征向量之间的相似度，相似度越大，则匹配度越高。可将词元的特征向量分别与各个候选图像的特征向量之间的相似度，作为第一子匹配度。

具体可以采用皮尔逊相关系数、欧氏距离、余弦相似度、点积相似度等方法计算词元的特征向量与各个候选图像的特征向量之间的相似度。

在一种实施方式中，所述将所述词元的特征信息和预先获取的多个候选图像的特征信息分别进行匹配，包括以下步骤S331-步骤S332：

在步骤S331中，确定由多个所述候选图像的特征信息组成的特征队列；

在步骤S332中，计算各个所述词元的特征信息和所述特征队列之间的点积，得到多个第一子匹配度。

在步骤S331-步骤S332中，多个候选图像的特征信息组成一个特征队列。采用点积相似度度量待匹配文本和候选图像之间的匹配度，具体地，分别计算词元的特征信息和特征队列之间的点积，得到待匹配文本的词元和各个候选图像对应的第一子匹配度。

例如，确定词元app、les、 in、 tree的特征信息与候选图像1的特征信息的第一子匹配度分别为0.6,0.7,0.9,0.8，与候选图像2的第一子匹配度分别为0.7,0.9,0.8,0.5。

在步骤S34中，根据所述多个第一子匹配度，确定所述关键词和所述多个候选图像之间的第一匹配度。

关键词由多个词元构成，每个词元与一个候选图像分别对应一个第一子匹配度，关键词的多个词元与一个候选图像对应多个第一子匹配度，采用将各个词元的第一子匹配度进行平均或求和的方式，得到关键词与候选图像之间的第一匹配度。

例如，根据第一子匹配度，关键词apples与候选图像1的第一匹配度为(0.6+0.7)/2=0.65，关键词apples与候选图像2的第一匹配度为(0.7+0.9)/2=0.8，从而，待匹配文本的关键词与候选图像1的第一匹配度为：0.65,0.9,0.8，待匹配文本的关键词与候选图像2的第一匹配度为：0.8,0.8,0.5。

在一种实施方式中，所述根据所述多个第一子匹配度，确定所述关键词和所述多个候选图像之间的第一匹配度，包括以下步骤S341-步骤S3543：

在步骤S341中，获取所述词元在所述待匹配文本中的第一位置信息和所述关键词在所述待匹配文本中的第二位置信息；

在步骤S342中，根据所述第一位置信息和所述第二位置信息，确定所述关键词包括的多个目标词元；

在步骤S343中，确定所述多个目标词元对应的第一子匹配度的平均值，将所述平均值作为所述关键词和所述候选图像之间的第一匹配度。

在步骤S341-步骤S343中，目标文本编码器在输出待匹配文本的词元特征信息时，同时输出词元的在待匹配文本中的第一位置信息。采用KeyBert工具对分词结果提取文本关键词时，同时输出关键词的第二位置信息。利用这两个位置信息，可以确定哪些词元属于同一个关键词，将关键词和词元对齐。

在知道关键词包括的目标词元后，可以将目标词元对应的第一子匹配度进行合并，得到关键词和候选图像之间的第一匹配度。

具体地，将目标词元对应的第一子匹配度进行合并的方法可以是计算第一子匹配度平均值，或对第一子匹配度进行求和等方法。

在步骤S34之后，可以执行步骤S35-步骤S36，或执行步骤S37。

在步骤S35中，根据所述关键词在所述待匹配文本中的重要程度，确定所述关键词对应的权重。

具体地，可以将关键词在待匹配文本中的重要程度利用softmax函数归一化为概率分布，得到各个关键词在待匹配文本中的权重。

例如，利用softmax函数确定关键词Apples、in、tree在待匹配文本Apples in thetree中的权重分别为0.5,0.1,0.4。

在步骤S36中，将各个所述关键词对应的权重和所述关键词对应的第一匹配度进行加权求和，得到所述待匹配文本和所述候选图像之间的第二匹配度。

按照关键词对应的权重和第一匹配度加权求和，可以在考虑不同关键词的重要程度的基础上，为关键词的特征信息赋予适当的权重，使得第二匹配度更为科学准确。

例如，待匹配文本Apples in tree和候选图像1之间的第二匹配度为：0.65*0.5+0.9*0.1+0.8*0.4=0.735，和候选图像2之间的第二匹配度为：0.8*0.5+0.8*0.1+0.5*0.4=0.68。

当然，也可以不计算权重，直接将关键词对应的第一匹配度相加，得到待匹配文本和所述候选图像之间的第二匹配度，本公开实施例对此不做限定。

在步骤S37中，从所述待匹配文本的各个所述关键词对应的第一匹配度中，选取最大值作为所述待匹配文本和所述候选图像之间的第二匹配度。

第一匹配度的最大值对应的关键词，是与候选图像最为匹配的关键词，将该最大值作为待匹配文本和候选图像之间的第二匹配度，可以简单快速的得到第二匹配度，提高了第二匹配度的确定效率。

此外，第二匹配度的确定方法还包括：取待匹配文本中各个关键词对应的第一匹配度的平均值作为第二匹配度。

在步骤S38中，根据所述第二匹配度，从所述多个候选图像中确定目标图像，所述目标图像用于与所述待匹配文本进行配对。

第二匹配度表示待匹配文本的特征信息和候选图像的特征信息之间的相似度。第二匹配度越高，表示待匹配文本和候选图像越匹配。因此，可以从各个候选图像对应的第二匹配度中，选择第二匹配度排序在前N个的候选图像，确定为目标图像，并将目标图像展示在前端页面。

例如，根据上述示例中的第二匹配度，可以得到候选图像的匹配度排序为候选图像1、候选图像2，那么可以将排序在第一的候选图像1确定为目标图像。

综上，图3中的文本和图像的匹配方法，除具有图2中的方法的有益效果外，还将所述词元的特征信息和预先获取的多个候选图像的特征信息分别进行匹配，得到多个第一子匹配度，根据所述多个第一子匹配度，确定所述关键词和所述多个候选图像之间的第一匹配度，将待匹配文本的特征信息更加细粒度化到词元的级别，提高了匹配精度；并且，按照关键词对应的权重和第一匹配度加权求和，可以在考虑不同关键词的重要程度的基础上，为关键词的特征信息赋予适当的权重，使待匹配文本和所述候选图像之间第二匹配度更为科学准确；或，选取最大值作为所述待匹配文本和所述候选图像之间的第二匹配度，可以简单快速的得到第二匹配度，提高了第二匹配度的确定效率。

图4是根据一示例性实施例示出的目标文本编码器和目标图像编码器的训练方法的步骤流程图，如图4所示，该方法包括以下步骤。

在步骤S41中，利用第一图像样本的特征信息和第一文本样本的词元特征信息，以及预设的标签图像，对初始文本编码器和动量文本编码器进行初次训练，得到迭代文本编码器和迭代动量文本编码器。

在步骤S42中，利用第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，对初始图像编码器和动量图像编码器进行初次训练，得到迭代图像编码器和迭代动量图像编码器；

在步骤S43中，利用所述迭代动量图像编码器和所述迭代文本编码器，对所述迭代文本编码器进行多次训练，直到训练得到的第一损失值小于预设第一阈值，训练结束，得到目标文本编码器；

在步骤S44中，利用所述迭代动量文本编码器和所述迭代图像编码器，对所述迭代图像编码器进行多次训练，直到训练得到的第二损失值小于预设第二阈值，训练结束，得到目标图像编码器。

在步骤S41-步骤S44中，第一文本样本和第一图像样本，可以是从网络公开数据集获取，也可以是自己标注的样本。在每一次训练中，第一文本样本为一个待匹配的文本样本，而第一图像样本为大量的等待与第一文本样本进行匹配的图像样本。

将多个第一图像样本输入动量图像编码器，同时将第一文本样本输入初始文本编码器，经过模型处理，输出与第一文本样本匹配的目标图像样本，将该目标图像样本与标签图像进行特征比对，得到第一损失值。根据第一损失值更新初始文本编码器和动量文本编码器，得到迭代文本编码器和迭代动量文本编码器。

然后利用更新后的迭代动量文本编码器，进行初始图像编码器的训练，得到第二损失值。利用第二损失值对初始图像编码器和动量图像编码器进行训练，利用更新后的迭代动量文本编码器，进行迭代文本编码器的训练。直到最终第一损失值和第二损失值小于对应的第一阈值和第二阈值，则训练结束，分别得到目标文本编码器和目标图像编码器。

图5是根据一示例性实施例示出的一种目标文本编码器和目标图像编码器的训练过程示意图。

如图5所示，将多个第一图像样本输入动量图像编码器，并将经过动量图像编码器的第一图像样本存入图像存储模块，同时将第一文本样本输入初始文本编码器，经过模型处理，输出与第一文本样本匹配的目标图像样本，将该目标图像样本与标签图像进行特征比对，得到第一损失。根据第一损失更新初始文本编码器和动量文本编码器。

然后利用更新后的迭代动量文本编码器，进行初始图像编码器的训练，得到第二损失。利用第二损失对初始图像编码器和动量图像编码器进行训练，利用更新后的迭代动量文本编码器，进行迭代文本编码器的训练。直到最终第一损失和第二损失小于对应的第一阈值和第二阈值，则训练结束。

综上，通过使用初始图像编码器、动量图像编码器、初始文本编码器、动量文本编码器进行训练迭代，得到目标文本编码器和目标图像编码器，目标文本编码器和目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到，这种基于对比的自监督学习方法提高了模型的特征表达能力，增强了文本和图像的深层语义匹配能力，并且实时性好。

在一种可能的实施方式中，步骤S41包括以下步骤S411-步骤S412：

在步骤S411中，根据第一图像样本的特征信息和第一文本样本的词元特征信息，以及预设的标签图像，确定本次初始文本编码器训练的第一损失值；所述第一图像样本的特征信息由动量图像编码器输出，所述第一文本样本的词元特征信息由初始文本编码器输出；

在步骤S412中，基于所述第一损失值，分别对所述初始文本编码器和动量文本编码器的参数进行修改，得到迭代文本编码器和迭代动量文本编码器。

在步骤S411-步骤S412中，将作为待匹配文本的第一文本样本输入初始文本编码器，输出第一文本样本的词元特征信息，其中，初始文本编码器为待训练的神经网络模型。同时，将多个第一图像样本输入动量图像编码器，输出第一图像样本的特征信息，可以将第一图像样本的特征信息存储到图像存储模块中，以备后用。

然后，与图1和图2中的文本与图像匹配方法类似，获取第一文本样本的关键词，根据第一文本样本的词元特征信息和第一图像样本的特征信息，确定词元与图像样本的匹配度，再根据词元在第一文本样本中的位置，确定关键词和第一图像样本之间的匹配度，进而得到第一文本样本和所述多个第一图像样本之间的第一样本匹配度。最终，根据第一样本匹配度确定目标图像样本。

在得到目标图像样本后，将其与预先标注的与第一文本样本最为匹配的标签图像进行比对，具体地，是将目标图像样本的特征信息与标签图像的特征信息进行比对，根据比对结果确定本次训练的第一损失值。

确定第一损失值是否小于预设的第一阈值，若否，则根据第一损失值修改初始文本编码器的参数，得到迭代文本编码器；并基于第一损失值，修改动量文本编码器的参数，得到迭代动量文本编码器。

在一种可能的实施方式中，步骤S42包括以下步骤S421-步骤S422：

步骤S421，根据第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，确定本次初始图像编码器训练的第二损失值；所述词元特征信息由所述迭代动量文本编码器输出，所述第二图像样本的特征信息由初始图像编码器输出；

步骤S422，基于所述第二损失值，分别对所述初始图像编码器和动量图像编码器的参数进行修改，得到迭代图像编码器和迭代动量图像编码器。

在步骤S421-步骤S422中，根据第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，确定本次初始图像编码器训练的第二损失值。其中，词元特征信息由上述的迭代动量文本编码器输出，第二图像样本的特征信息由初始图像编码器输出。

确定第二损失值是否小于预设的第二阈值，若否，则根据第二损失值修改初始图像编码器的参数，得到迭代图像编码器；并根据第二损失值得到的滑动平均值，修改动量图像编码器的参数，得到迭代动量图像编码器。

在一种可能的实施方式中，步骤S421包括以下步骤：

在步骤S4211中，获取所述第二文本样本的关键词，并根据所述关键词包括的词元，确定所述第二文本样本的关键词特征信息；

在步骤S4212中，将多个所述第二文本样本的关键词特征信息分别存储到词级文本存储模块中；

在步骤S4213中，将第二图像样本输入待训练的初始图像编码器，得到所述第二图像样本的特征信息；

在步骤S4214中，根据所述第二文本样本的关键词特征信息和所述第二图像样本的特征信息，确定所述第二图像样本和多个所述第二文本样本之间的第二样本匹配度；

在步骤S4215中，根据所述第二样本匹配度，从多个所述第二文本样本中确定目标文本样本，并根据所述目标文本样本和预设的标签文本确定本次训练的第二损失值。

步骤S4211-步骤S5215为确定本次初始图像编码器训练的第二损失值的步骤。与图3中的文本和图像匹配方法类似，获取第二文本样本的关键词，根据关键词所包括的词元，得到关键词的特征信息。将关键词的特征信息与第二图像样本的特征信息进行匹配，得到第二样本匹配度。将第二样本匹配度最高的第二文本样本作为目标文本样本，根据目标文本样本和标签文本确定第二损失。

此外，在本公开实施例中，步骤S4212将多个所述第二文本样本的关键词特征信息分别存储到词级文本存储模块中，可以针对关键词的特征信息进行更细粒度的存储，方便了后续特征比对使用，提高了执行效率。

在一种可能的实施方式中，所述基于所述第一损失值，分别对所述初始文本编码器和动量文本编码器的参数进行修改，得到迭代文本编码器和迭代动量文本编码器，包括：

所述基于所述第二损失值，分别对所述初始图像编码器和动量图像编码器的参数进行修改，得到迭代图像编码器和迭代动量图像编码器，包括：

在本公开实施例中，为了改进在噪声监督下的学习，利用动量图像编码器来消除噪音数据对目标图像编码器训练过程的影响，其中，动量图像编码器的模型结构与初始图像编码器的模型结构一致，但动量图像编码器的更新采用滑动平均策略。

类似的，利用动量文本编码器来消除噪音数据对目标文本编码器训练过程的影响，其中，动量文本编码器的模型结构与初始文本编码器的模型结构一致，但动量文本编码器的更新采用滑动平均策略。

滑动平均策略，是指在简单平均数法基础上，通过顺序逐期增减新旧数据求算移动平均值，借以消除偶然变动因素，找出事物发展趋势，并据此进行预测的方法。

具体地，在模型训练过程中，对动量图像编码器和初始图像编码器，以及对动量文本编码器和初始文本编码器，分别同时进行训练和更新，但动量图像编码器和动量文本编码器的更新策略为滑动平均，会根据历史数据缓慢的变化参数，而初始文本编码器是根据当前输入数据进行更新，跟之前的历史数据关系不大。

具体地，动量文本编码器采用迭代文本编码器迭代前的第一参数和迭代后的第二参数的加权平均值，进行更新；动量图像编码器采用迭代图像编码器迭代前的第三参数和迭代后的第四参数的加权平均值，进行更新。

示例性地，若第一参数为a，第二参数为b，第一参数的权值为0.7，第二参数的权值为0.3，则加权平均值为(a*0.7+b*0.3)，动量文本编码器根据该加权平均值进行更新。

这样，当输入有噪音的数据时，对于普通编码器其训练效果就会变差，但对于动量编码器，其更新的时候，会因为以之前的历史数据作为参考，更新的会缓慢一些，就会把噪音数据的影响减小，使得模型在测试数据上更健壮，最终提高模型在测试数据上的表现。

此外，采用普通的编码器和动量编码器同时进行训练，可以使两个编码器的优缺点互为补充。动量编码器采用滑动平均策略更新参数，虽然可以消除噪音的影响，但学习速度较为缓慢，普通的编码器虽然参数更新的跳跃性较大，但它可能会跳到一个很好的参数上去，挖掘出一些好的参数和特征，这时将好的参数结果传递给动量编码器，也会促进动量编码器的提升。

综上，采用动量图像编码器和动量文本编码器，可以最大限度消除噪音数据的影响，使得模型在测试数据上更健壮，最终提高模型在测试数据上的表现。并且，采用普通编码器和动量编码器进行训练，可以使两个编码器的优缺点互为补充，提高模型训练的速度和效果。

在一种可能的实施方式中，所述将多个所述第二文本样本的关键词特征信息分别存储到词级文本存储模块中，包括以下步骤S521-步骤S522：

在步骤S521中，将每个所述第二文本样本对应的关键词特征信息的存储空间长度设置为目标长度，并将不足所述目标长度的存储空间用初始值填充，并将所述初始值作为非有效特征；

在步骤S522中，采用关键词标记队列对所述关键词特征队列中所述关键词的有效性进行标记。

在步骤S521-步骤S522中，将每个第二文本样本的的关键词特征信息的存储空间长度设置为目标长度，即每个第二文本样本的关键词特征信息的存储空间大小是一致的，这样，有利于从队列中按序提取数据。

由于第二文本样本的长短并不固定，其关键词个数也不固定，因此，采用关键词标记队列来标记关键词特征队列中哪些是有效特征，那些是非有效特征。具体地，关键词标记队列包括第一标识和第二标识，第一标识用于表示所述有效特征，第二标识用于表示所述非有效特征。

图6是根据一示例性实施例示出的一种词级存储模块的示意图。

如图6所示，假设关键词最大个数M为5，若一个文本的关键词个数少于M，只有3个，则该文本的关键词特征中保存来自动量文本编码器的3个有效特征，非有效特征的存储位置则用初始值0填充。在关键词标记队列中，将有效关键词标记为1，非有效关键词标记为0。

而现有技术中采用文本特征队列存储文本特征信息，一个存储位存储整个文本的特征信息，并没有存储关键词粒度级别的特征信息。例如，文本存储模块中存储的文本特征信息维度为256维，若该文本有5个关键词，则本方案中的词级文本存储模块中存储5个特征向量，即存储256*5维的特征信息。所以，本方案的词级文本存储模块中可以存储更多的特征信息，可以包含文本的更多负样本特征信息。

图7是根据一示例性实施例示出的图像和文本的匹配方法的步骤流程图，如图7所示，该方法包括以下步骤。

步骤S71、获取待匹配图像的特征信息；

步骤S72、确定所述待匹配图像的特征信息和预设的多个候选文本的特征信息之间的第三匹配度；所述候选文本的特征信息根据所述候选文本的关键词的特征信息和所述关键词在所述候选文本中的重要程度确定；

步骤S73、根据所述第三匹配度，从所述多个候选文本中确定目标文本。

在步骤S71-步骤S73中，与图1和图2中的文本和图像匹配方法相反，本方案是从多个候选文本中选择与待匹配图像最匹配的目标文本的流程。本方案仍然可以使用上文中经过训练的目标文本编码器和目标图像编码器。

具体地，通过目标图像编码器获取待匹配图像的特征信息，并通过目标文本编码器获取候选文本的词元的特征信息。然后，根据词元的特征信息和候选文本的特征信息之间的匹配度，得到关键词的特征信息和候选文本的特征信息之间的匹配度。再将关键词在候选文本中的重要程度考虑进去，得到待匹配图像的特征信息和多个候选文本的特征信息之间的第三匹配度。

最后，从第三匹配度较高的候选文本中确定与待匹配图像最为匹配的目标文本。

综上，图7中的图像和文本的匹配方法，获取待匹配图像的特征信息；确定所述待匹配图像的特征信息和预设的多个候选文本的特征信息之间的第三匹配度；所述候选文本的特征信息根据所述候选文本的关键词的特征信息和所述关键词在所述候选文本中的重要程度确定；根据所述第三匹配度，从所述多个候选文本中确定目标文本。本方案采用候选文本中的关键词与待匹配图像进行匹配，使得语义和图像内容对齐，可以细粒度地刻画文本内容和图像的配对效果，提高了匹配精度。

图8是根据一示例性实施例示出的一种文本和图片的匹配装置的结构框图。如图8所示，该文本和图像匹配装置80包括：

关键词获取模块81，被配置为执行获取待匹配文本包括的关键词；

特征信息提取模块82，被配置为执行利用目标文本编码器提取所述待匹配文本包括的词元的特征信息，并利用目标图像编码器提取预设的多个候选图像的特征信息；所述目标文本编码器和所述目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到；

第一匹配度确定模块83，被配置为执行根据所述词元的特征信息和所述多个候选图像的特征信息，确定所述关键词和各个所述候选图像之间的第一匹配度；

第二匹配度确定模块84，被配置为执行根据所述第一匹配度，确定所述待匹配文本和所述候选图像之间的第二匹配度；

目标图像确定模块85，被配置为执行根据所述第二匹配度，从所述多个候选图像中确定目标图像，所述目标图像用于与所述待匹配文本进行配对。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种用于文本和图像匹配的电子设备的框图。其内部结构图可以如图9所示。该服务器或电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该服务器或电子设备的处理器用于提供计算和控制能力。该服务器或电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该服务器或电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本和图像匹配的方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的服务器或电子设备的限定，具体的服务器或电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种服务器或电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的文本和图像匹配的方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该计算机可读存储介质中的指令由服务器或电子设备的处理器执行时，使得服务器或电子设备能够执行本公开实施例中的文本和图像匹配的方法。计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的文本和图像匹配的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本和图像的匹配方法，其特征在于，包括：

获取待匹配文本包括的关键词；

2.根据权利要求1所述的方法，其特征在于，所述确定所述关键词和各个所述候选图像之间的第一匹配度，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个第一子匹配度，确定所述关键词和所述多个候选图像之间的第一匹配度，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述词元的特征信息和多个所述候选图像的特征信息分别进行匹配，包括：

确定由多个所述候选图像的特征信息组成的特征队列；

5.根据权利要求1所述的方法，其特征在于，所述目标文本编码器和所述目标图像编码器通过以下方法训练得到：

6.根据权利要求5所述的方法，其特征在于，所述利用第一图像样本的特征信息和第一文本样本的词元特征信息，以及预设的标签图像，对初始文本编码器和动量文本编码器进行初次训练，包括：

7.根据权利要求6所述的方法，其特征在于，所述利用第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，对初始图像编码器和动量图像编码器进行初次训练，包括：

8.根据权利要求6所述的方法，其特征在于，所述基于所述第一损失值，分别对所述初始文本编码器和动量文本编码器的参数进行修改，得到迭代文本编码器和迭代动量文本编码器，包括：

9.根据权利要求7所述的方法，其特征在于，所述基于所述第二损失值，分别对所述初始图像编码器和动量图像编码器的参数进行修改，得到迭代图像编码器和迭代动量图像编码器，包括：

10.根据权利要求7所述的方法，其特征在于，所述根据第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，确定本次初始图像编码器训练的第二损失值，包括：

11.据权利要求10所述的方法，其特征在于，所述将多个所述第二文本样本的关键词特征信息分别存储到词级文本存储模块中，包括：

12.根据权利要求1所述的方法，其特征在于，所述根据所述第一匹配度，确定所述待匹配文本和所述候选图像之间的第二匹配度，包括：

13.根据权利要求1所述的方法，其特征在于，所述根据所述第一匹配度，确定所述待匹配文本和所述候选图像之间的第二匹配度，包括：

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待匹配图像的特征信息；

15.一种文本和图像的匹配装置，其特征在于，包括：

16.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至14中任一项所述的文本和图像的匹配方法。

17.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至14中任一项所述的文本和图像的匹配方法。

18.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至14中任一项所述的文本和图像的匹配方法。