CN113901907A

CN113901907A - 图文匹配模型训练方法、图文匹配方法及装置

Info

Publication number: CN113901907A
Application number: CN202111160003.8A
Authority: CN
Inventors: 王昆; 余威
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-07

Abstract

本公开提供了一种图文匹配模型训练方法、图文匹配方法及装置，涉及计算机技术领域，尤其涉及人工智能和深度学习技术领域。具体实现方案为：获取训练样本集，训练样本集包括多个训练样本对和各自对应的样本标签，训练样本对包括样本图像和样本文本，样本标签表征样本图像和样本文本的相似程度；利用训练样本集，按照以下至少一种训练方式训练图文匹配模型：学习图像和文本之间的特征相关性；学习对图像特征进行文本识别。本公开技术方案，基于图文匹配模型提取特征，进行图文匹配，匹配精度高。

Description

图文匹配模型训练方法、图文匹配方法及装置

技术领域

本公开涉及计算机技术领域。本公开尤其涉及人工智能和深度学习技术领域。

背景技术

现有技术中，图像和文本匹配通常的方式通常包括两个分支，一个分支是首先对待处理图像进行光学字符识别(Optical Character Recognition，OCR)，识别出待处理图像中的文字内容；另一个分支是将识别出的文字内容与待匹配的文本进行匹配计算，根据计算结果确定待处理图像和待处理文本是否匹配。

然而，通过OCR对待处理图像进行文字识别属于跨模态处理，会带来信息的损失，输入到文本匹配这个分支，会影响匹配的精度。

发明内容

本公开提供了一种图文匹配模型训练方法、图文匹配方法及装置。

根据本公开的一方面，提供了一种图文匹配模型训练方法，包括：

获取训练样本集，训练样本集包括多个训练样本对和各自对应的样本标签，训练样本对包括样本图像和样本文本，样本标签表征样本图像和样本文本的相似程度；

利用训练样本集，按照以下至少一种训练方式训练图文匹配模型：

学习图像和文本之间的特征相关性；

学习对图像特征进行文本识别。

根据本公开的一方面，提供了一种图文匹配方法，包括：

获取待处理图像和多个待处理文本；

基于图文匹配模型获取待处理图像的图像特征；

基于图文匹配模型获取多个待处理文本各自对应的文本特征；

基于图像特征和各文本特征，从待处理文本中确定与待处理图像匹配的目标文本；

其中，图文匹配模型是本公开任一实施例中的图文匹配模型训练方法训练得到的。

根据本公开的另一方面，提供了一种图文匹配模型训练装置，包括：

获取模块，用于获取训练样本集，训练样本集包括多个训练样本对和各自对应的样本标签，训练样本对包括样本图像和样本文本，样本标签表征样本图像和样本文本的相似程度；

训练模块，用于利用训练样本集，按照以下至少一种训练方式训练图文匹配模型：

学习图像和文本之间的特征相关性；

学习对图像特征进行文本识别。

根据本公开的另一方面，提供了一种图文匹配装置，包括：

获取模块，用于获取待处理图像和多个待处理文本；

第一特征提取模块，用于基于图文匹配模型获取待处理图像的图像特征；

第二特征提取模块，用于基于图文匹配模型获取多个待处理文本各自对应的文本特征；

匹配模块，用于基于图像特征和各文本特征，从待处理文本中确定与待处理图像匹配的目标文本；

其中，图文匹配模型是基于本公开任一实施例中的图文匹配模型训练方法训练得到的。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。

本公开提供了一种图文匹配模型训练方法、图文匹配方法及装置，按照学习图像和文本之间的特征相关性，或者学习对图像特征进行文本识别中至少一项训练方式进行模型训练，可以使图像特征和文本特征的特征空间交融在一起。利用训练好的图文匹配模型提取待处理图像的图像特征和待处理文本的文本特征，基于图像特征和文本特征，可以确定出与待处理图像匹配的目标文本。基于图文匹配模型进行图文匹配，不需要分为两个分支分别进行迭代优化，提升图文匹配的效率；而且，可以避免OCR识别带来的信息损失，提高图文匹配的精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开一实施例的图文匹配模型训练方法的流程图；

图2为本公开一实施例的图文匹配模型训练方法的示意图；

图3为本公开一实施例的图文匹配方法的流程图；

图4为本公开一实施例的图文匹配方法的流程图；

图5为现有技术中招牌图像和POI名称匹配方法的示意图；

图6是本公开一实施例的图文匹配模型训练装置的结构示意图；

图7为本公开一实施例的图文匹配装置的结构示意图；

图8是用来实现本公开实施例的图文匹配模型训练方法、图文匹配方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种图文匹配模型训练方法，图1是本公开一实施例的图文匹配模型训练方法的流程示意图，该方法可以应用于图文匹配模型训练装置，例如，该装置在部署于终端或服务器或其它处理设备执行的情况下，可以执行图文匹配模型的训练等。其中，终端可以为用户设备(UE，User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，包括：

步骤S101，获取训练样本集，训练样本集包括多个训练样本对和各自对应的样本标签，训练样本对包括样本图像和样本文本，样本标签表征样本图像和样本文本的相似程度；

其中，样本图像可以是包含文字的任意图像。样本标签可以是样本图像和样本文本之间的相似程度对应的标签，也可以是相似程度对应的类别标签。

在一个具体的实施例中，样本图像和样本文本之间的相似程度对应的标签可以在[-1，1]这个区间范围内取值，例如，0.2、0.5、0.9等。如果将相似程度设置为不同的类别，则样本标签还可以是0.2对应的类别1，0.5对应的类别2、0.9对应的类别3等。

步骤S102，利用训练样本集，按照以下至少一种训练方式训练图文匹配模型：学习图像和文本之间的特征相关性；学习对图像特征进行文本识别。

其中，图文匹配模型可以为双塔结构的神经网络模型，包括分别处理文本和图像的特征提取模块、分别对文本特征和图像特征进行维度转换的维度转换模块，并通过损失函数进行学习，通过反向传播算法对双塔模型进行优化，其中，反向传播算法可以包括随机梯度下降(stochastic gradient descent，SGD)算法、ADAM算法等。

其中，可以通过相应的损失函数学习图像和文本之间的特征相关性，以及学习对图像特征进行文本识别。

本公开实施例提供的图文匹配模型训练方法，按照学习图像和文本之间的特征相关性，或者学习对图像特征进行文本识别中至少一项的训练方式进行模型训练，可以使图像特征和文本特征的特征空间交融在一起。

对于学习图像和文本之间的特征相关性，可以通过相应的损失函数来实现，具体见如下实施例：

在一种可能的实现方式中，采用多类别损失函数Multi-class N-Pair Loss学习样本图像和样本文本之间的特征相关性。

在实际应用中，可以采用多类别损失函数对同一批(Batch)的训练样本进行学习，将训练样本输入神经网络模型，通过神经网络模型计算预测值，通过样本标签和预测值计算得到损失函数的值，并进行迭代训练，直到满足预设的训练结束条件，模型训练完成。还可以通过其他损失函数学习图像和文本之间的特征相关性，本领域技术人员可以根据具体需要进行设置。

本公开实施例中，通过多类别损失函数可以学习图像和文本两个模态之间的特征相关性。

对于学习对图像特征进行文本识别，可以通过相应的损失函数来实现，具体见如下实施例：

在一种可能的实现方式中，采用连接时序分类损失函数(ConnectionistTemporal Classification Loss，CTC Loss)学习对图像特征进行文本识别。

在实际应用中，可以采用连接时序分类损失函数学习对图像中的文字的字形进行识别，将训练样本输入神经网络模型，通过神经网络模型计算预测值，通过样本标签和预测值计算得到损失函数的值，并进行迭代训练，直到满足预设的训练结束条件，模型训练完成。还可以通过其他损失函数学习对图像特征进行文本识别，本领域技术人员可以根据具体需要进行设置。

本公开实施例中，通过连接时序分类损失函数可以学习对图像特征进行文本识别。

下面通过一个具体的应用场景，对本公开中的图文匹配模型的训练过程进行介绍。图2是本公开一实施例的图文匹配模型的训练方法的示意图。在本实施例中，应用场景为招牌图像和兴趣点(Point of Interest，POI)名称进行匹配，图文匹配模型为跨模态图文匹配模型(Using Board Image match POI，UBIP)。训练样本中的样本图像为POI的招牌图像，样本文本为POI名称文本，样本标签为招牌图像和POI名称的相似度。图像编码器(Image Encoder)对输入的招牌图像进行图像特征提取，然后将图像特征输入到对应的投影层(Projector)中进行维度转换，最终生成图像特征；同样，文本编码器对POI名称文本进行文本特征提取，然后将文本特征输入到对应的投影层(Projector)中进行维度转换，生成与图像特征维度相同的文本特征，最后将维度相同的图像特征和文本特征共同输入至损失函数中进行学习，最后使用梯度下降法对这个双塔模型进行优化学习。其中，损失函数可以包括两个部分，第一个部分采用多类别损失函数学习图像和文本之间的特征相关性，第二个部分采用连接时序分类损失函数学习对图像特征进行文本识别，最后总的损失函数的值由上述两个损失函数的值相加组成。

本公开还提供了一种图文匹配方法，图3是本公开一实施例的图文匹配方法的流程图，该方法可以应用于图文匹配装置，例如，该装置在部署于终端或服务器或其它处理设备执行的情况下，可以执行图文匹配等。其中，终端可以为用户设备(UE，User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA，Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图3所示，该方法包括：

步骤S301，获取待处理图像和多个待处理文本；

其中，待处理图像可以是包含文字的任意图像，待处理文本可以是任意文本。

步骤S302，基于图文匹配模型获取待处理图像的图像特征；

步骤S303，基于图文匹配模型获取多个待处理文本各自对应的文本特征；

其中，图文匹配模型是基于本公开任一实施例的图文匹配模型训练方法训练得到的双塔结构的跨模态图文匹配模型。

其中，步骤S302中得到图像特征和步骤S303中的文本特征的维度相同。

步骤S304，基于图像特征和各文本特征，从待处理文本中确定与待处理图像匹配的目标文本。

本公开实施例提供的图文匹配方法，利用训练好的跨模态图文匹配模型提取待处理图像的图像特征和待处理文本的文本特征，基于图像特征和文本特征，确定出与待处理图像匹配的目标文本。基于图文匹配模型进行图文匹配，将图像的特征空间和文本的特征空间交融在一起，直接通过图像匹配文本，而不需要分为两个分支分别进行迭代优化，提升图文匹配的效率；而且，可以避免OCR识别带来的信息损失，提高图文匹配的精度。

其中，基于图文匹配模型提取图像特征的具体实现方式见如下实施例：

在一种可能的实现方式中，基于图文匹配模型获取待处理图像的图像特征，包括：

采用图文匹配模型中的图像特征提取模块提取待处理图像的初始图像特征；

采用图文匹配模型中的图像特征维度转换模块将初始图像特征进行维度转换，得到图像特征。

在实际应用中，图文匹配模型中包括图像特征提取模块和图像特征维度转换模块，提取待处理图像的初始图像特征，并将初始图像特征转换到特定的维度度量空间，得到图像特征。其中，特定的维度度量空间为预先设置的与文本特征相同的维度度量空间，可以根据具体需要进行配置。

本公开实施例中，基于图文匹配模型的各模块进行特征提取和特征维度转换，可以将图像特征和文本特征转换到同一维度度量空间，作为图文匹配计算的基础。

在一种可能的实现方式中，图像特征提取模块是基于VIT(Vision Transformer)网络或深度残差网络(Deep residual network,ResNet)构建的。

在实践应用中，图像特征提取模块可以是图像编码器，可以通过任意的网络模型来实现，例如，基于VIT网络或ResNet构建的。

本公开实施例中，可以基于VIT网络或ResNet构建图像特征提取模块，来实现初始图像特征的提取。

在一种可能的实现方式中，图像特征维度转换模块是基于全连接神经网络或基于注意力机制的网络构建的。

在实际应用中，可以直接采用全连接神经网络(Fully Connected NeuralNetwork)实现图像特征维度转换模块的功能，对图像特征进行维度压缩，或者采用基于注意力(Attention)机制的网络构建图像特征维度转换模块，对特征在压缩过程中自适应的学习重点关注的特征。其中，注意力机制包括但不限于多头注意力机制(Multi-headattention)。

本公开实施例中，可以基于全连接神经网络或基于注意力机制的网络，来实现图像特征维度转换。

另外，基于图文匹配模型提取文本特征的具体实现方式见如下实施例：

在一种可能的实现方式中，基于图文匹配模型获取多个待处理文本各自对应的文本特征，包括：

采用图文匹配模型中的文本特征提取模块提取待处理文本的初始文本特征；

采用图文匹配模型中的文本特征维度转换模块将初始文本特征进行维度转换，得到文本特征。

在实际应用中，图文匹配模型中包括文本特征提取模块和文本特征维度转换模块，提取待处理文本的初始文本特征，并将初始文本特征转换到特定的维度度量空间，得到文本特征。其中，特定的维度度量空间为预先设置的与图像特征相同的维度度量空间，可以根据具体需要进行配置。

本公开实施例中，基于图文匹配模型的各模块进行特征提取和特征维度转换，可以将文本特征和图像特征转换到同一维度度量空间，作为图文匹配计算的基础。

在一种可能的实现方式中，文本特征提取模块是基于BERT网络或ERNIE网络构建的。

在实际应用中，文本特征提取模块可以采用BERT(Bidirectional EncoderRepresentations from Transformers)、ERNIE等预训练网络结构进行参数初始化。

本公开实施例中，可以基于BERT网络或ERNIE网络，来实现初始文本特征提取。

在一种可能的实现方式中，文本特征维度转换模块是采用全连接神经网络或基于注意力机制的网络构建的。

在实际应用中，可以直接采用全连接神经网络实现文本特征维度转换模块的功能，对文本特征进行维度压缩，或者采用基于注意力机制的网络构建文本特征维度转换模块，对特征在压缩过程中自适应的学习重点关注的特征。其中，注意力机制包括但不限于多头注意力机制(Multi-head attention)。

本公开实施例中，可以基于全连接神经网络或基于注意力机制的网络，来实现文本特征维度转换。

在一种可能的实现方式中，基于图像特征和各文本特征，从待处理文本中确定与待处理图像匹配的目标文本，包括：

基于图像特征和各文本特征，确定待处理图像和各待处理文本的图文相似度；

基于各图文相似度，从待处理文本中确定与待处理图像匹配的目标文本。

在实际应用中，从多个待处理文本中确定和待处理图像匹配的目标文本时，由于已经将图像特征和文本特征转换到同一维度度量空间，可以根据待处理图像的图像特征和每个待处理文本的文本特征，计算待处理图像和每个待处理文本之间的图文相似度，得到多个图文相似度，可以将图文相似度最高的待处理文本作为目标文本，或者也可以将达到或超过预设的相似度阈值的多个图文相似度各自对应的待处理文本，作为与待处理图像匹配的多个目标文本。其中，相似度阈值可以根据具体需要预先进行配置。其中，图文相似度包括但不限于余弦相似度。

本公开实施例中，可以根据图文匹配模型输出的同一维度度量空间的图像特征和文本特征，确定出与待处理图像匹配的目标文本，直接通过图像匹配文本，不需要分为两个分支分别进行迭代优化，提升图文匹配的效率；而且，可以避免OCR识别带来的信息损失，提高图文匹配的精度。

在一种可能的实现方式中，还包括：

将待处理图像与目标文本关联存储到预设数据库中。

在实际应用中，在确定出与待处理图像匹配的目标文本之后，可以将待处理图像和目标文本进行关联存储，后续使用时，可以根据图像从预设数据库检索到关联的文本，或者根据文本检索到关联的图像。

本公开实施例中，可以通过图像和文本的关联存储，实现文本关联图像，或者图像关联文本的检索。

在一种可能的实现方式中，待处理图像为招牌图像；待处理文本为POI名称。

本公开实施例中，可以将图文匹配模型应用到招牌图像和POI名称关联的应用场景中，实现招牌图像和POI名称的自动化关联。

本公开还提供了一种图文匹配方法，图4是本公开一实施例的图文匹配方法的流程图，该方法包括：

步骤S401，获取待处理图像和多个待处理文本；

步骤S402，基于图文匹配模型获取待处理图像的图像特征；

步骤S403，基于图文匹配模型获取多个待处理文本各自对应的文本特征；

步骤S404，基于图像特征和各文本特征，确定待处理图像和各待处理文本的图文相似度；

步骤S405，基于各图文相似度，从待处理文本中确定与待处理图像匹配的目标文本；

步骤S406，将待处理图像与目标文本关联存储到预设数据库中。

图5是现有技术中招牌图像和POI名称匹配方法的示意图。如图所示，将新采集到的招牌图像与历史POI库中的历史POI进行匹配计算，确定新采集到的招牌图像是否是历史POI库中存储的历史POI的招牌图像。分为两个分支，一个分支为文本匹配：OCR接口接收到招牌图像(新采集到的招牌图像)，进行OCR识别，将识别出的文字与历史POI名称进行文本匹配。另一个分支为图图匹配：将招牌图像(新采集到的招牌图像)与POI库中的历史招牌图像进行图图匹配。然后基于文本匹配结果和图图匹配结果，通过结合策略确定新采集到的招牌图像是否是历史POI库中存储的历史POI的招牌图像，其中，结合策略可以包括验真策略和验假策略。

现有技术中的自动化关联方法在结构上比较冗余，并且OCR接口对图像进行跨模态处理的信息会受损，输入到文本匹配这个分支使得性能无法得到提升。另外，图图关联受限于招牌库的规模，对于室内的(商厦等)POI，无法通过车采获得海量的招牌图像，这类POI主要是通过文本匹配实现，但是文本匹配由于OCR带来的信息损失，很难达到很高的精度。

在本公开技术方案的一个具体的实施例中，利用图文匹配模型提取历史POI库的所有POI名称的文本特征，存储在Table表中，然后对于新采集的招牌图像，使用图文匹配模型提取图像特征，然后直接计算图像特征与附近(新采集的招牌图像对应的店铺位置为中心，预设长度为半径范围内的)POI名称的文本特征之间的余弦相似度，得到多个相似度。例如，计算新采集的招牌图像对应的店铺附近存在23个POI名称，通过计算新采集的图像的图像特征和23个文本特征的余弦相似度，并进行排序，将相似度排名第一的POI名称作为新采集的招牌图像相匹配的目标文本。

本公开实施例中，利用训练好的跨模态图文匹配模型提取新采集的招牌图像的图像特征和历史POI库中的POI名称的文本特征，基于图像特征和文本特征，确定出与新采集图像匹配的POI名称。基于图文匹配模型进行图文匹配，将图像的特征空间和文本的特征空间交融在一起，直接通过图像匹配文本，而不需要分为两个分支分别进行迭代优化，提升图文匹配的效率；而且，可以避免OCR识别带来的信息损失，提高图文匹配的精度。

根据本公开的实施例，提供了一种图文匹配模型训练装置，图6是本公开一实施例的图文匹配模型训练装置的结构示意图，如图6所示，该装置包括：

获取模块601，用于获取训练样本集，训练样本集包括多个训练样本对和各自对应的样本标签，训练样本对包括样本图像和样本文本，样本标签表征样本图像和样本文本的相似程度；

训练模块602，用于利用训练样本集，按照以下至少一种训练方式训练图文匹配模型：学习图像和文本之间的特征相关性；学习对图像特征进行文本识别。

本公开实施例提供的图文匹配模型训练装置，按照学习图像和文本之间的特征相关性，或者学习对图像特征进行文本识别中至少一项的训练方式进行模型训练，可以使图像特征和文本特征的特征空间交融在一起。

在一种可能的实现方式中，采用多类别损失函数学习样本图像和样本文本之间的特征相关性。

在一种可能的实现方式中，采用连接时序分类损失函数学习对图像特征进行文本识别。

根据本公开的实施例，提供了一种图文匹配装置，图7是本公开一实施例的图像识别装置的结构示意图，如图7所示，该装置包括：

获取模块701，用于获取待处理图像和多个待处理文本；

第一特征提取模块702，用于基于图文匹配模型获取待处理图像的图像特征；

第二特征提取模块703，用于基于图文匹配模型获取多个待处理文本各自对应的文本特征；

匹配模块704，用于基于图像特征和各文本特征，从待处理文本中确定与待处理图像匹配的目标文本；

其中，图文匹配模型是基于本公开任一实施例的图文匹配模型训练方法训练得到的。

本公开实施例提供的图文匹配装置，利用训练好的跨模态图文匹配模型提取待处理图像的图像特征和待处理文本的文本特征，基于图像特征和文本特征，确定出与待处理图像匹配的目标文本。基于图文匹配模型进行图文匹配，将图像的特征空间和文本的特征空间交融在一起，直接通过图像匹配文本，而不需要分为两个分支分别进行迭代优化，提升图文匹配的效率；而且，可以避免OCR识别带来的信息损失，提高图文匹配的精度。

在一种可能的实现方式中，第一特征提取模块702，用于：

在一种可能的实现方式中，图像特征提取模块是基于VIT网络或深度残差网络ResNet构建的。

在一种可能的实现方式中，第二特征提取模块703，用于：

在一种可能的实现方式中，匹配模块904，用于：

在一种可能的实现方式中，还包括关联存储模块，用于：

将待处理图像与目标文本关联存储到预设数据库中。

在一种可能的实现方式中，待处理图像为招牌图像；待处理文本为兴趣点POI名称。

本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开提供的计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法的步骤。

图8示出了可以用来实施本公开实施例的图文匹配模型训练方法、图文匹配方法的电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图文匹配模型训练方法、图文匹配方法。例如，在一些实施例中，图文匹配模型训练方法、图文匹配方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图文匹配模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图文匹配模型训练方法，所述方法包括：

获取训练样本集，所述训练样本集包括多个训练样本对和各自对应的样本标签，所述训练样本对包括样本图像和样本文本，所述样本标签表征所述样本图像和样本文本的相似程度；

利用所述训练样本集，按照以下至少一种训练方式训练图文匹配模型：

学习所述样本图像和所述样本文本之间的特征相关性；

学习对图像特征进行文本识别。

2.根据权利要求1所述的方法，其中，采用多类别损失函数学习所述样本图像和所述样本文本之间的特征相关性。

3.根据权利要求1所述的方法，其中，采用连接时序分类损失函数学习对图像特征进行文本识别。

4.一种图文匹配方法，所述方法包括：

获取待处理图像和多个待处理文本；

基于图文匹配模型获取所述待处理图像的图像特征；

基于所述图文匹配模型获取所述多个待处理文本各自对应的文本特征；

基于所述图像特征和各文本特征，从所述待处理文本中确定与所述待处理图像匹配的目标文本；

其中，所述图文匹配模型是基于权利要求1-3任一项所述的图文匹配模型训练方法训练得到的。

5.根据权利要求4所述的方法，其中，所述基于图文匹配模型获取所述待处理图像的图像特征，包括：

采用所述图文匹配模型中的图像特征提取模块提取所述待处理图像的初始图像特征；

采用所述图文匹配模型中的图像特征维度转换模块将所述初始图像特征进行维度转换，得到图像特征。

6.根据权利要求5所述的方法，其中，所述图像特征提取模块是基于VIT网络或深度残差网络ResNet构建的。

7.根据权利要求5所述的方法，其中，所述图像特征维度转换模块是基于全连接神经网络或基于注意力机制的网络构建的。

8.根据权利要求4所述的方法，其中，所述基于所述图文匹配模型获取所述多个待处理文本各自对应的文本特征，包括：

采用所述图文匹配模型中的文本特征提取模块提取所述待处理文本的初始文本特征；

采用所述图文匹配模型中的文本特征维度转换模块将所述初始文本特征进行维度转换，得到文本特征。

9.根据权利要求8所述的方法，其中，所述文本特征提取模块是基于BERT网络或ERNIE网络构建的。

10.根据权利要求8所述的方法，其中，所述文本特征维度转换模块是采用全连接神经网络或基于注意力机制的网络构建的。

11.根据权利要求4-10任一项所述的方法，其中，所述基于所述图像特征和各文本特征，从所述待处理文本中确定与所述待处理图像匹配的目标文本，包括：

基于所述图像特征和各文本特征，确定所述待处理图像和各待处理文本的图文相似度；

基于各图文相似度，从所述待处理文本中确定与所述待处理图像匹配的目标文本。

12.根据权利要求4-10任一项所述的方法，还包括：

将所述待处理图像与所述目标文本关联存储到预设数据库中。

13.根据权利要求4-10任一项所述的方法，所述待处理图像为招牌图像；所述待处理文本为兴趣点POI名称。

14.一种图文匹配模型训练装置，所述装置包括：

获取模块，用于获取训练样本集，所述训练样本集包括多个训练样本对和各自对应的样本标签，所述训练样本对包括样本图像和样本文本，所述样本标签表征所述样本图像和样本文本的相似程度；

训练模块，用于利用所述训练样本集，按照以下至少一种训练方式训练图文匹配模型：

学习所述样本图像和所述样本文本之间的特征相关性；

学习对图像特征进行文本识别。

15.根据权利要求14所述的装置，其中，采用多类别损失函数学习所述样本图像和所述样本文本之间的特征相关性。

16.根据权利要求14所述的装置，其中，采用连接时序分类损失函数学习对图像特征进行文本识别。

17.一种图文匹配装置，所述装置包括：

获取模块，用于获取待处理图像和多个待处理文本；

第一特征提取模块，用于基于图文匹配模型获取所述待处理图像的图像特征；

第二特征提取模块，用于基于所述图文匹配模型获取所述多个待处理文本各自对应的文本特征；

匹配模块，用于基于所述图像特征和各文本特征，从所述待处理文本中确定与所述待处理图像匹配的目标文本；

18.根据权利要求17所述的装置，其中，所述第一特征提取模块，用于：

19.根据权利要求18所述的装置，其中，所述图像特征提取模块是基于VIT网络或深度残差网络ResNet构建的。

20.根据权利要求18所述的装置，其中，所述图像特征维度转换模块是基于全连接神经网络或基于注意力机制的网络构建的。

21.根据权利要求17所述的装置，其中，所述第二特征提取模块，用于：

22.根据权利要求21所述的装置，其中，所述文本特征提取模块是基于BERT网络或ERNIE网络构建的。

23.根据权利要求21所述的装置，其中，所述文本特征维度转换模块是采用全连接神经网络或基于注意力机制的网络构建的。

24.根据权利要求17-23任一项所述的装置，其中，所述匹配模块，用于：

25.根据权利要求17-23任一项所述的装置，还包括关联存储模块，用于：

26.根据权利要求17-23任一项所述的装置，所述待处理图像为招牌图像；所述待处理文本为兴趣点POI名称。

27.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-13中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-13中任一项所述方法的步骤。