CN108288067B

CN108288067B - 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Info

Publication number: CN108288067B
Application number: CN201710817344.5A
Authority: CN
Inventors: 马林; 姜文浩; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2020-07-24
Anticipated expiration: 2037-09-12
Also published as: WO2019052403A1; EP3683724A1; US11087166B2; CN110532571B; EP3683724A4; JP2020522791A; KR102235051B1; KR20190129110A; US20210312211A1; JP6887026B2; US20200019807A1; CN108288067A; CN110532571A; US11699298B2

Abstract

本申请涉及人工智能技术领域，尤其涉及图像文本匹配模型的训练方法、双向搜索方法及相关装置。该训练方法包括：提取图像样本和文本样本的全局表示和局部表示，后训练预先构建的匹配模型，该匹配模型将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间，计算全局表示的相似度和局部表示的相似度；并，根据全局表示的相似度的预设权值，以及局部表示的相似度的预设权值，采用加权求和的方式，确定图像和文本的匹配度。本申请得到的匹配度是基于将图像的细节特征到全局特征都考量在内，得到的匹配度更加准确和全面。

Description

图像文本匹配模型的训练方法、双向搜索方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及图像文本匹配模型的训练方法、搜索方法及相关装置。

背景技术

图像与文本的理解一直是人工智能中最为重要的研究方向之一。其中一个重要的研究就是发掘图像和文本的关联关系。例如网页新闻中新闻文本内容和新闻图像表达的是相同的主题思想。也即，图像和文本之间并非绝对独立存在的，图像和文本之间存在匹配关系。故此，如何找到与给定图像匹配的文本，或者找到与给定文本匹配的图像成为业内关注的话题。

发明人发现，相关技术中通常通过以下两种方法实现图像与文本的匹配：

方法一、提取图像和文本各自的全局表示，将全局表示映射到相同的语义空间，在该语义空间建立图像和文本的全局表示之间的匹配关系，进而实现图像和文本的匹配。其中，全局表示反映了图像的全局特性，用于描述图像的整体特征，全局表示例如是颜色特征、形状特征和纹理特征等

方法二、通过卷积神经网络得到图像的局部信息的局部表示。通过语法树信息得到文本的局部表示，进而学习图像与文本的局部表示的匹配关系。其中，局部表示反映了图像的局部表示，用于描述图像局部的细节特征。与全局表示相比，局部表示具有在图像中蕴含数量丰富，特征间相关度小，遮挡情况下不会因为部分特征的消失而影响其他特征的检测和匹配等的特点。

然而，以上两种方法中均采用单一方面的信息来进行图像和文本的匹配，即要么单独采用全局表示，要么单独采用局部表示。无论采用局部表示还是全局表示进行图像和文本的匹配，仅能从一个层面反映图像和文本之间的匹配度。对于内容丰富的图像，全局表示也许仅能够提取颜色特征、形状特征和纹理特征等，却无法展现局部表示的细节特征，故此能够反映的特征有限。而局部表示仅能从局部考量图像文本的匹配关系、无法体现出全局表示的特征。故此，以上两种方法都无法全面衡量图像和文本之间的匹配度。

发明内容

本申请实施例提供图像文本匹配模型的训练方法、搜索方法及相关装置，用以解决现有技术中存在的无法全面衡量图像和文本之间的匹配度等的问题。

第一方面，本申请实施例提供的一种图像文本匹配模型的训练方法，所述方法包括：

提取图像样本的全局表示和局部表示；以及，

提取文本样本的全局表示和局部表示；

根据提取的全局表示和局部表示，训练预先构建的匹配模型，以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；

其中，该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间，计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度；以及，将图像样本和文本样本各自的局部表示映射到指定语义空间，计算异构样本对之间的局部表示的相似度；并，根据全局表示的相似度的预设权值，以及局部表示的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。

第二方面，本申请实施例提供一种图像文本双向搜索方法，所述方法包括：

接收参考样本，该参考样本为文本或图像；

提取该参考样本的全局表示和局部表示；

将参考样本的全局表示和局部输入给匹配模型，以使该匹配模型计算参考参考样本与相应素材的匹配度；其中，若参考样本为文本，则相应素材为图像；若参考样本为图像，则相应素材为文本；该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；

选取匹配度大于指定匹配度的相应素材，作为与参考样本匹配的素材。

第三方面，本申请实施例提供一种图像文本匹配模型的训练装置，所述装置包括：

图像特征提取模块，用于提取图像样本的全局表示和局部表示；

文本特征提取模块，用于提取文本样本的全局表示和局部表示；

训练模块，用于根据提取的全局表示和局部表示，训练预先构建的匹配模型，以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；

第四方面，本申请实施例提供一种图像文本双向搜索装置，所述装置包括：

参考样本接收模块，用于接收参考样本，该参考样本为文本或图像；

参考样本特征提取模块，用于提取该参考样本的全局表示和局部表示；

搜索模块，用于将参考样本的全局表示和局部输入给匹配模型，以使该匹配模型计算参考参考样本与相应素材的匹配度；其中，若参考样本为文本，则相应素材为图像；若参考样本为图像，则相应素材为文本；该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；

选择模块，用于选取匹配度大于指定匹配度的相应素材，作为与参考样本匹配的素材。

第五方面，本申请实施例提供一种计算设备，包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序指令执行本申请实施例任一所述的图像文本匹配模型的训练方法。

第六方面、本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如如本申请实施例任一所述的图像文本匹配模型的训练方法。

第七方面，本申请实施例提供一种计算设备，包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如本申请实施例所述的图像文本双向搜索方法。

第八方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如本申请实施例所述的图像文本双向搜索方法。

本申请实施例中，得到的匹配度是基于图像和文本各自的全局表示和局部表示。将图像的细节特征到全局特征都考量在内，得到的匹配度更加准确和全面。故此，基于本申请实施例提供的匹配模型进行图像文本双向搜索时，搜索结果也会更加准确。

附图说明

图1所示为本申请实施例提供的应用场景示意图；

图2所示为本申请实施例一提供的图像文本匹配模型的训练方法的流程示意图；

图3所示为本申请实施例一提供的匹配模型的框图；

图4所示为本申请实施例一提供的计算图像特征的相似度的模型的框图；

图5所示为本申请实施例一提供的对图像信息的类别的示意图；

图6所示为本申请实施例一提取文本的全局表示的框图；

图7所示为本申请实施例二提供的图像文本匹配模型的训练方法的流程示意图；

图8所示为本申请实施例提供的图像文本双向搜索方法的流程示意图；

图9所示为本申请实施例提供的图像文本匹配模型的训练装置的结构示意图；

图10所示为本申请实施例提供的图像文本双向搜索装置的结构示意图；

图11为本申请实施例提供的计算设备的结构示意图。

具体实施方式

为了便于理解本申请实施例提供的技术方案，下面结合说明书附图对本申请实施例作进一步详细描述。

为了能够全面的对图像和文本进行匹配，得到更加准确的匹配度，本申请实施例中，根据以下方法训练图像文本匹配模型，具体的：

提取图像样本的全局表示和局部表示；以及，

提取文本样本的全局表示和局部表示；

其中，该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间，计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度；以及，将图像样本和文本样本各自的局部表示映射到指定语义空间，计算异构样本对之间的局部表示的相似度；并，根据异构样本对之间的全局表示的相似度和局部表示的相似度，确定异构样本对的匹配度。具体实施时，根据全局表示的相似度的预设权值，以及局部表示的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。

这样，得到的匹配度是基于图像和文本各自的全局表示和局部表示。将图像的细节特征到全局特征都考量在内，得到的匹配度更加准确和全面。故此，基于本申请实施例提供的匹配模型进行图像文本双向搜索时，搜索结果也会更加准确。

例如，可以参考图1其为本申请实施例提供的图像文本双向搜索方法的应用场景示意图。该场景例如可以包括用户10、终端设备11和服务器12。其中，所述终端设备11中可安装有各种客户端，如用于社交的博客客户端、微信客户端，用于了解时事的新闻客户端等。终端设备11的客户端和服务器12建立通信连接后，终端设备11的客户端可以对图像和/或文本提取全局表示和局部表示后发送给服务器12。或者终端设备11的客户端将图像和/或文本发送给服务器12，由服务器12提取图像和/或文本的全局特征和文本特征。然后，服务器12根据图像的全局特征和文本特征，基于该匹配模型搜索与该图像匹配的文本，或服务器12根据文本的全局特征和文本特征，基于该匹配模型搜索与该图像匹配的文本。然后，服务器12将搜索结果反馈给终端设备11。

其中，终端设备11和服务器12可通过通信网络进行通信连接，该网络可以为局域网、广域网等。终端设备11可以为手机、平板电脑、笔记本电脑、个人计算机等，服务器12可以为任何能够支持相应的图像文本匹配模型的训练和双向搜索的服务器设备。

需要说明的是，本申请实施例提供的方案，适用于任何需要根据文本检索图像，和/或，需要根据图像检索文本的场景中。例如，可以适用于云端相册管理(例如根据给定文本搜索出匹配的图像)，微信朋友圈，QQ空间，QQ众创空间，以及微信与QQ的聊天环境中的图像和/或文本的搜索。

实施例一

参照图2，为本申请实施例一提供的图像文本匹配模型的训练方法的流程图，包括以下步骤：

步骤201：提取图像样本的全局表示和局部表示。

步骤202：提取文本样本的全局表示和局部表示。

需要说明的是，步骤201和步骤202的执行顺序不受限。

步骤203：根据提取的全局表示和局部表示，训练预先构建的匹配模型，以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；

如图3所示，为本申请实施例提供的图像文本匹配模型的一种框图：在图3中，针对输入的图像，采用局部图像CNN(Convolutional Neural Network，卷积神经网络)提取图像的局部表示(即图中的局部图像表示)；并，采用全局图像CNN提取图像的全局表示(即图中的全局图像表示)。针对输入的文本，采用局部语句编码器提取文本的局部表示(即图中的局部语句表示)，并采用全局语句编码器提取文本的全局表示(即图中的全局语句表示)。在提取了图像和文本的局部表示和全局表示后，局部深度匹配表示将图像和文本各自的局部表示映射到指定语义空间，并在该指定语义空间中确定图像和文本构成的异构样本对之间的局部表示的相似度；同理，全局深度匹配表示将图像和文本各自的全局表示映射到指定语义空间，并在该指定语义空间中确定图像和文本构成的异构样本对之间的全局表示的相似度。然后，通过模型集成，根据全局表示的相似度的预设权值，以及局部表示的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。

为便于理解，本申请实施例提供图像文本匹配模型的训练方法，通过以下内容做进一步说明。

1)、关于映射到指定语义空间：

在一个实施例中，为了能够准确的得到图像和文本之间的全局表示的相似度以及局部表示的相似度，本申请实施例中，将图像样本和文本样本各自的全局表示映射到指定语义空间，具体包括：

分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作，映射到指定语义空间；

将图像样本和文本样本各自的局部表示映射到指定语义空间，具体包括：

分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作，映射到指定语义空间；

其中，全连接层的参数根据预置目标函数训练获得，该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度；或者，

该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。

本申请中，通过多个全连接层来准确的分析文本和图像各自的全局表示和局部表示，以便于将文本和图像的全局表示和局部表示映射到同一语义空间中。而且，全连接层的参数是根据预置目标函数确定的。通过预置目标函数能够实现根据实际情况，准确确定出异构文本对的相似度(该相似度为全局表示的相似度，或局部表示的相似度)。

此外，通过多个全连接层，可以对文本与图像描述进行多层的非线性变换，进而可以进一步挖掘图像与文本之间的直接匹配关系。

进一步的，若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度，该预置目标函数可如公式(1)所示：

其中，

表示预置目标函数；

表示文本样本；

表示图像样本；当确定全局表示的相似度时，d()表示文本样本和图像样本的全局表示的相似度；当确定局部表示的相似度时，d()表示文本样本和图像样本的局部表示的相似度；λ₁和λ₂均表示预置系数；

表示语义关联的异构样本对的相似度；

和

均表示非语义关联的异构样本对的相似度；u₁和u₂均表示预设阈值。

进一步的，考虑到一般一个图像都会与多个样本语义关联。例如，一幅风景图像中天空有鸟飞过，水里有鱼儿游泳，那么对应的语义可以包括鸟儿在天空飞翔和鱼儿在水里游来游去。故此，为了提高匹配模型的准确性，需要使得与同一图像语义关联的文本之间的相似度，也要高于这些文本与其他图像具有语义关联关系的文本之间的相似度。预置目标函数在满足如公式(1)所述条件的基础上，需要同时要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。为达到该目的，同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的公式如公式(2)所示：

L(S_i,S_l,S_j)＝max(0,u₃+d(S_i,S_l)-d(S_i,S_j)) (2)

其中，L(S_i,S_l,S_j)表示要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数；S_i,S_l表示同一图像样本语义关联的文本样本；S_i,S_j表示不同图像样本关联的文本样本；当确定全局表示的相似度时，d()表示文本样本之间的的全局表示的相似度；当确定局部表示的相似度时，d()表示文本样本之间的局部表示的相似度；u₃表示预设阈值。

当然，具体实施时，可以将公式(1)和公式(2)进行整合，得到如公式(3)或公式(4)所述形式的预置目标函数，得到的预置目标函数能够满足上述如公式(1)和公式(2)所述的要求：

需要说明的是，具体实施时，可以根据预置目标函数的要求设计具体的数学表达方式，本申请实施例对此不作限定。

根据预置目标函数的作用，可以训练如图4所示的深度匹配模型。图4中，左侧输入image embedding为用于表示图像的特征向量(该特征向量为全局表示或局部表示的特征向量)，右侧输入sentence embending为用于表示文本的全局特征的特征向量(该特征向量表示全局表示或局部表示)。图像和文本的特征向量映射到同一指定语义空间后，计算特征向量之间的距离。例如，图4中，

S_m表示文本的特征向量，I₁和I_n表示图像的特征向量。在该指定语义空间中，根据预置目标函数计算图像和文本之间的距离。若采用的特征向量为用于表示全局表示的特征向量，则计算的结果为全局表示之间的相似度，若采用的特征向量为表示局部表示的特征向量，则计算的结果为局部表示之间的相似度。

2)关于图像样本全局表示和局部表示的提取：

具体实施时可以采用现有技术的方法提取图像的全局表示，本申请实施例对此不作限定。例如采用图像的卷积神经网络的全连接层的特征表示图像的全局表示，如前述的CNN，这里的CNN可以选择但不限于VGG(Very Deep Convolutional Networks for Large-Scale Image Recognition，大规模图像识别的深度卷积网络)，ResNet(ResidualNetworks，残差网络)，Inception,Inception V3,Inception V4等。当然，也可以采用FCN(Fully Convolutional Networks for Semantic Segmentation，全卷积网络)等网络模型来提取图像的全局表示。

这里，对本申请实施例提供的提取图像样本的局部表示做进一步说明，具体可执行为：

将图像样本划分为指定数量的图像块，针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；并，

选取指定数量的图像块中各指定类别的图像信息的最大概率；由各指定类别的图像信息的最大概率构成图像样本的局部表示。

例如，如图5所示，图5中Image CNN表示采用图像CNN提取图像块的特征。具体的CNN内部各层的设计可以根据现有技术实现。本申请的重点在于，对于给定的一幅图像，对其进行分块后，提取各图像块的特征。假设图像信息的类别共有5种，分别为人、草地、天空、狗和猫。若假设提取的图像块有4个，则针对每个图像块计算该图像块包括以上5种类别的图像信息的概率。然后，针对每种类别，从4个图像块的该类别的概率中选取最大概率。由各类别的最大概率构成图像样本的全局表示。

当然需要说明的是，具体实施时，也可以进一步针对每种类别，比较该类别的最大概率与对应概率阈值，来判断样本图像中是否至少有一个图像块包含该类别的图像信息。例如，对于人这一类别，其在4个图像块中最大概率为0.99，对应概率阈值为0.8，则说明4个图像块中至少有一个图像块包含人。

3)、关于文本样本全局表示和局部表示的提取：

本申请实施例中，为了能够更好的提取出文本样本的全局表示，包括以下步骤：

对文本样本进行分词；

针对每个分词，确定该分词的向量，其中，不同分词的向量长度相同；

将同一文本样本的分词的向量，输入给预先构建的用于提取文本的全局表示的神经网络，得到该文本样本的全局表示；其中，用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入，该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。

例如，具体实施时可用如下公式(5)表示卷积层的卷积操作：

其中，

在公式(5)中，r表示指定大小的视野域；l-1表示第l-1层卷积层(即上一层卷积层)；l表示第l层卷积层(即下一层卷积层)；W_l,f表示乘积矩阵；f表示第f个特征；i表示第i个位置信息；

表示第l层卷积层提取的特征对应i位置的f特征。

其中，池化层的操作可以用如下公式(6)表示：

其中，

表示池化层的输出；l+1表示池化层；

表示第l层提取的第M×i特征；M表示一个常数用于控制池化操作的大小。

例如如图6所示，例如输入的文本为“a young child run through a largefield of grass”，通过文本卷积神经网络(即图中的Sentence CNN)来提取文本的全局表示。具体的，该Sentence CNN中包括多个卷积层convolution来提取文本的特征，然后通过最大池化层(max-pooling)来对卷积层提取的特征进行整合降维，从而得到文本的全局表示。

这样，本申请实施例通过多个卷积层实现对文本样本特征的提取，然后通过池化层来过滤无用的特征信息。而其中，在使用多个卷积层进行卷积操作时，采用的是指定大小的视野域，由于该视野域中包括了多个分词的特征，所以相当于实现了文本样本的全局表示中学习了相邻分词之间的组织以及交互信息，使得最终提取的全局表示更加合理准确。

具体实施时，可以采用现有的word2vec工具将每个分词用一个定长的向量来表示。

此外，用于提取文本的全局表示的神经网络可以是卷积神经网络，也可以是RNN(Recurrent Neural Networks，循环神经网络)。

文本样本的局部表示可以采用现有技术的方法提取，可以更集中于每一个分词，譬如采用传统的TF-IDF(term frequency–inverse document frequency)表示，或者Fisher Vector作用于每一个分词的向量上，或者分词的向量的平均值。这样的表示更加集中于分词本身，而不是整体考虑每个分词跟分词之间的相关性，故此可以被认为是文本的局部表示。

下面，结合实施例二对本申请实施例中基于上述匹配模型的图像文本双向搜索方法做进一步说明。

实施例二

如图7所示，为本申请实施例中提供的图像文本匹配模型的训练方法的具体实施例的流程示意图，该方法包括以下步骤：

步骤701：基于全局图像表示CNN提取图像样本的全局表示。

步骤702：将图像样本划分为指定数量的图像块，基于局部图像CNN针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；并，选取指定数量的图像块中各指定类别的图像信息的最大概率；由各指定类别的图像信息的最大概率构成图像样本的局部表示。

步骤703：对文本样本进行分词；针对每个分词，确定该分词的向量，其中，不同分词的向量长度相同；将同一文本样本的分词的向量，输入给预先构建的用于提取文本的全局表示的卷积神经网络，得到该文本样本的全局表示；其中，用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入，该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。

步骤704：提取文本样本的局部表示。

其中，步骤701-步骤704的执行顺序不受限。

步骤705：分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作，映射到指定语义空间，并计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度，其中，全连接层的参数根据预置目标函数训练获得。

步骤706：分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作，映射到指定语义空间，计算异构样本对之间的局部表示的相似度，其中，全连接层的参数根据预置目标函数训练获得。

其中，步骤705和步骤706的执行顺序不受限。

此外，预置目标函数已在实施例一中说明，此处不再赘述。

步骤707：根据全局表示的相似度的预设权值，以及局部表示的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。

本申请实施例中，通过图像块提取图像的局部表示，通过多个卷积层和池化层提取文本的全局表示，能够得到文本的分词之间的关联关系，使得提取的特征更加准确和全面。然后，通过预置目标函数使得语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度，从而使得最终相似度的计算更加符合实际需求，提高图像和文本匹配的准确性。

实施例三

如图8所示，为基于实施例一中的匹配模型的图像文本双向搜索方法的流程图，包括以下步骤：

步骤801：接收参考样本，该参考样本为文本或图像。

步骤802：提取该参考样本的全局表示和局部表示。

步骤803：将参考样本的全局表示和局部输入给匹配模型，以使该匹配模型计算参考参考样本与相应素材的匹配度；其中，若参考样本为文本，则相应素材为图像；若参考样本为图像，则相应素材为文本；该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度。

其中，可以建立素材库，计算参考样本与素材库中各相应素材的匹配度。具体计算匹配度的方法已在实施例一中说明，这里不再赘述。

步骤804：选取匹配度大于指定匹配度的相应素材，作为与参考样本匹配的素材。

本申请实施例实现了基于全局表示和局部表示的匹配模型来搜索参考样本的相应素材，使得最终得到的匹配结果更加准确。。例如搜索与文本匹配的图像，或者搜索与图像匹配的问题。

实施例四

基于与实施例一相同的发明构思，本申请实施例还提供一种图像文本匹配模型的训练装置，该装置的原理和有益效果与上述方法实施例中所述内容相似，在此不再赘述。

如图9所示，为该装置的结构示意图，所述装置包括：

图像特征提取模块901，用于提取图像样本的全局表示和局部表示；

文本特征提取模块902，用于提取文本样本的全局表示和局部表示；

训练模块903，用于根据提取的全局表示和局部表示，训练预先构建的匹配模型，以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；

进一步的，训练模块，具体包括：

全局训练单元，用于分别将图像样本和文本样本各自的全局表示通过至少两层全连接层进行全连接操作，映射到指定语义空间；

局部训练单元，用于分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作，映射到指定语义空间；

进一步的，若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度，该预置目标函数为：

其中，

表示预置目标函数；

表示文本样本；

表示语义关联的异构样本对的相似度；

和

进一步的，要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数为：

L(S_i,S_l,S_j)＝max(0,u₃+d(S_i,S_l)-d(S_i,S_j))

进一步的，图像特征提取模块，具体用于将图像样本划分为指定数量的图像块，针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；并，

进一步的，文本特征提取模块，具体用于对文本样本进行分词；

将同一文本样本的分词的向量，输入给预先构建的用于提取文本的全局表示的卷积神经网络，得到该文本样本的全局表示；其中，用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入，该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。

实施例五

基于与实施例二相同的发明构思，本申请实施例还提供一种图像文本双向搜索装置，该装置的原理和有益效果与上述方法实施例中所述内容相似，在此不再赘述。

如图10所示，为该装置的结构示意图，所述装置包括：

参考样本接收模块1001，用于接收参考样本，该参考样本为文本或图像；

参考样本特征提取模块1002，用于提取该参考样本的全局表示和局部表示；

搜索模块1003，用于将参考样本的全局表示和局部输入给匹配模型，以使该匹配模型计算参考参考样本与相应素材的匹配度；其中，若参考样本为文本，则相应素材为图像；若参考样本为图像，则相应素材为文本；该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；

选择模块1004，用于选取匹配度大于指定匹配度的相应素材，作为与参考样本匹配的素材。

实施例六

本申请实施例五还提供了一种计算设备，该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。如图11所示，该计算设备可以包括中央处理器(Center Processing Unit，CPU)1101、存储器1102、输入设备1103，输出设备1104等，输入设备可以包括键盘、鼠标、触摸屏等，输出设备可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中，存储器可以用于存储图像文本匹配模型的训练方法和/或图像文本双向搜索方法的程序指令。处理器通过调用存储器存储的程序指令，处理器用于按照获得的程序指令执行：提取图像样本的全局表示和局部表示；以及，提取文本样本的全局表示和局部表示；根据提取的全局表示和局部表示，训练预先构建的匹配模型，以使该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；其中，该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间，计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度；以及，将图像样本和文本样本各自的局部表示映射到指定语义空间，计算异构样本对之间的局部表示的相似度；并，根据全局表示的相似度的预设权值，以及局部表示的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。

或者，处理器通过调用存储器存储的程序指令，处理器用于按照获得的程序指令执行：接收参考样本，该参考样本为文本或图像；提取该参考样本的全局表示和局部表示；将参考样本的全局表示和局部输入给匹配模型，以使该匹配模型计算参考参考样本与相应素材的匹配度；其中，若参考样本为文本，则相应素材为图像；若参考样本为图像，则相应素材为文本；该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；选取匹配度大于指定匹配度的相应素材，作为与参考样本匹配的素材。

实施例七

本申请实施例六提供了一种计算机存储介质，用于储存为上述计算设备所用的计算机程序指令，其包含用于执行上述图像文本匹配模型的训练方法和/或图像文本双向搜索方法的程序。

所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像文本匹配模型的训练方法，其特征在于，所述方法包括：

提取图像样本的全局表示和局部表示；以及，

提取文本样本的全局表示和局部表示；

其中，该匹配模型将图像样本和文本样本各自的全局表示映射到指定语义空间，计算由图像样本和文本样本构成的异构样本对之间的全局表示的相似度；以及，将图像样本和文本样本各自的局部表示映射到指定语义空间，计算异构样本对之间的局部表示的相似度；并，根据全局表示的相似度的预设权值，以及局部表示的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度；

其中，通过全连接层将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间；全连接层的参数根据预置目标函数训练获得，该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度；或者，

该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度；

其中，提取图像样本的局部表示，具体包括：

2.根据权利要求1所述的方法，其特征在于，将图像样本和文本样本各自的全局表示映射到指定语义空间，具体包括：

分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层进行全连接操作，映射到指定语义空间。

3.根据权利要求2所述的方法，其特征在于，

若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度，该预置目标函数为：

其中，

表示预置目标函数；

表示文本样本；

表示语义关联的异构样本对的相似度；

和

4.根据权利要求2所述的方法，其特征在于，要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数为：

L(S_i,S_l,S_j)＝max(0,u₃+d(S_i,S_l)-d(S_i,S_j))

其中，L(S_i,S_l,S_j)表示要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数；S_i,S_l表示同一图像样本语义关联的文本样本；S_i,S_j表示不同图像样本关联的文本样本；当确定全局表示的相似度时，d()表示文本样本之间的全局表示的相似度；当确定局部表示的相似度时，d()表示文本样本之间的局部表示的相似度；u₃表示预设阈值。

5.根据权利要求1所述的方法，其特征在于，提取文本样本的全局表示，具体包括：

对文本样本进行分词；

6.一种图像文本双向搜索方法，其特征在于，所述方法包括：

接收参考样本，该参考样本为文本或图像；

提取该参考样本的全局表示和局部表示；

将参考样本的全局表示和局部表示输入给匹配模型，以使该匹配模型计算参考样本与相应素材的匹配度；其中，若参考样本为文本，则相应素材为图像；若参考样本为图像，则相应素材为文本；该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；

选取匹配度大于指定匹配度的相应素材，作为与参考样本匹配的素材；

其中，所述匹配模型通过全连接层将图像样本和文本样本各自的全局表示和局部表示映射到指定语义空间后，确定图像和文本之间的匹配度；全连接层的参数根据预置目标函数训练获得，该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度；或者，

其中，当参考样本为图像时，提取参考样本的局部表示，具体包括：

将参考样本划分为指定数量的图像块，针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；并，

选取指定数量的图像块中各指定类别的图像信息的最大概率；由各指定类别的图像信息的最大概率构成参考样本的局部表示。

7.一种图像文本匹配模型的训练装置，其特征在于，所述装置包括：

其中，图像特征提取模块，具体用于将图像样本划分为指定数量的图像块，针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；并，

8.一种图像文本双向搜索装置，其特征在于，所述装置包括：

搜索模块，用于将参考样本的全局表示和局部表示输入给匹配模型，以使该匹配模型计算参考样本与相应素材的匹配度；其中，若参考样本为文本，则相应素材为图像；若参考样本为图像，则相应素材为文本；该匹配模型能够基于全局表示和局部表示确定图像和文本之间的匹配度；

选择模块，用于选取匹配度大于指定匹配度的相应素材，作为与参考样本匹配的素材；

其中，当参考样本为图像时，参考样本特征提取模块，具体用于将参考样本划分为指定数量的图像块，针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；并，

9.一种计算设备，其特征在于，包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求1～5任一所述的图像文本匹配模型的训练方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如权利要求1～5任一所述的图像文本匹配模型的训练方法。

11.一种计算设备，其特征在于，包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求6所述的图像文本双向搜索方法。

12.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如权利要求6所述的图像文本双向搜索方法。