CN109933802A

CN109933802A - 图文匹配方法、装置及存储介质

Info

Publication number: CN109933802A
Application number: CN201910228456.6A
Authority: CN
Inventors: 杨皓; 卢菁; 李彪; 王亚雄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-06-25
Anticipated expiration: 2039-03-25
Also published as: CN109933802B

Abstract

本申请实施例提供一种图文匹配方法、装置及存储介质，本申请可以线下训练好用来估计图片与文本信息相关度的图文匹配预估模型，该图文匹配预估模型能够建立文本与图片之间更加可靠的关联，这样，在需要线上为某文章配图的情况下，可以向服务器上传相应的待配图文本，以使服务器先从图库中筛选与待配图文本关联的多个候选图片，之后，再利用该图文匹配模型，从这多个候选图片中，精确选择与待配图文本相关度较高的第一数量个候选图片，并反馈至客户端进行展示，此时，用户只需要从服务器反馈的有限个与待发布文章相关度较高的候选图片中，选择所需图片即可，不需要从大量图片中进行选择，极大减小了配图工作量，且提高了图文匹配正确率。

Description

图文匹配方法、装置及存储介质

技术领域

本申请涉及通信技术领域，具体涉及一种图文匹配方法、装置及存储介质。

背景技术

随着信息技术的快速发展以及网络的全球化，用户对多媒体的需求越来越高。例如，用户在新闻平台阅读新闻，更希望阅读图文并茂的新闻，而不仅仅是纯文本的新闻；或者用户在互动问答平台搜索问题时，更愿意选择具有配图的问答查看。因此，为了提高阅读量，更好地为用户服务，这些应用平台在发布文本信息时，通常会为其配置图片，这使得图文匹配成为技术人员重要研究方向之一。

在图文匹配任务中，图片与文本的相关度往往是核心工作，现有技术中，通常是由用户从图片数据集合中，人工挑选与待配图文本相关度较高的图片，工作量非常大，且图文匹配准确率较低，不利于配图文本的推广。

发明内容

本申请实施例提供一种图文匹配方法、装置及存储介质，实现了图文自动匹配，无需人工筛选，大大降低了工作量，提高了图文匹配准确率。

为实现上述目的，本申请实施例提供如下技术方案：

一种图文匹配方法，所述方法包括：

获取客户端发送的待配图文本；

筛选与所述待配图文本关联的多个候选图片；

将所述多个候选图片及所述待配图文本输入图文匹配模型，得到相应候选图片与所述待配图文本的相关度，所述图文匹配模型是依据注意力机制及三元组损失函数，利用样本图片中物体区域的视觉特征和位置特征，以及样本文件的单词特征和/或文本特征，进行深度学习网络训练得到的；

将相关度较大的第一数量个候选图片反馈至所述客户端进行展示

一种图文匹配装置，所述装置包括：

第一获取模块，用于获取客户端发送的待配图文本；

候选图片筛选模块，用于筛选与所述待配图文本关联的多个候选图片；

模型处理模块，用于将所述多个候选图片及所述待配图文本输入图文匹配模型，得到相应候选图片与所述待配图文本的相关度，所述图文匹配模型是依据注意力机制及三元组损失函数，利用样本图片中物体区域的视觉特征和位置特征，以及样本文件的单词特征和/或文本特征，进行深度学习网络训练得到的；

数据传输模块，用于将相关度较大的第一数量个候选图片反馈至所述客户端进行展示。

一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器加载并执行，实现如上所述的图文匹配方法的各步骤。

基于上述技术方案，本申请实施例提供的一种图文匹配方法、装置及存储介质，本申请可以线下训练好用来估计图片与文本信息相关度的图文匹配预估模型，该图文匹配预估模型能够建立文本与图片之间更加可靠的关联，这样，在需要线上为某文章配图的情况下，可以向服务器上传相应的待配图文本，以使服务器先从图库中筛选与待配图文本关联的多个候选图片，之后，再利用该图文匹配模型，从这多个候选图片中，精确选择与待配图文本相关度较高的第一数量个候选图片，并反馈至客户端进行展示，此时，用户只需要从服务器反馈的有限个与待发布文章相关度较高的候选图片中，选择所需图片即可，不需要从大量图片中进行选择，极大减小了配图工作量，且提高了图文匹配正确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种图文匹配系统的结构示意图

图2为本申请实施例提供的一种图文匹配方法的信令流程图；

图3为本申请实施例提供的一种图文匹配方法中所用图文匹配模型的训练方法流程图；

图4为本申请实施例提供的一种图文匹配方法的流程示意图；

图5为本申请实施例提供的一种图文匹配方法的应用场景示意图；

图6为本申请实施例提供的一种图文匹配装置的结构示意图；

图7为本申请实施例提供的另一种图文匹配装置的结构示意图；

图8为本申请实施例提供的另一种图文匹配装置的结构示意图；

图9为本申请实施例提供的又一种图文匹配装置的结构示意图；

图10为本申请实施例提供的一种计算机设备的硬件结构示意图。

具体实施方式

为了提高图文匹配效率及准确性，本申请的发明人提出利用两分支网络结合三元组损失的策略，计算图片与文本的相关度，并利用困难样本(包括困难样本图片及困难样本文本)来实现网络的快速收敛，学习得到一个嵌入网络，之后，用户可以将待配图文本输入该嵌入网络，得到待配图文本与各图片的相关度，进而筛选出相关度较高的若干图片反馈给用户，以使用户快速完成图文匹配工作。

然而，发明人注意到，这种利用三元组损失函数进行网络学习的过程中，是利用注意力机制，学习图片中区域与文本中的单词之间的相关度，即为文本中的词语寻找一个相关度较大的图像区域(即物体区域)。其中，该注意力机制是从图片和文本两方面考虑进行设计。具体的，在图片方面，可以检测图片中的物体区域，从每个物体区域出发，确定文本中与该物体区域最相关的单词，进而得到该物体区域的语义特征。

同理，在文本方面，可以从每个单词出发，获取图片中与该单词最相关的物体区域，进而得到该单词的视觉特征，之后，累积物体区域视觉与语义特征的相似度，文本的单词语义和单词视觉特征相似度，定义两种不同的图片-文本相似度，再结合三元组损失函数进行嵌入网络训练，提高了训练所得图片匹配模型的输出结果的准确性，进而提高了图文匹配的可靠性及准确性。

进一步地，考虑到利用如图片的物体区域或文本的词语等局部信息，设计注意力机制不充分，影响模型输出结果的准确性，发明人还提出结合文本和图片的全局信息和局部信息进行嵌入网络学习，实现过程与上文描述的过程类似，本申请不再详述。

然而，对于上文提出的各种图文匹配模型的训练过程，都只考虑了图片中物体区域的视觉特征，忽略了物体区域的位置特征，导致图文匹配的错误率较大，如对于一则待发布新闻来说，将得到的候选图片进行排序的结果，往往无法令用户满意，即用户(本文指文本编辑者，如新闻编辑者等)不能直接得到与该新闻相关度较高的图片。

所以，为了进一步改善模型输出结果的准确性，本申请提出在模型训练过程中，引入图片物体区域的位置特征，即结合物体区域的位置特征和视觉特征，来高效且准确表达该物体区域的区域特征，并在设计基于位置的注意力机制期间，可以建立物体区域与文本单词之间的对应关系，同时，还可以结合上文提出的各种模型训练方式的优点，如考虑加入图片与文本的全局信息，但其并不是简单地将局部信息和全局信息融合，可以设计更加高效的机制，充分利用文本和图片的全局信息和局部信息，以增强视觉-语义共享空间的学习。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，为本申请提供的实现图文匹配方法的系统结构示意图，该系统可以包括服务器11、客户端12及数据存储设备13，应该理解，图1所呈现的服务器11、客户端12及数据存储设备13仅是示例性说明，并不会两者的实现形式做限定。

在实际应用中，服务器11与客户端12、服务器12与数据存储设备之间可以是有线或无线网络连接，如GSM、GPRS、WIFI等方式。

服务器11可以是为用户提供服务的服务设备，具体可以是独立的应用服务设备，也可以是由多个服务器构成的服务集群，实际应用中，其可以是云服务器、云主机、虚拟中心等，本申请对该服务器的结构及其实现形式不作限定。

本实施例中，服务器11可以用来实现本申请提供的图文匹配方法，也就是为用户上传的文本信息自动筛选出若干图片，并反馈至用户终端展示，以供用户挑选最合适的图片，生成图文并茂的文章，或者由服务器为用户上传的文本信息自动筛选最合适的图片后，将该图片反馈至终端，由终端使用该图片为文本信息进行配图操作等等，具体实现过程可以参照下文方法实施例相应部分的描述。

其中，服务器是利用预先训练得到的图文匹配预估模型，从候选图片中筛选与待配图文本相关度较高的若干图片，而该图文匹配预估模型可以是服务器在线下训练得到，为了保证可靠完成模型的训练，需要该服务器具有一定的显存空间，如至少2G显存，但并不局限于此，本实施例在此可以使用配置有Tesla显卡的服务器，实现模型训练以及图文匹配处理，本申请对服务器类型及其具体配置不作限定。

客户端12可以是安装在手机、笔记本电脑、iPad、台式计算机等终端上的应用程序，用户可以启动应用程序在线浏览新闻、查询信息等。本申请中，该客户端可以与上述服务器11相匹配，由该服务器11提供客户端功能的服务，以使用户能够在客户端的操作界面中，实现各种功能操作，满足用户需求。应该理解，对于不同类型的客户端，为其提供功能服务的服务器可以不同。

数据存储设备13可以是数据服务器，本实施例中，其可以用来存储有大量图片，以供服务器从中筛选本次配图所需的候选图片，本申请对该数据存储设备13存储的大量图片的来源不作限定。

可选的，在实际应用中，数据存储设备13可以是独立设备，也可以部署在服务器11中，作为服务器11的存储设备使用，这种情况下，该数据存储设备13还可以用来存储服务器11接收到的待配图文本，最终得到的候选图片等，可以根据图文匹配方法的实际处理过程确定，本申请对该数据存储设备13存储的内容及其存储结构不做限定。

在本实施例中，该数据存储设备可以用来存储图片数据集合、文本数据集合，这两个数据集合可以存储在一个数据存储设备中，也可以存储在不同的数据存储设备中。在模型训练阶段，可以从相应的数据集合提取训练样本，本申请对数据集合中的数据来源及其存储方式等不作限定。

结合上图1所示的系统结构示意图，参照图2，为本申请实施例提供了一种图文匹配方法的信令流程示意图，该方法可以包括但并不局限于以下步骤：

步骤S101，客户端获取待配图文本；

本实施例中，待配图文本的内容可以基于客户端类型确定，以新闻客应用为例，待配图文本可以是新闻内容，如待发布的文章，具体可以是该文章的标题、关键词或语句等，能够表明该文章主题思想的信息，这样，用户可以不用输入整篇文章。

可见，随着客户端类型的改变，用户输入的待配图文本内容可以相应调整，本申请对待配图文本的内容不做限定。

步骤S102，客户端将待配图文本发送至服务器；

仍以新闻应用为例，为了减轻新闻编辑者的工作负担，并加快新闻发布速度，本申请不需要新闻编辑者从大量图片中，人工挑选待发布文章的配图，将由服务器为待发布文章自动挑选合适的配图，以使新闻编辑将待发布文章对应的待配图文本上传至服务器，等待服务器反馈有限个图片，再从中快速选择所需配图即可。

步骤S103，服务器从数据存储设备中筛选与待配图文本关联的多个候选图片；

本实施例实际应用中，服务器得知用户需要配图的文本信息，即获取用户上传的待配图文本后，可以先从图库(即存储有大量图片的数据存储设备) 中，粗略筛选一些候选图片，本申请对该图片筛选的实现方法不作限定。

可选的，本申请可以预先对数据存储设备中的大量图片进行分类存储，这样，服务器得到待配图文本后，可以对其进行语义分析，以确定该待配图文本属于什么类型的内容，如娱乐信息、财经信息、体育信息、美食信息等等，之后，可以从数据存储设置中的相应类型的图片中，筛选多个候选图片。

当然，本申请也可以利用图像识别与特征匹配等算法，直接对数据存储设备中的大量图片进行处理，并基于处理结果，筛选与待配图文本相匹配的多个候选图片。本申请对如何从大量图片中，筛选若干个与待配图文本关联的候选图片的实现方法不做限定，并不局限于本文列举的这两种实现方式。

步骤S104，服务器将多个候选图片及待配图文本输入图文匹配模型，得到各候选图片与待配图文本的相关度；

在实际应用中，由于图片和文本来自两个异构的空间，为了直接度量图片与文本的相关度大小，可以将文本与图片映射到一个空间中，将图文匹配问题转换为特征学习问题。

本实施例中，对于图文匹配模型的训练过程，可以提前在线下完成，在模型训练过程中，不仅考虑图像中物体区域和文本句子的单词这些局部信息，同时还考虑到图像和文本句子的整体特征，提高了模型输出结果的可靠性及准确性，具体构思过程可以参照上文相应部分的描述，而关于该图文匹配模型的具体训练过程，可以参照下文实施例相应部分的描述。

应该理解，上述相关度可以指两个事物之间相互关联的百分比，因此，相关度数值越大，可以表示相应候选图片与待配图文本之间的关联程度越高；反之，相关度数值越小，可以表示相应候选图片与待配图文本之间的关联程度越低，本申请对候选图片与待配图文本之间的相关度的具体表示方式不作限定，并不局限于百分比，也可以利用相似度来表示。

可选的，本申请可以将预先训练得到的图文匹配模型包装成接口，客户端可以通过调用该接口，使用该图文匹配模型，对筛选的若干候选图像与待配图文本的相关度进行估计，关于文匹配预估模型的接口的包装方法及接口调用方式本申请不做限定。

步骤S105，服务器获取相关度较大的第一数量个候选图片；

应该理解，用户在为图文匹配时，往往是选择与文本内容相关度较高的图片，所以，本申请在确定多个候选图片各自与待配图文本的相关度后，可以按照相关度大小，选择第一数量个相关度较大的候选图片，供用户挑选，用户不需要再从大量图片中挑选配图图片。其中，第一数量可以是系统默认值，或用户预先设定的数值，或者基于获取的相关度大小确定等等，本申请对其具体数值及其获取方式不作限定，对于不同类型的客户端，该第一数量的数值可以相同也可以不同。

可选的，步骤S105具体可以按照相关度从大到小的顺序，对多个候选图片进行排序，之后，从排序首位开始，选择第一数量个候选图片反馈至用户，或者筛选相关度大于相关阈值的第一数量个候选图片反馈至用户等，本申请对步骤S105的具体实现方法不作限定，并不局限于本文描述的这种排序方式，还可以采用两两比较的方式，筛选出相关度较大的第一数量个候选图片等，本申请在此不再一一详述。

步骤S106，服务器将该第一数量个候选图片反馈至客户端进行展示。

服务器得到与待配图文本相关度较高的第一数量个候选图片后，可以反馈至客户端，并在客户端的图文匹配界面进行展示，此时，用户可以基于待配图文本对应的待发布文章的内容，从展示的第一数量个候选图片中，选择至少一幅图片，放置到待发布文章的合适位置。

可选的，客户端得到第一数量个候选图片后，也可以对待配图文本对应的待发布文章进行自动配图，具体实现过程本实施例不做详述。

综上，本申请可以线下训练好用来估计图片与文本信息相关度的图文匹配预估模型，该图文匹配预估模型能够建立文本与图片之间更加可靠的关联，这样，在需要线上为某文章配图的情况下，可以向服务器上传相应的待配图文本，以使服务器先从图库中筛选与待配图文本关联的多个候选图片，之后，再利用该图文匹配模型，从这多个候选图片中，精确选择与待配图文本相关度较高的第一数量个候选图片，并反馈至客户端进行展示，此时，用户只需要从服务器反馈的有限个与待发布文章相关度较高的候选图片中，选择所需图片即可，不需要从大量图片中进行选择，极大减小了配图工作量，且提高了图文匹配正确率。

参照图3，为本申请实施例提供的图文匹配方法中，图文匹配模型的训练过程，该方法可以应用于服务器，关于对图文匹配模型的应用，可以参照上文实施例的描述，本实施例主要描述模型训练过程，如图3所示，可以包括但并不局限于以下步骤：

步骤S201，获取样本图片，并提取该样本图片中的物体区域；

本实施例中，在模型训练阶段，可以使用给定的匹配的样本图片和样本文本作为训练样本实现，而该样本图片与样本文本的匹配可以由用户确定，但并不局限于此。因此，在训练图文匹配模型过程中，可以获取样本图片-文本对中的样本图片，并对其进行处理。

具体的，本实施例可以采用目标检测算法，提取该样本图片中的物体区域，通常情况下，一张样本图片，可以提取多个物体区域，当然，也存在从样本图片提取一个物体区域的情况，本实施例主要针对提取多个物体区域的情况进行说明，其他情况类似，本实施例不做一一详述。

可选的，目标检测算法可以是Faster RCNN(Region with Convolutional NeuralNetwork，一种卷积神经网络)网络模型，本申请对该Faster RCNN网络模型的组成结构及其工作原理不作详述，当然，关于图片中物体区域的提取，并不局限于这一种实现方式。

在实际应用中，图片中的物体区域用方框表示，方框大小可以基于图片中相应物体大小确定，图片中的物体可以是人、动物、建筑物等区别于背景的对象。

步骤S202，获取样本文本的视觉特征及物体区域的视觉特征；

可选的，本申请可以利用预先训练的残差网络Resnet101，分别实现对整个样本图片及其包含的物体区域的视觉特征的提取，以得到样本图片的全局信息(也可以称为高级特征)和局部信息(也可以称为低级特征)，关于视觉特征的提取过程本申请不做详述，且并不局限于本文给出的这种图像视觉特征提取方式。

其中，上述视觉特征可以包括色彩、纹理、形状、尺寸等多个，因此，本实施例将每个物体区域输入残差网络，得到相应物体区域的视觉特征，若图片中的物体区域数量为n，那么，本实施例将会提取出D维视觉特征，本申请对D的具体数值不做限定，可以依据图片的物体区域的具体图片内容确定。

本实施例中，若第i个物体区域的视觉特征记为v_i，v_i∈R^D，整个样本图片的视觉特征可以表示为：I＝{v₁,v₂,…,v_n}，n、i均为整数，且i不大于D。当然，整个样本文本还可以采用全局信息的表示方式，即对整个样本图片进行视觉特征提取，此时，该样本图片的视觉特征可以表示为：I＝v^h。

可选的，对于样本图片的全局特征，本实施例提出两种不同的定义，即低级特征v^l与高级特征v^h，因此，上述样本图片的视觉特征的全局表示方式还可以为：I＝{v₁,v₂,…,v_n,v^h}。其中，低级视觉特征可以是过滤掉图片中的一部分背景信息，关注图片的主要内容的特征；高级特征可以用来弥补过滤掉的这些背景信息。

基于上述分析，根据实际需要，本申请可以利用样本图片的高级视觉特征，采用全局信息嵌入方式，来优化该样图片与样本文本的相关度的计算结果，具体可以参照下文相应部分的描述。

步骤S203，获取与样本图片对应的样本文本，并利用循环神经网络，获取该样本文本的单词特征及文本特征；

由于文本是由一个或多个单词组成，本实施例对于整个样本文本的语义表达，可以由组成该样本文本的各单词的单词特征表示，对于文本中单词特征的获取方式，本申请不做限定，可以利用循环神经网络得到，在此之前，可以对样本文本进行分词处理，得到该样本文本包含的单词，之后，采用 one-hot编码方式，得到每个单词的one-hot向量表示。

其中，由于one-hot向量中仅有一个特征不为0，其他都是0，特别稀疏，所以，在得到各单词的one-hot向量之后，可以利用一个线性映射层，将one-hot 向量映射为一个稠密向量，即embedding向量(词向量)，本申请对单词的稀疏表达到稠密表达的映射方法不作限定。

经过上述处理，可以由样本文本中的各单词的词向量组成一个序列，之后，将其输入双向神经网络，在此以双向门循环神经网络，即BiGRU (bidirectional GatedRecurrent Unity)网络为例进行说明，关于该BiGRU网络的对输入数据的具体处理过程不做详述。

在将样本文本中的各单词的词向量输入BiGRU网络后，可以由两个方向上的多个GRU单元最后隐藏层的输出编码整个样本文本的语义，具体可以是将两个方向上最后的隐藏层输出的平均数据，作为整个样本文本的特征表示，本实施例可以将其称为文本特征，并将各单词在两个方向上的隐藏层的输出作为相应单词的单词特征。

所以说，本申请中的样本文本可以从全局信息和局部信息两方面来说，具体可以将上文描述的两个方向上最后的隐藏层输出的平均数据，作为全局信息，将各隐藏层的输出作为单词特征即局部信息，其中，样本文本的全局信息即文本特征可以表示为：

其中，h_t ^f和h_t ^b分别表示BiGRU网络中前向和后向GRU最后隐藏层的输出；而对于该样本文本中单词特征可以e_t，t∈[1,T]，T可以表示样本文本包含的单词数量，所以，若用局部特征表达方式来表示样本文本，可以为S＝{e- ₁,e₂,…,e_T}，且，由T个单词组成例的样本文本S可以表示为：S＝{h- ₁,h₂,…,h_T}，h_t∈R^d，d为GRU隐藏层的层数，h_t表示该样本文本的单词特征，即相应时刻隐藏层的输出。

步骤S204，对样本图片进行分块处理，得到多个大小相同的图片块；

本实施例可以将样本图片划分为K×K个相同大小的图片块，并对其进行编码，例如：将样本图片等分为16x16个图片块，每个图片块按照从左到右，从上到下的顺序进行编号：0,1,2,…,255，本实施例可以将该编号记为索引号。

这种情况下，本申请可以将K×K个相同大小的图片块的索引当作位置词表，每个图片块视作位置单词，词表的长度可以为KxK，每个图片块可以表示为[0,KxK-1]之间的一个数字，用来表示该图片块在词表中的位置。

步骤S205，采用位置嵌入方式，利用图片块的索引号，得到图片块的位置向量；

本实施例中，按照上述方式得到各图片块的索引号后，可以构成位置词表，之后，本申请可以将各图片块作为表征物体区域位置的基本单元，直接利用图片块的索引号，来确定物体区域的初始位置特征。可选的，针对每一个物体区域，本申请可以先获取与其重叠面积较大的第一数量(可以记为L) 个候选图片块，再直接利用候选图片块的索引号，获得物体区域的初始位置特征，即物体区域在样本图片中的相对位置，由此得到的物体区域的初始位置特征实际上是由一个L维的向量表达，若将第i个物体区域的初始位置特征记为p_i∈R^L，其每一维记录的可以是一个候选图片块的索引号，具体可以将物体区域的初始位置特征p_i包含的向量元素记为p_ij，即与第i个物体区域重叠面积较大的第j个候选图片块的索引号，p_ij可以是1～K²之间的数值。

比如：L＝15，即为选取排序前15个与该物体区域重叠面积较大的图片块的索引号，并由此得到物体区域的初始位置特征，物体区域的初始位置特征长度为15，即该物体区域的初始位置向量的长度为15。

进一步地，本申请为了区分各图片块的重要性，可以为每个物体区域定义各附加向量a_i∈R^L，其也是一个L维向量，每一维元素可以通过对与相应候选图片块的重叠面积进行归一化处理得到，具体实现方法不做详述。由此得到样本图片中第i个物体区域，与第j个候选图片块的重叠面积的归一化处理结果可以记为a_ij，本申请一将其作为权重，用来估计相应候选图片块对于物体区域的位置的重要程度，或者说是相关度。基于此，对于物体区域的位置表达，可以由上述得到的初始位置特征与该附加向量的乘积表示，但并不局限于此。

在对方案的优化研究过程中发现，直接由候选图片的索引号构成的物体区域的初始位置特征往往是一个比较粗糙的特征，即便增加上述附加向量，往往也无法精准地表征物体区域在整个样本图片的相对位置。所以，本实施例提出与词嵌入(word embedding)类似方式，记为位置嵌入的方式，对上文得到的物体区域的初始位置特征进行优化处理，具体实现过程可以参照以下步骤，但并不局限于本文描述的优化方式。

具体的，与上文获取样本文本的词向量的过程类似，本实施例可以由 one-hot向量来表示各图片块(即各位置单词)在位置词表中的位置，再将图片块的one-hot向量变换为l维度的稠密向量，即图片块的位置向量。

其中，本实施例可以将上述l维的稠密向量可以表示为可以表示二维映射矩阵，x_i为第i个图片块的one-hot向量，i∈[1,K²]，b_i为l 维稠密向量的表示。基于此，对于样本图片中第i个物体区域重叠的第j个候选图片块的位置向量可以表示为b_pij。

步骤S206，计算样本图片中的物体区域与各图片块的重叠面积；

为了估计样本图片中图片块与物体区域的相关度，本申请可以利用物体区域与图片块的重叠面积大小来表示，通常情况下，一个图片块与无图区域的重叠面积越大，其与该物体区域的相关度越大。

且，对于一个物体区域的位置来说，可以利用其与图片块的重叠面积大小确定，所以，本实施例将样本图片等分后，可以计算该样本图片中各物体区域与各图片块的重叠面积，具体计算方法不做限定。

步骤S207，选择重叠面积较大的第一数量个图片块为该物体区域的候选图片块；

在实际应用中，对于一个物体区域来说，并不是样本图片中的所有图片块都与其重叠，为了提高工作效率以及物体区域位置表达的准确性，本实施例可以从K²个图片块中筛选出与物体区域重叠面积较大的图片块，作为该物体区域的候选图片块，如可以先按照计算得到的重叠面积大小，对划分得到的多个大小相同的图片块进行排序，再按照排序顺序，依次选择重叠面积较大的第一数量个图片块。该第一数量可以记为L，其可以是预先设定的数值，也可以是基于预设重叠面积阈值确定，本实施例对此不做限定。

由此可见，对于样本图片中的不同物体区域，确定的相应候选图片块往往不同，实现过程类似，本申请不再一一详述。

步骤S208，利用第一数量个候选图片块的位置向量，得到该物体区域的待定位置特征；

可选的，本实施例可以对筛选出的该物体区域的L个候选图片块的位置向量求和，再乘积相应的权重，即可得到物体区域的位置特征，其相对于上文得到的初始位置特征，能够更加精准地表示该物体区域在整个样本图片中的相对位置。基于此，本申请可以将物体区域的位置特征定义为：

公式(1)中，p_i ^e可以表示第i个物体区域的位置特征，本实施例可以利用样本图片包含的多个物体区域各自的位置特征，构成物体区域的位置向量。而a_ij的获取方式及其表示的含义，可以参照上文相应部分的描述。

作为本申请一可选实施例，可以利用此时得到的物体区域的待定位置特征以及视觉特征，生成该物体区域的视觉-位置联合特征，即直接执行步骤 S211及其后续步骤，训练得到所需的图文匹配模型。

但是，在本申请方案的优化研究过程中，发明人注意到，在确定物体区域相对于整个样本图片的相对位置过程中，若结合图片块的位置特征以及物体区域的视觉特征，能够更加精准地确定该物体区域的位置特征，也就是说，按照步骤S208得到的物体区域的待定位置特征还是不够准确，本申请还可以对其做进一步更新处理，如结合基于位置的注意力机制，对上述物体区域的待定位置特征进行更新，具体实现过程如下。

步骤S209，利用候选图片块的位置向量及相应物体区域的视觉特征，得到各候选图片块对于该物体区域的重要度；

在实际应用中，样本图片中的一个物体区域可能完全覆盖多个图片块，基于重叠面积的权重a_ij可能会将这些完全覆盖的图片块同等对待，为了区分这些完全覆盖的候选图片块的不同重要程度，本实施例考虑利用经过位置嵌入处理后的候选图片块的位置向量，及物体区域的视觉特征，来获取各候选图片块对于该物体区域的重要度。

可选的，本申请可以采用以下公式计算各候选图片块对于相应物体区域的重要度，但并不局限于此：

公式(2)中，f是一个双线性函数，主要用来估算物体区域与候选图片块的初始相关度，tanh是一个反正切函数，可以用来控制初始相关度的值域，以及实现去线性化，具体实现本实施例不做详述。β_ij可以表示第i个物体区域覆盖的第j个候选图片块对于该第i个物体区域的重要度，i∈[1,k]，j∈[1,L]。M ∈R^D×l表示映射矩阵。

步骤S210，利用候选图片块对于该物体区域的重要度，对物体区域的待定位置特征进行更新，得到物体区域的目标位置特征；

本实施例中，步骤S209得到的重要度β_ij可以用来度量候选图片块对于物体区域的重要程度，之后，可以基于位置的注意力机制，利用如下公式(4) 实现对物体区域的待地位置特征的更新，也就是说，本申请可以利用公式(4) 描述的计算方法，得到物体区域的目标位置特征P_i ^e，但并不局限于这种实现方法。：

其中，

公式(4)与上文公式(1)相比，等号右边的权重系数不同，公式(1) 直接由物体区域与候选图片块的重叠面积的归一化处理结果作为权重系数，而公式(4)中则是利用公式(5)的计算方式，基于该归一化处理结果与步骤S209得到的重要度计算得到权重系数，基于公式(5)的内容可以认为公式 (4)中的权重系统可以是步骤S209得到的重要度的归一化结果。

步骤S211，对物体区域的目标位置特征与视觉特征进行拼接，得到该物体区域的视觉-位置联合特征；

可见，本实施例对物体区域的特征表达，不仅考虑了该物体区域的视觉特征，同时也可以考虑了该物体区域的目标位置特征，且结合上文对该目标位置特征的获取过程的描述，为了提高物体区域位置表达的精准度，将结合候选图片块与物体区域的相关度获得目标位置特征，由此提高了物体区域的特征表达，即视觉-位置联合特征的精准度。

需要说明，在本申请实际应用中，也可以直接利用物体区域的初始位置特征或待定位置特征，与视觉特征拼接，得到该物体区域的视觉-位置联合特征，并不局限于本实施例的目标位置特征。且拼接得到物体区域的视觉-位置联合特征之后的处理过程类似，本申请不再一一详述，主要以本实施例这种最优方式进行描述。

步骤S212，对视觉-位置联合特征进行编码，得到视觉编码向量；

其中，本实施例得到的物体区域的视觉-位置联合特征v_i ^p可以表示为： v_i ^p＝[v_i,p_i ^e］∈R^D+l，之后，可以利用深度学习网络对视觉-位置联合特征进行编码，得到视觉编码向量v_i ^e，

步骤S213，利用物体区域的视觉编码向量及样本文本的单词特征，得到样本文本的视觉向量；

本实施例中，针对样本文本中的单词，可以利用物体区域的视觉-位置联合特征v_i ^p的权重，来决定该单词与该物体区域的相关度，该权重的具体计算公式如下：

其中，a_it表示该单词对于该物体区域的权重，[.]₊＝max(.，0)是一个取正操作。因此，本实施例可以按照公式(6)，计算得到文本中各单词对于各物体区域的权重。

进一步地，本实施例中，可以利用得到的单词对于物体区域的权重，以及物体区域的视觉编码向量，来确定文本基于单词的视觉向量，具体可以采用以下方式计算视觉向量，但并不局限于这一种计算方法：

其中，λ∈R是一个超参数，即进行模型训练之前设置的数值，本申请对该数值不做限定。

步骤S214，利用样本文本的单词特征及视觉向量，获取单词与物体区域的相关度，以及样本文本与样本图片的相关度；

可选的，本实施例可以按照以下公式(9)，定义单词与物体区域的相关度r(h_t,v'_t)：

之后，可以采用均值计算方式，即对得到的各单词与各物体区域的相关度进行均值计算，由得到的平均相关度来估计样本文本与样本图片的相关度，均值计算公式可以为：

基于上述分析，本申请可以基于视觉-文本注意力机制，定义图像-文本之间的相关度(也可以称为相似度)，针对物体区域可以类似地定义其语义向量，并根据上述公式(9)计算得到每个物体区域与样本文本的相似度，通过上述公式(10)计算得到单词与样本文本之间的相关度，具体实现过程本申请不再详述。

步骤S215，利用样本文本的文本特征及样本图片的视觉特征，更新样本文本与样本图片的相关度，并确定图文相关度计算函数；

为了提高图文匹配结果的可靠性，在获取图文匹配模型过程中，进行了全局-局部联合嵌入学习，即不仅考虑了图片中物体区域与文本单词这些局部信息，同时考虑了图片与文本这些全局特征，样本文本和样本图片各自的局全局信息的获取过程，可以参照上文相应部分的描述。

基于此，本申请可以利用样本图片和样本文本的全局信息，来更新上述公式(10)即图文相关度计算函数，具体可以利用上文得到的样本图片的视觉特征(即高级视觉特征v^h)，及样本文本的文本特征e，从全局角度考虑，计算得到整个样本文本与样本图片的相关度，利用该相关度对图文相关度计算函数进行优化，可以得到如下公式：

其中，δ’表示更新后的样本图片与样本文本的相关度，δ(I,S)表示更新前样本图片与样本文本的相关度，可以表示从全局来看，整个样本文本与样本图片的相关度，ρ可以表示δ(I,S)在最终得到的样本文本和样本图片的相关度中所占的权重，本申请对其具体数值不做限定，可以根据实际情况进行调整。

步骤S216，利用该图文相关度计算函数，获取困难样本图片与样本文本的相关度、及样本图片与困难样本文本的相关度；

本申请可以利用三元组损失函数进行网络训练，以得到图文匹配模型，因此，考虑到困难样本可以使得网络快速收敛，并学习得到一个更加可靠的嵌入网络，所以，在模型训练过程中，本实施例可以利用目前本领域使用的采样策略，将困难样本图片定义为本批次中除该图片I-文本S对中的图片I之外的，与文本S最相关的其他图片如采用如下公式得到困难样本图片

相应地，可以将困难文本定义为除该图片I-文本S对中的文本S之外的，与图片I最相关的其他文本其可以表示为：

其中，C可以表示本批次所有数据集，可以利用上述公式(11)表示的图文相关度计算函数，计算得到困难样本图片与样本文本的相关度、及样本图片与困难样本文本的相关度，具体计算过程可以参照上文更新后的样本图片与样本文本的相关度的计算过程，本实施例不作详述。

步骤S217，利用三元组损失函数，对更新后的样本文本与样本图片的相关度、困难样本图片与样本文本的相关度、困难样本文本与样本图片的相关度进行网络训练，得到图文匹配模型。

其中，三元组损失函数可以为：

需要说明，本申请对如何利用三元组损失函数实现深度学习网络的训练过程不做详述，且对该深度学习网络的类型不限定，如神经网络等，本申请可以基于三元组损失函数得到的结果，对训练得到的图文匹配模型的优化，提高图文匹配模型输出结果的准确性。

另外，关于本实施例描述的图文匹配模型的训练过程，所涉及到的计算公式/函数，并不局限于上文列举的内容，可以根据实际情况进行灵活调整，但本申请训练该图文匹配模型的核心思想不变。

比如，在提取图像的特征(视觉特征、位置特征)过程中，可以采用上文描述的方式，利用网络模型提取图片的特征，也可以利用卷积网络提取图片中各物体区域的视觉特征；文本处理方面，除了采用GRU结构的神经网络，也可以采用LSTM结构的神经网络，或者，基于词向量的方式，获取文本的特征表示及其包含的单词的特征表示等等，具体实现过程本申请不再一一详述。

结合上文实施例描述的图文匹配方法，为了更加清楚说明该方法相对于现有技术的独特性及优势，下面将结合具体应用场景为例进行说明，具体以新闻编辑场景为例进行说明。

参照图4所示的图文匹配方法的流程示意图，从图库中获取与待配图文本关联的至少一个候选图片后，可以利用预先训练得到的图文匹配模型，获取各候选图片与待配图文本的相关度，对于各候选图片来说，相关度计算过程相同，本申请在此仅以一副候选图片为例进行说明。

如图4所示，可以将该候选图片划分成KxK个大小相同的图片块，并对其进行数字编码，得到各图片块的索引号，由该索引号表示各图片块的位置。同时，还可以识别该候选图片中的物体区域，如图4中的粗线方框表示的区域，并利用预训练的残差网络Resnet，提取该物体区域包含的视觉特征，即得到该物体区域的区域特征(如图4中的RegionFeature)。

与此同时，还可以采用位置嵌入(如图4中的Position Embedding)的方式，获取该物体区域重叠的图片块的位置特征，进而由此得到该物体区域的位置特征(PositionFeature)，其中，在获取物体区域的位置特征过程中，本实施例采用了基于位置的注意力机制(即Position Attention)，结合物体区域的视觉特征及覆盖的图片块的位置特征实现，具体实现过程可以参照上文模型训练过程相应部分的处理。

之后，可以将得到该物体区域的视觉特征与位置特征进行拼接，得到物体区域的视觉-位置联合特征，将其输入网络FC的视觉嵌入部分，可以得到该物体区域的视觉编码向量。

对于待配图文本，参照图4，可以对其进行分词处理，得到其包含的单词后，对每个单词进行one-hot编码，得到由0和1组成的one-hot向量，再利用线性映射层将其映射为稠密向量(即图4中的Word Embedding)，之后，将其输入BiGUR网络模型，得到该文本基于单词的特征表示，

按照上述方式对候选图片及待配图文本进行处理后，针对每一幅候选图片，可以利用各物体区域的视觉编码向量及文本的单词特征，采用视觉-文本注意力机制，得到待配图文本中的各单词与各候选图片的物体区域的相关度，各单词与整个候选图片的相关度，进而得到待配图文本与整个候选图片的相关度，还可以进一步利用三元组损失度量方式，得到本次筛选出的候选图片的损失。

需要说明，关于上文描述的对各候选图片及待配图文本(如待发布新闻的标题)的处理过程，实际上可以是预先训练得到的图文匹配模型，对候选图片及待配图文本的处理过程，该图文匹配模型可以线下预先训练好，当需要为待发布的新闻进行配图时，可以直接调用相应的接口，获取该图文匹配模型对应的程序，实现对用户上传的待配图文本与初步筛选得到的候选图片的相关度计算，之后，可以按照相关度大小进行排序，选择相关度较大的若干候选图片反馈至新闻编辑者，供新闻编辑者使用。

如图5所示的场景示意图，用户可以在客户端输入“首枚民营运载火箭未能入轨，你应该知道的更多”这一文章题目，希望查询相关信息，服务器获取该信息后，可以从图库中选择与其查询内容关联的多个候选图片，将这多个候选图片以及文章题目，输入训练好的图文匹配模型，得到这多个候选图片各自与该文章题目的相关度大小，并据此对多个候选图片进行排序，选择相关度较大的若干图片，如3或5副相关度较大的候选图片，并将其反馈至客户端，供用户挑选，作为具有该文章题目的文章内容的插图。

可选的，对于实现上述图文匹配方法的服务器，可以选用配置有Tesla显卡的服务器，但并不局限于此，且对于样本数据所在的数据集，可以是本领域权威公开的Flickr30k和MS-COCO数据集，以及本企业收集新闻数据得到的数据集等。

其中，Flickr30k数据集可以包括31000张图片，每张图片可以具有5个对应的文本描述，本申请可以选择其中的1000张图片作为验证集，1000张图片作为测试集，剩余的图片作为训练集。而MS-COCO数据集可以提供123287 张图片，每张图片也可以具有5个文本描述，并选择113287张图片作为训练数据，构成训练集，5000张图片构成验证集，5000张图片构成测试集。需要说明，关于本文列举的上述数据集中包含的图片数据，以及构成的验证集、测试集和训练集包含的图片数量，并不局限于本文列举的数量，本申请仅以此为例进行示例说明。

参照表1所示的本申请提出的图文匹配模型(如表1中的PFAN)与现有其他模型，应用于Flickr30k数据集的图文匹配结果的比较，如表1所示，从文本检索图片的实验中可以得知，本申请的图文匹配模型在前1、5和10的召回率上，可以分别达到54.1，80.7，87.7，其性能比现有最好的模型SCAN 还要优。

表1

参照表2，本申请还可以将本申请图文匹配模型与现有多个模型，在MS-COCO数据集上进行实验，并记录试验结果，以体现本申请图文匹配方法的高效性，如表2所示。

表2

同理，还可以对企业自身的数据集进行实验，如在本企业的新闻平台爬取143317个图片-新闻标题文本，将其中的1000个构成验证集，人工标注510 个测试数据，用来进行性能评论，由此所得到的测试性能如表3所示。

表3

在这种情况下，考虑到计算召回率标注工作量较大，在企业的新闻数据集中，可以采用平均准确率MAP和准确率A作为评价比准则。其中，正确率可以定义为：正确样本在检索到的结果中所占的百分比，深度为M的平均准确率可以定义为：

其中，rel_j可以表示检索到的第j张图片是否与新闻标题相关，若相关可以置为1；反之，置为0。并且，本申请可以将AP@M在所有测试样本上的平均值作为MAP@M，即深度为M的平均精度。

从上从表3的性能测试结果可以得知，本申请提出的图文匹配方法在企业新闻数据集上的表现优于目前最好的方法SCAN，且本申请的MAP@1 (AP@1)甚至比SCAN高将近10个百分点。

综合表1-表3所示的实验结果可知，本申请的图文匹配方法不仅仅在公开数据集上取得了较好的性能，在实际的企业新闻数据集上也要优于目前最好的方法，展示了本申请图文匹配方法的优越性。

参照图6，为本申请实施例提供的一种图文匹配装置的结构示意图，该装置可以包括：

第一获取模块21，用于获取客户端发送的待配图文本；

候选图片筛选模块22，用于筛选与所述待配图文本关联的多个候选图片；

模型处理模块23，用于将所述多个候选图片及所述待配图文本输入图文匹配模型，得到相应候选图片与所述待配图文本的相关度；

其中，所述图文匹配模型是依据注意力机制及三元组损失函数，利用样本图片中物体区域的视觉特征和位置特征，以及样本文件的单词特征和/或文本特征，进行深度学习网络训练得到的；

数据传输模块24，用于将相关度较大的第一数量个候选图片反馈至所述客户端进行展示。

可选的，在上述实施例的基础上，为了实现模型训练，如图7所示，该装置还可以包括：

第二获取模块25，用于获取样本图片及样本文本；

第一特征获取模块26，用于利用循环神经网络，获取所述样本文本的单词特征；

第二特征获取模块27，用于确定所述样本图片中的物体区域，并获取所述物体区域的视觉特征及位置特征；

其中，如图8所示，第二特征获取模块27可以包括：

分块单元271，用于将所述样本图片划分成多个大小相同的图片块，并为所述多个大小相同的图片块分配索引号；

块位置获取单元272，用于采用位置嵌入方式，利用各图片块的索引号，得到图片块的位置向量；

第一计算单元273，用于计算各物体区域与所述图片块的重叠面积；

第一选择单元274，用于选择重叠面积较大的第一数量个图片块为相应物体区域的候选图片块；

区域位置特征获取单元275，用于利用候选图片块的位置向量，得到相应物体区域的位置特征。

第二计算单元276，用于利用候选图片块的位置向量及相应物体区域的视觉特征，得到该物体区域的候选图片块对于该物体区域的重要度；

区域位置特征更新单元277，用于基于注意力机制，利用所述候选图片块对于该物体区域的重要度，对所述物体区域的位置特征进行更新，得到所述物体区域的目标位置特征。

第一计算模块28，用于依据所述物体区域的位置特征、所述视觉特征及所述样本文本的单词特征，计算相应单词与所述物体区域的相关度；

可选的，该第一计算模块28可以包括：

拼接单元，用于对所述物体区域的位置特征和视觉特征进行拼接，得到所述物体区域的视觉-位置联合特征；

编码单元，用于对所述视觉-位置联合特征进行编码处理，得到所述物体区域的视觉编码向量；

第三计算单元，用于利用所述物体区域的视觉编码向量及所述样本文本的单词特征，得到所述样本文本的视觉向量；

第四计算单元，用于利用所述样本文本的单词特征及所述视觉向量，获取所述样本文本中的单词与所述物体区域的相关度；

其中，所述样本文本的单词特征是循环神经网络中不同隐藏层的输出

第二计算模块29，用于利用所述样本文本的各单词与各物体区域的相关度，得到所述样本文本与所述样本图片的相关度；

模型训练模块210，用于基于三元组损失函数，对所述样本文本与所述样本图片的相关度、困难样本图片与所述样本文本的相关度、困难样本文本与所述样本图片的相关度进行网络训练，得到图文匹配模型；

其中，所述困难样本图片是所述样本图片所在图片数据集中，除所述样本图片外，与所述样本文本相关度最高的图片；所述困难样本文本是所述样本文本所在文本数据集中，除所述样本文本外，与所述样本图片相关度最高的文本。

可选的，如图9所示，该装置还可以包括：

第三获取模块211，用于获取所述样本图片的视觉特征；

第四获取模块212，用于利用循环神经网络，获取所述样本文本的文本特征；

其中，第四获取模块包括：

网络输出数据获取单元，用于将所述样本文本包含的各单词输入循环神经网络，获取所述循环神经网络的不同方向上的最后隐藏层的输出数据；

文本特征确定单元，用于将获取的两个所述输出数据的平均数据作为所述样本文本的文本特征。

第二计算模块213，用于利用所述样本文本的文本特征及所述样本图片的视觉特征，更新所述样本文本与所述样本图片的相关度，并确定图文相关度计算函数；

第三计算模块214，用于利用所述图文相关度计算函数，获取所述困难样本图片与所述样本文本的相关度，以及所述困难样本文本与所述样本图片的相关度。

本申请实施例还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器加载并执行，实现上述的图文匹配方法的各步骤。

参照图10，为本申请实施例还提供一种计算机设备的硬件结构示意图，该计算机设备可以是上述服务器，如图10所示，该计算机设备的硬件结构可以包括：通信接口31、存储器32和处理器33；

在本申请实施例中，通信接口31、存储器32、处理器33可以通过通信总线实现相互间的通信，且该通信接口31、存储器32、处理器33及通信总线的数量可以为至少一个。

可选的，通信接口31可以为通信模块的接口，如GSM模块的接口；

处理器33可能是一个中央处理器CPU，或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器32可能包含高速RAM存储器，也可能还包括非易失性存储器 (non-volatile memory)，例如至少一个磁盘存储器。

其中，存储器32存储有计算机程序，处理器33调用存储器32所存储的计算机程序，以实现上述应用于图文匹配方法的各步骤，具体实现过程可以参照上述方法实施例相应部分的描述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计预设条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的核心思想或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图文匹配方法，其特征在于，所述方法包括：

获取客户端发送的待配图文本；

筛选与所述待配图文本关联的多个候选图片；

将相关度较大的第一数量个候选图片反馈至所述客户端进行展示。

2.根据权利要求1所述的方法，其特征在于，所述图文匹配模型的训练过程包括：

获取样本图片及样本文本；

利用循环神经网络，获取所述样本文本的单词特征；

确定所述样本图片中的物体区域，并获取所述物体区域的视觉特征及位置特征；

依据所述物体区域的位置特征、所述视觉特征及所述样本文本的单词特征，计算相应单词与所述物体区域的相关度；

利用所述样本文本的各单词与各物体区域的相关度，得到所述样本文本与所述样本图片的相关度；

基于三元组损失函数，对所述样本文本与所述样本图片的相关度、困难样本图片与所述样本文本的相关度、困难样本文本与所述样本图片的相关度进行网络训练，得到图文匹配模型；

3.根据权利要求2所述的方法，其特征在于，所述获取所述物体区域的位置特征，包括：

将所述样本图片划分成多个大小相同的图片块，并为所述多个大小相同的图片块分配索引号；

采用位置嵌入方式，利用各图片块的索引号，得到图片块的位置向量；

计算各物体区域与所述图片块的重叠面积，并选择重叠面积较大的第一数量个图片块为相应物体区域的候选图片块；

利用候选图片块的位置向量，得到相应物体区域的位置特征。

4.根据权利要求3所述的方法，其特征在于，所述获取所述物体区域的位置特征，还包括：

利用候选图片块的位置向量及相应物体区域的视觉特征，得到该物体区域的候选图片块对于该物体区域的重要度；

基于注意力机制，利用所述候选图片块对于该物体区域的重要度，对所述物体区域的位置特征进行更新，得到所述物体区域的目标位置特征。

5.根据权利要求2～4任一项所述的方法，其特征在于，所述依据所述物体区域的位置特征、所述视觉特征及所述样本文本的单词特征，计算相应单词与所述物体区域的相关度，包括：

对所述物体区域的位置特征和视觉特征进行拼接，得到所述物体区域的视觉-位置联合特征；

对所述视觉-位置联合特征进行编码处理，得到所述物体区域的视觉编码向量；

利用所述物体区域的视觉编码向量及所述样本文本的单词特征，得到所述样本文本的视觉向量；

利用所述样本文本的单词特征及所述视觉向量，获取所述样本文本中的单词与所述物体区域的相关度；

其中，所述样本文本的单词特征是循环神经网络中不同隐藏层的输出。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述样本图片的视觉特征；

利用循环神经网络，获取所述样本文本的文本特征；

利用所述样本文本的文本特征及所述样本图片的视觉特征，更新所述样本文本与所述样本图片的相关度，并确定图文相关度计算函数；

利用所述图文相关度计算函数，获取所述困难样本图片与所述样本文本的相关度，以及所述困难样本文本与所述样本图片的相关度。

7.根据权利要求6所述的方法，其特征在于，所述利用循环神经网络，获取所述样本文本的文本特征，包括：

将所述样本文本包含的各单词输入循环神经网络，获取所述循环神经网络的不同方向上的最后隐藏层的输出数据；

将获取的两个所述输出数据的平均数据作为所述样本文本的文本特征。

8.一种图文匹配装置，其特征在于，所述装置包括：

第一获取模块，用于获取客户端发送的待配图文本；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取样本图片及样本文本；

第一特征获取模块，用于利用循环神经网络，获取所述样本文本的单词特征；

第二特征获取模块，用于确定所述样本图片中的物体区域，并获取所述物体区域的视觉特征及位置特征；

第一计算模块，用于依据所述物体区域的位置特征、所述视觉特征及所述样本文本的单词特征，计算相应单词与所述物体区域的相关度；

第二计算模块，用于利用所述样本文本的各单词与各物体区域的相关度，得到所述样本文本与所述样本图片的相关度；

模型训练模块，用于基于三元组损失函数，对所述样本文本与所述样本图片的相关度、困难样本图片与所述样本文本的相关度、困难样本文本与所述样本图片的相关度进行网络训练，得到图文匹配模型；

10.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器加载并执行，实现如权利要求1～7任一项所述的图文匹配方法的各步骤。