CN112749291A

CN112749291A - 一种图文匹配的方法和装置

Info

Publication number: CN112749291A
Application number: CN202010863244.8A
Authority: CN
Inventors: 杨皓
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2021-05-04

Abstract

本申请属于数据处理技术领域，主要涉及人工智能中的图像语义理解技术，公开了一种图文匹配的方法和装置，本申请公开的一种图文匹配的方法包括，获取待配图文本的标签信息，基于待配图文本和标签信息，获得目标文本特征向量，并获取各图像对应的图像特征向量，以及根据各图像特征向量与目标文本特征向量之间的相关度，为待配图文本筛选出匹配图像，这样，基于标签信息，将文本信息集中化，提高了图文匹配的正确率。

Description

一种图文匹配的方法和装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种图文匹配的方法和装置。

背景技术

随着信息技术的快速发展以及网络的全球化，用户对多媒体的需求越来越高。例如，用户在新闻平台阅读新闻，更希望阅读图文并茂的新闻，而不仅仅是纯文本的新闻；或者用户在互动问答平台搜索问题时，更愿意选择具有配图的问答查看。因此，为了提高阅读量，更好地为用户服务，这些应用平台在发布文本信息时，通常会为其配置图片，这使得图文匹配成为技术人员重要研究方向之一。

在图文匹配任务中，图片与文本的相关度通常是核心工作，现有技术中，通常将图片和文本转化至同一维度空间，以确定图片和文本之间的相关度，并根据两者的相关度，确定文本的匹配图片。

但是，由于图片和文本为不同模态的数据，因此，确定出的匹配图片通常与文本之间的相关性较差，图文匹配的正确率较低，不利于配图文本的推广。

发明内容

本申请实施例提供一种图文匹配的方法和装置，用以在进行图文匹配时，提高图文匹配的正确率。

一方面，提供一种图文匹配的方法，包括：

获取待配图文本的标签信息；

对待配图文本和标签信息进行特征提取，获得目标文本特征向量；

分别获得候选图像集合中的各图像对应的图像特征向量；

分别获得每一图像对应的图像特征向量和目标文本特征向量之间的相关度；

根据各图像对应的相关度，从各图像中为待配图文本筛选出至少一个匹配图像。

一方面，提供一种图文匹配的装置，包括：

获取单元，用于获取待配图文本的标签信息；

提取单元，用于对待配图文本和标签信息进行特征提取，获得目标文本特征向量；

获得单元，用于分别获得候选图像集合中的各图像对应的图像特征向量；

匹配单元，用于分别获得每一图像对应的图像特征向量和目标文本特征向量之间的相关度；

筛选单元，用于根据各图像对应的相关度，从各图像中为待配图文本筛选出至少一个匹配图像。

较佳的，获得单元用于：

基于图像特征网络，分别获得候选图像集合中的各图像对应的图像特征向量，图像特征网络包括图像特征提取模块和图像全连接模块，其中：

采用图像特征提取模块，分别提取每一图像集合中包含的每一图像对应的初始图像特征向量，图像特征提取模块是基于深度学习网络构建的；

采用图像全连接模块，分别对每一图像对应的初始图像特征向量进行全连接处理，获得图像特征向量。

较佳的，提取单元用于：

基于第一文本特征网络，对待配图文本和标签信息进行特征提取，获得目标文本特征向量，第一文本特征网络包括第一文本特征提取模块、第一拼接模块和第一全连接模块，其中：

将待配图文本和标签信息，输入至第一文本特征提取模块，获得第一文本特征提取模块输出的待配图文本对应的第一文本特征向量，以及标签信息对应的第二文本特征向量，第一文本特征提取模块是基于注意力机制或门循环单元构建的；

采用第一拼接模块，将第一文本特征向量和第二文本特征向量进行拼接，生成第三文本特征向量；

采用第一全连接模块，对第三文本特征向量进行全连接处理，获得目标文本特征向量。

较佳的，提取单元用于：

基于第二文本特征网络，对待配图文本和标签信息进行特征提取，获得目标文本特征向量，第二文本特征网络包括第二拼接模块和第二文本特征提取模块，其中，：

采用第二拼接模块，将待配图文本和标签信息进行拼接，生成目标文本信息；

采用第二文本特征提取模块，对目标文本信息进行特征提取，获得目标文本特征向量；第二文本特征提取模块是根据双向编解码技术获得的。

较佳的，匹配单元用于：

基于第一相似度确定网络，分别获得每一图像对应的图像特征向量和目标文本特征向量之间的相关度，其中：

分别将各个图像特征向量和目标文本特征向量输入相似度确定网络，并将相似度确定模块输出的目标文本特征向量分别与每一图像特征向量之间的相似度，确定为每一图像对应的图像特征向量和目标文本特征向量之间的相关度。

较佳的，匹配单元用于：

基于第二相关度确定网络，分别获得每一图像对应的图像特征向量和目标文本特征向量之间的相关度，第二相关度确定网络包括相关度合并模块、相关度全连接模块和二分类模块，其中：

采用相关度合并模块，分别将每一图像对应的图像特征向量和目标文本特征向量进行合并处理，获得相应的合并向量，相关度合并模块是基于注意力机制获得的；

采用相关度全连接模块，分别对每一合并向量进行全连接处理，获得相应的全连接向量；

采用二分类模块，分别对每一全连接向量进行二分类处理，获得相应的上下文概率，并根据每一图像对应的上下文概率，确定相应的图像特征向量和目标文本特征向量之间的相关度。

较佳的，获取单元还用于：

采用以下步骤训练第一相似度确定网络、图像特征网络以及第一文本特征网络，或者，第一相似度确定网络、图像特征网络以及第二文本特征网络，构成的图文匹配模型：

获取多个样本组合，其中，每一个样本组合包括正确文本样本和相应标签信息，错误文本样本和相应标签信息，正确图像样本，以及错误图像样本；

采用图文匹配模型，分别确定每一样本组合对应的第一相关度、第二相关度和第三相关度；

采用损失函数和预设调整参数，以及每一样本组合对应的第一相关度、第二相关度和第三相关度，确定损失；

若获取的重复训练次数低于预设训练次数，则根据损失，对图文匹配模型的参数进行调整，否则，根据损失，对图文匹配模型中除图像特征提取模块的参数之外的参数进行调整；

其中，第一相关度为正确文本样本和正确图像样本之间的相关度，第二相关度为正确文本样本和错误图像样本之间的相关度，第三相关度为错误文本样本和正确图像样本之间的相关度。

较佳的，获取单元还用于：

采用以下步骤训练第二相似度确定网络、图像特征网络以及第一文本特征网络，或者，第二相似度确定网络、图像特征网络以及第二文本特征网络，构成的图文匹配模型：

一方面，提供一种控制设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时执行上述任一种图文匹配的方法的步骤。

一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种图文匹配的方法的步骤。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种图文匹配的各种可选实现方式中提供的方法。

本申请实施例提供的一种图文匹配的方法和装置中，获取待配图文本的标签信息，基于待配图文本和标签信息，获得目标文本特征向量，并获取各图像对应的图像特征向量，以及根据各图像特征向量与目标文本特征向量之间的相关度，为待配图文本筛选出匹配图像，这样，基于标签信息，将文本的信息集中化，提高了图文匹配的正确率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施方式中一种图文匹配的系统架构示意图；

图2为本申请实施方式中一种图文匹配的方法的实施流程图；

图3为本申请实施方式中一种图文匹配模型的结构示意图一；

图4为本申请实施方式中一种图文匹配模型的结构示意图二；

图5为本申请实施方式中一种图文匹配模型的结构示意图三；

图6为本申请实施方式中一种图文匹配模型的训练方法的实施流程图；

图7a为本申请实施方式中一种匹配图像示例图一；

图7b为本申请实施方式中一种匹配图像示例图二；

图7c为本申请实施方式中一种匹配图像示例图三；

图7d为本申请实施方式中一种匹配图像示例图四；

图8为本申请实施方式中一种图文匹配的装置的结构示意图；

图9为本申请实施方式中一种控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。

服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

卷积神经网络(Convolutional Neural Network，CNN)：在机器学习中，是一种前馈神经网络，人工神经元可以响应周围单元。卷积神经网络包括卷积层和池化层。

加速的循环卷积网络(Faster Recurrent Convolutional Neural Network，Faster R-CNN)：与R-CNN功能一致，只是训练更快。

重置门：决定了到底有多少过去的信息需要遗忘，如何将新的输入信息与前面的记忆相结合。

更新门：定义了前面记忆保存到当前时间步的量。

门控递归单元(Gated Recurrent Unit，GRU)：用来编码句子的语义特征。包括重置门和更新门，用于通过门控机制控制输入、记忆等信息在当前时间做出预测，不会随时间而清除以前的信息，它会保留相关的信息并传递到下一个单元，因此它利用全部信息而避免了梯度消失问题。其中，重置门和更新门决定了哪些信息最终能作为门控循环单元的输出。这两个门控机制的特殊之处在于，它们能够保存长期序列中的信息，且不会随时间而清除或因为与预测不相关而移除。

注意力机制：通常指模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对其从而增加部分区域的观察精细度的机制。

学习率：作为监督学习以及深度学习中重要的超参，其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。

词嵌入(Word Embedding)：是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术。

编解码模型(Transformer)：一种基于编解码(encoder-decoder)结构的模型，用于对文本进行编码和解码。

双向编解码模型(Bidirectional Encoder Representations fromTransformers，Bert)：提取文本的语义信息，能够提升文本的语义信息。

图像Bert模型(Image used in Bert，ImageBert)：Bert使用了两个句子来判断是否属于上、下句关系。ImageBert将图像特征作为其中的一个句子，仿照Bert模型框架，判断图片与文本是否相关。

图像数据集(ImageNet)：是一个计算机视觉系统识别项目名称，是目前世界上图像识别最大的数据库。是美国斯坦福的计算机科学家，模拟人类的识别系统建立的。

云存储：是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。

存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量通常相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(Redundant Array of Independent Disk，RAID)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。

数据库(Database)：简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据库管理系统：是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、可扩展标记语言或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如，结构化查询语言(Structured QueryLanguageSQL)、XQuery；或依据性能冲量重点来作分类，例如，最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些数据库管理系统能够跨类别，例如，同时支持多种查询语言。

下面介绍本申请实施例的设计思想。

但是，由于文本和图片为不同模态的数据，且文本的信息过于宽泛，因此，难以确定两者之间的对应关系，文本与确定出的匹配图片之间的相关性通常很差，图文匹配的正确率较低，如果新闻配图时选择的图片与文本之间的相关度较差，则会降低用户的体验和点击率。

显然，传统技术中并没有提供一种可以提高图文匹配的正确率的图文匹配的技术方案，因此，亟待需要一种图文匹配的技术方案，在图文匹配时，提高图文匹配的正确率。

考虑到文本中包含的信息较为宽泛，模型学习的难度较大，因此，可以获取文本的关键词以及文本类别等标签信息，以将标签信息作为桥梁，建立图像和文本之间的关系，并基于深度学习网络，以及注意力机制或门循环单元构建图文匹配模型，以提升图文匹配的正确率。

鉴于以上分析和考虑，本申请实施例中提供了一种图文匹配的方案，该方案中，基于待配图文本和标签信息，获得目标文本特征向量，并获取各图像对应的图像特征向量，以及根据各图像特征向量与目标文本特征向量之间的相关度，为待配图文本筛选出匹配图像，这样，基于标签信息，将文本信息集中化，提高了图文匹配的正确率。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。方法在实际的处理过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

参阅图1所示，为一种图文匹配的系统架构示意图。包括控制设备101以及用户设备102。其中，控制设备101和用户设备102中均可以安装有客户端。

客户端：可以安装于控制设备101和终端设备102，用于向控制设备101发送针对待配图文本的配图请求，以及接收控制设备101基于上述配图请求，返回的匹配图像。本申请实施例中，仅以客户端安装于用户设备102为例进行说明。

例如，待配图文本可以为新闻标题。新闻标题为“今日有暴雨”。新闻客户端将“今日有暴雨”发送至控制设备101。控制设备101将“今日有暴雨”的匹配图像返回至客户端。

控制设备101：可以为终端设备或服务器，用于采用图文匹配模型，基于待配图文本以及标签信息，在候选图像集合中，筛选出待配图文本的匹配图像。

其中，待配图文本的标签信息，可以为客户端发送至控制设备101的，也可以为控制设备101本地存储的，还可以为控制设备101从数据库中获取的。候选图像集合可以存储于云数据库，也可以存储于数据库中，在此不作限制。匹配图像可以为一个也可以为多个，在此不作限制。

其中，图文匹配模型是基于图像特征网络、文本特征网络以及相似度确定网络三部分构成的，其中，文本特征网络可以采用第一文本特征网络或文本特征网络，相似度确定网络可以采用第一相似度确定网络或第二相似度确定网络。文本特征网络是基于注意力机制、门循环单元或双向编解码技术构建的，用于提取文本的特征，图像特征网络是基于深度学习网络和全连接层构建的，用于提取图像的特征，相似度确定网络是基于相似度或上下文关系构建的，用于确定文本和图像之间的相关度。

一种应用场景中，客户端的选图任务中，通过图文匹配模型为新闻标题选择最相关的匹配图像，并将匹配图像作为新闻页面的封面图，以吸引用户的消费。

这样，就可以基于待配图文本的标签信息以及图文匹配模型，为待配图文本筛选出相关度高的匹配图像。

参阅图2所示，为一种图文匹配的方法的实施流程图。该方法的具体流程如下：

步骤200：控制设备获取待配图文本的标签信息。

具体的，控制设备接收客户端发送的针对待配图文本的配图请求，并获取待配图文本的标签信息。

其中，客户端可以为新闻客户端以及浏览器等应用程序。待配图文本可以为新闻内容、新闻标题、关键词或者语句等。标签信息可以为文本的关键词和/或类别等。标签信息可以是从客户端获得的，也可以为控制设备本地存储的，还可以是从数据库中获取的。

本申请实施例中，对待配图文本的内容、标签信息以及客户端的类型不做限定。

步骤201：控制设备对待配图文本和标签信息进行特征提取，获得目标文本特征向量。

具体的，控制设备采用文本特征网络，对待配图文本和标签信息进行特征提取，获得目标文本特征向量。

执行步骤201时，可以采用以下几种方式：

第一种方式为：控制设备基于第一文本特征网络，对待配图文本和标签信息进行特征提取，获得目标文本特征向量。

其中，第一文本特征网络包括第一文本特征提取模块、第一拼接模块和第一全连接模块。

第一文本特征提取模块是基于注意力机制或门循环单元构建。

可选的，第一文本特征提取模块可以是基于注意力机制的Bert模型创建的，还可以是基于GRU以及Word Embedding创建的。Bert模型包括Bert嵌入(Bert Embedding)和多头自我注意力(multi-head self attention)两部分。multi-head self attention是基于注意力机制获得的。

具体的，执行第一种方式时，可以采用以下步骤：

S2011：控制设备将待配图文本和标签信息，输入至第一文本特征提取模块，输出待配图文本对应的第一文本特征向量，以及标签信息对应的第二文本特征向量。

一种实施方式中，控制设备将待配图文本和标签信息，输入至Bert模型，通过Bert模型对待配图文本和标签信息进行multi-head self attention处理，输出待配图文本对应的第一文本特征向量，以及标签信息对应的第二文本特征向量。

一种实施方式中，控制设备采用Word Embedding和GRU，对待配图文本进行处理，获得相应的第一文本特征向量，以及基于Word Embedding对标签信息进行词嵌入处理以及求和处理，获得第二文本特征向量。

这样，就可以采用Bert，或者，Word Embedding和GRU，提取文本特征向量。

S2012：控制设备采用第一拼接模块，将第一文本特征向量和第二文本特征向量进行拼接，生成第三文本特征向量。

具体的，控制设备将第一文本特征向量和第二文本特征向量组合成第三文本特征向量。

S2013：控制设备采用第一全连接模块，对第三文本特征向量进行全连接处理，获得目标文本特征向量。

这样，将第三文本特征向量进行降维处理。

第二种方式为：基于第二文本特征网络，对待配图文本和标签信息进行特征提取，获得目标文本特征向量。

其中，第二文本特征网络包括第二拼接模块和第二文本特征提取模块。第二文本特征提取模块是根据双向编解码技术获得的，即可以是基于Bert Embedding创建的。

具体的，执行上述第二种方式时，可以采用以下步骤：

S2014：控制设备采用第二拼接模块，将待配图文本和标签信息进行拼接，生成目标文本信息。

这样，就可以将不同信息进行组合。

S2015：控制设备采用第二文本特征提取模块，对目标文本信息进行特征提取，获得目标文本特征向量。

一种实施方式中，控制设备采用Bert Embedding对目标文本信息进行处理，获得m个维度为768的目标文本特征向量。

其中，m为正整数，m可以根据实际应用场景进行设置，在此不作限制。

步骤202：控制设备分别获得候选图像集合中的各图像对应的图像特征向量。

具体的，控制设备采用图像特征网络，分别获得候选图像集合中的各图像对应的图像特征向量。

其中，图像特征网络包括图像特征提取模块和图像全连接模块。图像特征提取模块是基于深度学习网络构建的，用于提取图像的特征向量。

可选的，图像特征提取模块可以采用残差网络(resnet)50、resnet32、resnet101、resnet151，有效率网络(efficientNet)、vgg以及Faster R-CNN等模型。

执行步骤202时，可以采用以下步骤：

S2021：控制设备采用图像特征提取模块，分别提取每一图像集合中包含的每一图像对应的初始图像特征向量。

S2022：采用图像全连接模块，分别对每一图像对应的初始图像特征向量进行全连接处理，获得图像特征向量。

一种实施方式中，控制设备将图像输入至resnet50，输出维度为2048的初始图像特征向量，接着，将初始图像特征向量输入至图像全连接模块，输出维度为200的图像特征向量。

一种实施方式中，控制设备将图像输入至Faster R-CNN，输出维度为n个2048的初始图像特征向量，接着，将各初始图像特征向量输入至图像全连接模块，输出维度为n个768的图像特征向量。

其中，n为正整数。

步骤203：控制设备分别获得每一图像对应的图像特征向量和所述目标文本特征向量之间的相关度。

具体的，控制设备采用相关度确定网络，分别获得每一图像对应的图像特征向量和所述目标文本特征向量之间的相关度。

执行步骤203时，可以采用以下两种方式：

第一种方式为：控制设备基于第一相似度确定网络，分别获得每一图像对应的图像特征向量和目标文本特征向量之间的相关度。

具体的，控制设备分别将各个图像特征向量和目标文本特征向量输入相似度确定网络，并将相似度确定模块输出的目标文本特征向量分别与每一图像特征向量之间的相似度，确定为每一图像对应的图像特征向量和目标文本特征向量之间的相关度。

其中，第一相关度确定网络是基于相似度获得的。可选的，相似度可以通过向量之间的夹角余弦值或者向量之间的距离确定。

第二种方式为：控制设备基于第二相关度确定网络，分别获得每一图像对应的图像特征向量和目标文本特征向量之间的相关度。

其中，第二相关度确定网络包括相关度合并模块、相关度全连接模块和二分类模块。

具体的，确定相关度时，可以采用以下步骤：

S2031：控制设备采用相关度合并模块，分别将每一图像对应的图像特征向量和目标文本特征向量进行合并处理，获得相应的合并向量。

其中，相关度合并模块是基于注意力机制获得的，可选的，相关度合并模块可以采用Bert。

一种实施方式中，控制设备将一个图像对应的n个维度为768的图像特征向量和一个待配图文本对应的n个维度为768的目标文本特征向量，输入至bert，获得一个维度为768的合并向量。

S2032：控制设备采用相关度全连接模块，分别对每一合并向量进行全连接处理，获得相应的全连接向量。

一种实施方式中，控制设备对一个合并向量进行全连接处理，获得维度为2的全连接向量。

S2033：控制设备采用二分类模块，分别对每一全连接向量进行二分类处理，获得相应的上下文概率，并根据每一图像对应的上下文概率，确定相应的图像特征向量和目标文本特征向量之间的相关度。

其中，上下文概率表示图像和待配图文本之间为上下文关系的概率。

一种实施方式中，控制设备将上下文概率确定为相应的相关度。

步骤204：控制设备根据各图像对应的相关度，从各图像中为待配图文本筛选出至少一个匹配图像。

具体的，控制设备从各相关度中，筛选出指定数量的最高的相关度，并将筛选出的相关度对应的图像，确定为匹配图像。

一种实施方式中，控制设备将各相关度按照由高到低的顺序进行排序，并将前指定数量的相关度对应的图像，确定为匹配图像。

例如，指定数量为10，实际应用中，指定数量可以根据实际应用场景进行设置，在此不做限制。

进一步地，控制设备从筛选出的各相关度中，筛选出高于预设相关度阈值的相关度，并将筛选出的相关度对应的图像，确定为匹配图像。

实际应用中，预设相关度阈值可以根据实际应用场景进行设置，如，0.9，在此不作限制。

这样，就可以通过图文匹配模型，从候选图像集合中，筛选出待配图文本的匹配图像。

下面对采用图文匹配模型的几种模型结构，对上述实施例进行进一步详细说明。

一种实施方式中，基于图像特征网络、第一文本特征网络以及第一相关度确定网络构成图文匹配模型。参阅图3所示，为一种图文匹配模型的结构示意图一。图3中，图像特征网络包括：resnet50和图像全连接模块。第一文本特征网络包括：Bert、第一拼接模块和第一全连接模块。

步骤301：控制设备将一个图像输入至resnet50，输出维度为2048的初始图像特征向量。

步骤302：控制设备将初始图像特征向量输入至图像全连接模块，输出维度为200的图像特征向量。

步骤303：控制设备将待配图文本和标签信息均输入至bert模型，通过bert模型对待配图文本和标签信息进行multi-head self attention操作。

步骤304：控制设备获得维度为768的第一文本特征向量和维度为768的第二文本特征向量。

步骤305：控制设备将第一文本特征向量和第二文本特征向量，输入至第一拼接模块，获得维度为1536的第三文本特征向量。

步骤306：控制设备将第三文本特征向量输入至第一全连接模块，获得维度为200的目标文本特征向量。

步骤307：控制设备将目标文本特征向量与图像特征向量之间的相似度，确定为相应的相关度，并根据相关度，确定匹配图像。

一种实施方式中，基于图像特征网络、第一文本特征网络以及第一相关度确定网络构成图文匹配模型。参阅图4所示，为一种图文匹配模型的结构示意图二。图4中，图像特征网络包括：resnet50(图像特征提取模块)和图像全连接模块。第一文本特征网络包括：Word Embedding和GRU，第一拼接模块以及第一全连接模块。

步骤401：控制设备将一个图像输入至resnet50，输出维度为2048的初始图像特征向量。

步骤402：控制设备将初始图像特征向量输入至图像全连接模块，输出维度为200的图像特征向量。

步骤403：控制设备将控制设备采用Word Embedding和GRU，对待配图文本进行处理，以及基于Word Embedding对标签信息进行词嵌入处理以及求和处理。

步骤404：控制设备获得维度为256的第一文本特征向量，以及维度为200的第二文本特征向量。

步骤405：控制设备将第一文本特征向量和第二文本特征向量，输入至第一拼接模块，获得维度为456的第三文本特征向量。

步骤406：控制设备将第三文本特征向量输入至第一全连接模块，获得维度为200的目标文本特征向量。

步骤407：控制设备将目标文本特征向量与图像特征向量之间的相似度，确定为相应的相关度，并根据相关度，确定匹配图像。

一种实施方式中，基于图像特征网络、第二文本特征网络以及第二相关度确定网络构成图文匹配模型。参阅图5所示，为一种图文匹配模型的结构示意图三。图5中，图像特征网络包括：Faster R-CNN和图像全连接模块。第二文本特征网络包括：Bert Embedding和第二拼接模块。第二相关度确定网络包括：Bert、相关度全连接模块以及二分类模块。

步骤501：控制设备将图像用输入至Faster R-CNN，输出维度为n个2048的初始图像特征向量。

步骤502：控制设备将各初始图像特征向量输入至图像全连接模块，输出维度为n个768的图像特征向量。

步骤503：控制设备将采用第二拼接模块，将待配图文本和标签信息进行拼接，生成目标文本信息。

步骤504：控制设备采用Bert Embedding对目标文本信息进行处理，获得m个维度为768的目标文本特征向量。

步骤505：控制设备将图像对应的n个维度为768的图像特征向量和待配图文本对应的n个维度为768的目标文本特征向量，输入至bert。

步骤506：控制设备获得一个维度为768的合并向量。

步骤507：控制设备采用相关度全连接模块，对合并向量进行全连接处理，获得维度为2的全连接向量。

步骤508：控制设备采用二分类模块，对全连接向量进行二分类处理，获得相应的上下文概率，并将上下文概率，确定为相应的相关度，以及根据相关度，确定匹配图像。

本申请实施例中，在进行图文匹配之前，先基于深度学习网络搭建图文匹配模型，并采用样本数据对图文匹配模型进行训练，获得训练后的图文匹配模型。

参阅图6所示，为一种图文匹配模型的训练方法的实施流程图。该方法的具体流程如下：

步骤600：控制设备获取多个样本组合。

具体的，每一个样本组合包括正确文本样本和相应标签信息，错误文本样本和相应标签信息，正确图像样本，以及错误图像样本。

可选的，错误图像样本可以为与正确图像样本较为相近的错误的图像，在此不作限制。

步骤601：控制设备采用图文匹配模型，分别确定每一样本组合对应的第一相关度、第二相关度和第三相关度。

具体的，第一相关度为正确文本样本和正确图像样本之间的相关度，第二相关度为正确文本样本和错误图像样本之间的相关度，第三相关度为错误文本样本和正确图像样本之间的相关度。控制设备仅以一个样本组合为例，对确定第一相关度、第二相关度和第三相关度进行具体说明。控制设备分别针对每一个样本组合，执行以下步骤：

S6011：控制设备采用预设的图像特征提取模块，提取样本组合中的正确图像样本的第一初始图像特征向量，以及错误图像样本的第二初始图像特征向量。

在执行S6011之前，控制设备预先采用存储的图像数据集合，对图像特征提取模块进行训练，从而实现对图像特征提取模块的参数的初始化，以采用学习迁移的方式对图文匹配模型进行训练。

S6012：控制设备采用图像全连接模块，分别对第一初始图像特征向量和第二初始图像特征向量进行全连接处理，获得相应的第一图像特征向量和第二图像特征向量。

S6013：控制设备采用文本特征网络，分别对样本组合包含的正确文本样本和相应标签信息，以及错误文本样本和相应标签信息，分别进行特征提取处理，获得相应的第一目标文本特征向量和第二目标文本特征向量。

S6014：控制设备采用相关度确定网络，根据第一目标文本特征向量和第一图像特征向量，确定样本组合对应的第一相关度。

S6015控制设备采用相关度确定网络，根据第一目标文本特征向量和第二图像特征向量，确定样本组合对应的第二相关度。

S6016控制设备采用相关度确定网络，根据第二目标文本特征向量和第一图像特征向量，确定样本组合对应的第三相关度。

其中，确定相关度时，具体步骤可以参见上述步骤203。

步骤602：控制设备分别针对每一个样本组合，执行以下步骤：根据第一相关度、第二相关度和第三相关度，对图文匹配模型的参数进行调整。

具体的，执行步骤602时，可以采用以下步骤：

S6021：控制设备采用损失函数，以及每一样本组合对应的第一相关度、第二相关度和第三相关度，确定损失。

具体的，损失函数可以为三元组损失函数或二分类的交叉熵损失函数。

其中，损失函数可以采用以下公式：

loss＝max(S(I,T’)+m-S(I,T)，0.0)+max(S(I’,T)+m-S(I,T),0.0)；

其中，loss为损失，I为正确图像，T为正确文本，I’为错误图像，T’为错误文本，m预设调整参数，可以根据实际应用场景进行设置，如，0.1，在此不作限制，S(I,T)为第一相关度，S(I’,T)为第二相关度，S(I,T’)为第三相关度。

这样，就可以通过m调整图文匹配模型的准确度。

S6022：控制设备获取采用样本组合对图文匹配模型的重复训练次数。

本申请实施例中，将各样本组合对图文匹配模型进行多轮训练，采用所有的样本组合均对图文匹配模型训练一遍，为一轮训练，重复训练次数表示第几轮训练。

S6023：若获取的重复训练次数低于预设训练次数时，则根据损失，对图文匹配模型的参数进行调整，否则，根据损失，对图文匹配模型中除图像特征提取模块的参数之外的参数进行调整。

其中，预设训练次数为正整数，如，预设训练次数可以为4，实际应用中，可以根据实际应用场景进行设置，在此不再赘述。

这样，在前几轮训练时，对图像特征提取模块中的参数进行调整，在后几轮模型训练时，不再对图像特征提取模块中的参数进行调整，以提高图文匹配效果。

需要说明的是，文本特征网络可以采用第一文本特征网络或第二文本特征网络。第一文本特征网络包括第一文本特征提取模块、第一拼接模块和第一全连接模块。第二文本特征网络包括第二拼接模块和第二文本特征提取模块。

其中，模型训练之前，控制设备预先采用文本数据集合对第一文本特征提取模块或第二文本特征提取模块进行训练，实现对文本特征提取模块的参数进行初始化，以及预先采用存储的图像数据集合，对图像特征提取模块进行训练，实现对图像特征提取模块的参数进行初始化。进而在模型训练过程时，采用样本数据，以及指定的学习率，对第一文本特征提取模块或第二文本特征提取模块，以及图像特征提取模块进行迁移学习(finetune)，以提高图文匹配模型训练的效率。

其中，图像数据集合可以采用ImageNet数据集。文本数据集合可以为包含千万量级的中文标签和中文描述文本的中文语料集合。

由于当学习率设置的过小时，收敛过程将变得十分缓慢。而当学习率设置的过大时，梯度可能会在最小值附近来回震荡，甚至可能无法收敛。为了能够使得梯度下降法有较好的性能，我们需要把学习率的值设定在合适的范围内。学习率决定了参数移动到最优值的速度快慢。如果学习率过大，很可能会越过最优值；反而如果学习率过小，优化的效率可能过低，长时间算法无法收敛，因此，采用较低的学习率(如，0.0002)进行训练。

这样，就可以对图文匹配模型中的第一文本特征提取模块或第二文本特征提取模块，以及图像特征提取模块进行迁移学习，提高了图文匹配模型的训练效率。

参阅表1所示，为一种图文匹配的正确率表格。表1为记录了模型1-模型5的图文匹配的正确率。

表1.

	模型1	模型2	模型3	模型4	模型5
						1	89.6％-94.9％	87.0％-93.4％	86.0％-92.9％	88.2％-94.1％	85.0％-86.8％
2	91.0％-95.9％	89.0％-94.8％	88.1％-94.3％	90.5％-95.7％	88.6％-89.1％
						3	91.9％-96.5％	89.9％-95.3％	88.9％-94.7％	91.3％-96.2％	88.3％-88.9％
4	92.1％-96.8％	89.8％-95.4％	89.1％-94.9％	91.9％-96.5％	86.5％-87.8％
						5	92.3％-96.8％	89.8％-95.5％	89.0％-94.9％	92.0％-96.6％	87.8％-89.5％

模型1、模型2和模型3均为图3所示的图文匹配模型。模型1采用了迁移学习进行了模型训练，且训练时学习率为0.0002，与模型1相比，模型2未采用迁移学习进行训练，模型3训练时采用的学习率为0.002。模型4为图4所示的图文匹配模型。模型5为图5所示的图文匹配模型。第一个百分比表示调整参数m＝0.1的正确率，第二个百分比为m＝0时的正确率。

表1中，模型1的正确率为92.3％，模型2的正确率为89.8％。由模型1和模型2的正确率可知，在模型训练时，若将图像特征提取模块的参数进行固定，则获得的图文匹配模型的图文匹配的正确率会下降。本申请实施例中，通过迁移学习，提高了图文匹配模型的正确率。

表1中，模型1的正确率为92.3％，模型2的正确率为89.8％，模型3的正确率为89.0％。由模型1、模型2和模型3的正确率可知，在模型训练时，若将图像特征提取模块的学习率设置为0.002，则获得的图文匹配模型的图文匹配的正确率会下降。模型3的正确率低于模型2和模型1。本申请实施例中，通过设置较低的学习率，提高了图文匹配模型的正确率。

表1中，模型1的正确率为92.3％，模型4的正确率为92.0％。由模型1和模型4的正确率可知，采用word Embedding和GRU的模型4的正确率低于采用Bert的模型1。也就是说，通过Bert可以提高正确率。

表1中，模型1的正确率为92.3％，模型5的正确率为87.8％。由模型1和模型5的正确率可知，采用Faster R-CNN的模型5的正确率低于采用resnet50的模型1。也就是说，采用resnet50，可以提高正确率。

表2.

参阅表2所示，为一种模型评测表格。本申请提供的图文匹配模型是基于待配图文本的标签信息进行图文匹配的模型，对比模型为传统技术中未采用标签信息的图文匹配模型。

一种评测场景中，将500条新闻对应的新闻标题和新闻标签输入至本申请提供的图文匹配模型，通过图文匹配模型，从候选图像集合(如，中台图库数据集合)中，分别筛选出每一条新闻最相关的前10个匹配图像，并按照相关度由高到低的顺序，将各匹配图像进行排序，获得匹配图像序号。需要说明的是，由于候选图像数量不足10张，或者，相关度高于预设相关度阈值的图像数量不足10，因此，输出的图像数量可能低于10张。进一步地，本申请实施例中国，通过3个人分别判断各新闻与各匹配图像是否匹配。若两个人判断一个新闻与一个匹配图像是匹配的，则确定该匹配图像是正确的。

每一匹配图像序号对应的召回图片数量表示：确定出的各新闻的该匹配图像序号的匹配图像数量。如，假设匹配图像序号为1(即最相关)，则采用本申请图文匹配模型基于500条新闻，确定出419张匹配图像，显然，有多条新闻配图失败。

正确率：针对每一匹配图像序号对应的各匹配图像，匹配结果为正确的匹配图像数量与该匹配图像序号对应的召回图片数量之间的比值。

召回率为：匹配图像序号对应的召回图片数量与新闻总数量之间的比值。

显然，与对比模型相比，本申请的图文匹配模型的图文匹配的正确率明显提高。

参阅图7a所示，为一种匹配图像示例图一，参阅图7b所示，为一种匹配图像示例图二。

一种应用场景中，待配图文本为：和平精英：如果不允许用枪械，那么它将成为玩家必抢的装备！标签信息为：刺激站前广场，武器，燃烧瓶，手雷。

图7a为采用本申请的图文匹配模型确定出的匹配图像，展示的是游戏中的战争场景。图7b为采用传统技术确定出的匹配图像，展示的是真实战场的场景。由于和平精英和玩家是指游戏场景，因此，图7a所示的图片，更加符合待配图文本，显然，本申请的图文匹配模型的配图效果更好。

参阅图7c所示，为一种匹配图像示例图三，参阅图7d所示，为一种匹配图像示例图四。

一种应用场景中，待配图文本为：一款被吹爆的国货，米家电动剃须刀，上手体验。标签信息为：电动剃须刀，国货，松下，飞利浦。

图7c为采用本申请的图文匹配模型确定出的匹配图像，展示的是一种剃须刀。图7d为采用传统技术确定出的匹配图像，展示的是剃须刀以及特定品牌信息。由于图7d中标出了特定品牌信息，而实际应用中，用户不一定想要该品牌，因此，图7c所示的图片，更加符合待配图文本，显然，本申请的图文匹配模型的配图效果更好。

本申请实施例中，基于数据集合对图像特征提取模块进行迁移学习，提高了后续图文匹配模型训练的速率，基于标签信息的注意力机制，可以更好的建立图像和文本之间的关系，解决了待配图文本的信息过于宽泛，难以找到两者之间的对应关系的问题，提高了图文匹配的正确率，再者，通过较低的学习率，以及上述各模型结构，进一步提高了图文匹配的正确率以及图文匹配的实时性。

基于同一发明构思，本申请实施例中还提供了一种图文匹配的装置，由于上述装置及设备解决问题的原理与一种图文匹配的方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图8示，其为本申请实施例提供的一种图文匹配的装置的结构示意图。一种图文匹配的装置包括：

获取单元801，用于获取待配图文本的标签信息；

提取单元802，用于对待配图文本和标签信息进行特征提取，获得目标文本特征向量；

获得单元803，用于分别获得候选图像集合中的各图像对应的图像特征向量；

匹配单元804，用于分别获得每一图像对应的图像特征向量和目标文本特征向量之间的相关度；

筛选单元805，用于根据各图像对应的相关度，从各图像中为待配图文本筛选出至少一个匹配图像。

较佳的，获得单元803用于：

较佳的，提取单元802用于：

较佳的，匹配单元804用于：

较佳的，获取单元801还用于：

图9示出了一种控制设备9000的结构示意图。参阅图9所示，控制设备9000包括：处理器9010、存储器9020、电源9030、显示单元9040、输入单元9050。

处理器9010是控制设备9000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器9020内的软件程序和/或数据，执行控制设备9000的各种功能，从而对控制设备9000进行整体监控。

本申请实施例中，处理器9010调用存储器9020中存储的计算机程序时执行如图2中所示的实施例提供的图文匹配的方法。

可选的，处理器9010可包括一个或多个处理单元；优选的，处理器9010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器9010中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器9020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、各种应用等；存储数据区可存储根据控制设备9000的使用所创建的数据等。此外，存储器9020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

控制设备9000还包括给各个部件供电的电源9030(比如电池)，电源可以通过电源管理系统与处理器9010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

显示单元9040可用于显示由用户输入的信息或提供给用户的信息以及控制设备9000的各种菜单等，本发明实施例中主要用于显示控制设备9000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元9040可以包括显示面板9041。显示面板9041可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。

输入单元9050可用于接收用户输入的数字或字符等信息。输入单元9050可包括触控面板9051以及其他输入设备9052。其中，触控面板9051，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板9051上或在触控面板9051附近的操作)。

具体的，触控面板9051可以检测用户的触摸操作，并检测触摸操作带来的信号，将这些信号转换成触点坐标，发送给处理器9010，并接收处理器9010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板9051。其他输入设备9052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

当然，触控面板9051可覆盖显示面板9041，当触控面板9051检测到在其上或附近的触摸操作后，传送给处理器9010以确定触摸事件的类型，随后处理器9010根据触摸事件的类型在显示面板9041上提供相应的视觉输出。虽然在图9中，触控面板9051与显示面板9041是作为两个独立的部件来实现控制设备9000的输入和输出功能，但是在某些实施例中，可以将触控面板9051与显示面板9041集成而实现控制设备9000的输入和输出功能。

控制设备9000还可包括一个或多个传感器，例如压力传感器、重力加速度传感器、接近光传感器等。当然，根据具体应用中的需要，上述控制设备9000还可以包括摄像头等其它部件，由于这些部件不是本申请实施例中重点使用的部件，因此，在图9中没有示出，且不再详述。

本领域技术人员可以理解，图9仅仅是控制设备的举例，并不构成对控制设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意方法实施例中的图文匹配的方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任意方法实施例中的图文匹配的控制方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台控制设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图文匹配的方法，其特征在于，包括：

获取待配图文本的标签信息；

对所述待配图文本和所述标签信息进行特征提取，获得目标文本特征向量；

分别获得候选图像集合中的各图像对应的图像特征向量；

分别获得每一图像对应的图像特征向量和所述目标文本特征向量之间的相关度；

根据各图像对应的相关度，从各图像中为所述待配图文本筛选出至少一个匹配图像。

2.如权利要求1所述的方法，其特征在于，基于图像特征网络，分别获得候选图像集合中的各图像对应的图像特征向量，所述图像特征网络包括图像特征提取模块和图像全连接模块，其中：

采用所述图像特征提取模块，分别提取每一图像集合中包含的每一图像对应的初始图像特征向量，所述图像特征提取模块是基于深度学习网络构建的；

采用所述图像全连接模块，分别对每一图像对应的初始图像特征向量进行全连接处理，获得图像特征向量。

3.如权利要求2所述的方法，其特征在于，基于第一文本特征网络，对所述待配图文本和所述标签信息进行特征提取，获得目标文本特征向量，所述第一文本特征网络包括第一文本特征提取模块、第一拼接模块和第一全连接模块，其中：

将所述待配图文本和所述标签信息，输入至第一文本特征提取模块，获得所述第一文本特征提取模块输出的所述待配图文本对应的第一文本特征向量，以及所述标签信息对应的第二文本特征向量，所述第一文本特征提取模块是基于注意力机制或门循环单元构建的；

采用所述第一拼接模块，将所述第一文本特征向量和所述第二文本特征向量进行拼接，生成第三文本特征向量；

采用所述第一全连接模块，对所述第三文本特征向量进行全连接处理，获得所述目标文本特征向量。

4.如权利要求2所述的方法，其特征在于，基于第二文本特征网络，对所述待配图文本和所述标签信息进行特征提取，获得目标文本特征向量，所述第二文本特征网络包括第二拼接模块和第二文本特征提取模块，其中：

采用所述第二拼接模块，将所述待配图文本和所述标签信息进行拼接，生成目标文本信息；

采用所述第二文本特征提取模块，对所述目标文本信息进行特征提取，获得目标文本特征向量；所述第二文本特征提取模块是根据双向编解码技术获得的。

5.如权利要求3或4所述的方法，其特征在于，基于第一相似度确定网络，分别获得每一图像对应的图像特征向量和所述目标文本特征向量之间的相关度，其中：

分别将各个图像特征向量和所述目标文本特征向量输入所述相似度确定网络，并将所述相似度确定模块输出的所述目标文本特征向量分别与每一图像特征向量之间的相似度，确定为每一图像对应的图像特征向量和所述目标文本特征向量之间的相关度。

6.如权利要求3或4所述的方法，其特征在于，基于第二相关度确定网络，分别获得每一图像对应的图像特征向量和所述目标文本特征向量之间的相关度，所述第二相关度确定网络包括相关度合并模块、相关度全连接模块和二分类模块，其中：

采用所述相关度合并模块，分别将每一图像对应的图像特征向量和所述目标文本特征向量进行合并处理，获得相应的合并向量，所述相关度合并模块是基于注意力机制获得的；

采用所述相关度全连接模块，分别对每一合并向量进行全连接处理，获得相应的全连接向量；

采用所述二分类模块，分别对每一全连接向量进行二分类处理，获得相应的上下文概率，并根据每一图像对应的上下文概率，确定相应的图像特征向量和所述目标文本特征向量之间的相关度。

7.如权利要求5所述的方法，其特征在于，采用以下步骤训练所述第一相似度确定网络、所述图像特征网络以及第一文本特征网络，或者，所述第一相似度确定网络、所述图像特征网络以及第二文本特征网络，构成的图文匹配模型：

采用所述图文匹配模型，分别确定每一样本组合对应的第一相关度、第二相关度和第三相关度；

若获取的重复训练次数低于预设训练次数，则根据所述损失，对所述图文匹配模型的参数进行调整，否则，根据所述损失，对所述图文匹配模型中除图像特征提取模块的参数之外的参数进行调整；

其中，所述第一相关度为正确文本样本和正确图像样本之间的相关度，所述第二相关度为正确文本样本和错误图像样本之间的相关度，所述第三相关度为错误文本样本和正确图像样本之间的相关度。

8.如权利要求6所述的方法，其特征在于，采用以下步骤训练所述第二相似度确定网络、所述图像特征网络以及第一文本特征网络，或者，所述第二相似度确定网络、所述图像特征网络以及第二文本特征网络，构成的图文匹配模型：

9.一种图文匹配的装置，其特征在于，包括：

获取单元，用于获取待配图文本的标签信息；

提取单元，用于对所述待配图文本和所述标签信息进行特征提取，获得目标文本特征向量；

匹配单元，用于分别获得每一图像对应的图像特征向量和所述目标文本特征向量之间的相关度；

筛选单元，用于根据各图像对应的相关度，从各图像中为所述待配图文本筛选出至少一个匹配图像。

10.如权利要求9所述的装置，其特征在于，所述获得单元用于：

基于图像特征网络，分别获得候选图像集合中的各图像对应的图像特征向量，所述图像特征网络包括图像特征提取模块和图像全连接模块，其中：