CN113516142A

CN113516142A - 文本图像匹配方法、装置、设备及存储介质

Info

Publication number: CN113516142A
Application number: CN202011350029.4A
Authority: CN
Inventors: 郜晨阳; 蔡冠羽; 蒋忻洋; 张均; 宫毅非; 彭湃; 孙星; 郭晓威; 黄小明; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-10-19

Abstract

本申请是关于一种文本图像匹配方法、装置、设备及存储介质，涉及图像处理技术领域。所述方法包括：获取第一文本与第一图像；获取第一文本对应的至少两种尺度的文本特征；将至少两种尺度的文本特征融合，获取第一文本对应的第一多尺度融合特征；获取第一图像对应的至少两种尺度的图像特征；将至少两种尺度的图像特征融合，获取第一图像对应的第二多尺度融合特征；基于第一多尺度融合特征与第二多尺度融合特征，获取第一文本与第一图像的特征相似度；基于特征相似度，确定第一文本与第一图像的匹配关系。上述方案通过自然语言处理与计算机视觉技术，考虑了不同特征尺度之间的文本与图像的特征相似情况，提高了文本与图像之间的匹配准确性。

Description

文本图像匹配方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种文本图像匹配方法、装置、设备及存储介质。

背景技术

图像处理是计算机视觉领域的一个重要研究方向，基于机器学习的方式来构建图像分类模型，并通过图像分类模型进行图像识别，是一种应用广泛的图像识别方法。

在相关技术中，当需要对于用户输入的文本信息找到匹配的图像时，可以基于机器学习的方式来构建图像特征提取模型与文本特征提取模型，其中文本特征提取模型用于提取用户输入的文本对应的文本特征向量，图像特征提取模型用于获取各个候选图像对应的图像特征向量，并根据向量之间的相似度选择图像与文本之间的匹配程度，进而选择与用于输入文本最接近的图像。

在上述技术方案中，开发的图像特征提取模型与文本特征提取模型的文本图像匹配准确性较低。

发明内容

本申请实施例提供了一种文本图像匹配方法、装置、设备及存储介质，可以通过将多种尺度的文本特征融合，以及将多种尺度的图像特征融合，并根据融合后的文本特征与图像特征的特征相似度确定文本与图像的匹配关系，提高了文本图像匹配的准确性，该技术方案如下：

一方面，提供了一种文本图像匹配方法，所述方法包括：

获取第一文本与第一图像；

获取所述第一文本对应的至少两种尺度的文本特征；

将所述至少两种尺度的文本特征融合，获取所述第一文本对应的第一多尺度融合特征；

获取所述第一图像对应的至少两种尺度的图像特征；

将所述至少两种尺度的图像特征融合，获取所述第一图像对应的第二多尺度融合特征；

基于所述第一文本对应的第一多尺度融合特征，以及所述第一图像对应的第二多尺度融合特征，获取所述第一文本与所述第一图像的特征相似度；

基于所述特征相似度，确定所述第一文本与所述第一图像的匹配关系。

又一方面，提供了一种文本图像匹配模型训练方法，所述方法包括：

获取训练样本集，所述训练样本集中包含样本文本，以及与所述样本文本匹配的样本图像；

将所述样本文本输入文本图像匹配模型中的文本特征提取分支，获取所述样本文本对应的至少两种尺度的文本特征；

将所述样本图像输入所述文本图像匹配模型中的图像特征提取分支，获取所述样本图像对应的至少两种尺度的图像特征；

将所述样本文本对应的至少两种尺度的文本特征融合，获取所述样本文本对应的第一多尺度融合特征；

将所述样本图像对应的至少两种尺度的图像特征融合，获取所述样本图像对应的第二多尺度融合特征；

将所述样本文本对应的第一多尺度融合特征与所述样本图像对应的第二多尺度融合特征输入损失函数，获取所述样本文本对应的损失函数值；

基于所述样本文本对应的损失函数值，更新所述文本图像匹配模型。

又一方面，提供了一种文本图像匹配模型训练装置，所述装置包括：

文本图像获取模块，用于获取第一文本与第一图像；

文本特征获取模块，用于获取所述第一文本对应的至少两种尺度的文本特征；

第一特征融合模块，用于将所述第一文本对应的至少两种尺度的文本特征融合，获取所述第一文本对应的第一多尺度融合特征；

图像特征获取模块，用于获取所述第一图像对应的至少两种尺度的图像特征；

第二特征融合模块，用于将所述至少两种尺度的图像特征融合，获取所述第一图像对应的第二多尺度融合特征；

相似度获取模块，用于基于所述第一文本对应的第一多尺度融合特征，以及所述第一图像对应的第二多尺度融合特征，获取所述第一文本与所述第一图像的特征相似度；

匹配关系获取模块，用于基于所述特征相似度，确定所述第一文本与所述第一图像的匹配关系。

在一种可能的实现方式中，所述第一特征融合模块，用于将所述至少两种尺度的文本特征输入文本图像匹配模型中的第一特征融合分支，获取所述第一文本对应的第一多尺度融合特征；

所述第二特征融合模块，用于将所述至少两种尺度的图像特征输入文本图像匹配模型中的第二特征融合分支，获取所述第一图像对应的第二多尺度融合特征。

在一种可能的实现方式中，所述第一特征融合分支为全连接层或深度学习模型；

或者，所述第二特征融合分支为所述全连接处或深度学习模型。

在一种可能的实现方式中，所述图像特征获取模块，用于，

将所述第一图像输入文本图像匹配模型中的图像特征提取分支，获得所述第一图像对应的至少两种尺度的图像特征。

在一种可能的实现方式中，所述至少两种尺度的图像特征包括全局图像特征以及至少一种尺度的局部图像特征；所述图像特征提取分支包括全局特征提取层与至少一个局部特征提取层；所述全局特征提取层包括至少两个特征提取层；所述局部特征提取层包含至少一个特征提取层；所述特征提取层用于提取图像特征；

所述图像特征获取模块，包括：

全局图像特征获取单元，用于基于所述第一图像，以及所述图像特征提取分支中的全局特征提取层，获取所述第一图像对应的全局图像特征；

局部图像特征获取单元，用于基于所述第一图像与所述图像特征提取分支中的至少一个局部特征提取层，获取所述第一图像对应的至少一种尺度的局部图像特征。

在一种可能的实现方式中，所述局部图像特征获取单元，包括：

第一中间特征获取子单元，用于基于所述全局特征提取层中的第一指定数量的特征提取层，对所述第一图像进行特征提取，获取所述第一图像对应的第一层中间图像特征；

中间局部特征获取子单元，用于将所述第一层中间图像特征进行分割，获得所述第一层中间图像特征对应的至少两个中间局部特征；

局部特征拼接子单元，用于将所述第一层中间图像特征对应的至少两个中间局部特征拼接，获得所述第一层中间融合特征；所述第一层中间融合特征是与所述第一层中间图像特征不同的图像特征；所述第一层中间融合特征与所述第一层中间图像特征的尺寸相同；

局部特征获取子单元，用于基于所述第一层中间融合特征，以及所述图像特征提取分支中的至少一个局部特征提取层，获取所述第一图像对应的至少一种尺度的局部图像特征。

在一种可能的实现方式中，所述图像特征提取分支包括N个局部特征提取层；所述局部特征获取子单元，用于，

基于所述第一层中间图像特征，以及所述图像特征提取分支中的第一个局部特征提取层，获取所述第一图像对应的第一种尺度的局部图像特征。

基于所述第i-1个局部特征提取层中第二指定数量的特征提取层，对所述第i-1层中间融合特征进行特征提取，获得第i层中间图像特征；

将所述第i层中间图像特征进行分割，获得所述第i层中间图像特征对应的至少两个中间局部特征；

将所述第i层中间图像特征对应的至少两个中间局部特征拼接，获得所述第i层中间融合特征；所述第i层中间融合特征是与所述第i层中间图像特征不同的图像特征；所述第i层中间融合特征与所述第i层中间图像特征的尺寸相同；

基于所述第i层中间融合特征，以及所述图像特征提取分支中的第i个局部特征提取层，获取所述第一图像对应的第i种尺度的局部图像特征；其中，2≤i≤N，且i与N为整数。

在一种可能的实现方式中，所述文本特征获取模块，用于，

将所述第一文本输入所述文本图像匹配模型中的文本特征提取分支，获得所述第一文本对应的至少两种尺度的文本特征；所述文本特征提取分支是用于提取文本特征的神经网络模型。

在一种可能的实现方式中，所述文本特征获取模块，用于，

获取所述第一文本的至少两种尺度的子文本；所述至少两种尺度的子文本包括全局文本与至少一种尺度的局部文本；所述全局文本的尺度大于所述局部文本的尺度；

将所述第一文本的至少两种尺度的子文本输入文本图像模型中的文本特征提取分支，获得所述第一文本对应的至少两种尺度的文本特征。

在一种可能的实现方式中，所述装置还包括：

训练样本集获取模块，用于获取训练样本集，所述训练样本集中包含样本文本，以及与所述样本文本匹配的样本图像；

样本文本特征获取模块，用于将所述样本文本输入所述文本图像匹配模型中的文本特征提取分支，获取所述样本文本对应的至少两种尺度的文本特征；

样本图像特征获取模块，用于将所述第一样本图像输入所述文本图像匹配模型中的图像特征提取分支，获取所述第一样本图像对应的至少两种尺度的图像特征；

样本文本融合模块，用于将所述样本文本对应的至少两种尺度的文本特征融合，获取所述样本文本对应的第一多尺度融合特征；

样本图像融合模块，用于将所述第一样本图像对应的至少两种尺度的图像特征融合，获取所述样本图像对应的第二多尺度融合特征；

损失函数值获取模块，用于将所述样本文本对应的第一多尺度融合特征与所述第一样本图像对应的第二多尺度融合特征输入损失函数，获取所述样本文本对应的损失函数值；

匹配模型更新模块，用于基于所述样本文本对应的损失函数值，更新所述文本图像匹配模型。

样本图像融合模块，用于将所述第一样本图像对应的至少两种尺度的图像特征融合，获取所述样本图像对应的第二融合特征；

损失函数值获取模块，用于将所述样本文本对应的第二多尺度融合特征与所述第一样本图像对应的第二融合特征输入损失函数，获取所述样本文本对应的损失函数值；

再一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的文本图像匹配方法；或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的文本图像匹配模型训练方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的文本图像匹配方法；或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的文本图像匹配模型训练方法。

又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述文本图像匹配方法；或者，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述文本图像匹配模型训练方法。

本申请提供的技术方案可以包括以下有益效果：

获取第一文本与第一图像各自对应的至少两种尺度的特征，将至少两种尺度的文本特征融合为第一多尺度融合特征，将至少两种尺度的图像特征融合为第二多尺度融合特征，并根据第一多尺度融合特征与第二多尺度融合特征之间的相似度确定该第一文本与第一图像之间的匹配关系上述方案，通过文本与图像之间的多种尺度的融合特征之间的相似度确定文本与图像的匹配关系，同时考虑了不同特征尺度之间的文本与图像的特征相似情况，提高了文本与图像之间的匹配准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种模型训练及文本图像匹配框架图。

图2是根据一示例性实施例示出的一种文本图像匹配方法的流程示意图。

图3示出了图2所示实施例涉及的一种文本图像匹配模型示意图。

图4是根据一示例性实施例示出的一种文本图像匹配模型训练方法的流程示意图。

图5是根据一示例性实施例示出的一种文本图像匹配模型训练及文本图像匹配方法的流程示意图。

图6示出了本申请实施例涉及的一种文本特征提取分支示意图。

图7示出了本申请实施例涉及的一种局部特征分割组合示意图。

图8示出了本申请实施例涉及的一种图像识别残差网络示意图。

图9示出了本申请实施例涉及的一种文本图像匹配模型示意图。

图10示出了本申请实施例涉及的一种文本图像匹配应用示意图。

图11是根据一示例性实施例示出的一种模型训练及文本图像匹配框架示意图。

图12是根据一示例性实施例示出的一种文本图像匹配模型训练装置的结构方框图。

图13是根据一示例性实施例示出的一种文本图像匹配装置的结构方框图。

图14是根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍：

1)人工智能(Artificial Intelligence，AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)计算机视觉(Computer Vision，CV)

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OpticalCharacter Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3Dimensional，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

3)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

4)自然语言处理(Nature Language Processing,NLP)

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例的方案包括模型训练阶段和文本图像匹配阶段。图1是根据一示例性实施例示出的一种模型训练及文本图像匹配框架图。如图1所示，在模型训练阶段，模型训练设备110通过预先设置好的训练样本集训练出准确性较高的文本图像匹配模型，在文本图像匹配阶段，文本图像匹配设备120根据训练出的文本图像匹配模型以及输入的目标文本，在候选图像集合中，找寻与该输入的目标文本相似度最高的图像作为与目标文本匹配的候选图像。

其中，上述模型训练设备110和文本图像匹配设备120可以是具有机器学习能力的计算机设备，比如，该计算机设备可以是终端或服务器。

可选的，上述模型训练设备110和文本图像匹配设备120可以是同一个设备，或者，模型训练设备110和文本图像匹配设备120也可以是不同的设备。并且，当模型训练设备110和文本图像匹配设备120是不同的设备时，模型训练设备110和文本图像匹配设备120可以是同一类型的设备，比如模型训练设备110和文本图像匹配设备120可以都是服务器；或者，模型训练设备110和文本图像匹配设备120也可以是不同类型的设备。上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

图2是根据一示例性实施例示出的一种文本图像匹配方法的流程示意图。该方法可以由上述图1所示实施例中的文本图像匹配设备执行。如图2所示，该文本图像匹配方法可以包括如下步骤：

步骤201，获取第一文本与第一图像。

在一种可能的实现方式中，该第一文本是包含对某一物体的描述信息的文本，该第一图像是对应于第一文本的候选图像集中的其中一个图像。其中，该第一文本的候选图像集可以包含至少两个候选图像，该第一图像是该至少两个候选图像中的任意一个。

在一种可能的实现方式中，该第一图像可以是预先存储在该文本图像匹配设备中的图像。

在一种可能的实现方式中，该第一图像可以是响应于获取到该第一文本，获取的第一图像。

即该第一图像可以是预先存储在文本图像匹配设备中的图像，也可以是用户与该第一文本同时输入的图像。

步骤202，获取该第一文本对应的至少两种尺度的文本特征。

其中，不同尺度的文本特征中包含从不同信息级别的文本特征中提取出的文本对应的特征。上述信息级别可以是文章、段落、句子、词语中的任意一者，即不同尺度的文本特征可以是文章对应的文本特征、段落对应的文本特征、句子对应的文本特征或词语对应的文本特征。

在一种可能的实现方式中，该文本特征可以是通过深度神经网络对该第一文本提取出的文本特征向量。

此时文本特征的尺度可以代表该深度神经网络对该第一文本进行特征向量提取时对应的文本大小。例如，通过深度神经网络将文章作为输入进行特征提取时，提取出的文本特征即为文章尺度的文本特征，该文章尺度的文本特征在提取时考虑了整个文章中段落、句子、词语各自的特征以及段落、句子、词语互相作用的特征，因此文章尺度是最大的文本特征尺度；通过深度神经网络将词语作为输入进行特征提取时，提取出的文本特征为词语尺度的文本特征，该词语尺度在进行特征提取时仅考虑到该词语自身的文本特征，因此词语特征为最小尺度的文本特征。

步骤203，将该至少两种尺度的文本特征融合，获取该第一文本对应的第一多尺度融合特征。

其中，由于该第一多尺度融合特征是根据第一文本的至少两种尺度的文本特征融合得到的，因此第一多尺度融合特征中同时包含了第一文本的至少两种尺度的文本特征的特征。

在一种可能的实现方式中，每种尺度的文本特征中可以包含一个或多个尺度相同但特征不同的文本特征。

步骤204，获取该第一图像对应的至少两种尺度的图像特征。

在一种可能的实现方式中，当该第一图像是预先存储在文本图像匹配设备中的图像时，该第一图像对应的第二多尺度融合特征是预先存储在文本图像匹配设备中的图像，即该文本图像匹配设备在第一文本输入之前已经对该第一图像预执行了图像特征提取操作，提取出了第一图像的至少两种尺度的图像特征。

在另一种可能的实现方式中，当该第一图像是响应于获取到该第一文本，获取的第一图像，则该第一图像是与该第一文本同时输入文本图像匹配设备的图像，此时通过文本图像匹配设备对该第一图像进行图像特征提取，获取该第一图像对应的至少两种尺度的图像特征。

步骤205，将该至少两种尺度的图像特征融合，获取该第一图像对应的第二多尺度融合特征。

在一种可能的实现方式中，不同尺度图像特征是从不同大小的图像中提取出的特征，其中图像的大小可以指图像的分辨率大小。对于不同分辨率大小的图像，其图像中包含的信息量大小也不同，通常分辨率越大的图像包含的信息量越多，因此从分辨率更大的图像中，获取的图像特征的尺度也越大。

步骤206，基于该第一文本对应的第一多尺度融合特征，以及该第一图像对应的第二多尺度融合特征，获取该第一文本与该第一图像的特征相似度。

其中，该第一文本与该第一图像的特征相似度，用于指示该第一文本描述的信息与该第一图像描述信息的相似程度。

步骤207，基于该特征相似度，确定该第一文本与该第一图像的匹配关系。

在一种可能的实现方式中，基于该特征相似度与相似度阈值的关系，确定该第一文本与该第一图像的匹配关系。

当确定该第一文本与该第一图像的特征相似度后，可以根据特征相似度与相似度阈值进行比较，当该特征相似度高于相似度阈值时，则可以认为该第一文本与该第一图像匹配；当该特征相似度不高于相似度阈值时，则认为该第一文本与该第一图像不匹配。

在一种可能的实现方式中，该第一文本与该第一图像的匹配关系是该第一文本与该第一图像的匹配可信度，该匹配可信度用于指示该第一文本与该第一图像为互相匹配关系的可能性大小。

在一种可能的实现方式中，第一文本的至少两个尺度的文本特征中包含全局文本特征与至少一个局部文本特征，将该第一文本的全局文本特征与局部文本特征进行融合，得到的第一文本的文本融合特征(即第一多尺度融合特征)同时具有第一文本的全局特征与局部特征，该第一图像的至少两个尺度的图像特征中也包含全局图像特征与至少一个局部图像特征，将该第一图像的全局图像特征与局部图像特征进行融合，得到的各个第一图像的图像融合特征(第二多尺度融合特征)也同时具有第一图像的全局特征与局部特征；此时根据该第一文本的文本融合特征与第一图像的图像融合特征确定第一文本与第一图像的匹配关系，可以同时考虑到图像与文本的局部特征和全局特征，当第一图像既与文本的部分描述相匹配，也与文本的全局描述相匹配时，将该第一图像作为与第一文本匹配的目标图像，提高了文本与图像特征的匹配准确性。

在一种可能的实现方式中，该第一图像是候选图像集中各个候选图像中的其中一个，可以根据该第一文本的文本融合特征与该各个候选图像的图像融合特征之间的特征相似度，对该各个候选图像进行排序，将特征相似度最高的获取为目标图像；或者，将该各个候选图像中，对应的特征相似度最高的指定个数的候选图像获取为目标图像。

在一种可能的实现方式中，将大于相似阈值的特征相似度对应的候选图像获取为目标图像。

即特征相似度大于阈值的候选图像，都有几率是与第一文本对应的目标图像，此时将所有特征相似度大于相似阈值的候选图像，作为第一文本对应的目标图像，提高了获取第一文本匹配的图像的准确性。

其中，本申请实施例所示方案至少可以应用在如下所示场景中：

1)根据文本获取与文本匹配的图像。

当通过本申请实施例所示方案，在多个图像中选取与文本匹配的图像时，该多个图像可以是文本图像匹配设备中预先存储的图像，此时文本图像匹配设备已经对该多个图像提取过各个图像对应的多个尺度的图像特征，并融合成了各个图像对应的第二多尺度融合特征；此时该文本图像匹配设备只需要对该文本进行多尺度的文本特征提取，并对该多个尺度的文本特征进行融合；再通过融合后的第一多尺度融合特征与各个图像对应的第二多尺度融合特征进行特征相似度比较，以确定各个图像中与该文本匹配的图像。

2)根据图像获取与图像匹配的文本。

当通过本申请实施例所示方案，在多个文本中选取与图像匹配的文本时，该多个文本可以是文本图像匹配设备中预先存储的文本，此时文本图像匹配设备已经对该多个文本提取过各个文本对应的多个尺度的文本特征，并融合成了各个文本对应的第一多尺度融合特征；此时该文本图像匹配设备只需要对该图像进行多尺度的图像特征提取，并对该多个尺度的图像特征进行融合；再通过融合后的第二多尺度融合特征与各个文本对应的第一多尺度融合特征进行特征相似度比较，以确定各个文本中与该图像匹配的文本。

3)确定文本与图像的匹配度。

当通过本申请实施例所示方案，确定图像与文本的匹配关系时，可以同时将文本与图像输入该文本图像匹配设备，此时文本图像匹配设备对该文本提取多个尺度的文本特征，并融合成第一多尺度融合特征；文本图像匹配设备对该图像提取多个尺度的图像特征，并融合成第二多尺度融合特征；此时文本匹配设备再将该第一多尺度融合特征与第二多尺度融合特征进行特征相似度比较，以确定该文本与图像的匹配度。

综上所述，本申请实施例所示的方案，获取第一文本与第一图像各自对应的至少两种尺度的特征，将至少两种尺度的文本特征融合为第一多尺度融合特征，将至少两种尺度的图像特征融合为第二多尺度融合特征，并根据第一多尺度融合特征与第二多尺度融合特征之间的相似度确定该第一文本与第一图像之间的匹配关系上述方案，通过文本与图像之间的多种尺度的融合特征之间的相似度确定文本与图像的匹配关系，同时考虑了不同特征尺度之间的文本与图像的特征相似情况，提高了文本与图像之间的匹配准确性。

图3示出了图2所示实施例涉及的一种文本图像匹配流程框图。如图3所示，将第一文本301以及第一文本对应的候选图像集302中的各个候选图像作为第一图像输入文本图像匹配模型310，文本图像匹配模型310将输入的第一文本以及第一图像进行文本图像匹配，当该第一文本与第一图像的特征相似度满足匹配关系，即该第一图像与该第一文本是相互匹配的图像与文本时，在候选图像集302中确定与第一文本301匹配的候选图像作为目标图像320并输出。

其中，在文本图像匹配模型310中，将候选图像集302中的各个候选图像作为第一图像输入图像特征提取分支311，图像特征提取分支311对第一图像进行图像特征提取，获得该第一图像对应的图像特征312，第一图像对应的图像特征312中都包含各候选图像对应的第一图像的图像全局特征以及至少一个图像局部特征。

第一文本301输入文本图像匹配模型310中的文本特征提取分支313，文本特征提取分支313对第一文本进行文本特征提取，获得该第一文本对应的第一文本特征314，第一文本特征314中包含第一文本对应的文本全局特征以及至少一个文本局部特征。

根据第一文本301对应的第一文本特征314进行融合得到文本融合特征，以及候选图像集302中的第一图像对应的图像特征312进行融合得到图像融合特征，计算获得文本融合特征与第一图像对应的图像融合特征之间的特征相似度315，并根据特征相似度的大小在第一图像对应的各个候选图像中选择目标图像320并输出。

图4是根据一示例性实施例示出的一种文本图像匹配模型训练方法的流程示意图。该方法可以由上述图1所示实施例中的文本图像匹配设备执行，如图4所示，该文本图像匹配模型训练方法可以包括如下步骤：

步骤401，获取训练样本集，该训练样本集中包含样本文本，以及与该样本文本匹配的第一样本图像。

在一种可能的实现方式中，该样本文本是包含对某一物体的描述信息的文本，该样本图像是与该样本文本匹配的图像。其中，该样本图像与该样本文本匹配是指该样本图像中包含该样本文本描述的所有内容，即样本文本描述的所有内容都可以从样本图像中找到对应的图像特征。

步骤402，将该样本文本输入文本图像匹配模型中的文本特征提取分支，获取该样本文本对应的至少两种尺度的文本特征。

其中，样本文本对应的不同尺度的文本特征中包含从不同信息级别的文本特征中提取的文本对应的特征。上述信息级别可以是文章、段落、句子、词语中的任意一者，即不同尺度的文本特征可以是文章尺度的文本特征、段落尺度的文本特征、句子尺度的文本特征、或词语尺度的文本特征。

在一种可能的实现方式中，该文本特征提取分支可以是深度神经网络模型。此时文本特征的尺度可以代表深度神经网络对该样本文本进行特征向量提取时对应的文本大小。例如，通过深度神经网络对文章级别的样本文本作为输入进行特征提取时，提取出的文本特征即为文章尺度的文本特征，该文章尺度的样本文本在提取文章尺度的文本特征时时考虑了整个文章中段落、句子、词语各自的特征以及段落、句子、词语互相作用的特征，因此该样本文本的最大文本特征尺度为文章尺度；而通过深度神经网络将样本文本中的词语作为输入进行特征提取时，提取出的文本特征为词语尺度的文本特征，且该样本文本中的词语在进行特征提取时仅考虑到了该词语自身的文本特征，因此词语特征是该样本文本最小尺度的文本特征。

步骤403，将该第一样本图像输入该文本图像匹配模型中的图像特征提取分支，获取该第一样本图像对应的至少两种尺度的图像特征。

其中，至少两种尺度的图像特征是从不同尺度的第一样本图像中提取出的特征，其中图像的不同尺度可以指第一样本图像的分辨率大小不同。对于不同分辨率大小的第一样本图像，其图像中包含的信息量也不同，通常分辨率越大的图像包含的信息量越多，从分辨率更大的图像进行特征提取，考虑到的图像信息量也越多，因此获取的图像特征的尺度也越大。

步骤404，将该样本文本对应的至少两种尺度的文本特征融合，获取该样本文本对应的第一多尺度融合特征。

其中，由于该第一多尺度融合特征是根据样本文本的至少两种尺度的文本特征融合得到的，因此第一多尺度融合特征中同时包含了样本文本的至少两种尺度的文本特征的特征。

步骤405，将该第一样本图像对应的至少两种尺度的图像特征融合，获取该第一样本图像对应的第二多尺度融合特征。

其中，由于该第二多尺度融合特征是根据第一样本图像的至少两种尺度的图像特征融合得到的，因此第二多尺度融合特征中同时包含了第一样本图像的至少两种尺度的图像特征的特征。

步骤406，将该样本文本对应的第一多尺度融合特征与该第一样本图像对应的第二多尺度融合特征输入损失函数，获取该样本文本对应的损失函数值。

在一种可能的实现方式中，该损失函数是基于该第一多尺度融合特征与该第二多尺度融合特征的特征相似度构建的损失函数。该损失函数根据该第一多尺度融合特征与该第二多尺度融合特征的特征相似度获取损失函数值。

步骤407，基于该样本文本对应的损失函数值，更新该文本图像匹配模型。

其中，该文本图像匹配模型是基于该损失函数值，通过反向传播算法进行更新的。

在一种可能的实现方式中，基于该损失函数值，通过反向传播算法，对该文本图像匹配模型的文本特征提取分支与图像特征提取分支同时进行更新。

综上所述，获取第一文本与第一图像各自对应的至少两种尺度的特征，将至少两种尺度的文本特征融合为第一多尺度融合特征，将至少两种尺度的图像特征融合为第二多尺度融合特征，并根据第一多尺度融合特征与第二多尺度融合特征之间的相似度确定该第一文本与第一图像之间的匹配关系上述方案，通过文本与图像之间的多种尺度的融合特征之间的相似度确定文本与图像的匹配关系，同时考虑了不同特征尺度之间的文本与图像的特征相似情况，提高了文本与图像之间的匹配准确性。

图5是根据一示例性实施例示出的一种文本图像匹配模型训练及文本图像匹配方法的流程示意图。该方法可以由模型训练设备和文本图像匹配设备执行，其中，该模型训练设备和文本图像匹配设备可以实现为单个计算机设备，也可以分属于不同的计算机设备。以模型训练设备为服务器，文本图像匹配设备为终端为例，如图5所示，该方法可以包括以下步骤：

步骤501，获取训练样本集。

其中，该训练样本集中包含样本文本，以及与该样本文本匹配的样本图像。

在一种可能的实现方式中，该第一样本图像的特征与该样本文本中具有的特征是匹配的，即该第一样本图像中展示的内容与该样本文本中展示的内容应该是对应的。

在一种可能的实现方式中，该第一样本图像的特征包含该样本文本中具有的特征。

由于图像与文本属于不同模态的信息展示方法，其展示特征的方式、信息量、以及信息强度都不相同，难以保证该图像与文本所展示出的特征完全一致，因此样本图像中展示的特征除了样本文本对应的特征外，可能还包含其他的特征。

例如，对于样本文本“一个穿黑色衣服的男人”，该样本图像中具有的图像内容可以为，“在马路上走着一个穿黑色衣服的男人”，对于样本文本中具有的特征“黑色衣服”“男人”，第一样本图像中都以图像的方式呈现出来，并且对于图像而言，通常会在图像中展示与样本文本无关的特征(如环境特征)。

在一种可能的实现方式中，该训练样本集还包括第二样本图像；该第二样本图像是与该样本文本不匹配的图像。

其中，该第二样本图像可以是预先设定的与该样本文本不匹配的图像，即该训练样本集中的一次训练所使用的数据包括，样本文本、第一样本图像与第二样本图像；在对文本图像匹配模型进行训练的一次训练流程中，需要同时使用样本文本、第一样本图像与第二样本图像。

在一种可能的实现方式中，该第二样本图像可以是在训练样本集中随机获取的，除该第一样本图像之外的图像。

步骤502，将该样本文本输入文本图像匹配模型中的文本特征提取分支，获取该样本文本对应的至少两种尺度的文本特征。

在一种可能的实现方式中，该至少两种尺度的子文本包括该样本文本的第一样本子文本与第二样本子文本。

在一种可能的实现方式中，该第一样本子文本是根据该样本文本分割出的至少一个句子文本；第二样本子文本是该样本文本中的至少一个词文本。例如，该第一样本子文本可以是根据样本文本分割出的一个样本文本对应的子句；而第二样本子文本可以是该样本文本中的至少一个词语；该样本子文本同时包含该样本文本对应的子句以及该样本文本对应的词语，因此该样本子文本同时包含该样本文本的两个不同尺度的文本特征。

例如，当该样本文本是“一个穿着黑色衣服的男人，身高一米八左右，大概30岁”，该第一样本子文本可以是“一个穿黑色衣服的男人”、“身高一米八左右”、“大概30岁”中的至少一者；该第二样本子文本可以是“男人”“黑色”“一米八”等等词语中的至少一者。

在一种可能的实现方式中，该文本特征提取分支可以是BERT(BidirectionalEncoder Representations from Transformers，来自变压器的双向编码器表示)模型。

其中，该BERT模型是基于在海量的语料的基础上运行自监督学习方法获取的预训练模型，该BERT模型通过少量的样本文本进行模型参数的微调，即可以实现将该样本文本较为准确地转换为包含该样本文本的语义特征的特征向量。

将该样本文本输入该BERT模型，输出该样本文本对应的语义特征的特征向量，由于该特征向量(即文本全局特征)是将样本文本的全部文本输入BERT模型得到的特征向量，因此该特征向量包含了该样本文本对应的全局特征，也就是根据该样本文本整体上的语义获取的向量信息。

在一种可能的实现方式中，将该样本文本的至少一个样本子文本输入该文本特征提取分支，获取该样本文本的至少一个局部特征。

该样本子文本包含该样本文本的部分文本内容，即该至少一个局部特征是该至少一个样本子文本所具有的部分文本内容提取出的特征。

在一种可能的实现方式中，当该样本子文本包含该第一样本子文本与第二样本子文本时，将该第一样本子文本与第二样本子文本输入该文本特征提取分支，获取该第一样本子文本对应的局部特征与第二样本子文本对应的局部特征。

其中，该第一样本子文本是该样本文本对应的短句，将该第一样本子文本输入该文本特征提取分支时得到的局部特征，是该短句部分的文本通过文本特征提取分支提取出的局部特征，也就是说，该第一样本子文本对应的局部特征，是句子级别的文本特征。

该第二样本子文本是样本文本对应的词语，将该第二样本子文本输入该文本特征提取分支时得到的局部特征，是该词语部分的文本通过文本特征提取分支提取出的局部特征，也就是说，该第二样本子文本对应的局部特征是词语级别的文本特征。

此时，该样本文本的局部特征可以同时包括句子级别的文本特征以及词语级别的文本特征。例如，当该样本文本是“一个穿着黑色衣服的男人，身高一米八左右，大概30岁”，该局部特征可以包含“一个穿黑色衣服的男人”、“身高一米八左右”、“大概30岁”中的至少一个句子对应的局部特征，还包含“男人”“黑色”“一米八”等等词语中的至少一个词语对应的局部特征。

在一种可能的实现方式中，获取该样本文本的至少两种尺度的子文本；该至少两种尺度的子文本包括全局文本与至少一种尺度的局部文本；该全局文本的尺度大于该局部文本的尺度；将该样本文本的至少两种尺度的子文本输入文本图像模型中的文本特征提取分支，获得该样本文本对应的至少两种尺度的文本特征。

其中，全局文本包含该样本文本的全部文本内容，局部文本包含的文本内容少于全局文本。将该全局文本以及至少一种尺度的局部文本输入文本特征提取分支，获得至少两种尺度的文本特征，即该至少两种尺度的文本特征包括全局文本特征以及至少一种局部文本特征。

请参考图6，其示出了本申请实施例涉及的一种文本特征提取分支示意图。如图6所示，样本文本610通过CLS(Classification，分类)标识，将整个样本文本分类为全局样本文本与子句样本文本，再将全局样本文本、子句样本文本、词语样本文本输入BERT模型600，得出样本文本610对应的样本文本特征620。

首先在整句描述前加上CLS标识611，CLS标识用于代表该样本文本610中所有文本的内容，CLS标识611输入BERT所输出对应的全局文本特征621代表了整个样本文本描述的特征。

然后将整句描述分成两个子句，如图6所示，在样本文本610的整句对应的CLS标识611后分别设置CLS标识612与CLS标识613，通过CLS标识612与CLS标识613将样本文本的分为两个子句,CLS标识612与CLS标识613通过BERT模型600输出对应的第一子句文本特征622与第二子句文本特征623，分别代表两个子句包含的样本文本部分对应的特征。例如，当该样本文本是“一个穿着黑色衣服的男人，身高一米八左右，大概30岁”，CLS标识611用于代表该样本文本610中所有文本的内容，即“一个穿着黑色衣服的男人，身高一米八左右，大概30岁”中的全部文本对应的内容；CLS标识612指示该样本文本中的部分内容“一个穿黑色衣服的男人”；CLS标识613指示该样本文本中另一部分的内容“身高一米八左右，大概30岁”。

图6中“XX”“XXX”等用于示例性地表示由该样本文本分割成的各个词语，例如“身高”“黑色”“衣服”“男人”等等。并且对于样本文本中的每个词语，都分别输入BERT模型600，输出每个词语对应的词语文本特征；并由各个词语对应的词语文本特征、第一子句文本特征622、第二子句文本特征623以及全局文本特征621构成样本文本特征620，作为通过BERT模型提取样本文本所获得的不同尺度的文本特征。

步骤503，将该第一样本图像输入该文本图像匹配模型中的图像特征提取分支，获取该第一样本图像对应的至少两种尺度的图像特征。

在一种可能的实现方式中，该第一样本图像对应的至少两种尺度的图像特征包括全局图像特征以及至少一种尺度的局部图像特征；该图像特征提取分支包括全局特征提取层与至少一个局部特征提取层；该全局特征提取层包含至少两个特征提取层；该局部特征提取层包含至少一个特征提取层；该特征提取层用于提取图像特征；基于该第一样本图像，以及该全局特征提取层的各个特征提取层，获得该第一样本图像的全局特征。

在一种可能的实现方式中，该全局特征提取层获取该第一样本图像，通过该全局特征提取层的第一层特征提取层，提取该第一样本图像的图像特征，作为该第一样本图像的特征图(feature map)，并将该特征图传递至下一个特征提取层，以便该下一个特征提取层对该特征图进行特征的提取，重复上述过程，直至该全局特征提取层的最后一个特征提取层对上一个特征提取层提取出的特征图进行特征提取，得出该样本图像对应的全局特征。

在一种可能的实现方式中，该图像特征提取分支可以是用于图像识别的Resnet(Deep residual network，深度残差网络)，该各个特征提取层为该Resnet的Resblock(残差模块)，Resblock用于通过残差连接对图像进行图像特征的逐步提取。该Resnet网络模型出自于论文《Deep Residual Learning for Image Recognition》(《基于深度残差学习的图像识别》)，其中何凯明工程师等通过设计残差学习结构(即resblock)的方式，使得网络深度较大的网络在解决梯度弥散或梯度爆炸的前提下，提高了深层网络的学习率。

在一种可能的实现方式中，当该图像特征提取分支是Resnet时，可以根据样本数据集中的样本图像预先设定该图像分支模型中，全局特征提取层的resblock数量，以及每一层的卷积核数量、卷积核尺寸、步长等超参数，以提高对该样本数据集中样本图像的识别能力。

例如，当该样本图像的分辨率较大时，可以通过提高步长、增大卷积核的数量的方式，在保证全局特征提取层的Resblock数量不变的情况下，提高步长以降低样本文本的分辨率，并同时提高卷积核卷积得到的参数数量保证提取足够多的图像特征，以提高对样本图像的识别能力。

在一种可能的实现方式中，基于该第一样本图像，以及该图像特征提取分支的至少一个局部特征提取层，获得该第一样本图像的至少一个局部特征。

其中，该局部特征提取层包含至少一个特征提取层；该局部特征提取层的特征提取层数量少于该全局特征提取层。

在一种可能的实现方式中，将该第一样本图像输入该全局特征提取层，获取该第一样本图像的第一层中间图像特征；该第一层中间图像特征是该图像特征提取分支中的第一个局部特征提取层对应的中间图像特征；该中间图像特征的特征参数多于该全局图像特征；基于该第一层中间图像特征，以及该图像特征提取分支的至少一个局部特征提取层，获得该第一样本图像的至少一个局部特征。

其中，该第一层中间图像特征是通过全局特征提取层的部分特征提取层，对第一样本图像进行图像特征提取得到的。

在一种可能的实现方式中，基于该全局特征提取层中的第一指定数量的特征提取层，对该第一样本图像进行特征提取，获得该第一样本图像的第一层中间图像特征。

其中，第一指定数量可以是预先设定的，即当通过全局特征提取层的预先设定个数的特征提取层，对该第一样本图像进行特征提取，可以获得该第一样本图像的第一层中间图像特征，并将其传递给局部特征提取层；该第一指定数量小于该全局特征提取层中的特征提取层数量。

通过第一指定数量的特征提取层对该第一图像样本进行特征提取后，再传递给局部特征提取层，可以使得局部特征提取层得出的局部特征，与全局特征具有一定的相似性，其局部特征与全局特征更能真实的体现出第一图像样本的图像特征。

在一种可能的实现方式中，将该第一层中间图像特征进行分割，获取该第一层中间图像特征对应的至少两个中间局部特征；基于该第一层中间图像特征对应的至少两个中间局部特征，获取该第一层中间图像特征对应的中间融合特征；基于该第一层中间图像特征对应的中间融合特征，以及该图像特征提取分支的第一个局部特征提取层，获得该第一样本图像的第一局部特征。

在一种可能的实现方式中，将该第一层中间图像特征，根据空间高度信息进行平均分割，获取该第一层中间图像特征对应的第一中间局部特征与第二中间局部特征，其中，第一中间局部特征的空间高度大于第二中间局部特征。

在一种可能的实现方式中，将该第一中间局部特征与该第二中间局部特征进行随机拼接，获取该第一层中间图像特征对应的中间融合特征。

当第一层中间图像特征根据高度进行平均分割后，获取第一中间局部特征与该第二中间局部特征，该第一中间局部特征与该第二中间局部特征再根据高度进行乱序组合(乱序组合即打乱分割后的初始顺序再进行组合，打乱后的各个特征的空间顺序与分割前不同)，获取与该第一层中间图像特征对应的中间融合特征，其中，该中间融合特征的特征尺寸与该第一层中间图像特征的特征尺寸相同。

图7示出了本申请实施例涉及的一种局部特征分割组合示意图。如图7所示，中间图像特征701，是根据指定个数的特征提取层对图像进行特征提取获得的feature map(特征图)形式的图像特征，图7中示例性地使用数字表示特征图上各个位置的图像特征值。

中间图像特征701可以通过沿水平方向平均分割，获取第一中间局部特征702与第二中间局部特征703，再将该第一中间局部特征702与该第二中间局部特征703通过乱序组合的方式生成中间融合特征704，该中间融合特征704与中间图像特征701是不同的特征，且该中间融合特征704的特征尺寸与该中间图像特征701相同，即该第一中间局部特征702与该第二中间局部特征703是按照与分割前不同的空间顺序进行组合的。

通过上述方式，将中间局部特征进行空间方位上的分割再乱序组合，此时通过特征提取层对图像特征进行提取时，上下模块之间的空间顺序对图像特征造成的影响程度减小，特征提取层更容易注意到局部的特征，实现了在保证特征图尺寸不变的情况下，通过打乱特征图的空间顺序，减小空间方位特征在提取局部特征中的影响，提高了对局部特征提取的准确性。

其中，对该第一层中间图像特征进行分割还可以通过其他的分割方式(例如竖直分割，区域分割等方式)进行分割，并分割为更多个中间局部特征，各个中间局部特征可以通过乱序组合，交换顺序等方式进行再组合。

在一种可能的实现方式中，该第一局部特征包括第一局部子特征与第二局部子特征。

在一种可能的实现方式中，基于该第一层中间图像特征对应的中间融合特征，以及该图像特征提取分支的第一个局部特征提取层，获得该第一样本图像的第一局部待分割特征；根据该第一样本图像的第一局部待分割特征，根据空间高度信息进行平均分割，获得该第一样本图像的第一局部子特征与第二局部子特征。

其中，该第一样本图像的第一局部待分割特征，可以是通过第一局部特征提取层中的特征提取层对中间融合特征提取得到的，而中间融合特征是通过第一中间局部特征与该第二中间局部特征随机拼接得到的，其仍然具有样本图像中各个像素点提取出的特征，因此该第一局部待分割特征仍然是样本图像的全部像素点对应的特征。

将该第一局部待分割特征根据空间高度信息进行平均分割后得到的第一局部特征(第一局部子特征与第二局部子特征)，具有的是样本图像的局部特征。

在一种可能的实现方式中，基于该第i-1个局部特征提取层中第二指定数量的特征提取层，对该第i-1个局部特征提取层对应的中间融合特征进行特征提取，获得第i层中间图像特征；将该第i层中间图像特征进行分割，获取该第i层中间图像特征对应的至少两个中间局部特征；基于该第i层中间图像特征对应的至少两个中间局部特征，获取该第i层中间图像特征对应的中间融合特征；基于第i层中间图像特征对应的中间融合特征，以及该第i个局部特征提取层的各个特征提取层，获得该第一样本图像的第i种尺度的局部图像特征；其中，2≤i≤N，且i与N为整数。

当该图像特征提取分支中包含至少两个局部特征提取层时，较下层的局部特征提取层(即除第一个局部特征提取层之外的局部特征提取层)，可以将该局部特征提取层对应的中间图像特征输入该局部特征提取层，获得该局部特征提取层对应的局部待分割特征，通过对该局部特征提取层对应的局部待分割特征进行分割，获得该局部特征提取层对应的局部特征。

其中，该局部特征提取层对应的中间图像特征，是通过上一个局部特征提取层中指定数量的特征提取层，对上一个局部特征提取层对应的中间融合特征进行特征提取获得的。其中，局部特征提取层对应的中间融合特征，可以根据该层的中间图像特征，分割后得到至少两个中间局部特征，再将中间局部特征融合得到。

在一种可能的实现方式中，该第二指定数量是根据该局部特征提取层的层数确定的。

即每一层的局部特征提取层对应的第二指定数量可以不同。

在一种可能的实现方式中，该局部特征提取层的特征提取层数量与该局部特征提取层的层数成反相关。

当该局部特征提取层层数越大，其对应的中间图像特征被特征提取层进行图像特征提取过的次数也越多，因此其图像分辨率也越小，此时将该中间图像特征提取出局部特征所需要的特征提取层也越少。

请参考图8，其示出了本申请实施例涉及的一种图像识别残差网络示意图。如图8所示，以该残差网络具有全局特征提取层与两个局部特征提取层为例，样本图像801输入该图像识别残差网络800，并通过全局特征提取层，即第一层Resblock构成的特征提取层，提取该样本图像801的特征(该特征尺寸为图像级别的feature map)并进行global averagepooling(全局平均池化)得到全局图像特征811(即第一尺度的图像特征)，该全局图像特征811的整体图像特征维度为768。

样本图像801再通过全局特征提取层中的指定个数(图8中为两个)的Resblock，生成该样本图像对应的中间图像特征，即全局特征提取层只通过部分Resblock对该样本图像进行特征提取，生成的中间图像特征传输至第一个局部特征提取层，并对该中间图像特征平均分割后再乱序组合，获得该第一局部特征提取层对应的中间融合特征802，其中分割与组合的具体步骤如图7所示，此处不再赘述。

第一个局部特征提取层对应的中间融合特征802通过该第一个局部特征提取层的resblock继续进行特征提取，得到该第一个局部特征提取层的局部待分割特征，该局部待分割特征是图像级别的feature map，并将该局部待分割特征平均分割后的局部子特征进行global average pooling，得到该第一个局部特征提取层对应的第一局部特征812(第二尺度的图像特征)，该第一局部特征812中各个局部子特征的特征维度均为768。

该第一个局部特征提取层对应的中间融合特征802，通过该第一个局部特征提取层中指定个数的Resblock进行特征提取后，再通过平均分割成三部分特征，将该三部分特征乱序组合操作，生成第二个局部特征提取层对应的中间融合特征803，该中间融合特征803通过第二个局部特征提取层的Rseblock继续进行特征提取，得到该第二个局部特征提取层的局部待分割特征，该局部待分割特征是图像级别的feature map，并将该局部待分割特征平均分割成三部分的局部子特征进行global average pooling，得到该第二个局部特征提取层对应的第二局部特征813(第三尺度的图像特征)，该第二局部特征813中各个局部子特征的特征维度均为768。

在图8中，全局图像特征811、第一局部特征812、第二局部特征813构成了该样本图像对应的样本图像特征。

步骤504，将该样本文本对应的至少两种尺度的文本特征融合，获取该样本文本对应的第一多尺度融合特征。

在一种可能的实现方式中，将该样本文本对应的至少两种尺度的文本特征输入文本图像匹配模型中的第一特征融合分支，获取该样本文本对应的第一多尺度融合特征。

在一种可能的实现方式中，该第一特征融合分支为全连接层或深度学习模型。

在一种可能的实现方式中，基于该样本文本的至少两个尺度的文本特征，通过全连接层获取该样本文本的即第一多尺度融合特征。

其中，全连接层在卷积神经网络中可以作为分类器，将分布式的特征表示映射至样本标记空间，即将全局特征与局部特征直接连接后，通过全连接层将全局特征与局部特征相应的维度信息进行加权求和，获得全局特征与局部特征对应的融合特征。

例如，样本文本的全局特征的特征维度为768，样本文本的局部特征有6个，特征维度均为768，此时全连接层通过将全局特征与局部特征直接连接，构成连接特征，其维度为7*768，通过全连接层将其中全局特征与局部特征中768个维度对应的7个特征值进行加权求和，得到特征维度为768的文本融合特征。

在本申请实施例的一种可能的实现方式中，该特征维度还可以是开发人员预先设置的值。

在通过全连接层进行不同尺度的图像特征或文本特征进行特征融合时，将多个不同尺度的特征，通过维度相加的方式，将不同尺度的特征中，同一类型特征参数(即通过同样卷积核提取的特征)进行加权相加，减小了融合后特征的特征数量，并且在减小特征的特征数量的同时，通过将同一类由相同卷积核提取的特征相加，一定程度上保留了各个不同尺度的特征对应的数据特性，使得融合后的特征同时受到多个不同尺度的特征的影响。

在另一种可能的实现方式中，将该样本文本的至少两个尺度的文本特征，输入基于深度学习模型构建的第一特征融合分支，获取该样本文本的即第一多尺度融合特征。

其中，该第一特征融合分支可以是通过预训练获取的，可以直接使用的深度学模型；或者该第一特征融合分支需要通过该样本文本以及该第一样本图像进行训练。

步骤505，将该第一样本图像对应的至少两种尺度的图像特征融合，获取该第一样本图像对应的第二多尺度融合特征。

在一种可能的实现方式中，将该第一样本图像对应的至少两种尺度的文本特征输入文本图像匹配模型中的第二特征融合分支，获取该第一样本图像对应的第一多尺度融合特征。

在一种可能的实现方式中，该第二特征融合分支为全连接层或深度学习模型。

在一种可能的实现方式中，该第一特征融合分支与该第二特征融合分支可以同时是相同结构的特征融合分支，也可以是不同结构的特征融合分支。例如，第一特征融合分支是全连接层且该第二特征融合分支是深度学习模型；或者该第一特征融合分支是深度学习模型且该第二特征融合分支是全连接层；或者该第一特征融合分支都为全连接层或深度学习模型。

步骤506，将该样本文本对应的第一多尺度融合特征与该第一样本图像对应的第二多尺度融合特征输入损失函数，获取该样本文本对应的损失函数值。

在一种可能的实现方式中，基于该样本文本的第一多尺度融合特征，以及该第一样本图像的第二多尺度融合特征，获取该样本文本特征与该第一样本图像特征之间的特征相似度；根据该样本文本与该第一样本图像的特征相似度，获取该样本文本对应的损失函数值。

在一种可能的实现方式中，将该样本文本的第一多尺度融合特征与该第一样本图像的第二多尺度融合特征之间的向量距离，获取为该样本文本的第一多尺度融合特征与该第一样本图像的第二多尺度融合特征之间的特征相似度。

其中向量距离可以是该样本文本的第一多尺度融合特征与该第一样本图像的第二多尺度融合特征之间的欧式距离，或者可以是该样本文本的第一多尺度融合特征与该第一样本图像的第二多尺度融合特征之间的余弦距离。

当获取样本文本的全局特征与局部特征，以及第一样本图像的全局特征与局部特征后，需要将该样本文本的全局特征与局部特征进行融合得到第一多尺度融合特征，以及将该第一样本图像的全局特征与局部特征进行融合得到第二多尺度融合特征，以便通过将第一多尺度融合特征与第一样本图像的第二多尺度融合特征进行相似度对比，确定该样本文本与该第一样本图像之间的匹配程度。

其中，第一多尺度融合特征与第二多尺度融合特征是通过全局特征与局部特征融合得到的特征，因此第一多尺度融合特征与第二多尺度融合特征同时具有全局特征与局部特征两种尺度的特征信息，通过该第一多尺度融合特征与该第一样本图像的第二多尺度融合特征进行匹配，可以同时考虑文本与图像的局部的特征相似度与整体的特征相似度，提高了文本图像匹配的准确性。

步骤507，基于该样本文本对应的损失函数值，更新该文本图像匹配模型。

在一种可能的实现方式中，该损失函数可以是交叉熵损失函数。

在一种可能的实现方式中，可以根据该损失函数值，通过反向传播算法对该文本特征提取分支与该图像特征提取分支进行更新。

通过损失函数值，同时对该文本特征提取分支与该图像特征提取分支进行更新，且该损失函数值是根据该样本文本的第一多尺度融合特征与该第一样本图像的第二多尺度融合特征之间的特征相似度获取的，即该损失函数值具有该样本文本的多种尺度的特征，以及该第一样本图像的多种尺度的特征，也就是说，文本特征提取分支与该图像特征提取分支在根据该损失函数进行更新时，同时考虑到了样本文本的多种尺度的特征，以及第一样本图像的多种尺度的特征，以及样本文本与第一样本图像之间的特征相似度，更新后的文本图像匹配模型中的图像特征提取分支，可以更加关注文本的不同尺度的特征，文本图像匹配模型中的文本特征提取分支，也可以更加关注图像的不同尺度的特征，因此训练后文本图像匹配模型，文本与图像的匹配准确性较高。

在一种可能的实现方式中，将该第二样本图像输入该文本图像匹配模型中的图像特征提取分支，获得第二样本图像对应的至少两种尺度的图像特征；将该第二样本图像对应的至少两种尺度的图像特征融合，获取第二样本图像对应的第二多尺度融合特征；将该样本文本对应的第一多尺度融合特征、第一样本图像对应的第二多尺度融合特征以及第二样本图像对应的第二多尺度融合特征输入损失函数，获取该样本文本对应的损失函数值；基于该损失函数值，对该文本特征提取分支与该图像特征提取分支进行更新。

其中，该文本图像匹配模型对应的损失函数还可以是triplet loss(三元组损失函数)。triplet loss损失函数如下所示：

L＝max(d(a,p)-d(a,n)+margin,0)

triplet loss损失函数，输入是一个三元组(a、p、n)，其中a为anchor(原点)，即与目标样本；p为positive(正样本)，即与a同一类别的样本；n为negative(负样本)，即为与a不同类别的样本；margin为该文本图像匹配模型设置的边界值。

对于本申请实施例所示方案，其中原点a为样本文本对应的样本文本特征(第一多尺度融合特征)，正样本p为与样本文本匹配的第一样本图像对应的第一样本图像特征(第一样本图像对应的第二多尺度融合特征)，负样本n为与样本文本不匹配的第二样本图像对应的第二样本图像特征(第二样本图像对应的第二多尺度融合特征)。triplet loss通常是在个体级别的细粒度识别上应用，传统的分类是花鸟狗的大类别的识别，但是有些需求要精确到个体级别，比如精确到哪一个人的人脸识别，而文本图像匹配中，使用triplet loss可以提高图像与文本的匹配精度，在相似的候选图像中选择与文本最接近的图像作为匹配的目标图像。

在一种可能的实现方式中，当该样本文本是人脸对应的文本描述信息时，该损失函数还可以是arcface(Additive Angular Margin Loss，加性角度间隔损失函数)。

在一种可能的实现方式中，该损失函数还可以是CMPM(Cross-Modal ProjectionMatching，跨模态投影匹配)或CMPC(Cross-Modal Projection Classification，跨模态投影分类)。

其中，CMPM将每一个批次的image-text(图像文本)对的匹配构建了一个概率分布，用网络的预测值和真值分布的KL(Kullback-Leibler，交叉熵)散度来约束网络，以希望网络学到的单个模态到另一个模态的投影尽可能趋近于真实的分布。

CMPM通过仿照Norm-softmax(常态柔性最大值传输函数)，构建从一个模态到另一个模态的投影进行norm-softmax分类的目标函数。把接入softmax的全连接层层的权重作归一化，使得优化的目标是使各个投影与投影之间能很好的分类

步骤508，获取第一文本与第一图像。

在一种可能的实现方式中，该第一文本与样本文本是同类型的文本。

即该第一文本与样本文本是同语言的文本，并且该第一文本与样本文本描述的内容可以是同类型的事物。例如，样本文本中文本描述的人物的外貌与穿着特征，根据该样本文本以及样本文本对应的第一样本图像训练出的文本图像匹配模型更容易关注文本与图像中人物外貌对应的特征，因此，当第一文本同样是对于人物外貌进行描述的文本时，其匹配准确度更高。

步骤509，将该第一文本输入该文本图像匹配模型中的文本特征提取分支，获得该第一文本对应的至少两种尺度的文本特征。

其中该文本特征提取分支是用于提取文本特征的神经网络模型。

在一种可能的实现方式中，获取该第一文本的至少两种尺度的子文本；该至少两种尺度的子文本包括全局文本与至少一种尺度的局部文本；该全局文本的尺度大于该局部文本的尺度；将该第一文本的至少两种尺度的子文本输入文本图像模型中的文本特征提取分支，获得该第一文本对应的至少两种尺度的文本特征。

其中，全局文本包含该第一文本的全部文本内容，局部文本包含的文本内容少于全局文本。将该全局文本以及至少一种尺度的局部文本输入文本特征提取分支，获得至少两种尺度的文本特征，即该至少两种尺度的文本特征包括全局文本特征以及至少一种局部文本特征。

在一种可能的实现方式中，该第一文本的文本特征提取方式同样可以通过图6所示的方式，通过BERT模型同时提取第一文本的多个尺度的特征。

步骤510，将该至少两种尺度的文本特征输入文本图像匹配模型中的第一特征融合分支，获取该第一文本对应的第一多尺度融合特征。

在一种可能的实现方式中，基于该第一文本的至少两个尺度的文本特征，通过全连接层获取该第一文本的即第一多尺度融合特征。

例如，第一文本的全局特征的特征维度为768，第一文本的局部特征有6个，特征维度均为768，此时全连接层通过将全局特征与局部特征直接连接，构成连接特征，其维度为7*768，通过全连接层将其中全局特征与局部特征中768个维度对应的7个特征值进行加权求和，得到特征维度为768的文本融合特征。

在另一种可能的实现方式中，将该第一文本的至少两个尺度的文本特征，输入基于深度学习模型构建的第一特征融合分支，获取该第一文本的即第一多尺度融合特征。其中，该第一特征融合分支可以是通过预训练获取的，可以直接使用的深度学模型；或者该第一特征融合分支需要通过该第一文本以及该第一样本图像进行训练。

步骤511，将该第一图像输入文本图像匹配模型中的图像特征提取分支，获得该第一图像对应的至少两种尺度的图像特征。

在一种可能的实现方式中，该至少两种尺度的图像特征包括全局图像特征以及至少一种尺度的局部图像特征；该图像特征提取分支包括全局特征提取层与至少一个局部特征提取层；该全局特征提取层包含至少两个特征提取层；该局部特征提取层包含至少一个特征提取层；该特征提取层用于提取图像特征；基于该第一图像，以及该图像特征提取分支中的全局特征提取层，获取该第一图像对应的全局图像特征；基于该第一图像与该图像特征提取分支中的至少一个局部特征提取层，获取该第一图像对应的至少一种尺度的局部图像特征。

在一种可能的实现方式中，该全局特征提取层获取该第一图像，通过该全局特征提取层中的第一个特征提取层，提取该第一图像的图像特征，作为该第一图像的特征图(feature map)，并将该特征图传递至下一个特征提取层，以便该下一个特征提取层对该特征图进行特征的提取，重复上述过程，直至该全局特征提取层的最后一个特征提取层对上一个特征提取层提取出的特征图进行特征提取，得出该样本图像对应的全局特征。

在一种可能的实现方式中，在一种可能的实现方式中，该图像特征提取分支可以是用于图像识别的Resnet(残差网络)，其中，该各个特征提取层为该Resnet的Resblock(残差模块)，Resblock用于通过残差连接对图像进行图像特征的逐步提取。

在一种可能的实现方式中，当该图像特征提取分支是Resnet时，可以根据第一图像的图像参数(例如分辨率大小)预先设定该图像分支模型中，全局特征提取层的resblock数量，以及每一层的卷积核数量、卷积核尺寸、步长等超参数，以提高对该第一图像的特征提取能力。

例如，当该样本图像的分辨率较大时，可以通过提高步长、增大卷积核的数量的方式，在保证全局特征提取层的Resblock数量不变的情况下，提高步长以降低第一图像的分辨率，并同时提高卷积核卷积得到的参数数量保证提取足够多的图像特征，以提高对第一图像的识别能力。

在一种可能的实现方式中，基于该全局特征提取层中第一指定数量的特征提取层，对该第一图像进行特征提取，获取该第一图像对应的第一层中间图像特征；将该第一层中间图像特征进行分割，获得该第一层中间图像特征对应的至少两个中间局部特征；将该第一层中间图像特征对应的至少两个中间局部特征拼接，获得该第一层中间融合特征；该第一层中间融合特征是与该第一层中间图像特征不同的图像特征；该第一层中间融合特征与该第一层中间图像特征的尺寸相同；基于该第一层中间融合特征，以及该图像特征提取分支中的至少一个局部特征提取层，获取该第一图像对应的至少一种尺度的局部图像特征。

其中，第一指定数量可以是预先设定的，即当通过全局特征提取层的预先设定个数的特征提取层，对该第一图像进行特征提取，可以获得该第一图像的第一层中间图像特征，并将其传递给局部特征提取层；该第一指定数量小于该全局特征提取层中的特征提取层数量。

通过第一指定数量的特征提取层对该第一图像进行特征提取后，再传递给局部特征提取层，可以使得局部特征提取层得出的局部特征，与全局特征具有一定的相似性，其局部特征与全局特征更能真实的体现出第一图像的图像特征。

该第一层中间融合特征是通过第一层中间图像特征对应的至少两个中间局部特征拼接而成的，且该第一层中间融合特征与该第一层中间图像特征是不同的图像特征，即该第一层中间图像特征分割为两个中间局部特征后，该至少两个中间局部特征打乱空间顺序后进行拼接，得到与该第一层中间图像特征尺寸相同但特征不同的第一层中间融合特征。

当第一层中间图像特征根据高度进行平均分割后，获取第一中间局部特征与该第二中间局部特征，该第一中间局部特征与该第二中间局部特征再根据高度进行乱序组合，获取与该第一层中间图像特征对应的中间融合特征，其中该中间融合特征的特征尺寸与该第一层中间图像特征的特征尺寸相同。

即第一图像对应的中间图像特征的分割后乱序组合的过程可以是如图7所示方式，通过图7所示方式，将中间局部特征进行空间方位上的分割再乱序组合，此时通过特征提取层对图像特征进行提取时，上下模块之间的空间顺序对图像特征造成的影响程度减小，特征提取层更容易注意到局部的特征，实现了在保证特征图尺寸不变的情况下，通过打乱特征图的空间顺序，减小空间方位特征在提取局部特征中的影响，提高了对局部特征提取的准确性。

其中，对该第一层中间图像特征进行分割还可以通过其他的分割方式(例如竖直分割，区域分割等方式)进行分割，并分割为更多个中间局部特征，各个中间局部特征可以通过顺序交换后组合等方式进行再组合。

在一种可能的实现方式中，基于该第一层中间图像特征，以及该图像特征提取分支中的第一个局部特征提取层，获取该第一图像对应的第一种尺度的局部图像特征。

在一种可能的实现方式中，基于该第i-1个局部特征提取层中第二指定数量的特征提取层，对该第i-1层中间融合特征进行特征提取，获得第i层中间图像特征；将该第i层中间图像特征进行分割，获得该第i层中间图像特征对应的至少两个中间局部特征；将该第i层中间图像特征对应的至少两个中间局部特征拼接，获得该第i层中间融合特征；该第i层中间融合特征是与该第i层中间图像特征不同的图像特征；该第i层中间融合特征与该第i层中间图像特征的尺寸相同；基于该第i层中间融合特征，以及该图像特征提取分支中的第i个局部特征提取层，获取该第一图像对应的第i种尺度的局部图像特征；其中，2≤i≤N，且i与N为整数。

即每一层的局部特征提取层对应的第二指定数量可以不同。

步骤512，将该至少两种尺度的图像特征输入文本图像匹配模型中的第二特征融合分支，获取该第一图像对应的第二多尺度融合特征。

步骤513，基于该第一文本对应的第一多尺度融合特征，以及该第一图像对应的第二多尺度融合特征，获取该第一文本与该第一图像的特征相似度。

在一种可能的实现方式中，获取该第一多尺度融合特征与该第二多尺度融合特征对应的余弦距离，将该余弦距离作为该第一多尺度融合特征与该第二多尺度融合特征的特征相似度。

在另一种可能的实现方式中，获取该第一多尺度融合特征与该第二多尺度融合特征对应的欧式距离，将该欧式距离作为该第一多尺度融合特征与该第二多尺度融合特征的特征相似度。

第一文本对应的第一多尺度融合特征一定程度上保留了第一文本的不同尺度的文本特征，第一图像对应的第二多尺度融合特征也一定程度上保留了第一图像的不同尺度的图像特征，因此通过第一多尺度融合特征与第二多尺度融合特征得到的第一文本与第一图像的特征相似度，是受各个不同尺度的图像特征与各个不同尺度的文本特征之间的相似情况影响得出的第一文本与第一图像的特征相似度，该特征相似度同时包含同样尺度的文本特征与图像特征之间的相似关系、不同尺度的文本特征与图像特征之间的相似关系、以及各个不同尺度的文本特征互相融合作用以及各个不同尺度的图像特征互相融合作用后的相似关系，因此该特征相似度能较好的表现该第一文本与第一图像之间的相似情况

步骤514，基于该特征相似度，确定该第一文本与该第一图像的匹配关系。

在一种可能的实现方式中，将该候选图像集中的所有候选图像输入该图像特征提取分支，获取所有候选图像对应的候选图像特征，并根据各个候选图像的候选图像特征与目标文本特征的特征相似度，根据该特征相似度对图像特征进行排序，将最高的特征相似度对应的候选图像获取为与第一文本匹配的目标图像。

请参考图9，其示出了本申请实施例涉及的一种文本图像匹配模型训练示意图。如图9所示，第一样本图像911输入文本图像匹配模型中的图像特征提取分支910，获取该第一样本图像911对应的样本图像特征；样本文本921输入文本图像匹配模型中的文本特征提取分支920(即BERT模型)，输入样本文本921对应的样本文本特征，再将样本图像特征通过全连接层融合后的图像融合特征，与样本文本特征通过全连接层融合后文本融合特征，输入损失函数903，并根据损失函数值通过反向传播算法对文本特征提取分支920与图像特征提取分支910进行反向梯度更新。

请参考图10，其示出了本申请实施例涉及的一种文本图像匹配应用示意图。如图10所示，本申请实施例涉及的文本图像匹配方法可以应用在根据文本寻人，例如，通过寻人启事1001中的信息，确定需要搜索的目标文本(即该人的外貌与穿着的描述文本)，并将该目标文本输入文本图像匹配应用1002，此时文本图像匹配模型获取该目标文本，并根据该文本图像匹配模型对应的候选图像集，与该目标文本通过本申请实施例所示方法进行文本图像匹配，输出与目标文本匹配的包含候选人物的目标图像。

请参考图11，其是根据一示例性实施例示出的一种模型训练及文本图像匹配框架示意图。其中，模型训练过程在模型训练设备1100中执行，文本图像匹配过程在文本图像匹配设备1110中执行，如图11所示，第一样本图像1101输入文本图像匹配模型中的图像特征提取分支1102，根据该图像特征提取分支中的全局特征提取层以及至少一个局部特征提取层，对该第一样本图像1101进行特征提取后全局平均池化，获取该第一样本图像1101对应的样本图像特征1103，该样本图像特征1103中包含该第一样本图像的全局特征以及局部特征，通过全连接层将该全局特征以及局部特征融合输入损失函数1107。

样本文本1104输入文本图像匹配模型中的文本特征提取分支1105，其中该文本特征提取分支可以是BERT模型，BERT模型根据该样本文本中的CLS标识，分别获取该样本文本的样本文本特征1106，该样本文本特征1106包括全局文本特征、子句文本特征、以及词语文本特征，并根据全连接层将该全局文本特征、子句文本特征、以及词语文本特征融合后输入损失函数1107。损失函数根据该样本图像特征1103融合后的特征，以及样本文本特征1106融合后的特征，获取特征相似度，并根据该特征的相似度输出损失函数值，文本图像匹配模型根据该损失函数值进行反向传播更新该文本特征提取分支1105与图像特征提取分支1102。

在模型训练设备1100对该文本特征提取分支与图像特征提取分支训练完成后，将文本图像匹配模型1112传输至该文本图像匹配设备1110中，当输入第一文本1111时，文本图像匹配模型1112在对应的候选图像集1113，确定候选图像集中的各个候选图像与第一文本的匹配关系，并选择与该目标文本1111特征相似度最高的候选图像作为目标图像1114输出。

图12是根据一示例性实施例示出的一种文本图像匹配装置的结构方框图。该文本图像匹配装置可以实现由图4或图5所示实施例提供的方法中的全部或部分步骤，该文本图像匹配模型训练装置包括：

文本图像获取模块1201，用于获取第一文本与第一图像；

文本特征获取模块1202，用于获取所述第一文本对应的至少两种尺度的文本特征；

第一特征融合模块1203，用于将所述第一文本对应的至少两种尺度的文本特征融合，获取所述第一文本对应的第一多尺度融合特征；

图像特征获取模块1204，用于获取所述第一图像对应的至少两种尺度的图像特征；

第二特征融合模块1205，用于将所述至少两种尺度的图像特征融合，获取所述第一图像对应的第二多尺度融合特征；

相似度获取模块1206，用于基于所述第一文本对应的第一多尺度融合特征，以及所述第一图像对应的第二多尺度融合特征，获取所述第一文本与所述第一图像的特征相似度；

匹配关系获取模块1207，用于基于所述特征相似度，确定所述第一文本与所述第一图像的匹配关系。

在一种可能的实现方式中，所述第一特征融合模块1203，用于将所述至少两种尺度的文本特征输入文本图像匹配模型中的第一特征融合分支，获取所述第一文本对应的第一多尺度融合特征；

所述第二特征融合模块1205，用于将所述至少两种尺度的图像特征输入文本图像匹配模型中的第二特征融合分支，获取所述第一图像对应的第二多尺度融合特征。

在一种可能的实现方式中，所述图像特征获取模块1204，用于，

所述图像特征获取模块1204，包括：

在一种可能的实现方式中，所述文本特征获取模块1202，用于，

在一种可能的实现方式中，所述装置还包括：

样本文本特征获取模块1202，用于将所述样本文本输入所述文本图像匹配模型中的文本特征提取分支，获取所述样本文本对应的至少两种尺度的文本特征；

样本图像特征获取模块1204，用于将所述第一样本图像输入所述文本图像匹配模型中的图像特征提取分支，获取所述第一样本图像对应的至少两种尺度的图像特征；

图13是根据一示例性实施例示出的一种文本图像匹配装置的结构方框图。该文本图像匹配装置可以实现由图2或图6所示实施例提供的方法中的全部或部分步骤。该文本图像匹配装置包括：

训练样本集获取模块1301，用于获取训练样本集，所述训练样本集中包含样本文本，以及与所述样本文本匹配的样本图像；

样本文本特征获取模块1302，用于将所述样本文本输入所述文本图像匹配模型中的文本特征提取分支，获取所述样本文本对应的至少两种尺度的文本特征；

样本图像特征获取模块1303，用于将所述第一样本图像输入所述文本图像匹配模型中的图像特征提取分支，获取所述第一样本图像对应的至少两种尺度的图像特征；

样本文本融合模块1304，用于将所述样本文本对应的至少两种尺度的文本特征融合，获取所述样本文本对应的第一多尺度融合特征；

样本图像融合模块1305，用于将所述第一样本图像对应的至少两种尺度的图像特征融合，获取所述样本图像对应的第二融合特征；

损失函数值获取模块1306，用于将所述样本文本对应的第二多尺度融合特征与所述第一样本图像对应的第二融合特征输入损失函数，获取所述样本文本对应的损失函数值；

匹配模型更新模块1307，用于基于所述样本文本对应的损失函数值，更新所述文本图像匹配模型。

图14是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为上述各个方法实施例中的模型训练设备和/或文本图像匹配设备。所述计算机设备1400包括中央处理单元(CPU，Central Processing Unit)1401、包括随机存取存储器(Random Access Memory，RAM)1402和只读存储器(Read-Only Memory，ROM)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。所述计算机设备1400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统1406，和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

所述大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。所述大容量存储设备1407及其相关联的计算机可读介质为计算机设备1400提供非易失性存储。也就是说，所述大容量存储设备1407可以包括诸如硬盘或者光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、闪存或其他固态存储其技术，CD-ROM、或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

计算机设备1400可以通过连接在所述系统总线1405上的网络接口单元1411连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1401通过执行该一个或一个以上程序来实现图2、图4或图5所示的方法的全部或者部分步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法。例如，所述非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例所示的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种文本图像匹配方法，其特征在于，所述方法包括：

获取第一文本与第一图像；

获取所述第一文本对应的至少两种尺度的文本特征；将所述至少两种尺度的文本特征融合，获取所述第一文本对应的第一多尺度融合特征；

获取所述第一图像对应的至少两种尺度的图像特征；将所述至少两种尺度的图像特征融合，获取所述第一图像对应的第二多尺度融合特征；

2.根据权利要求1所述的方法，其特征在于，所述将所述至少两种尺度的文本特征融合，获取所述第一文本对应的第一多尺度融合特征，包括：

将所述至少两种尺度的文本特征输入文本图像匹配模型中的第一特征融合分支，获取所述第一文本对应的第一多尺度融合特征；

所述将所述至少两种尺度的图像特征融合，获取所述第一图像对应的第二多尺度融合特征，包括：

将所述至少两种尺度的图像特征输入文本图像匹配模型中的第二特征融合分支，获取所述第一图像对应的第二多尺度融合特征。

3.根据权利要求2所述的方法，其特征在于，

所述第一特征融合分支为全连接层或深度学习模型；

或者，所述第二特征融合分支为所述全连接层或所述深度学习模型。

4.根据权利要求2或3所述的方法，其特征在于，所述获取所述第一图像对应的至少两种尺度的图像特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述至少两种尺度的图像特征包括全局图像特征以及至少一种尺度的局部图像特征；所述图像特征提取分支包括全局特征提取层与至少一个局部特征提取层；所述全局特征提取层包含至少两个特征提取层；所述局部特征提取层包含至少一个特征提取层；所述特征提取层用于提取图像特征；

所述将所述第一图像输入文本图像匹配模型中的图像特征提取分支，获得所述第一图像对应的至少两种不同尺度的图像特征，包括：

基于所述第一图像，以及所述图像特征提取分支中的全局特征提取层，获取所述第一图像对应的全局图像特征；

基于所述第一图像与所述图像特征提取分支中的至少一个局部特征提取层，获取所述第一图像对应的至少一种尺度的局部图像特征。

6.根据权利要求5所述的方法，其特征在于所述基于所述第一图像与所述图像特征提取分支中的至少一个局部特征提取层，获取所述第一图像对应的至少一个不同尺度的局部图像特征，包括：

基于所述全局特征提取层中第一指定数量的特征提取层，对所述第一图像进行特征提取，获取所述第一图像对应的第一层中间图像特征；

将所述第一层中间图像特征进行分割，获得所述第一层中间图像特征对应的至少两个中间局部特征；

将所述第一层中间图像特征对应的至少两个中间局部特征拼接，获得所述第一层中间融合特征；所述第一层中间融合特征是与所述第一层中间图像特征不同的图像特征；所述第一层中间融合特征与所述第一层中间图像特征的尺寸相同；

基于所述第一层中间融合特征，以及所述图像特征提取分支中的至少一个局部特征提取层，获取所述第一图像对应的至少一种尺度的局部图像特征。

7.根据权利要求6所述的方法，其特征在于，所述图像特征提取分支包括N个局部特征提取层；

所述基于所述第一层中间图像特征，以及所述图像特征提取分支中的至少一个局部特征提取层，获取所述第一图像对应的至少一个尺度的局部图像特征，包括：

基于所述第一层中间图像特征，以及所述图像特征提取分支中的第一个局部特征提取层，获取所述第一图像对应的第一种尺度的局部图像特征；

8.根据权利要求2或3所述的方法，其特征在于，所述获取所述第一文本对应的至少两种尺度的文本特征，包括：

9.根据权利要求8所述的方法，其特征在于，所述将所述第一文本输入所述文本图像匹配模型中的文本特征提取分支，获得所述第一文本对应的至少两种尺度的文本特征，包括：

10.根据权利要求2、3、5、6、7或9所述的方法，其特征在于，所述方法还包括：

获取训练样本集，所述训练样本集中包含样本文本，以及与所述样本文本匹配的第一样本图像；

将所述样本文本输入所述文本图像匹配模型中的文本特征提取分支，获取所述样本文本对应的至少两种尺度的文本特征；

将所述第一样本图像输入所述文本图像匹配模型中的图像特征提取分支，获取所述第一样本图像对应的至少两种尺度的图像特征；

将所述第一样本图像对应的至少两种尺度的图像特征融合，获取所述第一样本图像对应的第二多尺度融合特征；

将所述样本文本对应的第一多尺度融合特征与所述第一样本图像对应的第二多尺度融合特征输入损失函数，获取所述样本文本对应的损失函数值；

11.一种文本图像匹配模型训练方法，其特征在于，所述方法包括：

12.一种文本图像匹配装置，其特征在于，所述装置包括：

文本图像获取模块，用于获取第一文本与第一图像；

13.一种图像匹配模型训练装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的文本图像匹配方法；或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求11所述的文本图像匹配模型训练方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的文本图像匹配方法；或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求11所述的文本图像匹配模型训练方法。