CN114973294A

CN114973294A - 基于图文匹配方法、装置、设备及存储介质

Info

Publication number: CN114973294A
Application number: CN202210895247.9A
Authority: CN
Inventors: 舒畅; 肖京; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-08-30
Anticipated expiration: 2042-07-28
Also published as: CN114973294B

Abstract

本发明涉及人工智能领域，揭露一种基于图文匹配方法，包括：利用融合图文匹配模型将单流图文匹配模型提取的第一融合图文特征及双流图文匹配模型提取文本特征及图像特征进行特征拼接，得到第一拼接图文特征及第二拼接图文特征，将第一拼接图文特征进行图文匹配，得到第一图文匹配概率，并将第二拼接图文特征进行图文匹配，得到第二图文匹配概率，最后将第一图文匹配概率及第二图文匹配概率进行全连接操作，输出图文匹配结果。本发明还涉及一种区块链技术，图文匹配结果可存储在区块链节点中。本发明还提出一种基于图文匹配装置、设备以及介质。本发明可以提高图文匹配的准确率。

Description

基于图文匹配方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于图文匹配方法、装置、设备及存储介质。

背景技术

图文匹配是指将具有相同或相似语义的图片与文本进行匹配，例如给定一张图像，生成或者检索到最贴近图片的概括性的文本。传统的图文匹配方法常常通过使用单流图文匹配模型进行图片与文本之间的匹配，即将图片和文本输入同一个模型提取特征了，这种单流模型未考虑多种模态的数据，使得特征提取的准确率从较低，从而降低图片匹配的准确率；或通过单纯使用双流图文匹配模型进行图片与文本之间的匹配，即图片和文本输入不同的两个模型，分别提取图片与文本的特征，并进行特征融合，在融合两种特征时，常手动设置权重的方法，由于手动设置权重是基于经验设置的，也导致图文匹配的准确率较低。

发明内容

本发明提供一种基于图文匹配方法、装置、设备及存储介质，其主要目的是提高图文匹配的准确率。

为实现上述目的，本发明提供了一种基于图文匹配方法，包括：

获取样本文本及样本文本相应的样本图像，将所述样本文本及所述样本图像输入至训练完成的融合图文匹配模型中，其中，所述融合图文匹配模型由预设的单流图文匹配模型及预设的双流图文匹配模型融合组成。

利用所述单流图文匹配模型提取所述样本文本及所述样本图像之间的第一融合图文特征；

利用所述双流图文匹配模型中的文本识别子模型提取所述样本文本的文本特征，并利用双流图文匹配模型中的图片识别子模型提取所述样本图像的图像特征；

利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行特征拼接，得到第一拼接图文特征，并将所述第一拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第一图文匹配概率；

利用所述融合图文匹配模型中的池化层将所述文本特征及所述图像特征进行融合，得到第二融合图文特征，并将所述第一融合图文特征与所述第二融合图文特征进行拼接，得到第二拼接图文特征，并将所述第二拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第二图文匹配概率；

利用所述融合图文匹配模型中的全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，输出所述样本文本及所述样本图像的最终图文匹配结果。

可选地，所述利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行特征拼接，得到第一拼接图文特征，包括：

利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行部分掩码，得到遮蔽融合特征、遮蔽文本特征及遮蔽图像特征；

将所述遮蔽融合特征、所述遮蔽文本特征及所述遮蔽图像特征进行拼接，得到所述第一拼接图文特征。

可选地，所述利用所述融合图文匹配模型中的全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，输出所述样本文本及所述样本图像的最终图文匹配结果，包括：

利用所述全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行权重分配，得到融合匹配概率值；

根据所述融合匹配概率值与预设匹配概率的比较结果，利用激活函数输出所述样本文本及所述样本图像的最终图文匹配结果。

可选地，所述利用所述全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行权重分配，得到融合匹配概率值，包括：

利用下述公式将所述第一图文匹配概率及所述第二图文匹配概率进行权重分配：

其中，f(x,a)表示融合匹配概率值，k表示融合的类别数量，x表示第一图文匹配概率和第二图文匹配概率，

表示第一图文匹配概率，

表示第二图文匹配概率，a表示权重参数（a∈(0,1)）。

可选地，所述利用所述单流图文匹配模型提取所述样本文本及所述样本图像之间的第一融合图文特征，包括：

利用所述单流图文匹配模型将所述样本文本及所述样本图像进行初始化，得到初始融合样本；

利用所述单流图文匹配模型中的融合层提取所述初始融合样本的特征，得到所述第一融合图文特征。

可选地，所述利用所述双流图文匹配模型中的文本识别子模型提取所述样本文本的文本特征，包括：

利用所述文本识别子模型提取所述样本文本的字符向量集；

将所述字符向量集中的文本字符进行位置编码，得到字符位置编码向量集；

将所述字符位置编码向量集和所述字符向量集进行组合，得到所述文本特征。

可选地，所述利用双流图文匹配模型中的图片识别子模型提取所述样本图像的图像特征，包括：

利用所述图片识别子模型对所述样本图像执行卷积操作，得到图像特征向量集；

将所述图像特征向量集执行叠加偏差量计算，得到所述图像特征。

为了解决上述问题，本发明还提供一种基于图文匹配装置，所述装置包括：

样本获取模块，用于获取样本文本及样本文本相应的样本图像，将所述样本文本及所述样本图像输入至训练完成的融合图文匹配模型中，其中，所述融合图文匹配模型由预设的单流图文匹配模型及预设的双流图文匹配模型融合组成；

单流模型特征提取模块，用于利用所述单流图文匹配模型提取所述样本文本及所述样本图像之间的第一融合图文特征；

双流模型特征提取模块，用于利用所述双流图文匹配模型中的文本识别子模型提取所述样本文本的文本特征，并利用双流图文匹配模型中的图片识别子模型提取所述样本图像的图像特征；

第一特征融合模块，用于利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行特征拼接，得到第一拼接图文特征，并将所述第一拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第一图文匹配概率；

第二特征融合模块，用于利用所述融合图文匹配模型中的池化层将所述文本特征及所述图像特征进行融合，得到第二融合图文特征，并将所述第一融合图文特征与所述第二融合图文特征进行拼接，得到第二拼接图文特征，并将所述第二拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第二图文匹配概率；

图文匹配模块，用于利用所述融合图文匹配模型中的全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，输出所述样本文本及所述样本图像的最终图文匹配结果。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个计算机程序；及

处理器，执行所述存储器中存储的计算机程序以实现上述所述的基于图文匹配方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于图文匹配方法。

本发明实施例中，通过利用融合图文匹配模型将单流图文匹配模型提取的第一融合图文特征及双流图文匹配模型提取文本特征及图像特征进行特征拼接，得到第一拼接图文特征及第二拼接图文特征，可以实现多种模态特征进行拼接，提高特征提取的准确率；将所述第一拼接图文特征进行图文匹配，得到第一图文匹配概率，并将所述第二拼接图文特征进行图文匹配，得到第二图文匹配概率，最后将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，可以实现自动分配权重，提高图文匹配的准确率。因此本发明实施例提出的基于图文匹配方法、装置、设备及存储介质可以提高图文匹配的准确率。

附图说明

图1为本发明一实施例提供的基于图文匹配方法的流程示意图；

图2为本发明一实施例提供的基于图文匹配方法中一个步骤的详细流程示意图；

图3为本发明一实施例提供的基于图文匹配方法中一个步骤的详细流程示意图；

图4为本发明一实施例提供的基于图文匹配装置的模块示意图；

图5为本发明一实施例提供的实现基于图文匹配方法的电子设备的内部结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供一种基于图文匹配方法。所述基于图文匹配方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述基于图文匹配方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

参照图1所示的本发明一实施例提供的基于图文匹配方法的流程示意图，在本发明实施例中，所述基于图文匹配方法包括以下步骤S1-S6：

S1、获取样本文本及样本文本相应的样本图像，将所述样本文本及所述样本图像输入至训练完成的融合图文匹配模型中，其中，所述融合图文匹配模型由预设的单流图文匹配模型及预设的双流图文匹配模型融合组成。

本发明实施例中，所述样本文本是指描述样本图像的概括性文本；所述样本图像是指与样本文本描述的场景相干的图片。

本发明实施例中，所述融合图文匹配模型是由预设的单流图文匹配模型及预设的双流图文匹配模型融合形成；所述单流图文匹配模型是指将图片和文本输入同一个模型中，以提取特征的模型；所述双流图文匹配模型包含文本识别子模型及图片识别子模型；样本文本的特征可以由文本识别子模型进行提取；样本图像的特征可以由图片识别子模型进行提取；较佳的，所述融合图文匹配模型可以transforme神经网络及卷积神经网络（CNN）组合的多态模型；可以为所述单流图文匹配模型可以为transforme神经网络；所述双流图文匹配模型都可以为transforme神经网络及卷积神经网络（CNN）组合的双态模型。

S2、利用所述单流图文匹配模型提取所述样本文本及所述样本图像之间的第一融合图文特征。

作为本发明的一个实施例，所述利用所述单流图文匹配模型提取所述样本文本及所述样本图像之间的第一融合图文特征，包括：

利用所述单流图文匹配模型将所述样本文本及所述样本图像进行初始化，得到初始融合样本；利用所述单流图文匹配模型中的融合层提取所述初始融合样本的特征，得到所述第一融合图文特征。

其中，初始化之后的单流图文匹配模型中可以为

，

是指样本文本序列，e_m是指样本图像序列。其中，所述所述融合层包括自注意力模块及非线性FFN层组成，自注意力模块主要用来提取样本文本的特征，非线性FFN层主要用来提取样本图像的特征，通过所述融合层，可以直接将提取的样本文本的特征及样本图像的特征进行融合，得到第一融合图文特征

，

是指在l层中的文本特征，

是指在l层中的图像特征。

S3、利用所述双流图文匹配模型中的文本识别子模型提取所述样本文本的文本特征，并利用双流图文匹配模型中的图片识别子模型提取所述样本图像的图像特征。

本发明实施例中，所述文本识别子模型是指对样本文本进行编码的transformer神经网络；所述图片识别子模型是指对样本图像进行编码的卷积神经网络。

作为本发明的一个实施例，所述利用所述双流图文匹配模型中的文本识别子模型提取所述样本文本的文本特征，包括：

利用所述文本识别子模型提取所述样本文本的字符向量集；将所述字符向量集中的文本字符进行位置编码，得到字符位置编码向量集；将所述字符位置编码向量集和所述字符向量集进行组合，得到所述文本特征。

其中，对所述字符向量集中的字符进行位置编码可通过下述公式实现：

其中，所述PE是指位置编码（Positional Encoding)，所述d_model表示字符向量进行位置编码的长度，pos表示字符的位置，i表示字符向量的维度。

进一步地，所述利用双流图文匹配模型中的图片识别子模型提取所述样本图像的图像特征，包括：利用所述图片识别子模型对所述样本图像执行卷积操作，得到图像特征向量集；将所述图像特征向量集执行叠加偏差量计算，得到所述图像特征。

其中，所述叠加偏差量是在样本图像在缩小同样倍数的情况下，保证样本图像的主要特征不会丢失，并将主要特征进行融合，以得到图像特征。

S4、利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行特征拼接，得到第一拼接图文特征，并将所述第一拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第一图文匹配概率。

本发明实施例中，所述第一拼接图文特征是指将第一融合图文特征、文本特征及图像特征拼接得到的样本文本及样本图像的混合特征。所述第一图文匹配概率是指样本文本中与样本图像内容相匹配的概率。

本发明实施例通过利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行特征拼接，得到第一拼接图文特征，并将所述第一拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第一图文匹配概率，可以实现多种模态特征进行拼接，提高特征提取的准确率。

作为本发明的一个实施例，参考图2所示，所述利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行特征拼接，得到第一拼接图文特征，包括以下步骤S41-S42：

S41、利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行部分掩码，得到遮蔽融合特征、遮蔽文本特征及遮蔽图像特征；

S42、将所述遮蔽融合特征、所述遮蔽文本特征及所述遮蔽图像特征进行拼接，得到所述第一拼接图文特征。

其中，使用掩蔽多头注意力机制层（masked multi-head attention）主要目的是帮助获取到当前节点需要关注的重要内容，遮蔽的内容是标签序列中当前结点之后的标签，且利用掩蔽多头注意力机制层可以使得输入特征的干净部分和噪声部分有较为明显的区分，进而对噪声部分进行掩蔽处理，能够更有效地抑制噪声，进一步提高数据特征提取的准确性。

进一步地，可以通过预设的分类器（如MLP，多层感知分类器）将所述第一拼接图文特征进行图文匹配，得到第一图文匹配概率。

S5、利用所述融合图文匹配模型中的池化层将所述文本特征及所述图像特征进行融合，得到第二融合图文特征，并将所述第一融合图文特征与所述第二融合图文特征进行拼接，得到第二拼接图文特征，并将所述第二拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第二图文匹配概率。

本发明实施例中，所述第二拼接图文特征也是指将第一融合图文特征、文本特征及图像特征拼接得到的样本文本及样本图像的混合特征，与第一拼接图文特征区别在于，第二拼接图文特征是将文本特征及图像特征融合之后再进行拼接的。

本发明实施例通过利用所述融合图文匹配模型中的池化层将所述文本特征及所述图像特征进行融合，得到第二融合图文特征，并将所述第一融合图文特征与所述第二融合图文特征进行拼接，得到第二拼接图文特征，并将所述第二拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第二图文匹配概率，可以实现多种模态特征进行拼接，提高特征提取的准确率。

作为本发明的一个实施例，所述利用所述融合图文匹配模型中的池化层将所述文本特征及所述图像特征进行融合，得到第二融合图文特征，包括：

利用所述融合图文模型中的池化层将所述文本特征及所述图像特征进行池化操作，得到所述第二融合图文特征。

其中，将文本特征及图像特征进行池化，可将文本特征及图像特征在融合的过程中，仅保留最重要的特征，去除一些无关特征，便于后续图文匹配的计算，提高图文匹配的效率。

本发明一实施例中，所述将所述第一融合图文特征与所述第二融合图文特征进行拼接，得到第二拼接图文特征与S4中所述利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行特征拼接，得到第一拼接图文特征的方法类似，此处不再赘述。

进一步地，所述将所述第二拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第二图文匹配概率与S4中所述将所述第二拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第二图文匹配概率的方法类似，此处不再赘述。

S6、利用所述融合图文匹配模型中的全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，输出所述样本文本及所述样本图像的最终图文匹配结果。

本发明实施例中，所述最终图文匹配结果是指样本图像中与样本文本的描述相匹配的结果，比如，样本图像为一个男性手持棒球棍，与其匹配的样本文本可以为一个戴着棒球帽的男性手持棒球棍。

本发明实施例通过利用所述融合图文匹配模型中的全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，输出所述样本文本及所述样本图像的最终图文匹配结果，可以实现自动分配权重，提高图文匹配的准确率

作为本发明的一个实施例，参考图3所示，所述利用所述融合图文匹配模型中的全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，输出所述样本文本及所述样本图像的最终图文匹配结果，包括以下步骤S61-S62：

S61、利用所述全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行权重分配，得到融合匹配概率值；

S62、根据所述融合匹配概率值与预设匹配概率的比较结果，利用激活函数输出所述样本文本及所述样本图像的最终图文匹配结果。

进一步地，所述利用所述全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行权重分配，得到融合匹配概率值，包括：

表示第一图文匹配概率，

表示第二图文匹配概率，a表示权重参数（a∈(0,1)）。

本发明一实施例中，可以利用下述公式输出最终图文匹配结果：

其中，s'表示最终图文匹配结果，s表示比较结果，e表示无限不循环小数。

本发明实施例中，通过利用融合图文匹配模型将单流图文匹配模型提取的第一融合图文特征及双流图文匹配模型提取文本特征及图像特征进行特征拼接，得到第一拼接图文特征及第二拼接图文特征，可以实现多种模态特征进行拼接，提高特征提取的准确率；将所述第一拼接图文特征进行图文匹配，得到第一图文匹配概率，并将所述第二拼接图文特征进行图文匹配，得到第二图文匹配概率，最后将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，可以实现自动分配权重，提高图文匹配的准确率。因此本发明实施例提出的基于图文匹配方法可以提高图文匹配的准确率。

本发明所述基于图文匹配装置100可以安装于电子设备中。根据实现的功能，所述基于图文匹配装置可以包括样本获取模块101、单流模型特征提取模块102、双流模型特征提取模块103、第一特征融合模块104、第二特征融合模块105、图文匹配模块106，本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述样本获取模块101，用于获取样本文本及样本文本相应的样本图像，将所述样本文本及所述样本图像输入至训练完成的融合图文匹配模型中，其中，所述融合图文匹配模型由预设的单流图文匹配模型及预设的双流图文匹配模型融合组成。

所述单流模型特征提取模块102，用于利用所述单流图文匹配模型提取所述样本文本及所述样本图像之间的第一融合图文特征。

作为本发明的一个实施例，所述单流模型特征提取模块102通过执行下述操作利用所述单流图文匹配模型提取所述样本文本及所述样本图像之间的第一融合图文特征，包括：

其中，初始化之后的单流图文匹配模型中可以为

，

，

是指在l层中的文本特征，

是指在l层中的图像特征。

所述双流模型特征提取模块103，用于利用所述双流图文匹配模型中的文本识别子模型提取所述样本文本的文本特征，并利用双流图文匹配模型中的图片识别子模型提取所述样本图像的图像特征。

作为本发明的一个实施例，所述双流模型特征提取模块103通过执行下述操作利用所述双流图文匹配模型中的文本识别子模型提取所述样本文本的文本特征，包括：

利用所述文本识别子模型提取所述样本文本的字符向量集；

本发明一可选实施例中，对所述字符向量集中的字符进行位置编码可通过下述公式实现：

进一步地，所述利用双流图文匹配模型中的图片识别子模型提取所述样本图像的图像特征，包括：

所述第一特征融合模块104，用于利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行特征拼接，得到第一拼接图文特征，并将所述第一拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第一图文匹配概率。

作为本发明的一个实施例，所述第一特征融合模块104通过执行下述操作利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行特征拼接，得到第一拼接图文特征，包括：

所述第二特征融合模块105，用于利用所述融合图文匹配模型中的池化层将所述文本特征及所述图像特征进行融合，得到第二融合图文特征，并将所述第一融合图文特征与所述第二融合图文特征进行拼接，得到第二拼接图文特征，并将所述第二拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第二图文匹配概率。

本发明一实施例中，所述将所述第一融合图文特征与所述第二融合图文特征进行拼接，得到第二拼接图文特征与所述利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行特征拼接，得到第一拼接图文特征的方法类似，此处不再赘述。

进一步地，所述将所述第二拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第二图文匹配概率与所述将所述第二拼接图文特征进行图文匹配，得到所述样本文本及所述样本图像的第二图文匹配概率的方法类似，此处不再赘述。

所述图文匹配模块106，用于利用所述融合图文匹配模型中的全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，输出所述样本文本及所述样本图像的最终图文匹配结果。

作为本发明的一个实施例，所述图文匹配模块106通过执行下述操作利用所述融合图文匹配模型中的全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，输出所述样本文本及所述样本图像的最终图文匹配结果，包括：

表示第一图文匹配概率，

表示第二图文匹配概率，a表示权重参数（a∈(0,1)）。

本发明实施例中，通过利用融合图文匹配模型将单流图文匹配模型提取的第一融合图文特征及双流图文匹配模型提取文本特征及图像特征进行特征拼接，得到第一拼接图文特征及第二拼接图文特征，可以实现多种模态特征进行拼接，提高特征提取的准确率；将所述第一拼接图文特征进行图文匹配，得到第一图文匹配概率，并将所述第二拼接图文特征进行图文匹配，得到第二图文匹配概率，最后将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，可以实现自动分配权重，提高图文匹配的准确率。因此本发明实施例提出的基于图文匹配装置可以提高图文匹配的准确率。

如图5所示，是本发明实现基于图文匹配方法的电子设备的结构示意图。

所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于图文匹配程序。

其中，所述存储器11至少包括一种类型的介质，所述介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、本地磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡（Smart Media Card，SMC）、安全数字（Secure Digital，SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据，例如基于图文匹配程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing Unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心（Control Unit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块（例如基于图文匹配程序等），以及调用存储在所述存储器11内的数据，以执行电子设备的各种功能和处理数据。

所述通信总线12可以是外设部件互连标准（PerIPheral ComponentInterconnect，简称PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

可选地，所述通信接口13可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备与其他电子设备之间建立通信连接。

可选地，所述通信接口13还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备中的所述存储器11存储的基于图文匹配程序是多个计算机程序的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取介质中。所述计算机可读介质可以是非易失性的，也可以是易失性的。所述计算机可读介质可以包括：能够携待所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）。

本发明实施例还可以提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

在本发明所提供的几个实施例中，应该理解到，所揭露的介质、设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于图文匹配方法，其特征在于，所述方法包括：

获取样本文本及样本文本相应的样本图像，将所述样本文本及所述样本图像输入至训练完成的融合图文匹配模型中，其中，所述融合图文匹配模型由预设的单流图文匹配模型及预设的双流图文匹配模型融合组成；

2.如权利要求1所述的基于图文匹配方法，其特征在于，所述利用所述融合图文匹配模型中的掩蔽多头注意力机制层将所述第一融合图文特征、所述文本特征及所述图像特征进行特征拼接，得到第一拼接图文特征，包括：

3.如权利要求1所述的基于图文匹配方法，其特征在于，所述利用所述融合图文匹配模型中的全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行全连接操作，输出所述样本文本及所述样本图像的最终图文匹配结果，包括：

4.如权利要求3所述的基于图文匹配方法，其特征在于，所述利用所述全连接层将所述第一图文匹配概率及所述第二图文匹配概率进行权重分配，得到融合匹配概率值，包括：

表示第一图文匹配概率，

表示第二图文匹配概率，a表示权重参数（a∈(0,1)）。

5.如权利要求1所述的基于图文匹配方法，其特征在于，所述利用所述单流图文匹配模型提取所述样本文本及所述样本图像之间的第一融合图文特征，包括：

6.如权利要求1所述的基于图文匹配方法，其特征在于，所述利用所述双流图文匹配模型中的文本识别子模型提取所述样本文本的文本特征，包括：

利用所述文本识别子模型提取所述样本文本的字符向量集；

7.如权利要求1所述的基于图文匹配方法，其特征在于，所述利用双流图文匹配模型中的图片识别子模型提取所述样本图像的图像特征，包括：

8.一种基于图文匹配装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的基于图文匹配方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于图文匹配方法。