CN114723986A

CN114723986A - 文本图像匹配方法、装置、设备及存储介质

Info

Publication number: CN114723986A
Application number: CN202210256789.1A
Authority: CN
Inventors: 郑喜民; 翟尤; 周成昊; 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-07-08
Also published as: WO2023173547A1

Abstract

本申请涉及人工智能技术领域，揭示了一种文本图像匹配方法、装置、设备及存储介质，其中方法包括：对所述待匹配对象进行类型识别，得到类型识别结果；根据所述类型识别结果，从预设的候选对象库中确定候选对象集；根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取；对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征；对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度；根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果。避免图像特征和文本特征的直接匹配操作，采用融合特征进行文本图像匹配可以增加匹配的精度。

Description

文本图像匹配方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种文本图像匹配方法、装置、设备及存储介质。

背景技术

文本图像匹配，指的是一种跨模态的匹配搜索方式。通过给定的一段自然语言文本，检索出与这段文本描述相符合的图像；或者给出一张图像，检索出与图像内容相一致的文本。

作为一种跨模态的匹配搜索方式，系统需要分别处理图像和自然语言文本两种信息，然后根据处理结果进行匹配。目前已经有一些此方面的数据集和算法，但是在这些算法中，首先将图像和自然语言文本分别通过特征提取网络进行特征提取，然后再对提取出的两种特征进行匹配操作。因为图像和文本之间的差异巨大，这两个模态之间的特征往往难以匹配，会造成匹配精度较低。

发明内容

本申请的主要目的为提供一种文本图像匹配方法、装置、设备及存储介质，旨在解决目前在文本图像匹配时，首先将图像和自然语言文本分别通过特征提取网络进行特征提取，然后再对提取出的两种特征进行匹配操作，存在匹配精度较低的技术问题。

为了实现上述发明目的，本申请提出一种文本图像匹配方法，所述方法包括：

获取待匹配对象；

对所述待匹配对象进行类型识别，得到类型识别结果；

根据所述类型识别结果，从预设的候选对象库中确定候选对象集；

根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取；

对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征；

对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度；

根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果。

进一步的，所述对所述待匹配对象进行类型识别，得到类型识别结果的步骤，包括：

将所述待匹配对象输入预设的文本图像分类模型进行分类预测，得到分类预测结果；

当所述分类预测结果中的与文本标签对应的向量元素大于所述分类预测结果中的与图像标签对应的向量元素时，确定所述类型识别结果为文本类型；

当所述分类预测结果中的与所述文本标签对应的向量元素小于所述分类预测结果中的与所述图像标签对应的向量元素时，确定所述类型识别结果为图像类型。

进一步的，所述根据所述类型识别结果，从预设的候选对象库中确定候选对象集的步骤，包括：

当所述类型识别结果为文本类型时，将所述候选对象库中的图像子库作为所述候选对象集；

当所述类型识别结果为图像类型时，将所述候选对象库中的文本子库作为所述候选对象集。

进一步的，所述根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取的步骤，包括：

将所述候选对象集中的任一个所述候选对象作为目标对象；

将所述目标对象输入与所述候选对象集的类型对应的编码模型中进行编码，得到第一编码；

将所述待匹配对象输入与所述类型识别结果对应的所述编码模型中进行编码，得到第二编码；

将所述第一编码和所述第二编码，在维度上进行拼接，得到融合编码；

将所述融合编码输入预设的融合特征提取模型进行特征提取，得到与所述目标对象对应的所述融合特征。

进一步的，所述对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征的步骤，包括：

将所述候选对象集中的每个所述候选对象分别输入与所述候选对象集的类型对应的单对象特征提取模型中进行特征提取，得到每个所述候选对象对应是所述候选对象特征。

进一步的，所述对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度的步骤，包括：

将所述候选对象集中的任一个所述候选对象作为待计算对象；

将所述待计算对象对应的所述融合特征作为第一特征；

将所述待计算对象对应的所述候选对象特征作为第二特征；

对所述第一特征与所述第二特征进行余弦相似度计算，得到所述待计算对象对应的所述单对象相似度。

进一步的，所述单对象相似度是余弦相似度，所述根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果的步骤，包括：

从各个所述单对象相似度中找出值为最大的所述单对象相似度，作为目标相似度；

判断所述目标相似度是否大于预设的相似度阈值；

若是，则确定所述目标匹配结果的结果为成功，并且将所述目标相似度在所述候选对象集中对应的所述候选对象作为所述目标匹配结果的命中对象；

若否，则确定所述目标匹配结果的结果为失败。

本申请还提出了一种文本图像匹配装置，所述装置包括：

数据获取模块，用于获取待匹配对象；

类型识别结果确定模块，用于对所述待匹配对象进行类型识别，得到类型识别结果；

候选对象集确定模块，用于根据所述类型识别结果，从预设的候选对象库中确定候选对象集；

融合特征提取模块，用于根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取；

候选对象特征确定模块，用于对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征；

单对象相似度确定模块，用于对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度；

目标匹配结果确定模块，用于根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的文本图像匹配方法、装置、设备及存储介质，其中方法通过对所述待匹配对象进行类型识别，得到类型识别结果；根据所述类型识别结果，从预设的候选对象库中确定候选对象集；根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取；对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征；对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度；根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果。通过首先对待匹配对象和候选对象进行融合特征提取，然后对融合特征与候选对象特征进行匹配操作，避免图像特征和文本特征的直接匹配操作，而且采用融合特征进行文本图像匹配可以增加匹配的精度，提高了文本图像匹配的准确性。

附图说明

图1为本申请一实施例的文本图像匹配方法的流程示意图；

图2为本申请一实施例的文本图像匹配装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种文本图像匹配方法，所述方法包括：

S1：获取待匹配对象；

S2：对所述待匹配对象进行类型识别，得到类型识别结果；

S3：根据所述类型识别结果，从预设的候选对象库中确定候选对象集；

S4：根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取；

S5：对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征；

S6：对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度；

S7：根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果。

本实施例通过对所述待匹配对象进行类型识别，得到类型识别结果；根据所述类型识别结果，从预设的候选对象库中确定候选对象集；根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取；对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征；对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度；根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果。通过首先对待匹配对象和候选对象进行融合特征提取，然后对融合特征与候选对象特征进行匹配操作，避免图像特征和文本特征的直接匹配操作，而且采用融合特征进行文本图像匹配可以增加匹配的精度，提高了文本图像匹配的准确性。

对于S1，可以获取用户输入的待匹配对象，也可以从数据库中获取待匹配对象，还可以从第三方应用中获取待匹配对象。

待匹配对象，是需要进行文本图像匹配的对象。

待匹配对象是一段文本或一张图像。

对于S2，对所述待匹配对象进行类型识别，以实现判断待匹配对象是文本或图像。

类型识别结果的值只有一个。类型识别结果的取值范围包括：文本类型和图像类型。

对于S3，将所述类型识别结果，在候选对象库中的进行类型标识匹配，将匹配到的类型标识在候选对象库中对应的子库标识对于的字库作为候选对象集。

候选对象库包括：类型标识和子库标识。

对于S4，根据所述待匹配对象和所述候选对象集中的每个候选对象进行文本与图像之间的中间特征的提取，将提取到的中间特征作为融合特征。

其中，根据所述待匹配对象的编码和所述候选对象集中的每个候选对象的编码进行特征提取，将提取到的特征作为融合特征。

其中，融合特征的数量与所述候选对象集中的候选对象的数量相同。

对于S5，对所述候选对象集中的每个所述候选对象进行特征提取，将提取到的特征作为候选对象特征，可以理解的是，候选对象特征与候选对象一一对应。

对于S6，对同一所述候选对象对应的所述融合特征和所述候选对象特征进行余弦相似度或者欧式距离计算，将计算得到的数据作为一个单对象相似度。

也就是说，单对象相似度的数量与所述候选对象集中的候选对象的数量相同。

对于S7，当所述单对象相似度是余弦相似度时，从各个所述单对象相似度中找出值为最大的所述单对象相似度，将找出的所述单对象相似度在所述候选对象集对应的候选对象作为与所述待匹配对象对应的目标匹配结果的命中对象；当所述单对象相似度是欧氏距离时，从各个所述单对象相似度中找出值为最小的所述单对象相似度，将找出的所述单对象相似度在所述候选对象集对应的候选对象作为与所述待匹配对象对应的目标匹配结果的命中对象。

在一个实施例中，上述对所述待匹配对象进行类型识别，得到类型识别结果的步骤，包括：

S21：将所述待匹配对象输入预设的文本图像分类模型进行分类预测，得到分类预测结果；

S22：当所述分类预测结果中的与文本标签对应的向量元素大于所述分类预测结果中的与图像标签对应的向量元素时，确定所述类型识别结果为文本类型；

S23：当所述分类预测结果中的与所述文本标签对应的向量元素小于所述分类预测结果中的与所述图像标签对应的向量元素时，确定所述类型识别结果为图像类型。

本实施例通过文本图像分类模型进行分类预测，提高了分类预测的结果，从而提高了文本图像匹配的准确性。

对于S21，将所述待匹配对象输入预设的文本图像分类模型进行分类预测，将分类预测得到的数据作为分类预测结果。

文本图像分类模型可以采用二分类器。

分类预测结果是一个向量，该向量中有两个向量元素，两个向量元素分别对应文本标签和图像标签，该向量中的向量元素是概率值。

对于S22，当所述分类预测结果中的与文本标签对应的向量元素大于所述分类预测结果中的与图像标签对应的向量元素时，意味着文本标签对应的向量元素最大，此时所述待匹配对象是一段文本，因此确定所述类型识别结果为文本类型。

对于S23，当所述分类预测结果中的与所述文本标签对应的向量元素小于所述分类预测结果中的与所述图像标签对应的向量元素时，意味着图像标签对应的向量元素最大，此时所述待匹配对象是一张图像，因此确定所述类型识别结果为图像类型。

在一个实施例中，上述根据所述类型识别结果，从预设的候选对象库中确定候选对象集的步骤，包括：

S31：当所述类型识别结果为文本类型时，将所述候选对象库中的图像子库作为所述候选对象集；

S32：当所述类型识别结果为图像类型时，将所述候选对象库中的文本子库作为所述候选对象集。

本实施例在所述类型识别结果为文本类型时将图像子库作为所述候选对象集，在所述类型识别结果为图像类型时将文本子库作为所述候选对象集，从而为融合特征的生成和文本图像匹配提供了基础。

对于S31，当所述类型识别结果为文本类型时，意味着述待匹配对象是一段文本，因此将所述候选对象库中的文本类型对应的子库标识对应的图像子库作为所述候选对象集，此时所述候选对象集中的候选对象是图像。

对于S32，当所述类型识别结果为图像类型时，意味着述待匹配对象是一张图像，因此将所述候选对象库中的图像类型对应的子库标识对应的图像子库作为所述候选对象集，此时所述候选对象集中的候选对象是文本。

在一个实施例中，上述根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取的步骤，包括：

S41：将所述候选对象集中的任一个所述候选对象作为目标对象；

S42：将所述目标对象输入与所述候选对象集的类型对应的编码模型中进行编码，得到第一编码；

S43：将所述待匹配对象输入与所述类型识别结果对应的所述编码模型中进行编码，得到第二编码；

S44：将所述第一编码和所述第二编码，在维度上进行拼接，得到融合编码；

S45：将所述融合编码输入预设的融合特征提取模型进行特征提取，得到与所述目标对象对应的所述融合特征。

本实施例先分别对所述待匹配对象和所述候选对象进行编码及维度拼接，然后将维度拼接的结果输入融合特征提取模型进行特征提取，从而提取到了图像和文本之间的中间特征，为对融合特征与候选对象特征进行匹配操作提供了基础。

对于S42，当所述候选对象集的类型为文本类型时，则将所述目标对象输入与文本类型对应的编码模型中进行编码，将编码得到数据作为第一编码；当所述候选对象集的类型为图像类型时，则将所述目标对象输入与图像类型对应的编码模型中进行编码，将编码得到数据作为第一编码。

可选的，所述编码模型采用全连接层。因编码模型是较浅的信息编码，因此将保留目标对象中的大量原始信息。

可以理解的是，所述编码模型还可以采用其他可以进行编码的模型，在此不做限定。

对于S43，当所述类型识别结果为文本类型时，则将所述待匹配对象输入与文本类型对应的编码模型中进行编码，将编码得到数据作为第二编码；当所述类型识别结果为图像类型时，则将所述待匹配对象输入与图像类型对应的编码模型中进行编码，将编码得到数据作为第二编码。

对于S44，可选的，采用先文本再图像的顺序，将所述第一编码和所述第二编码，在维度上进行拼接，将拼接得到的数据作为融合编码，此时的融合编码在维度上依次是文本编码、图像编码。

可选的，采用先图像再文本的顺序，将所述第一编码和所述第二编码，在维度上进行拼接，将拼接得到的数据作为融合编码，此时的融合编码在维度上依次是图像编码、文本编码。

对于S45，将所述融合编码输入预设的融合特征提取模型进行特征提取，将提取到的特征作为与所述目标对象对应的所述融合特征。

融合特征提取模型是基于Rresnet50网络或Unet网络训练得到的模型。Rresnet50网络，是深度残差网络。Unet网络，是语义分割网络。

可以理解的是，重复步骤S41至步骤S45，即可确定所述候选对象集中的每个候选对象对应的所述融合特征。

在一个实施例中，上述对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征的步骤，包括：

S51：将所述候选对象集中的每个所述候选对象分别输入与所述候选对象集的类型对应的单对象特征提取模型中进行特征提取，得到每个所述候选对象对应是所述候选对象特征。

本实施例采用与所述候选对象集的类型对应的单对象特征提取模型进行特征提取，从而提高了提取的特征的准确性，提高了文本图像匹配的准确性。

对于S51，将所述候选对象集中的每个所述候选对象分别输入与所述候选对象集的类型对应的单对象特征提取模型中进行特征提取，将提取到的特征作为一个所述候选对象特征。

当与所述候选对象集的类型是文本类型时，与所述候选对象集的类型对应的单对象特征提取模型，是采用多个文本训练样本，对LSTM网络进行训练得到的模型；当与所述候选对象集的类型是图像类型时，与所述候选对象集的类型对应的单对象特征提取模型，是采用多个图像训练样本，对Rresnet50网络或Unet网络进行训练得到的模型。

LSTM网络，是指长短期记忆人工神经网络。

文本训练样本中包括：文本样本和文本特征标定数据。

图像训练样本中包括：图像样本和图像特征标定数据。

在一个实施例中，上述对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度的步骤，包括：

S61：将所述候选对象集中的任一个所述候选对象作为待计算对象；

S62：将所述待计算对象对应的所述融合特征作为第一特征；

S63：将所述待计算对象对应的所述候选对象特征作为第二特征；

S64：对所述第一特征与所述第二特征进行余弦相似度计算，得到所述待计算对象对应的所述单对象相似度。

本实施例采用余弦相似度进行相似度计算，因余弦相似度倾向给出更优解，因此进一步提高了文本图像匹配的准确性。

对于S64，所述第一特征与所述第二特征，是同一个所述候选对象对应的特征，因此，对所述第一特征与所述第二特征进行余弦相似度计算，将计算得到的余弦相似度作为所述待计算对象对应的所述单对象相似度。

重复步骤S61至S64，即可确定所述候选对象集中的每个所述候选对象对应的单对象相似度。

在一个实施例中，上述单对象相似度是余弦相似度，所述根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果的步骤，包括：

S71：从各个所述单对象相似度中找出值为最大的所述单对象相似度，作为目标相似度；

S72：判断所述目标相似度是否大于预设的相似度阈值；

S73：若是，则确定所述目标匹配结果的结果为成功，并且将所述目标相似度在所述候选对象集中对应的所述候选对象作为所述目标匹配结果的命中对象；

S74：若否，则确定所述目标匹配结果的结果为失败。

本实施例通过将大于预设的相似度阈值的值为最大的所述单对象相似度，在所述候选对象集中对应的所述候选对象作为所述目标匹配结果的命中对象，从而进一步提高了确定的目标匹配结果的准确性。

对于S71，从各个所述单对象相似度中找出值为最大的所述单对象相似度，将找出的所述单对象相似度作为目标相似度。

对于S73，若是，也就是所述目标相似度大于预设的相似度阈值，意味着存在符合要求的所述单对象相似度，则确定所述目标匹配结果的结果为成功，并且将所述目标相似度在所述候选对象集中对应的所述候选对象作为所述目标匹配结果的命中对象。

对于S74，若否，也就是所述目标相似度小于或等于预设的相似度阈值，意味着不存在符合要求的所述单对象相似度，则确定所述目标匹配结果的结果为失败。

参照图2，本申请还提出了一种文本图像匹配装置，所述装置包括：

数据获取模块100，用于获取待匹配对象；

类型识别结果确定模块200，用于对所述待匹配对象进行类型识别，得到类型识别结果；

候选对象集确定模块300，用于根据所述类型识别结果，从预设的候选对象库中确定候选对象集；

融合特征提取模块400，用于根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取；

候选对象特征确定模块500，用于对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征；

单对象相似度确定模块600，用于对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度；

目标匹配结果确定模块700，用于根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果。

在一个实施例中，上述类型识别结果确定模块200包括：分类预测结果确定子模块、第一结果确定子模块和第二结果确定子模块；

所述分类预测结果确定子模块，用于将所述待匹配对象输入预设的文本图像分类模型进行分类预测，得到分类预测结果；

所述第一结果确定子模块，用于当所述分类预测结果中的与文本标签对应的向量元素大于所述分类预测结果中的与图像标签对应的向量元素时，确定所述类型识别结果为文本类型；

所述第二结果确定子模块，用于当所述分类预测结果中的与所述文本标签对应的向量元素小于所述分类预测结果中的与所述图像标签对应的向量元素时，确定所述类型识别结果为图像类型。

在一个实施例中，上述候选对象集确定模块300包括：第一候选对象集确定子模块和第二候选对象集确定子模块；

所述第一候选对象集确定子模块，用于当所述类型识别结果为文本类型时，将所述候选对象库中的图像子库作为所述候选对象集；

所述第二候选对象集确定子模块，用于当所述类型识别结果为图像类型时，将所述候选对象库中的文本子库作为所述候选对象集。

在一个实施例中，上述融合特征提取模块400包括：融合特征提取子模块；

所述融合特征提取子模块，用于将所述候选对象集中的任一个所述候选对象作为目标对象，将所述目标对象输入与所述候选对象集的类型对应的编码模型中进行编码，得到第一编码，将所述待匹配对象输入与所述类型识别结果对应的所述编码模型中进行编码，得到第二编码，将所述第一编码和所述第二编码，在维度上进行拼接，得到融合编码，将所述融合编码输入预设的融合特征提取模型进行特征提取，得到与所述目标对象对应的所述融合特征。

在一个实施例中，上述候选对象特征确定模块500包括：候选对象特征确定子模块；

所述候选对象特征确定子模块，用于将所述候选对象集中的每个所述候选对象分别输入与所述候选对象集的类型对应的单对象特征提取模型中进行特征提取，得到每个所述候选对象对应是所述候选对象特征。

在一个实施例中，上述单对象相似度确定模块600包括：余弦相似度计算计算子模块；

所述余弦相似度计算计算子模块，用于将所述候选对象集中的任一个所述候选对象作为待计算对象，将所述待计算对象对应的所述融合特征作为第一特征，将所述待计算对象对应的所述候选对象特征作为第二特征，对所述第一特征与所述第二特征进行余弦相似度计算，得到所述待计算对象对应的所述单对象相似度。

在一个实施例中，上述目标匹配结果确定模块700包括：相似度筛选子模块和目标匹配结果确定子模块；

所述相似度筛选子模块，用于从各个所述单对象相似度中找出值为最大的所述单对象相似度，作为目标相似度；

所述目标匹配结果确定子模块，用于判断所述目标相似度是否大于预设的相似度阈值，所述第一匹配结果确定子模块，用于若是，则确定所述目标匹配结果的结果为成功，并且将所述目标相似度在所述候选对象集中对应的所述候选对象作为所述目标匹配结果的命中对象，若否，则确定所述目标匹配结果的结果为失败。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存文本图像匹配方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图像匹配方法。所述文本图像匹配方法，包括：获取待匹配对象；对所述待匹配对象进行类型识别，得到类型识别结果；根据所述类型识别结果，从预设的候选对象库中确定候选对象集；根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取；对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征；对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度；根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果。

在一个实施例中，上述对所述待匹配对象进行类型识别，得到类型识别结果的步骤，包括：将所述待匹配对象输入预设的文本图像分类模型进行分类预测，得到分类预测结果；当所述分类预测结果中的与文本标签对应的向量元素大于所述分类预测结果中的与图像标签对应的向量元素时，确定所述类型识别结果为文本类型；当所述分类预测结果中的与所述文本标签对应的向量元素小于所述分类预测结果中的与所述图像标签对应的向量元素时，确定所述类型识别结果为图像类型。

在一个实施例中，上述根据所述类型识别结果，从预设的候选对象库中确定候选对象集的步骤，包括：当所述类型识别结果为文本类型时，将所述候选对象库中的图像子库作为所述候选对象集；当所述类型识别结果为图像类型时，将所述候选对象库中的文本子库作为所述候选对象集。

在一个实施例中，上述根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取的步骤，包括：将所述候选对象集中的任一个所述候选对象作为目标对象；将所述目标对象输入与所述候选对象集的类型对应的编码模型中进行编码，得到第一编码；将所述待匹配对象输入与所述类型识别结果对应的所述编码模型中进行编码，得到第二编码；将所述第一编码和所述第二编码，在维度上进行拼接，得到融合编码；将所述融合编码输入预设的融合特征提取模型进行特征提取，得到与所述目标对象对应的所述融合特征。

在一个实施例中，上述对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征的步骤，包括：将所述候选对象集中的每个所述候选对象分别输入与所述候选对象集的类型对应的单对象特征提取模型中进行特征提取，得到每个所述候选对象对应是所述候选对象特征。

在一个实施例中，上述对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度的步骤，包括：将所述候选对象集中的任一个所述候选对象作为待计算对象；将所述待计算对象对应的所述融合特征作为第一特征；将所述待计算对象对应的所述候选对象特征作为第二特征；对所述第一特征与所述第二特征进行余弦相似度计算，得到所述待计算对象对应的所述单对象相似度。

在一个实施例中，上述单对象相似度是余弦相似度，所述根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果的步骤，包括：从各个所述单对象相似度中找出值为最大的所述单对象相似度，作为目标相似度；判断所述目标相似度是否大于预设的相似度阈值；若是，则确定所述目标匹配结果的结果为成功，并且将所述目标相似度在所述候选对象集中对应的所述候选对象作为所述目标匹配结果的命中对象；若否，则确定所述目标匹配结果的结果为失败。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种文本图像匹配方法，包括步骤：获取待匹配对象；对所述待匹配对象进行类型识别，得到类型识别结果；根据所述类型识别结果，从预设的候选对象库中确定候选对象集；根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取；对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征；对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度；根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果。

上述执行的文本图像匹配方法，通过对所述待匹配对象进行类型识别，得到类型识别结果；根据所述类型识别结果，从预设的候选对象库中确定候选对象集；根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取；对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征；对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度；根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果。通过首先对待匹配对象和候选对象进行融合特征提取，然后对融合特征与候选对象特征进行匹配操作，避免图像特征和文本特征的直接匹配操作，而且采用融合特征进行文本图像匹配可以增加匹配的精度，提高了文本图像匹配的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种文本图像匹配方法，其特征在于，所述方法包括：

获取待匹配对象；

对所述待匹配对象进行类型识别，得到类型识别结果；

2.根据权利要求1所述的文本图像匹配方法，其特征在于，所述对所述待匹配对象进行类型识别，得到类型识别结果的步骤，包括：

3.根据权利要求1所述的文本图像匹配方法，其特征在于，所述根据所述类型识别结果，从预设的候选对象库中确定候选对象集的步骤，包括：

4.根据权利要求1所述的文本图像匹配方法，其特征在于，所述根据所述待匹配对象和所述候选对象集中的每个候选对象进行融合特征提取的步骤，包括：

将所述候选对象集中的任一个所述候选对象作为目标对象；

5.根据权利要求1所述的文本图像匹配方法，其特征在于，所述对所述候选对象集中的每个所述候选对象进行特征提取，得到候选对象特征的步骤，包括：

6.根据权利要求1所述的文本图像匹配方法，其特征在于，所述对同一所述候选对象对应的所述融合特征和所述候选对象特征进行相似度计算，得到单对象相似度的步骤，包括：

将所述待计算对象对应的所述融合特征作为第一特征；

将所述待计算对象对应的所述候选对象特征作为第二特征；

7.根据权利要求1所述的文本图像匹配方法，其特征在于，所述单对象相似度是余弦相似度，所述根据各个所述单对象相似度和所述候选对象集，确定与所述待匹配对象对应的目标匹配结果的步骤，包括：

判断所述目标相似度是否大于预设的相似度阈值；

若否，则确定所述目标匹配结果的结果为失败。

8.一种文本图像匹配装置，其特征在于，所述装置包括：

数据获取模块，用于获取待匹配对象；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。