CN114969405A

CN114969405A - 一种跨模态图文互检方法

Info

Publication number: CN114969405A
Application number: CN202210476845.2A
Authority: CN
Inventors: 王立; 李仁刚; 范宝余; 郭振华
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-04-30
Filing date: 2022-04-30
Publication date: 2022-08-30
Anticipated expiration: 2042-04-30
Also published as: CN114969405B

Abstract

本发明公开了一种跨模态图文互检方法，涉及计算机视觉与自然语言处理技术领域。所述方法包括：获取数据样本与待检索数据，并判断所述待检索数据的数据类型，所述检索数据的数据类型包括文本数据和图像数据；若所述待检索数据为文本数据，则基于文本数据特征编码模型对所述文本数据进行特征编码，以实现待检索数据与所述数据样本的跨模态图文互检；若所述待检测数据为图像数据，则基于图像数据特征编码模型对所述图像数据进行特征编码，以实现所述待检索数据与所述数据样本的跨模态图文互检。本发明能够实现图像数据与文本数据的快速、高效跨模态互检。

Description

一种跨模态图文互检方法

技术领域

本发明涉及计算机视觉与自然语言处理技术领域，具体涉及一种跨模态图文互检方法。

背景技术

随着互联网和物联网的迅速发展，产生了海量有价值的多模态数据。图像文本互检指的是在跨模态嵌入空间中度量一副图像和一段文本的相似性。该任务涉及到视觉和文本两种模态的学习，是联合计算机视觉和自然语言处理的桥梁。

现有技术中的图像文本互检模块主要是使用标准的双分支嵌入架构来提取图像和文本的特征，并将它们映射到嵌入空间中进行匹配，但是现有技术中却只关注文本的信息本身，而忽略了文本信息之间的结构联系，即现有的图像文本互检技术中，通常是对文本信息进行扁平化处理，例如：当文本信息为病例报告时，现有技术会直接笼统地获取病症、治疗手段和病名等文本信息进行扁平化展示，而不会考虑到它们之间的结构化联系。同样地，对于图像信息而言，不仅仅要捕捉图像本身，还要理解图像间的结构信息。

因此，如何使得图像数据和文本数据在海量的数据样本中找到与之相关的多模态信息在跨模态检索领域中具有重要研究意义。

发明内容

为了解决上述背景技术中提到的至少一个问题，本发明提供了一种跨模态图文互检方法，能够高效、快速地实现图像数据与文本数据的跨模态互检。

本发明实施例提供的具体技术方案如下：

一种跨模态图文互检方法，所述方法包括：获取数据样本与待检索数据，并判断所述待检索数据的数据类型，所述待检索数据的数据类型包括文本数据和图像数据；若所述待检索数据为文本数据，则基于文本数据特征编码模型对所述文本数据进行特征编码，以实现待检索数据与所述数据样本的跨模态图文互检；若所述待检测数据为图像数据，则基于图像数据特征编码模型对所述图像数据进行特征编码，以实现所述待检索数据与所述数据样本的跨模态图文互检，所述图像数据特征编码模型包括卷积神经网络和图像检测网络；所述图像检测网络包括RPN模型与感兴趣下采样模块。

进一步的，所述基于文本数据特征编码模型对所述文本数据进行特征编码包括：对应所述文本数据构建异质图；基于图注意力神经网络和BiLSTM算法，根据所述异质图对所述文本数据进行特征编码；所述基于图像数据特征编码模型对所述图像数据进行特征编码包括：基于卷积神经网络获取所述图像数据的第一特征表示；基于图像检测网络获取所述图像数据的第二特征表示；基于所述第一特征表示和所述第二特征表示，对所述图像数据进行特征编码。

进一步的，所述对应所述文本数据构建异质图，包括：基于所述文本数据，获取所述文本数据的信息概述和文本信息节点；基于Bert模型，获取所述文本信息节点的节点特征；基于所述文本比对方法，获取所述文本信息节点间的连接关系；基于所述节点特征与所述连接关系，对应所述文本数据构建异质图。

进一步的，基于图注意力神经网络和BiLSTM算法，根据所述异质图对所述文本数据进行特征编码，包括：基于所述图注意力神经网络与所述异质图，对所述节点特征进行更新；将所述更新后的节点特征输入至全连接层，以实现对所述更新后的节点特征的编码；基于BiLSTM算法，获取所述文本信息节点的顺序时序信息特征和逆序时序信息特征；获取所述顺序时序信息特征与所述逆序时序信息特征的求和平均值，并与所述信息概述进行融合，作为文本数据的第一特征输出；将所述文本数据的第一特征输出输入至全连接层，以实现对所述文本信息进行特征编码。

进一步的，基于图注意力神经网络与所述异质图，对所述节点特征进行更新，包括：遍历所述文本信息节点，依次择一获取所述文本信息节点为目标文本信息节点，并获取与所述目标文本信息节点存在连接关系的文本信息节点；基于下式，获取目标文本信息节点的节点特征与文本信息节点的节点特征间的相关权重值：

其中，W_c、W_a、W_b为i^d*d矩阵，W_c、W_a、W_b代表图注意力神经网络参数值，W_ah^ins _q表示矩阵乘法， h^ins _q表示目标文本信息节点的节点特征，h^ing _p表示与目标文本信息节点存在连接关系的文本信息节点的节点特征；基于下式，归一化所述相关权重：

其中，Z_ql表示目标文本信息节点的节点特征与第l个与目标文本信息节点存在连接关系的文本信息节点的节点特征间的相关权重值， Z_qp表示目标文本信息节点的节点特征与文本信息节点的节点特征间的相关权重值，N_p表示与目标文本信息节点存在连接关系的文本信息节点个数；根据所述归一化后的相关权重和所述目标文本信息节点，基于下式，归一化所述目标文本信息节点的节点特征：

其中，σ表示超参数，其取值范围为[0,1]， W_v表示代表图注意力神经网络参数、为i^d*d矩阵，α_qp为归一后的相关权重；基于下式，叠加所述归一化后的目标文本信息的节点特征及所述目标文本信息节点的节点特征，更新所述目标文本信息的节点特征：

其中，α_qp表示q个第一文本信息节点与第p个第二文本信息节点的归一化后的相关权重值，W_v表示代表图注意力神经网络参数。

进一步的，基于卷积神经网络获取所述图像数据的第一特征表示，包括：将所述图像数据依次输入至ResNet50网络、全局池化层和全连接层，以获得所述图像数据的第一特征表示；基于图像检测网络获取所述图像数据的第二特征表示，包括：将所述图像数据输入至ResNet50网络，获取所述图像数据的第一输出特征图；基于双线性插值算法与所述第一输出特征图，获取第二输出特征图；基于所述第一输出特征图与所述第二输出特征图，获取所述图像数据的第二特征表示。

进一步的，获取所述图像数据的第二特征表示，包括：将所述第一输出特征图输入至RPN网络，以获取所述图像数据的采样检测框与标准采样检测框的交并比；基于所述交并比，判断所述交并比是否大于第二阈值，若所述交并比大于所述第二阈值，则判定所述采样检测框内的图像数据为前景图像数据，若所述交并比小于所述第二阈值，则判定所述采样检测框内的图像数据为背景图像数据；基于所述前景图像数据，特征提取所述第二特征输出图，获得特征提取结果；将所述特征提取结果输入至感兴趣区域下采样模块，以实现对所述特征提取结果的尺寸归一化；将尺寸归一化的特征提取结果输入至全连接层，以获取所述尺寸归一后的特征提取结果的位置信息和分类概率值；基于所述归一化后的特征提取结果的分类概率值，选取所述分类概率值最大值对应的特征提取结果为所述图像数据的第二特征表示；基于所述第一特征表示与所述第二特征表示，对所述图像数据进行特征编码，包括：基于下式，以实现对所述图像数据进行编码：

其中，R为第一特征表示，d_l表示第l个采样检测框的全连接层特征值，L表示分类概率值最高的采样检测框，e^fd _a表示图像数据的编码值。

进一步的，将所述第一输出特征图输入至RPN网络，以获取所述图像数据的采样检测框与标准采样检测框的交并比，包括：将所述第一特征图依次输入至卷积层、BN层和Relu层，对应所述第一特征图获取采样检测框；将所述采样检测框分别输入第一卷积核与第二卷积核，以分别获取所述采样检测框的位置信息和分类概率值，所述位置信息与所述分类概率值一一对应；将所述分类概率值与第三阈值进行比对，剔除所述分类概率值低于所述第三阈值的采样检测框，保留所述分类概率值高于所述第三阈值的采样检测框；定义所述分类概率值高于所述第三阈值的采样检测框为第一采样检测框，获取所述第一采样检测框与标准采样检测框的交并比。

进一步的，所述数据样本包括图像数据样本和文本数据样本；实现所述待检索数据与所述数据样本的跨模态图文互检，包括：若所述待检索数据为图像数据，则获取所述图像数据与所述文本数据样本的欧式距离；获取所述欧式距离最小值对应的文本数据样本，以实现所述图像数据与所述文本数据样本的跨模态图文互检；若所述待检索数据为文本数据，则获取所述文本数据与所述图像数据样本的欧式距离；获取所述欧氏距离最小值对应的图像数据样本，以实现所述文本数据与所述图像数据样本的跨模态图文互检。

进一步的，所述文本数据特征编码模型与所述图像数据特征编码组成跨模态图文互检模型；基于文本数据和图像数据进行特征编码之前，所述方法还包括：训练优化所述跨模态图文互检模型；所述训练优化所述跨模态图文互检模型，包括：步骤S1、初始化所述跨模态图文互检模型，获取训练数据，所述训练数据包括图像训练数据和文本训练数据，所述图像训练数据与所述文本训练数据一一对应；步骤S2、输入所述图像训练数据至所述图像数据特征编码模型，获取所述第一图像训练输出值，输入所述文本训练数据至所述文本数据特征编码模型，获取第一文本训练输出值；步骤S3、根据所述第一文本训练输出值与所述第一图像训练输出值，基于下式，获得所述跨模态图文互检模型的损失误差：

其中：

表示基于图像数据特征进行遍历后，选中的图像数据特征，与选中的图像数据特征匹配的文本数据，

表示基于图像数据特征进行遍历后，选中的图像数据特征，与选中的图像数据特征不匹配的文本数据，

表示超参数，值为0.3；步骤S4、判断所述损失误差是否大于第四阈值，若所述损失误差不大于所述第四阈值，则判定所述跨模态图文互检模型训练优化完成，若所述损失误差大于第四阈值，则执行步骤S5；步骤S5、将所述损失误差反向传播至所述跨模态图文互检模型，获得所述图文互检模型每一层的反向传播误差；步骤S6、基于所述每一层的反向传播误差，对应更新所述跨模态图文互检模型的权重系数，所述步骤S2～步骤 S6为一次迭代；步骤S7、获取训练优化所述跨模态图文互检模型的迭代次数，若所述迭代次数大于第五阈值，则结束训练优化所述跨模态图文互检模型，若所述迭代次数不大于所述第五阈值，则重新选取图像训练数据和文本训练数据，执行步骤S2～步骤S7。

本发明实施例具有如下有益效果：

1.本发明实施例提供的跨模态图文互检方法，可以基于如文本数据或图像数据的待检索数据，实现待检索数据的与数据样本的跨模态匹配，可以高效、准确地在海量的图像数据和文本数据中找到与之匹配的多模态信息，在跨模态检索领域具有重要意义；

2.本发明实施例提供的基于文本数据特征编码对所述文本数据进行特征编码的技术方案，基于所述待检索匹配的文本信息建立异质图，实现了对所述文本数据的结构化处理，适用范围广，可以适用于任何基于文本信息场景的图文互检任务；进一步地，基于所述异质图实现了对所述文本数据的特征编码，实现了对所述文本数据的特征的准确提取，从而提升了所述文本数据与图像数据的匹配效率。

3.本发明实施例提供的基于图像数据特征编码模型对所述图像数据进行特征编码，所述图像数据特征编码模型在对图像数据进行处理的过程中，基于所述图像数据的特征信息进行层层筛选，确保了提取到的图像数据的特征的准确性，进一步提升了所述图像数据的跨模态图文互检效率；

4.本发明实施例提供的跨模态图文互检模型的训练优化方法，基于前向传播和反向传播算法，实现了对所述跨模态图文互检模型的优化，提升所述跨模态图文互检模型的准确性，确保跨模态图文互检过程中图像数据与文本数据的高匹配度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本申请跨模态图文互检方法的流程示意图；

图2示出本申请文本数据特征编码模型的结构示意图；

图3示出本申请图像数据特征编码模型的结构示意图；

图4示出本申请Bert模型的结构示意图；

图5示出本申请卷积神经网络的结构示意图；

图6示出本申请跨模态图文互检模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

一种跨模态图文互检方法，参照图1和图2，包括如下步骤：

步骤S01、获取数据样本与待检索数据，并判断所述待检索数据的数据类型，所述待检索数据的数据类型包括文本数据和图像数据；

步骤S02、若所述待检索数据为文本数据，则基于文本数据特征编码模型对所述文本数据进行特征编码，以实现待检索数据与所述数据样本的跨模态图文互检；

步骤S03、若所述待检测数据为图像数据，则基于图像数据特征编码模型对所述图像数据进行特征编码，以实现所述待检索数据与所述数据样本的跨模态图文互检。

在一个实施例中，所述文本数据特征编码模型如图2所示，所述基于文本数据特征编码模型对所述文本数据进行特征编码，即步骤S02包括：步骤S021、对应所述文本数据构建异质图；步骤S022、基于图注意力神经网络和BiLSTM 算法，根据所述异质图对所述文本数据进行特征编码；具体地，所述文本数据包括信息概述和文本信息，所述文本信息包括第一文本信息和第二文本信息，需要理解的是，提取所述文本信息的第一文本信息和第二文本信息的目的在于对应所述图文数据构建异质图，实现所述文本信息之间的结构化处理。需要理解的是，本申请所属的第一文本信息融合了第二文本信息，第二文本信息是对第一文本信息的进一步强调。比如：当所述文本数据为病例报告时，在病例报告中，病名即为本申请所述的信息概述，病症即为本申请所述的第一文本信息，针对第一文本信息(病症)的治疗手段即为第二文本信息；再比如：当所述文本数据为菜谱时，菜品名称即为本申请所述的信息概述，食材即为本申请所述的第一文本信息，基于第一文本信息(食材)采取的烹饪手段即为本申请所述的第二文本信息。因此，本申请所述的第一文本信息与第二文本信息是按照时序或因果关系建立起的数据结构，本领域的技术人员可以根据实际情况对文本数据中的文本信息进行提取，获得所述文本数据对应的信息概述、第一文本信息和第二文本信息。对应所述文本数据构建异质图，即表示对应第一文本信息和第二文本信息构建异质图，需要理解的是，在结构化的信息展示中，即在的网络结构中，所述第一文本信息和第二文本信息可以看作是一个个的节点，因此，在对应文本数据构建的异质图中，所述第一文本信息被称为第一文本信息节点，所述第二文本信息被称为第二文本信息节点。

在一个实施例中，对应所述文本数据构建异质图，即步骤S021包括：步骤 S0211、将所述文本信息输入至Bert模型，且伴随所述文本信息输入Bert模型的还包括所述文本信息的位置信息和文本类型，所述位置信息表示所述文本信息在一句话或一段话中的具体位置，比如：一句话中含有5个单词“peel and slice the mango”，则其中“peel”的位置信息为1，“and”的位置信息为2；所述文本类型表示所述文本信息为第一文本信息还是第二文本信息，若所述文本信息为第一文本信息，则其文本类型为1，若所述文本信息为第二文本信息，则其文本类型为2。

在一个实施例中，对应所述文本数据构建异质图，即步骤S021还包括：步骤S0212、基于Bert模型，获取所述第一文本信息节点和第二文本信息节点的节点特征，本申请所述的节点特征都是一个高维向量，其维度为i^d维；步骤S0213、基于所述文本比对方法，获取第一文本信息节点和第二文本信息节点之间的连接关系；步骤S0214、基于所述节点特征与所述连接关系，对应所述文本数据构建异质图。需要理解的是，本申请所述的获取第一文本信息节点和第二文本信息节点之间的连接关系表示：只有第一文本信息节点和第二文本信息节点之间存在连接关系，所述第一文本信息节点与第一文本信息节点、第二文本信息节点和第二文本信息节点之间不存在连接关系。

在其中一个实施例中，基于所述文本比对方法，获取所述第一文本信息节点与第二文本信息节点之间的连接关系，即步骤S0213、包括：遍历第一文本信息节点，提取每一个第一文本信息节点；依次判断每一个第二文本信息节点中是否存在与第一文本信息节点相同的信息，若所述第二文本信息节点中存在与第一文本信息节点相同的信息，则第一文本信息节点与第二文本信息节点之间存在连接关系表现在异质图网络结构中，即表示第一文本信息节点与第二文本信息节点之间存在连接边。

在一个实施例中，基于图注意力神经网络和BiLSTM算法，根据所述异质图对所述文本数据进行特征编码，即步骤S022包括：步骤S0221、基于图注意力神经网络和所述异质图对所述文本数据进行更新，即包括：依次遍历每一个异质节点进行更新，所述异质节点包括第一文本信息节点和第二文本信息节点：以对第一文本信息节点进行更新为例进行说明；具体包括：步骤S02211、遍历所述第一文本信息节点，依次基于每一第一文本信息节点，获取与第一文本信息节点存在连接关系的第二文本信息节点，基于第二文本信息节点更新第一文本信息节点；步骤S02212、基于下式，获取第一文本信息节点特征与第二文本信息节点的节点特征之间的相关权重值：

其中，W_c、W_a、W_b为i^d*d矩阵，W_c、W_a、W_b代表图神经网络参数值，是可训练的参数值，在训练初期时随机初始化，W_ah^ins _q表示矩阵乘法，h^ins _q表示目标文本信息节点的节点特征，h^ing _p表示与目标文本信息节点存在连接关系的文本信息节点的节点特征；

在实际应用场景中，同一个第一文本信息节点会存在与多个第二文本信息节点存在连接关系的情况，因此在多个第二文本信息节点与同一第一文本信息节点存在多个相关权重的情况下，要对相关权重进行归一化，具体地，步骤 S02213、基于下式，进行相关权重归一化：

其中，Z_ql表示目标文本信息节点的节点特征与第l个与目标文本信息节点存在连接关系的文本信息节点的节点特征间的相关权重值， Z_qp表示目标文本信息节点的节点特征与文本信息节点的节点特征间的相关权重值，N_p表示与目标文本信息节点存在连接关系的文本信息节点个数；

步骤S02214、根据所述归一后的相关权重与所述第一文本信息节点，基于下式，归一化所述第一文本信息节点的节点特征，其中，归一化所述第一文本信息节点的节点特征即为更新所述第一文本信息节点的节点特征，获得第一文本信息节点的第一节点特征：

其中，σ表示超参数，其取值范围为[0,1]， W_v表示图注意力神经网络参数、为i^d*d矩阵，α_qp为归一后的相关权重；基于下式，叠加所述归一化后的目标文本信息的节点特征及所述目标文本信息节点的节点特征，更新所述目标文本信息的节点特征；

进一步地，步骤S02214、叠加第一文本信息节点的第一节点特征和第一文本信息节点的节点特征，获得第一文本信息节点的第二节点特征：

其中，

表示第q个目标文本信息节点与第p个文本信息节点的归一化后的相关权重值，

表示图注意力神经网络参数，是可训练的参数值，在训练初期时随机初始化；

由第一文本信息节点的第二节点特征替代第一文本信息节点的节点特征，即达到了更新所述第一文本信息节点的节点特征的目的。

所述第二文本信息节点的节点特征更新方法与上述第一文本信息节点的节点特征更新方法一致，故此处不再赘述，遍历完所有第一文本信息的节点特征和第二文本信息的节点特征，即完成了图注意力神经网络一层的网络更新，在实际的应用场景中，所述图注意力神经网络的层数可以是多层的，其中图注意力神经网络任一层的更新方式均如上所述。进一步地，将全部更新完成后的节点特征输入至全连接层，即在每层图注意力神经网络后加入集成全连接层，以实现对所述更新后的节点特征的编码，公式如下：

其中，FFN表示全连接层，<h_p ^ing>^t+1表示基于第二文本信息节点的第t+1层图注意力神经网络层的初始化节点特征，<h_p ^ins>^t+1表示基于第一文本信息节点的第t+1层图注意力神经网络层的初始化节点特征，<h_p ^ing>^t表示基于第二文本信息节点的第t层图注意力神经网络层的节点特征，<h_p ^ins>^t表示基于第一文本信息节点的第t层图注意力神经网络层的节点特征。

在一个实施例中，步骤S0222、基于BiLSTM算法，获取所述文本信息节点的顺序时序信息特征和逆序时序信息特征；步骤S0223、获取所述顺序时序信息特征与所述逆序时序信息特征的求和平均值，并与所述信息概述进行融合，作为文本数据的第一特征输出，包括：基于下式，融合顺序时序信息特征与所述逆序时序信息特征的求和平均值与信息概述：

e_rec＝[e_rec，e_ttl]其中，e_rec表示顺序时序信息特征与所述逆序时序信息特征的求和平均值，e_ttl表示信息概述，[]表示特征拼接，即将e_rec与e_ttl首尾拼接；步骤S0224、基于下式，将所述文本数据的第一特征输出输入至全连接层，以实现对所述文本信息进行特征编码：

e_rec＝fc(e_rec)其中，fc表示全连接映射，所述e_rec表示文本信息的特征编码值，其表征形式为向量。

在一个实施例中，所述图像数据特征编码模型如图2所示，所述基于图像数据特征编码模型对所述图像数据进行特征编码，即步骤S03包括：步骤S031、基于卷积神经网络获取所述图像数据的第一特征表示；步骤S032、基于图像检测网络获取所述图像数据的第二特征表示；步骤S033、基于所述第一特征表示和所述第二特征表示，对所述图像数据进行特征编码。

在一个实施例中，基于卷积神经网络获取所述图像数据的第一特征表示，即步骤S031包括：将所述图像数据依次输入至ResNet50网络、全局池化层和全连接层，以获得所述图像数据的第一特征表示；在本申请中，所述步骤S031 具体包括：将图像数据输入至ResNet50网络中，获得所述ResNet50网络中第三个残差模块输出的图像数据特征图，再将输出的图像数据特征图依次输入至全局池化层和全连接层。所述ResNet50网络如图5所示。

在一个实施例中，假设所述图像数据的尺寸为256*128*3，则所述ResNet50 网络中第三个特征模块输出的图像数据特征图的尺寸为16*8*2048，再将输出的图像数据特征图输入至全局池化层，全局池化层将尺寸为16*8*2048的特征图降维至2048维，最后将2048维的特征图输入至全连接层，将2048维的特征图降维至1024维。

在一个实施例中，基于图像检测网络获取所述图像数据的第二特征表示，即步骤S032包括：步骤S0321、将所述图像数据输入至ResNet50网络，获取所述图像数据的第一输出特征图；基于双线性插值算法与所述第一输出特征图，获取第二输出特征图。所述图像检测网络如图3所示。在本申请中将ResNet50 网络第三个残差模块输出的特征图作为所述图像数据的第一输出特征图，所述第一输出特征图的尺寸为1024*32*16。

基于图像检测网络获取所述图像数据的第二特征表示，即步骤S032还包括：步骤S0322、将所述第一输出特征图输入至RPN网络，以获取所述图像数据的采样检测框与标准采样检测框的交并比；步骤S0323、基于所述交并比，判断所述交并比是否大于第二阈值，若所述交并比大于所述第二阈值，则判定所述采样检测框内的图像数据为前景图像数据，若所述交并比小于所述第二阈值，则判定所述采样检测框内的图像数据为背景图像数据；步骤S0324、基于所述前景图像数据，特征提取所述第二特征输出图，获得特征提取结果；步骤S0325、将所述特征提取结果输入至感兴趣区域下采样模块，以实现对所述特征提取结果的尺寸归一化；步骤S0326、将尺寸归一化的特征提取结果输入至全连接层，以获取所述尺寸归一后的特征提取结果的位置信息和分类概率值；步骤S0327、基于所述归一化后的特征提取结果的分类概率值，选取所述分类概率值最大值对应的特征提取结果为所述图像数据的第二特征表示；步骤S0328、基于所述第一特征表示与所述第二特征表示，对所述图像数据进行特征编码，包括：基于下式，以实现对所述图像数据进行编码：

其中，R为第一特征表示，d_l表示第l个采样检测框的fc2层特征值，L表示分类概率值最高的采样检测框，e^fd _a表示图像数据的编码值。

在一个实施例中，将所述第一输出特征图输入至RPN网络，以获取所述图像数据的采样检测框与标准采样检测框的交并比，即步骤S0322，包括：步骤 S03221、将所述第一特征图依次输入至卷积层、BN层和Relu层，对应所述第一特征图获取采样检测框；步骤S03222、将所述采样检测框分别输入第一卷积核与第二卷积核，以分别获取所述采样检测框的位置信息和分类概率值，所述位置信息与所述分类概率值一一对应；步骤S03223、将所述分类概率值与第三阈值进行比对，剔除所述分类概率值低于所述第三阈值的采样检测框，保留所述分类概率值高于所述第三阈值的采样检测框；步骤S03224、定义所述分类概率值高于所述第三阈值的采样检测框为第一采样检测框，获取所述第一采样检测框与标准采样检测框的交并比。

在其中一个实施例中，步骤S03221、将所述第一特征图依次输入至卷积层、 BN层和Relu层，对应所述第一特征图获取采样检测框的步骤中；所述卷积层为3*3*256的卷积层，所述第一特征图的尺寸由于1024*32*16变为了 1*256*32*16；所述BN层和Relu层对第一特征图的尺寸不作改变。步骤S03222、将所述采样检测框分别输入第一卷积核与第二卷积核，以分别获取所述采样检测框的位置信息和分类概率值，所述位置信息与所述分类概率值一一对应，其中所述第一卷积核为3*3*3卷积核，所述第一特征图经由3*3*3卷积核输出后的图的特征为1*3*32*16，其中3代表有3个检测框的分类概率，即表示所述检测框内含有目标的概率值，所述概率值越大表示检测框内含有目标的概率越高；所述第二卷积核为3*3*12卷积核，所述第一特征图经3*3*12卷积核后输出的图的特征为1*12*32*16，其中12代表3个检测框的坐标，即[x1,y1,w1,h1]、 [x2,y2,w2,h2]、[x3,y3,w3,h3]，其中x,y代表检测框的顶点坐标，h,w代表检测框的高度和宽度，所述经3*3*12卷积核输出的图的特征与经3*3*3卷积核输出的图的特征一一对应。步骤S03223、将所述分类概率值与第三阈值进行比对，剔除所述分类概率值低于所述第三阈值的采样检测框，保留所述分类概率值高于所述第三阈值的采样检测框；基于上述步骤S03221和步骤S03222，所述检测框的数量为512*3个，基于所述检测框的分类概率值与第三与之进行比对，保留所述分类概率值高于所述第三阈值的采样检测框，本申请对于第三阈值的大小不作限定，本领域的技术人员可以基于实际应用场景，选择合适大小的第三阈值。步骤S03224、定义所述分类概率值高于所述第三阈值的采样检测框为第一采样检测框，获取所述第一采样检测框与标准采样检测框的交并比，所述标准采样检测框包含了标准采样检测框的位置信息和类别信息(如菜谱中的食材)；获取所述第一采样检测框与标准采样检测框的交并比，求得的交并比的值越大表示第一采样检测框更准确，也就是说，第一采样检测框内含有目标检测物(如菜谱中的食材)的可能性更大。

在一个实施例中，步骤S0323、基于所述交并比，判断所述交并比是否大于第二阈值，若所述交并比大于所述第二阈值，则判定所述采样检测框内的图像数据为前景图像数据，若所述交并比小于所述第二阈值，则判定所述采样检测框内的图像数据为背景图像数据，在本申请中，所述第二阈值的范围为0～0.5，若所述交并比大于0小于0.5，则判定所述采样检测框内的图像数据为背景图像数据，若所述交并比大于0.5，则判定所述采样检测框内图像数据为前景图像数据；步骤S0324、基于所述前景图像数据，特征提取所述第二特征输出图，获得特征提取结果；在本实施例中，对于特征提取结果的个数不作限定，本领域技术人员可以基于实际应用场景对所述特征提取的个数进行限定。在本申请中所述第二特征输出图的尺寸为1*1024*224*224，设定本申请特征提取结果的个数为M个，基于前景图像数据特征提取所述第二特征输出图，共得到M*1024*p*q 个特征提取结果，其中p和q表示特征提取结果的二维尺度，因为每次截取的坐标都是不固定的，因此得到的特征提取结果的特征尺度不固定，所以通过p 和q进行表示。

在一个实施例中，因为所述特征提取结果的特征尺度不固定，所以要经过步骤S0325对所述特征提取结果的尺寸进行归一化，即将所述特征提取结果输入至感兴趣区域下采样模块，以实现对所述特征提取结果的尺寸归一化，所述感兴趣区域下采样模块将m个特征提取结果的尺寸归一化为m*1024*7*7的尺度；本申请所述的感兴趣区域下采样模块即为图3中所示的Roi pooling模块。

在一个实施例中，步骤S0326、将尺寸归一化的特征提取结果输入至全连接层，以获取所述尺寸归一后的特征提取结果的位置信息和分类概率值；将尺寸归一化的特征提取结果输入至全连接层前，还包括：将归一化后的特征提取结果展开成为一个长向量，即m*50176维。将尺寸归一化的特征提取结果输入至全连接层中，所述全连接层包括第三全连接层、第四全连接层、第五全连接层和第六全连接层，归一化后的特征提取结果依次输入至第三全连接层和第四全连接层，将所述归一化后的特征提取结果的维度变为m*1024。最后m个维度为 m*1024的特征提取结果依次输入至第五全连接层和第六全连接层，以获取所述尺寸归一后的特征提取结果的位置信息和分类概率值。如图6所示，图中的m*n 表示m个采样检测框的n类类别信息，其中n代表采样检测框中目标物的种类共有n类；m*4表示m个采样检测框的4个坐标信息即[x,y,h,w]；步骤S0327、基于所述归一化后的特征提取结果的分类概率值，选取所述分类概率值最大值对应的特征提取结果为所述图像数据的第二特征表示；步骤S0328、基于所述第一特征表示与所述第二特征表示，对所述图像数据进行特征编码，包括：基于下式，以实现对所述图像数据进行编码：

需要理解是，本申请所述的第二特征表示均为由第四全连接层输出的特征提取结果。

在一个实施例中，所述文本数据特征编码模型与所述图像数据特征编码组成跨模态图文互检模型；基于文本数据和图像数据进行特征编码之前，所述方法还包括：训练优化所述跨模态图文互检模型；所述训练优化所述跨模态图文互检模型，包括：步骤S1、初始化所述跨模态图文互检模型，获取训练数据，所述训练数据包括图像训练数据和文本训练数据，所述图像训练数据与所述文本训练数据一一对应；步骤S2、输入所述图像训练数据至所述图像数据特征编码模型，获取所述第一图像训练输出值，输入所述文本训练数据至所述文本数据特征编码模型，获取第一文本训练输出值；步骤S3、根据所述第一文本训练输出值与所述第一图像训练输出值，基于下式，获得所述跨模态图文互检模型的损失误差：

其中：

表示超参数，值为0.3；步骤S4、判断所述损失误差是否大于第四阈值，若所述损失误差不大于所述第四阈值，则判定所述跨模态图文互检模型训练优化完成，若所述损失误差大于第四阈值，则执行步骤S5；步骤S5、将所述损失误差反向传播至所述跨模态图文互检模型，获得所述图文互检模型每一层的反向传播误差；步骤S6、基于所述每一层的反向传播误差，对应更新所述跨模态图文互检模型的权重系数，所述步骤S2～步骤S6为一次迭代；步骤S7、获取训练优化所述跨模态图文互检模型的迭代次数，若所述迭代次数大于第五阈值，则结束训练优化所述跨模态图文互检模型，若所述迭代次数不大于所述第五阈值，则重新选取图像训练数据和文本训练数据，执行步骤S2～步骤S7。

在一个实施例中，所述数据样本包括图像数据样本和文本数据样本；实现所述待检索数据与所述数据样本的跨模态图文互检，包括：若所述待检索数据为图像数据，则获取所述图像数据与所述文本数据样本的欧式距离；获取所述欧式距离最小值对应的文本数据样本，以实现所述图像数据与所述文本数据样本的跨模态图文互检；若所述待检索数据为文本数据，则获取所述文本数据与所述图像数据样本的欧式距离；获取所述欧氏距离最小值对应的图像数据样本，以实现所述文本数据与所述图像数据样本的跨模态图文互检。

尽管已描述了本发明实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种跨模态图文互检方法，其特征在于，所述方法包括：

获取数据样本与待检索数据，并判断所述待检索数据的数据类型，所述待检索数据的数据类型包括文本数据和图像数据；

若所述待检索数据为文本数据，则基于文本数据特征编码模型对所述文本数据进行特征编码，以实现待检索数据与所述数据样本的跨模态图文互检；

若所述待检测数据为图像数据，则基于图像数据特征编码模型对所述图像数据进行特征编码，以实现所述待检索数据与所述数据样本的跨模态图文互检，所述图像数据特征编码模型包括卷积神经网络和图像检测网络；所述图像检测网络包括RPN模型与感兴趣下采样模块。

2.根据权利要求1所述的跨模态图文互检方法，其特征在于，

所述基于文本数据特征编码模型对所述文本数据进行特征编码包括：对应所述文本数据构建异质图；基于图注意力神经网络和BiLSTM算法，根据所述异质图对所述文本数据进行特征编码；

所述基于图像数据特征编码模型对所述图像数据进行特征编码包括：基于所述卷积神经网络获取所述图像数据的第一特征表示；基于所述图像检测网络获取所述图像数据的第二特征表示；基于所述第一特征表示和所述第二特征表示，对所述图像数据进行特征编码。

3.根据权利要求2所述的跨模态图文互检方法，其特征在于，所述对应所述文本数据构建异质图，包括：

基于所述文本数据，获取所述文本数据的信息概述和文本信息节点；

基于Bert模型，获取所述文本信息节点的节点特征；

基于所述文本比对方法，获取所述文本信息节点间的连接关系；

基于所述节点特征与所述连接关系，对应所述文本数据构建异质图。

4.根据权利要求3所述的跨模态图文互检方法，其特征在于，基于图注意力神经网络和BiLSTM算法，根据所述异质图对所述文本数据进行特征编码，包括：

基于所述图注意力神经网络与所述异质图，对所述节点特征进行更新；

将所述更新后的节点特征输入至全连接层，以实现对所述更新后的节点特征的编码；

基于BiLSTM算法，获取所述文本信息节点的顺序时序信息特征和逆序时序信息特征；

获取所述顺序时序信息特征与所述逆序时序信息特征的求和平均值，并与所述信息概述进行融合，作为文本数据的第一特征输出；

将所述文本数据的第一特征输出输入至全连接层，以实现对所述文本信息进行特征编码。

5.根据权利要求4所述的跨模态图文互检方法，其特征在于，基于图注意力神经网络与所述异质图，对所述节点特征进行更新，包括：

遍历所述文本信息节点，依次择一获取所述文本信息节点为目标文本信息节点，并获取与所述目标文本信息节点存在连接关系的文本信息节点；

基于下式，获取目标文本信息节点的节点特征与文本信息节点的节点特征间的相关权重值：

其中，W_c、W_a、W_b为i^d*d矩阵，W_c、W_a、W_b代表图注意力神经网络参数值，W_ah^ins _q表示矩阵乘法，h^ins _q表示目标文本信息节点的节点特征，h^ing _p表示与目标文本信息节点存在连接关系的文本信息节点的节点特征；

基于下式，归一化所述相关权重：

其中，Z_ql表示目标文本信息节点的节点特征与第l个与目标文本信息节点存在连接关系的文本信息节点的节点特征间的相关权重值，Z_qp表示目标文本信息节点的节点特征与文本信息节点的节点特征间的相关权重值，N_p表示与目标文本信息节点存在连接关系的文本信息节点个数；

根据所述归一化后的相关权重和所述目标文本信息节点，基于下式，归一化所述目标文本信息节点的节点特征：

其中，σ表示超参数，其取值范围为[0,1]，W_v表示图注意力神经网络参数、为i_d*d矩阵，α_qp为归一后的相关权重；

基于下式，叠加所述归一化后的目标文本信息的节点特征及所述目标文本信息节点的节点特征，更新所述目标文本信息的节点特征：

其中，α_qp表示第q个目标文本信息节点与第p个文本信息节点的归一化后的相关权重值，W_v表示图注意力神经网络参数。

6.根据权利要求1～5任一项所述的跨模态图文互检方法，其特征在于，

基于卷积神经网络获取所述图像数据的第一特征表示，包括：将所述图像数据依次输入至ResNet50网络、全局池化层和全连接层，以获得所述图像数据的第一特征表示；

基于图像检测网络获取所述图像数据的第二特征表示，包括：将所述图像数据输入至ResNet50网络，获取所述图像数据的第一输出特征图；基于双线性插值算法与所述第一输出特征图，获取第二输出特征图；基于所述第一输出特征图与所述第二输出特征图，获取所述图像数据的第二特征表示。

7.根据权利要求6所述的跨模态图文互检方法，其特征在于，获取所述图像数据的第二特征表示，包括：

将所述第一输出特征图输入至RPN网络，以获取所述图像数据的采样检测框与标准采样检测框的交并比；

基于所述交并比，判断所述交并比是否大于第二阈值，若所述交并比大于所述第二阈值，则判定所述采样检测框内的图像数据为前景图像数据，若所述交并比小于所述第二阈值，则判定所述采样检测框内的图像数据为背景图像数据；

基于所述前景图像数据，特征提取所述第二特征输出图，获得特征提取结果；

将所述特征提取结果输入至感兴趣区域下采样模块，以实现对所述特征提取结果的尺寸归一化；

将尺寸归一化的特征提取结果输入至全连接层，以获取所述尺寸归一后的特征提取结果的位置信息和分类概率值；

基于所述归一化后的特征提取结果的分类概率值，选取所述分类概率值最大值对应的特征提取结果为所述图像数据的第二特征表示；

基于所述第一特征表示与所述第二特征表示，对所述图像数据进行特征编码，包括：基于下式，以实现对所述图像数据进行编码：

8.根据权利要求7所述的跨模态图文互检方法，其特征在于，将所述第一输出特征图输入至RPN网络，以获取所述图像数据的采样检测框与标准采样检测框的交并比，包括：

将所述第一特征图依次输入至卷积层、BN层和Relu层，对应所述第一特征图获取采样检测框；

将所述采样检测框分别输入第一卷积核与第二卷积核，以分别获取所述采样检测框的位置信息和分类概率值，所述位置信息与所述分类概率值一一对应；

将所述分类概率值与第三阈值进行比对，剔除所述分类概率值低于所述第三阈值的采样检测框，保留所述分类概率值高于所述第三阈值的采样检测框；

定义所述分类概率值高于所述第三阈值的采样检测框为第一采样检测框，获取所述第一采样检测框与标准采样检测框的交并比。

9.根据权利要求1所述的跨模态图文互检方法，其特征在于，所述数据样本包括图像数据样本和文本数据样本；

实现所述待检索数据与所述数据样本的跨模态图文互检，包括：

若所述待检索数据为图像数据，则获取所述图像数据与所述文本数据样本的欧式距离；获取所述欧式距离最小值对应的文本数据样本，以实现所述图像数据与所述文本数据样本的跨模态图文互检；

若所述待检索数据为文本数据，则获取所述文本数据与所述图像数据样本的欧式距离；获取所述欧氏距离的最小值对应的图像数据样本，以实现所述文本数据与所述图像数据样本的跨模态图文互检。

10.根据权利要求1所述的跨模态图文互检方法，其特征在于，所述文本数据特征编码模型与所述图像数据特征编码组成跨模态图文互检模型；

基于文本数据和图像数据进行特征编码之前，所述方法还包括：训练优化所述跨模态图文互检模型；

所述训练优化所述跨模态图文互检模型，包括：

步骤S1、初始化所述跨模态图文互检模型，获取训练数据，所述训练数据包括图像训练数据和文本训练数据，所述图像训练数据与所述文本训练数据一一对应；

步骤S2、输入所述图像训练数据至所述图像数据特征编码模型，获取第一图像训练输出值，输入所述文本训练数据至所述文本数据特征编码模型，获取第一文本训练输出值；

步骤S3、根据所述第一文本训练输出值与所述第一图像训练输出值，基于下式，获得所述跨模态图文互检模型的损失误差：

其中：

表示超参数，值为0.3；

步骤S4、判断所述损失误差是否大于第四阈值，若所述损失误差不大于所述第四阈值，则判定所述跨模态图文互检模型训练优化完成，若所述损失误差大于第四阈值，则执行步骤S5；

步骤S5、将所述损失误差反向传播至所述跨模态图文互检模型，获得所述图文互检模型每一层的反向传播误差；

步骤S6、基于所述每一层的反向传播误差，对应更新所述跨模态图文互检模型的权重系数，所述步骤S2～步骤S6为一次迭代；

步骤S7、获取训练优化所述跨模态图文互检模型的迭代次数，若所述迭代次数大于第五阈值，则结束训练优化所述跨模态图文互检模型，若所述迭代次数不大于所述第五阈值，则重新选取图像训练数据和文本训练数据，执行步骤步骤S2～步骤S7。