CN115455228A

CN115455228A - 一种多模态数据互检方法、装置、设备及可读存储介质

Info

Publication number: CN115455228A
Application number: CN202211388888.1A
Authority: CN
Inventors: 范宝余; 王立; 郭振华; 李仁刚
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2022-12-09

Abstract

本发明公开了一种多模态数据互检方法装置、设备及可读存储介质，属于数据检索领域，用于多层次文本以及图像序列两种数据之间的互相检索。对于多层次文本，本申请可以通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量，对于图像序列，本申请则可以通过神经网络提取各张图像的特征向量并将之聚合为一个第二目标特征向量，继而可以在预设数据库中为目标特征向量匹配特征数据，从而完成对于多层次文本以及图像序列的检索，由于本申请中对于多层次文本以及图像序列的编码方式可以全面准确地挖掘数据中的重要特征，因此可以基于得到的目标特征向量，高效准确地实现多层次文本与图像序列这两类数据的互检。

Description

一种多模态数据互检方法、装置、设备及可读存储介质

技术领域

本发明涉及数据检索领域，特别是涉及一种多模态数据互检方法，本发明还涉及一种多模态数据互检装置、设备及可读存储介质。

背景技术

近年来，随着计算机技术的飞速发展，人们利用手机、电脑等工具在各个互联网平台中产生了海量的多模态数据（例如文本、图像与视频等存储结构不同的数据），不同模态数据的存储结构虽然不一致，但可能拥有相似的语义信息，跨模态检索指的是输入任意一种模态的查询数据，检索并输出与被查询数据语义相关联的其它模态的数据，更加符合大数据时代的要求，然而现有技术中缺少一种成熟的多模态数据互检方法，难以高效准确地实现多层次文本与图像序列这两类数据的互检。

因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种多模态数据互检方法，由于本申请中对于多层次文本以及图像序列的编码方式可以全面准确地挖掘数据中的重要特征，因此可以基于得到的目标特征向量，高效准确地实现多层次文本与图像序列这两类数据的互检；本发明的另一目的是提供一种多模态数据互检装置、设备及计算机可读存储介质，由于本申请中对于多层次文本以及图像序列的编码方式可以全面准确地挖掘数据中的重要特征，因此可以基于得到的目标特征向量，高效准确地实现多层次文本与图像序列这两类数据的互检。

为解决上述技术问题，本发明提供了一种多模态数据互检方法，包括：

在待检测数据为多层次文本时，通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量；

在待检测数据为图像序列时，通过第一预设神经网络提取所述图像序列中各张图像的特征向量；

结合所述图像序列的时序信息，通过第二预设神经网络将各张图像的所述特征向量共同聚合为一个第二目标特征向量；

将预设数据库中与所述第一目标特征向量相似度最高的特征数据对应的图像序列作为目标图像序列，与所述第二目标特征向量相似度最高的特征数据对应的多层次文本作为目标文本。

优选地，所述在待检测数据为图像序列时，通过第一预设神经网络提取所述图像序列中各张图像的特征向量之后，所述通过第二预设神经网络将各张图像的所述特征向量共同聚合为一个第二目标特征向量之前，该多模态数据互检方法还包括：

根据各个所述特征向量对应权重间的大小关系，对各个所述特征向量对应的权重进行更新；

将各个所述特征向量与其更新后的权重的乘积，添加至对应的所述特征向量，以便对所述特征向量进行更新。

优选地，所述根据各个所述特征向量对应权重间的大小关系，对各个所述特征向量对应的权重进行更新具体为：

通过注意力网络确定出各个所述特征向量自身的权重；

通过预设类型的函数，根据各个所述权重间的大小关系对各个所述权重进行更新。

优选地，应用于预训练的图像文本检索网络；

其中，所述图像文本检索网络通过预设的图像文本距离度量函数进行训练；

所述图像文本距离度量函数为：

其中，b为批次编号，TriHard为三项损失函数，

代表对第b批次求损失函数，n表示与锚点样本不配对的样本组，

为对应样本

的真实标签，

为对应样本

的真实标签，N为在本训练批次中共有N个成对的样本，其中，

为遍历第二目标特征向量过程中选中的视频图像组对应的第二目标特征向量，a代表锚点样本，与锚点样本成对的第一目标特征向量记为

，p代表位置，同理，

为在本训练批次中与

不配对的第一目标特征向量，

为超参数，

代表遍历第一目标特征向量过程中选中的第一目标特征向量，与其对应的第二目标特征向量记为

，不对应的记为

。

优选地，所述将预设数据库中与所述第一目标特征向量相似度最高的特征数据对应的图像序列作为目标图像序列，与所述第二目标特征向量相似度最高的特征数据对应的多层次文本作为目标文本具体为：

将预设数据库中与所述第一目标特征向量相似度最高的前预设数量个特征数据对应的图像序列作为目标图像序列，与所述第二目标特征向量相似度最高的前预设数量个特征数据对应的多层次文本作为目标文本。

优选地，所述在待检测数据为多层次文本时，通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量具体为：

通过图神经网络确定出待检测的多层次文本中第一文本信息对应的节点以及第二文本信息对应的节点；

提取出每个所述第一文本信息以及所述第二文本信息对应节点的节点特征；

根据预设的连接关系建立策略，构建所述第一文本信息对应节点与关联的所述第二文本信息对应节点之间的连接关系；

对所述图神经网络中与其他节点存在连接关系的待更新节点，根据所述图神经网络中与所述待更新节点间存在连接关系的节点，对所述待更新节点的节点特征进行更新；

基于所述第一文本信息的时序信息将多个所述第一文本信息对应的节点特征聚合为一个特征向量；

将所述多层次文本中第三文本信息对应的节点特征，与所述特征向量进行融合得到第一目标特征向量；

其中，所述第一文本信息包括第二文本信息，所述第一文本信息用于概括所述多层次文本。

优选地，所述预设的连接关系建立策略具体为：

通过全连接网络建立所有所述第一文本信息对应节点与所述第二文本信息对应节点的全连接关系；

遍历所述多层次文本所有的第二文本信息，查找各个所述第一文本信息对所述第二文本信息的包含关系，在每个所述第一文本信息与其包含的各个所述第二文本信息间建立基础连接关系；

将所述全连接关系与所述基础连接关系进行数值叠加，得到先验叠加连接关系；

仅将所述先验叠加连接关系中数值大于预设阈值的连接关系保留。

优选地，所述提取出每个所述第一文本信息以及所述第二文本信息对应节点的节点特征具体为：

将每个所述第一文本信息本体、所述第一文本信息本体的文本类型对应的编号以及所述第一文本信息中各个单词的位置编号输入语言表征模型Bert，得到所述第一文本信息本体对应的节点特征；

将每个第二文本信息本体、所述第二文本信息本体的文本类型对应的编号以及所述第二文本信息本体中各个单词的位置编号输入语言表征模型Bert，得到所述第二文本信息本体对应的节点特征。

优选地，所述对所述图神经网络中各个文本信息对应待更新节点的节点特征进行更新具体为：

通过图注意力网络对所述图神经网络中各个文本信息对应待更新节点的节点特征进行更新。

优选地，所述基于所述第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为一个特征向量具体为：

基于所述第一文本信息的时序信息，通过双向长短期记忆神经网络BiLSTM将多个第一文本信息对应的节点特征聚合为一个特征向量。

为解决上述技术问题，本发明还提供了一种多模态数据互检方法，包括：

将接收到的待检测数据发送至服务端，以便所述服务端在所述待检测数据为多层次文本时，通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量；在待检测数据为图像序列时，通过第一预设神经网络提取所述图像序列中各张图像的特征向量；结合所述图像序列的时序信息，通过第二预设神经网络将各张图像的所述特征向量共同聚合为一个第二目标特征向量；将预设数据库中与所述第一目标特征向量相似度最高的特征数据对应的图像序列作为目标图像序列，与所述第二目标特征向量相似度最高的特征数据对应的多层次文本作为目标文本；

接收所述服务端发送的与所述待检测数据对应的所述目标图像序列或所述目标文本。

为解决上述技术问题，本发明还提供了一种多模态数据互检装置，包括：

发送模块，用于将接收到的待检测数据发送至服务端，以便所述服务端在所述待检测数据为多层次文本时，通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量；在待检测数据为图像序列时，通过第一预设神经网络提取所述图像序列中各张图像的特征向量；结合所述图像序列的时序信息，通过第二预设神经网络将各张图像的所述特征向量共同聚合为一个第二目标特征向量；将预设数据库中与所述第一目标特征向量相似度最高的特征数据对应的图像序列作为目标图像序列，与所述第二目标特征向量相似度最高的特征数据对应的多层次文本作为目标文本；

接收模块，用于接收所述服务端发送的与所述待检测数据对应的所述目标图像序列或所述目标文本。

编码模块，用于在待检测数据为多层次文本时，通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量；

提取模块，用于在待检测数据为图像序列时，通过第一预设神经网络提取所述图像序列中各张图像的特征向量；

聚合模块，用于结合所述图像序列的时序信息，通过第二预设神经网络将各张图像的所述特征向量共同聚合为一个第二目标特征向量；

匹配模块，用于将预设数据库中与所述第一目标特征向量相似度最高的特征数据对应的图像序列作为目标图像序列，与所述第二目标特征向量相似度最高的特征数据对应的多层次文本作为目标文本。

为解决上述技术问题，本发明还提供了一种多模态数据互检设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述多模态数据互检方法的步骤。

为解决上述技术问题，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述多模态数据互检方法的步骤。

本发明提供了一种多模态数据互检方法，对于多层次文本，本申请可以通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量，对于图像序列，本申请则可以通过神经网络提取各张图像的特征向量并将之聚合为一个第二目标特征向量，继而可以在预设数据库中为目标特征向量匹配特征数据，从而完成对于多层次文本以及图像序列的检索，由于本申请中对于多层次文本以及图像序列的编码方式可以全面准确地挖掘数据中的重要特征，因此可以基于得到的目标特征向量，高效准确地实现多层次文本与图像序列这两类数据的互检。

本发明还提供了一种多模态数据互检装置、设备及计算机可读存储介质，具有如上多模态数据互检方法相同的有益效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种多模态数据互检方法的流程示意图；

图2为一种BiLSTM的网络结构示意图；

图3为本发明提供的一种注意力网络的结构示意图；

图4为本发明提供的一种图像序列的编码流程示意图；

图5为本发明提供的一种图神经网络的结构示意图；

图6为本发明提供的另一种多模态数据互检方法的流程示意图；

图7为本发明提供的一种通过Bert提取文本特征的流程示意图；

图8为本发明提供的一种多模态数据互检装置的结构示意图；

图9为本发明提供的一种多模态数据互检设备的结构示意图。

具体实施方式

本发明的核心是提供一种多模态数据互检方法，由于本申请中对于多层次文本以及图像序列的编码方式可以全面准确地挖掘数据中的重要特征，因此可以基于得到的目标特征向量，高效准确地实现多层次文本与图像序列这两类数据的互检；本发明的另一核心是提供一种多模态数据互检装置、设备及计算机可读存储介质，由于本申请中对于多层次文本以及图像序列的编码方式可以全面准确地挖掘数据中的重要特征，因此可以基于得到的目标特征向量，高效准确地实现多层次文本与图像序列这两类数据的互检。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明提供的一种多模态数据互检方法的流程示意图，该多模态数据互检方法包括：

S101：在待检测数据为多层次文本时，通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量；

具体的，考虑到如上背景技术中的技术问题，为了实现对于多层次文本以及图像序列数据的互检，则首先需要实现对两种模态数据的数据特征的提取，然后利用两者的数据特征实现互检工作，因此本发明实施例中首先可以通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量。

S102：在待检测数据为图像序列时，通过第一预设神经网络提取图像序列中各张图像的特征向量；

具体的，S102-S103则是对于图像序列的特征向量的提取过程，为了综合性地对图像序列中各图像的特征进行分析，本发明实施例中首先可以提取图像序列中各张图像的特征向量，而通过神经网络的方式可以实现特征的快速准确的提取。

S103：结合图像序列的时序信息，通过第二预设神经网络将各张图像的特征向量共同聚合为一个第二目标特征向量；

具体的，为了更加方便快捷的进行检索，可以将各张图像的特征向量共同聚合为一个第二目标特征向量，从而可以通过单个特征向量的匹配实现快速检索，提高检索速度。

具体的，考虑到图像序列本身包含时序信息，这也属于图像序列的重要特征，因此本发明实施例在聚合过程中结合了图像序列的时序信息，进一步提升了聚合得到的特征向量的准确性。

其中，通过神经网络的方式同样可以提高工作效率以及数据处理的准确性。

S104：将预设数据库中与第一目标特征向量相似度最高的特征数据对应的图像序列作为目标图像序列，与第二目标特征向量相似度最高的特征数据对应的多层次文本作为目标文本。

具体的，本发明实施例中可以预先提取大量的多层次文本以及图像序列的特征向量并将其置于数据库中，包括每次检索用到的各张图像的特征向量共同聚合为一个第二目标特征向量，也可以将数据本身及其对应的特征向量置入数据库中，如此一来，在检索过程中便可以通过特征向量的匹配实现多层次文本以及图像序列的互检。

在上述实施例的基础上：

作为一种优选的实施例，在待检测数据为图像序列时，通过第一预设神经网络提取图像序列中各张图像的特征向量之后，通过第二预设神经网络将各张图像的特征向量共同聚合为一个第二目标特征向量之前，该多模态数据互检方法还包括：

根据各个特征向量对应权重间的大小关系，对各个特征向量对应的权重进行更新；

将各个特征向量与其更新后的权重的乘积，添加至对应的特征向量，以便对特征向量进行更新。

具体的，对于图像序列来说，考虑到其中各张图像的重要性不同，因此本发明实施例中通过多张图像间的权重比对的方式，对各张图像本身的权重进行调整，从而进一步突出重要图像对应的特征，并弱化不重要图像对应的特征，通过此种方式能够使得最终得到的第二目标特征向量更具代表性，也即能够更好地表征图像序列。

作为一种优选的实施例，根据各个特征向量对应权重间的大小关系，对各个特征向量对应的权重进行更新具体为：

通过注意力网络确定出各个特征向量自身的权重；

通过预设类型的函数，根据各个权重间的大小关系对各个权重进行更新。

具体的，为了对权重进行更新，那么自然需要首先确定出各个特征向量自身的权重，注意力网络具有效率高且准确性高的优点。

其中，通过函数的方式根据各个权重间的大小关系对各个权重进行更新同样具有效率高的优点。

当然，除了上述具体过程中，根据各个特征向量对应权重间的大小关系，对各个特征向量对应的权重进行更新还可以为其他具体方式，本发明实施例在此不做限定。

作为一种优选的实施例，预设类型的函数为softmax函数。

具体的，softmax函数具有计算速度快的优点。

当然，除了softmax函数外，预设类型的函数还可以为其他类型，本发明实施例在此不做限定。

为了更好地对本发明实施例进行说明，请参考图2，图2为一种BiLSTM的网络结构示意图，作为一种优选的实施例，第一预设神经网络为ResNet（Residual Network，残差网络）。

具体的，残差网络具有高效准确的优点。

当然，除了残差网络外，第一预设神经网络还可以为其他多种类型，本发明实施例在此不做限定。

作为一种优选的实施例，第二预设神经网络为双向长短期记忆网络BiLSTM。

具体的，BiLSTM（Bi-directional Long Short-Term Memory，双向长短期记忆神经网络）具有高效准确的优点。

具体的，公式如下：

（1）

（2）

其中，向左和向右的箭头代表LSTM编码的方向。即第一文本信息节点特征正序编码和倒序编码。所以有2个公式。

其中，LSTM代表BiLSTM网络的每一个单元。

代表第i个BiLSTM单元的输出，箭头方向不同代表按照图像序列中图像输入顺序不同得到的BiLSTM编码输出，同理，

则代表BiLSTM中第i-1个单元的输出，也即上一个状态的输出。

代表图像序列像输入特征，i代表第i张图像，

代表本发明的骨干网络，I为图像序列中的图像总数。

我们取BiLSTM单元的特征编码输出平均值作为整个图像序列的特征输出。如下所示：

（3）

其中，

代表图像序列的特征输出，用来进行下一步的检索。

为了更好地对本发明实施例进行说明，请参考图3以及图4，图3为本发明提供的一种注意力网络的结构示意图，图4为本发明提供的一种图像序列的编码流程示意图。

具体的，在图3中，包含两个全连接层FC、一个ReLU层以及一个Sigmoid层。在本发明中，图像特征经过骨干网络backbone后获得嵌入式特征，嵌入式特征经过一个全连接层以后获得每张图像的最终的嵌入特征e（也即图4中的

）。最终的嵌入特征e会通过经过attention结构，计算每个特征的权重，该权重是一个数，经过sigmoid层进行归一化，接着所有图像序列的特征的权重会统一进入softmax层，来对比判别哪一个图像序列是重要的。在此，我们引入了残差网络的思想，最终，经过softmax层后的图像序列的特征权重会与对应的每张图像的最终的嵌入特征e相乘，乘积会添加至嵌入特征e以得到每张图像最终的特征向量，每张图像最终的特征向量最后会通过Liner的全连接层fc，得到该图像最终的特征向量，之后则可以通过BiLSTM将所有图像的特征向量聚合为一个特征向量。

当然，除了BiLSTM外，第二预设神经网络还可以为其他多种类型，本发明实施例在此不做限定。

作为一种优选的实施例，应用于预训练的图像文本检索网络；

其中，图像文本检索网络通过预设的图像文本距离度量函数进行训练；

图像文本距离度量函数为：

（4）

其中，b为批次编号，TriHard为三项损失函数，

为对应样本

的真实标签，

为对应样本

，p代表位置，同理，

为在本训练批次中与

不配对的第一目标特征向量，

为超参数，

，不对应的记为

。

具体的，在训练过程中视频的特征向量以及多层次文本的特征向量是成对出现的。一个文本特征的编码对应一个视频图像组特征编码，即一个视频对应一个文本。在损失函数设计中，我们对于这种成对的数据，会遍历每一个视频图像组特征编码和文本特征编码求取损失函数的平均值。如上公式所示。

我们共遍历N次，N代表在本batch(训练批次)中，共有N个成对的样本。首先对视频图像组特征

进行遍历（共N个），遍历选中的那个就称为

，a代表anchor（锚点样本）。与锚点样本成对的文本特征编码记为

，p代表positive。同理，在本batch中与不

配对的文本特征记为

，

是超参数，在训练时固定，本发明设置为0.3。

同理，对于文本特征我们也做相同的遍历操作，

代表遍历中被选中的那个样本，与其对应的正视频图像组特征样本记为

，不对应的记为

。

我们用以上loss函数在训练中，进行梯度反传，对图神经网络、BiLSTM以及ResNet网络参数进行更，构建基于图神经网络的图像文本检索网络，包括文本信息特征编码器和视频特征编码器。建立如上的图像文本距离度量函数。

根据如上图像文本距离度量函数对网络进行训练，使其收敛。

网络训练过程如下：卷积神经网络的训练过程分为两个阶段。第一个阶段是数据由低层次向高层次传播的阶段，即前向传播阶段。另外一个阶段是，当前向传播得出的结果与预期不相符时，将误差从高层次向底层次进行传播训练的阶段，即反向传播阶段。训练过程为：

（1）所有网络层权值进行初始化，一般采用随机初始化；

（2）输入图像和文本数据经过图神经网络、卷积层、下采样层、全连接层等各层的前向传播得到输出值；

（3）求出网络的输出值，根据图像文本距离度量函数求取网络的输出值的损失。

（4）将误差反向传回网络中，依次求得网络各层：图神经网络层，全连接层，卷积层等各层的反向传播误差。

（5）网络各层根据各层的反向传播误差对网络中的所有权重系数进行调整，即进行权重的更新。

（6）重新随机选取新的batch的图像文本数据，然后进入到第二步，获得网络前向传播得到输出值。

（7）无限往复迭代，当求出网络的输出值与目标值（标签）之间的误差小于某个阈值，或者迭代次数超过某个阈值时，结束训练。

（8）保存训练好的所有层的网络参数。

下面简述网络推理过程，即检索匹配过程：

在推理过程中，预先加载网络训练好的权重系数，对待多层次文本或视频进行特征提取并存入待检索数据集中。

用户给定任意待检测的多层次文本或图像序列，我们称为query数据。

提取query数据的目标特征向量，使用我们的基于图神经网络的图像文本检索网络，将query数据的目标特征向量与待检索数据集中所有样本特征进行距离匹配，即求向量距离（本发明求欧式距离）。

例如：若query数据是文本数据就去取待检索数据集中所有的图像序列特征进行求距离，同理query数据是图像序列数据，则可以与待检索数据集中所有的文本特征求欧式距离，距离最小的样本即为推荐样本，进行输出。

具体的，通过本发明实施例中的损失函数可以高效准确地对模型进行训练。

当然，除了该具体形式外，损失函数还可以为其他类型，本发明实施例在此不做限定。

作为一种优选的实施例，将预设数据库中与第一目标特征向量相似度最高的特征数据对应的图像序列作为目标图像序列，与第二目标特征向量相似度最高的特征数据对应的多层次文本作为目标文本具体为：

将预设数据库中与第一目标特征向量相似度最高的前预设数量个特征数据对应的图像序列作为目标图像序列，与第二目标特征向量相似度最高的前预设数量个特征数据对应的多层次文本作为目标文本。

具体的，为了便于用户更有效地获取想要检索的数据，本发明实施例中可以将预设数据库中与第一/第二目标特征向量相似度最高的前预设数量个特征数据对应的原始数据作为目标数据。

其中，预设数量可以进行自主设定，本发明实施例在此不做限定。

作为一种优选的实施例，在待检测数据为多层次文本时，通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量具体为：

S201：通过图神经网络确定出待检测的多层次文本中第一文本信息对应的节点以及第二文本信息对应的节点；

具体的，接上述背景技术，视频和文本是我们日常生活中最常用的两种模态数据，我们又称为多模态数据。实现多模态数据之间的互检具有重要的研究意义。近年来，随着计算机技术的飞速发展，人们利用手机、电脑等工具在各个互联网平台中产生了海量的多模态数据。这些多模态数据包括文本、图像与视频等存储结构不同的数据。根据最新的数据显示，全球最大的视频分享网站每小时有长达18000小时的视频数据被发布，被数以亿计的用户传阅；某些社交网络平台每日分享的图片高达上亿张；而我国用户量最大的社交软件每月有超过9亿人在聊天，朋友圈每天上传的照片和视频量都超过了十亿。虽然这些平台中分享的数据类型多种多样，存储结构不一，但可能拥有相似的语义信息，例如，视频通过图片，文本和音频等不同模态数据描述同一个事件。针对现阶段海量的、具有内在关联的多模态数据，用户急切地需要人工智能技术通过某一种模态数据（例如文本），搜索出语义相关的其他模态数据（例如视频和音频等）。由于短视频平台的快速发展，用户和厂商都迫切地希望能够高效地实现跨模态视频检索，为平台提供更多便利。所以，近年来跨模态视频检索任务在学术界和产业界都受到了广泛的关注，研究该任务具有重要意义，本文针对该任务进行研究。

具体的，视频和文本模态数据中含有丰富的语义信息，如何捕捉到这些信息是跨模态视频检索任务的重点和难点之一。考虑到多层次文本中第二文本信息以及第一文本信息中的特征较为复杂，又结合考虑到图神经网络可以很好地挖掘多类数据中的特征以及相关关系，因此申请中试图通过图神经网络对待检测的多层次文本中最底层的第一文本信息以及中间层的第二文本信息进行特征分析，进而再将由第一文本信息以及第二文本信息得到的唯一特征向量与多层次文本中最表层的第三文本信息对应的节点特征融合为目标特征向量，以进行对应视频的检索，因此本步骤中首先通过图神经网络确定出待检测的多层次文本中第一文本信息对应的节点以及第二文本信息对应的节点，并将其作为后续步骤的数据基础。

S202：提取出每个第一文本信息以及第二文本信息对应节点的节点特征；

具体的，欲进行特征分析，那么则需要知晓每个节点对应的特征，因此本发明实施例中可以提取出每个第一文本信息以及第二文本信息对应节点的节点特征，并将其作为后续步骤的数据基础。

S203：根据预设的连接关系建立策略，构建第一文本信息对应节点与关联的第二文本信息对应节点之间的连接关系；

具体的，考虑到不同类别的节点间具有关联性，而通过该关联性可对各节点进行节点特征的更新加强，因此为了找到其中准确的关联性，本发明实施例中可以根据预设的连接关系建立策略，构建第一文本信息对应节点与关联的第二文本信息对应节点之间的连接关系，该连接关系也即反映了两个节点间的关联性。

S204：对图神经网络中与其他节点存在连接关系的待更新节点，根据图神经网络中与待更新节点间存在连接关系的节点，对待更新节点的节点特征进行更新；

具体的，为了更好地对本发明实施例进行说明，请参考图5以及图6，图5为本发明提供的一种图神经网络的结构示意图，图6为本发明提供的另一种多模态数据互检方法的流程示意图，在通过异质图神经网络对待检测的菜谱中做菜步骤以及成分信息进行编码后，得到了图神经网络的结构，其中包含各个文本信息对应的节点以及异质节点之间的连接关系，其中，每一个做菜步骤构造1个节点，同理每1个成分信息构造1个节点，由于成分信息和做菜步骤从构造到性质都是不同的，所以称为异质节点。如图5所示，经由做菜步骤instructions确定出的节点是做菜步骤节点，经由菜谱主成分信息ingredients确定出的节点是成分信息节点。

其中，图5中转换层可以为语言表征模型BERT（BidirectionalEncoderRepresentations fromTransformer，基于转换器的双向编码表征），其可以从文本信息中提取出对应节点的节点特征，不管是第一文本信息（做菜步骤）还是第二文本信息（成分信息）还是多层次文本（菜谱）中最表层的第三文本信息（菜名），它们都是文字，由单词或多句话组成。我们可以将单词或某句话的特征构建出一个异质节点，如图5所示。

具体的，如图5所示，两类节点间的连接即为上述的连接关系，具有连接关系的这些节点之间具有一定的联系，且由于本申请最终的目标是将一个多层次文本转换为一个第一目标特征向量，因此可以基于图神经网络神经网络中各文本信息对应节点间的连接关系，对图神经网络中各个文本信息对应节点的节点特征进行更新，从而将与自身具有连接关系的节点的特征与自身特征进行融合。

S205：基于第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为一个特征向量；

具体的，考虑到对于最底层的第一文本信息来说其语句是较为复杂且带有时序的，而且其已经通过与自身关联的第二文本信息对自身进行了更新，也就是说第一文本信息目前已经融合了第二文本信息的内容，为了实现将第一文本信息以及第二文本信息最终汇总为一个第一目标特征向量的目的，本发明实施例中可以基于第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为一个特征向量，并将其作为后续步骤的数据基础。

S206：将多层次文本中最表层的第三文本信息对应的节点特征，与特征向量进行融合得到第一目标特征向量；

其中，第一文本信息包括第二文本信息，第一文本信息用于概括多层次文本。

具体的，在有了特征向量之后，可以直接从多层次文本中最表层的第三文本信息中提取出节点特征，然后将特征向量与节点特征融合在一起得到第一目标特征向量，也即该多层次文本对应的特征向量。

其中，融合的方式可以为多种，例如可以拼接在一起，即特征进行首尾相连等，本发明实施例在此不做限定。

具体的，为了挖掘多层次文本中特征较为复杂的中间层以及最底层文本信息中的特征，基于图神经网络的文本编码方法可以通过图神经网络对待检测的多层次文本中最底层的第一文本信息以及中间层的第二文本信息进行编码，然后利用图神经网络中各文本信息对应节点间的连接关系对各节点的节点特征进行更新，然后结合时序信息将各个经过第二文本信息更新后的第一文本信息对应的节点特征聚合为一个特征向量，最终将该特征向量与多层次文本中最表层的第三文本信息对应的节点特征融合为目标特征向量，以进行对应视频的检索，能够快速准确确定出多层次文本信息的特征向量，因此有利于提升多模态数据互检的效率以及精度。

作为一种优选的实施例，预设的连接关系建立策略具体为：

通过全连接网络建立所有第一文本信息对应节点与第二文本信息对应节点的全连接关系；

遍历多层次文本所有的第二文本信息，查找各个第一文本信息对第二文本信息的包含关系，在每个第一文本信息与其包含的各个第二文本信息间建立基础连接关系；

将全连接关系与基础连接关系进行数值叠加，得到先验叠加连接关系；

仅将先验叠加连接关系中数值大于预设阈值的连接关系保留。

具体的，通过全连接网络建立所有第一文本信息对应节点与第二文本信息对应节点的全连接关系的过程具体可以为，在建立指定两个节点的连接关系时，将这两个节点的节点特征级联为一个向量，然后将级联得到的该向量输入全连接网络，得到这两个节点间的连接关系对应的数值，也即建立了这两个节点间的连接关系，按照此方式依次建立每两个节点间的连接关系，即得到了全连接关系。

其中，预设阈值可以进行自主设定，本发明实施例在此不做限定。

具体的，在第二连接关系建立策略中，“每个做菜步骤对应节点与其所包含的各个成分信息对应节点”的具体含义为：我们通过成分信息的文字成分（如西红柿）和步骤节点中的做菜步骤信息（如步骤1，西红柿切碎…）进行查找，如果某个成分信息包含于某个步骤节点中，那么则两者间具有包含关系，则可以在两者之间建立基础连接关系。

其中，值得一提的是，各个基础连接关系对应的数值可以为预设的一个固定数值。

为了更好地对本发明实施例进行说明，请参考图7，图7为本发明提供的一种通过Bert提取文本特征的流程示意图，作为一种优选的实施例，提取出每个第一文本信息以及第二文本信息对应节点的节点特征具体为：

将每个第一文本信息本体、第一文本信息本体的文本类型对应的编号以及第一文本信息中各个单词的位置编号输入语言表征模型Bert，得到第一文本信息本体对应的节点特征；

将每个第二文本信息本体、第二文本信息本体的文本类型对应的编号以及第二文本信息本体中各个单词的位置编号输入语言表征模型Bert，得到第二文本信息本体对应的节点特征。

其中，如图7所示，在输入文本信息后，可以结合位置信息（也即位置编号）以及文本类型（也即文本类型对应的编号）这两个参数进行文本特征的编码。

具体的，可以通过语言表征模型Bert提取出每个做菜步骤（第一文本信息）以及成分信息（第二文本信息）对应节点的节点特征，其具体过程为：

将待提取的本文信息以及文本信息相伴随的位置信息和文本类型输入到Bert模型，例如对于文本信息“peel and slice the mango”来说，位置信息是指若一句话中有5个单词，则其位置信息分别为“1，2，3，4，5”，文本类型是指：若输入文本是做菜步骤，其文本类型为1；若输入文本是成分信息，其文本类型为2。通过bert模型，我们可以快速准确的提取每个文本信息的节点特征，每个节点特征其实都是一个高维向量。

其中，文本类型对应的编号以及待编码信息中各个单词的位置编号可以准确区别各个节点的类型，并在节点特征中融入了各个单词在整个待编码信息中的位置，可以得到更精准的节点特征，从而有利于提升检索精度。

当然，除了Bert模型外，还可以采用其他方式提取文本信息对应的节点特征，本发明实施例在此不做限定。

作为一种优选的实施例，对图神经网络中各个文本信息对应待更新节点的节点特征进行更新具体为：

通过图注意力网络对图神经网络中各个文本信息对应待更新节点的节点特征进行更新。

具体的，通过图注意力网络可以高效准确地将关联节点的节点特征融合到第一文本信息对应节点的节点特征，具体过程为：

异质图信息的更新，我们采用图注意力网络实现特征聚合与更新，更新方法是依次遍历每个异质节点进行更新。

（5）

其中，

，

，

是

维矩阵，

代表矩阵乘法，也代表了向量映射。

如上公式，首先对第一文本信息节点特征进行更新，

代表第一文本信息节点（instruction）的第q个节点的节点特征，

代表第二文本信息节点的第p个节点的特征。若第一文本信息节点的第q个节点与第二文本信息节点的第p个节点有连接（边），则我们会用第二文本信息节点的第p个节点的特征去更新第一文本信息节点的第q个节点特征，但是需要算一个权重，公式（5）就是算权重的，其中

代表第一文本信息节点的第q个节点与第二文本信息节点的第p个节点特征的相关权重

。

对于每个第一文本信息节点，例如

，遍历所有与其有相连的边的第二文本信息节点，假设有

个，都会得到与其对应的相关权重

。

下一步对所有与第一文本信息节点相连的边的第二文本信息节点，进行相关权重的归一化：

（6）

得到了归一化的相关权重

，exp代表求指数函数。

代表求取所有与第一文本信息节点相连的边的第二文本信息节点的相关权重的总和。

最后通过归一化的相关权重对第一文本信息节点的节点特征进行更新。公式如下：

（7）

其中，

代表超参数，在[0,1]区间。

是

维矩阵。

是相连的第二文本信息节点对第一文本信息节点更新的补偿量。

进一步，我们引入残差网络的思想，将补偿量与该第一文本信息节点的初始节点特征相加，得到更新后的第一文本信息的节点特征。公式如下：

（8）

其中，

为更新后的第一文本信息的节点特征，同理，我们对第二文本信息节点也做相同的计算与更新。公式如下：

（9）

遍历完所有的第二文本信息节点和第一文本信息节点，即完成图注意力网络一层的网络更新。

通常，我们会叠加T层图注意力网络，每一层的节点特征的更新方式都如上所述。

我们用t代表第t层的图注意力网络。

通常我们会在每层图注意力网络后面加入集成全连接层，实现对节点特征（包括第二文本信息节点和第一文本信息节点）特征的再编码。公式如下：

（10）

FFN（Feed-Forward Network，前馈神经网络）代表全连接层。

，

代表t+1层的图注意力网络的初始化节点特征。

如上完成了对本发明第一文本信息节点特征的更新，为了实现与视频的检索，我们需要将所有文字节点的特征进行归纳和综合（包括第一文本信息（instruction list）和第二文本信息信息（ingredients）和第三文本信息（title）），在本发明中，由于第一文本信息节点融合了第二文本信息节点信息，第二文本信息节点通过图神经网络更新，以关键词的形式对相关第一文本信息节点特征进行了强调。

当然，除了图注意力网络外，还可以通过其他方式将关联节点的节点特征融合到第一文本信息对应节点的节点特征，本发明实施例在此不做限定。

作为一种优选的实施例，基于第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为一个特征向量具体为：

基于第一文本信息的时序信息，通过双向长短期记忆神经网络BiLSTM将多个第一文本信息对应的节点特征聚合为一个特征向量。

具体的，下面我们用BiLSTM方法去进一步挖掘第一文本信息节点的时序信息，实现对文字节点特征的归纳综合，打包成一个向量。

下一步我们用BiLSTM（双向长短期记忆神经网络）提取所有第一文本信息节点的时序信息特征。公式如下：

（11）

（12）

代表BiLSTM中第q个单元的输出，箭头方向不同代表按照第一文本信息节点输入顺序不同得到的BiLSTM编码输出。同理，

则代表BiLSTM中第q-1个单元的输出，也即上一个状态的输出。

假设第一文本信息共有Q步，

我们记为0，

代表第T层的图神经网络的第q个第一文本信息节点的特征。我们按照第一文本信息的顺序和逆序，依次输入到其对应的BiLSTM网络中，最后得到所有第一文本信息节点的BiLSTM编码。公式如下：

（13）

如上公式所示，我们取所有BiLSTM单元的输出，求和后取平均值做为做为整个文本特征的输出。其中，

代表文本特征的输出，用来进行下一步的检索。

最后，我们会将

特征与title特征进行融合：

（14）

[]代表特征拼接，即特征首尾相连。

特征最后会经过一个全连接层进行特征映射，得到新维度的向量，用来和视频的编码特征进行匹配。

（15）

本发明还提供了一种多模态数据互检方法，包括：

将接收到的待检测数据发送至服务端，以便服务端在待检测数据为多层次文本时，通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量；在待检测数据为图像序列时，通过第一预设神经网络提取图像序列中各张图像的特征向量；结合图像序列的时序信息，通过第二预设神经网络将各张图像的特征向量共同聚合为一个第二目标特征向量；将预设数据库中与第一目标特征向量相似度最高的特征数据对应的图像序列作为目标图像序列，与第二目标特征向量相似度最高的特征数据对应的多层次文本作为目标文本；

接收服务端发送的与待检测数据对应的目标图像序列或目标文本。

对于本发明实施例提供的多模态数据互检方法的介绍请参照前述的多模态数据互检方法的实施例，本发明实施例在此不再赘述。

本发明还提供了一种多模态数据互检装置，包括：

发送模块，用于将接收到的待检测数据发送至服务端，以便服务端在待检测数据为多层次文本时，通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量；在待检测数据为图像序列时，通过第一预设神经网络提取图像序列中各张图像的特征向量；结合图像序列的时序信息，通过第二预设神经网络将各张图像的特征向量共同聚合为一个第二目标特征向量；将预设数据库中与第一目标特征向量相似度最高的特征数据对应的图像序列作为目标图像序列，与第二目标特征向量相似度最高的特征数据对应的多层次文本作为目标文本；

接收模块，用于接收服务端发送的与待检测数据对应的目标图像序列或目标文本。

对于本发明实施例提供的多模态数据互检装置的介绍请参照前述的多模态数据互检方法的实施例，本发明实施例在此不再赘述。

请参考图8，图8为本发明提供的一种多模态数据互检装置的结构示意图，该多模态数据互检装置包括：

编码模块81，用于在待检测数据为多层次文本时，通过基于图神经网络的文本编码方法对待检测的多层次文本进行编码，得到第一目标特征向量；

提取模块82，用于在待检测数据为图像序列时，通过第一预设神经网络提取图像序列中各张图像的特征向量；

聚合模块83，用于结合图像序列的时序信息，通过第二预设神经网络将各张图像的特征向量共同聚合为一个第二目标特征向量；

匹配模块84，用于将预设数据库中与第一目标特征向量相似度最高的特征数据对应的图像序列作为目标图像序列，与第二目标特征向量相似度最高的特征数据对应的多层次文本作为目标文本。

请参考图9，图9为本发明提供的一种多模态数据互检设备的结构示意图，该多模态数据互检设备包括：

存储器91，用于存储计算机程序；

处理器92，用于执行计算机程序时实现如前述实施例中多模态数据互检方法的步骤。

对于本发明实施例提供的多模态数据互检设备的介绍请参照前述的多模态数据互检方法的实施例，本发明实施例在此不再赘述。

为解决上述技术问题，本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述实施例中多模态数据互检方法的步骤。

对于本发明实施例提供的计算机可读存储介质的介绍请参照前述的多模态数据互检方法的实施例，本发明实施例在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。