CN112015955B

CN112015955B - 一种多模态数据关联方法和装置

Info

Publication number: CN112015955B
Application number: CN202010903165.5A
Authority: CN
Inventors: 陶晓明; 段一平; 李明哲; 徐迈; 邓欣
Original assignee: Tsinghua University; Beihang University
Current assignee: Tsinghua University; Beihang University
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2021-07-30
Anticipated expiration: 2040-09-01
Also published as: CN112015955A

Abstract

本发明提供了一种多模态数据关联方法和装置，涉及数据处理的技术领域，包括：获取待处理数据，其中，待处理数据的类型包括：视频数据，图片数据和文本数据；构建待处理数据的语义图；利用图卷积网络计算语义图的表示向量；基于表示向量，确定待处理数据的数据关联结果，解决了现有数据关联方法的普适性较差，无法确定不同模态数据的数据关联的技术问题。

Description

一种多模态数据关联方法和装置

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种多模态数据关联方法和装置。

背景技术

在显现技术中，以图片标注技术为代表，现有多模态数据的处理通常采用编解码框架，基本都是针对特定的两种模态，当涉及到多种模态的时候，往往需要与数据种类成二次方关系数量的编解码结构，也就是说现在基本不存在简单直接的多模态数据处理方法。

另外，在数据关联任务上，即使是只对两种模态进行处理，现有的方法也没有达到最理想的效果。以基于图片标注模型的图片和文本数据关联为例，其中的图片标注模型由卷积神经网络和循环神经网络组成，要训练出性能比较好的神经网络，需要大量的训练数据，而且如果应用时数据和训练数据的特点不一致，模型的性能就会大幅度下降，而这些困难在现实中进行多模态数据关联时是很常见的。另外，目前的图片标注生成模型大多倾向于只为图片生成一条高度概括的文本，这可能会使得系统忽略掉很多细节，从而导致在数据关联时无法匹配到相应的数据。更严重的是，如果训练数据和调参过程不理想，标注模型给出的语句的信息量会下降到无法用来进行数据关联的程度，比如图片标注模型为了使得生成的语句在形式上和训练文本相似，会在语句中加入很多无意义但又经常出现的虚词。最后，模型的性能和规模之间也存在着矛盾，图片标注模型中的卷积神经网络部分的参数量很大，训练需要的硬件与时间成本高，但如果减少参数量以缩减成本的话，模型的效果也会下降，归根结底是输入的图片数据空间太大，所以处理起来困难。

针对上述问题，还未提出有效的解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种多模态数据关联方法和装置，以缓解了现有技术中对数据关联方法的普适性较差，无法确定不同模态数据的进行数据关联的技术问题。

第一方面，本发明实施例提供了一种多模态数据关联方法，包括：获取待处理数据，其中，所述待处理数据的类型包括：视频数据，图片数据和文本数据；构建所述待处理数据的语义图；利用图卷积网络计算所述语义图的表示向量；基于所述表示向量，确定所述待处理数据的数据关联结果。

进一步地，若所述待处理数据为所述视频数据；构建所述待处理数据的语义图，包括：确定出所述待处理数据中的第一关键帧，其中，所述第一关键帧为包含语义的图片帧；基于所述第一关键帧的语义，确定出所述第一关键帧对应的预设语义节点符号，其中，所述预设语义节点符号包括：实体节点符号，关系节点符号，属性节点符号，属性节点符号，结构节点符号；利用所述预设语义节点符号的连接关系，构建所述第一关键帧的语义序列图；对所述第一关键帧的语义序列图进行合并，得到所述待处理数据的语义图。

进一步地，对所述第一关键帧的语义序列图进行合并，得到所述待处理数据的语义图，包括：对所述语义序列图中的预设语义节点进行合并，得到所述待处理数据的语义图。

进一步地，若所述待处理数据为所述图片数据；构建所述待处理数据的语义图，包括：将所述图片数据确定为第二关键帧；基于所述第二关键帧的语义，确定出所述第二关键帧对应的预设语义节点符号；利用所述预设语义节点符号的连接关系，构建所述第二关键帧的语义序列图；将所述第二关键帧的语义序列图确定为所述待处理数据的语义图。

进一步地，若所述待处理数据为所述文本数据；构建所述待处理数据的语义图，包括：利用实体抽取和关系抽取，确定出所述待处理数据对应的预设语义节点符号；利用所述预设语义节点符号的连接关系，构建所述待处理数据的语义序列图；根据所述待处理数据的语义序列图，构建所述待处理数据的语义图。

进一步地，利用图卷积网络计算所述语义图的表示向量，包括：构建所述语义图的嵌入矩阵，其中，所述嵌入矩阵包括：预设语义节点符号的嵌入矩阵，预设语义节点符号的连接关系的嵌入矩阵；利用所述嵌入矩阵和所述图卷积网络，对预设语义节点的表示向量进行预设次数迭代，得到预设语义节点的初始表示向量；确定出所述初始表示向量中目标表示向量，其中，所述目标表示向量为所述结构节点符号对应的初始表示向量；将所述目标表示向量确定为所述语义图的表示向量。

进一步地，基于所述表示向量，确定所述待处理数据的数据关联结果，包括：计算每个目标表示向量与预设表示向量之间的相似度，得到多个相似度；确定出目标相似度，其中，所述目标相似度为所述多个相似度中相似度最高的预设数量个相似度；将所述目标相似度对应的语义图确定为所述待处理数据的数据关联结果。

第二方面，本发明实施例提供了一种多模态数据关联装置，包括：获取单元，构建单元，计算单元和确定单元，其中，所述获取单元，用于获取待处理数据，其中，所述待处理数据的类型包括：视频数据，图片数据和文本数据；所述构建单元，用于构建所述待处理数据的语义图；所述计算单元，用于利用图卷积网络计算所述语义图的表示向量；所述确定单元，用于基于所述表示向量，确定所述待处理数据的数据关联结果。

第三方面，本发明实施例还提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储支持处理器执行上述第一方面中所述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

第四方面，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行第一方面中所述方法的步骤。

在本发明实施例中，以待处理数据为输入对象，并通过语义图表示输入的多模态数据，对于生成的语义图，使用图卷积神经网络将其映射为表示向量，最后，通过表示向量确定出多模态数据参照图，达到了通过语义图确定不同模态数据的进行数据关联的目的，进而解决了现有数据关联方法的普适性较差，无法确定不同模态数据的数据关联的技术问题，从而实现了能够确定不同模态数据的数据关联的技术效果。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多模态数据关联方法的流程图；

图2为本发明实施例提供的语义图的表示向量的计算方法的流程图；

图3为本发明实施例提供的一种多模态数据关联装置的示意图；

图4为本发明实施例提供的一种终端的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

根据本发明实施例，提供了一种多模态数据关联方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种多模态数据关联方法，如图1所示，该方法包括如下步骤：

步骤S102，获取待处理数据，其中，所述待处理数据的类型包括：视频数据，图片数据和文本数据；

步骤S104，构建所述待处理数据的语义图；

步骤S106，利用图卷积网络计算所述语义图的表示向量；

步骤S108，基于所述表示向量，确定所述待处理数据的数据关联结果。

需要说明的是，若待处理数据为视频数据，则在构建语义图之前需要对视频数据进行预处理以带有字幕与音频的影视视频为例，预处理系统需要接收视频(连续的图片流)、声音(语音)与文本(字幕)三种模态的数据，对视频的处理应该满足以下条件：1，可以从连续图片帧中分割出关键帧；2，能够识别出关键帧中出现的人物；3，能够识别出人物的情绪与动作；4，可以识别出场景的时间与地点。

对语音的处理应该满足以下条件：1，能识别出说话人；2，能识别出语音的语气、内容。

对字幕文本的处理应满足以下条件：1，能对文本进行命名实体识别；2，能识别出文本的情绪；3，能识别文本中出现的人物关系。

如果预处理系统能够满足以上的要求，那么可以把视频数据的处理转化为图片处理，通过识别出关键帧中出现的人物，可以获取每一个关键帧的人物作为语义图的节点，通过识别出人物的情绪与动作可以获得语义图中人物节点的属性与关系，通过识别出场景的时间与地点可以获取每一帧的属性，通过识别出说话人与对文本进行命名实体识别可以匹配语音、字幕文本与人物节点，通过识别出语音的语气、内容，识别出文本的情绪和可以识别文本中出现的人物关系，可以进一步对语义图中的属性与关系进行补充。

在本发明实施例中，若所述待处理数据为所述视频数据，步骤S104包括如下步骤：

步骤S11，确定出所述待处理数据中的第一关键帧，其中，所述第一关键帧为包含语义的图片帧；

步骤S12，基于所述第一关键帧的语义，确定出所述第一关键帧对应的预设语义节点符号，其中，所述预设语义节点符号包括：实体节点符号，关系节点符号，属性节点符号，属性节点符号，结构节点符号；

步骤S13，利用所述预设语义节点符号的连接关系，构建所述第一关键帧的语义序列图；

步骤S14，对所述第一关键帧的语义序列图进行合并，得到所述待处理数据的语义图。

在本发明实施例中，在确定出视频数据中的关键帧之后，利用预设予以节点符号描述每个关键帧中的语义，其中，预设语义节点符号如下表所示：

在确定出每个关键帧中包含的预设语义节点符号之后，根据预设语义节点符号的连接关系，将预设语义节点符号连接起来，为了保证语义序列以及之后的语义图的结构合理，需要进一步对预设语义节点符号之间的关系做出限制，只允许以下13种边的类型：

类型	种数	含义
			C、G、O->S	3	某人物C、群体G或物品O出现在场景S下
I->C、G、O	3	某人物C、群体G或物品O具有属性I或进行了动作I
			C、G、O->X	3	某人物C、群体G或物品O主动与某物产生了关系X
X->C、G、O	3	某人物C、群体G或物品O被动与某物产生了关系X
			E->S	1	某场景S可以用环境E描述

接着，根据完成连接的预设语义节点符号构建语义图，在语义图中每个新的场景用“Start；”分隔，每个场景内的每个关键帧用“；”分隔，每个帧内不同的关系用“||”分隔，而“|”分隔的关系则代表这些关系指向的第一个节点是相同的。一个语义序列的形式如下表所示：

语义序列图是根据上述语义符号序列直接构成的，首先为每一个关键帧分配一个S节点来代表与连接这一帧内的语义节点与关系，然后把每一帧内的所有C、G、O、E类的节点与S节点相连代表这些节点在这一帧出现或这一帧可以被这些节点描述，然后把与这些C、G、O节点相连的I、X节点补充进当前帧，最后把所有帧的S节点按顺序相连就得到了语义序列图，这是为了之后进一步处理得到语义图。

最后，对第一关键帧的语义序列图进行合并，得到待处理数据的语义图，具体的，对于C、G、O、E类节点，同类型的节点只保留一个。

合并C、G、O类节点会带来一些冲突，因为和这些节点相连的还有S、I、X节点。对于与它们相连的S节点，之后也会合并，先不考虑。对于与它们相连的I节点，只需要在合并这些节点时把与它们相连的I节点与合并后的节点连接即可，例如在序列图里有三帧分别是：C₁<-I₁||C₂<-I₂；C₁<-I₃||C₂<-I₄；C₁<-I₁||C₂<-I₆，合并后就变成C₁<-I₁|<-I₅与C₂<-I₂|<-I₄|<-I₆。需要注意的是描述某一个C、G、O节点的一组I节点，如果里面有种类相同的，只保留一个。对于与它们相连的X节点，则需要先进行X节点的合并，再进行与I节点合并类似的操作。

X节点的合并时需要对其种类进行检查，在申请中，X节点的命名使用两个下标，第一个下标代表种类，而第二个下标如果存在就说明是不可合并的X节点同时给出是该种X节点的第几个实例。

在进行完所有其他类型节点的合并后，把所有S节点直接合并为同一个并且保留之前所有S节点的连接关系。

在本发明实施例中，若所述待处理数据为所述图片数据，步骤S104包括：

步骤S21，将所述图片数据确定为第二关键帧；

步骤S22，基于所述第二关键帧的语义，确定出所述第二关键帧对应的预设语义节点符号；

步骤S23，利用所述预设语义节点符号的连接关系，构建所述第二关键帧的语义序列图；

步骤S24，将所述第二关键帧的语义序列图确定为所述待处理数据的语义图。

在本发明实施例中，其他模态的数据构建语义图的方法可以借鉴从视频构建语义图的方法。例如图片数据可以视作只有一个关键帧的视频，可以直接套用上述步骤S11至步骤S13中所记载的方法，在此不再赘述。

在本发明实施例中，若所述待处理数据为所述文本数据，步骤S104包括如下步骤：

步骤S31，利用实体抽取和关系抽取，确定出所述待处理数据对应的预设语义节点符号；

步骤S32，利用所述预设语义节点符号的连接关系，构建所述待处理数据的语义序列图；

步骤S33，根据所述待处理数据的语义序列图，构建所述待处理数据的语义图。

在本发明实施例中，构建文本数据的语义图，首先，需要通过实体抽取与关系抽取文本数据的实体节点、关系节点和属性节点，从而确定出上述节点对应的预设语义节点符号，然后，利用预设语义节点符号的连接关系，构建待处理数据的语义序列图；最后，根据待处理数据的语义序列图，构建待处理数据的语义图。

在本发明实施例中，如图2所示，步骤S106包括如下步骤：

步骤S41，构建所述语义图的嵌入矩阵，其中，所述嵌入矩阵包括：预设语义节点符号的嵌入矩阵，预设语义节点符号的连接关系的嵌入矩阵；

步骤S42，利用所述嵌入矩阵和所述图卷积网络，对预设语义节点的表示向量进行预设次数迭代，得到预设语义节点的初始表示向量；

步骤S43，确定出所述初始表示向量中目标表示向量，其中，所述目标表示向量为所述结构节点符号对应的初始表示向量；

步骤S44，将所述目标表示向量确定为所述语义图的表示向量。

在本发明实施例中，得到了语义图之后，可以使用图卷积神经网络方便地计算语义图的嵌入。首先对所有的节点种类进行编号，设一共有D类节点，D是O、C、G、E、I、X类节点的种类和。将初始的节点嵌入矩阵表示为U∈R^N×D，N为节点嵌入向量的维度，则对第k种节点用矩阵U的第k行u_k表示。同时13种边也用一个初始的边嵌入矩阵V∈R^L×13表示，L为边嵌入向量的维度，第l种边用矩阵V的第l行v_l表示。

之后进行迭代过程。在第i轮迭代中，编号为n的节点从与它连接的种类为l的边向它的邻居发送一个信息向量

该信息向量由以下公式得到：

其中

是第i层图卷积网络的信息权重矩阵，

是对应的偏置向量。激活函数为relu。

代表第i-1次迭代后每个节点的表示向量，对第一次迭代，

k为编号为n的节点的种类。

所有的节点都计算完发送的信息向量后，每个节点接收到的信息向量的数量不等，需要进行汇总。本发明中，采用较为简单的相加汇总方式，编号为n的节点的汇总的信息向量

计算公式如下：

其中，Neighbor(n)代表n的邻居节点，l_nn′代表编号n及编号n′的节点之间的边的类型。

之后每个节点根据得到的汇总信息向量

与上一轮迭代得到的节点表示向量

计算新的节点表示向量：

其中

是第i层图卷积网络的节点更新权重矩阵，

是对应的偏置向量。

经过三次迭代后可以认为S节点已经存储了整个图中的语义信息，就可以用S节点的表示向量作为语义图的嵌入向量。

本申请中，以语义实体、关系和属性为最小单元进行处理，和图像、视频与文本相比，可能的输入空间小了很多，因此，引入的神经网络参数规模相应也变小很多，降低了对训练数据数量的要求，也降低了训练的时间与硬件成本。

在本发明实施例中，步骤S108包括如下步骤：

步骤S51，计算每个目标表示向量与预设表示向量之间的相似度，得到多个相似度；

步骤S52，确定出目标相似度，其中，所述目标相似度为所述多个相似度中相似度最高的预设数量个相似度；

步骤S53，将所述目标相似度对应的语义图确定为所述待处理数据的数据关联结果。

在本发明实施例中，数据关联采用两两计算的方式，即给出一个语义图向量S_target(预设表示向量)，在步骤S106中计算得到表示向量包括：S₁,S₂,S₃,…,S_n，分别计算(S_target,S₁)、(S_target,S₂)…的相似度，取相似度最高的一个或几个语义图作为数据关联的结果。相似度的计算方法是以两个语义图向量为输入，经过一个多层感知机，最后经过一个softmax层输出0到1之间的相似度。

实施例二：

本发明实施例还提供了一种多模态数据关联装置，该多模态数据关联装置用于执行本发明实施例上述内容所提供的多模态数据关联方法，以下是本发明实施例提供的多模态数据关联装置的具体介绍。

如图3所示，图3为上述多模态数据关联装置的示意图，该多模态数据关联装置包括：获取单元10，构建单元20，计算单元30和确定单元40。

所述获取单元10，用于获取待处理数据，其中，所述待处理数据的类型包括：视频数据，图片数据和文本数据；

所述构建单元20，用于构建所述待处理数据的语义图；

所述计算单元30，用于利用图卷积网络计算所述语义图的表示向量；

所述确定单元40，用于基于所述表示向量，确定所述待处理数据的数据关联结果。

优选地，所述待处理数据为所述视频数据，所述构建单元，用于确定出所述待处理数据中的第一关键帧，其中，所述第一关键帧为包含语义的图片帧；基于所述第一关键帧的语义，确定出所述第一关键帧对应的预设语义节点符号，其中，所述预设语义节点符号包括：实体节点符号，关系节点符号，属性节点符号，属性节点符号，结构节点符号；利用所述预设语义节点符号的连接关系，构建所述第一关键帧的语义序列图；对所述第一关键帧的语义序列图进行合并，得到所述待处理数据的语义图。

优选地，所述构建单元，用于对所述语义序列图中的预设语义节点进行合并，得到所述待处理数据的语义图。

优选地，若所述待处理数据为所述图片数据，所述构建单元，用于将所述图片数据确定为第二关键帧；基于所述第二关键帧的语义，确定出所述第二关键帧对应的预设语义节点符号；利用所述预设语义节点符号的连接关系，构建所述第二关键帧的语义序列图；将所述第二关键帧的语义序列图确定为所述待处理数据的语义图。

优选地，若所述待处理数据为所述文本数据，所述构建单元，用于利用实体抽取和关系抽取，确定出所述待处理数据对应的预设语义节点符号；利用所述预设语义节点符号的连接关系，构建所述待处理数据的语义序列图；根据所述待处理数据的语义序列图，构建所述待处理数据的语义图。

优选地，所述计算单元，用于构建所述语义图的嵌入矩阵，其中，所述嵌入矩阵包括：预设语义节点符号的嵌入矩阵，预设语义节点符号的连接关系的嵌入矩阵；利用所述嵌入矩阵和所述图卷积网络，对预设语义节点的表示向量进行预设次数迭代，得到预设语义节点的初始表示向量；确定出所述初始表示向量中目标表示向量，其中，所述目标表示向量为所述结构节点符号对应的初始表示向量；将所述目标表示向量确定为所述语义图的表示向量。

优选地，所述确定单元，用于计算每个目标表示向量与预设表示向量之间的相似度，得到多个相似度；确定出目标相似度，其中，所述目标相似度为所述多个相似度中相似度最高的预设数量个相似度；将所述目标相似度对应的语义图确定为所述待处理数据的数据关联结果。

实施例三：

本发明实施例提供的一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例一中的多模态数据关联方法。

参见图4，本发明实施例还提供一种终端100，包括：处理器60，存储器61，总线62和通信接口63，所述处理器60、通信接口63和存储器61通过总线62连接；处理器60用于执行存储器61中存储的可执行模块，例如计算机程序。

其中，存储器61可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器61用于存储程序，所述处理器60在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中，或者由处理器60实现。

处理器60可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器60读取存储器61中的信息，结合其硬件完成上述方法的步骤。

实施例四：

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述实施例一中所述方法的步骤。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种多模态数据关联方法，其特征在于，包括：

获取待处理数据，其中，所述待处理数据的类型包括：视频数据，图片数据和文本数据；

构建所述待处理数据的语义图；

利用图卷积网络计算所述语义图的表示向量；

基于所述表示向量，确定所述待处理数据的数据关联结果；

其中，若所述待处理数据为所述视频数据；构建所述待处理数据的语义图，包括：

确定出所述待处理数据中的第一关键帧，其中，所述第一关键帧为包含语义的图片帧；

基于所述第一关键帧的语义，确定出所述第一关键帧对应的预设语义节点符号，其中，所述预设语义节点符号包括：实体节点符号，关系节点符号，属性节点符号，结构节点符号；

利用所述预设语义节点符号的连接关系，构建所述第一关键帧的语义序列图；

对所述第一关键帧的语义序列图进行合并，得到所述待处理数据的语义图；

其中，若所述待处理数据为所述图片数据；构建所述待处理数据的语义图，包括：

将所述图片数据确定为第二关键帧；

基于所述第二关键帧的语义，确定出所述第二关键帧对应的预设语义节点符号；

利用所述预设语义节点符号的连接关系，构建所述第二关键帧的语义序列图；

将所述第二关键帧的语义序列图确定为所述待处理数据的语义图；

其中，若所述待处理数据为所述文本数据；构建所述待处理数据的语义图，包括：

利用实体抽取和关系抽取，确定出所述待处理数据对应的预设语义节点符号；

利用所述预设语义节点符号的连接关系，构建所述待处理数据的语义序列图；

根据所述待处理数据的语义序列图，构建所述待处理数据的语义图。

2.根据权利要求1所述的方法，其特征在于，对所述第一关键帧的语义序列图进行合并，得到所述待处理数据的语义图，包括：

对所述语义序列图中的预设语义节点进行合并，得到所述待处理数据的语义图。

3.根据权利要求2所述的方法，其特征在于，利用图卷积网络计算所述语义图的表示向量，包括：

构建所述语义图的嵌入矩阵，其中，所述嵌入矩阵包括：预设语义节点符号的嵌入矩阵，预设语义节点符号的连接关系的嵌入矩阵；

利用所述嵌入矩阵和所述图卷积网络，对预设语义节点的表示向量进行预设次数迭代，得到预设语义节点的初始表示向量；

确定出所述初始表示向量中目标表示向量，其中，所述目标表示向量为所述结构节点符号对应的初始表示向量；

将所述目标表示向量确定为所述语义图的表示向量。

4.根据权利要求3所述的方法，其特征在于，基于所述表示向量，确定所述待处理数据的数据关联结果，包括：

计算每个目标表示向量与预设表示向量之间的相似度，得到多个相似度；

确定出目标相似度，其中，所述目标相似度为所述多个相似度中相似度最高的预设数量个相似度；

将所述目标相似度对应的语义图确定为所述待处理数据的数据关联结果。

5.一种多模态数据关联装置，其特征在于，包括：获取单元，构建单元，计算单元和确定单元，其中，

所述获取单元，用于获取待处理数据，其中，所述待处理数据的类型包括：视频数据，图片数据和文本数据；

所述构建单元，用于构建所述待处理数据的语义图；

所述计算单元，用于利用图卷积网络计算所述语义图的表示向量；

所述确定单元，用于基于所述表示向量，确定所述待处理数据的数据关联结果；

其中，若所述待处理数据为所述视频数据；所述构建单元用于：

其中，若所述待处理数据为所述图片数据；所述构建单元用于：

将所述图片数据确定为第二关键帧；

其中，若所述待处理数据为所述文本数据；所述构建单元用于：

6.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器用于存储支持处理器执行权利要求1至4任一项所述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

7.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，计算机程序被处理器运行时执行上述权利要求1至4任一项所述方法的步骤。