CN113191154B

CN113191154B - 基于多模态图神经网络的语义分析方法、系统和存储介质

Info

Publication number: CN113191154B
Application number: CN202110239109.0A
Authority: CN
Inventors: 李明; 陈逸璇; 黄昌勤; 梁吉业
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2022-02-15
Anticipated expiration: 2041-03-04
Also published as: CN113191154A

Abstract

本发明公开了一种基于多模态图神经网络的语义分析方法、系统和存储介质，方法包括：采集社交数据，社交数据包括用户数据和资源数据；根据社交数据构建多模态交互图；构建语义分析模型，语义分析模型包括门控注意力机制；采用语义分析模型分析多模态交互图的语义信息，并根据语义信息计算用户数据与资源数据交互的可能性。本发明通过先根据采集的社交数据构建多模态交互图，接着采用包括门控注意力机制的语义分析模型分析多模态交互图的语义信息，根据语义信息计算用户数据与资源数据交互的可能性，从而实现模态粒度的用户偏好识别，促进信息在不同模态交互图间的传递，提升语义分析结果的准确性和预测精度。本发明可应用于图神经网络技术领域。

Description

基于多模态图神经网络的语义分析方法、系统和存储介质

技术领域

本发明涉及图神经网络技术领域，尤其是一种基于多模态图神经网络的语义分析方法、系统和存储介质。

背景技术

在社交网络平台上，每天都会产生海量的社交数据，其中包含极有价值的信息。然而，一方面这些社交数据缺少语义内容描述，另一方面跨平台背景下的社交数据往往不局限于一种形式，涉及文本、图像、视频等多种模态，从而导致用户在浏览、搜索和管理资源的过程中面临巨大挑战。当前社交大数据深度语义分析的手段大多是依托大数据技术来收集社交网络数据，全面分析语义内容并进行语义关联。目前的研究方向主要分为两类，第一类使用外部知识库来丰富语义信息，这类方法通常要消耗大量的时间和成本，且分析对象多为静态数据；第二类则是基于深度学习的语义映射学习方法，研究内容主要包括多模态数据的统一特征表示和语义相似度计算，这类方法只适用于线性表示的数据，过于关注跨模态数据的相关性，忽视了高级的语义信息，如数据的类别标签，弱化特征间关联的问题，且每次最多只能表示两种模态的数据。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于多模态图神经网络的语义分析方法、系统和存储介质，能够提升语义分析结果的准确性和预测精度。

根据本发明第一方面实施例的一种基于多模态图神经网络的语义分析方法，包括以下步骤：

采集社交数据，所述社交数据包括用户数据和资源数据；

根据所述社交数据构建多模态交互图；

构建语义分析模型，所述语义分析模型包括门控注意力机制；

采用所述语义分析模型分析所述多模态交互图的语义信息，并根据所述语义信息计算用户数据与资源数据交互的可能性。

根据本发明实施例的一种基于多模态图神经网络的语义分析方法，至少具有如下有益效果：

本实施例通过先根据采集的社交数据构建多模态交互图，同时构建包括门控注意力机制的语义分析模型，接着采用语义分析模型分析多模态交互图的语义信息，并根据语义信息计算用户数据与资源数据交互的可能性，从而实现模态粒度的用户偏好识别，促进信息在不同模态交互图间的传递，提升语义分析结果的准确性和预测精度。

根据本发明的一些实施例，所述根据所述社交数据构建多模态交互图，包括：

根据模态类型对所述资源数据进行分类，所述模态类型包括文本模态、图像模态和视频模态；

根据用户数据和分类后的资源数据构建多模态交互图。

根据本发明的一些实施例，所述用户数据包括用户偏好数据和用户ID数据；所述资源数据包括资源特征数据和资源ID数据；将所述用户偏好数据和所述资源特征数据作为单模态交互图中的节点特征。

根据本发明的一些实施例，所述采用所述语义分析模型分析所述多模态交互图的语义信息，并根据所述语义信息计算用户数据与资源数据交互的可能性，包括嵌入步骤、信息传递步骤和预测步骤；

所述嵌入步骤包括：

嵌入所述用户ID数据和所述资源ID数据；

所述信息传递步骤包括：

根据聚合的特征和单模态交互图更新多模态交互图节点；

根据语义分析模型中各层间的高阶连通性更新多模态交互图的节点表示；

在确定更新完每个模态的节点表示后，合并不同模态的表达式；

所述预测步骤包括：

根据合并后的表达式计算用户数据与资源数据交互的可能性。

根据本发明的一些实施例，在所述信息传递步骤中通过门控注意力机制控制信息流，所述门控注意力机制包括传递门和注意力机制。

根据本发明的一些实施例，所述传递门包括内积门、拼接门和双向交互门；其中，

所述内积门为：

f_gi(h,t)为内积门函数，δ(·)为sigmoid函数，d为节点t的出度，e_m,h表示在模态m中自我节点h的嵌入；e_m,t表示在模态m中自我节点h的相邻节点t的嵌入；T表示内积操作；

所述拼接门为：

f_gc(h,t)为拼接门函数，δ(·)为sigmoid函数，d为节点t的出度，W_c为一个可训练的权重矩阵，e_m,h表示在模态m中自我节点h的嵌入；e_m,t表示在模态m中自我节点h的相邻节点t的嵌入；T表示内积操作；

所述双向交互门为：

f_gb(h,t)为双向交互门函数，δ(·)为sigmoid函数，d为节点t的出度，⊙为元素的乘法运算符，e_m,h表示在模态m中自我节点h的嵌入；e_m,t表示在模态m中自我节点h的相邻节点t的嵌入；T表示内积操作。

根据本发明的一些实施例，所述根据合并后的表达式计算用户数据与资源数据交互的可能性，其具体为：

将用户数据和资源数据的表达式进行内积，得到用户数据与资源数据交互的可能性。

根据本发明第二方面实施例的一种基于多模态图神经网络的语义分析系统，包括：

采集模块，用于采集社交数据，所述社交数据包括用户数据和资源数据；

图构建模块，用于根据所述社交数据构建多模态交互图；

模型构建模块，用于构建语义分析模型，所述语义分析模型包括门控注意力机制；

分析模块，用于采用所述语义分析模型分析所述多模态交互图的语义信息，并根据所述语义信息计算用户数据与资源数据交互的可能性。

根据本发明第三方面实施例的一种基于多模态图神经网络的语义分析系统，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行第一方面实施例所述的基于多模态图神经网络的语义分析方法。

根据本发明第四方面实施例的一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行第一方面实施例所述的基于多模态图神经网络的语义分析方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实施例对本发明做进一步的说明，其中：

图1为本发明实施例的一种基于多模态图神经网络的语义分析方法的流程图；

图2为一种具体实施例的多模态交互图；

图3为一种具体实施例的门控注意力图神经网络结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

CCA：Canonical Correlation Analysis，典型相关分析法，其为社交大数据深度语义分析的方式之一。

SCM：Aemantic Correlation Matching，语义相关匹配法，其为社交大数据深度语义分析的方式之一。

UCCG：Uniform Cross-media Correlation Graph，跨媒体相关图。

GNN：Graph Neural Networks，图神经网络。

随着互联网和新媒体的飞速发展，在线社交网络的用户数量与影响力也在不断扩大，成为人们维系社交生活和娱乐生活的重要方式。以Facebook、Twitter、Sina Weibo等为代表的社交媒体平台，每天都会产生海量社交数据，其中包含极有价值的信息。然而，一方面这些数据缺少精确的语义内容描述，另一方面跨平台背景下的社交数据往往不局限于一种形式，涉及文本、图像、视频等多种模态，导致用户在浏览、搜索、管理资源的过程中面临巨大挑战。对此，一种能对社交网络中不同模态的数据进行深度语义分析的系统可以切实解决上述问题，在提高用户检索信息效率、优化整合社交平台资源、根据语义分析结果推荐资源等方面提供指导和帮助。

目前社交大数据深度语义分析的手段大多是依托大数据技术来收集社交网络数据，全面分析语义内容并进行语义关联。目前的研究方向主要分为两类，一类使用外部知识库来丰富语义信息，从而提高语义学习的正确性，例如将Twitter上的主题标签进行分割并链接到Wikipedia，但这通常要消耗大量的时间和成本，且分析对象多为静态数据；另一类是基于深度学习的语义映射学习方法，研究内容主要包括多模态数据的统一特征表示和语义相似度计算。对于特征融合，较为流行的方法有CCA和SCM。CCA通过子空间的映射来匹配图像和文本模态，以度量两种模态数据的相似性，然而这种方法只适用于线性表示的数据，并且过于关注跨模态数据的相关性，忽视了高级的语义信息，如数据的类别标签。SCM在CCA学习子空间的基础上，又利用逻辑回归算法学习语义空间，使用深度特征和深度体系结构进行映射有效地提高了学习效果，改进了CCA的缺陷。但这种特征表示也带来了弱化特征间关联的问题，且每次最多只能表示两种模态的数据。对于基于语义特征计算相似性，目前以基于图模型的方法为代表。通过构建统一的UCCG，每个图节点表示跨媒体文档，训练图模型来学习多媒体数据的关联，实践证实有很好的语义关系学习效果。然而这种方法建立在共生性假设的基础上，即含有相同媒体对象的多媒体文档，拥有的语义信息也相同，受制于这种假设，且模型训练过程中如何设置参数也是难点。

基于上述问题，本发明实施例通过采集的社交数据，在多模态太交互图上使用图神经网络，根据社交数据丰富用户数据和资源数据的表示，以弥补不同模态间的语义鸿沟，提高语义信息建模的合理性，同时在模型中引入门控注意力机制，以通过注意力来合理指导信息的传递，提升语义分析结果的准确性和预测精度。

具体地，参照图1，本发明实施例提供了一种基于多模态图神经网络的语义分析方法，包括以下步骤：

S11、采集社交数据，其中社交数据包括用户数据和资源数据；用户数据包括用户偏好数据和用户ID数据；所述资源数据包括资源特征数据和资源ID数据。

S12、根据社交数据构建多模态交互图。

S13、构建语义分析模型，其中，语义分析模型包括门控注意力机制。

S14、采用语义分析模型分析多模态交互图的语义信息，并根据语义信息计算用户数据与资源数据交互的可能性。

在本实施例中，假设在线社交网络中，用户和资源之间存在历史互动，如浏览、搜索、点击等，这些交互数据可以描述为由用户和资源两部分组成的图G＝(V,E)，其中V＝U∪I代表用户和资源的集合，U＝(u₁,u₂,…,u_N)和I＝(i₁,i₂,…,i_M)分别表示社交网络中的用户和资源，N表示用户数，M表示资源数。另外，这些用户和资源间的交互关系可以描述为E＝{(u,i)|u∈U,i∈I}，每条边代表用户u和资源i之间的交互行为。

为了捕捉模态间的差异性，多模态交互图针对每个特定模态都设计了一个仅包含该模态特征的二部图，相应地描绘为一组{G_m}，其中m∈{1,2,3}分别表示文本、听觉、视觉三种模态，如图2所示。

在语义分析模型工作过程中，包括嵌入步骤、信息传递步骤和预测步骤。其中，嵌入步骤为：将用户ID数据和资源ID数据嵌入模型。并在每个特定模态的交互图中，分别将用户和资源特征嵌入为矢量化表示。所有的嵌入如公式1所示：

E＝(e_u,e_i,e_m,u,e_m,i|u∈U,i∈I,m∈M) 公式1

e_u表示用户ID嵌入，e_m,u表示模态m下的用户ID嵌入；

e_i表示资源ID嵌入，e_m,i表示模态m下的资源ID嵌入。e_i、e_u和e_m,u是在优化过程中通过随机初始化和训练得到的，e_m,i则由可训练的神经网络从固定特征中得到。

信息传递步骤包括：

根据聚合的特征和单模态交互图更新多模态交互图节点，如公式3、公式4和公式5所示：

M为模态指示符，N_h＝(t|(h,t)∈E)表示节点h的相邻节点集合，W_m,1、W_m,2和W_m,3均为可训练的权重矩阵；f_a(h,t)是一种决定是否将信息从邻节点t传播到节点h的传播门；f_g(h,t)是一种反映邻节点t贡献度的注意力门，在它们的共同作用下，实现了以模态的细粒度考虑用户偏好因素；e_h表示节点h的ID嵌入；e_m,t表示模态m中相邻节点t的嵌入；

表示编码一阶连通性后的节点h的嵌入。

模型堆叠更多的信息传递层，利用各层间的高阶连通性来进一步丰富节点表示。以利用模态m中从l跳邻居传递来的信息，探索用户的交互过程，从而分析用户的偏好。在这个过程中，节点被递归地定义如公式5所示：

是在初始

经过(l-1)轮递归后，收集来自(l-1)跳邻节点信息的表示。

在确定更新完每个模态的节点表示后，通过公式6合并不同模态的表达式：

表示经过l轮递归后，合并了所有模态表达式的节点h的最终嵌入。

预测步骤为：

通过公式7、公式8和公式9经过L轮信息传递层的处理，模型将用户和资源的最终表达式进行内积，输出一个匹配值，以通过该匹配值在考虑社交大数据的多模态特征和模态粒度下用户偏好差异的情况下，用户和资源之间发生交互的可能性：

表示经过L轮信息传递后，生成的用户节点的最终嵌入表示；

表示经过L轮信息传递后，生成的资源节点的最终嵌入表示；

表示对用户节点和资源节点的最终表达式进行内积的结果。

在上述实施过程中，基于GNN的方法能够利用交互图来丰富表示，然而，目前对社交网络多模态交互图的研究仍停留在单模态内部，未能从模态的细粒度来考虑用户偏好。基于此，在模型处理过程中，引入门控注意力机制控制信息流，其结构如图3所示。其中，门控注意力机制包括传递门和注意力机制。传递门f_g(h,t)包括内积门、拼接门和双向交互门。

具体地，内积门如公式10所示：

f_gi(h,t)为内积门函数，δ(·)为sigmoid函数，d为节点t的出度，e_m,h表示在模态m中自我节点h的嵌入；e_m,t表示在模态m中自我节点h的相邻节点t的嵌入；T表示内积操作。

拼接门人如公式11所示：

f_gc(h,t)为拼接门函数，δ(·)为sigmoid函数，d为节点t的出度，W_c为一个可训练的权重矩阵，e_m,h表示在模态m中自我节点h的嵌入；e_m,t表示在模态m中自我节点h的相邻节点t的嵌入；T表示内积操作。

双向交互门如公式12所示：

注意力机制如公式13所示，用于学习不同节点的重要性：

f_a(h,t)＝(W_m,he_m,h)^Ttanh(W_m,te_m,t) 公式13

在本实施中，将其简化为使用内积来计算注意力权重，它反映了两个节点间的亲和力，接着使用softmax函数归一化所有邻节点的注意力权重。改进后的f_a(h,t)函数如公式14所示：

在获得门得分和注意力得分之后，对f_g(h,t)f_a(h,t)进行求积，以模态的粒度传播用户兴趣偏好的信息。具体地，f_g(h,t)来决定是否将各模态的资源信息传递给目标用户，f_a(h,t)用来学习这些资源对用户表示的不同贡献度。

语义分析模型采用门控注意力机制来实现信息流的加权和传递，这部分主要是可视化节点的门控注意力机制值。本实施例拓展了传统的基于注意力机制来刻画邻节点权重的方法，融合了社交大数据的多模态特征，考虑了节点和模态两个方面的差异性，更加细致全面地刻画了注意力机制值。改进的主要步骤如下：

步骤一、随机选择一个用户节点，对其十个相邻资源节点进行采样。再根据是否包含文本模态、听觉模态、视觉模态的特征，将邻节点分为三类；

步骤二、分类完成后，对单模态数据进行嵌入表示，生成E＝{e_i,e_m,i}；

步骤三、把嵌入E输入到训练模型，经过门控注意力机制的处理，输出特定模态下各个节点的注意力机制值y_m,i；

步骤四、将输出的值进行归一化处理到0和1的数值范围内。

本实施通过可视化的表示以直观地反映不同节点的重要性，有利于指导信息传递，并能从交互记录中分析出用户偏好；另一方面，一个节点在不同模态中的特征也具有不同的重要性，这可以为资源推荐系统提供参考。

将上述实施过程应用于实际情况时，假设某个社交网络中参与的用户为U＝(u₁,u₂,...,u_N)，相关资源为I＝(i₁,i₂,...,i_M)，目的是想要预测学生u_n和资源i_m之间的交互关系。由于涉及多种模态m，该多模态m包括文本、听觉和视觉等模态。模态间的差异性会对建模造成影响，因此首先对社交数据根据模态分类，构造多模态交互图，再将深度语义分析的结果e_h作为输入进行预测，整体流程如下：

找到社交网络中与学生u_n和资源i_m存在交互记录的所有用户和资源，获取这些用户和资源的ID信息，特征数据，以及他们各自的交互记录；

把以上信息输入到平台，平台会构造社交网络图G，进一步根据不同模态的特征进行分类，最终输出一张多模态交互图G_m；

把多模态交互图G_m输入深度语义分析模型，得到融合了多模态特征的语义信息e_h；

根据e_h计算并输出交互可能性

综上可知，上述实施例能实现模态粒度的用户偏好识别，促进信息在不同模态交互图间的传递，提升语义分析结果的准确性和预测精度。

本发明实施例提供了一种基于多模态图神经网络的语义分析系统，包括：

图构建模块，用于根据所述社交数据构建多模态交互图；

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行图1所示的基于多模态图神经网络的语义分析方法。

本发明实施例提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行图1所示的基于多模态图神经网络的语义分析方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.一种基于多模态图神经网络的语义分析方法，其特征在于，包括以下步骤：

采集社交数据，所述社交数据包括用户数据和资源数据；

根据所述社交数据构建多模态交互图；

采用所述语义分析模型分析所述多模态交互图的语义信息，并根据所述语义信息判断用户数据与资源数据的交互状态；

其中，所述用户数据包括用户ID数据，所述资源数据包括资源ID数据；所述采用所述语义分析模型分析所述多模态交互图的语义信息，并根据所述语义信息判断用户数据与资源数据的交互状态，包括嵌入步骤、信息传递步骤和预测步骤；

所述嵌入步骤包括：

将所述用户ID数据和所述资源ID数据嵌入所述语义分析模型；

所述信息传递步骤包括：

根据聚合的特征和单模态交互图更新多模态交互图节点；

所述预测步骤包括：

根据合并后的表达式判断用户数据与资源数据的交互状态。

2.根据权利要求1所述的一种基于多模态图神经网络的语义分析方法，其特征在于，所述根据所述社交数据构建多模态交互图，包括：

根据用户数据和分类后的资源数据构建多模态交互图。

3.根据权利要求1所述的一种基于多模态图神经网络的语义分析方法，其特征在于，所述用户数据还包括用户偏好数据；所述资源数据还包括资源特征数据；将所述用户偏好数据和所述资源特征数据作为单模态交互图中的节点特征。

4.根据权利要求1所述的一种基于多模态图神经网络的语义分析方法，其特征在于，在所述信息传递步骤中通过门控注意力机制控制信息流，所述门控注意力机制包括传递门和注意力机制。

5.根据权利要求1所述的一种基于多模态图神经网络的语义分析方法，其特征在于，所述根据合并后的表达式判断用户数据与资源数据的交互状态，其具体为：

将用户数据和资源数据的表达式进行内积，得到用户数据与资源数据的交互状态。

6.一种基于多模态图神经网络的语义分析系统，其特征在于，包括：

图构建模块，用于根据所述社交数据构建多模态交互图；

分析模块，用于采用所述语义分析模型分析所述多模态交互图的语义信息，并根据所述语义信息判断用户数据与资源数据的交互状态；

所述嵌入步骤包括：

将所述用户ID数据和所述资源ID数据嵌入所述语义分析模型；

所述信息传递步骤包括：

根据聚合的特征和单模态交互图更新多模态交互图节点；

所述预测步骤包括：

根据合并后的表达式判断用户数据与资源数据的交互状态。

7.一种基于多模态图神经网络的语义分析系统，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行如权利要求1-5任一项所述的基于多模态图神经网络的语义分析方法。

8.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-5任一项所述的基于多模态图神经网络的语义分析方法。