CN116432053A - 基于模态交互深层超图神经网络的多模态数据表示方法 - Google Patents

基于模态交互深层超图神经网络的多模态数据表示方法 Download PDF

Info

Publication number
CN116432053A
CN116432053A CN202310284501.6A CN202310284501A CN116432053A CN 116432053 A CN116432053 A CN 116432053A CN 202310284501 A CN202310284501 A CN 202310284501A CN 116432053 A CN116432053 A CN 116432053A
Authority
CN
China
Prior art keywords
matrix
hypergraph
modal
feature
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310284501.6A
Other languages
English (en)
Inventor
李明
施建栋
梁吉业
李朝
吴信东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202310284501.6A priority Critical patent/CN116432053A/zh
Publication of CN116432053A publication Critical patent/CN116432053A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模态交互深层超图神经网络的多模态数据表示方法,包括:对多个模态提取词向量;利用尺度点积注意力计算词向量间的注意力矩阵,并确定模态的第一特征矩阵;对模态构建超图,计算第一特征矩阵关于聚类中心的第一隶属度以及超边矩阵关于聚类中心的第二隶属度,并构建超图关联矩阵;根据超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵以及模态基于超边的聚合信息,确定模态的第二特征矩阵;计算各模态间的加权余弦相似度以及邻居模态间的变换权重矩阵,并确定模态的第三特征矩阵;融合第一特征矩阵、第二特征矩阵以及第三特征矩阵,得到融合矩阵。本发明可以准确获取各模态数据间的关联关系,可广泛应用于模态识别领域。

Description

基于模态交互深层超图神经网络的多模态数据表示方法
技术领域
本发明涉及模态识别技术领域,尤其是一种基于模态交互深层超图神经网络的多模态数据表示方法。
背景技术
现有的超图神经网络HGNN被广泛应用,但在某些方面还是有所不足,例如HGNN存在过平滑的问题,随着网络层数的增加,模型性能明显下降。这种学习能力的下降限制了HGNN成为一个2层的模型,无法获得对超图结构的最大利用,同时在许多大型的应用场景下,许多模态的数据在作用上存在着不平等性,例如在一个对话场景中,对话者的声音,动作,手势等信息毫无疑问是比较重要的,而对话者的服装等信息就显得不那么重要,为了最大程度的捕捉到这种模态信息之间的交互,让各个模态的信息达到互补而不是互斥,使得最终得到的特征更有效更丰富,而现有技术无法准确地获取各模态数据间的高阶关联关系。
因此,上述技术问题亟待解决。
发明内容
有鉴于此,本发明实施例提供一种基于模态交互深层超图神经网络的多模态数据表示方法,克服现有技术无法准确获取各模态数据间的高阶关联关系的问题。
本发明实施例的一方面提供了一种基于模态交互深层超图神经网络的多模态数据表示方法,包括:
对多个模态提取词向量,所述模态为不同类型的数据;
利用尺度点积注意力计算所述词向量间的注意力矩阵,并根据所述注意力矩阵确定所述模态的第一特征矩阵;
对所述模态构建超图,计算所述第一特征矩阵关于预设的聚类中心的第一隶属度以及超边矩阵关于所述聚类中心的第二隶属度,并根据所述第一隶属度与所述第二隶属度构建超图关联矩阵;
根据所述超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵以及所述模态基于超边的聚合信息,确定所述模态的第二特征矩阵;
计算各模态间的加权余弦相似度以及邻居模态间的变换权重矩阵,并根据所述加权余弦相似度与所述变换权重矩阵确定所述模态的第三特征矩阵;
融合所述第一特征矩阵、所述第二特征矩阵以及所述第三特征矩阵,得到融合矩阵,用于表示所述模态。
可选地,所述利用尺度点积注意力计算所述词向量间的注意力矩阵,并根据所述注意力矩阵确定所述模态的第一特征矩阵,包括:
根据预设的注意力强度系数,利用尺度点积注意力计算每个词向量中各维度的关联度矩阵;
根据所述关联度矩阵计算聚合信息后的值向量,并根据所述值向量确定所述模态的第一特征矩阵。
可选地,所述根据所述第一隶属度与所述第二隶属度构建超图关联矩阵,包括:
计算所述第一特征矩阵与所述超边矩阵的距离;
根据所述距离,并混合所述第一隶属度与所述第二隶属度,构建超图关联矩阵。
可选地,所述根据所述距离,并混合所述第一隶属度与所述第二隶属度,构建超图关联矩阵,包括:
根据所述距离,并混合所述第一隶属度与所述第二隶属度,构建初始超图关联矩阵;
调整所述聚类中心,以使所述初始超图关联矩阵达到收敛,得到最终超图关联矩阵。
可选地,所述根据所述超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵以及所述模态基于超边的聚合信息,确定所述模态的第二特征矩阵,包括:
根据所述超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵确定所述模态的残差连接对应的残差连接矩阵;
根据所述模态基于超边的聚合信息确定所述模态交互信息对应的模态交互矩阵;
将所述残差连接矩阵与所述模态交互矩阵相加并均值化处理,得到所述模态的第二特征矩阵。
可选地,所述计算各模态间的加权余弦相似度以及邻居模态间的变换权重矩阵,并根据所述加权余弦相似度与所述变换权重矩阵确定所述模态的第三特征矩阵,包括:
计算所述第一特征矩阵间的加权余弦相似度;
计算所述第一特征矩阵中邻居节点的变换权重矩阵与各节点间的注意力权重系数;
根据所述加权余弦相似度、所述变换权重矩阵以及所述注意力权重系数确定所述模态的第三特征矩阵。
可选地,所述方法还包括:
将所述融合矩阵输入到全连接层,得到模态表示模型;
将训练模态数据输入到所述模态表示模型,以获得关于所述训练模态数据的特征输出。
本发明实施例的另一方面还提供了一种基于模态交互深层超图神经网络的多模态数据表示装置,包括:
向量提取单元,用于对多个模态提取词向量,所述模态为不同类型的数据;
第一特征矩阵计算单元,用于利用尺度点积注意力计算所述词向量间的注意力矩阵,并根据所述注意力矩阵确定所述模态的第一特征矩阵;
关联矩阵计算单元,用于对所述模态构建超图,计算所述第一特征矩阵关于预设的聚类中心的第一隶属度以及超边矩阵关于所述聚类中心的第二隶属度,并根据所述第一隶属度与所述第二隶属度构建超图关联矩阵;
第二特征矩阵计算单元,用于根据所述超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵以及所述模态基于超边的聚合信息,确定所述模态的第二特征矩阵;
第三特征矩阵计算单元,用于计算各模态间的加权余弦相似度以及邻居模态间的变换权重矩阵,并根据所述加权余弦相似度与所述变换权重矩阵确定所述模态的第三特征矩阵;
特征矩阵融合单元,用于融合所述第一特征矩阵、所述第二特征矩阵以及所述第三特征矩阵,得到融合矩阵,用于表示所述模态。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现上述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现上述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
本发明提供的一种基于模态交互深层超图神经网络的多模态数据表示方法,为了充分挖掘多模态数据的关联信息,本发明采用了超图,超图相比较普通图结构而言,超图结构具有较强的数据样本间非线性高阶关联的刻画和挖掘能力,可以更好地解决实际应用中存在的诸如数据样本不平衡、分类代价敏感、数据关联建模复杂等问题,而且,各模态之间一般具有复杂的多元关系,而不仅仅是二元关系;其次,本发明根据超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵以及模态基于超边的聚合信息,确定模态的第二特征矩阵的过程采用了超图卷积网络,超图卷积网络是一种基于超图的深度学习模型,可以有效地挖掘多模态数据之间的关联信息,通过将超图和超图卷积网络结合起来,是一种新的融合多模态数据的角度,本发明可以提供一种多模态数据的高效表示学习法,有效地提高多模态数据的表示能力,进一步提高多模态数据融合的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于模态交互深层超图神经网络的多模态数据表示方法的流程示意图;
图2为本发明实施例提供的一种基于模态交互深层超图神经网络的多模态数据表示方法的示例流程图;
图3为本发明实施例提供的实施例各变量及其含义的说明图;
图4为本发明实施例提供的一种基于超图表示学习的多模态数据融合模型框架图;
图5为本发明实施例提供的一种编辑器的内部框图;
图6为本发明实施例提供的一种模糊聚类的方法构图;
图7为本发明实施例提供的一种基于模态交互及残差连接超图卷积网络的结构示意图;
图8为本发明实施例提供的一种基于模态交互深层超图神经网络的多模态数据表示装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,本发明实施例提供了一种基于模态交互深层超图神经网络的多模态数据表示方法,具体包括以下步骤:
S100:对多个模态提取词向量,所述模态为不同类型的数据。
S110:利用尺度点积注意力计算所述词向量间的注意力矩阵,并根据所述注意力矩阵确定所述模态的第一特征矩阵。
具体的,可以包括以下步骤:
S1、根据预设的注意力强度系数,利用尺度点积注意力计算每个词向量中各维度的关联度矩阵。
S2、根据所述关联度矩阵计算聚合信息后的值向量,并根据所述值向量确定所述模态的第一特征矩阵。
S120:对所述模态构建超图,计算所述第一特征矩阵关于预设的聚类中心的第一隶属度以及超边矩阵关于所述聚类中心的第二隶属度,并根据所述第一隶属度与所述第二隶属度构建超图关联矩阵。
具体的,可以包括以下步骤:
S1、计算所述第一特征矩阵与所述超边矩阵的距离。
S2、根据所述距离,并混合所述第一隶属度与所述第二隶属度,构建超图关联矩阵。
上述S2中构建超图关联矩阵的过程可以包括以下步骤:
S21、根据所述距离,并混合所述第一隶属度与所述第二隶属度,构建初始超图关联矩阵。
S22、调整所述聚类中心,以使所述初始超图关联矩阵达到收敛,得到最终超图关联矩阵。
S130:根据所述超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵以及所述模态基于超边的聚合信息,确定所述模态的第二特征矩阵。
具体的,可以包括以下步骤:
S1、根据所述超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵确定所述模态的残差连接对应的残差连接矩阵。
S2、根据所述模态基于超边的聚合信息确定所述模态交互信息对应的模态交互矩阵。
S3、将所述残差连接矩阵与所述模态交互矩阵相加并均值化处理,得到所述模态的第二特征矩阵。
S140:计算各模态间的加权余弦相似度以及邻居模态间的变换权重矩阵,并根据所述加权余弦相似度与所述变换权重矩阵确定所述模态的第三特征矩阵。
具体的,可以包括以下步骤:
S1、计算所述第一特征矩阵间的加权余弦相似度。
S2、计算所述第一特征矩阵中邻居节点的变换权重矩阵与各节点间的注意力权重系数。
S3、根据所述加权余弦相似度、所述变换权重矩阵以及所述注意力权重系数确定所述模态的第三特征矩阵。
S150:融合所述第一特征矩阵、所述第二特征矩阵以及所述第三特征矩阵,得到融合矩阵,用于表示所述模态。
进一步,本发明还可以用于输出其它多模态数据的特征关系,具体步骤如下:
S1、将所述融合矩阵输入到全连接层,得到模态表示模型。
S2、将训练模态数据输入到所述模态表示模型,以获得关于所述训练模态数据的特征输出。
为了更详细描述本发明,接下来将以具体实例说明本发明的实际应用过程。
参照图2,本发明实施例提供了一种基于模态交互深层超图神经网络的多模态数据表示方法的示例流程图。参照图3,本发明实施例提供了以下过程使用的各变量及其含义的说明图。参照图4,本发明实施例提供了一种基于超图表示学习的多模态数据融合模型框架图。参照图5,本发明实施例提供了一种编辑器的内部框图。
本发明实施例可以包含以下3个部分:
1、各模态数据的特征提取:对获取到的多模态数据进行不同模态的编码及特征提取,得到的不同模态对应的特征向量表示V=[v1,v2,...,vN]。
2、基于模态普通图及模态超图的多模态表示学习:综合不同模态提取的特征表示,构建模态普通图和多模态超图。其中,模态普通图的构建通过计算加权余弦相似度完成,而多模态超图的构建过程会用到模糊C-means聚类方法,通过在模态普通图和超图上的学习得到对应的模态特征向量表示Va和Vh
3、信息融合:将上述所得V,Va和Vh进行拼接,然后将其输入到一个全连接网络中得到最终的多模态数据表示融合,为下游任务提供高效的表示。
接下来,将上述3个部分以6个步骤进行说明。
1.问题描述。
定义模态集合S={s1,s2,...,sN},所有模态的特征集合为X={x1,x2,...,xN},其中N为模态总数,
Figure BDA0004139364370000061
为第i个模态的特征,/>
Figure BDA0004139364370000062
为第i个模态在第K维的特征,设定/>
Figure BDA0004139364370000063
为模态建模成的普通图,本发明实施例的目标是尝试构建一个超图/>
Figure BDA0004139364370000064
其中εh={e1,e2,...,eM}表示超边的集合,并且ei表示第i条超边,U是对应的关联矩阵,通过拼接原始模态的和在模态普通图和超图上分别学习得到的特征向量表示得到一个最终的特征向量表示,从而用于下游任务的输入。
2.特征抽取。
本发明实施例将原始特征看作词向量,可以通过计算query向量和key向量计算模态间的注意力,本发明实施例可以采用尺度点积注意力进行计算,对于某个模态u,有query矩阵
Figure BDA0004139364370000071
相似的,可以求得key矩阵
Figure BDA0004139364370000072
value矩阵/>
Figure BDA0004139364370000073
因此,模态间的注意力矩阵计算如下:
Figure BDA0004139364370000074
Puij表示第u个模态中i和j维度的关联度,τ是用来控制控制注意力强度的系数,初始化为
Figure BDA0004139364370000075
dk为特征的维度,在此基础上,进一步计算聚合信息后的值向量,表示如下:
Figure BDA0004139364370000076
Figure BDA0004139364370000077
其中I表示单位阵,a作为保留多少原始信息的超参数,初始化为1,同时也能防止模型在训练时产生梯度消失问题.将(3)中的H向量化表示,可以得到V=Vector(HT)=[v1,v2,...,vN]作为下一步构造图的输入。
3.基于模糊聚类算法的多模态超图构建。
参照图6,本发明实施例提供了一种模糊聚类的方法构图。模糊聚类是通过隶属函数来确定每个数据隶属于各个簇的程度,而不是将一个数据对象硬性地归类到某一簇中,可以理解为每个样本是以一定的概率被分到某一个类别中。
在本发明实施例中,模态和超边分别对应为样本和聚类中心,隶属度接近1则表示当前对应的模态和超边有着高相似性,隶属度接近0则表示当前对应的模态和超边的相似性不高,通过不断优化聚类中心完成对关联矩阵U的优化并且达到收敛,设定
Figure BDA00041393643700000710
为模态建模成的超图,εs表示连接各模态信息的边,εh={e1,e2,...,eM}表示超边的集合,并且ei表示第i条超边,每一条超边ei={sn,sn+1,...,sm}可以看作是由当前超边连接的一组模态的集合,U是对应的关联矩阵。通过Fuzzy C-means(FCM)算法来实现这个过程,FuzzyC-means的算法描述如下:
Figure BDA0004139364370000078
Figure BDA0004139364370000079
代表模态Si对于超边ej的隶属度,其中m控制聚类结果的模糊度,m≥1,N和M分别代表模态个数和超边个数.di,j是正则度量,表示Si和ej的距离,通过最小化/>
Figure BDA00041393643700000711
可以迭代更新聚类中心和对应的隶属度.可以表示为:
Figure BDA0004139364370000081
Figure BDA0004139364370000082
其中qj表示超边的嵌入,
Figure BDA0004139364370000083
表示超边嵌入的初始化,则/>
Figure BDA0004139364370000084
可表示为:
Figure BDA0004139364370000085
其中pool(·)表示元素间最大池化,di,j则通过注意力机制计算,表示为:
Figure BDA0004139364370000086
其中Ws表示需要学习的变换权重矩阵,最终的ui,j计算可以表示为:
Figure BDA0004139364370000087
在计算出所有模态嵌入V=[v1,v2,...,vN],所有超边嵌入Q=[q1,q2,...,qM]和两者距离di,j之后,通过混合隶属度构建超图关联矩阵
Figure BDA0004139364370000088
其中ui=[ui,1,ui,2,...,ui,N]T
4.基于模态交互及残差连接的深层超图卷积模型。
为了提升网络的层数,解决过平滑问题,从而获得对超图结构的最大利用,同时考虑到在许多应用场景中,不同模态的作用可能大有不同,有的模态作用更大,对产生的特征影响也较大,为了捕捉模态间的这种作用不平等性,本发明实施例可以采用基于模态交互及残差连接超图卷积网络,如图7所示,提升模型质量。
图7中虚线以上部分为残差连接模块,计算过程可以表示如下:
Figure BDA0004139364370000089
Figure BDA00041393643700000810
其中αl和βl都是超参数,I为单位矩阵,Wu是可学习的权重矩阵,其中的值可以看成是超边的权重,一开始设置为单位矩阵,这也就意味着所有超边都有着相同的权重,通过改变WU矩阵的值来动态的调整每条超边对应的权重,WV同样也是可学习的权重矩阵,每一种模态的度可以通过
Figure BDA00041393643700000811
并存储在对角矩阵/>
Figure BDA00041393643700000812
中,同样的,每一种超边的度可以通过θ(e)=∑s∈Sb(s,e),并存储在对角矩阵/>
Figure BDA00041393643700000813
中,如果e中包含了s,那么b(s,e)=1,否则b(s,e)=0。
最终的结果可以表示为:
Vh1=Res(V,WU) ⒀
图7中虚线以下部分为模态交互部分,主要的工作是通过对各个节点进行基于超边的信息聚合,收集模态交互信息,计算过程可以表示如下:
att(vi,vj)=γTLeakReLU(Watt·[vi||vu]) ⒁
Figure BDA0004139364370000091
对由超边连接的节点进行注意力计算并且归一化,其中
Figure BDA0004139364370000092
Figure BDA0004139364370000093
都是可学习的参数,[,||,]表示拼接操作,Ni,e表示节点i在超边e上的所有邻居的集合,通过一个非线性激活函数σ后可以得到最后的特征表示如下:
Figure BDA0004139364370000095
式16展示了在单个头下得到模态交互后的节点表示,为了能从不同的角度收集到更丰富的信息,我们将头部扩展到K个,图7中展示的头部为3个,在扩展到K个头后,最终得到的节点表示为:
Figure BDA0004139364370000094
也可以简化表示为:
Vh2=ATTinteraction(V,Watt) ⒅
将两部分(式11和式15)得到的特征向量相加并均值化处理后,得到最终的特征,可以表示为:
Vh=Mean(Vh1,Vh2) ⒆
5.面向模态普通图的表示学习。
在获得多模态数据的特征嵌入V后,许多方法都是直接构造成对应的超图
Figure BDA0004139364370000096
并且通过在超图/>
Figure BDA0004139364370000097
上面的学习得到特征的表示,这么做可能会损失一部分模态的信息,因为超图处理时可能只从一个层面上对数据进行了处理,而损失了其他的有用的信息,为了最大限度的保留原始模态数据中不同层面的信息,本发明实施例先根据原始模态数据构造普通图/>
Figure BDA0004139364370000098
在普通图上进行一次处理后,再将在超图上处理得到的信息拼接并进行处理,最大化利用信息。
在构建普通图时,本发明实施例可以采用余弦相似度来构建邻接矩阵的方法,可以表示为:
Ai,j=Sim(vi,vj)=Cos(WAvi,WAvj) ⒇
其中WA是一个可学习的权重矩阵,Ai,j被计算为模态i和模态j之间的加权余弦相似度,考虑到模态之间的影响都是相互的,很少有单向的影响,所以学习到的邻接矩阵是对称的,并且用于下一步的输入。
相比于普通图上的传统GCN处理,GAT采用了注意力系数,将邻居节点的信息根据重要性分配不同的权重然后聚合到中心节点一定程度上而言,GAT会更强,因为顶点特征之间的相关性被更好地融入到模型中,同时也可以防止短期噪音,采用GAT进行更新表示如下:
Figure BDA0004139364370000101
其中Si表示模态si的邻居的集合,Wa是变换权重矩阵,
Figure BDA0004139364370000104
是模态i和模态j根据注意力机制获得的权重系数,基于以上,可以计算在普通图处理下的特征表示:
Va=GAT(V,Wa) (22)
6.模态表示的融合。
在获得三种处理后的模态特征集合V,Va,Vh后,将三种特征进行融合,得到Vconcat=[V||Va||Vh]后,将Vconcat输入到全连接层进行处理,得到最终的可以用于下游任务如预测分类等的特征输出,可以表示为:
Vend=FullyConnectedLayer(Vcohcat) (23)
最终得到的Vend综合考虑了三个不同层面的信息(V,Va,Vh)可以用于下游任务,本发明实施例以一个预测机票价格任务为例,Vend作为输入,即模型预测结果为
Figure BDA0004139364370000102
用point-wise回归损失和pair-wise ranking-aware损失优化模型,则损失函数可以表达为:
Figure BDA0004139364370000103
其中y表示真实数据,
Figure BDA0004139364370000105
是用来平衡2种损失的超参数,损失函数的前者用于最小化预测和实际结果之间的差异,后者保持了机票价格较高的排名靠前的航司的相对顺序,不受限与此,本发明提供的特征嵌入还能用于其他各种任务。
参照图8,本发明实施例提供了一种基于模态交互深层超图神经网络的多模态数据表示装置,包括:
向量提取单元,用于对多个模态提取词向量,所述模态为不同类型的数据;
第一特征矩阵计算单元,用于利用尺度点积注意力计算所述词向量间的注意力矩阵,并根据所述注意力矩阵确定所述模态的第一特征矩阵;
关联矩阵计算单元,用于对所述模态构建超图,计算所述第一特征矩阵关于预设的聚类中心的第一隶属度以及超边矩阵关于所述聚类中心的第二隶属度,并根据所述第一隶属度与所述第二隶属度构建超图关联矩阵;
第二特征矩阵计算单元,用于根据所述超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵以及所述模态基于超边的聚合信息,确定所述模态的第二特征矩阵;
第三特征矩阵计算单元,用于计算各模态间的加权余弦相似度以及邻居模态间的变换权重矩阵,并根据所述加权余弦相似度与所述变换权重矩阵确定所述模态的第三特征矩阵;
特征矩阵融合单元,用于融合所述第一特征矩阵、所述第二特征矩阵以及所述第三特征矩阵,得到融合矩阵,用于表示所述模态。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims (10)

1.一种基于模态交互深层超图神经网络的多模态数据表示方法,其特征在于,包括:
对多个模态提取词向量,所述模态为不同类型的数据;
利用尺度点积注意力计算所述词向量间的注意力矩阵,并根据所述注意力矩阵确定所述模态的第一特征矩阵;
对所述模态构建超图,计算所述第一特征矩阵关于预设的聚类中心的第一隶属度以及超边矩阵关于所述聚类中心的第二隶属度,并根据所述第一隶属度与所述第二隶属度构建超图关联矩阵;
根据所述超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵以及所述模态基于超边的聚合信息,确定所述模态的第二特征矩阵;
计算各模态间的加权余弦相似度以及邻居模态间的变换权重矩阵,并根据所述加权余弦相似度与所述变换权重矩阵确定所述模态的第三特征矩阵;
融合所述第一特征矩阵、所述第二特征矩阵以及所述第三特征矩阵,得到融合矩阵,用于表示所述模态。
2.根据权利要求1所述的一种基于模态交互深层超图神经网络的多模态数据表示方法,其特征在于,所述利用尺度点积注意力计算所述词向量间的注意力矩阵,并根据所述注意力矩阵确定所述模态的第一特征矩阵,包括:
根据预设的注意力强度系数,利用尺度点积注意力计算每个词向量中各维度的关联度矩阵;
根据所述关联度矩阵计算聚合信息后的值向量,并根据所述值向量确定所述模态的第一特征矩阵。
3.根据权利要求1所述的一种基于模态交互深层超图神经网络的多模态数据表示方法,其特征在于,所述根据所述第一隶属度与所述第二隶属度构建超图关联矩阵,包括:
计算所述第一特征矩阵与所述超边矩阵的距离;
根据所述距离,并混合所述第一隶属度与所述第二隶属度,构建超图关联矩阵。
4.根据权利要求3所述的一种基于模态交互深层超图神经网络的多模态数据表示方法,其特征在于,所述根据所述距离,并混合所述第一隶属度与所述第二隶属度,构建超图关联矩阵,包括:
根据所述距离,并混合所述第一隶属度与所述第二隶属度,构建初始超图关联矩阵;
调整所述聚类中心,以使所述初始超图关联矩阵达到收敛,得到最终超图关联矩阵。
5.根据权利要求1所述的一种基于模态交互深层超图神经网络的多模态数据表示方法,其特征在于,所述根据所述超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵以及所述模态基于超边的聚合信息,确定所述模态的第二特征矩阵,包括:
根据所述超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵确定所述模态的残差连接对应的残差连接矩阵;
根据所述模态基于超边的聚合信息确定所述模态交互信息对应的模态交互矩阵;
将所述残差连接矩阵与所述模态交互矩阵相加并均值化处理,得到所述模态的第二特征矩阵。
6.根据权利要求1所述的一种基于模态交互深层超图神经网络的多模态数据表示方法,其特征在于,所述计算各模态间的加权余弦相似度以及邻居模态间的变换权重矩阵,并根据所述加权余弦相似度与所述变换权重矩阵确定所述模态的第三特征矩阵,包括:
计算所述第一特征矩阵间的加权余弦相似度;
计算所述第一特征矩阵中邻居节点的变换权重矩阵与各节点间的注意力权重系数;
根据所述加权余弦相似度、所述变换权重矩阵以及所述注意力权重系数确定所述模态的第三特征矩阵。
7.根据权利要求1所述的一种基于模态交互深层超图神经网络的多模态数据表示方法,其特征在于,所述方法还包括:
将所述融合矩阵输入到全连接层,得到模态表示模型;
将训练模态数据输入到所述模态表示模型,以获得关于所述训练模态数据的特征输出。
8.一种基于模态交互深层超图神经网络的多模态数据表示装置,其特征在于,包括:
向量提取单元,用于对多个模态提取词向量,所述模态为不同类型的数据;
第一特征矩阵计算单元,用于利用尺度点积注意力计算所述词向量间的注意力矩阵,并根据所述注意力矩阵确定所述模态的第一特征矩阵;
关联矩阵计算单元,用于对所述模态构建超图,计算所述第一特征矩阵关于预设的聚类中心的第一隶属度以及超边矩阵关于所述聚类中心的第二隶属度,并根据所述第一隶属度与所述第二隶属度构建超图关联矩阵;
第二特征矩阵计算单元,用于根据所述超图关联矩阵、超边权重矩阵、模态隶属度权重矩阵以及所述模态基于超边的聚合信息,确定所述模态的第二特征矩阵;
第三特征矩阵计算单元,用于计算各模态间的加权余弦相似度以及邻居模态间的变换权重矩阵,并根据所述加权余弦相似度与所述变换权重矩阵确定所述模态的第三特征矩阵;
特征矩阵融合单元,用于融合所述第一特征矩阵、所述第二特征矩阵以及所述第三特征矩阵,得到融合矩阵,用于表示所述模态。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。
CN202310284501.6A 2023-03-21 2023-03-21 基于模态交互深层超图神经网络的多模态数据表示方法 Pending CN116432053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310284501.6A CN116432053A (zh) 2023-03-21 2023-03-21 基于模态交互深层超图神经网络的多模态数据表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310284501.6A CN116432053A (zh) 2023-03-21 2023-03-21 基于模态交互深层超图神经网络的多模态数据表示方法

Publications (1)

Publication Number Publication Date
CN116432053A true CN116432053A (zh) 2023-07-14

Family

ID=87088234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310284501.6A Pending CN116432053A (zh) 2023-03-21 2023-03-21 基于模态交互深层超图神经网络的多模态数据表示方法

Country Status (1)

Country Link
CN (1) CN116432053A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828281A (zh) * 2024-03-05 2024-04-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于跨模态超图的行为意图识别方法、系统及终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828281A (zh) * 2024-03-05 2024-04-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于跨模态超图的行为意图识别方法、系统及终端
CN117828281B (zh) * 2024-03-05 2024-05-07 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于跨模态超图的行为意图识别方法、系统及终端

Similar Documents

Publication Publication Date Title
Liu et al. Connecting image denoising and high-level vision tasks via deep learning
CN110263227B (zh) 基于图神经网络的团伙发现方法和系统
WO2022083624A1 (zh) 一种模型的获取方法及设备
CN111583263B (zh) 一种基于联合动态图卷积的点云分割方法
CN109711426B (zh) 一种基于gan和迁移学习的病理图片分类装置及方法
CN112396160A (zh) 基于图神经网络的交易欺诈检测方法及系统
CN109840518B (zh) 一种结合分类与域适应的视觉追踪方法
CN113792768A (zh) 超图神经网络分类方法和装置
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
CN115761240B (zh) 一种混沌反向传播图神经网络的图像语义分割方法及装置
CN113792753A (zh) 动态超图神经网络分类方法和系统
CN112667071A (zh) 基于随机变分信息的手势识别方法、装置、设备及介质
CN116432053A (zh) 基于模态交互深层超图神经网络的多模态数据表示方法
Dekhovich et al. Continual prune-and-select: class-incremental learning with specialized subnetworks
CN114329029A (zh) 对象检索方法、装置、设备及计算机存储介质
CN112508181A (zh) 一种基于多通道机制的图池化方法
Nistor et al. IntelliSwAS: Optimizing deep neural network architectures using a particle swarm-based approach
CN117494775A (zh) 训练神经网络模型的方法、电子设备、云端、集群及介质
Wistuba et al. Inductive transfer for neural architecture optimization
CN117217280A (zh) 神经网络模型优化方法、装置及计算设备
CN114219701A (zh) 敦煌壁画艺术风格转换方法、系统、计算机设备及存储介质
CN113688882A (zh) 一种记忆增强的连续学习神经网络模型的训练方法及装置
Wang et al. psoResNet: An improved PSO-based residual network search algorithm
CN116883746A (zh) 一种基于分区池化超图神经网络的图节点分类方法
CN116543259A (zh) 一种深度分类网络噪声标签建模与纠正方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination