CN117173702A

CN117173702A - 基于深度特征图融合的多视图多标记学习方法

Info

Publication number: CN117173702A
Application number: CN202311116407.6A
Authority: CN
Inventors: 吕庚育; 王逸远; 胡娅坤; 邓勇舰
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-05

Abstract

本发明公开了基于深度特征图融合的多视图多标记学习方法，该方法针对单一共享子空间模型无法完整描述多视图数据的所有语义信息，提出了基于深度特征图融合的多视图多标记分类，通过挖掘实例特征多视图互补关系和标记特征结构化共生关系，构建具有更强表征力的实例标记结构化向量表示，并通过平均化单体视图“实例‑标记”亲和匹配结果进行分类。本方法通过构建多视图统一特征图结构，将单视图内近邻关系和跨视图间对齐关系相互融合，提升每个单体视图的结构化语义表征能力。强调单体视图在特定语义表征的贡献同时融合多视图数据共识性和互补性关系。有效提升多视图数据的语义表述能力，对于实际数据分析和决策具有很强的应用价值。

Description

基于深度特征图融合的多视图多标记学习方法

技术领域

本发明涉及多视图多标记信息融合、深度学习技术，具体涉及一种基于深度特征图融合的多视图多标记学习方法。

背景技术

伴随云计算、物联网、尤其是人工智能技术的蓬勃发展和相关方法的普及使用，随之而来的是海量的多视图多标记数据，如何合理高效地应用这些数据是一个值得关注的问题。现有的问题是当使用这些数据时，特征层面上会出现语义表征不全，即视图数据语义信息难以得到充分刻画。在多视图多标记学习中，每个实例由多个异构特征表示来描述，并同时与多个有效标记相关联。过去相关领域的研究大多集中于利用共享子空间在不同的视图来表示多视图共识信息，然而利用共享子空间解决该问题是否有效仍然有待验证，特别是该方法虽然能够融合多视图的共识性信息，但视图融合过程中不可避免地导致部分关键单体视图语义信息被遮蔽，从而影响了其完整语义的表征。

为此，本发明提出了一种基于深度特征图融合的多视图多标记分类算法(L-VSM：Label DrivenView-Specifific FusionforMulti-ViewMulti-Label Learning)，来解决多视图多标记学习中的语义表征不全问题。通过构建相关的图结构获取视图和标记的结构化表示，最后通IIIII共识性和互补性信息基础上，强调单体视图在特定语义表征的贡献。从而达到提升多视图多标记数据分类性能。

发明内容

本发明的技术解决问题是：提出一种基于深度特征图融合的多视图多标记学习方法，解决现有多视图学习算法存在的多视图特征融合难和语义表征不全问题。

本发明的技术解决方案为：基于深度特征图融合的多视图多标记学习方法，该方法针对单一共享子空间模型无法完整描述多视图数据的所有语义信息，提出了基于深度特征图融合的多视图多标记分类，通过挖掘实例特征多视图互补关系和标记特征结构化共生关系，构建具有更强表征力的实例标记结构化向量表示，并通过平均化单体视图“实例-标记”亲和匹配结果进行分类。具体来说该标记驱动视图特定融合MVML方法(L-VSM)可以绕过对共享子空间表示的搜索，通过深度图神经网络将每个个体视图与其他视图的补充信息进行融合，并将这些有用的信息直接贡献于最终的判别模型。该方法分为以下四个部分：(1)基于标记嵌入的多视图统一特征图构建；(2)结构性实例特征表示；(3)结构性标记特征表示；(4)多标记分类。

具体步骤如下：

在本发明中，矩阵由加粗大写字母表示，如X；向量由加粗小写字母表示，如x；另外，(XR)表示由X·R得到的矩阵，其中·为矩阵乘法。矩阵X的逆和转置分别表示为X^-1，X^T。X_ν表示第v个视图的特征矩阵，X_ν的第i列和第j行分别记为(X_ν)_:,i和(X_ν)_j,:。(X_v)_i,j是X_v的(i,j)元素，x_i表示向量x的第i个元素。另外，用代表实数域。

(1)基于标记嵌入的多视图统一特征图构建；

定义为具有T个视图的特征空间，并且/> 作为具有q个类标记的标记空间，其中d_t(1≤t≤T)是第t个视图的特性维度。给定训练数据D＝{(X_i,y_i)|1≤i≤n}，每个实例/> 由T个特征向量表示，y_i∈[0,1]^q×1表示第i个实例的标记向量。构建多视图统一特征图过程中，将同一视图下不同实例的特征表示作为节点，即每个视图对应一个特征图，每个节点由一个实例的一个特征表示来描述，节点特征相似度作为边，分别构建不同视图下的k近邻特征表示图。提出的L-VSM结构旨在整合来自不同视图的这些不同表示，以构建一个鲁棒的多标记分类器f:/>并进一步预测不可见实例的适当标记。具体来说在该标记驱动的特征图构造策略中，本发明将标记信息嵌入到每个特征图中，并自适应地选择可靠的近邻(而不是静态的近邻)来构造所期望的实例图。然后，通过连接每个实例中不同的特征表示节点，将上述图集成成一个统一的特征图。最后使用图注意力机制将视图内相关性和视图间对齐融合到每个特征节点中，以形成每个实例的结构表示。在这里，视图内相关性反映了每个单独视图下的实例关系，而视图间的对齐反映了每个实例之间的视图连接。该策略有效地避免了少数类的实例特征表示被多数类的实例特征表示所淹没，并自然地提高了最终模型的性能。不同的视图中，同一实例的邻居被自适应选择，这更适合于多视图多标记任务，因为不同的视图往往反映不同的标记信息，不同的标记对应不同的语义关系。不同的视图中，视图相关性是特定于实例的，这会带来更丰富的视图互补性。近邻数k的值拟通过嵌入标记信息来确定，即：

其中，·是向量y_i和y_j的点积运算，║Δ║是向量Δ的L1范数，θ表示标记置信度阈值之后，将同一个实例不同视图下的特征表示节点相互连接，形成一个统一的多视图特征表示图。

将不同视图下的所有实例构造成不同的图G^(t)＝(V^(t),E^(t))，其中t∈{1，2，…，T}。每个图中的节点V^(t)表示第t个视图下的特征表示，而边E^(t)表示相连两个节点的相似度。具体而言，在每个图G^(t)中，用d维向量来描述每个实例节点然后对于每对节点之间的边即e^(t)∈E^(t)可以产生如下的结果：

其中表示关于/>的k近邻(通过欧式距离测量)，而/>表示了来自从/>到/>的无向边，除此之外则/>

在获得每个单独的特征表示图后，将每个实例中的不同特征表示节点连接起来，并将上述单独的特征图集成到统一的多视图特征表示图中，其中不同类型的特征节点即不同视图之间的边表示其连接视图之间的视图相关性。

(2)结构性实例特征表示

在实例特征结构化表示过程中，对第t个视图下的原始特征采用了一种基于注意力的深度图神经网络架构(R-GCN)来计算隐藏的每个特征节点的表示，通过图注意力机制将样本自身属性、视图内近邻关系、视图间对齐关系相互聚合更新，获取更具表征力的结构化向量表示/>R-GCN通常用于处理图结构数据，其中节点表示实例特征，边表示节点之间的关系，核心思想是通过学习节点之间的交互模式来更新和聚合节点的表示。具体而言，对于每个隐藏特征节点，使用注意力机制来计算重要性权重，以对不同的信息进行加权。这种注意力机制可以根据节点之间的关系和特征来决定重要性权重，从而有效地聚合不同的信息。在这个架构中，通过利用样本自身的属性信息、视图内节点的近邻关系以及视图间的对齐关系，R-GCN能够综合考虑多个视图下的特征，并通过注意力机制对它们进行加权聚合。这样可以获得更加富有表征力的结构化向量，用于进一步的任务处理或分析。

这里，表示统一维度后的实例特征，σ(·)＝max(0,·)是激活函数，/>和/>是权重矩阵，通过将对应的示例特征/>乘以权重矩阵/>和/>获得更新后的结构表示。

在第t个视图下是/>的最近邻，/>编码权矩阵，k和V分别表示邻居和视图的数量。根据公式(3)可以观察到，每一种特征表征都伴随着三种类型的结构信息，即自身属性信息(第一项)、视图内相关信息(第二项)和视图间对齐信息。在这里，视图内相关性整合了同一视图下的k个最近邻的贡献，而视图间对齐则融合了同一实例中不同视图之间的互补信息，共同增强了其表征实例的识别能力，进一步提高了最终模型的鲁棒性。此外，为了避免模型陷入过拟合，对权重/>进行了正则化，作为具有系数的基变换/> 的线性组合。

此外，进一步考虑其他实例在不同视图中表征的贡献，加强学习结构特征的识别能力，在实验中，利用输出方程(3)作为其输入，并重复这样的传播操作，以融合更多的视图间互补信息到每个特征节点。这个过程可以重复进行多次，以逐步提取和整合更丰富的结构特征表示。通过迭代传播操作，模型可以更好地捕获不同视图间的关联信息，并对实例进行更准确的表征。然后获得所需的结构特征表示用于后续多标记分类。

(3)结构性标记特征表示

为了探索多标记学习中广泛存在的标记相关性，引入Transforer架构来构建动态语义感知的标记图，并相应地为每个特定的标记生成结构性语义表示。具体来说，考虑到不同视图中语义关系的多样性，对于每个特定的标记c_i(1≤i≤q)，生成T个原始标记特征表示其中每种标记特征表示/>通过平均其对应的实例特征/>得到。

在这里，表示与标记c_i相关联的实例数，对于每一种标记特征表示分别构造一个独立的全连通无向标记图来挖掘它们特殊的内部语义关系。构建具有不同语义关系的多个标记图，主要在于考虑到不同的视图通常反映不同的语义信息，不同的语义信息往往对应于不同的语义关系。初始化这些标记特征表示后，将每个原始标记特征表示/>转换成更高维度的特征/>来获得足够的表达能力。/>是共享的线性变换矩阵，σ(·)＝max(0,·)是元素级的激活函数。应用标准的Transformer编码器结构作为Transformer单元来建立动态的语义关系/>

对于每个特定的类，相应地生成特殊的语义表示形式：

这里，表示标记矩阵。/>表示权重矩阵，表示转换矩阵，/>和/>表示偏置向量。值得注意的是，在每个不同的视图中，上述操作是独立执行的，以便在不同的视图中保持特殊的语义关系。

(4)多标记分类

为了突破传统共享子空间的限制，通过优化Multi-Label Soft Margin Loss来更新模型，并通过平均化单体视图的“实例-标记”匹配亲和度结果来进行标记预测。

提出的L-VSM中，通过采用在第(2)和第(3)步中获得的每个单独的结构特征表示和标记表示/>获取对于每一个实例表示/>的标记置信分数/>每个实例X_i的最终标记置信度得分[p_i1，p_i2，...，p_iq]是通过从不同的视图中提取标记置信度来计算的。

然后，通过平均来自不同视图的标记置信度，计算每个X_i实例的最终标记置信度得分[p_i1,p_i2,…,p_iq]：

被广泛使用的Multi-Label Soft Margin Loss：

其中，表示匹配亲和度，S(·)表示sigmoid函数。

与现有技术相比，本方法的创新点在于解决传统共享子空间方法无法全面表征样本所有语义的问题，通过构建多视图统一特征图结构，将单视图内近邻关系和跨视图间对齐关系相互融合，提升每个单体视图的结构化语义表征能力。特色在于强调单体视图在特定语义表征的贡献，同时融合多视图数据共识性和互补性关系。方法能够有效提升多视图数据的语义表述能力，突破共享子空间方法的语义表征不全的问题，对于实际数据分析和决策具有很强的应用价值。

附图说明

图1展现了L-VSM模型的训练流程。

具体的实施方式

以下结合附图和实施例对本发明进行详细说明。

1、多视图特征图构建：

在不同视图下构造V个特征图G(t)，其中每条边由等式(2)定义，在获得每个单独的特征表示图后，将每个实例中表示不同特征的节点连接起来，并将上述单独的特征图集成到统一的多视图特征表示图中，其中不同类型的特征节点(即不同视图)之间的边对其连接视图之间的视图相关性进行编码。

2、关于结构性实例特征表示：

具体来说，首先将每个原始输入特征向量转换为更高层次的特征来获得足够的表现力，其中/>是共享的线性变换矩阵，σ(·)＝max(0,·)是元素激活函数。然后，统一多视图图中的每个特征表示节点可以通过公式(3)来去进行更新。此外，为了避免模型陷入过拟合，对公式中的权重/>进行了正则化，作为具有系数的基变换/>的线性组合。进一步考虑其他实例在不同视图中表征的贡献，加强学习结构特征的识别能力重复，在实验中，也利用输出方程(3)作为其输入，并重复这样的传播操作，以融合更多的视图间互补信息到每个特征节点，获得所需的结构特征表示/>用于后续多标记分类。

3、关于结构性标记特征表示：

构造全连通标记语义图，通过等式(5)计算原始标记表示对于每一种标记特征表示/>分别构造了一个独立的全连通无向标记图来挖掘它们特殊的内部语义关系。初始化这些标记特征表示后，将每个原始标记特征表示/>转换成更高级的特征/>来获得足够的表达能力。构建标记结构化特征关系过程中，拟引入Transformer结构来构造动态语义感知标记图，并相应地为每个特定标记生成结构化语义表示。考虑到不同视图反映了不同的语义信息、也就对应不同的语义关联，分别构建不同视图下的语义关联关系如公式(6)所示。根据不同的语义关联关系，针对每个标记生成对应的类结构化表示/>如公式(7)和(8)所示。通过公式(8)来去更新/>作为连续注意单元的输入，记录/>用于后续多标记分类。

4、多标记分类:

通过在上面不断更新获得的由每个单独的结构特征表示的和/>来获取对于每一个情况/>的标记置信分数/>每个实例X_i的最终标记置信度得分[p_i1，p_i2，...，p_iq]通过公式(10)计算获得，从而得到最终的标记置信度评分获得分类结果。通过最小化等式中的Multi-Label Soft Margin Loss即公式(11)来更新模型参数。

实验数据集说明：

为了评估提出的L-VSM的性能，为了评估提出的L-VSM的性能，在10个基准数据集上进行了综合实验。Emotions有593种音乐，由两种观点描述：8个节奏属性和64个音色属性。Scene由2407张图像组成，其中来自两个视图的294个特征分别反映了颜色的亮度和色度。Yeast是一个生物基因数据集，其中一个基因的系统发育谱(24个属性)和遗传表达的连接(79个属性)分别对应于其两种不同的特征观点。Plant和Human是两个多重蛋白质定位分类数据集，分别由从植物和人类的978条和3106条序列中提取的两种特征(氨基和双肽)组成。Corel5k和Espgame分别包含4999张和20770张图像，均由4个不同的特征表示：GIST、HSV、HUE、DIFT。Pascal和Mirflflickr，除了上述四个视图之外，还添加了文本视图来描述它们的标记特性。表1总结了上述数据集的特征。

表1：所使用的数据集的特征

-D_min-max指特征的最小-最大维度.

实验设计：

采用了两类的六种最先进的方法进行比较研究:第一类是ML-KNN、RakeLD和LSPC等多标记学习方法，将所有视图特征作为学习模型的输入；第二类是LrMMC、SIMM、D-VSM、FIMAN、GRADIS、iMVML和NAIM3L等多视图多标记方法，融合了不同视图的互补性，进行分类模型归纳。

其中多标记学习方法ML-KNN发表在计算机视觉领域顶级期刊PR 2007，RakeLD发表在数据挖掘领域顶级期刊TKDE 2011，LSPC于2016年发表在MDPI旗下的Entropy期刊上，多视图多标记方法LrMMC于2015年发表在顶级会议AAAI上，SIMM发表在国际人工智能联合会议IJCAI 2019，FIMAN发表在知识发现和数据挖掘国际会议ACM SIGKDD 2020，D-VSM发表在人工智能会议AAAI 2022，GRADIS发表在人工智能会议AAAI 2020，iMVML发表在国际人工智能联合会议IJCAI 2018，NAIM3L发表在计算机期刊TPAMI 2021上。上述方法的配置参数均根据该方法的相关文献中的建议进行设置。

此外，还采用了评价每种比较方法的六种流行的多标记指标，Hamming Loss,RankingLoss,One-Error,Coverage,Average Precision和Micro-F1。

实验结果：

表2-9说明了提出的L-VSM和其他7种比较方法在所有评价指标上的实验比较，其中分别记录了平均指标结果和标准差。在420个(10数据集×7方法×6评价指标)的统计比较中，可以进行以下观察：从比较方法的角度来看，提出的L-VSM明显优于两种多标记学习方法和多视图多标记学习方法。具体来说，L-VSM在100％的情况下优于ML-KNN、RakeLD、LSPC、LrMMC和FIMAN。相应地，L-VSM分别在96.25％和88.75％的情况下优于SIMM和D-VSM。这些结果表明，提出的特定视图策略可以有效地提高从多视图多标记数据中获得的学习性能。对于具有大量类的数据集(如Corel5k和Iaprtc12)，L-VSM在97.02％的情况下也优于其他比较方法。此外，对于具有高维特征(如Pascal)的数据集，L-VSM仍然取得了很好的性能。这些结果证明了提出的L-VSM在从复杂的多视图多标记数据中学习的有效性。从评估指标的角度来看，提出的L-VSM仍然在几乎所有指标上都有显著的改进。特别是对于反映类不平衡多标记数据学习性能的度量Macro-F1，在97.14％的情况下L-VSM实现了优于其他比较方法的性能，且在某些类不平衡数据集上的优势更为显著。这些结果通过经验证明了提出的标记驱动实例图构造策略在处理类不平衡的多视图多标记数据方面的有效性。

表2：Hamming Loss(the lower the better)

表3：Ranking Loss(the lower the better)

表4：One Error(the lower the better)

表5：Coverage(the lower the better)

本方法提出的L-VSM与其他比较方法在Hamming Loss、Ranking Loss、One Error和Coverage指标上进行了实验比较，其中最佳性能以粗体和“-”显示，表明FIMAN在Mirflflick数据集上需要超过256G的RAM。

表6：Average Precision(the higher the better)

/>

表7：Micro-F1(the higher the better)

/>

表8：Subset Accuracy(the higher the better)

/>

表9：Macro-F1(the higher the better)

将本方法提出的L-VSM与其他比较方法在Average Precision、Micro-F1、SubsetAccuracy和Macro-F1指标上进行了实验比较，其中最佳性能以粗体和“-”表示，表明FIMAN在Mirflflick数据集上需要超过256G的RAM。

本方法对于多视图多标记任务提出了一个标记驱动视图特定融合模型L-VSM，该模型将不同视图的互补性融合到每个单独的视图中，并直接使用这些单独的视图来诱导最终的模型。与以前的方法相比，L-VSM超越了共享子空间的限制，并通过同时利用不同视图之间的互补信息和单个视图中的视图特定信息来提高模型的性能。标记驱动的特征图构造策略和基于transformer的动态标记关系也共同提高了学习模型的有效性和鲁棒性。在经典多视图多标记任务和弱监督多视图多标记任务上的大量实验结果证明了提出的L-VSM比现有的方法具有显著的优势。

Claims

1.基于深度特征图融合的多视图多标记学习方法，其特征在于：该方法基于深度特征图融合的多视图多标记分类，通过挖掘实例特征多视图互补关系和标记特征结构化共生关系，构建具有更强表征力的实例标记结构化向量表示，并通过平均化单体视图“实例-标记”亲和匹配结果进行分类；标记驱动视图特定融合MVML方法L-VSM绕过对共享子空间表示的搜索，通过深度图神经网络将每个个体视图与其他视图的补充信息进行融合，并将这些有用的信息直接贡献于最终的判别模型；该方法分为以下四个部分：(1)基于标记嵌入的多视图统一特征图构建；(2)结构性实例特征表示；(3)结构性标记特征表示；(4)多标记分类。

2.根据权利要求1所述的基于深度特征图融合的多视图多标记学习方法，其特征在于：基于标记嵌入的多视图统一特征图构建过程如下；

定义为具有T个视图的特征空间，并且/> 作为具有q个类标记的标记空间，其中d_t(1≤t≤T)是第t个视图的特性维度；给定训练数据D＝{(X_i,y_i)|1≤i≤n}，每个实例/> 由T个特征向量表示，y_i∈[0,1]^q×1表示第i个实例的标记向量；构建多视图统一特征图过程中，将同一视图下不同实例的特征表示作为节点，即每个视图对应一个特征图，每个节点由一个实例的一个特征表示来描述，节点特征相似度作为边，分别构建不同视图下的k近邻特征表示图；将标记信息嵌入到每个特征图中，并自适应地选择近邻来构造所期望的实例图；然后，通过连接每个实例中不同的特征表示节点，将上述图集成成一个统一的特征图；最后使用图注意力机制将视图内相关性和视图间对齐融合到每个特征节点中，以形成每个实例的结构表示；视图内相关性反映每个单独视图下的实例关系，视图间的对齐反映每个实例之间的视图连接；近邻数k的值拟通过嵌入标记信息来确定，即：

其中，·是向量y_i和y_j的点积运算，║Δ║是向量Δ的L1范数，θ表示标记置信度阈值之后，将同一个实例不同视图下的特征表示节点相互连接，形成一个统一的多视图特征表示图；

将不同视图下的所有实例构造成不同的图G^(t)＝(V^(t),E^(t))，其中t∈{1，2，…，T}；每个图中的节点V^(t)表示第t个视图下的特征表示，而边E^(t)表示相连两个节点的相似度；具体而言，在每个图G^(t)中，用d维向量来描述每个实例节点然后对于每对节点之间的边即e^(t)∈E^(t)产生如下的结果：

其中表示关于/>的k近邻，而/>表示了来自从/>到/>的无向边，除此之外则/>

3.根据权利要求1所述的基于深度特征图融合的多视图多标记学习方法，其特征在于：结构性实例特征表示过程如下：

对第t个视图下的原始特征采用了一种基于注意力的深度图神经网络架构R-GCN来计算隐藏的每个特征节点/>的表示，通过图注意力机制将样本自身属性、视图内近邻关系、视图间对齐关系相互聚合更新，获取更具表征力的结构化向量表示/>R-GCN通常用于处理图结构数据，其中节点表示实例特征，边表示节点之间的关系，核心思想是通过学习节点之间的交互模式来更新和聚合节点的表示；对于每个隐藏特征节点，使用注意力机制来计算重要性权重，以对不同的信息进行加权；

表示统一维度后的实例特征，σ(·)＝max(0,·)是激活函数，和/>是权重矩阵，通过将对应的示例特征/>乘以权重矩阵/>和/>获得更新后的结构表示；

在第t个视图下是/>的最近邻，/>编码权矩阵，k和V分别表示邻居和视图的数量；

为避免模型陷入过拟合，对权重进行了正则化，作为具有系数的基变换的线性组合；

利用输出方程(3)作为其输入，并重复传播操作，以融合更多的视图间互补信息到每个特征节点；获得所需结构特征表示用于后续多标记分类。

4.根据权利要求1所述的基于深度特征图融合的多视图多标记学习方法，其特征在于：结构性标记特征表示如下：

引入Transforer架构来构建动态语义感知的标记图，对于每个特定的标记c_i(1≤i≤q)，生成T个原始标记特征表示其中每种标记特征表示/>通过平均其对应的实例特征/>得到；

表示与标记c_i相关联的实例数，对于每一种标记特征表示分别构造一个独立的全连通无向标记图来挖掘它们特殊的内部语义关系；初始化标记特征表示后，将每个原始标记特征表示/>转换成更高维度的特征来获得足够的表达能力；/>是共享的线性变换矩阵，σ(·)＝max(0,·)是元素级的激活函数；应用标准的Transformer编码器结构作为Transformer单元来建立动态的语义关系/>

对于每个特定的类，相应地生成特殊的语义表示形式：

这里，表示标记矩阵；/>表示权重矩阵，表示转换矩阵，/>和/>表示偏置向量。

5.根据权利要求1所述的基于深度特征图融合的多视图多标记学习方法，其特征在于：多标记分类包括如下：

通过优化Multi-Label Soft Margin Loss来更新模型，并通过平均化单体视图的“实例-标记”匹配亲和度结果来进行标记预测；

L-VSM中通过采用在第(2)和第(3)步中获得的每个单独的结构特征表示和标记表示/>获取对于每一个实例表示/>的标记置信分数/>每个实例X_i的最终标记置信度得分[p_i1，p_i2，...，p_iq]是通过从不同的视图中提取标记置信度来计算的；

使用Multi-Label Soft Margin Loss：

其中，表示匹配亲和度，S(·)表示sigmoid函数。