CN115392474B - 一种基于迭代优化的局部感知图表示学习方法 - Google Patents

一种基于迭代优化的局部感知图表示学习方法 Download PDF

Info

Publication number
CN115392474B
CN115392474B CN202210671735.1A CN202210671735A CN115392474B CN 115392474 B CN115392474 B CN 115392474B CN 202210671735 A CN202210671735 A CN 202210671735A CN 115392474 B CN115392474 B CN 115392474B
Authority
CN
China
Prior art keywords
label
graph
local
image
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210671735.1A
Other languages
English (en)
Other versions
CN115392474A (zh
Inventor
王丹
穆京京
李源源
崔振
许海燕
高阳特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Beijing Institute of Spacecraft System Engineering
Original Assignee
Nanjing University of Science and Technology
Beijing Institute of Spacecraft System Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology, Beijing Institute of Spacecraft System Engineering filed Critical Nanjing University of Science and Technology
Priority to CN202210671735.1A priority Critical patent/CN115392474B/zh
Publication of CN115392474A publication Critical patent/CN115392474A/zh
Application granted granted Critical
Publication of CN115392474B publication Critical patent/CN115392474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于迭代优化的局部感知图表示学习方法,在每次迭代过程中,通过将全局统计标签图和个体标签分布图进行融合,为每个图像样本动态地构建不同的标签图,实现标签节点之间相关性的自适应。对每个图像学习特定的节点特征表示,同时利用过去的预测结果作为指导,来预测图像的多标签。并且,在迭代优化的模型框架中,通过构建重复的网络模块,实现了多标签预测结果的从粗糙到精细的优化过程。本发明采用上述的一种基于迭代优化的局部感知图表示学习方法,可以实现更加鲁棒的多标签预测。

Description

一种基于迭代优化的局部感知图表示学习方法
技术领域
本发明涉及图表示学习技术领域,尤其是涉及一种基于迭代优化的局部感知图表示学习方法。
背景技术
图是一种能够描述事物之间复杂关系的数据结构,由若干个节点以及节点之间的边构成。节点可以表示各种物体,边可以表示各种相关性。图的表示学习旨在利用图的结构信息和节点的特征,获取鲁棒性更强、判别性更高的图或者节点的特征表示。经过表示学习后,相关性强的节点其更新后的特征更加相似,相关性弱的节点其学习到的特征将更加不同,更具判别性的节点特征将可以更好地支持各种下游任务。
随着网络数据量的急剧增加,图的表示学习广泛应用于各种任务中。面对网络中海量的图像数据,为实现对图像数据的有效管理划分,对图像进行多标签的分类就显得尤为重要。根据图像分类后的多标签,即可以实现图像的分类管理,如手机的智能相册等,又能便于图像的查询,依据标签信息从海量图像中快速检索到需要的图像,更能促进计算机视觉对图像的深层次理解,有利于未来无人驾驶、智能机器人等技术的进一步发展。在图像的多标签分类任务中,起初传统的人工标注费时费力,而后基于深度学习的方法实现了自动化地标签分类,如今为进一步提升图像的多标签分类性能,基于图的表示学习方法成为了当下的研究热点。通过将图像的各个标签看作节点,建模节点之间复杂的相关性,从而构建出标签图。基于构建出的标签图,对其进行图的表示学习,获取各个标签节点鲁棒且具有判别性的表征,并将其与图像特征相结合,实现最后的多标签分类。
具体来说,图表示学习的目的是通过图的结构信息进行节点之间的信息交互,使得相关性强的节点之间其特征的相似度高,相关性弱的节点之间其特征相似度则低。因此,图的表示学习可以为各种下游任务(如:图分类、多标签分类等)提供鲁棒的节点嵌入表示。对于图的表示学习,可以大致分为基于传统的图表示学习方法和基于深度学习的图表示方法。传统的图表示学习方法主要包括基于流形正则的方法和基于重构的方法。基于流形正则的方法主要通过利用图的结构信息作为图数据在流形空间上的距离,如局部线性嵌入、ISOMAP等方法。基于重构的方法主要通过特征向量计算、矩阵分解等计算方式,实现对图数据的压缩以及复原,以最大限度地保留原始图数据中的有用信息,如主成分分析、谱聚类等方法。
而基于深度学习的图表示方法主要包括了图卷积网络、图注意力网络以及图自编码器等众多的分支。图卷积网络可以看作是卷积神经网络在图数据上的扩展延伸。根据图卷积对数据处理方式的不同,可以将其分为谱域图卷积网络和空域图卷积网络:(1)谱域图卷积网络是通过将图信号作为拉普拉斯矩阵,并利用傅里叶变换获取其频域信号,图卷积操作就是通过在谱域中进行滤波操作实现的,如GCN、SGCN等;(2)空域图卷积网络可以看作是对卷积神经网络在图数据上的模仿,通过在空间域上定义图卷积操作,实现中心节点和周围一阶邻居节点信息的聚合,如GraphSAGE、DCNN等。图注意力网络启发于人类的视觉机制,将信息中重要的部分给予更大的权重,增强该部分的信号;同时对那些不重要的信息赋予更小的权重,抑制这部分信息的流通,减少对模型学习的干扰,如GAT、GaAN等。图自编码器通过对图数据进行编码、解码的操作,利用KL散度和重构误差实现参数的优化,最终将节点的隐变量作为节点的嵌入表示并用于支持各种下游任务,如VGAE、 ARGA以及ARVGA等。
图像的多标签分类可以给图像中不同目标物体进行特定语义的标签标注,并根据标签信息实现对海量图像数据的有效划分管理与查询检索。因此,图像的多标签分类在图像搜索、医学影像等领域具有广泛的应用。对于图像的多标签分类任务,根据所采取的学习方式的不同,可以将其大致划分为基于传统的分类方法和基于深度学习的分类方法。基于传统的方法主要是将多标签分类划分为多个单标签分类问题,通过为每个类别单独训练一个二分类器来判断图像是否包含对应的类别,如BR算法、Rank-SVM算法等。基于深度学习的分类方法主要涉及了提取全局图像的高维特征、预测图像的局部区域以及建模标签之间的相关性等分支。
基于全局图像的方法主要使用复杂的网络提取图像深层次的特征,将其直接输入到标签分类器中,如VeryDeep、Resnet等网络。基于图像局部区域的方法采用了目标检测的技术,定位到图像中的若干个区域,根据各区域中包含的目标特征进行多标签的分类,如RNN-Attention、Atten-Reinforce等算法。基于探索标签相关性的方法通过挖掘出标签之间存在的内在关联性,使得图像在进行某个标签判别时可以考虑到与之相关性较大的其它标签,从而实现标签的辅助判别,例如ML-GCN、KSSNet网络等。
现有的标签图大部分只是基于统计信息构建的,且每个图像均采用相同的标签图,但是统计信息并不能很好地适用于每一个样本,尤其是对于图像之间存在巨大差距的数据集,统计信息不具有代表性。而且,现有的标签图学习主要基于统计信息构建标签节点之间固定的相关性,通过图卷积等方法学习标签节点的特征表示,使得相关性强的节点特征也相似,相关性弱的节点特征则不同,最后根据节点特征构建标签预测分类器。
尽管基于图卷积的多标签分类,已经可以较好地建模多标签之间的相关性来促进预测图像的多标签,但是基于固定的预训练网络,骨干特征固定的特征表达限制了多标签预测性能的进一步提高。在本发明中,我们使用迭代优化的框架,使得多标签分类器在之前的预测结果基础上,通过更新骨干网络模型,学习更加鲁棒的多标签特征,进而起到纠正历史错误预测结果,促进预测更加精准的多标签预测。
发明内容
本发明的目的是提供一种基于迭代优化的局部感知图表示学习方法,自适应性更佳,并且能迭代的纠正和优化预测结果,实现更加准确的多标签预测。
为实现上述目的,本发明提出的一种基于迭代优化的局部感知图表示学习方法,步骤如下:
S1、把待预测的图片集合和一个随机初始化的多标签集合输入到网络框架中;
S2、进行循环迭代地优化多标签预测结果;
在每个模块中,优化多标签预测结果的过程包括基于变分推理的显著性区域选择、局部依赖性的标签相关性矩阵构建、图的特征学习、基于历史信息指导的全局/局部分支的联合学习。
优选的,步骤S1中,多标签预测框架中包含了多个结构一致的多标签优化卷积网络模块,其中每个模块输入前一个模块预测的多标签结果以及待预测的图片,然后预测一个更加准确的结果。(第一个网络模块加载一个随机初始化的多标签向量)。
优选的,步骤S2中,每个多标签优化模块包括全局分支和局部分支,在两个分支之后,还通过一个融合过程来综合两个分组的预测结果,具体如下;
a、全局分支的特征提取方法:全局分支上,使用预训练的模型(可以使用多种先进的网络设计:ResNet,Transformer网络等)来提取图像的高维特征;并且在第一个多标签优化模块中,预训练模型的参数固定,而其他模块中,预训练模型参数也和其他网络组件一起训练;
b、局部分支的特征提取方法:
(1)使用RPN模块来检测出当前图像的若干个感兴趣区域ROIs,并提取该区域的特征;对于输入的图像Mi,首先通过RPN检测到多个ROIs,选取出与多标签分类任务相关性较好、数量固定的区域作为显著性区域,舍弃剩余的相关性较弱的冗余区域;
(2)使用变分推理模块对各个区域学习自适应的多标签任务相关性权重;对各个区域根据权重大小进行降序排序,选择固定数量区域,并将选取的区域特征和学习到的权重进行相乘,进而通过局部标签相关性矩阵模块,生成显著性区域特征;
(3)根据显著性区域的特征,生成当前图像特有的个体标签分布特征,并将其与统计标签分布特征进行融合,构造出依赖局部感知的多标签分布特征;
(4)将构造出的标签分布特征通过图的表示学习获取判别性更高的节点特征;
c、在使用历史多标签预测结果的指导下,通过联合学习模块将全局分支与局部分支的结果进行融合,预测图像中存在的物体多标签。
优选的,基于变分推理的显著性生成过程如下:
(1)对于输入的图像Mi,首先通过RPN检测到多个ROIs,选取出与多标签分类任务相关性较好、数量固定的区域作为显著性区域,舍弃剩余的相关性较弱的冗余区域;
(2)建模区域和多标签分类任务之间复杂的条件分布p(ti|Li,si),通过变分推理的方法来为区域学习自适应的权重因子,其中si为第i个图像真实的标签向量,是第i个图像上检测出的Ki个区域特征,/>是相关性向量,每个元素tij表示第j个区域与任务的相关性;
将ti进行降序处理,根据降序后的索引,选取出对应的N个固定数量的区域,将前N个最大的相关性权重与对应的区域特征进行相乘,生成显著性区域的特征Vi=[vi1,...,viN],公式如下:
vij=tij×lij,j∈S, (1)
其中,S为选取出的N个区域的索引集合;
(3)在选取显著性区域的过程中,通过qφ(ti|Li,si)来近似后验分布p(ti|Li,si),使用KL散度来评估qφ(ti|Li,si)和p(ti|Li,si)之间的分布差异性;
重新推导变分下界(Variational Lower Bound,VLB)Bvlb(Li,si,φ),即:
设置qφ(ti|Li,si)=qφ(ti|Li),p(ti|Li)~N(0,I),通过重参数化技巧使得ti符合高斯分布,即:
(4)基于变分推理的结果,对每个图像自适应地选取出N个显著性区域,并获取对应的加权后的区域特征Vi=[vi1,...,viN];将每个显著性区域特征vij转化为标签总个数C维的向量,使得从维度上可以将显著性特征视为其粗糙的标签预测分数,N个显著性区域的特征
优选的,基于局部依赖的标签相关性矩阵预测多标签分布特征的生成流程如下:
(1)基于学习到的个体LCM和由训练数据获取的统计LCM构建 LD_LCM,LD_LCM通过公式(4)计算获取:
其中,AC分别表示统计的LCM和第i个图像的个体LCM,⊙表示元素点乘;
(2)对于统计LCMAC,首先通过统计训练集中各个标签共同出现在同一幅图像中的次数,然后基于此信息计算出标签出现的条件概率矩阵,即一个标签出现的情况下,另外一个标签出现的概率;对于个体根据获取的显著性区域特征Vi,按照公式计算生成;
考虑到Vi中的每一列表示对应显著性区域在各个标签上粗糙的预测分数,则/>的每个元素视为第i个图像中两个标签共现的概率。
优选的,图的特征学习中,通过构建局部标签相关性进行图的表示学习,即使用LD_LCM作为图的邻接矩阵,实现在全局分支和局部分支上的标签感知,流程如下:
(1)对于图的表示学习,采用GCN方法来学习节点,其中,定义在第l 层上的输入的特征记为F(l),对应的邻接矩阵为A,GCN可以被公式化为如下的非线性函数:
其中,W(l)是第l层上用于空间投影的学习参数,r是归一化标量,数值大小为节点的个数,选择ReLU(·)为非线性激活函数;
(2)对于标签图和显著性区域图,均使用GCN来更新特征;具体来说,对于标签图,将每个标签作为一个节点,使用标签单词嵌入的结果作为初始化特征,构建出标签节点特征矩阵G,LD_LCM作为对应的边;对于显著性区域图,将每个标签在各区域上的分数作为一个节点的特征,仍然使用 LD_LCM作为对应的边权重;因此,GCN在标签图和显著性区域图上的表示学习如公式(6)所示:
其中,Ww和Wl分别为对应的在G和Vi上的参数矩阵集合。
优选的,基于历史多标签预测结果作为指导信息,来融合多标签模块的全局与局部分支,其过程为:
首先,将多标签预测分数向量通过映射函数对两个分支的多标签预测特征进行通道加权,然后在通过全连接层获取两个分支的多标签预测分数,即全局分支的和局部分支的/>然后将两个分数进行相加以获取最终的预测分数/>即:
定义算法的损失函数为:
ζ=ζML-Bvlb(Li,si,φ). (8)
ζML为多标签任务中的常用的损失函数,如公式(10)所示:
其中,yi∈RC为第i个图像的真实标签向量,(yi)j∈{0,1}表示第j个标签存在与否,σ(·)为sigmoid函数。
优选的,多标签预测框架中的每个预测模块都进行了监督,并把多个模块预测结果的平均值作为整个框架最终的预测结果。
因此,本发明采用上述一种基于迭代优化的局部感知图表示学习方法,基于多标签迭代优化的方法,并且在每个多标签优化模块中,利用区域提取模块学习到当前图像所特有的标签分布图,并将其与全局统计标签图进行融合,实现自适应地修正统计信息,从而构建出基于局部感知的标签图。
并且,通过将全局统计标签图和个体标签分布图进行融合,为每个图像样本动态地构建不同的标签图,实现节点之间相关性的自适应,为每个图像学习到不同的具有针对性的节点特征表示。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是基于局部感知的图表示学习算法整体框架图。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的主旨或基本特征的情况下,能够以其它的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其它实施方式。这些其它实施方式也涵盖在本发明的保护范围内。
还应当理解,以上所述的具体实施例仅用于解释本发明,本发明的保护范围并不限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明/发明的保护范围之内。
本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同,除非另外特别定义。还应当理解,在诸如通用词典中定义的术语应当被理解为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非本文有明确地这样定义。
其中,各名词全称和简称的对应如下:
Local Branch(LB):局部分支
Variational Lower Bound(VLB):变分下界
Regions of Interests(ROIs):感兴趣区域
Variational Inference(Var_Inf):变分推理
Combination of Learning(Com_Lea):联合学习
Region Proposal Network(RPN):区域提取网络
Label Correlation Matrix(LCM):标签相关性矩阵
Graph Convolution Networks(GCN):图卷积网络
Local-Aware Graph Representation Learning(LA_GRL):局部感知的图表示学习
Local-Dependent Label Correlation Matrix(LD_LCM):依赖局部的标签相关性矩阵。
对于相关领域普通技术人员已知的技术、方法和设备可能不作为详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
本发明说明书中引用的现有技术文献所公开的内容整体均通过引用并入本发明中,并且因此是本发明公开内容的一部分。
实施例一
一种基于局部感知的图表示学习方法,步骤如下:
S1、把待预测的图片集合和一个随机初始化的多标签集合输入到网络框架中,然后进行循环迭代地优化多标签预测结果。
S2、迭代优化的多标签预测框架包含多个多标签预测模块,其中的网络前向过程包括基于变分推理的显著性区域选择、依赖局部的标签相关性矩阵构建、图的特征学习以及基于历史信息指导的全局/局部分支的联合学习。
具体来说,步骤如下。
一、模型框架
如图1所示,整体体的算法框架包括多个结构一致的多标签优化卷积网络模块,在每个模块中包含:全局分支和局部分支,全局分支用于提取图像整体的深层次特征,局部分支用于建模区域之间的相关性。在全局分支上,使用Resnet模型来提取图像的高维特征;对于局部分支,首先使用区域提取网络(Region Proposal Network,RPN)模块来检测出当前图像的若干个ROIs,并提取区域的特征。然后,为建模区域之间复杂的分布,引入变分推理模块对各个区域学习自适应的权重。根据权重大小进行排序,选择固定数量的区域,并将选取的区域特征和对应的权重进行相乘,生成显著性区域特征。接着,为实现全局分支和局部分支对标签的感知性,引入局部标签相关性矩阵模块。
根据显著性区域的特征,生成当前图像特有的个体标签分布特征,并将其与统计标签分布特征进行融合,构造出依赖局部感知的标签分布特征。再将构造出的标签分布特征通过图的表示学习获取判别性更高的节点特征。最后,引入联合学习模块,将全局分支与局部分支的结果进行融合,预测图像中存在的物体标签。
二、基于变分推理的显著性区域选择
假定对于一个输入的图像Mi,首先通过RPN检测到多个ROIs。考虑到各个区域对任务具有不同的重要性,同时为了便于算法的统一操作,选取出与多标签分类任务相关性较好、数量固定的区域作为显著性区域,舍弃剩余的相关性较弱的冗余区域。为了建模区域和多标签分类任务之间复杂的条件分布p(ti|Li,si),引入变分推理的方法来为区域学习自适应的权重因子,其中si为第i个图像真实的标签向量,是第i个图像上检测出的Ki个区域特征,/>是相关性向量,每个元素tij表示第j个区域与任务的相关性。将ti进行降序处理,根据降序后的索引,选取出对应的N个固定数量的区域。之后,将前N个最大的相关性权重与对应的区域特征进行相乘,生成显著性区域的特征 Vi=[vi1,...,viN]。公式如下:
vij=tij×lij,j∈S, (1)
其中S为选取出的N个区域的索引集合。
在选取显著性区域的过程中,主要依据的是ti的数值大小,但是ti真实的后验分布难以通过贝叶斯规则p(ti|Li,si)=p(ti)p(Li,si|ti)/p(Li,si)来求解。于是利用变分推理来求解此问题,通过引入qφ(ti|Li,si)来近似后验分布p(ti|Li,si),并使用KL 散度(Kullback-Leibler Divergence)来评估qφ(ti|Li,si)和p(ti|Li,si)之间的分布差异性。最小化KL散度可以使得qφ(ti|Li,si)学习到一个好的近似。
考虑到KL散度的数值是非负的,因此变分下界(Variational Lower Bound,VLB)Bvlb(Li,si,φ)可以被重新推导,最小化KL散度问题可以转化为最大化 Bvlb(Li,si,φ),即:
通过进一步放宽条件分布qφ(ti|Li,si)和p(ti|Li)的限制,并设置 qφ(ti|Li,si)=qφ(ti|Li),p(ti|Li)~N(0,I)。为了便于使用梯度下降法来优化变分推理的下界,引入了重参数化技巧(Reparameterization Trick),使得ti符合高斯分布,即:
基于变分推理的结果,可以对每个图像自适应地选取出N个显著性区域,并获取对应的加权后的区域特征Vi=[vi1,...,viN]。为了构建局部标签相关性矩阵,将每个显著性区域特征vij转化为C维的向量(C是标签的总个数),使得从维度上可以将显著性特征视为其粗糙的标签预测分数。最后,N个显著性区域的特征
区域加权的方法采用的是变分推理的方式,但是也可以采用通过全连接层、基于attention等各种机制学习到区域权重。
三、依赖局部的标签相关性矩阵构建
为了实现模型对局部标签的感知性,基于学习到的个体LCM和由训练数据获取的统计LCM构建LD_LCM。公式化地说,AC分别表示统计的LCM 和第i个图像的个体LCM,可通过公式(4)计算获取:
其中⊙表示元素点乘。
对于统计LCMAC,首先通过统计训练集中各个标签共同出现在同一幅图像中的次数,然后基于此信息计算出标签出现的条件概率矩阵,即一个标签出现的情况下,另外一个标签出现的概率,该矩阵体现的仍然是一种共现的信息。对于个体根据获取的显著性区域特征Vi,按照公式(5) 计算生成:
考虑到Vi中的每一列表示对应显著性区域在各个标签上粗糙的预测分数,则/>的每个元素也可以视为第i个图像中两个标签共现的概率。
个体标签相关性矩阵的构建不一定来源于区域特征,也可以通过对当前全局图像直接学习获取;并且与统计标签相关性矩阵的融合方式,也可以采用矩阵相乘、元素相加等方式进行融合。
四、图的特征学习
为实现在全局分支和局部分支上的标签感知,需要对构建出的局部标签相关性进行图的表示学习,即使用LD_LCM作为图的邻接矩阵。对于图的表示学习,采用了广泛使用的GCN方法来学习节点更加鲁棒且更具有判别性的特征。对于图的表示学习采用的是GCN的方法,但是图的学习方法不止一种,比如GAT、GIN和GraphSAGE等均可以直接进行替换。
对于GCN,定义在第l层上的输入的特征记为F(l),对应的邻接矩阵为A, GCN可以被公式化为如下的非线性函数:
其中W(l)是第l层上用于空间投影的学习参数,r是归一化标量,数值大小为节点的个数,选择ReLU(·)为非线性激活函数。从谱滤波的角度分析,无论邻接矩阵是否进行拉普拉斯归一化,模型都能达到相似的性能。因为归一化前后的邻接矩阵,其特征向量保持不变。
对于标签图和显著性区域图,均使用GCN来更新特征。具体来说,对于标签图,将每个标签作为一个节点,使用标签单词嵌入的结果作为初始化特征,构建出标签节点特征矩阵G,LD_LCM作为对应的边。对于显著性区域图,将每个标签在各区域上的分数作为一个节点的特征,仍然使用LD_LCM 作为对应的边权重。因此,GCN在标签图和显著性区域图上的表示学习如公式(7)所示:
其中Ww和Wl分别为对应的在G和Vi上的参数矩阵集合。
五、基于历史信息指导的全局和局部分支的联合学习
为了对全局分支和局部分支进行联合学习,首先我们把之前的多标签预测分数向量通过映射函数对两个分支的多标签预测特征进行通道加权,使用注意力机制的方式,使用历史预测结果作为指导信息。然后在通过全连接层获取他们的预测分数,即全局分支的和局部分支的/>然后将这两个分数与之前多标签的预测进行相加以获取当前多标签优化模块的预测分数/>即:
此外,为了更有效地进行模型训练,定义算法的损失函数为:
ζ=ζML-Bvlb(Li,si,φ). (9)
ζML为多标签任务中的常用的损失函数,如公式(10)所示:
其中为第i个图像的真实标签向量,(yi)j∈{0,1}表示第j个标签存在与否,σ(·)为sigmoid函数。
六、迭代优化过程
在每个多标签预测模块中,我们输入原始的待预测图片和之前一个模块的多标签预测结果。其中第一个模块输入了原始的多标签预测结果。并且在每个模块之后,我们都使用真实的多标签标注进行了监督。最终,我们把所有的多标签预测模块预测的分数取平均数,以获取最终的预测结果。
综上所述,本发明采用上述一种基于迭代优化的局部感知图表示学习方法,具有多标签自适应能力,并且通过迭代优化多标签预测过程,可以实现更加鲁棒的多标签预测。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (4)

1.一种基于迭代优化的局部感知图表示学习方法,其特征在于,步骤如下:
S1、把待预测的图片集合和一个随机初始化的多标签集合输入到网络框架中;
S2、循环迭代地优化多标签预测结果;
在每个模块中,优化多标签预测结果的过程包括基于变分推理的显著性区域选择、局部依赖性的标签相关性矩阵构建、图的特征学习、基于历史信息指导的全局/局部分支的联合学习;
基于变分推理的显著性生成过程如下:
(1)对于输入的图像Mi,首先通过RPN检测到多个ROIs,选取出与多标签分类任务相关性较好、数量固定的区域作为显著性区域,舍弃剩余的相关性较弱的冗余区域;
(2)建模区域和多标签分类任务之间复杂的条件分布p(ti|Li,si),通过变分推理的方法来为区域学习自适应的权重因子,其中si为第i个图像真实的标签向量,是第i个图像上检测出的Ki个区域特征,/>是相关性向量,每个元素tij表示第j个区域与任务的相关性;
将ti进行降序处理,根据降序后的索引,选取出对应的N个固定数量的区域,将前N个最大的相关性权重与对应的区域特征进行相乘,生成显著性区域的特征Vi=[vi1,...,viN],公式如下:
vij=tij×lij,j∈S, (1)
其中,S为选取出的N个区域的索引集合;
(3)在选取显著性区域的过程中,通过qφ(ti|Li,si)来近似后验分布p(ti|Li,si),使用KL散度来评估qφ(ti|Li,si)和p(ti|Li,si)之间的分布差异性;
重新推导变分下界(Variational Lower Bound,VLB)Bvlb(Li,si,φ),即:
设置qφ(ti|Li,si)=qφ(ti|Li),p(ti|Li)~N(0,I),通过重参数化技巧使得ti符合高斯分布,即:
(4)基于变分推理的结果,对每个图像自适应地选取出N个显著性区域,并获取对应的加权后的区域特征Vi=[vi1,...,viN];将每个显著性区域特征vij转化为标签总个数C维的向量,使得从维度上能够将显著性特征视为其粗糙的标签预测分数,N个显著性区域的特征
基于局部依赖的标签相关性矩阵预测多标签分布特征的生成流程如下:
(1)基于学习到的个体LCM和由训练数据获取的统计LCM构建LD_LCM,通过公式(4)计算获取:
其中,AC分别表示统计的LCM和第i个图像的个体LCM,e表示元素点乘;
(2)对于统计LCMAC,首先通过统计训练集中各个标签共同出现在同一幅图像中的次数,然后基于此信息计算出标签出现的条件概率矩阵,即一个标签出现的情况下,另外一个标签出现的概率;对于个体根据获取的显著性区域特征Vi,按照公式/>计算生成;
考虑到Vi中的每一列表示对应显著性区域在各个标签上粗糙的预测分数,则/>的每个元素视为第i个图像中两个标签共现的概率;
图的特征学习中,通过构建局部标签相关性进行图的表示学习,即使用LD_LCM作为图的邻接矩阵,实现在全局分支和局部分支上的标签感知,流程如下:
(1)对于图的表示学习,采用GCN方法来学习节点,其中,定义在第l层上的输入的特征记为F(l),对应的邻接矩阵为A,GCN能够被公式化为如下的非线性函数:
其中,W(l)是第l层上用于空间投影的学习参数,r是归一化标量,数值大小为节点的个数,选择ReLU(·)为非线性激活函数;
(2)对于标签图和显著性区域图,均使用GCN来更新特征;具体来说,对于标签图,将每个标签作为一个节点,使用标签单词嵌入的结果作为初始化特征,构建出标签节点特征矩阵G,LD_LCM作为对应的边;对于显著性区域图,将每个标签在各区域上的分数作为一个节点的特征,仍然使用LD_LCM作为对应的边权重;因此,GCN在标签图和显著性区域图上的表示学习如公式(6)所示:
其中,Ww和Wl分别为对应的在G和Vi上的参数矩阵集合;
基于历史多标签预测结果作为指导信息,来融合多标签模块的全局与局部分支,其过程为:
首先,将多标签预测分数向量通过映射函数对两个分支的多标签预测特征进行通道加权,然后在通过全连接层获取两个分支的多标签预测分数,即全局分支的和局部分支的然后将两个分数进行相加以获取最终的预测分数/>即:
定义算法的损失函数为:
ζ=ζML-Bvlb(Li,si,φ). (9)
ζML为多标签任务中的常用的损失函数,如公式(10)所示:
其中,yi∈RC为第i个图像的真实标签向量,(yi)j∈{0,1}表示第j个标签存在与否,σ(·)为sigmoid函数。
2.根据权利要求1所述的一种基于迭代优化的局部感知图表示学习方法,其特征在于:步骤S1中,多标签预测框架中包含了多个结构一致的多标签优化卷积网络模块,其中每个模块输入前一个模块预测的多标签结果以及待预测的图片,然后预测一个更加准确的结果。
3.根据权利要求1所述的一种基于迭代优化的局部感知图表示学习方法,其特征在于:步骤S2中,每个多标签优化模块包括全局分支和局部分支,在两个分支之后,还通过一个融合过程来综合两个分组的预测结果,具体如下;
a、全局分支的特征提取方法:全局分支上,使用预训练的模型来提取图像的高维特征;并且在第一个多标签优化模块中,预训练模型的参数固定,而其他模块中,预训练模型参数也和其他网络组件一起训练;
b、局部分支的特征提取方法:
(1)使用RPN模块来检测出当前图像的若干个感兴趣区域ROIs,并提取该区域的特征;对于输入的图像Mi,首先通过RPN检测到多个ROIs,选取出与多标签分类任务相关性较好、数量固定的区域作为显著性区域,舍弃剩余的相关性较弱的冗余区域;
(2)使用变分推理模块对各个区域学习自适应的多标签任务相关性权重;对各个区域根据权重大小进行降序排序,选择固定数量区域,并将选取的区域特征和学习到的权重进行相乘,进而通过局部标签相关性矩阵模块,生成显著性区域特征;
(3)根据显著性区域的特征,生成当前图像特有的个体标签分布特征,并将其与统计标签分布特征进行融合,构造出依赖局部感知的多标签分布特征;
(4)将构造出的标签分布特征通过图的表示学习获取判别性更高的节点特征;
c、在使用历史多标签预测结果的指导下,通过联合学习模块将全局分支与局部分支的结果进行融合,预测图像中存在的物体多标签。
4.根据权利要求1所述的一种基于迭代优化的局部感知图表示学习方法,其特征在于:多标签预测框架中的每个预测模块都进行了监督,并把多个模块预测结果的平均值作为整个框架最终的预测结果。
CN202210671735.1A 2022-06-14 2022-06-14 一种基于迭代优化的局部感知图表示学习方法 Active CN115392474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210671735.1A CN115392474B (zh) 2022-06-14 2022-06-14 一种基于迭代优化的局部感知图表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210671735.1A CN115392474B (zh) 2022-06-14 2022-06-14 一种基于迭代优化的局部感知图表示学习方法

Publications (2)

Publication Number Publication Date
CN115392474A CN115392474A (zh) 2022-11-25
CN115392474B true CN115392474B (zh) 2023-08-22

Family

ID=84117250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210671735.1A Active CN115392474B (zh) 2022-06-14 2022-06-14 一种基于迭代优化的局部感知图表示学习方法

Country Status (1)

Country Link
CN (1) CN115392474B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116594627B (zh) * 2023-05-18 2023-12-12 湖北大学 一种基于多标签学习的群体软件开发中服务匹配方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345860A (zh) * 2018-02-24 2018-07-31 江苏测联空间大数据应用研究中心有限公司 基于深度学习和距离度量学习的人员再识别方法
CN111582506A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于全局和局部标记关系的偏多标记学习方法
CN112199536A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于跨模态的快速多标签图像分类方法和系统
CN112906720A (zh) * 2021-03-19 2021-06-04 河北工业大学 基于图注意力网络的多标签图像识别方法
CN113516601A (zh) * 2021-06-17 2021-10-19 西南大学 基于深度卷积神经网络与压缩感知的图像恢复技术
CN113642602A (zh) * 2021-07-05 2021-11-12 山西大学 一种基于全局与局部标签关系的多标签图像分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345860A (zh) * 2018-02-24 2018-07-31 江苏测联空间大数据应用研究中心有限公司 基于深度学习和距离度量学习的人员再识别方法
CN111582506A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于全局和局部标记关系的偏多标记学习方法
CN112199536A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于跨模态的快速多标签图像分类方法和系统
CN112906720A (zh) * 2021-03-19 2021-06-04 河北工业大学 基于图注意力网络的多标签图像识别方法
CN113516601A (zh) * 2021-06-17 2021-10-19 西南大学 基于深度卷积神经网络与压缩感知的图像恢复技术
CN113642602A (zh) * 2021-07-05 2021-11-12 山西大学 一种基于全局与局部标签关系的多标签图像分类方法

Also Published As

Publication number Publication date
CN115392474A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
Jia et al. Feature dimensionality reduction: a review
Amid et al. TriMap: Large-scale dimensionality reduction using triplets
Ahmed et al. Deep learning modelling techniques: current progress, applications, advantages, and challenges
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
Liu et al. Feature selection with effective distance
CN113657425A (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
Laha et al. Land cover classification using fuzzy rules and aggregation of contextual information through evidence theory
CN113158815A (zh) 一种无监督行人重识别方法、系统及计算机可读介质
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
Iwana et al. Efficient temporal pattern recognition by means of dissimilarity space embedding with discriminative prototypes
Shu et al. A SVM multi-class image classification method based on DE and KNN in smart city management
Zhang et al. Class relatedness oriented-discriminative dictionary learning for multiclass image classification
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
Qian et al. A survey on multi-label feature selection from perspectives of label fusion
CN115392474B (zh) 一种基于迭代优化的局部感知图表示学习方法
Li et al. Image decomposition with multilabel context: Algorithms and applications
Sajid et al. Short search space and synthesized-reference re-ranking for face image retrieval
WO2020108808A1 (en) Method and system for classification of data
CN113065520A (zh) 一种面向多模态数据的遥感图像分类方法
Goundar Improved deep learning model based on integrated convolutional neural networks and transfer learning for shoeprint image classification
Agrawal et al. A novel robust feature extraction with GSO-optimized extreme learning for age-invariant face recognition
Kerner et al. Introduction to machine learning
Turtinen et al. Contextual analysis of textured scene images.
Wei et al. Combinative hypergraph learning for semi-supervised image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Wang Dan

Inventor after: Mu Jingjing

Inventor after: Li Yuanyuan

Inventor after: Cui Zhen

Inventor after: Xu Chunyan

Inventor after: Gao Yangte

Inventor before: Wang Dan

Inventor before: Mu Jingjing

Inventor before: Li Yuanyuan

Inventor before: Cui Zhen

Inventor before: Xu Haiyan

Inventor before: Gao Yangte

CB03 Change of inventor or designer information