CN116206158A - 基于双超图神经网络的场景图像分类方法及系统 - Google Patents
基于双超图神经网络的场景图像分类方法及系统 Download PDFInfo
- Publication number
- CN116206158A CN116206158A CN202310222166.7A CN202310222166A CN116206158A CN 116206158 A CN116206158 A CN 116206158A CN 202310222166 A CN202310222166 A CN 202310222166A CN 116206158 A CN116206158 A CN 116206158A
- Authority
- CN
- China
- Prior art keywords
- hypergraph
- density
- scene image
- attention
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 154
- 230000007246 mechanism Effects 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims abstract description 38
- 230000008447 perception Effects 0.000 claims abstract description 27
- 238000005259 measurement Methods 0.000 claims abstract description 19
- 238000012544 monitoring process Methods 0.000 claims abstract description 12
- 238000005065 mining Methods 0.000 claims abstract description 10
- 230000002776 aggregation Effects 0.000 claims description 22
- 238000004220 aggregation Methods 0.000 claims description 22
- 230000009977 dual effect Effects 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000011524 similarity measure Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 abstract description 8
- 239000010410 layer Substances 0.000 description 18
- 239000013598 vector Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双超图神经网络的场景图像分类方法及系统,所述方法包括:根据获取的待分类智能视频监控场景图像得到对应的特征矩阵;将特征矩阵输入训练好的场景图像分类模型的多视图超图学习网络中,通过将多视图超图学习网络在多个视图上学习到的超图进行融合,得到超图关联矩阵,每个视图均采用不同的可学习相似度度量函数;将特征矩阵和超图关联矩阵输入训练好的场景图像分类模型的密度感知超图注意力网络中,利用密度感知注意力机制挖掘数据中的密度信息以进行超图表示学习,得到待分类场景图像的类别预测结果。本发明利用双超图神经网络有效地组合多视图超图学习网络和密度感知超图注意力网络,能够实现更高的场景图像分类性能。
Description
技术领域
本发明涉及场景图像分类技术领域,特别是涉及一种基于双超图神经网络的场景图像分类方法、系统、电子设备及存储介质。
背景技术
场景图像分类能够为智能视频监控中收集到的事件、场景数据进行智能地识别和分类,从而提高智能视频监控的效率。然而,当前主流的场景图像分类技术大多倾向于对各个场景图像进行单独处理,忽略了同类场景图像间的共性特征,因此,其所能获得的特征信息较为有限,特别是在标记样本较少的情况下,这大大限制了场景图像分类的性能。
图神经网络由于其能够有效地挖掘和处理数据中的图结构信息而成为了当前研究的热点。图神经网络已经广泛用于文献分类、图像分类、个性化推荐、风险预测等多个研究领域。图神经网络不仅能处理单个样本的特征信息,还考虑样本之间的关联关系,能够获得比单独处理单个样本更多的有用信息。因此,将图神经网络用于智能视频监控中场景图像分类能够有效地突破上述局限。基于图神经网络的场景图像分类方法不仅能够处理单个场景图像样本的特征信息,还能够有效地利用样本间的关联关系挖掘同类场景图像间的共性特征。因此,相比于传统的方法,基于图神经网络的场景图像分类方法能够获得更多的有用的信息,特别是在标记样本较为有限的情况下,能够有效提高场景图像分类的性能。
基于这一思想,目前相继出现了部分相关方法的研究。其中大多数方法主要基于人工构建的图结构,例如k最近邻图。然而,人工构建的k最近邻图主要基于固定的单一的相似度度量函数,例如欧氏距离,这并不适合准确度量所有样本之间的相似性。并且,人工构建的图主要基于样本原始特征空间,而原始特征空间通常具有冗余的信息。因此,人工构建的图无法准确反映样本间的关联关系。此外人工构建的图对于下游的基于图神经网络的场景图像分类网络是次优的,并不适合该网络,从而限制了下游基于图神经网络的场景图像分类模型的性能。虽然已经出现了少部分可学习的图建模方法,但这些方法依然采用单一的相似度度量函数来衡量样本间的相似关系,这对于样本间相似性的度量依旧不够准确。因此,如何全面、准确地对场景图像进度图建模仍是一个具有挑战的问题。
另外,现有的基于图神经网络的场景图像分类方法大多仅关注数据间的成对关联。但在实际应用中,样本之间的关联并不止成对关系,往往是更为复杂的单对多或者多对多的多元关联关系。只探索样本两两之间的成对关系并将其建模为图,会丢失数据之间的高阶语义关联,尤其是对于图像数据集等复杂数据。除此之外,现有的基于图的场景图像分类方法仅利用表层的图结构信息,对图数据中隐含的信息缺乏深入挖掘利用。
发明内容
为了解决上述现有技术的不足,本发明提供了一种基于双超图神经网络的场景图像分类方法、系统、电子设备及存储介质,所述双超图神经网络包括多视图超图学习网络和密度感知超图注意力网络,能够同时利用场景图像的特征信息和相互之间的关联关系,能够获得比单独处理单个场景图像更多的有用信息。双超图神经网络通过有效地组合多视图超图学习网络和密度感知超图注意力网络,能够实现更高的场景图像分类性能。
本发明的第一个目的在于提供一种基于双超图神经网络的场景图像分类方法。
本发明的第二个目的在于提供一种基于双超图神经网络的场景图像分类系统。
本发明的第三个目的在于提供一种电子设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种基于双超图神经网络的场景图像分类方法,所述方法包括:
获取待分类场景图像;根据待分类场景图像,得到场景图像对应的特征矩阵;所述待分类场景图像至少为一张,且均为智能视频监控场景图像;
将所述特征矩阵输入训练好的双超图神经网络的多视图超图学习网络中,通过将多视图超图学习网络在多个视图上学习到的超图进行融合,得到超图关联矩阵;所述多视图超图学习网络中的每个视图均采用不同的可学习相似度度量函数;
将所述特征矩阵和超图关联矩阵输入训练好的双超图神经网络的密度感知超图注意力网络中,利用密度感知注意力机制挖掘数据中的密度信息以进行超图表示学习,得到待分类场景图像的类别预测结果;所述密度感知注意力机制用于将超图中顶点/超边的密度信息融合到顶点/超边密度注意力中。
进一步的,所述将所述特征矩阵输入训练好的双超图神经网络的多视图超图学习网络中,通过将多视图超图学习网络在多个视图上学习到的超图进行融合,得到超图关联矩阵,包括:
利用多视图融合模块对多视图超图学习网络中的每个视图上学习到的超图进行融合,得到第一超图关联矩阵;所述超图中的每个节点代表一个场景图像,超图中的超边表示场景图像之间的高阶关联关系;
根据所述特征矩阵,计算场景图像间的相似度;根据所述相似度构造超边,得到原始超图关联矩阵;
将所述第一超图关联矩阵和原始超图关联矩阵进行合并,得到超图关联矩阵。
进一步的,在多视图超图学习网络中的任意一个视图上学习到的超图,包括:
利用低维嵌入模块,将所述特征矩阵从原始特征空间映射到低维嵌入空间;
利用相似度学习模块,在低维嵌入空间中通过相似度度量函数学习场景图像间的相似度;
利用超边构建模块基于所学习到的相似度进行超边构建,得到该视图上学习到的超图结构。
进一步的,所述在低维嵌入空间中通过相似度度量函数学习场景图像间的相似度,包括:
通过相似度度量函数,计算场景图像间的相似度,得到相似度矩阵;
对所述相似度矩阵进行稀疏采样,过滤掉低于第一预设阈值的相似度。
进一步的,所述方法还包括:
根据所述特征矩阵和超图关联矩阵,利用超图信息传播机制获得顶点特征矩阵和超边特征矩阵。
进一步的,所述将所述特征矩阵和超图关联矩阵输入训练好的双超图神经网络的密度感知超图注意力网络中,利用密度感知注意力机制挖掘数据中的密度信息以进行超图表示学习,得到待分类场景图像的类别预测结果,包括:
将所述顶点特征矩阵和超边特征矩阵输入密度感知超图注意力网络中的第一密度感知超图注意力层中,利用密度感知注意力机制得到该层的特征嵌入;
将第一密度感知超图注意力层得到的所述特征嵌入输入密度感知超图注意力网络中的第二密度感知超图注意力层中,根据第二密度感知超图注意力层的输出,预测类别结果。
进一步的,所述将所述顶点特征矩阵和超边特征矩阵输入密度感知超图注意力网络中的第一密度感知超图注意力层中,利用密度感知注意力机制得到该层的特征嵌入,包括:
根据所述顶点特征矩阵和超边特征矩阵,基于超图密度规则计算顶点和超边的密度;
基于顶点密度设计的第一密度感知注意力机制,将顶点的密度以及顶点和超边之间的注意力融合得到顶点密度感知注意力矩阵;根据所述顶点密度感知注意力矩阵,进行顶点特征聚合,得到更新的超边特征矩阵;其中所述第一密度感知注意力机制考虑顶点的分布信息;
基于超边密度设计的第二密度感知注意力机制,将超边的密度以及超边和顶点之间的注意力融合得到超边密度感知注意力矩阵;根据所述超边密度感知注意力矩阵和更新的超边特征矩阵,进行超边特征聚合,得到更新的顶点特征矩阵;其中所述第二密度感知注意力机制考虑超边的分布信息;
将第一密度感知超图注意力层中每个注意力头得到的更新的顶点特征矩阵进行连接,得到该层的特征嵌入。
进一步的,所述超图密度规则包括顶点密度规则和超边密度规则,其中:
顶点密度规则:顶点的密度为与目标节点的相似度大于第二预设阈值的邻居节点的相似度之和;
超边密度规则:超边的密度为该超边所连接的顶点的密度之和。
本发明的第二个目的可以通过采取如下技术方案达到:
一种基于双超图神经网络的场景图像分类系统,所述系统包括:
场景图像获取模块,用于获取待分类场景图像;根据待分类场景图像,得到场景图像对应的特征矩阵;所述待分类场景图像包括至少一张智能视频监控场景图像;
超图学习模块,用于将所述特征矩阵输入训练好的双超图神经网络的多视图超图学习网络中,通过将多视图超图学习网络在多个视图上学习到的超图进行融合,得到超图关联矩阵;所述多视图超图学习网络中的每个视图均采用不同的可学习相似度度量函数;
类别预测模块,用于将所述特征矩阵和超图关联矩阵输入训练好的双超图神经网络的密度感知超图注意力网络中,利用密度感知注意力机制挖掘数据中的密度信息以进行超图表示学习,得到待分类场景图像的类别预测结果;所述密度感知注意力机制用于将超图中顶点/超边的密度信息融合到顶点/超边密度注意力中。
本发明的第三个目的可以通过采取如下技术方案达到:
一种电子设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的场景图像分类方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的场景图像分类方法。
本发明相对于现有技术具有如下的有益效果:
本发明提供的基于双超图神经网络的场景图像分类方法、装置、计算机设备及存储介质,所述双超图神经网络由多视图超图学习网络和密度感知超图注意力网络组成,通过多视图超图学习网络在多个视图上进行超图结构学习,同时采用多种可学习相似度度量方法,实现对场景图像间相似度的准确度量,从而使学习到的超图结构能够准确建模场景图像间的高阶语义关系;通过密度感知超图注意力网络能够有效地挖掘超图结构中隐含的密度信息,同时通过密度感知注意力机制,实现更准确的邻域特征聚合,从而提高场景图像分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的基于双超图神经网络的场景图像分类方法的原理图。
图2为本发明实施例1的基于双超图神经网络的场景图像分类方法的流程图。
图3为本发明实施例1的双超图神经网络的结构示意图。
图4为本发明实施例1的多视图超图神经网络的结构示意图。
图5为本发明实施例1的密度感知超图注意力网络的结构示意图。
图6为本发明实施例2的基于双超图神经网络的场景图像分类系统的结构框图。
图7为本发明实施例3的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。应当理解,描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
实施例1:
如图1所示,本实施例提供了一种基于双超图神经网络的场景图像分类方法,主要包括数据构建、模型结构设计、模型训练以及模型运用。其中,数据构建主要是基于智能视频场景图像数据,根据场景图像数据得到场景图像的特征矩阵和标签矩阵,特征矩阵和标签矩阵构成数据集,特征矩阵作为模型的输入;模型结构设计主要是基于双超图神经网络框架,设计相应的多视图超图学习网络和密度感知超图注意力网络,准确地进行场景图像超图建模和深入挖掘利用数据中隐含信息的密度信息,以增强场景图像分类性能;其中,多视图超图学习网络从多个视图上进行超图结构学习,使得所学习到的超图能够更准确地建模样本间的高阶语义关系;密度感知超图注意力网络中设计了密度感知注意力机制模块,通过挖掘利用数据中的密度信息,基于密度感知注意力机制实现更准确的邻域特征聚合;模型训练是利用数据集对设计的模型结构进行训练,根据损失函数的值对模型参数进行调整;模型运用是将训练好的模型应用于实际测试,即根据输入的场景图像数据输出场景图像的分类结果。
本实施例基于Pytorch框架和Pycharm开发环境:Pytorch是基于Python语言的深度学习开发架构,提供了深度学习中的众多封装函数和图像处理函数的接口,方便用户搭建深度学习网络,同时能够使用GPU为图形计算加速。Pycharm集成开发环境是Python程序设计开发的主要工具之一,提供了程序设计、测试和调试工具,可调用远程服务器的编译器运行程序。
如图2所示,本实施例提供的基于双超图神经网络的场景图像分类方法,具体包括以下步骤:
S201、获取场景图像数据集,根据场景图像数据集得到场景图像对应的特征矩阵和标签矩阵。
本实施例基于智能视频监控设备采集场景图像,所有场景图像构成场景图像数据集。利用LC-KSVD算法对场景图像进行编码,获得场景图像的稀疏编码向量作为该场景图像的特征向量。将场景图像数据集中的所有样本进行上述操作,然后将所有场景图像的特征向量进行堆叠,获得场景图像数据的特征矩阵。对于场景图像样本的标签,将其转换为one-hot向量表示,即为该场景图像的标签向量。将所有标记样本的标签进行上述操作,最终获得场景图像数据的标签矩阵。场景图像数据的特征矩阵和标签矩阵两者共同构成模型所需的数据。其中场景图像数据集中的样本可以是一张场景图像,也可以是多张场景图像。
在一个实施例中,利用LC-KSVD算法所获得的场景图像的稀疏编码向量维度为3000维,所采用的场景图像数据集一共包含4485个样本,故最终构建的特征矩阵维度为4485×3000维。对于场景图像样本的标签,将其转换为one-hot向量表示,用“1”标注该场景图像的目标类别,用“0”标注其他类别,获得该场景图像的标签向量,并将所有标签向量进行堆叠,获得场景图像数据的标签矩阵。在本实施例中,标记样本数量为500,场景图像类别数量为15,故最终获得的标签矩阵维度为500×15维。
S202、搭建基于双超图神经网络的场景图像分类模型。
如图2所示,该场景图像分类模型的主路网络主要包括多视图超图学习网络和密度感知超图注意力网络。主路网络中的多视图超图学习网络以场景图像特征矩阵作为输入,输出场景图像所建模的超图关联矩阵,其结构中采用一种多视图超图学习机制,从多个视图上进行超图结构学习,使得对于场景图像数据的超图建模更加准确;密度感知超图注意力网络以场景图像特征矩阵和超图关联矩阵作为输入,输出场景图像的分类结构,其结构中采用一种密度感知超图注意力机制,深入挖掘和利用数据中隐含的密度信息,以提高场景图像的分类性能。
(1)多视图超图学习网络。
如图3所示,本实施例中的多视图超图学习网络用于对场景图像数据进行超图结构建模,其输入为场景图像特征,输出为超图关联矩阵。结构上,多视图超图学习网络主要从多个视图上对超图结构进行学习,主要由低维嵌入模块、相似度学习模块、超边构建模块和多视图融合模块组成。
(1-1)每个视图学习到的超图结构。
首先,利用低维嵌入模块将场景图像特征从原始特征空间映射到低维嵌入空间,由以下公式表示:
在一个实施例中,低维嵌入模块由具有70个神经元的全连接层实现。
然后,利用相似度学习模块在低维嵌入空间中通过相似度度量函数来学习样本间的相似度,可通过以下公式描述:
在相似度学习模块中还引入了对所学习到的样本相似度矩阵进行稀疏采样,过滤掉低于预设阈值δ1的相似度,其定义如下:
在一个实施例中,该网络从两个视图上进行超图学习,该网络在两个视图上分类分别采用余弦相似度和内积相似度两种相似度度量方法进行样本相似度度量。其中,两个视图中的预设阈值δ1均取值为0.7。
本实施例中通过超图建模场景图像之间的高阶关联关系,超图中每个节点代表一个场景图像,节点的特征为其对应场景图像的特征,超图中的超边表示场景图像之间的高阶关联关系。双超图神经网络通过同时利用场景图像特征信息和场景图像高阶关联信息,对场景图像进行类别预测。
(1-2)将每个视图学习到的超图结构进行融合,得到第一超图关联矩阵。
最后,利用多视图融合模块对在各个视图上学习到的超图结构进行融合,其定义如下:
其中,V为所采用的视图数量,v即第v个视图,H(v)即第v个视图上所学习到的超图关联矩阵。
多视图超图学习网络在多个视图上进行超图结构学习,在每个视图中采用不同的可学习相似度度量函数,实现对场景图像样本相似度的全面、准确度量。
(1-3)将辅路网络获得的原始超图关联矩阵和第一超图关联矩阵合并,得到超图关联矩阵。
为了对场景图像数据进行更准确的超图建模,引入辅路网络,利用kNN算法计算原始特征空间中场景图像样本间的相似度,并基于该相似度矩阵构造超边,获得原始超图关联矩阵H0。
在一个实施例中,kNN算法中的k值设置为15。
再将多视图超图学习网络所学习到的第一超图关联矩阵和原始超图关联矩阵进行加权合并,获得最终的超图关联矩阵,通过以下公式表示:
其中,η为两个关联矩阵加权合并的权重参数。
在一个实施例中,权重参数η=0.3。
(1-4)损失函数。
为了提高多视图超图学习网络的泛化性,引入一致性损失函数,以约束其在各个视图上学习到的超图结构的一致性,其定义如下:
其中,‖·‖2为L2范数。
多视图超图学习网络的损失函数定义如下:
其中,为超图拉普拉斯,Dv和De分别为顶点度矩阵和超边度矩阵,其中顶点度的计算为超边度的计算为α、β、γ和μ为损失函数中各项的权重超参数;N为样本数量;tr(·)为矩阵的迹;·T表示转置操作;‖·‖F为Frobenius范数;log(·)表示对数操作。
在一个实施例中,α=0.8,β=0.3,γ=0.5,μ=0.4,N=4485。
(2)密度感知超图注意力网络。
密度感知超图注意力网络主要用于学习场景图像的嵌入表示,并基于所学习的嵌入表示进行类别预测,其输入为场景图像特征矩阵和多视图超图学习网络所获得的超图关联矩阵,其输出为场景图像的类别预测结果。
如图4所示,密度感知超图注意力网络主要由两个密度感知超图注意力层组成,设计了一种密度感知注意力机制,挖掘利用数据中的密度信息,以提高场景图像分类的性能。密度感知超图注意力层的输入为节点特征矩阵和超边特征矩阵,在密度感知超图注意力网络前引入辅路网络,利用超图信息传播机制来获得节点特征矩阵和超边特征矩阵,其定义如下:
其中,X和E分别为所获得的节点特征矩阵和超边特征矩阵。
每个密度感知超图注意力层主要由密度感知注意力顶点聚合模块和密度感知注意力超边聚合模块组成。密度感知注意力顶点聚合模块将连通顶点的信息聚合到超边中,同样,密度感知注意力超边聚合模块用于聚合超边信息以更新节点表示。
(2-1)密度感知注意力顶点聚合模块。
(2-1-1)顶点的密度规则。
在密度感知注意力顶点聚合模块中,为超图中的顶点设计了一种密度规则,顶点的密度定义为与目标节点的相似度大于预设阈值δ2的邻居节点的相似度之和,即定义如下:
在一个实施例中,δ2取值为0.4。
(2-1-2)密度感知注意力机制。
基于该密度规则,设计了一种密度感知注意力机制,将密度信息融合到注意力中。相比于传统的仅考虑节点相似关系的注意力机制,密度感知注意力机制还考虑了节点的分布信息,从而实现更准确的注意力学习。
在密度感知注意力机制中:
首先,利用传统的注意力机制Attention(·)来计算顶点xi和超边ek之间的注意力值,可通过以下公式表示:
然后,将密度信息和注意力融合以构建密度感知注意力机制,由以下公式描述:
传统的注意力机制Attention(·)采用类似于图注意力网络中的设计。因此,所设计的密度感知注意力机制的完整定义如下:
(2-1-3)顶点特征聚合。
最后,基于该密度感知注意力矩阵进行顶点特征聚合,其定义如下:
其中,ELU(·)为激活函数。
(2-2)密度感知注意力超边聚合模块。
(2-2-1)超边的密度规则。
在密度感知注意力超边聚合模块中,为超图中的超边设计了一种密度规则,超边的密度定义为该超边所连接的顶点的密度之和,即定义如下:
(2-2-2)密度感知注意力机制。
类似于密度感知注意力顶点聚合模块,密度感知注意力超边聚合模块中的密度感知注意力机制定义如下:
(2-2-3)超边特征聚合。
最后,基于该密度感知注意力矩阵进行超边特征聚合,其定义如下:
上述两个模块组合以构建一个密度感知超图注意力层,可通过以下公式表示:
在密度感知超图注意力层中,首先将顶点特征聚合到超边以生成超边特征,然后通过聚合连接的超边特征来获得顶点特征。通过使用这种顶点-超边-顶点的变换机制,可以有效地表征数据之间的高阶关系。
其中,密度感知超图注意力网络的第一层采用了多头注意力机制以增强特征聚合,该层所输出的特征嵌入通过连接每个头的输出获得,可通过以下公式描述:
在密度感知超图注意力网络之后增加softmax(·)操作以获得场景图像的类别预测结果。
在一个实施例中,T=2;两个密度感知超图注意力层的权重矩阵的输出维度分别设置为64和样本类别数C。
(2-3)损失函数。
密度感知超图注意力网络的损失函数为交叉熵损失,其定义如下:
其中,L为标记样本集合;Y为标记样本的标签;C是场景图像类别数;Z为场景图像预测结果;ln(·)为对数操作。
通过将多视图超图学习网络和密度感知超图注意力网络进行联合优化,以学习适合下游基于图的场景图像分类任务的最优超图。同时,通过学习合适的超图,可以提高下游密度感知超图注意力网络的性能。
双超图神经网络通过将上述两个子超图神经网络的有效组合,实现了更高的场景图像分类性能。
S203、利用场景图像数据集训练场景图像分类模型。
利用步骤S201获取的场景图像数据集训练步骤S202设计的场景图像分类模型,使模型可靠收敛,并获得最佳的模型参数。
通过将多视图超图学习网络和密度感知超图注意力网络进行联合优化,模型的损失函数为多视图超图学习网络的超图学习损失和密度感知超图注意力网络的交叉熵损失的线性结合,训练中通过优化整体损失函数实现模型的收敛。其中模型的损失函数定义如下:
其中,λ为两个损失函数之间的权重超参数。
通过优化模型的损失函数,实现网络模型的收敛,获得最佳模型参数。
在一个实施例中,λ取值为1.1。
S204、将待分类场景图像输入训练好的场景图像分类模型中,得到待分类场景图像的类别预测结果。
将待分类的智能视频监控场景图像作为模型的输入,利用步骤S203中训练得到的最佳模型参数,对输入的场景图像样本进行类别预测,输出待分类场景图像的类别预测结果。
本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图6所示,本实施例提供了一种基于双超图神经网络的场景图像分类系统,该系统包括场景图像获取模块601、超图学习模块602和类别预测模块603,其中:
场景图像获取模块601,用于获取待分类场景图像;根据待分类场景图像,得到场景图像对应的特征矩阵;所述待分类场景图像至少为一张,且均为智能视频监控场景图像;
超图学习模块602,用于将所述特征矩阵输入训练好的双超图神经网络的多视图超图学习网络中,通过将多视图超图学习网络在多个视图上学习到的超图进行融合,得到超图关联矩阵;所述多视图超图学习网络中的每个视图均采用不同的可学习相似度度量函数;
类别预测模块603,用于将所述特征矩阵和超图关联矩阵输入训练好的双超图神经网络的密度感知超图注意力网络中,利用密度感知注意力机制挖掘数据中的密度信息以进行超图表示学习,得到待分类场景图像的类别预测结果;所述密度感知注意力机制用于将超图中顶点/超边的密度信息融合到顶点/超边密度注意力中。
本实施例中各个模块的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种电子设备,该电子设备可以为计算机,如图7所示,其通过系统总线701连接的处理器702、存储器、输入装置703、显示器704和网络接口705,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质706和内存储器707,该非易失性存储介质706存储有操作系统、计算机程序和数据库,该内存储器707为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器702执行存储器存储的计算机程序时,实现上述实施例1的场景图像分类方法,如下:
获取待分类场景图像;根据待分类场景图像,得到场景图像对应的特征矩阵;所述待分类场景图像至少为一张,且均为智能视频监控场景图像;
将所述特征矩阵输入训练好的双超图神经网络的多视图超图学习网络中,通过将多视图超图学习网络在多个视图上学习到的超图进行融合,得到超图关联矩阵;所述多视图超图学习网络中的每个视图均采用不同的可学习相似度度量函数;
将所述特征矩阵和超图关联矩阵输入训练好的双超图神经网络的密度感知超图注意力网络中,利用密度感知注意力机制挖掘数据中的密度信息以进行超图表示学习,得到待分类场景图像的类别预测结果;所述密度感知注意力机制用于将超图中顶点/超边的密度信息融合到顶点/超边密度注意力中。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的场景图像分类方法,如下:
获取待分类场景图像;根据待分类场景图像,得到场景图像对应的特征矩阵;所述待分类场景图像至少为一张,且均为智能视频监控场景图像;
将所述特征矩阵输入训练好的双超图神经网络的多视图超图学习网络中,通过将多视图超图学习网络在多个视图上学习到的超图进行融合,得到超图关联矩阵;所述多视图超图学习网络中的每个视图均采用不同的可学习相似度度量函数;
将所述特征矩阵和超图关联矩阵输入训练好的双超图神经网络的密度感知超图注意力网络中,利用密度感知注意力机制挖掘数据中的密度信息以进行超图表示学习,得到待分类场景图像的类别预测结果;所述密度感知注意力机制用于将超图中顶点/超边的密度信息融合到顶点/超边密度注意力中。
需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (10)
1.一种基于双超图神经网络的场景图像分类方法,其特征在于,所述方法包括:
获取待分类场景图像;根据待分类场景图像,得到场景图像对应的特征矩阵;所述待分类场景图像至少为一张,且均为智能视频监控场景图像;
将所述特征矩阵输入训练好的双超图神经网络的多视图超图学习网络中,通过将多视图超图学习网络在多个视图上学习到的超图进行融合,得到超图关联矩阵;所述多视图超图学习网络中的每个视图均采用不同的可学习相似度度量函数;
将所述特征矩阵和超图关联矩阵输入训练好的双超图神经网络的密度感知超图注意力网络中,利用密度感知注意力机制挖掘数据中的密度信息以进行超图表示学习,得到待分类场景图像的类别预测结果;所述密度感知注意力机制用于将超图中顶点/超边的密度信息融合到顶点/超边密度注意力中。
2.根据权利要求1所述的场景图像分类方法,其特征在于,所述将所述特征矩阵输入训练好的双超图神经网络的多视图超图学习网络中,通过将多视图超图学习网络在多个视图上学习到的超图进行融合,得到超图关联矩阵,包括:
利用多视图融合模块对多视图超图学习网络中的每个视图上学习到的超图进行融合,得到第一超图关联矩阵;所述超图中的每个节点代表一个场景图像,超图中的超边表示场景图像之间的高阶关联关系;
根据所述特征矩阵,计算场景图像间的相似度;根据所述相似度构造超边,得到原始超图关联矩阵;
将所述第一超图关联矩阵和原始超图关联矩阵进行合并,得到超图关联矩阵。
3.根据权利要求2所述的场景图像分类方法,其特征在于,在多视图超图学习网络中的任意一个视图上学习到的超图,包括:
利用低维嵌入模块,将所述特征矩阵从原始特征空间映射到低维嵌入空间;
利用相似度学习模块,在低维嵌入空间中通过相似度度量函数学习场景图像间的相似度;
利用超边构建模块基于所学习到的相似度进行超边构建,得到该视图上学习到的超图结构。
4.根据权利要求3所述的场景图像分类方法,其特征在于,所述在低维嵌入空间中通过相似度度量函数学习场景图像间的相似度,包括:
通过相似度度量函数,计算场景图像间的相似度,得到相似度矩阵;
对所述相似度矩阵进行稀疏采样,过滤掉低于第一预设阈值的相似度。
5.根据权利要求1~4任一项所述的场景图像分类方法,其特征在于,所述方法还包括:
根据所述特征矩阵和超图关联矩阵,利用超图信息传播机制获得顶点特征矩阵和超边特征矩阵。
6.根据权利要求5所述的场景图像分类方法,其特征在于,所述将所述特征矩阵和超图关联矩阵输入训练好的双超图神经网络的密度感知超图注意力网络中,利用密度感知注意力机制挖掘数据中的密度信息以进行超图表示学习,得到待分类场景图像的类别预测结果,包括:
将所述顶点特征矩阵和超边特征矩阵输入密度感知超图注意力网络中的第一密度感知超图注意力层中,利用密度感知注意力机制得到该层的特征嵌入;
将第一密度感知超图注意力层得到的所述特征嵌入输入密度感知超图注意力网络中的第二密度感知超图注意力层中,根据第二密度感知超图注意力层的输出,预测类别结果。
7.根据权利要求6所述的场景图像分类方法,其特征在于,所述将所述顶点特征矩阵和超边特征矩阵输入密度感知超图注意力网络中的第一密度感知超图注意力层中,利用密度感知注意力机制得到该层的特征嵌入,包括:
根据所述顶点特征矩阵和超边特征矩阵,基于超图密度规则计算顶点和超边的密度;
基于顶点密度设计的第一密度感知注意力机制,将顶点的密度以及顶点和超边之间的注意力融合得到顶点密度感知注意力矩阵;根据所述顶点密度感知注意力矩阵,进行顶点特征聚合,得到更新的超边特征矩阵;其中所述第一密度感知注意力机制考虑顶点的分布信息;
基于超边密度设计的第二密度感知注意力机制,将超边的密度以及超边和顶点之间的注意力融合得到超边密度感知注意力矩阵;根据所述超边密度感知注意力矩阵和更新的超边特征矩阵,进行超边特征聚合,得到更新的顶点特征矩阵;其中所述第二密度感知注意力机制考虑超边的分布信息;
将第一密度感知超图注意力层中每个注意力头得到的更新的顶点特征矩阵进行连接,得到该层的特征嵌入。
8.根据权利要求7所述的场景图像分类方法,其特征在于,所述超图密度规则包括顶点密度规则和超边密度规则,其中:
顶点密度规则:顶点的密度为与目标节点的相似度大于第二预设阈值的邻居节点的相似度之和;
超边密度规则:超边的密度为该超边所连接的顶点的密度之和。
9.一种基于双超图神经网络的场景图像分类系统,其特征在于,所述系统包括:
场景图像获取模块,用于获取待分类场景图像;根据待分类场景图像,得到场景图像对应的特征矩阵;所述待分类场景图像至少为一张,且均为智能视频监控场景图像;
超图学习模块,用于将所述特征矩阵输入训练好的双超图神经网络的多视图超图学习网络中,通过将多视图超图学习网络在多个视图上学习到的超图进行融合,得到超图关联矩阵;所述多视图超图学习网络中的每个视图均采用不同的可学习相似度度量函数;
类别预测模块,用于将所述特征矩阵和超图关联矩阵输入训练好的双超图神经网络的密度感知超图注意力网络中,利用密度感知注意力机制挖掘数据中的密度信息以进行超图表示学习,得到待分类场景图像的类别预测结果;所述密度感知注意力机制用于将超图中顶点/超边的密度信息融合到顶点/超边密度注意力中。
10.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1~8任一项所述的场景图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310222166.7A CN116206158A (zh) | 2023-03-09 | 2023-03-09 | 基于双超图神经网络的场景图像分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310222166.7A CN116206158A (zh) | 2023-03-09 | 2023-03-09 | 基于双超图神经网络的场景图像分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116206158A true CN116206158A (zh) | 2023-06-02 |
Family
ID=86517174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310222166.7A Pending CN116206158A (zh) | 2023-03-09 | 2023-03-09 | 基于双超图神经网络的场景图像分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116206158A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630868A (zh) * | 2023-07-26 | 2023-08-22 | 上海蜜度信息技术有限公司 | 视频分类方法、视频分类装置、介质及电子设备 |
CN117893839A (zh) * | 2024-03-15 | 2024-04-16 | 华东交通大学 | 一种基于图注意力机制的多标记分类方法及系统 |
-
2023
- 2023-03-09 CN CN202310222166.7A patent/CN116206158A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630868A (zh) * | 2023-07-26 | 2023-08-22 | 上海蜜度信息技术有限公司 | 视频分类方法、视频分类装置、介质及电子设备 |
CN116630868B (zh) * | 2023-07-26 | 2023-11-14 | 上海蜜度信息技术有限公司 | 视频分类方法、视频分类装置、介质及电子设备 |
CN117893839A (zh) * | 2024-03-15 | 2024-04-16 | 华东交通大学 | 一种基于图注意力机制的多标记分类方法及系统 |
CN117893839B (zh) * | 2024-03-15 | 2024-06-07 | 华东交通大学 | 一种基于图注意力机制的多标记分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | A geometry-attentional network for ALS point cloud classification | |
CN114926746B (zh) | 基于多尺度差分特征注意力机制的sar图像变化检测方法 | |
CN111191514A (zh) | 一种基于深度学习的高光谱图像波段选择方法 | |
Wu et al. | Application of image retrieval based on convolutional neural networks and Hu invariant moment algorithm in computer telecommunications | |
CN116206158A (zh) | 基于双超图神经网络的场景图像分类方法及系统 | |
Ke et al. | Data equilibrium based automatic image annotation by fusing deep model and semantic propagation | |
Peyghambarzadeh et al. | Point-PlaneNet: Plane kernel based convolutional neural network for point clouds analysis | |
Liu et al. | Survey of road extraction methods in remote sensing images based on deep learning | |
Bai et al. | Coordinate CNNs and LSTMs to categorize scene images with multi-views and multi-levels of abstraction | |
CN112862015A (zh) | 一种基于超图神经网络的论文分类方法及系统 | |
Zhang et al. | Dual-constrained deep semi-supervised coupled factorization network with enriched prior | |
CN113780584A (zh) | 标签预测方法、设备、存储介质及程序产品 | |
Cheng et al. | Multi-view graph convolutional network with spectral component decompose for remote sensing images classification | |
CN114937173A (zh) | 一种基于动态图卷积网络的高光谱图像快速分类方法 | |
Lunga et al. | Resflow: A remote sensing imagery data-flow for improved model generalization | |
CN115830179A (zh) | 一种类别无关的遥感地物矢量拓扑结构提取方法 | |
CN116912550A (zh) | 一种基于地物依赖关系的异构卷积网络遥感影像土地利用并行分类方法 | |
CN118279320A (zh) | 基于自动提示学习的目标实例分割模型建立方法及其应用 | |
CN112529025A (zh) | 一种数据处理方法及装置 | |
Zhou et al. | Deep global semantic structure-preserving hashing via corrective triplet loss for remote sensing image retrieval | |
CN112613391B (zh) | 一种基于反向学习二进制水稻育种算法的高光谱图像波段选择方法 | |
Nie et al. | Semantic category balance-aware involved anti-interference network for remote sensing semantic segmentation | |
CN117671666A (zh) | 一种基于自适应图卷积神经网络的目标识别方法 | |
Hu et al. | Automated BIM-to-scan point cloud semantic segmentation using a domain adaptation network with hybrid attention and whitening (DawNet) | |
CN117705059A (zh) | 一种自然资源遥感测绘影像定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |