CN113222041A - 图结构表征的高阶关联发现细粒度图像识别方法及装置 - Google Patents

图结构表征的高阶关联发现细粒度图像识别方法及装置 Download PDF

Info

Publication number
CN113222041A
CN113222041A CN202110567940.9A CN202110567940A CN113222041A CN 113222041 A CN113222041 A CN 113222041A CN 202110567940 A CN202110567940 A CN 202110567940A CN 113222041 A CN113222041 A CN 113222041A
Authority
CN
China
Prior art keywords
matrix
network
order
vector
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110567940.9A
Other languages
English (en)
Other versions
CN113222041B (zh
Inventor
李甲
赵一凡
石鼎丰
赵沁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110567940.9A priority Critical patent/CN113222041B/zh
Publication of CN113222041A publication Critical patent/CN113222041A/zh
Priority to US17/546,993 priority patent/US20220382553A1/en
Application granted granted Critical
Publication of CN113222041B publication Critical patent/CN113222041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种图结构表征的高阶关联发现细粒度图像识别方法及装置,其中方法包括:将待分类图像输入具有多个阶段的卷积神经网络特征提取器,提取最后一个阶段的两层网络特征图,根据网络特征图,构建混合高阶注意力模块,并根据混合高阶注意力模块形成高阶特征向量池,将向量池中的每一个向量作为节点,并利用高阶特征间的语义相似性,分组形成代表性向量节点,对代表性向量节点进行全局池化,得到分类向量,并基于分类向量,通过全连接层和分类器得到细粒度分类结果,无需依赖额外的部件特征提取网络,实现对图像特征的快速准确提取,利用图像自身信息构建图像特征间的关联关系,得到细粒度特征的精细表征,提高图像的识别效果。

Description

图结构表征的高阶关联发现细粒度图像识别方法及装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图结构表征的高阶关联发现细粒度图像识别方法及装置。
背景技术
图像细粒度识别是根据大量细粒度分类类别和算法识别将输入的图像进行归纳分类的一种技术。该技术可广泛应用于互联网分析、人脸验证、行人识别以及智慧城市等各个领域中。
目前,大多数的图像细粒度识别都是倾向于利用区域特征,或部件级表征,来增强图像的识别效果。但这类方法需要依赖额外的部件特征提取网络,而部件提取到的特征容易存在不稳定表征,影响图像识别效果。
发明内容
本发明实施例提供一种图结构表征的高阶关联发现细粒度图像识别方法及装置,无需依赖额外的部件特征提取网络,通过单阶段的网络表征,实现对图像特征的快速准确提取,提高图像识别效果。
第一方面,本发明实施例提供一种图结构表征的高阶关联发现细粒度图像识别方法,所述方法包括:
将待分类图像输入具有多个阶段的卷积神经网络特征提取器,提取最后一个阶段的两层网络特征图Xi与Yi
根据所述网络特征图Xi与Yi,构建空间门控网络增强的混合高阶注意力模块,并根据所述混合高阶注意力模块形成高阶特征向量池;
将所述高阶特征向量池中的每一个向量作为节点,构建图神经网络,并利用高阶特征间的语义相似性,分组形成代表性向量节点;
对所述代表性向量节点进行全局池化,得到分类向量,并基于所述分类向量,通过全连接层和分类器得到细粒度分类结果。
可选的,根据所述网络特征图Xi与Yi,构建空间门控网络增强的混合高阶注意力模块,并根据所述混合高阶注意力模块形成高阶特征向量池,包括:
根据所述网络特征图Xi与Yi,构建所述混合高阶注意力模块对应的注意力感知矩阵Pi
将根据所述注意力感知矩阵Pi和所述网络特征图Xi得到的空间感知高阶矩阵
Figure BDA0003081451200000021
门控网络
Figure BDA0003081451200000022
和所述网络特征图Xi进行融合,得到位置关联矩阵Ei
将所述位置关联矩阵Ei转置后与编码后的网络特征图Yi融合,形成所述高阶特征向量池。
可选的,根据所述网络特征图Xi与Yi,构建所述混合高阶注意力模块对应的注意力感知矩阵Pi,包括:
对网络特征图Yi进行编码;
根据所述网络特征图Xi的转置和编码后的网络特征图Yi,确定所述混合高阶注意力模块中各位置的注意力感知矩阵Pi
Figure BDA0003081451200000023
其中,W,H表示网络特征图的宽和高的维度,C表示网络特征图的维度,
Figure BDA0003081451200000024
表示矩阵正规化方法,sign表示x的符号正负性,
Figure BDA0003081451200000025
表示二范数正规化,
Figure BDA0003081451200000026
表示生成向量的大小维度,
Figure BDA00030814512000000213
表示转置符号。
可选的,将根据所述注意力感知矩阵Pi和所述网络特征图Xi得到的空间感知高阶矩阵
Figure BDA0003081451200000027
门控网络
Figure BDA0003081451200000028
和所述网络特征图Xi进行融合,得到位置关联矩阵Ei,包括:
将所述注意力感知矩阵Pi与所述网络特征图Xi的转置进行矩阵乘法,得到所述空间感知高阶矩阵
Figure BDA0003081451200000029
根据所述空间感知高阶矩阵,构建所述位置关联矩阵Ei
Figure BDA00030814512000000210
其中,门控网络
Figure BDA00030814512000000211
为可学习权重的维度为
Figure BDA00030814512000000212
的全连接层神经网络。
可选的,将所述位置关联矩阵Ei转置后与编码后的网络特征图Yi融合,形成所述高阶特征向量池,包括:
将所述位置关联矩阵Ei转置后与编码后的跨层矩阵Yi作用后,并在WH维度取平均化,得到维度为
Figure BDA0003081451200000031
的高阶特征向量池
Figure BDA0003081451200000032
Figure BDA0003081451200000033
其中,CN表示元素个数,C表示每个向量的维度。
可选的,将所述高阶特征向量池中的每一个向量作为节点,构建图神经网络,并利用高阶特征将的语义相似性,分组形成代表性向量节点,包括:
将所述高阶特征向量池中的每个向量作为一个节点,构建第一图神经网络,并根据语义相似性,构建邻接矩阵,提取图嵌入特征矩阵;
根据第二图神经网络,确定从高维节点到低维节点的分组映射规则;
根据所述分组映射规则以及所述图嵌入特征矩阵对节点进行分组,得到所述代表性向量节点。
可选的,将所述高阶特征向量池中的每个向量作为一个节点,构建第一图神经网络,并根据语义相似性,构建邻接矩阵,得到图嵌入特征矩阵,包括:
将向量池中的向量分解成CN个维度为C的向量组合,以每个C维度的向量作为一个特征节点,构建所述第一图神经网络的第一邻接矩阵Ai,j
Figure BDA0003081451200000034
其中,Ai,j表示为第i个节点与j个节点之间的连接关系,τ(xi)表示为对向量池中的向量xi做τ编码;
对所述第一邻接矩阵Ai,j添加自环操作,得到第二邻接矩阵
Figure BDA0003081451200000035
所述第二邻接矩阵
Figure BDA0003081451200000036
为:
Figure BDA0003081451200000037
其中,
Figure BDA0003081451200000038
表示为对角线为1的单位矩阵;
根据所述第二邻接矩阵,构建似然度约束的图融合算法,得到图嵌入特征矩阵H:
Figure BDA0003081451200000039
其中,
Figure BDA00030814512000000310
表示所述第一图神经网络的可学习参数,dh表示网络变换后的特征维度,T表示上述高阶特征向量池的矩阵形式,ReLU表示线性整流函数,
Figure BDA0003081451200000041
表示对角矩阵。
可选的,根据第二图神经网络,确定从高维节点到低维节点的分组映射规则,包括:
根据所述第二图神经网络,从CN个节点映射为Cr个节点,得到
Figure BDA0003081451200000042
的映射关系;
其中,从高维节点到低维节点的分组映射规则矩阵G为:
Figure BDA0003081451200000043
其中,
Figure BDA0003081451200000044
表示所述第二图神经网络的可学习矩阵。
可选的,根据所述分组映射规则以及所述图嵌入特征矩阵对节点进行分组,得到所述代表性向量节点,包括:
根据所述分组映射规则,将卷积后的图嵌入特征矩阵H聚类为Cr个节点的新图,形成所述代表性向量节点Z:
Figure BDA0003081451200000045
第二方面,本发明实施例提供一种图结构表征的高阶关联发现细粒度图像识别装置,所述装置包括:
提取模块,用于将待分类图像输入具有多个阶段的卷积神经网络特征提取器,提取最后一个阶段的两层网络特征图Xi与Yi
第一形成模块,用于根据所述两层网络特征图Xi与Yi,构建空间门控网络增强的混合高阶注意力模块,并根据所述混合高阶注意力模块形成高阶特征向量池;
第二形成模块,用于将所述高阶特征向量池中的每一个向量作为节点,构建图神经网络,并利用高阶特征间的语义相似性,分组形成代表性向量节点;
得到模块,用于对所述代表性向量节点进行全局池化,得到分类向量,并基于所述分类向量,通过全连接层和分类器得到细粒度分类结果。
第三方面,本发明实施例提供一种图结构表征的高阶关联发现细粒度图像识别设备,包括:
至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面任一项所述的图结构表征的高阶关联发现细粒度图像识别方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时,用于实现如上第一方面任一项所述的图结构表征的高阶关联发现细粒度图像识别方法。
第五方面,本发明实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上第一方面任一项所述的图结构表征的高阶关联发现细粒度图像识别方法。
本发明实施例提供的图结构表征的高阶关联发现细粒度图像识别方法及装置,将待分类图像输入具有多个阶段的卷积神经网络特征提取器,提取最后一个阶段的两层网络特征图Xi与Yi,根据所述网络特征图Xi与Yi,构建空间门控网络增强的混合高阶注意力模块,并根据所述混合高阶注意力模块形成高阶特征向量池,将所述高阶特征向量池中的每一个向量作为节点,构建图神经网络,并利用高阶特征间的语义相似性,分组形成代表性向量节点,对所述代表性向量节点进行全局池化,得到分类向量,并基于所述分类向量,通过全连接层和分类器得到细粒度分类结果,选取分辨率较低的最后一阶段的特征图,降低了网络输出对于位移和变形的敏感程度,构建混合高阶注意力模块可增强特征的聚合,通过构建门控网络,可以学习跨度相对较长的依赖关系,避免出现梯度消失和梯度爆炸的问题,通过对节点进行分组形成代表性向量节点,可将相似的节点划分为一组,缩短计算时间,无需依赖额外的部件特征提取网络,通过单阶段的网络表征,实现对图像特征的快速准确提取,利用图像自身信息构建图像特征间的关联关系,得到细粒度特征的精细表征,提高图像的识别效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例提供的一种应用场景示意图;
图2为本发明实施例提供的一种图结构表征的高阶关联发现细粒度图像识别方法的流程示意图;
图3为本发明实施例提供的一种构建高阶特征向量池的原理示意图;
图4为本发明实施例提供的一种图结构表征的高阶关联发现细粒度图像识别方法的原理示意图;
图5为本发明实施例提供的一种图结构表征的高阶关联发现细粒度图像识别装置的结构示意图;
图6为本发明实施例提供的一种图结构表征的高阶关联发现细粒度图像识别设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
下面以具体地实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
下面对本发明实施例提供的一种应用场景进行解释:本发明实施例提供的方案,涉及到图像细粒度识别。传统的图像识别一般都是识别植物,动物等不同类别物种,而图像细粒度识别则可以识别同一类物体下的不同子类,进而可应用于国防军事、电影制作以及公共安全等领域的计算机视觉系统,具有广泛的应用前景。
在一些技术中,由某企业提出了一种循环注意力引导的卷积神经网络,通过一个细分类的子网络与一个注意力候选网络,利用分类标注的差异性,逐步探索出对分类影响更大的区域。方法最终通过多级网络模块融合与概率分布差异探究出有效区分的区域特征,并与全局特征进行融合,提升了细粒度的分类准确率。该方法需要额外的图像部件标注信息,但额外的图像部件标注信息具有不准确性,可能会影响图像的识别效果。
在另一些技术中,由某高校提出了一种基于显著区域的采样结构,通过在通用模型中嵌入改进的网络层,实现对显著区域的精确理解。算法利用显著区域特征,将预测到的区域使用网格化变形,得到冲采样后的高分辨率图像,将其与传统分类特征融合,实现对区域细节的高精度分类。但该方法需要依赖额外部的特征提取网络,而部件提取到的特征容易存在不稳定表征,影响图像识别效果。
因此,本发明的实施例提供了一种图结构表征的高阶关联发现细粒度图像识别方法,在深度网络多特征提取的基础上,使用网络门控增强的混合高阶模式,构建高阶特征向量池,并在此基础上,使用语义分组约束的图网络结构,将该高维表征分组降维,得到精简化的低维表征,并最终通过可学习的残差分类器进行分类操作,无需依赖额外的部件特征提取网络,通过单阶段的网络表征,实现对图像特征的快速准确提取,并利用图像自身信息构建图像特征间的关联关系,实现细粒度特征的精细表征,提高图像的识别效果。
图1为本发明实施例提供的一种应用场景示意图。如图1所示,将一图像信息为物种狗的动物图像输入到已训练好的模型中,经过一系列的计算过程,输出该图像为哈士奇的概率最大,因此判别图像中狗的物种为哈士奇。
下面结合附图,对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图2为本发明实施例提供的一种图结构表征的高阶关联发现细粒度图像识别方法的流程示意图。如图2所示,本实施例中的方法可以包括:
步骤201、将待分类图像输入具有多个阶段的卷积神经网络特征提取器,提取最后一个阶段的两层网络特征图Xi与Yi
其中,多个阶段可以为四个阶段。卷积网络特征提取器可以采用不同架构的ResNet以及多种变体网络,例如ResNeXt和SE-Net等。网络特征图又可以称为跨层特征。
可选的,每一阶段的网络特征图的分辨率可以不同,越到后面其网络特征图的分辨率逐渐降低。
可利用卷积神经网络特征提取器对待分类图像提取特征主干网络,提取最后一阶段的两层网络特征图Xi与Yi。可选的,可以提取最后一个阶段的倒数第二层和第三层网络特征图。可选的,最后一阶段的网络特征图Xi与Yi的长宽可以是原待分类图像长宽的1/32,通道数为2048。例如,当输入的图像的长宽的维度为32×32时,最后一阶段的特征图的长宽的维度为1×1。
步骤202、根据所述网络特征图Xi与Yi,构建空间门控网络增强的混合高阶注意力模块,并根据所述混合高阶注意力模块形成高阶特征向量池。
其中,门控网络,又可称为门控机制,用来控制神经网络中信息的传递,即有多少信息需要保留有多少信息需要舍弃。门控网络是在训练过程中,学习到的一种空间融合权重。
由网络特征图Xi与Yi,可构建混合高阶注意力模块,并通过门控网络增强的高阶注意力模块,可形成高阶特征向量池,实现细粒度表征模式。
步骤203、将所述高阶特征向量池中的每一个向量作为节点,构建图神经网络,并利用高阶特征间的语义相似性,分组形成代表性向量节点。
通过将高阶特征向量池中的每一个向量作为节点,得到与高阶特征向量池中的向量数量相同的节点,并构建图神经网络,得到各个节点的连接关系,利用高阶特征间的语义相似性,根据语义相似性的似然度进行图学习和融合,将具有关联关系的节点聚合到一起,并分组形成代表性向量节点。
步骤204、对所述代表性向量节点进行全局池化,得到分类向量,并基于所述分类向量,通过全连接层和分类器得到细粒度分类结果。
可选的,全局池化可以分为全局最大池化和全局均值池化,全局最大池化为选取特征图中的最大值,全局均值池化为选取特征图中的平均值。
将代表性向量节点进行全局池化,可得到分类向量,全连接层和分类器可以根据分类向量中的各特征存在的概率大小,得到最终的细粒度分类结果。其中,某一特征的概率越大时,该图像可认为是该特征的表征。
所述图结构表征的高阶关联发现细粒度图像识别方法的模型可以是预先训练好的模型。具体地,可以使用具体的动物或植物图像对图结构表征的高阶关联发现细粒度图像识别方法的模型参数进行训练,每一训练样本为具体的物种种类,目标变量可以是得到该物种种类的概率为最大值。在训练过程中可调节模型中的变量,得到最符合实际的结果。在得到训练好的模型后,可以基于训练好的模型判断某一图像具体为哪种物种。
本实施例提供的图结构表征的高阶关联发现细粒度图像识别方法,将待分类图像输入具有多个阶段的卷积神经网络特征提取器,提取最后一个阶段的两层网络特征图Xi与Yi,根据所述网络特征图Xi与Yi,构建空间门控网络增强的混合高阶注意力模块,并根据所述混合高阶注意力模块形成高阶特征向量池,将所述高阶特征向量池中的每一个向量作为节点,构建图神经网络,并利用高阶特征间的语义相似性,分组形成代表性向量节点,对所述代表性向量节点进行全局池化,得到分类向量,并基于所述分类向量,通过全连接层和分类器得到细粒度分类结果,选取分辨率较低的最后一阶段的特征图,降低了网络输出对于位移和变形的敏感程度,构建混合高阶注意力模块可增强特征的聚合,通过构建门控网络,可以学习跨度相对较长的依赖关系,避免出现梯度消失和梯度爆炸的问题,通过对节点进行分组形成代表性向量节点,可将相似的节点划分为一组,缩短计算时间,无需依赖额外的部件特征提取网络,通过单阶段的网络表征,实现对图像特征的快速准确提取,利用图像自身信息构建图像特征间的关联关系,得到细粒度特征的精细表征,提高图像的识别效果。
在上述实施例提供的技术方案的基础上,可选的,根据所述网络特征图Xi与Yi,构建空间门控网络增强的混合高阶注意力模块,并根据所述混合高阶注意力模块形成高阶特征向量池,包括:
根据所述网络特征图Xi与Yi,构建所述混合高阶注意力模块对应的注意力感知矩阵Pi;将根据所述注意力感知矩阵Pi和所述网络特征图Xi得到的空间感知高阶矩阵
Figure BDA0003081451200000091
门控网络
Figure BDA0003081451200000092
和所述网络特征图Xi进行融合,得到位置关联矩阵Ei;将所述位置关联矩阵Ei转置后与编码后的网络特征图Yi融合,形成所述高阶特征向量池。
其中,空间感知高阶矩阵,又称为空间关联构建,由两层网络特征图构建得到。位置关联矩阵,又称为增强后的特征矩阵。
通过构建注意力感知矩阵、门控网络以及位置关联矩阵,形成高阶特征向量池,可增强特征聚合,避免梯度消失或梯度爆炸的情况,对各评价要素在总体评价中的作用进行了区别对待。
可选的,根据所述网络特征图Xi与Yi,构建所述混合高阶注意力模块对应的注意力感知矩阵Pi,包括:
对网络特征图Yi进行编码;根据所述网络特征图Xi的转置和编码后的网络特征图Yi,确定所述混合高阶注意力模块中各位置的注意力感知矩阵Pi
Figure BDA0003081451200000101
其中,W,H表示网络特征图的宽和高的维度,C表示网络特征图的维度,
Figure BDA0003081451200000102
表示矩阵正规化方法,sign表示x的符号正负性(1或者-1),
Figure BDA0003081451200000103
表示二范数正规化,
Figure BDA0003081451200000104
表示生成向量的大小维度,
Figure BDA00030814512000001017
表示转置符号。
其中C可以为通道数,如2048。
其中,通过1×1的卷积核对网络特征图Yi进行编码,即得到
Figure BDA0003081451200000105
编码后的网络特征图Yi
Figure BDA0003081451200000106
可将网络特征图Xi和Yi的宽和高的维度组合,从而得到网络特征图Xi和Yi的维度为WH×C,当网络特征图Xi的转置和
Figure BDA0003081451200000107
编码后的网络特征图Yi相乘得到的维度为WH×WH。
通过利用网络特征图Xi的转置和
Figure BDA0003081451200000108
编码后的网络特征图Yi,确定注意力感知矩阵Pi,可增强特征聚合,提高特征的利用率。
可选的,将根据所述注意力感知矩阵Pi和所述网络特征图Xi得到的空间感知高阶矩阵
Figure BDA0003081451200000109
门控网络
Figure BDA00030814512000001010
和所述网络特征图Xi进行融合,得到位置关联矩阵Ei,包括:
将所述注意力感知矩阵Pi与所述网络特征图Xi的转置进行矩阵乘法,得到所述空间感知高阶矩阵
Figure BDA00030814512000001011
根据所述空间感知高阶矩阵,构建所述位置关联矩阵Ei
Figure BDA00030814512000001012
其中,门控网络
Figure BDA00030814512000001013
为可学习权重的维度为
Figure BDA00030814512000001014
的全连接层神经网络。
在注意力感知矩阵Pi的基础上,选择门控机制,自动学习到空间融合权重
Figure BDA00030814512000001015
学习到自适应融合参数,再与空间感知高阶矩阵
Figure BDA00030814512000001016
融合,得到位置关联矩阵Ei。i的取值为1至C。
可选的,
Figure BDA0003081451200000111
的可学习权重可以通过训练阶段确定。
通过学习门控网络,选取合适的信息进行处理,实现对学习跨度较长的依赖关系,避免出现梯度消失和梯度爆炸的问题。
可选的,将所述位置关联矩阵Ei转置后与编码后的网络特征图Yi融合,形成所述高阶特征向量池,包括:
将所述位置关联矩阵Ei转置后与编码后的跨层矩阵Yi作用后,并在WH维度取平均化,得到维度为
Figure BDA0003081451200000112
的高阶特征向量池
Figure BDA0003081451200000113
Figure BDA0003081451200000114
其中,CN表示元素个数,C表示每个向量的维度。
其中,
Figure BDA0003081451200000115
Figure BDA0003081451200000116
转置后与Ei相乘可得到维度为为
Figure BDA0003081451200000117
的向量,将Ei中的向量维度C降为维度为CN的向量,可到向量池的维度为CN×C。
通过对关联矩阵Ei转置与编码后的网络特征图Yi进行融合,构建混合的高阶特征向量池,并在WH维度取平均化,得到维度为
Figure BDA0003081451200000118
的向量池
Figure BDA0003081451200000119
其元素个数为CN个,每个向量维度为C。
通过构建高阶特征向量池,得到原图像的细粒度表征,将图像中的细粒度特征提取出来,以便于对图像的识别。
图3为本发明实施例提供的一种构建高阶特征向量池的原理示意图。如图3所示,T表示转置,网络特征图Xi转置后与
Figure BDA00030814512000001110
编码后的网络特征图Yi矩阵相乘,进行处理,得到维度为WH×WH的注意力矩阵Pi。注意力矩阵Pi通过学习门控网络
Figure BDA00030814512000001111
得到自适应融合参数,利用网络特征图Xi转置后与注意力矩阵Pi相乘,构建出高阶特征
Figure BDA00030814512000001112
再与门控网络
Figure BDA00030814512000001113
相乘,与网络特征图Xi相加,得到位置关联矩阵Ei
位置关联矩阵Ei转置后与
Figure BDA00030814512000001114
编码后的特征
Figure BDA00030814512000001115
映射成的向量矩阵进行矩阵乘法,构建元素个数为CN个,每个向量维度为C的高阶特征向量池。
可选的,将所述高阶特征向量池中的每一个向量作为节点,构建图神经网络,并利用高阶特征将的语义相似性,分组形成代表性向量节点,包括:
将所述高阶特征向量池中的每个向量作为一个节点,构建第一图神经网络,并根据语义相似性,构建邻接矩阵,提取图嵌入特征矩阵;构建第二图神经网络,确定从高维节点到低维节点的分组映射规则;根据所述分组映射规则以及所述图嵌入特征矩阵对节点进行分组,得到所述代表性向量节点。
可选的,可将高阶特征向量池中的每个向量作为一个节点,构建第一图神经网络,并根据语义相似性,构建邻接矩阵,提取图嵌入特征。再使用第二图神经网络,学习从高维节点到低维节点的分组映射规则,根据分组映射规则和图嵌入特征对节点进行分组,得到代表性向量节点。
通过对高阶特征向量池中的节点进行分组降维,将相似性较高的节点归为一类,提高计算效率。
可选的,将所述高阶特征向量池中的每个向量作为一个节点,构建第一图神经网络,并根据语义相似性,构建邻接矩阵,得到图嵌入特征矩阵,包括:
将向量池中的向量分解成CN个维度为C的向量组合,以每个C维度的向量作为一个特征节点,构建所述第一图神经网络的第一邻接矩阵Ai,j
Figure BDA0003081451200000121
其中,Ai,j表示为第i个节点与j个节点之间的连接关系,τ(xi)表示为对向量池中的向量xi做τ编码;
对所述第一邻接矩阵Ai,j添加自环操作,得到第二邻接矩阵
Figure BDA0003081451200000122
所述第二邻接矩阵
Figure BDA0003081451200000123
为:
Figure BDA0003081451200000124
其中,
Figure BDA0003081451200000125
为对角矩阵,表示为对角线为1的单位矩阵;
根据所述第二邻接矩阵,构建似然度约束的图融合算法,得到图嵌入特征矩阵H:
Figure BDA0003081451200000126
其中,
Figure BDA0003081451200000127
表示所述第一图神经网络的可学习参数,dh表示网络变换后的特征维度,T表示上述高阶特征向量池的矩阵形式,可选的,可以为CN×C的矩阵,ReLU表示线性整流函数,
Figure BDA0003081451200000128
表示对角矩阵。
向量池中的向量分解成CN个维度为C的向量组合
Figure BDA0003081451200000129
将每个C维度的向量作为一个特征节点,共CN个节点。其中,H的维度为
Figure BDA0003081451200000131
其中,当第一邻接矩阵中的元素Ai,j为1时,表示节点i和节点j具有连接关系,为0时,表示节点i和节点j没有连接关系。τ(xi)表示为对向量池中的向量xi做τ编码,也就是对向量池中的向量xi进行1×1卷积,用于对特征作线性变换。
Figure BDA0003081451200000132
为对角矩阵,操作为对矩阵
Figure BDA0003081451200000133
按照列方向求和,元素和置于矩阵对角线位置。
Figure BDA0003081451200000134
为在训练过程中得到的可学习参数。
通过构建第一图神经网络模型,构建邻接矩阵,提取图嵌入特征矩阵,得到各节点的连接关系以及相似性关系。
可选的,构建第二图神经网络,确定从高维节点到低维节点的分组映射规则,包括:
根据所述第二图神经网络,从CN个节点映射为Cr个节点,得到
Figure BDA0003081451200000135
的映射关系;
其中,从高维节点(CN个节点)到低维节点(Cr个节点)的分组映射规则矩阵G为:
Figure BDA0003081451200000136
其中,
Figure BDA0003081451200000137
表示所述第二图神经网络的可学习矩阵。
其中,映射规则矩阵,又可称为聚合规则矩阵。
Figure BDA0003081451200000138
为在训练过程中得到的可学习矩阵,
Figure BDA0003081451200000139
通过第二图神经网络关系,将所述高阶特征向量池中的CN个节点映射为Cr个节点,Cr为降维后的特征数量,一般设置为
Figure BDA00030814512000001310
表示为取整,r可以根据实际需要设置,例如可以为2。即学习到将向量特征池从
Figure BDA00030814512000001311
的映射关系。
可选的,预设的向量节点可以是提前设定好的,是高阶特征向量池中节点的几分之几。例如,高阶特征向量池中的节点为8个,设定r=2,则高阶特征向量池中的节点个数变为原来的1/2,在通过第二图神经网络作用后,得到4个节点。若高阶特征向量池中的节点为9个,设定r=2,则高阶特征向量池中的节点个数变为原来的1/2,在通过第二图神经网络作用取整后,仍得到4个节点。
通过将高阶向量池中的节点进行降维处理,将语义相近的节点归为一类,减少数据维度和需要的存储空间。
可选的,根据所述分组映射规则以及所述图嵌入特征矩阵对节点进行分组,得到所述代表性向量节点,包括:
根据所述分组映射规则,将卷积后的图嵌入特征矩阵H聚类为Cr个节点的新图,形成所述代表性向量节点Z:
Figure BDA0003081451200000141
其中,
Figure BDA0003081451200000142
表示对向量池中的Cr个节点进行SoftMax计算,得到向量池某一特征的概率值,计算完成后得到维度为CN×Cr
Figure BDA0003081451200000143
H转置后与
Figure BDA0003081451200000144
相乘,得到的维度为dh×Cr
通过将维度C降为维度CN,在分别对CN×C中维度CN降为维度dh,维度C降为维度Cr,实现高维节点到低维节点的降维,有效缓解了高维空间的优化困难问题,节约模型训练计算时间,提高算法的准确度。
将分组降维后的代表性向量节点Z取得最大或平均池化操作,并与图嵌入特征矩阵H做残差链接,得到优化后的特征
Figure BDA0003081451200000145
优化后的特征经过一个全连接层网络和分类器,得到最后的细粒度图像分类概率。概率最高的分类类别即为细粒度分类结果。
本发明实施例中,前述各部分的可学习参数、可学习权重等可以通过训练过程来确定。具体训练方法的实现原理可以参照常规的模型训练原理,此处不再赘述。
图4为本发明实施例提供的一种图结构表征的高阶关联发现细粒度图像识别方法的原理示意图。如图4所示:
步骤401、图像跨层特征提取。
输入图像,利用卷积神经网络特征提取器对图像的主干网络进行提取,提取最后一个阶段的倒数第二层与第三层特征网络图Xi与Yi。其中,特征网络图Xi与Yi的维度是W×H×C,W表示特征网络图宽的维度,H表示特征网络图高的维度,C表示特征网络图通道的维度。对特征网络图Yi进行1×1卷积,得到
Figure BDA0003081451200000151
编码后的特征网络图Yi
步骤402、高阶关联构建。
根据网络特征图Xi的转置和
Figure BDA0003081451200000152
编码后的网络特征图Yi,实现空间关联构建,确定维度为WH×WH的注意力感知矩阵Pi,将注意力感知矩阵Pi与所述网络特征图Xi的转置进行矩阵乘法,得到所述空间感知高阶矩阵
Figure BDA0003081451200000153
再与门控网络构建确定位置关联矩阵Ei,将所述位置关联矩阵Ei转置变形后与编码后的跨层矩阵Yi作用,并在WH维度取平均化,得到维度为
Figure BDA0003081451200000154
的高阶特征模块,从而得到高阶特征向量池
Figure BDA0003081451200000155
步骤403、语义图关联聚合。
将高阶特征向量池中的向量分解成CN个维度为C的向量组合,以每个C维度的向量作为一个特征节点,根据第一图神经网络利用节点嵌入,得到第一邻接矩阵Ai,j,对所述第一邻接矩阵Ai,j添加自环操作,得到第二邻接矩阵
Figure BDA0003081451200000156
根据所述第二邻接矩阵,构建似然度约束的图融合算法,得到节点数为CN的图嵌入特征矩阵H,再根据分组映射规则G,将卷积后的图嵌入特征矩阵H映射为Cr个节点数的特征网络图,再利用特征聚合形成1×1×C,得到dh个维度为Cr的选择性特征,也就是代表性向量节点Z。
步骤404、分类特征输出。
将分组降维后的代表性向量节点Z取得最大或平均池化操作,并与图嵌入特征矩阵H做残差聚合,得到优化后的特征
Figure BDA0003081451200000157
其维度为1×1×Cr。再经过一个全连接层网络和分类器,得到维度为1×1×N的特征。利用SoftMax函数选取某一特征的概率,得到最后的预测结果。
图5为本发明实施例提供的一种图结构表征的高阶关联发现细粒度图像识别装置的结构示意图。如图5所示,本实施例提供的图结构表征的高阶关联发现细粒度图像识别装置,可以包括:
提取模块501,用于将待分类图像输入具有多个阶段的卷积神经网络特征提取器,提取最后一个阶段的两层网络特征图Xi与Yi
第一形成模块502,用于根据所述两层网络特征图Xi与Yi,构建空间门控网络增强的混合高阶注意力模块,并根据所述混合高阶注意力模块形成高阶特征向量池;
第二形成模块503,用于将所述高阶特征向量池中的每一个向量作为节点,构建图神经网络,并利用高阶特征间的语义相似性,分组形成代表性向量节点;
得到模块504,用于对所述代表性向量节点进行全局池化,得到分类向量,并基于所述分类向量,通过全连接层和分类器得到细粒度分类结果。
可选的,所述第一形成模块502具体用于:
根据所述网络特征图Xi与Yi,构建所述混合高阶注意力模块对应的注意力感知矩阵Pi
将根据所述注意力感知矩阵Pi和所述网络特征图Xi得到的空间感知高阶矩阵
Figure BDA0003081451200000161
门控网络
Figure BDA0003081451200000162
和所述网络特征图Xi进行融合,得到位置关联矩阵Ei
将所述位置关联矩阵Ei转置后与编码后的网络特征图Yi融合,形成所述高阶特征向量池。
可选的,所述第一形成模块502在根据所述网络特征图Xi与Yi,构建所述混合高阶注意力模块对应的注意力感知矩阵Pi时,具体用于:
对网络特征图Yi进行编码;
根据所述网络特征图Xi的转置和编码后的网络特征图Yi,确定所述混合高阶注意力模块中各位置的注意力感知矩阵Pi
Figure BDA0003081451200000163
其中,W,H表示网络特征图的宽和高的维度,C表示网络特征图的维度,
Figure BDA0003081451200000164
表示矩阵正规化方法,sign表示x的符号正负性,
Figure BDA0003081451200000165
表示二范数正规化,
Figure BDA0003081451200000166
表示生成向量的大小维度,
Figure BDA00030814512000001610
表示转置符号。
可选的,所述第一形成模块502在将根据所述注意力感知矩阵Pi和所述网络特征图Xi得到的空间感知高阶矩阵
Figure BDA0003081451200000167
门控网络
Figure BDA0003081451200000168
和所述网络特征图Xi进行融合,得到位置关联矩阵Ei时,具体用于:
将所述注意力感知矩阵Pi与所述网络特征图Xi的转置进行矩阵乘法,得到所述空间感知高阶矩阵
Figure BDA0003081451200000169
根据所述空间感知高阶矩阵,构建所述位置关联矩阵Ei
Figure BDA0003081451200000171
其中,门控网络
Figure BDA0003081451200000172
为可学习权重的维度为
Figure BDA0003081451200000173
的全连接层神经网络。
可选的,所述第一形成模块502在将所述位置关联矩阵Ei转置后与编码后的网络特征图Yi融合,形成所述高阶特征向量池时,具体用于:
将所述位置关联矩阵Ei转置后与编码后的跨层矩阵Yi作用后,并在WH维度取平均化,得到维度为
Figure BDA0003081451200000174
的高阶特征向量池
Figure BDA0003081451200000175
Figure BDA0003081451200000176
其中,CN表示元素个数,C表示每个向量的维度。
可选的,所述第二形成模块503具体用于:
将所述高阶特征向量池中的每个向量作为一个节点,构建第一图神经网络,并根据语义相似性,构建邻接矩阵,提取图嵌入特征矩阵;
根据第二图神经网络,确定从高维节点到低维节点的分组映射规则;
根据所述分组映射规则以及所述图嵌入特征矩阵对节点进行分组,得到所述代表性向量节点。
可选的,所述第二形成模块503在将所述高阶特征向量池中的每个向量作为一个节点,构建第一图神经网络,并根据语义相似性,构建邻接矩阵,得到图嵌入特征矩阵时,具体用于:
将向量池中的向量分解成CN个维度为C的向量组合,以每个C维度的向量作为一个特征节点,构建所述第一图神经网络的第一邻接矩阵Ai,j
Figure BDA0003081451200000177
其中,Ai,j表示为第i个节点与j个节点之间的连接关系,τ(xi)表示为对向量池中的向量xi做τ编码;
对所述第一邻接矩阵Ai,j添加自环操作,得到第二邻接矩阵
Figure BDA0003081451200000178
所述第二邻接矩阵
Figure BDA0003081451200000179
为:
Figure BDA00030814512000001710
其中,
Figure BDA00030814512000001711
表示为对角线为1的单位矩阵;
根据所述第二邻接矩阵,构建似然度约束的图融合算法,得到图嵌入特征矩阵H:
Figure BDA0003081451200000181
其中,
Figure BDA0003081451200000182
表示所述第一图神经网络的可学习参数,dh表示网络变换后的特征维度,T表示上述高阶特征向量池的矩阵形式,ReLU表示线性整流函数,
Figure BDA0003081451200000183
表示对角矩阵。
可选的,所述第二形成模块503在根据第二图神经网络,确定从高维节点到低维节点的分组映射规则时,具体用于:
根据所述第二图神经网络,从CN个节点映射为Cr个节点,得到
Figure BDA0003081451200000184
的映射关系;
其中,从高维节点到低维节点的分组映射规则矩阵G为:
Figure BDA0003081451200000185
其中,
Figure BDA0003081451200000186
表示所述第二图神经网络的可学习矩阵。
可选的,所述第二形成模块503在根据所述分组映射规则以及所述图嵌入特征矩阵对节点进行分组,得到所述代表性向量节点时,具体用于:
根据所述分组映射规则,将卷积后的图嵌入特征矩阵H聚类为Cr个节点的新图,形成所述代表性向量节点Z:
Figure BDA0003081451200000187
本实施例提供的装置可以执行如图1-图4所示的方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本发明实施例提供的一种图结构表征的高阶关联发现细粒度图像识别设备的结构示意图。如图6所示,本实施例提供的设备,可以包括:至少一个处理器61和存储器62;
所述存储器62存储计算机执行指令;
所述至少一个处理器61执行所述存储器62存储的计算机执行指令,使得所述至少一个处理器61执行上述任一实施例所述的方法。
其中,存储器62和处理器61可以通过总线63连接。
本实施例提供的设备的具体实现原理和效果可以参见图1-图4所示实施例对应的相关描述和效果,此处不做过多赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现本发明任一实施例提供的图结构表征的高阶关联发现细粒度图像识别方法。
本发明实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本发明任一实施例所述的图结构表征的高阶关联发现细粒度图像识别方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本发明各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本发明附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种图结构表征的高阶关联发现细粒度图像识别方法,其特征在于,包括:
将待分类图像输入具有多个阶段的卷积神经网络特征提取器,提取最后一个阶段的两层网络特征图Xi与Yi
根据所述网络特征图Xi与Yi,构建空间门控网络增强的混合高阶注意力模块,并根据所述混合高阶注意力模块形成高阶特征向量池;
将所述高阶特征向量池中的每一个向量作为节点,构建图神经网络,并利用高阶特征间的语义相似性,分组形成代表性向量节点;
对所述代表性向量节点进行全局池化,得到分类向量,并基于所述分类向量,通过全连接层和分类器得到细粒度分类结果。
2.根据权利要求1所述的方法,其特征在于,根据所述网络特征图Xi与Yi,构建空间门控网络增强的混合高阶注意力模块,并根据所述混合高阶注意力模块形成高阶特征向量池,包括:
根据所述网络特征图Xi与Yi,构建所述混合高阶注意力模块对应的注意力感知矩阵Pi
将根据所述注意力感知矩阵Pi和所述网络特征图Xi得到的空间感知高阶矩阵
Figure FDA0003081451190000011
门控网络
Figure FDA0003081451190000012
和所述网络特征图Xi进行融合,得到位置关联矩阵Ei
将所述位置关联矩阵Ei转置后与编码后的网络特征图Yi融合,形成所述高阶特征向量池。
3.根据权利要求2所述的方法,其特征在于,根据所述网络特征图Xi与Yi,构建所述混合高阶注意力模块对应的注意力感知矩阵Pi,包括:
对网络特征图Yi进行编码;
根据所述网络特征图Xi的转置和编码后的网络特征图Yi,确定所述混合高阶注意力模块中各位置的注意力感知矩阵Pi
Figure FDA0003081451190000013
其中,W,H表示网络特征图的宽和高的维度,C表示网络特征图的维度,
Figure FDA0003081451190000021
表示矩阵正规化方法,sign表示x的符号正负性,
Figure FDA0003081451190000022
表示二范数正规化,
Figure FDA0003081451190000023
表示生成向量的大小维度,
Figure FDA00030814511900000213
表示转置符号。
4.根据权利要求2所述的方法,其特征在于,将根据所述注意力感知矩阵Pi和所述网络特征图Xi得到的空间感知高阶矩阵
Figure FDA0003081451190000024
门控网络
Figure FDA0003081451190000025
和所述网络特征图Xi进行融合,得到位置关联矩阵Ei,包括:
将所述注意力感知矩阵Pi与所述网络特征图Xi的转置进行矩阵乘法,得到所述空间感知高阶矩阵
Figure FDA0003081451190000026
根据所述空间感知高阶矩阵,构建所述位置关联矩阵Ei
Figure FDA0003081451190000027
其中,门控网络
Figure FDA0003081451190000028
为可学习权重的维度为
Figure FDA0003081451190000029
的全连接层神经网络。
5.根据权利要求2所述的方法,其特征在于,将所述位置关联矩阵Ei转置后与编码后的网络特征图Yi融合,形成所述高阶特征向量池,包括:
将所述位置关联矩阵Ei转置后与编码后的跨层矩阵Yi作用后,并在WH维度取平均化,得到维度为
Figure FDA00030814511900000210
的高阶特征向量池
Figure FDA00030814511900000211
Figure FDA00030814511900000212
其中,CN表示元素个数,C表示每个向量的维度。
6.根据权利要求1所述的方法,其特征在于,将所述高阶特征向量池中的每一个向量作为节点,构建图神经网络,并利用高阶特征将的语义相似性,分组形成代表性向量节点,包括:
将所述高阶特征向量池中的每个向量作为一个节点,构建第一图神经网络,并根据语义相似性,构建邻接矩阵,提取图嵌入特征矩阵;
根据第二图神经网络,确定从高维节点到低维节点的分组映射规则;
根据所述分组映射规则以及所述图嵌入特征矩阵对节点进行分组,得到所述代表性向量节点。
7.根据权利要求6所述的方法,其特征在于,将所述高阶特征向量池中的每个向量作为一个节点,构建第一图神经网络,并根据语义相似性,构建邻接矩阵,得到图嵌入特征矩阵,包括:
将向量池中的向量分解成CN个维度为C的向量组合,以每个C维度的向量作为一个特征节点,构建所述第一图神经网络的第一邻接矩阵Ai,j
Figure FDA0003081451190000031
其中,Ai,j表示为第i个节点与j个节点之间的连接关系,τ(xi)表示为对向量池中的向量xi做τ编码;
对所述第一邻接矩阵Ai,j添加自环操作,得到第二邻接矩阵
Figure FDA0003081451190000032
所述第二邻接矩阵
Figure FDA0003081451190000033
为:
Figure FDA0003081451190000034
其中,
Figure FDA0003081451190000035
表示为对角线为1的单位矩阵;
根据所述第二邻接矩阵,构建似然度约束的图融合算法,得到图嵌入特征矩阵H:
Figure FDA0003081451190000036
其中,
Figure FDA0003081451190000037
表示所述第一图神经网络的可学习参数,dh表示网络变换后的特征维度,T表示上述高阶特征向量池的矩阵形式,ReLU表示线性整流函数,
Figure FDA0003081451190000038
表示对角矩阵。
8.根据权利要求7所述的方法,其特征在于,根据第二图神经网络,确定从高维节点到低维节点的分组映射规则,包括:
根据所述第二图神经网络,从CN个节点映射为Cr个节点,得到
Figure FDA0003081451190000039
的映射关系;
其中,从高维节点到低维节点的分组映射规则矩阵G为:
Figure FDA00030814511900000310
其中,
Figure FDA00030814511900000311
表示所述第二图神经网络的可学习矩阵。
9.根据权利要求6所述的方法,其特征在于,根据所述分组映射规则以及所述图嵌入特征矩阵对节点进行分组,得到所述代表性向量节点,包括:
根据所述分组映射规则,将卷积后的图嵌入特征矩阵H聚类为Cr个节点的新图,形成所述代表性向量节点Z:
Figure FDA0003081451190000041
10.一种图结构表征的高阶关联发现细粒度图像识别装置,其特征在于,包括:
提取模块,用于将待分类图像输入具有多个阶段的卷积神经网络特征提取器,提取最后一个阶段的两层网络特征图Xi与Yi
第一形成模块,用于根据所述两层网络特征图Xi与Yi,构建空间门控网络增强的混合高阶注意力模块,并根据所述混合高阶注意力模块形成高阶特征向量池;
第二形成模块,用于将所述高阶特征向量池中的每一个向量作为节点,构建图神经网络,并利用高阶特征间的语义相似性,分组形成代表性向量节点;
得到模块,用于对所述代表性向量节点进行全局池化,得到分类向量,并基于所述分类向量,通过全连接层和分类器得到细粒度分类结果。
CN202110567940.9A 2021-05-24 2021-05-24 图结构表征的高阶关联发现细粒度图像识别方法及装置 Active CN113222041B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110567940.9A CN113222041B (zh) 2021-05-24 2021-05-24 图结构表征的高阶关联发现细粒度图像识别方法及装置
US17/546,993 US20220382553A1 (en) 2021-05-24 2021-12-09 Fine-grained image recognition method and apparatus using graph structure represented high-order relation discovery

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110567940.9A CN113222041B (zh) 2021-05-24 2021-05-24 图结构表征的高阶关联发现细粒度图像识别方法及装置

Publications (2)

Publication Number Publication Date
CN113222041A true CN113222041A (zh) 2021-08-06
CN113222041B CN113222041B (zh) 2022-06-07

Family

ID=77098346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110567940.9A Active CN113222041B (zh) 2021-05-24 2021-05-24 图结构表征的高阶关联发现细粒度图像识别方法及装置

Country Status (2)

Country Link
US (1) US20220382553A1 (zh)
CN (1) CN113222041B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642515A (zh) * 2021-08-30 2021-11-12 北京航空航天大学 基于姿态关联的行人识别方法与装置、电子设备和介质
CN113762251A (zh) * 2021-08-17 2021-12-07 慧影医疗科技(北京)有限公司 一种基于注意力机制的目标分类方法及系统

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11511772B2 (en) * 2021-04-30 2022-11-29 Deepx Co., Ltd. NPU implemented for artificial neural networks to process fusion of heterogeneous data received from heterogeneous sensors
US11948358B2 (en) * 2021-11-16 2024-04-02 Adobe Inc. Self-supervised hierarchical event representation learning
CN116030014B (zh) * 2023-01-06 2024-04-09 浙江伟众科技有限公司 空调软硬管的智能化加工方法及其系统
CN116189275B (zh) * 2023-02-13 2024-01-30 南通大学 一种基于面部地标热图的线上考试监考方法
CN116384448B (zh) * 2023-04-10 2023-09-12 中国人民解放军陆军军医大学 基于混合高阶非对称卷积网络的cd严重程度分级系统
CN116468699B (zh) * 2023-04-23 2024-06-07 浙江酷趣网络科技有限公司杭州分公司 随光强弱变色的面料的智能化生产系统及其方法
CN116659043A (zh) * 2023-05-24 2023-08-29 碳次方(河南)科技有限责任公司 可减少碳排放的绿色建筑结构的控制系统及其方法
CN116393188B (zh) * 2023-06-08 2024-02-27 杭州华得森生物技术有限公司 适用于循环肿瘤细胞捕捉的微流控芯片及其方法
CN117539149A (zh) * 2023-11-08 2024-02-09 安徽凤阳硅皇石英有限公司 石英砂超声波清洗控制系统及其方法
CN117272244B (zh) * 2023-11-21 2024-03-15 中国石油大学(华东) 一种融合特征提取和自适应构图的软测量建模方法
CN117708706B (zh) * 2024-02-06 2024-05-28 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种端到端特征增强与选择的乳腺肿瘤分类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674866A (zh) * 2019-09-23 2020-01-10 兰州理工大学 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法
CN110751212A (zh) * 2019-10-21 2020-02-04 南京大学 一种移动设备上高效的细粒度图像识别方法
US20200160124A1 (en) * 2017-07-19 2020-05-21 Microsoft Technology Licensing, Llc Fine-grained image recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160124A1 (en) * 2017-07-19 2020-05-21 Microsoft Technology Licensing, Llc Fine-grained image recognition
CN110674866A (zh) * 2019-09-23 2020-01-10 兰州理工大学 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法
CN110751212A (zh) * 2019-10-21 2020-02-04 南京大学 一种移动设备上高效的细粒度图像识别方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JIE ZHOU 等: ""DISENTANGLING THE RESPONSE OF VAGETATION TO RAINFALL ANOMALIES FOR DROUGHT EVALUATION OVER THE INDUS BASIN"", 《IEEE》 *
JIE ZHOU 等: ""DISENTANGLING THE RESPONSE OF VAGETATION TO RAINFALL ANOMALIES FOR DROUGHT EVALUATION OVER THE INDUS BASIN"", 《IEEE》, 17 February 2021 (2021-02-17) *
万丽莉 等: ""一种基于视图分类的3维模型检索方法"", 《中国图象图形学报》 *
万丽莉 等: ""一种基于视图分类的3维模型检索方法"", 《中国图象图形学报》, 31 March 2007 (2007-03-31) *
杨跃东 等: ""基于动作图的视角无关动作识别"", 《JOURNAL OF SOFTWARE》 *
杨跃东 等: ""基于动作图的视角无关动作识别"", 《JOURNAL OF SOFTWARE》, 9 June 2009 (2009-06-09) *
赵沁平 等: ""虚拟现实技术研究进展"", 《科技导报》 *
赵沁平 等: ""虚拟现实技术研究进展"", 《科技导报》, 31 December 2016 (2016-12-31) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762251A (zh) * 2021-08-17 2021-12-07 慧影医疗科技(北京)有限公司 一种基于注意力机制的目标分类方法及系统
CN113762251B (zh) * 2021-08-17 2024-05-10 慧影医疗科技(北京)股份有限公司 一种基于注意力机制的目标分类方法及系统
CN113642515A (zh) * 2021-08-30 2021-11-12 北京航空航天大学 基于姿态关联的行人识别方法与装置、电子设备和介质
CN113642515B (zh) * 2021-08-30 2023-11-24 北京航空航天大学 基于姿态关联的行人识别方法与装置、电子设备和介质

Also Published As

Publication number Publication date
US20220382553A1 (en) 2022-12-01
CN113222041B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN113222041B (zh) 图结构表征的高阶关联发现细粒度图像识别方法及装置
Zhong et al. From shallow feature learning to deep learning: Benefits from the width and depth of deep architectures
CN105354307B (zh) 一种图像内容识别方法及装置
Yang et al. Exploit bounding box annotations for multi-label object recognition
Tang et al. Deepchart: Combining deep convolutional networks and deep belief networks in chart classification
US9811718B2 (en) Method and a system for face verification
CN111191526B (zh) 行人属性识别网络训练方法、系统、介质及终端
Zhou et al. Image classification using biomimetic pattern recognition with convolutional neural networks features
WO2015192263A1 (en) A method and a system for face verification
CN113822209B (zh) 高光谱图像识别方法、装置、电子设备及可读存储介质
CN114207628A (zh) 通过调整存储器内计算阵列的列阈值来执行xnor等效运算
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
Yu et al. Vision‐based traffic accident detection using sparse spatio‐temporal features and weighted extreme learning machine
Simon et al. Fine-grained classification of identity document types with only one example
CN115565071A (zh) 高光谱图像Transformer网络训练及分类方法
Li et al. A novel visual codebook model based on fuzzy geometry for large-scale image classification
Alhichri et al. Tile‐Based Semisupervised Classification of Large‐Scale VHR Remote Sensing Images
CN115661484A (zh) 一种轻量级的轮胎花纹分类方法及系统
CN115080749A (zh) 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN114494777A (zh) 一种基于3D CutMix-Transformer的高光谱图像分类方法及系统
Yu et al. A novel discriminative dictionary pair learning constrained by ordinal locality for mixed frequency data classification
Hu et al. Fully convolutional network variations and method on small dataset
Li et al. Deep neural network with attention model for scene text recognition
Zhang et al. Encoding local binary descriptors by bag-of-features with hamming distance for visual object categorization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant