CN110263868A - 基于SuperPoint特征的图像分类网络 - Google Patents
基于SuperPoint特征的图像分类网络 Download PDFInfo
- Publication number
- CN110263868A CN110263868A CN201910553727.5A CN201910553727A CN110263868A CN 110263868 A CN110263868 A CN 110263868A CN 201910553727 A CN201910553727 A CN 201910553727A CN 110263868 A CN110263868 A CN 110263868A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- classified
- obtains
- full articulamentum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种基于SuperPoint特征的图像分类网络。该所述基于SuperPoint特征的图像分类网络包括编码层、解码层和全连接层,所述编码层,用于对输入的待分类图像进行编码,输出目标特征图,并将所述目标特征图输入至所述解码层;所述解码层,用于对输入的所述目标特征图进行特征描述,得到所述待分类图像的特征描述子,并将所述特征描述子输入所述全连接层;所述全连接层,用于对输入的所述特征描述子进行分类,得到所述待分类图像的分类结果。本申请能够实现在减少训练参数的前提下实现复杂图像的分类的技术效果。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及基于SuperPoint特征的图像分类网络。
背景技术
目前传统图像分类算法所采用的特征大多数为人工设计,常用的图像特征有形状、纹理、颜色等底层视觉特征,还有尺度不变特征变换、局部二值模式、方向梯度直方图等局部不变特征等,这些特征虽然具有一定的普适性,但对具体的图像及图像所属的场景类型针对性不强,并且对于一些复杂场景的图像,要寻找能准确描述目标图像的人工特征绝非易事。例如,常见的传统分类器包括K最近邻(k-NearestNeighbor,KNN)、支持向量机(SVM,Support Vector Machine)等传统分类器,而对于一些类别之间差异细微、图像干扰严重等问题,其分类精度大打折扣,即传统分类器非常不适合复杂图像的分类。
然而采用复杂分类器如VGG(Visual Geometry Group,视觉几何组)、ResNet(Residual Neural Network,残差网络)等,虽然可以适合复杂图像的分类,但是需要较大的训练参数来进行训练,不便于训练调试。
发明内容
有鉴于此,本申请实施例提供的基于SuperPoint特征的图像分类网络,能够在减少训练参数的前提下实现复杂图像的分类。
第一方面,本申请实施例提供的一种基于SuperPoint特征的图像分类方法,用于通过基于SuperPoint特征的图像分类网络对图像进行分类,所述基于SuperPoint特征的图像分类网络包括编码层、解码层和全连接层,所述方法包括:将待分类图像依次输入所述编码层和所述解码层,得到所述待分类图像的特征描述子;将所述特征描述子输入所述全连接层对所述待分类图像进行分类,得到所述待分类图像的分类结果。
在上述实现过程中,本申请通过将待分类图像依次输入所述编码层和所述解码层,得到所述待分类图像的特征描述子,再利用全连接层根据特征描述子进行分类,以得到待分类图像的分类结果,进而可以通过简单的基于SuperPoint特征的图像分类网络来实现复杂图像的分类,并且由于基于SuperPoint特征的图像分类网络简单,故可以有效减少训练参数,因此,能够实现在减少训练参数的前提下实现复杂图像的分类的技术效果。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,所述将待分类图像依次输入所述编码层和所述解码层,得到所述待分类图像的特征描述子,包括:将待分类图像输入所述编码层进行编码,输出目标特征图;将所述目标特征图输入所述解码层对所述目标特征图进行特征描述,得到所述待分类图像的特征描述子。
在上述实现过程中,通过利用基于SuperPoint特征的图像分类网络中的编码层提取特征图可以使得得到的特征图的鲁棒性更好,进而使得通过解码层得到特征描述子能够更加精确,进而提高图像分类精度。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,所述将待分类图像输入所述编码层进行编码,输出目标特征图,包括:将待分类图像输入所述编码层进行第一预设处理,得到第一特征图;对所述第一特征图进行所述第一预设处理,得到第二特征图;对所述第二特征图进行所述第一预设处理,输出目标特征图。
在上述实现过程中,通过利用基于SuperPoint特征的图像分类网络中的编码层进行特征图提取可以使得所提取到的特征图的鲁棒性更好。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,所述第一预设处理包括第一卷积处理、激活处理和最大池化处理,所述将待分类图像输入所述编码层进行第一预设处理,得到第一特征图,包括:将待分类图像输入所述编码层进行所述第一卷积处理,得到卷积后的第一子特征图;通过预设激活函数对所述第一子特征图进行所述激活处理,得到第二子特征图;对所述第二子特征图进行所述最大池化处理,得到所述第一特征图。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,所述将所述目标特征图输入所述解码层对所述目标特征图进行特征描述,得到所述待分类图像的特征描述子,包括:将所述目标特征图输入所述解码层,对所述目标特征图进行第二卷积处理,得到卷积后的第三特征图;通过预设激活函数对所述卷积后的第三特征图进行运算,得到第四特征图;对所述第四特征图进行第三卷积处理,得到所述待分类图像的特征描述子。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,所述全连接层包括第一子全连接层和第二子全连接层,所述将所述特征描述子输入所述全连接层对所述待分类图像进行分类,得到所述待分类图像的分类结果,包括:将所述特征描述子输入所述第一子全连接层,输出N维的第四特征图,所述N为大于1的整数;将所述N维的所述第四特征图输入所述第二子全连接层,得到所述待分类图像所属的每个预设类别的概率;确定所述每个预设类别的概率中的最大值;将所述最大值对应的所述预设类别作为分类结果。
第二方面,本申请实施例提供的一种基于SuperPoint特征的图像分类装置,用于通过基于SuperPoint特征的图像分类网络对图像进行分类,所述基于SuperPoint特征的图像分类网络包括编码层、解码层和全连接层,所述装置包括:处理模块,用于将待分类图像依次输入所述编码层和所述解码层,得到所述待分类图像的特征描述子;分类模块,用于将所述特征描述子输入所述全连接层对所述待分类图像进行分类,得到所述待分类图像的分类结果。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,所述处理模块,还用于:将待分类图像输入所述编码层进行编码,输出目标特征图;将所述目标特征图输入所述解码层对所述目标特征图进行特征描述,得到所述待分类图像的特征描述子。
结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第二种可能的实施方式,所述将待分类图像输入所述编码层进行编码,输出目标特征图,包括:将待分类图像输入所述编码层进行第一预设处理,得到第一特征图;对所述第一特征图进行所述第一预设处理,得到第二特征图;对所述第二特征图进行所述第一预设处理,输出目标特征图。
结合第二方面的第二种可能的实施方式,本申请实施例提供了第二方面的第三种可能的实施方式,所述第一预设处理包括第一卷积处理、激活处理和最大池化处理,所述将待分类图像输入所述编码层进行第一预设处理,得到第一特征图,包括:将待分类图像输入所述编码层进行所述第一卷积处理,得到卷积后的第一子特征图;通过预设激活函数对所述第一子特征图进行所述激活处理,得到第二子特征图;对所述第二子特征图进行所述最大池化处理,得到所述第一特征图。
结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第四种可能的实施方式,所述将所述目标特征图输入所述解码层对所述目标特征图进行特征描述,得到所述待分类图像的特征描述子,包括:将所述目标特征图输入所述解码层,对所述目标特征图进行第二卷积处理,得到卷积后的第三特征图;通过预设激活函数对所述卷积后的第三特征图进行运算,得到第四特征图;对所述第四特征图进行第三卷积处理,得到所述待分类图像的特征描述子。
结合第二方面,本申请实施例提供了第二方面的第五种可能的实施方式,所述全连接层包括第一子全连接层和第二子全连接层,所述分类模块,还用于:将所述特征描述子输入所述第一子全连接层,输出N维的第四特征图,所述N为大于1的整数;将所述N维的所述第四特征图输入所述第二子全连接层,得到所述待分类图像所属的每个预设类别的概率;确定所述每个预设类别的概率中的最大值;将所述最大值对应的所述预设类别作为分类结果。
第三方面,本申请实施例提供的一种基于SuperPoint特征的图像分类网络,包括:编码层、解码层和全连接层;所述编码层,用于对输入的待分类图像进行编码,输出目标特征图,并将所述目标特征图输入至所述解码层;所述解码层,用于对输入的所述目标特征图进行特征描述,得到所述待分类图像的特征描述子,并将所述特征描述子输入所述全连接层;所述全连接层,用于对输入的所述特征描述子进行分类,得到所述待分类图像的分类结果。
第四方面,本申请实施例提供的一种电子设备器,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述基于SuperPoint特征的图像分类方法的步骤。
第五方面,本申请实施例提供的一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的基于SuperPoint特征的图像分类方法。
第六方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的基于SuperPoint特征的图像分类方法。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的基于SuperPoint特征的图像分类方法的流程图;
图2为本申请实施例提供的基于SuperPoint特征的图像分类装置的结构示意图;
图3为本申请实施例提供的基于SuperPoint特征的图像分类网络的结构示意图;
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
现有技术中存在的上述缺陷,本申请人认为均是申请人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是申请人在本申请过程中对本申请做出的贡献。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,是本申请实施例提供的基于SuperPoint特征的图像分类方法的流程图,所述方法用于通过如图3所示的基于SuperPoint特征的图像分类网络对图像进行分类,所述基于SuperPoint特征的图像分类网络包括编码层、解码层和全连接层。应理解,图1所示的方法可以通过基于SuperPoint特征的图像分类装置执行,该装置可以与下文中的图4所示的电子设备对应,该电子设备可以是能够执行该方法的各种设备,例如,如个人计算机、服务器或手机等,本申请实施例并不限于此,具体包括如下步骤:
步骤S101,将待分类图像依次输入所述编码层和所述解码层,得到所述待分类图像的特征描述子。
应理解,本申请实施例中,特征描述子为一个三维数字矩阵形式,用于描述待分类图像的图像特征。
可选地,特征描述子也可以称为特征、特征信息等,本申请实施例并不限于此。
可选地,待分类图像可以是用户以图片格式所上传的图像,如bmp、jpg或png等格式。还可以是通过图像采集设备(如摄像头)捕获的拍摄画面。
当然,在实际使用中,待分类图像还可以是用户通过网络所下载的图片格式的图像。
可选地,待分类图像为单通道灰度图。
作为一种实施方式,步骤S101包括:将待分类图像输入所述编码层进行编码,输出目标特征图;将所述目标特征图输入所述解码层对所述目标特征图进行特征描述,得到所述待分类图像的特征描述子。
在上述实现过程中,利用SuperPoint网络中的编码层提取特征图可以使得得到的特征图的鲁棒性更好,进而使得通过解码层得到特征描述子能够更加精确,进而提高图像分类精度。
可选地,将待分类图像输入所述编码层进行编码,输出目标特征图,包括:将待分类图像输入所述编码层进行第一预设处理,得到第一特征图;对所述第一特征图进行所述第一预设处理,得到第二特征图;对所述第二特征图进行所述第一预设处理,输出目标特征图。
可选地,所述第一预设处理包括第一卷积处理、激活处理和最大池化处理,所述将待分类图像输入所述编码层进行第一预设处理,得到第一特征图,包括:将待分类图像输入所述编码层进行所述第一卷积处理,得到卷积后的第一子特征图;通过预设激活函数对所述第一子特征图进行所述激活处理,得到第二子特征图;对所述第二子特征图进行所述最大池化处理,得到所述第一特征图。
可选地,第一卷积处理的具体卷积过程可以根据用户需求设置对应的卷积核来进行卷积,在此,不作具体限定。
可选地,预设激活函数的选取可以根据用户需求或基于SuperPoint特征的图像分类网络的效果进行设置。
可选地,预设激活函数可以是ReLU(Rectified Linear Units,线性整流函数)激活函数。
当然,在实际使用中,预设激活函数还可以是Sigmoid函数或tanh函数。在此,不作具体限定。
可选地,所述第一特征图的像素大于所述第二特征图的像素。
可选地,所述第二特征图的像素大于目标特征图的像素。
可选地,目标特征图的大小为112×112。
可选地,最大池化处理时设置的池化层的步长可以设置为2×2。
在上述实现过程中,利用SuperPoint网络中的编码层进行特征图提取可以使得所提取到的目标特征图的鲁棒性更好。
可选地,所述将所述目标特征图输入所述解码层对所述目标特征图进行特征描述,得到所述待分类图像的特征描述子,包括:将所述目标特征图输入所述解码层,对所述目标特征图进行第二卷积处理,得到卷积后的第三特征图;通过预设激活函数对所述卷积后的第三特征图进行运算,得到第四特征图;对所述第四特征图进行第三卷积处理,得到所述待分类图像的特征描述子。
可选地,在进行第二卷积处理时所设置的卷积核的大小一律设为3×3,步长为1。
可选地,预设激活函数的选取可以根据用户需求或基于SuperPoint特征的图像分类网络的效果进行设置。
可选地,预设激活函数可以是ReLU激活函数。
当然,在实际使用中,预设激活函数还可以是Sigmoid函数。在此,不作具体限定。
可选地,当目标特征图的大小为112×112时,特征描述子为256×14×14维的数字矩阵。
步骤S102,将所述特征描述子输入所述全连接层对所述待分类图像进行分类,得到所述待分类图像的分类结果。
可选地,所述全连接层包括第一子全连接层和第二子全连接层。
可选地,所述第一子全连接层为M×N的全连接层,其中,N为大于1的整数。
可选地,M的取值与所述特征描述子的维数相关。例如,所述M等于所述特征描述子的维数。例如,特征描述子为256×14×14维的向量时,M为256×14×14=50176。
可选地,所述N的取值可以根据用户需求进行设置,在此,不作具体限定。
可选地,N可以是1024。
当然,在实际使用中,N还可以是2048或512。在此,不作具体限定。
可选地,第二子全连接层为N×Y的全连接层。
可选地,Y表示预设设定的类别数,即图像可以分成多少类的类别数。例如,Y可以是50,也可以是20。
一般的,Y的取值和实际应用场景相关。
当然,在实际使用中,Y的取值也可以是根据用户需求进行设置,在此,不作具体限定。
作为一种实施方式,步骤S102,包括:将所述特征描述子输入所述第一子全连接层,输出N维的第四特征图,所述N为大于1的整数;将所述N维的所述第四特征图输入所述第二子全连接层,得到所述待分类图像所属的每个预设类别的概率;确定所述每个预设类别的概率中的最大值;将所述最大值对应的所述预设类别作为分类结果。
举例来说,假设特征描述子为256×14×14维的向量,则第一子全连接层为50176到1024,第二子全连接层为1024到类别数。则将特征描述子输入50176->1024的第一子全连接层,采用ReLU激活函数,并加入Dropout防止过拟合,再输入1024->类别数的第二子全连接层,得到将待分类图像属于各类别的概率,再通过argmax函数得到概率最大的类别,将该类别作为图像分类结果。
在上述实现过程中,由于输入的是鲁棒性较好的特征描述子,从而可以通过简单的全连接层对复杂的图像进行分类。
在本实施例中对基于SuperPoint特征的图像分类网络的采用自监督方法进行训练,训练过程如下:
(1)自制简单的几何图像数据集,并用传统的特征算法如SIFT(Scale-invariantfeature transform,尺度不变特征变换)等进行关键点提取,作为图像的关键点标签(label),用这个数据集预训练一个简单的全卷积网络MagicPoint。其中,MagicPoint网络是一个可以提取简单图像特征点的网络。相当于SuperPoint网络的编码层(Encoder)与关键点解码层(Interest Point Decoder)的预训练模型。
(2)用MagicPoint标注一些复杂的现实图像,构建一个贴近实际的训练集,训练集包括图像及其关键点标注。
(3)对于训练集进行一些图像处理,如像素横移、仿射变换等,然后用数据增益后的训练集训练基于SuperPoint特征的图像分类网络。先训练网络提取特征关键点的能力,再根据对应关键点训练网络计算特征描述子的能力。
(4)最后训练全连接层。
可选地,为了减少训练成本,对于基于SuperPoint特征的图像分类网络中的编码层和解码层部分直接采用预训练好的网络参数(Github:MagicLeapResearch/SuperPointPretrainedNetwork)进行训练。
可选地,编码层由一系列卷积层、最大池化层、ReLU激活函数和BatchNorm正则化处理构成。编码层中的卷积层采用VGG网络参数形式,卷积核大小一律设为3×3,步长为1。由于三个pooling层的步长一律设置为2×2,原来大小为H×W的输入图像信息被变换到HC×WC的紧密特征图上,其中HC=H/8,WC=W/8。在这个特征图上,网络被训练去提取关键点。HC×WC的特征图数据在前向通道上分别通过一组“卷积-RELU-卷积”处理,得到解码层的输入。解码层分为两个部分,分别对应生成关键点和相应关键点特征的特征描述子。为了加快全卷积网络的训练和运算速度,解码层中将HC×WC的特征图放大到原图像分辨率的上采样过程采用非训练方法,如numpy.transpose()及torch.nn.functional.grid_sample()函数。
通过网络的前向通道,得到的数据为一个H×W的特征置信度矩阵heatmap和一个特征图相应尺寸的256维的描述子数组。通过对置信度矩阵进行筛选,认为置信度大于预设阈值的像素点为图像的图像关键点,并且找到描述子数组中对应空间位置的256维向量,即提取出图像的特征关键点及其对应的256维的特征描述子。
为了更直观的体现本申请实施例中的基于SuperPoint特征的图像分类方法的有益效果,特将本申请实施例中的基于SuperPoint特征的图像分类方法所得到特征匹配实验结果与现有方法进行对比,如表一所示。其中,为了直观的观察到各算法匹配准确率,实验结果在表一中以百分比形式给出,表示匹配正确的特征点占选用特征点的比例:
其中,ORB(Oriented FAST and Rotated BRIEF)是指在图像金字塔上利用加速分割检测特征(Features from Accelerated Segment Test,FAST)算子提取图像特征点,使得提取的特征点具有一定的尺度不变性;另外将特征点所在图像块的重力方向作为主方向,并在此基础上建立BRIEF描述符,使得描述符具有旋转不变性的一种算法。
可选的,SPN即SuperPointNet,指的是SuperPoint网络。
由上述可知,在第一组CityCentre数据集上进行的实验中,由于CityCentre数据集采用双目摄像机拍摄,并且闭环轨迹有一定偏差,所以视角变化非常剧烈,即使是构成真实闭环的图像,差异也比较大,在这样的数据集上,ORB特征和SIFT特征的表现很容易都容易受到影响,而SPN特征则表现稍好。
可选地,在第二组NewCollege数据集上进行的实验中,NewCollege途径的轨迹有很多行人、自行车等动态物体的干扰,对图像分类会造成影响,如结果所示,ORB和SIFT容易受到影响,并且大量树丛会造成感知混淆干扰,对ORB和SIFT算法造成了较大影响,相比之下,SPN特征稳定性更好。
可选地,在第三组Nordland数据集上的实验中,由于Nordland数据集是在不同季节采集的,季节变化引起了场景外观的剧烈变动,从实验结果来看,SPN特征比ORB和SIFT特征的匹配准确率更高,更能适应季节变化引起的场景外观变化。
可选地,在第四组KITTI 06数据集上的实验中,各特征算法均表现良好,这主要因为KITTI数据集各种干扰较少,拍摄环境较好,只有少许视角变化,ORB、SIFT、SPN特征均可以达到非常好的匹配准确率。
因此,SPN拥有远超ORB特征和SIFT特征的干扰不变性,实时性也良好。
需要说明的是,上述的CityCentre数据集、NewCollege数据集、Nordland数据集和KITTI 06数据集均为现有公开的数据集,本申请仅仅是用已经公开的数据集来做实验进行验证。
本申请实施例所提供的基于SuperPoint特征的图像分类方法,通过将待分类图像依次输入所述编码层和所述解码层,得到所述待分类图像的特征描述子;将所述特征描述子输入所述全连接层对所述待分类图像进行分类,得到所述待分类图像的分类结果。因此,本申请通过简单的网络结构就能够在减少训练参数的前提下实现复杂图像的分类。
请参阅图2,图2示出了采用图1所示的基于SuperPoint特征的图像分类方法一一对应的基于SuperPoint特征的图像分类装置,基于SuperPoint特征的图像分类装置300用于通过基于SuperPoint特征的图像分类网络对图像进行分类,所述基于SuperPoint特征的图像分类网络包括编码层、解码层和全连接层。应理解,该装置300与上述图1方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置300具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。装置300包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置300的操作系统(operating system,OS)中的软件功能模块。具体地,该装置300包括:
处理模块310,用于将待分类图像依次输入所述编码层和所述解码层,得到所述待分类图像的特征描述子;
分类模块320,用于将所述特征描述子输入所述全连接层对所述待分类图像进行分类,得到所述待分类图像的分类结果。
可选地,所述处理模块310,还用于:将待分类图像输入所述编码层进行编码,输出目标特征图;将所述目标特征图输入所述解码层对所述目标特征图进行卷积处理,得到所述待分类图像的特征描述子。
可选地,所述将待分类图像输入所述编码层进行编码,输出目标特征图,包括:将待分类图像输入所述编码层进行第一预设处理,得到第一特征图;对所述第一特征图进行所述第一预设处理,得到第二特征图;对所述第二特征图进行所述第一预设处理,输出目标特征图。
可选地,所述第一预设处理包括第一卷积处理、激活处理和最大池化处理,所述将待分类图像输入所述编码层进行第一预设处理,得到第一特征图,包括:将待分类图像输入所述编码层进行所述第一卷积处理,得到卷积后的第一子特征图;通过预设激活函数对所述第一子特征图进行所述激活处理,得到第二子特征图;对所述第二子特征图进行所述最大池化处理,得到所述第一特征图。
可选地,所述将所述目标特征图输入所述解码层对所述目标特征图进行特征描述,得到所述待分类图像的特征描述子,包括:将所述目标特征图输入所述解码层,对所述目标特征图进行第二卷积处理,得到卷积后的第三特征图;通过预设激活函数对所述卷积后的第三特征图进行运算,得到第四特征图;对所述第四特征图进行第三卷积处理,得到所述待分类图像的特征描述子。
可选地,所述全连接层包括第一子全连接层和第二子全连接层,所述分类模块320,还用于:将所述特征描述子输入所述第一子全连接层,输出N维的第四特征图,所述N为大于1的整数;将所述N维的所述第四特征图输入所述第二子全连接层,得到所述待分类图像所属的每个预设类别的概率;确定所述每个预设类别的概率中的最大值;将所述最大值对应的所述预设类别作为分类结果。
本申请还提供一种SuperPoint特征的图像分类网络,图3为本申请实施例中的SuperPoint特征的图像分类网络500的结构框图,基于SuperPoint特征的图像分类网络500用于对图像进行分类。应理解,该基于SuperPoint特征的图像分类网络500与上述图1方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该基于SuperPoint特征的图像分类网络500具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。具体地,基于SuperPoint特征的图像分类网络500包括:编码层510、解码层520和全连接层530;
所述编码层510,用于对输入的待分类图像进行编码,输出目标特征图,并将所述目标特征图输入至所述解码层520;
所述解码层520,用于对输入的所述目标特征图进行特征描述,得到所述待分类图像的特征描述子,并将所述特征描述子输入所述全连接层530;
所述全连接层530,用于对输入的所述特征描述子进行分类,得到所述待分类图像的分类结果。
举例来说,通过将单通道的待分类图像输入编码层510,进入编码层520后,将待分类图像输入所述编码层进行第一预设处理,得到第一特征图;对所述第一特征图进行所述第一预设处理,得到第二特征图;对所述第二特征图进行所述第一预设处理,输出目标特征图至描述子计算解码层(即上文中的解码层520),再进入描述子计算解码层后,描述子计算解码层先对特征图进行第二卷积处理,得到卷积后的第三特征图;再通过预设激活函数对所述卷积后的第三特征图进行运算,得到第四特征图;对所述第四特征图进行第三卷积处理,得到所述待分类图像的特征描述子。将特征描述子输入全连接层530,具体地,将特征描述子输入50176->1024的第一子全连接层,采用ReLU激活函数,并加入Dropout防止过拟合,再输入1024->类别数的第二子全连接层,得到将待分类图像属于各类别的概率,再通过argmax函数得到概率最大的类别,将该类别作为图像分类结果。
本申请还提供一种电子设备,图4为本申请实施例中的电子设备600的结构框图,如图4所示。电子设备600可以包括处理器610、通信接口620、存储器630和至少一个通信总线640。其中,通信总线640用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口620用于与其他节点设备进行信令或数据的通信。处理器610可以是一种集成电路芯片,具有信号的处理能力。
上述的处理器610可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器610也可以是任何常规的处理器等。
存储器630可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器630中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器610执行时,电子设备600可以执行上述图1方法实施例涉及的各个步骤。
电子设备600还可以包括存储控制器。
所述存储器630、存储控制器、处理器610各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线640实现电性连接。所述处理器610用于执行存储器630中存储的可执行模块,例如装置300包括的软件功能模块或计算机程序。并且,装置300用于执行下述方法:将待分类图像依次输入所述编码层和所述解码层,得到所述待分类图像的特征描述子;将所述特征描述子输入所述全连接层对所述待分类图像进行分类,得到所述待分类图像的分类结果。
可选地,电子设备600可以是能够执行本申请方法实施例的各种设备,例如,如个人计算机、服务器或手机等。
可以理解,图4所示的结构仅为示意,所述电子设备600还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,所述计算机程序被处理器执行时实现方法实施例所述的方法,为避免重复,此处不再赘述。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现,基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
Claims (10)
1.一种基于SuperPoint特征的图像分类方法,其特征在于,用于通过基于SuperPoint特征的图像分类网络对图像进行分类,所述基于SuperPoint特征的图像分类网络包括编码层、解码层和全连接层,所述方法包括:
将待分类图像依次输入所述编码层和所述解码层,得到所述待分类图像的特征描述子;
将所述特征描述子输入所述全连接层对所述待分类图像进行分类,得到所述待分类图像的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述将待分类图像依次输入所述编码层和所述解码层,得到所述待分类图像的特征描述子,包括:
将待分类图像输入所述编码层进行编码,输出目标特征图;
将所述目标特征图输入所述解码层对所述目标特征图进行特征描述,得到所述待分类图像的特征描述子。
3.根据权利要求2所述的方法,其特征在于,所述将待分类图像输入所述编码层进行编码,输出目标特征图,包括:
将待分类图像输入所述编码层进行第一预设处理,得到第一特征图;
对所述第一特征图进行所述第一预设处理,得到第二特征图;
对所述第二特征图进行所述第一预设处理,输出目标特征图。
4.根据权利要求3所述的方法,其特征在于,所述第一预设处理包括第一卷积处理、激活处理和最大池化处理,所述将待分类图像输入所述编码层进行第一预设处理,得到第一特征图,包括:
将待分类图像输入所述编码层进行所述第一卷积处理,得到卷积后的第一子特征图;
通过预设激活函数对所述第一子特征图进行所述激活处理,得到第二子特征图;
对所述第二子特征图进行所述最大池化处理,得到所述第一特征图。
5.根据权利要求2所述的方法,其特征在于,所述将所述目标特征图输入所述解码层对所述目标特征图进行特征描述,得到所述待分类图像的特征描述子,包括:
将所述目标特征图输入所述解码层,对所述目标特征图进行第二卷积处理,得到卷积后的第三特征图;
通过预设激活函数对所述卷积后的第三特征图进行运算,得到第四特征图;
对所述第四特征图进行第三卷积处理,得到所述待分类图像的特征描述子。
6.根据权利要求1所述的方法,其特征在于,所述全连接层包括第一子全连接层和第二子全连接层,所述将所述特征描述子输入所述全连接层对所述待分类图像进行分类,得到所述待分类图像的分类结果,包括:
将所述特征描述子输入所述第一子全连接层,输出N维的第四特征图,所述N为大于1的整数;
将所述N维的所述第四特征图输入所述第二子全连接层,得到所述待分类图像所属的每个预设类别的概率;
确定所述每个预设类别的概率中的最大值;
将所述最大值对应的所述预设类别作为分类结果。
7.一种基于SuperPoint特征的图像分类装置,其特征在于,用于通过基于SuperPoint特征的图像分类网络对图像进行分类,所述基于SuperPoint特征的图像分类网络包括编码层、解码层和全连接层,所述装置包括:
处理模块,用于将待分类图像依次输入所述编码层和所述解码层,得到所述待分类图像的特征描述子;
分类模块,用于将所述特征描述子输入所述全连接层对所述待分类图像进行分类,得到所述待分类图像的分类结果。
8.根据权利要求7所述的装置,其特征在于,所述处理模块,还用于:
将待分类图像输入所述编码层进行编码,输出目标特征图;
将所述目标特征图输入所述解码层对所述目标特征图进行特征描述,得到所述待分类图像的特征描述子。
9.根据权利要求7所述的装置,其特征在于,所述全连接层包括第一子全连接层和第二子全连接层,所述分类模块,还用于:
将所述特征描述子输入所述第一子全连接层,输出N维的第四特征图,所述N为大于1的整数;
将所述N维的所述第四特征图输入所述第二子全连接层,得到所述待分类图像所属的每个预设类别的概率;
确定所述每个预设类别的概率中的最大值;
将所述最大值对应的所述预设类别作为分类结果。
10.一种基于SuperPoint特征的图像分类网络,其特征在于,包括:编码层、解码层和全连接层;
所述编码层,用于对输入的待分类图像进行编码,输出目标特征图,并将所述目标特征图输入至所述解码层;
所述解码层,用于对输入的所述目标特征图进行特征描述,得到所述待分类图像的特征描述子,并将所述特征描述子输入所述全连接层;
所述全连接层,用于对输入的所述特征描述子进行分类,得到所述待分类图像的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910553727.5A CN110263868A (zh) | 2019-06-24 | 2019-06-24 | 基于SuperPoint特征的图像分类网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910553727.5A CN110263868A (zh) | 2019-06-24 | 2019-06-24 | 基于SuperPoint特征的图像分类网络 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110263868A true CN110263868A (zh) | 2019-09-20 |
Family
ID=67921262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910553727.5A Pending CN110263868A (zh) | 2019-06-24 | 2019-06-24 | 基于SuperPoint特征的图像分类网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110263868A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310806A (zh) * | 2020-01-22 | 2020-06-19 | 北京迈格威科技有限公司 | 分类网络及图像处理方法、装置、系统和存储介质 |
CN111583340A (zh) * | 2020-04-28 | 2020-08-25 | 西安交通大学 | 基于卷积神经网络降低单目相机位姿估计误差率的方法 |
CN113515655A (zh) * | 2021-06-24 | 2021-10-19 | 国网山东省电力公司邹城市供电公司 | 一种基于图像分类的故障识别方法及装置 |
CN113628261A (zh) * | 2021-08-04 | 2021-11-09 | 国网福建省电力有限公司泉州供电公司 | 一种电力巡检场景下的红外与可见光图像配准方法 |
WO2022141258A1 (zh) * | 2020-12-30 | 2022-07-07 | 深圳市优必选科技股份有限公司 | 一种图像分类方法、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372577A (zh) * | 2016-08-23 | 2017-02-01 | 北京航空航天大学 | 一种基于深度学习的交通标志自动识别与标注方法 |
CN108122035A (zh) * | 2016-11-29 | 2018-06-05 | 科大讯飞股份有限公司 | 端到端建模方法及系统 |
CN108154183A (zh) * | 2017-12-25 | 2018-06-12 | 深圳市唯特视科技有限公司 | 一种基于局部和深度特征集合的目标分类方法 |
CN109961005A (zh) * | 2019-01-28 | 2019-07-02 | 山东大学 | 一种基于二维卷积网络的动态手势识别方法及系统 |
-
2019
- 2019-06-24 CN CN201910553727.5A patent/CN110263868A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372577A (zh) * | 2016-08-23 | 2017-02-01 | 北京航空航天大学 | 一种基于深度学习的交通标志自动识别与标注方法 |
CN108122035A (zh) * | 2016-11-29 | 2018-06-05 | 科大讯飞股份有限公司 | 端到端建模方法及系统 |
CN108154183A (zh) * | 2017-12-25 | 2018-06-12 | 深圳市唯特视科技有限公司 | 一种基于局部和深度特征集合的目标分类方法 |
CN109961005A (zh) * | 2019-01-28 | 2019-07-02 | 山东大学 | 一种基于二维卷积网络的动态手势识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
DANIEL DETONE: ""SuperPoint: Self-Supervised Interest Point Detection and Description"", 《ARXIV》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310806A (zh) * | 2020-01-22 | 2020-06-19 | 北京迈格威科技有限公司 | 分类网络及图像处理方法、装置、系统和存储介质 |
CN111310806B (zh) * | 2020-01-22 | 2024-03-15 | 北京迈格威科技有限公司 | 分类网络及图像处理方法、装置、系统和存储介质 |
CN111583340A (zh) * | 2020-04-28 | 2020-08-25 | 西安交通大学 | 基于卷积神经网络降低单目相机位姿估计误差率的方法 |
WO2022141258A1 (zh) * | 2020-12-30 | 2022-07-07 | 深圳市优必选科技股份有限公司 | 一种图像分类方法、计算机设备和存储介质 |
CN113515655A (zh) * | 2021-06-24 | 2021-10-19 | 国网山东省电力公司邹城市供电公司 | 一种基于图像分类的故障识别方法及装置 |
CN113628261A (zh) * | 2021-08-04 | 2021-11-09 | 国网福建省电力有限公司泉州供电公司 | 一种电力巡检场景下的红外与可见光图像配准方法 |
CN113628261B (zh) * | 2021-08-04 | 2023-09-22 | 国网福建省电力有限公司泉州供电公司 | 一种电力巡检场景下的红外与可见光图像配准方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A graph-cnn for 3d point cloud classification | |
Xue et al. | Deep texture manifold for ground terrain recognition | |
Paisitkriangkrai et al. | Pedestrian detection with spatially pooled features and structured ensemble learning | |
CN110263868A (zh) | 基于SuperPoint特征的图像分类网络 | |
Huang et al. | Learning to align from scratch | |
Liu et al. | Learning spatio-temporal representations for action recognition: A genetic programming approach | |
Shen et al. | Deepcontour: A deep convolutional feature learned by positive-sharing loss for contour detection | |
JP4161659B2 (ja) | 画像認識システム及びその認識方法並びにプログラム | |
Xu et al. | Effective face detector based on yolov5 and superresolution reconstruction | |
CN109033954B (zh) | 一种基于机器视觉的空中手写识别系统及方法 | |
Feichtenhofer et al. | Bags of spacetime energies for dynamic scene recognition | |
CN107506740A (zh) | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 | |
CN104202547B (zh) | 投影画面中提取目标物体的方法、投影互动方法及其系统 | |
CN103578093B (zh) | 图像配准方法、装置及增强现实系统 | |
CN109948497A (zh) | 一种物体检测方法、装置及电子设备 | |
JP5574033B2 (ja) | 画像認識システム及びその認識方法並びにプログラム | |
CN108280421B (zh) | 基于多特征深度运动图的人体行为识别方法 | |
Chevalier et al. | LR-CNN for fine-grained classification with varying resolution | |
Feichtenhofer et al. | Dynamically encoded actions based on spacetime saliency | |
CN109902576B (zh) | 一种头肩图像分类器的训练方法及应用 | |
Rachmatullah et al. | Low resolution image fish classification using convolutional neural network | |
Wei et al. | Visual descriptors for scene categorization: experimental evaluation | |
CN108564111A (zh) | 一种基于邻域粗糙集特征选择的图像分类方法 | |
Yang et al. | Multi-scale bidirectional fcn for object skeleton extraction | |
CN109522970A (zh) | 图像分类方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |