CN114187506A - 视点意识的动态路由胶囊网络的遥感图像场景分类方法 - Google Patents
视点意识的动态路由胶囊网络的遥感图像场景分类方法 Download PDFInfo
- Publication number
- CN114187506A CN114187506A CN202111385853.8A CN202111385853A CN114187506A CN 114187506 A CN114187506 A CN 114187506A CN 202111385853 A CN202111385853 A CN 202111385853A CN 114187506 A CN114187506 A CN 114187506A
- Authority
- CN
- China
- Prior art keywords
- capsule
- layer
- network
- image
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种视点意识的动态路由胶囊网络的遥感图像场景分类方法,首先将场景数据集按比例随机划分成训练集和测试集;接着对数据集中的图像进行预处理;然后将训练集图像输入到空间变换网络,学习训练集前景对象视点意识的变换,获得具有对象‑观察者视点信息的姿态矩阵,输入到卷积胶囊层和子概念学习的动态路由进行训练,提取视点不变的胶囊特征表示,得到类别胶囊层的输出,取最高预测概率的类别胶囊作为场景的预测类别。最后将测试图像输入到胶囊网络模型,获得分类结果。本发明可以在不增加网络规模条件下提高分类准确度和分类效率。
Description
技术领域
本发明涉及遥感图像场景分类技术领域,尤其涉及一种视点意识的动态路由胶囊网络的遥感图像场景分类方法。
背景技术
遥感图像场景分类任务指对遥感图像所表达的场景进行理解,并将其标注为特定的语义类别。它在自然灾害监测、城市规划、土地资源管理等领域有着重要的意义。与普通图像相比,遥感图像中不同场景类别相似性大,甚至相同场景类别也存在着一定的视觉差异性;航拍图像场景会被其他与图像场景标签无关的对象所包围,在具有不同的光照、视点和分辨率的条件下,很难分辨出关键目标;且并非所有拍摄角度均为垂直,而是趋于多样化,导致遥感图像场景分类依然面临挑战。
传统上的方法主要集中在手工特征提取和编码上。这些方法包括尺度不变特征变换,方向尺度直方图、基于视觉特征的视觉词袋模型和其他空间特征提取。手工特征根据其特征的语义层级,可以划分为低级手工特征和中级手工特征。这些方法都具有人为设计的特点,不能自动学习,在图像特征的选择上具有一定的主观性,无法提取到图像的语义特征。
最近,自深度特征学习取得了突破性进展后,机器学习与深度学习便从此登上历史舞台,支持向量机、决策树等机器学习方法,CNN、AlexNet、VGGNet等深度学习方法都被广泛应用在遥感图像场景的监督分类研究中,比手工特征具有更好的判别能力。深度神经网络具有多层次的结构,从模型原始输入中提取更加鲁棒的特征,多层次的结构使得特征学习循序渐进,逐步由简单的特征过渡到复杂而抽象的特征。目前深度学习的遥感图像场景分类方法主要有:面向网络不同学习策略的方法和判别增强的特征学习方法。Donahue J,Jia Y,Vinyals O等人发表的《DeCAF:一种用于通用视觉识别的深度卷积激活特征》机器学习国际会议,JMLR.org,2013使用AlexNet为基础网络,采用预训练技术和分段训练的方法来解决场景分类问题;但作为最早的应用在场景分类的深度学习方法之一,在不同领域上使用了通用的策略,不能够针对性的给出对遥感图像场景的特征分类结果,仍显得不成熟。Cheng等构建了遥感分类中最大的数据集——NWPU-RESISC45后,Gong C,Han J,Lu X发表的《遥感图像场景分类:基准与现状》,IEEE会议录,vol.61,pp.1865–1883,2017使用AlexNet、VGG16和GoogLeNet几个模型测试,表示其准确度高于传统手工特征方法。但是,由于卷积神经网络中的池化层只关注特征是否被检测出来,而丢失了特征的精确空间位置,正是这种平移不变性使得卷积神经网络无法辨别物体或特征之间的相对位置关系。因此,卷积神经网络在对与训练数据集接近的图像进行分类时表现的非常出色,如果图像有旋转,倾斜或者由其它不同视点获得,那么卷积神经网络分类表现将会十分糟糕。
针对卷积神经网络的不足,Hinton受到神经解剖学的启发发表了《胶囊中的动态路由》(“神经信息处理系统”国际会议,pp.3856–3866,2017)在2017年提出了胶囊网络,使用向量神经元代替标量神经元,以及动态路由算法投票汇聚成高层胶囊,避免CNN中全连接层的低效,在手写数字识别数据集上达到了好的分类精度,同时表现出比CNN更好的泛化能力和小样本学习能力。Venkatraman S发表的《建立深度、等变的胶囊网络》(“学习表示”国际会议,pp.1-13,2019)提出了基于群等变卷积的预测机制和基于度中心性的路由算法和一个可扩展到深度架构的胶囊网络通用模型,该模型学习投影编码的姿态变化流形,称为变分空间,解决了胶囊网络不能保证等变性的问题。Chaib S发表的《基于胶囊网络的超高分辨率图像场景分类》(IEEE国际地球科学和遥感研讨会,pp.3049-3052,2019)将胶囊网络引入到高分辨率图像场景分类任务中,并证明了在遥感数据集较小时,胶囊网络的可行性。Jindong Gu发表的《胶囊网络并不比卷积网络更健壮》(IEEE/CVF计算机视觉和模式识别会议记录,pp.14309-14317,2021)对比了胶囊网络和CNN之间的识别重叠数字的能力、对仿射变换的鲁棒性和语义表示紧凑性,提出了胶囊网络并不比CNN更具有鲁棒性的观点。因此面对多种视点下的图像场景中的几何结构和图形纹理,普通的胶囊网络依然不能保证适应于复杂遥感图像场景的学习;而且,深度学习模型通常用多层的神经网络来层次化提取输入数据的特征,这是深度学习模型有效性得以实现的重要结构特点,传统的胶囊网络没有多个胶囊层;因而遥感图像场景分类准确度和分类效率仍有很大提升空间。
发明内容
本发明提出一种视点意识的动态路由胶囊网络的遥感图像场景分类方法,用于解决或者至少部分解决现有技术中存在的分类效果不佳的技术问题。
为了解决上述技术问题,本发明提供了视点意识的动态路由胶囊网络的遥感图像场景分类方法,包括:
S1:将场景数据集按预设比例划分为训练集和测试集;
S2:对训练集中的图像进行预处理;
S3:构建视点意识的动态路由胶囊网络模型包括空间变换网络和胶囊网络模块,其中,空间变换网络用于根据输入的图像获得具有对象-观察者视点信息的姿态矩阵,胶囊网络模块包括主胶囊层、三层卷积胶囊层和类别胶囊层,主胶囊层用于根据具有对象-观察者视点信息的姿态矩阵获得用以表达图像中物体对象的胶囊,三层卷积胶囊层用于基于主胶囊层的胶囊提取用以表达图像部分-整体信息的胶囊,类别胶囊层与第三层卷积胶囊层之间采用动态路由机制,用于根据卷积胶囊层的信息获得表示图像类别概率信息,并基于图像类别概率信息得到最终分类结果;
S4:将训练集中预处理后的图像输入视点意识的动态路由胶囊网络,进行训练,并通过边界损失计算真实结果和预测结果的损失,对网络模型进行微调,得到训练好的模型;
S5:将测试集中的图像进行预处理后输入训练好的模型,得到最终分类结果。
在一种实施方式中,步骤S2包括:
步骤S2.1:将数据集中的图像保存在对应的场景类别的文件夹中;
步骤S2.2:将数据集中包含的图像统一使用双线性插值的方式重新设置图像分辨率。
在一种实施方式中,将由网格生成器和采样器组成的空间变换模块嵌入到一个由标准的CNN网络构成的定位网络后,构成空间变换网络。
在一种实施方式中,定位网络用于提取图像特征和仿射变换参数;网格生成器用于根据仿射变换参数生成特定大小的空间坐标网格,采样器用于根据图像特征和空间坐标网络,获得具有对象-观察者视点信息的姿态矩阵。
在一种实施方式中,类别胶囊层与第三层卷积胶囊层之间的动态路由机制包括:
将相邻两层胶囊层中,低层胶囊层的胶囊作为输入,乘以一个变换矩阵W得到其预测向量,采用子概念学习的动态路由投票得出高层胶囊,其中,低层胶囊层为第三层卷积胶囊层,高层胶囊层为类别胶囊层;
将低层第i个胶囊与高层第j个胶囊之间连接的对数先验概率bij初始化为0,计算每个胶囊的子概念概率值,公式为:
计算相邻两层胶囊之间连接的耦合系数cij,公式为:
式(2)中cij表示低层第i个胶囊与高层第j个胶囊之间连接的耦合系数,bij表示低层第i个胶囊与高层第j个胶囊之间连接的对数先验概率,M为高层胶囊个数,bik表示低层第i个胶囊与高层第k个胶囊之间连接的对数先验概率,k的取值从1到M;
计算得出高层胶囊vj,公式为:
式(3)中vj表示高层第j个胶囊,squash(*)为挤压函数,将胶囊长度压缩到0和1之间;
更新对数先验概率bij,公式为:
其中bi′j为更新后的对数先验概率。
最后将式(1)~(4)迭代r次,得到最终的高层胶囊。
在一种实施方式中,根据卷积胶囊层的信息获得表示图像类别概率信息,并基于图像类别概率信息得到最终分类结果,包括:
计算每一个类别胶囊的L2范数,作为该类别的概率,公式为:
Vk=‖vk‖2 (5)
式(5)中:Vk表示类别胶囊v中第k个类别胶囊的预测概率。
步骤S6.2:取最高预测概率的类别胶囊作为图像场景的预测类别,预测公式为:
d=argmaxk∈1,…,D(Vk) (6)
式(6)中:d表示具有最大概率的图像场景的预测类别,D表示类别数,k表示类别号。
在一种实施方式中,计算边界损失L的公式如下:
式(7)中:Vk表示类别胶囊中第k个胶囊的预测概率,max(·,·)为求最大值函数,D表示类别数,当预测的类别为k时Tk=1,否则为0,m+作为上界,惩罚假正,m-作为下界,惩罚假负,λ作为权重。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的视点意识的动态路由胶囊网络的遥感图像场景分类方法,构建了视点意识的动态路由胶囊网络模型,首先利用空间变换网络对训练图像进行仿射变换,学习图像在前景对象的方向、尺寸等形变上的变换参数,并预提取变换后的图像特征,由此建立具有对象-观察者视点信息的胶囊网络姿态矩阵;输入到胶囊网络模块中,转换为能够表达图像中物体对象的主胶囊层中的胶囊;通过卷积胶囊层学习视点不变的胶囊特征表示,并通过子概念学习的动态路由算法迭代更新当前胶囊的投票,聚合得到更高层的类别胶囊,通过计算每个类别胶囊的L2范数作为图像类别的预测概率。在训练过程中,使用边界损失训练胶囊网络;最后将测试图像输入到训练好的胶囊网络模型进行分类预测,取最高预测概率的类别胶囊作为场景的预测类别。本发明通过构建视点意识的姿态矩阵和子概念学习的动态路由胶囊网络,提出了显式编码场景前景对象-观察者视点信息——即图像中的目标物体(对象)和拍摄角度(观察者)之间的位置关系的胶囊网络及其训练,提取复杂遥感图像场景的判别特征并分类,提高了遥感图像场景分类性能,解决了现有技术中分类效果不佳的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中视点意识的动态路由胶囊网络模型的原理图;
图2为本发明实施例中遥感图像场景分类训练和测试的流程图;
图3为本发明实施例中视点意识的空间变换网络结构图;
图4为本发明中子概念学习的动态路由交互的结构图;
图5为本发明中利用T-SNE降维学习的胶囊特征可视化图;
图6为本发明中NWPU-RESISC45数据集,训练比例为20%时分类精度图;
图7为本发明中NWPU-RESISC45数据集,训练比例为10%时分类精度图。
具体实施方式
本发明的目的在于针对现有技术中,由于对类内多样性、类间相似性和拍摄视点多样化的遥感图像场景特征表示的不足,同一物体在不同角度观察可能会被误识别为其他物体,而导致分类效果不佳的技术问题,提供一种视点意识的动态路由胶囊网络的遥感图像场景分类方法,从而达到提高分类准确度和分类效率的目的。
为了实现上述技术效果,本发明的主要构思如下:
提供视点意识的动态路由胶囊网络的遥感图像场景分类方法。视点意识的动态路由胶囊网络模型主要由定位网络、网格生成器和采样器组成的空间变换网络与主胶囊层、三层卷积胶囊层和类别胶囊层的胶囊网络构成。首先将场景数据集按预设比例随机划分成训练集和测试集;接着对数据集中的图像进行预处理;然后将训练集中的图像输入到空间变换网络,学习训练集中前景对象视点意识的变换,获得具有对象-观察者视点信息的姿态矩阵,输入到卷积胶囊层和子概念学习的动态路由进行训练,提取视点不变的胶囊特征表示,最终得到类别胶囊层的输出,取最高预测概率的类别胶囊作为场景的预测类别,最后将测试图像输入到胶囊网络模型,获得分类结果。
本发明提供的视点意识的动态路由胶囊网络的遥感图像场景分类方法,由于通过并使用空间变换网络,得到具有对象-观察者视点信息的姿态矩阵作为胶囊,并且使用了子概念学习的动态路由的胶囊网络,最终在遥感图像场景分类上取得了更好的效果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了视点意识的动态路由胶囊网络的遥感图像场景分类方法,包括:
S1:将场景数据集按预设比例划分为训练集和测试集;
S2:对训练集中的图像进行预处理;
S3:构建视点意识的动态路由胶囊网络模型包括空间变换网络和胶囊网络模块,其中,空间变换网络用于根据输入的图像获得具有对象-观察者视点信息的姿态矩阵,胶囊网络模块包括主胶囊层、三层卷积胶囊层和类别胶囊层,主胶囊层用于根据具有对象-观察者视点信息的姿态矩阵获得用以表达图像中物体对象的胶囊,三层卷积胶囊层用于基于主胶囊层的胶囊提取用以表达图像部分-整体信息的胶囊,类别胶囊层与第三层卷积胶囊层之间采用动态路由机制,用于根据卷积胶囊层的信息获得表示图像类别概率信息,并基于图像类别概率信息得到最终分类结果;
S4:将训练集中预处理后的图像输入视点意识的动态路由胶囊网络,进行训练,并通过边界损失计算真实结果和预测结果的损失,对网络模型进行微调,得到训练好的模型;
S5:将测试集中的图像进行预处理后输入训练好的模型,得到最终分类结果。
具体来说,步骤S1~S2是对数据集的处理与划分,步骤S3是构建胶囊网络模型,步骤S4是对模型进行训练,步骤S5是对模型进行测试。
具体实施过程中,步骤S1中场景数据集是指公开的图像场景数据集,其中包含多个类别的图像场景,并且每个类别包括多个图像。可以根据需要设置预设比例,如1:9、2:8、3:7等。
具体示例中以NWPU-RESISC45图像场景数据集为例,该数据集是西北工业大学研究人员收集的大型数据集,包括45个场景类,每个类包含700个图像,共包含31500张图像;其中,每张图像的大小为256×256像素,空间分辨率变化范围从30米到0.2米。
步骤S2中对场景数据集中的图像进行预处理,就是将场景数据集中的图像的格式和尺寸调整成神经网络可以处理的形式。
步骤S3中,胶囊定义为一组神经元,其实例化参数由向量或矩阵表示,而这个矩阵表现为图像中某个部件的姿态参数。对象-观察者视点信息指,图像中的目标物体(对象)和拍摄角度(观察者)之间的位置关系,由于图像场景分类也会受到“横看成岭侧成峰”的影响,同一物体在不同角度观察可能会被误识别为其他物体,当网络能够获取到对象-观察者视点信息时就可以根据这一信息进行调整,从而减少其对分类的影响,进而提高分类准确度。
如图1所示,为视点意识的动态路由胶囊网络模型的原理图,主胶囊层中是将图像特征中获取到的潜在部件,以胶囊神经元的形式进行表征;卷积胶囊层是由低层胶囊层(主胶囊层)使用局部路由所投票产生的,能够表达出更为深层的图像信息;类别胶囊层中的每一个胶囊代表着所预测图像的一个类别,类别胶囊的模长表示该类别存在的概率。第三层卷积胶囊层和类别胶囊层之间进行子概念学习的动态路由。
在构建模型时,首先设置胶囊网络模型的网络学习参数,包括:批处理大小,学习率,动量,子概念学习的动态路由的迭代次数,学习率衰减速度等;
在具体实施时,可以将批处理大小设置为64,学习率设置为0.0001,动量设置为0.9,最大迭代次数设置为150,权重衰减速度为每40次迭代降低为原来的十分之一。
在一种实施方式中,步骤S2包括:
步骤S2.1:将数据集中的图像保存在对应的场景类别的文件夹中;
步骤S2.2:将数据集中包含的图像统一使用双线性插值的方式重新设置图像分辨率。
例如,可以将图像分辨率设置为256×256。
在一种实施方式中,将由网格生成器和采样器组成的空间变换模块嵌入到一个由标准的CNN网络构成的定位网络后,构成空间变换网络。
请参见图3,为本发明实施例中视点意识的空间变换网络结构图。其中,定位网络预训练模型可以为加载在ImageNet数据集上预训练好的残差网络模型。
在一种实施方式中,定位网络用于提取图像特征和仿射变换参数;网格生成器用于根据仿射变换参数生成特定大小的空间坐标网格,采样器用于根据图像特征和空间坐标网络,获得具有对象-观察者视点信息的姿态矩阵。
具体实施过程中,网格生成器依照仿射变换参数生成一组固定大小的空间坐标网格,采样器基于空间坐标网格将输入特征图U变换为具有对象-观察者视点信息的姿态矩阵。
具体来说,将由网格生成器和采样器组成的空间变换模块嵌入到一个标准的CNN网络后,如图3所示,本实施方式中选择嵌入到定位网络后、胶囊网络前,与定位网络构成所示的空间变换网络。
空间变换模块(网格生成器和采样器)中具体步骤如下:
网格生成器通过矩阵运算计算出目标V中的每个位置对应到原特征图U中的位置,并生成一组与原特征图大小相同的坐标网格;采样器利用网格中每个位置提供的坐标信息,将预提取的图像特征U中对应位置的像素值填充到网格指定的位置,生成特征图V作为具有视点意识的姿态矩阵。变换公式如下所示:
式中:表示原始特征图s在第i层特征图的横坐标和纵坐标,表示目标特征图t在第i层特征图的横坐标和纵坐标,Gi表示第i层特征图的网格,A表示定位网络计算出的缩放、裁剪、旋转和平移值,即变换参数θ(θ∈R2×3),θn代表在Aθ中第n个参数,θ1、θ5表示水平和垂直方向缩放参数,θ2、θ4表示旋转角参数,θ3、θ6表示水平和垂直方向剪切或平移参数。
将具有对象-观察者视点信息的姿态矩阵输入到胶囊网络模块中,转换形成能够表达图像中物体对象的主胶囊层中的胶囊,实现卷积特征到胶囊特征的转换。
具体实施过程中,设置主胶囊层的高度、宽度、厚度,设置每个胶囊的维度;将姿态矩阵转换为成为主胶囊层。对胶囊使用子概念学习的动态路由,投票产生更高层的卷积胶囊层和类别胶囊层后,得到类别胶囊。
在一种实施方式中,类别胶囊层与第三层卷积胶囊层之间的动态路由机制包括:
将相邻两层胶囊层中,低层胶囊层的胶囊作为输入,乘以一个变换矩阵W(如图1中W1,W2,W3,W4所示)得到其预测向量,采用子概念学习的动态路由投票得出高层胶囊,其中,低层胶囊层为第三层卷积胶囊层,高层胶囊层为类别胶囊层;
将低层第i个胶囊与高层第j个胶囊之间连接的对数先验概率bij初始化为0,计算每个胶囊的子概念概率值,公式为:
计算相邻两层胶囊之间连接的耦合系数cij,公式为:
式(2)中cij表示低层第i个胶囊与高层第j个胶囊之间连接的耦合系数,bij表示低层第i个胶囊与高层第j个胶囊之间连接的对数先验概率,M为高层胶囊个数,bik表示低层第i个胶囊与高层第k个胶囊之间连接的对数先验概率,k的取值从1到M;
计算得出高层胶囊vj,公式为:
式(3)中vj表示高层第j个胶囊,squash(*)为挤压函数,将胶囊长度压缩到0和1之间;
更新对数先验概率bij,公式为:
其中bi′j为更新后的对数先验概率。
最后将式(1)~(4)迭代3次,得到最终的高层胶囊。
请参见图4,为本发明中子概念学习的动态路由交互的结构图。图5为本发明中利用T-SNE降维学习的胶囊特征可视化图。
高层和低层是相对来说的,主胶囊层与卷积胶囊层中,主胶囊层为低层,卷积胶囊层位于网络中部,为中高层;类别胶囊层为上面的高层。本发明在最后一个卷积胶囊层(第三卷积胶囊层)和类别胶囊层之间采用了基于子概念学习的动态路由,而浅层卷积胶囊层采用较简单的局部动态路由,无子概念学习且迭代次数更少,适用于现有的胶囊网络,在此不再详述。
在一种实施方式中,根据卷积胶囊层的信息获得表示图像类别概率信息,并基于图像类别概率信息得到最终分类结果,包括:
计算每一个类别胶囊的L2范数,作为该类别的概率,公式为:
Vk=‖vk‖2 (5)
式(5)中:Vk表示类别胶囊v中第k个类别胶囊的预测概率。
步骤S6.2:取最高预测概率的类别胶囊作为图像场景的预测类别,预测公式为:
d=argmaxk∈1,…,D(Vk) (6)
式(6)中:d表示具有最大概率的图像场景的预测类别,D表示类别数,k表示类别号。
在一种实施方式中,计算边界损失L的公式如下:
式(7)中:Vk表示类别胶囊中第k个胶囊的预测概率,max(·,·)为求最大值函数,D表示类别数,当预测的类别为k时Tk=1,否则为0,m+作为上界,惩罚假正,m-作为下界,惩罚假负,λ作为权重。
其中,通过训练集图像对胶囊网络模型,具体步骤如下:
(1)正向传递学习,计算在当前网络参数下,网络每一层的输出特征。正向传播过程如下:
al=τ(zl)=τ(al-1wl+bl) (8)
式(8)中:l表示第l层,wl表示第l层的权重,bl表示第l层的偏移值,τ(*)表示激活函数,一般是ReLU,zl表示卷积操作之后的输出,al表示第l层的输出。
(2)反向传播更新,采用修正自适应矩估计算法,每迭代一次从训练样本中随机抽取一组样本,通过网络获得类别胶囊层的输出,计算梯度,更新网络参数,网络权重和偏差参数更新公式如下:
式(9)中:L(w,b)表示损失函数,μ表示学习率,wl′表示更新后第l层的权重,bl′表示更新后第l层的偏移值。
(3)重复上面正向传递学习和反向传播更新两个步骤,直到达到最大迭代次数结束微调,得到训练好的模型。
如图2所示,为本发明实施例中视点意识的动态路由胶囊网络的遥感图像场景分类训练和测试的流程图。图6为本发明中NWPU-RESISC45数据集,训练比例为20%时分类精度图;图7为本发明中NWPU-RESISC45数据集,训练比例为10%时分类精度图。
现有技术中还有基于深度孪生胶囊网络的光学遥感图像场景分类方法,将预训练的残差网络作为特征提取器,并将提取的特征转换为胶囊,随后构建两个分支的胶囊网络,对比分别计算出的两个特征计算图像相似度,最终完成场景分类;但是这种方法在嵌入了多个胶囊网络模块增加了网络训练的难度,并且高度相似的图像还不具有足够的判别性。此外,还有基于注意力机制的多分支特征融合遥感图像场景分类方法,提出首先对遥感图像进行预处理,得到预处理后的遥感图像,再使用基于注意力机制的多分支特征融合卷积神经网络进行训练和分类。在基于元度量学习的小样本遥感图像场景分类方法中采用元学习方式训练包含嵌入模块和度量模块的深度神经网络分类模型,采用元学习方式训练模型,元任务组织训练元学习方式。这些方法只能获取到基本的图像特征,并不能获取到足够的对象-观察者视点信息,在背景复杂、视点变化的遥感图像场景中,不能很好地判别图像场景。
本发明采用视点意识的动态路由胶囊网络的遥感图像场景分类方法,首先利用空间变换网络,学习图像在前景对象的方向、尺寸等形变上的变换参数,并预提取变换后的图像特征进行仿射变换,由此建立具有对象-观察者视点信息的胶囊网络姿态矩阵,并建模为主胶囊层;胶囊网络中的路由算法成本很高,如果直接堆叠多层胶囊层会因为大多数高层与低层胶囊之间的耦合系数过小,最终导致高层胶囊无法正确地关联到对应的低层胶囊,所以使用关联性更强的局部动态路由算法得到卷积胶囊层,学习视点不变的胶囊特征表示,并通过子概念学习的动态路由算法迭代更新当前胶囊的投票,聚合得到更高层的类别胶囊:对于每个高层胶囊,低层胶囊输出会乘以一个变换矩阵得到其预测向量,使所有低层胶囊对其预测向量的和得到高层胶囊的总输入,通过挤压函数得到输出;如果高层胶囊输出与低层胶囊的预测之间内积大,则存在自上而下的反馈,增加高层胶囊与低层胶囊之间的耦合系数。动态路由过程中会迭代多次更新投票,得到更高层的胶囊,直到获得最高层的类别胶囊;计算每个类别胶囊的L2范数作为图像类别的预测概率,使用边界损失训练胶囊网络;最后将测试图像输入到胶囊网络模型进行分类预测,取最高预测概率的类别胶囊作为场景的预测类别,具有分类更为准确的特点。
因此,本发明通过建立视点意识的姿态矩阵和子概念学习的动态路由胶囊网络,提出了显式编码场景前景对象-观察者视点信息的胶囊网络及其训练,提取复杂遥感图像场景的判别特征并分类,减少了由于同一物体在不同观察角度带来的不利影响,提高了遥感图像场景分类性能,解决了现有技术中分类效果不佳的技术问题。
为了验证本发明提出的遥感图像场景分类方法的优势,使用45类图像场景数据集(NWPU-RESISC45),将由空间变换网络和胶囊网络组成的本实例算法与其他算法做分析和对比,如表1所示:
表1:不同算法的分类正确率(%)比较
其中,VGG-VD16算法参见Cheng等人发表的论文《当深度学习结合度量学习:通过学习判别性CNN进行遥感图像场景分类》(IEEE国际地理科学与遥感学报,vol.56,no.5,pp.2811-2821,2018.);CapsNet算法参见Sabour S等发表的论文《胶囊之间的动态路由》(神经信息处理系统,pp.3856–3866,2017);EMcaps算法参见Hinton G E等人发表的论文《EM路由矩阵胶囊》(学习表征国际会议,pp.1-15,2018);SOVNET算法参见Venkatraman S等人发表的论文《构建深度等变胶囊网络》(学习表征国际会议,pp,1-13,2019)。ResNet算法参见He K等人发表的论文《图像识别中的深度残差学习》(IEEE计算机视觉和模式识别会议记录,pp.770-778,2016)。由表1可知,本发明提出的视点意识的动态路由胶囊网络的遥感图像场景分类方法具有更好的效果,进一步说明通过构建视点意识的姿态矩阵和子概念学习的动态路由胶囊网络,提出了显式编码场景前景对象-观察者视点信息的胶囊网络及其训练,提取复杂遥感图像场景的判别特征并分类,能够提高遥感图像场景分类准确度和分类效率。
为了进一步说明本实例算法各个分支的不同贡献,不同分支网络的分类结果如表2所示:
表2:本方法消融实验(%)
由表2可知,在45类图像场景数据集上,分别添加三个不同模块的网络都达到了一定的效果,由此可见,本算法在每个模块上的有效性,并且通过三个模块融合后分类结果有了进一步提升,说明了本算法中三个模块是具有互补性的,融合后的网络能更好地判别场景类别。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.视点意识的动态路由胶囊网络的遥感图像场景分类方法,其特征在于,包括:
S1:将场景数据集按预设比例划分为训练集和测试集;
S2:对训练集中的图像进行预处理;
S3:构建视点意识的动态路由胶囊网络模型包括空间变换网络和胶囊网络模块,其中,空间变换网络用于根据输入的图像获得具有对象-观察者视点信息的姿态矩阵,胶囊网络模块包括主胶囊层、三层卷积胶囊层和类别胶囊层,主胶囊层用于根据具有对象-观察者视点信息的姿态矩阵获得用以表达图像中物体对象的胶囊,三层卷积胶囊层用于基于主胶囊层的胶囊提取用以表达图像部分-整体信息的胶囊,类别胶囊层与第三层卷积胶囊层之间采用动态路由机制,用于根据卷积胶囊层的信息获得表示图像类别概率信息,并基于图像类别概率信息得到最终分类结果;
S4:将训练集中预处理后的图像输入视点意识的动态路由胶囊网络,进行训练,并通过边界损失计算真实结果和预测结果的损失,对网络模型进行微调,得到训练好的模型;
S5:将测试集中的图像进行预处理后输入训练好的模型,得到最终分类结果。
2.如权利要求1所述的遥感图像场景分类方法,其特征在于,步骤S2包括:
步骤S2.1:将数据集中的图像保存在对应的场景类别的文件夹中;
步骤S2.2:将数据集中包含的图像统一使用双线性插值的方式重新设置图像分辨率。
3.如权利要求1所述的遥感图像场景分类方法,其特征在于,将由网格生成器和采样器组成的空间变换模块嵌入到一个由标准的CNN网络构成的定位网络后,构成空间变换网络。
4.如权利要求3所述的遥感图像场景分类方法,其特征在于,定位网络用于提取图像特征和仿射变换参数;网格生成器用于根据仿射变换参数生成特定大小的空间坐标网格,采样器用于根据图像特征和空间坐标网络,获得具有对象-观察者视点信息的姿态矩阵。
5.如权利要求1所述的遥感图像场景分类方法,其特征在于,类别胶囊层与第三层卷积胶囊层之间的动态路由机制包括:
将相邻两层胶囊层中,低层胶囊层的胶囊作为输入,乘以一个变换矩阵W得到其预测向量,采用子概念学习的动态路由投票得出高层胶囊,其中,低层胶囊层为第三层卷积胶囊层,高层胶囊层为类别胶囊层;
将低层第i个胶囊与高层第j个胶囊之间连接的对数先验概率bij初始化为0,计算每个胶囊的子概念概率值,公式为:
计算相邻两层胶囊之间连接的耦合系数cij,公式为:
式(2)中cij表示低层第i个胶囊与高层第j个胶囊之间连接的耦合系数,bij表示低层第i个胶囊与高层第j个胶囊之间连接的对数先验概率,M为高层胶囊个数,bik表示低层第i个胶囊与高层第k个胶囊之间连接的对数先验概率,k的取值从1到M;
计算得出高层胶囊vj,公式为:
式(3)中vj表示高层第j个胶囊,squash(*)为挤压函数,将胶囊长度压缩到0和1之间;
更新对数先验概率bij,公式为:
其中b′ij为更新后的对数先验概率;
最后将式(1)~(4)迭代r次,得到最终的高层胶囊。
6.如权利要求1所述的遥感图像场景分类方法,其特征在于,根据卷积胶囊层的信息获得表示图像类别概率信息,并基于图像类别概率信息得到最终分类结果,包括:
计算每一个类别胶囊的L2范数,作为该类别的概率,公式为:
Vk=‖vk‖2 (5)
式(5)中:Vk表示类别胶囊v中第k个类别胶囊的预测概率;
步骤S6.2:取最高预测概率的类别胶囊作为图像场景的预测类别,预测公式为:
d=argmaxk∈1,…,D(Vk) (6)
式(6)中:d表示具有最大概率的图像场景的预测类别,D表示类别数,k表示类别号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111385853.8A CN114187506A (zh) | 2021-11-22 | 2021-11-22 | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111385853.8A CN114187506A (zh) | 2021-11-22 | 2021-11-22 | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114187506A true CN114187506A (zh) | 2022-03-15 |
Family
ID=80602314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111385853.8A Pending CN114187506A (zh) | 2021-11-22 | 2021-11-22 | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114187506A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115270997A (zh) * | 2022-09-20 | 2022-11-01 | 中国人民解放军32035部队 | 基于迁移学习的火箭目标姿态稳定判别方法及相关装置 |
CN116740601A (zh) * | 2023-05-30 | 2023-09-12 | 石家庄铁道大学 | 一种两阶段的学术视频关键帧提取方法 |
-
2021
- 2021-11-22 CN CN202111385853.8A patent/CN114187506A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115270997A (zh) * | 2022-09-20 | 2022-11-01 | 中国人民解放军32035部队 | 基于迁移学习的火箭目标姿态稳定判别方法及相关装置 |
CN116740601A (zh) * | 2023-05-30 | 2023-09-12 | 石家庄铁道大学 | 一种两阶段的学术视频关键帧提取方法 |
CN116740601B (zh) * | 2023-05-30 | 2024-04-30 | 石家庄铁道大学 | 一种两阶段的学术视频关键帧提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN107609601B (zh) | 一种基于多层卷积神经网络的舰船目标识别方法 | |
CN110135319A (zh) | 一种异常行为检测方法及其系统 | |
CN109977757B (zh) | 一种基于混合深度回归网络的多模态的头部姿态估计方法 | |
CN107292875A (zh) | 一种基于全局‑局部特征融合的显著性检测方法 | |
CN114255238A (zh) | 一种融合图像特征的三维点云场景分割方法及系统 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN108345843B (zh) | 一种基于混合深度回归网络的头部姿态估计方法 | |
CN108229347A (zh) | 用于人识别的拟吉布斯结构采样的深层置换的方法和装置 | |
CN110728295B (zh) | 半监督式的地貌分类模型训练和地貌图构建方法 | |
CN113887661B (zh) | 一种基于表示学习重构残差分析的图像集分类方法及系统 | |
CN105574545B (zh) | 街道环境图像多视角语义切割方法及装置 | |
CN114187506A (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN109492610B (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN114241422A (zh) | 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法 | |
CN110942110A (zh) | 一种三维模型的特征提取方法和装置 | |
CN113283409A (zh) | 基于EfficientDet和Transformer的航空图像中的飞机检测方法 | |
CN111368733B (zh) | 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端 | |
CN111652240A (zh) | 一种基于cnn的图像局部特征检测与描述方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN114283285A (zh) | 交叉一致性自训练遥感图像语义分割网络训练方法及装置 | |
CN106355210A (zh) | 基于深度神经元响应模式的绝缘子红外图像特征表达方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN106778579A (zh) | 一种基于累计属性的头部姿态估计方法 | |
Li et al. | Few-shot meta-learning on point cloud for semantic segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |