CN115346071A - 高置信局部特征与全局特征学习的图片分类方法及系统 - Google Patents
高置信局部特征与全局特征学习的图片分类方法及系统 Download PDFInfo
- Publication number
- CN115346071A CN115346071A CN202211002091.3A CN202211002091A CN115346071A CN 115346071 A CN115346071 A CN 115346071A CN 202211002091 A CN202211002091 A CN 202211002091A CN 115346071 A CN115346071 A CN 115346071A
- Authority
- CN
- China
- Prior art keywords
- feature
- local
- confidence
- features
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种高置信局部特征与全局特征学习的图片分类方法及系统,方法包括:采用深度分离卷积层的堆叠形式,嵌套下采样层,进行特征提取;提取多尺度特征,构成特征张量;采用不同步长的滑动窗口和非最大抑制方法去除冗余区域,生成候选局部感兴趣区域;计算局部感兴趣候选区域属于类属标签的概率作为置信值,依据置信值构造排序一致性损失函数训练网络,并进行候选局部感兴趣区域排序,判别高置信感兴趣区域;将高置信局部感兴趣区域特征与全局特征聚合,得到特征拼接张量;根据聚合的特征,进行最终图片分类。本发明能够有效处理类间相似性高、类内差异性大的分类问题,提高了小样本图片的分类精度和分类速度。
Description
技术领域
本发明涉及遥感场景分类技术,特别是一种高置信局部特征与全局特征学习的图片分类方法及系统。
背景技术
遥感场景分类属于图片分类的一个方向,其旨在通过算法为场景图片贴上语义标签,是计算机视觉领域标志性任务之一,近年来在计算机视觉、模式识别中都是热点研究领域。针对遥感图像的场景分类对于地理信息系统测绘、农业、交通规划和导航等各种民用应用具有重要意义。由于遥感图像空间覆盖范围广,图像中的物体通常包含众多,导致类间相似性高、类内差异性大、尺度差异性大问题。上述因素使得在遥感图像场景分类成为一项具有挑战性的任务。
随着深度学习的快速发展,许多基于深度学习的遥感图像分类方法已经被提出。遥感场景图像与通常从水平视角拍摄的自然图像不同,遥感场景图像通常是鸟瞰图,这意味着图像中总是包含不同类型的地物,复杂的语义信息增加了场景分类的难度。Penatti等人[Penatti O AB,Nogueira K,Dos Santos J A.Do deep features generalize fromeveryday objects to remote sensing and aerial scenes domains?[C]//Proceedingsof the IEEE conference on computer vision and pattern recognitionworkshops.2015:44-51.]研究了预训练卷积神经网络在遥感场景分类中的泛化能力。Nogueira K等人[Nogueira K,Penatti O A B,dos Santos JA.Towards betterexploiting convolutional neural networks for remote sensing sceneclassification[J].Pattern Recognition,2017,61:539-556.]为了提高分类精度,基于不同的卷积神经网络模型使用了四种不同的策略对遥感场景进行分类。最终得出结论:通过微调的方式得到的效果最佳。陈亚当等人[一种基于Resnet50结合注意力机制和特征金字塔的图像分类方法[P].中国专利:CN114494805A,2022-05-13.]采用通道和空间注意力融合机制,关注目标的细节信息,并运用金字塔层三分类器的优化算法,各特征层全连接后分类处理,并为每个类别输出一个概率值;取概率值最大的分类结果作为最终的输出预测值。该方法提升ResNet-50特征提取效果,注重了局部特征与全局特征的结合,实现了较好的分类结果,但是对于局部特征的选取,没有较好的选择机制。
发明内容
本发明的目的在于提出一种高置信局部特征与全局特征学习的图片分类方法及系统,充分考虑局部特征与全局特征聚合对分类任务的影响,能够有效处理类间相似性高、类内差异性大、尺度差异性大的图像分类问题,且分类性能优异。
实现本发明目的的技术解决方案为:第一方面,本发明提供一种高置信局部特征与全局特征学习的图片分类方法,包括以下步骤:
第一步,采用数据预处理和深度分离卷积模块构成的深度网络,提取图像特征;
第二步,将第一步深度分离卷积特征学习模块提取的特征作为输入,利用深度卷积操作构建三层金字塔结构,提取多尺度的深层特征;
第三步,在多尺度的深层特征上,根据不同的尺度,采用不同步长的滑动窗口,并对多尺度特征区域采取非极大值抑制减少区域冗余,生成一个表示多尺度特征区域列表,提取指定数量的候选局部感兴趣区域作为高置信局部感兴趣判别与特征学习模块的输入;
第四步,将局部感兴趣区域特征的尺寸规范到同一标准,再通过深度分离卷积特征学习模块,计算每个区域为类属标签的概率作为置信值,输出置信值列表;依据该置信值,采取排序一致性损失函数调整网络训练,对候选局部感兴趣特征区域列表重新排序,使其与置信值列表排序一致,提取前M个高置信局部感兴趣区域;
第五步,将提取的M个高置信局部感兴趣区域,通过池化操作调整成与上下文特征一致尺寸的张量,并与上下文特征相拼接,进行特征聚合;
第六步,将高置信局部感兴趣特征与全局上下文特征聚合后的特征,连结全连接层及Softmax分类器进行最终分类。
第二方面,本发明提供一种高置信局部特征与全局特征学习的图片分类系统,包括:
深度分离卷积特征学习模块,采用深度分离卷积层的堆叠形式,嵌套下采样层,并通过预训练进行特征提取;
多尺度特征学习模块,采用三个不同尺度的卷积,提取多尺度特征,并构成特征张量;
候选局部感兴趣区域生成模块,采用不同步长的滑动窗口和非最大抑制方法去除冗余区域,生成候选局部感兴趣区域;
高置信局部感兴趣区域判别与特征学习模块,计算局部感兴趣候选区域属于类属标签的概率作为置信值,依据置信值构造排序一致性损失函数训练网络,并进行候选局部感兴趣区域排序,判别高置信感兴趣区域;
特征聚合模块,将提取的高置信局部感兴趣区域特征与全局特征聚合,得到特征拼接张量;
分类模块,根据聚合的特征,进行最终图片分类。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法的步骤。
第四方面,本发明提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法的步骤。
本发明与现有技术相比,其显著特点在于:(1)采取通过堆叠深度可分离卷积层并嵌入下采样层构建网络,通过预训练方式进行特征提取,提取特征更为丰富;(2)多尺度信息特征提取模块,该模块构建金字塔结构,获取不同空间尺度的特征,提取的多尺度特征张量更为准确;(3)采取非极大值抑制损失,可以去除冗余;(4)通过高置信局部感兴趣判别与特征学习模块,构建排序一致性损失函数,判别高置信局部感兴趣特征,加强了局部有效信息的获取,并与上下文的特征相聚合,能够有效处理分类问题,提高小样本图片的分类精度。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明方法的结构图。
图2是深度分离卷积块结构图。
图3是深度分离卷积模块的下采样结构图。
图4是候选局部感兴趣区域生成模块结构图。
图5是本发明方法对AID30分类混淆矩阵图。
图6是本发明方法对NWPU-RESISC45分类混淆矩阵图。
具体实施方式
相较背景技术中现有方法,本发明提出一种高置信局部特征与全局特征学习的图片分类方法及系统,应用预训练的卷积网络做为特征提取器,结合金字塔目标识别结构,构造具多尺度和纵横比的滑动窗口获得局部感兴趣区域特征图,通过高置信局部感兴趣区域判别与特征学习模块,定位高置信局部区域,再将提取的高置信局部感兴趣特征图与上下文语义聚合,送入卷积网络特征提取器,进行最终分类,从而提升分类的准确性。
下面结合图1,详细说明本发明的实施过程。
一种高置信局部特征与全局特征学习的图片分类方法,包括以下步骤:
第一步,采用数据预处理和深度分离卷积模块构成的深度网络,提取图像特征,包含深度分离卷积、下采样和激活函数等特征提取操作,具体过程为:
(1)对原始图像进行数据增强,裁剪成224×224的尺寸,以0.5的概率随机水平翻转图像,再将图像数据转换为标准正太分布mean=[0.485,0.456,0.406],std=[0.229,0.224,0.225],标准化的公式如下:
input[channel]=(input[channel]-mean[channel])/std(channel)
对图像224×224×3,通过卷积核大小为4*4,卷积个数为96,步长为4的卷积层,并进行层归一化,实现4倍下采样操作,图像调整为56×56×96,其中96为特征维度。
(2)一个深度分离卷积块的组成如下:
如图2,首先是卷积核大小为7*7,步长为1,填充为3的深度可分离卷积层,并连接层归一化;然后是卷积核为1*1的卷积层,并连接高斯误差线性单元激活函数(GELU)实现升维;再经过卷积核为1*1的卷积层,并连接通道缩放以及随机通道丢失恢复初始维度,与初始特征张量相加,作为最终输出。
(3)下采样层的组成如下:
如图3,首先通过层归一化,再连接一个核为2*2,步长为2的卷积层,实现2倍下采样。
(4)共进行四个阶段的深度分离卷积块的堆叠,每两个阶段的堆叠之间嵌入一个下采样层。第一个阶段,深度分离卷积块堆叠3次,输出尺寸为56×56×96;经过一个下采样层,进入第二阶段,深度分离卷积块堆叠3次,输出尺寸为28×28×192;经过下采样层,进入第三阶段,深度分离卷积块堆叠9次,输出尺寸为14×14×384;经过下采样层,进入第四阶段,深度分离卷积块堆叠3次,输出尺寸为7×7×768。
此步骤的输出作为多尺度特征学习模块的输入以及全局特征提取模块的输入。
第二步,将第一步深度分离卷积特征学习模块提取的特征作为输入,利用深度卷积操作构建三层金字塔结构,提取多尺度的深层特征,如图4,具体过程为:
(1)对输入的特征,先通过核大小为3*3,步长为1,卷积核个数128的卷积层,获得7×7×128尺寸,感受野为3×3的第一层特征图。
(2)将7×7×128尺寸的特征图,再通过核大小为3*3,步长为2的卷积层,获得14×14×128尺寸,感受野为5×5的第二层特征图。
(3)将7×7×128尺寸的特征图,再通过核大小为3*3,步长为2的卷积,获得28×28×128尺寸,感受野为9×9的第三层特征图。
(4)三层特征图再分别经过1*1的卷积层,实现横向连接并获得前景信息量分数。
第三步,在多尺度的深层特征上,根据不同的尺度,采用不同步长的滑动窗口,并对多尺度特征区域采取非极大值抑制减少区域冗余,生成一个表示多尺度特征区域列表,提取指定数量的候选局部感兴趣区域作为高置信局部感兴趣判别与特征学习模块的输入,其具体过程为:
(1)依据多尺度特征学习模块生成的多尺度特征层,分配不同步长的滑动窗口,为每个像素点分别设置像素面积为482,962,1922,步长分别对应32、64、128,宽高比为1/1,3/2,2/3的9类区域框,其中1种像素面积对应生成3个宽高比区域框,3种像素面积共生成9类区域框,并映射到特征图的相应位置,生成一个特定数量的局部感兴趣特征区域信息量列表。
(2)根据信息量采用非极大值抑制,去除重复区域框。先对(1)步骤输出的指定数量的局部感兴趣特征区域信息量列表L进行信息量排序,取出信息量最大的区域框,存入最终保留列表D中;计算L中其余区域框与当前区域框的IOU,当二者IOU大于固定阈值u时删除。如此筛选,直至保留前6个局部感兴趣区域{R1,R2...R6}以及对应的信息为{I1,I2...I6}存最终保留列表D中。IOU表示同一目标的当前区域框和其他区域框的交并比,定义为:
其中,area(·)表示集合的面积计算算子,bi和bj表示两个不同的区域框。
第四步,将局部感兴趣区域特征的尺寸规范到同一标准,再通过深度分离卷积特征学习模块,计算每个区域为类属标签的概率作为置信值,输出置信值列表。依据该置信值,采取排序一致性损失函数调整网络训练,对候选局部感兴趣特征区域列表重新排序,使其与置信值列表排序一致,提取前M个高置信局部感兴趣区域,其具体过程为:
(1)将M个区域{R1,R2...R6}利用双线性插值法进行上采样,转成224×224的尺寸,通过数据预处理和深度分离卷积模块,计算每个局部感兴趣区域为真实值类别的概率作为置信值,置信度{C1,C2...C6}。同时通过最小化每个类属标签和置信值之间的交叉熵损失,以及计算全局图片X的交叉损失函数,进行该步骤的优化:
其中C(·)为置信值计算函数,公式第一部分为所有区域的交叉损失之和,第二部分是整张图片的交叉熵损失。
(2)根据(1)中每个感兴趣区域的置信度{C1,C2...C6},以及候选局部感兴趣区域中M个感兴趣区域的信息量,构建排序一致性损失函数。该损失函数具体规则如下,设信息量排序为{I1,I2...I6},当Is>Ii并且Cs>Ci时,对应标签为0,当输入的为相反对即Is<Ii并且Cs>Ci时,对应标签为1。排序一致性损失函数定义如下:
其中f(·)采用的是合页损失函数:f(x)=max{1-x,0}。
(3)通过(2)排序一致性损失函数,训练网络,指导候选局部感兴趣特征区域列表重新排序,使其与置信值列排序一致,提取前6个高置信局部感兴趣区域。
第五步,将提取的6个高置信局部感兴趣区域,通过池化操作调整成与上下文特征一致尺寸的张量,并与上下文特征相拼接,进行特征聚合。其具体过程为:
(1)将高置信局部感兴趣判别与特征学习模块的输出{R1,R2...R6}都调整成224×224×786。
(2)将第一步的输出,作为全局特征提取的输入,经过全局平均池化和层归一化操作后,作为上下文特征输出。
(3)将(1)的高置信局部特征与(2)的上下文特征进行聚合,作为分类模块的输入。
第六步,将高置信感兴趣局部特征与全局特征聚合后的特征,连结全连接层及Softmax分类器进行最终分类。其具体过程为:
(1)第五步的输出作为输入,连接全连接层。
(2)在(1)的输出后,连接一个Softmax分类器,预测最后的分类结果。
基于同样的构思,本发明还提供一种高置信局部特征与全局特征学习的图片分类系统,包括:
深度分离卷积特征学习模块,采用深度分离卷积层的堆叠形式,嵌套下采样层,并通过预训练进行特征提取;
多尺度特征学习模块,采用三个不同尺度的卷积,提取多尺度特征,并构成特征张量;
候选局部感兴趣区域生成模块,采用不同步长的滑动窗口和非最大抑制方法去除冗余区域,生成候选局部感兴趣区域;
高置信局部感兴趣区域判别与特征学习模块,计算局部感兴趣候选区域属于类属标签的概率作为置信值,依据置信值构造排序一致性损失函数训练网络,并进行候选局部感兴趣区域排序,判别高置信感兴趣区域;
特征聚合模块,将提取的高置信局部感兴趣区域特征与全局特征聚合,得到特征拼接张量;
分类模块,根据聚合的特征,进行最终图片分类。
上述各模块的具体实现方式与前述图片分类方法的第一~第六步内容对应,此处不再赘述。
进一步的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述图片分类方法的步骤。
进一步的,本发明还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述图片分类方法的步骤。
本发明充分建立了多尺度局部感兴趣高置信的排序遴选机制,并有效综合了全局上下文特征信息,采取预训练的网络进行特征提取,增强了特征学习能力,能够有效处理类间相似性高、类内差异性大的分类问题,提高了小样本图片的分类精度和分类速度。
本发明的效果可通过以下仿真实验进一步说明:
仿真条件
仿真实验采用两组光学遥感图像数据:AID数据集和NWPU-RESISC45数据集。AID数据集的所有图像均来武汉大学和华中科技大学发布,总包含30类场景图像,每一类大概220-420张,共10000张,按照50%的训练比例。NWPU-RESISC45数据集的所有图像由西北工业大学创建的,该数据集包含31,500个图像,涵盖45个场景类,每个类有700个图像。数据覆盖全球100多个国家和地区,规模较大。除了空间分辨率较低的岛屿、湖泊、山地等,大多数场景类别的空间分辨率从0.2~30m不等。同时该数据集考虑了不同天气、季节、光照等自然条件的影响,在背景、遮挡等方面有丰富的图像变化。按照20%的训练比例,训练集和测试集分别包含6300和25200张图像,图像大256×256像素。实验中,将AID、NWPU-RESISC45数据集的所有图像都调整为224*224大小。两组实验以总体分类精度为评价指标。此外,对比方法包括:基础的卷积神经网络,如:AlexNet、GoogLeNet、VGG_16在基础卷积神经网络上采用“词袋”方法(Bag of Color Features)、多尺度特征聚合的方式的(Self-attention-baseddeep feature fusion,SAFF)、胶囊网络(CapsNet),以及不结合高置信局部特征的深度分离卷积特征学习网络。
实验中深度分离卷积特征学习网络优化器采用Adam优化器,初始学习率为0.001,60个时期后除以10,动量和权重衰减分别为0.9和1e-4。此外,网络在AID的前50个时期和NWPU-RESISC45的前50个时期内训练模型,其他网络超参数配置总结在表1中。仿真实验均在Linux操作系统下采用Python3.8+pytorch1.8+cuda11.2完成。
表1网络超参数配置
仿真实验结果分析
表2-表3为本发明方法对NWPU-RESISC45与AID数据集进行仿真实验的分类准确度(%)。
表2不同方法对AID数据集的分类结果
表3不同方法对NWPU-RESISC45数据集的分类结果
从实验结果来看,通过使用本发明方法可以明显提升两个数据集的分类准确度。在AID数据集上,本发明方法的分类准确度为95.70±0.17%,通过本发明方法获得的分类混淆图如图5所示。相比于其他方法,本发明方法对篮球场和学校这两个尺度变化较大的类具有较好的分类效果,这得益于本发明结合的区域信息提取模块,该模块能够更加准确地提取多尺度特征信息。在NWPU-RESISC45数据集上,本发明方法的平均精度为91.93±0.18%,通过本发明方法获得的分类混淆图如图6所示。相比于其他方法,本发明方法能够得到更好的分类结果,主要得益于深度可分离卷积神经网络的特征提取和高置信局部区域特征与全局特征的结合。上述结果充分表明了本发明方法能够有效地学习遥感图像的特征信息,具有较高的分类性能。
Claims (10)
1.一种高置信局部特征与全局特征学习的图片分类方法,其特征在于,包括以下步骤:
第一步,采用数据预处理和深度分离卷积模块构成的深度网络,提取图像特征;
第二步,将第一步深度分离卷积特征学习模块提取的特征作为输入,利用深度卷积操作构建三层金字塔结构,提取多尺度的深层特征;
第三步,在多尺度的深层特征上,根据不同的尺度,采用不同步长的滑动窗口,并对多尺度特征区域采取非极大值抑制减少区域冗余,生成一个表示多尺度特征区域列表,提取指定数量的候选局部感兴趣区域作为高置信局部感兴趣判别与特征学习模块的输入;
第四步,将局部感兴趣区域特征的尺寸规范到同一标准,再通过深度分离卷积特征学习模块,计算每个区域为类属标签的概率作为置信值,输出置信值列表;依据该置信值,采取排序一致性损失函数调整网络训练,对候选局部感兴趣特征区域列表重新排序,使其与置信值列表排序一致,提取前M个高置信局部感兴趣区域;
第五步,将提取的M个高置信局部感兴趣区域,通过池化操作调整成与上下文特征一致尺寸的张量,并与上下文特征相拼接,进行特征聚合;
第六步,将高置信局部感兴趣特征与全局上下文特征聚合后的特征,连结全连接层及Softmax分类器进行最终分类。
2.根据权利要求1所述的高置信局部特征与全局特征学习的图片分类方法,其特征在于,第一步,采用数据预处理和深度分离卷积模块构成的深度网络,提取图像特征,包含深度分离卷积、下采样和激活函数等特征提取操作,具体过程为:
(1)首先对图像H×W×N进行最初的预处理操作,其中H代表图片高度,W代表图片宽度,N代表图片的通道数;通过卷积核大小为4*4,卷积个数为C,步长为4的卷积层,并进行层归一化,实现4倍下采样操作,图像调整为H/4×W/4×C,其中C为特征维度;
(2)一个深度分离卷积块的组成如下:
首先是卷积核大小为7*7,步长为1,填充为3的深度可分离卷积层,并连接层归一化;然后是卷积核为1*1的卷积层,并连接高斯误差线性单元激活函数实现升维;再经过卷积核为1*1的卷积层,并连接通道缩放以及随机通道丢失恢复初始维度,与初始特征张量相加,作为最终输出;
(3)下采样层的组成如下:
首先通过层归一化,再连接一个核为2*2,步长为2的卷积层,实现2倍下采样;
(4)共进行四个阶段的深度分离卷积块的堆叠,每两个阶段的堆叠之间嵌入一个下采样层;第一个阶段,深度分离卷积块堆叠3次,输出尺寸为H/4×W/4×C;经过一个下采样层,进入第二阶段,深度分离卷积块堆叠3次,输出尺寸为H/8×W/8×2C;经过下采样层,进入第三阶段,深度分离卷积块堆叠9次,输出尺寸为H/16×W/16×4C;经过下采样层,进入第四阶段,深度分离卷积块堆叠3次,输出尺寸为H/32×W/32×8C;
此步骤的输出作为多尺度特征学习模块的输入以及全局特征提取模块的输入。
3.根据权利要求2所述的高置信局部特征与全局特征学习的图片分类方法,其特征在于,将第一步深度分离卷积特征学习模块提取的特征作为输入,利用深度卷积操作构建三层金字塔结构,提取多尺度的深层特征,具体过程为:
(1)对输入的特征,先通过核大小为3*3,步长为1,通道数F的卷积层,获得H/32×W/32×F尺寸,感受野为3×3的第一层特征图;
(2)将H/32×W/32×F尺寸的特征图,再通过核大小为3*3,步长为2的卷积层,获得H/16×W/16×F尺寸,感受野为5×5的第二层特征图;
(3)将H/16×W/16×F尺寸的特征图,再通过核大小为3*3,步长为2的卷积层,获得H/8×W/8×F尺寸,感受野为9×9的第三层特征图;
(4)三层特征图再分别经过1*1的卷积层,实现横向连接并获得前景信息量分数。
4.根据权利要求3所述的高置信局部特征与全局特征学习的图片分类方法,其特征在于,第三步,在多尺度的深层特征上,根据不同的尺度,采用不同步长的滑动窗口,并对多尺度特征区域采取非极大值抑制减少区域冗余,生成一个表示多尺度特征区域列表,提取指定数量的候选局部感兴趣区域作为高置信局部感兴趣判别与特征学习模块的输入,具体过程为:
(1)依据多尺度特征学习模块生成的多尺度特征层,分配不同步长的滑动窗口,为每个像素点分别设置像素面积为482,962,1922,步长分别对应32、64、128,宽高比为1/1,3/2,2/3;其中1种像素面积对应生成3个宽高比区域框,3种像素面积共生成9类区域框,并映射到特征图的相应位置,生成一个特定数量的局部感兴趣特征区域信息量列表;
(2)根据信息量采用非极大值抑制,去除重复区域框;先对步骤(1)输出的特定数量的局部感兴趣特征区域信息量列表L进行信息量排序,取出信息量最大的区域框,存入最终保留列表D中;计算L中其余区域框与当前区域框的IOU,当二者IOU大于固定阈值u时删除;如此筛选,直至保留前M个候选局部感兴趣区域{R1,R2...RM}以及对应的信息{I1,I2...IM}存入最终保留列表D中;IOU表示同一目标的当前区域框和其他区域框的交并比,定义为:
其中,area(·)表示集合的面积计算算子,bi和bj表示两个不同的区域框。
5.根据权利要求4所述的高置信局部特征与全局特征学习的图片分类方法,其特征在于,第四步,将局部感兴趣区域特征的尺寸规范到同一标准,再通过深度分离卷积特征学习,计算每个区域为类属标签的概率作为置信值,输出置信值列表;依据该置信值,采取排序一致性损失函数调整网络训练,对候选局部感兴趣特征区域列表重新排序,使其与置信值列表排序一致,提取前M个高置信局部感兴趣区域,其具体过程为:
(1)将M个区域{R1,R2...RM}利用双线性插值法进行上采样,转成H'×C'的尺寸,通过数据预处理和深度分离卷积特征学习,计算每个局部感兴趣区域为类属标签的概率作为置信值,置信度{C1,C2...CM},同时通过最小化每个类属标签和置信值之间的交叉熵损失,以及计算全局图片X的交叉损失函数,进行该步骤的优化:
其中C(·)为置信值计算函数,公式第一部分为所有区域的交叉损失之和,第二部分是整张图片的交叉熵损失;
(2)根据(1)中每个感兴趣区域的置信度{C1,C2...CM},以及候选局部感兴趣区域中M个感兴趣区域的信息量,构建排序一致性损失函数;该损失函数具体规则如下,设信息量排序为{I1,I2...IM},当Is>Ii并且Cs>Ci时,对应标签为0,当输入的为相反对即Is<Ii并且Cs>Ci时,对应标签为1;排序一致性损失函数定义LI(·)如下:
其中f(·)采用的是合页损失函数:f(x)=max{1-x,0};
(3)通过(2)排序一致性损失函数,训练网络,指导候选局部感兴趣特征区域列表重新排序,使其与置信值列排序一致,提取前M个高置信局部感兴趣区域。
6.根据权利要求5所述的高置信局部特征与全局特征学习的图片分类方法,其特征在于,第五步,将提取的M个高置信局部感兴趣区域,通过池化操作调整成与上下文特征一致尺寸的张量,并与上下文特征相拼接,进行特征聚合;其具体过程为:
(1)将高置信局部感兴趣判别与特征学习模块的输出{R1,R2...RM}都调整成H'×W'×8C的尺寸,H'为图片高度,W'为图片宽度,8C为特征维度;
(2)将第一步的输出,作为全局特征提取的输入,经过全局平均池化和层归一化操作后,作为上下文特征输出;
(3)将步骤(1)的高置信局部特征与步骤(2)的上下文特征进行聚合,作为分类模块的输入。
7.根据权利要求6所述的高置信局部特征与全局特征学习的图片分类方法,其特征在于,第六步,将高置信感兴趣局部特征与全局特征聚合后的特征,连结全连接层及Softmax分类器进行最终分类,其具体过程为:
(1)第五步的输出作为输入,连接全连接层;
(2)在步骤(1)的输出后,连接一个Softmax分类器,预测最后的分类结果。
8.一种高置信局部特征与全局特征学习的图片分类系统,其特征在于,包括:
深度分离卷积特征学习模块,采用深度分离卷积层的堆叠形式,嵌套下采样层,并通过预训练进行特征提取;
多尺度特征学习模块,采用三个不同尺度的卷积,提取多尺度特征,并构成特征张量;
候选局部感兴趣区域生成模块,采用不同步长的滑动窗口和非最大抑制方法去除冗余区域,生成候选局部感兴趣区域;
高置信局部感兴趣区域判别与特征学习模块,计算局部感兴趣候选区域属于类属标签的概率作为置信值,依据置信值构造排序一致性损失函数训练网络,并进行候选局部感兴趣区域排序,判别高置信感兴趣区域;
特征聚合模块,将提取的高置信局部感兴趣区域特征与全局特征聚合,得到特征拼接张量;
分类模块,根据聚合的特征,进行最终图片分类。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211002091.3A CN115346071A (zh) | 2022-08-20 | 2022-08-20 | 高置信局部特征与全局特征学习的图片分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211002091.3A CN115346071A (zh) | 2022-08-20 | 2022-08-20 | 高置信局部特征与全局特征学习的图片分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115346071A true CN115346071A (zh) | 2022-11-15 |
Family
ID=83953482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211002091.3A Pending CN115346071A (zh) | 2022-08-20 | 2022-08-20 | 高置信局部特征与全局特征学习的图片分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115346071A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245832A (zh) * | 2023-01-30 | 2023-06-09 | 北京医准智能科技有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN116342582A (zh) * | 2023-05-11 | 2023-06-27 | 湖南工商大学 | 基于可变形注意力机制的医学图像分类方法与医疗设备 |
CN116824499A (zh) * | 2023-06-28 | 2023-09-29 | 北京建筑大学 | 基于swt模型的害虫检测方法、系统、设备及存储介质 |
-
2022
- 2022-08-20 CN CN202211002091.3A patent/CN115346071A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245832A (zh) * | 2023-01-30 | 2023-06-09 | 北京医准智能科技有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN116245832B (zh) * | 2023-01-30 | 2023-11-14 | 浙江医准智能科技有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN116342582A (zh) * | 2023-05-11 | 2023-06-27 | 湖南工商大学 | 基于可变形注意力机制的医学图像分类方法与医疗设备 |
CN116342582B (zh) * | 2023-05-11 | 2023-08-04 | 湖南工商大学 | 基于可变形注意力机制的医学图像分类方法与医疗设备 |
CN116824499A (zh) * | 2023-06-28 | 2023-09-29 | 北京建筑大学 | 基于swt模型的害虫检测方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414377B (zh) | 一种基于尺度注意力网络的遥感图像场景分类方法 | |
CN112861978B (zh) | 一种基于注意力机制的多分支特征融合遥感场景图像分类方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
Zhang et al. | CDNet: A real-time and robust crosswalk detection network on Jetson nano based on YOLOv5 | |
CN115346071A (zh) | 高置信局部特征与全局特征学习的图片分类方法及系统 | |
CN105825502B (zh) | 一种基于显著性指导的词典学习的弱监督图像解析方法 | |
CN116229452B (zh) | 一种基于改进的多尺度特征融合的点云三维目标检测方法 | |
CN112419333B (zh) | 一种遥感影像自适应特征选择分割方法及系统 | |
CN112287983B (zh) | 一种基于深度学习的遥感图像目标提取系统和方法 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN115205672A (zh) | 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN116485860A (zh) | 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法 | |
CN114510594A (zh) | 一种基于自注意力机制的传统纹样子图检索方法 | |
CN117037004B (zh) | 基于多尺度特征融合和上下文增强的无人机影像检测方法 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
CN113011308A (zh) | 一种引入注意力机制的行人检测方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
Li et al. | An aerial image segmentation approach based on enhanced multi-scale convolutional neural network | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN117409358A (zh) | 一种融合BiFPN的轻量化火焰检测方法 | |
CN115311508A (zh) | 一种基于深度u型网络的单帧图像红外弱小目标检测方法 | |
Bashmal et al. | Language Integration in Remote Sensing: Tasks, datasets, and future directions | |
CN116935249A (zh) | 一种无人机场景下三维特征增强的小目标检测方法 | |
CN117197663A (zh) | 基于长距离依赖机制的多层融合图片分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |