CN116342931A - 一种多尺度注意力的毛皮图像分类方法、系统和存储介质 - Google Patents
一种多尺度注意力的毛皮图像分类方法、系统和存储介质 Download PDFInfo
- Publication number
- CN116342931A CN116342931A CN202310164677.8A CN202310164677A CN116342931A CN 116342931 A CN116342931 A CN 116342931A CN 202310164677 A CN202310164677 A CN 202310164677A CN 116342931 A CN116342931 A CN 116342931A
- Authority
- CN
- China
- Prior art keywords
- module
- attention
- scale
- fur
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000004220 aggregation Methods 0.000 claims abstract description 21
- 230000002776 aggregation Effects 0.000 claims abstract description 21
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims description 57
- 238000000605 extraction Methods 0.000 claims description 36
- 210000004209 hair Anatomy 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 26
- 230000003044 adaptive effect Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 abstract description 14
- 238000012546 transfer Methods 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 41
- 238000010586 diagram Methods 0.000 description 30
- 238000011176 pooling Methods 0.000 description 28
- 230000000694 effects Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 16
- 239000000523 sample Substances 0.000 description 14
- 230000004913 activation Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 12
- 241000282342 Martes americana Species 0.000 description 8
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 5
- 241000283973 Oryctolagus cuniculus Species 0.000 description 4
- 241000555745 Sciuridae Species 0.000 description 4
- 241000282485 Vulpes vulpes Species 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 2
- 241000282461 Canis lupus Species 0.000 description 2
- 241000499489 Castor canadensis Species 0.000 description 2
- 241000700112 Chinchilla Species 0.000 description 2
- 241000283073 Equus caballus Species 0.000 description 2
- 241000289581 Macropus sp. Species 0.000 description 2
- 235000011779 Menyanthes trifoliata Nutrition 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 241000700110 Myocastor coypus Species 0.000 description 2
- 241000772415 Neovison vison Species 0.000 description 2
- 241000699700 Ondatra zibethicus Species 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 241000282330 Procyon lotor Species 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/70—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in livestock or poultry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开的一种多尺度注意力的毛皮图像分类方法、系统和存储介质,本发明提出多尺度注意力图像分类方法,利用通道和空间注意力、多尺度特征提取网络、自适应决策融合方法准确地识别分类动物显微毛皮图像。首先通道注意力结合了通道间的互相关信息和前馈卷积神经网络支路,空间注意力结合了空间位置间的互相关信息和前馈卷积神经网络支路。然后使用自底向上的传递支路将低层的多通道语义特征传递到高层,再使用使用自顶向下的传递支路将高层的高分辨率空间特征融合到低层,通过特征聚合网络融合三个不同支路的特征,最后使用基于熵的自适应决策融合方法得出最后的分类结果。
Description
技术领域
本申请涉及数据处理和数据传输领域,更具体的,涉及一种多尺度注意力的毛皮图像分类方法、系统和存储介质。
背景技术
中国是动物皮毛工业大国,毛皮的总产量和消费量逐年增加。然而皮毛生产过程中对皮毛的识别仍主要依靠熟练工人的视觉识别,产品的稳定性和一致性无法保证,且由于动物毛皮显微图像具有细粒度图像分类任务中类内差距大类间差距小的特点,该项分类任务是一项巨大的挑战。
发明内容
鉴于上述问题,本发明的目的是提供一种多尺度注意力的毛皮图像分类方法、系统和存储介质。
本发明第一方面提供了一种多尺度注意力的毛皮图像分类方法,包括:
获取当前动物皮毛图片数据;
将所述当前动物皮毛图片数据发送至预设的第一检测模型中;
得到分类结果信息;
其中,所述预设的第一检测模型包括特征提取基础模块、多尺度特征提取模块、特征聚合模块、自适应决策融合模块。
本方案中,所述多尺度特征提取模块,具体为:
所述多尺度特征提取模块先进行元素加和将高层语义特征融合进底层,得到底层的结果;
把所述底层的结果融合到高层;
其中,在两条支路中加入了空间注意力模块和通道注意力模块。
本方案中,所述空间注意力模块,包括:
获取CBAM中的空间注意力模块;
将所述CBAM中的空间注意力模块根据预设规则进行改进;
得到所述空间注意力模块。
本方案中,所述通道注意力模块,包括:
获取CBAM中的通道注意力模块;
将所述CBAM中的通道注意力模块根据预设规则进行改进;
得到所述通道注意力模块。
本方案中,所述自适应决策融合模块,包括:
所述自适应决策融合模块采用自适应熵加权决策融合方法为不同网络的softmax输出赋予不同融合权重。
本方案中,将所述当前动物皮毛图片数据发送至预设的第一检测模型中之前,还包括:
获取数据集信息;
对所述数据集信息进行数据增强处理,得到增强数据集信息;
将所述增强数据集信息根据预设规则进行训练;
得到预设的第一检测模型。
本发明第二方面提供了一种多尺度注意力的毛皮图像分类系统,包括存储器和处理器,所述存储器中包括多尺度注意力的毛皮图像分类方法程序,所述多尺度注意力的毛皮图像分类方法程序被所述处理器执行时实现如下步骤:
获取当前动物皮毛图片数据;
将所述当前动物皮毛图片数据发送至预设的第一检测模型中;
得到分类结果信息;
其中,所述预设的第一检测模型包括特征提取基础模块、多尺度特征提取模块、特征聚合模块、自适应决策融合模块。
本方案中,所述多尺度特征提取模块,具体为:
所述多尺度特征提取模块先进行元素加和将高层语义特征融合进底层,得到底层的结果;
把所述底层的结果融合到高层;
其中,在两条支路中加入了空间注意力模块和通道注意力模块。
本方案中,所述空间注意力模块,包括:
获取CBAM中的空间注意力模块;
将所述CBAM中的空间注意力模块根据预设规则进行改进;
得到所述空间注意力模块。
本方案中,所述通道注意力模块,包括:
获取CBAM中的通道注意力模块;
将所述CBAM中的通道注意力模块根据预设规则进行改进;
得到所述通道注意力模块。
本方案中,所述自适应决策融合模块,包括:
所述自适应决策融合模块采用自适应熵加权决策融合方法为不同网络的softmax输出赋予不同融合权重。
本方案中,将所述当前动物皮毛图片数据发送至预设的第一检测模型中之前,还包括:
获取数据集信息;
对所述数据集信息进行数据增强处理,得到增强数据集信息;
将所述增强数据集信息根据预设规则进行训练;
得到预设的第一检测模型。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括一种多尺度注意力的毛皮图像分类方法程序,所述一种多尺度注意力的毛皮图像分类方法程序被处理器执行时,实现如上述任一项所述的一种多尺度注意力的毛皮图像分类方法的步骤。
本发明公开的一种多尺度注意力的毛皮图像分类方法、系统和存储介质,本发明提出多尺度注意力图像分类方法,利用通道和空间注意力、多尺度特征提取网络、自适应决策融合方法准确地识别分类动物显微毛皮图像。首先通道注意力结合了通道间的互相关信息和前馈卷积神经网络支路,空间注意力结合了空间位置间的互相关信息和前馈卷积神经网络支路。然后使用自底向上的传递支路将低层的多通道语义特征传递到高层,再使用使用自顶向下的传递支路将高层的高分辨率空间特征融合到低层,通过特征聚合网络融合三个不同支路的特征,最后使用基于熵的自适应决策融合方法得出最后的分类结果。
附图说明
图1示出了本发明一种多尺度注意力的毛皮图像分类方法的流程图;
图2示出了本发明一种空间注意力模块改进方法的流程图;
图3示出了本发明一种通道注意力模块改进方法的流程图;
图4示出了本发明一种多尺度注意力的毛皮图像分类系统的框图;
图5示出了本发明一种网络的总体架构结构的示意图;
图6示出了本发明一种多尺度注意力模块的示意图;
图7示出了本发明一种空间注意力模块的结构的示意图;
图8示出了本发明一种通道注意力模块的结构的示意图;
图9示出了本发明一种局部特征增强模块的结构的示意图;
图10示出了本发明一种自适应权重融合模块的结构的示意图;
图11示出了本发明一种数据集数据来源的示意图;
图12示出了本发明一种数据集处理后的示意图;
图13示出了本发明一种类别分类效果图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种多尺度注意力的毛皮图像分类方法的流程图。
如图1所示,本发明公开了一种多尺度注意力的毛皮图像分类方法,包括:
S102,获取当前动物皮毛图片数据;
S104,将所述当前动物皮毛图片数据发送至预设的第一检测模型中;
S106,得到分类结果信息;
其中,所述预设的第一检测模型包括特征提取基础模块、多尺度特征提取模块、特征聚合模块、自适应决策融合模块。
根据本发明实施例,常见的CNN网络如VGG[23],ResNet[24]、DenseNet[25]等在普通的图像分类任务上的效果比较好,但是对于细粒度图像分类任务还存在较大的优化改进空间。本发明提出一种弱监督网络,第一检测模型是基于ResNet50进行改进的图像分类方法,不需要人工标注,在兼顾分类高效性的同时,有出色的分类准确率。另外由于显微毛皮图像的特点是类内差异大类间差异小,可区分的特征相对于传统图像细粒度更低,因此将图像切分后再识别相当于增强局部的细粒度特征,将大图切块识别也可以减少分类的错误率。当图切块后,图像块的结果需要融合,而传统的融合方法是直接投票也就是所有图像块的置信度都视为1,不同的图像块的背景、干扰、质量不同,因此容易导致最后的分类结果准确率不高,因此本发明提出了基于信息熵的自适应融合决策方法,该方法基于网络对各个类别的分类结果进行自适应的权重调整,当模型无法很好地分辨该图像块类别时会将该图像块的结果置信度降低,以此避免对结果的影响。
网络的总体架构如图5所示,主要包含两个阶段,训练和测试阶段。
(1)训练阶段主要是训练网络模型,包含特征提取基础网络、多尺度特征提取网络、特征聚合网络、自适应决策融合模块组成。
(1.1)首先在特征提取基础网络阶段,使用的是resnet50作为特征提取主干网络,使用imageNet上的预训练模型用于网络参数初始化。在网络中,原始ResNet50的最后两层即平均池化和全连接层被移除以输出特征流。我们从conv2_10、conv3_12、conv4_18层提取多尺度特征,特征的维度分别为28x28x512、14x14x1024、7x7x2048作为多尺度注意力模块的3个分支输入。
(1.2)在多尺度注意力网络阶段,通过通道注意力模块和自底向上的支路、空间注意力模块且自顶向下的支路生成三种融合了不同层的纹理和语义的特征支路,增强了特征表达能力,提升了分类准确率。
(1.3)在特征聚合阶段,因为三个支路在不断地融合会有一定的冗余特征,所以将上一个阶段生成的三个支路分别通过特征聚合模块进行特征聚合,然后将特征拼接,最后通过全连接层输出结果标签。
(2)测试阶段主要是首先将图像切块,逐个通过训练好的CNN网络,会输出多个softmax概率矩阵,然后通过基于熵的自适应决策融合模块输出最终的标签结果。
根据本发明实施例,所述多尺度特征提取模块,具体为:
所述多尺度特征提取模块先进行元素加和将高层语义特征融合进底层,得到底层的结果;
把所述底层的结果融合到高层;
其中,在两条支路中加入了空间注意力模块和通道注意力模块。
需要说明的是,传统的CNN网络没有利用在不同阶段提取出的多尺度特征信息,只是使用最后一层卷积层的特征图进行分类,此方法仅适用于图像中有单一目标,而本发明研究的显微毛皮图像的特点是特征具有局部性与传统的ImageNet上的目标不同,需要通过局部纹理和全局的特征结合才能更好地完成分类,因此图像的纹理细节特征也十分重要。传统的FPN网络【引用】,只是将不同卷积层的特征图进行元素加和,仅仅是将高层语义特征融合进底层没有形成多尺度多层次的特征,而传统的Unet网络【引用】只是将不同卷积层的特征图进行通道拼接形成多尺度特征没有充分利用高层的语义信息。本发明的方法将两种方式相结合先进行元素加和将高层语义特征融合进底层然后再使用通道拼接将底层的结果融合到高层,其中在两条支路中还加入了空间和通道注意力模块进一步增强重要的特征,那么输出就是充分地融合了空间特征和语义特征多尺度多层次的特征图。
如图6所示,多尺度注意力模块包含两个传递支路,分别是自底向上和自顶向下的特征传递通道。首先自底向上的传递由CA模块、CBR模块、相加和上采样操作构成。CA模块的作用是提取特征图中的通道注意力,加强较为重要的通道语义特征。上采样的目的是对图像进行插值以增大分辨率就可以和其他较大分辨率通道的特征进行融合。CBR模块是Conv1x1、BatchNorm和Relu的结合,Conv1x1目的是降低通道维数、BatchNorm作用是加快模型收敛速度,有效避免梯度消失,提高模型泛化能力。Relu的作用是加入非线性因素,提高模型表达能力。
为了计算方便,在该模块前首先就将各个支路的特征通道数降低为256大小方便计算。自底向上的整个支路流程如下首先特征图F3∈RC×H×W经过CA通道注意力之后,会增强特征图中重要的通道特征。进行上采样调整至C2的大小,这里上采样采用的是基于插值或者学习的方法,然后和C2进行按照元素相加融合,再送入CBR模块进行特征平滑,这样就将C3的特征融入C2。然后将C3和C2融合后的特征通过上采样继续调整至C1的特征图大小并与C1相加融合。公式如下
P3=CA(F3)
P2=CBR(UP(P2)+F2)
P1=CBR(UP(P2)+SA(F1))
P3=CA(F3)
P2=CBR(UP(P2)+F2)
P1=CBR(UP(P2)+SA(F1))
其中CA是通道注意力模块,CBR模块是Conv1x1、BatchNorm和Relu的结合,UP是上采样操作,SA是空间注意力。
自顶向下的传递由SA模块、CBR模块、下采样和拼接操作构成首先是将C1先送到SA模块提取空间注意力,这样会增强空间特征。然后和上面上采样后的融合特征进行进一步地拼接融合,拼接融合和相加融合不同,前者是将特征进行组合使特征具有多样性而后者只是将特征进行增强增强,最后将融合后的特征通过CBR模块,至此生成C1'特征,这样就可以将底层的通道注意力特征融合进高层。最后会生成三个不同尺度的特征图C1'、C2'、C3'三个特征流有多层次多尺度的特征。
N3=CBR(Concat(DO(N2)+P3))
N2=CBR(Concat(DO(N1)+P2))
N1=P1其中DO是下采样操作,Concat是拼接操作。
根据本发明实施例,所述空间注意力模块,包括:
S202,获取CBAM中的空间注意力模块;
S204,将所述CBAM中的空间注意力模块根据预设规则进行改进;
S206,得到所述空间注意力模块。
需要说明的是,如图7所示,本发明的空间注意力模块基于CBAM中的空间注意力模块进行了改进,原有的模块首先将MaxPool和AvgPool的结果Concat再卷积最后通过激活函数生成空间注意力权重。CBAM的空间注意力模块的问题在于卷积之后没有使用MLP来增加非线性映射关系而导致特征的表达性能力有所丢失。本发明的模块在后面加了MLP网络,MLP网络由2个FC全连接层构成。
其中MaxPool表示全局平均池化,AvgPool表示全局最大池化
然后将两个结果拼接起来结果为Fconcat∈R2C×1×1,如下公式所示
其中Concat表示按通道的拼接操作。
由于拼接后的特征图通道数为2C,所需需要通过一个卷积层来改变通道的维数为C,如下公式所示
F'=Conv(Fconcat)
其中Conv表示1x1的通道卷积操作
最后再将F'转发到一个MLP多层感知机网络进行压缩维数,相当于是使用两个FC全连接层来生成通道注意力特征图Fr∈RC×1×1,最后通过Sigmoid激活函数。在通过激活函数后特征图的每一个权重值就会在(0,1)的范围内。
Fr=σ(MLP(F'))
其中σ表示Sigmoid激活函数。
通道注意力权重的最终计算公式如下
Fr(F)=σ(MLP(Conv(Concat(Avg(F),Max(F)))))
其中Fr(F)∈RC×1×1表示通道权重矩阵
在求得通道特征注意力权重后,将权重乘以原来的特征图得到注意力图,最后使用残差连接再将注意力图叠加到原特征上,最终生成结果特征图。公式表示如下
Fc=F·Fr(F)+F
其中Fc为结果特征图,F为原始特征图,Fr(F)为通道注意力权重。
根据本发明实施例,所述通道注意力模块,包括:
S302,获取CBAM中的通道注意力模块;
S304,将所述CBAM中的通道注意力模块根据预设规则进行改进;
S306,得到所述通道注意力模块。
需要说明的是,如图8所述,本发明的通道注意力模块基于CBAM中的通道注意力模块进行了改进,原有的模块首先将MaxPool和AvgPool的结果通过一个共享的MLP网络,再将结果相加通过激活函数生成通道注意力权重。CBAM中的通道注意力的问题在于将两个池化的结果相加可能会损失一定的空间信息,本发明的处理方式为在通过MLP之前将其拼接,再通过一个通道卷积层,相当于基于注意力的特征选择,会将有用的信息保留下来减少信息的损失,然后通过FC全连接层将维度映射至特征图的通道维度。
其中MaxPool表示全局平均池化,AvgPool表示全局最大池化
然后将两个结果拼接起来结果为Fconcat=R2C×1×1,如下公式所示
其中concat表示按通道的拼接操作。
由于拼接后的特征图通道数为2C,所需需要通过一个通道卷积层Con1x1来改变通道的维数为C,如下公式所示
F′=Conv(Fconcat)
其中Conv表示1x1的通道卷积操作
最后再将F′转发到一个MLP多层感知机网络进行压缩维数,相当于是使用两个FC全连接层来生成通道注意力特征图Fr∈RC×1×1,最后通过Sigmoid激活函数。在通过激活函数后特征图的每一个权重值就会在(0,1)的范围内。
Fr=σ(MLP(F′))
其中σ表示Sigmoid激活函数。
通道注意力权重的最终计算公式如下
Fr(F)=σ(MLP(Conv(Concat(Avg(F),Max(F))))
其中Fr(F)∈RC×1×1表示通道权重矩阵
在求得通道特征注意力权重后,将权重乘以原来的特征图得到注意力图,最后使用残差连接再将注意力图叠加到原特征上,最终生成结果特征图。公式表示如下
Fc=F·Fr(F)+F
其中Fc为结果特征图,F为原始特征图,Fr(F)为通道注意力权重。
局部特征增强模块如图9所示,经过多尺度特征提取模块后,3个支路的特征维度较高,特征冗余,因此需要特征聚合模块进一步过滤筛选并增强重要的特征,减少一定的特征冗余和计算量。
该模块由通道卷积、池化、展开操作和FC组成。首先使用通过池化降低空间分辨率增大特征的感受野,再将每个像素的所有通道特征直接展开,再通过通道卷积和FC全连接层,这样相当于基于图像特征的注意力,将特征图中重要的特征信息保留下来并去除冗余特征以提升分类准确度。整个过程可以用以下公式表示。
F=FC(Conv(Flattern(Pooling(x))))
其中x表示输入特征图,Pooling表示平均池化,Conv表示卷积核大小为1的通道卷积,FC表示全连接层,Flattern表示将特征展开消去空间维度。
根据本发明实施例,所述自适应决策融合模块,包括:
所述自适应决策融合模块采用自适应熵加权决策融合方法为不同网络的softmax输出赋予不同融合权重。
需要说明的是,在测试阶段,由于最终决策融合的图像块有多个,所以需要特征融合方法进行结果融合,如图10所示。每个图像块会有自己的softmax概率矩阵,该矩阵描述了模型认为的各个类别概率,当某个类别的概率越高说明模型认为图像是该类别的可能性越高,但是也有可能两个类别很相似,那么模型可以会认为两个类别的概率都很高,所以这种情况下该决策结果是不太可信的,因此要置于较低的权重使其置信度较低。
最大输出概率决策融合方法是一种最简单的决策融合方法,该方法通过对不同子网络输出的概率计算出最大值的方式来求出输入图像最终的所属类别。如果每个分类器的输出概率的最大值出现在同一类别上,决策结果就没有变化,然而,随着概率的变化,决策的可能性有很大的不同。这种方法没有涉及各个分类器在决策融合时所占的权重,然而每个分类器所占的融合权重决定着决策融合的分类效果。不同的子网络提取到的特征不同,并且样本具有一定的随机性,所以需要制定一个适合的决策方法,进而获得最优的分类性能。
使用自适应熵加权决策融合方法为不同网络的softmax输出赋予不同融合权重,进一步提高算法的分类准确率,同时确保模型具有更好的稳定性和鲁棒性。本发明参与决策的图像块有多个,因此融合决策会由多个图像输出概率值进行自适应熵加权决策融合得到最终分类结果。具体的自适应熵加权决策融合算法如下。
输入的多个Softmax函数并行输出时,可以得到概率输出矩阵为
其中m为图像块的个数,n为类别数量,pij(x)表示第i个图像块对于类别j的概率。每一行概率最大的列标即为每个图像的Softmax函数对该样本的预测类别。输入样本属于每一类的概率值的特点将对分类准确率产生影响,具体为,如果各个概率值的差别越小,分类的不确定性就越大;如果最大的概率值与其他概率值的差别越大,则分类结果越可靠。因此,本发明引入如式(2)所示的信息熵Hi(x)来表征输入样本被第个i子网络的Softmax函数分类的不确定性。
其中,pij(x)表示第个子网络的Softmax函数将输入样本判为属于类的概率,如果某个子网络的Softmax函数的信息熵的值越大,分类的不确定性就越高,则该网络的Softmax函数对输入样本的分类能力就差,该网络的Softmax函数对输入样本的融合权重就越小,反之亦然。因此,Softmax函数的自适应的融合权重计算公式为
因此矩阵为
将P(x)按列加权求和,则加权求和后的最大值的标签就是决策融合的结果,如式所示
自适应熵加权决策融合算法充分考虑了不同图像块的Softmax函数并自适应地对不同的输入图像赋予更为合理的融合权重,降低softmax矩阵熵高的图像块权重
提升softmax矩阵熵低的图像块权重,提升分类的准确度。
根据本发明实施例,将所述当前动物皮毛图片数据发送至预设的第一检测模型中之前,还包括:
获取数据集信息;
对所述数据集信息进行数据增强处理,得到增强数据集信息;
将所述增强数据集信息根据预设规则进行训练;
得到预设的第一检测模型。
需要说明的是,本模型的损失函数使用的是训练阶段的多分类交叉熵损失对网络进行优化。
其中N表示样本数量,i表示样本的序号,c表示类别,M表示类别的数量,pic表示观测样本属于类别c的预测概率,yic是符号函数,如果样本的真实类别等于c取1,否则取0。
如图11所述,数据集主要由24类动物毛皮组成,分别为水貂、袋鼠、羊、狐狸、黄狼、貂子、牛、美洲貂、紫貂、海狸、旱獭、马、毛丝鼠、石貂、浣熊、渔貂、猸子、江獭、海狸鼠、灰鼠、麝鼠、狸子、松鼠和兔。从未分割的24类动物毛皮数据集可以看出,江獭,狸子,松鼠和兔等毛皮具有很强的相似性,猸子和马毛也具有较高相似性,因此该数据集符合细粒度图像数据集类内差距大,类间差距小的特点,并且关键特征隐藏在图像的局部(如毛皮的边是否有刺,毛皮的中间部位是否具有区别性),可以将该数据集用于进行后续实验。另外,该数据集由于是通过显微镜拍摄,部分数据集中含有较明显的噪声,即图像信噪比较低,这部分数据在后续处理中可能被抛弃。
由于初始数据集每一类只有100张左右,分辨率为768*576,所以为了扩充数据集提升识别效果,使用图像切分将每张图像切分至更小的尺寸且将只包含背景的图像去除最后生成数据集。最终生成的数据集每一类有1500张,一共24类。
由于显微镜下的图片背景与光照调节有关,因此难以保证所有图像拥有相同的背景,由于图像进行了分割,部分图像的背景可能占据了绝大部分图像的信息。因此,背景颜色的深浅也成为了干扰图像分类准确率的因素。由于原始的动物毛皮显微图像中含有多根毛,且不通部位的毛的图像差异大,部分图像中空白区域较多,因此,本发明对数据集进行了切片,将动物毛皮图像切分成3×3大小的子图。这一方面可以强化图像中的特征,提升了图像质量,而且也扩展了数据集,有利于提升分类准确率。
边缘像素检测用于检查图像边缘像素,由于毛皮只存在于较少面积的图像噪声往往过大,会对其他类别的图像分类产生干扰,因此我们将他们除去。我们从四条边框起检测图像外层20%区域的像素值,每有一种新像素值则记为Ki。记录Ki的数目,若Ki的数目小于阈值,则剔除该图像,具体表达式如下:
在进行子图分割后,图像的细节特征被更加明显地展示出来。同时,不同毛皮间的差距也清晰了,不同类别间的毛皮特征可以被更容易地进行区分。
处理后图像如图12所示,该处理的优点是扩展了数据集以及强化了数据集的类特征。使用处理后的图像数据集能够在单张图像中放大图像细节信息,有利于后续网络对图像特征的提取。
根据本发明实施例,对所述数据集信息进行数据增强处理,得到增强数据集信息,包括:
对所述数据集信息进行数据增强处理包括旋转、翻转、缩放、平移、随机裁剪、改变亮度、改变饱和度、改变色调。
需要说明的是,为避免网络因为图像样本质量以及数据集的多样性而导致欠拟合或过拟合问题,采用旋转、翻转、缩放、平移、随机裁剪、改变亮度、改变饱和度、改变色调的方法进行预处理。对于翻转,以50%的概率水平或竖直翻转每一张训练图像,以允许网络在训练时能充分观察图像的变化,增强抗干扰性。对于旋转,以图像为原点进行10度的小角度旋转;平移的方法中,将图像进行略微上下和左右平移,可以增强网络的鲁棒性。随机裁剪中,会将图像中部分区域截取下来然后放大到224*224的大小,这样可以提取出图像更细粒的特征,更加适合本发明研究的显微图像。改变亮度、饱和度、色调的方法中,随机更改图像的这三种属性,变化范围为1至1.35,在这个范围中图像的可视性不会改变,也是增强了模型的鲁棒性。
根据本发明实施例,还包括:
所述数据集包括训练集、验证集和测试集。
需要说明的是,实验使用的是自己制作的数据集,使用在ImageNet上预训练的骨干网络。训练网络时使用训练集、验证集,测试网络时使用测试集,比例为(8:1:1)。运行环境是Python3.8、Pytorch1.7;图像增强方法使用了随机裁剪、随机改变图像的亮度,饱和度,色调,其中改变的范围是原图的1到1.35、水平翻转、竖直翻转。选择带动量的随机梯度下降SGD作为优化器,采用余弦滚降的学习率衰减策略,初始学习率设为0.01;共训练50轮,批大小为32,输入图像的尺寸有224*224。服务器设备为Ubuntu18.04操作系统,CPU是i910900K,显卡为3090,显存24G,内存128G。
根据本发明实施例,还包括:
消融实验。
需要说明的是,首先本发明使用了图像切块的操作,扩充了数据集,使得原本每类100张图像的数据集扩充到每类1500张,在使用该方法前后的效果如图。
Method | Acc |
ResNet50 | 0.747 |
ResNet50+Pieces | 0.802 |
可以看到,将数据集进行操作后可以对识别效果进行一定的提升,也算是一种图像增强手段。后序的所有方法都将采用该方法不再赘述。
Method | Acc |
ResNet50 | 0.802 |
ResNet50+SENet | 0.832 |
ResNet50+CBAM | 0.835 |
ResNet50+注意力模块 | 0.844 |
表格对比了现有的注意力模块,可以看出在加入本发明的注意力模块后效果比SENet和CBAM效果都好。
Method | Acc |
ResNet50 | 0.802 |
+多尺度空间注意力模块 | 0.837 |
+多尺度注意力模块 | 0.844 |
+自适应融合决策模块 | 0.863 |
如表所示,基于ResNet50原始网络的准确率只有0.802,在加上多尺度注意力模块后模型能提取到的多尺度的特征其中包含纹理特征和语义特征,准确率为0.855,再加入特征聚合模块后准确率为0.863,再加上自适应融合决策模块后,多个图像块的结果加入自适应权重且共同决策准确率可达到0.889,可以看出改进后的方法在识别效果上的可靠性。
根据本发明实施例,还包括:
对比实验。
需要说明的是,参数量对比将多尺度注意力模块和FPN和Unet结构进行对比再加一下网络如VGG,那种经典的网络模型中一些不同参数的不同结果对比(如VIT的patch等超参数大小)Loss曲线,acc曲线,F1_score曲线混淆矩阵Gradcam图(可视化结果),包括加了各种模块之后的,还有对比其他算法的类别分类效果图,如图13所示。
Algorithm | Acc |
ResNet50 | 0.802 |
ResNet50+CBAM | 0.835 |
MobileNetV3-Small | 0.738 |
EfficientNetV2-S | 0.863 |
MobileViT-X | 0.773 |
Vision Transformer | 0.852 |
ResNet101 | 0.854 |
Ours | 0.863 |
可以看到原始的ResNet50网络只有0.802,在原始的ResNet50网络加入CBAM注意力模块后准确率有了一定提升,提升至0.835;EfficientNetV2-S模型是2021年提出的一种网络,训练速度更快参数量更小同时提出渐进式学习策略【引用】,准确率可以达到0.837。MobileViT-X是2021年提出的方法,基于mobilenetV3作为骨干网络,采用CNN与Transformer的混合架构,准确率可以达到0.773但是它参数量很小,训练和推理速度很快。Resnet101是Resnet50的升级版,增加了网络深度和参数,准确率可以达到0.854。本发明的算法准确率可以达到0.863均领先于其他方法,可以证明其有效性。
图4示出了本发明一种多尺度注意力的毛皮图像分类系统的框图。
如图4所示,本发明第二方面提供了一种多尺度注意力的毛皮图像分类系统4,包括存储器41和处理器42,所述存储器中包括多尺度注意力的毛皮图像分类方法程序,所述多尺度注意力的毛皮图像分类方法程序被所述处理器执行时实现如下步骤:
获取当前动物皮毛图片数据;
将所述当前动物皮毛图片数据发送至预设的第一检测模型中;
得到分类结果信息;
其中,所述预设的第一检测模型包括特征提取基础模块、多尺度特征提取模块、特征聚合模块、自适应决策融合模块。
根据本发明实施例,常见的CNN网络如VGG[23],ResNet[24]、DenseNet[25]等在普通的图像分类任务上的效果比较好,但是对于细粒度图像分类任务还存在较大的优化改进空间。本发明提出一种弱监督网络,第一检测模型是基于ResNet50进行改进的图像分类方法,不需要人工标注,在兼顾分类高效性的同时,有出色的分类准确率。另外由于显微毛皮图像的特点是类内差异大类间差异小,可区分的特征相对于传统图像细粒度更低,因此将图像切分后再识别相当于增强局部的细粒度特征,将大图切块识别也可以减少分类的错误率。当图切块后,图像块的结果需要融合,而传统的融合方法是直接投票也就是所有图像块的置信度都视为1,不同的图像块的背景、干扰、质量不同,因此容易导致最后的分类结果准确率不高,因此本发明提出了基于信息熵的自适应融合决策方法,该方法基于网络对各个类别的分类结果进行自适应的权重调整,当模型无法很好地分辨该图像块类别时会将该图像块的结果置信度降低,以此避免对结果的影响。
网络的总体架构如图5所示,主要包含两个阶段,训练和测试阶段。
(1)训练阶段主要是训练网络模型,包含特征提取基础网络、多尺度特征提取网络、特征聚合网络、自适应决策融合模块组成。
(1.1)首先在特征提取基础网络阶段,使用的是resnet50作为特征提取主干网络,使用imageNet上的预训练模型用于网络参数初始化。在网络中,原始ResNet50的最后两层即平均池化和全连接层被移除以输出特征流。我们从conv2_10、conv3_12、conv4_18层提取多尺度特征,特征的维度分别为28x28x512、14x14x1024、7x7x2048作为多尺度注意力模块的3个分支输入。
(1.2)在多尺度注意力网络阶段,通过通道注意力模块和自底向上的支路、空间注意力模块且自顶向下的支路生成三种融合了不同层的纹理和语义的特征支路,增强了特征表达能力,提升了分类准确率。
(1.3)在特征聚合阶段,因为三个支路在不断地融合会有一定的冗余特征,所以将上一个阶段生成的三个支路分别通过特征聚合模块进行特征聚合,然后将特征拼接,最后通过全连接层输出结果标签。
(2)测试阶段主要是首先将图像切块,逐个通过训练好的CNN网络,会输出多个softmax概率矩阵,然后通过基于熵的自适应决策融合模块输出最终的标签结果。
根据本发明实施例,所述多尺度特征提取模块,具体为:
所述多尺度特征提取模块先进行元素加和将高层语义特征融合进底层,得到底层的结果;
把所述底层的结果融合到高层;
其中,在两条支路中加入了空间注意力模块和通道注意力模块。
需要说明的是,传统的CNN网络没有利用在不同阶段提取出的多尺度特征信息,只是使用最后一层卷积层的特征图进行分类,此方法仅适用于图像中有单一目标,而本发明研究的显微毛皮图像的特点是特征具有局部性与传统的ImageNet上的目标不同,需要通过局部纹理和全局的特征结合才能更好地完成分类,因此图像的纹理细节特征也十分重要。传统的FPN网络【引用】,只是将不同卷积层的特征图进行元素加和,仅仅是将高层语义特征融合进底层没有形成多尺度多层次的特征,而传统的Unet网络【引用】只是将不同卷积层的特征图进行通道拼接形成多尺度特征没有充分利用高层的语义信息。本发明的方法将两种方式相结合先进行元素加和将高层语义特征融合进底层然后再使用通道拼接将底层的结果融合到高层,其中在两条支路中还加入了空间和通道注意力模块进一步增强重要的特征,那么输出就是充分地融合了空间特征和语义特征多尺度多层次的特征图。
如图6所示,多尺度注意力模块包含两个传递支路,分别是自底向上和自顶向下的特征传递通道。首先自底向上的传递由CA模块、CBR模块、相加和上采样操作构成。CA模块的作用是提取特征图中的通道注意力,加强较为重要的通道语义特征。上采样的目的是对图像进行插值以增大分辨率就可以和其他较大分辨率通道的特征进行融合。CBR模块是Conv1x1、BatchNorm和Relu的结合,Conv1x1目的是降低通道维数、BatchNorm作用是加快模型收敛速度,有效避免梯度消失,提高模型泛化能力。Relu的作用是加入非线性因素,提高模型表达能力。
为了计算方便,在该模块前首先就将各个支路的特征通道数降低为256大小方便计算。自底向上的整个支路流程如下首先特征图F3∈RC×H×W经过CA通道注意力之后,会增强特征图中重要的通道特征。进行上采样调整至C2的大小,这里上采样采用的是基于插值或者学习的方法,然后和C2进行按照元素相加融合,再送入CBR模块进行特征平滑,这样就将C3的特征融入C2。然后将C3和C2融合后的特征通过上采样继续调整至C1的特征图大小并与C1相加融合。公式如下
P3=CA(F3)
P2=CBR(UP(P2)+F2)
P1=CBR(UP(P2)+SA(F1))
P3=CA(F3)
P2=CBR(UP(P2)+F2)
P1=CBR(UP(P2)+SA(F1))
其中CA是通道注意力模块,CBR模块是Conv1x1、BatchNorm和Relu的结合,UP是上采样操作,SA是空间注意力。
自顶向下的传递由SA模块、CBR模块、下采样和拼接操作构成首先是将C1先送到SA模块提取空间注意力,这样会增强空间特征。然后和上面上采样后的融合特征进行进一步地拼接融合,拼接融合和相加融合不同,前者是将特征进行组合使特征具有多样性而后者只是将特征进行增强增强,最后将融合后的特征通过CBR模块,至此生成C1'特征,这样就可以将底层的通道注意力特征融合进高层。最后会生成三个不同尺度的特征图C1'、C2'、C3'三个特征流有多层次多尺度的特征。
N3=CBR(Concat(DO(N2)+P3))
N2=CBR(Concat(DO(N1)+P2))
N1=P1
其中DO是下采样操作,Concat是拼接操作。
根据本发明实施例,所述空间注意力模块,包括:
获取CBAM中的空间注意力模块;
将所述CBAM中的空间注意力模块根据预设规则进行改进;
得到所述空间注意力模块。
需要说明的是,如图7所示,本发明的空间注意力模块基于CBAM中的空间注意力模块进行了改进,原有的模块首先将MaxPool和AvgPool的结果Concat再卷积最后通过激活函数生成空间注意力权重。CBAM的空间注意力模块的问题在于卷积之后没有使用MLP来增加非线性映射关系而导致特征的表达性能力有所丢失。本发明的模块在后面加了MLP网络,MLP网络由2个FC全连接层构成。
其中MaxPool表示全局平均池化,AvgPool表示全局最大池化
然后将两个结果拼接起来结果为Fconcat∈R2C×1×1,如下公式所示
其中Concat表示按通道的拼接操作。
由于拼接后的特征图通道数为2C,所需需要通过一个卷积层来改变通道的维数为C,如下公式所示
F'=Conv(Fconcat)
其中Conv表示1x1的通道卷积操作
最后再将F'转发到一个MLP多层感知机网络进行压缩维数,相当于是使用两个FC全连接层来生成通道注意力特征图Fr∈RC×1×1,最后通过Sigmoid激活函数。在通过激活函数后特征图的每一个权重值就会在(0,1)的范围内。
Fr=σ(MLP(F'))
其中σ表示Sigmoid激活函数。
通道注意力权重的最终计算公式如下
Fr(F)=σ(MLP(Conv(Concat(Avg(F),Max(F)))))
其中Fr(F)∈RC×1×1表示通道权重矩阵
在求得通道特征注意力权重后,将权重乘以原来的特征图得到注意力图,最后使用残差连接再将注意力图叠加到原特征上,最终生成结果特征图。公式表示如下
Fc=F·Fr(F)+F
其中Fc为结果特征图,F为原始特征图,Fr(F)为通道注意力权重。
根据本发明实施例,所述通道注意力模块,包括:
获取CBAM中的通道注意力模块;
将所述CBAM中的通道注意力模块根据预设规则进行改进;
得到所述通道注意力模块。
需要说明的是,如图8所述,本发明的通道注意力模块基于CBAM中的通道注意力模块进行了改进,原有的模块首先将MaxPool和AvgPool的结果通过一个共享的MLP网络,再将结果相加通过激活函数生成通道注意力权重。CBAM中的通道注意力的问题在于将两个池化的结果相加可能会损失一定的空间信息,本发明的处理方式为在通过MLP之前将其拼接,再通过一个通道卷积层,相当于基于注意力的特征选择,会将有用的信息保留下来减少信息的损失,然后通过FC全连接层将维度映射至特征图的通道维度。
其中MaxPool表示全局平均池化,AvgPool表示全局最大池化
然后将两个结果拼接起来结果为Fconcat=R2C×1×1,如下公式所示
其中concat表示按通道的拼接操作。
由于拼接后的特征图通道数为2C,所需需要通过一个通道卷积层Con1x1来改变通道的维数为C,如下公式所示
F′=Conv(Fconcat)
其中Conv表示1x1的通道卷积操作
最后再将F′转发到一个MLP多层感知机网络进行压缩维数,相当于是使用两个FC全连接层来生成通道注意力特征图Fr∈RC×1×1,最后通过Sigmoid激活函数。在通过激活函数后特征图的每一个权重值就会在(0,1)的范围内。
Fr=σ(MLP(F′))
其中σ表示Sigmoid激活函数。
通道注意力权重的最终计算公式如下
Fr(F)-σ(MLP(Conv(Concat(Avg(F),Max(F))))
其中Fr(F)=∈RC×1×1表示通道权重矩阵
在求得通道特征注意力权重后,将权重乘以原来的特征图得到注意力图,最后使用残差连接再将注意力图叠加到原特征上,最终生成结果特征图。公式表示如下
Fc=F·Fr(F)+F
其中Fc为结果特征图,F为原始特征图,Fr(F)为通道注意力权重。
局部特征增强模块如图9所示,经过多尺度特征提取模块后,3个支路的特征维度较高,特征冗余,因此需要特征聚合模块进一步过滤筛选并增强重要的特征,减少一定的特征冗余和计算量。
该模块由通道卷积、池化、展开操作和FC组成。首先使用通过池化降低空间分辨率增大特征的感受野,再将每个像素的所有通道特征直接展开,再通过通道卷积和FC全连接层,这样相当于基于图像特征的注意力,将特征图中重要的特征信息保留下来并去除冗余特征以提升分类准确度。整个过程可以用以下公式表示。
F=FC(Conv(Flattern(Pooling(x))))
其中x表示输入特征图,Pooling表示平均池化,Conv表示卷积核大小为1的通道卷积,FC表示全连接层,Flattern表示将特征展开消去空间维度。
根据本发明实施例,所述自适应决策融合模块,包括:
所述自适应决策融合模块采用自适应熵加权决策融合方法为不同网络的softmax输出赋予不同融合权重。
需要说明的是,在测试阶段,由于最终决策融合的图像块有多个,所以需要特征融合方法进行结果融合,如图10所示。每个图像块会有自己的softmax概率矩阵,该矩阵描述了模型认为的各个类别概率,当某个类别的概率越高说明模型认为图像是该类别的可能性越高,但是也有可能两个类别很相似,那么模型可以会认为两个类别的概率都很高,所以这种情况下该决策结果是不太可信的,因此要置于较低的权重使其置信度较低。
最大输出概率决策融合方法是一种最简单的决策融合方法,该方法通过对不同子网络输出的概率计算出最大值的方式来求出输入图像最终的所属类别。如果每个分类器的输出概率的最大值出现在同一类别上,决策结果就没有变化,然而,随着概率的变化,决策的可能性有很大的不同。这种方法没有涉及各个分类器在决策融合时所占的权重,然而每个分类器所占的融合权重决定着决策融合的分类效果。不同的子网络提取到的特征不同,并且样本具有一定的随机性,所以需要制定一个适合的决策方法,进而获得最优的分类性能。
使用自适应熵加权决策融合方法为不同网络的softmax输出赋予不同融合权重,进一步提高算法的分类准确率,同时确保模型具有更好的稳定性和鲁棒性。本发明参与决策的图像块有多个,因此融合决策会由多个图像输出概率值进行自适应熵加权决策融合得到最终分类结果。具体的自适应熵加权决策融合算法如下。
输入的多个Softmax函数并行输出时,可以得到概率输出矩阵为
其中m为图像块的个数,n为类别数量,pij(x)表示第i个图像块对于类别j的概率。每一行概率最大的列标即为每个图像的Softmax函数对该样本的预测类别。输入样本属于每一类的概率值的特点将对分类准确率产生影响,具体为,如果各个概率值的差别越小,分类的不确定性就越大;如果最大的概率值与其他概率值的差别越大,则分类结果越可靠。因此,本发明引入如式(2)所示的信息熵Hi(x)来表征输入样本被第个i子网络的Softmax函数分类的不确定性。
其中,pij(x)表示第个子网络的Softmax函数将输入样本判为属于类的概率,如果某个子网络的Softmax函数的信息熵的值越大,分类的不确定性就越高,则该网络的Softmax函数对输入样本的分类能力就差,该网络的Softmax函数对输入样本的融合权重就越小,反之亦然。因此,Softmax函数的自适应的融合权重计算公式为
因此矩阵为
将P(x)按列加权求和,则加权求和后的最大值的标签就是决策融合的结果,如式所示
自适应熵加权决策融合算法充分考虑了不同图像块的Softmax函数并自适应地对不同的输入图像赋予更为合理的融合权重,降低softmax矩阵熵高的图像块权重
提升softmax矩阵熵低的图像块权重,提升分类的准确度。
根据本发明实施例,将所述当前动物皮毛图片数据发送至预设的第一检测模型中之前,还包括:
获取数据集信息;
对所述数据集信息进行数据增强处理,得到增强数据集信息;
将所述增强数据集信息根据预设规则进行训练;
得到预设的第一检测模型。
需要说明的是,本模型的损失函数使用的是训练阶段的多分类交叉熵损失对网络进行优化。
其中N表示样本数量,i表示样本的序号,c表示类别,M表示类别的数量,pic表示观测样本属于类别c的预测概率,yic是符号函数,如果样本的真实类别等于c取1,否则取0。
如图11所述,数据集主要由24类动物毛皮组成,分别为水貂、袋鼠、羊、狐狸、黄狼、貂子、牛、美洲貂、紫貂、海狸、旱獭、马、毛丝鼠、石貂、浣熊、渔貂、猸子、江獭、海狸鼠、灰鼠、麝鼠、狸子、松鼠和兔。从未分割的24类动物毛皮数据集可以看出,江獭,狸子,松鼠和兔等毛皮具有很强的相似性,猸子和马毛也具有较高相似性,因此该数据集符合细粒度图像数据集类内差距大,类间差距小的特点,并且关键特征隐藏在图像的局部(如毛皮的边是否有刺,毛皮的中间部位是否具有区别性),可以将该数据集用于进行后续实验。另外,该数据集由于是通过显微镜拍摄,部分数据集中含有较明显的噪声,即图像信噪比较低,这部分数据在后续处理中可能被抛弃。
由于初始数据集每一类只有100张左右,分辨率为768*576,所以为了扩充数据集提升识别效果,使用图像切分将每张图像切分至更小的尺寸且将只包含背景的图像去除最后生成数据集。最终生成的数据集每一类有1500张,一共24类。
由于显微镜下的图片背景与光照调节有关,因此难以保证所有图像拥有相同的背景,由于图像进行了分割,部分图像的背景可能占据了绝大部分图像的信息。因此,背景颜色的深浅也成为了干扰图像分类准确率的因素。由于原始的动物毛皮显微图像中含有多根毛,且不通部位的毛的图像差异大,部分图像中空白区域较多,因此,本发明对数据集进行了切片,将动物毛皮图像切分成3×3大小的子图。这一方面可以强化图像中的特征,提升了图像质量,而且也扩展了数据集,有利于提升分类准确率。
边缘像素检测用于检查图像边缘像素,由于毛皮只存在于较少面积的图像噪声往往过大,会对其他类别的图像分类产生干扰,因此我们将他们除去。我们从四条边框起检测图像外层20%区域的像素值,每有一种新像素值则记为Ki。记录Ki的数目,若Ki的数目小于阈值,则剔除该图像,具体表达式如下:
在进行子图分割后,图像的细节特征被更加明显地展示出来。同时,不同毛皮间的差距也清晰了,不同类别间的毛皮特征可以被更容易地进行区分。
处理后图像如图12所示,该处理的优点是扩展了数据集以及强化了数据集的类特征。使用处理后的图像数据集能够在单张图像中放大图像细节信息,有利于后续网络对图像特征的提取。
根据本发明实施例,对所述数据集信息进行数据增强处理,得到增强数据集信息,包括:
对所述数据集信息进行数据增强处理包括旋转、翻转、缩放、平移、随机裁剪、改变亮度、改变饱和度、改变色调。
需要说明的是,为避免网络因为图像样本质量以及数据集的多样性而导致欠拟合或过拟合问题,采用旋转、翻转、缩放、平移、随机裁剪、改变亮度、改变饱和度、改变色调的方法进行预处理。对于翻转,以50%的概率水平或竖直翻转每一张训练图像,以允许网络在训练时能充分观察图像的变化,增强抗干扰性。对于旋转,以图像为原点进行10度的小角度旋转;平移的方法中,将图像进行略微上下和左右平移,可以增强网络的鲁棒性。随机裁剪中,会将图像中部分区域截取下来然后放大到224*224的大小,这样可以提取出图像更细粒的特征,更加适合本发明研究的显微图像。改变亮度、饱和度、色调的方法中,随机更改图像的这三种属性,变化范围为1至1.35,在这个范围中图像的可视性不会改变,也是增强了模型的鲁棒性。
根据本发明实施例,还包括:
所述数据集包括训练集、验证集和测试集。
需要说明的是,实验使用的是自己制作的数据集,使用在ImageNet上预训练的骨干网络。训练网络时使用训练集、验证集,测试网络时使用测试集,比例为(8:1:1)。运行环境是Python3.8、Pytorch1.7;图像增强方法使用了随机裁剪、随机改变图像的亮度,饱和度,色调,其中改变的范围是原图的1到1.35、水平翻转、竖直翻转。选择带动量的随机梯度下降SGD作为优化器,采用余弦滚降的学习率衰减策略,初始学习率设为0.01;共训练50轮,批大小为32,输入图像的尺寸有224*224。服务器设备为Ubuntu18.04操作系统,CPU是i910900K,显卡为3090,显存24G,内存128G。
根据本发明实施例,还包括:
消融实验。
需要说明的是,首先本发明使用了图像切块的操作,扩充了数据集,使得原本每类100张图像的数据集扩充到每类1500张,在使用该方法前后的效果如图。
Method | Acc |
ResNet50 | 0.747 |
ResNet50+Pieces | 0.802 |
可以看到,将数据集进行操作后可以对识别效果进行一定的提升,也算是一种图像增强手段。后序的所有方法都将采用该方法不再赘述。
Method | Acc |
ResNet50 | 0.802 |
ResNet50+SENet | 0.832 |
ResNet50+CBAM | 0.835 |
ResNet50+注意力模块 | 0.844 |
表格对比了现有的注意力模块,可以看出在加入本发明的注意力模块后效果比SENet和CBAM效果都好。
Method | Acc |
ResNet50 | 0.802 |
+多尺度空间注意力模块 | 0.837 |
+多尺度注意力模块 | 0.844 |
+自适应融合决策模块 | 0.863 |
如表所示,基于ResNet50原始网络的准确率只有0.802,在加上多尺度注意力模块后模型能提取到的多尺度的特征其中包含纹理特征和语义特征,准确率为0.855,再加入特征聚合模块后准确率为0.863,再加上自适应融合决策模块后,多个图像块的结果加入自适应权重且共同决策准确率可达到0.889,可以看出改进后的方法在识别效果上的可靠性。
根据本发明实施例,还包括:
对比实验。
需要说明的是,参数量对比将多尺度注意力模块和FPN和Unet结构进行对比再加一下网络如VGG,那种经典的网络模型中一些不同参数的不同结果对比(如VIT的patch等超参数大小)Loss曲线,acc曲线,F1_score曲线混淆矩阵Gradcam图(可视化结果),包括加了各种模块之后的,还有对比其他算法的类别分类效果图,如图13所示。
Algorithm | Acc |
ResNet50 | 0.802 |
ResNet50+CBAM | 0.835 |
MobileNetV3-Small | 0.738 |
EfficientNetV2-S | 0.863 |
MobileViT-X | 0.773 |
Vision Transformer | 0.852 |
ResNet101 | 0.854 |
Ours | 0.863 |
可以看到原始的ResNet50网络只有0.802,在原始的ResNet50网络加入CBAM注意力模块后准确率有了一定提升,提升至0.835;EfficientNetV2-S模型是2021年提出的一种网络,训练速度更快参数量更小同时提出渐进式学习策略【引用】,准确率可以达到0.837。MobileViT-X是2021年提出的方法,基于mobilenetV3作为骨干网络,采用CNN与Transformer的混合架构,准确率可以达到0.773但是它参数量很小,训练和推理速度很快。Resnet101是Resnet50的升级版,增加了网络深度和参数,准确率可以达到0.854。本发明的算法准确率可以达到0.863均领先于其他方法,可以证明其有效性。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括一种多尺度注意力的毛皮图像分类方法程序,所述一种多尺度注意力的毛皮图像分类方法程序被处理器执行时,实现如上述任一项所述的一种多尺度注意力的毛皮图像分类方法的步骤。
本发明公开的一种多尺度注意力的毛皮图像分类方法、系统和存储介质,本发明提出多尺度注意力图像分类方法,利用通道和空间注意力、多尺度特征提取网络、自适应决策融合方法准确地识别分类动物显微毛皮图像。首先通道注意力结合了通道间的互相关信息和前馈卷积神经网络支路,空间注意力结合了空间位置间的互相关信息和前馈卷积神经网络支路。然后使用自底向上的传递支路将低层的多通道语义特征传递到高层,再使用使用自顶向下的传递支路将高层的高分辨率空间特征融合到低层,通过特征聚合网络融合三个不同支路的特征,最后使用基于熵的自适应决策融合方法得出最后的分类结果。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种多尺度注意力的毛皮图像分类方法,其特征在于,包括:
获取当前动物皮毛图片数据;
将所述当前动物皮毛图片数据发送至预设的第一检测模型中;
得到分类结果信息;
其中,所述预设的第一检测模型包括特征提取基础模块、多尺度特征提取模块、特征聚合模块、自适应决策融合模块。
2.根据权利要求1所述的一种多尺度注意力的毛皮图像分类方法,其特征在于,所述多尺度特征提取模块,具体为:
所述多尺度特征提取模块先进行元素加和将高层语义特征融合进底层,得到底层的结果;
把所述底层的结果融合到高层;
其中,在两条支路中加入了空间注意力模块和通道注意力模块。
3.根据权利要求2所述的一种多尺度注意力的毛皮图像分类方法,其特征在于,所述空间注意力模块,包括:
获取CBAM中的空间注意力模块;
将所述CBAM中的空间注意力模块根据预设规则进行改进;
得到所述空间注意力模块。
4.根据权利要求2所述的一种多尺度注意力的毛皮图像分类方法,其特征在于,所述通道注意力模块,包括:
获取CBAM中的通道注意力模块;
将所述CBAM中的通道注意力模块根据预设规则进行改进;
得到所述通道注意力模块。
5.根据权利要求1所述的一种多尺度注意力的毛皮图像分类方法,其特征在于,所述自适应决策融合模块,包括:
所述自适应决策融合模块采用自适应熵加权决策融合方法为不同网络的softmax输出赋予不同融合权重。
6.根据权利要求1所述的一种多尺度注意力的毛皮图像分类方法,其特征在于,将所述当前动物皮毛图片数据发送至预设的第一检测模型中之前,还包括:
获取数据集信息;
对所述数据集信息进行数据增强处理,得到增强数据集信息;
将所述增强数据集信息根据预设规则进行训练;
得到预设的第一检测模型。
7.一种多尺度注意力的毛皮图像分类系统,其特征在于,包括存储器和处理器,所述存储器中包括多尺度注意力的毛皮图像分类方法程序,所述多尺度注意力的毛皮图像分类方法程序被所述处理器执行时实现如下步骤:
获取当前动物皮毛图片数据;
将所述当前动物皮毛图片数据发送至预设的第一检测模型中;
得到分类结果信息;
其中,所述预设的第一检测模型包括特征提取基础模块、多尺度特征提取模块、特征聚合模块、自适应决策融合模块。
8.根据权利要求7所述的一种多尺度注意力的毛皮图像分类系统,其特征在于,所述多尺度特征提取模块,具体为:
所述多尺度特征提取模块先进行元素加和将高层语义特征融合进底层,得到底层的结果;
把所述底层的结果融合到高层;
其中,在两条支路中加入了空间注意力模块和通道注意力模块。
9.根据权利要求7所述的一种多尺度注意力的毛皮图像分类系统,其特征在于,所述空间注意力模块,包括:
获取CBAM中的空间注意力模块;
将所述CBAM中的空间注意力模块根据预设规则进行改进;
得到所述空间注意力模块。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种多尺度注意力的毛皮图像分类方法程序,所述一种多尺度注意力的毛皮图像分类方法程序被处理器执行时,实现如权利要求1至6中任一项所述的一种多尺度注意力的毛皮图像分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310164677.8A CN116342931A (zh) | 2023-02-26 | 2023-02-26 | 一种多尺度注意力的毛皮图像分类方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310164677.8A CN116342931A (zh) | 2023-02-26 | 2023-02-26 | 一种多尺度注意力的毛皮图像分类方法、系统和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116342931A true CN116342931A (zh) | 2023-06-27 |
Family
ID=86886792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310164677.8A Pending CN116342931A (zh) | 2023-02-26 | 2023-02-26 | 一种多尺度注意力的毛皮图像分类方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342931A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117196832A (zh) * | 2023-11-08 | 2023-12-08 | 吉林省牛人网络科技股份有限公司 | 畜牧业活体抵押监管系统及其方法 |
CN117788963A (zh) * | 2024-02-27 | 2024-03-29 | 中科卫创(西安)信息技术有限公司 | 一种基于深度学习的遥感影像数据管理方法及系统 |
-
2023
- 2023-02-26 CN CN202310164677.8A patent/CN116342931A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117196832A (zh) * | 2023-11-08 | 2023-12-08 | 吉林省牛人网络科技股份有限公司 | 畜牧业活体抵押监管系统及其方法 |
CN117196832B (zh) * | 2023-11-08 | 2024-01-23 | 吉林省牛人网络科技股份有限公司 | 畜牧业活体抵押监管系统及其方法 |
CN117788963A (zh) * | 2024-02-27 | 2024-03-29 | 中科卫创(西安)信息技术有限公司 | 一种基于深度学习的遥感影像数据管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN109241817B (zh) | 一种无人机拍摄的农作物图像识别方法 | |
CN110728224A (zh) | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 | |
CN116342931A (zh) | 一种多尺度注意力的毛皮图像分类方法、系统和存储介质 | |
CN111738357B (zh) | 垃圾图片的识别方法、装置及设备 | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN112734775A (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
CN107239759A (zh) | 一种基于深度特征的高空间分辨率遥感图像迁移学习方法 | |
Chen et al. | Mobile convolution neural network for the recognition of potato leaf disease images | |
CN111950362B (zh) | 一种金丝猴面部图像识别方法、装置、设备及存储介质 | |
CN107958219A (zh) | 基于多模型和多尺度特征的图像场景分类方法 | |
CN114445681A (zh) | 模型训练及图像识别方法和装置、设备及存储介质 | |
Jeny et al. | FoNet-Local food recognition using deep residual neural networks | |
Sharma et al. | Deepfakes Classification of Faces Using Convolutional Neural Networks. | |
Guehairia et al. | Deep random forest for facial age estimation based on face images | |
Junior et al. | FCN+ RL: a fully convolutional network followed by refinement layers to offline handwritten signature segmentation | |
KR20180092453A (ko) | Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법 | |
Liu et al. | Research on data classification and feature fusion method of cancer nuclei image based on deep learning | |
Hossain et al. | Realtime person identification using ear biometrics | |
CN115512207A (zh) | 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法 | |
CN115761356A (zh) | 图像识别方法、装置、电子设备和存储介质 | |
CN113205044B (zh) | 一种基于表征对比预测学习的深度伪造视频检测方法 | |
CN113762249A (zh) | 图像攻击检测、图像攻击检测模型训练方法和装置 | |
CN111598144A (zh) | 图像识别模型的训练方法和装置 | |
Singh et al. | Performance Analysis of ELA-CNN model for Image Forgery Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |