CN115880523A - 一种图像分类模型、模型训练方法及其应用 - Google Patents

一种图像分类模型、模型训练方法及其应用 Download PDF

Info

Publication number
CN115880523A
CN115880523A CN202211458993.8A CN202211458993A CN115880523A CN 115880523 A CN115880523 A CN 115880523A CN 202211458993 A CN202211458993 A CN 202211458993A CN 115880523 A CN115880523 A CN 115880523A
Authority
CN
China
Prior art keywords
image
output
scale reduction
reduction layer
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211458993.8A
Other languages
English (en)
Inventor
陈旭晖
陆雪琪
郭玫麟
尹海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211458993.8A priority Critical patent/CN115880523A/zh
Publication of CN115880523A publication Critical patent/CN115880523A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及深度学习图像分类技术领域,提供了一种图像分类模型、模型训练方法及其应用,所述图像分类模型训练方法具体是通过数据增强提高样本的质量和多样性以获得更好的训练效果;并通过ResNet50模型,引入通道注意力机制模块形成SE‑ResNet50模型,利用通道注意力机制对自适应的特征权重学习;接着SE‑ResNet50模型中,加入多尺度特征的层间信息融合模块;最后在网络结构中引入多尺度特征融合自注意力模块,形成SEL‑ResNet50网络,即本发明所述图像分类模型;所述图像分类模型应用于医学影像图片分类,可以兼顾分类效率和精度。

Description

一种图像分类模型、模型训练方法及其应用
技术领域
本发明属于深度学习图像分类领域,主要涉及一种图像分类模型、模型训练方法及其应用,具体涉及一种基于多尺度融合注意力的图像分类模型、模型训练方法及其应用。
背景技术
图像分类是计算机视觉中最基础的任务,发展到今天的水平,计算机的图像分类水准在imagenet数据集中已经超过了人类。但是现实中的图像任务仍旧有许多的困难和挑战。对于跨物种语义级别的图像分类,其各个类别之间往往具有较大的类间方差,因此采用一些简单的模型即可得到较高的识别准确率。而对于某些子类细粒度图像分类领域,简单的模型并不能达到我们想要的结果。尤其是医学疾病图像的识别分类方面,由于其对识别准确度有更高的要求,因此一种能够准确识别专业性图像的技术是十分需要的。
近年来,随着深度学习技术的不断成熟,基于深度学习的计算机辅助诊断方法可以帮助有效提高临床诊断的客观性和有效性。由于医学影像图存在同区域图像具有较小的类间方差的特点,因此采用现有技术中的计算机辅助医学影像识别分类准确度不高,基于深度学习的分类模型具有能够有效抓取图像深层次特征的优势。目前,常用的医学影像图分类模型主要是深度学习模型,包括AlexNet,VGG,GoogleNet,ResNet,DenseNet,U-Net等,这些模型具有较强的特征提取能力,在医学影像分析方面表现出较好的性能。胸部X光是最常见且最具成本效益的医学影像技术之一。但是受制于深浅组织的影像相互重叠和隐藏,往往需要多次多角度拍摄X光片,从而造成X光图像在进行检测时,会存在检测图像范围大、待检测区域却较小、分布区间广泛的检测难题,使得基于胸部X线图像的临床辅助诊断颇具挑战性。
近期,在胸部X光疾病影像筛查方面,文献“CheXNet:Radiologist-LevelPneumonia Detection on Chest X-Rays with Deep Learning”给出了一种基于CheXNet的肺部疾病图像分类方法,该方法利用卷积神经网络在NIH(美国国立卫生研究院)胸部X光影像数据集上进行训练、测试,得到了浸润检测准确率88.31%、胸腔积液检测准确率72.04%、肺气肿92.60%、气胸89.32%、肺不张82.09%的优良效果,该准确率高于拥有多年从业经验的放射科医生检测的准确率。但是该方法在进行训练时使用了121层DenseNet卷积神经网络,由于使用了深层次神经网络使得训练过程对计算机设备硬件要求高,而且训练时间长,训练好的模型较大。
此外,公开号为CN113592809A的中国专利申请,公开了一种基于通道注意力残差网络的肺炎图像检测系统及方法,所述基于通道注意力残差网络的肺炎图像检测方法通过将预训练好的ResNet模型权重和参数迁移到残差网络模型,从通道维度将ECA注意力模块引入残差结构,构建基于通道注意力的残差网络模型ECA-XNet,用于从胸部X片中检测肺炎。但是该方法所针对的问题仅仅只是肺炎这一种疾病,在面对多种疾病组合的图像识别中不一定拥有很好的表现效果。
发明内容
鉴于现有技术中的上述缺陷或不足,针对现有图像分类模型在效率和精度上的局限性,为了满足医学影像类图像更高分类准确度的需求,本发明提出了基于注意力机制的改进ResNet50的图像分类模型,以下简称SEL-ResNet50网络,还提供了上述图像分类模型的训练方法和应用,本发明提供的上述图像分类模型应用于医学影像,尤其是医学X光影像具有更好的区分能力,有利于辅助相关疾病的诊断。
本发明的技术方案是:
第一方面,本发明提供一种图像分类模型训练方法,具体为一种基于多尺度融合注意力的图像分类模型训练方法,如图2所示,所述模型训练方法包括:
步骤一,输入训练样本中的训练图像,对所述训练图像进行数据增强,所述数据增强过程包括:随机概率的翻转与旋转、从图像中心区域进行缩放裁剪处理,通过所述数据增强可以增加训练样本的多样性,提升模型的泛化性能;然后对数据增强后的训练图像进行归一化处理,输出预处理后的图像;
步骤二,将步骤一所得到所述预处理后的图像先输入第一尺度缩减层,输出第一阶段图像特征X1、再将X1输入第二尺度缩减层,输出X2;X2输入第三尺度缩减层,输出X3
所述第一尺度缩减层、第二尺度缩减层和第三尺度缩减层为添加了注意力机制模块的SE-ResNet50网络中每一次特征图尺寸缩减的网络层的前三个阶段的尺度缩减层;
SE-ResNet50网络共包含四个尺度缩减层;每一个尺度缩减层是原SE-ResNet50网络中的一部分结构,特征图在通过该结构后其尺度大小会得到缩减。每个尺度缩减层是由n个添加了通道注意力机制SE-Block(Squeeze-and-Excitation)模块的SE-ResNet模块堆叠而成,n为大于1的正整数;优选的,第一尺度缩减层由3个所述SE-ResNet模块堆叠串联而成;第二尺度缩减层由4个所述SE-Resnet模块堆叠串联而成;第三尺度缩减层由6个所述SE-ResNet模块堆叠串联而成;第四尺度缩减层由3个所述SE-ResNet模块堆叠串联而成。
所述通道注意力机制SE-Block的操作步骤包括:对输入的特征进行全局池化,接着将池化的特征输入两层感知机模块并采用sigmoid获得权重,然后与原残差块的特征相乘并赋予权重,得到相比于原来更加有通道特征信息的特征图;
步骤三,将所述第一尺度缩减层、第二尺度缩减层和第三尺度缩减层的输出X1,X2和X3同时输入层级融合网络,经过下采样变换后再在一个新的维度层面拼接起来,得到特征图Y,特征图Y作为融合后的特征图。
步骤四,在层级融合网络之后,采用基于自注意力的多尺度特征融合注意力模块,将输入的特征图Y拼接成矩阵并与其转置相乘得到权重矩阵,权重矩阵与输入特征图Y的拼接矩阵相乘后调整维度作为注意力网络输出特征图X',乘以权重系数α并与X3相加作为整体的输出Z。
步骤五,将所述网络模型输出Z输入第四个尺度缩减层,输出尺寸为7×7×2048的特征,再直接输入分类器。所述分类器的处理过程包括:采用自适应池化将输出的尺寸调整为1×1×2048,再通过线性层将其变化为1×1×15的大小,最后接入一个sigmoid激活函数将输出范围调整到(0,1)之内。
优选的,所述随机概率的翻转与旋转的操作具体为,对原始训练图像以50%的概率进行翻转,并在区间[-10°,10°]内以随机的概率选择角度进行旋转;
优选的,所述从图像中心区域进行缩放裁剪的操作具体为,将图像的短边尺寸缩放至224并且保持长宽比不变,再从图像中心裁剪出一个224×224大小的方形区域。
优选的,所述层级融合网络的具体操作为:对第一个阶段输出的特征图
Figure BDA0003954671700000041
Figure BDA0003954671700000042
采用大小为7×7、步长为4的卷积核进行卷积操作,得到下采样后的特征
Figure BDA0003954671700000043
对第二个阶段输出的特征图/>
Figure BDA0003954671700000044
采用大小为3×3、步长为2的卷积核进行卷积操作,得到下采样后的特征/>
Figure BDA0003954671700000045
设第三个阶段输出的特征图为X3,融合后特征图为Y,则有:
Figure BDA0003954671700000046
其中,CAT表示拼接操作,Conv7×7和Conv3×3是7×7和3×3卷积。
优选的,所述自注意力的多尺度特征融合注意力操作用公式表示如下:
Figure BDA0003954671700000047
Figure BDA0003954671700000048
其中,σ表示sigmoid激活函数,
Figure BDA0003954671700000049
表示调整维度的操作,/>
Figure BDA00039546717000000410
就是它对应的逆操作。
对注意力网络输出的特征图
Figure BDA00039546717000000411
采用大小为1×1、步长为1的卷积核卷积,得到输出/>
Figure BDA00039546717000000412
再将其乘上权重系数α,与第三阶段输出/>
Figure BDA00039546717000000413
相加,作为整个输出Z;根据注意力输出的效果自适应地调整注意力网络的权重,从而得到更高的预测准确度。
第二方面,本发明提供由上述训练方法获得的图像分类模型,即一种基于多尺度融合注意力图像分类模型。
第三方面,本发明提供上述图像分类模型在医学影像分类中的应用,即提供了一种医学影像自动分类方法,所述方法包括:获取临床医学影像,对图像进行缩放裁剪处理以获得数据增强后的图像;使用归一化方法处理数据增强后的图像以生成输入网络的预处理后的图像;接着输入上述已经训练好基于多尺度融合注意力的图像分类模型,输出结果即为该图片在患各个疾病的预测概率。结合训练过程中验证集所选取的阈值,进一步得到该图像疾病的识别结果。
第四方面,本发明提供了一种医学影像自动分类设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述图像分类方法的步骤。
第五方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述图片分类方法的步骤。
本发明的有益效果是:本发明提供了一种基于多尺度融合注意力的图像分类方法,并且在医学图像领域进行了测试,能实现在基于NIH数据集图像上判断是否患病及疾病的具体类别,在实际应用中能辅助医生进行临床病理诊断。
与文献“CheXNet:Radiologist-Level Pneumonia Detection on Chest X-Rayswith Deep Learning”公开的一种基于CheXNet的肺部疾病图像分类模型训练方法相比,本申请公开图像分类模型在结构更为简单ResNet网络中添加了注意力机制,复杂度更小,参数也更少;同时对特征图中重点信息区域有着更强的提取能力,能够从特征信息中筛选出更有利于判断的信息;训练过程对计算机设备硬件要求更低,且训练时间较短,训练好的模型体量也比较小。
与公开号为CN113592809A的中国专利申请公开的图像分类模型在医学图像应用中更具备实用性,不仅可识别肺炎这一种特征,还能识别出含多种疾病组合的图像;该图像分类模型加强了网络的特征提取能力,在保证图像分类准确度的基础上,能够同时进行多类型输出;经测试结果显示,本申请所述图像分类模型能够对肺部总计14种疾病都获得了较好的分类结果,提供给医生更全面的参考意见。
附图说明
图1为训练过程中的损失函数值变化情况;
图2为本发明所述图像分类模型训练方法的整体流程图;
图3为本发明所述图像分类模型中SE-ResNet模块结构图;
图4为本发明所述图像分类模型中层级融合网络结构图;
图5为本发明所述图像分类模型中多尺度特征融合注意力机制网络结构图;
图6为本发明所述图像分类模型在肺炎数据集图像分类应用时的部分预测结果。
具体实施方式
Step1、在预处理过程中先对数据进行数据增强处理,对原始训练图像以50%的概率进行翻转,并在区间[-10°,10°]内以随机的概率选择角度进行旋转,接着将图像的短边尺寸缩放至224并且保持长宽比不变,再从图像中心裁剪出一个224×224大小的方形区域;最后对区域图像做归一化处理。经过预处理后,训练样本的多样性增加,训练出的模型的鲁棒性得到提升,同时最大程度地保留疾病图像信息并且提高网络的训练速度。
Step2、如图3所示,将添加了注意力机制模块的SE-ResNet50网络中每一次特征图尺寸缩减的网络层定义为一个阶段,称其为尺度缩减层,从而将SE-ResNet50分为四个尺度缩减层。将步骤一所得到的图像依次输入前三个尺度缩减层中,得到三个阶段的图像特征,分别为X1,X2和X3
基于上述,每一个尺度缩减层是原SE-ResNet50网络中的一部分结构,特征图在通过该结构后其尺度大小会得到缩减。尺度缩减层是由数个添加了通道注意力机制SE-Block的SE-ResNet模块堆叠而成,四个尺度缩减层堆叠的个数分别为3,4,6,3。
基于上述,通道注意力机制SE-Block的操作过程是先对特征进行全局池化,接着将池化的特征输入两层感知机模块并采用sigmoid获得权重,然后与原残差块的特征相乘并赋予权重,得到相比于原来更加有通道特征信息的特征图。
具体来讲,当SE-ResNet模块输入为Xin时,设其经过残差模块的输出为
Figure BDA0003954671700000061
Figure BDA0003954671700000062
同时作为SE-Block输入的特征图;全局池化层所采用的是全局平均池化,设池化操作输出为/>
Figure BDA0003954671700000063
全局平均池化操作表示为GAP,则有:
Figure BDA0003954671700000064
其中,下标c表示第c个通道,H、W代表的是U的长和宽,i、j分别表示从1枚举到H和从1枚举到W。
感知机模块由两个全连接层组成,进而实现通道选择机制进行参数化。采用的两个全链接层分别为一个降维率为16的全连接层W1和一个维度升高的全连接层W2。两个全连接层均采用ReLU激活函数。接着,使用sigmoid激活函数获得权重
Figure BDA0003954671700000065
对应的公式表示为:
s=σ(W2(δ(W1(z))))
其中,δ表示ReLU函数,σ表示sigmoid激活函数;
最后进行Scale操作,具体过程为将SE-Block的输出与原残差块模块的输出相乘得到最后的加权输出值:
Figure BDA0003954671700000071
进而,在一个单独的SE-Resnet模块中,输出Xout满足如下的表达式:
Figure BDA0003954671700000072
进一步,第一个尺度缩减层由3个这样的SE-ResNet模块串联而成;第二个尺度缩减层由4个这样的SE-ResNet模块串联而成;第三个尺度缩减层由6个这样的SE-ResNet模块串联而成;第四个尺度缩减层由3个这样的SE-ResNet模块串联而成。
Step3、如图4所示,在改进的模型上的整体结构中加入层级融合网络,将图像的多尺度特征进行融合,进一步增强模型对图像特征的提取能力,从而提高准确度。将三个尺度缩减层的输出X1,X2和X3送入层级融合网络,经过下采样变换后再在一个新的维度层面拼接起来,得到特征图Y。
基于上述,层级融合网络的具体过程为:对第一个阶段输出的特征图
Figure BDA0003954671700000073
Figure BDA0003954671700000074
采用大小为7×7、步长为4的卷积核进行卷积操作,得到下采样后的特征
Figure BDA0003954671700000075
对第二个阶段输出的特征图/>
Figure BDA0003954671700000076
采用大小为3×3、步长为2的卷积核进行卷积操作,得到下采样后的特征/>
Figure BDA0003954671700000077
设第三个阶段输出的特征图为X3,融合后特征图为Y,则有:
Figure BDA0003954671700000078
其中,CAT表示拼接操作,Conv7×7和Conv3×3是7×7和3×3卷积。
Step4、如图5所示,构建一个多尺度特征融合注意力网络,进一步加强模型对不同尺度的信息提取能力。将输入的特征图Y拼接成矩阵并与其转置相乘得到权重矩阵,权重矩阵与相乘调整维度后作为注意力网络输出特征图X′,乘上权重系数α并与X3相加作为整体的输出Z。
基于上述,多尺度特征融合注意力网络采用自注意力机制,将输入的融合后特征图拼接调整维度成大小为N×HWC的矩阵F,其中N为一次拼接的特征图的子图数量。将F与其转置相乘,作为其权重矩阵,与矩阵F相乘调整维度后得到注意力网络输出。设输入多尺度注意力网络为特征图拼接Y,该注意力机制用公式表示如下:
Figure BDA0003954671700000081
Figure BDA0003954671700000082
其中σ表示sigmoid激活函数,
Figure BDA0003954671700000083
表示调整维度的操作,/>
Figure BDA0003954671700000084
就是它对应的逆操作。
进一步,对注意力网络输出的特征图
Figure BDA0003954671700000085
采用大小为1×1、步长为1的卷积核卷积,得到输出/>
Figure BDA0003954671700000086
再将其乘上权重系数α,与第三阶段输出/>
Figure BDA0003954671700000087
相加,作为整个输出Z。对应的公式表示为:
Figure BDA0003954671700000088
Figure BDA0003954671700000089
该自注意力结构可以根据注意力输出的效果自适应地调整注意力网络的权重,从而得到更高的预测准确度。
Step5、将上述网络模型输出Z输入第四个尺度缩减层,得到尺寸为7×7×2048的特征,将其输入分类器。所述分类器的处理过程包括:采用自适应池化将输出的尺寸调整为1×1×2048,再通过线性层将其变化为1×1×15的大小,最后接入一个sigmoid激活函数将输出的范围调整到(0,1)之内。
按照上述实施过程,将本发明的工作原理总结如下:
对于图像首先进行Step1中的数据预处理,包括数据增强,归一化等。
在改进模型下进行图像数据的训练和预测,改进的内容包括SE-Block通道注意力机制的添加,层级融合网络的引进以及多尺度特征融合注意力网络的加入,涵盖Step2,Step3及Step4的内容。
由此得到了针对与训练图像同类图像的有效分类模型,并且在应用于X光影像时,可以辅助医生对于患病种类的判断。
为了更进一步的说明本发明的应用效果,现展示本发明的实验结果:
本发明实验环境为,处理器4核Intel(R)Xeon(R)Silver 4110 CPU@2.10GHz,内存:15GB。显卡为NVDIA GeForce RTX 2080 Ti,显存:11GB。
本发明在NIH所提供的Chest X-ray 14数据集上,进行疾病分类的训练测试。将数据集进行划分为训练集(76241张)、验证集(13455张)和测试集(22424张)。初始的epoch设为50,batch size设为64。采用Adam优化器。由于各个疾病均有可能发生在同一人身上,因此本发明采用二分类交叉熵BCELoss函数,将问题转化为15个二分类的问题进行处理。
训练中采用学习率衰减策略为:若连续三个epoch未有在验证集中计算的更低的损失函数值产生,则以0.5的乘法因子更新学习率;若在连续10个epoch中均未产生在验证集上计算的更低的损失函数值,则说明模型基本稳定,可以退出训练。
如图1所示,验证集的loss值经过35个epoch后,下降趋势不明显,说明模型基本稳定,进一步训练则可能会产生过拟合的现象。此时选取出所有epoch中在验证集上拥有最低的loss值的epoch所对应的模型作为最终的模型。
如图6所示,该模型在NIH所提供的Chest X-ray 14数据集上,进行疾病分类的训练测试。训练结束后对图中12张X光图像进行分类测试,并且得到了较好的分类效果。
表1、三种网络在数据集上的平均准确度及平均AUC比较
网络模型 Accuracy AUC
Resnet 0.895 0.810
SE-Resnet 0.897 0.836
SEL-Resnet 0.907 0.836
表1给出三种网络在NIH数据集上的实验效果,其中准确率及AUC面积选取的是15个分类的平均值,相比于SE-ResNet,本专利设计的SEL-ResNet的准确度提高了1%,且AUC的值并未减少。

Claims (10)

1.一种图像分类模型训练方法,其特征在于,所述模型训练方法包括:
步骤一,输入训练样本中的训练图像,对所述训练图像进行数据增强,所述数据增强过程包括:随机概率的翻转与旋转、从图像中心区域进行缩放裁剪处理,通过所述数据增强可以增加训练样本的多样性,提升模型的泛化性能;然后对数据增强后的训练图像进行归一化处理,输出预处理后的图像;
步骤二,将步骤一所得到所述预处理后的图像先输入第一尺度缩减层,输出第一阶段图像特征X1、再将X1输入第二尺度缩减层,输出X2;X2输入第三尺度缩减层,输出X3;所述第一尺度缩减层、第二尺度缩减层和第三尺度缩减层为添加了注意力机制模块的SE-ResNet50网络中每一次特征图尺寸缩减的网络层的前三个阶段的尺度缩减层;所述SE-ResNet50网络共包含四个尺度缩减层;每一个尺度缩减层是原SE-ResNet50网络中的一部分结构,特征图在通过该结构后其尺度大小会得到缩减;每个尺度缩减层是由n个添加了通道注意力机制SE-Block的SE-ResNet模块堆叠而成,n为大于1的正整数;
所述通道注意力机制SE-Block的操作步骤包括:对输入的特征进行全局池化操作,接着将池化的特征输入两层感知机模块并采用sigmoid激活函数获得权重,然后与原残差块的输入特征相乘并赋予权重,得到相比于原来更加有通道特征信息的特征图;
步骤三,将所述第一尺度缩减层、第二尺度缩减层和第三尺度缩减层的输出X1,X2和X3同时输入层级融合网络,经过下采样变换后再在一个新的维度层面拼接起来,得到特征图Y,特征图Y作为融合后的特征图;
步骤四,在层级融合网络之后,采用基于自注意力的多尺度特征融合注意力模块,将输入的特征图Y拼接成矩阵并与其转置相乘得到权重矩阵,权重矩阵与输入特征图Y的拼接矩阵相乘后调整维度作为注意力网络输出特征图X',乘上权重系数α并与X3相加作为整体的输出Z;
步骤五,将网络模型所述输出Z输入第四个尺度缩减层,输出尺寸为7×7×2048的特征,再直接输入分类器;所述分类器的处理过程包括:采用自适应池化将输出的尺寸调整为1×1×2048,再通过线性层将其变化为1×1×15的大小,最后接入一个sigmoid激活函数将输出范围调整到(0,1)之内。
2.根据权利要求1所述的一种图像分类模型训练方法,其特征在于,所述第一尺度缩减层由3个所述SE-ResNet模块堆叠串联而成;第二尺度缩减层由4个所述SE-ResNet模块堆叠串联而成;第三尺度缩减层由6个所述SE-ResNet模块堆叠串联而成;第四尺度缩减层由3个所述SE-ResNet模块堆叠串联而成。
3.根据权利要求1所述的一种图像分类模型训练方法,其特征在于,所述随机概率的翻转与旋转的操作具体为,对原始训练图像以50%的概率进行翻转,并在区间[-10°,10°]内以随机的概率选择角度进行旋转。
4.根据权利要求1所述的一种图像分类模型训练方法,其特征在于,所述从图像中心区域进行缩放裁剪的操作具体为,将图像的短边尺寸缩放至224并且保持长宽比不变,再从图像中心裁剪出一个224×224大小的方形区域。
5.根据权利要求1所述的一种图像分类模型训练方法,其特征在于,所述层级融合网络的具体操作为:对第一个阶段输出的特征图
Figure FDA0003954671690000024
采用大小为7×7、步长为4的卷积核进行卷积操作,得到下采样后的特征/>
Figure FDA0003954671690000025
对第二个阶段输出的特征图
Figure FDA0003954671690000026
采用大小为3×3、步长为2的卷积核进行卷积操作,得到下采样后的特征
Figure FDA0003954671690000027
设第三个阶段输出的特征图为X3,融合后特征图为Y,则有:
Figure FDA0003954671690000021
其中,CAT表示拼接操作,Conv7×7和Conv3×3是7×7和3×3卷积。
6.根据权利要求1所述的一种图像分类模型训练方法,其特征在于,所述自注意力的多尺度特征融合注意力操作用公式表示如下:
Figure FDA0003954671690000022
Figure FDA0003954671690000023
其中,σ表示sigmoid激活函数,
Figure FDA00039546716900000211
表示调整维度的操作,/>
Figure FDA00039546716900000212
就是它对应的逆操作;
对注意力网络输出的特征图
Figure FDA0003954671690000028
采用大小为1×1、步长为1的卷积核卷积,得到输出/>
Figure FDA0003954671690000029
再将其乘上权重系数α,与第三阶段输出/>
Figure FDA00039546716900000210
相加,作为整个输出Z;根据注意力输出的效果自适应地调整注意力网络的权重,从而得到更高的预测准确度。
7.根据权利要求1-6中任意一项权利要求所述图像分类模型训练方法获得的图像分类模型。
8.一种医学影像图像自动分类方法,其特征在于,所述方法包括:获取临床医学图像,对图像进行缩放裁剪处理以获得数据增强后的图像;使用归一化方法处理数据增强后的图像以生成预处理后的图像;接着将预处理后的图像输入已经训练好的如权利要求7所述图像分类模型,输出与所述临床医学图像对应的在患各个疾病的预测概率。
9.一种医学图像自动分类设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现权利要求8所述医学影像图像自动分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现权利要求8所述医学影像图像自动分类方法的步骤。
CN202211458993.8A 2022-11-17 2022-11-17 一种图像分类模型、模型训练方法及其应用 Pending CN115880523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211458993.8A CN115880523A (zh) 2022-11-17 2022-11-17 一种图像分类模型、模型训练方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211458993.8A CN115880523A (zh) 2022-11-17 2022-11-17 一种图像分类模型、模型训练方法及其应用

Publications (1)

Publication Number Publication Date
CN115880523A true CN115880523A (zh) 2023-03-31

Family

ID=85760402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211458993.8A Pending CN115880523A (zh) 2022-11-17 2022-11-17 一种图像分类模型、模型训练方法及其应用

Country Status (1)

Country Link
CN (1) CN115880523A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597258A (zh) * 2023-07-18 2023-08-15 华东交通大学 一种基于多尺度特征融合的矿石分选模型训练方法及系统
CN116958711A (zh) * 2023-09-19 2023-10-27 华东交通大学 铅锌矿石图像分类模型构建方法、系统、存储介质及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597258A (zh) * 2023-07-18 2023-08-15 华东交通大学 一种基于多尺度特征融合的矿石分选模型训练方法及系统
CN116597258B (zh) * 2023-07-18 2023-09-26 华东交通大学 一种基于多尺度特征融合的矿石分选模型训练方法及系统
CN116958711A (zh) * 2023-09-19 2023-10-27 华东交通大学 铅锌矿石图像分类模型构建方法、系统、存储介质及设备
CN116958711B (zh) * 2023-09-19 2023-12-15 华东交通大学 铅锌矿石图像分类模型构建方法、系统、存储介质及设备

Similar Documents

Publication Publication Date Title
CN112101426B (zh) 基于自编码器的无监督学习图像异常检测方法
Wu et al. Discrimination and conversion prediction of mild cognitive impairment using convolutional neural networks
CN115880523A (zh) 一种图像分类模型、模型训练方法及其应用
CN110930378B (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN115049603B (zh) 一种基于小样本学习的肠息肉分割方法及系统
CN117015796A (zh) 处理组织图像的方法和用于处理组织图像的系统
CN112085742B (zh) 一种基于上下文注意力的nafld超声视频诊断方法
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN113538458A (zh) 基于FTL损失函数和注意力的U-Net图像分割方法
CN114241564A (zh) 一种基于类间差异强化网络的人脸表情识别方法
Tsai et al. Deep learning techniques for colorectal cancer tissue classification
Addo et al. A hybrid lightweight breast cancer classification framework using the histopathological images
Prasad et al. Lung cancer detection and classification using deep neural network based on hybrid metaheuristic algorithm
Maurya et al. Computer-aided diagnosis of auto-immune disease using capsule neural network
Kiratiratanapruk et al. Automatic detection of rice disease in images of various leaf sizes
Zhou et al. Identification of Rice Leaf Disease Using Improved ShuffleNet V2.
CN117994587A (zh) 一种基于深度学习两阶段推理网络的病理图像分类方法
CN116824298A (zh) 基于域特征对齐迁移学习的医学影像自动分析方法及系统
Bansal et al. A post-processing fusion framework for deep learning models for crop disease detection
Tallapragada et al. A novel COVID diagnosis and feature extraction based on discrete wavelet model and classification using X-ray and CT images
CN114782403A (zh) 基于混合空间和通道间注意力的肺炎图像检测方法及装置
Jumanov et al. Detection of Distorted Points on Images of Micro-Objects Based on The Properties and Peculiarities of the Wavelet-Transformation
Ferdousi et al. A deep learning approach for white blood cells image generation and classification using SRGAN and VGG19
Saknure et al. Multi-scale segmentation for detecting mass in mammograms using deep learning techniques
Paterega et al. Imbalanced data: a comparative analysis of classification enhancements using augmented data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination