CN111476266A - 一种基于迁移学习的非平衡类别白细胞分类方法 - Google Patents

一种基于迁移学习的非平衡类别白细胞分类方法 Download PDF

Info

Publication number
CN111476266A
CN111476266A CN202010125024.5A CN202010125024A CN111476266A CN 111476266 A CN111476266 A CN 111476266A CN 202010125024 A CN202010125024 A CN 202010125024A CN 111476266 A CN111476266 A CN 111476266A
Authority
CN
China
Prior art keywords
network
training
data
learning
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010125024.5A
Other languages
English (en)
Other versions
CN111476266B (zh
Inventor
刘娟
花春兵
冯晶
左志群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010125024.5A priority Critical patent/CN111476266B/zh
Publication of CN111476266A publication Critical patent/CN111476266A/zh
Application granted granted Critical
Publication of CN111476266B publication Critical patent/CN111476266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于迁移学习的非平衡类别白细胞分类方法,首先对数据集进行再划分,并进行数据增强和数据预处理,得到类别平衡的数据集。然后,采用迁移学习的技术,基于Resnet 50的深度学习模型,对网络参数进行调整,使用卷积,全局池化,dropout等操作代替全连接层,自定义网络的损失函数,进行迁移训练,实现白细胞分类的功能。本发明的方法相较于其他算法对数量较少的白细胞类别的关注度更高,模型的泛化能力更强。实验表明,本发明一种基于迁移学习的非平衡类别白细胞分类方法能够达到较高的精度和准确率,具有较高的实用价值。

Description

一种基于迁移学习的非平衡类别白细胞分类方法
技术领域
本发明属于医学图像处理领域,具体涉及一种基于迁移学习的非平衡类别白细胞分类方法。
背景技术
白血病是造血干细胞的恶性肿瘤之一,在外界环境和人体内部等多种因素的影响下,白细胞表观遗传学和遗传学发生异常变化,从而导致造血发生转化的恶性血液病。在传统的诊断过程中,病理医生需要通过人眼在显微镜下检阅血液涂片,观察白细胞的种类和数量从而给出病理诊断结论,该过程复杂繁琐且效率低下,受病理医生的主观影响较大。
随着人工智能技术的飞速发展,计算机辅助诊断技术越来越多地被应用到医学疾病诊断领域。当前的白细胞分类研究大多依赖于细胞分割后对得到的ROI 区域提取的特征的表征性。但是由于血液涂片制作过程中染色方法,设备型号之间的不同,白细胞图像在形态、纹理、颜色等方面会存在较大的差异,导致细胞分割算法的泛化性得不到较好的保证。作为人工智能技术中的一种,卷积神经网络采用原始图像作为输入,能够通过简单的非线性模型从原始图像中提取出更加抽象的特征,具有强大的学习特征的能力。
深度学习方法对数据数量的要求较高,由于正常人体内各类白细胞的比例相差较大,导致了白细胞数据存在类别不平衡的情况。针对类别不平衡的图像分类的问题,目前深度卷积神经网络算法都没有达到较好的效果,算法侧重样本数目较多的类别,而忽略了数目较少的类别,容易造成过拟合的现象。
综上所述,本发明提出的白细胞分类方法,运用深度学习方法,利用卷积操作自动提取图像特征代替传统的手动提取特征,可以有效地避免由于细胞分割效果不理想所带来的偏差。使用迁移学习方法,在样本类别不平衡的情况下解决样本特征分布差异过大的问题,提高白细胞分类的准确率。
发明内容
本发明提出了一种基于迁移学习的非平衡类别白细胞分类方法。所述方法在样本类别不平衡的白细胞数据集上取得了良好的效果,大大减少了病理医生的工作量,实现了对白细胞精准的识别分类并提升了白细胞的分类效率。
本发明所采用的技术方式是:一种基于迁移学习的非平衡类别白细胞分类方法,其特征在于,包括以下步骤:
步骤1:获取带标签的白细胞图像数据集作为初始数据集;
步骤2:将步骤1中的初始数据集按照设定的比例划分训练集和测试集;
步骤3:对步骤2中的训练集中数量占比为1%的嗜碱粒细胞,占比为2.4%的嗜酸粒细胞和占比为4.3%的单核细胞进行数据增强操作,并对增强后的训练集进行数据预处理;
步骤4:使用迁移学习的方法构建网络模型,使用基于ImageNet数据集的 Resnet50的网络结构和参数,并对网络参数进行选择,对网络结构进行调整;
步骤5:使用步骤4得到的网络模型对步骤3得到的增强后的训练集进行训练,在训练过程中使用mix up数据增强方式,此过程为一次前向传播;
步骤6:经历一次前向传播后,使用自定义的损失函数计算预测值与真实值之间的损失误差,通过使用随机梯度下降算法来不断减小损失误差以及更新网络参数,此过程为一次后向传播;
步骤7:反复经过步骤5的前向传播和步骤6的后向传播后,当训练的轮数达到设置的迭代次数时,训练结束,保存训练集上准确率最高的模型作为最优模型;
步骤8:利用步骤7得到的最优模型对输入的白细胞图像进行五分类预测。
本发明和以前的技术相比,具有如下优势:
1、本发明使用迁移学习方法,避免了部分类别由于数量较少而带来的先验知识不足的问题,能够充分学习各类类别的特征;
2、本发明使用自定义损失函数,采用focal loss和交叉熵损失函数相加之和作为损失函数,既直观地反映了实际输出与期望输出的差距,又有效地缓解了样本不平衡的问题;
3、使用全局池化层代替全连接层,减少了模型的参数,使模型更加健壮,抗过拟合效果更佳,同时对空间信息进行了求和,对输入的空间变换更具有稳定性。
附图说明
图1是本发明实施例的流程图;
图2是本发明实施例中单个细胞图像数据增强示例图;
图3是本发明实施例中分类模型结构图;
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提出一种基于迁移学习的非平衡类别白细胞分类方法,迁移Resnet 50 的网络结构和参数,并对网络参数进行选择,对网络结构进行调整,使用自定义网络的损失函数,实现白细胞分类的功能。
请见图1,本发明提供的一种基于迁移学习的非平衡类别白细胞分类方法,包括以下步骤:
步骤1:获取带标签的白细胞图像数据集作为初始数据集;
步骤2:将步骤1中的初始数据集按照设定的比例划分训练集和测试集;
步骤3:对步骤2中的训练集中数量占比为1%的嗜碱粒细胞,占比为2.4%的嗜酸粒细胞和占比为4.3%的单核细胞进行数据增强操作,并对增强后的训练集进行数据预处理;
本实例中,数据增强操作采用随机组合任意种数据增强的方式,基本的数据增强方法包括镜像变换方法、随机平移方法、随机光强变换方法、随机角度旋转方法,上下翻转变换方法,各类数据增强的结果如附图2所示。
本实例中,数据预处理包括对数据统一缩放至224*224大小,并进行数据归一化操作,图片的像素点的值
Figure RE-GDA0002550656850000031
使像素点数值分布在[-1,1]区间内。
步骤4:使用迁移学习的方法构建网络模型,使用基于ImageNet数据集的 Resnet50的网络结构和参数,并对网络参数进行选择,对网络结构进行调整;
本实例中,对于迁移的Resnet 50的网络结构和参数,冻结包含49个卷积层和 1个全连接层的Resnet 50网络的前三层参数,并且去除Resnet 50网络的全连接层,使用一个1*1的卷积层,一个全局池化层,一个Dropout层和一个全连接层代替,最后四层输出的featuremap的维度分别为512,512,512,5。最终的网络结构图如附图3所示。
步骤5:使用步骤4得到的网络模型对步骤3得到的增强后的训练集进行训练,在训练过程中使用mix up数据增强方式,此过程为一次前向传播;
本实例中,所述的mixup数据增强方式的表达式如下:
Figure RE-GDA0002550656850000041
Figure RE-GDA0002550656850000042
其中,
Figure RE-GDA0002550656850000043
训练过程中生成的新样本,(xi,yi)和(xj,yj)是从训练集中随机选取的两个样本,λ满足Beta(α,α)的分布,α的取值范围为(0,∞)。优选地,本发明中α的取值为0.2。
步骤6:经历一次前向传播后,使用自定义的损失函数计算预测值与真实值之间的损失误差,通过使用随机梯度下降算法来不断减小损失误差以及更新网络参数,此过程为一次后向传播;
本实例中,自定义的损失函数指focal loss损失函数与交叉熵损失函数之和作为损失函数,表达式如下:
Loss=Lfocalloss+Lcross_entrop hy
所述的focal loss的表达式如下:
Figure RE-GDA0002550656850000044
其中,Lfocalloss是focalloss损失函数,y′是激活函数后的输出,α和λ是超参数。优选地,本发明中α取值为0.25,λ取值为2。
所述的交叉熵的表达式如下:
Lcross_entrop hy=-[ylogy′+(1-y)log(1-y′)]
其中,Lcross_entrop hy是交叉熵损失函数,y是样本的标签,y′是激活函数后的输出。
本实例中,采用RAdam优化器对损失函数最小化,采用周期性学习率技术对训练过程中的学习率进行调整,学习率的表达式如下:
learning_rate=base_lr+(max_lr-base_lr)*x*γiters
其中,learning_rate是每个batch对应的学习率,base_lr是基础学习率, max_lr是最大学习率,x是一轮训练中的放大系数,取值为[0,1],γ是衰减系数, iters是一轮训练中的batch的编号;优选地,本发明中base_lr设置为0.001,max_lr 设置为0.006,γ设置为0.99994,训练轮数阈值epoch设置为100,batch_size设置为 128。
步骤7:反复经过步骤5的前向传播和步骤6的后向传播后,当训练的轮数达到设置的迭代次数时,训练结束,保存训练集上准确率最高的模型作为最优模型;
步骤8:利用步骤7得到的最优模型对输入的白细胞图像进行五分类预测。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于迁移学习的非平衡类别白细胞分类方法,其特征在于,包括以下步骤:
步骤1:获取带标签的白细胞图像数据集作为初始数据集;
步骤2:将步骤1中的初始数据集按照设定的比例划分训练集和测试集;
步骤3:对步骤2中的训练集中数量占比为1%的嗜碱粒细胞,占比为2.4%的嗜酸粒细胞和占比为4.3%的单核细胞进行数据增强操作,并对增强后的训练集进行数据预处理;
步骤4:使用迁移学习的方法构建网络模型,使用基于ImageNet数据集的Resnet 50的网络结构和参数,并对网络参数进行选择,对网络结构进行调整;
步骤5:使用步骤4得到的网络模型对步骤3得到的增强后的训练集进行训练,在训练过程中使用mix up数据增强方式,此过程为一次前向传播;
步骤6:经历一次前向传播后,使用自定义的损失函数计算预测值与真实值之间的损失误差,通过使用随机梯度下降算法来不断减小损失误差以及更新网络参数,此过程为一次后向传播;
步骤7:反复经过步骤5的前向传播和步骤6的后向传播后,当训练的轮数达到设置的迭代次数时,训练结束,保存训练集上准确率最高的模型作为最优模型;
步骤8:利用步骤7得到的最优模型对输入的白细胞图像进行五分类预测。
2.根据权利要求1所述的一种基于迁移学习的非平衡类别白细胞分类方法,其特征在于,步骤3所述的对数量较少的类别进行数据增强操作,采用随机组合任意2种数据增强方法进行数据增强;所述数据增强方法包括镜像变换方法、随机平移方法、随机光强变换方法、随机角度旋转方法,上下翻转变换方法。
3.根据权利要求1所述的一种基于迁移学习的非平衡类别白细胞分类方法,其特征在于,步骤3所述的数据预处理包括对数据统一缩放至224*224大小,并进行数据归一化操作,图片的像素点的值
Figure FDA0002394152280000011
4.根据权利要求1所述的一种基于迁移学习的非平衡类别白细胞分类方法,其特征在于,步骤4所述的对网络参数进行选择,对网络结构进行调整对包括冻结包含49个卷积层和1个全连接层的Resnet 50网络的前三层参数,并且去除Resnet 50网络的全连接层,使用一个1*1的卷积层,一个全局池化层,一个Dropout层和一个全连接层代替。
5.根据权利要求1所述的一种基于迁移学习的非平衡类别白细胞分类方法,其特征在于,步骤5中所述的前向传播指输入图片经过神经网络的隐藏层的计算后将结果传递到输出层。
6.根据权利要求1所述的一种基于迁移学习的非平衡类别白细胞分类方法,其特征在于,步骤6中所述的自定义的损失函数指focal loss损失函数与交叉熵损失函数之和作为损失函数。
7.根据权利要求1所述的一种基于迁移学习的非平衡类别白细胞分类方法,其特征在于,步骤8中所述的白细胞五分类指的是类别名称分别为:嗜酸粒细胞,嗜碱粒细胞,单核细胞,淋巴细胞和中性粒细胞。
CN202010125024.5A 2020-02-27 2020-02-27 一种基于迁移学习的非平衡类别白细胞分类方法 Active CN111476266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010125024.5A CN111476266B (zh) 2020-02-27 2020-02-27 一种基于迁移学习的非平衡类别白细胞分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010125024.5A CN111476266B (zh) 2020-02-27 2020-02-27 一种基于迁移学习的非平衡类别白细胞分类方法

Publications (2)

Publication Number Publication Date
CN111476266A true CN111476266A (zh) 2020-07-31
CN111476266B CN111476266B (zh) 2022-04-12

Family

ID=71748031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010125024.5A Active CN111476266B (zh) 2020-02-27 2020-02-27 一种基于迁移学习的非平衡类别白细胞分类方法

Country Status (1)

Country Link
CN (1) CN111476266B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287839A (zh) * 2020-10-29 2021-01-29 广西科技大学 一种基于迁移学习的ssd红外图像行人检测方法
CN112488234A (zh) * 2020-12-10 2021-03-12 武汉大学 一种基于注意力池化的端到端组织病理图像分类方法
CN112507961A (zh) * 2020-12-22 2021-03-16 上海科技大学 一种基于深度学习算法的小鼠运动状态分析方法
CN112836820A (zh) * 2021-01-31 2021-05-25 云知声智能科技股份有限公司 用于图像分类任务的深度卷积网络训方法、装置及系统
CN112884737A (zh) * 2021-02-08 2021-06-01 武汉大学 基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法
CN113065430A (zh) * 2021-03-22 2021-07-02 天津大学 基于深度学习特征与人工提取特征融合的白细胞分类方法
CN114937288A (zh) * 2022-06-21 2022-08-23 四川大学 一种非典型类数据集平衡方法、装置、介质
CN116798521A (zh) * 2023-07-19 2023-09-22 广东美赛尔细胞生物科技有限公司 免疫细胞培养控制系统的异常监测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170178321A1 (en) * 2015-12-18 2017-06-22 Abbott Laboratories Methods and Systems for Assessing Cell Morphology
US20190147983A1 (en) * 2017-07-17 2019-05-16 Bioinformatics Solutions Inc. Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning
CN110059568A (zh) * 2019-03-21 2019-07-26 中南大学 基于深层卷积神经网络的多类白细胞自动识别方法
CN110135271A (zh) * 2019-04-19 2019-08-16 上海依智医疗技术有限公司 一种细胞分类方法及装置
CN110598638A (zh) * 2019-09-12 2019-12-20 Oppo广东移动通信有限公司 模型训练方法、人脸性别预测方法、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170178321A1 (en) * 2015-12-18 2017-06-22 Abbott Laboratories Methods and Systems for Assessing Cell Morphology
US20190147983A1 (en) * 2017-07-17 2019-05-16 Bioinformatics Solutions Inc. Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning
CN110059568A (zh) * 2019-03-21 2019-07-26 中南大学 基于深层卷积神经网络的多类白细胞自动识别方法
CN110135271A (zh) * 2019-04-19 2019-08-16 上海依智医疗技术有限公司 一种细胞分类方法及装置
CN110598638A (zh) * 2019-09-12 2019-12-20 Oppo广东移动通信有限公司 模型训练方法、人脸性别预测方法、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HONGYI ZHANG 等: "mixup: BEYOND EMPIRICAL RISK MINIMIZATION", 《ARXIV》 *
KITSUCHART PASUPA 等: "Convolutional Neural Networks based Focal Loss for Class Imbalance Problem: A Case Study of Canine Red Blood Cells Morphology Classification", 《ARXIV》 *
陈畅 等: "基于卷积神经网络的外周血白细胞分类", 《中国生物医学工程学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287839A (zh) * 2020-10-29 2021-01-29 广西科技大学 一种基于迁移学习的ssd红外图像行人检测方法
CN112488234B (zh) * 2020-12-10 2022-04-29 武汉大学 一种基于注意力池化的端到端组织病理图像分类方法
CN112488234A (zh) * 2020-12-10 2021-03-12 武汉大学 一种基于注意力池化的端到端组织病理图像分类方法
CN112507961A (zh) * 2020-12-22 2021-03-16 上海科技大学 一种基于深度学习算法的小鼠运动状态分析方法
CN112836820A (zh) * 2021-01-31 2021-05-25 云知声智能科技股份有限公司 用于图像分类任务的深度卷积网络训方法、装置及系统
CN112836820B (zh) * 2021-01-31 2023-12-19 云知声智能科技股份有限公司 用于图像分类任务的深度卷积网络训练方法、装置及系统
CN112884737A (zh) * 2021-02-08 2021-06-01 武汉大学 基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法
CN112884737B (zh) * 2021-02-08 2022-07-19 武汉大学 基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法
CN113065430A (zh) * 2021-03-22 2021-07-02 天津大学 基于深度学习特征与人工提取特征融合的白细胞分类方法
CN114937288A (zh) * 2022-06-21 2022-08-23 四川大学 一种非典型类数据集平衡方法、装置、介质
CN114937288B (zh) * 2022-06-21 2023-05-26 四川大学 一种非典型类数据集平衡方法、装置、介质
CN116798521A (zh) * 2023-07-19 2023-09-22 广东美赛尔细胞生物科技有限公司 免疫细胞培养控制系统的异常监测方法及系统
CN116798521B (zh) * 2023-07-19 2024-02-23 广东美赛尔细胞生物科技有限公司 免疫细胞培养控制系统的异常监测方法及系统

Also Published As

Publication number Publication date
CN111476266B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN111476266B (zh) 一种基于迁移学习的非平衡类别白细胞分类方法
Zanjani et al. Stain normalization of histopathology images using generative adversarial networks
Li et al. Fuzzy multilevel image thresholding based on improved coyote optimization algorithm
CN111783782B (zh) 融合改进UNet和SegNet的遥感图像语义分割方法
CN108764072B (zh) 一种基于多尺度融合的血细胞亚型图像分类方法
CN111062296B (zh) 一种基于计算机的白细胞自动识别分类方法
Yan et al. Kapur’s entropy for underwater multilevel thresholding image segmentation based on whale optimization algorithm
CN112560968A (zh) 一种基于卷积和残差网络的her2图像分类方法及系统
CN112396587B (zh) 一种基于协同训练和密度图的公交车厢内拥挤度检测方法
CN110853070A (zh) 基于显著性与Grabcut的水下海参图像分割方法
CN110675411A (zh) 基于深度学习的宫颈鳞状上皮内病变识别算法
CN113034411A (zh) 一种耦合传统方法和深度卷积对抗生成网络的道路病害图片增强方法
CN110991554B (zh) 一种基于改进pca的深度网络图像分类方法
CN110728666B (zh) 基于数字病理玻片进行慢性鼻窦炎的分型方法及其系统
CN113420794A (zh) 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法
CN109711442A (zh) 无监督逐层生成对抗特征表示学习方法
Li et al. Robust blood cell image segmentation method based on neural ordinary differential equations
CN114972753A (zh) 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统
CN114972254A (zh) 一种基于卷积神经网络的宫颈细胞图像分割方法
Musliman et al. Identification of White Blood Cells Using Machine Learning Classification Based on Feature Extraction
CN113065430A (zh) 基于深度学习特征与人工提取特征融合的白细胞分类方法
CN115100509B (zh) 基于多分支块级注意力增强网络的图像识别方法及系统
Wu et al. Image classification based on multi-granularity convolutional Neural network model
CN111178174B (zh) 基于深度卷积神经网络的尿液有形成分图像识别方法
Hamad et al. Nucleus classification in colon cancer H&E images using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant