CN112801212B - 一种基于小样本半监督学习的白细胞分类计数方法 - Google Patents

一种基于小样本半监督学习的白细胞分类计数方法 Download PDF

Info

Publication number
CN112801212B
CN112801212B CN202110229582.0A CN202110229582A CN112801212B CN 112801212 B CN112801212 B CN 112801212B CN 202110229582 A CN202110229582 A CN 202110229582A CN 112801212 B CN112801212 B CN 112801212B
Authority
CN
China
Prior art keywords
network
layer
classification
training
white blood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110229582.0A
Other languages
English (en)
Other versions
CN112801212A (zh
Inventor
胡轶宁
陈奕君
谢理哲
王征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110229582.0A priority Critical patent/CN112801212B/zh
Publication of CN112801212A publication Critical patent/CN112801212A/zh
Application granted granted Critical
Publication of CN112801212B publication Critical patent/CN112801212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2453Classification techniques relating to the decision surface non-linear, e.g. polynomial classifier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06MCOUNTING MECHANISMS; COUNTING OF OBJECTS NOT OTHERWISE PROVIDED FOR
    • G06M11/00Counting of objects distributed at random, e.g. on a surface
    • G06M11/02Counting of objects distributed at random, e.g. on a surface using an electron beam scanning a surface line by line, e.g. of blood cells on a substrate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Nonlinear Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种基于小样本半监督学习的白细胞分类计数方法,首先对显微镜拍摄的血细胞图像用图像处理方式清晰定位到单个白细胞,得到待分类细胞图像;对细胞图像选取部分进行人工标注,分别得到标注样本与无标注样本,分配训练样本和测试样本;确定分类网络的输入输出及中间部分的结构,构建基于双网络结构的半监督分类网络;使用少量标注样本和大量无标注样本训练半监督分类网络,保存训练效果最优的模型;对定位的单个白细胞图像进行分类,根据半监督分类网络输出每张图像的分类信息,从而统计出白细胞每类的数量。该方法能够在少标注情况下实现白细胞图像分类统计,且检测效率和精度高。

Description

一种基于小样本半监督学习的白细胞分类计数方法
技术领域
本发明涉及一种计数方法,具体涉及一种基于小样本半监督学习的白细胞分类计数方法,属于细胞分类技术领域。
背景技术
外周血白细胞(white blood cell,WBC)分类是临床检验的一项常规工作,对许多疾病都有重要意义。目前实验室通常采用血细胞分析仪进行WBC分类计数,这些分析仪一般采用物理、细胞化学等分类技术,但是这种方法只能用于计数,无法利用显微镜下的细胞图像,以至于无法辅助医生进行进一步分析。而传统的人工镜检操作上,细胞量很大,费时费力。其次,人工统计系统偏差较大。因此提高镜检的自动化水平成为临床检验的现实需要。
早期基于细胞图像的计算机分类识别研究主要通过各种算法对细胞进行细致分割,然后在分割的图像上进行特征提取和分类识别,准确率从70.6%到96%不等。具体来说有分水岭分割算法和经典分类方法SVM相结合,遗传算法分割和简单神经网络分类相结合等方式。比如在2015年,郝连旺等人通过设计白细胞形态属性多层次结构分类器进行白细胞六分类识别,在925幅白细胞图像数据集上取得了95.98%的平均分类精度。但是分类器需要人工设计特征,还需要大量带标注的数据集以调整不同的参数,增强模型泛化性和容错力,这些都增加了人工标注成本。
如果采用基于深度神经网络的图像分类方法,虽然不用人工设计特征,但是仍然需要大量标注数据。而医疗数据集的标注获取难度通常高于通用数据集,很多标注需要通过多位人类专家讨论确认得到。所以如何在标注较少的情况下,利用无标注图像获得较好的分类性能,是亟待解决的问题。
基于目前存在的各种白细胞图像分类方案都没有通过加入无标注图像,降低对标注图像的需求,并且获得较好的分类性能,因此本专利通过将半监督引入基于深度学习的图像分类方法,在减少标注示例的数量的同时,获得类似使用更多数据的完全监督的上限性能,这具有十分重要的意义。
发明内容
本发明正是针对现有技术中存在的问题,提供一种基于小样本半监督学习的白细胞分类计数方法,该技术方案解决了现有技术中存在的少标注场景下,利用大量图像数据提升白细胞分类模型精度的问题。
为了实现上述目的,本发明的技术方案如下,一种基于小样本半监督学习的白细胞分类计数方法,所述方法包括以下步骤:
S1、采用显微镜从血涂片中拍摄大量的血细胞显微图像,用图像处理定位单个白细胞;
S2、对五类细胞:单核,中性粒,淋巴,嗜酸,嗜碱分别标注若干张即每类大约50到100张,其余无标注图像(一般大于1000张)作为训练样本,然后在训练集的样本以外,每类随机挑出若干张(每类大约100张)进行标注,用于测试模型效果,测试集与训练集无交叉;
S3、根据步骤S2的训练样本,确定半监督网络的输入输出及中间实现特征提取功能的卷积层结构层数,包括依次设置的卷积组成的特征层F、注意力层A、分类层B、输出层C,构建半监督分类网络;
S4、使用步骤S2的样本,在训练的时候对图像缩放到96像素x96像素,训练数据在训练的时候进行随机平移和翻转变换,训练步骤S3中的半监督分类网络,边训练,边在测试集上分类,计算测试集的准确率,保存在测试集上分类准确率达到最高的模型,作为分类模型;
S5、使用步骤S4中得到的半监督分类模型对每张待分类的样本进行分类统计,从而自动统计出每类细胞的数量。
作为本发明的一种改进,步骤S1中,图像处理得到的单个白细胞占据整个图像近一半以上,且该细胞较为完整,周围存在血小板,红细胞背景细胞,步骤S1中的图像处理操作,具体为,
S11、将细胞图像转化为灰度图,通过知名的大津阈值算法进行阈值分割,去除背景;
S12、结合数学形态学和其面积特征实现单个白细胞的定位图像。
作为本发明的一种改进,步骤S12中得到单个白细胞的定位图像,具体为,
S121、利用图像的灰度分布特性(直方图呈现两个峰),使用大津阈值进行自适应分割;
S122、基于白细胞实心且面积大于红细胞,染色杂质的特征,使用形状为圆盘型,半径为5的结构元进行开操作去毛刺;
S123、使用种子填充法进行四连通操作确定连通域,过滤面积过小的连通域,建立多个区间的连通域面积直方图,其中大于最后一个区间的面积阈值的连通域就是白细胞的连通域,最后根据白细胞的连通域求最小面积外接矩形,得到白细胞的最小包围框,即为单个白细胞的定位图。
作为本发明的一种改进,步骤S3中,确定白细胞半监督分类网络,包括依次设置的卷积组成的特征层F、注意力层A、分类层B、输出层C,以下为这四层的解释说明;
特征层F:以卷积-批归一化-ReLU激活-池化为一组,每一组的通道数根据一定比例(一般是[3,64,64,128,128,256,256,256,512,512,512])进行变化;卷积层,对图像特征进行提取,并初步降低特征向量尺寸;最大池化层,保留显著特征、降低特征维度,增大卷积核的感受野;
注意力层A:基于通道的注意力机制,即对相应的特征图通道进行加权,具体实施方式:将每个特征图输入平均池化层和全连接层得到每个特征图的权重系数,然后再对每个特征图施以此权重,有利于减少不必要部分的干扰来进行细分类;
分类层B:含有全连接层和随机失活层;随机失活层作为降低过拟合的结构,随机丢失一定比例,一般为20%的神经元,提高了泛化性;全连接层将特征维度下降到较低维度,便于后期预测;
输出层C:实现分类功能,根据计算类别概率,输出每类的置信度,将置信度最大的类别作为该图像所属类别;
其中相关顺序依次从上到下进行连接,其中特征层F通道数逐渐增加,特征图尺寸逐渐减小,以上网络结构作为学生网络,然后按照学生网络再构建一个教师网络,形成双网络结构,但是教师网络的权重参数是通过对学生网络的参数进行权重移动平均(即指数移动平均)得到,如公式所示,θ′t是教师网络在当前训练轮次的权重参数,α是平滑系数,θ′t-1是教师网络在上一个训练轮次的权重参数,θt是学生网络在当前训练轮次更新所得的权重参数;
θ′t=αθ′t-1+(1-α)θt
作为本发明的一种改进,步骤S4中,使用步骤S2中的训练样本训练步骤S3中的半监督分类网络,训练的每一个batch中有标注样本占据一定比例,训练一次数据集中的所有样本的过程(即一个epoch)中,会重复训练有标注样本,但是每个无标注样本只训练一次;
训练所采用的代价函数主要由两个损失函数加权组成,分别为基于标注样本的交叉熵损失函数LCE和基于所有样本的一致性损失函数Lconsistency,α和β分别是两个损失函数的权重系数,具体如下:
Figure BDA0002958528000000031
Figure BDA0002958528000000032
其中,式子1中f(xi,θ)是对学生网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,softmax常用于多分类,第二个式子中,Loss是总损失函数,主要分为标注样本和无标注样本损失,对有标注样本,学生网络产生的预测值与真值存在交叉熵损失LCE,对所有样本,学生网络和教师网络对样本的预测之间存在一致性损失Lconsistency,yi表示第i个样本的真实类别,Nlabel代表标注样本总数,Nlabel+unlabel表示有标注和无标注样本总数,f(xi,θ')表示教师网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,f(xi,θ)是对学生网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,MSE是均方误差损失函数,约束教师和学生网络在训练过程对同一样本的分类保持一致,训练过程中,网络根据损失函数的数值,根据反向传播算法和随机梯度下降优化算法逐层计算更新量来更新学生网络的权值和偏置,教师网络则通过上文所述的权重移动平均进行更新权重,模型边训练边在测试集上进行推理,计算准确率,然后保存教师网络在测试集上准确率最高的模型,即为最佳模型。
作为本发明的一种改进,步骤S5中,对步骤S1中的单个白细胞定位图,用训练好的半监督分类网络进行推理,分类输出,对输入图像输出其属于每一类的置信度,取五类中置信度最大的那一类作为输入图像的分类结果,然后统计每一类的数量即可。
相对于现有技术,本发明具有如下优点,1)该方案预先将显微镜在血涂片中拍摄的大量的血细胞显微图像,用图像处理中的直方图,数学形态学和面积等方式定位出单个白细胞的图像,为半监督学习提供了大量无标注的单个白细胞图像数据,解决了大量人工标注依赖问题;2)该方案首次提出利用无标注数据和半监督学习方法进行白细胞分类计数。通过采用教师-学生双网络结构,将无标注图像加入网络训练过程,相比用同数量有限的标注样本实现的全监督分类网络,分类效果有较大提升,解决了大量人工标注依赖问题,提供了高精度的解决方案;3)该方案针对性的改进了白细胞分类网络结构,使训练过程更适合当前的白细胞图像,为白细胞分类计数方案提供了较高的分类精度;4)该方案训练采用两个网络,但是在推理中只需教师网络,并不增加推理耗时,运行速率快。
附图说明
图1是本发明实施例中基于小样本半监督学习的白细胞分类计数方法的流程示意图。
图2是实施例中半监督分类网络训练的基本结构示意图。
图3是实施例中半监督分类网络的具体结构示意图。
图4是实施例中特征层F的说明示意图。
图5是实施例中注意力层A的说明示意图。
图6是实施例中分类层B的说明示意图。
图7是实施例中输出层C的说明示意图。
图8是实施例中一个具体示例的说明示意图。
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:参见图1-图8,一种基于小样本半监督学习的白细胞分类计数方法,所述方法包括以下步骤:
S1、采用显微镜从血涂片中拍摄大量的血细胞显微图像,用图像处理定位单个白细胞;
S2、对五类细胞:单核,中性粒,淋巴,嗜酸,嗜碱分别标注若干张(每类大约50到100张),其余无标注图像(一般大于1000张)作为训练样本,然后在训练集的样本以外,每类随机挑出若干张(每类大约100张)进行标注,用于测试模型效果,测试集与训练集无交叉;
S3、根据步骤S2的训练样本,确定半监督网络的输入输出及中间实现特征提取功能的卷积层结构层数,包括依次设置的卷积组成的特征层F、注意力层A、分类层B、输出层C,构建半监督分类网络;
S4、使用步骤S2的样本,在训练的时候对图像缩放到96像素x96像素,训练数据在训练的时候进行随机平移和翻转变换,训练步骤S3中的半监督分类网络,边训练,边在测试集上分类,计算测试集的准确率,保存在测试集上分类准确率达到最高的模型,作为分类模型;
S5、使用步骤S4中得到的半监督分类模型对每张待分类的样本进行分类统计,从而自动统计出每类细胞的数量。
步骤S1中,图像处理得到的单个白细胞占据整个图像近一半以上,且该细胞较为完整,周围存在血小板,红细胞背景细胞,步骤S1中的图像处理操作,具体为,
S11、将细胞图像转化为灰度图,通过知名的大津阈值算法进行阈值分割,去除背景;
S12、结合数学形态学和其面积特征实现单个白细胞的定位图像。
步骤S12中得到单个白细胞的定位图像,具体为,
S121、利用图像的灰度分布特性(直方图呈现两个峰),使用大津阈值进行自适应分割;
S122、基于白细胞实心且面积大于红细胞,染色杂质的特征,使用形状为圆盘型,半径为5的结构元进行开操作去毛刺;
S123、使用种子填充法进行四连通操作确定连通域,过滤面积过小的连通域,建立多个区间的连通域面积直方图,其中大于最后一个区间的面积阈值的连通域就是白细胞的连通域,最后根据白细胞的连通域求最小面积外接矩形,得到白细胞的最小包围框,即为单个白细胞的定位图。
步骤S3中,确定白细胞半监督分类网络,包括依次设置的卷积组成的特征层F、注意力层A、分类层B、输出层C,以下为这四层的解释说明;
特征层F:以卷积-批归一化-ReLU激活-池化为一组,每一组的通道数根据一定比例(一般为[3,64,64,128,128,256,256,256,512,512,512])进行变化;卷积层,对图像特征进行提取,并初步降低特征向量尺寸;最大池化层,保留显著特征、降低特征维度,增大卷积核的感受野;
注意力层A:基于通道的注意力机制,即对相应的特征图通道进行加权,具体实施方式:将每个特征图输入平均池化层和全连接层得到每个特征图的权重系数,然后再对每个特征图施以此权重,有利于减少不必要部分的干扰和细分类;
分类层B:含有全连接层和随机失活层;随机失活层作为降低过拟合的结构,随机丢失一定比例(一般为20%)的神经元,提高了泛化性;全连接层将特征维度下降到较低维度,便于后期预测;
输出层C:实现分类功能,根据计算类别概率,输出每类的置信度,将置信度最大的类别作为该图像所属类别;
其中相关顺序依次从上到下进行连接,其中特征层F通道数逐渐增加,特征图尺寸逐渐减小,以上网络结构作为学生网络,然后按照学生网络再构建一个教师网络,形成双网络结构,但是教师网络的权重参数是通过对学生网络的参数进行权重移动平均(指数移动平均法)得到,如公式所示,θ′t是教师网络在当前训练轮次的权重参数,α是平滑系数,θ′t-1是教师网络在上一个训练轮次的权重参数,θt是学生网络在当前训练轮次更新所得的权重参数;
θ′t=αθ′t-1+(1-α)θt
步骤S4中,使用步骤S2中的训练样本训练步骤S3中的半监督分类网络,训练的每一个batch中有标注样本占据一定比例,训练一次数据集中的所有样本的过程(即一个epoch)中,会重复训练有标注样本,但是每个无标注样本只训练一次;
训练所采用的代价函数主要由两个损失函数加权组成,分别为基于标注样本的交叉熵损失函数LCE和基于所有样本的一致性损失函数Lconsistency,α和β是两个损失函数的权重系数,具体如下:
Figure BDA0002958528000000061
Figure BDA0002958528000000062
其中,式子1中f(xi,θ)是对学生网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,softmax常用于多分类,第二个式子中,Loss是总损失函数,主要分为标注样本和无标注样本损失,对有标注样本,学生网络产生的预测值与真值存在交叉熵损失LCE,对所有样本,学生网络和教师网络对样本的预测之间存在一致性损失Lconsistency,yi表示第i个样本的真实类别,Nlabel代表标注样本总数,Nlabel+unlabel表示有标注和无标注样本总数,f(xi,θ')表示教师网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,f(xi,θ)是对学生网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,MSE是均方误差损失函数,约束教师和学生网络在训练过程对同一样本的分类保持一致,训练过程中,网络根据损失函数的数值,根据反向传播算法和随机梯度下降优化算法逐层计算更新量来更新学生网络的权值和偏置,教师网络则通过上文所述的权重移动平均进行更新权重,模型边训练边在测试集上进行推理,计算准确率,然后保存教师网络在测试集上准确率最高的模型,即为最佳模型。
步骤S5中,对步骤S1中的单个白细胞定位图,用训练好的半监督分类网络进行推理,分类输出,对输入图像输出其属于每一类的置信度,取五类中置信度最大的那一类作为输入图像的分类结果,然后统计每一类的数量即可。
具体实施例:参照图1—图8,一种基于小样本半监督学习的白细胞分类计数方法,如图1和图8,包括以下步骤,
S1、用显微镜从血涂片中拍摄细胞显微图像,用图像处理定位单个白细胞;
步骤S1中,实施例通过图像处理得到的单个白细胞占据整个图像近60%以上,且该细胞较为完整,周围存在血小板,红细胞等背景细胞。
步骤S1中的图像处理操作,具体为,
S11、将采集的彩色细胞图像转化为灰度图,利用图像的灰度分布特性(直方图呈现两个峰),使用大津阈值进行自适应分割,不易受图像亮度和对比度的影响,使得类间方差达到极小值,达到去除背景的目的;
S12、结合数学形态学和其面积特征实现单个白细胞的定位图像。
步骤S12中得到单个白细胞的定位图像,具体为,
S121、基于白细胞实心且面积大于红细胞,染色杂质等物质的特征,实施例中使用形状为圆盘型,半径为5的结构元进行开操作去毛刺;
S122、使用种子填充法进行四连通操作确定连通域,实施例中过滤面积小于20的连通域,然后建立3个区间的连通域面积直方图(对最大最小面积分隔成三个间隔区间),其中大于第3个区间的面积阈值的连通域就是白细胞的连通域,最后根据白细胞的连通域求最小面积外接矩形,得到白细胞的最小包围框,作为单个白细胞的定位图。
S2、对五类细胞:单核,中性粒,淋巴,嗜酸,嗜碱分别标注若干张(每类大约50到100张),其余无标注图像(一般大于1000张)直接作为训练样本,分类样本则是每类随机挑出若干张(每类大约100张)用于测试。
S3、根据步骤S2制作后的训练样本,确定半监督网络的输入输出及中间实现特征提取功能的卷积层结构,构建半监督分类网络;调整输入图像尺寸,缩放为96像素*96像素的彩色图,输出每个图像在五类中的置信度,五类分别为单核,淋巴,中性粒,嗜酸,嗜碱,取置信度最大的类别为该图像的类别。
步骤S3中,确定白细胞半监督分类网络,如图3,中间实现特征提取功能的卷积层的结构,主要包括由卷积组成的特征层F、注意力层A、分类层B、输出层C,其结构具体为。
特征层F:以卷积-批归一化-ReLU激活-池化为一组,通道数的变化如此列表[3,64,64,128,128,256,256,256,512,512,512],如图4所示;
注意力层A:采用基于通道的注意力机制,即对相应的特征图通道进行加权,具体实施方式:将每个特征图输入平均池化层和全连接层得到每个特征图的权重系数,然后再对每个特征图施以此权重。有利于减少不必要部分的干扰和细分类,如图5所示;
分类层B:含有两层全连接层和随机失活层;随机失活层作为降低过拟合的结构,随机丢失20%的神经元,提高了泛化性,;全连接层将特征维度下降到1024,便于后期预测,如图6所示。
输出层C:实现分类功能,计算类别概率,输出每类的置信度,将置信度最大的类别作为该图像所属类别,如图7所示;
图4-7的结构中Conv3x3表示卷积操作,3x3表示卷积核的大小,stride表示步长数,即采样间距,padding是在原始图像的边缘使用像素填充,保证特征图在卷积前后尺寸不变,卷积操作的stride和padding参数均为1,旁边的channel表示通道数,如果没有特别说明,卷积操作的超参设置保持相同;BN层是Batch_normalization,即批量预处理标准化层;在图像分类网络训练的时候,对图像分类网络中间层的输出数据,按照batch方向计算均值和标准差,然后减均值除方差,使其符合标准正态分布,为了防止丢失网络中数据本身的表达能力,增加可学习参数即缩放系数和偏置系数,进行线性变换;ReLU为激活函数,其表达式为ReLU(x)=max(0,x);Maxpool表示最大池化,池化尺寸大小为2x2,stride为2,特征图经过池化后,长宽尺寸均缩小一半,如果没有特别说明,最大池化操作的超参设置保持相同;GlobalAvgpool表示全局平均池化,计算每一个通道的特征图的所有像素的平均值,整合全局空间信息;FullyConnected表示全连接层;sigmoid表示非线性激活函数,其表达式为
Figure BDA0002958528000000081
把输入的连续实值“压缩”到0和1之间。*表示点乘,随机失活层(Dropout)表示对输入的神经元随机失活,即对一部分输入置零,对非零神经元的输入进行rescale,保持整体输入期望一致,一般加在全连接层之前,避免过拟合,只在训练阶段工作,推理的时候不使用dropout;
该种基于小样本半监督学习的白细胞分类计数方法,针对性的改进了网络结构,使训练过程更适合与当前制作样本,提高了检测效率和精度。
S4、模型每一轮epoch训练的时候,数据通过向四周平移,镜像对称进行随机行变换,然后输入模型训练,按照图2进行训练步骤S3中的半监督分类网络,保存训练效果最优的模型,作为分类模型;
步骤4中,按照图3的相关顺序将神经网络依次从上到下进行连接,此网络定义为学生网络。学生网络采用适用于ReLU激活函数的权重始化方式,即权重满足均值为0方差为
Figure BDA0002958528000000091
2/n的高斯分布,n=kernel_size*kernel_size*output_channel,kernel_size表示卷积核的尺寸,output_channel表示输出神经元的通道数。然后按照以上网络结构再构建一个教师网络,形成双网络结构,但是教师网络的权重参数是通过以下公式更新,θ′t是教师网络在当前训练轮次的权重参数,α是平滑系数,实例中为0.97,θ′t-1是教师网络在上一个训练轮次的权重参数,θt是学生网络在当前训练轮次更新所得的权重参数。
θ′t=αθ′t-1+(1-α)θt
步骤S4中,使用步骤S2处理后得到的训练样本训练步骤S3中的半监督分类网络,实施例中训练的每一个batch中有标注样本占据25%,训练一次数据集中的所有样本的过程(即一个epoch)中,会重复训练有标注样本,但是每个无标注样本只训练一次。
训练所采用的代价函数由两个损失函数加权组成,分别是一致性代价函数Lconsistency和交叉熵代价函数LCE,实施例的损失函数的比例系数α=1,β=10,其中一致性代价函数(consistencyloss)的系数β的值在5个epoch内从0上升到100的,具体如下:
Figure BDA0002958528000000092
Figure BDA0002958528000000093
其中,式子1中f(xi,θ)是对学生网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,常用于多分类。第二个式子中,Loss是总损失函数,主要分为标注样本和无标注样本损失,对有标注样本,学生网络产生的预测值与真值存在交叉熵损失LCE,对所有样本,学生网络和教师网络对样本的预测之间存在一致性损失Lconsistency。yi表示第i个样本的真实类别,Nlabel代表标注样本总数,Nlabel+unlabel表示有标注和无标注样本总数,f(xi,θ')表示教师网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,f(xi,θ)表示学生网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,MSE是均方误差损失函数,约束教师和学生网络在训练过程对同一样本的分类保持一致。
步骤4中,训练过程网络根据损失函数的数值,根据反向传播算法和随机梯度下降优化算法逐层计算更新量来更新学生网络的权值和偏置,教师网络则通过权重移动平均法进行更新权重,保存训练教师网络效果最优的模型,作为最佳模型。
S5、使用步骤S4中得到的半监督分类模型对每张待分类的样本进行分类统计,根据分类网络分类输出,自动统计出每类细胞的数量。
实施例训练采用两个网络,但是在推理中只需教师网络,并不增加推理耗时,运行速率快。
实施例中,训练的各参数设置:迭代次数为200次,批次大小为128,初始学习率为0.05,以知名的余弦退火的学习率下降方式训练。
以上对本方法的具体实施做出了解释,当然本方法还可有其他多种具体实施方式,熟悉本技术领域的人员均可在不违背本发明精神的前提下做出各种改变与变形,但这些改变与变形应当包含于本申请专利所要求限定的保护范围内。

Claims (6)

1.一种基于小样本半监督学习的白细胞分类计数方法,其特征在于,所述方法包括以下步骤:
S1、采用显微镜从血涂片中拍摄大量的血细胞显微图像,用图像处理定位单个白细胞;
S2、对五类细胞:单核,中性粒,淋巴,嗜酸,嗜碱分别标注若干张,每类50到100张,其余无标注图像作为训练样本,然后在训练集的样本以外,每类随机挑出若干张,每类100张进行标注,用于测试模型效果,测试集与训练集无交叉;
S3、根据步骤S2的训练样本,确定半监督网络的输入输出及中间实现特征提取功能的卷积层结构层数,包括依次设置的卷积组成的特征层F、注意力层A、分类层B、输出层C,构建半监督分类网络;
S4、使用步骤S2的样本,在训练的时候对图像缩放到96像素x96像素,训练数据在训练的时候进行随机平移和翻转变换,训练步骤S3中的半监督分类网络,边训练,边在测试集上分类,计算测试集的准确率,保存在测试集上分类准确率达到最高的模型,作为分类模型;
S5、使用步骤S4中得到的半监督分类模型对每张待分类的样本进行分类统计,从而自动统计出每类细胞的数量。
2.根据权利要求1所述的基于小样本半监督学习的白细胞分类计数方法,其特征在于,步骤S1中,图像处理得到的单个白细胞占据整个图像近一半以上,且该细胞较为完整,周围存在血小板,红细胞背景细胞,步骤S1中的图像处理操作,具体为,
S11、将细胞图像转化为灰度图,通过知名的大津阈值算法进行阈值分割,去除背景;
S12、结合数学形态学和其面积特征实现单个白细胞的定位图像。
3.根据权利要求2所述的基于小样本半监督学习的白细胞分类计数方法,其特征在于,步骤S12中得到单个白细胞的定位图像,具体为,
S121、利用图像的灰度分布特性,直方图呈现两个峰,使用大津阈值进行自适应分割;
S122、基于白细胞实心且面积大于红细胞,染色杂质的特征,使用形状为圆盘型,半径为5的结构元进行开操作去毛刺;
S123、使用种子填充法进行四连通操作确定连通域,过滤面积过小的连通域,建立多个区间的连通域面积直方图,其中大于最后一个区间的面积阈值的连通域就是白细胞的连通域,最后根据白细胞的连通域求最小面积外接矩形,得到白细胞的最小包围框,即为单个白细胞的定位图。
4.根据权利要求3所述的基于小样本半监督学习的白细胞分类计数方法,其特征在于,步骤S3中,确定白细胞半监督分类网络,包括依次设置的卷积组成的特征层F、注意力层A、分类层B、输出层C,以下为这四层的解释说明;
特征层F:以卷积-批归一化-ReLU激活-池化为一组,每一组的通道数根据一定比例即[3,64,64,128,128,256,256,256,512,512,512]进行变化;卷积层,对图像特征进行提取,并初步降低特征向量尺寸;最大池化层,保留显著特征、降低特征维度,增大卷积核的感受野;
注意力层A:基于通道的注意力机制,即对相应的特征图通道进行加权,将每个特征图输入平均池化层和全连接层得到每个特征图的权重系数,然后再对每个特征图施以此权重,有利于减少不必要部分的干扰来进行细分类;
分类层B:含有全连接层和随机失活层;随机失活层作为降低过拟合的结构,随机丢失20%的神经元,提高了泛化性;全连接层将特征维度下降到较低维度,便于后期预测;
输出层C:实现分类功能,计算类别概率,输出每类的置信度,将置信度最大的类别作为该图像所属类别;
其中相关顺序依次从上到下进行连接,其中特征层F通道数逐渐增加,特征图尺寸逐渐减小,以上网络结构作为学生网络,然后按照学生网络再构建一个教师网络,形成双网络结构,但是教师网络的权重参数是通过对学生网络的参数进行权重移动平均(即指数移动平均法)得到,如以下公式所示,θ′t是教师网络在当前训练轮次的权重参数,α是平滑系数,θ′t-1是教师网络在上一个训练轮次的权重参数,θt是学生网络在当前训练轮次更新所得的权重参数;
θ′t=αθ′t-1+(1-α)θt
5.根据权利要求3或4所述的基于小样本半监督学习的白细胞分类计数方法,其特征在于,步骤S4中,使用步骤S2中的训练样本训练步骤S3中的半监督分类网络,训练所采用的代价函数由两个损失函数加权组成,分别为基于标注样本的交叉熵损失函数LCE和基于所有样本的一致性损失函数Lconsistency,具体如下:
Figure FDA0002958527990000021
Figure FDA0002958527990000022
其中,式子1中f(xi,θ)是对学生网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,softmax常用于多分类,第二个式子中,Loss是总损失函数,主要分为标注样本和无标注样本损失,对有标注样本,学生网络产生的预测值与真值存在交叉熵损失LCE,对所有样本,学生网络和教师网络对样本的预测之间存在一致性损失Lconsistency,yi表示第i个样本的真实类别,Nlabel代表标注样本总数,Nlabel+unlabel表示有标注和无标注样本总数,f(xi,θ')表示对教师网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,f(xi,θ)是对学生网络输出的第i个样本在第k类的置信度进行softmax归一化的结果,MSE是均方误差损失函数,约束教师和学生网络在训练过程对同一样本的分类保持一致,训练过程中,网络根据损失函数的数值,根据反向传播算法和随机梯度下降优化算法逐层计算更新量来更新学生网络的权值和偏置,教师网络则通过上文所述的权重移动平均进行更新权重,模型边训练边在测试集上进行推理,计算准确率,然后保存教师网络在测试集上准确率最高的模型,即为最佳模型。
6.根据权利要求5所述的基于小样本半监督学习的白细胞分类计数方法,其特征在于,步骤S5中,对步骤S1中的单个白细胞定位图,用训练好的半监督分类网络进行推理,分类输出,对输入图像输出其属于每一类的置信度,取五类中置信度最大的那一类作为输入图像的分类结果,然后统计每一类的数量即可。
CN202110229582.0A 2021-03-02 2021-03-02 一种基于小样本半监督学习的白细胞分类计数方法 Active CN112801212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110229582.0A CN112801212B (zh) 2021-03-02 2021-03-02 一种基于小样本半监督学习的白细胞分类计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110229582.0A CN112801212B (zh) 2021-03-02 2021-03-02 一种基于小样本半监督学习的白细胞分类计数方法

Publications (2)

Publication Number Publication Date
CN112801212A CN112801212A (zh) 2021-05-14
CN112801212B true CN112801212B (zh) 2022-11-18

Family

ID=75816272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110229582.0A Active CN112801212B (zh) 2021-03-02 2021-03-02 一种基于小样本半监督学习的白细胞分类计数方法

Country Status (1)

Country Link
CN (1) CN112801212B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI795787B (zh) * 2021-05-24 2023-03-11 鴻海精密工業股份有限公司 自編碼器的訓練方法、細胞數量檢測方法及相關設備
CN113378673B (zh) * 2021-05-31 2022-09-06 中国科学技术大学 一种基于一致性正则化的半监督脑电信号分类方法
CN113379627B (zh) * 2021-06-07 2023-06-27 北京百度网讯科技有限公司 图像增强模型的训练方法和对图像进行增强的方法
CN113536920B (zh) * 2021-06-11 2022-06-17 复旦大学 一种半监督三维点云目标检测方法
CN113392938A (zh) * 2021-07-30 2021-09-14 广东工业大学 一种分类模型训练方法、阿尔茨海默病分类方法及装置
CN113869353A (zh) * 2021-08-16 2021-12-31 深延科技(北京)有限公司 模型训练方法、老虎关键点检测方法及相关装置
CN113838008B (zh) * 2021-09-08 2023-10-24 江苏迪赛特医疗科技有限公司 一种基于引入注意力机制的异常细胞检测方法
CN113838009B (zh) * 2021-09-08 2023-10-31 江苏迪赛特医疗科技有限公司 一种基于半监督机制的异常细胞检测假阳性抑制方法
CN114152557B (zh) * 2021-11-16 2024-04-30 深圳元视医学科技有限公司 基于图像分析的血细胞计数方法和系统
CN114047109B (zh) * 2022-01-11 2022-06-21 深圳市帝迈生物技术有限公司 一种样本分析仪及其计数方法
CN114694171B (zh) * 2022-02-22 2023-10-10 电子科技大学 一种基于自监督模式特征增强的行人属性识别方法
CN114419619B (zh) * 2022-03-29 2022-06-10 北京小蝇科技有限责任公司 红细胞检测分类方法、装置、计算机存储介质及电子设备
CN115775226B (zh) * 2022-10-08 2023-09-26 广州锟元方青医疗科技有限公司 基于Transformer的医学图像分类方法
CN115620075B (zh) * 2022-12-16 2023-03-14 南昌大学 白细胞分类模型用数据集的生成方法、系统及设备
CN116468112B (zh) * 2023-04-06 2024-03-12 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764281A (zh) * 2018-04-18 2018-11-06 华南理工大学 一种基于半监督自步学习跨任务深度网络的图像分类方法
CN109034045A (zh) * 2018-07-20 2018-12-18 中南大学 一种基于卷积神经网络的白细胞自动识别方法
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注

Also Published As

Publication number Publication date
CN112801212A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112801212B (zh) 一种基于小样本半监督学习的白细胞分类计数方法
Acevedo et al. Recognition of peripheral blood cell images using convolutional neural networks
Misra et al. SpikeSegNet-a deep learning approach utilizing encoder-decoder network with hourglass for spike segmentation and counting in wheat plant from visual imaging
Tahir et al. A fungus spores dataset and a convolutional neural network based approach for fungus detection
Saraswat et al. Automated microscopic image analysis for leukocytes identification: A survey
Ma et al. A state-of-the-art survey of object detection techniques in microorganism image analysis: from classical methods to deep learning approaches
JP2022137166A (ja) 生体粒子の分類のシステム及び方法
Elaraby et al. Classification of citrus diseases using optimization deep learning approach
Li et al. HEp-2 specimen image segmentation and classification using very deep fully convolutional network
Bani-Hani et al. Classification of leucocytes using convolutional neural network optimized through genetic algorithm
Sonmez et al. Convolutional neural network-Support vector machine based approach for classification of cyanobacteria and chlorophyta microalgae groups
Bhatt et al. Comparison of CNN models for application in crop health assessment with participatory sensing
Sipes et al. Using convolutional neural networks for automated fine grained image classification of acute lymphoblastic leukemia
CN114332855A (zh) 一种基于明场显微成像的无标记白细胞三分类方法
CN114972311A (zh) 基于一致性正则化的半监督白细胞图像分类方法
CN112183237A (zh) 基于颜色空间自适应阈值分割的白细胞自动分类方法
Jabbar et al. Diagnosis of malaria infected blood cell digital images using deep convolutional neural networks
Su et al. A CNN-LSVM model for imbalanced images identification of wheat leaf
CN110287990A (zh) 微型藻类图像分类方法、系统、设备及存储介质
CN109191467A (zh) 一种细胞自噬表型的预测方法及装置
CN113011436A (zh) 一种基于卷积神经网络的中医舌色苔色协同分类方法
CN113065430A (zh) 基于深度学习特征与人工提取特征融合的白细胞分类方法
Karthikeyan et al. Machine Learning based Algorithmic approach for Detection and Classification of Leukemia
Nishchhal et al. Accurate Cell Segmentation in Blood Smear Images Based on Color Analysis and Cnn Models
Monteiro et al. Towards precise recognition of pollen bearing bees by convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant