CN113011306A - 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质 - Google Patents

连续成熟阶段骨髓细胞图像自动识别方法、系统及介质 Download PDF

Info

Publication number
CN113011306A
CN113011306A CN202110274848.3A CN202110274848A CN113011306A CN 113011306 A CN113011306 A CN 113011306A CN 202110274848 A CN202110274848 A CN 202110274848A CN 113011306 A CN113011306 A CN 113011306A
Authority
CN
China
Prior art keywords
bone marrow
layer
image
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110274848.3A
Other languages
English (en)
Inventor
谭冠政
戴宇思
金佳琪
王辉
胡椰清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110274848.3A priority Critical patent/CN113011306A/zh
Publication of CN113011306A publication Critical patent/CN113011306A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/693Acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种连续成熟阶段骨髓细胞图像自动识别方法、系统及介质,主要包含以下步骤:获取符合规范的数据集;通过迁移学习构建用于骨髓细胞自动识别的密集连接型卷积神经网络模型;对单细胞图像数据进行尺寸归一化,并对图像尺寸归一后的数据集进行划分;精调训练方法的超参数,并利用精调的超参数训练对构建的模型进行结构参数训练,得到最优结构参数模型,训练中引入多种类型的随机数据增广;利用多折交叉验证对模型进行骨髓细胞识别效果测试与评估。本发明可以实现对处于连续成熟阶段的骨髓细胞的自动识别或分类,具有较好的识别效果,可以提高处于连续成熟阶段的骨髓细胞的自动识别的性能和准确率。

Description

连续成熟阶段骨髓细胞图像自动识别方法、系统及介质
技术领域
本发明涉及计算机视觉和深度学习领域,特别是一种基于迁移学习和密集连接型深度卷积神经网络的连续成熟阶段骨髓细胞图像的自动识别方法。
背景技术
在目前的医学和生物学研究中,骨髓细胞分类是一项重要技术。骨髓细胞形态学检查是最早应用的一种骨髓细胞识别与分类方法,在血液肿瘤等重大疾病的分类诊断中具有重要意义,也是目前最基本、最重要的骨髓细胞分类方法之一。骨髓细胞的分类助益于多种恶性血液疾病的诊断,包括:白血病、骨髓肿瘤、再生障碍性贫血等,是多种恶性疾病诊断与治疗效果观察中必不可少的一环。然而,骨髓细胞种类繁多,部分不同类别的细胞之间相似度高,尤其是处于连续成熟阶段的骨髓细胞之间的无明确的分界标准,这使得即使是专业医师也无法确保很高的骨髓细胞识别准确率。目前,医院对于骨髓细胞的镜检方法仍然采用传统的人工观察分类计数的方式,具有工作量大,对医学专家的专业技能和经验要求高,以及缺乏客观、定量的标准等弊端。通过计算机对骨髓细胞进行识别,尤其是对处于连续成熟阶段的骨髓细胞进行识别,可以极大地节省人力资源,提高识别效率、准确率和客观性,这对于智能医疗诊断来说具有重要意义。
随着计算机图像处理与分析技术的发展,依赖于细胞图像处理的骨髓细胞识别方法得到了广泛的研究。过去半个世纪间,骨髓细胞自动识别的相关研究主要采用传统的图像处理办法,通常将骨髓细胞识别问题划分为图像预处理、细胞分割、特征提取、细胞识别这四个步骤。在基于传统方法的骨髓细胞识别中,四个步骤均独立进行,细胞特征的选取需要专业知识背景且没有统一的标准,各个步骤产生的误差将不可避免地累积。
近年,随着人工神经网络和高性能GPU的快速发展,基于卷积神经网络的图像分类或识别技术兴起,卷积神经网络在多领域的图像分类或识别任务中取得了较好的结果。基于卷积神经网络的细胞图像识别,其可以通过单一卷积神经网络模型来实现细胞图像的特征提取和识别,不要求细胞分割,且可省略部分图像预处理过程。因而,相较于传统的图像处理办法而言,基于卷积神经网络的细胞图像分类方法步骤简单,通用性更强,模型泛化能力高,在骨髓细胞图像识别领域也具有较大的潜力。然而,当下暂无成熟的方法或系统被应用于骨髓细胞的自动识别,并且基于卷积神经网络的骨髓细胞自动识别的相关研究较少,骨髓细胞自动识别方法仍具有较大的提升空间。
此外,针对不同的图像分类或识别问题,不同的卷积神经网络模型方法会取得不一样的效果。在大型数据集ImageNet上进行的图像分类挑战证明,卷积神经网络模型的深度、宽度、连接方式、训练方法以及图像的预处理等方面均将对分类结果产生重大影响。因而,找到一个针对连续成熟阶段骨髓细胞图像分类任务的合适的神经网络模型方法对于实现骨髓细胞的自动识别具有重大意义。
综上,基于卷积神经网络的连续成熟阶段骨髓细胞图像自动识别方法具有很大的研究意义和提升空间。
本发明中用到的名词解释如下:
迁移学习:一种机器学习方法。从不同的源任务和源模型中学习或获取知识,并迁移应用到新的任务或模型,以完成新的任务。
卷积神经网络(Convolutional Neural Network,CNN):卷积神经网络是一种受到生物学中感受野(Receptive Field)机制的启发而提出的前馈神经网络,在图像处理领域具有广泛的应用。其通常由卷积层、池化层和全连接层组成,在结构上具有局部连接、权值共享等特点。
卷积层:卷积层采用局部互联、权值共享的方式对图像特征进行提取,使得卷积核的权值与特征图上的对应像素点值相乘并求和,和值经过激活函数后,得到输入下一网络层特征图对应位置的特征值。起到对特征进行平滑过滤,并提取出来的作用。
池化层:池化层又称降采样层,通常紧接在卷积层之后,对经过卷积层处理得到的特征图中的特征进行选择和信息过滤,从而降低特征维度,减轻模型参数的过拟合。
全连接层:全连接层的神经元与网络上一层神经元完全互连,起到特征整合的作用。通常位于神经网络的末端,以对特征进行整合筛选,实现特征到预测结果的映射。
密集连接块:密集连接块,简称密集块,是一种采用特殊连接形式的网络模块。在密集连接块内部,每层网络都与所有的前层网络相连,以并联连接的方式接收来自密集块内部的前层网络的特征图。可在一定程度上减轻网络模型的过拟合,缓解退化问题,提升模型的特征提取能力。
Dropout:一种训练机制,用于减轻模型过拟合。具体实现方式为,以一定的概率舍弃网络层中的某些特征数据,表现为将部分神经元之间的连接权值置0。
K折交叉验证:一种模型测试方法。将数据集划分为K份并分别编号为数据子集1~K,轮流选取数据子集1~K作为验证集,剩余的其它K-1份数据子集作为训练集,取K次验证结果的平均值作为最终的模型测试结果。
发明内容
本发明所要解决的技术问题是,针对当下骨髓细胞自动识别技术的不足,提供一种连续成熟阶段骨髓细胞图像自动识别方法、系统及介质,在对骨髓细胞进行自动识别时,充分考虑处于连续成熟阶段的骨髓细胞特征差异的连续性与复杂性,考虑各类骨髓细胞在人体内通常数量差异悬殊,考虑骨髓细胞因密集分布而难以确保单细胞图像大小的一致性的问题,改善骨髓细胞自动识别的性能,提高骨髓细胞识别准确率。
为解决上述技术问题,本发明所采用的技术方案是:一种基于迁移学习和密集连接型卷积神经网络的连续成熟阶段骨髓细胞自动识别方法,包括以下步骤:
一种连续成熟阶段骨髓细胞图像自动识别方法,包括以下步骤:
1)在光学显微镜下获取骨髓涂片图像,并对其中的骨髓细胞进行单细胞裁剪;给定单细胞图像数据样本的细胞类别标签并完成检查,所述类别包括同系骨髓细胞的不同成熟阶段;对每个类别的骨髓细胞数量强制进行相对均衡,得到标定好的骨髓细胞单细胞图像数据集;
2)利用迁移学习在公共数据集ImageNet上预训练DenseNet-201模型,并将DenseNet-201模型中最浅层的3个密集连接块结构迁移连接到最终构建的密集连接型卷积神经网络模型中;利用卷积层、池化层和全连接层对网络进行再构建,构建的密集连接型卷积神经网络模型共包括M层,模型结构由浅到深为:输入层-卷积层1-池化层1-密集连接块1-卷积层2-池化层2-密集连接块2-卷积层3-池化层3-密集连接块3-卷积层4-池化层4-全连接层1-全连接层2-全连接层3-输出层,输入层接收彩色骨髓细胞单细胞图像,输出层输出对应骨髓细胞图像的预测类别;
3)利用图像收缩算法变换步骤1)中得到的数据集中的所有骨髓细胞单细胞图像尺寸到与步骤2)构建的密集连接型卷积神经网络模型的输入层尺寸相匹配,得到骨髓细胞单细胞图像尺寸统一的新数据集;按照多折交叉验证的要求对图像尺寸统一后的新数据集进行划分,得到多组交叉验证集和对应的训练集;
4)选取步骤3)中分出的任意一组训练集和交叉验证集,利用训练集训练步骤2)中构建的密集连接型卷积神经网络模型,利用交叉验证集调整带动量的小批量随机梯度下降方法中涉及到的训练超参数,将训练超参数调整到使得交叉验证集上的分类测试结果最优;利用调整好的训练超参数以及对应的带动量的小批量随机梯度下降方法对密集连接型卷积神经网络模型的结构参数进行训练,得到训练好的最优结构参数模型。
本发明方法的优势在于:
a)步骤1)中裁剪的单细胞原始图像不要求尺寸大小统一,图像裁剪尺寸的灵活性更适用于分布密集且大小差异悬殊的骨髓细胞。
b)步骤1)中强制对不同骨髓细胞类别的数据进行数量均衡,减少了模型对不同骨髓细胞类别进行识别时的概率偏见,有利于均衡步骤4)训练得到的模型对各个细胞类别识别效果,提升识别系统的整体稳健性。
c)步骤2)的模型根据骨髓细胞特点进行设计,采用密集连接结构提取细胞的细小特征差异,缓解了模型的退化,利于改善模型对骨髓细胞的识别效果。
d)相较于随机选取相对合适的超参数对模型进行训练,步骤4)中对于超参数的精细调整有利于进一步提升细胞识别的准确率。
本发明的方法还包括:利用多折交叉验证对所述最优结构参数模型的骨髓细胞识别结果进行评估。相较于单个随机划分的训练集和验证集而言,多折交叉验证对于模型的测试考虑到了数据集中所有的数据,比起单一一次的训练和测试,多折交叉验证得到的细胞识别测试结果对于模型识别效果的评估更为综合、准确。
步骤1)中,所述骨髓涂片图像集中的图像为边长不统一的正方形,且有且仅有单一骨髓细胞位于图像正中。
裁剪的单细胞图像不要求尺寸大小统一,这种图像裁剪尺寸的灵活性更适用于分布密集且大小差异悬殊的骨髓细胞。由于骨髓涂片图像中骨髓细胞分布密集且大小差异悬殊,在做单细胞裁剪时,若采取统一的裁剪尺寸,那么对于尺寸较小的骨髓细胞则无法确保单张裁剪图像中仅包含一个细胞,而对于较大的骨髓细胞则可能无法确保细胞能被规定尺寸的图像包括完全,这不利于裁剪获取单细胞图像的实际操作。如果裁剪图像中包括多个细胞,那么模型在进行识别时会产生困扰,无法明确判断识别对象为哪个细胞。本发明中不要求单细胞图像统一裁剪,能很好地解决这一问题。
所述密集连接型卷积神经网络模型结构中,输入层尺寸为224×224×3,卷积层1的卷积核尺寸为7×7×64,通道数为3,步长为2,四周填充尺寸为[3,3,3,3];池化层1为最大池化层,尺寸为3×3,步长为2,四周填充尺寸为[1,1,1,1];密集连接块1~3分别包含12、24和96个卷积层,由两种类型的卷积层交替连接组合而成,类型1的卷积层的卷积核尺寸为1×1×128,类型2的卷积层的卷积核尺寸为3×3×32,两种卷积核的步长均为1,四周填充尺寸均为[1,1,1,1];卷积层2~4的卷积核尺寸分别为1×1×128、1×1×256和1×1×896,步长为1,无填充;池化层2~4为平均池化层,尺寸为2×2,步长为2,无填充;全连接层1维度为1000,引入了概率为0.2的dropout机制;全连接层2维度为100,引入概率为0.3的Dropout机制;全连接层3维度为与骨髓细胞类别数目一致;最后通过Softmax函数得到细胞图像的预测类别。
根据连续成熟阶段骨髓细胞细胞特征差异连续、微小的特点,在模型设计时引入了密集连接模块,密集连接模块具有特征复用的特点,有利于缓解模型提取的特征的退化,从而实现模型对微小特征的提取。并且,相较于应用于ImageNet图像分类挑战的DenseNet模型,本发明提出的模型减少了密集连接块数目,减小模型深度,并引入少量带dropout机制的全连接层替代,对于细胞识别任务而言,由于细胞的特征模式相对统一,减小模型深度有利于缓解模型过拟合并加速模型训练。
在单个密集连接块内部,类型2的卷积层产生的特征图以特征图并联的方式连接到所有更深层的类型1的卷积层,形成密集连接;网络结构中所有的卷积层和全连接层均采用ReLU激活函数。
浅层网络生成的特征图向深层网络的传输实现了浅层网络特征在深层网络的复用,缓解了特征的退化,有利于提取骨髓细胞的细小特征,避免细节特征的丢失。ReLU激活函数的单侧抑制的特点使得神经网络中的神经元具有稀疏激活性,通过ReLU实现稀疏后的模型能够更好地挖掘相关特征,拟合训练。
步骤3)中,通过最近邻插值法将数据集中的图片尺寸归一到与构建的模型的输入层尺寸匹配。
模型中存在全连接层,需统一图片输入尺寸,使得特征图和权重矩阵维度始终维持一致,故引入最近邻插值法统一图像尺寸。
步骤4)中,所述带动量的小批量随机梯度下降方法的损失函数采用带L2正则化的交叉熵损失函数,损失函数计算的值用于反馈更新密集连接型卷积神经网络模型的结构参数。
交叉损失函数适用于多分类任务,可以有效判别模型在细胞识别任务中产生的误差,而带L2正则化的交叉熵损失函数对模型的结构参数值进行了约束,使得模型的结构参数分布较为平滑,能有效缓解模型的过拟合并提升模型的抗扰动能力。
在训练集图像输入所述密集连接型卷积神经网络模型前对所述训练集图像进行如下类型的随机图像变换:随机在0°~360°中选取一个角度对训练集图像进行旋转,然后对图像进行水平与垂直翻转,最后随机在-20~20像素范围内选取一个距离,上下或左右平移图像。
随机数据增广引入的每一次图像变换都具有随机性,相较于固定的数据增广能更大程度地丰富数据的特征,提升模型的泛化能力。
本发明还提供了一种连续成熟阶段骨髓细胞图像自动识别系统,其包括计算机设备;所述计算机设备被配置或编程为执行上述方法的步骤。
本发明还提供了一种计算机可读存储介质,其存储有程序;所述程序被配置为执行上述方法的步骤。
与现有的技术相比,本发明的有益效果为:本发明为骨髓细胞,尤其是处于连续成熟阶段的骨髓细胞的自动分类提供了一种有效的方案;该方法充分考虑了骨髓细胞密集分布的特殊性,不要求单细胞图像强制具有统一的尺寸;充分考虑了不同类别的骨髓细胞数量的不均衡性,强制保证数据集中各类骨髓细胞图像数量的相对均衡、一致;充分考虑了连续成熟阶段的骨髓细胞特征高度相似的特点,采用一种密集连接的网络形式,确保细胞特征差异不容易因卷积层过滤而被网络忽视,使得细胞特征得到更好的提取;与传统方法和人工方法相比较,本发明提出的方案基于卷积神经网络,具有更强的鲁棒性,可以进一步改善骨髓细胞自动分类系统的性能,提高分类准确率和效率。
附图说明
图1为本发明提供的一种基于迁移学习和密集连接型卷积神经网络的连续成熟阶段骨髓细胞图像自动识别方法的实施流程图;
图2为本发明提供的基于迁移学习和密集连接型卷积神经网络的连续成熟阶段骨髓细胞图像自动识别方法的整体网络结构框图;
图3为本发明提供的基于迁移学习和密集连接型卷积神经网络的连续成熟阶段骨髓细胞图像自动识别所测试的十类骨髓细胞示意图。
具体实施方式
本发明的主要思路是充分考虑骨髓细胞分布的密集性,数量的不均衡性,细胞形态的相似性,以及处于连续成熟阶段的骨髓细胞特征差异的微小性,利用密集连接型模块对于微小特征提取的优越性,使得骨髓细胞自动识别方法的鲁棒性进一步增强,同时通过密集连接型网络模型提高骨髓细胞自动识别的准确性。
如图1所示,本发明提供了一种基于迁移学习和密集连接型卷积神经网络的骨髓细胞自动识别方法,其包括以下5个步骤(S1~S5):
S1:骨髓细胞图像数据集准备。
在光学显微镜(如:1000倍游镜)下获取骨髓涂片图像,并对其中的骨髓细胞进行单细胞裁剪;单细胞图像数据样本由专业医师为其给定细胞类别标签并完成检查,类别需要区分同系骨髓细胞的不同成熟阶段;对每个类别的骨髓细胞数量强制进行相对均衡。
具体来说,在光学显微镜1000倍游镜下获取骨髓涂片图像,并对涂片图像中的骨髓细胞进行单细胞裁剪。单细胞图像的裁剪要求为,图像为不要求边长统一的正方形尺寸,但需要保证有且仅有一个骨髓细胞位于图像正中,细胞尽可能地填充图像。裁剪好的单细胞图像由专业医师给定类别标签并检查,要求分类时对处于不同成熟阶段的骨髓细胞进行区分。强制对各类细胞的图像数量进行相对均衡,必要时针对某些类别的细胞图像进行额外补充,或舍弃某些类别的过多的图像,得到原始数据集。本实例采用了红系4个连续成熟阶段和粒系6个连续成熟阶段的10类骨髓细胞单细胞图像共1150张,图像在光学显微镜1000倍游镜下采集,每张骨髓细胞单细胞图像都由专业医师进行了类别标注,并进行了检查。其中,10类的细胞图像数量基本均等,图像尺寸符合正方形尺寸的要求,最小的图片尺寸为107×107,最大的尺寸为308×308,选取的10类细胞分别为原始红细胞、早幼红细胞、中幼红细胞、晚幼红细胞、原始粒细胞、早幼粒细胞、中幼粒细胞、晚幼粒细胞、杆状核细胞、分叶核细胞,数据集中的数据分布如表1所示。
表1骨髓细胞数据集数据分布详情
细胞类别 图像数量 图像比例
原始红细胞 131 11%
早幼红细胞 128 11%
中幼红细胞 115 10%
晚幼红细胞 102 9%
原始粒细胞 114 10%
早幼粒细胞 92 8%
中幼粒细胞 150 13%
晚幼粒细胞 115 10%
杆状核细胞 104 9%
分叶核细胞 99 9%
S2:通过迁移学习构建密集连接型卷积神经网络模型。
在大型公共数据集上对模型用到的密集连接块进行预训练,并迁移连接到本发明提出的网络结构中,以获取与图像分类相关的先验知识;再利用卷积层、池化层、全连接层等网络层对模型进行构建,构建的密集连接型卷积神经网络的输入为骨髓细胞单细胞图像,输出为对应的预测细胞类别。
模型结构示意图参阅图2。在本实例中,采用的神经网络模型是一个包含3个密集连接块的密集连接型深度卷积神经网络模型,其中的3个密集连接块均由在ImageNet上预训练过的DenseNet-201迁移学习而来,以获取分类任务相关的先验知识。利用卷积层、池化层、全连接层和迁移学习得来的密集连接块进行模型构建,得到用于连续成熟阶段骨髓细胞自动识别的密集连接型卷积神经网络模型。按照模型结构由浅到深,给网络层依次命名为“输入层-卷积层1-池化层1-密集连接块1-卷积层2-池化层2-密集连接块2-卷积层3-池化层3-密集连接块3-卷积层4-池化层4-全连接层1-全连接层2-全连接层3-输出层”。
其中,输入层尺寸固定为224×224×3,而后紧接着卷积层1和池化层1对图像特征进行初步降维。卷积层1包含3个通道,卷积核尺寸为7×7×64,步长为[2,2],四周填充尺寸为[3,3,3,3];池化层1为最大池化层,尺寸为3×3,步长为[2,2],四周填充尺寸为[1,1,1,1]。
紧接着,模型通过3个密集连接块对特征进行进一步的提取,并且每个密集连接块之后紧接着1个卷积层和1个池化层对特征进行渐进降维。密集连接块内部包含两种类型的卷积层,类型1的卷积核尺寸为1×1×128,步长为[1,1],四周填充尺寸为[1,1,1,1],类型2的卷积核尺寸为3×3×32,步长为[1,1],四周填充尺寸为[1,1,1,1],1个类型1与1个类型2的卷积层构成1个卷积层对。密集连接块1~3中分别包含6、12和48个卷积层对,在密集连接块内部,浅层的卷积层对将与所有的深层卷积层对连接,将所有的浅层特征图向后传递,以特征图并联的方式进行特征共享,避免了模型退化,在增强模型的细节特征提取能力的同时,缓解了过拟合。此外,每个密集连接块后接有1个卷积层和1个池化层对特征逐步筛选和降维,由浅到深分别为卷积层2~4和池化层2~4。卷积层2~4的卷积核尺寸分别为1×1×128、1×1×256和1×1×896,步长为[1,1],无填充;池化层2~4为平均池化层,尺寸为[2,2],步长为[2,2],无填充。
最后,模型通过3个全连接层对提取出来的特征进行整合与处理,实现特征到细胞类别的映射关系。由浅到深为全连接层1~3,其中,较浅层的两个全连接层带有dropout机制,在图2简称dropout层。全连接层1的维度为1000,dropout的概率为0.2;全连接层2的维度为100,dropout的概率为0.3;全连接层3的维度在本实例为10,对应红系和粒系的10类骨髓细胞,无dropout机制。在模型的末尾,利用Softmax函数预测细胞图像属于各个类别的概率,取最大概率的类别为预测类别。
注,模型的每个卷积层和全连接层的激活函数采用ReLU函数,且在激活前均对数据样本进行批量标准化(Batch Normalization,BN)。
S3:图像尺寸归一与与数据集划分。
利用图像收缩算法变换图像尺寸到与模型的输入层尺寸相匹配;按照多折交叉验证的要求对数据集进行划分,得到交叉验证集和对应的训练集,以备模型训练和测试。
具体来说,利用紧邻插值法调整单细胞图像尺寸到224×224×3,以匹配细胞图像尺寸与构建的模型的输入层尺寸,得到图像尺寸统一的新数据集;按照5折交叉验证的要求将新数据集随机均分为5份备用,并编号为数据子集1~5,以备后续的模型训练和测试。
根据最近邻插值法,对于一个尺寸为n×n的单细胞图像,缩放后要求图像尺寸为n’×n’。已知缩放后有像素点(x’,y’),要得到该像素点的像素值f1(x’,y’),那么根据缩放比例来查看其对应的原图像素点(x,y)的像素值f(x,y),并赋值给缩放后的图片的像素点(x’,y’)。缩放公式为:
f1(x’,y’)=f(x,y),
x=x’·n/n’,
y=y’·n/n’。
故有:
f1(x’,y’)=f(x’·n/n’,y’·n/n’)。
S4:训练超参数精调与模型训练。
选取步骤3中分出的1组训练集和交叉验证集,利用训练集来训练步骤2中构建的模型,利用验证集来精调训练算法中涉及到的超参数,将训练超参数调整到使得验证集上的分类测试结果最优;接着,利用精调好的训练超参数和训练集,以特定方法对模型的结构参数进行训练,得到训练好的最优结构参数模型;在参数精调的模型训练与模型的正式训练过程中,均对训练集引入随机数据增强以丰富数据特征,在每张图像输入模型被用于模型训练前,对图像进行即时的随机旋转、翻转和平移图像变换。
模型的训练采用带动量的小批量随机梯度下降法,损失函数采用带L2正则化的交叉熵损失函数,并且在训练过程中对当前输入网络的图像引入多种类型的随机数据增广。在正式的模型结构参数训练前,先选取S3中准备的1组训练集和对应的验证集对训练超参数进行精调,然后再利用训练集对模型进行正式训练。
根据带动量的小批量随机梯度下降方法:在每一代训练前,对训练集数据进行混洗,并按照小批量尺寸m划分出n组小批量样本Di(i=1,2,…,n),每组小批量样本内包含m张图片样本,且不同小批量样本间无重复样本,训练集为小批量样本的合集。
对于骨髓细胞图像样本(xj,yj)∈Di,在图像输入模型被用于模型训练前,对图像样本进行随机数据增广。本实例根据细胞图像的旋转、翻转和平移不变性,引入以下类型的随机数据增广:随机在0°~360°的范围选取一个角度对图像做旋转变换,随机对图像做水平和垂直翻转,以及随机在-20~20像素的范围内选取一个距离对图像做上下和左右平移。
利用带L2正则化的交叉熵损失函数对小批量样本的预测结果进行代价值loss的计算,并用代价值来反馈调节模型的权重和偏差结构参数。令模型的函数表示为y’=f(x,θ),y’为预测结果,x为输入网络模型的图像样本,θ为网络模型的结构参数,y为样本x的真实标签,那么:
loss=-(1/m)·Σj=1 m yj·log(y’j)+(1/2)·λ·||θ||F 2
Figure BDA0002976188040000111
Δθ为不带动量的梯度,实际计算时需要用到误差前向传播和反向传播两个过程。然后,利用梯度求带动量的梯度V,并用作最后的结构参数更新:
V=β·V+(1–β)·Δθ,
θ=θ+η·V,
其中,β为动量系数,η为学习率。
每p代训练后,对将学习率乘以衰减因子d,以加速结构结构参数的收敛:
η=d·η。
模型的最大训练代数规定为e,在e代训练后得到最优结构参数模型。
模型训练过程中,计算涉及到7个训练超参数,超参数的精调数值见表2。随机选取S3中划分的1份数据子集作为验证集,其它4份作为训练集,根据验证集上的验证结果精调训练超参数,使得验证集上的分类结果达到最好。
表2训练超参数列表
Figure BDA0002976188040000112
Figure BDA0002976188040000121
S5:模型效果测试。
利用多折交叉验证对模型的骨髓细胞识别效果进行评估,测试结果取多个交叉验证集上的识别准确率的平均;利用查准率、查全率和F1度量评估模型对各类骨髓细胞的识别效果。
利用5折交叉验证对本发明提供的基于迁移学习和密集连接型卷积神经网络的连续成熟阶段骨髓细胞自动识别方法进行测试。得到本实例中,处于连续成熟阶段的4类红系和6类粒系骨髓细胞这10类细胞的识别结果如表3。表3红系和粒系10类连续成熟阶段骨髓细胞的整体识别结果
训练时间 训练集识别准确率 测试集识别准确率
≈68分钟 0.9888±0.055e-4 0.8927±1.966e-4
对于10类细胞各自的识别效果,通过查准率(Precision,P)、查全率(Recall,R)以及F1度量值(F1-Score,F1)来衡量。根据细胞的真实类别与算法预测类别的组合,可将结果划分为真正例TP(True Positive)、假真例FP(False Positive)、真反例TN(TrueNegative)、假反例FN(False Negative)四种情形。令TP、FP、TN、FN分别表示其对应的样例数,则各项评估指标的的计算如下:
P=TP/(TP+FP);
R=TP/(TP+FN)。
F1=2×P×R/(P+R)。
根据公式,本发明提供的基于迁移学习和密集连接型卷积神经网络的连续成熟阶段骨髓细胞自动识别方法对10类骨髓细胞的识别结果见表4:
表4红系和粒系10类骨髓细胞分类结果评估
Figure BDA0002976188040000122
Figure BDA0002976188040000131
可以看出,本方法在骨髓细胞识别任务中取得了不错的效果,整体识别准确率达到了约89.27%,对各类骨髓细胞的识别效果也相对均衡且较好。
最后,图3展示了本实例选取的10类骨髓细胞图像样本的一些示例图。

Claims (10)

1.一种连续成熟阶段骨髓细胞图像自动识别方法,其特征在于,包括以下步骤:
1)在光学显微镜下获取骨髓涂片图像,并对其中的骨髓细胞进行单细胞裁剪;给定单细胞图像数据样本的细胞类别标签并完成检查,所述类别包括同系骨髓细胞的不同成熟阶段;对每个类别的骨髓细胞数量强制进行相对均衡,得到标定好的骨髓细胞单细胞图像数据集;
2)利用迁移学习在公共数据集ImageNet上预训练DenseNet-201模型,并将DenseNet-201模型中最浅层的3个密集连接块结构迁移连接到最终构建的密集连接型卷积神经网络模型中;利用卷积层、池化层和全连接层对网络进行再构建,构建的密集连接型卷积神经网络模型共包括M层,
模型结构由浅到深为:输入层-卷积层1-池化层1-密集连接块1-卷积层2-池化层2-密集连接块2-卷积层3-池化层3-密集连接块3-卷积层4-池化层4-全连接层1-全连接层2-全连接层3-输出层,输入层接收彩色骨髓细胞单细胞图像,输出层输出对应骨髓细胞图像的预测类别;
3)利用图像收缩算法变换步骤1)中得到的数据集中的所有骨髓细胞单细胞图像尺寸到与步骤2)构建的密集连接型卷积神经网络模型的输入层尺寸相匹配,得到骨髓细胞单细胞图像尺寸统一的新数据集;按照多折交叉验证的要求对图像尺寸统一后的新数据集进行划分,得到多组交叉验证集和对应的训练集;
4)选取步骤3)中分出的任意一组训练集和交叉验证集,利用训练集训练步骤2)中构建的密集连接型卷积神经网络模型,利用交叉验证集调整带动量的小批量随机梯度下降方法中涉及到的训练超参数,将训练超参数调整到使得交叉验证集上的分类测试结果最优;利用调整好的训练超参数以及对应的带动量的小批量随机梯度下降方法对密集连接型卷积神经网络模型的结构参数进行训练,得到训练好的最优结构参数模型。
2.根据权利要求1所述的连续成熟阶段骨髓细胞图像自动识别方法,其特征在于,还包括:利用多折交叉验证对所述最优结构参数模型的骨髓细胞识别结果进行评估。
3.根据权利要求1所述的连续成熟阶段骨髓细胞图像自动识别方法,其特征在于,步骤1)中,所述骨髓涂片图像集中的图像为边长不统一的正方形,且有且仅有单一骨髓细胞位于图像正中。
4.根据权利要求1所述的连续成熟阶段骨髓细胞图像自动识别方法,其特征在于,所述密集连接型卷积神经网络模型结构中,输入层尺寸为224×224×3,卷积层1的卷积核尺寸为7×7×64,通道数为3,步长为2,四周填充尺寸为[3,3,3,3];池化层1为最大池化层,尺寸为3×3,步长为2,四周填充尺寸为[1,1,1,1];密集连接块1~3分别包含12、24和96个卷积层,由两种类型的卷积层交替连接组合而成,类型1的卷积层的卷积核尺寸为1×1×128,类型2的卷积层的卷积核尺寸为3×3×32,两种卷积核的步长均为1,四周填充尺寸均为[1,1,1,1];卷积层2~4的卷积核尺寸分别为1×1×128、1×1×256和1×1×896,步长为1,无填充;池化层2~4为平均池化层,尺寸为2×2,步长为2,无填充;全连接层1维度为1000,引入概率为0.2的dropout机制;全连接层2维度为100,引入概率为0.3的Dropout机制;全连接层3维度为与骨髓细胞类别数目一致;最后通过Softmax函数得到细胞图像的预测类别。
5.根据权利要求4所述的连续成熟阶段骨髓细胞图像自动识别方法,其特征在于,在单个密集连接块内部,类型2的卷积层产生的特征图以特征图并联的方式连接到所有更深层的类型1的卷积层,形成密集连接;网络结构中所有的卷积层和全连接层均采用ReLU激活函数。
6.根据权利要求1所述的基于迁移学习和密集连接型卷积神经网络的骨髓细胞图像自动识别方法,其特征在于,步骤3)中,通过最近邻插值法将数据集中的图片尺寸归一到与构建的模型的输入层尺寸匹配。
7.根据权利要求1所述的连续成熟阶段骨髓细胞图像自动识别方法,其特征在于,步骤4)中,所述带动量的小批量随机梯度下降方法的损失函数采用带L2正则化的交叉熵损失函数,损失函数计算的值用于反馈更新密集连接型卷积神经网络模型的结构参数。
8.根据权利要求7所述的连续成熟阶段骨髓细胞图像自动识别方法,其特征在于,在训练集图像输入所述密集连接型卷积神经网络模型前对所述训练集图像进行如下类型的随机图像变换:随机在0°~360°中选取一个角度对训练集图像进行旋转,然后对图像进行水平与垂直翻转,最后随机在-20~20像素范围内选取一个距离,上下或左右平移图像。
9.一种连续成熟阶段骨髓细胞图像自动识别系统,其特征在于,包括计算机设备;所述计算机设备被配置或编程为执行权利要求1~8之一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有程序;所述程序被配置为执行权利要求1~8之一所述方法的步骤。
CN202110274848.3A 2021-03-15 2021-03-15 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质 Pending CN113011306A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110274848.3A CN113011306A (zh) 2021-03-15 2021-03-15 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110274848.3A CN113011306A (zh) 2021-03-15 2021-03-15 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质

Publications (1)

Publication Number Publication Date
CN113011306A true CN113011306A (zh) 2021-06-22

Family

ID=76406962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110274848.3A Pending CN113011306A (zh) 2021-03-15 2021-03-15 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质

Country Status (1)

Country Link
CN (1) CN113011306A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706486A (zh) * 2021-08-17 2021-11-26 西安电子科技大学 基于密集连接网络迁移学习的胰腺肿瘤图像分割方法
CN114023387A (zh) * 2022-01-05 2022-02-08 山东建筑大学 一种基于卷积神经网络的细胞反卷积预测方法
CN114219807A (zh) * 2022-02-22 2022-03-22 成都爱迦飞诗特科技有限公司 乳腺超声检查图像分级方法、装置、设备和存储介质
CN115861319A (zh) * 2023-02-28 2023-03-28 中国科学院长春光学精密机械与物理研究所 一种卵丘细胞复合体成熟度分析方法、装置、设备及介质
CN116152806A (zh) * 2022-02-15 2023-05-23 河南省儿童医院郑州儿童医院 一种基于卷积神经网络的骨髓细胞识别方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376400A (zh) * 2018-02-12 2018-08-07 华南理工大学 一种骨髓细胞自动分类方法
CN108898175A (zh) * 2018-06-26 2018-11-27 北京工业大学 基于深度学习胃癌病理切片的计算机辅助模型构建方法
CN109034045A (zh) * 2018-07-20 2018-12-18 中南大学 一种基于卷积神经网络的白细胞自动识别方法
CN109360198A (zh) * 2018-10-08 2019-02-19 北京羽医甘蓝信息技术有限公司 基于深度学习的骨髓细胞分类方法及分类装置
CN109376683A (zh) * 2018-11-09 2019-02-22 中国科学院计算技术研究所 一种基于稠密图的视频分类方法和系统
CN109598224A (zh) * 2018-11-27 2019-04-09 微医云(杭州)控股有限公司 基于区域推荐卷积神经网络的骨髓切片中白细胞检测方法
CN110032985A (zh) * 2019-04-22 2019-07-19 清华大学深圳研究生院 一种血细胞自动检测识别方法
CN110263656A (zh) * 2019-05-24 2019-09-20 南方科技大学 一种癌细胞识别方法、装置和系统
CN111325103A (zh) * 2020-01-21 2020-06-23 华南师范大学 一种细胞标注系统和方法
CN111458269A (zh) * 2020-05-07 2020-07-28 厦门汉舒捷医疗科技有限公司 一种外周血淋巴微核细胞图像人工智能识别方法
CN112036334A (zh) * 2020-09-03 2020-12-04 深圳迈瑞生物医疗电子股份有限公司 待测样本中的有形成分分类方法、系统及终端

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376400A (zh) * 2018-02-12 2018-08-07 华南理工大学 一种骨髓细胞自动分类方法
CN108898175A (zh) * 2018-06-26 2018-11-27 北京工业大学 基于深度学习胃癌病理切片的计算机辅助模型构建方法
CN109034045A (zh) * 2018-07-20 2018-12-18 中南大学 一种基于卷积神经网络的白细胞自动识别方法
CN109360198A (zh) * 2018-10-08 2019-02-19 北京羽医甘蓝信息技术有限公司 基于深度学习的骨髓细胞分类方法及分类装置
CN109376683A (zh) * 2018-11-09 2019-02-22 中国科学院计算技术研究所 一种基于稠密图的视频分类方法和系统
CN109598224A (zh) * 2018-11-27 2019-04-09 微医云(杭州)控股有限公司 基于区域推荐卷积神经网络的骨髓切片中白细胞检测方法
CN110032985A (zh) * 2019-04-22 2019-07-19 清华大学深圳研究生院 一种血细胞自动检测识别方法
CN110263656A (zh) * 2019-05-24 2019-09-20 南方科技大学 一种癌细胞识别方法、装置和系统
CN111325103A (zh) * 2020-01-21 2020-06-23 华南师范大学 一种细胞标注系统和方法
CN111458269A (zh) * 2020-05-07 2020-07-28 厦门汉舒捷医疗科技有限公司 一种外周血淋巴微核细胞图像人工智能识别方法
CN112036334A (zh) * 2020-09-03 2020-12-04 深圳迈瑞生物医疗电子股份有限公司 待测样本中的有形成分分类方法、系统及终端

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GAO HUANG等: "Densely Connected Convolutional Networks", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 1 - 2 *
YU‑DONG ZHANG等: "COVID-19 Diagnosis via DenseNet and Optimization of Transfer Learning Setting", 《COGNITIVE COMPUTATION》, pages 1 - 17 *
吴汾奇等: "骨髓红粒细胞自动识别的深度学习模型", 《吉林大学学报(信息科学版)》, vol. 38, no. 6, pages 729 - 736 *
董青青等: "基于卷积神经网络的迁移学习对皮肤癌的预测研究", 《中国优秀硕士学位论文全文数据库:医药卫生科技辑》, no. 2020, pages 1 *
陈照悦等: "基于迁移学习的火灾图像检测方法研究", 《现代计算机》, no. 28, pages 23 - 28 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706486A (zh) * 2021-08-17 2021-11-26 西安电子科技大学 基于密集连接网络迁移学习的胰腺肿瘤图像分割方法
CN114023387A (zh) * 2022-01-05 2022-02-08 山东建筑大学 一种基于卷积神经网络的细胞反卷积预测方法
CN116152806A (zh) * 2022-02-15 2023-05-23 河南省儿童医院郑州儿童医院 一种基于卷积神经网络的骨髓细胞识别方法及系统
CN116152806B (zh) * 2022-02-15 2024-03-15 河南省儿童医院郑州儿童医院 一种基于卷积神经网络的骨髓细胞识别方法及系统
CN114219807A (zh) * 2022-02-22 2022-03-22 成都爱迦飞诗特科技有限公司 乳腺超声检查图像分级方法、装置、设备和存储介质
CN115861319A (zh) * 2023-02-28 2023-03-28 中国科学院长春光学精密机械与物理研究所 一种卵丘细胞复合体成熟度分析方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN113011306A (zh) 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质
CN108898160B (zh) 基于cnn和影像组学特征融合的乳腺癌组织病理学分级方法
CN108898175B (zh) 基于深度学习胃癌病理切片的计算机辅助模型构建方法
Kumar et al. Breast cancer classification of image using convolutional neural network
CN108764072B (zh) 一种基于多尺度融合的血细胞亚型图像分类方法
CN108304826A (zh) 基于卷积神经网络的人脸表情识别方法
CN109670510A (zh) 一种基于深度学习的胃镜活检病理数据筛查系统和方法
CN111476266B (zh) 一种基于迁移学习的非平衡类别白细胞分类方法
CN110570432A (zh) 一种基于深度学习的ct图像肝脏肿瘤分割方法
CN111009324A (zh) 脑网络多特征分析的轻度认知障碍辅助诊断系统及方法
CN110097060A (zh) 一种面向树干图像的开集识别方法
CN111160135A (zh) 基于改进的Faster R-cnn的尿红细胞病变识别与统计方法和系统
CN115100467A (zh) 一种基于核注意力网络的病理全切片图像分类方法
CN112434172A (zh) 一种病理图像预后特征权重计算方法及系统
de Oliveira et al. Classification of Normal versus Leukemic Cells with Data Augmentation and Convolutional Neural Networks.
CN116386853A (zh) 面向智慧医疗的深度可分离卷积双重聚合联邦学习方法
Ma et al. A novel two-stage deep method for mitosis detection in breast cancer histology images
Li et al. A deep learning method for material performance recognition in laser additive manufacturing
CN115471701A (zh) 基于深度学习和迁移学习的肺腺癌组织学亚型分类方法
Ridoy et al. An automated approach to white blood cell classification using a lightweight convolutional neural network
CN112263224B (zh) 一种基于fpga边缘计算的医学信息处理方法
Li et al. Facial emotion recognition via stationary wavelet entropy and Biogeography-based optimization
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN114863425A (zh) 基于有监督对比学习的尿红细胞的分类方法
Yan et al. Two and multiple categorization of breast pathological images by transfer learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination