CN112634243B

CN112634243B - 一种强干扰因素下基于深度学习的图像分类识别系统

Info

Publication number: CN112634243B
Application number: CN202011578982.4A
Authority: CN
Inventors: 李玲; 王佳文; 孔庆阳; 梁楫坤; 黄玉兰; 张海蓉
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-08-05
Anticipated expiration: 2040-12-28
Also published as: CN112634243A

Abstract

本发明属于医学图像处理技术领域，具体涉及一种强干扰因素下基于深度学习的图像分类识别系统；其中检测统计模块用于采集完整的细胞原图像，并对该细胞原图像进行逐块显示，根据细胞识别模块识别出的细胞类别及个数生成报告；细胞分割模块采用Unet网络细胞轮廓分割模型对观察窗口内显示的图像中细胞进行识别和分割，每处理完一个观察窗口，就将其输入细胞识别模块，直至处理完全部观察窗口；细胞识别模块采用SSD目标检测网络模型对细胞分割模块从观察窗口内识别并分割出的细胞进行定位以及识别；对显微镜下白细胞图像进行分析，辅助临床医生准确高效完成白细胞分类识别统计，提高准确率及判断精度，能够有效降低噪声干扰，提升分类识别效果。

Description

一种强干扰因素下基于深度学习的图像分类识别系统

技术领域

本发明属于医学图像处理技术领域，具体涉及一种强干扰因素下基于深度学习的图像分类识别系统。

背景技术

在临床上,白细胞分类识别是血常规检验的一项重要内容。关于如何快速、准确根据形态对白细胞进行分类是一项重要的研究。目前,临床上对白细胞的检验方法是血细胞分析仪和人工镜检,即先用血细胞分析仪对样本进行筛查,如果发现异常样本,则进一步用显微镜肉眼观察,确定最终结果。人工镜检准确度能够达到95％以上。但是人工镜检效率低,分类速度慢,准确度受检验人员经验和状态的影响。随着计算机技术的不断发展,图像处理技术和深度学习技术逐渐应用于细胞识别检测中，但是在数据集采集过程中经常会产生因人为漏检以及血液背景组织产生的干扰，同时因不同类细胞样本数量不均衡导致该强噪声数据训练出的神经网络分类识别效果不理想。

发明内容

为了克服上述问题，本发明提供一种强干扰因素下基于深度学习的图像目标识别系统，最大克服现有数据噪声、类别不平衡以及漏标现象，结合深度学习建立模型，对显微镜下白细胞图像进行分析，辅助临床医生准确高效完成白细胞分类识别统计，尽快统计血液样本中白细胞类别分布，提高准确率及判断精度，能够有效降低噪声干扰，提升分类识别效果。

一种强干扰因素下基于深度学习的图像分类识别系统，包括细胞分割模块、细胞识别模块和检测统计模块；其中检测统计模块用于采集完整的像素为4000×3000的细胞原图像，并以像素为800×800的大小作为观察窗口对该细胞原图像进行逐块显示，并根据细胞识别模块识别出的细胞类别及相应类别的个数生成细胞分类检测报告；

细胞分割模块采用Unet网络细胞轮廓分割模型对检测统计模块中观察窗口内显示的细胞图像中的细胞进行识别和分割，同时移除观察窗口中的背景以及没有被识别为细胞的部分，每处理完一个观察窗口内的细胞，就将从该观察窗口内分割出的细胞输入细胞识别模块，直至处理完逐块显示的每个观察窗口内的细胞图像；

细胞识别模块采用SSD目标检测网络模型对细胞分割模块从观察窗口内识别并分割出的细胞进行定位以及识别，并将每个细胞的中心点坐标保存作为标识该细胞位置的唯一方式，当细胞识别模块再次接收细胞分割模块从下一个观察窗口内识别并分割出的细胞时，首先计算每个细胞的中心点坐标以判断该细胞是否被定位及识别过，将重复定位和识别过的细胞合并为一个；

所述的细胞分割模块采用Unet网络细胞轮廓分割模型，其网络结构是由上采样层和下采样层构成的U型卷积神经网络结构，其中下采样层由五组卷积层组组成，其中：

第一卷积层组包括第1、第2这两个卷积层以及一个池化层，每层卷积核个数为64，每个卷积核大小均为3×3，池化层采用最大池化，步长为2；

第二卷积层组包括第3、第4这两个卷积层以及一个池化层，每层卷积核个数为128，每个卷积核大小均为3×3，池化层采用最大池化，步长为2；

第三卷积层组包括第5、第6这两个卷积层以及一个池化层，每层卷积核个数为256，每个卷积核大小均为3×3，池化层采用最大池化，步长为2；

第四卷积层组包括第7、第8这两个卷积层以及一个池化层，每层卷积核个数为512，每个卷积核大小均为3×3，池化层采用最大池化，步长为2；

第五卷积层组包括第9、第10这两个卷积层以及一个池化层，每层卷积核个数为1024，每个卷积核大小均为3×3，池化层采用最大池化，步长为2；

上采样层由五个卷积层组组成，其中：

第一卷积层组包括一个上采样操作层和两个卷积操作层，上采样操作层的卷积核个数为512，每个卷积核大小均为2×2，每个卷积操作层的卷积核个数均为512，卷积核大小均为3×3，

第二卷积层组包括一个上采样操作层和两个卷积操作层，上采样操作层的卷积核个数为256，每个卷积核大小均为2×2，每个卷积操作层的卷积核个数均为256，卷积核大小均为3×3，

第三卷积层组包括一个上采样操作层和两个卷积操作层，上采样操作层的卷积核个数为128，每个卷积核大小均为2×2，每个卷积操作层的卷积核个数均为128，卷积核大小均为3×3；

第四卷积层组包括一个上采样操作层和两个卷积操作层，上采样操作层的卷积核个数为64，每个卷积核大小均为2×2，每个卷积操作层的卷积核个数均为64，卷积核大小均为3×3，

第五卷积层组包括一个上采样操作层和两个卷积操作层，上采样操作层的卷积核个数为32，每个卷积核大小均为2×2，每个卷积操作层的卷积核个数均为32，卷积核大小均为3×3。

所述细胞分割模块采用的Unet网络细胞轮廓分割模型的训练过程包括以下步骤：

步骤一，人工从4000×3000像素的显微镜下细胞切片原图数据集合中切割出1000张800×800像素的细胞切片图像作为训练集，人工标注出训练集中每张细胞切片图像中的所有细胞以及所有细胞的种类，得到标注训练集；

步骤二，将标注训练集中每张细胞切片图像中每种细胞的数量进行扩增，得到增强标注训练集，其中每张细胞切片图像中每种细胞数量的扩增倍数为基础数据增强参数e和每张细胞切片图像中该种类细胞加权权重1/r的和，其中r为每张细胞切片图像中该种类细胞的数量占全部细胞数量的比率；

步骤三，将步骤二中得到的增强标注训练集输入到Unet网络细胞轮廓分割模型中进行训练，学习标注的各类细胞轮廓特征，去除图片中没有被识别为细胞的部分，识别出增强标注训练集中的全部细胞，将全部细胞分别按照其完整的轮廓分割出来并输出，当构建的Unet网络细胞轮廓分割模型从增强标注训练集中分割出的全部细胞的轮廓平均交并比达到0.92时，就得到训练好的分割模型，其中构建的Unet网络细胞轮廓分割模型从增强标注训练集中分割出来的全部细胞的轮廓

其中n为构建的Unet网络细胞轮廓分割模型分割出增强标注训练集中细胞的个数，a_i指第i个细胞被Unet网络细胞轮廓分割模型预测的细胞边界围成的区域面积和增强标注训练集中人工标注出细胞的真实边界围成的区域面积并集，b_i指第i个细胞被Unet网络细胞轮廓分割模型预测的细胞边界围成的区域面积和增强标注训练集中人工标注出细胞的真实边界围成的区域面积交集。

所述细胞识别模块采用的SSD目标检测网络模型的训练过程如下：

将上述的标注训练集输入到细胞识别模块中的SSD目标检测网络模型中进行训练，输出能够识别各类细胞形态特征信息的参数，再通过模型中的全连接层和softmax层进行分类，输出各个细胞的种类，当构建的SSD目标检测网络模型对标注训练集中标注的细胞分类准确率为95％时，就得到训练好的SSD目标检测网络模型，其中构建的SSD目标检测网络模型对标注训练集中细胞分类准确率＝构建的SSD目标检测网络模型正确分类出标注训练集中全部细胞种类的细胞个数/标注训练集中人工标注出种类的全部细胞个数*100％。

所述检测统计模块采集完整的像素为4000×3000的细胞原图像，并以像素为800×800的大小作为观察窗口对该细胞原图像进行逐块显示，具体为：

步骤一，将像素为4000×3000的细胞原图像送入检测统计模块，设置观察窗口大小为800×800px；

步骤二，每当一个观察窗口经细胞分割模块检测完成之后，该窗口会向右侧滑动400px的距离作为新的观察窗口；

步骤三，当观察窗口滑动到图像最右侧时，如果观察窗口没有滑到图像最底部，就使观察窗口向下滑动200px的距离作为新的观察窗口，该窗口再依次向左侧滑动400px的距离作为新的观察窗口；

步骤四，当观察窗口滑动到图像最左侧时，如果观察窗口没有滑到图像最底部，就使观察窗口向下滑动200px的距离作为新的观察窗口，并重复步骤二至步骤四，直至窗口滑动到图片的最底部的边缘处。

本发明的有益效果：

本发明结合语义分割网络、传统图像处理算法以及目标识别网络对显微镜下白细胞进行分类识别统计，有效的提升识别准确率、判断精度以及鲁棒性，同时滑动窗口法可以使分割模型以及目标检测模型工作在任何高分辨率图像下。

附图说明

图1是本发明统计系统流程示意图；

图2是本发明细胞分割模块抛去标签以及样本过程示意图；

图3和图4均是本发明中检测统计模块以像素为800×800的大小作为观察窗口对该细胞原图像进行逐块显示示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

细胞分割模块采用Unet网络细胞轮廓分割模型对检测统计模块中观察窗口内显示的细胞图像中的细胞进行识别和分割，同时移除观察窗口内显示的细胞图像中的背景以及没有被识别为细胞的部分，每处理完一个观察窗口内的细胞，就将从该观察窗口内分割出的细胞输入细胞识别模块，直至处理完逐块显示的每个观察窗口内的细胞图像；

细胞识别模块采用SSD目标检测网络模型对细胞分割模块从观察窗口内识别并分割出的细胞进行定位以及识别，并将每个细胞的中心点坐标保存作为标识该细胞位置的唯一方式，当细胞识别模块再次接收细胞分割模块从下一个观察窗口内识别并分割出的细胞时，首先计算每个细胞的中心点坐标以判断该细胞是否被定位及识别过，将重复定位和识别过的细胞合并为一个；对切片图像样本数据的扩充，防止训练时网络过拟合；

所述的细胞分割模块采用Unet网络细胞轮廓分割模型，其网络结构是由上采样层和下采样层构成的U型卷积神经网络结构，其中下采样层由五组卷积层组组成，其中：每组卷积层组均包括两个卷积层以及一个池化层，每经过一次下采样，通道数翻倍，分别为：

上采样层由五个卷积层组组成，其中：

步骤一，制作VOC格式的目标识别数据集，COCO格式的分割数据集。由于所采用的SSD网络输入层接收的图像大小为300×300像素，直接输入原图会有严重的性能损耗，所以人工从4000×3000像素的显微镜下细胞切片原图数据集合中切割出1000张800×800像素的细胞切片图像作为训练集，根据粒细胞在不同发育阶段形态人工标注出训练集中每张细胞切片图像中的所有细胞以及所有细胞的种类，得到标注训练集；在1000张图像中，每个种类细胞数量占比如下：10％原始粒细胞，13％早幼粒细胞、25％中幼粒细胞、13％晚幼粒细胞、20％杆状粒细胞、19％分叶粒细胞；

步骤二，将标注训练集中每张细胞切片图像输入数据增强模块进行数据增强，数据增强模块将标注训练集中每张细胞切片图像中每种细胞的数量进行扩增，得到增强标注训练集，其中每张细胞切片图像中每种细胞数量的扩增倍数为基础数据增强参数e和每张细胞切片图像中该种类细胞加权权重1/r的和，其中r为每张细胞切片图像中该种类细胞的数量占全部细胞数量的比率；

在数据增强模块中，根据细胞类别数量分布进行类别均衡化数据增强，首先计算标注训练集中每张细胞切片图像中各种类细胞的数量占全部细胞数量的比率r，然后对每个比率取倒数得到每种细胞的加权权重1/r；

在数据增强过程中，对每个细胞进行随机-360度至360度角度旋转、并加入sigma值为3.0的高斯噪声、然后随机进行alpha为0.5的锐化处理、随机像素着色RGB值70-180的处理。最后得到5200个原始粒细胞，5800个早幼粒细胞，9600个中幼粒细胞，7500个晚幼粒细胞，11000个杆状粒细胞，8000个分叶粒细胞。

步骤三，将步骤二中得到的增强标注训练集输入到Unet网络细胞轮廓分割模型中进行训练，学习标注的各类细胞形态和轮廓特征，去除图片中没有被识别为细胞轮廓的部分，识别出增强标注训练集中的全部细胞，将全部细胞分别按照其完整的轮廓分割出来并输出，当构建的Unet网络细胞轮廓分割模型从增强标注训练集中分割出的全部细胞的轮廓平均交并比达到0.92时，就得到训练好的分割模型，其中构建的Unet网络细胞轮廓分割模型从增强标注训练集中分割出来的全部细胞的轮廓

将测试集通过训练好的Unet网络得到细胞轮廓分割结果，没有被识别出来的细胞会被分割模型输出的全黑掩膜覆盖，滤掉颜色(0，0，0)可以抛去没有被分割出轮廓的细胞，只留下存有类别标签且被分割出来的完整细胞。

所述识别模块采用的SSD目标检测网络包括依次连接的第一卷积层为3×3卷积层、第二卷积层为3×3卷积层、后接第一最大池化层、第三卷积层为3×3卷积层、第四卷积层为3×3卷积层、第二最大池化层、第五卷积层为3×3卷积层、第六卷积层为3×3卷积层、第三最大池化层、第七卷积层为3×3卷积层、第八卷积层为3×3卷积层、第四最大池化层、第九卷积层为3×3卷积层、第十卷积层为3×3卷积层、后接平均池化层、后街全连接层和softmax层。

步骤一，将显微镜下完整的像素为4000×3000的细胞原图像送入检测统计模块，设置观察窗口大小为800×800px作为细胞分割以及检测模块的输入；

在窗口移动的过程中，细胞识别模块会框定每一个识别到的细胞并得到细胞中心的坐标值，通过窗口在整张图像中的位置换算坐标到细胞在整张4000×3000像素当中的绝对位置，然后将每个细胞的中心位置保存作为标识该细胞位置的唯一方式，每次细胞识别模块检测到细胞时，首先计算细胞中心坐标以判断该细胞是否被检测过。当滑动窗口遍历完整张图片时，统计整张图中所有类别的细胞并生成细胞分类统计报告。

本发明研究在临床病例获得的数据集上进行了验证，这个系统可以有效去除显微镜下细胞图像的背景干扰，模型泛化能力和推广能力可靠性较强。基于深度学习的系统可以快速对白细胞进行分类。

Claims

1.一种强干扰因素下基于深度学习的图像分类识别系统，其特征在于包括细胞分割模块、细胞识别模块和检测统计模块；其中检测统计模块用于采集完整的像素为4000×3000的细胞原图像，并以像素为800×800的大小作为观察窗口对该细胞原图像进行逐块显示，并根据细胞识别模块识别出的细胞类别及相应类别的个数生成细胞分类检测报告；

上采样层由五个卷积层组组成，其中：

第三卷积层组包括一个上采样操作层和两个卷积操作层，上采样操作层的卷积核个数为128，每个卷积核大小均为2×2，每个卷积操作层的卷积核个数均为128，卷积核大小均为3×3，

第四卷积层组包括一个上采样操作层和两个卷积操作层，上采样操作层的卷积核个数为64，每个卷积核大小均为2×2，每个卷积操作层的卷积核个数均为64，卷积核大小均为3×3；

2.根据权利要求1所述的一种强干扰因素下基于深度学习的图像分类识别系统，其特征在于所述细胞分割模块采用的Unet网络细胞轮廓分割模型的训练过程包括以下步骤：

步骤三，将步骤二中得到的增强标注训练集输入到Unet网络细胞轮廓分割模型中进行训练，学习标注的各类细胞轮廓特征，去除图片中没有被识别为细胞的部分，识别出增强标注训练集中的全部细胞，将全部细胞分别按照其完整的轮廓分割出来并输出，当构建的Unet网络细胞轮廓分割模型从增强标注训练集中分割出的全部细胞的轮廓平均交并比达到0.92时，就得到训练好的分割模型，其中构建的Unet网络细胞轮廓分割模型从增强标注训练集中分割出来的全部细胞的轮廓平均交并比

3.根据权利要求2所述的一种强干扰因素下基于深度学习的图像分类识别系统，其特征在于所述细胞识别模块采用的SSD目标检测网络模型的训练过程如下：

4.根据权利要求3所述的一种强干扰因素下基于深度学习的图像分类识别系统，其特征在于所述检测统计模块采集完整的像素为4000×3000的细胞原图像，并以像素为800×800的大小作为观察窗口对该细胞原图像进行逐块显示，具体为：