CN115620075B

CN115620075B - 白细胞分类模型用数据集的生成方法、系统及设备

Info

Publication number: CN115620075B
Application number: CN202211617010.0A
Authority: CN
Inventors: 刘继忠; 翟强; 李爽; 李敬会; 李新颖; 徐文斌
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-03-14
Anticipated expiration: 2042-12-16
Also published as: CN115620075A

Abstract

本发明提供一种白细胞分类模型用数据集的生成方法、系统及设备，该方法包括：从苏木精‑伊红染色图的中提取子视野图像；基于染色分离规则对子视野图像进行染色分离；从伊红染色图中分离出染色元素和背景元素；取伊红染色图中满足预设像素范围的所有像素点坐标，以根据像素点坐标获取每一染色元素的轮廓坐标；根据每一染色元素的轮廓坐标判断该染色元素是否为白细胞，若该染色元素为白细胞，则以该染色元素的轮廓中心点为分割中心从子视野图像中提取对应的固定大小的区域，得到第一预训练图像；根据第一预训练图像制成数据集。本发明提出的白细胞分类模型用数据集的生成方法，能够极大地提高白细胞分类计数的准确率和效率。

Description

白细胞分类模型用数据集的生成方法、系统及设备

技术领域

本发明涉及白细胞分类识别技术领域，特别是涉及一种白细胞分类模型用数据集的生成方法、系统及设备。

背景技术

正常的白细胞通常被分类为淋巴细胞、单核细胞、嗜中性粒细胞、嗜酸性粒细胞及嗜碱性粒细胞。在正常的末梢血中，这些的白细胞各自以一定的比例存在。但是，当受试者存在疾病时，特定的白胞数增加或减少或者形态发生变化。所以，在临床检查的领域，通过进行白细胞的形态学分类计数与形态展示，对疾病的诊断极其有用。

现有白细胞形态学检测技术中，为了得到白细胞的种类数量及形态变化，一般需要对血细胞进行HE染色,然后再安排技术人员在显微镜下进行观察白细胞的形态和数量,然而，由于部分类型白细胞的细胞差异较小,这对血液学家的专业能力有一个很高的要求，整个分类计数的工作过程是枯燥且耗时的。

由此，诞生了能够实现对白细胞自动分类的工业自动化细胞形态学系统，其主要是通过各种图像预处理操作将白细胞从血细胞染色图中提取出来并分割为细胞核区域与细胞质区域，并分别提取他们的形态与纹理等特征，从而制作数据集，最终利用机器学习的方法对提取的特征进行识别，从而实现白细胞的自动分类。然而不同的条件、光线分布和染色强度的变化都会对血涂片图像产生影响，传统的分割算法都会受到这类问题的影响，从而降低分割准确率导致特征提取不准确；在特征分类阶段，由于需要对特征进行降维处理从而损失部分特征，因此，传统的白细胞分割方法无法达到较高的分类精度。

发明内容

本发明的目的在于提出一种白细胞分类模型用数据集的生成方法、系统及设备，以解决传统白细胞分类计数过程中存在的准确率较低的问题。

本发明提出一种白细胞分类模型用数据集的生成方法，所述方法包括：

获取包含白细胞的苏木精-伊红染色图，采用第一预设尺寸的视野框按照第一预设步长遍历所述苏木精-伊红染色图，以根据遍历结果从所述苏木精-伊红染色图中提取多份子视野图像，所述第一预设步长小于所述视野框的边长；

基于预设染色分离规则对每份所述子视野图像进行染色分离，得到伊红染色图；

对每份所述伊红染色图进行预处理，以从所述伊红染色图中分离出染色元素和背景元素，并根据染色元素对应的预设像素范围获取预处理后的伊红染色图中满足所述预设像素范围的所有像素点坐标，以根据所述像素点坐标获取每一所述染色元素的轮廓坐标；

根据每一所述染色元素的轮廓坐标判断该染色元素是否为白细胞，若该染色元素为白细胞，则以该染色元素的轮廓中心点为分割中心从子视野图像中提取对应的固定大小的区域，得到多个第二预设尺寸的第一预训练图像；

根据第一预训练图像包含的白细胞类型将所有的所述第一预训练图像进行标注分类，并根据标注分类结果将所有的第一预训练图像制成数据集，以根据所述数据集对预设初始白细胞分类模型进行训练，得到最终白细胞分类模型。

综上，根据上述的白细胞分类模型用数据集的生成方法，首先有规律地从伊红染色图中提取出多份子视野图像，同时第一预设步长小于用于提取的视野框的边长，以保证至少有一份子视野图像中存在完整的白细胞，而后利用预设染色分离规则快速将子视野图像进行快速分离，进而得到包含白细胞的伊红染色图，而后将每份伊红染色图进行预处理，进而分离出染色元素和背景元素，而后根据染色元素的预设像素范围精确识别出染色元素的轮廓坐标，进而判断出子视野图像中的染色元素是否确为白细胞，若判断到染色元素为白细胞，则按照之前获取到的染色元素的轮廓坐标对未处理前的子视野图像进行像素分割提取，如果该区域包含有其他的染色元素，将其像素值修改为背景均值，保证每个区域中仅有一个白细胞，进而得到规定尺寸的第一预训练图像，进而实现数据集的精确制作，从而得到最终细胞分类模型。通过将苏木精染色与伊红染色两种颜色利用染色向量进行拆解，从而去除白细胞区域的不相关背景信息，降低干扰提高分割精度。在伊红染色图像中，将只保留伊红与白细胞等化学反应产生的颜色信息，对伊红染色分离的图像再次进行二值化寻找白细胞轮廓，从而实现精准定位血细胞区域，进而生成高精度、高质量的数据集，保证后续训练得到的白细胞分类模型具有识别速度快、鲁棒性高、识别精度高的优点，进而能够快速且准确地实现对白细胞的分类和计数工作。

进一步地，所述对每份所述伊红染色图进行预处理，以从所述伊红染色图中分离出染色元素和背景元素，并根据染色元素对应的预设像素范围获取预处理后的伊红染色图中满足所述预设像素范围的所有像素点坐标，以根据所述像素点坐标获取每一所述染色元素的轮廓坐标的步骤包括：

对所述伊红染色图进行灰度化处理，以降低所述伊红染色图中染色元素的灰度值，得到与每一伊红染色图一一对应的灰度图；

根据预设图像阈值对所述灰度图进行二值化分割，以将所述灰度图中的染色元素和背景元素进行分离，得到二值化图像。

进一步地，所述根据每一所述染色元素的轮廓坐标判断该染色元素是否为白细胞的步骤包括：

获取多张已知白细胞区域的标准图像，并根据标准图像中已知白细胞区域的轮廓坐标计算出每一白细胞的面积，并从所有白细胞的面积中筛选出最小面积值，以根据所述最小面积值和预设分割安全系数的比值计算得到标准面积值；

根据所述染色元素的轮廓坐标计算每一所述染色元素的面积，并判断所述染色元素的面积是否大于或等于所述标准面积值；

若所述染色元素的面积大于或等于所述标准面积值，则判断该染色元素为白细胞。

进一步地，所述基于预设染色分离规则对每份所述子视野图像进行染色分离，得到伊红染色图的步骤包括：

获取所述子视野图像中每个像素点的三通道像素值，以将每个像素点的三通道像素值转换为对应的光密度值，并根据像素点的光密度值构建一光密度矩阵；

将所述光密度矩阵进行SVD矩阵分解，以根据矩阵分解结果拟合出一标准平面，并获取每个像素点光密度值在所述标准平面上的投影分量，并根据所述投影分量将所述子视野图像进行染色分离，得到所述伊红染色图。

进一步地，所述若所述染色元素的面积大于或等于所述标准面积值，则判断该染色元素为白细胞的步骤之后还包括：

从所有的伊红染色图中筛选出染色元素为白细胞的目标图像，并根据遍历结果识别出任意相邻的两份目标图像，以根据相邻的两份目标图像中各自包含的白细胞的轮廓坐标判断相邻伊红染色图中的重叠区域是否存在重叠目标；

所述根据相邻的两份目标图像中各自包含的白细胞的轮廓坐标判断相邻伊红染色图中的重叠区域是否存在重叠目标的步骤包括：

根据第一目标图像中的第一白细胞的轮廓坐标计算得到所述第一白细胞所在区域的面积，根据第二目标图像中的第二白细胞的轮廓坐标计算得到所述第二白细胞所在区域的面积，所述第一目标图像和所述第二目标图像为相邻目标图像；

根据第一白细胞所在区域的面积和第二白细胞所在区域的面积计算得到两白细胞所在区域的交集和并集，并根据两白细胞所在区域的交集和并集计算得到第一交并比；

判断所述第一交并比是否大于第一预设交并比阈值；

若所述第一交并比大于所述第一预设交并比阈值，则判定所述重叠区域中存在重复目标，并将第一目标图像和第二目标图像中面积最大的目标白细胞对应的图像保留，得到第二预训练图像。

进一步地，所述对所述伊红染色图进行灰度化处理，以降低所述伊红染色图中染色元素的灰度值，得到与每一伊红染色图一一对应的灰度图的步骤包括：

将所述伊红染色图的亮度增强至第一预设倍数，并获取亮度增强后的伊红染色图中的所有像素点的灰度值；

根据所有像素点的灰度值对亮度增强后的伊红染色图进行灰度变换；

所述根据所有像素点的灰度值对亮度增强后的伊红染色图进行灰度变换的步骤包括：

根据以下公式对伊红染色图进行灰度变换：

其中，i是指亮度增强后的伊红染色图中像素点的灰度值，G(x)是新的对应像素点的灰度值，[]表示取整数。

进一步地，所述获取所述子视野图像中每个像素点的三通道像素值，以将每个像素点的三通道像素值转换为对应的光密度值，并根据像素点的光密度值构建一光密度矩阵的步骤包括：

根据以下公式将每个像素点的三通道像素值转换为对应的光密度值：

其中，OD表示像素点的光密度值，value表示像素点的三通道像素值。

本发明还提出一种白细胞分类模型用数据集的生成系统，所述系统包括：

子视野图像提取模块，用于获取包含白细胞的苏木精-伊红染色图，采用第一预设尺寸的视野框按照第一预设步长遍历所述苏木精-伊红染色图，以根据遍历结果从所述苏木精-伊红染色图中提取多份子视野图像，所述第一预设步长小于所述视野框的边长；

染色图像分离模块，用于基于预设染色分离规则对每份所述子视野图像进行染色分离，得到伊红染色图；

图像预处理模块，用于对每份所述伊红染色图进行预处理，以从所述伊红染色图中分离出染色元素和背景元素，并根据染色元素对应的预设像素范围获取预处理后的伊红染色图中满足所述预设像素范围的所有像素点坐标，以根据所述像素点坐标获取每一所述染色元素的轮廓坐标；

染色元素分割模块，用于根据每一所述染色元素的轮廓坐标判断该染色元素是否为白细胞，若该染色元素为白细胞，则以该染色元素的轮廓中心点为分割中心从子视野图像中提取对应的固定大小的区域，得到多个第二预设尺寸的第一预训练图像；

数据集生成模块，用于根据第一预训练图像包含的白细胞类型将所有的所述第一预训练图像进行标注分类，并根据标注分类结果将所有的第一预训练图像制成数据集，以根据所述数据集对预设初始白细胞分类模型进行训练，得到最终白细胞分类模型。

本发明还提出一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的白细胞分类模型用数据集的生成方法。

本发明还提出一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的白细胞分类模型用数据集的生成方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明第一实施例白细胞分类模型用数据集的生成方法的流程图；

图2为本发明第一实施例中的苏木精-伊红染色图的遍历提取示意图；

图3为本发明第一实施例中的子视野提取效果图；

图4为本发明第一实施例中的预设初始细胞分类模型的结构示意图；

图5为本发明第二实施例白细胞分类模型用数据集的生成方法的流程图；

图6本发明第二实施例中的白细胞分割过程的效果示意图；

图7为本发明第二实施例中步骤S106的细化图；

图8为本发明第三实施例白细胞分类模型用数据集的生成系统的结构示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1，所示为本发明第一实施例中的白细胞分类模型用数据集的生成方法的流程图，该方法包括步骤S01至步骤S05，其中：

步骤S01：获取包含白细胞的苏木精-伊红染色图，采用第一预设尺寸的视野框按照第一预设步长遍历所述苏木精-伊红染色图，以根据遍历结果从所述苏木精-伊红染色图中提取多份子视野图像，所述第一预设步长小于所述视野框的边长；

需要说明的是，在本步骤中，首先利用苏木精和伊红将含有白细胞的血涂片进行染色，进而获取光学显微镜扫描仪扫描染色后的血涂片的图像，该图像即为苏木精-伊红染色图，由于苏木精-伊红染色图尺寸较大，为了降低后续的计算复杂度，首先需要将苏木精-伊红染色图分割成多份子视野图像，请参阅图2，所示为苏木精-伊红染色图的遍历提取示意图，在对苏木精-伊红染色图进行分割成多份子视野图像的过程中，为了防止出现一个完整的白细胞被分割成两部分的情况，第一预设步长需要小于视野框的两个边长，以确保相邻的子视野图像中存在重叠区域，该重叠区域指的是，前后、左右、对角相邻的子视野图像均存在重叠区域，同时重叠区域的宽度需要大于一个白细胞的直径，即视野框的边长分别与第一预设步长的差值均需大于一个白细胞的直径，以确保相邻的两份子视野图像中至少有一个完整的白细胞。

示例而非限定，针对像素点大小为33592×32520的苏木精-伊红染色图，以像素点大小为2048×2048的正方形窗口在图像上滑动，以像素点大小为1792的步长来固定提取我们子视野，对于数值不够2048的边界图像区域，直接获取所有的图像信息进行保存。通过这种方式，后一个视野跟前一个视野保持一个像素值为255的重叠区域，请参阅图3，所示为子视野提取效果图，图中竖直虚线为右边子视野图的轮廓线、而竖直实线为左边子视野图的轮廓线，通过上述特定的有规律的方法来提取子视野图像，进而使得B图像中得到包含完整的白细胞，而A图像中得到包含部分区域的白细胞，即实现至少有一个子视野图像含有完整的白细胞，从而提高后续制作数据集的精确度，从而提高分类模型的识别精确度。

还需补充说明的是，为了提高后续细胞分类计数的效率，在得到多份子视野图像后，会对这些子视野图像进行二值化处理，以根据得到的二值化图像初步将明显不含有白细胞特征的子视野图像舍弃，具体为遍历二值化图像中各个轮廓的面积值，并判断是否存在与白细胞轮廓面积相近的，如果存在，则说明该子视野图像可能含有白细胞特征，若不存在，则说明子视野图像明显不含有白细胞特征，进而将不含有白细胞特征的子视野图像舍弃。

步骤S02：基于预设染色分离规则对每份所述子视野图像进行染色分离，得到伊红染色图；

可以理解的，按照预设染色分离规则将苏木精-伊红染色图进行染色分离，进而得到苏木精染色图和伊红染色图。

步骤S03：对每份所述伊红染色图进行预处理，以从所述伊红染色图中分离出染色元素和背景元素，并根据染色元素对应的预设像素范围获取预处理后的伊红染色图中满足所述预设像素范围的所有像素点坐标，以根据所述像素点坐标获取每一所述染色元素的轮廓坐标；

可以理解的是，预处理过程依次包括灰度化处理、二值化处理以及形态学操作，以消除图像噪音点等背景干扰，进而实现对伊红染色图中染色元素和背景元素的精确分离。

需要指出的是，染色元素对应的预设像素范围一般是基于伊红对白细胞进行染色后，通过筛选采集到的白细胞所在区域中各个像素点的像素值中最小的像素数值和最大的像素数值而制定的，为了提高染色元素提取的准确性，一般还会设定一提取容错系数，即预设像素范围中的下限值为最小像素值与该提取容错系数的比值，预设像素范围的上限值为最大像素值与该提取容错系数的乘积。而后按照该预设像素范围对染色元素所在区域进行锁定分割，进而实现对染色元素的准确分割。

步骤S04：根据每一所述染色元素的轮廓坐标判断该染色元素是否为白细胞，若该染色元素为白细胞，则以该染色元素的轮廓中心点为分割中心从子视野图像中提取对应的固定大小的区域，得到多个第二预设尺寸的第一预训练图像；

需要指出的是，在提取固定大小的区域时，需要根据为白细胞的染色元素的轮廓坐标确定该染色元素的轮廓中心点，进而以该轮廓中心点为分割中心进行分割，此外，如果该区域还包含有其他的染色元素，则将其它染色元素的像素值修改为背景均值，具体为根据白细胞的染色元素的轮廓坐标确定背景元素，背景元素内可能会包括其他染色元素，进而再遍历所有背景元素的像素值，以根据背景元素的像素值计算出背景均值，进而将背景元素的像素均修改为背景均值，以实现将其他染色元素进行隐藏，以保证每个区域中仅有一个白细胞，避免后续步骤出现干扰导致重复计数，从而得到多个第二预设尺寸的第一预训练图像；

可以理解的是，由于伊红染色图中存在的染色元素有可能是单个白细胞，也有可能是血小板等，需要对每一伊红染色图中各自存在的染色元素进行识别，以确认该染色元素是否为白细胞，若不是白细胞，则将没有白细胞的染色元素所在的伊红染色图舍弃，若该染色元素为白细胞，则按照之前获取到所有的该白细胞的轮廓坐标对原始的子视野图像进行像素分割提取，需要特别说明的是，在本步骤中的分割对象是未处理前的苏木精-伊红染色图或子视野图像，同时确保所有的预训练图像的格式一致，进而确保后续的训练过程，例如：所有预训练图像均只包括一个白细胞区域和非白细胞区域（背景区域）两部分、所有的预训练图像的尺寸一致。

具体的，设置第二预设尺寸的目的是为了固定以及缩小需要进行训练的图像，在本实施例中，第二预设尺寸设置为512*512。

步骤S05：根据第一预训练图像包含的白细胞类型将所有的所述第一预训练图像进行标注分类，并根据标注分类结果将所有的第一预训练图像制成数据集，以根据所述数据集对预设初始白细胞分类模型进行训练，得到最终白细胞分类模型。

需要说明的是，标注分类的结果为淋巴细胞、单核细胞、嗜中性粒细胞、嗜酸性粒细胞及嗜碱性粒细胞5种白细胞以及涂抹细胞、巨核细胞、聚集血小板3种非白细胞，在得到数据集后，将数据集按照8:2分为训练集及测试集并通过数据增强的方式从而实现训练集各个类别的样本均衡，而后再对训练集进行预处理操作，具体为：对图像随机裁剪到原始图像面积的8%到100%，宽高比在3/4和4/3之间随机选择。然后再通过线性插值的方式将图像像素点变为256*256，对其每个通道的数据进行标准化，即对R、G、B每个通道的值分别减去对应通道整个数据集的均值然后除以对应通道整个数据集的方差，最后再将该训练集处理成深度学习模型所需的图片格式。

进一步地，请参阅图4，所示为预设初始细胞分类模型的结构示意图，其构建过程具体为：该预设初始细胞分类模型包括10个卷积层(C1-C10)，2个最大池化层(P4与P2)，一个自适应平均池化层(AP)以及三个全连接层。在第一个卷积层(C1)采用7*7的卷积核，在其余的卷积层，为了降低模型的复杂度我们采用了3*3与1*1的卷积核，进而能够提高了模型的训练与测试速度，在这个架构上，添加2个‘短连接’操作（残差函数），该结构有利于模型在训练过程的优化，将第一个卷积层的特征与最后一个卷积层的特征融合，能够给全连接层提供更详细的局部特征。除此之外,利用特征融合操作将浅层的特征融合到下一层进行传播，这能够细化图像的特征，基于此，在特征融合层融合了第一层与两个‘短连接’操作后的特征，在每个卷积层之后，采用批量归一化操作，整个网络均采用ReLU 作为模型的激活函数，它能够有效克服梯度消失，增加训练速度。在全连接层之前, 应用一个自适应的平均池化层,它能够有效的降低进入全连接层的特征数量，进而降低模型复杂度，全连接层的第一、二层的dropout（随机丢弃）为0.5，第三层为0，使用一个3层结构的全连接层，特征数量分别是128、64、8，各个层之间的具体参数如下表1所示：

表1

完成对预设初始细胞分类模型的构建后，进而开始模型的训练过程，采用小批量随机梯度下降法来迭代优化模型的参数，初试学习率为0.001，训练100代，每10代学习率变为原来数值的10%，损失函数模型采用交叉熵损失函数，训练结束后，将100代中，测试集效果最好的模型作为深度学习算法最优模型，即得到最终细胞分类模型，如果准确率较低，将重复上述优化模型参数，直至符合要求。

可以理解的是，在得到最终细胞分类模型后，进而输入需要进行识别的待识别图像，以得到待识别图像中具体的白细胞种类，对于非白细胞不进行统计，并按照分类后的结果进行计数，进而得到各类白细胞的具体数量或比例。

综上，根据上述的白细胞分类模型用数据集的生成方法，首先有规律地从伊红染色图中提取出多份子视野图像，同时第一预设步长小于用于提取的视野框的边长，以保证至少有一份子视野图像中存在完整的白细胞，而后利用预设染色分离规则快速将子视野图像进行快速分离，进而得到包含白细胞的伊红染色图，而后将每份伊红染色图进行预处理，进而分离出染色元素和背景元素，而后根据染色元素的预设像素范围精确识别出染色元素的轮廓坐标，进而判断出子视野图像中的染色元素是否确为白细胞，若判断到染色元素为白细胞，则按照之前获取到的染色元素的轮廓坐标对未处理前的子视野图像进行像素分割提取，如果该区域包含有其他的染色元素，将其像素值修改为背景均值，保证每个区域中仅有一个白细胞，进而得到规定尺寸的第一预训练图像，进而实现数据集的精确制作，保证后续训练得到的白细胞分类模型具有识别速度快、鲁棒性高、识别精度高的优点，进而能够快速且准确地实现对白细胞的分类和计数工作。

请参阅图5，所示为本发明第二实施例中的白细胞分类模型用数据集的生成方法的流程图，该方法包括步骤S101至步骤S107，其中：

步骤S101：获取包含白细胞的苏木精-伊红染色图，采用第一预设尺寸的视野框按照第一预设步长遍历所述苏木精-伊红染色图，以根据遍历结果从所述苏木精-伊红染色图中提取多份子视野图像，所述第一预设步长小于所述视野框的边长；

步骤S102：获取所述子视野图像中每个像素点的三通道像素值，以将每个像素点的三通道像素值转换为对应的光密度值，并根据像素点的光密度值构建一光密度矩阵；

具体的，根据以下公式将每个像素点的三通道像素值转换为对应的光密度值：

进一步的，即三通道像素值包括R、G、B像素值，并根据上述公式转换得到对应的光密度值，该光密度值构建的矩阵为二维矩阵，该二维矩阵中的每列的三个值分别是每个像素点的R、G、B三个OD值。

步骤S103：将所述光密度矩阵进行SVD矩阵分解，以根据矩阵分解结果拟合出一标准平面，并获取每个像素点光密度值在所述标准平面上的投影分量，并根据所述投影分量将所述子视野图像进行染色分离，得到所述伊红染色图；

还需说明的是，在对该光密度矩阵进行分解时，进而得到矩阵中的前两列，即前两个奇异值对应的两个向量所知方向形成的平面，即为该标准平面，以使得经过OD变换的像素都被投影到这个标准平面上，产生的2个分量就是对应的苏木精染色图像与伊红染色图的OD值，而后再经过OD逆变换返回到RGB空间即得到分离出来的两种图像，即得到伊红染色图。

步骤S104：对所述伊红染色图进行灰度化处理，以降低所述伊红染色图中染色元素的灰度值，得到与每一伊红染色图一一对应的灰度图；

请参阅图6，所示为白细胞分割流程示意图，图6中的（a）为原始苏木精-伊红染色图（子视野图像），图6中的（b）为染色分离后伊红染色通道的RGB图像，即伊红染色图，由图6中的（b）可以看出，经过染色分离后，红细胞仍然有些许红色的残留阴影，为了过滤掉该残留阴影，同时最大限度地保留白细胞区域，需要将所述伊红染色图的亮度增强至第一预设倍数，进而得到图6中的（c），而后再对图像进行灰度化处理，得到图6中的（d），具体为：

获取亮度增强后的伊红染色图中的所有像素点的灰度值；

根据以下公式对伊红染色图进行灰度变换：

通过亮度增强以及上述特定公式对伊红染色图进行灰度化，能够使得背景与白细胞前景的差异增大，有利于后续对白细胞前景的精确提取。

步骤S105：根据预设图像阈值对所述灰度图进行二值化分割，以将所述灰度图中的染色元素和背景元素进行分离，得到二值化图像。

在得到的灰度图中，由于白细胞的灰度值、红细胞的灰度值、背景灰度值已经存在明显的差异，即白细胞的灰度值是远小于空白区域和红细胞这些背景的，基于此，设置固定阈值的分割方法以对灰度图进行二值化，得到图6中的（e）中的二值化图像，再对二值化图像进行形态学操作，进而得到图6中的（f），进而实现染色元素与背景元素的分离。

步骤S106：根据每一所述染色元素的轮廓坐标判断该染色元素是否为白细胞，若该染色元素为白细胞，则以该染色元素的轮廓中心点为分割中心从子视野图像中提取对应的固定大小的区域，得到多个第二预设尺寸的第一预训练图像；

进一步地，请参阅图7，所示为步骤S106的细化图，步骤S106包括步骤S1061至步骤S1064，其中：

步骤S1061：获取多张已知白细胞区域的标准图像，并根据标准图像中已知白细胞区域的轮廓坐标计算出每一白细胞的面积，并从所有白细胞的面积中筛选出最小面积值，以根据所述最小面积值和预设分割安全系数的比值计算得到标准面积值；

步骤S1062：根据所述染色元素的轮廓坐标计算每一所述染色元素的面积，并判断所述染色元素的面积是否大于或等于所述标准面积值；

步骤S1063：若所述染色元素的面积大于或等于所述标准面积值，则判断该染色元素为白细胞；

需要说明的是，为了精确识别染色元素是否确为白细胞，首先会对少量已知确定白细胞区域的标准图像进行分析，以统计出一定数量的白细胞的面积，进而从这些白细胞的面积中筛选出最小面积，并设定一预设分割安全系数，以防止过滤掉白细胞。

示例而非限定，通过分析得到最小面积值为10000，则说明大于或等于10000的才可能是白细胞的细胞核，同时将预设分割安全系数设置为1.3，如果存在大于该比值的前景(白细胞)，则将该子视野图像保留，否则将该子视野图像过滤掉。

步骤S1064：从所有的伊红染色图中筛选出染色元素为白细胞的目标图像，并根据遍历结果识别出任意相邻的两份目标图像，以根据相邻的两份目标图像中各自包含的白细胞的轮廓坐标判断相邻伊红染色图中的重叠区域是否存在重叠目标；

还需重点指出的是，由于采用重叠切割的方法，该方法虽然会保证每个白细胞都至少有一个是完整的。但是会导致在重叠区域将同一个目标进行多次分割，造成数量虚假上升，为了解决这一问题，需要对相邻伊红染色图进行去重操作，具体为：

判断所述第一交并比是否大于第一预设交并比阈值；

示例性的，如果两个分割出来的子视野图像（伊红染色图）的IOU大于第一预设交并比阈值，那么可认定两个子视野图像的重叠区域存在同一个目标，此时将图片内部白细胞轮廓面积最大的保留，另一个删除，通过该方式来保证了每个白细胞的唯一性和完整性。

具体的，第一预设交并比阈值若设置过低，则会增大计算复杂度，若设置过大则会影响重复目标消除的准确度，在本实施例中，第一预设交并比阈值设置为0.2，可以理解的，在实际分类计数过程中，第一预设交并比阈值可根据实际分类计数需求进行设置，以兼顾分类计数效率和准确度。

还要说明的是，在根据白细胞的染色元素的轮廓坐标将所述苏木精-伊红染色图或子视野图像进行分割的过程中，会结合后续的去重操作舍弃重复染色元素的轮廓坐标，即保证染色元素的轮廓坐标均与唯一的白细胞所对应，从而实现从原始图像（即图6中的（g））中对每个白细胞的精确提取，提取后的效果图请参阅图6中的（h）。

步骤S107：根据第一预训练图像包含的白细胞类型将所有的所述第一预训练图像进行标注分类，并根据标注分类结果将所有的第一预训练图像制成数据集，以根据所述数据集对预设初始白细胞分类模型进行训练，得到最终白细胞分类模型。

请参阅图8，所示为本发明第三实施例中的白细胞分类模型用数据集的生成系统的结构示意图，该系统包括：

子视野图像提取模块10，用于获取包含白细胞的苏木精-伊红染色图，采用第一预设尺寸的视野框按照第一预设步长遍历所述苏木精-伊红染色图，以根据遍历结果从所述苏木精-伊红染色图中提取多份子视野图像，所述第一预设步长小于所述视野框的边长；

染色图像分离模块20，用于基于预设染色分离规则对每份所述子视野图像进行染色分离，得到伊红染色图；

进一步地，所述染色图像分离模块20还包括：

光密度矩阵构建单元，用于获取所述子视野图像中每个像素点的三通道像素值，以将每个像素点的三通道像素值转换为对应的光密度值，并根据像素点的光密度值构建一光密度矩阵；

染色分离执行单元，用于将所述光密度矩阵进行SVD矩阵分解，以根据矩阵分解结果拟合出一标准平面，并获取每个像素点光密度值在所述标准平面上的投影分量，并根据所述投影分量将所述子视野图像进行染色分离，得到所述伊红染色图。

图像预处理模块30，用于对每份所述伊红染色图进行预处理，以从所述伊红染色图中分离出染色元素和背景元素，并根据染色元素对应的预设像素范围获取预处理后的伊红染色图中满足所述预设像素范围的所有像素点坐标，以根据所述像素点坐标获取每一所述染色元素的轮廓坐标；

进一步地，所述图像预处理模块30还包括：

灰度化处理单元，用于对所述伊红染色图进行灰度化处理，以降低所述伊红染色图中染色元素的灰度值，得到与每一伊红染色图一一对应的灰度图；

进一步地，所述灰度化处理单元还包括：

亮度增强子单元，用于将所述伊红染色图的亮度增强至第一预设倍数，并获取亮度增强后的伊红染色图中的所有像素点的灰度值；

灰度变换子单元，用于根据所有像素点的灰度值对亮度增强后的伊红染色图进行灰度变换；

根据以下公式对伊红染色图进行灰度变换：

其中，i是指亮度增强后的伊红染色图中像素点的灰度值，G(x)是新的对应像素点的灰度值，[]表示取整数；

二值化处理单元，用于根据预设图像阈值对所述灰度图进行二值化分割，以将所述灰度图中的染色元素和背景元素进行分离，得到二值化图像；

染色元素分割模块40，用于根据每一所述染色元素的轮廓坐标判断该染色元素是否为白细胞，若该染色元素为白细胞，则以该染色元素的轮廓中心点为分割中心从子视野图像中提取对应的固定大小的区域，得到多个第二预设尺寸的第一预训练图像；

进一步地，所述染色元素分割模块40还包括：

自适应阈值获取单元，用于获取多张已知白细胞区域的标准图像，并根据标准图像中已知白细胞区域的轮廓坐标计算出每一白细胞的面积，并从所有白细胞的面积中筛选出最小面积值，以根据所述最小面积值和预设分割安全系数的比值计算得到标准面积值；

染色元素检测单元，用于根据所述染色元素的轮廓坐标计算每一所述染色元素的面积，并判断所述染色元素的面积是否大于或等于所述标准面积值；

染色元素判定单元，用于若所述染色元素的面积大于或等于所述标准面积值，则判断该染色元素为白细胞；

去重操作执行单元，用于从所有的伊红染色图中筛选出染色元素为白细胞的目标图像，并根据遍历结果识别出任意相邻的两份目标图像，以根据相邻的两份目标图像中各自包含的白细胞的轮廓坐标判断相邻伊红染色图中的重叠区域是否存在重叠目标；

进一步地，所述去重操作执行单元还包括：

白细胞区域面积获取子单元，用于根据第一目标图像中的第一白细胞的轮廓坐标计算得到所述第一白细胞所在区域的面积，根据第二目标图像中的第二白细胞的轮廓坐标计算得到所述第二白细胞所在区域的面积，所述第一目标图像和所述第二目标图像为相邻目标图像；

第一交并比获取子单元，用于根据第一白细胞所在区域的面积和第二白细胞所在区域的面积计算得到两白细胞所在区域的交集和并集，并根据两白细胞所在区域的交集和并集计算得到第一交并比；

第一交并比检测子单元，用于判断所述第一交并比是否大于第一预设交并比阈值；

重复目标判定子单元，用于若所述第一交并比大于所述第一预设交并比阈值，则判定所述重叠区域中存在重复目标，并将第一目标图像和第二目标图像中面积最大的目标白细胞对应的图像保留，得到第二预训练图像。

数据集生成模块50，用于根据第一预训练图像包含的白细胞类型将所有的所述第一预训练图像进行标注分类，并根据标注分类结果将所有的第一预训练图像制成数据集，以根据所述数据集对预设初始白细胞分类模型进行训练，得到最终白细胞分类模型。

综上，根据上述的白细胞分类模型用数据集的生成系统，首先有规律地从伊红染色图中提取出多份子视野图像，同时第一预设步长小于用于提取的视野框的边长，以保证至少有一份子视野图像中存在完整的白细胞，而后利用预设染色分离规则快速将子视野图像进行快速分离，进而得到包含白细胞的伊红染色图，而后将每份伊红染色图进行预处理，进而分离出染色元素和背景元素，而后根据染色元素的预设像素范围精确识别出染色元素的轮廓坐标，进而判断出子视野图像中的染色元素是否确为白细胞，若判断到染色元素为白细胞，则按照之前获取到的染色元素的轮廓坐标对未处理前的子视野图像进行像素分割提取，如果该区域包含有其他的染色元素，将其像素值修改为背景均值，保证每个区域中仅有一个白细胞，进而得到规定尺寸的第一预训练图像，进而实现数据集的精确制作，保证后续训练得到的白细胞分类模型具有识别速度快、鲁棒性高、识别精度高的优点，进而能够快速且准确地实现对白细胞的分类和计数工作。

本发明另一方面还提出一种可读存储介质，其上存储有一个或多个计算机程序，该程序被处理器执行时实现上述的白细胞分类模型用数据集的生成方法。

本发明另一方面还提出一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述的白细胞分类模型用数据集的生成方法。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种白细胞分类模型用数据集的生成方法，其特征在于，所述方法包括：

获取包含白细胞的苏木精-伊红染色图，采用第一预设尺寸的视野框按照第一预设步长遍历所述苏木精-伊红染色图，以根据遍历结果从所述苏木精-伊红染色图中提取多份子视野图像，所述第一预设步长小于所述视野框的边长，相邻的子视野图像中存在重叠区域，该重叠区域指的是，前后、左右、对角相邻的子视野图像均存在重叠区域，同时重叠区域的宽度需要大于一个白细胞的直径，若两个子视野图像的交并比大于第一预设交并比阈值，判定该两个子视野图像的重叠区域存在同一个目标，则将图片内部白细胞轮廓面积最大的保留，另一个删除；

2.根据权利要求1所述的白细胞分类模型用数据集的生成方法，其特征在于，所述对每份所述伊红染色图进行预处理，以从所述伊红染色图中分离出染色元素和背景元素，并根据染色元素对应的预设像素范围获取预处理后的伊红染色图中满足所述预设像素范围的所有像素点坐标，以根据所述像素点坐标获取每一所述染色元素的轮廓坐标的步骤包括：

3.根据权利要求2所述的白细胞分类模型用数据集的生成方法，其特征在于，所述根据每一所述染色元素的轮廓坐标判断该染色元素是否为白细胞的步骤包括：

4.根据权利要求1所述的白细胞分类模型用数据集的生成方法，其特征在于，所述基于预设染色分离规则对每份所述子视野图像进行染色分离，得到伊红染色图的步骤包括：

5.根据权利要求3所述的白细胞分类模型用数据集的生成方法，其特征在于，所述若所述染色元素的面积大于或等于所述标准面积值，则判断该染色元素为白细胞的步骤之后还包括：

判断所述第一交并比是否大于第一预设交并比阈值；

6.根据权利要求5所述的白细胞分类模型用数据集的生成方法，其特征在于，所述对所述伊红染色图进行灰度化处理，以降低所述伊红染色图中染色元素的灰度值，得到与每一伊红染色图一一对应的灰度图的步骤包括：

根据以下公式对伊红染色图进行灰度变换：

7.根据权利要求4所述的白细胞分类模型用数据集的生成方法，其特征在于，所述获取所述子视野图像中每个像素点的三通道像素值，以将每个像素点的三通道像素值转换为对应的光密度值，并根据像素点的光密度值构建一光密度矩阵的步骤包括：

8.一种白细胞分类模型用数据集的生成系统，其特征在于，所述系统包括：

子视野图像提取模块，用于获取包含白细胞的苏木精-伊红染色图，采用第一预设尺寸的视野框按照第一预设步长遍历所述苏木精-伊红染色图，以根据遍历结果从所述苏木精-伊红染色图中提取多份子视野图像，所述第一预设步长小于所述视野框的边长，相邻的子视野图像中存在重叠区域，该重叠区域指的是，前后、左右、对角相邻的子视野图像均存在重叠区域，同时重叠区域的宽度需要大于一个白细胞的直径，若两个子视野图像的交并比大于第一预设交并比阈值，判定该两个子视野图像的重叠区域存在同一个目标，则将图片内部白细胞轮廓面积最大的保留，另一个删除；

9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1－7任一所述的白细胞分类模型用数据集的生成方法。

10.一种计算机设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1－7任一所述的白细胞分类模型用数据集的生成方法。