CN115100473A

CN115100473A - 基于并行神经网络的肺部细胞图像分类方法

Info

Publication number: CN115100473A
Application number: CN202210753212.1A
Authority: CN
Inventors: 冯晶; 曹得华; 李�诚; 严姗; 刘赛; 李�荣; 段彦蓉; 庞宝川
Original assignee: Wuhan Lanting Intelligent Medicine Co ltd
Current assignee: Wuhan Lanting Intelligent Medicine Co ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-23

Abstract

本发明涉及基于并行神经网络的肺部细胞图像分类方法，包括：获取肺部细胞图像，对肺部细胞染色、标注；对细胞图像的染色区域聚类，消除噪点，分割出单个细胞图像；计算细胞特征，识别细胞图像的噪声；构建包含残差网络、金字塔网络和并行浅层特征通道的并行神经网络，并进行训练；将待检测的肺部细胞图像输入到并行神经网络，根据并行神经网络的输出数据，得到肺部细胞图像分类结果。本发明通过计算细胞特征，辨识区分图像中的细胞区域与噪声区域，避免图像噪声影响肺部细胞图像分类的准确率；本发明的并行神经网络实现了细胞图像的浅层特征和不同层次的深层特征融合，进一步提高了分类模型的分类准确率，避免出现漏检或误检。

Description

基于并行神经网络的肺部细胞图像分类方法

技术领域

本发明属于细胞图像识别分类领域，具体涉及一种基于并行神经网络的肺部细胞图像分类方法。

背景技术

肺癌是肺部最常见的恶性肿瘤。世界卫生组织调查报告，许多国家和地区，肺癌的发病率占恶性肿瘤的首位。原发癌肿局限在支气管肺内，尚未发生远处转移和淋巴结转移时，手术后5年生存率可达50％以上。肺癌早筛查对于肺癌的治疗意义重大，早期的肺癌患者跟中晚期的肺癌患者相比，治疗难度跟治疗效果，还有患者的痛苦程度都存在着天壤之别。所有关于肺癌预防指南中，无不把肺癌早筛列为关键的一项预防手段。如果能尽早的发现早期肺部癌变，能大大增加病人接受专业救治的机会，提高病人的生存率。

肺癌早筛的方法通常有胸部X线透视、胸部CT、细胞病理识别等。胸部X线透视筛查方法对于肺部结节的发现有着较大的局限性，其分辨率较低，在影像中，病变也容易受到纵隔、心脏、肋骨、胸骨、血管等组织结构的重叠，导致肺部的小结节容易出现漏诊的情况。胸部CT方法断面成像，可有效地排除前后组织结构的重叠干扰，且分辨率可以有效的发现肺部隐蔽的结节病灶。对于早期肺癌的筛查，胸部CT是能起到重要作用的，但是由于该筛查方法存在放射剂量较大的缺陷，如果长期使用，对于患者造成的影响较大。痰脱落细胞检查、支气管分泌物或支气管肺泡灌洗液检查、胸腔积液检查的细胞学检查则具有较高的阳性检测率。

近十年来，随着机器学习与深度学习技术的发展，许多基于图像识别的细胞病理的分析方法被提出，但是因为不同类型细胞之间的差异较大，没有通用的细胞病理图像识别方法。而且多数细胞图像识别方法采用人工辨别特征进行筛选后，再进一步分类的方式，存在预测精度、特征泛化性、实时性等问题，难以被应用到实际场景中。

发明内容

本发明的目的是针对上述问题，提出一种基于并行神经网络的肺部细胞图像分类方法，通过对细胞病理图片的颜色聚类，消除噪点，细胞边缘检测与分割，计算细胞特征，根据细胞特征辨识区分正常细胞和噪声区域；构建包含残差网络、金字塔网络和并行浅层通道的并行神经网络，将并行神经网络作为肺部细胞图像分类模型，将细胞图像的浅层特征和不同层次的深层特征融合后，根据不同尺度的融合特征，对细胞图像进行分类，提高分类模型的分类准确率和泛化性能，避免出现漏检或误检。

本发明的技术方案是基于并行神经网络的肺部细胞图像分类方法，包括以下步骤：

步骤1：获取肺部细胞图像，对其中的肺部细胞进行染色、标注；

步骤2：对细胞图像的染色区域进行聚类，消除噪点，检测细胞边缘，分割出单个细胞图像；

步骤3：根据细胞图像，计算细胞特征，识别细胞图像的噪声；

步骤4：构建包含残差网络、金字塔网络和并行浅层特征通道的并行神经网络，并进行训练；

步骤5：将待检测的肺部细胞图像输入到并行神经网络模型，根据并行神经网络模型的输出数据，得到肺部细胞图像分类结果。

步骤2包括以下子步骤：

步骤2.1：使用k-means聚类方法对细胞图片中的染色区域进行像素聚类；

步骤2.2：根据色调、饱和度、明度HSV参数上、下限对细胞图片进行区域提取，以椭圆形状进行形态学开操作，消除噪点；

步骤2.3：对细胞图片进行分割，每个分割细胞单独生成512x512像素的图片，并保持分割后的细胞的相对位置关系不变。

优选地，染色的细胞核区域的HSV颜色空间的H值范围为[80,155]，S值范围为[43,255]，V值范围为[46,255]。

所述计算细胞特征，具体包括：

1)计算细胞的面积S；

2)计算细胞像素弧度长度，计算得到细胞周长P；

3)使用最小外接矩阵获取细胞长W和宽H；

4)计算细胞矩形度，细胞矩形度的计算公式如下：

R＝S/(W*H)

式中R表示细胞矩形度；

5)计算细胞圆形度，细胞圆形度的计算公式如下：

C＝P*P/S

式中C表示细胞圆形度；

6)计算细胞偏心率，细胞偏心率的计算公式如下：

E＝W/H

式中E表示细胞偏心率。

优选地，所述残差网络为ResNet50。

步骤4通过数据增强获取均衡的肺癌细胞、正常细胞和噪声3类图像的数据集，作为并行神经网络的训练数据，用于并行神经网络的训练。

所述肺部细胞图像分类方法将训练数据中堆叠的无法分割的多个细胞和图片边缘不完整细胞标记为噪声，以提高并行神经网络对癌细胞的识别准确率，避免将质量不好的细胞图像误检为癌细胞。

相比现有技术，本发明的有益效果包括：

1)本发明通过计算细胞特征，辨识区分图像中的细胞区域与噪声区域，避免图像噪声影响肺部细胞图像分类的准确率，提高了肺部细胞分类的准确性；

2)本发明的肺部细胞图像分类模型采用包含残差网络、金字塔网络和并行浅层通道的并行神经网络，并行神经网络实现了细胞图像的浅层特征和不同层次的深层特征融合，根据不同尺度的融合特征实现肺部细胞的分类，进一步提高了分类模型的分类准确率，强化了分类模型的泛化性能，避免出现漏检或误检；

3)本发明对肺部细胞图片染色区域的颜色进行标准化处理，提高了细胞边缘检测与分割的准确性，增加了模型识别的准确性和泛化能力；

4)本发明将多细胞重叠区域标记为噪声类，通过正常细胞类、肺部癌细胞类和噪声类数据集的训练得到的模型，具有更高的准确性和更好的泛化能力。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1为本发明实施例的肺部细胞图像分类方法的流程示意图。

图2a为本发明实施例的肺部细胞图像的原始图。

图2b为本发明实施例的肺部细胞图像的细胞边缘检测结果的示意图。

图2c为本发明实施例的肺部细胞图像中分割出的细胞区域的示意图。

图3为本发明实施例的分水岭分割算法的流程示意图。

图4为本发明实施例一的并行神经网络的结构示意图。

图5为本发明实施例的残差网络的结构示意图。

图6为本发明实施例二的并行神经网络的结构示意图。

具体实施方式

实施例一

如图1所示，基于并行神经网络的肺部细胞图像分类方法，包括以下步骤：

步骤1：提取图像数据，获取150份512x512像素的肺部细胞图片，经过染色处理，图片中的细胞核呈蓝色或蓝紫色，细胞浆呈粉红或红色，肺部细胞图片中的每个细胞都单独标注。并对数据进行增强操作。

实施例中采用了旋转操作和添加噪声来增加训练数据，旋转操作是对图片进行0到180范围内随机大小的角度的顺时针旋转。实施例中，对图片添加了椒盐噪声和高斯噪声两种类型的噪声。将这两种数据增强手段随机组合，构成数据增强的数据输入通道pipeline。

步骤2：对图像数据预处理，使用k-means方法对所有肺部细胞图片进行像素级3聚类。在肺癌细胞图像中，存在深蓝色的细胞核、浅蓝色的背景和红色的红细胞，其中感兴趣的部分是细胞核。

如果直接采用分水岭算法，分割结果中会存在大量红细胞，从而对分类结果产生影响。在分割前对图片进行预处理，可去除干扰的红细胞。

细胞核、背景和红细胞三者之间的主要差异就是颜色的不同，因此可通过颜色对细胞核、背景和红细胞进行筛选。在图像处理中，常见的RGB色彩模式，通过红绿蓝三原色的混合来产生不同效果，但是由于颜色的混合，RGB模式并不利于单种颜色范围色彩的区分、辨识。

为了更好地进行颜色之间的比较和筛选，本发明将图片的色彩从RGB通道转换到了HSV通道。HSV分别代表了色调(Hue)、饱和度(Saturation)和亮度(Value)，要筛除细胞图片中所有的红细胞，就要找出图片中的红色对应的H、S和V的范围。HSV标准颜色对照表提供的红色的H值范围为[156,180]，S值范围为[43,255]，V值范围为[46,255]。实验中发现不同的光照强度、不同的拍摄角度等也会增加图片之间的差异，增加图片颜色的辨识难度。如果仅凭红色的H、S、V值范围对干扰红细胞进行筛选删除，会导致部分细胞核区域被误删或者红细胞区域未完全去除的情况。针对此问题，本发明采用k-means聚类算法将图片的像素点进行聚类。

k-means聚类算法的基本原理：指定空间中k个点为聚类中心，对于空间中其它的点，将其归类于离它最近的聚类中心，通过迭代不断更新聚类中心直至稳定，其中k为聚类中心的数量。

由于图片中存在三类不同颜色的目标，因此指定聚类中心的数量k＝3。对图片进行像素3聚类的具体过程如下：

(1)指定3个聚类中心，分别用nucleus_color、bg_color、redcell_color表示；

(2)对于图片中每个像素点，分别计算它到3个不同的聚类中心的距离，此距离为HSV空间的欧氏距离，将其指派到距离最小的聚类中心，形成k个簇；

(3)重新计算每个簇的聚类中心；

(4)重复步骤(2)、(3)直至聚类中心不发生改变或者达到了最大迭代数。

像素聚类之后的图片仅存在3个像素块，通过比较像素块的HSV值和标准颜色对照表中的HSV值，即可找到红细胞对应的像素块，达到去除干扰细胞的目的。通过该方法获得染色细胞核区域的HSV颜色空间的H值范围为[80,155]，S值范围为[43,255]，V值范围为[46,255]。

根据HSV颜色空间的H、S、V值范围对每份肺部细胞图片进行区域提取，以8x8像素形状进行形态学开操作，用以消除噪点；使用分水岭算法对细胞图片进行细胞边缘检测和细胞区域分割，如图3所示。对分割出来的每个细胞区域保留原始像素点信息，将其他区域的像素点颜色设置为[255,255,255]。每个分割出的细胞图像单独生成512x512像素的图片，并保持分割前后细胞区域的相对位置关系不变。

使用分水岭算法对细胞图片进行细胞边缘检测的具体过程如下：

(1)将彩色图像转换为灰度图像，采用大津阈值对像素点的灰度值进行分类，将灰度图二值化，其中背景为0，细胞核为1。

(2)针对步骤(1)得到的背景区域可能会存在噪点的情况，采用3x3的矩形核对图片进行两次开操作，用以消除噪点。

(3)对步骤(2)得到的图像，采用8x8的矩形核进行两次膨胀操作，即可得到确定的背景区域，步骤(1)中分割边缘不明确，得到的黑色部分不是明确的背景区域，白色区域也非明确的前景区域；

(4)对步骤(2)得到的图像，计算白色区域每一个像素点到黑色区域的最近距离，用这个距离值替换像素值，对其进行二值处理，设置得到确定的前景区域，即分水岭算法中的种子；

(5)使用步骤(3)得到的背景区域减去步骤(4)得到的前景区域，就得到了细胞边界存在的区域，称为未知区域；

(6)根据确定的背景区域、确定的背景区域和未知区域创建标记markers，与原始图像大小相同的int32矩阵；

(7)根据标记markers对原图像进行分水岭分割，将背景区域加入种子区域，从种子区域开始，均匀向四周漫水，随着水平面不断增高，为防止阈值像素点被淹没，在这些像素点上设置大坝，最后所有的区域都在分水岭线上相遇，这些大坝就是图像分割的边界。

分割得到的未标记的细胞区域中影响癌细胞辨识的情形标记为噪声，包括：

(1)对分割得到的细胞区域进行外接矩形操作，根据外接矩形的位置，判定分割的细胞区域在图片中的位置，若分割的细胞区域位于图片边缘，则认定为不完整的细胞图像，标记为噪声；

(2)对分割得到的细胞区域的面积大于8000像素点的部分认定为细胞堆叠区域，标记为噪声数据；

(3)对分割得到的细胞区域偏心率大于2的部分标记为噪声数据；

(4)对分割得到的细胞区域圆形度大于25的部分标记为噪声数据。

最终得到肺部癌细胞图片112份，正常细胞图片117份，噪声图片115份。

步骤4：构建包含残差网络、金字塔网络和并行浅层特征通道的并行神经网络，作为肺部细胞图像分类模型，如图4所示。

Resnet-50具有较深的网络结构，能够提取到较高层次的特征，但是多次的卷积操作也带来问题：最后一层的卷积拥有较大的感受野，会导致对特征的敏感度降低，因此最后一层特征图的分辨率也会降低，对于小物体来说，导致可以提取到的特征非常少，这是非常不利的。因此，本发明加入了特征金字塔网络(Feature Pyramid Networks，FPN)与Resnet50构建并行分类网络。金字塔网络的基本思想是将高层和低层的特征融合起来，即多尺度特征融合，从而充分地利用网络的各个阶段的特征，以此来提高较深网络的效果。

特征金字塔网络FPN包含融合层M2、M3、M4、M5，融合层M2、M3、M4、M5分别对应残差块ResBlock1、ResBlock2、ResBlock3、ResBlock4的最后残差层输出的特征图。

特征金字塔网络FPN将Resnet50中每一个残差块提取到的特征融合，构成了一组新的特征：p1,p2,p3,p4,p5。每个新融合的特征都包含了多尺度的信息，并且维度都是1024。

融合层M5的输出结果由特征金字塔网络FPN的残差块4的输出结果经过1x1卷积得到，1x1卷积操作主要是为了改变维度，

融合层M4的输出结果由融合层M5的输出结果经过两倍上采样并与特征金字塔网络FPN的残差块3的输出经1x1卷积操作的结果相加得到。

融合层M3的输出结果由融合层M4的输出结果经过两倍上采样并与特征金字塔网络FPN的残差块2的输出经1x1卷积操作的结果相加得到。

融合层M2的输出结果由融合层M3的输出结果经过两倍上采样并与特征金字塔网络FPN的残差块1的输出经1x1卷积操作的结果相加得到。

为消除上采样带来的混叠效应，融合层M2、M3、M4、M5分别经过3x3卷积处理得到了最终提取的特征p2、p3、p4、p5，如图4所示。将这些特征组合构成特征池，最后经过全连接层FC和分类器Softmax输出3分类的结果，输出结果为正常细胞、肺部癌细胞和噪声数据其中一种。

Resnet50网络的结构如图5所示，Resnet50网络的输入为为512*512像素3通道的图片。原始图片依次经过卷积核尺寸为7*7、步长为2的卷积操作和卷积核尺寸为3*3、步长为2的最大池化层操作后，图片大小由512*512*3变为128*128*64，再依次经残差块1、残差块2、残差块3、残差块4进行处理，其中残差块1包含3个残差单元，残差块2包含4个残差单元，残差块3包含6个残差单元，残差块4包含3个残差单元，每个残差单元包括3个卷积层。经过了这4组残差单元之后，输出大小为16*16*2048。

训练数据集划分；实施例中，对肺病患者进行组平衡的5折划分，保证了数据平衡性，这种数据划分方案能保证模型学习的是独立于样本外的泛化特征。

步骤5：将待检测的肺部细胞图像输入到训练好的并行神经网络，根据并行神经网络的输出数据，得到肺部细胞图像分类结果。

为了验证本发明方法的有效性及可行性，实施例在自有数据集上进行验证。通过本发明方法提出的图像预处理步骤进行数据集处理，以本发明方法提出的数据集划分方式进行数据集的划分，进一步进行模型的训练，最后，使用训练后的模型进行性能测试获得模型的评价指标。本发明的方法在测试集上平均准确训练场Precision达到92.7％、平均召回率Recall为90.3％，平均F1分数为0.91。

实施结果表明本发明提出的方法是行之有效的，能够敏感地识别肺部癌细胞，能够很快地得到肺部细胞图片的分析结果，能够有效地提取肺部癌细胞的底层泛化特征，因此具有较大的社会实用价值。

以上所述的实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

实施例二

如图6所示，实施例二的并行神经网络在实施例一的并行神经网络基础上增加一支并行的浅层特征通道，并行的浅层特征通道仅包含池化层，其作用是直接抽取输入图像的浅层特征，并与特征金字塔网络FPN、残差网络输出的图像特征一起输入到分类器，以增加输入支分类器的浅层特征，进一步提高分类模型的分类准确率，强化分类模型的泛化性能。

实施例二的肺部细胞图像分类方法与实施例一的肺部细胞图像分类方法相同。

Claims

1.基于并行神经网络的肺部细胞图像分类方法，其特征在于，包括以下步骤：

步骤2：对细胞图像的染色区域进行聚类，消除噪点，分割出单个细胞图像；

步骤4：构建包含残差网络、金字塔网络的并行神经网络，并进行训练；

步骤5：将待检测的肺部细胞图像输入到并行神经网络，根据并行神经网络的输出数据，得到肺部细胞图像分类结果。

2.根据权利要求1所述的肺部细胞图像分类方法，其特征在于，步骤2包括以下子步骤：

步骤2.2：根据色调、饱和度、明度HSV参数对细胞图片进行区域提取，以椭圆形状进行形态学开操作，消除噪点；

3.根据权利要求2所述的肺部细胞图像分类方法，其特征在于，步骤2使用分水岭算法对细胞图片进行细胞边缘检测，分割出单个细胞图像，具体过程如下：

(1)将彩色图像转换为灰度图像，采用大津阈值对像素点的灰度值进行分类，将灰度图二值化，其中背景为0，细胞核为1；

(2)针对步骤(1)得到的背景区域可能会存在噪点的情况，采用3x3的矩形核对图片进行两次开操作，用以消除噪点；

{3)对步骤(2)得到的图像，采用8x8的矩形核进行两次膨胀操作，即可得到确定的背景区域；

(6)根据确定的背景区域、确定的背景区域和未知区域创建标记markers；

4.根据权利要求2所述的肺部细胞图像分类方法，其特征在于，步骤3中，所述计算细胞特征，具体包括：

1)计算细胞的面积S；

2)计算细胞像素弧度长度，计算得到细胞周长P；

3)使用最小外接矩阵获取细胞长W和宽H；

4)计算细胞矩形度，细胞矩形度的计算公式如下：

R＝S/(W*H)

式中R表示细胞矩形度；

5)计算细胞圆形度，细胞圆形度的计算公式如下：

C＝P*P/S

式中C表示细胞圆形度；

6)计算细胞偏心率，细胞偏心率的计算公式如下：

E＝W/H

式中E表示细胞偏心率。

5.根据权利要求2所述的肺部细胞图像分类方法，其特征在于，步骤4中，所述残差网络为ResNet50。

6.根据权利要求2所述的肺部细胞图像分类方法，其特征在于，步骤4通过数据增强获取均衡的肺癌细胞、正常细胞和噪声3类图像的数据集，作为并行神经网络的训练数据，用于并行神经网络的训练。

7.根据权利要求2所述的肺部细胞图像分类方法，其特征在于，将训练数据中堆叠的无法分割的多个细胞和图片边缘不完整细胞标记为噪声，以提高并行神经网络对癌细胞的识别准确率，避免将质量不好的细胞图像误检为癌细胞。

8.根据权利要求7所述的肺部细胞图像分类方法，其特征在于，步骤3中，将分割得到的未标记的细胞区域中影响癌细胞辨识的情形标记为噪声，包括：

9.根据权利要求2-8任意一项所述的肺部细胞图像分类方法，其特征在于，并行神经网络包括残差网络ResNet50和特征金字塔网络FPN；

特征金字塔网络FPN包含融合层M2、M3、M4、M5，融合层M2、M3、M4、M5分别对应残差块ResBlock1、ResBlock2、ResBlock3、ResBlock4的最后残差层输出的特征图；

特征金字塔网络FPN将Resnet50中每一个残差块提取到的特征融合，构成了一组新的特征p2，p3，p4，p5；每个新融合的特征都包含了多尺度的信息，并且维度都是1024；

融合层M5的输出结果由特征金字塔网络FPN的残差块4的输出结果经过1x1卷积得到，1x1卷积操作主要是为了改变维度；

融合层M4的输出结果由融合层M5的输出结果经过两倍上采样并与特征金字塔网络FPN的残差块3的输出经1x1卷积操作的结果相加得到；

融合层M3的输出结果由融合层M4的输出结果经过两倍上采样并与特征金字塔网络FPN的残差块2的输出经1x1卷积操作的结果相加得到；

融合层M2的输出结果由融合层M3的输出结果经过两倍上采样并与特征金字塔网络FPN的残差块1的输出经1x1卷积操作的结果相加得到；

为消除上采样带来的混叠效应，融合层M2、M3、M4、M5分别经过3x3卷积处理得到了最终提取的特征p2、p3、p4、p5；将这些特征组合构成特征池，最后经过全连接层FC和分类器Softmax输出3分类的结果，输出结果为正常细胞、肺部癌细胞和噪声数据其中一种。

10.根据权利要求9所述的肺部细胞图像分类方法，其特征在于，并行神经网络包括直接并行浅层特征通道，并行浅层特征通道包括池化层，并行浅层特征通道直接抽取输入图像的浅层特征，并与特征金字塔网络FPN、残差网络输出的图像特征一起输入到分类器。