CN116843974A

CN116843974A - 基于残差神经网络的乳腺癌病理图像分类方法

Info

Publication number: CN116843974A
Application number: CN202310826879.4A
Authority: CN
Inventors: 曾铁勇; 万能; 武婷婷; 刘斐斓
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-03

Abstract

本发明属于医学图像分类领域，公开了一种基于残差神经网络的乳腺癌病理图像分类方法，首先从乳腺癌BreakHis数据集中获取原始病理图像与分类标签，构造用于识别乳腺疾病的数据集；接着对数据集中每一张图像，使用混合超分辨率网络架构，来提取乳腺病理图像的潜在特征进行图像增强；然后将原始图像数据集与增强后图像数据集融合构成新数据集，作为分类模型的训练集与测试集。本发明基于优化后的残差神经网络与新数据集训练乳腺病理图像分类模型，最后通过加载预训练的分类模型，即可快速识别出待识别生理图像的肿瘤亚型类别，在保证算法速度的基础上，提升了乳腺癌病理图像的分类准确率。

Description

基于残差神经网络的乳腺癌病理图像分类方法

技术领域

本发明属于医学图像分类领域，具体是涉及基于残差神经网络的乳腺癌病理图像分类方法。

背景技术

乳腺癌是一种常见的恶性肿瘤，其早期诊断和治疗对预防和治疗乳腺癌至关重要。病理图像分类是一种常用的诊断方法，通过对乳腺癌组织切片进行显微镜观察和图像分析，确定组织类型和癌细胞分布情况。

传统的乳腺癌病理图像分类方法主要依赖于人工经验和专业知识，存在主观性和误诊率高的问题。近年来，随着计算机视觉和机器学习技术的发展，基于图像特征提取和分类算法的自动化病理图像分类方法逐渐成为研究热点。

针对上述需求，国内常用的病理图像分类方法包括传统的特征提取和分类方法，如支持向量机(SVM)、人工神经网络(ANN)和决策树等，以及基于深度学习的方法，如卷积神经网络(CNN)、循环神经网络(RNN)和注意力机制等。

深度学习是机器学习领域的一个新兴研究方向，近年来在癌症诊断中的应用越来越广泛。例如，朱哲等人利用VGG和GoogLeNet算法，根据乳腺MRI图像成功将管腔A与其他亚型区分开来，平均AUC为0.64。2018年，Heather D.Couture等人基于改进的VGG-16模型，成功预测了乳腺癌的分子亚型，准确率在70％-80％之间。

医学图像数据往往非常稀缺，特别是高分辨率的图像，这导致了在训练模型时的数据不足，限制了分辨率提升算法的性能。数据集中乳腺癌病理图像的质量和数量对于训练准确的分类模型至关重要，如果训练集中的图像质量不高，存在噪声或错误数据，或者图像数量较少，那么分类模型的性能可能会受到限制；其次，乳腺癌具有不同的亚型和分级，在病理图像中可见的特征也各不相同；然而，一些亚型的乳腺癌病理图像可能在训练集中数量较少，或者根本就缺乏相关的图像数据；这使得模型难以准确区分少数亚型的乳腺癌；乳腺病理图像分类方法存在分类精度较低的问题。

发明内容

为解决上述技术问题，本发明提供了一种基于残差神经网络的乳腺癌病理图像分类方法，采用超分辨率网络提升图像质量并且优化分类网络，在提高病理图像分类精度的同时，增强原图像的分辨率。

本发明所述的基于残差神经网络的乳腺癌病理图像分类方法，包括以下步骤：

步骤1、利用乳腺癌BreakHis数据集中原始病理图像与标签，构建乳腺癌原始病理图像数据集；

步骤2、将乳腺癌原始病理图像数据集中的图像通过混合超分辨率网络提取图像特征进行图像增强，得到增强图像数据集；

步骤3、将原始图像数据集与增强图像数据集融合构建训练集和测试集；

步骤4、构建基于残差神经网络的分类模型，并对所述分类模型进行预训练；

步骤5、利用预训练后的分类模型对待识别的乳腺癌病理图像进行分类。

进一步的，所述混合超分辨率网络包括：浅层特征提取模块、轻型CNN主干LCB、轻型Transformer主干LTB和图像重建模块；

所述浅层特征提取模块选用一个3*3卷积层对输入图像进行特征提取，将输入数据中的每一个3*3的小块都与一个3*3的卷积核进行卷积操作，得到一个新的特征图H₀：

H₀＝F_SI_LR (1)

F_S表示该浅层特征提取模块功能，I_LR表示输入的原图；

所述轻型CNN主干LCB包括n个高保留块，其表示如下公式所示：

P_i＝l_i(l_i-1(...(l₁(H₀)))) (2)

l_i，i＝1，2，3...n表示第i个高保留块的功能，P_i，i＝1，2，3...n指通过i个高保留块作用的结果；

轻型Transformer主干LTB，对每个高保留块的输出拼接，然后输入LTB进行特征融合，同样LTB包括n个Transformer，其公式如下所示，δ_i,i＝1,2,3...n表示第i个Transformer的功能；

P_re＝δ_n(δ_n-1(...(δ_i(...(δ₁[P₁,P₂...P_n]))))) (3)

将P_re与H₀同时输入图像重建模块，获得提升分辨率的结果图像I_SR，公式如下所示，

I_SR＝F_C(F_P(F_C(P_re)))+F_CF_P(H₀) (4)

F_P和F_C分别代表图像重建模块中的亚像素卷积层和卷积层。

进一步的，所述高保留块由高频滤波模块和自适应残差特征块构成，所述高频滤波模块用来捕捉图像的纹理细节，在特征提取方面通过自适应残差特征块作为基本特征提取单元，能够自适应调整残差路径和路径的权重；

高频滤波模块中首先将输入尺寸为C*H*W的特征图划分为若干个大小相同的区域，然后计算每个区域内像素值的平均值，得到一个降采样后尺寸为的特征图，接着再通过一个上采样层，将特征图变换到原始的输入尺寸。

进一步的，所述transformer包块一个多层感知机和一个高效的多头注意力机制，E_input表示输入，E_output表示输出，E_me表示第一阶段输出结构，Norm表示正则化，EMHA表示多头注意力机制，MLP表示多层感知机，其过程如下所示：

在多头注意力机制中，假设输入E_input尺寸为B*C*N，首先将通道数减少为B*(C/2)*N，使用线性层进行特征映射时，将其映射为Q(查询)、K(键)、V(值)三个元素，再将其分割为S组，对每组分别进行注意力操作获得对应O_i，最后将输出拼接为O，最后利用一个扩展层，恢复其通道数。

进一步的，步骤3具体为：

首先标注每一张病理图像所属的肿瘤类别标签，接着使用了pickle模块将指定文件夹中的图像数据读取并转换为numpy数组格式，并将其与标签信息一起保存到pickle文件中；Pickle是Python中的一种序列化模块，可以将Python对象转化为字节流，方便存储到文件中或者在网络中传输。将图像数据和标签转化为pickle文件后，可以快速地读取和加载数据，避免了每次使用数据时都需要重新处理的麻烦。此外，pickle文件也可以在不同的Python程序之间共享，方便数据的共享和传输。

进一步的，步骤4中构建的基于残差神经网络的分类模型，具体为：

首先选择Resnet50的参数作为训练前的权重，接着使用了一个全局平均池化层以及50％的dropout层来避免过拟合；之后采用一个BN层对每个批次的数据进行标准化处理；最后使用Softmax层乳腺癌病理图像进行分类。

本发明所述的有益效果为：本发明致力于提升乳腺病理图像的分类性能，首先由于数据集的局限性，本发明基于BreakHis数据集对其原始图像进行超分辨率处理，提升了图像的清晰度，改善图像的视觉效果；其次得到增强后的图像后本发明将其与原始乳腺病理图像相融合，构成了本发明用于分类模型训练的数据集，数据集的样本量同时也得到了增加；通过对残差神经网络进行优化，以期望得到效果最好的分类模型并保存；最后本发明可直接将保存的模型用于各种类型乳腺肿瘤分类，提升分类效率的同时也提高了乳腺病理图像分类的准确率。

附图说明

图1为本发明原始乳腺病理图片数据集BreakHis示例图片；

图2为本发明超分辨率网络整体结构图；

图3为本发明超分辨率网络中LCB中的高保留块结构图；

图4为本发明超分辨率网络中LTB中的Transformer结构图；

图5为本发明超分辨率网络增强图片结果示例；

图6为本发明残差神经网络优化后结构图；

图7为本发明分类算法的准确率结果；

图8为本发明所述方法的流程图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

本发明所述的基于残差神经网络的乳腺病理图像分类方法，使用超分辨率网络增强图片、丰富数据集的同时，提升了乳腺肿瘤亚型分类算法可分类的种类数量与准确率。如图8所示，本发明所述的基于残差神经网络的乳腺病理图像分类方法包括以下步骤：

BreakHis数据集作为原始乳腺病理图像来源，其样本为乳腺组织活检幻灯片，用苏木精和伊红(HE)染色。样本通过外科(开放式)活检(SOB)采集，能用于组织学研究，并由P&D实验室的病理学家标记。其原始图像示例如图1所示。在步骤1中本发明选用了来自BreakHis数据集，共1995张原始乳腺图像；该数据集对乳腺的病变给出了细粒度的临床分型标注信息，包括良性病变中的乳腺病(adenosis,A)、纤维腺瘤(fibroadenoma,F)、叶状瘤(phyllodes tumor,PT)、管状腺瘤(tubular adenoma,TA)、以及恶性病变中的导管癌(ductal carcinoma,DC)、小叶癌(lobular carcinoma,LC)、黏液癌(mucinous carcinoma,MC)和乳头状癌(papillary carcinoma,PC)共八类不同的肿瘤亚型。因此，本发明的分类模型基于八种不同类型的肿瘤，能够更准确地对乳腺病理图像进行分类，提高了分类的种类数目和准确率。

超分辨率增强是一种图像处理技术，可以提升图像分辨率，医学影像分析等领域中，超分辨率增强技术可以提高算法的准确性和可靠性。本发明通过使用一种由轻型CNN主干网络与轻型Transformer主干网络组合而成的混合超分辨率网络架构，可以提升图像分辨率，将图像中的模糊和噪声去除，增强图像的细节和清晰度，使得图像更加真实、自然，同时改善图像的视觉效果，使得观察者更容易理解和识别图像中的内容。所述混合超分辨网络包括四部分：浅层特征提取模块、轻型CNN主干(LCB)、轻型Transformer主干(LTB)和图像重建。整体网络架构如图2所示，浅层特征提取模块使用3*3卷积层对输入图片进行特征提取，接着使用轻型CNN主干(LCB)进行局部特征提取，LCB由三个高保留块构成，每一个高保留块由高频滤波模块和自适应残差特征块构成，其局部详细结构如图3所示。在LCB的高频滤波器模块中，假设输入图像T_I尺寸为C*H*W，接着对输入图像应用一个平均池化层，其表示如下式所示：

T_O＝avgpool(T_I,k)

其中k为池化层的核大小，得到的中间图像T_O的尺寸为TA中的每个值都可以看作是T_I的每个指定小区域的平均强度。然后，对T_O进行上采样，得到一个新的大小为C*H*W的张量T_k，T_k作为与原始T_I相比的平均平滑信息的表达式。最后，从T_I中按元素方向减去T_k，得到高频信息。

经过局部特征提取后，再通过用一个Transformer构成第三部分轻型Transformer主干(LTB)，对输入图像进行局部特征融合，该部分中每一个Transformer都由一个多层感知机与一个高效的多头注意力机制构成，在每个块前采用层归一化，在每个块后也采用残差连接。其具体结构如图4所示。最后再通过图像重建对输入图像与特征融合图像重建获得输入图像的高分辨率结果。

在步骤2中本发明通过使用该超分辨率网络细化病理图像的纹理与细节，达到增强图片的效果。本发明增强了在步骤1中构造的数据集中每一张乳腺病理图片，图5是本发明中乳腺病理图像超分辨率增强后的示例。增强后的图片更加清晰、细节更加丰富、边缘更加锐利，有助于医生更准确地进行病理分析和诊断，同时也提高病理图像分类准确率。

本发明再将增强后的图片与原始图片混合，构成本发明后续用于乳腺病理图像分类模型训练的新数据集，新数据集中共有3990张乳腺病理图像。其中属于良性病变中的乳腺病(adenosis,A)共有228张、属于良性病变中纤维腺瘤(fibroadenoma,F)共506张、属于良性病变中叶状瘤(phyllodes tumor,PT)共218张、属于良性病变中管状腺瘤(tubularadenoma,TA)共298张、以及属于恶性病变中的导管癌(ductal carcinoma,DC)共1728张、属于恶性病变中小叶癌(lobular carcinoma,LC)共312张、属于恶性病变中黏液癌(mucinouscarcinoma,MC)共410张和属于恶性病变中乳头状癌(papillary carcinoma,PC)共290张。接着本发明将新融合的数据集按8:2的比例分为训练集和测试集，可以确保模型在训练期间不会过度拟合，同时也可以在测试集上进行验证，从而评估模型的泛化能力。这样可以更好地了解模型的性能，并帮助本发明调整模型以提高其准确性和可靠性。此外，这种8:2分割也可以减少数据集的偏差，提高模型的稳定性和可靠性。在对训练集、测试集的图像分别标注分类标签后，本发明利用pickle模块功能，首先，通过读取csv文件中的标签信息，获取每个图像对应的标签。然后，通过遍历指定文件夹中的图像文件，将图像读取并缩放到96x96像素大小，然后将其转换为numpy数组格式，并将R、G、B三个通道的像素值按照顺序合并成一个一维数组。最后，将所有图像的数组按行堆叠成一个矩阵，将标签信息保存到列表中。将所有数据保存到pickle文件中，其中包括batch_label、labels、data和filenames四个数据项。其中，batch_label为数据集标签，labels为所有图像对应的标签，data为所有图像的像素值矩阵，filenames为所有图像的文件名列表。

由于考虑到本发明要进行分类的图像是乳腺生理图像，需要对其进行细致的处理，而Resnet-18以及Resnet-34的层数较少，一般应用于简单的场景，能达到快速处理的效果。而Resnet-101和Resnet-152又因为层数较多，计算量大且收敛慢。因此本发明中的乳腺病理分类网络选用Resnet50作为初始网络结构，并在其基础上进行改进。Resnet50是一种深度残差神经网络，旨在解决深度神经网络中的梯度消失和梯度爆炸问题，使得网络可以更深更容易训练。其结构包含了50个卷积层和全连接层，整个网络分为5个阶段，每个阶段包含若干卷积层和一个降采样层。其中，第一阶段包含一个7x7的卷积层，接着是一个最大池化层，然后是3个卷积层。第二阶段包含了4个卷积层和一个降采样层。第三阶段包含了6个卷积层和一个降采样层。第四阶段包含了8个卷积层和一个降采样层。最后一个阶段包含了3个全连接层。每个卷积层都使用了残差块的结构，其中每个残差块包含了两个卷积层和一个跳跃连接。这种跳跃连接可以使得网络学习到更加复杂的特征，避免了梯度消失问题。ResNet50的最后一层是一个softmax层，用于输出分类概率。整个网络的训练过程使用了交叉熵损失函数和随机梯度下降算法。

本发明在Resnet50结构基础上作了优化，其优化后的结构如图6所示。首先选择Resnet50的参数作为训练前的权重，并且将学习率设置为0.0001，接着本发明使用了一个全局平均池化层以及50％的dropout层来避免过拟合。之后本发明又添加了一个BN层对每个批次的数据进行标准化处理。最后本发明使用了一个常用于多分类问题的Softmax层解决乳腺癌的分类问题。准确率(Precision)是指分类器正确预测为正类的样本数占预测为正类的样本总数的比例，也就是分类器的准确性。准确率越高，分类器预测为正类的样本中真正为正类的比例就越高，分类器的准确性就越高。召回率(Recall)是评估分类模型性能的指标之一，表示模型正确预测出的正例占实际正例总数的比例。简单来说，召回率就是评估模型能否准确地找出所有的正例。F1-score是一种综合评价指标，用于衡量分类模型的性能。它是精确率和召回率的调和平均值，可以反映出分类器的准确性和完整性。如图7所示，本发明在分类乳腺病理图像上已经达到了很好的性能，总准确率高达98％，每一个种类的准确率都高于90％，有的乳腺肿瘤亚型分类甚至达到了100％准确率。

本发明已经通过以上方式预训练了乳腺病理图像通用的分类模型，效率快的同时且性能也高，用户在使用时，仅需输入待分类的图片，通过载入已经预训练好的分类模型，即可得到病理图像的分类结果，这样用户不仅节省了训练的时间，同时使用上也十分方便快捷。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.基于残差神经网络的乳腺癌病理图像分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于残差神经网络的乳腺癌病理图像分类方法，其特征在于，所述混合超分辨率网络包括：浅层特征提取模块、轻型CNN主干LCB、轻型Transformer主干LTB和图像重建模块；

H₀＝F_SI_LR (1)

F_S表示该浅层特征提取模块功能，I_LR表示输入的原图；

所述轻型CNN主干LCB包括n个高保留块，其表示如下公式所示：

P_i＝l_i(l_i-1(...(l₁(H₀)))) (2)

P_re＝δ_n(δ_n-1(...(δ_i(...(δ₁[P₁,P₂...P_n]))))) (3)

I_SR＝F_C(F_P(F_C(P_re)))+F_CF_P(H₀) (4)

F_P和F_C分别代表图像重建模块中的亚像素卷积层和卷积层。

3.根据权利要求2所述的基于残差神经网络的乳腺癌病理图像分类方法，其特征在于，所述高保留块由高频滤波模块和自适应残差特征块构成，所述高频滤波模块用来捕捉图像的纹理细节，在特征提取方面通过自适应残差特征块作为基本特征提取单元，能够自适应调整残差路径和路径的权重；

4.根据权利要求2所述的基于残差神经网络的乳腺癌病理图像分类方法，其特征在于，所述transformer包块一个多层感知机和一个高效的多头注意力机制，E_input表示输入，E_output表示输出，E_me表示第一阶段输出结构，Norm表示正则化，EMHA表示多头注意力机制，MLP表示多层感知机，其过程如下所示：

5.根据权力要求1所述的基于残差神经网络的乳腺癌病理图像分类方法，其特征在于，步骤3具体为：

首先标注每一张病理图像所属的肿瘤类别标签，接着使用了pickle模块将指定文件夹中的图像数据读取并转换为numpy数组格式，并将其与标签信息一起保存到pickle文件中。

6.根据权利要求1所述的基于残差神经网络的乳腺癌病理图像分类方法，其特征在于，步骤4中构建的基于残差神经网络的分类模型，具体为：