CN116486184B

CN116486184B - 一种乳腺病理图像识别分类方法、系统、设备及介质

Info

Publication number: CN116486184B
Application number: CN202310746899.0A
Authority: CN
Inventors: 高娟; 蔡炜杰; 向芹; 青晓艳; 李明进; 陈济; 蒋昭友
Original assignee: Chengdu College of University of Electronic Science and Technology of China
Current assignee: Chengdu College of University of Electronic Science and Technology of China
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-08-18
Anticipated expiration: 2043-06-25
Also published as: CN116486184A

Abstract

本发明公开了一种乳腺病理图像识别分类方法、系统、设备及介质，属于人工智能技术领域中的乳腺病理图像识别分类，其目的在于解决现有技术中存在的网络模型训练、分类时计算量大、对终端计算能力要求高的技术问题。其构建的分类网络模型包括第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第二Dropout层、第一Dropout层、第七卷积层、第八卷积层、第三最大池化层、第四Dropout层、第四卷积层、第五卷积层、第二最大池化层、第六卷积层、第三Dropout层、第九卷积层、第十卷积层、第四最大池化层、第五Dropout层、第十一卷积层、第十二卷积层、第五最大池化层、全连接层、Softmax层。通过将卷积层设置为非对称卷积，大大减少网络的参数量，减少模型的计算量。

Description

一种乳腺病理图像识别分类方法、系统、设备及介质

技术领域

本发明属于人工智能技术领域，涉及乳腺癌图像，尤其涉及一种乳腺病理图像识别分类方法、系统、设备及介质。

背景技术

乳腺癌是女性发病率最高的癌症之一，其死亡率远高于其他女性癌症。定期的乳腺检查可以有效降低乳腺癌发病率。乳腺钼靶X线摄影是公认的早期诊断乳腺癌的标准筛查方式。乳腺钼靶X线摄影成像清晰，对比度高，而且成本低，适合日常体检时乳腺癌早期筛查和诊断。然而在实际诊断过程中，由于医生的扫描手法和仪器固有的伪影噪声，容易出现误诊、漏诊等现象。计算机辅助诊断是很好的辅助医疗手段，它能有效降低误诊率和漏诊率。乳腺肿块是乳腺癌的重要诊断依据之一。它在X线图像中呈类圆形，密度多数情况下比较致密，周围有薄层晕环，部分恶性肿块边缘呈针状。乳腺肿块检测分为肿块位置检测和BI-RADS等级分类。位置检测用于在乳腺X线图像中找到所有可疑乳腺肿块区域的位置，BI-RADS等级分类用于判断这些可疑肿块按照严重程度属于哪一病变等级。由于乳腺肿块边缘复模糊且与周围正常组织纹理相似，在乳腺X线图像中检测肿块是一项极具挑战的工作。

传统的乳腺肿块检测方法利用传统图像处理操作，先手工提取特征，再将特征输入到分类器。现有技术中提出把乳腺肿块检测转化为分类问题，他们将微波乳腺传感转换为概率映射，再通过支持向量机（SVM）方法得到存在肿块的后验概率。现有技术中还提出通过线性变换滤波器对乳腺图像进行数据增强，再通过局部自适应阈值方法分割图像中的乳腺肿块。现有技术中还使用图像模板匹配方法检测肿块。上述的这些传统的研究方法检测效果差，且计算复杂，手工提取的特征对不同病灶的描述具有局限性。近几年在深度学习的发展下，研究者们将深度学习用于乳腺肿块检测中。基于CNN的深度学习可以从输入图像中针对不同的任务，自适应提取最有效的特征。现有技术中提出RCNN采用区域建议网络（RegionProposalNetworks）生成2000个候选框，并将这些区域归一化为统一大小，再将这些候选框中的图片送入卷积神经网络中提取特征，通过支持向量机方法进行分类，最后通过前馈网络回归目标的边界框。

申请号为2022104898831的发明专利申请就公开了一种基于图注意力网络的多模态乳腺癌分类训练方法及系统，该训练方法包括以下步骤：首先，对电子医疗记录进行病理特征提取和文本处理并形成病历文本，利用预训练模型获取文本特征；同时，利用图注意力网络对患者病理图像集进行高阶特征提取；接着，通过多模态自适应门控单元对上述获得的图像、文本和病理特征进行融合，得到患者的多模态融合特征；最后，将融合后的多模态特征输入多层感知机进行分类预测，定义交叉熵损失函数训练模型。该训练系统包括预处理模块，用于从患者的电子医疗记录EMR中提取具有代表性的病理特征，数值化各特征，并进行文本描述得到病历文本；病理图像特征生成模块，用于提取患者单张病理图像的特征得到病理图像节点级别的特征，并将患者的病理图像集形成全连接图，以病理图像节点级别的特征作为初始特征，利用图注意力网络获取病理图像节点高阶特征；将病理图像节点的初始特征和高阶特征分别进行平均池化后再拼接得到最终的患者病理图像特征；文本特征生成模块，用于对EMR形成的病历文本利用预训练语言模型提取患者的诊断文本特征；多模态特征融合模块，用于将患者病理图像特征、文本特征、病理特征通过多模态自适应门控单元进行融合；所述自适应门控单元使用注意力门来融合三种模态特征，并将融合后的特征与病理图像特征进行加权求和作为最终的多模态融合特征；训练模块，用于将多模态融合特征，经过多层感知机对乳腺癌进行分类预测，通过定义交叉熵损失函数来训练模型。以及，预测模块，用于将患者病理图像集合、病历文本、病理特征输入到训练好的模型得到乳腺癌分类预测结果。本专利所提出的方法将图像、文本、病理三种模态的特征融合起来对乳腺癌进行分类，所提出网络结构的性能明显优于单一模态的方法，达到提高乳腺癌分类准确性的目的。

申请号为2022104113573的发明专利申请就公开了一种基于新型量子框架实现乳腺癌分类的系统，该系统用于执行以下步骤：根据乳腺癌数据特征进行量子编码，将样本特征编码到量子线路上；结合量子核估计方法对乳腺癌数据进行量子核熵主成分分析，达到乳腺癌数据预处理的目的；根据得到的预处理后的乳腺癌数据逐次进行量子编码进入变分量子线路、即量子变分分类器；对量子变分分类器的参数使用量子梯度下降算法实现参数优化；判断量子变分分类器的损失函数是否达到实际要求，如果达到，则量子变分分类过程结束；如果未达到实际要求，则对下一条预处理后的乳腺癌数据进行量子编码。在数据集特征值较少，分类准确度不高的情况下，本发明可以有效提高乳腺癌分类准确率。

如申请号为2022104898831的发明专利申请，其虽然准确率相对较高但方法多样，步骤繁琐，所需的特征多达29个过多且需要较多的病人数据从而增加了另一方面的工作量和病人的检查负担，由于过程繁琐复杂所以判断所需时间较长速度慢不适用于大规模使用，最后因为计算量较大所以对所用设备要求较。如申请号为2022104113573的发明专利申请，由于需要对乳腺癌数据特征进行量子编码，对乳腺癌数据进行量子核熵主成分分析需要大量计算过程复杂，预处理后量子变分分类过程复杂，且容易有较大的误差，导致准确率不高。

如上述两件发明专利申请，现有技术中在对乳腺癌进行分类时，由于所需特征较多，因而存在计算量大、所需时间长的问题；且因现有网络模型的结构计算量较大，对部署并运行网络模型的终端要求较高，其很难部署到配置较低的终端中。

发明内容

为解决现有技术中存在的网络模型训练、分类时计算量大、对终端计算能力要求高的技术问题，本发明提供了一种乳腺病理图像识别分类方法、系统、设备及介质。

为解决以上技术问题，本发明采用的技术方案如下：

一种乳腺病理图像识别分类方法，包括以下步骤：

步骤S1，获取图像样本数据

获取乳腺病理图像样本数据，并对乳腺病理图像样本数据进行标注，得到标签数据；

步骤S2，搭建分类网络模型

分类网络模型包括依次设置的卷积核为1*3的第一卷积层、卷积核为3*1的第二卷积层、第一最大池化层；第一最大池化层的输出经卷积核为1*1的第三卷积层后输入第二Dropout层，第一最大池化层的输出还依次经第一Dropout层、卷积核为5*1的第七卷积层、卷积核为1*5的第八卷积层、第三最大池化层后输入第四Dropout层；第二Dropout层与第四Dropout层的输出相加后依次经卷积核为1*3的第四卷积层、卷积核为3*1的第五卷积层、第二最大池化层、卷积核为1*1的第六卷积层后输入第三Dropout层；第三Dropout层、第四Dropout层的输出相加后依次经卷积核为5*1的第九卷积层、卷积核为1*5的第十卷积层、第四最大池化层后输入第五Dropout层；第三Dropout层、第五Dropout层的输出相加后依次经卷积核为1*3的第十一卷积层、卷积核为3*1的第十二卷积层、第五最大池化层、全连接层后输入Softmax层，Softmax层的输出即为分类网络模型的输出；

步骤S3，训练分类网络模型

采用乳腺病理图像样本数据及标签数据，对分类网络模型进行训练，得到成熟的分类网络模型；

步骤S4，乳腺图像实时分类

实时获取乳腺病理图像，并输入成熟的分类网络模型，分类网络模型输出分类结果。

进一步地，步骤S1中，对获取乳腺病理图像样本数据进行预处理，预处理包括翻转、旋转以及颜色抖动。

进一步地，步骤S2的分类网络模型中，第一Dropout层、第二Dropout层、第四Dropout层、第三Dropout层和第五Dropout层的参数分别为0.3、0.4、0.5、0.6、0.7。

进一步地，步骤S3在训练分类网络模型时，采用交叉熵函数作为损失函数，函数为：

其中，Loss表示损失值，y表示病理标签，y=0代表良性，y=1代表恶性；为神经网络输出的预测值。

一种乳腺病理图像识别分类系统，包括：

图像样本数据获取模块，用于获取乳腺病理图像样本数据，并对乳腺病理图像样本数据进行标注，得到标签数据；

分类网络模型搭建模块，用于搭建分类网络模型，分类网络模型包括依次设置的卷积核为1*3的第一卷积层、卷积核为3*1的第二卷积层、第一最大池化层；第一最大池化层的输出经卷积核为1*1的第三卷积层后输入第二Dropout层，第一最大池化层的输出还依次经第一Dropout层、卷积核为5*1的第七卷积层、卷积核为1*5的第八卷积层、第三最大池化层后输入第四Dropout层；第二Dropout层与第四Dropout层的输出相加后依次经卷积核为1*3的第四卷积层、卷积核为3*1的第五卷积层、第二最大池化层、卷积核为1*1的第六卷积层后输入第三Dropout层；第三Dropout层、第四Dropout层的输出相加后依次经卷积核为5*1的第九卷积层、卷积核为1*5的第十卷积层、第四最大池化层后输入第五Dropout层；第三Dropout层、第五Dropout层的输出相加后依次经卷积核为1*3的第十一卷积层、卷积核为3*1的第十二卷积层、第五最大池化层、全连接层后输入Softmax层，Softmax层的输出即为分类网络模型的输出；

分类网络模型训练模块，用于采用乳腺病理图像样本数据及标签数据，对分类网络模型进行训练，得到成熟的分类网络模型；

乳腺图像实时分类模块，用于实时获取乳腺病理图像，并输入成熟的分类网络模型，分类网络模型输出分类结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述方法的步骤。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述方法的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明中，在分类网络模型中，同一组卷积中采用卷积核为1*3（或1*5）、卷积核为3*1（或5*1）的两个卷积层，替代原有的卷积核为3*3（或5*5）的卷积层；将卷积层设置为非对称卷积，并用于逼近现有的正方形卷积以进行模型压缩和加速，可大大减少网络的参数量，减少模型的计算量，增加模型的判别能力；另外，由于模型的计算量减少，可以将模型部署在对终端计算能力要求没那么高的终端，降低对终端的计算能力要求。

2、本发明中，因为从二维图形到全连接层（一维图形），空间上会存在特征损失；而在分类网络模型中，最后一组结构中仅设置有两层卷积层、一层最大池化层，没有设置Dropout层，如果照常设置Dropout层将会因设置Dropout层对二维图像进行随机消除参数并影响最后的分类准确性；所以，本申请的分类网络模型的最后一组结构中将不再设置Dropout层，这样可提高模型的分类准确性。

3、本发明中，利用正则化将Dropout层的参数从传统的0.5依次调整为0.3、0.4、0.5、0.6、0.7，分类网络模型能够得到更加合适的感受野，有效避免分类网络模型产生过拟合现象。

附图说明

图1是本发明的流程示意图；

图2是本发明中分类网络模型的结构示意图。

具体实施方式

下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。

实施例1

本实施例提供一种乳腺病理图像识别分类方法，用于对乳腺图像进行识别分类，得出该乳腺产生图像是否存在癌症的分类结果。如图1所示，其具体包括以下步骤：

步骤S1，获取图像样本数据

获取乳腺病理图像样本数据，并对乳腺病理图像样本数据进行标注，得到标签数据。

该乳腺病理图像来自于成都市肿瘤医院（也称为：成都市第七人民医院），其共计包括750张图像。这750张乳腺病理图像都含有标签数据，若标签数据为0，则表示该图像为乳腺癌图像；若标签数据为1，则表示该图像正常。

将上述750张样本图像按照8:2分为训练集、测试集，其中训练接共计有600张、测试集共计有150张。

对上述样本数据进行预处理，采用翻转、旋转以及颜色抖动三种预处理，进行数据增强，将样本数据由原始的750张增强到3000张。然后，将样本图像调整成50*50大小，然后进行训练。

此外，由于样本图像输入卷积层，通过卷积核进行卷积后样本图像会损失部分值，尤其是样本图像的边缘被“剪切”掉（边缘处只检测了部分像素点，丢失了图片边界处的众多信息）。这是因为边缘上的像素永远不会位于卷积核中心，而卷积核也没法扩展到边缘区域以外。为解决这个问题，本实施例在进行卷积操作前，对样本图像的原矩阵进行边界填充处理，也就是在矩阵的边界上填充一些值，以增加矩阵的大小，通常都用“0”来进行填充的。

步骤S2，搭建分类网络模型

如图2所示，该分类网络模型包括依次设置的卷积核为1*3的第一卷积层、卷积核为3*1的第二卷积层、第一最大池化层；第一最大池化层的输出经卷积核为1*1的第三卷积层后输入第二Dropout层，第一最大池化层的输出还依次经第一Dropout层、卷积核为5*1的第七卷积层、卷积核为1*5的第八卷积层、第三最大池化层后输入第四Dropout层；第二Dropout层与第四Dropout层的输出相加后依次经卷积核为1*3的第四卷积层、卷积核为3*1的第五卷积层、第二最大池化层、卷积核为1*1的第六卷积层后输入第三Dropout层；第三Dropout层、第四Dropout层的输出相加后依次经卷积核为5*1的第九卷积层、卷积核为1*5的第十卷积层、第四最大池化层后输入第五Dropout层；第三Dropout层、第五Dropout层的输出相加后依次经卷积核为1*3的第十一卷积层、卷积核为3*1的第十二卷积层、第五最大池化层、全连接层后输入Softmax层，Softmax层的输出即为分类网络模型的输出。

对于传统卷积核：如果输入图像是正方形，尺寸为W*W，卷积核尺寸为F*F，步幅为S，Padding使用P；那么，经过该卷积层后输出的特征图尺寸为N*N：

而对于本申请的非对称卷积核：非对称卷积通常用于逼近现有的正方形卷积以进行模型压缩和加速，将标准的d*d卷积分解为1*d和d*1卷积，以减少参数量，具体为：如果二维卷积核的秩为1，则运算可等价地转换为一系列一维卷积；输入图像是正方形，设输入图像尺寸为W*W，卷积核尺寸为E*F，步幅为S，Padding为P，卷积后的特征图尺寸为：

先进行一次n×1卷积，再进行一次1×n卷积，和直接进行n×n卷积的结果是一致的，但乘法运算的规模从n×n变成了2×n——所以n越大，非对称卷积降低运算量的效果越明显。

此外，分类网络模型中，第一Dropout层、第二Dropout层、第四Dropout层、第三Dropout层和第五Dropout层的参数分别为0.3、0.4、0.5、0.6、0.7。

利用正则化将Dropout层的参数从传统的0.5依次调整为0.3、0.5、0.7，从而得到更合适的感受野同时可以避免过拟合。

步骤S3，训练分类网络模型

采用乳腺病理图像样本数据及标签数据，对分类网络模型进行训练，得到成熟的分类网络模型。

在训练分类网络模型时，采用交叉熵函数作为损失函数，函数为：

训练时，Adam优化器中各参数：

keras.optimizers.Adam(lr=0.001,beta_1=0.9,beta_2=0.999,epsilon=None,decay=0.0,amsgrad=0)

lr:学习率

beta_1:0到1之间，一般接近于1

beta_2:0到1之间，一般接近于1，和beta_1一样，使用默认的就好

epsilon:模糊因子，如果为空，默认为k.epsilon()

decay:每次参数更新后学习率的衰减值（每次更新时学习率下降）

amsgrad:布尔型，是否使用AMSGrad变体。

步骤S4，乳腺图像实时分类

实施例2

本实施例提供一种乳腺病理图像识别分类系统，用于对乳腺图像进行识别分类，得出该乳腺产生图像是否存在癌症的分类结果。其具体包括：

图像样本数据获取模块，用于获取乳腺病理图像样本数据，并对乳腺病理图像样本数据进行标注，得到标签数据。

分类网络模型搭建模块，用于搭建分类网络模型，分类网络模型包括依次设置的卷积核为1*3的第一卷积层、卷积核为3*1的第二卷积层、第一最大池化层；第一最大池化层的输出经卷积核为1*1的第三卷积层后输入第二Dropout层，第一最大池化层的输出还依次经第一Dropout层、卷积核为5*1的第七卷积层、卷积核为1*5的第八卷积层、第三最大池化层后输入第四Dropout层；第二Dropout层与第四Dropout层的输出相加后依次经卷积核为1*3的第四卷积层、卷积核为3*1的第五卷积层、第二最大池化层、卷积核为1*1的第六卷积层后输入第三Dropout层；第三Dropout层、第四Dropout层的输出相加后依次经卷积核为5*1的第九卷积层、卷积核为1*5的第十卷积层、第四最大池化层后输入第五Dropout层；第三Dropout层、第五Dropout层的输出相加后依次经卷积核为1*3的第十一卷积层、卷积核为3*1的第十二卷积层、第五最大池化层、全连接层后输入Softmax层，Softmax层的输出即为分类网络模型的输出。

分类网络模型训练模块，用于采用乳腺病理图像样本数据及标签数据，对分类网络模型进行训练，得到成熟的分类网络模型。

训练时，Adam优化器中各参数：

lr:学习率

beta_1:0到1之间，一般接近于1

beta_2:0到1之间，一般接近于1，和beta_1一样，使用默认的就好

epsilon:模糊因子，如果为空，默认为k.epsilon()

amsgrad:布尔型，是否使用AMSGrad变体。

实施例3

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行乳腺病理图像识别分类方法的步骤。

其中，所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器可以是所述计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，所述存储器也可以是所述计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(SmartMediaCard，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(FlashCard)等。当然，所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中，所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件，例如所述乳腺病理图像识别分类方法的程序代码等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器在一些实施例中可以是中央处理器(CentralProcessingUnit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的程序代码或者处理数据，例如运行所述乳腺病理图像识别分类方法的程序代码。

实施例4

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行乳腺病理图像识别分类方法的步骤。

其中，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的乳腺病理图像识别分类方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器或者网络设备等)执行本申请实施例所述乳腺病理图像识别分类方法。

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种乳腺病理图像识别分类方法，其特征在于，包括以下步骤：

步骤S1，获取图像样本数据

步骤S2，搭建分类网络模型

步骤S3，训练分类网络模型

步骤S4，乳腺图像实时分类

2.如权利要求1所述的一种乳腺病理图像识别分类方法，其特征在于：步骤S1中，对获取乳腺病理图像样本数据进行预处理，预处理包括翻转、旋转以及颜色抖动。

3.如权利要求1所述的一种乳腺病理图像识别分类方法，其特征在于：步骤S2的分类网络模型中，第一Dropout层、第二Dropout层、第四Dropout层、第三Dropout层和第五Dropout层的参数分别为0.3、0.4、0.5、0.6、0.7。

4.如权利要求1所述的一种乳腺病理图像识别分类方法，其特征在于：步骤S3在训练分类网络模型时，采用交叉熵函数作为损失函数，函数为：

5.一种乳腺病理图像识别分类系统，其特征在于，包括：

6.一种计算机设备，其特征在于：包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其特征在于：存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。