CN112884737B

CN112884737B - 基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法

Info

Publication number: CN112884737B
Application number: CN202110183836.XA
Authority: CN
Inventors: 刘娟; 陈玉琦; 冯晶
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-07-19
Anticipated expiration: 2041-02-08
Also published as: CN112884737A

Abstract

本发明公开了一种基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法，含步骤：S1：筛选有丝分裂与非有丝分裂候选集；S2：对训练集中的有丝分裂候选集进行数据增强；S3：搭建深度神经网络模型，随机初始化参数；S4：将S2的训练集放入S3搭建的模型中L轮训练，保存验证集F1值最高一轮的值及参数；S5：将前一步保存的参数作为初始化参数重新放入S3搭建的模型中再次训练L轮，保存该次最高的F1值及参数；S6:比较前两步保存的F1值，若后者提高，重复S5，直至验证集中F1值不再提高。本发明实现了高准确性的乳腺癌组织病理图像中有丝分裂自动检测功能，辅助病理医生对病人快速诊断。

Description

基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法

技术领域

本发明涉及深度学习模型在医学图像分析中的应用技术领域，具体涉及一种基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法。

背景技术

癌症到目前为止仍然是人类尚未攻克的世界难题，根据世界卫生组织(WorldHealth Organization,WHO)国际癌症研究机构(International Agency for Research onCancer,IARC)法国里昂总部与美国癌症学会亚特兰大总部的全球癌症(GLOBOCAN)统计报告显示，癌症的发病率近年来依然逐渐增加，而乳腺癌的发病率占所有癌症的11.6％，位于第二位。乳腺癌99％发生在女性中，根据国际癌症研究中心2018年公布的数据显示，乳腺癌的发病率在女性癌症中已从原来的第二升至第一的位置，并且发病率一直在不断增加。由此可见乳腺癌已经成为危害女性健康的重要因素，针对乳腺癌诊断的研究任务刻不容缓。

在临床上，乳腺癌的诊断方式一般有x光检查、超声检测、红外线检测、病理检查等，而病理检查是公认的诊断癌症的金标准。在病理检查中，病理医生对乳腺癌进行分类分级，分类实现肿瘤类型的确定，分级可明确乳腺癌的分化程度，根据分级的结果确定患者的治疗方案。目前临床上主要根据世界卫生组织推荐的诺丁汉分级系统(Nottinghamgrading system)进行乳腺癌病理分级，诺丁汉分级系统中根据腺管的形成、细胞核多样性以及有丝分裂的个数进行1～3的分值打分，按总分3～9分的幅度分为I、II、Ⅲ等级，分级越高，分化越低，恶性程度越高，预后越差。因为癌细胞的增殖是通过细胞的大量有丝分裂会使癌细胞实现的，因此有丝分裂的记数成为评定肿瘤分级的重要依据。组织病理图像是医生通过活检取材、切片，然后用苏木精-伊红染色法(hematoxylin-eosin staining)对切片进行染色制作而成，其中苏木精将细胞核内的染色质与胞质内的核酸着紫蓝色，伊红将细胞质和细胞外基质中的成分着红色。病理医生通过在40倍高视野的区域下对有丝分裂进行人工计数，这是非常耗时耗力的一项工作，长时间的阅片会影响医生对图片结果的判断。数字病理的出现为计算机技术应用到病理图像中提供了契机借助计算机技术研究开发一套有丝分裂自动检测方法对能使病理医生使从人工阅片的工作中解放出来，辅助病理医生快速诊断。

近年来，深度学习技术在图像方面取到非常好的应用效果，特别是应用到自然图像中，但医学图像与自然图像相比，医学图像具有更困难的区分难度，对于旨在统计有丝分裂数量的病理图像而言更是如此。首先，有丝分裂分为前期、中期、后期、末期四个阶段，每个阶段都有不一样的形状；其次，由于有丝分裂具有生物多变性，在大多数情况下，发生有丝分裂的细胞核与没有发生有丝分裂的细胞核在外观上非常相似，难于区分。再次，在有丝分裂后期，有丝分裂的细胞核分为两部分，但并没有分为两个细胞，该种情况应判断为一个有丝分裂。最后，组织病理图像的染色与制作等不同也使得有丝分裂的检测困难。基于上述种种困难，目前深度学习在乳腺癌组织病理图像中的有丝分裂检测效果仍有比较大的进步空间。

发明内容

本发明针对上述背景技术中存在的现有乳腺癌有丝分裂图像中自动检测方法准确率不高的问题，在深度学习的基础上进行了改进，提出了一种基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法。该方法可以实现对组织病理图像中有丝分裂进行自动检测，不仅能减轻病理医生的工作负担，为医生提供一个客观的诊断结果，更是为病人争取更早的治疗时间。

为实现乳腺癌的有丝分裂自动检测任务，本发明提供的基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法，包含以下步骤：

S1：从乳腺癌组织病理图像的高视野区域(high power field,HPF)中筛选出有丝分裂与非有丝分裂候选集；

S2：利用数据增强技术对训练集中的有丝分裂候选集进行数据增强，使增加训练集中有丝分裂的数据量；

S3：搭建深度神经网络分类模型，记为模型A，随机初始化模型A的参数；

S4：为训练模型A指定训练轮数L，将步骤S2中训练集放入步骤S3中搭建的深度神经网络中进行训练，保存验证集中F1值最高一轮的值及参数；

S5：再次进行模型A的训练，指定相同的轮数L，将前一步保存的参数作为初始化参数重新放入步骤S3搭建的深度神经网络中再次进行L轮的训练，保存该次训练中验证集最高的F1值及参数；

S6：将步骤S5保存的F1值与步骤S4中保存的F1值进行比较，如果F1值没有提高，则停止训练；如果F1值提高，则重复进行步骤S5，直至验证集中F1值不再提高。

所述有丝分裂检测方法是将其作为一种分类任务实现有丝分裂检测的功能，具体是将图像中的细胞核分为发生有丝分裂和没有发生有丝分裂这两类，从而实现检测有丝分裂的功能。

所述形成候选集，将乳腺癌病理图像以细胞定位技术定位出细胞核中心坐标，以中心坐标为中心，G为长度进行切片，形成有丝分裂和非有丝分裂候选集；

所述细胞核定位技术，主要思想为通过颜色去卷积的方法实现颜色空间的转换，空间转换后根据特定染色剂的吸光率，计算每种染色剂的贡献，从而实现定位细胞核的目的。包含如下主要步骤：

1、将图像的RGB颜色空间转化为Haematoxylin-Eosin-DAB(HED)颜色通道；

经过染色的组织病理图像是基于组织结构在不同染色剂下光的吸收程度不同的原理制作而成的，其吸收度和染色剂之间满足比尔朗伯定律(Beer-Lambert Law,BLL)，其公式为

I_C＝I_0,Cexp(-A·c_C)；

其中下标C表示通道，I_0,C表示入射光强度，I_C通过样本后的通道为C的光强度，A表示染色剂的量，c_C表示某种染色依赖于该通道的吸收系数；

在光学密度空间(Optical Density,OD)中分离不同颜色的染色分量，计算RGB每个颜色通道光学密度的公式为：

OD_C＝-log₁₀(I_C/I_0,C)＝A*c_C；

每种染色剂在R、G、B三个通道有相应的光学密度值，用3*1的OD向量表示。三种混合染色的颜色系统记为：

每一行对应每种染色剂，每一列对应每种染色剂分别在R、G、B通道下的光密度，称这个矩阵为OD矩阵；对M进行正交变换得到每种染色的独立信息，然后对其标准化得到每种染色正确的吸收系数，对M_t进行正交变换和标准化的矩阵记为M_t；

光学密度向量满足公式y＝CM_t，其中C为1*3的向量，表示某个像素点的三种染色量，y为光学密度向量；计算颜色去卷积矩阵D＝M_t ^-1，根据C＝yD得到每个染色通道的信息；本发明中提取出H通道的信息，该通道的矩阵记为K；

2、对H通道的图像K根据以下公式进行变换

3、对变换后的图像K_t进行二值化处理，细胞核区域置为白色；

4、对二值化后的图像进行腐蚀膨胀，得到连通区域；

5、找到每个白色区域的四个边缘点，以四个边缘点作为矩形框的边缘位置使每个连通区域形成一个矩形框，计算每个矩形框的中心点位置，得到每个细胞核的中心点坐标，这些中心点坐标记为集合Q。

所述的数据增强技术，将训练集中有丝分裂候选集分别进行45°、90°、135°的图像旋转，增加训练集中有丝分裂图片的数量，解决数据不平衡的问题，提高模型的泛化性能。

所述搭建深度神经网络模型，记该模型为模型A，具体结构如下：首先使用ResNet50作为特征提取模块，其中最后一层全连接层的输出维度改为100，后面带着一层激活函数Relu的激活层和一层Dropout函数的线性层，以及一个二分类的线性分类模块。ResNet50的主要思想为使用残差学习，残差学习的目标函数分为两部分：恒等函数(Identity Function)和残差函数(Residue Function)，公式如下：

h(x)＝x+(h(x)-x)；

其中x表示恒等函数。Relu表达形式如下：

f(u)＝max(0,u)；

其中u表示输入的数据。该函数实现所有负值都变为0，而正值不变，意味着同一时间只有部分神经元会被激活，从而使得网络很稀疏，增强计算效率。Dropout函数的作用防止模型过拟合，具体方法为：在前向传播的时候让神经元的激活值以p的概率停止工作。

所述的训练模型A，指定为固定的训练轮数L，损失函数采用交叉熵损失函数，其函数为

其中y表示真实标签，取值为0或1，

表示样本预测为正的概率。预测输出与y相差越大，J值越大。优化器选择的是Adam，该优化器不但使用动量作为参数更新方向，而且可以自适应调整学习率，具体表现在既计算梯度平方g_t ²的指数加权平均，又计算梯度g_t的指数加权平均，相关公式为：

M_t＝β₁M_t-1+(1-β₁)g_t；

G_t＝β₂G_t-1+(1-β₂)g_t⊙g_t；

其中β₁和β₂分别为两个移动平均的衰减率，g_t表示更新的梯度。计算

Adam的参数更新差值为

其中α为学习率。

所述重新训练模型A，其步骤为：将第一个L轮验证集F1值最高一轮的参数作为第二次L轮的初始化参数，用指定上第一个L轮相同的损失函数和优化器，在本次L轮中得到最高一轮的验证集F1值。

与现有的技术相比，本发明的优点及有益效果如下：

1、本发明使用了一个有效的深度神经网络模型用于实现乳腺癌有丝分裂检测的功能，可以有效提取有丝分裂的特征，实现高准确率的分类。

2、本发明使用了一种更为有效的优化方式：利用多级迭代的优化方式，该种优化方式能使得模型优化过程中跳出局部最优点，实现提高分类的性能，从而使有丝分裂的检测能力得到提升。

附图说明

图1是本发明中使用的乳腺癌组织病理图像图的HPT；

图2是本发明中使用的乳腺癌组织病理图像图的HPT；

图3是本发明中部分筛选出来的有丝分裂候选集；

图4是本发明中部分筛选出来的非有丝分裂候选集；

图5是本发明的工作流程图；

图6是本发明中筛选候选集的具体流程；

图7是本发明中多级迭代的具体流程。

具体实施方式

下面结合本发明实施例中的附图1-7，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参照附图1-7，本发明基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法，包括如下步骤：

S2：利用数据增强技术对训练集中的有丝分裂候选集进行数据增强，增加训练集中有丝分裂的数据量；

将乳腺癌病理图像的HPT图切分出有丝分裂与非有丝分裂候选集。对于有丝分裂候选集而言，根据病理医生标注出的有丝分裂细胞核位置，定位该位置的中心坐标，这些中心坐标记为集合A，其中A＝[A₁,A₂,A₃,…,A_n]，n表示有丝分裂细胞核的数量，A_n表示第n个有丝分裂细胞核的中心坐标，以A_n为中心向四周以为32为长度进行切片，形成64*64含有丝分裂细胞核的图像，所有发生有丝分裂细胞核的图像形成有丝分裂候选集；对于非有丝分裂候选集，其细胞核的中心位置是根据细胞核定位技术确定，主要思想为通过颜色去卷积的方法实现颜色空间的转换，空间转换后根据特定染色剂的吸光率，计算每种染色剂的贡献，从而实现定位细胞核的目的。包含如下主要步骤：

I_C＝I_0,Cexp(-A·c_C)；

OD_C＝-log₁₀(I_C/I_0,C)＝A*c_C；

每种染色剂在R、G、B三个通道有相应的光学密度值，用3*1的OD向量表示；三种混合染色的颜色系统记为：

本发明中用苏木精和伊红两种染色剂对组织病理图片进行染色，经过正交变换和标准化的OD矩阵为：

2、对H通道的图像K根据以下公式进行变换

4、对二值化后的图像进行腐蚀膨胀，得到连通区域；

5、找到每个白色区域的四个边缘点，以四个边缘点作为矩形框的边缘位置使每个连通区域形成一个矩形框，计算每个矩形框的中心点位置，得到每个细胞核的中心点坐标，这些中心点坐标记为集合Q；

6、根据集合Q，用与有丝分裂候选集的切割方法相同的方式切割图像，形成非有丝分裂候选集。

步骤S2中将候选集分为训练集、验证集和测试集，将训练集中有丝分裂候选集分别进行45°、90°、135°的图像旋转，增加有丝分裂图片的数量，解决数据不平衡的问题，提高模型的泛化性能。

搭建深度神经网络模型，记该模型为模型A，具体结构如下：首先使用ResNet50作为特征提取模块，其中最后一层全连接层的输出维度改为100，后面带着一层激活函数Relu的激活层和一层Dropout函数的线性层，以及一个二分类的线性分类模块。ResNet50的主要思想为使用残差学习，残差学习的目标函数分为两部分：恒等函数(Identity Function)和残差函数(Residue Function)，公式如下：

h(x)＝x+(h(x)-x)；

其中x表示恒等函数。Relu表达形式如下：

f(u)＝max(0,u)；

其中u表示输入的数据。该函数实现所有负值都变为0，而正值不变，意味着同一时间只有部分神经元会被激活，从而使得网络很稀疏，增强计算效率。Dropout函数的作用防止模型过拟合，具体方法为：在前向传播的时候让神经元的激活值以0.5的概率停止工作。

训练模型，其特征在于为模型A指定训练轮数L，batch size的取值为8，损失函数采用交叉熵损失函数，其函数为

其中y表示真实标签，取值为0或1，

表示样本预测为正的概率。预测输出与y相差越大，J值越大。优化器选择Adam，该优化器的优化方式如下：

M_t＝β₁M_t-1+(1-β₁)g_t；

G_t＝β₂G_t-1+(1-β₂)g_t⊙g_t；

Adam的参数更新差值为

其中α为学习率。学习率设置为0.0001。训练L轮后得到最高F1值一轮的值R1与参数。

重新训练，其特征在于指定相同的轮数L，将步骤S4中保存的参数本次的初始化参数进行训练，再重新进行模型A的训练，得到本次最高F1值一轮的参数和结果R2；

比较R1和R2，其特征在于如果R2>R1，则将再次训练的得到最高F1值的参数重复步骤S5，直到R2<＝R1，保存最高F1值的结果。

针对临床上对乳腺癌组织病理图像有丝分裂检测的任务繁重问题，本发明利用深度学习技术应用到乳腺癌组织病理图像中实现对有丝分裂自动检测。然而目前深度学习所建的模型在检测有丝分裂中准确率不高，针对这个问题，本发明在现在深度学习基础上进行改进，提出一种多级迭代的乳腺癌组织病理图像自动检测方法，该方法对乳腺癌的有丝分裂检测准确率有较大的提升，能实现高精度的有丝分裂自动检测的目的，减轻病理医生的工作负担，为病理医生提高一个客观的检测结果，辅助病理医生快速诊断。表1展示了基于多级迭代与连续迭代两种方式的有丝分裂检测性能比较。

表1连续迭代与多级迭代的性能

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法，其特征在于：该方法将有丝分裂的检测转换为对有丝分裂与非有丝分裂的分类进行实现，包含以下步骤：

S1：从乳腺癌组织病理图像的高视野区域中筛选出有丝分裂与非有丝分裂候选集；

S5：再次进行模型A的训练，指定相同的轮数L，将前一步保存的参数作为初始化参数重新放入步骤S3搭建的深度神经网络中再次进行L轮的训练，保存该次训练中验证集最高的F1值及相关参数；

S6：将步骤S5保存的F1值与步骤S4中保存的F1值进行比较，如果步骤S5的F1值没有提高，则停止训练；如果步骤S5的F1值提高，则重复进行步骤S5，直至步骤S5的验证集中F1值不再提高；

所述步骤S1从乳腺癌组织病理高视野区域图筛选出发生有丝分裂与没有发生有丝分裂的候选集，步骤包含：

利用细胞核定位技术确定细胞核的中心坐标，以中心坐标为中心进行正方块切片，所述切片按照病理医生的标注信息形成有丝分裂和非有丝分裂候选集；

所述细胞核定位技术，步骤包含：

先将组织病理图像的RGB颜色空间转换成HED颜色空间，转换后提取H通道信息进行二值化处理，经过腐蚀膨胀形成的连通区域划定矩形框，以矩形框的中心作为细胞核的中心坐标；

所述步骤S3中深度神经网络分类模型的搭建如下：

所述深度神经网络分类模型，记该模型为模型A，具体结构如下：首先使用ResNet50作为特征提取模块，其中最后一层全连接层的输出维度改为100，后面带着一层激活函数Relu的激活层和一层Dropout函数的线性层，以及一个二分类的线性分类模块；

ResNet50的主要思想为使用残差学习，残差学习的目标函数分为两部分：恒等函数和残差函数，公式如下：

h(x)＝x+(h(x)-x)；

其中x表示恒等函数；

Relu表达形式如下：

f(u)＝max(0,u)；

其中u表示输入的数据；该函数实现所有负值都变为0，而正值不变，意味着同一时间只有部分神经元会被激活，从而使得网络很稀疏，增强计算效率；

Dropout函数的作用防止模型过拟合，具体方法为：在前向传播的时候让神经元的激活值以p的概率停止工作；

所述细胞核定位技术，具体步骤如下：

1)将图像的RGB颜色空间转化为Haematoxylin-Eosin-DAB(HED)颜色通道：

经过染色的组织病理图像是基于组织结构在不同染色剂下光的吸收程度不同的原理制作而成的，其吸收度和染色剂之间满足比尔朗伯定律，其公式为：

I_C＝I_0,Cexp(-A·c_C)；

在光学密度空间中分离不同颜色的染色分量，计算RGB每个颜色通道光学密度的公式为：

OD_C＝-log₁₀(I_C/I_0,C)＝A*c_C；

光学密度向量满足公式y＝CM_t，其中C为1*3的向量，表示某个像素点的三种染色量，y为光学密度向量；计算颜色去卷积矩阵D＝M_t ^-1，根据C＝yD得到每个染色通道的信息；提取出H通道的信息，该通道的矩阵记为K；

2)对H通道的图像K根据以下公式进行变换：

3)对变换后的图像K_t进行二值化处理，细胞核区域置为白色；

4)对二值化后的图像进行腐蚀膨胀，得到连通区域；

5)找到每个白色区域的四个边缘点，以四个边缘点作为矩形框的边缘位置使每个连通区域形成一个矩形框，计算每个矩形框的中心点位置，得到每个细胞核的中心点坐标，这些中心点坐标记为集合Q。

2.根据权利要求1所述基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法，其特征在于：所述步骤S2中将有丝分裂候选集分别进行了45°、90°、135°的图像旋转，增加训练集中有丝分裂候选集的样本数量。

3.根据权利要求2所述基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法，其特征在于：所述步骤S4中所述训练模型A，训练过程中需根据损失函数与梯度下降法寻找模型最优值，损失函数用于量化模型预测与真实标签之间的差异，梯度下降用于寻找一组可以最小化结构风险的参数；所述的损失函数采用交叉熵损失函数，其函数为：

其中y表示真实标签，取值为0或1，

表示样本预测为正的概率；预测输出与y相差越大，J值越大；

梯度下降法采用自适应动量估计算法即Adam，该方法是动量法和RMSprop的结合，不但使用动量作为参数更新方向，而且可以自适应调整学习率；动量法主要思想用积累动量代替每次的实际梯度，有效缓解梯度下降过程中震荡严重影响优化速度，在第t次迭代时，参数的更新方向为：

Δθ_t＝ρΔθ_t-1-αg_t；

其中ρ为动量因子，α为学习率，g_t表示更新的梯度；每个参数的实际更新差值取决于最近一段时间内梯度的加权平均值；Adam不但使用动量作为参数更新方向，而且能自适应调整学习率，具体表现在既计算梯度平方g_t ²的指数加权平均，又计算梯度g_t的指数加权平均，相关公式为：

M_t＝β₁M_t-1+(1-β₁)g_t；

G_t＝β₂G_t-1+(1-β₂)g_t⊙g_t；

其中β₁和β₂分别为两个移动平均的衰减率，g_t表示更新的梯度，计算：

Adam的参数更新差值为：

所述训练过程为：指定训练轮数L，利用Adam优化器进行梯度下降计算，共训练L轮，得到验证集中F1值最高的一轮的参数和结果，记该结果为R1。

4.根据权利要求3所述的基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法，其特征在于：所述步骤S5中指定与前一步中相同的轮数L，损失函数与优化器保持不变，使用前一步保存的参数作为初始化参数，重新训练模型A，保存该次训练中验证集最高F1值一轮的参数和结果，记该轮结果为R2。

5.根据权利要求4所述的基于多级迭代的乳腺癌病理图像中有丝分裂自动检测方法，其特征在于：所述步骤S6中将R1与R2进行比较，如果R2>R1，则将与R2相关的参数作为初始化参数，再重复进行步骤S5，直到R值不再提高。