CN114821067A

CN114821067A - 基于点标注数据的病理图像分割方法

Info

Publication number: CN114821067A
Application number: CN202210569641.3A
Authority: CN
Inventors: 韩冰; 高路; 杨铮; 陈玮铭; 黄晓悦
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-07-29
Anticipated expiration: 2042-05-24

Abstract

本发明公开了一种基于点标注数据的病理图像分割方法。主要解决现有训练数据需要的像素级标注成本太高的问题。其方案是：读取病理图像训练集和测试集；建立基于编码器‑解码器结构的分割网络；将训练集图像输入到分割网络的编码器中，保留各层特征并将末层特征通过输出层得到分割结果，将训练集图像对应的点标注图像进行膨胀后作为监督信息训练编码器；固定编码器参数并将编码器网络提取到的各层特征输入到解码器中，使用上一训练阶段中的分割结果与膨胀后的点标注图像作为监督信息迭代地训练解码器，得到训练好的分割网络；将待分割病理图像输入到训练好的分割网络中得到分割结果。本发明提高了分割效率和精度，可用于计算机辅助诊断系统。

Description

基于点标注数据的病理图像分割方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种病理图像分割方法，可用于计算机辅助诊断系统。

背景技术

癌症的诊断一般需要经过临床诊断、影像诊断、手术诊断、细胞病理学诊断、组织病理学诊断五个步骤，其中组织病理学诊断是最精确的也是最可靠最终诊断。而组织病理学诊断通常是病理学家通过观察组织病理切片来确定癌症的类型、癌症的阶段、癌症的等级和后续治疗方案。这种传统的诊断方法，依赖于病理医生的临床经验，而且往往因为大量阅片导致疲劳，从而影响到诊断结果。

随着计算机视觉技术的发展和计算硬件的计算能力的巨大提升，使用计算机对病理图像进行自动化分析成为可能。与人工检查相比，使用计算机自动化分析技术来辅助诊断可以极大减少病理医师的劳动强度，提高工作效率。

近年来，作为病理图像自动化分析技术的关键步骤，医学图像分割技术已经受到了广泛的关注，有很多算法用于医学图像分割分割。传统的分割算法如阈值分割、分水岭、主动轮廓等，这些算法由于对像素值的敏感性以及病理图像的复杂性，使得在提取图像特征时受到较大干扰，因此有很大的提升空间。相比之下基于卷积神经网络的算法在医学图像分割中表现优异。

卷积神经网络对医学图像分割具有很强的适应性，但分割效果严重依赖于具有高质量像素级标注的训练数据。像素级标注是对目标轮廓进行逐像素的标记，人工地对数据进行像素级标注需要极大地精力投入和时间花费，尤其是在需要相关的领域知识的医学图像分析领域。如果使用点标注的方式，即每个目标只标注一个或多个像素点，虽然可以使用很低的人工成本快速地标注大量的数据。但是相比于像素级标注，点标注提供的目标信息有限，只有目标的位置信息，而没有大小、形状这些关键的外观特征。这种关键训练信息的缺失将导致训练出的分割网络不能分割出目标的全部区域，影响后续的自动化分析结果，很可能造成诊断错误从而发生医疗事故。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于点标注数据的细胞核分割方法，以通过分割网络中编码器和解码器分别训练，使得训练后的网络能从病理图像中获取到细胞核的位置、大小及形状这些外观特征，降低数据标注阶段所需要的工作量，实现对细胞核的准确分割。

为实现上述目的，本发明的技术方案是：首先通过点标注数据提供的目标位置信息单独地训练编码器，然后将编码器的权值固定，再迭代地训练解码器，使解码器能根据编码器提供的特征解码出目标的位置、大小和形状等信息。训练结束后将训练好的编码器和解码器可以拼接成一个端到端的分割网络。具体实现包括如下：

(1)读取病理图像训练数据和测试数据，并对训练集图像中的细胞核先使用点标注，再对点标注进行膨胀操作获得细胞核更多部分的标签，得到膨胀后的点标注图像G；对测试集图像中的细胞核使用像素级标注，得到像素级标注图像G_test；

(2)将经典分割模型U-Net的编码部分替换为使用大型图像数据库ImageNet上的预训练参数，并去掉全连接层的卷积神经网络VGG-16，得到新建分割模型；

(3)训练新建分割模型的编码器：

3a)根据二元交叉熵损失函数设置分割模型编码器的损失函数L₁：

L₁＝L_BCE(P₁,G)

其中，L_BCE(·)代表二元交叉损失函数，P₁代表训练集图像的初步预测结果，G代表点标注图像；

3b)将训练集图像输入到新建分割模型的编码器中，得到各层图像特征，其中最高层特征经过一个卷积核尺寸为1*1的卷积层，得到单通道图像，再使用双线性上采样恢复到输入图像的尺寸得到训练集图像的初步预测结果P₁；

3c)使用损失函数L₁对分割网络的编码部分进行监督训练，直至损失函数L₁收敛，得到训练好的编码器；

(4)训练新建分割模型的解码器：

4a)构建新的损失函数L_n：

L_n＝(G∪P_n-1>0.7+G∪P_n-1<0.3)×L_BCE[P_n,(G∪P_n-1)]

其中，P_n是本次训练阶段训练集图像的预测结果，n代表当前所处阶段且n>1，G是点标注图像，P_n-1是上个阶段的预测结果，L_BCE(·)代表二元交叉损失函数；

4b)将训练集图像输入到已经训练好的编码器中，得到各层图像特征，再将各层特征输入到解码器中，解码器输出单通道图像，即为训练集图像的当前预测结果P_n；

4c)固定编码器参数，使用损失函数L_n对分割网络的解码部分进行监督训练，直至损失函数L_n收敛，得到当前的分割模型M_n；

4d)将测试集图像输入到当前的分割模型M_n中得到的测试集图像的预测结果P_test，计算当前阶段P_test与像素级标注图像G_test的Dice相似系数d_n，并将本阶段得到的Dice相似系数d_n与上个阶段得到的Dice相似系数d_n-1进行比较：

如果d_n≥d_n-1，则保存当前模型参数，返回到步骤4b)开启第n+1个训练阶段；

否则，训练结束，将第n-1阶段得到的分割模型M_n-1作为最终的细胞核分割模型；

(5)将待分割图像输入到细胞核分割模型中，分割模型输出与输入图像相同尺寸的单通道二值图像，在二值图中，所有值为1的像素组成的区域即为分割出来的目标区域，所有值为0的像素组成的区域为分割出来的背景区域。

本发明与现有技术相比，具有以下优点：

1)本发明能够使用点标注数据训练一个完整的分割模型，相比于像素级标注，极大减少了数据标注阶段所需要的工作量；

2)本发明针对分割网络的各部分功能的独特性，先训练编码器的特征提取能力，再迭代地训练解码器的特征解读能力，可使得训练后的网络能从病理图像中获取到细胞核的位置、大小及形状这些外观特征，提高分割网络的分割效果。

附图说明

图1是本发明的实现流程图；

图2是本发明中训练分割模型的示意图；

图3是用本发明对甲状腺病理图像中细胞核分割的效果图。

具体实施方式

以下结合附图对本发明的实施例及效果做进一步描述。

参照图1和图2，本实例的实施步骤如下；

步骤1，读取基于点标注的病理图像训练集和测试集。

读取病理图像训练集和测试集，其中：训练集中包含若干病理图像和与病理图像一一对应的点标注图像，所有被标记的像素位置的值为1，其它位置的像素值为0；测试集中包含若干病理图像和与病理图像一一对应的像素级标注图像G_test；

在读取点标注图像后按照预设比例将点标注图像中的部分标注像素置0；

对经过上述处理的点标注图像进行膨胀操作，按如下公式进行：

其中，A代表被膨胀的图像，B代表所有元素值为1的5*5矩阵，

代表使用B膨胀A，x,y代表矩阵B在图像A上滑动时所处的坐标，

代表空集。

可得到膨胀后的点标注图像G。

步骤2，构建基于编码器解码器结构的分割模型。

在经典的基于编码器解码器结构的分割模型U-Net的基础上，将编码部分替换为去掉全连接层的卷积神经网络VGG-16，并使用大型图像数据库ImageNet上的预训练参数作为编码器的初始参数，得到新建分割模型，结构如下：

编码器分为5层，第一层包含两个3*3卷积，第二层包含一个最大池化和两个3*3卷积，第三层到第五层都是包含一个最大池化，两个3*3卷积和一个1*1卷积，图像从第一层输入后，每一层都会输出一个特征图；

解码器与U-Net相同，共有四层，且与编码器的前四层一一对应，解码器的每一层包含一个上采样和两个3*3卷积，输入的特征图经过上采样后与编码器相对应层传递的特征图进行拼接，拼接后的特征图经过两次卷积得到一个特征图，解码器前三层得到的特征图输入到下一层中，解码器末层得到的特征经过一个1*1卷积后输出结果。

步骤3，对新建分割模型进行训练。

参照图2，本步骤的具体实现如下：

3.1)训练新建分割模型的编码器：

3.1.1)构建损失函数L₁：

L₁＝L_BCE(P₁,G)

其中，P₁代表训练集图像的初步预测结果，G代表点标注图像，L_BCE(·)代表二元交叉损失函数，二元交叉损失函数定义为：

其中，

和y_i分别表示同尺寸的两个图像

和Y中第i个像素的值，N表示Y中的像素数量；

3.1.2)将训练集图像输入到编码器中，得到各层图像特征，其中最高层特征经过一个卷积核尺寸为1*1的卷积层，得到单通道图像，再使用双线性上采样恢复到输入图像的尺寸得到训练集图像的初步预测结果P₁；

3.1.3)使用损失函数L₁对分割网络的编码部分进行监督训练：

3.1.3.1)设置训练参数：批处理尺寸为4，优化器使用Adam，初始学习率设置为0.0001；

3.1.3.2)将训练集数据分为若干批次，每个批次包含4个样本；

3.1.3.3)将一个批次的4个样本一起输入到解码器中得到该批次的预测结果，使用Adam优化器根据损失函数L₁计算的损失值，更新编码器参数；

3.1.3.4)将所有批次迭代地进行3.1.3.3)中的过程更新编码器参数，直至损失函数L₁收敛，得到训练好的编码器。

3.2)训练新建分割模型的解码器：

3.2.1)构建新的损失函数L_n：

3.2.1.1)将第n-1阶段训练集的预测结果P_n-1与点标注图像G相并后共同作为第n阶段的监督图像；

3.2.1.2)使用二元交叉熵损失函数L_BCE(·)计算监督图像与第n阶段训练集的预测结果P_n的损失；

3.2.1.3)根据监督图像中的像素值大小划分置信区域，将值大于0.7的像素划分为高置信度前景区域，值小于0.3的像素划分为高置信度背景区域，其它像素归为低置信度区域；

3.2.1.4)保留高置信度区域内计算得到的损失值，将低置信度区域内计算得到的损失值置为0，构建出损失函数L_n：

L_n＝(G∪P_n-1>0.7+G∪P_n-1<0.3)*L_BCE[P_n,(G∪P_n-1)]

3.2.2)将训练集图像输入到已经训练好的编码器中，得到各层图像特征，再将各层特征输入到解码器中，解码器输出单通道图像，即为训练集图像的当前预测结果P_n；

3.2.3)固定编码器参数，使用损失函数L_n对分割网络的解码部分进行监督训练：

3.2.3.1)设置批处理尺寸为4，优化器使用Adam，初始学习率为0.0001；

3.2.3.2)将训练集数据分为若干批次，每个批次包含4个样本；

3.2.3.3)将一个批次的4个样本一起输入到分割网络中得到该批次的预测结果，使用Adam优化器根据损失函数L_n计算的损失值，更新解码器参数；

3.2.3.4)将所有批次迭代地进行3.2.3.3)中的过程，更新解码器参数直至损失函数L_n收敛，得到当前的分割模型M_n；

3.2.4)将测试集图像输入到当前的分割模型M_n中，得到测试集图像的预测结果P_test，计算当前阶段P_test与像素级标注图像G_test的Dice相似系数d_n:

其中，n表示当前所处阶段，p_i和g_i分别表示图像P_test与图像G_test的第i个像素的值，p_j和g_j分别表示图像P_test与图像G_test的第j个像素的值，N表示G_test中的像素数量；

3.2.5)将本阶段得到的Dice相似系数d_n与上个阶段得到的Dice相似系数d_n-1进行比较：

如果d_n≥d_n-1，则保存当前模型参数，返回到步骤3.2)开启第n+1个训练阶段；

否则，训练结束，将第n-1阶段得到的分割模型M_n-1作为最终的细胞核分割模型。

步骤5，将待分割细胞核图像输入到细胞核分割模型中，分割模型输出与输入图像相同尺寸的单通道二值图像，在二值图中，由所有值为1的像素组成的区域即为分割出来的目标区域，由所有值为0的像素组成的区域为分割出来的背景区域，完成对病理图像的分割。

本发明的效果可以通过以下实验进一步说明。

一、实验条件：

所用计算机处理器为Intel(R)Core(TM)i7 CPU@3.5GHz，运行内存128G，显卡为一块显存为12GB的NVIDIA TITAN X GPU。操作系统为64为Ubuntu 20.04，使用的深度学习框架为PyTorch(版本1.1.0)。所有的网络训练均采用反向传播算法计算各层残差，并使用带有动能项和权重衰减项的随机梯度下降算法更新网络参数。

评价指标：Dice相似系数，像素精确率PA。

二、实验内容：

实验1：在上述实验条件下使用本发明方法对分割网络进行训练，使用的训练数据中每个细胞核中都有一个像素点被标记，标注比例为100％，并用上述评价指标对各个训练阶段得到的分割模型的分割效果进行评价，评价结果如表1所示。

表1各个阶段的测试结果

训练阶段	Dice(％)	PA(％)
			1	68.91	86.72
2	74.58	87.13
			3	76.63	87.41
4	78.52	89.90
			5	80.10	88.57
6	79.94	91.02
			7	80.08	89.34
……	……	……

从表1中展示的结果可以看到，随着训练迭代次数的增加，Dice相似系数和像素精确率会逐渐增大。直到第5阶段后即第五次迭代后，Dice会在80％左右波动，像素精确率在90％左右波动。表明使用本发明的方法可以得到一个有效的分割网络。

实验2：使用不同标注比例的训练数据对分割网络进行训练，得到的实验结果如表2所示。

表2不同标注比例下的分割结果对比

标注比例	Dice(％)	PA(％)	所处阶段
				0％	30.43	53.61	20
5％	30.92	56.35	20
				10％	50.14	75.22	15
20％	61.15	86.13	15
				30％	63.31	86.77	10
40％	71.83	87.56	8
				50％	73.51	87.94	8
70％	78.29	88.21	6
				90％	80.25	88.90	6
100％	80.10	88.57	5

从表2中展示的结果可以看出，当标注比例不断变小时，Dice相似系数和像素精确率PA也会随之下降，达到最好分割效果时所处的阶段也越靠后。当细胞核标注比例为90％时，与100％标注时的结果相差无几，没有影响到训练的正常进行。当细胞核标注比例为70％到20％之间时，Dice相似系数会随着标注比例的下降而下降，说明影响到了训练过程，最终得到的分割模型对细胞核的分割能力有所下降；而像素精确率变化不大，说明分割模型仍可以正确地分割出大部分背景。当细胞核标注比例为10％时，无论是Dice相似系数还是像素精确率都有了大幅度地降低，说明已经极大地影响了分割模型地训练。细胞核标注比例下降到5％和0％时，Dice相似系数已经下降到了30％左右，像素精确率也下降到50％到60％之间，说明此时已经无法分割出目标，在这个比例下无法成功地训练分割网络。

不同细胞核标注比例下的分割结果如图3中所示，图3中展示了5％，10％，30％，50％，70％，100％共6种标注比例下的分割结果。从图3可以看出，当标注比例为5％时，不能有效地训练分割网络；当标注比例为10％时，只能使网络分割出非常明显的目标，对于内容复杂的图像仍无法分割；当标注比例超过30％后，网络能够分割出大部分细胞核，但分割颜色较浅的细胞核还是比较困难，但这一情况会随着标注比例的增大而有所改善。

Claims

1.基于点标注数据的病理图像分割方法，其特征在于，包括如下步骤：

(3)训练新建分割模型的编码器：

L₁＝L_BCE(P₁,G)

(4)训练新建分割模型的解码器：

4a)构建新的损失函数L_n：

L_n＝(G∪P_n-1>0.7+G∪P_n-1<0.3)×L_BCE[P_n,(G∪P_n-1)]

(5)将待分割细胞核图像输入到细胞核分割模型中，分割模型输出与输入图像相同尺寸的单通道二值图像，在二值图中，所有值为1的像素组成的区域即为分割出来的目标区域，所有值为0的像素组成的区域为分割出来的背景区域。

2.根据权利要求1所述的方法，其中步骤(1)中的对点标注进行膨胀操作，按如下公式进行：

其中，A代表被膨胀的图像，B代表所有元素值为1的5*5矩阵，

代表使用B膨胀A，x,y代表矩阵B在图像A上滑动时所处的坐标，

代表空集。

3.根据权利要求1所述的方法，其中步骤(2)中的新建分割模型包括编码器和解码器两部分，结构如下：

编码器部分使用去掉全连接层的VGG-16，其分为5层，第一层包含两个3*3卷积，第二层包含一个最大池化和两个3*3卷积，第三层到第五层都是包含一个最大池化，两个3*3卷积和一个1*1卷积，图像从第一层输入后，每一层都会输出一个特征图；

解码器部分共有四层，且与编码器的前四层一一对应，解码器的每一层包含一个上采样和两个3*3卷积，输入的特征图经过上采样后与编码器相对应层传递的特征图进行拼接，拼接后的特征图经过两次卷积得到一个特征图，解码器前三层得到的特征图输入到下一层中，解码器末层得到的特征经过一个1*1卷积后输出结果。

4.根据权利要求1所述的方法，其中步骤3a)中的二元交叉熵损失函数，表示如下：

其中，

和y_i分别表示同尺寸的两个图像

和Y中第i个像素的值，N表示Y中的像素数量。

5.根据权利要求1所述的方法，其中，步骤3c)中使用损失函数L₁对分割网络的编码部分进行监督训练，实现如下：

3c1)设置训练参数：批处理尺寸为4，优化器使用Adam，初始学习率设置为0.0001；

3c2)将训练集数据分为若干批次，每个批次包含4个样本；

3c3)将一个批次的4个样本一起输入到解码器中得到该批次的预测结果，使用Adam优化器根据损失函数L₁计算的损失值，更新编码器参数；

3c4)将所有批次迭代地进行3c3)中的过程更新编码器参数，直至损失函数L₁收敛，得到训练好的编码器。

6.根据权利要求1所述的方法，其中步骤4a)中构建新的损失函数L_n，实现如下：

4a1)将第n-1阶段训练集的预测结果P_n-1与点标注图像G相并后共同作为第n阶段的监督图像；

4a2)使用二元交叉熵损失函数L_BCE(·)计算监督图像与第n阶段训练集的预测结果P_n的损失；

4a3)根据监督图像中的像素值大小划分置信区域，将值大于0.7的像素划分为高置信度前景区域，值小于0.3的像素划分为高置信度背景区域，其它像素归为低置信度区域；

4a4)保留高置信度区域内计算得到的损失值，将低置信度区域内计算得到的损失值置为0，构建出损失函数L_n：

L_n＝(G∪P_n-1>0.7+G∪P_n-1<0.3)×L_BCE[P_n,(G∪P_n-1)]。

7.根据权利要求1所述的方法，其中，步骤4d)中使用损失函数L₁对分割网络的解码部分进行监督训练，实现如下：

4d1)设置训练参数：批处理尺寸为4，优化器使用Adam，初始学习率设置为0.0001；

4d2)将训练集数据分为若干批次，每个批次包含4个样本；

4d3)将一个批次的4个样本一起输入到分割网络中得到该批次的预测结果，使用Adam优化器根据损失函数L_n计算的损失值，更新解码器参数；

4d4)将所有批次迭代地进行4d3)中的过程，更新解码器参数直至损失函数L_n收敛，得到训练好的解码器。