CN111127471B

CN111127471B - 一种基于双标签损失的胃癌病理切片图像分割方法及系统

Info

Publication number: CN111127471B
Application number: CN201911372932.8A
Authority: CN
Inventors: 吴健; 胡荷萍; 张久成
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-08-29
Anticipated expiration: 2039-12-27
Also published as: CN111127471A

Abstract

本发明公开了一种基于双标签损失的胃癌病理切片图像分割方法及系统，包括：1)利用少量真实胃癌病理切片标注样本进行模型预训练，并基于预训练模型得到未标注切片的预标注；2)将预标注切片交于医生，让医生在此基础上进行标注的修改，得到切片的真实标注；3)基于切片和两种“标注”构建新的损失函数和数据集；4)基于新的数据集和新构造的损失函数进行训练得到新模型；5)通过新模型即可预测得到切片对应的标注图像。本发明解决了实际应用中胃癌病理切片辅助看片效果不佳的问题。

Description

一种基于双标签损失的胃癌病理切片图像分割方法及系统

技术领域

本发明属于医疗图像处理技术领域，具体地说，涉及一种基于双标签损失的胃癌病理切片图像分割方法及系统。

背景技术

随着深度学习技术的迅猛发展，结合深度学习技术进行医疗辅助成为了越来越多的人努力的目标和方向。就目前医院病理切片的查看方式来看，主要利用显微镜人工地慢慢观察整个切片的病变情况，由于整个切片样本很大，而单个视野能观察到的面积则很小，需要先小倍数观察整个切片，再放大倍数不断切换视野观察细节，以此得到整个切片的样本状况。观察完整个样本所要耗费的时间随着样本难度的增加，时间更会大大加长。若能将深度学习技术与病理切片的查看结合起来，为医生提供一个预先的辅助判断，将大大降低其观察切片工作量，更能让医生有足够的时间投入到更为复杂的工作当中。

而如何辅助医生进行切片的查看，我们初始目标可以简化为为医生提供一张切片的感兴趣区域，也就是图像分割的过程。

从理论上来说，深度神经网络中的一个主要大方向就是图像分割，从20世纪初期感知器的提出，到卷积神经网络(LeNet)在90年代末期的首次提出，到2012年深度学习快车的出发，都为图像分割提供了技术基础和发展潜力。传统的处理图像分割的方法是对于待处理图像中的每一点，形成一个图像块，并进行该块的分类而得到该点分割的值，通过遍历整图即可得到整图的分割效果图。该传统方法很好地贯彻执行了图像分割要得到图像中的每个像素点的类别标签的目标，但随着图像的增大，运算量增大，时间急剧增多，且对于目标的分割效果有限。随着全卷积神经网络(FCN)的提出，图像分割成为了一个端到端的编码解码网络，使得输入图像大小等于输出图像大小，则输出即为分割效果图。目前很多改进工作(U-Net，DCAN,GCN等)都是在此基本框架上的优化改进，与传统算法相比，速度更快、效果更好。针对不同的应用场景，我们还需要做的就是要针对不同应用场景克服不同的困难点。

正是由于数字病理切片尺寸很大这一特殊性，在执行模型的时候，我们需要切成固定大小的patch，然后对patch进行分割，最后将所有patch的分割结果拼凑成全切片的分割图。由于各方面的因素，少量标注数据训练得到预训练模型之后，得到的预标注全切片分割图在某种程度上肯定存在一定的瑕疵和错误的地方，但我们先尽可能地逼近医生所标注的真实图像，同时也想加快医生标注的速度，故而先由少量标注数据训练得到的预训练模型产生预标注，再由预标注经医生修改得到真实标注，最后根据两者的区别之处在这些切片上进行模型微调，得到更为准确的结果，其中关键之处就在于如何利用预标注和真实标注图像之间的差异性，并且在损失函数的构造中强调这种差异性，来突出模型对于差异性(难点)区域的学习，如何将这个关键之处构造好，用以提升图像分割的效果是本发明需要解决的问题。

发明内容

本发明针对现有的技术的不足，提供一种基于双标签损失的胃癌病理切片图像分割方法及系统，解决实际应用中胃癌病理切片分割预测不够准确，与真实标注存在差异的问题。

为了实现上述目的，本发明提供一种基于双标签损失的胃癌病理切片图像分割方法，包括以下步骤：

1)扫描胃癌病理切片得到数字病理全切片图像；

2)通过医生标注的少量切片样本的预训练得到预训练模型，并通过预训练模型预测得到未标注切片的预标注；

所述预训练模型可以采用卷积神经网络分割模型，因为训练样本仅有单一标签，因此损失函数可以采用交叉熵损失函数；

3)将未标注切片及其预标注交于医生，让医生在预标注的基础上进行修改，少则补，多则删，错则改，从而获得真实标注的切片样本；

4)基于切片、切片预标注和切片真实标注，对全切片进行patch切割，读取patch图像和分割标注(病变区域的像素值标注为1，非病变区域的像素值标注为0)，并划分训练集和验证集；

5)对训练集进行数据扩充，对训练集和验证集进行数据归一化处理；

6)构建深度卷积神经网络的图像分割模型，并构造双标签损失函数进行训练微调，依次迭代训练集的所有样本更新模型参数直至收敛，得到训练好的分割模型；

7)将待预测的病理全切片图像实时裁剪出的patch输入训练好的分割模型进行切片病变区域预测，将所有patch的预测结果拼接，最终得到全切片的病变分割结果。

进一步地，步骤4)中，同时对切片、切片预标注和切片真实标注进行同种尺度、相同位置切割产生同名的patch数据，经过数据划分之后，每一条数据包含了输入图像、切片真实标注转换而来的输出图像和切片预标注转换而来的辅助输出图像。

进一步地，步骤6)中，构造了基于双标签的交叉熵损失函数，设真实标注为L_t，预标注为L_p，均为0、1向量，该损失函数的具体公式为：

W＝q₀((L_p＝＝0)&(L_t＝＝1))+q₁((L_p＝＝1)&(L_t＝＝0))

W＝W+(W＝＝0)

loss＝-W_i*[L_ti*logp_i+(1-L_ti)*log(1-p_i)]

其中q₀是预测为正常、实际为病变的损失重要性权重，q₁是预测为病变、实际为正常的损失重要性权重，L_ti是真实标注的第i像素点的值，p_i是预测的第i像素点的值，W_i是第i像素点的权重值。

进一步地，步骤7)中，对于分割模型输出的病变概率值，取阈值为0.4，超过0.4则预测为1值点即病变像素点，反之为0值点即正常像素点。

进一步地，步骤2)中获得的预训练模型参数将保存下来，并作为步骤6)中图像分割模型的初始化参数，步骤6)将在该初始化参数下进行网络训练，并进行反向传播，从而微调图像分割模型参数。

进一步地，所述验证集在步骤6)图像分割模型训练迭代完一次所有训练集样本后，将对模型进行效果预测，当验证集效果持续优化时，模型继续训练，反之，当模型多次效果持续下降时，则停止模型训练，并保存当前模型。

本发明还提供一种基于双标签损失的胃癌病理切片图像分割系统，包括：

图像获取模块：扫描胃癌病理切片得到数字病理全切片图像；

预训练模块：通过医生标注的少量切片样本的预训练得到预训练模型，并通过预训练模型预测得到未标注切片的预标注；

标注模块：将未标注切片及其预标注交于医生，让医生在预标注的基础上进行修改，少则补，多则删，错则改，从而获得真实标注的切片样本；

数据划分模块：基于切片、切片预标注和切片真实标注，对全切片进行patch切割，读取patch图像和分割标注(病变区域的像素值标注为1，非病变区域的像素值标注为0)，并划分训练集和验证集；

数据预处理模块：对训练集进行数据扩充，对训练集和验证集进行数据归一化处理；

模型构建模块：构建深度卷积神经网络的图像分割模型，并构造双标签损失函数进行训练微调，依次迭代训练集的所有样本更新模型参数直至收敛，得到训练好的分割模型；

预测模块：将待预测的病理全切片图像实时裁剪出的patch输入训练好的分割模型进行切片病变区域预测，将所有patch的预测结果拼接，最终得到全切片的病变分割结果。

进一步地，所述数据划分模块中，同时对切片、切片预标注和切片真实标注进行同种尺度、相同位置切割产生同名的patch数据，经过数据划分之后，每一条数据包含了输入图像、切片真实标注转换而来的输出图像和切片预标注转换而来的辅助输出图像。

进一步地，所述模型构建模块中，构造了基于双标签的交叉熵损失函数，设真实标注为L_t，预标注为L_p，均为0、1向量，该损失函数的具体公式为：

W＝q₀((L_p＝＝0)&(L_t＝＝1))+q₁((L_p＝＝1)&(L_t＝＝0))

W＝W+(W＝＝0)

loss＝-W_i*[L_ti*logp_i+(1-L_ti)*log(1-p_i)]

进一步地，所述预测模块中，对于分割模型输出的病变概率值，取阈值为0.4，超过0.4则预测为1值点即病变像素点，反之为0值点即正常像素点。

进一步地，所述预训练模块中获得的预训练模型参数将保存下来，并作为所述模型构建模块中图像分割模型的初始化参数，所述模型构建模块中在该初始化参数下进行网络训练，并进行反向传播，从而微调图像分割模型参数。

进一步地，所述验证集在图像分割模型训练迭代完一次所有训练集样本后，将对模型进行效果预测，当验证集效果持续优化时，模型继续训练，反之，当模型多次效果持续下降时，则停止模型训练，并保存当前模型。

本发明还提供一种基于双标签损失的胃癌病理切片图像分割装置，包括：存储器，存储计算机可执行指令以及在执行所述计算机可执行指令时使用或生产的数据；处理器，与所述存储器通信连接，并配置为执行存储器存储的计算机可执行指令，所述计算机可执行指令在被执行时，实现上述的基于双标签损失的胃癌病理切片图像分割方法。

与现有技术相比，本发明具有以下有益效果：

1)将少量的标注数据进行了预训练，并在预训练的基础上提供了一定精度的预标注，提高了数据的利用率，且加速了医生的标注速度。

2)同时利用真实标注和预标注，突出两者之间的差异性权重，构造了新的损失函数，为模型训练提供了更好的引导，以此优化得到更优的模型。

3)某种程度上，极大地减轻了病理医生的工作量。

附图说明

图1为本发明实施中的基于双标签损失的胃癌病理切片图像分割方法的框架流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合实施例及其附图对本发明作进一步说明。

实施例1

参见图1，本实施例的基于双标签损失的胃癌病理切片图像分割方法，包括以下步骤：

1)扫描若干张具有代表性的胃癌病理切片，得到数字病理全切片图像。

2)通过医生的标注得到少量带标注的全切片图像，对这部分全切片图像进行数据集的划分，利用DCAN卷积神经网络分割模型进行预训练，也就是图1中的完全标注曲线步骤，待该模型在这些数据上收敛后，输出并保存模型的参数，成为预训练模型；

针对扫描出的未标注样本，通过预训练的模型，对其中的每张切片，一个个patch进行预测并拼接成完整全切片的标注，由此得到这些切片的预标注。在形成的所有预标注中，从实际情况来看，大部分情况下均能帮助医生减轻一定程度上的工作量，且该预标注将作用于新损失的计算；

所述预训练模型由于训练样本仅有单一标签，因此损失函数可以采用交叉熵损失函数。

3)将未标注切片及预训练模型产生的预标注文件交于医生，让医生在预标注的基础上进行修改，按照少则补，多则删，错则改的原则，将预标注图像转化成真实的医生标注的文件，从整体标注时间来看，在预标注的前提之下，医生修改的时间确实是有减少的。

4)基于切片、切片预标注和切片真实标注，将这部分全切片标注样本，以20倍的放大倍数进行512*512的patch切割，切割出边缘部分重叠的病理patch图像以及对应的2种分割标注(病变区域的像素值标注为1，非病变区域的像素值标注为0)图像，同时要将玻璃部分剔除出数据集，最后选择的阳性和阴性的图像一般为1:1，然后按照7:3进行训练集和验证集的数据划分。

5)对于其中的训练数据，需要进行一定的随机加噪声、随机切割、投影、旋转和归一化等数据扩充方式，而验证集则只需要进行归一化操作，以此形成最终的可用数据集。

6)基于预训练的模型，构建DCAN深度卷积神经网络的图像分割模型，并重新根据输入数据构造双标签损失函数进行训练微调，依次迭代训练集的所有样本更新模型参数直至收敛，得到训练好的分割模型。

7)将待预测的病理全切片图像实时裁剪出固定顺序的patch输入训练好的分割模型进行切片病变区域预测，并填补到全切片的对应位置，将所有patch的预测结果拼接，最终得到全切片的病变分割结果。

上述技术方案中，会先扫描出若干张病理全切片图像，经过预训练的步骤之后，再对这些未经训练且未标注的全切片图像进行全切片patch分割的预测，例如按照所使用的服务器的限制，取2048大小的patch，取自放大倍数为20的切片，最后得到这些切片的预标注切片。由于每张切片的预测难度差异大，预测出的效果也会差异较大，该方案可行的条件是预标注在绝大多数情况下能够帮助医生减少工作量，加快标注速度。假设原本医生空余时间标注一张切片需花费一周，而预标注之后，很可能2、3天之内就完全可以搞定。由此获得真实标注的样本。将所有切片切割成512*512大小构成数据集，进行7:3的训练、验证数据集划分，输入数据为3个512大小的图像，其中2个就是‘标注’。之后同时利用真实标注和预标注来进行损失的构造，以此达到更好的训练环境。

进一步地，步骤6)中，构造了基于双标签的交叉熵损失函数，该损失充分利用了真实标注和预标注的差异性，设真实标注为L_t，预标注为L_p，均为0、1向量，该损失函数的具体公式为：

W＝q₀((L_p＝＝0)&(L_t＝＝1))+q₁((L_p＝＝1)&(L_t＝＝0))

W＝W+(W＝＝0)

loss＝-W_i*[L_ti*logp_i+(1-L_ti)*log(1-p_i)]

其中q₀是预测为正常、实际为病变的损失重要性权重，q₁是预测为病变、实际为正常的损失重要性权重，L_ti是真实标注的第i像素点的值，p_i是预测的第i像素点的值，W_i是第i像素点的权重值。对于每一个像素点i，会根据双标注的差异性进行权重W_i的赋值，其中为了能尽可能地找出病变部位，我们最需要强调预测为0而实际为1的这些像素点，其次强调预测为1而实际为0的这些像素点，因此，在实际使用中，q₀(可取10)需要大于q₁(可取5)，而对于预测正确的点(W＝＝0)，权重赋值为1即可。

构造完新的双标签损失函数后就可以进行反向传播，以此进行训练参数的微调，依次迭代所有训练样本更新模型参数直至收敛，待模型收敛且优化到了一个极限的时候即可停止模型的迭代。我们设置迭代次数上限为300次，每迭代一定步数的训练样本，对验证集进行效果预测。例如在实际使用中，若连续8次验证集的效果一直处于下降的状态，则退出训练。验证效果连续8次一直处于下降状态说明模型的参数已经训练到了最佳或模型参数不正确，应退出训练。

实施例2

W＝q₀((L_p＝＝0)&(L_t＝＝1))+q₁((L_p＝＝1)&(L_t＝＝0))

W＝W+(W＝＝0)

loss＝-W_i*[L_ti*logp_i+(1-L_ti)*log(1-p_i)]

该系统的具体实现原理及参数示例可参照实施例1。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于双标签损失的胃癌病理切片图像分割方法，其特征在于，包括：

1)扫描胃癌病理切片得到数字病理全切片图像；

3)将未标注切片及其预标注交于医生，让医生在预标注的基础上进行修改，从而获得真实标注的切片样本；

4)基于切片、切片预标注和切片真实标注，对全切片进行patch切割，读取patch图像和分割标注，并划分训练集和验证集；

6)构建深度卷积神经网络的图像分割模型，并构造双标签损失函数进行训练微调，依次迭代训练集的所有样本更新模型参数直至收敛，得到训练好的分割模型；所述双标签损失函数为基于双标签的交叉熵损失函数，设真实标注为L_t，预标注为L_p，均为0、1向量，该损失函数的具体公式为：

W＝q₀((L_p＝＝0)&(L_t＝＝1))+q₁((L_p＝＝1)&(L_t＝＝0))

W＝W+(W＝＝0)

loss＝-W_i*[L_ti*logp_i+(1-L_ti)*log(1-p_i)]

其中q₀是预测为正常、实际为病变的损失重要性权重，q₁是预测为病变、实际为正常的损失重要性权重，L_ti是真实标注的第i像素点的值，p_i是预测的第i像素点的值，W_i是第i像素点的权重值，q₀需要大于q₁，对于预测正确的点，权重赋值为1；

2.根据权利要求1所述的基于双标签损失的胃癌病理切片图像分割方法，其特征在于，步骤4)中，同时对切片、切片预标注和切片真实标注进行同种尺度、相同位置切割产生同名的patch数据，经过数据划分之后，每一条数据包含了输入图像、切片真实标注转换而来的输出图像和切片预标注转换而来的辅助输出图像。

3.根据权利要求1所述的基于双标签损失的胃癌病理切片图像分割方法，其特征在于，步骤2)中获得的预训练模型参数将保存下来，并作为步骤6)中图像分割模型的初始化参数，步骤6)将在该初始化参数下进行网络训练，并进行反向传播，从而微调图像分割模型参数。

4.根据权利要求1所述的基于双标签损失的胃癌病理切片图像分割方法，其特征在于，所述验证集在步骤6)图像分割模型训练迭代完一次所有训练集样本后，将对模型进行效果预测，当验证集效果持续优化时，模型继续训练，反之，当模型多次效果持续下降时，则停止模型训练，并保存当前模型。

5.一种基于双标签损失的胃癌病理切片图像分割系统，其特征在于，包括：

标注模块：将未标注切片及其预标注交于医生，让医生在预标注的基础上进行修改，从而获得真实标注的切片样本；

数据划分模块：基于切片、切片预标注和切片真实标注，对全切片进行patch切割，读取patch图像和分割标注，并划分训练集和验证集；

模型构建模块：构建深度卷积神经网络的图像分割模型，并构造双标签损失函数进行训练微调，依次迭代训练集的所有样本更新模型参数直至收敛，得到训练好的分割模型；所述双标签损失函数为基于双标签的交叉熵损失函数，设真实标注为L_t，预标注为L_p，均为0、1向量，该损失函数的具体公式为：

W＝q₀((L_p＝＝0)&(L_t＝＝1))+q₁((L_p＝＝1)&(L_t＝＝0))

W＝W+(W＝＝0)

loss＝-W_i*[L_ti*logp_i+(1-L_ti)*log(1-p_i)]

6.根据权利要求5所述的一种基于双标签损失的胃癌病理切片图像分割系统，其特征在于，所述数据划分模块中，同时对切片、切片预标注和切片真实标注进行同种尺度、相同位置切割产生同名的patch数据，经过数据划分之后，每一条数据包含了输入图像、切片真实标注转换而来的输出图像和切片预标注转换而来的辅助输出图像。

7.根据权利要求5所述的基于双标签损失的胃癌病理切片图像分割系统，其特征在于，所述预训练模块中获得的预训练模型参数将保存下来，并作为所述模型构建模块中图像分割模型的初始化参数，所述模型构建模块中在该初始化参数下进行网络训练，并进行反向传播，从而微调图像分割模型参数。

8.根据权利要求5所述的基于双标签损失的胃癌病理切片图像分割系统，其特征在于，所述验证集在图像分割模型训练迭代完一次所有训练集样本后，将对模型进行效果预测，当验证集效果持续优化时，模型继续训练，反之，当模型多次效果持续下降时，则停止模型训练，并保存当前模型。