CN112116599B

CN112116599B - 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统

Info

Publication number: CN112116599B
Application number: CN202010804731.7A
Authority: CN
Inventors: 周同; 余振滔
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2022-10-28
Anticipated expiration: 2040-08-12
Also published as: CN112116599A

Abstract

本发明公开了一种基于弱监督学习的痰涂片结核杆菌语义分割方法，进行标准化、结核杆菌区域抠取和标签分配，构造图像掩码作为训练语义分割模型的标签；构建通道域注意力模块和特征融合增强模块，建立基于卷积神经网络的语义分割模型；构建Focal Loss损失函数，将模型训练到误差小于设定的阈值，使用此状态下的模型对训练数据进行预测更新区域标签，利用更新后的标签重新训练当前的模型，得到最后训练完全的语义分割模型；利用训练完全的语义分割模型对痰涂片测试图像进行结核杆菌语义分割，利用DenseCRF算法对此预测结果进行再优化，得出的最终语义分割结果。本发明还提出对应的痰涂片结核杆菌语义分割系统。本发明提高了分割精度，降低了标注人力和时间成本。

Description

基于弱监督学习的痰涂片结核杆菌语义分割方法及系统

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于弱监督学习的痰涂片结核杆菌语义分割方法及系统。

背景技术

当前关于结核杆菌的语义分割方法主要有两种，一种属于无监督学习分割方法，不需要人工预先对图像进行任何标注处理，直接根据图像之间的对比特征进行区域分割，但是由于痰涂片图像颜色单一，染色剂和结核杆菌有时难以区分，因此结果较差。另一种方法是全监督学习分割方法，由于过去几年，深度学习的良好预测性能和迁移能力，基于卷积神经网络的痰涂片图像的结核杆菌语义分割获得了较为准确的结果，但是全监督需要提前收集大量的数据，并且需要在图像上进行像素级别的杆菌标注，费时费力，且成本高昂。

发明内容

本发明的目的在于提供一种基于弱监督学习的痰涂片结核杆菌语义分割方法及系统。

实现本发明目的的技术解决方案为：一种基于弱监督学习的痰涂片结核杆菌语义分割方法，包括以下步骤：

步骤1，对痰涂片图像进行标准化，利用边界框标注的先验坐标信息和 GrabCut算法对原图进行结核杆菌区域抠取，并对抠取的结核杆菌区域设置标签，以此构造图像掩码作为训练语义分割模型的标签；

步骤2，构建通道域注意力模块和特征融合增强模块，据此建立基于卷积神经网络的语义分割模型，其中通道域注意力模块用于对下采样阶段的各尺寸的特征图进行权重校准和重分配，特征融合增强模块用于对权重校准和重分配后的特征图进行融合；

步骤3，构建Focal Loss损失函数，将模型训练到误差小于设定的阈值，使用此状态下的模型对训练数据进行预测更新区域标签，并利用更新后的标签重新训练当前的模型，得到最后训练完全的语义分割模型；

步骤4，利用训练完全的语义分割模型对痰涂片测试图像进行结核杆菌语义分割，利用DenseCRF算法对此预测结果进行再优化，得出的最终语义分割结果。

步骤1中，对痰涂片图像进行标准化，利用边界框标注的先验坐标信息和 GrabCut算法对原图进行结核杆菌区域抠取，并对抠取的结核杆菌区域设置标签，具体方法为：

步骤11：对原始痰涂片图像的R,G,B三个通道分别求均值，将R,G,B三个通道与对应通道的均值相减完成标准化操作，然后将标准化后的图像结果缩放到固定的尺寸，存储在计算机内存中，作为输入到模型的数据；

步骤12：利用OpenCV库中基于高斯混合模型的GrabCut算法，以原始痰涂片图像和给定的边界框标注信息为输入，抠取结核杆菌区域，如果输出的像素区域与标注的边界框区域的交并比大于等于0.15，则直接对该区域赋予标签“1”，对其他区域赋予标签“0”，如果GrabCut算法未输出结核杆菌区域或者输出的像素区域与标注的边界框区域的交并比小于0.15的情形，则直接设置边界框内部正中央80％的矩形区域为结核杆菌的像素区域，对此区域赋予标签“1”，对其他区域赋予标签“0”，据此构建图像掩码。

步骤2中，构建通道域注意力模块和特征融合增强模块，据此建立基于卷积神经网络的语义分割模型，模型的语义分割过程为：

首先利用卷积神经网络提取输入图像的特征，并下采样四次，依次得到四个尺寸特征图{M₁,M₂,M₃,M₄}，然后将{M₁,M₂,M₃,M₄}分别输入进通道域注意力模块中，进行特征通道的权重校准和分配，输出特征图

以特征图M₁为例，设M₁通道数为C，通道域注意力模块具体操作是：

先对M₁的各个通道进行全局平均池化输出1×1×C的张量F₁，再将F₁接到神经元个数为

的全连接层上，并利用ReLU激活函数进行非线性化处理得到F₂，接着将F₂连接到神经元为C的全连接层，并利用Sigmoid激活函数得到C个0-1 之间的权重值W₁，最后将W₁分别与M₁的对应通道相乘，得到经过注意力分配的特征图

同理，得到其他尺寸的特征图，即得到与{M₁,M₂,M₃,M₄}对应的

下一步将特征图

分别输入进特征融合增强模块，该模块的具体做法是：

先对特征图不断地进行迭代转置卷积直至放大到原始数据输入尺寸，按照顺序特征图

分别要进行1，2，3，4次转置卷积，接着将转置卷积结果与下采样阶段的同尺寸特征图进行互补，即：

转置卷积一次得到M₁₁；

转置卷积一次得到

与

相加得到M₂₁，M₂₁转置卷积一次得到M₂₂；

转置卷积一次得到

与

相加得到M₃₁，M₃₁转置卷积一次得到M₃'₂，M₃'₂与

相加形成M₃₂，M₃₂转置卷积一次得到M₃₃；

转置卷积一次得到

与

形成M₄₁，M₄₁转置卷积一次得到M'₄₂，M'₄₂与

相加形成M₄₂，M₄₂转置卷积一次得到M'₄₃，M'₄₃与

相加形成M₄₃，M₄₃转置卷积一次得到M₄₄，最终输出特征图{M₁₁,M₂₂,M₃₃,M₄₄}；

然后将{M₁₁,M₂₂,M₃₃,M₄₄}按照从左至右的顺序，依次加在其后面的每个特征图上，即：M₂₂与M₁₁相加形成P₂，M₃₃与M₁₁，P₂相加形成P₃，M₄₄与M₁₁，P₂，P₃相加形成P₄，以P₄为最后的预测特征图，对其使用Sigmoid激活函数最终得到预测的像素类别概率值。

步骤3中，构建的Focal Loss损失函数具体如下：

Loss(p,y)＝-α(1-p)^γylog(p)-(1-α)p^γ(1-y)log(1-p) 式(1)

其中，p是每个像素的类别概率值，y是该像素实际赋予的标签，α，γ是超参数，用以调节数据中正负样本的学习强度。

步骤4中，DenseCRF算法的核函数包括外观核函数和平滑核函数，其中外观核函数用于优化重分配类别标签，平滑核函数用于移除小的孤立区域，核函数的数学公式如下：

其中前者为外观核函数，后者为平滑核函数，两者通过ω₁,ω₂进行权重分配。I_i,I_j是图像像素i,j的颜色向量，p_i,p_j代表其位置，θ_α,θ_β,θ_γ是核函数调节参数。

一种基于弱监督学习的痰涂片结核杆菌语义分割系统，包括：

图像掩码构造模块，用于对痰涂片图像进行标准化，利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取，并对抠取的结核杆菌区域设置标签，以此构造图像掩码作为训练语义分割模型的标签；

语义分割模型构建模块，用于构建通道域注意力模块和特征融合增强模块，据此建立基于卷积神经网络的语义分割模型，其中通道域注意力模块用于对下采样阶段的各尺寸的特征图进行权重校准和重分配，特征融合增强模块用于对权重校准和重分配后的特征图进行融合；

模型训练模块，用于构建Focal Loss损失函数，将模型训练到误差小于设定的阈值，使用此状态下的模型对训练数据进行预测更新区域标签，并利用更新后的标签重新训练当前的模型，得到最后训练完全的语义分割模型；

语义分割测试模块，用于利用训练完全的语义分割模型对痰涂片测试图像进行结核杆菌语义分割，利用DenseCRF算法对此预测结果进行再优化，得出的最终语义分割结果。

所述图像掩码构造模块中，对痰涂片图像进行标准化，利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取，并对抠取的结核杆菌区域设置标签，具体方法为：

所述语义分割模型构建模块中，构建通道域注意力模块和特征融合增强模块，据此建立基于卷积神经网络的语义分割模型，模型的语义分割过程为：

下一步将特征图

分别输入进特征融合增强模块，该模块的具体做法是：

转置卷积一次得到M₁₁；

转置卷积一次得到

与

相加得到M₂₁，M₂₁转置卷积一次得到M₂₂；

转置卷积一次得到

与

相加得到M₃₁，M₃₁转置卷积一次得到M₃'₂，M₃'₂与

相加形成M₃₂，M₃₂转置卷积一次得到M₃₃；

转置卷积一次得到

与

形成M₄₁，M₄₁转置卷积一次得到M'₄₂，M'₄₂与

相加形成M₄₂，M₄₂转置卷积一次得到M'₄₃，M'₄₃与

所述模型训练模块中，构建的Focal Loss损失函数具体如下：

Loss(p,y)＝-α(1-p)^γylog(p)-(1-α)p^γ(1-y)log(1-p) 式(1)

所述语义分割测试模块中，DenseCRF算法的核函数包括外观核函数和平滑核函数，其中外观核函数用于优化重分配类别标签，平滑核函数用于移除小的孤立区域，核函数的数学公式如下：

本发明与现有技术相比，其显著优点在于：1)利用结核杆菌边界框标注信息实现结核杆菌语义分割模型训练，既保证结果精度，又降低了标注人力和时间成本；2)利用多尺度特征、注意力机制，以及对不均衡数据具有鲁棒性的Focal Loss训练预测模型，具有良好的泛化性能，减小了预测误差；3)采用DenseCRF 对模型预测结果进行优化，使得语义分割结果更加平滑精准。

附图说明

图1为本发明基于弱监督学习的痰涂片结核杆菌语义分割方法的流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，基于弱监督学习的痰涂片结核杆菌语义分割方法，包括以下步骤：

步骤1对带边界框标注的原始图片进行预处理、区域抠取和标签分配；

预处理部分首先对痰涂片图像的R,G,B三个通道分别求均值，并被对应的通道减去，得到的结果缩放到固定尺寸，存储在计算机内存中，作为输入到模型的数据；

区域抠取部分是为了得到监督模型训练的像素标签信息。本发明利用 OpenCV库中基于高斯混合模型的GrabCut算法，以原始痰涂片图像和结核杆菌边界框标注信息为输入，输出估计的结核杆菌像素区域。由于模型只需要进行结核杆菌和背景的二分类，后续标签分配需要将像素标签编码为“0”或“1”，其中“0”表示背景，“1”表示结核杆菌，得到图像掩码供监督学习。

由于痰涂片中的结核杆菌比较细长，有些可能形状相对较小，GrabCut在这种情况下可能会失效。本发明对于GrabCut算法未输出结核杆菌像素区域或者输出的区域与边界框的交并比(IoU)小于0.15的情形，直接设置矩形边界框内部正中央80％的矩形区域为结核杆菌的像素区域，对此区域赋予标签“1”，对其他区域赋予标签“0”，如果输出的结核杆菌像素区域与标注的边界矩形框区域的交并比大于或等于0.15，则直接对该区域赋予标签“1”，对其他区域赋予标签“0”，据此得到图像掩码。

步骤2建立基于卷积神经网络的语义分割模型；

语义分割模型利用卷积神经网络提取输入图像的特征，并下采样四次(每次尺寸缩小2倍)，依次得到四个尺寸特征图{M₁,M₂,M₃,M₄}，然后将{M₁,M₂,M₃,M₄} 分别输入进通道域注意力模块中，进行特征通道的权重校准和分配，输出特征图

以特征图M₁为例，通道域注意力模块具体做法是：

假设M₁通道数为C，首先对M₁的各个通道进行全局平均池化，输出1×1×C的张量F₁，再将F₁接到神经元个数为

的全连接层上，并利用ReLU激活函数进行非线性化处理得到F₂，接着将F₂连接到神经元为C的全连接层，并利用Sigmoid 激活函数得到C个0-1之间的权重值W₁，最后将W₁分别与M₁的对应通道相乘，得到经过注意力分配的特征图

同理，可以得到其他尺寸的特征图，四个尺寸特征图{M₁,M₂,M₃,M₄}对应得到

下一步将特征图

分别输入进特征融合增强模块，该模块的具体做法是：

对特征图不断地进行迭代转置卷积(上采样，特征图尺寸2倍放大)直至放大到原始数据输入尺寸，因此按照顺序，特征图

分别要进行1，2， 3，4次转置卷积，为了防止上采样多次丢失特征信息，将其与下采样阶段的同尺寸特征图进行互补，即：

转置卷积一次得到M₁₁；

转置卷积一次得到

与

相加得到M₂₁，M₂₁转置卷积一次得到M₂₂；

转置卷积一次得到

与

相加得到M₃₁，M₃₁转置卷积一次得到M₃'₂，M₃'₂与

相加形成M₃₂，M₃₂转置卷积一次得到M₃₃；

转置卷积一次得到

与

形成M₄₁，M₄₁转置卷积一次得到M'₄₂，M'₄₂与

相加形成M₄₂，M₄₂转置卷积一次得到M'₄₃，M'₄₃与

相加形成M₄₃，M₄₃转置卷积一次得到M₄₄，因此最终输出特征图{M₁₁,M₂₂,M₃₃,M₄₄}；

然后对{M₁₁,M₂₂,M₃₃,M₄₄}按照从左至右的顺序，依次加在其后面的每个特征图上，用以增强最后一个特征图的信息，即：M₂₂与M₁₁相加形成P₂，M₃₃与M₁₁， P₂相加形成P₃，M₄₄与M₁₁，P₂，P₃相加形成P₄，以P₄为最后的预测特征图，对其使用Sigmoid激活函数得到预测的像素类别概率值。

步骤3基于Focal Loss和标签迭代进行模型训练更新；

大多数痰涂片图像中结核杆菌只占据少部分像素，其余部分都属于背景，因此构建Focal Loss损失函数进行误差计算，以抑制大量负样本像素对模型的主导作用。FocalLoss的具体计算公式如下：

Loss(p,y)＝-α(1-p)^γylog(p)-(1-α)p^γ(1-y)log(1-p) 式(1)

其中，p是模型输出的每个像素的类别概率值，y是该像素实际赋予的标签，即在分配的“1”或“0”，α,γ是超参数，用以调节数据中正负样本的学习强度，主要作用是加大对模型将正样本错分为负样本的惩罚力度，减小模型将负样本正确分为负样本的奖励程度。

利用上述损失函数将模型训练到误差无明显下降时，使用此状态下的模型对训练数据进行预测，让其完成步骤1中GrabCut的作用，重新生成更加精准的结核杆菌像素区域，然后再利用更新后的标签去重新训练当前的模型。重复该迭代式训练过程若干次，得到最后训练完全的语义分割模型。

步骤4基于DenseCRF的模型预测结果再优化；

利用训练好的模型对测试图片进行像素预测，得出初始像素分割结果，输入DenseCRF进行再优化，得到更加平滑精准的语义分割结果。DenseCRF的核函数包括外观核函数和平滑核函数，其中外观核函数用于优化重分配类别标签，平滑核函数用于移除小的孤立区域。核函数的数学公式如下：

本发明还提出一种基于弱监督学习的痰涂片结核杆菌语义分割系统，包括：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于弱监督学习的痰涂片结核杆菌语义分割方法，其特征在于，包括以下步骤：

步骤1，对痰涂片图像进行标准化，利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取，并对抠取的结核杆菌区域设置标签，以此构造图像掩码作为训练语义分割模型的标签；

步骤4，利用训练完全的语义分割模型对痰涂片测试图像进行结核杆菌语义分割，利用DenseCRF算法对此预测结果进行再优化，得出的最终语义分割结果；

的全连接层上，并利用ReLU激活函数进行非线性化处理得到F₂，接着将F₂连接到神经元为C的全连接层，并利用Sigmoid激活函数得到C个0-1之间的权重值W₁，最后将W₁分别与M₁的对应通道相乘，得到经过注意力分配的特征图

下一步将特征图

分别输入进特征融合增强模块，该模块的具体做法是：

转置卷积一次得到M₁₁；

转置卷积一次得到

与

相加得到M₂₁，M₂₁转置卷积一次得到M₂₂；

转置卷积一次得到

与

相加得到M₃₁，M₃₁转置卷积一次得到M′₃₂，M′₃₂与

相加形成M₃₂，M₃₂转置卷积一次得到M₃₃；

转置卷积一次得到

与

形成M₄₁，M₄₁转置卷积一次得到M′₄₂，M′₄₂与

相加形成M₄₂，M₄₂转置卷积一次得到M′₄₃，M′₄₃与

2.根据权利要求1所述的基于弱监督学习的痰涂片结核杆菌语义分割方法，其特征在于，步骤1中，对痰涂片图像进行标准化，利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取，并对抠取的结核杆菌区域设置标签，具体方法为：

3.根据权利要求1所述的基于弱监督学习的痰涂片结核杆菌语义分割方法，其特征在于，步骤3中，构建的Focal Loss损失函数具体如下：

Loss(p,y)＝-α(1-p)^γylog(p)-(1-α)p^γ(1-y)log(1-p) 式(1)

4.根据权利要求1所述的基于弱监督学习的痰涂片结核杆菌语义分割方法，其特征在于，步骤4中，DenseCRF算法的核函数包括外观核函数和平滑核函数，其中外观核函数用于优化重分配类别标签，平滑核函数用于移除小的孤立区域，核函数的数学公式如下：

其中前者为外观核函数，后者为平滑核函数，两者通过ω₁,ω₂进行权重分配，I_i,I_j是图像像素i,j的颜色向量，p_i,p_j代表其位置，θ_α,θ_β,θ_γ是核函数调节参数。

5.一种基于弱监督学习的痰涂片结核杆菌语义分割系统，其特征在于，包括：

语义分割测试模块，用于利用训练完全的语义分割模型对痰涂片测试图像进行结核杆菌语义分割，利用DenseCRF算法对此预测结果进行再优化，得出的最终语义分割结果；

下一步将特征图

分别输入进特征融合增强模块，该模块的具体做法是：

转置卷积一次得到M₁₁；

转置卷积一次得到

与

相加得到M₂₁，M₂₁转置卷积一次得到M₂₂；

转置卷积一次得到

与

相加得到M₃₁，M₃₁转置卷积一次得到M′₃₂，M′₃₂与

相加形成M₃₂，M₃₂转置卷积一次得到M₃₃；

转置卷积一次得到

与

形成M₄₁，M₄₁转置卷积一次得到M′₄₂，M′₄₂与

相加形成M₄₂，M₄₂转置卷积一次得到M′₄₃，M′₄₃与

6.根据权利要求5所述的基于弱监督学习的痰涂片结核杆菌语义分割系统，其特征在于，所述图像掩码构造模块中，对痰涂片图像进行标准化，利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取，并对抠取的结核杆菌区域设置标签，具体方法为：

7.根据权利要求5所述的基于弱监督学习的痰涂片结核杆菌语义分割系统，其特征在于，所述模型训练模块中，构建的Focal Loss损失函数具体如下：

Loss(p,y)＝-α(1-p)^γylog(p)-(1-α)p^γ(1-y)log(1-p) 式(1)

8.根据权利要求5所述的基于弱监督学习的痰涂片结核杆菌语义分割系统，其特征在于，所述语义分割测试模块中，DenseCRF算法的核函数包括外观核函数和平滑核函数，其中外观核函数用于优化重分配类别标签，平滑核函数用于移除小的孤立区域，核函数的数学公式如下：