CN112116599B - 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统 - Google Patents

基于弱监督学习的痰涂片结核杆菌语义分割方法及系统 Download PDF

Info

Publication number
CN112116599B
CN112116599B CN202010804731.7A CN202010804731A CN112116599B CN 112116599 B CN112116599 B CN 112116599B CN 202010804731 A CN202010804731 A CN 202010804731A CN 112116599 B CN112116599 B CN 112116599B
Authority
CN
China
Prior art keywords
semantic segmentation
model
label
image
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010804731.7A
Other languages
English (en)
Other versions
CN112116599A (zh
Inventor
周同
余振滔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010804731.7A priority Critical patent/CN112116599B/zh
Publication of CN112116599A publication Critical patent/CN112116599A/zh
Application granted granted Critical
Publication of CN112116599B publication Critical patent/CN112116599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于弱监督学习的痰涂片结核杆菌语义分割方法,进行标准化、结核杆菌区域抠取和标签分配,构造图像掩码作为训练语义分割模型的标签;构建通道域注意力模块和特征融合增强模块,建立基于卷积神经网络的语义分割模型;构建Focal Loss损失函数,将模型训练到误差小于设定的阈值,使用此状态下的模型对训练数据进行预测更新区域标签,利用更新后的标签重新训练当前的模型,得到最后训练完全的语义分割模型;利用训练完全的语义分割模型对痰涂片测试图像进行结核杆菌语义分割,利用DenseCRF算法对此预测结果进行再优化,得出的最终语义分割结果。本发明还提出对应的痰涂片结核杆菌语义分割系统。本发明提高了分割精度,降低了标注人力和时间成本。

Description

基于弱监督学习的痰涂片结核杆菌语义分割方法及系统
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于弱监督学习的痰涂片结核杆菌语义分割方法及系统。
背景技术
当前关于结核杆菌的语义分割方法主要有两种,一种属于无监督学习分割方法,不需要人工预先对图像进行任何标注处理,直接根据图像之间的对比特征进行区域分割,但是由于痰涂片图像颜色单一,染色剂和结核杆菌有时难以区分,因此结果较差。另一种方法是全监督学习分割方法,由于过去几年,深度学习的良好预测性能和迁移能力,基于卷积神经网络的痰涂片图像的结核杆菌语义分割获得了较为准确的结果,但是全监督需要提前收集大量的数据,并且需要在图像上进行像素级别的杆菌标注,费时费力,且成本高昂。
发明内容
本发明的目的在于提供一种基于弱监督学习的痰涂片结核杆菌语义分割方法及系统。
实现本发明目的的技术解决方案为:一种基于弱监督学习的痰涂片结核杆菌语义分割方法,包括以下步骤:
步骤1,对痰涂片图像进行标准化,利用边界框标注的先验坐标信息和 GrabCut算法对原图进行结核杆菌区域抠取,并对抠取的结核杆菌区域设置标签,以此构造图像掩码作为训练语义分割模型的标签;
步骤2,构建通道域注意力模块和特征融合增强模块,据此建立基于卷积神经网络的语义分割模型,其中通道域注意力模块用于对下采样阶段的各尺寸的特征图进行权重校准和重分配,特征融合增强模块用于对权重校准和重分配后的特征图进行融合;
步骤3,构建Focal Loss损失函数,将模型训练到误差小于设定的阈值,使用此状态下的模型对训练数据进行预测更新区域标签,并利用更新后的标签重新训练当前的模型,得到最后训练完全的语义分割模型;
步骤4,利用训练完全的语义分割模型对痰涂片测试图像进行结核杆菌语义分割,利用DenseCRF算法对此预测结果进行再优化,得出的最终语义分割结果。
步骤1中,对痰涂片图像进行标准化,利用边界框标注的先验坐标信息和 GrabCut算法对原图进行结核杆菌区域抠取,并对抠取的结核杆菌区域设置标签,具体方法为:
步骤11:对原始痰涂片图像的R,G,B三个通道分别求均值,将R,G,B三个通道与对应通道的均值相减完成标准化操作,然后将标准化后的图像结果缩放到固定的尺寸,存储在计算机内存中,作为输入到模型的数据;
步骤12:利用OpenCV库中基于高斯混合模型的GrabCut算法,以原始痰涂片图像和给定的边界框标注信息为输入,抠取 结核杆菌区域,如果输出的像素区域与标注的边界框区域的交并比大于等于0.15,则直接对该区域赋予标签“1”,对其他区域赋予标签“0”,如果GrabCut算法未输出结核杆菌区域或者输出的像素区域与标注的边界框区域的交并比小于0.15的情形,则直接设置边界框内部正中央80%的矩形区域为结核杆菌的像素区域,对此区域赋予标签“1”,对其他区域赋予标签“0”,据此构建图像掩码。
步骤2中,构建通道域注意力模块和特征融合增强模块,据此建立基于卷积神经网络的语义分割模型,模型的语义分割过程为:
首先利用卷积神经网络提取输入图像的特征,并下采样四次,依次得到四个尺寸特征图{M1,M2,M3,M4},然后将{M1,M2,M3,M4}分别输入进通道域注意力模块中,进行特征通道的权重校准和分配,输出特征图
Figure BDA0002628668560000021
以特征图M1为例,设M1通道数为C,通道域注意力模块具体操作是:
先对M1的各个通道进行全局平均池化输出1×1×C的张量F1,再将F1接到神经元个数为
Figure BDA0002628668560000022
的全连接层上,并利用ReLU激活函数进行非线性化处理得到F2,接着将F2连接到神经元为C的全连接层,并利用Sigmoid激活函数得到C个0-1 之间的权重值W1,最后将W1分别与M1的对应通道相乘,得到经过注意力分配的特征图
Figure BDA0002628668560000023
同理,得到其他尺寸的特征图,即得到与{M1,M2,M3,M4}对应的
Figure BDA0002628668560000024
下一步将特征图
Figure BDA0002628668560000025
分别输入进特征融合增强模块,该模块的具体做法是:
先对特征图不断地进行迭代转置卷积直至放大到原始数据输入尺寸,按照顺序特征图
Figure BDA0002628668560000026
分别要进行1,2,3,4次转置卷积,接着将转置卷积结果与下采样阶段的同尺寸特征图进行互补,即:
Figure BDA0002628668560000031
转置卷积一次得到M11
Figure BDA0002628668560000032
转置卷积一次得到
Figure BDA0002628668560000033
Figure BDA0002628668560000034
Figure BDA0002628668560000035
相加得到M21,M21转置卷积一次得到M22
Figure BDA0002628668560000036
转置卷积一次得到
Figure BDA0002628668560000037
Figure BDA0002628668560000038
Figure BDA0002628668560000039
相加得到M31,M31转置卷积一次得到M3'2,M3'2
Figure BDA00026286685600000310
相加形成M32,M32转置卷积一次得到M33
Figure BDA00026286685600000311
转置卷积一次得到
Figure BDA00026286685600000312
Figure BDA00026286685600000313
Figure BDA00026286685600000314
形成M41,M41转置卷积一次得到M'42,M'42
Figure BDA00026286685600000315
相加形成M42,M42转置卷积一次得到M'43,M'43
Figure BDA00026286685600000316
相加形成M43,M43转置卷积一次得到M44,最终输出特征图{M11,M22,M33,M44};
然后将{M11,M22,M33,M44}按照从左至右的顺序,依次加在其后面的每个特征图上,即:M22与M11相加形成P2,M33与M11,P2相加形成P3,M44与M11,P2,P3相加形成P4,以P4为最后的预测特征图,对其使用Sigmoid激活函数最终得到预测的像素类别概率值。
步骤3中,构建的Focal Loss损失函数具体如下:
Loss(p,y)=-α(1-p)γylog(p)-(1-α)pγ(1-y)log(1-p) 式(1)
其中,p是每个像素的类别概率值,y是该像素实际赋予的标签,α,γ是超参数,用以调节数据中正负样本的学习强度。
步骤4中,DenseCRF算法的核函数包括外观核函数和平滑核函数,其中外观核函数用于优化重分配类别标签,平滑核函数用于移除小的孤立区域,核函数的数学公式如下:
Figure BDA00026286685600000317
其中前者为外观核函数,后者为平滑核函数,两者通过ω12进行权重分配。Ii,Ij是图像像素i,j的颜色向量,pi,pj代表其位置,θαβγ是核函数调节参数。
一种基于弱监督学习的痰涂片结核杆菌语义分割系统,包括:
图像掩码构造模块,用于对痰涂片图像进行标准化,利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取,并对抠取的结核杆菌区域设置标签,以此构造图像掩码作为训练语义分割模型的标签;
语义分割模型构建模块,用于构建通道域注意力模块和特征融合增强模块,据此建立基于卷积神经网络的语义分割模型,其中通道域注意力模块用于对下采样阶段的各尺寸的特征图进行权重校准和重分配,特征融合增强模块用于对权重校准和重分配后的特征图进行融合;
模型训练模块,用于构建Focal Loss损失函数,将模型训练到误差小于设定的阈值,使用此状态下的模型对训练数据进行预测更新区域标签,并利用更新后的标签重新训练当前的模型,得到最后训练完全的语义分割模型;
语义分割测试模块,用于利用训练完全的语义分割模型对痰涂片测试图像进行结核杆菌语义分割,利用DenseCRF算法对此预测结果进行再优化,得出的最终语义分割结果。
所述图像掩码构造模块中,对痰涂片图像进行标准化,利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取,并对抠取的结核杆菌区域设置标签,具体方法为:
步骤11:对原始痰涂片图像的R,G,B三个通道分别求均值,将R,G,B三个通道与对应通道的均值相减完成标准化操作,然后将标准化后的图像结果缩放到固定的尺寸,存储在计算机内存中,作为输入到模型的数据;
步骤12:利用OpenCV库中基于高斯混合模型的GrabCut算法,以原始痰涂片图像和给定的边界框标注信息为输入,抠取 结核杆菌区域,如果输出的像素区域与标注的边界框区域的交并比大于等于0.15,则直接对该区域赋予标签“1”,对其他区域赋予标签“0”,如果GrabCut算法未输出结核杆菌区域或者输出的像素区域与标注的边界框区域的交并比小于0.15的情形,则直接设置边界框内部正中央80%的矩形区域为结核杆菌的像素区域,对此区域赋予标签“1”,对其他区域赋予标签“0”,据此构建图像掩码。
所述语义分割模型构建模块中,构建通道域注意力模块和特征融合增强模块,据此建立基于卷积神经网络的语义分割模型,模型的语义分割过程为:
首先利用卷积神经网络提取输入图像的特征,并下采样四次,依次得到四个尺寸特征图{M1,M2,M3,M4},然后将{M1,M2,M3,M4}分别输入进通道域注意力模块中,进行特征通道的权重校准和分配,输出特征图
Figure BDA0002628668560000041
以特征图M1为例,设M1通道数为C,通道域注意力模块具体操作是:
先对M1的各个通道进行全局平均池化输出1×1×C的张量F1,再将F1接到神经元个数为
Figure BDA0002628668560000042
的全连接层上,并利用ReLU激活函数进行非线性化处理得到F2,接着将F2连接到神经元为C的全连接层,并利用Sigmoid激活函数得到C个0-1 之间的权重值W1,最后将W1分别与M1的对应通道相乘,得到经过注意力分配的特征图
Figure BDA0002628668560000051
同理,得到其他尺寸的特征图,即得到与{M1,M2,M3,M4}对应的
Figure BDA0002628668560000052
下一步将特征图
Figure BDA0002628668560000053
分别输入进特征融合增强模块,该模块的具体做法是:
先对特征图不断地进行迭代转置卷积直至放大到原始数据输入尺寸,按照顺序特征图
Figure BDA0002628668560000054
分别要进行1,2,3,4次转置卷积,接着将转置卷积结果与下采样阶段的同尺寸特征图进行互补,即:
Figure BDA0002628668560000055
转置卷积一次得到M11
Figure BDA0002628668560000056
转置卷积一次得到
Figure BDA0002628668560000057
Figure BDA0002628668560000058
Figure BDA0002628668560000059
相加得到M21,M21转置卷积一次得到M22
Figure BDA00026286685600000510
转置卷积一次得到
Figure BDA00026286685600000511
Figure BDA00026286685600000512
Figure BDA00026286685600000513
相加得到M31,M31转置卷积一次得到M3'2,M3'2
Figure BDA00026286685600000514
相加形成M32,M32转置卷积一次得到M33
Figure BDA00026286685600000515
转置卷积一次得到
Figure BDA00026286685600000516
Figure BDA00026286685600000517
Figure BDA00026286685600000518
形成M41,M41转置卷积一次得到M'42,M'42
Figure BDA00026286685600000521
相加形成M42,M42转置卷积一次得到M'43,M'43
Figure BDA00026286685600000519
相加形成M43,M43转置卷积一次得到M44,最终输出特征图{M11,M22,M33,M44};
然后将{M11,M22,M33,M44}按照从左至右的顺序,依次加在其后面的每个特征图上,即:M22与M11相加形成P2,M33与M11,P2相加形成P3,M44与M11,P2,P3相加形成P4,以P4为最后的预测特征图,对其使用Sigmoid激活函数最终得到预测的像素类别概率值。
所述模型训练模块中,构建的Focal Loss损失函数具体如下:
Loss(p,y)=-α(1-p)γylog(p)-(1-α)pγ(1-y)log(1-p) 式(1)
其中,p是每个像素的类别概率值,y是该像素实际赋予的标签,α,γ是超参数,用以调节数据中正负样本的学习强度。
所述语义分割测试模块中,DenseCRF算法的核函数包括外观核函数和平滑核函数,其中外观核函数用于优化重分配类别标签,平滑核函数用于移除小的孤立区域,核函数的数学公式如下:
Figure BDA00026286685600000520
其中前者为外观核函数,后者为平滑核函数,两者通过ω12进行权重分配。Ii,Ij是图像像素i,j的颜色向量,pi,pj代表其位置,θαβγ是核函数调节参数。
本发明与现有技术相比,其显著优点在于:1)利用结核杆菌边界框标注信息实现结核杆菌语义分割模型训练,既保证结果精度,又降低了标注人力和时间成本;2)利用多尺度特征、注意力机制,以及对不均衡数据具有鲁棒性的Focal Loss训练预测模型,具有良好的泛化性能,减小了预测误差;3)采用DenseCRF 对模型预测结果进行优化,使得语义分割结果更加平滑精准。
附图说明
图1为本发明基于弱监督学习的痰涂片结核杆菌语义分割方法的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,基于弱监督学习的痰涂片结核杆菌语义分割方法,包括以下步骤:
步骤1对带边界框标注的原始图片进行预处理、区域抠取和标签分配;
预处理部分首先对痰涂片图像的R,G,B三个通道分别求均值,并被对应的通道减去,得到的结果缩放到固定尺寸,存储在计算机内存中,作为输入到模型的数据;
区域抠取部分是为了得到监督模型训练的像素标签信息。本发明利用 OpenCV库中基于高斯混合模型的GrabCut算法,以原始痰涂片图像和结核杆菌边界框标注信息为输入,输出估计的结核杆菌像素区域。由于模型只需要进行结核杆菌和背景的二分类,后续标签分配需要将像素标签编码为“0”或“1”,其中“0”表示背景,“1”表示结核杆菌,得到图像掩码供监督学习。
由于痰涂片中的结核杆菌比较细长,有些可能形状相对较小,GrabCut在这种情况下可能会失效。本发明对于GrabCut算法未输出结核杆菌像素区域或者输出的区域与边界框的交并比(IoU)小于0.15的情形,直接设置矩形边界框内部正中央80%的矩形区域为结核杆菌的像素区域,对此区域赋予标签“1”,对其他区域赋予标签“0”,如果输出的结核杆菌像素区域与标注的边界矩形框区域的交并比大于或等于0.15,则直接对该区域赋予标签“1”,对其他区域赋予标签“0”,据此得到图像掩码。
步骤2建立基于卷积神经网络的语义分割模型;
语义分割模型利用卷积神经网络提取输入图像的特征,并下采样四次(每次尺寸缩小2倍),依次得到四个尺寸特征图{M1,M2,M3,M4},然后将{M1,M2,M3,M4} 分别输入进通道域注意力模块中,进行特征通道的权重校准和分配,输出特征图
Figure BDA0002628668560000071
以特征图M1为例,通道域注意力模块具体做法是:
假设M1通道数为C,首先对M1的各个通道进行全局平均池化,输出1×1×C的张量F1,再将F1接到神经元个数为
Figure BDA0002628668560000072
的全连接层上,并利用ReLU激活函数进行非线性化处理得到F2,接着将F2连接到神经元为C的全连接层,并利用Sigmoid 激活函数得到C个0-1之间的权重值W1,最后将W1分别与M1的对应通道相乘,得到经过注意力分配的特征图
Figure BDA0002628668560000073
同理,可以得到其他尺寸的特征图,四个尺寸特征图{M1,M2,M3,M4}对应得到
Figure BDA0002628668560000074
下一步将特征图
Figure BDA0002628668560000075
分别输入进特征融合增强模块,该模块的具体做法是:
对特征图不断地进行迭代转置卷积(上采样,特征图尺寸2倍放大)直至放大到原始数据输入尺寸,因此按照顺序,特征图
Figure BDA0002628668560000076
分别要进行1,2, 3,4次转置卷积,为了防止上采样多次丢失特征信息,将其与下采样阶段的同尺寸特征图进行互补,即:
Figure BDA0002628668560000077
转置卷积一次得到M11
Figure BDA0002628668560000078
转置卷积一次得到
Figure BDA0002628668560000079
Figure BDA00026286685600000710
Figure BDA00026286685600000711
相加得到M21,M21转置卷积一次得到M22
Figure BDA00026286685600000712
转置卷积一次得到
Figure BDA00026286685600000713
Figure BDA00026286685600000714
Figure BDA00026286685600000715
相加得到M31,M31转置卷积一次得到M3'2,M3'2
Figure BDA00026286685600000716
相加形成M32,M32转置卷积一次得到M33
Figure BDA00026286685600000717
转置卷积一次得到
Figure BDA00026286685600000718
Figure BDA00026286685600000719
Figure BDA00026286685600000720
形成M41,M41转置卷积一次得到M'42,M'42
Figure BDA00026286685600000721
相加形成M42,M42转置卷积一次得到M'43,M'43
Figure BDA00026286685600000722
相加形成M43,M43转置卷积一次得到M44,因此最终输出特征图{M11,M22,M33,M44};
然后对{M11,M22,M33,M44}按照从左至右的顺序,依次加在其后面的每个特征图上,用以增强最后一个特征图的信息,即:M22与M11相加形成P2,M33与M11, P2相加形成P3,M44与M11,P2,P3相加形成P4,以P4为最后的预测特征图,对其使用Sigmoid激活函数得到预测的像素类别概率值。
步骤3基于Focal Loss和标签迭代进行模型训练更新;
大多数痰涂片图像中结核杆菌只占据少部分像素,其余部分都属于背景,因此构建Focal Loss损失函数进行误差计算,以抑制大量负样本像素对模型的主导作用。FocalLoss的具体计算公式如下:
Loss(p,y)=-α(1-p)γylog(p)-(1-α)pγ(1-y)log(1-p) 式(1)
其中,p是模型输出的每个像素的类别概率值,y是该像素实际赋予的标签,即在分配的“1”或“0”,α,γ是超参数,用以调节数据中正负样本的学习强度,主要作用是加大对模型将正样本错分为负样本的惩罚力度,减小模型将负样本正确分为负样本的奖励程度。
利用上述损失函数将模型训练到误差无明显下降时,使用此状态下的模型对训练数据进行预测,让其完成步骤1中GrabCut的作用,重新生成更加精准的结核杆菌像素区域,然后再利用更新后的标签去重新训练当前的模型。重复该迭代式训练过程若干次,得到最后训练完全的语义分割模型。
步骤4基于DenseCRF的模型预测结果再优化;
利用训练好的模型对测试图片进行像素预测,得出初始像素分割结果,输入DenseCRF进行再优化,得到更加平滑精准的语义分割结果。DenseCRF的核函数包括外观核函数和平滑核函数,其中外观核函数用于优化重分配类别标签,平滑核函数用于移除小的孤立区域。核函数的数学公式如下:
Figure BDA0002628668560000081
其中前者为外观核函数,后者为平滑核函数,两者通过ω12进行权重分配。Ii,Ij是图像像素i,j的颜色向量,pi,pj代表其位置,θαβγ是核函数调节参数。
本发明还提出一种基于弱监督学习的痰涂片结核杆菌语义分割系统,包括:
图像掩码构造模块,用于对痰涂片图像进行标准化,利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取,并对抠取的结核杆菌区域设置标签,以此构造图像掩码作为训练语义分割模型的标签;
语义分割模型构建模块,用于构建通道域注意力模块和特征融合增强模块,据此建立基于卷积神经网络的语义分割模型,其中通道域注意力模块用于对下采样阶段的各尺寸的特征图进行权重校准和重分配,特征融合增强模块用于对权重校准和重分配后的特征图进行融合;
模型训练模块,用于构建Focal Loss损失函数,将模型训练到误差小于设定的阈值,使用此状态下的模型对训练数据进行预测更新区域标签,并利用更新后的标签重新训练当前的模型,得到最后训练完全的语义分割模型;
语义分割测试模块,用于利用训练完全的语义分割模型对痰涂片测试图像进行结核杆菌语义分割,利用DenseCRF算法对此预测结果进行再优化,得出的最终语义分割结果。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于弱监督学习的痰涂片结核杆菌语义分割方法,其特征在于,包括以下步骤:
步骤1,对痰涂片图像进行标准化,利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取,并对抠取的结核杆菌区域设置标签,以此构造图像掩码作为训练语义分割模型的标签;
步骤2,构建通道域注意力模块和特征融合增强模块,据此建立基于卷积神经网络的语义分割模型,其中通道域注意力模块用于对下采样阶段的各尺寸的特征图进行权重校准和重分配,特征融合增强模块用于对权重校准和重分配后的特征图进行融合;
步骤3,构建Focal Loss损失函数,将模型训练到误差小于设定的阈值,使用此状态下的模型对训练数据进行预测更新区域标签,并利用更新后的标签重新训练当前的模型,得到最后训练完全的语义分割模型;
步骤4,利用训练完全的语义分割模型对痰涂片测试图像进行结核杆菌语义分割,利用DenseCRF算法对此预测结果进行再优化,得出的最终语义分割结果;
步骤2中,构建通道域注意力模块和特征融合增强模块,据此建立基于卷积神经网络的语义分割模型,模型的语义分割过程为:
首先利用卷积神经网络提取输入图像的特征,并下采样四次,依次得到四个尺寸特征图{M1,M2,M3,M4},然后将{M1,M2,M3,M4}分别输入进通道域注意力模块中,进行特征通道的权重校准和分配,输出特征图
Figure FDA0003814131420000011
以特征图M1为例,设M1通道数为C,通道域注意力模块具体操作是:
先对M1的各个通道进行全局平均池化输出1×1×C的张量F1,再将F1接到神经元个数为
Figure FDA0003814131420000012
的全连接层上,并利用ReLU激活函数进行非线性化处理得到F2,接着将F2连接到神经元为C的全连接层,并利用Sigmoid激活函数得到C个0-1之间的权重值W1,最后将W1分别与M1的对应通道相乘,得到经过注意力分配的特征图
Figure FDA0003814131420000013
同理,得到其他尺寸的特征图,即得到与{M1,M2,M3,M4}对应的
Figure FDA0003814131420000014
下一步将特征图
Figure FDA0003814131420000015
分别输入进特征融合增强模块,该模块的具体做法是:
先对特征图不断地进行迭代转置卷积直至放大到原始数据输入尺寸,按照顺序特征图
Figure FDA0003814131420000021
分别要进行1,2,3,4次转置卷积,接着将转置卷积结果与下采样阶段的同尺寸特征图进行互补,即:
Figure FDA0003814131420000022
转置卷积一次得到M11
Figure FDA0003814131420000023
转置卷积一次得到
Figure FDA0003814131420000024
Figure FDA0003814131420000025
Figure FDA0003814131420000026
相加得到M21,M21转置卷积一次得到M22
Figure FDA0003814131420000027
转置卷积一次得到
Figure FDA0003814131420000028
Figure FDA0003814131420000029
Figure FDA00038141314200000210
相加得到M31,M31转置卷积一次得到M′32,M′32
Figure FDA00038141314200000211
相加形成M32,M32转置卷积一次得到M33
Figure FDA00038141314200000212
转置卷积一次得到
Figure FDA00038141314200000213
Figure FDA00038141314200000214
Figure FDA00038141314200000215
形成M41,M41转置卷积一次得到M′42,M′42
Figure FDA00038141314200000216
相加形成M42,M42转置卷积一次得到M′43,M′43
Figure FDA00038141314200000217
相加形成M43,M43转置卷积一次得到M44,最终输出特征图{M11,M22,M33,M44};
然后将{M11,M22,M33,M44}按照从左至右的顺序,依次加在其后面的每个特征图上,即:M22与M11相加形成P2,M33与M11,P2相加形成P3,M44与M11,P2,P3相加形成P4,以P4为最后的预测特征图,对其使用Sigmoid激活函数最终得到预测的像素类别概率值。
2.根据权利要求1所述的基于弱监督学习的痰涂片结核杆菌语义分割方法,其特征在于,步骤1中,对痰涂片图像进行标准化,利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取,并对抠取的结核杆菌区域设置标签,具体方法为:
步骤11:对原始痰涂片图像的R,G,B三个通道分别求均值,将R,G,B三个通道与对应通道的均值相减完成标准化操作,然后将标准化后的图像结果缩放到固定的尺寸,存储在计算机内存中,作为输入到模型的数据;
步骤12:利用OpenCV库中基于高斯混合模型的GrabCut算法,以原始痰涂片图像和给定的边界框标注信息为输入,抠取结核杆菌区域,如果输出的像素区域与标注的边界框区域的交并比大于等于0.15,则直接对该区域赋予标签“1”,对其他区域赋予标签“0”,如果GrabCut算法未输出结核杆菌区域或者输出的像素区域与标注的边界框区域的交并比小于0.15的情形,则直接设置边界框内部正中央80%的矩形区域为结核杆菌的像素区域,对此区域赋予标签“1”,对其他区域赋予标签“0”,据此构建图像掩码。
3.根据权利要求1所述的基于弱监督学习的痰涂片结核杆菌语义分割方法,其特征在于,步骤3中,构建的Focal Loss损失函数具体如下:
Loss(p,y)=-α(1-p)γylog(p)-(1-α)pγ(1-y)log(1-p) 式(1)
其中,p是每个像素的类别概率值,y是该像素实际赋予的标签,α,γ是超参数,用以调节数据中正负样本的学习强度。
4.根据权利要求1所述的基于弱监督学习的痰涂片结核杆菌语义分割方法,其特征在于,步骤4中,DenseCRF算法的核函数包括外观核函数和平滑核函数,其中外观核函数用于优化重分配类别标签,平滑核函数用于移除小的孤立区域,核函数的数学公式如下:
Figure FDA0003814131420000031
其中前者为外观核函数,后者为平滑核函数,两者通过ω12进行权重分配,Ii,Ij是图像像素i,j的颜色向量,pi,pj代表其位置,θαβγ是核函数调节参数。
5.一种基于弱监督学习的痰涂片结核杆菌语义分割系统,其特征在于,包括:
图像掩码构造模块,用于对痰涂片图像进行标准化,利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取,并对抠取的结核杆菌区域设置标签,以此构造图像掩码作为训练语义分割模型的标签;
语义分割模型构建模块,用于构建通道域注意力模块和特征融合增强模块,据此建立基于卷积神经网络的语义分割模型,其中通道域注意力模块用于对下采样阶段的各尺寸的特征图进行权重校准和重分配,特征融合增强模块用于对权重校准和重分配后的特征图进行融合;
模型训练模块,用于构建Focal Loss损失函数,将模型训练到误差小于设定的阈值,使用此状态下的模型对训练数据进行预测更新区域标签,并利用更新后的标签重新训练当前的模型,得到最后训练完全的语义分割模型;
语义分割测试模块,用于利用训练完全的语义分割模型对痰涂片测试图像进行结核杆菌语义分割,利用DenseCRF算法对此预测结果进行再优化,得出的最终语义分割结果;
所述语义分割模型构建模块中,构建通道域注意力模块和特征融合增强模块,据此建立基于卷积神经网络的语义分割模型,模型的语义分割过程为:
首先利用卷积神经网络提取输入图像的特征,并下采样四次,依次得到四个尺寸特征图{M1,M2,M3,M4},然后将{M1,M2,M3,M4}分别输入进通道域注意力模块中,进行特征通道的权重校准和分配,输出特征图
Figure FDA0003814131420000032
以特征图M1为例,设M1通道数为C,通道域注意力模块具体操作是:
先对M1的各个通道进行全局平均池化输出1×1×C的张量F1,再将F1接到神经元个数为
Figure FDA0003814131420000041
的全连接层上,并利用ReLU激活函数进行非线性化处理得到F2,接着将F2连接到神经元为C的全连接层,并利用Sigmoid激活函数得到C个0-1之间的权重值W1,最后将W1分别与M1的对应通道相乘,得到经过注意力分配的特征图
Figure FDA0003814131420000042
同理,得到其他尺寸的特征图,即得到与{M1,M2,M3,M4}对应的
Figure FDA0003814131420000043
下一步将特征图
Figure FDA0003814131420000044
分别输入进特征融合增强模块,该模块的具体做法是:
先对特征图不断地进行迭代转置卷积直至放大到原始数据输入尺寸,按照顺序特征图
Figure FDA0003814131420000045
分别要进行1,2,3,4次转置卷积,接着将转置卷积结果与下采样阶段的同尺寸特征图进行互补,即:
Figure FDA0003814131420000046
转置卷积一次得到M11
Figure FDA0003814131420000047
转置卷积一次得到
Figure FDA0003814131420000048
Figure FDA0003814131420000049
Figure FDA00038141314200000410
相加得到M21,M21转置卷积一次得到M22
Figure FDA00038141314200000411
转置卷积一次得到
Figure FDA00038141314200000412
Figure FDA00038141314200000413
Figure FDA00038141314200000414
相加得到M31,M31转置卷积一次得到M′32,M′32
Figure FDA00038141314200000415
相加形成M32,M32转置卷积一次得到M33
Figure FDA00038141314200000416
转置卷积一次得到
Figure FDA00038141314200000417
Figure FDA00038141314200000418
Figure FDA00038141314200000419
形成M41,M41转置卷积一次得到M′42,M′42
Figure FDA00038141314200000420
相加形成M42,M42转置卷积一次得到M′43,M′43
Figure FDA00038141314200000421
相加形成M43,M43转置卷积一次得到M44,最终输出特征图{M11,M22,M33,M44};
然后将{M11,M22,M33,M44}按照从左至右的顺序,依次加在其后面的每个特征图上,即:M22与M11相加形成P2,M33与M11,P2相加形成P3,M44与M11,P2,P3相加形成P4,以P4为最后的预测特征图,对其使用Sigmoid激活函数最终得到预测的像素类别概率值。
6.根据权利要求5所述的基于弱监督学习的痰涂片结核杆菌语义分割系统,其特征在于,所述图像掩码构造模块中,对痰涂片图像进行标准化,利用边界框标注的先验坐标信息和GrabCut算法对原图进行结核杆菌区域抠取,并对抠取的结核杆菌区域设置标签,具体方法为:
步骤11:对原始痰涂片图像的R,G,B三个通道分别求均值,将R,G,B三个通道与对应通道的均值相减完成标准化操作,然后将标准化后的图像结果缩放到固定的尺寸,存储在计算机内存中,作为输入到模型的数据;
步骤12:利用OpenCV库中基于高斯混合模型的GrabCut算法,以原始痰涂片图像和给定的边界框标注信息为输入,抠取结核杆菌区域,如果输出的像素区域与标注的边界框区域的交并比大于等于0.15,则直接对该区域赋予标签“1”,对其他区域赋予标签“0”,如果GrabCut算法未输出结核杆菌区域或者输出的像素区域与标注的边界框区域的交并比小于0.15的情形,则直接设置边界框内部正中央80%的矩形区域为结核杆菌的像素区域,对此区域赋予标签“1”,对其他区域赋予标签“0”,据此构建图像掩码。
7.根据权利要求5所述的基于弱监督学习的痰涂片结核杆菌语义分割系统,其特征在于,所述模型训练模块中,构建的Focal Loss损失函数具体如下:
Loss(p,y)=-α(1-p)γylog(p)-(1-α)pγ(1-y)log(1-p) 式(1)
其中,p是每个像素的类别概率值,y是该像素实际赋予的标签,α,γ是超参数,用以调节数据中正负样本的学习强度。
8.根据权利要求5所述的基于弱监督学习的痰涂片结核杆菌语义分割 系统,其特征在于,所述语义分割测试模块中,DenseCRF算法的核函数包括外观核函数和平滑核函数,其中外观核函数用于优化重分配类别标签,平滑核函数用于移除小的孤立区域,核函数的数学公式如下:
Figure FDA0003814131420000051
其中前者为外观核函数,后者为平滑核函数,两者通过ω12进行权重分配,Ii,Ij是图像像素i,j的颜色向量,pi,pj代表其位置,θαβγ是核函数调节参数。
CN202010804731.7A 2020-08-12 2020-08-12 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统 Active CN112116599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010804731.7A CN112116599B (zh) 2020-08-12 2020-08-12 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010804731.7A CN112116599B (zh) 2020-08-12 2020-08-12 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统

Publications (2)

Publication Number Publication Date
CN112116599A CN112116599A (zh) 2020-12-22
CN112116599B true CN112116599B (zh) 2022-10-28

Family

ID=73804993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010804731.7A Active CN112116599B (zh) 2020-08-12 2020-08-12 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN112116599B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819073B (zh) * 2021-02-01 2024-08-20 上海明略人工智能(集团)有限公司 分类网络训练、图像分类方法、装置和电子设备
CN112966645B (zh) * 2021-03-24 2022-04-08 山东仕达思生物产业有限公司 一种妇科微生态中多种类型杆菌的智能检测和分类计数方法
CN113312978A (zh) * 2021-04-30 2021-08-27 中国科学院计算技术研究所 一种显微影像下目标精确识别和分割的方法及其系统
CN113658188B (zh) * 2021-08-18 2022-04-01 北京石油化工学院 一种基于改进Unet模型的溶液结晶过程图像语义分割方法
CN113902670B (zh) * 2021-08-31 2022-07-29 北京医准智能科技有限公司 一种基于弱监督学习的超声视频分割方法及装置
CN114612663B (zh) * 2022-03-11 2024-09-13 浙江工商大学 基于弱监督学习的域自适应实例分割方法及装置
CN116071628B (zh) * 2023-02-06 2024-04-05 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质
CN117037152B (zh) * 2023-10-10 2024-01-05 江西农业大学 基于机器视觉的灰葡萄孢菌防效分析方法及装置
CN117113725B (zh) * 2023-10-19 2024-01-26 中国海洋大学 参数摆式波浪能装置的获能分析方法
CN118587441A (zh) * 2024-08-05 2024-09-03 浙江浙能电力股份有限公司萧山发电厂 一种基于偏差校准和混合增强策略的弱监督图像分割方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255790A (zh) * 2018-07-27 2019-01-22 北京工业大学 一种弱监督语义分割的自动图像标注方法
CN110443818A (zh) * 2019-07-02 2019-11-12 中国科学院计算技术研究所 一种基于涂鸦的弱监督语义分割方法与系统
CN110458172A (zh) * 2019-08-16 2019-11-15 中国农业大学 一种基于区域对比度检测的弱监督图像语义分割方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255790A (zh) * 2018-07-27 2019-01-22 北京工业大学 一种弱监督语义分割的自动图像标注方法
CN110443818A (zh) * 2019-07-02 2019-11-12 中国科学院计算技术研究所 一种基于涂鸦的弱监督语义分割方法与系统
CN110458172A (zh) * 2019-08-16 2019-11-15 中国农业大学 一种基于区域对比度检测的弱监督图像语义分割方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法

Also Published As

Publication number Publication date
CN112116599A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN112116599B (zh) 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
US20230196117A1 (en) Training method for semi-supervised learning model, image processing method, and device
CN107424159B (zh) 基于超像素边缘和全卷积网络的图像语义分割方法
CN110111340B (zh) 基于多路割的弱监督实例分割方法
CN110909820B (zh) 基于自监督学习的图像分类方法及系统
CN111615702B (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN109741341B (zh) 一种基于超像素和长短时记忆网络的图像分割方法
CN111476315A (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN111986125A (zh) 一种用于多目标任务实例分割的方法
CN107506792B (zh) 一种半监督的显著对象检测方法
CN113255915A (zh) 基于结构化实例图的知识蒸馏方法、装置、设备和介质
CN113822116A (zh) 文本识别方法、装置、计算机设备和存储介质
CN114444565B (zh) 一种图像篡改检测方法、终端设备及存储介质
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN112132145A (zh) 一种基于模型扩展卷积神经网络的图像分类方法及系统
CN112364916A (zh) 基于迁移学习的图像分类方法、相关设备及存储介质
CN116433704A (zh) 一种基于中心点的细胞核分割方法及相关设备
Ghanem et al. An improved and low-complexity neural network model for curved lane detection of autonomous driving system
CN112241736A (zh) 一种文本检测的方法及装置
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
CN113223011A (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN115641317B (zh) 面向病理图像的动态知识回溯多示例学习及图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant