CN115546605A - 一种基于图像标注和分割模型的训练方法及装置 - Google Patents
一种基于图像标注和分割模型的训练方法及装置 Download PDFInfo
- Publication number
- CN115546605A CN115546605A CN202211131103.2A CN202211131103A CN115546605A CN 115546605 A CN115546605 A CN 115546605A CN 202211131103 A CN202211131103 A CN 202211131103A CN 115546605 A CN115546605 A CN 115546605A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- segmentation
- sample
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30101—Blood vessel; Artery; Vein; Vascular
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Abstract
本发明提供了一种基于图像标注和分割模型的训练方法及装置,包括以下步骤:获取样本图像,对照连续切片的免疫组织化学染色配准图像标注得到对应的的掩膜图像;将样本图像、掩膜图像作为一组训练样本,将样本图像按照不同染色空间的模板进行适应性色彩变换,基于多组训练样本对分割模型进行训练。本发明提供的技术方案改善了病理图像感兴趣目标难以精确标注的问题,提升标注效率和有效性,提高了算法对不同染色条件和扫描仪器产生的图像的泛化性,使用主动学习模式和迁移学习技术,使模型在小型数据集训练上达到良好的分割性能。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于图像标注和分割模型的训练方法及装置。
背景技术
恶性肿瘤严重制约人类健康。病理诊断是判定肿瘤类型、预后分析和指导肿瘤治疗的金标准。定量病理学是肿瘤诊断的重要方法,从病理图像中准确分割病灶是定量病理学领域的重要研究内容和数据基础。例如,肿瘤微血管是判定恶性肿瘤生物学特征的重要依据,判读肿瘤微血管密度、形态、结构和组成,能反映化疗药物在肿瘤组织中的渗透性和敏感性,定量化肿瘤微血管分型特征可以辅助肿瘤精准诊断、预后判断和化疗方案的选择。然而传统“显微镜+人眼识别”传统病理诊断模式在定量病理诊断中存在以下问题:1.受显微镜视野局限,局部视野难以准确判定肿瘤病变的整体特征,在定量计算中可能存在选择性偏移;2.病理医师受诊断经验的影响,在定量计算中可能存在个体差异和人为判读偏移;3.病理诊断医师临床工作繁重,而精确实现肿瘤微血管诊断耗时费力,难以广泛开展。基于此,迫切需要研发基于全切片视野的规范化、标准化的计算机辅助微血管分割策略。
深度学习技术中的全卷积神经网络(Fully Convolutional Networks)通过采用编码器解码器结构与跳跃连接,在语义分割方面的性能远超传统的图像分割方法,已在病理学图像分析领域逐步应用;病理图像由于染色过程的标准化程度低,且成像过程受数字扫描仪影响大,色彩空间差异大,导致训练好的神经网络模型的泛化性较低,难以广泛应用;与目前研究较多的腺体和淋巴结内肿瘤转移灶等分割目标相比,目前没有公开可获取的微血管相关数据集,且对于微小目标精确的数据标注需要专业的病理医师进行,费时费力,因此难以获得大样本量的数据集,给神经网络模型的训练造成了很大的难题。且微血管等微小目标的尺度非常多变;与常见的分割目标细胞核相比,微血管的形态多样性高,与其他组织结合紧密,边界不清,精确识别难度很大,需要构建准确、快速、泛化性高的网络模型和训练方法,以提高肿瘤微血管诊断的准确性和可行性。
发明内容
为解决上述技术问题,本发明提供一种基于图像标注和分割模型的训练方法及装置,能够提高肿瘤微血管图像标注的准确性和分割效率。
为达到上述目的,本发明采用的技术方案如下:
一种基于图像标注和分割模型的训练方法,包括如下步骤:
步骤1、获取样本病理组织连续切片全景图像,包括H&E染色图像和CD34、α-SMA免疫组织化学染色图像;挑选样本数据集中典型的图像,其余数据在模型训练的反馈后重新进行挑选;通过医学先验知识划分微血管分型;通过将对应的CD34和α-SMA免疫组织化学染色图像与待标注的H&E图像进行配准,获得准确的血管存在和分型结果的参考标准;对H&E图像对照配准后的免疫组织化学图像进行标注,获取样本H&E图像的多分类血管标注掩膜;
步骤2、根据所述步骤1中标注后的图像得到的训练样本,进行预处理;训练图像分割卷积神经网络模型,以完成微血管分型分割的任务;对当前训练好的模型进行性能评估;根据性能评估结果挑选出模型表现不佳的图像,重新挑选需要标注的样本数据;根据新一轮的训练样本,重复训练,直到达到预定的性能指标。
进一步地,所述步骤1中的配准的算法包括手动配准、基于图像强度的自动配准或者基于地标的半自动配准方法,应用刚性或非刚性形变。
进一步地,训练图像分割卷积神经网络模型具体包括:
步骤(1)、收集样本图像和对应的血管掩膜图像作为一组样本;
步骤(2)、将组织块图像以设定的放大倍数从全景图像的金字塔结构中提取出来,或者将组织块图像以设定的放大倍数进行缩放;将多组样本按照一定的比例随机分配到训练集或验证集,基于多组训练样本对原始分割模型进行训练;
步骤(3)、构建网络模型;
步骤(4)、进行随机采样,即网络模型按照固定的输入大小对该样本图像和对应的标注掩膜图像进行随机的一致的剪裁,边缘不足输入大小的图像进行反射填充,以增大数据集的多样性;
步骤(5)、进行数据增强;
步骤(6)、进行难分样本挖掘,改善多分类图像分割中的类别不均衡。
进一步地,对当前训练好的模型进行性能评估;根据性能评估结果挑选出模型表现不佳的图像,重新挑选需要标注的样本数据;根据新一轮的训练样本,重复训练,直到达到预定的性能指标,具体包括以下步骤:
步骤(1)、将验证集样本按照滑动窗算法进行切块;
步骤(2)、将切片图像输入训练过的网络模型,获取对应切片的5种分型的血管和背景分割概率矩阵;
步骤(3)、分割结果后处理,包括:通过滑动窗图像融合算法,进行图像重建和对重叠的子分割概率矩阵进行加权平均,对多个子分割矩阵进行组合并确定待分割图像上每个像素点的分割结果;通过连通域算法、多数投票算法、分割区域形态学处理算法和噪点处理算法,对组合后的分割结果进行后处理,获得最终分割结果;
步骤(4)、对训练模型进行性能评估;
步骤(5)、应用主动学习策略对训练模型进行迭代,直到性能参数达到预定目标。
进一步地,所述步骤(1)包括:使用全局阈值算法对组织块所在的区域进行提取,将图像上面积大于设定最小面积值的空白区域去除,按照连通域算法提取出连续的组织块,如果存在多个连通域则将该区域按照连通性进行分割,得到独立的组织块图像;提取出的组织块图像形状不规则,计算每个组织块形状的最小边界框,以每个边界框为待分割的组织块的范围;记录每个待分割组织块图像的左上角(x,y)坐标,以便组织块图像与空白区域重建为待分割区域的大小。
进一步地,所述步骤(3)中,所述网络模型为卷积神经网络、深度神经网络或循环神经网络。
进一步地,所述步骤(5)包括:以公开数据集中从不同医院收集的样本图像为多个色彩模板,将每个模板由RGB空间分解为苏木精、伊红和残差三个通道,计算苏木精、伊红两个通道的权重值,设定为模板值,创建模板值集合;将样本图像的通道分解为苏木精、伊红和残差三个通道,将样本图像苏木精、伊红通道的权重随机调整为模板值集合中的一个值;重新组合该图像调整后的苏木精、伊红通道和未经调整的残差通道,合成为新的样本图像,和血管掩膜图像作为一组训练样本。
进一步地,所述步骤(6)包括:使用加权焦点损失函数和加权Dice损失函数进行组合,以提高难分样本在损失函数中的比重。
本发明还提供一种实现基于图像标注和分割模型的训练方法的训练装置,包括:预处理模块,用于对多个病理全景图像和标注掩膜分别进行组织提取与裁切,获得多个大小相同的小图片和对应的掩膜图片,构成样本集;训练模块,用于将所述样本集输入初始神经网络模型,并将所述初始神经网络模型的输出通过Softmax函数计算,得到所述样本集中每个所述小图片上每个像素的输出概率向量;损失函数计算模块,用于根据预设样本集的每个所述小图片的输出概率矩阵计算梯度模长和梯度密度,并根据所述梯度模长和梯度密度计算损失函数;后处理模块,用于将与预处理模块裁切的样本图像对应的模型预测得到的概率图融合重建为全景图像,并进行分型投票、轮廓平滑、孔洞填充、噪点处理操作;性能评估模块,用于对训练得到的神经网络模型的性能表现进行评估,提取出模型预测效果不佳的样本,进行数据标注和算法训练的迭代过程。
进一步地,所述初始神经网络模型通过迁移学习训练得到,作为用于对病理全景图像上感兴趣组织进行分割的神经网络模型。
有益效果:
本发明提供的基于明确金标准的标注方法,可以节约病例和标注医师资源,帮助模型性能有效提升。本发明提供的迭代式的图像分割模型的训练方法和装置,可以在较小的数据集条件下得到良好的分割效果;该模型可以快速获取全视野上感兴趣组织(如微血管)的精确位置信息,避免人工选择视野可能带来的判读差异和低重复性问题,为进一步的量化分析提供了客观、可解释性高的数据,提高定量化分析的速度。该方法可应用到多种肿瘤和感兴趣组织的分割任务中,为定量病理学和生物标志物研发等领域提供数据基础。
附图说明
图1为本发明实施例提供的一种基于图像标注和分割模型的训练方法的示意图;
图2a,图2b,图2c,图2d为本发明实施例提供的基于连续切片图像配准进行标注的方法的示意图;其中,图2a为一个样本图像示意图,图2b为与图2a对应的血管掩膜图像的示意图,图2c为与图2a对应的已配准的CD34免疫组织化学染色图像示意图,图2d为与图2a对应的已配准的α-SMA免疫组织化学染色图像示意图;
图3为本发明实施例提供的一种基于图像标注和分割模型的训练装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供一种基于图像标注和分割模型的训练方法及装置,下面以病理图像的标注为例对相关技术中的图像标注进行说明。病理学是组织和细胞形态的微观研究,很多任务需要对组织和细胞进行检测与分割,目前主要通过人工方式实现对病理切片的组织和细胞标注,勾勒出目标组织的轮廓,具体包括:获取病理图像;挑选典型的组织区域;设定标注的金标准,即本发明提出使用连续切片并进行免疫组织化学染色的切片图像与H&E图像进行局部配准,作为标注的金标准;进行精细标注,通常可以使用画图工具或标注工具,通过人工方法勾画病理图像中目标组织的边界并设定分型,以得到与病理图像对应的像素级标注结果。
如图1所示,本发明实施例提出一种迭代式的具备参考标准的图像标注方法,该图像标注方法可以应用于医学图像分析领域,也可以用于需要对具有复杂细节的图像进行标注的其它领域,以下以医学图像分析领域中的微血管标注为例对本发明实施例的技术方案的实现细节进行详细阐述:
步骤1、获取样本脑胶质瘤的病理组织连续切片的全景图像(Whole Slide Image)序列,包括H&E染色图像和CD34、α-SMA免疫组织化学染色图像。
其中,样本的全景图像序列是由病理数字扫描仪扫描染色后的组织切片得到的,组织连续切片可以为H&E图像标注提供参考标准;其中CD34免疫组织化学染色可以显示出组织上的血管内皮细胞,α-SMA免疫组织化学染色可以显示出组织上的血管周细胞和平滑肌细胞,两种标志物完整地展现了血管的主要组分、组织范围和形态。
步骤2、挑选样本数据集中典型的图像,其余数据在模型训练的反馈后重新进行挑选。根据医学先验知识,例如依据脑胶质瘤的病理诊断分类和分型,分别收集诊断为IV级胶质母细胞瘤、II级和III级星形细胞脑胶质瘤、II级和III级少突细胞脑胶质瘤等典型的病理组织进行标注。
步骤3、通过医学先验知识划分血管分型,其中,医学先验知识包括血管内皮细胞与周细胞的形态、大小、个数,血管的面积与形状,基底膜增厚程度等。成熟的动静脉血管和微血管的尺度差异大,面积比例可达1000倍以上,对图像分割模型是巨大的挑战;肿瘤微血管的形态极为多样,多条信号通路参与调控微血管的生长,目前的医学研究显示患者肿瘤组织上不同形态和密度的微血管与患者的预后和对治疗的反应性相关。因此,从图像的角度来看,将微血管与成熟血管分开,将不同的微血管形态互相区分,降低类内的差异(intra-class variations),提高类间差异(inter-class variations),可以大幅提升图像分割模型的准确性。
步骤4、通过将对应的CD34和α-SMA免疫组织化学染色图像与待标注H&E图像进行配准,可以获得准确的血管存在和分型结果的参考标准。微血管与肿瘤组织结合紧密且边界不清晰,配准后的免疫组织化学图像可以准确显示出微血管的内皮和周细胞组分和形态,从而指导对血管的精确标注。
配准算法可以选择手动配准、基于图像强度(image intensity)的自动配准或者基于地标(annotated landmarks)的半自动配准方法,应用刚性或非刚性形变。本发明不对算法做具体的限定。示例性地,本发明实例使用的是基于地标的刚性配准方法以提高性能,提取较低放大倍数(如5倍放大)的H&E图像和对应的免疫组织化学图像,以H&E图像为模板,分别在两张图像上选择相对应的大于5个感兴趣区域内的微血管的中心作为锚定的地标,每个地标的编号一一对应,应用配准算法,得到形变后的免疫组织化学图像。
步骤5、对H&E图像对照配准后的免疫组织化学图像进行标注,多分类血管掩膜图像是人工标注的彩色图像,每种颜色表示一个分类,可作为模型训练过程中的期望输出,示例性的,如图2a,图2b,图2c,图2d所示,图2a是一个样本图像示意图,图2b是与图2a对应的血管掩膜图像的示意图,图2c是与图2a对应的已配准的CD34免疫组织化学染色图像示意图,图2d是与图2a对应的已配准的α-SMA免疫组织化学染色图像示意图。与无参考标准的标注对比,极大地提高了标注准确性,降低分割与分型的争议。该方法可以广泛应用于多种病理组织的分割任务,提高标注金标准的可信度。
在图像标注后,进行图像分割模型的训练。如图1所示,本发明提供一种迭代式的图像分割模型的训练方法,包括:根据所述标注图像得到的训练样本,进行预处理;训练图像分割卷积神经网络模型,以完成微血管分型分割的任务;对当前训练好的模型进行性能评估;根据性能评估结果挑选出模型表现不佳的图像,重新挑选需要标注的样本数据;根据新一轮的训练样本,重复训练,直到达到预定的性能指标。具体包括如下步骤:
步骤1,根据标注好的数据集训练图像分割模型:
(1)、收集样本图像和对应的血管掩膜图像作为一组样本;使用全局阈值(GlobalThresholding)算法对组织块所在的区域进行提取,将图像上面积大于设定最小面积值的空白区域去除,由于病理组织切片占整个玻片扫描图像的比例一般低于50%,该操作可以很大程度上降低待分割全景图像所需的计算量。按照连通域算法提取出连续的组织块,如果存在多个连通域则将该区域按照连通性进行分割,得到独立的组织块图像;提取出的组织块图像形状不规则,计算每个组织块形状的最小边界框,以每个边界框为待分割的组织块的范围;记录每个待分割组织块图像的左上角(x,y)坐标,以便组织块图像与空白区域重建为待分割区域的大小。
(2)、由于待分割病理图像通常是万像素*万像素大小,远超神经网络处理的图像大小范围,将组织块图像以设定的放大倍数从全景图像的金字塔结构中提取出来,或者将组织块图像以设定的放大倍数进行缩放。将多组样本按照一定的比例随机分配到训练集或验证集,常见的比例是7:3,基于多组训练样本对原始分割模型进行训练。
(3)、网络模型构建:本发明采取了全卷积神经网络的编码器解码器结构来执行图像分割任务,可以将编码器变换为计算机视觉领域各个经典的网络架构,如ResNet、EfficientNet、MobileNet系列的网络,并加载网络在ImageNet、Coco等大型图像数据集上训练得到的权重进行迁移学习,可以有效提升在病理小数据集上训练的性能;可以将解码器结构变换为经典的全卷积神经网络UNet、PSPNet、LinkNet等。本发明实施例对网络模型的具体类型不作限定,该网络模型可以由任意类型的神经网络构成。可选地,该网络模型可以为卷积神经网络(Convolutional Neural Network,CNN)、深度神经网络(Deep NeuralNetwork,DNN)或循环神经网络(Recurrent Neural Network,RNN)等。该网络模型可以包括输入层、卷积层、池化层、连接层等神经网络层,本发明也不做限定。另外,本发明实施例对每一种神经网络层的个数也不作限定。
(4)、随机采样:样本图像和对应的血管掩膜图像不限长宽大小,在进行训练的时候,网络模型按照固定的输入大小对该图像进行随机的剪裁,边缘不足输入大小的图像进行反射填充,以增大数据集的多样性。
(5)、数据增强:包括适应性色彩变换、物体精确拼接增强和常见的形变和模糊等增强方法。本发明不限制色彩变换的方法,示例方法如下:以公开数据集中从不同医院收集的样本图像为多个色彩模板,将每个模板由RGB空间分解为苏木精、伊红和残差三个通道,计算苏木精、伊红两个通道的权重值,设定为模板值,创建模板值集合;将样本图像的通道分解为苏木精、伊红和残差三个通道,将样本图像苏木精、伊红通道的权重随机调整为模板值集合中的一个值;重新组合该图像调整后的苏木精、伊红通道和未经调整的残差通道,合成为新的样本图像,和血管掩膜图像作为一组训练样本。
本发明的优势在于从单中心得到的图像可以投影到多个医院不同染色条件和扫描仪器得到的图像的色彩空间,人为地增大了训练数据的多样性;调整为真实世界的模板值避免了任意调整色彩通道权重导致的图像失真(artifact)和部分组织无法辨认的问题;Leo等研究发现色彩相关的特征在深度学习模型中的稳定性较差,而对训练样本的色彩标准化无法解决色彩空间不一致的问题,且使这些特征的不稳定性进一步恶化;相反,Bandi、Tellez等人的多个研究显示在训练过程中引入色彩增强技术可以有效提升模型的性能。
所述物体精确拼接增强的示例方法如下:在训练集中,按照微血管掩膜图像从样本图像中随机剪裁出多个微血管的精确范围内的子图,剪裁出对应的掩膜图像子图;以随机选择一张目标图像的随机位置为起点,将随机数值的剪裁出的样本微血管子图粘贴到该位置并覆盖原先的像素值,将对应的掩膜微血管子图粘贴到该目标图像对应的掩膜图像位置并覆盖原先的像素值;对拼接后的掩膜图像上的微血管分型进行像素级的多数投票(Majority voting)以更新被覆盖的微血管的分型。该方法避免了常用的拼接方法如马赛克拼贴、切分混合等造成的物体被切割导致的图像失真,而是在不改变主要背景且保持物体完整性的条件下丰富组织与微血管的组合形态,有效帮助模型训练性能的提升。
(6)、难分样本挖掘(Hard mining),改善多分类图像分割中遇到的类别不均衡的问题,微血管不同分型在自然状态下的分布有显著的差异,与肿瘤的级别和局部组织的性质相关,本发明中使用加权焦点损失函数(Weighted focal loss)和加权Dice损失函数(Weighted dice loss)进行组合,以提高难分样本在损失函数中的比重,改善训练集中部分类型血管样本量不足的问题。
步骤2、对训练的模型进行性能评估,应用主动学习策略挑选样本,具体包括以下步骤:
(1)、将验证集样本按照滑动窗算法(Sliding Window Tiling)进行切块,以降低切片操作对图像边缘附近的物体的影响,提高模型对切块图像边缘的识别性能。本发明不限定切块的大小和放大倍数,也不限定滑动窗算法设定的重叠像素值。
(2)、将切片图像输入训练过的网络模型,获取对应切片的5种分型的血管和背景分割概率矩阵。
(3)、分割结果后处理,包括:通过滑动窗图像融合算法,进行图像重建和对重叠的子分割概率矩阵进行加权平均,对多个子分割矩阵进行组合并确定待分割图像上每个像素点的分割结果;通过连通域算法、多数投票算法(majority voting)、分割区域形态学处理算法和噪点处理算法,对组合后的分割结果进行后处理,获得最终分割结果。
所述滑动窗图像融合算法包括:提取算法对每个切片图像上各个像素的分类概率,根据切片图像的坐标重新对应重叠到原图像的位置,并生成像素重叠计数矩阵,根据重叠计数矩阵对像素的概率值进行加权平均,可以选择高斯滤波或双边滤波等作为加权方法,选取每个像素概率值最大的分类作为该像素的最终分类。
所述分割区域形态学处理算法包括:提取融合后的图像上所有的连通目标,进行开运算,即先腐蚀后膨胀,用于移除由图像噪音形成的斑点;进行闭运算,即先膨胀后腐蚀,用来连接被误分为小块的非连通对象;填充所有连通域上的孔洞。
所述噪点处理包括:该噪点可以包括连通域面积太小的假阳点,根据医学先验知识设置微血管的最小面积,删除所有小于设定最小面积的连通区域。本发明实施例对此并不作具体限定,噪点还可以为其他不符合要求的点。
(4)、对训练的模型进行性能评估,对于验证集的样本,将其与标注结果进行比较,参数包括平均F1分数、平均Jaccard分数和豪斯多夫距离(Hausdorff distance)。
其中,对于每一个分类的像素,可以计算其分类的正确情况,TP表示被模型预测为正类的正样本,TN表示被模型预测为负类的负样本,FP表示被模型预测为正类的负样本,FN表示被模型预测为负类的正样本;根据每个分类的像素的正确情况,可以计算F1分数:将所有分类的F1分数做平均值即可得到平均F1分数,作为算法模型性能的比较参数。对于每一个分类的像素的正确情况,可以计算其IoU系数:将所有分类的IoU系数做平均值即可得到平均IoU系数,作为算法模型性能的比较参数。
对于每一个分割出的物体,可以计算基于物体轮廓点集的Hausdorff距离:h(A,B)和h(B,A)为从A集合到B集合和从B集合到A集合的单向Hausdorff距离。 实际上首先对点集A中的每个点ai到距离此点ai最近的B集合中点bj之间的距离‖ai-bj‖进行排序,然后取该距离中的最大值作为h(A,B)的值;h(B,A)同理可得;H(A,B)=max(h(A,B),h(B,A))即双向Hausdorff距离H(A,B)是单向距离h(A,B)和h(B,A)两者中的较大者,它度量了两个点集间的最大不匹配程度,为物体外轮廓形状相似性的度量。
(5)、应用主动学习策略对训练模型进行迭代,直到性能参数达到预定目标,具体步骤包括:对分割得到的概率矩阵计算Brier分数,对训练后的模型在像素级别上的预测不确定性进行度量:
其中,为输入样本图像和对应的掩膜图像,y是且仅是k个分型(k∈{1,...,K})中的一个分型,表示训练好的模型对输入图像的每一个像素的分类预测结果,表示该分类预测结果的概率值。Brier分数即对每个样本测量模型预测的概率矩阵与标注结果之间的均方差。因此,一组预测的Brier分数越低,则对预测的确定性越高。
依据Brier分数挑选出模型预测效果较差的样本,针对性地挑选与该样本相似度高的新的样本用于标注,通过迭代的方式,对分类器模型进行更新。
病理图像的标注需要通过本领域内有经验的医师来完成,正是由于图像分割标注上的困难,能够获得的训练样本的数量是比较有限的。然而,在小训练样本情况下,分类器的性能可能受到很大影响。如何对尽量少的样本进行人工标注,并获得较好的分类性能也成为图像分割任务中的一个关键问题。通过主动学习策略,可以高效利用病例和医师标注资源,提高训练集的构建效率。
如图3所示,本发明还提供一种基于图像标注和分割模型的训练装置,其为针对病理全景图像的深度神经网络训练装置,所述装置包括:预处理模块100,用于对多个病理全景图像和标注掩膜分别进行组织提取与裁切,获得多个大小相同的小图片和对应的掩膜图片,构成样本集;训练模块200,用于将所述样本集输入初始神经网络模型,并将所述初始神经网络模型的输出通过Softmax函数计算,得到所述样本集中每个所述小图片上每个像素的输出概率向量;其中,所述初始神经网络模型通过迁移学习训练得到,获得用于对病理全景图像上感兴趣组织进行分割的神经网络模型;损失函数计算模块300,用于根据预设样本集的每个所述小图片的输出概率矩阵计算梯度模长和梯度密度,并根据所述梯度模长和梯度密度计算损失函数;后处理模块400,用于将与预处理模块裁切的样本图像对应的模型预测得到的概率图融合重建为全景图像,并进行分型投票、轮廓平滑、孔洞填充、噪点处理操作,改善由于裁切导致的样本图像边缘物体难以识别的问题,提升算法性能;性能评估模块500,用于对训练得到的神经网络模型的性能表现进行评估,提取出模型预测效果不佳的样本,进行数据标注和算法训练的迭代过程,进一步提升模型的性能。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于图像标注和分割模型的训练方法,其特征在于,包括如下步骤:
步骤1、获取样本病理组织连续切片全景图像序列,包括H&E染色图像和CD34、α-SMA免疫组织化学染色图像;挑选样本数据集中典型的图像,其余数据在模型训练的反馈后重新进行挑选;通过医学先验知识划分微血管分型;通过将对应的CD34和α-SMA免疫组织化学染色图像与待标注的H&E图像进行配准,获得准确的血管存在和分型结果的参考标准;对H&E图像对照配准后的免疫组织化学图像进行标注,获取样本H&E图像的多分类血管标注掩膜;
步骤2、根据所述步骤1中标注后的图像得到的训练样本,进行预处理;训练图像分割卷积神经网络模型,以完成微血管分型分割的任务;对当前训练好的模型进行性能评估;根据性能评估结果挑选出模型表现不佳的图像,重新挑选需要标注的样本数据;根据新一轮的训练样本,重复训练,直到达到预定的性能指标。
2.根据权利要求1所述的一种基于图像标注和分割模型的训练方法,其特征在于,所述步骤1中的配准的算法包括手动配准、基于图像强度的自动配准或者基于地标的半自动配准方法,应用刚性或非刚性形变。
3.根据权利要求1所述的一种基于图像标注和分割模型的训练方法,其特征在于,训练图像分割卷积神经网络模型具体包括:
步骤(1)、收集样本图像和对应的微血管掩膜图像作为一组样本;
步骤(2)、将组织块图像以设定的放大倍数从全景图像的金字塔结构中提取出来,或者将组织块图像以设定的放大倍数进行缩放;将多组样本按照一定的比例随机分配到训练集或验证集,基于多组训练样本对原始分割模型进行训练;
步骤(3)、构建网络模型;
步骤(4)、进行随机采样,即网络模型按照固定的输入大小对该样本图像和对应的微血管掩膜图像进行随机的一致的剪裁,边缘不足输入大小的图像进行反射填充,以增大数据集的多样性;
步骤(5)、进行数据增强;
步骤(6)、进行难分样本挖掘,改善多分类图像分割中的类别不均衡。
4.根据权利要求1所述的一种基于图像标注和分割模型的训练方法,其特征在于,对当前训练好的模型进行性能评估;根据性能评估结果挑选出模型表现不佳的图像,重新挑选需要标注的样本数据;根据新一轮的训练样本,重复训练,直到达到预定的性能指标,具体包括以下步骤:
步骤(1)、将验证集样本按照滑动窗算法进行切块;
步骤(2)、将切片图像输入训练过的网络模型,获取对应切片的5种分型的血管和背景分割概率矩阵;
步骤(3)、分割结果后处理,包括:通过滑动窗图像融合算法,进行图像重建和对重叠的子分割概率矩阵进行加权平均,对多个子分割矩阵进行组合并确定待分割图像上每个像素点的分割结果;通过连通域算法、多数投票算法、分割区域形态学处理算法和噪点处理算法,对组合后的分割结果进行后处理,获得最终分割结果;
步骤(4)、对训练模型进行性能评估;
步骤(5)、应用主动学习策略对训练模型进行迭代,直到性能参数达到预定目标。
5.根据权利要求3所述的一种基于图像标注和分割模型的训练方法,其特征在于,所述步骤(1)包括:使用全局阈值算法对组织块所在的区域进行提取,将图像上面积大于设定最小面积值的空白区域去除,按照连通域算法提取出连续的组织块,如果存在多个连通域则将该区域按照连通性进行分割,得到独立的组织块图像;提取出的组织块图像形状不规则,计算每个组织块形状的最小边界框,以每个边界框为待分割的组织块的范围;记录每个待分割组织块图像的左上角(x,y)坐标,以便组织块图像与空白区域重建为待分割区域的大小。
6.根据权利要求3所述的一种基于图像标注和分割模型的训练方法,其特征在于,所述步骤(3)中,所述网络模型为卷积神经网络、深度神经网络或循环神经网络。
7.根据权利要求3所述的一种基于图像标注和分割模型的训练方法,其特征在于,所述步骤(5)包括:以公开数据集中从不同医院收集的样本图像为多个色彩模板,将每个模板由RGB空间分解为苏木精、伊红和残差三个通道,计算苏木精、伊红两个通道的权重值,设定为模板值,创建模板值集合;将样本图像的通道分解为苏木精、伊红和残差三个通道,将样本图像苏木精、伊红通道的权重随机调整为模板值集合中的一个值;重新组合该图像调整后的苏木精、伊红通道和未经调整的残差通道,合成为新的样本图像,和血管掩膜图像作为一组训练样本。
8.根据权利要求3所述的一种基于图像标注和分割模型的训练方法,其特征在于,所述步骤(6)包括:使用加权焦点损失函数和加权Dice损失函数进行组合,以提高难分样本在损失函数中的比重。
9.实现权利要求1-8之一所述的一种基于图像标注和分割模型的训练方法的训练装置,其特征在于,包括:预处理模块,用于对多个病理全景图像和标注掩膜分别进行组织提取与裁切,获得多个大小相同的小图片和对应的掩膜图片,构成样本集;训练模块,用于将所述样本集输入初始神经网络模型,并将所述初始神经网络模型的输出通过计算得到所述样本集中每个所述小图片上每个像素的输出概率向量;损失函数计算模块,用于根据预设样本集的每个所述小图片的输出概率矩阵计算梯度模长和梯度密度,并根据所述梯度模长和梯度密度计算损失函数;后处理模块,用于将与预处理模块裁切的样本图像对应的模型预测得到的概率图融合重建为全景图像,并进行分型投票、轮廓平滑、孔洞填充、噪点处理操作;性能评估模块,用于对训练得到的神经网络模型的性能表现进行评估,提取出模型预测效果不佳的样本,进行数据标注和算法训练的迭代过程。
10.根据权利要求9所述的训练装置,其特征在于,所述初始神经网络模型通过迁移学习训练得到,作为用于对病理全景图像上感兴趣组织进行分割的神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211131103.2A CN115546605A (zh) | 2022-09-16 | 2022-09-16 | 一种基于图像标注和分割模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211131103.2A CN115546605A (zh) | 2022-09-16 | 2022-09-16 | 一种基于图像标注和分割模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115546605A true CN115546605A (zh) | 2022-12-30 |
Family
ID=84726891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211131103.2A Pending CN115546605A (zh) | 2022-09-16 | 2022-09-16 | 一种基于图像标注和分割模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546605A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386043A (zh) * | 2023-03-27 | 2023-07-04 | 北京市神经外科研究所 | 一种脑神经医疗影像胶质瘤区域快速标记方法及系统 |
CN116883397A (zh) * | 2023-09-06 | 2023-10-13 | 佳木斯大学 | 一种应用于解剖病理学的自动精益方法及系统 |
CN117095241A (zh) * | 2023-10-17 | 2023-11-21 | 四川大学 | 一种耐药性肺结核类别的筛查方法、系统、设备及介质 |
CN117637020A (zh) * | 2024-01-25 | 2024-03-01 | 鲁东大学 | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 |
CN117637020B (zh) * | 2024-01-25 | 2024-04-30 | 鲁东大学 | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 |
-
2022
- 2022-09-16 CN CN202211131103.2A patent/CN115546605A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386043A (zh) * | 2023-03-27 | 2023-07-04 | 北京市神经外科研究所 | 一种脑神经医疗影像胶质瘤区域快速标记方法及系统 |
CN116883397A (zh) * | 2023-09-06 | 2023-10-13 | 佳木斯大学 | 一种应用于解剖病理学的自动精益方法及系统 |
CN116883397B (zh) * | 2023-09-06 | 2023-12-08 | 佳木斯大学 | 一种应用于解剖病理学的自动精益方法及系统 |
CN117095241A (zh) * | 2023-10-17 | 2023-11-21 | 四川大学 | 一种耐药性肺结核类别的筛查方法、系统、设备及介质 |
CN117095241B (zh) * | 2023-10-17 | 2024-01-12 | 四川大学 | 一种耐药性肺结核类别的筛查方法、系统、设备及介质 |
CN117637020A (zh) * | 2024-01-25 | 2024-03-01 | 鲁东大学 | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 |
CN117637020B (zh) * | 2024-01-25 | 2024-04-30 | 鲁东大学 | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11842556B2 (en) | Image analysis method, apparatus, program, and learned deep learning algorithm | |
CN106056595B (zh) | 基于深度卷积神经网络自动识别甲状腺结节良恶性的辅助诊断系统 | |
CN110472616B (zh) | 图像识别方法、装置、计算机设备及存储介质 | |
Oskal et al. | A U-net based approach to epidermal tissue segmentation in whole slide histopathological images | |
Bjornsson et al. | Associative image analysis: a method for automated quantification of 3D multi-parameter images of brain tissue | |
CN106570505B (zh) | 对组织病理图像进行分析的方法和系统 | |
CN113454733A (zh) | 用于预后组织模式识别的多实例学习器 | |
WO2021203795A1 (zh) | 一种基于显著性密集连接扩张卷积网络的胰腺ct自动分割方法 | |
CN115546605A (zh) | 一种基于图像标注和分割模型的训练方法及装置 | |
CN113574534A (zh) | 使用基于距离的相似性标签的机器学习 | |
Pan et al. | Cell detection in pathology and microscopy images with multi-scale fully convolutional neural networks | |
CN110543912B (zh) | 自动获取胎儿关键切面超声视频中心动周期视频的方法 | |
Nofallah et al. | Machine learning techniques for mitoses classification | |
CN112215217B (zh) | 模拟医师阅片的数字图像识别方法及装置 | |
CN112419452B (zh) | 一种胃癌pd-l1数字病理切片图像快速合并系统及方法 | |
CN110796661B (zh) | 基于卷积神经网络的真菌显微图像分割检测方法及系统 | |
CN114782372B (zh) | Dna荧光原位杂交bcr/abl融合状态检测方法、检测系统 | |
CN113657449A (zh) | 一种含噪标注数据的中医舌象腐腻分类方法 | |
Razavi et al. | Minugan: Dual segmentation of mitoses and nuclei using conditional gans on multi-center breast h&e images | |
CN114332572B (zh) | 基于显著图引导分层密集特征融合网络用于提取乳腺病变超声图像多尺度融合特征参数方法 | |
CN113393454A (zh) | 活检组织中病理目标实例分割方法和装置 | |
CN111476802B (zh) | 一种医学图像分割与肿瘤检测方法,设备及可读存储介质 | |
CN116468690B (zh) | 基于深度学习的浸润性非粘液性肺腺癌的亚型分析系统 | |
CN107590806A (zh) | 一种基于大脑医学成像的检测方法和系统 | |
Arar et al. | High-quality immunohistochemical stains through computational assay parameter optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |