CN116883994A - 基于自监督学习识别非小细胞肺癌周组织病理类型的方法、装置及存储介质 - Google Patents
基于自监督学习识别非小细胞肺癌周组织病理类型的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116883994A CN116883994A CN202310633150.5A CN202310633150A CN116883994A CN 116883994 A CN116883994 A CN 116883994A CN 202310633150 A CN202310633150 A CN 202310633150A CN 116883994 A CN116883994 A CN 116883994A
- Authority
- CN
- China
- Prior art keywords
- self
- image
- lung cancer
- cell lung
- small cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001575 pathological effect Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 32
- 208000002154 non-small cell lung carcinoma Diseases 0.000 title claims abstract description 31
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 title claims abstract description 31
- 230000002093 peripheral effect Effects 0.000 title claims abstract description 19
- 238000003860 storage Methods 0.000 title claims description 6
- 230000011218 segmentation Effects 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 230000008520 organization Effects 0.000 claims abstract description 14
- 238000005520 cutting process Methods 0.000 claims abstract description 7
- 210000001519 tissue Anatomy 0.000 claims description 49
- 230000007170 pathology Effects 0.000 claims description 28
- 206010028980 Neoplasm Diseases 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 10
- 238000000926 separation method Methods 0.000 claims description 9
- 238000010186 staining Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000003176 fibrotic effect Effects 0.000 claims description 5
- 210000003563 lymphoid tissue Anatomy 0.000 claims description 5
- 230000001338 necrotic effect Effects 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000004913 activation Effects 0.000 description 11
- WZUVPPKBWHMQCE-UHFFFAOYSA-N Haematoxylin Chemical compound C12=CC(O)=C(O)C=C2CC2(O)C1C1=CC=C(O)C(O)=C1OC2 WZUVPPKBWHMQCE-UHFFFAOYSA-N 0.000 description 6
- 101150083764 KCNK9 gene Proteins 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 101150039208 KCNK3 gene Proteins 0.000 description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 201000005202 lung cancer Diseases 0.000 description 3
- 208000020816 lung neoplasm Diseases 0.000 description 3
- 230000017074 necrotic cell death Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 210000003171 tumor-infiltrating lymphocyte Anatomy 0.000 description 3
- 206010061309 Neoplasm progression Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000003855 cell nucleus Anatomy 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004043 dyeing Methods 0.000 description 2
- 210000002751 lymph Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 210000002536 stromal cell Anatomy 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 230000005751 tumor progression Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010016654 Fibrosis Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000004761 fibrosis Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 210000002540 macrophage Anatomy 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 239000000092 prognostic biomarker Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/695—Preprocessing, e.g. image segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法,包括以下步骤:S1、建立非小细胞肺癌数字病理图像组织分割数据集,数据集由训练集和测试集组成;S2、设立自监督课程学习策略,分别对训练集和测试集中的病理图像进行标记,通过设定了三个难度递增的借口任务来挖掘数据集中的内在特征,从而构建自监督学习任务来学习和识别病理图像中的信息,从而实现通过网络对病理图像进行标记的目的;S3、进行弱监督组织语义分割;本发明建立了非小细胞肺癌数字病理图像分割数据集,用于建立和优化自监督学习网络,并制定了数据集的准入标准和统计方式,从而提升组监督学习方法和切割的稳定性和准确性,优化识别病理类型模型。
Description
技术领域
本发明涉及医学领域,具体涉及一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法、装置及存储介质。
背景技术
计算病理的任务在于开发病理图像处理算法来辅助病理科医生进行临床诊断。深度卷积神经网络(DCNN)具有强大的特征编码能力,是目前图像处理领域(包括自然图像和医学图像)性能最好、应用最广泛的方法。DCNN是一种数据驱动型的方法,它的算法依赖于大量的数据。然而在医学图像领域,医学图形的获取涉及到大量的伦理问题,而且医学图像的标记需要标注者具备专业的领域知识,一般都需要由专业的临床医生来完成。因此,目前开源的数字病理图像数据集非常稀缺,具体到非小细胞肺癌数字病理图像分割数据集,目前还没有任何公开的数据集。一个样本丰富,标注规范的数据集是一项极为宝贵的资源,对于计算机辅助病理算法的开发有着基础性、关键性的作用。
在网络训练之前,作为CNN特征增强的一个预训练步骤,自监督学习策略已经广泛应用于医学图像处理,特别是在缺乏充足的手工标注数据的情况下。自监督学习往往会在训练主任务之前设定一个借口任务(Pretext Task),利用容易生成的标签来预训练网络权重。对于仅有图像级别数据标注的弱监督语义分割任务,自监督学习任务可以通过挖掘原始数据的内在特征来弥补图像级别标注和像素级别标注之间的监督信息差异。
现在已经证明,更复杂的借口任务可以帮助CNN到更好的特征表示。因此,本申请正在寻找更复杂的借口任务来进行自监督学习,用来优化网络。实现对原始图像旋转角度的预测,图像修复,图像拼接。
因此,本领域技术人员提供了一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法、装置及存储介质,以解决上述背景技术中提出的问题。
发明内容
为解决上述技术问题,本发明提供一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法,包括以下步骤:
S1、建立非小细胞肺癌数字病理图像组织分割数据集,数据集由训练集(训练组)和测试集(测试组)组成;
S2、设立自监督课程学习策略,分别对训练集和测试集中的病理图像进行标记,通过设定了三个难度递增的借口任务来挖掘数据集中的内在特征,从而构建自监督学习任务来学习和识别病理图像中的信息,从而实现通过网络对病理图像进行标记的目的;
S3、进行弱监督组织语义分割,在网络最终的输出层之前,把最后一层特征图采用全局池化运算并输入到全连接层得到所有类别的预测概率。通过这样一个简单的结构可以将全连接层的权重引入到全局平均池化层之前的特征图上并将特征图进行加权累加,从而得到CAM;
S4、将全切片扫描图像(WSI)切割成许多224*224大小的小片(Patch),然后将每一张Patch输入到卷积神经网络(CNN)为每一个类生成类激活图(Class Activation Maps,CAM),通过全连接的条件随机场(Fully-connected Conditional Random Field,FC-CRF)来优化CAM轮廓,从而将每张Patch的分割结果优化后再拼接回原始WSI中对应的位置,最终得到整张WSI的分割结果。
优选的:所述数据集的建立包括以下流程:
S1、确定数据集中所使用的图像数据来源,并确定纳入标准,数据集为WSI,并确定WSI中的组织类别,组织类别包括肿瘤组织、坏死的组织、淋巴组织、纤维化间质组织;
S2、对纳入数据集的WSI进行训练集和测试集划分,由专业的病理科医生勾画出每一张全切片扫描图像中的肿瘤区域,将全切片扫描图像截成小片,并标记每一张小片含有的组织类别。
优选的:所述自监督课程学习策略的三个阶段分别为:
在第一阶段,给CNN输入一张Patch,输出一张重构的Patch;
在第二阶段,通过把阶段一的重构任务替换成图像修复任务来进一步增加自监督学习任务的难度;
在第三阶段,把网络的输出目标替换成经过染色分离的病理图像。
4.根据权利要求1所述的一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法,其特征在于,所述三个自监督任务使用的主干网络都是ResNet38,都使用在ImageNet上训练好的参数初始化模型。
优选的:所述FC-CRF使用外观内核和平滑内核来计算两个像素间的特征距离,并在相邻的Patch之间设定了重叠区域,使得相邻的Patch之间的连接更加平滑。
优选的:对所述分割结果设置评价指标,指标的计算方法是预测值和真实值的交集和并集的比例,通过两种方式计算IoU,第一种是平均值方式,第二种是频率加权方式。
优选的:一种基于自监督学习识别非小细胞肺癌周组织病理类型的装置,应用于自监督学习识别非小细胞肺癌周组织病理类型,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于自监督学习识别非小细胞肺癌周组织病理类型程序,所述基于自监督学习识别非小细胞肺癌周组织病理类型程序被所述处理器执行时实现上述步骤。
优选的:一种存储介质,所述存储介质存储有一个或多个程序,所述一个或者多个程序可被一个或多个处理器执行,以实现上述步骤。
本发明的技术效果和优点:
1.本发明建立了非小细胞肺癌数字病理图像分割数据集,用于建立和优化自监督学习网络,并制定了数据集的准入标准和统计方式,从而提升组监督学习方法和切割的稳定性和准确性,优化识别病理类型模型。
2.本发明通过建立自监督学习网络来优化网络,实现更好的自监督课程学习的目的,也就是更准确的对病理图进行识别和切割。
3.本发明通采用弱监督学习方法进行组织分割,一个特定类别的CAM指示了CNN用来识别该类别对象的具有判别性的图像区域,且CAM中的像素值大小反映的是原图中对应位置对分类的重要性,在网络最终的输出层之前,把最后一层特征图采用全局池化运算并输入到全连接层得到所有类别的预测概率。通过这样一个简单的结构可以将全连接层的权重引入到全局平均池化层之前的特征图上并将特征图进行加权累加,从而计算出最后一层特征图中各个位置的像素对分类结果的重要程度。从而到得CAM,并对每一张CAM优化后重组,得到最终的WSI分割结果。
附图说明
图1是训练集数据及标记示意图;
图2是测试集数据和掩膜示意图;
图3是自监督课程学习和弱监督组织分割示意图;
图4是非小细胞肺癌数字病理图像及其对应的CAMs结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
请参阅图1~4,在本发明中提供一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法。
本发明特意建立了一个非小细胞肺癌数字病理图像组织分割数据集,该数据集包由训练集和测试集组成。训练集包含16678张非小细胞肺癌数字病理图像,考虑到人力成本和标注难度问题,训练集的图像采用简单便捷的图像级别的标注。测试集包含607张非小细胞肺癌数字病理图像,采用像素级别的标注。接下来将详细描述该数据集的建立流程。
本数据集使用了50张非小细胞肺癌(NSCLC)全切片扫描图像(WSI),它们均来自于温州医科大学附属第一医院病理科,使用苏木精-伊红进行染色,使用Leica,Aperio-AT2,USA扫描仪在40X(分辨率:0.252μm/pixel)放大倍数下扫描成切片数字化图像,并以SVS格式保存。本发明使用到的50张WSI根据以下标准挑选:(a)考虑到NSCLC肿瘤在形态、结构方面具有强烈的异质性,本发明纳入的样本尽可能地包含了多种不同生长方式的肿瘤病理切片,使得数据样本更接近总体;(b)可以接受的少量制片缺陷,如气泡、组织折叠、破碎和裂纹等;(c)样本应包含多种预后状态与疾病分级的病理切片。
本发明把组织的类别分为肿瘤组织,坏死的组织,淋巴组织,纤维化间质组织。组织病理学图像包含大量的肿瘤微环境信息(tumor microenvironment,TME),不仅在肿瘤的发生发展中起着重要作用,而且影响着肿瘤患者的治疗效果和预后,并且TME主要由肿瘤细胞、肿瘤浸润淋巴细胞(tumor-infiltrating lymphocytes,TILs)、基质细胞等组成。过去已有研究表明TILs是肺癌的预后生物标志物,基质细胞与肿瘤细胞之间的相互作用与肿瘤的进展有关。此外,细胞坏死在调节肿瘤微环境和促进肿瘤进展中发挥着重要作用。因此,准确地定位切片数字化病理图像中的肿瘤组织,坏死的组织,淋巴组织,纤维化基质组织,将对肿瘤微环境的理解分析,对癌症的预后研究都将有重要的意义。
在取得符合纳入标准的50张WSI后,本发明先对WSI进行分组,29张WSI用于生成训练集,21张WSI用于生成测试数据集。然后,由专业的病理科医生勾画出每一张WSI中的肿瘤区域,在10×放大倍数下(分辨率:1.008μm/pixel),训练组从每张WSI的肿瘤病灶中随机的截取出约800张224×224大小的Patch。为了保证数据集的质量,一些不符合规范的Patch需要被排除掉,例如背景区域占比过大的(RGB像素强度大于200的比例超过80%),扫描时对焦不清晰的,有污渍的等等。经过筛选后,训练组中一共包含16678张Patch。为了验证基于训练组开发的分割算法,本发明从21张WSI中挑选了一些具有代表性的Patch,一共607张。
训练组中病理图像数量巨大,全监督的像素级别的标注是一项极其耗时耗力的工作。因此,本发明采用了图像级别的方式来标注训练组图像,即针对每一张Patch,只标记其中存在的组织类别。假设数据集中的目标类别一共有N类,分别为C1,C2,…CN,其对应的标记向量为V1×N,V1xN中的每一个元素xn都是一个二值变量(0或1),xn=0代表Patch中不存在CN这一类组织,xn=1代表Patch中存在CN这一类组织,如图训练集数据及标记示意图所示。训练集一共由五位数据标注者完成,每一位数据标注者都先独立地完成所有数据的标注,如果同一张Patch在不同的标注者之间产生了不同的标注结果,则采用少数服从多数的方式来决定最终的标注结果,一定程度上较少了标注者的主观性的影响。而测试组的目的与模型的预测结果比较,评价模型分割结果的精度,因此本发明对测试组的所有Patch采用像素级别标注,如图2测试集数据和掩膜示意图所示。表1各类组织在数据集(训练集)中的占比统计和表2不同标记的Patch在数据集(训练集)中的占比。
表1
表2
在网络训练之前,作为CNN特征增强的一个预训练步骤,自监督学习策略已经广泛应用于医学图像处理,特别是在缺乏充足的手工标注数据的情况下。自监督学习往往会在训练主任务之前设定一个借口任务(Pretext Task),利用容易生成的标签来预训练网络权重。对于仅有图像级别数据标注的弱监督语义分割任务,自监督学习任务可以通过挖掘原始数据的内在特征来弥补图像级别标注和像素级别标注之间的监督信息差异。
进一步的,本发明提出了一个自监督课程学习策略(Curriculum Self-Supervised Learning,CSSL)。CSSL先让网络学习最简单的任务然后逐渐增加任务的难度,实践证实这种策略可以更好的优化网络。因此,和仅仅设定一个借口任务不同的是,本发明设定了三个难度递增的借口任务来达到自监督课程学习的目的。本发明中把自监督函数表示为F(J),J为输入图像。(i)是图像重构任务,(ii)是图像修复任务,(iii)是病理图像的染色分离任务。CSSL的详细细节将在图自监督课程学习和弱监督组织分割示意图和公式1-1中展示。
在CSSL的第一个阶段中,CNN模型被分配了一个简单的重构任务,即给CNN输入一张Patch,输出一张重构的Patch。其中,这里使用ResNet38作为骨架网络来提取特征。一般的图像重构任务都使用Encoder-Decoder的结构来重构一张和输入图像大小一样的输出图像,但是本发明摒弃了这一做法,直接使用1×1的卷积来压缩ResNet38最后一层卷积层的特征图,最终输出通道数为3,大小为原图下采样八倍的RGB图像。这样做的目的是为了使得自监督借口任务的网络结构和主任务的网络结构更加的契合,使得自监督任务学习到的特征表示可以更好的迁移到主任务上。值得注意的是,本发明的所有自监督学习任务都采用上述的一样的网络结构。图像重构任务的目的主要是让CNN网络学习低级别的特征,它训练的目标函数如公式1-2,其中T代表下采样运算。
Lstage1=||T(J)-F(J)||1 式1-2
在第二阶段,通过把阶段一的重构任务替换成图像修复任务来进一步增加自监督学习任务的难度。本发明通过涂鸦的方式来随机生成一些掩膜,并使用这些掩膜覆盖来原始图像的部分区域,生成待修复的图像作为CNN的输入,如图自监督课程学习和弱监督组织分割示意图3(a)所示。这一阶段网络优化的损失函数如公式1-3和1-4所示。L1损失和生成对抗损失LGAN用于图像修复任务,生成对抗模型(Generative Adversarial Networks,GAN),
Lstage2=||T(J)-F(J)‖1+LGAN 式1-3
LGAN=Ex~Pdata(x)[log(Dx))]+Ez~Pz(x)[log(1-D(G(z)))] 式1-4
自监督课程学习的阶段三进一步加大任务的难度,把网络的输出目标替换成经过染色分离的病理图像,如图自监督课程学习和弱监督组织分割示意图3(a)所示。苏木精-伊红(H&E)染色的病理图像经过染色分离计算后将RGB通道转化为H通道,E通道和DAB通道。H通道反映的是H&E染色的病理图像中对苏木精(Hematoxylin)敏感的区域,而细胞核对苏木精染剂敏感,会被它染成蓝色。因此,通过学习从原始病理图像的染色分离,可以强迫网络学习病理图像中细胞核的位置信息,这和组织分割是紧密相关的。阶段三中网络优化的损失函数和阶段二一样。
通过CSSL可以渐进的优化CNN主干网络,而无需人工标注成本。同时,它可以学习原始数据越来越丰富的内部特征表示,一定程度上地缩小全监督和弱监督学习之间的差距。
在自监督课程学习之后,本发明采用弱监督学习方法进行组织分割。如图自监督课程学习和弱监督组织分割示意图中阶段3(b)所示,这一阶段的CNN骨干网络是经自监督课程学习任务预训练的,可以作为语义分割任务的特征提取器。本发明的方法基于类激活图(Class Activation Maps,CAM),一个特定类别的CAM指示了CNN用来识别该类别对象的具有判别性的图像区域,且CAM中的像素值大小反映的是原图中对应位置对分类的重要性。CAM的计算方法如图自监督课程学习和弱监督组织分割示意图3(b)所示,在网络最终的输出层之前,把最后一层特征图采用全局池化运算并输入到全连接层得到所有类别的预测概率。通过这样一个简单的结构可以将全连接层的权重引入到全局平均池化层之前的特征图上并将特征图进行加权累加,从而计算出最后一层特征图中各个位置的像素对分类结果的重要程度。
全局平均池化输出的是最后一个卷积层每个特征通道的空间平均值,网络最终的输出就是这些值的加权求和。同样地,本发明计算最后一个卷积层特征图的加权和来获得CAM。下面举例更加具体和正式地描述CAM的生成过程。给定一张输入图像I,让代表最后一层卷积层输出的特征图的第k个通道在(x,y)处的激活值。然后对通道k进行全局平均池化的结果是:/>因此,对于一个给定的类别C,Softmax层的输入其中/>为通道k对应的类别C的权重,/>从本质上说明了Fk对于类别C的重要性。最后,类别C的Softmax输出为/>通过将/>代入,可以得到:
定义类别C的类激活图为MC,其中每个空间元素为:
因此,MC(x,y)直接指明了空间位置(x,y)处的激活值对于将输入图像分类为类别C的重要性。最后,通过简单地将CAM上采样到原输入图像的大小,可以识别出与特定类别最相关的图像区域。
尽管是在十倍放大倍数下,但WSI的尺寸依然十分巨大(通常可以达到20000*10000左右),因此本发明采用滑动窗口法来处理WSI。在十倍放大倍数下将WSI切割成许多224*224大小的Patch,然后将每一张Patch输入到CNN为每一个类生成CAM,得到每张Patch的分割结果后再拼接回原始WSI中对应的位置最终得到整张WSI的分割结果。
由CAM到获得分割结果需要进行一系列的后处理操作。首先,使用最大-最小值法来对CAM做标准化处理,将CAM的激活值都标准化到0到1之间。经标准化后的CAM为:
基于CAM直接生成的分割结果通常都是斑块状的,不太符合目标的轮廓。为此,本发明引用了全连接的条件随机场(Fully-connected Conditional Random Field,FC-CRF)来优化CAM。对于多个类别的语义分割,FC-CRF使用外观内核(Appearance Kernel)和平滑内核(Smoothness Kernel)来计算两个像素间的特征距离,本发明把像素特征设置为其中p=(px,py)代表像素的空间位置,J是像素的RGB值,J=(JR,JG,JB),两像素间的距离计算公式为:
本发明连续迭代使用5次FC-CRF,并把其中的超参数设置为w(1)=50,θα=10,θβ=40,w(2)=50,θγ=1。
在WSI中,除了含有肿瘤,坏死,淋巴,纤维化这四种组织以外,还会含有空白区域,巨噬细胞,出血区域等,在此本发明把定义的四种组织以外的区域统称为背景区域。本发明简单地把Patch转换成灰度图,然后把灰度值大于200的区域看作是空白区域,即
Mblank=H(RGB2GRAY(J)-200) 式1-9
若CAM中激活值的最大值仍小于设定阈值θother,则把这些区域看作是不属于肿瘤,坏死,淋巴,纤维化间质以外的其他区域,即:
Mother=H(θother-max(MT,MN,ML,MF)) 式1-11
在拼接步骤中为了使得相邻的Patch之间的连接更加平滑,本发明在相邻的Patch之间设定了宽度为56的重叠区域,重叠区域内CAM的激活值为相邻两个CAM的均值。最终确定分割结果的方式为:对于原始图像中(x,y)位置像素点J(x,y),其分类结果为
C(J(x,y))=Argmax(M(x,y)) 式1-12
其中M(x,y)代表MT,MN,ML,MF,Mother中(x,y)位置处的一共五个激活值,函数Argmax()返回的是输入中元素最大值对应的索引
三个自监督任务使用的主干网络都是ResNet38,都使用在ImageNet上训练好的参数初始化模型。在图像重构任务中,本发明将主干网络最后一层卷积层输出(4096*28*28)通过一个1×1的卷积将通道数压缩到3,输出一张原图1/8大小的图像,并将原始输入图像下采样8倍作为网络的重构对象;染色分离任务中的网络设置和重构任务基本一致,不同的地方是重构对象由原图改为经过染色分离并且下采样8倍的图像。在图像修复任务中,本发明还是使用和重构任务一样的网络设计,使用随机生成的掩膜掩盖原始图像的部分区域作为图像的输入,重构的目标是原始图像经过下采样8倍后的图像。在染色分离任务和图像修复任务中,本发明使用了生成对抗模型(Generative Adversarial Networks,GAN),引入了判别器网络来优化主干网络,使得生成的图像更接近目标图像。
对于基于自监督学习的弱监督组织分割,使用随机图像旋转和图像翻转进行数据增强,所有实验都使用优化器SGD来更新网络参数,并分层设定网络的初始化学习率和学习率衰减率,把网络最后一层卷积层参数的学习率初始化为0.1,其余权重的初始化学习率设为0.01,其余偏置项更新的初始化学习率为0.02。学习率衰减方案为:lr=initial_lr-0.9*global_step/max_step,其中lr为当前学习率,initial_lr为初始化学习率,global_step为当前网络迭代步数,max_step为网络最大迭代步数。
在本实验使用交并比(Intersection over Union,IoU)作为图像分割的评价指标,其计算方法是预测值和真实值的交集和并集的比例,如公式1-13所示:
通过两种方式来计算IoU,第一种是平均MIoU(Mean Intersection over Union),它先单独的计算每一个类的IoUC,再对IoUC求平均值:
其中N为语义分割中像素的类别。另一种方式是FIoU(Frequency-weightedIntersection over Union),即频率加权IoU,它的计算方式是根据数据集中每一类组织出现的频率对IoUC加权,即:
FIoU=∑CWC*IoUC 式1-15
FIoU考虑了数据集中各类组织出现的频率,可以消除数据类别不平衡对评价指标的干扰,可靠性更强。
使用上述方法生成的CAM,如下图4展示了非小细胞肺癌数字病理图像及其对应的CAMs,可以看出CAM中响应度高的地方和原始图像中的目标对象相对应。并且对于同一张输入图像,不同的组织类别对应着CAM中的不同区域。因此,CAM可以定位原始病理图像中的目标对象组织,经过进一步的后处理可以用于组织分割任务当中。
为了验证提出的自监督课程学习策略的有效性,本发明设置一系列实验来对比不同的自监督学习任务的影响,结果如下表3所示,其中IoU_T,IoU_N,IoU_L和IoU_S分别代表肿瘤组织,坏死组织,淋巴组织和间质的IoU。
表3
Task0直接使用在ImageNet上训练好的网络权重,通过迁移学习的方式作用于组织分类任务;Task1是图像重构任务,基于Task1的组织分割结果表现比Task0要好,原因在于在自监督任务中神经网络通过对图像的重构学习到具有了自我特征表征的能力;Task2是颜色反卷积任务,它的表现进一步的优于Task1,因为相对于Task1,它的自监督学习任务更具有针对性。通过学习染色分离,让网络具备了识别细胞核或者间质的能力,而细胞核又是各类组织的基本单元,因此Task2和组织分割任务具有更紧密的关联,这使得它对主任务产生更重要的影响;同样的,Task3的结果要优于Task1,因为在图像重构任务中,它的特征表示很可能只是压缩图像内容,而没有学习有语义意义的特征表示。而Task3图像修复任务目的是填补原始图像上的缺失块,这要求网络对图像场景有更深层次的语义理解,以及合成在大空间范围内的全局背景特征。更进一步地,Task2+Task3是一个多任务自监督学习任务,它不仅要求网络学习染色分离,而且还要学习根据图像背景修复缺失的图像补丁。因而它融合了Task2和Task3的特征表征能力,实验结果也证实了这一假设,Task2+Task3对后续分割任务的作用要大于Task2或者Task3。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。本发明中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。
Claims (8)
1.一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法,包括以下步骤:
S1、建立非小细胞肺癌数字病理图像组织分割数据集,数据集由训练集和测试集组成;
S2、设立自监督课程学习策略,分别对训练集和测试集中的病理图像进行标记,通过设定了三个难度递增的借口任务来挖掘数据集中的内在特征,从而构建自监督学习任务来学习和识别病理图像中的信息,从而实现通过网络对病理图像进行标记的目的,使用到的公式为:
自监督函数表示为F(J),J为输入图像。(i)是图像重构任务,(ii)是图像修复任务,(iii)是病理图像的染色分离任务;
S3、进行弱监督组织语义分割,在网络最终的输出层之前,把最后一层特征图采用全局池化运算并输入到全连接层得到所有类别的预测概率,通过这样一个简单的结构可以将全连接层的权重引入到全局平均池化层之前的特征图上并将特征图进行加权累加,从而得到CAM;
S4、生成WSI分割结果,将WSI切割成许多224*224大小的Patch,然后将每一张Patch输入到CNN为每一个类生成CAM,通过FC-CRF来优化CAM轮廓,从而将每张Patch的分割结果优化后再拼接回原始WSI中对应的位置,最终得到整张WSI的分割结果。
2.根据权利要求1所述的一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法,其特征在于,所述数据集的建立包括以下流程:
S1、确定数据集中所使用的图像数据来源,并确定纳入标准,数据集为全切片扫描图像,并确定图像中的组织类别,组织类别包括肿瘤组织、坏死的组织、淋巴组织、纤维化间质组织;
S2、对纳入数据集的WSI进行训练集和测试集划分,由专业的病理科医生勾画出每一张WSI像中的肿瘤区域,将WSI像截成Patch,并标记每一张Patch含有的组织类别。
3.根据权利要求1所述的一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法,其特征在于,所述自监督课程学习策略的三个阶段分别为:
在第一阶段,给CNN输入一张Patch,输出一张重构的Patch;
在第二阶段,通过把阶段一的重构任务替换成图像修复任务来进一步增加自监督学习任务的难度;
在第三阶段,把网络的输出目标替换成经过染色分离的病理图像。
4.根据权利要求1所述的一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法,其特征在于,所述三个自监督任务使用的主干网络都是ResNet38,都使用在ImageNet上训练好的参数初始化模型。
5.根据权利要求1所述的一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法,其特征在于,所述FC-CRF使用外观内核和平滑内核来计算两个像素间的特征距离,并在相邻的Patch之间设定了重叠区域,使得相邻的Patch之间的连接更加平滑。
6.根据权利要求1所述的一种基于自监督学习识别非小细胞肺癌周组织病理类型的方法,其特征在于,对所述分割结果设置评价指标,指标的计算方法是预测值和真实值的交集和并集的比例,公式如下:
IoU代表交并比,通过两种方式计算IoU,第一种是平均值方式,第二种是频率加权方式。
7.一种基于自监督学习识别非小细胞肺癌周组织病理类型的装置,应用于自监督学习识别非小细胞肺癌周组织病理类型,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于自监督学习识别非小细胞肺癌周组织病理类型程序,所述基于自监督学习识别非小细胞肺癌周组织病理类型程序被所述处理器执行时实现如权利要求1-6任一项所述步骤。
8.一种存储介质,所述存储介质存储有一个或多个程序,所述一个或者多个程序可被一个或多个处理器执行,以实现如权利要求1-6任一项所述步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310633150.5A CN116883994A (zh) | 2023-05-31 | 2023-05-31 | 基于自监督学习识别非小细胞肺癌周组织病理类型的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310633150.5A CN116883994A (zh) | 2023-05-31 | 2023-05-31 | 基于自监督学习识别非小细胞肺癌周组织病理类型的方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116883994A true CN116883994A (zh) | 2023-10-13 |
Family
ID=88255619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310633150.5A Pending CN116883994A (zh) | 2023-05-31 | 2023-05-31 | 基于自监督学习识别非小细胞肺癌周组织病理类型的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883994A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496276A (zh) * | 2023-12-29 | 2024-02-02 | 广州锟元方青医疗科技有限公司 | 肺癌细胞形态学分析、识别方法及计算机可读存储介质 |
-
2023
- 2023-05-31 CN CN202310633150.5A patent/CN116883994A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496276A (zh) * | 2023-12-29 | 2024-02-02 | 广州锟元方青医疗科技有限公司 | 肺癌细胞形态学分析、识别方法及计算机可读存储介质 |
CN117496276B (zh) * | 2023-12-29 | 2024-04-19 | 广州锟元方青医疗科技有限公司 | 肺癌细胞形态学分析、识别方法及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gandomkar et al. | MuDeRN: Multi-category classification of breast histopathological image using deep residual networks | |
Raza et al. | Micro-Net: A unified model for segmentation of various objects in microscopy images | |
Silva-Rodríguez et al. | Going deeper through the Gleason scoring scale: An automatic end-to-end system for histology prostate grading and cribriform pattern detection | |
Xian et al. | Automatic breast ultrasound image segmentation: A survey | |
Tang et al. | A two-stage approach for automatic liver segmentation with Faster R-CNN and DeepLab | |
Capdehourat et al. | Toward a combined tool to assist dermatologists in melanoma detection from dermoscopic images of pigmented skin lesions | |
Sori et al. | Multi-path convolutional neural network for lung cancer detection | |
Haj-Hassan et al. | Classifications of multispectral colorectal cancer tissues using convolution neural network | |
CN113256641B (zh) | 一种基于深度学习的皮肤病灶图像分割方法 | |
JP2008520345A (ja) | 超音波画像における病変の検出及び分類方法、及びそのシステム | |
Huang et al. | A new deep learning approach for the retinal hard exudates detection based on superpixel multi-feature extraction and patch-based CNN | |
Popescu et al. | Retinal blood vessel segmentation using pix2pix gan | |
CN108427963B (zh) | 一种基于深度学习的黑色素瘤皮肤病的分类识别方法 | |
Xu et al. | Using transfer learning on whole slide images to predict tumor mutational burden in bladder cancer patients | |
Cordeiro et al. | Analysis of supervised and semi-supervised GrowCut applied to segmentation of masses in mammography images | |
JP2023543044A (ja) | 組織の画像を処理する方法および組織の画像を処理するためのシステム | |
CN112419344A (zh) | 一种基于Chan-Vese模型的无监督图像分割方法 | |
CN116883994A (zh) | 基于自监督学习识别非小细胞肺癌周组织病理类型的方法、装置及存储介质 | |
CN115205588A (zh) | 基于人工智能的膀胱癌肌层浸润病理辅助诊断方法及装置 | |
Kromp et al. | Deep Learning architectures for generalized immunofluorescence based nuclear image segmentation | |
Reddy | Effective CNN-MSO method for brain tumor detection and segmentation | |
CN116230237B (zh) | 一种基于roi病灶特征的肺癌影响评价方法和系统 | |
Mocan et al. | Automatic Detection of Tumor Cells in Microscopic Images of Unstained Blood using Convolutional Neural Networks | |
Kavitha et al. | Classification of skin cancer segmentation using hybrid partial differential equation with fuzzy clustering based on machine learning techniques | |
CN114926486B (zh) | 一种基于多层级改进的甲状腺超声图像智能分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |