CN116884597A - 基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法及系统 - Google Patents
基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法及系统 Download PDFInfo
- Publication number
- CN116884597A CN116884597A CN202310706236.6A CN202310706236A CN116884597A CN 116884597 A CN116884597 A CN 116884597A CN 202310706236 A CN202310706236 A CN 202310706236A CN 116884597 A CN116884597 A CN 116884597A
- Authority
- CN
- China
- Prior art keywords
- training
- level
- patch
- pathological
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 102
- 230000001575 pathological effect Effects 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 64
- 206010006187 Breast cancer Diseases 0.000 title claims abstract description 51
- 208000026310 Breast neoplasm Diseases 0.000 title claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 21
- 238000004821 distillation Methods 0.000 claims abstract description 15
- 238000004043 dyeing Methods 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 238000010186 staining Methods 0.000 claims description 15
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 claims description 12
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 11
- 238000013140 knowledge distillation Methods 0.000 claims description 11
- 238000002156 mixing Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 6
- 230000008520 organization Effects 0.000 claims description 6
- 230000000379 polymerizing effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 2
- 230000007170 pathology Effects 0.000 abstract description 10
- 230000002776 aggregation Effects 0.000 abstract description 4
- 238000004220 aggregation Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 4
- 238000002372 labelling Methods 0.000 abstract description 4
- 238000012512 characterization method Methods 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 description 14
- 230000002055 immunohistochemical effect Effects 0.000 description 10
- 206010028980 Neoplasm Diseases 0.000 description 9
- 238000009826 distribution Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 9
- 238000003745 diagnosis Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 239000000090 biomarker Substances 0.000 description 4
- 102000015694 estrogen receptors Human genes 0.000 description 4
- 108010038795 estrogen receptors Proteins 0.000 description 4
- 102000003998 progesterone receptors Human genes 0.000 description 4
- 108090000468 progesterone receptors Proteins 0.000 description 4
- WZUVPPKBWHMQCE-UHFFFAOYSA-N Haematoxylin Chemical compound C12=CC(O)=C(O)C=C2CC2(O)C1C1=CC=C(O)C(O)=C1OC2 WZUVPPKBWHMQCE-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000003759 clinical diagnosis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000011532 immunohistochemical staining Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- YQGOJNYOYNNSMM-UHFFFAOYSA-N eosin Chemical compound [Na+].OC(=O)C1=CC=CC=C1C1=C2C=C(Br)C(=O)C(Br)=C2OC2=C(Br)C(O)=C(Br)C=C21 YQGOJNYOYNNSMM-UHFFFAOYSA-N 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 108091008039 hormone receptors Proteins 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提出一种基于自监督预训练和多示例学习的H&E病理图像乳腺癌分子分型预测方法。首先采集高分辨率多层级的H&E染色病理图像,并进行切片级弱标注;对病理图像进行分割预处理和patch提取,作为模型的输入;通过基于多尺度蒸馏和多层级重建学习的自监督预训练方法,获得强表征能力和泛化能力的patch级特征编码器;然后基于示例筛选和Transformer的多示例学习得到切片级的分子分型预测结果;最后基于训练的特征编码器和多示例聚合模型对H&E切片进行分子分型预测和热图生成,辅助医生选择高概率蜡块进行IHC评估,从而降低误诊风险。
Description
技术领域
本发明涉及图像识别技术领域,并特别涉及一种基于自监督预训练和多示例学习的病理图像乳腺癌分子分型预测方法和系统。
背景技术
乳腺癌已经成为全球发病率第一的癌症,危害性极大。病理诊断是乳腺癌临床诊断的“金标准”,由于乳腺癌肿瘤异质性高,临床上以基因表达为基础的乳腺癌分子分型常采用免疫组化(IHC)诊断,可作为个性化精准治疗的重要指标。根据ER(雌激素受体)、PR(孕激素受体)、HER2(人表皮生长因子受体2)及Ki67(主要反映增殖等分子标志物表达的不同),国际乳腺癌会议将乳腺癌分为四种分子分型,腔管A(Luminal A)、腔管B(Luminal B)、HER2阳性及三阴性(Basal-like),不同的分子分型对应不同的治疗方案。但目前临床诊断中,出于成本和工作量的考虑,病理医生一般会随机选择患者瘤体的一个蜡块进行IHC评估,若是三阴性则不会采用内分泌治疗和靶向治疗。如果患者其他蜡块存在ER、PR以及HER2的表达,这种方式将带来误判,耽误患者治疗。而H&E染色切片制作便捷,成本较低,患者瘤体的每个蜡块都对应多张H&E(苏木精-伊红染色Hematoxylin and Eosin)切片。如果通过H&E染色切片进行分子分型预判,选取高概率的蜡块进行IHC染色,就可以大大提高诊断效率,降低误诊率,具有重要的临床意义和研究价值。
病理学领域近年来提出了病理组学的概念,主要利用传统的图像分析和机器学习技术在病理切片中进行病灶区域的自动检测和分割,进一步对病理参数进行量化分析,比如采用统计学软件SPSS对乳腺癌分子分型与组织学分级的相关性进行统计分析。而目前从H&E染色切片上进行乳腺癌分子分型的研究较为前沿,相关的工作较少,许多仍采用较为传统的方法。例如使用逻辑回归来探索组织形态学和生物标志物表达之间的相关性,并使用深度神经网络来预测受检组织中的生物标志物表达。例如组织指纹,通过学习区分患者的H&E图像特征来预测ER、PR和HER2的表达状态。例如用深度学习的方法从H&E图像中预测激素受体水平。例如基于H&E切片的分子分型分类器,并分析了WSI内部的肿瘤异质性。虽然使用Inception-v3来提取特征,但仍采用传统的PCA降维和SVM分类器进行分类,分类效果受限。还例如采用深度学习的方法仅从H&E染色的图像中预测omics谱系的多种生物标志物,通过系统性大规模研究证明了在病理组织形态中包含对大量生物标志物的预测能力。例如通过对比学习的方法在H&E切片的上进行patch级预训练,并在肿瘤分类,HER2表达水平分类等任务进行了验证。例如聚焦于判别性patch的筛选,通过co-teaching训练框架和LOF策略实现噪声patch的过滤,并采用patch级和WSI级的联合损失进行优化,实现基于H&E切片的乳腺癌分子分型。
以上方法主要采用基于patch的分析方法,或具有patch级的标注,在patch特征聚合时往往采用简单的投票、池化等策略,对patch之间相关信息的挖掘不足。针对此不足,现有技术还提出了基于图神经网络的SlideGraph+,通过图结构建模patch之间的相关关系,可以从H&E染色切片推断出HER2标志物的阴阳性,从而实现了HER2分型和其它分型的二分类。随着自监督方法的发展,在H&E切片进行自监督预训练,取代了传统的自然图像预训练的特征编码器,并在乳腺癌分子分型任务上验证了效果。但由于跨域推断的困难,以上方法的性能较为受限。此外,大多数工作是针对一种或多种分子标注物的预测,直接通过H&E图像对分子分型进行四分类预测的工作较为缺乏,因此本发明的研究内容具有一定的前沿性。
发明内容
针对现有的基于弱监督学习方法进行H&E切片乳腺癌分子分型的方法在特征学习阶段对病理图像多层级等特性缺乏关注,特征聚合阶段对patch筛选,有效信息和相关性挖掘性能受限等问题,本发明提出有效的基于自监督预训练和多示例学习的乳腺癌病理图像分子分型方法。
具体来说,本发明提出了一种基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法,其中包括:
步骤1、获取全视野多层级乳腺癌H&E染色病理图像作为训练数据;以记录图像块patch坐标的方式对该训练数据的组织区域进行切分,并通过自监督预训练得到的特征提取模型,得到该训练数据每一个层级的patch的训练特征;
步骤2、通过引入注意力机制的多示例学习模型,得到每一个patch对分子分型类别预测结果的贡献度,选择贡献度最高的patch的训练特征输入多示例学习模型进行迭代学习,得到分类模型;
步骤3、将待预测的全视野多层级H&E染色病理图像作为目标数据,输入特征提取模型得到其每一个层级的patch的特征作为目标特征,将该目标特征送入训练好的分类模型中,聚合得到该目标数据的分子分型类别。
所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法,其中该分子分型包括:腔管A、腔管B、HER2阳性及三阴性。
所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法,其中该步骤1包括:基于分割预处理从低分辨率的训练数据中提取组织区域,在对应的高分辨率病理图像的组织区域进行小图片patch切分,记录patch坐标信息,用于后续直接在高分辨率病理图像中获取patch图像信息,作为特征提取模型的输入。
所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法,其中该步骤1包括:基于多尺度蒸馏模块和多层级重建模块,在无标注病理数据上对该特征提取模块进行自监督预训练,以同时关注病理多层级语义信息和底层结构信息;
其中该多尺度蒸馏模块,在自蒸馏学习的框架下,对学生网络输入多尺度的patch,而教师网络仍输入最大尺度的patch,从而在知识蒸馏的过程中,将不同尺度patch的语义信息都和最大尺度进行匹配,从而使得网络学习到在不同尺度下的病理特征表示;
多尺度重建模块,采用SimCLR对比学习方法预训练得到的特征编码器ResNet50作为多层级特征提取器,教师网络的输入图像和学生网络最大尺度的输入图像分别经过特征提取器,得到多个层级的特征图;教师网络和学生网络的输出特征分别通过解码器进行重建,重建图像也通过特征提取器得到多个层级特征图;最后,对原始图像和重建图像,以及其对应的四个层级的特征图计算平均损失MSE,以训练该多层级特征提取器。
所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型预测方法,其中该步骤2包括:将多示例模型的注意力权重作为贡献度,筛选出该训练数据的内贡献度大于阈值的patch。
所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型预测方法,其中该步骤1包括:对每个全视野多层级H&E染色病理图像进行分块,然后选取同一分子分型类别中不同全视野多层级H&E染色病理图像的图像块进行混合,得到新的训练数据,以增加训练数据的多样性和数据量。
所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型预测方法,其中步骤3包括:基于该多示例学习模型得到的该目标数据中patch的贡献度,构建概率热图。
本发明还提出了一种基于自监督预训练和多示例学习的病理图像乳腺癌分子分型系统,其中包括:
模块1,用于获取全视野多层级乳腺癌H&E染色病理图像作为训练数据;以记录图像块patch坐标的方式对该训练数据的组织区域进行切分,并通过自监督预训练得到的特征提取模型,得到该训练数据每一个层级的patch的训练特征;
模块2,用于通过引入注意力机制的多示例学习模型,得到每一个patch对分子分型类别预测结果的贡献度,选择贡献度最高的patch的训练特征输入多示例学习模型进行迭代学习,得到分类模型;
模块3,用于将待预测的全视野多层级H&E染色病理图像作为目标数据,输入特征提取模型得到其每一个层级的patch的特征作为目标特征,将该目标特征送入训练好的分类模型中,聚合得到该目标数据的分子分型类别。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法的程序。
本发明还提出了一种客户端,用于任意一种基于自监督预训练和多示例学习的病理图像乳腺癌分子分型系统。
由以上方案可知,本发明的优点在于:
本发明通过基于多尺度蒸馏和多层级重建的自监督预训练,基于patch筛选,数据融合增强以及Transformer模型的多示例学习方法,可以从H&E染色的乳腺癌病理图像得到患者乳腺癌分子分型的有效预测结果。病理医生可以以该结果为参考,选择更高概率的蜡块进行免疫组化(IHC)染色和进一步诊断,从而大大降低误诊风险,提高筛查效率。
附图说明
图1为基于自监督预训练和多示例学习的乳腺癌分子分型预测框架图。
具体实施方式
为了实现上述技术效果,本发明包括如下关键技术点:
关键点1,基于多尺度知识蒸馏的自监督预训练;有效挖掘病理图像多层级语义信息,在下游分子分型任务相对经典自蒸馏方法提升明显。
关键点2,融合多层级重建学习的自监督预训练;联合建模多层级语义信息和底层结构信息,在下游分子分型任务进一步提升。
关键点3,基于注意力机制的patch筛选策略;筛选出WSI中的高判别性patch进行学习和聚合,提高分子分型预测的表现。
关键点4,多分辨率融合和包级混合增强;patch级多分辨率融合和包级混合从小样本数据挖掘更多信息,提高了分子分型预测的表现。
关键点5,基于Transformer和分型对比损失分子分型预测;Transformer充分挖掘patch相关关系,分型对比损失关注分型判别,得到分子分型预测结果优于现有方法。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
步骤1:病理图像数据集采集和标注
病理图像的采集是本发明的研究基础,图像采集质量直接关系到后续研究内容的进行。本发明采用的病理图像数据集集来自某医院A的乳腺癌患者的全视野多层级H&E染色病理图像,包含40X,20X,10X,5X等分辨率层级。乳腺癌根据分子标记物表达水平不同分为管腔A,管腔B,HER2和三阴性四种分子分型,每类数量尽量保持均衡。
在自监督预训练阶段,本发明同时采用了Camelyon16等公开数据集作为预训练阶段的病理图像数据。因此,预训练阶段可以采用公开数据集及本发明来自某医院的病理图像数据,这些图像可以没有使用任何标注信息。为了加快处理速度,送入网络学习前需要将来自不同数据集的图像格式归一化为同样的数据存储格式,比如统一为tiff格式。
在多示例学习分子分型阶段,本发明采用来自某医院A的病理图像数据集。每张H&E染色图像提供全视野切片(WSI,Whole Slide Image)级的分子分型标注。由于病理医生无法从H&E染色图像直接进行分子分型诊断,因此数据集中每张H&E病理图像的分子分型标注来自H&E图像对应的免疫组化(IHC)检测结果。
步骤2:病理图像分割预处理和patch提取。
由于病理图像中往往包含大量非组织区域,这些区域与分子分型病理特征无关,因此在切分patch前会对切片进行分割预处理,去除背景区域,仅保留组织区域。可以将低分辨率,比如5X层级图像从RGB转换到HSV色彩空间,基于中值滤波进行模糊化处理,对饱和度通道图像进行阈值分割得到分割掩模。1表示组织(前景)区域,0表示非组织(背景)区域,得到的掩模,即前景区域轮廓用于patch提取。
分割预处理完成后,对于每个病理切片,在高分辨率层架,比如放大倍数20X下进行patch切分。可以采用patch间无重叠,或有重叠的提取方式,patch大小可以为256×256。本发明不直接存储提取的patch图像,而是记录每一个patch的大小和左上角坐标,读取patch时直接通过WSI文件和坐标文件进行patch图像的读取,降低了对内存的占用。
步骤3:基于多尺度蒸馏和多层级重建的自监督预训练
病理图像分析领域最新的研究往往把整个流程分为patch级特征提取和基于多示例学习的WSI级预测两大部分。第一部分常见的做法是采用在ImageNet等大规模自然图像数据集训练的模型作为特征提取器。但是,由于病理图像和自然图像在语义信息上存在巨大的差异,上述方法表征能力受限。而主流的对比学习方法没有考虑到病理图像多层级等特性。本部分提出基于多尺度蒸馏融合多层级重建的自监督预训练方法,可以在一些公开的病理图像数据集,比如Camelyon16,以及医院提供的病理图像数据集上进行预训练,得到高表征能力的patch级特征编码器。
(1)多尺度知识蒸馏预训练方法
相比对比学习方法,传统的知识蒸馏教师网络模型比学生网络更大更复杂,但本发明考虑到病理图像的组织形态复杂性高,并为了让知识蒸馏框架摆脱对负样本对的依赖,故采用学生和教师网络结构完全相同的知识蒸馏方法。考虑教师网络和学生网络输入为同一张图像经过不同随机数据增强的结果。设学生网络S模型参数为θs,教师网络T的模型参数为θt,学生网络和教师网络采用完全相同的模型结构但并不直接共享权重,因学生和教师网络结构相同参数相近,且效果类似,故训练结束后可选择教师网络或学生网络作为特征提取器。对于输入图像x,通过随机数据增强分别得到增强视角x1和x2,它们分别作为学生网络和教师网络的输入。该随机数据增强主要包括随机翻转,随机裁剪,随机颜色抖动等操作。
学生网络和教师网络的输出为K维的概率分布ps(x1)和ps(x2),它们为网络输出经过带温度系数的softmax正则化后的结果,计算方式如公式1和2所示。其中温度系数是对输出概率分布进行平滑,有利于概率分布匹配。它的值可以控制概率分布的平滑程度,训练过程中根据经验设置为0.04。
知识蒸馏的目标在于使得学生网络输出的概率分布和教师网络的概率分布进行匹配,使二者尽可能接近,从而学习到对随机数据增强不敏感的语义信息。本发明对教师网络和学生网络的输入进行互换,从而得到两组输出,对两组输出分别进行匹配,并采用交叉熵衡量输出之间的分布差异,对应的损失函数如公式3和4所示。
Ldistill=H(ps(x1),pT(x2))+H(ps(x2),pT(x1))#(3)
为了防止训练过程中模型坍缩的问题,教师网络的参数并不直接通过反向传播更新,而是通过指数移动平均策略(EMA)更新,如公式5所示。
θt=mθt+(1-m)θS#(5)
病理图像往往具有多层级金字塔结构,不同层级具有不同的分辨率或放大倍数,结合不同分辨率下的信息可以实现更加准确的辅助诊断。为得到的通用性更强的特征提取器,对每一个层级的patch都可以提取出有判别性的特征,对学生网络输入多尺度的病理patch,而教师网络仍输入单尺度(最大尺度)的病理patch。从而在知识蒸馏的过程中,将不同尺度patch的语义信息都和最大尺度进行匹配,从而使得网络学习到在不同尺度下的病理特征表示。
(2)融合多层级重建学习的预训练方法
本部分在此多尺度知识蒸馏的基础上加入重建式学习任务作为辅助任务,通过二者联合学习期望让编码器同时关注多层级语义信息和偏底层的病理特性,获得更通用和有表征能力的特征。
教师网络和学生网络都作为判别式学习的编码器,可以采用ViT-S16模型,此时输出维度为384维度。解码器采用卷积神经网络,先通过一维卷积得到1×1×512的向量,然后经过6次反卷积和批正则化操作,依次恢复分辨率,降低通道数,最后得到224×224×3的重建图像。
由于像素级重建忽略了大量高层语义信息,本发明进一步提出多层级重建学习。采用SimCLR对比学习方法预训练得到的特征编码器ResNet50作为多层级特征提取器。教师网络的输入图像和学生网络最大尺度的输入图像分别经过特征提取器,得到四个层级的特征图,尺寸分别为56×56,28×28,14×14,7×7。两个网络的输出特征分别通过解码器进行重建,重建图像也通过特征提取器得到四个层级特征图。最后,对原始图像和重建图像,以及其对应的四个层级的特征图计算MSE损失,期望对应图像的特征尽可能相似。总的重建损失为所有层级损失的加权和。自监督预训练框架的总损失为蒸馏损失和重建损失的加权和。
步骤4:基于示例筛选、增强和相关性学习的WSI级分子分型预测
(1)基于注意力机制的示例筛选
每一个WSI内,仅有一部分patch可以反映整张WSI对应的病理特性,因此存在大量噪声patch,会对模型分类精度产生影响,本发明聚焦于如何在包(WSI)内进行示例(patch)筛选,提出一种基于注意力权重的示例筛选方法。通过多示例学习的方法,引入注意力机制,得到每一个patch对整个WSI的重要程度或对最终预测结果的贡献度,这些注意力权重可以用于包内示例筛选,过滤掉对最终预测贡献较小的示例。
首先,我们在训练集提取的patch级特征上进行模型的第一轮次迭代学习,保存训练集中每个WSI的预测结果和每个patch的注意力权重。接着,每个WSI内部,我们将注意力权重进行归一化到0到100的范围,并将每个WSI的patch按照注意力权重从大到小排序。然后,设置注意力阈值进行筛选,如果设置阈值为20,则对于分类结果正确的WSI,筛选出注意力分数大于20的patch。最后,用筛选后的训练集子集的patch作为新的训练集,对模型进行第二轮次迭代学习。除了注意力权重,我们还考虑了WSI级分类结果,如果WSI的预测结果错误,则不进行筛选,以免错误筛除对当前WSI分子分型有判别性的示例。本发明采用的基于注意力机制的patch筛选方法,需要用训练好的分类模型得到初始结果,然后进行样本筛选后再训练,进行迭代。教师/学生网络用于提取patch特征,提取后还需要使用Transformer模型进行学习聚合得到WSI级预测结果。
(2)多分辨率融合和包级混合增强
基于多分辨率融合的示例级增强:病理图像具有多层级金字塔结构,不同层级,即不同放大倍数下可以包含不同的病理信息。本部分通过多分辨率融合的方式进行示例增强,力求让单个模型可以学习到多个分辨率的信息,从而进行更加有效的分子分型预测。我们采用了几种示例融合策略,通过实验效果对比选择效果最佳的策略,以10X和20X为例介绍多分辨率融合策略。
示例组合策略。由于不同分辨率的patch采用相同的特征提取器进行特征提取,它们的维度相同,可以直接进行包级的组合。假设某一WSI在10X下有M个d维patch特征,20X下有N个d维patch特征,组合后共有(M+N)个d维patch特征。为了尽可能维持patch的空间位置关系,10X的每个特征通过坐标信息查找在20X下距离最近的特征,并插入到该特征的前面,维持相邻特征在空间位置上接近的特性。
示例拼接策略。特征拼接的方式可以最大程度保存原特征的特性,但会增加计算量。假设某一WSI在10X下有M个d维patch特征,20X下有N(N>M)个d维patch特征,拼接后共有N个2d维patch特征。对于每一个20X的特征,在10X中查找和当前特征位置最近的特征,然后把两个特征进行拼接,作为增强特征。
示例加权融合策略。对于不同分辨率的特征,由于维度相同,可以直接进行相加操作,针对不同分辨率的信息不同,可以设置权重进行加权融合。假设WSI在10X下有M个d维patch特征,20X下有N(N>M)个d维patch特征,加权融合后共有N个d维patch特征。和上述策略相同,根据坐标信息选择每个20X特征相对应的10X特征进行融合。
基于示例分块混合的包级增强:本发明提出基于示例分块混合的包级数据增强方法。该方法通过同一分型的包之间的示例混合来生成新的包,以增加训练集的多样性。如果进行传统的随机采样,则WSI(包)内patch(示例)的位置关系则会被破坏,会影响包的质量。我们考虑了WSI内patch的空间位置关系,通过对每个包进行分块,然后选取同一类别中不同包的不同块进行混合。例如当混合的参数为3时,我们在每一个分型内任选三个包,并将每个包平均分为三块,选取第一个包第一块,第二个包的第二块,第三个包的第三块按照顺序组合为新的包。分块混合后,混合的包融合了几个包不同部分的特性,从而增加包级训练样本的多样性。
(3)基于Transformer和分型对比损失的分子分型预测
通过以上流程,我们实现了在包(WSI)内部筛选出更能反映病理特性的示例,并通过包级示例分块混合和示例级多分辨率融合的方法从小规模样本挖掘出更多的有效信息。本部分基于上述示例进行有效学习和聚合,对样本不均衡的多分类分子分型进行高精度判别。
我们将一个WSI所有patch提取的特征组成的序列作为Transformer编码器的输入。在序列中添加的class token将有侧重地聚合WSI所有patch特征的信息,最后的输出可以看作是包级特征,该特征输入多层感知机进行分类就可以得到WSI级的预测结果。
乳腺癌分子分型任务中,由于许多分型在H&E染色图像特征的表现类似,属于同一分型的不同图像特征分布差异大,加上小样本和样本类别不均衡的问题,对多分类问题造成诸多困难。本发明进一步提出基于Transformer的包级分型对比损失。引入分型记忆库(Memory bank)用于存储分型特征。每次输入一个WSI的全部patch级特征,通过上面部分提出的Transformer得到输出token序列。其中类别编码(class token)输入多层感知机(MLP)计算分类损失,其余token则大致代表每个patch聚合其它patch信息后的特征,将这些特征通过全局平均池化聚合,得到包级特征。使用得到的包级特征更新分型记忆库,若记忆库不存在当前分型,则直接将当前特征作为分型特征放入记忆库,进行下一次迭代;若存在,则计算一次对比损失,即缩小当前特征和记忆库内相同分型特征的距离,拉大当前特征和记忆库内不同分型特征的距离,最后通过加权移动平均法更新记忆库的当前分型特征。
步骤5:基于H&E切片的乳腺癌分子分型预测和热图生成
步骤2、3、4主要描述了模型训练的流程,本部分基于训练完成的模型进行H&E切片乳腺癌分子分型预测,以实现辅助诊断。多层级高分辨率的病理图像在指定层级被切分为许多(几千张)patch,接着通过自监督预训练得到的特征提取器进行patch级特征的提取。通过步骤4训练得到的Transformer模型实现patch级特征的聚合,得到WSI级的乳腺癌分子分型预测。
原始的注意力权重将被转化为百分位分数并缩放到0到1之间。将该权重进行色彩映射,每一个patch对应的区域转换为一个色块,同属于一个WSI的色块即构成了概率热图,从而可以在视觉上直观地识别高关注度区域和低关注度区域,采用JET热图的示例示出。为了展示区域关注度的同时可以看到病理图像组织的形态结构,将热力图以0.4的透明度叠加到降采样的原始图像上,得到最终的热图。
步骤6:辅助医生选择蜡块进行免疫组化IHC的评估。
本部分为该方法在临床应用的具体场景。首先,医生对患者瘤体的多个蜡块进行H&E染色,得到的病理切片扫描为对应格式的全视野数字病理图像。采用本发明提出的病理图像分子分型预测方法对H&E数字病理图像进行分子分型预测,得到预测的分型和对应的概率。医生根据实际情况选择对某一分型为高概率的蜡块进行免疫组化IHC染色评估,进一步确诊该患者的分子分型,并给出建议的治疗方案。这个流程和直接随机选取患者瘤体的一个蜡块进行分子分型预测相比,可以降低误诊风险,节省医生的工作量,加快筛查。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于自监督预训练和多示例学习的病理图像乳腺癌分子分型系统,包括:
模块1,用于获取全视野多层级乳腺癌H&E染色病理图像作为训练数据;以记录图像块patch坐标的方式对该训练数据的组织区域进行切分,并通过自监督预训练得到的特征提取模型,得到该训练数据每一个层级的patch的训练特征;
模块2,用于通过引入注意力机制的多示例学习模型,得到每一个patch对分子分型类别预测结果的贡献度,选择贡献度最高的patch的训练特征输入多示例学习模型进行迭代学习,得到分类模型;
模块3,用于将待预测的全视野多层级H&E染色病理图像作为目标数据,输入特征提取模型得到其每一个层级的patch的特征作为目标特征,将该目标特征送入训练好的分类模型中,聚合得到该目标数据的分子分型类别。
该分子分型包括:腔管A、腔管B、HER2阳性及三阴性。
该模块1包括:基于分割预处理从低分辨率的训练数据中提取组织区域,在对应的高分辨率病理图像的组织区域进行小图片patch切分,记录patch坐标信息,用于后续直接在高分辨率病理图像中获取patch图像信息,作为特征提取模型的输入。
该模块1包括:基于多尺度蒸馏模块和多层级重建模块,在无标注病理数据上对该特征提取模块进行自监督预训练,以同时关注病理多层级语义信息和底层结构信息;
其中该多尺度蒸馏模块,在自蒸馏学习的框架下,对学生网络输入多尺度的patch,而教师网络仍输入最大尺度的patch,从而在知识蒸馏的过程中,将不同尺度patch的语义信息都和最大尺度进行匹配,从而使得网络学习到在不同尺度下的病理特征表示;
多尺度重建模块,采用SimCLR对比学习方法预训练得到的特征编码器ResNet50作为多层级特征提取器,教师网络的输入图像和学生网络最大尺度的输入图像分别经过特征提取器,得到多个层级的特征图;教师网络和学生网络的输出特征分别通过解码器进行重建,重建图像也通过特征提取器得到多个层级特征图;最后,对原始图像和重建图像,以及其对应的四个层级的特征图计算平均损失MSE,以训练该多层级特征提取器。
该模块2包括:将多示例模型的注意力权重作为贡献度,筛选出该训练数据的内贡献度大于阈值的patch。
该模块1包括:对每个全视野多层级H&E染色病理图像进行分块,然后选取同一分子分型类别中不同全视野多层级H&E染色病理图像的图像块进行混合,得到新的训练数据,以增加训练数据的多样性和数据量。
该步骤步骤3包括:基于该多示例学习模型得到的该目标数据中patch的贡献度,构建概率热图。
Claims (10)
1.一种基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法,其特征在于,包括:
步骤1、获取全视野多层级乳腺癌H&E染色病理图像作为训练数据;以记录图像块patch坐标的方式对该训练数据的组织区域进行切分,并通过自监督预训练得到的特征提取模型,得到该训练数据每一个层级的patch的训练特征;
步骤2、通过引入注意力机制的多示例学习模型,得到每一个patch对分子分型类别预测结果的贡献度,选择贡献度最高的patch的训练特征输入多示例学习模型进行迭代学习,得到分类模型;
步骤3、将待预测的全视野多层级H&E染色病理图像作为目标数据,输入特征提取模型得到其每一个层级的patch的特征作为目标特征,将该目标特征送入训练好的分类模型中,聚合得到该目标数据的分子分型类别。
2.如权利要求1所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法,其特征在于,该分子分型包括:腔管A、腔管B、HER2阳性及三阴性。
3.如权利要求1所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法,其特征在于,该步骤1包括:基于分割预处理从低分辨率的训练数据中提取组织区域,在对应的高分辨率病理图像的组织区域进行小图片patch切分,记录patch坐标信息,用于后续直接在高分辨率病理图像中获取patch图像信息,作为特征提取模型的输入。
4.如权利要求1所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法,其特征在于,该步骤1包括:基于多尺度蒸馏模块和多层级重建模块,在无标注病理数据上对该特征提取模块进行自监督预训练,以同时关注病理多层级语义信息和底层结构信息;
其中该多尺度蒸馏模块,在自蒸馏学习的框架下,对学生网络输入多尺度的patch,而教师网络仍输入最大尺度的patch,从而在知识蒸馏的过程中,将不同尺度patch的语义信息都和最大尺度进行匹配,从而使得网络学习到在不同尺度下的病理特征表示;
多尺度重建模块,采用SimCLR对比学习方法预训练得到的特征编码器ResNet50作为多层级特征提取器,教师网络的输入图像和学生网络最大尺度的输入图像分别经过特征提取器,得到多个层级的特征图;教师网络和学生网络的输出特征分别通过解码器进行重建,重建图像也通过特征提取器得到多个层级特征图;最后,对原始图像和重建图像,以及其对应的四个层级的特征图计算平均损失MSE,以训练该多层级特征提取器。
5.如权利要求1所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型预测方法,其特征在于,该步骤2包括:将多示例模型的注意力权重作为贡献度,筛选出该训练数据的内贡献度大于阈值的patch。
6.如权利要求1所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型预测方法,其特征在于,该步骤1包括:对每个全视野多层级H&E染色病理图像进行分块,然后选取同一分子分型类别中不同全视野多层级H&E染色病理图像的图像块进行混合,得到新的训练数据,以增加训练数据的多样性和数据量。
7.如权利要求1所述的基于自监督预训练和多示例学习的病理图像乳腺癌分子分型预测方法,其特征在于,步骤3包括:基于该多示例学习模型得到的该目标数据中patch的贡献度,构建概率热图。
8.一种基于自监督预训练和多示例学习的病理图像乳腺癌分子分型系统,其特征在于,包括:
模块1,用于获取全视野多层级乳腺癌H&E染色病理图像作为训练数据;以记录图像块patch坐标的方式对该训练数据的组织区域进行切分,并通过自监督预训练得到的特征提取模型,得到该训练数据每一个层级的patch的训练特征;
模块2,用于通过引入注意力机制的多示例学习模型,得到每一个patch对分子分型类别预测结果的贡献度,选择贡献度最高的patch的训练特征输入多示例学习模型进行迭代学习,得到分类模型;
模块3,用于将待预测的全视野多层级H&E染色病理图像作为目标数据,输入特征提取模型得到其每一个层级的patch的特征作为目标特征,将该目标特征送入训练好的分类模型中,聚合得到该目标数据的分子分型类别。
9.一种存储介质,用于存储执行如权利要求1到4所述任意一种基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法的程序。
10.一种客户端,用于如权利要求8所述的一种基于自监督预训练和多示例学习的病理图像乳腺癌分子分型系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310706236.6A CN116884597A (zh) | 2023-06-14 | 2023-06-14 | 基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310706236.6A CN116884597A (zh) | 2023-06-14 | 2023-06-14 | 基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116884597A true CN116884597A (zh) | 2023-10-13 |
Family
ID=88263348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310706236.6A Pending CN116884597A (zh) | 2023-06-14 | 2023-06-14 | 基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884597A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392468A (zh) * | 2023-12-11 | 2024-01-12 | 山东大学 | 基于多示例学习的癌症病理图像分类系统、介质及设备 |
CN118072965A (zh) * | 2024-02-05 | 2024-05-24 | 北京透彻未来科技有限公司 | 一种基于自监督学习的病理大模型的构建方法 |
-
2023
- 2023-06-14 CN CN202310706236.6A patent/CN116884597A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392468A (zh) * | 2023-12-11 | 2024-01-12 | 山东大学 | 基于多示例学习的癌症病理图像分类系统、介质及设备 |
CN117392468B (zh) * | 2023-12-11 | 2024-02-13 | 山东大学 | 基于多示例学习的癌症病理图像分类系统、介质及设备 |
CN118072965A (zh) * | 2024-02-05 | 2024-05-24 | 北京透彻未来科技有限公司 | 一种基于自监督学习的病理大模型的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Silva-Rodríguez et al. | Going deeper through the Gleason scoring scale: An automatic end-to-end system for histology prostate grading and cribriform pattern detection | |
US10121245B2 (en) | Identification of inflammation in tissue images | |
US11954593B2 (en) | Method to determine a degree of abnormality, a respective computer readable medium and a distributed cancer analysis system | |
CN116884597A (zh) | 基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法及系统 | |
Tang et al. | Segnet-based gland segmentation from colon cancer histology images | |
EP3975110A1 (en) | A method of processing an image of tissue and a system for processing an image of tissue | |
CN115880262B (zh) | 基于在线噪声抑制策略的弱监督病理图像组织分割方法 | |
CN108305253A (zh) | 一种基于多倍率深度学习的病理全切片诊断方法 | |
Tahir et al. | Novel round-robin tabu search algorithm for prostate cancer classification and diagnosis using multispectral imagery | |
Lv et al. | Nuclei R-CNN: improve mask R-CNN for nuclei segmentation | |
CN111899259A (zh) | 一种基于卷积神经网络的前列腺癌组织微阵列分级方法 | |
BenTaieb et al. | Deep learning models for digital pathology | |
CN114445356A (zh) | 基于多分辨率的全视野病理切片图像肿瘤快速定位方法 | |
Kromp et al. | Deep Learning architectures for generalized immunofluorescence based nuclear image segmentation | |
CN114864075A (zh) | 一种基于病理图像的胶质瘤级别分析方法及装置 | |
Jahanifar et al. | Mitosis detection, fast and slow: robust and efficient detection of mitotic figures | |
CN118471527A (zh) | 乳腺癌症患者预后预测方法和装置、电子设备及存储介质 | |
Hwang et al. | A fuzzy segmentation method to learn classification of mitosis | |
CN116843956A (zh) | 一种宫颈病理图像异常细胞识别方法、系统及存储介质 | |
An et al. | Detection and segmentation of breast masses based on multi-layer feature fusion | |
Raza et al. | Mimicking a pathologist: dual attention model for scoring of gigapixel histology images | |
Ben Taieb | Analyzing cancers in digitized histopathology images | |
CN115527031B (zh) | 骨髓细胞图像分割方法、计算机设备以及可读存储介质 | |
Ahmed | Real-time and accurate deep learning-based multi-organ nucleus segmentation in histology images | |
CN116682576B (zh) | 一种基于双层图卷积神经网络的肝癌病理预后系统及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |