CN116912240B - 基于半监督学习的突变tp53免疫学检测方法 - Google Patents

基于半监督学习的突变tp53免疫学检测方法 Download PDF

Info

Publication number
CN116912240B
CN116912240B CN202311163393.3A CN202311163393A CN116912240B CN 116912240 B CN116912240 B CN 116912240B CN 202311163393 A CN202311163393 A CN 202311163393A CN 116912240 B CN116912240 B CN 116912240B
Authority
CN
China
Prior art keywords
module
staining
deep neural
neural network
dyeing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311163393.3A
Other languages
English (en)
Other versions
CN116912240A (zh
Inventor
左超
金彦伯
李加基
陈钱
孙佳嵩
卢林芃
周杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202311163393.3A priority Critical patent/CN116912240B/zh
Publication of CN116912240A publication Critical patent/CN116912240A/zh
Application granted granted Critical
Publication of CN116912240B publication Critical patent/CN116912240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Image Analysis (AREA)
  • Radiology & Medical Imaging (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Quality & Reliability (AREA)

Abstract

本发明公开了一种基于半监督学习的突变TP53免疫学检测方法,包括在每个胃腺体切片上获取H&E染色切片全片图像与p53染色切片全片图像;将H&E染色与p53染色切片的全片图像裁剪为相同大小并进行配准与角度校正,得到H&E染色与p53染色切片训练数据集;构建两个相同架构的基于移位窗视觉自注意力模型的深度神经网络;根据交叉伪标签监督的原理对两个深度神经网络进行训练,采用反向传播算法与优化算法对两个网络进行更新;将实时采集的H&E染色图像输入训练好的加入具体参数丢弃模块的深度神经网络进行获取突变TP53的区域掩膜。

Description

基于半监督学习的突变TP53免疫学检测方法
技术领域
本发明属于免疫学病理检测领域,具体为一种基于半监督学习的突变TP53免疫学检测方法。
背景技术
H&E染色是病理检测的常用方法,但仅通过H&E染色切片的形态学信息很难做出准确的病理诊断。目前在癌症诊断中,生物标记物可提供分子级的免疫学信息,有助于对肿瘤做出合理的诊断,而作为最常见的肿瘤抑制蛋白和转录因子的p53蛋白的免疫组化染色是一个很好的选择。控制p53蛋白生成的TP53基因是迄今发现与人类肿瘤相关性最高的基因,常被用于癌症诊断。与正常或阴性肿瘤相比,p53阳性肿瘤与突变的TP53基因表达密切相关。高水平的突变p53蛋白免疫组化染色(核染色阳性)与胃癌的诊断与预后紧密联系。但该免疫组化染色方法的缺点在于,染色成本高昂,耗时费力,且p53免疫组化染色切片制备成功率不高。
为了解决免疫组化染色高成本与操作复杂的问题,可以通过深度学习方法实现两种染色模态的映射。在一篇关于免疫组化染色的另一生物标记物Ki67识别的研究中,研究者使用经典的监督学习算法,以H&E染色切片和Ki67免疫组化染色切片作为训练材料,开发了一种用于自动检测神经内分泌瘤的深度学习数字掩模方法(文献“Predict Ki-67Positive Cells in H&E-Stained Images Using Deep Learning Independently FromIHC-Stained Images”,作者Yiqing Liu等)。但其不足之处在于大量医学数据是难以获取的,因此仅通过传统监督学习难以在数据量不足的前提下获得较好的肿瘤检测率,且神经网络这类参数类模型的检测结果本身就具有不确定性。
为了实现免疫组化深度学习染色,且使深度学习达成更好的效果,半监督学习(Semi-Supervised Learning,SSL)在传统监督学习使用标记数据来进行模式识别的基础上,同时使用大量的未标记数据来实现更高的检测率。在医学相关的深度学习工作中,要想获取足量的数据往往需要涉及到伦理问题审查,而且在数据标注方面同样需要投入巨量的时间。因此,将半监督学习的方法应用至肿瘤区域识别技术,可以在训练数据较少的情况下实现更高的识别精确度,或者在已有的足量数据的基础上进一步提升肿瘤区域识别的能力。尽管深度神经网络可以在测试集中展现出很高的能力,但其终究不是可解析的算法,而数据集不足使得深度学习的准确度更加难以保证,此时得到的网络往往是过拟合的局部解,在泛化性上欠佳,甚至会出现严重失误。因此,为深度学习预测结果提供可解释性或可信度刻不容缓。
在密切关注癌症诊断的同时,癌症预后也具有重大价值。肿瘤间质比(TSR)已被证实是多种实体肿瘤的可靠预后指标,包括食管癌、乳腺癌、结肠癌、早期宫颈癌与胃癌。例如,在抑制胃癌生长的研究中,它被用来衡量抗肿瘤疗效。然而,由于主观偏见和重复性问题,由病理学家评估的TSR没有应用于常规临床病理报告。
发明内容
本发明的目的在于提供一种基于半监督学习的突变TP53免疫学检测,该方法仅通过对常规H&E染色组织切片的分析,就能实现对胃癌突变TP53所在区域的检测。
实现本发明目的的技术方案为:一种基于半监督学习的突变TP53免疫学检测方法,具体步骤为:
在每个胃腺体切片上获取H&E染色切片全片图像与p53染色切片全片图像;
将H&E染色与p53染色切片的全片图像裁剪为相同大小,获得H&E染色输入图像,并对H&E染色与p53染色切片的全片图像进行配准与角度校正,在p53染色切片上获得突变抑癌基因TP53的所在区域作为H&E染色数据的标签,得到有标签的H&E染色切片训练数据集;
构建两个相同架构的基于移位窗视觉自注意力模型的深度神经网络,在其中一个深度神经网络的每一个梯度可导计算模块后加入具体参数丢弃模块;
根据交叉伪标签监督的原理对两个深度神经网络进行训练,采用反向传播算法与优化算法对两个网络进行更新;
将实时采集的H&E染色图像输入训练好的加入具体参数丢弃模块的深度神经网络进行获取突变TP53的区域掩膜。
优选地,在每个胃腺体切片上获取H&E染色切片数字化图像与p53染色切片数字化图像的具体方法为:
对胃腺体切片进行H&E染色并对H&E染色切片扫描获得H&E染色切片数字化图像,对H&E染色切片褪染后以p53作为生物标记物进行重染色;
利用数字病理切片扫描仪对p53染色的切片扫描,在每个切片上获取2幅大视场图。
优选地,通过结构相似度SSIM最大值匹配对裁剪后的H&E染色与p53染色切片的数字化图像进行配准,结构相似度SSIM的计算公式为:
其中和/>是两个图像的平均值,/>和/>是两个图像的标准差,/>是互协方差,/>和/>是正则化参数。
优选地,所述基于移位窗视觉自注意力模型的深度神经网络为编码器-解码器结构,编码器部分包括第一补丁分割模块、第一线性嵌入模块、四个阶段的移位窗视觉自注意力模型模块,所述第一补丁分割模块用于将H&E染色输入图像分割为不重叠的补丁,所述第一线性嵌入模块用于将补丁映射为一个像素大小,实现H&E染色输入图像的下采样,第一阶段移位窗视觉自注意力模型之前设置有线性嵌入模块,第二至第四阶段每一阶段移位窗视觉自注意力模型之前设置有补丁合并模块,补丁合并模块将H&E染色切片数字化图像分割为不重叠的子图,通过四个阶段的移位窗视觉自注意力模型模块进行特征提取,第四阶段的移位窗视觉自注意力模型模块输出的特征编码与第一阶段提取的浅层特征一同输入解码器;
解码器部分采用deeplabv3+结构,第四阶段的移位窗视觉自注意力模型模块输出的特征编码输入解码器的空洞空间卷积池化金字塔模块,所述空洞空间卷积池化金字塔模块使用不同膨胀率的空洞卷积来捕获多尺度的上下文信息,通过空洞空间卷积池化金字塔模块后的特征和来第一阶段的移位窗视觉自注意力模型模块提取的浅层特征进行通道融合,被映射到一个二进制掩膜。
优选地,每一阶段的移位窗视觉自注意力模型模块分别包括不同数量的基础模块,每个基础模块包括层规范化模块与基于窗口的多头自注意模块构成的第一级残差结构,层规范化模块与多层感知器构成的第二级残差结构,层规范化模块与移位窗口的多头自注意模块构成的第三级残差结构,层规范化模块与多层感知器构成的第四级残差结构,四级残差结构依次级联。
优选地,所述基于窗口的多头自注意模块、移位窗口的多头自注意模块、多层感知器与空洞空间卷积池化金字塔模块为梯度可导计算模块。
优选地,根据交叉伪标签监督的原理对两个网络进行训练的具体过程为:
利用有标签的H&E染色输入图像与其相应的突变TP53掩膜标签对两个深度神经网络进行训练,N为有标签的染色输入图像个数,将有标签的H&E染色输入图像作为输入数据,分别送入深度神经网络1与深度神经网络2,并以突变TP53掩膜作为标签数据来监督网络的生成结果;
将无相应标签数据的H&E染色输入图像送入深度神经网络1和深度神经网络2,生成两幅概率图/>和/>,/>为无标签的染色输入图像,M为无标签的染色输入图像个数,并基于公式/>在概率图的基础上生成伪标签,/>为生成概率图的通道数,k=1,2,以深度神经网络1生成的伪标签/>来监督深度神经网络2的生成结果,并以深度神经网络2生成的伪标签/>来监督深度神经网络1的生成结果/>
优选地,利用有标签的H&E染色输入图像对对两个深度神经网络进行训练时,监督部分损失函数定义为:
其中,为训练时批处理的数据量,/>交叉熵函数,/>和/>分别深度神经网络1和深度神经网络2对应的映射函数,/>为softmax激活函数。
优选地,将无相应标签数据的H&E染色输入图像送入深度神经网络进行训练时,无监督部分损失函数定义为:
其中,为训练时批处理的数据量,/>交叉熵函数,/>和/>分别深度神经网络1和深度神经网络2对应的映射函数,/>为softmax激活函数。
优选地,加入具体参数丢弃模块的深度神经网络的不确定性预测的损失函数为:
式中,为训练时批处理的数据量,/>为/>散度,/>为后验分布,/>为权重的先验分布。
本发明与现有技术相比,其显著优点为:(1)本发明避免了免疫组化染色的复杂流程与高昂成本,可直接以一幅H&E染色图像作为输入,快速、高效地检测出突变TP53所在区域。(2)利用本发明获取的突变TP53掩膜准确度更高,同时还可获取对于检测区域的不确定性估计,以指出高不确定度的错误检测结果并佐证正确的检测结果。(3)利用基于本发明的免疫学检测网络获得突变TP53掩膜,可以定量地计算胃部组织的预后指标TSR,其具有高可重复性,可替代传统的病理学家的主观预后评估。
下面结合附图对本发明做进一步详细的描述。
附图说明
图1为基于半监督学习的突变TP53免疫学检测方法流程示意图。
图2为数据制备过程示意图。
图3为肿瘤检测网络示意图。 图3中的(a)为基于移位窗视觉自注意力模块的编码器与基于空洞空间卷积池化金字塔模块的解码器;图3中的(b)为组成网络的各小模块组件示意图。
图4为半监督训练方法示意图。图4中的(a)为监督学习方法部分示意图;图4中的(b)为无监督学习方法部分示意图。
图5为测试集检测结果与标准结果的比较示意图。图5中的(a)为检测结果与标准结果的比较流程;图5中的(b)为6个样本的比较示意图。
图6为网络对于错误检测结果的不确定性估计能力的展示。图6中的(a)为网络检测结果;图6中的(b)为真实误差;图6中的(c)为实际肿瘤区域;图6中的(d)为不确定性估计。
图7为网络对于正确检测结果的不确定性估计能力的展示。图7中的(a)为网络检测结果;图7中的(b)为真实误差;图7中的(c)为实际肿瘤区域;图7中的(d) 为不确定性估计。
图8为基于本深度学习(DL)方法检测结果的定量TSR与病理学家(PA)评分的TSR之间的比较。图8中的(a)为病理学家的TSR评估与基于本方法的定量TSR评估;图8中的(b)为两种TSR评估结果的混淆矩阵;图8中的(c)为对两种TSR评估结果的统计直方图。
实施方式
一种基于半监督学习的突变TP53免疫学检测方法,首先构建两个架构相同的深度神经网络作为免疫学检测网络。本发明中,它们分别被称为深度神经网络1和深度神经网络2。深度神经网络1与深度神经网络2的输入数据为相同的H&E染色图像,输出数据包含两个通道,第一个通道(序号为0)为肿瘤间基质的概率分布图,第二个通道(序号为1)为肿瘤的概率分布图,并取每个像素位置最大通道值的序号,生成该染色图像的突变TP53区域掩膜图像。深度神经网络1与深度神经网络2采用不同的权重初始化方法进行独立训练,相当于在保证两个网络输入数据形貌一致性的同时,对输入数据进行不同的转换,隐式地扩大了训练数据量。数据准备阶段,本发明对H&E染色胃部切片进行去染色与p53重新染色,再通过SSIM相关性匹配和基于SURF算法和MSCA算法的角度校正,取得配准的H&E与p53染色数据,并经由颜色反卷积、阈值分割等数据处理算法,得到p53染色数据上突变TP53的区域掩膜。训练时,本发明采用配准的H&E染色图像与对应的突变TP53掩膜图像作为网络的输入数据与输出数据标签。训练结束后,将待检测的H&E染色图像输入至深度神经网络1,经过一系列计算后,得到该H&E染色图像对应的突变TP53区域掩膜,并通过贝叶斯推理获得该区域的不确定性分布结果。
一种基于半监督学习的免疫学检测方法,可直接在常规H&E染色切片的数字图像上检测出与癌症紧密相关的突变TP53基因,并对检测结果给出不确定性估计。本方法包括以下三个步骤:
步骤1:在每个胃腺体切片上获取H&E染色切片全片图像与p53染色切片全片图像;
在某些实施例中,对胃切片进行H&E染色,根据重染色方法(文献“A method toreuse archived h&e stained histology slides for a multiplex protein biomarkeranalysis”,作者J. P. Hinton等),褪染后以p53蛋白作为生物标记物进行重染色;选出3个有肿瘤侵染的胃组织,利用数字病理切片扫描仪分别对H&E染色与p53染色的切片进行扫描,一个切片获取2幅全视场图;
步骤2:将H&E染色与p53染色切片的全片图像裁剪为相同大小,获得H&E染色输入图像,并对H&E染色与p53染色切片的全片图像进行配准与角度校正,在p53染色切片上获得突变抑癌基因TP53的所在区域作为H&E染色数据的标签,得到H&E染色与p53染色切片训练数据集;
如图2所示,在某些实施例中,将H&E染色的全片图像与p53全片图像进一步裁剪成512◊512像素的图像,获得H&E染色输入图像与待配准的p53染色图像,并通过平移p53染色大视场图中的小区域图像,以搜索p53染色图像与H&E染色输入图像/>实现结构相似度(SSIM)的最大值匹配从而实现图像初步配准,SSIM公式定义为:
其中和/>是两个图像的平均值,/>和/>是标准差,/>是相互协方差,/>是正则化参数。之后,对初步配准后的p53图像采用SURF算法和MSAC算法(文献“Mlesac:A new robust estimator with application to estimating image geometry”,作者P.H. Torr等)进行角度校正配准、颜色反卷积DAB通道提取(文献“Quantification ofhistochemical staining by color deconvolution”,作者AC Ruifrok等)、阈值分割、腐蚀与膨胀,得到突变TP53掩膜/>作为H&E染色输入图像/>的标签。
本方法无需免疫组化染色(immunohistochemical,IHC),可直接在苏木精伊红(hematoxylin and eosin,H&E)染色胃部切片上检测出突变TP53所在的位置,也即肿瘤区域。本方法通过对于H&E染色的切片进行褪染色与p53重染色,以实现H&E染色图像与p53染色图像的自然粗配准,其在同一切片上染色,避免了连续切片带来的病理信息差异,保证了两种染色模态的一一对应关系。
步骤3:构建两个相同架构的基于移位窗视觉自注意力模型的深度神经网络,在其中一个深度神经网络的每一个梯度可导计算模块后加入具体参数丢弃模块;
两个相同架构的基于移位窗视觉自注意力模型(Swin Transformer)的肿瘤检测网络分别为深度神经网络网络1和深度神经网络网络2。两个深度神经网络网络采用不同的权重初始化方法进行初始化,因此二者的网络参数分别与/>。构建的肿瘤检测网络如图3所示,该模型为编码器-解码器结构。
如图3(a),编码器首先通过补丁分割模块(Patch Partition)将H&E染色输入图像分割为不重叠的补丁,然后通过线性嵌入模块(Linear Embedding)将补丁映射为一个像素大小,实现了输入图像的下采样,然后通过四个阶段的移位窗视觉自注意力模型模块进行特征提取。每一阶段的移位窗视觉自注意力模型模块包括若干基础模块,第一至第四阶段的基础模块数分别为1、1、3、1。
进一步的实施例或者,肿瘤检测网络中,在第一阶段之前加上线性嵌入模块实现特征投影,在第二至第四阶段之前使用补丁合并模块(Patch Merging)实现下采样。基于移位窗视觉自注意力模型四个阶段末端的最终特征编码与第一阶段提取的浅层特征一同输入解码器。
进一步的实施例中,如图3(b)所示,每个基础模块包括层规范化模块(LayerNorm, LN)与基于窗口的多头自注意模块(Windows Multi-head Self-Attention,W-MSA)构成的第一级残差结构,层规范化模块与多层感知器构成的第二级残差结构,层规范化模块与移位窗口的多头自注意模块(Shifted Windows Multi-Head Self-Attention,SW-MSA)构成的第三级残差结构,层规范化模块与多层感知器构成的第四级残差结构,四级残差结构依次级联。
如图3(a),解码器采用了deeplabv3+(文献“Encoder-decoder with atrousseparable convolution for semantic image segmentation”,作者L.-C. Chen等)的结构。它负责将编码后的潜在特征送入空洞空间卷积池化金字塔模块(Atrous SpatialPyramid Pooling,ASPP),该模块使用不同膨胀率的空洞卷积来捕获多尺度的上下文信息。通过空洞空间卷积池化金字塔模块后的特征和来自编码分支的浅层特征进行通道融合,最终被映射到一个二进制掩膜,与突变TP53掩膜对应。
进一步的实施例中,在网络1的基于窗口的多头自注意模块、移位窗口的多头自注意模块、多层感知器与空洞空间卷积池化金字塔模块后加入具体参数丢弃模块(Concretedropout, Cd)来对网络1的参数隐式地施加正态分布先验,使得网络1成为贝叶斯网络。加入具体参数丢弃模块后网络1的随机权重矩阵集合可表示为
步骤4:根据交叉伪标签监督的原理对两个深度神经网络进行训练,采用反向传播算法与优化算法对两个网络进行更新;训练数据集由少量有标注数据对与大量无标注数据组成。
如图4(a)所示,在某些实施例中,使用H&E染色输入图像与其相应的突变TP53掩膜/>标签,即/>进行训练,将/>作为输入数据,送入网络1与网络2,并以/>作为标签数据来监督网络的生成结果。该监督部分损失函数定义为:
其中为训练时批处理的数据量,/>交叉熵函数,/>和/>分别网络1和网络2对应的映射函数,/>为softmax激活函数。其次如图4(b),对于无相应标签数据的H&E染色图像/>, 则将/>送入网络1和网络2,生成两幅概率图/>和/>,并基于公式(/>为生成概率图的通道数)在概率图的基础上生成伪标签,以网络1生成的伪标签/>来监督网络2的生成结果/>,并以网络2生成的伪标签/>来监督网络1的生成结果/>。该无监督部分损失函数定义为:
具体参数丢弃模块用于近似网络1中的后验分布,关于具体参数丢弃模块的不确定性预测的损失函数定义为:
其中第一项为负对数似然函数,相当于监督部分的损失函数;第二项则是散度,用于最小化后验分布/>与权重的先验分布/>(这里假定为高斯分布)之间的差异。
深度神经网络1总的损失函数为监督部分损失函数、无监督部分损失函数以及不确定性预测的损失函数之和,深度神经网络2总的损失函数为监督部分损失函数与无监督部分损失函数之和。
步骤5:训练好网络后,仅需用网络1来进行检测与不确定性预测。输入未见过的H&E染色图像,则可预测突变TP53的区域掩膜/>。利用蒙特卡洛采样获取一系列网络参数,并求出该网络集合的预测结果的方差(文献“Dropout as a bayesianapproximation: Representing model uncertainty in deep learning”,作者Y. Gal等),以此作为网络的不确定度,其公式定义为:
其中是对于/>中突变TP53分布的预测概率。
在突变TP53免疫学检测的基础上应用于胃癌预后。根据TSR评估默认的截止值(基质比例=50%)将TSR分为四个区间:低TSR(0-25%)、略低TSR(25-50%)、略高TSR(50-75%)和高TSR(75-100%)。选定肿瘤间基质比例最大的热点区域(hotspots),去除明场背景后获得前景区域(Foreground, ),以检测出的突变TP53区域作为肿瘤区域(Tumor Region, />),并以其余区域为肿瘤间基质(Stroma Region, />),最终算得肿瘤间基质区域的面积和前景区域面积的比率,即癌症预后指标肿瘤间质比(Tumor Stroma Ratio, TSR),其公式定义为:
H&E染色切片仅提供形态学信息,是临床检测和医学研究中最常用的切片类型,而p53染色切片可提供与肿瘤形成密切相关的特异性分子级信息,成本高昂。本方法的意义在于可在常规性染色图像上直接实现对肿瘤特异性信息的识别,显著降低了癌症诊断的成本,并提高了肿瘤检测速度。
本发明中深度神经网络1和深度神经网络2的数据预处理与优化算法一致,但二者初始化相互独立且训练时并不共享参数,因此更新后得到的参数各异;
将H&E染色数据输入深度神经网络1和深度神经网络2,可输出肿瘤分布的概率图,随后经二值化处理得到肿瘤区域的掩膜图,通过最小化标签数据与掩膜图之间的差异来监督掩模图的生成;在监督学习的基础上实现伪标签的交叉监督,用深度神经网络1输出的掩膜图来监督深度神经网络2对概率图的预测,用深度神经网络2输出的掩膜图来监督深度神经网络1对概率图的预测,两个进程的损失函数都采用标准交叉熵函数。
本发明将H&E染色图像输入配备了具体参数丢弃模块模块的深度神经网络1,其不仅可直接得到对于突变TP53的检测结果,还可利用蒙特卡洛采样获取一系列网络参数样本,并通过贝叶斯推理求出该网络参数集合的预测结果的方差,以此度量网络的不确定度,指出网络检测结果中出错的区域,为本方法检测结果的提供了统计学解释。
本发明将突变TP53免疫学检测的结果用于胃癌预后,具体包括:1)确定肿瘤间基质比例最大的热点区域;2)去除明场背景区域后获得前景区域,以网络检测出的突变TP53区域作为肿瘤区域,并以其余区域为肿瘤间基质;3)算得肿瘤间基质区域的面积和前景区域面积的比率,即癌症预后指标肿瘤间质比(Tumor stroma ratio, TSR),用于胃癌预后。
实施例:
为验证本发明的有效性,利用一台医学数字切片扫描仪(型号KF-PRO-005-EX,KFBIO)以及一台计算机(配备Intel i9-7980XE 18-core 2.60 GHz CPU (128 GB RAM)和NVIDIA GeForce RTX 3090 GPU)构建了一套虚拟免疫组化染色装置用以采集H&E图像来检测其突变TP53区域,从而辅助癌症的诊断与预后。通过步骤2,获取共213组H&E染色与p53染色的配准数据,与其余未标注的3895张H&E染色数据组成训练集。为验证本方法的有效性,训练完成后,将768组训练时并未见过的数据用于突变TP53检测的性能测试。图5(a)演示了测试时的H&E染色输入图像在经过网络检测后,得到的突变TP53区域掩膜与实际的p53染色对应突变区域的比较结果。图5(b)则是额外6组比较的可视化结果。
为实施贝叶斯推理从而预测不确定度,利用蒙特卡洛采样获取30组不同的网络参数,分别得到30个突变TP53概率结果,并根据步骤5公式计算30个预测结果的方差,即贝叶斯不确定度。选用2个训练时未见过的场景,其中图6(a)-(d)为检测错误情况下的不确定性预测结果,图7(a)-(d)为检测正确情况下的不确定性预测结果。图6(a)为检测有误案例的突变TP53检测结果,图6(c)为实际结果;图6(b)为对于检测有误案例不确定性估计的真实误差,图6(d)为预测的不确定性;图7(a)为检测正确案例的突变TP53检测结果,图7(c)为实际结果;图7(b)为对于检测正确案例不确定性估计的真实误差,图7(d)为预测的不确定性。
为实施定量癌症预后以替代病理学家评估的TSR,基于网络检测的突变TP53区域来量化预后指标TSR。根据步骤6的评估标准预方法,选择了102例癌症组织的热点区域,病理学家将其分为21个低TSR、34个稍低TSR、23个稍高TSR和24个高TSR病例[,代表性案例见图6(a)],即病理学家认为有47例样本预后较差;基于本方法的定量TSR测量将其分为16个低TSR、36个稍低TSR、29个稍高TSR和21个高TSR病例[/>,代表性案例见图8(a)],即本方法认为有50例样本预后较差。对以上结果的卡方检测证明了本方法的可行性,卡方(Chi-square)值为1.6251,P值为0.6537,自由度为3, />和/>之间没有显著差异,基于网络检测的TSR评估结果与传统的TSR评估结果分布一致[图8(b)和图8(c)]。

Claims (6)

1.一种基于半监督学习的突变TP53免疫学检测方法,其特征在于,具体步骤为:
在每个胃腺体切片上获取H&E染色切片数字化图像与p53染色切片数字化图像;
将H&E染色与p53染色切片的数字化图像裁剪为相同大小,获得H&E染色输入图像,并对H&E染色与p53染色切片的数字化图像进行配准与角度校正,在p53染色切片上获得突变抑癌基因TP53的所在区域作为H&E染色数据的标签,得到有标签的H&E染色切片训练数据集;
构建两个相同架构的基于移位窗视觉自注意力模型的深度神经网络,在其中一个深度神经网络的每一个梯度可导计算模块后加入具体参数丢弃模块;
根据交叉伪标签监督的原理对两个深度神经网络进行训练,采用反向传播算法与优化算法对两个网络进行更新;具体过程为:
利用有标签的H&E染色输入图像与其相应的突变TP53掩膜标签对两个深度神经网络进行训练,N为有标签的染色输入图像个数,将有标签的H&E染色输入图像作为输入数据,分别送入深度神经网络1与深度神经网络2,并以突变TP53掩膜作为标签数据来监督网络的生成结果;
将无相应标签数据的H&E染色输入图像送入深度神经网络1和深度神经网络2,生成两幅概率图/>和/>,/>为无标签的染色输入图像,M为无标签的染色输入图像个数,并基于公式/>在概率图的基础上生成伪标签,/>为生成概率图的通道数,k=1,2,以深度神经网络1生成的伪标签/>来监督深度神经网络2的生成结果/>,并以深度神经网络2生成的伪标签/>来监督深度神经网络1的生成结果/>
利用有标签的H&E染色输入图像对对两个深度神经网络进行训练时,监督部分损失函数定义为:
,其中,/>为H&E染色输入图像,为突变TP53掩膜标签,/>为训练时批处理的数据量,/>交叉熵函数,/>和/>分别深度神经网络1和深度神经网络2对应的映射函数,/>为softmax激活函数;
将无相应标签数据的H&E染色输入图像送入深度神经网络进行训练时,无监督部分损失函数定义为:
,加入具体参数丢弃模块的深度神经网络的不确定性预测的损失函数为:
,式中,/>为/>散度,/>为后验分布,/>为权重的先验分布;
将实时采集的H&E染色图像输入训练好的加入具体参数丢弃模块的深度神经网络进行获取突变TP53的区域掩膜。
2.根据权利要求1所述的基于半监督学习的突变TP53免疫学检测方法,其特征在于,在每个胃腺体切片上获取H&E染色切片数字化图像与p53染色切片数字化图像的具体方法为:
对胃腺体切片进行H&E染色并对H&E染色切片扫描获得H&E染色切片数字化图像,对H&E染色切片褪染后以p53作为生物标记物进行重染色;
利用数字病理切片扫描仪对p53染色的切片扫描,在每个切片上获取2幅大视场图。
3.根据权利要求1所述的基于半监督学习的突变TP53免疫学检测方法,其特征在于,通过结构相似度SSIM最大值匹配对裁剪后的H&E染色与p53染色切片的数字化图像进行配准,结构相似度SSIM的计算公式为:
,其中/>和/>是两个图像的平均值,/>和/>是两个图像的标准差,/>是互协方差,/>和/>是正则化参数。
4.根据权利要求1所述的基于半监督学习的突变TP53免疫学检测方法,其特征在于,所述基于移位窗视觉自注意力模型的深度神经网络为编码器-解码器结构,编码器部分包括第一补丁分割模块、第一线性嵌入模块、四个阶段的移位窗视觉自注意力模型模块,所述第一补丁分割模块用于将H&E染色输入图像分割为不重叠的补丁,所述第一线性嵌入模块用于将补丁映射为一个像素大小,实现H&E染色输入图像的下采样,第一阶段移位窗视觉自注意力模型之前设置有线性嵌入模块,第二至第四阶段每一阶段移位窗视觉自注意力模型之前设置有补丁合并模块,补丁合并模块将H&E染色切片数字化图像分割为不重叠的子图,通过四个阶段的移位窗视觉自注意力模型模块进行特征提取,第四阶段的移位窗视觉自注意力模型模块输出的特征编码与第一阶段提取的浅层特征一同输入解码器;
解码器部分采用deeplabv3+结构,第四阶段的移位窗视觉自注意力模型模块输出的特征编码输入解码器的空洞空间卷积池化金字塔模块,所述空洞空间卷积池化金字塔模块使用不同膨胀率的空洞卷积来捕获多尺度的上下文信息,通过空洞空间卷积池化金字塔模块后的特征和来自第一阶段的移位窗视觉自注意力模型模块提取的浅层特征进行通道融合,被映射到一个二进制掩膜。
5.根据权利要求4所述的基于半监督学习的突变TP53免疫学检测方法,其特征在于,每一阶段的移位窗视觉自注意力模型模块分别包括不同数量的基础模块,每个基础模块包括层规范化模块与基于窗口的多头自注意模块构成的第一级残差结构,层规范化模块与多层感知器构成的第二级残差结构,层规范化模块与移位窗口的多头自注意模块构成的第三级残差结构,层规范化模块与多层感知器构成的第四级残差结构,四级残差结构依次级联。
6.根据权利要求5所述的基于半监督学习的突变TP53免疫学检测方法,其特征在于,所述基于窗口的多头自注意模块、移位窗口的多头自注意模块、多层感知器与空洞空间卷积池化金字塔模块为梯度可导计算模块。
CN202311163393.3A 2023-09-11 2023-09-11 基于半监督学习的突变tp53免疫学检测方法 Active CN116912240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311163393.3A CN116912240B (zh) 2023-09-11 2023-09-11 基于半监督学习的突变tp53免疫学检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311163393.3A CN116912240B (zh) 2023-09-11 2023-09-11 基于半监督学习的突变tp53免疫学检测方法

Publications (2)

Publication Number Publication Date
CN116912240A CN116912240A (zh) 2023-10-20
CN116912240B true CN116912240B (zh) 2023-12-08

Family

ID=88360576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311163393.3A Active CN116912240B (zh) 2023-09-11 2023-09-11 基于半监督学习的突变tp53免疫学检测方法

Country Status (1)

Country Link
CN (1) CN116912240B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117405644B (zh) * 2023-12-14 2024-02-09 四川省肿瘤医院 基于多色免疫荧光的三级淋巴结构成熟度识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115330722A (zh) * 2022-08-15 2022-11-11 福州大学 一种胃癌h&e染色图像智能预测pd-l1抑制剂疗效的方法
CN115690182A (zh) * 2022-11-15 2023-02-03 武汉大学 一种辅助多染色病理切片异质性诊断的图像配准方法
CN115880262A (zh) * 2022-12-20 2023-03-31 桂林电子科技大学 基于在线噪声抑制策略的弱监督病理图像组织分割方法
CN116051574A (zh) * 2022-12-28 2023-05-02 河南大学 一种半监督分割模型构建与图像分析方法、设备及系统
WO2023107844A1 (en) * 2021-12-07 2023-06-15 The Regents Of The University Of California Label-free virtual immunohistochemical staining of tissue using deep learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023107844A1 (en) * 2021-12-07 2023-06-15 The Regents Of The University Of California Label-free virtual immunohistochemical staining of tissue using deep learning
CN115330722A (zh) * 2022-08-15 2022-11-11 福州大学 一种胃癌h&e染色图像智能预测pd-l1抑制剂疗效的方法
CN115690182A (zh) * 2022-11-15 2023-02-03 武汉大学 一种辅助多染色病理切片异质性诊断的图像配准方法
CN115880262A (zh) * 2022-12-20 2023-03-31 桂林电子科技大学 基于在线噪声抑制策略的弱监督病理图像组织分割方法
CN116051574A (zh) * 2022-12-28 2023-05-02 河南大学 一种半监督分割模型构建与图像分析方法、设备及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A deep learning model for molecular label transfer that enables cancer cell identification from histopathology images;Andrew Su 等;《https://www.nature.com/articles/s41698-022-00252-0》;全文 *
基于人工智能对胃癌病理学图像识别和p53突变预测的应用研究;王继仙;《万方学位论文》;全文 *
基于深度学习和H&E染色病理图像的肿瘤相关指标预测研究综述;颜锐 等;《计算机科学》;69-82 *

Also Published As

Publication number Publication date
CN116912240A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN107886514B (zh) 基于深度残差网络的乳腺钼靶图像肿块语义分割方法
CN111488921B (zh) 一种全景数字病理图像智能分析系统及方法
US20190042826A1 (en) Automatic nuclei segmentation in histopathology images
CN109919230B (zh) 基于循环特征金字塔的医学图像肺结节检测方法
WO2021203795A1 (zh) 一种基于显著性密集连接扩张卷积网络的胰腺ct自动分割方法
CN112017191A (zh) 基于注意力机制的肝脏病理图像分割模型建立及分割方法
CN116912240B (zh) 基于半监督学习的突变tp53免疫学检测方法
JP7427080B2 (ja) 細胞検出およびセグメンテーションのための弱教師ありマルチタスク学習
Xu et al. Using transfer learning on whole slide images to predict tumor mutational burden in bladder cancer patients
Song et al. Hybrid deep autoencoder with Curvature Gaussian for detection of various types of cells in bone marrow trephine biopsy images
CN108305253A (zh) 一种基于多倍率深度学习的病理全切片诊断方法
CN112990214A (zh) 一种医学图像特征识别预测模型
CN113256634A (zh) 基于深度学习的宫颈癌tct切片排阴方法和系统
CN113657449A (zh) 一种含噪标注数据的中医舌象腐腻分类方法
EP4214626A1 (en) Training end-to-end weakly supervised networks at the specimen (supra-image) level
CN116468690B (zh) 基于深度学习的浸润性非粘液性肺腺癌的亚型分析系统
CN116912582A (zh) 一种基于表征模型的强鲁棒性高光谱目标检测方法
CN114970862B (zh) 一种基于多实例知识蒸馏模型的pdl1表达水平预测方法
CN113889235A (zh) 一种三维医学影像无监督特征抽取系统
CN113822252A (zh) 显微镜下病理图像细胞鲁棒检测方法
Cheikh et al. Spatial interaction analysis with graph based mathematical morphology for histopathology
CN117496276B (zh) 肺癌细胞形态学分析、识别方法及计算机可读存储介质
CN114565919B (zh) 基于数字病理图像的肿瘤微环境空间关系建模系统与方法
CN116758068B (zh) 一种基于人工智能的骨髓图片细胞形态分析方法
CN116912820B (zh) 一种婴幼儿食品安全视觉检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant