CN113409888A - 一种肿瘤微环境及肿瘤基因突变检测系统、方法及设备 - Google Patents

一种肿瘤微环境及肿瘤基因突变检测系统、方法及设备 Download PDF

Info

Publication number
CN113409888A
CN113409888A CN202110687923.9A CN202110687923A CN113409888A CN 113409888 A CN113409888 A CN 113409888A CN 202110687923 A CN202110687923 A CN 202110687923A CN 113409888 A CN113409888 A CN 113409888A
Authority
CN
China
Prior art keywords
training
atlas
image
biomarker
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110687923.9A
Other languages
English (en)
Inventor
田捷
杜洋
边畅
王宇
安羽
王瀚帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110687923.9A priority Critical patent/CN113409888A/zh
Publication of CN113409888A publication Critical patent/CN113409888A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于医学图像领域,具体涉及了一种肿瘤微环境及肿瘤基因突变检测方法、系统及设备。本发明系统包括图像扫描装置和上位机,上位机包括数据处理模块、肿瘤微环境检测模块和肿瘤基因突变检测模块,图像扫描装置拍摄离体肿瘤样本的全景扫描图像;对全景扫描图像进行预处理得到第一训练图集;将第一训练图集输入至预构建的生物标志物分布预测训练模型中进行迭代训练,得到生物标志物分布预测图集;肿瘤基因突变检测模块根据生物标志物分布预测图集确定第二训练图集;将第二训练图集输入到基因突变检测模型进行基因突变检测。本发明降低了实验成本,缩短了实验周期,并且降低了判读结果的主观性。

Description

一种肿瘤微环境及肿瘤基因突变检测系统、方法及设备
技术领域
本发明属于医学图像处理技术领域,具体涉及了一种肿瘤微环境及肿瘤基因突变检测系统、方法及设备。
背景技术
随着肿瘤发生率和死亡率的逐年上升,其已成为人类健康的主要威胁之一。随着医疗技术的发展,一种新型的癌症治疗方式肿瘤免疫治疗在基础和临床研究中取得长足发展。据相关文献显示,肿瘤免疫治疗的响应效率与肿瘤微环境以及肿瘤基因突变情况等多种因素有关。快速、高效、准确地分析了解肿瘤微环境;判断肿瘤基因突变类型,对指导肿瘤免疫治疗具有重要意义。
目前,湿实验是分析肿瘤微环境以及检测肿瘤基因突变的主要手段。对肿瘤微环境的研究一般是对离体肿瘤样本进行检测,对细胞生物标志物在显微层次定性和定量分析。通常使用mIHC(multiplexed Immunohistochemistry,多光谱免疫荧光染色)技术来对肿瘤样本中肿瘤微环境的多种细胞表达蛋白同时进行显微荧光成像检测。利用基因测序技术来对肿瘤基因的突变情况进行检测与分析。
然而mIHC方法以及基因测序方法具有实验周期长、成本高昂等局限性。并且mIHC多种染色试剂之间易出现串色,影响表征的准确性。并且mIHC结果通常需要病理医生进行人工判读,很大程度上依赖于判读人员的专业性,存在一定的主观性。
因此本申请提供了一种利用深度学习实现肿瘤微环境以及肿瘤基因突变检测的方法,辅助病理医生高效、快速地对肿瘤微环境中的细胞生物标志物表达分布进行观测评估,并且对肿瘤基因突变情况进行分析,以更好地指导肿瘤免疫治疗。
发明内容
为了解决现有技术中的上述问题,即湿实验方法实验周期长、成本高、检测效率低、误差大的问题,本发明提供了一种肿瘤微环境及肿瘤基因突变检测系统、方法及设备。
本发明的第一方面,提出了一种肿瘤微环境及肿瘤基因突变检测系统,所述系统包括图像扫描装置和上位机,所述上位机包括数据处理模块、肿瘤微环境检测模块和肿瘤基因突变检测模块,其中,
所述图像扫描装置用于拍摄离体肿瘤样本的全景扫描图像;所述离体肿瘤样本包括染色样本和未染色样本;
所述数据处理模块用于对所述全景扫描图像进行预处理得到第一训练图集;
所述肿瘤微环境检测模块用于将所述第一训练图集输入至预构建的生物标志物分布预测训练模型中进行迭代训练,得到生物标志物分布预测模型,并根据所述生物标志物分布预测模型得到生物标志物分布预测图集;
所述肿瘤基因突变检测模块用于根据所述生物标志物分布预测图集确定第二训练图集;将所述第二训练图集输入到预构建的基因突变检测训练模型中进行迭代训练得到基因突变检测模型,并利用该模型进行基因突变检测。
可选地,所述生物标志物分布预测训练模型包括生成器、判别器和优化器,所述第一训练图集包括染色的真实训练图集和未染色的待测训练图集,
所述生成器用于将所述待测训练图集进行分割得到生物标志物分布预测图集;并根据所述生物标志物分布图集、真实训练图集以及预测损失函数计算所述生成器的预测损失值;
所述判别器用于判别生物标志物预测分布图集和真实训练图集,并根据所述生物标志物分布图集、真实训练图集以及判别损失函数计算所述判别器判别损失值;
所述优化器用于根据所述预测损失值、判别损失值和反向传播算法来分别调整所述生成器和所述判别器的参数直至迭代训练完毕,得到生物标志物分布预测模型。
可选地,所述生物标志物分布预测训练模型还包括特征提取模块,所述特征提取模块用于对真实训练图集和待测训练图集中的图像进行旋转、裁剪或翻转中的一种或多种操作得到多尺度图像。
第二方面,本申请提供一种肿瘤微环境及肿瘤基因突变检测方法,所述方法包括:
获取离体肿瘤样本的全景扫描图像;所述离体肿瘤样本包括染色样本和未染色样本;
对所述全景扫描图像进行预处理得到第一训练图集;
将所述第一训练图集输入至预构建的生物标志物分布预测训练模型中进行迭代训练得到生物标志物分布预测模型;
根据所述生物标志物分布预测模型得到生物标志物分布预测图集;
根据所述生物标志物分布预测图集确定第二训练图集;
将所述第二训练图集输入到预构建的基因突变检测训练模型中进行迭代训练得到基因突变检测模型,并利用该模型进行基因突变检测。
可选地,所述第一训练图集包括染色的真实训练图集和未染色的待测训练图集,所述生物标志物分布预测训练模型包括生成器和判别器,所述将所述第一训练图集输入预构建的生物标志物分布预测训练模型中进行迭代训练得到生物标志物分布预测模型包括:
将所述待测训练图集输入所述生成器得到生物标志物分布预测图集;
根据所述生物标志物分布图集、真实训练图集以及预测损失函数计算所述生成器的预测损失值;
根据所述生物标志物分布图集、真实训练图集以及判别损失函数计算所述判别器判别损失值;
根据所述预测损失值、判别损失值和反向传播算法来分别调整所述生成器和所述判别器的参数直至迭代训练完毕,得到生物标志物分布预测模型。
可选地,所述方法还包括:
将所述生物标志物分布预测图集和真实训练图集输入所述判别器进行判别得到置信图;所述置信图用于指示所述生物标志物分布预测图集的置信度;
根据所述置信图筛选所述生物标志物分布预测图集中置信度大于预设置信度阈值的区域图像集;
将当前训练得到的所述区域图像集确定为下次训练的输入。
可选地,所述根据所述生物标志物分布预测图集确定第二训练图集包括:
确定所述生物标志物分布预测图集中目标标志物的概率分布值;
将所述目标标志物的概率分布值与预设概率分布阈值进行比较;
将所述目标标志物的概率分布值大于所述预设概率分布阈值的图像确定为第二训练图集的图像。
可选地,所述对所述全景扫描图像进行预处理得到第一训练图集包括:
对所述全景扫描图像进行噪点去除得到去噪点图像集合;
对所述去噪点图像块结合进行伪影去除得到去伪影图像集合;
对所述去伪影图像集合进行图像分块得到m个尺寸为n×的分块图像集合,其中m≥1,n≥1;
对所述分块图像集合进行色域标准化处理得到第一训练图集。
可选地,所述对所述分块图像集合进行色域标准化处理包括:
选取色域标准化的图像作为模板图像;
将所述分块图像集合中的图片分解为非负且稀疏的染色强度矩阵;
融合染色强度矩阵与模板图像的色彩偏差,从而得到色域标准化后的分块图像;
利用以下公式将色域标准化后的所述分块图像集合中的每个图像在RGB空间的色彩分布转化为光谱密度,公式如下:
OD=-log10(I);
利用颜色反卷积变换公式将光谱密度数值转化为设定的标准数值,公式如下:
OD=VS→S=V-1OD;
其中,OD表示光谱密度,I表示RGB空间的颜色向量,V为染色向量矩阵,S为每个染色的饱和度矩阵,即设定的标准数值。获取离体肿瘤样本的全景扫描图像;所述离体肿瘤样本包括染色样本和未染色样本;
本发明的第三方面,提供了一种设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现第一方面任一项所述的肿瘤微环境及肿瘤基因突变检测方法。
本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现第一方面任一项所述的肿瘤微环境及肿瘤基因突变检测方法。
本发明的有益效果:本申请通过获取离体肿瘤样本的全景扫描图像,并基于该全景扫描图像、生物标志物分布预测模型和基因突变检测模型来直接预测肿瘤微环境中肿瘤细胞、细胞核以及肿瘤浸润淋巴细胞的PanCK、DAPI、CD3、CD20等生物标志物的表达和分布信息;同时对于结肠癌患者中常发生的APC、TP53与KRAS等肿瘤基因突变进行检测。相较于传统湿实验方法降低了实验成本,缩短了实验周期,并且降低了判读结果的主观性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请实施例的一种肿瘤微环境及肿瘤基因突变检测系统的示意图;
图2是本申请实施例的生物标志物分布预测训练模型的示意图;
图3是本申请实施例的一种肿瘤微环境及肿瘤基因突变检测方法的示意图;
图4是本申请实施例色域标准化处理前后对比示意图;
图5是本申请实施例的生物标志物分布预测模型的预测结果与真实图像的对比示意图;
图6是本申请实施例的基于突变检测模型的预测结果与真实结果的对比示意图。
图7是基因突变检测效果的接受者操作特征曲线图;
图8是用于实现本申请方法、系统、设备实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
本发明提出了一种肿瘤微环境及肿瘤基因突变检测系统,如图1所示,所述系统包括图像扫描装置100和上位机200,所述上位机包括数据处理模块201、肿瘤微环境检测模块202和肿瘤基因突变检测模块203,其中,
所述图像扫描装置100用于拍摄离体肿瘤样本的全景扫描图像;所述离体肿瘤样本包括染色样本和未染色样本。
在本申请实施例中,图像扫描装置100可以采用40×放大倍率的全景扫描仪进行图像扫描。
所述数据处理模块201用于对所述全景扫描图像进行预处理得到第一训练图集。
所述肿瘤微环境检测模块202用于将所述第一训练图集输入至预构建的生物标志物分布预测训练模型中进行迭代训练,得到生物标志物分布预测模型,并根据所述生物标志物分布预测模型得到生物标志物分布预测图集。
所述肿瘤基因突变检测模块203用于根据所述生物标志物分布预测图集确定第二训练图集;将所述第二训练图集输入到预构建的基因突变检测训练模型中进行迭代训练得到基因突变检测模型,并利用该模型进行基因突变检测。
可选地,如图2所示,所述生物标志物分布预测训练模型包括生成器、判别器和优化器,所述第一训练图集包括染色的真实训练图集和未染色的待测训练图集,
所述生成器用于将所述待测训练图集进行分割得到生物标志物分布预测图集;并根据所述生物标志物分布图集、真实训练图集以及预测损失函数计算所述生成器的预测损失值;
所述判别器用于判别生物标志物预测分布图集和真实训练图集,并根据所述生物标志物分布图集、真实训练图集以及判别损失函数计算所述判别器判别损失值;
所述优化器用于根据所述预测损失值、判别损失值和反向传播算法来分别调整所述生成器和所述判别器的参数直至迭代训练完毕,得到生物标志物分布预测模型。
可选地,所述生物标志物分布预测训练模型还包括特征提取模块,所述特征提取模块用于对真实训练图集和待测训练图集中的图像进行旋转、裁剪或翻转中的一种或多种操作得到多尺度图像。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考方法实施例中的对应过程,在此不再赘述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
基于同样的发明构思,本发明提出了一种肿瘤微环境及肿瘤基因突变检测方法,为了更清晰地对本发明提供的肿瘤微环境及肿瘤基因突变检测方法进行说明,下面结合图3对本发明实施例中各步骤展开详述。
步骤S301:获取离体肿瘤样本的全景扫描图像;所述离体肿瘤样本包括染色样本和未染色样本。
在该步骤中,离体肿瘤样本是经过全切片后的样本,通过40×放大倍率的扫描设备对离体肿瘤样本进行扫描,获得全景扫描图像。其中,放大倍率可以根据具体要求进行设定,不用于限制本发明的保护范围。
其中,在一个示例中,染色样本可以通过H&E(Hematoxylin-eosin staining,苏木精-伊红染色)技术对离体肿瘤样本进行染色。通过染色来表示离体肿瘤样本中各生物标志物的真实分布情况。
步骤S302:对所述全景扫描图像进行预处理得到第一训练图集。
可选地,所述对所述全景扫描图像进行预处理得到第一训练图集包括:
对所述全景扫描图像进行噪点去除得到去噪点图像集合。
在该步骤中,可以采用尺寸为N*N的中值滤波器去除全景扫描图像中的噪声,在一个示例中,选区N=5,得到去噪点图像集合。
对所述去噪点图像块结合进行伪影去除得到去伪影图像集合。
在一个示例中,具体操作为:基于去噪点图像集合计算每个像素点位置处所有图像块在该位置的均值和最小值;根据最小值和均值得到平均图像和最小投影图像;从平均图像中减去传感器偏移量,并使用保留边缘的平滑处理方法以及阈值操作来生成二进制掩码;将二进制掩码作用于平均图像,获得伪影区域以及非伪影区域。利用非伪影区域像素的平均值替换伪影区域所对应的像素值,然后应用高斯模糊来生成图像的背景平均估计值。从平均图像中减去该背景平均估计值,得出最终的伪影估计,在每个去噪点图像块中做差减去该伪影估计,实现伪影去除。
对所述去伪影图像集合进行图像分块得到m个尺寸为n×的分块图像集合,其中m≥1,n≥1。
其中,可以利用n×n滑动窗口对去伪影图像集合进行无重叠裁剪,得到m个尺寸为n×n的分块图像集合,在一个示例中,m≥1,n=512。
对所述分块图像集合进行色域标准化处理得到第一训练图集。
可选地,所述对所述分块图像集合进行色域标准化处理包括:
选取色域标准化的图像作为模板图像;
将分块图像集合中的图片分解为非负且稀疏的染色强度矩阵;
融合染色强度矩阵与模板图像的色彩偏差,从而得到色域标准化后的分块图像。
为了进一步对色域标准化后的分块图像的颜色分布进行统一和对比度调整,以更好地适应模型训练,本发明采用了一种基于光谱的色域标准化操作,操作如下:
利用以下公式将色域标准化后的分块图像集合中的每个图像在RGB空间的色彩分布转化为光谱密度,公式如下:
OD=-log10(I) (1);
利用颜色反卷积变换公式将光谱密度数值转化为设定的标准数值,公式如下:
OD=VS→S=V-1OD (2);
其中,OD表示光谱密度,I表示RGB空间的颜色向量,V为染色向量矩阵,S为每个染色的饱和度矩阵,即设定的标准数值。
参考图4,示出了色域标准化前后的对比示意图。
步骤S303:将所述第一训练图集输入至预构建的生物标志物分布预测训练模型中进行迭代训练得到生物标志物分布预测模型。
在该步骤中,所述第一训练图集包括染色的真实训练图集和未染色的待测训练图集。染色的真实训练图集中呈现了肿瘤样本的多种生物标志物的真实表达分布情况。通过生物标志物的表达分布对肿瘤微环境进行检测分析。
在一个示例中,生物标志物有用于表征肿瘤细胞的PanCK以及表征免疫淋巴细胞的CD3、CD20等。
在本申请实施例中,生物标志物分布预测训练模型为基于对抗学习策略构建的半监督学习的神经网络训练模型。如图2所示,包括生成器和判别器,具体地,以编码器-解码器结构构建生成器,利用深度卷积神经网络构建判别器。
此外,生物标志物分布预测训练模型还包括特征提取模块,通过特征提取模块提取第一训练图集的多尺度特征,具体可以对真实训练图集和待测训练图集中的图像进行旋转、裁剪或翻转中的一种或多种操作得到多尺度特征的图像。通过提取多尺度特征,能够提高模型的泛化性能。
可选地,将所述第一训练图集输入预构建的生物标志物分布预测训练模型中进行迭代训练得到生物标志物分布预测模型包括如下步骤:
将所述待测训练图集输入所述生成器得到生物标志物分布预测图集。
根据所述生物标志物分布图集、真实训练图集以及预测损失函数计算所述生成器的预测损失值。
本申请实施例是基于对抗学习策略和半监督学习方式构建的生物标志物分布预测训练模型,因此所述预测损失函数由分割项损失函数、对抗损失项函数和半监督损失函数组成。
在一个示例中,预测损失函数公式如下:
Lseg=LceadvLadvsemiLsemi(3);
其中,Lseg为预测损失函数,λadv与λsemi分别代表对抗损失项函数与半监督损失函数的权重,Ladv与Lsemi分别代表对抗损失项函数与半监督损失函数,Lce代表分割项损失函数。
具体地,分割项损失函数计算如下所示:
Figure BDA0003125453760000121
对抗损失项函数计算如下所示:
Figure BDA0003125453760000122
通过将对抗损失项函数的损失值最大化,使得生成器生成的生物标志物预测分布图集的图像逼近真实图像,从而迷惑判别器。在计算对抗损失项函数时,可以适当降低对抗损失项的函数,以避免对抗损失项函数对预测结果过度修饰导致梯度消失。
半监督损失函数计算如下:
Figure BDA0003125453760000131
其中,在式(4)-式(6)中,Xn为第一训练图集,第一训练图集中的图像尺寸为H×W×3,Yn为肿瘤样本的自学习标签。
S(·)定义为生成器,D(·)定义为判别器,由生成器生成的生物标志物预测分布图的尺寸为H×W×C,其中,H,W分别表示图像的高度与宽度坐标,C为生物标志物的类别个数。
在上式(6)中,I(·)表示指示函数,用于指示生物标志物预测分布图集的图像中哪些区域的置信度高于设定阈值,Tsemi表示用于控制置信度选择的阈值。在一个示例中,设定阈值可以是0.5。
需要说明的是,在训练阶段,本发明将自学习标签Yn与指示函数I(·)视为常数项,由此,式(6)的半监督损失函数可以被视为经由掩模筛选后的空间交叉熵损失函数。
根据所述生物标志物分布图集、真实训练图集以及判别损失函数计算所述判别器判别损失值。
在本申请实施例中,判别损失函数LD具体公式如下:
Figure BDA0003125453760000132
其中,Xn为第一训练图集,Yn为肿瘤样本的自学习标签,yn表示肿瘤样本的真实标签,当判别器的输入是来自生成器输出的生物标志物预测分布图集时,yn=0;当判别器的输入是来自真实训练图集时,yn=1。
S(·)定义为生成器,D(·)定义为判别器,判别器生成的置信图尺寸为H×W×1,,其中,H,W分别表示图像的高度与宽度坐标。
根据所述预测损失值、判别损失值和反向传播算法来分别调整所述生成器和所述判别器的参数直至迭代训练完毕,得到生物标志物分布预测模型。
本申请实施例采用迭代训练的方式,将每次训练的输出结果作为一下次训练的输入。具体过程如下:
将所述生物标志物分布预测图集和真实训练图集输入所述判别器进行判别得到置信图;所述置信图用于指示所述生物标志物分布预测图集的置信度。置信图揭示了预测结果中哪些区域接近于真实的生物标志物的分布。
根据所述置信图筛选所述生物标志物分布预测图集中置信度大于预设置信度阈值的区域图像集。
将当前训练得到的所述区域图像集确定为下次训练的输入。
此外,在迭代训练过程中,可以采用Adam优化器进行迭代优化训练。生物标志物分布预测训练模型的最后一层输出经由softmax函数处理,将多个神经元的输出映射到(0,1)区间内,得到最终每个生物标志物类别的概率分布,softmax函数公式如(8)所示:
Figure BDA0003125453760000141
其中,yi为预测对象属于第i类的概率,i和j分别表示生物标志物的类别,C为类别个数,zi以及zj分别表示网络中第i类和第j类的输出值。
如图5所示,示出了生物标志物分布预测模型预测结果的对比示意图。
在本申请一个具体实施例中,给出生物标志物分布预测训练模型的生成器的迭代训练过程:
第一步:设置初始训练次数为1,总训练次数阈值为1000,置信度阈值为0.5,并记录模型当前训练的次数。
第二步:将未染色的待测训练图集及其对应的真实标签通过特征提取模块提取,得到多尺度特征图像。
第三步:通过生成器对多尺度特征图像进行分割输出生物标志物分布预测图像。
第四步,计算该生物标志物分布预测图像与染色的真实图像的预测损失值。
第五步,根据该预测损失值通过反向传播算法调整生成器的参数。
第六步,将生成器输出的生物标志物分布预测图像和真实图像输入判别器,得到置信图;
第七步,根据置信图,在生物标志物分布预测图像中筛选置信度大于预设置信度的区域图像作为一下次训练的输入图像;
第八步,每训练完一次,训练次数加1,判断当前训练的次数是否大于所设置的阈值1000;在训练次数未达到所设阈值的情况下重复执行第二步-第七步,直至达到训练次数。
本申请实施例中,生成器经过多次分割预测以及参数调整,逐渐降低预测损失的值,直至预测损失值趋于稳定或小于预设的阈值时,说明该生成器已经具备足够的精度,可以比较准确的从未标注染色的肿瘤样本中识别出不同种类的细胞生物标志物分布。
自此,可利用训练完成的生物标志物分布预测模型对离体肿瘤样本进行精准预测。
步骤S204:根据所述生物标志物分布预测模型得到生物标志物分布预测图集。
步骤S205:根据所述生物标志物分布预测图集确定第二训练图集。
可选地,所述根据所述生物标志物分布预测图集确定第二训练图集包括:
确定所述生物标志物分布预测图集中目标标志物的概率分布值;
将所述目标标志物的概率分布值与预设概率分布阈值进行比较;
将所述目标标志物的概率分布值大于所述预设概率分布阈值的图像确定为第二训练图集的图像。
在一个示例中,例如对于肿瘤细胞的检测,可以通过筛选肿瘤细胞标志物PanCK,筛选PanCK分布大于50%的图像块作为第二训练图像,第二训练图像集。
步骤S206:将所述第二训练图集输入到预构建的基因突变检测训练模型中进行迭代训练得到基因突变检测模型,并利用该模型进行基因突变检测。
在该步骤中通过最小化二分类交叉熵损失函数来优化基因突变检测训练模型。二分类交叉熵损失函数如下:
loss(xs,ys)=-[yslogxs+(1-ys)log(1-xs)] (9);
其中,xs表示第二训练图集,ys表示第二训练图集的图像标签。
基因突变检测训练模型也是通过迭代的方式进行训练,其训练过程参考上述生成器判别模块的训练过程,在此不再赘述。不同的是,该模型输出的是基因突变的类别。
如图6所示,示出了基因突变检测训练模型的预测结果对比示意图。
如图7所示为肿瘤基因突变检测效果的接受者操作特征曲线,APC、TP53、KRAS的预测AUC值分别为0.76、0.79以及0.77。
在对新样本进行检测时,首先利用细胞生物标志物预测模块对样本切片的H&E图像进行处理,筛选PanCK分布大于50%的图像块作为肿瘤区域图像块,得到肿瘤区域图像块集合。利用训练好的肿瘤基因突变检测模型对肿瘤区域图像块集合进行检测,得到肿瘤基因突变检测结果。
在本实施例中,基因突变检测效果的接受者操作特征曲线如图7所示,基因APC、TP53、KRAS的预测AUC(Area Under roc Curve,roc曲线下面积)值分别为0.76、0.79以及0.77。
需要说明的是,上述实施例提供的肿瘤微环境及肿瘤基因突变检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现肿瘤微环境及肿瘤基因突变检测方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现肿瘤微环境及肿瘤基因突变检测方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
下面参考图8,其示出了用于实现本申请方法、系统、设备实施例的服务器的计算机系统的结构示意图。图8示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统包括中央处理单元(CPU,Central Processing Unit)801,其可以根据存储在只读存储器(ROM,Read Only Memory)802中的程序或者从存储部分808加载到随机访问存储器(RAM,Random Access Memory)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O,Input/Output)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN(局域网,Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种肿瘤微环境及肿瘤基因突变检测系统,其特征在于,所述系统包括图像扫描装置和上位机,所述上位机包括数据处理模块、肿瘤微环境检测模块和肿瘤基因突变检测模块,其中,
所述图像扫描装置用于拍摄离体肿瘤样本的全景扫描图像;所述离体肿瘤样本包括染色样本和未染色样本;
所述数据处理模块用于对所述全景扫描图像进行预处理得到第一训练图集;
所述肿瘤微环境检测模块用于将所述第一训练图集输入至预构建的生物标志物分布预测训练模型中进行迭代训练,得到生物标志物分布预测模型,并根据所述生物标志物分布预测模型得到生物标志物分布预测图集;
所述肿瘤基因突变检测模块用于根据所述生物标志物分布预测图集确定第二训练图集;将所述第二训练图集输入到预构建的基因突变检测训练模型中进行迭代训练得到基因突变检测模型,并利用该模型进行基因突变检测。
2.根据权利要求1所述的系统,其特征在于,所述生物标志物分布预测训练模型包括生成器、判别器和优化器,所述第一训练图集包括染色的真实训练图集和未染色的待测训练图集,
所述生成器用于将所述待测训练图集进行分割得到生物标志物分布预测图集;并根据所述生物标志物分布图集、真实训练图集以及预测损失函数计算所述生成器的预测损失值;
所述判别器用于判别生物标志物预测分布图集和真实训练图集,并根据所述生物标志物分布图集、真实训练图集以及判别损失函数计算所述判别器判别损失值;
所述优化器用于根据所述预测损失值、判别损失值和反向传播算法来分别调整所述生成器和所述判别器的参数直至迭代训练完毕,得到生物标志物分布预测模型。
3.根据权利要求2所述的系统,其特征在于,所述生物标志物分布预测训练模型还包括特征提取模块,所述特征提取模块用于对真实训练图集和待测训练图集中的图像进行旋转、裁剪或翻转中的一种或多种操作得到多尺度图像。
4.一种肿瘤微环境及肿瘤基因突变检测方法,其特征在于,所述方法包括:
获取离体肿瘤样本的全景扫描图像;所述离体肿瘤样本包括染色样本和未染色样本;
对所述全景扫描图像进行预处理得到第一训练图集;
将所述第一训练图集输入至预构建的生物标志物分布预测训练模型中进行迭代训练得到生物标志物分布预测模型;
根据所述生物标志物分布预测模型得到生物标志物分布预测图集;
根据所述生物标志物分布预测图集确定第二训练图集;
将所述第二训练图集输入到预构建的基因突变检测训练模型中进行迭代训练得到基因突变检测模型,并利用该模型进行基因突变检测。
5.根据权利要求4所述的方法,其特征在于,所述第一训练图集包括染色的真实训练图集和未染色的待测训练图集,所述生物标志物分布预测训练模型包括生成器和判别器,所述将所述第一训练图集输入预构建的生物标志物分布预测训练模型中进行迭代训练得到生物标志物分布预测模型包括:
将所述待测训练图集输入所述生成器得到生物标志物分布预测图集;
根据所述生物标志物分布图集、真实训练图集以及预测损失函数计算所述生成器的预测损失值;
根据所述生物标志物分布图集、真实训练图集以及判别损失函数计算所述判别器判别损失值;
根据所述预测损失值、判别损失值和反向传播算法来分别调整所述生成器和所述判别器的参数直至迭代训练完毕,得到生物标志物分布预测模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将所述生物标志物分布预测图集和真实训练图集输入所述判别器进行判别得到置信图;所述置信图用于指示所述生物标志物分布预测图集的置信度;
根据所述置信图筛选所述生物标志物分布预测图集中置信度大于预设置信度阈值的区域图像集;
将当前训练得到的所述区域图像集确定为下次训练的输入。
7.根据权利要求4所述的方法,其特征在于,所述根据所述生物标志物分布预测图集确定第二训练图集包括:
确定所述生物标志物分布预测图集中目标标志物的概率分布值;
将所述目标标志物的概率分布值与预设概率分布阈值进行比较;
将所述目标标志物的概率分布值大于所述预设概率分布阈值的图像确定为第二训练图集的图像。
8.根据权利要求4所述的方法,其特征在于,所述对所述全景扫描图像进行预处理得到第一训练图集包括:
对所述全景扫描图像进行噪点去除得到去噪点图像集合;
对所述去噪点图像块结合进行伪影去除得到去伪影图像集合;
对所述去伪影图像集合进行图像分块得到m个尺寸为n×n的分块图像集合,其中m≥1,n≥1;
对所述分块图像集合进行色域标准化处理得到第一训练图集。
9.根据权利要求8所述的方法,其特征在于,所述对所述分块图像集合进行色域标准化处理包括:
选取色域标准化的图像作为模板图像;
将所述分块图像集合中的图片分解为非负且稀疏的染色强度矩阵;
融合染色强度矩阵与模板图像的色彩偏差,从而得到色域标准化后的分块图像;
利用以下公式将色域标准化后的所述分块图像集合中的每个图像在RGB空间的色彩分布转化为光谱密度,公式如下:
OD=-log10(I);
利用颜色反卷积变换公式将光谱密度数值转化为设定的标准数值,公式如下:
OD=VS→S=V-1OD;
其中,OD表示光谱密度,I表示RGB空间的颜色向量,V为染色向量矩阵,S为每个染色的饱和度矩阵,即设定的标准数值。
10.一种设备,其特征在于,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求4-9任一项所述的肿瘤微环境及肿瘤基因突变检测方法。
CN202110687923.9A 2021-06-21 2021-06-21 一种肿瘤微环境及肿瘤基因突变检测系统、方法及设备 Pending CN113409888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110687923.9A CN113409888A (zh) 2021-06-21 2021-06-21 一种肿瘤微环境及肿瘤基因突变检测系统、方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110687923.9A CN113409888A (zh) 2021-06-21 2021-06-21 一种肿瘤微环境及肿瘤基因突变检测系统、方法及设备

Publications (1)

Publication Number Publication Date
CN113409888A true CN113409888A (zh) 2021-09-17

Family

ID=77682067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110687923.9A Pending CN113409888A (zh) 2021-06-21 2021-06-21 一种肿瘤微环境及肿瘤基因突变检测系统、方法及设备

Country Status (1)

Country Link
CN (1) CN113409888A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110504032A (zh) * 2019-08-23 2019-11-26 元码基因科技(无锡)有限公司 基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法
CN111755073A (zh) * 2020-05-31 2020-10-09 复旦大学 基于转录组的pd-1疗法治疗效果预测系统
CN111868080A (zh) * 2018-02-27 2020-10-30 磨石肿瘤生物技术公司 利用泛等位基因模型进行的新抗原鉴别
CN111968742A (zh) * 2020-08-14 2020-11-20 上海市肺科医院 一种肺癌基因突变的跨模态预测系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111868080A (zh) * 2018-02-27 2020-10-30 磨石肿瘤生物技术公司 利用泛等位基因模型进行的新抗原鉴别
CN110504032A (zh) * 2019-08-23 2019-11-26 元码基因科技(无锡)有限公司 基于苏木精-伊红染片的图像处理来预测肿瘤突变负荷的方法
CN111755073A (zh) * 2020-05-31 2020-10-09 复旦大学 基于转录组的pd-1疗法治疗效果预测系统
CN111968742A (zh) * 2020-08-14 2020-11-20 上海市肺科医院 一种肺癌基因突变的跨模态预测系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHANG BIAN 等: "ImmunoAIzer: A Deep Learning-Based Computational Framework to Characterize Cell Distribution and Gene Mutation in Tumor Microenvironment", 《CANCERS》 *
MARC MACENKO等: "A method for normalizing histology slides for quantitative analysis", 《2009 IEEE INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING: FROM NANO TO MACRO》 *
陈姣姣: "基于少样本乳腺癌腋下淋巴结病理图像的分类与检测", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》 *

Similar Documents

Publication Publication Date Title
EP3486836B1 (en) Image analysis method, apparatus, program, and learned deep learning algorithm
JP7201681B2 (ja) 単一チャネル全細胞セグメンテーションのためのシステム及び方法
CN111462042B (zh) 癌症预后分析方法及系统
US10783641B2 (en) Systems and methods for adaptive histopathology image unmixing
US11977984B2 (en) Using a first stain to train a model to predict the region stained by a second stain
CN110909756A (zh) 用于医学图像识别的卷积神经网络模型训练方法和装置
Lafarge et al. Learning domain-invariant representations of histological images
CN108564085B (zh) 一种自动读取指针式仪表读数的方法
US9014444B2 (en) Method and apparatus for automatic HER2 scoring of tissue samples
JP2017529513A (ja) 複数の染色で染色されている生物組織サンプルから取得されるマルチチャネル画像を分析するための画像処理方法及びシステム
CN111095358B (zh) 辅助组织样本分析的载玻片图像颜色反卷积系统及方法
US10430945B2 (en) Systems and methods for color deconvolution
KR20170128577A (ko) 조직 시료 분석 기술
WO2022064222A1 (en) A method of processing an image of tissue and a system for processing an image of tissue
Mabaso et al. Spot detection methods in fluorescence microscopy imaging: a review
WO2013148485A2 (en) Detection of tissue regions in microscope slide images
Paeng et al. A unified framework for tumor proliferation score prediction in breast histopathology
US11887355B2 (en) System and method for analysis of microscopic image data and for generating an annotated data set for classifier training
CN112669288B (zh) 基于数字病理图像的细胞靶点表达预测方法、系统及装置
CN113409888A (zh) 一种肿瘤微环境及肿瘤基因突变检测系统、方法及设备
KR20230063147A (ko) 다단계 특징 분석을 사용한 전립선 조직의 효율적인 경량 cnn과 앙상블 머신 러닝 분류 방법 및 시스템
Moyes et al. Unsupervised deep learning for stain separation and artifact detection in histopathology images
Held et al. Using multimodal information for the segmentation of fluorescent micrographs with application to virology and microbiology
US20210366107A1 (en) Sensitivity analysis for digital pathology
KR20240006599A (ko) 전자 이미지의 속성을 조정하기 위해 전자 이미지를 처리하는 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210917