CN113870951A - 一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统 - Google Patents

一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统 Download PDF

Info

Publication number
CN113870951A
CN113870951A CN202111266753.3A CN202111266753A CN113870951A CN 113870951 A CN113870951 A CN 113870951A CN 202111266753 A CN202111266753 A CN 202111266753A CN 113870951 A CN113870951 A CN 113870951A
Authority
CN
China
Prior art keywords
immune
head
squamous cell
cell carcinoma
neck squamous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111266753.3A
Other languages
English (en)
Inventor
徐浩
杨丹
徐子昂
但红霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111266753.3A priority Critical patent/CN113870951A/zh
Publication of CN113870951A publication Critical patent/CN113870951A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请公开了一种头颈部鳞状细胞癌新免疫分型的预测系统,属于人工智能领域。本发明首次运用多组学聚类分析方法,整合RNA‑seq和体细胞突变数据,得到了一个具有生物学意义和临床价值的头颈部鳞状细胞癌免疫分型方法。本发明首次发现,免疫激活型患者的生存结果优于中间型和免疫荒漠型。因此,本发明的免疫亚型分类能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。本发明进一步采用深度学习的方法,基于临床易获取的病理图像数据,构建了一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统,该系统对头颈部鳞状细胞癌免疫亚型的预测准确率高,该免疫亚型预测结果能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。

Description

一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统
技术领域
本发明属于人工智能领域,具体涉及一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统。
背景技术
头颈部鳞状细胞癌(简称HNSCC)是一种恶性程度较高,危害性较大的恶性肿瘤,每年大约有90万例新发病例。该肿瘤的传统治疗方案包括手术、放疗和化疗,尽管随着肿瘤治疗的进展,许多患者的生活质量得到了改善,但5年生存率仍仅保持在50%。
近年来,免疫治疗在临床上受到越来越多的关注。在头颈部鳞状细胞癌中,抗PD-1和抗PD-L1治疗已被证明是一种有前途的治疗方法。但是,由于免疫治疗的应答率较低,仅有部分患者能从免疫治疗中获益。这可能是由患者的免疫异质性造成的。因此,更好地了解肿瘤免疫微环境对头颈部鳞状细胞癌的治疗策略具有重要意义。
肿瘤免疫微环境主要由免疫细胞、免疫细胞因子等因素组成,均与肿瘤的发生发展有关。基于肿瘤免疫微环境的肿瘤免疫分型将有助于了解肿瘤机制,指导临床治疗。目前已有少数研究试图利用肿瘤免疫微环境特征进行头颈部鳞状细胞癌免疫分型,然而,这些研究只分析了主要是RNA-seq(即转录组测序技术)的遗传谱单一组学,并不能完全代表肿瘤免疫微环境(the tumor immune microenvironment,TIME)的特征。此外,目前除了测序外还没有其它方法来预测患者所属的免疫亚型,使免疫分型在临床上应用受限。
在癌症分子分型的研究中,整合多组学数据对患者进行多视角分型已成为研究热点,结果准确率较高。越来越多的证据表明,体细胞突变与肿瘤免疫应答有关。因此,有必要整合免疫相关基因的表达情况和体细胞突变信息,进行多组学聚类分析,以便获得更准确的免疫亚型。
传统的亚型预测方法依赖于测序,限制了免疫分型在临床实践中的应用。但最近的研究表明,病理图像和肿瘤基因组学之间存在潜在联系。因此,如果能够建立合适的方法,利用病理图片来识别免疫亚型,这将有利于新免疫亚型的临床推广。
发明内容
本发明的目的在于提供一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统。
本发明提供了一种用于对头颈部鳞状细胞癌免疫亚型进行分型的系统,所述免疫亚型为中间型、免疫激活型或免疫荒漠型;三种免疫亚型的免疫浸润程度按照免疫激活型、中间型和免疫荒漠型的顺序依次降低;
所述系统按照如下方法将头颈部鳞状细胞癌的免疫亚型进行分型:
1)头颈鳞癌特异性免疫相关基因筛选:基于泛癌中代表免疫细胞亚群的相关基因,进行头颈鳞癌肿瘤组织和癌旁组织间基因差异性分析,获得头颈鳞癌特异性免疫相关基因;
2)分型:以上述头颈鳞癌特异性免疫相关基因对应的RNA-seq和体细胞突变数据作为分型依据,采用R语言iclusterplus包进行多组学聚类分析,将患者分为三个亚型。
优选的,步骤2)中,所述分型的过程中参数设置要为:maxiter=2000,sdev=0.05,eps=1.0e-4。
本发明还提供一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统,所述免疫亚型为中间型、免疫激活型或免疫荒漠型;三种免疫亚型的免疫浸润程度按照免疫激活型、中间型和免疫荒漠型的顺序依次降低;
所述预测系统包括以下部分:
输入模块,用于输入头颈部鳞状细胞癌患者的头颈部鳞状细胞癌病理图像数据;
预测模块,所述预测模块内置神经网络模型,用于根据头颈部鳞状细胞癌病理图像数据计算免疫亚型预测结果;
输出模块,用于输出头颈部鳞状细胞癌患者的免疫亚型预测结果:中间型、免疫激活型或免疫荒漠型。
优选的,所述中间型、免疫激活型和免疫荒漠型的分型标准是对头颈部鳞状细胞癌按照如下方法进行划分得到:
1)头颈鳞癌特异性免疫相关基因筛选:基于泛癌中代表免疫细胞亚群的相关基因,进行头颈鳞癌肿瘤组织和癌旁组织间基因差异性分析,获得头颈鳞癌特异性免疫相关基因;
2)分型:以上述头颈鳞癌特异性免疫相关基因对应的RNA-seq和体细胞突变数据作为分型依据,采用R语言iclusterplus包进行多组学聚类分析,将患者分为三个亚型。
优选的,步骤2)中,所述分型的过程中参数设置要为:maxiter=2000,sdev=0.05,eps=1.0e-4。
优选的,所述头颈部鳞状细胞癌病理图像数据是切割后的像素大小为224×224的图块。
优选的,预测模块中,所述神经网络模型为EfficientNets模型。
优选的,预测模块中,所述EfficientNets模型的网络构架包括:2D卷积层Conv2D1,批标准化层BN1,7个限制层,2D卷积层Conv2D2,批标准化层BN2,全局池化层GAP,损失层和全连接层。
优选的,用于训练所述EfficientNets模型的预训练模型具有如下参数设置:
2D卷积层Conv2D1:
kernel_size=(3,3),strides=2,padding="same",use_bias=False;
批标准化层BN1:激活函数为swish;
7个Block层参数如下表所示:
Figure BDA0003327050790000031
2D卷积层Conv2D2:
kernel_size=(1,1),strides=1,padding="same",use_bias=False;
批标准化层BN2:激活函数为swish;
全局池化层:Default,为EfficientNets的默认参数;
损失层:dropout_rate=0.2;
全连接层:units=2,activation=tf.keras.activations.softmax;
其中:width_coefficient为宽度系数;depth_coefficient为深度系数;resolution为切割图片后单个图片的宽度;in_channels为输入图像的通道数目;out_channels为卷积之后的通道数目;layers为添加额外卷积层的次数;expansion_factor为将in_channels的大小缩放的倍数;k为卷积核的一维尺寸dropout_rate为随机舍弃的神经元比例;kernel_size为卷积核的二维尺寸;strides为卷积操作中的滑动步长;padding为卷积核边缘的填充方式;use_bias为是否使用偏置向量;swish为激活函数,函数表达式为f(x)=x*sigmoid(βx),其中β是一个常数或可训练的参数;Units为该层的神经元数;Activation为激活函数;tf.keras.activations.softmax为Tensorflow内置的激活函数的一种。
优选的,用于训练所述EfficientNets模型的学习率为0.007,训练轮数为80。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于实现上述用于预测头颈部鳞状细胞癌免疫亚型的预测系统。
本发明中,“免疫浸润程度”是指肿瘤组织中免疫细胞富集程度。
需要特别说明的是,本发明中所述三种头颈部鳞状细胞癌免疫亚型:“中间型”“免疫激活型”或“免疫荒漠型”均为本发明首次提出,其划分的标准是按照如下方法进行:
1)头颈鳞癌特异性免疫相关基因筛选:基于Charoentong[Cell Rep,2017.18(1):p.248-262.]从37项研究中总结出泛癌中代表免疫细胞亚群的相关基因(782个),进行头颈鳞癌肿瘤组织和癌旁组织间基因差异性分析,获得头颈鳞癌特异性免疫相关基因(305个)。
2)分型:以上述头颈鳞癌特异性免疫相关基因对应的RNA-seq和体细胞突变数据作为分型依据,采用R语言iclusterplus包进行多组学聚类分析,将患者分为三个亚型。
其中,分型的参数设置为:
maxiter(Maximum iteration for the EM algorithm,最大迭代数)=2000
sdev(standard deviation of random walk proposal,随机步长标准差)=0.05
eps(Algorithm convergence criterion,算法收敛准则)=1.0e-4。
分型的代码为:
result2<-iClusterPlus(dt1=rna3,dt2=mut005,
type=c("gaussian","poisson"),
K=2,alpha=c(1,1),lambda=c(0.03,0.03),
n.burnin=100,n.draw=200,maxiter=2000,sdev=0.05,eps=1.0e-4)。
本发明首次运用多组学聚类分析方法,整合RNA-seq和体细胞突变数据,得到了一个具有生物学意义和临床价值的头颈部鳞状细胞癌免疫分型方法。本发明首次发现,免疫激活型患者的生存结果优于中间型和免疫荒漠型。因此,本发明的免疫亚型分类能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。
本发明进一步采用深度学习的方法,基于临床易获取的病理图像数据,构建了一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统,该系统对头颈部鳞状细胞癌免疫亚型的预测准确率高,该免疫亚型预测结果能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为实施例1中多组学聚类结果散点图。
图2为HNSCC患者的总体突变谱。
图3为本发明建立头颈部鳞状细胞癌的免疫亚型和建立用于预测头颈部鳞状细胞癌免疫亚型的预测系统的流程示意图。
图4为实施例2中模型预测结果。
具体实施方式
需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
实施例1建立头颈部鳞状细胞癌的免疫亚型分类方法
1、中间型、免疫激活型和免疫荒漠型的划分
从TCGA数据库下载HNSCC患者的RNA-seq数据、体细胞突变数据、临床随访数据和病理图像数据。共纳入499例HNSCC患者数据进行分析,其中女性132例,男性367例,平均年龄61.072岁,包含499个癌症样本和44个癌旁样本。
免疫相关基因列表来源于Charoentong[Cell Rep,2017.18(1):p.248-262.]的研究,代表肿瘤组织中的免疫细胞群。基于免疫相关RNA-seq和突变数据,应用iClusterplusR软件包对患者进行多组学聚类,如图1所示,将头颈部鳞状细胞癌患者分为了三种免疫亚型:亚型1、亚型2和亚型3。其中,亚型2以记忆B细胞、CD8T细胞、活化CD4T细胞、NK细胞浸润为主;亚型3以肥大细胞和0期巨噬细胞浸润为主,而记忆B细胞、CD8T细胞、活化CD4T细胞、NK细胞浸润低;亚型1以0期和2期巨噬细胞浸润为主,肥大细胞、记忆B细胞、CD4T细胞浸润较免疫激活型低,但高于亚型3。
基于上述特征,本实施例将亚型1命名为中间型,将亚型2命名为免疫激活型,将亚型3命名为免疫荒漠型。
2、三种亚型分型科学性的验证
为了说明本实施例划分的三种亚型的科学性,验证本发明的预测系统在实际应用中的意义,下面分析三种亚型的区别。
①免疫特征
通过GO和KEGG富集分析寻找各亚型间差异富集的显著免疫相关途径,并使用CIBERSORT算法估计22种免疫细胞在肿瘤组织中的相对比例。结果显示:免疫激活型具有较高的免疫浸润,而免疫荒漠型免疫浸润低,中间型免疫特征表现介于二者之间。
②临床特征
分析比较各免疫亚型的年龄、性别、分期、饮酒、吸烟等临床病理特征,单因素和多因素分析(多组学聚类)验证免疫分型的独立预后价值,并评价免疫亚型的化疗疗效等预后特征。下表为499例HNSCC患者不同免疫亚型之间临床病理特征的单因素卡方检验:
临床信息
Figure BDA0003327050790000061
TCGA队列中499例HNSCC患者的详细临床病理特征见表1。性别(χ2=2.04,P=0.36)、年龄(χ2=1.44,P=0.49)、分期(χ2=1.73,P=0.42)、饮酒(χ2=1.87,P=0.39)、吸烟(χ2=4.00,P=0.13)在亚型间分布大致均匀,而分级(χ2=20.391,P<0.001)在各亚型之间存在差异。免疫激活型中分级高的患者占40.80%,远高于免疫荒漠型(19.21%)和中间型(21.51%)。
通过log-rank检验的K-M生存曲线评估聚类对预后的影响。本发明使用两种方法(单组学聚类和多组学聚类)分别获得三个免疫亚型,结果显示,与单组学聚类(P=0.0.045)相比,多组学聚类在免疫亚型间的预后差异更显著(P=0.0034)。多组学聚类结果中,免疫激活型患者的整体生存结果优于中间型和免疫荒漠型。免疫荒漠型中,化疗患者预后较差(HR 2.30,95%CI:1.14,4.64)。而在免疫激活型(HR 2.16,95%CI:0.73,6.41)和中间型(HR 0.83,95%CI:0.39,1.77)中,化疗对生存没有显著影响。这些结果提示,本发明建立的免疫亚型分类能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。
③生物学特征
肿瘤内部异质性主要指同一肿瘤体内的肿瘤细胞因细胞系不同而产生的差异,可能表现在组织学、抗原性、免疫、代谢、生长速率、化学药物敏感性、侵袭转移等方面。突变等位基因肿瘤异质性(MATH)评分是肿瘤内部异质性的一种量化形式,如图2所示,对三种分型进行MATH评分,结果显示,中间型的中位MATH评分高于免疫激活型,但显著低于免疫荒漠型。
综上所述,本实施例将头颈部鳞状细胞癌患者分为了三种免疫亚型:中间型,免疫激活型和免疫荒漠型。对其特征进行对比发现,三种分型在免疫浸润程度、临床特征和MATH评分等方面存在显著差异,且从预后的角度来看,免疫激活型患者的生存结果优于中间型和免疫荒漠型。因此,本发明的免疫亚型分类能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。
实施例2建立用于预测头颈部鳞状细胞癌免疫亚型的预测系统
如图3所示,本实施例的目的在于:基于神经网络模型,提供一种利用HNSCC的病理切片数据对头颈部鳞状细胞癌进行分型的预测系统。其中,分型的三种亚型为实施例1所述的中间型、免疫激活型和免疫荒漠型。
首先获取数据,并将数据分为训练集、验证集和测试集:
①获取TCGA数据库(https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga),按照实施例1的方法分出三种免疫亚型的数据集。
②平衡数据集,切割并将原始数据预处理,转化为单个图块的图集用以训练。具体地:
共获取493张切片作为数据集,其中有中间型切片174张,免疫激活型切片135张,免疫荒漠型切片184张。在493张切片中,随机选取345张用于训练模型,称为训练集(trainset)。随机选取49张用于模型训练中的交叉验证,称为验证集(valid set),此集的作用是在训练过程中,每进行一遍训练集的迭代训练(即完成一轮epoch后),对模型效果进行检查,输出对该验证集的测试效果,方便观察模型的训练效果。剩下的99张用于对模型的预测,称为测试集(test set),该集的作用在于模型训练完成后,对模型的效果进行检验。将分类后的切片切割为数个224*224(像素大小)的正方形图块,筛选并删除背景区域大于50%的无效图块。关于图块大小的选取,本实施例对不同切片切成不同大小的图块进行对比后,发现选择224*224的图块作为输入能够获得最佳的预测准确性。
建立用于预测头颈部鳞状细胞癌免疫亚型的预测系统的步骤如下:
(1)预测系统的组成
本实施例的预测系统由输入模块、预测模块和输出模块组成。
其中输入模块用于输入HNSCC的病理切片图像数据,输出模块用于输出预测的头颈部鳞状细胞癌患者的免疫分型的结果:中间型,免疫激活型或免疫荒漠型。
预测模块内置EfficientNets模型,该模型具有如下具体参数:
width_coefficient=1.0,depth_coefficient=1.0,
resolution=224,dropout_rate=0.2;
EfficientNets模型的网络构架为:2D卷积层Conv2D1——批标准化层BN1——限制层(Block层)7个——2D卷积层Conv2D2——批标准化层BN2——全局池化层GAP——损失层(Dropout层)——全连接层(Dense层);
各层的参数如下:
①2D卷积层Conv2D1:
kernel_size=(3,3),strides=2,padding="same",use_bias=False。
②批标准化层BN1:激活函数为swish。
③7个Block层参数如下表所示:
Figure BDA0003327050790000081
④2D卷积层Conv2D2:
kernel_size=(1,1),strides=1,padding="same",use_bias=False。
⑤批标准化层BN2:激活函数为swish。
⑥全局池化层:Default,为EfficientNets的默认参数。
⑦损失层:dropout_rate=0.2。
⑧全连接层:units=2,activation=tf.keras.activations.softmax。
注:width_coefficient:宽度系数,即通道(channel)的数量,网络中同层卷积层中卷积核的个数;depth_coefficient:深度系数,即网络中卷积层的个数;resolution:切割图片后单个图片(必须为正方形)的宽度,单位为像素;in_channels:输入图像的通道数目;out_channels:卷积之后的通道数目;layers:添加额外卷积层的次数;expansion_factor:将in_channels的大小缩放的倍数;k:卷积核的一维尺寸dropout_rate:随机舍弃的神经元比例;kernel_size:卷积核的二维尺寸;strides:卷积操作中的滑动步长;padding:卷积核边缘的填充方式;use_bias:是否使用偏置向量;swish:激活函数,函数表达式为f(x)=x*sigmoid(βx),其中β是一个常数或可训练的参数;Units:该层的神经元数;Activation:激活函数;tf.keras.activations.softmax:Tensorflow内置的激活函数的一种,函数定义为:在一个数组V中,Vi表示V中的第i个元素,这个元素的Softmax值是:
Figure BDA0003327050790000091
i是指该数组中的某一个元素,j代表该数组中的每个元素。该公式的数学含义为是该元素的指数,与所有元素指数和的比值。该值的范围在(0,1)中。
此为预训练模型,在此基础上通过数据集的训练,还需训练两个超参数:学习率Learning rate和训练轮数epoch。
(2)训练方法
使用预训练模型,通过调节训练超参数,训练出最佳的用以分类分级状况的模型权重。具体地:
关注的主要超参数为Learning Rate(学习率,指模型的学习进度。过高导致难以收敛,过低导致过拟合)、Epoch(训练轮数,指每个数据用于训练的次数,过低导致预测效果不佳,过高导致过拟合)
Learning Rate分别使用0.0001、0.0005、0.001、0.005、0.01、0.05和0.1,并在效果最好的参数及其邻近的效果较好的参数之间再选取4个参数进行训练和验证。
Epoch与模型精度的关系为逐渐增高,在最高点波动后单调降低的曲线。因此将epoch设为较高值80,每训练完1个epoch后保存模型,最后将80个不同epoch参数的模型进行验证的方法,作出曲线并观察其高点所对应的epoch。
整合训练结果,并用整理后的模型在切片上进行验证。
(3)预测结果
对模型的效果进行整合分析发现,模型在80个epoch时拥有最好的预测效果。达到该效果的超参数为训练轮数=80,学习率=0.007。
通过上述方法建立最终的预测模型后,本实施例的预测系统在所有切片的测试中,在224*224像素的小图块的测试集上的准确率达到了90.3%(95%置信区间:90.1%~90.5%)(图4)。由于本实施例中,每一个切片的原始数据在数据预处理过程中切成了数个224*224像素的小图块,因此对于同一个切片,用本实施例的方法能够得到数个预测结果,以占比最多的分型结果为该切片的最终分型结果,则本实施例对切片进行分型的准确率达到了100%。这说明该模型具有很高的准确率和应用价值。
上述实验结果表明,本发明构建的预测系统能够准确预测头颈部鳞状细胞癌患者的免疫亚型,该免疫亚型预测结果能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。

Claims (10)

1.一种用于对头颈部鳞状细胞癌免疫亚型进行分型的系统,其特征在于:所述免疫亚型为中间型、免疫激活型或免疫荒漠型;三种免疫亚型的免疫浸润程度按照免疫激活型、中间型和免疫荒漠型的顺序依次降低;
所述系统按照如下方法将头颈部鳞状细胞癌的免疫亚型进行分型:
1)头颈鳞癌特异性免疫相关基因筛选:基于泛癌中代表免疫细胞亚群的相关基因,进行头颈鳞癌肿瘤组织和癌旁组织间基因差异性分析,获得头颈鳞癌特异性免疫相关基因;
2)分型:以上述头颈鳞癌特异性免疫相关基因对应的RNA-seq和体细胞突变数据作为分型依据,采用R语言iclusterplus包进行多组学聚类分析,将患者分为三个亚型。
2.根据权利要求1所述的预测系统,其特征在于:步骤2)中,所述分型的过程中参数设置要为:maxiter=2000,sdev=0.05,eps=1.0e-4。
3.一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统,其特征在于:所述免疫亚型为中间型、免疫激活型或免疫荒漠型;三种免疫亚型的免疫浸润程度按照免疫激活型、中间型和免疫荒漠型的顺序依次降低;
所述预测系统包括以下部分:
输入模块,用于输入头颈部鳞状细胞癌患者的头颈部鳞状细胞癌病理图像数据;
预测模块,所述预测模块内置神经网络模型,用于根据头颈部鳞状细胞癌病理图像数据计算免疫亚型预测结果;
输出模块,用于输出头颈部鳞状细胞癌患者的免疫亚型预测结果:中间型、免疫激活型或免疫荒漠型。
4.根据权利要求3所述的预测系统,其特征在于:所述中间型、免疫激活型和免疫荒漠型的分型标准是对头颈部鳞状细胞癌按照如下方法进行划分得到:
1)头颈鳞癌特异性免疫相关基因筛选:基于泛癌中代表免疫细胞亚群的相关基因,进行头颈鳞癌肿瘤组织和癌旁组织间基因差异性分析,获得头颈鳞癌特异性免疫相关基因;
2)分型:以上述头颈鳞癌特异性免疫相关基因对应的RNA-seq和体细胞突变数据作为分型依据,采用R语言iclusterplus包进行多组学聚类分析,将患者分为三个亚型。
5.根据权利要求4所述的预测系统,其特征在于:步骤2)中,所述分型的过程中参数设置要为:maxiter=2000,sdev=0.05,eps=1.0e-4。
6.根据权利要求3所述的预测系统,其特征在于:所述头颈部鳞状细胞癌病理图像数据是切割后的像素大小为224×224的图块。
7.根据权利要求3所述的预测系统,其特征在于:预测模块中,所述神经网络模型为EfficientNets模型。
8.根据权利要求7所述的预测系统,其特征在于:预测模块中,所述EfficientNets模型的网络构架包括:2D卷积层Conv2D1,批标准化层BN1,7个限制层,2D卷积层Conv2D2,批标准化层BN2,全局池化层GAP,损失层和全连接层。
9.根据权利要求8所述的预测系统,其特征在于:用于训练所述EfficientNets模型的预训练模型具有如下参数设置:
2D卷积层Conv2D1:
kernel_size=(3,3),strides=2,padding="same",use_bias=False;
批标准化层BN1:激活函数为swish;
7个Block层参数如下表所示:
Figure FDA0003327050780000021
2D卷积层Conv2D2:
kernel_size=(1,1),strides=1,padding="same",use_bias=False;
批标准化层BN2:激活函数为swish;
全局池化层:Default,为EfficientNets的默认参数;
损失层:dropout_rate=0.2;
全连接层:units=2,activation=tf.keras.activations.softmax;
其中:width_coefficient为宽度系数;depth_coefficient为深度系数;resolution为切割图片后单个图片的宽度;in_channels为输入图像的通道数目;out_channels为卷积之后的通道数目;layers为添加额外卷积层的次数;expansion_factor为将in_channels的大小缩放的倍数;k为卷积核的一维尺寸dropout_rate为随机舍弃的神经元比例;kernel_size为卷积核的二维尺寸;strides为卷积操作中的滑动步长;padding为卷积核边缘的填充方式;use_bias为是否使用偏置向量;swish为激活函数,函数表达式为f(x)=x*sigmoid(βx),其中β是一个常数或可训练的参数;Units为该层的神经元数;Activation为激活函数;tf.keras.activations.softmax为Tensorflow内置的激活函数的一种;
用于训练所述EfficientNets模型的学习率为0.007,训练轮数为80。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于实现权利要求3~9任一项所述的用于预测头颈部鳞状细胞癌免疫亚型的预测系统。
CN202111266753.3A 2021-10-28 2021-10-28 一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统 Pending CN113870951A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111266753.3A CN113870951A (zh) 2021-10-28 2021-10-28 一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111266753.3A CN113870951A (zh) 2021-10-28 2021-10-28 一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统

Publications (1)

Publication Number Publication Date
CN113870951A true CN113870951A (zh) 2021-12-31

Family

ID=78985725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111266753.3A Pending CN113870951A (zh) 2021-10-28 2021-10-28 一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统

Country Status (1)

Country Link
CN (1) CN113870951A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129998A (zh) * 2023-01-19 2023-05-16 中国医学科学院肿瘤医院 一种食管鳞状细胞癌数据的处理方法及其系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106399506A (zh) * 2009-10-26 2017-02-15 雅培分子公司 用于测定非小细胞肺癌预后的诊断方法
CN111369501A (zh) * 2020-02-24 2020-07-03 武汉大学 一种基于视觉特征识别口腔鳞状细胞癌的深度学习方法
CN111394454A (zh) * 2020-01-06 2020-07-10 江苏省肿瘤防治研究所(江苏省肿瘤医院) 一种免疫相关生物标志物及其在头颈部鳞状细胞癌预后诊断中的应用
CN111748633A (zh) * 2020-08-04 2020-10-09 广东省第二人民医院(广东省卫生应急医院) 一种特征miRNA表达谱组合及头颈鳞状细胞癌早期预测方法
CN113355411A (zh) * 2020-03-02 2021-09-07 中山大学孙逸仙纪念医院 一种基于lncRNA标记物的肿瘤免疫分型方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106399506A (zh) * 2009-10-26 2017-02-15 雅培分子公司 用于测定非小细胞肺癌预后的诊断方法
CN111394454A (zh) * 2020-01-06 2020-07-10 江苏省肿瘤防治研究所(江苏省肿瘤医院) 一种免疫相关生物标志物及其在头颈部鳞状细胞癌预后诊断中的应用
CN111369501A (zh) * 2020-02-24 2020-07-03 武汉大学 一种基于视觉特征识别口腔鳞状细胞癌的深度学习方法
CN113355411A (zh) * 2020-03-02 2021-09-07 中山大学孙逸仙纪念医院 一种基于lncRNA标记物的肿瘤免疫分型方法
CN111748633A (zh) * 2020-08-04 2020-10-09 广东省第二人民医院(广东省卫生应急医院) 一种特征miRNA表达谱组合及头颈鳞状细胞癌早期预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN HUANG等: ""Proteogenomic insights into the biology and treatment of HPV-negative head and neck squamous cell carcinoma"" *
ZANETA SWIDERSKA CHADAJ等: ""Impact of rescanning and normalization on convolutional neural network performance in multi-center, whole-slide classification of prostate cancer"" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129998A (zh) * 2023-01-19 2023-05-16 中国医学科学院肿瘤医院 一种食管鳞状细胞癌数据的处理方法及其系统

Similar Documents

Publication Publication Date Title
Li et al. Machine learning for lung cancer diagnosis, treatment, and prognosis
US20220310199A1 (en) Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next- generation sequencing data
CN116825186A (zh) 基于生成对抗网络的单细胞数据批次效应校正方法
Mayrink et al. Sparse latent factor models with interactions: Analysis of gene expression data
CN113903471A (zh) 基于组织病理学图像和基因表达数据的胃癌患者生存风险预测方法
CN113870951A (zh) 一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统
Chang et al. Predicting colorectal cancer microsatellite instability with a self-attention-enabled convolutional neural network
CN108320797B (zh) 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
KR20190143043A (ko) 필터링된 데이터로 구성되는 게놈 모듈 네트워크에 기반한 샘플 데이터 분석 방법
CN115985503B (zh) 基于集成学习的癌症预测系统
CN111582370A (zh) 一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法
Martin et al. A graph based neural network approach to immune profiling of multiplexed tissue samples
Jia et al. ChrNet: a re-trainable chromosome-based 1D convolutional neural network for predicting immune cell types
Tian et al. Sparse group selection on fused lasso components for identifying group-specific DNA copy number variations
Chen et al. Cancer subtyping by improved transcriptomic features using vector quantized variational autoencoder
CN115579064A (zh) 一种宫颈鳞状细胞癌的预后模型构建方法
Figueroa-Silva et al. Machine learning techniques in predicting braf mutation status in cutaneous melanoma from clinical and histopathologic features
US20230046438A1 (en) Method for predicting cell spatial relation based on single-cell transcriptome sequencing data
EP2710152A1 (en) Computer-implemented method and system for detecting interacting dna loci
Santamaria-Pang et al. Robust single cell quantification of immune cell subtypes in histological samples
CN115862876B (zh) 基于免疫微环境基因群预测肺腺癌患者预后的装置
CN117877590B (zh) 基于测序数据的细胞聚类方法、装置、设备及存储介质
CN115985388B (zh) 基于预处理降噪和生物中心法则的多组学集成方法和系统
Song Statistical Methods for Estimating Cell-Type Heterogeneity and Differential DNA Methylation Analysis
Zhu et al. An artificial intelligence pipeline for imaging mass cytometry data analysis and its application in ovarian cancer prognostic biomarker discovery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211231