CN112635063B - 一种肺癌预后综合预测模型、构建方法及装置 - Google Patents

一种肺癌预后综合预测模型、构建方法及装置 Download PDF

Info

Publication number
CN112635063B
CN112635063B CN202011615708.XA CN202011615708A CN112635063B CN 112635063 B CN112635063 B CN 112635063B CN 202011615708 A CN202011615708 A CN 202011615708A CN 112635063 B CN112635063 B CN 112635063B
Authority
CN
China
Prior art keywords
prognosis
module
gene
lung cancer
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011615708.XA
Other languages
English (en)
Other versions
CN112635063A (zh
Inventor
侯珺
黎雪桃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011615708.XA priority Critical patent/CN112635063B/zh
Publication of CN112635063A publication Critical patent/CN112635063A/zh
Application granted granted Critical
Publication of CN112635063B publication Critical patent/CN112635063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

本发明公开了一种肺癌预后综合预测模型、构建方法及装置,方法包括以下步骤:收集肺癌样本原始基因表达数据和相应的临床生存数据,进行数据预处理和标准化,获得基因表达矩阵;获取肿瘤内免疫细胞的类型并计算各类型免疫细胞的相对比值;从获取的免疫细胞类型中筛选出构建预后预测模型的参数并获取对应的回归系数,所述参数为多种免疫细胞类型;基于筛选出的参数,根据其相对比值和对应的回归系数,计算免疫评分;识别基因共表达模块,寻找在肺癌样本中协同表达的基因模块,确定与预后相关的基因模块;构建预后综合预测模型;本发明整合免疫评分、临床信息以及基因共表达模块特征构建综合预测模型来预测肺癌患者的预后。

Description

一种肺癌预后综合预测模型、构建方法及装置
技术领域
本发明属于生物医学领域,具体涉及一种肺癌预后综合预测模型、构建方法及装置。
背景技术
肺癌发病率和死亡率在我国恶性肿瘤中均居前列。据报道,我国每年新增肺癌患者60多万,而死亡患者超过50多万,且死亡率逐年上升。肺癌包括非小细胞肺癌和小细胞肺癌,而非小细胞肺癌主要包括肺腺癌和肺鳞癌两种病理类型,其中肺腺癌是最为常见的肺癌类型,具有术后易发生远处转移和预后较差的特点。
临床上,肺癌可否手术取决于TNM分期,而可切除的肺癌患者的预后取决于肿瘤浸润的组织病理学标准。肺癌的临床分期和组织病理学分型是目前肺癌的临床预后指标,然而肺癌术后预后差别大。肺癌预后受多种因素影响,包括癌症病理学类型、肿瘤分期、患者年龄、吸烟状态、基因突变状态和肿瘤微环境成分等等因素。迄今,基于传统的临床指标和分期只能粗略区分不同分期的肺癌,无法满足临床实践中个体化治疗越来越高的要求。目前,在肺癌中,还没有同时整合基因表达、肿瘤内浸润免疫细胞含量以及传统临床预后指标的预后模型用于临床预测肺癌预后。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提出一种肺癌预后综合预测模型、构建方法及装置,本发明整合免疫评分、临床信息以及基因共表达模块特征构建综合预测模型来预测肺癌患者的预后。
为了达到上述目的,本发明采用以下技术方案:
一种肺癌预后综合预测模型构建方法,包括以下步骤:
从Gene Expression Omnibus数据库收集肺癌样本原始基因表达数据和相应的临床生存数据,收集过程中去除临床数据不完整和总生存时间小于一个月的样本数据,余下的数据进行数据标准化,获得基因表达矩阵;
采用CIBERSORT反卷积算法获取肿瘤内免疫细胞的类型并计算各类型免疫细胞的相对比值;
采用LASSO回归算法从获取的免疫细胞类型中筛选出构建预后综合预测模型的参数并获取对应的回归系数,所述参数为多种免疫细胞类型;
基于筛选出的参数,根据其相对比值和对应的回归系数,计算免疫评分;
识别基因共表达模块,寻找在肺癌样本中协同表达的基因模块,根据识别得到的基因共表达模块,确定与预后相关的基因模块;
构建预后综合预测模型,整合免疫评分、与预后相关的基因模块以及临床预后指标,构建预后综合预测模型。
进一步的,所述识别基因共表达模块具体为:
采用加权基因共表达网络分析将表达模式相似的基因进行聚类,寻找在肺癌样本中协同表达的基因模块;计算每个模块的特征值,该特征值代表模块内的基因在各个样本中的表达模式;
所述确定与预后相关的基因模块具体为:
采用SPSS统计软件执行多因素COX逐步回归分析识别得到的与预后相关的基因共表达模块。
进一步的,所述加权基因共表达网络分析包括以下步骤:
将基因表达矩阵转换成0-1范围的相关性矩阵;
对相关性值进行幂次运算,幂次的值即power,用power函数将相关性矩阵转换成邻接矩阵,设置power值使构建的网络符合无标度网络特征;
基因之间的共表达相似性如下表示:
sijunsigned=∣cor(xi,xj)∣ (1)
其中,sijunsigned表示基因i和j之间的共表达相似性;
构建拓扑重叠矩阵以计算基因与基因之间的关系:
Figure BDA0002871866370000031
其中,u、i以及j为基因,将u与i,j之间的相关系数用公式(2)运算,以基因u为桥梁,将i和j基因在网络中的重叠程度数据化;若i,j在网络中连接越相似,则TOMij越大,i和j越有可能在同一表达模块中;
构建共表达模块,对获得的拓扑重叠矩阵进行层次聚类,形成基因共表达模块。
进一步的,所述构建预后综合预测模型具体为将免疫评分、与预后相关的基因模块以及临床预后指标整合进nomogram,构建预后综合预测模型,具体为:
将免疫评分、与预后相关的基因模块、肿瘤分期、年龄以及性别作为自变量,用COX回归构建预后综合预测模型;
所述nomogram实质是对COX回归方程的可视化,它根据所有自变量回归系数的大小来制定评分标准,给每个自变量的每种取值水平一个评分,对每个患者,计算得到一个总分,再通过得分与结局发生概率之间的转换函数来计算每个患者的结局时间发生的概率;
COX回归方程的校准,通过绘制模型的预测概率与实际生存概率之间的关系来评估校准。
进一步的,所述采用CIBERSORT反卷积算法从肿瘤的基因表达数据中获取肿瘤组织内免疫细胞类型和计算免疫细胞的相对比值,计算公式具体如下:
M=S*F
其中,M为基因表达矩阵,S为免疫细胞类型特异性的基因标签,F为免疫细胞的相对比值。
进一步的,所述筛选出构建预后综合预测模型的参数具体为采用LASSO回归算法并采用交叉验证法根据方差最小确定最优调整参数λ,从而确定用于构建预测模型的最优变量;
所述LASSO回归算法具体为:
LASSO目标函数=残差平方和+λ*系数的绝对值之和,公式表达为:
Figure BDA0002871866370000041
其中,loss(w)是LASSO目标函数,yj是n*1观测向量,xji为预测变量,即免疫细胞类型,wi是系数;
用交叉验证方法确定最优调整参数λ。
进一步的,所述计算免疫评分值具体如下:
I=∑F*C
其中,I为免疫评分,F为各免疫细胞的相对比值,C为各免疫细胞类型对应的回归系数。
本发明还包括一种肺癌预后综合预测模型,其采用本发明提供的构建方法构建而成。
本发明还包括一种肺癌预后综合预测装置,基于本发明提供的肺癌预后综合预测模型,包括数据收集模块、免疫细胞类型分析模块、参数筛选模块、免疫评分模块、识别确定模块、模型构建模块以及预测输出模块;
所述数据收集模块用于收集肺癌样本原始基因表达数据和相应的临床生存数据,并对收集的数据进行预处理和标准化;
所述免疫细胞类型分析模块用于获取肿瘤组织内免疫细胞类型并计算各免疫细胞类型的相对比值;
所述参数筛选模块用于从免疫细胞类型中筛选出用于构建预后预测模型的参数并获取相对应的回归系数;
所述免疫评分模块用于根据筛选出的参数的相对比值和对应的回归系数,计算免疫评分;
所述识别确定模块用于识别基因共表达模块,寻找肺癌样本中协同表达的基因模块,并根据识别得到的基因共表达模块,确定与预后相关的基因模块;
所述模型构建模块用于整合免疫评分、与预后相关的基因模块以及临床预后指标,构建预后综合预测模型;
所述预测输出模块用于根据预后综合预测模型,输出被测患者的风险级别。
进一步的,所述输出被测患者的风险级别具体为:
对于每个整合进预后综合预测模型的变量,任意一个值都对应一个分数,每个患者将所有变量所赋值的分数加起来得到总分,定义为风险分数;取被测患者肺癌预后风险分数的三等分点作为分割点,将被测患者风险级别分成高、中以及低三组。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明整合免疫细胞、基因表达和临床信息构建肺癌预后综合预测模型,实现了肺癌患者预后的风险分层,显著地将高低风险的患者分开,进而可以预测肺癌的临床结果,指导个体化治疗,具有较高的临床应用价值。
2、本发明建立的模型是从开源的公共数据库中下载肺腺癌患者的基因表达数据和临床数据,解决了样品收集难,测序费用高,以及对病人随访的问题。
附图说明
图1是本发明方法的流程图;
图2a是本发明实施例的LASSO回归模型示意图;
图2b是本发明实施例的LASSO回归模型示意图;
图3是本发明实施例的nomogram模型图;
图4是本发明实施例的高低风险生存曲线比较;
图5是本发明装置的结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
CIBERSORT反卷积算法:由斯坦福大学开发,该算法直接根据转录组数据推测和量化肿瘤组织中22种浸润性免疫细胞的成分和占比,可以同时确定22种免疫细胞类型,克服了常规免疫组化和免疫荧光实验的繁琐与检测少量标记物的难点,同时也克服了临床标本少、难以获得,不能满足多组学实验的需求的劣势。
22种免疫类型具体为包括幼稚B细胞(B cells naive)、记忆B细胞(B cellsmemory)、浆细胞(Plasma cells)、CD8+T细胞(T cells CD8)、幼稚CD4+T细胞(T cells CD4naive)、静息记忆CD4+T细胞(T cells CD4 memory resting)、活化记忆CD4+T细胞(Tcells CD4 memory activated)、滤泡辅助性T细胞(T cells follicular helper)、调节性T细胞(T cells regulatory)、γδT细胞(T cells gamma delta)、静息NK细胞(NK cellsresting)、活化NK细胞(NK cells activated)、单核细胞(Monocytes)、M0型巨噬细胞(Macrophages M0)、M1型巨噬细胞(Macrophages M1)、M2型巨噬细胞(Macrophages M2)、静息树突状细胞(Dendritic cells resting)、活化树突状细胞(Dendritic cellsactivated)、静息肥大细胞(Mast cells resting)、活化肥大细胞(Mast cellsactivated)、嗜酸性粒细胞(Eosinophils)以及嗜中性粒细胞(Neutrophils)。
实施例
如图1所示,本发明,肺癌预后综合预测模型构建方法,方法包括以下步骤:
S1、从Gene Expression Omnibus(GEO)数据库筛选并下载1175例肺癌样本原始基因表达数据和相应的临床生存信息,数据均来自同一芯片测序平台(GPL570)。去除临床数据不完整和和总生存时间小于一个月的样本,剩余849个样品。余下样本的基因表达数据进行预处理和标准化后,获得基因表达矩阵。
S2、使用CIBERSORT反卷积算法,推测肺腺癌肿瘤内免疫细胞的成分以及计算其相对比值,计算公式如下:
M=S*F
其中,M为基因表达矩阵,S为免疫细胞类型特异性的基因标签,F为免疫细胞的相对比值。
S3、采用LASSO回归算法从步骤S2所得免疫细胞类型中筛选用于构建预后综合预测模型的参数,并获得相应的回归系数,具体为采用LASSO回归算法并采用交叉验证法根据方差最小确定最优调整参数λ,从而确定用于构建预测模型的最优变量;
所述LASSO回归算法能够进行变量筛选和降低模型的复杂程度。变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。复杂度调整是指通过一系列参数控制模型的复杂度,从而避免过度拟合。变量数越多,模型复杂度就越高,同时也面临过度拟合的危险。
在本实施例中,根据最优参数值,最终有17种免疫细胞类型被筛选作为计算免疫评分的参数,如图2a、图2b所示,图2a曲线最低点确定惩罚值(即曲线最低点对应的上坐标),在图2b的相应惩罚值的位置划上一条竖虚线,每一条曲线代表一个参数,与该惩罚值相交的参数即为计算免疫评分所需参数,参数所对应的纵坐标即为该参数的回归系数;
所述LASSO回归算法具体为:
LASSO目标函数=残差平方和+λ*系数的绝对值之和,公式表达为:
Figure BDA0002871866370000081
其中,loss(w)是LASSO目标函数,yj是n*1观测向量,xji为预测变量,即免疫细胞类型,wi是系数;
用交叉验证方法确定最优调整参数λ;
R语言实现代码如下:
>library("glmnet")
>library("survival")
>x<-read.csv("x.csv",row.names=1)
>y<-data.matrix(Surv(x$time,x$status))
>cv.fit<-cv.glmnet(x,y,family="cox",maxit=1000)
>coef.min=coef(cv.fit,s="lambda.min")
所述17种免疫细胞类型及其对应的回归系数如下表1所示:
Figure BDA0002871866370000082
Figure BDA0002871866370000091
表1
S4、基于筛选出的参数,根据其相对比值和对应的回归系数,计算每个肺癌患者的免疫评分值,公式如下:
I=∑F*C
其中,I为免疫评分,F为各免疫细胞的相对比值,C为各免疫细胞类型对应的回归系数。
S5、识别基因共表达模块,具体为:
使用加权基因共表达网络分析(WGCNA)将表达模式相似的基因进行聚类,寻找在肺癌样本中协同表达的基因模块(module)。共识别出14个基因共表达模块,如图3所示;然后计算每个模块的特征值,该特征值代表模块内的基因在各个样本中的表达模式;
所述加权基因共表达网络分析包括以下步骤:
将基因表达矩阵转换成0-1范围的相关性矩阵;
对相关性值进行幂次运算,幂次的值即power,用power函数将相关性矩阵转换成邻接矩阵,设置power值使构建的网络符合无标度网络特征;
基因之间的共表达相似性如下表示:
sijunsigned=∣cor(xi,xj)∣ (1)
其中,sijunsigned表示基因i和j之间的共表达相似性;
构建拓扑重叠矩阵以计算基因与基因之间的关系:
Figure BDA0002871866370000101
其中,u、i以及j为基因,将u与i,j之间的相关系数用公式(2)运算,以基因u为桥梁,将i和j基因在网络中的重叠程度数据化;若i,j在网络中连接越相似,则TOMij越大,i和j越有可能在同一表达模块中;
构建共表达模块,对获得的拓扑重叠矩阵进行层次聚类,形成基因共表达模块。
S6、确定与肺癌预后有关的基因模块,具体为:
采用多因素COX逐步回归分析上述14个基因模块(用特征值表示),鉴别出与预后有关的模块。
所述14种基因模块对应的COX分析结果如下表2所示:
Figure BDA0002871866370000102
Figure BDA0002871866370000111
表2
其中,4种基因模块与肺癌预后有关(p<0.05),为M4、M5、M6以及M8。
S7、构建肺癌预后综合预测模型,具体为:
将免疫评分、上述4种基因模块以及临床预后指标(包括肿瘤分期、诊断年龄、性别)整合进nomogram构建综合预后模型;
具体步骤如下:
将免疫评分、与预后相关的基因模块、肿瘤分期、年龄以及性别作为自变量,用COX回归构建预后综合预测模型;
nomogram实质是对COX回归方程的可视化,它根据所有自变量回归系数的大小来制定评分标准,给每个自变量的每种取值水平一个评分,对每个患者,计算得到一个总分,再通过得分与结局发生概率之间的转换函数来计算每个患者的结局时间发生的概率;
COX回归生存模型的校准,通过绘制模型的预测概率与实际生存概率之间的关系来评估校准。
如图3所示,每个变量的任何一个值都可对应顶部的一个分数,每个患者将所有变量所赋值的分数加起来得到总分,定义为风险分数(risk score)。取肺癌患者肺癌预后风险分数的三等分点作为分割点,将肺癌患者分成高、中、低三组风险组。
在该肺癌预后模型中,所述风险分数三等份的分割点分别是:小于111.07(高风险组),大于135.40(低风险组),在111.07和135.40之间(中风险组)。
如图4所示,使用Kaplan-Meier法绘制生存曲线,并使用log-rank检验进行高中低风险组生存曲线的比较,横坐标代表病人的生存时间(以月为单位),纵坐标代表总生存率;log-rank检验显著性p<0.0001,说明模型的高中低风险组之间的生存曲线具有显著的差异。
在另一个实施例中,还提供了基于上述实施例所构建的肺癌预后综合预测模型的肺癌预后综合预测装置,如图5所示,装置包括数据收集模块、免疫细胞类型分析模块、参数筛选模块、免疫评分模块、识别确定模块、模型构建模块以及预测输出模块;
所述数据收集模块用于收集肺癌样本原始基因表达数据和相应的临床生存数据,并对收集的数据进行预处理和标准化;
所述免疫细胞类型分析模块用于获取肿瘤组织内免疫细胞类型并计算各免疫细胞类型的相对比值;
所述参数筛选模块用于从免疫细胞类型中筛选出用于构建预后预测模型的参数并获取相对应的回归系数;
所述免疫评分模块用于根据筛选出的参数的相对比值和对应的回归系数,计算免疫评分;
所述识别确定模块用于识别基因共表达模块,寻找在肺癌样本中协同表达的基因模块,并根据识别得到的基因共表达模块,确定与预后相关的基因模块;
所述模型构建模块用于整合免疫评分、与预后相关的基因模块以及临床预后指标,构建预后综合预测模型;
所述预测输出模块用于根据预后综合预测模型,输出被测患者的风险级别。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种肺癌预后综合预测模型构建方法,其特征在于,包括以下步骤:
从Gene Expression Omnibus数据库收集肺癌样本原始基因表达数据和相应的临床生存数据,收集过程中去除临床数据不完整和总生存时间小于一个月的样本数据,余下的数据进行数据标准化,获得基因表达矩阵;
采用CIBERSORT反卷积算法获取肿瘤内免疫细胞的类型并计算各类型免疫细胞的相对比值;
采用LASSO回归算法从获取的免疫细胞类型中筛选出构建预后综合预测模型的参数并获取对应的回归系数,所述参数为多种免疫细胞类型;
基于筛选出的参数,根据其相对比值和对应的回归系数,计算免疫评分;
识别基因共表达模块,寻找在肺癌样本中协同表达的基因模块,根据识别得到的基因共表达模块,确定与预后相关的基因模块;
构建预后综合预测模型,整合免疫评分、与预后相关的基因模块以及临床预后指标,构建预后综合预测模型。
2.根据权利要求1所述的一种肺癌预后综合预测模型构建方法,其特征在于,所述识别基因共表达模块具体为:
采用加权基因共表达网络分析将表达模式相似的基因进行聚类,寻找在肺癌样本中协同表达的基因模块;计算每个模块的特征值,该特征值代表模块内的基因在各个样本中的表达模式;
所述确定与预后相关的基因模块具体为:
采用SPSS统计软件执行多因素COX逐步回归分析识别得到的与预后相关的基因共表达模块。
3.根据权利要求2所述的一种肺癌预后综合预测模型构建方法,其特征在于,所述加权基因共表达网络分析包括以下步骤:
将基因表达矩阵转换成0-1范围的相关性矩阵;
对相关性值进行幂次运算,幂次的值即power,用power函数将相关性矩阵转换成邻接矩阵,设置power值使构建的网络符合无标度网络特征;
基因之间的共表达相似性如下表示:
sijunsigned=∣cor(xi,xj)∣ (1)
其中,sijunsigned表示基因i和j之间的共表达相似性;
构建拓扑重叠矩阵以计算基因与基因之间的关系:
Figure FDA0002871866360000021
其中,u、i以及j为基因,将u与i,j之间的相关系数用公式(2)运算,以基因u为桥梁,将i和j基因在网络中的重叠程度数据化;若i,j在网络中连接越相似,则TOMij越大,i和j越有可能在同一表达模块中;
构建共表达模块,对获得的拓扑重叠矩阵进行层次聚类,形成基因共表达模块。
4.根据权利要求3所述的一种肺癌预后综合预测模型构建方法,其特征在于,所述构建预后综合预测模型具体为将免疫评分、与预后相关的基因模块以及临床预后指标整合进nomogram,构建预后综合预测模型,具体为:
将免疫评分、与预后相关的基因模块、肿瘤分期、年龄以及性别作为自变量,用COX回归构建预后综合预测模型;
所述nomogram实质是对COX回归方程的可视化,它根据所有自变量回归系数的大小来制定评分标准,给每个自变量的每种取值水平一个评分,对每个患者,计算得到一个总分,再通过得分与结局发生概率之间的转换函数来计算每个患者的结局时间发生的概率;
COX回归方程的校准,通过绘制模型的预测概率与实际生存概率之间的关系来评估校准。
5.根据权利要求1所述的一种肺癌预后综合预测模型构建方法,其特征在于,所述采用CIBERSORT反卷积算法从肿瘤的基因表达数据中获取肿瘤组织内免疫细胞类型和计算免疫细胞的相对比值,计算公式具体如下:
M=S*F
其中,M为基因表达矩阵,S为免疫细胞类型特异性的基因标签,F为免疫细胞的相对比值。
6.根据权利要求1所述的一种肺癌预后综合预测模型构建方法,其特征在于,所述筛选出构建预后综合预测模型的参数具体为采用LASSO回归算法并采用交叉验证法根据方差最小确定最优调整参数λ,从而确定用于构建预测模型的最优变量;
所述LASSO回归算法具体为:
LASSO目标函数=残差平方和+λ*系数的绝对值之和,公式表达为:
Figure FDA0002871866360000031
其中,loss(w)是LASSO目标函数,yj是n*1观测向量,xji为预测变量,即免疫细胞类型,wi是系数;
用交叉验证方法确定最优调整参数λ。
7.根据权利要求1所述的一种肺癌预后综合预测模型构建方法,其特征在于,所述计算免疫评分值具体如下:
I=∑F*C
其中,I为免疫评分,F为各免疫细胞的相对比值,C为各免疫细胞类型对应的回归系数。
8.一种肺癌预后综合预测模型,其特征在于,采用权利要求1-7任一项所述的构建方法构建而成。
9.一种肺癌预后综合预测装置,其特征在于,基于权利要求8所述的肺癌预后综合预测模型,包括数据收集模块、免疫细胞类型分析模块、参数筛选模块、免疫评分模块、识别确定模块、模型构建模块以及预测输出模块;
所述数据收集模块用于收集肺癌样本原始基因表达数据和相应的临床生存数据,并对收集的数据进行预处理和标准化;
所述免疫细胞类型分析模块用于获取肿瘤组织内免疫细胞类型并计算各免疫细胞类型的相对比值;
所述参数筛选模块用于从免疫细胞类型中筛选出用于构建预后预测模型的参数并获取相对应的回归系数;
所述免疫评分模块用于根据筛选出的参数的相对比值和对应的回归系数,计算免疫评分;
所述识别确定模块用于识别基因共表达模块,寻找在肺癌样本中协同表达的基因模块,并根据识别得到的基因共表达模块,确定与预后相关的基因模块;
所述模型构建模块用于整合免疫评分、与预后相关的基因模块以及临床预后指标,构建预后综合预测模型;
所述预测输出模块用于根据预后综合预测模型,输出被测患者的风险级别。
10.根据权利要求9所述的一种肺癌预后综合预测装置,其特征在于,所述输出被测患者的风险级别具体为:
对于每个整合进预后综合预测模型的变量,任意一个值都对应一个分数,每个患者将所有变量所赋值的分数加起来得到总分,定义为风险分数;取被测患者肺癌预后风险分数的三等分点作为分割点,将被测患者风险级别分成高、中以及低三组。
CN202011615708.XA 2020-12-30 2020-12-30 一种肺癌预后综合预测模型、构建方法及装置 Active CN112635063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011615708.XA CN112635063B (zh) 2020-12-30 2020-12-30 一种肺癌预后综合预测模型、构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011615708.XA CN112635063B (zh) 2020-12-30 2020-12-30 一种肺癌预后综合预测模型、构建方法及装置

Publications (2)

Publication Number Publication Date
CN112635063A CN112635063A (zh) 2021-04-09
CN112635063B true CN112635063B (zh) 2022-05-24

Family

ID=75287120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011615708.XA Active CN112635063B (zh) 2020-12-30 2020-12-30 一种肺癌预后综合预测模型、构建方法及装置

Country Status (1)

Country Link
CN (1) CN112635063B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113140258B (zh) * 2021-04-28 2024-03-19 上海海事大学 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法
CN113284612B (zh) * 2021-05-21 2024-04-16 大连海事大学 一种基于XGBoost算法的生存分析方法
CN113450874A (zh) * 2021-07-19 2021-09-28 中日友好医院(中日友好临床医学研究所) 预测ipf患者预后的8基因模型及应用
CN113707216A (zh) * 2021-08-05 2021-11-26 北京科技大学 一种浸润免疫细胞比例计数方法
WO2023142041A1 (en) * 2022-01-29 2023-08-03 Cstone Pharmaceuticals, Vistra (Cayman) Limited Methods for processing sequencing data and uses thereof
CN114974598B (zh) * 2022-06-29 2024-04-16 山东大学 一种肺癌预后预测模型构建方法及肺癌预后预测系统
CN115497623A (zh) * 2022-09-27 2022-12-20 山东第一医科大学(山东省医学科学院) 一种基于影像、病理和基因多组学的肺癌预后预测系统
CN115294129B (zh) * 2022-10-08 2023-02-07 北京肿瘤医院(北京大学肿瘤医院) 肿瘤免疫治疗预后评估方法、装置、电子设备及存储介质
CN115637292B (zh) * 2022-11-14 2023-03-10 中国医学科学院肿瘤医院 预测肺腺癌患者小细胞转化风险的模型及其建立方法
CN116386714A (zh) * 2023-02-22 2023-07-04 中国人民解放军总医院第五医学中心 一种非小细胞肺癌数据的处理方法
CN117877737A (zh) * 2024-03-12 2024-04-12 北方健康医疗大数据科技有限公司 一种原发性肺癌风险预测模型的构建方法、系统及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107709636A (zh) * 2015-05-19 2018-02-16 威斯塔解剖学和生物学研究所 用于诊断或检测肺癌的方法和组合物
WO2018223066A1 (en) * 2017-06-02 2018-12-06 Veracyte, Inc. Methods and systems for identifying or monitoring lung disease
CN110993104A (zh) * 2019-12-03 2020-04-10 中国医科大学附属第一医院 肿瘤患者生存期预测系统
CN111524597A (zh) * 2020-04-17 2020-08-11 秦皇岛市第一医院 一种食管鳞癌预后评估模型装置及其建模方法
CN111724903A (zh) * 2020-06-29 2020-09-29 北京市肿瘤防治研究所 预测受试者胃癌预后的系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210103642A9 (en) * 2005-12-14 2021-04-08 Michael H. Wigler Determining a probabilistic diagnosis of cancer by analysis of genomic copy number variations
US11208697B2 (en) * 2017-01-20 2021-12-28 Decipher Biosciences, Inc. Molecular subtyping, prognosis, and treatment of bladder cancer
US20180358125A1 (en) * 2017-06-13 2018-12-13 Alexander Bagaev Systems and methods for identifying cancer treatments from normalized biomarker scores

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107709636A (zh) * 2015-05-19 2018-02-16 威斯塔解剖学和生物学研究所 用于诊断或检测肺癌的方法和组合物
WO2018223066A1 (en) * 2017-06-02 2018-12-06 Veracyte, Inc. Methods and systems for identifying or monitoring lung disease
CN110993104A (zh) * 2019-12-03 2020-04-10 中国医科大学附属第一医院 肿瘤患者生存期预测系统
CN111524597A (zh) * 2020-04-17 2020-08-11 秦皇岛市第一医院 一种食管鳞癌预后评估模型装置及其建模方法
CN111724903A (zh) * 2020-06-29 2020-09-29 北京市肿瘤防治研究所 预测受试者胃癌预后的系统

Also Published As

Publication number Publication date
CN112635063A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112635063B (zh) 一种肺癌预后综合预测模型、构建方法及装置
US10354747B1 (en) Deep learning analysis pipeline for next generation sequencing
CN108198621B (zh) 一种基于神经网络的数据库数据综合诊疗决策方法
CN112582028B (zh) 一种肺癌预后预测模型、构建方法及装置
CN113299346B (zh) 分类模型训练和分类方法、装置、计算机设备和存储介质
CN108206056B (zh) 一种鼻咽癌人工智能辅助诊疗决策终端
CN108335756B (zh) 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN114093515A (zh) 一种基于肠道菌群预测模型集成学习的年龄预测方法
CN112183557A (zh) 基于胃癌组织病理图像纹理特征的msi预测模型构建方法
CN116741397B (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
WO2019181022A1 (ja) 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
CN111739642A (zh) 一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质
CN108320797B (zh) 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN114373548A (zh) 一种基于代谢基因建立的胰腺癌预后风险预测方法和装置
CN116228759B (zh) 肾细胞癌类型的计算机辅助诊断系统及设备
CN111763738A (zh) 一种特征mRNA表达谱组合及肝癌早期预测方法
CN111944902A (zh) 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测系统
CN112926640B (zh) 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
WO2011119967A2 (en) System,method and computer-accessible medium for evaluating a maliganacy status in at-risk populations and during patient treatment management
CN112309571A (zh) 数字病理图像的预后量化特征的筛选方法
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
CN117409962B (zh) 一种基于基因调控网络的微生物标记物的筛选方法
CN112885409B (zh) 一种基于特征选择的结直肠癌蛋白标志物选择系统
CN117274982A (zh) 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant