CN117438097B - 一种用于早期肝癌术后复发风险预测的方法及系统 - Google Patents

一种用于早期肝癌术后复发风险预测的方法及系统 Download PDF

Info

Publication number
CN117438097B
CN117438097B CN202311779195.XA CN202311779195A CN117438097B CN 117438097 B CN117438097 B CN 117438097B CN 202311779195 A CN202311779195 A CN 202311779195A CN 117438097 B CN117438097 B CN 117438097B
Authority
CN
China
Prior art keywords
risk
model
liver cancer
data
survival
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311779195.XA
Other languages
English (en)
Other versions
CN117438097A (zh
Inventor
朱燕萍
杭雨晴
谢剑邦
黎旺长
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Puenrui Biotechnology Co ltd
Original Assignee
Nanjing Puenrui Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Puenrui Biotechnology Co ltd filed Critical Nanjing Puenrui Biotechnology Co ltd
Priority to CN202311779195.XA priority Critical patent/CN117438097B/zh
Publication of CN117438097A publication Critical patent/CN117438097A/zh
Application granted granted Critical
Publication of CN117438097B publication Critical patent/CN117438097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种用于早期肝癌术后复发风险预测的方法及系统,涉及生物基因、生物信息学及医学诊断技术领域,基于建立早期肝癌术后复发风险预测模型以及基于该模型进行预测获得风险级别分类实现;包括:通过公共数据库获取早期肝癌患者的临床数据和突变数据并进行预处理和数据过滤,获得初始建模特征;基于初始建模特征、单因素Cox比例风险模型和多因素Cox回归模型进行关键特征筛选并基于关键特征建立初级Cox比例风险模型,关键特征与生存风险相关;确定初级Cox比例风险模型为早期肝癌术后复发风险预测模型,并基于模型对复发风险进行预测。本发明充分利用了数据资源,综合考虑多种生物学特征,提高了预测的准确性。

Description

一种用于早期肝癌术后复发风险预测的方法及系统
技术领域
本发明涉及生物基因、生物信息学及医学诊断技术领域,尤其涉及一种用于早期肝癌术后复发风险预测的方法及系统。
背景技术
肝癌是全球范围内最常见的恶性肿瘤之一,尤其在亚洲地区有着较高的发病率和死亡率。对于早期肝癌患者,即AJCC(美国癌症联合委员会)分型的第一期和第二期病人,尽管手术切除是首选的治疗方式,但高复发风险仍然是一个严峻的挑战。报道显示,对于早期肝癌患者,最主要的治疗手段就是手术切除病灶,手术切除后不再配合相关的辅助治疗。但是早期肝癌患者两年内的复发率达到了30%。如果能够准确预测早期患者里面易复发的患者,在手术后,帮助医生决策是否需要配合辅助治疗,这样会大大提高这部分患者的生存率。目前,大多数早期肝癌患者在手术切除后并未接受术后辅助治疗,这可能导致高复发风险的患者错失治疗最佳时机,进而增加复发和进展的风险,严重影响患者的预后和生存率。准确预测早期肝癌患者的术后复发风险,对于其是否采取术后辅助治疗具有至关重要的意义。
目前,肝癌患者的预后预测仍主要依赖于传统的临床和病理学指标,如包括肿瘤的大小和数量、组织学类型、组织学分级、组织学分期等。尽管这些病理学指标在肝癌预后中具有一定的参考价值,但由于肝癌的异质性和复杂性,单一病理学指标往往无法全面评估肿瘤的生物学特征和预测患者的预后。此外,还有一些临床上常用的用于肝癌术后复发的监测的血清肿瘤标志物,如甲胎蛋白(AFP)、异常凝血酶原(DCP)、循环肿瘤细胞(CTCs)等。尽管这些指标对肝癌术后早期复发的监测有一定的参考价值,但由于其敏感性和特异性有限,其预测效果还不够准确。相关研究显示:肝癌患者的预后情况与其术前术后的AFP水平高度相关。然而,有部分预后差的患者AFP水平并未升高。此外,DCP也与肝切除、肝移植术后肿瘤复发密切相关:DCP值越高,复发肿瘤的恶性程度越高。尽管DCP在肝癌预后中的应用已经有一定进展,但仍存在一些挑战和限制。一方面,由于缺乏统一的标准化方法和参考值,DCP的测量结果可能存在一定的差异性。此外,某些因素如炎症、肝疾病和其他恶性肿瘤也可能导致DCP水平的升高,从而影响其特异性和准确性。另外,利用肿瘤细胞易于脱落、增殖迁移能力强的特点,监测CTCs可以提供关于肝癌进展的信息。然而,目前CTCs检测技术尚不完善,检测流程未标准化,灵敏度及特异性方面还存在一定挑战,故尚未将其广泛应用于临床实践中。
总之,现有技术的主要缺点包括:
1、现有的医疗条件存在局限。
传统的临床和病理学指标虽然被广泛应用于早期肝癌患者的预后评估,但由于肝癌的复杂性和异质性,这些指标往往无法全面评估肿瘤的生物学特征和预测患者的术后复发风险,导致预测结果不够准确。目前在肝癌预后预测中常用的血清肿瘤标志物,如AFP和DCP,虽然有一定的预测意义,但其敏感性和特异性有限,存在一定程度的误诊和漏诊风险,影响预后评估的可靠性,主要体现在:
(1)有限的准确性:现有技术主要依赖传统的临床和病理学指标,以及少数常用的血清肿瘤标志物。这些指标往往无法充分评估肝癌的复杂生物学特征。肝癌患者的疾病发展受多种因素影响,如基因变异、蛋白质异常、肿瘤微环境等,这些因素往往难以被单一指标所反映。
(2)敏感性和特异性不足:血清肿瘤标志物如AFP和DCP被用于肝癌术后复发的监测,虽然具有一定预测意义,但敏感性和特异性不足,可能导致误诊和漏诊。高假阴性或假阳性率可能导致患者错失治疗时机或不必要的治疗。生物标志物敏感性和特异性的局限性是另一个需要解决的技术问题。
(3)基于基因突变的预测模型不够全面:缺乏细分和个体化:现有技术往往未能将早期肝癌患者细分为更精细的亚组,以便更好地预测个体患者的预后风险。不同患者可能具有不同的病理学特征和分子特征,需要个体化的预测模型。尽管基因突变作为重要的预后判断标记物,在肝癌预后中具有重要作用,但目前的方法往往未能充分利用多个生物学特征的综合影响,缺乏个体化预测模型,导致预测效果有限。
(4)缺乏统一标准:血清肿瘤标志物的测量方法缺乏统一标准化,不同实验室或医院之间的结果可能存在差异。这使得不同研究或临床实践之间的比较和验证变得复杂。
(5)公共数据库中积累了大量早期肝癌患者的临床和基因组数据,但现有技术未能充分利用这些宝贵资源,限制了预后预测的全面性和可靠性。
2、大部分现有技术针对的都是所有肝癌患者的预后复发情况,而并没有针对早期肝癌患者(AJCC分期第一期和第二期)的特有方案,而这正是临床中急需的。这是由于早期肝癌患者的治疗手段就是手术切除病灶,切除后不再配合相关的辅助治疗,但是早期患者2年内的复发率达到了30%。如果能够预测出早期患者里面易复发的患者,在手术过后,帮助医生决策是否需要配合辅助治疗,这样会大大提高这部分患者的生存率。
3、肝癌预后的大部分现有技术目前仍然只能采用临床的病理数据。这些指标固然有参考价值,但分析问题不够全面。分子数据涉及到具体的基因是肝癌复发的关键因素。同类型现有技术中,只有1个是用的突变数据,但他用的也不是全基因组测序,而是选了一些候选位点,不能概括全部。
4、经过检索,CN113345589A、WO2023071877A1和CN112768060A采用的都是生存模型作为预测模型,并且CN112768060A采用的是非线性的随机生存森林模型属于不适宜推广和应用的非线性模型,不适合临床样本的实际应用。此外,CN113345589A采用Cox模型,但是具体采用了lasso-cox模型,将lasso特征选择和Cox结合,防止过拟合的情况,但是同时这样会缩小特征值,采用lasso-cox构建的模型只能获得三个关键基因特征,从而使得预测效果不够全面。WO2023071877A1将位点信息用lasso-cox建模后只能得到一个特征,然后再结合其他12个临床特征进行回归算法确定最后的模型,因此也无法提高预测的效率和效果。
因此,需要进一步寻找更精确、可靠的预测方法,来提高肝癌预后预测的准确性和临床应用价值。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案,一种用于早期肝癌术后复发风险预测的方法及系统,属于一种创新的综合预测方法和系统,通过全面评估患者的生物学特征,包括基因突变、临床指标AFP和病理学特征,以及充分利用公共数据库的WES测序突变特征,建立个体化的预后预测模型;通过分析临床、病理、生物标志物等多种信息建立的预测模型能够协助医生评估患者的疾病进展、复发风险和生存期等指标,从而为临床治疗提供辅助决策和个体化治疗方案的方法。
本发明一方面提供了一种用于早期肝癌术后复发风险预测的方法,所述复发风险预测基于建立早期肝癌术后复发风险预测模型以及基于所述早期肝癌术后复发风险预测模型进行预测从而获得风险级别分类实现;
所述建立早期肝癌术后复发风险预测模型包括:
S1,通过公共数据库获取早期肝癌患者的临床数据和突变数据并进行预处理和数据过滤,从而获得初始建模特征;
S2,基于初始建模特征、单因素Cox比例风险模型和多因素Cox回归模型进行关键特征筛选并基于所述关键特征建立初级Cox比例风险模型,所述关键特征与生存风险相关;
S3,确定初级Cox比例风险模型为早期肝癌术后复发风险预测模型,并基于所述早期肝癌术后复发风险预测模型对复发风险进行预测。
优选的,所述S1包括:
S11,通过公共数据库获取早期肝癌患者的临床数据和突变数据,并基于所述临床数据和突变数据获得符合临床筛选条件的样本;
S12,对临床数据和突变数据进行预处理和数据过滤。
优选的,所述S11中所述临床数据包含了病理学指标和早期肝癌患者的临床特征;所述临床数据还包括与早期肝癌患者预后相关的信息,所述突变数据包括早期肝癌患者肿瘤组织中的基因突变信息。
优选的,所述S12包括:
(1)对于突变数据,统计每个样本的特征基因数目获得第一特征基因组;所述特征基因为突变频率大于或等于第一阈值的基因;去除第一特征基因组中的线粒体基因形成初筛特征基因组;
(2)删除所述初筛特征基因组中没有特征基因的样本和特征基因的数量超过第二阈值的样本后形成初筛样本组;
(3)对于所述初筛样本组中的样本突变数据,统计每个样本的特征基因数目获得第二特征基因组;去除第二特征基因组中的线粒体基因形成二筛特征基因组;
(4)选用样本为初筛样本组,将初筛特征基因组中所有样本的建模临床信息和初筛特征基因组中的所有样本的二筛特征基因组作为初始建模特征;所述建模临床信息包括无病生存期(DFS)、性别、AJCC分期、年龄和甲胎蛋白(AFP)水平。
优选的,所述S2包括:
S21,建立单因素Cox比例风险模型,所述单因素Cox比例风险模型用于从所有初始建模特征中识别与生存风险相关的关键特征,所述单因素Cox比例风险模型的输入数据为所述初始建模特征,包括初筛样本组的建模临床信息和二筛特征基因在初筛样本组中的分布,输出数据为所述关键特征;
S22,基于单因素Cox比例风险模型对所有初始建模特征分别进行单因素Cox分析,计算每个初始建模特征的C-index,选择C-index最高的初始建模特征作为起始特征;
S23,构建多因素Cox回归模型,以所述起始特征为起点采用迭代的方式向多因素Cox回归模型内逐步添加一个初始建模特征并计算所述多因素Cox回归模型的C-index,确保加入的所述初始建模特征能够使得所述多因素Cox回归模型的C-index增幅最大;
S24,循环执行S23,计算所述多因素Cox回归模型是否满足第一停止建模条件,当满足第一停止建模条件时形成的多因素Cox回归模型为初级Cox比例风险模型;其中,所述第一停止建模条件为多因素Cox回归模型的C-index不再增加。
优选的,所述S3包括:
S31,确定所述早期肝癌术后复发风险预测模型的构成,所述早期肝癌术后复发风险预测模型包括多个关键特征及对应的权重系数;
S32,基于所述早期肝癌术后复发风险预测模型计算每个早期肝癌患者的风险得分,并进行生存分析;其中,所述风险得分由关键特征和其权重系数的线性组合获得。
优选的,所述生存分析包括:
(1)确定生存数据的最佳分割点,包括:
A.合理设置最佳截断值从而将连续型自变量的风险得分转换为二分类变量;
B.在二分类变量的基础上增加时间维度形成生存数据;
C.通过最大选择秩统计量确定所述生存数据的最佳分割点;其中,所述最佳分割点用于根据生存数据将患者划分为高风险组患者和低风险组患者,高风险组患者表示患者术后复发风险较高,低风险组患者表示患者术后复发风险较低;
(2)将生存数据转化为分类变量,拟合生存曲线并评估分类变量下的生存概率,包括:
A.将计算得到的分割点应用于生存数据,将连续的风险得分转化为高风险组和低风险组两组分类变量;
B.根据分类后的风险得分和生存数据,绘制拟合生存曲线,生成风险曲线和风险表;
C.根据所述生存曲线、风险曲线和风险表评估在高风险组和低风险组下的生存概率。
本发明的第二方面在于提供一种用于早期肝癌术后复发风险预测的系统,包括:
初始建模特征获取模块,用于通过公共数据库获取早期肝癌患者的临床数据和突变数据并进行预处理和数据过滤,从而获得初始建模特征;
关键特征筛选与模型建立模块,用于基于初始建模特征、单因素Cox比例风险模型和多因素Cox回归模型进行关键特征筛选并基于所述关键特征建立初级Cox比例风险模型,所述关键特征与生存风险相关;
复发风险预测模块,用于确定初级Cox比例风险模型为早期肝癌术后复发风险预测模型,并基于所述早期肝癌术后复发风险预测模型对复发风险进行预测。
本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
本发明提供的方法、系统和电子设备,具有如下有益效果:
(1)用于早期肝癌术后复发风险预测的方法,该方法综合考虑基因突变、临床指标AFP和病理学特征,并充分利用公共数据库WES测序公共数据构建个体化的预后预测模型,旨在准确预测早期肝癌患者术后复发风险,帮助医生决策是否需要配合术后辅助治疗,以提高患者的生存率;采用综合预测方法,结合基因突变、临床指标AFP和病理学特征,并充分利用公共数据库WES测序突变特征,建立个体化预后预测模型,以提高预测准确性;具备综合考虑多种生物学特征的优势,将基因突变、临床指标和病理学特征有机结合,以建立更全面、精确的预测模型,有望显著改善早期肝癌患者的预后评估。
(2)增强预测模型可靠性:通过综合利用多种生物学特征,增强了预测模型的可靠性和准确性,减少了误诊和漏诊的风险,提高了预后评估的可靠性,提高预后评估的可靠性,从而解决无标志物敏感性和特异性的局限性。
(3)解决了基于分子数据的预测模型不够全面的技术问题。综合考虑多种生物学特征,将基因突变与临床指标和病理学特征结合,以建立更全面、精确的预测模型,有望提高预测效果。
(4)充分利用了数据资源,充分利用公共数据库WES测序突变数据,通过整合临床和基因组数据,以更可靠、准确的方式建立预后预测模型,推广到早期肝癌患者术后复发风险预测中,从而解决现有技术在数据资源充分利用方面的问题,并提高预测的全面性和可靠性。
(5)提高预测准确性,本发明采用综合预测方法,结合基因突变、临床指标AFP和病理学特征,并充分利用公共数据库数据资源,建立个体化预后预测模型。相比现有技术依赖单一指标的方法,本发明综合考虑多种生物学特征,从而提高了预测的准确性。
(6)实现个体化预测:本发明将基因突变与临床指标和病理学特征结合,建立个体化预后预测模型。相比现有技术对所有患者进行整体预测,本发明将早期肝癌患者细分为更精细的亚组,实现个体化预测,更好地适应不同患者的生物学特征和预后风险。
(7)本发明以术后复发和提高生存率为前提,采用的模型是生存模型的Cox比例风险模型,采用传统的Cox比例风险模型,能够考虑所有协变量对生存风险的影响,使得预测更加全面,从而能够直接采用Cox得到所有包括临床和突变基因在内的和预后相关的特征以构建模型。
(8)分子数据有转录组(RNA)数据和DNA数据,本发明采用的是更加稳定和更易获得的DNA突变信息数据;相应的,本发明对应的预测模型应用到临床时,WES测序需要的样本要求比RNA需要的样本要求要低很多,甚至蜡块样本都能直接获得数据,从而选择WES测序数据结合临床数据共同建模能够使得构建的模型更加客观。
附图说明
图1为本发明所述的用于早期肝癌术后复发风险预测方法中模型建立的原理示意图。
图2为本发明提供的用于早期肝癌术后复发风险预测方法流程图。
图3a-图3d分别为本发明提供的Cox比例风险模型生存分析图谱、逻辑回归模型生存分析图谱、Cox比例风险模型AUROC曲线以及逻辑回归模型AUROC曲线示意图。
图4为本发明提供的用于早期肝癌术后复发风险预测系统架构图。
图5为本发明提供的电子设备一种实施例的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
除了生物标志物外,特定的分子特征,如基因突变,也可纳入早期肝癌患者术后的预后判断模型。基因突变,特别是驱动基因突变,是癌症发生发展的重要原因。基因突变也是癌症治疗的重要靶点,并作为预后判断的重要标记物。DNA作为双链分子,具有较高的稳定性,能在适当的条件下长时间保存,这为DNA测序提供了可靠的样本来源。随着技术的进步,高通量测序技术(Next-Generation Sequencing,NGS)的出现使得大规模、高效率的DNA测序成为可能。目前,DNA测序方法已经普及,并具有较高的性价比,为未来的推广提供了便捷性。在临床应用上,DNA测序具备许多优势。
基于公共数据库数据构建模型是一种有效的方法,可用于预测早期肝癌患者的术后复发风险。当前,TCGA(The Cancer Genome Atlas)等公共数据库中积累了大量的早期(Ⅰ、Ⅱ期)肝癌患者的WES(Whole Exome Sequencing)数据和临床信息。TCGA项目用于全面了解多种癌症的多组学特征以及这些特征与临床特征的关联,于2005年启动,是美国国立卫生研究院(NIH)与美国癌症研究所(NCI)合作的一项倡议。TCGA对33种癌症、2万多个肿瘤病例的基因、表观遗传和蛋白组学进行分析,确认了约300个癌症驱动基因。WES数据提供了基因突变的全面信息,而临床数据包含了病理学指标和患者的临床特征。通过整合这些数据可以鉴定出与早期肝癌复发相关的关键基因突变,并筛选出具有预测意义的生物标志物。
Cox比例风险回归模型、逐步回归等统计学方法可用于建立预后预测模型,将关键基因突变和临床特征结合起来,以提高模型的准确性和可靠性。本发明使用的Cox比例风险模型是一种广泛应用于医学和生物领域的统计工具,用于分析事件发生与时间的关系以及影响事件发生的因素。该模型基于风险比例性假设,能够估计各个因素对事件风险的影响,并在生存分析、疾病预测和药物研发等领域提供有力支持。
基于公共数据库的临床和WES突变数据构建模型的方法不仅可以提高预测早期肝癌患者术后复发风险的准确性,还可以为临床决策提供重要的依据,指导是否采取辅助治疗等个体化治疗方案的制定。通过结合公共数据库的资源,这一方法具有广泛的适用性,并有望在临床实践中为早期肝癌患者的预后评估和治疗选择提供有力支持。
参见图1,复发风险预测模型的原理示意图。包括:
1、数据过滤;包括:
(1)临床数据:DFS、AJCC分期、性别、年龄、甲胎蛋白等信息完整;
(2)突变数据:样本中包含突变数据;
2、数据预处理及特征过滤;包括:
(1)统计每个样本突变频率≥5%;
(2)筛除没有特征基因和特征基因数目异常高的样本;
3、模型构建:包括Cox比例风险模型,包括:(1)所有特征分别进行单因素Cox分析,选择C-index最高的特征为起始特征;(2)逐步添加一个特征,确保加入的特征使多因素Cox模型的C-index增幅最大,直至C-index不再增加;(3)确定最终模型;
4、模型评估;包括:
(1)生存分析;
(2)ROC曲线。
早期病人术后在预后风险评估(Panel+算法)的支持下,能够获得高风险或者低风险的分类,针对性的高风险可以预先采用化疗或其他辅助治疗方法进行干预治疗降低风险;对于低风险可以采用定期随访的方式进行风险防控。
参见图2,本发明一方面提供了一种用于早期肝癌术后复发风险预测的方法,所述复发风险预测基于建立早期肝癌术后复发风险预测模型以及基于所述早期肝癌术后复发风险预测模型进行预测从而获得风险级别分类实现;
所述建立早期肝癌术后复发风险预测模型包括:
S1,通过公共数据库获取早期肝癌患者的临床数据和突变数据并进行预处理和数据过滤,从而获得初始建模特征;包括:
S11,通过公共数据库获取早期肝癌患者的临床数据和突变数据,并基于所述临床数据和突变数据获得符合临床筛选条件的样本;其中,所述临床数据包含了病理学指标和早期肝癌患者的临床特征;
本实施例中,采用公共数据库TCGA中的临床数据和突变数据。当然,本领域技术人员应当知晓,还能够采用其他可获得的数据全面的公共数据库中的相关数据,均在本发明的保护范围内。
(1)临床数据:公共数据库TCGA中的临床数据包括与早期肝癌患者预后相关的信息,如AJCC分期、无病生存期(DFS)、性别、年龄和甲胎蛋白(AFP)水平等。本优选实施例中,对于临床数据,仅选择AJCC分期为一期和二期的患者,并保证每个样本都至少包括无病生存期(DFS)、性别、年龄和甲胎蛋白(AFP)水平这四个基本信息。TCGA中符合临床筛选条件的样本共194例。
(2)突变数据:突变数据包括早期肝癌患者肿瘤组织中的基因突变信息。符合临床筛选条件的样本需要包含突变数据。TCGA的194例样本中,有192例样本包含突变信息,其中两年内复发的样本有71例,两年后复发或不复发的样本有121例。
S12,对临床数据和突变数据进行预处理和数据过滤,包括:
(1)对于192个突变样本数据,统计每个样本的特征基因数目获得第一特征基因组;所述特征基因为突变频率大于或等于第一阈值的基因;去除第一特征基因组中的线粒体基因形成初筛特征基因组;
本实施例中,所述第一阈值为5%。筛选出突变率大于或等于5%的基因,以确保选择高频率的突变事件;
(2)删除所述初筛特征基因组中没有特征基因的样本和特征基因的数量超过第二阈值的样本后形成初筛样本组;本实施例中,初筛样本组中包含182个样本;
(3)对于所述初筛样本组中的所有样本突变数据,统计每个样本的特征基因数目获得第二特征基因组;去除第二特征基因组中的线粒体基因形成二筛特征基因组;本实施例中,得到54个基因的二筛选特征基因组;
(4)选用样本为初筛样本组,将初筛特征基因组中所有样本的建模临床信息和初筛特征基因组中的所有样本的二筛特征基因组作为初始建模特征;所述建模临床信息包括无病生存期(DFS)、性别、AJCC分期、年龄和甲胎蛋白(AFP)水平。
S2,基于初始建模特征、单因素Cox比例风险模型和多因素Cox回归模型进行关键特征筛选并基于所述关键特征建立初级Cox比例风险模型,所述关键特征与生存风险相关;包括:
S21,建立单因素Cox比例风险模型,所述单因素Cox比例风险模型用于从所有初始建模特征中识别与生存风险相关的关键特征,所述Cox比例风险模型的输入数据为所述初始建模特征,包括初筛样本组的建模临床信息和二筛特征基因在初筛样本组中的分布,输出数据为所述关键特征;
Cox比例风险模型属于一种生存分析模型,用于分析事件发生时间与潜在因素之间关系的统计模型和方法,包括生存时间和多种函数。其中:
(1)生存时间(survival time)是事件发生前的时间,是衡量时间发生的指标。
(2)生存函数(survival function)S(t)是某个时间点之前未发生时间的概率,表示个体生存时间T超过t的概率:
(1);
生存函数的曲线又称为生存曲线。
(3)生存时间累积分布函数F(t)表示个体生存时间不超过t的概率:
(2)。
(4)生存时间概率密度函数f(t)为F(t)的导数:
(3)。
(5)风险函数(hazard function)h(t)表示给定时间点发生事件的概率密度,用于描述事件的发生率如何随时间变化,表示个体在活过时间t的情况下的瞬时死亡风险,可以用极限来表示:
(4);
经过数学变换,可得:
(5)。
S22,基于单因素Cox比例风险模型对所有初始建模特征分别进行单因素Cox分析,计算每个初始建模特征的C-index(concordance index),选择C-index最高的初始建模特征作为起始特征;
本实施例中,C-index最高的特征作为起始特征会被存储在模型列表中。
本实施例中,所述单因素Cox比例风险模型的基本形式如下:
在给定时间点t下,个体i的风险(hazard)是一个函数h(t),它可以表示为:h(t) =h0(t) * exp(β * Xi)。其中:h(t)是时间t下的风险(即事件发生的概率密度);h0(t)是基础风险函数,表示在协变量(即X)等于0时的风险;β是与协变量X相关的系数,表示该因素的影响程度;exp()函数表示指数。C-index,即一致性指数,用来评价模型的预测能力。C-index是指所有病人对子中预测结果与实际结果一致的对子所占的比例。它估计了预测结果与实际观察到的结果相一致的概率。
以生存分析为例,将所研究的资料中的所有早期肝癌患者随机地两两组成对子,在一个对子中,如果生存时间较长的一位早期肝癌患者的预测生存时间也长于另一位早期肝癌患者的预测生存时间,或预测的生存概率高的早期肝癌患者的生存时间长于生存概率低的另一位早期肝癌患者,则称之为预测结果与实际结果一致。
计算步骤如下:若有n个观察个体,则所有的对子数应为Cn 2(组合数)。排除下面两种对子:对子中具有较小观察时间的个体没有达到观察终点;以及,对子中两个个体都没达到观察终点。剩余的为有用对子。C-index=一致对子数/有用对子数。C-index在0.5-1之间。0.5为完全随机,说明该模型没有预测作用;1为完全一致,说明该模型预测结果与实际完全一致。在实际应用中,很难找到完全一致的预测模型。本实施例中,C-index在0.50-0.70为较低准确度,在0.71-0.90之间为中等准确度,而高于0.90则为高准确度。
S23,构建多因素Cox回归模型,以所述起始特征为起点采用迭代的方式向多因素Cox回归模型内逐步添加一个初始建模特征并计算所述多因素Cox回归模型的C-index,确保加入的所述初始建模特征能够使得所述多因素Cox回归模型的C-index增幅最大;
本实施例中,每次迭代都会计算多因素Cox回归模型的C-index,以评估新一轮多因素Cox回归模型的性能。如果新一轮多因素Cox回归模型的C-index较高,则将本轮添加的初始建模特征添加到模型列表中,然后从剩余的初始建模特征中移除本轮添加的初始建模特征。
S24,循环执行S23,计算所述多因素Cox回归模型是否满足第一停止建模条件,当满足第一停止建模条件时形成的多因素Cox回归模型为初级Cox比例风险模型;其中,所述第一停止建模条件为多因素Cox回归模型的C-index不再增加。
本实施例中,循环执行S23直到C-index不再提高为止,这样就确定了初级Cox比例风险模型。
S3,确定初级Cox比例风险模型为早期肝癌术后复发风险预测模型,并基于所述早期肝癌术后复发风险预测模型对复发风险进行预测。
作为优选的实施方式,所述S3包括:
S31,确定所述早期肝癌术后复发风险预测模型的构成,所述早期肝癌术后复发风险预测模型包括多个关键特征及对应的权重系数;所述早期肝癌术后复发风险预测模型的表达式如下:
h(t,X)=h0(t)*exp(β1*X1i+β2*X2i+...+βn*Xni) (6);
其中,X1,X2,…,Xn为协变量,β1*X12*X2+…+βn*Xn为协变量X1,X2,…,Xn的线性组合;h(t,X)是时间t下的个体i的风险函数,即事件发生的概率密度;h0(t)是基线风险函数,表示在所有协变量(即X1,X2,...,Xn)等于0时的风险;β12,...,βn是各协变量的系数,表示对应特征的影响程度;X1i,X2i,...,Xni是个体i的各协变量的取值;exp()函数表示指数;等式两边取对数,经过数学变换:
(7);
从公式中可推出Cox回归的是个体风险与人群基线风险比值的对数,同时,这个风险比值的对数需要满足两个条件:
(1)风险比值的对数与协变量之间呈线性关系;
(2)风险比值的对数与时间无关,只与协变量的线性组合有关。
模型中β1,β2…βn是需要估计的参数。但是基线风险h0(t,X)是未知的,直接由数据推断,因此Cox回归模型被称为“参数”模型。
S32,基于所述早期肝癌术后复发风险预测模型计算每个早期肝癌患者的风险得分,并进行生存分析;其中,所述风险得分由关键特征和其权重系数的线性组合获得。
作为优选的实施方式,所述生存分析包括:
(1)确定生存数据的最佳分割点,包括:
A.合理设置最佳截断值从而将连续型自变量的风险得分转换为二分类变量;
B.在二分类变量的基础上增加时间维度形成生存数据;
C.通过最大选择秩统计量(Maximally Selected Rank Statistics)确定所述生存数据的最佳分割点;其中,所述最佳分割点用于根据生存数据将患者划分为高风险组患者和低风险组患者,高风险组患者表示患者术后复发风险较高,低风险组患者表示患者术后复发风险较低。
本实施例中,最大选择秩统计量的实施方式包括:假定有一个因变量y(生存资料)和一个自变量,对自变量的每个值分别划分,每一次划分都将数据分为两组,同时计算一个标准化统计量;全部划分后得到多个标准化统计量,其中最大的标准化统计量对应的划分值就是最佳分割点。
(2)将生存数据转化为分类变量,拟合生存曲线并评估分类变量下的生存概率,包括:
A.将计算得到的最佳分割点应用于生存数据,将连续的风险得分转化为高风险组和低风险组两组分类变量;
B.根据分类后的风险得分和生存数据,绘制拟合生存曲线,生成风险曲线和风险表;
C.根据所述生存曲线、风险曲线和风险表评估在高风险组和低风险组下的生存概率。
一、具体应用场景实施例
早期肝癌术后复发风险评估系统的建立:
1、数据收集和预处理
首先,从TCGA公共数据库中获取早期肝癌患者的临床数据和突变数据。对于临床数据,仅选择AJCC分期为一期和二期的患者,并保证每个样本都有DFS(无疾病生存期)数据、性别、年龄和AFP(甲胎蛋白)等临床信息。TCGA公共数据库中的病例来自美国,符合筛选条件的病例共194例,其中两年内复发的病例为71例,两年后复发及不复发的病例为123例。对于突变数据,公共数据库下载的突变数据都是体细胞突变,因沉默突变在生物学上的影响较小,我们将沉默突变的数据删除。在TCGA数据库中,临床数据和突变数据均完整的样本有192例,其中两年内复发的病例为71例,两年后复发及不复发的病例为121例。
其次,根据突变数据,对TCGA数据库的样本进行预处理,初步筛除异常样本。统计每个样本的特征基因(突变频率大于或等于5%的基因),删除没有特征基因的样本和特征基因数目异常高的样本(特征基因数>20)。筛除异常样本(其中特征基因为零的样本数为5个,特征基因数高于20的样本数为5个,共筛除10个异常样本)后,最终可用的TCGA数据库中的早期肝癌患者有182例。在TCGA的182例样本中,筛选出突变频率大于或等于5%的基因,以确保选择高频率的突变事件,最终筛选出56个特征基因,并去除2个线粒体基因。
临床数据中,DFS数据有两栏,一栏为生存状态,表示是否在手术后再次出现疾病进展。若患者在手术后未经历疾病复发、进展或死亡则为0,若患者在手术后经历了疾病复发、进展或死亡则为1。另一栏是时间,表示患者在手术后开始计算的生存时间,以月份为计算单位。将性别分为两组,其中Female(女性)为0,Male(男性)为1。将AJCC分期也分为两组,其中第一期(Stage I)为0,第二期(Stage II)为1。年龄数据列是连续型自变量,通过最大选择秩统计量,将其转换为二分类变量,确定合理的生存分割点,将年龄分成两组:年龄(AGE)≤64则为0;年龄(AGE)>64则为1。将AFP值也分成两组:AFP≤400则为0;AFP>400则为1。最终,将生存数据和特征数据整合,整合的初始建模特征矩阵为具有生存状态、性别、AJCC分期、年龄、AFP以及去除线粒体基因的共54个特征基因的0/1分布矩阵。本实施例使用的TCGA数据库患者临床信息、TCGA数据库突变信息和初始建模特征矩阵分别如表1、表2和表3所示。
表1
患者编号 性别 身高 体重 人种 AJCC分期 术前甲胎蛋白值 疾病无复发状态 无疾病生存时间(月份)
TCGA-2V-A95S 173 78 亚裔 第二期 10793 0:无复发 不可获取
TCGA-2Y-A9GS 162 92 欧洲裔 不一致 74 1:有复发/进展 3.35
TCGA-2Y-A9GT 182 122 欧洲裔 第一期 17 1:有复发/进展 35.58
TCGA-2Y-A9GU 154 78 欧洲裔 第一期 304 0:无复发 63.7
TCGA-2Y-A9GV 167 85 欧洲裔 第一期 6 1:有复发/进展 71.91
TCGA-2Y-A9GW 182 139 欧洲裔 第一期 2 1:有复发/进展 40.37
TCGA-2Y-A9GX 175 104 欧洲裔 第一期 1 1:有复发/进展 70.07
TCGA-2Y-A9GY 161 92 欧洲裔 第二期 27600 1:有复发/进展 20.93
TCGA-2Y-A9GZ 153 51 欧洲裔 第二期 7 1:有复发/进展 23.62
TCGA-2Y-A9H0 180 89 欧洲裔 第三期A期 7598 0:无复发 120.73
TCGA-2Y-A9H1 171 89 欧洲裔 第一期 3 1:有复发/进展 25.3
TCGA-2Y-A9H2 176 55 欧洲裔 第一期 2 0:无复发 56.87
TCGA-2Y-A9H3 179 105 欧洲裔 第二期 5640 1:有复发/进展 0.72
TCGA-2Y-A9H4 167 61 非洲裔 第一期 11 0:无复发 47.7
TCGA-2Y-A9H5 157 69 欧洲裔 第一期 11700 1:有复发/进展 8.48
TCGA-2Y-A9H6 156 99 欧洲裔 第一期 114 0:无复发 11.73
TCGA-2Y-A9H7 157 104 欧洲裔 第一期 6 1:有复发/进展 36.7
TCGA-2Y-A9H8 150 40 欧洲裔 不一致 234000 1:有复发/进展 13.07
TCGA-2Y-A9H9 178 88 欧洲裔 第一期 12 1:有复发/进展 23.03
表2
基因名 基因组序列版本 染色体 起始位点 终止位点 链条 变异影响 变异分类 变异类型 肿瘤样本编号
HNRNPCL1 GRCh37 1 12908011 12908011 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
CLCNKB GRCh37 1 16377074 16377074 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
KDM1A GRCh37 1 23409728 23409728 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
PTPRU GRCh37 1 29641992 29641992 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
SPOCD1 GRCh37 1 32280899 32280899 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
IQCC GRCh37 1 32673299 32673299 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
MTF1 GRCh37 1 38281033 38281033 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
FHL3 GRCh37 1 38463119 38463119 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
TTC4 GRCh37 1 55194027 55194027 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
NOTCH2 GRCh37 1 120539927 120539927 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
LIX1L GRCh37 1 145497479 145497479 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
ARHGEF11 GRCh37 1 156909536 156909536 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
SLC9C2 GRCh37 1 173526509 173526509 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
HMCN1 GRCh37 1 186064493 186064493 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
A1BG GRCh37 19 58863684 58863684 + 错义变异 错义变异 单核苷酸变异 TCGA-K7-A5RF-01
USH2A GRCh37 1 216373309 216373309 + 同义变异 无义变异 单核苷酸变异 TCGA-BC-A10W-01
A1BG GRCh37 19 58864542 58864542 + 错义变异 错义变异 单核苷酸变异 TCGA-DD-A11D-01
A1BG GRCh37 19 58862780 58862780 + 错义变异 错义变异 单核苷酸变异 TCGA-DD-A4NQ-01
A1BG GRCh37 19 58863849 58863849 + 错义变异 错义变异 单核苷酸变异 TCGA-DD-A119-01
表3
状态 时间(月份) 性别 分期 年龄 甲胎蛋白 ABCA13 AHNAK2 ALB ALMS1 ANK2 APOB ARID1A ARID2 AXIN1
1 35.58 1 0 0 0 0 0 0 0 0 0 0 0 0
0 63.7 0 0 0 0 0 0 0 0 1 0 0 0 0
1 71.91 0 0 0 0 0 0 0 0 0 0 0 0 0
1 40.37 1 0 0 0 0 0 0 0 0 0 0 0 0
1 70.07 1 0 1 0 0 0 0 0 0 0 0 0 0
1 20.93 0 1 0 1 0 0 0 1 0 0 0 0 0
1 23.62 0 1 1 0 0 0 1 0 0 0 0 0 0
1 25.3 1 0 0 0 1 0 0 0 0 0 0 0 0
0 56.87 0 0 0 0 0 0 0 0 0 0 0 0 0
1 0.72 1 1 0 1 0 0 0 0 0 0 0 0 0
0 47.7 1 0 1 0 0 0 0 0 0 0 0 0 0
1 8.48 0 0 0 1 0 0 0 0 0 0 0 0 0
0 11.73 0 0 1 0 0 0 0 0 0 0 0 0 0
1 36.7 0 0 1 0 0 0 0 0 0 0 0 0 1
1 23.03 1 0 1 0 0 0 0 0 0 0 0 0 0
0 8.54 1 0 1 0 0 0 0 0 1 0 0 0 0
0 17.08 1 1 0 0 0 0 0 1 0 0 0 0 0
1 6.87 0 1 1 1 1 0 0 0 0 0 0 0 0
0 14.59 1 1 0 1 0 0 0 0 0 0 0 0 0
0 13.44 0 0 1 0 0 0 0 0 0 0 0 0 0
2、特征选择和模型构建
对所有初始模型特征进行单因素Cox比例风险分析,计算每个特征的C-index。从中选择具有最高C-index的特征STAGE作为起始特征,并将其存储到模型列表中。然后,采用迭代的方式逐步添加其他特征,以构建多因素Cox回归模型。每次迭代都会计算模型的C-index,用于评估新模型的性能。如果新模型的C-index变高,则将新特征添加到模型列表中,然后从剩余特征中移除该特征,循环进行直到C-index不再提高为止,达到收敛状态。这样就确定了最终的预测模型,其中包括30个和早期肝癌预后复发最相关的特征及其对应的权重系数。模型包括的相关关键特征分别为:STAGE,TP53,XIRP2,USH2A,TCHH,AGE,GNAQ,MUC16,ARID2,GPR98,DST,VPS13B,LRP1,AFP,CSMD3,LRP1B,FMN2,NBEA,COL11A1,AXIN1,KEAP1,BAP1,ALMS1,DMD,REX2,CACNA1E,FASN,FLG,MUC2和BIRC6。
3、模型参数确定和风险评估
根据最终确定的分数模型公式,计算出每个早期肝癌患者的风险得分(riskscore)。然后,通过最大选择秩统计量,将计算得出的风险得分转化为二分类变量,计算出风险得分的最佳分割点为0分数。根据风险得分的最佳分割点分数,将患者划分为高风险组和低风险组。高风险组表示患者术后复发风险高,低风险组表示患者术后复发风险低。其中风险得分>0,则样本被预测为高风险;其中风险得分≤0,则样本被预测为低风险。将计算得到的分割点应用于生存数据,将连续的风险得分转化为高风险组和低风险组两组分类变量。接着,根据分类后的风险得分和生存数据,绘制拟合生存曲线,生成风险曲线和风险表,从而评估在高风险组和低风险组下的生存概率。模型得到的置信区间CI值为0.763。最后,调用pROC包,计算并绘制ROC曲线,得到的AUC(曲线下面积)值为0.835。模型矩阵及分数计算如表4所示。
表4
状态 时间(月份) 复发风险分组 风险得分
1 35.58 0 -0.968
0 63.7 0 -1.21
1 71.91 0 -0.903
1 40.37 0 -0.011
1 70.07 0 -0.322
1 20.93 1 1.243
1 23.62 1 0.848
1 25.3 0 -1.048
0 56.87 0 -1.471
1 0.72 1 -0.474
0 47.7 0 -0.249
1 8.48 1 -1.144
0 11.73 0 -1.693
1 36.7 0 -1.294
1 23.03 1 -0.538
0 8.54 0 -0.16
0 17.08 0 0.904
1 6.87 1 0.856
0 14.59 0 -0.773
0 13.44 0 0.518
4、早期肝癌术后复发风险模型的评估
用逻辑回归的方法对预处理过的TCGA数据库的初始建模特征矩阵进行建模,同样采用生存分析图谱和ROC曲线评估模型的有效性。对每个初始模型特征进行单因素Cox比例风险分析,剔除方差<0.01,且在annovar蛋白编码数据库中的P value>0.1的特征,最终获得16个特征基因,然后根据逻辑回归曲线来构建模型,确定每个特征的系数。逻辑回归模型包括的相关关键特征分别为:STAGE,TP53,CSMD1,XIRP2,LRP1,SEX,USH2A,TCHH,ARID2,GNAQ,COL11A1,AXIN1,FAT4,MUC16,FMN2和ALB。根据最终确定的分数模型公式,计算出每个早期肝癌患者的风险得分,然后计算出风险得分的最佳分割点,为-0.1064分数。根据风险得分的最佳分割点分数,将患者划分为高风险组和低风险组。其中风险得分>-0.1064,则样本被预测为高风险;其中风险得分≤-0.1064,则样本被预测为低风险。根据分类后的风险得分和生存数据,拟合生存曲线,并绘制ROC曲线,得到的AUC(曲线下面积)值为0.803。由逻辑回归得到的模型的预测结果和预测指标如下表。该模型得到的生存模型、预测得到的PPV、特异性和准确性等均不如Cox比例生存模型,进一步说明Cox比例风险模型要优于基于二分法的逻辑回归模型。其中Cox比例风险模型生存分析图谱、逻辑回归模型生存分析图谱、Cox比例风险模型AUROC曲线以及逻辑回归模型AUROC曲线分别如图3a-图3d所示。
Cox比例风险模型高低风险预测情况表、Cox比例风险模型复发预测指标、逻辑回归模型高低风险预测情况表以及逻辑回归模型复发预测指标分别如表5-8所示。如表5所示,在66个实际2年内复发的患者中,有52个被预测为高风险,14个被预测为低风险。在116个实际2年后复发或不复发的患者中,有92个被预测为低风险,24个被预测为高风险。因此,如表6所示,检测得到的各个指标:PPV(阳性预测值)为68.4%,NPV(阴性预测值)为86.8%,特异性为79.3%,敏感性为78.8%,准确性为79.1%。
如表7所示,在66个实际2年内复发的患者中,有57个被预测为高风险,9个被预测为低风险。在116个实际2年后复发或不复发的患者中,有67个被预测为低风险,49个被预测为高风险。因此,如表8所示,检测得到的各个指标:PPV(阳性预测值)为53.8%,NPV(阴性预测值)为88.2%,特异性为57.8%,敏感性为86.4%,准确性为68.1%。
表5
实际高风险 实际低风险 总和
预测高风险 52 24 76
预测低风险 14 92 106
总和 66 116 182
表6
PPV NPV 特异性 敏感性 准确性
68.4% 86.8% 79.3% 78.8% 79.1%
表7
实际高风险 实际低风险 总和
预测高风险 57 49 106
预测低风险 9 67 76
总和 66 116 182
表8
PPV NPV 特异性 敏感性 准确性
53.8% 88.2% 57.8% 86.4% 68.1%
本实施例的技术方案通过综合利用临床数据和突变数据,通过cox比例风险模型的特征选择和模型构建过程,建立个体化的预后预测模型,显著提高了早期肝癌患者术后复发风险预测的准确性和可靠性。本发明的预测模型具有较好的通用性和稳定性,可用于早期肝癌患者的个体化治疗决策,为患者提供更精准、有效的治疗方案,改善患者的预后和生存率。
二、模型验证实施例
(一)早期肝癌术后复发风险预测模型性能评估
通过绘制ROC曲线(Receiver Operating Characteristic)并计算AUC值(AreaUnder Curve)对早期肝癌术后复发风险预测模型性能进行评估。
1、ROC曲线,又为受试者工作特征曲线。对于一个二分类任务(假定为1表示正类,0表示负类),对于一个样本,分类的结果总共有四种:
类别实际为1,被分为0,FN(FalseNegative);
类别实际为1,被分为1,TP(TruePositive);
类别实际为0,被分为1,FP(FalsePositive);
类别实际为0,被分为0,TN(TrueNegative)。
FPR(FalsePositiveRate)=FP/(FP+TN),即负类数据被分为正类的比例;
TPR(TruePositiveRate)=TP/(TP+FN),即正类数据被分为正类的比例。
以FPR为横轴,以TPR为纵轴,当阈值从0开始慢慢移动到1,将FPR和TPR的值作为坐标点,连接各个坐标点,得到曲线即ROC曲线。
2、AUC值,被定义为ROC曲线下的面积,面积数值小于1,并且由于ROC曲线一般都处于y=x这条直线的上方,所以AUC一般在0.5到1之间。使用AUC值作为评价标准是因为大多情况下ROC曲线并不能清晰说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。AUC的含义为,当随机挑选一个正样本和一个负样本,根据当前的分类器计算得到的risk score(风险得分)将这个正样本排在负样本前面的概率。从AUC判断分类器(预测模型)优劣的标准:AUC=1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器;0.5<AUC<1,优于随机猜测,这个分类器(模型)妥善设定阈值的话,能有预测价值;AUC=0.5,与随机猜测一样,模型没有预测价值。
(二)模型的验证应用
本实施例中,使用逻辑回归方法对经过预处理过的TCGA数据库的初始建模特征矩阵进行建模。对于每个初始模型特征,进行单因素Cox比例风险分析,并排除方差小于0.01和annovar的p值大于0.1的特征。共筛选出了16个关键特征,并根据逻辑回归曲线来构建模型,确定每个特征的系数。最终,使用生存分析图谱和ROC曲线评估模型的有效性,能够提高早期肝癌患者术后复发风险预测的准确性和可靠性。
参见图4,本实施例提供一种用于早期肝癌术后复发风险预测的系统,包括:
初始建模特征获取模块101,用于通过公共数据库获取早期肝癌患者的临床数据和突变数据并进行预处理和数据过滤,从而获得初始建模特征;
关键特征筛选与模型建立模块102,用于基于初始建模特征、单因素Cox比例风险模型和多因素Cox回归模型进行关键特征筛选并基于所述关键特征建立初级Cox比例风险模型,所述关键特征与生存风险相关;
复发风险预测模块103,用于确定初级Cox比例风险模型为早期肝癌术后复发风险预测模型,并基于所述早期肝癌术后复发风险预测模型对复发风险进行预测。
该系统可实现上述提供的方法,具体的方法可参见上述描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,指令用于实现如实施例一的方法。
如图5所示,本发明还提供了一种电子设备,包括处理器301和与处理器301连接的存储器302,存储器302存储有多条指令,指令可被处理器加载并执行,以使处理器能够执行如实施例一的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种用于早期肝癌术后复发风险预测的方法,其特征在于,所述复发风险预测基于建立早期肝癌术后复发风险预测模型以及基于所述早期肝癌术后复发风险预测模型进行预测从而获得风险级别分类实现;
所述建立早期肝癌术后复发风险预测模型包括:
S1,通过公共数据库获取早期肝癌患者的临床数据和突变数据并进行预处理和数据过滤,从而获得初始建模特征;
S2,基于初始建模特征、单因素Cox比例风险模型和多因素Cox回归模型进行关键特征筛选并基于所述关键特征建立初级Cox比例风险模型,所述关键特征与生存风险相关;
S3,确定初级Cox比例风险模型为早期肝癌术后复发风险预测模型,并基于所述早期肝癌术后复发风险预测模型对复发风险进行预测;
所述S1包括:
S11,通过公共数据库获取早期肝癌患者的临床数据和突变数据,并基于所述临床数据和突变数据获得符合临床筛选条件的样本;
S12,对临床数据和突变数据进行预处理和数据过滤;
所述S11中所述临床数据包含病理学指标和早期肝癌患者的临床特征;所述临床数据还包括与早期肝癌患者预后相关的信息,所述突变数据包括早期肝癌患者肿瘤组织中的基因突变信息;
所述S12包括:
(1)对于突变数据,统计每个样本的特征基因数目获得第一特征基因组;所述特征基因为突变频率大于或等于第一阈值的基因;去除第一特征基因组中的线粒体基因形成初筛特征基因组;
(2)删除所述初筛特征基因组中没有特征基因的样本和特征基因的数量超过第二阈值的样本后形成初筛样本组;
(3)对于所述初筛样本组中的所有样本突变数据,统计每个样本的特征基因数目获得第二特征基因组;去除第二特征基因组中的线粒体基因形成二筛特征基因组;
(4)选用样本为初筛样本组,将初筛特征基因组中所有样本的建模临床信息和初筛特征基因组中的所有样本的二筛特征基因组作为初始建模特征;所述建模临床信息包括无病生存期、性别、AJCC分期、年龄和甲胎蛋白水平;
所述S2包括:
S21,建立单因素Cox比例风险模型,所述单因素Cox比例风险模型用于从所有初始建模特征中识别与生存风险相关的关键特征,所述单因素Cox比例风险模型的输入数据为所述初始建模特征,包括初筛样本组的建模临床信息和二筛特征基因在初筛样本组中的分布,输出数据为所述关键特征;
S22,基于单因素Cox比例风险模型对所有初始建模特征分别进行单因素Cox分析,计算每个初始建模特征的C-index,选择C-index最高的初始建模特征作为起始特征;
S23,构建多因素Cox回归模型,以所述起始特征为起点采用迭代的方式向多因素Cox回归模型内逐步添加一个初始建模特征并计算所述多因素Cox回归模型的C-index,确保加入的所述初始建模特征能够使得所述多因素Cox回归模型的C-index增幅最大;
S24,循环执行S23,计算所述多因素Cox回归模型是否满足第一停止建模条件,当满足第一停止建模条件时形成的多因素Cox回归模型为初级Cox比例风险模型;其中,所述第一停止建模条件为多因素Cox回归模型的C-index不再增加;
所述S3包括:
S31,确定所述早期肝癌术后复发风险预测模型的构成,所述早期肝癌术后复发风险预测模型包括多个关键特征及对应的权重系数;
S32,基于所述早期肝癌术后复发风险预测模型计算每个早期肝癌患者的风险得分,并进行生存分析;其中,所述风险得分由关键特征和其权重系数的线性组合获得;
所述生存分析包括:
(1)确定生存数据的最佳分割点,包括:
A.合理设置最佳截断值从而将连续型自变量的风险得分转换为二分类变量;
B.在二分类变量的基础上增加时间维度形成生存数据;
C.通过最大选择秩统计量确定所述生存数据的最佳分割点;其中,所述最佳分割点用于根据生存数据将患者划分为高风险组患者和低风险组患者,高风险组患者表示患者术后复发风险较高,低风险组患者表示患者术后复发风险较低;
(2)将生存数据转化为分类变量,拟合生存曲线并评估分类变量下的生存概率,包括:
A.将计算得到的最佳分割点应用于生存数据,将连续的风险得分转化为高风险组和低风险组两组分类变量;
B.根据分类后的风险得分和生存数据,绘制拟合生存曲线,生成风险曲线和风险表;
C.根据所述生存曲线、风险曲线和风险表评估在高风险组和低风险组下的生存概率。
2.一种用于早期肝癌术后复发风险预测的系统,用于实施权利要求1所述的用于早期肝癌术后复发风险预测的方法,其特征在于,包括:
初始建模特征获取模块(101),用于通过公共数据库获取早期肝癌患者的临床数据和突变数据并进行预处理和数据过滤,从而获得初始建模特征;
关键特征筛选与模型建立模块(102),用于基于初始建模特征、单因素Cox比例风险模型和多因素Cox回归模型进行关键特征筛选并基于所述关键特征建立初级Cox比例风险模型,所述关键特征与生存风险相关;
复发风险预测模块(103),用于确定初级Cox比例风险模型为早期肝癌术后复发风险预测模型,并基于所述早期肝癌术后复发风险预测模型对复发风险进行预测。
3.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1所述的用于早期肝癌术后复发风险预测的方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1所述的用于早期肝癌术后复发风险预测的方法。
CN202311779195.XA 2023-12-22 2023-12-22 一种用于早期肝癌术后复发风险预测的方法及系统 Active CN117438097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311779195.XA CN117438097B (zh) 2023-12-22 2023-12-22 一种用于早期肝癌术后复发风险预测的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311779195.XA CN117438097B (zh) 2023-12-22 2023-12-22 一种用于早期肝癌术后复发风险预测的方法及系统

Publications (2)

Publication Number Publication Date
CN117438097A CN117438097A (zh) 2024-01-23
CN117438097B true CN117438097B (zh) 2024-03-15

Family

ID=89550259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311779195.XA Active CN117438097B (zh) 2023-12-22 2023-12-22 一种用于早期肝癌术后复发风险预测的方法及系统

Country Status (1)

Country Link
CN (1) CN117438097B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580956A (zh) * 2019-09-19 2019-12-17 青岛市市立医院 一组肝癌预后标志物及其应用
CN113345589A (zh) * 2021-06-29 2021-09-03 北京泱深生物信息技术有限公司 肝癌预后模型的构建方法及应用方法、电子设备
CN114300135A (zh) * 2021-12-23 2022-04-08 桂林医学院附属医院 一种肝癌术后早期复发预测模型构建方法及装置
CN115862737A (zh) * 2022-12-01 2023-03-28 中国医学科学院肿瘤医院 基因标志物在非小细胞肺癌患者复发/转移风险预测中的应用、预测装置和计算机可读介质
WO2023071877A1 (zh) * 2021-10-28 2023-05-04 广州医科大学附属第一医院(广州呼吸中心) 泌尿系统结石术后复发风险预测模型、评估系统及方法
CN116230081A (zh) * 2022-12-22 2023-06-06 中国科学院合肥肿瘤医院 一种用于肺腺癌预后预测的生物标志物、应用及模型构建方法
CN116287233A (zh) * 2022-11-28 2023-06-23 中国医学科学院肿瘤医院 基因标志物在非小细胞肺癌预后评估中的应用、检测装置以及计算机可读介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580956A (zh) * 2019-09-19 2019-12-17 青岛市市立医院 一组肝癌预后标志物及其应用
CN113345589A (zh) * 2021-06-29 2021-09-03 北京泱深生物信息技术有限公司 肝癌预后模型的构建方法及应用方法、电子设备
WO2023071877A1 (zh) * 2021-10-28 2023-05-04 广州医科大学附属第一医院(广州呼吸中心) 泌尿系统结石术后复发风险预测模型、评估系统及方法
CN114300135A (zh) * 2021-12-23 2022-04-08 桂林医学院附属医院 一种肝癌术后早期复发预测模型构建方法及装置
CN116287233A (zh) * 2022-11-28 2023-06-23 中国医学科学院肿瘤医院 基因标志物在非小细胞肺癌预后评估中的应用、检测装置以及计算机可读介质
CN115862737A (zh) * 2022-12-01 2023-03-28 中国医学科学院肿瘤医院 基因标志物在非小细胞肺癌患者复发/转移风险预测中的应用、预测装置和计算机可读介质
CN116230081A (zh) * 2022-12-22 2023-06-06 中国科学院合肥肿瘤医院 一种用于肺腺癌预后预测的生物标志物、应用及模型构建方法

Also Published As

Publication number Publication date
CN117438097A (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
Freedland et al. Utilization of a genomic classifier for prediction of metastasis following salvage radiation therapy after radical prostatectomy
AU2019228512B2 (en) Systems and methods for detection of residual disease
Zelic et al. Predicting prostate cancer death with different pretreatment risk stratification tools: a head-to-head comparison in a nationwide cohort study
Ross et al. Tissue-based genomics augments post-prostatectomy risk stratification in a natural history cohort of intermediate-and high-risk men
US8510245B2 (en) Bayesian clinical decision model for determining probability of transplant glomerulopathy
US20190172582A1 (en) Methods and systems for determining somatic mutation clonality
CN110577998A (zh) 预测肝癌术后早期复发风险分子模型的构建及其应用评估
CN115315749A (zh) 一种尿沉渣基因组dna的分类方法、装置和用途
CN113096728B (zh) 一种微小残余病灶的检测方法、装置、存储介质及设备
CN111440869A (zh) 一种用于预测原发性乳腺癌发生风险的dna甲基化标记物及其筛选方法和应用
CN109979532B (zh) 甲状腺乳头状癌远处转移分子突变预测模型、方法及系统
RU2744604C2 (ru) Способ неинвазивного пренатального выявления эмбриональной хромосомной анеуплоидии по материнской крови
CN107451422A (zh) 一种基因序列数据分析与在线交互可视化的方法
CN110760585A (zh) 前列腺癌生物标志物及其应用
Mauguen et al. Estimating the probability of clonal relatedness of pairs of tumors in cancer patients
CN117438097B (zh) 一种用于早期肝癌术后复发风险预测的方法及系统
KR20140099189A (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
US11217329B1 (en) Methods and systems for determining biological sample integrity
Östlund et al. Avoiding pitfalls in gene (co) expression meta-analysis
JP7332695B2 (ja) 循環核酸からの全ゲノム配列データにおける包括的配列特徴の同定
CN113862371A (zh) 一种酒精相关性肝细胞癌疾病进展和预后风险的预测装置及其预测模型的训练方法
CN113284619A (zh) 预测前列腺癌患者术后出现生化复发的方法及设备
KR20220075834A (ko) 질환조기진단방법 및 플랫폼
CN117766025A (zh) 骨肉瘤无肺转移生存预后的预测方法及装置、设备
JP3430139B2 (ja) 遺伝子発現頻度分布比較方法及び記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant