CN112216386A - 用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法 - Google Patents

用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法 Download PDF

Info

Publication number
CN112216386A
CN112216386A CN201910625669.2A CN201910625669A CN112216386A CN 112216386 A CN112216386 A CN 112216386A CN 201910625669 A CN201910625669 A CN 201910625669A CN 112216386 A CN112216386 A CN 112216386A
Authority
CN
China
Prior art keywords
colorectal cancer
primary focus
blood
liver metastasis
venous blood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910625669.2A
Other languages
English (en)
Inventor
刘立仁
张忠东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Meiao Biotechnology Co ltd
Original Assignee
Shenyang Meiao Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Meiao Biotechnology Co ltd filed Critical Shenyang Meiao Biotechnology Co ltd
Priority to CN201910625669.2A priority Critical patent/CN112216386A/zh
Publication of CN112216386A publication Critical patent/CN112216386A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法,所述方法采用随机森林法,建立以结直肠癌患者的原发灶第一支回流静脉血中CTC数目等主要危险因素为自变量的预测模型,用于预测结直肠癌患者发生隐匿性肝转移的风险度,达到指导病人进行医疗决策、术后复查随访等作用。

Description

用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法
技术领域
本发明涉及肿瘤诊断与治疗技术领域,具体涉及一种用于预测结直肠癌患者发生隐匿性肝转移的风险度的模型和方法。
背景技术
结直肠癌是最常见的消化道肿瘤之一,全球每年新发病例100-200万并导致60万人死亡,严重威胁着人类的健康。在我国,由于近年来生活方式、饮食结构的西方化,结直肠癌的发病率和死亡率均以每年4%-5%的速度增加,呈快速上升趋势。据《2014年中国肿瘤登记年报》显示,我国结直肠癌发病和死亡人数,分别为16.14/10万和7.55/10万,均位居所有恶性肿瘤第五位。肝脏是结直肠癌血行转移最主要的靶器官,大约40%到70%的结直肠癌患者在整个病程中最终会出现肝转移。肝转移是结直肠癌患者最主要的死亡原因,未经治疗的肝转移患者的中位生存期仅6-9个月,无法切除患者的5年生存率接近0%,因此,结直肠癌肝转移也是结直肠癌治疗的重点和难点之一。约有20-35%结直肠癌患者在确诊时即检测出伴有肝转移,为同时性肝转移;另外25-35%的患者在确诊时没有检测出肝转移,而是在结直肠癌原发灶根治术后发生异时性肝转移,这其中多数患者其实在手术前已发生影像学无法检测的微小转移灶,称为隐匿性肝转移。手术切除原发灶时,未发现的隐匿肝转移灶限制了切除的完全性,严重影响了结直肠癌肝转移患者术后的长期生存率。因此,研发能够明确判断结直肠癌患者就诊时是否发生肝转移,尤其是能够及时、准确地预测结直肠癌患者就诊时是否发生隐匿性肝转移的检测方法,对于指导结直肠癌的治疗、进而降低患者的死亡率具有重大的临床意义。
结直肠癌肝转移是一个复杂的过程,经历肿瘤细胞从结直肠原发部位侵入血管、血液循环中肿瘤细胞(CTC)逃避机体免疫杀伤侵入肝脏,以及在肝脏形成新转移灶等步骤,涉及一系列从基因水平到蛋白表达水平的改变。对那些在肝转移过程中发挥重要作用的分子进行检测,有助于早期评估结直肠癌肝转移的风险。目前,结直肠癌肝转移的诊断及预测方法有:
一、影像学检查:(1)超声:常规超声是临床常用的检测结直肠癌肝转移的方法,但其敏感性较低。常规超声检查诊断肝脏肿瘤的敏感性约为50%,尤其是对直径小于1cm的肝转移灶的检出率仅为20%,且对病灶的定性有局限性。(2)正电子发射断层扫描(PET):PET通过检测葡萄糖类似物氟代脱氧葡萄糖(FDG)在体内的代谢情况,反映生命代谢活动。肿瘤细胞代谢活跃,摄取显像剂能力为正常细胞的2-10倍,形成图像上明显的“光点”,因此在肿瘤早期尚未产生解剖结构变化前,即能发现转移病灶,从而可用于结直肠癌肝转移的早期监测。相对于CT,PET虽然在显示转移灶数目、大小等方面具有一定的优势,但由于肝脏对FDG生理性摄取,使得PET对检测肝脏微小转移灶的敏感性欠佳,只能检测出大于5mm的微小病灶。(3)核磁共振成像(MRI):MRI能够增加软组织成像对比度,特别是近年来随着特异性造影剂的使用,使MRI对微小肝转移灶表现出较高的敏感性,但对于隐匿性肝转移灶仍然无能为力。另外,MRI不能用于有心脏起搏器或体内有铁磁性物质的患者,检测费用较高也是限制其在结直肠癌肝转移的诊断中发挥重要作用的一个因素。
二、传统的血清肿瘤标志物:血清肿瘤标志物是肿瘤细胞特异性表达或分泌的物质,包括蛋白、糖类和糖蛋白等,其检测方法简单、快捷。癌胚抗原(CEA)和癌相关糖抗原(CA19-9、CA50、CA242)等都是常用的结直肠癌肿瘤标志物,但单独使用这些标志物对于肝转移患者敏感性和特异性均较低。已有研究报道联合使用多种肿瘤标志物则能够有效提高诊断的敏感性和特异性,如结直肠癌肝转移患者血清CEA和CA19-9水平明显高于无转移患者。但是,目前对血清肿瘤标志物的研究主要集中在使用统计方法进行的定性分析,只能为结直肠肝转移提供一定的警示作用,临床上尚且无法用于结直肠癌肝转移的精准预测。
三、外周血循环肿瘤细胞(circulating tumor cell,CTC):CTC是从实体肿瘤脱落进入血液或淋巴系统的肿瘤细胞。现代肿瘤转移理论认为,实体肿瘤细胞需要先从原发灶脱离并进入血液或淋巴循环,才能在远处形成转移灶。因此,在理论上CTC与肿瘤的血行转移有直接关系。在临床实践中,近年来随着CTC检测技术的进步,这一领域的研究也受到了广泛关注,在乳腺癌、前列腺癌、肺癌和结直肠癌等实体肿瘤患者的外周血中均检测到了CTC的存在。越来越多的数据表明,CTC与结直肠癌的转移和预后密切相关。但是,由于肝脏的滤过和免疫清除作用,导致结直肠癌患者外周血中CTC数目极低(大约1亿个白细胞和500亿个红细胞中,仅含有个位数字的CTC),检出率仅为30%左右。因此,目前结直肠癌患者外周血中CTC检测的低检出率是影响其预测肝转移的重要因素。
四、分子标志物:结直肠癌肝转移过程涉及一系列从基因到蛋白分子水平的改变。上皮-间质转化(EMT)指上皮细胞通过特定步骤转化为具有间质表型细胞的生物学过程,在结直肠癌肝转移中发挥着重要作用。EMT受诸多转录因子及小RNA家族成员调控,如sug、snai、twist、zeb1、zeb2和miR-200家族等。这些生物大分子通过调节下游的上皮钙黏蛋白(E-cad)、胎盘钙黏蛋白(P-cad)、基质金属蛋白酶(MMP)、β-连环蛋白(β-catenin)等的表达实现上皮的间质化。研究显示,结肠癌患者E-cad表达下降及P-cad表达升高可导致结直肠癌肝转移,预示发生肝转移的风险较大,其机制可能与P-cad抑制E-cad表达、促进β-catenin表达相关。MMP可通过降解基底膜和细胞外基质促进肿瘤细胞外侵,亦可促进某些生长因子,如转化生长因子-β(TGF-β)、表皮生长因子受体(EGFR)释放,从而促进肿瘤细胞增殖,这些分子的异常表达均有助于预测结直肠癌发生肝转移的风险。近年来,关于结直肠癌肝转移的microRNA研究取得了一些进展。研究显示,microRNA-21(miR-21)可通过下调肿瘤抑制因子Pdcd4促进结直肠癌转移。结直肠癌肝转移患者血清miR-29a和miR-141表达水平显著高于无肝转移的结直肠癌患者,miR-29a和miR-141的血清高表达提示结直肠癌易发生肝转移。此外,对传统原癌基因(K-ras、c-myc、EGFR等)和抑癌基因(APC、DCC、p53等)的研究发现,这类基因表达水平的改变虽然对预测结直肠癌肝转移有一定的参考价值,但其准确性和特异性均不高。近来通过分析多基因谱变化预测结直肠癌肝转移的研究逐渐兴起。日本学者研究发现,通过联合检测EREG、AREG、COX-2、LCK等10个基因来预测结直肠癌肝转移的准确性可高达86.2%。另一项研究表明,通过分析结直肠癌患者体内13种基因(MINT1、MINT2、MINT31、MLH1、p16等)甲基化状态,发现这些基因甲基化状态的改变发生于结直肠癌发生肝转移前,提示其能够促进结直肠癌肝转移并作为预测肝转移的分子标志物。综上所述,目前关于结直肠癌肝转移分子机制的研究较多,相关研究成果为临床早期诊断及预测提供了新思路。然而,目前单靠检测结直肠癌肝转移过程中某个基因或分子(谱)的变化,尚不能明确诊断肝转移的发生,需联合多项临床、病理检测指标以提高诊断的准确性、实现对隐匿性肝转移的精准预测。
发明内容
为解决上述问题,本发明提供一种用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法,其特征在于,该方法采用随机森林法构建用于预测结直肠癌患者发生隐匿性肝转移的风险度的模型。随机森林法是近年来开发的一种基于机器学习的集成算法,其以决策树模型为基学习器,先对数据集进行自助采样生成多个不同的子集,然后对于每个子集采用决策树模型进行分类预测,最后采用投票的方法输出票数最多的结果为最终的分类预测结果。
为实现上述目的,本发明提供一种用于预测结直肠癌患者发生隐匿性肝转移的风险度的模型及其建立方法,其包括以下步骤:
(1)收集结直肠癌病例的指标数据,建立结直肠癌信息数据库;
(2)采用随机森林的方法建立预测模型,将步骤(1)收集的数据随机分为两组,其中一组数据用于建模,另一组数据用于验证模型的预测能力;根据OOB误差确定二叉树的变量个数和决策树的数目;
采用基于平均精度下降(mean decrease accuracy)的指标重要度来评价各指标对肝转移预测能力的大小;
采用ROC曲线和曲线下面积(AUC)进行模型评价,AUC>0.8则说明模型的预测能力好。
在本发明的一个实施方式中,步骤(1)中所述病例的指标至少包括结直肠癌原发灶第一支回流静脉血中CTC数目。此处所述的结直肠癌原发灶第一支回流静脉是指手术中根据结直肠癌原发灶解剖部位游离出的第一支回流静脉。
根据结直肠癌原发灶具体解剖部位,所述第一支回流静脉血采集位置不同。具体地,例如,当所述结直肠癌原发灶位于升结肠或肝曲,则所述第一支回流静脉血采自回结肠静脉;如所述结直肠癌原发灶位于横结肠,则所述第一支回流静脉血采自横结肠中静脉;如所述结直肠癌原发灶位于降结肠或脾曲,则所述第一支回流静脉血采自左结肠静脉(上支或下支);如所述结直肠癌原发灶位于直肠,则所述第一支回流静脉血采自直肠上静脉。
在本发明的一个实施例中,所述结直肠癌原发灶第一支回流静脉血中CTC数目≥1个/7.5ml定义为阳性。
在本发明的一个具体实施方式中,步骤(1)中所述病例的指标包括:结直肠癌原发灶第一支回流静脉血中CTC数目及癌胚抗原(CEA)、谷氨酰转肽酶(GGT)和碱性磷酸酶(ALP)。
在本发明的一个实施例中,步骤(1)中所述病例的指标选自,优选地,包括:(1-1)结直肠癌原发灶第一支回流静脉血中CTC数目;(1-2)人口学特征:年龄、性别;(1-3)肿瘤标志物:癌胚抗原(CEA)、糖类抗原199(CA19-9);(1-4)生化指标:谷丙转氨酶(ALT)、谷草转氨酶(AST)、碱性磷酸酶(ALP)、谷氨酰转肽酶(GGT)、结合胆红素(DBIL)、间接胆红素(IBIL)、尿素氮(BUN)、肌酐(Cr)、总蛋白(TP)、血浆白蛋白(ALB)、总蛋白/血浆白蛋白(TP/ALB)、白细胞计数(WBC)、淋巴细胞计数(Lym)、中性粒细胞计数(Neu)、血小板计数(PLT)、红细胞计数(RBC)、大血小板数目、大血小板比率;(1-5)肿瘤分期:T分期、N分期。
在本发明的一个实施例中,步骤(1)中所述病例个数为1256例。
在本发明的一个实施例中,步骤(1)中所述数据库采用Epidata(Epidata3.0)建立。
在本发明的一个实施例中,步骤(2)包括:将步骤(1)收集的数据随机分为两组,其中70%的数据用于建模,30%的数据用于验证模型的预测能力。
在本发明的一个实施例中,步骤(2)中所述二叉树的变量个数为12个。
在本发明的一个实施例中,步骤(2)中所述决策树的数目为500棵。
在本发明的一个实施方式中,所述建立方法还包括:(3)运行R语言编程的RandomForest软件包,建立以步骤(1)中所述指标为自变量的预测模型。
所述预测模型可用于预测结直肠癌患者发生隐匿性肝转移的风险度,预测结果表述为0或1,其中预测结果为0,表示患者发生隐匿性肝转移的风险度较低,预测结果为1,则表示患者的隐匿性肝转移的风险度较高。
本发明还提供一种用于预测结直肠癌患者隐匿性肝转移的风险度的方法,其包括将待测患者的指标数据输入本发明上述预测模型得到预测结果的步骤,所述待测患者的指标为本发明上述预测模型的建立方法的步骤(1)中所述指标。
在本发明的一个实施方式中,所述待测患者指标至少包括结直肠癌原发灶第一支回流静脉血中CTC数目。所述的结直肠癌原发灶第一支回流静脉具有本发明上述定义。
在本发明的一个具体实施方式中,所述待测患者指标包括:结直肠癌原发灶第一支回流静脉血中CTC数目及癌胚抗原(CEA)、谷氨酰转肽酶(GGT)、碱性磷酸酶(ALP)。
在本发明的一个实施例中,所述待测患者指标选自,优选地,包括:(1-1)结直肠癌原发灶第一支回流静脉血中CTC数目;(1-2)人口学特征:年龄、性别;(1-3)肿瘤标志物:癌胚抗原(CEA)、糖类抗原199(CA19-9);(1-4)生化指标:谷丙转氨酶(ALT)、谷草转氨酶(AST)、碱性磷酸酶(ALP)、谷氨酰转肽酶(GGT)、结合胆红素(DBIL)、间接胆红素(IBIL)、尿素氮(BUN)、肌酐(Cr)、总蛋白(TP)、血浆白蛋白(ALB)、总蛋白/血浆白蛋白(TP/ALB)、白细胞计数(WBC)、淋巴细胞计数(Lym)、中性粒细胞计数(Neu)、血小板计数(PLT)、红细胞计数(RBC)、大血小板数目、大血小板比率;(1-5)肿瘤分期:T分期、N分期。
在本发明的一个实施方式中,所述预测方法还包括采集结直肠癌原发灶第一支回流静脉血中CTC数目数据的步骤。
在本发明的一个具体实施方式,所述采集结直肠癌原发灶第一支回流静脉血中CTC数目数据的步骤包括:将结直肠癌原发灶游离出肿瘤的第一支回流静脉,取静脉血,检测其中的CTC数目。
在本发明的一个实施例中,所述结直肠癌原发灶第一支回流静脉血中CTC数目≥1个/7.5ml定义为阳性。
本发明还提供一种结直肠癌患者指标在用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法中的应用,所述患者指标至少包括结直肠癌原发灶第一支回流静脉血中CTC数目。所述的结直肠癌原发灶第一支回流静脉具有本发明上述定义。
在本发明的一个具体实施方式中,所述患者指标包括:结直肠癌原发灶第一支回流静脉血中CTC数目及癌胚抗原(CEA)、谷氨酰转肽酶(GGT)和碱性磷酸酶(ALP)。
在本发明的一个实施例中,所述患者指标选自,优选地,包括:(1-1)结直肠癌原发灶第一支回流静脉血中CTC数目;(1-2)人口学特征:年龄、性别;(1-3)肿瘤标志物:癌胚抗原(CEA)、糖类抗原199(CA19-9);(1-4)生化指标:谷丙转氨酶(ALT)、谷草转氨酶(AST)、碱性磷酸酶(ALP)、谷氨酰转肽酶(GGT)、结合胆红素(DBIL)、间接胆红素(IBIL)、尿素氮(BUN)、肌酐(Cr)、总蛋白(TP)、血浆白蛋白(ALB)、总蛋白/血浆白蛋白(TP/ALB)、白细胞计数(WBC)、淋巴细胞计数(Lym)、中性粒细胞计数(Neu)、血小板计数(PLT)、红细胞计数(RBC)、大血小板数目、大血小板比率;(1-5)肿瘤分期:T分期、N分期。
在本发明的一个实施方式中,所述应用为结直肠癌原发灶第一支回流静脉血中CTC数目在用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法中的应用。
本发明包含多个技术要点及原理,逐层递进,具有如下技术创新点:
1、本发明采用随机森林的方法建立结直肠癌隐匿性肝转移风险预测模型,随机森林算法的优势在于对指标间的多重共线性不敏感,其次对于不平衡数据的分类预测能力较强。
2、本发明首次采用结直肠癌原发灶第一支回流静脉血中CTC数目作为预测模型中的最重要自变量,解决了外周血中CTC数量少、检出率低的问题,极大地提高了预测模型的敏感性。
3、本预测模型采用多变量机器学习模型,从而可以整合多个临床、病理指标,赋予每个指标相应的权重,有利于对隐匿性肝转移患者进行精细筛选;临床实践中,肿瘤转移患者各项指标可能相互影响,交错成复杂网络。通过多变量机器学习模型可以校正掉很多复杂而又难以彻底解析的相互作用,使预测结果更加准确。
本发明的有益效果如下:
1、本发明建立的预测模型能够预测出结直肠癌患者就诊时发生隐匿性肝转移的概率,既可以根据模型预测结果决定治疗方案,还可以进一步考虑患者治疗意愿、经济承受能力等社会因素对方案进行个体化修改,应用灵活。
2、本发明建立的预测模型纳入的变量指标都是高度客观的临床检验、病理学指标,因此可靠性极强,且临床上有简单且可靠的检测方法,便于推广;另外,与新兴的CTC液态活检技术高度契合,能够实现对结直肠癌患者就诊时发生隐匿性肝转移的预测,临床应用前景广阔。
3、根据本发明建立的预测模型的预测结果,可实现结直肠癌患者的层次诊疗的目的,将结直肠癌肝转移治疗“关口”前移,以降低肠癌肝转移的发生率,提高患者的生存期,并降低患者治疗总费用,具有良好的社会和经济效益。
附图说明
图1所示为结直肠癌肝转移风险预测模型ROC曲线。
图2所示为结直肠癌肝转移风险预测模型各指标重要度。
具体实施方式
除非另有定义,本发明中所使用的所有科学和技术术语具有与本发明涉及技术领域的技术人员通常理解的相同的含义。
下面结合实例,对本发明的具体实施方式作进一步详细描述。以下实例用于说明本发明,但不用来限制本发明的范围。
实施例1
基于随机森林法,建立用于预测结直肠癌患者隐匿性肝转移的风险度的模型,其包括以下步骤:
(1)应用Epidata3.0建立结直肠癌信息数据库,收集1256例结直肠癌患者的如下临床、病理信息:(1)结直肠癌原发灶第一支回流静脉血中CTC;(2)人口学特征:年龄、性别;(3)肿瘤标志物:癌胚抗原(CEA)、糖类抗原199(CA19-9);(4)生化指标:谷丙转氨酶(ALT)、谷草转氨酶(AST)、碱性磷酸酶(ALP)、GGT、DBIL、IBIL、尿素氮(BUN)、肌酐(Cr)、总蛋白(TP)、血浆白蛋白(ALB)、总蛋白/血浆白蛋白(TP/ALB)、白细胞计数(WBC)、淋巴细胞计数(Lym)、中性粒细胞计数(Neu)、血小板计数(PLT)、红细胞计数(RBC)、大血小板数目(BNPLT)、大血小板比率(BRPLT);(5)肿瘤分期:T分期、N分期;
根据结直肠癌原发灶具体解剖部位,第一支回流静脉血采集位置不同。具体地,例如,当所述结直肠癌原发灶位于升结肠或肝曲,则第一支回流静脉血采自回结肠静脉;如所述结直肠癌原发灶位于横结肠,则第一支回流静脉血采自横结肠中静脉;如所述结直肠癌原发灶位于降结肠或脾曲,则第一支回流静脉血采自左结肠静脉(上支或下支);如所述结直肠癌原发灶位于直肠,则第一支回流静脉血采自直肠上静脉。
(2)采用随机森林的方法建立结直肠癌隐匿性肝转移风险预测模型,将数据集随机分为两组,70%的数据用于建模,30%的数据用于验证模型的预测能力;二叉树的变量个数根据OOB误差进行确定,最终确定为12个,随机森林包含决策树的数目为500棵;
采用ROC曲线和曲线下面积(AUC)进行模型评价,得到ROC曲线图如图1所示,AUC=0.8531,说明该模型具有较好的预测能力;
采用基于mean decrease accuracy的指标重要度来评价步骤(1)中各信息指标对肝转移预测能力的大小,得到指标重要性如图2所示,其中对于结直肠癌肝转移预测能力,结直肠癌原发灶第一支回流静脉血中CTC数目(重要度=18.916)远高于外周血中CTC数目(重要度=3.751);
(3)采用R语言编程预测应用代码,运行装有R包的Random Forest软件(version3.5.1for windows),即可根据待测患者的25个临床、病理信息指标(步骤(1)中所述),预测结直肠癌患者发生隐匿性肝转移的风险概率,预测结果表述为0或1,其中预测结果为0,表示该患者发生隐匿性肝转移风险度较低,预测结果为1,则表示该患者的隐匿性肝转移风险度较高。
实施例2
结直肠癌患者甲,就诊时未发现肝转移灶。手术中未切除原发灶之前,游离出肿瘤的第一支回流静脉,以无菌注射器抽取静脉血后,用CellSearch方法检测血液样本中CTC,血中CTCs≥1个/7.5ml定义为阳性。然后将病人年龄、性别和术前测定的癌胚抗原(CEA)、糖类抗原199(CA19-9)、谷丙转氨酶(ALT)、谷草转氨酶(AST)、碱性磷酸酶(ALP)、GGT、DBIL、IBIL、尿素氮(BUN)、肌酐(Cr)、总蛋白(TP)、血浆白蛋白(ALB)、总蛋白/血浆白蛋白(TP/ALB)、白细胞计数(WBC)、淋巴细胞计数(Lym)、中性粒细胞计数(Neu)、血小板计数(PLT)、红细胞计数(RBC)、大血小板数目、大血小板比率及术后病理诊断结果T/N分期输入实施例1的预测软件进行肝转移风险预测。预测结果为0,表示患者发生隐匿性肝转移风险度较低,随后的治疗及复查按治疗指南常规进行。
实施例3
结直肠癌患者乙,就诊时未发现肝转移灶。手术中未切除原发灶之前,游离出肿瘤的第一支回流静脉,以无菌注射器抽取静脉血后,用CellSearch方法检测血液样本中CTC,血中CTCs≥1个/7.5ml定义为阳性。然后将病人年龄、性别和术前测定的癌胚抗原(CEA)、糖类抗原199(CA19-9)、谷丙转氨酶(ALT)、谷草转氨酶(AST)、碱性磷酸酶(ALP)、GGT、DBIL、IBIL、尿素氮(BUN)、肌酐(Cr)、总蛋白(TP)、血浆白蛋白(ALB)、总蛋白/血浆白蛋白(TP/ALB)、白细胞计数(WBC)、淋巴细胞计数(Lym)、中性粒细胞计数(Neu)、血小板计数(PLT)、红细胞计数(RBC)、大血小板数目、大血小板比率及术后病理诊断结果T/N分期输入实施例1的预测软件进行肝转移风险预测。预测结果为1,表示患者的隐匿性肝转移风险度较高,建议在治疗指南的基础上调整治疗方案和复查频率,做到治疗及监测时间窗口前移,以提高患者生存率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于预测结直肠癌患者发生隐匿性肝转移的风险度的模型的建立方法,其包括以下步骤:
(1)收集结直肠癌病例的指标数据,建立结直肠癌信息数据库;
(2)采用随机森林的方法建立预测模型,将步骤(1)收集的数据随机分为两组,其中一组数据用于建模,另一组数据用于验证模型的预测能力;根据OOB误差确定二叉树的变量个数和决策树的数目;
采用基于平均精度下降的指标重要度来评价各指标对肝转移预测能力的大小;
采用ROC曲线和曲线下面积(AUC)进行模型评价,AUC>0.8则说明模型的预测能力好;
优选地,步骤(1)中所述病例的指标包括结直肠癌原发灶第一支回流静脉血中CTC数目;
更优选地,所述结直肠癌原发灶位于升结肠或肝曲,所述第一支回流静脉血采自回结肠静脉,或,
所述结直肠癌原发灶位于横结肠,所述第一支回流静脉血采自横结肠中静脉,或,
所述结直肠癌原发灶位于降结肠或脾曲,所述第一支回流静脉血采自左结肠静脉,或,
所述结直肠癌原发灶位于直肠,所述第一支回流静脉血采自直肠上静脉。
2.如权利要求1所述的方法,其特征在于,步骤(1)中所述病例的指标包括:结直肠癌原发灶第一支回流静脉血中CTC数目及癌胚抗原(CEA)、谷氨酰转肽酶(GGT)和碱性磷酸酶(ALP)。
3.如权利要求1所述的方法,其特征在于,步骤(1)中所述病例的指标包括:(1-1)结直肠癌原发灶第一支回流静脉血中CTC数目;(1-2)人口学特征:年龄、性别;(1-3)肿瘤标志物:癌胚抗原(CEA)、糖类抗原199(CA19-9);(1-4)生化指标:谷丙转氨酶(ALT)、谷草转氨酶(AST)、碱性磷酸酶(ALP)、谷氨酰转肽酶(GGT)、结合胆红素(DBIL)、间接胆红素(IBIL)、尿素氮(BUN)、肌酐(Cr)、总蛋白(TP)、血浆白蛋白(ALB)、总蛋白/血浆白蛋白(TP/ALB)、白细胞计数(WBC)、淋巴细胞计数(Lym)、中性粒细胞计数(Neu)、血小板计数(PLT)、红细胞计数(RBC)、大血小板数目、大血小板比率;(1-5)肿瘤分期:T分期、N分期。
4.如权利要求1所述的方法,其特征在于,步骤(2)包括:将步骤(1)收集的数据随机分为两组,其中70%的数据用于建模,30%的数据用于验证模型的预测能力。
5.如权利要求1所述的方法,其特征在于,步骤(2)中所述二叉树的变量个数为12个,和/或,步骤(2)中所述决策树的数目为500棵。
6.如权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:(3)运行R语言编程的Random Forest软件包,建立以步骤(1)中所述指标为自变量的预测模型。
7.一种用于预测结直肠癌患者隐匿性肝转移的风险度的方法,其包括将待测患者的指标数据输入权利要求1-6任一项所述的方法建立的模型中得到预测结果的步骤;
优选地,所述患者的指标包括结直肠癌原发灶第一支回流静脉血中CTC数目;
更优选地,所述结直肠癌原发灶位于升结肠或肝曲,所述第一支回流静脉血采自回结肠静脉,或,
所述结直肠癌原发灶位于横结肠,所述第一支回流静脉血采自横结肠中静脉,或,
所述结直肠癌原发灶位于降结肠或脾曲,所述第一支回流静脉血采自左结肠静脉,或,
所述结直肠癌原发灶位于直肠,所述第一支回流静脉血采自直肠上静脉。
8.如权利要求7所述的方法,其特征在于,所述待测患者指标包括:(1-1)结直肠癌原发灶第一支回流静脉血中CTC数目;(1-2)人口学特征:年龄、性别;(1-3)肿瘤标志物:癌胚抗原(CEA)、糖类抗原199(CA19-9);(1-4)生化指标:谷丙转氨酶(ALT)、谷草转氨酶(AST)、碱性磷酸酶(ALP)、谷氨酰转肽酶(GGT)、结合胆红素(DBIL)、间接胆红素(IBIL)、尿素氮(BUN)、肌酐(Cr)、总蛋白(TP)、血浆白蛋白(ALB)、总蛋白/血浆白蛋白(TP/ALB)、白细胞计数(WBC)、淋巴细胞计数(Lym)、中性粒细胞计数(Neu)、血小板计数(PLT)、红细胞计数(RBC)、大血小板数目、大血小板比率;(1-5)肿瘤分期:T分期、N分期。
9.如权利要求7所述的方法,其特征在于,所述方法还包括采集结直肠癌原发灶第一支回流静脉血中CTC数目数据的步骤;
优选地,所述采集结直肠癌原发灶第一支回流静脉血中CTC数目数据的步骤包括:将结直肠癌原发灶游离出肿瘤的第一支回流静脉,取静脉血,检测其中的CTC数目。
10.一种结直肠癌患者指标在用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法中的应用,所述患者指标包括结直肠癌原发灶第一支回流静脉血中CTC数目;
优选地,所述患者指标包括:(1-1)结直肠癌原发灶第一支回流静脉血中CTC数目;(1-2)人口学特征:年龄、性别;(1-3)肿瘤标志物:癌胚抗原(CEA)、糖类抗原199(CA19-9);(1-4)生化指标:谷丙转氨酶(ALT)、谷草转氨酶(AST)、碱性磷酸酶(ALP)、谷氨酰转肽酶(GGT)、结合胆红素(DBIL)、间接胆红素(IBIL)、尿素氮(BUN)、肌酐(Cr)、总蛋白(TP)、血浆白蛋白(ALB)、总蛋白/血浆白蛋白(TP/ALB)、白细胞计数(WBC)、淋巴细胞计数(Lym)、中性粒细胞计数(Neu)、血小板计数(PLT)、红细胞计数(RBC)、大血小板数目、大血小板比率;(1-5)肿瘤分期:T分期、N分期。
CN201910625669.2A 2019-07-11 2019-07-11 用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法 Pending CN112216386A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910625669.2A CN112216386A (zh) 2019-07-11 2019-07-11 用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910625669.2A CN112216386A (zh) 2019-07-11 2019-07-11 用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法

Publications (1)

Publication Number Publication Date
CN112216386A true CN112216386A (zh) 2021-01-12

Family

ID=74048173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910625669.2A Pending CN112216386A (zh) 2019-07-11 2019-07-11 用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法

Country Status (1)

Country Link
CN (1) CN112216386A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102183662A (zh) * 2011-03-22 2011-09-14 浙江大学 一种大肠癌预后预测模型的建立方法
CN106295148A (zh) * 2016-08-01 2017-01-04 苏翀 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法
CN107305596A (zh) * 2016-04-15 2017-10-31 中国科学院上海生命科学研究院 肝门部胆管癌患者预后预测模型
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因系统股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习系统
EP3470843A1 (en) * 2017-10-16 2019-04-17 Biopredictive Method of prognosis of primary liver cancer

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102183662A (zh) * 2011-03-22 2011-09-14 浙江大学 一种大肠癌预后预测模型的建立方法
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因系统股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习系统
CN107305596A (zh) * 2016-04-15 2017-10-31 中国科学院上海生命科学研究院 肝门部胆管癌患者预后预测模型
CN106295148A (zh) * 2016-08-01 2017-01-04 苏翀 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法
EP3470843A1 (en) * 2017-10-16 2019-04-17 Biopredictive Method of prognosis of primary liver cancer

Similar Documents

Publication Publication Date Title
Wu et al. Decision based on big data research for non-small cell lung cancer in medical artificial system in developing country
Jansson et al. Concordance of tumor differentiation among brothers with prostate cancer
CN103959060B (zh) 心血管危险事件预测及其用途
García-Gallo et al. A machine learning-based model for 1-year mortality prediction in patients admitted to an Intensive Care Unit with a diagnosis of sepsis
CN104198709A (zh) 肺癌生物标记及其用途
US8929625B2 (en) Method and device for side-effect prognosis and monitoring
CN112802600B (zh) 软组织肿瘤信息化病理辅助诊断全程监管系统及方法
US11335464B2 (en) Integrated precision medicine by combining quantitative imaging techniques with quantitative genomics for improved decision making
CN109616198A (zh) 仅用于肝癌单一癌种筛查的特异甲基化检测位点组合的选取方法
CN107110865A (zh) 用于结肠直肠癌的早期检测的方法
Beckers et al. Paleogenetic study of ancient DNA suggestive of X-linked acrogigantism
CN110070128A (zh) 一种基于随机森林模型的慢性肝病风险评估系统
Khene et al. Application of machine learning models to predict recurrence after surgical resection of nonmetastatic renal cell carcinoma
Cotton et al. A model using clinical and endoscopic characteristics identifies patients at risk for eosinophilic esophagitis according to updated diagnostic guidelines
Bae et al. Comparison of biological age prediction models using clinical biomarkers commonly measured in clinical practice settings: AI techniques vs. traditional statistical methods
Shaikh et al. The role of imaging biomarkers derived from advanced imaging and radiomics in the management of brain tumors
Wu et al. Artificial intelligence-based preoperative prediction system for diagnosis and prognosis in epithelial ovarian cancer: A multicenter study
Xie et al. Self-supervised contrastive learning using CT images for PD-1/PD-L1 expression prediction in hepatocellular carcinoma
Koskas et al. Independent external validation of radiotherapy and its impact on the accuracy of a nomogram for predicting survival of women with endometrial cancer
Reddy et al. PAD: A Pancreatic Cancer Detection based on Extracted Medical Data through Ensemble Methods in Machine Learning
Lin et al. A predictive nomogram for atypical meningioma based on preoperative magnetic resonance imaging and routine blood tests
CN112216386A (zh) 用于预测结直肠癌患者发生隐匿性肝转移的风险度的方法
Mayampurath et al. Predicting response to chemotherapy in patients with newly diagnosed high-risk neuroblastoma: a report from the International Neuroblastoma Risk Group
CN113128654B (zh) 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
Perera et al. Advancing traditional prostate-specific antigen kinetics in the detection of prostate cancer: a machine learning model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination