CN116386886A - 预测癌症患者复发模型及设备 - Google Patents

预测癌症患者复发模型及设备 Download PDF

Info

Publication number
CN116386886A
CN116386886A CN202310413539.9A CN202310413539A CN116386886A CN 116386886 A CN116386886 A CN 116386886A CN 202310413539 A CN202310413539 A CN 202310413539A CN 116386886 A CN116386886 A CN 116386886A
Authority
CN
China
Prior art keywords
cancer
machine learning
learning model
marker gene
prognosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310413539.9A
Other languages
English (en)
Inventor
孙成
贺培崎
贾耿介
李福玲
孙梦嫄
戴天力
郝乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310413539.9A priority Critical patent/CN116386886A/zh
Publication of CN116386886A publication Critical patent/CN116386886A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及预测癌症患者复发模型及设备。所述模型用于获取训练样本的标记基因表达值,所述训练样本包括癌症复发样本和癌症未复发样本,所述标记基因包括SPON2、ZFP36L2、ZFP36、VIM和HLA‑DRB1;将所述标记基因表达值输入至机器学习模型,采用已知样本的癌症复发状态作为标记,对所述机器学习模型进行监督式训练,以便获得经过训练的机器学习模型,所述机器学习模型用于基于所述标记基因表达值预测癌症复发的概率。

Description

预测癌症患者复发模型及设备
技术领域
本发明涉及生物信息领域,具体地,本发明涉及预测癌症患者复发模型及设备,更具体的,本申请涉及一组标记基因、用于检测标记基因的试剂在制备试剂盒中的用途、预测癌症预后的设备、机器学习模型训练方法、计算设备和计算机可读存储介质。
背景技术
每年世界上都有很多人由于癌症而死亡,中国也是癌症大国,每年都有上百万的新增癌症患者及癌症死亡患者。在2020年世界卫生组织统计的癌症调查结果显示,中国癌症致死率最高的癌种依次为肺癌,肝癌,胃癌,食管癌及结直肠癌。且近年来世界上癌症发病率和死亡率不断上升,癌症严重的影响了人类的健康与生命安全。
目前免疫组化已经广泛应用于临床病理诊断。免疫组化利用抗原和抗体特异性结合,显色剂显色来定性,定量标本中抗原的表达情况,是一种直观,可靠的检测手段。不仅如此,随着数字图像分析技术及生物信息学技术的飞速发展,计算机辅助的病理诊断和分析由于具有高效,客观及准确的优点备受青睐。
随着科技手段的进步,生物数据也在不断扩大其固有规模和复杂性。导致难以通过传统的手段对生物信息进行甄别分类。机器学习方法利用统计学规律,在生物学中模拟建立潜在的生物发展过程及预测模型。尽管机器学习能使得模型更加适合数据,但是,不同的机器学习方法产生的模型效果千差万别,难以准确预测肿瘤切除后是否会复发。
因此,本领域亟需开发一种适合预测癌症患者术后复发风险模型。
发明内容
本申请是发明人基于对以下问题和事实的发现而提出的:
针对现有机器学习模型对于肿瘤术后复发概率预测的准确性问题,发明人通过对已知结果的术后患者进行机器学习模型训练,最终获得一种能够预测癌症患者术后复发机器学习模型。本申请开发的癌症患者术后复发预测机器学习模型准确率高。
本发明旨在至少在一定程度上解决上述技术问题之一。
为此,在本发明的第一方面,本发明提出了一组标记基因。根据本发明的实施例,所述标记基因包括SPON2、ZFP36L2、ZFP36、VIM和HLA-DRB1。根据本发明的实施例,前述基因标记基因用于癌症复发预测,发明人通过DSP(Digital Spatial Profiling)测序获得的18677个靶向癌症患者肿瘤区域内CD57蛋白高富集周围区域相关基因中筛选获得,对于癌症复发预测准确度高。
在本发明的第二方面,本发明提出了一种检测标记基因的试剂在制备试剂盒中的用途。根据本发明的实施例,所述试剂盒用于预测癌症预后。检测标记基因的试剂盒可广泛应用于临床与科学研究中。
根据本发明的实施例,上述用途还可以包括下列附加技术特征中的至少之一:
根据本发明的实施例,所述预后包括预测癌症复发概率。在本发明中,所述预后也可包括对癌症患者的疾病类型、严重程度、治疗方案以及其他相关因素进行预测。
根据本发明的实施例,所述癌症为肝癌。由于本发明采用的基因为泛癌基因,因此本申请不仅适用于肝癌患者,还适用于其他类型的肿瘤患者,例如乳腺癌、肺癌、胃癌等,以及免疫治疗的肿瘤患者,例如接受细胞治疗、靶向治疗、免疫检查点抑制剂等的患者,均可通过TIMES预测免疫治疗效果。
根据本发明的实施例,所述试剂适于通过下列的至少之一确定所述标记基因的表达值:
RNA测序、实时定量聚合酶链反应、微阵列技术、原位杂交、免疫组化和Northernblotting。所述RNA测序是通过高通量测序技术,对RNA样本中的所有转录本进行定量和定性分析从而获得基因表达值;实时定量聚合酶链反应使用荧光探针或SYBR Green等标记物,将待检测基因的mRNA转录成cDNA后,通过PCR扩增并实时监测荧光信号来测量其表达量;微阵列技术是通过将大量探针(通常为20-mer DNA寡核苷酸)固定在芯片上,通过杂交芯片上的目标序列(cDNA或RNA)寻找与之匹配的探针,并测量反应信号来推断目标序列的表达水平。原位杂交是通过与特定核酸序列互补的探针,检测组织或细胞中基因的表达情况;免疫组化方法是通过检测组织中特定蛋白的表达水平来间接推测基因表达水平;Northern blotting通过分离RNA分子,检测特定基因的表达水平。
根据本发明的实施例,所述预测癌症预后进一步包括:获取所述标记基因的表达值;和将所述表达值输入至预先经过训练的机器学习模型,以便获得癌症预后综合评分。所述标记基因的表达值是通过前述方法获得的,在机器学习模型中作为输入值转换为概率值用于对癌症患者的预后效果进行评分。
根据本发明的实施例,所述表达值输入至预先经过训练的机器学习模型,以便获得癌症预后评分进一步包括:将每一个所述标记基因表达值分别输入至所述机器学习模型,以便获得多个单生物标志物预测值;和将所述多个单生物标志物预测值进行加权平均,以便获得所述癌症预后综合评分。
具体而言,根据基因表达谱,选定5个“标记基因”。通过实验测量这些标记基因在癌症样本中的表达值(前述检测表达值的方法),得到它们的表达值。接下来,将这些表达值输入到一个机器学习模型中,例如随机森林(Random Forest)或支持向量机(SupportVector Machine),训练模型并进行预测。由于使用了多个标记基因,模型可以综合不同基因的信息,以提供更准确的预测结果。
针对每个标记基因,模型会给出一个预测结果(例如0或1),表示该标记基因与预后差异有无显著关联。这些预测结果称为“单生物标志物预测值”,一般为正整数或0。例如,在样本集中,标记基因SPON2的单生物标志物预测值为1,表示基因SPON2的表达与预后差异有显著关联;标记基因ZFP36L2的单生物标志物预测值为0,表示基因ZFP36L2的表达与预后差异不显著。
最后,将多个单生物标志物预测值进行加权平均,获得一个综合评分,称为“癌症预后综合评分”。这个综合评分可以用来预测该患者的癌症预后。加权平均的权重通过机器学习算法自动优化选择。例如,若三个标记基因的单生物标志物预测值为1、0、1,权重分别为0.5、0.2、0.3,则对应的癌症预后综合评分为0.8。
根据本发明的实施例,所述机器学习模型是决策树,优选极端梯度提升模型。
传统的Linear算法具有无法处理非线性数据集的特点,对于非平衡数据集,误差较大;而SVM具有训练时间长,参数条件困难,且不适合大规模处理数据等缺点。本发明采用的XGBoost算法具有以下优势:
1)高准确率:XGBoost通过结合多个弱学习器,可以提高模型的准确性,尤其是处理一些非线性问题;
2)可解释性:XGBoost模型中的决策树可以用来解释模型的决策过程,提高模型的可解释性;
3)支持特征选择:XGBoost可以使用特征重要性评估方法选择最重要的特征,从而提高模型的准确性和运行效率。
在本发明的第三方面,本发明提出了一种预测癌症预后的设备。根据本发明的实施例,所述设备包括:标记基因检测模块,用于获取本发明第一方面所述的标记基因的表达值;以及预测模块,用于将所述表达值输入至预先经过训练的机器学习模型,以便获得癌症预后综合评分。根据本发明的实施例,所述设备可用于预测癌症的预后结果。检测过程简单,直观且便于重复,通过人工识别和图像定量分析结合可以增加结果客观准确性。
需要说明的是,所述标记基因检测模块S100用于获取标记基因的表达值,所述预测模块S200用于对输入的表达值进行分析,以便获得癌症预后综合评分。所述标记基因检测模块S100与预测模块S200相连。
根据本发明的实施例,上述预测癌症预后的设备还可以包括下列附加技术特征中的至少之一:
根据本发明的实施例,所述预测模块进一步包括:预后概率获取单元,用于将每一个所述标记基因分别输入至所述机器学习模型,以便获得多个癌症预后概率值;和综合评分计算单元,用于将所述多个癌症预后概率值进行加权平均,以便获得所述癌症预后综合评分。在本申请的实施例中,设定所述癌症复发概率值范围为0~1。
需要说明的是,所述预后概率获取单元S201用于获取多个癌症预后概率值,所述概率获取单元S201与所述预测模块S200相连。所述综合评分计算单元S202用于对所述多个癌症预后概率值进行加权平均,以便获得所述癌症预后综合评分,所述综合评分计算单元S202与所述预后概率获取单元S201相连(图1)。
根据本发明的实施例,所述预后概率获取单元是指利用决策树算法分析每个患者的癌症相关标记基因。每个标记基因匹配到该基因与癌症预后的预测概率。所述综合评分计算单元是将上述所述多个癌症预后概率值进行综合评分。通过确定每个预测概率的权重,最终通过加权平均的方法将所有预后概率值合并成为一个单一的、代表患者癌症预后情况的综合评分,用于衡量癌症患者的预后结果。在本申请的实施例中,所述评分<0.5时,是所述待测样本所对应的患者具有肿瘤低复发风险的指示;所述评分≥0.5时,是所述待测样本所对应的患者具有肿瘤高复发风险的指示。
根据本发明的实施例,所述设备采用的机器学习模型为决策树,优选极端梯度提升模型。
在本发明第四方面,本发明提出了一种机器学习模型训练方法。根据本发明的实施例,所述方法包括:获取训练样本的标记基因表达值,所述训练样本包括癌症复发样本和癌症未复发样本,所述标记基因包括本发明第一方面所述的标记基因;将所述标记基因表达值输入至机器学习模型,采用已知样本的癌症复发状态作为标记,对所述机器学习模型进行监督式训练,以便获得经过训练的机器学习模型,所述机器学习模型用于基于所述标记基因表达值预测癌症复发的概率。
利用上述机器学习模型对癌症复发样本和癌症未复发样本进行训练,最终获得的模型可用于高效判断癌症患者的预后结果。且训练方法成熟,简化检测过程,直观且便于重复。
具体而言,通过收集多个癌症样本,包括癌症患者复发的样本以及癌症患者未复发的样本。进一步确定标记基因,也即与癌症复发相关的基因,并测定这些基因在不同样本中的表达值。这些表达值就可以被认为是标记基因的“指纹”。随后,将这些标记基因表达值输入到机器学习模型中。采用监督式模型,也就是模型对已知的样本的标记有所学习,通过训练模型得到一个数据模型,可以预测未知样本的概率值。经过对概率值的加权平均处理最终获得一个复发概率评分,用于预测癌症术后患者复发风险。在本申请中,所述概率值在0~1范围内,最终评分也在0~1范围内,所述评分<0.5时,是所述待测样本所对应的患者预后良好的指示(即低复发风险);或者所述评分≥0.5时,是所述待测样本所对应的患者预后具有肿瘤高复发风险的指示。
根据本发明的实施例,所述机器学习模型为决策树,优选极端梯度提升模型。
在本发明第五方面,本发明提出了一种计算设备。根据本发明的实施例,所述计算设备包括:处理器和存储器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序以实现本发明第四方面所述的方法。根据本发明的实施例,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,用以实现对机器学习模型的训练。
在本发明的第六方面,本发明提出了一种计算机可读存储介质。根据本发明的实施例,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现本发明第四方面所述的方法。
需要说明的是,在本申请中,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。本发明描述的各种计算机可读存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读存储介质。术语“机器可读存储介质”可包括但不限于无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例所述癌症预后设备装置图;
图2是根据本发明实施例1所述免疫组化染色结果;
图3是根据本发明实施例1所述基于全基因组测序结果对所选23个基因的训练和测试数据集的最低预测精度(在100次试验中平均)都大于85%的显著与癌症预后相关的分子指标;其中,纵坐标轴为基于测试数据集的平均预测精度结果,黑色误差条表示平均估计的95%置信区间;
图4是根据本发明实施例1所述建立在SPON2上的梯度增强模型的预测精度结果;
图5是根据本发明实施例1所述基于TNM分期将103例不同患者的对应TIMES模型打分结果统计比较;
图6是根据本发明实施例1所述在75例癌症患者中TNM分期和TIMES分期共同预测术后无复发生存曲线;
图7是根据本发明实施例1所述在75例癌症患者中多因素COX比例风险回归模型;
图8是根据本发明对比例1所述采用不同算法对模型性能进行TIMES得分评估结果。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
为了更容易理解本发明,以下具体定义了某些技术和科学术语。除显而易见在本文件中的它处另有明确定义,否则本文中使用的所有其它技术和科学术语都具有本发明所属领域的一般技术人员通常理解的含义。
在本文中,术语“包含”或“包括”为开放式表达,即包括本发明所指明的内容,但并不排除其他方面的内容。
在本文中,术语“任选地”、“任选的”或“任选”通常是指随后所述的事件或状况可以但未必发生,并且该描述包括其中发生该事件或状况的情况,以及其中未发生该事件或状况的情况。
在本申请中,术语Tumor Immune Microenvironment Score简写为TIMES,TIMES模型意为肿瘤免疫微环境评分模型。
TIMES模型的构建
1)选择模型:采用极端梯度提升(Extreme gradient boost)模型;
2)数据预处理和样本:选取61个肝癌患者样本,其中31个是复发人群,30个是非复发人群,每个样本有两个位置的分析区域(Region of interest,ROI)。样本重复数为5,将所有样本的ROIs进行交叉重组,使每个样本现在具有5x5个ROIs。每个样本包含SPON2、ZFP36L2、ZFP36、VIM和HLA-DRB1基因;
3)参数确定:选取准确率、真阳性预测率、真阴性预测率和ROC曲线下面积等参数用以评估模型性能,并选择最佳模型参数(图3、图4);
4)模型固定:使用步骤2)中的61个样本ROIs(未进行交叉重组)和在步骤3)中选择的最佳模型参数来建立最终的XGBoost模型;
5)TIMES计算:使用步骤4)中确定的最终XGBoost模型来获得验证数据中每个样本每个基因的复发概率值。然后计算每个基因复发概率的平均值和误差,基于不同基因复发概率的平均值和误差计算加权平均数,得到最终的TIMES。在本申请的具体实施例中,采用0.5作为分界线,TIMES高于0.5的被预测为复发人群,低于0.5的被预测为非复发人群。
6)模型中应用公式:
①损失函数分布:伯努利分布(Bernoulli)
Figure BDA0004184526770000071
②Extreme gradient boost模型
选取参数:迭代次数:T=1000,每棵树的深度:K=10,学习率:λ=0.01,次采样率:p=0.5,初始函数:^f(x)=arg minρΣN i=1Ψ(yi,ρ)
计算公式:以下步骤均迭代1000次
a.计算负梯度作为模型响应
Figure BDA0004184526770000072
b.从样本中抽取0.5x x为(1)提到的样本量
c.拟合终端点为10(K)的回归树,g(x)=E(z|x)
计算最有的终端点预测ρ1,...,ρK
Figure BDA0004184526770000081
其中Sk是定义终端节点k的xs的集合。
d.更新^f(x)
f(x)←^f(x)+λρk(x)λ=0.01
其中k(x)表示具有特征x的观测值将落入的终端节点的索引(标识符,用于唯一标识连接到Amazon VPC中的终端节点)。
③加权几何平均数
Figure BDA0004184526770000082
X是(5)中TIMES过程中每个样本各个基因概率值的平均值mean,f是计算TIMES过程中每个样本各个基因概率值的sd。
在本申请中,所述XGBoost模型是一个基于树的集成机器学习算法,用于建立预测模型。通过处理大规模数据集并创建高精度的预测模型。XGBoost的目标是逐步提高当前树的分数,以最小化预测误差。
下面将更详细地描述本发明的实施例,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面将对实施例作具体介绍。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例1:TIMES模型验证
(一)标本检测
1.选取实验所需的61个肝癌患者样本(31个复发样本,30个未复发样本),每个样本采集两个位置的ROIs。样本重复数为5;
2.使用石蜡切片机,将蜡块切4μm厚度,摊片,捞片,烤片;
3.贴附有组织的玻片干燥后,放入鼓风烘箱中脱蜡,64℃一个小时;
4.从烘箱中取出玻片,冷却到室温后,过二甲苯I15分钟,二甲苯II 15分钟,无水乙醇3分钟,95%乙醇3分钟,85%乙醇3分钟,75%乙醇3分钟,纯净水10秒;
5.粘附有组织的玻片在煮沸的抗原修复液中沸水浴12分钟,静置冷却到室温;
6.1XPBS溶液清洗3次,每次3分钟;
7.利用组化笔在组织周围玻片画圈将组织包围起来,防止液体流出;
8.滴加卵白素,室温静置孵育10分钟;
9.1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
10.滴加d-生物素,室温静置孵育10分钟;
11. 1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
12.滴加过氧化物酶阻断剂,室温静置孵育10分钟。;
13. 1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
14.滴加第一抗体工作液(1:100稀释),静置于湿盒上,4℃冰箱过夜孵育;
表1:第一抗体类型
标记物 抗体来源 标记物 抗体来源
SPON2 Abcam ZFP36 OriGene
ZFP36L2 OriGene VIM Dako
HLA-DRB1 Abcam
15. 1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
16.滴加反应增强液,室温静置20分钟孵育;
17. 1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
18.滴加酶标山羊抗兔/鼠IgG二抗,室温静置孵育20分钟;
19. 1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
20.配置DAB显色液(1μlDAB浓缩液:1mlDAB稀释液),现用现配,滴加到组织上,在显微镜下观察到明显棕色点后使用自来水终止染色反应。
21.使用苏木精染色10秒,自来水下流水冲洗返蓝,12分钟。
22.脱水和透明,组织玻片依次75%乙醇,85%乙醇,95%乙醇,100%乙醇各浸泡10秒,之后过二甲苯I中15分种,过二甲苯II中15分种。
23.从二甲苯II中取出组织后,滴加中性树脂封片。
24.静置一段时间,等到二甲苯气味散尽以及封片固定后在TG显微镜下进行观察,选择多个视野拍照保存。
(二)图像分析
1.在低倍视野下分别获取肿瘤区域和癌旁区域的图片各一张,分辨率为2560×1920;
2.采用ImageJ/QuPath图像分析软件识别阳性信号(图2);
3.手动选择需要分析的区域(region of interest,ROI),每个样本的肿瘤区域和癌旁区域各选择3个及以上的ROIs;
4.分析细胞膜阳性信号,阳性信号比例的计算方法为:ROI区域中阳性区域的面积/ROI区域总面积。
(三)结果分析
1、将各个样本中SPON2,ZFP36,ZFP36L2,VIM,HLA-DRB1阳性信号比例导入对应xgboost模型中。
2、计算患者复发风险值(TIMES)
f(SPON2)=xgboost(SPON2)
f(ZFP36)=xgboost(ZFP36)
f(ZFP36L2)=xgboost(ZFP36L2)
f(VIM)=xgboost(VIM)
f(HLA-DRB1)=xgboost(HLA-DRB1)
Mean(TIMES)=mean(f(SPON2))sd(SPON2)×mean(f(ZFP36))sd(ZFP36)×mean(f(ZFP36L2))sd(ZFP36L2)×mean(f(V
IM))sd(VIM)×mean(f(HLA-DRB1))sd(HLA-DRB1)
Sd(TIMES)=sd(SPON2)+sd(ZFP36)+sd(ZFP36L2)+sd(VIM)+sd(HLA-DRB1)
TIMES=Mean(TIMES)1/Sd(TIMES)
3、判断患者复发风险:当患者复发风险(TIMES)≥0.5时,认为患者属于易复发人群,且TIMES值越大,患者越容易复发;患者复发风险(TIMES)<0.5,认为患者属于不易复发人群。
图5所示的患者中,TIMES得分可以间接反应临床TNM分期结果。图6表示TIMES可以更细致的区分相同的TNM分期中易复发患者和不易复发患者,表明TIMES分期相较TNM分期和BCLC分期方式更优。在多因素COX回归分析中(图7)TIMES评分较高患者相比较低患者具有59.95倍的HR值(P<0.001),
对比例1:
(一)标本检测
1.选取实验所需的61个肝癌患者样本(31个复发样本,30个未复发样本),每个样本采集两个位置的ROIs。样本重复数为5;
2.使用石蜡切片机,将蜡块切4μm厚度,摊片,捞片,烤片;
3.贴附有组织的玻片干燥后,放入鼓风烘箱中脱蜡,64℃一个小时;
4.从烘箱中取出玻片,冷却到室温后,过二甲苯I15分钟,二甲苯II 15分钟,无水乙醇3分钟,95%乙醇3分钟,85%乙醇3分钟,75%乙醇3分钟,纯净水10秒;
5.粘附有组织的玻片在煮沸的抗原修复液中沸水浴12分钟,静置冷却到室温;
6. 1XPBS溶液清洗3次,每次3分钟;
7.利用组化笔在组织周围玻片画圈将组织包围起来,防止液体流出;
8.滴加卵白素,室温静置孵育10分钟;
9. 1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
10.滴加d-生物素,室温静置孵育10分钟;
11. 1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
12.滴加过氧化物酶阻断剂,室温静置孵育10分钟。;
13. 1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
14.滴加第一抗体工作液(1:100稀释),静置于湿盒上,4℃冰箱过夜孵育;
表1:第一抗体类型
标记物 抗体来源 标记物 抗体来源
SPON2 Abcam ZFP36 OriGene
ZFP36L2 OriGene VIM Dako
HLA-DRB1 Abcam
15. 1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
16.滴加反应增强液,室温静置20分钟孵育;
17. 1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
18.滴加酶标山羊抗兔/鼠IgG二抗,室温静置孵育20分钟;
19. 1XPBS溶液清洗3次,每次3分钟,之后用纸巾擦拭干净组织周围液体;
20.配置DAB显色液(1μlDAB浓缩液:1mlDAB稀释液),现用现配,滴加到组织上,在显微镜下观察到明显棕色点后使用自来水终止染色反应。
21.使用苏木精染色10秒,自来水下流水冲洗返蓝,12分钟。
22.脱水和透明,组织玻片依次75%乙醇,85%乙醇,95%乙醇,100%乙醇各浸泡10秒,之后过二甲苯I中15分种,过二甲苯II中15分种。
23.从二甲苯II中取出组织后,滴加中性树脂封片。
24.静置一段时间,等到二甲苯气味散尽以及封片固定后在TG显微镜下进行观察,选择多个视野拍照保存。
(二)图像分析
1.在低倍视野下分别获取肿瘤区域和癌旁区域的图片各一张,分辨率为2560×1920;
2.采用ImageJ/QuPath图像分析软件识别阳性信号(图2);
3.手动选择需要分析的区域(region of interest,ROI),每个样本的肿瘤区域和癌旁区域各选择3个及以上的ROIs;
4.分析细胞膜阳性信号,阳性信号比例的计算方法为:ROI区域中阳性区域的面积/ROI区域总面积。
(三)多种算法性能评估
将上述样本数据采用不同算法就模型性能进行TIMES得分评估。其中,XGBoostR(XGBoost R代表着XGBoost的常规实现版本,使用基于C++的XGBoost库,并用R语言进行接口封装)和XGBoostNR(XGBoostNR代表着XGBoost的优化版本,其主要特点是改善了内存和计算效率。在R语言环境下具有更快的速度和更低的内存占用,可用于更大型的数据集和更为复杂的模型)中计算的TIMES差异越大表明该模型区分癌症复发的性能最佳。
结果显示,基于XGBoost算法核心的TIMES模型,相比其他算法核心具有最佳的区分度(图8)。因此,发明人选择使用XGBoost算法进行核心训练建模。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一组标记基因,所述标记基因用于癌症复发预测,所述标记基因包括SPON2、ZFP36L2、ZFP36、VIM和HLA-DRB1。
2.用于检测权利要求1所述的标记基因的试剂在制备试剂盒中的用途,所述试剂盒用于预测癌症预后。
3.根据权利要求2所述的用途,其特征在于,所述预后包括预测癌症复发概率。
任选地,所述癌症为肝癌。
4.根据权利要求2所述的用途,其特征在于,所述试剂适于通过下列的至少之一确定所述标记基因的表达值:
RNA测序、实时定量聚合酶链反应、微阵列技术、原位杂交、免疫组化和Northernblotting。
5.根据权利要求2所述的用途,其特征在于,所述预测癌症预后进一步包括:
获取所述标记基因的表达值;和
将所述表达值输入至预先经过训练的机器学习模型,以便获得癌症预后综合评分。
6.根据权利要求5所述的用途,其特征在于,将所述表达值输入至预先经过训练的机器学习模型,以便获得癌症预后评分进一步包括:
将每一个所述标记基因表达值分别输入至所述机器学习模型,以便获得多个单生物标志物预测值;和
将所述多个单生物标志物预测值进行加权平均,以便获得所述癌症预后综合评分。
7.根据权利要求5或6所述的用途,其特征在于,所述机器学习模型是决策树,优选极端梯度提升模型。
8.一种预测癌症预后的设备,其特征在于,包括:
标记基因检测模块,用于获取权利要求1所述的标记基因的表达值;
预测模块,用于将所述表达值输入至预先经过训练的机器学习模型,以便获得癌症预后综合评分。
9.根据权利要求8所述的设备,其特征在于,所述预测模块进一步包括:
预后概率获取单元,用于将每一个所述标记基因分别输入至所述机器学习模型,以便获得多个癌症预后概率值;和
综合评分计算单元,用于将所述多个癌症预后概率值进行加权平均,以便获得所述癌症预后综合评分。
10.根据权利要求8或9所述的设备,其特征在于,所述机器学习模型为决策树,优选极端梯度提升模型。
11.一种机器学习模型训练方法,其特征在于,包括:
获取训练样本的标记基因表达值,所述训练样本包括癌症复发样本和癌症未复发样本,所述标记基因包括权利要求1所述的标记基因;
将所述标记基因表达值输入至机器学习模型,采用已知样本的癌症复发状态作为标记,对所述机器学习模型进行监督式训练,以便获得经过训练的机器学习模型,所述机器学习模型用于基于所述标记基因表达值预测癌症复发的概率。
12.根据权利要求11所述的方法,其特征在于,所述机器学习模型为决策树,优选极端梯度提升模型。
13.一种计算设备,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现如权利要求11~12任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现如权利要求11~12任一项所述的方法。
CN202310413539.9A 2023-04-12 2023-04-12 预测癌症患者复发模型及设备 Pending CN116386886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310413539.9A CN116386886A (zh) 2023-04-12 2023-04-12 预测癌症患者复发模型及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310413539.9A CN116386886A (zh) 2023-04-12 2023-04-12 预测癌症患者复发模型及设备

Publications (1)

Publication Number Publication Date
CN116386886A true CN116386886A (zh) 2023-07-04

Family

ID=86976841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310413539.9A Pending CN116386886A (zh) 2023-04-12 2023-04-12 预测癌症患者复发模型及设备

Country Status (1)

Country Link
CN (1) CN116386886A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881725A (zh) * 2023-09-07 2023-10-13 之江实验室 一种癌症预后预测模型训练装置、介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881725A (zh) * 2023-09-07 2023-10-13 之江实验室 一种癌症预后预测模型训练装置、介质及电子设备
CN116881725B (zh) * 2023-09-07 2024-01-09 之江实验室 一种癌症预后预测模型训练装置、介质及电子设备

Similar Documents

Publication Publication Date Title
CN111394456B (zh) 早期肺腺癌患者预后评估系统及其应用
KR101896545B1 (ko) 유방암 환자의 예후 예측 방법
CN103299188B (zh) 用于癌症的分子诊断试验
AU2016267392B2 (en) Validating biomarker measurement
MX2014014275A (es) Genes nano46 y metodos para predecir el resultado del cancer de mama.
CN111662982B (zh) 用于脑胶质瘤早期诊断和/或复发监测的生物标志物及其应用
CN101014720A (zh) 用于乳腺癌的预后的方法和试剂盒
CN104046624B (zh) 用于肺癌预后的基因及其应用
CN110400601A (zh) 基于rna靶向测序和机器学习的癌症亚型分型方法及装置
US20240002949A1 (en) Panel of mirna biomarkers for diagnosis of ovarian cancer, method for in vitro diagnosis of ovarian cancer, uses of panel of mirna biomarkers for in vitro diagnosis of ovarian cancer and test for in vitro diagnosis of ovarian cancer
CN116386886A (zh) 预测癌症患者复发模型及设备
CN109337978A (zh) miRNA在制备高级浆液性上皮性卵巢癌化疗耐药性评价试剂盒中的应用
CN103687963A (zh) 利用与转移相关的多基因标签来确定肝细胞癌的预后的方法
CN117925835A (zh) 一种结直肠癌肝转移标记物模型及其在预后及免疫治疗响应预测的应用
CN101517579A (zh) 蛋白质查找方法和设备
TW201625797A (zh) 評估罹患大腸直腸癌風險的方法及標誌物
CN112852969B (zh) 表观遗传修饰lncRNA作为肿瘤诊断或肿瘤进展预测标志物
TWI598444B (zh) 用以評估乳癌罹患風險之方法及基因標記
AU2016224709A1 (en) Method for assisting in prognostic diagnosis of colorectal cancer, recording medium and determining device
CN117165682B (zh) 用于乳腺癌新辅助化疗获益和/或预后评估的标志物组合及其应用
WO2023246808A1 (zh) 利用癌症中剪接异常的短外显子辅助癌症诊断和预后
WO2024027591A1 (zh) 一种多癌种甲基化检测试剂盒及其应用
CN118430801A (zh) 一种前列腺神经内分泌癌的风险预警系统
Marczyk et al. Single-cell transcriptomics
CN117604099A (zh) 一种结直肠癌肝转移预后标记物、预后评估模型及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination