CN112951423B - 培美曲塞化疗后不良反应发生风险预测模型及其构建方法 - Google Patents

培美曲塞化疗后不良反应发生风险预测模型及其构建方法 Download PDF

Info

Publication number
CN112951423B
CN112951423B CN202110229968.1A CN202110229968A CN112951423B CN 112951423 B CN112951423 B CN 112951423B CN 202110229968 A CN202110229968 A CN 202110229968A CN 112951423 B CN112951423 B CN 112951423B
Authority
CN
China
Prior art keywords
chemotherapy
model
data
value
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110229968.1A
Other languages
English (en)
Other versions
CN112951423A (zh
Inventor
张玉
刘亚妮
伍三兰
黄怡菲
曹鹏
龚卫静
师少军
胡艳珂
李强
张蕊
杨玉
徐双兵
董晓荣
伍钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji Medical College of Huazhong University of Science and Technology
Original Assignee
Tongji Medical College of Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji Medical College of Huazhong University of Science and Technology filed Critical Tongji Medical College of Huazhong University of Science and Technology
Priority to CN202310838465.3A priority Critical patent/CN117672506A/zh
Priority to CN202110229968.1A priority patent/CN112951423B/zh
Publication of CN112951423A publication Critical patent/CN112951423A/zh
Application granted granted Critical
Publication of CN112951423B publication Critical patent/CN112951423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)

Abstract

本发明涉及培美曲塞化疗后不良反应发生风险预测模型及其构建方法,通过收集历史临床资料,并进行分析,最终建立预测模型;主要步骤依次是采用回顾性队列研究方法收集临床资料并整理筛选、对筛选过的数据进行插补和基线分析,确定影响因素并进行重要性排序,建立风险预测模型公式、对预测模型进行验证。本发明通过收集历史临床数据,科学合理地建立预测模型,预测更精确;通过分析得出化疗后不良反应风险的影响因素,并对其重要性进行排序,便于采取预防性干预措施,选择合适的化疗方案;通过结合风险评估后选择的化疗方案,可以有效减少化疗后不良反应的发生,有利于患者健康,也有利于减少发生不良反应后带来的经济负担。

Description

培美曲塞化疗后不良反应发生风险预测模型及其构建方法
技术领域
本发明属于医疗安全管理技术领域,尤其涉及培美曲塞化疗后不良反应发生风险预测模型及其构建方法。
背景技术
治疗风险预测是医疗安全管理系统中极为重要的一环。根据积累的病况数据进行整理分析,总结出风险预测的方法,可以有效评估和选择治疗手段。
肺癌是世界上最为常见的恶性肿瘤之一,肺癌按照细胞类型分为非小细胞肺癌和小细胞肺癌(15%)。非小细胞肺癌有三个主要的亚型为腺癌(40%)、鳞状细胞癌(30%)和大细胞癌(15%)。依据类型不同其治疗和预后也不同。我国非小细胞肺癌约占所有肺癌的85%,而约75%的患者发现时处于中晚期,已丧失外科手术干预的机会,年龄矫正后的5年生存率只有16.1%。随着肺癌药物治疗的不断进展,分子靶向药物和免疫治疗药物的出现,非小细胞肺癌患者的治疗选择已得到大大改善,但这2类药物对患者有一定的选择,且随着时间的推移,患者也会对靶向药物和免疫治疗药物产生耐药性。因此,化疗仍然是非小细胞肺癌的主要治疗手段,其肿瘤缓解率约为40%-50%。
化疗作为肺癌的常用综合治疗方案之一,起到延长患者生命、改善患者生活治量的作用。但由于化疗药物的固有药理特性,在杀死肿瘤细胞的同时,人体的正常功能细胞也会产生相应的毒副作用。
比如肝脏作为多种药物的代谢靶器官,也是多种药物的毒性靶器官。多种化疗药物均可影响患者的肝功能,部分药物具有剂量依赖性,降低单次化疗剂量可降低其发生率,但同时也会影响其化疗效果。化疗药物导致的肝损伤主要表现为肝细胞功能紊乱与化学性肝炎,慢性肝纤维化等,部分药物可引起急性肝功能异常,进而发展为肝细胞坏死、胆汁淤积等。临床处理化疗所致肝毒性的治疗原则主要为停用引起肝毒性的化疗药物,及使用护肝药物及对症支持治疗,影响化疗效果的同时也额外增加了患者治疗的经济负担。
又比如对于晚期NSCLC患者中EGFR敏感基因突变阴性、ALK融合基因阴性或突变状况不明的患者,应尽早的开始化疗,而含铂双药化疗方案是其首选治疗方案。培美曲塞作为具有同药维持治疗及换药维持治疗循证医学证据的一线化疗药物和二线化疗药物,其联合铂类的化疗方案已成为临床常用的针对晚期NSCLC患者的化疗方案。但培美曲塞是一种多靶点抗叶酸化疗药物,其在抑制肿瘤生长的同时,常常会导致骨髓抑制及肝肾损伤,不仅影响肺癌的治疗,还会降低患者的生存质量,严重者甚至危及生命。铂类药物作为非周期特异性细胞毒药物,在杀灭肿瘤细胞的同时,对人体正常的造血细胞亦有不同程度的损害。因此,如通过真实世界研究,提前预测骨髓抑制及肝肾毒性的发生,降低其风险,将极大的降低患者疾病负担。然而,目前的研究主要集中在肺癌疗效的预测方面,对化疗后肝肾损伤及骨髓抑制毒性的研究及预测相对较少。
如公开号为CN108021941B的一种药物肝毒性预测方法及装置,方法包括获取待测药物数据后,根据预设的分类器组对待测药物数据进行分类,获得多个初始分类结果;再基于多个初始分类结果及预设的投票策略规则,获得分类结果,分类结果表示待测药物数据的肝毒性。通过预设的分类器组和投票策略对药物数据进行分类的方式,获得药物数据的肝毒性,提高预测效率、预测精度,适应了制药行业的未来发展需求,能为制药行业带来开发周期和开发成本的更有效控制。
但是,这种检测肝毒性的方法是直接基于待测药物数据所得的,待测的药物数据并未公开,且直接根据药物的成分、配比等数据判断肝毒性无疑是一种初步的手段,其并未结合临床实验,结果的准确性无法保证;不能针对可能发生的不良反应采取预防性干预措施;无法选择合适的化疗方案或药物来减少不良反应的发生。
发明内容
针对上述问题,本发明提供化疗后不良反应发生风险预测模型的构建方法,主要解决了现有技术中无法准确评估化疗后发生不良反应的风险、无法选择合适的化疗方案、无法针对培美曲塞联合铂类化疗进行选药和用量等问题。
为了解决上述问题,本发明采用如下技术方案:
培美曲塞化疗后肝损伤发生风险预测模型的构建方法,具体步骤包括:
收集病例信息;
数据统计分析:
基于收集的病例信息,进行数据插补和基线分析,获取化疗后发生肝损伤的影响因素,获得模型指标;
建立预测模型:
基于获得的模型指标,筛出关键模型指标,建立化疗后肝、肾损伤或骨髓抑制发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=常数+m1x1+m2x2+m3x3+m4x4+m5x5+m6x6+m7x7+m8x8+mxn,其中x1,x2,x3,x4,x5,x6,x7,x8,为模型指标,m1-m8分别为模型指标的公式系数,xn是第n个模型指标,n≥8,m是第n个模型指标的公式系数。
一种方式,若纳入指标包含化疗方案,则选用培美曲塞+奈达铂时,α=0;
化疗方案选用+卡铂、+洛铂、+顺铂时,α取值不同。
一种方式,化疗后肝损伤发生风险预测模型的构建方法,其特征在于:具体步骤包括:
收集病例信息;
数据统计分析:
基于收集的病例信息,进行数据插补和基线分析,获取化疗后发生肝损伤的影响因素,获得模型指标;
建立预测模型:
基于获得的模型指标,筛出至少12个关键模型指标,建立化疗后肝损伤发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=3.334-0.048x1+αx2+0.952x3+1.517x4-1.209x5+1.252x6-0.88x7+0.855x8+0.851x9-0.713x10-0.003x11+0.013x12+mxn
其中x1为年龄值,x2为化疗方案关联值,x3为既往肝功能关联值,x4为化疗前使用维生素B12关联值,x5为化疗前使用血液系统药物关联值,x6为使用护胃药关联值,x7为使用止吐药关联值,x8为使用护肝药关联值,x9为使用免疫增强药物关联值,x10为化疗次数,x11为化疗前血小板水平值,x12为碱性磷酸酶水平值,xn是第n个模型指标,n≥13,m是第n个模型指标的公式系数。
一种方式,化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.431;
化疗方案选用洛铂时,α=-0.75;
化疗方案选用顺铂时,α=-1.141。
一种方式,数据插补的步骤是:
判断病例信息各指标的数据缺失程度:
指标的数据缺失>20%,删除该指标,
指标的数据缺失<20%,通过多重插补法对该指标进行数据补全。
一种方式,基线分析的步骤是:
分析病例信息各指标的数据类型:
为分类型数据时,判断判断病例信息各指标频数大小:
频数>5,采用卡方检验,
频数≤5,采用Fisher检验;
为连续性数据时,判断数据分布态势:
呈正态,采用方差分析,
呈非正态,采用秩和检验;
基于双侧检验法获得显著差异水平。
一种方式,还包括
验证预测模型,包括执行下述至少一个步骤:
基于关键模型指标,获得肝、肾损伤或骨髓抑制风险的ROC曲线,检测模型AUC,判断预测模型的准确性,
基于关键模型指标,进行列线图分析,根据患者数据获得每个模型指标的分值,计算总分值和每个模型指标对应的化疗后肝、肾损伤或骨髓抑制的发生概率,
基于关键模型指标,建立分曲散点图,判断预测模型的准确性。
一种方式,获取影响因素、模型指标的步骤是:
基于病例信息,将其拆分为信息集,信息集包括训练集和验证集,
对训练集进行单因素分析,确定化疗后发生肝、肾损伤或骨髓抑制的影响因素;
根据RF方法进行变量选择,对训练集进行若干折交叉验证,获得超参数的影响因素,每个超参数的影响因素对应一个模型指标。
一种方式,筛选关键模型指标的步骤是:
基于训练集的模型指标,建立随机决策森林,分析每个变量对分类树各节点观测值的异质性影响,获得所有模型指标的重要性排序;
根据排序结果筛选出参与建模的关键模型指标。
一种方式,基于训练集数据,根据ROC曲线图确定化疗后肝损伤发生概率的临界值;
根据筛选后的关键模型指标建立预测模型,计算化疗后肝、肾损伤和骨髓抑制的发生概率,并与临界值对比获得预测结果:
若概率>临界值时,预测化疗后发生不良反应(如肝、肾损伤或骨髓抑制);
若概率=临界值时,待估;
若概率<临界值时,预测化疗后不发生肝、肾损伤或骨髓抑制。
一种方式,根据预测结果和样本实际结果,分析训练集的预测模型数据性质:
基于验证集数据,验证训练集的模型指标,
基于验证集数据,分析验证集的预测模型数据性质,验证训练集的预测模型数据性质;
基于验证集数据建模,在训练集的ROC曲线图上添加验证集的ROC曲线图,判断预测模型的准确性;
优选的,数据性质包括准确率、误分率、敏感性、特异性、阳性预测值、阴性预测值中一种或多种;
优选的,根据ROC曲线图确定化疗后肝损伤发生概率的临界值。
一种方式,基于培美曲塞联合铂类化疗,研究分析化疗后发生肝、肾损伤或骨髓抑制的风险和概率。
培美曲塞化疗后肝损伤发生风险的预测模型,基于获得的模型指标,筛出至少12个关键模型指标,建立化疗后肝损伤发生风险预测模型公式,建立化疗后肝损伤发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=3.334-0.048x1+αx2+0.952x3+1.517x4-1.209x5+1.252x6-0.88x7+0.855x8+0.851x9-0.713x10-0.003x11+0.013x12+mxn
其中x1为年龄值,x2为化疗方案关联,x3为既往肝功能关联值,x4为化疗前使用维生素B12关联值,x5为化疗前使用血液系统药物关联值、x6为使用护胃药关联值、x7为使用止吐药关联值、x8为使用护肝药关联值、x9为使用免疫增强药物关联值,x10为化疗次数,x11为化疗前血小板水平值,x12为碱性磷酸酶水平值,xn是第n个模型指标,n≥13,m是第n个模型指标的公式系数;
化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.431;
化疗方案选用洛铂时,α=-0.75;
化疗方案选用顺铂时,α=-1.141。
培美曲塞化疗后肾损伤发生风险的预测模型,基于获得的模型指标,筛出至少9个关键模型指标,建立化疗后肾损伤发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=5.832+αx1-0.413x2-0.952x3+0.758x4-0.052x5-0.086x6+0.09x7-0.002x8-0.009x9+mxn
其中x1为化疗方案关联值,x2为肾损伤前使用维生素B12关联值,x3为化疗前使用止痛药物关联值,x4为化疗次数,x5为化疗前eGFR水平值,x6为化疗前白细胞水平值,x7为化疗前中心粒细胞水平值,x8为化疗前天门冬氨酸氨基酸转移酶水平值,x9为化疗前肌酐水平值,xn是第n个模型指标,n≥10,m是第n个模型指标的公式系数;
化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.382;
化疗方案选用洛铂时,α=-1.147;
化疗方案选用顺铂时,α=0.157。
培美曲塞化疗后骨髓抑制发生风险的预测模型,其特征在于:基于获得的模型指标,筛出至少10个关键模型指标,建立化疗后骨髓抑制发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=16.323+αx1+0.388x2+0.525x3-1.067x4-1.105x5+1.322x6-0.063x7-0.003x8+0.002x9-0.06x10+mxn
其中x1为化疗方案关联值,x2为肝功能关联值,x3为骨髓抑制前使用维生素B12关联值,x4为骨髓抑制前使用血液用药关联值,x5为骨髓抑制前使用止痛药关联值,x6为骨髓抑制前就诊次数,x7为化疗前血红蛋白水平值,x8为化疗前血小板水平值,x9为化疗前碱性磷酸酶水平值,x10为化疗前钠水平值,xn是第n个模型指标,n≥11,m是第n个模型指标的公式系数;
化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.171;
化疗方案选用洛铂时,α=-0.029;
化疗方案选用顺铂时,α=0.454。
本发明的有益效果是:
1.根据历史临床数据,科学、合理地建立预测模型,为患者采用培美曲塞联合铂类化疗提供理论和实践参考,准确度更高;
2.针对化疗后的不良反应采取预防性干预措施,选择合适的化疗方案;
3.风险评估后选择的化疗方案可以有效减少不良反应的发生,有利于病人的身体健康,也在一定程度上减少不良反应风险带来的经济负担。
附图说明
图1为本发明中肝损伤预测模型指标重要性的决策树图;
图2为本发明中肝损伤预测模型的训练集和验证集ROC曲线图;
图3为本发明中肝损伤预测模型的列线图;
图4为本发明中肝损伤预测模型的分区散点图;
图5为本发明中肾损伤预测模型指标重要性的决策树图;
图6为本发明中肾损伤预测模型的训练集和验证集ROC曲线图;
图7为本发明中肾损伤预测模型的列线图;
图8为本发明中肾损伤预测模型的分区散点图;
图9为本发明中骨髓抑制预测模型指标重要性的决策树图;
图10为本发明中骨髓抑制预测模型的训练集和验证集ROC曲线图;
图11为本发明中骨髓抑制预测模型的列线图;
图12为本发明中骨髓抑制预测模型的分区散点图。
具体实施方式
下面结合附图对本发明进行进一步说明:
培美曲塞化疗后肝损伤发生风险预测模型的构建方法,具体步骤包括:
收集病例信息;
数据统计分析:
基于收集的病例信息,进行数据插补和基线分析,获取化疗后发生肝损伤的影响因素,获得模型指标;
建立预测模型:
基于获得的模型指标,筛出关键模型指标,建立化疗后肝、肾损伤或骨髓抑制发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=常数+m1x1+m2x2+m3x3+m4x4+m5x5+m6x6+m7x7+m8x8+mxn,其中x1,x2,x3,x4,x5,x6,x7,x8,为模型指标,m1-m8分别为模型指标的公式系数,xn是第n个模型指标,n≥8,m是第n个模型指标的公式系数。
进一步的,若纳入指标包含化疗方案,则选用培美曲塞+奈达铂时,α=0;
化疗方案选用+卡铂、+洛铂、+顺铂时,α取值不同。
进一步的,化疗后肝损伤发生风险预测模型的构建方法,其特征在于:具体步骤包括:
收集病例信息;
数据统计分析:
基于收集的病例信息,进行数据插补和基线分析,获取化疗后发生肝损伤的影响因素,获得模型指标;
建立预测模型:
基于获得的模型指标,筛出至少12个关键模型指标,建立化疗后肝损伤发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=3.334-0.048x1+αx2+0.952x3+1.517x4-1.209x5+1.252x6-0.88x7+0.855x8+0.851x9-0.713x10-0.003x11+0.013x12+mxn
其中x1为年龄值,x2为化疗方案关联值,x3为既往肝功能关联值,x4为化疗前使用维生素B12关联值,x5为化疗前使用血液系统药物关联值,x6为使用护胃药关联值,x7为使用止吐药关联值,x8为使用护肝药关联值,x9为使用免疫增强药物关联值,x10为化疗次数,x11为化疗前血小板水平值,x12为碱性磷酸酶水平值,xn是第n个模型指标,n≥13,m是第n个模型指标的公式系数。
化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.431;
化疗方案选用洛铂时,α=-0.75;
化疗方案选用顺铂时,α=-1.141。
进一步的,数据插补的步骤是:
判断病例信息各指标的数据缺失程度:
指标的数据缺失>20%,删除该指标,
指标的数据缺失<20%,通过多重插补法对该指标进行数据补全。
进一步的,基线分析的步骤是:
分析病例信息各指标的数据类型:
为分类型数据时,判断判断病例信息各指标频数大小:
频数>5,采用卡方检验,
频数≤5,采用Fisher检验;
为连续性数据时,判断数据分布态势:
呈正态,采用方差分析,
呈非正态,采用秩和检验;
基于双侧检验法获得显著差异水平。
进一步的,还包括
验证预测模型,包括执行下述至少一个步骤:
基于关键模型指标,获得肝、肾损伤或骨髓抑制风险的ROC曲线,检测模型AUC,判断预测模型的准确性,
基于关键模型指标,进行列线图分析,根据患者数据获得每个模型指标的分值,计算总分值和每个模型指标对应的化疗后肝、肾损伤或骨髓抑制的发生概率,
基于关键模型指标,建立分曲散点图,判断预测模型的准确性。
进一步的,获取影响因素、模型指标的步骤是:
基于病例信息,将其拆分为信息集,信息集包括训练集和验证集,
对训练集进行单因素分析,确定化疗后发生肝、肾损伤或骨髓抑制的影响因素;
根据RF方法进行变量选择,对训练集进行若干折交叉验证,获得超参数的影响因素,每个超参数的影响因素对应一个模型指标。
进一步的,筛选关键模型指标的步骤是:
基于训练集的模型指标,建立随机决策森林,分析每个变量对分类树各节点观测值的异质性影响,获得所有模型指标的重要性排序;
根据排序结果筛选出参与建模的关键模型指标。
进一步的,基于训练集数据,根据ROC曲线图确定化疗后肝损伤发生概率的临界值;
根据筛选后的关键模型指标建立预测模型,计算化疗后肝、肾损伤和骨髓抑制的发生概率,并与临界值对比获得预测结果:
若概率>临界值时,预测化疗后发生不良反应(如肝、肾损伤或骨髓抑制);
若概率=临界值时,待估;
若概率<临界值时,预测化疗后不发生肝、肾损伤或骨髓抑制。
进一步的,根据预测结果和样本实际结果,分析训练集的预测模型数据性质:
基于验证集数据,验证训练集的模型指标,
基于验证集数据,分析验证集的预测模型数据性质,验证训练集的预测模型数据性质;
基于验证集数据建模,在训练集的ROC曲线图上添加验证集的ROC曲线图,判断预测模型的准确性;
优选的,数据性质包括准确率、误分率、敏感性、特异性、阳性预测值、阴性预测值中一种或多种;
优选的,根据ROC曲线图确定化疗后肝损伤发生概率的临界值。
进一步的,基于培美曲塞联合铂类化疗,研究分析化疗后发生肝、肾损伤或骨髓抑制的风险和概率。
培美曲塞化疗后肝损伤发生风险的预测模型,基于获得的模型指标,筛出至少12个关键模型指标,建立化疗后肝损伤发生风险预测模型公式,建立化疗后肝损伤发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=3.334-0.048x1+αx2+0.952x3+1.517x4-1.209x5+1.252x6-0.88x7+0.855x8+0.851x9-0.713x10-0.003x11+0.013x12+mxn
其中x1为年龄值,x2为化疗方案关联,x3为既往肝功能关联值,x4为化疗前使用维生素B12关联值,x5为化疗前使用血液系统药物关联值、x6为使用护胃药关联值、x7为使用止吐药关联值、x8为使用护肝药关联值、x9为使用免疫增强药物关联值,x10为化疗次数,x11为化疗前血小板水平值,x12为碱性磷酸酶水平值,xn是第n个模型指标,n≥13,m是第n个模型指标的公式系数;
化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.431;
化疗方案选用洛铂时,α=-0.75;
化疗方案选用顺铂时,α=-1.141。
培美曲塞化疗后肾损伤发生风险的预测模型,基于获得的模型指标,筛出至少9个关键模型指标,建立化疗后肾损伤发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=5.832+αx1-0.413x2-0.952x3+0.758x4-0.052x5-0.086x6+0.09x7-0.002x8-0.009x9+mxn
其中x1为化疗方案关联值,x2为肾损伤前使用维生素B12关联值,x3为化疗前使用止痛药物关联值,x4为化疗次数,x5为化疗前eGFR水平值,x6为化疗前白细胞水平值,x7为化疗前中心粒细胞水平值,x8为化疗前天门冬氨酸氨基酸转移酶水平值,x9为化疗前肌酐水平值,xn是第n个模型指标,n≥10,m是第n个模型指标的公式系数;
化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.382;
化疗方案选用洛铂时,α=-1.147;
化疗方案选用顺铂时,α=0.157。
培美曲塞化疗后骨髓抑制发生风险的预测模型,基于获得的模型指标,筛出至少10个关键模型指标,建立化疗后骨髓抑制发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=16.323+αx1+0.388x2+0.525x3-1.067x4-1.105x5+1.322x6-0.063x7-0.003x8+0.002x9-0.06x10+mxn
其中x1为化疗方案关联值,x2为肝功能关联值,x3为骨髓抑制前使用维生素B12关联值,x4为骨髓抑制前使用血液用药关联值,x5为骨髓抑制前使用止痛药关联值,x6为骨髓抑制前就诊次数,x7为化疗前血红蛋白水平值,x8为化疗前血小板水平值,x9为化疗前碱性磷酸酶水平值,x10为化疗前钠水平值,xn是第n个模型指标,n≥11,m是第n个模型指标的公式系数;
化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.171;
化疗方案选用洛铂时,α=-0.029;
化疗方案选用顺铂时,α=0.454。
培美曲塞化疗后肾损伤发生风险的预测模型、培美曲塞化疗后骨髓抑制发生风险的预测模型的构建方法与培美曲塞化疗后肝损伤发生风险的预测模型构建方法相同,主要区别在于各种建模指标的不同,相互间构建方案存在可参考性,不多加赘述。
实施例1:
培美曲塞化疗后肝损伤发生风险预测模型及其构建方法,主要通过收集历史临床资料,进行分析,采用多因素Logistic回归分析确定独立危险因素,根据初步分析结果,将全变量纳入模型后,向前、向后逐步回归,得到的模型再筛去对化疗后肝损伤发生影响不显著或较小的指标,最终得到12个模型指标最终确立预测模型。
具体步骤包括:
①临床病例信息的收集:
收集可查溯的、某一时间段内的新确诊肺癌患者数据,每个患者须由至少两名的专科医师或病理专家确定病情。
步骤①首先采用回顾性队列研究方法,根据纳入和排除标准进行筛选:
1.纳入标准如下:
a.为新确诊的原发性非小细胞肺癌;
b.采用了培美曲塞联合铂类化疗方案;
c.患者年龄≥18岁,男女不限;
d.化疗前未曾放化疗或使用靶向制剂。
必须满足上述所有的纳入标准才能作为纳入对象,被纳入到数据库内。
2.排除标准如下:
a.为转移癌或合并其他肿瘤,即非原发性肺癌;
b.化疗<2个周期;
c.采用培美曲塞化疗前已行放疗或其他化疗。
满足以上任一一条标准,该患者的病历信息都不能被纳入病历数据库。
步骤①接下来将纳入的病历信息逐项提取如下信息:
1.人口学基本信息:
包括患者姓名、患者性别、患者年龄、所属种族、患者身高、患者体重、患者体表面积以及患者是否有吸烟史。
2.疾病及诊断:
a.合并疾病,即诊断是否是因为肿瘤而引起的合并症,包括慢性阻塞性肺疾病、糖尿病、高血压、高血脂、肝功能不全、肾功能不全。
b.肿瘤分级,按照一定标准进行分级,标准如下:
化疗后不发生肝损伤的0级:患者对暴露药物可耐受,无肝毒性反应;
化疗后发生轻度肝损伤的1级:血清ALT和/或ALP升高(高于基准值),TBil<2.5ULN(2.5mg/dL或42.75μmol/L),且INR<1.5;
化疗后发生中度肝损伤的2级:血清ALT和/或ALP升高,TBil≥2.5ULN或INR≥1.5;
化疗后发生重度肝损伤的3级:血清ALT和/或ALP升高,TBil≥5ULN(5mg/dL或85.5μmol/L);
急性肝衰竭ALF的4级:血清ALT和/或ALP水平升高,TBil≥10ULN(10mg/dL或171μmol/L)或INR≥2.0或PTA<40%,可同时出现DILI相关的其他器官功能衰竭以及腹水或肝性脑中的一种;
致命的5级:因DILI死亡,或需接受肝移植才能存活。
3.化疗药物信息:
a.培美曲塞和铂类的化疗药物暴露量;
b.共进行培美曲塞化疗的周期次数,及停止培美曲塞联合铂类化疗的原因。
4.合并用药情况:
a.是否预先使用叶酸制剂(如叶酸、复合维生素)和维生素B12
b.是否使用合并血液系统用药,例如粒细胞刺激生长因子注射液;
c.是否使用镇痛药物:例如非甾体抗炎药(如乙酰氨基酚、阿司匹林、布洛芬、双氯芬酸、酮洛芬、萘普生)和阿片类(如吗啡、羟考酮、芬太尼、丁丙诺啡);
d.是否使用抗生素,例如青霉素类(如阿莫西林、氟氯西林)、头孢类(如头孢孟多、头孢唑林、头孢西酮、头孢呋辛、头孢他啶、头孢唑肟、头孢吡肟、头孢地尼、头孢曲松、头孢克洛、头孢曲松钠他唑巴坦、头孢哌酮舒巴坦、头孢哌酮他唑巴坦)、氨基糖苷类(如阿米卡星、庆大霉素)、氟喹诺酮类(如左氧氟沙星、环丙沙星、莫西沙星)、碳青霉烯类(如亚胺培南、美罗培南)、达托霉素和利奈唑胺;
e.是否使用护胃药:例如奥美拉唑、艾司奥美拉唑、雷贝拉唑、泮托拉唑、兰索拉唑、艾普拉唑;
f.是否使用止吐药:例如氯丙嗪、异丙嗪、昂丹司琼、多拉司琼、阿扎司琼、帕洛诺司琼、托烷司琼、甲氧氯普胺、丁溴东莨菪碱;
g.是否使用护肝药:例如熊去氧胆酸、甲硫氨酸维生素B1、还原性谷胱甘肽、异甘草酸镁、乙酰半胱氨酸、门冬氨酸鸟氨酸、舒肝宁、精氨酸谷氨酸、复方二氯醋酸二异丙胺;
h.是否使用免疫增强药:例如胸腺五肽、香菇多糖、核糖核酸、小牛脾提取物、胎盘多肽、脾氨肽、胸腺肽α1、脱氧核苷酸、甘露聚糖肽、胸腺肽。
5.基线指标,如血常规、肝肾功能、电解质、国际标准化比值INR。
6.最后总结病历信息的纳入结果:
首先录入肺癌患者总人数23805人,然后经过筛选,使用培美曲塞联合四种铂类化疗方案患者2661人,其中有肝功能结局指标者2618人,这2618人中有部分人群指标严重缺失,例如总共录入一年份的数据,其中共计三个月或三个月以上的数据缺失,故在有肝功能结局指标者的2618人中,筛去指标缺失>20%的人群后,最终留下指标数据较完整的纳入人数2471人,其中男性1483人,女性988人。
因此建立预测模型的有效对象最终为2471人。
②数据统计分析:
1.数据插补:
将步骤①得到的2471人的病例信息进行插补,先判断病例信息各指标的数据缺失程度,对其中数据缺失>20%的指标直接删除,而数据缺失<20%的指标则通过多重插补法进行数据补全。
多重插补法是指包含k个插补值的向量代替每一个缺失值的过程,k>20。多重插补法是基于单一插补衍生而来。
数据插补的过程具体可以理解,假设当前2471人的身高指标中,有495人及以上人数的身高指标数据缺失,则将身高这一指标全部删除,即2471人的数据均不带有身高指标数据;有494人及以下人数的身高指标缺失,则对其中一个身高指标缺失的人填入k个假设的身高数据,最终得到此人的k个完全数据集,然后对每个完全数据集采用相同的数据分析方法进行处理,得到k个处理结果,然后综合这些处理结果,基于某种原则,得到最终的估计值,最后依次填充插补所有人的身高数据,实现完善。
举例说明,男性张三的其中一个身高预估值为1.75m,其父亲身高为1.65m,其母亲身高为1.58m,从遗传学角度分析,张三的身高预估值不可靠,当前预估值应当忽略。依次对其他预估值进行数据分析,最后张三所有被认为可靠的身高预估值,基于全国男性平均身高,取最接近全国男性平均身高的预估值,作为张三的最终预估身高。上述仅是为了方便理解多重插补法原理进行的假设,而不是对多重插补法的限制。
需要注意的是在步骤①中筛去的是肝功能结局指标数据缺失>20%的人群;
步骤②中是对筛选后的人群,除肝功能结局指标外的其他指标,数据缺失>20%的进行删除,数据缺失<20%的进行补全。
2.基线分析:
首先分析病历信息各指标的数据类型:
a.为分类型数据
频数>5,采用卡方检验,
频数≤5,采用Fisher检验;
b.为连续性数据
数据呈正态,采用方差分析,
数据呈非正态,采用秩和检验;
最后采用双侧检验法进行验证,验证后的显著水平为0.05。
其中,卡方检验是指统计样本的实际观测值与理论推断值之间的偏离程度,即实际记载的数值与推测的数值之间的偏离程度就决定卡方值的大小,卡方值越大,偏离程度越大,数据可靠性越低;卡方值越小,偏离程度越小,数据可靠性越高;卡方值最优为0,代表预估与实际数值完全符合。卡方检验一般为R×C的形式,将某一指标分类成多种类型,另一指标分类成多种类型,比较两种指标的多种分类类型之间的关系。
实际频数<5采用Fisher检验是通用的一种二次检验手段,实际频数≤5代表卡方值≤5,说明实际与理论的数值差距不明显,为了进一步确保数值的准确度,追加进行Fisher检验。Fisher检验一般为2×2联表的形式,检验某个指标与另一指标的关联度或相关性。实际频数如有≤5或2*2列联表的总频数<40时,则采用Fisher精确检验。Fisher检验在SPSS、STATA、SAS等软件上都可以轻松实现。
标准正态分布是指密度函数关于平均值对称,非正态则是密度函数带有很明显的偏向,方差分析和秩和检验均为常用手段方法,不作赘述。
验证后水平为0.05则代表插补的数值较为合理、准确,至此数据补全结束。
3.影响培美曲塞联合铂类化疗后发生肝损伤风险的单因素分析:
将病历信息的数据集按照3:1随机拆分为训练集和验证集,这里拆分的标准是以患者姓名或编号为单位个体,数据集是若干个单位个体组成的集合,对这个集合按3:1随机拆分,每个单位个体包含有若干个不同类型的指标。
举例说明,严二、张三、李四、王五四人,代表四个单位个体,每个单位个体包括年龄、身高、体重等不同类型的指标,所有人的年龄、身高、体重等不同类型的指标以及对应的姓名组成了病例信息的数据集,将数据集按比例拆分成训练集:严二、张三、李四;验证集:王五。最终训练集包括三个人的姓名以及三个人的各个指标;验证集包括王五的姓名和王五的各个指标。
筛选出影响肝功能的所有因素单独对比,得到若干模型指标,每个模型指标对应一个影响因素。
其中,根据实际情况发现,年龄是化疗后发生肝损伤的重要影响因素,训练集的年龄中位数是59岁,单例中的患者随年龄增长,化疗后发生肝损伤的风险不断增加;
不同化疗方案中,培美曲塞联合铂类化疗的肝损伤发生风险最低;
既往肝功能不全,进行化疗后肝损伤的风险显著增加;
尤其是化疗前碱性磷酸酶的水平及化疗次数,对化疗后肝损伤的发生风险影响最大,初步筛选出几个关键模型指标。
4.交叉验证指标筛选:
为优化有效的变量数,通过RF方法使用不同的特征子集进行变量选择,对训练集做10折交叉验证,确定超参数的模型指标个数,即通过训练集分析获得12个关键模型指标;
这12个关键模型指标包括年龄,化疗方案,既往肝功能不全,化疗前使用维生素B12,化疗前使用血液系统药物、使用护胃药、止吐药、护肝药、免疫增强药物,化疗次数,化疗前血小板及碱性磷酸酶水平;
代入验证集验证12个关键模型指标确实对化疗后肝损伤的发生具有明显的影响作用;
一般采用4-15个指标建模时,交叉验证错误率处于较低的水平,本预测模型中参与建模的模型指标为12个,即关键模型指标为12个,因此交叉验证错误率较低。
5.指标重要性排序:
如图1所示,训练集中,对参与建模的12个关键模型指标排序,建立随机决策森林,计算每个变量对分类树每个节点上观测值的异质性影响,从而比较重要性;
其重要性由大到小依次排序为化疗次数,化疗前的碱性磷酸酶水平,是否使用维生素B12,化疗前血小板水平,年龄,是否使用护胃药、护肝药及化疗方案,化疗方案,是否使用止吐药,是否使用免疫增强药,既往肝功能,化疗前使用血液系统药物。
6.建立预测模型:
对肺癌患者培美曲塞联合铂类化疗后肝损伤发生风险预测模型的12个关键模型指标,其中化疗方案单独做三个对比项,以培美曲塞+奈达铂为基准项:
化疗方案1是培美曲塞+卡铂的用药;
化疗方案2是培美曲塞+洛铂的用药;
化疗方案3是培美曲塞+顺铂的用药;
总结,得到下表(表1):
根据表1的数据建立模型,建立的培美曲塞联合铂类化疗后肝损伤发生风险预测模型公式如下
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=3.334-0.048x1+αx2+0.952x3+1.517x4-1.209x5+1.252x6-0.88x7+0.855x8+0.851x9-0.713x10-0.003x11+0.013x12
其中x1为年龄值,x2为化疗方案关联,x3为既往肝功能关联值,x4为化疗前使用维生素B12关联值,x5为化疗前使用血液系统药物关联值,x6为使用护胃药关联值,x7为使用止吐药关联值,x8为使用护肝药关联值,x9为使用免疫增强药物关联值,x10为化疗次数,x11为化疗前血小板水平值,x12为碱性磷酸酶水平值;
其中,x3-x9取值为0或1,使用对应药物或肝功能不全取值1,未使用对应药物或肝功能正常取0;
其中,化疗方案选用奈达铂时,α=0;
化疗选用卡铂时,α=-0.431;
化疗选用洛铂时,α=-0.75;
化疗选用顺铂时,α=-1.141。
基于训练集的数据进行建模,得到如图2所示的肺癌患者使用培美曲塞联合不同铂类化疗后发生肝损伤风险的ROC曲线,
训练集的模型AUC=0.91(0.897-0.924),表明训练集的模型建立良好。
7.建立风险预测模型的列线图:
建立如图3所示的风险预测模型的列线图,并对筛选的12个关键模型指标进行列线图分析,根据采集的患者信息数据分别得到每个变量的分值,计算总分值,从而得到每个变量对应的化疗后肝损伤发生概率。
8.建立分曲散点图:
基于训练集数据,根据ROC曲线图确定化疗后肝损伤发生概率的临界值为0.628;
利用12个指标建立预测模型,将训练集数据代入预测模型公式,计算化疗后肝损伤的发生概率:
当概率>0.628时,预测化疗后发生肝损伤;
当概率=0.628时,在一些实施例中需要其他的临床数据进行判断,在一种具体的方式中,概率等于0.628时则预测化疗后发生肝损伤,具体的预测根据实际情况判断;
当概率<0.628时,预测化疗后不发生肝损伤;
首先判定预测是否准确,准确的为一类,不准确的为另一类,分出的两类中再根据是否发生肝损伤进一步分类。
即根据散点情况将病人分为四类:
A类,代表假阴性,预测化疗后不发生肝损伤但实际化疗后发生肝损伤的患者;
B类,代表真阳性,预测化疗后发生肝损伤且实际化疗后发生肝损伤的患者;
C类,真阴性,预测化疗后不发生肝损伤且实际化疗后发生肝损伤的患者;
D类,假阳性,预测化疗后发生肝损伤但实际化疗后未发生肝损伤的患者;
其中,B类和C类代表预测正确,A类和D类代表预测错误,A类和B类代表化疗后发生肝损伤,C类和D类代表化疗后未发生肝损伤。
由此总结出训练集的准确率、误分率、敏感性、特异性、阳性预测值、阴性预测值等,对模型预测情况评估。
如图4所示,训练集的准确率为82.48%,误分类率为17.52%,敏感性为81.02%,特异性为84.55%,阳性预测值为88.22%,阴性预测值为75.72%,进一步判定模型总体准确性良好。
9.通过验证集检验训练集的结论,最终通过模型给出预测概率:
基于验证集的数据,首先验证化疗后发生肝损伤的重要影响因素,并与代入训练集的结论比对,无明显区别,即确定验证集的12个关键模型指标与训练集的12个关键模型指标一致,每个关键模型指标的显著性水平基本相同;
然后建立验证集的分区散点图,按照化疗后肝损伤发生概率的临界值为0.628进行分类,总结验证集的准确率、误分率、敏感性、特异性、阳性预测值、阴性预测值等,并与训练集的数据比对,
训练集和验证集的数值对比具体如下表(表2):
验证集的准确率为82.35%,误分类率为17.65%,敏感性为81.94%,特异性为83.03%,阳性预测值为89.02%,阴性预测值为73.25%,对比训练集的相关数值,无明显区别;
最后基于验证集的数据进行建模,在训练集ROC曲线图上添加验证集的ROC曲线图,得到验证集的ROC曲线;
验证集的模型AUC=0.905(0.883-0.926),化疗后肝损伤发生概率的临界值为为0.657,对比训练集和验证集的ROC曲线,无明显区别;
根据三次比对的情况,最终判断模型的准确度较高,适合进行推广。
最后,当有新的确诊患者时,输入(分类指标时,选择特定水平)12个肝损伤模型指标的数据,代入预测模型公式,计算肝损伤发生概率,因为训练集ROC曲线最大AUC时概率为0.628,则预测发生肝损伤概率的分界线为0.628,因此以0.628为发生肝损伤概率的分界线:
概率>0.628,预测化疗后发生肝损伤;
概率=0.628,在一些实施例中需要其他的临床数据进行判断,在一种具体的方式中,概率等于0.628时则预测化疗后发生肝损伤,具体的预测根据实际情况判断;
概率<0.628,预测化疗后不发生肝损伤。
基于预测的结果,选择合适的化疗方案,新化疗患者可在化疗前根据其个人信息、拟用药信息及生理生化指标,评估其发生化疗后肝损伤的发生风险,为临床治疗方案决策、早期措施干预提供决策依据。
需要说明的是:模型指标是指所有可以影响化疗后肝损伤发生概率的因素;
关键模型指标是指所有影响化疗后肝损伤发生概率的因素中,具有明显影响性的关键因素;
理论上关键模型指标是包含在模型指标内的。
除此以外,本实施例中提到的变量,代表所有患者对应的某一项模型指标或关键模型指标的数值,因为患者的选取不同,形成变量。
实施例2
培美曲塞化疗后肾损伤发生风险预测模型及其构建方法,相关步骤可参考实施例1,本实施例2主要叙述与实施例1的不同之处。通过病历资料收集,采用回顾性研究方法,建立肺癌患者临床研究数据库,提取患者基本情况、化疗药物,以及相关的检验检查指标,根据eGFR分级统计发生肾损伤与未发生肾损伤的差异。应用R语言软件统计分析,采用单因素及多因素Logistic回归分析,确定使用培美曲塞化疗肺癌患者发生肾损伤的独立危险因素,并建立风险预测模型,为临床尽早采取干预措施或选择合适的化疗方案,降低不良反应的发生率提供指导。
1.信息收集:
纳入已有肺癌患者病例23805例,筛选出使用培美曲塞+顺铂/卡铂/奈达铂/洛铂方案治疗患者2661例,排除肾损伤评价指标缺失和筛选指标缺失超过35%人群,最后纳入2507例。
2.数据插补:
对于数据缺失>20%的指标删除,缺失<20%的进行数据多重插补。
3.基线分析:
分类型数据采用卡方检验,如果有频数≤5则采用Fisher检验;连续性数据如果正态则为方差分析;连续性数据如果非正态则采用秩和检验;双侧检验,显著水平为0.05。
4.单因素分析:
数据集按照3:1随机拆分为训练集和验证集,并分别做单因素分析。
5.交叉验证指标筛选:
对训练集做10折交叉验证,确定超参数-建模指标个数;当采用4-15个指标建模时,交叉验证错误率都处在较低水平。
6.建立预测模型:
全变量纳入模型后,向前向后逐步回归,得到的模型再去除不显著且对预测结果影响小的指标,得到最终的模型,基于获得的模型指标,筛出至少9个关键模型指标,建立化疗后肾损伤发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=5.832+αx1-0.413x2-0.952x3+0.758x4-0.052x5-0.086x6+0.09x7-0.002x8-0.009x9
其中x1为化疗方案关联值,x2为肾损伤前使用维生素B12关联值,x3为化疗前使用止痛药物关联值,x4为化疗次数,x5为化疗前eGFR水平值,x6为化疗前白细胞水平值,x7为化疗前中心粒细胞水平值,x8为化疗前天门冬氨酸氨基酸转移酶水平值,x9为化疗前肌酐水平值;
其中,x2-x3取值为0或1,具体为使用对应药物取值1,未使用对应药物取0;
x1、x4-x9取具体指标数值;
化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.382;
化疗方案选用洛铂时,α=-1.147;
化疗方案选用顺铂时,α=0.157;
包含指标有:化疗方案,肾损伤前维生素B12,引起肾损伤的止痛药物,化疗次数,化疗前eGFR,白细胞,中性粒细胞,天门冬氨酸氨基转移酶,肌酐值。
使用培美曲塞化疗肺癌患者发生肾损伤预测模型的多因素分析,具体数值如下表(表3)所示:
7.指标重要性排序:
训练集中,对参与建模的指标排序。
如图5和图7所示,eGFR在建模中最重要,其次为血肌酐值,中性粒细胞数,白细胞数,天门冬氨酸氨基转移酶,化疗次数,化疗方案,维生素B12,合用止痛药物。
8.训练集ROC:
如图6所示,对模型画ROC曲线,AUC=0.844(0.825-0.863)。
9.验证集ROC
如图6所示,在训练集模型评价ROC基础上,添加验证集的ROC;
其AUC=0.858(0.832-0.884),测试集和验证集ROC两者没有显著差异(p=0.403)。
10.分区散点图,如图8所示。
11.训练集和验证集的人群,模型给出预测概率见下表(表4):
当P值<0.698时,预测不发生肾损伤,当P>0.698时,预测发生肾损伤。该预测模型的准确率为76.1%,误分类率为23.9%,敏感性为73.6%,特异性为81.3%,阳性预测值为89%,阴性预测值为60%,该模型总体准确性良好。
实施例3
培美曲塞化疗后骨髓抑制发生风险预测模型及其构建方法,相关步骤可参考实施例1,本实施例3主要叙述与实施例1的不同之处。通过病历资料收集,采用回顾性研究方法,建立肺癌患者临床研究数据库,提取患者基本情况、化疗药物,以及相关的检验检查指标。应用R语言软件统计分析,采用单因素及多因素Logistic回归分析,确定使用培美曲塞化疗肺癌患者发生骨髓抑制的独立危险因素,并建立风险预测模型,为临床尽早采取干预措施或选择合适的化疗方案,降低不良反应的发生率提供指导。骨髓抑制判断标准:白细胞<4×109g/L,中性粒细胞<2×109g/L,血小板<100×109g/L,血红蛋白<110g/L,四者出现其一,即判定为发生骨髓抑制。
1.信息收集:
纳入已有肺癌患者病例,筛选出使用培美曲塞+顺铂/卡铂/奈达铂/洛铂方案治疗患者2661例,排除肾损伤评价指标缺失和筛选指标缺失超过35%人群,最后纳入2507例。
2.数据插补:
对于数据缺失>20%的指标删除,缺失<20%的进行数据多重插补。
3.基线分析:
分类型数据采用卡方检验,如果有频数≤5则采用Fisher检验;连续性数据如果正态则为方差分析;连续性数据如果非正态则采用秩和检验;双侧检验,显著水平为0.05。
4.单因素分析:
数据集按照3:1随机拆分为训练集和验证集,并分别做单因素分析。
5.交叉验证指标筛选:
对训练集做10折交叉验证,确定超参数-建模指标个数;当采用4-15个指标建模时,交叉验证错误率都处在较低水平。
6.建立预测模型:
全变量纳入模型后,向前向后逐步回归,得到的模型再去除不显著且对预测结果影响小的指标,得到最终的模型,基于获得的模型指标,筛出至少10个关键模型指标,建立化疗后骨髓抑制发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=16.323+αx1+0.388x2+0.525x3-1.067x4-1.105x5+1.322x6-0.063x7-0.003x8+0.002x9-0.06x10
其中x1为化疗方案关联值,x2为肝功能关联值,x3为骨髓抑制前使用维生素B12关联值,x4为骨髓抑制前使用血液用药关联值,x5为骨髓抑制前使用止痛药关联值,x6为骨髓抑制前就诊次数,x7为化疗前血红蛋白水平值,x8为化疗前血小板水平值,x9为化疗前碱性磷酸酶水平值,x10为化疗前钠水平值;
其中,x2-x5取值为0或1,具体为使用对应药物或肝功能不全取值1,未使用对应药物或肝功能正常取0;
x1、x6-x10取具体指标数值;
化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.171;
化疗方案选用洛铂时,α=-0.029;
化疗方案选用顺铂时,α=0.454。
包括指标:化疗方案,肝功能不全,骨髓抑制前维生素B12,骨髓抑制前血液用药,骨髓抑制止吐药,骨髓抑制前就诊次数,化疗前血红蛋白,化疗前血小板,化疗前碱性磷酸酶,化疗前钠。
使用培美曲塞化疗肺癌患者发生骨髓抑制预测模型的多因素分析,具体数值如下表(表5)所示:
7.指标重要性排序:
如图9和图11所示,训练集中,对参与建模的指标排序。骨髓抑制前就诊次数在建模中最重要,其次为化疗前血红蛋白,化疗前血小板,化疗前碱性磷酸酶,骨髓抑制前维生素B12,化疗前钠,骨髓抑制止吐药,化疗方案,肝功能不全,骨髓抑制前血液用药。
8.训练集ROC:
如图10所示,对模型画ROC曲线,AUC=0.91(0.895-0.925)
9.验证集ROC:
如图10所示,在训练集模型评价ROC基础上,添加验证集的ROC,,AUC=0.907(0.885-0.93),测试集和验证集ROC两者没有显著差异(p=0.839)
10.分区散点图,如图12所示。
11.训练集和验证集的人群,模型给出预测概率见下表(表6):
当P值<0.615时,预测不发生骨髓抑制,当P>0.615时,预测发生骨髓抑制。该预测模型的准确率为83.5%,误分类率为16.5%,敏感性为83.6%,特异性为83.3%,阳性预测值为90.2%,阴性预测值为73.4%,该模型总体准确性良好。
本领域的技术人员可以明确,在不脱离本发明的总体精神以及构思的情形下,可以做出对于以上实施例的各种变型。其均落入本发明的保护范围之内。本发明的保护方案以本发明所附的权利要求书为准。

Claims (12)

1.培美曲塞化疗后肝损伤发生风险预测模型的构建方法,其特征在于:具体步骤包括:
收集病例信息;
数据统计分析:
基于收集的病例信息,进行数据插补和基线分析,获取化疗后发生肝损伤的影响因素,获得模型指标;
建立预测模型:
基于获得的模型指标,筛出至少12个关键模型指标,建立化疗后肝损伤发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=3.334-0.048x1+αx2+0.952x3+1.517x4-1.209x5+1.252x6-0.88x7+0.855x8+0.851x9
-0.713x10-0.003x11+0.013x12+mxn
其中x1为年龄值,x2为化疗方案关联值,x3为既往肝功能关联值,x4为化疗前使用维生素B12关联值,x5为化疗前使用血液系统药物关联值,x6为使用护胃药关联值,x7为使用止吐药关联值,x8为使用护肝药关联值,x9为使用免疫增强药物关联值,x10为化疗次数,x11为化疗前血小板水平值,x12为碱性磷酸酶水平值,xn是第n个模型指标,n≥13,m是第n个模型指标的公式系数;
其中,化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.431;
化疗方案选用洛铂时,α=-0.75;
化疗方案选用顺铂时,α=-1.141。
2.根据权利要求1所述的构建方法,其特征在于:数据插补的步骤是:
判断病例信息各指标的数据缺失程度:
指标的数据缺失>20%,删除该指标,
指标的数据缺失<20%,通过多重插补法对该指标进行数据补全。
3.根据权利要求1所述的构建方法,其特征在于:基线分析的步骤是:
分析病例信息各指标的数据类型:
为分类型数据时,判断判断病例信息各指标频数大小:
频数>5,采用卡方检验,
频数≤5,采用Fisher检验;
为连续性数据时,判断数据分布态势:
呈正态,采用方差分析,
呈非正态,采用秩和检验;
基于双侧检验法获得显著差异水平。
4.根据权利要求1所述的构建方法,其特征在于:还包括
验证预测模型,包括执行下述至少一个步骤:
基于关键模型指标,获得肝损伤风险的ROC曲线,检测模型AUC,判断预测模型的准确性,
基于关键模型指标,进行列线图分析,根据患者数据获得每个模型指标的分值,计算总分值和每个模型指标对应的化疗后肝损伤的发生概率,
基于关键模型指标,建立分曲散点图,判断预测模型的准确性。
5.根据权利要求4所述的构建方法,其特征在于:获取影响因素、模型指标的步骤是:
基于病例信息,将其拆分为信息集,信息集包括训练集和验证集,
对训练集进行单因素分析,确定化疗后发生肝损伤的影响因素;
根据RF方法进行变量选择,对训练集进行若干折交叉验证,获得超参数的影响因素,每个超参数的影响因素对应一个模型指标。
6.根据权利要求5所述的构建方法,其特征在于:筛选关键模型指标的步骤是:
基于训练集的模型指标,建立随机决策森林,分析每个变量对分类树各节点观测值的异质性影响,获得所有模型指标的重要性排序;
根据排序结果筛选出参与建模的关键模型指标。
7.根据权利要求6所述的构建方法,其特征在于:基于训练集数据,根据ROC曲线图确定化疗后肝损伤发生概率的临界值;
根据筛选后的关键模型指标建立预测模型,计算化疗后肝损伤的发生概率,并与临界值对比获得预测结果:
若概率>临界值时,预测化疗后发生肝损伤;
若概率=临界值时,待估;
若概率<临界值时,预测化疗后不发生肝损伤。
8.根据权利要求7所述的构建方法,其特征在于:根据预测结果和样本实际结果,分析训练集的预测模型数据性质:
基于验证集数据,验证训练集的模型指标,
基于验证集数据,分析验证集的预测模型数据性质,验证训练集的预测模型数据性质;
基于验证集数据建模,在训练集的ROC曲线图上添加验证集的ROC曲线图,判断预测模型的准确性。
9.根据权利要求7所述的构建方法,其特征在于:数据性质包括准确率、误分率、敏感性、特异性、阳性预测值、阴性预测值中一种或多种。
10.根据权利要求7所述的构建方法,其特征在于:根据ROC曲线图确定化疗后肝损伤发生概率的临界值为0.628。
11.根据权利要求1-10任一所述的构建方法,其特征在于:基于培美曲塞联合铂类化疗,研究分析化疗后发生肝损伤的风险和概率。
12.培美曲塞化疗后肝损伤发生风险的预测模型,其特征在于:包括至少12个关键模型指标,建立化疗后肝损伤发生风险预测模型公式
P(y=1|x)=π(x)=1/(1+e-g(x)),
g(x)=3.334-0.048x1+αx2+0.952x3+1.517x4-1.209x5+1.252x6-0.88x7+0.855x8+0.851x9
-0.713x10-0.003x11+0.013x12+mxn
其中x1为年龄值,x2为化疗方案关联,x3为既往肝功能关联值,x4为化疗前使用维生素B12关联值,x5为化疗前使用血液系统药物关联值,x6为使用护胃药关联值,x7为使用止吐药关联值,x8为使用护肝药关联值,x9为使用免疫增强药物关联值,x10为化疗次数,x11为化疗前血小板水平值,x12为碱性磷酸酶水平值,xn是第n个模型指标,n≥13,m是第n个模型指标的公式系数;
化疗方案选用奈达铂时,α=0;
化疗方案选用卡铂时,α=-0.431;
化疗方案选用洛铂时,α=-0.75;
化疗方案选用顺铂时,α=-1.141。
CN202110229968.1A 2021-03-02 2021-03-02 培美曲塞化疗后不良反应发生风险预测模型及其构建方法 Active CN112951423B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310838465.3A CN117672506A (zh) 2021-03-02 2021-03-02 培美曲塞化疗后肾脏与骨髓抑制风预测模型及其构建方法
CN202110229968.1A CN112951423B (zh) 2021-03-02 2021-03-02 培美曲塞化疗后不良反应发生风险预测模型及其构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110229968.1A CN112951423B (zh) 2021-03-02 2021-03-02 培美曲塞化疗后不良反应发生风险预测模型及其构建方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310838465.3A Division CN117672506A (zh) 2021-03-02 2021-03-02 培美曲塞化疗后肾脏与骨髓抑制风预测模型及其构建方法

Publications (2)

Publication Number Publication Date
CN112951423A CN112951423A (zh) 2021-06-11
CN112951423B true CN112951423B (zh) 2023-08-29

Family

ID=76247211

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310838465.3A Pending CN117672506A (zh) 2021-03-02 2021-03-02 培美曲塞化疗后肾脏与骨髓抑制风预测模型及其构建方法
CN202110229968.1A Active CN112951423B (zh) 2021-03-02 2021-03-02 培美曲塞化疗后不良反应发生风险预测模型及其构建方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310838465.3A Pending CN117672506A (zh) 2021-03-02 2021-03-02 培美曲塞化疗后肾脏与骨髓抑制风预测模型及其构建方法

Country Status (1)

Country Link
CN (2) CN117672506A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744865B (zh) * 2021-07-29 2023-07-18 甘肃省人民医院 基于回归分析的压力性损伤风险预测模型校正方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014031609A1 (en) * 2012-08-20 2014-02-27 The United States Of America, As Represented By The Secretary, Department Of Health & Human Services Expression of protein-coding and noncoding genes as prognostic classifiers in early stage lung cancer
CN106868105A (zh) * 2015-09-16 2017-06-20 应诺美鑫有限公司 化疗方案选择
CN108021941A (zh) * 2017-11-30 2018-05-11 四川大学 药物肝毒性预测方法及装置
CN108107134A (zh) * 2018-02-06 2018-06-01 中国医学科学院肿瘤医院 预测培美曲塞联合铂类治疗非小细胞肺癌的疗效的新标志物及其应用
CN111768862A (zh) * 2020-06-16 2020-10-13 上海市第六人民医院 一种自身免疫性肝炎风险预测模型及其构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3149504A1 (en) * 2019-08-22 2021-02-25 Tempus Labs, Inc. Unsupervised learning and prediction of lines of therapy from high-dimensional longitudinal medications data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014031609A1 (en) * 2012-08-20 2014-02-27 The United States Of America, As Represented By The Secretary, Department Of Health & Human Services Expression of protein-coding and noncoding genes as prognostic classifiers in early stage lung cancer
CN106868105A (zh) * 2015-09-16 2017-06-20 应诺美鑫有限公司 化疗方案选择
CN108021941A (zh) * 2017-11-30 2018-05-11 四川大学 药物肝毒性预测方法及装置
CN108107134A (zh) * 2018-02-06 2018-06-01 中国医学科学院肿瘤医院 预测培美曲塞联合铂类治疗非小细胞肺癌的疗效的新标志物及其应用
CN111768862A (zh) * 2020-06-16 2020-10-13 上海市第六人民医院 一种自身免疫性肝炎风险预测模型及其构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
替吉奥联合康艾注射液治疗晚期非小细胞肺癌的效果与预后因素分析;杨君;韩莹;郭晓辉;汪力慧;;中国医药导报(29);89-92 *

Also Published As

Publication number Publication date
CN117672506A (zh) 2024-03-08
CN112951423A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
Loi et al. Tumor-infiltrating lymphocytes and prognosis: a pooled individual patient analysis of early-stage triple-negative breast cancers
Powles et al. Avelumab maintenance in advanced urothelial carcinoma: biomarker analysis of the phase 3 JAVELIN Bladder 100 trial
Ballman et al. The relationship between six-month progression-free survival and 12-month overall survival end points for phase II trials in patients with glioblastoma multiforme
Assaf et al. A longitudinal circulating tumor DNA-based model associated with survival in metastatic non-small-cell lung cancer
US11124839B2 (en) Methods of treating cancer patients with farnesyltransferase inhibitors
Lee et al. Characterization of non–small-cell lung cancers with MET exon 14 skipping alterations detected in tissue or liquid: clinicogenomics and real-world treatment patterns
Facchinetti et al. First-line immunotherapy in non-small cell lung cancer patients with poor performance status: a systematic review and meta-analysis
CN112951423B (zh) 培美曲塞化疗后不良反应发生风险预测模型及其构建方法
Lacroix et al. Simultaneous Exposure–Response Modeling of ACR20, ACR50, and ACR70 Improvement Scores in Rheumatoid Arthritis Patients Treated With Certolizumab Pegol
Aggarwal et al. Assessment of tumor mutational burden and outcomes in patients with diverse advanced cancers treated with immunotherapy
Bastida et al. Hidden myelodysplastic syndrome (MDS): A prospective study to confirm or exclude MDS in patients with anemia of uncertain etiology
Rugo et al. Biology and targetability of the extended spectrum of PIK3CA mutations detected in breast carcinoma
Subramanian et al. Conserved angio-immune subtypes of the tumor microenvironment predict response to immune checkpoint blockade therapy
Xiong et al. Renal adverse reactions of tyrosine kinase inhibitors in the treatment of tumours: A Bayesian network meta-analysis
Cao et al. Rational application of the first‐line chemotherapy and immune checkpoint inhibitors in advanced nonsmall cell lung cancer: A meta‐analysis
Thomsen et al. The multidisciplinary approach to eosinophilia
Cozzolino et al. Clinical management of chronic kidney disease patients in Italy: results from the IRIDE Study
Wang et al. Autophagy gene panel-based prognostic model in myelodysplastic syndrome
Stukalin et al. Development and Validation of a Prognostic Risk Model for Patients with Advanced Melanoma Treated with Immune Checkpoint Inhibitors
Lin et al. Survival analysis of patients with advanced non-small cell lung cancer receiving EGFR-TKI treatment of Yunnan in southwestern China: a real-world study
Huang et al. Predictive Model of Oxaliplatin-induced Liver Injury Based on Artificial Neural Network and Logistic Regression
Jang et al. Investigating treatment response and immune profile in association with pattern identification in NSCLC patients scheduled for immune checkpoint inhibitor monotherapy (HARMONY study): A protocol for a prospective observational study
Nomura et al. Platelet-related indices in patients with lung cancer with nivolumab
Bilgin et al. The prognostic value of systemic immune-inflammation index in non-small cell lung cancer with ALK-rearrangement
US20240085417A1 (en) Peripheral blood phenotype linked to outcomes after immunotherapy treatment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant