CN117079743A - 一种他汀类药物治疗效果预测模型及应用 - Google Patents

一种他汀类药物治疗效果预测模型及应用 Download PDF

Info

Publication number
CN117079743A
CN117079743A CN202311350424.6A CN202311350424A CN117079743A CN 117079743 A CN117079743 A CN 117079743A CN 202311350424 A CN202311350424 A CN 202311350424A CN 117079743 A CN117079743 A CN 117079743A
Authority
CN
China
Prior art keywords
statin
model
prediction model
levels
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311350424.6A
Other languages
English (en)
Inventor
李朋梅
熊堉
李沭
刘丽宏
陈文倩
孔旭东
夏沁芳
赵莉
张镭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Japan Friendship Hospital
Original Assignee
China Japan Friendship Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Japan Friendship Hospital filed Critical China Japan Friendship Hospital
Priority to CN202311350424.6A priority Critical patent/CN117079743A/zh
Publication of CN117079743A publication Critical patent/CN117079743A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种他汀类药物治疗效果预测模型及应用,预测模型包括:低密度脂蛋白LDL达标预测模型、肝酶异常预测模型、肌痛/肌酸激酶异常预测模型;构建方法包括:收集获取服用他汀类药物患者的临床资料数据,进行数据预筛选、数据填充、数据采样及特征筛选处理,确定纳入模型的变量;将三个模型分别采用逻辑回归、朴素贝叶斯、决策树、随机森林、梯度提升决策树算法训练,筛选出最优模型进行建模;模型验证;样本量验证;利用SHAP解释模型;通过模型决策曲线分析DCA筛选出最优模型的优势。本发明为他汀类药物合理使用提供了一种基于预测模型的监测手段,对高不良反应风险患者能够提供额外监护计划,促进了他汀类药物的临床合理应用。

Description

一种他汀类药物治疗效果预测模型及应用
技术领域
本发明涉及医学模型数据处理技术领域,具体而言,涉及一种他汀类药物治疗效果预测模型及应用。
背景技术
在临床应用过程中,他汀与肌肉疼痛、肝酶异常、高血糖、以及神经系统疾病等相关,被称为他汀类药物相关症状(SAS)。其中,他汀类药物相关肌肉症状(SAMS)是最常见的他汀类药物副作用,据报道,10% -25%接受他汀类药物治疗的患者出现了SAMS。此外,他汀类药物对肝功能的影响与剂量相关,1%至3%的患者出现了肝酶水平升高。
因此,如何在使用他汀类药物时既保证有效性,即LDL达到指南水平的同时,又对不良反应的发生有良好的控制至关重要。这大大影响了他汀类药物在临床上的合理使用,也极大地影响了ASCVD的临床控制。
目前,针对上述问题暂未有较好的解决方法,只能不停地调整给药剂量和频繁的换药和试药。
现阶段针对他汀类药物的临床应用监测工具较少,仅有部分学者制作了他汀类药物相关肌肉症状临床指数(SAMS-CI),旨在帮助临床医生确定患者的肌肉症状(肌痛或肌病)由他汀类药物使用引起或与之相关的可能性。
但是,该指数(SAMS-CI)的临床可操作性较差,应用程度低。
并且,目前针对他汀类药物不良反应的重视度不够,针对他汀类药物的LDL有效性和肝酶的安全性监测也鲜有较好的对策和方案。仅有一些针对是否他汀类药物引起肌痛的诊断性评估量表,而关于他汀类药物引起的肝酶异常几乎没有合适的监测和评估手段。在临床实际应用情况中,许多患者因为他汀类药物的不良反应而自行停止长期服用降脂药,这将造成极大的危害。而且,由于基因多态性,相较白种人,中国人对他汀类药物的耐受性较低,相同剂量下更容易出现不良反应。
发明内容
鉴于此,本发明的第一目的在于设计一种他汀类药物治疗效果预测模型,预测每个患者服用他汀类药物的有效性和安全性,同时为他汀类药物的合理使用提供切实可行的监测手段,并为该方法的临床参考范围提供证据。
本发明的第二目的在于提供一种他汀类药物治疗效果预测模型的应用。
为了实现本发明的上述目的,特采用以下技术方案:
本发明提供一种他汀类药物治疗效果预测模型,包括:
他汀类药物有效性-LDL达标预测模型、他汀类药物安全性-肝酶异常预测模型、他汀类药物安全性-肌痛/肌酸激酶异常预测模型;
所述他汀类药物有效性-LDL达标预测模型、他汀类药物安全性-肝酶异常预测模型和他汀类药物安全性-肌痛/肌酸激酶异常预测模型的构建方法包括以下步骤:
S1、通过收集使用他汀类药物的住院患者的历史数据,获取服用他汀类药物患者的临床资料数据的样本量,将所述样本量整理为数据集;
本发明的他汀类药物有效性-LDL达标预测模型的样本量为3633例患者,他汀类药物安全性-肝酶异常预测模型的样本量为4159例患者,他汀类药物安全性-肌痛/肌酸激酶异常预测模型的样本量为3345例患者。
本发明收集使用他汀类药物的住院患者数据的数据来源是从某两个医院的电子病历系统(HIS)中获取所有使用过他汀药物的住院患者数据。第一个医院的数据检索范围为2018年5月-2023年5月,第二个医院的数据检索范围为2017年9月-2022年10月。
纳入标准:(1)所有使用过他汀类药物(包括阿托伐他汀钙片、瑞舒伐他汀钙片、匹伐他汀钙片、辛伐他汀片、氟伐他汀钠缓释片、普伐他汀钠片、匹伐他汀钙分散片、氨氯地平阿托伐他汀钙片)的患者诊疗数据;
排除标准:1)排除没有剂量的数据;2)针对低密度脂蛋白LDL达标的有效性预测模型,需排除LDL字段为空的数据;针对肌痛或肌酸激酶CK异常的预测模型,需排除肌酸激酶CK字段为空的数据,同时需排除诊断中有“急性心肌梗死“、”心肌炎“、”皮肌炎“的数据;针对肝酶异常的预测模型,需排除谷丙转氨酶ALT或谷草转氨酶AST字段为空的数据,同时需排除诊断中有”肝病“,”肝炎“的数据。
本发明中预测模型依据的诊断标准和分组依据为:
LDL是否达标的判断标准是根据《中国成人血脂异常防治指南(2016年修订版)》进行判断:极高危者LDL<1.8mmol/L,高危者LDL<2.6mmol/L,中危和低危者LDL<3.4mmol/L,达标赋值为1,未达标赋值为0。肝酶异常的判定标准是,AST或者ALT > 40 U/L赋值为1,反之赋值为0;肌痛发生的判定标准是,病历系统中明确表示患者存在他汀使用后肌痛,以及实验室检查中CK>200umol/L赋值为1,反之赋值为0。
各变量基本特征如表1所示:表1 各变量的基本特征
*对于肌痛/肌酸激酶异常预测模型,心肌梗死变量仅包括陈旧性心肌梗死患者。
S2、对所述数据集通过数据预筛选、数据填充、数据采样以及特征筛选的处理步骤进行处理,确定纳入模型建立的变量;
其中,所述数据预筛选的处理方法包括:
删除数据缺失比例达到90%的列、删除单类别比例达到90%的列、删除变异系数大于0.1的列,其中的一种或多种的组合;
所述数据填充的处理方法包括:
不填充、改良的随机森林填充,其中的一种或两种的组合;
所述数据平衡的处理方法包括:
通过Borderline SMOTE上采样算法进行数据平衡;
S3、将所述他汀类药物有效性-LDL达标预测模型、他汀类药物安全性-肝酶异常预测模型、他汀类药物安全性-肌痛/肌酸激酶异常预测模型三个模型,分别采用三组数据集进入模型建立(每个预测模型由于数据处理方法不同,会有三组数据集进入模型建立),并分别采用逻辑回归、朴素贝叶斯、决策树、随机森林、梯度提升决策树5种机器学习算法进行模型训练,每个模型生成10个预测模型,从所述10个预测模型中筛选出最优的模型进行建模;
由于每个模型有两个数据集进入模型,加之采用了5种机器学习方法,则每个模型生成10个预测模型;
S4、采用十折交叉验证和bootstrapping抽样算法分别对建立的三个模型进行内部验证和外部验证,计算模型的AUC值、准确率Accuracy、精确率Precision、召回率Recall、平衡F分数F1 Score这5个评价指标之间对应的均值±标准差、95%置信区间;参见表2所示;
如所述均值±标准差、95%置信区间符合模型验证要求,则进入S5步骤;
如所述均值±标准差、95%置信区间不符合模型验证要求,则返回S3步骤进行模型训练、筛选,直至符合模型验证要求;
表2预测模型内部验证和外部验证结果
S5、验证所述样本量与建立的模型预测性能的相关性,验证用于建模的样本量是否满足需求;
如建模的样本量满足需求,则进入S6步骤;
如建模的样本量不满足需求,则返回S1步骤,直至样本量满足需求;
S6、模型解释:由于本发明预测模型采用机器学习方法构建,为部分解释机器学习方法中“黑匣子”原理,利用SHAP可解释性框架,分别采用单样本特征影响图、特征密度散点图和特征重要性SHAP值方法对建立的模型进行解释;
S7、通过模型的决策曲线(Decision Curve Analysis,DCA)分析筛选出的最优模型在各个模型当中的性能优势,通过分析证明筛选出的最优模型在满足诊断准确性和满足临床决策方面的实际效果。
由决策曲线DCA分析可知,随机森林模型在各个模型当中具有突出的优势,具有较好的临床效用。证明筛选出的最优模型既满足诊断准确性,又满足了临床决策的实际需要。
进一步地,所述S3步骤的所述他汀类药物有效性-LDL达标预测模型筛选出的最优模型为:不填充、Borderline SMOTE上采样、以及利用随机森林算法建立的预测模型(AUC=0.925)。
进一步地,所述S3步骤的所述他汀类药物安全性-肝酶异常预测模型筛选出的最优模型为:
不填充、Borderline SMOTE上采样、以及利用随机森林算法建立的预测模型(AUC=0.964)。
进一步地,所述S3步骤的他汀类药物安全性-肌痛/肌酸激酶异常预测模型筛选出的最优模型为:
不填充、Borderline SMOTE上采样、以及利用随机森林算法建立的预测模型(AUC=0.981)。
预测模型的AUC和P-R如表3所示;
表3预测模型各评价指标情况
进一步地,纳入所述他汀类药物有效性-LDL达标预测模型建立的变量包括:
年龄、身体质量指数(BMI)、吸烟史、饮酒史、住院时长、疾病数量、是否高血压、是否冠心病、是否慢性肾病、是否脑梗、口服药物数量、是否服用阿司匹林、是否服用氯吡格雷、C反应蛋白(CRP)水平、高密度脂蛋白(HDL)水平、甘油三酯(TG)水平、尿酸(UA)水平、血小板(PLT)水平、同型半胱氨酸(HCY)水平、谷草转氨酶(AST)水平、谷丙转氨酶(ALT)水平、肌酐(Cr)水平、收缩压(SBP)水平。
进一步地,纳入所述他汀类药物安全性-肝酶异常预测模型建立的变量包括:
年龄、身体质量指数(BMI)、住院时长、饮酒史、是否2型糖尿病(T2DM)、疾病数量、是否高血压、是否冠心病、是否慢性肾病、口服药物数量、C反应蛋白(CRP)水平、甘油三酯(TG)水平、高密度脂蛋白(HDL)水平、血小板(PLT)水平、尿酸(UA)水平、肌酐(Cr)水平、同型半胱氨酸(HCY)水平、低密度脂蛋白(LDL)水平、收缩压(SBP)水平、肌酸激酶(CK)水平、胆固醇(TC)水平。
进一步地,纳入所述他汀类药物安全性-肌痛/肌酸激酶异常预测模型建立的变量包括:
年龄、性别、吸烟史、身体质量指数(BMI)、住院时长、是否2型糖尿病(T2DM)、是否高血压、疾病数量、是否慢性肾病、是否冠心病、是否脑梗、口服药物数量、是否服用阿司匹林、是否服用氯吡格雷、高密度脂蛋白(HDL)水平、C反应蛋白(CRP)水平、尿酸(UA)水平、甘油三酯(TG)水平、同型半胱氨酸(HCY)水平、血小板(PLT)水平、谷草转氨酶(AST)水平、谷丙转氨酶(ALT)水平、收缩压(SBP)水平、肌酐(Cr)水平、低密度脂蛋白(LDL)水平、胆固醇(TC)水平。
本发明还提供根据上述所述的他汀类药物治疗效果预测模型的应用,基于筛选出的最好的预测模型(即随机森林算法模型),利用flask框架构建基于web端的他汀类药物治疗效果预测模型的网页计算器,方便指导临床合理应用他汀类药物。以促进预测模型在临床的应用。具体效果如图4-6所示。
本发明还提供一种信息数据处理终端,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述所述的他汀类药物治疗效果预测模型及其构建方法的步骤。
本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述所述的他汀类药物治疗效果预测模型及其构建方法的步骤。
与现有技术相比,本发明的有益效果为:
本发明基于患者的临床特征数据建立他汀类药物治疗效果预测模型,能够为他汀类药物的合理使用提供切实可行的监测手段;提前预测每个患者服用他汀类药物的有效性和安全性,对于高有效率且高危不良反应患者给予密切的监护和各项不良指标的监测;对于低有效率且高危不良反应患者,在密切监测不良反应的基础上时刻关注患者他汀类药物的疗效,必要的情况下可考虑更换降脂药;本发明预测模型能够帮助临床医生或临床药师在平衡有效性和安全性的基础上,保证他汀类药物有效性的同时,避免严重不良反应发生,提升治疗效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例预测模型的AUC和P-R图;
其中 (A)为:他汀类药物有效性-LDL达标预测模型的AUC和P-R图;
(B)为他汀类药物安全性-肝酶异常预测模型的AUC和P-R图;
(C)为他汀类药物安全性-肌痛/肌酸激酶异常预测模型的AUC和P-R图。
图2是本发明实施例样本量验证图;
其中(A)为他汀类药物有效性- LDL达标预测模型样本量验证图;
(B)为他汀类药物安全性-肝酶异常预测模型样本量验证图;
(C)为他汀类药物安全性-肌痛/肌酸激酶异常预测模型样本量验证图。
图3是本发明实施例预测模型DCA曲线图;
其中 (A)为他汀类药物有效性- LDL达标预测模型DCA曲线;
(B)为他汀类药物安全性-肝酶异常预测模型DCA曲线;
(C)为他汀类药物安全性-肌痛/肌酸激酶异常预测模型DCA曲线。
图4是本发明实施例他汀类药物有效性预测平台的实际界面图。
图5是本发明实施例他汀类药物肝酶异常安全性预测平台的实际界面图。
图6是本发明实施例他汀类药物肌痛/肌酸激酶异常安全性预测平台的实际界面图。
图7是本发明实施例他汀类药物有效性-LDL达标预测模型、他汀类药物安全性-肝酶异常预测模型和他汀类药物安全性-肌痛/肌酸激酶异常预测模型的构建方法的流程图。
实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
本发明实施例提供一种他汀类药物治疗效果预测模型,包括:
他汀类药物有效性-LDL达标预测模型、他汀类药物安全性-肝酶异常预测模型、他汀类药物安全性-肌痛/肌酸激酶异常预测模型;
所述他汀类药物有效性-LDL达标预测模型、他汀类药物安全性-肝酶异常预测模型和他汀类药物安全性-肌痛/肌酸激酶异常预测模型的构建方法,参见图7所示,包括以下步骤:
S1、通过收集使用他汀类药物的住院患者的历史数据,获取服用他汀类药物患者的临床资料数据的样本量,将所述样本量整理为数据集;
本实施例中,收集使用他汀类药物的住院患者数据,他汀类药物有效性-LDL达标预测模型的样本量为3633例患者,他汀类药物安全性-肝酶异常预测模型的样本量为4159例患者,他汀类药物安全性-肌痛/肌酸激酶异常预测模型的样本量为3345例患者。
本实施例收集使用他汀类药物的住院患者数据的数据来源是从某两个医院的电子病历系统(HIS)中获取所有使用过他汀药物的住院患者数据。第一个医院的数据检索范围为2018年5月-2023年5月,第二个医院的数据检索范围为2017年9月-2022年10月。
纳入标准:(1)所有使用过他汀类药物(包括阿托伐他汀钙片、瑞舒伐他汀钙片、匹伐他汀钙片、辛伐他汀片、氟伐他汀钠缓释片、普伐他汀钠片、匹伐他汀钙分散片、氨氯地平阿托伐他汀钙片)的患者诊疗数据;
排除标准:1)排除没有剂量的数据;2)针对低密度脂蛋白LDL达标的有效性预测模型,需排除LDL字段为空的数据;针对肌痛或肌酸激酶CK异常的预测模型,需排除肌酸激酶CK字段为空的数据,同时需排除诊断中有“急性心肌梗死“、”心肌炎“、”皮肌炎“的数据;针对肝酶异常的预测模型,需排除谷丙转氨酶ALT或谷草转氨酶AST字段为空的数据,同时需排除诊断中有”肝病“,”肝炎“的数据。
本实施例预测模型依据的诊断标准和分组依据为:
LDL是否达标的判断标准是根据《中国成人血脂异常防治指南(2016年修订版)》进行判断:极高危者LDL<1.8mmol/L,高危者LDL<2.6mmol/L,中危和低危者LDL<3.4mmol/L,达标赋值为1,未达标赋值为0。肝酶异常的判定标准是,AST或者ALT > 40 U/L赋值为1,反之赋值为0;肌痛发生的判定标准是,病历系统中明确表示患者存在他汀使用后肌痛,以及实验室检查中CK>200umol/L赋值为1,反之赋值为0。
各变量基本特征如表1所示;
S2、对所述数据集通过数据预筛选、数据填充、数据采样以及特征筛选的处理步骤进行处理,确定纳入模型建立的变量;
其中,所述数据预筛选的处理方法包括:
删除数据缺失比例达到90%的列、删除单类别比例达到90%的列、删除变异系数大于0.1的列,其中的一种或多种的组合;
所述数据填充的处理方法包括:
不填充、改良的随机森林填充,其中的一种或两种的组合;
所述数据平衡的处理方法包括:
通过Borderline SMOTE上采样算法进行数据平衡。
本实施例中,纳入所述他汀类药物有效性-LDL达标预测模型建立的变量包括:
年龄、身体质量指数(BMI)、吸烟史、饮酒史、住院时长、疾病数量、是否高血压、是否冠心病、是否慢性肾病、是否脑梗、口服药物数量、是否服用阿司匹林、是否服用氯吡格雷、C反应蛋白(CRP)水平、高密度脂蛋白(HDL)水平、甘油三酯(TG)水平、尿酸(UA)水平、血小板(PLT)水平、同型半胱氨酸(HCY)水平、谷草转氨酶(AST)水平、谷丙转氨酶(ALT)水平、肌酐(Cr)水平、收缩压(SBP)水平。
本实施例中,纳入所述他汀类药物安全性-肝酶异常预测模型建立的变量包括:
年龄、身体质量指数(BMI)、住院时长、饮酒史、是否2型糖尿病(T2DM)、疾病数量、是否高血压、是否冠心病、是否慢性肾病、口服药物数量、C反应蛋白(CRP)水平、甘油三酯(TG)水平、高密度脂蛋白(HDL)水平、血小板(PLT)水平、尿酸(UA)水平、肌酐(Cr)水平、同型半胱氨酸(HCY)水平、低密度脂蛋白(LDL)水平、收缩压(SBP)水平、肌酸激酶(CK)水平、胆固醇(TC)水平。
本实施例中,纳入所述他汀类药物安全性-肌痛/肌酸激酶异常预测模型建立的变量包括:
年龄、性别、吸烟史、身体质量指数(BMI)、住院时长、是否2型糖尿病(T2DM)、是否高血压、疾病数量、是否慢性肾病、是否冠心病、是否脑梗、口服药物数量、是否服用阿司匹林、是否服用氯吡格雷、高密度脂蛋白(HDL)水平、C反应蛋白(CRP)水平、尿酸(UA)水平、甘油三酯(TG)水平、同型半胱氨酸(HCY)水平、血小板(PLT)水平、谷草转氨酶(AST)水平、谷丙转氨酶(ALT)水平、收缩压(SBP)水平、肌酐(Cr)水平、低密度脂蛋白(LDL)水平、胆固醇(TC)水平。
S3、将所述他汀类药物有效性-LDL达标预测模型、他汀类药物安全性-肝酶异常预测模型、他汀类药物安全性-肌痛/肌酸激酶异常预测模型三个模型,分别采用三组数据集进入模型建立(每个预测模型由于数据处理方法不同,会有三组数据集进入模型建立),并分别采用逻辑回归、朴素贝叶斯、决策树、随机森林、梯度提升决策树5种机器学习算法进行模型训练,每个模型生成10个预测模型,从所述10个预测模型中筛选出最优的模型进行建模;
本发明实施例三个模型选出的最优模型如下:
(1)他汀类药物有效性-LDL达标预测模型:建模效果最好的是不填充、BorderlineSMOTE上采样、以及利用随机森林算法建立的预测模型(AUC=0.925);
(2)他汀类药物安全性-肝酶异常预测模型:建模效果最好的是不填充、Borderline SMOTE上采样、以及利用随机森林算法建立的预测模型(AUC=0.964);
(3)他汀类药物安全性-肌痛/肌酸激酶异常预测模型:建模效果最好的是不填充、Borderline SMOTE上采样、以及利用随机森林算法建立的预测模型(AUC=0.981)。
本实施例的预测模型的AUC和P-R如图1和表3所示;
S4、采用十折交叉验证和bootstrapping抽样算法分别对建立的三个模型进行内部验证和外部验证,计算模型的AUC值、准确率Accuracy、精确率Precision、召回率Recall、平衡F分数F1 Score这5个评价指标之间对应的均值±标准差、95%置信区间;参见表2所示;
如所述均值±标准差、95%置信区间符合模型验证要求,则进入S5步骤;
如所述均值±标准差、95%置信区间不符合模型验证要求,则返回S3步骤进行模型训练、筛选,直至符合模型验证要求;
S5、验证所述样本量与建立的模型预测性能的相关性,验证用于建模的样本量是否满足需求;
如建模的样本量满足需求,则进入S6步骤;
如建模的样本量不满足需求,则返回S1步骤,直至样本量满足需求;
本发明实施例的三个模型随着样本量增加,AUC值逐渐上升至平缓,且预测性能表现良好,表明用于建模的样本量基本满足需求。本实施例的样本量如图2所示。
S6、模型解释:由于本发明预测模型采用机器学习方法构建,为部分解释机器学习方法中“黑匣子”原理,利用SHAP可解释性框架,分别采用单样本特征影响图、特征密度散点图和特征重要性SHAP值方法对建立的模型进行解释;
S7、通过模型的决策曲线(Decision Curve Analysis,DCA)分析筛选出的最优模型在各个模型当中的性能优势,通过分析证明筛选出的最优模型在满足诊断准确性和满足临床决策方面的实际效果。
由决策曲线DCA分析可知,随机森林模型在各个模型当中具有突出的优势,参见图3所示,具有较好的临床效用。证明筛选出的最优模型既满足诊断准确性,又满足了临床决策的实际需要。
本发明实施例还提供如上述所述的他汀类药物治疗效果预测模型的应用,基于筛选出的最好的预测模型(即随机森林算法模型),利用flask框架构建基于web端的他汀类药物治疗效果预测模型的网页计算器,方便指导临床合理应用他汀类药物,以促进预测模型在临床的应用,本实施例具体应用效果如图4-6所示。
尽管已用具体实施例来说明和描述了本发明,然而应意识到,在不背离本发明的精神和范围的情况下可以作出许多其它的更改和修改。因此,这意味着在所附权利要求中包括属于本发明范围内的所有这些变化和修改。

Claims (10)

1.一种他汀类药物治疗效果预测模型,其特征在于,包括:他汀类药物有效性-LDL达标预测模型、他汀类药物安全性-肝酶异常预测模型、他汀类药物安全性-肌痛/肌酸激酶异常预测模型;
所述他汀类药物有效性-LDL达标预测模型、他汀类药物安全性-肝酶异常预测模型和他汀类药物安全性-肌痛/肌酸激酶异常预测模型的构建方法包括以下步骤:
S1、通过收集使用他汀类药物的住院患者的历史数据,获取服用他汀类药物患者的临床资料数据的样本量,将所述样本量整理为数据集;
S2、对所述数据集通过数据预筛选、数据填充、数据采样以及特征筛选的处理步骤进行处理,确定纳入模型建立的变量;
其中,所述数据预筛选的处理方法包括:
删除数据缺失比例达到90%的列、删除单类别比例达到90%的列、删除变异系数大于0.1的列,其中的一种或多种的组合;
所述数据填充的处理方法包括:
不填充、改良的随机森林填充,其中的一种或两种的组合;
所述数据平衡的处理方法包括:
通过Borderline SMOTE上采样算法进行数据平衡;
S3、将所述他汀类药物有效性-LDL达标预测模型、他汀类药物安全性-肝酶异常预测模型、他汀类药物安全性-肌痛/肌酸激酶异常预测模型三个模型,分别采用三组数据集进入模型建立,并分别采用逻辑回归、朴素贝叶斯、决策树、随机森林、梯度提升决策树5种机器学习算法进行模型训练,每个模型生成10个预测模型,从所述10个预测模型中筛选出最优的模型进行建模;
S4、采用十折交叉验证和bootstrapping抽样算法分别对建立的三个模型进行内部验证和外部验证,计算模型的AUC值、准确率Accuracy、精确率Precision、召回率Recall、平衡F分数F1 Score这5个评价指标之间对应的均值±标准差、95%置信区间;
如所述均值±标准差、95%置信区间符合模型验证要求,则进入S5步骤;
如所述均值±标准差、95%置信区间不符合模型验证要求,则返回S3步骤进行模型训练、筛选,直至符合模型验证要求;
S5、验证所述样本量与建立的模型预测性能的相关性,验证用于建模的样本量是否满足需求;
如建模的样本量满足需求,则进入S6步骤;
如建模的样本量不满足需求,则返回S1步骤,直至样本量满足需求;
S6、利用SHAP可解释性框架,分别采用单样本特征影响图、特征密度散点图和特征重要性SHAP值方法对建立的模型进行解释;
S7、通过模型的决策曲线DCA分析筛选出的最优模型在各个模型当中的性能优势,通过分析证明筛选出的最优模型在满足诊断准确性和满足临床决策方面的实际效果。
2.根据权利要求1所述的他汀类药物治疗效果预测模型,其特征在于,所述S3步骤的所述他汀类药物有效性-LDL达标预测模型筛选出的最优模型为:不填充、Borderline SMOTE上采样、以及利用随机森林算法建立的预测模型:AUC=0.925。
3.根据权利要求1所述的他汀类药物治疗效果预测模型,其特征在于,所述S3步骤的所述他汀类药物安全性-肝酶异常预测模型筛选出的最优模型为:
不填充、Borderline SMOTE上采样、以及利用随机森林算法建立的预测模型:AUC=0.964。
4.根据权利要求1所述的他汀类药物治疗效果预测模型,其特征在于,所述S3步骤的他汀类药物安全性-肌痛/肌酸激酶异常预测模型筛选出的最优模型为:
不填充、Borderline SMOTE上采样、以及利用随机森林算法建立的预测模型:AUC=0.981。
5.根据权利要求1所述的他汀类药物治疗效果预测模型,其特征在于,纳入所述他汀类药物有效性-LDL达标预测模型建立的变量包括:
年龄、身体质量指数BMI、吸烟史、饮酒史、住院时长、疾病数量、是否高血压、是否冠心病、是否慢性肾病、是否脑梗、口服药物数量、是否服用阿司匹林、是否服用氯吡格雷、C反应蛋白CRP水平、高密度脂蛋白HDL水平、甘油三酯TG水平、尿酸UA水平、血小板PLT水平、同型半胱氨酸HCY水平、谷草转氨酶AST水平、谷丙转氨酶ALT水平、肌酐Cr水平、收缩压SBP水平。
6.根据权利要求1所述的他汀类药物治疗效果预测模型,其特征在于,纳入所述他汀类药物安全性-肝酶异常预测模型建立的变量包括:
年龄、身体质量指数BMI、住院时长、饮酒史、是否2型糖尿病T2DM、疾病数量、是否高血压、是否冠心病、是否慢性肾病、口服药物数量、C反应蛋白CRP水平、甘油三酯TG水平、高密度脂蛋白HDL水平、血小板PLT水平、尿酸UA水平、肌酐Cr水平、同型半胱氨酸HCY水平、低密度脂蛋白LDL水平、收缩压SBP水平、肌酸激酶CK水平、胆固醇TC水平。
7.根据权利要求1所述的他汀类药物治疗效果预测模型,其特征在于,纳入所述他汀类药物安全性-肌痛/肌酸激酶异常预测模型建立的变量包括:
年龄、性别、吸烟史、身体质量指数BMI、住院时长、是否2型糖尿病T2DM、是否高血压、疾病数量、是否慢性肾病、是否冠心病、是否脑梗、口服药物数量、是否服用阿司匹林、是否服用氯吡格雷、高密度脂蛋白HDL水平、C反应蛋白CRP水平、尿酸UA水平、甘油三酯TG水平、同型半胱氨酸HCY水平、血小板PLT水平、谷草转氨酶AST水平、谷丙转氨酶ALT水平、收缩压SBP水平、肌酐Cr水平、低密度脂蛋白LDL水平、胆固醇TC水平。
8.根据权利要求1-7任一项所述的他汀类药物治疗效果预测模型的应用,其特征在于,基于筛选出的最好的预测模型,利用flask框架构建基于web端的他汀类药物治疗效果预测模型的网页计算器,指导临床合理应用他汀类药物。
9.一种信息数据处理终端,其特征在于,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~7任一项所述的他汀类药物治疗效果预测模型及其构建方法的步骤。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1~7任一项所述的他汀类药物治疗效果预测模型及其构建方法的步骤。
CN202311350424.6A 2023-10-18 2023-10-18 一种他汀类药物治疗效果预测模型及应用 Pending CN117079743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311350424.6A CN117079743A (zh) 2023-10-18 2023-10-18 一种他汀类药物治疗效果预测模型及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311350424.6A CN117079743A (zh) 2023-10-18 2023-10-18 一种他汀类药物治疗效果预测模型及应用

Publications (1)

Publication Number Publication Date
CN117079743A true CN117079743A (zh) 2023-11-17

Family

ID=88708468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311350424.6A Pending CN117079743A (zh) 2023-10-18 2023-10-18 一种他汀类药物治疗效果预测模型及应用

Country Status (1)

Country Link
CN (1) CN117079743A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021163619A1 (en) * 2020-02-14 2021-08-19 Icahn School Of Medicine At Mount Sinai Methods and apparatus for diagnosis of progressive kidney function decline using a machine learning model
CN114530248A (zh) * 2022-02-21 2022-05-24 四川省医学科学院·四川省人民医院 确定心血管疾病潜在不适当处方的风险预警模型的方法
US20220310261A1 (en) * 2021-03-29 2022-09-29 Siemens Healthcare Gmbh Clinical decision support system for estimating drug-related treatment optimization concerning inflammatory diseases
CN115910360A (zh) * 2022-11-08 2023-04-04 南昌大学第二附属医院 一种烟雾病风险预测模型构建方法
CN116564512A (zh) * 2023-03-13 2023-08-08 郑州大学第一附属医院 心力衰竭合并肾功能不全患者的人工智能预后评估系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021163619A1 (en) * 2020-02-14 2021-08-19 Icahn School Of Medicine At Mount Sinai Methods and apparatus for diagnosis of progressive kidney function decline using a machine learning model
US20220310261A1 (en) * 2021-03-29 2022-09-29 Siemens Healthcare Gmbh Clinical decision support system for estimating drug-related treatment optimization concerning inflammatory diseases
CN115148353A (zh) * 2021-03-29 2022-10-04 西门子医疗有限公司 用于估计药品相关的治疗优化的临床决策支持系统
CN114530248A (zh) * 2022-02-21 2022-05-24 四川省医学科学院·四川省人民医院 确定心血管疾病潜在不适当处方的风险预警模型的方法
CN115910360A (zh) * 2022-11-08 2023-04-04 南昌大学第二附属医院 一种烟雾病风险预测模型构建方法
CN116564512A (zh) * 2023-03-13 2023-08-08 郑州大学第一附属医院 心力衰竭合并肾功能不全患者的人工智能预后评估系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
极智分析: ""多模型比较+校准曲线+DCA+在线网页计算器", pages 1 - 13, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/606252533?utm_id=0> *
高润霖 等: "《聚焦心血管:2021》", 中国协和医科大学出版社, pages: 550 - 554 *

Similar Documents

Publication Publication Date Title
McCarthy et al. Myocardial injury in the era of high-sensitivity cardiac troponin assays: a practical approach for clinicians
Pankratz et al. Predicting the risk of mild cognitive impairment in the Mayo Clinic Study of Aging
Sico et al. HIV status and the risk of ischemic stroke among men
Libby et al. Patient-level medication regimen complexity across populations with chronic disease
Wald et al. Impact of hospital-associated hyponatremia on selected outcomes
Engelhart et al. Inflammatory proteins in plasma and the risk of dementia: the rotterdam study
Singh et al. Comparative effectiveness of urate lowering with febuxostat versus allopurinol in gout: analyses from large US managed care cohort
Moraes et al. Impact of sociodemographic and health variables on mini-mental state examination in a community-based sample of older people
Gourzoulidis et al. Association between copayment, medication adherence and outcomes in the management of patients with diabetes and heart failure
Matusik et al. Heart rate variability in patients with systemic lupus erythematosus: a systematic review and methodological considerations
Al-Rawi et al. Steady-state pharmacokinetics of hydroxychloroquine in patients with cutaneous lupus erythematosus
Green et al. Aging biomarkers and the measurement of health and risk
Okereke et al. Ten-year change in plasma amyloid β levels and late-life cognitive decline
Chew et al. An evaluation of the Virtual Monitoring Clinic, a novel nurse‐led service for monitoring patients with stable rheumatoid arthritis
US20210375486A1 (en) Population-based medication risk stratification and personalized medication risk score
de Carvalho et al. Machine learning improves the identification of individuals with higher morbidity and avoidable health costs after acute coronary syndromes
WO2021226489A1 (en) Population-based medication risk stratification and personalized medication risk score
Sadeghirad et al. Perioperative factors associated with postoperative delirium in patients undergoing noncardiac surgery: An individual patient data meta-analysis
Mazzotti Landscape of biomedical informatics standards and terminologies for clinical sleep medicine research: A systematic review
Chen et al. Long-term statin use and dementia risk in Taiwan
Fort et al. Considerations for using research data to verify clinical data accuracy
CN117079743A (zh) 一种他汀类药物治疗效果预测模型及应用
Bullock et al. Comparative differences in musculoskeletal pain consultation and analgesic prescription for people with dementia: a UK-wide matched cohort study
Alexiuk et al. Prediction models for earlier stages of chronic kidney disease
Williams et al. Applying the Seattle heart failure model in the office setting in the era of electronic medical records

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination