CN109243546A

CN109243546A - 抗凝药药效优化模型的建立方法及装置

Info

Publication number: CN109243546A
Application number: CN201811045577.9A
Authority: CN
Inventors: 刘艳; 张健; 李平; 徐阿晶; 卜书红; 孙佳星
Original assignee: Beijing Nuodao Cognitive Medical Technology Co ltd; XinHua Hospital Affiliated To Shanghai JiaoTong University School of Medicine
Current assignee: Beijing Nuodao Cognitive Medical Technology Co ltd; XinHua Hospital Affiliated To Shanghai JiaoTong University School of Medicine
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2019-01-18
Anticipated expiration: 2038-09-07
Also published as: CN109243546B

Abstract

本发明实施例提供抗凝药药效优化模型的建立方法及装置，其中方法包括：建立药效优化样本数据库，所述药效优化样本数据库中的每个样本包括凝血功能正常时的用药医嘱信息和与所述用药医嘱信息相对应的检验项数据；对所述药效优化样本数据库进行缺失值处理和统计学检验，获得经过预处理的药效优化样本数据库；根据所述经过预处理的药效优化样本数据库，利用XGBoost算法进行监督学习，构建抗凝药药效优化模型。本发明实施例采用机器学习XGBoost算法构建抗凝药药效优化模型，可针对不同患者的个体情况，通过将患者的检验检查数据输入该抗凝药药效优化模型中快速地获得实用性更强的抗凝药药效优化方案。

Description

抗凝药药效优化模型的建立方法及装置

技术领域

本发明涉及医疗人工智能技术领域，更具体地，涉及抗凝药药效优化模型的建立方法及装置。

背景技术

抗凝药是通过影响凝血过程中的某些凝血因子阻止凝血过程的药物，可用于防治血管内栓塞或血栓形成的疾病，预防中风或其它血栓性疾病。但是大多数抗凝药的个体药物代谢能力的差异很大，治疗安全范围狭窄，影响其药效的因素又很多，使得抗凝药的个体剂量变动性很大，还会存在严重的潜在出血风险和抗凝不足导致的栓塞，使得对使用抗凝药治疗的管理具有挑战性。

目前临床上抗凝药的药效优化方案通常采用首先给予一定标准剂量，然后临床医生根据每个患者INR(International Normalized Ratio，国际标准化比率)值的情况，反复增加或减少剂量直至INR达到靶标。在这样的抗凝疗法中，调整剂量的周期较长，患者发生血栓或出血的可能性较高。

为克服目前临床上述抗凝药药效优化方案的缺陷，“Laboratory Medicine，December 2013,Vol28.No12:1157-1161”综述了国内外基于遗传药理学研究结果并结合临床数据所构建的华法林抗凝药的维持剂量模型及应用情况，主要分为三种预测模型：稳定剂量预测模型、起始剂量预测模型、稳定剂量的精确模型，但仍然不能达到根据个体病人的不同实现个体化用药的程度。

发明内容

为了克服现有的抗凝药用药医嘱信息无法根据个体病人的不同实现个体化用药的缺陷，本发明实施例提供抗凝药药效优化模型的建立方法及装置。

第一方面，本发明实施例提供一种抗凝药药效优化模型的建立方法，包括：

建立药效优化样本数据库，所述药效优化样本数据库中的每个样本包括凝血功能正常时的用药医嘱信息和与所述用药医嘱信息相对应的检验项数据；

对所述药效优化样本数据库进行缺失值处理和统计学检验，获得经过预处理的药效优化样本数据库；

根据所述经过预处理的药效优化样本数据库，利用XGBoost算法进行监督学习，构建抗凝药药效优化模型。

第二方面，本发明实施例提供一种抗凝药药效优化模型的建立装置，包括：

样本获取模块，用于建立药效优化样本数据库，所述药效优化样本数据库中的每个样本包括凝血功能正常时的用药医嘱信息和与所述用药医嘱信息相对应的检验项数据；

预处理模块，用于对所述药效优化样本数据库进行缺失值处理和统计学检验，获得经过预处理的药效优化样本数据库；

模型建立模块，用于根据所述经过预处理的药效优化样本数据库，利用XGBoost算法进行监督学习，构建抗凝药药效优化模型。

第三方面，本发明实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述第一方面的各种可能的实现方式中任一种实现方式所提供的方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机能够执行上述第一方面的各种可能的实现方式中任一种实现方式所提供的方法。

本发明实施例提出的抗凝药药效优化模型的建立方法及装置，采用机器学习XGBoost算法构建抗凝药药效优化模型，可针对不同患者的个体情况，通过将患者的检验检查数据输入该抗凝药药效优化模型中快速地获得实用性更强的抗凝药药效优化方案。

附图说明

图1为本发明实施例提供的一种抗凝药药效优化模型的建立方法的流程示意图；

图2为本发明实施例提供的抗凝药药效优化模型的建立装置的结构示意图；

图3为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例提供的一种抗凝药药效优化模型的建立方法的流程示意图，包括：

S1、建立药效优化样本数据库，所述药效优化样本数据库中的每个样本包括凝血功能正常时的用药医嘱信息和与所述用药医嘱信息相对应的检验项数据。

具体地，本发明实施例的目的是采用监督学习的方法构建抗凝药药效优化模型，所述抗凝药药效优化模型用于根据患者的检验项数据预测出相应的药效优化方案。因此，在使用监督学习方法之前，需要获取样本数据。其中，每个样本包含两个方面的信息，一方面是某个患者使用了抗凝药后凝血功能恢复正常时的用药医嘱信息，包括给药剂量、给药间隔、给药途径等信息，另一方面是与所述用药医嘱信息相对应的该患者的各检验项数据，例如包括：平均血红蛋白量、血小板计数、平均血小板体积和凝血酶原时间等检验项数据。在实现时，需要对凝血功能正常时的用药医嘱信息进行编码。

为了使本发明实施例所构建的抗凝药药效优化模型具有较高的预测精度，在实现时，需要采集大量的患者数据，通常来自不同医院，因此在本发明实施例中，将所采集的数据用数据库的形式进行存储，同时采用数据库的形式也便于对数据进行处理。

具体地，INR数值在2-3之间说明凝血功能正常。

需要说明的是，根据不同治疗时期的需要，用药医嘱信息通常划分为初始用药医嘱信息和调整用药医嘱信息，药效优化样本数据库的构建也需要相应地进行划分。

药效优化样本数据库中所包含的数据并不是直接就能用于监督学习的，还需要进行预处理。

S2、对所述药效优化样本数据库进行缺失值处理和统计学检验，获得经过预处理的药效优化样本数据库。

具体地，缺失值处理是指针对所述药效优化样本数据库中各个检验项所对应的数据，将数据缺失率较大的检验项进行删除，从而能够保证样本的有效性。

统计学检验是指采用统计学方法，对药效优化样本数据中的各个检验项所对应的数据进行数据分布和显著性的检验，保留与抗凝药药效具有显著关系的检验项，实现对检验项的预筛选，同时实现了数据降维。

S3、根据所述经过预处理的药效优化样本数据库，利用XGBoost算法进行监督学习，构建抗凝药药效优化模型。

XGBoost算法是基于GBDT(梯度提升树)原理进行改进的算法，是目前最快最好的boosted tree(提升树)算法，可实现并行运算和增量学习，能处理大规模数据。

从所述药效优化样本数据库中提取样本数据构成数据集，将数据集划分为训练集和测试集。

本发明实施例根据所述经过预处理的药效优化样本数据库，利用XGBoost算法快速构建高准确率的抗凝药药效优化模型步骤具体为：

步骤一、输入训练集，以各个检验项为自变量，药效优化方案为因变量；

步骤二、定义目标函数，目标函数包括损失+正则化项两部分；

其中，损失＝上一颗树的误差(梯度)，正则化项＝树的复杂度。需要优化目标函数，使目标函数预测误差尽可能小，数的复杂度尽可能低。

步骤三、利用贪心法进行切分点查找，构建决策树；

具体地，可枚举所有不同的树结构，选取Gain(增益)值最大且超过阈值的方案，如果max(Gain)小于阈值则剪枝终止分裂。

步骤四、决策树结构确定后，计算叶子结点的分数；

步骤五、更新决策树序列，保存构建好的所有决策树及其得分；

步骤六、计算各个样本的预测结果，即每棵树的得分之和，得到样本属于各个类别的概率；

步骤七、计算每一个变量的重要性得分，挑选对模型影响显著的重要变量；

具体地，可计算各个变量的Gini(基尼)系数，其Gini系数平均值即该变量的重要性得分。

步骤八、利用重要变量构建抗凝药药效优化模型。

当所述抗凝药药效优化模型构建完成后，将测试集输入所述抗凝药药效优化模型中进行测试，计算测试集的预测正确率。

将待预测的检验项数据输入构建完成的抗凝药药效优化模型，可得到与所述待预测的检验项数据相对应的药效优化方案。

本发明实施例提供的抗凝药药效优化模型的建立方法，采用机器学习XGBoost算法构建抗凝药药效优化模型，将患者的检验检查数据输入该抗凝药药效优化模型中，可快速地得到实用性更强的抗凝药药效优化方案，从而针对不同患者实现个体化的药效优化。

进一步地，基于上述实施例，所述建立药效优化样本数据库的步骤，具体包括：

获取使用抗凝药的患者临床数据并进行数据清洗；

将经过数据清洗后的所述患者临床数据按时间排序，从中提取第一次使用抗凝药三天后INR数值在1.5-2.5之间的用药医嘱信息及其对应的检验项结果，构成初始方案数据库；

提取第一次使用抗凝药三天后INR数值不在2-3之间、经过调整用药剂量直到患者凝血功能恢复正常时的用药医嘱信息及开始调整用药剂量后的所有检验项结果，构成调整方案数据库。

具体地，所述患者临床数据至少包括：患者生理特征信息、临床诊断数据、检验数据和用药医嘱信息，其中，患者生理特征信息包括：身高、体重、年龄等；临床诊断数据与患者所患疾病有关，检验数据是指能够影响凝血功能的各种检查的检验结果数据，用药医嘱信息即医生根据患者的临床检验数据情况经过分析后给出的使药效得到优化的方案，包括单次给药剂量、给药间隔和给药途径等。

数据清洗是对所获取的使用抗凝药的患者临床数据进行重新审查和检验的过程，目的是删除重复信息、纠正明显错误信息、保证数据一致性，具体包括：数据规范化处理、异常值处理、数据转置、数据分组、数据去重、数据排序、数据合并、独热编码等。

根据不同治疗时期的需要，用药医嘱信息通常划分为初始用药医嘱信息和调整用药医嘱信息，因此，将经过数据清洗后的所述患者临床数据按时间排序，然后按照不同的治疗时期对所采集的患者临床数据进行划分。

由于INR数值在2-3之间时代表凝血功能正常，采用如下标准进行数据划分：

将第一次使用抗凝药三天后INR数值在1.5-2.5之间的用药医嘱信息及其对应的检验项结果提取出来，构成初始方案数据库。

将第一次使用抗凝药三天后INR数值不在2-3之间、经过调整用药剂量直到患者凝血功能恢复正常时的用药医嘱信息及开始调整用药剂量后的所有检验项结果提出，构成调整方案数据库。

初始方案数据库和调整方案数据库共同构成药效优化样本数据库。

本发明实施例将样本数据按照治疗时间进行划分，可以使本发明实施例所提供的抗凝药的药效优化方法能够预测出符合实际治疗阶段的药效优化方案。

进一步地，基于上述实施例，对所述药效优化样本数据库进行缺失值处理和统计学检验，获得经过预处理的药效优化样本数据库的步骤，具体为：

删除所述药效优化样本数据库中数据缺失率大于预设阈值的检验项；

采用统计学方法对剩余的检验项数据进行数据分布检验，并筛选出影响抗凝药药效的显著变量，获得经过预处理的药效优化样本数据库。

具体地，预设阈值通过下述方法得到：设置缺失率阈值范围为50％-95％，以5％为一个调整单位，逐次删除缺失率大于50％、55％、60％，……，95％的检验项，依次验证测试集的正确率，寻找测试集正确率最高的最优缺失率阈值作为预设阈值。

删除所述药效优化样本数据库中数据缺失率大于预设阈值的检验项后，针对剩余的检验项数据，首先判断各个检验项的类型，检验项的类型可以分为连续型变量，即该检验项所对应的结果是连续值，还可以分为多分类变量和二分类变量。

数据分布检验包括数据偏置性检验和Mann-Whitney-Wilcoxon检验，其中，

数据偏置性检验用于检验连续变量是否符合正态分布，常用统计方法为：正态性检验、峰度、偏度、P-P图、Q-Q图等。如果数据不符合正态分布，通过1+log(x)进行数据变换。

Mann-Whitney-Wilcoxon检验：是一种两独立样本的非参数检验，用于检验来自不同医院的数据是否符合同一分布。原假设：来自不同医院的数据符合同一分布。当接受原假设时，认为数据质量较好，可用于展开数据处理。

筛选出影响抗凝药药效的显著变量的具体流程包括：

对于二分类变量，通过与目标变量进行Cochran-Mantel-Haenszel检验，判断二分类变量与目标变量之间的关系是否显著，Cochran-Mantel-Haenszel检验的原假设为：二分类变量与目标变量之间没有显著关系。如果拒绝原假设则认为二分类变量与目标变量关系显著，保留该变量，否则剔除。

对于多分类变量，通过与目标变量进行Cochran-Armitage趋势检验，判断多分类变量与目标变量之间的关系是否显著，Cochran-Armitage趋势检验的原假设为：多分类变量与目标变量之间没有显著关系。如果拒绝原假设则认为多分类变量与目标变量关系显著，保留该变量，否则剔除。

对于连续型变量，采用逐步回归(LR)的方式，将连续型变量与目标变量进行逻辑回归，逐步筛选对目标变量影响显著的连续型变量，不显著则剔除。

上述流程中的目标变量为经过编码的凝血功能正常时的用药医嘱信息，抗凝药的用药医嘱信息总数是一定的，需要对每个用药医嘱信息进行编码，目标变量可以看作是一个多分类变量。

本发明实施例提供的抗凝药药效优化模型的建立方法，在模型构建之前，对影响抗凝药药效的变量进行预筛选，有助于提升优化模型的构建速度，提高模型的预测精度。

进一步地，基于上述实施例，所述根据所述经过预处理的药效优化样本数据库，利用XGBoost算法进行监督学习，构建抗凝药药效优化模型的步骤，具体为：

初始化XGBoost算法参数，所述算法参数包括：最大决策树数量、学习率、最大规则层深、决策树生长所需达到的最小增益值和决策树复杂度衡量参数；

基于所述初始方案数据库，利用XGBoost算法筛选出影响抗凝药初始药效的重要变量，并根据所述影响抗凝药初始药效的重要变量构建初始药效优化模型；

基于所述调整方案数据库，利用XGBoost算法筛选出影响抗凝药调整药效的重要变量，并根据所述影响抗凝药调整药效的重要变量构建调整药效优化模型；

将所述初始药效优化模型与所述调整药效优化模型进行组合，生成抗凝药药效优化模型。

在一个实施例中，可将XGBoost算法参数配置为：最大决策树数量＝2000；学习率＝0.01；最大规则层深＝4；决策树生长所需达到的最小Gain值＝0；决策树复杂度衡量参数＝1。

将经过预处理的初始方案数据库输入到配置好的XGBoost算法模型中，定义目标函数包括损失和正则化项，利用贪心法进行切分点查找，构建决策树，计算叶子结点的分数，更新决策树序列，保存构建好的所有决策树及其得分，计算各个样本的预测结果，即每棵树的得分之和，得到样本属于各个类别的概率，计算每一个变量的重要性得分，选出对抗凝药初始药效影响显著的重要变量，并根据所述影响抗凝药初始药效的的重要变量获得决策树序列，从而获得初始药效优化模型。

将经过预处理的调整方案数据库输入至配置好的XGBoost算法模型中，采用上述同样的构建过程，最终获得调整药效优化模型。

将所述初始药效优化模型与所述调整药效优化模型组合起来，从而获得训练完成的抗凝药药效优化模型。

由于抗凝药药效优化模型由两部分——初始药效优化模型和调整药效优化模型组成，因此，可以根据患者不同治疗阶段的检验项数据，分别代入具体的模型，得到患者在该治疗时间段内的用药医嘱信息。即如果患者处于初始治疗阶段，则将待预测的检验项数据输入到初始药效优化模型中，获得初始药效优化方案。如果患者处于调整治疗阶段，则将待预测的检验项数据输入到调整药效优化模型中，获得调整药效优化方案。

如图2所示，为本发明实施例提供的抗凝药药效优化模型的建立装置的结构示意图，该装置用于实现在前述各实施例中所述的抗凝药药效优化模型的建立方法。因此，在前述各实施例中的方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

该装置包括：样本获取模块201、预处理模块202和模型建立模块203。其中，

样本获取模块201，用于建立药效优化样本数据库，所述药效优化样本数据库中的每个样本包括凝血功能正常时的用药医嘱信息和与所述用药医嘱信息相对应的检验项数据；

预处理模块202，用于对所述药效优化样本数据库进行缺失值处理和统计学检验，获得经过预处理的药效优化样本数据库；

模型建立模块203，用于根据所述经过预处理的药效优化样本数据库，利用XGBoost算法进行监督学习，构建抗凝药药效优化模型。

本发明实施例提供的抗凝药药效优化模型的建立装置，采用机器学习XGBoost算法构建抗凝药药效优化模型，将患者的检验检查数据输入该抗凝药药效优化模型中，可快速地得到实用性更强的抗凝药药效优化方法，从而实现个体化的药效优化。

基于上述实施例的内容，样本获取模块201具体用于：

获取使用抗凝药的患者临床数据并进行数据清洗；

基于上述实施例的内容，预处理模块202具体用于：

采用统计学方法对剩余的检验项数据进行数据分布检验，并筛选出影响抗凝药药效的的显著变量，获得经过预处理的药效优化样本数据库。

基于上述实施例的内容，模型建立模块203具体用于：

如图3所示，为本发明实施例提供的电子设备的结构示意图，包括：处理器(processor)301、存储器(memory)302和总线303；

其中，处理器301及存储器302分别通过总线303完成相互间的通信；处理器301用于调用存储302中的程序指令，以执行上述实施例所提供的抗凝药药效优化模型的建立方法，例如包括：建立药效优化样本数据库，所述药效优化样本数据库中的每个样本包括凝血功能正常时的用药医嘱信息和与所述用药医嘱信息相对应的检验项数据；对所述药效优化样本数据库进行缺失值处理和统计学检验，获得经过预处理的药效优化样本数据库；根据所述经过预处理的药效优化样本数据库，利用XGBoost算法进行监督学习，构建抗凝药药效优化模型。

本发明实施例还提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的抗凝药药效优化模型的建立方法，例如包括：建立药效优化样本数据库，所述药效优化样本数据库中的每个样本包括凝血功能正常时的用药医嘱信息和与所述用药医嘱信息相对应的检验项数据；对所述药效优化样本数据库进行缺失值处理和统计学检验，获得经过预处理的药效优化样本数据库；根据所述经过预处理的药效优化样本数据库，利用XGBoost算法进行监督学习，构建抗凝药药效优化模型。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种抗凝药药效优化模型的建立方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述建立药效优化样本数据库的步骤，具体为：

获取使用抗凝药的患者临床数据并进行数据清洗；

3.根据权利要求1所述的方法，其特征在于，所述对所述药效优化样本数据库进行缺失值处理和统计学检验，获得经过预处理的药效优化样本数据库的步骤，具体为：

4.根据权利要求2所述的方法，其特征在于，所述根据所述经过预处理的药效优化样本数据库，利用XGBoost算法进行监督学习，构建抗凝药药效优化模型的步骤，具体为：

5.一种抗凝药药效优化模型的建立装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述样本获取模块具体用于：

获取使用抗凝药的患者临床数据并进行数据清洗；

7.根据权利要求5所述的装置，其特征在于，所述预处理模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述模型构建模块具体用于：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至4任一所述的方法。