CN110751996B

CN110751996B - 基于递归分区计算的高血压用药推荐模型及其构建方法

Info

Publication number: CN110751996B
Application number: CN201910850647.6A
Authority: CN
Inventors: 洪东升; 刘晓健; 倪剑; 羊红玉; 卢晓阳; 李秀央; 李鲁
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2020-12-15
Anticipated expiration: 2039-09-10
Also published as: CN110751996A

Abstract

本发明公开了基于递归分区计算的高血压用药推荐模型及其构建方法，包括步骤：通过ICD编码获取高血压数据集合，并将数据集解析、处理为标准化的文本病历格式；文本病历格式化为含高血压用药特征的分类变量，并定义模型框架；数据集合通过年龄的分层抽样方法划分为测试样本集和验证样本集；基于测试样本集，利用递归分区算法计算模型的拟合度、判断用药节点的复杂度；建立模型参数池、设定参数组成；通过验证样本集，求解最优模型参数，实现高血压用药推荐模型的构建与优选。本发明通过大数据分析的手段，解析不同用药方案在高血压患者个体化应用中的识别方法，根据患者治疗分类特征实现单一用药或联合用药方案的快速选择。

Description

基于递归分区计算的高血压用药推荐模型及其构建方法

技术领域

本发明涉及医药领域，尤其涉及基于递归分区计算的高血压用药推荐模型及其构建方法。

背景技术

高血压对我国造成的疾病负担日趋严重，约62％卒中事件和49％冠心病的发生与高血压密切相关，且由心脑血管疾病死亡已经占到总死亡人数的40％以上。同时，随着中国疾病谱的改变，高血压及其并发症给社会带来的负担势必进一步增加。药物治疗是目前公认的高血压治疗的基本方法，而当前用药方案多基于医师的临床经验和以指南作为指导，忽视了个体间疗效差异和不良反应，从而影响患者的治疗效果并导致不良事件增加。因此，探寻一种有效的高血压药物治疗管理模式，具有重要的应用前景及临床价值。

高血压的治疗药物包括CCB、ACEI、ARB、利尿剂和β受体阻滞剂五类，以及由上述药物组成的固定配比复方制剂。其中利尿剂、CCB、ACEI及ARB均可作为初始治疗药物、可单独或联合应用，具体判断因素可以根据患者的危险因素、亚临床靶器官损害以及合并临床疾病情况，进行综合判断。此外，高血压治疗药物品种已达近百种，这些药物在作用机制、给药剂量、不良反应和禁忌症方面各不相同。复杂临床环境与患者特征的多样性是限制高血压药物合理应用有效解决的重要原因之一。因此，如何根据患者治疗特征和不同用药方案的作用特点，为临床提供单一用药或联合用药的治疗策略已经成为决策者面临的重要问题。

发明内容

本发明的目的是针对现有技术的缺陷，提供了基于递归分区计算的高血压用药推荐模型及其构建方法，可以根据患者治疗特征快速实现单一用药或联合用药方案的快速选择。

为了实现以上目的，本发明采用以下技术方案：

基于递归分区计算的高血压用药推荐模型及其构建方法，包括以下步骤：

基于递归分区计算的高血压用药推荐模型及其构建方法，其特征在于，包括以下步骤：

S1、通过ICD编码获取高血压数据集合，并将数据集解析并处理为标准化的文本病历格式；

S2、将步骤S1中的文本病历格式化为多个分类变量，将数据集合通过基于年龄的分层抽样方法分为测试样本集和验证样本集；

S3、通过决策树框架、定义高血压用药推荐模型；

S4、通过测试样本集，计算模型的拟合度，具体包括：S41、高血压用药特征参数的评估：选择一个预测变量将测试样本分为单一用药和联合用药两类，通过递归分区算法实现单一用药和联合用药两类之间的拟合度最大化；S42、各类别内输出变量之间数值变异最小化：对于每个子类，重复步骤S41的操作，直到各类别内的输出变量不能被精准区分为止；

S5、判断S4中初始高血压用药节点的复杂度；

S6、建立模型参数池，设定参数组合的集合；

S7、求解模型最优参数：S71、遍历S6步骤得到的所有参数组合，通过交叉验证测试样本集数据获得的模型来预测验证样本集数据的用药推荐结局，并与验证样本集数据的实际结局方案进行比较，计算错分率，S72、得到错分率最低的参数组合作为最优参数组合进行输出；

S8、模型构建及预测：S81、模型构建：通过步骤S4、S5、S6、S7的步骤，将测试集中每个样本归类到终端节点的用药方案，并根据终端节点中本单元用药方案的众数判断节点的属性；S82、样本预测：对于验证集中的每一个样本执行高血压用药推荐模型，得到其终端节点，并根据S71得到模型预测的所属用药方案，从而实现模型的评价与校验。

进一步的，所述S41中递归分区算法包括分组方案基尼(Gini)指数纯度的计量和为每个分组分配数据，Gini的计量公式为：

其中f_i(i＝1,…,p)是第i个待预测分类(不同用药方案)节点中的相对频率；进一步通过相对频率的计量，Gini指数计算从一个分组方案中随机选取两个不同类型的概率；假设每次分割为k个子节点，包含n₁,n₂,…,n_k都应该造成纯度的最大增量，而从最大限度的降低Gini指数，即最小化每个分组的Gini指数数值，通过公式实现：

进一步的，S41还包括分割节点选择：确定高血压用药推荐模型的分割点时，每个样本分配到一个类别中，每个类别包含一定比例的单一用药样本和联合用药样本，通过样本的预测变量和损失函数f_i，判断每个样本的可能结局，并定义分组中所有个体的分类。

进一步的，S42还包括定义分组中所有个体的分类规则：如果分组中个体指定单一用药j的代价低于指定给联合用药的代价，则为分组指定类j，其中代价C_j通过公式计算：

进一步的，步骤S5通过以下步骤实现：S51、交叉验证误差的标准差计算：通过交叉验证获得测试样本的交叉验证误差，计算交叉验证误差的标准差；S52、用药方案的分支数确定：通过判断最小的交叉验证误差的标准差，确定用药方案的分支数；S53、根据步骤S51和S52确定用药节点间的初始复杂度。

进一步的，所述步骤S5后还包括步骤S54、判断模型是否需要修正，若是则通过交叉验证方法进行修正，若否跳转至步骤S6。当结果产生错误时，进行修正。

进一步的，所述步骤S6具体包括以下三种类别：迭代次数为1至10(n)的整数，分支节点数为5、10、15、20，复杂度为0.001(0～0.005)，通过上述三种参数设定多种参数组合。

进一步的，所述步骤S7后还包括步骤S73、当最优参数解无法获取时，通过标定模型特验参数返回步骤S4。

进一步的，所述步骤S7标定模型特验参数，具体初始标定的模型特验参数为：迭代次数设5次、最小分支节点数20、复杂度0.01。

进一步的，所述的模型第一个分类节点为是否老年患者，如为老年患者则形成第1个分类；针对第一个分类节点进一步判断患者是否伴有糖尿病，如患者伴有糖尿病则形成第2个分类；如患者不伴有糖尿病，则判断患者是否伴有动脉粥样硬化，如存在动脉粥样硬化则形成第3个分类；如不存在动脉粥样硬化，则判断患者是否伴有慢性肾病，如存在慢性肾病则形成第4个分类；如不存在慢性肾病，则判断患者BMI指数，如患者为肥胖患者，则形成第5个分类；如患者BMI指数正常,则判断患者性别，如患者为女性则形成第6个分类，如为男性则形成第7个分类。

进一步的，所述模型的第1个分类、第2个分类、第3个分类推荐为联合用药方案；所述的第4个类、第5个分类、第6个分类、第7个分类为单独用药方案。

采用本发明技术方案，本发明的有益效果为：与现有技术相比，本发明通过大数据分析的手段，解析不同用药方案在高血压患者个体化应用中的评估优选方法，实现根据高血压患者治疗特征的单一用药或联合用药方案的快速选择。

附图说明

图1是本发明提供的基于递归分区计算的高血压用药推荐模型及其构建方法流程图。

图2是本发明提供的一种高血压用药推荐模型的模型结构图；

图3是本发明求解最优参数过程示意图；

图4是本发明提供的一种高血压用药推荐模型具体实现示意图。

具体实施方式

结合附图对本发明具体方案具体实施例作进一步的阐述。

如图所示，基于递归分区计算的高血压用药推荐模型及其构建方法，包括以下步骤：

S1、通过ICD编码获取高血压分析数据集合，并将数据集解析并处理为标准化的文本病历格式；具体的ICD-10编码包括：I10.X00，I10.X01，I10.X02，I10.X03，I10.X04，I10.X05，I10.X06，I11.900，I12.903，I15.000。

S2、将步骤S1中的文本病历格式化为多个分类变量，将数据集合通过年龄的分层抽样方法分为测试样本集和验证样本集。

例如具体的，分类变量包括患者年龄、性别、体表面积、身高、诊断是否伴有(糖尿病、慢性肾病、动脉粥样硬化或脑梗死)和患者用药方案。

病历格式化：根据系统预先设定的信息，将患者年龄转化为老年患者和非老年患者两个分类变量，性别转为为男性和女性2个分类变量，通过患者身高和体表面积自动计算出体质指数，通过体质指数是否超过25和30，分别定义为正常和超重2个分类变量，诊断是否伴有(糖尿病、慢性肾病、动脉粥样硬化或脑梗死)皆转为为是与否2个分类变量，患者用药方案分为单独用药和联合用药2个分类变量。

其中测试样本集包含原有样本的70％，验证样本集包含原有样本的30％，测试样本集数据用于模型的构建，验证样本集数据用于模型的评价及校验

S3、通过决策树框架、定义高血压用药推荐模型。

S4、通过测试样本集数据，计算模型的拟合度，具体包括：S41、预测变量和分割点的评估：选择一个预测变量将测试样本和验证样本分为单一用药和联合用药两类，通过递归分区算法实现单一用药和联合用药两类之间的拟合度最大化；S42、各类别内输出变量之间数值变异最小化：对于每个子类，重复步骤S41的操作，直到各类别内的输出变量不能被精准区分为止。

所述S41中递归分区算法包括分组方案基尼(Gini)指数纯度的计量和为每个分组分配数据，Gini的计量公式为：

其中f_i(i＝1,…,p)是第i个待预测分类(不同用药方案)节点中的相对频率；进一步的通过相对频率的计量，Gini指数计算从一个分组方案中随机选取两个不同类型的概率；假设每次分割为k个子节点，包含n₁,n₂,…,n_k都应该造成纯度的最大增量，而从最大限度的降低Gini指数，即最小化每个分组的Gini指数数值，通过公式实现：

S41还包括分割节点选择：确定高血压用药推荐模型的分割点时，每个样本分配到一个类别中，每个类别包含一定比例的单一用药样本和联合用药样本，通过样本的预测变量和损失函数f_i，判断每个样本的可能结局，并定义分组中所有个体的分类。

S42还包括定义分组中所有个体的分类规则：如果分组中个体指定单一用药j的代价低于指定给联合用药的代价，则为分组指定类j，其中代价C_j通过公式计算：

S5、判断S4中初始模型节点的复杂度；步骤S5通过以下步骤实现：S51、交叉验证误差的标准差计算：通过交叉验证获得测试样本的交叉验证误差，计算交叉验证误差的标准差；S52、类别的分支数确定：通过判断最小的交叉验证误差的标准差，确定类别的分支数；S53、根据步骤S51和S52确定模型节点的初始复杂度为0.001。

所述步骤S5后还包括步骤S54、判断模型是否需要修正，若是则通过交叉验证方法进行修正，若否跳转至步骤S6。当结果产生错误时，进行修正。

S6、确定模型参数池，设定参数集合，具体包括以下三种类别：迭代次数为1至10的整数，最小分支节点数为5、10、15、20，复杂度为0.001，通过上述三种类别设定40种参数组合。

S7、求解模型最优参数：S71、遍历S6步骤得到的所有参数组合，通过交叉验证测试样本集数据获得的模型预测验证样本集数据的结局，并与验证样本集数据的实际结局进行比较，计算错分率，S72、得到错分率最低的参数组合作为最优参数组合进行输出。

所述步骤S7后还包括步骤S73、标定模型的特验参数，当最优参数解无法获取时，通过标定定模型特验参数返回值步骤S4。

S8、模型构建及预测：S81、模型构建：通过步骤S4、S5、S6、S7的步骤，将测试集中每个样本归类到终端节点，根据终端节点中本单元的类众数判断节点的属性；S82、样本预测：对于验证集中的每一个样本执行高血压用药推荐模型，得到其终端节点，并根据S81得到模型预测的所属类别，从而实现模型的评价与校验。

通过本发明方法构件具体的模型举例如下：

一种高血压的用药推荐模型，用药方案推荐的分组节点包括是否为老年患者、是否伴有糖尿病、是否伴有动脉粥样硬化、是否伴有慢性肾病、BMI指数和性别，并根据上述6个节点分为7方案组，7个方案组对应单独用药方案和联合用药方案2个类别。

所述的模型第一个分类节点为是否老年患者，如为老年患者则形成第1个分类；针对第一个分类节点进一步判断患者是否伴有糖尿病，如患者伴有糖尿病则形成第2个分类；如患者不伴有糖尿病，则判断患者是否伴有动脉粥样硬化，如存在动脉粥样硬化则形成第3个分类；如不存在动脉粥样硬化，则判断患者是否伴有慢性肾病，如存在慢性肾病则形成第4个分类；如不存在慢性肾病，则判断患者BMI指数，如患者为肥胖患者，则形成第5个分类；如患者BMI指数正常,则判断患者性别，如患者为女性则形成第6个分类，如为男性则形成第7个分类。

所述的为第一个分类、第二个分类、第三个分类推荐为联合用药方案；所述的第4个类、第5个分类、第6个分类、第7个分类为单独用药方案。

以上述模型为基础，具体实施例如下：

实施例一、

通过高血压ICD-10诊断编码(I10.X00，I10.X01，I10.X02，I10.X03，I10.X04，I10.X05，I10.X06，I11.900，I12.903，I15.000)的匹配，自动获得通过数据分析集，数据分析集的数据结构可以参见表1。

表1通过ICD诊断编码抓取获得模型构建分析数据集

通过分层抽样函数将数据自动分成测试集和验证集，其中测试集含有148个样本，验证集含有63个样本；针对测试数据集，以单独用药以及联合用药两种方案为因变量，对患者年龄、性别、体质指数(BMI指数)、身高、体重、诊断是否伴有(糖尿病、慢性肾病、动脉粥样硬化或脑梗死)9个因素进行分类的节点选择，其中BMI指数通过身高和体重获得，首先预设程序对所有自变量和所有可能的分割点进行评估，再通过Gini值使分割后组内数据的因变量取值变异最小化；本发明预先定义的变异系数CP为0.001实现对模型的复杂度以及过拟合度的平衡；并通过5倍的交叉检验的方法，最终确定高血压用药推荐模型的分类节点包括是否为老年患者、是否伴有糖尿病、是否伴有动脉粥样硬化、是否伴有慢性肾病、BMI指数和性别(如表2所示)。

表2模型构建的影响变量

具体高血压用药推荐模型如图2所示，模型第一个分类节点为是否老年患者，如为老年患者则形成第1个分类；针对第一个分类节点进一步判断患者是否伴有糖尿病，如患者伴有糖尿病则形成第2个分类；如患者不伴有糖尿病，则判断患者是否伴有动脉粥样硬化，如存在动脉粥样硬化则形成第3个分类；如不存在动脉粥样硬化，则判断患者是否伴有慢性肾病，如存在慢性肾病则形成第4个分类；如不存在慢性肾病，则判断患者BMI指数，如患者为肥胖患者，则形成第5个分类；如患者BMI指数正常,则判断患者性别，如患者为女性则形成第6个分类，如为男性则形成第7个分类；第一个分类、第二个分类、第三个分类推荐为联合用药方案；第4个类、第5个分类、第6个分类、第7个分类为单独用药方案。

实施例二、

对原始数据集通过分层抽样函数将数据自动分成测试集和验证集，验证集包含63个样本，其中单独用药方案样本39个，联合用药方案组样本24个；对样本的是否为老年患者、是否伴有糖尿病、是否伴有动脉粥样硬化、是否伴有慢性肾病、BMI指数和性别6个参数进行一种高血压用药推荐模型的自动判断，并实现对患者用药方案的预判，预判结果为16个患者预测为联合用药组，47个患者预测为单独用药组(表3)，模型判断错误概率仅为22％。

表3高血压用药推荐模型预判结果与实际结果的比较

实施例三、

通过本发明方法，在多个分类变量中选取相应合适的2-3项变量，得出以下具体用药推荐实例，具体如图4所示。

1：新就诊高血压患者A年龄75岁，不伴有糖尿病，则通过高血压用药推荐模型判断可归纳到分组第1类，推荐联合用药。

2：新就诊高血压患者B年龄为35岁，伴有糖尿病，则通过高血压用药推荐模型判断可归纳到分组第2类，推荐联合用药。

3：新就诊高血压患者B年龄为42岁，不伴有糖尿病，但发现有高血脂症的并发症，则通过高血压用药推荐模型判断可归纳到分组第2类，推荐联合用药。

4：新就诊高血压患者B年龄为52岁，不伴有糖尿病，并发症无，则通过高血压用药推荐模型判断可归纳到分组第2类。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.基于递归分区计算的高血压用药推荐模型的构建方法，其特征在于，包括以下步骤：

S3、通过决策树框架定义高血压用药推荐模型；

S5、判断S4中初始高血压用药节点的复杂度；

S6、建立模型参数池，设定参数组合的集合；

S8、模型构建及预测：S81、模型构建：通过步骤S4、S5、S6、S7的步骤，将测试集中每个样本归类到终端节点的用药方案，并根据终端节点中本单元用药方案的众数判断节点的属性；S82、样本预测：对于验证集中的每一个样本执行高血压用药推荐模型，得到其终端节点，并根据S81得到模型预测的所属用药方案，从而实现模型的评价与校验；

所述S41中递归分区算法包括分组方案Gini纯度的计量和为每个分组分配数据，Gini的计量公式为：

其中f_i是第i个待预测分类中节点的相对频率，i＝1，…，p；Gini指数计算从一个分组方案中随机选取两个不同类型的概率；假设每次分割为k个子节点，包含n₁,n₂,…,n_k都应该造成纯度的最大增量，从而最大限度的降低Gini指数，即最小化每个分组的Gini指数数值，通过公式实现：

2.如权利要求1所述的基于递归分区计算的高血压用药推荐模型的构建方法，其特征在于，S42还包括定义分组中所有个体的分类规则：如果分组中个体指定单一用药j的代价低于指定给联合用药的代价，则为分组指定类j，其中代价C_j通过公式计算：

3.如权利要求1所述的基于递归分区计算的高血压用药推荐模型的构建方法，其特征在于，步骤S5通过以下步骤实现：S51、交叉验证误差的标准差计算：通过交叉验证获得测试样本的交叉验证误差，计算交叉验证误差的标准差；S52、用药方案的分支数确定：通过判断最小的交叉验证误差的标准差，确定用药方案的分支数；S53、根据步骤S51和S52确定用药节点间的初始复杂度。

4.如权利要求1所述的基于递归分区计算的高血压用药推荐模型的构建方法，其特征在于，所述步骤S5后还包括步骤S54、判断模型是否需要修正，若是，则通过交叉验证方法进行修正；若否跳转至步骤S6。

5.如权利要求1所述的基于递归分区计算的高血压用药推荐模型的构建方法，其特征在于，所述步骤S6具体包括以下三种类别：迭代次数为1至10的整数，分支节点数为5、10、15、20，复杂度为0.001，通过上述三种参数设定多种参数组合。

6.如权利要求1所述的基于递归分区计算的高血压用药推荐模型的构建方法，其特征在于，所述步骤S7后还包括步骤S73、当最优参数解无法获取时，通过标定模型的待验参数返回步骤S4。

7.如权利要求2所述的基于递归分区计算的高血压用药推荐模型的构建方法，其特征在于，所述的模型第一个分类节点为是否老年患者，如为老年患者则形成第1个分类；针对第一个分类节点进一步判断患者是否伴有糖尿病，如患者伴有糖尿病则形成第2个分类；如患者不伴有糖尿病，则判断患者是否伴有动脉粥样硬化，如存在动脉粥样硬化则形成第3个分类；如不存在动脉粥样硬化，则判断患者是否伴有慢性肾病，如存在慢性肾病则形成第4个分类；如不存在慢性肾病，则判断患者BMI指数，如患者为肥胖患者，则形成第5个分类；如患者BMI指数正常,则判断患者性别，如患者为女性则形成第6个分类，如为男性则形成第7个分类。

8.如权利要求7所述的基于递归分区计算的高血压用药推荐模型的构建方法，其特征在于，所述模型的第1个分类、第2个分类、第3个分类推荐为联合用药方案；所述的第4个类、第5个分类、第6个分类、第7个分类为单独用药方案。