CN108091397B

CN108091397B - 一种缺血性心脏病患者的出血事件预测方法

Info

Publication number: CN108091397B
Application number: CN201810068813.2A
Authority: CN
Inventors: 黄正行
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2021-09-14
Anticipated expiration: 2038-01-24
Also published as: CN108091397A

Abstract

本发明公开了一种基于提升‑重采样和特征关联分析的缺血性心脏病患者出血事件预测方法，包括：(1)训练样本；(2)以逻辑回归模型为基础，引入提升‑重采样框架对训练样本进行重采样，并根据患者样本‑样本相关关系、患者特征‑特征相关关系构建逻辑回归模型的损失函数，构建预训练模型；(3)以训练样本和训练样本对应的真值标签，对预训练模型进行训练，每一次迭代，利用重采样获得的均衡子样本集对逻辑回归模型进行训练，获得与均衡子样本集对应的一个弱分类器，经过多次迭代获得的多个弱分类器，构成缺血性心脏病患者出血事件预测模型；(4)利用所述缺血性心脏病患者出血事件预测模型预测待测样本发生出血事件的概率。

Description

一种缺血性心脏病患者的出血事件预测方法

技术领域

本发明属于数据处理领域，具体涉及一种基于提升-重采样和特征关联分析的缺血性心脏病患者的出血事件预测方法。

背景技术

缺血性心脏病(Ischemic Heart Disease，IHD)，又称为冠心病(Coronary ArteryDisease，CAD)，是目前人类的头号杀手。预计到2030年，全球约将有9,100,000人死于该病，占全球死亡总人数的14.2％，在未来的几十年中将继续保持全球最主要的死亡因素的位置。

IHD患者住院期间可能会发生如心肌梗死、恶化的心绞痛、血运重建等缺血事件。缺血事件与出血并发症有关，行冠状动脉造影的IHD患者存在大出血风险，服用治疗心血管疾病药物如普拉舒格雷会相应增加出血事件发生的概率。另一方面，出血事件的治疗可能相应地增加缺血事件的风险。因此，预测IHD患者出血风险至关重要，是IHD治疗预防的重要组成部分。

现有的IHD患者出血事件风险预测模型，例如CRUSADE，用来估计IHD患者发生出血事件的风险等级。这些工具已经在临床实践中得到应用，并在指导缺血性心脏病的护理和治疗方面取得了巨大的成就。虽然有价值，但现有的临床风险评分模型有几个明显的局限性，例如，风险评分工具都只选择少量的特征作为风险因子项，虽然简化了计算，方便其在临床环境中使用，然而这也导致了评分工具缺乏可概括性。

随着医疗信息化的迅速发展，许多科研工作者基于电子健康记录构建机器学习模型，来预测出血事件发生概率。尽管这些努力很有价值，但建立可靠的出血事件预测模型仍然是医学筛查的一个主要难题。

在真实的临床环境中，电子健康记录中记录的出血事件非常地不平衡。这样的不平衡问题会造成高偏置，即训练结果偏向于多数类样本，并影响最终的预测性能。

除了出血事件的类别不平衡问题，通常情况下，电子健康记录中的病人特征维度较高，大量不相关的冗余特征可能会导致过度拟合，泛化能力不足。为了提高临床风险预测的准确性，更好地了解IHD的潜在危险因素，有必要消除不相关的、几乎不含预测信息的特征。传统的特征选择技术很少考虑样本之间的相似性，且忽略了IHD患者特征之间的潜在相关性，把内在相关的患者特征作为独立的因素来处理，因此不能全面地反映电子健康记录的分布。

发明内容

本发明的目的是提供一种缺血性心脏病患者的出血事件预测方法。该方法可对缺血性心脏病患者的出血事件发生概率进行预测，从而辅助医生制定合理的诊疗措施，支持临床决策，降低医疗开支。

为实现上述目的，本发明提供以下技术方案：

一种基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法，包括以下步骤：

(1)采集缺血性心脏病患者的电子健康记录，并对所述电子健康记录进行清洗预处理，对样本是否发生出血事件进行标注，得到训练标签，构建训练样本；

(2)以逻辑回归模型为基础，引入提升-重采样框架对训练样本进行重采样，并根据患者样本-样本相关关系、患者特征-特征相关关系构建逻辑回归模型的损失函数，构建预训练模型；

(3)以所述训练样本作为所述预训练模型的输入层，以所述训练样本对应的真值标签作为所述预训练模型的输出层，对所述预训练模型进行训练，每一次迭代，利用重采样获得的均衡子样本集对逻辑回归模型进行训练，获得与均衡子样本集对应的一个弱分类器，经过多次迭代获得的多个弱分类器，构成缺血性心脏病患者出血事件预测模型；

(4)将清洗预处理后的待测样本输入所述缺血性心脏病患者出血事件预测模型，经计算得到所述待测样本发生出血事件的概率，实现对缺血性心脏病患者出血事件的预测。

其中，所述提升-重采样框架对训练样本进行重采样的具体过程为：

对于输入的训练数据集

在每一步迭代l开始之前，通过前一轮迭代更新的样本权值进行带权重采样，获得平衡子样本集

并根据平衡子集

训练逻辑回归模型，待损失函数收敛，获得与该平衡子样本集

对应的弱分类器h^l(x)，采用

中所有的数据作为预测样本，输入到弱分类器h^l(x)中，将经弱分类器h^l(x)计算得到的预测结果更新样本权值w^l，更新后的权值w^l用于下一次迭代采样。

所述权值w^l的更新方法为：

其中，β^l为弱分类器h^l(x)在出血事件预测模型Θ(H,B)中的权重，Z为归一化参数，ε^l为数据集

基于这个弱分类器h^l(x)得到的预测错误率。

具体地，在预训练模型中：

患者样本-样本相关关系定义为：

其中，对称关系矩阵S_samp(i,j)是反映患者样本i和j相似度的权重系数，

和

表示患者样本x_i和x_j的预测结果；σ为高斯核的超参数；

患者特征-特征相关关系定义为：

其中，S_feat(i,j)是在矩阵S_feat＝[S_feat(i,j)]∈R^M×M中的一个元素，是反映特征i和j相似度的权重系数；σ为高斯核的超参数，wⁱ、w^j为特征i和j对应的权重向量，xⁱ、x^j为样本在特征i和j上的取值。

所述患者样本-样本相关关系，患者特征-特征相关关系采用拉普拉斯算子进行编码转化为正则化项：

R_samp(W)＝tr(XW^TL_sampXW)

R_feat(W)＝tr(W^TL_featW)

其中，L_samp＝D_samp-S_samp，L_feat＝D_feat-S_feat为对应的拉普拉斯矩阵。S_samp是样本关系矩阵，D_samp是S_samp的对角矩阵，其对角元素是S_samp的列和，S_feat是特征关系矩阵，D_feat是S_feat的对角矩阵，其对角元素是S_feat的列和，W为权值矩阵，X为样本，tr(·)代表迹的运算公式，为矩阵对角线上值的和。

编码的样本-样本相关关系，特征-特征相关关系以约束的方式引入目标函数，再将L2-范数正则化项引入目标函数，获得的目标函数L为：

其中，R_rid(W)为L2正则约束，λ_rid为对应的权值参数，λ_samp为R_samp(W)权重参数，λ_feat为R_feat(W)权重参数，

与现有技术相比，本发明方法具有的优点为：

通过可导入患者电子健康记录，在线预测IHD患者的出血事件发生概率，从而辅助医生制定合理的诊疗措施，支持临床决策，降低医疗开支，改善IHD患者预后。

附图说明

图1是实施例提供的医学语义类型标注对照表；

图2是实施例提供的基于提升-重采样的缺血性心脏病患者出血事件的预测模型结构示意图；

图3是实施例提出的BRM预测模型与CRUSADE队列研究模型的评估结果比较图；

图4是实施例提出的BRM预测模型与CRUSADE队列研究模型的ROC曲线比较图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本发明的主要思想是基于提升-重采样框架来预测IHD患者出血事件发生概率，对多数类样本欠采样，对少数类样本过采样，在不同权重的样本中获得平衡子样本集，并将这个带权重采样技术整合入一个前向提升框架，样本以不同的权值迭代地训练一组预测出血事件的弱分类器，最终构成出血事件强预测模型。构建出血事件弱分类器时，考虑到电子健康记录(Electronic Health Records，EHR)高维非线性，将特征-特征相关关系，样本-样本相关关系编码为正则化项，以约束的方式加入目标函数，把内在相关的患者特征作为独立的因素来处理，保留了特征之间、样本之间的相似性，提高了模型的泛化能力。

本实施例提供的缺血性心脏病患者的出血事件预测方法包括以下步骤：

S101，采集缺血性心脏病患者的电子健康记录，并对所述电子健康记录进行清洗预处理，得到训练样本。

该步骤中，对电子健康记录进行清洗预处理的具体步骤为：

首先，基于规则的医学语言处理模型处理入院记录，采用最大反向匹配对血性心脏病患者的入院记录进行自动分词，同时，采用命名实体识别的方法对分割出来的词汇和短语进行语义类型标注，标注成符号表达式；将分词标注之后的入院记录分割成子句，按照优先级顺序依经过患者特征匹配规则得到符号式患者特征，并通过符号表达式-词典对照恢复成标注前的词汇或短语，得到相应的患者特征；

随后，将得到的患者入院初期的患者特征与结构化LabTest实验室检验信息相结合，得到患者样本特征；

最后，基于病程录标注患者样本标签，与患者样本特征构建缺血性心脏病患者训练样本。

患者的各种信息都以一种相对固定的方式书写在病程记录当中。例如，如果患者的冠状动脉出现了狭窄，则“狭窄”一次通常会出现在“冠状动脉”一词之后；并且，在病程记录中，通常都用以逗号为结束的一条子句来阐述一个独立特征。基于以上观察，本实施例提出了一种基于规则的医学语言处理(Rule-Based Medical Language Processing，RBMLP)方法。该方法主要由医学词典、分词标注器和规则匹配器三部分组成。

完整全面的医学词典，是实现自动命名实体识别、词法分析、词性标注和语义标注等处理的不可缺少的关键资源。本实施例采用SNOMED CT医学词典作为基础词典，由一名临床工程师手动从合作医院心血管内科发布的IHD临床诊疗指南中提取和编码医学词汇及其语义类型，将其添加到上述基础字典中作为本研究的原型词典。为了进一步完善该原型词典，本申请首先删除了一些本文方法中使用不到的相关语义类型的词汇，如单位、时间等词汇；接着，为了提高基于该医学词典的分词标注器的效果，将基础字典中的非医学相关的词汇也添加到该原型字典中；然后将该原型词典映射到50份随机选择的患者入院记录当中，通过临床工程师人工检查的方法，将遗漏的关键性词汇，如描述性词汇、症状、诊断等，及其语义类型添加到了原型词典当中。在完善原型词典的过程中，不断重复地咨询临床医生来确认所添加的医学词汇及其语义类型是否合理，确保词典构建的有效性。最终，经过完善后医学词典一共包括229282条词汇，其中医学相关词汇81696条，非医学相关词汇147586条，语义类型14种。具体的统计信息如图1所示。

依据上述医学词典，文实施例采用了反向最大匹配法(Reverse DirectionalMaximum Match，RMM)来实现对入院记录的自动分词。依托上述完善后的医学词典，RMM算法将自由文本分割成了词汇或短语，为语义类型标注提供了前提条件。根据RMM算法分割出来的词汇和短语，定义了一组特定的符号表达式来进行标注工作。该符号表达式由三部分组成：语义类型缩写、特殊结构字符以及词汇编号。语义类型缩写为需要进行标注的词汇或短语在医学字典中所对应的语义类型的缩写；特殊结构字符是由特殊字符组成的用以从全文中区分符号表达式的特殊结构，本实施例使用“##”作为特殊结构字符；词汇编号旨在标识所标注的词汇或短语的序号，用以通过符号表达式重新检索标注前的词汇或短语。表1列举了本文中所有的特殊结构字符。

表1符号表达式

通过阅读随机选取的50份患者入院记录，一共定义了18条按优先级排序的患者特征匹配规则。通过使用标点驱动的句子边界检测算法(Punctuation-driven SentenceBoundary Detection Algorithm)，规则匹配器首先将分词标注之后的入院记录分割成子句；然后，分割得到的子句按照规则优先级顺序依次经过18条规则。在相应的规则中，会有否定检出算法(Negative Detection Algorithm)对该子句所要提取的患者特征进行否定检测来判断是肯定含义还是否定含义。表2列举了4条常用规则及其正则表达式和匹配结果。根据规则匹配器匹配到的患者特征，通过相应的词汇编号将符号表达式检索恢复成标注前的词汇或短语，得到相应的患者特征。

表2常用规则及其正则表达式和匹配结果

S102，以逻辑回归为基础建立训练模型。所述模型包括提升-重采样框架，即将带权重采样算法融入前向提升框架，迭代地获得一组弱分类器；特征关联分析即在构建弱分类器的同时，由于EHR数据高维非线性，将特征-特征相关关系，样本-样本相关关系编码为正则化项，以约束的方式加入目标函数，把内在相关的患者特征作为独立的因素来处理，保留了特征之间、样本之间的相似性。

如图2所示，为基于提升-重采样的缺血性心脏病患者出血事件预测模型，在每一步迭代开始之前，都通过前一轮迭代更新的样本权值进行带权重采样。获得子样本后，通过先进的机器学习算法去训练对应的弱分类器。训练样本中的所有患者样本基于这个弱分类器得到的预测结果更新权值，用于下一轮迭代。基于上述过程，患者样本以不同的权值迭代重用，学习多个弱分类器，集成构建强大的主要不良心血管事件预测模型。具体来算法流程如下所示：

定义训练数据集为

其中，N为训练样本数，x_i∈R^m，x_i以一个m维的特征向量表示，代表一个IHD患者i。y_i∈{0,1}，表示这个患者是否发生了出血事件，取1代表发生了出血事件。定义强分类器为Θ(H,B)，其中，H＝{h¹,h²,…,h^L}表示弱分类器集合，B＝{β¹,β²,…,β^L}表示为弱分类器在强预测模型中的权重，L为迭代次数。

每一个弱分类器h^l由第l轮迭代时获得的平衡子样本集训练而得。对于输入弱分类器h^l的样本

会输出一个类别分布概率。

训练完弱分类器，可以获得患者训练样本的权值更新。通过h^l(x_i)获得训练集基于弱分类器h^l的错误率ε^l，

其中，

表示第l轮迭代时样本的权值分布，

代表一个示性函数，完整表达为Ⅰ(y_i≠sign(h^l(x_i))),其中，Ⅰ(True)＝1,Ⅰ(False)＝0。然后，可以基于错误率ε^l得到新的训练样本权值分布：

其中，

多轮迭代直至收敛，得到了最终的出血事件强预测模型：

本发明在构建出血事件弱分类器的同时，进行特征关联分析，具体来说，是指在原目标函数的基础上引入了特征—特征相关关系和样本—样本相关关系这两种相关关系正则化项。设计的基本原理是患者样本彼此相似，那么它们的风险评分也应该相近。从这个意义上讲，样本—样本关系的设计是为了保留患者样本之间的相似性关系，而特征—特征关系则保留了患者特征之间的相似关系。本发明将这两种相关性关系用拉普拉斯算子进行编码，以正则约束的方式加入到目标函数中共同训练。为了解决EHR数据的稀疏性问题，还引入了L2-范数正则化项。随后，利用降维的EHR数据，训练一个预测IHD患者临床风险的逻辑回归模型。

在每一次迭代l中，根据样本权值b_l，对样本D_T进行采样，得到子样本集

构建IHD患者出血事件弱分类器。每一个弱分类器h^l(x)被定义为：

h^l(x)＝σ(<w,x>)

其中，w为弱分类的参数，x为得到的子样本，<·,·>表示内积，σ(·)是sigmoid函数，sigmoid函数表示为：

患者样本-样本相关关系定义为：

和

表示患者样本x_i和x_j的预测结果，σ为高斯核的超参数。

患者特征的相关关系定义为：

其中，S_feat(i,j)是在矩阵S_feat＝[S_feat(i,j)]∈R^M×M中的一个元素，是反映特征i和j相似度的权重系数。σ为高斯核的超参数，wⁱ、w^j为特征i和j对应的权重向量，xⁱ、x^j为样本在特征i和j上的取值。

随后，将样本-样本相关关系，特征-特征相关关系用拉普拉斯算子进行编码转化，并引入目标函数：

R_samp(W)＝tr(XW^TL_sampXW)

R_feat(W)＝tr(W^TL_featW)

其中，L_samp＝D_samp-S_samp，L_feat＝D_feat-S_feat即为对应的拉普拉斯矩阵。S_samp是样本关系矩阵，D_samp是S_samp的对角矩阵，其对角元素是S_samp的列和，S_feat是特征关系矩阵，D_feat是S_feat的对角矩阵，其对角元素是S_feat的列和，W为权值矩阵，X为样本，tr(·)代表迹的运算公式，为矩阵对角线上值的和。

引入正则约束的弱分类器目标函数可以被重写为：

λ_samptr(XW^TL_sampXW)+λ_feattr(W^TL_featW)

其中：R_rid(W)为L2正则约束，λ_rid为对应的权值参数，λ_samp为R_samp(W)权重参数，λ_feat为R_feat(W)权重参数，

S103，以所述训练样本作为所述预训练模型的输入层，以所述训练样本对应的真值标签作为所述预训练模型的输出层，对所述模型进行训练，得到缺血性心脏病患者出血事件预测模型；

S104，将清洗预处理后的待测样本输入所述缺血性心脏病患者出血事件预测模型，经计算得到所述待测样本发生出血事件的概率，实现对缺血性心脏病患者出血事件的预测。

实施例

本实例采用的缺血性心脏病患者病例数据中共有2930份，由中国人民解放军总医院提供，不包括姓名等私人信息。在整个数据集中，从患者电子健康记录中共收集230项患者特征，数据集样本分析结果如表3所示。

表3样本分析结果

然后，按照实施步骤流程进行训练。

为了更好地比较本发明所提出模型的优越性，这里分三个方面进行对比试验。第一个方面，体现提升-重采样处理不平衡数据的优越性。与三种基准算法进行比较，分别是逻辑回归LR、随机森林RF，AdaBoost；第二个方面，与仅加入L2正则约束的基于提升-重采样框架的模型BM进行对比。除此之外，第三个方面，与基于队列研究的CRUSADE出血事件风险评估模型进行对比分析。本发明所提出的方法标记为BRM。

同时，本发明采用五折交叉验证，基于曲线下面积AUC，以及准确度ACC，多数类准确度ACC@maj，少数类准确度ACC@min对本发明所提出的模型性能进行评估。

如表4所示，为BRM与基准机器学习算法——LR、RF、AdaBoost，以及与仅加入L2正则约束的基于提升-重采样框架的模型BM评估结果对比。从表4中可以看出，在与LR、RF、AdaBoost相比，ACC@min以及AUC大幅度提高，这说明传统的机器学习算法无法识别出可能会发生出血事件的IHD患者，相比之下，BRM对少数类样本有了较好的识别度，说明采用了提升-重采样算法可以很好地处理样本不平衡问题；在与BM的对比中，各项评估指标均有提高，分别提高了10.39％，10.5％，7.68％，5.6％，这说明保留特征、样本之间的相关性信息可以提高模型的预测性能。

需要注意的是，LR、RF、AdaBoost的ACC要高于BRM，这意味着ACC@min对它的影响受到多数类样本的高ACC@maj的稀释。此外，出现了AUC小于0.5的情况，由于样本的不平衡性，阳性样本比阴性样本少得多，在已定正样本和负样本的情况下，TP的增加速度要远远小于FP的的增加速度，因此ROC是凹的，出现了AUC值小于0.5的情况。

表4 BMR与其他基准机器学习算法比较

如图3所示，为BRM与基于队列研究的风险评估模型CRUSADE评估结果比较，图3中，AUC为基于曲线下面积，ACC为准确度，ACC@maj为多数类准确度，ACC@min为少数类准确度。

如图4所示，为更详细的ROC曲线比较结果。BRM在出血事件上的精确度为0.659，AUC值为0.640，比CRUSADE分别高出19.8％，23.1％。由此可以看出，本发明提出的BRM要优于基于队列研究的模型。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法，包括以下步骤：

(4)将清洗预处理后的待测样本输入所述缺血性心脏病患者出血事件预测模型，经计算得到所述待测样本发生出血事件的概率，实现对缺血性心脏病患者出血事件的预测；

步骤(1)的具体过程为：

首先，基于规则的医学语言处理模型处理入院记录，采用最大反向匹配对缺血性心脏病患者的入院记录进行自动分词，同时，对分割出来的词汇和短语进行语义类型标注，标注成特定意义的符号表达式；将分词标注之后的入院记录分割成子句，按照优先级顺序依经过患者特征匹配规则得到符号式患者特征，并通过符号表达式-词典对照恢复成标注前的词汇或短语，得到相应的患者特征；

2.如权利要求1所述的基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法，其特征在于，所述提升-重采样框架对训练样本进行重采样的具体过程为：

对于输入的训练数据集

并根据平衡子集

对应的弱分类器h^l(x)，采用

中所有的数据作为预测样本，输入到弱分类器h^l(x)中，将经弱分类器h^l(x)计算得到的预测结果更新样本权值w^l，更新后的权值w^l用于下一次迭代采样；

其中，N为训练样本数，x_i代表一个缺血性心脏病患者，y_i∈{0,1}，表示这个患者是否发生了出血事件，取1代表发生了出血事件。

3.如权利要求2所述的基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法，其特征在于，所述权值w^l的更新方法为：

基于这个弱分类器h^l(x)得到的预测错误率。

4.如权利要求1所述的基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法，其特征在于，在预训练模型中：

患者样本-样本相关关系定义为：

和

表示患者样本x_i和x_j的预测结果；σ为高斯核的超参数；

患者特征-特征相关关系定义为：

其中，S_feat(i,j)是在矩阵S_feat＝[S_feat(i,j)]∈R^M×M中的一个元素，是反映特征i和j相似度的权重系数；wⁱ、w^j为特征i和j对应的权重向量，xⁱ、x^j为样本在特征i和j上的取值。

5.如权利要求4所述的基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法，其特征在于，所述患者样本-样本相关关系，患者特征-特征相关关系采用拉普拉斯算子进行编码转化为正则化项：

R_samp(W)＝tr(XW^TL_sampXW)

R_feat(W)＝tr(W^TL_featW)

其中，L_samp＝D_samp-S_samp，L_feat＝D_feat-S_feat为对应的拉普拉斯矩阵，S_samp是样本关系矩阵，D_samp是S_samp的对角矩阵，其对角元素是S_samp的列和，S_feat是特征关系矩阵，D_feat是S_feat的对角矩阵，其对角元素是S_feat的列和，W为权值矩阵，X为样本，tr(·)代表迹的运算公式，为矩阵对角线上值的和。

6.如权利要求5所述的基于提升-重采样和特征关联分析的缺血性心脏病患者出血事件预测方法，其特征在于，编码的样本-样本相关关系，特征-特征相关关系以约束的方式引入目标函数，再将L2-范数正则化项引入目标函数，获得的目标函数L为：

其中，R_rid(W)为L2正则约束，λ_rid为对应的权重参数，λ_samp为R_samp(W)的权重参数，λ_feat为R_feat(W)的权重参数，